JP3724847B2 - 構造化文書差分抽出方法および装置 - Google Patents
構造化文書差分抽出方法および装置 Download PDFInfo
- Publication number
- JP3724847B2 JP3724847B2 JP16139895A JP16139895A JP3724847B2 JP 3724847 B2 JP3724847 B2 JP 3724847B2 JP 16139895 A JP16139895 A JP 16139895A JP 16139895 A JP16139895 A JP 16139895A JP 3724847 B2 JP3724847 B2 JP 3724847B2
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- document
- structured
- difference
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【産業上の利用分野】
本発明は、電子ファイルとして記憶されている構造化文書間の差分文字列を抽出することができるワープロ等の文書処理装置における構造化文書差分文字列抽出方法及び装置に関する。
【0002】
【従来の技術】
構造化文書とは、文書の論理的な構造の情報、例えば”文書中のこの部分は章である”、”この部分はタイトルである”といった情報が埋め込まれた文書のことである。
また、文書間の差分抽出とは、文書を構成する段落、行、文字等の要素を単位に、これらの要素がもっともよく一致する組合せを検出し、一致しない要素を差分として抽出することである。例えば、差分抽出の対象とする二つの文書を「ABCDEFG」と「ACDAEFH」とした場合、要素をA,B,C,D,E,F,G,Hとして二つの文書を要素単位で比較した時、もっともよく一致する組合せとして”ACDEFが対応する”と検出し、また差分として”Bが削除”、”AがDの後に挿入”、”GがHに変更”と抽出することである。
従来の差分抽出方式には、特開平2−255964号公報などがあり、句読点、行、単語、文字などを単位に比較を行っている。この方式を構造化文書に適用すると、文書中に埋め込まれた論理的な構造を表す文字列も、文書中の他の文字列と同様に比較を行う。
【0003】
【発明が解決しようとする課題】
しかしながら、構造化文書を通常の文書と同様の手段で差分抽出した場合、結果が文書の論理構造と合わず文書編集者にとって適切でない場合がある。次に例を示し説明する。
【0004】
(例1)
差分抽出において文書の論理構造が合わないもの同士を対応付けてしまい、文書編集者にとって適切でない抽出結果となる場合を、図3の構造化文書を例にとり説明する。
図3の構造化文書はSGML(Standard Generalized Markup Language)で記述されたもので、<A>と</A>で挟まれた文字列が、論理構造Aに属していることを意味する。すなわち、図3(a)の<氏名>と</氏名>で挟まれた文字列“平成太郎”が、論理構造“氏名”に属する。
また、この論理構造を表すマークのことをタグと呼び、<A>と</A>はそれぞれ開始タグ、終了タグと呼ぶ。
従来の手法により、図3の(a),(b)二つの構造化文書の差分文字列を抽出した結果を図4に示す。
図4(b)は、図3(a)の構造化文書を基準として図3(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図4(a)は、図3(b)の構造化文書を基準として図3(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図4を見ると、<氏名>の“平成”と<発信日>の“平成”が差分として抽出されていない。これは、“平成”同士が一致し、対応付けられてしまったことによる。しかし、この論理構造の合わない“平成”の対応付けは、文書編集者にとって意味がないことは明らかである。
【0005】
(例2)
文書の構造の挿入が起きたために、差分抽出において文書の構造にまたがって文字列を対応付けてしまい、文書編集者にとって適切でない抽出結果となる場合を、図5の構造化文書を例にとり説明する。図5は、(a)の第1章の前に、章を一つ挿入したものが(b)となっている。
従来の手法により、図5の(a),(b)二つの構造化文書の差分文字列を抽出した例を図6示す。
図6は図4の場合と同様であり、図6(b)が図5(a)を基準として図5(b)との差分を取った場合の差分文字列の抽出結果であり、図6(a)が図5(b)を基準として図5(a)との差分を取った場合の差分文字列の抽出結果である。
図6を見ると、(a)の第1章は(b)の第2章と同じであるにもかかわらず、(a)の第1章が、(b)の第1章と第2章にまたがって対応している。これも、文書編集者に対しては適切でない。
ここで、図5(a)における「構造化文書」と同じ文字列が図5(b)には2度現われているため、図6(b)では、最初の「構造化文書」は一致とされ、2度目の「構造化文書」は不一致とされ、差分として抽出される。このことは、以下の差分抽出において共通した取扱いである。
【0006】
(例3)
文書の論理的な意味は同じであるのに、論理構造を表すマークが異なるためその中身同士が対応付けられず、文書編集者にとって適切でない抽出結果となる場合を、図7の構造化文書を例にとり説明する。
図7では、文書の論理的な意味は項目であるのに、最初に出てくる項目だけ<初項目>というタグを付けている。
従来の手法により、図7の(a),(b)二つの構造化文書の差分文字列を抽出した例を図8示す。
図8は図4の場合と同様であり、図8(b)が図7(a)を基準として図7(b)との差分を取った場合の差分文字列の抽出結果であり、図8(a)が図7(b)を基準として図7(a)との差分を取った場合の差分文字列の抽出結果である。
図8を見ると、<初項目>同士が対応付けられ、その中身の文字列が比較されていることが分かる。文書編集者にとっては<初項目>と<項目>の論理的な意味は等しく、タグの中身を優先して対応させるべきである。
そこで、構造化文書間の差分を抽出する場合、構造化文書の論理的な意味や構造を考慮した比較が必要となるが、従来の方式では、論理的な構造を表す文字列も文書中の他の文字列と同様に比較を行うため、実現できなかった。
【0007】
本発明の目的は、構造化文書の論理的な意味や構造を考慮し、文書編集者の感覚に合った適切な構造化文書の差分を抽出することにある。
【0008】
【課題を解決するための手段】
上記目的を達成するため、本発明は、
記憶装置と処理装置を備え、前記記憶装置に削除、挿入、または変更などの編集を実施する前後の構造化文書を記憶し、前記処理装置により前記編集前後の両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出方法において、
構造化文書を文書編集して前記記憶装置に記憶し、前記記憶装置から読み出した編集前後の各構造化文書の論理構造を、編集前後の各構造化文書の論理構造に対して設定された比較基準に基づき構造化文書解析し、該構造化文書解析の結果に従い、前記比較基準を満たすよう構造化文書間の差分を抽出するようにしている。
前記比較基準を、論理構造を示すタグと該タグに対する基準の種類からなるテーブルとするようにしている。
さらに、前記比較基準におけるタグに対する基準の種類として、
(1)タグ自身が一致したときのみその中身を比較するタグ、
(2)比較する際、そのタグの中身の差異を無視するタグ、
(3)論理的な意味として同じタグの組、
(4)中身を比較しないタグの組、
の4つの基準の種類を定義しておくようにしている。
さらに、前記構造化文書解析により文書の構造を表わす文書木を作成し、該文書木のノード単位で構造化文書間の差分の抽出を行ない、一致しなかったノード同士に対して文字単位で差分を抽出するようにしている。
さらに、前記構造化文書解析によって文書の構造を表す文書木を作成する際に、前記比較基準に応じて、文書木のノードの割り当て方法を変えるようにしている。
また、記憶装置と処理装置を備え、前記記憶装置に削除、挿入、または変更などの編集を実施する前後の構造化文書を記憶し、前記処理装置により前記編集前後の両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出装置において、
前記処理装置は、構造化文書を編集して前記記憶装置に記憶する文書編集手段と、前記記憶装置から読み出した編集前後の各構造化文書の論理構造を、編集前後の各構造化文書の論理構造に対して設定された比較基準に基づき構造化文書解析する構造化文書解析手段と、該構造化文書解析の結果に従い、前記比較基準を満たすよう構造化文書間の差分を抽出する構造化文書差分抽出手段を備えるようにしている。
前記比較基準を、論理構造を示すタグと該タグに対する基準の種類からなるテーブルとするようにしている。
さらに、前記比較基準におけるタグに対する基準の種類として、
(1)タグ自身が一致したときのみその中身を比較するタグ、
(2)比較する際、そのタグの中身の差異を無視するタグ、
(3)論理的な意味として同じタグの組、
(4)中身を比較しないタグの組、
の4つの基準の種類を定義しておくようにしている。
さらに、前記構造化文書解析手段は文書の構造を表わす文書木を作成し、前記構造化文書差分抽出手段は作成された文書木のノード単位で構造化文書間の差分の抽出を行ない、一致しなかったノード同士に対して文字単位で差分を抽出するようにしている。
さらに、前記構造化文書解析手段は文書の構造を表す文書木を作成する際に、前記比較基準に応じて、文書木のノードの割り当てを変更するようにしている。
【0009】
【作用】
上記手段により、本発明においては、構造化文書を編集し、編集された構造化文書の論理構造を構造化文書解析装置で解析し、その構造に応じて差分抽出の際の比較基準を設け、比較基準を満たすように差分文字列を抽出するので、論理構造に応じた、編集者の感覚に合う差分が抽出される。
また、文書木のノード単位で差分抽出を行い、一致しなかったノード同士を文字単位で差分を抽出することで、構造にまたがった差分も抽出されない。
【0010】
【実施例】
以下、本発明の実施例を説明する。
本実施例の構成を図1に示す。
図1において、101はCPU、102は端末装置、103は文書を記憶するための記憶装置であり、CPU101には、文書の編集を行う文書編集プログラム104と、構造化文書を木構造に変換する構造化文書解析プログラム105と、構造化文書間の一致しない部分を差分として抽出する構造化文書差分抽出プログラム106と、差分抽出での比較基準を格納する比較基準テーブル107が設定されている。
本実施例は、構造化文書としてSGML文書を例にとる。SGMLは、マーク付けされた構造化文書としてISOの世界標準として定められた文書記述言語のことである。また、SGML文書はDTD(文書型定義)によって、その論理構造が予め定義される。
【0011】
本実施例の具体的な処理手順を、図2のフローチャートを用いて説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
この比較基準テーブルは、次の4つの比較基準に該当するタグのテーブルである。
(1)恒等タグ:タグ自身が一致したときのみ、その中身(開始タグと終了タグの間に挾まれる文字)を比較するタグである。
(2)無視タグ:比較する際、そのタグの中身の差異を無視するタグである。
(3)同等タグ:論理的な意味として同じタグの組である。
(4)比較禁止タグ:中身を比較しないタグの組である。
【0012】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、構造化文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
このとき、文書木の各ノードに割り当てる要素は次のルールを用いて行う。
(ルール1):タグは1つのノードに割り当てる。
(ルール2):開始タグと終了タグの間に挟まれた文字列は、開始タグの子ノードに割り当てる。
(ルール3):終了タグは、開始タグの子ノードに割り当てる。
(ルール4):恒等タグで挟まれた文字列は、開始タグ、終了タグを含めて1つのノードに割り当てる。
(ルール5):無視タグおよび無視タグで挟まれた文字列は、ノードに割り当てない。
(ルール6):同等タグは、同じタグ名に変換して、ノードに割り当てる。
【0013】
手順204:
文書木のノードを単位に差分抽出を行う。このとき、比較するタグ同士が比較禁止タグであれば、そのノード以下(子ノード)は比較しない。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。ただし、恒等タグのノードはノードの先頭文字であるタグが一致した場合のみ、文字単位の比較を行う。手順204で比較しなかった無視タグもこの段階で比較を行う。
手順206:
端末装置102に差分結果の表示を行う。
【0014】
(処理例1)
実施例の具体的な処理例として、恒等タグをもつ場合を図3の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図3の(a)から図3の(b)を編集したとする。
手順202:
比較対象であるSGML文書のDTDに対応した比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図3からは、例えば図9のような比較基準テーブルを作成する。すなわち、
<氏名>および<発信日>を恒等タグとして定義し、タグ同士が一致しない限り、文字列同士を対応させないという意味を持つ。
【0015】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、構造化文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図3の文書(a),(b)から、図9の比較基準テーブルを参照することにより、図10の文書木(a),(b)ができる。
図10中の1001、1002は、(ルール4)によって、タグと中身の文字列が合わせて1つのノードに割り当てられている。
【0016】
手順204:
文書木のノードを単位に差分抽出を行う。
ノードを単位に比較を行うため、恒等タグである<氏名>および<発信日>は、タグと中身の文字列が両者とも一致しない限り、対応付けられることはない。
この場合、タグが一致しないため、タグおよびその中身が差分として抽出される。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。ただし、恒等タグのノードはノードの先頭文字であるタグが一致した場合のみ、文字単位の比較を行う。
【0017】
手順206:
端末装置102に差分結果の表示を行う。
図3の文書(a)との文書(b)の差分抽出を行った結果例を図11に示す。
図11(b)は、図3(a)の構造化文書を基準として図3(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図11(a)は、図3(b)の構造化文書を基準として図3(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図11(b)では、ノード1001とノード1002におけるタグ〈記号〉とタグ〈発信日〉が一致しないので、ノード1002全体の「〈発信日〉平成6年11月二十日〈/発信日〉が差分として抽出され、また、図3(a)には図3(b)における「お元気ですか」の記載が無いため、「お元気ですか」が差分として抽出される。
【0018】
以上の手順により差分抽出を行うと、タグが一致しないと中身を比較しても意味のないものを恒等タグとして登録しておけば、文書の論理構造が合わないもの同士を対応付けることがなくなり、編集者に対して、より適切な差分抽出結果を提示することが出来る。
【0019】
(処理例2)
実施例の具体的な処理例の2番目として、恒等タグおよび無視タグをもつ場合、および構造のずれが起きている場合を図5の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図5の(a)から図5の(b)を編集したとする。
【0020】
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図5の例では、例えば、図12のような比較基準テーブルを作成する。すなわち、<著者名>を恒等タグとして定義する。この場合、前述したように、タグ同士が一致した場合のみ、文字列同士を比較する。また、<章番号>を無視タグとして定義する。この場合、章番号の違いは無視する(差分抽出に影響を与えない)。
【0021】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、SGML文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図5の文書(a),(b)から、図12の比較基準テーブルを参照することにより、図13の文書木(a),(b)ができる。無視タグである<章番号>は、(ルール5)によって、ノードとして割り当てられていない。
【0022】
手順204:
文書木のノードを単位に差分抽出を行う。
無視タグはノードとして存在しないため、比較されず、全体の差分抽出に影響を与えることはない。
手順205:
一致しなかったノードのみ、今度は文字列単位で差分抽出を行う。手順204で比較しなかった無視タグおよびその中身もこの段階で比較を行う。
【0023】
手順206:
端末装置102に差分結果の表示を行う。
図5の文書(a)との文書(b)の差分抽出を行った結果例を図14に示す。
図14(b)は、図5(a)の構造化文書を基準として図5(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図14(a)は、図5(b)の構造化文書を基準として図5(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図5(a)の構造化文書を基準として図5(b)の構造化文書との差分を取り、図14(b)の差分文字列の抽出結果を得た場合について説明すると、
手順204における文書木のノードを単位にした差分抽出では、図13(a)、(b)において、〈論文〉,〈/論文〉と、〈著者名〉平成太郎〈/著者名〉と、〈章〉構造化文書の差分抽出方式〈/章〉は一致と判断され、図14(b)では一致部分として表示されている。
次に、手順205では、手順204で〈章〉構造化文書の差分抽出方式〈/章〉は一致と判断されているので、この一致部分に係る〈章番号〉,〈/章番号〉は一致と判断され、「第2章」は「第1章」とは一致しないので差分として抽出され、図14(b)のように表示される。
また、手順204において、図13(b)の〈章〉構造化文書とは?〈/章〉は不一致と判断されるので、この〈章〉構造化文書とは?〈/章〉と、この不一致部分に係る〈章番号〉第1章〈/章番号〉は差分として抽出され、図14(b)のように表示される。
【0024】
以上の手順により差分抽出を行うと、まず文書木のノード単位、すなわち構造単位で比較を行っているため、例えば、ノード1301と1302はこの時点で対応付けられる。よって、図6のような構造にまたがった対応付けは起こらないことが分かる。また、文書木のノード単位の比較では、無視タグの比較を行わないため、無視タグの中身の差異が全体の差分抽出に影響を与えないことが分かる。
【0025】
(処理例3)
実施例の具体的な処理例の3番目として、恒等タグおよび同等タグをもつ場合を図7の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図7の(a)から図7の(b)を編集したとする。
【0026】
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図7の例では、例えば、図15のような比較基準テーブルを作成する。すなわち、<著者名>を恒等タグとして定義する。この場合、タグ同士が一致しない限り、文字列同士を対応させない。また、<項目>と<初項目>を同等タグと定義する。この場合、<項目>と<初項目>は同じ論理構造とされる。
【0027】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、SGML文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図7の文書(a),(b)から、図15の比較基準テーブルを参照することにより、図16の文書木(a),(b)ができる。
図16中の1601、1602、1603は(ルール6)によって、同じタグ名に変換されている。
【0028】
手順204:
文書木のノードを単位に差分抽出を行う。同等タグは同じタグ名になっているため差分として抽出されない。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。
【0029】
手順206:
端末装置102に差分結果の表示を行う。
図7の文書(a)と(b)の差分抽出を行った例を図17に示す。
図17(b)は、図7(a)の構造化文書を基準として図7(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図17(a)は、図7(b)の構造化文書を基準として図7(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図7(a)の構造化文書を基準として図7(b)の構造化文書との差分を取り、図17(b)の差分文字列の抽出結果を得た場合について説明すると、
手順204における文書木のノードを単位にした差分抽出では、図16(a)、(b)において、〈論文〉,〈/論文〉と、〈著者名〉平成太郎〈/著者名〉と、〈項目〉構造化文書の差分抽出方式〈/項目〉は一致と判断され、図17(b)では一致部分として表示されている。
次に、手順205では、手順204で〈項目〉構造化文書とは?〈/項目〉は不一致と判断されているので、この不一致部分について文字単位で差分抽出を行ない、〈項目〉構造化文書とは?〈/項目〉は差分として抽出され、図17(b)のように表示される。
【0030】
以上の手順により差分抽出を行うと、タグ名が違っても、文書の論理構造が同じもの同士は、対応付けられることが分かる。
【0031】
(処理例4)
実施例の具体的な処理例の4番目として、比較禁止タグをもつ場合を図18の文書例で説明する。
手順201:
文書編集プログラム104で、構造化文書の編集を行う。図18の(a)から図18の(b)を編集したとする。
【0032】
手順202:
比較対象であるSGML文書のDTDに対応した、比較基準テーブル107を読み込む。
対応する比較基準テーブルが存在しない場合、テーブルの作成及び登録を行う。
図18の例では、例えば、図19のような比較基準テーブルを作成する。すなわち、<差出人>と<受取人>とは比較禁止タグとする。この場合、<差出人>と<受取人>は中身を比較しない。
【0033】
手順203:
差分抽出プログラム106が呼び出されたら、比較基準テーブル107を参照しながら、SGML文書を構造化文書解析プログラム105によって解析し、文書木を作成する。
実施例で説明したルールを適用すると、図18の文書(a),(b)から、図19の比較基準テーブルを参照することにより、図20の文書木(a),(b)ができる。
【0034】
手順204:
文書木のノードを単位に差分抽出を行う。<差出人>と<受取人>は比較するタグ同士が比較禁止タグなので、そのノード以下(子ノード)は比較しない。
手順205:
一致しなかったノードのみ、今度は文字単位で差分抽出を行う。
【0035】
手順206:
端末装置102に差分結果の表示を行う。
図18の文書(a)と(b)の差分抽出を行った例を図21に示す。
図21(b)は、図18(a)の構造化文書を基準として図18(b)の構造化文書との差分を取った場合の差分文字列の抽出結果であり、図21(a)は、図18(b)の構造化文書を基準として図18(a)の構造化文書との差分を取った場合の差分文字列の抽出結果である。
図18(a)の構造化文書を基準として図18(b)の構造化文書との差分を取り、図21(b)の差分文字列の抽出結果を得た場合について説明すると、
手順204における文書木のノードを単位にした差分抽出では、図18(a)、(b)において、〈メモ〉,〈/メモ〉は一致と判断され、〈受取人〉,〈/受取人〉とその中身である〈所属〉○○銀行〈/所属〉〈氏名〉平成太郎〈/氏名〉は、〈差出人〉と〈受取人〉とが比較禁止タグであるので差分とされ、〈本文〉こんにちは。お元気ですか?〈/本文〉は不一致と判断される。
次に、手順205では、手順204で〈本文〉こんにちは。お元気ですか?〈/本文〉は不一致と判断されているので、この不一致部分について文字単位で差分抽出を行ない、「お元気ですか?」が差分として抽出される。
この結果、図21(b)のように表示される。
【0036】
以上の手順により差分抽出を行うと、中身を比較しないタグ同士を比較禁止タグとして登録しておけば、そのノード以下(子ノード)は比較されず、<差出人>と<受取人>の中身の所属や名前が対応付けられることがなく、編集者に対して、より適切な差分抽出結果を提示することが出来る。
【0037】
【発明の効果】
構造化文書の論理構造に応じた比較基準を定義し、これを満たすよう差分を抽出することで、論理構造の意味に応じた、編集者の感覚に合う差分が抽出され、また、構造を表す文書木のノード単位で差分抽出を行い、一致しなかったノード同士を文字単位で差分を抽出することで、構造にまたがった差分も抽出されないため、編集者は論理構造にあった差分を把握することが出来、構造化文書の編集の効率があがる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す図である。
【図2】本発明の実施例の処理手順を示す図である。
【図3】構造化文書の第一の例を示す図である。
【図4】構造化文書の第一の例を従来の方式で差分抽出した結果例を示す図である。
【図5】構造化文書の第二の例を示す図である。
【図6】構造化文書の第二の例を従来の方式で差分抽出した結果例を示す図である。
【図7】構造化文書の第三の例を示す図である。
【図8】構造化文書の第三の例を従来の方式で差分抽出した結果例を示す図である。
【図9】構造化文書の第一の例に対する比較基準テーブルの例を示す図である。
【図10】構造化文書の第一の例から図9の比較基準テーブルに基づき作成した文書木を示す図である。
【図11】構造化文書の第一の例を図9の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【図12】構造化文書の第二の例に対する比較基準テーブルの例を示す図である。
【図13】構造化文書の第二の例から図12の比較基準テーブルに基づき作成した文書木を示す図である。
【図14】構造化文書の第二の例を図12の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【図15】構造化文書の第三の例に対する比較基準テーブルの例を示す図である。
【図16】構造化文書の第三の例から図15の比較基準テーブルに基づき作成した文書木を示す図である。
【図17】構造化文書の第三の例を図15の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【図18】構造化文書の第四の例を示す図である。
【図19】構造化文書の第四の例に対する比較基準テーブルの例を示す図である。
【図20】構造化文書の第四の例から図19の比較基準テーブルに基づき作成した文書木を示す図である。
【図21】構造化文書の第四の例を図19の比較基準テーブルに基づき差分抽出した結果例を示す図である。
【符号の説明】
101 CPU
102 端末装置
103 記憶装置
104 文書編集プログラム
105 構造化文書解析プログラム
106 構造化文書差分抽出プログラム
107 比較基準テーブル
Claims (14)
- 文書記述言語を用いて記述された構造化文書に対して削除、挿入、または変更などの編集を施す処理装置と、該編集前後の構造化文書を格納する記憶装置を備えた構造化文書処理システムにおいて、
前記処理装置により前記編集前後の両構造化文書を比較し、両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出方法であって、
前記処理装置は、
前記記憶装置から編集前後の構造化文書を読み出す文書読込みステップと、
前記読込みステップで取得された両構造化文書の論理的な構造を、あらかじめ設定された比較基準に基づいて解析する構造解析ステップと、
前記構造解析ステップの結果に従い、前記比較基準を満たすように両構造化文書間の差分を抽出する差分抽出ステップ
を実行することを特徴とする構造化文書差分抽出方法。 - 請求項1記載の構造化文書差分抽出方法において、
前記比較基準を論理構造を示すタグと、該タグに対して適用する基準の種類とを対応付けたテーブルとすることを特徴とする構造化文書差分抽出方法。 - 請求項2記載の構造化文書差分抽出方法において、
前記比較基準における、タグに対して適用する基準の種類として、
(1)タグ自身が一致したときのみその中身を比較するタグ、
(2)比較する際、そのタグの中身の差異を無視するタグ、
(3)論理的な意味として同じタグの組、
(4)中身を比較しないタグの組、
の4つの基準の種類が定義されていることを特徴とする構造化文書差分抽出方法。 - 請求項1乃至請求項3のいずれかの請求項記載の構造化文書差分抽出方法において、
前記処理装置は、
前記構造解析ステップの結果として前記編集前後の両構造化文書の構造を表す文書木を作成し、
まず該文書木のノード単位で両構造化文書間の差分の抽出を行い、
次に一致しなかったノード同士に対して、文字単位で差分を抽出する
ことを特徴とする構造化文書差分抽出方法。 - 前記処理装置は、
請求項4記載の構造化文書差分抽出方法において、
前記構造解析ステップの結果として前記編集前後の両構造化文書の構造を表す文書木を作成する際に、前記比較基準におうじて、文書木のノードの割当て方法を変える
ことを特徴とする構造化文書差分抽出方法。 - 文書記述言語を用いて記述された構造化文書に対して削除、挿入、または変更などの編集を施す処理装置と、該編集前後の構造化文書を格納する記憶装置を備えた構造化文書処理システムにおいて、
前記処理装置により前記編集前後の両構造化文書を比較し、両構造化文書の一致しない文字列を差分として抽出する構造化文書差分抽出装置であって、
前記処理装置は、
前記記憶装置から編集前後の構造化文書を読み出す文書読込み手段と、
前記読込み手段で取得された両構造化文書の論理的な構造を、あらかじめ設定された比較基準に基づいて解析する構造解析手段と、
前記構造解析手段の結果に従い、前記比較基準を満たすように両構造化文書間の差分を抽出する差分抽出手段
を有することを特徴とする構造化文書差分抽出装置。 - 請求項6記載の構造化文書差分抽出装置において、
前記比較基準を論理構造を示すタグと、該タグに対して適用する基準の種類とを対応付けたテーブルとすることを特徴とする構造化文書差分抽出装置。 - 請求項2記載の構造化文書差分抽出装置において、
前記比較基準における、タグに対して適用する基準の種類として、
(1)タグ自身が一致したときのみその中身を比較するタグ、
(2)比較する際、そのタグの中身の差異を無視するタグ、
(3)論理的な意味として同じタグの組、
(4)中身を比較しないタグの組、
の4つの基準の種類が定義されていることを特徴とする構造化文書差分抽出装置。 - 請求項6乃至請求項8のいずれかの請求項記載の構造化文書差分抽出装置において、
前記構造解析手段は、前記編集前後の両構造化文書の構造を表す文書木を作成し、
前記差分抽出手段は、まず該文書木のノード単位で両構造化文書間の差分の抽出を行い、次に一致しなかったノード同士に対して、文字単位で差分を抽出する
ことを特徴とする構造化文書差分抽出装置。 - 請求項9記載の構造化文書差分抽出装置において、
前記構造解析手段は、前記編集前後の両構造化文書の構造を表す文書木を作成する際に、前記比較基準におうじて、文書木のノードの割当て方法を変更する
ことを特徴とする構造化文書差分抽出装置。 - 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
前記処理装置は、
前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
一致しなかったものを差分として抽出する抽出ステップとを実行し、
前記比較ステップでは、比較する構造の少なくともいずれかが比較対象除外構造として定義されていた場合、構造およびその要素が同じでも、その要素が一致しないと判定する
ことを特徴とする構造化文書差分抽出方法。 - 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
前記処理装置は、
前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
一致しなかったものを差分として抽出する抽出ステップとを実行し、
前記比較ステップでは、比較する構造がともに同一の構造を表すグループとして予め定義されていた場合、構造が異なっていても要素が同じであれば、その要素が一致すると判定する
ことを特徴とする構造化文書差分抽出方法。 - 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
前記処理装置は、
前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
一致しなかったものを差分として抽出する抽出ステップとを実行し、
前記比較ステップでは、比較する構造がともに比較対象から外すペアとして予め定義されている場合、要素が同じであっても、構造およびその要素が一致しないと判定する
ことを特徴とする構造化文書差分抽出方法。 - 複数の要素と該要素の構造情報を含む構造化文書を入力する入力装置と、該入力された構造化文書を格納する記憶装置と、該記憶装置から前記構造化文書を読み出して処理する処理装置とを備えた構造化文書処理システムにおいて、
前記処理装置は、
前記入力装置により入力され、前記記憶装置に格納された第1の構造化文書と第2の構造化文書を前記記憶装置から読み出す読み出しステップと、
前記第1および第2の構造化文書に含まれる前記構造及び前記要素を比較して一致する構造および要素を判定する比較ステップと、
一致しなかったものを差分として抽出する抽出ステップとを実行し、
前記比較ステップでは、比較する構造がともに内容を無視する構造として予め定義されていた場合、構造が同じであれば要素が異なっていてもその要素が一致すると判定する
ことを特徴とする構造化文書差分抽出方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16139895A JP3724847B2 (ja) | 1995-06-05 | 1995-06-05 | 構造化文書差分抽出方法および装置 |
US08/657,306 US5956726A (en) | 1995-06-05 | 1996-06-03 | Method and apparatus for structured document difference string extraction |
EP96108939A EP0747836B1 (en) | 1995-06-05 | 1996-06-04 | Method and apparatus for comparison of structured documents |
DE69634459T DE69634459T2 (de) | 1995-06-05 | 1996-06-04 | Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten |
US09/326,579 US6098071A (en) | 1995-06-05 | 1999-06-07 | Method and apparatus for structured document difference string extraction |
US09/604,261 US6526410B1 (en) | 1995-06-05 | 2000-06-27 | Method and apparatus for structured document difference string extraction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16139895A JP3724847B2 (ja) | 1995-06-05 | 1995-06-05 | 構造化文書差分抽出方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08329079A JPH08329079A (ja) | 1996-12-13 |
JP3724847B2 true JP3724847B2 (ja) | 2005-12-07 |
Family
ID=15734343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16139895A Expired - Fee Related JP3724847B2 (ja) | 1995-06-05 | 1995-06-05 | 構造化文書差分抽出方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (3) | US5956726A (ja) |
EP (1) | EP0747836B1 (ja) |
JP (1) | JP3724847B2 (ja) |
DE (1) | DE69634459T2 (ja) |
Families Citing this family (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3724847B2 (ja) * | 1995-06-05 | 2005-12-07 | 株式会社日立製作所 | 構造化文書差分抽出方法および装置 |
JPH0969101A (ja) * | 1995-08-31 | 1997-03-11 | Hitachi Ltd | 構造化文書生成方法および装置 |
JPH09297768A (ja) * | 1996-05-07 | 1997-11-18 | Fuji Xerox Co Ltd | 文書データベース管理装置及び文書データベース検索方法 |
JP3566457B2 (ja) * | 1996-05-31 | 2004-09-15 | 株式会社日立製作所 | 構造化文書の版管理方法および装置 |
US6658624B1 (en) * | 1996-09-24 | 2003-12-02 | Ricoh Company, Ltd. | Method and system for processing documents controlled by active documents with embedded instructions |
JPH10143403A (ja) * | 1996-11-12 | 1998-05-29 | Fujitsu Ltd | 情報管理装置および情報管理プログラム記憶媒体 |
US6289121B1 (en) * | 1996-12-30 | 2001-09-11 | Ricoh Company, Ltd. | Method and system for automatically inputting text image |
US7212632B2 (en) | 1998-02-13 | 2007-05-01 | Tecsec, Inc. | Cryptographic key split combiner |
US6694433B1 (en) * | 1997-05-08 | 2004-02-17 | Tecsec, Inc. | XML encryption scheme |
CA2242158C (en) * | 1997-07-01 | 2004-06-01 | Hitachi, Ltd. | Method and apparatus for searching and displaying structured document |
US6411974B1 (en) * | 1998-02-04 | 2002-06-25 | Novell, Inc. | Method to collate and extract desired contents from heterogeneous text-data streams |
US8077870B2 (en) * | 1998-02-13 | 2011-12-13 | Tecsec, Inc. | Cryptographic key split binder for use with tagged data elements |
US6665836B1 (en) * | 1998-06-17 | 2003-12-16 | Siemens Corporate Research, Inc. | Method for managing information on an information net |
US6263332B1 (en) | 1998-08-14 | 2001-07-17 | Vignette Corporation | System and method for query processing of structured documents |
US7281203B2 (en) * | 1998-09-29 | 2007-10-09 | Netscape Communications Corporation | Selecting a DTD for transforming malformed layout expressions into wellformed ones |
US6964011B1 (en) * | 1998-11-26 | 2005-11-08 | Canon Kabushiki Kaisha | Document type definition generating method and apparatus, and storage medium for storing program |
CA2255047A1 (en) * | 1998-11-30 | 2000-05-30 | Ibm Canada Limited-Ibm Canada Limitee | Comparison of hierarchical structures and merging of differences |
US6539118B1 (en) | 1998-12-31 | 2003-03-25 | International Business Machines Corporation | System and method for evaluating character sets of a message containing a plurality of character sets |
US7039637B2 (en) * | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
US6718519B1 (en) | 1998-12-31 | 2004-04-06 | International Business Machines Corporation | System and method for outputting character sets in best available fonts |
US7031002B1 (en) | 1998-12-31 | 2006-04-18 | International Business Machines Corporation | System and method for using character set matching to enhance print quality |
US6760887B1 (en) | 1998-12-31 | 2004-07-06 | International Business Machines Corporation | System and method for highlighting of multifont documents |
US6813747B1 (en) | 1998-12-31 | 2004-11-02 | International Business Machines Corporation | System and method for output of multipart documents |
US7103532B1 (en) | 1998-12-31 | 2006-09-05 | International Business Machines Corp. | System and method for evaluating character in a message |
JP3390357B2 (ja) * | 1999-02-12 | 2003-03-24 | 日本電気株式会社 | 木構造データ編集システムにおける木構造差分出力方法及び装置 |
JP3913985B2 (ja) * | 1999-04-14 | 2007-05-09 | 富士通株式会社 | 文書画像中の基本成分に基づく文字列抽出装置および方法 |
JP2000339312A (ja) * | 1999-05-31 | 2000-12-08 | Toshiba Corp | 文書編集システム及びタグ情報管理テーブル作成方法 |
US6959415B1 (en) * | 1999-07-26 | 2005-10-25 | Microsoft Corporation | Methods and apparatus for parsing Extensible Markup Language (XML) data streams |
US6560620B1 (en) * | 1999-08-03 | 2003-05-06 | Aplix Research, Inc. | Hierarchical document comparison system and method |
US7191114B1 (en) | 1999-08-27 | 2007-03-13 | International Business Machines Corporation | System and method for evaluating character sets to determine a best match encoding a message |
US6502112B1 (en) * | 1999-08-27 | 2002-12-31 | Unisys Corporation | Method in a computing system for comparing XMI-based XML documents for identical contents |
US7661062B1 (en) * | 1999-09-20 | 2010-02-09 | Business Objects Americas | System and method of analyzing an HTML document for changes such that the changed areas can be displayed with the original formatting intact |
JP2001092707A (ja) * | 1999-09-24 | 2001-04-06 | Nec Corp | 情報処理システム、構造化文書処理システム、その更新方法及びその更新プログラムを記録した記録媒体 |
US6675354B1 (en) * | 1999-11-18 | 2004-01-06 | International Business Machines Corporation | Case-insensitive custom tag recognition and handling |
JP3754253B2 (ja) * | 1999-11-19 | 2006-03-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム |
WO2001052032A1 (en) * | 2000-01-07 | 2001-07-19 | Winlook Corporation | Method and apparatus for displaying, retrieving, filing and organizing various kinds of data and images |
US7137065B1 (en) * | 2000-02-24 | 2006-11-14 | International Business Machines Corporation | System and method for classifying electronically posted documents |
IE20010467A1 (en) * | 2000-05-16 | 2001-11-28 | Garrett O'carroll | A document processing system and method |
US6519557B1 (en) * | 2000-06-06 | 2003-02-11 | International Business Machines Corporation | Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity |
JP2002024211A (ja) * | 2000-06-30 | 2002-01-25 | Hitachi Ltd | 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体 |
GB0018042D0 (en) * | 2000-07-21 | 2000-09-13 | Monsell Edm Ltd | Method of and software for recordal and validation of changes to markup language files |
US7103838B1 (en) * | 2000-08-18 | 2006-09-05 | Firstrain, Inc. | Method and apparatus for extracting relevant data |
US6920609B1 (en) * | 2000-08-24 | 2005-07-19 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
US7778817B1 (en) * | 2000-09-30 | 2010-08-17 | Intel Corporation | Method and apparatus for determining text passage similarity |
JP2002149874A (ja) * | 2000-11-07 | 2002-05-24 | Ricoh Co Ltd | 電子マニュアル提供システムおよび方法、並びにサーバ装置 |
CA2328566A1 (en) * | 2000-12-15 | 2002-06-15 | Ibm Canada Limited - Ibm Canada Limitee | System and method for providing language-specific extensions to the compare facility in an edit system |
US20020169803A1 (en) * | 2000-12-18 | 2002-11-14 | Sudarshan Sampath | System and user interface for generating structured documents |
FR2818409B1 (fr) * | 2000-12-18 | 2003-03-14 | Expaway | Procede pour diviser des documents structures en plusieurs parties |
US6978420B2 (en) * | 2001-02-12 | 2005-12-20 | Aplix Research, Inc. | Hierarchical document cross-reference system and method |
US7028024B1 (en) | 2001-07-20 | 2006-04-11 | Vignette Corporation | Information retrieval from a collection of information objects tagged with hierarchical keywords |
JP4045400B2 (ja) * | 2001-08-24 | 2008-02-13 | 富士ゼロックス株式会社 | 検索装置及び検索方法 |
US8041739B2 (en) * | 2001-08-31 | 2011-10-18 | Jinan Glasgow | Automated system and method for patent drafting and technology assessment |
US6754676B2 (en) * | 2001-09-13 | 2004-06-22 | International Business Machines Corporation | Apparatus and method for providing selective views of on-line surveys |
US7085996B2 (en) * | 2001-10-18 | 2006-08-01 | International Business Corporation | Apparatus and method for source compression and comparison |
US20040205675A1 (en) * | 2002-01-11 | 2004-10-14 | Thangaraj Veerappan | System and method for determining a document language and refining the character set encoding based on the document language |
US20030145278A1 (en) * | 2002-01-22 | 2003-07-31 | Nielsen Andrew S. | Method and system for comparing structured documents |
US7191395B2 (en) * | 2002-03-12 | 2007-03-13 | International Business Machines Corporation | Method and system for stylesheet-centric editing |
US7096421B2 (en) * | 2002-03-18 | 2006-08-22 | Sun Microsystems, Inc. | System and method for comparing hashed XML files |
US20040205509A1 (en) * | 2002-03-18 | 2004-10-14 | Sun Microsystems, Inc. | System and method for comparing parsed XML files |
US7260773B2 (en) * | 2002-03-28 | 2007-08-21 | Uri Zernik | Device system and method for determining document similarities and differences |
US20030233621A1 (en) * | 2002-06-13 | 2003-12-18 | International Business Machines Corporation | Editor for smart version control |
GB0217201D0 (en) * | 2002-07-24 | 2002-09-04 | Beach Solutions Ltd | XML database differencing engine |
JP4737914B2 (ja) | 2002-10-02 | 2011-08-03 | ケープレックス・インク | 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。 |
US7353225B2 (en) * | 2002-11-13 | 2008-04-01 | Sun Microsystems, Inc. | Mechanism for comparing content in data structures |
US7603371B1 (en) | 2002-12-17 | 2009-10-13 | Vignette Corporation | Object based system and method for managing information |
US20070245228A9 (en) * | 2003-04-10 | 2007-10-18 | Andre Lavoie | Financial document change identifier |
US7296223B2 (en) * | 2003-06-27 | 2007-11-13 | Xerox Corporation | System and method for structured document authoring |
WO2005006192A1 (ja) * | 2003-07-10 | 2005-01-20 | Fujitsu Limited | 構造化文書処理方法及び装置並びに記憶媒体 |
US7877399B2 (en) * | 2003-08-15 | 2011-01-25 | International Business Machines Corporation | Method, system, and computer program product for comparing two computer files |
WO2005045698A2 (fr) * | 2003-10-24 | 2005-05-19 | Enrico Maim | Procede mis en oeuvre dans un environnement informatique pour engendrer une vue courante a partir d’au moins un objet d’information source susceptible de varier |
US20050138542A1 (en) * | 2003-12-18 | 2005-06-23 | Roe Bryan Y. | Efficient small footprint XML parsing |
US7373586B2 (en) * | 2004-09-03 | 2008-05-13 | International Business Machines Corporation | Differencing and merging tree-structured documents |
WO2006098018A1 (ja) * | 2005-03-16 | 2006-09-21 | Visionarts, Inc. | オブジェクトカッタープログラム |
US20070005701A1 (en) * | 2005-06-30 | 2007-01-04 | International Business Machines Corporation | Synchronizing email content with IM content |
JP4932227B2 (ja) * | 2005-10-26 | 2012-05-16 | ヤフー株式会社 | 情報抽出方法 |
EP1791293A1 (en) * | 2005-11-29 | 2007-05-30 | Ipanto | Network service configuration management |
US20070162486A1 (en) * | 2005-12-30 | 2007-07-12 | Thomas Brueggemann | Merge tool for structured object models |
US20070294610A1 (en) * | 2006-06-02 | 2007-12-20 | Ching Phillip W | System and method for identifying similar portions in documents |
US20080005148A1 (en) * | 2006-06-30 | 2008-01-03 | Rearden Commerce, Inc. | Automated knowledge base of feed tags |
US7984375B1 (en) * | 2006-10-10 | 2011-07-19 | Adobe Systems Incorporated | Automated detection and implementation of state and object modifications |
US8321197B2 (en) * | 2006-10-18 | 2012-11-27 | Teresa Ruth Gaudet | Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files |
GB0623068D0 (en) * | 2006-11-18 | 2006-12-27 | Ibm | A client apparatus for updating data |
US8918717B2 (en) * | 2007-05-07 | 2014-12-23 | International Business Machines Corporation | Method and sytem for providing collaborative tag sets to assist in the use and navigation of a folksonomy |
US8090747B2 (en) * | 2007-05-21 | 2012-01-03 | New York University | Method, system, computer-accessible medium and software arrangement for organization and analysis of multiple sets of data |
US7716228B2 (en) * | 2007-09-25 | 2010-05-11 | Firstrain, Inc. | Content quality apparatus, systems, and methods |
US20090088997A1 (en) * | 2007-09-28 | 2009-04-02 | Hitachi High Technologies Corporation | Data processing system |
US8126882B2 (en) * | 2007-12-12 | 2012-02-28 | Google Inc. | Credibility of an author of online content |
US8918369B2 (en) * | 2008-06-05 | 2014-12-23 | Craze, Inc. | Method and system for classification of venue by analyzing data from venue website |
US8230325B1 (en) * | 2008-06-30 | 2012-07-24 | Amazon Technologies, Inc. | Structured document customizable comparison systems and methods |
US20100131617A1 (en) * | 2008-11-25 | 2010-05-27 | John Osborne | Method and system for differential transmission of web page structures |
JP5336895B2 (ja) * | 2009-03-24 | 2013-11-06 | 株式会社日立システムズ | ドキュメント管理システムおよびドキュメント管理方法ならびにそのためのプログラム |
JP5648236B2 (ja) * | 2009-10-22 | 2015-01-07 | 大日本法令印刷株式会社 | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
EP2527991B1 (en) * | 2010-01-19 | 2018-12-26 | Fujitsu Limited | Analysis method, analysis device, and analysis program |
GB2477307A (en) * | 2010-01-28 | 2011-08-03 | Adsensa Ltd | Embedding authentication data into an electronic document image |
JP2012043047A (ja) * | 2010-08-16 | 2012-03-01 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
US10108590B2 (en) * | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
US9817804B2 (en) * | 2013-09-12 | 2017-11-14 | Wix.Com Ltd. | System for comparison and merging of versions in edited websites and interactive applications |
US20170131973A1 (en) * | 2014-03-25 | 2017-05-11 | Hitachi, Ltd. | Software specification dependence relation verification apparatus and software specification dependence relation verification method |
WO2016056236A1 (ja) | 2014-10-08 | 2016-04-14 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
US10558679B2 (en) * | 2016-02-10 | 2020-02-11 | Fuji Xerox Co., Ltd. | Systems and methods for presenting a topic-centric visualization of collaboration data |
US10783138B2 (en) | 2017-10-23 | 2020-09-22 | Google Llc | Verifying structured data |
US11314807B2 (en) | 2018-05-18 | 2022-04-26 | Xcential Corporation | Methods and systems for comparison of structured documents |
CN112908487B (zh) * | 2021-04-19 | 2023-09-22 | 中国医学科学院医学信息研究所 | 一种临床指南更新内容的自动识别方法及系统 |
US20220405499A1 (en) * | 2021-06-18 | 2022-12-22 | Jpmorgan Chase Bank, N.A. | Method and system for extracting information from a document |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4807182A (en) * | 1986-03-12 | 1989-02-21 | Advanced Software, Inc. | Apparatus and method for comparing data groups |
US5261040A (en) * | 1986-07-11 | 1993-11-09 | Canon Kabushiki Kaisha | Text processing apparatus |
JPH02255964A (ja) * | 1989-01-23 | 1990-10-16 | Sumitomo Metal Ind Ltd | 文書変更部分の自動識別装置 |
US5146552A (en) * | 1990-02-28 | 1992-09-08 | International Business Machines Corporation | Method for associating annotation with electronically published material |
US5428529A (en) * | 1990-06-29 | 1995-06-27 | International Business Machines Corporation | Structured document tags invoking specialized functions |
US5434962A (en) * | 1990-09-07 | 1995-07-18 | Fuji Xerox Co., Ltd. | Method and system for automatically generating logical structures of electronic documents |
CA2067633C (en) * | 1991-07-24 | 1996-10-01 | Eric Jonathan Bauer | Method and apparatus for accessing a computer-based file system |
JP2659896B2 (ja) * | 1992-04-29 | 1997-09-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 構造化文書複製管理方法及び構造化文書複製管理装置 |
JPH08506911A (ja) * | 1992-11-23 | 1996-07-23 | パラゴン、コンセプツ、インコーポレーテッド | ファイル・アクセスを行うためにユーザーがカテゴリを選択するコンピュータ・ファイリング・システム |
JPH06250895A (ja) * | 1993-02-26 | 1994-09-09 | Fujitsu Ltd | 構造化データベースシステム |
JP2770715B2 (ja) * | 1993-08-25 | 1998-07-02 | 富士ゼロックス株式会社 | 構造化文書検索装置 |
US5438512A (en) * | 1993-10-22 | 1995-08-01 | Xerox Corporation | Method and apparatus for specifying layout processing of structured documents |
JP3444948B2 (ja) * | 1993-12-28 | 2003-09-08 | キヤノン株式会社 | 文書編集装置および文書編集方法 |
JP3287679B2 (ja) * | 1993-12-28 | 2002-06-04 | キヤノン株式会社 | 文書処理装置及び方法 |
US5787449A (en) * | 1994-06-02 | 1998-07-28 | Infrastructures For Information Inc. | Method and system for manipulating the architecture and the content of a document separately from each other |
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
JP2896634B2 (ja) * | 1995-03-02 | 1999-05-31 | 富士ゼロックス株式会社 | 全文登録語検索装置および全文登録語検索方法 |
JPH08255155A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 全文登録語検索装置および方法 |
JP3724847B2 (ja) * | 1995-06-05 | 2005-12-07 | 株式会社日立製作所 | 構造化文書差分抽出方法および装置 |
US5878421A (en) * | 1995-07-17 | 1999-03-02 | Microsoft Corporation | Information map |
US5950196A (en) * | 1997-07-25 | 1999-09-07 | Sovereign Hill Software, Inc. | Systems and methods for retrieving tabular data from textual sources |
-
1995
- 1995-06-05 JP JP16139895A patent/JP3724847B2/ja not_active Expired - Fee Related
-
1996
- 1996-06-03 US US08/657,306 patent/US5956726A/en not_active Expired - Fee Related
- 1996-06-04 DE DE69634459T patent/DE69634459T2/de not_active Expired - Fee Related
- 1996-06-04 EP EP96108939A patent/EP0747836B1/en not_active Expired - Lifetime
-
1999
- 1999-06-07 US US09/326,579 patent/US6098071A/en not_active Expired - Fee Related
-
2000
- 2000-06-27 US US09/604,261 patent/US6526410B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE69634459D1 (de) | 2005-04-21 |
DE69634459T2 (de) | 2006-01-12 |
US6098071A (en) | 2000-08-01 |
US6526410B1 (en) | 2003-02-25 |
EP0747836B1 (en) | 2005-03-16 |
US5956726A (en) | 1999-09-21 |
JPH08329079A (ja) | 1996-12-13 |
EP0747836A1 (en) | 1996-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3724847B2 (ja) | 構造化文書差分抽出方法および装置 | |
US5778400A (en) | Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags | |
US7111234B2 (en) | System and method for in-line editing of web-based documents | |
RU2358311C2 (ru) | Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml | |
US7114123B2 (en) | User controllable data grouping in structural document translation | |
US7013309B2 (en) | Method and apparatus for extracting anchorable information units from complex PDF documents | |
Bergmark | Automatic extraction of reference linking information from onlinedocuments | |
JP2002024211A (ja) | 文書管理方法およびシステム並びにその処理プログラムを格納した記憶媒体 | |
US7539940B2 (en) | System and method for converting between text formatting or markup language formatting and outline structure | |
US20020016796A1 (en) | Document processing method, system and medium | |
CN113850056A (zh) | 一种基于关键词拆分技术的文档关键信息提取方法和系统 | |
JP3566457B2 (ja) | 構造化文書の版管理方法および装置 | |
JPH1153392A (ja) | 情報フィルタリング装置および同装置に適用される関連情報提供方法 | |
US7814408B1 (en) | Pre-computing and encoding techniques for an electronic document to improve run-time processing | |
JP4196824B2 (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
JP3744676B2 (ja) | 情報抽出装置及びその方法 | |
Kovačević et al. | Recognition of common areas in a Web page using a visualization approach | |
JP3156613B2 (ja) | 文書編集方式 | |
Suzuki et al. | Path Set Operations for Clipping of Parts of Web Pages and Information Extraction from Web pages. | |
JP3302260B2 (ja) | 文書処理システム | |
JPH03105557A (ja) | 文書に対する情報の付加方法 | |
US20030172351A1 (en) | Mark-up language conversion | |
JPH10283375A (ja) | 全文検索装置および方法 | |
JP2001051988A (ja) | 文書認識方法、装置および記録媒体 | |
CN115563367A (zh) | 网页文档的信息提取方法、装置和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050920 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |