JPH08329079A - 構造化文書差分抽出方法および装置 - Google Patents
構造化文書差分抽出方法および装置Info
- Publication number
- JPH08329079A JPH08329079A JP7161398A JP16139895A JPH08329079A JP H08329079 A JPH08329079 A JP H08329079A JP 7161398 A JP7161398 A JP 7161398A JP 16139895 A JP16139895 A JP 16139895A JP H08329079 A JPH08329079 A JP H08329079A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- document
- difference
- structured
- tags
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文書編集者の感覚に合った適切な構造化文書の差分を抽
出することにある。 【構成】 文書編集プログラム104により構造化文書を
文書編集して記憶装置に記憶し、編集前後の各構造化文
書の論理構造に対して設定された比較基準107を参照し
て、記憶装置から読み出した編集前後の各構造化文書の
論理構造を構造化文書解析プログラム105で解析し、こ
の結果に従い比較基準107を満たすように構造化文書間
の差分を構造化文書差分抽出プログラム106により抽出
する。比較基準107を、論理構造を示すタグと該タグに
対する基準の種類からなるテーブルとし、基準の種類
を、(1)タグ自身が一致したときのみその中身を比較す
るタグ、(2)比較する際、そのタグの中身の差異を無視
するタグ、(3)論理的な意味として同じタグの組、(4)中
身を比較しないタグの組、としている。
Description
憶されている構造化文書間の差分文字列を抽出すること
ができるワープロ等の文書処理装置における構造化文書
差分文字列抽出方法及び装置に関する。
情報、例えば”文書中のこの部分は章である”、”この
部分はタイトルである”といった情報が埋め込まれた文
書のことである。また、文書間の差分抽出とは、文書を
構成する段落、行、文字等の要素を単位に、これらの要
素がもっともよく一致する組合せを検出し、一致しない
要素を差分として抽出することである。例えば、差分抽
出の対象とする二つの文書を「ABCDEFG」と「A
CDAEFH」とした場合、要素をA,B,C,D,
E,F,G,Hとして二つの文書を要素単位で比較した
時、もっともよく一致する組合せとして”ACDEFが
対応する”と検出し、また差分として”Bが削除”、”
AがDの後に挿入”、”GがHに変更”と抽出すること
である。従来の差分抽出方式には、特開平2−2559
64号公報などがあり、句読点、行、単語、文字などを
単位に比較を行っている。この方式を構造化文書に適用
すると、文書中に埋め込まれた論理的な構造を表す文字
列も、文書中の他の文字列と同様に比較を行う。
文書を通常の文書と同様の手段で差分抽出した場合、結
果が文書の論理構造と合わず文書編集者にとって適切で
ない場合がある。次に例を示し説明する。
が合わないもの同士を対応付けてしまい、文書編集者に
とって適切でない抽出結果となる場合を、図3の構造化
文書を例にとり説明する。図3の構造化文書はSGML
(Standard GeneralizedMark
up Language)で記述されたもので、<A>
と</A>で挟まれた文字列が、論理構造Aに属してい
ることを意味する。すなわち、図3(a)の<氏名>と
</氏名>で挟まれた文字列“平成太郎”が、論理構造
“氏名”に属する。また、この論理構造を表すマークの
ことをタグと呼び、<A>と</A>はそれぞれ開始タ
グ、終了タグと呼ぶ。従来の手法により、図3の
(a),(b)二つの構造化文書の差分文字列を抽出し
た結果を図4に示す。図4(b)は、図3(a)の構造
化文書を基準として図3(b)の構造化文書との差分を
取った場合の差分文字列の抽出結果であり、図4(a)
は、図3(b)の構造化文書を基準として図3(a)の
構造化文書との差分を取った場合の差分文字列の抽出結
果である。図4を見ると、<氏名>の“平成”と<発信
日>の“平成”が差分として抽出されていない。これ
は、“平成”同士が一致し、対応付けられてしまったこ
とによる。しかし、この論理構造の合わない“平成”の
対応付けは、文書編集者にとって意味がないことは明ら
かである。
に、差分抽出において文書の構造にまたがって文字列を
対応付けてしまい、文書編集者にとって適切でない抽出
結果となる場合を、図5の構造化文書を例にとり説明す
る。図5は、(a)の第1章の前に、章を一つ挿入した
ものが(b)となっている。従来の手法により、図5の
(a),(b)二つの構造化文書の差分文字列を抽出し
た例を図6示す。図6は図4の場合と同様であり、図6
(b)が図5(a)を基準として図5(b)との差分を
取った場合の差分文字列の抽出結果であり、図6(a)
が図5(b)を基準として図5(a)との差分を取った
場合の差分文字列の抽出結果である。図6を見ると、
(a)の第1章は(b)の第2章と同じであるにもかか
わらず、(a)の第1章が、(b)の第1章と第2章に
またがって対応している。これも、文書編集者に対して
は適切でない。ここで、図5(a)における「構造化文
書」と同じ文字列が図5(b)には2度現われているた
め、図6(b)では、最初の「構造化文書」は一致とさ
れ、2度目の「構造化文書」は不一致とされ、差分とし
て抽出される。このことは、以下の差分抽出において共
通した取扱いである。
のに、論理構造を表すマークが異なるためその中身同士
が対応付けられず、文書編集者にとって適切でない抽出
結果となる場合を、図7の構造化文書を例にとり説明す
る。図7では、文書の論理的な意味は項目であるのに、
最初に出てくる項目だけ<初項目>というタグを付けて
いる。従来の手法により、図7の(a),(b)二つの
構造化文書の差分文字列を抽出した例を図8示す。図8
は図4の場合と同様であり、図8(b)が図7(a)を
基準として図7(b)との差分を取った場合の差分文字
列の抽出結果であり、図8(a)が図7(b)を基準と
して図7(a)との差分を取った場合の差分文字列の抽
出結果である。図8を見ると、<初項目>同士が対応付
けられ、その中身の文字列が比較されていることが分か
る。文書編集者にとっては<初項目>と<項目>の論理
的な意味は等しく、タグの中身を優先して対応させるべ
きである。そこで、構造化文書間の差分を抽出する場
合、構造化文書の論理的な意味や構造を考慮した比較が
必要となるが、従来の方式では、論理的な構造を表す文
字列も文書中の他の文字列と同様に比較を行うため、実
現できなかった。
味や構造を考慮し、文書編集者の感覚に合った適切な構
造化文書の差分を抽出することにある。
め、本発明は、記憶装置と処理装置を備え、前記記憶装
置に削除、挿入、または変更などの編集を実施する前後
の構造化文書を記憶し、前記処理装置により前記編集前
後の両構造化文書の一致しない文字列を差分として抽出
する構造化文書差分抽出方法において、構造化文書を文
書編集して前記記憶装置に記憶し、前記記憶装置から読
み出した編集前後の各構造化文書の論理構造を、編集前
後の各構造化文書の論理構造に対して設定された比較基
準に基づき構造化文書解析し、該構造化文書解析の結果
に従い、前記比較基準を満たすよう構造化文書間の差分
を抽出するようにしている。前記比較基準を、論理構造
を示すタグと該タグに対する基準の種類からなるテーブ
ルとするようにしている。さらに、前記比較基準におけ
るタグに対する基準の種類として、(1)タグ自身が一
致したときのみその中身を比較するタグ、(2)比較す
る際、そのタグの中身の差異を無視するタグ、(3)論
理的な意味として同じタグの組、(4)中身を比較しな
いタグの組、の4つの基準の種類を定義しておくように
している。さらに、前記構造化文書解析により文書の構
造を表わす文書木を作成し、該文書木のノード単位で構
造化文書間の差分の抽出を行ない、一致しなかったノー
ド同士に対して文字単位で差分を抽出するようにしてい
る。さらに、前記構造化文書解析によって文書の構造を
表す文書木を作成する際に、前記比較基準に応じて、文
書木のノードの割り当て方法を変えるようにしている。
また、記憶装置と処理装置を備え、前記記憶装置に削
除、挿入、または変更などの編集を実施する前後の構造
化文書を記憶し、前記処理装置により前記編集前後の両
構造化文書の一致しない文字列を差分として抽出する構
造化文書差分抽出装置において、前記処理装置は、構造
化文書を編集して前記記憶装置に記憶する文書編集手段
と、前記記憶装置から読み出した編集前後の各構造化文
書の論理構造を、編集前後の各構造化文書の論理構造に
対して設定された比較基準に基づき構造化文書解析する
構造化文書解析手段と、該構造化文書解析の結果に従
い、前記比較基準を満たすよう構造化文書間の差分を抽
出する構造化文書差分抽出手段を備えるようにしてい
る。前記比較基準を、論理構造を示すタグと該タグに対
する基準の種類からなるテーブルとするようにしてい
る。さらに、前記比較基準におけるタグに対する基準の
種類として、(1)タグ自身が一致したときのみその中
身を比較するタグ、(2)比較する際、そのタグの中身
の差異を無視するタグ、(3)論理的な意味として同じ
タグの組、(4)中身を比較しないタグの組、の4つの
基準の種類を定義しておくようにしている。さらに、前
記構造化文書解析手段は文書の構造を表わす文書木を作
成し、前記構造化文書差分抽出手段は作成された文書木
のノード単位で構造化文書間の差分の抽出を行ない、一
致しなかったノード同士に対して文字単位で差分を抽出
するようにしている。さらに、前記構造化文書解析手段
は文書の構造を表す文書木を作成する際に、前記比較基
準に応じて、文書木のノードの割り当てを変更するよう
にしている。
書を編集し、編集された構造化文書の論理構造を構造化
文書解析装置で解析し、その構造に応じて差分抽出の際
の比較基準を設け、比較基準を満たすように差分文字列
を抽出するので、論理構造に応じた、編集者の感覚に合
う差分が抽出される。また、文書木のノード単位で差分
抽出を行い、一致しなかったノード同士を文字単位で差
分を抽出することで、構造にまたがった差分も抽出され
ない。
の構成を図1に示す。図1において、101はCPU、
102は端末装置、103は文書を記憶するための記憶
装置であり、CPU101には、文書の編集を行う文書
編集プログラム104と、構造化文書を木構造に変換す
る構造化文書解析プログラム105と、構造化文書間の
一致しない部分を差分として抽出する構造化文書差分抽
出プログラム106と、差分抽出での比較基準を格納す
る比較基準テーブル107が設定されている。本実施例
は、構造化文書としてSGML文書を例にとる。SGM
Lは、マーク付けされた構造化文書としてISOの世界
標準として定められた文書記述言語のことである。ま
た、SGML文書はDTD(文書型定義)によって、そ
の論理構造が予め定義される。
ローチャートを用いて説明する。 手順201:文書編集プログラム104で、構造化文書
の編集を行う。 手順202:比較対象であるSGML文書のDTDに対
応した、比較基準テーブル107を読み込む。対応する
比較基準テーブルが存在しない場合、テーブルの作成及
び登録を行う。この比較基準テーブルは、次の4つの比
較基準に該当するタグのテーブルである。 (1)恒等タグ:タグ自身が一致したときのみ、その中
身(開始タグと終了タグの間に挾まれる文字)を比較す
るタグである。 (2)無視タグ:比較する際、そのタグの中身の差異を
無視するタグである。 (3)同等タグ:論理的な意味として同じタグの組であ
る。 (4)比較禁止タグ:中身を比較しないタグの組であ
る。
呼び出されたら、比較基準テーブル107を参照しなが
ら、構造化文書を構造化文書解析プログラム105によ
って解析し、文書木を作成する。このとき、文書木の各
ノードに割り当てる要素は次のルールを用いて行う。 (ルール1):タグは1つのノードに割り当てる。 (ルール2):開始タグと終了タグの間に挟まれた文字
列は、開始タグの子ノードに割り当てる。 (ルール3):終了タグは、開始タグの子ノードに割り
当てる。 (ルール4):恒等タグで挟まれた文字列は、開始タ
グ、終了タグを含めて1つのノードに割り当てる。 (ルール5):無視タグおよび無視タグで挟まれた文字
列は、ノードに割り当てない。 (ルール6):同等タグは、同じタグ名に変換して、ノ
ードに割り当てる。
抽出を行う。このとき、比較するタグ同士が比較禁止タ
グであれば、そのノード以下(子ノード)は比較しな
い。 手順205:一致しなかったノードのみ、今度は文字単
位で差分抽出を行う。ただし、恒等タグのノードはノー
ドの先頭文字であるタグが一致した場合のみ、文字単位
の比較を行う。手順204で比較しなかった無視タグも
この段階で比較を行う。 手順206:端末装置102に差分結果の表示を行う。
て、恒等タグをもつ場合を図3の文書例で説明する。 手順201:文書編集プログラム104で、構造化文書
の編集を行う。図3の(a)から図3の(b)を編集し
たとする。 手順202:比較対象であるSGML文書のDTDに対
応した比較基準テーブル107を読み込む。対応する比
較基準テーブルが存在しない場合、テーブルの作成及び
登録を行う。図3からは、例えば図9のような比較基準
テーブルを作成する。すなわち、<氏名>および<発信
日>を恒等タグとして定義し、タグ同士が一致しない限
り、文字列同士を対応させないという意味を持つ。
呼び出されたら、比較基準テーブル107を参照しなが
ら、構造化文書を構造化文書解析プログラム105によ
って解析し、文書木を作成する。実施例で説明したルー
ルを適用すると、図3の文書(a),(b)から、図9
の比較基準テーブルを参照することにより、図10の文
書木(a),(b)ができる。図10中の1001、1
002は、(ルール4)によって、タグと中身の文字列
が合わせて1つのノードに割り当てられている。
抽出を行う。ノードを単位に比較を行うため、恒等タグ
である<氏名>および<発信日>は、タグと中身の文字
列が両者とも一致しない限り、対応付けられることはな
い。この場合、タグが一致しないため、タグおよびその
中身が差分として抽出される。 手順205:一致しなかったノードのみ、今度は文字単
位で差分抽出を行う。ただし、恒等タグのノードはノー
ドの先頭文字であるタグが一致した場合のみ、文字単位
の比較を行う。
表示を行う。図3の文書(a)との文書(b)の差分抽
出を行った結果例を図11に示す。図11(b)は、図
3(a)の構造化文書を基準として図3(b)の構造化
文書との差分を取った場合の差分文字列の抽出結果であ
り、図11(a)は、図3(b)の構造化文書を基準と
して図3(a)の構造化文書との差分を取った場合の差
分文字列の抽出結果である。図11(b)では、ノード
1001とノード1002におけるタグ〈記号〉とタグ
〈発信日〉が一致しないので、ノード1002全体の
「〈発信日〉平成6年11月二十日〈/発信日〉が差分
として抽出され、また、図3(a)には図3(b)にお
ける「お元気ですか」の記載が無いため、「お元気です
か」が差分として抽出される。
が一致しないと中身を比較しても意味のないものを恒等
タグとして登録しておけば、文書の論理構造が合わない
もの同士を対応付けることがなくなり、編集者に対し
て、より適切な差分抽出結果を提示することが出来る。
番目として、恒等タグおよび無視タグをもつ場合、およ
び構造のずれが起きている場合を図5の文書例で説明す
る。 手順201:文書編集プログラム104で、構造化文書
の編集を行う。図5の(a)から図5の(b)を編集し
たとする。
のDTDに対応した、比較基準テーブル107を読み込
む。対応する比較基準テーブルが存在しない場合、テー
ブルの作成及び登録を行う。図5の例では、例えば、図
12のような比較基準テーブルを作成する。すなわち、
<著者名>を恒等タグとして定義する。この場合、前述
したように、タグ同士が一致した場合のみ、文字列同士
を比較する。また、<章番号>を無視タグとして定義す
る。この場合、章番号の違いは無視する(差分抽出に影
響を与えない)。
呼び出されたら、比較基準テーブル107を参照しなが
ら、SGML文書を構造化文書解析プログラム105に
よって解析し、文書木を作成する。実施例で説明したル
ールを適用すると、図5の文書(a),(b)から、図
12の比較基準テーブルを参照することにより、図13
の文書木(a),(b)ができる。無視タグである<章
番号>は、(ルール5)によって、ノードとして割り当
てられていない。
抽出を行う。無視タグはノードとして存在しないため、
比較されず、全体の差分抽出に影響を与えることはな
い。 手順205:一致しなかったノードのみ、今度は文字列
単位で差分抽出を行う。手順204で比較しなかった無
視タグおよびその中身もこの段階で比較を行う。
表示を行う。図5の文書(a)との文書(b)の差分抽
出を行った結果例を図14に示す。図14(b)は、図
5(a)の構造化文書を基準として図5(b)の構造化
文書との差分を取った場合の差分文字列の抽出結果であ
り、図14(a)は、図5(b)の構造化文書を基準と
して図5(a)の構造化文書との差分を取った場合の差
分文字列の抽出結果である。図5(a)の構造化文書を
基準として図5(b)の構造化文書との差分を取り、図
14(b)の差分文字列の抽出結果を得た場合について
説明すると、手順204における文書木のノードを単位
にした差分抽出では、図13(a)、(b)において、
〈論文〉,〈/論文〉と、〈著者名〉平成太郎〈/著者
名〉と、〈章〉構造化文書の差分抽出方式〈/章〉は一
致と判断され、図14(b)では一致部分として表示さ
れている。次に、手順205では、手順204で〈章〉
構造化文書の差分抽出方式〈/章〉は一致と判断されて
いるので、この一致部分に係る〈章番号〉,〈/章番
号〉は一致と判断され、「第2章」は「第1章」とは一
致しないので差分として抽出され、図14(b)のよう
に表示される。また、手順204において、図13
(b)の〈章〉構造化文書とは?〈/章〉は不一致と判
断されるので、この〈章〉構造化文書とは?〈/章〉
と、この不一致部分に係る〈章番号〉第1章〈/章番
号〉は差分として抽出され、図14(b)のように表示
される。
文書木のノード単位、すなわち構造単位で比較を行って
いるため、例えば、ノード1301と1302はこの時
点で対応付けられる。よって、図6のような構造にまた
がった対応付けは起こらないことが分かる。また、文書
木のノード単位の比較では、無視タグの比較を行わない
ため、無視タグの中身の差異が全体の差分抽出に影響を
与えないことが分かる。
番目として、恒等タグおよび同等タグをもつ場合を図7
の文書例で説明する。 手順201:文書編集プログラム104で、構造化文書
の編集を行う。図7の(a)から図7の(b)を編集し
たとする。
のDTDに対応した、比較基準テーブル107を読み込
む。対応する比較基準テーブルが存在しない場合、テー
ブルの作成及び登録を行う。図7の例では、例えば、図
15のような比較基準テーブルを作成する。すなわち、
<著者名>を恒等タグとして定義する。この場合、タグ
同士が一致しない限り、文字列同士を対応させない。ま
た、<項目>と<初項目>を同等タグと定義する。この
場合、<項目>と<初項目>は同じ論理構造とされる。
呼び出されたら、比較基準テーブル107を参照しなが
ら、SGML文書を構造化文書解析プログラム105に
よって解析し、文書木を作成する。実施例で説明したル
ールを適用すると、図7の文書(a),(b)から、図
15の比較基準テーブルを参照することにより、図16
の文書木(a),(b)ができる。図16中の160
1、1602、1603は(ルール6)によって、同じ
タグ名に変換されている。
抽出を行う。同等タグは同じタグ名になっているため差
分として抽出されない。 手順205:一致しなかったノードのみ、今度は文字単
位で差分抽出を行う。
表示を行う。図7の文書(a)と(b)の差分抽出を行
った例を図17に示す。図17(b)は、図7(a)の
構造化文書を基準として図7(b)の構造化文書との差
分を取った場合の差分文字列の抽出結果であり、図17
(a)は、図7(b)の構造化文書を基準として図7
(a)の構造化文書との差分を取った場合の差分文字列
の抽出結果である。図7(a)の構造化文書を基準とし
て図7(b)の構造化文書との差分を取り、図17
(b)の差分文字列の抽出結果を得た場合について説明
すると、手順204における文書木のノードを単位にし
た差分抽出では、図16(a)、(b)において、〈論
文〉,〈/論文〉と、〈著者名〉平成太郎〈/著者名〉
と、〈項目〉構造化文書の差分抽出方式〈/項目〉は一
致と判断され、図17(b)では一致部分として表示さ
れている。次に、手順205では、手順204で〈項
目〉構造化文書とは?〈/項目〉は不一致と判断されて
いるので、この不一致部分について文字単位で差分抽出
を行ない、〈項目〉構造化文書とは?〈/項目〉は差分
として抽出され、図17(b)のように表示される。
名が違っても、文書の論理構造が同じもの同士は、対応
付けられることが分かる。
番目として、比較禁止タグをもつ場合を図18の文書例
で説明する。 手順201:文書編集プログラム104で、構造化文書
の編集を行う。図18の(a)から図18の(b)を編
集したとする。
のDTDに対応した、比較基準テーブル107を読み込
む。対応する比較基準テーブルが存在しない場合、テー
ブルの作成及び登録を行う。図18の例では、例えば、
図19のような比較基準テーブルを作成する。すなわ
ち、<差出人>と<受取人>とは比較禁止タグとする。
この場合、<差出人>と<受取人>は中身を比較しな
い。
呼び出されたら、比較基準テーブル107を参照しなが
ら、SGML文書を構造化文書解析プログラム105に
よって解析し、文書木を作成する。実施例で説明したル
ールを適用すると、図18の文書(a),(b)から、
図19の比較基準テーブルを参照することにより、図2
0の文書木(a),(b)ができる。
抽出を行う。<差出人>と<受取人>は比較するタグ同
士が比較禁止タグなので、そのノード以下(子ノード)
は比較しない。 手順205:一致しなかったノードのみ、今度は文字単
位で差分抽出を行う。
表示を行う。図18の文書(a)と(b)の差分抽出を
行った例を図21に示す。図21(b)は、図18
(a)の構造化文書を基準として図18(b)の構造化
文書との差分を取った場合の差分文字列の抽出結果であ
り、図21(a)は、図18(b)の構造化文書を基準
として図18(a)の構造化文書との差分を取った場合
の差分文字列の抽出結果である。図18(a)の構造化
文書を基準として図18(b)の構造化文書との差分を
取り、図21(b)の差分文字列の抽出結果を得た場合
について説明すると、手順204における文書木のノー
ドを単位にした差分抽出では、図18(a)、(b)に
おいて、〈メモ〉,〈/メモ〉は一致と判断され、〈受
取人〉,〈/受取人〉とその中身である〈所属〉○○銀
行〈/所属〉〈氏名〉平成太郎〈/氏名〉は、〈差出
人〉と〈受取人〉とが比較禁止タグであるので差分とさ
れ、〈本文〉こんにちは。お元気ですか?〈/本文〉は
不一致と判断される。次に、手順205では、手順20
4で〈本文〉こんにちは。お元気ですか?〈/本文〉は
不一致と判断されているので、この不一致部分について
文字単位で差分抽出を行ない、「お元気ですか?」が差
分として抽出される。この結果、図21(b)のように
表示される。
を比較しないタグ同士を比較禁止タグとして登録してお
けば、そのノード以下(子ノード)は比較されず、<差
出人>と<受取人>の中身の所属や名前が対応付けられ
ることがなく、編集者に対して、より適切な差分抽出結
果を提示することが出来る。
を定義し、これを満たすよう差分を抽出することで、論
理構造の意味に応じた、編集者の感覚に合う差分が抽出
され、また、構造を表す文書木のノード単位で差分抽出
を行い、一致しなかったノード同士を文字単位で差分を
抽出することで、構造にまたがった差分も抽出されない
ため、編集者は論理構造にあった差分を把握することが
出来、構造化文書の編集の効率があがる。
した結果例を示す図である。
した結果例を示す図である。
した結果例を示す図である。
ルの例を示す図である。
ーブルに基づき作成した文書木を示す図である。
ブルに基づき差分抽出した結果例を示す図である。
ブルの例を示す図である。
テーブルに基づき作成した文書木を示す図である。
ーブルに基づき差分抽出した結果例を示す図である。
ブルの例を示す図である。
テーブルに基づき作成した文書木を示す図である。
ーブルに基づき差分抽出した結果例を示す図である。
ブルの例を示す図である。
テーブルに基づき作成した文書木を示す図である。
ーブルに基づき差分抽出した結果例を示す図である。
Claims (10)
- 【請求項1】 記憶装置と処理装置を備え、前記記憶装
置に削除、挿入、または変更などの編集を実施する前後
の構造化文書を記憶し、前記処理装置により前記編集前
後の両構造化文書の一致しない文字列を差分として抽出
する構造化文書差分抽出方法において、 構造化文書を文書編集して前記記憶装置に記憶し、 前記記憶装置から読み出した編集前後の各構造化文書の
論理構造を、編集前後の各構造化文書の論理構造に対し
て設定された比較基準に基づき構造化文書解析し、 該構造化文書解析の結果に従い、前記比較基準を満たす
よう構造化文書間の差分を抽出することを特徴とする構
造化文書差分抽出方法。 - 【請求項2】 請求項1記載の構造化文書差分抽出方法
において、 前記比較基準を、論理構造を示すタグと該タグに対する
基準の種類からなるテーブルとすることを特徴とする構
造化文書差分抽出方法。 - 【請求項3】 請求項2記載の構造化文書差分抽出方法
において、 前記比較基準におけるタグに対する基準の種類として、 (1)タグ自身が一致したときのみその中身を比較する
タグ、 (2)比較する際、そのタグの中身の差異を無視するタ
グ、 (3)論理的な意味として同じタグの組、 (4)中身を比較しないタグの組、の4つの基準の種類
を定義しておくことを特徴とする構造化文書差分抽出方
法。 - 【請求項4】 請求項1乃至請求項3のいずれかの請求
項記載の構造化文書差分抽出方法において、 前記構造化文書解析により文書の構造を表わす文書木を
作成し、該文書木のノード単位で構造化文書間の差分の
抽出を行ない、一致しなかったノード同士に対して文字
単位で差分を抽出することを特徴とする構造化文書差分
抽出方法。 - 【請求項5】 請求項4記載の構造化文書差分抽出方法
において、 前記構造化文書解析によって文書の構造を表す文書木を
作成する際に、前記比較基準に応じて、文書木のノード
の割り当て方法を変えることを特徴とする構造化文書差
分抽出方法。 - 【請求項6】 記憶装置と処理装置を備え、前記記憶装
置に削除、挿入、または変更などの編集を実施する前後
の構造化文書を記憶し、前記処理装置により前記編集前
後の両構造化文書の一致しない文字列を差分として抽出
する構造化文書差分抽出装置において、 前記処理装置は、 構造化文書を編集して前記記憶装置に記憶する文書編集
手段と、 前記記憶装置から読み出した編集前後の各構造化文書の
論理構造を、編集前後の各構造化文書の論理構造に対し
て設定された比較基準に基づき構造化文書解析する構造
化文書解析手段と、 該構造化文書解析の結果に従い、前記比較基準を満たす
よう構造化文書間の差分を抽出する構造化文書差分抽出
手段を備えることを特徴とする構造化文書差分抽出装
置。 - 【請求項7】 請求項6記載の構造化文書差分抽出装置
において、 前記比較基準を、論理構造を示すタグと該タグに対する
基準の種類からなるテーブルとすることを特徴とする構
造化文書差分抽出装置。 - 【請求項8】 請求項7記載の構造化文書差分抽出装置
において、 前記比較基準におけるタグに対する基準の種類として、 (1)タグ自身が一致したときのみその中身を比較する
タグ、 (2)比較する際、そのタグの中身の差異を無視するタ
グ、 (3)論理的な意味として同じタグの組、 (4)中身を比較しないタグの組、の4つの基準の種類
を定義しておくことを特徴とする構造化文書差分抽出装
置。 - 【請求項9】 請求項6乃至請求項8のいずれかの請求
項記載の構造化文書差分抽出装置において、 前記構造化文書解析手段は文書の構造を表わす文書木を
作成し、前記構造化文書差分抽出手段は作成された文書
木のノード単位で構造化文書間の差分の抽出を行ない、
一致しなかったノード同士に対して文字単位で差分を抽
出することを特徴とする構造化文書差分抽出装置。 - 【請求項10】 請求項9記載の構造化文書差分抽出装
置において、 前記構造化文書解析手段は文書の構造を表す文書木を作
成する際に、前記比較基準に応じて、文書木のノードの
割り当てを変更することを特徴とする構造化文書差分抽
出装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16139895A JP3724847B2 (ja) | 1995-06-05 | 1995-06-05 | 構造化文書差分抽出方法および装置 |
US08/657,306 US5956726A (en) | 1995-06-05 | 1996-06-03 | Method and apparatus for structured document difference string extraction |
EP96108939A EP0747836B1 (en) | 1995-06-05 | 1996-06-04 | Method and apparatus for comparison of structured documents |
DE69634459T DE69634459T2 (de) | 1995-06-05 | 1996-06-04 | Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten |
US09/326,579 US6098071A (en) | 1995-06-05 | 1999-06-07 | Method and apparatus for structured document difference string extraction |
US09/604,261 US6526410B1 (en) | 1995-06-05 | 2000-06-27 | Method and apparatus for structured document difference string extraction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16139895A JP3724847B2 (ja) | 1995-06-05 | 1995-06-05 | 構造化文書差分抽出方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08329079A true JPH08329079A (ja) | 1996-12-13 |
JP3724847B2 JP3724847B2 (ja) | 2005-12-07 |
Family
ID=15734343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16139895A Expired - Fee Related JP3724847B2 (ja) | 1995-06-05 | 1995-06-05 | 構造化文書差分抽出方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (3) | US5956726A (ja) |
EP (1) | EP0747836B1 (ja) |
JP (1) | JP3724847B2 (ja) |
DE (1) | DE69634459T2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319632A (ja) * | 1996-05-31 | 1997-12-12 | Hitachi Ltd | 構造化文書の版管理方法および装置 |
JP2000231506A (ja) * | 1999-02-12 | 2000-08-22 | Nec Corp | 木構造データ編集システムにおける木構造差分出力方法及び装置 |
US6931590B2 (en) * | 2000-06-30 | 2005-08-16 | Hitachi, Ltd. | Method and system for managing documents |
JP2007122291A (ja) * | 2005-10-26 | 2007-05-17 | Yafoo Japan Corp | 情報抽出方法 |
JP2007514239A (ja) * | 2003-12-18 | 2007-05-31 | インテル・コーポレーション | 効果的な省スペースxmlパーシング |
JP2010224869A (ja) * | 2009-03-24 | 2010-10-07 | Hitachi Information Systems Ltd | ドキュメント管理システムおよびドキュメント管理方法ならびにそのためのプログラム |
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
US10261805B2 (en) | 2014-10-08 | 2019-04-16 | Nec Corporation | Information processing apparatus for acquiring and classifying components in a configuration definition, information processing method, and recording medium |
Families Citing this family (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3724847B2 (ja) * | 1995-06-05 | 2005-12-07 | 株式会社日立製作所 | 構造化文書差分抽出方法および装置 |
JPH0969101A (ja) * | 1995-08-31 | 1997-03-11 | Hitachi Ltd | 構造化文書生成方法および装置 |
JPH09297768A (ja) * | 1996-05-07 | 1997-11-18 | Fuji Xerox Co Ltd | 文書データベース管理装置及び文書データベース検索方法 |
US6658624B1 (en) * | 1996-09-24 | 2003-12-02 | Ricoh Company, Ltd. | Method and system for processing documents controlled by active documents with embedded instructions |
JPH10143403A (ja) * | 1996-11-12 | 1998-05-29 | Fujitsu Ltd | 情報管理装置および情報管理プログラム記憶媒体 |
US6289121B1 (en) * | 1996-12-30 | 2001-09-11 | Ricoh Company, Ltd. | Method and system for automatically inputting text image |
US7212632B2 (en) | 1998-02-13 | 2007-05-01 | Tecsec, Inc. | Cryptographic key split combiner |
US6694433B1 (en) * | 1997-05-08 | 2004-02-17 | Tecsec, Inc. | XML encryption scheme |
CA2242158C (en) * | 1997-07-01 | 2004-06-01 | Hitachi, Ltd. | Method and apparatus for searching and displaying structured document |
US6411974B1 (en) * | 1998-02-04 | 2002-06-25 | Novell, Inc. | Method to collate and extract desired contents from heterogeneous text-data streams |
US8077870B2 (en) * | 1998-02-13 | 2011-12-13 | Tecsec, Inc. | Cryptographic key split binder for use with tagged data elements |
US6665836B1 (en) * | 1998-06-17 | 2003-12-16 | Siemens Corporate Research, Inc. | Method for managing information on an information net |
US6263332B1 (en) | 1998-08-14 | 2001-07-17 | Vignette Corporation | System and method for query processing of structured documents |
US7281203B2 (en) * | 1998-09-29 | 2007-10-09 | Netscape Communications Corporation | Selecting a DTD for transforming malformed layout expressions into wellformed ones |
US6964011B1 (en) * | 1998-11-26 | 2005-11-08 | Canon Kabushiki Kaisha | Document type definition generating method and apparatus, and storage medium for storing program |
CA2255047A1 (en) * | 1998-11-30 | 2000-05-30 | Ibm Canada Limited-Ibm Canada Limitee | Comparison of hierarchical structures and merging of differences |
US6718519B1 (en) | 1998-12-31 | 2004-04-06 | International Business Machines Corporation | System and method for outputting character sets in best available fonts |
US7031002B1 (en) | 1998-12-31 | 2006-04-18 | International Business Machines Corporation | System and method for using character set matching to enhance print quality |
US6813747B1 (en) | 1998-12-31 | 2004-11-02 | International Business Machines Corporation | System and method for output of multipart documents |
US6539118B1 (en) | 1998-12-31 | 2003-03-25 | International Business Machines Corporation | System and method for evaluating character sets of a message containing a plurality of character sets |
US7039637B2 (en) * | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
US7103532B1 (en) | 1998-12-31 | 2006-09-05 | International Business Machines Corp. | System and method for evaluating character in a message |
US6760887B1 (en) | 1998-12-31 | 2004-07-06 | International Business Machines Corporation | System and method for highlighting of multifont documents |
WO2000062243A1 (fr) * | 1999-04-14 | 2000-10-19 | Fujitsu Limited | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document |
JP2000339312A (ja) * | 1999-05-31 | 2000-12-08 | Toshiba Corp | 文書編集システム及びタグ情報管理テーブル作成方法 |
US6959415B1 (en) * | 1999-07-26 | 2005-10-25 | Microsoft Corporation | Methods and apparatus for parsing Extensible Markup Language (XML) data streams |
US6560620B1 (en) * | 1999-08-03 | 2003-05-06 | Aplix Research, Inc. | Hierarchical document comparison system and method |
US6502112B1 (en) * | 1999-08-27 | 2002-12-31 | Unisys Corporation | Method in a computing system for comparing XMI-based XML documents for identical contents |
US7191114B1 (en) | 1999-08-27 | 2007-03-13 | International Business Machines Corporation | System and method for evaluating character sets to determine a best match encoding a message |
US7661062B1 (en) * | 1999-09-20 | 2010-02-09 | Business Objects Americas | System and method of analyzing an HTML document for changes such that the changed areas can be displayed with the original formatting intact |
JP2001092707A (ja) * | 1999-09-24 | 2001-04-06 | Nec Corp | 情報処理システム、構造化文書処理システム、その更新方法及びその更新プログラムを記録した記録媒体 |
US6675354B1 (en) * | 1999-11-18 | 2004-01-06 | International Business Machines Corporation | Case-insensitive custom tag recognition and handling |
JP3754253B2 (ja) * | 1999-11-19 | 2006-03-08 | 株式会社東芝 | 構造化文書検索方法、構造化文書検索装置及び構造化文書検索システム |
AU2929301A (en) * | 2000-01-07 | 2001-07-24 | Winlook Corporation | Method and apparatus for displaying, retrieving, filing and organizing various kinds of data and images |
US7137065B1 (en) * | 2000-02-24 | 2006-11-14 | International Business Machines Corporation | System and method for classifying electronically posted documents |
EP1290575B1 (en) * | 2000-05-16 | 2005-06-08 | O'Carroll, Garrett | A document processing system and method |
US6519557B1 (en) * | 2000-06-06 | 2003-02-11 | International Business Machines Corporation | Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity |
GB0018042D0 (en) * | 2000-07-21 | 2000-09-13 | Monsell Edm Ltd | Method of and software for recordal and validation of changes to markup language files |
US7103838B1 (en) * | 2000-08-18 | 2006-09-05 | Firstrain, Inc. | Method and apparatus for extracting relevant data |
US6920609B1 (en) * | 2000-08-24 | 2005-07-19 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
WO2002029618A1 (en) | 2000-09-30 | 2002-04-11 | Intel Corporation (A Corporation Of Delaware) | A method and apparatus for determining text passage similarity |
JP2002149874A (ja) * | 2000-11-07 | 2002-05-24 | Ricoh Co Ltd | 電子マニュアル提供システムおよび方法、並びにサーバ装置 |
CA2328566A1 (en) * | 2000-12-15 | 2002-06-15 | Ibm Canada Limited - Ibm Canada Limitee | System and method for providing language-specific extensions to the compare facility in an edit system |
FR2818409B1 (fr) * | 2000-12-18 | 2003-03-14 | Expaway | Procede pour diviser des documents structures en plusieurs parties |
US20020169803A1 (en) * | 2000-12-18 | 2002-11-14 | Sudarshan Sampath | System and user interface for generating structured documents |
US6978420B2 (en) * | 2001-02-12 | 2005-12-20 | Aplix Research, Inc. | Hierarchical document cross-reference system and method |
US7028024B1 (en) * | 2001-07-20 | 2006-04-11 | Vignette Corporation | Information retrieval from a collection of information objects tagged with hierarchical keywords |
JP4045400B2 (ja) * | 2001-08-24 | 2008-02-13 | 富士ゼロックス株式会社 | 検索装置及び検索方法 |
US8041739B2 (en) * | 2001-08-31 | 2011-10-18 | Jinan Glasgow | Automated system and method for patent drafting and technology assessment |
US6754676B2 (en) * | 2001-09-13 | 2004-06-22 | International Business Machines Corporation | Apparatus and method for providing selective views of on-line surveys |
US7085996B2 (en) * | 2001-10-18 | 2006-08-01 | International Business Corporation | Apparatus and method for source compression and comparison |
US20040205675A1 (en) * | 2002-01-11 | 2004-10-14 | Thangaraj Veerappan | System and method for determining a document language and refining the character set encoding based on the document language |
US20030145278A1 (en) * | 2002-01-22 | 2003-07-31 | Nielsen Andrew S. | Method and system for comparing structured documents |
US7191395B2 (en) * | 2002-03-12 | 2007-03-13 | International Business Machines Corporation | Method and system for stylesheet-centric editing |
US7096421B2 (en) * | 2002-03-18 | 2006-08-22 | Sun Microsystems, Inc. | System and method for comparing hashed XML files |
US20040205509A1 (en) * | 2002-03-18 | 2004-10-14 | Sun Microsystems, Inc. | System and method for comparing parsed XML files |
US7260773B2 (en) * | 2002-03-28 | 2007-08-21 | Uri Zernik | Device system and method for determining document similarities and differences |
US20030233621A1 (en) * | 2002-06-13 | 2003-12-18 | International Business Machines Corporation | Editor for smart version control |
GB0217201D0 (en) * | 2002-07-24 | 2002-09-04 | Beach Solutions Ltd | XML database differencing engine |
JP4737914B2 (ja) | 2002-10-02 | 2011-08-03 | ケープレックス・インク | 文書改訂支援プログラム及び当該支援プログラムを記録したコンピュータ読み取り可能媒体、並びに文書改訂支援装置。 |
US7353225B2 (en) * | 2002-11-13 | 2008-04-01 | Sun Microsystems, Inc. | Mechanism for comparing content in data structures |
US7603371B1 (en) | 2002-12-17 | 2009-10-13 | Vignette Corporation | Object based system and method for managing information |
US20070245228A9 (en) * | 2003-04-10 | 2007-10-18 | Andre Lavoie | Financial document change identifier |
US7296223B2 (en) * | 2003-06-27 | 2007-11-13 | Xerox Corporation | System and method for structured document authoring |
JPWO2005006192A1 (ja) * | 2003-07-10 | 2006-08-24 | 富士通株式会社 | 構造化文書処理方法及び装置並びに記憶媒体 |
US7877399B2 (en) * | 2003-08-15 | 2011-01-25 | International Business Machines Corporation | Method, system, and computer program product for comparing two computer files |
US8495099B2 (en) * | 2003-10-24 | 2013-07-23 | Enrico Maim | Method of manipulating information objects and of accessing such objects in a computer environment |
US7373586B2 (en) * | 2004-09-03 | 2008-05-13 | International Business Machines Corporation | Differencing and merging tree-structured documents |
US8082259B2 (en) * | 2005-03-16 | 2011-12-20 | Sony Corporation | Information processing apparatus for extracting objects |
US20070005701A1 (en) * | 2005-06-30 | 2007-01-04 | International Business Machines Corporation | Synchronizing email content with IM content |
EP1791293A1 (en) * | 2005-11-29 | 2007-05-30 | Ipanto | Network service configuration management |
US20070162486A1 (en) * | 2005-12-30 | 2007-07-12 | Thomas Brueggemann | Merge tool for structured object models |
US20070294610A1 (en) * | 2006-06-02 | 2007-12-20 | Ching Phillip W | System and method for identifying similar portions in documents |
US20080005148A1 (en) * | 2006-06-30 | 2008-01-03 | Rearden Commerce, Inc. | Automated knowledge base of feed tags |
US7984375B1 (en) * | 2006-10-10 | 2011-07-19 | Adobe Systems Incorporated | Automated detection and implementation of state and object modifications |
US8321197B2 (en) * | 2006-10-18 | 2012-11-27 | Teresa Ruth Gaudet | Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files |
GB0623068D0 (en) * | 2006-11-18 | 2006-12-27 | Ibm | A client apparatus for updating data |
US8918717B2 (en) * | 2007-05-07 | 2014-12-23 | International Business Machines Corporation | Method and sytem for providing collaborative tag sets to assist in the use and navigation of a folksonomy |
US8090747B2 (en) * | 2007-05-21 | 2012-01-03 | New York University | Method, system, computer-accessible medium and software arrangement for organization and analysis of multiple sets of data |
US7716228B2 (en) * | 2007-09-25 | 2010-05-11 | Firstrain, Inc. | Content quality apparatus, systems, and methods |
US20090088997A1 (en) * | 2007-09-28 | 2009-04-02 | Hitachi High Technologies Corporation | Data processing system |
US8150842B2 (en) * | 2007-12-12 | 2012-04-03 | Google Inc. | Reputation of an author of online content |
US8918369B2 (en) * | 2008-06-05 | 2014-12-23 | Craze, Inc. | Method and system for classification of venue by analyzing data from venue website |
US8230325B1 (en) * | 2008-06-30 | 2012-07-24 | Amazon Technologies, Inc. | Structured document customizable comparison systems and methods |
US20100131617A1 (en) * | 2008-11-25 | 2010-05-27 | John Osborne | Method and system for differential transmission of web page structures |
KR101384405B1 (ko) * | 2010-01-19 | 2014-04-10 | 후지쯔 가부시끼가이샤 | 해석 방법, 해석 장치 및 해석 프로그램 |
GB2477307A (en) * | 2010-01-28 | 2011-08-03 | Adsensa Ltd | Embedding authentication data into an electronic document image |
JP2012043047A (ja) * | 2010-08-16 | 2012-03-01 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
US10108590B2 (en) * | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
US9817804B2 (en) * | 2013-09-12 | 2017-11-14 | Wix.Com Ltd. | System for comparison and merging of versions in edited websites and interactive applications |
JP6185148B2 (ja) * | 2014-03-25 | 2017-08-23 | 株式会社日立製作所 | ソフトウェア仕様間依存関係検証装置、及びソフトウェア仕様間依存関係検証方法 |
US10558679B2 (en) * | 2016-02-10 | 2020-02-11 | Fuji Xerox Co., Ltd. | Systems and methods for presenting a topic-centric visualization of collaboration data |
US10783138B2 (en) * | 2017-10-23 | 2020-09-22 | Google Llc | Verifying structured data |
US11314807B2 (en) | 2018-05-18 | 2022-04-26 | Xcential Corporation | Methods and systems for comparison of structured documents |
CN112908487B (zh) * | 2021-04-19 | 2023-09-22 | 中国医学科学院医学信息研究所 | 一种临床指南更新内容的自动识别方法及系统 |
US20220405499A1 (en) * | 2021-06-18 | 2022-12-22 | Jpmorgan Chase Bank, N.A. | Method and system for extracting information from a document |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4807182A (en) * | 1986-03-12 | 1989-02-21 | Advanced Software, Inc. | Apparatus and method for comparing data groups |
US5261040A (en) * | 1986-07-11 | 1993-11-09 | Canon Kabushiki Kaisha | Text processing apparatus |
JPH02255964A (ja) * | 1989-01-23 | 1990-10-16 | Sumitomo Metal Ind Ltd | 文書変更部分の自動識別装置 |
US5146552A (en) * | 1990-02-28 | 1992-09-08 | International Business Machines Corporation | Method for associating annotation with electronically published material |
US5428529A (en) * | 1990-06-29 | 1995-06-27 | International Business Machines Corporation | Structured document tags invoking specialized functions |
US5434962A (en) * | 1990-09-07 | 1995-07-18 | Fuji Xerox Co., Ltd. | Method and system for automatically generating logical structures of electronic documents |
CA2067633C (en) * | 1991-07-24 | 1996-10-01 | Eric Jonathan Bauer | Method and apparatus for accessing a computer-based file system |
JP2659896B2 (ja) * | 1992-04-29 | 1997-09-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 構造化文書複製管理方法及び構造化文書複製管理装置 |
WO1994012944A1 (en) * | 1992-11-23 | 1994-06-09 | Paragon Concepts, Inc. | Computer filing system with user selected categories to provide file access |
JPH06250895A (ja) * | 1993-02-26 | 1994-09-09 | Fujitsu Ltd | 構造化データベースシステム |
JP2770715B2 (ja) * | 1993-08-25 | 1998-07-02 | 富士ゼロックス株式会社 | 構造化文書検索装置 |
US5438512A (en) * | 1993-10-22 | 1995-08-01 | Xerox Corporation | Method and apparatus for specifying layout processing of structured documents |
JP3444948B2 (ja) * | 1993-12-28 | 2003-09-08 | キヤノン株式会社 | 文書編集装置および文書編集方法 |
JP3287679B2 (ja) * | 1993-12-28 | 2002-06-04 | キヤノン株式会社 | 文書処理装置及び方法 |
US5787449A (en) * | 1994-06-02 | 1998-07-28 | Infrastructures For Information Inc. | Method and system for manipulating the architecture and the content of a document separately from each other |
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
JP2896634B2 (ja) * | 1995-03-02 | 1999-05-31 | 富士ゼロックス株式会社 | 全文登録語検索装置および全文登録語検索方法 |
JPH08255155A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 全文登録語検索装置および方法 |
JP3724847B2 (ja) * | 1995-06-05 | 2005-12-07 | 株式会社日立製作所 | 構造化文書差分抽出方法および装置 |
US5878421A (en) * | 1995-07-17 | 1999-03-02 | Microsoft Corporation | Information map |
US5950196A (en) * | 1997-07-25 | 1999-09-07 | Sovereign Hill Software, Inc. | Systems and methods for retrieving tabular data from textual sources |
-
1995
- 1995-06-05 JP JP16139895A patent/JP3724847B2/ja not_active Expired - Fee Related
-
1996
- 1996-06-03 US US08/657,306 patent/US5956726A/en not_active Expired - Fee Related
- 1996-06-04 DE DE69634459T patent/DE69634459T2/de not_active Expired - Fee Related
- 1996-06-04 EP EP96108939A patent/EP0747836B1/en not_active Expired - Lifetime
-
1999
- 1999-06-07 US US09/326,579 patent/US6098071A/en not_active Expired - Fee Related
-
2000
- 2000-06-27 US US09/604,261 patent/US6526410B1/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319632A (ja) * | 1996-05-31 | 1997-12-12 | Hitachi Ltd | 構造化文書の版管理方法および装置 |
JP2000231506A (ja) * | 1999-02-12 | 2000-08-22 | Nec Corp | 木構造データ編集システムにおける木構造差分出力方法及び装置 |
US6931590B2 (en) * | 2000-06-30 | 2005-08-16 | Hitachi, Ltd. | Method and system for managing documents |
JP2007514239A (ja) * | 2003-12-18 | 2007-05-31 | インテル・コーポレーション | 効果的な省スペースxmlパーシング |
JP2007122291A (ja) * | 2005-10-26 | 2007-05-17 | Yafoo Japan Corp | 情報抽出方法 |
JP2010224869A (ja) * | 2009-03-24 | 2010-10-07 | Hitachi Information Systems Ltd | ドキュメント管理システムおよびドキュメント管理方法ならびにそのためのプログラム |
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
US10261805B2 (en) | 2014-10-08 | 2019-04-16 | Nec Corporation | Information processing apparatus for acquiring and classifying components in a configuration definition, information processing method, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
US6098071A (en) | 2000-08-01 |
JP3724847B2 (ja) | 2005-12-07 |
DE69634459D1 (de) | 2005-04-21 |
EP0747836A1 (en) | 1996-12-11 |
US5956726A (en) | 1999-09-21 |
EP0747836B1 (en) | 2005-03-16 |
US6526410B1 (en) | 2003-02-25 |
DE69634459T2 (de) | 2006-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3724847B2 (ja) | 構造化文書差分抽出方法および装置 | |
US5778400A (en) | Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags | |
KR100324456B1 (ko) | 구조화문서검색표시방법및장치 | |
US8938461B2 (en) | Method for organizing large numbers of documents | |
Bergmark | Automatic extraction of reference linking information from onlinedocuments | |
US20050050459A1 (en) | Automatic partition method and apparatus for structured document information blocks | |
JPH07325827A (ja) | ハイパーテキスト自動生成装置 | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN109885569A (zh) | 基于配置文件对xml数据进行字段提取及结构化方法 | |
CN113850056A (zh) | 一种基于关键词拆分技术的文档关键信息提取方法和系统 | |
US7401071B2 (en) | Structured data retrieval apparatus, method, and computer readable medium | |
JPH11328218A (ja) | コンテンツ属性情報正規化方法、情報収集・サービス提供システム、属性情報設定装置並びにプログラム格納記録媒体 | |
JP3566457B2 (ja) | 構造化文書の版管理方法および装置 | |
JP3744676B2 (ja) | 情報抽出装置及びその方法 | |
JP4196824B2 (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
Yamada et al. | Automatic wrapper generation for multilingual web resources | |
Li et al. | A document classification and extraction system with learning ability | |
JPH0877179A (ja) | 文書索引生成装置 | |
JP3156613B2 (ja) | 文書編集方式 | |
Suzuki et al. | Path Set Operations for Clipping of Parts of Web Pages and Information Extraction from Web pages. | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
Ikeda et al. | Expressive power of tree and string based wrappers | |
CN108897749A (zh) | 基于语法树和文本块密度的网页信息抽取方法及系统 | |
JPH09160917A (ja) | タグ付き文書作成装置及びその方法 | |
Pereda | Information extraction in an optical character recognition context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050920 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |