JP2006268638A - Document difference detector - Google Patents

Document difference detector Download PDF

Info

Publication number
JP2006268638A
JP2006268638A JP2005088146A JP2005088146A JP2006268638A JP 2006268638 A JP2006268638 A JP 2006268638A JP 2005088146 A JP2005088146 A JP 2005088146A JP 2005088146 A JP2005088146 A JP 2005088146A JP 2006268638 A JP2006268638 A JP 2006268638A
Authority
JP
Japan
Prior art keywords
difference
document
data
difference detection
electronic files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005088146A
Other languages
Japanese (ja)
Other versions
JP4682284B2 (en
Inventor
Shigenori Tanaka
成典 田中
Hitoshi Furuta
均 古田
Katsuhisa Ito
勝久 伊藤
Masanori Ikebe
正典 池辺
Kenji Nakamura
健二 中村
Daisuke Goami
大祐 其阿彌
Etsuji Kitagawa
悦司 北川
Yoshitaka Minami
佳孝 南
Hiroya Yoshida
博哉 吉田
Toshiyuki Sugimachi
敏之 杉町
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Informatics Institute Co Ltd
Original Assignee
Kansai Informatics Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Informatics Institute Co Ltd filed Critical Kansai Informatics Institute Co Ltd
Priority to JP2005088146A priority Critical patent/JP4682284B2/en
Publication of JP2006268638A publication Critical patent/JP2006268638A/en
Application granted granted Critical
Publication of JP4682284B2 publication Critical patent/JP4682284B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method for easily discriminating a changed part of an electronic file. <P>SOLUTION: An electronic file analysis means 102 divides elements constituting inputted electronic files before and after change to predetermined object units. An object attribute data generation means 104 assigns metadata to each object. An object correspondence means 106 associates each object between the electronic files before and after change. A differential data output means 108 performs differential calculation processing based on the correspondence of each object, and outputs the result. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

この発明は、変更が加えられた電子ファイルの変更箇所を容易に判別する技術に関する。   The present invention relates to a technique for easily discriminating a change location of an electronic file that has been changed.

近年の情報技術の発達に伴って、電子ファイルを用いた商取引が社会に広く普及してきており、データの再利用などによる業務の効率化が図られている。   With the development of information technology in recent years, commerce using electronic files has become widespread in society, and business efficiency is improved by data reuse and the like.

従来から、電子文書に含まれるテキストや画像をマッチング処理したり、変更履歴を常時記憶しておくことにより電子ファイル間における差分を検出する方法が知られている(特許文献1〜3)。   Conventionally, there is known a method for detecting a difference between electronic files by performing matching processing on texts and images included in an electronic document or constantly storing a change history (Patent Documents 1 to 3).

特開平06−243132号公報Japanese Patent Laid-Open No. 06-243132

特開平08−190557号公報Japanese Patent Laid-Open No. 08-190557

特開2004−516585号公報JP 2004-516585 A

しかしながら、これら従来の文書差分検出装置は、以下のような問題があった。   However, these conventional document difference detection devices have the following problems.

(i)テキストや画像のマッチングによる差分検出では、レイアウトやフォントなどの詳細な変更要素まで特定することはできず、文章の構成が変更したような場合(例えば、段落の移動など)には差分箇所を容易に特定することはできなかった。 (I) Difference detection by matching text and images cannot specify detailed change elements such as layout and font, and if the composition of the text has changed (for example, paragraph movement, etc.) The location could not be easily identified.

(ii)同じファイル形式の電子ファイル間における差分検出を前提としていたため、異なるファイル形式の電子ファイルについては差分検出を行うことができなかった。 (Ii) Since the difference detection between electronic files of the same file format was assumed, difference detection could not be performed for electronic files of different file formats.

(iii)文書の差分を検出するために変更履歴データを常時記憶しておくのはユーザーなどにとって面倒な作業であり、特に、異なるユーザー間(例えば、受注者と発注者間)において電子ファイルを取り扱うような場合には差分を検出するために変更履歴データも受け渡す必要が生じるため面倒である。 (Iii) It is troublesome for the user to always store the change history data in order to detect the difference between the documents. In particular, the electronic file is stored between different users (for example, between the contractor and the orderer). In the case of handling, it is troublesome because it is necessary to transfer the change history data in order to detect the difference.

この発明は、上記問題を解決し、電子ファイルの変更部分を容易に判別する方法を提供することを目的とする。   An object of the present invention is to solve the above problems and provide a method for easily discriminating a changed part of an electronic file.

(1、2)この発明の文書差分検出装置は、
電子ファイル間における差分を検出するための文書差分検出装置であって、
差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段、
入力された第1および第2の電子ファイルを構成する要素をそれぞれ所定のオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルからメタデータを抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する差分データ出力手段、
を備えたことを特徴とする。
(1, 2) The document difference detection apparatus according to the present invention comprises:
A document difference detection device for detecting a difference between electronic files,
Electronic file input means for inputting the first and second electronic files to be subjected to the difference detection process,
Electronic file analysis means for dividing the elements constituting the input first and second electronic files into predetermined object units;
Object attribute data generation means for generating object attribute data by extracting metadata from the first and second electronic files and assigning them to each object;
Object association means for associating objects between the first and second electronic files based on the object attribute data generated for the first and second electronic files;
Difference data output means for performing difference calculation processing based on the association of the objects and outputting the result as difference data;
It is provided with.

これにより、電子ファイルに些細な変更(例えば、フォントサイズの変更、画像の位置移動)が加えられたような場合でも、変更前および変更後の電子ファイルさえ存在すれば、詳細な差分データを容易に得ることができる。   As a result, even if minor changes (for example, font size change, image position movement) are made to the electronic file, detailed difference data can be easily obtained if there is an electronic file before and after the change. Can get to.

(3)この発明の文書差分検出装置においては、
前記オブジェクト対応付け手段は、オブジェクト属性データであるコンテンツ、文書構成、レイアウトの各データが一致するか否かを判定することによりオブジェクトの対応付けを行い、
前記差分データ出力手段は、コンテンツ、文書構成、レイアウトについて差分算出処理を行った結果を差分データとして出力する、
ことを特徴とする。
(3) In the document difference detection apparatus of the present invention,
The object association means associates objects by determining whether content, document configuration, and layout data that are object attribute data match,
The difference data output means outputs the result of the difference calculation process for the content, document structure, and layout as difference data,
It is characterized by that.

これにより、電子ファイルに些細な変更(例えば、フォントサイズの変更、画像の位置移動)が加えられたような場合でも、コンテンツ、文書構成、レイアウトについて差分算出処理を行うことで、詳細な差分データを得ることができる。   As a result, detailed difference data can be obtained by performing a difference calculation process on content, document structure, and layout even when a minor change (eg, font size change, image position movement) is made to the electronic file. Can be obtained.

(4)この発明の文書差分検出装置においては、
前記オブジェクト対応付け手段は、コンテンツデータが共通するオブジェクトについて、コンテンツ、文書構成、レイアウトの各データが全て一致する場合には同一オブジェクトとして対応付けを行い、コンテンツ、文書構成、レイアウトの何れかのデータが異なる場合には関連オブジェクトとして対応付けを行い、
前記差分データ出力手段は、関連オブジェクトについて差分算出処理を行って更新項目とし、共通するコンテンツの存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とする。
(4) In the document difference detection apparatus of the present invention,
The object associating means associates the objects having the same content data as the same object when the data of the content, the document configuration, and the layout all match, and the data of the content, the document configuration, or the layout If they are different, associate them as related objects,
The difference data output means performs a difference calculation process on the related object as an update item, and outputs difference data as an addition or deletion item for an object that does not have common content.
It is characterized by that.

これにより、関連オブジェクトと同一オブジェクトに分けて確実に対応付けを行うことが可能となり、詳細な差分データを効率的に得ることができる。   As a result, it is possible to reliably associate the related object with the same object, and it is possible to efficiently obtain detailed difference data.

(5)この発明の文書差分検出装置においては、
前記オブジェクト対応付け手段は、オブジェクト属性データの類似性を算出し、最も類似性の高いオブジェクトを関連オブジェクトとして対応付けを行う、
ことを特徴とする。
(5) In the document difference detection apparatus of the present invention,
The object association means calculates the similarity of the object attribute data, and associates the object with the highest similarity as a related object.
It is characterized by that.

これにより、オブジェクト属性データに部分的な変更が加えられた場合であっても適切にオブジェクトの対応付けを行うことができる。   Thereby, even if a partial change is added to the object attribute data, it is possible to appropriately associate the objects.

(6)この発明の文書差分検出装置においては、
前記差分データ出力手段は、差分算出処理の際に、テキストについて意味解析を行う、
ことを特徴とする。
(6) In the document difference detection apparatus of the present invention,
The difference data output means performs semantic analysis on the text during the difference calculation process.
It is characterized by that.

これにより、意味的には変わらないが表現的な変更が加えられた場合に、全く意味内容が変更された場合と区別して差分データを出力することができる。   As a result, difference data can be output in a case where a semantic change is made but the semantic content is not changed at all when the semantic content is not changed.

(7)この発明の文書差分検出装置においては、
前記差分データ出力手段は、差分算出処理の際に、画像についてベクター形式の場合にラスター形式に変換した後、画像マッチングを行う、
ことを特徴とする。
(7) In the document difference detection apparatus of the present invention,
The difference data output means performs image matching after converting the image into a raster format in the case of a vector format for the difference calculation process.
It is characterized by that.

これにより、ベクター形式の画像についても確実に差分算出処理を行って差分データを得ることができる。   Thus, difference data can be obtained by reliably performing the difference calculation process for the vector format image.

(8)この発明の文書差分検出装置においては、
第1の電子ファイルのファイル形式と第2の電子ファイルのファイル形式が異なる、
ことを特徴とする。
(8) In the document difference detection apparatus of the present invention,
The file format of the first electronic file is different from the file format of the second electronic file.
It is characterized by that.

これにより、異なったファイル形式の電子ファイル間においても差分データを得ることが可能となり、汎用的な文書差分検出装置を提供することができる。   Thereby, difference data can be obtained even between electronic files of different file formats, and a general-purpose document difference detection device can be provided.

(9)この発明の文書差分検出装置においては、
差分データ出力手段から出力されたコンテンツ、文書構成、レイアウトの各差分データを表示する差分データ表示手段、
を備えたことを特徴とする。
(9) In the document difference detection apparatus of the present invention,
Difference data display means for displaying each difference data of content, document structure and layout output from the difference data output means;
It is provided with.

これにより、ユーザーがコンテンツ、文書構成、レイアウトの各差分結果を容易に把握することができる。   Thereby, the user can easily grasp each difference result of the content, the document configuration, and the layout.

(10)この発明の文書差分検出装置においては、
前記差分データ表示手段は、差分データ出力手段から出力されたコンテンツ、文書構成、レイアウトの各差分データを考慮して、
第1の電子ファイルを表示するレイヤーと、第2の電子ファイルを表示するレイヤーと、第1および第2の電子ファイルの差分箇所を強調表示するレイヤーとを重ねて表示する、
ことを特徴とする。
(10) In the document difference detection apparatus of the present invention,
The difference data display means considers each difference data of content, document structure, and layout output from the difference data output means,
Displaying a layer for displaying the first electronic file, a layer for displaying the second electronic file, and a layer for highlighting the difference between the first and second electronic files,
It is characterized by that.

これにより、ユーザーがコンテンツ、文書構成、レイアウトの差分結果を1つの表示画面上で把握することができる。   Thereby, the user can grasp the difference results of the contents, the document structure, and the layout on one display screen.

この実施形態において、「メタデータ」とは、分割されたオブジェクトについての属性情報(コンテンツ、レイアウト、文書構造など)を示すデータをいう。   In this embodiment, “metadata” refers to data indicating attribute information (content, layout, document structure, etc.) about a divided object.

1.文書差分検出装置1の機能ブロック図
図1は、この発明の文書差分検出装置1の機能ブロック図である。図1に示すように、この発明の文書差分検出装置1は、電子ファイル入力手段100、電子ファイル解析手段102、オブジェクト属性データ生成手段104、オブジェクト対応付け手段106、差分データ出力手段108を備えている。
1. Functional Block Diagram of Document Difference Detection Device 1 FIG. 1 is a functional block diagram of the document difference detection device 1 of the present invention. As shown in FIG. 1, the document difference detection apparatus 1 of the present invention includes an electronic file input means 100, an electronic file analysis means 102, an object attribute data generation means 104, an object association means 106, and a difference data output means 108. Yes.

図1に示す文書差分検出装置1の電子ファイル入力手段100は、差分の検出処理を行う対象となる第1(変更前)および第2(変更後)の電子ファイルをユーザーがそれぞれ入力するための手段である。   The electronic file input means 100 of the document difference detection apparatus 1 shown in FIG. 1 is used for the user to input first (before change) and second (after change) electronic files to be subjected to difference detection processing. Means.

電子ファイル解析手段102は、入力された変更前および変更後の電子ファイルを構成する要素をそれぞれ所定(例えば、テキスト、表、画像など)のオブジェクト単位に分割するための手段である。   The electronic file analysis means 102 is means for dividing the elements constituting the inputted electronic file before and after the change into predetermined object units (for example, text, table, image, etc.).

オブジェクト属性データ生成手段104は、変更前および変更後の電子ファイルから属性データ(例えば、文書構造情報、レイアウト情報、コンテンツ情報)を抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するための手段である。   The object attribute data generation unit 104 extracts attribute data (for example, document structure information, layout information, content information) from the electronic file before and after the change, and generates the object attribute data by assigning it to each object. It is a means to do.

オブジェクト対応付け手段106は、変更前および変更後の電子ファイルについて生成した各オブジェクト属性データに基づいて、変更前および変更後の電子ファイル間におけるオブジェクトの対応付けを行うための手段である。   The object association unit 106 is a unit for associating objects between the pre-change and post-change electronic files based on the object attribute data generated for the pre-change and post-change electronic files.

差分データ出力手段108は、ユーザーに差分データを提示するために、オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力するための手段である。   The difference data output means 108 is a means for performing difference calculation processing based on object association and presenting the result as difference data in order to present difference data to the user.

2.文書差分検出装置1のハードウェア構成など
図2に、この発明の文書差分検出装置(文書差分検出コンピュータ)1のハードウェア構成を示す。図2に示すように、文書差分検出装置1は、CPU10、ディスプレイ12、ハードディスク14、メモリ16、キーボード/マウス18、CD−ROMドライブ20を備えている。
2. Hardware Configuration of Document Difference Detection Device 1 FIG. 2 shows a hardware configuration of a document difference detection device (document difference detection computer) 1 according to the present invention. As shown in FIG. 2, the document difference detection apparatus 1 includes a CPU 10, a display 12, a hard disk 14, a memory 16, a keyboard / mouse 18, and a CD-ROM drive 20.

図2のハードディスク14には、電子ファイル間における差分を検出する処理を行う文書差分検出装置処理プログラム30が記録されている。また、図2に示す文書差分検出処理プログラム30は、オブジェクト属性データ記憶部32を備えている。文書差分検出処理プログラム30は、CPU10、ディスプレイ12、ハードディスク14、メモリ16、キーボード/マウス18、CD−ROMドライブ20を有するコンピュータを、図1に示す電子ファイル入力手段100、電子ファイル解析手段102、オブジェクト属性データ生成手段104、オブジェクト対応付け手段106、差分データ出力手段108等として機能させるためのプログラムである。   In the hard disk 14 of FIG. 2, a document difference detection apparatus processing program 30 for performing a process of detecting a difference between electronic files is recorded. The document difference detection processing program 30 shown in FIG. 2 includes an object attribute data storage unit 32. The document difference detection processing program 30 is a computer having the CPU 10, the display 12, the hard disk 14, the memory 16, the keyboard / mouse 18, and the CD-ROM drive 20, and the electronic file input means 100, electronic file analysis means 102, This is a program for functioning as the object attribute data generation unit 104, the object association unit 106, the difference data output unit 108, and the like.

なお、差分検出処理プログラム30のハードディスク14へのインストールは、CD−ROMドライブ20を介してCD−ROM22に記録されたデータを読み出して行われる。また、差分検出処理を行う対象となる第1および第2の電子ファイルデータ(図2に示すfile1、file2)は、CD−ROM22に記憶されており、CD−ROMドライブ20を介して入力される。   The difference detection processing program 30 is installed on the hard disk 14 by reading data recorded on the CD-ROM 22 via the CD-ROM drive 20. Further, the first and second electronic file data (file 1 and file 2 shown in FIG. 2) to be subjected to the difference detection process are stored in the CD-ROM 22 and input via the CD-ROM drive 20. .

差分検出処理を行う対象となる第1および第2の電子ファイルは、具体的には図3および図4に示すような一般的なワープロソフト(例えば、MicrosoftWord文書、一太郎(何れも登録商標)など)で作成したものである。なお、図3は、変更を加える前の電子ファイルfile1を示す図であり、図4は、図3に示す電子ファイルfile1の内容に変更を加えた後の電子ファイルfile2を示す図である。   Specifically, the first and second electronic files to be subjected to the difference detection process are general word processor software (for example, Microsoft Word document, Ichitaro (both are registered trademarks), etc. as shown in FIGS. ). 3 is a diagram showing the electronic file file1 before the change is made, and FIG. 4 is a diagram showing the electronic file file2 after the change is made to the contents of the electronic file file1 shown in FIG.

図4に示すように、電子ファイルfile1からの変更点は、(i)α部分において「1.1.3 既存研究」のフォントサイズが大きくなったこと、(ii)β部分において日付を「2」から「3」に訂正したこと、(iii)γ部分において「・変更前文書と変更後文書を比較することで・・・」(図3を参照)を削除したことの3点であり、差分検出プログラム30はこれらの変更点を差分として検出することになる。   As shown in FIG. 4, the changes from the electronic file file1 are (i) that the font size of “1.1.3 Existing Research” has increased in the α portion, and (ii) the date in the β portion is “2”. "Iii" was corrected to "3", and (iii) in the γ portion, "... by comparing the document before change with the document after change ..." (see Fig. 3) was deleted. The difference detection program 30 detects these changes as differences.

差分検出処理プログラム30は、これらの電子ファイル(図2に示すfile1、file2)をそれぞれ所定のオブジェクト単位に分割し、それぞれのオブジェクトに文書構造、レイアウト、コンテンツなどのメタデータを付与して図5に示すオブジェクト属性データ記憶部32に記憶している。なお、この実施形態においては、HTMLのタグ単位(テキスト、画像などのコンテンツを含むもの)毎にオブジェクトを生成している。   The difference detection processing program 30 divides these electronic files (file 1 and file 2 shown in FIG. 2) into predetermined object units, and assigns metadata such as document structure, layout, content, and the like to each object. Is stored in the object attribute data storage unit 32 shown in FIG. In this embodiment, an object is generated for each HTML tag (including contents such as text and images).

図5は、オブジェクト属性データ記憶部32のデータ例を示す図である。図5には、変更前の電子ファイルについてのオブジェクト属性データだけを示しているが、変更後の電子ファイルについても同様のオブジェクト属性データがオブジェクト属性データ記憶部32に記憶される。   FIG. 5 is a diagram illustrating an example of data in the object attribute data storage unit 32. FIG. 5 shows only the object attribute data for the electronic file before the change, but similar object attribute data is stored in the object attribute data storage unit 32 for the electronic file after the change.

図5に示すように、各オブジェクトにはIDが付されており、文書から抽出した種別(テキスト、画像などの種類)、文書構造、レイアウト、コンテンツの各データ(メタデータ)が共に記憶されている。文書構造データdata1としては、文書をツリー構造化した場合の階層レベル(階層の深さ)、階層ノード名称、親オブジェクトの階層ノードなど、文書全体におけるオブジェクトの位置を特定するためのデータが該当する。図5中のレイアウトデータdata2としては、マージン、フォントサイズ、フォント名などの属性を示すデータが該当する。また、コンテンツデータdata3としては、テキスト、表、画像などの具体的な内容を示すデータが該当するが、ファイル名称(例えば、「gazou001.img」)、保存場所などによってリンクしておけばよい。   As shown in FIG. 5, each object is assigned an ID, and the type (text, image, etc.) extracted from the document, document structure, layout, and content data (metadata) are stored together. Yes. The document structure data data1 corresponds to data for specifying the position of an object in the entire document, such as a hierarchical level (hierarchy depth), a hierarchical node name, and a parent node of a parent object when the document is structured in a tree structure. . The layout data data2 in FIG. 5 corresponds to data indicating attributes such as margin, font size, and font name. The content data data3 corresponds to data indicating specific contents such as text, table, and image, but may be linked by a file name (for example, “gazou001.img”), a storage location, or the like.

オブジェクト属性データ記憶部32に記憶されたこれら文書構造、レイアウト、コンテンツの各データに基づいて、以下に示すようなオブジェクトの対応付け処理や差分データの出力処理が行われることになる。   Based on the document structure, layout, and content data stored in the object attribute data storage unit 32, object association processing and differential data output processing as described below are performed.

3.文書差分検出処理のフローチャート
まず、図6に示す文書差分検出処理のフローチャートを用いて、この発明の文書差分検出プログラム30が行う処理を説明する。
3. Flowchart of Document Difference Detection Process First, the process performed by the document difference detection program 30 of the present invention will be described using the flowchart of the document difference detection process shown in FIG.

まず、文書差分検出プログラム30は、ユーザーによって図3および図4に示すような変更前および変更後の電子ファイル(第1および第2の電子ファイル)の入力があったか否かを判断している(ステップS10)。   First, the document difference detection program 30 determines whether or not the user has input before-change and after-change electronic files (first and second electronic files) as shown in FIGS. Step S10).

変更前および変更後の電子ファイルが入力されると、文書解析処理に移行するする(ステップS12)。図7は文書解析処理の詳細を示すフローチャートである。   When the pre-change and post-change electronic files are input, the process proceeds to document analysis processing (step S12). FIG. 7 is a flowchart showing details of the document analysis processing.

図7に示すように、文書解析処理(ステップS12)においては、まず、オブジェクト分割単位が予め取得される(ステップS20)。この実施形態においては、HTMLのタグが分割単位として予め設定されている。   As shown in FIG. 7, in the document analysis process (step S12), first, an object division unit is acquired in advance (step S20). In this embodiment, HTML tags are preset as division units.

さらに、変更前および変更後の電子ファイルが解析され、それぞれについてのHtmlファイルが取得される(ステップS22)。図8は、図3に示す変更前のワープロ文書をHTML形式に変換したデータを示す図である。なお、ここでは電子ファイルから文書構成要素を分割するために便宜的にHTML形式に変換しているが、電子ファイルから文書構成要素を直接抽出して分割することができる場合にはHTML形式に変換しなくてもよい。   Further, the electronic files before and after the change are analyzed, and the html files for each are obtained (step S22). FIG. 8 is a diagram showing data obtained by converting the word processor document before change shown in FIG. 3 into the HTML format. In this example, the document component is converted to HTML format for the sake of convenience in order to divide the document component from the electronic file. However, if the document component can be directly extracted from the electronic file and divided, it is converted to HTML format. You don't have to.

文書差分検出プログラム30は、電子ファイルを構成する要素を所定のオブジェクト毎に分割する(ステップS24)。この実施形態では、HTMLのタグが分割単位として予め設定されているため、例えば、図8に示す<title>変更前文書サンプル</title>T0が1のオブジェクトとして分割される。   The document difference detection program 30 divides elements constituting the electronic file into predetermined objects (step S24). In this embodiment, HTML tags are preset as division units. For example, <title> before-change document sample </ title> T0 shown in FIG. 8 is divided as one object.

図6に示すように、文書解析処理(ステップS12)の後は、オブジェクト属性データ生成処理(ステップS14)が行われる。図9は、オブジェクト属性データ生成処理(ステップS14)の詳細を示すフローチャートである。   As shown in FIG. 6, after the document analysis process (step S12), an object attribute data generation process (step S14) is performed. FIG. 9 is a flowchart showing details of the object attribute data generation process (step S14).

オブジェクト属性データ生成処理(図6のステップS14)においては、図9に示すように、まず、分割したオブジェクトに対してIDが付与され、オブジェクト属性データ記憶部32に記憶される(ステップS30)。さらに、各オブジェクトに対して種別の判定が行われ、オブジェクト属性データ記憶部32に記憶される(ステップS32)。   In the object attribute data generation process (step S14 in FIG. 6), as shown in FIG. 9, first, IDs are assigned to the divided objects and stored in the object attribute data storage unit 32 (step S30). Further, the type is determined for each object and stored in the object attribute data storage unit 32 (step S32).

その後、図8に示すHTML文書や電子ファイルから抽出したスタイルシート(文書全体に影響する基本レイアウトおよび文書を構成する要素についての詳細レイアウト)を解析することにより、オブジェクト属性データ記憶部32に文書構造データdata1、レイアウトデータdata2、コンテンツデータdata3が記憶される。   Thereafter, the document structure is stored in the object attribute data storage unit 32 by analyzing the style sheet (the basic layout affecting the entire document and the detailed layout of the elements constituting the document) extracted from the HTML document or electronic file shown in FIG. Data data1, layout data data2, and content data data3 are stored.

文書構造データdata1は、図8に示すタグの種類に基づいて文書構造を解析することで得られる。例えば、見出しタグ<hn>(nは数字)は、<h1>が最上位の見出し(大見出し)で、以下数字が小さくなるにつれて下位構造の見出し(小見出し)を示している。また、表の横一行を定義するタグ<tr>の下位には、セルの見出しを示す<th>やセルのデータ示すタグ<td>が位置することを示している。   The document structure data data1 is obtained by analyzing the document structure based on the tag types shown in FIG. For example, in the heading tag <hn> (n is a number), <h1> is the top heading (large heading), and the heading (subheading) of the lower structure is shown as the number decreases below. Further, it is shown that <th> indicating a cell heading and a tag <td> indicating cell data are positioned below a tag <tr> defining one horizontal line of the table.

レイアウトデータdata2は、電子ファイルのスタイルシートからレイアウト情報を抽出することにより得ることができる。また、コンテンツデータdata3はHTML文書から抽出して得ることができる。   The layout data data2 can be obtained by extracting layout information from the style sheet of the electronic file. The content data data3 can be obtained by extracting from the HTML document.

なお、このオブジェクト属性データ生成処理(ステップS14)は、変更前および変更後の電子ファイルfile1、file2(図3、図4を参照)についてそれぞれ行われる。   The object attribute data generation process (step S14) is performed for the electronic files file1 and file2 (see FIGS. 3 and 4) before and after the change, respectively.

上記オブジェクト属性データ生成処理(図6に示すステップS14)の後、オブジェクト対応付け処理(ステップS16)が行われる。図10は、オブジェクト対応付け処理(ステップS16)の詳細を示すフローチャートである。   After the object attribute data generation process (step S14 shown in FIG. 6), an object association process (step S16) is performed. FIG. 10 is a flowchart showing details of the object association processing (step S16).

図10に示すように、まず、変更前の電子ファイルについてのオブジェクトリスト(図5)の最初のオブジェクトが対応付け対象として設定される(ステップS40)。   As shown in FIG. 10, first, the first object in the object list (FIG. 5) for the electronic file before the change is set as a correspondence target (step S40).

さらに、当該オブジェクトについて、変更後の電子ファイルのオブジェクトリスト内にコンテンツデータが共通するものが存在するか否かを判断する(ステップS42)。なお、コンテンツデータが共通するとしたのは、例えば、テキストの一部に訂正が加えられたようなオブジェクトについては、以下の対応付けを行ってオブジェクト間における差分データ出力処理を行う必要があるためである。例えば、テキストについては総文字数に対するマッチング率が所定のしきい値内にある場合に、画像については総画素数に対する明度、色相、彩度などのマッチング率が所定のしきい値内にある場合に共通すると判断している。   Further, it is determined whether or not there is a common content data in the object list of the electronic file after the change (step S42). Note that the content data is common because, for example, for an object in which a part of the text is corrected, it is necessary to perform the difference data output process between the objects by making the following associations: is there. For example, when the matching rate with respect to the total number of characters is within a predetermined threshold for text, and when the matching rate with respect to the total number of pixels is within a predetermined threshold with respect to the total number of pixels. Judged to be common.

コンテンツが共通するデータが存在する場合(ステップS42のYes)には、さらに、オブジェクト属性データ記憶部32を参照して文書構造、レイアウト、コンテンツの各データが全て一致するか否かを判断する(ステップS44)。   If there is data with common contents (Yes in step S42), it is further determined with reference to the object attribute data storage unit 32 whether or not the data of the document structure, layout, and content all match ( Step S44).

オブジェクト属性データである文書構造、レイアウト、コンテンツの各データが全て一致する場合には、同一オブジェクトとして対応付けが行われ、メモリ16に記憶される(ステップS46)。   When the document structure, layout, and content data, which are object attribute data, all match, they are associated as the same object and stored in the memory 16 (step S46).

文書構造、レイアウト、コンテンツの何れかのデータが異なる場合には、関連オブジェクトとして対応付けが行われ、メモリ16に記憶される(ステップS48)。なお、複数の候補が存在する場合には、マッチング率などにより類似性を算出して最も類似性の高いオブジェクトについて対応付けを行う。ここで対応づけられた関連オブジェクトについて、以下の差分算出処理(図6のステップS18)が行われることになる。   If any of the document structure, layout, and content data is different, it is associated as a related object and stored in the memory 16 (step S48). If there are a plurality of candidates, the similarity is calculated based on the matching rate and the like, and the objects having the highest similarity are associated with each other. The following difference calculation process (step S18 in FIG. 6) is performed for the related objects associated here.

以上の処理が、第2の電子ファイルのオブジェクトリスト内の最後のオブジェクトまで繰り返されることになる(ステップS50、ステップS52)。   The above process is repeated up to the last object in the object list of the second electronic file (step S50, step S52).

最後に、差分データ出力処理(図6のステップS18)が行われる。図11は、差分データ出力処理の詳細を示すフローチャートである。   Finally, difference data output processing (step S18 in FIG. 6) is performed. FIG. 11 is a flowchart showing details of the difference data output process.

図11に示すように、まず、メモリ16(図2)を参照することにより、変更前および変更後の電子ファイルについてのそれぞれのオブジェクトリスト(図5)から図10のステップS46において同一オブジェクトとして対応付けられたオブジェクトを削除する(ステップS60)。   As shown in FIG. 11, first, by referring to the memory 16 (FIG. 2), the object list corresponding to the electronic files before and after the change (FIG. 5) is handled as the same object in step S46 of FIG. The attached object is deleted (step S60).

さらに、残りのオブジェクトについて関連オブジェクトであるか否かを判断し(ステップS62)、図10のステップS48において関連オブジェクトとして対応付けられたオブジェクトについてコンテンツの種別に対応した差分算出処理を行う(ステップS64)。   Further, it is determined whether or not the remaining objects are related objects (step S62), and a difference calculation process corresponding to the content type is performed on the objects associated as related objects in step S48 of FIG. 10 (step S64). ).

テキストの差分算出処理の場合には、テキストマッチング処理を行い変更箇所を検出する。例えば、図3に示すD1部分のテキスト「1994年9月2日」と図4に示すD2部分のテキスト「1994年9月3日」とのテキスト差分が行われることにより、変更前「2」および変更後「3」の部分が差分(更新項目)として得られる(このように、表に含まれるテキストも通常のテキストとして差分算出処理が行われる)。   In the case of a text difference calculation process, a text matching process is performed to detect a change location. For example, the text difference between the text “September 2, 1994” in the D1 portion shown in FIG. 3 and the text “September 3, 1994” in the D2 portion shown in FIG. And the part of “3” after the change is obtained as a difference (update item) (in this way, the difference calculation process is performed on the text included in the table as a normal text).

ここで、さらに変更箇所について意味解析を行って同じ意味内容のテキストであるか否かを判断するようにしてもよい。これにより、単なる表現上の変更が行われたのか、意味内容についての変更が行われたかを別の色などでユーザーに提示することが可能となる。   Here, a semantic analysis may be further performed on the changed portion to determine whether the text has the same semantic content. As a result, it is possible to present to the user in another color or the like whether the mere change in expression has been made or the change in semantic content has been made.

画像の差分算出処理の場合には、例えば、ラスター形式の画像についてはそのまま画像差分を行うが、ベクター形式の画像については一旦ラスター形式に変換した後で画像差分を行うようにすればよい。   In the case of an image difference calculation process, for example, an image difference is performed as it is for a raster format image, but an image difference may be performed after a vector format image is once converted to a raster format.

一方、関連オブジェクトでないオブジェクトについては、追加または削除された項目として出力する(ステップS66)。例えば、変更前のオブジェクトリストのみに存在するオブジェクトは削除された項目と判断され、変更後のオブジェクトリストのみに存在するオブジェクトは追加された項目と判断される。   On the other hand, objects that are not related objects are output as added or deleted items (step S66). For example, an object that exists only in the object list before the change is determined as a deleted item, and an object that exists only in the object list after the change is determined as an added item.

図12に、差分データ出力処理(図6に示すステップS18)の結果得られるデータの例を示す。図12のT1部分に示すように、<sameObjectList>タグ内において、同一オブジェクトがそれぞれのIDが対応付けられている。   FIG. 12 shows an example of data obtained as a result of the differential data output process (step S18 shown in FIG. 6). As shown in the T1 portion of FIG. 12, the same object is associated with each ID in the <sameObjectList> tag.

また、図12のT1〜T3部分を挟んだ<differnceObjectList>タグ内において、対応づけられたオブジェクトの差分データが表されている。具体的には、削除された図4のγ部分に対応するオブジェクトのデータが図2のT2部分に表されている。更新が行われた図4のβ部分に対応する表のオブジェクトがT3部分に表されている。フォントのサイズ変更が行われた図4のα部分に対応するオブジェクトのデータがT4部分に表されている。   Also, the difference data of the associated object is represented in the <differnceObjectList> tag sandwiching the T1 to T3 portions in FIG. Specifically, the data of the object corresponding to the deleted γ portion in FIG. 4 is represented in the T2 portion in FIG. The updated table object corresponding to the β portion of FIG. 4 is shown in the T3 portion. The data of the object corresponding to the α portion of FIG. 4 in which the font size has been changed is represented in the T4 portion.

4.差分データの画面表示例
以下に、上記各処理によって得られた差分データを、差分データ表示手段であるディスプレイ12(図2)に示した表示例を、図13〜図15に示す。なお、図13〜図15に示す表示例は、図12に示す解析結果には対応していない。
4). Example of Screen Display of Difference Data Hereinafter, examples of display in which the difference data obtained by the above-described processes are displayed on the display 12 (FIG. 2) which is a difference data display unit are shown in FIGS. Note that the display examples shown in FIGS. 13 to 15 do not correspond to the analysis results shown in FIG.

図13は、テキスト差分データの表示例である。図13に示すように、ウィンドウ左側には、テキスト差分として表示する基本的なデータ項目(オブジェクト総数、同一個数、差分個数、差分内訳)などの情報を示しており、ウィンドウ右側には、変更箇所のリスト表示が行われている。なお、ウィンドウ右側に色分けなどによる差分を強調表示した文書全体の比較表示を行うようにしてもよい。   FIG. 13 is a display example of text difference data. As shown in FIG. 13, on the left side of the window, information such as basic data items (total number of objects, same number, difference number, difference breakdown) to be displayed as a text difference is shown. The list display is performed. It should be noted that a comparison display of the entire document in which differences due to color coding or the like are highlighted on the right side of the window may be performed.

図14は、文書構成差分データの表示例である。図14に示すように、ウィンドウ左側には、文書構成差分として表示する基本的なデータ項目(階層数、ノード数、同一個数、差分個数、差分内訳)などの情報を示しており、ウィンドウ右側には、変更箇所のリスト表示が行われている。なお、ウィンドウ右側にツリー形式で表示する文書全体の構成を表示し、文書構成差分を色分けなどによって強調表示してもよい。   FIG. 14 is a display example of document configuration difference data. As shown in FIG. 14, on the left side of the window, information such as basic data items (number of layers, number of nodes, same number, difference number, difference breakdown) to be displayed as document configuration differences is shown. The list of changes is displayed. Note that the configuration of the entire document displayed in a tree format may be displayed on the right side of the window, and the document configuration difference may be highlighted by color coding or the like.

図15は、レイアウト差分データの表示例である。図15に示すように、ウィンドウ左側には、基本レイアウト(文書全体のレイアウト情報を解析した同一要素と差分要素の個数)と詳細レイアウト(各オブジェクトのレイアウト情報を解析して同一要素と差分要素の個数を表示したもの)についてのレイアウト差分が示されており、ウィンドウ右側には、変更箇所のリスト表示が行われている。   FIG. 15 is a display example of layout difference data. As shown in FIG. 15, on the left side of the window, a basic layout (the number of the same elements and difference elements analyzed from the layout information of the entire document) and a detailed layout (analysis of the layout information of each object to analyze the same elements and difference elements). The difference in layout is displayed on the right side of the window, and a list of changes is displayed on the right side of the window.

図16は、画像差分データの表示例である。図16に示すように、ウィンドウ左側には、画像総数、同一個数、差分個数、差分内訳(画像の追加、削除、更新、移動)などの基本的な情報を示しており、ウィンドウ右側には、変更箇所のリスト表示が行われている。なお、図17に示すように、ウィンドウ右側に画像差分データを表示してもよい。   FIG. 16 is a display example of image difference data. As shown in FIG. 16, the left side of the window shows basic information such as the total number of images, the same number, the number of differences, and the breakdown (addition, deletion, update, movement) of the images. A list of changes is displayed. As shown in FIG. 17, the image difference data may be displayed on the right side of the window.

なお、上記実施形態においては、コンテンツ、文書構成、レイアウトの格差分データをタブを切り換えて表示するようにしているが、これらを1つの画面上において表示するようにしてもよい。例えば、変更前の電子ファイルを表示するレイヤーと、変更後の電子ファイルを表示するレイヤーと、その電子ファイルの差分箇所を強調表示するなどの属性を表すレイヤーとを重ねて表示するようにすればよい。   In the above-described embodiment, the case difference data of content, document structure, and layout is displayed by switching tabs. However, these may be displayed on one screen. For example, if you display a layer that displays the electronic file before the change, a layer that displays the electronic file after the change, and a layer that represents attributes such as highlighting the differences between the electronic files, Good.

5.その他の実施形態
なお、上記実施形態においては、同じ形式の第1および第2の電子ファイル間における差分を検出したが、異なる形式の電子ファイル間における差分を検出するようにしてもよい。例えば、PDFファイルとHTMLファイルの間における差分を検出すればより汎用的な文書差分装置を提供することができる。
5. Other Embodiments Although the difference between the first and second electronic files having the same format is detected in the above embodiment, the difference between the electronic files having different formats may be detected. For example, if a difference between a PDF file and an HTML file is detected, a more general document difference device can be provided.

なお、上記実施形態においては、オブジェクトの対応付けを1対1で行うようにしたが、1対複数の対応付けを行うようにしてもよい。   In the above-described embodiment, the association of objects is performed on a one-to-one basis, but a one-to-multiple association may be performed.

なお、上記実施形態においては、スタンドアローンのコンピュータにおいて文書差分検出プログラム30による処理を実行しているが、ネットワークを介したシステム上において文書差分検出プログラム30による処理を実行するようにしてもよい。例えば、図18に示すように、文書差分検出プログラム30を記憶したサーバ装置50がネットワーク52を介して接続されたクライアント端末54から電子ファイルの入力を受けて文書差分検出処理を行い、その結果(差分データ)をクライアント端末54に対して出力するようにしてもよい。   In the above-described embodiment, processing by the document difference detection program 30 is executed on a stand-alone computer, but processing by the document difference detection program 30 may be executed on a system via a network. For example, as shown in FIG. 18, the server device 50 storing the document difference detection program 30 receives an electronic file input from a client terminal 54 connected via a network 52, performs document difference detection processing, and the result ( Difference data) may be output to the client terminal 54.

なお、上記実施形態においては、コンテンツ、文書構成、レイアウトをオブジェクト属性データとしたが、少なくともコンテンツが含まれていればよく、コンテンツおよび文書構成(またはレイアウト)をオブジェクト属性データとしてもよい。   In the above embodiment, the content, document configuration, and layout are used as object attribute data. However, at least the content may be included, and the content and document configuration (or layout) may be used as object attribute data.

なお、上記実施形態においては、オブジェクトを分割する単位をHTMLのタグ単位としたが、テキストについて文章単位、文節単位、リスト単位など、表について、セル単位、行単位など詳細に設定することも可能である。   In the above embodiment, the unit for dividing an object is an HTML tag unit, but it is also possible to set details such as a sentence unit, a phrase unit, a list unit, etc. for a text, and a cell unit, a row unit, etc. for a table. It is.

この発明の文書差分検出装置1の機能ブロック図である。It is a functional block diagram of the document difference detection apparatus 1 of this invention. この発明の文書差分検出装置1のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the document difference detection apparatus 1 of this invention. 変更前の電子ファイルfile1を示す図である。It is a figure which shows electronic file file1 before a change. 電子ファイルfile1の内容に変更を加えた後の電子ファイルfile2を示す図である。It is a figure which shows electronic file file2 after adding a change to the content of electronic file file1. オブジェクト属性データ記憶部32のデータ例を示す図である。4 is a diagram illustrating an example of data in an object attribute data storage unit 32. FIG. 文書差分検出処理全体のフローチャートである。It is a flowchart of the whole document difference detection process. 文書解析処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of a document analysis process. 図3に示す変更前のワープロ文書をHTML形式に変換したデータを示す図である。It is a figure which shows the data which converted the word processor document before a change shown in FIG. 3 into the HTML format. オブジェクト属性データ生成処理(ステップS14)の詳細を示すフローチャートである。It is a flowchart which shows the detail of an object attribute data generation process (step S14). オブジェクト対応付け処理(ステップS16)の詳細を示すフローチャートである。It is a flowchart which shows the detail of an object matching process (step S16). 差分データ出力処理(ステップS18)の詳細を示すフローチャートである。It is a flowchart which shows the detail of a difference data output process (step S18). 差分データ処理の結果出力されるデータの例を示す図である。It is a figure which shows the example of the data output as a result of difference data processing. ハードディスク14に記憶された接続状態表示定義表のデータ例を示す図である。6 is a diagram illustrating an example of data in a connection state display definition table stored in a hard disk 14. FIG. 文書構成差分データの表示例である。It is an example of a display of document structure difference data. レイアウト差分データの表示例である。It is a display example of layout difference data. 画像差分データの表示例である。It is an example of a display of image difference data. 画像差分データの他の表示例である。It is another example of a display of image difference data. 他の実施形態におけるシステム構成を示す図である。It is a figure which shows the system configuration | structure in other embodiment.

符号の説明Explanation of symbols

1・・・・文書差分検出装置
100・・・・電子ファイル入力手段
102・・・・電子ファイル解析手段
104・・・・オブジェクト属性データ生成手段
106・・・・オブジェクト対応付け手段
108・・・・差分データ出力手段
DESCRIPTION OF SYMBOLS 1 ... Document difference detection apparatus 100 ... Electronic file input means 102 ... Electronic file analysis means 104 ... Object attribute data generation means 106 ... Object association means 108 ...・ Difference data output means

Claims (12)

コンピュータを、
差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段、
入力された第1および第2の電子ファイルを構成する要素をそれぞれ所定のオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルからメタデータを抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する差分データ出力手段、
として機能させることを特徴とする文書差分検出プログラム。
Computer
Electronic file input means for inputting the first and second electronic files to be subjected to the difference detection process,
Electronic file analysis means for dividing the elements constituting the input first and second electronic files into predetermined object units;
Object attribute data generation means for generating object attribute data by extracting metadata from the first and second electronic files and assigning them to each object;
Object association means for associating objects between the first and second electronic files based on the object attribute data generated for the first and second electronic files;
Difference data output means for performing difference calculation processing based on the association of the objects and outputting the result as difference data;
A document difference detection program that functions as a computer program.
電子ファイル間における差分を検出するための文書差分検出装置であって、
差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段、
入力された第1および第2の電子ファイルを構成する要素をそれぞれ所定のオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルからメタデータを抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する差分データ出力手段、
を備えたことを特徴とする文書差分検出装置。
A document difference detection device for detecting a difference between electronic files,
Electronic file input means for inputting the first and second electronic files to be subjected to the difference detection process,
Electronic file analysis means for dividing the elements constituting the input first and second electronic files into predetermined object units;
Object attribute data generation means for generating object attribute data by extracting metadata from the first and second electronic files and assigning them to each object;
Object association means for associating objects between the first and second electronic files based on the object attribute data generated for the first and second electronic files;
Difference data output means for performing difference calculation processing based on the association of the objects and outputting the result as difference data;
A document difference detection apparatus comprising:
請求項1または請求項2の文書差分検出プログラムまたは文書差分検出装置において、
前記オブジェクト対応付け手段は、オブジェクト属性データであるコンテンツ、文書構成、レイアウトの各データが一致するか否かを判定することによりオブジェクトの対応付けを行い、
前記差分データ出力手段は、コンテンツ、文書構成、レイアウトについて差分算出処理を行った結果を差分データとして出力する、
ことを特徴とするもの。
In the document difference detection program or the document difference detection apparatus according to claim 1 or 2,
The object association means associates objects by determining whether content, document configuration, and layout data that are object attribute data match,
The difference data output means outputs the result of the difference calculation process for the content, document structure, and layout as difference data,
It is characterized by that.
請求項3の文書差分検出プログラムまたは文書差分検出装置において、
前記オブジェクト対応付け手段は、コンテンツデータが共通するオブジェクトについて、コンテンツ、文書構成、レイアウトの各データが全て一致する場合には同一オブジェクトとして対応付けを行い、コンテンツ、文書構成、レイアウトの何れかのデータが異なる場合には関連オブジェクトとして対応付けを行い、
前記差分データ出力手段は、関連オブジェクトについて差分算出処理を行って更新項目とし、共通するコンテンツの存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とするもの。
In the document difference detection program or the document difference detection apparatus according to claim 3,
The object associating means associates the objects having the same content data as the same object when the data of the content, the document configuration, and the layout all match, and the data of the content, the document configuration, or the layout If they are different, associate them as related objects,
The difference data output means performs a difference calculation process on the related object as an update item, and outputs difference data as an addition or deletion item for an object that does not have common content.
It is characterized by that.
請求項1〜請求項4の何れかの文書差分検出プログラムまたは文書差分検出装置において、
前記オブジェクト対応付け手段は、オブジェクト属性データの類似性を算出し、最も類似性の高いオブジェクトを関連オブジェクトとして対応付けを行う、
ことを特徴とするもの。
In the document difference detection program or the document difference detection device according to any one of claims 1 to 4,
The object association means calculates the similarity of the object attribute data and associates the object with the highest similarity as the related object;
It is characterized by that.
請求項1〜請求項5の何れかの文書差分検出プログラムまたは文書差分検出装置において、
前記差分データ出力手段は、差分算出処理の際に、テキストについて意味解析を行う、
ことを特徴とするもの。
In the document difference detection program or the document difference detection device according to any one of claims 1 to 5,
The difference data output means performs semantic analysis on the text during the difference calculation process.
It is characterized by that.
請求項1〜請求項6の何れかの文書差分検出プログラムまたは文書差分検出装置において、
前記差分データ出力手段は、差分算出処理の際に、画像についてベクター形式の場合にラスター形式に変換した後、画像マッチングを行う、
ことを特徴とするもの。
In the document difference detection program or the document difference detection device according to any one of claims 1 to 6,
The difference data output means performs image matching after converting the image into a raster format in the case of a vector format for the difference calculation process.
It is characterized by that.
請求項1〜7の何れかの文書差分検出プログラムまたは文書差分検出装置において、
第1の電子ファイルのファイル形式と第2の電子ファイルのファイル形式とが異なる、
ことを特徴とするもの。
In the document difference detection program or document difference detection apparatus according to any one of claims 1 to 7,
The file format of the first electronic file is different from the file format of the second electronic file.
It is characterized by that.
請求項1〜8の何れかの文書差分検出プログラムまたは文書差分検出装置において、さらに、
差分データ出力手段から出力されたコンテンツ、文書構成、レイアウトの各差分データを表示する差分データ表示手段、
を備えたことを特徴とするもの。
In the document difference detection program or the document difference detection apparatus according to any one of claims 1 to 8,
Difference data display means for displaying each difference data of content, document structure and layout output from the difference data output means;
Characterized by comprising.
請求項9の文書差分検出プログラムまたは文書差分検出装置において、
前記差分データ表示手段は、差分データ出力手段から出力されたコンテンツ、文書構成、レイアウトの各差分データを考慮して、
第1の電子ファイルを表示するレイヤーと、第2の電子ファイルを表示するレイヤーと、第1および第2の電子ファイルの差分箇所を強調表示するレイヤーとを重ねて表示する、
ことを特徴とするもの。
In the document difference detection program or the document difference detection apparatus according to claim 9,
The difference data display means considers each difference data of content, document structure, and layout output from the difference data output means,
Displaying a layer for displaying the first electronic file, a layer for displaying the second electronic file, and a layer for highlighting the difference between the first and second electronic files,
It is characterized by that.
ネットワークを介して接続されたクライアント端末とサーバ装置を備え、電子ファイル間における差分を検出するための文書差分検出システムであって、
サーバ装置に差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段を備えたクライアント端末と、
入力された第1および第2の電子ファイルを構成する要素をそれぞれ所定のオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルからメタデータを抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとしてクライアント端末に出力する差分データ出力手段、
を有するサーバ装置と、
を備えたことを特徴とする文書差分検出システム。
A document difference detection system for detecting a difference between electronic files, comprising a client terminal and a server device connected via a network,
A client terminal having electronic file input means for inputting the first and second electronic files to be subjected to the difference detection process in the server device;
Electronic file analysis means for dividing the elements constituting the input first and second electronic files into predetermined object units;
Object attribute data generation means for generating object attribute data by extracting metadata from the first and second electronic files and assigning them to each object;
Object association means for associating objects between the first and second electronic files based on the object attribute data generated for the first and second electronic files;
Difference data output means for performing difference calculation processing based on the association of the objects and outputting the result to the client terminal as difference data;
A server device having
A document difference detection system comprising:
電子ファイル間における差分を検出するための文書差分検出方法であって、
差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力し、
入力された第1および第2の電子ファイルを構成する要素をそれぞれ所定のオブジェクト単位に分割し、
第1および第2の電子ファイルからメタデータを抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成し、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行い、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する、
ことを特徴とする文書差分検出方法。
A document difference detection method for detecting a difference between electronic files,
Input the first and second electronic files to be subjected to the difference detection process,
The elements constituting the input first and second electronic files are each divided into predetermined object units,
Object attribute data is generated by extracting metadata from the first and second electronic files and assigning them to each object,
Based on the object attribute data generated for the first and second electronic files, the objects are associated between the first and second electronic files,
A difference calculation process is performed based on the association of the objects, and the result is output as difference data.
A document difference detection method characterized by the above.
JP2005088146A 2005-03-25 2005-03-25 Document difference detection device Expired - Fee Related JP4682284B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005088146A JP4682284B2 (en) 2005-03-25 2005-03-25 Document difference detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005088146A JP4682284B2 (en) 2005-03-25 2005-03-25 Document difference detection device

Publications (2)

Publication Number Publication Date
JP2006268638A true JP2006268638A (en) 2006-10-05
JP4682284B2 JP4682284B2 (en) 2011-05-11

Family

ID=37204508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005088146A Expired - Fee Related JP4682284B2 (en) 2005-03-25 2005-03-25 Document difference detection device

Country Status (1)

Country Link
JP (1) JP4682284B2 (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009277185A (en) * 2008-05-19 2009-11-26 Canon Inc Management device, management method and program
JP2011107780A (en) * 2009-11-12 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> Web page diagnostic result management system, web page diagnostic result management method, and program
JP2011113535A (en) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd Natural language processing program and natural language processing device
WO2011089683A1 (en) * 2010-01-19 2011-07-28 富士通株式会社 Analysis method, analysis device, and analysis program
JP2012513069A (en) * 2008-12-18 2012-06-07 コピウン,インク. Method and apparatus for content-aware data partitioning and data deduplication
JP2012198786A (en) * 2011-03-22 2012-10-18 Fujitsu Ltd File processing program and device
JP2013142974A (en) * 2012-01-10 2013-07-22 Toshiba Corp Difference extraction device and program
JP2014175000A (en) * 2013-03-08 2014-09-22 Konicaminolta Laboratory Usa Inc Method and system for file conversion
US9086788B2 (en) 2011-12-12 2015-07-21 International Business Machines Corporation Context-sensitive collaboration channels
US9124657B2 (en) 2011-12-14 2015-09-01 International Business Machines Corporation Dynamic screen sharing for optimal performance
US9134889B2 (en) 2011-12-14 2015-09-15 International Business Machines Corporation Variable refresh rates for portions of shared screens
US9225769B2 (en) 2012-11-05 2015-12-29 International Business Machines Corporation System for synchronization and management of system activities with locally installed applications
JP2016024527A (en) * 2014-07-17 2016-02-08 富士フイルム株式会社 Information processing apparatus, program, and automatic page replacement method
JP6055952B1 (en) * 2016-05-17 2016-12-27 株式会社バイステック Image inspection apparatus, image inspection method, and program
US9582808B2 (en) 2011-12-12 2017-02-28 International Business Machines Corporation Customizing a presentation based on preferences of an audience
US9588652B2 (en) 2011-12-12 2017-03-07 International Business Machines Corporation Providing feedback for screen sharing
US9904713B2 (en) 2016-06-29 2018-02-27 International Business Machines Corporation Proposing a copy area in a document

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297284A (en) * 1989-03-22 1990-12-07 Hitachi Ltd Document processing system and version control system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297284A (en) * 1989-03-22 1990-12-07 Hitachi Ltd Document processing system and version control system

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009277185A (en) * 2008-05-19 2009-11-26 Canon Inc Management device, management method and program
JP2012513069A (en) * 2008-12-18 2012-06-07 コピウン,インク. Method and apparatus for content-aware data partitioning and data deduplication
JP2011107780A (en) * 2009-11-12 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> Web page diagnostic result management system, web page diagnostic result management method, and program
JP2011113535A (en) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd Natural language processing program and natural language processing device
WO2011089683A1 (en) * 2010-01-19 2011-07-28 富士通株式会社 Analysis method, analysis device, and analysis program
EP2527991A4 (en) * 2010-01-19 2017-01-11 Fujitsu Limited Analysis method, analysis device, and analysis program
JP5494675B2 (en) * 2010-01-19 2014-05-21 富士通株式会社 Analysis method, analysis apparatus, and analysis program
JP2012198786A (en) * 2011-03-22 2012-10-18 Fujitsu Ltd File processing program and device
US9852432B2 (en) 2011-12-12 2017-12-26 International Business Machines Corporation Customizing a presentation based on preferences of an audience
US9086788B2 (en) 2011-12-12 2015-07-21 International Business Machines Corporation Context-sensitive collaboration channels
US9588652B2 (en) 2011-12-12 2017-03-07 International Business Machines Corporation Providing feedback for screen sharing
US9582808B2 (en) 2011-12-12 2017-02-28 International Business Machines Corporation Customizing a presentation based on preferences of an audience
US9600152B2 (en) 2011-12-12 2017-03-21 International Business Machines Corporation Providing feedback for screen sharing
US9134889B2 (en) 2011-12-14 2015-09-15 International Business Machines Corporation Variable refresh rates for portions of shared screens
US9141264B2 (en) 2011-12-14 2015-09-22 International Business Machines Corporation Variable refresh rates for portions of shared screens
US9131021B2 (en) 2011-12-14 2015-09-08 International Business Machines Corporation Dynamic screen sharing for optimal performance
US9124657B2 (en) 2011-12-14 2015-09-01 International Business Machines Corporation Dynamic screen sharing for optimal performance
JP2013142974A (en) * 2012-01-10 2013-07-22 Toshiba Corp Difference extraction device and program
US9225769B2 (en) 2012-11-05 2015-12-29 International Business Machines Corporation System for synchronization and management of system activities with locally installed applications
JP2014175000A (en) * 2013-03-08 2014-09-22 Konicaminolta Laboratory Usa Inc Method and system for file conversion
JP2016024527A (en) * 2014-07-17 2016-02-08 富士フイルム株式会社 Information processing apparatus, program, and automatic page replacement method
JP6055952B1 (en) * 2016-05-17 2016-12-27 株式会社バイステック Image inspection apparatus, image inspection method, and program
US9904713B2 (en) 2016-06-29 2018-02-27 International Business Machines Corporation Proposing a copy area in a document
US10235426B2 (en) 2016-06-29 2019-03-19 International Business Machines Corporation Proposing a copy area in a document

Also Published As

Publication number Publication date
JP4682284B2 (en) 2011-05-11

Similar Documents

Publication Publication Date Title
JP4682284B2 (en) Document difference detection device
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US11379536B2 (en) Classification device, classification method, generation method, classification program, and generation program
US20130262968A1 (en) Apparatus and method for efficiently reviewing patent documents
JP2016535899A (en) Presenting fixed-format documents in reflowed form
US9646004B2 (en) Hierarchical database report generation with automated query generation for placeholders
US11568666B2 (en) Method and system for human-vision-like scans of unstructured text data to detect information-of-interest
JP2008257444A (en) Similar file management device, method therefor and program therefor
WO2020118485A1 (en) Method of Detecting User Interface Layout Issues for Web Applications
JP2005107597A (en) Device and method for searching for similar sentence and program
US20170132484A1 (en) Two Step Mathematical Expression Search
US11651607B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
US20210173844A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
CN113032548A (en) Information processing apparatus, storage medium, and information processing method
JPH11184894A (en) Method for extracting logical element and record medium
JP5229102B2 (en) Form search device, form search program, and form search method
WO2006046665A1 (en) Document processing device and document processing method
US9672438B2 (en) Text parsing in complex graphical images
CN112925880A (en) Information processing apparatus, storage medium, and information processing method
US20200311059A1 (en) Multi-layer word search option
WO2014170965A1 (en) Document processing method, document processing device, and document processing program
US11768804B2 (en) Deep search embedding of inferred document characteristics
US20090199084A1 (en) Document processing device and document processing method
US20140223274A1 (en) Information processing device and information processing method
US8271874B2 (en) Method and apparatus for locating and transforming data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080321

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100930

TRDD Decision of grant or rejection written
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20101022

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4682284

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees