JP4682284B2 - 文書差分検出装置 - Google Patents
文書差分検出装置 Download PDFInfo
- Publication number
- JP4682284B2 JP4682284B2 JP2005088146A JP2005088146A JP4682284B2 JP 4682284 B2 JP4682284 B2 JP 4682284B2 JP 2005088146 A JP2005088146 A JP 2005088146A JP 2005088146 A JP2005088146 A JP 2005088146A JP 4682284 B2 JP4682284 B2 JP 4682284B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- difference
- document
- electronic file
- difference detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段、
入力された第1および第2の電子ファイルを構成する要素をそれぞれオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルから抽出した各オブジェクトについてのコンテンツデータと、少なくとも電子ファイルの文書構造を解析することで得られる文書構成データまたは電子ファイルについてレイアウト情報を抽出することにより得られるレイアウトデータとを、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する差分データ出力手段、
を備えた、電子ファイル間における差分を検出するための文書差分検出装置であって、
前記オブジェクト対応付け手段は、
第1および第2の電子ファイル間で各オブジェクトについてコンテンツデータのマッチングを行い、マッチング率が所定のしきい値内にあるか否かを判断し、マッチング率が所定のしきい値内にあると判断したオブジェクトのうち、コンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの何れかの内容が異なる場合には関連オブジェクトとして対応付けを行い、
前記差分データ出力手段は、
関連オブジェクトとして対応付けたオブジェクトについて差分算出処理を行って更新項目として差分データを出力し、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるコンテンツデータが存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とする。
前記オブジェクト対応付け手段は、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるオブジェクトが複数存在する場合には、さらに、少なくとも文書構成データまたはレイアウトデータの類似性を算出し、最も類似性の高いオブジェクトを関連オブジェクトとして対応付けを行う、
ことを特徴とする。
前記差分データ出力手段は、差分算出処理の際に、種別がテキストのコンテンツデータについて意味解析を行い、変更された箇所が同じ意味内容のテキストであるか否かを判断し、その結果を出力する、
ことを特徴とする。
前記差分データ出力手段は、差分算出処理の際に、ベクター形式の画像についてはラスター形式に変換した後、画像マッチングを行う、
ことを特徴とする。
第1の電子ファイルのファイル形式と第2の電子ファイルのファイル形式が異なる、
ことを特徴とする。
差分データ出力手段から出力されたコンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの各差分を表示する差分データ表示手段、
を備えたことを特徴とする。
前記差分データ表示手段は、差分データ出力手段から出力されたコンテンツ、文書構成、レイアウトの各差分データを考慮して、
第1の電子ファイルを表示するレイヤーと、第2の電子ファイルを表示するレイヤーと、第1および第2の電子ファイルの差分箇所を強調表示するレイヤーとを重ねて表示する、
ことを特徴とする。
図1は、この発明の文書差分検出装置1の機能ブロック図である。図1に示すように、この発明の文書差分検出装置1は、電子ファイル入力手段100、電子ファイル解析手段102、オブジェクト属性データ生成手段104、オブジェクト対応付け手段106、差分データ出力手段108を備えている。
図2に、この発明の文書差分検出装置(文書差分検出コンピュータ)1のハードウェア構成を示す。図2に示すように、文書差分検出装置1は、CPU10、ディスプレイ12、ハードディスク14、メモリ16、キーボード/マウス18、CD−ROMドライブ20を備えている。
まず、図6に示す文書差分検出処理のフローチャートを用いて、この発明の文書差分検出プログラム30が行う処理を説明する。
以下に、上記各処理によって得られた差分データを、差分データ表示手段であるディスプレイ12(図2)に示した表示例を、図13〜図15に示す。なお、図13〜図15に示す表示例は、図12に示す解析結果には対応していない。
なお、上記実施形態においては、同じ形式の第1および第2の電子ファイル間における差分を検出したが、異なる形式の電子ファイル間における差分を検出するようにしてもよい。例えば、PDFファイルとHTMLファイルの間における差分を検出すればより汎用的な文書差分装置を提供することができる。
100・・・・電子ファイル入力手段
102・・・・電子ファイル解析手段
104・・・・オブジェクト属性データ生成手段
106・・・・オブジェクト対応付け手段
108・・・・差分データ出力手段
Claims (11)
- コンピュータを、
差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段、
入力された第1および第2の電子ファイルを構成する要素をそれぞれオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルから抽出した各オブジェクトについてのコンテンツデータと、少なくとも電子ファイルの文書構造を解析することで得られる文書構成データまたは電子ファイルについてレイアウト情報を抽出することにより得られるレイアウトデータとを、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する差分データ出力手段、
として機能させる文書差分検出プログラムであって、
前記オブジェクト対応付け手段は、
第1および第2の電子ファイル間で各オブジェクトについてコンテンツデータのマッチングを行い、マッチング率が所定のしきい値内にあるか否かを判断し、マッチング率が所定のしきい値内にあると判断したオブジェクトのうち、コンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの何れかの内容が異なる場合には関連オブジェクトとして対応付けを行い、
前記差分データ出力手段は、
関連オブジェクトとして対応付けたオブジェクトについて差分算出処理を行って更新項目とし、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるコンテンツデータが存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とする文書差分検出プログラム。 - 請求項1の文書差分検出プログラムにおいて、
前記文書構成データは、文書全体におけるオブジェクトの構造上の位置を特定するためのデータであり、
前記レイアウトデータは、オブジェクトのレイアウトに関する属性を示すデータである、
ことを特徴とする文書差分検出プログラム。 - 請求項1または請求項2の文書差分検出プログラムにおいて、
前記オブジェクト対応付け手段は、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるオブジェクトが複数存在する場合には、さらに、少なくとも文書構成データまたはレイアウトデータの類似性を算出し、最も類似性の高いオブジェクトを関連オブジェクトとして対応付けを行う、
ことを特徴とする文書差分検出プログラム。 - 請求項1〜請求項3の何れかの文書差分検出プログラムにおいて、
前記差分データ出力手段は、差分算出処理の際に、種別がテキストのコンテンツデータについて意味解析を行い、変更された箇所が同じ意味内容のテキストであるか否かを判断し、その結果を出力する、
ことを特徴とする文書差分検出プログラム。 - 請求項1〜請求項4の何れかの文書差分検出プログラムにおいて、
前記差分データ出力手段は、差分算出処理の際に、ベクター形式の画像についてはラスター形式に変換した後、画像マッチングを行う、
ことを特徴とする文書差分検出プログラム。 - 請求項1〜請求項5の何れかの文書差分検出プログラムにおいて、
第1の電子ファイルのファイル形式と第2の電子ファイルのファイル形式とが異なる、
ことを特徴とする文書差分検出プログラム。 - 請求項1〜請求項6の何れかの文書差分検出プログラムにおいて、さらに、
差分データ出力手段から出力されたコンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの各差分を表示する差分データ表示手段、
を備えたことを特徴とする文書差分検出プログラム。 - 請求項7の文書差分検出プログラムにおいて、
前記差分データ表示手段は、差分データ出力手段から出力されたコンテンツ、文書構成、レイアウトの各差分データを考慮して、
第1の電子ファイルを表示するレイヤーと、第2の電子ファイルを表示するレイヤーと、第1および第2の電子ファイルの差分箇所を強調表示するレイヤーとを重ねて表示する、
ことを特徴とする文書差分検出プログラム。 - 差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段、
入力された第1および第2の電子ファイルを構成する要素をそれぞれオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルから抽出した各オブジェクトについてのコンテンツデータと、少なくとも電子ファイルの文書構造を解析することで得られる文書構成データまたは電子ファイルについてレイアウト情報を抽出することにより得られるレイアウトデータとを、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力する差分データ出力手段、
を備えた、電子ファイル間における差分を検出するための文書差分検出装置であって、
前記オブジェクト対応付け手段は、
第1および第2の電子ファイル間で各オブジェクトについてコンテンツデータのマッチングを行い、マッチング率が所定のしきい値内にあるか否かを判断し、マッチング率が所定のしきい値内にあると判断したオブジェクトのうち、コンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの何れかの内容が異なる場合には関連オブジェクトとして対応付けを行い、
前記差分データ出力手段は、
関連オブジェクトとして対応付けたオブジェクトについて差分算出処理を行って更新項目として差分データを出力し、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるコンテンツデータが存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とする文書差分検出装置。 - ネットワークを介して接続されたクライアント端末とサーバ装置を備え、電子ファイル間における差分を検出するための文書差分検出システムであって、
クライアント端末は、
サーバ装置に差分の検出処理を行う対象となる第1および第2の電子ファイルをそれぞれ入力するための電子ファイル入力手段を備えており、
サーバ装置は、
入力された第1および第2の電子ファイルを構成する要素をそれぞれオブジェクト単位に分割する電子ファイル解析手段、
第1および第2の電子ファイルから抽出した各オブジェクトについてのコンテンツデータと、少なくとも電子ファイルの文書構造を解析することで得られる文書構成データまたは電子ファイルについてレイアウト情報を抽出することにより得られるレイアウトデータとを、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するオブジェクト属性データ生成手段、
第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うオブジェクト対応付け手段、
前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとしてクライアント端末に出力する差分データ出力手段、を備えており、
サーバ装置の前記オブジェクト対応付け手段は、
第1および第2の電子ファイル間で各オブジェクトについてコンテンツデータのマッチングを行い、マッチング率が所定のしきい値内にあるか否かを判断し、マッチング率が所定のしきい値内にあると判断したオブジェクトのうち、コンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの何れかの内容が異なる場合には関連オブジェクトとして対応付けを行い、
サーバ装置の前記差分データ出力手段は、
関連オブジェクトとして対応付けたオブジェクトについて差分算出処理を行って更新項目とし、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるコンテンツデータが存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とする文書差分検出システム。 - コンピュータに、電子ファイル間における差分を検出させるための文書差分検出方法であって、
差分の検出処理を行う対象となる第1および第2の電子ファイルの入力を受けて、電子ファイル解析手段が、入力された第1および第2の電子ファイルを構成する要素をそれぞれオブジェクト単位に分割するステップ、
オブジェクト属性データ生成手段が、第1および第2の電子ファイルからメタデータを抽出し、それぞれのオブジェクト毎に付与することによりオブジェクト属性データを生成するステップ、
オブジェクト対応付け手段が、第1および第2の電子ファイルについて生成した各オブジェクト属性データに基づいて、第1および第2の電子ファイル間におけるオブジェクトの対応付けを行うステップ、
差分データ出力手段が、前記オブジェクトの対応付けに基づいて差分算出処理を行い、その結果を差分データとして出力するステップ、
を備え、
前記オブジェクト対応付け手段は、
第1および第2の電子ファイル間で各オブジェクトについてコンテンツデータのマッチングを行い、マッチング率が所定のしきい値内にあるか否かを判断し、マッチング率が所定のしきい値内にあると判断したオブジェクトのうち、コンテンツデータと、少なくとも文書構成データまたはレイアウトデータとの何れかの内容が異なる場合には関連オブジェクトとして対応付けを行い、
前記差分データ出力手段は、
関連オブジェクトとして対応付けたオブジェクトについて差分算出処理を行って更新項目とし、第1および第2の電子ファイル間でマッチング率が所定のしきい値内にあるコンテンツデータが存在しないオブジェクトについては追加または削除項目として差分データを出力する、
ことを特徴とする文書差分検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005088146A JP4682284B2 (ja) | 2005-03-25 | 2005-03-25 | 文書差分検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005088146A JP4682284B2 (ja) | 2005-03-25 | 2005-03-25 | 文書差分検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006268638A JP2006268638A (ja) | 2006-10-05 |
JP4682284B2 true JP4682284B2 (ja) | 2011-05-11 |
Family
ID=37204508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005088146A Expired - Fee Related JP4682284B2 (ja) | 2005-03-25 | 2005-03-25 | 文書差分検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4682284B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009277185A (ja) * | 2008-05-19 | 2009-11-26 | Canon Inc | 管理装置、管理方法及びプログラム |
AU2009335697A1 (en) * | 2008-12-18 | 2011-08-04 | Copiun, Inc. | Methods and apparatus for content-aware data partitioning and data de-duplication |
JP5137931B2 (ja) * | 2009-11-12 | 2013-02-06 | 日本電信電話株式会社 | ウェブページ診断結果管理システム、ウェブページ診断結果管理方法及びプログラム |
JP5593687B2 (ja) * | 2009-11-30 | 2014-09-24 | 富士ゼロックス株式会社 | 自然言語処理プログラム及び自然言語処理装置 |
EP2527991B1 (en) * | 2010-01-19 | 2018-12-26 | Fujitsu Limited | Analysis method, analysis device, and analysis program |
JP2012198786A (ja) * | 2011-03-22 | 2012-10-18 | Fujitsu Ltd | ファイル処理プログラム及び装置 |
US9588652B2 (en) | 2011-12-12 | 2017-03-07 | International Business Machines Corporation | Providing feedback for screen sharing |
US9852432B2 (en) | 2011-12-12 | 2017-12-26 | International Business Machines Corporation | Customizing a presentation based on preferences of an audience |
US20130151624A1 (en) | 2011-12-12 | 2013-06-13 | International Business Machines Corporation | Context-Sensitive Collaboration Channels |
US9124657B2 (en) | 2011-12-14 | 2015-09-01 | International Business Machines Corporation | Dynamic screen sharing for optimal performance |
US9141264B2 (en) | 2011-12-14 | 2015-09-22 | International Business Machines Corporation | Variable refresh rates for portions of shared screens |
JP5367099B2 (ja) * | 2012-01-10 | 2013-12-11 | 株式会社東芝 | 差異箇所抽出装置及びプログラム |
US9225769B2 (en) | 2012-11-05 | 2015-12-29 | International Business Machines Corporation | System for synchronization and management of system activities with locally installed applications |
US9535913B2 (en) * | 2013-03-08 | 2017-01-03 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for file conversion |
JP6150766B2 (ja) * | 2014-07-17 | 2017-06-21 | 富士フイルム株式会社 | 情報処理装置、プログラム、及び自動ページ差し替え方法 |
JP6055952B1 (ja) * | 2016-05-17 | 2016-12-27 | 株式会社バイステック | 画像検査装置、画像検査方法、およびプログラム |
US10235426B2 (en) | 2016-06-29 | 2019-03-19 | International Business Machines Corporation | Proposing a copy area in a document |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297284A (ja) * | 1989-03-22 | 1990-12-07 | Hitachi Ltd | 文書処理システム |
-
2005
- 2005-03-25 JP JP2005088146A patent/JP4682284B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006268638A (ja) | 2006-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4682284B2 (ja) | 文書差分検出装置 | |
US7991709B2 (en) | Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers | |
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
JP4637181B2 (ja) | 文書構造に基づいた検索結果の表示 | |
JP3664475B2 (ja) | 情報処理方法、情報処理システム、プログラムおよび記録媒体 | |
US7853869B2 (en) | Creation of semantic objects for providing logical structure to markup language representations of documents | |
US20110173527A1 (en) | Determining Semantically Distinct Regions of a Document | |
US11379536B2 (en) | Classification device, classification method, generation method, classification program, and generation program | |
US20150220490A1 (en) | Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods | |
JP2011065621A (ja) | 情報処理装置及び情報処理プログラム | |
US11568666B2 (en) | Method and system for human-vision-like scans of unstructured text data to detect information-of-interest | |
JP2016535899A (ja) | 固定形式文書のリフロー済み形式での提示 | |
US20170132484A1 (en) | Two Step Mathematical Expression Search | |
CN112925879A (zh) | 信息处理装置、存储介质及信息处理方法 | |
CN113032336A (zh) | 信息处理装置、存储介质及信息处理方法 | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
JP5577546B2 (ja) | 計算機システム | |
US9672438B2 (en) | Text parsing in complex graphical images | |
JP5229102B2 (ja) | 帳票検索装置、帳票検索プログラムおよび帳票検索方法 | |
US11768804B2 (en) | Deep search embedding of inferred document characteristics | |
US20200311059A1 (en) | Multi-layer word search option | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
US20140223274A1 (en) | Information processing device and information processing method | |
US8271874B2 (en) | Method and apparatus for locating and transforming data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080321 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100802 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100930 |
|
TRDD | Decision of grant or rejection written | ||
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20101022 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101101 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101022 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101220 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4682284 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |