JP2002041498A5 - - Google Patents

Download PDF

Info

Publication number
JP2002041498A5
JP2002041498A5 JP2000222810A JP2000222810A JP2002041498A5 JP 2002041498 A5 JP2002041498 A5 JP 2002041498A5 JP 2000222810 A JP2000222810 A JP 2000222810A JP 2000222810 A JP2000222810 A JP 2000222810A JP 2002041498 A5 JP2002041498 A5 JP 2002041498A5
Authority
JP
Japan
Prior art keywords
document
document object
partial
image
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000222810A
Other languages
Japanese (ja)
Other versions
JP2002041498A (en
JP4521942B2 (en
Filing date
Publication date
Application filed filed Critical
Priority to JP2000222810A priority Critical patent/JP4521942B2/en
Priority claimed from JP2000222810A external-priority patent/JP4521942B2/en
Publication of JP2002041498A publication Critical patent/JP2002041498A/en
Publication of JP2002041498A5 publication Critical patent/JP2002041498A5/ja
Application granted granted Critical
Publication of JP4521942B2 publication Critical patent/JP4521942B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【特許請求の範囲】
【請求項1】 電子化された文書画像を、レイアウト属性毎に部分領域に分割し、該分割の状態を示すレイアウト解析情報を出力する解析手段と、
前記レイアウト解析情報に基づいて、各部分領域内の文書画像を部分文書画像データとして抽出し、抽出された部分文書画像データを用いて部分領域を単位とした文書オブジェクトを作成する作成手段と、
前記作成手段で作成された複数の文書オブジェクトを複数の記憶手段に割り振って保管する保管処理手段と、
前記複数の記憶手段に記憶された文書オブジェクトを用いて元の文書画像を再構築する再構築手段と
を備えることを特徴とする文書管理装置。
【請求項2】 前記レイアウト属性は、少なくとも、図、テキストまたは表を属性として含む
ことを特徴とする請求項1に記載の文書管理装置。
【請求項3】 前記作成手段において作成される文書オブジェクトは、対応する部分領域の部分文書画像データ、当該文書オブジェクトの識別番号を含むオブジェクト情報および前記レイアウト解析情報を含む
ことを特徴とする請求項1または2に記載の文書管理装置。
【請求項4】 前記保管処理手段は、前記作成手段で作成された複数の文書オブジェクトの各々を、元の文書画像におけるレイアウト上の位置関係に応じて前記複数の記憶手段に割り振る
ことを特徴とする請求項1乃至3のいずれか1項に記載の文書管理装置。
【請求項5】 前記保管処理手段は、前記作成手段で作成された複数の文書オブジェクトの各々と保管先の記憶手段との関連を示すリンク情報を各文書オブジェクトと共に保管する
ことを特徴とする請求項1乃至4のいずれか1項に記載の文書管理装置。
【請求項6】 前記再構築手段は、前記各文書オブジェクトを前記リンク情報に基づき前記複数の記憶手段から取り出し、各文書オブジェクトの部分画像をレイアウト解析情報に基づき合成し、元の文書画像を再構築する
ことを特徴とする請求項5に記載の文書管理装置。
【請求項7】 前記保管処理手段は、さらに、特定のレイアウト属性の文書オブジェクトに対し、その文書オブジェクトを複製するとともに、複製された文書オブジェクトを当該文書オブジェクトとは異なる記憶手段に割り振って保管処理する
ことを特徴とする請求項1乃至6のいずれか1項に記載の文書管理装置。
【請求項8】 前記再構築手段は、前記特定のレイアウト属性の文書オブジェクトに関して、再構築に必要な文書オブジェクトが正常な場合はその文書オブジェクトを用いて元の文書画像を再構築し、再構築に必要な文書オブジェクトが正常でない場合は、前記複製された文書オブジェクトを用いて元の文書画像を再構築する
ことを特徴とする請求項7に記載の文書管理装置。
【請求項9】 前記文書管理装置は、選択された文書オブジェクトを重要オブジェクトとして設定する設定手段をさらに備え、
前記保管処理手段は、さらに、前記設定手段で重要な文書オブジェクトに設定された文書オブジェクトを複製するとともに、複製された文書オブジェクトを当該文書オブジェクトとは異なる記憶手段に割り振って保管処理する
ことを特徴とする請求項1に記載の文書管理装置。
【請求項10】 前記設定手段は、
重要な文書オブジェクトか否かを判定するための判定条件を設定する判定条件設定手段と、
前記レイアウト解析情報に基づいて、文書オブジェクトが前記判定条件を満足するか否かを判定する判定手段とを備え、
前記判定条件を満足すると判定された文書オブジェクトを重要な文書オブジェクトに設定する
ことを特徴とする請求項9に記載の文書管理装置。
【請求項11】 前記再構築手段は、前記重要な文書オブジェクトに関して、前記再構築に必要な文書オブジェクトが正常な場合は、その文書オブジェクトを用いて元の文書画像を再構築し、前記再構築に必要な文書オブジェクトが正常でない場合は、前記複製された文書オブジェクトを用いて元の文書画像を再構築することを特徴とする請求項9記載の文書管理装置。
【請求項12】 前記レイアウト解析情報に基づいて文字認識対象領域とされた領域に対して文字認識を行い、文字認識データを取得する文字認識手段を更に備え、
前記作成手段は、前記部分文書画像データが文字認識対象領域である場合は、その文字認識データを前記部分文書画像データとともに文書オブジェクトに含ませ、
前記保管処理手段は、文字認識データを含む文書オブジェクトの場合に、その文書オブジェクトが含む文字認識データを用いて第2の文書オブジェクトを生成し、これを、元の文書オブジェクトとは異なる記憶手段に割り振って保管する
ことを特徴とする請求項1に記載の文書管理装置。
【請求項13】 前記保管処理手段は、前記文書オブジェクトが前記文字認識対象領域に対応する文書オブジェクトである場合は、その文書オブジェクトから前記部分画像データを除いて複製することにより前記第2の文書オブジェクトを生成し、前記第2の文書オブジェクトを元の文書オブジェクトとは異なる記憶手段に割り振って保管する
ことを特徴とする請求項12に記載の文書管理装置。
【請求項14】 前記再構築手段は、文字認識対象領域の文書オブジェクトに関して、再構築に必要な文書オブジェクトが正常な場合はその文書オブジェクトを用いて元の文書画像を再構築し、再構築に必要な文書オブジェクトが正常でない場合は、前記第2の文書オブジェクトを用いて元の文書画像を再構築する
ことを特徴とする請求項12記載の文書管理装置。
【請求項15】 キーワードを設定する設定手段をさらに備え、
前記保管処理手段は、さらに、前記文字認識データが前記キーワードを含む文書オブジェクトを複製すると共に原文書オブジェクトとは異なる記憶手段に割り振って保管処理する
ことを特徴とする請求項12乃至14のいずれか1項に記載の文書管理装置。
【請求項16】 前記再構築手段は、再構築に必要な文書オブジェクトが正常な場合は、その文書オブジェクトを用いて元の文書画像を再構築し、再構築に必要な文書オブジェクトが正常でない場合は、前記複製された文書オブジェクトを用いて元の文書画像を再構築する
ことを特徴とする請求項14に記載の文書管理装置。
【請求項17】 前記再構築手段において、再構築に必要な文書オブジェクトが獲得できない場合には、当該文書オブジェクトの部分領域にダミー画像を充当する
ことを特徴とする請求項1乃至16のいずれか1項に記載の文書管理装置。
【請求項18】 電子化された文書画像を、レイアウト属性毎に部分領域に分割し、該分割の状態を示すレイアウト解析情報を出力する解析工程と、
前記レイアウト解析情報に基づいて、各部分領域内の文書画像を部分文書画像データとして抽出し、抽出された部分文書画像データを用いて部分領域を単位とした文書オブジェクトを作成する作成工程と、
前記作成工程で作成された複数の文書オブジェクトを複数の記憶手段に割り振って保管する保管処理工程と、
前記複数の記憶手段に記憶された文書オブジェクトを用いて元の文書画像を再構築する再構築工程と
を備えることを特徴とする文書管理方法。
【請求項19 コンピュータを、
電子化された文書画像を、レイアウト属性毎に部分領域に分割し、該分割の状態を示すレイアウト解析情報を出力する解析手段と、
前記レイアウト解析情報に基づいて、各部分領域内の文書画像を部分文書画像データとして抽出し、抽出された部分文書画像データを用いて部分領域を単位とした文書オブジェクトを作成する作成手段と、
前記作成手段で作成された複数の文書オブジェクトを複数の記憶手段に割り振って保管する保管処理手段と、
前記複数の記憶手段に記憶された文書オブジェクトを用いて元の文書画像を再構築する再構築手段ととして機能させるためのプログラムを格納したコンピュータ読み取り可能な記憶媒体。
[Claims]
1. An analysis means for dividing an digitized document image into partial areas for each layout attribute and outputting layout analysis information indicating the state of the division.
Based on the layout analysis information, a document image in each partial area is extracted as partial document image data, and the extracted partial document image data is used to create a document object in units of partial areas.
A storage processing means for allocating and storing a plurality of document objects created by the creation means to a plurality of storage means, and
SaidpluralDocument object stored in storage meansUsingReconstruction means to reconstruct the original document image
A document management device characterized by comprising.
2. The layout attribute includes at least a figure, text or table as an attribute.
The document management device according to claim 1.
3. The document object created by the creating means includes partial document image data of a corresponding partial area, object information including an identification number of the document object, and layout analysis information.
The document management device according to claim 1 or 2.
4. The storage processing means allocates each of the plurality of document objects created by the creation means to the plurality of storage means according to the positional relationship on the layout in the original document image.
Any one of claims 1 to 3, characterized in thatItem 1Document management device described in.
5. The storage processing means stores link information indicating a relationship between each of a plurality of document objects created by the creation means and a storage means of a storage destination together with each document object.
Any of claims 1 to 4, characterized in thatItem 1Document management device described in.
6. The reconstruction means takes out each document object from the plurality of storage means based on the link information, synthesizes a partial image of each document object based on the layout analysis information, and synthesizes the partial image.Original documentReconstruct the image
The document management device according to claim 5.
7. The storage processing means further duplicates a document object having a specific layout attribute.TomoToDuplicate document objectAllocate to a storage means different from the document object and store it
Any of claims 1 to 6, characterized in thatItem 1Document management device described in.
8. The reconstruction means isWith respect to the document object of the particular layout attributeIf the document object required for reconstruction is normal, the original document image is reconstructed using the document object, and if the document object required for reconstruction is not normal, the original document object is used. ofdocumentsReconstruct the image
The document management device according to claim 7.
9. The document management device ischosenDocument objects are importantNaWith additional setting means to set as an object
The storage processing means further duplicates the document object set as the important document object by the setting means, and also, Duplicate document objectAllocate to a storage means different from the document object and store it
ClaimsTo 1The document management device described.
10. The setting means is
importantDocumentsJudgment condition setting means for setting judgment conditions for judging whether or not it is an object,
A determination means for determining whether or not the document object satisfies the determination condition based on the layout analysis information is provided.
Set the document object judged to satisfy the above judgment conditions as an important document object.
The document management device according to claim 9.
11.ReconstructionThe means of construction isRegarding the important document objectIf the document object required for the reconstruction is normal, use that document object.Original document imageIf the document object required for the reconstruction is not normal, use the duplicated document object.Original document image9. The document management device according to claim 9, wherein the document management device is reconstructed.
12. A character recognition means for acquiring character recognition data by performing character recognition on an area set as a character recognition target area based on the layout analysis information is further provided.
The creation means is the partial document.Image dataIf it is a character recognition target area, the character recognition data is used as the partial document image.With dataIncluded in the document object,
In the case of a document object containing character recognition data, the storage processing means includes the document object.letterA second document object is created using the recognition data, and this is allocated and stored in a storage means different from the original document object.
ClaimsTo 1The document management device described.
13. When the document object is a document object corresponding to the character recognition target area, the storage processing means removes the partial image data from the document object and duplicates the document object.The secondCreate a document object andThe secondDocument objectOriginalAllocate and store in a storage method different from the document object
The document management device according to claim 12.
14. The reconstruction means isRegarding the document object in the character recognition target areaIf the document object required for reconstruction is normal, the original document image is reconstructed using that document object, and if the document object required for reconstruction is not normal, the aboveSecondReconstruct the original document image using the document object
12. The document management device according to claim 12.
Claim15] With more setting means to set keywords,
The storage processing means further duplicates a document object in which the character recognition data includes the keyword and allocates the document object to a storage means different from the original document object for storage processing.
12.14Any ofItem 1Document management device described in.
Claim16If the document object required for reconstruction is normal, the reconstruction means uses the document object.OriginaldocumentsimageIf the document object required for reconstruction is not normal, use the duplicated document object.OriginaldocumentsimageTo rebuild
ClaimsTo 14The document management device described.
Claim17If the document object required for reconstruction cannot be obtained by the reconstruction means, a dummy image is allocated to a partial area of the document object.
1 to16Any ofItem 1Document management device described in.
Claim18An analysis process that divides the digitized document image into partial areas for each layout attribute and outputs layout analysis information indicating the state of the division.
Based on the layout analysis information, a document image in each partial area is extracted as partial document image data, and the extracted partial document image data is used to create a document object in units of partial areas.
A storage process step of allocating and storing a plurality of document objects created in the creation step to a plurality of storage means, and a storage process step.
SaidpluralDocument object stored in storage meansUsingWith the reconstruction process to reconstruct the original document image
A document management method characterized by providing.
Claim19] Computer,
An analysis means that divides the digitized document image into partial areas for each layout attribute and outputs layout analysis information indicating the state of the division.
Based on the layout analysis information, a document image in each partial area is extracted as partial document image data, and the extracted partial document image data is used to create a document object in units of partial areas.
A storage processing means for allocating and storing a plurality of document objects created by the creation means to a plurality of storage means, and a storage processing means.
A computer-readable storage medium containing a program for functioning as a reconstruction means for reconstructing an original document image using a document object stored in the plurality of storage means.

【0008】
【課題を解決するための手段】
上記の目的を達成するための本発明による文書管理装置は以下の構成を備える。すなわち、
電子化された文書画像を、レイアウト属性毎に部分領域に分割し、該分割の状態を示すレイアウト解析情報を出力する解析手段と、
前記レイアウト解析情報に基づいて、各部分領域内の文書画像を部分文書画像データとして抽出し、抽出された部分文書画像データを用いて部分領域を単位とした文書オブジェクトを作成する作成手段と、
前記作成手段で作成された複数の文書オブジェクトを複数の記憶手段に割り振って保管する保管処理手段と、
前記複数の記憶手段に記憶された文書オブジェクトを用いて元の文書画像を再構築する再構築手段とを備える。
0008
[Means for solving problems]
The document management device according to the present invention for achieving the above object has the following configuration. That is,
An analysis means that divides the digitized document image into partial areas for each layout attribute and outputs layout analysis information indicating the state of the division.
Based on the layout analysis information, a document image in each partial area is extracted as partial document image data, and the extracted partial document image data is used to create a document object in units of partial areas.
A storage processing means for allocating and storing a plurality of document objects created by the creation means to a plurality of storage means, and a storage processing means.
A reconstruction means for reconstructing an original document image using a document object stored in the plurality of storage means is provided.

また、上記の目的を達成するための本発明による文書管理方法は以下の工程を備える。すなわち、
電子化された文書画像を、レイアウト属性毎に部分領域に分割し、該分割の状態を示すレイアウト解析情報を出力する解析工程と、
前記レイアウト解析情報に基づいて、各部分領域内の文書画像を部分文書画像データとして抽出し、抽出された部分文書画像データを用いて部分領域を単位とした文書オブジェクトを作成する作成工程と、
前記作成工程で作成された複数の文書オブジェクトを複数の記憶手段に割り振って保管する保管処理工程と、
前記複数の記憶手段に記憶された文書オブジェクトを用いて元の文書画像を再構築する再構築工程とを備える。
In addition, the document management method according to the present invention for achieving the above object includes the following steps. That is,
An analysis process that divides the digitized document image into partial areas for each layout attribute and outputs layout analysis information indicating the state of the division.
Based on the layout analysis information, a document image in each partial area is extracted as partial document image data, and the extracted partial document image data is used to create a document object in units of partial areas.
A storage process step of allocating and storing a plurality of document objects created in the creation step to a plurality of storage means, and a storage process step.
It includes a reconstruction step of reconstructing an original document image using a document object stored in the plurality of storage means.

JP2000222810A 2000-07-24 2000-07-24 Document management apparatus and method Expired - Fee Related JP4521942B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000222810A JP4521942B2 (en) 2000-07-24 2000-07-24 Document management apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000222810A JP4521942B2 (en) 2000-07-24 2000-07-24 Document management apparatus and method

Publications (3)

Publication Number Publication Date
JP2002041498A JP2002041498A (en) 2002-02-08
JP2002041498A5 true JP2002041498A5 (en) 2007-09-06
JP4521942B2 JP4521942B2 (en) 2010-08-11

Family

ID=18717006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000222810A Expired - Fee Related JP4521942B2 (en) 2000-07-24 2000-07-24 Document management apparatus and method

Country Status (1)

Country Link
JP (1) JP4521942B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100688623B1 (en) * 2004-12-22 2007-03-02 이강헌 Method of publishing a ticket on demand and apparatus thereof
JP4856925B2 (en) 2005-10-07 2012-01-18 株式会社リコー Image processing apparatus, image processing method, and image processing program
JP2007299321A (en) * 2006-05-02 2007-11-15 Ricoh Co Ltd Information processor, information processing method, information processing program and information storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5357607A (en) * 1991-04-01 1994-10-18 Xerox Corporation File storage process for electronic printing systems having multiple disks
JPH05216724A (en) * 1992-02-04 1993-08-27 Fuji Xerox Co Ltd File memory device
JPH06208625A (en) * 1993-01-11 1994-07-26 Canon Inc Method and device for processing image
JP4054428B2 (en) * 1998-02-05 2008-02-27 キヤノン株式会社 Image search apparatus and method, and computer-readable memory

Similar Documents

Publication Publication Date Title
US7017113B2 (en) Method and apparatus for removing redundant information from digital documents
Christen Probabilistic data generation for deduplication and data linkage
US20060193020A1 (en) Variable data print job system
Newstead et al. Falsifying mental models: Testing the predictions of theories of syllogistic reasoning
US9348799B2 (en) Forming a master page for an electronic document
US20160314104A1 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US10747955B2 (en) Learning device and learning method
CN104572785B (en) A kind of distributed method and apparatus for creating index
CN104794024A (en) Data recovery method
CN104751076A (en) Method for recovering disk data
CN102939602B (en) To the content in website by semantic rank
JP2000023036A5 (en)
JP2002041498A5 (en)
EP1638019A3 (en) Advanced object mapping by mapping key sub-object
JP2008083750A (en) Logic circuit redesign program, logic circuit design device, and logic circuit redesign method
CN106503198A (en) A kind of cold data recognition methodss and system based on hadoop metadata
CN105955680A (en) Document printing method capable of supporting dynamic additional extended information
JP2007035022A5 (en)
JP6273969B2 (en) Data processing apparatus, information processing apparatus, method, and program
JP4521942B2 (en) Document management apparatus and method
CN110187385B (en) Seismic data acquisition method, seismic data processing method and device
CN104794062A (en) Method for reading magnetic disk
JP4895988B2 (en) Method for reducing extra structure of document classification device
US20140281331A1 (en) Systems and methods for processing data stored in data storage devices
CN110457323A (en) The processing method and processing device of tables of data