JP4391157B2 - 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体 - Google Patents

文書処理装置、文書処理方法、文書処理プログラム、および記録媒体 Download PDF

Info

Publication number
JP4391157B2
JP4391157B2 JP2003293767A JP2003293767A JP4391157B2 JP 4391157 B2 JP4391157 B2 JP 4391157B2 JP 2003293767 A JP2003293767 A JP 2003293767A JP 2003293767 A JP2003293767 A JP 2003293767A JP 4391157 B2 JP4391157 B2 JP 4391157B2
Authority
JP
Japan
Prior art keywords
document
reference document
dissimilar
layout
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003293767A
Other languages
English (en)
Other versions
JP2005063220A (ja
Inventor
利夫 宮澤
公一 江尻
優 関口
俊博 鈴木
鈴木  剛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003293767A priority Critical patent/JP4391157B2/ja
Publication of JP2005063220A publication Critical patent/JP2005063220A/ja
Application granted granted Critical
Publication of JP4391157B2 publication Critical patent/JP4391157B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、パーソナルコンピュータ、PDA、携帯電話等のディスプレイの限られた表示スペースに文書画像等の表示スペースよりも大きな画像を表示する際に、ユーザに使い勝手の良い表示画面を提供することができる文書処理装置、文書処理方法、文書処理プログラムおよび記録媒体に関する。
従来、文書をデータベース化し、さらには、要素タグをつけたり、検索を行ったりという提案が行われている(特許文献1,特許文献2,特許文献3参照)。これら各文献の技術では、文書をデータベース化したり、要素タグをつけたり、検索を行うことにより、ユーザが目的とする(探し出したい)文書を容易に発見しやすくすることができる。
特開2000−222438 特開2001−34630 特許第2971295号
しかし、上記従来技術は、何れも、類似文書の区別、たとえば、ある文書の一部を修正し、改版バージョンとして管理保存する場合や、定型のフォーマットに記載された伝票類などを、識別することは困難な場合が多い。
たとえば、MFPやスキャナなどで入力された画像が、たとえば、請求書、領収書、会議議事録、会議開催通知等の種類に応じて自動分類され、フォルダ分けされる。さらに、ある種類の書類(たとえば請求書)がさらに複数に分類される場合には、複数のフォルダに区分けされる。
この場合、1つのフォルダに蓄積された画像を表示する際に、類似画像であるために、縮小表示したのでは、各書類相互間で、区別がつかないという問題がある。
本発明の目的は、小さな表示スペースしかなくてもユーザが書類を明確に区別できるようにすることにある。
本発明は、複数の文書のデータを記憶する記憶手段と、上記記憶手段に記憶されている複数の文書のそれぞれのレイアウトを抽出し当該レイアウトに基づき文書を区分する文書区分手段と、上記記憶手段に記憶されている上記複数の文書の1つを基準文書とし、該基準文書以外の文書を参照文書とし、上記文書区分手段によって区分された上記基準文書のレイアウトと上記参照文書のレイアウトとを比較して類似していない個所を抽出する非類似個所抽出手段と、上記非類似個所抽出手段が抽出した、上記基準文書のうちレイアウトが上記参照文書と類似していない個所及び上記参照文書のうち該類似していない個所と対応する個所と、上記基準文書とを同時に表示する表示手段とを備えたものである。
上記表示手段は、上記基準文書の解像度に比べて、上記非類似個所抽出手段が抽出した、上記基準文書のうちレイアウトが上記参照文書と類似していない個所及び上記参照文書のうち該類似していない個所と対応する個所の解像度を高くするとよい。
本発明の文書処理方法は、文書処理装置に、該文書処理装置が備えた記憶手段に複数の文書のデータを記憶させる記憶ステップと、上記記憶ステップでデータを記憶させた複数の文書のそれぞれのレイアウトを抽出させ当該レイアウトに基づき文書を区分させる文書区分ステップと、上記記憶ステップでデータを記憶させた上記複数の文書の1つを基準文書とし、該基準文書以外の文書を参照文書とし、上記文書区分ステップによって区分された上記基準文書のレイアウトと上記参照文書のレイアウトとを比較させて類似していない個所を抽出させる非類似個所抽出ステップと、上記非類似個所抽出ステップに抽出させた、前記基準文書のうちレイアウトが上記参照文書と類似していない個所及び上記参照文書のうち該類似していない個所と対応する個所と、及び上記基準文書とを同時に表示させる表示ステップとを実行させるものである。
上記表示ステップは、上記基準文書の解像度に比べて、記非類似個所抽出ステップに抽出させた、前記基準文書のうちレイアウトが上記参照文書と類似していない個所及び上記参照文書のうち該類似していない個所と対応する個所の解像度を高くするとよい。
また、コンピュータに、上述の文書処理方法の各ステップを実行させるための文書処理プログラムも提供する。
また、コンピュータに、上述の文書処理方法の各ステップを実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体も提供する。
以上のようなこの発明の文書処理装置、文書処理方法、文書処理プログラム、および記録媒体によれば、小さな表示スペースしかなくてもユーザが書類を明確に区別できるという効果を得る。
図1は本発明の第1実施形態の文書処理装置を示すブロック図である。図1において、文書処理装置1Aは、文書分類手段101と、文書区分手段102と、非類似個所抽出手段103と、非類似個所表示手段104と、文書保存手段105とを備えている。
文書分類手段101は、文書保存手段105に保存された複数の文書を呼び出し、全体の類似度に応じて各文書を分類することができる。
文書区分手段102は、各文書を区分することができる。非類似個所抽出手段103は、各文書中の類似していない個所を抽出することができる。また、非類似個所表示手段104は、非類似個所抽出手段103が抽出した個所のみを表示することができる。ここで、文書は大きく2つに分けられる。1つは、ワープロデータや表計算ソフト、さらには各要素が構造化されタグなどで意味付けされ管理されている電子データとして扱える文書である。もう1つは、紙データをスキャンして得られた、いわゆる画像データ(イメージデータ)である。
図2は、文書の類似度の説明図である。図2では、基準となる文書(基準文書BD)と、比較対象となる文書(参照文書RD1〜RD3)が表示されている。
基準文書BDは、文字領域a1,a2,a3と線画領域a4とからなる。参照文書RD1は、文字領域b1,b2,b3とからなる。これらの領域は、文書区分手段102が区分することができる。
文書分類手段101は、各領域の配置、大きさ、属性などから、類似度を判定することができる。
参照文書RD1を基準文書BDと比較した場合、文字領域b1,b2は文字領域a1,a2と同一位置(または実質同一位置)に配置され、文字領域b3は文字領域a3と線画領域a4の位置に配置されているので、参照文書RD1と基準文書BDとの類似度は高い。
参照文書RD2を基準文書BDと比較した場合、文字領域c1は文字領域a1と同一位置(または実質同一位置)に配置され、文字領域c2は文字領域a2,a3および線画領域a4の位置に配置されているので参照文書RD2と基準文書BDとの類似度は、参照文書RD1と基準文書BDとの類似度よりも低い。
参照文書RD3を基準文書BDと比較した場合、線画領域d1,d2に対応する領域は基準文書BDには存在しない(または、存在しても位置が大きくずれ領域の属性(文字領域か線図領域か)が大きく異なる)し、表領域d3に対応する領域は基準文書BDには存在しない(または、存在しても位置が大きくずれ領域の属性が大きく異なる)ので参照文書RD3と基準文書BDとの類似度は低い。
図2の例では、文書分類手段101は、参照文書RD1,RD2を同一のグループに分類することができる。
なお、図2では、文書分類手段101は、文字領域と線画領域の2属性に分類したが、文書画像を、文字領域、写真領域、表領域などの属性に分類することもできる。文字領域は、さらにタイトル領域、本文領域、脚注領域などに分類してもよい。たとえば、文字領域a1,b1,c1がタイトル領域、文字領域a2,a3,b2,b3,c2を文書領域として認識することができる。
文書分類手段101は、より具体的には、タイトル領域が文書中の上にあるか否か。2段組みであるか否か、文字領域の大きさは同じか否か等を参照して分類を行なうこともできる。また、これらの画像を重ね合わせ、同じ属性の画素はスコアがゼロ、違う属性の画素はスコアを1とし、スコアが小さい文書同士は類似度が高いとして分類を行なうことができる。
非類似個所抽出手段103は、文書中の類似していない個所を抽出し、各区分について、類似判定を行い、文書中の類似箇所、非類似箇所を特定する。すなわち、文書分類手段101により、文書の分類を行った後に、非類似個所抽出手段103により各領域ごとに類似度を比較する。
図3(A),(B),(C)により、基準文書BDと参照文書RDとの比較を例に説明をする。図3(A)では、文字領域a3と線画領域a4からなる領域と、文字領域b3が異なっている(図3(B)参照:線画領域a4と文字b3との重複部分をb3′で示す)ことから、非類似個所表示手段104は、図3(C)に示すように異なっている領域(線画領域a4と文字領域b3の線画領域a4に対応する部分b3′)のみをディスプレイDPLY表示する。これにより、ユーザは、2つの文書(基準文書BDと参照文書RD)の区別が可能となる。
図4は本発明の第2実施形態の文書処理装置を示すブロック図である。図4において、文書処理装置1Bは、図1に示した文書処理装置1Aの各構成要件に加え、類似個所抽出手段106と、類似個所表示手段107とを備えている。類似個所抽出手段106は、各文書中の類似している個所を抽出することができる。また、類似個所表示手段107は類似個所抽出手段106が抽出した個所のみを表示することができる。
図5(A),(B)は、基本画像BCの類似領域BC−1と、参照画像RCの非類似領域RC−1とを重ね合わせて表示する例を示している。図5(A)は、基本画像BCの類似領域BC−1と非類似領域BC−2とを示すとともに、参照画像RCの非類似領域RC−1とを示している。また、図5(B)は基本画像BCの類似領域BC−1と、参照画像RCの非類似領域RC−1とが重ねて表示された様子と示している。なお、図示はしないが、基本画像BCを同一として、参照画像RCを順次、異なる文書の参照画像RCに切り換えるようにも構成できる。
図6は本発明の文書処理システムの第1実施形態を示すブロック図である。図6において、サーバ3Aは、文書分類手段101と、文書区分手段102と、非類似個所抽出手段103と、文書保存手段105と、通信手段108とを備え、クライアント4Aは、非類似個所表示手段121と、文書保存手段123と、通信手段124とを備えている。サーバ3Aの通信手段108と、クライアント4Aの通信手段124とは、ネットワーク500に接続されている。
クライアント4Aは、たとえば自己の文書保存手段123に蓄積した多数の文書を、通信手段124を用いてサーバ3Aの文書保存手段105に転送することができる。受信した文書について、サーバ3Aは、文書分類手段101による処理、文書区分手段102による処理、非類似個所抽出手段103による処理を行い、通信手段108を用いて処理結果をクライアント4Aに転送し、クライアント4Aの非類似個所表示手段121にはリアルタイムで、図3(C)に示したような画像が表示される。
図7は本発明の文書処理システムの第2実施形態を示すブロック図である。図7において、サーバ3Bは図6のサーバ3Aの各構成要素に加え、類似個所抽出手段106を備え、クライアント4Bは図6のクライアント4Aの各構成要素に加え、類似個所抽出手段122を備えている。
この実施形態では、たとえばクライアント4Bは、自己の文書保存手段123に蓄積した多数の文書を、通信手段124を用いてサーバ3Bの文書保存手段105に転送することができる。受信した文書について、サーバ3Bは、文書分類手段101による処理、文書区分手段102による処理、非類似個所抽出手段103、類似個所抽出手段106による処理を行い、通信手段108を用いて処理結果をクライアント4Bに転送することができる。クライアント4Bの非類似個所表示手段121、類似個所表示手段122にはリアルタイムで、図5(B)に示したような画像が表示される。
本発明の第1実施形態の文書処理装置を示すブロック図である。 文書の類似度の説明図である。 基準文書BDと参照文書RDとの比較を例示する図であり、(A)は比較の様子を示す図、(B)は比較によって得られた非類似領域を示す図、(C)は非類似領域をディスプレイに表示した状態を示す図である。 本発明の第2実施形態の文書処理装置を示すブロック図である。 基本画像の類似領域と、参照画像の非類似領域とを重ね合わせて表示する例を示す図であり、(A)は基本画像の類似領域と非類似領域とを示すとともに、参照画像の非類似領域とを示す図、(B)は基本画像の類似領域と参照画像の非類似領域とが重ねて表示された様子と示す図である。 本発明の文書処理システムの第1実施形態を示すブロック図である。 本発明の文書処理システムの第2実施形態を示すブロック図である。
符号の説明
1A,1B 文書処理装置
3A,3B サーバ
4A,4B クライアント
101 文書分類手段
102 文書区分手段
103 非類似個所抽出手段
104,121 非類似個所表示手段
105,123 文書保存手段
106 類似個所抽出手段
107,122 類似個所表示手段
108,124 通信手段
500 ネットワーク

Claims (6)

  1. 複数の文書のデータを記憶する記憶手段と、
    前記記憶手段に記憶されている複数の文書のそれぞれのレイアウトを抽出し当該レイアウトに基づき文書を区分する文書区分手段と、
    前記記憶手段に記憶されている前記複数の文書の1つを基準文書とし、該基準文書以外の文書を参照文書とし、前記文書区分手段によって区分された前記基準文書のレイアウトと前記参照文書のレイアウトとを比較して類似していない個所を抽出する非類似個所抽出手段と、
    前記非類似個所抽出手段が抽出した、前記基準文書のうちレイアウトが前記参照文書と類似していない個所及び前記参照文書のうち該類似していない個所と対応する個所と、前記基準文書とを同時に表示する表示手段とを備えたことを特徴とする文書処理装置。
  2. 前記表示手段は、前記基準文書の解像度に比べて、前記非類似個所抽出手段が抽出した、前記基準文書のうちレイアウトが前記参照文書と類似していない個所及び前記参照文書のうち該類似していない個所と対応する個所の解像度を高くしたことを特徴とする請求項1記載の文書処理装置。
  3. 文書処理装置に、
    該文書処理装置が備えた記憶手段に複数の文書のデータを記憶させる記憶ステップと、
    前記記憶ステップでデータを記憶させた複数の文書のそれぞれのレイアウトを抽出させ当該レイアウトに基づき文書を区分させる文書区分ステップと、
    前記記憶ステップでデータを記憶させた前記複数の文書の1つを基準文書とし、該基準文書以外の文書を参照文書とし、前記文書区分ステップによって区分された前記基準文書のレイアウトと前記参照文書のレイアウトとを比較させて類似していない個所を抽出させる非類似個所抽出ステップと、
    前記非類似個所抽出ステップに抽出させた、前記基準文書のうちレイアウトが前記参照文書と類似していない個所及び前記参照文書のうち該類似していない個所と対応する個所と、前記基準文書とを同時に表示させる表示ステップとを実行させることを特徴とする文書処理方法。
  4. 前記表示ステップは、前記基準文書の解像度に比べて、前記非類似個所抽出ステップに抽出させた、前記基準文書のうちレイアウトが前記参照文書と類似していない個所及び前記参照文書のうち該類似していない個所と対応する個所の解像度を高くしたことを特徴とする請求項3記載の文書処理方法。
  5. コンピュータに、請求項3または4に記載の文書処理方法の各ステップを実行させるための文書処理プログラム。
  6. コンピュータに、請求項3または4に記載の文書処理方法の各ステップを実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。
JP2003293767A 2003-08-15 2003-08-15 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体 Expired - Fee Related JP4391157B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003293767A JP4391157B2 (ja) 2003-08-15 2003-08-15 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003293767A JP4391157B2 (ja) 2003-08-15 2003-08-15 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2005063220A JP2005063220A (ja) 2005-03-10
JP4391157B2 true JP4391157B2 (ja) 2009-12-24

Family

ID=34370564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003293767A Expired - Fee Related JP4391157B2 (ja) 2003-08-15 2003-08-15 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP4391157B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4951373B2 (ja) 2007-03-13 2012-06-13 株式会社リコー 画像検索装置、画像検索方法、及びコンピュータプログラム
JP5565130B2 (ja) * 2010-06-22 2014-08-06 富士ゼロックス株式会社 縮小画像生成装置及びプログラム
CN108170684B (zh) * 2018-01-22 2020-06-05 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品

Also Published As

Publication number Publication date
JP2005063220A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
US8244037B2 (en) Image-based data management method and system
US8892990B2 (en) Automatic creation of a table and query tools
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
US20070046982A1 (en) Triggering actions with captured input in a mixed media environment
US20070050341A1 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
US20060085442A1 (en) Document image information management apparatus and document image information management program
US9552377B2 (en) Method for naming image file
KR20160060499A (ko) 화상독취장치 및 그의 제어 방법
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
US8456688B2 (en) Data generating device, scanner and non-transitory computer readable medium
JP2010072842A (ja) 画像処理装置および画像処理方法
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP4859054B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
US8023735B2 (en) Image processing apparatus for extracting representative characteristic from image data and storing image data to be associated with representative characteristic
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
JP4391157B2 (ja) 文書処理装置、文書処理方法、文書処理プログラム、および記録媒体
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP4136282B2 (ja) 画像処理装置及び画像処理方法並びに記憶媒体
WO2018061174A1 (ja) 電子書籍作成システム、電子書籍作成法及びプログラム
JP4278134B2 (ja) 情報検索装置及びプログラム並びに記録媒体
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
JP2004280514A (ja) Pdfファイル及びpdfファイル作成システム
US10896220B2 (en) Method of searching an image file in a computer system, related image file searching device, and related computer system
JP2019192959A (ja) 情報処理装置及びプログラム
US20210289078A1 (en) Information processing apparatus, method, and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060419

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090131

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091007

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees