JP2007052615A - 文書処理装置、ルールデータ生成方法およびプログラム - Google Patents

文書処理装置、ルールデータ生成方法およびプログラム Download PDF

Info

Publication number
JP2007052615A
JP2007052615A JP2005236982A JP2005236982A JP2007052615A JP 2007052615 A JP2007052615 A JP 2007052615A JP 2005236982 A JP2005236982 A JP 2005236982A JP 2005236982 A JP2005236982 A JP 2005236982A JP 2007052615 A JP2007052615 A JP 2007052615A
Authority
JP
Japan
Prior art keywords
document
rule data
image data
document image
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005236982A
Other languages
English (en)
Other versions
JP4682747B2 (ja
Inventor
Naoko Sato
直子 佐藤
Masatoshi Tagawa
昌俊 田川
Michihiro Tamune
道弘 田宗
Atsushi Ito
篤 伊藤
Kiyoshi Tashiro
潔 田代
Hiroshi Masuichi
博 増市
Tsuguaki Ryu
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005236982A priority Critical patent/JP4682747B2/ja
Publication of JP2007052615A publication Critical patent/JP2007052615A/ja
Application granted granted Critical
Publication of JP4682747B2 publication Critical patent/JP4682747B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 記載項目およびそのレイアウトに基づいて紙文書の種類を特定しその種類毎に分類して電子化するためのルールデータの作成に要する手間を軽減させる。
【解決手段】 紙文書を表す文書画像データをその紙文書の記載項目の階層構造に基づいて分類して記憶する文書処理装置に、文書画像データを受取る第1のステップと、第1のステップにて受取った文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する第2のステップと、第1のステップにて受取った文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する第3のステップと、第2のステップにて特定されたレイアウトおよび第3のステップにて判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成して記憶する第4のステップとを実行させる。
【選択図】 図2

Description

本発明は、紙文書を電子化する技術に関し、特に、紙文書をその種別毎に分類して電子化するための技術に関する。
紙文書を表す画像をスキャナ装置に読み取らせ、その画像に対応した画像データ(以下、文書画像データ)をハードディスクなどの記憶装置へ書き込んで保管すること(以下、「紙文書の電子化」と呼ぶ)が一般に普及している。また、紙文書を電子化する際に、その記載項目の配列(以下、レイアウト)や各記載項目の記載内容に基づいてその紙文書の種別を特定し、その種別毎に異なる記憶領域(例えば、フォルダやディレクトリ)へ格納するなど各紙文書をその種別毎に分類して電子化する技術も種々提案されている。紙文書の種別をそのレイアウトや各記載項目の記載内容に基づいて特定することを可能にする技術の一例としては、特許文献1に開示された技術が挙げられる。
この特許文献1には、以下のようにして紙文書をその種別毎に分類して電子化する文書処理装置が開示されている。すなわち、紙文書の種類毎にその紙文書のレイアウトを表すデータが書き込まれた文書レイアウト知識ファイルと、紙文書の種類毎に記載項目の意味内容を表すデータが書き込まれた文書コンテンツ知識ファイルとを各紙文書を解析して作成し予め上記文書処理装置に記憶させておく。そして、この文書処理装置は、自装置に予め記憶している文書レイアウト知識ファイルと文書コンテンツ知識ファイルとを参照して、自装置へ入力された文書画像データの表す紙文書(すなわち、電子化対象である紙文書)の種別を特定する。なお、以下では、上記文書レイアウト知識ファイルのように紙文書のレイアウトを表すデータと上記文書コンテンツ知識ファイルのように紙文書の記載項目の内容を表すデータとの両者を合わせて「ルールデータ」と称する。
特開平10−240901号公報
しかしながら、同種の紙文書であっても、その作成時期が異なっていると、記載項目の追加や削除により、記載項目の数が変化していたり、そのレイアウトが変化していたりする場合がある。このため、上記ルールデータが作成された後に、記載項目の数やレイアウトが変更された紙文書については、そのルールデータを用いてもその紙文書の種別を正確に特定することができない場合がある。
このような事態が生じることを回避するためには、記載項目の数やレイアウトが変更される度毎にルールデータを再作成しておく必要があるが、ルールデータの再作成を行う際には、変更前後の各紙文書を比較してその記載項目やレイアウトの変更点を逐一洗い出さなければならず、多大な手間を要してしまう。
本発明は、上記課題に鑑みてなされたものであり、記載項目およびそのレイアウトに基づいて紙文書の種類を特定しその種類毎に分類して電子化するためのルールデータの作成に要する手間を軽減させることを可能にする技術を提供することを目的としている。
上記課題を解決するために、本発明は、記憶手段と、文書を表す文書画像データが入力される入力手段と、前記入力手段へ入力された文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する特定手段と、前記入力手段へ入力された文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する判別手段と、前記特定手段により特定されたレイアウトおよび前記判別手段により判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成する生成手段と、前記生成手段により生成されたルールデータを前記記憶手段へ書き込む書き込み手段とを有することを特徴とする文書処理装置を提供する。
このような文書処理装置によれば、文書画像データをその文書画像データの表す紙文書の記載項目の階層構造に基づいて分類するためのルールデータが、その文書画像データにレイアウト解析および文字解析を施すことによって生成される。
より好ましい態様においては、前記記憶手段には、複数の文書の各々について前記ルールデータが文書の種別毎に分類されて予め書き込まれており、前記生成手段により生成されたルールデータとの類似の度合いが所定の閾値以下である類似ルールデータが前記記憶手段に記憶されているか否かを判定する判定手段を備え、前記書込み手段は、類似ルールデータが前記記憶手段に記憶されていると前記判定手段により判定された場合に、前記生成手段により生成されたルールデータをその類似ルールデータと同一グループに分類して書き込むことを特徴としている。このような態様においては、新たに生成されたルールデータとの類似の度合いが所定の閾値以下である類似ルールデータが上記記憶手段に記憶されている場合には、その類似ルールデータと同一グループに属するように分類されて上記新たなルールデータが上記記憶手段に書き込まれる。
さらに好ましい態様においては、前記生成手段により生成されたルールデータと前記類似ルールデータとを比較し、両者の共通部分を抽出する抽出手段を備え、前記書込み手段は、前記生成手段により生成されたルールデータを前記記憶手段へ書き込むことに替えて、前記記憶手段に記憶されている類似ルールデータを、前記抽出手段により抽出された共通部分から生成される新たなルールデータで書きえることを特徴としている。このような態様においては、生成手段によって生成されたルールデータを上記記憶手段に書き込むことに替えて、そのルールデータと類似ルールデータとの共通部分から生成されるルールデータで上記登録済みのルールデータが書き換えられる。
また、上記課題を解決するために本発明は、紙文書を表す文書画像データをその紙文書の記載項目の階層構造に基づいて分類して記憶する文書処理装置に、該文書画像データを分類するためのルールデータを生成させるルールデータ生成方法において、文書画像データを受取る第1のステップと、前記第1のステップにて受取った文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する第2のステップと、前記第1のステップにて受取った文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する第3のステップと、前記第2のステップにて特定されたレイアウトおよび前記第3のステップにて判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成して記憶する第4のステップと、を前記文書処理装置に実行させることを特徴とするルールデータ生成方法、を提供する。
このようなルールデータ生成方法によれば、文書画像データをその文書画像データの表す紙文書の記載項目の階層構造に基づいて分類するためのルールデータが、その文書画像データにレイアウト解析および文字解析を施すことによって生成され、そのルールデータを上記文書処理装置に記憶させておくことによって、そのルールデータにしたがった文書画像データの分類を上記文書処理装置に行わせることが可能になる。
また、上記課題を解決するために本発明は、コンピュータ装置に、紙文書を表す文書画像データをその紙文書の記載項目の階層構造に基づいて分類するためのルールデータを生成させるプログラムにおいて、文書画像データを受取る第1のステップと、前記第1のステップにて受取った文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する第2のステップと、前記第1のステップにて受取った文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する第3のステップと、前記第2のステップにて特定されたレイアウトおよび前記第3のステップにて判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成して記憶する第4のステップと、を前記コンピュータ装置に実行させることを特徴とするプログラム、を提供する。
このようなプログラムによれば、一般的なコンピュータ装置をそのプログラムにしたがって作動させることによって、そのコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になる。なお、本発明の別の態様においては、CD−ROM(Compact Disk−Read Only Memory)などのコンピュータ装置読み取り可能な記録媒体に上記プログラムを書き込んで提供するとしても良い、インターネットなどの電気通信回線経由で上記プログラムを配布するようにしても良い。
本発明によれば、記載項目およびそのレイアウトに基づいて紙文書の種類を特定しその種類毎に分類して電子化するためのルールデータの作成に要する手間を軽減させることが可能になる、といった効果を奏する。
以下、本発明を実施する際の最良の形態について図面を参照しつつ説明する。
(A.構成)
図1は、本発明に係る文書処理装置の1実施形態である複合機10の構成例を示す図である。
ここで、複合機とは、例えばスキャナ機能や、プリンタ機能、ファクシミリ機能など複数の機能を兼ね備えた画像処理装置のことである。本実施形態においては、複合機10は、上記3つの機能を兼ね備えており、図1に示すように、制御部110、ユーザインターフェイス(User Interface:以下、「UI」と表記する)部120、画像読取部130、通信インターフェイス(Interface:以下、「IF」と表記する)部140、印字部150、記憶部160、および、各構成要素間のデータ授受を仲介するバス170をその構成要素として備えている。
なお、本実施形態では、複合機10が上記3つの機能(すなわち、スキャナ機能、プリンタ機能およびファクシミリ機能)の全てを兼ね備えている場合について説明するが、これら3つの機能のうちの何れか2つを兼ね備えているといても良いことは勿論である。
制御部110は、例えばCPU(Central Processing Unit)であり、記憶部160に格納されているプログラムを実行することによって、複合機10の各部の作動制御を中枢的に行うものである。
UI部120は、例えば液晶パネルとその駆動回路とで構成された表示装置(図示省略)と、テンキーやカーソルキーなどの複数の操作子が設けられた操作パネル(図示省略)とを含んでいる。このUI部120は、複合機10の利用を促すための各種画像を制御部110による支配下で上記表示装置に表示させるとともに、それら画像を視認したユーザが上記各種操作子を操作して何らかの入力を行った場合に、その操作子の操作内容を表すデータ(以下、操作内容データ)を制御部110へと引渡し、その操作内容を制御部110へ伝達するためのものである。
画像読取部130は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1枚ずつ読み取り、読み取った画像に対応する文書画像データを制御部110へと引き渡すものである。つまり、この画像読取部130は、前述したスキャナ機能を複合機10に実現させるためのものである。なお、上記ADFにセットされ、文書画像データを読み取られた紙文書は図示せぬ排紙トレイに順次排紙される。
通信IF部140は、例えば公衆電話網やLAN(Local Area Network)などの通信網に接続されており、その通信網を介して送信されてきたデータ(例えば、文書画像データ)を受信して制御部110へと引き渡す一方、制御部110から引き渡されたデータをその通信網へと送出するためのものである。つまり、この通信IF部140は、前述したファクシミリ機能を制御部110に実現させるためのものである。
印字部150は、制御部110から引き渡された画像データに応じた画像を、例えば電子写真方式で印刷用紙やOHPシートなどの記録材上に形成して出力するためのもの、前述したプリンタ機能を制御部110に実現させるためのものである。なお、本実施形態では、印字部150が電子写真方式でプリンタ機能を実現する場合について説明したが、例えばインクジェット方式など他の方式で画像形成を行うとしても良いことは勿論である。
記憶部160は、図1に示されているように、揮発性記憶部160aと不揮発性記憶部160bとを含んでいる。
揮発性記憶部160aは、例えばRAM(Random Access Memory)であり、後述するプログラムにしたがって作動している制御部110によってワークエリアとして利用される。
一方、不揮発性記憶部160bは、例えば、ハードディスクであり、画像読取部130により読み取った文書画像データや通信IF部140により受信した文書画像データの表す紙文書を種別毎に格納するためのものである。より詳細に説明すると、不揮発性記憶部160bには、複合機10へ入力された文書画像データを記憶するための記憶領域(本実施形態では、フォルダ)が文書画像データの表す紙文書の種別毎に作成され、これらフォルダには、文書画像データの他に、そのフォルダへ書き込むべき文書画像データの表す紙文書の記載項目やそのレイアウトを表すルールデータが書き込まれるようになっている。つまり、不揮発性記憶部160bは、処理対象文書(電子化対象の紙文書)を表す文書画像データを記憶するための記憶手段として機能するとともに、電子化対象の紙文書の種別を特定する際に利用するルールデータを記憶するための記憶手段として機能する。また、この不揮発性記憶部160bには、本発明に係る文書処理装置に特徴的な処理を制御部110に実行させるためのプログラムも格納されている。
以上が複合機10の構成である。
(B:動作)
次いで、不揮発性記憶部160bに予め格納されているプログラムにしたがって制御部110が行う処理について説明する。なお、以下に説明する動作例の開始時点では、不揮発性記憶部160bにはルールデータや文書画像データを格納するためのファルダは作成されておらず、不揮発性記憶部160bにはルールデータが1つも格納されていないものとする。
ユーザが複合機10のADFに、電子化対象である複数枚の紙文書をセットし、所定の操作(例えば、UI部120に設けられている起動ボタンの押下など)を行うと、それら紙文書が1枚づつ画像読取部130によって読み取られ、その各々に対応する文書画像データが制御部110へと引き渡される。これにより、処理対象文書を表す文書画像データが複合機10へと入力されることになる。つまり、本実施形態では、画像読取部130は、複合機10へ文書画像データを入力するための入力手段としての役割を担っている。以下では、図3(a)および(b)に示す2種類の「書籍注文票」が電子化対象の文書としてこの順に上記ADFにセットされた状態で起動ボタンが押下され、図3(a)に示す「書籍注文票」を表す文書画像データ(以下、「文書画像データA」)と、図3(b)に示す「書籍注文票」を表す文書画像データ(以下、「文書画像データB」)とがこの順に、順次複合機10へ入力される場合について説明する。
図2は、不揮発性記憶部160bに予め格納されているプログラムにしたがって制御部110が行うルールデータ生成処理の流れを示すフローチャートである。
図2に示すように、制御部110は、画像読取部130を介して文書画像データを入力されると(ステップSA100)、その文書画像データに対してレイアウト解析を施し(ステップSA110)、電子化対象の紙文書のレイアウトを特定する。本動作例では、まず、文書画像データAが上記ステップSA100にて入力され、この文書画像データAにレイアウト解析を施すことによって、この文書画像データAの表す紙文書(すなわち、図3(a)に示す「書籍注文票」)のレイアウトが特定される。
次いで、制御部110は、ステップSA100にて入力された文書画像データの表す紙文書(すなわち、図3(a)に示す「書籍注文票」)に記載されている文字列を抽出しその各々に文字種別解析を施して(ステップSA120)、記載項目の属性を表す文字列(以下、「属性文字列」)であるのか、それとも、記載項目の内容を表す文字列(以下、「内容文字列」)であるのかを文字列毎に判別する。つまり、上記プログラムにしたがって作動している制御部110は、入力された文書画像データにレイアウト解析を施しその文書画像データの表す紙文書のレイアウトを特定する特定手段として機能するとともに、その記載項目の属性を判別する判別手段として機能する。
より詳細に説明すると、本実施形態では、制御部110は、各文字列について活字で構成されているのか、それとも、手書き文字で構成されているのかを判別し、活字で構成されている文字列については上述した属性文字列であると判別し、逆に、手書き文字で構成されている文字列については、内容文字列であると判別する。例えば、図3(a)に示す「書籍注文票」については、“書籍注文票”、、“注文書籍”、“出版社名”、“著者”、“書名”、“冊数”、“申込者”、“氏名”、“住所”および“電話番号”が上記属性文字列であると判別され、“○×社”、“山下…”、“XML…”、“1”、“田中…”、“東京都…”、および“03−…”が上記内容文字列であると判別される。なお、本実施形態では、文字列が活字で構成されているのか、それとも、手書き文字で構成されているのかに基づいて、その文字列が属性文字列であるか、内容文字列であるかを判別する場合について説明したが、文字列を構成する文字のフォント種別やフォントサイズに基づいてその文字列が属性文字列であるか内容文字列であるかを判別するようにしても良いことは勿論である。
次いで、制御部110は、ステップSA110にて特定されたレイアウトにしたがって、ステップSA120にて属性文字列であると判別された文字列の親子関係(すなわち、記載項目間の階層構造)を特定する(ステップSA130)。例えば、電子化対象の紙文書に属性文字列“属性A”、“属性B”、“属性C”および“属性D”が記載されており、それら属性文字列が図4(a)や図4(b)に示す表形式のレイアウトで記載されている場合(すなわち、属性B、CおよびDが属性Aの子である場合)には、これらレイアウトから図4(c)に示すように階層構造を特定する。
そして、制御部110は、ステップSA130にて特定された階層構造を表すルールデータ(例えば、その親子関係を表すXMLSchema)を生成する(ステップSA140)。つまり、上記制御プログラムにしたがって作動している制御部110は、電子化対象である紙文書の記載項目間の階層構造を上記レイアウト解析および文字解析の結果に基づいて特定しその階層構造を表すルールデータを生成する生成手段として機能する。例えば、図3(a)に示す「書籍注文票」に対しては、図5に示すXMLSchemaが上記ルールデータ(以下、「ルールデータA」)として生成される。なお、本実施形態では、電子化対象の紙文書の記載項目間の階層構造を表すルールデータとしてXMLSchemaを用いる場合について説明したが、上記階層構造を表すことが可能なデータであればどのようなデータであっても良い。
以上がルールデータ生成処理の流れである。
次いで、ルールデータ生成処理にて生成したルールデータAを記憶する際に制御部110が行うルールデータ登録処理について説明する。
図6は、上記制御プログラムにしたがって制御部110が行うルールデータ登録処理の流れを示すフローチャートである。図6に示すように制御部110は、まず、上述したルールデータ生成処理にて生成したルールデータAの他に不揮発性記憶部160bにルールデータが既に登録されているか否かを判定し(ステップSB100)、その判定結果が“Yes”である場合には、ステップSB110以降の処理を実行する一方、その判定結果が“No”である場合には、ステップSB160以降の処理を実行する。
本動作例では、前述したように、ルールデータAの生成以前には、他のルールデータは不揮発性記憶部160bには登録されていないのであるから、ステップSB100の判定結果は“No”になり、ステップSB160の処理が実行される。ステップSB100の判定結果が“No”である場合に後続して実行されるステップSB160においては、制御部110は、前述したルールデータ生成処理にて生成したルールデータAの登録を行う。具体的には、制御部110は、そのルールデータを格納するためのフォルダを不揮発性記憶部160b内に新たに1つ作成し、上記ルールデータ生成処理により生成したルールデータをそのフォルダへ書き込み、ルールデータの登録を行う。なお、上記ルールデータとともにそのルールデータの生成元データである文書画像データを上記フォルダに書き込むようにしても良いことは勿論である。
以上に説明した動作が為される結果、本実施形態に係る複合機10によれば、電子化対象である紙文書の種別をその記載項目や記載項目のレイアウトに基づいて特定するためのルールデータがその紙文書を表す文書画像データにレイアウト解析および文字種別解析を施すことによって自動的に生成され、複合機10の不揮発性記憶部160bに登録されることになる。これにより、ルールデータを生成する際に、各紙文書の記載項目の変更の有無やそのレイアウトの変更の有無を逐一確認するといった手間を省くことが可能になる、といった効果を奏する。
さて、本動作例においては、図3(a)に示す「書籍注文票」についてのルールデータの登録が完了すると、図3(b)に示す「書籍注文票」の画像が画像読取部130によって読み取られ、文書画像データBが入力される。以下、この文書画像データBに対して制御部110が行うルールデータ生成処理およびルールデータ登録処理について図面を参照しつつ説明する。
まず、ルールデータ生成処理について説明する。
文書画像データBに対して制御部110が行うルールデータ生成処理は、ルールデータAの生成の際に行ったルールデータ生成処理(図2参照)と同一である。具体的には、制御部110は、画像読取部130によって文書画像データBが入力されると(図2:ステップSA100)、その文書画像データBに対してレイアウト解析(ステップSA110)および文字種別解析(ステップSA120)を施してその文書画像データBの表す紙文書に記載されている属性文字列の階層構造を特定し(ステップSA130)、その階層構造を表すルールデータを生成する(ステップSA140)。前述したように、本実施形態では、紙文書に記載されている属性文字列の階層構造を表すルールデータとしてXMLSchemaが生成されるのであるから、図3(b)に示す「書籍注文票」に対応する文書画像データBに対しては、図7に示すXMLSchemaが上記ルールデータとして生成されるこのとになる。以下では、図7に示すXMLSchemaを「ルールデータB」と称する。
次いで、ルールデータBの登録を行う際に制御部110が行うルールデータ登録処理について説明する。
前述したように、制御部110は、上記ルールデータ生成処理にて生成したルールデータBについて図6に示すルールデータ登録処理を実行し、その登録を行う。ただし、ルールデータBの登録の際には、前述したルールデータAが不揮発性記憶部160bに既に登録されているため、ステップSB100の判定結果は“Yes”になり、ステップSB110以降の処理が実行されることになる。
ステップSB100の判定結果が“Yes”である場合に後続して実行されるステップSB110においては、制御部110は、前述したルールデータ生成処理にて新たに生成したルールデータ(本動作例では、ルールデータB)との類似の度合いを判定する。そして、制御部110は、その類似の度合いが所定の閾値以下であるルールデータ(以下、類似ルールデータ)が既に登録されているか否かを判定する(ステップSA120)。具体的には、制御部110は、前述したルールデータ生成処理にて生成したルールデータに含まれている属性文字列とは異なる属性文字列の個数が所定の閾値(例えば、3)以下であるルールデータを上記類似ルールデータとして、その登録の有無を判別する。
なお、本実施形態では、ルールデータ生成処理にて生成したルールデータに含まれている属性文字列とは異なる属性文字列の個数が所定の閾値(例えば、3)以下であるルールデータを類似ルールデータとする場合について説明したが、属性文字列の記載位置や記載順序が異なっていること(すなわち、異なるレイアウト)を表すルールデータを上記類似ルールデータとしても良いことは勿論である。
また、本実施形態では、ステップSB100の判定結果が“Yes”である場合には、類似ルールデータが既登録であるか否かを判定する場合について説明したが、類似ルールデータの登録の有無を判定することに先立って、ルールデータ生成処理にて生成したルールデータと同一のルールデータが既登録であるか否かを判定し、同一のルールデータが登録されていないと判定された場合に上記ステップSB110の処理を実行するようにしても良い。なお、同一のルールデータが既登録である場合には、以降の処理(ステップSB110〜ステップSB150)を一切実行する必要がないことは言うまでもない。
ステップSB120の判定結果が“No”である場合(すなわち、類似するルールデータが登録されていないと判定した場合)には、制御部110は前述したステップSB160の処理(すなわち、新たなフォルダの作成、および、そのフォルダへのルールデータの書き込み)を実行し、ルールデータの登録を行う。逆に、ステップSB120の判定結果が“Yes”である場合(すなわち、類似するルールデータが登録されていると判定した場合)には、制御部110は、その旨を示すメッセージをUI部120に表示させ(ステップSB130)、新たに生成したルールデータとそのルールデータに類似するルールデータとを同一ルールを表すルールデータとして登録するか否かをユーザに問い合わせる。
本動作例では、図3(a)に示す「書籍注文票」と図3(b)に示す「書籍注文票」とを比較すれば明らかように、両者は、以下の2つの点のみが異なっている。すなわち、図3(a)における記載項目“書名”が図3(b)では“書籍名”に変更されている点と、図3(b)に示す「書籍注文票」では、図3(a)に示す「書籍注文票」にはない記載項目“ISBN”が設けられている点とである。したがって、図5に示すルールデータAと図7に示すルールデータBとでは、上記2つの点のみが異なっており、ステップSB120の判定結果は“Yes”になる。このため、本実施形態では、上記ステップSB130の処理が実行されることになる。
ステップSB130にてUI部120に表示されたメッセージ(すなわち、新たに生成したルールデータに類似するルールデータが既登録であることを通知する旨のメッセージ)を視認したユーザは、UI部120に設けられている操作子を適宜操作して、両者を同一ルールデータとして登録すること、あるいは、両者を互いに異なるルールを表すルールデータとして登録すること、の何れか一方の指示を入力することができる。なお、本動作例では、上記メッセージを視認したユーザは、両者を同一ルールデータとして登録することを指示する旨の入力を行うものとする。
一方、UI部120設けられている操作子を操作することによって入力された指示は、操作内容に応じてUI部120から引き渡される操作内容データによって制御部110へ伝達される。制御部110は、UI部120から引き渡された操作内容データを解析することによって、両者を同一ルールデータとして登録する旨の指示が入力されたのか否かを判定(ステップSB140)することができる。
ステップSB140の判定結果が“No”である場合(すなわち、両者を互いに異なるルールを表すルールデータとして登録する旨の指示が入力されたと判定した場合)には、前述したステップSB160の処理を実行して本ルールデータ登録処理を終了する。逆に、ステップSB140の判定結果が“Yes”である場合(すなわち、両者を同一ルールを表すルールデータとして登録する旨の指示が入力されたと判定した場合)には、制御部110は、ステップSB150の処理を実行する。前述したように、本動作例では、両者を同一のルールを表すルールデータとして登録することを指示する旨の入力が為されたのであるから、ステップSB140の判定結果は“Yes”になり、ステップSB150の処理が実行されることになる。
ステップSB140の判定結果が“Yes”である場合に後続して実行されるステップSB150においては、制御部110は、互いに類似するルールデータを合成し新たなルールデータを生成する。具体的には、制御部110は、ルールデータAとルールデータBとを比較して、その共通部分を抽出して新たなルールデータC(図5および図7の網掛け部分を除いたルールデータ)を生成する。そして、制御部110は、上記ステップSB150にて生成した新たなルールデータ(すなわち、ルールデータC)で不揮発性記憶部160bに登録されているルールデータAを上書きしてルールデータCの登録を行う(ステップSB160)。
以上に説明したように、本実施形態に係る複合機10によれば、電子化対象である紙文書を表す文書画像データからその紙文書の種別を特定するためのルールデータが生成され、さらに、生成したルールデータに対して類似ルールデータが既登録である場合には、その両者の共通部分を表す新たなルールデータを合成し、その新たなルールデータが登録される。このようにして合成されたルールデータの表す階層構造を含んでいる文書画像データを同種の文書を表す文書画像データと分類することによって、記載項目の階層構造の類似度が所定の閾値以下である紙文書(すなわち、互いに類似する紙文書)を同一グループに分類して電子化することが可能になる。また、本実施形態に係る複合機10によれば、ルールデータを生成する際、ルールデータの登録および合成を行う際に、電子化対象の紙文書の記載内容をユーザが確認する必要はなく、ルールデータを生成、登録および合成にかかる手間を省くことが可能になるといった効果を奏する。
そして、上記のようにしてルールデータの生成および登録を行った後に、紙文書の電子化を行えば、その紙文書の種別を登録済みのルールデータに基づいて特定し、その特定結果に対応するフォルダにその紙文書を表す文書画像データを書き込み蓄積することによって、紙文書をその種別毎に分類しつつ電子化することが可能になる。
(C.変形例)
以上、本発明の1実施形態について説明したが、係る実施形態を以下のように変形しても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、類似ルールデータが既に登録されていると判定した場合に、ユーザにその旨を通知し、同一のルールを表すルールデータとして登録することをユーザに指示された場合に、ルールデータの合成を行う場合について説明したが、類似ルールデータが既に登録されていると判定した場合には無条件にルールデータの合成を行うようにしても勿論良い。
(C−2:変形例2)
上述した実施形態では、ルールデータ生成処理により生成したルールデータとの類似の度合いが所定の閾値以下である類似ルールデータが既登録である場合に、ルールデータ生成処理により生成したルールデータと類似ルールデータとの共通部分から新たなルールデータを生成し、その新たなルールデータで上記類似ルールデータを書き換える場合について説明した。しかしながら、上記共通部分から生成される新たなルールデータの他に、そのルールデータとルールデータ生成処理により生成したルールデータとの相違部分を表す相違部分データや、そのルールデータと既登録のルールデータとの相違部分を表す相違部分データを書き込むようにしても良い。具体的には、図8(a)に示すように、ルールデータAを表す識別子(図8(a)では、“識別子A”)に対応付けてルールデータAとルールデータCとの相違部分(すなわち、図5における網掛け部分)を表す相違データが書き込まれているとともに、ルールデータBを表す識別子(図8(a)では、“識別子B”)に対応付けてルールデータBとルールデータCとの相違部分(すなわち、図7における網掛け部分)を表す相違データが書き込まれた相違部分管理テーブルをルールデータCと同一フォルダに書き込むようにしても良い。
また、上記のように新たなルールデータを合成することに替えて、ルールデータ生成処理により生成されたルールデータと既登録の類似ルールデータとの相違部分を表す相違部分データが書き込まれた相違部分管理テーブル(図8(b)参照)のみをその類似ルールデータの属するフォルダに書き込むようにしても良い。例えば、図8(b)は、ルールデータ生成処理にて上述したルールデータBが生成され、そのルールデータBに対する類似ルールデータであるルールデータAが不揮発性記憶部160bに既に格納されている場合に生成される相違部分管理テーブルの一例を示す図である。図8(b)に示すように、この相違部分管理テーブルには、ルールデータBを識別するための識別子に対応付けて、ルールデータAの属性文字列に対応するルールデータBの属性文字列のうち、その両者で互いに異なっているものが格納されている。なお、図8にて類似属性“ISBN”に対応付けられている属性文字列“NULL”は、“ISBN”に対応する属性文字列が、類似ルールデータ(すなわち、ルールデータA)に含まれていないことを表している。このようにすると、既登録の類似ルールデータとその類似ルールデータと同一フォルダに格納されている相違管理テーブルの格納内容とから上記生成手段により生成されたルールデータを再度生成することが可能であるから、上記生成手段により生成されたルールデータを上記類似ルールデータと同一グループに分類して登録した場合と実質的に等価になる。なお、ルールデータ生成処理にて生成されたルールデータそのものを既登録の類似ルールデータと同一フォルダに書き込むようにしても良いことは言うまでもない。要は、類似の度合いが所定の閾値以下であるルールデータが同一のフォルダに分類されて書き込まれる態様であれば何れであっても良い。
(C−3:変形例3)
上述した実施形態では、電子化対象である紙文書を表す文書画像データを複合機10へ入力するための画像読取部130をその複合機10と一体のハードウェアで構成する場合について説明した。しかしながら、文書画像データを入力するための画像読み取り手段と、その文書画像データについて図2に示すルールデータ生成処理および図6に示すルールデータ登録処理を施す文書処理装置とを別体のハードウェアで構成しても良いことは勿論である。また、本実施形態では、スキャナ機能を備えた画像読み取り部から入力された文書画像データを処理対象とする場合について説明したが、通信IF部140を介して受信した文書画像データを処理対象としても良いことは勿論である。この場合、通信IF部140が、処理対象文書を表す文書画像データを入力するための入力手段として機能することになる。
また、上述した実施形態では、スキャナ機能、プリンタ機能およびファクシミリ機能を兼ね備えた複合機に本発明を適用する場合について説明したが、本発明の適用対象は係る複合機に限定されるものではなく、入力された文書画像データから本発明に係るルールデータ生成方法(すなわち、図2に示すフローチャートの表すルールデータ生成方法)にしたがってルールデータを生成し、本発明に係るルールデータ登録方法(すなわち、図6に示すルールデータ登録方法)にしたがってそのルールデータを登録する文書処理装置であればどのような装置であっても良い。
(C−4:変形例4)
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部110に実現させるためのプログラムを複合機10の不揮発性記憶部160bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROMやDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記プログラムを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記プログラムをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
また、上述した実施形態では、本発明に係る文書処理装置に特徴的な機能をソフトウェアモジュールで実現する場合について説明したが、ハードウェアモジュールで実現するとしても良いことは勿論である。
本発明の1実施形態に係る複合機10のハードウェア構成の一例を示す図である。 同複合機10の制御部110が不揮発性記憶部160bに格納されているプログラムにしたがって実行するルールデータ生成処理の流れを示すフローチャートである。 複合機10により電子化の対象である紙文書の一例を示す図である。 電子化対象である紙文書の記載項目の親子関係の一例を示す図である。 ルールデータ生成処理にて制御部110が生成するルールデータの一例を示す図である。 同複合機10の制御部110が上記プログラムにしたがって行うルールデータ登録処理の流れを示すフローチャートである。 ルールデータ生成処理にて制御部110が生成するルールデータの一例を示す図である。 ルールデータ登録処理にて生成される相違部分管理テーブルの一例を示す図である。
符号の説明
10…複合機、110…制御部、120…UI部、130…画像読取部、140…通信IF部、150…印字部、160…記憶部、160a…揮発性記憶部、160b…不揮発性記憶部、170…バス。

Claims (5)

  1. 記憶手段と、
    文書を表す文書画像データが入力される入力手段と、
    前記入力手段へ入力された文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する特定手段と、
    前記入力手段へ入力された文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する判別手段と、
    前記特定手段により特定されたレイアウトおよび前記判別手段により判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成する生成手段と、
    前記生成手段により生成されたルールデータを前記記憶手段へ書き込む書き込み手段と
    を有することを特徴とする文書処理装置。
  2. 前記記憶手段には、複数の文書の各々について前記ルールデータが文書の種別毎に分類されて予め書き込まれており、
    前記生成手段により生成されたルールデータとの類似の度合いが所定の閾値以下である類似ルールデータが前記記憶手段に記憶されているか否かを判定する判定手段を備え、
    前記書込み手段は、
    類似ルールデータが前記記憶手段に記憶されていると前記判定手段により判定された場合に、前記生成手段により生成されたルールデータをその類似ルールデータと同一グループに分類して書き込む
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 前記生成手段により生成されたルールデータと前記類似ルールデータとを比較し、両者の共通部分を抽出する抽出手段を備え、
    前記書込み手段は、
    前記生成手段により生成されたルールデータを前記記憶手段へ書き込むことに替えて、前記記憶手段に記憶されている類似ルールデータを、前記抽出手段により抽出された共通部分から生成される新たなルールデータで書き換える
    ことを特徴とする請求項2に記載の文書処理装置。
  4. 紙文書を表す文書画像データをその紙文書の記載項目の階層構造に基づいて分類して記憶する文書処理装置に、該文書画像データを分類するためのルールデータを生成させるルールデータ生成方法において、
    文書画像データを受取る第1のステップと、
    前記第1のステップにて受取った文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する第2のステップと、
    前記第1のステップにて受取った文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する第3のステップと、
    前記第2のステップにて特定されたレイアウトおよび前記第3のステップにて判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成して記憶する第4のステップと、
    を前記文書処理装置に実行させることを特徴とするルールデータ生成方法。
  5. コンピュータ装置に、
    紙文書を表す文書画像データをその紙文書の記載項目の階層構造に基づいて分類するためのルールデータを生成させるプログラムにおいて、
    文書画像データを受取る第1のステップと、
    前記第1のステップにて受取った文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する第2のステップと、
    前記第1のステップにて受取った文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する第3のステップと、
    前記第2のステップにて特定されたレイアウトおよび前記第3のステップにて判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成して記憶する第4のステップと、
    を前記コンピュータ装置に実行させることを特徴とするプログラム。
JP2005236982A 2005-08-17 2005-08-17 文書処理装置、ルールデータ生成方法およびプログラム Expired - Fee Related JP4682747B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005236982A JP4682747B2 (ja) 2005-08-17 2005-08-17 文書処理装置、ルールデータ生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005236982A JP4682747B2 (ja) 2005-08-17 2005-08-17 文書処理装置、ルールデータ生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2007052615A true JP2007052615A (ja) 2007-03-01
JP4682747B2 JP4682747B2 (ja) 2011-05-11

Family

ID=37917025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005236982A Expired - Fee Related JP4682747B2 (ja) 2005-08-17 2005-08-17 文書処理装置、ルールデータ生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4682747B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093473A (ja) * 2007-10-10 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 図形変化装置、図形変化方法、コンピュータプログラム及び記録媒体
JP2017073076A (ja) * 2015-10-09 2017-04-13 株式会社東芝 行動判定装置及び行動判定方法
JP2020013281A (ja) * 2018-07-17 2020-01-23 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
US11960530B2 (en) 2019-05-31 2024-04-16 Pfu Limited File management device, file management method, and non-transitory computer readable medium
US11971852B2 (en) 2019-05-31 2024-04-30 Pfu Limited File management device, file management method, and non-transitory computer readable medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JPH10111899A (ja) * 1996-10-08 1998-04-28 Oki Electric Ind Co Ltd 帳票識別装置及び帳票処理システム
JP2003030672A (ja) * 2001-07-11 2003-01-31 Canon Inc 帳票認識装置、方法、プログラムおよび記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JPH10111899A (ja) * 1996-10-08 1998-04-28 Oki Electric Ind Co Ltd 帳票識別装置及び帳票処理システム
JP2003030672A (ja) * 2001-07-11 2003-01-31 Canon Inc 帳票認識装置、方法、プログラムおよび記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093473A (ja) * 2007-10-10 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 図形変化装置、図形変化方法、コンピュータプログラム及び記録媒体
JP2017073076A (ja) * 2015-10-09 2017-04-13 株式会社東芝 行動判定装置及び行動判定方法
JP2020013281A (ja) * 2018-07-17 2020-01-23 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP7122896B2 (ja) 2018-07-17 2022-08-22 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
US11960530B2 (en) 2019-05-31 2024-04-16 Pfu Limited File management device, file management method, and non-transitory computer readable medium
US11971852B2 (en) 2019-05-31 2024-04-30 Pfu Limited File management device, file management method, and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP4682747B2 (ja) 2011-05-11

Similar Documents

Publication Publication Date Title
US8634100B2 (en) Image forming apparatus for detecting index data of document data, and control method and program product for the same
JP5517401B2 (ja) 画像処理装置、ワークフロー登録方法及びプログラム
JP5239423B2 (ja) 情報処理装置,情報処理方法,プログラム,および記録媒体
US11144189B2 (en) Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas
JP4682747B2 (ja) 文書処理装置、ルールデータ生成方法およびプログラム
JP2007036406A (ja) 画像編集装置
JP2010262584A (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
JP5761237B2 (ja) 情報表示装置及び情報編集方法並びに情報編集プログラム
JP5565130B2 (ja) 縮小画像生成装置及びプログラム
JP5077105B2 (ja) 画像処理装置、画像処理プログラム及び画像処理システム
JP2008044174A (ja) 印刷装置、印刷装置の制御用コンピュータのプログラム、及び印刷装置の制御方法
JP2020204905A (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP6135360B2 (ja) 情報機器およびコンピュータープログラム
JP7404943B2 (ja) 情報処理装置及び情報処理プログラム
JP7422471B2 (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
JP7271987B2 (ja) 情報処理装置及びプログラム
JP4696745B2 (ja) 文書処理装置及びプログラム
JP4192611B2 (ja) 文書管理プログラム、文書管理装置、および文書管理方法
JP6544985B2 (ja) Faxデータ管理システム、faxデータ管理方法、及びプログラム
JP5233213B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP5772130B2 (ja) 処理装置及びプログラム
JP2016076126A (ja) 画像処理装置、操作支援方法、および操作支援プログラム
JP2007316998A (ja) 文書管理システム
JP2007087043A (ja) 文書処理方法及びそのシステム
JP2003316542A (ja) プリントシステム、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees