JP2006072513A - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP2006072513A
JP2006072513A JP2004252844A JP2004252844A JP2006072513A JP 2006072513 A JP2006072513 A JP 2006072513A JP 2004252844 A JP2004252844 A JP 2004252844A JP 2004252844 A JP2004252844 A JP 2004252844A JP 2006072513 A JP2006072513 A JP 2006072513A
Authority
JP
Japan
Prior art keywords
document
feature amount
appearance
data
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004252844A
Other languages
English (en)
Inventor
Tsuguaki Ryu
紹明 劉
Kiyoshi Tashiro
潔 田代
Hiroshi Masuichi
博 増市
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Atsushi Ito
篤 伊藤
Naoko Sato
直子 佐藤
Kyosuke Ishikawa
恭輔 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004252844A priority Critical patent/JP2006072513A/ja
Publication of JP2006072513A publication Critical patent/JP2006072513A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 類似した体裁を有する文書の分類精度を向上させる技術を提供する。
【解決手段】 文書を電子化した文書データが文書処理装置に入力された場合に、その文書データを解析させ、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出させる。次いで、上記文書処理装置に、上記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を上記体裁データに基づいて算出させる一方、予め定められた複数の単語の各々について上記文書に記載されている文字列内での出現頻度を上記文字列データに基づいて算出させ、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出させる。そして、上記体裁特徴量と上記意味特徴量とに基づいて、上記文書データを所定のアルゴリズムにしたがって分類させる。
【選択図】 図3

Description

紙文書を電子化して蓄積する技術に関し、特に、紙文書の記載内容に基づいて電子化対象の紙文書を分類する技術に関する。
紙文書(以下、単に「文書」ともいう)は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。
このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ(以下、「文書画像データ」と呼ぶ)を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるようになってきている。
ところで、上記ファイルをハードディスクなどに保存する場合には、各ファイルに対応する文書の種類や内容に応じて分類して保存(すなわち、同一種類の文書に対応するファイルは同一のディレクトリに格納するなど)しておくと便利であり、このようなことを可能にする技術が種々提案されている。例えば、非特許文献1や2には、分類対象の文書に記載された文章の意味内容の特徴を表す特徴量(以下、意味特徴量)を用いてサポートベクトルマシンアルゴリズム(以下、SVMアルゴリズム)にしたがって文書を分類する技術が開示されている。また、特許文献1には、分類対象の文書の体裁(以下、フォーマットともいう)に着目してその文書を分類する技術が開示されている。より詳細に説明すると、特許文献1に開示された技術では、まず、分類対象の文書画像データを解析し、分類対象の文書におけるテキストや、図形、表(以下、オブジェクトともいう)などの記載位置を各オブジェクトの種別毎に特定する。次いで、予め定められた体裁を有する参照文書における各オブジェクトの記載位置と分類対象の文書における各オブジェクトの記載位置とを比較することによって、後者の体裁を特定し、その特定結果に基づいて分類を行う技術が開示されている。そして、特許文献2には、上記特許文献1と同様にして特定される文書の体裁と、その文書についての上記意味特徴量とを併用して分類を行う技術が開示されている。
"テキスト分類―学習理論の「見本市」―"、情報処理、vol42、no.1、2001 "Support Vector Machineによるテキスト分類"、1998、自然言語処理、128-24 特開2000−259669号公報 特開2000−268040号公報
しかしながら、特許文献1に開示された技術のように、各オブジェクトの記載位置に基づいて分類を行う技術では、高精度の分類を行うことができない、といった問題がある。また、非特許文献1や2に開示された技術のように、意味特徴量のみに基づいて文書の分類を行う技術では、意味特徴量が近似する2つの文書について、その体裁が異なっているか否かに拘わらず同一の種類の文書であると分類されてしまう、といった問題がある。これに対して、特許文献2に開示された技術は、特許文献1と同様にして特定される文書の体裁と、その文書についての意味特徴量とを併用することによって、非特許文献1や2に開示された技術の問題を解消しようとするものである。しかしながら、特許文献2に開示された技術では、上述の如く各オブジェクトの記載位置に基づいて文書の体裁を判別しているため、その分類対象の文書が明らかに異なる体裁を有している場合には適するが、類似した体裁を有する文書についてはその分類精度が低く、誤判断が発生し易くなってしまう、といった問題がある。そして、この問題点は、分類対象の文書が表形式で記載されている場合に特に顕著になってしまう虞がある。何故ならば、表形式で記載された文書の体裁は類似したものになってしまうことが一般的だからである。
本発明は、上記課題に鑑みて為されたものであり、類似した体裁を有する文書の分類精度を向上させる技術を提供することを目的としている。
上記課題を解決するために、本発明は、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第1の特徴量算出手段と、予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第2の特徴量算出手段と、前記第1の特徴量算出手段により算出された体裁特徴量と前記第2の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力手段へ入力された文書データを所定のアルゴリズムにしたがって分類する分類手段とを有する文書処理装置を提供する。
また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第1の特徴量算出手段と、予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第2の特徴量算出手段と、前記第1の特徴量算出手段により算出された体裁特徴量と前記第2の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力された文書データを所定のアルゴリズムにしたがって分類する分類手段として機能させるプログラムを提供する。また、本発明の別の態様にあっては、コンピュータ装置読取可能な記録媒体に上記プログラムを記録して提供するとしても良い。
このような文書処理装置およびプログラムによれば、分類対象の文書に記載されている各単語の出現頻度の分布に基づいて定まる意味特徴量と、その文書に記載されている枠線または罫線または図形を表す体裁特徴量とに基づいて、その文書に対応する文書データが分類される。
より好ましい態様においては、前記入力手段へ入力された文書データに対応する文書の用紙サイズを該文書データに基づいて特定する特定手段を備え、前記第1の特徴量算出手段は、前記特定手段により特定された用紙サイズで規格化して前記体裁特徴量を算出することを特徴とする。このような態様にあっては、文書の用紙サイズが異なることに起因して体裁特徴量の値が異なったものになることが回避され、同一の意味内容および体裁を有し、かつ、互いに異なるサイズの用紙に印字された文書を分類する際に誤判断が発生することを回避することができる、といった効果を奏する。
より好ましい態様においては、前記第2の特徴量算出手段は、前記文書に記載されている文字列を構成する単語の各々の出現頻度を、該単語の数または出現頻度の最高値または前記文字列に含まれている単語の総数または上記予め定められた単語の数で規格化して前記意味特徴量を算出することを特徴とする。このような態様にあっては、記載されている単語数の異なる文書の意味内容を比較することが可能になる、といった効果を奏する。
より好ましい態様においては、前記体裁特徴量は、前記体裁データに基づいて算出されるペリフェラル特徴量、ストローク特徴量またはメッシュ特徴量の少なくとも1つである
ことを特徴とする。上記ペリフェラル特徴量やストローク特徴量、メッシュ特徴量は、何れも、文書に記載されている枠線、罫線および図形の特徴を正確に反映する特徴量であるから、このような態様にあっては、各オブジェクトの記載位置に基づいて分類を行う場合に比較して、体裁による分類精度を向上させることができる、といった効果を奏する。
本発明によれば、分類対象の文書の意味内容に応じた意味特徴量とその文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量とに基づいて分類が行われるため、以下の効果を奏する。すなわち、分類対象の文書が表形式の文書であっても、その意味内容(すなわち、各文書に記載されている単語の出現頻度の分布)が大きく異なっている場合には、その意味内容に基づいて正しく分類される。また、分類対象の文書の意味内容が近似している場合であっても、上記体裁特徴量に基づいて分類が行われるため、各オブジェクトの記載位置に基づいて分類を行う場合に比較してその分類精度を向上させることができる。また、本発明においては、上記体裁特徴量は分類対象の文書に記載されている枠線または罫線または図形の特徴を表しているため、罫線が多数記載されている表形式の文書を分類する際の分類精度を向上させることができる。
以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
(A:構成)
図1は、本発明の1実施形態に係る文書処理装置110を有する文書電子化システム10の構成例を示すブロック図である。図1の画像読取装置120は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ読み取り、読み取った画像に対応する文書画像データをLAN(Local Area Network)などの通信線130を介して文書処理装置110へ引渡すものである。なお、本実施形態では、通信線130がLANである場合について説明するが、WAN(Wide Area Network)やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置110と画像読取装置120とを夫々個別のハードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線130は、係るハードウェア内で文書処理装置110と画像読取装置120とを接続する内部バスである。
図1の文書処理装置110は、画像読取装置120から引渡された文書画像データをファイル化して記憶し蓄積するものであり、図2に示す構成を有している。図2に示されているように、文書処理装置110は、制御部200と、通信インターフェイス(以下、IF)部210と、記憶部220と、これら各構成要素間のデータ授受を仲介するバス230と、を備えている。
制御部200は、例えばCPU(Central Processing Unit)であり、後述する記憶部220に記憶されている各種ソフトウェアを実行することによって、文書処理装置110の各部を制御するものである。通信IF部210は、通信線130を介して画像読取装置120に接続されており、この通信線130を介して画像読取装置120から送られてくる文書画像データを受取り、制御部200へ引渡すものである。つまり、この通信IF部210は、画像読取装置120から送られてくる文書画像データが入力される入力手段として機能する。
記憶部220は、図2に示されているように、揮発性記憶部220aと不揮発性記憶部220bとを含んでいる。揮発性記憶部220aは、例えばRAM(Random Access Memory)であり、後述する各種ソフトウェアにしたがって作動している制御部200によってワークエリアとして利用される。一方、不揮発性記憶部220bは、例えば、ハードディスクであり、上記文書画像データを文書の種類毎に異なる記憶領域(例えば、ディレクトリ)へ格納し蓄積するためのものである。なお、本実施形態では、文書処理装置110へ入力された文書画像データを文書の種類毎に分類して、その文書処理装置110に備えられている記憶部へ格納する場合について説明するが、この文書処理装置110とは別体の記憶装置に上記文書画像データとその文書の種類を表すデータとを対応付けて送信し、その種類毎に格納させるようにしても良い。
また、不揮発性記憶部220bには、本実施形態に係る文書処理装置110に特有な機能を制御部200に実現させるためのソフトウェアが格納されている。不揮発性記憶部220bに格納されているソフトウェアの一例としては、オペレーティングシステム(Operating System 以下、「OS」)を制御部200に実現させるためのOSソフトウェアや、紙文書電子化ソフトウェアが挙げられる。ここで、紙文書電子化ソフトウェアとは、画像読取装置120から送られた文書画像データを不揮発性記憶部220bへ格納する際に、その文書画像データに対応する文書の種類毎に分類して格納する処理を制御部200に実行させるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部200に付与される機能について説明する。
文書処理装置110の電源(図示省略)が投入されると、制御部200は、まず、OSソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。OSソフトウェアにしたがって作動しOSを実現している状態の制御部200には、文書処理装置110の各部を制御する機能や、他のソフトウェアを不揮発性記憶部220bから読み出して実行する機能などが付与される。本実施形態では、上記OSソフトウェアの実行を完了し、OSを実現している状態の制御部200は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。図3は、紙文書電子化ソフトウェアにしたがって作動している制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図3に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部200には、以下に述べる4つの機能が付与される。
第1に、通信IF部210を介して文書画像データが入力された場合に、該文書画像データを解析し、その文書画像データに対応する文書に記載されている文字列を表す文字列データとその文書に記載されている枠線または罫線または図形を表す体裁データとを抽出する抽出機能である。より詳細に説明すると、上記紙文書電子化ソフトウェアにしたがって作動している制御部200は、上記文書画像データに対応する文書に記載されている文字列をOCR(Optical Character Recognition)などによって読み取り、上記文字列データを抽出する一方、上記文書画像データから上記文字列の画像に対応する画像データを削除して上記体裁データを抽出する。このように、上記文書画像データから上記文字列データと上記体裁データとを抽出し、その文書画像データに対応する文書に記載されている文字列を表すデータと、その文書の体裁を表すデータとに分離する理由は、上記文書の意味内容に応じた特徴量(すなわち、意味特徴量)とその文書に記載されている枠線または罫線または図形などその文書の体裁の特徴に応じた特徴量(すなわち、体裁特徴量)の各々を正確に抽出することができるようにするためである。
上記紙文書電子化ソフトウェアにしたがって作動している制御部200に付与される第2の機能は、上記抽出機能により抽出された体裁データに基づいて上記体裁特徴量を算出する第1の特徴量算出機能である。より詳細に説明すると、本実施形態では、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量の3つの特徴量を図4に示すように配列して成るベクトルとして上記体裁特徴量を算出する。詳細については後述するが、ペリフェラル特徴量とストローク特徴量とは、主に、文書に記載されている枠線や罫線についての特徴を表す特徴量であり、メッシュ特徴量は、主に、文書に記載されている図形の特徴を表す特徴量である。なお、本実施形態では、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量を図4に示すように配列して体裁特徴量を算出する場合について説明するが、これらの配列順は図4に示す順に限定されるものではない。また、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量の少なくとも1つで体裁特徴量を構成するとしても良く、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量以外の特徴量を用いるとしても勿論良い。要は、文書に記載されている枠線または罫線または図形の特徴を反映した特徴量であれば何れであっても良い。
上記紙文書電子化ソフトウェアにしたがって作動している制御部200に付与される第3の機能は、予め定められた複数の単語(例えば、予め定められた十万個の単語)の各々について、上記抽出機能により抽出された文字列データの表す文字列内での出現頻度を算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第2の特徴量算出機能である。本実施例では、上記意味特徴量として、上記予め定められた複数の単語の出現頻度を所定の順に配列して成るベクトル(すなわち、各単語の出現頻度の分布を表すデータ)を用いる場合について説明する。例えば、上記予め定められた複数の単語が、(“愛”、“逆転”、“国会”、“ホームラン”)の4つの単語であり、文字列データの表す文字列が“最終回に逆転満塁ホームランが飛び出した”である場合には、意味特徴量として(0、1、0、1)が算出される。なお、本実施形態では、上記意味特徴量として、上記予め定められた複数の単語の各々の出現頻度を配列して成るベクトルを用いる場合について説明するが、上記出現頻度に替えて各単語の出現確率(数1参照)やTF・IDF値(数2参照)を配列して成るベクトルを用いるようにしても勿論良い。要は、上記予め定められた複数の単語の出現頻度の分布を表すデータであれば何れであっても良い。
(数1) TFi/NW
(数2) TFi×log(N/DFi)
なお、上記数1および数2において、TFiは上記予め定められた複数の単語のうちの単語iの出現頻度である。また、数1のNWは上記予め定められた単語の総数である。また、数2のNは、上記予め定められた単語を抽出する際に用いられた文字列の総数であり、DFiは、それら文字列のうち単語iを含む文字列の総数である。そして、数2のlog()は常用対数である。
そして、上記紙文書電子化ソフトウェアにしたがって作動している制御部200に付与される第4の機能は、第1の特徴量算出機能により算出された体裁特徴量と第2の特徴量算出機能により算出された意味特徴量とに基づいて、上記文書画像データを所定のアルゴリズムにしたがって分類する分類機能である。より詳細に説明すると、本実施形態では、上記所定のアルゴリズムとしてSVMアルゴリズム(なお、SVMアルゴリズムの詳細については、非特許文献1または非特許文献2参照)を利用する。これは、SVMアルゴリズムは他の分類アルゴリズムに比較して分類精度が高いからであるが、本発明に係る文書処理装置に適用可能な分類アルゴリズムはSVMアルゴリズムに限定されるものではなく、他の分類アルゴリズムであっても勿論良い。具体的には、上記SVMアルゴリズムに替えて、ベクトル空間法、k−最近隣接法、ナイーブベイズ法、決定木法、ブースティング法などを用いるようにしても良い。要は、上記体裁特徴量と上記意味特徴量とを併用して分類を行う態様であれば、その分類の際に用いるアルゴリズムは何れであっても良い。
以上に説明したように、本実施形態に係る文書処理装置110のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部220bに格納されている各種ソフトウェアにしたがって制御部200を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置120から文書画像データが入力される入力手段と、上記抽出機能を担っている抽出手段と、上記第1の特徴量算出機能を担っている第1の特徴量算出手段と、上記第2の特徴量算出機能を担っている第2の特徴量算出手段と、上記分類機能を担っている分類手段とを夫々ハードウェアモジュールで実現し、これらハードウェアモジュールを図3に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。
(B:動作)
次いで、文書処理装置110が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。
まず、ユーザが画像読取装置120のADFに紙文書をセットし、所定の操作(例えば、画像読取装置120の操作部に設けられている起動ボタンの押下など)を行うと、その紙文書の各ページに対応する画像が画像読取装置120によって読み取られ、各ページの画像に対応する文書画像データが通信線130を介して画像読取装置120から文書処理装置110へ送られる。
一方、文書処理装置110の制御部200は、通信IF部210を介して上記文書画像データが入力されると、その文書画像データを揮発性記憶部220aへ書き込み蓄積する。そして、制御部200は、揮発性記憶部220aに蓄積されたページ画像データに対して図3に示すフローチャートにしたがった紙文書電子化処理を施してそのページ画像データに対応する紙文書の種類を判別し、その種類毎に分類して不揮発性記憶部220bへ書き込み、上記紙文書を電子化する。以下、制御部200が行う動作について、図3を参照しつつ説明する。
図3は、制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図3に示されているように、制御部200は、まず、通信IF部210を介して入力された文書画像データを解析し、その文書画像データに対応する文書(すなわち、分類対象の文書)に記載されている文字列を表す文字列データと、その文書に記載されている枠線または罫線または図形を表す体裁データとを抽出する(ステップSA1)。
次いで、制御部200は、上記ステップSA1にて抽出した体裁データに基づいて、図4に示す体裁特徴量を算出する(ステップSA2)。具体的には、制御部200は、ステップSA1にて抽出した体裁データの表す画像を、図5(a)に示すようにその長手方向にL個の小領域に分割し、図5(b)に示すように各小領域をその両端から上記画像の短手方向に走査して黒く塗潰されたピクセルが表れるまでのピクセル数を算出し、各小領域についての算出結果を成分として有するベクトルとしてペリフェラル特徴量を算出する。このようにして算出されるペリフェラル特徴量は、枠線または罫線の記載位置を表している。また、上記ストローク特徴量は、図5(a)に示す各小領域を図5(c)に示すように走査してピクセルの色が白から黒へ変化した回数を集計し、各小領域についての集計結果を配列したベクトルとして算出される。つまり、このストローク特徴量は、文書に記載されている枠線または罫線の数を表している。本実施形態では、制御部200は、上記体裁データの表す画像を更に図5(d)に示すようにその短手方向にM個の小領域に分割し、図5(e)に示すように走査してペリフェラル特徴量を算出するとともに、図5(f)に示すように走査してストローク特徴量を算出する。その結果、本実施形態では、2(L+M)次元ベクトルであるペリフェラル特徴量と、(L+M)次元ベクトルであるストローク特徴量とが算出される。一方、メッシュ特徴量は、以下のようにして算出される。すなわち、制御部200は、上記体裁データに対応する画像を、図6(a)〜(d)に示すように分割位置を変えつつ小領域に分割し、これら各小領域について黒く塗潰されたピクセルの数を集計し、その集計結果を所定の順に配列したベクトルとして上記メッシュ特徴量を算出する。このメッシュ特徴量は、各小領域についての塗潰しの濃淡(すなわち、図形の有無)を表している。
次いで、制御部200は、上記ステップSA1にて抽出した文字列データに基づいて、前述した意味特徴量を算出する(ステップSA3)。具体的には、制御部200は、上記文字列データに形態素解析などを施してその文字列を構成する単語を抽出する。そして、制御部200は、予め定められた複数の単語の各々の出現頻度を上記形態素解析の解析結果に基づいて算出し、それら複数の単語の各出現頻度を所定の順に配列して上記意味特徴量を算出する。
そして、制御部200は、上記ステップSA2にて算出した体裁特徴量と上記ステップSA3にて算出した意味特徴量とを用い、上述したサポートベクトルマシーンアルゴリズムにしたがって上記文書画像データに対応する文書の種類を特定する(ステップSA4)。以降、制御部200は、上記文書画像データを上記ステップSA4にて特定された文書種類に応じたディレクトリに書き込み、文書分類処理を完了する。なお、本実施形態では、体裁特徴量の算出を行った後に、意味特徴量の算出を行う場合について説明したが、これらを逆順に行っても良いことは勿論である。
以上に説明したように、本実施形態に係る文書処理装置110によれば、分類対象の文書の意味内容に応じた意味特徴量とその文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量とに基づいて分類が行われるため、以下の効果を奏する。すなわち、分類対象の文書が表形式の文書であっても、その意味内容(すなわち、各文書に記載されている単語の出現頻度の分布)が大きく異なっている場合には、その意味内容に基づいて正しく分類される、といった効果を奏する。また、分類対象の文書の意味内容が近似している場合であっても、上記体裁特徴量に基づいて分類が行われるため、従来の如く各オブジェクトの記載位置に基づいて分類を行う場合に比較してその分類精度を向上させることができる、といった効果を奏する。特に、上記体裁特徴量として用いるペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量は、分類対象の文書に記載されている枠線または罫線または図形の特徴を正確に反映しているため、罫線が多数記載されている表形式の文書を分類する際の分類精度を向上させることができる、といった効果を奏する。
(C.変形)
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、紙文書の画像に対応する文書画像データに基づいて分類を行う場合について説明した。しかしながら、ワードプロセッサなどにより作成されたデータ(文書に記載されている文字の文字コードや改行コードなどがその記載順に配列されているとともに、枠線や罫線、図形を表す制御コードが配列されているデータ:以下、コードデータという)に基づいて、電子化対象の文書の分類を行うとしても良いことは勿論である。要は、紙文書に対応する文書データであれば、画像データであるかコードデータであるかは問わない。
(C−2:変形例2)
上述した実施形態では、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量を用いて体裁特徴量を構成する場合について説明した。しかしながら、このようにして算出される特徴量を文書の用紙サイズで規格化する(例えば、用紙サイズを表すピクセル数で除算する)としても良い。前述したように、ペリフェラル特徴量は、用紙の端部から枠線または罫線の位置までの距離を表しているため、同一の体裁を有する文書であってもその用紙サイズが異なっていれば、ペリフェラル特徴量の値は異なったものになってしまい、体裁が異なると誤判断される虞がある。上述したように、用紙サイズで規格化した体系特徴量を用いるようにすれば、上述の如き誤判断を回避することが可能になるといった効果を奏する。なお、このようなことを実現するためには、通信IF部210などの入力手段を介して入力された文書データに基づいてその文書データに対応する文書の用紙サイズを特定する特定手段を設けておけば良い。具体的には、文書データとして文書画像データが入力された場合には、その文書画像データの表す画像の大きさに基づいて上記用紙サイズを特定すれば良い。同様に、単語数の異なる文書について意味内容の比較を行うために、意味特徴量についても何らかの規格化を行うようにしても良い。このような規格化の一例としては、各文書についての意味特徴量を、予め定められた複数の単語の各々の出現頻度ではなく、各単語の出現頻度を文書に含まれている単語数やそれら単語の種類数で除算したり、その出現頻度の最高値で除算することが挙げられる。要は、上記予め定められた複数の単語の出現頻度の分布を反映していれば良く、どのような規格化を施しても良い。
(C−3:変形例3)
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのソフトウェアを不揮発性記憶部220bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROM(Compact Disk- Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
本発明の1実施形態に係る文書処理装置110を有する文書電子化システムの全体構成の一例を示す図である。 同文書処理装置110のハードウェア構成の一例を示す図である。 同文書処理装置110の制御部200が紙文書電子化ソフトウェアにしたがって行う分類処理の流れを示すフローチャートである。 同制御部200によって算出される体裁特徴量の一例を示す図である。 同制御部200によって抽出されるペリフェラル特徴量およびストローク特徴量を説明するための図である。 同制御部200によって抽出されるメッシュ特徴量を説明するための図である。
符号の説明
10…文書電子化システム、110…文書処理装置、120…画像読取装置、130…通信線、200…制御部、210…通信IF部、220…記憶部、220a…揮発性記憶部、220b…不揮発性記憶部。

Claims (5)

  1. 文書を電子化した文書データが入力される入力手段と、
    前記入力手段へ入力された文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、
    前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第1の特徴量算出手段と、
    予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第2の特徴量算出手段と、
    前記第1の特徴量算出手段により算出された体裁特徴量と前記第2の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力手段へ入力された文書データを所定のアルゴリズムにしたがって分類する分類手段と
    を有する文書処理装置。
  2. 前記入力手段へ入力された文書データに対応する文書の用紙サイズを該文書データに基づいて特定する特定手段を備え、
    前記第1の特徴量算出手段は、
    前記特定手段により特定された用紙サイズで規格化して前記体裁特徴量を算出する
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 前記第2の特徴量算出手段は、
    前記文書に記載されている文字列を構成する単語の各々の出現頻度を、該単語の数または出現頻度の最高値または前記文字列に含まれている単語の総数または前記予め定められた単語の数で規格化して前記意味特徴量を算出する
    ことを特徴とする請求項1に記載の文書処理装置。
  4. 前記体裁特徴量は、前記体裁データに基づいて算出されるペリフェラル特徴量、ストローク特徴量またはメッシュ特徴量の少なくとも1つである
    ことを特徴とする請求項1に記載の文書処理装置。
  5. コンピュータ装置を、
    文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、
    前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第1の特徴量算出手段と、
    予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第2の特徴量算出手段と、
    前記第1の特徴量算出手段により算出された体裁特徴量と前記第2の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力された文書データを所定のアルゴリズムにしたがって分類する分類手段
    として機能させるプログラム。
JP2004252844A 2004-08-31 2004-08-31 文書処理装置およびプログラム Pending JP2006072513A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004252844A JP2006072513A (ja) 2004-08-31 2004-08-31 文書処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004252844A JP2006072513A (ja) 2004-08-31 2004-08-31 文書処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2006072513A true JP2006072513A (ja) 2006-03-16

Family

ID=36153108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004252844A Pending JP2006072513A (ja) 2004-08-31 2004-08-31 文書処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2006072513A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096086A (ja) * 2012-11-12 2014-05-22 Hitachi Solutions Ltd 文書分類システムおよび方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096086A (ja) * 2012-11-12 2014-05-22 Hitachi Solutions Ltd 文書分類システムおよび方法

Similar Documents

Publication Publication Date Title
US8155444B2 (en) Image text to character information conversion
US7188309B2 (en) Resolving document object collisions
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20060285748A1 (en) Document processing device
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
MXPA04005725A (es) Procedimiento para anotacion de tinta digital y sistema para reconocer, anclar y re-fluir anotaciones de tinta digital.
US8208726B2 (en) Method and system for optical character recognition using image clustering
US20060062492A1 (en) Document processing device, document processing method, and storage medium recording program therefor
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP4261988B2 (ja) 画像処理装置及び方法
JP4232679B2 (ja) 画像形成装置およびプログラム
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2006065477A (ja) 文字認識装置
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
JP4983526B2 (ja) データ処理装置及びデータ処理プログラム
JP2008282149A (ja) 画像処理装置、画像処理方法、画像処理プログラム
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2006072513A (ja) 文書処理装置およびプログラム
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP7246610B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP7252818B2 (ja) デジタル文書からのデータ抽出システム
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method