JP2006072513A

JP2006072513A - 文書処理装置およびプログラム

Info

Publication number: JP2006072513A
Application number: JP2004252844A
Authority: JP
Inventors: Tsuguaki Ryu; 紹明劉; Kiyoshi Tashiro; 潔田代; Hiroshi Masuichi; 博増市; Michihiro Tamune; 道弘田宗; Masatoshi Tagawa; 昌俊田川; Atsushi Ito; 篤伊藤; Naoko Sato; 直子佐藤; Kyosuke Ishikawa; 恭輔石川
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-08-31
Filing date: 2004-08-31
Publication date: 2006-03-16

Abstract

【課題】類似した体裁を有する文書の分類精度を向上させる技術を提供する。
【解決手段】文書を電子化した文書データが文書処理装置に入力された場合に、その文書データを解析させ、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出させる。次いで、上記文書処理装置に、上記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を上記体裁データに基づいて算出させる一方、予め定められた複数の単語の各々について上記文書に記載されている文字列内での出現頻度を上記文字列データに基づいて算出させ、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出させる。そして、上記体裁特徴量と上記意味特徴量とに基づいて、上記文書データを所定のアルゴリズムにしたがって分類させる。
【選択図】図３

Description

紙文書を電子化して蓄積する技術に関し、特に、紙文書の記載内容に基づいて電子化対象の紙文書を分類する技術に関する。

紙文書（以下、単に「文書」ともいう）は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。

このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ（以下、「文書画像データ」と呼ぶ）を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるようになってきている。

ところで、上記ファイルをハードディスクなどに保存する場合には、各ファイルに対応する文書の種類や内容に応じて分類して保存（すなわち、同一種類の文書に対応するファイルは同一のディレクトリに格納するなど）しておくと便利であり、このようなことを可能にする技術が種々提案されている。例えば、非特許文献１や２には、分類対象の文書に記載された文章の意味内容の特徴を表す特徴量（以下、意味特徴量）を用いてサポートベクトルマシンアルゴリズム（以下、ＳＶＭアルゴリズム）にしたがって文書を分類する技術が開示されている。また、特許文献１には、分類対象の文書の体裁（以下、フォーマットともいう）に着目してその文書を分類する技術が開示されている。より詳細に説明すると、特許文献１に開示された技術では、まず、分類対象の文書画像データを解析し、分類対象の文書におけるテキストや、図形、表（以下、オブジェクトともいう）などの記載位置を各オブジェクトの種別毎に特定する。次いで、予め定められた体裁を有する参照文書における各オブジェクトの記載位置と分類対象の文書における各オブジェクトの記載位置とを比較することによって、後者の体裁を特定し、その特定結果に基づいて分類を行う技術が開示されている。そして、特許文献２には、上記特許文献１と同様にして特定される文書の体裁と、その文書についての上記意味特徴量とを併用して分類を行う技術が開示されている。
"テキスト分類―学習理論の「見本市」―"、情報処理、vol42、no.1、2001 "Support Vector Machineによるテキスト分類"、1998、自然言語処理、128-24 特開２０００−２５９６６９号公報特開２０００−２６８０４０号公報

しかしながら、特許文献１に開示された技術のように、各オブジェクトの記載位置に基づいて分類を行う技術では、高精度の分類を行うことができない、といった問題がある。また、非特許文献１や２に開示された技術のように、意味特徴量のみに基づいて文書の分類を行う技術では、意味特徴量が近似する２つの文書について、その体裁が異なっているか否かに拘わらず同一の種類の文書であると分類されてしまう、といった問題がある。これに対して、特許文献２に開示された技術は、特許文献１と同様にして特定される文書の体裁と、その文書についての意味特徴量とを併用することによって、非特許文献１や２に開示された技術の問題を解消しようとするものである。しかしながら、特許文献２に開示された技術では、上述の如く各オブジェクトの記載位置に基づいて文書の体裁を判別しているため、その分類対象の文書が明らかに異なる体裁を有している場合には適するが、類似した体裁を有する文書についてはその分類精度が低く、誤判断が発生し易くなってしまう、といった問題がある。そして、この問題点は、分類対象の文書が表形式で記載されている場合に特に顕著になってしまう虞がある。何故ならば、表形式で記載された文書の体裁は類似したものになってしまうことが一般的だからである。

本発明は、上記課題に鑑みて為されたものであり、類似した体裁を有する文書の分類精度を向上させる技術を提供することを目的としている。

上記課題を解決するために、本発明は、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第１の特徴量算出手段と、予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第２の特徴量算出手段と、前記第１の特徴量算出手段により算出された体裁特徴量と前記第２の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力手段へ入力された文書データを所定のアルゴリズムにしたがって分類する分類手段とを有する文書処理装置を提供する。

また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第１の特徴量算出手段と、予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第２の特徴量算出手段と、前記第１の特徴量算出手段により算出された体裁特徴量と前記第２の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力された文書データを所定のアルゴリズムにしたがって分類する分類手段として機能させるプログラムを提供する。また、本発明の別の態様にあっては、コンピュータ装置読取可能な記録媒体に上記プログラムを記録して提供するとしても良い。

このような文書処理装置およびプログラムによれば、分類対象の文書に記載されている各単語の出現頻度の分布に基づいて定まる意味特徴量と、その文書に記載されている枠線または罫線または図形を表す体裁特徴量とに基づいて、その文書に対応する文書データが分類される。

より好ましい態様においては、前記入力手段へ入力された文書データに対応する文書の用紙サイズを該文書データに基づいて特定する特定手段を備え、前記第１の特徴量算出手段は、前記特定手段により特定された用紙サイズで規格化して前記体裁特徴量を算出することを特徴とする。このような態様にあっては、文書の用紙サイズが異なることに起因して体裁特徴量の値が異なったものになることが回避され、同一の意味内容および体裁を有し、かつ、互いに異なるサイズの用紙に印字された文書を分類する際に誤判断が発生することを回避することができる、といった効果を奏する。

より好ましい態様においては、前記第２の特徴量算出手段は、前記文書に記載されている文字列を構成する単語の各々の出現頻度を、該単語の数または出現頻度の最高値または前記文字列に含まれている単語の総数または上記予め定められた単語の数で規格化して前記意味特徴量を算出することを特徴とする。このような態様にあっては、記載されている単語数の異なる文書の意味内容を比較することが可能になる、といった効果を奏する。

より好ましい態様においては、前記体裁特徴量は、前記体裁データに基づいて算出されるペリフェラル特徴量、ストローク特徴量またはメッシュ特徴量の少なくとも１つである
ことを特徴とする。上記ペリフェラル特徴量やストローク特徴量、メッシュ特徴量は、何れも、文書に記載されている枠線、罫線および図形の特徴を正確に反映する特徴量であるから、このような態様にあっては、各オブジェクトの記載位置に基づいて分類を行う場合に比較して、体裁による分類精度を向上させることができる、といった効果を奏する。

本発明によれば、分類対象の文書の意味内容に応じた意味特徴量とその文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量とに基づいて分類が行われるため、以下の効果を奏する。すなわち、分類対象の文書が表形式の文書であっても、その意味内容（すなわち、各文書に記載されている単語の出現頻度の分布）が大きく異なっている場合には、その意味内容に基づいて正しく分類される。また、分類対象の文書の意味内容が近似している場合であっても、上記体裁特徴量に基づいて分類が行われるため、各オブジェクトの記載位置に基づいて分類を行う場合に比較してその分類精度を向上させることができる。また、本発明においては、上記体裁特徴量は分類対象の文書に記載されている枠線または罫線または図形の特徴を表しているため、罫線が多数記載されている表形式の文書を分類する際の分類精度を向上させることができる。

以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
（Ａ：構成）
図１は、本発明の１実施形態に係る文書処理装置１１０を有する文書電子化システム１０の構成例を示すブロック図である。図１の画像読取装置１２０は、例えばＡＤＦ（Auto Document Feeder）などの自動給紙機構を備えたスキャナ装置であり、ＡＤＦにセットされた紙文書を１ページずつ読み取り、読み取った画像に対応する文書画像データをＬＡＮ（Local Area Network）などの通信線１３０を介して文書処理装置１１０へ引渡すものである。なお、本実施形態では、通信線１３０がＬＡＮである場合について説明するが、ＷＡＮ（Wide Area Network）やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置１１０と画像読取装置１２０とを夫々個別のハードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線１３０は、係るハードウェア内で文書処理装置１１０と画像読取装置１２０とを接続する内部バスである。

図１の文書処理装置１１０は、画像読取装置１２０から引渡された文書画像データをファイル化して記憶し蓄積するものであり、図２に示す構成を有している。図２に示されているように、文書処理装置１１０は、制御部２００と、通信インターフェイス（以下、ＩＦ）部２１０と、記憶部２２０と、これら各構成要素間のデータ授受を仲介するバス２３０と、を備えている。

制御部２００は、例えばＣＰＵ（Central Processing Unit）であり、後述する記憶部２２０に記憶されている各種ソフトウェアを実行することによって、文書処理装置１１０の各部を制御するものである。通信ＩＦ部２１０は、通信線１３０を介して画像読取装置１２０に接続されており、この通信線１３０を介して画像読取装置１２０から送られてくる文書画像データを受取り、制御部２００へ引渡すものである。つまり、この通信ＩＦ部２１０は、画像読取装置１２０から送られてくる文書画像データが入力される入力手段として機能する。

記憶部２２０は、図２に示されているように、揮発性記憶部２２０ａと不揮発性記憶部２２０ｂとを含んでいる。揮発性記憶部２２０ａは、例えばＲＡＭ（Random Access Memory）であり、後述する各種ソフトウェアにしたがって作動している制御部２００によってワークエリアとして利用される。一方、不揮発性記憶部２２０ｂは、例えば、ハードディスクであり、上記文書画像データを文書の種類毎に異なる記憶領域（例えば、ディレクトリ）へ格納し蓄積するためのものである。なお、本実施形態では、文書処理装置１１０へ入力された文書画像データを文書の種類毎に分類して、その文書処理装置１１０に備えられている記憶部へ格納する場合について説明するが、この文書処理装置１１０とは別体の記憶装置に上記文書画像データとその文書の種類を表すデータとを対応付けて送信し、その種類毎に格納させるようにしても良い。

また、不揮発性記憶部２２０ｂには、本実施形態に係る文書処理装置１１０に特有な機能を制御部２００に実現させるためのソフトウェアが格納されている。不揮発性記憶部２２０ｂに格納されているソフトウェアの一例としては、オペレーティングシステム（Operating System 以下、「ＯＳ」）を制御部２００に実現させるためのＯＳソフトウェアや、紙文書電子化ソフトウェアが挙げられる。ここで、紙文書電子化ソフトウェアとは、画像読取装置１２０から送られた文書画像データを不揮発性記憶部２２０ｂへ格納する際に、その文書画像データに対応する文書の種類毎に分類して格納する処理を制御部２００に実行させるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部２００に付与される機能について説明する。

文書処理装置１１０の電源（図示省略）が投入されると、制御部２００は、まず、ＯＳソフトウェアを不揮発性記憶部２２０ｂから読み出し、これを実行する。ＯＳソフトウェアにしたがって作動しＯＳを実現している状態の制御部２００には、文書処理装置１１０の各部を制御する機能や、他のソフトウェアを不揮発性記憶部２２０ｂから読み出して実行する機能などが付与される。本実施形態では、上記ＯＳソフトウェアの実行を完了し、ＯＳを実現している状態の制御部２００は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部２２０ｂから読み出し、これを実行する。図３は、紙文書電子化ソフトウェアにしたがって作動している制御部２００が行う紙文書電子化処理の流れを示すフローチャートである。図３に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部２００には、以下に述べる４つの機能が付与される。

第１に、通信ＩＦ部２１０を介して文書画像データが入力された場合に、該文書画像データを解析し、その文書画像データに対応する文書に記載されている文字列を表す文字列データとその文書に記載されている枠線または罫線または図形を表す体裁データとを抽出する抽出機能である。より詳細に説明すると、上記紙文書電子化ソフトウェアにしたがって作動している制御部２００は、上記文書画像データに対応する文書に記載されている文字列をＯＣＲ（Optical Character Recognition）などによって読み取り、上記文字列データを抽出する一方、上記文書画像データから上記文字列の画像に対応する画像データを削除して上記体裁データを抽出する。このように、上記文書画像データから上記文字列データと上記体裁データとを抽出し、その文書画像データに対応する文書に記載されている文字列を表すデータと、その文書の体裁を表すデータとに分離する理由は、上記文書の意味内容に応じた特徴量（すなわち、意味特徴量）とその文書に記載されている枠線または罫線または図形などその文書の体裁の特徴に応じた特徴量（すなわち、体裁特徴量）の各々を正確に抽出することができるようにするためである。

上記紙文書電子化ソフトウェアにしたがって作動している制御部２００に付与される第２の機能は、上記抽出機能により抽出された体裁データに基づいて上記体裁特徴量を算出する第１の特徴量算出機能である。より詳細に説明すると、本実施形態では、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量の３つの特徴量を図４に示すように配列して成るベクトルとして上記体裁特徴量を算出する。詳細については後述するが、ペリフェラル特徴量とストローク特徴量とは、主に、文書に記載されている枠線や罫線についての特徴を表す特徴量であり、メッシュ特徴量は、主に、文書に記載されている図形の特徴を表す特徴量である。なお、本実施形態では、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量を図４に示すように配列して体裁特徴量を算出する場合について説明するが、これらの配列順は図４に示す順に限定されるものではない。また、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量の少なくとも１つで体裁特徴量を構成するとしても良く、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量以外の特徴量を用いるとしても勿論良い。要は、文書に記載されている枠線または罫線または図形の特徴を反映した特徴量であれば何れであっても良い。

上記紙文書電子化ソフトウェアにしたがって作動している制御部２００に付与される第３の機能は、予め定められた複数の単語（例えば、予め定められた十万個の単語）の各々について、上記抽出機能により抽出された文字列データの表す文字列内での出現頻度を算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第２の特徴量算出機能である。本実施例では、上記意味特徴量として、上記予め定められた複数の単語の出現頻度を所定の順に配列して成るベクトル（すなわち、各単語の出現頻度の分布を表すデータ）を用いる場合について説明する。例えば、上記予め定められた複数の単語が、（“愛”、“逆転”、“国会”、“ホームラン”）の４つの単語であり、文字列データの表す文字列が“最終回に逆転満塁ホームランが飛び出した”である場合には、意味特徴量として（０、１、０、１）が算出される。なお、本実施形態では、上記意味特徴量として、上記予め定められた複数の単語の各々の出現頻度を配列して成るベクトルを用いる場合について説明するが、上記出現頻度に替えて各単語の出現確率（数１参照）やＴＦ・ＩＤＦ値（数２参照）を配列して成るベクトルを用いるようにしても勿論良い。要は、上記予め定められた複数の単語の出現頻度の分布を表すデータであれば何れであっても良い。
（数１）ＴＦｉ／ＮＷ
（数２）ＴＦｉ×ｌｏｇ（Ｎ／ＤＦｉ）
なお、上記数１および数２において、ＴＦｉは上記予め定められた複数の単語のうちの単語ｉの出現頻度である。また、数１のＮＷは上記予め定められた単語の総数である。また、数２のＮは、上記予め定められた単語を抽出する際に用いられた文字列の総数であり、ＤＦｉは、それら文字列のうち単語ｉを含む文字列の総数である。そして、数２のｌｏｇ（）は常用対数である。

そして、上記紙文書電子化ソフトウェアにしたがって作動している制御部２００に付与される第４の機能は、第１の特徴量算出機能により算出された体裁特徴量と第２の特徴量算出機能により算出された意味特徴量とに基づいて、上記文書画像データを所定のアルゴリズムにしたがって分類する分類機能である。より詳細に説明すると、本実施形態では、上記所定のアルゴリズムとしてＳＶＭアルゴリズム（なお、ＳＶＭアルゴリズムの詳細については、非特許文献１または非特許文献２参照）を利用する。これは、ＳＶＭアルゴリズムは他の分類アルゴリズムに比較して分類精度が高いからであるが、本発明に係る文書処理装置に適用可能な分類アルゴリズムはＳＶＭアルゴリズムに限定されるものではなく、他の分類アルゴリズムであっても勿論良い。具体的には、上記ＳＶＭアルゴリズムに替えて、ベクトル空間法、ｋ−最近隣接法、ナイーブベイズ法、決定木法、ブースティング法などを用いるようにしても良い。要は、上記体裁特徴量と上記意味特徴量とを併用して分類を行う態様であれば、その分類の際に用いるアルゴリズムは何れであっても良い。

以上に説明したように、本実施形態に係る文書処理装置１１０のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部２２０ｂに格納されている各種ソフトウェアにしたがって制御部２００を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置１２０から文書画像データが入力される入力手段と、上記抽出機能を担っている抽出手段と、上記第１の特徴量算出機能を担っている第１の特徴量算出手段と、上記第２の特徴量算出機能を担っている第２の特徴量算出手段と、上記分類機能を担っている分類手段とを夫々ハードウェアモジュールで実現し、これらハードウェアモジュールを図３に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。

（Ｂ：動作）
次いで、文書処理装置１１０が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。

まず、ユーザが画像読取装置１２０のＡＤＦに紙文書をセットし、所定の操作（例えば、画像読取装置１２０の操作部に設けられている起動ボタンの押下など）を行うと、その紙文書の各ページに対応する画像が画像読取装置１２０によって読み取られ、各ページの画像に対応する文書画像データが通信線１３０を介して画像読取装置１２０から文書処理装置１１０へ送られる。

一方、文書処理装置１１０の制御部２００は、通信ＩＦ部２１０を介して上記文書画像データが入力されると、その文書画像データを揮発性記憶部２２０ａへ書き込み蓄積する。そして、制御部２００は、揮発性記憶部２２０ａに蓄積されたページ画像データに対して図３に示すフローチャートにしたがった紙文書電子化処理を施してそのページ画像データに対応する紙文書の種類を判別し、その種類毎に分類して不揮発性記憶部２２０ｂへ書き込み、上記紙文書を電子化する。以下、制御部２００が行う動作について、図３を参照しつつ説明する。

図３は、制御部２００が行う紙文書電子化処理の流れを示すフローチャートである。図３に示されているように、制御部２００は、まず、通信ＩＦ部２１０を介して入力された文書画像データを解析し、その文書画像データに対応する文書（すなわち、分類対象の文書）に記載されている文字列を表す文字列データと、その文書に記載されている枠線または罫線または図形を表す体裁データとを抽出する（ステップＳＡ１）。

次いで、制御部２００は、上記ステップＳＡ１にて抽出した体裁データに基づいて、図４に示す体裁特徴量を算出する（ステップＳＡ２）。具体的には、制御部２００は、ステップＳＡ１にて抽出した体裁データの表す画像を、図５（ａ）に示すようにその長手方向にＬ個の小領域に分割し、図５（ｂ）に示すように各小領域をその両端から上記画像の短手方向に走査して黒く塗潰されたピクセルが表れるまでのピクセル数を算出し、各小領域についての算出結果を成分として有するベクトルとしてペリフェラル特徴量を算出する。このようにして算出されるペリフェラル特徴量は、枠線または罫線の記載位置を表している。また、上記ストローク特徴量は、図５（ａ）に示す各小領域を図５（ｃ）に示すように走査してピクセルの色が白から黒へ変化した回数を集計し、各小領域についての集計結果を配列したベクトルとして算出される。つまり、このストローク特徴量は、文書に記載されている枠線または罫線の数を表している。本実施形態では、制御部２００は、上記体裁データの表す画像を更に図５（ｄ）に示すようにその短手方向にＭ個の小領域に分割し、図５（ｅ）に示すように走査してペリフェラル特徴量を算出するとともに、図５（ｆ）に示すように走査してストローク特徴量を算出する。その結果、本実施形態では、２（Ｌ＋Ｍ）次元ベクトルであるペリフェラル特徴量と、（Ｌ＋Ｍ）次元ベクトルであるストローク特徴量とが算出される。一方、メッシュ特徴量は、以下のようにして算出される。すなわち、制御部２００は、上記体裁データに対応する画像を、図６（ａ）〜（ｄ）に示すように分割位置を変えつつ小領域に分割し、これら各小領域について黒く塗潰されたピクセルの数を集計し、その集計結果を所定の順に配列したベクトルとして上記メッシュ特徴量を算出する。このメッシュ特徴量は、各小領域についての塗潰しの濃淡（すなわち、図形の有無）を表している。

次いで、制御部２００は、上記ステップＳＡ１にて抽出した文字列データに基づいて、前述した意味特徴量を算出する（ステップＳＡ３）。具体的には、制御部２００は、上記文字列データに形態素解析などを施してその文字列を構成する単語を抽出する。そして、制御部２００は、予め定められた複数の単語の各々の出現頻度を上記形態素解析の解析結果に基づいて算出し、それら複数の単語の各出現頻度を所定の順に配列して上記意味特徴量を算出する。

そして、制御部２００は、上記ステップＳＡ２にて算出した体裁特徴量と上記ステップＳＡ３にて算出した意味特徴量とを用い、上述したサポートベクトルマシーンアルゴリズムにしたがって上記文書画像データに対応する文書の種類を特定する（ステップＳＡ４）。以降、制御部２００は、上記文書画像データを上記ステップＳＡ４にて特定された文書種類に応じたディレクトリに書き込み、文書分類処理を完了する。なお、本実施形態では、体裁特徴量の算出を行った後に、意味特徴量の算出を行う場合について説明したが、これらを逆順に行っても良いことは勿論である。

以上に説明したように、本実施形態に係る文書処理装置１１０によれば、分類対象の文書の意味内容に応じた意味特徴量とその文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量とに基づいて分類が行われるため、以下の効果を奏する。すなわち、分類対象の文書が表形式の文書であっても、その意味内容（すなわち、各文書に記載されている単語の出現頻度の分布）が大きく異なっている場合には、その意味内容に基づいて正しく分類される、といった効果を奏する。また、分類対象の文書の意味内容が近似している場合であっても、上記体裁特徴量に基づいて分類が行われるため、従来の如く各オブジェクトの記載位置に基づいて分類を行う場合に比較してその分類精度を向上させることができる、といった効果を奏する。特に、上記体裁特徴量として用いるペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量は、分類対象の文書に記載されている枠線または罫線または図形の特徴を正確に反映しているため、罫線が多数記載されている表形式の文書を分類する際の分類精度を向上させることができる、といった効果を奏する。

（Ｃ．変形）
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
（Ｃ−１：変形例１）
上述した実施形態では、紙文書の画像に対応する文書画像データに基づいて分類を行う場合について説明した。しかしながら、ワードプロセッサなどにより作成されたデータ（文書に記載されている文字の文字コードや改行コードなどがその記載順に配列されているとともに、枠線や罫線、図形を表す制御コードが配列されているデータ：以下、コードデータという）に基づいて、電子化対象の文書の分類を行うとしても良いことは勿論である。要は、紙文書に対応する文書データであれば、画像データであるかコードデータであるかは問わない。

（Ｃ−２：変形例２）
上述した実施形態では、ペリフェラル特徴量、ストローク特徴量およびメッシュ特徴量を用いて体裁特徴量を構成する場合について説明した。しかしながら、このようにして算出される特徴量を文書の用紙サイズで規格化する（例えば、用紙サイズを表すピクセル数で除算する）としても良い。前述したように、ペリフェラル特徴量は、用紙の端部から枠線または罫線の位置までの距離を表しているため、同一の体裁を有する文書であってもその用紙サイズが異なっていれば、ペリフェラル特徴量の値は異なったものになってしまい、体裁が異なると誤判断される虞がある。上述したように、用紙サイズで規格化した体系特徴量を用いるようにすれば、上述の如き誤判断を回避することが可能になるといった効果を奏する。なお、このようなことを実現するためには、通信ＩＦ部２１０などの入力手段を介して入力された文書データに基づいてその文書データに対応する文書の用紙サイズを特定する特定手段を設けておけば良い。具体的には、文書データとして文書画像データが入力された場合には、その文書画像データの表す画像の大きさに基づいて上記用紙サイズを特定すれば良い。同様に、単語数の異なる文書について意味内容の比較を行うために、意味特徴量についても何らかの規格化を行うようにしても良い。このような規格化の一例としては、各文書についての意味特徴量を、予め定められた複数の単語の各々の出現頻度ではなく、各単語の出現頻度を文書に含まれている単語数やそれら単語の種類数で除算したり、その出現頻度の最高値で除算することが挙げられる。要は、上記予め定められた複数の単語の出現頻度の分布を反映していれば良く、どのような規格化を施しても良い。

（Ｃ−３：変形例３）
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部２００に実現させるためのソフトウェアを不揮発性記憶部２２０ｂに予め記憶させておく場合について説明した。しかしながら、例えばＣＤ−ＲＯＭ（Compact Disk- Read Only Memory）やＤＶＤ（Digital Versatile Disk）などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。

本発明の１実施形態に係る文書処理装置１１０を有する文書電子化システムの全体構成の一例を示す図である。同文書処理装置１１０のハードウェア構成の一例を示す図である。同文書処理装置１１０の制御部２００が紙文書電子化ソフトウェアにしたがって行う分類処理の流れを示すフローチャートである。同制御部２００によって算出される体裁特徴量の一例を示す図である。同制御部２００によって抽出されるペリフェラル特徴量およびストローク特徴量を説明するための図である。同制御部２００によって抽出されるメッシュ特徴量を説明するための図である。

符号の説明

１０…文書電子化システム、１１０…文書処理装置、１２０…画像読取装置、１３０…通信線、２００…制御部、２１０…通信ＩＦ部、２２０…記憶部、２２０ａ…揮発性記憶部、２２０ｂ…不揮発性記憶部。

Claims

文書を電子化した文書データが入力される入力手段と、
前記入力手段へ入力された文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、
前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第１の特徴量算出手段と、
予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第２の特徴量算出手段と、
前記第１の特徴量算出手段により算出された体裁特徴量と前記第２の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力手段へ入力された文書データを所定のアルゴリズムにしたがって分類する分類手段と
を有する文書処理装置。
前記入力手段へ入力された文書データに対応する文書の用紙サイズを該文書データに基づいて特定する特定手段を備え、
前記第１の特徴量算出手段は、
前記特定手段により特定された用紙サイズで規格化して前記体裁特徴量を算出する
ことを特徴とする請求項１に記載の文書処理装置。
前記第２の特徴量算出手段は、
前記文書に記載されている文字列を構成する単語の各々の出現頻度を、該単語の数または出現頻度の最高値または前記文字列に含まれている単語の総数または前記予め定められた単語の数で規格化して前記意味特徴量を算出する
ことを特徴とする請求項１に記載の文書処理装置。
前記体裁特徴量は、前記体裁データに基づいて算出されるペリフェラル特徴量、ストローク特徴量またはメッシュ特徴量の少なくとも１つである
ことを特徴とする請求項１に記載の文書処理装置。
コンピュータ装置を、
文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データと枠線または罫線または図形を表す体裁データとを抽出する抽出手段と、
前記抽出手段により抽出された体裁データに基づいて、前記文書に記載されている枠線または罫線または図形の特徴を表す体裁特徴量を算出する第１の特徴量算出手段と、
予め定められた複数の単語の各々について前記文書に記載されている文字列内での出現頻度を前記抽出手段により抽出された文字列データに基づいて算出し、その出現頻度の分布に基づいて定まる特徴量である意味特徴量を算出する第２の特徴量算出手段と、
前記第１の特徴量算出手段により算出された体裁特徴量と前記第２の特徴量算出手段により算出された意味特徴量とに基づいて、前記入力された文書データを所定のアルゴリズムにしたがって分類する分類手段
として機能させるプログラム。