以下、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る文書処理装置の一例である画像形成装置10を示す断面図である。
画像形成装置10は、印刷装置12及び読取装置14を有し、印刷装置12は、例えば3段の記録媒体供給カセット16を有し、これら記録媒体供給カセット16のそれぞれには供給ヘッド18が設けられている。
記録媒体供給カセット16の一つが選択されると、供給ヘッド18が作動して選択された記録媒体供給カセット16から記録媒体供給路20を介して画像形成部22に供給される。
また、画像形成装置10は、ファクシミリ機能(図示せず)を有してもよい。
画像形成部22は、イエロー、マゼンタ、シアン及びブラックの各感光体24が併設されていると共に、中間転写ベルト26が設けられている。
各感光体24の周囲には、帯電装置、露光装置、現像装置、一次転写装置及びクリーニング装置など(図示せず)が配置され、各感光体24に形成されたトナー像が中間転写ベルト26に転写される。白黒設定された場合は、ブラックのみが作動可能であるようにされる。
中間転写ベルト26のトナー像は、二次転写ロール28により、送られてきた記録媒体に転写され、定着装置30により定着され、このトナー像が定着された記録媒体が記録媒体排出路32を通って排出部34に排出される。
ただし、両面印刷が設定された場合は、定着装置30により表面が定着された記録媒体は、記録媒体排出路32から反転装置36に送られ、この反転装置36で反転され、記録媒体反転路38に送られ、再び記録媒体供給路20に戻され、画像形成部22に送られて裏面の印刷がなされる。
読取装置14は、両面原稿の読み取りが可能な自動原稿送り装置40を有し、この自動原稿送り装置40により原稿はプラテン42に送られ、このプラテン42上でCCD等からなる読取部44により原稿が読み取られる。また、読取装置14は、操作者によりプラテン42に置かれた原稿を読取部44にて読み取ってもよい。
自動原稿送り装置40に原稿がセットされたか否かを検出する原稿セット検出器46が設けられている。また、自動原稿送り装置40はプラテンカバーを兼ねており、このプラテンカバーを開けることにより原稿をプラテン42上に置くことができる。このプラテンカバーの開閉は、プラテンカバー開閉検出器48により検出できるようになっている。
読取装置14は、読み取り条件を後述する分類規則生成部82に出力する。ここで、読み取り条件とは、例えば、カラーによる読み取りを行なう設定か、白黒(2階調)による読み取りを行なう設定か、文字のみの原稿用の読み取りを行なう設定か、文字と図形とを含む原稿用の読み取りを行なう設定か、といったように読み取り処理における設定が含まれる。なお、文字とは文字又は文字列をいう。また、読み取り条件には、例えば、自動原稿送り装置40による複数枚の連続する原稿の読み取りがなされたという情報など、読み取った原稿に関わる情報も含まれる。
ユーザインターフェース装置50(以下「UI装置50」)は、画像形成装置10と一体に、又はネットワークを介して設けられる。また、UI装置50は、例えばタッチパネルなどからなり、操作者からの画像形成装置10への処理内容についての指示を入力として受け付け、又は情報を表示することができるように構成されている。
また、この画像形成装置10は、公衆回線へ接続されたファクシミリ用のモデムと、LAN等のネットワークに接続されるネットワーク通信装置が設けられている。画像形成装置10に設けられたネットワーク通信装置を用いることで、読取装置14により読み取った画像をネットワークに接続された端末に送信することができる。また、画像形成装置10は、ネットワーク通信装置を介して、ネットワークに接続された端末からデータを受付ける。
図2は、画像形成装置10のハードウェア構成を示すブロック図である。
図2に示すように、画像形成装置10は、図1のUI装置50とともに、CPU52、メモリ54、入出力インターフェース56、スキャンインターフェース58、プリントインターフェース60、ネットワーク通信インターフェース62、ファクシミリ用のモデムインターフェース64、及び記憶装置66がバス接続された構成となっている。
つまり、画像形成装置10は、情報処理及び他の装置との通信が可能なコンピュータとしての構成部分を有している。
CPU52は、メモリ54又は記憶装置66に書き込まれた後述する情報処理プログラム70を実行することにより、各回路を制御する。UI装置50を介して受け付けられた入力はCPU52に伝達され、CPU52からの表示情報がUI装置50に伝達するようにしてある。
なお、CPU52は、CDROM等の記憶媒体に格納された情報処理プログラム70を実行してもよく、又はネットワーク通信インターフェース62を介して提供される情報処理プログラム70を実行してもよい。
入出力インターフェース56には、図1の原稿セット検出器46からの原稿セット検出信号と、図1のプラテンカバー開閉検出器48からのプラテンカバー開閉信号が入力される。
スキャンインターフェース58は、図1の読取装置14に接続され、プリントインターフェース60は、図1の印刷装置12に接続されている。
ネットワーク通信インターフェース62は、画像形成装置10に設けられたネットワーク通信装置に接続され、モデムインターフェース64は、画像形成装置10に設けられたファクシミリ用モデムに接続されている。
また、バスには記憶装置66が接続されており、例えばネットワークに接続された端末から送信された画像を、画像形成装置10に設けられた記憶装置66に記憶することができる。
図3は、画像形成装置10において動作する情報処理プログラム70を示すブロック図である。図3に示すように、情報処理プログラム70は、文書受付部72、オブジェクト分離部74、特徴抽出部76、文書種別特定部78、文書種別格納部80、分類規則生成部82、規則雛形格納部84、文字情報受付部86、分類規則提示部88、分類規則登録部90、分類規則格納部92、編集受付部94、分類規則統合部96及び分類部98から構成される。
文書受付部72は、画像形成装置10へ入力された文書を受付ける。本実施形態では、文書受付部72は、読取装置14により読み取った文書又はネットワークに接続された端末から送られた文書を受付ける。なお、文書とは、情報が記述されたデータをいい、文字を含むデータ以外にも、文字を含まない図面又は写真なども含まれる。また、本実施形態の説明において、「文字」とは、文字又は文字列を意味する。文書受付部72は、受付けた文書をオブジェクト分離部74へ出力する。
オブジェクト分離部74は、文書を文書中のオブジェクトごとに分離して、特徴抽出部76へ出力する。ここで、オブジェクトとは、文書の内容を構成する物のことをいい、文字と画像とに大別され、画像には、表、写真、符号化物、図などが含まれる。なお、符号化物とは、符号化された情報の画像をいい、例えばバーコード、QRコード(登録商標)が該当する。本実施形態の特徴抽出部76は、文書を文字領域、画像領域(具体的には、表領域、写真領域、及び符号化物領域)に分離し、分離した各領域のデータを特徴抽出部76へ出力する。
特徴抽出部76は、文書に含まれる特徴を抽出する。本実施形態の特徴抽出部76は、オブジェクト分離部74により分離された文書中の各領域のデータについて、それぞれ特徴を抽出する。また、特徴抽出部76は、文書の分類規則を生成する場合には、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力し、文書の分類を行なう場合には、抽出した特徴を分類部98へ出力する。なお、特徴抽出部76の詳細な構成については、後述する。
文書種別特定部78は、文書から抽出された特徴に基づいて、当該文書が予め定めた文書の種類のうちいずれに該当するかを特定する。本実施形態では、文書種別特定部78は、文書種別格納部80に記憶されている文書種別ごとの特徴と、特徴抽出部76により抽出された特徴とを比較し、文書種別を特定する。文書種別特定部78は、特定した文書種別を分類規則生成部82へ通知する。
文書種別格納部80は、予め定めた文書種別ごとに、文書種別と当該文書種別に共通する特徴とを対応付けて記憶する。本実施形態における文書種別格納部80は、文書種別と当該文書種別に共通する特徴とをテーブルとして格納する。
文書種別格納部80は、例えば、文書種別として、「申請書」文書、「図面」文書、「写真」文書、「バーコード付き書類」文書、「説明書」文書、「稟議書」文書、「教育用書類」文書などといった予め定めた文書種別それぞれに対し、当該文書種別の特徴を対応付けて記憶する。
文書種別格納部80が記憶する特徴は、特徴抽出部76により抽出される特徴のうち各文書種別に特有のものであり、例えば、文書種別「申請書」については、文書中の題目(タイトル)位置に「申請書」という文字があることを特徴として記憶する。また、例えば、文書種別「写真」については文書中に写真があることを特徴として記憶し、文書種別「バーコード付き書類」については文書中にバーコードがあることを特徴として記憶する。
なお、文書種別格納部80は、文書種別ごとに1つの特徴ではなく、複数の特徴を組み合わせたものを記憶してもよい。例えば、文書種別「申請書」について、文書中の題目位置に「申請書」という文字があり、且つ、文書中に表画像が含まれることを特徴として記憶してもよい。
分類規則生成部82は、文書を分類する分類規則として、第1の規則と、第1の規則に適用する第2の規則との組合せを生成する。本実施形態における分類規則生成部82は、文書から抽出された特徴のうち分類に用いる特徴を定義する規則を第1の規則とし、第1の規則で定義された文書の特徴に対して適用する論理を定義する規則を第2の規則とし、第1の規則と第2の規則との組合せからなる分類規則を生成する。
具体的には、分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。
また、分類規則生成部82は、文字情報受付部86により受付けられた文字情報に基づいて分類規則を生成してもよい。
文字情報受付部86は、UI装置50を介して操作者により入力された文字を受付け、分類規則生成部82へ出力する。操作者は、例えば、特定の文字を分類規則の中に含めたい場合又は特定の文字に関連する文字を分類規則の中に含めたい場合などに、当該特定の文字を入力する。
分類規則生成部82は、特徴抽出部76が抽出した文字のうち、文字情報受付部86により受付けられた文字に基づいて選択された文字を用いて分類規則を生成する。例えば、分類規則生成部82は、文字情報受付部86により受付けられた文字又は文字情報受付部86により受付けられた文字と関連する文字を用いて分類規則を生成する。
また、分類規則生成部82は、読取装置14からの読み取り条件に基づいて分類規則を生成してもよい。
分類規則生成部82は、生成した分類規則を分類規則提示部88及び分類規則登録部90へ出力する。分類規則生成部82により生成される分類規則についての詳細は、後述する。
なお、分類規則生成部82は、文書から抽出された特徴に基づいて、文書を分類する分類規則を生成すればよく、文書種別特定部78による文書種別の特定を行なわずに特徴抽出部76が抽出した特徴に基づいて分類規則を生成してもよい。
規則雛形格納部84は、予め定めた文書種別ごとに、文書種別と当該文書種別の分類に用いる規則の雛形とを対応付けて記憶する。本実施形態における規則雛形格納部84は、文書種別と当該文書種別に対応する規則の雛形とをテーブルとして格納する。
分類規則提示部88は、分類規則生成部82により生成された分類規則を操作者に提示する。本実施形態の分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に表示して、操作者に提示する。
分類規則登録部90は、第1の規則と第1の規則に適用する第2の規則との組合せからなる分類規則を分類規則格納部92へ登録する。本実施形態における分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。
分類規則格納部92は、文書の分類に用いる分類規則を記憶するデータベースである。
編集受付部94は、分類規則生成部82により生成された分類規則又は分類規則格納部92に記憶されている分類規則に対する編集操作を受付け、編集操作に対応する編集を分類規則に行い、編集された分類規則を分類規則登録部90へ出力する。本実施形態の編集受付部94は、UI装置50を介して、分類規則に対する編集操作を受付け、受付けた編集操作に対応する編集を分類規則に行なう。
分類規則統合部96は、分類規則登録部90により分類規則格納部92へと登録された異なる複数の分類規則を、これら異なる複数の分類規則間で重複する内容を排除して統合する。本実施形態における分類規則統合部96は、分類規則格納部92に記憶されている分類規則を読み出し、読み出された分類規則間で第1の規則に関して重複する内容を排除して統合し、統合された分類規則を分類規則格納部92へと登録する。なお、分類規則統合部96の詳細については後述する。
分類部98は、特徴抽出部76により抽出された特徴に対して、分類規則格納部92に格納されている、分類規則統合部96により統合がなされた分類規則を適用し、文書を分類する。
次に、特徴抽出部76の詳細な構成について説明する。
図4は、特徴抽出部76の構成を示すブロック図である。図4に示すように、特徴抽出部76は、第1の特徴抽出部100及び第2の特徴抽出部102から構成されている。
第1の特徴中抽出部100は、文書中の文字領域についての特徴を抽出する。本実施形態の第1の特徴抽出部100は、オブジェクト分離部74により分離された文字領域のデータから、文字の抽出を行なう。第1の特徴抽出部100は、文字認識部104及び文字特徴抽出部106から構成されている。
文字認識部104は、文書中の文字領域について、文字認識を行い、文字領域に含まれる文字を認識し、文字特徴抽出部106へ出力する。
文字特徴抽出部106は、文字認識部104により認識された文字について、例えば形態素解析を行ない、名詞などの文字及び当該文字の文書内における位置を特徴として抽出する。また、文字特徴抽出部106は、抽出された文字が複数ある場合には、文書中の出現頻度に応じた優先順位を抽出された文字に対して設定してもよい。以下の説明において、文字特徴抽出部106により抽出された文字をキーワードということがある。
第2の特徴抽出部102は、画像についての情報として、文書中の画像領域についての特徴を抽出する。本実施形態の第2の特徴抽出部102は、オブジェクト分離部74により分離された表領域、写真領域及び符号化物領域のデータから、特徴の抽出を行なう。第2の特徴抽出部102は、表特徴抽出部108、写真特徴抽出部110及び符号化特徴抽出部112から構成されている。
表特徴抽出部108は、文書中の表画像の特徴を抽出する。本実施形態の表特徴抽出部108は、文書中の表画像の大きさ、文書内における表画像の位置、文書中の表画像の総数などを特徴として抽出する。
写真特徴抽出部110は、文書中の写真画像の特徴を抽出する。本実施形態の写真特徴抽出部110は、文書中の写真画像の大きさ、文書内における写真画像の位置、文書中の写真画像の総数などを特徴として抽出する。
符号化物特徴抽出部112は、文書中の符号化物画像の特徴を抽出する。本実施形態の符号化物特徴抽出部112は、文書中の符号化物画像の大きさ、文書内における符号化物画像の位置、文書中の符号化物画像の総数などを特徴として抽出する。なお、符号化物特徴抽出部112は、符号化物画像を復号化して、符号化されていた情報を特徴として抽出してもよい。
なお、第2の特徴抽出部102は、画像の特徴として、文書に含まれる図の情報を抽出してもよい。
次に、本実施形態における分類規則生成部82により生成される分類規則について説明する。分類規則生成部82は、文書から抽出された特徴のうち分類に用いる特徴を定義する規則を第1の規則とし、第1の規則で定義された文書の特徴に対して適用する論理を定義する規則を第2の規則とし、第1の規則と第2の規則との組合せからなる分類規則を生成する。
本実施形態における第1の規則は、特徴抽出部76により抽出される特徴のうち、いずれの特徴を、分類の判定に用いる特徴とするかを定義する規則である。
ここで、第1の規則に定義される特徴は、1つであっても複数であってもよい。また、第1の規則は、第1の特徴抽出部100により抽出される特徴と第2の特徴抽出部102により抽出される特徴とが組み合わされて定義されていてもよく、第1の特徴抽出部100により抽出された特徴又は第2の特徴抽出部102により抽出された特徴のいずれかが定義されていてよい。
また、第1の規則は、第2の特徴抽出部102における、表特徴抽出部108、写真特徴抽出部110及び符号化特徴抽出部112により抽出される複数の特徴について定義されていてもよい。
本実施形態における第2の規則は、第1の規則で定義された文書の特徴に対して適用する論理として、否定(NOT)、論理和(OR)、論理積(AND)、否定論理和(NOR)、否定論理積(NAND)などの論理演算を定義する。
図5は、分類規則生成部82により生成される分類規則の一例を示す模式図である。図5に示すように、各分類規則は、分類の判定に用いる特徴を定義した第1の規則と、第1の規則に定義された特徴に対しどのような論理演算を行なうかを示した第2の規則とから構成されている。
なお、図5において、第1の規則における@印は、@印の右側で指定されている文書の位置に、@印の左側の文字が存在する、という特徴を示している。ここで、文書の位置としては、タイトル位置、本文記載位置、文書下部などが含まれ、また、操作者により指定された領域であってもよい。また、第2の規則における×印は論理積(AND)を示し、+印は論理和(OR)を示し、−印は否定(NOT)を示している。
このような分類規則により、次のように文書の分類がなされる。第1の分類規則に定義された特徴についての真偽を基に、第2の分類規則の論理演算を行った結果が真である場合、当該分類規則の定める分類へと文書が分類される。
図5(a)に示した、分類1への分類規則では、文書のタイトル位置に"説明書"という文字が存在するという特徴Aと、文書の本文位置に"株式会社abc"という文字が存在するという特徴Bとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA×Bであるから、文書のタイトル位置に"説明書"という文字が存在し、かつ、文書の本文位置に"株式会社abc"という文字が存在するという条件を満たす文書に対して、真となり、当該文書は分類1へと分類する。
図5(b)に示した、分類2への分類規則では、上記特徴Aと、文書に写真画像が存在するという特徴Cとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA×Cであるから、文書のタイトル位置に"説明書"という文字が存在し、かつ、文書に写真画像が存在するという条件を満たす文書に対して、真となり、当該文書は分類2へと分類する。
図5(c)に示した、分類3への分類規則では、上記特徴Aと、上記特徴Bとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA+Bであるから、文書のタイトル位置に"説明書"という文字が存在する文書、又は文書の本文位置に"株式会社abc"という文字が存在する文書に対して、真となり、当該文書は分類3へと分類する。
図5(d)に示した、分類4への分類規則では、上記特徴Aと、上記特徴Bとが、第1の規則に定義されている。ここで第2の規則に示される論理演算はA×(−B)であるから、文書のタイトル位置に"説明書"という文字が存在し、かつ、文書の本文位置に"株式会社abc"という文字が存在しないという条件を満たす文書に対して、真となり、当該文書は分類4へと分類する。
なお、図5に示した例では、文字の存在の特徴に関し、文書中のどの位置に存在するかを@印を用いて特定しているが、位置を特定せずに単に文字(例えば"説明書")の有無を条件としてもよい。
また、上記の例では、特徴Cでは、文書に写真画像が存在するか否かのみを条件としているが、例えば、N×N画素以上の写真画像が文書中に存在するか否か、写真画像が文書中の指定領域に存在するか否か、又はN×N画素以上の写真画像が文書中の指定領域に存在するか否かなどを条件としてもよい。
このように、分類規則生成部82により、特徴抽出部76が抽出する特徴について自由に組み合わされた分類規則が生成され、操作者の要求に沿った分類がなされる。
次に、本実施形態における分類規則の生成について、詳細に説明する。本実施形態における分類規則生成部82は、上記のとおり、規則雛形格納部84に記憶されている文書種別と文書種別に対応する規則の雛形とを対応付けるテーブルを用いて、分類規則を生成する。
図6は、規則雛形格納部84に記憶されているテーブルの一例を示す表である。図6に示されたテーブルには、文書種別特定部78により特定される文書種別ごとに、分類規則生成部82が生成する規則の雛形が格納されている。
なお、図6に一例として示した分類規則の雛型としては、第1の特徴抽出部100による特徴に関する雛形(図6中において、オブジェクトの列が"文字"とされている行の分類規則)と第2の特徴抽出部102による特徴に関する雛形(図6中において、オブジェクトの列が"画像"とされている行の分類規則)とが格納されている。
図6において、例えば、文書種別特定部78により特定される文書種別が申請書であった場合、分類規則生成部82は分類規則の生成において、文字のオブジェクトについての雛形「"申請書"@タイトル × キーワード@本文」及び画像のオブジェクトについての雛形「表画像」を用いる。
ここで、「"申請書"@タイトル」は、上述のとおり、文書中のタイトル位置に"申請書"という文字があることを条件とすることを意味しており、「キーワード@本文」は、文書中の本文位置にキーワードがあることを条件とすることを意味している。また、両条件を繋ぐ「×」は、第2の規則に論理演算に論理積を用いることを意味している。
また、雛形における「キーワード」とは、第1の特徴抽出部100により抽出された文字のうち、いずれかの文字を当てはめて分類規則を生成することを意味している。例えば、分類規則生成部82は、第1の特徴抽出部100により抽出された文字のうち優先順位の一番高い文字を当てはめて分類規則を生成する。なお、優先順位は、例えば、文書中の出現頻度、上述の文字情報受付部86が受付けた文字との関連性などによって決定される。
本実施形態における分類規則生成部82は、雛形テーブルに示された文字のオブジェクトについての条件と画像のオブジェクトの条件とを論理積で組み合わせて分類規則を生成するが、第2の規則として上述の通り例えば論理和などの他の論理演算などで組み合わせても構わない。
上記の例において、例えば、分類規則を生成する基となる文書Pに対し、第1の特徴抽出部100が抽出したキーワードのうち優先順位が最も高いキーワードがキーワードKであるとすると、分類規則生成部82が生成する分類規則は、次のような構成となる。すなわち、分類規則生成部82は、第1の規則として、特徴D「"申請書"@タイトル」、特徴E「"キーワードK"@本文」及び特徴F「文書Pの表画像と大きさ及び位置が同程度の表画像が存在すること」が定義され、第2の規則として論理「D×E×F」が定義された分類規則を生成し、分類規則提示部88へ出力する。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
なお、上記特徴Fでは、表画像の大きさ及び位置を要件とするものとしているが、単に画像の有無を要件してもよく、画像の大きさを要件としてもよく、又は画像の位置を要件としてもよい。さらには、画像の有無、大きさ、位置のいずれを要件とするのかについても雛形として記憶していてもよい。
また、分類規則生成部82は、特徴抽出部76により抽出された特徴以外に、読取装置14からの読み取り条件を分類規則に入れてもよい。例えば、第1の規則として上記特徴D、上記特徴E、上記特徴F及び特徴G「n枚以上の原稿を読み取った文書であること」が定義され、第2の規則として論理「D×E×F×G」が定義された分類規則を生成してもよい。
また、読み取り条件に応じて、雛形テーブルに示された画像オブジェクトの特徴を第1の規則に定義するか否かを決定してもよい。例えば、読み取り条件として、カラーによる読み取りを行なう設定がなされた場合、操作者は文書に含まれる画像を重視している可能性が考えられることから、分類規則生成部82は、少なくとも画像オブジェクトの特徴を第1の規則に定義して分類規則を生成するとしてもよい。
次に、分類規則提示部88による分類規則の提示について説明する。
図7は、UI装置50に表示される分類規則の登録に係る画面の第1の例を示す平面図である。なお、図7、後述する図8、9及び10に示される画面は、例えば、分類規則提示部88によって表示される。
図7に示す画面では、表示切替タブ120及び表示切替タブ群122により表示画面を切り替えることができ、表示切替タブ120では、新規の分類規則を登録する場合の画面が表示され、表示切替タブ群122のいずれかのタブでは、分類規則格納部92に既に格納されている分類規則を編集する場合の画面が表示される。なお、図7に示す例では、表示切替タブ120による表示がなされている状態を示している。
また、図7に示す画面には、文書種類名を設定する文書種類名設定部124、文書を分類するための分類規則を設定する文書分類規則設定部126、分類した文書に付けるファイル名を設定するファイル名規則設定部128、グループなど複数の操作者用の分類規則(共通分類規則)か個々の操作者用が分類規則(個別分類規則)かを設定する分類規則種別設定部129がある。
ここで、分類規則提示部88は、分類規則生成部82により生成された分類規則を文書分類規則設定部126に提示する。なお、分類規則生成部82は、分類規則の生成と同様、例えば文書種別特定部78により特定された文書種別に基づいて、文書種類名又はファイル名についても生成し、分類規則提示部88は、分類規則生成部82が生成した文書種類名又はファイル名を文書種類名設定部124又は設定するファイル名規則設定部128に提示する構成としてもよい。
図7に示す画面の例では、分類規則生成部82により生成された分類規則として、次のような分類規則が提示されている。すなわち、図7に示す画面の例では、文書のタイトル部分に"説明書"の文字があり、かつ、文書の本文部分に"株式会社abc"の文字がある文書を文書種類「説明書」に分類する分類規則を提示している。
また、図7に示す画面には、文書種類名設定部124、文書分類規則設定部126又はファイル名規則設定部128に提示されている設定に対し、キーボード入力により編集するためのキーボード入力ボタン130、消去する消去ボタン132、分類規則提示部88による提示をさせる自動ボタン134を有する。
また、文書種類名設定部124、文書分類規則設定部126及びファイル名規則設定部128に提示されている設定を分類規則格納部92に登録する登録ボタン136と、登録した設定を削除する削除ボタン138を有する。
ここで、分類規則種別設定部129により、共通分類規則として分類規則が登録された場合、グループなど複数の操作者間で共通に適用する分類規則として登録され、当該複数の操作者のいずれかの者が文書分類をする際にこの分類規則が適用される。一方、分類規則種別設定部129により、個別分類規則として分類規則が登録された場合、操作者ごとに適用する分類規則として登録され、この分類規則は当該操作者が文書分類をする際に適用され、他の操作者による文書分類には適用されない。
登録ボタン136が操作者により操作されると、分類規則登録部90は、第1の規則及び第2の規則から構成される分類規則を、共通分類規則又は個別分類規則として分類規則格納部92へ登録する。
さらに図7に示す画面には、分類規則生成部82が生成した分類規則を編集するために、分類規則に用いるキーワードを変更するキーワード変更部140、分類規則に用いる文書中の領域を変更する領域変更部142、分類規則に用いる画像を変更する画像変更部144、分類規則に用いる論理を変更する論理変更部146、及び分類規則生成の基となる文書を表示する文書表示部148を有する。
キーワード変更部140には、第1の特徴抽出部100により抽出されたキーワードが列挙されており、操作者は列挙されたキーワードのうちいずれかを選択することにより、当該キーワードを用いるよう分類規則を編集することができる。
領域変更部142には、文書における位置が列挙されており、操作者は列挙された位置のうちいずれかを選択することにより、当該位置を用いるよう分類規則を編集することができる。
画像変更部144には、第2の特徴抽出部102により抽出された画像の種類が列挙されており、操作者は列挙された画像の種類のうちいずれかを選択することにより、当該画像の種類を用いるよう分類規則を編集することができる。
論理変更部146には、第2の規則として分類規則に用いることが可能な論理が列挙されており、操作者は、列挙された論理を用いて、分類規則を編集することができる。
図8は、UI装置50に表示される分類規則の登録に係る画面の第2の例を示す平面図である。
図8に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図8に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書における写真150と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
また、図8に示す画面では、画像についての条件を変更するためのポップアップ表示である画面条件変更部152が表示されており、操作者は、画面条件変更部152に表示された条件のうち所望の条件を選択することにより、画像についての条件を変更することができる。
図9は、UI装置50に表示される分類規則の登録に係る画面の第3の例を示す平面図である。
図9に示す画面には、分類規則生成部82により生成された分類規則として、第1の特徴抽出部100により抽出された特徴と第2の特徴抽出部102(符号化物特徴抽出部112)により抽出された特徴とを組み合わせた分類規則が提示されている。具体的には、図9に示す画面には、文書のタイトル部分に"説明書"の文字があり、かつ、文書表示部148に表示されている文書におけるバーコード154と同程度の大きさのバーコードを有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
図10は、UI装置50に表示される分類規則の登録に係る画面の第4の例を示す平面図である。
図10に示す画面には、分類規則生成部82により生成された分類規則として、第2の特徴抽出部102(写真特徴抽出部110)により抽出された特徴のみからなる分類規則が提示されている。具体的には、図10に示す画面には、文書表示部148に表示されている文書における写真156と同程度の位置に同程度の大きさの写真を有する文書を文書種類「説明書」に分類する分類規則を提示している。なお、同程度とは、両者の差が予め定めた閾値以内であることをいう。
次に、分類規則統合部96の詳細について説明する。
図11は、分類規則格納部92に登録されている、分類規則統合部96による統合前の分類規則の模式図である。また、図12は、分類規則格納部92に登録されている、分類規則統合部96による統合後の分類規則の模式図である。
図11に示すように、統合前の分類規則では、分類ごとに、分類に対応する分類規則が存在している。統合前の分類規則に基づいて、文書の分類を行なう場合、まず、分類規則1に適合するか否かを判定し、次に、分類規則2に適合するか否かを判定し、次に、分類規則3について適合するか否かを判定し、というように順に判定することになる。
図11に示した例に従って、統合前の分類規則により文書分類を行なう場合について具体的に説明すると、まず、分類規則1に適合するか否かの判定のために、分類規則1の第1の規則に定義された特徴A及び特徴Bが文書中に存在するか否かが判定され、その結果に基づいて第2の規則に定義された論理演算(A×B)が行なわれ、分類規則1に適合するか(論理演算の結果が真となるか)を判定する。
次に、同様に、分類規則2に適合するか否かの判定のために、分類規則2の第1の規則に定義された特徴A及び特徴Cが文書中に存在するか否かが判定され、その結果に基づいて第2の規則に定義された論理演算(A×C)が行なわれ、分類規則1に適合するか(論理演算の結果が真となるか)を判定する。
以降の分類規則についても同様に判定がなされる。また、共通分類規則に属する分類規則のみならず、個別分類規則に属する分類規則についても判定がなされる必要がある。
しかし、上記の分類規則1と分類規則2とでは、第1の規則に特徴Aが共通して定義されており、特徴Aの有無について、分類規則1の判定と分類規則2の判定とで繰り返し行なう必要はない。
分類規則統合部96は、各分類規則で定義されている文書の特徴のうち他の分類規則においても定義されている特徴について、重複しないように分類規則を統合する。
図12に示すように、分類規則統合部96は、各分類規則の第1の規則を重複のないよう統合する。具体的には、第1の規則に基づいて、被演算子規則を生成して統合する。被演算子規則には、統合前のいずれかの分類規則の第1の規則において定義されていた特徴が1つずつ定義されている。
また、図12に示すように、分類規則統合部96は、各分類規則の第2の規則を、分類と対応させて統合する。具体的には、各分類規則における第2の規則と当該第2の規則による分類とを対応付けて、論理規則を生成して統合する。論理規則には、各文書種別に分類するために用いる第2の規則(図12に例示された"A×B"、"A×C")が、文書の種類(図12に例示された"分類1"、"分類2")と対応させて定義されている。
なお、被演算子規則は、共通分類規則と個別分類規則とでそれぞれ生成してもよいし、共通分類規則と個別分類規則とで1つの被演算子規則を生成してもよい。
統合後の分類規則によれば、文書中の同一の特徴の有無についての判定を重複して行なうことがなく、分類規則に従った文書の分類処理が、統合前の分類規則に基づいて分類する場合に比べ高速になされる。
次に、以上説明した分類規則の登録について、フローチャートを用いて動作の流れを説明する。
図13は、分類規則の登録についての動作を示すフローチャートの一例である。
ステップ100において、文書受付部72は、分類規則を生成する基となる文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。
ステップ102において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。
ステップ104において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を文書種別特定部78及び分類規則生成部82へ出力する。
ステップ106において、文書種別特定部78は、抽出された特徴に基づいて、ステップ100で文書受付部72が受け付けた文書が予め定めた文書の種別のうちいずれに該当するかを特定する。
ステップ108において、分類規則生成部82は、規則雛形格納部84に記憶されている文書種別ごとの規則の雛形のうち、文書種別特定部78により特定された文書種別に対応する雛形と特徴抽出部76が抽出した特徴とを用いて、分類規則を生成する。
ステップ110において、分類規則提示部88は、分類規則生成部82により生成された分類規則をUI装置50に提示する。
ステップ112において、ステップ110により提示した分類規則に対し、操作者による編集操作がなされたか否かを判定し、編集操作が行なわれた場合はステップ114へ移行し、編集操作が行なわれない場合はステップ116に移行する。
ステップ114において、編集受付部94は、操作者による編集操作を受付け、編集操作に対応する編集を分類規則に行なう。
ステップ116において、分類規則登録部90は、分類規則生成部82により生成された分類規則、又は編集受付部94により編集された分類規則を分類規則格納部92へ登録する。
ステップ118において、分類規則統合部96は、分類規則格納部92に格納された分類規則を統合する。
以上の流れにより、文書の分類に用いる統合された分類規則が作成される。
次に、統合された分類規則に基づいて文書を分類し、分類に応じた処理を行なう動作の流れを説明する。
図14は、文書の分類し、分類に応じた処理を行なう動作を示すフローチャートの一例である。
ステップ200において、文書受付部72は、分類対象の文書を受付け、受付けた文書をオブジェクト分離部74へ出力する。
ステップ202において、オブジェクト分離部74は、文書中のオブジェクトを分離し、特徴抽出部76へ出力する。
ステップ204において、特徴抽出部76は、文書に含まれる特徴を抽出し、抽出した特徴を分類部98へ出力する。
ステップ206において、分類部98は、特徴抽出部76により抽出された特徴に対して、分類規則統合部96により統合された分類規則を適用し、文書を分類する。
具体的には、分類部98は、共通分類規則及び個別分類規則について、以下の処理を行なう。分類部98は、分類すべき文書が、統合された分類規則の被演算子規則に定義されている各特徴を有するか否かを判定する。各特徴についての判定結果(当該特徴を有する場合は真、当該特徴を有しない場合は偽)に基づき、論理規則を適用する。分類部98は、論理規則において定義された論理演算のうち、演算結果が真となった論理演算に対応する種類へと、文書を分類する。
ステップ208において、ステップ206においてなされた分類に対応する処理が行なわれる。ステップ208では、例えば分類ごとに定められた処理規則に応じて処理が行なわれる。
図15は、分類に応じた処理をする際に適用される分類ごとの処理規則の一例を示す表である。図15(a)は、分類に応じたファイル名を文書データに付与する処理についての規則を示し、図15(b)は、分類に応じた場所に文書データを出力する処理についての規則を示している。
図15(a)に示す処理規則では、分類ごとに、ファイル名を付与する際の規則が定められている。なお、図15(a)に示したファイル名付与規則は、上述のファイル名規則設定部128において設定された規則に対応する。
図15(b)に示す処理規則では、分類ごとに、送信先のフォルダが定められている。なお、図15(b)に示す送信先フォルダは、例えば操作者が分類ごとに設定する。
また、分類に応じた処理として、印刷装置12による印刷をしてもよい。例えば、分類に応じて印刷における設定を異にして、印刷出力する処理を行なってもよい。
以上の流れにより文書の分類及び分類に応じた処理が行なわれる。
なお、上記説明では、分類規則の統合(ステップ118)を分類規則の登録(ステップ116)の次に行なうとしたが、分類規則の統合は、文書の分類処理の前に行なわれてもよい。例えば、分類規則の統合をステップ204とステップ206の間に行なってもよい。分類規則の統合は、予め定められた数の分類規則が分類規則登録部90に登録されるごとに行なわれてもよい。
また、分類規則統合部96は、他の文書処理装置により同様に生成された統合前又は統合後の分類規則と、自装置の統合前又は統合後の分類規則とを統合してもよい。
上記説明では、分類規則統合部96は、分類規則格納部92に記憶された分類規則を統合し、統合された分類規則を分類規則格納部92に記憶するとしたが、統合された分類規則を分類規則格納部92とは異なる他のデータベースに記憶してもよい。
また、統合される前の分類規則又は統合された後の分類規則が、文書処理装置にネットワークで接続された外部のデータベースに記憶されてもよい。この場合、文書処理装置は、分類規則の統合又は文書分類処理に際して外部のデータベースから分類規則を読み込む手段を有する。