JP2017117335A

JP2017117335A - 画像処理装置、画像処理方法、コンピュータプログラム

Info

Publication number: JP2017117335A
Application number: JP2015254377A
Authority: JP
Inventors: 伊藤　直樹; Naoki Ito; 直樹伊藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2017-06-29
Also published as: WO2017110640A1

Abstract

【課題】文書認識処理を行うには、分類された文書に対して毎回分類結果が合っているか否かをユーザーに提示し、ユーザーからの判定結果の指示を受信することを必要とするためユーザーが判定結果の指示を行うまで文書認識が完了しない。【解決手段】上記課題を解決すべく本画像処理装置は、入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類手段と、前記分類手段により分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納手段と、前記格納手段により格納されたファイルに対する操作履歴を取得する取得手段と、前記取得手段により取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成手段と、を有することを特徴とする。【選択図】図４

Description

本発明は、画像処理装置、その制御方法およびコンピュータプログラムに関する。

スキャナ等を用いて、紙媒体として発生した帳票の画像データを生成して帳票の種別を識別し、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を行う技術がある。このような技術では、帳票の種別を識別し、ＯＣＲ処理を行うために、全ての帳票の種別について、帳票種別毎に予め書式定義（帳票定義）を作成しておく必要があった。しかし、このような書式定義を予め作成するには、帳票種別の識別サービスの利用者または提供者に手間をかけるものであった。そこで、予め書式定義を作成することなく帳票種別を推定するために、情報処理装置において帳票の外観上の特徴に係る特徴データを帳票種別毎に蓄積する。そして、処理対象帳票の画像データを取得して、その処理対象帳票に係る特徴データを取得し、蓄積されている特徴データから、特徴データに一致または類似する特徴データを特定する（マッチング処理を行う）ことで、帳票種別を推定する。また、帳票種別が推定されなかった場合は、特徴データを追加する（特許文献１参照）。

特許第５６７０７８７号

従来技術のようにマッチング処理により文書の種別を認識する方法を利用する場合、文書認識結果を毎回ユーザーに提示し、ユーザーにこの認識結果に対して正しいか否かの判定を行わせる。そして、このユーザーによる判定結果を文書認識システムへ送信する。

このように、文書認識処理を行うには、分類された文書に対して毎回分類結果が合っているか否かをユーザーに提示し、ユーザーからの判定結果の指示を受信することを必要とする。よって、ユーザーが判定結果の指示を行うまで文書認識が完了しない。

本発明は、上記課題を解決するものであり、ユーザーの明示的な指示を必要とせず、自然な操作で文書識別処理を行う際に用いられる、文書分類ルールの生成が可能な画像処理装置の提供を目的とする。

本画像処理装置は、入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類手段と、前記分類手段により分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納手段と、前記格納手段により格納されたファイルに対する操作履歴を取得する取得手段と、前記取得手段により取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成手段と、を有することを特徴とする。

本発明の画像処理装置によれば、ユーザーが意図せずに自然な操作をすることで文書識別処理を行う際に用いられる、文書分類ルールの生成が可能になる。

実施例１におけるシステム構成を示す概観図である。実施例１におけるＭＦＰの概略構成を示すブロック図である。実施例１におけるサーバの概略構成を示すブロック図である。実施例１におけるフローチャートである。実施例１における勾配情報に基づく画像特徴量の算出を説明する図である。実施例１における画像特徴量の算出のためのパッチ画像の切り出しを説明する図である。実施例１における学習データの増加処理を説明する図である。実施例１における学習データ学習し分類処理を説明する図である。実施例２におけるフローチャートである。

（実施例１）
図１は、実施例１のシステム構成を示す図である。

実施例１のシステムは、画像入力装置であるＭＦＰ１０１とサーバ１０２を備える。

ＬＡＮ１０３には、ＭＦＰ１０１が接続されている。また、ＬＡＮ１０３はインターネット１０４に接続されており、サービスを提供しているサーバ１０２ともインターネット１０４経由で接続されている。ＭＦＰ１０１、サーバ１０２は、ＬＡＮ１０３を介して、互いに接続されており、画像データや各種情報の送受信を行う。この例では、ＭＦＰ１０１はＬＡＮ１０３に接続されているが、その限りではない。ＭＦＰ１０１はサーバ１０２に接続可能であればよい。なお、サーバ１０２は、画像入力装置から入力される画像の分類ルールの学習に用いる学習データを生成する情報処理装置である。
ここで、「分類ルール」とは、画像から取得された特徴量と画像を分類（識別）するための分類器との組合せのことである。ある特徴を有する画像は分類１へ、別の特徴を有する画像は分類２へと分類するため予め決まり（ルール）を設ける。
また、「学習データを生成する」とは、文書識別処理を行う際に用いられる文書分類ルールを生成することである。
具体的には、サーバ１０２は、画像入力装置から入力された画像の回転方向を統一した学習データを生成し、生成した学習データに基づいて、画像の分類ルールを構築する。

図２は、ＭＦＰ１０１の構成例を示す図である。
図２（Ａ）に示すように、ＭＦＰ１０１は、コントローラ２０〜操作部２０７を備える。

装置制御部２００は、ＭＦＰ１０１内およびネットワークＩ／Ｆ２０６を経由した外部とのデータの受け渡しや、操作部２０７からの操作の受け付けを行う。

画像読取部２０１は、原稿を読み取り画像データを出力する。

画像処理部２０２は、画像読取部２０１や外部から入力される画像データを含む印刷情報を中間情報（以下「オブジェクト」と呼ぶ）に変換し、記憶部２０３のオブジェクトバッファに格納する。オブジェクトは、テキスト、グラフィック、イメージの属性を持つ。さらに、バッファしたオブジェクトに基づきビットマップデータを生成し、記憶部２０３のバッファに格納する。その際、色変換処理、濃度調整処理、トナー総量制御処理、ビデオカウント処理、プリンタガンマ補正処理、ディザなどの疑似中間調処理を行う。

記憶部２０３は、ＲＯＭ、ＲＡＭ、ハードディスク（ＨＤＤ）などから構成される。ＲＯＭは、ＣＰＵ２０４が実行する各種の制御プログラムや画像処理プログラムを格納する。ＲＡＭは、ＣＰＵ２０４がデータや各種情報を格納する参照領域や作業領域として用いられる。また、ＲＡＭとＨＤＤは、上記のオブジェクトバッファなどに用いられる。ＲＡＭとＨＤＤ上で画像データを蓄積し、ページのソートや、ソートされた複数ページにわたる原稿を蓄積し、複数部プリント出力を行う。

画像出力部２０５は、記録紙などの記録媒体にカラー画像を形成して出力する。ネットワークＩ／Ｆ部２０６は、ＭＦＰ１０１をＬＡＮ１０３に接続し、インターネット１０４や他の装置との間で各種情報を送受信する。

操作部２０７は、タッチパネルや操作ボタンを備え、ユーザーからの操作を受け付けて装置制御部２００へ該操作の情報を送信する。

図２（Ｂ）は、ＭＦＰ１０１の外観を示す。画像読取部２０１は、複数のＣＣＤを有している。この各ＣＣＤの感度が夫々異なっていると、たとえ原稿上の各画素の濃度が同じであったとしても、各画素が夫々違う濃度であると認識されてしまう。そのため、画像読取部では、最初に白板（一様に白い板）を露光走査し、露光走査して得られた反射光の量を電気信号に変換してコントローラに出力している。なお、画像処理２０２内のシェーディング補正部は、各ＣＣＤから得られた電気信号を元に、各ＣＣＤの感度の違いを認識している。そして、この認識された感度の違いを利用して、原稿上の画像をスキャンして得られた電気信号の値を補正している。さらに、シェーディング補正部は、コントローラ内のＣＰＵ２０４からゲイン調整の情報を受取ると、当該情報に応じたゲイン調整を行う。ゲイン調整は、原稿を露光走査して得られた電気信号の値を、どのように０〜２５５の輝度信号値に割り付けるかを調整するために用いられる。このゲイン調整により、原稿を露光走査して得られた電気信号の値を高い輝度信号値に変換したり、低い輝度信号値に変換したりすることができるようになっている。つまり、このゲイン調整により、読み取り信号のダイナミックレンジの調整が可能である。続いて、この原稿上の画像をスキャンする構成について説明する。

画像読取部２０１は、原稿上の画像を露光走査して得られた反射光をＣＣＤに入力することで画像の情報を電気信号に変換する。さらに電気信号をＲ，Ｇ，Ｂ各色からなる輝度信号に変換し、当該輝度信号を画像としてコントローラ２０に対して出力する。

なお、原稿は原稿フィーダ２１１のトレイ２１２にセットされる。ユーザーが操作部２０７から読み取り開始を指示すると、コントローラ２０から画像読取部２０１に原稿読み取り指示が与えられる。画像読取部２０１は、この指示を受けると原稿フィーダ２１１のトレイ２１２から原稿を１枚ずつフィードして、原稿の読み取り動作を行う。なお、原稿の読み取り方法は原稿フィーダ２１１による自動送り方式ではなく、原稿を不図示のガラス面上に載置し露光部を移動させることで原稿の走査を行う方法であってもよい。

画像出力部２０５は、コントローラ２０から受取った画像を用紙上に形成する画像形成デバイスである。なお、本実施例において画像形成方式は感光体ドラムや感光体ベルトを用いた電子写真方式となっているが、本実施例はこれに限られることはない。例えば、微少ノズルアレイからインクを吐出して用紙上に印字するインクジェット方式などでも適用可能である。また、画像出力部２０５には、異なる用紙サイズ又は異なる用紙向きを選択可能とする複数の用紙カセット２１３、２１４、２１５が設けられている。排紙トレイ２１６には印字後の用紙が排出される。

図３は、サーバの構成例を示す図である。

サーバ１０２は、ＣＰＵ３０１〜データバス３０６を備える。

ＣＰＵ３０１は、ＲＯＭ３０３に記憶された制御プログラムを読み出して各種制御処理を実行する。ＲＡＭ３０２は、ＣＰＵ３０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ネットワークＩ／Ｆ部３０４は、サーバ１０２をインターネット１０４に接続し、他の装置との間で各種情報を送受信する。ＨＤＤ３０５は、画像データや特徴量データ、各種プログラムを記憶する。

図３において、ネットワークＩ／Ｆ部３０４を介して受信したＭＦＰ１０１からの画像データを、データバス３０６を介してＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３が送受する。ＣＰＵ３０１がＲＯＭ３０３やＨＤＤ３０５に格納された画像処理プログラムを実行することによって、画像データに対する画像処理が実現される。

＜フローチャートを用いた本実施例の詳細説明＞
図４は、原稿をスキャンして得られた画像に対して分類処理を行い、その結果に応じて分類先（格納先）を決定する。そして、画像（この画像が含まれたファイル）に対する操作ログ（操作履歴）を取得し、画像分類ルールを再学習（再生成）する処理を説明するフローチャートである。
このフローチャートに示される処理は、ＭＦＰ１０１およびサーバ１０２にて実行される。図４のフローチャートに示される処理のうちＭＦＰ１０１が実行する処理は、ＣＰＵ２０４が記憶部２０３に格納されている処理プログラムをロードして実行することで実現される。また、図４のフローチャートに示される処理のうちサーバ１０２が実行する処理は、ＣＰＵ３０１が、ＨＤＤ３０５に格納されている処理プログラムをＲＡＭ３０２にロードして実行することで実現される。

ステップＳ４０１において、ＭＦＰ１０１は、操作部２０７からユーザーの指示を受け付けると、原稿フィーダ２１１のトレイ２１２から原稿を１枚ずつフィードして、画像読取部２０１で原稿をスキャンする。

ステップＳ４０２において、ＣＰＵ２０４は、原稿をスキャンすることで得られた入力画像の特徴量の取得処理を実行する。画像の特徴量に関しては、図６、図７を用いて後述する。

ステップＳ４０３において、ＣＰＵ２０４はステップＳ４０２で取得した特徴量を記憶部２０３へ格納する。

ステップＳ４０４において、ＣＰＵ２０４は、ステップＳ４０３で記憶部２０３に格納している特徴量と予め学習して作成された分類ルールに沿って分類処理を行う。分類処理の結果として、例えば、予め学習されている画像（学習済画像）のＩＤ番号と画像から取得される特徴量とが紐づけられており、ある特徴量を有する画像に対して、この特徴量に対応するＩＤ番号が出力される。よって、分類処理した結果、入力画像が学習画像のＩＤ１の画像である分類された場合、該当する画像ＩＤである“１”を出力する。また、入力画像が学習済画像に分類できない場合には、未知帳票（未知画像）であることを示す画像ＩＤを出力する。ここで分類処理に関しては、機械学習を利用した分類など、公知の技術を適用することが可能である。

ステップＳ４０５において、ＣＰＵ２０４は、ステップＳ４０４の入力画像に対して分類をした結果、学習済画像に分類されるのか、学習していない未知画像に分類されるのかの判断を行う。ここではステップＳ４０４で説明した分類結果の画像ＩＤを用いて、学習済画像に分類されるのか、未知画像に分類されるかの判断を行う。これ以外の方法により、学習済画像に分類されるか、未知画像に分類されるかを判断できる方法の適用が可能である。

ステップＳ４０６においてＣＰＵ２０１は、入力画像を保存するべく送信する送信先がＭＦＰ１０１から入力画像を含んだファイルを操作した情報が取得可能な送信先であるか否かの判断を行う。例えば、ＣＰＵ２０４は、ネットワークＩ／Ｆ部２０６を介して送信先がファイヤーウォールを越えた先にあるか否かの判断を行う。ファイヤーウォールを越えた先に入力画像の送信先がある場合は、入力画像の保存先にアクセス権がないと判断をする。ここでアクセス権があるか否かについては、保存先のフォルダでファイルに対して行われた操作ログが取得できるか出来ないか否かを指している。
ここでは、保存先のフォルダに対してファイル操作ログが取得できるか否かを検出する公知の方法を適用することが可能である。

ステップＳ４０７においてＣＰＵ２０４は、ステップＳ４０６で送信先にアクセス権があると判定された場合に入力画像の保存処理を行う。ここで説明する一例として、入力画像の保存先にアクセス権があると判定され、このアクセス権があると判定された場所に、分類処理にて分類ができなかった（画像が未知であった）画像を保存するためのフォルダへ保存される。具体例としては、“未知”という名前のフォルダ（以下、未知フォルダとする）に入力画像が保存される。

ステップＳ４０８においてＭＦＰ１０１は、ステップＳ４０７で保存したファイルに対する操作ログの取得を行う。ここで、操作ログとは、ファイルに対してフォルダを移動するために行われた操作や、ファイル名を変更するために行われた操作や、ファイルを削除するために行われた操作についての情報である。具体例としては、未知フォルダに保存されている画像が、どこのフォルダへ移動するよう行われた操作の操作ログを取得する。

ステップＳ４０９においてＣＰＵ２０４は、ステップＳ４０８で取得した操作ログからフィードバック情報を生成する。フィードバック情報を生成するとは、未知フォルダに保存された画像がどこのフォルダへ移動するよう操作が行われたのかを示す操作ログを用いて、未知フォルダに保存されていた画像に対して、新たに画像ＩＤを付与することである
具体例として例えば、未知フォルダに保存されている第１の画像をドキュメント１というフォルダへ移動したことを示す操作ログを用いて、第１の画像に対して、ドキュメント１に入るための画像ＩＤを生成して付与する。この付与された情報をフィードバック情報とする。

ステップＳ４１０においてＣＰＵ２０４は、ステップＳ４０９で生成されたフィードバック情報から再学習処理を行う。再学習処理では、ステップＳ４０３で保持している特徴量とステップＳ４０９で生成されたフィードバック情報とを用いて、分類処理を行う際に用いられる閾値の更新処理を行う。例えば、フィードバック情報から画像ＩＤ情報を取得し、画像特徴量がその画像ＩＤに分類されるようになるための閾値の算出処理が行われる。ここで、更新された閾値は分類処理へ反映され、分類に用いられる分類器の更新（文書識別処理を行う際に用いられる文書分類ルールの再生成）が行われる。

ステップＳ４１１においてＣＰＵ２０４は、ステップＳ４０６において入力画像の保存先に対してアクセス権がないと判断された場合、別途アクセス権がある保存先へファイルへの格納を行う。例えばＭＦＰ１０１の記憶部２０３へ格納を行う。

ステップＳ４１２においてＭＦＰ１０１は、ステップＳ４１１で保存したファイルに対する操作ログの取得を行う。ここでの操作ログの取得は、ステップＳ４０８で説明したことと同じであるため説明は省略する。
一方、ステップＳ４０５で画像が既知の画像であると判断されると、ステップＳ４１３に進む。ステップＳ４１３においてＣＰＵ２０４は、あらかじめ指定されているルールに沿って保存処理が行われる。

＜画像分類に利用する画像特徴量の詳細＞
画像分類処理で利用される画像特徴量について、図５と図６を用いて詳細を説明する。図５は、勾配情報に基づく画像特徴量の算出方法を説明する図である。

図５に示すようにパッチ画像内の画素ごとに算出した勾配強度と勾配方向を利用する。具体的には、ＣＰＵ３０１が、パッチ画像内の全ての画素について、縦方向と横方向のエッジ情報から勾配強度と勾配方向を求める。ＣＰＵ３０１は、勾配情報を利用して、図５で示すように、１パッチから９次元（９個）の特徴量を算出する。まず、各画素について、勾配強度が一定値以上の画素をエッジ画素、一定値より小さい画素を非エッジ画素とする。エッジ画素群から勾配方向を８方向に量子化して、方向ごとの勾配強度積算値／パッチ画素数を計算し、非エッジ画素数／パッチ画素数と合わせて、１つのパッチ画像から９次元の特徴量を算出する。このように、エッジ画素と非エッジ画素を利用することで、罫線や文字の情報だけでなく、文書画像の大きな特徴である余白部分を表現することが可能になる。これまでの説明は、１つのパッチ画像における特徴量の説明であるが、実際には、複数のパッチ画像を切り出して利用することにより、多数の特徴量を利用する。
図６は、パッチ画像の切り出しを説明する図である。まず、ＣＰＵ３０１が、ノイズが表れやすい画像端（余白）を削除して、複数の解像度の画像を作成する。複数の解像度の画像を用意するのは、解像度ごとにエッジの構造が変わるためである。そして、ＣＰＵ３０１が、それぞれの解像度の画像から複数のサイズのパッチ画像を走査しながら切り出すことで、パッチ画像位置を考慮した特徴量を算出する。例えば、３００ｄｐｉでスキャンした画像から特徴量を抽出する場合を想定する。まず、ＣＰＵ３０１が、スキャン画像を１／４サイズと１／８サイズに縮小した２種類の画像を作成する。ＣＰＵ４０１は、上記縮小した各解像度の画像から１／４サイズのパッチ画像を１／５ずつずらして５×５＝２５枚、１／８サイズのパッチ画像を１／１０ずつずらして、１０×１０＝１００枚切り出すことで、計２５０個のパッチを切り出す。このような設定においては、各パッチから９次元のエッジ特徴量を算出するので、画像１枚から９×２５０＝２２５０次元の特徴量を算出することが可能となる。

なお、画像解像度、パッチサイズ、パッチ切り出し位置に関するパラメータは、上述した数字に限定されるものではない。また、取得する画像特徴量として、原稿の色の情報を利用するために、色ヒストグラムや色分散等を画像特徴量としてもよい。

＜学習データ増加処理の詳細＞
画像方向統一処理において、機械学習を利用して方向判別器の生成をする際に学習データを増やす学習データ増加処理について説明をする。本実施例では、画像をシミュレーションによって変形処理を施すことで変形画像を得て、それを学習データとして増やす。

図７は、変形処理であるシフト処理、回転処理、拡大縮小処理を説明する図である。これらの幾何学的変形処理は、射影変換行列を利用して実現する。図７（Ａ）は、シフト処理を表している。シフト処理では、上下左右あるいは左上、右上、左下、右下に一定量だけ画像を並行移動させることで８パターンの変形画像を得る。図７（Ｂ）は、回転処理を表している。回転処理では、一定量だけ時計回りと反時計回りの回転させることで、２パターンの変形画像を得る。図７（Ｃ）は、拡大縮小処理を表している。拡大縮小処理では、画像を一定倍率だけ拡大または縮小することで２パターンの変形画像を得る。なお、それぞれの変形処理において、入力画像と出力画像とは同サイズである。射影変換後に出力画像の画像領域外にはみ出てしまう画像外領域については破棄する。また、出力画像の内部で射影元の存在しない欠損領域については、非欠損画素の画素値を順次コピーしていくことで補完する。この欠損領域の扱いについては、上述した方法による補完に限られるものではない。例えば、入力画像から推定した背景画素に置き換えるような他の補完方法でもよいし、補完は行なわずに欠損画素について欠損画素であるというフラグ情報を付加してマスク処理に利用する方法でもよい。

学習データ増加処理では、これらシフト処理、回転処理、拡大縮小処理のパターンのそれぞれに変形しないというパターンを組み合わせることで、１枚の画像データからその組み合わせの数だけ変形画像を得ることができる。具体的には、上述した各変形処理のパターンに補正無しの場合を加えて、シフト処理が９パターン、回転処理が３パターン、拡大縮小処理が３パターンであるので、１枚の画像から３×９×３＝８１パターンの変形画像を生成して、学習データを増加させる。なお、それぞれの変形処理のパターン数は上述の数字に限定されるものではない。

＜利用する機械学習の詳細＞
次に、本実施例において画像を分類する分類器の生成に利用する機械学習の手法について説明をする。本実施例では、機械学習の手法としてＲｅａｌＡｄａＢｏｏｓｔと呼ばれる公知の手法を利用する。ＲｅａｌＡｄａＢｏｏｓｔは、大量の特徴量から、与えられた学習データセットの分類に適した特徴量を選択して、その特徴量を組み合わせて分類器を構成することが可能な方法である。画像の分類時に大量の特徴量を利用すると、特徴量の計算負荷のためにパフォーマンスが低下してしまう。このように、分類に適した特徴量を選択して、一部の特徴量だけを利用し、分類器を構成できることは、ＲｅａｌＡｄａＢｏｏｓｔの大きな利点である。ただし、ＲｅａｌＡｄａＢｏｏｓｔは、２クラス分類器であり、２種類のラベルがついたデータを分類するものである。つまり、このままでは、３種類以上の画像の分類には利用することができない。そこで、２クラス分類器を多クラス分類器に拡張するＯＶＡ（Ｏｎｅ−Ｖｅｒｓｕｓ−Ａｌｌ）と呼ばれる公知の方法を利用する。ＯＶＡは、１つのクラス（対象クラス）とそれ以外のクラスを分類する分類器をクラスの数だけ作成し、それぞれの分類器の出力を、対象クラスの信頼度とする。分類の際には、分類したいデータをすべての分類器に入力し、信頼度が最大であったクラスを分類先とする。

図８は、学習データを用いた機械学習の例を説明する図である。

この例では、学習データとして、３つのクラスの画像（画像Ａ、画像Ｂ、画像Ｃ）のそれぞれに対応する画像特徴量が用意されているものとする。この３つのクラスを分類するために、ＯＶＡでは３種類の分類器を用意する。３種類の分類器は、画像Ａとその他の画像を判別するための画像Ａ判別器、画像Ｂとその他の画像を判別するための画像Ｂ判別器、画像Ｃとその他の画像を判別するための画像Ｃ判別器である。

画像Ａ判別器は、画像Ａが入力されたときに、大きい出力値（確信度）が出力され、それ以外の画像が入力されたときは、小さい出力値（確信度）が出力される。画像Ｂ判別器、画像Ｃ判別器についても同様である。実際の分類を行う際には、入力文書画像を３種類の分類器に入力し、その出力値の比較を行って、どの画像かを決定する。例えば画像Ｂ判別器の出力が最大であった場合は、その入力画像が画像Ｂであると判別する。

図８を参照して説明したＲｅａｌＡｄａＢｏｏｓｔとＯＶＡを利用した多クラス分類器の学習と、多クラス分類器を利用した文書画像分類は、ＣＰＵ３０１で実行される。なお、本実施例で利用可能な機械学習の手法は、上述した手法に限定されるものではない。ＳｕｐｐｒｏｔＶｅｃｔｏｒＭａｃｈｉｎｅやＲａｎｄｏｍＦｏｒｅｓｔ等の公知の手法を利用してもよい。特徴選択の枠組みが機械学習の手法に含まれていない場合に、分類時の分類速度を向上させたい場合には、主成分分析や判別分析を利用した特徴量選択等の公知の特徴量選択を行う。機器学習手法が２クラス分類器である場合は、ＯＶＡ以外の、Ａｌｌ−Ｖｅｒｓｕｓ−Ａｌｌ（ＡＶＡ）やＥｒｒｏｒ−ＣｏｒｒｅｃｔｉｎｇＯｕｔｐｕｔ−Ｃｏｄｉｎｇ（ＥＣＯＣ）等の公知の手法を用いてもよい。

以上、実施例１によれば、分類先（格納先）が未知であった入力画像に対して、ユーザーのファイルに対する操作ログを取得し、取得された操作ログを利用することにより文書識別処理を行う際に用いられる文書分類ルールの生成（再学習）が可能となる。つまり、文書の分類に用いられる分類器が更新される。

これにより、ユーザーが明示的に再学習を指示することなく、分類ルールを有さない（学習をしていない）画像に対しても画像分類が行うことが可能になる。

（実施例２）
実施例１では、未知フォルダに格納された画像に対する操作は、フォルダの移動処理を説明していた。

実施例２では、未知フォルダに格納した画像に対して削除の操作が行われることを想定する。以下では、実施例１と差分がある部分についてのみ説明する。

＜フローチャートを用いた本実施例の詳細説明＞
図９は、未分類となった入力画像に対する操作ログから入力画像を含むファイルを削除したか否かを検知し、削除したことに応じてフィードバック情報を生成する処理について説明するフローチャートである。図９に示す処理のうちＭＦＰ１０１が実行する処理は、ＣＰＵ２０４が記憶部２０３に格納されている処理プログラムをロードして実行することで実現される。また、ステップＳ４０１〜Ｓ４１３については実施例１にて説明したので割愛する。

ステップＳ９０１においてＣＰＵ２０４は、ステップＳ４０８あるいはステップＳ４１２で取得したログからファイルが削除されたか否かの判断を行う。ファイルが削除されたか否かの検知は公知の方法で取得が可能である。

ステップＳ９０２においてＣＰＵ２０４は、ステップＳ９０１でファイルが削除された操作がなされたと判断した場合に、削除用のフォルダを生成しそこへ画像を格納する。または、ユーザーの指示を仰ぐ表示を操作部２０７に対して行う。ここで操作部２０７に表示されるものとしては、削除用のフォルダを生成しそこへファイルを移動するか、削除用のフォルダ生成は行わずファイルを削除するかをユーザーに選択させるものである。

ステップＳ９０３において、ＣＰＵ２０４はユーザーが操作部２０７に対して、削除用フォルダを生成すると入力されたか、削除用フォルダを生成しないと入力されたか判断を行う。

ステップＳ９０４においてＣＰＵ２０４は、ステップＳ９０３で削除用のフォルダを生成すると指示があった場合に削除用のフォルダを生成し、そのフォルダへ削除対象の画像を含むファイルを格納する。そして、削除用のフォルダへ画像を含むファイルが分類されるように、画像ＩＤをファイルへ付与する。
そして、ステップＳ４０９にて、処理対象の画像を削除用のフォルダに分類するための画像ＩＤが入力される。

ステップＳ９０３においてＣＰＵ２０４は、削除用のフォルダを生成しないとされた場合にはファイルを削除し、フィードバック情報は生成せずに処理を終える。

実施例２によれば、未知フォルダに入っている画像が削除された操作ログを取得する。
例えば、未知フォルダに保存されている画像が削除された場合には、その操作ログから、その画像は不要な画像であると考えられる。よって、入力画像に対して不要、あるいはゴミ箱に分類されるような画像ＩＤを付与する。これにより、不要な画像が何度も未知フォルダへ分類されることを避けることが可能になるため、ユーザーが毎回未知フォルダへ分類された画像を削除するようなわずらわしい操作を減らすことができる。

（その他の実施例）
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア（コンピュータプログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類手段と、
前記分類手段により分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納手段と、
前記格納手段により格納されたファイルに対する操作履歴を取得する取得手段と、
前記取得手段により取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成手段と、
を有することを特徴とする画像処理装置。
前記分類手段は、前記操作履歴を反映して再生成された分類ルールを用いて、入力された画像を分類することを特徴とする請求項１に記載の画像処理装置。
前記分類ルールとは、画像から取得された特徴量と前記画像を分類するための分類器との組合せであることを特徴とする請求項１に記載の画像処理装置。
前記操作履歴とは、前記画像を含むファイルに対するフォルダ移動または前記ファイル名の変更または前記ファイルの削除に関する情報であることを特徴とする請求項１に記載の画像処理装置。
前記格納手段により前記画像を含むファイルを格納する格納先に対してアクセス権がない場合、前記格納先とは別の格納先でありアクセス権がある格納先へ前記ファイルを格納することを特徴とする請求項１に記載の画像処理装置。
前記操作履歴が特定の操作である場合、画面に指示を受けるための表示を行う表示制御手段を有することを特徴とする請求項１に記載の画像処理装置。
入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類ステップと、
前記分類ステップにより分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納ステップと、
前記格納ステップにより格納されたファイルに対する操作履歴を取得する取得ステップと、
前記取得ステップにより取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項７に記載の画像処理方法として実行させるためのプログラム。