JP2017117335A - 画像処理装置、画像処理方法、コンピュータプログラム - Google Patents
画像処理装置、画像処理方法、コンピュータプログラム Download PDFInfo
- Publication number
- JP2017117335A JP2017117335A JP2015254377A JP2015254377A JP2017117335A JP 2017117335 A JP2017117335 A JP 2017117335A JP 2015254377 A JP2015254377 A JP 2015254377A JP 2015254377 A JP2015254377 A JP 2015254377A JP 2017117335 A JP2017117335 A JP 2017117335A
- Authority
- JP
- Japan
- Prior art keywords
- image
- classification
- image processing
- file
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Facsimiles In General (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
【課題】 文書認識処理を行うには、分類された文書に対して毎回分類結果が合っているか否かをユーザーに提示し、ユーザーからの判定結果の指示を受信することを必要とするためユーザーが判定結果の指示を行うまで文書認識が完了しない。【解決手段】 上記課題を解決すべく本画像処理装置は、入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類手段と、前記分類手段により分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納手段と、前記格納手段により格納されたファイルに対する操作履歴を取得する取得手段と、前記取得手段により取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成手段と、を有することを特徴とする。【選択図】 図4
Description
本発明は、画像処理装置、その制御方法およびコンピュータプログラムに関する。
スキャナ等を用いて、紙媒体として発生した帳票の画像データを生成して帳票の種別を識別し、OCR(Optical Character Recognition)処理を行う技術がある。このような技術では、帳票の種別を識別し、OCR処理を行うために、全ての帳票の種別について、帳票種別毎に予め書式定義(帳票定義)を作成しておく必要があった。しかし、このような書式定義を予め作成するには、帳票種別の識別サービスの利用者または提供者に手間をかけるものであった。そこで、予め書式定義を作成することなく帳票種別を推定するために、情報処理装置において帳票の外観上の特徴に係る特徴データを帳票種別毎に蓄積する。そして、処理対象帳票の画像データを取得して、その処理対象帳票に係る特徴データを取得し、蓄積されている特徴データから、特徴データに一致または類似する特徴データを特定する(マッチング処理を行う)ことで、帳票種別を推定する。また、帳票種別が推定されなかった場合は、特徴データを追加する(特許文献1参照)。
従来技術のようにマッチング処理により文書の種別を認識する方法を利用する場合、文書認識結果を毎回ユーザーに提示し、ユーザーにこの認識結果に対して正しいか否かの判定を行わせる。そして、このユーザーによる判定結果を文書認識システムへ送信する。
このように、文書認識処理を行うには、分類された文書に対して毎回分類結果が合っているか否かをユーザーに提示し、ユーザーからの判定結果の指示を受信することを必要とする。よって、ユーザーが判定結果の指示を行うまで文書認識が完了しない。
本発明は、上記課題を解決するものであり、ユーザーの明示的な指示を必要とせず、自然な操作で文書識別処理を行う際に用いられる、文書分類ルールの生成が可能な画像処理装置の提供を目的とする。
本画像処理装置は、入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類手段と、前記分類手段により分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納手段と、前記格納手段により格納されたファイルに対する操作履歴を取得する取得手段と、前記取得手段により取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成手段と、を有することを特徴とする。
本発明の画像処理装置によれば、ユーザーが意図せずに自然な操作をすることで文書識別処理を行う際に用いられる、文書分類ルールの生成が可能になる。
(実施例1)
図1は、実施例1のシステム構成を示す図である。
図1は、実施例1のシステム構成を示す図である。
実施例1のシステムは、画像入力装置であるMFP101とサーバ102を備える。
LAN103には、MFP101が接続されている。また、LAN103はインターネット104に接続されており、サービスを提供しているサーバ102ともインターネット104経由で接続されている。MFP101、サーバ102は、LAN103を介して、互いに接続されており、画像データや各種情報の送受信を行う。この例では、MFP101はLAN103に接続されているが、その限りではない。MFP101はサーバ102に接続可能であればよい。なお、サーバ102は、画像入力装置から入力される画像の分類ルールの学習に用いる学習データを生成する情報処理装置である。
ここで、「分類ルール」とは、画像から取得された特徴量と画像を分類(識別)するための分類器との組合せのことである。ある特徴を有する画像は分類1へ、別の特徴を有する画像は分類2へと分類するため予め決まり(ルール)を設ける。
また、「学習データを生成する」とは、文書識別処理を行う際に用いられる文書分類ルールを生成することである。
具体的には、サーバ102は、画像入力装置から入力された画像の回転方向を統一した学習データを生成し、生成した学習データに基づいて、画像の分類ルールを構築する。
ここで、「分類ルール」とは、画像から取得された特徴量と画像を分類(識別)するための分類器との組合せのことである。ある特徴を有する画像は分類1へ、別の特徴を有する画像は分類2へと分類するため予め決まり(ルール)を設ける。
また、「学習データを生成する」とは、文書識別処理を行う際に用いられる文書分類ルールを生成することである。
具体的には、サーバ102は、画像入力装置から入力された画像の回転方向を統一した学習データを生成し、生成した学習データに基づいて、画像の分類ルールを構築する。
図2は、MFP101の構成例を示す図である。
図2(A)に示すように、MFP101は、コントローラ20〜操作部207を備える。
図2(A)に示すように、MFP101は、コントローラ20〜操作部207を備える。
装置制御部200は、MFP101内およびネットワークI/F206を経由した外部とのデータの受け渡しや、操作部207からの操作の受け付けを行う。
画像読取部201は、原稿を読み取り画像データを出力する。
画像処理部202は、画像読取部201や外部から入力される画像データを含む印刷情報を中間情報(以下「オブジェクト」と呼ぶ)に変換し、記憶部203のオブジェクトバッファに格納する。オブジェクトは、テキスト、グラフィック、イメージの属性を持つ。さらに、バッファしたオブジェクトに基づきビットマップデータを生成し、記憶部203のバッファに格納する。その際、色変換処理、濃度調整処理、トナー総量制御処理、ビデオカウント処理、プリンタガンマ補正処理、ディザなどの疑似中間調処理を行う。
記憶部203は、ROM、RAM、ハードディスク(HDD)などから構成される。ROMは、CPU204が実行する各種の制御プログラムや画像処理プログラムを格納する。RAMは、CPU204がデータや各種情報を格納する参照領域や作業領域として用いられる。また、RAMとHDDは、上記のオブジェクトバッファなどに用いられる。RAMとHDD上で画像データを蓄積し、ページのソートや、ソートされた複数ページにわたる原稿を蓄積し、複数部プリント出力を行う。
画像出力部205は、記録紙などの記録媒体にカラー画像を形成して出力する。ネットワークI/F部206は、MFP101をLAN103に接続し、インターネット104や他の装置との間で各種情報を送受信する。
操作部207は、タッチパネルや操作ボタンを備え、ユーザーからの操作を受け付けて装置制御部200へ該操作の情報を送信する。
図2(B)は、MFP101の外観を示す。画像読取部201は、複数のCCDを有している。この各CCDの感度が夫々異なっていると、たとえ原稿上の各画素の濃度が同じであったとしても、各画素が夫々違う濃度であると認識されてしまう。そのため、画像読取部では、最初に白板(一様に白い板)を露光走査し、露光走査して得られた反射光の量を電気信号に変換してコントローラに出力している。なお、画像処理202内のシェーディング補正部は、各CCDから得られた電気信号を元に、各CCDの感度の違いを認識している。そして、この認識された感度の違いを利用して、原稿上の画像をスキャンして得られた電気信号の値を補正している。さらに、シェーディング補正部は、コントローラ内のCPU204からゲイン調整の情報を受取ると、当該情報に応じたゲイン調整を行う。ゲイン調整は、原稿を露光走査して得られた電気信号の値を、どのように0〜255の輝度信号値に割り付けるかを調整するために用いられる。このゲイン調整により、原稿を露光走査して得られた電気信号の値を高い輝度信号値に変換したり、低い輝度信号値に変換したりすることができるようになっている。つまり、このゲイン調整により、読み取り信号のダイナミックレンジの調整が可能である。続いて、この原稿上の画像をスキャンする構成について説明する。
画像読取部201は、原稿上の画像を露光走査して得られた反射光をCCDに入力することで画像の情報を電気信号に変換する。さらに電気信号をR,G,B各色からなる輝度信号に変換し、当該輝度信号を画像としてコントローラ20に対して出力する。
なお、原稿は原稿フィーダ211のトレイ212にセットされる。ユーザーが操作部207から読み取り開始を指示すると、コントローラ20から画像読取部201に原稿読み取り指示が与えられる。画像読取部201は、この指示を受けると原稿フィーダ211のトレイ212から原稿を1枚ずつフィードして、原稿の読み取り動作を行う。なお、原稿の読み取り方法は原稿フィーダ211による自動送り方式ではなく、原稿を不図示のガラス面上に載置し露光部を移動させることで原稿の走査を行う方法であってもよい。
画像出力部205は、コントローラ20から受取った画像を用紙上に形成する画像形成デバイスである。なお、本実施例において画像形成方式は感光体ドラムや感光体ベルトを用いた電子写真方式となっているが、本実施例はこれに限られることはない。例えば、微少ノズルアレイからインクを吐出して用紙上に印字するインクジェット方式などでも適用可能である。また、画像出力部205には、異なる用紙サイズ又は異なる用紙向きを選択可能とする複数の用紙カセット213、214、215が設けられている。排紙トレイ216には印字後の用紙が排出される。
図3は、サーバの構成例を示す図である。
サーバ102は、CPU301〜データバス306を備える。
CPU301は、ROM303に記憶された制御プログラムを読み出して各種制御処理を実行する。RAM302は、CPU301の主メモリ、ワークエリア等の一時記憶領域として用いられる。ネットワークI/F部304は、サーバ102をインターネット104に接続し、他の装置との間で各種情報を送受信する。HDD305は、画像データや特徴量データ、各種プログラムを記憶する。
図3において、ネットワークI/F部304を介して受信したMFP101からの画像データを、データバス306を介してCPU301、RAM302、ROM303が送受する。CPU301がROM303やHDD305に格納された画像処理プログラムを実行することによって、画像データに対する画像処理が実現される。
<フローチャートを用いた本実施例の詳細説明>
図4は、原稿をスキャンして得られた画像に対して分類処理を行い、その結果に応じて分類先(格納先)を決定する。そして、画像(この画像が含まれたファイル)に対する操作ログ(操作履歴)を取得し、画像分類ルールを再学習(再生成)する処理を説明するフローチャートである。
このフローチャートに示される処理は、MFP101およびサーバ102にて実行される。図4のフローチャートに示される処理のうちMFP101が実行する処理は、CPU204が記憶部203に格納されている処理プログラムをロードして実行することで実現される。また、図4のフローチャートに示される処理のうちサーバ102が実行する処理は、CPU301が、HDD305に格納されている処理プログラムをRAM302にロードして実行することで実現される。
図4は、原稿をスキャンして得られた画像に対して分類処理を行い、その結果に応じて分類先(格納先)を決定する。そして、画像(この画像が含まれたファイル)に対する操作ログ(操作履歴)を取得し、画像分類ルールを再学習(再生成)する処理を説明するフローチャートである。
このフローチャートに示される処理は、MFP101およびサーバ102にて実行される。図4のフローチャートに示される処理のうちMFP101が実行する処理は、CPU204が記憶部203に格納されている処理プログラムをロードして実行することで実現される。また、図4のフローチャートに示される処理のうちサーバ102が実行する処理は、CPU301が、HDD305に格納されている処理プログラムをRAM302にロードして実行することで実現される。
ステップS401において、MFP101は、操作部207からユーザーの指示を受け付けると、原稿フィーダ211のトレイ212から原稿を1枚ずつフィードして、画像読取部201で原稿をスキャンする。
ステップS402において、CPU204は、原稿をスキャンすることで得られた入力画像の特徴量の取得処理を実行する。画像の特徴量に関しては、図6、図7を用いて後述する。
ステップS403において、CPU204はステップS402で取得した特徴量を記憶部203へ格納する。
ステップS404において、CPU204は、ステップS403で記憶部203に格納している特徴量と予め学習して作成された分類ルールに沿って分類処理を行う。分類処理の結果として、例えば、予め学習されている画像(学習済画像)のID番号と画像から取得される特徴量とが紐づけられており、ある特徴量を有する画像に対して、この特徴量に対応するID番号が出力される。よって、分類処理した結果、入力画像が学習画像のID1の画像である分類された場合、該当する画像IDである“1”を出力する。また、入力画像が学習済画像に分類できない場合には、未知帳票(未知画像)であることを示す画像IDを出力する。ここで分類処理に関しては、機械学習を利用した分類など、公知の技術を適用することが可能である。
ステップS405において、CPU204は、ステップS404の入力画像に対して分類をした結果、学習済画像に分類されるのか、学習していない未知画像に分類されるのかの判断を行う。ここではステップS404で説明した分類結果の画像IDを用いて、学習済画像に分類されるのか、未知画像に分類されるかの判断を行う。これ以外の方法により、学習済画像に分類されるか、未知画像に分類されるかを判断できる方法の適用が可能である。
ステップS406においてCPU201は、入力画像を保存するべく送信する送信先がMFP101から入力画像を含んだファイルを操作した情報が取得可能な送信先であるか否かの判断を行う。例えば、CPU204は、ネットワークI/F部206を介して送信先がファイヤーウォールを越えた先にあるか否かの判断を行う。ファイヤーウォールを越えた先に入力画像の送信先がある場合は、入力画像の保存先にアクセス権がないと判断をする。ここでアクセス権があるか否かについては、保存先のフォルダでファイルに対して行われた操作ログが取得できるか出来ないか否かを指している。
ここでは、保存先のフォルダに対してファイル操作ログが取得できるか否かを検出する公知の方法を適用することが可能である。
ここでは、保存先のフォルダに対してファイル操作ログが取得できるか否かを検出する公知の方法を適用することが可能である。
ステップS407においてCPU204は、ステップS406で送信先にアクセス権があると判定された場合に入力画像の保存処理を行う。ここで説明する一例として、入力画像の保存先にアクセス権があると判定され、このアクセス権があると判定された場所に、分類処理にて分類ができなかった(画像が未知であった)画像を保存するためのフォルダへ保存される。具体例としては、“未知”という名前のフォルダ(以下、未知フォルダとする)に入力画像が保存される。
ステップS408においてMFP101は、ステップS407で保存したファイルに対する操作ログの取得を行う。ここで、操作ログとは、ファイルに対してフォルダを移動するために行われた操作や、ファイル名を変更するために行われた操作や、ファイルを削除するために行われた操作についての情報である。具体例としては、未知フォルダに保存されている画像が、どこのフォルダへ移動するよう行われた操作の操作ログを取得する。
ステップS409においてCPU204は、ステップS408で取得した操作ログからフィードバック情報を生成する。フィードバック情報を生成するとは、未知フォルダに保存された画像がどこのフォルダへ移動するよう操作が行われたのかを示す操作ログを用いて、未知フォルダに保存されていた画像に対して、新たに画像IDを付与することである
具体例として例えば、未知フォルダに保存されている第1の画像をドキュメント1というフォルダへ移動したことを示す操作ログを用いて、第1の画像に対して、ドキュメント1に入るための画像IDを生成して付与する。この付与された情報をフィードバック情報とする。
具体例として例えば、未知フォルダに保存されている第1の画像をドキュメント1というフォルダへ移動したことを示す操作ログを用いて、第1の画像に対して、ドキュメント1に入るための画像IDを生成して付与する。この付与された情報をフィードバック情報とする。
ステップS410においてCPU204は、ステップS409で生成されたフィードバック情報から再学習処理を行う。再学習処理では、ステップS403で保持している特徴量とステップS409で生成されたフィードバック情報とを用いて、分類処理を行う際に用いられる閾値の更新処理を行う。例えば、フィードバック情報から画像ID情報を取得し、画像特徴量がその画像IDに分類されるようになるための閾値の算出処理が行われる。ここで、更新された閾値は分類処理へ反映され、分類に用いられる分類器の更新(文書識別処理を行う際に用いられる文書分類ルールの再生成)が行われる。
ステップS411においてCPU204は、ステップS406において入力画像の保存先に対してアクセス権がないと判断された場合、別途アクセス権がある保存先へファイルへの格納を行う。例えばMFP101の記憶部203へ格納を行う。
ステップS412においてMFP101は、ステップS411で保存したファイルに対する操作ログの取得を行う。ここでの操作ログの取得は、ステップS408で説明したことと同じであるため説明は省略する。
一方、ステップS405で画像が既知の画像であると判断されると、ステップS413に進む。ステップS413においてCPU204は、あらかじめ指定されているルールに沿って保存処理が行われる。
一方、ステップS405で画像が既知の画像であると判断されると、ステップS413に進む。ステップS413においてCPU204は、あらかじめ指定されているルールに沿って保存処理が行われる。
<画像分類に利用する画像特徴量の詳細>
画像分類処理で利用される画像特徴量について、図5と図6を用いて詳細を説明する。図5は、勾配情報に基づく画像特徴量の算出方法を説明する図である。
画像分類処理で利用される画像特徴量について、図5と図6を用いて詳細を説明する。図5は、勾配情報に基づく画像特徴量の算出方法を説明する図である。
図5に示すようにパッチ画像内の画素ごとに算出した勾配強度と勾配方向を利用する。具体的には、CPU301が、パッチ画像内の全ての画素について、縦方向と横方向のエッジ情報から勾配強度と勾配方向を求める。CPU301は、勾配情報を利用して、図5で示すように、1パッチから9次元(9個)の特徴量を算出する。まず、各画素について、勾配強度が一定値以上の画素をエッジ画素、一定値より小さい画素を非エッジ画素とする。エッジ画素群から勾配方向を8方向に量子化して、方向ごとの勾配強度積算値/パッチ画素数を計算し、非エッジ画素数/パッチ画素数と合わせて、1つのパッチ画像から9次元の特徴量を算出する。このように、エッジ画素と非エッジ画素を利用することで、罫線や文字の情報だけでなく、文書画像の大きな特徴である余白部分を表現することが可能になる。これまでの説明は、1つのパッチ画像における特徴量の説明であるが、実際には、複数のパッチ画像を切り出して利用することにより、多数の特徴量を利用する。
図6は、パッチ画像の切り出しを説明する図である。 まず、CPU301が、ノイズが表れやすい画像端(余白)を削除して、複数の解像度の画像を作成する。複数の解像度の画像を用意するのは、解像度ごとにエッジの構造が変わるためである。そして、CPU301が、それぞれの解像度の画像から複数のサイズのパッチ画像を走査しながら切り出すことで、パッチ画像位置を考慮した特徴量を算出する。例えば、300dpiでスキャンした画像から特徴量を抽出する場合を想定する。まず、CPU301が、スキャン画像を1/4サイズと1/8サイズに縮小した2種類の画像を作成する。CPU401は、上記縮小した各解像度の画像から1/4サイズのパッチ画像を1/5ずつずらして5×5=25枚、1/8サイズのパッチ画像を1/10ずつずらして、10×10=100枚切り出すことで、計250個のパッチを切り出す。このような設定においては、各パッチから9次元のエッジ特徴量を算出するので、画像1枚から9×250=2250次元の特徴量を算出することが可能となる。
図6は、パッチ画像の切り出しを説明する図である。 まず、CPU301が、ノイズが表れやすい画像端(余白)を削除して、複数の解像度の画像を作成する。複数の解像度の画像を用意するのは、解像度ごとにエッジの構造が変わるためである。そして、CPU301が、それぞれの解像度の画像から複数のサイズのパッチ画像を走査しながら切り出すことで、パッチ画像位置を考慮した特徴量を算出する。例えば、300dpiでスキャンした画像から特徴量を抽出する場合を想定する。まず、CPU301が、スキャン画像を1/4サイズと1/8サイズに縮小した2種類の画像を作成する。CPU401は、上記縮小した各解像度の画像から1/4サイズのパッチ画像を1/5ずつずらして5×5=25枚、1/8サイズのパッチ画像を1/10ずつずらして、10×10=100枚切り出すことで、計250個のパッチを切り出す。このような設定においては、各パッチから9次元のエッジ特徴量を算出するので、画像1枚から9×250=2250次元の特徴量を算出することが可能となる。
なお、画像解像度、パッチサイズ、パッチ切り出し位置に関するパラメータは、上述した数字に限定されるものではない。また、取得する画像特徴量として、原稿の色の情報を利用するために、色ヒストグラムや色分散等を画像特徴量としてもよい。
<学習データ増加処理の詳細>
画像方向統一処理において、機械学習を利用して方向判別器の生成をする際に学習データを増やす学習データ増加処理について説明をする。本実施例では、画像をシミュレーションによって変形処理を施すことで変形画像を得て、それを学習データとして増やす。
画像方向統一処理において、機械学習を利用して方向判別器の生成をする際に学習データを増やす学習データ増加処理について説明をする。本実施例では、画像をシミュレーションによって変形処理を施すことで変形画像を得て、それを学習データとして増やす。
図7は、変形処理であるシフト処理、回転処理、拡大縮小処理を説明する図である。これらの幾何学的変形処理は、射影変換行列を利用して実現する。図7(A)は、シフト処理を表している。シフト処理では、上下左右あるいは左上、右上、左下、右下に一定量だけ画像を並行移動させることで8パターンの変形画像を得る。図7(B)は、回転処理を表している。回転処理では、一定量だけ時計回りと反時計回りの回転させることで、2パターンの変形画像を得る。図7(C)は、拡大縮小処理を表している。拡大縮小処理では、画像を一定倍率だけ拡大または縮小することで2パターンの変形画像を得る。なお、それぞれの変形処理において、入力画像と出力画像とは同サイズである。射影変換後に出力画像の画像領域外にはみ出てしまう画像外領域については破棄する。また、出力画像の内部で射影元の存在しない欠損領域については、非欠損画素の画素値を順次コピーしていくことで補完する。この欠損領域の扱いについては、上述した方法による補完に限られるものではない。例えば、入力画像から推定した背景画素に置き換えるような他の補完方法でもよいし、補完は行なわずに欠損画素について欠損画素であるというフラグ情報を付加してマスク処理に利用する方法でもよい。
学習データ増加処理では、これらシフト処理、回転処理、拡大縮小処理のパターンのそれぞれに変形しないというパターンを組み合わせることで、1枚の画像データからその組み合わせの数だけ変形画像を得ることができる。具体的には、上述した各変形処理のパターンに補正無しの場合を加えて、シフト処理が9パターン、回転処理が3パターン、拡大縮小処理が3パターンであるので、1枚の画像から3×9×3=81パターンの変形画像を生成して、学習データを増加させる。なお、それぞれの変形処理のパターン数は上述の数字に限定されるものではない。
<利用する機械学習の詳細>
次に、本実施例において画像を分類する分類器の生成に利用する機械学習の手法について説明をする。本実施例では、機械学習の手法としてReal AdaBoostと呼ばれる公知の手法を利用する。Real AdaBoostは、大量の特徴量から、与えられた学習データセットの分類に適した特徴量を選択して、その特徴量を組み合わせて分類器を構成することが可能な方法である。画像の分類時に大量の特徴量を利用すると、特徴量の計算負荷のためにパフォーマンスが低下してしまう。このように、分類に適した特徴量を選択して、一部の特徴量だけを利用し、分類器を構成できることは、Real AdaBoostの大きな利点である。ただし、Real AdaBoostは、2クラス分類器であり、2種類のラベルがついたデータを分類するものである。つまり、このままでは、3種類以上の画像の分類には利用することができない。そこで、2クラス分類器を多クラス分類器に拡張するOVA(One−Versus−All)と呼ばれる公知の方法を利用する。OVAは、1つのクラス(対象クラス)とそれ以外のクラスを分類する分類器をクラスの数だけ作成し、それぞれの分類器の出力を、対象クラスの信頼度とする。分類の際には、分類したいデータをすべての分類器に入力し、信頼度が最大であったクラスを分類先とする。
次に、本実施例において画像を分類する分類器の生成に利用する機械学習の手法について説明をする。本実施例では、機械学習の手法としてReal AdaBoostと呼ばれる公知の手法を利用する。Real AdaBoostは、大量の特徴量から、与えられた学習データセットの分類に適した特徴量を選択して、その特徴量を組み合わせて分類器を構成することが可能な方法である。画像の分類時に大量の特徴量を利用すると、特徴量の計算負荷のためにパフォーマンスが低下してしまう。このように、分類に適した特徴量を選択して、一部の特徴量だけを利用し、分類器を構成できることは、Real AdaBoostの大きな利点である。ただし、Real AdaBoostは、2クラス分類器であり、2種類のラベルがついたデータを分類するものである。つまり、このままでは、3種類以上の画像の分類には利用することができない。そこで、2クラス分類器を多クラス分類器に拡張するOVA(One−Versus−All)と呼ばれる公知の方法を利用する。OVAは、1つのクラス(対象クラス)とそれ以外のクラスを分類する分類器をクラスの数だけ作成し、それぞれの分類器の出力を、対象クラスの信頼度とする。分類の際には、分類したいデータをすべての分類器に入力し、信頼度が最大であったクラスを分類先とする。
図8は、学習データを用いた機械学習の例を説明する図である。
この例では、学習データとして、3つのクラスの画像(画像A、画像B、画像C)のそれぞれに対応する画像特徴量が用意されているものとする。この3つのクラスを分類するために、OVAでは3種類の分類器を用意する。3種類の分類器は、画像Aとその他の画像を判別するための画像A判別器、画像Bとその他の画像を判別するための画像B判別器、画像Cとその他の画像を判別するための画像C判別器である。
画像A判別器は、画像Aが入力されたときに、大きい出力値(確信度)が出力され、それ以外の画像が入力されたときは、小さい出力値(確信度)が出力される。画像B判別器、画像C判別器についても同様である。実際の分類を行う際には、入力文書画像を3種類の分類器に入力し、その出力値の比較を行って、どの画像かを決定する。例えば画像B判別器の出力が最大であった場合は、その入力画像が画像Bであると判別する。
図8を参照して説明したReal AdaBoostとOVAを利用した多クラス分類器の学習と、多クラス分類器を利用した文書画像分類は、CPU301で実行される。なお、本実施例で利用可能な機械学習の手法は、上述した手法に限定されるものではない。Supprot Vector MachineやRandom Forest等の公知の手法を利用してもよい。特徴選択の枠組みが機械学習の手法に含まれていない場合に、分類時の分類速度を向上させたい場合には、主成分分析や判別分析を利用した特徴量選択等の公知の特徴量選択を行う。機器学習手法が2クラス分類器である場合は、OVA以外の、All−Versus−All(AVA)やError−Correcting Output−Coding(ECOC)等の公知の手法を用いてもよい。
以上、実施例1によれば、分類先(格納先)が未知であった入力画像に対して、ユーザーのファイルに対する操作ログを取得し、取得された操作ログを利用することにより文書識別処理を行う際に用いられる文書分類ルールの生成(再学習)が可能となる。つまり、文書の分類に用いられる分類器が更新される。
これにより、ユーザーが明示的に再学習を指示することなく、分類ルールを有さない(学習をしていない)画像に対しても画像分類が行うことが可能になる。
(実施例2)
実施例1では、未知フォルダに格納された画像に対する操作は、フォルダの移動処理を説明していた。
実施例1では、未知フォルダに格納された画像に対する操作は、フォルダの移動処理を説明していた。
実施例2では、未知フォルダに格納した画像に対して削除の操作が行われることを想定する。以下では、実施例1と差分がある部分についてのみ説明する。
<フローチャートを用いた本実施例の詳細説明>
図9は、未分類となった入力画像に対する操作ログから入力画像を含むファイルを削除したか否かを検知し、削除したことに応じてフィードバック情報を生成する処理について説明するフローチャートである。図9に示す処理のうちMFP101が実行する処理は、CPU204が記憶部203に格納されている処理プログラムをロードして実行することで実現される。また、ステップS401〜S413については実施例1にて説明したので割愛する。
図9は、未分類となった入力画像に対する操作ログから入力画像を含むファイルを削除したか否かを検知し、削除したことに応じてフィードバック情報を生成する処理について説明するフローチャートである。図9に示す処理のうちMFP101が実行する処理は、CPU204が記憶部203に格納されている処理プログラムをロードして実行することで実現される。また、ステップS401〜S413については実施例1にて説明したので割愛する。
ステップS901においてCPU204は、ステップS408あるいはステップS412で取得したログからファイルが削除されたか否かの判断を行う。ファイルが削除されたか否かの検知は公知の方法で取得が可能である。
ステップS902においてCPU204は、ステップS901でファイルが削除された操作がなされたと判断した場合に、削除用のフォルダを生成しそこへ画像を格納する。または、ユーザーの指示を仰ぐ表示を操作部207に対して行う。ここで操作部207に表示されるものとしては、削除用のフォルダを生成しそこへファイルを移動するか、削除用のフォルダ生成は行わずファイルを削除するかをユーザーに選択させるものである。
ステップS903において、CPU204はユーザーが操作部207に対して、削除用フォルダを生成すると入力されたか、削除用フォルダを生成しないと入力されたか判断を行う。
ステップS904においてCPU204は、ステップS903で削除用のフォルダを生成すると指示があった場合に削除用のフォルダを生成し、そのフォルダへ削除対象の画像を含むファイルを格納する。そして、削除用のフォルダへ画像を含むファイルが分類されるように、画像IDをファイルへ付与する。
そして、ステップS409にて、処理対象の画像を削除用のフォルダに分類するための画像IDが入力される。
そして、ステップS409にて、処理対象の画像を削除用のフォルダに分類するための画像IDが入力される。
ステップS903においてCPU204は、削除用のフォルダを生成しないとされた場合にはファイルを削除し、フィードバック情報は生成せずに処理を終える。
実施例2によれば、未知フォルダに入っている画像が削除された操作ログを取得する。
例えば、未知フォルダに保存されている画像が削除された場合には、その操作ログから、その画像は不要な画像であると考えられる。よって、入力画像に対して不要、あるいはゴミ箱に分類されるような画像IDを付与する。これにより、不要な画像が何度も未知フォルダへ分類されることを避けることが可能になるため、ユーザーが毎回未知フォルダへ分類された画像を削除するようなわずらわしい操作を減らすことができる。
例えば、未知フォルダに保存されている画像が削除された場合には、その操作ログから、その画像は不要な画像であると考えられる。よって、入力画像に対して不要、あるいはゴミ箱に分類されるような画像IDを付与する。これにより、不要な画像が何度も未知フォルダへ分類されることを避けることが可能になるため、ユーザーが毎回未知フォルダへ分類された画像を削除するようなわずらわしい操作を減らすことができる。
(その他の実施例)
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (8)
- 入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類手段と、
前記分類手段により分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納手段と、
前記格納手段により格納されたファイルに対する操作履歴を取得する取得手段と、
前記取得手段により取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成手段と、
を有することを特徴とする画像処理装置。 - 前記分類手段は、前記操作履歴を反映して再生成された分類ルールを用いて、入力された画像を分類することを特徴とする請求項1に記載の画像処理装置。
- 前記分類ルールとは、画像から取得された特徴量と前記画像を分類するための分類器との組合せであることを特徴とする請求項1に記載の画像処理装置。
- 前記操作履歴とは、前記画像を含むファイルに対するフォルダ移動または前記ファイル名の変更または前記ファイルの削除に関する情報であることを特徴とする請求項1に記載の画像処理装置。
- 前記格納手段により前記画像を含むファイルを格納する格納先に対してアクセス権がない場合、前記格納先とは別の格納先でありアクセス権がある格納先へ前記ファイルを格納することを特徴とする請求項1に記載の画像処理装置。
- 前記操作履歴が特定の操作である場合、画面に指示を受けるための表示を行う表示制御手段を有することを特徴とする請求項1に記載の画像処理装置。
- 入力された画像から取得した特徴量と分類ルールを用いて前記画像に対して分類を行う分類ステップと、
前記分類ステップにより分類された結果に基づいて決められた格納先に前記画像を含むファイルを格納する格納ステップと、
前記格納ステップにより格納されたファイルに対する操作履歴を取得する取得ステップと、
前記取得ステップにより取得した操作履歴を前記分類ルールへ反映し、前記分類ルールを再生成する生成ステップと、
を有することを特徴とする画像処理方法。 - コンピュータを、請求項7に記載の画像処理方法として実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015254377A JP2017117335A (ja) | 2015-12-25 | 2015-12-25 | 画像処理装置、画像処理方法、コンピュータプログラム |
PCT/JP2016/087324 WO2017110640A1 (ja) | 2015-12-25 | 2016-12-15 | 画像処理装置、画像処理方法、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015254377A JP2017117335A (ja) | 2015-12-25 | 2015-12-25 | 画像処理装置、画像処理方法、コンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017117335A true JP2017117335A (ja) | 2017-06-29 |
Family
ID=59090164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015254377A Pending JP2017117335A (ja) | 2015-12-25 | 2015-12-25 | 画像処理装置、画像処理方法、コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2017117335A (ja) |
WO (1) | WO2017110640A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019171453A1 (ja) * | 2018-03-06 | 2019-09-12 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
WO2019171546A1 (ja) * | 2018-03-08 | 2019-09-12 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
JP2020107272A (ja) * | 2018-12-28 | 2020-07-09 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN113676609A (zh) * | 2020-05-15 | 2021-11-19 | 夏普株式会社 | 图像形成装置以及文档数据分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4220595B2 (ja) * | 1998-08-10 | 2009-02-04 | 株式会社日立製作所 | 欠陥の分類方法並びに教示用データ作成方法 |
JP5830784B2 (ja) * | 2011-06-23 | 2015-12-09 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム |
-
2015
- 2015-12-25 JP JP2015254377A patent/JP2017117335A/ja active Pending
-
2016
- 2016-12-15 WO PCT/JP2016/087324 patent/WO2017110640A1/ja active Application Filing
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7070656B2 (ja) | 2018-03-06 | 2022-05-18 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
JPWO2019171453A1 (ja) * | 2018-03-06 | 2021-02-04 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
WO2019171453A1 (ja) * | 2018-03-06 | 2019-09-12 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
WO2019171546A1 (ja) * | 2018-03-08 | 2019-09-12 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
JPWO2019171546A1 (ja) * | 2018-03-08 | 2021-02-04 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
JP7163955B2 (ja) | 2018-03-08 | 2022-11-01 | 株式会社島津製作所 | 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法 |
US11978211B2 (en) | 2018-03-08 | 2024-05-07 | Shimadzu Corporation | Cellular image analysis method, cellular image analysis device, and learning model creation method |
JP2020107272A (ja) * | 2018-12-28 | 2020-07-09 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7339491B2 (ja) | 2018-12-28 | 2023-09-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN113676609A (zh) * | 2020-05-15 | 2021-11-19 | 夏普株式会社 | 图像形成装置以及文档数据分类方法 |
CN113676609B (zh) * | 2020-05-15 | 2024-05-14 | 夏普株式会社 | 图像形成装置以及文档数据分类方法 |
JP7492858B2 (ja) | 2020-05-15 | 2024-05-30 | シャープ株式会社 | 画像形成装置 |
US12003677B2 (en) * | 2020-05-15 | 2024-06-04 | Sharp Kabushiki Kaisha | Image forming apparatus and document data classification method |
Also Published As
Publication number | Publication date |
---|---|
WO2017110640A1 (ja) | 2017-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6433187B2 (ja) | 情報処理装置、その制御方法およびコンピュータプログラム | |
JP4574235B2 (ja) | 画像処理装置、及びその制御方法、プログラム | |
JP2017107455A (ja) | 情報処理装置、制御方法、及びプログラム | |
WO2017110640A1 (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
US8958116B2 (en) | Inspection apparatus, inspection system, inspection method, and storage medium | |
US20090284801A1 (en) | Image processing apparatus and image processing method | |
US20170124390A1 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium | |
JP2017146745A (ja) | 情報処理装置、制御方法、情報処理システム、およびプログラム | |
JP2022147074A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP6672668B2 (ja) | 画像処理装置及びプログラム | |
JP4213112B2 (ja) | 画像検索装置、画像形成装置、画像検索装置の制御方法、画像検索プログラムおよびコンピュータ読取り可能な記録媒体 | |
US9338310B2 (en) | Image processing apparatus and computer-readable medium for determining pixel value of a target area and converting the pixel value to a specified value of a target image data | |
US11223743B2 (en) | Image processing system, image processing apparatus, method of controlling the image processing apparatus, and storage medium | |
US20150156371A1 (en) | Image processing apparatus and method | |
JP6494435B2 (ja) | 情報処理装置、その制御方法及びコンピュータプログラム | |
JP2006203584A (ja) | 画像処理装置及びプログラム | |
US20220182497A1 (en) | Image processing system, image processing apparatus, control method | |
US8059296B2 (en) | Image forming apparatus that synthesizes fiber information extracted from pages of a paper medium having a plurality of pages, and an image forming apparatus control method, a program, and a storage medium relating thereto | |
US9641723B2 (en) | Image processing apparatus with improved slide printout based on layout data | |
US9355473B2 (en) | Image forming apparatus having color conversion capability | |
JP2019153061A (ja) | 画像処理装置、その制御方法、及びプログラム | |
US11212419B1 (en) | Image reading system, image forming system, and image reading method that perform image processing for each area | |
US11012589B2 (en) | Image processing apparatus and non-transitory computer readable medium with background emphasis of reduced image | |
JP2008141680A (ja) | 画像形成装置、および画像形成装置の制御方法 | |
JP2023158554A (ja) | 文字画質調整システム、文字画質調整装置とその制御方法及びプログラム |