JP6433187B2 - 情報処理装置、その制御方法およびコンピュータプログラム - Google Patents

情報処理装置、その制御方法およびコンピュータプログラム Download PDF

Info

Publication number
JP6433187B2
JP6433187B2 JP2014161717A JP2014161717A JP6433187B2 JP 6433187 B2 JP6433187 B2 JP 6433187B2 JP 2014161717 A JP2014161717 A JP 2014161717A JP 2014161717 A JP2014161717 A JP 2014161717A JP 6433187 B2 JP6433187 B2 JP 6433187B2
Authority
JP
Japan
Prior art keywords
image
information
determined
input device
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014161717A
Other languages
English (en)
Other versions
JP2016038732A (ja
JP2016038732A5 (ja
Inventor
崇 宮内
崇 宮内
純也 荒川
純也 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014161717A priority Critical patent/JP6433187B2/ja
Priority to US14/810,514 priority patent/US9602685B2/en
Publication of JP2016038732A publication Critical patent/JP2016038732A/ja
Publication of JP2016038732A5 publication Critical patent/JP2016038732A5/ja
Application granted granted Critical
Publication of JP6433187B2 publication Critical patent/JP6433187B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00336Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing pattern recognition, e.g. of a face or a geographic feature
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3877Image rotation
    • H04N1/3878Skew detection or correction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/393Enlarging or reducing
    • H04N1/3935Enlarging or reducing with modification of image resolution, i.e. determining the values of picture elements at new relative positions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、その制御方法およびコンピュータプログラムに関する。
紙帳票を扱うワークフローの効率化を実現する技術の一つとして、機械学習を利用した画像分類が提案されている。機械学習を利用した画像分類は、一般的に学習と分類の2つのプロセスを有し、画像群(学習セット)を与えることで分類ルールを学習によって構築し、構築した分類ルールに基づいて入力画像を分類する。すなわち、学習セットは、システムに入力される画像を分類する分類ルールの学習に用いる学習データである。
紙帳票を扱うワークフローに機械学習を利用した画像分類を応用すると、スキャン画像の格納先や配布先の自動決定、ファイル名の自動生成などが可能になる。また、顧客毎に用意した帳票から学習することで、個別にカスタマイズされた分類ルールを構築することも可能になる。
学習と分類で画像の性質が異なると、十分な分類精度が得られないので、一般的には分類時の入力画像を想定して大量の画像を用意する必要がある。現場で学習を行なう場合や分類時に画像の性質が変化する場合など、学習セットに十分な数やパターンの画像を用意することができない場合には、システムが、ユーザから与えられた画像を増やして学習に利用する方法が知られている。
特許文献1は、カメラでの撮影時に生じるボケやブレを模した画像処理を参照画像に施すことで学習画像を増やす方法を提供している。
国際公開第2010/101186号
しかし、カメラで撮影された画像を単に増やして学習セットの画像を生成することは、様々な特性を有する機器から入力される画像の分類に用いられる学習セットの生成方法として有効とは言えない。例えば、カメラ付携帯端末が画像を撮影して情報処理装置に入力し、情報処理装置が、入力された画像を、学習セットに基づく分類ルールで分類する場合を想定する。この場合、カメラ付携帯端末の距離、傾き、焦点距離、露光、シャッター速度、手ぶれなどの様々な撮影時の要因や、被写界深度・レンズ特性・手ブレ補正機能の有無といった機器毎の特性によって、画像の性質は大きく変化する。したがって、情報処理装置が、カメラ付携帯端末の特性に応じて変化する様々な画像の分類に適した学習セットを生成することが必要となる。
また、紙帳票を扱うワークフローでは、スキャン機能を備えたMFP(Multi Function Peripheral)などの、カメラ以外の画像入力装置も想定される。MFPは、スキャン画像を情報処理装置に入力する。情報処理装置は、入力されたスキャン画像を分類する。スキャン画像とカメラ画像とでは画像の性質が異なるし、同じスキャン画像でも、画像入力装置のスキャナの方式の違い・斜行や位置ずれの規格の違いによって、画像の性質は大きく変化する。
このように、使用する画像入力装置の種類や特性から画像の性質は大きく変化するため、様々な画像を用意することが有用であると考えられる。しかし、あらゆる入力画像を想定した膨大な量の画像を増やして学習セットとし、分類ルールの学習に利用することは、分類ルールの構築を困難にし、学習時間も増えてしまう。
本発明は、画像の分類ルールの学習に用いられる学習データを生成する装置であって、画像入力装置の種類や特性に応じた高品質の学習データを生成する情報処理装置の提供を目的とする。
本発明の一実施形態の情報処理装置は、画像入力装置から入力される画像を分類する分類ルールの学習に用いる学習データを生成する情報処理装置であって、初期画像を受け付ける受け付け手段と、前記画像入力装置に関するデバイス情報を取得する取得手段と、前記デバイス情報に基づいて補正パラメータを決定し、当該決定された補正パラメータを用いて前記受け付け手段により受け付けた初期画像を補正し、前記初期画像とは異なる画像を生成する第1の生成手段と、前記第1の生成手段により生成された画像と前記入力された初期画像とを用いて学習データを生成する第2の生成手段と、を備え、前記第1の生成手段は、前記デバイス情報に基づいて、前記画像入力装置が画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部の規格に基づいて前記補正パラメータを決定し、前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が行う撮影画像からの原稿抽出に伴う画像劣化の情報に基づいて前記補正パラメータを決定する
本発明の情報処理装置によれば、画像入力装置の種類や特性に応じた高品質の学習データを生成することができる。
実施例1のシステム構成を示す図である。 MFPの構成例を示す図である。 携帯端末の構成例を示す図である。 サーバの構成例を示す図である。 サーバによる画像分類ルールを学習する処理の一例を説明する図である。 撮影画像と原稿領域の一例を示す図である。 回転処理、シフト処理、拡大縮小処理を説明する図である。 勾配情報に基づく画像特徴量の算出を説明する図である。 パッチ画像の切り出しを説明する図である。 学習データを用いた機械学習の例を説明する図である。 実施例2のシステム構成を示す図である。 実施例2における画像分類ルールを学習する処理を説明する図である。 標準画像への変換処理の例を説明するフローチャートである。
(実施例1)
図1は、実施例1のシステム構成を示す図である。
実施例1のシステムは、サーバ40と、画像入力装置である携帯端末30、MFP10を備える。
LAN60には、画像処理装置であるMFP10と無線ルータ50が接続されている。また、LAN60はインターネット70に接続されており、サービスを提供しているサーバ40ともインターネット70経由で接続されている。MFP10、携帯端末30、サーバ40は、無線ルータ50およびLAN60を介して、互いに接続されており、画像データや各種情報の送受信を行う。この例では、無線ルータ50、MFP10はLAN60に接続されているが、その限りではない。無線ルータ50、MFP10はサーバ40に接続可能であればよい。なお、サーバ40は、画像入力装置から入力される画像を分類する分類ルールの学習に用いる学習データを生成する情報処理装置である。具体的には、サーバ40は、画像入力装置から入力された画像を増やして学習データを生成し、生成した学習データに基づいて、画像の分類ルールを構築する。
図2は、MFPの構成例を示す図である。
図2(A)に示すように、MFP10は、装置制御部100、画像読取部101、画像処理部102、記憶部103、CPU104、画像出力部105、ネットワークI/F部106および操作部107を備える。
装置制御部100は、MFP内およびネットワークI/F106を経由した外部とのデータの受け渡しや、操作部からの操作の受け付けを行う。画像読取部101は、原稿の画像を読み取り、画像データを出力する。画像処理部102は、画像読取部101や外部から入力される画像データを含む印刷情報を中間情報(以下「オブジェクト」と呼ぶ)に変換し、記憶部103のオブジェクトバッファに格納する。オブジェクトは、テキスト、グラフィック、イメージの属性を持つ。さらに、バッファしたオブジェクトに基づきビットマップデータを生成し、記憶部103のバッファに格納する。その際、色変換処理、濃度調整処理、トナー総量制御処理、ビデオカウント処理、プリンタガンマ補正処理、ディザなどの疑似中間調処理を行う。
記憶部103は、ROM、RAM、ハードディスク(HD)などから構成される。ROMは、CPU104が実行する各種の制御プログラムや画像処理プログラムを格納する。RAMは、CPU104がデータや各種情報を格納する参照領域や作業領域として用いられる。また、RAMとHDは、上記のオブジェクトバッファなどに用いられる。RAMとHD上で画像データを蓄積し、ページのソートや、ソートされた複数ページにわたる原稿を蓄積し、複数部プリント出力を行う。
画像出力部105は、記録紙などの記録媒体にカラー画像を形成して出力する。ネットワークI/F部106は、MFP10をLAN60に接続し、インターネット70や他の装置との間で各種情報を送受信する。操作部107は、タッチパネルや操作ボタンを備え、ユーザからの操作を受け付けて装置制御部100へ該操作の情報を送信する。
図2(B)は、MFP10の外観を示す。画像読取部101において、原稿台ガラス203および原稿圧板202の間に画像を読み取る原稿204が置かれ、原稿204はランプ205の光に照射される。原稿204からの反射光は、ミラー206と207に導かれ、レンズ208によって3ラインセンサ210上に像が結ばれる。なお、レンズ208には赤外カットフィルタ231が設けられている。図示しないモータにより、ミラー206とランプ205を含むミラーユニットを速度Vで、ミラー207を含むミラーユニットを速度2/Vで矢印の方向に移動する。つまり、3ラインセンサ210の電気的走査方向(主走査方向)に対して垂直方向(副走査方向)にミラーユニットが移動し、原稿204の全面を走査する。
3ラインのCCDからなる3ラインセンサ210は、入力される光情報を色分解して、フルカラー情報レッドR、グリーンGおよびブルーBの各色成分を読み取り、その色成分信号を画像処理部102へ送る。なお、3ラインセンサ210を構成するCCDはそれぞれ5000画素分の受光素子を有し、原稿台ガラス203に載置可能な原稿の最大サイズであるA3サイズの原稿の短手方向(297mm)を600dpiの解像度で読み取ることができる。
標準白色板211は、3ラインセンサ210の各CCD210−1から210−3によって読み取ったデータを補正するためのものである。標準白色板211は、可視光でほぼ均一の反射特性を示す白色である。
画像処理部102は、3ラインセンサ210から入力される画像信号を電気的に処理して、シアンC、マゼンタM、イエローYおよびブラックKの各色成分信号を生成し、生成したCMYKの色成分信号を画像出力部105に送る。画像処理部102は、外部から入力された画像データについても、同等の処理をして、生成したCMYKの色成分信号を画像出力部105に送る。このとき出力される画像はディザなどの疑似中間処理が行われたCMYKの画像となっている。また、画像に対し、MFPのメーカー名やモデル名・画像解像度・その他読取設定などのヘッダー情報を付与する。このヘッダー情報は、後述する画像入力装置のデバイス情報の取得に利用する。
画像出力部105において、画像読取部101から送られてくるC、M、YまたはKの画像信号はレーザドライバ212へ送られる。レーザドライバ212は、入力される画像信号に応じて半導体レーザ素子213を変調駆動する。半導体レーザ素子213から出力されるレーザビームは、ポリゴンミラー214、f−θレンズ215およびミラー216を介して感光ドラム217を走査し、感光ドラム217上に静電潜像を形成する。
現像器は、マゼンタ現像器219、シアン現像器220、イエロー現像器221およびブラック現像器222から構成される。四つの現像器が交互に感光ドラム217に接することで、感光ドラム217上に形成された静電潜像を対応する色のトナーで現像してトナー像を形成する。記録紙カセット225から供給される記録紙は、転写ドラム223に巻き付けられ、感光ドラム217上のトナー像が記録紙に転写される。このようにしてC、M、YおよびKの四色のトナー像が順次転写された記録紙は、定着ユニット226を通過することで、トナー像が定着された後、装置外へ排出される。
図3は、携帯端末の構成例を示す図である。
携帯端末30は、CPU301乃至モーションセンサ310を備える。CPU301、RAM302、ROM303が、データバス311を介してプログラムやデータを送受信する。データバス311には、記憶部304、データ送受信部305、撮像部306、表示部307、操作部308、画像処理部309、モーションセンサ310が接続される。さらに、CPU301、RAM302、ROM303も併せて、互いにプログラムやデータの送受信を行う。
記憶部304は、フラッシュメモリであり、画像データや各種プログラムが格納される。データ送受信部305は、無線LANコントローラを有し、無線ルータ50を介してサーバ40とのデータの送受信を実現する。撮像部306は、カメラであり、原稿の撮影を行って撮影画像を取得する。取得された撮影画像のデータには、携帯端末のメーカー名やモデル名・画像解像度・絞り(F値)・焦点距離などのヘッダー情報が付与され、後述のように各部に送信される。このヘッダー情報は、後述する画像入力装置のデバイス情報の取得に利用する。
表示部307は、タッチパネルディスプレイであり、カメラ機能を用いて原稿を撮影する際にライブビューによる表示や、本実施例の学習終了通知などの各種情報を表示する。操作部308は、タッチパネルや操作ボタンであり、ユーザからの操作を受け付けて各部へ該操作の情報を送信する。
画像処理部309は、撮影画像のデータから原稿抽出を行う。モーションセンサ310は、3軸加速度センサ、電子コンパス、3軸角速度センサを搭載しており、公知の技術を利用することにより、携帯端末30の姿勢や移動を検知することが可能である。なお、CPU301がROM303や記憶部304が保持するプログラムを実行することで、これらの携帯端末30内の構成要素の制御を行う。
カメラ機能を持つ端末装置ならば本発明への適用が可能である。すわなち、携帯端末30は、カメラ機能を持ったスマートフォンや携帯電話でも、通信機能を持ったデジタルカメラでも構わない。
図4は、サーバの構成例を示す図である。
サーバ40は、CPU401乃至ネットワークI/F部404を備える。
CPU401は、ROM403に記憶された制御プログラムを読み出して各種制御処理を実行する。RAM402は、CPU401の主メモリ、ワークエリア等の一時記憶領域として用いられる。ネットワークI/F部404は、サーバ40をインターネット70に接続し、他の装置との間で各種情報を送受信する。HDD405は、画像データや特徴量データ、各種プログラムを記憶する。
図4において、ネットワークI/F部404を介して受信したMFP10または携帯端末30からの画像データを、データバス410を介してCPU401、RAM402、ROM403が送受する。CPU401がROM403やHDD405に格納された画像処理プログラムを実行することによって、画像データに対する画像処理が実現される。
図5は、サーバによる画像分類ルールを学習する処理の一例を説明するフローチャートである。
図5に示す処理は、CPU401が、HDD405に格納されている処理プログラムをRAM402にロードして実行することで実現される。
まず、CPU401が、画像入力装置(MFP10または携帯端末30)からLAN60およびインターネット70を経由して、画像入力装置から入力される画像データを受け付ける(ステップS501)。CPU401は、受け付けた画像データをHDD405に初期画像として記録する。
本実施例では、画像入力装置が1つに限定される状況を前提として画像分類ルールの学習処理を行なう。したがって、MFP10が画像データを入力した場合には、以降の処理では、画像入力装置はMFP10、操作部は操作部107である。また、携帯端末30が画像データを入力した場合には、以降の処理では、画像入力装置は携帯端末30、操作部は操作部308である。なお、携帯端末30は、撮影によって取得した画像(撮影画像)から原稿を抽出し、当該抽出された原稿の画像をサーバ40に入力する。原稿の抽出処理の詳細については、図6を用いて後述する。
次に、サーバ40のCPU401が、画像データの入力が終了したかを判断する(ステップS502)。ユーザが、操作部107(図2)または操作部308(図3)を用いて画像データの入力終了を指示すると、CPU401が、ネットワークI/F部404を介して、上記の指示を受信する。したがって、CPU401は、この指示を受信した場合には、画像データの入力が終了したと判断する。画像データの入力が終了していない場合は、処理がステップS501に戻る。画像データの入力が終了した場合は、処理がステップS503に進む。なお、ステップS502の判断処理に、他の方法を用いてもよい。例えば、サーバ40で入力画像数をカウントしておき、予めユーザによって操作部107または操作部308を介して設定された最大入力画像数に達した場合には、画像データの入力が終了したと判断する方法が考えられる。
次に、CPU401が、HDD405に初期画像として記録された画像データのヘッダー情報から、画像入力装置に関するデバイス情報を取得する(ステップS503)。本実施例では、学習時と分類時とで画像入力装置が同一である場合を想定している。したがって、ステップS503で取得されるデバイス情報は、分類対象の画像を入力する画像入力装置のデバイス情報でもある。デバイス情報は、MFP10や携帯端末30のメーカー名やモデル名といった、画像入力装置のデバイスを特定するために必要な情報である。なお、デバイス情報の取得方法は、この方法に限定されるものではない。ユーザによって操作部107または操作部308を介してデバイス情報が設定されてもよい。
次に、CPU401が、ステップS503で取得したデバイス情報に基づいて、追加画像を生成するための画像補正パラメータを決定する(ステップS504)。すなわち、CPU401は、画像入力装置の特性に応じて初期画像を補正することで追加画像を生成、つまり初期画像を増加させる。画像補正は、少なくとも、回転処理、シフト処理、拡大縮小処理、ぼかし処理のうちのいずれかを含む。画像補正パラメータは、初期画像を増加させるための増加パラメータの一つであり、回転処理、シフト処理、拡大縮小処理、またはぼかし処理の大きさを決定する補正パラメータである。
画像補正パラメータを切り替えることにより、画像の分類の際に画像入力装置から入力される入力画像に起こり得る画像変化を、使用される画像入力装置の性質に基づき再現することができる。例えば、使用する画像入力装置がMFP10である場合には、CPU401が、画像読取部101の斜行や位置ずれなどのスキャン時の規格に基づいて画像補正パラメータを決定する。これにより、携帯端末30で画像が撮影されたときと比べて画像補正で再現する画像変化量は小さくなる。画像補正の詳細と画像補正パラメータの決定方法については後述する。
次に、CPU401が、上記ステップS501でHDD405に登録された初期画像から画像を1枚選択し、上記ステップS504で決定された画像補正パラメータで、選択した画像に対して画像補正処理を施して追加画像を生成する(ステップS505)。なお、画像補正処理は、組み合わせて適用することで、より多くのパターンの追加画像を生成可能である。本実施例では、CPU401は、全ての画像補正処理の組み合わせの中から1つのパターンを選択する。
次に、CPU401が、上記ステップS505で生成した追加画像から画像特徴量を算出する(ステップS506)。これにより、分類ルールの学習に用いられる学習データが生成される。CPU401は、画像特徴量のみをHDD405に記録し、追加画像データを破棄する。なお、本実施例では、追加画像から画像特徴量を全て算出しておき、その特徴量群を学習データとして、分類ルールを学習することを想定している。もちろん、CPU401が、必要に応じて追加画像をHDD405に記録しておいてもよい。本実施例で使用する画像特徴量の詳細については後述する。
次に、CPU401が、全ての画像補正処理が終了したかを判断する(ステップS507)。終了していない画像補正処理がある場合は、処理がステップS505に戻る。全ての画像補正処理が終了した場合は、処理がステップS508に進む。
次に、CPU401が、全ての画像から画像特徴量を算出したかを判断する(ステップS508)。画像特徴量を算出していない画像がある場合は、処理がステップS505に戻る。全ての画像から画像特徴量を算出した場合は、処理がステップS509に進む。
次に、CPU401が、HDD405に保存された特徴量群から、機械学習を利用して分類ルールを生成する(ステップS509)。利用する機械学習の詳細については後述する。
<原稿抽出処理の詳細>
本実施例で携帯端末30を画像入力装置として利用した場合に画像処理部309(図3)が実行する、撮影画像からの原稿の画像の抽出処理について説明する。携帯端末30は、撮影画像から抽出した原稿の画像を入力画像としてサーバ40に入力する。撮像部306によって原稿が撮影されると、画像処理部309が、撮影画像内における原稿領域について、原点の頂点を抽出する。
図6は、撮影画像と原稿領域の一例を示す図である。
図中の601は、撮影画像である。原稿領域602は、原稿領域の頂点603、604、605、606を結ぶ線分に囲まれた矩形領域である。矩形の原稿領域の頂点603〜606は、例えばダグラス&ポーカーの頂点抽出アルゴリズムなどの公知の方法によって抽出される。画像処理部309は、撮影画像内の原稿領域のサイズに基づいて、変倍パラメータを算出する。
画像処理部309は、撮影画像内の原稿領域が出力画像サイズに変倍されるような変倍パラメータを算出する。算出される変倍パラメータは、台形にゆがんでいる場合を考慮すると、射影変換行列になる。射影変換行列は、撮影画像内の原稿領域の4点の頂点情報(頂点603、604、605、606)と、出力画像の4隅の座標情報から公知の方法により算出することが可能である。なお、処理速度を優先する場合には、画像処理部309が、アフィン変換行列や単純な変倍率を変倍パラメータとして算出してもよい。画像処理部309は、変倍パラメータを用いて、撮影画像データの原稿領域に対して変倍処理を施すことで、撮影画像内から原稿領域が抽出された画像を得る。
<画像補正の種類と画像補正パラメータの決定方法の詳細>
本実施例では、分類の際に入力画像に起こり得る画像変化を再現するために、サーバ40のCPU401は、画像補正として、回転処理、シフト処理、拡大縮小処理、またはぼかし処理を画像に加える。また、使用される画像入力装置の性質に基づいた画像の変化を再現するために、CPU401は、デバイス情報に基づいて、画像補正パラメータを決定する。
本実施例では、CPU401は、画像補正のパラメータを、画像補正毎に1種類ずつ算出する。具体的には、CPU401は、画像補正毎に、デバイス情報に基づき想定される最大の画像変化量に応じた画像補正パラメータを算出する。これは、本実施例では、各画像補正を組み合わせて適用するので、各画像補正におけるパラメータを複数用意すると組み合わせの数が膨大になってしまうことを防ぐためである。また、想定される最大の変化を加えた画像は、特徴量空間上での境界付近の画像であるので、これらを学習に使用することで高精度な分類ルールの学習が可能となるからである。以下に、画像補正処理と画像補正パラメータの決定方法について説明する。
図7は、画像補正の例としての回転処理、シフト処理、拡大縮小処理を説明する図である。これらの幾何学的変形処理は、射影変換行列を利用して実現する。図7(A)は、回転処理の例を示す。回転処理では、CPU401が、入力画像に対して回転行列を利用した射影変換を実行し、変換後画像701から画像を切り出すことで出力画像702を得る。なお、回転処理は画像中を中心として時計回りと反時計回りの2種類のパターンを持ち、いずれかの方向に一定の角度だけ入力画像を回転させることができる。入力画像と出力画像とは同サイズである。CPU401は、射影変換後に出力画像702の画像外にはみ出てしまう画像外領域703については破棄する。また、CPU401は、出力画像702の内部で射影元の存在しない欠損領域704については、欠損領域704内の各画素について非欠損画素の画素値を順次コピーしていくことで補完する。この欠損領域704の扱いについては、上述した方法による補完に限られるものではない。例えば、入力画像から推定した背景画素に置き換えるような他の補完方法でもよいし、補完は行なわずに欠損画素について欠損画素であるというフラグ情報を付加してマスク処理に利用する方法でもよい。
回転処理における画像補正パラメータは、回転角度である。画像入力装置がMFP10である場合には、CPU401は、回転量を画像読取部101の斜行に関する規格をもとに決定する。画像入力装置が携帯端末30である場合には、CPU401は、回転量を撮影画像からの原稿抽出に伴う画像劣化をもとに決定する。撮影画像からの原稿抽出に伴う画像劣化の量については、原稿領域を検出する手段や、原稿領域を射影変換して画像を生成する台形補正手段、撮影条件によって変わるので、使用するアルゴリズムや撮影条件から予め実験的に決めた値を使用する。
図7(B)は、シフト処理の例を示す。シフト処理では、CPU401は、入力画像に対して平行移動行列を利用した射影変換を行なうことで出力画像を得る。シフト処理は、上下方向および左右方向のシフトの組み合わせで合計8種類のパターンを持ち、その中のいずれかの方向に一定量だけシフトさせることができる。出力画像サイズや、射影変換後の欠損領域の扱いについては、回転処理と同様である。
シフト処理における画像補正パラメータは、シフト量である。画像入力装置がMFP10である場合には、CPU401は、シフト量を画像読取部101の操作方向および副操作方向の位置ずれに関する規格をもとに決定する。画像入力装置が携帯端末30である場合には、CPU401は、シフト量を回転処理と同様に撮影画像からの原稿抽出に伴う画像劣化をもとに実験的に決定した値を用いて決定する。
図7(C)は、拡大縮小処理の例を示す。拡大縮小処理では、CPU401は、入力画像に対して拡大縮小行列を利用した射影変換を行なうことで出力画像を得る。拡大縮小処理は、拡大と縮小の2種類のパターンを持ち、デバイス情報をもとに決定した一定量だけ入力画像を拡大縮小させることができる。拡大縮小処理における画像補正パラメータは、水平方向および鉛直方向についての拡大縮小倍率である。出力画像サイズや、射影変換後の欠損領域の扱いについては、回転処理およびシフト処理と同様である。画像入力装置がMFP10である場合には、CPU401は、拡大縮小率を画像読取部101の読み取り倍率に関する規格をもとに決定する。画像入力装置が携帯端末30である場合には、CPU401は、拡大縮小率を、回転処理およびシフト処理と同様に撮影画像からの原稿抽出に伴う画像劣化をもとに実験的に決定した値を用いて決定する。
ぼかし処理については、CPU401は、入力画像に対して平滑化フィルタの1つであるガウシアンフィルタを適用することでボケ画像を生成する。ガウシアンフィルタはカーネルサイズの変化で平滑化量が変わることや、カーネルを水平方向と鉛直方向で非対称な形状にするとぶれたような画像になることは公知である。例えば、鉛直方向に比べて水平方向のカーネルサイズが大きくなると水平方向にぶれたような画像になる。したがって、ぼかし処理は、画像全体のボケ・水平方向のブレ・鉛直方向のブレの3種類のパターンを持つものとし、画像補正パラメータとしては、そのボケ量やブレ量を決定するカーネルサイズとする。
画像入力装置がMFP10である場合には、CPU401は、3ラインセンサ210のMTF特性とボケ量との対応情報が予め設定されたLUT(Look−Up−Table)を使用してボケ量を決定することで、カーネルサイズを決定する。画像入力装置が携帯端末30である場合には、CPU401は、レンズのMTF特性とボケ量との関係から予め作成したLUTによって決まるぼかし量と、実験的に決めた水平方向および鉛直方向のブレ量とを使用する。
以上、各画像補正の詳細と画像補正パラメータの決定方法について説明したが、例えば、スキャンした原稿が傾きつつ、スキャン画像がボケてしまった場合のように画像変化は個別に発生するものではない。また、位置ずれとボケが発生しているものの、回転は起きていない場合のように、全ての画像変化が同時に起きるわけでもない。したがって、CPU401は、各画像補正処理のパターンに発生しない場合というパターンを加えて、全ての画像補正のパターンの組み合わせだけ追加画像を生成する。具体的には、上述した各画像補正処理のパターンに補正無しの場合を加える。回転処理が3パターン、シフト処理が9パターン、拡大縮小処理が3パターン、ぼかし処理が4パターンであるので、CPU401は、3×9×3×4=324パターンの追加画像を生成する。
なお、上述した追加画像のパターンは、上記の数字に限定されるものではない。例えば、画像補正パラメータをそれぞれ複数用意してパターンを増やしてもよいし、組み合わせを制限することで、パターンを減らしてもよい。
回転処理、シフト処理、拡大縮小処理といった幾何学的変化の伴う画像補正については、各パラメータを反映させた射影変換行列を用意する。これは、独立に処理を施すと欠損領域が拡大してしまうことを防ぐためである。もちろん、欠損領域の拡大を防ぐ方法であれば、途中段階では画像サイズを広く確保して画像補正を行なうようにしてもよい。
<使用する画像特徴量の詳細>
本実施例においてサーバ40が算出する画像特徴量(図5のS506)は、同一種類の文書画像においてはレイアウトが変わらないことを前提とする。CPU401は、画像の一部をパッチとして切り出し、そのパッチ画像ごとに勾配情報に基づく画像特徴量を算出する。
図8は、勾配情報に基づく画像特徴量の算出を説明する図である。
図8に示すようにパッチ画像内の画素ごとに算出した勾配強度と勾配方向を利用する。具体的には、CPU401が、パッチ画像内の全ての画素について、縦方向と横方向のエッジ情報から勾配強度と勾配方向を求める。CPU401は、勾配情報を利用して、図8で示すように、1パッチから9次元(9個)の特徴量を算出する。まず、各画素について、勾配強度が一定値以上の画素をエッジ画素、一定値より小さい画素を非エッジ画素とする。エッジ画素群から勾配方向を8方向に量子化して、方向ごとの勾配強度積算値/パッチ画素数を計算し、非エッジ画素数/パッチ画素数と合わせて、1つのパッチ画像から9次元の特徴量を算出する。このように、エッジ画素と非エッジ画素を利用することで、罫線や文字の情報だけでなく、文書画像の大きな特徴である余白部分を表現することが可能になる。これまでの説明は、1つのパッチ画像における特徴量の説明であるが、実際には、複数のパッチ画像を切り出して利用することにより、多数の特徴量を利用する。
図9は、パッチ画像の切り出しを説明する図である。
まず、CPU401が、ノイズが表れやすい画像端を削除して、複数の解像度の画像を作成する。複数の解像度の画像を用意するのは、解像度ごとにエッジの構造が変わるためである。そして、CPU401が、それぞれの解像度の画像から複数のサイズのパッチ画像を走査しながら切り出すことで、パッチ画像位置を考慮した特徴量を算出する。例えば、300dpiでスキャンした画像から特徴量を抽出する場合を想定する。まず、CPU401が、スキャン画像を1/4サイズと1/8サイズに縮小した2種類の画像を作成する。CPU401は、上記縮小した各解像度の画像から1/4サイズのパッチ画像を1/5ずつずらして5×5=25枚、1/8サイズのパッチ画像を1/10ずつずらして、10×10=100枚切り出すことで、計250個のパッチを切り出す。このような設定においては、各パッチから9次元のエッジ特徴量を算出するので、画像1枚から2250次元の特徴量を算出することが可能となる。
なお、画像解像度、パッチサイズ、パッチ切り出し位置に関するパラメータは、上述した数字に限定されるものではない。また、算出する画像特徴量として、公知のSIFTやORB等のスケール・回転不変のエッジ特徴量を利用してもよいし、原稿の色の情報を利用するために、色ヒストグラムや色分散等を画像特徴量としてもよい。
<利用する機械学習の詳細>
次に、本実施例で利用する機械学習の手法について説明をする。本実施例では、機械学習の手法としてReal AdaBoostと呼ばれる公知の手法を利用する。Real AdaBoostは、大量の特徴量から、与えられた学習データセットの分類に適した特徴量を選択して、その特徴量を組み合わせて分類器を構成することが可能な方法である。画像の分類時に大量の特徴量を利用すると、特徴量の計算負荷のためにパフォーマンスが低下してしまう。このように、分類に適した特徴量を選択して、一部の特徴量だけを利用し、分類器を構成できることは、Real AdaBoostの大きな利点である。ただし、Real AdaBoostは、2クラス分類器であり、2種類のラベルがついたデータを分類するものである。つまり、このままでは、3種類以上の文書画像の分類には利用できない。そこで、2クラス分類器を多クラス分類器に拡張するOVA(One−Versus−All)と呼ばれる公知の方法を利用する。OVAは、1つのクラス(対象クラス)とそれ以外のクラスを分類する分類器をクラスの数だけ作成し、それぞれの分類器の出力を、対象クラスの信頼度とする。分類の際には、分類したいデータをすべての分類器に入力し、信頼度が最大であったクラスを分類先とする。
図10は、学習データを用いた機械学習の例を説明する図である。
この例では、学習データとして、3つのクラスの文書画像(文書画像A,B,C)のそれぞれに対応する画像特徴量が用意されているものとする。この3つのクラスを分類するために、OVAでは3種類の分類器を用意する。3種類の分類器は、文書画像Aとそれ以外に分類するためのA用分類器、文書画像Bとそれ以外に分類するためのB用分類器、文書画像Cとそれ以外に分類するためのC用分類器である。
A用分類器は、文書画像Aが入ったときに、大きい出力値(確信度)が出力され、それ以外のクラスが入力されたときは、小さい出力値(確信度)が出力される。B用分類器、C用分類器についても同様である。実際の分類を行う際には、入力文書画像を3種類の分類器に入力し、その出力値の比較を行い、例えばB用分類器の出力が最大であった場合は、その入力文書画像を文書画像Bに分類をする。
図10を参照して説明したReal AdaBoostとOVAを利用した多クラス分類器の学習と、多クラス分類器を利用した文書画像分類は、CPU401で実行される。なお、本実施例で利用可能な機械学習の手法は、上述した手法に限定されるものではない。Supprot Vector MachineやRandom Forest等の公知の手法を利用してもよい。特徴選択の枠組みが機械学習の手法に含まれていない場合に、分類時の分類速度を向上させたい場合には、主成分分析や判別分析を利用した特徴量選択等の公知の特徴量選択を行う。機器学習手法が2クラス分類器である場合は、OVA以外の、All−Versus−All(AVA)やError−Correcting Output−Coding(ECOC)等の公知の手法を用いてもよい。
以上、実施例1によれば、画像読取部101や携帯端末30に示したような画像入力機器の種類や特性によって、分類ルールの学習に使用する学習データの増やし方を切り替えることができる。これにより、単に画像を増やすだけではなく、使用する画像入力機器に応じて学習セットの増やし方を切り替えることで、学習時間の増大をできるだけ減らしつつ、ユーザ毎にカスタマイズされた高精度な分類ルールの学習を実現することができる。
(実施例2)
実施例1では、学習時と分類時とで画像入力装置が同一である場合を想定していた。そして、サーバ40は、入力画像に対しては画像変化を再現するための画像処理を施していた。
実施例2では、学習時と分類時で画像入力装置の種類が違う場合を想定する。具体的には、画像入力装置としてのMFPの種類が違うものとする。サーバ40が備えるCPU401は、入力画像(初期画像)に対して、一旦、補正処理を施して標準画像に変換し、その後、画像変化を再現するための画像補正処理を施して、学習データ(画像)を追加する。標準画像とは、画像入力装置ごとに生じる画像変化を取り除いた画像である。入力画像を標準画像に変換することで、例えば、同じオフィス内に複数のMFPがあり、各MFPで画像分類ルールを学習する際には、各MFPで初期画像をスキャンする手間をなくすことができる。また、標準画像への変換が可能であるのならば、分類時に毎回標準画像に変換をすれば、使用する画像入力装置毎に画像分類ルールを学習する必要がなくなるとも考えられる。しかし、分類時の処理速度はできるだけ早い方が良く、毎回標準画像への変換を行なうことは効率的ではない。標準画像に対し、使用する画像入力装置に合わせた画像補正を適用して画像分類ルールを学習させることで、分類の処理速度を落とさないことが可能になる。以下では、実施例1と差分がある部分についてのみ説明する。
図11は、実施例2のシステム構成を示す図である。
図1に示す実施例1のシステム構成における携帯端末と無線LANの代わりに、MFP11が設けられている。MFP11は、MFP10と同様に、図2(A)に示す構成を有する。なお、実施例1とは違い、画像読取部101は、ヘッダー情報記録機能を持たなくてもよい。実施例1とは違い、初期画像を入力した画像入力装置と分類時の画像入力装置は異なるため、初期画像のヘッダー情報からデバイス情報を取得する必要が無いためである。
図12は、実施例2における画像分類ルールを学習する処理を説明するフローチャートである。なお、本実施例では、学習時の画像入力装置としてMFP10を使用し、分類時の画像入力装置としてMFP11を使用するが、逆の組み合わせでもよい。
ステップS1201乃至S1204は、図5のステップS501乃至S504と同様である。実施例2では、CPU401が、ステップS1201において受信され、HDD405に保存されている初期画像から画像を1枚選択し、標準画像へ変換する(ステップS1205)。ステップS1205の詳細については後述する。
次に、CPU401が、標準画像に対し、ステップS1204で決定した画像補正パラメータを用いて画像補正処理を施す(ステップS1206)。画像補正処理については、図5のステップS505と同様である。ステップS1207乃至S1210は、図5のS505乃至S509と同様である。
図13は、図12のステップS1204における標準画像への変換処理の例を説明するフローチャートである。
まず、CPU401は、入力画像に対して斜行補正と位置ずれ補正を行なう(ステップS1301)。具体的には、CPU401は、入力画像の画像端付近の領域に対してエッジ検出処理を施し、エッジ情報からハフ変換を利用して原稿の枠を検出する。原稿枠を検出することができた場合には、CPU401は、原稿枠を出力画像の画像端に合わせるような射影変換行列を求めて、画像を変換する。原稿枠が検出することができなかった場合には、CPU401は、入力画像を縮小して画像全体からエッジ検出処理を施す。CPU401は、エッジ検出処理によって得られたエッジ情報からハフ変換を利用して文字領域や罫線のエッジから原稿の傾きを検出して、その傾き角度だけ画像を回転させることで斜行補正を行う。
次に、CPU401が、入力画像データの濃度ムラ補正を行って、スキャン時に原稿の折れや浮きによって生じる影を除去する(ステップS1302)。具体的には、CPU401は、スキャン時のノイズを除去するようにフィルタ処理を行い、その後、下地に載っている色を飛ばして紙の白を再現できるように階調補正を行う。
次に、CPU401が、像域判定を行い、撮影画像データ内の文字や線部分とそうでない部分とに切り分けて、それぞれの画素に対して属性フラグを付加する(ステップS1303)。続いて、CPU401が、先鋭性補正を実行する(ステップS1304)。具体的には、CPU401が、文字や線部分の画素に対してフィルタ処理を行い、文字や線部分がシャープになるように補正する。
次に、CPU401が、文字単色化処理を行う(ステップS1305)。具体的には、CPU401が、文字の画素を単色で再現し、文字の鮮鋭化を図る。例えば、ある文字を再現する画素のRGB値を平均化し、その平均値を文字の色として適用するなどの手法をとる。
実施例2によれば、学習時と分類時とで使用する画像入力装置が変わっても、一度標準画像に変換を行なうことで、分類時に使用する画像入力装置に合わせた学習データを増やすことができる。これにより、分類に使用する画像入力装置ごとに原稿をスキャンする必要が無くなり、また、分類時に毎回標準画像への変換を行なう必要はなく、分類時に毎回標準画像への変換を行なう場合と比べて、処理速度の低下を防ぐことが可能になる。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。上述した実施形態の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、システム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。
10 MFP
40 サーバ
30 携帯端末

Claims (10)

  1. 画像入力装置から入力される画像を分類する分類ルールの学習に用いる学習データを生成する情報処理装置であって、
    初期画像を受け付ける受け付け手段と、
    前記画像入力装置に関するデバイス情報を取得する取得手段と、
    前記デバイス情報に基づいて補正パラメータを決定し、当該決定された補正パラメータを用いて前記受け付け手段により受け付けた初期画像を補正し、前記初期画像とは異なる画像を生成する第1の生成手段と、
    前記第1の生成手段により生成された画像と前記入力された初期画像とを用いて学習データを生成する第2の生成手段と、を備え
    前記第1の生成手段は、
    前記デバイス情報に基づいて、前記画像入力装置が画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部の規格に基づいて前記補正パラメータを決定し、
    前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が行う撮影画像からの原稿抽出に伴う画像劣化の情報に基づいて前記補正パラメータを決定する
    ことを特徴とする情報処理装置。
  2. 前記補正パラメータを用いた前記初期画像の補正処理は、画像の回転処理、シフト処理、拡大縮小処理、またはぼかし処理を含む
    ことを特徴とする請求項に記載の情報処理装置。
  3. 前記補正パラメータを用いた前記初期画像の補正処理が画像の回転処理を含む場合における、当該回転処理の補正パラメータは、回転量であり、
    前記第1の生成手段は、
    前記デバイス情報に基づいて、前記画像入力装置が前記画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部の斜行に関する規格に基づいて前記回転量を決定し、
    前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が行う撮影画像からの原稿抽出に伴う画像劣化の情報に基づいて前記回転量を決定する
    ことを特徴とする請求項に記載の情報処理装置。
  4. 前記補正パラメータを用いた前記初期画像の補正処理が画像のシフト処理を含む場合における、当該シフト処理の補正パラメータは、シフト量であり、
    前記第1の生成手段は、
    前記デバイス情報に基づいて、前記画像入力装置が前記画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部の位置ずれに関する規格に基づいて前記シフト量を決定し、
    前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が行う撮影画像からの原稿抽出に伴う画像劣化の情報に基づいて前記シフト量を決定する
    ことを特徴とする請求項または請求項に記載の情報処理装置。
  5. 前記補正パラメータを用いた前記初期画像の補正処理が画像の拡大縮小処理を含む場合における、当該拡大縮小処理の補正パラメータは、拡大縮小倍率であり、
    前記第1の生成手段は、
    前記デバイス情報に基づいて、前記画像入力装置が前記画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部の読み取り倍率に関する規格に基づいて前記拡大縮小倍率を決定し、
    前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が行う撮影画像からの原稿抽出に伴う画像劣化の情報に基づいて前記拡大縮小倍率を決定する
    ことを特徴とする請求項乃至のいずれか1項に記載の情報処理装置。
  6. 前記補正パラメータを用いた前記初期画像の補正処理が画像のぼかし処理を含む場合における前記ぼかし処理は、ガウシアンフィルタのカーネルサイズで決定されるボケ量とブレ量に応じたボケ画像を生成する処理であって、前記ぼかし処理のパラメータは、前記カーネルサイズであり、
    前記第1の生成手段は、
    前記デバイス情報に基づいて、前記画像入力装置が前記画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部のラインセンサのMTF特性とボケ量との対応情報に基づいて前記ボケ量を決定することで、前記カーネルサイズを決定し、
    前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が備えるレンズのMTF特性とボケ量との対応情報に基づいて前記ボケ量を決定することで、前記カーネルサイズを決定する
    ことを特徴とする請求項乃至のいずれか1項に記載の情報処理装置。
  7. 前記学習データは、前記第1の生成手段により生成された画像と前記入力された初期画像とから算出される特徴量である
    ことを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  8. 前記第2の生成手段により生成された学習データを用いて、前記分類ルールを学習する学習手段を備える
    ことを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  9. 画像入力装置から入力される画像を分類する分類ルールの学習に用いる学習データを生成する情報処理装置の制御方法であって、
    初期画像を受け付ける受け付け工程と、
    前記画像入力装置に関するデバイス情報を取得する取得工程と、
    前記デバイス情報に基づいて補正パラメータを決定し、当該決定されたパラメータを用いて前記受け付け工程に受け付けた初期画像を補正し、前記初期画像とは異なる画像を生成する第1の生成工程と、
    前記第1の生成工程にて生成された画像と前記入力された初期画像とを用いて、学習データを生成する第2の生成工程と、を有し、
    前記第1の生成工程では、
    前記デバイス情報に基づいて、前記画像入力装置が画像読取部を備える画像処理装置であると判定した場合は、前記画像読取部の規格に基づいて前記補正パラメータを決定し、
    前記デバイス情報に基づいて、前記画像入力装置が携帯端末であると判定した場合は、前記携帯端末が行う撮影画像からの原稿抽出に伴う画像劣化の情報に基づいて前記補正パラメータを決定する
    ことを特徴とする制御方法。
  10. コンピュータを請求項1乃至のいずれか1項に記載の情報処理装置が備える各手段として機能させるためのコンピュータプログラム。
JP2014161717A 2014-08-07 2014-08-07 情報処理装置、その制御方法およびコンピュータプログラム Active JP6433187B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014161717A JP6433187B2 (ja) 2014-08-07 2014-08-07 情報処理装置、その制御方法およびコンピュータプログラム
US14/810,514 US9602685B2 (en) 2014-08-07 2015-07-28 Information processing apparatus, control method, and storage medium that generate learning data used in learning a classification rule for classifying an input image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014161717A JP6433187B2 (ja) 2014-08-07 2014-08-07 情報処理装置、その制御方法およびコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2016038732A JP2016038732A (ja) 2016-03-22
JP2016038732A5 JP2016038732A5 (ja) 2017-09-14
JP6433187B2 true JP6433187B2 (ja) 2018-12-05

Family

ID=55267649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014161717A Active JP6433187B2 (ja) 2014-08-07 2014-08-07 情報処理装置、その制御方法およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US9602685B2 (ja)
JP (1) JP6433187B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3100205B1 (en) * 2014-01-28 2021-03-10 Ventana Medical Systems, Inc. Adaptive classification for whole slide tissue segmentation
TWI680747B (zh) * 2014-11-12 2020-01-01 日商新力股份有限公司 資訊處理裝置、資訊處理方法及資訊處理程式
JP2017134598A (ja) 2016-01-27 2017-08-03 キヤノン株式会社 画像検索装置、画像検索方法及びプログラム
CN107690659B (zh) * 2016-12-27 2021-08-10 达闼机器人有限公司 一种图像识别系统及图像识别方法
JP6977483B2 (ja) 2017-10-31 2021-12-08 富士フイルムビジネスイノベーション株式会社 画像処理装置、画像処理方法、画像処理システムおよびプログラム
US10580121B2 (en) * 2017-11-16 2020-03-03 Axis Ab Image noise reduction based on a modulation transfer function of a camera dome
US20190155941A1 (en) * 2017-11-21 2019-05-23 International Business Machines Corporation Generating asset level classifications using machine learning
JP7013886B2 (ja) 2018-01-25 2022-02-01 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7098351B2 (ja) * 2018-02-28 2022-07-11 キヤノン株式会社 画像処理装置および画像処理方法、およびプログラム
WO2020148797A1 (ja) 2019-01-15 2020-07-23 オリンパス株式会社 画像処理システム、学習済みモデル及び画像処理方法
JP7268471B2 (ja) * 2019-05-09 2023-05-08 株式会社デンソー 検証方法
JP7383945B2 (ja) * 2019-09-12 2023-11-21 カシオ計算機株式会社 移動軌跡検出プログラム、移動軌跡検出方法および情報端末
CN111105375B (zh) * 2019-12-17 2023-08-22 北京金山云网络技术有限公司 图像生成方法及其模型训练方法、装置及电子设备
CN111736712B (zh) * 2020-06-24 2023-08-18 北京百度网讯科技有限公司 输入信息的预测方法、系统、服务器及电子设备
JP2023065028A (ja) * 2021-10-27 2023-05-12 堺化学工業株式会社 教師データ生成方法、画像解析モデル生成方法、画像解析方法、教師データ生成プログラム、画像解析プログラムおよび教師データ生成装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3347817B2 (ja) * 1993-06-22 2002-11-20 株式会社ビュープラス 画像認識装置
JPH11275303A (ja) * 1998-03-24 1999-10-08 Canon Inc 画像読み取り装置、画像読み取り方法及びコンピュータ読み取り可能な記憶媒体
US8065241B2 (en) * 2005-10-18 2011-11-22 Nec Laboratories America, Inc. Learning machine that considers global structure of data
JP2007264951A (ja) * 2006-03-28 2007-10-11 Dainippon Printing Co Ltd 医療用画像補正装置
CN101315670B (zh) * 2007-06-01 2010-08-11 清华大学 特定被摄体检测装置及其学习装置和学习方法
US8059865B2 (en) * 2007-11-09 2011-11-15 The Nielsen Company (Us), Llc Methods and apparatus to specify regions of interest in video frames
WO2010101186A1 (ja) 2009-03-04 2010-09-10 公立大学法人大阪府立大学 画像検索方法、画像検索プログラム及び画像登録方法
JP5075924B2 (ja) * 2010-01-13 2012-11-21 株式会社日立製作所 識別器学習画像生成プログラム、方法、及びシステム
JP2012243180A (ja) * 2011-05-23 2012-12-10 Sony Corp 学習装置および方法、並びにプログラム
US9307920B2 (en) * 2012-04-17 2016-04-12 Cardiac Pacemakers, Inc. Method and apparatus for automatic arrhythmia classification with confidence estimation

Also Published As

Publication number Publication date
JP2016038732A (ja) 2016-03-22
US9602685B2 (en) 2017-03-21
US20160042254A1 (en) 2016-02-11

Similar Documents

Publication Publication Date Title
JP6433187B2 (ja) 情報処理装置、その制御方法およびコンピュータプログラム
JP5886265B2 (ja) 携帯端末装置、プログラム、及び記録媒体
JP4772894B2 (ja) 画像出力装置、携帯端末装置、撮像画像処理システム、画像出力方法、プログラムおよび記録媒体
JP5547243B2 (ja) 画像処理装置、プログラムおよび記録媒体
US20140355010A1 (en) Image processing apparatus and method thereof
JP2010161764A (ja) 画像処理装置、画像読取装置、画像送信装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
US20090284801A1 (en) Image processing apparatus and image processing method
JP2010151606A (ja) 画像検査装置、画像検査方法及びプログラム
US10169877B2 (en) Methods and systems for segmenting multiple documents from a single input image
JP2010245788A (ja) 画像出力装置、携帯端末装置、撮像画像処理システム、画像出力方法、プログラムおよび記録媒体
US8564829B2 (en) Image processing apparatus, method, and computer-readable medium for converting frames of image data to higher resolution image data
CN109151244B (zh) 移动信息处理装置、其控制方法和存储介质
WO2017110640A1 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2009134686A (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP2014123881A (ja) 情報処理装置、情報処理方法、コンピュータプログラム
JP5648409B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP5819378B2 (ja) 画像判定装置、画像処理システム、プログラム及び記録媒体
JP6882043B2 (ja) 画像処理装置、プログラム及び画像処理方法
JP5258529B2 (ja) 画像処理装置及びその方法、並びに、コンピュータプログラムおよび記憶媒体
JP6494435B2 (ja) 情報処理装置、その制御方法及びコンピュータプログラム
JP6163244B2 (ja) 画像処理装置、画像形成装置、画像処理プログラム及び記録媒体
JP6045182B2 (ja) 画像処理装置、およびそれを備えた画像形成装置、コンピュータプログラム及び記録媒体
JP2005117290A (ja) 画像処理方法、画像処理システム、画像処理装置、データ蓄積装置
JP2004199542A (ja) 画像検査装置、プログラム、記憶媒体
JP5361556B2 (ja) 画像処理装置及びその方法、並びに、コンピュータプログラムおよび記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181106

R151 Written notification of patent or utility model registration

Ref document number: 6433187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151