JP2017120503A - 情報処理装置、情報処理装置の制御方法、及びプログラム - Google Patents

情報処理装置、情報処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
JP2017120503A
JP2017120503A JP2015256476A JP2015256476A JP2017120503A JP 2017120503 A JP2017120503 A JP 2017120503A JP 2015256476 A JP2015256476 A JP 2015256476A JP 2015256476 A JP2015256476 A JP 2015256476A JP 2017120503 A JP2017120503 A JP 2017120503A
Authority
JP
Japan
Prior art keywords
image
local image
unit
coordinates
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015256476A
Other languages
English (en)
Other versions
JP2017120503A5 (ja
JP6739937B2 (ja
Inventor
嘉仁 七海
Yoshihito Nanaumi
嘉仁 七海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015256476A priority Critical patent/JP6739937B2/ja
Priority to US15/368,971 priority patent/US10452943B2/en
Priority to EP16002604.3A priority patent/EP3193279A1/en
Priority to CN201611237042.2A priority patent/CN107085699B/zh
Publication of JP2017120503A publication Critical patent/JP2017120503A/ja
Publication of JP2017120503A5 publication Critical patent/JP2017120503A5/ja
Application granted granted Critical
Publication of JP6739937B2 publication Critical patent/JP6739937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1335Combining adjacent partial images (e.g. slices) to create a composite input or reference pattern; Tracking a sweeping finger movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/0044Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】紙文書に対して接近して画像を取り込む際に、必要なテキスト領域を高速に見つけ出すことができる情報処理装置を提供する。【解決手段】この情報処理装置は、文書の全体画像を取得する取得手段と、取得した全体画像の特徴量を抽出する抽出手段と、抽出した全体画像の特徴量と、全体画像の座標情報を保存する保存手段と、保存手段で保存された全体画像の特徴量と、処理対象である文書の局所画像の特徴量から全体画像内における局所画像の位置を特定し、特定した局所画像の位置と、保存手段で保存された座標情報を用いて局所画像の座標を特定する特定手段と、を備える。【選択図】 図11

Description

本発明は、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。
近年、カメラを含むモバイル端末は一般的なものになってきた。従来、ユーザは、紙文書を電子的に取り込むためにスキャナなどを利用していたが、モバイル端末のカメラ等を利用することで簡単に紙文書を電子的に取り込むことが出来るようになった。特許文献1は、カメラを利用して取り込んだ画像に対してOCRを実施する技術を開示している。
特開2011−008802号公報
OCRにより識別したテキスト情報を利用するためには、OCR精度が非常に重要でありながら、対象物に接近して取り込める名刺や免許証などのOCR精度に比べ、A4またはA3のような比較的大きなサイズの紙文書ではOCR精度が低下する恐れがある。具体的には、対象物との距離が離れることにより識別しようとするテキストの1文字当たりの解像度が低下することに加え、画像細部のピントのボケが発生しやすくなる。そこで、A4やA3のような比較的大きなサイズの紙文書であっても対象のテキスト領域に接近して画像を取り込むことがOCR精度向上には必須となる。OCR精度が向上することにより、紙文書全体の画像を取り込んだ後に、利用したいテキスト領域に接近して画像を取り込むことで、紙文書全体の画像と精度の良いテキスト情報を取得することが出来る。
本発明は、上記課題を鑑みて、紙文書に対して接近して画像を取り込む際に、必要なテキスト領域を高速に見つけ出すことができる情報処理装置を提供すること目的とする。
上記課題を解決するために、本発明の情報処理装置は、文書の全体画像を取得する取得手段と、前記取得した全体画像の特徴量を抽出する抽出手段と、前記抽出した全体画像の特徴量と、前記全体画像の座標情報を保存する保存手段と、前記保存手段で保存された前記全体画像の特徴量と、処理対象である前記文書の局所画像の特徴量から前記全体画像内における前記局所画像の位置を特定し、前記特定した前記局所画像の位置と、前記保存手段で保存された座標情報を用いて前記局所画像の座標を特定する特定手段と、を備えることを特徴とする。
本発明によれば、紙文書に対して接近して画像を取り込む際に、必要なテキスト領域を高速に見つけ出すことができる情報処理装置を提供することができる。
モバイル端末の外観の一例を示す図である。 モバイル端末のハードウェア構成の一例を示す図である。 モバイル端末のソフトウェア構成の一例を示す図である。 モバイルアプリのUIの一例を示す図である。 全体画像と局所画像の一例を示す図である。 画像分類処理の一例を示す図である。 座標処理の一例を示す図である。 座標管理Tableのデータ構造、及び保持する座標情報を示す図である。 事前設定処理フローを示す図である。 基本フローを示す図である。 図10のステップS1005の処理の詳細を示す図である。 モバイルアプリのUIの一例を示す図である。
以下、本発明を実施するための最良の形態について図面などを参照して説明する。
[外観]
まず、本実施形態に係る情報処理装置の一例として、モバイル端末を例に説明する。モバイル端末は、携帯端末の一例であり、無線通信機能などの装備によって自由な場所で利用できる端末である。図1は、モバイル端末の外観の一例を示す図である。モバイル端末100は、各種のユニット(モバイル端末前面部101〜カメラ104)を含んで構成される。モバイル端末100の表側がモバイル端末前面部101である。タッチパネル102は、ディスプレイ等の表示部の一例であり、出力(表示)と入力との2つの機能を備えている。さらに、モバイル端末100の裏側がモバイル端末背面部103である。モバイル端末背面部103は、画像を取り込むためのカメラ104を含む。本実施形態では、モバイル端末100のユーザは、被写体105の画像を後述のモバイルアプリで撮ることによって処理を開始することができる。本実施形態において、被写体105は、A4サイズの紙文書の注文書である。被写体105は、紙文書だけに限らず、例えば、名刺、写真、ホワイトボードなどを含んでよい。また、後述のモバイルアプリは、被写体105の画像を取り込み、タッチパネル102にその画像を出力(表示)することができる。
[ハードウェア構成]
図2は、モバイル端末100のハードウェアの構成の一例を示す図である。モバイル端末100は、各種のユニット(CPU201〜バス207)を含んで構成される。CPU(Central Processing Unit)201は、各種のプログラムを実行し、様々な機能を実現するユニットである。RAM(Random Access Memory)202は、各種の情報を記憶するユニットである。また、RAM202は、CPU201の一時的な作業記憶領域としても利用されるユニットである。ROM(Read Only Memory)203は、各種のプログラム等を記憶するユニットである。例えば、CPU201は、ROM203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。
加えて、CPU201がフラッシュメモリ、HDD(Hard Disk Drive)又はSSD(Solid State Disk)といった外部記憶装置に記憶されているプログラムに基づき処理を実行する。これにより、後述の図3に示すようなモバイル端末100を構成するソフトウェア構成及び後述するシーケンスの各ステップの処理が実現される。なお、モバイル端末100の機能および後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。Input/Outputインターフェース204は、タッチパネル102とデータを送受信する。NIC(Network Interface Card)205は、モバイル端末100をネットワーク(不図示)に接続するためのユニットである。カメラユニット206は、カメラ104と接続し被写体105の画像をモバイル端末100に取り込む。上述した各ユニットは、バス207を介してデータの送受信を行うことが可能に構成されている。
[ソフトウェア構成(モバイル端末)]
次に、モバイル端末100におけるソフトウェアの構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す図である。図3に示す各ソフトウェア(アプリケーション)における機能(モジュール部)を実現するプログラムは、各装置のROM203等に記憶されている。モバイル端末100のOS(Operating System)(不図示)は、データ管理部301を有する。データ管理部301は、画像やアプリケーションデータを管理する。OSは、データ管理部301を利用するための制御API(Application Programming Interface)を提供している。各アプリは、該制御APIを利用することでデータ管理部301が管理する画像やアプリケーションデータの取得や保存を行う。
モバイルアプリ302は、モバイル端末100のOSのインストール機能(例えば、Apple StoreやGoogle Playなど)を利用して、ダウンロードし、インストールすることにより実行可能なアプリケーションである。モバイルアプリ(モバイルアプリケーション)302は、カメラユニット206を介して取り込んだ被写体105の画像に対する各種のデータ処理を行う。
メイン制御部303は、モバイル端末100用のアプリケーション(モバイルアプリ)302を制御し、各モジュール部(メイン制御部303〜画像特徴量抽出部312)に対する指示、及び管理を行う。情報表示部304は、メイン制御部303からの指示に従い、モバイルアプリ302のユーザインタフェース(UI)をユーザに提供する。操作情報取得部305は、情報表示部304により表示されたモバイルアプリ302のUIのユーザに操作された情報を取得し、取得した情報をメイン制御部303に通知する。例えば、後述の図4に示す表示・操作領域401をユーザが手で触れると、操作情報取得部305は、触れられた画面上の位置の情報を感知し、感知した位置の情報をメイン制御部303に送信する。
画像解析部306は、カメラユニット206を介して取得したカメラ入力画像を解析して、レイアウト情報を生成する。レイアウト情報には、画像から抽出された矩形領域とその種別(文字、図形、線、表など)とが含まれる。さらに、画像解析部306は、カメラ入力画像に対して紙面検出処理や歪み補正処理を行う。OCR部307は、画像解析部306で抽出した矩形領域に対して、OCR(光学文字認識)処理を行う。画像分類部308は、分類処理で利用する分類器を作る学習処理をする。さらに、画像分類部308は、分類器を用いて分類処理を行い、カメラ入力画像の分類を行う。
記憶部309は、操作情報取得部305を介して、すなわち、モバイルアプリ302のUIを介して、ユーザにより入力された設定値を保存(永続化)する。DB部310は、データベース機能を有し、ユーザが選択した短形領域の座標情報、画像の特徴量、分類器などを管理する。また、DB部310のデータは、記憶部309に保存される。座標処理部311は、データベースへ座標情報を登録する際の座標変換処理や画像の位置特定処理を行う。画像特徴量抽出部312は、カメラ入力画像に対して、画像の特徴量の抽出処理を行う。
図4は、モバイルアプリ302のUI(携帯端末用のUI)を提供する画面の一例(モバイル端末画面400)を示す図である。モバイル端末画面400は、モバイル端末100のタッチパネル102に表示されるUIである。また、モバイル端末画面400では、表示・操作領域401にカメラ104を介して取り込んだ画像が表示され、画像等に対するユーザによる操作(ユーザ操作)を、表示されたUIを介して受け付ける。なお、モバイルアプリ302のUIの形態(位置、大きさ、範囲、配置、表示内容など)は、図に示す形態に限定されるものではなく、モバイル端末100の機能を実現することができる構成を採用することができる。
[全体画像と局所画像]
次に、全体画像と局所画像について図5を用いて説明する。本実施形態では、被写体105のA4サイズからなる注文書全体を、カメラ104を介して画像を取得する。その画像に対して、被写体以外の領域を除外する紙面検出処理、歪み部分を補正する歪み補正処理を施し整形する。本実施形態では、この整形した画像を全体画像500とし、全体画像の一例とする。また、被写体105に対してカメラ104を接近して取得した被写体105の一部(あるいは全体)の画像を局所画像501とする。なお、本実施形態では、局所画像501は、局所画像の一例である。さらに、位置502は、全体画像における局所画像の領域(位置)を示している。
[画像分類処理]
次に、画像分類部308が行うカメラ入力画像の分類について図6を用いて説明する。画像分類部308は、学習処理部601と分類処理部602から構成される。学習処理部601は、分類したい帳票種別(種類別)毎の画像の全体画像特徴量データ608を用いて後述の学習処理を行い、分類器を作成する。画像分類部308は、作成した分類器を用いて分類処理を行い、カメラ入力画像の分類を決定する。
一般的に、画像の特徴を表す特徴量データは、多次元のデータで表され、特徴ベクトルと呼ばれる。次元数は、特徴の種類が何種類あるかを示している。学習処理部601で行う学習処理は、分類したい帳票種別毎の複数の学習画像(全体画像)から画像特徴量抽出部312で特徴抽出を行い、各学習画像に対して、100次元の特徴ベクトルを算出する。さらに、同一帳票の複数の学習画像の特徴ベクトルを元に、100次元の特徴ベクトルからその分類の中で際立った特徴を有する10次元の特徴ベクトルを決定する。この次元削減処理は、フィルタと呼ばれるソフトウェアコンポーネントによって実行される。帳票毎に算出した特徴ベクトル(10次元)及びフィルタの組みあわせの集合を分類器607と呼び、帳票種別毎の全体画像特徴量データ608とともにDB部310で管理する。
分類処理部602で行う学習処理は、カメラ104を介して取得した局所画像に対して画像特徴量抽出部312で特徴抽出を行い、特徴ベクトル(100次元)を算出する。次に、算出した特徴ベクトル(100次元)に対して分類器607の各分類のフィルタを適用(主成分分析)し、各分類に対応した特徴ベクトル(10次元)を算出する。そして、局所画像の特徴ベクトル(10次元)と、分類器の帳票毎の特徴ベクトル(10次元)を比較し、類似度判定により分類を決定する。類似度判定において、類似度が閾値を上回らない場合、分類失敗と決定する。
図6の学習結果609は、上記の学習処理部601の学習処理によりDB部310に蓄えられたデータの一例を示す。DB部310には、帳票種別毎に全体画像から抽出した全体画像特徴量データ608、および分類1(604)、分類2(605)、分類3(606)を分類可能な分類器607が含まれる。また、分類結果610は、分類処理部602の分類処理により局所画像と分類器607の情報を元に分類が決定した例を表している。本実施形態において、分類結果610は、局所画像を入力し、分類1(604)、分類2(605)、分類3(606)の中から分類結果が分類1(604)に判別されたことを示す。なお、画像分類部308が行う画像分類は、本実施形態に限定されるものではなく、本機能を実現することができる適宜の手法を採用することができる。
[座標処理]
次に、本実施形態に係る座標系、座標処理部311が行う座標変換処理、DB部310で管理する矩形領域座標について図7を用いて説明する。まず、本実施形態に係る座標系には、被写体座標701、ディスプレイ座標702、局所画像座標703、全体画像座標704、DB登録座標がある。被写体座標701は、A4注文書内における位置を示す座標であり、ディスプレイ座標702は、ディスプレイにおける位置座標であり、局所画像座標703は、局所画像内における位置座標であり、全体画像座標704は、全体画像内における位置座標である。DB登録座標は、全体画像座標を正規化したもの(全体に対する割合に10000を掛け合わしたもの)である。正規化する理由は、元画像の縦横に依存しない、かつDPIが異なる場合であっても(近くで撮影した場合であっても、遠くで撮影した場合であっても)対応可能にするためである。
ここで、座標変換処理とは、これら座標系間を変換する処理である。例えば、矩形領域座標保存処理(後述のステップS904)では、ユーザによりディスプレイで選択された矩形領域(ディスプレイ座標)705から全体画像座標706に変換し、さらにDB登録座標に変換してDB部310に保存する。DB部310で管理する矩形領域座標は、矩形領域の左上X座標をminX、右下X座標をmaxX、左上Y座標をminY、右下Y座標をmaxYとする。全体画像500の横が1500px、縦が2000pxの場合で説明する。全体画像座標706の左上座標707が(X,Y)=(200,700)、右下座標708が(400、750)の場合、DB登録座標は(1333、3500)、(2666,3750)となる。
[データ構造(DB)]
次に、DB部310の座標管理Tableについて説明する。図8は、本実施形態における座標管理Tableのデータ構造、保持する座標情報の一例を示す図である。座標管理Table801は、idカラム、classificationカラム、kindカラム、minXカラム、maxXカラム、minYカラム、maxYカラムから構成される。idカラムは、座標管理Table801にレコードが追加されるたびに1インクリメンタルされる値で、TableのPrimary keyである。classificationカラムは、分類結果(例えば、図6の分類結果610)を格納する。kindカラムは、矩形領域座標保存処理(後述のステップS904)により保存したデータなのか、ユーザ選択による矩形領域座標保存処理により保存したデータなのかを識別する識別子を格納する。minXカラムは、選択領域の左上X座標を格納する。maxXカラムは、選択領域右下X座標を格納する。minYカラムは、選択領域の左上Y座標を格納する。maxYカラムは、選択領域右下Y座標を格納する。図中において、ユーザが矩形領域座標保存処理(後述のステップS904)で選択した領域である選択領域807、808、809に対応した座標情報が、座標情報802、座標情報803、座標情報804である。また、ユーザ選択による矩形領域座標保存処理で選択した領域である選択領域810、811に対応した座標情報が、座標情報805、座標情報806である。
[事前設定処理フロー]
次に、モバイル端末100における事前設定処理フローについて図9を用いて説明する。本フローは、ユーザによりモバイル端末100におけるモバイルアプリ302でカメラ104を介して被写体105の画像を取得することをトリガーに開始する。以下ステップS901〜ステップS904の処理を帳票種別分(本実施形態では、分類1〜分類3に分類するための帳票3つ分)処理を繰り返す。
まず、ステップS901で、モバイルアプリ302の画像解析部306は、カメラ入力画像に対して紙面検出処理、歪み補正処理を行い、全体画像500を取得する。次に、ステップS902で、画像特徴量抽出部312は、全体画像500に対して全体画像特徴量データ608を抽出する。次に、ステップS903で、モバイルアプリ302のメイン制御部303は、全体画像特徴量データ608を帳票種別に対応づけてDB部310に保存する。そして、ステップS904で、モバイルアプリ302のメイン制御部303は、ステップS901で取得した全体画像500をモバイル端末100の表示・操作領域401に表示し、ユーザに矩形領域座標を選択させる(例えば、矩形領域705)。さらに、メイン制御部303は、座標処理部311で座標変換処理を行い、矩形領域座標705から全体画像座標706に変換し、DB登録座標に変換する。そして、メイン制御部303は、座標情報804をDB部310に保存する。座標情報802、803も同様の手順で保存する。
上記処理を帳票種別数分繰り返しが終了したら、ステップS905で、画像分類部308の学習処理部601は、帳票種別分の全体画像特徴量データ608を元に分類器607を作成し、DB部310に保存する。以上の処理により、後述の処理で利用する帳票毎の全体画像特徴量データ608、座標情報(802、803、804)、及び分類器607が作成される。
[基本フロー]
次に、モバイル端末100における基本的な処理フローについて図10を用いて説明する。本フローは、ユーザによりモバイル端末100におけるモバイルアプリ302で被写体105に対してカメラ104を接近して画像を取得することをトリガーに開始する。
まず、ステップS1001で、モバイルアプリ302は、カメラユニット206を介して局所画像501を取得する。次に、ステップS1002で、画像特徴量抽出部312は、局所画像に対して局所画像特徴量を抽出する。次に、ステップS1003で、画像分類部308は、抽出した局所画像特徴量と分類器607を用いて分類処理部602で分類処理を行い、局所画像の分類を決定する。次に、ステップS1004で、モバイルアプリ302は、局所画像で分類ができたか否かを判定する。局所画像で分類できた場合(Yes)、ステップS1005へ遷移する。一方、局所画像で分類ができなかった場合(No)、ステップS1001に戻って、再度カメラユニット206を介して局所画像を取得する。
次に、ステップS1005で、モバイルアプリ302のメイン制御部303は、表示・操作領域401に局所画像を表示する。さらに、座標処理部311で全体画像500における局所画像501の位置502を決定し、テキスト領域を表示する。なお、ステップS1005の詳細な処理に関しては、図12を用いて後述する。次に、ステップS1006で、モバイルアプリ302は、ユーザによるテキスト領域の選択があるか否かを判定する。ユーザによるテキスト領域の選択がある場合(Yes)、ステップS1007に遷移する。一方、ユーザによるテキスト領域の選択がない場合(No)、ステップS1005に戻って、再度、でテキスト領域表示処理を行う。
次に、ステップS1007で、モバイルアプリ302は、ユーザに選択されたテキスト領域のテキスト情報を取得する。次に、ステップS1008で、モバイルアプリ302は、ステップS1005で確定した全体画像と局所画像の位置502から、座標処理部311でユーザに選択されたテキスト領域の矩形座標711を、全体画像に対する矩形座標712に変換する。そして、ステップS1009で、モバイルアプリ302は、矩形座標712をDB部310報の座標管理Table801に保存する(座標情報805,806)。
[テキスト領域表示処理フロー]
図11は、図10のフローのステップS1005の処理の詳細を示すフローチャートである。まず、モバイルアプリ302は、ステップS1101で、カメラユニット206を介して処理対象である局所画像取得する。次に、ステップS1102で,画像特徴量抽出部312は、局所画像501に対して局所画像特徴量を抽出する。次に、ステップS1103で、座標処理部311は、ステップS1003で決定した分類(分類1)の全体画像特徴量データ608をDB部310から取得する。そして、全体画像特徴量データ608と当該局所画像特徴量を比較し、全体画像における局所画像の位置502を特定する。
次に、ステップS1104で、位置の特定ができたか否かを判定する。位置が特定できた場合(Yes)、ステップS1105に遷移し、一方、位置が特定できなかった場合(No)、ステップS1101に戻る。次に、ステップS1105で、OCR部307は、局所画像501からオブジェクト領域を認識する。次に、ステップS1106で、OCR部307は、ステップS1105で認識したオブジェクト領域に対してOCR処理を実行し、テキスト情報を認識する。次に、ステップS1107で、OCR部307は、テキスト情報を認識できたオブジェクト領域をテキスト領域として認識する。なお、図12のテキスト領域1201は、認識されたテキスト領域の一例である。そして、ステップS1108で、メイン制御部303は、局所画像からテキスト領域を認識できたか否かを判定する。テキスト領域を認識できた場合(Yes)、ステップS1109に遷移する。一方、テキスト領域を認識できなかった場合(No)、ステップS1113に遷移する。
次に、ステップS1109で、座標処理部311は、DB部310に保存してある座標情報(802〜806)を座標変換処理により全体画像座標から局所画像座標に変換し、変換した局所画像座標が、局所画像501内の座標か否かを判定する。局所画像501内の座標である場合(Yes)、ステップS1111に遷移する。一方、局所画像内の座標でない場合(No)、ステップS1110に遷移する。そして、ステップS1110で、情報表示部304は、表示・操作領域401にステップS1107で認識したテキスト領域を局所画像に重ね合わせて表示し、処理を終了する。
次に、ステップS1111で、情報表示部304は、表示・操作領域401にステップS1107で認識したテキスト領域を局所画像に重ね合わせて表示する。次に、ステップS1112で、座標処理部311は、変換した局所画像座標をテキスト領域で補正し、表示する。すなわち、変換した局所画像座標とテキスト領域が少しでも重なり合っていれば、補正して表示する。さらに、変換した局所画像座標と複数のテキスト領域が重なっている場合は、重なりの面積の多い方に補正して表示する。
ここで、図12を参照して、表示例について補正後のテキストについて説明する。座標1202は、補正前の局所画像座標であり、表示例1203が補正後の表示例である。また、表示例1205、1203、1204は、図8に示す座標情報802、803、804に対応する。また、表示例1206、1207は、図8に示す座標情報805、806に対応する。
図11に戻って、ステップS1113で、座標処理部311は、DB部310に保存してある座標情報(802〜806)を座標変換処理により全体画像座標から局所画像座標に変換し、変換した局所画像座標が、局所画像501内の座標か否かを判定する。局所画像501内の座標である場合(Yes)、ステップS1114に遷移する。一方、局所画像501内の座標でない場合(No)、ステップS1101に戻る。次に、ステップS1114で、情報表示部304は、座標変換処理により全体画像座標から局所画像座標に変換した座標を局所画像内に表示する。そして、処理を終了する。
以上のように、本実施形態によれば、紙文書に対して接近して画像を取り込む際に、予め保存しておいた領域がユーザの選択候補として表示されることにより、必要なテキスト領域を高速に見つけ出すことができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。

Claims (9)

  1. 文書の全体画像を取得する取得手段と、
    前記取得した全体画像の特徴量を抽出する抽出手段と、
    前記抽出した全体画像の特徴量と、前記全体画像の座標情報を保存する保存手段と、
    前記保存手段で保存された前記全体画像の特徴量と、処理対象である前記文書の局所画像の特徴量から前記全体画像内における前記局所画像の位置を特定し、前記特定した前記局所画像の位置と、前記保存手段で保存された座標情報を用いて前記局所画像の座標を特定する特定手段と、
    を備える
    ことを特徴とする情報処理装置。
  2. 前記特定した前記局所画像の位置から、前記局所画像内の座標を前記全体画像に対する座標に変換する変換手段
    をさらに備え、
    前記保存手段は、前記変換手段で変換した座標を前記座標情報として保存し、前記特定手段は、前記特定した前記局所画像の位置と、前記座標情報を用いて前記局所画像の座標を特定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記保存手段は、前記特徴量を文書の種類別に分類して保存し、前記特定手段は、前記局所画像の特徴量から前記文書の種類を特定し、前記特定した文書の種類における前記全体画像の特徴量を用いて前記局所画像の位置を特定する
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記局所画像からテキスト領域を認識する認識手段と、
    前記全体画像または前記局所画像を表示する表示手段と、
    をさらに備え、
    前記表示手段は、前記認識手段で認識したテキスト領域を前記局所画像に重ね合せて表示する
    ことを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記認識手段は、前記局所画像における前記テキスト領域の位置を認識し、前記表示手段は、前記特定手段で特定した前記局所画像の座標を、前記認識した前記テキスト領域の位置で補正して前記テキスト領域を表示する
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記表示手段は、前記特定手段で特定した前記局所画像の座標に複数のテキスト領域が重なっている場合、前記重なりの面積の多い方に補正して表示する
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記認識手段は、前記局所画像から、OCR処理により前記テキスト領域を認識する
    ことを特徴とする請求項4または5に記載の情報処理装置。
  8. 文書の全体画像を取得する取得工程と、
    前記取得した全体画像の特徴量を抽出する抽出工程と、
    前記抽出した全体画像の特徴量と、前記全体画像の座標情報を保存する保存工程と、
    前記保存工程で保存された前記全体画像の特徴量と、処理対象である前記文書の局所画像の特徴量から前記全体画像内における前記局所画像の位置を特定し、前記特定した前記局所画像の位置と、前記保存工程で保存された座標情報を用いて前記局所画像の座標を特定する特定工程と、
    を有する
    ことを特徴とする情報処理装置の制御方法。
  9. 請求項1〜7のいずれか1項に記載の情報処理装置の各手段としてコンピュータを機能させるためのプログラム。

JP2015256476A 2015-12-28 2015-12-28 情報処理装置、情報処理装置の制御方法、及びプログラム Active JP6739937B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015256476A JP6739937B2 (ja) 2015-12-28 2015-12-28 情報処理装置、情報処理装置の制御方法、及びプログラム
US15/368,971 US10452943B2 (en) 2015-12-28 2016-12-05 Information processing apparatus, control method of information processing apparatus, and storage medium
EP16002604.3A EP3193279A1 (en) 2015-12-28 2016-12-07 Information processing apparatus, control method of information processing apparatus, and storage medium
CN201611237042.2A CN107085699B (zh) 2015-12-28 2016-12-28 信息处理设备、信息处理设备的控制方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015256476A JP6739937B2 (ja) 2015-12-28 2015-12-28 情報処理装置、情報処理装置の制御方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2017120503A true JP2017120503A (ja) 2017-07-06
JP2017120503A5 JP2017120503A5 (ja) 2019-02-14
JP6739937B2 JP6739937B2 (ja) 2020-08-12

Family

ID=57538984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015256476A Active JP6739937B2 (ja) 2015-12-28 2015-12-28 情報処理装置、情報処理装置の制御方法、及びプログラム

Country Status (4)

Country Link
US (1) US10452943B2 (ja)
EP (1) EP3193279A1 (ja)
JP (1) JP6739937B2 (ja)
CN (1) CN107085699B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135749A (ja) * 2019-02-25 2020-08-31 トッパン・フォームズ株式会社 画像処理装置、ガイド画像生成方法及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176363B2 (en) * 2017-09-29 2021-11-16 AO Kaspersky Lab System and method of training a classifier for determining the category of a document
JP6784273B2 (ja) 2018-04-02 2020-11-11 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218109A (ja) * 2009-03-16 2010-09-30 Ricoh Co Ltd 画像検索装置及び画像検索方法
JP2011008752A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898301B2 (en) 2000-07-10 2005-05-24 Casio Computer Co., Ltd. Authentication system based on fingerprint and electronic device employed for the system
US7221796B2 (en) 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
DE10342594B4 (de) 2003-09-15 2005-09-15 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE10345526A1 (de) 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
US7840033B2 (en) 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
WO2007117334A2 (en) 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
US20080094496A1 (en) 2006-10-24 2008-04-24 Kong Qiao Wang Mobile communication terminal
TWI379245B (en) 2009-04-27 2012-12-11 Asustek Comp Inc Method for continuously outputting character by video-recording
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
GB2507540A (en) * 2012-11-02 2014-05-07 Zwipe As Enrolling fingerprints by combining image strips to obtain sufficient width
EP2821934B1 (en) 2013-07-03 2024-02-14 Open Text S.A. System and method for optical character recognition and document searching based on optical character recognition
US20150138220A1 (en) * 2013-11-18 2015-05-21 K-Nfb Reading Technology, Inc. Systems and methods for displaying scanned images with overlaid text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218109A (ja) * 2009-03-16 2010-09-30 Ricoh Co Ltd 画像検索装置及び画像検索方法
JP2011008752A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135749A (ja) * 2019-02-25 2020-08-31 トッパン・フォームズ株式会社 画像処理装置、ガイド画像生成方法及びプログラム
JP7292052B2 (ja) 2019-02-25 2023-06-16 Toppanエッジ株式会社 画像処理装置、ガイド画像生成方法及びプログラム

Also Published As

Publication number Publication date
CN107085699A (zh) 2017-08-22
EP3193279A1 (en) 2017-07-19
US10452943B2 (en) 2019-10-22
CN107085699B (zh) 2021-06-15
JP6739937B2 (ja) 2020-08-12
US20170185859A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
JP6255486B2 (ja) 情報認識のための方法及びシステム
JP5229050B2 (ja) 画像からの文書領域抽出装置、方法、及びプログラム
US20180115680A1 (en) Image processing apparatus, image processing system, control method for image processing apparatus, and non-transitory computer readable medium
EP3518522B1 (en) Image capturing method and device
US10694098B2 (en) Apparatus displaying guide for imaging document, storage medium, and information processing method
CN103019537A (zh) 一种图像预览方法及装置
KR20130066819A (ko) 촬영 이미지 기반의 문자 인식 장치 및 방법
JP6739937B2 (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
WO2014184372A1 (en) Image capture using client device
JP2019012361A (ja) 情報処理装置、プログラム及び情報処理方法
US20160300321A1 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
JP4859054B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
US20150112853A1 (en) Online loan application using image capture at a client device
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
KR20230017774A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
US10002291B2 (en) Method and system of identifying fillable fields of an electronic form
US20220269396A1 (en) Dynamic targeting of preferred objects in video stream of smartphone camera
JP2017199288A (ja) 画像処理装置、画像処理方法及びプログラム
KR101498546B1 (ko) 문서 디지털 복원 시스템 및 방법
JP2017120455A (ja) 情報処理装置、プログラム及び制御方法
JP6639257B2 (ja) 情報処理装置及びその制御方法
JP2017098878A (ja) 情報端末装置及びプログラム
JP2007011762A (ja) 領域抽出装置及び領域抽出方法
JP2018055338A (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
JP6779798B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200722

R151 Written notification of patent or utility model registration

Ref document number: 6739937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151