JP2020149184A - 情報処理装置、その制御方法及びプログラム - Google Patents

情報処理装置、その制御方法及びプログラム Download PDF

Info

Publication number
JP2020149184A
JP2020149184A JP2019044554A JP2019044554A JP2020149184A JP 2020149184 A JP2020149184 A JP 2020149184A JP 2019044554 A JP2019044554 A JP 2019044554A JP 2019044554 A JP2019044554 A JP 2019044554A JP 2020149184 A JP2020149184 A JP 2020149184A
Authority
JP
Japan
Prior art keywords
distortion
character string
image
character
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019044554A
Other languages
English (en)
Inventor
嘉仁 七海
Yoshihito Nanaumi
嘉仁 七海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019044554A priority Critical patent/JP2020149184A/ja
Publication of JP2020149184A publication Critical patent/JP2020149184A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】より高精度に原稿画像の歪みを補正可能な情報処理装置を提供することである。【解決手段】本発明による情報処理装置は、原稿を撮影した撮影画像から文字列領域を抽出する抽出手段と、前記抽出手段により抽出した前記文字列領域の歪みを判別する判別手段と、前記判別手段により前記文字列領域に歪みがあると判別した場合に歪み補正を行う補正手段(313)と、を備え、前記補正手段は、前記文字列領域の歪みの種類に応じた歪み補正を行う、ことを特徴とする。【選択図】図5

Description

本発明は、画像に含まれる文字情報を抽出することが可能な情報処理装置、情報処理方法、コンピュータプログラムに関する。
近年、スマートフォンやタブレットPCといった高度な情報処理機能を持つモバイル端末が普及してきている。これらのモバイル端末は、カメラを備え、撮影機能(カメラ機能)を有している。このようなモバイル端末のカメラ機能を用いて紙媒体の原稿を撮影して得られた原稿画像から文字情報を抽出して活用する機会が増えてきた。
モバイル端末のカメラ機能を用いた原稿の撮影では、MFP(Multi Function Peripheral)における原稿のスキャンとは異なり、撮影画像全面に原稿全体を正面から歪みなく写すことが難しい。なぜなら、撮影起因の歪みが生じる場合や原稿起因の歪みが生じる場合があるためである、撮影起因の歪みとは、例えば、撮影時に、斜め方向から撮影したために、撮影画像における原稿内容が幾何学的に歪んでしまうことである。原稿起因の歪みとは、例えば、紙媒体の原稿自体が折れ曲がりなどで歪んでいるために、正面方向から撮影したとしても、撮影画像における原稿内容が歪んでしまうことである。これらの歪みは、原稿画像からOCR処理で文字情報を抽出しようとしたときの文字認識精度低下の原因となる。
特許文献1では、撮影起因の歪みに対して、罫線画像や文字画像などの情報を使い、切り出した原稿領域に対して歪み補正(台形補正と呼ばれる場合もある)を施して原稿領域の歪み補正を行っている。特許文献2では、原稿起因の歪みに対して、罫線情報や文字の並び情報を用いて歪みを判別し、画像の歪みを補正している。
特開平10−079878号公報 特許第4507124号公報
しかしながら、特許文献2で対象にしている、MFPで本をスキャンしたときに発生する歪みは、原稿起因の歪みの中でも規則正しい歪み(以下、「規則的歪み」という)である。このため、特許文献2では、罫線情報や文字の並び情報から推定した歪み補正関数を適応することにより原稿画像の歪みを補正することができた。
しかし、カメラによる原稿撮影の場合の原稿起因の歪みは、規則性のない歪み(以下、「不規則歪み」という)であることが多い。不規則歪みの場合、画像の一部の情報から算出した局所最適化された歪み補正関数を適応すると原稿画像の一部はうまく歪み補正されるが、全体としてはより歪んでしまうといったことがある。このように歪んだ画像に対してOCR処理を施した場合、抽出した文字情報の文字認識精度が低下してしまうという問題がある。
本発明は、より高精度に原稿画像の歪みを補正可能な情報処理装置の提供を目的とする。
本発明の一実施形態の情報処理装置は、原稿を撮影した撮影画像から文字列領域を抽出する抽出手段と、前記抽出手段により抽出した前記文字列領域の歪みを判別する判別手段と、前記判別手段により前記文字列領域に歪みがあると判別した場合に歪み補正を行う補正手段と、を備え、前記補正手段は、前記文字列領域の歪みの種類に応じた歪み補正を行う。
本発明によれば、より高精度に原稿画像の歪みを補正可能な情報処理装置を提供することができる。
本発明の実施例1におけるモバイル端末の外観の一例を示す図である。 実施例1におけるモバイル端末のハードウェア構成の一例を示す図である。 実施例1におけるモバイル端末のソフトウェア構成の一例を示す図である。 実施例1におけるモバイルアプリのUIの一例を示す図である。 実施例1における歪み補正処理フローを示す図である。 実施例1における四辺情報抽出処理の一例を示す図である。 実施例1における撮影歪み補正処理の一例を示す図である。 実施例1における原稿歪み画像に対する文字抽出処理フローを示す図である。 実施例1における原稿歪み画像に対する文字抽出処理の一例を示す図である。 実施例1における原稿歪み補正処理の一例を示す図である。
以下、本発明を実施するための形態について図面を参照して説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、本発明は、ある実施例の各構成のそれぞれを他の実施例に適用するものを含む。
(実施例1)
実施例1では、本発明の実施形態に係る情報処理装置の一例として、モバイル端末を例に説明する。
[外観]
図1は、実施例1に係るモバイル端末の外観の一例を示す図である。図1(A)は、モバイル端末の前面を見た正面図である。図1(B)は、モバイル端末の背面を見た背面図である。モバイル端末100は、携帯端末の一例であり、無線通信機能などの装備によって自由な場所で利用できる端末である。モバイル端末100は、各種ユニットとして、モバイル端末前面部101、タッチパネル102、モバイル端末背面部103及びカメラ104を含んで構成される。
モバイル端末前面部101は、モバイル端末100の表側である。タッチパネル102は、ディスプレイ等の表示部の一例である。タッチパネル102は、出力(表示)及び入力の2つの機能を備えている。さらに、モバイル端末背面部103は、モバイル端末100の裏側である。モバイル端末背面部103は、画像を取り込むためのカメラ104を含む。本実施例では、モバイル端末100のユーザは、被写体105の画像を後述のモバイルアプリ302の操作で撮影することによって処理を開始することができる。本実施例において、被写体105は、A4サイズの紙媒体の原稿である。また、後述のモバイルアプリ302は、被写体105の撮影画像を取り込み、タッチパネル102に出力(表示)することができる。
[ハードウェア構成]
図2は、モバイル端末100のハードウェアの構成の一例を示すブロック図である。モバイル端末100は、各種ユニットを含んで構成される。モバイル端末100が含む各種ユニットは、CPU(Central Processing Unit)201を含む。モバイル端末100が含む各種ユニットは、RAM(Random Access Memory)202を含む。モバイル端末100が含む各種ユニットは、ROM(Read Only Memory)203を含む。モバイル端末100が含む各種ユニットは、Input/Outputインターフェース204を含む。モバイル端末100が含む各種ユニットは、NIC(Network Interface Card)205を含む。モバイル端末100が含む各種ユニットは、カメラユニット206を含む。モバイル端末100が含む各種ユニットは、バス207を含む。
CPU201は、各種のプログラムを実行し、様々な機能を実現するユニットである。RAM202は、各種の情報を記憶するユニットである。また、RAM202は、CPU201の一時的な作業記憶領域としても利用されるユニットである。ROM203は、各種のプログラム等を記憶するユニットである。例えば、CPU201は、ROM203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。
加えて、CPU201は、フラッシュメモリ、HDD(Hard Disk Drive)又はSSD(Solid State Disk)といった外部記憶装置に記憶されているプログラムに基づき処理を実行する。これにより、後述の図3に示すようなモバイル端末100を構成するソフトウェア構成及び後述するシーケンスの各ステップの処理が実現される。なお、モバイル端末100の機能及び後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。
Input/Outputインターフェース204は、タッチパネル102とデータを送受信する。NIC205は、モバイル端末100をネットワーク(不図示)に接続するためのユニットである。カメラユニット206は、カメラ104と接続し被写体105の撮影画像をモバイル端末100に取り込む。さらに、カメラユニット206は、連続的に撮影画像を取り込む動画撮影が実行可能である。上述したモバイル端末100が含む各種ユニットは、バス207を介してデータの送受信を行うことが可能に構成されている。
[ソフトウェア構成(モバイル端末)]
次に、モバイル端末100で動作するソフトウェアの構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す図である。図3に示すアプリケーション(後述のモバイルアプリ302など)とそれらアプリケーション機能(モジュール部)を実現するプログラムは、モバイル端末100のROM203等に記憶されている。モバイル端末100のOS(Operating System)(不図示)は、データ管理部301を有する。データ管理部301は、画像やアプリケーションデータを管理する。OSは、データ管理部301を利用するための制御API(Application Programming Interface)を提供している。各プログラムは、該制御APIを利用することでデータ管理部301が管理する画像やアプリケーションデータの取得や保存を行う。
モバイルアプリ302は、モバイル端末100のOSのインストール機能(例えば、Apple App StoreやGoogle Play Storeなど)を利用して、ダウンロードし、インストールすることにより実行可能なアプリケーションである。モバイルアプリ302は、カメラユニット206を介して取り込んだ被写体105の撮影画像に対する各種の画像処理を行う。
メイン制御部303は、モバイル端末100用のモバイルアプリ302を制御し、各モジュール部に対する指示、及び管理を行う。各モジュール部は、メイン制御部303を含む。各モジュール部は、情報表示部304を含む。各モジュール部は、操作情報取得部305を含む。各モジュール部は、撮影画像取得部306を含む。各モジュール部は、記憶部307を含む。各モジュール部は、DB部308を含む。各モジュール部は、四辺抽出処理部309を含む。各モジュール部は、撮影歪み補正処理部310を含む。各モジュール部は、文字列抽出部311を含む。各モジュール部は、OCR処理部312を含む。各モジュール部は、原稿歪み補正処理部313を含む。
情報表示部304は、メイン制御部303からの指示に従い、モバイルアプリ302のユーザーインタフェース(UI)をユーザに提供する。図4は、モバイルアプリ302のUI(携帯端末用のUI)を提供する画面の一例(モバイル端末画面400)を示す図である。モバイル端末画面400は、モバイル端末100のタッチパネル102に表示される。また、モバイル端末画面400では、表示及び操作領域401にカメラ104を介して取り込んだ撮影画像が表示され、画像等に対するユーザによる操作(ユーザー操作)を、表示されたUIを介して受け付ける。なお、モバイルアプリ302のUIの形態(位置、大きさ、範囲、配置、表示内容など)は、図に示す形態に限定されるものではなく、モバイル端末100の機能を実現することができる適宜の構成を採用することができる。
操作情報取得部305は、情報表示部304により表示されたモバイルアプリ302のUIに対しユーザ操作された情報を取得し、取得した情報をメイン制御部303に通知する。例えば、表示及び操作領域401をユーザが手で触れると、操作情報取得部305は、触れられた画面上の位置の情報を感知し、感知した位置の情報をメイン制御部303に送信する。
撮影画像取得部306は、カメラユニット206を介して取得した撮影画像を、記憶部307に送信する。
記憶部307は、撮影画像取得部306で取得した画像を一時的に記憶する。
DB部308は、データベース機能を有し、後述する原稿の四辺情報やモバイルアプリ302で管理する一時情報を保存する。
四辺抽出処理部309は、カメラユニット206を介して取得した撮影画像に対して原稿領域の頂点座標である四辺情報を抽出する。
撮影歪み補正処理部310は、撮影画像上の原稿領域の四辺情報と出力画像の四辺情報から歪み補正情報を求め、歪み補正情報を使って撮影画像に対して歪み補正を行う。本実施例では原稿領域の四辺情報を使い歪み補正を行うが、原稿内の罫線や文字基線情報を使い歪み補正を行う構成であってもよい。
文字列抽出部311は、画素の塊(Connected Components 以下「画素塊」又は「CC」という)を抽出し、連結するCCをグループ化し、文字列として抽出し、文字列画像を得る。
OCR処理部312は、文字列画像に対して文字認識処理を実行し、文字テキスト情報を出力する。
原稿歪み補正処理部313は、文字列を抽出して得た文字列画像に対し、連結するCC間の位置情報を元に歪み判断を行い、歪み補正処理を行う。
[歪み補正処理フロー]
次に、モバイル端末100のモバイルアプリ302が実行する本発明の歪み補正処理フローについて図5を用いて説明する。本フローは、ユーザによってモバイル端末100におけるモバイルアプリ302が起動され、カメラ104を介して被写体105の撮影画像を取得することをトリガーに開始する。
まず、ステップS501において、モバイルアプリ302の撮影画像取得部306は、カメラユニット206を介して撮影画像を取得する。
[四辺情報検出処理]
次に、ステップS502の四辺情報検出処理について図6を用いて説明する。まず、モバイルアプリ302は、撮影画像に対して、原稿領域の原稿四辺の候補である候補線分群と、原稿領域の原稿四辺を示す四辺形領域を特定する。
図6(A)は、撮影画像600を示す。撮影画像600は、その画像内に原稿内容の領域(四辺形領域)を示す原稿領域601を含む。
図6(B)は、撮影画像600上に候補線分群を重ねて表示した画像である。候補線分群は、撮影画像600から検出されたエッジ情報を検出するHough変換アルゴリズムなどの公知の方法によって検出される。検出された候補線分群には、候補線分602をはじめとした、原稿領域の四辺以外を表す線分も含まれる。この候補線分群中から、原稿領域の上辺、右辺、下辺、左辺のそれぞれに対して各辺を構成する可能性が最も高いと判断される候補線分603、604、605、606を特定する。
原稿領域の各辺として、候補線分群の中から候補線分603、604、605、606を第1の候補として特定する手段としては、例えば、任意の4本の候補線分で構成される四辺形に対して評価を行うことで特定する。任意の4本の候補線分で構成される四辺形の評価は、例えば、対辺の長さの比や内角の大きさ、アスペクト比などの幾何学的な情報に基づいて行われてもよい。又は、四辺形を構成する線分について、内側と外側の色味や分散を比較するなどの画像内容に基づいて行われてもよい。
図6(C)は、候補線分群の中から特定された原稿領域である四辺形領域607を、撮影画像600上に表示した画像である。四辺形領域607は、候補線分603、604、605、606を四辺として特定された場合に構成される四辺形領域であり、頂点608、609、610、611(以下四辺情報と呼ぶ)を結ぶ線分によって囲まれた四辺形領域である。
図6(D)は、撮影画像600とは別の撮影画像である撮影画像612を示す図である。撮影画像612は、その画像内に原稿内容の領域を示す原稿領域613を含む。図6(F)は、撮影画像600及び撮影画像612とは別の撮影画像である撮影画像616を示す図である。撮影画像616は、その画像内に原稿内容の領域を示す原稿領域617を含む。この図6(D)及び図6(F)の例は、四辺情報検出処理に失敗する例である。
図6(E)の画像614は、撮影画像612上に候補線分群を重ねて表示した画像である。図6(G)の画像618は、撮影画像616上に候補線分群を重ねて表示した画像である。図6(E)及び図6(G)においては、検出された候補線分群から選択された任意の4本によって四辺形の評価が行われるが、いずれの評価結果においても評価値が閾値以下の結果となり、四辺形として評価されなかったことを示す。
次に、ステップS503において、モバイルアプリ302は、原稿の四辺認識ができたか否かを判断する。モバイルアプリ302は、ステップS502で四辺情報が特定できた場合(図6(A)、図6(B)、図6(C)の場合)は、四辺認識できたと判断し、ステップS504に遷移する。また、モバイルアプリ302は、ステップS502で四辺情報が特定できなかった場合(図6(D)及び図6(E)の場合、又は図6(F)及び図6(G)の場合)は、四辺認識できなかったと判断し、ステップS507に遷移する。
[撮影歪み補正処理]
次に、ステップS504の撮影歪み補正処理について図7を用いて説明する。モバイルアプリ302の撮影歪み補正処理部310は、撮影画像の四辺情報と出力画像の四辺情報を使って撮影歪み補正情報を算出し、この撮影歪み補正情報を用いて補正処理を行う。この撮影歪み補正情報は、四辺形領域が台形に歪んでいる場合も考慮し、射影変換行列になる。この射影変換行列は、撮影画像内の四辺情報と、出力画像の四辺情報から公知の方法により算出することが可能である。
なお、処理速度を優先する場合には、アフィン変換行列や単純な変倍率を撮影歪み補正情報として用いて算出しても良い。撮影歪み補正情報が決定すると、撮影歪み補正処理部310は、撮影画像の四辺形領域だけに撮影歪み補正処理を施すことで、撮影画像内から四辺形領域だけを取り出した画像を出力することができる。
図7(A)は、図6(C)の四辺形領域607を示す図である。四辺形領域607の四辺情報と、出力画像の四辺情報とから算出した撮影歪み補正情報を使った撮影歪み補正処理の出力結果例が、図7(B)である。ここで、四辺情報は、例えば、四辺形の4つの頂点の座標で表される。例えば四辺形領域607の四辺情報は、頂点608、頂点609、頂点610、及び頂点611の座標である。例えば出力画像の四辺情報は、頂点700、頂点701、頂点702、及び頂点703の座標である。
[文字列抽出処理]
次に、ステップS505において、モバイルアプリ302の文字列抽出部311は、文字抽出処理を行う。まずモバイルアプリ302の文字列抽出部311は、撮影歪み補正処理部310で補正し、原稿領域だけを切り出した撮影歪み補正済みの原稿画像に対して2値化処理を行い、原稿画像を白と黒の2値画像に変換する。
続いて文字列抽出部311は、2値画像からCCを抽出する。さらに、抽出したCC毎に文字/非文字判定を行い、文字領域を抽出する。たとえば、日本語の濁点等は、他のCCとの位置関係からノイズとするか濁点として他の文字領域に含めるかを決め、濁点と判断した場合は、文字領域として他のCCに含める。さらに「合」という文字のような独立したCCの組み合わせで一つの文字と判断するものは、CCの大きさや位置関係により文字/非文字を判断し、文字と判断した場合は、CCの組み合わせを文字領域とする(文字領域抽出処理)。
次に、ステップS513において、文字列抽出部311は、抽出した各文字領域が一定距離内にある文字領域をグループ化することにより文字列領域を抽出する。なお、ある文字領域と別の文字領域とが同一文字列であると判断するための一定距離である文字領域間の距離は、例えば、以下のように求めることができる。まず、一般的な文書において文字列である確率が高い文字間隔値を予め求めておく。次に、文字領域抽出処理で求めた文字領域から文字の大きさを求め、この文字の大きさと予め求めた文字間隔値とを掛け合わせ、さらに所定の係数を掛け合わせて、文字領域同士が同一文字列である場合の文字領域間の距離を求める。
次に、ステップS506において、モバイルアプリ302のOCR処理部312は、ステップS505で抽出した文字列領域に対してOCR処理を実行し、文字認識結果を得る。このステップS506のOCR処理は、ステップS505で抽出したすべての文字列領域に対して実行するように繰り返して処理する。
[文字列抽出処理2]
次に、ステップS507において、モバイルアプリ302の文字列抽出部311は、原稿歪み画像に対して第2の文字列抽出処理を行う。ステップS507の処理の詳細について、図8の文字列抽出処理フロー(文字列抽出処理2)と、図9の文字列抽出図を用いて説明する。
図9(A)は、図6(E)の画像614を示している。画像614は、ステップS502の四辺検出処理で四辺情報が特定できなかった画像である。図9(A)の画像900は、画像614の一部領域の画像である。画像900は、原稿歪みを有する画像である。図9(C)の拡大画像903は、画像900を拡大して示す画像である。図9(A)の画像901は、画像614の一部領域の画像である。画像901は、原稿歪みを有する画像である。図9(D)の拡大画像904は、画像901を拡大して示す画像である。
図9(B)は、図6(G)の画像618を示している。画像618は、ステップS502の四辺検出処理で四辺情報が特定できなかった画像である。図9(B)の画像902は、画像618の一部領域の画像である。画像902は、原稿歪みを有する画像である。図9(E)の拡大画像905は、画像902を拡大して示す画像である。
ステップS801において、文字列抽出部311は、原稿歪み画像に対して線成分を抽出する。次に、ステップS802において、文字列抽出部311は、線成分を画像から取り除く。図9(C)の拡大画像903に対して線成分を取り除いた画像が、図9(F)の線成分除去後画像906である。図9(D)の拡大画像904に対して線成分を取り除いた画像が、図9(G)の線成分除去後画像907である。図9(E)の拡大画像905に対して線成分を取り除いた画像が、図9(H)線成分除去後画像908である。
次に、ステップS803において、文字列抽出部311は、ステップS505と同様に、文字抽出処理を行う。次に、ステップ804において、文字列抽出部311は、抽出した文字毎の重心を計算する。図9(I)は文字重心画像909を示す図である。文字重心画像909は、線成分除去後画像906から文字抽出し、文字毎の重心を計算し、文字毎の重心を図示した画像である。図9(J)は文字重心画像910を示す図である。文字重心画像910は、線成分除去後画像907から文字抽出し、文字毎の重心を計算し、文字毎の重心を図示した画像である。図9(K)は文字重心画像911を示す図である。文字重心画像911は、線成分除去後画像908から文字抽出し、文字毎の重心を計算し、文字毎の重心を図示した画像である。
次に、ステップS804において、文字列抽出部311は、文字の重心毎に近接する文字重心との組み合わせをペア候補として生成する。図9(L)はペア候補画像912を示す図である。ペア候補画像912は、図9(I)の文字重心画像909の文字重心に対して生成したペア候補を図示した画像である。図9(M)はペア候補画像913を示す図である。ペア候補画像913は、図9(J)の文字重心画像910の文字重心に対して生成したペア候補を図示した画像である。図9(N)はペア候補画像914を示す図である。ペア候補画像914は、図9(K)の文字重心画像911の文字重心に対して生成したペア候補を図示した画像である。ペア候補画像912、ペア候補画像913及びペア候補画像914において、ペア候補は、文字の重心毎に近接する文字重心の方向を指す矢印で示している。
次にステップS805において、文字列抽出部311は、原稿辺、表、罫線情報を用いて、ペア候補のうち線成分で分断される候補を除外し、線成分で分断されないペアをピックアップする。図9(O)はペア画像915を示す図である。ペア画像915は、図9(L)のペア候補画像912のペア候補のうち線成分で分断されないペアのみを図示した画像である。図9(P)はペア画像916を示す図である。ペア画像916は、図9(M)のペア候補画像913のペア候補のうち線成分で分断されないペアのみを図示した画像である。図9(Q)はペア画像917を示す図である。ペア画像917は、図9(N)のペア候補画像914のペア候補のうち線成分で分断されないペアのみを図示した画像である。
次に、ステップS806において、文字列抽出部311は、線成分で分断されないペアのCC同士をグループ化し、そのグループを文字列として抽出する。図9(R)は文字列918及び文字列919を示す図である。文字列918及び文字列919は、図9(O)のペア画像915のペアのCC同士をグループ化し、そのグループを文字列として抽出した結果の文字列である。図9(S)は文字列920及び文字列921を示す図である。文字列920及び文字列921は、図9(P)のペア画像916のペアのCC同士をグループ化し、そのグループを文字列として抽出した結果の文字列である。図9(T)は文字列922及び文字列923を示す図である。文字列922及び文字列923は、図9(Q)のペア画像917のペアのCC同士をグループ化し、そのグループを文字列として抽出した結果の文字列である。
次に、ステップS508において、モバイルアプリ302の原稿歪み補正処理部313は、ステップS507で抽出した文字列に対して歪み判断を行う。ここでは、文字列抽出結果の文字列が、図9(R)の文字列918、図9(R)の文字列919、図9(S)の文字列920、図9(S)の文字列921、図9(T)の文字列922、及び図9(T)の文字列923である場合を例にして、歪み判断の説明を行う。
歪み判断は、抽出した各文字列が基準座標系に対して、ずれているか否かを判断する。基準座標系は、例えば、文字列の先頭文字の文字重心を原点(0,0)とし、撮影画像の左右方向をY軸方向とし、撮影画像の上下方向をX軸方向とした、直交座標系である。図10(A)は、図9(R)の文字列918に対する基準座標系である基準座標系1000を示す図である。図10(B)は、図9(R)の文字列919に対する基準座標系である基準座標系1001を示す図である。図10(C)は、図9(S)の文字列920に対する基準座標系である基準座標系1002を示す図である。図10(D)は、図9(S)の文字列921に対する基準座標系である基準座標系1003を示す図である。図10(E)は、図9(T)の文字列922に対する基準座標系である基準座標系1004を示す図である。図10(F)は、図9(T)の文字列923に対する基準座標系である基準座標系1005を示す図である。
歪み判断は、文字列を形成する各文字の文字重心が同一Y座標上にあるか否かにより判断する。図10(A)の例では、文字列918の各文字の文字重心は、基準座標系1000の同一Y座標上にないため、文字列918は歪んでいると判断する。図10(B)の例では、文字列919の各文字の文字重心は、基準座標系1001の同一Y座標上にないため、文字列919は歪んでいると判断する。図10(C)の例では、文字列920の各文字の文字重心は、基準座標系1002の同一Y座標上にあるため、文字列920は歪んでいないと判断する。図10(D)の例では、文字列921の各文字の文字重心は、基準座標系1003の同一Y座標上にあるため、文字列921は歪んでいないと判断する。図10(E)の例では、文字列922の各文字の文字重心は、基準座標系1004の同一Y座標上にないため、文字列922は歪んでいると判断する。図10(F)の例では、文字列923の各文字の文字重心は、基準座標系1005の同一Y座標上にないため、文字列923は歪んでいると判断する。ステップS508において、原稿歪み補正処理部313は、文字列が歪んでいないと判断した場合にはステップS509に遷移し、文字列が歪んでいると判断した場合にはステップS510に遷移する。
次に、ステップS509において、モバイルアプリ302のOCR処理部312は、歪んでいないと判断した文字列が含まれる文字列領域に対し、ステップS506と同様にOCR処理を実行し、文字認識結果を得る。
次に、ステップS510において、モバイルアプリ302の原稿歪み補正処理部313は、ステップS508で歪んでいると判断された文字列に対して規則的歪み(線形歪み)なのか、不規則歪み(非線形歪み)なのかを判断する。原稿歪み補正処理部313は、文字列を形成する各文字の文字重心の配置位置に基づいて歪みの種類を判断する。原稿歪み補正処理部313は、文字列を形成する文字の文字重心が一定距離で並んでおり、かつ同一角度で並んでいる場合を規則的歪みと判断し、これ以外を不規則歪みと判断する。したがって、原稿歪み補正処理部313は、文字列918及び文字列919は不規則歪みであると判断し、文字列922及び文字列923は規則的歪みであると判断する。なお、文字列の歪み判断方法としては、文字重心を使う場合で説明を行ったが、本発明はこれに限られず、文字の外接矩形の重心を使ってもよい。ステップS510において、原稿歪み補正処理部313は、規則的歪みであると判断した場合にはステップS511に遷移し、不規則歪みと判断した場合にはステップS512へと遷移する。
ステップS511においては、モバイルアプリ302の原稿歪み補正処理部313は、文字列領域画像に対して歪み補正を行う。原稿歪み補正処理部313は、文字列領域を構成するCC群の輪郭を文字列領域の外接矩形とする。原稿歪み補正処理部313は、この文字列領域の外接矩形の4つの頂点を用いて、文字列領域を基準座標系の四辺形(四辺が座標軸と平行又は直交する四辺形)に射影する射影変換行列を算出し、この射影変換行列により歪み補正を行う。図10(I)は、図10(E)の文字列922の文字列領域を構成するCC群の輪郭である外接矩形1006を示す図である。原稿歪み補正処理部313は、この外接矩形1006を基準座標系1007へ射影することで、歪み補正結果である補正画像1010(図10(M)参照)を得る。図10(J)は、図10(F)の文字列923の文字列領域を構成するCC群の輪郭である外接矩形1008を示す図である。原稿歪み補正処理部313は、この外接矩形1008を基準座標系1009へ射影することで、歪み補正結果である補正画像1011(図10(N)参照)を得る。原稿歪み補正処理部313は、文字列領域の歪みが線形歪みである場合にはこの文字列領域の単位での歪み補正を行う。
ステップS512においては、モバイルアプリ302の原稿歪み補正処理部313は、文字列を構成する文字毎に歪み補正を行う。原稿歪み補正処理部313は、文字領域を構成するCC群の輪郭を文字領域の外接矩形とする。原稿歪み補正処理部313は、この文字領域の外接矩形の4つの頂点を用いて、文字領域を基準座標系の四辺形(四辺が座標軸と平行又は直交する四辺形)に射影する射影変換行列を算出し、この射影変換行列により歪み補正を行う。このステップS512の処理は、すべての文字領域に対して実行するように、文字数分繰り返して処理する。図10(G)は、図10(A)の文字列918の各文字領域を構成するCC群の輪郭である外接矩形1012を示す図である。原稿歪み補正処理部313は、この外接矩形1012を基準座標系1013へ射影することで、歪み補正結果である補正画像1016(図10(K)参照)を得る。図10(H)は、図10(B)の文字列919の各文字領域を構成するCC群の輪郭である外接矩形1014を示す図である。原稿歪み補正処理部313は、この外接矩形1014を基準座標系1015へ射影することで、歪み補正結果である補正画像1017(図10(L)参照)を得る。原稿歪み補正処理部313は、文字列領域の歪みが非線形歪みである場合にはこの文字列領域を構成する文字領域の単位での歪み補正を行う。
なお、以上説明したステップS508、S509、S510、S511、及びS512の処理は、ステップS507で抽出したすべての文字列領域に対して実行するように繰り返して処理する。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 モバイル端末
104 カメラ
301 データ管理部
302 モバイルアプリ
303 メイン制御部
304 情報表示部
305 操作情報取得部
306 撮影画像取得部
307 記憶部
308 DB部
309 四辺抽出処理部
310 撮影歪み補正処理部
311 文字列抽出部
312 OCR処理部
313 原稿歪み補正処理部

Claims (8)

  1. 原稿を撮影した撮影画像から文字列領域を抽出する抽出手段と、
    前記抽出手段により抽出した前記文字列領域の歪みを判別する判別手段と、
    前記判別手段により前記文字列領域に歪みがあると判別した場合に歪み補正を行う補正手段と、
    を備え、
    前記補正手段は、前記文字列領域の歪みの種類に応じた歪み補正を行う、
    ことを特徴とする情報処理装置。
  2. 前記判別手段は、前記文字列領域の歪みが線形歪みであるか非線形歪みであるかを判別し、
    前記補正手段は、
    前記文字列領域の歪みが線形歪みである場合には該文字列領域の単位での歪み補正を行い、
    前記文字列領域の歪みが非線形歪みである場合には該文字列領域を構成する文字領域の単位での歪み補正を行う、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記補正手段により歪みを補正された前記文字列領域の画像に対して文字認識処理を行う文字認識手段をさらに備える、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記判別手段は、前記文字列領域を構成する各文字の画素塊の重心の配置位置に基づいて、前記文字列領域の歪みが線形歪みであるか非線形歪みであるかを判別する、
    ことを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記撮影画像から前記原稿の四辺を認識する認識手段をさらに備え、
    前記補正手段は、前記認識手段により前記原稿の四辺を認識できた場合には、前記原稿の四辺についての四辺情報に基づいて前記撮影画像の歪みを補正する、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記抽出手段は、前記文字列領域の候補のうち前記原稿の線成分で分断される領域を候補から除外して前記文字列領域を抽出する、
    ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 原稿を撮影した撮影画像から文字列領域を抽出する抽出工程と、
    前記抽出工程により抽出した前記文字列領域の歪みを判別する判別工程と、
    前記判別工程により前記文字列領域に歪みがあると判別した場合に歪み補正を行う補正工程と、
    を備え、
    前記補正工程は、前記文字列領域の歪みの種類に応じた歪み補正を行う、
    ことを特徴とする情報処理装置の制御方法。
  8. コンピュータを請求項1乃至6のいずれか1項に記載の情報処理装置が備える各手段として機能させることを特徴とするプログラム。
JP2019044554A 2019-03-12 2019-03-12 情報処理装置、その制御方法及びプログラム Pending JP2020149184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019044554A JP2020149184A (ja) 2019-03-12 2019-03-12 情報処理装置、その制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019044554A JP2020149184A (ja) 2019-03-12 2019-03-12 情報処理装置、その制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2020149184A true JP2020149184A (ja) 2020-09-17

Family

ID=72432071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019044554A Pending JP2020149184A (ja) 2019-03-12 2019-03-12 情報処理装置、その制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2020149184A (ja)

Similar Documents

Publication Publication Date Title
US8971587B2 (en) Systems and methods for mobile image capture and processing
US10810711B2 (en) Information processing apparatus, storage medium, and information processing method
US10694098B2 (en) Apparatus displaying guide for imaging document, storage medium, and information processing method
US20190191078A1 (en) Information processing apparatus, a non-transitory computer readable storage medium and information processing method
JP7102103B2 (ja) 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
US10586099B2 (en) Information processing apparatus for tracking processing
US10643095B2 (en) Information processing apparatus, program, and information processing method
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
JP6107372B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US10999513B2 (en) Information processing apparatus having camera function, display control method thereof, and storage medium
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
US10275888B2 (en) Algorithmic method for detection of documents in images
JP6563084B1 (ja) カード番号認識装置およびカード番号認識方法
US20210281742A1 (en) Document detections from video images
JP7027043B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2020149184A (ja) 情報処理装置、その制御方法及びプログラム
JP2017120455A (ja) 情報処理装置、プログラム及び制御方法
US10984219B2 (en) Fingerprint processing with liveness detection
JP2013192101A (ja) 画像処理装置およびこれを備えた原稿読取システム
JP2019028677A (ja) 情報処理装置、情報処理方法及びプログラム
JP5068883B1 (ja) 画像処理装置およびこれを備えた原稿読取システム
JP6194677B2 (ja) 画像処理装置およびプログラム
JP2013149055A (ja) 画像処理装置およびこれを備えた原稿読取システム
JP2018025981A (ja) 情報処理装置、情報処理方法及びプログラム
JP2017162150A (ja) 情報処理装置、プログラム及び情報処理方法