JP2018116424A - 画像処理装置及びプログラム - Google Patents

画像処理装置及びプログラム Download PDF

Info

Publication number
JP2018116424A
JP2018116424A JP2017006104A JP2017006104A JP2018116424A JP 2018116424 A JP2018116424 A JP 2018116424A JP 2017006104 A JP2017006104 A JP 2017006104A JP 2017006104 A JP2017006104 A JP 2017006104A JP 2018116424 A JP2018116424 A JP 2018116424A
Authority
JP
Japan
Prior art keywords
character
image
characters
processing apparatus
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017006104A
Other languages
English (en)
Inventor
紘幸 岸本
Hiroyuki Kishimoto
紘幸 岸本
和宏 大谷
Kazuhiro Otani
和宏 大谷
邦彦 小林
Kunihiko Kobayashi
邦彦 小林
岡田 茂
Shigeru Okada
茂 岡田
真太郎 安達
Shintaro Adachi
真太郎 安達
茜 阿部
Akane Abe
茜 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017006104A priority Critical patent/JP2018116424A/ja
Publication of JP2018116424A publication Critical patent/JP2018116424A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】画像の正立方向を決定するのに使用する文字として正立方向を決定する精度を高める文字を抽出する。【解決手段】画像処理装置100は、画像情報を取得する画像情報取得部101と、画像情報により特定される画像に含まれる文字を複数の方向から認識する文字認識部102と、認識した文字の中から予め定められた条件を満たす文字を方向毎に抽出する文字抽出部103と、複数の方向のうち、方向毎に抽出された文字が特定の条件を満たす方向を、画像の正立方向として決定する正立方向決定部106とを備える。【選択図】図2

Description

本発明は、画像処理装置及びプログラムに関する。
例えば、特許文献1には、入力文字画像の中から、漢字などの文字認識の精度が高い文字を選択的に抽出して、これに対して文字方向判別を行い、文字選択の条件としては、切り出された文字領域の黒画素率、文字領域の長辺対短辺比、文字領域の画素(文字)サイズ等に範囲を設定し、切り出された文字画像がこれらの条件を満たすかどうかを判断し、条件を満たす文字については、文字方向判定を行う文書画像補正装置が開示されている。
特開平11−338973号公報
画像に含まれる文字を認識して画像の正立方向を判定する場合がある。例えば写真から認識された文字は、本来文字ではないにもかかわらず誤って文字として認識されたものであり、正立方向を判定する際のノイズとなる。正立方向の判定はこのようなノイズを除外して行うことが望ましい。
本発明の目的は、画像の正立方向を決定するのに使用する文字として正立方向を決定する精度を高める文字を抽出することにある。
請求項1に記載の発明は、画像情報を取得する取得手段と、前記画像情報により特定される画像に含まれる文字を複数の方向から認識し、認識した文字の中から予め定められた条件を満たす文字を当該方向毎に抽出する抽出手段と、前記複数の方向のうち、当該方向毎に抽出された文字が特定の条件を満たす方向を、前記画像の正立方向として決定する決定手段とを備える画像処理装置である。
請求項2に記載の発明は、前記抽出手段は、認識した文字の中から予め定められた文字を除外した残りの文字を、前記予め定められた条件を満たす文字として抽出することを特徴とする請求項1に記載の画像処理装置である。
請求項3に記載の発明は、前記予め定められた文字は、少なくとも2方向から読んだときの読みのそれぞれが何れかの文字を正立方向から読んだときの読みと一致する文字であることを特徴とする請求項2に記載の画像処理装置である。
請求項4に記載の発明は、前記予め定められた文字は、一方向から読んだときの読みと他の方向から読んだときの読みとが一致する文字であることを特徴とする請求項2に記載の画像処理装置である。
請求項5に記載の発明は、前記抽出手段は、予め定められた文字パターンとの一致度が特定の条件を満たす文字を、前記予め定められた条件を満たす文字として抽出することを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置である。
請求項6に記載の発明は、前記抽出手段は、前記一致度が高いものから順に予め定められた数の文字を、前記予め定められた条件を満たす文字として抽出することを特徴とする請求項5に記載の画像処理装置である。
請求項7に記載の発明は、前記決定手段は、前記複数の方向のうち、当該方向毎に抽出された文字の前記一致度に基づく値が最も高い方向を、前記画像の正立方向として決定することを特徴とする請求項5又は6に記載の画像処理装置である。
請求項8に記載の発明は、前記決定手段は、前記複数の方向のうち、当該方向毎に抽出された文字の前記一致度に基づく値が最も高い方向と2番目に高い方向とについて、当該一致度に基づく値の差が予め定められた閾値以下の場合には、前記画像の正立方向を不定とすることを特徴とする請求項5乃至7の何れか1項に記載の画像処理装置である。
請求項9に記載の発明は、コンピュータに、画像情報を取得する機能と、前記画像情報により特定される画像に含まれる文字を複数の方向から認識し、認識した文字の中から予め定められた条件を満たす文字を当該方向毎に抽出する機能と、前記複数の方向のうち、当該方向毎に抽出された文字が特定の条件を満たす方向を、前記画像の正立方向として決定する機能とを実現させるためのプログラムである。
請求項1記載の発明によれば、画像の正立方向を決定するのに使用する文字として正立方向を決定する精度を高める文字を抽出することができる。
請求項2記載の発明によれば、予め定められた文字を用いて正立方向を決定する場合と比較して、正立方向を決定する精度を高めることができる。
請求項3記載の発明によれば、少なくとも2方向から読んだときの読みのそれぞれが何れかの文字を正立方向から読んだときの読みと一致する文字を用いて正立方向を決定する場合と比較して、正立方向を決定する精度を高めることができる。
請求項4記載の発明によれば、一方向から読んだときの読みと他の方向から読んだときの読みとが一致する文字を用いて正立方向を決定する場合と比較して、正立方向を決定する精度を高めることができる。
請求項5記載の発明によれば、一致度を考慮せずに抽出した文字を用いて正立方向を決定する場合と比較して、正立方向を決定する精度を高めることができる。
請求項6記載の発明によれば、一致度の高さによらず抽出した文字を用いて正立方向を決定する場合と比較して、正立方向を決定する精度を高めることができる。
請求項7記載の発明によれば、方向毎に抽出された文字の一致度を考慮せずに正立方向を決定する場合と比較して、正立方向を決定する精度を高めることができる。
請求項8記載の発明によれば、一致度に基づく値の差を考慮せずに正立方向を決定する場合と比較して、正立方向を誤って決定することを抑制することができる。
請求項9記載の発明によれば、画像の正立方向を決定するのに使用する文字として正立方向を決定する精度を高める文字を抽出する機能を、コンピュータにより実現できる。
本実施の形態に係る画像処理装置のハードウェア構成例を示す図である。 本実施の形態に係る画像処理装置の機能構成例を示したブロック図である。 (a)〜(d)は、画像に含まれる文字を認識する方向の一例を説明するための図である。 (a)〜(d)は、正立方向を決定する処理の具体例を説明するための図である。 画像処理装置が正立方向を決定する手順の一例を示したフローチャートである。 本実施の形態を適用可能なコンピュータのハードウェア構成例を示した図である。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<画像処理装置のハードウェア構成>
まず、本実施の形態に係る画像処理装置100のハードウェア構成について説明する。図1は、本実施の形態に係る画像処理装置100のハードウェア構成例を示す図である。本実施の形態に係る画像処理装置100は、例えば、画像読み取り機能(スキャン機能)、印刷機能(プリンタ機能)、複写機能(コピー機能)及びファクシミリ機能等の各種の画像処理機能を備えた、いわゆる複合機である。
図示するように、本実施の形態に係る画像処理装置100は、制御部110と、HDD(Hard Disk Drive)120と、操作パネル130と、画像読取部140と、画像形成部150と、通信インタフェース(以下、「通信I/F」と表記する)160とを備える。なお、これらの各機能部はバス170に接続されており、このバス170を介してデータの授受を行う。
制御部110は、画像処理装置100の各部の動作を制御する。この制御部110は、CPU(Central Processing Unit)110a、RAM(Random Access Memory)110b、ROM(Read Only Memory)110cにより構成される。
CPU110aは、ROM110c等に記憶された各種プログラムをRAM110bにロードして実行することにより、画像処理装置100における各機能を実現する。RAM110bは、CPU110aの作業用メモリ等として用いられるメモリ(記憶部)である。ROM110cは、CPU110aが実行する各種プログラム等を記憶するメモリ(記憶部)である。
HDD120は、各種データを記憶する記憶部である。HDD120には、例えば、画像読取部140の画像読み取りによって生成された画像データや、通信I/F160によって外部から受信した画像データ等が記憶される。
操作パネル130は、各種の情報を表示すると共に、各種の機能を用いた動作を行うためのユーザからの操作を受け付ける。操作パネル130としては、例えばタッチパネルディスプレイを例示することができる。
画像読取部140は、用紙等の記録材(原稿)に形成されている画像を読み取って、読み取った画像を示す画像情報(画像データ)を生成する。ここで、画像読取部140は、例えばスキャナーであり、光源から原稿に照射した光に対する反射光をレンズで縮小してCCD(Charge Coupled Devices)で受光するCCD方式や、LED光源から原稿に順に照射した光に対する反射光をCIS(Contact Image Sensor)で受光するCIS方式のものを用いるとよい。より具体的には、画像読取部140は、例えば、撮像素子の移動方向(副走査方向)に直交する主走査方向単位に原稿を読み取って、画像情報を生成する。
画像形成部150は、用紙等の記録材に画像を形成する印刷機構である。ここで、画像形成部150は、例えばプリンターであり、感光体に付着させたトナーを記録材に転写して像を形成する電子写真方式や、インクを記録材上に吐出して像を形成するインクジェット方式のものを用いるとよい。
通信I/F160は、不図示のネットワークを介して他の装置との間で各種データの送受信を行う通信インタフェースである。
そして、この画像処理装置100では、制御部110による制御の下、画像読取部140によってスキャン機能が実現され、画像形成部150によってプリンター機能が実現され、画像読取部140及び画像形成部150によってコピー機能が実現され、画像読取部140、画像形成部150及び通信I/F160によってファクシミリ機能が実現される。
<画像処理装置の機能構成>
次に、本実施の形態に係る画像処理装置100の機能構成について説明する。図2は、本実施の形態に係る画像処理装置100の機能構成例を示したブロック図である。
画像処理装置100は、画像情報を取得する画像情報取得部101と、画像情報により特定される画像に含まれる文字を認識する文字認識部102と、認識した文字の中から正立方向の決定に用いる文字を抽出する文字抽出部103とを備える。ここで、正立方向とは、その画像中の文字が正しく読める方向である。
また、画像処理装置100は、正立方向の決定において対象外の文字として予め定められた文字(以下、対象外文字と称する)の情報を格納する対象外文字格納部104と、文字抽出部103が抽出した文字について一致度の平均値を計算する平均一致度計算部105と、一致度の平均値を基に画像の正立方向を決定する正立方向決定部106とを備える。
画像情報取得部101は、画像読取部140が原稿上の画像を読み取って生成した画像情報を取得する。
文字認識部102は、画像情報取得部101が取得した画像情報により特定される画像(即ち、画像読取部140によって読み取られた原稿上の画像)に含まれる文字を、複数の方向(例えば、4方向)から認識する。
図3(a)〜(d)は、画像に含まれる文字を認識する方向の一例を説明するための図である。文字認識部102は、画像11に対して、図3(a)〜(d)に示す4方向のそれぞれから文字を認識する。
ここで、図3(a)に示す画像11は0度の方向にあるものとする。より具体的には、図3(a)に示す0度の方向は、画像11の頂点a1及び頂点a2からなる一辺が図中上側に向いている方向である。付言すると、文字認識部102は、画像読取部140の画像読み取り(スキャン)の方向、言い換えると、画像読み取りの主走査方向や副走査方向に基づいて、0度の方向を決定する。
また、図3(b)に示す画像11は、90度の方向にある。より具体的には、90度の方向は、0度の方向を時計回りに90度回転させた方向であり、画像11の頂点a1及び頂点a2からなる一辺が図中右側に向いている方向である。図3(c)に示す画像11は、180度の方向にある。より具体的には、180度の方向は、0度の方向を時計回りに180度回転させた方向であり、画像11の頂点a1及び頂点a2からなる一辺が図中下側に向いている方向である。図3(d)に示す画像11は、270度の方向にある。より具体的には、270度の方向は、0度の方向を時計回りに270度回転させた方向であり、画像11の頂点a1及び頂点a2からなる一辺が図中左側に向いている方向である。
このようにして、文字認識部102は、画像読取部140により生成された画像情報に対して0度の方向を設定する。また、0度の方向から回転させることにより、他の3方向(90度の方向、180度の方向、270度の方向)を設定する。そして、各方向から文字認識を行う。
なお、文字認識には、例えばOCR(Optical Character Recognition)が用いられる。OCRとは、画像データ上にある文字を解析し、コンピュータで扱われる文字データに変換する技術である。認識される文字には、平仮名、片仮名、漢字、アルファベットの他、例えば、数字、記号、マーク等も含まれるものとする。
文字抽出部103は、文字認識部102が認識した文字の中から予め定められた条件を満たす文字を複数の方向の方向毎に抽出する。ここで抽出される文字は、正立方向の決定に用いられる。
より具体的には、文字抽出部103は、まず、文字認識部102が認識した文字から対象外文字を除外し、残りの文字を抽出する。さらに、文字抽出部103は、対象外文字を除外した残りの文字のうち、一致度が高いものから順に予め定められた数の文字を抽出する。
ここで、一致度とは、予め定められた文字パターンと比較した場合に一致している度合を示す値である。一般に、OCR等により文字認識を行う場合、文字認識を行った文字毎に一致度が割り当てられる。付言すると、一致度は、文字認識による認識結果の確からしさを示す度合、言い換えると、文字認識による認識結果を確信できる度合であり、確信度として捉えることもできる。この一致度(確信度)が高いほど、文字認識の信頼性が高いと判断される。
付言すると、文字抽出部103は、対象外文字を除外した残りの文字のうち、予め定められた文字パターンとの一致度が特定の条件を満たす文字を抽出するものとして捉えることもできる。ここでの特定の条件は、例えば、一致度が高いものから順に予め定められた数の文字であること、といえる。
対象外文字格納部104は、対象外文字の情報を格納する。対象外文字の情報については、ユーザ等により予め設定される。
ここで、対象外文字とは、例えば、少なくとも2方向から文字として認識される文字である。文字として認識される場合とは、予め定められた文字パターンと比較した場合の一致度が予め定められた閾値を超える場合といえる。言い換えると、対象外文字は、例えば、少なくとも2方向から読んだときの読みのそれぞれが、何れかの文字(例えば、文字パターンとして用意されている複数の文字のうちの何れかの文字)を正立方向から読んだときの読みと一致する文字、として捉えることもできる。
具体的には、例えば、数字の「1」は、正立方向から認識した場合に「1」と認識されるが、正立方向から時計回りに180度回転した180度の方向から認識した場合にも「1」と認識される場合がある。即ち、正立方向、180度の方向から読んだときの読みのそれぞれが、「1」の読みと一致する。同様に、数字の「8」は、正立方向から認識した場合に「8」と認識されるが、正立方向から時計回りに180度回転した180度の方向から認識した場合にも「8」と認識される場合がある。即ち、正立方向、180度の方向から読んだときの読みのそれぞれが、「8」の読みと一致する。
また、数字の「6」は、正立方向から認識した場合に「6」と認識されるが、正立方向から時計回りに180度回転した180度の方向から認識した場合には「9」と認識される場合がある。即ち、正立方向から読んだときの読みは「6」の読みと一致し、180度の方向から読んだときの読みは「9」の読みと一致する。
このような文字は単純な構成である場合が多く、一致度は高い値になる傾向があるものの、正立方向の判定に用いた場合には正立方向が誤って判定されることが考えられる。そのため、このような文字は正立方向を判定する際のノイズとなり、対象外文字として設定することにより、正立方向の判定から除外される。
また、例えば、数字の「1」や「8」等の対象外文字は、一方向から読んだときの読みと他の方向から読んだときの読みとが一致する文字といえる。言い換えると、これらの文字は、一方向から認識した場合の認識結果と他の方向から認識した場合の認識結果とが一致する文字といえる。
さらに説明すると、上述したように、例えば、数字の「1」は、正立方向から読んだときの読みと正立方向から時計回りに180度回転した180度の方向から読んだときの読みとが一致する文字といえる。同様に、数字の「8」も、正立方向から読んだときの読みと正立方向から時計回りに180度回転した180度の方向から読んだときの読みとが一致する文字といえる。他には、例えば、アルファベットの「O」や「X」などが例示される。
平均一致度計算部105は、文字抽出部103が複数の方向の方向毎に抽出した予め定められた数の文字について、一致度の平均値を計算する。より具体的には、例えば、各方向において5つの文字が抽出された場合、平均一致度計算部105は、それぞれの方向において、5つの文字の一致度の平均値を計算する。なお、本実施の形態において、一致度の平均値は、一致度に基づく値の一例として用いられる。
正立方向決定部106は、平均一致度計算部105が計算した一致度の平均値を基に、複数の方向から画像の正立方向を決定する。ここで、正立方向決定部106は、複数の方向のそれぞれで計算された一致度の平均値を比較する。そして、正立方向決定部106は、複数の方向のうち、一致度の平均値が最も高い値を示す方向を、画像の正立方向として決定する。ただし、一致度の平均値の最も高い値と2番目に高い値との差が予め定められた閾値以下の場合には、複数の方向の中で優位性が現れないため、画像の正立方向を不定とする。
付言すると、正立方向決定部106は、複数の方向のうち、文字抽出部103により方向毎に抽出された文字が特定の条件を満たす方向を、画像の正立方向として決定するものとして捉えることもできる。ここでの特定の条件は、例えば、抽出された文字の一致度の平均値が最も高い値を示すこと、といえる。
そして、図2に示す画像処理装置100を構成する各機能部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、画像処理装置100を図1に示したハードウェア構成にて実現した場合、例えば、ROM110cに格納されているOSのプログラムやアプリケーション・プログラムが、RAM110bに読み込まれてCPU110aに実行されることにより、画像情報取得部101、文字認識部102、文字抽出部103、平均一致度計算部105、正立方向決定部106等の各機能が実現される。また、対象外文字格納部104は、例えばHDD120等の記憶手段により実現される。
また、本実施の形態では、取得手段の一例として、画像情報取得部101が用いられる。抽出手段の一例として、文字認識部102、文字抽出部103が用いられる。決定手段の一例として、正立方向決定部106が用いられる。
<正立方向を決定する処理の具体例>
次に、画像処理装置100が正立方向を決定する処理について、具体例を挙げて説明する。図4(a)〜(d)は、正立方向を決定する処理の具体例を説明するための図である。ここで、図4(a)〜(d)に示す画像11はそれぞれ、図3(a)〜(d)に示す画像11に対応する。そして、画像11に含まれる文字を、図3(a)〜(d)に示す4方向から認識して正立方向を決定するものとして説明する。
まず、図4(a)を参照しながら、0度の方向から文字認識を行う場合の処理について説明する。
ここで、文字認識部102は、画像11に対して0度の方向から文字を認識する。その結果、例えば、「518」、「連番」、「A4」、「カラー出力」、「テストデータ」等の文字が認識される。また、写真の画像(写真の画像情報から得られる画像)12においても、本来文字でないにもかかわらず、誤って文字として認識されるものが存在する。
次に、文字抽出部103は、文字認識部102が認識した文字から、対象外文字を除外する。ここでは、例えば、「518」の「1」や「8」の文字が対象外文字として除外される。次に、文字認識部102は、対象外文字を除外した残りの文字のうち、一致度が高いものから順に予め定められた数(図4に示す例では、「5」)の文字を抽出する。
図4(a)に示す例では、一致度が上位となる5つの文字は、太線で囲んだ「連」、「番」、「A」、「テ」、「ト」である。文字抽出部103はこれら5つの文字を抽出する。ここで、例えば、写真の画像12において誤って文字として認識されたものは、予め定められた文字パターンとの一致度は低い。そのため、一致度が上位となる文字を抽出することにより、画像12において誤って文字として認識されたものが抽出される可能性は低くなる。
次に、平均一致度計算部105は、抽出された5つの文字の一致度の平均値を計算する。図4(a)に示す例では、「連」、「番」、「A」、「テ」、「ト」の一致度はそれぞれ、「74」、「74」、「66」、「63」、「60」である。これらの平均値は「67.4」と計算される。
同様に、図4(b)〜(d)に示す3方向においても、文字の認識が行われる。そして、対象外文字が除外されて、一致度の上位5つの文字が抽出される。ここで、各方向で同一の文字が抽出されるとは限らない。例えば、0度の方向では、「連」、「番」、「A」、「テ」、「ト」の5つの文字が抽出されたが、90度の方向では、これら5つの文字とは別の文字(例えば、図4(b)の太線で囲む「5」、「カ」、「ラ」、「デ」、「タ」の文字)が抽出される。
さらに説明すると、画像11の正立方向は0度の方向であるため、他の3方向で文字を認識した場合には、文字が正しく認識されない。例えば、図4(b)に示すように「連」の文字を90度の方向から認識したとしても、「連」の文字は時計回りに90度回転しているため、「連」として認識されるわけではなく、該当する文字がないとして不定になったり、他の文字として認識されたりする。また、「連」が他の文字として認識されたとしても、文字パターンとの一致度は低くなり、文字認識の信頼性は低い。
結果として、例えば、90度の方向、180度の方向、270度の方向の一致度の平均値はそれぞれ、「27.7」、「40.4」、「39.0」と計算される。
正立方向決定部106は、4方向のそれぞれで計算した一致度の平均値を比較して、最も高い値である「67.4」の方向、即ち、0度の方向を、画像11の正立方向として決定する。
ただし、正立方向決定部106は、一致度の平均値の最も高い値と2番目に高い値との差が予め定められた閾値以下の場合には、複数の方向の中で優位性が現れないため、画像11の正立方向を不定とする。図4に示す例では、最も高い値「67.4」と2番目に高い値「40.4」との差が計算される。ここで、両者の差は「27.0」である。例えば、閾値が「10.0」の場合には、画像11の正立方向は不定とはならず、0度の方向が正立方向として決定される。
<正立方向を決定する手順の説明>
次に、画像処理装置100が正立方向を決定する手順について説明する。図5は、画像処理装置100が正立方向を決定する手順の一例を示したフローチャートである。
まず、画像情報取得部101は、画像読取部140が原稿上の画像を読み取って生成した画像情報を取得する(ステップ101)。次に、文字認識部102は、文字認識を行う複数の方向のうちの1方向を選択し、選択した1方向において画像の文字認識を実行する(ステップ102)。次に、文字抽出部103は、文字認識部102により認識された文字から対象外文字を除外する(ステップ103)。次に、文字抽出部103は、対象外文字を除外した残りの文字から、一致度が高いものから順に予め定められた数の文字を抽出する(ステップ104)。
次に、平均一致度計算部105は、文字抽出部103が抽出した予め定められた数の文字について、一致度の平均値を計算する(ステップ105)。次に、正立方向決定部106は、文字認識を行う全ての方向について、ステップ102〜ステップ105の処理が終了したか否かを判定する(ステップ106)。ここでは、例えば、0度、90度、180度、270度の4方向の全てで、ステップ102〜ステップ105の処理が終了したか否かの判定が行われる。
ステップ106において、まだステップ102〜ステップ105の処理を終了していない方向があれば(ステップ106でNo)、文字認識部102は、画像を時計回りに90度回転し(ステップ107)、ステップ102に移行する。ステップ102に移行した後、文字認識部102は、90度回転後の新たな方向にて文字認識を実行する。
一方、ステップ106において、全ての方向についてステップ102〜ステップ105の処理が終了していれば(ステップ106でYes)、正立方向決定部106は、全ての方向の方向毎に計算された一致度の平均値を比較し、一致度の平均値が最も高い方向を、画像の正立方向として決定する(ステップ108)。ここで、一致度の平均値について最も高い値と2番目に高い値との差が予め定められた閾値以下の場合、正立方向決定部106は画像の正立方向を不定とする。そして、本処理フローは終了する。
以上説明したように、本実施の形態に係る画像処理装置100は、画像に含まれる文字を複数の方向から認識する。また、複数の方向の方向毎に、認識した文字の中から対象外文字を除外するとともに、一致度が高いものから順に予め定められた数の文字を抽出する。そして、方向毎に抽出した予め定められた数の文字について一致度の平均値を計算し、計算した平均値が最も高い方向を画像の正立方向として決定する。
例えば対象外文字や写真から誤って認識された文字などは、正立方向を決定する場合のノイズとなる。このような文字を使用して正立方向を決定すると、本来の正立方向とは異なる方向を正立方向として決定してしまう場合がある。本実施の形態では、対象外文字を除外するとともに、一致度の高いものから順に抽出された文字を基に正立方向を決定することにより、極力ノイズが除外された状態で画像の正立方向が決定されることとなる。
また、本実施の形態において、平均一致度計算部105は、文字抽出部103が抽出した予め定められた数の文字について一致度の平均値を計算したが、計算するのは一致度の平均値に限られない。平均一致度計算部105は、例えば、予め定められた数の文字について一致度の合計値を計算してもよい。この場合、正立方向決定部106は、例えば、複数の方向のそれぞれで計算された一致度の合計値を比較し、一致度の合計値が最も高い値の方向を画像の正立方向として決定する。
また、本実施の形態では、対象外文字を除外した後に、一致度の高い文字を抽出することとしたが、このような構成に限られない。例えば、一致度の高い文字を抽出した後に、対象外文字を除外してもよい。この場合に、一致度の高い文字として抽出した文字の中に対象外文字が含まれていれば、例えば、対象外文字の代わりに、まだ抽出していない文字の中で一致度の最も高い文字が新たに補充されて、一致度の平均値が計算される。また、例えば、新たに文字を補充せずに、一致度の高い文字として抽出した文字から対象外文字を除外して残った文字だけを用いて、一致度の平均値を計算してもよい。
さらに、本実施の形態では、対象外文字を除外するとともに一致度の高い文字を抽出することとしたが、両者を併用せずに、何れか一方のみを行うこととしてもよい。
即ち、画像処理装置100は、画像に含まれる文字を複数の方向から認識し、認識した文字の中から対象外文字を除外して、残りの文字を予め定められた条件を満たす文字として抽出する。そして、抽出した文字について一致度の平均値を計算することにより、複数の方向から画像の正立方向を決定してもよい。
また、画像処理装置100は、画像に含まれる文字を複数の方向から認識し、認識した文字のうち一致度が高いものから順に予め定められた数の文字を、予め定められた条件を満たす文字として抽出する。そして、抽出した文字について一致度の平均値を計算することにより、複数の方向から画像の正立方向を決定してもよい。
<適用可能なコンピュータの説明>
ところで、本実施の形態に係る画像処理装置100による処理は、例えば、PC(Personal Computer)等の汎用のコンピュータにおいて実現してもよい。そこで、この処理をコンピュータ200で実現するものとして、そのハードウェア構成について説明する。この場合、例えば、画像処理装置100等により生成された画像情報がコンピュータ200に送信されることにより、コンピュータ200において画像情報に対する処理が行われる。
図6は、本実施の形態を適用可能なコンピュータ200のハードウェア構成例を示した図である。なお、本実施の形態において、コンピュータ200は、画像処理装置の一例として用いられる。
コンピュータ200は、演算手段であるCPU201と、記憶手段であるメインメモリ202及び磁気ディスク装置(HDD)203とを備える。ここで、CPU201は、OSやアプリケーション等の各種プログラムを実行する。また、メインメモリ202は、各種プログラムやその実行に用いるデータ等を記憶する記憶領域であり、磁気ディスク装置203は、図2に示す各機能部を実現するためのプログラムを格納する。そして、このプログラムがメインメモリ202にロードされ、このプログラムに基づく処理がCPU201により実行されることで、各機能部が実現される。
さらに、コンピュータ200は、外部との通信を行うための通信インタフェース(I/F)204と、ビデオメモリやディスプレイ等からなる表示機構205と、キーボードやマウス等の入力デバイス206とを備える。
より具体的には、CPU201が、画像情報取得部101、文字認識部102、文字抽出部103、平均一致度計算部105、正立方向決定部106等を実現するプログラムを、例えば磁気ディスク装置203からメインメモリ202に読み込んで実行することにより、これらの機能部が実現される。また、対象外文字格納部104は、例えば、磁気ディスク装置203により実現される。
また、本発明の実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD−ROM等の記録媒体に格納して提供することも可能である。
なお、上記では種々の実施形態および変形例を説明したが、これらの実施形態や変形例どうしを組み合わせて構成してももちろんよい。
また、本開示は上記の実施形態に何ら限定されるものではなく、本開示の要旨を逸脱しない範囲で種々の形態で実施することができる。
100…画像処理装置、101…画像情報取得部、102…文字認識部、103…文字抽出部、104…対象外文字格納部、105…平均一致度計算部、106…正立方向決定部

Claims (9)

  1. 画像情報を取得する取得手段と、
    前記画像情報により特定される画像に含まれる文字を複数の方向から認識し、認識した文字の中から予め定められた条件を満たす文字を当該方向毎に抽出する抽出手段と、
    前記複数の方向のうち、当該方向毎に抽出された文字が特定の条件を満たす方向を、前記画像の正立方向として決定する決定手段と
    を備える画像処理装置。
  2. 前記抽出手段は、認識した文字の中から予め定められた文字を除外した残りの文字を、前記予め定められた条件を満たす文字として抽出すること
    を特徴とする請求項1に記載の画像処理装置。
  3. 前記予め定められた文字は、少なくとも2方向から読んだときの読みのそれぞれが何れかの文字を正立方向から読んだときの読みと一致する文字であること
    を特徴とする請求項2に記載の画像処理装置。
  4. 前記予め定められた文字は、一方向から読んだときの読みと他の方向から読んだときの読みとが一致する文字であること
    を特徴とする請求項2に記載の画像処理装置。
  5. 前記抽出手段は、予め定められた文字パターンとの一致度が特定の条件を満たす文字を、前記予め定められた条件を満たす文字として抽出すること
    を特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
  6. 前記抽出手段は、前記一致度が高いものから順に予め定められた数の文字を、前記予め定められた条件を満たす文字として抽出すること
    を特徴とする請求項5に記載の画像処理装置。
  7. 前記決定手段は、前記複数の方向のうち、当該方向毎に抽出された文字の前記一致度に基づく値が最も高い方向を、前記画像の正立方向として決定すること
    を特徴とする請求項5又は6に記載の画像処理装置。
  8. 前記決定手段は、前記複数の方向のうち、当該方向毎に抽出された文字の前記一致度に基づく値が最も高い方向と2番目に高い方向とについて、当該一致度に基づく値の差が予め定められた閾値以下の場合には、前記画像の正立方向を不定とすること
    を特徴とする請求項5乃至7の何れか1項に記載の画像処理装置。
  9. コンピュータに、
    画像情報を取得する機能と、
    前記画像情報により特定される画像に含まれる文字を複数の方向から認識し、認識した文字の中から予め定められた条件を満たす文字を当該方向毎に抽出する機能と、
    前記複数の方向のうち、当該方向毎に抽出された文字が特定の条件を満たす方向を、前記画像の正立方向として決定する機能と
    を実現させるためのプログラム。
JP2017006104A 2017-01-17 2017-01-17 画像処理装置及びプログラム Pending JP2018116424A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017006104A JP2018116424A (ja) 2017-01-17 2017-01-17 画像処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017006104A JP2018116424A (ja) 2017-01-17 2017-01-17 画像処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2018116424A true JP2018116424A (ja) 2018-07-26

Family

ID=62985514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017006104A Pending JP2018116424A (ja) 2017-01-17 2017-01-17 画像処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2018116424A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052849A (zh) * 2020-08-26 2020-12-08 中国建设银行股份有限公司 Ocr中判断文件图像方向的方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08293000A (ja) * 1995-04-21 1996-11-05 Canon Inc 画像処理装置及び方法
JPH11338973A (ja) * 1998-05-22 1999-12-10 Fujitsu Ltd 文書画像補正装置および文書画像補正方法
JP2000113103A (ja) * 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP2010124068A (ja) * 2008-11-17 2010-06-03 Sharp Corp 画像処理装置、画像読取装置、画像形成装置、画像処理方法、制御プログラム、および記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08293000A (ja) * 1995-04-21 1996-11-05 Canon Inc 画像処理装置及び方法
JPH11338973A (ja) * 1998-05-22 1999-12-10 Fujitsu Ltd 文書画像補正装置および文書画像補正方法
JP2000113103A (ja) * 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP2010124068A (ja) * 2008-11-17 2010-06-03 Sharp Corp 画像処理装置、画像読取装置、画像形成装置、画像処理方法、制御プログラム、および記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052849A (zh) * 2020-08-26 2020-12-08 中国建设银行股份有限公司 Ocr中判断文件图像方向的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US8391607B2 (en) Image processor and computer readable medium
US20170124390A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
JP6427964B2 (ja) 画像処理システム、情報処理装置及びプログラム
JP6665498B2 (ja) 情報処理装置、画像処理システム及びプログラム
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US9626738B2 (en) Image processing apparatus, image processing method, and storage medium
US7873239B2 (en) Image processing apparatus, image direction determining method, and computer program product
US20170244851A1 (en) Image processing device, image reading apparatus and non-transitory computer readable medium storing program
JP4943354B2 (ja) 情報識別装置、情報識別方法、プログラム及び記録媒体
EP3151159A1 (en) Information processing apparatus, information processing method and program
JP2018116424A (ja) 画像処理装置及びプログラム
US11153447B2 (en) Image processing apparatus and non-transitory computer readable medium storing program
US20230062113A1 (en) Information processing apparatus, information processing method and non-transitory storage medium
JP5720154B2 (ja) 画像処理装置及び画像処理プログラム
US10623603B1 (en) Image processing apparatus, non-transitory computer readable recording medium that records an image processing program, and image processing method
US20210097271A1 (en) Character recognition using previous recognition result of similar character
JP4552757B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP2015177265A (ja) 画像処理装置、画像処理システム、情報記憶方法およびプログラム
US11238305B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
US11316995B2 (en) Bending detection device and image processing apparatus
US11087448B2 (en) Apparatus, method, and non-transitory recording medium for a document fold determination based on the change point block detection
US20220353383A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
US11354890B2 (en) Information processing apparatus calculating feedback information for partial region of image and non-transitory computer readable medium storing program
JP5983083B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
JP7342518B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211005