JP2020030858A - 画像処理装置及び画像処理方法 - Google Patents

画像処理装置及び画像処理方法 Download PDF

Info

Publication number
JP2020030858A
JP2020030858A JP2019206986A JP2019206986A JP2020030858A JP 2020030858 A JP2020030858 A JP 2020030858A JP 2019206986 A JP2019206986 A JP 2019206986A JP 2019206986 A JP2019206986 A JP 2019206986A JP 2020030858 A JP2020030858 A JP 2020030858A
Authority
JP
Japan
Prior art keywords
character
character string
image
similarity
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019206986A
Other languages
English (en)
Other versions
JP6952094B2 (ja
Inventor
真明 安永
Masaaki Yasunaga
真明 安永
平 和樹
Kazuki Taira
和樹 平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Publication of JP2020030858A publication Critical patent/JP2020030858A/ja
Application granted granted Critical
Publication of JP6952094B2 publication Critical patent/JP6952094B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】低解像度の画像に写る文字列の認識精度を高める画像処理装置を提供する。【解決手段】実施形態によれば、画像処理装置は、抽出部と、判定部と、切り出し部と、計算部とを備える。前記抽出部は、第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列を抽出する。前記判定部は、前記第1の文字列の被写体及び前記第2の文字列の被写体が共に第1の被写体に対応すると判定する。前記切り出し部は、前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出す。前記計算部は、前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出する。【選択図】図6

Description

本発明の実施形態は、画像処理装置及び画像処理方法に関する。
一般的に、OCR(optical character recognition)処理は、紙面に書かれている文字をスキャナで読み取った文字画像に対して行われる。近年、カメラの高解像度化に伴い、カメラで撮影された文字画像を補正し、補正後の文字画像に対してOCR処理を行うアプリケーションが出てきている。OCR処理は、単に文字画像を解析して対応する文字を決定するだけでなく、文字列の意味を解析しながら最終的な文字を決定することもできる。一般的に、カメラで撮影された文字画像のOCR処理は、例えば200dpi以上のように文字に対して十分な解像力を持つ文字画像に対して行われる。
特開2013−206175号公報
しかしながら、カメラで取得された文字画像のOCR処理では、低解像度の文字画像に対する文字の認識率が極端に下がる。さらに、低解像度の文字画像では、文字の認識率は画像の品質に左右されやすい。画像の品質は、文字画像の撮影タイミング、撮影位置や撮影環境(照明)などのわずかな撮影条件の差により大きく変わる。そのため、品質の良い文字画像のみに対してOCR処理を行うことが考えられる。しかしながら、撮影環境により品質の良い文字画像が得られない場合には、全ての文字画像がOCR処理の対象外になる。そのため、複数のタイミングや複数の位置から撮影された複数の文字画像に対してOCR処理が行われ、複数のOCR処理による認識結果に基づいて最終的な文字認識が行われることも考えられる。しかしながら、複数のOCR処理による認識結果が複数に割れる場合、最終的な文字の判断は難しい。
本発明の実施形態が解決しようとする課題は、低解像度の画像に写る文字列の認識精度を高める画像処理装置及び画像処理方法を提供することにある。
実施形態によれば、画像処理装置は、抽出部と、判定部と、切り出し部と、計算部と、認識部とを備える。前記抽出部は、第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列を抽出する。前記判定部は、前記第1の文字列の被写体及び前記第2の文字列の被写体が共に第1の被写体に対応すると判定する。前記切り出し部は、前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出す。前記計算部は、前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出する。前記認識部は、前記第1の類似度群及び前記第2の類似度群に基づいて前記第1の被写体の文字列を認識する。
第1の実施形態に係る一例となる画像処理装置の概略図。 第1の実施形態に係る一例となる画像処理装置のブロック図。 第1の実施形態に係る一例となる画像処理装置による処理のフローチャート。 第1の実施形態に係る一例となる複数の画像を示す図。 第1の実施形態に係る一例となる複数の類似度マップを示す図。 第1の実施形態に係る一例となる最終類似度マップを示す図。 第2の実施形態に係る一例となる画像処理装置の概略図。
以下、いくつかの実施の形態について、図面を参照して説明する。
(第1の実施形態)
第1の実施形態について説明する。図1は、第1の実施形態に係る一例となる画像処理装置10の概略図である。
画像処理装置10は、倉庫や店舗の複数の棚に載せられた複数の物品(例えば段ボール箱)の在庫管理や所在地管理等に用いられる。画像処理装置10は、計算機11と、移動体12と、第1の撮影部13と、第2の撮影部14を備える。画像処理装置10は、これら全ての要素を必ず備えている必要はない。例えば、画像処理装置10は、少なくとも計算機11を備える装置であってもよい。
計算機11は、後述するようにOCR処理により画像から文字認識を行う装置である。計算機11は、例えばPC(Personal Computer)である。なお、文字は、数字、記号、符号またはマーク等の識別コードを含む概念である。文字列は、数字、記号、符号またはマーク等の識別コードを複数桁並べたものである。
移動体12は、画像処理装置10を何れの方向にも自律走行可能な台車である。移動体12は、直線状に並べられた棚20の延在方向と平行な方向に走行する。移動体12は、計算機11、第1の撮影部13及び第2の撮影部14を搭載する。
第1の撮影部13及び第2の撮影部14は、対象を撮影するカメラである。なお、対象は、被写体ということもある。第1の撮影部13及び第2の撮影部14は、対象を動画像として撮影するカメラであっても、対象を静止画像として撮影するカメラであってもよい。第1の撮影部13及び第2の撮影部14は、異なる方向から同一の対象を撮影するように移動体12に固定されている。第1の撮影部13の撮影範囲及び第2の撮影部14の撮影範囲は重複する。第1の撮影部13及び第2の撮影部14の相対位置及びそれぞれの撮影方向は既知である。対象は、棚20に載せられた複数の物品に貼られているラベルの文字列である。例えば、物品21のラベルには、「000872」と記載されている。物品22のラベルには、「103371」と記載されている。ラベルに記載されている文字列は、各物品を識別するために各物品に一意に割り当てられているID(identification)情報である。一般に、あるエリアで管理されている複数の物品に貼られている全てのラベルの文字列は、同一桁かつ予め決められた文字の組み合わせである。図1に示す例では、文字列は、6桁かつ各桁0〜9の組み合わせで構成されている。第1の撮影部13及び第2の撮影部14は、棚20に載せられた複数の物品に貼られているラベルを順次撮影する。第1の撮影部13及び第2の撮影部14は、取得した画像のデータを計算機11へ送る。
図2は、第1の実施形態に係る一例となる画像処理装置10のブロック図である。図2は、主として計算機11の構成を示す。計算機11は、処理部111と、記憶部112と、入力部113と、表示部114と、第1のインターフェース115と、第2のインターフェース116とを備える。
処理部111は、計算機11の中枢部分に相当する。処理部111は、オペレーティングシステムやアプリケーションプログラムに従って、計算機11の各要素を制御する。処理部111は、取り込み部1111と、抽出部1112と、切り出し部1113と、計算部1114と、推定部1115a及び決定部1115bを含む判定部1115と、認識部1116を備える。これらの要素による処理内容は後述する。
記憶部112は、上述のオペレーティングシステムやアプリケーションプログラムを記憶するメモリを含む。さらに、記憶部112は、処理部111による処理に必要なワークエリアとなるメモリを含む。さらに、記憶部112は、処理部111による処理に必要なデータを記憶するメモリを含む。
入力部113は、計算機11に対するコマンドを入力可能なキーボードである。
表示部114は、処理部111からの信号に基づいて映像を表示するディスプレイである。表示部114は、映像の出力部である。
第1のインターフェース115は、計算機11と第1の撮影部13とを接続する。計算機11は、第1のインターフェース115を介して第1の撮影部13から画像のデータを取り込む。
第2のインターフェース116は、計算機11と第2の撮影部14とを接続する。計算機11は、第2のインターフェース116を介して第2の撮影部14から画像のデータを取り込む。
次に、画像処理装置10による文字認識の処理について説明する。画像処理装置10が処理する画像は、例えば第1の撮影部13及び第2の撮影部14が棚20に載せられた複数の物品に貼られているラベルを遠い位置から撮影した低解像度の画像である。そのため、第1の撮影部13による画像及び第2の撮影部14による画像は、人が見れば文字列を認識できる(読める)が、画像処理装置10による一般的なOCR処理では十分に文字認識を行えないものとする。
図3は、第1の実施形態に係る一例となる画像処理装置10による処理のフローチャートである。
処理部111の取り込み部1111は、画像を取り込む(Act101)。Act101では、処理部111は、第1の撮影部13が取得した第1の画像のデータ及び第2の撮影部14が取得した第2の画像のデータを第1のインターフェース115及び第2のインターフェース116を介して取り込む。記憶部112は、第1の画像のデータ及び第2の画像のデータを記憶する。第1の画像及び第2の画像には、文字認識の対象となる文字列(以下、第1の被写体という)が写る。なお、第1の画像及び第2の画像には、第1の被写体以外の文字列が写っていてもよい。
処理部111の抽出部1112は、文字列を抽出する(Act102)。Act102では、処理部111は、第1の画像に写る全ての文字列を抽出する。同様に、処理部111は、第2の画像に写る全ての文字列を抽出する。以下では説明の簡略化のため、第1の画像に写る第1の文字列に対する処理及び第2の画像に写る第2の文字列に対する処理を示す。処理部111は、第1の画像に写る第1の文字列を抽出する。同様に、処理部111は、第2の画像に写る第2の文字列を抽出する。Act101における文字列の抽出処理は、OCR処理で用いられる任意の手法でよい。
処理部111の切り出し部1113は、文字を切り出す(Act103)。Act103では、処理部111は、第1の文字列を構成する各文字を1文字単位で切り出す。同様に、処理部111は、第2の文字列を構成する各文字を1文字単位で切り出す。Act103における文字の切り出し処理は、OCR処理で用いられる任意の手法でよい。
処理部111の計算部1114は、類似度を計算する(Act104)。Act104では、処理部111は、第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出する。つまり、処理部111は、第1の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。同様に、処理部111は、第2の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第2の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第2の類似度群を計算する。つまり、処理部111は、第2の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。
上述のAct104で用いられる候補文字群は、複数の候補文字で構成されている。複数の候補文字は、各物品を識別するための文字列として使用可能な予め決められた複数の文字で構成されている。例えば、複数の候補文字は0〜9の数字である。候補文字群は記憶部112に保存されている。候補文字群は、物品が管理されているエリアに応じて異なる可能性がある。そのため、記憶部112は、エリア単位で異なる候補文字群のデータを保存していてもよい。
上述のAct104で算出される類似度は、第1の文字列を構成する各文字及び第2の文字列を構成する各文字が各候補文字に一致する可能性(確率)を示す指標である。Act104における類似度の算出手法は任意の手法でよい。なお、類似度のレンジは特に限定されない。例えば、類似度のレンジは、0〜1であっても、0〜100であってもよい。類似度は、上限値に近いほど候補文字に似ていることを示し、下限値に近いほど候補文字に似ていないことを示していても、これらの逆を示していてもよい。例えば、処理部111は、候補文字同士の依存関係がないように各類似度を算出するようにすることができる。つまり、第1の文字列の各桁において、第1の類似度群に含まれる各類似度は互いに依存関係がない。第1の文字列の桁単位で類似度を合計した値は100%に正規化されていない。第2の文字列における類似度についても同様である。つまり、第2の文字列の各桁において、第2の類似度群に含まれる各類似度は互いに依存関係がない。この場合、処理部111は、同一桁においてある候補文字の類似度を算出する際に、他の候補文字の類似度の値に影響を受けない。そのため、処理部111は候補文字同士が独立した確度の高い類似度を算出することができる。
これとは逆に、処理部111は、候補文字同士に依存関係を持たせるように各類似度を算出するようにしてもよい。つまり、第1の文字列の各桁において、第1の類似度群に含まれる各類似度は互いに依存関係がある。第1の文字列の桁単位で類似度を合計した値は100%に正規化されている。第2の文字列における類似度についても同様である。つまり、第2の文字列の各桁において、第2の類似度群に含まれる各類似度は互いに依存関係がある。このように、第1の類似度群に含まれる各類似度及び第2の類似度群に含まれる各類似度は尤度である。この場合、処理部111は、第1の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。同様に、処理部111は、第2の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。
処理部111の推定部1115aは、同一の文字列を推定する(Act105)。Act105では、第1の被写体が第1の画像及び第2の画像に存在している可能性が高いと推定する。これは、第1の撮影部13及び第2の撮影部14が異なる方向から同一の対象を撮影しているからである。
処理部111の決定部1115bは、同一の文字列を決定する(Act106)。Act106では、処理部111は、第1の撮影部13と第2の撮影部14との位置関係、第1の画像に写る文字列の位置及び第2の画像に写る文字列の位置に基づいて第1の画像から抽出したどの文字列と第2の画像から抽出したどの文字列が同一の被写体に対応するのかを決定することができる。つまり、処理部111は、被写体単位で第1の画像から抽出した文字列と第2の画像から抽出した文字列とを対応付けることができる。これは、第1の撮影部13及び第2の撮影部14の相対位置及びそれぞれの撮影方向が既知であるからである。例えば、処理部111は、第1の撮影部13と第2の撮影部14との位置関係に基づく三角測量などを用いる。
以上のようにAct105及びAct106では、処理部111の判定部1115は、第1の文字列の被写体及び第2の文字列の被写体が共に第1の被写体に対応すると判定する。一例として、処理部111は、第1の撮影部13と第2の撮影部14との位置関係、第1の画像に写る第1の文字列の位置及び第2の画像に写る第2の文字列の位置に基づいて第1の文字列の被写体及び第2の文字列の被写体が共に第1の被写体に対応すると判定する。なお、Act105及びAct106における処理は、Act104の後でなくても、Act102とAct103の間またはAct103とAct104の間であってもよい。
処理部111の認識部1116は、文字認識を実行する(Act107)。Act107では、処理部111は、第1の文字列及び第2の文字列において互いに対応する桁毎かつ候補文字群中の候補文字毎に第1の類似度群に含まれる類似度と第2の類似度群に含まれる類似度とを合算した値に基づく第1の計算値群を算出する。なお、第1の計算値群は、第1の類似度群に含まれる類似度と第2の類似度群に含まれる類似度とを足し合わせた値であっても、第1の類似度群に含まれる類似度と第2の類似度群に含まれる類似度との平均値であってもよい。次に、処理部111は、桁毎に第1の計算値群の中の最大値を抽出する。次に、処理部111は、桁毎の最大値に対応する候補文字の集合を第1の被写体における文字列として認識する。以上のように、処理部111は、第1の類似度群及び第2の類似度群に基づいて第1の被写体の文字列を認識する。処理部111が第1の類似度群及び第2の類似度群の両方を用いるのは、第1の類似度群における桁毎の最大値に対応する候補文字の集合と第2の類似度群における桁毎の最大値に対応する候補文字の集合とが異なることあるからである。
第1の実施形態によれば、画像処理装置10は、文字列のOCR処理を用いるだけでなく、上述の類似度を用いて文字認識を行うことで、低解像度の画像に写る文字列の認識精度を高めることができる。
なお、各類似度が上述したように候補文字同士の依存関係がないように算出されている場合、画像処理装置10による文字列の認識精度はさらに高まる。これは、各類似度の確度が高いからである。
次に、上述した画像処理装置10による文字認識の処理の具体例を図4〜図6を用いて説明する。
図4は、第1の実施形態に係る一例となる画像を示す図である。図4の左図は、第1の撮影部13による第1の画像である。図4の右図は、第2の撮影部14による第2の画像である。第1の画像及び第2の画像は、文字認識の対象となる物品21に貼られているラベルの文字列「000872」(以下、被写体Aという)及び文字認識の対象となる物品22に貼られているラベルの文字列「103371」(以下、被写体Bという)が写る。上記Act101で説明したように、処理部111は、第1の撮影部13が取得した第1の画像のデータ及び第2の撮影部14が取得した第2の画像のデータを第1のインターフェース115及び第2のインターフェース116を介して取り込む。
Act102で説明したように、処理部111は、図4で示した第1の画像に写る被写体Aに対応する文字列a1及び被写体Bに対応する文字列b1を抽出する。処理部111は、第2の画像に写る被写体Aに対応する文字列a2及び被写体Bに対応する文字列b2を抽出する。Act103で説明したように、処理部111は、文字列a1及び文字列b1を構成する各文字を1文字単位で切り出す。同様に、処理部111は、文字列a2及び文字列b2を構成する各文字を1文字単位で切り出す。
図5は、第1の実施形態に係る一例となる複数の類似度マップを示す図である。類似度マップは、上述の第1の類似度群及び第2の類似度群に相当する。図5の左上図は、文字列a1に関する類似度マップである。図5の左下図は、文字列b1に関する類似度マップである。図5の右上図は、文字列a2に関する類似度マップである。図5の右下図は、文字列b2に関する類似度マップである。Act104で説明したように、処理部111は、文字列a1を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、文字列a1を構成する各文字と候補文字群中の各候補文字との類似度で構成される類似度マップを算出する。同様に、処理部111は、文字列b1に関する類似度マップ、文字列a2に関する類似度マップ及び文字列b2に関する類似度マップを算出する。類似度マップの横軸は、文字列の桁を示す。なお、文字列a1、文字列b1、文字列a2及び文字列b2の何れも6桁である。縦軸は、候補文字を示す。候補文字は、0〜9の10個である。そのため、各類似度マップは、60個の類似度で構成されている。
図5に示す各類似度マップは、上述したように各桁において候補文字同士の依存関係がないように各類似度が算出された例である。図5の類似度は、1.0に近いほど候補文字に似ていることを示し、0.0に近いほど候補文字に似ていないことを示す。
図5の各類似度マップの下には、認識結果が示されている。認識結果は、桁毎の類似度の最大値に対応する候補文字を並べた集合である。Act105及びAct106で説明したように、処理部111は、文字列a1の被写体及び文字列a2の被写体が共に被写体Aに対応すると判定する。しかしながら、文字列a1の認識結果「000872」は、文字列a2の認識結果「008872」と異なる。同様に、処理部111は、文字列b1の被写体及び文字列b2の被写体が共に被写体Bに対応すると判定する。しかしながら、文字列b1の認識結果「103371」は、文字列b2の認識結果「708371」と異なる。そのため、Act107で説明したように、処理部111は、文字列a1及び文字列a2において互いに対応する桁毎かつ候補文字群中の候補文字毎に文字列a1の類似度マップに含まれる類似度と文字列a2の類似度マップに含まれる類似度とを合算した値に基づく最終類似度マップを算出する。最終類似度マップは、上述の第1の計算値群に相当する。
図6は、第1の実施形態に係る一例となる最終類似度マップを示す図である。図6に示す最終類似度マップは、文字列a1の類似度マップに含まれる類似度と文字列a2の類似度マップに含まれる類似度との平均値で構成されている。処理部111は、桁毎に最終類似度マップの中の最大値を抽出する。次に、処理部111は、桁毎の最大値に対応する候補文字の集合(以下、認識結果という)「000872」を被写体Aの文字列として認識する。同様に、処理部111は、文字列b1の類似度マップと文字列b2の類似度マップに基づいて被写体Bにおける文字列を認識する。画像処理装置10は、被写体の文字列をOCR処理だけでは正確に認識できない可能性があるが、上述の類似度を用いることにより高い精度で被写体の文字列を認識することができる。
なお、Act107において、処理部111は、画像に写る文字列の位置に依存する第1の重み係数を第2の画像に写る第2の文字列の位置に基づいて第1の類似度群に含まれる各類似度に乗算してもよい。同様に、処理部111は、第1の重み係数を第2の画像に写る第2の文字列の位置に基づいて第2の類似度群に含まれる各類似度に乗算するようにしてもよい。例えば、第1の係数は、画像の端の重みを低くし、中央に近づくにつれ重みを高くするような係数である。被写体が同一であっても、その被写体が写る位置は第1の画像と第2の画像とで異なる。画像の端に写る文字列は、中央部分に写る文字列よりも歪んでいる可能性が高い。そのため、画像の端に写る文字列による類似度群は、画像の中央部分に写る文字列による類似度群よりも信頼度が低い。画像処理装置10は、第1の重み係数を用いて類似度群を補正することにより、より高い精度で被写体の文字列を認識することができる。
なお、Act107において、処理部111は、画像に写る文字列の画素情報に依存する第2の重み係数を第2の画像に写る第2の文字列の画素情報に基づいて第1の類似度群に含まれる各類似度に乗算してもよい。同様に、処理部111は、第2の重み係数を第2の画像に写る第2の文字列の画素情報に基づいて第2の類似度群に含まれる各類似度に乗算してもよい。例えば、画素情報は、コントラストである。例えば、第2の係数は、コントラストの低い部分の重みを低くし、コントラストが高くなるにつれ重みを高くするような係数である。第1の撮影部13及び第2の撮影部14は撮影位置及び方向が異なるので、第1の画像及び第2の画像のコントラストは異なる。さらに、同一の画像内であってもコントラストが異なる場合もある。コントラストの低い部分に写る文字列による類似度群は、コントラストの高い部分に写る文字列による類似度群よりも信頼度が低い。処理部111は、コントラストに応じて画像単位、文字列単位及び文字列を構成する文字単位で第2の重み係数を変えることができる。画像処理装置10は、第2の重み係数を用いて類似度群を補正することにより、より高い精度で被写体の文字列を認識することができる。
なお、Act107において、処理部111は、最終類似度マップに基づく認識結果を所定のルールによる意味解析処理によって修正してもよい。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
なお、画像処理装置10は、3以上の撮影部からの画像から算出した3以上の類似度群に基づいて被写体の文字列を認識するようにしてもよい。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
(第2の実施形態)
第2の実施形態について説明する。ここでは、第1の実施形態と相違する点を説明し、同様である点の説明は省略する。図7は、第2の実施形態に係る一例となる画像処理装置10の概略図である。第2の実施形態に係る画像処理装置10は、第1の実施形態に係る画像処理装置10から第2の撮影部14及び第2のインターフェース116を除いた装置に相当する。つまり、第2の実施形態に係る画像処理装置10は、対象を撮影する撮影部を1つのみ備えている。
画像処理装置10による文字認識の処理は、図3のAct101、Act105及びAct106において第1の実施形態と異なる。
Act101において、処理部111は、第1の撮影部13が取得した第1の画像及び第2の画像のデータを第1のインターフェース115を介して取り込む。第1の画像及び第2の画像は、第1の撮影部13が異なる位置から第1の被写体を写した画像である。
Act105及びAct106において、処理部111の判定部1115は、第1の文字列の被写体及び第2の文字列の被写体が共に第1の被写体に対応すると判定する。一例として、処理部111は、第1の撮影部13の移動量、第1の画像に写る第1の文字列の位置及び第2の画像に写る第2の文字列の位置に基づいて第1の文字列の被写体及び第2の文字列の被写体が共に前記第1の被写体に対応すると判定する。処理部111は、第1の撮影部13の移動量と、第1の画像に写る第1の文字列の位置と第2の画像に写る第2の文字列の位置との移動量が一致していれば、第1の文字列の被写体及び第2の文字列の被写体が共に前記第1の被写体に対応すると判定することができる。なお、処理部111は、第1の撮影部13の移動量に代えて、第1の画像及び第2の画像に写る任意の目印の移動量を用いてもよい。
第2の実施形態は、上述の第1の実施形態と同様の効果を得ることができる。
動作を実行する主体は例えば、ハードウェア、ハードウェアとソフトウェアとの複合体、ソフトウェア、及び実行中のソフトウェアなどといった、コンピュータに係る主体である。動作を実行する主体は例えば、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、スレッド、プログラムおよびコンピュータであるがこれらに限るものではない。例えば、画像処理装置やそこで実行されるアプリケーションが動作を実行する主体であってもよい。プロセスやスレッドに、動作を実行する主体を複数演じさせてもよい。動作を実行する主体が1つの画像処理装置内にあってもよいし、複数の画像処理装置へ分配されたかたちであってもよい。
装置内部に以上説明した機能が予め記録されていてもよいし、同様の機能をネットワークから装置にダウンロードしてもよいし、同様の機能を記録媒体に記憶させたものを装置にインストールしてもよい。記録媒体としては、ディスクROMやメモリカード等プログラムを記憶でき、かつ装置が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のOS(オペレーティング・システム)等と協働してその機能を実現させるものであってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…画像処理装置、11…計算機、12…移動体、13…第1の撮影部、14…第2の撮影部、20…棚、21…物品、22…物品、111…処理部、112…記憶部、113…入力部、114…表示部、115…第1のインターフェース、116…第2のインターフェース、1111…取り込み部、1112…抽出部、1113…切り出し部、1114…計算部、1115…判定部、1115a…推定部、1115b…決定部、1116…認識部。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列を抽出する抽出部と、
前記第1の文字列の被写体及び前記第2の文字列の被写体が共に第1の被写体に対応すると判定する判定部と、
前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出す切り出し部と、
前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出する計算部と、
前記第1の類似度群及び前記第2の類似度群に基づいて前記第1の被写体の文字列を認識する認識部と、
を備える画像処理装置。
[C2]
前記第1の被写体を撮影する第1の撮影部と、
前記第1の被写体を撮影する第2の撮影部と、
を備え、
前記判定部は、前記第1の撮影部と前記第2の撮影部との位置関係、前記第1の画像に写る前記第1の文字列の位置及び前記第2の画像に写る前記第2の文字列の位置に基づいて前記第1の文字列の被写体及び前記第2の文字列の被写体が共に前記第1の被写体に対応すると判定する、[C1]記載の画像処理装置。
[C3]
前記認識部は、前記第1の文字列及び前記第2の文字列において互いに対応する桁毎かつ前記候補文字群中の候補文字毎に前記第1の類似度群に含まれる類似度と前記第2の類似度群に含まれる類似度とを合算した値に基づく第1の計算値群を算出し、前記桁毎に前記第1の計算値群の中の最大値を抽出し、前記最大値に対応する候補文字の集合を前記第1の被写体における文字列として認識する、[C1]記載の画像処理装置。
[C4]
前記認識部は、画像に写る文字列の位置に依存する第1の重み係数を前記第2の画像に写る前記第2の文字列の位置に基づいて前記第1の類似度群に含まれる各類似度に乗算し、前記第1の重み係数を前記第2の画像に写る前記第2の文字列の位置に基づいて前記第2の類似度群に含まれる各類似度に乗算する、[C3]記載の画像処理装置。
[C5]
第1の画像に写る第1の文字列を抽出することと、
第2の画像に写る第2の文字列を抽出することと、
前記第1の文字列の被写体及び前記第2の文字列の被写体が共に第1の被写体に対応すると判定することと、
前記第1の文字列を構成する各文字を1文字単位で切り出すことと、
前記第2の文字列を構成する各文字を1文字単位で切り出すことと、
前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出することと、
前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出することと、
前記第1の類似度群及び前記第2の類似度群に基づいて前記第1の被写体の文字列を認識すること、
を備える画像処理方法。

Claims (5)

  1. 第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列を抽出する抽出部と、
    前記第1の文字列の被写体及び前記第2の文字列の被写体が共に第1の被写体に対応すると判定する判定部と、
    前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出す切り出し部と、
    前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出する計算部と、
    前記第1の類似度群及び前記第2の類似度群に基づいて前記第1の被写体の文字列を認識する認識部と、
    を備える画像処理装置。
  2. 前記第1の被写体を撮影する第1の撮影部と、
    前記第1の被写体を撮影する第2の撮影部と、
    を備え、
    前記判定部は、前記第1の撮影部と前記第2の撮影部との位置関係、前記第1の画像に写る前記第1の文字列の位置及び前記第2の画像に写る前記第2の文字列の位置に基づいて前記第1の文字列の被写体及び前記第2の文字列の被写体が共に前記第1の被写体に対応すると判定する、請求項1記載の画像処理装置。
  3. 前記認識部は、前記第1の文字列及び前記第2の文字列において互いに対応する桁毎かつ前記候補文字群中の候補文字毎に前記第1の類似度群に含まれる類似度と前記第2の類似度群に含まれる類似度とを合算した値に基づく第1の計算値群を算出し、前記桁毎に前記第1の計算値群の中の最大値を抽出し、前記最大値に対応する候補文字の集合を前記第1の被写体における文字列として認識する、請求項1記載の画像処理装置。
  4. 前記認識部は、画像に写る文字列の位置に依存する第1の重み係数を前記第2の画像に写る前記第2の文字列の位置に基づいて前記第1の類似度群に含まれる各類似度に乗算し、前記第1の重み係数を前記第2の画像に写る前記第2の文字列の位置に基づいて前記第2の類似度群に含まれる各類似度に乗算する、請求項3記載の画像処理装置。
  5. 第1の画像に写る第1の文字列を抽出することと、
    第2の画像に写る第2の文字列を抽出することと、
    前記第1の文字列の被写体及び前記第2の文字列の被写体が共に第1の被写体に対応すると判定することと、
    前記第1の文字列を構成する各文字を1文字単位で切り出すことと、
    前記第2の文字列を構成する各文字を1文字単位で切り出すことと、
    前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出することと、
    前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出することと、
    前記第1の類似度群及び前記第2の類似度群に基づいて前記第1の被写体の文字列を認識すること、
    を備える画像処理方法。
JP2019206986A 2015-04-08 2019-11-15 画像処理装置及び画像処理方法 Active JP6952094B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/681,933 2015-04-08
US14/681,933 US9563812B2 (en) 2015-04-08 2015-04-08 Image processing apparatus, image processing method and computer-readable storage medium
JP2015234423A JP6619635B2 (ja) 2015-04-08 2015-12-01 画像処理装置及び画像処理方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015234423A Division JP6619635B2 (ja) 2015-04-08 2015-12-01 画像処理装置及び画像処理方法

Publications (2)

Publication Number Publication Date
JP2020030858A true JP2020030858A (ja) 2020-02-27
JP6952094B2 JP6952094B2 (ja) 2021-10-20

Family

ID=54843674

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015234423A Active JP6619635B2 (ja) 2015-04-08 2015-12-01 画像処理装置及び画像処理方法
JP2019206986A Active JP6952094B2 (ja) 2015-04-08 2019-11-15 画像処理装置及び画像処理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015234423A Active JP6619635B2 (ja) 2015-04-08 2015-12-01 画像処理装置及び画像処理方法

Country Status (4)

Country Link
US (2) US9563812B2 (ja)
EP (1) EP3079100B1 (ja)
JP (2) JP6619635B2 (ja)
CN (1) CN106056112B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD789955S1 (en) 2014-11-04 2017-06-20 Teenage Engineering Ab Display screen or portion thereof with graphical user interface
USD914047S1 (en) 2014-11-04 2021-03-23 Teenage Engineering Ab Display screen or portion thereof with graphical user interface
US9785850B2 (en) 2015-07-08 2017-10-10 Sage Software, Inc. Real time object measurement
US9684984B2 (en) * 2015-07-08 2017-06-20 Sage Software, Inc. Nearsighted camera object detection
JP2017187988A (ja) 2016-04-07 2017-10-12 東芝テック株式会社 コード認識装置
US10108856B2 (en) 2016-05-13 2018-10-23 Abbyy Development Llc Data entry from series of images of a patterned document
US10037459B2 (en) 2016-08-19 2018-07-31 Sage Software, Inc. Real-time font edge focus measurement for optical character recognition (OCR)
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
JP2020017156A (ja) * 2018-07-27 2020-01-30 富士通株式会社 文字認識装置、文字認識プログラムおよび文字認識方法
JP6929823B2 (ja) * 2018-11-16 2021-09-01 株式会社東芝 読取システム、読取方法、プログラム、記憶媒体、及び移動体
JP6868057B2 (ja) * 2019-05-27 2021-05-12 株式会社東芝 読取システム、読取方法、プログラム、記憶媒体、及び移動体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352705A (ja) * 2004-06-09 2005-12-22 Omron Corp パターン認識装置、パターン認識方法及び文字認識方法。
WO2008099664A1 (ja) * 2007-02-15 2008-08-21 Mitsubishi Heavy Industries, Ltd. 車両番号認識装置
JP2011113440A (ja) * 2009-11-30 2011-06-09 Fujitsu Ltd ナンバープレート認識プログラムおよびナンバープレート認識装置
JP2012068879A (ja) * 2010-09-22 2012-04-05 Fujitsu Ltd 文字認識装置、文字認識装置制御プログラム、文字認識装置制御方法及び携帯端末装置
JP2015053542A (ja) * 2013-09-05 2015-03-19 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0363895A (ja) * 1989-08-02 1991-03-19 Mitsubishi Electric Corp 文字認識方式
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JP3917252B2 (ja) * 1997-08-25 2007-05-23 株式会社東芝 車両のナンバプレート認識装置および車両のナンバプレート認識方法
JP2000155803A (ja) * 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置
IL162921A0 (en) * 2004-07-08 2005-11-20 Hi Tech Solutions Ltd Character recognition system and method
JP4834351B2 (ja) * 2005-08-22 2011-12-14 株式会社東芝 文字認識装置及び文字認識方法
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7945101B2 (en) * 2007-07-26 2011-05-17 Palo Alto Research Center Incorporated Innovative OCR systems and methods that combine a template based generative model with a discriminative model
JP4987943B2 (ja) * 2009-11-11 2012-08-01 株式会社東芝 電子機器及び画像表示方法
JP2013164728A (ja) * 2012-02-10 2013-08-22 Canon Inc 画像内の文字に係る言語を判定する情報処理装置
JP5825172B2 (ja) 2012-03-28 2015-12-02 富士通株式会社 画像判定装置、画像判定方法及び画像判定用コンピュータプログラム
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
CN104143141A (zh) * 2013-05-06 2014-11-12 金培新 一种基于信用卡扫描技术的金融支付方法
JP6146209B2 (ja) * 2013-08-28 2017-06-14 富士通株式会社 情報処理装置、文字認識方法、及びプログラム
CN103488983B (zh) * 2013-09-13 2016-10-26 复旦大学 一种基于知识库的名片ocr数据修正方法和系统
CN104463124A (zh) * 2014-12-11 2015-03-25 天津普达软件技术有限公司 一种奶盒喷打字符识别的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352705A (ja) * 2004-06-09 2005-12-22 Omron Corp パターン認識装置、パターン認識方法及び文字認識方法。
WO2008099664A1 (ja) * 2007-02-15 2008-08-21 Mitsubishi Heavy Industries, Ltd. 車両番号認識装置
JP2011113440A (ja) * 2009-11-30 2011-06-09 Fujitsu Ltd ナンバープレート認識プログラムおよびナンバープレート認識装置
JP2012068879A (ja) * 2010-09-22 2012-04-05 Fujitsu Ltd 文字認識装置、文字認識装置制御プログラム、文字認識装置制御方法及び携帯端末装置
JP2015053542A (ja) * 2013-09-05 2015-03-19 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
CN106056112B (zh) 2019-09-03
JP6619635B2 (ja) 2019-12-11
EP3079100A1 (en) 2016-10-12
JP6952094B2 (ja) 2021-10-20
EP3079100B1 (en) 2019-01-30
US9934444B2 (en) 2018-04-03
US9563812B2 (en) 2017-02-07
US20170140234A1 (en) 2017-05-18
US20160300116A1 (en) 2016-10-13
CN106056112A (zh) 2016-10-26
JP2016201094A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
JP6619634B2 (ja) 画像処理装置及び画像処理方法
JP6952094B2 (ja) 画像処理装置及び画像処理方法
JP6143111B2 (ja) 物体識別装置、物体識別方法、及びプログラム
JP6693059B2 (ja) 商品棚認識装置、商品棚認識方法、プログラム及び画像処理装置
JP6354589B2 (ja) 物体識別装置、方法及びプログラム
CN104217203B (zh) 复杂背景卡面信息识别方法及系统
JP6278276B2 (ja) 物体識別装置、物体識別方法、及びプログラム
US10025977B2 (en) Method for identifying a sign on a deformed document
JP6211407B2 (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
US11087137B2 (en) Methods and systems for identification and augmentation of video content
CN111046859A (zh) 字符识别方法及装置
US11816923B2 (en) Face image candidate determination apparatus for authentication, face image candidate determination method for authentication, program, and recording medium
JP2019046484A (ja) 画像認識システム
JP2019045909A (ja) 画像認識システム
JP6349817B2 (ja) 位置合わせ装置、位置合わせ方法及び位置合わせ用コンピュータプログラム
US20230377188A1 (en) Group specification apparatus, group specification method, and computer-readable recording medium
JP2018173767A (ja) 個体識別装置、情報処理システム、個体識別装置の制御方法及びプログラム
JP2017122974A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210927

R150 Certificate of patent or registration of utility model

Ref document number: 6952094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150