JP6619634B2 - 画像処理装置及び画像処理方法 - Google Patents

画像処理装置及び画像処理方法 Download PDF

Info

Publication number
JP6619634B2
JP6619634B2 JP2015234422A JP2015234422A JP6619634B2 JP 6619634 B2 JP6619634 B2 JP 6619634B2 JP 2015234422 A JP2015234422 A JP 2015234422A JP 2015234422 A JP2015234422 A JP 2015234422A JP 6619634 B2 JP6619634 B2 JP 6619634B2
Authority
JP
Japan
Prior art keywords
character
character string
similarity
group
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015234422A
Other languages
English (en)
Other versions
JP2016201093A (ja
Inventor
真明 安永
真明 安永
平 和樹
和樹 平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Publication of JP2016201093A publication Critical patent/JP2016201093A/ja
Application granted granted Critical
Publication of JP6619634B2 publication Critical patent/JP6619634B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Studio Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明の実施形態は、画像処理装置及び画像処理方法に関する。
一般的に、OCR(optical character recognition)処理は、紙面に書かれている文字をスキャナで読み取った文字画像に対して行われる。近年、カメラの高解像度化に伴い、カメラで撮影された文字画像を補正し、補正後の文字画像に対してOCR処理を行うアプリケーションが出てきている。
異なる位置で撮影された複数の画像における対象物の同一判定は、複数台のカメラの撮影位置及び撮影方向が既知である場合には三角測量で行われる。一方、1つのカメラを不定速で動かしながら対象物を撮影する場合は、カメラの撮影位置及び撮影方向は不定である。そのため、三角測量で無理に計算しようとしても誤差が大きくなり、正しい結果を得られない可能性が高い。そのため、同一対象物の判定としては、特徴点マッチングによる判定手法や対象物に記載された固有のID(identification) (例えば文字列、バーコード、数列など)に基づく判定手法などがある。
特開2013−206175号公報
しかしながら、特徴点マッチングによる手法では、対象物が周りの状況に比べて特徴的ではない場合には、特徴点自体を得ることができない。さらに、対象物の特徴点を得るために多量の特徴点を取得しようとすると、誤判定や処理速度の低下に繋がる。
一方、対象物に記載されたIDに基づく判定手法では、IDは高解像度で撮影されなければならない。しかしながら、通常のカメラでIDを遠くから撮影すると、高解像度でIDを撮影できない。高解像度でIDを撮影するためには、カメラをより高解像度にしたり、画角を狭くしたりする必要がある。そのため、コストアップや操作性の低下に繋がる。
さらに、カメラで取得された文字画像のOCR処理では、低解像度の文字画像に対する文字の認識率が極端に下がる。さらに、低解像度の文字画像では、文字の認識率は画像の品質に左右されやすい。画像の品質は、文字画像の撮影タイミング、撮影位置や撮影環境(照明)などのわずかな撮影条件の差により大きく変わる。
本発明の実施形態が解決しようとする課題は、複数の画像から同一の被写体に対応する文字列を探すことができる画像処理装置及び画像処理方法を提供することにある。
実施形態によれば、画像処理装置は、抽出部と、切り出し部と、計算部と、判定部とを備えている。前記抽出部は、第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列及び第3の文字列を抽出する。前記切り出し部は、前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出し、前記第3の文字列を構成する各文字を1文字単位で切り出す。前記計算部は、 前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出し、前記第3の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第3の類似度群を算出する。前記判定部は、前記第1の類似度群を前記第2の類似度群及び前記第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の第1の被写体に対応するのかを判定する。
第1の実施形態に係る一例となる画像処理装置の概略図。 第1の実施形態に係る一例となる画像処理装置のブロック図。 第1の実施形態に係る一例となる画像処理装置による処理のフローチャート。 第1の実施形態に係る一例となる複数の画像を示す図。 第1の実施形態に係る一例となる複数の類似度マップを示す図。
以下、いくつかの実施の形態について、図面を参照して説明する。
(第1の実施形態)
第1の実施形態について説明する。図1は、第1の実施形態に係る一例となる画像処理装置10の概略図である。
画像処理装置10は、倉庫や店舗の複数の棚に載せられた複数の物品(例えば段ボール箱)の在庫管理や所在地管理等に用いられる。画像処理装置10は、計算機11と、移動体12と、第1の撮影部13とを備える。画像処理装置10は、これら全ての要素を必ず備えている必要はない。例えば、画像処理装置10は、少なくとも計算機11を備える装置であってもよい。
計算機11は、後述するようにOCR処理により画像から文字認識を行う装置である。計算機11は、例えばPC(Personal Computer)である。なお、文字は、数字、記号、符号またはマーク等の識別コードを含む概念である。文字列は、数字、記号、符号またはマーク等の識別コードを複数桁並べたものである。
移動体12は、画像処理装置10を何れの方向にも自律走行可能な台車である。移動体12は、直線状に並べられた棚20の延在方向と平行な方向に走行する。移動体12は、計算機11及び第1の撮影部13を搭載する。
第1の撮影部13は、対象を撮影するカメラである。なお、対象は、被写体ということもある。第1の撮影部13は、対象を動画像として撮影するカメラであっても、対象を静止画像として撮影するカメラであってもよい。第1の撮影部13は、異なる方向から同一の対象を撮影するように移動体12に固定されている。第1の撮影部13の撮影方向は既知である。対象は、棚20に載せられた複数の物品に貼られているラベルの文字列である。例えば、物品21のラベルには、「000872」と記載されている。物品22のラベルには、「103371」と記載されている。ラベルに記載されている文字列は、各物品を識別するために各物品に一意に割り当てられているID(identification)情報である。一般に、あるエリアで管理されている複数の物品に貼られている全てのラベルの文字列は、同一桁かつ予め決められた文字の組み合わせである。図1に示す例では、文字列は、6桁かつ各桁0〜9の組み合わせで構成されている。第1の撮影部13は、棚20に載せられた複数の物品に貼られているラベルを順次撮影する。第1の撮影部13は、取得した画像のデータを計算機11へ送る。
図2は、第1の実施形態に係る一例となる画像処理装置10のブロック図である。図2は、主として計算機11の構成を示す。計算機11は、処理部111と、記憶部112と、入力部113と、表示部114と、第1のインターフェース115を備える。
処理部111は、計算機11の中枢部分に相当する。処理部111は、オペレーティングシステムやアプリケーションプログラムに従って、計算機11の各要素を制御する。処理部111は、取り込み部1111と、抽出部1112と、切り出し部1113と、計算部1114と、推定部1115a及び決定部1115bを含む判定部1115と、認識部1116を備える。これらの要素による処理内容は後述する。
記憶部112は、上述のオペレーティングシステムやアプリケーションプログラムを記憶するメモリを含む。さらに、記憶部112は、処理部111による処理に必要なワークエリアとなるメモリを含む。さらに、記憶部112は、処理部111による処理に必要なデータを記憶するメモリを含む。
入力部113は、計算機11に対するコマンドを入力可能なキーボードである。
表示部114は、処理部111からの信号に基づいて映像を表示するディスプレイである。表示部114は、映像の出力部である。
第1のインターフェース115は、計算機11と第1の撮影部13とを接続する。計算機11は、第1のインターフェース115を介して第1の撮影部13から画像のデータを取り込む。
次に、画像処理装置10による文字認識の処理について説明する。画像処理装置10が処理する画像は、例えば第1の撮影部13が棚20に載せられた複数の物品に貼られているラベルを遠い位置から撮影した低解像度の画像である。そのため、第1の撮影部13による画像は、人が見れば文字列を認識できる(読める)が、画像処理装置10による一般的なOCR処理では十分に文字認識を行えないものとする。
図3は、第1の実施形態に係る一例となる画像処理装置10による処理のフローチャートである。
処理部111の取り込み部1111は、画像を取り込む(Act101)。Act101では、処理部111は、第1の撮影部13が取得した第1の画像及び第2の画像のデータを第1のインターフェース115を介して取り込む。第1の画像及び第2の画像は、第1の撮影部13が異なる方向から第1の被写体を写した画像である。記憶部112は、第1の画像のデータ及び第2の画像のデータを記憶する。第1の画像及び第2の画像には、文字認識の対象となる文字列(以下、第1の被写体という)が写る。なお、第1の画像及び第2の画像には、第1の被写体以外の文字列が写っていてもよい。
処理部111の抽出部1112は、文字列を抽出する(Act102)。Act102では、処理部111は、第1の画像に写る全ての文字列を抽出する。同様に、処理部111は、第2の画像に写る全ての文字列を抽出する。以下では説明の簡略化のため、第1の画像に写る第1の被写体に対応する第1の文字列に対する処理、及び第2の画像に写る第2の文字列及び第3の文字列に対する処理を示す。処理部111は、第1の画像に写る第1の文字列を抽出する。同様に、処理部111は、第2の画像に写る第2の文字列及び第3の文字列を抽出する。Act102における文字列の抽出処理は、OCR処理で用いられる任意の手法でよい。
処理部111の切り出し部1113は、文字を切り出す(Act103)。Act103では、処理部111は、第1の文字列を構成する各文字を1文字単位で切り出す。同様に、処理部111は、第2の文字列を構成する各文字を1文字単位で切り出す。同様に、処理部111は、第3の文字列を構成する各文字を1文字単位で切り出す。Act103における文字の切り出し処理は、OCR処理で用いられる任意の手法でよい。
処理部111の計算部1114は、類似度を計算する(Act104)。Act104では、処理部111は、第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出する。つまり、処理部111は、第1の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。同様に、処理部111は、第2の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第2の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第2の類似度群を計算する。つまり、処理部111は、第2の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。同様に、処理部111は、第3の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第3の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第3の類似度群を計算する。つまり、処理部111は、第3の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。
上述のAct104で用いられる候補文字群は、複数の候補文字で構成されている。複数の候補文字は、各物品を識別するための文字列として使用可能な予め決められた複数の文字で構成されている。例えば、複数の候補文字は0〜9の数字である。候補文字群は記憶部112に保存されている。候補文字群は、物品が管理されているエリアに応じて異なる可能性がある。そのため、記憶部112は、エリア単位で異なる候補文字群のデータを保存していてもよい。
上述のAct104で算出される類似度は、第1の文字列を構成する各文字、第2の文字列を構成する各文字及び第3の文字列を構成する各文字が各候補文字に一致する可能性(確率)を示す指標である。Act104における類似度の算出手法は任意の手法でよい。なお、類似度のレンジは特に限定されない。例えば、類似度のレンジは、0〜1であっても、0〜100であってもよい。類似度は、上限値に近いほど候補文字に似ていることを示し、下限値に近いほど候補文字に似ていないことを示していても、これらの逆を示していてもよい。例えば、処理部111は、候補文字同士の依存関係がないように各類似度を算出するようにすることができる。つまり、第1の文字列の各桁において、第1の類似度群に含まれる各類似度は互いに依存関係がない。第1の文字列の桁単位で類似度を合計した値は100%に正規化されていない。第2の文字列及び第3の文字列における類似度についても同様である。つまり、第2の文字列の各桁において、第2の類似度群に含まれる各類似度は互いに依存関係がない。同様に、第3の文字列の各桁において、第3の類似度群に含まれる各類似度は互いに依存関係がない。この場合、処理部111は、同一桁においてある候補文字の類似度を算出する際に、他の候補文字の類似度の値に影響を受けない。そのため、処理部111は候補文字同士が独立した確度の高い類似度を算出することができる。
これとは逆に、処理部111は、候補文字同士に依存関係を持たせるように各類似度を算出するようにしてもよい。つまり、第1の文字列の各桁において、第1の類似度群に含まれる各類似度は互いに依存関係がある。第1の文字列の桁単位で類似度を合計した値は100%に正規化されている。第2の文字列及び第3の文字列における類似度についても同様である。つまり、第2の文字列の各桁において、第2の類似度群に含まれる各類似度は互いに依存関係がある。同様に、第3の文字列の各桁において、第3の類似度群に含まれる各類似度は互いに依存関係がある。このように、第1の類似度群に含まれる各類似度、第2の類似度群に含まれる各類似度及び第3の類似度群に含まれる各類似度は尤度である。この場合、処理部111は、第1の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。同様に、処理部111は、第2の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。同様に、処理部111は、第3の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。
処理部111の推定部1115aは、同一の文字列を推定する(Act105)。Act105では、処理部111は、第1と画像と第2の画像の両方に同一の被写体に対応する文字列が存在する可能性が高いと推定する。
処理部111の決定部1115bは、同一の文字列を決定する(Act106)。Act106では、処理部111は、第1の画像に写る各文字列から算出された各類似度群及び第2の画像に写る各文字列から算出された類似度群に基づいて、第1の画像から抽出したどの文字列と第2の画像から抽出したどの文字列が同一の被写体に対応するのかを明らかにすることができる。
以下では、処理部111が第1の画像の第1の文字列と同一の被写体である文字列を第2の画像から決定する例について説明する。上記Act105及びAct106では、処理部111の判定部1115は、第1の類似度群を第2の類似度群及び前記第3の類似度群と比較することにより、第2の文字列または第3の文字列の何れが第1の文字列と同一の第1の被写体に対応するのかを判定する。処理部111による各類似度群の比較手法を下記に例示するが、これら以外の手法であってもよい。
処理部111による各類似度群の比較手法の一例を説明する。処理部111は、第1の文字列及び第2の文字列において互いに対応する桁毎かつ候補文字群中の候補文字毎に第1の類似度群に含まれる類似度と前記第2の類似度群に含まれる類似度との差の第1の絶対値群を算出する。次に、処理部111は、第1の絶対値群中の全ての絶対値を合算した第1の合算値を算出する。同様に、処理部111は、第1の文字列及び第3の文字列において互いに対応する桁毎かつ候補文字群中の候補文字毎に第1の類似度群に含まれる類似度と第3の類似度群に含まれる類似度との差の第2の絶対値群を算出する。次に、処理部111は、第2の絶対値群中の全ての絶対値を合算した第2の合算値を算出する。第1の合算値が前記第2の合算値よりも小さい場合、処理部111は、第2の文字列が前記第1の文字列と同一の第1の被写体に対応すると判定する。つまり、処理部111は、第3の文字列よりも第2の文字列の方が第1の文字列に類似している、または一致していると判定することができる。一方、第2の合算値が第1の合算値よりも小さい場合、処理部111は、第3の文字列が第1の文字列と同一の第1の被写体に対応すると判定する。つまり、処理部111は、第2の文字列よりも第3の文字列の方が第1の文字列に類似している、または一致していると判定することができる。以上により、処理部111は、第1の画像のどの文字列と第2の画像のどの文字列が同一の被写体に対応しているのかを明らかにすることができる。
処理部111による各類似度群の比較手法の別の例を説明する。処理部111は、第1の類似度群のヒストグラムと第2の類似度群のヒストグラムの類似度を算出する。同様に、処理部111は、第1の類似度群のヒストグラムと第3の類似度群のヒストグラムとの類似度を算出する。処理部111は、第1の類似度群のヒストグラムが第3の類似度群のヒストグラムよりも第2の類似度群のヒストグラムに類似している場合、第2の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定する。つまり、処理部111は、第3の文字列よりも第2の文字列の方が第1の文字列に類似している、または一致している可能性が高いと判定することができる。一方、処理部111は、第1の類似度群のヒストグラムが第2の類似度群のヒストグラムよりも第3の類似度群のヒストグラムに類似している場合、第3の文字列が第1の文字列と同一の第1の被写体に対応すると判定する。つまり、処理部111は、第2の文字列よりも第3の文字列の方が第1の文字列に類似している、または一致している可能性が高いと判定することができる。処理部111は、例えば、Bhattacharyya係数を用いて、ヒストグラム間の類似度を求めることができる。なお、処理部111は、他の手法によりヒストグラム間の類似度を求めてもよい。
なお、Act105及びAct106における処理は、Act104の後でなくても、Act102とAct103の間またはAct103とAct104の間であってもよい。
処理部111の認識部1116は、文字認識を実行する(Act107)。Act107では、処理部111は、第1の被写体に対応する第1の文字列と、Act105及びAct106において第1の被写体に対応すると判定された第2の画像の中の文字列とを用いて第1の被写体の文字列を認識する。処理部111は、同一被写体に対応すると判定された第1の画像に写る文字列及び第2の画像に写る文字列をOCR処理し、第1の被写体の文字列を認識する。
第1の画像に写る文字列の認識結果と第2の画像に写る文字列の認識結果が異なる場合、処理部111は、第1の類似度群の各類似度及び第2の類似度群の各類似度を参照して最終的な第1の被写体の文字列を決定してもよい。
第1の実施形態によれば、画像処理装置10は、上述の類似度を用いることにより、低解像度の複数の画像から同一の被写体に対応する文字列及びこれが付された商品を探すことができる。
なお、各類似度が上述したように候補文字同士の依存関係を持たせるように算出されている場合、画像処理装置10による文字列の認識精度はさらに高まる。これは、文字列の各桁において、最も一致する可能性が高い候補文字が抽出されているからである。
次に、上述した画像処理装置10による文字認識の処理の具体例を図4〜図5を用いて説明する。
図4は、第1の実施形態に係る一例となる画像を示す図である。図4の左図及び右図は、第1の撮影部13による第1の画像及び第2の画像である。第1の画像及び第2の画像は、異な位置から撮影されている。第1の画像及び第2の画像は、文字認識の対象となる物品21に貼られているラベルの文字列「000872」(以下、被写体Aという)及び文字認識の対象となる物品22に貼られているラベルの文字列「103371」(以下、被写体Bという)が写る。上記Act101で説明したように、処理部111は、第1の撮影部13が取得した第1の画像のデータ及び第2の画像のデータを第1のインターフェース115を介して取り込む。
Act102で説明したように、処理部111は、図4で示した第1の画像に写る被写体Aに対応する文字列a1及び被写体Bに対応する文字列b1を抽出する。処理部111は、第2の画像に写る被写体Aに対応する文字列a2及び被写体Bに対応する文字列b2を抽出する。Act103で説明したように、処理部111は、文字列a1及び文字列b1を構成する各文字を1文字単位で切り出す。同様に、処理部111は、文字列a2及び文字列b2を構成する各文字を1文字単位で切り出す。
図5は、第1の実施形態に係る一例となる複数の類似度マップを示す図である。類似度マップは、上述の第1の類似度群及び第2の類似度群に相当する。図5の左上図は、文字列a1に関する類似度マップである。図5の左下図は、文字列b1に関する類似度マップである。図5の右上図は、文字列a2に関する類似度マップである。図5の右下図は、文字列b2に関する類似度マップである。Act104で説明したように、処理部111は、文字列a1を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、文字列a1を構成する各文字と候補文字群中の各候補文字との類似度で構成される類似度マップを算出する。同様に、処理部111は、文字列b1に関する類似度マップ、文字列a2に関する類似度マップ及び文字列b2に関する類似度マップを算出する。類似度マップの横軸は、文字列の桁を示す。なお、文字列a1、文字列b1、文字列a2及び文字列b2の何れも6桁である。縦軸は、候補文字を示す。候補文字は、0〜9の10個である。そのため、各類似度マップは、60個の類似度で構成されている。
図5に示す各類似度マップは、上述したように各桁において候補文字同士の依存関係がないように各類似度が算出された例である。図5の類似度は、1.0に近いほど候補文字に似ていることを示し、0.0に近いほど候補文字に似ていないことを示す。
図5の各類似度マップの下には、認識結果が示されている。認識結果は、桁毎の類似度の最大値に対応する候補文字を並べた集合である。Act105及びAct106で説明したように、処理部111は、文字列a1に関する類似度マップを文字列a2に関する類似度マップ及び文字列b2に関する類似度マップと比較することにより、文字列a2または文字列b2の何れが文字列a1と同一の被写体Aに対応するのかを判定することができる。ここでは、一例として上述の類似度同士の差の絶対値を用いた手法を説明する。処理部111は、文字列a1に関する類似度マップに含まれる類似度と文字列a2に関する類似度マップに含まれる類似度との差の絶対値を対応する項目毎に算出し、全ての絶対値を合算した第1の合算値を算出する。第1の合算値は、|0.9-0.8|+|0.8-0.9|+|0.5-0.4|+|0.0-0.0|+ …+|0.0-0.0|=1.8となる。同様に、処理部111は、文字列a1に関する類似度マップに含まれる類似度と文字列b2に関する類似度マップに含まれる類似度との差の絶対値を対応する項目毎に算出し、全ての絶対値を合算した第2の合算値を算出する。第2の合算値は、|0.9-0.0|+|0.8-0.7|+|0.5-0.0|+|0.0-0.0|+ …+|0.0-0.0|=7.6となる。第1の合算値は、前記第2の合算値よりも小さい。そのため、処理部111は、文字列a2が文字列a1と同一の被写体Aに対応すると判定する。つまり、処理部111は、文字列b2よりも文字列a2の方が文字列a1に類似している、または一致していると判定する。
同様に、処理部111は、文字列b1に関する類似度マップを文字列a2に関する類似度マップ及び文字列b2に関する類似度マップと比較することにより、文字列b2が文字列b1と同一の被写体Bに対応するのかを判定することができる。
なお、Act101において、画像処理装置10は、3以上の画像を取り込んでもよい。この場合、画像処理装置10は、3以上の画像から同一の被写体に対応する文字列を判定する。画像処理装置10は、同一の被写体に対応すると判定された複数の文字列をOCR処理し文字列を認識し、最も出現頻度の高い認識結果に基づいてこの被写体の文字列を決定することができる。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
なお、Act107において、処理部111は、同一被写体に対応すると判定された全ての画像を超解像処理で画質を上げ、その画像をOCR処理し、この被写体の文字列を決定するようにしてもよい。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
なお、Act107において、処理部111は、第1の画像と前記第2の画像との間の移動量に基づいて第2の画像において第1の被写体が写る位置を予測し、第2の文字列がこの位置から所定距離以上離れている場合、第2の文字列が第1の被写体に対応しないと判断してもよい。同様に、第3の文字列がこの位置から所定距離以上離れている場合、処理部111は、第3の文字列が第1の被写体に対応しないと判断してもよい。第1の画像と第2の画像との間の移動量は、例えば、移動体12またはこれに搭載されている第1の撮影部13の移動量に基づいていてもよいし、第1の画像及び第2の画像に写る任意の目印の移動量に基づいていてもよい。また、第2の文字列の形状が第1の文字列の形状と大きく異なっている場合または第2の文字列が付された商品の形状が第1の文字列が付された商品の形状と大きく異なっている場合も、処理部111は、第2の文字列は第1の被写体に対応しないと判断してもよい。同様に、第3の文字列の形状が第1の文字列の形状と大きく異なっている場合または第3の文字列が付された商品の形状が第1の文字列が付された商品の形状と大きく異なっている場合も、処理部111は、第3の文字列は第1の被写体に対応しないと判断してもよい。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
動作を実行する主体は例えば、ハードウェア、ハードウェアとソフトウェアとの複合体、ソフトウェア、及び実行中のソフトウェアなどといった、コンピュータに係る主体である。動作を実行する主体は例えば、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、スレッド、プログラムおよびコンピュータであるがこれらに限るものではない。例えば、画像処理装置やそこで実行されるアプリケーションが動作を実行する主体であってもよい。プロセスやスレッドに、動作を実行する主体を複数演じさせてもよい。動作を実行する主体が1つの画像処理装置内にあってもよいし、複数の画像処理装置へ分配されたかたちであってもよい。
装置内部に以上説明した機能が予め記録されていてもよいし、同様の機能をネットワークから装置にダウンロードしてもよいし、同様の機能を記録媒体に記憶させたものを装置にインストールしてもよい。記録媒体としては、ディスクROMやメモリカード等プログラムを記憶でき、かつ装置が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のOS(オペレーティング・システム)等と協働してその機能を実現させるものであってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…画像処理装置、11…計算機、12…移動体、13…第1の撮影部、20…棚、21…物品、22…物品、111…処理部、112…記憶部、113…入力部、114…表示部、115…第1のインターフェース、1111…取り込み部、1112…抽出部、1113…切り出し部、1114…計算部、1115…判定部、1115a…推定部、1115b…決定部、1116…認識部。

Claims (5)

  1. 第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列及び第3の文字列を抽出する抽出部と、
    前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出し、前記第3の文字列を構成する各文字を1文字単位で切り出す切り出し部と、
    前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出し、前記第3の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第3の類似度群を算出する計算部と、
    前記第1の類似度群を前記第2の類似度群及び前記第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の第1の被写体に対応するのかを判定する判定部と、
    を備える画像処理装置。
  2. 前記判定部は、前記第1の文字列及び前記第2の文字列において互いに対応する桁毎かつ前記候補文字群中の候補文字毎に前記第1の類似度群に含まれる類似度と前記第2の類似度群に含まれる類似度との差の第1の絶対値群を算出し、前記第1の絶対値群中の全ての絶対値を合算した第1の合算値を算出し、前記第1の文字列及び前記第3の文字列において互いに対応する桁毎かつ前記候補文字群中の候補文字毎に前記第1の類似度群に含まれる類似度と前記第3の類似度群に含まれる類似度との差の第2の絶対値群を算出し、前記第2の絶対値群中の全ての絶対値を合算した第2の合算値を算出し、前記第1の合算値が前記第2の合算値よりも小さい場合、前記第2の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定し、前記第2の合算値が前記第1の合算値よりも小さい場合、前記第3の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定する、請求項1記載の画像処理装置。
  3. 前記判定部は、前記第1の類似度群のヒストグラムと前記第2の類似度群とのヒストグラムの類似度を算出し、前記第1の類似度群のヒストグラムと前記第3の類似度群のヒストグラムとの類似度を算出し、前記第1の類似度群のヒストグラムが前記第3の類似度群のヒストグラムよりも前記第2の類似度群のヒストグラムに類似している場合、前記第2の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定し、前記第1の類似度群のヒストグラムが前記第2の類似度群のヒストグラムよりも前記第3の類似度群のヒストグラムに類似している場合、前記第3の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定する、請求項1記載の画像処理装置。
  4. 前記判定部は、前記第1の画像と前記第2の画像との間の移動量に基づいて前記第2の画像において前記第1の被写体が写る位置を予測し、前記第2の文字列が前記位置から所定距離以上離れている場合、前記第2の文字列が前記第1の被写体に対応しないと判断し、前記第3の文字列が前記位置から所定距離以上離れている場合、前記第3の文字列が前記第1の被写体に対応しないと判断する、請求項1記載の画像処理装置。
  5. 第1の画像に写る第1の文字列を抽出することと、
    第2の画像に写る第2の文字列及び第3の文字列を抽出することと、
    前記第1の文字列を構成する各文字を1文字単位で切り出すことと、
    前記第2の文字列を構成する各文字を1文字単位で切り出すことと、
    前記第3の文字列を構成する各文字を1文字単位で切り出すことと、
    前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出することと、
    前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出することと、
    前記第3の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第3の類似度群を算出することと、
    前記第1の類似度群を前記第2の類似度群及び前記第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の第1の被写体に対応するのかを判定すること、
    を備える画像処理方法。
JP2015234422A 2015-04-08 2015-12-01 画像処理装置及び画像処理方法 Active JP6619634B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/681,899 US9600731B2 (en) 2015-04-08 2015-04-08 Image processing apparatus, image processing method and computer-readable storage medium
US14/681,899 2015-04-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019206963A Division JP6843213B2 (ja) 2015-04-08 2019-11-15 画像処理装置及び画像処理方法

Publications (2)

Publication Number Publication Date
JP2016201093A JP2016201093A (ja) 2016-12-01
JP6619634B2 true JP6619634B2 (ja) 2019-12-11

Family

ID=54843676

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015234422A Active JP6619634B2 (ja) 2015-04-08 2015-12-01 画像処理装置及び画像処理方法
JP2019206963A Active JP6843213B2 (ja) 2015-04-08 2019-11-15 画像処理装置及び画像処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019206963A Active JP6843213B2 (ja) 2015-04-08 2019-11-15 画像処理装置及び画像処理方法

Country Status (4)

Country Link
US (1) US9600731B2 (ja)
EP (1) EP3079101B1 (ja)
JP (2) JP6619634B2 (ja)
CN (1) CN106056111B (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187988A (ja) 2016-04-07 2017-10-12 東芝テック株式会社 コード認識装置
CN106127222B (zh) * 2016-06-13 2019-06-04 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
US11042161B2 (en) 2016-11-16 2021-06-22 Symbol Technologies, Llc Navigation control method and apparatus in a mobile automation system
US10949798B2 (en) 2017-05-01 2021-03-16 Symbol Technologies, Llc Multimodal localization and mapping for a mobile automation apparatus
US10591918B2 (en) 2017-05-01 2020-03-17 Symbol Technologies, Llc Fixed segmented lattice planning for a mobile automation apparatus
US10726273B2 (en) 2017-05-01 2020-07-28 Symbol Technologies, Llc Method and apparatus for shelf feature and object placement detection from shelf images
US10663590B2 (en) 2017-05-01 2020-05-26 Symbol Technologies, Llc Device and method for merging lidar data
US11449059B2 (en) 2017-05-01 2022-09-20 Symbol Technologies, Llc Obstacle detection for a mobile automation apparatus
US11093896B2 (en) 2017-05-01 2021-08-17 Symbol Technologies, Llc Product status detection system
DE112018002314T5 (de) 2017-05-01 2020-01-23 Symbol Technologies, Llc Verfahren und vorrichtung zur erkennung eines objektstatus
US11367092B2 (en) 2017-05-01 2022-06-21 Symbol Technologies, Llc Method and apparatus for extracting and processing price text from an image set
WO2018201423A1 (en) 2017-05-05 2018-11-08 Symbol Technologies, Llc Method and apparatus for detecting and interpreting price label text
US10572763B2 (en) 2017-09-07 2020-02-25 Symbol Technologies, Llc Method and apparatus for support surface edge detection
US10521914B2 (en) * 2017-09-07 2019-12-31 Symbol Technologies, Llc Multi-sensor object recognition system and method
US11327504B2 (en) 2018-04-05 2022-05-10 Symbol Technologies, Llc Method, system and apparatus for mobile automation apparatus localization
US10832436B2 (en) 2018-04-05 2020-11-10 Symbol Technologies, Llc Method, system and apparatus for recovering label positions
US10809078B2 (en) 2018-04-05 2020-10-20 Symbol Technologies, Llc Method, system and apparatus for dynamic path generation
US10740911B2 (en) 2018-04-05 2020-08-11 Symbol Technologies, Llc Method, system and apparatus for correcting translucency artifacts in data representing a support structure
US10823572B2 (en) 2018-04-05 2020-11-03 Symbol Technologies, Llc Method, system and apparatus for generating navigational data
JP7062507B2 (ja) * 2018-05-08 2022-05-16 東芝テック株式会社 物品認識装置
JP2020027501A (ja) * 2018-08-14 2020-02-20 東芝テック株式会社 画像処理装置及び画像処理方法
US11010920B2 (en) 2018-10-05 2021-05-18 Zebra Technologies Corporation Method, system and apparatus for object detection in point clouds
US11506483B2 (en) 2018-10-05 2022-11-22 Zebra Technologies Corporation Method, system and apparatus for support structure depth determination
US11090811B2 (en) 2018-11-13 2021-08-17 Zebra Technologies Corporation Method and apparatus for labeling of support structures
US11003188B2 (en) 2018-11-13 2021-05-11 Zebra Technologies Corporation Method, system and apparatus for obstacle handling in navigational path generation
US11416000B2 (en) 2018-12-07 2022-08-16 Zebra Technologies Corporation Method and apparatus for navigational ray tracing
US11079240B2 (en) 2018-12-07 2021-08-03 Zebra Technologies Corporation Method, system and apparatus for adaptive particle filter localization
US11100303B2 (en) 2018-12-10 2021-08-24 Zebra Technologies Corporation Method, system and apparatus for auxiliary label detection and association
US11015938B2 (en) 2018-12-12 2021-05-25 Zebra Technologies Corporation Method, system and apparatus for navigational assistance
US10731970B2 (en) 2018-12-13 2020-08-04 Zebra Technologies Corporation Method, system and apparatus for support structure detection
CA3028708A1 (en) 2018-12-28 2020-06-28 Zih Corp. Method, system and apparatus for dynamic loop closure in mapping trajectories
US11960286B2 (en) 2019-06-03 2024-04-16 Zebra Technologies Corporation Method, system and apparatus for dynamic task sequencing
US11402846B2 (en) 2019-06-03 2022-08-02 Zebra Technologies Corporation Method, system and apparatus for mitigating data capture light leakage
US11341663B2 (en) 2019-06-03 2022-05-24 Zebra Technologies Corporation Method, system and apparatus for detecting support structure obstructions
US11080566B2 (en) 2019-06-03 2021-08-03 Zebra Technologies Corporation Method, system and apparatus for gap detection in support structures with peg regions
US11200677B2 (en) 2019-06-03 2021-12-14 Zebra Technologies Corporation Method, system and apparatus for shelf edge detection
US11662739B2 (en) 2019-06-03 2023-05-30 Zebra Technologies Corporation Method, system and apparatus for adaptive ceiling-based localization
US11151743B2 (en) 2019-06-03 2021-10-19 Zebra Technologies Corporation Method, system and apparatus for end of aisle detection
US11507103B2 (en) 2019-12-04 2022-11-22 Zebra Technologies Corporation Method, system and apparatus for localization-based historical obstacle handling
US11107238B2 (en) 2019-12-13 2021-08-31 Zebra Technologies Corporation Method, system and apparatus for detecting item facings
US11822333B2 (en) 2020-03-30 2023-11-21 Zebra Technologies Corporation Method, system and apparatus for data capture illumination control
US11450024B2 (en) 2020-07-17 2022-09-20 Zebra Technologies Corporation Mixed depth object detection
US11593915B2 (en) 2020-10-21 2023-02-28 Zebra Technologies Corporation Parallax-tolerant panoramic image generation
US11392891B2 (en) 2020-11-03 2022-07-19 Zebra Technologies Corporation Item placement detection and optimization in material handling systems
US11847832B2 (en) 2020-11-11 2023-12-19 Zebra Technologies Corporation Object classification for autonomous navigation systems
US11954882B2 (en) 2021-06-17 2024-04-09 Zebra Technologies Corporation Feature-based georegistration for mobile computing devices

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0363895A (ja) * 1989-08-02 1991-03-19 Mitsubishi Electric Corp 文字認識方式
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JP3632287B2 (ja) * 1996-04-19 2005-03-23 三菱電機株式会社 車両番号読み取り装置
IL162921A0 (en) * 2004-07-08 2005-11-20 Hi Tech Solutions Ltd Character recognition system and method
JP4834351B2 (ja) * 2005-08-22 2011-12-14 株式会社東芝 文字認識装置及び文字認識方法
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4727732B2 (ja) * 2007-02-15 2011-07-20 三菱重工業株式会社 車両番号認識装置
WO2009150783A1 (ja) * 2008-06-11 2009-12-17 パナソニック株式会社 パターン認識装置、パターン認識方法、画像処理装置及び画像処理方法
JP4987943B2 (ja) * 2009-11-11 2012-08-01 株式会社東芝 電子機器及び画像表示方法
JP5488077B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
CN101976253B (zh) * 2010-10-27 2013-03-06 重庆邮电大学 一种中文变异文本匹配识别方法
JP5825172B2 (ja) 2012-03-28 2015-12-02 富士通株式会社 画像判定装置、画像判定方法及び画像判定用コンピュータプログラム
JP6061502B2 (ja) * 2012-06-04 2017-01-18 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5869989B2 (ja) * 2012-08-24 2016-02-24 富士フイルム株式会社 物品照合装置および方法並びにプログラム
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
JP6286866B2 (ja) * 2013-05-20 2018-03-07 オムロン株式会社 画像処理装置および画像処理方法
JP6146209B2 (ja) * 2013-08-28 2017-06-14 富士通株式会社 情報処理装置、文字認識方法、及びプログラム

Also Published As

Publication number Publication date
JP6843213B2 (ja) 2021-03-17
JP2020030857A (ja) 2020-02-27
CN106056111A (zh) 2016-10-26
US20160300115A1 (en) 2016-10-13
EP3079101A1 (en) 2016-10-12
CN106056111B (zh) 2019-06-18
EP3079101B1 (en) 2019-01-30
US9600731B2 (en) 2017-03-21
JP2016201093A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
JP6619634B2 (ja) 画像処理装置及び画像処理方法
JP6952094B2 (ja) 画像処理装置及び画像処理方法
JP6143111B2 (ja) 物体識別装置、物体識別方法、及びプログラム
EP3229169B1 (en) Code recognition device
JP6693059B2 (ja) 商品棚認識装置、商品棚認識方法、プログラム及び画像処理装置
US8798357B2 (en) Image-based localization
CN108268823B (zh) 目标再识别方法和装置
JP6278276B2 (ja) 物体識別装置、物体識別方法、及びプログラム
US20190179850A1 (en) Generating congruous metadata for multimedia
JP6831951B2 (ja) 画像認識システム
JP6729553B2 (ja) システム、画像認識方法、および、プログラム
JP2015111339A (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
JP2019045909A (ja) 画像認識システム
CN112036362A (zh) 图像处理方法、装置、计算机设备和可读存储介质
JP6579456B1 (ja) 検索対象情報絞込システム
CN111008210B (zh) 商品识别方法、装置、编解码器及存储装置
JP2019016128A (ja) 画像類否判断プログラム、画像類否判断装置および画像類否判断方法
KR20220086336A (ko) Ocr을 이용한 실내 위치추정 방법 및 장치
US20230377188A1 (en) Group specification apparatus, group specification method, and computer-readable recording medium
JP6941331B2 (ja) 画像認識システム
JP6468642B2 (ja) 情報端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191115

R150 Certificate of patent or registration of utility model

Ref document number: 6619634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150