JP2020027501A - 画像処理装置及び画像処理方法 - Google Patents

画像処理装置及び画像処理方法 Download PDF

Info

Publication number
JP2020027501A
JP2020027501A JP2018152686A JP2018152686A JP2020027501A JP 2020027501 A JP2020027501 A JP 2020027501A JP 2018152686 A JP2018152686 A JP 2018152686A JP 2018152686 A JP2018152686 A JP 2018152686A JP 2020027501 A JP2020027501 A JP 2020027501A
Authority
JP
Japan
Prior art keywords
image
recognition
region
recognition result
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018152686A
Other languages
English (en)
Inventor
景太 山崎
Keita Yamazaki
景太 山崎
真明 安永
Masaaki Yasunaga
真明 安永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2018152686A priority Critical patent/JP2020027501A/ja
Priority to US16/529,141 priority patent/US20200058134A1/en
Priority to EP19189740.4A priority patent/EP3611662A1/en
Publication of JP2020027501A publication Critical patent/JP2020027501A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/54Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】従来よりも画像認識の精度を向上させる。
【解決手段】実施形態の画像処理装置は、取得部、第1の推定部、検出部、決定部及び第2の推定部を含む。取得部は、認識対象に対応する第1の領域を含む第1の画像と、認識対象に対応する第2の領域を含む第2の画像とを取得する。第1の推定部は、第1の領域内の認識対象の第1の画像認識結果と、第2の領域内の認識対象の第2の画像認識結果とを推定する。検出部は、第1の領域内の画像認識を阻害する第3の領域と、第2の領域内の画像認識を阻害する第4の領域とを検出する。決定部は、第3の領域の大きさに基づき、第1の画像認識結果の第1の尤度を決定し、第4の領域の大きさに基づき、第2の画像認識結果の第2の尤度を決定する。第2の推定部は、第1の画像認識結果及び第1の尤度並びに第2の画像認識結果及び第2の尤度に基づき、認識対象の最終的な画像認識結果を推定する。
【選択図】図1

Description

本発明の実施形態は、画像処理装置及び画像処理方法に関する。
画像中の文字列又は物品を認識する方法として、まず画像中の文字列又は物品の領域を抽出した後に、抽出した領域に対しても文字の種類又は物品の種類を認識する方法がある。また、複数回撮影した画像を用いて認識精度を向上する方法が提案されている。しかしながら、このような方法を用いても、画像中に白飛び又は黒潰れなどの画像認識を阻害する要因がある場合には、誤認識が発生する場合がある。
特開2016−201093号公報
本発明の実施形態が解決しようとする課題は、従来よりも画像認識の精度を向上させる画像処理装置及び画像処理方法を提供することである。
実施形態の画像処理装置は、取得部、第1の推定部、検出部、決定部及び第2の推定部を含む。取得部は、認識対象に対応する第1の領域を含む第1の画像と、前記認識対象に対応する第2の領域を含む第2の画像とを取得する。第1の推定部は、前記第1の領域内の前記認識対象の第1の画像認識結果と、前記第2の領域内の前記認識対象の第2の画像認識結果とを推定する。検出部は、前記第1の領域内の画像認識を阻害する第3の領域と、前記第2の領域内の画像認識を阻害する第4の領域とを検出する。決定部は、前記第3の領域の大きさに基づき、前記第1の画像認識結果の第1の尤度を決定し、前記第4の領域の大きさに基づき、前記第2の画像認識結果の第2の尤度を決定する。第2の推定部は、前記第1の画像認識結果及び前記第1の尤度並びに前記第2の画像認識結果及び前記第2の尤度に基づき、前記認識対象の最終的な画像認識結果を推定する。
実施形態に係る画像処理装置の概要を説明するための図。 実施形態に係る画像処理装置の要部回路構成の一例を示すブロック図。 図2中のプロセッサーによる処理のフローチャート。 実施形態に係る画像処理装置による画像認識について説明するための図。 実施形態に係る画像処理装置による画像認識について説明するための図。
以下、実施形態に係る画像処理装置について図面を用いて説明する。なお、以下の実施形態の説明に用いる各図面は、各部の縮尺を適宜変更している場合がある。また、以下の実施形態の説明に用いる各図面は、説明のため、構成を省略して示している場合がある。
まず、図1を用いて画像処理装置10について説明する。図1は、実施形態に係る画像処理装置10の概要を説明するための図である。
画像処理装置10は、例えば、倉庫又は店舗などの棚20などに載せられた物品21の在庫管理及び所在地管理などに用いられる。画像処理装置10は、画像認識を用いて物品21の種類などを特定する。また、画像処理装置10は、値札又は棚札などの表示22などに書かれた文字列を画像認識によって特定する。なお、図1では1つの棚20、1つの物品21及び1つの表示22を示しているが、棚20、物品21及び表示22の数は限定しない。画像処理装置10は、一例として、コンピューター11、移動体12及びカメラ13を含む。
コンピューター11は、画像処理装置10の動作に必要な各種の演算及び制御などの処理を行う。コンピューター12は、移動体12に固定される。
移動体12は、コンピューター11及びカメラ13を載せて移動可能な車両などである。なお、図1中に示す矢印は、進行方向の一例を示す。進行方向は、一例として、棚の前面に凡そ平行な方向である。
カメラ13は、物品21又は文字列などの対象を撮影する。なお、カメラ13は、対象を静止画像として撮影するものであっても、動画として撮影するものであっても良い。カメラ13は、移動体12に設けられる。
次に図2を用いて画像処理装置10について説明する。図2は、実施形態に係る画像処理装置10の要部回路構成の一例を示すブロック図である。
コンピューター11は、一例として、CPU(central processing unit)111、ROM(read-only memory)112、RAM(random-access memory)113、補助記憶デバイス114、入力デバイス115、表示デバイス116、カメラインターフェース117、移動インターフェース118及び通信インターフェース119を含む。そして、これら各部がバス1110などによって接続される。
プロセッサー111は、コンピューター11の動作に必要な演算及び制御などの処理を行うコンピューターの中枢部分に相当する。プロセッサー111は、ROM112又は補助記憶デバイス114などに記憶されたシステムソフトウェア、アプリケーションソフトウェア又はファームウェアなどのプログラムに基づいて、コンピューター11の各種の機能を実現するべく各部を制御する。なお、当該プログラムの一部又は全部は、プロセッサー111の回路内に組み込まれていても良い。プロセッサー111は、例えば、CPU、MPU(micro processing unit)、SoC(system on a chip)、DSP(digital signal processor)、GPU(graphics processing unit)、ASIC(application specific integrated circuit)、PLD(programmable logic device)又はFPGA(field-programmable gate array)などである。あるいは、プロセッサー111は、これらのうちの複数を組み合わせたものである。
ROM112は、プロセッサー111を中枢とするコンピューターの主記憶装置に相当する。ROM112は、専らデータの読み出しに用いられる不揮発性メモリである。ROM112は、上記のプログラムを記憶する。また、ROM112は、プロセッサー111が各種の処理を行う上で使用するデータ又は各種の設定値などを記憶する。
RAM113は、プロセッサー111を中枢とするコンピューターの主記憶装置に相当する。RAM113は、データの読み書きに用いられるメモリである。RAM113は、プロセッサー111が各種の処理を行う上で一時的に使用するデータを記憶しておく、いわゆるワークエリアなどとして利用される。
補助記憶デバイス114は、プロセッサー111を中枢とするコンピューターの補助記憶装置に相当する。補助記憶デバイス114は、例えばEEPROM(electric erasable programmable read-only memory)、HDD(hard disk drive)、SSD(solid state drive)又はeMMC(embedded MultiMediaCard)などである。補助記憶デバイス114は、上記のプログラムを記憶する場合もある。また、補助記憶デバイス114は、プロセッサー111が各種の処理を行う上で使用するデータ、プロセッサー111での処理によって生成されたデータ又は各種の設定値などを保存する。
また、補助記憶デバイス114は、領域検出用情報及び認識辞書を記憶する。領域検出用情報は、後述の認識対象領域の検出のために用いられるデータである。認識辞書は、画像認識に用いられる辞書データである。
ROM112又は補助記憶デバイス114に記憶されるプログラムは、後述する処理を実行するためのプログラムを含む。一例として、コンピューター11は、当該プログラムがROM112又は補助記憶デバイス114に記憶された状態でコンピューター11の管理者などへと譲渡される。しかしながら、コンピューター11は、当該プログラムがROM112又は補助記憶デバイス114に記憶されない状態で当該管理者などに譲渡されても良い。また、コンピューター11は、当該プログラムとは別のプログラムがROM112又は補助記憶デバイス114に記憶された状態で当該管理者などに譲渡されても良い。そして、後述する処理を実行するためのプログラムが別途に当該管理者などへと譲渡され、当該管理者又はサービスマンなどによる操作の下にROM112又は補助記憶デバイス114へと書き込まれても良い。このときのプログラムの譲渡は、例えば、磁気ディスク、光磁気ディスク、光ディスク又は半導体メモリなどのようなリムーバブルな記憶媒体に記録して、あるいはネットワークNWなどを介したダウンロードにより実現できる。
入力デバイス115は、画像処理装置10の操作者による操作を受け付ける。入力デバイス115は、例えば、キーボード、キーパッド、タッチパッド又はボタンなどである。
表示デバイス116は、画像処理装置10の操作者に各種情報を通知するための画面を表示する。表示デバイス116は、例えば、液晶ディスプレイ又は有機EL(electro-luminescence)ディスプレイなどのディスプレイである。また、入力デバイス115及び表示デバイス116としては、タッチパネルを用いることもできる。すなわち、タッチパネルが備える表示パネルを表示デバイス116として用いることができる。そして、タッチパネルが備える、タッチ入力によるポインティングデバイスを、入力デバイス115として用いることができる。
カメラインターフェース117は、カメラ13とコンピューター11とを通信可能に接続するためのインターフェースである。
移動インターフェース118は、移動体12とコンピューター11とを通信可能に接続するためのインターフェースである。
通信インターフェース119は、画像処理装置10がLAN(local area network)又はインターネットなどのネットワークなどを介して通信するためのインターフェースである。
バス1110は、コントロールバス、アドレスバス及びデータバスなどを含み、コンピューター11の各部で授受される信号を伝送する。
移動体12は、一例として、走行装置121、動力発生装置122、移動制御回路123及びセンサー124を備える。
走行装置121は、車輪及びステアリングなどを備える。走行装置121は、動力発生装置122の力によって動作し、移動体12を走行させる。
動力発生装置122は、動力を発生させる。動力発生装置122は、モーター又はエンジンなどである。
移動制御回路123は、走行装置121及び動力発生装置122を制御して移動体12の移動を制御する。
なお、移動体12の移動方法は走行装置121によるものに限らない。また、移動体12は、地上を移動するものに限らない。移動体12は、例えば、空中、水上又は水中などを移動するものであっても良い。
センサー124は、移動体12の移動量及び回転角などを計測可能なセンサーなどである。センサー124は、例えば、走行装置121の回転角を計測するセンサー、ジャイロセンサー、加速度センサー又はこれら複数を組み合わせたセンサーなどである。あるいは、センサーは、GPS(Global Positioning System)などのGNSS(global navigation satellite system)、IMES(Indoor MEssaging System)、Wi−fiなどのアクセスポイントを用いた測位システム、BLE(bluetooth(登録商標) low energy)などのビーコンを用いた測位システム、地磁気を用いた測位システム、DR(dead reckoning)又はこれらを複数組み合わせた測位システムなどを用いて位置情報を推定するためのセンサー又は装置である。
また、画像処理装置10は、必要に応じて距離センサーを備えていても良い。
以下、実施形態に係る小僧処理装置10の動作を図3などに基づいて説明する。なお、以下の動作説明における処理の内容は一例であって、同様な結果を得ることが可能な様々な処理を適宜に利用できる。図3は、コンピューター11のプロセッサー111による処理のフローチャートである。プロセッサー111は、例えば、ROM112又は補助記憶デバイス114などに記憶されたプログラムに基づいてこの処理を実行する。なお、プロセッサー111がActN(Nは、自然数。)の処理の後にAct(N+1)へと進む場合、このことを説明する記載を省略する場合がある。
まずは、文字列を画像認識する場合について説明する。文字に対する画像認識は、OCR(optical character recognition)などとも呼ばれる。
Act11においてプロセッサー111は、変数iを、RAM113などに割り当てる。また、プロセッサー111は、変数iの値を1にする。
Act12においてプロセッサー111は、i枚目の画像IMを撮影するようにカメラ13に指示する。この指示に応じてカメラ13は、対象を撮影する。そして、カメラ13は、撮影した画像IMを出力する。出力された画像IMは、カメラインターフェース117を介してコンピューター11に入力される。なお、プロセッサー111は、図3に示す処理を実行している間、移動体12を制御して、移動体12を走行させる。画像IMの例を図4に示す。図4は、実施形態に係る画像処理装置10による画像認識について説明するための図である。図4には、1枚目の画像IM−1、2枚目の画像IM−2、及び3枚目の画像IM−3の3枚の画像IMを示している。移動体12が走行していることから、画像IM−1〜画像IM−3は、物品21及び表示22を別々のアングルで撮影した画像となっている。なお、Act12で撮影されたi枚目の画像を、以下「画像IM−i」と称するものとする。
Act13においてプロセッサー111は、画像IM−iについて、認識対象領域AR1を画定する。認識対象領域AR1は、認識対象を含む領域である。認識対象が文字列である場合、認識対象領域AR1は、当該文字列が写っている部分を含む領域である。プロセッサー111は、認識対象領域AR1を、例えば、長方形の領域として画定する。好ましくは、プロセッサー111は、認識対象領域AR1を、認識対象を包含する最小の長方形として画定する。図4には、認識対象領域AR1として、画像IM−1についての認識対象領域AR1−1、画像IM−2についての認識対象領域AR1−2、及び画像IM−3についての認識対象領域AR1−3を示している。図4では、いずれの認識対象領域AR1も、文字列「128」を含んでいる。プロセッサー111は、例えば、以下の(a1)又は(a2)のような方法を用いて認識対象領域AR1を画定する。ただし、プロセッサー111は、他の方法を用いても良い。
(a1)領域検出用情報を用いて、テンプレートマッチングのような画像処理技術によって認識対象領域AR1を特定する。
(a2)距離情報などを用いて、大きく距離の変わる部分から認識対象領域を特定する。
なお、プロセッサー11は、iが2以上である場合、i枚目の画像IMについての認識対象領域AR1と(i−1)枚目の画像IMについての認識対象領域AR1とを同一の認識対象を含む領域として画定する。このために、例えば、プロセッサー111は、以下の(b1)又は(b2)のような方法を用いる。ただし、プロセッサー111は、他の方法を用いても良い。
(b1)プロセッサー111は、RANSAC(random sample consensus)などのロバストな手法を用いたホモグラフィ推定によって、(i−1)枚目の画像IMとi枚目の画像IMとについて、同一のものを映した部分を推定する。
(b2)プロセッサー111は、センサー124から、(i−1)枚目の画像IMが撮影されて時点からi枚目の画像IMが撮影された時点までの移動体12の移動量を取得する。これにより、(i−1)枚目の画像IMの認識対象領域AR1が、i枚目の画像IMではどこまで移動するか移動量を求める。これにより、プロセッサー111は、i枚目の画像IMについての認識対象領域AR1を、(i−1)枚目の画像IMについての認識対象領域AR1と同一の認識対象を含む領域として画定する。
なお、プロセッサー111は、センサー124から、(i−1)枚目の画像IMが撮影されて時点からi枚目の画像IMが撮影された時点までの移動体12の移動量を取得することで、第1の画像が撮影された地点から第2の画像が撮影された地点までの距離を取得する距離取得部として機能する。
また、プロセッサー111は、Act13の処理を複数回行うことで、認識対象領域を画定する画定部として機能する。
Act14においてプロセッサー111は、画像IM−iについて、認識阻害領域AR2を画定する。認識阻害領域AR2は、画像IM中において、画像認識を阻害する部分である。画像内に認識阻害領域AR2が生じる要因としては、例えば、白飛び、黒潰れ、ゴースト、フレア、ハレーション、レンズの傷・汚れ、カメラ内部のゴミ、イメージセンサーの画素欠け、カメラの故障、及びカメラと認識対象の間の障害物の存在などを挙げることができる。図4には、認識阻害領域AR2として、画像IM−2についての認識阻害領域AR2−2、及び画像IM−3についての認識阻害領域AR2−3を示している。なお、画像IM−1については認識阻害領域AR2が生じていない。プロセッサー111は、例えば、以下の(c1)又は(c2)のような方法を用いて認識阻害領域AR2を画定する。ただし、プロセッサー111は、他の方法を用いても良い。
(c1)プロセッサー111は、画像IM−i中のRGB(red, green, and blue)=(0,0,0)又はRGB=(255,255,255)である部分について、白飛び又は黒潰れしているとみなし、認識阻害領域AR2であるとみなす。なお、RGB=(0,0,0)は最も濃度の高い色(黒色)を示し、RGB=(255,255,255)は最も濃度の低い色(白色)を示す。ただし、これは画像IM−iが8bit画像である場合であって、bit数が異なれば異なる数値となる。また、画像IM−i中の色を示す色空間としてRGB以外が用いられる場合にも、白色及び黒色を示す数値の組み合わせは異なるものとなる。
(c2)プロセッサー111は、画像IM−iについて、ヒストグラムの分布が他の部分と異なる特徴を示す部分を認識阻害領域AR2とみなす。
Act15においてプロセッサー111は、画像IM−iについて、Act13で画定された認識対象領域内にある認識対象を読み取る。なお、ここで読み取られた結果を「認識結果」と称するものとする。図4に示すAct15−1は画像IM−1に対するAct15の処理を、Act15−2は画像IM−2に対するAct15の処理を、Act15−3は画像IM−3に対するAct15の処理を示す。画像IM−1についての認識結果は、一例として「128」となる。また、画像IM−2中の認識対象は、認識阻害領域AR2−2によって右上が欠けてしまっている。これにより、画像IM−2についての認識結果は、一例として「126」のようになる。また、画像IM−3中の認識対象は、認識阻害領域AR2−3によって3文字目の左側が欠けてしまっている。これにより、画像IM−3についての認識結果は、一例として「123」のようになる。
Act16においてプロセッサー111は、画像IM−iについて、認識対象領域AR1に占める認識阻害領域AR2の割合pを求める。すなわち、プロセッサー111は、(認識対象領域AR1と認識阻害領域AR2が重なる部分の面積)÷(認識対象領域AR1の面積)により、割合pを求めることができる。
Act17においてプロセッサー111は、画像IM−iについて、Act15における認識結果の尤度Lを求める。尤度Lは、例えばL=(1−p)又はL=((1−p)×100)%の式で求められる。
Act18においてプロセッサー111は、変数iの値を1増加させる。
Act19においてプロセッサー111は、変数iの値がnよりも大きいか否かを判定する。ここで、nは、画像を撮影する枚数を示す値である。プロセッサー111は、変数iの値がnよりも大きくないならば、Act17においてNoと判定してAct11へと戻る。対して、プロセッサー111は、変数iの値がnよりも大きいならば、Act17においてYesと判定してAct18へと進む。かくして、プロセッサー111は、Act12〜Act17をn回繰り返す。これにより、画像処理装置10は、n枚の画像を撮影する。さらに、画像処理装置10は、当該n枚の画像それぞれに対してAct13〜Act17の処理を行う。
以上のように、プロセッサー111は、Act12の処理を複数回行うことで、複数の画像を取得する。したがって、プロセッサー111は、Act12の処理を複数回行うことで、カメラ13と協働して、第1の画像及び第2の画像を取得する取得部として機能する。例えば、画像IM−1から画像IM−nのうちのいずれか2つが第1の画像及び第2の画像である。なお、第1の画像の認識対象領域AR1は、第1の領域の一例である。また、第2の画像の認識対象領域AR1は、第2の領域の一例である。さらに、第1の画像の認識阻害領域AR2は、第3の領域の一例である。そして、第2の画像の認識阻害領域AR2は、第4の領域の一例である。したがって、プロセッサー111は、第1の画像及び第2の画像に対してAct14の処理を行うことで、第3の領域及び第4の領域を検出する検出部として機能する。なお、第3の領域及び第4の領域は、画像IM−1のように検出されない場合もある。また、プロセッサー111は、第1の画像及び第2の画像に対してAct17の処理を行うことで、第1の尤度及び第2の尤度を決定する決定部として機能する。
Act20においてプロセッサー111は、Act15で求めた複数の認識結果及びAct17で求めた複数の尤度に基づき、最終的な認識結果を決定する。例えば、プロセッサー111は、画像IM−1から画像IM−nのそれぞれの認識結果について、尤度を用いた重み付き多数決を行う。例えば、画像IM−kの認識結果がX、尤度が0.8である場合には、認識結果Xに0.8票が入ることになる。ただし、kは、自然数である。図4に示す例では、画像IM−1の認識結果が「128」で尤度が1(=100%)であることから、「128」に1票が入る。そして、画像IM−2の認識結果が「126」で尤度が0.9(=90%)であることから、「126」に0.9票が入る。さらに、画像IM−3の認識結果が「123」で尤度が0.7(=70%)であることから、「123」に0.7票が入る。以上より、「128」の得票数が1票で最も多くなる。プロセッサー111は、得票数が最も多い「128」を最終的な認識結果として決定する。プロセッサー111は、このように多数決を行い、得票数が最も多い認識結果を最終的な認識結果として決定する。
以上のように、プロセッサー111は、複数の画像の認識結果及び尤度に基づき画像認識結果を推定する。したがって、プロセッサー111は、Act20の処理を行うことで、第1の画像認識結果及び第1の尤度並びに第2の画像認識結果及び第2の尤度に基づき、認識対象の画像認識結果を推定する第2の推定部として機能する。
Act21においてプロセッサー111は、Act20で決定した認識結果を出力する。例えば、プロセッサー111は、当該認識結果を表示するように表示デバイス116を制御する。この制御に基づき、表示デバイス116は、当該認識結果を表示する。また例えば、プロセッサー111は、当該認識結果を送信するように通信インターフェース119を制御する。この制御に基づき、通信インターフェース11は、当該認識結果を送信する。プロセッサー111は、Act21の処理の後、図3のフローチャートに示す処理を終了する。
次に、物品の種類を画像認識によって特定する場合について図3及び図5を用いて説明する。図5は、実施形態に係る画像処理装置10による画像認識について説明するための図である。なお、以下の説明では、文字列に対する画像認識の場合と異なる処理について説明し、同一の部分については説明を省略する。また、物品の種類を画像認識によって特定する場合についての各処理については、区別のために、処理の番号の末尾にBを付す。例えば、物品の種類を画像認識によって特定する場合のAct13であれば、Act13Bのように示す。
Act13Bにおいてプロセッサー111は、画像IM−iについて、認識対象領域AR3を画定する。認識対象領域AR3は、認識対象を含む領域である。認識対象が物品である場合、認識対象領域AR3は、当該物品が写っている部分を含む領域である。図5には、認識対象領域AR3として、画像IM−1についての認識対象領域AR3−1、画像IM−2についての認識対象領域AR3−2、及び画像IM−3についての認識対象領域AR3−3を示している。図5では、いずれの認識対象領域AR2も、商品Aが写っている部分を含んでいる。プロセッサー111は、例えば、前述の(a1)又は(a2)のような方法などを用いて認識対象領域AR2を画定する。
Act14Bにおいてプロセッサー111は、画像IM−iについて、認識阻害領域AR4を画定する。図5には、認識阻害領域AR4として、画像IM−2についての認識阻害領域AR4−2、及び画像IM−3についての認識阻害領域AR4−3を示している。なお、画像IM−1については認識阻害領域AR4が生じていない。
Act15Bにおいてプロセッサー111は、画像認識によって物品の種類を読み取る。プロセッサー111は、例えば、認識対象領域AR3内の物品と認識辞書に含まれる物品の種類との類似度をそれぞれ求め、最も類似度が高い物品の種類を、認識結果とする。図5に示すように、画像IM−1についての認識結果は、一例として「物品X1」となる。また、画像IM−2についての認識結果は、一例として「物品X2」となる。そして、画像IM−3についての認識結果は、一例として「物品X3」となる。なお、物品X1、物品X2、…は、例えば、「りんご」、「キャベツ」又は「牛乳」のような物の一般名称であっても良いし、「ふじ」のような品種名又は商品名などであっても良い。その他、物品の種類を示すものであれば一般名称、品種名及び商品名以外であっても良い。
Act16Bにおいてプロセッサー111は、画像IM−iについて、認識対象領域AR3に占める認識阻害領域AR4の割合pを求める。すなわち、プロセッサー111は、(認識対象領域AR3と認識阻害領域AR4が重なる部分の面積)÷(認識対象領域AR3の面積)により、割合pを求めることができる。
Act20Bにおいてプロセッサー111は、Act15Bで求めた複数の認識結果及びAct17で求めた複数の尤度に基づき、最終的な認識結果を決定する。例えば、プロセッサー111は、画像IM−1から画像IM−nのそれぞれの認識結果について、尤度を用いた重み付き多数決を行う。図5に示す例では、画像IM−1の認識結果が「物品X1」で尤度が1(=100%)であることから、「物品X1」に1票が入る。そして、画像IM−2の認識結果が「物品X2」で尤度が0.8(=80%)であることから、「物品X2」に0.8票が入る。さらに、画像IM−3の認識結果が「物品X3」で尤度が0.9(=90%)であることから、「物品X3」に0.9票が入る。以上より、「物品X1」の得票数が1票で最も多くなる。プロセッサー111は、得票数が最も多い「物品X1」を最終的な認識結果として決定する。プロセッサー111は、このように多数決を行い、得票数が最も多い認識結果を最終的な認識結果として決定する。
あるいは、プロセッサー111は、Act15Bで求めた複数の認識結果及びAct17で求めた複数の尤度に加えて、Act15Bで求めた類似度も用いて最終的な認識結果を決定する。例えば、プロセッサー111は、尤度に類似度をかけたものを票数とする。例えば、尤度が0.9で類似度が0.8である場合には、0.72(=0.9×0.8)票となる。
実施形態の画像処理装置10は、上記のように、移動するカメラ13によって連続的に複数回撮影された画像を用いて、認識対象の種類などを特定するための画像認識を行う。このとき、画像内に認識阻害領域がある場合には、プロセッサー111は、認識阻害領域の面積の大きさが大きい画像ほど、認識結果の尤度を小さくする。そして、プロセッサー111は、当該尤度を用いて、複数の画像に対する認識結果を用いて、最終的な認識結果を決定する。これにより、実施形態の画像処理装置10は、複数の画像に対する認識結果の中から誤った認識結果を採用することを防ぐことができるので、誤認識の発生を防ぎ、画像認識の精度が向上する。また、実施形態の画像処理装置10は、画像内に認識阻害領域が無い場合にも、複数の画像を用いて画像認識をすることになるので、1枚の画像だけを用いる場合に比べて画像認識の精度が向上する。
また、実施形態の画像処理装置10は、移動体12の移動量を用いて、複数の画像の認識対象領域を、同一の認識対象を含む領域として画定する。これにより、実施形態の画像処理装置10は、認識対象領域を画定する精度が向上する。そして、認識対象領域を画定する精度が向上すれば、画像認識の精度も向上する。
また、実施形態の画像処理装置10は、尤度を重みとした重み付きの多数決によって最終的な画像認識結果を決定する。これにより、実施形態の画像処理装置10は、複数の画像に対する認識結果の中から誤った認識結果を採用することを防ぐことができるので、誤認識の発生を防ぎ、画像認識の精度が向上する。
上記の実施形態は以下のような変形も可能である。
文字認識は、文字列単位ではなく1文字単位でも良い。すなわち、プロセッサー111は、実施形態のように「128」を読み取る場合には、「1」、「2」及び「8」のそれぞれを認識対象とする。すなわち、プロセッサー111は、「1」、「2」及び「8」のそれぞれについて、上記の実施形態Act13〜Act21と同様の処理を行う。
上記の実施形態では、プロセッサー111は、多数決によって最終的な認識結果を決定した。しかしながら、プロセッサー111は、多数決以外の方法によって最終的な認識結果を決定しても良い。例えば、プロセッサー111は、尤度が最も高い認識結果を最終的な認識結果として決定する。ただし、プロセッサー111は、尤度が最も高い認識結果が複数ある場合には、例えば、多数決を行って最終的な認識結果を決定する。
尤度が最も高い認識結果を最終的な画像認識結果として決定することで、複数の画像に対する認識結果の中から誤った認識結果を採用することを防ぐことができるので、誤認識の発生を防ぎ、画像認識の精度が向上する。
上記の実施形態では、プロセッサー111は、同一の認識対象に対してn枚の画像を撮影するように制御した。しかしながら、プロセッサー111は、撮影する枚数を決めずに撮影の制御を行っても良い。例えば、プロセッサー111は、認識対象が画像IMのフレームから外れるまで撮影を繰り返すよう制御を行う。
上記の実施形態では、プロセッサー111は、i枚目の画像IMについての認識対象領域AR1と(i−1)枚目の画像IMについての認識対象領域AR1とを同一の認識対象を含む領域として画定する。同様に、プロセッサー111は、i枚目の画像IMについての認識対象領域AR1と(i−t)枚目の画像IMについての認識対象領域AR1とを同一の認識対象を含む領域として画定しても良い。ただし、tは、i未満の自然数である。
上記の実施形態では、画像処理装置10は、1台のカメラで複数の画像を撮影した。しかしながら、画像処理装置10は、複数のカメラを備えていても良い。そして、画像処理装置10は、複数のカメラで複数の画像を撮影しても良い。
コンピューター12は、移動体12とは別の場所にあっても良い。この場合、例えば、カメラ13で撮影された画像及び移動体12で計測されたセンサーデータなどが無線通信などによってコンピューター11に送信される。
プロセッサー111は、上記実施形態においてプログラムによって実現する処理の一部又は全部を、回路のハードウェア構成によって実現するものであっても良い。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10……画像処理装置、11……コンピューター、12……移動体、13……カメラ、111……プロセッサー、112……ROM、113……RAM、114……補助記憶デバイス、115……入力デバイス、116……表示デバイス、117……カメラインターフェース、118……移動インターフェース、119……通信インターフェース、121……走行装置、122……動力発生装置、123……移動制御回路、124……センサー、1110……バス

Claims (5)

  1. 認識対象に対応する第1の領域を含む第1の画像と、前記認識対象に対応する第2の領域を含む第2の画像とを取得する取得部と、
    前記第1の領域内の前記認識対象の第1の画像認識結果と、前記第2の領域内の前記認識対象の第2の画像認識結果とを推定する第1の推定部と、
    前記第1の領域内の画像認識を阻害する第3の領域と、前記第2の領域内の画像認識を阻害する第4の領域とを検出する検出部と、
    前記第3の領域の大きさに基づき、前記第1の画像認識結果の第1の尤度を決定し、前記第4の領域の大きさに基づき、前記第2の画像認識結果の第2の尤度を決定する決定部と、
    前記第1の画像認識結果及び前記第1の尤度並びに前記第2の画像認識結果及び前記第2の尤度に基づき、前記認識対象の最終的な画像認識結果を推定する第2の推定部と、を備える画像処理装置。
  2. 前記第1の画像が撮影された地点から前記第2の画像が撮影された地点までの距離を取得する距離取得部と、
    前記距離に基づき、前記第1の領域と前記第2の領域に同一の前記認識対象が含まれるように前記第1の領域及び前記第2の領域を画定する画定部と、をさらに備える請求項1に記載の画像処理装置。
  3. 前記第2の推定部は、尤度を重みとした重み付きの多数決を用いて、最終的な画像認識結果を推定する、請求項1又は請求項2に記載の画像処理装置。
  4. 前記第2の推定部は、前記第1の尤度が前記第2の尤度よりも高い場合、前記第1の画像認識結果を前記最終的な画像認識結果と推定し、前記第2の尤度が前記第1の尤度よりも高い場合、前記第2の画像認識結果を前記最終的な認識結果と推定する、請求項1乃至請求項3のいずれか1項に記載の画像処理装置。
  5. 認識対象に対応する第1の領域を含む第1の画像と、前記認識対象に対応する第2の領域を含む第2の画像とを取得し、
    前記第1の領域内の前記認識対象の第1の画像認識結果と、前記第2の領域内の前記認識対象の第2の画像認識結果とを推定し、
    前記第1の領域内の画像認識を阻害する第3の領域と、前記第2の領域内の画像認識を阻害する第4の領域とを検出し、
    前記第3の領域の大きさに基づき、前記第1の画像認識結果の第1の尤度を決定し、前記第4の領域の大きさに基づき、前記第2の画像認識結果の第2の尤度を決定し、
    前記第1の画像認識結果及び前記第1の尤度並びに前記第2の画像認識結果及び前記第2の尤度に基づき、前記認識対象の最終的な画像認識結果を推定する、画像処理方法。
JP2018152686A 2018-08-14 2018-08-14 画像処理装置及び画像処理方法 Pending JP2020027501A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018152686A JP2020027501A (ja) 2018-08-14 2018-08-14 画像処理装置及び画像処理方法
US16/529,141 US20200058134A1 (en) 2018-08-14 2019-08-01 Image processing apparatus and image processing method
EP19189740.4A EP3611662A1 (en) 2018-08-14 2019-08-02 Image processing apparatus and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018152686A JP2020027501A (ja) 2018-08-14 2018-08-14 画像処理装置及び画像処理方法

Publications (1)

Publication Number Publication Date
JP2020027501A true JP2020027501A (ja) 2020-02-20

Family

ID=67539332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018152686A Pending JP2020027501A (ja) 2018-08-14 2018-08-14 画像処理装置及び画像処理方法

Country Status (3)

Country Link
US (1) US20200058134A1 (ja)
EP (1) EP3611662A1 (ja)
JP (1) JP2020027501A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160822A (ja) * 1993-12-07 1995-06-23 Ricoh Co Ltd パターン認識方法
JP2003346081A (ja) * 2002-05-29 2003-12-05 Mitsubishi Electric Corp 文字認識装置
WO2016092684A1 (ja) * 2014-12-12 2016-06-16 株式会社日立製作所 体積推定装置およびそれを用いた作業機械
JP2016201093A (ja) * 2015-04-08 2016-12-01 東芝テック株式会社 画像処理装置及び画像処理方法
JP2017090970A (ja) * 2015-11-02 2017-05-25 株式会社東芝 物品管理装置、その方法、及びそのプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094140A1 (en) * 2007-10-03 2009-04-09 Ncr Corporation Methods and Apparatus for Inventory and Price Information Management

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160822A (ja) * 1993-12-07 1995-06-23 Ricoh Co Ltd パターン認識方法
JP2003346081A (ja) * 2002-05-29 2003-12-05 Mitsubishi Electric Corp 文字認識装置
WO2016092684A1 (ja) * 2014-12-12 2016-06-16 株式会社日立製作所 体積推定装置およびそれを用いた作業機械
JP2016201093A (ja) * 2015-04-08 2016-12-01 東芝テック株式会社 画像処理装置及び画像処理方法
JP2017090970A (ja) * 2015-11-02 2017-05-25 株式会社東芝 物品管理装置、その方法、及びそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU HAO ET AL: "A real-time can-label monitoring system using OMAP-based OCR", 2017 12TH IEEE CONFERENCE ON INDUSTRIAL ELECTRONICS AND APPLICATIONS (ICIEA), JPN6022020625, 20 June 2017 (2017-06-20), US, pages 1348 - 1352, XP033316684, ISSN: 0004785864, DOI: 10.1109/ICIEA.2017.8283048 *
金子 勝一朗: "複数文字認識エンジンの統合のための重み付き投票法", 電子情報通信学会技術研究報告 VOL.105 NO.477, vol. PRMU2005-125 (2005-12), JPN6022020626, 8 December 2005 (2005-12-08), JP, pages 13 - 18, ISSN: 0004925092 *

Also Published As

Publication number Publication date
EP3611662A1 (en) 2020-02-19
US20200058134A1 (en) 2020-02-20

Similar Documents

Publication Publication Date Title
US10880541B2 (en) Stereo correspondence and depth sensors
US10839547B2 (en) Camera pose determination and tracking
CN110807350B (zh) 用于面向扫描匹配的视觉slam的系统和方法
US10254845B2 (en) Hand gesture recognition for cursor control
US9135710B2 (en) Depth map stereo correspondence techniques
CN104885098B (zh) 基于移动装置的文本检测及跟踪
KR101781757B1 (ko) 객체 인식을 위한 수중 이미지 처리장치 및 그 방법
US10410084B2 (en) Devices, systems, and methods for anomaly detection
JP2019087229A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
US9747516B2 (en) Keypoint detection with trackability measurements
US20110311100A1 (en) Method, Apparatus and Computer Program Product for Providing Object Tracking Using Template Switching and Feature Adaptation
US10122912B2 (en) Device and method for detecting regions in an image
US9911204B2 (en) Image processing method, image processing apparatus, and recording medium
JP6462528B2 (ja) 移動体追跡装置及び移動体追跡方法及び移動体追跡プログラム
KR20230004474A (ko) 이미지 기반 위치 결정을 위한 시스템 및 방법
WO2019152084A1 (en) System and method for calibrating light intensity
US9639763B2 (en) Image target detecting apparatus and method
CN111553342B (zh) 一种视觉定位方法、装置、计算机设备和存储介质
JP2020027501A (ja) 画像処理装置及び画像処理方法
Sohn et al. Sequential modelling of building rooftops by integrating airborne LiDAR data and optical imagery: preliminary results
JP4321251B2 (ja) 合成画像を生成・表示する装置及び方法
KR102478338B1 (ko) 패치레벨 증강을 이용한 고해상도 영상에서의 객체 검출방법 및 장치
JP2009171369A (ja) 画像データ処理装置及びプログラム
JP2016001386A (ja) 画像生成方法、画像生成装置、コンピュータプログラム及び記録媒体
US11474252B2 (en) Transit location systems and methods using lidar

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221122

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104