JP6575079B2 - 複数の画像からの商品の認識のための方法 - Google Patents

複数の画像からの商品の認識のための方法 Download PDF

Info

Publication number
JP6575079B2
JP6575079B2 JP2015037945A JP2015037945A JP6575079B2 JP 6575079 B2 JP6575079 B2 JP 6575079B2 JP 2015037945 A JP2015037945 A JP 2015037945A JP 2015037945 A JP2015037945 A JP 2015037945A JP 6575079 B2 JP6575079 B2 JP 6575079B2
Authority
JP
Japan
Prior art keywords
bounding box
image
recognition
recognition results
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015037945A
Other languages
English (en)
Other versions
JP2015165400A (ja
Inventor
シ シュ
シ シュ
ゴーミッシュ マイケル
ゴーミッシュ マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2015165400A publication Critical patent/JP2015165400A/ja
Application granted granted Critical
Publication of JP6575079B2 publication Critical patent/JP6575079B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/14Transformations for image registration, e.g. adjusting or mapping for alignment of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本出願は、その内容を参照により、本明細書及び特許請求の範囲に援用する、「複数の画像からの商品の認識のための方法」と題する西暦2014年2月28日付出願の米国特許仮出願第61/946,225号の米国特許法第119条の下での優先権を主張する。
本明細書は一般に、画像処理の分野に関する。より具体的には、本明細書は、複数の画像からのオブジェクト認識のためのシステム及び方法に関する。
多くの場合、複数の画像にわたって複数のオブジェクト(物体)を認識するための画像認識手法を使用することが有益である。例えば、小売の環境では、特定の商品を特定の場所において蓄えるべき棚上又はディスプレイ上の商品の状態がどのようになっているかが分かっていることが有用であるが、消費者の活動が理由で、商品が在庫切れであり、又は誤った場所に移動していることがあり得る。人間は、商品をその正しい場所に移動し得るが、商品全ての位置を記録することには時間がかかる。したがって、棚上又はディスプレイ上の商品の状態についての情報を自動的又は半自動的に得ることが有用である。棚上又はディスプレイ上の商品の状態についての情報を得るための一方法は、画像認識手法を使用することである。しかし、小売の環境における画像の捕捉は、狭い通路や、店舗内の活動が理由で困難であり得る。したがって、関心の商品全てを捕捉するために複数の画像を撮る必要があり得る。
画像認識手法を使用して棚上又はディスプレイ上の商品の状態についての情報を得るための一方法を図1に示す。102では、画像スティッチング・モジュールは複数の入力画像を受け取る。画像は、JPEG、TIFF、PNG、BMP等などのグラフィック・ファイル形式で受け取り得る。スティッチング・モジュールは、オープンCVマシン・ビジョン・ソフトウェア・パッケージの一部である詳細なスティッチング例コードなどの既知のスティッチング・モジュールであり得る。104では、スティッチング・モジュールは、複数の入力画像をスティッチングされた単一の画像にスティッチングする。106では、この単一の画像は、認識モジュールへの入力として使用される。108では、システムは、スティッチングされた単一の画像から認識された商品、及び上記スティッチングされた画像を出力し得る。商品は、マシン読み取り可能な形式で出力し得る。例えば、システムは、アイテムのリスト及び、スティッチングされた画像内のその場所を含む拡張可能なマークアップ言語(XML)ファイル、又はジャバスクリプト・オブジェクト表記(JSON)ファイルを生成し得る。
残念ながら、画像のスティッチングはアーチファクトにつながり得、認識モジュールの最適な動作を妨害し、又は誤った認識結果をもたらし得る。よって、認識前にスティッチング・モジュールを動作させることは、認識モジュールへの低品質画像入力が理由で、商品の品切れ、及び商品の誤った識別につながり得る。よって、棚の複数の画像を捕捉し、出来る限り多くの商品、及び上記商品の場所を認識することができることが望ましい。商品全てを認識するが、複数の画像に現れる商品の2重計上をしないことが重要である。
本明細書及び特許請求の範囲記載の手法は、複数の画像を受け取り、データベース内で索引化されている複数のオブジェクトを識別するよう構成されたマルチオブジェクト認識システムにより、少なくとも部分的に従来技術の欠点及び制限を解消する。
上記手法は、複数の入力画像について複数の認識結果を生成する画像認識システムを含み、認識結果は、複数の入力画像内のオブジェクトを識別する。画像認識システムは、複数の入力画像を、スティッチングされた単一の画像にスティッチングし、複数の入力画像のスティッチングからの情報を使用して複数の認識結果をマージして、マージされた認識結果を生成するためのジョイント・スティッチング・モジュールを含む。画像認識システムは次いで、マージされた認識結果を出力する。
他の局面には、前述及び他の革新的な手法のための対応する方法、システム、装置、及びコンピュータ・プログラム・プロダクトが含まれる。
本明細書及び特許請求の範囲記載の構成及び利点は、全て包含している訳でなく、多くの更なる構成及び利点は、図及び明細書に鑑み、当業者には明らかとなるであろう。更に、本明細書において使用される文言は、主に、記載した構成及び効果の範囲を制限するものでなく、読みやすさ及び教示の目的で選択している。
本明細書及び特許請求の範囲記載の手法は、例として示しており、添付図面の図における限定として示すものでない。添付図面では、同様な数字は同様な構成要素を表すよう使用される。
第1にスティッチングを行い、第2に商品の認識を処理するための従来技術の手法を示すフロー図である。 複数の画像から商品を認識するシステムを示すブロック図である。 画像認識システムを示すブロック図である。 オブジェクト認識結果及び画像スティッチングを別個に合成する方法の一実施例を示すフロー図である。 オブジェクト認識結果及び画像スティッチングを併せてマージする方法の一実施例を示すフロー図である。 オブジェクト認識結果及び画像スティッチングを併せてマージする方法を表す例示的なシステム・フロー図である。 複数の入力画像を示す登録を示す例示的なフロー図である。 画像の複合を表す例示的なフロティッチー図である。 複数の画像をスティッチングしている間に得られた情報を使用して複数の画像についての認識結果をマージする処理を示す例示的なフロー図である。 複数の画像をスティッチングしている間に得られた情報を使用して複数の画像についての認識結果をマージする処理を示す例示的なフロー図である。 複数の画像をスティッチングしている間に得られた情報を使用して複数の画像についての認識結果をマージする処理を示す例示的なフロー図である。 複数の画像をスティッチングしている間に得られた情報を使用して複数の画像についての認識結果をマージする処理を示す例示的なフロー図である。 複数の画像をスティッチングしている間に得られた情報を使用して複数の画像についての認識結果をマージする処理を示す例示的なフロー図である。 入力画像における認識されたオブジェクトのバウンディング・ボックスを表すブロック図である。 入力画像における認識されたオブジェクトのバウンディング・ボックスを表すブロック図である。 入力画像における認識されたオブジェクトのバウンディング・ボックスを表すブロック図である。 マスク画像内のバウンディング・ボックスを示す図である。
図は、例証の目的のみで、本明細書及び特許請求の範囲記載の種々の実施例を表す。本明細書及び特許請求の範囲に例証した構造及び方法の別の実施例は、本明細書及び特許請求の範囲記載の手法の原理から逸脱しない限り、使用することができるということを以下の記載から容易に認識されるものである。
複数の画像から商品を認識するシステム及び方法について説明する。図2は、一実施例による、複数の画像から商品を認識するシステム200を示すブロック図である。例証されたシステム200は、撮像装置202と、ジョイント・スティッチング・モジュール303と、画像認識システム204と、他のシステム208とを含み得る。例証された実施例では、システム200のエンティティは、通信するよう、ネットワーク206を介して結合される。他の実施例では、ネットワーク206は任意であり得、システム200のエンティティは直接、通信し得る。
ネットワーク206は、有線又は無線の通常のタイプであり、スター構成、トークン・リング構成、又は他の構成を含む別々の多数の構成を有し得る。更に、ネットワーク206は、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)(例えば、インターネット)、及び/又は複数の装置が通信し得る他の相互接続されたデータ・パスを含み得る。一部の実施形態では、ネットワーク206はピアツーピア・ネットワークであり得る。ネットワーク206は更に、各種通信プロトコルを使用してデータを送出するために通信ネットワークの一部分に結合され、又は上記一部分を含み得る。一部の実施例では、ネットワーク206は、ショート・メッセージング・サービス(SMS)、マルチメディア・メッセージング・サービス(MMS)、ハイパーテキスト転送プロトコル(HTTP)、直接データ接続、WAP、電子メール経由を含み、データを送出し、受け取るために、ブルートゥース(登録商標)通信ネットワーク又はセルラ通信ネットワークを含み得る。図2は、撮像装置202に結合された一ネットワーク206を示しているが、実際には、1つ又は複数のネットワーク206は前述のエンティティを接続することが可能である。
撮像装置202はネットワーク206を介して画像認識システム204と結合される。1つの撮像装置202のみを示しているが、何れかの数の撮像装置202をシステム200に含め得る。種々の実施例では、撮像装置202は、小売、倉庫、又は保管環境における棚又はディスプレイの複数の画像を捕捉するよう適合される。撮像装置202は例えば、ディジタル・カメラ、スマートフォン又はセルラ電話カメラ、ウェブキャム、ビデオ・レコーダ等を含み得る。一実施例では、撮像装置202は、自律的に、又は半自律的に棚又はディスプレイ周りを移動し得る移動ベースに搭載し、複数の画像を捕捉し得る。
種々の実施例では、画像認識システム204は、プロセッサ、メモリ、アプリケーション、データベース、及びネットワーク通信機能を含むコンピューティング装置であり得る。単一の画像認識システム204のみを図2の例に示すが、複数の画像認識システムにおいて、分散した画像認識システムによって行われる1つ又は複数の動作を有する何れかの数の画像認識システム204が存在し得る。図2の例における画像認識システム204は、複数の画像を、単一のスティッチングされた画像にスティッチングし、複数の画像における認識されたオブジェクトを、マージされた認識結果にマージするよう構成されたジョイント・スティッチング・モジュール303を含む。ジョイント・スティッチング処理は、図4乃至図10Dを参照して以下に更に詳細に説明する。
一実施例では、画像認識システム204は、ネットワーク206に結合し得るその他のシステム208とともに動作可能であり得る。図2におけるその他のシステム208は、他の既存のシステムを表し得る。例えば、その他のシステム208は、商品棚卸システム、小売在庫管理システム、商品配置システム等を含み得る。画像認識システム204は、他のシステム208とインタフェースし、相互作用することができる。画像認識システム204は例えば、在庫分析、商品配置分析、在庫管理等に使用するために、その他のシステム208に、スティッチングされた画像及びマージされた認識結果を提供し得る。
次に図3を参照するに、画像認識システム204の例を更に詳細に示す。図3の例では、画像認識システム204は、認識モジュール301、ジョイント・スティッチング・モジュール303、プロセッサ335、メモリ337、通信装置341、及びデータ記憶装置343を含み得る。画像認識システム204の構成部分は、通信するよう、バス320によって結合される。バス320は、業界標準アーキテクチャ(ISA)バス、周辺構成部分相互接続(PCI)バス、ユニバーサル・シリアル・バス(USB)、又は同様の機能を提供するための、当該技術分野において知られている特定の他のバスを含む1つ又は複数のバスを表し得る。
プロセッサ335は、種々の入出力、論理、及び/又は算術演算を行うことにより、ソフトウェア命令を実行し得る。プロセッサ335は、データ信号を処理するための種々のコンピューティング・アーキテクチャ(例えば、複合命令セット・コンピュータ(CISC)アーキテクチャ、縮小命令セット・コンピュータ(RISC)アーキテクチャ、グラフィックス処理装置(GPU)、及び/又は命令セットの組み合わせを実現するアーキテクチャを含む)を有し得る。プロセッサ335は、物理的であり、かつ/又は仮想的であり得、単一の処理装置、又は複数の処理装置及び/若しくはコアを含み得る。一部の実現形態では、プロセッサ335は、電子表示信号を生成し、表示装置に提供する工程、画像の表示をサポートする工程、画像を捕捉し、送信する工程、各種の特徴の抽出及びサンプリングを含む複雑なタスクを行う工程等を行うことができる。一部の実現形態では、プロセッサ335は、そこからデータ及び命令をアクセスするためにバス320を介してメモリ337に結合し得、その中にデータを記憶し得る。バス320は、例えば、認識モジュール301、ジョイント・スティッチング・モジュール303、メモリ337、通信装置341、及びデータ記憶装置343を含む画像認識システム204のその他の構成部分にプロセッサ335を結合し得る。他のプロセッサ、オペレーティング・システム、センサ、ディスプレイ、及び物理的な構成が考えられることが分かるであろう。
メモリ337は、画像認識システム204のその他の構成部分についてのデータを記憶し、上記データへのアクセスを提供し得る。メモリ337は、特許請求の範囲記載の単一のコンピューティング装置又は複数のコンピューティング装置に含まれ得る。一部の実現形態では、メモリ337は、プロセッサ335によって実行し得る命令及び/又はデータを記憶し得る。例えば、一実施例では、メモリ237は、プロセッサによって実行されると、認識モジュール301及び/又はジョイント・スティッチング・モジュール303をプロセッサに実現させる命令を記憶し得る。メモリ337は更に、例えば、オペレーティング・システム、ハードウェア・ドライバ、他のソフトウェア・アプリケーション、データベース等を含む他の命令及びデータを記憶することができる。メモリ337は、画像認識システム204のプロセッサ335及びその他の構成部分と通信するためにバス320に結合し得る。
メモリ337は、プロセッサ335による、又はプロセッサ335との接続における処理のために命令、データ、コンピュータ・プログラム、ソフトウェア、コード、ルーチン等を包含し、記憶し、通信し、伝搬し、又は伝送することが可能な何れかの有形の装置又はデバイスであり得る1つ又は複数の一時的でないコンピュータ使用可能な(例えば、読み取り可能な、書き込み可能な等)媒体を含み得る。一部の実現形態では、メモリ337は、揮発性メモリ及び不揮発性メモリの1つ又は複数を含み得る。例えば、メモリ337は、ダイナミック・ランダム・アクセス・メモリ(DRAM)装置、スタティック・ランダム・アクセス・メモリ(SRAM)装置、組み込みメモリ装置、ディスクリート・メモリ装置(例えば、PROM、FROM、ROM)、ハード・ディスク・ドライブ、光ディスク・ドライブ(CD、DVD、ブルーレイ(登録商標)等)の1つ又は複数に限定されないが、前述の1つ又は複数を含み得る。メモリ337は単一の装置であり得、又は、複数のタイプの装置及び構成部分を含み得る。
通信装置341は、ネットワーク206及び他の処理システムにプロセッサ335を結合することにより、データを受け取り、送信するためのハードウェアである。通信装置341は例えば、撮像装置202から複数の画像を受け取り、かつ/又は、画像認識結果及びスティッチされた画像を送信するよう構成される。一実施例では、通信装置341は、ネットワーク206への直接の物理接続のためのポート、又は別の通信チャネルへのポートを含み得る。例えば、通信装置341は、ネットワーク206との有線通信のためにRJ45ポート又は同様なポートを含み得る。別の実施例では、通信装置341は、IEEE802.11、IEEE802.16、ブルートゥース(登録商標)、又は別の適切な無線通信方法を使用して、ネットワーク206又は何れかの他の通信チャネルを介してデータを交換するための無線トランシーバ(図示せず)を含み得る。
更に別の実施例では、通信装置341は、ショート・メッセージング・サービス(SMS)、マルチメディア・メッセージング・サービス(MMS)、ハイパーテキスト転送プロトコル(HTTP)、直接データ接続、WAP、電子メール、又は別の適切なタイプの電子通信経由などのセルラ通信ネットワークを介してデータを送出し、受け取るためのセルラ通信トランシーバを含み得る。更に別の実施例では、通信装置341は、有線ポート及び無線トランシーバを含み得る。通信装置341は、更に、当業者に理解されるように、TCP/IP、HTTP、HTTPS及びSMTPなどの標準ネットワーク・プロトコルを使用してファイル及び/又はメディア・オブジェクトの配信のためにネットワーク206に対する他の通常の接続を設ける。
データ記憶装置343は、本明細書及び特許請求の範囲記載の機能を提供するためのデータを記憶する一時的でないメモリである。データ記憶装置343は、ダイナミック・ランダム・アクセス・メモリ(DRAM)装置、スタティック・ランダム・アクセス・メモリ(SRAM)装置、フラッシュ・メモリ、又は一部の他のメモリ装置であり得る。一部の実施例では、データ記憶装置343は更に、ハード・ディスク・ドライブ、フロッピー(登録商標)・ディスク・ドライブ、CD−ROM装置、DVD−ROM装置、DVD−RAM装置、DVD−RW装置、フラッシュ・メモリ装置、又はより永続的に情報を記憶するための特定の他の大容量記憶装置を含む不揮発性メモリ又は同様な永続性記憶装置及び媒体を含み得る。
例証的な実施例では、データ記憶装置343は、通信するよう、バス320に結合される。一実施例では、データ記憶装置343は、複数の画像、及び複数の画像に関連付けられたデータを記憶する。例えば、データ記憶装置343は、オブジェクト・バウンディング・ボックス、画像パッチ、及び/又は認識されたオブジェクトを含む画像認識結果を記憶し得る。データ記憶装置343は更に、例えば、入力画像、登録(registration)画像、シーム・マスク、サイズ変更された画像、ワーピングされた画像等に関連付けられたスティッチングされた画像及びデータを記憶するよう構成し得る。データ記憶装置343に記憶されたデータは以下に更に詳細に説明する。一実施例では、データ記憶装置343は、本明細書及び特許請求の範囲記載の機能を提供するために他のデータを記憶し得る。
認識モジュール301は、画像内のオブジェクトを認識するためのソフトウェア及び/又はロジックを含み得る。認識モジュール301は、既存の公開された画像認識アルゴリズム、及び/又は専用の画像認識アルゴリズムに応じて画像認識を行い得る。一部の実施例では、認識モジュール301は、フィールドプログラマブル・ゲート・アレイ(FPGA)又は特殊用途向集積回路(ASIC)を含むハードウェアを使用して実現することが可能である。一部の実施例では、認識モジュール301は、プロセッサ335によって実行可能なハードウェア及びソフトウェアの組み合わせを使用して実現することが可能である。一部の実施例では、認識モジュール301は、プロセッサ335によって実行可能な命令の組である。一部の実現形態では、認識モジュール301はメモリ337に記憶され、プロセッサ335によってアクセス可能であり、実行可能である。一部の実現形態では、認識モジュール301は、バス320を介してプロセッサ335、メモリ337、及び、画像認識システム204の他の構成部分と協働し、通信するよう適合される。
図3の例に表す画像認識モジュールは単一の画像モジュール301を含んでいるが、画像認識のために、更なる1つ又は複数の認識モジュールを使用し得るということを当業者は認識するであろう。同様に、本明細書の他の箇所に記載するように、個々の画像は直列に、又は並列に認識することが可能である。種々の実施例では、認識モジュール301は、元の画像内のオブジェクトの座標及びオブジェクトIDを含む認識結果を出力する。認識結果は、以下に更に詳細に説明するように、スティッチングされた画像についての、マージされた認識結果を提供するために使用し得る。一部の実施例では、認識モジュール301は、撮像装置202が、最終的なスティッチングされた画像の作成に使用する対象の画像をなお捕捉している間に、撮像装置202から受け取られた入力画像に対する認識を行い始め得る。
ジョイント・スティッチング・モジュール303は、複数の入力画像からの単一のスティッチングされた画像と、複数の入力画像に対応する複数の認識結果からのマージされた認識結果とを作成するためのソフトウェア及び/又はロジックを含み得る。ジョイント・スティッチング・モジュールは、登録モジュール307と、複合モジュール309と、マージ・モジュール311とを含み得る。登録モジュール307、複合モジュール309、及びマージ・モジュール311が、ジョイント・スティッチング・モジュールに含まれているとして示しているが、上記モジュールは、本明細書及び特許請求の範囲に記載されたようなジョイント・スティッチング・モジュール303の機能を行うよう協働し得る別個のモジュールとして実現し得る。一部の実施例では、ジョイント・スティッチング・モジュール303は、フィールドプログラマブル・ゲート・アレイ(FPGA)又は特殊用途向集積回路(ASIC)を含むハードウェアを使用して実現することが可能である。一部の実施例では、ジョイント・スティッチング・モジュール303は、プロセッサ335によって実行可能なハードウェア及びソフトウェアの組み合わせを使用して実現することが可能である。一部の実施例では、ジョイント・スティッチング・モジュール303は、プロセッサ335によって実行可能な命令の組である。一部の実現形態では、ジョイント・スティッチング・モジュール303はメモリ337に記憶され、プロセッサ335によってアクセス可能であり、実行可能である。一部の実現形態では、ジョイント・スティッチング・モジュール303は、バス320を介して、プロセッサ335、メモリ337、及びプロセッサ335と協働し、通信するよう適合される。ジョイント・スティッチング・モジュール303、登録モジュール307、複合モジュール309、及びマージ・モジュール311の機能は、図6乃至図10Dを参照して以下に詳細に説明する。
スティッチングに先行して複数の入力画像の画像それぞれに対して画像認識を行うことにより、オブジェクト認識結果が向上し得る。考えられる一実現形態を図4の例において表す。図4は、オブジェクト認識結果及び画像スティッチングを別個に合成するための方法400の一実施例のフロー図である。402で、画像認識モジュール204は複数の入力画像を受け取り得る。404で、画像認識モジュール204は複数の入力画像からオブジェクトを認識し得る。一部の実施例では、画像認識モジュール204は、単一の画像内の複数のオブジェクトを認識し得る。一部の実施例では、画像認識モジュール204は、直列に、又は並列に複数の入力画像を処理し、複数の入力画像の各画像の対応する認識結果を出力し得る。
406で、画像認識モジュール204は、複数の入力画像の認識結果を合成して、認識されたオブジェクト(例えば、店舗の棚上の商品)の単一のリストを形成し得る。この合成は、認識されたオブジェクトの単純な連結であり得る。しかし、認識されたオブジェクトの単純な連結は、2度以上、2つ以上の画像内に現れる実世界の単一のオブジェクトを数えることにつながり得る。よって、認識されたオブジェクトの出力は、複数の入力画像において捕捉された実世界のオブジェクトの正確な数を反映するものでない。
408で、ジョイント・スティッチング・モジュール303は、既知の手法(例えば、オープンCV画像スティッチング手法)により、複数の入力画像を、スティッチングされた単一の画像にスティッチングし得る。画像スティッチングは、画像認識と直列に、又は並列に行い得、410で、システム200は、合成された認識結果、及びスティッチングされた単一の画像を出力する。
図4の例において表した方法400は、スティッチング中にもたらされたアーチファクトを削減し得、上述のように、個々の入力画像それぞれにおけるオブジェクト認識の精度を増加させ得る一方、合成された認識結果は正確でないことがあり得る。合成された認識結果の精度を向上させるために、画像スティッチング処理からの情報を使用して、認識結果を、マージされた認識結果にマージし得る。図5は、オブジェクト認識結果及び画像スティッチングを併せてマージする方法500の一実施例のフロー図である。502で画像認識モジュール204は複数の入力画像を受け取り得、504で認識モジュール301は複数の入力画像の各画像内のオブジェクトを認識し得る。各認識結果は、入力画像からの認識されたオブジェクトの記述のリストを含み得る。記述の前述のリストは、例えば、ジャバスクリプト・オブジェクト表示(JSON)、拡張可能なマークアップ言語(XML)等を含む種々の形式で出力し得る。認識されたオブジェクト毎の記述は例えば、オブジェクト・ラベル、オブジェクトID(例えば、在庫管理単位(SKU))、及びオブジェクトが入力画像のどこに配置されているかを示すバウンディング・ボックスの座標を含み得る。認識されたオブジェクト毎の記述は、更に、オブジェクトの認識における認識モジュール301の信頼度を含む他の情報を含み得る。506で、ジョイント・スティッチング・モジュール303は、複数の画像を単一の画像に併せてスティッチングし、認識結果をマージする。この処理は図6乃至図10を参照して以下に更に詳細に説明する。508で、画像認識システム204は、マージされた認識結果、及びスティッチングされた単一の画像を出力する。
図6は、オブジェクト認識結果及び画像スティッチングを併せてマージする方法を行うジョイント・スティッチング・モジュール303を表す例示的なシステム・フロー図である。図6の例では、登録モジュール307は、その入力として複数の入力画像を受け取り、登録データを出力として生成する。登録データを生成する例示的な一方法について、図7を参照して以下に説明する。複合モジュール309は、登録モジュール307からの登録データ、及び複数の入力画像をその入力として受け取る。複合モジュール309の出力は、単一のスティッチングされた画像、及び単一のスティッチングされた画像の生成に使用されるシーム・マスクを含む。複合モジュール309により、シーム・マスク及び単一のスティッチングされた画像を生成する例示的な一方法は図8を参照して以下に説明する。マージ・モジュール311は、登録モジュール307からの登録データ、複合モジュール309からのシーム・マスク、認識モジュール301からの認識結果、及び入力画像をその入力として受け取る。マージ・モジュール311は前述の入力を使用して、図9を参照して以下に説明したようなマージされた認識結果を生成する。一部の実施例(図示せず)では、ジョイント・スティッチング・モジュール303は、マージされた認識結果を使用して、最終的にスティッチングされた画像を精緻化し得る。例えば、マージされた認識結果を生成した後、マージ・モジュール311は、マージされた認識結果を複合モジュール309に提供し得、複合モジュール309は、認識結果の場所を使用して、画像のシームを調節して、認識されたオブジェクト付近におけるアーチファクト又は他の歪みを削減し得る。
図7は、登録モジュール307によって行われる複数の入力画像の登録を示す例示的なフロー図である。一実施例では、画像の登録は、既知の公開された、又は専門の手法(例えば、オープンCVスティッチング)を使用して行うことが可能である。図7の例において表す工程の一部又は全部は修正し、又は除去し得、特定の画像スティッチングのニーズに合わせるよう更なる工程を追加し得る。702で、登録モジュール307は、将来の処理のために適したサイズに各入力画像をサイズ変更する。例えば、登録モジュール307は、画像サイズを削減して処理時間を削減し得る。しかし、画像サイズの削減は、画像検出の精度の低減をもたらし得る。したがって、一部の実施例では、画像登録の処理は、画像のサイズ変更がほとんどないか、又は全くなしで行い得る。704で、登録モジュールは、入力画像それぞれにおける特徴を求める。706で、登録モジュール307は、入力画像からの特徴をマッチングさせる。708で、登録モジュール307は、入力画像をマッチングさせて、スティッチングされた画像を構築するためにどの画像を使用することが可能であるかを判定する。一実施例では、登録モジュール307は、完全にスティッチングされた画像を作成するために必要でない入力画像(例えば、重複した画像、他の画像の組み合わせにより、完全に覆われた画像、残りの入力画像との重なりがない画像等)を除外することが可能である。710で、登録モジュール307は、カメラ・パラメータを推定し、712で、カメラ・パラメータを精緻化する。登録モジュール307は714で、カメラ・パラメータを使用して、波形修正を行い、716で、入力画像に対してスケール推定を行う。718で、登録モジュール307は登録データを出力する。
図8は、複合モジュール309によって行われる画像の複合を示す例示的なフロー図である。一実施例では、画像の複合は、既知の公開された、又は専門の手法(例えば、オープンCVスティッチング)を使用して行うことが可能である。802で、複合モジュール309は入力画像及び登録データを受け取り、登録モジュール307からの登録データを使用して、入力画像に対してワーピングを行う。一実施例では、処理時間を削減するために、複合モジュール309は入力画像をサイズ変更し、804で、低解像度にサイズ変更し、806で、登録モジュール307からの登録データを使用して、サイズ変更された画像をワーピングする。しかし、画像サイズの削減は、画像検出の精度の低減をもたらし得る。したがって、他の実施例では、画像複合の処理は、画像のサイズ変更がほとんどないか、又は全くなしで行い得る。808で、複合モジュール309は、サイズ変更されたワーピングされた画像を使用して露出誤差を推定する。810で、複合化モジュールは、推定された露出誤差を使用して、ワーピングされた画像内の露出誤差を補償する。サイズ変更されたワ―ピングされた画像を使用して、複合化モジュール309は、812でシーム・マスクを求め、814で、(例えば、804において画像のサイズ変更が、先行して行われている場合)元の解像度へのマスクのサイズ変更を行う。816で、複合モジュール309は、サイズ変更されたシーム・マスクを使用して、ワーピングされた入力画像を混合して、最終的なスティッチングされた画像を出力する。
図9は、マージ・モジュール311によって行われる複数の画像のスティッチングの間に得られた情報を使用して、複数の画像の認識結果をマージする処理を示す例示的なフロー図である。図9の例は、複数の画像から画像認識結果の対を比較する処理の単一の反復を示す。マージ・モジュール311は、画像認識結果の対毎に図9において表す処理を行って、画像認識結果の対が、同じ実世界オブジェクトを表す(その場合、画像認識結果を合成し得る)かについて判定し得る。902で、マージ・モジュール311は、認識モジュール301からのバウンディング・ボックスのポリゴン座標、及び登録モジュール307からの登録データを使用して、画像認識結果の対について、バウンディング・ボックスをワーピングする。904で、マージ・モジュール311は、ワーピングされたバウンディング・ボックスを使用して、重なりテストを行って、認識された2つのオブジェクトが、別個の実世界オブジェクトであるか、同じ実世界オブジェクトであるかを判定する。重なりテストは、図10Aを参照して以下に更に詳細に説明する。認識された2つのオブジェクトが別個の実世界のオブジェクトであると重なりテストが示す場合、マージ・モジュール311は、図9の処理を停止し、画像認識結果の次の対に進む。さもなければ、処理は906に続き、又は、任意的には、重なりテストの結果が閾値を超えている場合、(一点鎖線で示すように)910に続く。
906で、認識された2つのオブジェクトが同じ実世界オブジェクトであり得ることを重なりテストが示す場合、マージ・モジュール311は画像コンテント・テストを行う。マージ・モジュール311は入力画像からの画像パッチを使用して、図10Bを参照して以下に更に詳細に説明するように画像コンテント・テストを行う。認識された2つのオブジェクトが別個の実世界オブジェクトであると重なりテストが示す場合、マージ・モジュール311は、図9の処理を停止し、次の画像認識結果対に進む。さもなければ、処理は908に続き、又は、任意的には、画像コンテンツ・テスト結果が閾値を超えている場合、(破線で示すように)910に続く。908で、認識された2つのオブジェクトが同じ実世界オブジェクトであり得ることを(904における)重なりテスト及び(906における)画像コンテント・テストが示す場合、マージ・モジュール311は認識ラベル・テストを行う。認識ラベル・テストは、図10Cを参照して以下に更に詳細に説明する。認識された2つのオブジェクトが別個の実世界オブジェクトであると認識ラベル・テストが示す場合、マージ・モジュール311は、図9の処理を停止し、次の画像認識結果対に進む。さもなければ、910で、マージ・モジュール311は可視度テストを行う。可視度テストは、図10Dを参照して以下に更に詳細に説明する。マージ・モジュール311は、複合モジュール309からのシーム・マスクを使用して、後述する可視度テストを行う。912で、マージ・モジュール311は、マージされた認識結果を生成し、出力する。
図10Aは、複数の画像をスティッチングしている間に得られた情報を使用して複数の画像の認識結果をマージする処理1000を示す例示的なフロー図である。特に、図10Aは重なりテストを示す。上述したように、各認識結果は、入力画像からの認識されたオブジェクトの記述のリストを含み得る。1002で、マージ・モジュール311は、2つのバウンディング・ボックスのワーピングされたC’及びC’を算出する。例えば、902で上述したように、マージ・モジュールは、認識モジュール301からの認識されたオブジェクト毎にバウンディング・ボックスを受け取り、登録モジュール307から受け取られた、検出されたカメラ視点マトリクスを含む登録データを使用してバウンディング・ボックスをワーピングし得る。一実施例では、マージ・モジュール311は、ワーピングされたバウンディング・ボックスがなおポリゴンであるようにバウンディング・ボックスの頂点のみをワーピングする。別の実施例では、マージ・モジュール311は、バウンディング・ボックスの線全てをワーピングし得る。単一のオブジェクトが別々の2つの入力画像において認識されている場合、各認識のバウンディング・ボックスが、最終的なスティッチングされた画像内に重なりを有するという前提の下で重なりテストは行われる。ワーピングされた2つのバウンディング・ボックスの重なりが、閾値の量を上回る場合、マージ・モジュール重なりテストは、同じオブジェクトが2回、カウントされないことを確実にする。マージ・モジュール311は、1004で2つのバウンディング・ボックスの面積A及びAを算出し、1006で2つのバウンディング・ボックスの重なり面積Aabを算出する。2つのバウンディング・ボックスのワーピングされたポリゴン座標のみが与えられれば、2つのポリゴンの重なり面積を算出し得る。
図11A乃至図11Cは、入力画像における認識されたオブジェクトのバウンディング・ボックスを表すブロック図を示す。図11Aの例は、認識モジュール311によって求められたバウンディング・ボックス1112を有する第1の入力画像からの、認識されたオブジェクト1110を表す。同様に、図11Bは、認識モジュール311によって求められたバウンディング・ボックス1114を有する第2の入力画像からの、認識されたオブジェクト1110を表す。図11Cは、第1の画像及び第2の画像がスティッチングされた後の、2つのバウンディング・ボックス1112及び1114と、認識されたオブジェクト1110とを示す。図11A乃至Cの例から分かるように、第1の画像及び第2の画像からの、認識されたオブジェクト1110が同じ実世界オブジェクトであるかを判定するために、マージ・モジュール311によって使用し得る重なり面積を有し得る。
1008で、マージ・モジュール311は、重なり面積Aabを、最小重なり閾値(例えば、MIN(A,A)*Tlowoverlap)と比較する。重なりパーセンテージが、最小の重なり閾値(例えば、30%)よりも小さい場合、2つのオブジェクトは、別々のオブジェクトであるとみなされる。1010で、マージ・モジュール311は、次のバウンディング・ボックス対に移動する。1008で重なりパーセンテージが最小重なり閾値よりも大きい場合、マージ・モジュール311は、1012で、重なり面積Aabを最大重なり閾値(例えば、MIN(A,A)*Thigh_overlap)と比較する。重なりパーセンテージが最大重なり閾値(例えば、70%)よりも大きい場合、2つのオブジェクトは同じオブジェクトの反復カウントであるとみなされ、マージ・モジュール311は、可視度テスト(参照B)に続く。重なりパーセンテージが最大重なり閾値未満である場合、マージ・モジュール311は、画像コンテント・テスト(参照A)に続く。
図10Bは、複数の画像をスティッチングしている間に得られた情報を使用して複数の画像の認識結果をマージする処理1000を示す例示的なフロー図の続きである。特に、図10Bは、マージ・モジュール311によって行われた画像コンテント・テストの例を示す。画像コンテント・テストに対する動機は、画像スティッチングにおいてもたらされる不正確なスキューが理由で、元の画像内のバウンディング・ボックスが、例えば図11Cの例におけるバウンディング・ボックス1114によって表すように、ワーピング後、ターゲットから外れていることがあり得るという点である。この場合、マージ・モジュール311は、元の入力画像から抽出されたバウンディング・ボックスに対応する画像パッチの類似度を比較することが可能である。1014で、2つのバウンディング・ボックスに関連付けられた元の入力画像Img及びImgからの画像パッチが認識モジュール301から受け取られる。1016で、マージ・モジュール311は、2つの画像パッチに対する類似度スコアSabを算出する。次いで、1018で、類似度スコアSabは、最小の類似度閾値(すなわち、Tlow_similarity)と比較し得る。類似度スコアが最小類似度閾値未満の場合、マージ・モジュール311は、認識された2つのオブジェクトが同じ実世界オブジェクトでないことを判定し、1020で、次のバウンディング・ボックス対に進む。1018で、類似度スコアが最小類似度閾値を上回る場合、マージ・モジュール311は1022で、類似度スコアを、最大重なり閾値(すなわち、Thigh_similarity)と比較する。類似度スコアが最大重なり閾値を上回る場合、マージ・モジュール311は、可視度テスト(参照B)に続く。類似度スコアが最大重なり閾値未満である場合、マージ・モジュール311は、下記の認識ラベル・テスト(参照C)に続く。
図10Cは、複数の画像をスティッチングしている間に得られた情報を使用して複数の画像の認識結果をマージする処理1000を示す例示的なフロー図の続きである。特に、図10Cは、マージ・モジュール311によって行われた認識されたオブジェクト・テストの例を示す。前述のように、認識されたオブジェクトは、オブジェクトID、及び認識結果における他の特性でラベリングされているので、マージ・モジュール311は、2つのバウンディング・ボックスが、単一、又は別々の実世界オブジェクトに対応しているか否かの判定において認識データを使用し得る。1024で、マージ・モジュール311は、2つのバウンディング・ボックスに関連付けられた認識結果R及びRを認識モジュール301から受け取る。別の実施例では、マージ・モジュール311は、認識結果からの他のメタデータを使用して、オブジェクト・マッチを判定し得る。例えば、認識結果は、(例えば、画素数による)認識されたオブジェクトのバウンディング・ボックス)のサイズを含み得、マージ・モジュール311はバウンディング・ボックスのサイズを比較し得る。更に、マージ・モジュール311は、バウンディング・ボックスのサイズを、認識データベース内のオブジェクトのサイズと比較し、データベース内のオブジェクトのサイズに最もマッチングしたバウンディング・ボックスに優先度を与える。マージ・モジュールは次いで、1026では、認識結果R及び認識結果Rを比較する。認識結果R及び認識結果Rが等しい(例えば、2つの認識結果に関連付けられたオブジェクトIDが同じでない)場合、マージ・モジュール311は、認識された2つのオブジェクトが同じ実世界オブジェクトでないことを判定し、1028で、次のバウンディング・ボックス対に進む。認識結果が等しい場合、マージ・モジュール311は、下記の可視度テスト(参照B)に続く。
図10Dは、複数の画像をスティッチングしている間に得られた情報を使用して複数の画像の認識結果をマージする処理1000を示す例示的なフロー図の続きである。特に、図10Dはマージ・モジュール311によって行われた可視度テストの例を示す。マージ・モジュール311が、2つのボックスが、(例えば、上記重なりテスト、画像コンテント・テスト、及び/又は認識されたオブジェクト・テストを行うことにより、)同じ実世界オブジェクトの反復された認識である可能性が高いと判定した場合、マージ・モジュール311は、可視度テストを使用して、結果を合成し、又は認識結果のうちの一方を除外して、どのバウンディング・ボックスに、より高い優先度を与えるべきかを判定し得る。例えば、マージ・モジュール311は、2つのバウンディング・ボックスが、同じ実世界オブジェクトを表していると判定した場合、オブジェクト全体を覆っているか、又はオブジェクトの大部分を覆っているバウンディング・ボックスに、より高い優先度を与え得る。マージ・モジュール311は、画像スティッチング・アルゴリズムにおいて生成され、複合モジュール309によって提供されるシーム・マスクを使用して、より高い優先度を与える対象のバウンディング・ボックスはどれかを判定し得る。
図12は、シーム・マスク画像1200内のバウンディング・ボックスを示す。シーム・マスク画像の白色部分は、最終的にスティッチングされた画像の一部として含まれる面積を示し、濃い部分は、最終的にスティッチングされた画像に含まれていない面積を示す。
1032で、次に図10Dに戻れば、マージ・モジュール311は、少なくとも1つの画像マスク(例えば、画像マスクMask及びMaskのうちの1つ又は複数)を複合モジュール309から受け取る。1034で、マージ・モジュール311は、(例えば1002で、マージ・モジュール311によって先行して算出された)ワーピングされたバウンディング・ボックスC’がシーム・マスク画像Maskの可視部分内に収まるか否かを判定する。マージ・モジュール311は、ワーピングされたバウンディング・ボックスがシーム・マスク画像の可視部分内に収まっていると判定した場合、バウンディング・ボックスb及びバウンディング・ボックスaの認識結果を合成し(1036)、バウンディング・ボックスbは、より高い優先度を有する。ワーピングされたバウンディング・ボックスがシーム・マスク画像の可視部分内に収まっていないとマージ・モジュール311が判定した場合、マージ・モジュール311は、バウンディング・ボックスa及びバウンディング・ボックスbの認識結果を合成し(1038)、バウンディング・ボックスaは、より高い優先度を有する。一実施例では、認識結果を合成する工程は、認識モジュール301から受け取られた認識結果に対応するメタデータを合成する工程を含む。例えば、一実施例では、認識モジュール301は、認識されたオブジェクトに一致する、入力画像からの点の数の尺度を提供し得る。前述の尺度は、マージされた結果において合成し得る。別の実施例では、2つの結果を合成する代わりに、マージ・モジュール311は、より低い優先度を有する認識結果を除外し得る。更に別の実施例では、マージ・モジュール311は、マージされた認識結果における別の認識として、除外された認識結果を含み得る。
複数の画像の認識結果をマージするシステム及び方法を説明してきた。上記説明では、説明の目的で、本明細書の詳細な理解をもたらすために、具体的な数多くの詳細を記載している。しかし、前述の具体的な詳細なしで本発明を実施することが可能であるということが当業者に明らかになるであろう。場合によっては、説明を不必要にわかりにくくすることのないように、構造及び装置をブロック図形式で示す。例えば、主に、ソフトウェア及び特定のハードウェアを参照して、上述の一実施例において手法を説明している。しかし、上記手法は、サービスを提供する何れかの周辺装置の一部として情報を提示し、データ及びコマンドを受け取ることが可能な何れかのタイプのコンピューティング・システムを使用して実現し得る。
「一実施例」又は「実施例」に対する本明細書における言及は、上記実施例に関して説明した特定の構成、構造、又は特性が本開示の少なくとも1つの実施例に含まれているということを意味している。本明細書中の種々の箇所において「一実施例において」との句が存在しているということは、必ずしも全て同じ実施例を表している訳でない。
上記詳細な説明の一部分は、コンピュータ・メモリ内のデータ・ビットに対する演算のアルゴリズム及び記号表現に関して提示している。前述のアルゴリズム記述及び表現は、他の当業者にその成果物の本質を最も効果的に伝えるためにデータ処理分野における当業者によって使用される手段である。アルゴリズムはここでは、かつ、一般には、所望の結果につながる自己矛盾のない一連の工程として考えられている。工程は、物理的数量の物理的操作を必要とするものである。通常、必然的でないが、前述の数量は、記憶され、転送され、合成され、比較され、さもなければ、操作されることができる電気信号又は磁気信号の形式をとる。前述の信号をビット、値、要素、記号、文字、項、数字等として表すことが、主に慣用の理由で、時には好都合であることが明らかとなっている。
しかし、前述及び同様の語は、適切な物理的数量と関連付けられるものとし、前述の数量に付された好都合なラベルであるに過ぎないということに留意すべきである。以下の記載から明らかであるように別途明記していない限り、本明細書を通して、「処理」、「計算」、「算出」、「判定」、「表示」等などの語を利用する記載は、コンピュータ・システムのレジスタ内及びメモリ内の物理的(電子的)数量として表されるデータを操作し、コンピュータ・システムのメモリ内若しくはレジスタ内、又は他の前述の情報記憶装置内、伝送装置内、若しくは表示装置内の物理的数量として同様に表される他のデータに変換するコンピュータ・システム、又は同様な電子コンピューティング装置の動作又は処理を表す。
本明細書は更に、本明細書及び特許請求の範囲記載の動作を行う装置に関する。前述の装置は、必要な目的のために特に構成し得、又は、コンピュータに記憶されたコンピュータ・プログラムによって選択的に起動又は再構成される汎用コンピュータであり得る。前述のコンピュータ・プログラムは、限定列挙でないが、フロッピー(登録商標)・ディスク、光ディスク、CD−ROM、磁気ディスク、リードオンリ・メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、EPROM、EEPROM、磁気カード又は光カード、それぞれがコンピュータ・システム・バスに結合された、電子命令の記憶に適した何れかのタイプの媒体又は不揮発性メモリを有するUSBキーを含むフラッシュ・メモリなどのコンピュータ読み取り可能な記憶媒体に記憶し得る。
本明細書は、全体がハードウェア実施例、全体がソフトウェア実施例、又は、ハードウェア構成要素及びソフトウェア構成要素を含む実施例の形態をとり得る。一実施例では、本明細書は、限定列挙でないが、ファームウェア、常駐ソフトウェア、マイクロコード等を含むソフトウェアで実現される。
更に、本開示は、コンピュータ又は何れかの命令実行システムによる使用のための、又は、コンピュータ又は何れかの命令実行システムに関するプログラム・コードを提供するコンピュータ使用可能な、又は、コンピュータ読み取り可能な媒体からアクセス可能なコンピュータ・プログラム・プロダクトの形態をとり得る。本開示の目的で、コンピュータ使用可能な媒体、又はコンピュータ読み取り可能な媒体は、命令実行システム、装置、又はデバイスによる使用のための、又は、命令実行システム、装置、又はデバイスに関するプログラムを含み、又は記憶し、通信し、伝播し、又は伝送し得る何れかの装置であり得る。
プログラム・コードを記憶し、かつ/又は実行するのに適したデータ処理システムは、システム・バスを介してメモリ・エレメントに直接、又は間接的に結合された少なくとも1つのプロセッサを含む。メモリ・エレメントは、実行中に大容量記憶装置からコードを取り出さなければならない回数を削減するために少なくとも一部のプログラム・コードの一時記憶装置を備えるキャッシュ・メモリ、大容量記憶装置、及びプログラム・コードの実際の実行中に使用される局所メモリを含み得る。
入出力(I/O)デバイス(限定列挙でないが、キーボード、ディスプレイ、ポインティング・デバイス等を含む)は、直接、又は、介在するI/Oコントローラを介して結合し得る。
ネットワーク・アダプタが更に、介在する専用ネットワーク又は公衆ネットワークを介して他のデータ処理システム、遠隔プリンタ、又は記憶装置にデータ処理システムが結合されることを可能にするためにシステムに結合し得る。モデム、ケーブル・モデム、及びイーサネット(登録商標)カードは、現在利用可能なタイプのネットワーク・アダプタのうちのいくつかに過ぎない。
最後に、本明細書及び特許請求の範囲記載のアルゴリズム及びディスプレイは、何れの特定のコンピュータ又は他の装置にも固有に関係するものでない。種々の汎用システムを本明細書及び特許請求の範囲の教示によるプログラムとともに使用し得、又は、所要の方法工程を行うために、より特化された装置を構成するのが好都合であることが明らかとなり得る。前述の種々のシステムに必要な構造は、以下の説明から明らかとなる。更に、本明細書は、何れかの特定のプログラミング言語を参照して説明されていない。本明細書及び特許請求の範囲記載の明細書の教示を実現するために種々のプログラミング言語を使用し得る。
実施例の上記説明は、例証及び説明の目的で提示してきた。これは、網羅的であること、又は本発明の実施例を、開示されたまさにその形態に制限することを意図するものでない。多くの修正及び変形が上記教示に照らして考えられる。本発明の実施例の範囲は、発明の詳細な説明でなく、本出願の特許請求の範囲によって限定されることを意図している。当技術分野に精通している者によって理解されるように、本発明の実施例は、その趣旨又は必須の特徴から逸脱しない限り、他の特定の形態で実施し得る。同様に、モジュール、ルーチン、構成、属性、方法論、及び他の局面の特定の名前付け及び区分は必須でも重要でもなく、本発明の実施例又はその構成を実現する機構は別々の名前、区分、及び/又は形態を有し得る。更に、関連する技術分野における当業者に明らかになるように、本発明の実施例のモジュール、ルーチン、構成、属性、方法論、及び他の局面は、ソフトウェア、ハードウェア、ファームウェア、又は3つの何れかの組み合わせとして実現することが可能である。更に、モジュールがその例である構成部分がソフトウェアとして実現される場合、構成部分は、スタンドアロン・プログラムとして、より大きなプログラムの一部として、別個の複数のプログラムとして、統計的に、又は動的にリンクされたライブラリとして、カーネル・ロード可能なモジュールとして、デバイス・ドライバとして、かつ/又は、コンピュータ・プログラミングの技術分野における当業者に現在又は将来、知られるありとあらゆる他のやり方で実現することが可能である。更に、上記手法は、何れかの特定のプログラミング言語における、又は何れかの特定のオペレーティング・システム若しくは環境のための実現形態に決して限定されるものでない。よって、明細書は、特許請求の範囲記載の請求項の範囲を限定するものでなく、例証するものであることを意図している。

Claims (18)

  1. 方法であって、
    複数の入力画像について複数の認識結果を生成する工程であって、前記認識結果が前記複数の入力画像内のオブジェクトを識別する工程と、
    前記複数の入力画像を、スティッチされた単一の画像にスティッチングする工程と、
    前記複数の入力画像のスティッチングからの情報を使用して前記複数の認識結果をマージして、マージされた認識結果を生成する工程と、
    前記マージされた認識結果を出力する工程と
    を含み、
    前記複数の認識結果をマージする工程は、
    より低い優先度を有する認識結果を除外する工程と、
    別の認識結果として、前記より低い優先度を有する前記認識結果を提供する工程と
    を含む方法。
  2. 請求項1記載の方法であって、前記複数の認識結果をマージする工程は、
    第1のバウンディング・ボックスの第1の領域を識別する工程と、
    第2のバウンディング・ボックスの第2の領域を識別する工程と、
    前記第1の領域と前記第2の領域との間の重なり面積を求める工程と、
    前記重なり面積を重なり閾値と比較する工程と
    を含む方法。
  3. 請求項1記載の方法であって、前記複数の認識結果をマージする工程は、
    第1のバウンディング・ボックスの第1の画像パッチを識別する工程と、
    第2のバウンディング・ボックスの第2の画像パッチを識別する工程と、
    前記第1の画像パッチと前記第2の画像パッチとの間の画像類似度スコアを求める工程と、
    前記画像類似度スコアを画像類似度閾値と比較する工程と
    を含む方法。
  4. 請求項1記載の方法であって、前記複数の認識結果をマージする工程は、第1のバウンディング・ボックスの第1のラベルを第2のバウンディングの第2のラベルと比較する工程を含み、前記第1のラベル及び前記第2のラベルはそれぞれ、前記認識結果における前記第1のバウンディング・ボックス及び前記第2のバウンディング・ボックスによって認識されたオブジェクトを識別する方法。
  5. 請求項1記載の方法であって、前記複数の認識結果をマージする工程は、第1のバウンディング・ボックス及び第2のバウンディング・ボックスをシーム・マスク画像と比較して、前記第1のバウンディング・ボックス又は前記第2のバウンディング・ボックスが前記スティッチングされた単一の画像の可視部分内に収まるか否かを判定する工程を含む方法。
  6. 請求項1記載の方法であって、前記複数の認識結果を生成する工程は、バウンディング・ボックス・サイズを、認識データベースに記憶されたオブジェクト・サイズと比較する工程を含む方法。
  7. システムであって、
    プロセッサと、
    命令を記憶するメモリとを備え、
    前記メモリは、
    複数の入力画像について複数の認識結果を生成するための認識モジュールであって、前記認識結果が、前記複数の入力画像内のオブジェクトを識別する認識モジュールと、
    前記複数の入力画像を、スティッチングされた単一の画像にスティッチングするためのジョイント・スティッチング・モジュールと、
    前記複数の認識結果をマージして、マージされた認識結果を生成するためのマージ・モジュールと
    を備え、
    前記マージ・モジュールは、
    より低い優先度を有する認識結果を除外する工程と、
    別の認識結果として、前記より低い優先度を有する前記認識結果を提供する工程と
    を行うよう構成されたシステム。
  8. 請求項記載のシステムであって、前記マージ・モジュールは、
    第1のバウンディング・ボックスの第1の領域を識別する工程と、
    第2のバウンディング・ボックスの第2の領域を識別する工程と、
    前記第1の領域と前記第2の領域との間の重なり面積を求める工程と、
    前記重なり面積を重なり閾値と比較する工程と
    を行うよう構成されたシステム。
  9. 請求項記載のシステムであって、前記マージ・モジュールは、
    第1のバウンディング・ボックスの第1の画像パッチを識別する工程と、
    第2のバウンディング・ボックスの第2の画像パッチを識別する工程と、
    前記第1の画像パッチと前記第2の画像パッチとの間の画像類似度スコアを求める工程と、
    前記画像類似度スコアを画像類似度閾値と比較する工程と
    を行うよう構成されたシステム。
  10. 請求項記載のシステムであって、前記マージ・モジュールは、第1のバウンディング・ボックスの第1のラベルを第2のバウンディング・ボックスの第2のラベルと比較する工程を行うよう構成され、前記第1のラベル及び前記第2のラベルはそれぞれ、前記認識結果における前記第1のバウンディング・ボックス及び前記第2のバウンディング・ボックスによって認識されオブジェクトを識別するシステム。
  11. 請求項記載のシステムであって、前記マージ・モジュールは、第1のバウンディング・ボックス及び第2のバウンディング・ボックスをシーム・マスク画像と比較して、前記第1のバウンディング・ボックス又は前記第2のバウンディング・ボックスが前記スティッチングされた単一の画像の可視部分内に収まるか否かを判定する工程を含むシステム。
  12. 請求項記載のシステムであって、前記認識モジュールは、バウンディング・ボックス・サイズを、認識データベースに記憶されたオブジェクト・サイズと比較するよう構成されたシステム。
  13. プログラムであって、前記プログラムが、1つ又は複数のプロセッサによって処理されると、前記プログラムは、前記1つ又は複数のプロセッサに、
    複数の入力画像について複数の認識結果を生成する工程であって、前記認識結果が前記入力画像内のオブジェクトにおけるオブジェクトを識別する工程と、
    前記複数の入力画像を、スティッチングされた単一の画像にスティッチングする工程と、
    前記複数の認識結果をマージして、マージされた認識結果を生成する工程と、
    前記マージされた認識結果を出力する工程と
    を行わせ
    前記複数の認識結果をマージする工程は、
    より低い優先度を有する認識結果を除外する工程と、
    別の認識結果として、前記より低い優先度を有する前記認識結果を提供する工程と
    を含むプログラム
  14. 請求項13記載のプログラムであって、前記複数の認識結果をマージする工程は、
    第1のバウンディング・ボックスの第1の領域を識別する工程と、
    第2のバウンディング・ボックスの第2の領域を識別する工程と、
    前記第1の領域と前記第2の領域との間の重なり面積を求める工程と、
    前記重なり面積を重なり閾値と比較する工程と
    を含むプログラム
  15. 請求項13記載のプログラムであって、前記複数の認識結果をマージする工程は、
    第1のバウンディング・ボックスの第1の画像パッチを識別する工程と、
    第2のバウンディング・ボックスの第2の画像パッチを識別する工程と、
    前記第1の画像パッチと前記第2の画像パッチとの間の画像類似度スコアを求める工程と、
    前記画像類似度スコアを画像類似度閾値と比較する工程と
    を含むプログラム
  16. 請求項13記載のプログラムであって、前記複数の認識結果をマージする工程は第1のバウンディング・ボックスの第1のラベルを第2のバウンディング・ボックスの第2のラベルと比較する工程を含み、前記第1のラベル及び前記第2のラベルはそれぞれ、前記認識結果における前記第1のバウンディング・ボックス及び前記第2のバウンディング・ボックスによって認識されたオブジェクトを識別するプログラム
  17. 請求項13記載のプログラムであって、前記複数の認識結果をマージする工程は、第1のバウンディング・ボックス及び第2のバウンディング・ボックスをシーム・マスク画像と比較して、前記第1のバウンディング・ボックス又は前記第2のバウンディング・ボックスが前記スティッチングされた単一の画像の可視部分内に収まるか否かを判定する工程を含むプログラム
  18. 請求項13乃至17のうちのいずれか一項記載のプログラムを記憶している記憶媒体。
JP2015037945A 2014-02-28 2015-02-27 複数の画像からの商品の認識のための方法 Active JP6575079B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201461946225P 2014-02-28 2014-02-28
US61/946,225 2014-02-28
US14/316,627 US9495606B2 (en) 2014-02-28 2014-06-26 Method for product recognition from multiple images
US14/316,627 2014-06-26

Publications (2)

Publication Number Publication Date
JP2015165400A JP2015165400A (ja) 2015-09-17
JP6575079B2 true JP6575079B2 (ja) 2019-09-18

Family

ID=52629385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015037945A Active JP6575079B2 (ja) 2014-02-28 2015-02-27 複数の画像からの商品の認識のための方法

Country Status (3)

Country Link
US (2) US9495606B2 (ja)
EP (1) EP2913779B1 (ja)
JP (1) JP6575079B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184736B (zh) * 2015-09-09 2018-02-13 山东大学 一种窄重叠双视场高光谱成像仪的图像配准的方法
US9767387B2 (en) * 2015-09-09 2017-09-19 Accenture Global Services Limited Predicting accuracy of object recognition in a stitched image
CN105243637B (zh) * 2015-09-21 2019-01-25 武汉海达数云技术有限公司 一种基于三维激光点云进行全景影像拼接方法
US9986150B2 (en) 2015-09-30 2018-05-29 Ricoh Co., Ltd. Algorithm to estimate yaw errors in camera pose
US10104282B2 (en) 2015-09-30 2018-10-16 Ricoh Co., Ltd. Yaw user interface
US10607182B2 (en) * 2015-11-09 2020-03-31 Simbe Robotics, Inc. Method for tracking stock level within a store
KR102592076B1 (ko) * 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
US10445821B2 (en) 2015-12-18 2019-10-15 Ricoh Co., Ltd. Planogram and realogram alignment
US10592854B2 (en) 2015-12-18 2020-03-17 Ricoh Co., Ltd. Planogram matching
US9984451B2 (en) 2015-12-18 2018-05-29 Michael Gormish Linear grouping of recognized items in an image
CN109564651A (zh) * 2016-05-19 2019-04-02 思比机器人公司 用于自动生成将产品分配到商店内的货架结构的货架图的方法
JP6728404B2 (ja) 2016-05-19 2020-07-22 シムビ ロボティクス, インコーポレイテッドSimbe Robotics, Inc. 店舗の棚への製品の配置を追跡する方法
JP6896401B2 (ja) * 2016-11-25 2021-06-30 東芝テック株式会社 物品認識装置
KR102637736B1 (ko) * 2017-01-04 2024-02-19 삼성전자주식회사 그래픽스 처리 방법 및 시스템
MY194745A (en) 2017-01-24 2022-12-15 Angel Playing Cards Co Ltd Chip recognition system
WO2018194599A1 (en) * 2017-04-19 2018-10-25 CapsoVision, Inc. Method of image processing and display for images captured by a capsule camera
KR101885728B1 (ko) * 2017-05-19 2018-08-06 이화여자대학교 산학협력단 영상 스티칭 시스템, 방법 및 컴퓨터 판독 가능한 기록매체
US20190126941A1 (en) * 2017-10-31 2019-05-02 Wipro Limited Method and system of stitching frames to assist driver of a vehicle
US10852420B2 (en) * 2018-05-18 2020-12-01 Industrial Technology Research Institute Object detection system, autonomous vehicle using the same, and object detection method thereof
WO2019246452A1 (en) 2018-06-20 2019-12-26 Simbe Robotics, Inc Method for managing click and delivery shopping events
US20200065706A1 (en) * 2018-08-24 2020-02-27 Htc Corporation Method for verifying training data, training system, and computer program product
CN109242762A (zh) * 2018-08-27 2019-01-18 北京铂石空间科技有限公司 图像识别方法、装置、存储介质及电子设备
US10915788B2 (en) * 2018-09-06 2021-02-09 Sap Se Optical character recognition using end-to-end deep learning
JP7209280B2 (ja) * 2018-11-19 2023-01-20 ワム・システム・デザイン株式会社 情報処理装置、情報処理方法、及びプログラム
US11423570B2 (en) * 2018-12-26 2022-08-23 Intel Corporation Technologies for fusing data from multiple sensors to improve object detection, identification, and localization
US10970578B2 (en) * 2019-02-07 2021-04-06 Johnson Controls Fire Protection LP System and method for extracting information from a non-planar surface
US10796567B1 (en) * 2019-04-17 2020-10-06 Capital One Services, Llc Vehicle identification based on machine-readable optical marker
CN111539291B (zh) * 2020-04-16 2022-08-26 创新奇智(合肥)科技有限公司 基于雷达波的目标检测方法及装置、电子设备、存储介质
US20230274226A1 (en) * 2022-02-25 2023-08-31 Target Brands, Inc. Retail shelf image processing and inventory tracking system

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282230A (ja) * 1994-04-12 1995-10-27 Meidensha Corp 地図図面データの接合方法
US6128108A (en) * 1997-09-03 2000-10-03 Mgi Software Corporation Method and system for compositing images
JP3569163B2 (ja) * 1999-04-23 2004-09-22 株式会社日立製作所 移動物体監視装置
AUPQ212499A0 (en) * 1999-08-10 1999-09-02 Ajax Cooke Pty Ltd Item recognition method and apparatus
JP2002208005A (ja) * 2001-01-12 2002-07-26 Minolta Co Ltd 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US20030198386A1 (en) 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
US20050196070A1 (en) 2003-02-28 2005-09-08 Fujitsu Limited Image combine apparatus and image combining method
US7818679B2 (en) 2004-04-20 2010-10-19 Microsoft Corporation Method, system, and apparatus for enabling near real time collaboration on an electronic document through a plurality of computer systems
US7168618B2 (en) * 2004-08-12 2007-01-30 International Business Machines Corporation Retail store method and system
US20100171826A1 (en) * 2006-04-12 2010-07-08 Store Eyes, Inc. Method for measuring retail display and compliance
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
RU2007119908A (ru) * 2007-05-29 2008-12-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко. Адаптивный к галерее способ и система распознавания лиц
US7949568B2 (en) * 2007-08-31 2011-05-24 Accenture Global Services Limited Determination of product display parameters based on image processing
US9135491B2 (en) * 2007-08-31 2015-09-15 Accenture Global Services Limited Digital point-of-sale analyzer
US8630924B2 (en) * 2007-08-31 2014-01-14 Accenture Global Services Limited Detection of stock out conditions based on image processing
US20090192921A1 (en) * 2008-01-24 2009-07-30 Michael Alan Hicks Methods and apparatus to survey a retail environment
US9041508B2 (en) * 2008-08-08 2015-05-26 Snap-On Incorporated Image-based inventory control system and method
JP5116608B2 (ja) * 2008-08-20 2013-01-09 キヤノン株式会社 情報処理装置、制御方法、及びプログラム
JP5656567B2 (ja) * 2010-11-05 2015-01-21 キヤノン株式会社 映像処理装置および方法
JP5561214B2 (ja) * 2011-03-15 2014-07-30 オムロン株式会社 画像処理装置および画像処理プログラム
EP2820632B8 (en) 2012-03-02 2017-07-26 Leddartech Inc. System and method for multipurpose traffic detection and characterization
US9418352B2 (en) * 2012-06-29 2016-08-16 Intel Corporation Image-augmented inventory management and wayfinding
US9208378B2 (en) * 2012-09-28 2015-12-08 Ncr Corporation Methods of processing data from multiple image sources to provide normalized confidence levels for use in improving performance of a recognition processor
KR101776706B1 (ko) * 2012-11-30 2017-09-08 한화테크윈 주식회사 복수의 카메라 기반 사람계수장치 및 방법
US9292739B1 (en) * 2013-12-12 2016-03-22 A9.Com, Inc. Automated recognition of text utilizing multiple images

Also Published As

Publication number Publication date
EP2913779B1 (en) 2019-11-20
EP2913779A1 (en) 2015-09-02
US9740955B2 (en) 2017-08-22
US20150248591A1 (en) 2015-09-03
US20170124416A1 (en) 2017-05-04
JP2015165400A (ja) 2015-09-17
US9495606B2 (en) 2016-11-15

Similar Documents

Publication Publication Date Title
JP6575079B2 (ja) 複数の画像からの商品の認識のための方法
US9911213B2 (en) Panoramic image stitching using objects
EP3038028B1 (en) Sequencing products recognized in a shelf image
US9129435B2 (en) Method for creating 3-D models by stitching multiple partial 3-D models
JP6695502B2 (ja) 手術器具検出システムおよびコンピュータプログラム
US10424067B2 (en) Image processing apparatus, image processing method and storage medium
JP2017069956A (ja) ヨー・ユーザインターフェイス
US10395380B2 (en) Image processing apparatus, image processing method, and storage medium
US9990710B2 (en) Apparatus and method for supporting computer aided diagnosis
CN110222641B (zh) 用于识别图像的方法和装置
US20220375215A1 (en) Image analysis and processing pipeline with real-time feedback and autocapture capabilities, and visualization and configuration system
US10748282B2 (en) Image processing system, apparatus, method and storage medium
US10339690B2 (en) Image recognition scoring visualization
JP2017069957A (ja) カメラ姿勢におけるヨーエラー推定のアルゴリズム
JP2018026064A (ja) 画像処理装置、画像処理方法、システム
CN109934873A (zh) 标注图像获取方法、装置及设备
US10514825B2 (en) Image recognition result visualization over time
JP6785181B2 (ja) 物体認識装置、物体認識システム、及び物体認識方法
JP6623565B2 (ja) 棚割情報生成装置、棚割情報生成システム、棚割情報生成方法、撮像装置、およびプログラム
US20230130674A1 (en) Computer-readable recording medium storing learning program, learning method, and information processing apparatus
US20230127469A1 (en) Computer-readable recording medium storing inference program, computer-readable recording medium storing learning program, inference method, and learning method
US20240055103A1 (en) Labeling method and computing device therefor
JP6168872B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6695454B1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230137094A1 (en) Measurement device, measurement system, measurement method, and computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190805

R151 Written notification of patent or utility model registration

Ref document number: 6575079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151