JP6986576B2 - 物品識別方法及びシステム、電子機器 - Google Patents

物品識別方法及びシステム、電子機器 Download PDF

Info

Publication number
JP6986576B2
JP6986576B2 JP2019566841A JP2019566841A JP6986576B2 JP 6986576 B2 JP6986576 B2 JP 6986576B2 JP 2019566841 A JP2019566841 A JP 2019566841A JP 2019566841 A JP2019566841 A JP 2019566841A JP 6986576 B2 JP6986576 B2 JP 6986576B2
Authority
JP
Japan
Prior art keywords
article
image
result
information
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019566841A
Other languages
English (en)
Other versions
JP2021513690A (ja
Inventor
ゾウ,ウェンツァイ
オウヤン,ガオ
ユエ,ボーシュアン
ワン,ジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ArcSoft Corp Ltd
Original Assignee
ArcSoft Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ArcSoft Corp Ltd filed Critical ArcSoft Corp Ltd
Publication of JP2021513690A publication Critical patent/JP2021513690A/ja
Application granted granted Critical
Publication of JP6986576B2 publication Critical patent/JP6986576B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F11/00Coin-freed apparatus for dispensing, or the like, discrete articles
    • G07F11/72Auxiliary equipment, e.g. for lighting cigars, opening bottles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/22Measuring arrangements characterised by the use of optical techniques for measuring depth
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/208Input by product or record sensing, e.g. weighing or scanner processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07GREGISTERING THE RECEIPT OF CASH, VALUABLES, OR TOKENS
    • G07G1/00Cash registers
    • G07G1/0036Checkout procedures
    • G07G1/0045Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader
    • G07G1/0054Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles
    • G07G1/0063Checkout procedures with a code reader for reading of an identifying code of the article to be registered, e.g. barcode reader or radio-frequency identity [RFID] reader with control of supplementary check-parameters, e.g. weight or number of articles with means for detecting the geometric dimensions of the article of which the code is read, such as its size or height, for the verification of the registration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/201Price look-up processing, e.g. updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Control Of Vending Devices And Auxiliary Devices For Vending Devices (AREA)

Description

本願は、2019年1月8日に中国国家知識産権局に提出された、出願番号が201910016934.7であり、発明の名称が「物品識別方法及びシステム、電子機器」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。
本発明は、情報処理技術の分野に関し、具体的には、物品識別方法及びシステム、電子機器に関する。
関連技術では、スマート販売機は、新小売業界の発展の1つの重要な方向であり、物品を識別する場合、現在、主な手段として、従来のRFID(Radio Frequency Identification、無線自動識別)の技術手段と、視覚識別に基づく静的識別との2つの技術的手段がある。第1種のRFID電子タグに基づく解決手段は、異なる種別の物品に異なるRFID電子タグを設定する必要があり、無線信号により電子タグにおけるデータを識別して物品識別及び統計の目的を達成し、そのコストが高く、一方では、RFID電子タグのコストが高く、一方では、上市すると千万の物品にタグを貼り付ける人件費が非常に高く、また、金属、液体類の物品に対する識別正確度が低く、タグが人為的に引きはがされやすいことにより、貨物損失率が高くなる。一方、第2種の視覚識別に基づく静的識別の手段は、販売機の各層の頂部にカメラを取り付ける必要があり、ドアを開かれる前とドアを閉められた後にそれぞれ1枚の画像を撮影して、視覚識別技術により物品の種類及び数量を自動的に識別し、最後に、比較により最後の結果を得て、空間利用率が低く、これは、カメラから下層の仕切り板までの高さが高い必要があり、そうでなければ、全貌を撮影しにくくなり、識別精度が物品の遮蔽による影響を受けやすく、物品を積み重ねて置くことができないためである。
上記課題について、未だに有効な解決手段が提供されていない。
本開示の実施例は、関連技術における物品を識別する際の識別精度が低いという技術的課題を少なくとも解決する物品識別方法及びシステム、電子機器を提供する。
本発明の実施例の一態様は、画像取得装置により物品の複数フレームの画像を取得することと、前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することと、情報取得装置により前記物品の補助情報を取得することと、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することと、前記種別情報と前記融合結果に基づいて、前記物品の識別結果を決定することとを含む、物品識別方法を提供する。
選択的に、前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することは、前記物品の各フレームの画像に対して画像前処理を行うことと、画像前処理が行われた各フレームの画像における、少なくとも1つの物品が含まれた物品検出枠と、前記種別情報とを決定することと、前記物品検出枠に基づいて前記物品の位置情報を決定することとを含むことができる。
選択的に、前記方法は、前記物品検出枠に対して非最大値抑制を行うことをさらに含むことができる。
選択的に、前記方法は、画像取得装置により目標部位の複数フレームの画像を取得することと、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することとをさらに含むことができる。
選択的に、前記各フレームの画像における前記目標部位の位置情報及び判別結果、前記物品の前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定することができる。
選択的に、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することは、前記目標部位の各フレームの画像に対して画像前処理を行って、ユーザの目標部位の画像輪郭を強調することと、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することと、前記部位候補領域における特徴情報を抽出して、複数の部位特徴を得ることと、予めトレーニングされた分類器により前記複数の部位特徴を識別して、各フレームの画像における前記目標部位の位置情報及び判別結果を得ることとを含むことができる。
選択的に、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することは、サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定することを含むことができる。
選択的に、前記方法は、前記物品に対して細粒度分類を行うことをさらに含むことができる。
選択的に、前記情報取得装置は、深度カメラ、カードリーダ、重力装置、匂いセンサのうちの少なくとも1つを含むことができる。
選択的に、前記情報取得装置が前記深度カメラである場合、前記深度カメラにより、深度画像を取得し、前記物品の補助情報には深度情報が含まれることができる。
選択的に、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することは、前記画像取得装置及び前記深度カメラのレンズパラメータ及び位置パラメータを取得することと、前記深度カメラのレンズパラメータ、前記深度情報、及び前記深度画像における前記物品の位置に基づいて、前記深度カメラ座標系における前記物品の位置を取得することと、前記画像取得装置及び前記深度カメラの位置パラメータに基づいて、前記深度カメラの座標系を基準として、前記画像取得装置の前記深度カメラに対する相対的な位置関係を標定することと、前記レンズパラメータ、前記深度画像における前記物品の位置、前記深度情報、及び前記相対的な位置関係に基づいて、前記深度画像における前記物品の位置を前記画像取得装置で取得された画像における前記物品の位置に対応させるマッピング位置情報を決定することと、前記位置情報と前記マッピング位置情報とを比較して、前記融合結果を得ることとを含むことができる。
選択的に、画像取得装置により物品の複数フレームの画像を取得することは、前記画像取得装置を起動して前記物品のビデオを取得することと、前記ビデオから前記物品の複数フレームの画像をキャプチャすることとを含むことができる。
選択的に、前記方法は、前記融合結果に基づいて、物品の追跡軌跡を決定することと、前記追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得ることと、前記軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定することと、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新することとをさらに含むことができる。
選択的に、前記融合結果に基づいて、物品の追跡軌跡を決定することは、前記融合結果に基づいて、前記物品の位置情報及び前記物品の移動傾向を取得することと、前記物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得ることとを含み、前記予測された候補枠は、直前のフレームの前記物品の位置情報を基に、前記物品の移動傾向に基づいて取得され、前記追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含むことができる。
選択的に、前記追跡軌跡を分類して、軌跡分類結果を取得するステップは、前記追跡軌跡から物品移動の長さを抽出することと、予めトレーニングされた分類決定木モデルと前記物品移動の長さとを組み合わせて、前記追跡軌跡を分類して、軌跡分類結果を取得することとを含むことができる。
選択的に、前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップは、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得することと、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立することと、前記分類判別スキーム及び前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定することとを含むことができる。
選択的に、前記方法は、各種の物品の価格を含む物品価格表を取得することと、物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定することと、取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定することとをさらに含むことができる。
選択的に、前記方法は、無人販売店舗、スマート販売機を少なくとも含む新小売シーンに設定されるべきである。
本発明の実施形態の別の態様は、物品の複数フレームの画像を取得するように構成される画像取得装置と、前記物品の補助情報を取得するように構成される情報取得装置と、前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得し、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得してから、前記種別情報と前記融合結果に基づいて前記物品の識別結果を決定するように構成されるサーバとを含む、物品識別システムをさらに提供する。
選択的に、前記画像取得装置は、さらに、目標部位の複数フレームの画像を取得するように構成されることができる。
選択的に、前記サーバは、さらに、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得し、前記各フレームの画像における前記目標部位の位置情報及び判別情報、前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定するように構成されることができる。
選択的に、開かれた場合に、前記画像取得装置及び前記情報取得装置が起動する物品貯蔵装置をさらに含むことができる。
本発明の実施形態の別の態様は、プロセッサと、前記プロセッサの実行可能な命令を記憶するように構成されるメモリとを含む電子機器であって、前記プロセッサは、前記実行可能な命令を実行することにより、上記いずれか一項に記載の物品識別方法を実行するように構成される電子機器をさらに提供する。
本発明の実施例の別の態様は、記憶されたプログラムを含む記憶媒体において、前記プログラムは実行される場合、前記記憶媒体の存在する装置を制御して上記いずれか一項に記載の物品識別方法を実行する記憶媒体をさらに提供する。
本発明の実施例において、画像取得装置により物品の複数フレームの画像を取得し、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、情報取得装置により物品の補助情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を取得して、種別情報と融合結果に基づいて物品の識別結果を決定する。この実施例において、複数フレームの画像の取得を実現し、分析することで物品の位置情報及び種別情報を取得し、物品の補助情報と組み合わせて、物品を正確に識別でき、同様に、ユーザにより取り出された物品の種類と物品の数を正確に識別でき、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。
ここで説明する図面は、本発明を一層理解させるためのもので、本願の一部を構成し、本発明の例示的な実施例及びその説明は、本発明を解釈するもので、本発明を限定するものではない。
本発明の実施例に係る一例の物品識別システムの概略図である。 本発明の実施例に係る一例の物品識別方法のフローチャートである。 本発明の実施例に係る物品識別を実現する概略図である。 本発明の実施例に係る画像のうちの目標部位を識別する概略図である。
以下、当業者に本発明の技術手段を更によく理解させるために、本発明の実施例における図面を組み合わせて、本発明の実施例における技術手段を明確かつ完全に説明し、明らかに、説明される実施例は、本発明の一部の実施例に過ぎず、全ての実施例ではない。本発明の実施例に基づいて、当業者が創造性のある行為をしていないことを前提として得られる全ての他の実施例は、いずれも本発明の保護範囲に入るべきである。
なお、本発明の明細書、特許請求の範囲及び上記図面に記載の「第1」、「第2」などの用語は、類似する対象を区別するためのもので、特定の順又は前後順を限定するものではない。ここで説明する本発明の実施例を図面に示すか又は説明した順とは異なる順でも実現できるように、このように使用されるデータは適切な状況で交換可能であることを理解すべきである。また、「含む」、「有する」の用語及びそれらの変形は、非排他的に含むことをカバーするものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、それらのステップ又はユニットを明確に例示したものに限定されず、明確に例示していない又はこれらのプロセス、方法、製品又は機器固有の他のステップ又はユニットを含んでもよいことを表す。
以下、本発明の理解を容易にするために、本発明の各実施例に係る一部の用語又は名詞を説明する。
新小売とは、インターネットに依存して、ビッグデータ、人工知能などの技術手段により、物品の生産、流通と販売過程をアップグレードし、オンラインサービス、オフライン体験、及び現代物流を深く融合することを指す。
RFIDとは、無線自動識別(Radio Frequency Identification、RFID)であり、RFID電子タグとも呼ばれ、特定の目標を無線信号で識別して関連データを読み書くことができ、識別システムと特定の目標との間で機械的又は光学的な接触を確立する必要がない。
スマート販売機とは、視覚識別技術が搭載された販売機である。
貨物損失率とは、販売機における運営過程で損失された物品の数が総品数に占める割合である。
TOF深度カメラとは、Time of Flight深度カメラであり、3Dカメラとも呼ばれ、従来のカメラとの相違点は、該カメラが被写体の階調情報と深度を含む3次元情報とを同時に撮影できる点である。
NMSとは、Non Maximum Suppression、非最大値抑制である。
カメラとは、本文では、専用のカメラを指す。
複数フレームの画像とは、画像又はビデオに基づいて取得された少なくとも1つのフレームを含む画像である。
本発明の実施例は、新小売の様々な実施シーンに適用でき、例えば、新小売におけるスマート販売機の利用について、関連技術における、物品の識別過程で画像取得装置で取得された画像における、ユーザにより取り出された物品の種類及び数を正確に識別できず、ドアが開らかれる前とドアが閉められた後にそれぞれ1枚の画像を撮影し、その後、視覚識別技術により物品の種類及び数を自動的に識別し、最後に比較により最後の結果を取得するだけでは、取り出された物品が1枚の画像により識別できなくなることに対して、本発明の実施例において、スマート販売機に複数のカメラを取り付け、かつドアが開らかれ後のビデオを撮影し、ビデオの複数フレームの画像を分析し、画像に対してマルチモーダル融合を行うことにより、ユーザにより取り出された物品の種類及び物品のデータを正確に識別し、スマート販売機の物品識別のインテリジェント化のレベルを上げ、貨物損失率を低下させることができる。
以下、詳細な実施例により本発明を説明する。
本発明の実施例は、新小売などの分野に適用でき、具体的な使用範囲は、スマート販売機、スマートキャビネット、マーケット、スーパーマーケットなどの領域であってもよく、本発明は、スマート販売機で本発明を概略的に説明できるが、これらに限定されない。
図1は、本発明の実施例に係る一例の物品識別システムの概略図であり、図1に示すように、当該システムは、画像取得装置11と、画像取得装置12と、サーバ13とを含む。
画像取得装置11は、物品の複数フレームの画像を取得するように構成される。好ましくは、画像取得装置は、一例として、販売機又はマーケットなどの領域に取り付けることができ、画像取得装置は、少なくとも1つ配置される。一例として、本発明の実施例において、画像取得装置は、一般的なカメラ、例えば、RGBカメラ、赤外線カメラなどであってもよい。当然のことながら、当業者であれば、実際の需要に応じて画像取得装置の種類及び数を調節可能であり、ここで示された例に限定されず、画像取得装置の数が2以上である場合、いずれも同じ種類の画像取得装置を用いるか、又は異なる種類の画像取得装置の組み合わせを用いることができる。
情報取得装置12は、物品の補助情報を取得するように構成される。情報取得装置は、画像取得装置の周囲に設けられ、画像取得装置と連携して使用でき、設けられた情報取得装置の数が少なくとも1つである。一例として、本発明の実施例において、情報取得装置は、深度情報を取得するように構成される深度カメラと、物品の識別コードを走査するように構成されるカードリーダと、重力情報を取得するように構成される重力装置(例えば、重力板)と、匂い情報を取得するように構成される匂いセンサなどを含むことができる。具体的には、深度カメラは、TOF深度カメラ、2眼式カメラ、構造光カメラなどを含む。当然のことながら、当業者であれば、実際の需要に応じて情報取得装置の種類及び数を調節可能であり、ここで示された例に限定されず、情報取得装置の数が2以上である場合、いずれも同じ種類の情報取得装置を用いるか、又は異なる種類の情報取得装置の組み合わせを用いることができる。
例えば、上記情報装置が重力装置である場合、重力装置の異なる時刻に取得した重力情報を比較することにより、商品が取り出されたか否か、及び、どの商品が大まかに取り出されたかを判断することができる。当該重力装置は、物品貯蔵装置に設けられることができる。重力装置により検出された重力情報により、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定する。
例えば、上記情報装置が匂いセンサである場合、匂いセンサにより物品の匂い情報を取得し、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定することができる。当該匂いセンサは、物品貯蔵装置に設けられることができる。
サーバ13は、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得てから、物品の種別情報と融合結果に基づいて物品の識別結果を決定するように構成される。
上記物品識別システムは、画像取得装置11で物品の複数フレームの画像を取得し、情報取得装置12により物品の補助情報を取得し、最後にサーバ13により物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得てから、種別情報と融合結果に基づいて物品の識別結果を決定する。画像における物品の位置及び種別を識別し、情報取得装置により取得された補助情報とのマルチモーダル融合を行うことにより、物品の識別結果を正確に得て、同様に、販売機の、ユーザにより取り出された物品の種類及び物品の数を正確に識別でき、物品の識別率を向上させ、貨物損失率を低下させて、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。
画像取得装置の配置個数及び画像取得装置の配置個数は、各使用領域と使用されている装置に応じて合理的に配置でき、例えば、1つのスマート販売機に対して、2つの画像取得装置と1つの情報取得装置を配置することができる。
好ましくは、情報取得装置は、TOF深度カメラであり、物品の深度画像を取得するように構成されており、深度情報は物品の補助情報に含まれている。すなわち、深度カメラによって物品の深度画像を収集して、物品の配置に係わる深度情報を得ることができ、これにより重なったり遮蔽されたりした物品を効果的に識別することができる。
本願の一例である実施例として、上記物品識別システムは、画像取得装置を用いて目標部位の複数フレームの画像を取得することをさらに含む。本願において、目標部位は、手、マニピュレーター、義肢、又は物品を取り出すことができる他の人体部位、機械装置などであってもよく、すなわち、本願は、ユーザが手で物品を取り出す際の画像を検出でき、ユーザの目標部位の画像を検出することにより、目標部位の位置を分析することができる。
別の一例として、上記サーバは、さらに、目標部位の複数フレーム画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を取得し、各フレームの画像における目標部位の位置情報及び判別結果、物品の種別情報及び融合結果に基づいて、物品の識別結果を決定するように構成される。すなわち、目標部位の位置情報及び判別結果により、画像取得装置と情報取得装置とで取得された画像を組み合わせて、物品の種別情報及び融合結果を分析して、物品の識別精確度を向上させることができる。当該目標部位の検出により、ユーザにより取り出された物品の種類及び物品の数を得ることもできる。
一例として、上記判別結果は、目標部位であるか否かを判別することを示す。
好ましくは、目標部位の検出は、手の検出であることができる。本発明の下記実施例は、ユーザの手をユーザの目標部位として説明し、各フレームの画像における手の位置を検出することができる。
本願の一例である実施例として、上記物品識別システムは、開かれた場合に、画像取得装置及び情報取得装置が起動する物品貯蔵装置をさらに含む。
一例として、物品貯蔵装置は、物品を貯蔵する機器、装置を示し、本願において、物品貯蔵装置は、上記スマート販売機を含むが、これに限定されない。
本発明の実施例の物品識別システムにより、物品貯蔵装置の開き情報をトリガー情報とし、画像取得装置と情報取得装置を同時に起動することにより、物品の複数フレームの画像と物品の補助情報をそれぞれ収集して、複数フレームの画像と補助情報を分析して、物品の位置、種別などの情報を取得して、補助情報とのマルチモーダル融合を行って、物品の識別結果を得ることができる。画像取得装置により目標部位の複数フレームの画像を検出し、目標部位を検出して、各フレームの画像における目標部位の位置情報及び判別結果に基づいて、画像取得装置と情報取得装置とで取得された画像を組み合わせて、物品の種別情報及び融合結果を分析して、物品の識別結果をより正確に得て、物品の識別精度を向上させることができる。
以下、本発明の実施例に係る上記物品識別システムに適用される物品識別方法の実施例を説明する。
本発明の実施例は、物品識別方法の実施例を提供する。なお、図面のフローチャートに示されるステップは、一セットのコンピュータ実行可能な命令を含むコンピュータシステムにおいて実行でき、また、フローチャートにおいて論理的な順序が示されるが、幾つかの場合では、こことは異なる順序で、示されるか又は説明されるステップを実行してもよい。
図2は、本発明の実施例に係る一例である物品識別方法のフローチャートであり、図2に示すように、当該方法は、
画像取得装置により物品の複数フレームの画像を取得するステップS202と、
物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得するステップS204と、
情報取得装置により物品の補助情報を取得するステップS206と、
位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得るステップS208と、
種別情報と融合結果に基づいて、物品の識別結果を決定するステップS210とを含む。
上記ステップにより、画像取得装置により物品の複数フレームの画像を取得し、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、情報取得装置により物品の補助情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行うことで、融合結果を取得して、種別情報と融合結果に基づいて物品の識別結果を決定することができる。該実施例において、複数フレームの画像の取得を実現し、分析することで物品の位置情報及び種別情報を取得し、物品の補助情報と組み合わせて、物品を正確に識別でき、同様に、ユーザにより取り出された物品の種類と物品の数を正確に識別でき、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。
本発明の実施例において、物品識別方法は、無人販売店舗におけるスマート販売機の販売、スーパーマーケットのショッピングにおけるスマート販売機の販売を少なくとも含む新小売シーンに適用できる。
以下、上記各ステップについて詳細に説明する。
ステップS202では、画像取得装置により物品の複数フレームの画像を取得する。
本願において、一例である本発明の実施例において、画像取得装置は、一般的なカメラ、例えば、RGBカメラ、赤外線カメラ、カメラなどであってもよい。当然のことながら、当業者であれば、実際の需要に応じて画像取得装置の種類及び数を調節可能であり、ここで示された例に限定されず、画像取得装置の数が少なくとも1つであり、画像取得装置の数が2以上である場合、いずれも同じ種類の画像取得装置を用いるか、又は異なる種類の画像取得装置の組み合わせを用いることができる。各画像取得装置は、いずれも少なくとも2枚の画像を撮像でき、識別する際、画像取得装置同士の画像の撮像時点を一致させる必要があり、つまり、同一時点の画像を分析して複数の角度から物品を識別する。
一例として、物品の数は、少なくとも1つであり、物品は、物品貯蔵装置内に配置でき、例えば、物品は、スマート販売機に収納される。物品貯蔵装置は、スマート販売機を含むが、これに限定されない。
別の一例としては、物品貯蔵装置が開かれたことを検出した後、画像取得装置及び情報取得装置を起動させることができる。
一例である実施例において、画像取得装置により物品の複数フレームの画像を取得することは、画像取得装置を起動して物品のビデオを取得することと、ビデオから物品の複数フレームの画像をキャプチャすることとを含む。すなわち、物品貯蔵装置が開かれた後、画像取得装置により物品貯蔵装置内のビデオをリアルタイムに取得し、物品貯蔵装置が閉じられたこと、或いは、ユーザによる取り出し動作が停止したことが検出された後、ビデオから複数フレームの画像を取得することができる。
ステップS204では、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得する。
本発明の実施例において、画像を処理する場合、画像における物品の存在する位置及び種別を重点的に識別し、位置情報を分析する場合、画像における物品の現在位置を重点的に分析するか、又は物品の現在位置と前の幾つかのフレームの画像における物品の存在する位置との間の関係を分析することができる。
本発明の実施例において、画像を処理する場合、画像における物品の存在する位置と物品の種別を識別することと、画像における目標部位の存在する位置を識別することとの2つのケースを含む。
第1のケースは、画像における物品の存在する位置と物品の種別を識別することである。
一例として、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得することは、物品の各フレームの画像に対して、画像強調、画像拡大縮小、画像平均値減算のうちの少なくとも1つを含む画像前処理を行うことと、画像前処理が行われた各フレームの画像における、少なくとも1つの物品が含まれた物品検出枠と、種別情報とを決定することと、物品検出枠に基づいて物品の位置情報を検出することとを含む。
一例として、上記の画像前処理が行われた各フレームの画像における物品検出枠を決定する前に、複数の物品候補枠(prior box)を抽出してから、物品候補枠の深層学習及び分析を行って、物品検出枠及び物品の種別情報を決定することができる。
ここで、物品検出枠を分析する場合、物品候補枠と目標部位の存在する位置とを組み合わせて、物品検出枠を高精度に識別することができる。
別の一例として、上記物品識別方法は、誤検出を防止し、物品の識別精度を向上させるために、物品検出枠に対して非最大値抑制を行うことをさらに含む。
すなわち、画像における物品を識別する場合、まず、画像強調、拡大縮小及び平均値減算などの操作を含む画像の前処理を行い、次に、物品検出枠を抽出し、抽出された物品検出枠に対して非最大値抑制(NMS)を行って、誤検出を防止し、物品の識別精度を向上させることができる。
別の一例である実施例において、上記物品識別方法は、物品の識別精度を向上させるために、物品に対して細粒度分類を行うことをさらに含む。すなわち、物品に対して細粒度分析を行うことにより、物品識別情報を得ることができる。一例として、類似物品対して細粒度分類を行い、類似物品同士の微小な相違を分析することにより、物品の識別精度を向上させる。一例として、本発明の実施例に係る物品の種類は、野菜類、果物類、スナック食品類、新鮮な肉類、魚介類などを含むが、これらに限定されない。
図3は、本発明の実施例に係る物品識別を実現する概略図であり、図3に示すように、物品を識別する場合、まず、画像取得装置により撮影されたビデオを入力することができ、ビデオをトリミングした後、画像を前処理し、物品候補枠を抽出し、目標部位に対する検出と組み合わせて、抽出された物品検出枠を分析して物品検出枠を得てから、物品検出枠に対して非最大値抑制を行うことができ、最後に、細粒度分類とマルチモーダル融合技術を用いて、物品の識別結果を決定することができる。
第2のケースは、画像における目標部位の存在する位置を識別することである。
本発明の実施例において、手を目標部位として説明することができる。
本発明の一例である実施例として、上記物品識別方法は、画像取得装置により目標部位の複数フレームの画像を取得することと、目標部位の複数フレームの画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を得ることとをさらに含む。
本発明の別の一例である実施例において、目標部位の複数フレームの画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を得ることは、目標部位の各フレームの画像に対して、画像ノイズ低減、画像強調、コントラスト強調、画像平滑化、画像鮮鋭化などの1つ以上の処理方式のうちの少なくとも1つを含む画像前処理を行って、ユーザの目標部位の画像輪郭を強調することと、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することと、部位候補領域における特徴情報を抽出して、複数の部位特徴を得ることと、予めトレーニングされた分類器により複数の部位特徴を識別して、各フレームの画像における目標部位の位置情報及び判別結果を得ることとを含む。
本発明の実施例における該画像前処理は、主に、目標部位の各フレームの画像に対して画像前処理を行うことであり、画像前処理(画像ノイズ低減、画像強調を含むことができる)などの操作により、手の部位に対して、コントラスト強調、画像平滑化、ノイズフィルタリング、画像鮮鋭化を含む強調を行って、目標の輪郭を強調する。
上記の画像前処理を完了したら、複数の部位候補領域を決定でき、例えば、複数のジェスチャ候補領域(Region of Interest、ROI)を決定し、カメラのグローバルセンシング範囲において、幾つかの可能なジェスチャ候補領域を選択する。
一例として、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することは、サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定することを含む。すなわち、サブウィンドウを利用して全画像を走査し、画像高さの1/nを手の最小サイズとして選択し、これを基にサブウィンドウのサイズを一定の倍率で段階的に増加させることができる。
上記ジェスチャ候補領域は、手による可能な動きを識別するものを示し、これらのジェスチャ候補領域を決定する場合、一般的に、腕の位置、販売機の位置のようなこれらの要因を参照する。
本発明の選択可能な一例として、部位候補領域における特徴情報を抽出して、複数の部位特徴を得る場合、例えば、手が物品を取り出している可能性があるジェスチャ又は物品を取り戻そうとするジェスチャを識別することができる。
一例として、上記分類器は、予めトレーニングされた部位分類モデルであり、例えば、部位分類モデルがジェスチャ分類モデルであることを決定し、抽出された手の特徴をトレーニング済みの分類器モデルに入力した後、手を識別し、画像における手の完全なサイズ、手の位置、手の輪郭を決定することができる。当然のことながら、本発明の実施例において、さらに、頭部、肩部などの部位特徴を識別して、物品と物品貯蔵装置とユーザとの間の相対位置をより精確に分析することができる。
図4は、本発明の実施例に係る画像における目標部位を識別する概略図であり、図4に示すように、画像を識別する場合、画像取得装置により物品のビデオを取得し、分析して複数フレームの画像を得て、撮影された画像に対して画像前処理を行い、複数の部位候補領域を抽出して、各部位候補領域に対して特徴抽出及び説明を行い、分類器を利用してジェスチャを検出し識別し、最後に、識別結果を出力し、意思決定を行うことができる。
上記実施形態は、ROI候補領域を抽出した後、全ての目標を均等な判別サイズにスケーリングし、それらの様々な特徴を計算し、各目標に1組の特徴を分類の基礎として選択して、トレーニング済みの分類器に特徴を入力して、目標候補領域を識別することを指示した。
一例として、各フレームの画像における目標部位の位置情報及び判別結果に基づいて、画像取得装置及び情報取得装置で取得された画像を組み合わせて、物品の種別情報及び融合結果を分析して、物品の識別結果を決定する。
ステップS206では、情報取得装置により物品の補助情報を取得する。
一例として、本発明の実施例において、情報取得装置は、深度情報を取得するように構成される深度カメラと、物品識別コードを走査するように構成されるカードリーダと、重力情報を取得するように構成される重力装置(例えば、重力板)と、匂い情報を取得するように構成される匂いセンサなどを含み、具体的には、深度カメラは、TOF深度カメラ、2眼式カメラ、構造光カメラなどを含む。当然のことながら、当業者であれば、実際の需要に応じて情報取得装置の種類及び数を調整可能であり、ここで示された例に限定されず、情報取得装置の数が2以上である場合、いずれも同じ種類の情報取得装置を用いるか、又は異なる種類の情報取得装置の組み合わせを用いることができる。
例えば、上記情報装置が重力装置である場合、重力装置の異なる時刻に取得した重力情報を比較することにより、商品取り出されたか否か、及び、どの商品が大まかに取られたかを判断することができる。当該重力装置は、物品貯蔵装置に設けられることができる。重力装置により検出された重力情報により、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定する。
例えば、上記情報装置が匂いセンサである場合、匂いセンサにより物品の匂い情報を取得し、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定することができる。当該匂いセンサは、物品貯蔵装置に設けられることができる。
一例として、情報取得装置は、深度カメラであり、物品の深度画像を取得するように構成さており、物品の補助情報は深度情報を含む。すなわち、選択された深度カメラにより物品の深度情報を取得でき、例えば、ユーザにより複数の物品が取り出された後、物品が重なったり遮蔽されたりし、その場合、画像取得装置により取得された画像により、遮蔽された物品を正確に分析できず、該情報取得装置により、物品の補助情報(例えば、深度情報)を取得でき、補助情報を分析して、物品の分析結果を得ることができる。
ステップS208では、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得る。
本発明の別の一例である実施例として、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を取得することは、画像取得装置及び深度カメラにおける、カメラの焦点距離、カメラの中心点を少なくとも含むレンズパラメータと、前記深度画像における前記物品の位置を示すように設定され、各画像取得装置又は深度カメラの取り付け座標を少なくとも含む位置パラメータとを取得することと、深度カメラのレンズパラメータ、深度情報、及び深度画像における物品の位置に基づいて、深度カメラ座標系における物品の位置を取得することと、画像取得装置及び深度カメラの位置パラメータに基づいて、深度カメラの座標系を基準として、画像取得装置の前記深度カメラに対する相対的な位置関係を標定することと、レンズパラメータ、深度画像における物品の位置、深度情報、及び相対的な位置関係に基づいて、深度画像における物品の位置を前記画像取得装置で取得された画像における物品の位置に対応させるマッピング位置情報を決定することと、位置情報とマッピング位置情報とを比較して、融合結果を得ることとを含む。
以下、マルチモーダル融合について説明する。マルチモーダル融合は、深度情報に基づいて識別結果を融合することであり、本発明の実施例におけるマルチモーダル融合は、一般的なカメラと深度カメラの2種類のカメラにより撮影された画像を対象とする。
2つの画像取得装置(一般的なカメラとして定義され、すなわち、カメラ1とカメラ3)と1つの深度カメラ(深度カメラ2)を例として説明する。カメラ装置の出荷前に、3つのカメラにおける、カメラの焦点距離、カメラの中心点などを含むレンズパラメータと、位置パラメータとを取得し、深度カメラ2のレンズパラメータ、位置パラメータに基づいて、深度カメラ2における物品の座標を取得し、深度カメラ2の座標系を基準として、画像取得装置の深度カメラ2に対する相対的な位置関係を標定し、そして、レンズパラメータ、深度画像における物品の位置、深度情報、及び相対的な位置関係に基づいて、物品の深度カメラ2における座標に応じて、物品の画像取得装置(すなわち、カメラ1、カメラ3)におけるマッピング位置情報を決定し、最後に位置情報とマッピング位置情報とを比較して融合結果を得る。
カメラモデルでは、ピンホール結像原理に基づいて、3次元点の画像における位置とカメラ座標系における位置は、以下の関係を満たす。
Figure 0006986576
上記関係に基づいて、深度カメラに対して、次の式が存在する。
Figure 0006986576
同様に、カメラ1、3に対して、それぞれ次の式が存在する。
Figure 0006986576
Figure 0006986576
本発明の実施例において、深度カメラ2の座標系を基準として、カメラ1及び3の深度カメラ2に対する相対的な位置関係T12及びT32を標定でき、ここで、T12は、深度カメラ2の座標系とカメラ1の座標系との間の相対的な位置関係を示し、T32は、深度カメラ2の座標系とカメラ3の座標系との間の相対的な位置関係を示す。
Figure 0006986576
Figure 0006986576
Figure 0006986576
Figure 0006986576
上記式により、深度カメラにおける物品の結像点の他のカメラにおける結像点は、深度カメラで撮像された物品を他の一般的なカメラにマッピングし、カメラ同士が撮影した物品の種類及び物品の数に誤差があるか否かを比較し、誤差があれば、サーバが再度計算し、比較して、識別された物品結果を決定する必要がある。
上記マルチモーダル融合により、画像における物品の正確な識別を実現して、画像における物品の融合結果を得ることができる。
ステップS210では、種別情報と融合結果に基づいて、物品の識別結果を決定する。
すなわち、予め分析された物品種別、及び物品識別の融合結果に基づいて、物品の識別結果を得ることができ、本願は、物品種別、各物品種別の物品の数、具体的な物品を重点的に得ることができる。
ビデオの全体を分析した後、連続された複数フレームの画像を分析して、物品が取り出されルデータ及び戻されるデータを決定することができる。
本発明の実施例において、取り出された商品と戻された商品を決定することは、3つの方式を含む。
一番目は、複数フレームの画像における物品の識別結果に基づいて、取り出された商品と戻された商品を決定することである。
本発明の実施例において、物品の取り出し及び物品の戻しを分析する場合、方法は、融合結果に基づいて、物品の追跡軌跡を決定することと、追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得ることと、軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定することと、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新することとをさらに含む。
すなわち、第1ステップである情報取得装置と画像取得装置に基づく軌跡追跡ステップ、第2ステップである機械学習に基づく軌跡分類ステップ、第3ステップである軌跡分類結果の判別ステップという3つのステップに分けることができる。軌跡追跡を行う場合、一例として、融合結果に基づいて、物品の追跡軌跡を決定することは、融合結果に基づいて、物品の位置情報及び物品の移動傾向を取得することと、物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得ることとを含み、予測された候補枠は、直前のフレームの物品の位置情報を基に、物品の移動傾向に基づいて取得され、追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含む。
RGB画像を撮影するRGBカメラを画像取得装置とし、深度カメラを情報取得装置として説明する。深度カメラとRGBカメラの情報とのマルチモーダル情報融合により、システムは、物品の位置情報及び物品の移動傾向を取得し、前記物品の現在の検出枠と予測された候補枠との重なり類似度、並びに物品の現在の検出枠と予測された候補枠との特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断し、以下の式に示す。
r=αIOU(BBoxcurrent,BBoxpredict)+βf(BBoxcurrent,BBoxpredict
ここで、rは、直前のフレームの検出結果と現在のフレームの検出結果とのマッチング率であり、IOU(BBoxcurrent,BBoxpredict)は、現在の物品検出枠と予測された候補枠との空間的な重なり類似度であり、f(BBoxcurrent,BBoxpredict)は、現在の物品検出枠と予測された候補枠との特徴類似度であり、α及びβは、それぞれ、重なり類似度と特徴類似度の重み係数であり、ここで、予測された候補枠は、直前のフレームの物品の位置情報を基に物品の移動傾向に応じて取得される。
連続された検出結果の軌跡を連結して、完全な追跡軌跡を形成し、当該追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含み、すなわち、各時間ノードは、商品の位置、種類、タイムスタンプを含む。
軌跡分類について、すなわち、第2ステップである機械学習に基づく軌跡分類ステップは、一例として、追跡軌跡を分類して、軌跡分類結果を得るステップは、追跡軌跡から物品移動の長さを抽出することと、予めトレーニングされた分類決定木モデルと物品移動の長さとを組み合わせて、追跡軌跡を分類して、軌跡分類結果を得ることとを含む。
本発明の実施例において、追跡軌跡のパラメータ手動抽出と決定木モデル識別アルゴリズムとを組み合わせることにより、軌跡を分類する。専門家の経験を組み合わせて、軌跡から軌跡長さ、画像における開始位置、最大位置、終了時の位置などの特徴を抽出し、決定木モデルを組み合わせて、軌跡を「正確な取り出し」、「正確な戻し」、「取り出したような」、「戻したような」、「誤識別」、「その他」などの6種類に分類することができる。
また、軌跡判別について、すなわち、第2ステップある軌跡分類結果の判別ステップは、一例として、前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップは、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得することと、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立することと、分類判別スキーム及び軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定することとを含む。
一例として、分類判別を行う場合、上記分類結果を判別でき、分類ルールベースに基づいて画像取得装置の軌跡分類結果を判別でき、一例として、複数のカメラと少なくとも1つの深度カメラを例として説明し、以下、1種の判別ルールで説明し、以下のルールを確立する。
1、多くのカメラが「正確な取り出し」又は「正確な戻し」と認めると、結果を確認する。
2.多くのカメラが「たような」と認め、少数が「正確」と認めると、「正確」と認められる。
3.多くのカメラが「取り出したような」又は「戻したような」と認めると、「取り出し」又は「戻し」と認められる。
4.カメラ結果の面に議論があれば、今回の結果を無視する。
上記方式により、複数フレームの画像における物品を識別でき、軌跡追跡、軌跡分類、分類判別などの方式により、ユーザ(又は機器)により取り出された商品及び戻された商品を決定することにより、後続の決済のために準備することができる。
二番目は、販売基準線により、取り出された商品及び戻された商品を決定することである。
一例として、本発明における方法は、画像取得装置の撮影した画面において、物品の取り出し操作及び物品の戻し操作を決定する販売基準線を決定することと、販売基準線に基づいて、物品貯蔵装置(例えば、販売機)における取り出された物品と物品の数、並びに、取り出されてから物品貯蔵装置に戻された物品と物品の数を特定することとをさらに含む。
すなわち、カメラ視野において一本の販売基準線lを定義でき、物品が販売機の内部から外部に向けて基準線を通過すれば、取り出しであると判定し、逆に、物品が基準線の外から販売機に向けて動き、基準線を通過すれば、戻しであると判定する。
三番目は、物品感知領域に基づいて、ユーザにより取り出された商品、戻された物品をリアルタイムに検出することである。
一例として、本発明における方法は、各画像取得装置の座標系を決定することと、座標系において1つの物品感知領域を区画することと、物品感知領域及びビデオにより、物品貯蔵装置における取り出された物品と物品の数、並びに、取り出されてから物品貯蔵装置に戻された物品と物品の数を特定することとをさらに含む。
カメラ座標系において1つの有効領域(物品感知領域)を区画し、この領域に現れる物品の数をリアルタイムに検出し、前後フレーム情報を組み合わせて、物品の移動方向を判断し(開始点の位置及び終了点の位置を根拠に判断できる)、取り出し及び戻し判定を行う。
上記ステップにより、ユーザにより取り出された物品及び戻された物品を決定して、自動決済を行うことができる。
本願の別の選択可能な例として、上記物品識別方法は、各種の物品の価格を含む物品価格表を取得することと、物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定することと、取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定することとをさらに含む。
一例として、上記物品価格表は、物品貯蔵装置を使用する店舗(又は他のマーケットなど)で使用されてもよく、その中には各物品貯蔵装置内に置かれた物品と、取り出された物品と、戻された物品とが記録されており、本発明の物品価格表により、物品の自動管理を実現することができる。
本発明の実施例において、物品の識別とカウントの精度を効果的に向上させ、販売機のコストとランニングコストを大幅に低減するとともに、貨物損失率を効果的に低下させることができる。
本発明の実施形態の別の態様は、プロセッサと、プロセッサの実行可能な命令を記憶するように構成されるメモリとを含む電子機器であって、プロセッサは、実行可能命令を実行することにより、上記のいずれか一項の物品識別方法を実行するように構成される電子機器をさらに提供する。
本発明の実施例の別の態様は、記憶されたプログラムを含む記憶媒体をさらに提供し、プログラムが実行される場合、記憶媒体の存在する装置を制御して上記のいずれか一項に記載の物品識別方法を実行する。
本発明の実施例は、プロセッサ、メモリ及びメモリに記憶されプロセッサで実行されるプログラムを含む機器を提供し、プロセッサがプログラムを実行する場合、画像取得装置により物品の複数フレームの画像を取得するステップと、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得するステップと、情報取得装置により物品の補助情報を取得するステップと、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得るステップと、種別情報と融合結果に基づいて、物品の識別結果を決定するステップとを実現する。
一例として、上記プロセッサがプログラムを実行する場合、物品の各フレームの画像に対して、画像強調、画像拡大縮小、画像平均値減算のうちの少なくとも1つを含む画像前処理を行うステップと、画像前処理が行われた各フレームの画像における、少なくとも1つの物品が含まれた物品検出枠と、種別情報とを決定するステップと、物品検出枠に基づいて物品の位置情報を検出するステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、物品検出枠に対して非最大値抑制を行うステップをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、画像取得装置により目標部位の複数フレームの画像を取得するステップと、目標部位の複数フレームの画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を取得するステップとをさらに実現してもよい。
一例として、各フレームの画像における目標部位の位置情報及び判別結果、物品の種別情報及び融合結果に基づいて、物品の識別結果を決定する。
一例として、上記プロセッサがプログラムを実行する場合、目標部位の各フレームの画像に対して、画像ノイズ低減、画像強調、コントラスト強調、画像平滑化、画像鮮鋭化などの1つ以上の処理方式を含む画像前処理を行って、ユーザの目標部位の画像輪郭を強調するステップと、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択するステップと、部位候補領域における特徴情報を抽出して、複数の部位特徴を得るステップと、予めトレーニングされた分類器により複数の部位特徴を識別して、各フレームの画像における目標部位の位置情報及び判別結果を得るステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定するステップをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、物品に対して細粒度分類を行うステップをさらに実現してもよい。
一例として、情報取得装置は、深度カメラであり、物品の深度画像を取得するように構成されており、物品の補助情報には深度情報が含まれている。
一例として、上記プロセッサがプログラムを実行する場合、画像取得装置及び深度カメラのレンズパラメータ及び位置パラメータを取得するステップと、深度カメラのレンズパラメータ、深度情報、及び深度画像における物品の位置に基づいて、深度カメラ座標系における物品の位置を取得するステップと、画像取得装置及び深度カメラの位置パラメータに基づいて、深度カメラの座標系を基準として、画像取得装置の前記深度カメラに対する相対的な位置関係を標定するステップと、レンズパラメータ、深度画像における物品の位置、深度情報、及び相対的な位置関係に基づいて、深度画像における物品の位置を画像取得装置で取得された画像における物品の位置に対応させるマッピング位置情報を決定するステップと、位置情報とマッピング位置情報とを比較して、融合結果を得るステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、画像取得装置を起動して物品のビデオを取得するステップと、ビデオから物品の複数フレームの画像をキャプチャするステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、融合結果に基づいて、物品の追跡軌跡を決定するステップと、追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得るステップと、軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定するステップと、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新するステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、融合結果に基づいて、物品の位置情報及び物品の移動傾向を取得するステップと、物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得るステップとをさらに実現してもよく、予測された候補枠は、直前のフレームの物品の位置情報を基に、物品の移動傾向に基づいて取得され、追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品の移動のタイムスタンプを含む。
一例として、上記プロセッサがプログラムを実行する場合、追跡軌跡から物品移動の長さを抽出するステップと、予めトレーニングされた分類決定木モデルと物品移動の長さとを組み合わせて、追跡軌跡を分類して、軌跡分類結果を得るステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、画像取得装置、又は画像取得装置と情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得するステップと、画像取得装置、又は画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立するステップと、分類判別スキーム及び軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップとをさらに実現してもよい。
一例として、上記プロセッサがプログラムを実行する場合、各種の物品の価格を含む物品価格表を取得するステップと、物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定するステップと、取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定するステップとをさらに実現してもよい。
本願は、データ処理装置で実行される場合、初期化中に、画像取得装置により物品の複数フレームの画像を取得するステップと、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得するステップと、情報取得装置により物品の補助情報を取得するステップと、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得るステップと、種別情報と融合結果に基づいて、物品の識別結果を決定するステップとを有するプログラムを実行するのに適するコンピュータプログラム製品を提供する。
上記本開示の実施例の番号は、説明の便利を図るためのものに過ぎず、実施例の優劣を示すものではない。
本発明の上記実施例において、各実施例の説明についてはそれぞれ重点を置き、ある実施例で詳しく説明されていない部分については、他の実施例の関連部分の説明を参照することができる。
本願で提供する幾つかの実施例において、開示された技術手段は、他の形態で実現することもできると理解すべきである。以上で説明された装置実施例は例示的なものであり、例えば、上記ユニットの区画は、ロジック機能の区画でることができ、実際に実現する場合、他の区画方式であってもよく、例えば、複数のユニット又は部品を結合したり他のシステムに集積したりすることができ、或いは、一部の特徴を無視し又は実行しないこともできる。また、表示又は検討された相互結合又は直接結合又は通信接続は、幾つかのインタフェース、ユニット又はモジュールを介した間接結合又は通信接続であってもよく、電気的又は他の形態であってもよい。
上記分離部品として説明されたユニットは、物理的に分離しても物理的に分離しなくてもよく、ユニットとして表す部品は、物理ユニットであっても物理ユニットではなくてもよく、つまり、1つの箇所に位置しても、複数のユニットに分布してもよい。実際の需要に応じて、それらのうちの一部又は全部のユニットを選択して本実施例の技術手段の目的を達成することができる。
また、本発明の各実施例における各機能ユニットは、1つの処理ユニットに集積しても、各ユニットに物理的に独立しても、2つ又はそれ以上のユニットを1つのユニットに集積してもよい。上記集積されたユニットは、ハードウェアの形態で実現されても、ソフトウェア機能ユニットの形態で実現されてもよい。
上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現して独立製品として販売したり使用したりする場合、コンピュータが読み取り可能な記録媒体に記憶されることができる。したがって、本発明の技術手段は実質的に、あるいは、従来技術に対する貢献のある部分又は該技術手段の全部又は一部は、ソフトウェア製品の形態で実現されることができ、このようなコンピュータソフトウェア製品は記憶媒体に記憶され、一つのコンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク機器などであってよい)に本発明の各実施例に係る方法の全部又は一部のステップを実行させる命令を含むことができる。上記記憶媒体は、USBフラッシュドライブ、リードオンリーメモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、モバイルハードディスク、ディスク又はCDなどのプログラムコードを記憶できる各種の媒体を含む。
以上の記載は、本発明の好適な実施形態に過ぎず、当業者は本発明の精神から逸脱せずに若干の改善や修正を行うこともでき、このような改善や修正も本発明の保護範囲に含まれると理解すべきである。
本願の実施例に係る手段は、物品の識別を実現でき、本願の実施例に係る技術手段において、新小売用のスマート販売機などの、商品を販売する機器に適用でき、スマート販売機に複数のカメラを取り付け、複数のカメラを用いてドアが開らかれた後のビデオを撮影して、ビデオにおける複数フレームの画像を分析し、画像における物品の位置及び種別を識別し、情報取得装置により取得された補助情報とのマルチモーダル融合を行うことにより、物品の識別結果を正確に取得し、同様に、販売機における、ユーザにより取り出された物品の種類及び物品の数を正確に識別でき、物品の識別率を向上させ、貨物損失率を低下させて、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。本願の実施例は、新小売シーンにおける各機器が撮影した画像を自動的に分析し、ユーザにより取り出された物品の種類及び物品のデータを分析し、物品に対する正確な識別を実現し、商品に対するインテリジェント化識別レベルを向上させて、新小売でのインテリジェント化の商品販売能力を向上させることができる。

Claims (22)

  1. 画像取得装置により物品の複数フレームの画像を取得することと、
    前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することと、
    情報取得装置により前記物品の補助情報を取得することと、
    前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することと、
    前記種別情報と前記融合結果に基づいて、前記物品の識別結果を決定することとを含み、
    前記融合結果に基づいて、物品の追跡軌跡を決定することと、
    前記追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得ることと、
    前記軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定することと、
    物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新することとをさらに含み、
    前記融合結果に基づいて、物品の追跡軌跡を決定することは、
    前記融合結果に基づいて、前記物品の位置情報及び前記物品の移動傾向を取得することと、
    前記物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得ることとを含み、
    前記予測された候補枠は、直前のフレームの前記物品の位置情報を基に、前記物品の移動傾向に基づいて取得され、前記追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含む、物品識別方法。
  2. 前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することは、
    前記物品の各フレームの画像に対して画像前処理を行うことと、
    画像前処理が行われた各フレームの画像における、少なくとも1つの物品が含まれた物品検出枠と、前記種別情報とを決定することと、
    前記物品検出枠に基づいて前記物品の位置情報を決定することとを含む、請求項1に記載の方法。
  3. 前記物品検出枠に対して非最大値抑制を行うことをさらに含む、請求項2に記載の方法。
  4. 画像取得装置により目標部位の複数フレームの画像を取得することと、
    前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することとをさらに含む、請求項1に記載の方法。
  5. 前記各フレームの画像における前記目標部位の位置情報及び判別結果、前記物品の前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定する、請求項4に記載の方法。
  6. 前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することは、
    前記目標部位の各フレームの画像に対して画像前処理を行って、ユーザの目標部位の画像輪郭を強調することと、
    画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することと、
    前記部位候補領域における特徴情報を抽出して、複数の部位特徴を得ることと、
    予めトレーニングされた分類器により前記複数の部位特徴を識別して、各フレームの画像における前記目標部位の位置情報及び判別結果を得ることとを含む、請求項4に記載の方法。
  7. 画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することは、
    サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定することを含む、請求項6に記載の方法。
  8. 前記物品に対して細粒度分類を行うことをさらに含む、請求項1に記載の方法。
  9. 前記情報取得装置は、深度カメラ、カードリーダ、重力装置、匂いセンサのうちの少なくとも1つを含む、請求項1に記載の方法。
  10. 前記情報取得装置が前記深度カメラである場合、前記深度カメラにより、前記物品の深度画像を取得し、前記物品の補助情報には深度情報が含まれる請求項9に記載の方法。
  11. 前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することは、
    前記画像取得装置及び前記深度カメラのレンズパラメータ及び位置パラメータを取得することと、
    前記深度カメラのレンズパラメータ、前記深度情報、及び前記深度画像における前記物品の位置に基づいて、前記深度カメラ座標系における前記物品の位置を取得することと、
    前記画像取得装置及び前記深度カメラの位置パラメータに基づいて、前記深度カメラの座標系を基準として、前記画像取得装置の前記深度カメラに対する相対的な位置関係を標定することと、
    前記レンズパラメータ、前記深度画像における前記物品の位置、前記深度情報、及び前記相対的な位置関係に基づいて、前記深度画像における前記物品の位置を前記画像取得装置で取得された画像における前記物品の位置に対応させるマッピング位置情報を決定することと、
    前記位置情報と前記マッピング位置情報とを比較して、前記融合結果を得ることとを含む、請求項10に記載の方法。
  12. 画像取得装置により物品の複数フレームの画像を取得することは、
    前記画像取得装置を起動して前記物品のビデオを取得することと、
    前記ビデオから前記物品の複数フレームの画像をキャプチャすることとを含む、請求項1に記載の方法。
  13. 前記追跡軌跡を分類して、軌跡分類結果を取得するステップは、
    前記追跡軌跡から物品移動の長さを抽出することと、
    予めトレーニングされた分類決定木モデルと前記物品移動の長さとを組み合わせて、前記追跡軌跡を分類して、軌跡分類結果を取得することとを含む、請求項に記載の方法。
  14. 前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップは、
    前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得することと、
    前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立することと、
    前記分類判別スキーム及び前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定することとを含む、請求項1に記載の方法。
  15. 各種の物品の価格を含む物品価格表を取得することと、
    物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定することと、
    取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定することとをさらに含む、請求項1に記載の方法。
  16. 無人販売店舗、スマート販売機を少なくとも含む新小売シーンに設定されるべきである、請求項1に記載の方法。
  17. 物品の複数フレームの画像を取得するように構成される画像取得装置と、
    前記物品の補助情報を取得するように構成される情報取得装置と、
    前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得し、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得してから、前記種別情報と前記融合結果に基づいて前記物品の識別結果を決定するように構成されるサーバとを含
    前記サーバは、さらに、前記融合結果に基づいて、物品の追跡軌跡を決定し、前記追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得、前記軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定し、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新するように構成され、
    前記サーバは、さらに、前記融合結果に基づいて、前記物品の位置情報及び前記物品の移動傾向を取得し、前記物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得るように構成され、
    前記予測された候補枠は、直前のフレームの前記物品の位置情報を基に、前記物品の移動傾向に基づいて取得され、前記追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含む、物品識別システム。
  18. 前記画像取得装置は、さらに、目標部位の複数フレームの画像を取得するように構成される、請求項1に記載の物品識別システム。
  19. 前記サーバは、さらに、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得し、前記各フレームの画像における前記目標部位の位置情報及び判別情報、前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定するように構成される、請求項18に記載の物品識別システム。
  20. 開かれた場合に、前記画像取得装置及び前記情報取得装置が起動する物品貯蔵装置をさらに含む、請求項1に記載の物品識別システム。
  21. プロセッサと、
    前記プロセッサの実行可能な命令を記憶するように構成されるメモリとを含む電子機器であって、
    前記プロセッサは、前記実行可能な命令を実行することにより、請求項1〜1のいずれか一項に記載の物品識別方法を実行するように構成される、電子機器。
  22. 記憶されたプログラムを含む記憶媒体において、前記プログラムは実行される場合、前記記憶媒体の存在する装置を制御して請求項1〜1のいずれか一項に記載の物品識別方法を実行する、記憶媒体。
JP2019566841A 2019-01-08 2019-06-21 物品識別方法及びシステム、電子機器 Active JP6986576B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910016934.7A CN111415461B (zh) 2019-01-08 2019-01-08 物品识别方法及系统、电子设备
CN201910016934.7 2019-01-08
PCT/CN2019/092405 WO2020143179A1 (zh) 2019-01-08 2019-06-21 物品识别方法及系统、电子设备

Publications (2)

Publication Number Publication Date
JP2021513690A JP2021513690A (ja) 2021-05-27
JP6986576B2 true JP6986576B2 (ja) 2021-12-22

Family

ID=71490812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566841A Active JP6986576B2 (ja) 2019-01-08 2019-06-21 物品識別方法及びシステム、電子機器

Country Status (6)

Country Link
US (1) US11335092B2 (ja)
EP (1) EP3910608B1 (ja)
JP (1) JP6986576B2 (ja)
KR (1) KR102329369B1 (ja)
CN (1) CN111415461B (ja)
WO (1) WO2020143179A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7191671B2 (ja) * 2018-12-19 2022-12-19 フォルシアクラリオン・エレクトロニクス株式会社 キャリブレーション装置、キャリブレーション方法
CN111860326B (zh) * 2020-07-20 2023-09-26 品茗科技股份有限公司 一种建筑工地物品移动检测方法、装置、设备及存储介质
CN112242940B (zh) * 2020-07-31 2023-06-06 广州微林软件有限公司 一种箱柜食物智能管理系统及管理方法
CN112001770B (zh) * 2020-07-31 2024-05-03 广州微林软件有限公司 一种食物app管理系统及管理方法
CN111967352A (zh) * 2020-07-31 2020-11-20 广州微林软件有限公司 一种手持物品的多目标跟踪和行为判定的装置和方法
CN111950414A (zh) * 2020-07-31 2020-11-17 广州微林软件有限公司 一种箱柜食物识别系统及识别方法
CN112508109B (zh) * 2020-12-10 2023-05-19 锐捷网络股份有限公司 一种图像识别模型的训练方法及装置
CN112749638A (zh) * 2020-12-28 2021-05-04 深兰人工智能(深圳)有限公司 视觉识别轨迹的筛错方法和售货柜的视觉识别方法
CN112381184B (zh) * 2021-01-15 2021-05-25 北京每日优鲜电子商务有限公司 图像检测方法、装置、电子设备和计算机可读介质
CN112966766B (zh) * 2021-03-18 2022-06-07 北京三快在线科技有限公司 物品分类方法、装置、服务器及存储介质
CN113111932B (zh) * 2021-04-02 2022-05-20 支付宝(杭州)信息技术有限公司 智能货柜的物品核对方法及系统
CN112991380B (zh) * 2021-04-28 2021-08-31 北京每日优鲜电子商务有限公司 基于视频图像的轨迹生成方法、装置、电子设备和介质
CN113642425A (zh) * 2021-07-28 2021-11-12 北京百度网讯科技有限公司 基于多模态的图像检测方法、装置、电子设备及存储介质
CN113822859B (zh) * 2021-08-25 2024-02-27 日立楼宇技术(广州)有限公司 基于图像识别的物品检测方法、系统、装置和存储介质
CN113643473A (zh) * 2021-10-13 2021-11-12 北京每日优鲜电子商务有限公司 信息识别方法、装置、电子设备和计算机可读介质
CN113723383B (zh) * 2021-11-03 2022-06-28 武汉星巡智能科技有限公司 异视角同步识别同区域商品的订单生成方法及智能售货机
CN114359973A (zh) * 2022-03-04 2022-04-15 广州市玄武无线科技股份有限公司 基于视频的商品状态识别方法、设备及计算机可读介质
CN115601686B (zh) * 2022-12-09 2023-04-11 浙江莲荷科技有限公司 物品交付确认的方法、装置和系统
CN116021526A (zh) * 2023-02-07 2023-04-28 台州勃美科技有限公司 一种农业机器人控制方法、装置及农业机器人

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7639841B2 (en) * 2004-12-20 2009-12-29 Siemens Corporation System and method for on-road detection of a vehicle using knowledge fusion
US20080249870A1 (en) * 2007-04-03 2008-10-09 Robert Lee Angell Method and apparatus for decision tree based marketing and selling for a retail store
TWI391876B (zh) * 2009-02-16 2013-04-01 Inst Information Industry 利用多重模組混合圖形切割之前景偵測方法、系統以及電腦程式產品
US9111351B2 (en) * 2011-12-15 2015-08-18 Sony Corporation Minimizing drift using depth camera images
JP6270065B2 (ja) * 2013-03-04 2018-01-31 日本電気株式会社 物品管理システム、情報処理装置およびその制御方法と制御プログラム
CN104008571B (zh) * 2014-06-12 2017-01-18 深圳奥比中光科技有限公司 基于深度相机的人体模型获取方法及网络虚拟试衣系统
KR102317247B1 (ko) * 2015-06-15 2021-10-26 한국전자통신연구원 영상정보를 이용한 증강현실 기반 손 인터랙션 장치 및 방법
CN105205454A (zh) * 2015-08-27 2015-12-30 深圳市国华识别科技开发有限公司 自动捕捉目标物的系统和方法
JP6710031B2 (ja) 2015-09-14 2020-06-17 日機装株式会社 自動販売機
CN106781121A (zh) * 2016-12-14 2017-05-31 朱明� 基于视觉分析的超市自助结账智能系统
JP6889279B2 (ja) * 2017-04-28 2021-06-18 トヨタ モーター ヨーロッパ デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法
CN108470332B (zh) * 2018-01-24 2023-07-07 博云视觉(北京)科技有限公司 一种多目标跟踪方法及装置
CN108389316B (zh) * 2018-03-02 2021-07-13 北京京东尚科信息技术有限公司 自动售货方法、装置和计算机可读存储介质
CN108470339A (zh) * 2018-03-21 2018-08-31 华南理工大学 一种基于信息融合的重叠苹果视觉识别与定位方法
CN108921645B (zh) * 2018-06-07 2021-07-13 深圳码隆科技有限公司 一种商品购买判定方法、装置和用户终端
CN108921048A (zh) * 2018-06-14 2018-11-30 深圳码隆科技有限公司 一种购物结算方法、装置和用户终端
CN108985359B (zh) * 2018-06-29 2021-07-13 深圳和而泰数据资源与云技术有限公司 一种商品识别方法、无人售货机及计算机可读存储介质
CN109035579A (zh) 2018-06-29 2018-12-18 深圳和而泰数据资源与云技术有限公司 一种商品识别方法、无人售货机及计算机可读存储介质
CN108961547A (zh) 2018-06-29 2018-12-07 深圳和而泰数据资源与云技术有限公司 一种商品识别方法、无人售货机及计算机可读存储介质
CN109003390B (zh) * 2018-06-29 2021-08-10 深圳和而泰数据资源与云技术有限公司 一种商品识别方法、无人售货机及计算机可读存储介质
CN109117746A (zh) * 2018-07-23 2019-01-01 北京华捷艾米科技有限公司 手部检测方法及机器可读存储介质

Also Published As

Publication number Publication date
KR102329369B1 (ko) 2021-11-19
EP3910608A4 (en) 2022-02-16
WO2020143179A1 (zh) 2020-07-16
JP2021513690A (ja) 2021-05-27
US11335092B2 (en) 2022-05-17
EP3910608B1 (en) 2024-04-03
US20210397844A1 (en) 2021-12-23
CN111415461B (zh) 2021-09-28
CN111415461A (zh) 2020-07-14
KR20200088219A (ko) 2020-07-22
EP3910608A1 (en) 2021-11-17

Similar Documents

Publication Publication Date Title
JP6986576B2 (ja) 物品識別方法及びシステム、電子機器
US11360571B2 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
EP3418944B1 (en) Information processing apparatus, information processing method, and program
CN109271847B (zh) 无人结算场景中异常检测方法、装置及设备
KR101964397B1 (ko) 정보처리장치 및 정보처리방법
CN109727275B (zh) 目标检测方法、装置、系统和计算机可读存储介质
EP3065082A1 (en) Method and apparatus for detecting object in moving image and storage medium storing program thereof
Wei et al. Face detection for image annotation
KR101697161B1 (ko) 열 영상에서 온라인 랜덤 펀 학습을 이용하여 보행자를 추적하는 장치 및 방법
CN112005272A (zh) 影像分析装置、人物检索系统和人物检索方法
Ali et al. Visual tree detection for autonomous navigation in forest environment
CN106603968A (zh) 信息处理装置及信息处理方法
US20230394792A1 (en) Information processing device, information processing method, and program recording medium
KR102476496B1 (ko) 인공지능 기반의 바코드 복원을 통한 상품 식별 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN113468914A (zh) 一种商品纯净度的确定方法、装置及设备
Bartl et al. PersonGONE: Image inpainting for automated checkout solution
US20080198237A1 (en) System and method for adaptive pixel segmentation from image sequences
CN104899544A (zh) 图像处理装置和图像处理方法
KR102469015B1 (ko) 서로 다른 파장 범위를 갖는 복수의 카메라를 이용한 상품 식별 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
Achakir et al. An automated AI-based solution for out-of-stock detection in retail environments
Roth et al. Multi-object tracking evaluated on sparse events
JP2021107989A (ja) 情報処理装置、情報処理方法、プログラム
Coutts et al. Human detection and tracking through temporal feature recognition
Boufama et al. Tracking multiple people in the context of video surveillance
KR102476498B1 (ko) 인공지능 기반의 복합 인식을 통한 상품 식별 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211129

R150 Certificate of patent or registration of utility model

Ref document number: 6986576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150