JP2023015989A - 物品識別および追跡システム - Google Patents

物品識別および追跡システム Download PDF

Info

Publication number
JP2023015989A
JP2023015989A JP2022083907A JP2022083907A JP2023015989A JP 2023015989 A JP2023015989 A JP 2023015989A JP 2022083907 A JP2022083907 A JP 2022083907A JP 2022083907 A JP2022083907 A JP 2022083907A JP 2023015989 A JP2023015989 A JP 2023015989A
Authority
JP
Japan
Prior art keywords
image
camera
images
output
cameras
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022083907A
Other languages
English (en)
Inventor
ガバイ,ダニエル
Gabay Daniel
スナッパー,ユバル
Snappir Yuval
ドレフ,シャケッド
Dolev Shaked
ケレット,シバン
Keret Sivan
ツビ,ニール ベン
Ben Zvi Nir
カシャーニ,リタ パベルマン
Paverman Kashani Rita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Trigo Vision Ltd
Original Assignee
Trigo Vision Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Trigo Vision Ltd filed Critical Trigo Vision Ltd
Publication of JP2023015989A publication Critical patent/JP2023015989A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Processing (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

【課題】物品識別及び追跡の目的でデータを分析するシステム及び方法を提供する。【解決手段】方法は、シーンを視認するように多数のカメラを配置することを含む。シーン内の少なくとも1つの基準物体は、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々は、それによって視認可能な基準物体の少なくとも1つの画像を取得する。方法はさらに、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも1つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ、交差領域と交差する光線に相関させることと、を含む。【選択図】図1

Description

関連出願
2019年11月21日に出願された「ITEM IDENTIFICATION AND TRACKING SYSTEM」と題する米国仮特許出願第62/938,681号、および2019年11月21日に出願された「IMAGE CONVERSION FOR IMAGE PROCESSING」と題する米国仮特許出願第62/938,563号が本明細書によって参照され、その開示は参照により本明細書に組み込まれ、その優先権は、米国特許法施行規則第1.78条(a)(4)および(5)(i)に従って本明細書によって主張される。
本発明は、概して、データ分析、より具体的には、物品識別および追跡の目的でデータを分析するためのシステムおよび方法に関する。
物品を識別および追跡するための様々なタイプのシステムおよび方法が当技術分野で既知である。
本発明は、自動化された、費用効果が高く、かつ時間効率の良い物品の識別および追跡の目的で、データの分析に関連する改善されたシステムおよび方法を提供しようとする。
したがって、本発明の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、シーンを視認するように多数のカメラを配置することであって、シーン内の少なくとも1つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも1つの画像を取得する、配置することと、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも1つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差領域と交差する光線に相関させることと、を含む、方法が提供される。
好ましくは、相関のステップは、複数のカメラの各々を照射し、かつ基準物体が各少なくとも1つの画像内に出現する画素位置に対応する光線の光線パラメータを導出することを含む。
好ましくは、方法は、相関のステップに続いて、導出された光線パラメータを有する光線が交差点と所定の精度以上で交差するかどうかを確認することをさらに含む。
好ましくは、導出された光線パラメータを有する光線が交差点と所定の精度以上で交差することが確認されるまで、発見および相関のステップが互いに対して反復的に実行される。
好ましくは、交差点は、確率的な交差領域である。
本発明の別の好ましい実施形態によれば、物体に関連するデータを取得するためのシステムであって、シーンを視認するように配置された多数のカメラであって、シーン内の少なくとも1つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも1つの画像を取得するように作動する、多数のカメラと、複数のカメラの各々によって取得された少なくとも1つの画像を受信するように、かつ複数のカメラの各々を照射する光線交差点を発見するように作動する画像処理サブシステムと、基準物体が各少なくとも1つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差点と交差する光線に相関させるように作動する、画素対光線較正サブシステムと、を含む、システムがさらに提供される。
好ましくは、画素対光線較正サブシステムは、複数のカメラの各々を照射し、かつ基準物体が各少なくとも1つの画像内に出現する画素位置に対応する光線の光線パラメータを導出するように作動する。
好ましくは、システムは、導出された光線パラメータを有する光線が、交差点と所定の精度以上で交差するかどうかを確認するようにさらに作動する。
好ましくは、画像処理サブシステムおよび画素対光線較正サブシステムは、導出された光線パラメータを有する光線が交差点と所定の精度以上で交差することが確認されるまで、互いに対して反復的に作動する。
好ましくは、交差点は、確率的な交差領域である。
本発明の別の好ましい実施形態によれば、多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得することと、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも1つの物体の同一性を発見することと、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否することであって、選択および拒否することが、多数のカメラの事前の相互較正に基づく、選択および拒否することと、位置にある共通の物体を示す選択された画像のセットを出力することと、少なくとも1つの物体の同一性および位置のうちの少なくとも1つを考慮することに基づいて、選択された画像のセットに示される共通の物体の同一性を発見することと、を含む、方法もまた提供される。
好ましくは、選択および拒否することは、複数の画像内の少なくとも1つの物体の同一性に関係なく実行される。
好ましくは、この方法はまた、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも1つの物体の同一性を発見するステップに続いて、かつ選択するステップの前に、画像フィルタリングを実行することも含み、画像フィルタリングは、
複数の画像のうちの画像内の少なくとも1つの物体の同一性が、物体同一性のグループに属さず、少なくとも1つの物体の同一性がグループに属さない複数の画像のうちの画像が、選択ステップに参加する複数の画像に含まれていないこと、および
少なくとも1つの物体の同一性が事前定義された信頼水準を下回ると識別される信頼度であって、少なくとも1つの物体の同一性が事前定義された信頼水準を下回る信頼度で識別される複数の画像のうちの画像が、選択ステップに参加する複数の画像に含まれていない、信頼度、のうちの少なくとも1つに基づいて、複数の画像のうちの画像をフィルタリングすることを含む。
好ましくは、グループは、類似の物体同一性の所定のグループを含む。
代替的に、グループは、類似の物体同一性の過去に学習されたカテゴリに基づく。
好ましくは、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも1つの物体の同一性を発見するステップは、少なくとも1つの物体の同一性を発見するために人工知能(AI)を採用することを含み、AIの採用は、AIネットワークを、多数の訓練画像をAIネットワークに提供することによって画像内の物体を識別するように訓練するための初期訓練段階であって、多数の訓練画像の各々に出現する少なくとも1つの物体が、AIネットワークに対して識別される、初期訓練段階と、AIネットワークがその事前の訓練に基づいて少なくとも1つの物体の同一性を発見するステップを実行するように作動する、後続の作動段階と、を含む。
好ましくは、多数の訓練画像の各々に出現し、かつAIネットワークに対して識別された少なくとも1つの物体は、コンピュータビジョンを採用することに基づいて識別される。
好ましくは、多数のカメラの事前の相互較正は、多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得するテップの前に、シーンを視認するように多数のカメラを配置することであって、シーン内の少なくとも1つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも1つの画像を取得する、配置することと、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも1つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差領域と交差する光線に相関させ、それによって多数のカメラの複数のカメラに対する画素対光線較正を確立することと、画素対光線較正が多数のカメラのすべてに対して確立されるまで、シーン内の少なくとも1つの基準物体を繰り返し再位置決めし、かつ基準物体がその各位置で視認可能である多数のカメラの複数のカメラに対して画素対光線較正を確立することと、を含む。
好ましくは、多数のカメラによって取得された複数の物体を含むシーンの複数の画像は、第1の解像度を有し、方法は、複数の物体のうちの少なくとも1つの物体の同一性を発見するステップの前に、複数の画像の第1の解像度を第1の解像度よりも低い第2の解像度に変換することであって、複数の画像のうちの画像を選択するステップが、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否し、位置にある共通の物体を示す選択された画像のセットを出力するステップが、第2の解像度を有する複数の画像に対して実行される、変換することと、第1の解像度を有し、かつ第2の解像度を有する選択された画像のセットの画像に対応する、複数の画像のうちの画像を検索することと、第2の解像度を有する選択された画像のセットに発見されるような共通の物体の位置に対応する領域内の第1の解像度を有する検索された画像を切り取ることと、その切り取りに続く第1の解像度を有する画像の領域に出現する共通の物体の同一性を発見することと、をさらに含む。
好ましくは、第2の解像度を有する画像に発見されるような共通の物体の同一性に関係なく、第1の解像度を有する画像の領域に出現する共通の物体の同一性が発見される。
本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを取得するためのシステムであって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得するように作動する、多数のカメラと、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも1つの物体の同一性を発見するように作動する、画像分析モジュールと、多数のカメラの事前の相互較正に基づいて、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否するように、かつ位置にある共通の物体を示す選択された画像のセットを出力するように作動する、画像選択モジュールと、少なくとも1つの物体の同一性および位置のうちの少なくとも1つを考慮することに基づいて、選択された画像のセットに示される共通の物体の同一性を発見するように作動する、画像分類モジュールと、を備える、システムがまたさらに提供される。
好ましくは、画像選択モジュールは、複数の画像内の少なくとも1つの物体の同一性に関係なく、複数の画像のうちの画像を選択し、かつ他の画像を拒否するように作動する。
好ましくは、システムはまた、画像分析モジュールの下流および画像選択モジュールの上流に画像フィルタリングモジュールも含み、画像フィルタリングモジュールが、
複数の画像のうちの画像内の少なくとも1つの物体の同一性が、物体同一性のグループに属さず、少なくとも1つの物体の同一性がグループに属さない複数の画像のうちの画像が、画像選択モジュールに渡されていないこと、および
少なくとも1つの物体の同一性が事前定義された信頼水準を下回ると識別される信頼度であって、少なくとも1つの物体の同一性が事前定義された信頼水準を下回る信頼度で識別される複数の画像のうちの画像が、画像選択モジュールに渡されていない、信頼度、のうちの少なくとも1つに基づいて、複数の画像のうちの画像を除外するように作動する。
好ましくは、グループは、類似の物体同一性の所定のグループを含む。
代替的に、グループは、類似の物体同一性の過去に学習されたカテゴリに基づく。
好ましくは、画像分析モジュールは、少なくとも1つの物体の同一性を発見するために、人工知能(AI)を採用するように作動し、AIの採用は、AIネットワークを、多数の訓練画像をAIネットワークに提供することによって画像内の物体を識別するように訓練するための初期訓練段階であって、多数の訓練画像の各々に出現する少なくとも1つの物体が、AIネットワークに対して識別される、初期訓練段階と、AIネットワークがその事前訓練に基づいて少なくとも1つの物体の同一性を発見するステップを実行するように作動する、後続の作動段階と、を含む。
好ましくは、多数の訓練画像の各々に出現し、かつAIネットワークに対して識別された少なくとも1つの物体は、コンピュータビジョンを採用することに基づいて識別される。
好ましくは、多数のカメラの事前の相互較正は、シーンを視認するように配置されている多数のカメラであって、シーン内の少なくとも1つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも1つの画像を取得するように作動する、多数のカメラと、複数のカメラの各々によって取得された少なくとも1つの画像を受信するように、かつ複数のカメラの各々を照射する光線交差点を発見するように作動する、画像処理サブシステムと、基準物体が各少なくとも1つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差点と交差する光線に相関させ、それによって多数のカメラの複数のカメラの画素対光線較正を確立するように作動する、画素対光線較正サブシステムと、を含み、画素対光線較正が多数のカメラのすべてに対して確立されるまで、少なくとも1つの基準物体が、シーン内で繰り返し再位置決めされ、かつ画素対光線較正サブシステムが、基準物体がその各位置で視認可能である多数のカメラの複数のカメラに対して画素対光線較正を確立するように作動する。
好ましくは、多数のカメラによって取得された複数の物体を含むシーンの複数の画像は、第1の解像度を有し、システムは、画像分析モジュールの上流にあり、かつ複数の画像の第1の解像度を第1の解像度よりも低い第2の解像度に変換するように作動する画像変換器をさらに含み、画像分析モジュールおよび画像選択モジュールが、第2の解像度を有する複数の画像に対して作動する、画像変換器と、画像分類モジュールが、第1の解像度を有し、かつ第2の解像度を有する選択された画像のセットの画像に対応する、複数の画像のうちの画像を検索することと、第2の解像度を有する選択された画像のセットに発見されるような共通物体の位置に対応する領域において、第1の解像度を有する検索された画像を切り取ることと、その切り取りに続く第1の解像度を有する画像の領域に出現する共通の物体の同一性を発見することと、を行うように作動する。
好ましくは、画像分類モジュールは、第2の解像度を有する画像内で発見されるような共通物体の同一性に関係なく、第1の解像度を有する画像の領域に出現する共通の物体の同一性を発見するように作動する。
本発明のさらに好ましい実施形態によれば、物体に関連するデータを処理するための方法であって、複数の画像の少なくとも1つの特性を、第1の特性から第2の特性に変換することと、第2の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも1つの物体の少なくとも1つの特徴を自動的に発見することと、少なくとも1つの特徴に基づいて、第1の特性を有する画像を修正することと、を含む、方法がさらに提供される。
好ましくは、少なくとも1つの特性は、画像解像度を含み、第1の特性は、第1の画像解像度を含み、第2の特性は、第1の画像解像度よりも低い第2の画像解像度を含む。
好ましくは、少なくとも1つの特徴は、少なくとも1つの物体の位置を含む。
好ましくは、修正することは、第2の解像度を有する画像に発見されるような少なくとも1つの物体の位置に基づいて、少なくとも1つの物体の位置に対応する領域内の第1の解像度を有する画像を切り取ることを含む。
本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを処理するためのシステムであって、複数の画像の少なくとも1つの特性を、第1の特性から第2の特性に変換するように作動する、画像変換器と、第2の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも1つの物体の少なくとも1つの特徴を自動的に発見するように作動する、画像分析器と、少なくとも1つの特徴に基づいて第1の特性を有する画像を修正するように作動する、画像修正器と、を含む、システムもまた提供される。
好ましくは、少なくとも1つの特性は、画像解像度を含み、第1の特性は、第1の画像解像度を含み、第2の特性は、第1の画像解像度よりも低い第2の画像解像度を含む。
好ましくは、少なくとも1つの特徴は、少なくとも1つの物体の位置を含む。
好ましくは、画像修正器は、第2の解像度を有する画像に発見されるような少なくとも1つの物体の位置に基づいて、少なくとも1つの物体の位置に対応する領域内の第1の解像度を有する画像を切り取るように作動する。
本発明のまたさらに好ましい実施形態によれば、物体に関連するデータを処理するための方法であって、シーン内の少なくとも1つの物体の多次元モデルを経時的に作成することと、少なくとも1つの物体の多次元モデルの変化を経時的に追跡することと、少なくとも1つの所定の基準を満たす変化のうちの1つ以上を識別することと、物体に関連する情報を導出するために、少なくとも1つの所定の基準を満たす変化に関連するデータを分析することと、を含む、方法がまたさらに提供される。
本発明のさらに好ましい実施形態によれば、物体に関連するデータを処理するためのシステムであって、シーン内の少なくとも1つの物体の多次元モデルを経時的に作成するモデル作成器と、少なくとも1つの物体の多次元モデルの変化を経時的に追跡し、かつ少なくとも1つの所定の基準を満たす変化のうちの1つ以上を識別するように作動する、モデル追跡器と、物体に関連する情報を導出するために、少なくとも1つの所定の基準を満たす変化に関連するデータを分析するデータ分析器と、を含む、システムがまたさらに提供される。
本発明の別の好ましい実施形態によれば、物体に関連する視覚データを処理するための方法であって、方法が、少なくとも1つのカメラにシーンを視認させることと、人工知能を採用することと、を含み、採用することが、少なくとも1台のカメラからの少なくとも1つの出力が、シーン内の少なくとも1つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1つの出力を、シーン内の少なくとも1つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために行われる、方法がさらに提供される。
好ましくは、少なくとも1つの物体の存在および位置を示す追加情報は、シーンを視認するように配置された少なくとも2台の他のカメラからの出力に基づいて導出される。
好ましくは、強化することは、少なくとも2台の他のカメラからの出力内の少なくとも1つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも1つの画素位置を識別することと、各画素位置に対して、少なくとも2台の他のカメラについて、位置に対応するカメラ光線を発見することと、カメラ光線のうちのカメラ光線間でマッチングを実行して、カメラ光線の間の交差点を発見することであって、交差点が、物品位置に対応する、発見することと、少なくとも1つの物体の存在および位置を示す情報を含まない出力を有する少なくとも1台のカメラについて、物品位置に対応するカメラ光線を発見することと、少なくとも1つの物体の存在および位置を示す情報を含まない出力を有する少なくとも1台のカメラについて、カメラ光線に対応する画素位置を発見することと、カメラ光線に対応する画素位置における少なくとも1台のカメラからの出力に新しいバウンディングボックスを挿入することであって、新しいバウンディングボックスが、少なくとも1つの物体の存在および位置を示す、挿入することと、を含む。
好ましくは、カメラ光線の発見、およびカメラ光線に対応する画素位置の発見は、少なくとも1台のカメラおよび少なくとも2台の他のカメラの事前の相互較正に基づく。
好ましくは、少なくとも1つの物体は、人間以外の物品または人間の被写体のうちの少なくとも1つを含む。
本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを処理するためのシステムであって、シーンを視認するように配置された少なくとも1台のカメラと、画像分析器と、を備え、画像分析器が、人工知能を採用し、かつ少なくとも1つのカメラからの少なくとも1つの出力が、シーン内の少なくとも1つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1つの出力を、シーン内の少なくとも1つの物体の存在および位置を示す情報を出力に追加することによって強化すること、を行うように作動する、システムがまたさらに提供される。
好ましくは、システムはまた、シーンを視認するように配置された少なくとも2台の他のカメラも含み、追加情報が、少なくとも2台の他のカメラからの出力に基づいて導出される少なくとも1つの物体の存在および位置を示す。
好ましくは、画像分析器は、少なくとも2台の他のカメラからの出力内の少なくとも1つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも1つの画素位置を識別することと、各画素位置に対して、少なくとも2台の他のカメラについて、位置に対応するカメラ光線を発見することと、カメラ光線のうちのカメラ光線の間でマッチングを実行して、カメラ光線の間の交差点を発見することであって、交差点が、物品位置に対応する、発見することと、少なくとも1つの物体の存在および位置を示す情報を含まない出力を有する少なくとも1台のカメラについて、物品位置に対応するカメラ光線を発見することと、少なくとも1つの物体の存在および位置を示す情報を含まない出力を有する少なくとも1台のカメラについて、カメラ光線に対応する画素位置を発見することと、カメラ光線に対応する画素位置における少なくとも1台のカメラからの出力内に新しいバウンディングボックスを挿入することであって、新しいバウンディングボックスが、少なくとも1つの物体の存在および位置を示す、挿入することと、を行うように作動することによって、少なくとも1つの出力を強化するように作動する。
好ましくは、画像分析器は、少なくとも1台のカメラおよび少なくとも2台の他のカメラの事前の相互較正に基づいて、カメラ光線を発見し、かつカメラ光線に対応する画素位置を発見するように作動する。
好ましくは、少なくとも1つの物体は、人間以外の物品または人間の被写体のうちの少なくとも1つを含む。
本発明の別の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、シーンを視認するように多数のカメラを配置することであって、シーン内の少なくとも1つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも1つの画像を取得する、配置することと、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも1つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差領域と交差する光線に相関させることと、を含み、方法が、相関させるステップに続いて、
多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得すること、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも1つの物体の同一性を発見すること、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否することであって、選択および拒否することが、多数のカメラの事前の相互較正に基づく、選択および拒否すること、位置における共通物体を示す選択された画像のセットを出力すること、ならびに少なくとも1つの物体の同一性および位置のうちの少なくとも1つを考慮することに基づいて、選択された画像のセット内で示される共通の物体の同一性を発見すること、
複数の画像のうちの少なくとも1つの特性を、第1の特性から第2の特性に変換すること、第2の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも1つの物体の少なくとも1つの特徴を自動的に発見すること、および少なくとも1つの特徴に基づいて、第1の特性を有する画像を修正すること、
シーン内の少なくとも1つの物体の多次元モデルを経時的に作成すること、少なくとも1つの物体の多次元モデルの変化を経時的に追跡すること、少なくとも1つの所定の基準を満たす変化のうちの1つ以上を識別すること、および物体に関連する情報を導出するために、少なくとも1つの所定の基準を満たす変化に関連するデータを分析すること、ならびに
人工知能を採用することであって、多数のカメラのうちの少なくとも1台のカメラからの少なくとも1つの出力が、シーン内の少なくとも1つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1つの出力を、シーン内の少なくとも1つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも1つをさらに含む、方法がさらに提供される。
本発明の別の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得することと、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも1つの物体の同一性を発見することと、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否することであって、選択および拒否することが、多数のカメラの事前の相互較正に基づく、選択および拒否することと、位置にある共通の物体を示す選択された画像のセットを出力することと、少なくとも1つの物体の同一性および位置のうちの少なくとも1つを考慮に入れることに基づいて、選択された画像のセットに示される共通の物体の同一性を発見することと、を含み、方法が、
複数の画像のうちの少なくとも1つの特性を、第1の特性から第2の特性に変換すること、第2の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも1つの物体の少なくとも1つの特徴を自動的に発見すること、および少なくとも1つの特徴に基づいて、第1の特性を有する画像を修正すること、
シーン内の少なくとも1つの物体の多次元モデルを経時的に作成すること、少なくとも1つの物体の多次元モデルの変化を経時的に追跡すること、少なくとも1つの所定の基準を満たす変化のうちの1つ以上を識別すること、および物体に関連する情報を導出するために、少なくとも1つの所定の基準を満たす変化に関連するデータを分析すること、ならびに
人工知能を採用することであって、多数のカメラのうちの少なくとも1台のカメラからの少なくとも1つの出力が、シーン内の少なくとも1つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1つの出力を、シーン内の少なくとも1つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも1つをさらに含む、方法がさらに提供される。
本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、少なくとも1つの物体を含むシーンの複数の画像のうちの少なくとも1つの特性を、第1の特性から第2の特性に変換することと、第2の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも1つの物体の少なくとも1つの特徴を自動的に発見することと、少なくとも1つの特徴に基づいて、第1の特性を有する画像を修正することと、を含み、方法が、
シーン内の少なくとも1つの物体の多次元モデルを経時的に作成すること、少なくとも1つの物体の多次元モデルの変化を経時的に追跡すること、少なくとも1つの所定の基準を満たす変化のうちの1つ以上を識別すること、および物体に関連する情報を導出するために、少なくとも1つの所定の基準を満たす変化に関連するデータを分析すること、ならびに
人工知能を採用することであって、シーンを視認する多数のカメラのうちの少なくとも1台のカメラからの少なくとも1つの出力が、シーン内の少なくとも1つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1つの出力を、シーン内の少なくとも1つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも1つをさらに含む、方法がさらに提供される。
本発明のさらに好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、シーン内の少なくとも1つの物体の多次元モデルを経時的に作成することと、少なくとも1つの物体の多次元モデルの変化を経時的に追跡することと、少なくとも1つの所定の基準を満たす変化のうちの1つ以上を識別することと、物体に関連する情報を導出するために、少なくとも1つの所定の基準を満たす変化に関連するデータを分析することと、を含み、方法が、人工知能を採用することであって、シーンを視認する多数のカメラのうちの少なくとも1台のカメラからの少なくとも1つの出力が、シーン内の少なくとも1つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1つの出力を、シーン内の少なくとも1つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも1つをさらに含む、方法がまたさらに提供される。
本発明の好ましい実施形態によれば、コンピュータによって実行されたときに、コンピュータに、上述された方法のステップのうちの少なくともいくつかのステップを実行させる命令が記憶されている、物体に関連するデータを処理するための非一時的なコンピュータ可読媒体もまた提供される。
本発明は、図面と併せて以下の詳細な説明に基づいて、より完全に理解および認識されるであろう。
本発明の好ましい実施形態に従って構築され、作動する、物品識別および追跡のためのシステムの部分的に簡略化されかつ部分的に絵で示されたブロック説明図である。 図1に示されるタイプの物品識別および追跡システムの一部を形成する較正サブシステムの構成要素の簡略化された概略説明図である。 図2Aに示されるタイプの較正サブシステムの操作におけるステップを示す簡略化されたフローチャートである。 図1に示されるタイプの物品識別および追跡システムの一部を形成する、画像分析および分類機能を有するシステム構成要素の簡略化されたブロック説明図である。 図3に示されるタイプの画像分析および分類構成要素によって実行される機械学習を示す簡略化されたブロック図である。 図1に示されるタイプの物品識別および追跡システムで採用されるカメラの配置を最適化するのに役立つスコアリングを示す簡略化されたグラフである。 図1に示されるタイプの物品識別および追跡システムにおいて有用な物品を追跡するためのモデルの簡略化された概略説明図である。 図6に示されるタイプのモデルに基づいた物品の追跡におけるステップを示す簡略化されたそれぞれのフローチャートである。 本発明のシステムの実施形態の実装形態の簡略化された斜視説明図および側面説明図である。 図9Aおよび9Bの実装形態の一部の簡略図であり、本発明の好ましい実施形態による、AIアルゴリズムによって注釈付けされた、人間の被写体を含むコンテキストにおける複数のカメラの視線および対応する画像を示している。 本発明の好ましい実施形態による、画像修正によるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略図である。 図13Aの実施形態に従って実行されるAI失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。 本発明の好ましい実施形態による、3DモデリングによるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略化された図である。 図14Bの実施形態に従って実行されるAI失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。 図14Bの実施形態に従って実行されるAI失敗ケースの改善の段階に含まれるステップを示す簡略化されたフローチャート図である。 図9Aおよび9Bの実装形態の一部の簡略図であり、本発明の別の好ましい実施形態による、AIアルゴリズムによって注釈付けされた、人間の被写体を含む文脈における複数のカメラの視線および対応する画像を示している。 本発明のさらに別の好ましい実施形態による、画像修正によるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略化された図である。 図16Aの実施形態に従って実行されるAI失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。 本発明のさらに好ましい実施形態による、3DモデリングによるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略図である。 図17Bの実施形態に従って実行されるAI失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。 図17Bの実施形態に従って実行されるAI失敗ケースの改善の段階に含まれるステップを示す簡略化されたフローチャート図である。 バウンディングボックスの厳密化を示す図9Aおよび9Bの実装形態の一部の簡略化された図である。
次に図1を参照すると、図1は、本発明の好ましい実施形態に従って構築され、作動する、物品識別および追跡のためのシステムの部分的に簡略化されかつ部分的に絵で示されたブロック説明図である。
図1に見られるように、物品102の識別および追跡のためのシステム100が提供される。物品102は、建物104内に位置付けることができ、ここでは、例としてのみ、買い物施設104内に位置付けられ、買い物客106によって取り扱われる消費者物品102として具体化される。しかしながら、システム100は、倉庫、空港、製造施設、およびレストラン含むがこれらに限定されない任意の好適な施設内で手動または自動で処理され得る任意のタイプの単一または複数の物品の識別および追跡のために実装され得ることが理解される。
システム100は、好ましくは、建物104などのシーンを視認し、その中の少なくとも1つの物体、例えば、物品102および/または買い物客106のうちの少なくとも1つに関連する視覚データを取得するように配置された多数のカメラ110を含む。多数のカメラ110は、好ましくは、必ずしもではないが、建物104内の固定表面、例えば、建物104の天井112または棚114上に取り付けられ、好ましくは、建物104をそれに対して様々な角度から視認するように相互に空間的に分散される。
カメラ110は、好ましくは、内部に位置付けられた物品102および/または買い物客106を含む、建物104の画像を取得するように作動する。カメラ110は、システム100の画像化要件に応じて、建物104の画像を少なくともほぼリアルタイムで連続的に取得するように連続的に作動するか、または相互に調整されたストロボ方式で作動することができる。一例として、カメラ110は、25画像フレーム/カメラ/秒など、時間内の単位ごとにカメラごとに複数の画像を取得するように作動することができる。本発明の特定の実施形態では、カメラ110は2Dカメラであり得る。代替的に、本発明の特に好ましい実施形態では、カメラ110は、深度画像を出力する3D深度カメラであり得る。
カメラ110によって取得された画像のうちの少なくともいくつかは、物品識別器および追跡器130によって処理するために、ローカルサーバ120および/またはクラウドベースのサーバ122に提供され得る。画像は、サーバ120において完全にローカルに処理されるか、サーバ120において部分的に処理されるか、クラウドベースのサーバ122において部分的に処理されるか、または処理のためにクラウドベースのサーバ122に完全に転送され得る。ローカルサーバ120および/またはクラウドベースのサーバ122に提供される画像のうちの少なくともいくつかは、所定の基準に基づいて、ローカルまたはリモートのいずれかで保存され得る。
物品識別器および追跡器130の機能は、プロセッサによって、例えば、ローカルサーバ120および/またはクラウドベースのサーバ122のプロセッサによって実行され得る。本発明の実施形態によれば、コンピュータ可読媒体(例えば、レジスタメモリ、プロセッサキャッシュ、RAM、ROM、ハードドライブ、フラッシュメモリ、CD ROM、磁気媒体など)に記憶されたコンピュータプログラムアプリケーションは、実行されたときに、コントローラまたはプロセッサに、自動化された物品識別および追跡のための方法など、本明細書で論じられた機能および方法のうちの1つ以上を実行するように指示するまたは引き起こすことができるコードまたは実行可能命令を含み得る。コンピュータ可読媒体は、すべての形態およびタイプのコンピュータ可読媒体を含む非一時的コンピュータ可読媒体であり得る。
物品識別器および追跡器130は、多数のカメラ110を較正するために、カメラ間較正モジュール132を含み得る。較正モジュール132は、好ましくは、互いに関して多数のカメラ110を較正するように作動可能である。本発明の特に好ましい実施形態では、較正モジュール132は、好ましくは、カメラ110が較正されるフィデューシャル物体の三次元位置とは独立してかつ関係なく、多数のカメラ110を互いに関して繰り返し較正するように作動する。較正モジュール132は、好ましくは、カメラ110の高精度の画素対光線較正を確立するために、物品識別器および追跡器130の他の画像処理機能を採用する前にカメラ110を較正するように作動し、これに基づいて、物品識別器および追跡器130の後続の画像処理機能が実行され得る。較正モジュール132の好ましい作動に関するさらなる詳細は、図2Aおよび2Bを参照して以降で提供される。
物品識別器および追跡器130は、画像分析モジュール134をさらに含み得、好ましくは、較正されたカメラ110によって取得された建物104の画像の分析のために人工知能を採用する。カメラ110によって取得された画像のすべてまたはいくつかは、追跡器130に提供され得る。
画像分析モジュール134は、好ましくは、物品102および/または買い物客106のうちの少なくとも1つの存在および位置を検出し、カメラ110によって取得された画像のうちの少なくともいくつかに出現する物品102のうちの少なくとも1つの物品の予備的識別を提供するように作動する。
カメラ110によって同時に取得された画像のうちの様々な画像に出現する物品は、画像分析モジュール134が様々な物品が識別された多数の画像を出力するように、画像のうちの異なる画像において画像分析モジュール134によって異なって識別され得ることが理解される。画像分析モジュール134の作動に関するさらなる詳細は、図3を参照して以降で提供される。
物品識別器および追跡器130は、画像分析モジュール134によって物品が識別された画像のうちの画像を選択し、他の画像を拒否するための画像選択モジュール136をさらに含み得る。画像選択モジュール136は、好ましくは、較正モジュール132によって実行されるように、好ましくはカメラ110の相互較正を考慮することに基づいて、画像の選択を実行するように作動する。より具体的には、画像選択モジュール136は、対応する位置を占め、したがって共通の物品に対応する物品を識別するために、画像分析モジュール134によって識別され、かつカメラ110を照射する物体から発せられる光線の幾何学的交差、および/またはカメラ110によって取得された深度画像内で識別される空間における点の幾何学的交差を含む幾何学的考察に基づいて画像を選択し得る。したがって、画像選択モジュール136は、フィルタとして効果的に機能し、それらの共通の交差点を発見することに基づいて、画像分析モジュール134によって提供される画像のうちの選択された画像を選択する。画像選択モジュール136の作動に関するさらなる詳細は、図3を参照して以降で提供される。
物品識別器および追跡器130は、建物104内の共通の場所に位置付けられている共通の物品の単一の同一性を導出するために、画像選択モジュール136によって選択された画像内の物品の様々な可能性のある多様な同一性を融合するための物体分類モジュール138をさらに含み得る。物体分類モジュール138は、画像分析モジュール134によって識別されるように、異なる画像に出現する物品の様々な多様な同一性を比較検討するために人工知能を採用し、単一の最終的な物品分類を導出し得る。物体分類モジュール138は、追加的または代替的に、物体識別を再実行し、異なる画像に出現する物品の様々な多様な同一性を融合し、それによって識別されるようにし得る。単一の導出分類は、物品識別器および追跡器130によって発見されたような、所与の位置にある所与の物品の同一性であると考えられる。物体分類モジュール138の好ましい作動に関するさらなる詳細は、図4を参照して以降で提供される。
物品識別器および追跡器130は、買い物客106および/または物品102のうちの1つと関連する対象のイベントを追跡するためのイベント追跡モジュール140をさらに含み得る。本発明の1つの好ましい実施形態によれば、イベント追跡モジュール140は、買い物客106による物品102の取り扱いと関連するイベントを自動的に追跡するための買い物リスト作成モジュールとして具体化され得る。買い物リスト作成モジュール140は、目録を作成および維持し得、その目録は、物体分類モジュール138によって発見されるような、少なくとも1つの物品102の同一性および位置に基づいて、特定の買い物客106と関連付けられた買い物リストであり得る。買い物客106と関連付けられていることが発見された物品は、買い物客106の買い物リストに属すると考えることができ、したがって、例えば、建物104を出る前に、買い物客106による買い物リスト上の物品の自動化された目録管理および支払いを容易にする。追加的または代替的に、イベント追跡モジュール140は、分析の目的で、建物104内の買い物客106および/または物品102の通過と関連する対象のイベントを追跡し得る。イベント追跡モジュール140の好ましい作動に関するさらなる詳細は、図6~8を参照して以降で提供される。
較正モジュール132、画像分析モジュール134、画像選択モジュール136、物体分類モジュール138、およびイベント追跡モジュール140の間に分散されるものとして説明された様々な機能は、その説明を明確にする目的で細分化され、様々な機能は、本発明の範囲から逸脱せずに、代替的に単一の作動モジュールによって組み合わせて実行されるか、物品識別器および追跡器130の様々なサブモジュール間で異なって分散されてもよいことが、理解される。
本発明のいくつかの実施形態では、物品識別器および追跡器130に含まれるモジュール(132~140)のいくつかまたはすべての機能は、互いに独立して、独立したモジュールとして、または互いにいくつかのみと組み合わせて、または本明細書に記載されていない他の構成要素と組み合わせて提供されてもよいことがさらに理解される。例えば、較正モジュール132によって提供され、以降でより詳細に説明されるカメラ較正機能は、物品識別器および追跡器130内での使用、およびその中に含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、較正モジュール132によって提供されるカメラ較正機能は、様々なカメラシステムにおけるカメラ較正に有用であり得、システム100の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。
同様に、画像分析モジュール134によって提供され、以降でより詳細に説明される画像分析機能は、物品識別器および追跡器130内での使用、およびその中に含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、画像分析モジュール132によって提供される画像分析機能は、様々な画像化システムにおける画像分析に有用であり得、システム100の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。
同様に、画像選択モジュール136によって提供され、以降でより詳細に説明される画像選択機能は、物品識別器および追跡器130内での使用、およびそこに含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、画像選択モジュール136によって提供される画像選択機能は、様々なタイプの画像化システムにおける画像選択に有用であり得、システム100の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。
同様に、分類モジュール138によって提供され、以降でより詳細に説明される分類機能は、物品識別器および追跡器130内での使用、およびそこに含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、分類モジュール138によって提供される画像分類機能は、様々なタイプの画像化システムの文脈における様々なタイプの画像の分類に有用であり得、システム100の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。
同様に、イベント追跡モジュール140によって提供され、以降でより詳細に説明されるイベント追跡機能は、物品識別器および追跡器130内での使用、およびその中に含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、イベント追跡モジュール140によって提供されるイベント追跡機能は、様々な画像化および非画像化システムにおけるイベント追跡に有用であり得、システム100の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。
次に図2Aを参照すると、図2Aは、図1に示されるタイプの物品識別および追跡システムの一部を形成し得る較正サブシステムの構成要素の簡略化された概略図であり、を参照すると、図2Bは、その作動のステップを示す簡略化されたフローチャートである。
ここで図2Aに戻ると、物品識別および追跡システム100の一部を形成する多数のカメラ110は、6台のカメラ110a~110fを含むことが見られる。カメラ110のそのような数量は、その相互較正の説明の明確さの目的で例示的であり、最小化されていることが理解される。実際には、システム100は、典型的には、建物104のサイズおよびその画像化仕様に応じて、10未満または数百を超えるカメラ110、またはその間の任意の数を含み得る。
当業者によって理解されるように、カメラ110は、好ましくは、システム100における物品の識別および追跡の目的で、画像取得のためにそれらを採用する前に較正される。そのような較正は、好ましくは、カメラ較正モジュール132によって実行され、好ましくは、カメラ110の各々によって取得された画像に物体が出現する画素位置と、画像化された物体から発せられ、かつ対応するカメラセンサ画素に照射する光線との相関を含み、したがって、空間内の画像化された物体の3D位置に対するセンサ画素位置の相関を可能にする。
本発明の好ましい実施形態によれば、多数のカメラ110を較正するために、多数のカメラ110は、好ましくは、ここでは例として建物104内に位置着けられる基準物体200として具現化される、少なくとも1つの基準物体を含むシーンを視認するように配置される。基準物体200は、少なくとも複数の多数のカメラ110の視線内にあるように位置付けられた、ボールまたはパターン化された物品などの単純な基準物体であり得る。ここで、例として、基準物体200は、図2Aにおいて、第1のカメラ110a、第3のカメラ110c、および第5のカメラ110eによって視認可能であるが、第2のカメラ110b、第4のカメラ110d、および第6のカメラ110fによっては視認可能でないことが見られる。特定のセットアップでは、多数のカメラ110a~110fのすべてが基準物体200を視認することが可能であり得るが、建物104内のその所与の位置で基準物体200が視認可能である複数のカメラは、必ずしも多数のカメラ110a~110fのすべてを含まないことが理解される。
ここで第1、第3、および第5のカメラ110a、110c、および110eとして具体化される、基準物体200が視認可能である複数のカメラの各々は、好ましくは、基準物体200の少なくとも1つの画像を取得するように作動する。基準物体200から取得された画像は、好ましくは、カメラ較正モジュール132の一部を形成する画像処理サブモジュール220に供給される。画像処理サブモジュール220は、好ましくは、基準物体200を視認することが可能である複数のカメラによって取得された基準物体200の画像を受信するように、かつ複数のカメラの各カメラが照射される、光線の推定される共通の光線交差点を発見するように作動する。このような交差点を発見するために、少なくとも2台のカメラが互いに対して較正され得るように、少なくとも2台のカメラを照射する光線の共通の交差点を発見することを可能にするように、基準物体200が多数のカメラ110の少なくとも2台のカメラによって視認可能でなければならないことが理解される。光線交差点は、任意の適切な方法によって発見され得、その様々な方法が当技術分野で既知である。例えば、光線交差点は、光線交差点の有効点である、複数の光線までの距離が最小である点を計算するために、中点法などの方法を使用して発見され得る。
好ましくは、画像処理サブモジュール220によって最初に発見された推定交差点は、3D空間内の特定の点ではなく、複数のカメラを照射する光線が交差する可能性が高い確率的な交差領域に対応する。確率的な交差領域は、基準物品200が位置付けられる可能性が最も高い3D空間内の物理的領域に対応すると考えられる。カメラの位置および/または向きは、交差領域の初期推定値の発見を支援するために画像処理サブモジュール220に入力され得るが、必ずしも提供されるとは限らない。画像処理サブモジュール220によって最初に発見された交差点は、少なくとも部分的に、代替の、より精度の低い較正方法に基づいてもよく、この較正方法は、基準物体200の位置の初期推定値を提供し得、この初期推定は、その後、本発明の好ましい方法に従って改良されることになる。交差点の初期推定値は、較正パラメータを推定するためのPerspective-n-Point(PNP)ソリューションなどの当技術分野で既知である較正方法に基づいて発見され得る。
好ましくはカメラ較正モジュール132の一部も形成する画素対光線較正サブモジュール240は、好ましくは、次に、複数のカメラ110a、110c、および110eによって取得された各々の少なくとも1つの画像内に基準物体200が出現する画素位置を、複数のカメラの各々を照射し、かつ画像処理サブモジュール220によって発見された交差点と交差する光線に相関させるように作動する。画素対光線較正サブモジュール240は、それに関するカメラ110a、110c、および110eの較正を可能にするために、入力パラメータとして、建物104内の基準物体200の3D位置を必要としないことが理解される。むしろ、基準物体200が視認可能である複数のカメラのうちの個々のカメラ110a、110c、および110eは、それらの間の光線の交差に基づいて、互いに対して較正される。したがって、複数のカメラ110a、110c、および110eは、シーン内の基準物体の絶対的な三次元位置に関係なく、互いに関して較正される。しかしながら、本発明の特定の実施形態では、カメラ間較正をとリンクするために、カメラ較正モジュール132は、カメラ間較正を外部基準フレームとリンクさせるために、外部絶対基準フレームに対する基準物体200の3D位置を備えてもよいことに留意されたい。
好ましくは、画像処理サブモジュール220および画素対光線較正サブモジュール240は、光線交差領域が画像処理サブモジュール220によって最初に推定され、それと交差して複数のカメラ110a、110c、110eを照射する光線のパラメータが最初に導出されるように、反復的に作動する。画素対光線較正サブモジュール240によって導出された光線パラメータは、その後、好ましくは、画像処理サブモジュール220によって光線交差領域をさらに精密化するために画像処理サブモジュール220にフィードバックされ、光線パラメータはその後新たに描写された交差領域に基づいて再導出される。そのような反復プロセスは、反復的に導出された光線パラメータを有する光線が、許容可能な精度、例えば1cm以内で定義された交差領域と交差することが発見されるまで繰り返し実行され得る。
複数のカメラ110は、建物104への他の修正または追加を必要とせずに、その中のシステム100の実装を容易にするために、既存の建物104に有利に後付けされ得ることが理解される。したがって、システム100は、多種多様な建物に簡単かつ効率的に実装することができる。複数のカメラ110は、システム100が容易に拡張可能であり、内部に102および/または買い物客106の密集した配置を有する非常に大きい建物を含む、任意のサイズの建物で実施され得るように、建物104のサイズおよびその中の物品102および買い物客106の分布に応じて、任意の数のカメラを含み得ることがさらに理解される。
画素対光線較正サブモジュール240によって確認された光線パラメータは、外部および/または内部からの光線パラメータを含み得る。固有光線パラメータは、光学歪みパラメータなど、カメラ110a、110c、および110eの各々の光学パラメータを含み得る。外部からの光線パラメータは、基準物品200およびカメラ110のうちの他のカメラに対するカメラ位置、ならびにそれらの相対的なx、yおよびシータ座標に関して各カメラセンサ画素を照射する光線を特徴付けるパラメータを含み得る。内部および外部からの光線パラメータの両方は、画素対光線較正サブモジュール240によって確認され得る。代替的に、固有光線パラメータは、別のシステムによって測定され、画素対光線較正サブモジュール240に供給され得る。外部および内部からの光線パラメータ240の両方は、好ましくは、カメラ110a、110c、および110eの各々について個別に導出される。
次に図2Bに戻ると、カメラ較正モジュール132の画像処理サブモジュール220および画素対光線較正サブモジュール240によって実行され得るような、本発明のカメラ間較正に含まれるステップがプロセスフローチャート250に示されている。
第1のステップ260に見られるように、物体200などの基準物体は、好ましくは、シーン内に位置付けられる。基準物体200は、シーンの画像を取得するように配置されたカメラによって視認可能な任意の単純な受動物体であり得、複雑なまたは能動物体である必要はない。
第2のステップ262に見られるように、シーンの画像は、好ましくは、次に、N台のカメラによって取得され、Nは、シーンを視認するように配置されたカメラの総数を表す。次に、第3のステップ264に見られるように、基準物体が出現する画像を取得したカメラのグループが識別される。通常、カメラのグループには、シーンを視認しているN台のカメラすべてが含まれているわけではなく、基準物体200はN台のカメラのサブセットのみによって視認可能である。
次に、第4のステップ266に見られるように、基準物体が画素位置に出現する画像を取得したカメラのグループを照射する光線の交差領域が推定される。第5のステップ268に見られるように、光線パラメータは、次に、好ましくは、カメラのグループのカメラの各々について導出され、その光線パラメータは、第4のステップ264で発見された交差領域と交差し、かつカメラのグループの各カメラによってその取得された画像に基準物体が出現する画素位置に対応する光線を定義する。このような光線パラメータには、内部および内部からのパラメータが含まれ得る。
次に、問い合わせ270に見られるように、プロセス250は、第5のステップ268で定義された光線が、許容可能な精度で第4のステップ266で定義された交差領域に接近して交差するかどうかを問い合わせする。
交差領域および光線パラメータが十分なレベルの精度で確認されたことが発見された場合、この交差領域は基準物体の位置に対応していると考えられ、画素対光線較正は、その位置で基準物体を画像化したこれらのカメラについて導出される。
第5のステップ268で導出された光線パラメータを有する光線が十分な水準の精度で交点と交差することが発見されない場合、第6のステップ272で見られるように、第5のステップ268で導出された光線パラメータに基づいて交差領域が精緻化され、第5のステップ268および第6のステップ272が反復的に繰り返され得、それによって、問い合わせ270で確認されるように、光線パラメータが十分な精度で交差点と交差することが発見されるまで、光線パラメータは、最も最近定義された交差点に基づいて再導出され、交差点は、次に、新たに導出された光線パラメータに基づいて再定義される。
問い合わせ270で確認されたように、十分な精度で画素対光線較正の実行に続いて、プロセス250は、好ましくは、追加の問い合わせ274に見られるように、シーンを視認するすべてのN台のカメラについて画素対光線較正が導出されたかどうかを確認する。N台のカメラのすべてが較正されていない場合では、第7のステップ276に見られるように、異なるグループのカメラによって視認可能であるように、基準物体は、好ましくは、シーン内に再位置付けされる。次に、ステップ262~274を、N台のカメラすべてについて画素対光線較正が実行され、較正が完了したと考えられるまで繰り返され得る。
基準物体がその新しい位置で視認可能であるカメラのグループは、基準物体が以前に視認可能であったカメラのグループと重複してもよく、全N台のカメラのうちのカメラが複数回較正されるが、毎回異なる基準物体位置およびカメラの異なるグループに関して較正されることが理解される。
図2Aおよび2Bを参照して本明細書に記載されたカメラ間較正の特定の方法は、本発明の物品識別および追跡システムの文脈内での実装形態に限定されず、むしろ、共通のシーンを視認する少なくとも2台のカメラの迅速かつ正確な較正から利益を得る他の様々な用途におけるカメラ間較正に有用であり得ることが理解される。
次に図3を参照すると、図3は、画像分析および分類機能を実行するシステム構成要素の簡略化されたブロック図であり、図1に示されるタイプの物品識別および追跡システムの一部を形成し得る。
図3に見られるように、物品識別および追跡システム100の多数のカメラ110は、ここでは、カメラ1からカメラNまでを含むように示されている。システム100は、建物104(図1)のサイズに応じて、100を超えるカメラなどの多数のカメラ、または少数のカメラを含み得る。
図1を参照して上述されたように、カメラ110は、好ましくは、消費者物品102および個人106(図1)などの複数の物体を含むシーンを視認するように、かつそれらの画像を取得するように配置される。カメラ1~Nは、好ましくは、少なくとも部分的に相互に同時にシーンの複数の画像を取得するように作動する。ここで、例として、カメラ1~Nは、画像1~Nを取得するように作動することが示されている。ただし、カメラ1~Nの各々によって複数の画像が取得され得るが、複数のカメラ1~Nは、画像を取得するために必然的に作動することが理解される。カメラ110は、従来の2Dカメラであり得るか、またはステレオカメラ、飛行時間型カメラ、または構造化光カメラなどの深度センサを含み、深度情報を含む3D画像を提供するカメラであり得る。
図3に示されるようなカメラ1~Nによる画像の取得は、所与の時間枠におけるカメラ1~Nの同時作動を表すことが理解される。システム100の作動において、カメラ1~Nは、好ましくは、そのような画像を1秒間に複数回取得するように作動し、この画像は、好ましくは、図3を参照して本明細書で以下に概説されるように処理される。
カメラ1~Nは、好ましくは、それによって画像1~Nを取得する前に較正されることが理解される。カメラ1~Nは、図2A~2Bを参照して本明細書で上述されたように相互較正され得る。
画像1~Nは、好ましくは、画像分析モジュールに提供され、好ましくは、物品識別および追跡器130の画像分析モジュール134として具体化される(図1)。
本発明の1つの好ましい実施形態によれば、カメラ110によって取得された画像1~Nは、好ましくは、画像分析モジュール134へのその提供の前に、前処理される。好ましくは、前処理は、複数の画像1~Nの少なくとも1つの特性を第1の特性から第2の特性に変換することを含む。本発明の1つの好ましい実施形態によれば、画像1~Nは、画像分析モジュール134によるその分析の前に、解像度が低減される。ここで、例として、第1の解像度を有する画像1~Nは、第2の解像度を有する対応する低解像度画像1~Nに変換され、第2の解像度は第1の解像度よりも低いと見られる。例えば、画像解像度の低下を含むそのような前処理は、画像分析モジュール134自体によって、またはシステム100の一部を形成する画像変換モジュールなどの別の構成要素によって実行され得ることが理解される。
画像1~Nの前処理およびその少なくとも1つの特性の変換は、好ましくは、画像分析モジュール134によって画像1~Nを処理するために必要とされる計算電力を低下するために実行される。ここで、例として、画像の解像度の低下1~Nは、画像を処理するために必要な計算電力を低下させる。しかしながら、画像を処理するために必要とされる計算電力を低下させるために、解像度以外の画像1~Nの特性が代替的に変換され得ることが理解される。ほんの一例として、画像を圧縮するか、または画像内の対象の区域(例えば、動きが検出された区域)に焦点を当てるために追加情報を使用することができる。しかしながら、元の、例えば、カメラ1~Nによって取得されたより高い解像度の画像は、好ましくは、システム100に保持および記憶され、任意選択で、以下でさらに詳述されるように、画像分類モジュール138によって処理される。
好ましくは、システム100は、本明細書でさらに後述されるように、解像度の低下などの第2の特性を有する複数の画像1~Nのうちの少なくともいくつかに出現する少なくとも1つの物体の少なくとも1つの特徴を自動的に発見し、発見された少なくとも1つの特徴に基づいて、元のより高い解像度などの第1の特性を有する画像を修正するように作動する。
画像分析モジュール134は、好ましくは、複数の画像1~N、特に好ましくは複数の低解像度画像1~Nを受信し、カメラ1~Nによって画像化され、複数の画像1~Nのうちの少なくともいくつかに出現する複数の物体のうちの少なくとも1つの物体の存在を検出し、その同一性を発見するように作動する。画像化された対象の物体は、物品102(図1)などの1つ以上の消費者物品、買い物客106(図1)などの1人以上の個人、または両方でもあり得ることは理解される。ここで、例として、画像分析モジュール134は、物体が物品102などの物品である場合、好ましくは、物体同一性1-対応する画像1~N内の物体同一性Nを識別する。対象の物体が人である場合の画像分析モジュール134の作動に関するさらなる詳細は、以降で提供される。
物体同一性1~Nは、多様な同一性である場合もあれば、少なくともいくつかの共通の物体同一性を含む場合があることも理解される。物体同一性1~Nは、異なる物体を示す画像1~Nに起因して多様な同一性である可能性があり、その異なる物体は、画像分析モジュール134によって対応して異なるように識別される。追加的または代替的に、物体同一性1~Nは、少なくとも部分的に同じ物体を示す画像1~Nのうちの少なくともいくつかにもかかわらず、画像分析モジュール134によって画像化された物体が異なって識別されるため、多様な同一性であり得る。これは、同じ物体が、カメラ1~Nによって異なる画像化角度で、異なる視点から、および異なる画像化パラメータで、画像1~Nのうちの少なくともいくつかにおいて画像化されることに起因し、画像1~Nのうちの2つ以上における同じ物体が画像解析モジュール134によって異なる同一性を割り当てられることになる場合がある。画像1~Nは複数の物体を示し得ること、および画像分析モジュール134は、画像1~Nの各々の中の複数の物体同一性を識別するために作動し得ることが理解される。
本発明の特に好ましい実施形態によれば、画像分析モジュール134は、好ましくは、物体の存在を検出し、その同一性、例えば、低解像度画像1~Nにおける物体同一性1~Nなどの物体の同一性を発見するように作動する。好ましくは、必ずしもそうではないが、画像分析モジュール134は、人工知能を採用する。画像の人工知能ベースの分析は、2Dまたは3D画像に対して実行され得ることが理解される。好ましくは、画像分析モジュール134は、内部の物体の位置を示すバウンディングボックスをその中に挿入することによって、画像1~Nに注釈付けするように作動する。さらに好ましくは、画像分析モジュール134は、それによって識別された各物体同一性に信頼水準を割り当てるように作動し、その信頼水準は、好ましくは、物体の存在が検出された信頼度と、その検出された物体の同一性が分析モジュール134によって識別された信頼度との両方を表現している。
このような検出および識別の人工知能ベースのプロセスは、非常に計算量が多く、通常、ローカルサーバ120およびクラウド122(図1)の一方または両方に位置付けられたコンピューティングデバイスによって実行するのにかなりの時間がかかることが理解される。したがって、画像分析モジュール134によるそのような画像分析の実行前に、カメラ110によって取得された高解像度画像をより低い解像度の画像に変換することは、物体の検出および識別に必要な計算電力および処理時間がそれによって大幅に削減されるため、非常に有利である。しかしながら、場合によっては、そのような解像度の低下は必要ない場合があり、高解像度画像1~Nは、その解像度のいかなる事前の低下も伴わずに、画像分析モジュール134に直接提供され、画像分析モジュール134によって処理され得る。
典型的には、本発明の画像における物体識別の目的で人工知能を採用する場合、画像分析モジュール134は、画像内の物体を自動的に識別することができるように最初に訓練される。そのような訓練は、画像分析モジュール134に含まれ得るAIネットワークへの多数の訓練画像の提供を含み得、多数の訓練画像の各々に出現する少なくとも1つの物体は、画像分析モジュール134のAIネットワークについて識別される。訓練画像に出現し、画像分析モジュール134に提供される物体の識別は、人間の識別を含み得る。より好ましくは、訓練画像に出現し、画像分析モジュール134に提供される物体の識別は、マシンビジョンに基づく機械識別を含み得る。そのようなアルゴリズムを訓練するためのデータの生成に関するさらなる詳細は、図9A~図18を参照して以降で提供される。
訓練に続いて、画像分析モジュール134は、好ましくは、人工知能に基づいて、そこに提供される画像内の物体を自動的に識別するように作動する。
任意選択で、物体識別画像1~Nは、画像分析モジュール134の下流および画像選択モジュール136の上流の画像フィルタリングモジュール300に供給され得る。画像フィルタリングモジュール300は、好ましくは、内部で少なくとも1つの物体が識別された複数の画像を画像分析モジュール134から受信するように作動し、ここでは、画像分析モジュール134は、物体識別画像1~Nとして具体化される。画像フィルタリングモジュール300は、好ましくは、複数の画像のうちの1つ以上の画像を除外するように作動する。
画像フィルタリングモジュール300によって実行されるフィルタリングは、物体同一性の定義されたグループに属していないものとして画像内で識別された少なくとも1つの物体の同一性に基づき得る。内部で識別された物体の同一性が物体同一性の定義されたグループに属さない少なくとも1つの画像は、好ましくは、画像フィルタリングモジュール300によって画像選択モジュール136に提供されない。
ここで、例として、画像フィルタリングモジュール300は、物体識別画像1、2、3、4、およびN受信することが示されている。例えば、物体同一性1、3、4、およびNは、物体同一性の定義されたグループのメンバーであり得、一方、物体同一性2は、物体同一性1、3、4、およびNと非常に異質であることに起因して物体同一性のその定義されたグループ外であり得る。この場合、システム100の下流構成要素に物体識別画像1、3、4、およびNのみ提供され、物体識別画像2は提供されない。このようにして、シーンから同時に取得された他の画像で識別された物体と明確かつ明白に異なる物体が内部で識別された画像は拒否される。
画像フィルタリングモジュール300によって適用される物体同一性の定義されたグループは、クラスタ化された類似の物体同一性の所定のグループであり得るか、またはシステム100の作動の過程の間に定義された動的グループであり得る。追加的または代替的に、定義されたグループは、システム100またはそれに類似の他のシステムの過去の作動に基づいて、類似の物体同一性の過去に学習されたカテゴリに基づいて定義され得る。
追加的または代替的に、画像フィルタリングモジュール300は、物品が画像分析モジュール134によって検出および識別される信頼度に閾値信頼水準を適用することに基づいて、画像分析モジュール134によってそこに提供される複数の画像のうちの1つ以上を除外するように作動し得る。画像フィルタリングモジュール300のこの作動モードでは、事前定義された信頼水準未満の信頼度で検出および識別された物品は、フィルタリングモジュール300によって除外され、システム100の下流構成要素に提供されない。
任意選択で画像フィルタリングモジュール300によってフィルタリングされた物体識別画像1~Nは、好ましくは、画像相関モジュール302に供給される。画像相関モジュール302は、好ましくは、そこに供給された画像の各々において識別された少なくとも1つの物体が出現する複数の画素位置を、複数のカメラを照射する対応する複数の光線に相関させ、複数の光線のうちの少なくともいくつかの交差点を発見するように作動する。光線交差点は、任意の適切な方法によって発見され得、その様々な方法が当技術分野で知られている。例えば、光線交差点は、光線交差点の有効点である、複数の光線までの距離が最小である点を計算するために、中点法などの方法を使用して発見され得る。
ここで、例として、画像相関モジュール302は、好ましくは、対応する画素位置で内部で識別された物体を有する画像1、3、4、およびNを受信し、物体がカメラ1、3、4、およびNを照射する光線に対して出現する画素位置を関連付けるように作動し、画像相関モジュール302は、好ましくは、光線の少なくともいくつかの交差点を発見する。
物体が画像内に出現する画素位置と、画像が取得されるカメラを照射する光線のパラメータとのそのような相関は、好ましくは、カメラ較正モジュール132によって最初に実行された画素対光線較正に基づき、この画素対光線較正は事前に多数のカメラ110の各カメラについての画素対光線の相関を確立したことが理解される。
好ましくは、画像選択モジュール136(図1)として具現化される画像選択モジュールは、好ましくは次いで、それらの画像のみを選択するように次に作動し、それらの画像において、画像相関モジュール302によって発見された交差点と交差する光線に対応する画素位置に少なくとも1つの識別された物体が出現する。複数の光線のうちのいくつかの交差点は、空間内の共通の個々の物体の3D位置に対応すると考えられ、その結果、交差点と交差する光線に対応する画素位置に物体を示す画像は、その光線交差点に位置付けられているその共通の物体を示す画像であると考えられ得ることが理解される。これは、カメラを照射する様々な光線が実際に空間内の同じ画像化された物理的点から発せられない限り、カメラセンサ画素を照射し、3D空間で交差する様々な光線の確率が無視できるという理解に基づいていることが理解される。
したがって、画像選択モジュール136は、好ましくは、共通の物体を示す複数の画像のうちの画像を選択し、共通の物体を示さない複数の画像のうちの他の画像を拒否するように作動する。画像選択モジュール136によって実行される選択および拒否は、好ましくは、複数のカメラの事前の相互較正に基づき、この事前の相互較正は、カメラ110によって取得された画像の画素位置とカメラ110を照射する光線のパラメータとの間の相関を確立するのに役立つ。したがって、画像選択モジュール136は、好ましくは、幾何学的選択モジュールとして機能し、3D空間におけるカメラ光線の幾何学的交差に基づいて画像を選択するように作動することが理解される。
画像選択モジュール136は、好ましくは、光線交差点に対応する位置にある共通の物体を示すものとして識別された選択された画像のセットを出力するように作動する。発見された交差点に対応する3D空間内の位置は、物体の3D位置に対応すると考えられる。本発明の1つの好ましい実施形態では、物体は、図6~図8を参照して以降でさらに詳述されるように、光線交差点に位置付けられている3D空間内の点としてモデル化され得る。
ここで、例として、画像選択モジュール136は、物体識別画像1、3、および4を含む選択された画像のセット304を出力するように示されている。選択された画像のセット304は、物体識別画像Nを含まず、この物体識別画像Nは、画像相関モジュール302によって発見された光線交差点と交差しない照射光線に対応する画素位置に物品を示すものとして、画像選択モジュール136によって拒否された。
画像選択モジュール136によって実行される選択および拒否は、好ましくは、事前のカメラ間較正に基づき、より具体的には、好ましくは、事前のカメラ間較正によって発見される光線交差に基づく幾何学的フィルタリングに基づき、したがって、複数の画像内の少なくとも1つの物体の同一性に関係なく実行され得ることが理解される。画像選択モジュール136は、画像分析モジュール134によって発見されるような物体の同一性ではなく、その中の物体の位置に基づいて画像を選択および拒否するように作動し得る。
代替的に、画像選択モジュール136は、それによって実行される幾何学的画像選択を増強するために、画像分析モジュール134によって発見されるような物体の同一性を考慮するように作動し得る。特定の実施形態では、画像は、画像選択モジュール136でクリークにグループ化され得、それによって、各クリークは、内部で識別された同様の物体を有する画像から構成される。次に、画像選択モジュール136は、物品の位置を比較し、すべての画像ではなく、各クリーク内のそれらの画像についてのみ光線交差点に位置付けられている物体を示す画像を識別するように作動し得る。そのようなアプローチは、画像選択モジュール136によって実行される幾何学的画像選択を促進し得る。
光線交差に基づく画像相関モジュール302および画像選択モジュール134の上述された作動は、カメラ110によって取得された2D画像の処理に特によく適していることが理解される。しかしながら、カメラ110が、物体識別画像1~Nが深度情報を含むように深度カメラとして具体化される場合、画像相関モジュール302および画像選択モジュール134は、代替の方法で作動し得る。
本発明のこの実施形態では、画像相関モジュール302は、そこに入力された物体識別画像1~Nのうちの任意の所与の1つで識別される物品の3D位置を、物体識別画像1~Nに含まれる深度情報に基づいて発見するように作動し得る。次に、画像選択モジュール134は、所与の画像内の3D物品の位置が、物体識別画像1~Nの他のいずれかの物品の3D物品の位置と一致するかどうかを確認し得る。物品の位置が合致すると発見された場合、物品は空間における共通の位置にあり、したがって同じ物理物品に対応すると考えられる。
画像選択モジュール136によって選択された画像は、2D画像の場合は光線交差、または3D深度画像の場合は合致する3D位置に基づいて、したがって、同じ物理的位置にある同じ物品を示すと考えられる画像のセットを形成すると考えることができる。したがって、画像選択モジュール136は、幾何学的フィルタリングモジュールとして効果的に機能し、同じ位置に同じ物品を表示することが発見されない画像を拒否することが理解される。本発明のシステムの作動のこの段階では、物品の特定の最終的な同一性はまだ確認されていないことが理解される。
次に、画像選択モジュール136によって選択された画像は、好ましくは、物品分類モジュールに提供され、好ましくは、物体分類モジュール138として具体化される(図1)。分類モジュール138は、好ましくは、画像選択モジュール136によって出力された選択された画像のセットを受信し、選択された画像のセットを示す少なくとも1つの物体の同一性を発見するように作動し、この物体は、好ましくは、3D空間の所与の領域を占める共通の物体である。それ自体によって受信された画像内の物体同一性を考慮しなくてもよい画像選択モジュール136とは対照的に、分類モジュール138は、好ましくは、選択された画像のセット内の物体同一性を考慮することによって物体同一性を導出するように作動する。複数のカメラによって取得された画像に基づいて物体同一性を確立することは、単一のカメラによって取得された画像に基づいて物体同一性を確立することとは対照的に、誤差を減少させ、物品識別の精度を改善するのに有利に役立つことが理解される。
本明細書で上述されたように、選択された画像が、空間内の共通点を占める共通物体をすべて示すことに基づいて選択されたにもかかわらず、画像分析モジュール134は、その画像のうちの異なる画像における共通物体の外観の変動に起因して、共通物体に多様な物体同一性を割り当てている可能性がある。分類モジュール138は、好ましくは、選択された画像のセット内の様々な多様な物体同一性を融合し、単一の物体同一性306を導出するように作動し、この単一の物体同一性は、共通の物体の最終的な確認された同一性であると考えられる。分類モジュール138は、好ましくは、異なる物体同一性の組み合わせおよび重み付けに基づいて、様々な多様な物体同一性を融合するように作動可能である。
本発明の1つの好ましい実施形態では、分類モジュール138は、画像分析モジュール134によって発見されるような、選択された画像のセット内の様々な物体同一性を受信するように、かつ単一の最終的な物体同一性を導出するために、画像分析モジュール134によって各物体同一性に割り当てられた信頼水準に少なくとも部分的に基づいて、様々な同一性を融合するように作動し得る。このような同一性の融合は、機械学習に基づき得る。画像分類モジュール138によって導出された単一の最終的な物体同一性はまた、それに関連する信頼水準を有し得る。画像分析モジュール134によって分析される画像の解像度が低下することに起因して、その中で識別される様々な物体同一性と関連付けられた信頼度、したがって、それに基づく最終的な融合された物体同一性と関連付けられた信頼度が許容できないほど低くなる可能性があることが理解される。
そのような場合、本発明の追加の好ましい実施形態によれば、分類モジュール138は、物体の識別を再実行するように作動し得る。画像分析モジュール134によって分析され、選択された画像のセット304を形成する低解像度画像に対応する初期の高解像度画像が検索され、分類モジュール138に提供され得る。分類モジュール138は、例えば、画像分析モジュール134によって識別される物品位置の領域で高解像度画像を切り取ることによって、高解像度画像を修正するように作動し得る。次に、分類モジュール138は、切り取られた高解像度画像内の物品の同一性を再発見するように作動し得る。
分類モジュール138によって処理される画像のより高い解像度に起因して、それによって発見される物品同一性の精度は、典型的には、画像分析モジュール134によって対応する低解像度画像に発見される物品同一性の精度よりも高いことが理解される。さらに、切り取られる高解像度画像に起因して、分類モジュール138は、より限定された画像領域内で物品の同一性を分類するように作動し、したがって、必要な計算電力および処理時間を低減させる。結果として、高解像度画像の画像分析に基づく分類モジュール138によって出力される最終物体分類と関連付けられた信頼性は、より低い解像度の画像に基づく画像分析モジュール134によって提供される物品同一性に基づく信頼性よりも大きくなり得る。したがって、画像分析モジュール134によって分析される画像は、その中に出現する物品の同一性をより正確に発見することを可能にするために、より高い解像度の画像の修正、例えば切り取りを指示するのに役立つ。
図3に見られるように、例として、その中で識別された対応する物体1、3、および4を有する画像1、3、および4を含む低解像度画像304の選択されたセットは、画像分類モジュール138に直接提供され得る。次に、分類モジュール138は、対応する高解像度画像1、3、および4を検索し、高解像度画像1、3、および4を切り取り、物品同一性306を導出するために、切り取られた高解像度画像に対して物品識別および分類を再実行し得る。この実施形態では、分類モジュール138は、より低い解像度の画像に基づいて、元のより高い解像度の画像を修正するための画像修正器として機能し得ることが理解される。
分類モジュール138が元の高解像度画像上で物品識別を再実行する場合、最終的な物品同一性306の導出は、画像分析モジュール134によって処理されるような低解像度画像に基づいて導出された物品同一性を考慮する場合と考慮しない場合があることが理解される。
解像度以外の元の画像1~Nの特性が変換された場合、分類モジュール138は、より高い精度で内部に出現する物品の同一性を発見することを可能にするために、オリジナルの非修正画像を検索し、元の画像の分析を指示するために、より少ない処理電力を必要とする変換された画像を使用するように、本明細書で説明されるものと同様の方法で作動し得ることが理解される。
分類モジュール138の作動、特に単一の最終的な物体同一性を導出するために分類モジュール138が多様な物体同一性のバランスをとるために作動する方法に関するさらなる詳細が、図4を参照して以降で提供される。
図3に示されるシステム100の構成要素に関して上述された画像処理機能は、建物104(図1)内の物品102などの物品の位置および同一性の識別に関して説明されることが理解される。しかしながら、場合によっては、カメラ110による買い物客106の画像化に基づいて、建物104(図1)内の買い物客106などの個人の位置を追加的または代替的に発見することが望ましい場合があることが理解される。
買い物客106(図1)などの画像化された個人の存在および位置を発見する場合、買い物客106の同一性の発見は必ずしも関連性がないことが理解される。したがって、この場合、人工知能画像分析モジュール134は、好ましくは、買い物客106の存在および位置を発見するためにのみ作動する。好ましくは、これは、好ましくは、AIアルゴリズムの採用に基づいて、買い物客106の存在および位置を発見する画像分析モジュール134によって達成される。好ましくは、画像分析モジュール134は、買い物客106の身体を表す姿勢グラフを作成する。そのような姿勢グラフは、買い物客106の身体の主要位置に対応するいくつかの主要点を含み得る。これらの主要点は、買い物客106の身体上のそれらの位置を示すために好ましくはラベル付けされている。内部の個人の存在および位置を識別するための画像のAI処理に関するさらなる詳細は、図15A~17Dを参照して以降で提供される。
内部で姿勢グラフによって識別された買い物客106などの個人を有する画像は、画像相関モジュール302に供給され得ることがさらに理解される。画像相関モジュール302は、好ましくは、そこに供給された画像の各々における姿勢グラフ内の主要点が出現する複数の画素位置を、複数のカメラを照射する対応する複数の光線に相関させ、複数の光線のうちの少なくともいくつかの交差点を発見するように作動する。したがって、共通の光線交差点に対応する主要点は、買い物客106上の同じ身体位置に対応すると考えられる。
画像における解像度の低下およびその後の元のより高い解像度の画像の検索は、人間以外の物体の画像と比較して、そのような画像を迅速かつ正確に処理するAIアルゴリズムの能力が向上していることに起因して、人間の被写体の画像の処理に関して必ずしも必要ではないことが理解される。
次に図4を参照すると、図4は、図3に示されるタイプの画像分析および分類構成要素によって実行される機械学習を示す簡略化されたブロック図である。
図4に見られるように、内に識別された少なくとも1つの物体を有する入力画像のセット400は、好ましくは、画像フィルタリングモジュール300、画像相関モジュール302、および画像選択モジュール136(図3)を介して、例えば、画像分析モジュール134によって分類モジュール138に提供される。例えば、入力画像のセット400は、図3の選択された画像304に対応し得る。入力画像のセット400において識別される少なくとも1つの物体は、好ましくは、画像分析モジュール134によって採用されるように、人工知能に基づいて識別される。内部に入力された画像内の物体を識別するために画像分析モジュール134によって採用される人工知能は、深層学習、ニューラルネットワーク、または物体同一性への任意の他のタイプの人工知能アプローチを含み得る。
画像分析モジュール134は、好ましくは、シーンを視認するカメラ110(図1および3)などの複数のカメラによって取得された複数の画像を受信し、図3を参照して本明細書で上述されたように、複数の画像に出現する対応する複数の物体の複数の同一性を自動的に発見するために人工知能を採用する。複数のカメラによって取得された複数の画像の解像度は、必要な計算電力を低減し、画像処理を加速するために、画像分析モジュール134によるさらなる処理の前に低下され得る。
画像選択モジュール136は、好ましくは、さらに図3を参照して本明細書で上述されたように、カメラによって画像化され、選択された画像の各画像に出現する複数の物体の一部を形成する物体の位置に関して、複数のカメラの較正に基づいて複数の画像のうちの選択された画像を選択する。
画像分類モジュール138は、好ましくは、複数の画像のうちの選択された画像を受信し、選択された画像に出現する物体の同一性を導出するために機械学習を採用する。
分類モジュール138は、好ましくは、機械学習を採用して発見された異なる物体同一性を比較検討および組み合わせることに基づいて単一の最終的な物体同一性402を導出するように作動し、その異なる物体識別は、好ましくは、人工知能を採用することによって発見される。したがって、本発明のシステムは、好ましくは、「二重」機械学習を採用し、単一の究極の物体同一性を導出するために、機械学習を採用することに基づいて、人工知能を採用することに基づいて最初に識別された多様な複数の物体同一性が融合される。
本発明の1つの可能な実施形態では、分類モジュール138は、所与の同一性を有する共通の物体を示すと識別された画像の相対数を考慮することに基づいて、多様な物体同一性を重み付けする。例えば、第1の同一性が入力画像400の80%において共通の物品に割り当てられ、第2の異なる同一性が入力画像400の20%において同じ物品に割り当てられた場合、分類モジュール138は、好ましくは、第1の同一性に大きい重みを与えるように作動する。
本発明の1つの好ましい実施形態では、図3を参照して本明細書で上述されたように、分類モジュール138は、画像分析モジュール134によって発見された、複数の画像のうちの選択された画像における対応する複数の物体の複数の同一性を融合することに基づいて、少なくとも複数の画像のうちの選択された画像に出現する物体の同一性402を導出するように作動する。
図3を参照して本明細書で上述されたように、本発明の特定の実施形態では、画像分析モジュール134は、解像度の低下した入力画像に基づいて物体の検出および識別を実行するように作動し、必要な計算電力および処理時間を最小化するために画像の解像度を低下させることが望ましい。ただし、入力画像の解像度が低いことに起因して、入力画像に基づいて発見された物体同一性と関連付けられた信頼度は比較的低くなる可能性がある。したがって、低解像度の入力画像を使用して画像分析モジュール134によって発見された物体同一性に基づいて導出された物体同一性402に関連付けられた信頼度は、許容できないほど低くなる可能性がある。
物体同一性402と関連付けられた信頼度を高めるために、分類モジュール138は、図3を参照して本明細書でも上述されたように、任意選択で、高解像度画像を切り取り、続いて、切り取られた高解像度画像上で物体検出および識別を再実行するように作動するサブモジュール403を含み得る。
サブモジュール403は、カメラ110によって捕捉された、第1のより高い解像度を有する複数の初期画像のうちの少なくともいくつかを検索するように作動し得る。次に、サブモジュール403は、第2のより低い解像度の画像の対応するそれぞれの画像に出現する識別された物体の位置に対応する領域内のより高い解像度の画像の各々を切り取り得る。したがって、例えば、画像分析モジュール134(図3)によって実行されるようなより低い解像度の画像における物体識別は、例えばサブモジュール403によって実行されるような元の対応するより高い解像度の画像の切り取りを指示するのに役立つ。
次に、サブモジュール403は、人工知能を採用して、切り取られた第1のより高い解像度の画像内の物体の同一性を自動的に発見し、少なくとも、選択された切り取られた複数のより高い解像度の画像内の対応する複数の物体の複数の同一性を融合することに基づいて、より高い解像度の画像内に出現する物体の同一性を導出するために人工知能を採用し得る。より高い解像度の画像が切り取られたことに起因して、画像の検出および識別はより小さな画像領域に限定され、したがって必要な計算時間および電力が低減される。それによって最終的な物体同一性402は、切り取られたより高い解像度の画像に基づいて、より高い信頼水準で導出され得る。対応するより低い解像度の画像に基づいて、より低い関連する信頼水準で導出されたであろう物体同一性402は、より高い解像度の画像に基づいて物体同一性402を導出する際に考慮される場合と考慮されない場合があることが理解される。より低い解像度の画像に基づく物体同一性402が十分な水準の信頼度で発見された場合、サブモジュール403による追加の処理は不必要であり得ることもまた理解される。
入力された多様な物体同一性を融合するために分類モジュール138によって採用される機械学習は、物体識別が、本明細書で上述されたようにより高い解像度および/またはより低い解像度の画像に基づき得、様々な入力によって増強され得る。例として、単一の最終的な物体同一性を導出するために多様な物体同一性を融合する際に、分類モジュール138は、過去に発見された物体同一性を1つの入力係数404として考慮し得る。この場合、集約された買い物客の統計は、以前に所与の物品を選択した買い物客によって通常選択される物品の範囲を示し得る。買い物リスト作成モジュール140(図1)によって好ましくは生成されるような買い物客106によってすでに選択された物品同一性に基づいて、分類モジュール138は、買い物客106によって以前に選択された他の物品に基づいて、所与の買い物客106によって選択されると典型的に予想される物品に対応する物品同一性により大きい重みを与え得る。そのような集約された買い物客の統計は、好ましくは、集約された匿名の統計であり、所与の買い物客106に固有ではないことが理解される。
追加的または代替的に、単一の最終的な物体同一性を導出するために多様な物体同一性を融合する際に、分類モジュール138は、追加の入力係数406として、所与の物体が画像に出現する頻度に関連する集約された履歴データを考慮し得る。例えば、入力画像400に出現数共通の物品が、画像分析モジュール134によって相互に等しい重みを有する2つの可能な同一性を割り当てられた場合、集約された履歴データに基づいて、買い物客によってより頻繁に典型的に選択される物品に対応する物体同一性は、分類モジュール138によってより大きい重みが与えられ得る。
さらに追加的または代替的に、単一の最終的な物体同一性を導出するために多様な物体同一性を融合する際に、分類モジュール138は、追加の入力係数408として、シーン内の少なくとも1つの物体の所定のモデルに基づいてシーン内の物体の位置を考慮し得る。例えば、建物104内の物品の初期位置は、分類モジュール138に提供され得、および、建物プラノグラムに基づいて、様々な物体同一性の中からそれに応じて物品の同一性が導出され得る。
さらに、体積または重量センサ410は、物体識別を支援するデータを提供するために、建物104内に位置付けされてもよいが、特に、買い物客106の手の注文サイズ以下の小さな物品の場合では、これらの物品は画像内での同一性に対して困難であり得る。体積または重量センサ410は、物品102が載っている表面の初期重量、および物品がそこから取り出した後の表面の後続の重量を記録し得る。重量の違いは、取り出された物品の重量を示し得、したがって、その識別に役立つ。そのような体積または重量データは、多様な物体同一性の融合を支援するために分類モジュール138に提供され得る。そのような体積または重量データは、追加的または代替的に画像分析モジュール134に提供され、それによって実行される予備的な物体識別を支援するようにし得る。重量センサが表面から取り出された物品の重量を正確に記録するために、物品の重心が重量センサの上になければならないことが理解される。小さな物品の場合、これは、小さな物品を容器内に位置決めすることによって達成することができ、その容器は、重量センサに対して中央に位置付けることができる。
追加的または代替的に、しるし読み取りモジュール412は、本発明のシステムに組み込まれ得る。しるし読み取りモジュール412は、別個のモジュールであり得るか、またはカメラ110の機能に含まれ得る。しるし読み取りモジュール412は、好ましくは、物体の最終的な同一性を導出するために、画像化された物体の一部を形成するしるしの少なくとも一部分を少なくとも部分的に読み取るように作動する。
例として、画像化された物体に含まれるしるしは、物体に印刷されたテキストまたは凡例であり得る。テキストの少なくとも一部を読み取ることは、分類モジュール138による物体同一性の分類を支援し得る。例えば、物体上の特定の文字の出現は、分類モジュール138によって使用されて、画像分析モジュール134によって提供される可能な物品同一性の範囲から物品同一性を区別し得る。
さらに例として、画像化された物体に含まれるしるしは、所与の物品と関連付けられたロゴなどの画像の形態であり得る。物品上の特定の記号、エンブレム、または色の外観は、部分的にしか識別されない場合でも、分類モジュール138によって使用されて、画像分析モジュール134によって提供される可能な物品同一性の範囲から物品同一性を区別し得る。
さらに追加的にまたは代替的に、画像背景減算モジュール414が本発明のシステムに組み込まえ得る。そのような画像背景減算は、分類モジュール138に提供された複数の物体同一性の中から単一の物体同一性を導出するのを支援するのに有用であり得る。画像背景減算モジュール414は、時間的背景減算を実行し得、シーンの少なくとも1つの初期画像が第1の時点で取得され、シーンの少なくとも1つの後続画像が第2の時点で取得され、後続の画像が第1の時点と第2の時点との間のシーンからの物体の取り出しを検出するために、初期画像からが減算される。例として、棚114(図1)は、そこから物品を除去する前および後に画像化され得、棚114から取り出される物品の性質および量の識別を支援するために使用される2つの画像の差。
画像背景減算モジュール414は、追加的または代替的に、空間的背景減算を実行し得、画像分析を単純化するために、不動要素をその所定のモデルに基づいてシーンの画像から減算し得る。
次に図5を参照すると、図5は、図1に示されるタイプの物品識別および追跡システムで採用されるカメラの配置を最適化するのに役立つスコアリングを示す簡略化されたグラフである。
図1を参照して本明細書で上述されたように、システム100は、好ましくは、建物104(図1)などのシーンを視認し、その中の少なくとも1つの物体に関連する視覚データを取得するように配置された多数のカメラ110を含む。本発明の好ましい実施形態によれば、カメラ110の複数の可能な配置は、好ましくは、死角が最小化され、建物104内の物品の視野角の範囲が最大化されるカメラ110の最適な配置を発見するために、その中にカメラ110を設置する前に、建物104に関してコンピュータシミュレーションされる。
そのようなコンピュータシミュレーションは、建物104のコンピュータモデルを個々のユニットのグリッドに細分化することを含み得る。次に、第1のカメラ配置は、建物104のユニットに関して定義され得る。次に、すべてのユニットに、そのユニットが視認可能であるカメラの数に応じてサブスコアが割り当てられ得る。次に、建物を構成するすべてのユニットのサブスコアの合計は、そのカメラ構成の合計スコアを表す。追加的代替的な可能なカメラ配置をモデル化し、各々にスコアを割り当て、そのスコアは、所与のモデル内のユニットが見られる全体的なカメラ密度を表現する。
このようなスコアリングを示す非常に概略的な簡略化された例示的なグラフが図5に示されている。図5に示されるように、各構成に対して合計スコアが割り当てられる。合計スコアは、建物モデルの各ユニットの個々のサブスコアの合計であり、個々のサブスコアは、各それぞれのユニットが見られるカメラの数を表現する。図5に示されるデータの場合、第11のカメラ構成が最も高い構成スコアを持っているため、建物内の視認に最適であることが理解される。
建物104は、ユニットに分割することができ、いかなる個人106も存在しない場合、それに関してモデル化された様々なカメラ構成となる。追加的または代替的に、建物104は、建物内の個人106の存在を考慮することに基づいて、それに関してモデル化されたユニットおよびカメラ構成に分割され得る。構成スコア、したがって最適に識別されたカメラ配置は、建物内の個人106の存在または不在に応じて異り得ることが理解される。
次に図6を参照すると、図6は、図1に示されるタイプの物品識別および追跡システムで有用であり、そのイベント追跡モジュール140内で特に有用である物品追跡のためのモデルの簡略化された概略図である。物品のそのような追跡は、本明細書で後述されるように、建物内の特定の個人と関連する物品の目録を提供するために有用であり得る。
図6に見られるように、多数のカメラ110は、好ましくは、建物104を画像化するように作動する。カメラ110によって取得された画像に対する画像処理の実行の結果として、特に図3を参照して本明細書で上述された画像処理の実行の結果として、建物104内の物品102および個人106(図1)は、3D空間モデル602内の点600としてモデル化され得る。点600は、ここでは黒丸で示されている「物品点」610の場合であることが示されているように、物品の存在と関連付けられた点であり得る。代替的に、点600は、ここでは塗りつぶされていない円として示される「人点」612の場合であるように、個人の存在、より具体的には姿勢グラフ内の主要点によって表される個人の特定の身体部分と関連付けられた点であり得る。建物104が人と物品との両方を含む場合、物品点610と人点612との両方が点600の合計を含み得る。
次に図7に戻ると、モデル602に関連して実行されるプロセス700は、カメラ110が好ましくは1秒当たり20または25の画像などの高速フレームレートで建物104の画像を取得するように作動する第1のステップ702で開始することが見られる。カメラ110が作動する特定のフレームレートは、建物104の画像化要件に従って変化し得ることが理解される。
第2のステップ704に見られるように、各時点でカメラ110によって同時に取得された画像の各セットについて、図3~4に関して本明細書で上述されたような画像処理が、好ましくは、建物104内の、物体が点600によって表される無生物物品または人であり得る物体の分布の多次元、好ましくは3Dの、モデルを生成するように実行される。そのような3Dモデルは、建物104内の対象の領域に応じて、建物104全体または建物104の特定のサブの部分に対して生成され得ることが理解される。そのような3Dモデルは、イベント追跡モジュール140に含まれ得るモデル生成器によって生成され得る。
カメラ110のうちの様々なカメラは、建物104内の物体のうちの異なる物体の画像を提供し得、同じ物体は、建物104内の物体の位置に応じて、異なる時間枠でカメラ110のうちの異なるカメラによって画像化され得ることが理解される。したがって、3D空間における所与の物体の位置に対応する点600のうちの特定の点は、第1の時点でのカメラ110のうちの特定のカメラからの画像に基づいて、および第2の時点でのカメラ110のうちの特定の他のカメラからの画像に基づいて、第1の時点と第2の時点との間の所与の物体の動きに起因して、第2のステップ704で生成され得る。
本発明のこの特徴は、建物104が密集した環境である場合に特に有利であることが理解される。建物104内の物体のおそらく密集した分布にもかかわらず、対応する点600によって表される物体が任意の所与の画像化時間フレームで少なくとも2つのカメラ110の視線に留まるという条件で、点600の3Dモデルが連続的に生成され得る。
好ましくは、連続する時点に対して生成された多次元モデルは、少なくとも1つの物体の多次元モデルの変化を経時的に追跡するために比較される。より具体的には、点600のうちの各点の動きを追跡するために、連続する時点に対応するそれぞれの3Dモデルにおける点600のうちの各点の位置が比較される。そのような追跡は、画像フレーム間の時間ギャップが、特定の物体が隣接するフレーム内のその物体の位置に対して大幅に移動するのにかかる時間よりも短いという仮定に基づいていることが理解される。このような追跡は、イベント追跡モジュール140に含まれ得るモデル追跡器によって実行され得る。
そのような追跡は、1つの時点で生成された3Dモデルからの情報が、2つの時点が直接隣接していないにもかかわらず、別の時点で生成された3Dモデルからの情報を増強するために使用されることを含み得ることが理解される。例えば、人点612のうちの特定の点がいくつかの連続するフレームから消え、その後再び出現する場合、その点612は、間にあるフレームからの点がないにもかかわらず、その点のより前の時間の時間インスタンスに追跡され得る。これは、例えば、1つ以上の点612によって表される個人が一時的に出て、その後、建物104に戻る場合に関連し得る。
したがって、各時点に対して生成された3D空間内の点600の各3Dモデルは静的であるが、3D空間内の点600の動的通過の連続3Dモデルは、カメラ110によって取得された建物104の画像のストリームに基づいて構築され得る、点600の通過は、第3のステップ706で見られるように、隣接するフレーム間の点位置の変化の比較によって追跡され得ることが理解される。
次に、第4のステップ708に見られるように、目録は、第3のステップ706で構築された連続3Dモデルに基づいて生成され得る。3Dモデルは、好ましくは、建物104内のすべての点600に対して生成されるが、目録は、好ましくは、対象のイベントなどの変化を定義する所定の「トリガ」基準を満たす点600のうちの点の位置の選択された変化のみに基づくことが理解される。そのような目録は、イベント追跡モジュール140に含まれ得るデータ分析器によって生成され得る。
例として、図6に戻ると、建物104が買い物施設である場合、物品点610は、人点612によってモデル化された買い物客が購入できる物品を表し得る。そのようなシナリオでは、対象のイベントを表すと考えられ、それに基づいて目録を作成することができる点の動きのトリガ基準は、例えば図6の棚114によって表されるような購入できる物品の位置から所定の距離内に人点612のうちの1つが接近するようなイベントであり得る。そのようなトリガ基準を満たすイベントは、領域720で概略的に示され、そこでは、人点612が棚114に接近するのが見られる。この場合、3Dモデルは、人点612によって表されるように、買い物客によって取り扱われる物品点610によって表されるように、物体の同一性を決定するために分析され得ることが理解される。そのようなイベント追跡は、買い物客と関連付けられた買い物リストを生成するために使用され得るか、または建物104内の買い物客の通過を理解するために分析の目的で使用され得る。
さらに例として、建物104が倉庫である場合、物品点610は、人点612によって表される労働者によって取り扱われる物品を表し得る。そのようなシナリオでは、目録を作成することができる点の動きのトリガ基準は、人点612のうちの1つと関連付けられた置場から所定の距離内にある物品点610の1つの接近であり得る。この場合、3Dモデルは、1つ以上の人点612と関連付けられた置場に出入りした物品点610によって表される物体の同一性を決定するために分析され得る。
トリガ基準は、3Dモデルにおける点600のやり取りに関連するイベントに限定されないことが理解される。例として、プロセス700は、物体に関連するデータが外部ソースから取得される第5のステップ709を含み得る。そのような外部ソースは、例として、棚114に位置付けられたセンサであり得る。棚114の1つ上の物品の重量の所与の変化は、物体が棚から取り出されたことを示すトリガ基準として定義され得る。そのようなトリガ基準に基づいて、3Dモデルは、重量の変化を受けた棚114から、人点612によって表されるような買い物客によって取り出された、物品点610によって表されるような物体の同一性を決定するために分析されてもよい。
これらのトリガ基準は、例としてのみ提供されており、対象のやり取りに対応する3Dモデル内の変化を区別するために、任意の適切なトリガ基準を使用することができることが理解される。
次に図8に戻ると、物品の目録が生成される図7の第4のステップ708内の好ましいサブステップが示されている。第1のサブステップ800に見られるように、連続3Dモデル内の物体の位置が追跡されることが好ましく、その物体は物品または個人であり得る。第2のサブステップ802に見られるように、所定のトリガ基準を満たす物体位置の変化が好ましくは識別される。
次に、第3のサブステップ804に見られるように、所定の「トリガ」基準を満たす位置の変化を受けた物体の同一性および数量が発見される。第3のサブステップ804は、少なくとも1つのモデル化された物体に関連する情報を導出するために、第2のサブステップ802において発見されるように、少なくとも1つの所定の基準を満たす変化に関連するデータを分析することを含むことが理解される。物体の同一性および数量の発見は、例として、図4を参照して本明細書で上で概説されたように、自動的に実行され得ることが理解される。場合によっては、所与の物体の同一性または数量を確認するために、3Dモデルの分析において人間の入力が有利であり得ることがさらに理解される。そのような人間の入力は、物体の数量および/または同一性に関して自動的に生成された情報を増強するために供給され得る。
次に、第4のサブステップ806に見られるように、物体の数量および同一性は、買い物リストなどの目録に追加され得る。追加的または代替的に、所定のトリガ基準を満たすイベントに関連する情報は、建物内の物品および/または個人の通過の理解を得るために分析の目的で記憶され得る。第4のステップ806で買い物リストが生成される場合では、買い物リストは、好ましくは、建物104内の1つ以上の人点612によって表されるように、買い物客の通過中に連続的に更新される。例として、買い物リストは、買い物客が建物104から出る前に、支払いのために買い物客に自動的に提示され得る。
したがって、所与の買い物客のための買い物リストの生成は、好ましくは、買い物客と関連付けられた物品の追跡に基づいており、3Dモデルで事前定義された「トリガ」基準を満たす買い物客のやり取りの分析に基づいており、必ずしも買い物客の識別を伴わないことが好ましいことが理解される。したがって、システム100(図1)は、入力として買い物客の同一性を必要とせずに、匿名化された方法で作動し得る。
本明細書で上述されたように、システム100(図1)の構成要素によって実行される画像処理は、好ましくは、特に画像内の物体の存在および位置を検出するために、AIアルゴリズムに基づく画像の分析を含む。特に、多数の物品102および買い物客106を含む大規模な建物である建物104の場合では、必要な精度の水準で作動するようにそのようなAIアルゴリズムを訓練するために、非常に大量のデータが必要とされることが理解される。本発明の特に好ましい実施形態によれば、AIアルゴリズムのそのような訓練は、取得されたデータに基づく追加データの自動化された生成に基づいて、効率的、迅速かつ自動的に可能になる。そのような追加のデータは、取得されたデータの供給に加えて、その訓練中にAIアルゴリズムに供給され得、したがって、アルゴリズムの訓練を促進し、本発明を、大規模な物理的建物における、非常に大規模な実装に特によく適しているものにする。
次に、図9Aおよび図10Bを参照すると、図9Aおよび10Bは、本発明のシステムの実施形態の実装形態の簡略化された斜視図および側面図である。
図9Aおよび9Bに見られるように、物品102は、好ましくは、建物104の棚114上に配置され、天井112に取り付けられた多数のカメラ110によって視認可能である。物品102およびカメラ110の配置は、本発明の実施形態の以下の説明を明確にする目的で、非常に簡略化された方法で図9Aおよび9Bに示されており、物品102およびカメラ110は、本明細書に示されているものとは別の構成で配置され得ることが理解される。
次に図10Aおよび10B、11Aおよび11B、ならびに12Aおよび12Bを参照すると、図10Aおよび10B、11Aおよび11B、ならびに12Aおよび12Bは、図9Aおよび9Bの実装形態の一部の簡略図であり、本発明の好ましい実施形態による、AIアルゴリズムによって注釈付けされた、人間の被写体を含む文脈における複数のカメラの視線および対応する画像を示している。
次に図10Aおよび10Bに戻ると、第1のシナリオでは、買い物客106などの人間の被写体が物品102のうちの1つを取り扱っていることが示されている。例としてのみ、物品102を取り扱う買い物客106は、建物104において、カメラ1~4として示される4台のカメラによって同時に視認可能であるように示されている。カメラ1~4による買い物客106の画像化は、少なくとも本明細書で上述されたAIアルゴリズムの訓練のための画像を提供する目的で、この文脈で好ましくは実行されることが理解される。そのような訓練の目的は、AIアルゴリズムが、カメラ110によって取得されたその画像に基づいて、建物104内の物品102の存在および位置を自動的に正確に識別することを可能にすることである。AIアルゴリズムが、十分な精度でカメラ出力内の物品102の存在および位置を識別することができるように訓練されると、AIアルゴリズムは、図1~8を参照して本明細書で上述されたように、システム100内、より具体的にはその物品識別器および追跡器130(図1)内に実装され得る。
図10Aおよび10Bに見られるように、カメラ1はシーンの画像1001を出力し、カメラ2はシーンの画像1002を出力し、カメラ3はシーンの画像1003を出力し、カメラ4はシーンの画像1004を出力する。画像1001、1002、1003、および1004は、好ましくは、その中の物品102の存在および位置を識別するために、AIアルゴリズムによって処理される。このような画像処理に使用されるAIアルゴリズムは、シードAIまたは抽象AIネットワークと呼ばれることがあり、シードAIは、限られた範囲で、大きい程度の誤差で物品の存在および位置を識別することができることが理解される。本明細書で後述される本発明の実施形態の目的は、シードAIの性能を改善し、したがってシステム100内でのその実装を可能にするためにシードAIを訓練するための追加のデータを提供することである。
AIアルゴリズムによる画像1001、1002、1003、および1004の処理の結果として、画像1001、1002、1003、および1004は、好ましくは、物品102の位置にその中に描かれた注釈付きのバウンディングボックスである。図10Bに見られるように、バウンディングボックス1010は、好ましくは、画像1002、1003、および1004の各々に追加される。しかしながら、物品102が買い物客106によって画像1001で妨害され、したがってカメラ1の視線1012に沿っていないため、バウンディングボックスは画像1001に追加されない。
同様に、図10Aおよび10Bに示されるものとは買い物客106およびカメラ1~4に関して物品102の異なる配置を含む第2のシナリオにおける図11Aおよび11Bに見られるように、カメラ1は画像1101を出力し、カメラ2は画像1102を出力し、カメラ3は画像1103を出力し、カメラ4はシーンの画像1104を出力する。画像1101、1102、1103、および1104は、好ましくは、その中の物品102の存在および位置を識別するために、AIアルゴリズムによって処理される。
AIアルゴリズムによる画像1101、1102、1103、および1104の処理の結果として、画像1101、1102、1103、および1104は、好ましくは、物品102の位置にその中に描かれた注釈付きのバウンディングボックスである。図11Bに見られるように、バウンディングボックス1110は、好ましくは、画像1101、1102、および1103の各々に追加される。しかしながら、物品102が買い物客106によって画像1104で妨害され、したがってカメラ4の視線1112に沿っていないため、バウンディングボックスは画像1104に追加されない。
ここで図12Aおよび12Bに戻ると、図11Aに示されるものと同じ買い物客106およびカメラ1~4に関する物品102の配置を含む第3のシナリオが示されている。しかしながら、図12Bに見られるように、ここでのAIアルゴリズムによる画像1101、1102、1103、および1104の処理は、画像1102および1103にのみバウンディングボックス1110の挿入をもたらす。物品102が画像1101に出現しているにもかかわらず、画像1101にはバウンディングボックスが挿入されていない。このような場合は、AI失敗ケースと呼ばれることがあり、AIアルゴリズムによって分析されたカメラ出力、ここでは画像1101は、物品102の存在および位置を示す情報を含むことが、そのような情報がカメラ出力に存在するにもかかわらず、発見されないことを意味する。このようなAI失敗は、AIアルゴリズムが、十分な水準の精度で画像内の物品の存在および位置を識別するように訓練されていない結果、AIアルゴリズムの限界に起因して発生する可能性がある。
画像1101に関して図示されたAI失敗の場合は、画像1104の場合とは異なることが理解される。どちらの場合も、AIアルゴリズムは画像内の物品102の存在および位置を識別せず、それぞれの画像にバウンディングボックスは追加されない。しかしながら、画像1104の場合では、物品102はまったく画像内に出現せず、したがってAIアルゴリズムは画像内の物品102を正しく識別しないのに対し、画像1101の場合では、物品102は画像内に出現し、画像内の物品102の存在および位置の識別の欠如は、画像の生来の特性ではなく、AIアルゴリズムの失敗に起因するものである。
図10A~12Bに示されるシナリオにおける画像1001、1002、1003、1004、および1101、1102、1103、1104の処理の前に、AIアルゴリズムは、好ましくは、物品102の同一性を備えていることが理解される。物品102の同一性は、好ましくは、人間の専門家によって発見され、AIアルゴリズムを訓練するためにAIアルゴリズムに入力される。しかしながら、本発明のいくつかの実施形態では、物品102の同一性は、必ずしも人間の専門家によってAIアルゴリズムに入力され得ず、むしろ機械学習に基づいて自動的に生成され得ることが想定される。
図12Aおよび12Bの例の画像1101などのAI失敗ケースを改善するために、画像修正が採用され得る。図13Aは、本発明の好ましい実施形態による、画像修正によるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略化された図である。
図13Aに見られるように、画像1101などのAI失敗ケース画像は、シーンを視認するカメラ110のうちの少なくとも1台のカメラによって出力され得る。図13Aおよび13Bを参照して本明細書で説明されるような画像修正方法は、1台以上のカメラの出力に対して実行され得ることが理解される。図12Bを参照して説明された人工知能を採用することに基づいて、カメラ出力がシーン内の少なくとも1つの物体の存在および位置を示す情報を含まないことを確認した後、カメラ出力が修正され得る。
好ましくは、カメラ出力の修正は、AI失敗画像を相互に異なる多数の角度で回転させ、AIを採用して、所与の角度で回転されるように、修正された各出力を分析して、画像内の物品の存在および位置を発見することを含む。
ここで、例として、元の画像1101は、4つの異なる角度で回転することによって修正されて、回転画像1302、1304、1306、および1308を生成することが示されている。画像1101を分析するために元々うまく採用されなかったAIアルゴリズムは、好ましくは、回転画像1302、1304、1306、および1308の各々を分析するために再採用される。修正されたAI失敗画像にAIアルゴリズムを採用すると、場合によっては、画像内の物品の存在および場所の識別に成功し、したがって、バウンディングボックスによる画像の注釈付けに成功することが発見されている。ここで、例として、バウンディングボックス1310が、その中の物品102の位置を識別する画像1302、1304、1306、および1308の各々に、それによるAIアルゴリズムによる処理の結果として追加されることが示されている。
次に、注釈付き画像は、好ましくは、フレーム1320に示されるように、バウンディングボックス1310の重複領域における物品102の位置に対応する、おそらく不規則な輪郭を定義するために、逆回転によって再位置合わせされ、その中に現在存在するバウンディングボックス1310は重ね合わされる。次に、フレーム1324に示されるように、新しいデカルトバウンディングボックス1322が物品の位置に挿入され得る。最終的なバウンディングボックス1322は、物品位置のより精緻化されたレンダリングに基づいており、この精緻化された物品位置は、順番に好ましくは個々のバウンディングボックス1310の重ね合わせに基づいているので、フレーム1324に示される最終的なバウンディングボックス1322は、様々な個々のバウンディングボックス1310が重なり合っていない場合よりも正確であることが理解される。物品102およびバウンディングボックス1322は、その提示を明確にする目的で、人間の被写体に関してフレーム1324内に誇張されたサイズで示されていることが理解される。
本明細書に記載される画像修正は、元の画像の回転に関して詳述されているが、画像カラースケールの変化、画像ワーピング、および画像倍率の選択的変化を例として含む、追加または代替のタイプの画像修正も可能であることが理解される。
本明細書で説明される画像修正は、画像1101などのAI失敗画像への適用に限定されないことがさらに理解される。むしろ、そのような画像修正は、バウンディングボックスの位置をより良く定義するために、AIアルゴリズムが最初に物品の存在および位置をうまく識別した画像にも適用され得る。このような場合では、AIアルゴリズムによって処理された元の修正されていない画像には、物品の存在と場所を示すバウンディングボックスで注釈付けされ得るが、バウンディングボックスのサイズおよび/または位置は不正確になる可能性がある。本明細書で説明される画像修正方法の使用は、バウンディングボックスを厳密化するために有利である可能性がある。
次に図13Bを参照すると、図13Bは、図13Aの実施形態に従って実行されるAI失敗ケースの改善および/またはバウンディングボックスの厳密化のステップを示す簡略化されたフローチャート図である。
図13Bに見られるように、画像修正に基づくAI失敗ケースおよび/またはバウンディングボックス厳密化の改善のための方法1340は、修正のためにAI処理された画像が選択される第1のステップ1342で開始し得る。次に、方法1340は、第2の問い合わせステップ1344において、第1のステップ1342において選択された画像がバウンディングボックスを含むかどうかのチェックに進む。問い合わせステップ1344は、画像のAI処理後にバウンディングボックスが描画されなかったAI失敗画像と、すでにバウンディングボックスを含むAI成功処理画像とを区別するのに役立つことが理解される。
第2の問い合わせステップ1344において、画像がバウンディングボックスを含むことが発見された場合、画像は第3のステップ1346で回転され、第4のステップ1348において回転画像上にバウンディングボックスを再描画するために、AIアルゴリズムが適用される。次に、第4のステップ1348において回転画像上に描画された新しいバウンディングボックスのパラメータが、第5のステップ1350に見られるように、画像に存在する元のバウンディングボックスのパラメータと比較される。このようなパラメータは、バウンディングボックスの寸法、バウンディングボックスの位置、または関連するその他のパラメータが含み得る。
次に、第6の問い合わせステップ1352に見られるように、方法1340は、2つのバウンディングボックス、すなわち、回転画像内の元のバウンディングボックスおよび新しく描画されたバウンディングボックスのパラメータが、所定の閾値を超えて異なるかどうかを確認する。パラメータが所定の閾値を超えて異ならない場合では、第7のステップ1354に見られるように、元のバウンディングボックスは許容可能であると考えられ、元の画像のさらなる処理は必要でないと考えられる。この場合、図14A~14Dを参照して本明細書で以下に概説されるように、画像内のバウンディングボックスは、バウンディングボックスをさらに厳密化する必要がなく、画像をさらに処理する準備ができているように、十分に正確に描写されていると考えられる。
新しいバウンディングボックスと比較した元のバウンディングボックスのパラメータが、第6の問い合わせステップ1352で発見されたように、所定の閾値を超えて異なる場合、または画像がバウンディングボックスを含まない場合では、第2の問い合わせステップ1344において、方法1340は、第8のステップ1360に進み、そこで、画像は、N個の異なる角度だけ回転され、Nは、任意の整数であり得る。第9のステップ1362に見られるように、各回転画像について、画像に注釈付けし、その中に物品の存在および位置を示すバウンディングボックスを描画することを試みるために、回転画像は好ましくはAIアルゴリズムによって処理される。場合によっては、第9のステップ1362が成功し、回転画像に追加のバウンディングボックスが描画されることがあるが、他の場合には、第9のステップ1362は、AIアルゴリズムが画像内に出現する物品を識別することに失敗すること、または物品が実際に画像内に出現しないことのいずれかに起因して失敗し得ることが理解される。
さらに、第9のステップ1362が、以前に処理に成功しなかった画像に新しいバウンディングボックスを描くことに成功した場合、方法1340は、画像修正によってAI失敗ケースを改善することに成功したことが理解される。このようなアプローチは、AIアルゴリズムによってうまく処理された画像を修正して、そこからさらに情報を抽出できる従来の画像修正アプローチとは異なる。対照的に、本発明の好ましい実施形態では、AIアルゴリズムによってうまく処理されなかった画像は、画像を改善し、以前にうまく処理されなかった画像をうまく処理された画像に変換するために修正される。しかしながら、本発明のいくつかの実施形態では、方法1340は、これらの画像に基づいてさらに多くのデータを生成するために、うまく分析された画像に対してさらに実行され得ることが理解される。
第10のステップ1364および第11のステップ1366に見られるように、そのAI処理に続くバウンディングボックスを含むすべての画像が選択され、空間的に位置合わせされる。そのような空間的位置合わせは、第12のステップ1368に見られるように、すべての画像を元の方向に戻し、それによってその後続の重ね合わせを可能にするように、画像の逆回転を含み得る。第10のステップ1364は、シーン内の少なくとも1つの物体の存在および位置を示す情報を含む少なくとも1台のカメラの出力と、画像のAI処理によって発見されるような、当該シーン内の少なくとも1つの物体の存在および位置を示す情報を含まない少なくとも1台のカメラの出力とを区別するのに役立つことが理解される。
好ましくは画像内のバウンディングボックスによって定義されるように、物体の存在および位置を示す情報を含むことが発見されたこれらの画像のみが、第11のステップ1366において相互に空間的に位置合わせされ、第12のステップ1368において重ね合わされる画像のセットにまとめられる。
次に、第13のステップ1370に見られるように、多角形は、好ましくは、バウンディングボックスの重複領域に基づいて定義される。多角形のサイズおよび位置は、好ましくは、物品のサイズおよび位置に対応することが理解される。第14のステップ1372に見られるように、多角形の位置に対応する新しいデカルトバウンディングボックスが追加され、この新しいバウンディングボックスは、好ましくは、個々の画像のいずれかに存在する元のバウンディングボックスよりも正確に物品の位置に対応する。
次に図14Aおよび14Bを参照すると、図14Aおよび14Bは、本発明の好ましい実施形態による、3DモデリングによるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略図である。
図14Aに見られるように、図12Aに示されるものと同じ買い物客106およびカメラ1~4に関する物品102の配置を含む第3のシナリオが示されている。カメラ出力1101、1102、1103、および1104は、好ましくは、その中の物品102の存在および位置を発見するためにAIアルゴリズムによって処理され、この物品は、画像に注釈付けするバウンディングボックスによって示され得る。そのような処理は、図10A~12Bを参照して本明細書で上述された元の画像のAI処理、ならびに図13Aおよび13Bを参照して本明細書で上述された画像修正に基づくAI処理を含み得ることが理解される。
この場合、例として、バウンディングボックス1400は、画像1101および1103に挿入されているように見え、バウンディングボックスは、画像1102および1104に挿入されているようには見えない。画像1101および1103の場合に示されるバウンディングボックス1400は、その初期AI分析に続いて画像に最初に追加されたバウンディングボックスであり得、画像修正の方法でその後改善された初期バウンディングボックスに基づいて厳密化されたバウンディングボックスであり得、または図13Aおよび13Bを参照して本明細書で上述されたように、画像修正に基づいて改善された初期AI失敗画像に基づく新しいバウンディングボックスであり得ることが理解される。
次に、画像1101および1103に存在するバウンディングボックス1400の特定の性質に関係なく、3D投影モデリングステップ1402で概略的に示されるように、好ましくはカメラ1~4によって出力されるすべての画像に対して3Dモデリング投影が実行されることが好ましい。3D投影モデリングステップ1402は、好ましくは、AIアルゴリズムによって分析されるように、物品102の存在および位置を示す情報を含むことが発見されるカメラの出力と、AIアルゴリズムによって分析されるように発見されないカメラの出力とを区別し、物品102の存在および位置を示す情報を含まない出力を、その出力に物品102の存在および位置を示す情報を追加することによって強化する。より具体的には、3D投影モデリングは、好ましくは、バウンディングボックスと関連付けられた画素に対応する光線の交差によって発見されるように、対応する画像内のバウンディングボックスの位置に基づいて、バウンディングボックスを含まない画像にバウンディングボックスを追加することを含む。3D投影モデリングは、人工知能を採用して画像分析器で実行され得る。しかしながら、3D投影モデリングは、バウンディングボックスによる画像の注釈に限定されず、任意の輪郭を描く形状または領域による画像内の物品の存在の指示を含み得ることが理解される。3D投影モデリングに関するさらなる詳細は、図14Cを参照して本明細書で以下に提供される。ここで、例として、3D投影モデリングの実行に続いて、新しいバウンディングボックス1404が画像1102および1104に挿入されているのが見られる。
少なくともバウンディングボックスによって明らかに描写された物品が実際には画像に出現しない可能性があるため、3D投影モデリングによって実行されるようなバウンディングボックス1404などのバウンディングボックスの画像への追加は必ずしも正確ではないことが理解される。ここで、例として、物品102は、買い物客106によるその妨害のために画像1104に出現せず、したがって、バウンディングボックス1404による画像1104の注釈は不正確である。
3Dモデリング投影によってうまく改善された画像と3Dモデリング投影によってうまく改善されなかった画像とを区別するために、3Dモデリング投影によって出力された画像は、好ましくは、フィルタリングステップ1410によって概略的に示されるようにフィルタリングされる。そのようなフィルタリングは、画像の視覚的または幾何学的特性に基づき得、図14Dを参照して本明細書で以下でさらに詳述される。
ここで、例として、画像フィルタリングの結果として、画像1104は、バウンディングボックス1404を含むものとして誤って拒否され、画像1101、1102、および1103は、物品102の存在および位置に関する正確な情報を含む、うまく処理された画像として受け入れられる。うまく処理された画像1101、1102、および1103は、好ましくは、許容可能な精度で物品存在および位置を識別するためにアルゴリズムをさらに訓練するために、AI画像処理アルゴリズムにフィードバックされる。このようなAI処理および訓練は、好ましくは、シードAIアルゴリズムが訓練され、成熟したアルゴリズムに発展するまで反復的に実行され、さらなる訓練が不要になるように十分なレベルの精度で実行される。
ここで、図14Cを参照すると、図14Cは、図14Bの実施形態に従って実行されたAI失敗ケースの改善の3D投影モデリング段階に含まれるステップを示す簡略化されたフローチャート図である。
図14Cに見られるように、3D投影モデリング1402のための方法1420は、好ましくは、第1のステップ1422で開始し、バウンディングボックスを含む各画像内のバウンディングボックスと関連付けられた少なくとも1つの主要画素位置が発見される。主要画素位置は、バウンディングボックス内、例えば、バウンディングボックスの中心またはバウンディングボックスの四隅の各々にあり得るか、またはそれに近接してバウンディングボックスの外側にあり得ることが理解される。
次に、第2のステップ1424に見られるように、各主要画素位置に対応するカメラ光線が発見されることが好ましい。各画素位置に対応するカメラ光線の発見は、図2Aおよび2Bを参照して本明細書で上述されるように、好ましくは、最初のカメラ間較正に基づくことが理解される。このようなカメラ間較正は、画素対光線較正を確立するのに役立ち、シーン内の物品を視認する特定のカメラを照射する光線のパラメータを、物品がカメラセンサに出現する画素位置に相関させてもよい。第1のステップ1422で所与のバウンディングボックスに対して複数の主要な画素位置が発見される場合、対応する複数の光線が好ましくは、第2のステップ1424で発見され、画像化された物品の位置および形状の両方を確認することを可能にする。
第3のステップ1426に見られるように、次に、好ましくは、第2のステップ1424において識別された光線の間でマッチングが実行され、光線交差点または光線交差領域が好ましくは確認される。光線交差点または光線交差領域は、画像化された物品の位置に対応すると考えられ得ることが理解される。少なくとも2つの光線の交差は、光線交差領域において画像化された物品102の存在を確立するのに十分であると考えられ得る。
第4のステップ1428に見られるように、第3のステップ1426で発見された交差点と交差しない光線に相関する主要な画素位置に対応するバウンディングボックスは、誤って注釈付けされたバウンディングボックスとみなされ、したがって拒否される。第4のステップ1428は、AIアルゴリズムが実際に物品を含まない画像にバウンディングボックスを誤って配置するか、または画像内の誤った位置にバウンディングボックスを配置する可能性がある誤検知を除外するのに役立つことが理解される。
第5のステップ1430に見られるように、光線交差に基づいて物品位置が確立されると、バウンディングボックスを含まない出力を有するカメラの場合、物品位置に対応するカメラ光線が発見され得る。カメラ光線に対応する画素位置は、第6のステップ1432に見られるように、既知の画素対光線較正に基づいて確認され得る。続いて、第7のステップ1434に見られるように、新しいバウンディングボックスは、第6のステップ1432で識別されたその画素位置に以前はバウンディングボックスを含まなかった画像に描画され得る。
本発明の特定の実施形態では、方法1420のステップが省略され得ることが理解される。例えば、カメラ110が深度カメラとして具体化される場合、そのようなカメラの画素対光線相関は自動的に知られ、したがって、ステップ1424および1432などの相関ステップは省略され得る。
次に、図14Dを参照すると、図14Dは、図14Bの実施形態に従って実行されるAI失敗ケースの改善のフィルタリング段階に含まれるステップを示す簡略化されたフローチャート図である。
図14Dに見られるように、3D投影モデリング1402(図14B)の出力をフィルタリングする1410(図14B)ための方法1480は、好ましくは、第1のステップ1482で開始し、そこで3D投影モデリングによって出力された画像が提供される。これらの画像は、様々な可能なフィルタリングアプローチのうちの少なくとも1つによってフィルタリングされ得る。
第2のステップ1484に見られるように、画像は、背景減算に基づいてフィルタリングされ得、静的背景を有する時系列画像は、買い物客106によって取り扱われている物品102を示さないとして拒否され、なぜならそのような画像は、物品の位置の変化に起因して経時的に変化する動的背景を有すると予想されるからである。
追加的または代替的に、第3のステップ1486に見られるように、画像は、その共通の視覚的特性に基づいてフィルタリングされ得る。第3のステップ1486に従って、その視覚的特性の類似性を評価するために、第1のステップ1482において入力された画像内のバウンディングボックスの視覚的特性が比較される。このような視覚的特性は、色、テクスチャ、またはその他の特性を含み得る。画像内のバウンディングボックスが、第1のステップ1482において提供された画像のうちの他の画像内のバウンディングボックスの視覚的特性と比較して著しく異なる視覚的特性を有することが発見された場合、バウンディングボックスは、他のバウンディングボックスによって識別されるものと同一の物品に対応しないものと考えられ、拒否される。
追加的または代替的に、第4のステップ1488に見られるように、画像は、その幾何学的特性に基づいてフィルタリングされ得る。特に、最初のカメラの相互較正に基づいて位置が既知である所与のカメラと、対応するカメラ画像内のバウンディングボックスの位置に基づく見かけ上の物品の位置との間の距離が発見され得る。カメラと見かけ上の物品位置との間の距離は、図14Cを参照して説明されたように、カメラと物品位置との間の予想距離との整合性のために比較され得、この距離は、3Dモデリング投影によって発見される物品位置に基づいて既知である。カメラと物品距離が許容できないほど小さい場合、これは、画像1104(図14B)の場合に見られるように、別の物体が対象の物品を妨害していることを示していると考えられ、画像は拒否される。深度カメラの使用は、それによって提供される深度情報に起因して、幾何学的フィルタリングを容易にするのに特に有利であることが理解される。
第5のステップ1490に見られるように、フィルタリングステップ1484、1486、および1488のすべてを通過した画像のみが、好ましくは、存在および位置物品102を示す正確に配置されたバウンディングボックスを含む画像であると考えられる。第2、第3、および第4のステップ1484、1486、および1488は、並行して実行され得るか、または連続して実行され得、第1のタイプのフィルタリングに基づいて許容可能であると考えられる画像のみが後続のフィルタリングステップに渡されることが理解される。第5のステップ1490において出力されたこれらの画像は、好ましくは、その後、AIアルゴリズムのさらなる訓練のために元のAIアルゴリズムにフィードバックされる。
図9A~14Dを参照して本明細書で上述された本発明の実施形態では、AIアルゴリズムによって物品102バウンディングボックスが好ましくは挿入される対象の物品102は、買い物客106によって取り扱われる典型的な無生物物品にあることが理解される。しかしながら、特定の場合において、例えば、建物104内の買い物客106の追跡を容易にするために、それによって取り扱われる物品102ではなく/それに加えて、買い物客106の存在および位置を識別するようにAIアルゴリズムを訓練することが望ましい場合がある(図9Aおよび9B)。次に、AIアルゴリズムが、AI失敗ケースの改善に基づいて個人106の存在および位置を特定するように訓練される本発明の好ましい実施形態について、図15A~17Dを参照しながら説明する。
ここで図15Aおよび15Bに戻ると、買い物客106およびカメラ1~4に関する物品102の配置を含む追加のシナリオが示されている。カメラ1~4は、好ましくは、物品102を取り扱う買い物客106を同時に画像化し、それぞれの出力画像1501、1502、1503、および1504を提供する。
図15Bに見られるように、画像1501、1502、1503、および1504は、好ましくは、その中の買い物客106の存在および位置を識別するために、AIアルゴリズムによって処理される。買い物客106の存在および位置は、買い物客106の姿勢グラフを形成する主要点1510によって示される。典型的には、画像は、買い物客106の体の上側部分を表す姿勢グラフを形成するために、AIアルゴリズムによって8つの主要点によって注釈付けされ得る。しかしながら、特定の画像処理要件に応じて、より多くのまたはより少ない数の主要点が姿勢グラフに含まれ得ることが理解される。
ここで、例として、8つの主要点1510が画像1501および1502の各々に追加され、買い物客106の頭、腕、および胴体の上側部分を描写する姿勢グラフを形成することが見られる。画像1503と画像1504のどちらにも主要点は追加されていない。画像1503の場合では、買い物客106が画像1503に出現するにもかかわらず、AIアルゴリズムによる画像の処理に続いて主要点は追加されない。このような場合は、AI失敗ケースと呼ばれることがあり、AIアルゴリズムによって分析されたカメラ出力、ここでは画像1503は、個人106の存在および位置を示す情報を含むことが、そのような情報がカメラ出力に存在するにもかかわらず、発見されないことを意味する。このようなAI失敗は、AIアルゴリズムが、十分な水準の精度で画像内の物品、ここでは人間物品の存在および位置を識別するように訓練されていない結果、AIアルゴリズムの限界に起因して発生する可能性がある。
画像1503に関して図示されたAI失敗の場合は、画像1504の場合とは異なることが理解される。どちらの場合も、AIアルゴリズムは、画像内の物品(つまり、買い物客106)の存在および位置を識別せず、それぞれの画像に主要点は追加されない。しかしながら、画像1504の場合では、個人106はまったく画像内に出現せず、したがってAIアルゴリズムは画像内の個人106を正しく識別しないのに対し、画像1503の場合、個人106は画像内に出現し、画像内の個人106の存在および位置の識別の欠如は、画像の生来の特性ではなく、AIアルゴリズムの失敗に起因するものである。
図15Aおよび15Bの例の画像1503などのAI失敗の場合を改善するために、画像修正が採用され得る。図16Aは、本発明の好ましい実施形態による、画像修正によるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略化された図である。
図16Aに見られるように、画像1503などのAI失敗ケース画像は、シーンを視認する少なくとも1台のカメラによって出力され得る。図16Aおよび16Bを参照して本明細書で説明されるような画像修正方法は、1台以上のカメラの出力に対して実行され得ることが理解される。図15Bを参照して説明された人工知能を採用することに基づいて、出力がシーン内の少なくとも1つの人間物体の存在および位置を示す情報を含まないことを確認した後、カメラ出力が修正され得る。
好ましくは、修正することは、AI失敗画像を相互に異なる多数の角度で回転させ、AIを採用して、所与の角度で回転されるように、修正された各出力を分析して、画像内の人間物品の存在および位置を発見することを含む。
ここで、例として、元の画像1503は、4つの異なる角度で回転されて、回転画像1602、1604、1606、および1608を生成するように示されている。画像1503を分析するために元のうまく採用されなかったAIアルゴリズムは、好ましくは、回転画像1602、1604、1606および1608の各々を分析するために再採用される。修正されたAI失敗画像にAIアルゴリズムを採用すると、場合によっては、画像の注釈付けに成功し、画像内の物品の存在および位置の識別をもたらすことが発見されている。ここで、例として、複数の主要点1610が、画像1602、1604、1606、および1608の各々に追加され、それによるAIアルゴリズムによる処理の結果として、その中の個人106の位置を少なくとも部分的に識別することが示されている。
画像1602、1604、および1608の場合に示されるように、修正されたAI失敗画像におけるAIアルゴリズムの採用が部分的に成功し、画像内にすべてではないがいくつかの主要点が挿入される可能性があることが理解される。修正されたAI失敗画像に対するAIアルゴリズムの採用は、最大数の8つの主要点によって注釈付けされると見られる画像1606の場合に示されるように、画像内に最大選択数の主要点の挿入をもたらし、完全に成功し得ることが、さらに理解される。
次に、注釈付き画像は、好ましくは、フレーム1620に示されるように、逆回転によって再位置合わせされ、その中に存在する主要点が重ね合わされて、対応する主要点の重複領域1618のおける各主要点の位置に対応するおそらく不規則な輪郭を定義する。次に、フレーム1624に示されるように、1つ以上の新しい主要点1622を、各主要点の重複位置に挿入することができる。フレーム1624の最終的な姿勢グラフは、個々の対応する主要点の重ね合わせに基づく主要点位置のより精緻化されたレンダリングに順番に基づいているので、フレーム1624に示される主要点の新しいセットの最終的な姿勢グラフは、様々な個々の主要点が重ね合わされなかった場合よりも正確であることが理解される。
本明細書に記載される画像修正は、元の画像の回転に関して詳述されているが、画像カラースケールの変化、画像ワーピング、および画像倍率の選択的変化を例として含む、追加または代替のタイプの画像修正も可能であることが理解される。
本明細書で説明される画像修正は、画像1503などのAI失敗画像への適用に限定されないことがさらに理解される。むしろ、そのような画像修正は、主要点の位置をより良く定義するために、AIアルゴリズムが最初に物品の存在および位置をうまく識別した画像にも適用され得る。このような場合、AIアルゴリズムによって処理された元の修正されていない画像には、人間物品の存在および位置を示す主要点のセットで注釈付けされ得るが、主要点のうちの1つ以上の位置が不正確になる可能性がある。本明細書で説明される画像修正方法の使用は、主要点を含む姿勢グラフを改善するために有利である可能性がある。本明細書で説明される画像修正方法の使用は、最大数ではないがいくつかの主要点を含む注釈付き画像の場合にも有利である可能性がある。そのような場合、画像修正を使用して、追加の主要点を補足することによって画像を改善することができ、したがって、買い物客106を表すより完全な姿勢グラフの生成につながる。
次に図16Bを参照すると、図16Bは、図16Aの実施形態に従って実行されるAI失敗ケースの改善および/または姿勢グラフの改善におけるステップを示す簡略化されたフローチャート図である。
図16Bに見られるように、AI失敗ケースの改善および/または画像修正に基づく姿勢グラフ改善のための方法1640は、修正のためにAI処理された画像が選択される第1のステップ1642で開始し得る。次に、方法1640は、第2の問い合わせステップ1644において、第1のステップ1642において選択された画像が、8つの主要点などの可能な主要点の総数を含むかどうかのチェックに進む。問い合わせステップ1644は、主要点の最大数を含む完全な姿勢グラフを含むうまく処理された画像と、画像のAI処理後に主要点が最大よりも少ないかまたはまったく追加されなかったAI失敗または部分的失敗画像とを区別するのに役立つことが理解される。
第2の問い合わせステップ1644において、画像が主要点の総数を含むことが発見された場合、画像は第3のステップ1646で回転され、第4のステップ1648において回転画像上に主要点を再描画するために、AIアルゴリズムが適用される。次に、第4のステップ1648において回転画像上に描かれた新しい主要点のパラメータが、第5のステップ1650に見られるように、画像に存在する対応する元の主要点のパラメータと比較される。このようなパラメータには、主要点位置または他のパラメータが含まれる場合がある。
次に、第6の問い合わせステップ1652に見られるように、方法1640は、主要点の対応するペアのパラメータ、すなわち、回転画像における元の主要点および対応する新しく描かれた主要点が、所定の閾値を超えて異なるかどうかを確認する。パラメータが所定の閾値を超えて異ならない場合では、第7のステップ1654に見られるように、元の主要点のセットは許容可能であると考えられ、元の画像のさらなる処理は必要でないと考えられる。この場合、画像内の姿勢グラフは、図17A~17Dを参照して本明細書で以下で概説されるように、さらなる修正が不要であり、画像がさらなる処理の準備ができているように、十分に正確に描写されていると考えられる。
新しい主要点と比較した元の主要点のパラメータが、第6の問い合わせステップ1652で発見されたように、所定の閾値を超えて異なる場合、または画像が主要点の総数を含まない場合では、第2の問い合わせステップ1644において、方法1640は、第8のステップ1660に進み、そこで、画像は、N個の異なる角度だけ回転され、Nは、任意の整数であり得る。第9のステップ1662に見られるように、各回転画像について、画像に注釈付けし、その中に人間物品の存在および位置を示す主要点のセットを描画することを試みるために、回転画像は好ましくはAIアルゴリズムによって処理される。場合によっては、第9のステップ1662が成功し、回転画像に追加の主要点が描画されることがあるが、他の場合には、第9のステップ1662は、AIアルゴリズムが画像内に出現する個人を識別することに失敗することに起因して、または個人が実際に画像内に出現しないことに起因して失敗し得ることが理解される。
さらに、第9のステップ1662が、以前は失敗したAI処理された画像において新しい主要点を描画することに成功した場合、方法1640は、画像修正によってAI失敗ケースを改善することに成功したことが理解される。このようなアプローチは、AIアルゴリズムによってうまく処理された画像を修正して、そこからさらに情報を抽出できる従来の画像修正アプローチとは異なる。対照的に、本発明の好ましい実施形態では、AIアルゴリズムによってうまく処理されなかった画像は、画像を改善し、以前にうまく処理されなかった画像をうまく処理された画像に変換するために修正される。
第10のステップ1664および第11のステップ1666で見られるように、そのAI処理に続く主要点を含むすべての画像が選択され、空間的に位置合わせされる。そのような空間的位置合わせは、第12のステップ1668に見られるように、すべての画像を元の方向に戻し、それによってその後続の重ね合わせを可能にするように、画像の逆回転を含み得る。第10のステップ1664は、シーン内の少なくとも1つの人間物体の存在および位置を示す情報を含む少なくとも1台のカメラの出力と、画像のAI処理によって発見されるような、当該シーン内の少なくとも1つの人間物体の存在および位置を示す情報を含まない少なくとも1台のカメラの出力とを区別するのに役立つことが理解される。
好ましくは画像内の主要点によって定義されるように、物体の存在および位置を示す情報を含むこれらの画像のみが、第11のステップ1666において相互に空間的に位置合わせされ、第12のステップ1668において重ね合わせられる画像のセットにまとめられる。
次に、第13のステップ1670に見られるように、多角形は、好ましくは、重ねられた主要点の各セットの重複領域に基づいて定義される。次に、第14のステップ1672に見られるように、各多角形の位置に対応する新しい主要点が追加され、この新しい主要点は、好ましくは、個々の画像のいずれかに存在する元の主要点よりも買い物客106の身体の関連部分により正確に対応する。
次に図17Aおよび17Bを参照すると、図17Aおよび17Bは、本発明の好ましい実施形態による、3DモデリングによるAI失敗ケースの改善を示す、図9Aおよび9Bの実装形態の一部の簡略図である。
図17Aに見られるように、図15Aに示されるものと同じ買い物客106およびカメラ1~4に関する物品102の配置を含む第3のシナリオが示されている。カメラ出力1501、1502、1503、および1504は、好ましくは、その中の個人106の存在および位置を発見するためにAIアルゴリズムによって処理され、その個人は、画像に注釈付けする主要点のセットを含む姿勢グラフによって示され得る。そのような処理は、図15Bを参照して本明細書で上述された元の画像のAI処理、ならびに図16Aおよび16Bを参照して本明細書で上述された画像修正に基づくAI処理を含み得ることが理解される。
この場合、例として、複数の主要点1700が画像1501および1503に挿入されているように見え、主要点は画像1502および1504に挿入されていないように見える。画像1501および1503の場合に示される複数の主要点1700は、その初期AI分析に続いて画像に最初に追加された主要点であり得、画像修正の方法でその後改善された初期姿勢グラフに基づいて厳密化された主要点であり得、または図16Aおよび16Bを参照して本明細書で上述されたように、画像修正に基づいて改善された初期AI失敗画像に基づく新しい主要点のセットであり得ることが理解される。
次に、画像1501および1503に存在する主要点1700の特定の性質に関係なく、3D投影モデリングステップ1702で概略的に示されるように、好ましくはカメラ1~4によって出力されるすべての画像に対して3Dモデリング投影が実行されることが好ましい。3D投影モデリングは、好ましくは、AIアルゴリズムによって分析されるように、個人106の存在および位置を示す情報を含むことが発見されるカメラの出力と、AIアルゴリズムによって分析されるように発見されないカメラの出力とを区別し、個人106の存在および位置を示す情報を含まない出力を、その出力に個人106の存在および位置を示す情報を追加することによって強化する。より具体的には、3D投影モデリングは、好ましくは、主要点と関連付けられた画素に対応する光線の交差によって発見される、対応する画像内の主要点の位置に基づいて、主要点を含まない画像に主要点を追加することを含む。3D投影モデリングは、人工知能を採用して画像分析器で実行され得る。3D投影モデリングに関するさらなる詳細は、好ましくは、図17Cを参照して以下に提供される。ここで、例として、3D投影モデリングの実行に続いて、主要点1704の新しいセットが画像1502および1504に挿入されているのが見られる。
少なくとも主要点によって明らかに描写された人間物品が実際には画像に出現しない可能性があるため、3D投影モデリングによって実行されるような主要点1704などの新しい主要点のセットの画像への追加は必ずしも正確ではないことが理解される。ここで、例として、買い物客106は、物品102によるその妨害のために画像1504に出現せず、したがって、主要点1704による画像1504の注釈は不正確である。
3Dモデリング投影によってうまく改善された画像と3Dモデリング投影によってうまく改善されなかった画像とを区別するために、3Dモデリング投影によって出力された画像は、好ましくは、フィルタリングステップ1710によって概略的に示されるようにフィルタリングされる。そのようなフィルタリングは、画像の視覚的または幾何学的特性に基づき得、図17Dを参照して本明細書で以下でさらに詳述される。
ここで、例として、画像フィルタリングの結果として、画像1504は、主要点1704を含むものとして誤って拒否され、画像1501、1502、および1503は、個人106の存在および位置に関する正確な情報を含む、うまく処理された画像として受け入れられる。うまく処理された画像1501、1502、および1503は、好ましくは、許容可能な精度で個人の存在および位置を識別するためにアルゴリズムをさらに訓練するために、AI画像処理アルゴリズムにフィードバックされる。このようなAI処理および訓練は、好ましくは、シードAIアルゴリズムが訓練され、成熟したアルゴリズムに発展するまで反復的に実行され、さらなる訓練が不要になるように十分なレベルの精度で実行される。
次に図17Cを参照すると、図17Cは、図17Bの実施形態に従って実行されるAI失敗ケースの改善の3D投影モデリング段階に含まれるステップを示す簡略化されたフローチャート図である。
図17Cに見られるように、3D投影モデリング1702のための方法1720は、好ましくは、第1のステップ1721で開始し、少なくとも1つの主要点を含む各画像内の各主要点は、主要点が対応する身体上の位置に関してラベル付けされる。好ましくは、主要点のラベル付けに続いて、各主要点と関連付けられた少なくとも1つの主要画素位置が、第2のステップ1722で見出される。主要画素位置は、主要点内、例えば、主要点の中心または主要点の外側にあり得ることが理解される。
次に、第3のステップ1724に見られるように、各主要画素位置に対応するカメラ光線が発見されることが好ましい。各画素位置に対応するカメラ光線の発見は、図2Aおよび2Bを参照して本明細書で上述されるように、最初のカメラ間較正に基づき得ることが理解される。このようなカメラ間較正は、画素対光線較正を確立するのに役立ち、シーン内の物品を視認する特定のカメラを照射する光線のパラメータを、物品がカメラ画像に出現する画素位置に相関させてもよい。
第4のステップ1726に見られるように、次に、好ましくは、第3のステップ1724において識別された光線の間でマッチングが実行され、光線交差点または光線交差領域が好ましくは確認される。光線交差点または光線交差領域は、各それぞれのラベル付けされた主要点によって示される人間の身体上の位置に対応すると考えられ得ることが理解される。少なくとも2つの光線の交差は、光線交差領域で身体部分の存在を確立するのに十分であると考えられ得る。
第5のステップ1728に見られるように、交差点と交差しない光線に相関する主要画素位置に対応する主要点は、誤って配置された主要点と考えられ、したがって拒否される。第5のステップ1728は、AIアルゴリズムは、実際には個人を含まない画像に主要点を誤って配置するか、または主要点に誤ってラベル付ける可能性がある誤検知を除外するのに役立つことが理解される。
第6のステップ1730に見られるように、光線交差に基づいて身体部分の位置が確立されると、主要点を含まない出力を有するカメラの場合、身体部分の位置に対応するカメラ光線が発見され得る。カメラ光線に対応する画素位置は、第7のステップ1732に見られるように、既知の画素対光線較正に基づいて確認され得る。続いて、第8のステップ1734に見られるように、主要点の新しいセットは、第7のステップ1732で識別されたその画素位置に以前は主要点を含まなかった画像に描画され得る。
次に、図17Dを参照すると、図17Dは、図17Bの実施形態に従って実行されるAI失敗ケースの改善のフィルタリング段階に含まれるステップを示す簡略化されたフローチャート図である。
図17Dに見られるように、3D投影モデリング1702の出力をフィルタリングするための方法1780は、好ましくは、第1のステップ1782で開始し、そこで3D投影モデリングによって出力された画像が提供される。これらの画像は、様々な可能なフィルタリングアプローチのうちの少なくとも1つによってフィルタリングされ得る。
第2のステップ1784に見られるように、画像は、背景減算に基づいてフィルタリングされ得、静的背景を有する時系列画像は、そのような画像が動的背景を有すると予想されるので拒否される。
追加的または代替的に、第3のステップ1786に見られるように、画像は、その共通の視覚的特性に基づいてフィルタリングされ得る。第3のステップ1786に従って、その視覚特性の類似性を評価するために、第1のステップ1782において入力された画像内の対応する主要点の視覚特性が比較される。このような視覚的特性は、色、テクスチャ、またはその他の特性を含み得る。画像内の主要点が、第1のステップ1782において提供された画像のうちの他の画像内の対応する主要点の視覚的特性と比較して著しく異なる視覚的特性を有することが発見された場合、主要点は、他の主要点によって識別されるものと同じ身体部分に対応しないものとみなされ、拒否される。
追加的または代替的に、第4のステップ1788に見られるように、画像は、その幾何学的特性に基づいてフィルタリングされ得る。特に、最初のカメラの相互較正に基づいて位置が既知である所与のカメラと、主要点の位置に基づいて見かけ上の身体部分の位置との間の距離が発見され得る。カメラと見かけ上の身体部分との間の距離は、図17Cを参照して説明されたように、カメラと身体部分位置との間の予想距離との整合性のために比較され得、この距離は、3Dモデリング投影によって発見される身体部分の位置に基づいて既知である。カメラから身体部分までの距離が許容できないほど小さい場合、これは、画像1504(図17B)の場合に見られるように、別の物体が対象の身体部分を妨害していることを示していると考えられ、画像は拒否される。カメラ110としての深度カメラの使用は、それによって提供される深度情報に起因して、幾何学的フィルタリングステップ1888を容易にするのに特に有利であることが理解される。
第5のステップ1790に見られるように、フィルタリングステップ1784、1786、および1788のすべてを生き延びた画像のみが、好ましくは、個人106の存在および位置を示す正確に配置された主要点を含む画像であると考えられる。第2、第3、および第4のステップ1784、1786、および1788は、並行して実行され得るか、または連続して実行され得、第1のタイプのフィルタリングに基づいて許容可能であると考えられる画像のみが後続のフィルタリングステップに渡されることが理解される。第5のステップ1790において出力されたこれらの画像は、好ましくは、その後、AIアルゴリズムのさらなる訓練のために元のAIアルゴリズムにフィードバックされる。
いくつかのシナリオでは、カメラ110によって画像化されるシーンは、複数の物品102または個人106を含み得ることが理解される。このような場合、AIアルゴリズムによって識別される対象の物体が物品102である場合、対象の物品102の数に対応する複数のバウンディングボックスが描画され得る。代替的に、拡大された単一のバウンディングボックスが描画され得、アルゴリズムは、バウンディングボックスが複数の対象の物品を含むことを示す出力を含むことができる。
AIアルゴリズムによって識別される対象の物体が買い物客106などの個人である場合、複数の主要点が生成され得、主要点は、それらのラベル付けに基づいて、個々の姿勢グラフにグループ化され得る。
物品が物体102であるかまたは人間の被写体106であるかにかかわらず、物品の存在および位置を識別するためのAIアルゴリズムが十分に訓練されると、AIアルゴリズムは、図1~8を参照して本明細書で上述されたようにシステム100内で作動し得ることが理解される。
次に図18を参照すると、図18は、バウンディングボックスの厳密化を示す図9Aおよび9Bの実装形態の一部の簡略化された図である。
AIアルゴリズムによる画像の成功した処理(この成功した処理は、本明細書で上述されるような画像改良を含み得る)に続いて、成功した処理画像は、アルゴリズムを訓練するために、アルゴリズムにフィードバックされることが好ましい。さらなる訓練の目的で画像をアルゴリズムにフィードバックする前に、精度の高いバウンディングボックスがアルゴリズムのさらなる訓練に使用されることを保証するために、バウンディングボックスを含む画像に対してバウンディングボックスの厳密化を実行することが有益であり得る。
バウンディングボックス1802を含む、うまく処理された画像1800の一部分が図18に示されている。図18に見られるように、バウンディングボックス1802は、その中に、対象の物品102と、物品102を取り扱う買い物客106の手1804の一部分とを含む。バウンディングボックス1802の精度を改善するために、画素セグメンテーションを使用して、手1804に対応する画像の部分と物品102に対応する画像の部分とを区別してもよい。さらに、画像1800の静止部分を除去するために、背景減算技術が適用され得る。そのような技術の結果として、バウンディングボックス1802は、その厳密化後の元のバウンディングボックス1802に基づく新しいバウンディングボックス1820の場合に見られるように、サイズが縮小され、より正確に位置付けられ得る。
バウンディングボックスの厳密化は、当技術分野で知られているように、画素セグメンテーションおよびバックグラウンド減算以外の追加または代替の技術によって達成され得ることが理解される。
本発明は、以下に特に特許請求されているものによって限定されないことが当業者には理解されよう。むしろ、本発明の範囲には、図面を参照して前述の説明を読むと、当業者が思いつくであろう、本明細書で上述された特徴の様々な組み合わせおよびサブ組み合わせ、ならびにそれらの修正および変形が含まれ、これらは先行技術にはないものである。

Claims (20)

  1. 物体に関連する視覚データを処理するための方法であって、前記方法は、
    少なくとも1台のカメラにシーンを視認させることと、
    視覚分析を採用することであって、前記採用することは、
    前記少なくとも1台のカメラからの少なくとも1つの出力が、前記シーン内の少なくとも1つの物体の存在および位置を示す情報を包含するかまたはしないかを確認することと、
    前記シーン内の少なくとも1つの物体の存在および位置を示す情報を包含しない少なくとも1つの出力を、前記シーン内の少なくとも1つの物体の存在および位置を示す情報を前記出力に追加することによって強化することと、
    のために行われることと、
    を備える、方法。
  2. 前記少なくとも1つの物体の存在および位置を示す追加された情報は、前記シーンを視認するように配置された少なくとも2台の他のカメラからの出力に基づいて導出される、請求項1に記載の方法。
  3. 前記強化することは、
    前記少なくとも2台の他のカメラからの出力内の少なくとも1つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも1つの画素位置を識別することと、
    前記画素位置の各々に対して、前記少なくとも2台の他のカメラについて、前記画素位置に対応するカメラ光線を発見することと、
    前記カメラ光線のうちのカメラ光線の間でマッチングを行い、前記カメラ光線の間の交差点を発見することであって、前記交差点が前記物体の位置に対応することと、
    前記少なくとも1つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも1台のカメラについて、前記物体の位置に対応するカメラ光線を発見することと、
    前記少なくとも1つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも1台のカメラについて、前記カメラ光線に対応する画素位置を発見することと、
    前記カメラ光線に対応する画素位置において前記少なくとも1台のカメラからの出力に新しいバウンディングボックスを挿入することであって、前記新しいバウンディングボックスは、前記少なくとも1つの物体の存在および位置を示すことと、
    を備える、請求項2に記載の方法。
  4. 前記カメラ光線を発見すること、および前記カメラ光線に対応する画素位置を発見することは、前記少なくとも1台のカメラおよび前記少なくとも2台の他のカメラの事前の相互較正に基づく、請求項3に記載の方法。
  5. 前記強化することに続いて、前記強化することが成功したかどうかを確認するために、前記シーン内の少なくとも1つの物体の存在および位置を示す情報をそこに追加している出力をフィルタリングすることも備える、請求項1~4のいずれか一項に記載の方法。
  6. 前記フィルタリングすることは、前記少なくとも1つの出力の視覚的または幾何学的特性に基づく、請求項5に記載の方法。
  7. 前記確認することに続いてかつ前記強化することに先立ち、
    前記少なくとも1台のカメラからの少なくとも1つの出力を修正して、少なくとも1つの修正された出力を提供することと、
    人工知能を採用して、前記少なくとも1つの修正された出力内の少なくとも1つの物体の存在および位置を確認することと、
    も備える、請求項1~6のいずれか一項に記載の方法。
  8. 前記修正することは、前記少なくとも1つの出力を多数の相互に異なる角度で回転させ、多数の回転された出力を提供することを備え、
    前記人工知能を採用して、前記少なくとも1つの修正された出力内の少なくとも1つの物体の存在および位置を確認することは、人工知能を採用して、前記多数の回転された出力内の少なくとも1つの物体の存在および位置を確認することを備える、
    請求項7に記載の方法。
  9. 前記人工知能を採用して、前記少なくとも1つの修正された出力内の少なくとも1つの物体の存在および位置を確認することは、人工知能を採用して、その中で前記少なくとも1つの物体の存在および位置を示すバウンディングボックスによって前記少なくとも1つの修正された出力を注釈付けすることを備える、請求項7または請求項8に記載の方法。
  10. 前記少なくとも1つの物体は、人間以外の物品および人間の被写体のうちの少なくとも1つを備える、請求項1~9のいずれか一項に記載の方法。
  11. 物体に関連するデータを処理するためのシステムであって、前記システムは、
    シーンを視認するように配置された少なくとも1台のカメラと、
    画像分析器であって、
    前記少なくとも1台のカメラからの少なくとも1つの出力が、前記シーン内の少なくとも1つの物体の存在および位置を示す情報を包含するかまたはしないかを確認することと、
    前記シーン内の少なくとも1つの物体の存在および位置を示す情報を包含しない少なくとも1つの出力を、前記シーン内で少なくとも1つの物体の存在および位置を示す情報を前記出力に追加することによって強化することと、
    を行うように作動する、画像分析器と、
    を備える、システム。
  12. 前記シーンを視認するように配置された少なくとも2台の他のカメラであって、前記少なくとも1つの物体の存在および位置を示す追加された情報は、前記少なくとも2台の他のカメラからの出力に基づいて導出される、少なくとも2台の他のカメラも備える、請求項11に記載のシステム。
  13. 前記画像分析器は、
    前記少なくとも2台の他のカメラからの出力内の少なくとも1つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも1つの画素位置を識別することと、
    前記画素位置の各々に対して、前記少なくとも2台の他のカメラについて、前記画素位置に対応するカメラ光線を発見することと、
    前記カメラ光線のうちのカメラ光線の間でマッチングを行い、前記カメラ光線の間の交差点を発見することであって、前記交差点が前記物体の位置に対応することと、
    前記少なくとも1つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも1台のカメラについて、前記物体の位置に対応するカメラ光線を発見することと、
    前記少なくとも1つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも1台のカメラについて、前記カメラ光線に対応する画素位置を発見することと、
    前記カメラ光線に対応する画素位置において前記少なくとも1台のカメラからの出力内に新しいバウンディングボックスを挿入することであって、前記新しいバウンディングボックスは、前記少なくとも1つの物体の前記存在および位置を示すことと、
    を行うように作動することによって、前記少なくとも1つの出力を強化するように作動する、請求項12に記載のシステム。
  14. 前記画像分析器は、前記少なくとも1台のカメラおよび前記少なくとも2台の他のカメラの事前の相互較正に基づいて、前記カメラ光線を発見し、かつ前記カメラ光線に対応する画素位置を発見するように作動する、請求項13に記載のシステム。
  15. 前記画像分析器は、前記情報が成功裏に追加されたかどうかを確認するために、前記シーン内の少なくとも1つの物体の存在および位置を示す情報をそこに追加している出力をフィルタリングするように追加的に作動する、請求項11~14のいずれか一項に記載のシステム。
  16. 前記画像分析器は、前記少なくとも1つの出力の視覚的または幾何学的特性に基づいて前記出力をフィルタリングするように作動する、請求項15に記載のシステム。
  17. 前記少なくとも1つの出力を強化するように作動することに先立ち、前記画像分析器は、
    前記少なくとも1台のカメラからの少なくとも1つの出力を修正して、少なくとも1つの修正された出力を提供することと、
    人工知能を採用して、前記少なくとも1つの修正された出力内の少なくとも1つの物体の存在および位置を確認することと、
    を追加的に行うように作動する、請求項11~16のいずれか一項に記載のシステム。
  18. 前記画像分析器が前記少なくとも1つの出力を修正するように作動することは、多数の回転された出力を提供するための、前記少なくとも1つの出力の多数の相互に異なる角度での回転を備え、
    前記画像分析器が前記人工知能を採用して、前記少なくとも1つの修正された出力内の少なくとも1つの物体の存在および位置を確認することは、前記多数の回転された出力内の少なくとも1つの物体の存在および位置を確認するための人工知能の採用を備える、
    請求項17に記載のシステム。
  19. 前記少なくとも1つの修正された出力内の少なくとも1つの物体の存在および位置を確認するため前記人工知能の採用は、その中で前記少なくとも1つの物体の存在および位置を示すバウンディングボックスによって前記少なくとも1つの修正された出力を注釈付けするための人工知能の採用を備える、請求項17または請求項18に記載のシステム。
  20. 前記少なくとも1つの物体は、人間以外の物品および人間の被写体のうちの少なくとも1つを備える、請求項11~19のいずれか一項に記載のシステム。
JP2022083907A 2019-11-21 2022-05-23 物品識別および追跡システム Pending JP2023015989A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201962938563P 2019-11-21 2019-11-21
US201962938681P 2019-11-21 2019-11-21
US62/938,681 2019-11-21
US62/938,563 2019-11-21
JP2022528326A JP2023502972A (ja) 2019-11-21 2020-11-19 物品識別および追跡システム
PCT/IL2020/051198 WO2021100043A2 (en) 2019-11-21 2020-11-19 Item identification and tracking system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2022528326A Division JP2023502972A (ja) 2019-11-21 2020-11-19 物品識別および追跡システム

Publications (1)

Publication Number Publication Date
JP2023015989A true JP2023015989A (ja) 2023-02-01

Family

ID=75981491

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022528326A Pending JP2023502972A (ja) 2019-11-21 2020-11-19 物品識別および追跡システム
JP2022083907A Pending JP2023015989A (ja) 2019-11-21 2022-05-23 物品識別および追跡システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022528326A Pending JP2023502972A (ja) 2019-11-21 2020-11-19 物品識別および追跡システム

Country Status (6)

Country Link
US (2) US20220366578A1 (ja)
EP (2) EP4046132A4 (ja)
JP (2) JP2023502972A (ja)
CN (2) CN114667540A (ja)
AU (3) AU2020386867B2 (ja)
WO (1) WO2021100043A2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220284384A1 (en) * 2021-03-04 2022-09-08 Focal Systems, Inc. On-Shelf Image Based Barcode Reader for Inventory Management System
US11899749B2 (en) * 2021-03-15 2024-02-13 Nvidia Corporation Automatic labeling and segmentation using machine learning models
US11842321B1 (en) * 2021-03-17 2023-12-12 Amazon Technologies, Inc. Image-based detection of planogram product spaces
US20220301127A1 (en) * 2021-03-18 2022-09-22 Applied Materials, Inc. Image processing pipeline for optimizing images in machine learning and other applications
US20220327511A1 (en) * 2021-04-07 2022-10-13 Vcognition, Inc. System and method for acquiring training data of products for automated checkout
CN113658178B (zh) * 2021-10-14 2022-01-25 北京字节跳动网络技术有限公司 组织图像的识别方法、装置、可读介质和电子设备
FR3128561B1 (fr) * 2021-10-26 2024-03-22 Commissariat Energie Atomique Procédé de calibration automatique des paramètres extrinsèques d’un réseau de caméras optiques ; Produit programme d’ordinateur, système de vision par ordinateur et véhicule automobile associés.
US11961613B2 (en) * 2022-02-11 2024-04-16 MedVision AI Corp. Inventory system, devices, and methods thereof
US20240015259A1 (en) * 2022-07-06 2024-01-11 TCL Research America Inc. Automatic cinematography system using reinforcement learning
US20240135585A1 (en) * 2022-10-21 2024-04-25 Dexterity, Inc. Camera calibration process and interface

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4631750B2 (ja) * 2006-03-06 2011-02-16 トヨタ自動車株式会社 画像処理システム
DE102006055746A1 (de) * 2006-11-25 2008-05-29 Lavision Gmbh Verfahren zur Korrektur einer Volumenabbildungsgleichung zur Bestimmung eines Geschwindigkeitsfeldes von Teilchen in einem Volumen
DE102007031302A1 (de) * 2007-07-05 2009-01-08 Robert Bosch Gmbh Vorrichtung zur Erkennung und/oder Klassifizierung von Bewegungsmustern in einer Bildsequenz von einer Überwachungsszene, Verfahren sowie Computerprogramm
JP5079779B2 (ja) * 2009-12-04 2012-11-21 本田技研工業株式会社 カメラ較正方法、カメラ較正装置
JP5500255B2 (ja) * 2010-08-06 2014-05-21 富士通株式会社 画像処理装置および画像処理プログラム
US8866912B2 (en) * 2013-03-10 2014-10-21 Pelican Imaging Corporation System and methods for calibration of an array camera using a single captured image
US20170070731A1 (en) * 2015-09-04 2017-03-09 Apple Inc. Single And Multi-Camera Calibration
US10037471B2 (en) * 2016-07-05 2018-07-31 Nauto Global Limited System and method for image analysis
US10771776B2 (en) * 2017-09-12 2020-09-08 Sony Corporation Apparatus and method for generating a camera model for an imaging system
US10977827B2 (en) * 2018-03-27 2021-04-13 J. William Mauchly Multiview estimation of 6D pose

Also Published As

Publication number Publication date
AU2020386867B2 (en) 2023-04-06
AU2024200256A1 (en) 2024-02-01
CN115063482A (zh) 2022-09-16
EP4046132A4 (en) 2023-12-06
EP4046132A2 (en) 2022-08-24
AU2022202588B2 (en) 2023-10-19
CN114667540A (zh) 2022-06-24
WO2021100043A2 (en) 2021-05-27
JP2023502972A (ja) 2023-01-26
AU2022202588A1 (en) 2022-05-12
US20220335726A1 (en) 2022-10-20
WO2021100043A3 (en) 2021-06-24
EP4071712A1 (en) 2022-10-12
US20220366578A1 (en) 2022-11-17
AU2020386867A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
JP2023015989A (ja) 物品識別および追跡システム
Elhayek et al. MARCOnI—ConvNet-based MARker-less motion capture in outdoor and indoor scenes
US8179440B2 (en) Method and system for object surveillance and real time activity recognition
US10885667B2 (en) Normalized metadata generation device, object occlusion detection device and method
JP6172551B1 (ja) 画像検索装置、画像検索システム及び画像検索方法
JP2004192378A (ja) 顔画像処理装置およびその方法
US20210183098A1 (en) Multi-view three-dimensional positioning
JP2018181273A (ja) 画像処理装置及びその方法、プログラム
WO2022009301A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6077425B2 (ja) 映像管理装置及びプログラム
US11544926B2 (en) Image processing apparatus, method of processing image, and storage medium
WO2021250808A1 (ja) 画像処理装置、画像処理方法、及びプログラム
CN112801038A (zh) 一种多视点的人脸活体检测方法及系统
JP2012159990A (ja) 物体識別システムおよび方法、並びに、特徴点位置抽出システムおよび方法
CN112257617B (zh) 多模态目标识别方法和系统
Cokbas et al. Spatio-visual fusion-based person re-identification for overhead fisheye images
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2019066909A (ja) 物体分布推定装置
JP7152651B2 (ja) プログラム、情報処理装置、及び情報処理方法
Shal’nov et al. Estimation of the people position in the world coordinate system for video surveillance
WO2021250809A1 (ja) 画像処理装置、画像処理方法、及びプログラム
EP3836085B1 (en) Multi-view three-dimensional positioning
Fihl et al. Full Body Pose Estimation During Occlusion using Multiple Cameras
Gava et al. A Unifying Structure from Motion Framework for Central Projection Cameras
Turk A homography-based multiple-camera person-tracking algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231114