JP2023015989A

JP2023015989A - 物品識別および追跡システム

Info

Publication number: JP2023015989A
Application number: JP2022083907A
Authority: JP
Inventors: ガバイ，ダニエル; Gabay Daniel; スナッパー，ユバル; Snappir Yuval; ドレフ，シャケッド; Dolev Shaked; ケレット，シバン; Keret Sivan; ツビ，ニールベン; Ben Zvi Nir; カシャーニ，リタパベルマン; Paverman Kashani Rita
Original assignee: Trigo Vision Ltd
Current assignee: Trigo Vision Ltd
Priority date: 2019-11-21
Filing date: 2022-05-23
Publication date: 2023-02-01
Also published as: AU2020386867B2; AU2024200256A1; CN115063482A; EP4046132A4; EP4046132A2; AU2022202588B2; CN114667540A; WO2021100043A2; JP2023502972A; AU2022202588A1; US20220335726A1; WO2021100043A3; EP4071712A1; US20220366578A1; AU2020386867A1

Abstract

【課題】物品識別及び追跡の目的でデータを分析するシステム及び方法を提供する。【解決手段】方法は、シーンを視認するように多数のカメラを配置することを含む。シーン内の少なくとも１つの基準物体は、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々は、それによって視認可能な基準物体の少なくとも１つの画像を取得する。方法はさらに、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも１つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ、交差領域と交差する光線に相関させることと、を含む。【選択図】図１

Description

関連出願
２０１９年１１月２１日に出願された「ＩＴＥＭＩＤＥＮＴＩＦＩＣＡＴＩＯＮＡＮＤＴＲＡＣＫＩＮＧＳＹＳＴＥＭ」と題する米国仮特許出願第６２／９３８，６８１号、および２０１９年１１月２１日に出願された「ＩＭＡＧＥＣＯＮＶＥＲＳＩＯＮＦＯＲＩＭＡＧＥＰＲＯＣＥＳＳＩＮＧ」と題する米国仮特許出願第６２／９３８，５６３号が本明細書によって参照され、その開示は参照により本明細書に組み込まれ、その優先権は、米国特許法施行規則第１．７８条（ａ）（４）および（５）（ｉ）に従って本明細書によって主張される。

本発明は、概して、データ分析、より具体的には、物品識別および追跡の目的でデータを分析するためのシステムおよび方法に関する。

物品を識別および追跡するための様々なタイプのシステムおよび方法が当技術分野で既知である。

本発明は、自動化された、費用効果が高く、かつ時間効率の良い物品の識別および追跡の目的で、データの分析に関連する改善されたシステムおよび方法を提供しようとする。

したがって、本発明の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、シーンを視認するように多数のカメラを配置することであって、シーン内の少なくとも１つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも１つの画像を取得する、配置することと、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも１つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差領域と交差する光線に相関させることと、を含む、方法が提供される。

好ましくは、相関のステップは、複数のカメラの各々を照射し、かつ基準物体が各少なくとも１つの画像内に出現する画素位置に対応する光線の光線パラメータを導出することを含む。

好ましくは、方法は、相関のステップに続いて、導出された光線パラメータを有する光線が交差点と所定の精度以上で交差するかどうかを確認することをさらに含む。

好ましくは、導出された光線パラメータを有する光線が交差点と所定の精度以上で交差することが確認されるまで、発見および相関のステップが互いに対して反復的に実行される。

好ましくは、交差点は、確率的な交差領域である。

本発明の別の好ましい実施形態によれば、物体に関連するデータを取得するためのシステムであって、シーンを視認するように配置された多数のカメラであって、シーン内の少なくとも１つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも１つの画像を取得するように作動する、多数のカメラと、複数のカメラの各々によって取得された少なくとも１つの画像を受信するように、かつ複数のカメラの各々を照射する光線交差点を発見するように作動する画像処理サブシステムと、基準物体が各少なくとも１つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差点と交差する光線に相関させるように作動する、画素対光線較正サブシステムと、を含む、システムがさらに提供される。

好ましくは、画素対光線較正サブシステムは、複数のカメラの各々を照射し、かつ基準物体が各少なくとも１つの画像内に出現する画素位置に対応する光線の光線パラメータを導出するように作動する。

好ましくは、システムは、導出された光線パラメータを有する光線が、交差点と所定の精度以上で交差するかどうかを確認するようにさらに作動する。

好ましくは、画像処理サブシステムおよび画素対光線較正サブシステムは、導出された光線パラメータを有する光線が交差点と所定の精度以上で交差することが確認されるまで、互いに対して反復的に作動する。

好ましくは、交差点は、確率的な交差領域である。

本発明の別の好ましい実施形態によれば、多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得することと、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも１つの物体の同一性を発見することと、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否することであって、選択および拒否することが、多数のカメラの事前の相互較正に基づく、選択および拒否することと、位置にある共通の物体を示す選択された画像のセットを出力することと、少なくとも１つの物体の同一性および位置のうちの少なくとも１つを考慮することに基づいて、選択された画像のセットに示される共通の物体の同一性を発見することと、を含む、方法もまた提供される。

好ましくは、選択および拒否することは、複数の画像内の少なくとも１つの物体の同一性に関係なく実行される。

好ましくは、この方法はまた、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも１つの物体の同一性を発見するステップに続いて、かつ選択するステップの前に、画像フィルタリングを実行することも含み、画像フィルタリングは、
複数の画像のうちの画像内の少なくとも１つの物体の同一性が、物体同一性のグループに属さず、少なくとも１つの物体の同一性がグループに属さない複数の画像のうちの画像が、選択ステップに参加する複数の画像に含まれていないこと、および
少なくとも１つの物体の同一性が事前定義された信頼水準を下回ると識別される信頼度であって、少なくとも１つの物体の同一性が事前定義された信頼水準を下回る信頼度で識別される複数の画像のうちの画像が、選択ステップに参加する複数の画像に含まれていない、信頼度、のうちの少なくとも１つに基づいて、複数の画像のうちの画像をフィルタリングすることを含む。

好ましくは、グループは、類似の物体同一性の所定のグループを含む。

代替的に、グループは、類似の物体同一性の過去に学習されたカテゴリに基づく。

好ましくは、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも１つの物体の同一性を発見するステップは、少なくとも１つの物体の同一性を発見するために人工知能（ＡＩ）を採用することを含み、ＡＩの採用は、ＡＩネットワークを、多数の訓練画像をＡＩネットワークに提供することによって画像内の物体を識別するように訓練するための初期訓練段階であって、多数の訓練画像の各々に出現する少なくとも１つの物体が、ＡＩネットワークに対して識別される、初期訓練段階と、ＡＩネットワークがその事前の訓練に基づいて少なくとも１つの物体の同一性を発見するステップを実行するように作動する、後続の作動段階と、を含む。

好ましくは、多数の訓練画像の各々に出現し、かつＡＩネットワークに対して識別された少なくとも１つの物体は、コンピュータビジョンを採用することに基づいて識別される。

好ましくは、多数のカメラの事前の相互較正は、多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得するテップの前に、シーンを視認するように多数のカメラを配置することであって、シーン内の少なくとも１つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも１つの画像を取得する、配置することと、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも１つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差領域と交差する光線に相関させ、それによって多数のカメラの複数のカメラに対する画素対光線較正を確立することと、画素対光線較正が多数のカメラのすべてに対して確立されるまで、シーン内の少なくとも１つの基準物体を繰り返し再位置決めし、かつ基準物体がその各位置で視認可能である多数のカメラの複数のカメラに対して画素対光線較正を確立することと、を含む。

好ましくは、多数のカメラによって取得された複数の物体を含むシーンの複数の画像は、第１の解像度を有し、方法は、複数の物体のうちの少なくとも１つの物体の同一性を発見するステップの前に、複数の画像の第１の解像度を第１の解像度よりも低い第２の解像度に変換することであって、複数の画像のうちの画像を選択するステップが、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否し、位置にある共通の物体を示す選択された画像のセットを出力するステップが、第２の解像度を有する複数の画像に対して実行される、変換することと、第１の解像度を有し、かつ第２の解像度を有する選択された画像のセットの画像に対応する、複数の画像のうちの画像を検索することと、第２の解像度を有する選択された画像のセットに発見されるような共通の物体の位置に対応する領域内の第１の解像度を有する検索された画像を切り取ることと、その切り取りに続く第１の解像度を有する画像の領域に出現する共通の物体の同一性を発見することと、をさらに含む。

好ましくは、第２の解像度を有する画像に発見されるような共通の物体の同一性に関係なく、第１の解像度を有する画像の領域に出現する共通の物体の同一性が発見される。

本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを取得するためのシステムであって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得するように作動する、多数のカメラと、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも１つの物体の同一性を発見するように作動する、画像分析モジュールと、多数のカメラの事前の相互較正に基づいて、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否するように、かつ位置にある共通の物体を示す選択された画像のセットを出力するように作動する、画像選択モジュールと、少なくとも１つの物体の同一性および位置のうちの少なくとも１つを考慮することに基づいて、選択された画像のセットに示される共通の物体の同一性を発見するように作動する、画像分類モジュールと、を備える、システムがまたさらに提供される。

好ましくは、画像選択モジュールは、複数の画像内の少なくとも１つの物体の同一性に関係なく、複数の画像のうちの画像を選択し、かつ他の画像を拒否するように作動する。

好ましくは、システムはまた、画像分析モジュールの下流および画像選択モジュールの上流に画像フィルタリングモジュールも含み、画像フィルタリングモジュールが、
複数の画像のうちの画像内の少なくとも１つの物体の同一性が、物体同一性のグループに属さず、少なくとも１つの物体の同一性がグループに属さない複数の画像のうちの画像が、画像選択モジュールに渡されていないこと、および
少なくとも１つの物体の同一性が事前定義された信頼水準を下回ると識別される信頼度であって、少なくとも１つの物体の同一性が事前定義された信頼水準を下回る信頼度で識別される複数の画像のうちの画像が、画像選択モジュールに渡されていない、信頼度、のうちの少なくとも１つに基づいて、複数の画像のうちの画像を除外するように作動する。

好ましくは、画像分析モジュールは、少なくとも１つの物体の同一性を発見するために、人工知能（ＡＩ）を採用するように作動し、ＡＩの採用は、ＡＩネットワークを、多数の訓練画像をＡＩネットワークに提供することによって画像内の物体を識別するように訓練するための初期訓練段階であって、多数の訓練画像の各々に出現する少なくとも１つの物体が、ＡＩネットワークに対して識別される、初期訓練段階と、ＡＩネットワークがその事前訓練に基づいて少なくとも１つの物体の同一性を発見するステップを実行するように作動する、後続の作動段階と、を含む。

好ましくは、多数のカメラの事前の相互較正は、シーンを視認するように配置されている多数のカメラであって、シーン内の少なくとも１つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも１つの画像を取得するように作動する、多数のカメラと、複数のカメラの各々によって取得された少なくとも１つの画像を受信するように、かつ複数のカメラの各々を照射する光線交差点を発見するように作動する、画像処理サブシステムと、基準物体が各少なくとも１つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差点と交差する光線に相関させ、それによって多数のカメラの複数のカメラの画素対光線較正を確立するように作動する、画素対光線較正サブシステムと、を含み、画素対光線較正が多数のカメラのすべてに対して確立されるまで、少なくとも１つの基準物体が、シーン内で繰り返し再位置決めされ、かつ画素対光線較正サブシステムが、基準物体がその各位置で視認可能である多数のカメラの複数のカメラに対して画素対光線較正を確立するように作動する。

好ましくは、多数のカメラによって取得された複数の物体を含むシーンの複数の画像は、第１の解像度を有し、システムは、画像分析モジュールの上流にあり、かつ複数の画像の第１の解像度を第１の解像度よりも低い第２の解像度に変換するように作動する画像変換器をさらに含み、画像分析モジュールおよび画像選択モジュールが、第２の解像度を有する複数の画像に対して作動する、画像変換器と、画像分類モジュールが、第１の解像度を有し、かつ第２の解像度を有する選択された画像のセットの画像に対応する、複数の画像のうちの画像を検索することと、第２の解像度を有する選択された画像のセットに発見されるような共通物体の位置に対応する領域において、第１の解像度を有する検索された画像を切り取ることと、その切り取りに続く第１の解像度を有する画像の領域に出現する共通の物体の同一性を発見することと、を行うように作動する。

好ましくは、画像分類モジュールは、第２の解像度を有する画像内で発見されるような共通物体の同一性に関係なく、第１の解像度を有する画像の領域に出現する共通の物体の同一性を発見するように作動する。

本発明のさらに好ましい実施形態によれば、物体に関連するデータを処理するための方法であって、複数の画像の少なくとも１つの特性を、第１の特性から第２の特性に変換することと、第２の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも１つの物体の少なくとも１つの特徴を自動的に発見することと、少なくとも１つの特徴に基づいて、第１の特性を有する画像を修正することと、を含む、方法がさらに提供される。

好ましくは、少なくとも１つの特性は、画像解像度を含み、第１の特性は、第１の画像解像度を含み、第２の特性は、第１の画像解像度よりも低い第２の画像解像度を含む。

好ましくは、少なくとも１つの特徴は、少なくとも１つの物体の位置を含む。

好ましくは、修正することは、第２の解像度を有する画像に発見されるような少なくとも１つの物体の位置に基づいて、少なくとも１つの物体の位置に対応する領域内の第１の解像度を有する画像を切り取ることを含む。

本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを処理するためのシステムであって、複数の画像の少なくとも１つの特性を、第１の特性から第２の特性に変換するように作動する、画像変換器と、第２の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも１つの物体の少なくとも１つの特徴を自動的に発見するように作動する、画像分析器と、少なくとも１つの特徴に基づいて第１の特性を有する画像を修正するように作動する、画像修正器と、を含む、システムもまた提供される。

好ましくは、画像修正器は、第２の解像度を有する画像に発見されるような少なくとも１つの物体の位置に基づいて、少なくとも１つの物体の位置に対応する領域内の第１の解像度を有する画像を切り取るように作動する。

本発明のまたさらに好ましい実施形態によれば、物体に関連するデータを処理するための方法であって、シーン内の少なくとも１つの物体の多次元モデルを経時的に作成することと、少なくとも１つの物体の多次元モデルの変化を経時的に追跡することと、少なくとも１つの所定の基準を満たす変化のうちの１つ以上を識別することと、物体に関連する情報を導出するために、少なくとも１つの所定の基準を満たす変化に関連するデータを分析することと、を含む、方法がまたさらに提供される。

本発明のさらに好ましい実施形態によれば、物体に関連するデータを処理するためのシステムであって、シーン内の少なくとも１つの物体の多次元モデルを経時的に作成するモデル作成器と、少なくとも１つの物体の多次元モデルの変化を経時的に追跡し、かつ少なくとも１つの所定の基準を満たす変化のうちの１つ以上を識別するように作動する、モデル追跡器と、物体に関連する情報を導出するために、少なくとも１つの所定の基準を満たす変化に関連するデータを分析するデータ分析器と、を含む、システムがまたさらに提供される。

本発明の別の好ましい実施形態によれば、物体に関連する視覚データを処理するための方法であって、方法が、少なくとも１つのカメラにシーンを視認させることと、人工知能を採用することと、を含み、採用することが、少なくとも１台のカメラからの少なくとも１つの出力が、シーン内の少なくとも１つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１つの出力を、シーン内の少なくとも１つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために行われる、方法がさらに提供される。

好ましくは、少なくとも１つの物体の存在および位置を示す追加情報は、シーンを視認するように配置された少なくとも２台の他のカメラからの出力に基づいて導出される。

好ましくは、強化することは、少なくとも２台の他のカメラからの出力内の少なくとも１つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも１つの画素位置を識別することと、各画素位置に対して、少なくとも２台の他のカメラについて、位置に対応するカメラ光線を発見することと、カメラ光線のうちのカメラ光線間でマッチングを実行して、カメラ光線の間の交差点を発見することであって、交差点が、物品位置に対応する、発見することと、少なくとも１つの物体の存在および位置を示す情報を含まない出力を有する少なくとも１台のカメラについて、物品位置に対応するカメラ光線を発見することと、少なくとも１つの物体の存在および位置を示す情報を含まない出力を有する少なくとも１台のカメラについて、カメラ光線に対応する画素位置を発見することと、カメラ光線に対応する画素位置における少なくとも１台のカメラからの出力に新しいバウンディングボックスを挿入することであって、新しいバウンディングボックスが、少なくとも１つの物体の存在および位置を示す、挿入することと、を含む。

好ましくは、カメラ光線の発見、およびカメラ光線に対応する画素位置の発見は、少なくとも１台のカメラおよび少なくとも２台の他のカメラの事前の相互較正に基づく。

好ましくは、少なくとも１つの物体は、人間以外の物品または人間の被写体のうちの少なくとも１つを含む。

本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを処理するためのシステムであって、シーンを視認するように配置された少なくとも１台のカメラと、画像分析器と、を備え、画像分析器が、人工知能を採用し、かつ少なくとも１つのカメラからの少なくとも１つの出力が、シーン内の少なくとも１つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１つの出力を、シーン内の少なくとも１つの物体の存在および位置を示す情報を出力に追加することによって強化すること、を行うように作動する、システムがまたさらに提供される。

好ましくは、システムはまた、シーンを視認するように配置された少なくとも２台の他のカメラも含み、追加情報が、少なくとも２台の他のカメラからの出力に基づいて導出される少なくとも１つの物体の存在および位置を示す。

好ましくは、画像分析器は、少なくとも２台の他のカメラからの出力内の少なくとも１つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも１つの画素位置を識別することと、各画素位置に対して、少なくとも２台の他のカメラについて、位置に対応するカメラ光線を発見することと、カメラ光線のうちのカメラ光線の間でマッチングを実行して、カメラ光線の間の交差点を発見することであって、交差点が、物品位置に対応する、発見することと、少なくとも１つの物体の存在および位置を示す情報を含まない出力を有する少なくとも１台のカメラについて、物品位置に対応するカメラ光線を発見することと、少なくとも１つの物体の存在および位置を示す情報を含まない出力を有する少なくとも１台のカメラについて、カメラ光線に対応する画素位置を発見することと、カメラ光線に対応する画素位置における少なくとも１台のカメラからの出力内に新しいバウンディングボックスを挿入することであって、新しいバウンディングボックスが、少なくとも１つの物体の存在および位置を示す、挿入することと、を行うように作動することによって、少なくとも１つの出力を強化するように作動する。

好ましくは、画像分析器は、少なくとも１台のカメラおよび少なくとも２台の他のカメラの事前の相互較正に基づいて、カメラ光線を発見し、かつカメラ光線に対応する画素位置を発見するように作動する。

本発明の別の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、シーンを視認するように多数のカメラを配置することであって、シーン内の少なくとも１つの基準物体が、少なくとも複数の多数のカメラによって視認可能であり、複数のカメラの各々が、それによって視認可能な基準物体の少なくとも１つの画像を取得する、配置することと、複数のカメラの各々を照射する光線交差点を発見することと、基準物体が各少なくとも１つの画像内に出現する画素位置を、シーン内の基準物体の三次元位置に関係なく、複数のカメラの各々を照射し、かつ交差領域と交差する光線に相関させることと、を含み、方法が、相関させるステップに続いて、
多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得すること、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも１つの物体の同一性を発見すること、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否することであって、選択および拒否することが、多数のカメラの事前の相互較正に基づく、選択および拒否すること、位置における共通物体を示す選択された画像のセットを出力すること、ならびに少なくとも１つの物体の同一性および位置のうちの少なくとも１つを考慮することに基づいて、選択された画像のセット内で示される共通の物体の同一性を発見すること、
複数の画像のうちの少なくとも１つの特性を、第１の特性から第２の特性に変換すること、第２の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも１つの物体の少なくとも１つの特徴を自動的に発見すること、および少なくとも１つの特徴に基づいて、第１の特性を有する画像を修正すること、
シーン内の少なくとも１つの物体の多次元モデルを経時的に作成すること、少なくとも１つの物体の多次元モデルの変化を経時的に追跡すること、少なくとも１つの所定の基準を満たす変化のうちの１つ以上を識別すること、および物体に関連する情報を導出するために、少なくとも１つの所定の基準を満たす変化に関連するデータを分析すること、ならびに
人工知能を採用することであって、多数のカメラのうちの少なくとも１台のカメラからの少なくとも１つの出力が、シーン内の少なくとも１つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１つの出力を、シーン内の少なくとも１つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも１つをさらに含む、方法がさらに提供される。

本発明の別の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、多数のカメラによって、複数の物体を含むシーンの複数の画像を少なくとも部分的に同時に取得することと、複数の画像のうちの少なくともいくつかの中の位置に出現する複数の物体のうちの少なくとも１つの物体の同一性を発見することと、複数の画像のうちの画像を共通の物体を示すものとして選択し、かつ複数の画像のうちの他の画像を共通の物体を示さないものとして拒否することであって、選択および拒否することが、多数のカメラの事前の相互較正に基づく、選択および拒否することと、位置にある共通の物体を示す選択された画像のセットを出力することと、少なくとも１つの物体の同一性および位置のうちの少なくとも１つを考慮に入れることに基づいて、選択された画像のセットに示される共通の物体の同一性を発見することと、を含み、方法が、
複数の画像のうちの少なくとも１つの特性を、第１の特性から第２の特性に変換すること、第２の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも１つの物体の少なくとも１つの特徴を自動的に発見すること、および少なくとも１つの特徴に基づいて、第１の特性を有する画像を修正すること、
シーン内の少なくとも１つの物体の多次元モデルを経時的に作成すること、少なくとも１つの物体の多次元モデルの変化を経時的に追跡すること、少なくとも１つの所定の基準を満たす変化のうちの１つ以上を識別すること、および物体に関連する情報を導出するために、少なくとも１つの所定の基準を満たす変化に関連するデータを分析すること、ならびに
人工知能を採用することであって、多数のカメラのうちの少なくとも１台のカメラからの少なくとも１つの出力が、シーン内の少なくとも１つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１つの出力を、シーン内の少なくとも１つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも１つをさらに含む、方法がさらに提供される。

本発明のさらに別の好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、少なくとも１つの物体を含むシーンの複数の画像のうちの少なくとも１つの特性を、第１の特性から第２の特性に変換することと、第２の特性を有する複数の画像のうちの少なくともいくつかの中に出現する少なくとも１つの物体の少なくとも１つの特徴を自動的に発見することと、少なくとも１つの特徴に基づいて、第１の特性を有する画像を修正することと、を含み、方法が、
シーン内の少なくとも１つの物体の多次元モデルを経時的に作成すること、少なくとも１つの物体の多次元モデルの変化を経時的に追跡すること、少なくとも１つの所定の基準を満たす変化のうちの１つ以上を識別すること、および物体に関連する情報を導出するために、少なくとも１つの所定の基準を満たす変化に関連するデータを分析すること、ならびに
人工知能を採用することであって、シーンを視認する多数のカメラのうちの少なくとも１台のカメラからの少なくとも１つの出力が、シーン内の少なくとも１つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１つの出力を、シーン内の少なくとも１つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも１つをさらに含む、方法がさらに提供される。

本発明のさらに好ましい実施形態によれば、物体に関連するデータを取得するための方法であって、シーン内の少なくとも１つの物体の多次元モデルを経時的に作成することと、少なくとも１つの物体の多次元モデルの変化を経時的に追跡することと、少なくとも１つの所定の基準を満たす変化のうちの１つ以上を識別することと、物体に関連する情報を導出するために、少なくとも１つの所定の基準を満たす変化に関連するデータを分析することと、を含み、方法が、人工知能を採用することであって、シーンを視認する多数のカメラのうちの少なくとも１台のカメラからの少なくとも１つの出力が、シーン内の少なくとも１つの物体の存在および位置を示す情報を含むかまたは含まないかを確認すること、ならびにシーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１つの出力を、シーン内の少なくとも１つの物体の存在および位置を示す情報を出力に追加することによって強化すること、のために人工知能を採用すること、のうちの少なくとも１つをさらに含む、方法がまたさらに提供される。

本発明の好ましい実施形態によれば、コンピュータによって実行されたときに、コンピュータに、上述された方法のステップのうちの少なくともいくつかのステップを実行させる命令が記憶されている、物体に関連するデータを処理するための非一時的なコンピュータ可読媒体もまた提供される。

本発明は、図面と併せて以下の詳細な説明に基づいて、より完全に理解および認識されるであろう。

本発明の好ましい実施形態に従って構築され、作動する、物品識別および追跡のためのシステムの部分的に簡略化されかつ部分的に絵で示されたブロック説明図である。図１に示されるタイプの物品識別および追跡システムの一部を形成する較正サブシステムの構成要素の簡略化された概略説明図である。図２Ａに示されるタイプの較正サブシステムの操作におけるステップを示す簡略化されたフローチャートである。図１に示されるタイプの物品識別および追跡システムの一部を形成する、画像分析および分類機能を有するシステム構成要素の簡略化されたブロック説明図である。図３に示されるタイプの画像分析および分類構成要素によって実行される機械学習を示す簡略化されたブロック図である。図１に示されるタイプの物品識別および追跡システムで採用されるカメラの配置を最適化するのに役立つスコアリングを示す簡略化されたグラフである。図１に示されるタイプの物品識別および追跡システムにおいて有用な物品を追跡するためのモデルの簡略化された概略説明図である。図６に示されるタイプのモデルに基づいた物品の追跡におけるステップを示す簡略化されたそれぞれのフローチャートである。本発明のシステムの実施形態の実装形態の簡略化された斜視説明図および側面説明図である。図９Ａおよび９Ｂの実装形態の一部の簡略図であり、本発明の好ましい実施形態による、ＡＩアルゴリズムによって注釈付けされた、人間の被写体を含むコンテキストにおける複数のカメラの視線および対応する画像を示している。本発明の好ましい実施形態による、画像修正によるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略図である。図１３Ａの実施形態に従って実行されるＡＩ失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。本発明の好ましい実施形態による、３ＤモデリングによるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略化された図である。図１４Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。図１４Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善の段階に含まれるステップを示す簡略化されたフローチャート図である。図９Ａおよび９Ｂの実装形態の一部の簡略図であり、本発明の別の好ましい実施形態による、ＡＩアルゴリズムによって注釈付けされた、人間の被写体を含む文脈における複数のカメラの視線および対応する画像を示している。本発明のさらに別の好ましい実施形態による、画像修正によるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略化された図である。図１６Ａの実施形態に従って実行されるＡＩ失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。本発明のさらに好ましい実施形態による、３ＤモデリングによるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略図である。図１７Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善におけるステップを示す簡略化されたフローチャート図である。図１７Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善の段階に含まれるステップを示す簡略化されたフローチャート図である。バウンディングボックスの厳密化を示す図９Ａおよび９Ｂの実装形態の一部の簡略化された図である。

次に図１を参照すると、図１は、本発明の好ましい実施形態に従って構築され、作動する、物品識別および追跡のためのシステムの部分的に簡略化されかつ部分的に絵で示されたブロック説明図である。

図１に見られるように、物品１０２の識別および追跡のためのシステム１００が提供される。物品１０２は、建物１０４内に位置付けることができ、ここでは、例としてのみ、買い物施設１０４内に位置付けられ、買い物客１０６によって取り扱われる消費者物品１０２として具体化される。しかしながら、システム１００は、倉庫、空港、製造施設、およびレストラン含むがこれらに限定されない任意の好適な施設内で手動または自動で処理され得る任意のタイプの単一または複数の物品の識別および追跡のために実装され得ることが理解される。

システム１００は、好ましくは、建物１０４などのシーンを視認し、その中の少なくとも１つの物体、例えば、物品１０２および／または買い物客１０６のうちの少なくとも１つに関連する視覚データを取得するように配置された多数のカメラ１１０を含む。多数のカメラ１１０は、好ましくは、必ずしもではないが、建物１０４内の固定表面、例えば、建物１０４の天井１１２または棚１１４上に取り付けられ、好ましくは、建物１０４をそれに対して様々な角度から視認するように相互に空間的に分散される。

カメラ１１０は、好ましくは、内部に位置付けられた物品１０２および／または買い物客１０６を含む、建物１０４の画像を取得するように作動する。カメラ１１０は、システム１００の画像化要件に応じて、建物１０４の画像を少なくともほぼリアルタイムで連続的に取得するように連続的に作動するか、または相互に調整されたストロボ方式で作動することができる。一例として、カメラ１１０は、２５画像フレーム／カメラ／秒など、時間内の単位ごとにカメラごとに複数の画像を取得するように作動することができる。本発明の特定の実施形態では、カメラ１１０は２Ｄカメラであり得る。代替的に、本発明の特に好ましい実施形態では、カメラ１１０は、深度画像を出力する３Ｄ深度カメラであり得る。

カメラ１１０によって取得された画像のうちの少なくともいくつかは、物品識別器および追跡器１３０によって処理するために、ローカルサーバ１２０および／またはクラウドベースのサーバ１２２に提供され得る。画像は、サーバ１２０において完全にローカルに処理されるか、サーバ１２０において部分的に処理されるか、クラウドベースのサーバ１２２において部分的に処理されるか、または処理のためにクラウドベースのサーバ１２２に完全に転送され得る。ローカルサーバ１２０および／またはクラウドベースのサーバ１２２に提供される画像のうちの少なくともいくつかは、所定の基準に基づいて、ローカルまたはリモートのいずれかで保存され得る。

物品識別器および追跡器１３０の機能は、プロセッサによって、例えば、ローカルサーバ１２０および／またはクラウドベースのサーバ１２２のプロセッサによって実行され得る。本発明の実施形態によれば、コンピュータ可読媒体（例えば、レジスタメモリ、プロセッサキャッシュ、ＲＡＭ、ＲＯＭ、ハードドライブ、フラッシュメモリ、ＣＤＲＯＭ、磁気媒体など）に記憶されたコンピュータプログラムアプリケーションは、実行されたときに、コントローラまたはプロセッサに、自動化された物品識別および追跡のための方法など、本明細書で論じられた機能および方法のうちの１つ以上を実行するように指示するまたは引き起こすことができるコードまたは実行可能命令を含み得る。コンピュータ可読媒体は、すべての形態およびタイプのコンピュータ可読媒体を含む非一時的コンピュータ可読媒体であり得る。

物品識別器および追跡器１３０は、多数のカメラ１１０を較正するために、カメラ間較正モジュール１３２を含み得る。較正モジュール１３２は、好ましくは、互いに関して多数のカメラ１１０を較正するように作動可能である。本発明の特に好ましい実施形態では、較正モジュール１３２は、好ましくは、カメラ１１０が較正されるフィデューシャル物体の三次元位置とは独立してかつ関係なく、多数のカメラ１１０を互いに関して繰り返し較正するように作動する。較正モジュール１３２は、好ましくは、カメラ１１０の高精度の画素対光線較正を確立するために、物品識別器および追跡器１３０の他の画像処理機能を採用する前にカメラ１１０を較正するように作動し、これに基づいて、物品識別器および追跡器１３０の後続の画像処理機能が実行され得る。較正モジュール１３２の好ましい作動に関するさらなる詳細は、図２Ａおよび２Ｂを参照して以降で提供される。

物品識別器および追跡器１３０は、画像分析モジュール１３４をさらに含み得、好ましくは、較正されたカメラ１１０によって取得された建物１０４の画像の分析のために人工知能を採用する。カメラ１１０によって取得された画像のすべてまたはいくつかは、追跡器１３０に提供され得る。

画像分析モジュール１３４は、好ましくは、物品１０２および／または買い物客１０６のうちの少なくとも１つの存在および位置を検出し、カメラ１１０によって取得された画像のうちの少なくともいくつかに出現する物品１０２のうちの少なくとも１つの物品の予備的識別を提供するように作動する。

カメラ１１０によって同時に取得された画像のうちの様々な画像に出現する物品は、画像分析モジュール１３４が様々な物品が識別された多数の画像を出力するように、画像のうちの異なる画像において画像分析モジュール１３４によって異なって識別され得ることが理解される。画像分析モジュール１３４の作動に関するさらなる詳細は、図３を参照して以降で提供される。

物品識別器および追跡器１３０は、画像分析モジュール１３４によって物品が識別された画像のうちの画像を選択し、他の画像を拒否するための画像選択モジュール１３６をさらに含み得る。画像選択モジュール１３６は、好ましくは、較正モジュール１３２によって実行されるように、好ましくはカメラ１１０の相互較正を考慮することに基づいて、画像の選択を実行するように作動する。より具体的には、画像選択モジュール１３６は、対応する位置を占め、したがって共通の物品に対応する物品を識別するために、画像分析モジュール１３４によって識別され、かつカメラ１１０を照射する物体から発せられる光線の幾何学的交差、および／またはカメラ１１０によって取得された深度画像内で識別される空間における点の幾何学的交差を含む幾何学的考察に基づいて画像を選択し得る。したがって、画像選択モジュール１３６は、フィルタとして効果的に機能し、それらの共通の交差点を発見することに基づいて、画像分析モジュール１３４によって提供される画像のうちの選択された画像を選択する。画像選択モジュール１３６の作動に関するさらなる詳細は、図３を参照して以降で提供される。

物品識別器および追跡器１３０は、建物１０４内の共通の場所に位置付けられている共通の物品の単一の同一性を導出するために、画像選択モジュール１３６によって選択された画像内の物品の様々な可能性のある多様な同一性を融合するための物体分類モジュール１３８をさらに含み得る。物体分類モジュール１３８は、画像分析モジュール１３４によって識別されるように、異なる画像に出現する物品の様々な多様な同一性を比較検討するために人工知能を採用し、単一の最終的な物品分類を導出し得る。物体分類モジュール１３８は、追加的または代替的に、物体識別を再実行し、異なる画像に出現する物品の様々な多様な同一性を融合し、それによって識別されるようにし得る。単一の導出分類は、物品識別器および追跡器１３０によって発見されたような、所与の位置にある所与の物品の同一性であると考えられる。物体分類モジュール１３８の好ましい作動に関するさらなる詳細は、図４を参照して以降で提供される。

物品識別器および追跡器１３０は、買い物客１０６および／または物品１０２のうちの１つと関連する対象のイベントを追跡するためのイベント追跡モジュール１４０をさらに含み得る。本発明の１つの好ましい実施形態によれば、イベント追跡モジュール１４０は、買い物客１０６による物品１０２の取り扱いと関連するイベントを自動的に追跡するための買い物リスト作成モジュールとして具体化され得る。買い物リスト作成モジュール１４０は、目録を作成および維持し得、その目録は、物体分類モジュール１３８によって発見されるような、少なくとも１つの物品１０２の同一性および位置に基づいて、特定の買い物客１０６と関連付けられた買い物リストであり得る。買い物客１０６と関連付けられていることが発見された物品は、買い物客１０６の買い物リストに属すると考えることができ、したがって、例えば、建物１０４を出る前に、買い物客１０６による買い物リスト上の物品の自動化された目録管理および支払いを容易にする。追加的または代替的に、イベント追跡モジュール１４０は、分析の目的で、建物１０４内の買い物客１０６および／または物品１０２の通過と関連する対象のイベントを追跡し得る。イベント追跡モジュール１４０の好ましい作動に関するさらなる詳細は、図６～８を参照して以降で提供される。

較正モジュール１３２、画像分析モジュール１３４、画像選択モジュール１３６、物体分類モジュール１３８、およびイベント追跡モジュール１４０の間に分散されるものとして説明された様々な機能は、その説明を明確にする目的で細分化され、様々な機能は、本発明の範囲から逸脱せずに、代替的に単一の作動モジュールによって組み合わせて実行されるか、物品識別器および追跡器１３０の様々なサブモジュール間で異なって分散されてもよいことが、理解される。

本発明のいくつかの実施形態では、物品識別器および追跡器１３０に含まれるモジュール（１３２～１４０）のいくつかまたはすべての機能は、互いに独立して、独立したモジュールとして、または互いにいくつかのみと組み合わせて、または本明細書に記載されていない他の構成要素と組み合わせて提供されてもよいことがさらに理解される。例えば、較正モジュール１３２によって提供され、以降でより詳細に説明されるカメラ較正機能は、物品識別器および追跡器１３０内での使用、およびその中に含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、較正モジュール１３２によって提供されるカメラ較正機能は、様々なカメラシステムにおけるカメラ較正に有用であり得、システム１００の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。

同様に、画像分析モジュール１３４によって提供され、以降でより詳細に説明される画像分析機能は、物品識別器および追跡器１３０内での使用、およびその中に含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、画像分析モジュール１３２によって提供される画像分析機能は、様々な画像化システムにおける画像分析に有用であり得、システム１００の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。

同様に、画像選択モジュール１３６によって提供され、以降でより詳細に説明される画像選択機能は、物品識別器および追跡器１３０内での使用、およびそこに含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、画像選択モジュール１３６によって提供される画像選択機能は、様々なタイプの画像化システムにおける画像選択に有用であり得、システム１００の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。

同様に、分類モジュール１３８によって提供され、以降でより詳細に説明される分類機能は、物品識別器および追跡器１３０内での使用、およびそこに含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、分類モジュール１３８によって提供される画像分類機能は、様々なタイプの画像化システムの文脈における様々なタイプの画像の分類に有用であり得、システム１００の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。

同様に、イベント追跡モジュール１４０によって提供され、以降でより詳細に説明されるイベント追跡機能は、物品識別器および追跡器１３０内での使用、およびその中に含まれていると説明される他のすべてのモジュールとの組み合わせでの使用に限定されない。むしろ、イベント追跡モジュール１４０によって提供されるイベント追跡機能は、様々な画像化および非画像化システムにおけるイベント追跡に有用であり得、システム１００の他の要素のすべてまたはいずれかを必ずしも伴わずにその中で適用され得る。

次に図２Ａを参照すると、図２Ａは、図１に示されるタイプの物品識別および追跡システムの一部を形成し得る較正サブシステムの構成要素の簡略化された概略図であり、を参照すると、図２Ｂは、その作動のステップを示す簡略化されたフローチャートである。

ここで図２Ａに戻ると、物品識別および追跡システム１００の一部を形成する多数のカメラ１１０は、６台のカメラ１１０ａ～１１０ｆを含むことが見られる。カメラ１１０のそのような数量は、その相互較正の説明の明確さの目的で例示的であり、最小化されていることが理解される。実際には、システム１００は、典型的には、建物１０４のサイズおよびその画像化仕様に応じて、１０未満または数百を超えるカメラ１１０、またはその間の任意の数を含み得る。

当業者によって理解されるように、カメラ１１０は、好ましくは、システム１００における物品の識別および追跡の目的で、画像取得のためにそれらを採用する前に較正される。そのような較正は、好ましくは、カメラ較正モジュール１３２によって実行され、好ましくは、カメラ１１０の各々によって取得された画像に物体が出現する画素位置と、画像化された物体から発せられ、かつ対応するカメラセンサ画素に照射する光線との相関を含み、したがって、空間内の画像化された物体の３Ｄ位置に対するセンサ画素位置の相関を可能にする。

本発明の好ましい実施形態によれば、多数のカメラ１１０を較正するために、多数のカメラ１１０は、好ましくは、ここでは例として建物１０４内に位置着けられる基準物体２００として具現化される、少なくとも１つの基準物体を含むシーンを視認するように配置される。基準物体２００は、少なくとも複数の多数のカメラ１１０の視線内にあるように位置付けられた、ボールまたはパターン化された物品などの単純な基準物体であり得る。ここで、例として、基準物体２００は、図２Ａにおいて、第１のカメラ１１０ａ、第３のカメラ１１０ｃ、および第５のカメラ１１０ｅによって視認可能であるが、第２のカメラ１１０ｂ、第４のカメラ１１０ｄ、および第６のカメラ１１０ｆによっては視認可能でないことが見られる。特定のセットアップでは、多数のカメラ１１０ａ～１１０ｆのすべてが基準物体２００を視認することが可能であり得るが、建物１０４内のその所与の位置で基準物体２００が視認可能である複数のカメラは、必ずしも多数のカメラ１１０ａ～１１０ｆのすべてを含まないことが理解される。

ここで第１、第３、および第５のカメラ１１０ａ、１１０ｃ、および１１０ｅとして具体化される、基準物体２００が視認可能である複数のカメラの各々は、好ましくは、基準物体２００の少なくとも１つの画像を取得するように作動する。基準物体２００から取得された画像は、好ましくは、カメラ較正モジュール１３２の一部を形成する画像処理サブモジュール２２０に供給される。画像処理サブモジュール２２０は、好ましくは、基準物体２００を視認することが可能である複数のカメラによって取得された基準物体２００の画像を受信するように、かつ複数のカメラの各カメラが照射される、光線の推定される共通の光線交差点を発見するように作動する。このような交差点を発見するために、少なくとも２台のカメラが互いに対して較正され得るように、少なくとも２台のカメラを照射する光線の共通の交差点を発見することを可能にするように、基準物体２００が多数のカメラ１１０の少なくとも２台のカメラによって視認可能でなければならないことが理解される。光線交差点は、任意の適切な方法によって発見され得、その様々な方法が当技術分野で既知である。例えば、光線交差点は、光線交差点の有効点である、複数の光線までの距離が最小である点を計算するために、中点法などの方法を使用して発見され得る。

好ましくは、画像処理サブモジュール２２０によって最初に発見された推定交差点は、３Ｄ空間内の特定の点ではなく、複数のカメラを照射する光線が交差する可能性が高い確率的な交差領域に対応する。確率的な交差領域は、基準物品２００が位置付けられる可能性が最も高い３Ｄ空間内の物理的領域に対応すると考えられる。カメラの位置および／または向きは、交差領域の初期推定値の発見を支援するために画像処理サブモジュール２２０に入力され得るが、必ずしも提供されるとは限らない。画像処理サブモジュール２２０によって最初に発見された交差点は、少なくとも部分的に、代替の、より精度の低い較正方法に基づいてもよく、この較正方法は、基準物体２００の位置の初期推定値を提供し得、この初期推定は、その後、本発明の好ましい方法に従って改良されることになる。交差点の初期推定値は、較正パラメータを推定するためのＰｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ（ＰＮＰ）ソリューションなどの当技術分野で既知である較正方法に基づいて発見され得る。

好ましくはカメラ較正モジュール１３２の一部も形成する画素対光線較正サブモジュール２４０は、好ましくは、次に、複数のカメラ１１０ａ、１１０ｃ、および１１０ｅによって取得された各々の少なくとも１つの画像内に基準物体２００が出現する画素位置を、複数のカメラの各々を照射し、かつ画像処理サブモジュール２２０によって発見された交差点と交差する光線に相関させるように作動する。画素対光線較正サブモジュール２４０は、それに関するカメラ１１０ａ、１１０ｃ、および１１０ｅの較正を可能にするために、入力パラメータとして、建物１０４内の基準物体２００の３Ｄ位置を必要としないことが理解される。むしろ、基準物体２００が視認可能である複数のカメラのうちの個々のカメラ１１０ａ、１１０ｃ、および１１０ｅは、それらの間の光線の交差に基づいて、互いに対して較正される。したがって、複数のカメラ１１０ａ、１１０ｃ、および１１０ｅは、シーン内の基準物体の絶対的な三次元位置に関係なく、互いに関して較正される。しかしながら、本発明の特定の実施形態では、カメラ間較正をとリンクするために、カメラ較正モジュール１３２は、カメラ間較正を外部基準フレームとリンクさせるために、外部絶対基準フレームに対する基準物体２００の３Ｄ位置を備えてもよいことに留意されたい。

好ましくは、画像処理サブモジュール２２０および画素対光線較正サブモジュール２４０は、光線交差領域が画像処理サブモジュール２２０によって最初に推定され、それと交差して複数のカメラ１１０ａ、１１０ｃ、１１０ｅを照射する光線のパラメータが最初に導出されるように、反復的に作動する。画素対光線較正サブモジュール２４０によって導出された光線パラメータは、その後、好ましくは、画像処理サブモジュール２２０によって光線交差領域をさらに精密化するために画像処理サブモジュール２２０にフィードバックされ、光線パラメータはその後新たに描写された交差領域に基づいて再導出される。そのような反復プロセスは、反復的に導出された光線パラメータを有する光線が、許容可能な精度、例えば１ｃｍ以内で定義された交差領域と交差することが発見されるまで繰り返し実行され得る。

複数のカメラ１１０は、建物１０４への他の修正または追加を必要とせずに、その中のシステム１００の実装を容易にするために、既存の建物１０４に有利に後付けされ得ることが理解される。したがって、システム１００は、多種多様な建物に簡単かつ効率的に実装することができる。複数のカメラ１１０は、システム１００が容易に拡張可能であり、内部に１０２および／または買い物客１０６の密集した配置を有する非常に大きい建物を含む、任意のサイズの建物で実施され得るように、建物１０４のサイズおよびその中の物品１０２および買い物客１０６の分布に応じて、任意の数のカメラを含み得ることがさらに理解される。

画素対光線較正サブモジュール２４０によって確認された光線パラメータは、外部および／または内部からの光線パラメータを含み得る。固有光線パラメータは、光学歪みパラメータなど、カメラ１１０ａ、１１０ｃ、および１１０ｅの各々の光学パラメータを含み得る。外部からの光線パラメータは、基準物品２００およびカメラ１１０のうちの他のカメラに対するカメラ位置、ならびにそれらの相対的なｘ、ｙおよびシータ座標に関して各カメラセンサ画素を照射する光線を特徴付けるパラメータを含み得る。内部および外部からの光線パラメータの両方は、画素対光線較正サブモジュール２４０によって確認され得る。代替的に、固有光線パラメータは、別のシステムによって測定され、画素対光線較正サブモジュール２４０に供給され得る。外部および内部からの光線パラメータ２４０の両方は、好ましくは、カメラ１１０ａ、１１０ｃ、および１１０ｅの各々について個別に導出される。

次に図２Ｂに戻ると、カメラ較正モジュール１３２の画像処理サブモジュール２２０および画素対光線較正サブモジュール２４０によって実行され得るような、本発明のカメラ間較正に含まれるステップがプロセスフローチャート２５０に示されている。

第１のステップ２６０に見られるように、物体２００などの基準物体は、好ましくは、シーン内に位置付けられる。基準物体２００は、シーンの画像を取得するように配置されたカメラによって視認可能な任意の単純な受動物体であり得、複雑なまたは能動物体である必要はない。

第２のステップ２６２に見られるように、シーンの画像は、好ましくは、次に、Ｎ台のカメラによって取得され、Ｎは、シーンを視認するように配置されたカメラの総数を表す。次に、第３のステップ２６４に見られるように、基準物体が出現する画像を取得したカメラのグループが識別される。通常、カメラのグループには、シーンを視認しているＮ台のカメラすべてが含まれているわけではなく、基準物体２００はＮ台のカメラのサブセットのみによって視認可能である。

次に、第４のステップ２６６に見られるように、基準物体が画素位置に出現する画像を取得したカメラのグループを照射する光線の交差領域が推定される。第５のステップ２６８に見られるように、光線パラメータは、次に、好ましくは、カメラのグループのカメラの各々について導出され、その光線パラメータは、第４のステップ２６４で発見された交差領域と交差し、かつカメラのグループの各カメラによってその取得された画像に基準物体が出現する画素位置に対応する光線を定義する。このような光線パラメータには、内部および内部からのパラメータが含まれ得る。

次に、問い合わせ２７０に見られるように、プロセス２５０は、第５のステップ２６８で定義された光線が、許容可能な精度で第４のステップ２６６で定義された交差領域に接近して交差するかどうかを問い合わせする。

交差領域および光線パラメータが十分なレベルの精度で確認されたことが発見された場合、この交差領域は基準物体の位置に対応していると考えられ、画素対光線較正は、その位置で基準物体を画像化したこれらのカメラについて導出される。

第５のステップ２６８で導出された光線パラメータを有する光線が十分な水準の精度で交点と交差することが発見されない場合、第６のステップ２７２で見られるように、第５のステップ２６８で導出された光線パラメータに基づいて交差領域が精緻化され、第５のステップ２６８および第６のステップ２７２が反復的に繰り返され得、それによって、問い合わせ２７０で確認されるように、光線パラメータが十分な精度で交差点と交差することが発見されるまで、光線パラメータは、最も最近定義された交差点に基づいて再導出され、交差点は、次に、新たに導出された光線パラメータに基づいて再定義される。

問い合わせ２７０で確認されたように、十分な精度で画素対光線較正の実行に続いて、プロセス２５０は、好ましくは、追加の問い合わせ２７４に見られるように、シーンを視認するすべてのＮ台のカメラについて画素対光線較正が導出されたかどうかを確認する。Ｎ台のカメラのすべてが較正されていない場合では、第７のステップ２７６に見られるように、異なるグループのカメラによって視認可能であるように、基準物体は、好ましくは、シーン内に再位置付けされる。次に、ステップ２６２～２７４を、Ｎ台のカメラすべてについて画素対光線較正が実行され、較正が完了したと考えられるまで繰り返され得る。

基準物体がその新しい位置で視認可能であるカメラのグループは、基準物体が以前に視認可能であったカメラのグループと重複してもよく、全Ｎ台のカメラのうちのカメラが複数回較正されるが、毎回異なる基準物体位置およびカメラの異なるグループに関して較正されることが理解される。

図２Ａおよび２Ｂを参照して本明細書に記載されたカメラ間較正の特定の方法は、本発明の物品識別および追跡システムの文脈内での実装形態に限定されず、むしろ、共通のシーンを視認する少なくとも２台のカメラの迅速かつ正確な較正から利益を得る他の様々な用途におけるカメラ間較正に有用であり得ることが理解される。

次に図３を参照すると、図３は、画像分析および分類機能を実行するシステム構成要素の簡略化されたブロック図であり、図１に示されるタイプの物品識別および追跡システムの一部を形成し得る。

図３に見られるように、物品識別および追跡システム１００の多数のカメラ１１０は、ここでは、カメラ１からカメラＮまでを含むように示されている。システム１００は、建物１０４（図１）のサイズに応じて、１００を超えるカメラなどの多数のカメラ、または少数のカメラを含み得る。

図１を参照して上述されたように、カメラ１１０は、好ましくは、消費者物品１０２および個人１０６（図１）などの複数の物体を含むシーンを視認するように、かつそれらの画像を取得するように配置される。カメラ１～Ｎは、好ましくは、少なくとも部分的に相互に同時にシーンの複数の画像を取得するように作動する。ここで、例として、カメラ１～Ｎは、画像１～Ｎを取得するように作動することが示されている。ただし、カメラ１～Ｎの各々によって複数の画像が取得され得るが、複数のカメラ１～Ｎは、画像を取得するために必然的に作動することが理解される。カメラ１１０は、従来の２Ｄカメラであり得るか、またはステレオカメラ、飛行時間型カメラ、または構造化光カメラなどの深度センサを含み、深度情報を含む３Ｄ画像を提供するカメラであり得る。

図３に示されるようなカメラ１～Ｎによる画像の取得は、所与の時間枠におけるカメラ１～Ｎの同時作動を表すことが理解される。システム１００の作動において、カメラ１～Ｎは、好ましくは、そのような画像を１秒間に複数回取得するように作動し、この画像は、好ましくは、図３を参照して本明細書で以下に概説されるように処理される。

カメラ１～Ｎは、好ましくは、それによって画像１～Ｎを取得する前に較正されることが理解される。カメラ１～Ｎは、図２Ａ～２Ｂを参照して本明細書で上述されたように相互較正され得る。

画像１～Ｎは、好ましくは、画像分析モジュールに提供され、好ましくは、物品識別および追跡器１３０の画像分析モジュール１３４として具体化される（図１）。

本発明の１つの好ましい実施形態によれば、カメラ１１０によって取得された画像１～Ｎは、好ましくは、画像分析モジュール１３４へのその提供の前に、前処理される。好ましくは、前処理は、複数の画像１～Ｎの少なくとも１つの特性を第１の特性から第２の特性に変換することを含む。本発明の１つの好ましい実施形態によれば、画像１～Ｎは、画像分析モジュール１３４によるその分析の前に、解像度が低減される。ここで、例として、第１の解像度を有する画像１～Ｎは、第２の解像度を有する対応する低解像度画像１～Ｎに変換され、第２の解像度は第１の解像度よりも低いと見られる。例えば、画像解像度の低下を含むそのような前処理は、画像分析モジュール１３４自体によって、またはシステム１００の一部を形成する画像変換モジュールなどの別の構成要素によって実行され得ることが理解される。

画像１～Ｎの前処理およびその少なくとも１つの特性の変換は、好ましくは、画像分析モジュール１３４によって画像１～Ｎを処理するために必要とされる計算電力を低下するために実行される。ここで、例として、画像の解像度の低下１～Ｎは、画像を処理するために必要な計算電力を低下させる。しかしながら、画像を処理するために必要とされる計算電力を低下させるために、解像度以外の画像１～Ｎの特性が代替的に変換され得ることが理解される。ほんの一例として、画像を圧縮するか、または画像内の対象の区域（例えば、動きが検出された区域）に焦点を当てるために追加情報を使用することができる。しかしながら、元の、例えば、カメラ１～Ｎによって取得されたより高い解像度の画像は、好ましくは、システム１００に保持および記憶され、任意選択で、以下でさらに詳述されるように、画像分類モジュール１３８によって処理される。

好ましくは、システム１００は、本明細書でさらに後述されるように、解像度の低下などの第２の特性を有する複数の画像１～Ｎのうちの少なくともいくつかに出現する少なくとも１つの物体の少なくとも１つの特徴を自動的に発見し、発見された少なくとも１つの特徴に基づいて、元のより高い解像度などの第１の特性を有する画像を修正するように作動する。

画像分析モジュール１３４は、好ましくは、複数の画像１～Ｎ、特に好ましくは複数の低解像度画像１～Ｎを受信し、カメラ１～Ｎによって画像化され、複数の画像１～Ｎのうちの少なくともいくつかに出現する複数の物体のうちの少なくとも１つの物体の存在を検出し、その同一性を発見するように作動する。画像化された対象の物体は、物品１０２（図１）などの１つ以上の消費者物品、買い物客１０６（図１）などの１人以上の個人、または両方でもあり得ることは理解される。ここで、例として、画像分析モジュール１３４は、物体が物品１０２などの物品である場合、好ましくは、物体同一性１－対応する画像１～Ｎ内の物体同一性Ｎを識別する。対象の物体が人である場合の画像分析モジュール１３４の作動に関するさらなる詳細は、以降で提供される。

物体同一性１～Ｎは、多様な同一性である場合もあれば、少なくともいくつかの共通の物体同一性を含む場合があることも理解される。物体同一性１～Ｎは、異なる物体を示す画像１～Ｎに起因して多様な同一性である可能性があり、その異なる物体は、画像分析モジュール１３４によって対応して異なるように識別される。追加的または代替的に、物体同一性１～Ｎは、少なくとも部分的に同じ物体を示す画像１～Ｎのうちの少なくともいくつかにもかかわらず、画像分析モジュール１３４によって画像化された物体が異なって識別されるため、多様な同一性であり得る。これは、同じ物体が、カメラ１～Ｎによって異なる画像化角度で、異なる視点から、および異なる画像化パラメータで、画像１～Ｎのうちの少なくともいくつかにおいて画像化されることに起因し、画像１～Ｎのうちの２つ以上における同じ物体が画像解析モジュール１３４によって異なる同一性を割り当てられることになる場合がある。画像１～Ｎは複数の物体を示し得ること、および画像分析モジュール１３４は、画像１～Ｎの各々の中の複数の物体同一性を識別するために作動し得ることが理解される。

本発明の特に好ましい実施形態によれば、画像分析モジュール１３４は、好ましくは、物体の存在を検出し、その同一性、例えば、低解像度画像１～Ｎにおける物体同一性１～Ｎなどの物体の同一性を発見するように作動する。好ましくは、必ずしもそうではないが、画像分析モジュール１３４は、人工知能を採用する。画像の人工知能ベースの分析は、２Ｄまたは３Ｄ画像に対して実行され得ることが理解される。好ましくは、画像分析モジュール１３４は、内部の物体の位置を示すバウンディングボックスをその中に挿入することによって、画像１～Ｎに注釈付けするように作動する。さらに好ましくは、画像分析モジュール１３４は、それによって識別された各物体同一性に信頼水準を割り当てるように作動し、その信頼水準は、好ましくは、物体の存在が検出された信頼度と、その検出された物体の同一性が分析モジュール１３４によって識別された信頼度との両方を表現している。

このような検出および識別の人工知能ベースのプロセスは、非常に計算量が多く、通常、ローカルサーバ１２０およびクラウド１２２（図１）の一方または両方に位置付けられたコンピューティングデバイスによって実行するのにかなりの時間がかかることが理解される。したがって、画像分析モジュール１３４によるそのような画像分析の実行前に、カメラ１１０によって取得された高解像度画像をより低い解像度の画像に変換することは、物体の検出および識別に必要な計算電力および処理時間がそれによって大幅に削減されるため、非常に有利である。しかしながら、場合によっては、そのような解像度の低下は必要ない場合があり、高解像度画像１～Ｎは、その解像度のいかなる事前の低下も伴わずに、画像分析モジュール１３４に直接提供され、画像分析モジュール１３４によって処理され得る。

典型的には、本発明の画像における物体識別の目的で人工知能を採用する場合、画像分析モジュール１３４は、画像内の物体を自動的に識別することができるように最初に訓練される。そのような訓練は、画像分析モジュール１３４に含まれ得るＡＩネットワークへの多数の訓練画像の提供を含み得、多数の訓練画像の各々に出現する少なくとも１つの物体は、画像分析モジュール１３４のＡＩネットワークについて識別される。訓練画像に出現し、画像分析モジュール１３４に提供される物体の識別は、人間の識別を含み得る。より好ましくは、訓練画像に出現し、画像分析モジュール１３４に提供される物体の識別は、マシンビジョンに基づく機械識別を含み得る。そのようなアルゴリズムを訓練するためのデータの生成に関するさらなる詳細は、図９Ａ～図１８を参照して以降で提供される。

訓練に続いて、画像分析モジュール１３４は、好ましくは、人工知能に基づいて、そこに提供される画像内の物体を自動的に識別するように作動する。

任意選択で、物体識別画像１～Ｎは、画像分析モジュール１３４の下流および画像選択モジュール１３６の上流の画像フィルタリングモジュール３００に供給され得る。画像フィルタリングモジュール３００は、好ましくは、内部で少なくとも１つの物体が識別された複数の画像を画像分析モジュール１３４から受信するように作動し、ここでは、画像分析モジュール１３４は、物体識別画像１～Ｎとして具体化される。画像フィルタリングモジュール３００は、好ましくは、複数の画像のうちの１つ以上の画像を除外するように作動する。

画像フィルタリングモジュール３００によって実行されるフィルタリングは、物体同一性の定義されたグループに属していないものとして画像内で識別された少なくとも１つの物体の同一性に基づき得る。内部で識別された物体の同一性が物体同一性の定義されたグループに属さない少なくとも１つの画像は、好ましくは、画像フィルタリングモジュール３００によって画像選択モジュール１３６に提供されない。

ここで、例として、画像フィルタリングモジュール３００は、物体識別画像１、２、３、４、およびＮ受信することが示されている。例えば、物体同一性１、３、４、およびＮは、物体同一性の定義されたグループのメンバーであり得、一方、物体同一性２は、物体同一性１、３、４、およびＮと非常に異質であることに起因して物体同一性のその定義されたグループ外であり得る。この場合、システム１００の下流構成要素に物体識別画像１、３、４、およびＮのみ提供され、物体識別画像２は提供されない。このようにして、シーンから同時に取得された他の画像で識別された物体と明確かつ明白に異なる物体が内部で識別された画像は拒否される。

画像フィルタリングモジュール３００によって適用される物体同一性の定義されたグループは、クラスタ化された類似の物体同一性の所定のグループであり得るか、またはシステム１００の作動の過程の間に定義された動的グループであり得る。追加的または代替的に、定義されたグループは、システム１００またはそれに類似の他のシステムの過去の作動に基づいて、類似の物体同一性の過去に学習されたカテゴリに基づいて定義され得る。

追加的または代替的に、画像フィルタリングモジュール３００は、物品が画像分析モジュール１３４によって検出および識別される信頼度に閾値信頼水準を適用することに基づいて、画像分析モジュール１３４によってそこに提供される複数の画像のうちの１つ以上を除外するように作動し得る。画像フィルタリングモジュール３００のこの作動モードでは、事前定義された信頼水準未満の信頼度で検出および識別された物品は、フィルタリングモジュール３００によって除外され、システム１００の下流構成要素に提供されない。

任意選択で画像フィルタリングモジュール３００によってフィルタリングされた物体識別画像１～Ｎは、好ましくは、画像相関モジュール３０２に供給される。画像相関モジュール３０２は、好ましくは、そこに供給された画像の各々において識別された少なくとも１つの物体が出現する複数の画素位置を、複数のカメラを照射する対応する複数の光線に相関させ、複数の光線のうちの少なくともいくつかの交差点を発見するように作動する。光線交差点は、任意の適切な方法によって発見され得、その様々な方法が当技術分野で知られている。例えば、光線交差点は、光線交差点の有効点である、複数の光線までの距離が最小である点を計算するために、中点法などの方法を使用して発見され得る。

ここで、例として、画像相関モジュール３０２は、好ましくは、対応する画素位置で内部で識別された物体を有する画像１、３、４、およびＮを受信し、物体がカメラ１、３、４、およびＮを照射する光線に対して出現する画素位置を関連付けるように作動し、画像相関モジュール３０２は、好ましくは、光線の少なくともいくつかの交差点を発見する。

物体が画像内に出現する画素位置と、画像が取得されるカメラを照射する光線のパラメータとのそのような相関は、好ましくは、カメラ較正モジュール１３２によって最初に実行された画素対光線較正に基づき、この画素対光線較正は事前に多数のカメラ１１０の各カメラについての画素対光線の相関を確立したことが理解される。

好ましくは、画像選択モジュール１３６（図１）として具現化される画像選択モジュールは、好ましくは次いで、それらの画像のみを選択するように次に作動し、それらの画像において、画像相関モジュール３０２によって発見された交差点と交差する光線に対応する画素位置に少なくとも１つの識別された物体が出現する。複数の光線のうちのいくつかの交差点は、空間内の共通の個々の物体の３Ｄ位置に対応すると考えられ、その結果、交差点と交差する光線に対応する画素位置に物体を示す画像は、その光線交差点に位置付けられているその共通の物体を示す画像であると考えられ得ることが理解される。これは、カメラを照射する様々な光線が実際に空間内の同じ画像化された物理的点から発せられない限り、カメラセンサ画素を照射し、３Ｄ空間で交差する様々な光線の確率が無視できるという理解に基づいていることが理解される。

したがって、画像選択モジュール１３６は、好ましくは、共通の物体を示す複数の画像のうちの画像を選択し、共通の物体を示さない複数の画像のうちの他の画像を拒否するように作動する。画像選択モジュール１３６によって実行される選択および拒否は、好ましくは、複数のカメラの事前の相互較正に基づき、この事前の相互較正は、カメラ１１０によって取得された画像の画素位置とカメラ１１０を照射する光線のパラメータとの間の相関を確立するのに役立つ。したがって、画像選択モジュール１３６は、好ましくは、幾何学的選択モジュールとして機能し、３Ｄ空間におけるカメラ光線の幾何学的交差に基づいて画像を選択するように作動することが理解される。

画像選択モジュール１３６は、好ましくは、光線交差点に対応する位置にある共通の物体を示すものとして識別された選択された画像のセットを出力するように作動する。発見された交差点に対応する３Ｄ空間内の位置は、物体の３Ｄ位置に対応すると考えられる。本発明の１つの好ましい実施形態では、物体は、図６～図８を参照して以降でさらに詳述されるように、光線交差点に位置付けられている３Ｄ空間内の点としてモデル化され得る。

ここで、例として、画像選択モジュール１３６は、物体識別画像１、３、および４を含む選択された画像のセット３０４を出力するように示されている。選択された画像のセット３０４は、物体識別画像Ｎを含まず、この物体識別画像Ｎは、画像相関モジュール３０２によって発見された光線交差点と交差しない照射光線に対応する画素位置に物品を示すものとして、画像選択モジュール１３６によって拒否された。

画像選択モジュール１３６によって実行される選択および拒否は、好ましくは、事前のカメラ間較正に基づき、より具体的には、好ましくは、事前のカメラ間較正によって発見される光線交差に基づく幾何学的フィルタリングに基づき、したがって、複数の画像内の少なくとも１つの物体の同一性に関係なく実行され得ることが理解される。画像選択モジュール１３６は、画像分析モジュール１３４によって発見されるような物体の同一性ではなく、その中の物体の位置に基づいて画像を選択および拒否するように作動し得る。

代替的に、画像選択モジュール１３６は、それによって実行される幾何学的画像選択を増強するために、画像分析モジュール１３４によって発見されるような物体の同一性を考慮するように作動し得る。特定の実施形態では、画像は、画像選択モジュール１３６でクリークにグループ化され得、それによって、各クリークは、内部で識別された同様の物体を有する画像から構成される。次に、画像選択モジュール１３６は、物品の位置を比較し、すべての画像ではなく、各クリーク内のそれらの画像についてのみ光線交差点に位置付けられている物体を示す画像を識別するように作動し得る。そのようなアプローチは、画像選択モジュール１３６によって実行される幾何学的画像選択を促進し得る。

光線交差に基づく画像相関モジュール３０２および画像選択モジュール１３４の上述された作動は、カメラ１１０によって取得された２Ｄ画像の処理に特によく適していることが理解される。しかしながら、カメラ１１０が、物体識別画像１～Ｎが深度情報を含むように深度カメラとして具体化される場合、画像相関モジュール３０２および画像選択モジュール１３４は、代替の方法で作動し得る。

本発明のこの実施形態では、画像相関モジュール３０２は、そこに入力された物体識別画像１～Ｎのうちの任意の所与の１つで識別される物品の３Ｄ位置を、物体識別画像１～Ｎに含まれる深度情報に基づいて発見するように作動し得る。次に、画像選択モジュール１３４は、所与の画像内の３Ｄ物品の位置が、物体識別画像１～Ｎの他のいずれかの物品の３Ｄ物品の位置と一致するかどうかを確認し得る。物品の位置が合致すると発見された場合、物品は空間における共通の位置にあり、したがって同じ物理物品に対応すると考えられる。

画像選択モジュール１３６によって選択された画像は、２Ｄ画像の場合は光線交差、または３Ｄ深度画像の場合は合致する３Ｄ位置に基づいて、したがって、同じ物理的位置にある同じ物品を示すと考えられる画像のセットを形成すると考えることができる。したがって、画像選択モジュール１３６は、幾何学的フィルタリングモジュールとして効果的に機能し、同じ位置に同じ物品を表示することが発見されない画像を拒否することが理解される。本発明のシステムの作動のこの段階では、物品の特定の最終的な同一性はまだ確認されていないことが理解される。

次に、画像選択モジュール１３６によって選択された画像は、好ましくは、物品分類モジュールに提供され、好ましくは、物体分類モジュール１３８として具体化される（図１）。分類モジュール１３８は、好ましくは、画像選択モジュール１３６によって出力された選択された画像のセットを受信し、選択された画像のセットを示す少なくとも１つの物体の同一性を発見するように作動し、この物体は、好ましくは、３Ｄ空間の所与の領域を占める共通の物体である。それ自体によって受信された画像内の物体同一性を考慮しなくてもよい画像選択モジュール１３６とは対照的に、分類モジュール１３８は、好ましくは、選択された画像のセット内の物体同一性を考慮することによって物体同一性を導出するように作動する。複数のカメラによって取得された画像に基づいて物体同一性を確立することは、単一のカメラによって取得された画像に基づいて物体同一性を確立することとは対照的に、誤差を減少させ、物品識別の精度を改善するのに有利に役立つことが理解される。

本明細書で上述されたように、選択された画像が、空間内の共通点を占める共通物体をすべて示すことに基づいて選択されたにもかかわらず、画像分析モジュール１３４は、その画像のうちの異なる画像における共通物体の外観の変動に起因して、共通物体に多様な物体同一性を割り当てている可能性がある。分類モジュール１３８は、好ましくは、選択された画像のセット内の様々な多様な物体同一性を融合し、単一の物体同一性３０６を導出するように作動し、この単一の物体同一性は、共通の物体の最終的な確認された同一性であると考えられる。分類モジュール１３８は、好ましくは、異なる物体同一性の組み合わせおよび重み付けに基づいて、様々な多様な物体同一性を融合するように作動可能である。

本発明の１つの好ましい実施形態では、分類モジュール１３８は、画像分析モジュール１３４によって発見されるような、選択された画像のセット内の様々な物体同一性を受信するように、かつ単一の最終的な物体同一性を導出するために、画像分析モジュール１３４によって各物体同一性に割り当てられた信頼水準に少なくとも部分的に基づいて、様々な同一性を融合するように作動し得る。このような同一性の融合は、機械学習に基づき得る。画像分類モジュール１３８によって導出された単一の最終的な物体同一性はまた、それに関連する信頼水準を有し得る。画像分析モジュール１３４によって分析される画像の解像度が低下することに起因して、その中で識別される様々な物体同一性と関連付けられた信頼度、したがって、それに基づく最終的な融合された物体同一性と関連付けられた信頼度が許容できないほど低くなる可能性があることが理解される。

そのような場合、本発明の追加の好ましい実施形態によれば、分類モジュール１３８は、物体の識別を再実行するように作動し得る。画像分析モジュール１３４によって分析され、選択された画像のセット３０４を形成する低解像度画像に対応する初期の高解像度画像が検索され、分類モジュール１３８に提供され得る。分類モジュール１３８は、例えば、画像分析モジュール１３４によって識別される物品位置の領域で高解像度画像を切り取ることによって、高解像度画像を修正するように作動し得る。次に、分類モジュール１３８は、切り取られた高解像度画像内の物品の同一性を再発見するように作動し得る。

分類モジュール１３８によって処理される画像のより高い解像度に起因して、それによって発見される物品同一性の精度は、典型的には、画像分析モジュール１３４によって対応する低解像度画像に発見される物品同一性の精度よりも高いことが理解される。さらに、切り取られる高解像度画像に起因して、分類モジュール１３８は、より限定された画像領域内で物品の同一性を分類するように作動し、したがって、必要な計算電力および処理時間を低減させる。結果として、高解像度画像の画像分析に基づく分類モジュール１３８によって出力される最終物体分類と関連付けられた信頼性は、より低い解像度の画像に基づく画像分析モジュール１３４によって提供される物品同一性に基づく信頼性よりも大きくなり得る。したがって、画像分析モジュール１３４によって分析される画像は、その中に出現する物品の同一性をより正確に発見することを可能にするために、より高い解像度の画像の修正、例えば切り取りを指示するのに役立つ。

図３に見られるように、例として、その中で識別された対応する物体１、３、および４を有する画像１、３、および４を含む低解像度画像３０４の選択されたセットは、画像分類モジュール１３８に直接提供され得る。次に、分類モジュール１３８は、対応する高解像度画像１、３、および４を検索し、高解像度画像１、３、および４を切り取り、物品同一性３０６を導出するために、切り取られた高解像度画像に対して物品識別および分類を再実行し得る。この実施形態では、分類モジュール１３８は、より低い解像度の画像に基づいて、元のより高い解像度の画像を修正するための画像修正器として機能し得ることが理解される。

分類モジュール１３８が元の高解像度画像上で物品識別を再実行する場合、最終的な物品同一性３０６の導出は、画像分析モジュール１３４によって処理されるような低解像度画像に基づいて導出された物品同一性を考慮する場合と考慮しない場合があることが理解される。

解像度以外の元の画像１～Ｎの特性が変換された場合、分類モジュール１３８は、より高い精度で内部に出現する物品の同一性を発見することを可能にするために、オリジナルの非修正画像を検索し、元の画像の分析を指示するために、より少ない処理電力を必要とする変換された画像を使用するように、本明細書で説明されるものと同様の方法で作動し得ることが理解される。

分類モジュール１３８の作動、特に単一の最終的な物体同一性を導出するために分類モジュール１３８が多様な物体同一性のバランスをとるために作動する方法に関するさらなる詳細が、図４を参照して以降で提供される。

図３に示されるシステム１００の構成要素に関して上述された画像処理機能は、建物１０４（図１）内の物品１０２などの物品の位置および同一性の識別に関して説明されることが理解される。しかしながら、場合によっては、カメラ１１０による買い物客１０６の画像化に基づいて、建物１０４（図１）内の買い物客１０６などの個人の位置を追加的または代替的に発見することが望ましい場合があることが理解される。

買い物客１０６（図１）などの画像化された個人の存在および位置を発見する場合、買い物客１０６の同一性の発見は必ずしも関連性がないことが理解される。したがって、この場合、人工知能画像分析モジュール１３４は、好ましくは、買い物客１０６の存在および位置を発見するためにのみ作動する。好ましくは、これは、好ましくは、ＡＩアルゴリズムの採用に基づいて、買い物客１０６の存在および位置を発見する画像分析モジュール１３４によって達成される。好ましくは、画像分析モジュール１３４は、買い物客１０６の身体を表す姿勢グラフを作成する。そのような姿勢グラフは、買い物客１０６の身体の主要位置に対応するいくつかの主要点を含み得る。これらの主要点は、買い物客１０６の身体上のそれらの位置を示すために好ましくはラベル付けされている。内部の個人の存在および位置を識別するための画像のＡＩ処理に関するさらなる詳細は、図１５Ａ～１７Ｄを参照して以降で提供される。

内部で姿勢グラフによって識別された買い物客１０６などの個人を有する画像は、画像相関モジュール３０２に供給され得ることがさらに理解される。画像相関モジュール３０２は、好ましくは、そこに供給された画像の各々における姿勢グラフ内の主要点が出現する複数の画素位置を、複数のカメラを照射する対応する複数の光線に相関させ、複数の光線のうちの少なくともいくつかの交差点を発見するように作動する。したがって、共通の光線交差点に対応する主要点は、買い物客１０６上の同じ身体位置に対応すると考えられる。

画像における解像度の低下およびその後の元のより高い解像度の画像の検索は、人間以外の物体の画像と比較して、そのような画像を迅速かつ正確に処理するＡＩアルゴリズムの能力が向上していることに起因して、人間の被写体の画像の処理に関して必ずしも必要ではないことが理解される。

次に図４を参照すると、図４は、図３に示されるタイプの画像分析および分類構成要素によって実行される機械学習を示す簡略化されたブロック図である。

図４に見られるように、内に識別された少なくとも１つの物体を有する入力画像のセット４００は、好ましくは、画像フィルタリングモジュール３００、画像相関モジュール３０２、および画像選択モジュール１３６（図３）を介して、例えば、画像分析モジュール１３４によって分類モジュール１３８に提供される。例えば、入力画像のセット４００は、図３の選択された画像３０４に対応し得る。入力画像のセット４００において識別される少なくとも１つの物体は、好ましくは、画像分析モジュール１３４によって採用されるように、人工知能に基づいて識別される。内部に入力された画像内の物体を識別するために画像分析モジュール１３４によって採用される人工知能は、深層学習、ニューラルネットワーク、または物体同一性への任意の他のタイプの人工知能アプローチを含み得る。

画像分析モジュール１３４は、好ましくは、シーンを視認するカメラ１１０（図１および３）などの複数のカメラによって取得された複数の画像を受信し、図３を参照して本明細書で上述されたように、複数の画像に出現する対応する複数の物体の複数の同一性を自動的に発見するために人工知能を採用する。複数のカメラによって取得された複数の画像の解像度は、必要な計算電力を低減し、画像処理を加速するために、画像分析モジュール１３４によるさらなる処理の前に低下され得る。

画像選択モジュール１３６は、好ましくは、さらに図３を参照して本明細書で上述されたように、カメラによって画像化され、選択された画像の各画像に出現する複数の物体の一部を形成する物体の位置に関して、複数のカメラの較正に基づいて複数の画像のうちの選択された画像を選択する。

画像分類モジュール１３８は、好ましくは、複数の画像のうちの選択された画像を受信し、選択された画像に出現する物体の同一性を導出するために機械学習を採用する。

分類モジュール１３８は、好ましくは、機械学習を採用して発見された異なる物体同一性を比較検討および組み合わせることに基づいて単一の最終的な物体同一性４０２を導出するように作動し、その異なる物体識別は、好ましくは、人工知能を採用することによって発見される。したがって、本発明のシステムは、好ましくは、「二重」機械学習を採用し、単一の究極の物体同一性を導出するために、機械学習を採用することに基づいて、人工知能を採用することに基づいて最初に識別された多様な複数の物体同一性が融合される。

本発明の１つの可能な実施形態では、分類モジュール１３８は、所与の同一性を有する共通の物体を示すと識別された画像の相対数を考慮することに基づいて、多様な物体同一性を重み付けする。例えば、第１の同一性が入力画像４００の８０％において共通の物品に割り当てられ、第２の異なる同一性が入力画像４００の２０％において同じ物品に割り当てられた場合、分類モジュール１３８は、好ましくは、第１の同一性に大きい重みを与えるように作動する。

本発明の１つの好ましい実施形態では、図３を参照して本明細書で上述されたように、分類モジュール１３８は、画像分析モジュール１３４によって発見された、複数の画像のうちの選択された画像における対応する複数の物体の複数の同一性を融合することに基づいて、少なくとも複数の画像のうちの選択された画像に出現する物体の同一性４０２を導出するように作動する。

図３を参照して本明細書で上述されたように、本発明の特定の実施形態では、画像分析モジュール１３４は、解像度の低下した入力画像に基づいて物体の検出および識別を実行するように作動し、必要な計算電力および処理時間を最小化するために画像の解像度を低下させることが望ましい。ただし、入力画像の解像度が低いことに起因して、入力画像に基づいて発見された物体同一性と関連付けられた信頼度は比較的低くなる可能性がある。したがって、低解像度の入力画像を使用して画像分析モジュール１３４によって発見された物体同一性に基づいて導出された物体同一性４０２に関連付けられた信頼度は、許容できないほど低くなる可能性がある。

物体同一性４０２と関連付けられた信頼度を高めるために、分類モジュール１３８は、図３を参照して本明細書でも上述されたように、任意選択で、高解像度画像を切り取り、続いて、切り取られた高解像度画像上で物体検出および識別を再実行するように作動するサブモジュール４０３を含み得る。

サブモジュール４０３は、カメラ１１０によって捕捉された、第１のより高い解像度を有する複数の初期画像のうちの少なくともいくつかを検索するように作動し得る。次に、サブモジュール４０３は、第２のより低い解像度の画像の対応するそれぞれの画像に出現する識別された物体の位置に対応する領域内のより高い解像度の画像の各々を切り取り得る。したがって、例えば、画像分析モジュール１３４（図３）によって実行されるようなより低い解像度の画像における物体識別は、例えばサブモジュール４０３によって実行されるような元の対応するより高い解像度の画像の切り取りを指示するのに役立つ。

次に、サブモジュール４０３は、人工知能を採用して、切り取られた第１のより高い解像度の画像内の物体の同一性を自動的に発見し、少なくとも、選択された切り取られた複数のより高い解像度の画像内の対応する複数の物体の複数の同一性を融合することに基づいて、より高い解像度の画像内に出現する物体の同一性を導出するために人工知能を採用し得る。より高い解像度の画像が切り取られたことに起因して、画像の検出および識別はより小さな画像領域に限定され、したがって必要な計算時間および電力が低減される。それによって最終的な物体同一性４０２は、切り取られたより高い解像度の画像に基づいて、より高い信頼水準で導出され得る。対応するより低い解像度の画像に基づいて、より低い関連する信頼水準で導出されたであろう物体同一性４０２は、より高い解像度の画像に基づいて物体同一性４０２を導出する際に考慮される場合と考慮されない場合があることが理解される。より低い解像度の画像に基づく物体同一性４０２が十分な水準の信頼度で発見された場合、サブモジュール４０３による追加の処理は不必要であり得ることもまた理解される。

入力された多様な物体同一性を融合するために分類モジュール１３８によって採用される機械学習は、物体識別が、本明細書で上述されたようにより高い解像度および／またはより低い解像度の画像に基づき得、様々な入力によって増強され得る。例として、単一の最終的な物体同一性を導出するために多様な物体同一性を融合する際に、分類モジュール１３８は、過去に発見された物体同一性を１つの入力係数４０４として考慮し得る。この場合、集約された買い物客の統計は、以前に所与の物品を選択した買い物客によって通常選択される物品の範囲を示し得る。買い物リスト作成モジュール１４０（図１）によって好ましくは生成されるような買い物客１０６によってすでに選択された物品同一性に基づいて、分類モジュール１３８は、買い物客１０６によって以前に選択された他の物品に基づいて、所与の買い物客１０６によって選択されると典型的に予想される物品に対応する物品同一性により大きい重みを与え得る。そのような集約された買い物客の統計は、好ましくは、集約された匿名の統計であり、所与の買い物客１０６に固有ではないことが理解される。

追加的または代替的に、単一の最終的な物体同一性を導出するために多様な物体同一性を融合する際に、分類モジュール１３８は、追加の入力係数４０６として、所与の物体が画像に出現する頻度に関連する集約された履歴データを考慮し得る。例えば、入力画像４００に出現数共通の物品が、画像分析モジュール１３４によって相互に等しい重みを有する２つの可能な同一性を割り当てられた場合、集約された履歴データに基づいて、買い物客によってより頻繁に典型的に選択される物品に対応する物体同一性は、分類モジュール１３８によってより大きい重みが与えられ得る。

さらに追加的または代替的に、単一の最終的な物体同一性を導出するために多様な物体同一性を融合する際に、分類モジュール１３８は、追加の入力係数４０８として、シーン内の少なくとも１つの物体の所定のモデルに基づいてシーン内の物体の位置を考慮し得る。例えば、建物１０４内の物品の初期位置は、分類モジュール１３８に提供され得、および、建物プラノグラムに基づいて、様々な物体同一性の中からそれに応じて物品の同一性が導出され得る。

さらに、体積または重量センサ４１０は、物体識別を支援するデータを提供するために、建物１０４内に位置付けされてもよいが、特に、買い物客１０６の手の注文サイズ以下の小さな物品の場合では、これらの物品は画像内での同一性に対して困難であり得る。体積または重量センサ４１０は、物品１０２が載っている表面の初期重量、および物品がそこから取り出した後の表面の後続の重量を記録し得る。重量の違いは、取り出された物品の重量を示し得、したがって、その識別に役立つ。そのような体積または重量データは、多様な物体同一性の融合を支援するために分類モジュール１３８に提供され得る。そのような体積または重量データは、追加的または代替的に画像分析モジュール１３４に提供され、それによって実行される予備的な物体識別を支援するようにし得る。重量センサが表面から取り出された物品の重量を正確に記録するために、物品の重心が重量センサの上になければならないことが理解される。小さな物品の場合、これは、小さな物品を容器内に位置決めすることによって達成することができ、その容器は、重量センサに対して中央に位置付けることができる。

追加的または代替的に、しるし読み取りモジュール４１２は、本発明のシステムに組み込まれ得る。しるし読み取りモジュール４１２は、別個のモジュールであり得るか、またはカメラ１１０の機能に含まれ得る。しるし読み取りモジュール４１２は、好ましくは、物体の最終的な同一性を導出するために、画像化された物体の一部を形成するしるしの少なくとも一部分を少なくとも部分的に読み取るように作動する。

例として、画像化された物体に含まれるしるしは、物体に印刷されたテキストまたは凡例であり得る。テキストの少なくとも一部を読み取ることは、分類モジュール１３８による物体同一性の分類を支援し得る。例えば、物体上の特定の文字の出現は、分類モジュール１３８によって使用されて、画像分析モジュール１３４によって提供される可能な物品同一性の範囲から物品同一性を区別し得る。

さらに例として、画像化された物体に含まれるしるしは、所与の物品と関連付けられたロゴなどの画像の形態であり得る。物品上の特定の記号、エンブレム、または色の外観は、部分的にしか識別されない場合でも、分類モジュール１３８によって使用されて、画像分析モジュール１３４によって提供される可能な物品同一性の範囲から物品同一性を区別し得る。

さらに追加的にまたは代替的に、画像背景減算モジュール４１４が本発明のシステムに組み込まえ得る。そのような画像背景減算は、分類モジュール１３８に提供された複数の物体同一性の中から単一の物体同一性を導出するのを支援するのに有用であり得る。画像背景減算モジュール４１４は、時間的背景減算を実行し得、シーンの少なくとも１つの初期画像が第１の時点で取得され、シーンの少なくとも１つの後続画像が第２の時点で取得され、後続の画像が第１の時点と第２の時点との間のシーンからの物体の取り出しを検出するために、初期画像からが減算される。例として、棚１１４（図１）は、そこから物品を除去する前および後に画像化され得、棚１１４から取り出される物品の性質および量の識別を支援するために使用される２つの画像の差。

画像背景減算モジュール４１４は、追加的または代替的に、空間的背景減算を実行し得、画像分析を単純化するために、不動要素をその所定のモデルに基づいてシーンの画像から減算し得る。

次に図５を参照すると、図５は、図１に示されるタイプの物品識別および追跡システムで採用されるカメラの配置を最適化するのに役立つスコアリングを示す簡略化されたグラフである。

図１を参照して本明細書で上述されたように、システム１００は、好ましくは、建物１０４（図１）などのシーンを視認し、その中の少なくとも１つの物体に関連する視覚データを取得するように配置された多数のカメラ１１０を含む。本発明の好ましい実施形態によれば、カメラ１１０の複数の可能な配置は、好ましくは、死角が最小化され、建物１０４内の物品の視野角の範囲が最大化されるカメラ１１０の最適な配置を発見するために、その中にカメラ１１０を設置する前に、建物１０４に関してコンピュータシミュレーションされる。

そのようなコンピュータシミュレーションは、建物１０４のコンピュータモデルを個々のユニットのグリッドに細分化することを含み得る。次に、第１のカメラ配置は、建物１０４のユニットに関して定義され得る。次に、すべてのユニットに、そのユニットが視認可能であるカメラの数に応じてサブスコアが割り当てられ得る。次に、建物を構成するすべてのユニットのサブスコアの合計は、そのカメラ構成の合計スコアを表す。追加的代替的な可能なカメラ配置をモデル化し、各々にスコアを割り当て、そのスコアは、所与のモデル内のユニットが見られる全体的なカメラ密度を表現する。

このようなスコアリングを示す非常に概略的な簡略化された例示的なグラフが図５に示されている。図５に示されるように、各構成に対して合計スコアが割り当てられる。合計スコアは、建物モデルの各ユニットの個々のサブスコアの合計であり、個々のサブスコアは、各それぞれのユニットが見られるカメラの数を表現する。図５に示されるデータの場合、第１１のカメラ構成が最も高い構成スコアを持っているため、建物内の視認に最適であることが理解される。

建物１０４は、ユニットに分割することができ、いかなる個人１０６も存在しない場合、それに関してモデル化された様々なカメラ構成となる。追加的または代替的に、建物１０４は、建物内の個人１０６の存在を考慮することに基づいて、それに関してモデル化されたユニットおよびカメラ構成に分割され得る。構成スコア、したがって最適に識別されたカメラ配置は、建物内の個人１０６の存在または不在に応じて異り得ることが理解される。

次に図６を参照すると、図６は、図１に示されるタイプの物品識別および追跡システムで有用であり、そのイベント追跡モジュール１４０内で特に有用である物品追跡のためのモデルの簡略化された概略図である。物品のそのような追跡は、本明細書で後述されるように、建物内の特定の個人と関連する物品の目録を提供するために有用であり得る。

図６に見られるように、多数のカメラ１１０は、好ましくは、建物１０４を画像化するように作動する。カメラ１１０によって取得された画像に対する画像処理の実行の結果として、特に図３を参照して本明細書で上述された画像処理の実行の結果として、建物１０４内の物品１０２および個人１０６（図１）は、３Ｄ空間モデル６０２内の点６００としてモデル化され得る。点６００は、ここでは黒丸で示されている「物品点」６１０の場合であることが示されているように、物品の存在と関連付けられた点であり得る。代替的に、点６００は、ここでは塗りつぶされていない円として示される「人点」６１２の場合であるように、個人の存在、より具体的には姿勢グラフ内の主要点によって表される個人の特定の身体部分と関連付けられた点であり得る。建物１０４が人と物品との両方を含む場合、物品点６１０と人点６１２との両方が点６００の合計を含み得る。

次に図７に戻ると、モデル６０２に関連して実行されるプロセス７００は、カメラ１１０が好ましくは１秒当たり２０または２５の画像などの高速フレームレートで建物１０４の画像を取得するように作動する第１のステップ７０２で開始することが見られる。カメラ１１０が作動する特定のフレームレートは、建物１０４の画像化要件に従って変化し得ることが理解される。

第２のステップ７０４に見られるように、各時点でカメラ１１０によって同時に取得された画像の各セットについて、図３～４に関して本明細書で上述されたような画像処理が、好ましくは、建物１０４内の、物体が点６００によって表される無生物物品または人であり得る物体の分布の多次元、好ましくは３Ｄの、モデルを生成するように実行される。そのような３Ｄモデルは、建物１０４内の対象の領域に応じて、建物１０４全体または建物１０４の特定のサブの部分に対して生成され得ることが理解される。そのような３Ｄモデルは、イベント追跡モジュール１４０に含まれ得るモデル生成器によって生成され得る。

カメラ１１０のうちの様々なカメラは、建物１０４内の物体のうちの異なる物体の画像を提供し得、同じ物体は、建物１０４内の物体の位置に応じて、異なる時間枠でカメラ１１０のうちの異なるカメラによって画像化され得ることが理解される。したがって、３Ｄ空間における所与の物体の位置に対応する点６００のうちの特定の点は、第１の時点でのカメラ１１０のうちの特定のカメラからの画像に基づいて、および第２の時点でのカメラ１１０のうちの特定の他のカメラからの画像に基づいて、第１の時点と第２の時点との間の所与の物体の動きに起因して、第２のステップ７０４で生成され得る。

本発明のこの特徴は、建物１０４が密集した環境である場合に特に有利であることが理解される。建物１０４内の物体のおそらく密集した分布にもかかわらず、対応する点６００によって表される物体が任意の所与の画像化時間フレームで少なくとも２つのカメラ１１０の視線に留まるという条件で、点６００の３Ｄモデルが連続的に生成され得る。

好ましくは、連続する時点に対して生成された多次元モデルは、少なくとも１つの物体の多次元モデルの変化を経時的に追跡するために比較される。より具体的には、点６００のうちの各点の動きを追跡するために、連続する時点に対応するそれぞれの３Ｄモデルにおける点６００のうちの各点の位置が比較される。そのような追跡は、画像フレーム間の時間ギャップが、特定の物体が隣接するフレーム内のその物体の位置に対して大幅に移動するのにかかる時間よりも短いという仮定に基づいていることが理解される。このような追跡は、イベント追跡モジュール１４０に含まれ得るモデル追跡器によって実行され得る。

そのような追跡は、１つの時点で生成された３Ｄモデルからの情報が、２つの時点が直接隣接していないにもかかわらず、別の時点で生成された３Ｄモデルからの情報を増強するために使用されることを含み得ることが理解される。例えば、人点６１２のうちの特定の点がいくつかの連続するフレームから消え、その後再び出現する場合、その点６１２は、間にあるフレームからの点がないにもかかわらず、その点のより前の時間の時間インスタンスに追跡され得る。これは、例えば、１つ以上の点６１２によって表される個人が一時的に出て、その後、建物１０４に戻る場合に関連し得る。

したがって、各時点に対して生成された３Ｄ空間内の点６００の各３Ｄモデルは静的であるが、３Ｄ空間内の点６００の動的通過の連続３Ｄモデルは、カメラ１１０によって取得された建物１０４の画像のストリームに基づいて構築され得る、点６００の通過は、第３のステップ７０６で見られるように、隣接するフレーム間の点位置の変化の比較によって追跡され得ることが理解される。

次に、第４のステップ７０８に見られるように、目録は、第３のステップ７０６で構築された連続３Ｄモデルに基づいて生成され得る。３Ｄモデルは、好ましくは、建物１０４内のすべての点６００に対して生成されるが、目録は、好ましくは、対象のイベントなどの変化を定義する所定の「トリガ」基準を満たす点６００のうちの点の位置の選択された変化のみに基づくことが理解される。そのような目録は、イベント追跡モジュール１４０に含まれ得るデータ分析器によって生成され得る。

例として、図６に戻ると、建物１０４が買い物施設である場合、物品点６１０は、人点６１２によってモデル化された買い物客が購入できる物品を表し得る。そのようなシナリオでは、対象のイベントを表すと考えられ、それに基づいて目録を作成することができる点の動きのトリガ基準は、例えば図６の棚１１４によって表されるような購入できる物品の位置から所定の距離内に人点６１２のうちの１つが接近するようなイベントであり得る。そのようなトリガ基準を満たすイベントは、領域７２０で概略的に示され、そこでは、人点６１２が棚１１４に接近するのが見られる。この場合、３Ｄモデルは、人点６１２によって表されるように、買い物客によって取り扱われる物品点６１０によって表されるように、物体の同一性を決定するために分析され得ることが理解される。そのようなイベント追跡は、買い物客と関連付けられた買い物リストを生成するために使用され得るか、または建物１０４内の買い物客の通過を理解するために分析の目的で使用され得る。

さらに例として、建物１０４が倉庫である場合、物品点６１０は、人点６１２によって表される労働者によって取り扱われる物品を表し得る。そのようなシナリオでは、目録を作成することができる点の動きのトリガ基準は、人点６１２のうちの１つと関連付けられた置場から所定の距離内にある物品点６１０の１つの接近であり得る。この場合、３Ｄモデルは、１つ以上の人点６１２と関連付けられた置場に出入りした物品点６１０によって表される物体の同一性を決定するために分析され得る。

トリガ基準は、３Ｄモデルにおける点６００のやり取りに関連するイベントに限定されないことが理解される。例として、プロセス７００は、物体に関連するデータが外部ソースから取得される第５のステップ７０９を含み得る。そのような外部ソースは、例として、棚１１４に位置付けられたセンサであり得る。棚１１４の１つ上の物品の重量の所与の変化は、物体が棚から取り出されたことを示すトリガ基準として定義され得る。そのようなトリガ基準に基づいて、３Ｄモデルは、重量の変化を受けた棚１１４から、人点６１２によって表されるような買い物客によって取り出された、物品点６１０によって表されるような物体の同一性を決定するために分析されてもよい。

これらのトリガ基準は、例としてのみ提供されており、対象のやり取りに対応する３Ｄモデル内の変化を区別するために、任意の適切なトリガ基準を使用することができることが理解される。

次に図８に戻ると、物品の目録が生成される図７の第４のステップ７０８内の好ましいサブステップが示されている。第１のサブステップ８００に見られるように、連続３Ｄモデル内の物体の位置が追跡されることが好ましく、その物体は物品または個人であり得る。第２のサブステップ８０２に見られるように、所定のトリガ基準を満たす物体位置の変化が好ましくは識別される。

次に、第３のサブステップ８０４に見られるように、所定の「トリガ」基準を満たす位置の変化を受けた物体の同一性および数量が発見される。第３のサブステップ８０４は、少なくとも１つのモデル化された物体に関連する情報を導出するために、第２のサブステップ８０２において発見されるように、少なくとも１つの所定の基準を満たす変化に関連するデータを分析することを含むことが理解される。物体の同一性および数量の発見は、例として、図４を参照して本明細書で上で概説されたように、自動的に実行され得ることが理解される。場合によっては、所与の物体の同一性または数量を確認するために、３Ｄモデルの分析において人間の入力が有利であり得ることがさらに理解される。そのような人間の入力は、物体の数量および／または同一性に関して自動的に生成された情報を増強するために供給され得る。

次に、第４のサブステップ８０６に見られるように、物体の数量および同一性は、買い物リストなどの目録に追加され得る。追加的または代替的に、所定のトリガ基準を満たすイベントに関連する情報は、建物内の物品および／または個人の通過の理解を得るために分析の目的で記憶され得る。第４のステップ８０６で買い物リストが生成される場合では、買い物リストは、好ましくは、建物１０４内の１つ以上の人点６１２によって表されるように、買い物客の通過中に連続的に更新される。例として、買い物リストは、買い物客が建物１０４から出る前に、支払いのために買い物客に自動的に提示され得る。

したがって、所与の買い物客のための買い物リストの生成は、好ましくは、買い物客と関連付けられた物品の追跡に基づいており、３Ｄモデルで事前定義された「トリガ」基準を満たす買い物客のやり取りの分析に基づいており、必ずしも買い物客の識別を伴わないことが好ましいことが理解される。したがって、システム１００（図１）は、入力として買い物客の同一性を必要とせずに、匿名化された方法で作動し得る。

本明細書で上述されたように、システム１００（図１）の構成要素によって実行される画像処理は、好ましくは、特に画像内の物体の存在および位置を検出するために、ＡＩアルゴリズムに基づく画像の分析を含む。特に、多数の物品１０２および買い物客１０６を含む大規模な建物である建物１０４の場合では、必要な精度の水準で作動するようにそのようなＡＩアルゴリズムを訓練するために、非常に大量のデータが必要とされることが理解される。本発明の特に好ましい実施形態によれば、ＡＩアルゴリズムのそのような訓練は、取得されたデータに基づく追加データの自動化された生成に基づいて、効率的、迅速かつ自動的に可能になる。そのような追加のデータは、取得されたデータの供給に加えて、その訓練中にＡＩアルゴリズムに供給され得、したがって、アルゴリズムの訓練を促進し、本発明を、大規模な物理的建物における、非常に大規模な実装に特によく適しているものにする。

次に、図９Ａおよび図１０Ｂを参照すると、図９Ａおよび１０Ｂは、本発明のシステムの実施形態の実装形態の簡略化された斜視図および側面図である。

図９Ａおよび９Ｂに見られるように、物品１０２は、好ましくは、建物１０４の棚１１４上に配置され、天井１１２に取り付けられた多数のカメラ１１０によって視認可能である。物品１０２およびカメラ１１０の配置は、本発明の実施形態の以下の説明を明確にする目的で、非常に簡略化された方法で図９Ａおよび９Ｂに示されており、物品１０２およびカメラ１１０は、本明細書に示されているものとは別の構成で配置され得ることが理解される。

次に図１０Ａおよび１０Ｂ、１１Ａおよび１１Ｂ、ならびに１２Ａおよび１２Ｂを参照すると、図１０Ａおよび１０Ｂ、１１Ａおよび１１Ｂ、ならびに１２Ａおよび１２Ｂは、図９Ａおよび９Ｂの実装形態の一部の簡略図であり、本発明の好ましい実施形態による、ＡＩアルゴリズムによって注釈付けされた、人間の被写体を含む文脈における複数のカメラの視線および対応する画像を示している。

次に図１０Ａおよび１０Ｂに戻ると、第１のシナリオでは、買い物客１０６などの人間の被写体が物品１０２のうちの１つを取り扱っていることが示されている。例としてのみ、物品１０２を取り扱う買い物客１０６は、建物１０４において、カメラ１～４として示される４台のカメラによって同時に視認可能であるように示されている。カメラ１～４による買い物客１０６の画像化は、少なくとも本明細書で上述されたＡＩアルゴリズムの訓練のための画像を提供する目的で、この文脈で好ましくは実行されることが理解される。そのような訓練の目的は、ＡＩアルゴリズムが、カメラ１１０によって取得されたその画像に基づいて、建物１０４内の物品１０２の存在および位置を自動的に正確に識別することを可能にすることである。ＡＩアルゴリズムが、十分な精度でカメラ出力内の物品１０２の存在および位置を識別することができるように訓練されると、ＡＩアルゴリズムは、図１～８を参照して本明細書で上述されたように、システム１００内、より具体的にはその物品識別器および追跡器１３０（図１）内に実装され得る。

図１０Ａおよび１０Ｂに見られるように、カメラ１はシーンの画像１００１を出力し、カメラ２はシーンの画像１００２を出力し、カメラ３はシーンの画像１００３を出力し、カメラ４はシーンの画像１００４を出力する。画像１００１、１００２、１００３、および１００４は、好ましくは、その中の物品１０２の存在および位置を識別するために、ＡＩアルゴリズムによって処理される。このような画像処理に使用されるＡＩアルゴリズムは、シードＡＩまたは抽象ＡＩネットワークと呼ばれることがあり、シードＡＩは、限られた範囲で、大きい程度の誤差で物品の存在および位置を識別することができることが理解される。本明細書で後述される本発明の実施形態の目的は、シードＡＩの性能を改善し、したがってシステム１００内でのその実装を可能にするためにシードＡＩを訓練するための追加のデータを提供することである。

ＡＩアルゴリズムによる画像１００１、１００２、１００３、および１００４の処理の結果として、画像１００１、１００２、１００３、および１００４は、好ましくは、物品１０２の位置にその中に描かれた注釈付きのバウンディングボックスである。図１０Ｂに見られるように、バウンディングボックス１０１０は、好ましくは、画像１００２、１００３、および１００４の各々に追加される。しかしながら、物品１０２が買い物客１０６によって画像１００１で妨害され、したがってカメラ１の視線１０１２に沿っていないため、バウンディングボックスは画像１００１に追加されない。

同様に、図１０Ａおよび１０Ｂに示されるものとは買い物客１０６およびカメラ１～４に関して物品１０２の異なる配置を含む第２のシナリオにおける図１１Ａおよび１１Ｂに見られるように、カメラ１は画像１１０１を出力し、カメラ２は画像１１０２を出力し、カメラ３は画像１１０３を出力し、カメラ４はシーンの画像１１０４を出力する。画像１１０１、１１０２、１１０３、および１１０４は、好ましくは、その中の物品１０２の存在および位置を識別するために、ＡＩアルゴリズムによって処理される。

ＡＩアルゴリズムによる画像１１０１、１１０２、１１０３、および１１０４の処理の結果として、画像１１０１、１１０２、１１０３、および１１０４は、好ましくは、物品１０２の位置にその中に描かれた注釈付きのバウンディングボックスである。図１１Ｂに見られるように、バウンディングボックス１１１０は、好ましくは、画像１１０１、１１０２、および１１０３の各々に追加される。しかしながら、物品１０２が買い物客１０６によって画像１１０４で妨害され、したがってカメラ４の視線１１１２に沿っていないため、バウンディングボックスは画像１１０４に追加されない。

ここで図１２Ａおよび１２Ｂに戻ると、図１１Ａに示されるものと同じ買い物客１０６およびカメラ１～４に関する物品１０２の配置を含む第３のシナリオが示されている。しかしながら、図１２Ｂに見られるように、ここでのＡＩアルゴリズムによる画像１１０１、１１０２、１１０３、および１１０４の処理は、画像１１０２および１１０３にのみバウンディングボックス１１１０の挿入をもたらす。物品１０２が画像１１０１に出現しているにもかかわらず、画像１１０１にはバウンディングボックスが挿入されていない。このような場合は、ＡＩ失敗ケースと呼ばれることがあり、ＡＩアルゴリズムによって分析されたカメラ出力、ここでは画像１１０１は、物品１０２の存在および位置を示す情報を含むことが、そのような情報がカメラ出力に存在するにもかかわらず、発見されないことを意味する。このようなＡＩ失敗は、ＡＩアルゴリズムが、十分な水準の精度で画像内の物品の存在および位置を識別するように訓練されていない結果、ＡＩアルゴリズムの限界に起因して発生する可能性がある。

画像１１０１に関して図示されたＡＩ失敗の場合は、画像１１０４の場合とは異なることが理解される。どちらの場合も、ＡＩアルゴリズムは画像内の物品１０２の存在および位置を識別せず、それぞれの画像にバウンディングボックスは追加されない。しかしながら、画像１１０４の場合では、物品１０２はまったく画像内に出現せず、したがってＡＩアルゴリズムは画像内の物品１０２を正しく識別しないのに対し、画像１１０１の場合では、物品１０２は画像内に出現し、画像内の物品１０２の存在および位置の識別の欠如は、画像の生来の特性ではなく、ＡＩアルゴリズムの失敗に起因するものである。

図１０Ａ～１２Ｂに示されるシナリオにおける画像１００１、１００２、１００３、１００４、および１１０１、１１０２、１１０３、１１０４の処理の前に、ＡＩアルゴリズムは、好ましくは、物品１０２の同一性を備えていることが理解される。物品１０２の同一性は、好ましくは、人間の専門家によって発見され、ＡＩアルゴリズムを訓練するためにＡＩアルゴリズムに入力される。しかしながら、本発明のいくつかの実施形態では、物品１０２の同一性は、必ずしも人間の専門家によってＡＩアルゴリズムに入力され得ず、むしろ機械学習に基づいて自動的に生成され得ることが想定される。

図１２Ａおよび１２Ｂの例の画像１１０１などのＡＩ失敗ケースを改善するために、画像修正が採用され得る。図１３Ａは、本発明の好ましい実施形態による、画像修正によるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略化された図である。

図１３Ａに見られるように、画像１１０１などのＡＩ失敗ケース画像は、シーンを視認するカメラ１１０のうちの少なくとも１台のカメラによって出力され得る。図１３Ａおよび１３Ｂを参照して本明細書で説明されるような画像修正方法は、１台以上のカメラの出力に対して実行され得ることが理解される。図１２Ｂを参照して説明された人工知能を採用することに基づいて、カメラ出力がシーン内の少なくとも１つの物体の存在および位置を示す情報を含まないことを確認した後、カメラ出力が修正され得る。

好ましくは、カメラ出力の修正は、ＡＩ失敗画像を相互に異なる多数の角度で回転させ、ＡＩを採用して、所与の角度で回転されるように、修正された各出力を分析して、画像内の物品の存在および位置を発見することを含む。

ここで、例として、元の画像１１０１は、４つの異なる角度で回転することによって修正されて、回転画像１３０２、１３０４、１３０６、および１３０８を生成することが示されている。画像１１０１を分析するために元々うまく採用されなかったＡＩアルゴリズムは、好ましくは、回転画像１３０２、１３０４、１３０６、および１３０８の各々を分析するために再採用される。修正されたＡＩ失敗画像にＡＩアルゴリズムを採用すると、場合によっては、画像内の物品の存在および場所の識別に成功し、したがって、バウンディングボックスによる画像の注釈付けに成功することが発見されている。ここで、例として、バウンディングボックス１３１０が、その中の物品１０２の位置を識別する画像１３０２、１３０４、１３０６、および１３０８の各々に、それによるＡＩアルゴリズムによる処理の結果として追加されることが示されている。

次に、注釈付き画像は、好ましくは、フレーム１３２０に示されるように、バウンディングボックス１３１０の重複領域における物品１０２の位置に対応する、おそらく不規則な輪郭を定義するために、逆回転によって再位置合わせされ、その中に現在存在するバウンディングボックス１３１０は重ね合わされる。次に、フレーム１３２４に示されるように、新しいデカルトバウンディングボックス１３２２が物品の位置に挿入され得る。最終的なバウンディングボックス１３２２は、物品位置のより精緻化されたレンダリングに基づいており、この精緻化された物品位置は、順番に好ましくは個々のバウンディングボックス１３１０の重ね合わせに基づいているので、フレーム１３２４に示される最終的なバウンディングボックス１３２２は、様々な個々のバウンディングボックス１３１０が重なり合っていない場合よりも正確であることが理解される。物品１０２およびバウンディングボックス１３２２は、その提示を明確にする目的で、人間の被写体に関してフレーム１３２４内に誇張されたサイズで示されていることが理解される。

本明細書に記載される画像修正は、元の画像の回転に関して詳述されているが、画像カラースケールの変化、画像ワーピング、および画像倍率の選択的変化を例として含む、追加または代替のタイプの画像修正も可能であることが理解される。

本明細書で説明される画像修正は、画像１１０１などのＡＩ失敗画像への適用に限定されないことがさらに理解される。むしろ、そのような画像修正は、バウンディングボックスの位置をより良く定義するために、ＡＩアルゴリズムが最初に物品の存在および位置をうまく識別した画像にも適用され得る。このような場合では、ＡＩアルゴリズムによって処理された元の修正されていない画像には、物品の存在と場所を示すバウンディングボックスで注釈付けされ得るが、バウンディングボックスのサイズおよび／または位置は不正確になる可能性がある。本明細書で説明される画像修正方法の使用は、バウンディングボックスを厳密化するために有利である可能性がある。

次に図１３Ｂを参照すると、図１３Ｂは、図１３Ａの実施形態に従って実行されるＡＩ失敗ケースの改善および／またはバウンディングボックスの厳密化のステップを示す簡略化されたフローチャート図である。

図１３Ｂに見られるように、画像修正に基づくＡＩ失敗ケースおよび／またはバウンディングボックス厳密化の改善のための方法１３４０は、修正のためにＡＩ処理された画像が選択される第１のステップ１３４２で開始し得る。次に、方法１３４０は、第２の問い合わせステップ１３４４において、第１のステップ１３４２において選択された画像がバウンディングボックスを含むかどうかのチェックに進む。問い合わせステップ１３４４は、画像のＡＩ処理後にバウンディングボックスが描画されなかったＡＩ失敗画像と、すでにバウンディングボックスを含むＡＩ成功処理画像とを区別するのに役立つことが理解される。

第２の問い合わせステップ１３４４において、画像がバウンディングボックスを含むことが発見された場合、画像は第３のステップ１３４６で回転され、第４のステップ１３４８において回転画像上にバウンディングボックスを再描画するために、ＡＩアルゴリズムが適用される。次に、第４のステップ１３４８において回転画像上に描画された新しいバウンディングボックスのパラメータが、第５のステップ１３５０に見られるように、画像に存在する元のバウンディングボックスのパラメータと比較される。このようなパラメータは、バウンディングボックスの寸法、バウンディングボックスの位置、または関連するその他のパラメータが含み得る。

次に、第６の問い合わせステップ１３５２に見られるように、方法１３４０は、２つのバウンディングボックス、すなわち、回転画像内の元のバウンディングボックスおよび新しく描画されたバウンディングボックスのパラメータが、所定の閾値を超えて異なるかどうかを確認する。パラメータが所定の閾値を超えて異ならない場合では、第７のステップ１３５４に見られるように、元のバウンディングボックスは許容可能であると考えられ、元の画像のさらなる処理は必要でないと考えられる。この場合、図１４Ａ～１４Ｄを参照して本明細書で以下に概説されるように、画像内のバウンディングボックスは、バウンディングボックスをさらに厳密化する必要がなく、画像をさらに処理する準備ができているように、十分に正確に描写されていると考えられる。

新しいバウンディングボックスと比較した元のバウンディングボックスのパラメータが、第６の問い合わせステップ１３５２で発見されたように、所定の閾値を超えて異なる場合、または画像がバウンディングボックスを含まない場合では、第２の問い合わせステップ１３４４において、方法１３４０は、第８のステップ１３６０に進み、そこで、画像は、Ｎ個の異なる角度だけ回転され、Ｎは、任意の整数であり得る。第９のステップ１３６２に見られるように、各回転画像について、画像に注釈付けし、その中に物品の存在および位置を示すバウンディングボックスを描画することを試みるために、回転画像は好ましくはＡＩアルゴリズムによって処理される。場合によっては、第９のステップ１３６２が成功し、回転画像に追加のバウンディングボックスが描画されることがあるが、他の場合には、第９のステップ１３６２は、ＡＩアルゴリズムが画像内に出現する物品を識別することに失敗すること、または物品が実際に画像内に出現しないことのいずれかに起因して失敗し得ることが理解される。

さらに、第９のステップ１３６２が、以前に処理に成功しなかった画像に新しいバウンディングボックスを描くことに成功した場合、方法１３４０は、画像修正によってＡＩ失敗ケースを改善することに成功したことが理解される。このようなアプローチは、ＡＩアルゴリズムによってうまく処理された画像を修正して、そこからさらに情報を抽出できる従来の画像修正アプローチとは異なる。対照的に、本発明の好ましい実施形態では、ＡＩアルゴリズムによってうまく処理されなかった画像は、画像を改善し、以前にうまく処理されなかった画像をうまく処理された画像に変換するために修正される。しかしながら、本発明のいくつかの実施形態では、方法１３４０は、これらの画像に基づいてさらに多くのデータを生成するために、うまく分析された画像に対してさらに実行され得ることが理解される。

第１０のステップ１３６４および第１１のステップ１３６６に見られるように、そのＡＩ処理に続くバウンディングボックスを含むすべての画像が選択され、空間的に位置合わせされる。そのような空間的位置合わせは、第１２のステップ１３６８に見られるように、すべての画像を元の方向に戻し、それによってその後続の重ね合わせを可能にするように、画像の逆回転を含み得る。第１０のステップ１３６４は、シーン内の少なくとも１つの物体の存在および位置を示す情報を含む少なくとも１台のカメラの出力と、画像のＡＩ処理によって発見されるような、当該シーン内の少なくとも１つの物体の存在および位置を示す情報を含まない少なくとも１台のカメラの出力とを区別するのに役立つことが理解される。

好ましくは画像内のバウンディングボックスによって定義されるように、物体の存在および位置を示す情報を含むことが発見されたこれらの画像のみが、第１１のステップ１３６６において相互に空間的に位置合わせされ、第１２のステップ１３６８において重ね合わされる画像のセットにまとめられる。

次に、第１３のステップ１３７０に見られるように、多角形は、好ましくは、バウンディングボックスの重複領域に基づいて定義される。多角形のサイズおよび位置は、好ましくは、物品のサイズおよび位置に対応することが理解される。第１４のステップ１３７２に見られるように、多角形の位置に対応する新しいデカルトバウンディングボックスが追加され、この新しいバウンディングボックスは、好ましくは、個々の画像のいずれかに存在する元のバウンディングボックスよりも正確に物品の位置に対応する。

次に図１４Ａおよび１４Ｂを参照すると、図１４Ａおよび１４Ｂは、本発明の好ましい実施形態による、３ＤモデリングによるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略図である。

図１４Ａに見られるように、図１２Ａに示されるものと同じ買い物客１０６およびカメラ１～４に関する物品１０２の配置を含む第３のシナリオが示されている。カメラ出力１１０１、１１０２、１１０３、および１１０４は、好ましくは、その中の物品１０２の存在および位置を発見するためにＡＩアルゴリズムによって処理され、この物品は、画像に注釈付けするバウンディングボックスによって示され得る。そのような処理は、図１０Ａ～１２Ｂを参照して本明細書で上述された元の画像のＡＩ処理、ならびに図１３Ａおよび１３Ｂを参照して本明細書で上述された画像修正に基づくＡＩ処理を含み得ることが理解される。

この場合、例として、バウンディングボックス１４００は、画像１１０１および１１０３に挿入されているように見え、バウンディングボックスは、画像１１０２および１１０４に挿入されているようには見えない。画像１１０１および１１０３の場合に示されるバウンディングボックス１４００は、その初期ＡＩ分析に続いて画像に最初に追加されたバウンディングボックスであり得、画像修正の方法でその後改善された初期バウンディングボックスに基づいて厳密化されたバウンディングボックスであり得、または図１３Ａおよび１３Ｂを参照して本明細書で上述されたように、画像修正に基づいて改善された初期ＡＩ失敗画像に基づく新しいバウンディングボックスであり得ることが理解される。

次に、画像１１０１および１１０３に存在するバウンディングボックス１４００の特定の性質に関係なく、３Ｄ投影モデリングステップ１４０２で概略的に示されるように、好ましくはカメラ１～４によって出力されるすべての画像に対して３Ｄモデリング投影が実行されることが好ましい。３Ｄ投影モデリングステップ１４０２は、好ましくは、ＡＩアルゴリズムによって分析されるように、物品１０２の存在および位置を示す情報を含むことが発見されるカメラの出力と、ＡＩアルゴリズムによって分析されるように発見されないカメラの出力とを区別し、物品１０２の存在および位置を示す情報を含まない出力を、その出力に物品１０２の存在および位置を示す情報を追加することによって強化する。より具体的には、３Ｄ投影モデリングは、好ましくは、バウンディングボックスと関連付けられた画素に対応する光線の交差によって発見されるように、対応する画像内のバウンディングボックスの位置に基づいて、バウンディングボックスを含まない画像にバウンディングボックスを追加することを含む。３Ｄ投影モデリングは、人工知能を採用して画像分析器で実行され得る。しかしながら、３Ｄ投影モデリングは、バウンディングボックスによる画像の注釈に限定されず、任意の輪郭を描く形状または領域による画像内の物品の存在の指示を含み得ることが理解される。３Ｄ投影モデリングに関するさらなる詳細は、図１４Ｃを参照して本明細書で以下に提供される。ここで、例として、３Ｄ投影モデリングの実行に続いて、新しいバウンディングボックス１４０４が画像１１０２および１１０４に挿入されているのが見られる。

少なくともバウンディングボックスによって明らかに描写された物品が実際には画像に出現しない可能性があるため、３Ｄ投影モデリングによって実行されるようなバウンディングボックス１４０４などのバウンディングボックスの画像への追加は必ずしも正確ではないことが理解される。ここで、例として、物品１０２は、買い物客１０６によるその妨害のために画像１１０４に出現せず、したがって、バウンディングボックス１４０４による画像１１０４の注釈は不正確である。

３Ｄモデリング投影によってうまく改善された画像と３Ｄモデリング投影によってうまく改善されなかった画像とを区別するために、３Ｄモデリング投影によって出力された画像は、好ましくは、フィルタリングステップ１４１０によって概略的に示されるようにフィルタリングされる。そのようなフィルタリングは、画像の視覚的または幾何学的特性に基づき得、図１４Ｄを参照して本明細書で以下でさらに詳述される。

ここで、例として、画像フィルタリングの結果として、画像１１０４は、バウンディングボックス１４０４を含むものとして誤って拒否され、画像１１０１、１１０２、および１１０３は、物品１０２の存在および位置に関する正確な情報を含む、うまく処理された画像として受け入れられる。うまく処理された画像１１０１、１１０２、および１１０３は、好ましくは、許容可能な精度で物品存在および位置を識別するためにアルゴリズムをさらに訓練するために、ＡＩ画像処理アルゴリズムにフィードバックされる。このようなＡＩ処理および訓練は、好ましくは、シードＡＩアルゴリズムが訓練され、成熟したアルゴリズムに発展するまで反復的に実行され、さらなる訓練が不要になるように十分なレベルの精度で実行される。

ここで、図１４Ｃを参照すると、図１４Ｃは、図１４Ｂの実施形態に従って実行されたＡＩ失敗ケースの改善の３Ｄ投影モデリング段階に含まれるステップを示す簡略化されたフローチャート図である。

図１４Ｃに見られるように、３Ｄ投影モデリング１４０２のための方法１４２０は、好ましくは、第１のステップ１４２２で開始し、バウンディングボックスを含む各画像内のバウンディングボックスと関連付けられた少なくとも１つの主要画素位置が発見される。主要画素位置は、バウンディングボックス内、例えば、バウンディングボックスの中心またはバウンディングボックスの四隅の各々にあり得るか、またはそれに近接してバウンディングボックスの外側にあり得ることが理解される。

次に、第２のステップ１４２４に見られるように、各主要画素位置に対応するカメラ光線が発見されることが好ましい。各画素位置に対応するカメラ光線の発見は、図２Ａおよび２Ｂを参照して本明細書で上述されるように、好ましくは、最初のカメラ間較正に基づくことが理解される。このようなカメラ間較正は、画素対光線較正を確立するのに役立ち、シーン内の物品を視認する特定のカメラを照射する光線のパラメータを、物品がカメラセンサに出現する画素位置に相関させてもよい。第１のステップ１４２２で所与のバウンディングボックスに対して複数の主要な画素位置が発見される場合、対応する複数の光線が好ましくは、第２のステップ１４２４で発見され、画像化された物品の位置および形状の両方を確認することを可能にする。

第３のステップ１４２６に見られるように、次に、好ましくは、第２のステップ１４２４において識別された光線の間でマッチングが実行され、光線交差点または光線交差領域が好ましくは確認される。光線交差点または光線交差領域は、画像化された物品の位置に対応すると考えられ得ることが理解される。少なくとも２つの光線の交差は、光線交差領域において画像化された物品１０２の存在を確立するのに十分であると考えられ得る。

第４のステップ１４２８に見られるように、第３のステップ１４２６で発見された交差点と交差しない光線に相関する主要な画素位置に対応するバウンディングボックスは、誤って注釈付けされたバウンディングボックスとみなされ、したがって拒否される。第４のステップ１４２８は、ＡＩアルゴリズムが実際に物品を含まない画像にバウンディングボックスを誤って配置するか、または画像内の誤った位置にバウンディングボックスを配置する可能性がある誤検知を除外するのに役立つことが理解される。

第５のステップ１４３０に見られるように、光線交差に基づいて物品位置が確立されると、バウンディングボックスを含まない出力を有するカメラの場合、物品位置に対応するカメラ光線が発見され得る。カメラ光線に対応する画素位置は、第６のステップ１４３２に見られるように、既知の画素対光線較正に基づいて確認され得る。続いて、第７のステップ１４３４に見られるように、新しいバウンディングボックスは、第６のステップ１４３２で識別されたその画素位置に以前はバウンディングボックスを含まなかった画像に描画され得る。

本発明の特定の実施形態では、方法１４２０のステップが省略され得ることが理解される。例えば、カメラ１１０が深度カメラとして具体化される場合、そのようなカメラの画素対光線相関は自動的に知られ、したがって、ステップ１４２４および１４３２などの相関ステップは省略され得る。

次に、図１４Ｄを参照すると、図１４Ｄは、図１４Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善のフィルタリング段階に含まれるステップを示す簡略化されたフローチャート図である。

図１４Ｄに見られるように、３Ｄ投影モデリング１４０２（図１４Ｂ）の出力をフィルタリングする１４１０（図１４Ｂ）ための方法１４８０は、好ましくは、第１のステップ１４８２で開始し、そこで３Ｄ投影モデリングによって出力された画像が提供される。これらの画像は、様々な可能なフィルタリングアプローチのうちの少なくとも１つによってフィルタリングされ得る。

第２のステップ１４８４に見られるように、画像は、背景減算に基づいてフィルタリングされ得、静的背景を有する時系列画像は、買い物客１０６によって取り扱われている物品１０２を示さないとして拒否され、なぜならそのような画像は、物品の位置の変化に起因して経時的に変化する動的背景を有すると予想されるからである。

追加的または代替的に、第３のステップ１４８６に見られるように、画像は、その共通の視覚的特性に基づいてフィルタリングされ得る。第３のステップ１４８６に従って、その視覚的特性の類似性を評価するために、第１のステップ１４８２において入力された画像内のバウンディングボックスの視覚的特性が比較される。このような視覚的特性は、色、テクスチャ、またはその他の特性を含み得る。画像内のバウンディングボックスが、第１のステップ１４８２において提供された画像のうちの他の画像内のバウンディングボックスの視覚的特性と比較して著しく異なる視覚的特性を有することが発見された場合、バウンディングボックスは、他のバウンディングボックスによって識別されるものと同一の物品に対応しないものと考えられ、拒否される。

追加的または代替的に、第４のステップ１４８８に見られるように、画像は、その幾何学的特性に基づいてフィルタリングされ得る。特に、最初のカメラの相互較正に基づいて位置が既知である所与のカメラと、対応するカメラ画像内のバウンディングボックスの位置に基づく見かけ上の物品の位置との間の距離が発見され得る。カメラと見かけ上の物品位置との間の距離は、図１４Ｃを参照して説明されたように、カメラと物品位置との間の予想距離との整合性のために比較され得、この距離は、３Ｄモデリング投影によって発見される物品位置に基づいて既知である。カメラと物品距離が許容できないほど小さい場合、これは、画像１１０４（図１４Ｂ）の場合に見られるように、別の物体が対象の物品を妨害していることを示していると考えられ、画像は拒否される。深度カメラの使用は、それによって提供される深度情報に起因して、幾何学的フィルタリングを容易にするのに特に有利であることが理解される。

第５のステップ１４９０に見られるように、フィルタリングステップ１４８４、１４８６、および１４８８のすべてを通過した画像のみが、好ましくは、存在および位置物品１０２を示す正確に配置されたバウンディングボックスを含む画像であると考えられる。第２、第３、および第４のステップ１４８４、１４８６、および１４８８は、並行して実行され得るか、または連続して実行され得、第１のタイプのフィルタリングに基づいて許容可能であると考えられる画像のみが後続のフィルタリングステップに渡されることが理解される。第５のステップ１４９０において出力されたこれらの画像は、好ましくは、その後、ＡＩアルゴリズムのさらなる訓練のために元のＡＩアルゴリズムにフィードバックされる。

図９Ａ～１４Ｄを参照して本明細書で上述された本発明の実施形態では、ＡＩアルゴリズムによって物品１０２バウンディングボックスが好ましくは挿入される対象の物品１０２は、買い物客１０６によって取り扱われる典型的な無生物物品にあることが理解される。しかしながら、特定の場合において、例えば、建物１０４内の買い物客１０６の追跡を容易にするために、それによって取り扱われる物品１０２ではなく／それに加えて、買い物客１０６の存在および位置を識別するようにＡＩアルゴリズムを訓練することが望ましい場合がある（図９Ａおよび９Ｂ）。次に、ＡＩアルゴリズムが、ＡＩ失敗ケースの改善に基づいて個人１０６の存在および位置を特定するように訓練される本発明の好ましい実施形態について、図１５Ａ～１７Ｄを参照しながら説明する。

ここで図１５Ａおよび１５Ｂに戻ると、買い物客１０６およびカメラ１～４に関する物品１０２の配置を含む追加のシナリオが示されている。カメラ１～４は、好ましくは、物品１０２を取り扱う買い物客１０６を同時に画像化し、それぞれの出力画像１５０１、１５０２、１５０３、および１５０４を提供する。

図１５Ｂに見られるように、画像１５０１、１５０２、１５０３、および１５０４は、好ましくは、その中の買い物客１０６の存在および位置を識別するために、ＡＩアルゴリズムによって処理される。買い物客１０６の存在および位置は、買い物客１０６の姿勢グラフを形成する主要点１５１０によって示される。典型的には、画像は、買い物客１０６の体の上側部分を表す姿勢グラフを形成するために、ＡＩアルゴリズムによって８つの主要点によって注釈付けされ得る。しかしながら、特定の画像処理要件に応じて、より多くのまたはより少ない数の主要点が姿勢グラフに含まれ得ることが理解される。

ここで、例として、８つの主要点１５１０が画像１５０１および１５０２の各々に追加され、買い物客１０６の頭、腕、および胴体の上側部分を描写する姿勢グラフを形成することが見られる。画像１５０３と画像１５０４のどちらにも主要点は追加されていない。画像１５０３の場合では、買い物客１０６が画像１５０３に出現するにもかかわらず、ＡＩアルゴリズムによる画像の処理に続いて主要点は追加されない。このような場合は、ＡＩ失敗ケースと呼ばれることがあり、ＡＩアルゴリズムによって分析されたカメラ出力、ここでは画像１５０３は、個人１０６の存在および位置を示す情報を含むことが、そのような情報がカメラ出力に存在するにもかかわらず、発見されないことを意味する。このようなＡＩ失敗は、ＡＩアルゴリズムが、十分な水準の精度で画像内の物品、ここでは人間物品の存在および位置を識別するように訓練されていない結果、ＡＩアルゴリズムの限界に起因して発生する可能性がある。

画像１５０３に関して図示されたＡＩ失敗の場合は、画像１５０４の場合とは異なることが理解される。どちらの場合も、ＡＩアルゴリズムは、画像内の物品（つまり、買い物客１０６）の存在および位置を識別せず、それぞれの画像に主要点は追加されない。しかしながら、画像１５０４の場合では、個人１０６はまったく画像内に出現せず、したがってＡＩアルゴリズムは画像内の個人１０６を正しく識別しないのに対し、画像１５０３の場合、個人１０６は画像内に出現し、画像内の個人１０６の存在および位置の識別の欠如は、画像の生来の特性ではなく、ＡＩアルゴリズムの失敗に起因するものである。

図１５Ａおよび１５Ｂの例の画像１５０３などのＡＩ失敗の場合を改善するために、画像修正が採用され得る。図１６Ａは、本発明の好ましい実施形態による、画像修正によるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略化された図である。

図１６Ａに見られるように、画像１５０３などのＡＩ失敗ケース画像は、シーンを視認する少なくとも１台のカメラによって出力され得る。図１６Ａおよび１６Ｂを参照して本明細書で説明されるような画像修正方法は、１台以上のカメラの出力に対して実行され得ることが理解される。図１５Ｂを参照して説明された人工知能を採用することに基づいて、出力がシーン内の少なくとも１つの人間物体の存在および位置を示す情報を含まないことを確認した後、カメラ出力が修正され得る。

好ましくは、修正することは、ＡＩ失敗画像を相互に異なる多数の角度で回転させ、ＡＩを採用して、所与の角度で回転されるように、修正された各出力を分析して、画像内の人間物品の存在および位置を発見することを含む。

ここで、例として、元の画像１５０３は、４つの異なる角度で回転されて、回転画像１６０２、１６０４、１６０６、および１６０８を生成するように示されている。画像１５０３を分析するために元のうまく採用されなかったＡＩアルゴリズムは、好ましくは、回転画像１６０２、１６０４、１６０６および１６０８の各々を分析するために再採用される。修正されたＡＩ失敗画像にＡＩアルゴリズムを採用すると、場合によっては、画像の注釈付けに成功し、画像内の物品の存在および位置の識別をもたらすことが発見されている。ここで、例として、複数の主要点１６１０が、画像１６０２、１６０４、１６０６、および１６０８の各々に追加され、それによるＡＩアルゴリズムによる処理の結果として、その中の個人１０６の位置を少なくとも部分的に識別することが示されている。

画像１６０２、１６０４、および１６０８の場合に示されるように、修正されたＡＩ失敗画像におけるＡＩアルゴリズムの採用が部分的に成功し、画像内にすべてではないがいくつかの主要点が挿入される可能性があることが理解される。修正されたＡＩ失敗画像に対するＡＩアルゴリズムの採用は、最大数の８つの主要点によって注釈付けされると見られる画像１６０６の場合に示されるように、画像内に最大選択数の主要点の挿入をもたらし、完全に成功し得ることが、さらに理解される。

次に、注釈付き画像は、好ましくは、フレーム１６２０に示されるように、逆回転によって再位置合わせされ、その中に存在する主要点が重ね合わされて、対応する主要点の重複領域１６１８のおける各主要点の位置に対応するおそらく不規則な輪郭を定義する。次に、フレーム１６２４に示されるように、１つ以上の新しい主要点１６２２を、各主要点の重複位置に挿入することができる。フレーム１６２４の最終的な姿勢グラフは、個々の対応する主要点の重ね合わせに基づく主要点位置のより精緻化されたレンダリングに順番に基づいているので、フレーム１６２４に示される主要点の新しいセットの最終的な姿勢グラフは、様々な個々の主要点が重ね合わされなかった場合よりも正確であることが理解される。

本明細書で説明される画像修正は、画像１５０３などのＡＩ失敗画像への適用に限定されないことがさらに理解される。むしろ、そのような画像修正は、主要点の位置をより良く定義するために、ＡＩアルゴリズムが最初に物品の存在および位置をうまく識別した画像にも適用され得る。このような場合、ＡＩアルゴリズムによって処理された元の修正されていない画像には、人間物品の存在および位置を示す主要点のセットで注釈付けされ得るが、主要点のうちの１つ以上の位置が不正確になる可能性がある。本明細書で説明される画像修正方法の使用は、主要点を含む姿勢グラフを改善するために有利である可能性がある。本明細書で説明される画像修正方法の使用は、最大数ではないがいくつかの主要点を含む注釈付き画像の場合にも有利である可能性がある。そのような場合、画像修正を使用して、追加の主要点を補足することによって画像を改善することができ、したがって、買い物客１０６を表すより完全な姿勢グラフの生成につながる。

次に図１６Ｂを参照すると、図１６Ｂは、図１６Ａの実施形態に従って実行されるＡＩ失敗ケースの改善および／または姿勢グラフの改善におけるステップを示す簡略化されたフローチャート図である。

図１６Ｂに見られるように、ＡＩ失敗ケースの改善および／または画像修正に基づく姿勢グラフ改善のための方法１６４０は、修正のためにＡＩ処理された画像が選択される第１のステップ１６４２で開始し得る。次に、方法１６４０は、第２の問い合わせステップ１６４４において、第１のステップ１６４２において選択された画像が、８つの主要点などの可能な主要点の総数を含むかどうかのチェックに進む。問い合わせステップ１６４４は、主要点の最大数を含む完全な姿勢グラフを含むうまく処理された画像と、画像のＡＩ処理後に主要点が最大よりも少ないかまたはまったく追加されなかったＡＩ失敗または部分的失敗画像とを区別するのに役立つことが理解される。

第２の問い合わせステップ１６４４において、画像が主要点の総数を含むことが発見された場合、画像は第３のステップ１６４６で回転され、第４のステップ１６４８において回転画像上に主要点を再描画するために、ＡＩアルゴリズムが適用される。次に、第４のステップ１６４８において回転画像上に描かれた新しい主要点のパラメータが、第５のステップ１６５０に見られるように、画像に存在する対応する元の主要点のパラメータと比較される。このようなパラメータには、主要点位置または他のパラメータが含まれる場合がある。

次に、第６の問い合わせステップ１６５２に見られるように、方法１６４０は、主要点の対応するペアのパラメータ、すなわち、回転画像における元の主要点および対応する新しく描かれた主要点が、所定の閾値を超えて異なるかどうかを確認する。パラメータが所定の閾値を超えて異ならない場合では、第７のステップ１６５４に見られるように、元の主要点のセットは許容可能であると考えられ、元の画像のさらなる処理は必要でないと考えられる。この場合、画像内の姿勢グラフは、図１７Ａ～１７Ｄを参照して本明細書で以下で概説されるように、さらなる修正が不要であり、画像がさらなる処理の準備ができているように、十分に正確に描写されていると考えられる。

新しい主要点と比較した元の主要点のパラメータが、第６の問い合わせステップ１６５２で発見されたように、所定の閾値を超えて異なる場合、または画像が主要点の総数を含まない場合では、第２の問い合わせステップ１６４４において、方法１６４０は、第８のステップ１６６０に進み、そこで、画像は、Ｎ個の異なる角度だけ回転され、Ｎは、任意の整数であり得る。第９のステップ１６６２に見られるように、各回転画像について、画像に注釈付けし、その中に人間物品の存在および位置を示す主要点のセットを描画することを試みるために、回転画像は好ましくはＡＩアルゴリズムによって処理される。場合によっては、第９のステップ１６６２が成功し、回転画像に追加の主要点が描画されることがあるが、他の場合には、第９のステップ１６６２は、ＡＩアルゴリズムが画像内に出現する個人を識別することに失敗することに起因して、または個人が実際に画像内に出現しないことに起因して失敗し得ることが理解される。

さらに、第９のステップ１６６２が、以前は失敗したＡＩ処理された画像において新しい主要点を描画することに成功した場合、方法１６４０は、画像修正によってＡＩ失敗ケースを改善することに成功したことが理解される。このようなアプローチは、ＡＩアルゴリズムによってうまく処理された画像を修正して、そこからさらに情報を抽出できる従来の画像修正アプローチとは異なる。対照的に、本発明の好ましい実施形態では、ＡＩアルゴリズムによってうまく処理されなかった画像は、画像を改善し、以前にうまく処理されなかった画像をうまく処理された画像に変換するために修正される。

第１０のステップ１６６４および第１１のステップ１６６６で見られるように、そのＡＩ処理に続く主要点を含むすべての画像が選択され、空間的に位置合わせされる。そのような空間的位置合わせは、第１２のステップ１６６８に見られるように、すべての画像を元の方向に戻し、それによってその後続の重ね合わせを可能にするように、画像の逆回転を含み得る。第１０のステップ１６６４は、シーン内の少なくとも１つの人間物体の存在および位置を示す情報を含む少なくとも１台のカメラの出力と、画像のＡＩ処理によって発見されるような、当該シーン内の少なくとも１つの人間物体の存在および位置を示す情報を含まない少なくとも１台のカメラの出力とを区別するのに役立つことが理解される。

好ましくは画像内の主要点によって定義されるように、物体の存在および位置を示す情報を含むこれらの画像のみが、第１１のステップ１６６６において相互に空間的に位置合わせされ、第１２のステップ１６６８において重ね合わせられる画像のセットにまとめられる。

次に、第１３のステップ１６７０に見られるように、多角形は、好ましくは、重ねられた主要点の各セットの重複領域に基づいて定義される。次に、第１４のステップ１６７２に見られるように、各多角形の位置に対応する新しい主要点が追加され、この新しい主要点は、好ましくは、個々の画像のいずれかに存在する元の主要点よりも買い物客１０６の身体の関連部分により正確に対応する。

次に図１７Ａおよび１７Ｂを参照すると、図１７Ａおよび１７Ｂは、本発明の好ましい実施形態による、３ＤモデリングによるＡＩ失敗ケースの改善を示す、図９Ａおよび９Ｂの実装形態の一部の簡略図である。

図１７Ａに見られるように、図１５Ａに示されるものと同じ買い物客１０６およびカメラ１～４に関する物品１０２の配置を含む第３のシナリオが示されている。カメラ出力１５０１、１５０２、１５０３、および１５０４は、好ましくは、その中の個人１０６の存在および位置を発見するためにＡＩアルゴリズムによって処理され、その個人は、画像に注釈付けする主要点のセットを含む姿勢グラフによって示され得る。そのような処理は、図１５Ｂを参照して本明細書で上述された元の画像のＡＩ処理、ならびに図１６Ａおよび１６Ｂを参照して本明細書で上述された画像修正に基づくＡＩ処理を含み得ることが理解される。

この場合、例として、複数の主要点１７００が画像１５０１および１５０３に挿入されているように見え、主要点は画像１５０２および１５０４に挿入されていないように見える。画像１５０１および１５０３の場合に示される複数の主要点１７００は、その初期ＡＩ分析に続いて画像に最初に追加された主要点であり得、画像修正の方法でその後改善された初期姿勢グラフに基づいて厳密化された主要点であり得、または図１６Ａおよび１６Ｂを参照して本明細書で上述されたように、画像修正に基づいて改善された初期ＡＩ失敗画像に基づく新しい主要点のセットであり得ることが理解される。

次に、画像１５０１および１５０３に存在する主要点１７００の特定の性質に関係なく、３Ｄ投影モデリングステップ１７０２で概略的に示されるように、好ましくはカメラ１～４によって出力されるすべての画像に対して３Ｄモデリング投影が実行されることが好ましい。３Ｄ投影モデリングは、好ましくは、ＡＩアルゴリズムによって分析されるように、個人１０６の存在および位置を示す情報を含むことが発見されるカメラの出力と、ＡＩアルゴリズムによって分析されるように発見されないカメラの出力とを区別し、個人１０６の存在および位置を示す情報を含まない出力を、その出力に個人１０６の存在および位置を示す情報を追加することによって強化する。より具体的には、３Ｄ投影モデリングは、好ましくは、主要点と関連付けられた画素に対応する光線の交差によって発見される、対応する画像内の主要点の位置に基づいて、主要点を含まない画像に主要点を追加することを含む。３Ｄ投影モデリングは、人工知能を採用して画像分析器で実行され得る。３Ｄ投影モデリングに関するさらなる詳細は、好ましくは、図１７Ｃを参照して以下に提供される。ここで、例として、３Ｄ投影モデリングの実行に続いて、主要点１７０４の新しいセットが画像１５０２および１５０４に挿入されているのが見られる。

少なくとも主要点によって明らかに描写された人間物品が実際には画像に出現しない可能性があるため、３Ｄ投影モデリングによって実行されるような主要点１７０４などの新しい主要点のセットの画像への追加は必ずしも正確ではないことが理解される。ここで、例として、買い物客１０６は、物品１０２によるその妨害のために画像１５０４に出現せず、したがって、主要点１７０４による画像１５０４の注釈は不正確である。

３Ｄモデリング投影によってうまく改善された画像と３Ｄモデリング投影によってうまく改善されなかった画像とを区別するために、３Ｄモデリング投影によって出力された画像は、好ましくは、フィルタリングステップ１７１０によって概略的に示されるようにフィルタリングされる。そのようなフィルタリングは、画像の視覚的または幾何学的特性に基づき得、図１７Ｄを参照して本明細書で以下でさらに詳述される。

ここで、例として、画像フィルタリングの結果として、画像１５０４は、主要点１７０４を含むものとして誤って拒否され、画像１５０１、１５０２、および１５０３は、個人１０６の存在および位置に関する正確な情報を含む、うまく処理された画像として受け入れられる。うまく処理された画像１５０１、１５０２、および１５０３は、好ましくは、許容可能な精度で個人の存在および位置を識別するためにアルゴリズムをさらに訓練するために、ＡＩ画像処理アルゴリズムにフィードバックされる。このようなＡＩ処理および訓練は、好ましくは、シードＡＩアルゴリズムが訓練され、成熟したアルゴリズムに発展するまで反復的に実行され、さらなる訓練が不要になるように十分なレベルの精度で実行される。

次に図１７Ｃを参照すると、図１７Ｃは、図１７Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善の３Ｄ投影モデリング段階に含まれるステップを示す簡略化されたフローチャート図である。

図１７Ｃに見られるように、３Ｄ投影モデリング１７０２のための方法１７２０は、好ましくは、第１のステップ１７２１で開始し、少なくとも１つの主要点を含む各画像内の各主要点は、主要点が対応する身体上の位置に関してラベル付けされる。好ましくは、主要点のラベル付けに続いて、各主要点と関連付けられた少なくとも１つの主要画素位置が、第２のステップ１７２２で見出される。主要画素位置は、主要点内、例えば、主要点の中心または主要点の外側にあり得ることが理解される。

次に、第３のステップ１７２４に見られるように、各主要画素位置に対応するカメラ光線が発見されることが好ましい。各画素位置に対応するカメラ光線の発見は、図２Ａおよび２Ｂを参照して本明細書で上述されるように、最初のカメラ間較正に基づき得ることが理解される。このようなカメラ間較正は、画素対光線較正を確立するのに役立ち、シーン内の物品を視認する特定のカメラを照射する光線のパラメータを、物品がカメラ画像に出現する画素位置に相関させてもよい。

第４のステップ１７２６に見られるように、次に、好ましくは、第３のステップ１７２４において識別された光線の間でマッチングが実行され、光線交差点または光線交差領域が好ましくは確認される。光線交差点または光線交差領域は、各それぞれのラベル付けされた主要点によって示される人間の身体上の位置に対応すると考えられ得ることが理解される。少なくとも２つの光線の交差は、光線交差領域で身体部分の存在を確立するのに十分であると考えられ得る。

第５のステップ１７２８に見られるように、交差点と交差しない光線に相関する主要画素位置に対応する主要点は、誤って配置された主要点と考えられ、したがって拒否される。第５のステップ１７２８は、ＡＩアルゴリズムは、実際には個人を含まない画像に主要点を誤って配置するか、または主要点に誤ってラベル付ける可能性がある誤検知を除外するのに役立つことが理解される。

第６のステップ１７３０に見られるように、光線交差に基づいて身体部分の位置が確立されると、主要点を含まない出力を有するカメラの場合、身体部分の位置に対応するカメラ光線が発見され得る。カメラ光線に対応する画素位置は、第７のステップ１７３２に見られるように、既知の画素対光線較正に基づいて確認され得る。続いて、第８のステップ１７３４に見られるように、主要点の新しいセットは、第７のステップ１７３２で識別されたその画素位置に以前は主要点を含まなかった画像に描画され得る。

次に、図１７Ｄを参照すると、図１７Ｄは、図１７Ｂの実施形態に従って実行されるＡＩ失敗ケースの改善のフィルタリング段階に含まれるステップを示す簡略化されたフローチャート図である。

図１７Ｄに見られるように、３Ｄ投影モデリング１７０２の出力をフィルタリングするための方法１７８０は、好ましくは、第１のステップ１７８２で開始し、そこで３Ｄ投影モデリングによって出力された画像が提供される。これらの画像は、様々な可能なフィルタリングアプローチのうちの少なくとも１つによってフィルタリングされ得る。

第２のステップ１７８４に見られるように、画像は、背景減算に基づいてフィルタリングされ得、静的背景を有する時系列画像は、そのような画像が動的背景を有すると予想されるので拒否される。

追加的または代替的に、第３のステップ１７８６に見られるように、画像は、その共通の視覚的特性に基づいてフィルタリングされ得る。第３のステップ１７８６に従って、その視覚特性の類似性を評価するために、第１のステップ１７８２において入力された画像内の対応する主要点の視覚特性が比較される。このような視覚的特性は、色、テクスチャ、またはその他の特性を含み得る。画像内の主要点が、第１のステップ１７８２において提供された画像のうちの他の画像内の対応する主要点の視覚的特性と比較して著しく異なる視覚的特性を有することが発見された場合、主要点は、他の主要点によって識別されるものと同じ身体部分に対応しないものとみなされ、拒否される。

追加的または代替的に、第４のステップ１７８８に見られるように、画像は、その幾何学的特性に基づいてフィルタリングされ得る。特に、最初のカメラの相互較正に基づいて位置が既知である所与のカメラと、主要点の位置に基づいて見かけ上の身体部分の位置との間の距離が発見され得る。カメラと見かけ上の身体部分との間の距離は、図１７Ｃを参照して説明されたように、カメラと身体部分位置との間の予想距離との整合性のために比較され得、この距離は、３Ｄモデリング投影によって発見される身体部分の位置に基づいて既知である。カメラから身体部分までの距離が許容できないほど小さい場合、これは、画像１５０４（図１７Ｂ）の場合に見られるように、別の物体が対象の身体部分を妨害していることを示していると考えられ、画像は拒否される。カメラ１１０としての深度カメラの使用は、それによって提供される深度情報に起因して、幾何学的フィルタリングステップ１８８８を容易にするのに特に有利であることが理解される。

第５のステップ１７９０に見られるように、フィルタリングステップ１７８４、１７８６、および１７８８のすべてを生き延びた画像のみが、好ましくは、個人１０６の存在および位置を示す正確に配置された主要点を含む画像であると考えられる。第２、第３、および第４のステップ１７８４、１７８６、および１７８８は、並行して実行され得るか、または連続して実行され得、第１のタイプのフィルタリングに基づいて許容可能であると考えられる画像のみが後続のフィルタリングステップに渡されることが理解される。第５のステップ１７９０において出力されたこれらの画像は、好ましくは、その後、ＡＩアルゴリズムのさらなる訓練のために元のＡＩアルゴリズムにフィードバックされる。

いくつかのシナリオでは、カメラ１１０によって画像化されるシーンは、複数の物品１０２または個人１０６を含み得ることが理解される。このような場合、ＡＩアルゴリズムによって識別される対象の物体が物品１０２である場合、対象の物品１０２の数に対応する複数のバウンディングボックスが描画され得る。代替的に、拡大された単一のバウンディングボックスが描画され得、アルゴリズムは、バウンディングボックスが複数の対象の物品を含むことを示す出力を含むことができる。

ＡＩアルゴリズムによって識別される対象の物体が買い物客１０６などの個人である場合、複数の主要点が生成され得、主要点は、それらのラベル付けに基づいて、個々の姿勢グラフにグループ化され得る。

物品が物体１０２であるかまたは人間の被写体１０６であるかにかかわらず、物品の存在および位置を識別するためのＡＩアルゴリズムが十分に訓練されると、ＡＩアルゴリズムは、図１～８を参照して本明細書で上述されたようにシステム１００内で作動し得ることが理解される。

次に図１８を参照すると、図１８は、バウンディングボックスの厳密化を示す図９Ａおよび９Ｂの実装形態の一部の簡略化された図である。

ＡＩアルゴリズムによる画像の成功した処理（この成功した処理は、本明細書で上述されるような画像改良を含み得る）に続いて、成功した処理画像は、アルゴリズムを訓練するために、アルゴリズムにフィードバックされることが好ましい。さらなる訓練の目的で画像をアルゴリズムにフィードバックする前に、精度の高いバウンディングボックスがアルゴリズムのさらなる訓練に使用されることを保証するために、バウンディングボックスを含む画像に対してバウンディングボックスの厳密化を実行することが有益であり得る。

バウンディングボックス１８０２を含む、うまく処理された画像１８００の一部分が図１８に示されている。図１８に見られるように、バウンディングボックス１８０２は、その中に、対象の物品１０２と、物品１０２を取り扱う買い物客１０６の手１８０４の一部分とを含む。バウンディングボックス１８０２の精度を改善するために、画素セグメンテーションを使用して、手１８０４に対応する画像の部分と物品１０２に対応する画像の部分とを区別してもよい。さらに、画像１８００の静止部分を除去するために、背景減算技術が適用され得る。そのような技術の結果として、バウンディングボックス１８０２は、その厳密化後の元のバウンディングボックス１８０２に基づく新しいバウンディングボックス１８２０の場合に見られるように、サイズが縮小され、より正確に位置付けられ得る。

バウンディングボックスの厳密化は、当技術分野で知られているように、画素セグメンテーションおよびバックグラウンド減算以外の追加または代替の技術によって達成され得ることが理解される。

本発明は、以下に特に特許請求されているものによって限定されないことが当業者には理解されよう。むしろ、本発明の範囲には、図面を参照して前述の説明を読むと、当業者が思いつくであろう、本明細書で上述された特徴の様々な組み合わせおよびサブ組み合わせ、ならびにそれらの修正および変形が含まれ、これらは先行技術にはないものである。

Claims

物体に関連する視覚データを処理するための方法であって、前記方法は、
少なくとも１台のカメラにシーンを視認させることと、
視覚分析を採用することであって、前記採用することは、
前記少なくとも１台のカメラからの少なくとも１つの出力が、前記シーン内の少なくとも１つの物体の存在および位置を示す情報を包含するかまたはしないかを確認することと、
前記シーン内の少なくとも１つの物体の存在および位置を示す情報を包含しない少なくとも１つの出力を、前記シーン内の少なくとも１つの物体の存在および位置を示す情報を前記出力に追加することによって強化することと、
のために行われることと、
を備える、方法。
前記少なくとも１つの物体の存在および位置を示す追加された情報は、前記シーンを視認するように配置された少なくとも２台の他のカメラからの出力に基づいて導出される、請求項１に記載の方法。
前記強化することは、
前記少なくとも２台の他のカメラからの出力内の少なくとも１つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも１つの画素位置を識別することと、
前記画素位置の各々に対して、前記少なくとも２台の他のカメラについて、前記画素位置に対応するカメラ光線を発見することと、
前記カメラ光線のうちのカメラ光線の間でマッチングを行い、前記カメラ光線の間の交差点を発見することであって、前記交差点が前記物体の位置に対応することと、
前記少なくとも１つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも１台のカメラについて、前記物体の位置に対応するカメラ光線を発見することと、
前記少なくとも１つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも１台のカメラについて、前記カメラ光線に対応する画素位置を発見することと、
前記カメラ光線に対応する画素位置において前記少なくとも１台のカメラからの出力に新しいバウンディングボックスを挿入することであって、前記新しいバウンディングボックスは、前記少なくとも１つの物体の存在および位置を示すことと、
を備える、請求項２に記載の方法。
前記カメラ光線を発見すること、および前記カメラ光線に対応する画素位置を発見することは、前記少なくとも１台のカメラおよび前記少なくとも２台の他のカメラの事前の相互較正に基づく、請求項３に記載の方法。
前記強化することに続いて、前記強化することが成功したかどうかを確認するために、前記シーン内の少なくとも１つの物体の存在および位置を示す情報をそこに追加している出力をフィルタリングすることも備える、請求項１～４のいずれか一項に記載の方法。
前記フィルタリングすることは、前記少なくとも１つの出力の視覚的または幾何学的特性に基づく、請求項５に記載の方法。
前記確認することに続いてかつ前記強化することに先立ち、
前記少なくとも１台のカメラからの少なくとも１つの出力を修正して、少なくとも１つの修正された出力を提供することと、
人工知能を採用して、前記少なくとも１つの修正された出力内の少なくとも１つの物体の存在および位置を確認することと、
も備える、請求項１～６のいずれか一項に記載の方法。
前記修正することは、前記少なくとも１つの出力を多数の相互に異なる角度で回転させ、多数の回転された出力を提供することを備え、
前記人工知能を採用して、前記少なくとも１つの修正された出力内の少なくとも１つの物体の存在および位置を確認することは、人工知能を採用して、前記多数の回転された出力内の少なくとも１つの物体の存在および位置を確認することを備える、
請求項７に記載の方法。
前記人工知能を採用して、前記少なくとも１つの修正された出力内の少なくとも１つの物体の存在および位置を確認することは、人工知能を採用して、その中で前記少なくとも１つの物体の存在および位置を示すバウンディングボックスによって前記少なくとも１つの修正された出力を注釈付けすることを備える、請求項７または請求項８に記載の方法。
前記少なくとも１つの物体は、人間以外の物品および人間の被写体のうちの少なくとも１つを備える、請求項１～９のいずれか一項に記載の方法。
物体に関連するデータを処理するためのシステムであって、前記システムは、
シーンを視認するように配置された少なくとも１台のカメラと、
画像分析器であって、
前記少なくとも１台のカメラからの少なくとも１つの出力が、前記シーン内の少なくとも１つの物体の存在および位置を示す情報を包含するかまたはしないかを確認することと、
前記シーン内の少なくとも１つの物体の存在および位置を示す情報を包含しない少なくとも１つの出力を、前記シーン内で少なくとも１つの物体の存在および位置を示す情報を前記出力に追加することによって強化することと、
を行うように作動する、画像分析器と、
を備える、システム。
前記シーンを視認するように配置された少なくとも２台の他のカメラであって、前記少なくとも１つの物体の存在および位置を示す追加された情報は、前記少なくとも２台の他のカメラからの出力に基づいて導出される、少なくとも２台の他のカメラも備える、請求項１１に記載のシステム。
前記画像分析器は、
前記少なくとも２台の他のカメラからの出力内の少なくとも１つの物体の存在および位置を示すバウンディングボックスと関連付けられた少なくとも１つの画素位置を識別することと、
前記画素位置の各々に対して、前記少なくとも２台の他のカメラについて、前記画素位置に対応するカメラ光線を発見することと、
前記カメラ光線のうちのカメラ光線の間でマッチングを行い、前記カメラ光線の間の交差点を発見することであって、前記交差点が前記物体の位置に対応することと、
前記少なくとも１つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも１台のカメラについて、前記物体の位置に対応するカメラ光線を発見することと、
前記少なくとも１つの物体の存在および位置を示す情報を包含しない出力を有する少なくとも１台のカメラについて、前記カメラ光線に対応する画素位置を発見することと、
前記カメラ光線に対応する画素位置において前記少なくとも１台のカメラからの出力内に新しいバウンディングボックスを挿入することであって、前記新しいバウンディングボックスは、前記少なくとも１つの物体の前記存在および位置を示すことと、
を行うように作動することによって、前記少なくとも１つの出力を強化するように作動する、請求項１２に記載のシステム。
前記画像分析器は、前記少なくとも１台のカメラおよび前記少なくとも２台の他のカメラの事前の相互較正に基づいて、前記カメラ光線を発見し、かつ前記カメラ光線に対応する画素位置を発見するように作動する、請求項１３に記載のシステム。
前記画像分析器は、前記情報が成功裏に追加されたかどうかを確認するために、前記シーン内の少なくとも１つの物体の存在および位置を示す情報をそこに追加している出力をフィルタリングするように追加的に作動する、請求項１１～１４のいずれか一項に記載のシステム。
前記画像分析器は、前記少なくとも１つの出力の視覚的または幾何学的特性に基づいて前記出力をフィルタリングするように作動する、請求項１５に記載のシステム。
前記少なくとも１つの出力を強化するように作動することに先立ち、前記画像分析器は、
前記少なくとも１台のカメラからの少なくとも１つの出力を修正して、少なくとも１つの修正された出力を提供することと、
人工知能を採用して、前記少なくとも１つの修正された出力内の少なくとも１つの物体の存在および位置を確認することと、
を追加的に行うように作動する、請求項１１～１６のいずれか一項に記載のシステム。
前記画像分析器が前記少なくとも１つの出力を修正するように作動することは、多数の回転された出力を提供するための、前記少なくとも１つの出力の多数の相互に異なる角度での回転を備え、
前記画像分析器が前記人工知能を採用して、前記少なくとも１つの修正された出力内の少なくとも１つの物体の存在および位置を確認することは、前記多数の回転された出力内の少なくとも１つの物体の存在および位置を確認するための人工知能の採用を備える、
請求項１７に記載のシステム。
前記少なくとも１つの修正された出力内の少なくとも１つの物体の存在および位置を確認するため前記人工知能の採用は、その中で前記少なくとも１つの物体の存在および位置を示すバウンディングボックスによって前記少なくとも１つの修正された出力を注釈付けするための人工知能の採用を備える、請求項１７または請求項１８に記載のシステム。
前記少なくとも１つの物体は、人間以外の物品および人間の被写体のうちの少なくとも１つを備える、請求項１１～１９のいずれか一項に記載のシステム。