CN115063482A

CN115063482A - 物品识别及追踪方法与系统

Info

Publication number: CN115063482A
Application number: CN202210640667.2A
Authority: CN
Inventors: 丹尼尔·加贝; 尤瓦尔·斯纳皮尔; 谢克德·多列夫; 希万·克里特; 尼尔·本兹维; 丽塔·帕维曼卡沙尼
Original assignee: Qigou Vision Co ltd
Current assignee: Qigou Vision Co ltd
Priority date: 2019-11-21
Filing date: 2020-11-19
Publication date: 2022-09-16
Also published as: EP4046132A2; CN114667540A; EP4046132A4; EP4071712A1; AU2024200256A1; US20220335726A1; AU2022202588A1; AU2020386867B2; WO2021100043A2; AU2020386867A1; JP2023015989A; JP2023502972A; US20220366578A1; WO2021100043A3; AU2022202588B2

Abstract

一种物品识别及追踪方法与系统，所述方法用于处理与一物体相关的视觉数据，包括使至少一摄像机观察一场景，以及采用人工智能视觉分析以确定来自所述至少一摄像机的至少一输出是否包含指示在所述场景中的至少一物体的存在及位置的信息，以及增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

Description

物品识别及追踪方法与系统

本申请为申请号202080078143.8(PCT申请号为PCT/IL2020/051198)、申请日2020年11月19日、发明名称“物品识别及追踪系统”的分案申请。

相关申请案

特此提及2019年11月21日提交的题名为“物品识别及追踪系统”的美国临时专利申请案第62/938,681号，以及2019年11月21日提交的题名为“用于图像处理的图像转换”的美国临时专利申请案第62/938,563号，其中的披露内容特此纳入参考，特此根据37 CFR1.78(a)(4)及(5)(i)的规定要求其优先权。

技术领域

本发明一般地涉及数据分析，且更具体地涉及用于为物品识别及追踪的目的分析数据的多个系统及多个方法。

背景技术

各种各样的物品识别及追踪的多个系统及多个方法在本领域是已知的。

发明内容

本发明旨在为自动化的、有成本效益的及有时间效率的物品识别及追踪等目的提供与数据的分析有关的改良的多个系统及多个方法。

因此，根据本发明的一优选实施例，提供一种方法，用于获得与一物体相关的数据，包括：安排大量摄像机以观察一场景，所述场景内的至少一参考物体通过所述大量摄像机中的至少多个摄像机是可观察的，所述多个摄像机中的每一个所述摄像机获得所述参考物体的至少一图像，从而所述参考物体是可观察的，寻找照明所述多个摄像机中的每一个所述摄像机的多个光线的交会的一点以及相关联所述参考物体出现在每一个所述至少一图像内的一像素位置至照明所述多个摄像机中的每一个所述摄像机且与交会的所述区域交会的所述多个光线，不管所述参考物体在所述场景内的一三维位置。

优选地，所述相关联的步骤包括得出照明所述多个摄像机中的每一个所述摄像机的所述多个光线的多个射线参数，并对应于所述像素位置，其中于所述像素位置所述参考物体出现于每一个所述至少一图像内。

优选地，所述方法还包括：在所述相关联的步骤之后，确定具有得出的所述多个射线参数的所述多个光线是否与交会的所述点交会并大于或等于一预定精度。

优选地，所述寻找的步骤及所述相关联的步骤是相对于彼此迭代地进行的，直到确定具有得出的所述多个射线参数的所述多个光线与交会的所述点交会并大于或等于所述预定精度。

优选地，交会的所述点是交会的一概率性区域。

根据本发明的另一优选实施例，还提供一种系统，用于获得与一物体相关的数据，包括：大量摄像机，安排成观察一场景，所述场景内的至少一参考物体通过所述大量摄像机中的至少多个摄像机是可观察的，所述多个摄像机中的每一个所述摄像机是可操作用以获得所述参考物体的至少一图像，从而所述参考物体是可观察的，一图像处理子系统，可操作用以接收通过所述多个摄像机中的每一个所述摄像机获得的所述至少一图像及寻找照明所述多个摄像机中的每一个所述摄像机的多个光线的交会的一点，以及一像素至射线校准子系统，可操作用以相关联所述参考物体出现在每一个所述至少一图像内的一像素位置至照明所述多个摄像机中的每一个所述摄像机且与交会的所述点交会的所述多个光线，不管所述参考物体在所述场景内的一三维位置。

优选地，所述像素至射线校准子系统可操作用以得出照明所述多个摄像机中的每一个所述摄像机的所述多个光线的多个射线参数，并对应于所述像素位置，其中于所述像素位置所述参考物体出现于每一个所述至少一图像内。

优选地，所述系统还可操作用以确定具有得出的所述多个射线参数的所述多个光线是否与交会的所述点交会并大于或等于一预定精度。

优选地，所述图像处理子系统及所述像素至射线校准子系统相对于彼此是迭代地可操作的，直到确定具有得出的所述多个射线参数的所述多个光线与交会的所述点交会并大于或等于所述预定精度。

优选地，交会的所述点是交会的一概率性区域。

根据本发明的另一优选实施例，还提供一种方法，用于获得与一物体相关的数据，包括：通过大量摄像机，至少部分地且同时地获得包含多个物体的一场景的多个图像，寻找出现在所述多个图像中的至少某些所述图像内的一位置的所述多个物体中的至少一物体的一身份，选择所述多个图像中显示一共同物体的一些图像，并拒绝所述多个图像中不显示所述共同物体的其他图像，所述选择及所述拒绝是基于所述大量摄像机的事先交互校准，输出在所述位置显示所述共同物体的一选定图像组，以及基于考虑到所述身份及所述至少一物体的位置中的至少一者，寻找显示在所述选定图像组中的所述共同物体的一身份。

优选地，所述选择及所述拒绝被执行，不管所述多个图像中的所述至少一物体的所述身份。

优选地，所述方法还包括在所述寻找出现在所述多个图像的至少某些所述图像内的所述位置的所述多个物体中的所述至少一物体的所述身份的步骤之后，并在所述选择的步骤之前，执行图像过滤，所述图像过滤包括基于以下的至少一者过滤出所述多个图像中的一些所述图像：

所述多个图像的所述一些图像中的所述至少一物体的所述身份不属于多个物体身份的一群组，其中所述至少一物体的所述身份不属于所述群组的所述多个图像的所述一些图像不包括在参与所述选择的步骤的所述多个图像中，以及

所述至少一物体的所述身份被识别的一信任低于一预定置信度，其中所述至少一物体的所述身份被识别的所述信任低于所述预定置信度的所述多个图像中的所述一些图像不包括在参与所述选择的步骤的所述多个图像中。

优选地，所述群组包括多个相似物体身份的一预定群组。

可替换地，所述群组是基于历史上地学到的多个相似物体身份的多个类别。

优选地，所述寻找出现在所述多个图像的至少某些所述图像内的所述位置的所述多个物体中的所述至少一物体的所述身份的步骤包括：采用人工智能(AI)，以寻找所述至少一物体的所述身份，人工智能的所述采用包括：一初始训练阶段，用于训练一人工智能网络，以通过向所述人工智能网络提供大量训练图像来识别多个图像中的多个物体，在所述大量训练图像中的每一个所述训练图像中出现的至少一物体被识别至所述人工智能网络，以及一随后操作阶段，在所述随后操作阶段期间，所述人工智能网络是可操作用以基于先前的所述训练执行所述寻找至少一物体的一身份的步骤。

优选地，出现在所述大量训练图像中的每一个训练图像中并被识别至所述人工智能网络的所述至少一物体是基于采用计算机视觉来识别的。

优选地，在所述通过大量摄像机至少部分地且同时地获得包含多个物体的一场景的多个图像的步骤之前，所述大量摄像机的所述事先交互校准包括：安排所述大量摄像机观察所述场景，所述场景内的至少一参考物体通过所述大量摄像机中的至少多个摄像机是可观察的，所述多个摄像机中的每一个所述摄像机获得所述参考物体的至少一图像，从而所述参考物体是可观察的，寻找照明所述多个摄像机中的每一个所述摄像机的多个光线的交会的一点，相关联所述参考物体出现在每一个所述至少一图像内的一像素位置至照明所述多个摄像机中的每一个所述摄像机且与交会的所述区域交会的所述多个光线，不管所述参考物体在所述场景内的一三维位置，从而为所述大量摄像机的所述多个摄像机建立像素至射线校准，以及在所述场景内反复地重新定位所述至少一参考物体，并为所述大量摄像机中的所述多个摄像机建立所述像素至射线校准，所述参考物体通过所述大量摄像机的所述多个摄像机在其每一个定位是可观察的，直到已经为所述大量摄像机的全部建立所述像素至射线校准。

优选地，通过所述大量摄像机获得的包含多个物体的所述场景的所述多个图像具有一第一分辨率，所述方法还包括：在所述寻找所述多个物体中的所述至少一物体的所述身份的步骤之前，转换所述多个图像的所述第一分辨率为低于所述第一分辨率的一第二分辨率，所述选择所述多个图像中显示所述共同物体的所述一些图像并拒绝所述多个图像中不显示所述共同物体的所述其他图像的步骤及所述输出在所述位置显示所述共同物体的所述选定图像组的步骤，是在具有所述第二分辨率的所述多个图像上执行，检索具有所述第一分辨率且对应至具有所述第二分辨率的所述选定图像组中的多个图像的所述多个图像中的一些图像，在对应至在具有所述第二分辨率的所述选定图像组中寻找到的所述共同物体的所述位置的一区域中裁剪具有所述第一分辨率的检索到的所述一些图像，以及寻找出现在裁剪之后具有所述第一分辨率的所述多个图像的所述区域中的所述共同物体的一身份。

优选地，出现在具有所述第一分辨率的所述多个图像的所述区域中的所述共同物体的所述身份被寻找到，不管在具有所述第二分辨率的所述多个图像中被寻找到的所述共同物体的所述身份。

根据本发明的另一优选实施例，还额外地提供一种系统，用于获得与一物体相关的数据，包括：大量摄像机，可操作用以至少部分地且同时地获得包含多个物体的一场景的多个图像，一图像分析模块，可操作用以在所述多个图像中的至少某些图像内的一位置上寻找所述多个物体中的至少一物体的一身份，一图像选择模块，可操作用以基于所述大量摄像机的事先交互校准选择所述多个图像中显示一共同物体的一些图像，拒绝所述多个图像中不显示所述共同物体的其他图像，以及输出在所述位置显示所述共同物体的一选定图像组，以及一图像分类模块，可操作用以基于考虑到所述身份及所述至少一物体的位置中的至少一者，寻找在所述选定图像组中显示的所述共同物体的一身份。

优选地，所述图像选择模块可操作用以选择所述多个图像中的所述一些图像并拒绝所述其他图像，不管所述多个图像中的所述至少一物体的所述身份。

优选地，所述系统还包括在所述图像分析模块的下游及所述图像选择模块的上游的一图像过滤模块，所述图像过滤模块可操作用以基于以下至少一者过滤掉所述多个图像中的部分图像：

所述多个图像中的所述部分图像中的所述至少一物体的所述身份不属于多个物体身份的一群组，所述至少一物体的所述身份不属于所述群组的所述多个图像中的所述部分图像不被传递至所述图像选择模块；以及

以低于一预定置信度的一信任识别所述至少一物体的所述身份，所述至少一物体的所述身份被以低于所述预定置信度的所述信任识别的所述多个图像中的所述部分图像不被传递至所述图像选择模块。

优选地，所述群组包括多个相似物体身份的一预定群组。

优选地，所述图像分析模块可操作用以采用人工智能(AI)，以寻找所述至少一物体的所述身份，人工智能的所述采用包括：一初始训练阶段，用于训练一人工智能网络，以通过向所述人工智能网络提供大量训练图像来识别多个图像中的多个物体，在所述大量训练图像中的每一个所述训练图像中出现的至少一物体被识别至所述人工智能网络，以及一随后操作阶段，在所述随后操作阶段期间，所述人工智能网络是可操作用以基于先前的所述训练执行所述寻找至少一物体的一身份的步骤。

优选地，所述大量摄像机的所述事先交互校准包括：大量摄像机，安排成观察一场景，所述场景内的至少一参考物体通过所述大量摄像机中的至少多个摄像机是可观察的，所述多个摄像机中的每一个所述摄像机是可操作用以获得所述参考物体的至少一图像，从而所述参考物体是可观察的，一图像处理子系统，可操作用以接收通过所述多个摄像机中的每一个所述摄像机获得的所述至少一图像及寻找照明所述多个摄像机中的每一个所述摄像机的多个光线的交会的一点，一像素至射线校准子系统，可操作用以相关联所述参考物体出现在每一个所述至少一图像内的一像素位置至照明所述多个摄像机中的每一个所述摄像机且与交会的所述点交会的所述多个光线，不管所述参考物体在所述场景内的一三维位置，从而为所述大量摄像机的所述多个摄像机建立像素至射线校准，以及所述至少一参考物体，在所述场景内反复地重新定位，且所述像素至射线校准子系统可操作用以为所述大量摄像机中的所述多个摄像机建立像素至射线校准，所述参考物体通过所述大量摄像机的所述多个摄像机在其每一个定位是可观察的，直到已经为所述大量摄像机的全部建立所述像素至射线校准。

优选地，由所述大量摄像机获得的包含多个物体的所述场景的所述多个图像具有一第一分辨率，所述系统还包括：一图像转换器，在所述图像分析模块的上游，且可操作用以转换所述多个图像的所述第一分辨率为低于所述第一分辨率的一第二分辨率，所述图像分析模块及所述图像选择模块在具有所述第二分辨率的所述多个图像上为可操作的，所述图像分类模块额外地可操作用以：检索具有所述第一分辨率且对应至具有所述第二分辨率的所述选定图像组中的多个图像的所述多个图像中的一些图像，在对应至在具有所述第二分辨率的所述选定图像组中寻找到的所述共同物体的所述位置的一区域中裁剪具有所述第一分辨率的检索到的所述一些图像，以及寻找出现在裁剪之后具有所述第一分辨率的所述多个图像的所述区域中的所述共同物体的一身份。

优选地，所述图像分类模块可操作地用以寻找出现在具有所述第一分辨率的所述多个图像的所述区域中的所述共同物体的所述身份，不管在具有所述第二分辨率的所述多个图像中被寻找到的所述共同物体的所述身份。

根据本发明的另一优选实施例，额外地提供一种方法，用于处理与一物体相关的数据，包括：将多个图像的至少一特性从一第一特性转换为一第二特性，自动地寻找出现在具有所述第二特性的所述多个图像中的至少某些图像的至少一物体的至少一特征，以及基于所述至少一特征修改具有所述第一特性的所述多个图像。

优选地，所述至少一特性包括图像分辨率，所述第一特性包括一第一图像分辨率，且所述第二特性包括低于所述第一图像分辨率的一第二图像分辨率。

优选地，所述至少一特征包括所述至少一物体的一位置。

优选地，所述修改包括基于在具有所述第二分辨率的所述多个图像中寻找到的所述至少一物体的所述位置，在对应至所述至少一物体的所述位置的一区域中裁剪具有所述第一分辨率的所述多个图像。

根据本发明的又另一优选实施例，还提供一种系统，用于处理与一物体相关的数据，包括：一图像转换器，可操作用以将多个图像的至少一特性从一第一特性转换为一第二特性，一图像分析器，可操作用以自动地寻找出现在具有所述第二特性的所述多个图像中的至少某些图像的至少一物体的至少一特征，以及一图像修改器，可操作用以基于所述至少一特征修改具有所述第一特性的所述多个图像。

优选地，所述至少一特征包括所述至少一物体的一位置。

优选地，所述图像修改器可操作用以基于在具有所述第二分辨率的所述多个图像中寻找到的所述至少一物体的所述位置，在对应至所述至少一物体的所述位置的一区域中裁剪具有所述第一分辨率的所述多个图像。

根据本发明的又一进一步优选实施例，又进一步提供一种方法，用于处理与一物体相关的数据，包括：创建在一场景中的至少一物体随时间变化的一多维模型，追踪所述至少一物体的所述多维模型随时间变化的多个改变，识别满足至少一预定标准的所述多个改变中的一个或多个，以及分析与满足所述至少一预定标准的所述多个改变相关的数据，以得出与所述物体相关的信息。

根据本发明的一更进一步优选实施例，更进一步提供一种系统，用于处理与一物体相关的数据，包括：一模型创建器，可操作用以创建在一场景中的至少一物体随时间变化的一多维模型，一模型追踪器，可操作用以追踪所述至少一物体的所述多维模型随时间变化的多个改变及识别满足至少一预定标准的所述多个改变中的一个或多个，以及一数据分析器，可操作用以分析与满足所述至少一预定标准的所述多个改变相关的数据，以得出与所述物体相关的信息。

根据本发明的另一优选实施例，额外地提供一种方法，用于处理与一物体相关的视觉数据，包括：使至少一摄像机观察一场景，以及采用人工智能以：确定来自所述至少一摄像机的至少一输出是否包含指示在所述场景中的至少一物体的存在及位置的信息，以及增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

优选地，指示所述至少一物体的所述存在及位置的添加的所述信息是基于来自被安排成观察所述场景的至少两个其他摄像机的多个输出得出的。

优选地，所述增强包括：识别与指示所述至少一物体在来自所述至少两个其他摄像机的所述多个输出中的所述存在及位置的一边界框关联的至少一像素位置，对于每一个所述像素位置，为所述至少两个其他摄像机寻找与其相对应的一摄像机射线，执行所述多个摄像机射线中的一些摄像机射线之间的匹配，以寻找它们之间交会的一点，交会的所述点对应至所述物品位置，为具有一输出的所述至少一摄像机寻找对应至所述物品位置的一摄像机射线，所述输出不包含指示所述至少一物体的所述存在及位置的信息，为具有一输出的所述至少一摄像机寻找对应至所述摄像机射线的一像素位置，所述输出不包含指示所述至少一物体的所述存在及位置的信息，以及在对应至所述摄像机射线的所述像素位置，插入一新边界框至来自所述至少一摄像机的所述输出中，所述新边界框指示所述至少一物体的所述存在及位置。

优选地，所述寻找所述摄像机射线及所述寻找对应至所述摄像机射线的一像素位置是基于所述至少一摄像机及所述至少两个其他摄像机的事先交互校准。

优选地，所述至少一物体包括一非人类物品或一人类主体中的至少一者。

根据本发明的又一优选实施例，又额外地提供一种系统，用于处理与一物体相关的数据，包括：被安排成观察一场景的至少一摄像机，以及一图像分析器，采用人工智能，且可操作用以：确定来自所述至少一摄像机的至少一输出是否包含指示在所述场景中的至少一物体的存在及位置的信息，以及增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

优选地，所述系统还包括被安排成观察所述场景的至少两个其他摄像机，指示所述至少一物体的所述存在及位置的添加的所述信息是基于来自所述至少两个其他摄像机的所述多个输出得出的。

优选地，所述图像分析器可操作用以增强所述至少一输出，通过可操作用以：识别与指示所述至少一物体在来自所述至少两个其他摄像机的所述多个输出中的所述存在及位置的一边界框关联的至少一像素位置，对于每一个所述像素位置，为所述至少两个其他摄像机寻找与其相对应的一摄像机射线，执行所述多个摄像机射线中的一些摄像机射线之间的匹配，以寻找它们之间交会的一点，交会的所述点对应至所述物品位置，为具有一输出的所述至少一摄像机寻找对应至所述物品位置的一摄像机射线，所述输出不包含指示所述至少一物体的所述存在及位置的信息，为具有一输出的所述至少一摄像机寻找对应至所述摄像机射线的一像素位置，所述输出不包含指示所述至少一物体的所述存在及位置的信息，以及在对应至所述摄像机射线的所述像素位置，插入一新边界框至来自所述至少一摄像机的所述输出中，所述新边界框指示所述至少一物体的所述存在及位置。

优选地，所述图像分析器可操作用以寻找所述摄像机射线，以及基于所述至少一摄像机及所述至少两个其他摄像机的事先交互校准，寻找对应至所述摄像机射线的所述像素位置。

根据本发明的另一优选实施例，还提供一种方法，用于获得与一物体相关的数据，包括：安排大量摄像机以观察一场景，所述场景内的至少一参考物体通过所述大量摄像机中的至少多个摄像机是可观察的，所述多个摄像机中的每一个所述摄像机获得所述参考物体的至少一图像，从而所述参考物体是可观察的，寻找照明所述多个摄像机中的每一个所述摄像机的多个光线的交会的一点，以及相关联所述参考物体出现在每一个所述至少一图像内的一像素位置至照明所述多个摄像机中的每一个所述摄像机且与交会的所述区域交会的所述多个光线，不管所述参考物体在所述场景内的一三维位置，所述方法还包括，在所述相关联步骤之后，以下至少一者：

通过所述大量摄像机至少部分地且同时地获得包含多个物体的所述场景的多个图像，寻找出现在所述多个图像中的至少某些所述图像内的一位置的所述多个物体中的至少一物体的一身份，选择所述多个图像中显示一共同物体的一些图像，并拒绝所述多个图像中不显示所述共同物体的其他图像，所述选择及所述拒绝是基于所述大量摄像机的事先交互校准，输出在所述位置显示所述共同物体的一选定图像组，以及基于考虑到所述身份及所述至少一物体的位置中的至少一者，寻找显示在所述选定图像组中的所述共同物体的一身份；以及

将所述多个图像的至少一特性从一第一特性转换为一第二特性，自动地寻找出现在具有所述第二特性的所述多个图像中的至少某些图像的至少一物体的至少一特征，以及基于所述至少一特征修改具有所述第一特性的所述多个图像；以及

创建在所述场景中的所述至少一物体随时间变化的一多维模型，追踪所述至少一物体的所述多维模型随时间变化的多个改变，识别满足至少一预定标准的所述多个改变中的一个或多个，以及分析与满足所述至少一预定标准的所述多个改变相关的数据，以得出与所述物体相关的信息；以及

采用人工智能以确定来自所述大量摄像机的至少一摄像机的至少一输出是否包含指示在所述场景中的所述至少一物体的存在及位置的信息，以及增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

根据本发明的另一优选实施例，还提供一种方法，用于获得与一物体相关的数据，包括：通过大量摄像机，至少部分地且同时地获得包含多个物体的一场景的多个图像，寻找出现在所述多个图像中的至少某些所述图像内的一位置的所述多个物体中的至少一物体的一身份，选择所述多个图像中显示一共同物体的一些图像，并拒绝所述多个图像中不显示所述共同物体的其他图像，所述选择及所述拒绝是基于所述大量摄像机的事先交互校准，输出在所述位置显示所述共同物体的一选定图像组，以及基于考虑到所述身份及所述至少一物体的位置中的至少一者，寻找显示在所述选定图像组中的所述共同物体的一身份，所述方法还包括以下至少一者：

根据本发明的又一优选实施例，又进一步提供一种方法，用于获得与一物体相关的数据，包括：将多个图像的至少一特性从一第一特性转换为一第二特性，自动地寻找出现在具有所述第二特性的所述多个图像中的至少某些图像的至少一物体的至少一特征，以及基于所述至少一特征修改具有所述第一特性的所述多个图像，所述方法还包括以下至少一者：

采用人工智能以确定来自观察所述场景的所述大量摄像机的至少一摄像机的至少一输出是否包含指示在所述场景中的所述至少一物体的存在及位置的信息，以及增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

根据本发明的一进一步优选实施例，又进一步提供一种方法，用于获得与一物体相关的数据，包括：创建在一场景中的所述至少一物体随时间变化的一多维模型，追踪所述至少一物体的所述多维模型随时间变化的多个改变，识别满足至少一预定标准的所述多个改变中的一个或多个，以及分析与满足所述至少一预定标准的所述多个改变相关的数据，以得出与所述物体相关的信息，所述方法还包括：采用人工智能以确定来自观察所述场景的所述大量摄像机的至少一摄像机的至少一输出是否包含指示在所述场景中的所述至少一物体的存在及位置的信息，以及增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

根据本发明的一优选实施例，还提供一种非暂时性计算机可读介质，用于处理与一物体相关的数据，其上存储有多个指令，所述多个指令在被计算机执行时导致所述计算机执行上述多个方法中的所述多个步骤中的至少某些步骤。

附图说明

基于以下结合附图的详细说明，将更充分地理解及认识本发明，其中：

图1是根据本发明的一优选实施例构建且是可操作的用于物品识别及追踪的一系统的一简化的部分地图片的、部分地说明方块图。

图2A是形成部分的图1所示的所述类型的一物品识别及追踪系统的一校准子系统的多个部件的一简化的示意图。

图2B是说明图2A所示的所述类型的一校准子系统的所述操作的多个步骤的一简化的流程图。

图3是具有图像分析及分类功能的形成部分的图1所示的所述类型的一物品识别及追踪系统的多个系统部件的一简化的说明方块图。

图4是说明由图3所示的所述多个类型的图像分析及分类部件进行的机器学习的一简化的说明方块图。

图5是说明用于优化图1所示的所述类型的一物品识别及追踪系统中所采用的多个摄像机的排列的评分的一简化的图。

图6是在图1所示的所述类型的一物品识别及追踪系统中有用的用于多个物品追踪的一模型的一简化的示意图。

图7及图8是说明基于图6所示的所述类型的一模型的多个物品的追踪的多个步骤的简化的各自流程图。

图9A及图9B是说明本发明的所述系统的一实施例的简化的透视图及侧视图。

图10A及图10B、图11A及图11B以及图12A及图12B是显示根据本发明的一优选实施例由一人工智能(AI)算法注释的在包括一人类主体及多个相应图像的一环境下的多个摄像机的多个视线的图9A及图9B的实施例的部分的多个简化的图。

图13A是显示根据本发明的一优选实施例通过图像修改来改善多个AI故障案例的图9A及图9B的实施例的部分的一简化的图。

图13B是说明根据图13A的实施例执行的多个人工智能故障案例的所述改善的多个步骤的一简化的流程图。

图14A及图14B是显示根据本发明的一优选实施例通过3D建模改善多个人工智能故障案例的图9A及图9B的实施例的部分的多个简化的图。

图14C是说明根据图14B的实施例执行的改善多个人工智能故障案例的一阶段中涉及的多个步骤的一简化的流程图。

图14D是说明根据图14B的实施例执行的改善多个人工智能故障案例的一阶段中涉及的多个步骤的一简化的流程图。

图15A及图15B是显示根据本发明的另一优选实施例由一人工智能(AI)算法注释的在包括一人类主体及多个相应图像的环境下的多个摄像机的多个视线的图9A及图9B的实施例的部分的多个简化的图。

图16A是显示根据本发明的又另一优选实施例通过图像修改来改善多个人工智能故障案例的图9A及图9B的实施例的部分的一简化的图。

图16B是说明根据图16A的实施例执行的多个人工智能故障案例的所述改善的多个步骤的一简化的流程图。

图17A及17B是显示根据本发明的又一优选实施例通过3D建模改善多个人工智能故障案例的图9A及图9B的实施例的部分的多个简化的图。

图17C是说明根据图17B的实施例执行的改善多个人工智能故障案例的一阶段中涉及的多个步骤的一简化的流程图。

图17D是说明根据图17B的实施例执行的改善多个人工智能故障案例的一阶段中涉及的多个步骤的一简化的流程图。

图18是显示边界框收紧的图9A及9B的实施方案的部分的一简化的图。

具体实施方式

现在参考图1，图1是根据本发明的一优选实施例构建且是可操作的用于物品识别及追踪的一系统的一简化的部分地图片的、部分地说明方块图。

如图1所示，提供一种用于识别及追踪多个物品102的系统100。多个物品102可以位于一场所104内，在此仅以举例的方式体现为位于一购物设施104内并由多个购物者106处理的多个消费物品102。然而，可以理解的是，系统100可用于识别及追踪任何类型的单件或多件物品，这些物品可在任何合适的设施内被手动地或自动地处理，包括但不限于多个仓库、多个机场、多个制造设施及多个餐馆。

系统100优选地包括大量摄像机110，大量摄像机110被安排用于观察一场景，例如场所104，并获得与其中的至少一物体相关的视觉数据，例如多个物品102及/或多个购物者106中的至少一者。大量摄像机110优选地(尽管不一定)安装在场所104内的多个固定表面上，例如场所104的一天花板112或多个货架114上，并且优选地相互在空间上分布，以便从相对于它的各种角度观察场所104。

摄像机110优选地可操作用以获得场所104的多个图像，包括位于其中的多个物品102及/或多个购物者106。摄像机110可以连续地操作，以便至少以接近实时的方式连续地获得场所104的多个图像，或者可以取决于系统100的所述多个成像要求，以相互协调的频闪方式操作。举例来说，摄像机110可操作用以获得每一个摄像机在每一单位时间内的多个图像，如25个图像帧/摄像机/秒。在本发明的某些实施例中，摄像机110可以是2D摄像机。可替换地，在本发明的一特别地优选实施例中，摄像机110可以是三维深度摄像机，输出多个深度图像。

由摄像机110获得的至少某些图像可以提供给一本地服务器120及/或一基于云的服务器122，用于由一物品识别器及追踪器130处理。多个图像可以完全地在服务器120上进行本地处理，部分在服务器120上处理，部分在基于云的服务器122上处理，或者完全转移到基于云的服务器122上进行处理。提供给本地服务器120及/或基于云的服务器122的至少某些图像可以基于预定的标准本地地或远程地存储。

物品识别器及追踪器130的功能可由一处理器执行，例如由本地服务器120及/或基于云的服务器122的一处理器执行。根据本发明的多个实施例，存储在一计算机可读介质(例如，寄存器存储器、处理器缓存、RAM、ROM、硬盘、闪存、CD ROM、磁性介质等)中的一计算机程序应用可包括代码或多个可执行指令，当执行时可指示或导致一控制器或多个处理器执行本文讨论的一个或多个功能及方法，例如用于一自动物品识别及追踪的方法。所述计算机可读介质可以是非临时性计算机可读介质，包括所有形式及类型的计算机可读介质。

物品识别器及追踪器130可以包括一摄像机间校准模块132，用于校准大量摄像机110。校准模块132优选地可操作用以校准大量摄像机110彼此之间的关系。在本发明的一特别地优选实施例中，校准模块132优选地可操作用以反复校准大量摄像机110彼此之间的关系，独立于且不管摄像机110被校准的一基准物体的一三维位置。校准模块132优选地可操作用以在使用物品识别器及追踪器130的其他图像处理功能之前校准摄像机110，以建立摄像机110的高精度的像素至射线校准，基于所述像素至射线校准可执行物品识别器及追踪器130的后续图像处理功能。关于校准模块132的优选操作的多个进一步细节将在下文中提供，并参考图2A及图2B。

物品识别器及追踪器130可进一步包括一图像分析模块134，优选地采用人工智能来分析由经过校准的摄像机110获得的场所104的多个图像。由摄像机110获得的所有或某些图像可以提供给追踪器130。

图像分析模块134优选地可操作用以检测多个物品102及/或购物者106中的至少一者的存在及位置，以及提供对出现在由摄像机110获得的至少某些图像中的多个物品102中的至少一个物品的一初步识别。

可以理解的是，出现在由摄像机110同时地获得的所述多个图像中的各种图像中的物品可以被图像分析模块134在所述多个图像中的不同图像中不同地识别，使得图像分析模块134输出大量的图像，其中各种物品被识别。关于图像分析模块134的操作的多个进一步细节将在下文中提供，并参考图3。

物品识别器及追踪器130可以额外地包括一图像选择模块136，用于选择其中多个物品已被图像分析模块134识别的所述多个图像中的部分图像并拒绝其他图像。图像选择模块136优选地可操作用以执行所述多个图像的选择，优选地基于考虑到摄像机110的相互校准，如由校准模块132进行的。更具体地，图像选择模块136可以基于多个几何考虑选择多个图像，包括从图像分析模块134识别的所述多个物体发出的多个射线及照明摄像机110的多个几何交会及/或在摄像机110获得的多个深度图像中识别的空间中的多个点的几何交会，以识别占据一相应位置的多个物品，从而对应至一共同物品。因此，图像选择模块136有效地作用为一过滤器，基于寻找其交会的共同点来选择由图像分析模块134提供的所述多个图像中的选定图像。关于图像选择模块136的操作的多个进一步细节将在下文中提供，并参考图3。

物品识别器及追踪器130可进一步包括一物体分类模块138，用于融合由图像选择模块136选择的所述多个图像中的多个物品的所述各种可能不同的身份，以得出位于场所104内的一共同位置的一共同物品的一单一身份。物体分类模块138可以采用人工智能，以权衡出现在不同图像中的多个物品的所述各种不同身份，如图像分析模块134所识别的，并得出一单一最终物品分类。物体分类模块138可以如由此识别的额外地或可替换地重新执行物品识别，并融合出现在不同图像中的多个物品的所述各种不同身份。所述单一得出的分类被认为是在一给定位置的一给定物品的所述身份，如物品识别器及追踪器130寻找到的。关于物体分类模块138的优选操作的多个进一步细节将在下文中提供，并参考图4。

物品识别器及追踪器130可进一步包括一事件追踪模块140，用于追踪与购物者106及/或多个物品102中的部分物品关联的多个感兴趣事件。根据本发明的一优选实施例，事件追踪模块140可以体现为一购物列表创建模块，用于自动地追踪与由购物者106处理的多个物品102关联的多个事件。购物列表创建模块140可以创建及维护一清单，所述清单可以是与一特定购物者106关联的一购物列表，基于至少一物品102的所述身份及位置，如物体分类模块138寻找到的。寻找到的与购物者106关联的多个物品可被认为属于购物者106的所述购物列表，从而便于购物者106对所述购物列表上的多个物品进行自动盘点及付款，例如在离开场所104之前。额外地或可替换地，事件追踪模块140可以追踪与购物者106及/或物品102在场所104内的通过关联的多个感兴趣事件，以达到分析的所述目的。关于事件追踪模块140的优选操作的多个进一步细节将在下文中提供，并参考图6至图8。

可以理解的是，描述为分布在校准模块132、图像分析模块134、图像选择模块136、物体分类模块138及事件追踪模块140之间的我数各种功能是为了清楚解释而细分的，并且所述各种功能可以可替换地由一单一操作模块组合执行，或者不同地分布在物品识别器及追踪器130的各种子模块之间，而不脱离本发明的范围。

进一步理解的是，在本发明的某些实施例中，包括在物品识别器及追踪器130中的某些或所有模块(132至140)的多个功能可以作为独立的模块独立提供，或仅与某些相互结合或与这里未描述的其他多个部件结合。例如，由校准模块132提供并在下文中更详细地描述的所述摄像机校准功能不限于在物品识别器及追踪器130中使用，也不限于与描述为包括在其中的所有其他模块相结合。相反地，由校准模块132提供的摄像机校准功能对各种摄像机系统中的摄像机校准有用，并可在其中应用，而不一定伴随着系统100的所有或任何其他元素。

相似地，由图像分析模块134提供并在下文中更详细地描述的所述图像分析功能不限于在物品识别器及追踪器130内使用以及与描述为包括在其中的所有其他模块相结合。相反地，由图像分析模块132提供的图像分析功能可能对各种成像系统中的图像分析有用，并可在其中应用，而不一定伴随着系统100的所有或任何其他元素。

相似地，由图像选择模块136提供并在下文中更详细地描述的所述图像选择功能并不限于在物品识别器及追踪器130内使用以及与描述为包括在其中的所有其他模块相结合。相反地，由图像选择模块136提供的图像选择功能可能对各种类型的成像系统中的图像选择有用，并可在其中应用，而不一定伴随着系统100的所有或任何其他元素。

相似地，由分类模块138提供并在下文中更详细地描述的所述分类功能并不限于在物品识别器及追踪器130内使用以及与描述为包括在其中的所有其他模块相结合。相反地，由分类模块138提供的图像分类功能可能在各种类型的成像系统的环境下对各种类型的图像分类有用，并可在其中应用，而不一定伴随着系统100的所有或任何其他元素。

相似地，由事件追踪模块140提供并在下文中更详细地描述的所述事件追踪功能并不限于在物品识别器及追踪器130内使用以及与描述为包括在其中的所有其他模块相结合。相反地，由事件追踪模块140提供的事件追踪功能可能对各种成像以及非成像系统中的事件追踪有用，并可在其中应用，而不一定伴随着系统100的所有或任何其他元素。

现在参考图2A，其是一校准子系统的多个部件的一简化示意图，所述校准子系统可形成图1所示的所述类型的一物品识别及追踪系统的一部分；并参考图2B，其是说明其所述操作的多个步骤的一简化流程图。

现在参考图2A，形成物品识别及追踪系统100的一部分的大量摄像机110可以看出包括六个摄像机110a至摄像机110f。可以理解的是，这样一数量的摄像机110是示例性的，并且为了清楚地解释其相互校准的目的而最小化。实际上，系统100通常可以包括少于10个或多于数百个摄像机110，或介于两者之间的任何数量，这取决于场所104的大小及其成像规格。

正如本领域技术人员所理解，为了在系统100中进行物品识别及追踪的所述多个目的，摄像机110优选地在其用于图像获得之前进行校准。这种校准优选地由摄像机校准模块132进行，优选地包含多个物体出现在由每个摄像机110获得的多个图像中的多个像素位置与从被成像物体发出并照明所述多个相应摄像机传感器像素的所述多个光线的相关联，从而允许所述传感器像素位置与所述被成像物体在空间的所述三维位置的相关联。

根据本发明的一优选实施例，为了校准大量摄像机110，大量摄像机110优选地被安排为观察观察包含至少一参考物体的一场景，这里通过举例体现为位于场所104内的一参考物体200。参考物体200可以是一个简单的基准物体，如一个球或有图案的物品，位于至少多个大量摄像机110的所述视线内。在此，作为例子，参考物体200在图2A中被视为对第一摄像机110a、第三摄像机110c及第五摄像机110e为可观察的，而对第二摄像机110b、第四摄像机110d及第六摄像机110f不为可观察的。可以理解的是，参考物体200在场所104内的其一给定位置对所述多个摄像机为可观察的情况不一定包括所有的大量摄像机110a-110f，尽管在某些设置中，所有的大量摄像机110a-110f都可以观察参考物体200。

参考物体200可观察的所述多个摄像机中的每一个，在此体现为第一、第三及第五摄像机110a、110c及110e，优选地可操作用以获得参考物体200的至少一图像。获得的参考物体200的所述多个图像优选地被供应给一图像处理子模块220，所述图像处理子模块220形成摄像机校准模块132的一部分。图像处理子模块220优选地可操作用以接收由能够观察参考物体200的所述多个摄像机获取的参考物体200的所述多个图像，并寻找多个光线的交会的一估计共同点，通过所述多个光线，所述多个摄像机中的每一个摄像机被照明。可以理解的是，为了找到这样的交会的一点，参考物体200必须对大量摄像机110中的至少两个摄像机为可观察的，以允许寻找照明所述至少两个摄像机的多个射线的交会的一共同点，使得至少两个摄像机可以相对于彼此校准。射线交会的所述点可以通过任何适当的方法寻找到，其中各种方法在本领域是已知的。例如，可以使用诸如一中点法等多个方法找到射线交会的所述点，以计算与多个射线具有最小距离的所述点，即射线交会的有效点。

优选地，最初地由图像处理子模块220寻找到的交会的所述估计点对应至交会的一概率区域，在所述概率区域内，照明所述多个摄像机的射线可能会相交，而不是在三维空间中的一具体点。所述交会的概率区域被认为对应至三维空间中的一实体区域，其中参考物品200最有可能位于其中。摄像机位置及/或方向可以输入到图像处理子模块220，以帮助寻找交会的所述区域的所述初始估计，但不是一定要提供。由图像处理子模块220最初地寻找到的交会的所述点可以至少部分地基于可替换的、不太精确的多个校准方法，可以提供参考物体200的所述位置的一初始估计，所述初始估计随后将根据本发明的优选方法进行完善。交会的所述点的所述初始估计可以基于本领域已知的多个校准方法寻找到，如估计所述多个校准参数的透视n点(Perspective-n-Point,PNP)解决方案。

一像素至射线校准子模块240，优选地也形成摄像机校准模块132的一部分，然后优选地可操作用以将参考物体200出现在由所述多个摄像机110a、110c及110e获取的每个至少一图像中的一像素位置与照明所述多个摄像机中的每一个摄像机并与由图像处理子模块220寻找到的交会的所述点相交的多个光线相关联。可以理解的是，像素至射线校准子模块240不要求把参考物体200在场所104内的所述三维位置作为一输入参数，以允许摄像机110a、110c及110e相对于它的校准。相反地，可观察参考物体200的所述多个摄像机中的各个摄像机110a、110c及110e基于它们之间的射线相交而相互校准。因此，多个摄像机110a、110c及110e相对于其中另一者相互校准，不管参考物体在所述场景中的一绝对三维位置。然而，需要注意的是，在本发明的某些实施例中，摄像机校准模块132可以提供参考物体200相对于一外部的绝对参考帧的所述三维位置，以联系所述摄像机间校准与一外部参考帧。

优选地，图像处理子模块220及像素至射线校准子模块240迭代地运行，使得射线交会的一区域最初由图像处理子模块220估计，与之相交并照明所述多个摄像机110a、110c、110e的多个射线参数最初被得出。然后，由像素至射线校准子模块240得出的所述多个射线参数优选地反馈给图像处理子模块220，以便由图像处理子模块220进一步完善射线交会的所述区域，然后基于交会的新划定区域重新得出多个射线参数。这样的一迭代过程可以反复地执行，直到具有迭代地得出的多个射线参数的多个射线被寻找到以一可接受的精度，例如在1公分内，与交会的所述定义的区域相交。

可以理解的是，多个摄像机110可以有利地加装到一现有场所104，以便在其中促进系统100的实施，而不需要对场所104进行其他修改或添加。因此，系统100可以简单而有效地在一广泛多种多样的场所实施。进一步理解的是，多个摄像机110可以包括任何数量的摄像机，取决于场所104的大小以及其中的多个物品102及多个购物者106的分布，使得系统100易于扩展并可在任何大小的一场所中实施，包括其中具有一密集排列的多个物品102及/或多个购物者106的非常大的场所。

由像素至射线校准子模块240确定的多个射线参数可包括多个外在及/或内在射线参数。多个内在射线参数可以包括每一个摄像机110a、110c及110e的多个光学参数，如多个光学失真参数。多个外在射线参数可以包括相对于所述参考物体200及其他摄像机110的所述摄像机位置，以及以其相对X、Y及θ坐标表征照明每一个摄像机传感器像素的所述多个射线的多个参数。多个内在及外在射线参数都可以由像素至射线校准子模块240确定。可替换地，多个内在射线参数可以由另一系统测量并供应给像素至射线校准子模块240。多个外在及内在射线参数240优选地是为每一个摄像机110a、110c及110e单独地得出的。

现在参考图2B，本发明的所述摄像机间校准所涉及的多个步骤，如可由摄像机校准模块132的图像处理子模块220及像素至射线校准子模块240执行，在一过程流程图250中说明。

如在一第一步骤260所见，一参考物体，如物体200，优选地定位于一场景内。参考物体200可以是任何简单的被动物体，对于安排用于获得所述场景的多个图像的摄像机是可观察的，且不需要是一复杂或主动物体。

如在一第二步骤262所见，所述场景的多个图像优选地是通过N个摄像机来获得，其中N代表安排来观察所述场景的摄像机的总数量。如在一第三步骤264所见，然后识别具有所述参考物体出现在其中的多个获得的图像的摄像机的所述群组。通常，摄像机的所述群组不包括观察所述场景的所有N个摄像机，且参考物体200仅通过所述N个摄像机的一子组为可观察的。

如在一第四步骤266所见，然后估计照明具有多个获得的图像的摄像机的所述群组的多个射线的交会的所述区域，其中所述参考物体出现在一像素位置。如在第五步骤268所见，然后优选地为摄像机的所述群组中的每一个摄像机得出多个射线参数，所述射线参数定义与在第四步骤264寻找到的交会的所述区域相交的多个射线，并对应至参考物体出现在由摄像机的所述群组中的每一个摄像机获得的所述图像中的所述像素位置。这种多个射线参数可以包括多个内在及外在参数。

如在一查询270处所见，过程250然后查询在第五步骤268处定义的所述多个射线是否以可接受的精度接近并与在第四步骤266处定义的交会的所述区域相交。

如果发现交会的所述区域及多个射线参数已被确定为一足够精度等级，交会的这个区域被认为与所述参考物体的所述位置相对应，并且所述像素至射线的校准已经为在所述位置已经对所述参考物体成像的那些摄像机得出的。

如果具有在第五步骤268得出的多个射线参数的所述多个射线没有被寻找到与交会的所述点相交到精度的一足够等级，则可以基于在第五步骤268得出的所述多个射线参数对交会的所述区域进行完善，如在一第六步骤272所见，第五步骤268及第六步骤272可以迭代地重复。据此，基于最近定义的相交的点重新得出多个射线参数，然后基于新得出的多个射线参数重新定义相交的所述点，直到寻找到所述多个射线参数与有足够的精度的相交的所述点，如在询问270处所确定。

在以足够的精度进行像素至射线校准之后，如在查询270处所确定，过程250优选地确定像素至射线校准是否已经为观察所述场景的所有N个摄像机导出，如在一额外的查询274处所见。在并非所有N个摄像机都已被校准的情况下，参考物体优选地在所述场景中重新定位，以便对于一不同的摄像机群组是可观察的，如在第七步骤276中所见。然后可以重复多个步骤262-274，直到已经对所有N个摄像机执进行像素至射线的校准，并认为校准已经完成。

可以理解的是，所述参考物体在其新的位置上对于摄像机的所述群组是可观察的，可能与参考物体先前可被观察的摄像机的所述群组重叠，使得总共N个摄像机中的部分摄像机被多次校准，但每次都是针对一不同的参考物体位置及一不同的摄像机群组进行校准。

可以理解的是，这里参照图2A及2B描述的特定的摄像机间校准方法并不限于在本发明的一物品识别及追踪系统的范围内实施，而是可以在其他各种应用中用于摄像机间校准，这些应用受益于对观看一共同场景的至少两个摄像机的快速及准确校准。

现在参考图3，其是执行图像分析及分类功能的多个系统部件的一简化的说明方块图，它可以形成图1所示类型的一物品识别及追踪系统的一部分。

如图3所见，物品识别及追踪系统100的大量摄像机110在此显示为包括摄像机1到摄像机N。系统100可以包括一巨大数量的摄像机，如超过100个摄像机，或一较少数量的摄像机，如10个摄像机，取决于场所104(图1)的所述大小。

如上文参照图1所述，摄像机110优选地被安排为观察包含多个物体的一场景，如多个消费物品102及多个个人106(图1)，并获得其多个图像。摄像机1-N优选地可操作用以获得所述场景的多个图像，至少部分地相互且同时。这里，通过举例，摄像机1-N被显示为可操作用以获得图像1-N。然而，可以理解的是，每个摄像机1-N可以获取大于一个的图像，并且多个摄像机1-N中的每一个摄像机不一定操作用以获得一图像。摄像机110可以是传统的2D摄像机，也可以是包括一深度传感器的摄像机，如立体摄像机、飞行时间摄像机或结构光摄像机，提供包含深度信息的3D图像。

可以理解的是，如图3所示，摄像机1-N的多个图像的所述获得代表摄像机1-N在一给定时间框架的同时操作。在系统100的操作中，摄像机1-N优选地可操作用以每秒多次获得这样的多个图像，这些图像优选地如下文参考图3所概述的处理。

可以理解的是，摄像机1-N优选地在由此获得多个图像1-N之前进行校准。摄像机1-N可以如下文参照图2A至图2B所述进行相互校准。

图像1-N优选地被提供给一图像分析模块，优选地体现为物品识别及追踪器130(图1)的图像分析模块134。

根据本发明的一优选实施例，由摄像机110获得的多个图像1-N在提供给图像分析模块134之前优选地进行预处理。优选地，所述预处理涉及将所述多个图像1-N的至少一特性从一第一特性转换为一第二特性。根据本发明的一优选实施例，在由图像分析模块134分析之前，多个图像1-N的分辨率被降低。这里，作为示例，具有一第一分辨率的多个图像1-N被看作是转换为具有一第二分辨率的相应的降低分辨率的多个图像1-N，所述第二分辨率比第一分辨率低。可以理解的是，这种预处理，包括例如图像分辨率的降低，可以由图像分析模块134本身或由另一个形成系统100的一部分的部件，例如一图像转换模块，来进行。

多个图像1-N的所述预处理及其至少一特性的转换优选地是为了减少图像分析模块134处理多个图像1-N所需的所述计算能力而进行的。这里，作为示例，降低多个图像1-N的分辨率可以减少处理所述多个图像所需的所述计算能力。然而，可以理解的是，为了减少处理所述多个图像所需的所述计算能力，所述多个图像1-N的除分辨率以外的所述多个特性可以被可替换地转换。仅举例来说，多个图像可以被压缩，或者额外的信息可以被用来聚焦在所述图像内感兴趣的所述区域，例如，检测到运动的区域。然而，原始的，例如由摄像机1-N获得的更高分辨率的多个图像优选地保留并存储在系统100中，并可选地随后由图像分类模块138处理，如下文进一步详述。

优选地，系统100可操作用以自动地寻找出现在具有所述第二特性，例如降低的分辨率，的多个图像1-N的至少某些中的至少一物体的至少一特征，并基于所寻找到的至少一特征修改具有所述第一特性的所述多个图像，如原始的更高的分辨率，如下文进一步描述。

图像分析模块134优选地可操作用以接收多个图像1-N，特别地优选地多个降低分辨率的图像1-N，并检测由摄像机1-N成像并出现在多个图像1-N的至少某些图像中的多个物体中的至少一物体的存在并寻找一身份。可以理解的是，感兴趣的所述成像的物体可以是一或多个消费品，例如物品102(图1)，一或多个个人，例如购物者106(图1)或两者。这里，作为示例，图像分析模块134优选地在相应的多个图像1-N中识别物体身份1至物体身份N，在所述物体是一物品如物品102的情况下。关于在感兴趣的物体是一个人的情况下，图像分析模块134的操作的多个进一步细节将在下文中提供。

可以理解的是，多个物体身份1-N可以是不同的身份，也可以包括至少某些共同的物体身份。物体身份1-N可以是不同的身份，因为图像1-N显示不同的物体，不同的物体被图像分析模块134相应地且不同地识别。额外地或可替换地，尽管至少某些图像1-N显示至少部分地所述相同物体，但由于被图像分析模块134不同地识别了所述被成像的物体，多个物体身份1-N可能是不同的身份。这可能是由于所述相同物体在至少某些图像1-N中以不同的成像角度、不同的视角及不同的成像参数被摄像机1-N成像，导致两个或更多个图像1-N中的相同物体被图像分析模块134赋予一不同的身份。可以理解的是，图像1-N可以显示多个物体，且图像分析模块134可操作用以在每一个图像1-N内识别多个物体身份。

根据本发明的一特别地优选的实施例，图像分析模块134优选地可操作用以检测物体的存在并寻找其身份，例如在降低的分辨率的多个图像1-N中的多个物体身份1-N，优选地，尽管不一定，图像分析模块134采用人工智能。可以理解的是，基于人工智能的多个图像的分析可以在2D或3D图像上执行。优选地，图像分析模块134可操作用以通过在其中插入指示其中多个物体的所述位置的多个边界框来注释多个图像1-N。进一步优选地，图像分析模块134可操作用以对由此识别的每一个物体身份分配一置信度，所述置信度优选地表示检测到的物体的存在的所述信任及分析模块134识别所述检测到的物体的所述身份的所述信任。

可以理解的是，这一种基于人工智能的检测及识别过程对计算能力要求很高，通常需要相当多的时间由位于本地服务器120及云122(图1)中的一个或两者的多个计算装置来执行。因此，在由图像分析模块134执行此类图像分析之前，将摄像机110获得的所述多个高分辨率图像转换为所述多个低分辨率图像是非常有利的，因为涉及物体检测及识别的所需计算能力及处理时间由此大大减少。然而，可以理解的是，在某些情况下，这种分辨率的降低可能是不必要的，高分辨率的多个图像1-N可以直接提供给图像分析模块134并由其处理，而无需事先降低其所述分辨率。

通常，在为本发明的多个图像中的物体识别的目的采用人工智能时，图像分析模块134最初地被训练，以便能够自动地识别多个图像中的多个物体。这种训练可以包括向可包括在图像分析模块134中的人工智能网络提供大量训练图像，其中在大量训练图像中的每一个出现的至少一物体被识别至图像分析模块134的所述人工智能网络。对出现在所述训练图像中并提供给图像分析模块134的多个物体的识别可以涉及人类识别。更优选地，对出现在所述训练图像中并提供至图像分析模块134的多个物体的识别可以涉及基于机器视觉的机器识别。关于用于训练这一种算法的数据的所述生成的多个进一步细节将在下文中参照图9A至图18提供。

在训练之后，图像分析模块134优选地可操作用以基于人工智能自动地识别其所提供的所述多个图像中的多个物体。

可选地，物体识别的多个图像1-N可以被供应给图像过滤模块300，在图像分析模块134的下游及图像选择模块136的上游。图像过滤模块300优选地可操作用以接收具有来自图像分析模块134识别的至少一物体的多个图像，这里体现为物体识别的多个图像1-N，图像过滤模块300优选地可操作用以过滤掉多个图像的一或多个。

由图像过滤模块300执行的所述过滤可以基于在所述多个图像中识别的至少一物体的一身份，其不属于多个物体身份的一定义的群组。优选地，图像过滤模块300不向图像选择模块136提供其中所识别的一物体的所述身份不属于所述多个物体身份的一定义的群组的至少一图像。

这里，作为例子，图像过滤模块300被显示为接收被物体识别的多个图像1、2、3、4及N。例如，多个物体身份1、3、4及N可以是多个物体身份的一定义的群组的多个成员，而物体身份2可能在多个物体身份的所述定义的群组之外，由于与多个物体身份1、3、4及N高度不同。在这种情况下，只有被物体识别的多个图像1、3、4及N被提供给系统100的多个下游部件，而被物体识别的图像2不被提供。以这种方式，具有其中所识别的多个物体的多个图像被拒绝，这些物体与同时获得的一场景的其他图像中所识别的多个物体明显及明确地不同。

由图像过滤模块300应用的多个物体身份的所述定义的群组可以是群集的、类似的多个物体的一预定群组，或者可以是在系统100的操作过程中定义的一动态群组。额外地或可替换地，所述定义的群组可以基于历史上学习到的多个类似物体身份的类别来定义，基于系统100或其他类似系统的过去操作。

额外地或可替换地，图像过滤模块300可操作用以过滤掉由图像分析模块134提供的多个图像中的一或多个，基于对由图像分析模块134检测及识别一物品的信任应用一阈值置信度。在图像过滤模块300的这种操作模式中，以小于一预定置信度的一信任检测及识别的多个物品被过滤模块300过滤掉，并且不提供给系统100的多个下游部件。

物体识别的多个图像1-N，可选地已经被图像过滤模块300过滤，优选地被供应给图像相关联模块302。图像相关联模块302优选地可操作用以将多个像素位置关联起来，在这些像素位置上，在提供给它的每一个图像中识别的至少一物体出现在照明多个摄像机的相应的多条射线上，并寻找所述多条射线中的至少某些的交会的一点。射线相交的所述点可以通过任何适当的方法寻找到，其中各种方法在本领域是已知的。例如，可以使用诸如中点法等方法找到射线交会的所述点，以计算与多条射线之间具有最小距离的所述点，即射线交会的有效点。

这里，作为示例，图像相关联模块302优选地可操作用以接收多个图像1、3、4及N，多个图像1、3、4及N中的多个物体在相应的多个像素位置被识别，并将所述多个物体出现在照明摄像机1、3、4及N的多个射线上的所述多个像素位置相关联，图像相关联模块302优选地寻找所述多个射线中的至少某些射线的交会的一点。

可以理解的是，这种将所述物体出现在所述图像中的所述像素位置与照明所述摄像机的多个射线参数相关联的做法，优选地是基于最初地由摄像机校准模块132执行的像素至射线校准，所述像素至射线校准事先为大量摄像机110中的每一个摄像机建立像素与射线的所述相关性。

然后，图像选择模块，优选地体现为图像选择模块136(图1)，优选地是可操作用以只选择那些图像，在这些图像中，至少一被识别的物体出现在对应于与图像相关联模块302找到的交会的所述点相交的一射线的一像素位置。可以理解的是，所述多条射线的某些的交会的所述点被认为对应至空间中的一共同的、单独的物体的所述三维位置，使得在与与交会的所述点相交的一射线对应的一像素位置上显示一物体的多个图像可以被认为是显示位于所述射线交会的点的所述共同物体的多个图像。可以理解的是，基于这样的理解，即各种光线照明多个摄像机传感器像素并在三维空间中相交的概率可以忽略不计，除非照明摄像机的各种光线确实来自空间中的相同成像的物理点。

因此，图像选择模块136优选地可操作用以选择显示一共同物体的多个图像中的部分图像，并拒绝不显示一共同物体的所述多个图像中的其他图像。由图像选择模块136执行的选择及拒绝优选地是基于所述多个摄像机的事先相互校准，所述事先相互校准用于建立由摄像机110获得的所述多个图像中的多个像素位置与照明摄像机110的多条光线的多个参数之间的所述相关性。可以理解的是，图像选择模块136因此优选地作为一几何选择模块，可操作用以基于多个摄像机射线在三维空间中的几何交会来选择多个图像。

图像选择模块136优选地可操作用以输出被识别为显示位于与射线交会的一点相对应的一位置上的一共同物体的一选定图像组。三维空间中与交会的所找到的点相对应的所述位置被认为是对应至所述物体的所述三维位置。在本发明的一优选实施例中，所述物体可以被建模为三维空间中位于射线交会的所述点的一点，这一点将在下文中参照图6至图8进一步详细说明。

这里，作为例子，图像选择模块136被显示为输出一选定图像组304，包括多个被物体识别的图像1、3及4。选定图像组304不包括被物体识别的图像N，所述被物体识别的图像N已经被图像选择模块136拒绝，因为它在对应于不与图像相关联模块302找到的射线交会的所述点的一照明射线的一像素位置上显示一物品。

可以理解的是，由图像选择模块136执行的所述选择及拒绝优选地基于先前的摄像机间校准，更具体地优选地基于基于由先前的摄像机间校准找到的射线交会的几何过滤，并且因此可以执行，而不管所述多个图像中的至少一物体的所述身份。图像选择模块136可以是可操作用以基于其中的物体位置而不是物体身份，来选择及拒绝多个图像，如图像分析模块134所寻找到的。

可替换地，图像选择模块136可以是可操作用以考虑到由图像分析模块134寻找到的物体身份，以便增强由此进行的所述几何图像选择。在某些实施例中，多个图像可以在图像选择模块136处被分组为多个集团，据此，每个集团由其中有多个类似物体的多个图像组成。然后，图像选择模块136可以是可操作用以比较物品的多个位置，并识别显示位于射线交会的一点的一物体的多个图像，只针对每个集团内的那些图像，而不是针对所有图像。这一种方法可以加快由图像选择模块136进行的所述几何图像选择。

可以理解的是，上面描述的基于射线交会的图像相关联模块302及图像选择模块134的操作，特别适合于由摄像机110获得的多个二维图像的所述处理。然而，在摄像机110被体现为深度摄像机的情况下，例如物体识别的多个图像1-N包含深度信息，图像相关联模块302及图像选择模块134可以以另一种可替换的方式操作。

在本发明的这一实施例中，图像相关联模块302可以是可操作用以基于物体识别的多个图像1-N中所包含的深度信息，寻找到输入到其中的任何一给定的物体识别的图像中的一物品的所述三维位置。然后，图像选择模块134可以确定所述给定图像中的所述三维物品位置是否与物体识别的图像1-N中的任何其他图像中的多个物品的所述三维物品位置相匹配。

因此，由图像选择模块136选择的所述多个图像，在多个二维图像的情况下基于射线交会，或在多个三维深度图像的情况下基于一致的三维位置，可被视为形成多个图像的被认为在所述同一实体位置上显示所述相同物品的一组图像。可以理解的是，图像选择模块136因此有效地作为一几何过滤模块，拒绝未被找到在所述相同位置显示所述相同物品的多个图像。可以理解的是，在本发明的所述系统的所述运作的这个阶段，所述物品的所述具体最终身份还没有被确定。

由图像选择模块136选择的多个图像优选地随后被提供给一物体分类模块，优选地体现为物体分类模块138(图1)。分类模块138优选地可操作用以接收由图像选择模块136输出的选定图像组，并寻找显示所述选定图像组的至少一物体的一身份，所述物体优选地为占据三维空间中一给定区域的一共同物体。与图像选择模块136相反，所述图像选择模块可能不考虑由此收到的所述多个图像中的物体身份，分类模块138是优选地可操作用以通过考虑所述选定图像组中的所述多个物体身份来得出所述物体身份。可以理解的是，与基于由一单一的摄像机获得的多个图像建立物体身份相比，基于多个摄像机获得的多个图像建立一物体身份有利地有助于减少多个错误并提高物品识别的所述精度。

如上所述，尽管所述选择的多个图像是基于所有显示占据空间中一共同点的一共同物体而选择的，但由于所述共同物体在的其所述多个图像中不同图像中的所述外观的多个变化，图像分析模块134可能已经为所述共同物体分配了不同的物体身份。分类模块138优选地是可操作用以融合所述选定图像组中的各种不同的物体身份，并得出一单一的物体身份306，所述单一的物体身份被认为是所述共同物体的所述最终确定的身份。分类模块138优选地可操作用以结合及权衡不同物体身份的基础上融合各种不同的物体身份。

在本发明的一优选实施例中，分类模块138可操作用以接收由图像分析模块134寻找到的所述选定图像组中的各种物体身份，并至少部分地基于由图像分析模块134分配给每一个物体的置信度来融合各种身份，以便得出一单一的最终物体身份。这种身份融合可以基于机器学习。由图像分类模块138得出的所述单一最终物体身份也可以有一个与之关联的置信度。可以理解的是，由于由图像分析模块134分析的所述多个图像的所述降低的分辨率，与其中识别的各种物体身份关联的所述信任，以及因此与基于此的所述最终融合的物体身份关联的所述信任，可能是不可接受的低。

在这种情况下，根据本发明的另一优选实施例，分类模块138可以是可操作用以重新执行物体识别。可以检索对应于由图像分析模块134分析的所述多个低分辨率图像并形成选定图像组304的多个初始高分辨率图像并提供给分类模块138。分类模块138可以是可操作用以修改所述多个高分辨率图像，例如，通过在由图像分析模块134识别的所述物品位置的所述区域中裁剪所述多个高分辨率图像。然后，分类模块138可以是可操作用以在所述裁剪的高分辨率图像中重新找到所述物品身份。

可以理解的是，由于由分类模块138处理的所述多个图像的分辨率较高，由此找到的所述物品身份的所述精度通常大于由图像分析模块134在相应的多个降低分辨率的图像中找到的所述物品身份的精度。此外，由于所述多个高分辨率图像被裁剪，分类模块138可操作用以在一个更有限的图像区域内对所述物品身份进行分类，从而减少所需的计算能力及处理时间。因此，由分类模块138基于多个高分辨率图像的图像分析输出的与所述最终物体分类关联的所述信任可能大于基于由图像分析模块134基于多个低分辨率图像提供的所述多个物品身份的所述信任。因此，由图像分析模块134分析的所述多个图像有助于指导对所述多个高分辨率图像的所述修改，例如裁剪，以允许出现在其中的多个物品的所述身份以更高的精度被寻找到。

如图3所见，作为示例，可以直接向图像分类模块138提供包括具有多个相应物体1、3及4在其中被识别的多个图像1、3及4的选定降低分辨率图像组304。然后，分类模块138可以检索相应的多个高分辨率图像1、3及4，裁剪多个高分辨率图像1、3及4，并在多个裁剪的高分辨率图像上重新进行物品识别及分类，以得出物品身份306。可以理解的是，在本实施例中，分类模块138可以作为一图像修改器，用于基于所述多个低分辨率图像修改原始的所述多个高分辨率图像。

可以理解的是，在分类模块138在原始的所述多个高分辨率图像上重新执行物品识别的情况下，最终物品身份306的推得可以考虑或不考虑基于所述多个低分辨率图像推得的所述物品身份，如由图像分析模块134所处理的。

可以理解的是，在多个原始图像1-N的分辨率以外的一特性被转换的情况下，分类模块138可以以类似于本文上述的一方式操作，以检索所述原始未修改过的多个图像，并使用需要较少处理能力的多个转换过的图像，来指导所述多个原始图像的所述分析，以允许出现在其中的多个物品的所述身份以更高的精度被寻找到。

关于分类模块138的所述操作的多个进一步细节，特别是分类模块138可操作用以平衡不同物体身份以得出一单一的最终物体身份的所述方式，将在下文中提供，并参考图4。

可以理解的是，本文就图3所示的系统100的多个部件所描述的所述图像处理功能，是关于一物品的的位置及身份的所述识别，例如物品102，在场所104(图1)内。然而，可以理解的是，在某些情况下，可能希望基于由摄像机110对购物者106的所述成像，额外地或可替换地找到一个人，如购物者106，在场所104(图1)内的所述位置。

在寻找一被成像的个人，如购物者106(图1)的存在及位置的情况下，可以理解为购物者106的所述身份的所述寻找并不一定相关。因此，在这种情况下，人工智能图像分析模块134优选地只可操作用以寻找购物者106的所述存在及位置。优选地，这通过图像分析模块134寻找购物者106的所述存在及位置来实现，优选地基于采用一人工智能算法。优选地，图像分析模块134创建代表购物者106的所述身体的一姿势图。这一姿势图可以包括与购物者106的所述身体上的多个关键位置相对应的一数量的多个关键点。这些多个关键点优选地被标记，以指示其在购物者106的所述身体上的所述位置。关于对多个图像进行人工智能处理以确定其中多个个人的所述存在及位置的多个进一步细节将参照图15A至图17D来提供。

可以进一步理解的是，具有通过一姿势图识别其中的多个个人如购物者106的多个图像可以被供应给图像相关联模块302。图像相关联模块302优选地是可操作用以将供应给它的所述多个图像中的每一个图像中的所述多个姿势图中的所述多个关键点的多个像素位置与照明多个摄像机的相应的多条射线相关联，并寻找所述多条射线中的至少某些射线的交会的一点。因此，对应于射线交会的一共同点的多个关键点被认为是对应于购物者106的相同身体位置。

可以理解的是，与多个非人类物体的多个图像相比，由于人工智能算法快速地且准确地处理这类图像的能力增强，多个人类主体的多个图像的所述处理，不一定需要多个图像的分辨率的减少及所述多个原始且高分辨率的的多个图像的随后检索。

现在参考图4，这是一个简化的方块图，说明由图3所示的所述多个类型的图像分析及分类部件进行的机器学习。

如图4所见，优选地将具有其中识别的至少一物体的一输入图像组400提供给分类模块138，例如由图像分析模块134通过图像过滤模块300、图像相关联模块302及图像选择模块136(图3)。例如，一输入图像组400可以对应至图3的多个选定图像304。在输入图像组400中识别的所述至少一物体优选地是基于如图像分析模块134所采用的人工智能来识别。图像分析模块134为了识别其输入的所述多个图像中的多个物体而采用的人工智能可以包括深度学习、多个神经网络或任何其他类型的物体识别的人工智能方法。

图像分析模块134优选地接收由多个摄像机，如摄像机110(图1及图3)观察一场景所获得的多个图像，并采用人工智能来自动地寻找出现在所述多个图像中的相应的多个物体的多个身份，如本文上述参照图3所描述的。在由图像分析模块134进一步处理之前，可以降低由多个摄像机获取的所述多个图像的所述分辨率，以减少所需的计算能力并加速所述图像处理。

图像选择模块136优选地基于所述多个摄像机的校准来选择所述多个图像中的选定图像，所述校准是相对于形成由摄像机成像的所述多个物体的一部分的一物体的一位置的，并且出现在所述选定图像中的每一个图像中，如本文上述参照图3的进一步描述。

图像分类模块138优选地接收多个图像中的所述多个选定图像，并采用机器学习来得出出现在所述多个选定图像中的所述物体的一身份。

分类模块138优选地可操作用以基于采用机器学习来权衡及结合输入其中的不同物体身份而得出一单一的最终物体身份402，这些不同物体身份优选地是通过采用人工智能找到。可以理解的是，本发明的所述系统因此优选地采用“双重”机器学习，其中原始地基于采用人工智能识别的不同的多个物体身份基于采用机器学习被融合，以得出一单一的终极物体身份。

在本发明的一个可能的实施例中，分类模块138基于考虑到被识别为显示具有一给定身份的一共同物体的多个图像的相对数量来衡量不同的物体身份。例如，在80％的多个输入图像400中，一第一身份被分配给一共同物品，而在20％的多个输入图像400中，一第二不同身份被分配给相同物品的情况下，分类模块138优选地可操作用以对所述第一身份给予更大的权重。

在本发明的一优选实施例中，如上文参照图3所述，分类模块138可操作用以至少基于融合由图像分析模块134找到的在所述多个图像中的所述选定图像中的所述多个相应物体的所述多个身份，得出出现在所述多个图像中的所述选定图像中的所述物体的所述身份402。

如上文参照图3所述，在本发明的某些实施例中，图像分析模块134可操作用以基于多个降低分辨率的输入图像执行物体检测及识别，其中所述降低图像分辨率是可取的以最小化所需的计算能力及处理时间。然而，由于所述多个输入图像的所述低分辨率，与基于此找到的所述物体身份关联的所述信任可能相对低。因此，与基于由图像分析模块134使用多个低分辨率输入图像找到的所述多个物体身份得出的所述物体身份402关联的所述信任可能是不可接受的低。

为了提高与物体身份402关联的所述信任，分类模块138可以选择性地包括一子模块403，所述子模块403可操作用以裁剪多个高分辨率图像，并随后在多个裁剪的高分辨率图像上重新进行物体检测及识别，如上文参照图3所述。

子模块403可操作用以检索由摄像机110捕获的具有一第一、较高分辨率的所述多个初始图像中的至少某些。然后，子模块403可以在与出现在多个所述第二、较低分辨率图像中的相应各自的图像中的一识别物体的所述位置相对应的一区域中裁剪所述多个高分辨率图像中的每一个。多个较低分辨率图像中的物体识别，例如由图像分析模块134(图3)进行的识别，因此用于指导所述原始相应的多个较高分辨率图像的所述裁剪，例如由子模块403进行的。

然后，子模块403可以采用人工智能来自动地寻找所述多个裁剪的第一、较高分辨率图像中的多个物体的多个身份，并推导得出出现在所述多个较高分辨率图像中的一物体的所述身份，至少基于融合所述选定裁剪的多个较高分辨率图像中的相应多个物体的所述多个身份。由于所述多个较高分辨率图像已被裁剪，所述图像检测及识别被限制在一较小图像区域，所需的计算时间及功率因此减少。因此，基于所述多个裁剪的高分辨率图像，可以以一更大的置信度得出最终物体身份402。可以理解的是，基于相应的多个较低分辨率图像，以一较低的关联置信度推导得出的物体身份402，在基于所述多个较高分辨率图像推导得出所述物体身份402时可以被考虑到或不被考虑到。还可以理解的是，如果基于所述多个较低分辨率图像的所述物体身份402被发现具有一足够的置信度，子模块403的额外处理可能是不必要的。

由分类模块138采用的所述机器学习，为了融合其输入的不同物体身份，如上文所述，所述物体身份可以基于多个较高及/或较低分辨率图像，可由各种输入来增强。举例来说，在融合不同物体身份以得出一单一的最终物体身份时，分类模块138可以考虑到历史上找到的多个物体身份作为一输入因素404。在此情况下，汇总的购物者统计资料可以指示由以前选定的多个给定物品的多个购物者通常选择的物品的一范围。基于一购物者106已经选择的多个物品的所述身份，如优选地由购物列表创建模块140(图1)生成的，分类模块138可以对对应于通常地预期由一给定购物者106基于所述购物者106先前选择的其他物品而选择的多个物品的多个物体身份给予更大的权重。可以理解的是，这种汇总的购物者统计资料优选地是聚合的匿名统计资料，而不是特定于一给定购物者106的。

额外地或可替换地，在融合不同物品身份以得出一单一的最终物体身份时，分类模块138可以考虑与一给定物体在多个图像中出现的一频率有关的汇总的历史数据，作为一额外的输入因素406。例如，在一个出现在多个输入图像400中的一共同物品被图像分析模块134分配两个具有相互相等权重的可能身份的情况下，基于汇总的历史数据，对应于更频繁地被多个购物者通常地选择的一物品的所述物品身份可以被分类模块138给予更大的权重。

进一步额外地或可替换地，在融合不同物品身份以得出一单一的最终物体身份时，分类模块138可以考虑基于所述场景内至少一物体的一预定模型的一物体在所述场景内的一位置，作为一额外输入因素408。例如，可以向分类模块138提供一物品在场所104内的一初始位置，并且基于一场所平面图，相应地从各种物体身份中得出所述物品的所述身份。

此外，体积或重量传感器410可以位于场所104内，以提供有助于物体识别的数据，特别地在一购物者106的所述手掌大小的多个小物品或更小的情况下，多个物品可能难以在多个图像中识别。体积或重量传感器410可以记录一物品102所在的一表面的一初始重量，以及所述物品从其上移开后所述表面的一后续重量。重量上的差异可以是指示所述被移除物品的所述重量，从而帮助对其识别。这种体积或重量数据可以提供给分类模块138，以帮助融合不同物体身份。这样的体积或重量数据可以额外地或可替换地提供给图像分析模块134，以帮助由此进行的初步物体识别。可以理解的是，为了使多个重量传感器准确地记录从一表面移除一物品的所述重量，所述物品的重心必须在所述重量传感器的上方。在多个小物品的情况下，这可以通过将多个小物品放在一容器内来实现，所述容器可以相对于一重量传感器定位于中心。

额外地或可替换地，在本发明的所述系统中可以加入一标志物读取模块412。标志物读取模块412可以是一单独的模块，也可以包括在摄像机110的所述多个功能中。标志物读取模块412优选地可操作用以至少部分地读取形成所述被成像物体的一部分的一标识物的至少一部分，以得出所述物体的一最终身份。

举例来说，包括在所述被成像物体中的所述标志物可以是打印在所述物体上的一文字或图例。所述文字的至少部分的阅读可以帮助分类模块138对物体身份的分类。例如，分类模块138可以利用所述物体上某些字母的所述外观，由图像分析模块134提供的多个可能物品身份的一范围中区分出所述物品身份。

进一步举例来说，包括在所述被成像物体中的所述标志物可以是一图像的形式，例如与一给定物品关联的一标志。物品上的某些符号、徽记或颜色的所述外观，即使只是部分地被识别，也可以被分类模块138用来从图像分析模块134提供的多个可能物品身份的一范围中区分出所述物品身份。

还进一步额外地或可替换地，在本发明的所述系统中，还可以加入一图像背景减法模块414。这种图像背景减法在帮助分类模块138从提供给它的超过一个的物体身份中得出一单一的物体身份方面可能是有用的。图像背景减法模块414可以执行时间背景减法，其中在一第一时间点获得一场景的至少一初始图像，在一第二时间点获得所述场景的至少一后续图像，并从所述初始图像中减去所述后续图像，以检测在所述第一及第二时间点之间从所述场景中移除的一物体。举例来说，货架114(图1)可以在一物品被移出之前及之后被成像，且两图像之间的差异用于帮助识别从货架114移出的多个物品的性质及数量。

图像背景减法模块414可以额外地或可替换地执行空间背景减法，其中可以基于一预定模型从一场景的一图像中减去多个不动的元素，以简化图像分析。

现在参考图5，其是一简化的图表，说明对优化图1所示的所述类型的一物品识别及追踪系统中所采用的摄像机的所述安排有用的评分。

如上文参照图1所述，系统100优选地包括大量摄像机110，大量摄像机110被安排用来观察一场景，如场所104(图1)，并获得与其中至少一物体有关的视觉数据。根据本发明的优选实施例，在摄像机110的所述安装之前，优选地对场所104进行计算机模拟摄像机110的多种可能布置，以便找到摄像机110的所述最佳布置，根据所述最佳布置，多个盲点被最小化，场所104内的多个物品的多个观察角度的所述范围被最大化。

这种计算机模拟可以包括将场所104的一计算机模型细分为多个个体单元的一网格。然后，相对于场所104的所述多个单元，可以定义一第一摄像机布置。然后，每个单元可根据通过所述单元是可观察的多个摄像机的所述数量分配一子分数。然后，包括所述场所的所有所述单元的所述多个子分数的总和表示摄像机配置的所述总分数。然后可以对多个额外的可替换的可能的相机布置进行建模，并为每个布置分配分数，其中多个分数表达了在一给定模型中所见的所述多个单元的所述整体相机密度。

图5显示了一个高度示意性的简化示例图，说明了这种评分。如图5所见，为每一个配置分配了一总分数。所述总分数是所述场所模型中的每一个单元的所述多个个别的子分数的总和，每一个各自的单元通过多个摄像机被看到，其中多个个别的子分数表示摄像机的所述数量。在图5所示数据的情况下，可以理解为所述第十一摄像机的配置得分最高，因此最适合于观察所述场所。

在没有任何个人106的情况下，场所104可以被划分为多个单元，并相对其进行各种摄像机配置建模。额外地或可替换地，基于考虑到所述场所内存在多个个人106的情况，可将场所104划分为多个单元相对其进行多个摄像机配置建模。可以理解的是，所述配置分数及因此多个优化识别摄像机安排可能会基于所述场所内是否存在多个个人106而有所不同。

现在参考图6，其是一简化的示意图，说明图1所示的所述类型的一物品识别及追踪系统中的有用的多个物品的一追踪模型，特别地是在其事件追踪模块140中有用。这样的物品追踪对于提供与一场所内的一特定个人关联的多个物品的一清单是有用的，如下文中详细说明的。

如图6所示，大量摄像机110优选地可操作用以对场所104成像。作为对摄像机110获得的所述多个图像进行图像处理的结果，特别地作为上文参照图3描述的所述图像处理的所述表现的一结果，场所104内的多个物品102及多个个人106(图1)可以被建模为一三维空间模型602内的多个点600。多个点600可以是与一物品的存在关联的多个点，如“物品点”610所示，这里指示为多个填充的圆圈。多个点600也可以是与一个人的所述存在关联的多个点，且更具体地，是与一个人的一特定身体部位关联的点，由一姿势图中的一关键点代表，如“人物点”612所示，这里指示为未填满的圆圈。在场所104包括人及物品两者的情况下，多个物品点610及多个人物点612两者都可以包括多个点600的所述整体。

现在参考图7，可以看到与模型602有关的一过程700从一第一步骤702开始，在第一步骤中，摄像机110优选地可操作用以以一快速的帧率，例如每秒20或25张图像，来获取场所104的多个图像。可以理解的是，摄像机110操作的所述特定帧率可以根据场所104的所述多个成像要求而变化。

如在一第二步骤704所见，对于摄像机110在每一个时间点同时地获得的每一组图像，优选地进行如上文关于图3至图4所描述的图像处理，以便生成多个物体的所述分布的一多维、优选地三维模型，其中多个物体可以是在场所104内的由多个点600代表的多个无生命物品或多个人。可以理解的是，这样的一三维模型可以为整个场所104或为场所104的一特定子部分生成，取决于场所104内的感兴趣的所述区域。这样的一3D模型可以由一模型生成器生成，所述模型生成器可以包括在事件追踪模块140中。

可以理解的是，各种摄像机110可以提供场所104内不同物体的多个图像，并且相同物体可以由不同摄像机110在不同时间帧成像，取决于所述物体在场所104内的所述定位。因此，对应于一给定物体在三维空间中的所述位置的多个点600的一特定点可以在第二步骤704中基于来自某些摄像机110的在一第一时间点的多个图像及基于来自某些其他摄像机110的在一第二时间点的多个图像而生成，由于所述给定物体在所述第一及第二时间点之间的所述运动。

可以理解的是，本发明的这个特征在场所104是一密集环境的情况下特别地有利。尽管场所104内的多个物体可能密集分布，但只要一相应点600所代表的所述物体在任何给定成像时间帧保持在至少两个摄像机110的视线内，就可以连续生成多个点600的一三维模型。

优选地，为多个连续时间点生成的所述多维模型进行比较，以追踪至少一物体的所述多维模型随时间变化的多个改变。更具体地，在对应至多个连续时间点的各自多个三维模型中的多个点600中的每一个点的所述位置被比较，以追踪所述多个点600中的每一个点的所述运动。可以理解的是，这种追踪是基于以下假设：所述多个图像帧之间的所述时间间隔小于一特定物体相对于所述物体在一相邻帧中的所述定位明显地移动所花费的时间。这种追踪可由一模型追踪器进行，其可包括在事件追踪模块140中。

可以理解的是，这种追踪可能涉及在一时间点上生成的一三维模型的信息被用来增强在另一个时间点上生成的一三维模型的信息，尽管所述两个时间点不是即刻紧邻的。例如，在多个人物点612中的一特定人物点从几个连续的帧中消失，然后随后重新出现的情况下，所述点612可以被追踪到所述点的多个较早时间实例，尽管所述点在间隔的多个帧中没有出现。这可能是相关的，例如，在一或多个点612所代表的所述个人暂时离开，然后返回到场所104的情况。

因此，可以理解的是，尽管为每个时间点生成的三维空间中的多个点600的每一个三维模型是静态的，但可以基于由摄像机110获得的场所104的一图像流建立三维空间中的多个点600的所述动态通过的一连续三维模型，其中可以通过比较相邻多个帧之间的点定位的变化来追踪多个点600的所述通过，如在第三步骤706所见。

如在一第四步骤708所见，然后可以基于在第三步骤706建立的所述连续三维模型生成一清单。可以理解的是，虽然所述三维模型优选地是为场所104中的所有多个点600生成的，但所述清单优选地只基于满足一预定“触发”标准的多个点600的部分点的定位的多个选定变化，所述预定触发标准定义这些变化为感兴趣的事件。这样的一种清单可以由一数据分析器生成，它可以包括在事件追踪模块140中。

举例来说，回到图6，在场所104是一购物设施的情况下，多个物品点610可以代表由多个人物点612模拟的多个购物者可用于购买的多个物品。在这种情况下，被认为代表感兴趣的事件并在此基础上创建一清单的多个点的运动的一触发标准可以是一事件，例如在距离多个可用物品的一位置，例如在图6中由多个货架114代表，的一预定距离内的多个人物点612中的一个人物点的接近。满足这一触发标准的一事件被示意性地指示在一区域720，其中人物点612被看到接近货架114。在此情况下，所述三维模型可以被分析，以确定由物品点610代表的所述物体的所述身份，由人物点612代表的所述购物者处理。可以理解的是，这种事件追踪可以用来生成与多个购物者相关的一购物列表，或者可用于分析的所述目的，以增加对多个购物者在场所104内的所述通过情况的了解。

进一步举例来说，在场所104是一仓库的情况下，多个物品点610可以代表由多个人物点612代表的多个工人要处理的多个物品。在此情况下，可以创建一清单的多个点的运动的一触发标准可以是多个物品点610中的一个物品点与多个人物点612中的一个人物点关联的一容器在一预定距离内的所述接近。在此情况下，可以对所述三维模型进行分析，以确定由一物品点610代表的已经进入或离开与一或多个人物点612关联的容器的所述物体的所述身份。

可以理解的是，所述触发标准不限于与所述三维模型中的多个点600的互动有关的多个事件。作为示例，过程700可以包括一第五步骤709，在步骤中，从多个外部来源获得与多个物体有关的数据。举例来说，这样的多个外部来源可以是位于多个货架114上的多个传感器。多个货架114中的一个货架上的多个物品的所述重量的一给定改变可以被定义为一触发标准，指示一物体已经从货架上移开。基于这样的一触发标准，可以对所述三维模型进行分析，以确定由物品点610代表的、由人物点612代表的所述购物者从货架114上移开且经历重量上的一改变的所述物体的所述身份。

可以理解的是，这些触发标准只是以举例的方式提供的，任何适当的触发标准都可以用来区分所述三维模型中与感兴趣的多个互动相对应的多个改变。

现在参考图8，图7的第四步骤708中的多个优选子步骤被显示，在该步骤中生成了多个物品的所述清单。如在一第一子步骤800所见，优选地是追踪所述连续三维模型中的多个物体的所述位置，所述多个物体可以是多个物品或多个个人。如在一第二子步骤802所见，优选地是识别满足一预定触发标准的物体位置的多个改变。

如在一第三子步骤804所见，接着寻找到已经经历满足所述预定“触发”标准的位置的所述改变的所述物体身份及数量。可以理解的是，第三子步骤804涉及分析与满足所述至少一预定标准的所述多个改变有关的数据，如在第二子步骤802所找到，以便得出与至少一建模物体有关的信息。可以理解的是，所述物体身份及数量的所述寻找可以自动地进行，通过举例的方式，在此参照图4进行概述。还可以理解的是，在某些情况下，为了确定一给定物体的所述身份或数量，在所述三维模型的所述分析中，人类输入可能是有利的。此种人类输入可以被供应以增强关于所述物体数量及/或身份的自动地生成的信息。

如在一第四个子步骤806所见，所述物体数量及身份可以接着被添加到一清单中，如一购物列表。额外地或可替换地，与满足所述预定触发标准的所述多个事件有关的信息可以为了分析的目的被存储，以增加对所述场所内多个物品及/或多个个人的所述通过的了解。在第四步骤806处生成一购物列表的情况下，所述购物列表优选地在所述购物者，由一或多个人物点612代表，在处所104内的所述通过的期间持续地更新。举例来说，所述购物列表可以在所述购物者离开场所104之前自动地呈现给所述购物者以进行支付。

可以理解的是，为一给定购物者生成一购物列表，因此优选地是基于对与所述购物者关联的多个物品的追踪，基于对购物者在一三维模型中满足预定义的“触发”标准的多个互动的分析，并且不一定涉及所述购物者的识别。因此，系统100(图1)可以以匿名的方式运作，不需要购物者身份作为一输入。

如上所述，由系统100(图1)的多个部件进行的图像处理优选地涉及基于多个人工智能算法的多个图像的所述分析，特别是为了检测所述多个图像中多个物体的存在及位置。可以理解的是，特别地是在场所104是包括一巨大数量的多个物品102及购物者106的一大型场所的情况下，需要一极其大量的数据，以便训练这些人工智能算法，从而以所需的精度等级进行运作。根据本发明特别地优选实施例，基于额外的数据(基于所述获得数据)的自动生成，这些人工智能算法的训练被高效地、快速地及自动地启用。在所述人工智能算法的所述训练过程中，除了供应所述获得数据外，还可以向所述人工智能算法供应这样的额外数据，从而加快了所述算法的训练，并使本发明特别地适合于在一大型实体场所的一非常大规模的实施。

现在参考图9A及图10B，其是说明本发明的所述系统的一实施例的简化的透视图及侧视图。

如图9A及图9B所见，多个物品102优选地安排在场所104的多个货架114上，并对安装在天花板112上的大量摄像机110是可观察的。可以理解的是，在图9A及图9B中以一高度简化的方式说明多个物品102及大量摄像机110的布置，目的是为了清楚地解释本发明的实施例，且多个物品102及大量摄像机110可以以可替换的多个配置布置，而不以本文所示的配置为限。

现在参考图10A及图10B、图11A及图11B，以及图12A及图12B，其是显示根据本发明的一优选实施例由一人工智能(AI)算法注释的在包括一人类主体及多个相应图像的一环境下的多个摄像机的多个视线的图9A及图9B的实施例的部分的多个简化的图。

现在参考图10A及图10B，在一第一情况中，一人类主体如一购物者106被显示为正在处理多个物品102中的一个物品。仅仅作为例子，购物者106正在处理物品102的情况被显示对场所104中的四个摄像机(指示为摄像机1-4)是同时地可观察的。可以理解的是，在这种情况下，优选地通过摄像机1-4对购物者106进行成像，至少是为了提供用于本文上述的所述人工智能算法的所述训练的多个图像。这种训练的所述目的是使所述人工智能算法能够基于由摄像机110获得的多个图像自动且精准地识别场所104中多个物品102的所述存在及位置。一旦所述人工智能算法被训练成能够以足够的精度识别摄像机输出中多个的物品102的所述存在及位置，所述人工智能算法就可以在系统100内实施，且更具体地，在其物品识别器及追踪器130(图1)内实施，如上文参照图1至图8所描述的。

如图10A及图10B所示，摄像机1输出所述场景的图像1001，摄像机2输出所述场景的图像1002，摄像机3输出所述场景的图像1003及摄像机4输出所述场景的图像1004。多个图像1001、1002、1003及1004优选地由一人工智能算法处理，以识别其中物品102的所述存在及位置。可以理解的是，用于这种图像处理的人工智能算法可以被称为一种子人工智能或抽象人工智能网络，所述种子人工智能能够在有限的范围内识别多个物品的所述存在及位置，而且具有一巨大的误差度。下文描述的本发明的实施例的一目的是提供额外数据来训练所述种子人工智能，以提高其所述性能，从而使其在系统100内的所述实施。

作为所述人工智能算法对多个图像1001、1002、1003及1004的一结果，多个图像1001、1002、1003及1004优选地被注释，并在其中的物品102的所述位置画出多个边界框。如图10B所见，优选地在多个图像1002、1003及1004中的每一个图像上添加一边界框1010。然而，由于物品102在图像1001中被购物者106挡住，因此没有保持在沿着摄像机1的视线1012，所以没有向图像1001添加边界框。

同样，如图11A及图11B所见，在涉及物品102相对于购物者106及摄像机1-4的一不同安排的一第二情况下，摄像机1输出所述场景的图像1101，摄像机2输出所述场景的图像1102，摄像机3输出所述场景的图像1103及摄像机4输出所述场景的图像1104。多个图像1101、1102、1103及1104优选地由一人工智能算法处理，以识别其中物品102的所述存在及位置。

作为所述人工智能算法处理多个图像1101、1102、1103及1104的一结果，多个图像1101、1102、1103及1104优选地被注释，并在其中的物品102的所述位置画出多个边界框。如图11B所见，优选地在多个图像1101、1102及1103中的每一个图像上添加一边界框1110。然而，由于物品102在图像1104中被购物者106挡住，因此没有保持在沿着摄像机4的视线1112，所以没有向图像1104添加边界框。

现在参考图12A及图12B，说明涉及物品102相对于购物者106及摄像机1-4的如图11A所示的所述相同安排的一第三情况。然而，如图12B所见，由所述人工智能算法对多个图像1101、1102、1103及1104的所述处理在此是只在多个图像1102及1103中插入了多个边界框1110。尽管物品102出现在图像1101中，但没有在图像1101中插入边界框。这样的情况可以被称为一人工智能故障情况，其中所述摄像机输出，这里是图像1101，正如所述人工智能算法所分析，没有找到包含指示物品102的所述存在及位置的信息，尽管这些信息存在于所述摄像机输出中。这种人工智能故障可能是由于所述人工智能算法的多个限制而发生的，因为所述人工智能算法没有被训练成一足够精度等级来识别多个图像中多个物品的所述存在及位置的一结果。

可以理解的是，就图像1101说明的所述人工智能故障情况与图像1104的情况不同。在这两种情况下，所述人工智能算法都不能识别所述图像中物品102的所述存在及位置，并且没有向各自的图像添加边界框。然而，在图像1104的情况下，物品102确实没有出现在所述图像中，并且所述人工智能算法因此正确地没有识别所述图像中的物品102，而在图像1101的情况下，物品102确实出现在所述图像中，并且缺乏对所述图像中物品102的所述存在及位置的识别是由于所述人工智能算法的故障，而不是所述图像的多个固有属性。

可以理解的是，在图10A至图12B所示的所述多个情况中处理多个图像1001、1002、1003、1004及1101、1102、1103、1104之前，优选地向所述人工智能算法提供物品102的所述身份。物品102的所述身份优选地是由一人类专家找到并输入进所述人工智能算法，以训练所述人工智能算法。然而，可以设想，在本发明的一些实施例中，物品102的所述身份并非一定要由一人类专家输入至所述人工智能算法中，而是可以基于机器学习自动地生成。

为了改善所述人工智能故障案例，例如图12A及图12B的所述示例中的图像1101，可以采用图像修改。图13A是显示根据本发明的一优选实施例通过图像修改来改善多个人工智能故障案例的图9A及图9B的实施方案的部分的一简化的图。

如图13A所见，一人工智能故障案例图像如图像1101可由观察一场景的摄像机110中的至少一摄像机输出。可以理解的是，如本文参照图13A及图13B所描述的多个图像修改方法可以在一或多个摄像机的所述输出上执行。在基于采用参考图12B所述的人工智能确定所述摄像机输出不包含指示所述场景中至少一物体的所述存在及位置的信息之后，可以修改所述摄像机输出。

优选地，所述摄像机输出的所述修改涉及将所述人工智能故障图像旋转大量的相互不同角度，并采用人工智能来分析每一个修改后的输出，如旋转一给定角度，以找到所述图像中所述物品的所述存在及位置。

这里，作为例子，所述原始图像1101被显示为通过四个不同角度的旋转来修改以产生多个旋转图像1302、1304、1306及1308。最初用于分析图像1101而未成功的所述人工智能算法优选地被重新采用以分析所述多个旋转的图像1302、1304、1306及1308中的每一个。对所述多个修改的人工智能故障图像的所述人工智能算法的所述采用，在某些情况下，可以成功地识别所述多个图像中的一物品的所述存在及位置，从而成功地通过多个边界框对所述多个图像进行标注。在此，作为例子，一边界框1310被显示以添加到多个图像1302、1304、1306及1308中的每一个，作为所述人工智能算法的所述处理的一结果，识别其中物品102的所述位置。

然后，优选地通过反向旋转将所述多个注释图像重新对齐，并将现在存在于其中的多个边界框1310叠加，以定义一可能不规则轮廓，对应于在所述多个边界框1310的重叠区域的所述物品102的位置，如帧1320中所示。然后可以在所述物品的所述位置插入一个新的笛卡尔边界框边界框1322，如帧1324中所示。可以理解的是，在帧1324中示出的所述最终边界框1322比没有叠加各种单独的边界框1310的情况更准确，因为所述最终边界框1322是基于对所述物品位置的一个更精细的渲染，所述精细物品位置又优选地是基于所述多个单独边界框1310的叠加。可以理解的是，物品102及边界框1322在帧1324中相对于所述人类主体以一夸张的尺寸显示，以达到清晰呈现的目的。

可以理解的是，尽管本文描述的所述图像修改是相对于所述原始图像的旋转的详细说明，但额外的或可替换的类型的图像修改也是可能的，包括，作为示例，图像色标的多个改变，图像扭曲及图像放大率的多个选择性改变。

可以进一步理解，本文所述的图像修改并不限于应用于多个人工智能故障图像，如图像1101。相反，这种图像修改也可以应用于所述人工智能算法最初成功地识别所述物品存在及位置的多个图像，以更好地定义所述边界框的所述位置。在此情况下，由所述人工智能算法处理的所述原始的、未修改的图像可以被注释为指示一物品的所述存在及位置的一边界框，但所述边界框的所述大小及/或定位可能是不准确的。使用本文所述的图像修改方法可能是有利的，以便收紧所述边界框。

现在参考图13B，其是说明根据图13A的实施例执行的多个人工智能故障案例的所述改善及/或边界框收紧的多个步骤的一简化的流程图。

如图13B所见，基于图像修改的多个人工智能故障案例的改善及/或边界框紧缩的一方法1340可以开始于一第一步骤1342，其中选择一人工智能处理图像进行修改。然后，方法1340继续在一第二查询步骤1344处检查在第一步骤1342选择的所述图像是否包含一边界框。可以理解的是，查询步骤1344用于区分多个人工智能故障图像，其中在对所述图像进行人工智能处理之后没有画出边界框，以及人工智能成功处理的多个图像已经包含一边界框。

在第二查询步骤1344发现所述图像确实包含一边界框的情况下，则在一第三步骤1346旋转所述图像并应用一人工智能算法，以在一第四步骤1348于旋转的图像上重新绘制一边界框。然后，在第四步1348于旋转的图像上绘制的所述新边界框的多个参数与图像中存在的所述原始边界框的多个参数进行比较，如第五步骤1350所见。这些参数可以包括边界框尺寸、边界框位置或其他可能相关的多个参数。

如在一第六查询步骤1352所见，方法1340接着确定所述两个边界框的多个参数，即所述原始边界框及所述旋转图像中新绘制的边界框，是否相差超过一预定阈值。在参数差异不超过一预定阈值的情况下，如第七步骤1354所见，所述原始边界框被认为是可接受的，并且认为没有必要进一步处理所述原始图像。在此情况下，所述图像中的所述边界框被认为是充分准确地划定的，以至于不需要进一步收紧所述边界框，并且所述图像已准备好进一步处理，如下文参照图14A至图14D所概述。

在所述原始边界框的所述多个参数与所述新边界框相比确实相差超过一预定阈值的情况下，如在第六查询步骤1352所发现，或者在图像不包含一边界框的情况下，如在第二查询步骤1344所发现，方法1340进行到一第八步骤1360，其中所述图像被旋转了N个不同的角度，其中N可以是任何整数。对于每一个旋转图像，所述旋转图像优选地由一人工智能算法处理，以试图注释所述图像，并在所述图像内画出一个边界框，指示其中一物品的所述存在及位置，如在第九步骤1362所见。可以理解的是，在某些情况下，第九步骤1362可能是成功的，导致在所述旋转图像中的多个额外边界框的绘制，而在其他情况下，第九步骤1362可能是不成功的，不是由于所述人工智能算法识别所述图像中出现的一物体的失败，就是由于所述物品确实没有出现在所述图像中。

进一步理解的是，在第九步骤1362成功地在先前未成功地处理的多个图像中绘制多个新边界框的情况下，方法1340通过图像修改的方式已经成功地改善人工智能故障的情况。这种方法不同于多个传统的图像修改方法，在这种方法中，由多个人工智能算法成功地处理的多个图像可以被修改以从中提取进一步的信息。相反地，在本发明的一优选实施例中，被多个人工智能算法不成功地处理的多个图像被修改以改善所述多个图像，并将先前不成功地处理的多个图像转换为成功地处理的多个图像。然而，可以理解的是，在本发明的一些实施例中，方法1340可以额外地在成功地分析的多个图像上进行，以基于这些图像生成更多的数据。

如在一第十步骤1364及一第十一步骤1366所见，在对其进行所述人工智能处理后，所有包含一边界框的多个图像被选择并在空间上对齐。这种空间对齐可以涉及所述多个图像的反向旋转，以便将所有的所述图像返回到它们的原始方向，从而允许随后的叠加，如在第十二步骤1368所见。可以理解的是，第十步骤1364的作用是区分至少一摄像机的输出，其包含指示所述场景中至少一物体的所述存在及位置的信息，以及至少一摄像机的输出，其不包含指示所述场景中至少一物体的所述存在及位置的信息，如通过对所述多个图像的人工智能处理发现的。

只有那些被发现包含指示所述物体的所述存在及位置的信息的图像，如优选地由所述图像中的一边界框划定的，被编译成一图像组，其在第十一步骤1366处相互空间对齐，然后在第十二步骤1368处叠加。

如在一第十三步骤1370所见，然后优选地基于所述多个边界框的重叠的所述区域来定义一多边形。可以理解的是，所述多边形的所述大小及位置优选地对应于所述物品的大小及位置。如在第十四步骤1372所见，然后添加与所述多边形的所述位置相对应的一新笛卡尔边界框，所述新笛卡尔边界框优选地比存在于任何所述单读图像中的所述原始边界框更准确地对应于所述物品位置。

现在参考图14A及图14B，其是显示根据本发明的一优选实施例通过3D建模改善多个人工智能故障案例的图9A及图9B的实施例的部分的多个简化的图。

如图14A所见，说明图12所示的涉及物品102相对于购物者106及摄像机1-4的相同安排的一第三情况。多个摄像机输出1101、1102、1103及1104优选地由一人工智能算法处理，以找到其中物品102的所述存在及位置，其中物品可由注释所述图像的一边界框指示。可以理解的是，这种处理可以涉及所述原始图像的人工智能处理，如上文参照图10A至图12B所述，以及基于图像修改的人工智能处理，如上文参照图13A及图13B所述。

在这种情况下，作为例子，可以看到在多个图像1101及1103中插入了一边界框1400，而在多个图像1102及1104中没有看到插入边界框。可以理解的是，在多个图像1101及1103的情况下显示的所述边界框1400可以是在其初始人工智能分析之后原始地添加到所述图像中的边界框，可以是基于一初始边界框的一紧缩边界框，所述初始边界框随后通过图像修改的方式被完善，或者可以是基于一初始人工智能故障图像的一新边界框，如上文参考图13A及图13B所描述，基于图像修改的改进。

不管多个图像1101及1103中存在的所述边界框1400的所述特定性质，然后对优选地由摄像机1-4输出的所有所述多个图像优选地进行三维建模投影，如在一三维投影建模步骤1402处示意性地指示。三维投影建模步骤1402优选地涉及区分摄像机的多个输出，这些摄像机通过所述人工智能算法分析后被发现包含指示物品102的所述存在及位置的信息，以及摄像机的多个输出，这些摄像机通过所述人工智能算法分析后被发现不包含此类信息，并通过在其中添加指示物品102的所述存在及位置的信息来增强不包含指示物品102的所述存在及位置的信息的多个输出。更具体地，三维投影建模优选地涉及将多个边界框添加到不包含多个边界框的多个图像中，基于多个相应图像中的多个边界框的所述位置，如通过与所述多个边界框关联的多个像素所对应的多个射线的交会而发现的。三维投影建模可由一图像分析器进行，采用人工智能。然而，可以理解的是，三维投影建模并不局限于通过多个边界框对多个图像进行标注，还可以涉及通过任何划定的形状或区域对一图像中的物品的所述存在的所述指示。下面参照图14C提供关于三维投影建模的多个进一步细节。在此，作为例子，在执行三维投影建模之后，可以看到在多个图像1102及1104中插入了一新边界框1404。

可以理解的是，通过三维投影建模进行的诸如边界框1404这样的一边界框添加到一图像中并不一定精准，至少因为所述边界框明显地划定的所述物品可能不会实际出现在所述图像中。在此，作为例子，由于购物者106的所述阻挡，物品102没有出现在图像1104中，因此通过边界框1404对图像1104的所述注释是不精准的。

为了区分由三维建模投影成功地改善的多个图像及由三维建模投影不成功地改善的多个图像，优选地对由三维建模投影输出的多个图像进行过滤，如一过滤步骤1410所示意性地指出的。这种过滤可以基于所述多个图像的多个视觉或几何属性，并在下文中参照图14D进一步详细说明。

在此，作为例子，作为所述图像过滤的一结果，图像1104被拒绝，因为不正确地包括边界框1404，且多个图像1101、1102及1103被接受为成功地处理的多个图像，包括与物品102的所述存在及位置有关的准确信息。成功地处理的多个图像1101、1102及1103优选地被反馈到所述人工智能图像处理算法中，以进一步训练所述算法以可接受的精度识别物品的存在及位置。这样的人工智能处理及训练优选地是叠代地进行，直到所述种子人工智能算法已经被训练并发展成一成熟的算法并以一足够精度等级执行，从而不需要进一步的训练。

现在参考图14C，其是一简化的流程图，说明根据图14B的实施例执行的改善人工智能故障案例的所述3D建模投影阶段所涉及的多个步骤。

如图14C所见，用于3D投影建模1402的一方法1420优选地开始于一第一步骤1422，在所述第一步骤1422中找到与包含一边界框的每一个图像中的一边界框关联的至少一关键像素位置。可以理解的是，所述关键像素位置可以在所述边界框内，例如在所述边界框的所述中心或在所述边界框的所述四个角中的每一个，或者可以在所述边界框外靠近所述边界框的地方。

如在一第二步骤1424所见，然后优选地找到与每一个关键像素位置相对应的所述摄像机射线。可以理解的是，所述寻找对应于每一个像素位置的所述摄像机射线优选地是基于所述初始的摄像机间校准，如上文参考图2A及图2B所详述。这种摄像机间校准的作用是建立像素至射线校准，使得照明一给定摄像机观看一场景内的一物品的多个射线的多个参数可以与所述物品出现在所述摄像机传感器中的所述像素位置相关联。在第一步骤1422为一个给定边界框找到多个关键像素位置的情况下，优选地在第二步骤1424找到相应的多个射线，允许确定所述成像物品的位置及形状两者。

如在一第三步骤1426所见，优选地是在第二步骤1424所识别的所述多个射线之间进行匹配，其中优选地是确定所述多个射线的交会的所述点或区域。可以理解的是，射线交会的所述点或区域可以被认为是对应至所述被成像物品的所述位置。至少两条射线的交会可以被认为足以建立在射线交会的所述区域的被成像物品102的所述存在。

如在第四步骤1428所见，对应于与在第三步骤1426发现的交会的所述点不相交的多个射线相关的多个关键像素位置的多个边界框被认为是不正确地注释的多个边界框，且因此被拒绝。可以理解的是，第四步骤1428的作用是过滤掉假阳性(false positives)，其中所述人工智能算法可能在实际上不包含所述物品的多个图像中错误地放置多个边界框，或者可能在多个图像中的多个不正确位置放置多个边界框。

如在第五步骤1430所见，一旦基于射线相交已经建立了所述物品位置，在具有不包含一边界框的多个输出的摄像机的情况下，可以找到与所述物品位置对应的所述多个摄像机射线。对应于所述摄像机射线的所述像素位置可以基于已知的像素至射线校准来确定，如在第六步骤1432所见。随后，如在第七步骤1434所见，可以在先前不包含边界框的多个图像中，在第六步骤1432所识别的像素位置处绘制一新边界框。

可以理解的是，在本发明的某些实施例中，方法1420中的多个步骤可以被省略。例如，在摄像机110被体现为多个深度摄像机的情况下，这种摄像机的像素至射线的相关性是自动地已知的，因此，诸如多个步骤1424及1432的多个相关性步骤可以被省略。

现在参考图14D，其是一个简化的流程图，说明根据图14B的实施例执行的改善多个人工智能故障案例的所述过滤阶段所涉及的多个步骤。

如图14D所示，用于过滤1410(图14B)的三维投影建模1402(图14B)的所述多个输出的一方法1480优选地开始于一第一步骤1482，其中提供由三维投影建模输出的多个图像。这些图像可以通过多样化的可能过滤方法中的至少一者进行过滤。

如在第二步骤1484所见，多个图像可以基于背景减法进行过滤，其中具有一静态背景的多个图像的一时间序列被拒绝，因为不显示正在由购物者106处理的物品102，因为这样的多个图像将被期望具有一动态背景，其会因所述物品的所述定位的多个改变而随时间变化。

额外地或可替换地，如在一第三步骤1486所见，可基于其多个共同视觉属性过滤多个图像。根据第三步骤1486，在第一步骤1482输入的多个图像内的多个边界框的多个视觉属性被比较，以评估其多个视觉属性的所述相似性。这些视觉属性可以包括颜色、纹理或其他属性。在发现一图像中的一边界框与第一步骤1482提供的所述多个图像中的其他图像中的多个边界框的所述多个视觉属性相比具有明显不同的多个视觉属性的情况下，所述边界框被认为不对应于由所述其他多个边界框识别的相同物品并被拒绝。

额外地或可替换地，如在一第四步骤1488所见，可以基于其多个几何属性过滤多个图像。特别是，可以找到一给定摄像机，其位置是基于所述初始摄像机间相互校准而已知的，与基于所述相应的摄像机图像中的所述边界框的所述位置的所述明显物品位置之间的距离。所述摄像机及所述明显物品位置之间的距离可以与所述摄像机及所述物品位置之间的所述预期距离进行比较，其中距离基于通过三维建模投影找到的所述物品位置而已知，如参考图14C所述。在所述摄像机与物品的距离为不可接受的小的情况下，这就被认为是另一个物体阻挡所述感兴趣的物品，如在图像1104(图14B)中所见的情况且所述图像被拒绝。可以理解的是，由于由此提供的所述深度信息，多个深度摄像机的所述使用在促进几何过滤方面是特别地有利的。

如在第五步骤1490所见，只有经历所有的所述多个过滤步骤1484、1486及1488继续存在的那些图像是优选地被认为包括准确地放置的多个边界框的多个图像，是指示物品102的所述存在及位置。可以理解的是，第二、第三及第四步骤1484、1486及1488可以平行地进行，也可以依次地进行，其中只有基于一第一类型的过滤被认为是可接受的那些图像被传递到一随后的过滤步骤。在第五步骤1490输出的那些图像优选地随后被反馈到所述原始人工智能算法中，以便进一步训练所述人工智能算法。

可以理解的是，在上文参照图9A至图14D描述的本发明的实施例中，所述感兴趣的物品102，相对于物品102的多个边界框优选地由所述人工智能算法插入，是在由购物者106处理的一典型无生命物品。然而，在某些情况下，可能希望训练所述人工智能算法来识别购物者106的所述存在及位置，而不是/除了由此处理的物品102之外，例如，为了便于在场所104内追踪购物者106(图9A及9B)。现在参照图15A至图17D描述本发明的一优选实施例，其中所述人工智能算法被训练成基于改善多个人工智能故障案例来识别个人106的所述存在及位置。

现在参考图15A及图15B，说明涉及物品102相对于购物者106及摄像机1-4的一安排的一额外情况。摄像机1-4优选地同时对处理物品102的购物者106成像，并提供各自的多个输出图像1501、1502、1503及1504。

如图15B所见，图像1501、1502、1503及1504优选地由一人工智能算法处理，以识别其中购物者106的所述存在及位置。购物者106的所述存在及位置由形成购物者106的一姿势图的多个关键点1510指示。通常，多个图像可以由所述人工智能算法的八个关键点来注释，以形成代表购物者106的所述身体的一上部的一姿势图。然而，可以理解的是，在所述姿势图中可以包括更多或更少的关键点，取决于所述多个特定图像处理要求。

在此，作为示例，可以看到8个关键点1510被添加到多个图像1501及1502中的每一个，形成划定购物者106的头部、手臂及躯干的上部的一姿势图。没有关键点被添加到多个图像1503及1504。在图像1503的情况下，尽管购物者106出现在图像1503中，但在所述人工智能算法处理所述图像后，没有添加关键点。这样一情况可以被称为一人工智能故障案例，其中所述摄像机输出，在此是图像1503，经所述人工智能算法分析后，没有发现包含指示个人106的所述存在及位置的信息，尽管这种信息存在于所述摄像机输出中。这种人工智能故障可能是由于所述人工智能算法的限制而发生的，因为人工智能算法没有被训练成在多个图像中识别多个物品(在此是多个人类物品)的所述存在及位置的一足够精度等级。

可以理解的是，就图像1503所说明的所述人工智能故障情况与图像1504的情况不同。在这两种情况下，所述人工智能算法都没有识别所述物品，即购物者106，在所述图像中的所述存在及位置，也没有将关键点添加到所述各自的图像中。然而，在图像1504的情况下，个人106确实没有出现在所述图像中，所述人工智能算法因此正确地没有识别所述图像内的个人106，而在图像1503的情况下，个人106确实出现在所述图像中，缺乏所述图像中个人106的所述存在及位置的识别是由于所述人工智能算法的故障而不是所述图像的多个固有属性。

为了改善所述人工智能故障的情况，如图15A及图15B的示例中的图像1503，可以采用图像修改。图16A是图9A及图9B的实施例的部分的一简化的图，显示根据本发明的一优选实施例通过图像修改来改善多个人工智能故障案例。

如图16A所见，一人工智能故障案例图像如图像1503可以由至少一观察一场景的摄像机输出。可以理解的是，如本文参照图16A及图16B所描述的多个图像修改方法可以在一或多个摄像机的所述输出上执行。在基于采用参考图15B所述的人工智能确定所述输出不包含指示所述场景中至少一人类物体的所述存在及位置的信息之后，可以对所述摄像机输出进行修改。

优选地，所述修改涉及将所述人工智能故障图像旋转大量相互不同的角度，并采用人工智能来分析每个修改的输出，如通过一给定的角度旋转，以找到所述图像中所述人类物品的所述存在及位置。

在此，作为例子，所述原始图像1503被显示为被四个不同的角度旋转，产生旋转图像1602、1604、1606及1608。最初未成功地采用以分析图像1503的所述人工智能算法优选地被重新采用以分析多个旋转图像1602、1604、1606及1608中的每一个旋转图像。对多个修改的人工智能故障图像的所述人工智能算法的采用已被发现，在某些情况下，造成了成功地注释所述多个图像并识别所述多个图像中一物品的所述存在及位置。在此，作为例子，显示多个关键点1610被添加到多个图像1602、1604、1606及1608中的每一个，作为通过所述人工智能算法的所述处理的一结果，至少部分地识别其中的个人106的所述位置。

可以理解的是，在多个修改的人工智能故障图像上的所述人工智能算法的所述采用可能部分地成功，导致在所述多个图像内插入一些虽然不是全部的关键点，如在多个图像1602、1604及1608的情况下所示。进一步理解的是，在多个修改的人工智能故障图像上的所述人工智能算法的采用可能完全地成功，导致在所述多个图像内的多个关键点的所述最大选定数量所述插入，如图像1606的情况所示，看到通过八个关键点的所述最大数量被注释。

然后，优选地通过反向旋转重新对准所述多个注释图像，并将其中现在存在的多个关键点叠加起来，以在所述多个相应关键点的所述重叠区域1618处定义与每一个关键点的所述位置相对应的可能不规则的轮廓，如帧1620所示。然后可以在每一个关键点重叠的所述位置插入一或多个新关键点1622，如在帧1624所示。可以理解的是，包括在第1624帧中说明的所述新关键点组的所述最终姿势图比没有叠加各种单独的关键点的情况下更准确，因为帧1624的所述最终姿势图是基于对所述多个关键点位置的一更精细的渲染，反过来基于所述单独相应关键点的叠加。

可以理解的是，尽管本文描述的所述图像修改是相对于所述原始图像的旋转的详细说明，但额外的或可替换的图像修改的多个类型也是可能的，包括，作为例子，图像色标的多个改变，图像扭曲及图像放大的多个选择性改变。

可以进一步理解的是，本文所述的图像修改并不限于应用于多个人工智能故障图像，如图像1503。相反，这种图像修改也可以应用于人工智能算法初始地成功地识别所述物品存在及位置的多个图像，以更好地定义所述多个关键点的所述位置。在此情况下，由所述人工智能算法处理的所述原始的、未修改的图像可能被注释为指示一人类物品的所述存在及位置的一关键点组，但是一或多个所述关键点的所述定位可能是不准确的。使用本文所述的图像修改方法可能是有利的，以改进包括所述多个关键点的所述姿势图。在包含某些但不是最大数量的关键点的一注释图像的情况下，使用本文所述的图像修改方法也可能是有利的。在此情况下，图像修改可以用于通过补充额外的多个关键点来改善所述图像，从而导致代表购物者106的一更完整的姿势图的生成。

现在参考图16B，其是一简化的流程图，说明根据图16A的实施例执行的多个人工智能故障案例及/或姿势图的所述改善的多个步骤。

如图16B所见，基于图像修改的改善多个人工智能故障案例及/或姿势图的改进的一方法1640可以在一第一步骤1642开始，其中选择一人工智能处理图像进行修改。然后，方法1640继续在一第二查询步骤1644处检查在第一步骤1642选择的所述图像是否包含多个关键点的所述总可能数量，如8个关键点。可以理解，查询步骤1644用于区分包含包含多个关键点的最大数量的完整姿势图的成功处理的多个图像以及多个人工智能故障或部分故障图像，其中在所述图像的人工智能处理之后添加少于所述最大数量的关键点或没有添加关键点。

在第二查询步骤1644发现所述图像确实包含多个关键点的所述总数量的情况下，在一第三步骤1646旋转所述图像，并在一第四步骤1648应用一人工智能算法，以在所述旋转图像上重新绘制所述多个关键点。然后，在第四步骤1648在所述旋转图像上绘制的所述多个新关键点的多个参数与所述图像中存在的所述多个相应原始关键点的多个参数进行比较，如在一第五步骤1650所见。这些参数可以包括关键点位置或多个其他参数。

如在一第六个查询步骤1652所见，方法1640接着确定所述多个相应关键点对的多个参数，即所述原始关键点及所述旋转图像中的所述相应新绘制关键点，是否相差超过一预定阈值。在参数差异不超过一预定阈值的情况下，如在一第七步骤1654所见，所述原始关键点组被认为是可以接受的，并且认为没有必要对所述原始图像作进一步处理。在这种情况下，所述图像中的所述姿势图被认为是充分准确地划定的，以至于不需要进一步修改，并且所述图像已经准备好进一步的处理，如下面参照图17A至图17D所概述的。

在所述多个原始关键点的所述多个参数与所述多个新关键点相比确实相差超过一预定阈值的情况下，如在第六查询步骤1652发现的，或者在所述图像不包含多个关键点的所述总数量的情况下，如在第二查询步骤1644发现的，方法1640进行到一第八步骤1660，其中所述图像被旋转了N个不同的角度，其中N可以是任何整数。对于每一个旋转图像，优选地由一人工智能算法处理所述旋转图像，以试图注释所述图像，并在所述图像内绘制出一关键点组，指示其中一人类物品的所述存在及位置，如在一第九步骤1662所见。可以理解的是，在某些情况下，第九步骤1662可能是成功的，导致在所述多个旋转图像中的多个额外关键点的绘制，而在其他多个情况下，第九步骤1662可能是不成功的，不是由于所述人工智能算法未能识别所述图像中出现的一个个人，就是由于一个个人确实没有出现在所述图像中。

可以进一步理解的是，在第九步骤1662成功的在先前不成功的多个人工智能处理图像中绘制多个新关键点的情况下，方法1640已经成功地通过图像修改的方式改善了多个人工智能故障案例。这种方法不同于传统的图像修改方法，在这种方法中，由人工智能算法成功处理的多个图像可以被修改，以从中提取进一步的信息。相反地，在本发明的一优选实施例中，被人工智能算法处理不成功的图像被修改，以改善所述多个图像，并将先前不成功处理的多个图像转换成成功处理的多个图像。

如在第十步骤1664及第十一步骤1666所见，在对其进行所述人工智能处理后，所有包含多个关键点的多个图像都被选择并进行空间对齐。这种空间对齐可能涉及所述多个图像的反向旋转，以便将所有的图像恢复到它们的原始方向，从而允许随后的叠加，如在一第十二步骤1668所见。可以理解的是，第十步骤1664的作用是区分至少一摄像机的包含指示所述场景中至少一人类物体的所述存在及位置的信息的多个输出，以及至少一摄像机的不包含指示所述场景中至少一人类物体的所述存在及位置的信息的多个输出，如通过对所述多个图像的人工智能处理发现的。

只有那些包含指示所述物体的所述存在及位置的信息的多个图像，如优选地由所述图像中的多个关键点划定的，被编译成一图像组，这些图像在第十一步骤1666相互空间对齐，然后在第十二步骤1668叠加。

如在第十三步骤1670所见，优选地然后基于每一组叠加关键点的重叠的所述区域来定义一多边形。如在第十四步骤1672所见，接着添加一新关键点，对应于每一个多边形的所述位置，所述新关键点优选地比所述多个单独图像中的任何单独图像中存在的所述原始关键点更准确地对应于购物者106的所述身体的所述相关部分。

现在参考图17A及17B，其是图9A及9B的实施例的部分的多个简化的图，显示了根据本发明的一优选实施例通过3D建模改善多个人工智能故障案例。

如图17A所示，说明了涉及物品102相对于购物者106及摄像机1-4的相同布置的一第三情况，如图15A所示。多个摄像机输出1501、1502、1503及1504优选地由一人工智能算法处理，以找到其中个人106的所述存在及位置，所述个人可由包括注释所述图像的一关键点组的一姿势图指示。可以理解的是，这种处理可以涉及所述原始图像的人工智能处理，如本文参考图15B所述，以及基于图像修改的人工智能处理，如本文参考图16A及16B所述。

在这种情况下，作为例子，可以看到在图像1501及图像1503中插入了多个关键点1700，而在图像1502及图像1504中没有看到插入关键点。可以理解的是，在图像1501及图像1503的情况下显示的所述多个关键点1700可能是在其初始人工智能分析之后原始地添加到所述图像中的多个关键点，可能是基于随后通过图像修改的方式被完善的一初始姿势图的多个关键点，或者可能是基于图像修改而改善的基于一初始人工智能故障图像的一新关键点组，如本文参考图16A及16B所描述。

不管存在于图像1501及图像1503中的所述多个关键点1700的所述特定性质，优选地，接着对优选地由摄像机1-4输出的所有图像进行三维建模投影，如在一三维投影建模步骤1702示意性地指示。三维投影建模优选地涉及区分摄像机的多个输出，如经所述人工智能算法分析的，发现其包含指示个人106的所述存在及位置的信息，以及摄像机的多个输出，如经人工智能算法分析的，发现其不包含此类信息，并通过向其添加指示个人106的所述存在及位置的信息来增强不包含指示个人106的所述存在及位置的多个输出。更具体地，三维投影建模优选涉及将多个关键点添加到不包含多个关键点的多个图像中，基于多个关键点在多个相应图像中的所述位置，如通过与所述多个关键点关联的多个像素所对应的多个射线的交会发现的。三维投影建模可以由一图像分析器进行，采用人工智能。关于三维投影建模的多个进一步细节，优选地在下文中参照图17C提供。在此，作为例子，在三维投影建模的执行之后，可以看到一新关键点组1704被插入到图像1502及图像1504中。

可以理解的是，将一组关键点组如多个关键点1704添加到一图像中，如通过三维投影建模进行，不是必定是准确的，至少因为由所述多个关键点明显划定的所述人类物品可能没有实际出现在所述图像中。在此，举例来说，由于物品102的所述阻挡，购物者106没有出现在图像1504中，因此由多个关键点1704对图像1504的所述注释是不准确的。

为了区分由三维建模投影成功地改善的多个图像以及由三维建模投影不成功地改善的多个图像，优选地对由三维建模投影输出的多个图像进行过滤，如一过滤步骤1710所示意性地指示的。这种过滤可以基于所述多个图像的视觉或几何属性，并在下文中参照图17D进一步详细说明。

在此，作为例子，作为所述图像过滤的一结果，图像1504被拒绝，因为不正确地包括多个关键点1704，而多个图像1501、1502及1503被接受为多个成功处理图像，包括与个人106的所述存在及位置有关的准确信息。多个成功处理图像1501、1502及1503优选地被反馈到所述人工智能图像处理算法中，以进一步训练所述算法，以可接受的精度识别一个人的所述存在及位置。这样的人工智能处理及训练优选地是叠代地进行，直到所述种子人工智能算法已经被训练并发展成一成熟算法，以一足够精度等级执行，从而不需要进一步训练。

现在参考图17C，它是一简化的流程图，说明根据图17B的实施例执行的改善多个人工智能故障案例的一三维投影建模阶段中所涉及的多个步骤。

如图17C所见，用于三维投影建模1702的方法1720优选地开始于一第一步骤1721，其中包含至少一关键点的每一个图像中的每一个关键点被标记为所述关键点所对应的所述身体上的所述位置。优选地是在对所述多个关键点进行所述标记之后，在一第二步骤1722找到与每一个关键点关联的至少一关键像素位置。可以理解的是，所述关键像素位置可以在所述关键点内，例如在所述关键点的所述中心或在所述关键点的外面。

如在一第三步骤1724所见，优选地接着找到对应于每一个关键像素位置的所述摄像机射线。可以理解的是，找到对应于每一个像素位置的所述摄像机射线可以基于所述初始摄像机间校准，如上文参考图2A及图2B所述。这种摄像机间校准的作用是建立像素至射线校准，使得照明观察场景内一物品的一给定摄像机的多个射线的多个参数可以与所述物品出现在所述摄像机图像中的所述像素位置相关联。

正如在一第四步骤1726所见，优选地在第三步骤1724所识别的所述多个射线之间进行匹配，其中优选地确定所述多个射线的交会的所述点或区域。可以理解的是，射线交会的所述点或区域可以被认为是对应于由各自标记的关键点指示的所述人类身体上所述的位置。至少两个射线的交会可以被认为是足以确定在射线交会的所述区域的所述身体部位的所述存在。

如在一第五步骤1728所见，对应于与不与交会的所述点相交的多个射线相关联的多个关键像素位置的多个关键点被认为是不正确地放置的多个关键点，且因此被拒绝。可以理解的是，第五步骤1728的作用是过滤掉假阳性，其中所述人工智能算法可能错误地将多个关键点置于实际上不包含所述个人的多个图像中，或者可能错误地标记多个关键点。

如在一第六步骤1730所见，一旦基于射线交会已经建立了所述身体部位位置，在具有不包含一关键点的多个输出的所述摄像机的情况下，可以找到对应于所述身体部位位置的所述摄像机射线。对应于所述摄像机射线的所述像素位置可以基于已知的像素至射线校准来确定，如在一第七步骤1732所见。随后，如在一第八步骤1734所见，可在先前不包含第七步骤1732中确定的像素位置的一关键点的多个图像中绘制一新关键点组。

现在参考图17D，它是一简化的流程图，说明根据图17B的实施例执行的改善多个人工智能故障案例的一过滤阶段中涉及的多个步骤。

如图17D所见，用于过滤1710的三维投影建模1702的所述多个输出的一方法1780优选地开始于一第一步骤1782，其中提供由三维投影建模输出的多个图像。这些图像可以通过各种可能的过滤方法中的至少一者进行过滤。

如在第二步骤1784中所见，多个图像可以基于背景减法进行过滤，其中具有一静态背景的多个图像的一时间序列被拒绝，因为这种图像将被期望具有一动态背景。

额外地或可替换地，如在一第三步骤1786所见，可以基于多个共同视觉属性来过滤多个图像。基于第三步骤1786，在第一步骤1782输入的多个图像内的多个相应关键点的多个视觉属性被比较，以评估其视觉属性的所述相似性。这种视觉属性可以包括颜色、纹理或多个其他属性。如果发现一图像中的一关键点与第一步骤1782提供的所述多个图像中的其他图像中的相应关键点的所述多个视觉属性相比具有明显不同的视觉属性，则认为所述关键点与其他多个关键点所识别的所述身体部位不相同并被拒绝。

额外地或可替换地，如在一第四步骤1788所看到的，可以基于其多个几何属性过滤图像。特别是，可以找到一给定摄像机，其位置是基于所述初始摄像机相互校准而已知的，与基于所述关键点的所述位置的所述明显身体部位位置之间的距离。可以将所述摄像机及所述明显身体部位位置之间的距离与所述摄像机及所述身体部位位置之间的所述预期距离进行比较，所述距离是基于参照图17C描述的通过三维建模投影发现的所述身体部位的所述位置而已知的。如果所述摄像机与所述身体部位的距离是不可接受的小，这就被认为是另一个物体阻挡感兴趣的所述身体部位，如在图像1504(图17B)中所见，且所述图像被拒绝。可以理解的是，由于由此提供的所述深度信息，使用多个深度摄像机作为摄像机110在促进几何过滤步骤1888是特别有利的。

如在一第五步骤1790所见，只有在经历过所有过滤步骤1784、1786及1788中继续存在的那些图像优选地被认为是包括准确放置的多个关键点的多个图像，所述多个关键点是指示个人106的所述存在及位置。可以理解的是，第二、第三及第四步骤1784、1786及1788可以平行进行，也可以按顺序进行，其中只有基于一第一类型的过滤被认为是可接受的那些图像被传递到一随后的过滤步骤。在第五步骤1790输出的那些图像优选地随后反馈到所述原始人工智能算法中，以进一步训练所述人工智能算法。

可以理解的是，在某些情况下，被摄像机110成像的所述场景可能包括超过一个的物品102或个人106。在这种情况下，在要由所述人工智能算法识别的感兴趣的所述物体是物品102的情况下，可以绘制与感兴趣的多个物品102的数量相对应的多个边界框。可替换地，可以绘制一放大的单一边界框，并且所述算法可以包括一输出，指示所述边界框包含超过一个的感兴趣的物品。

在要由所述人工智能算法识别的感兴趣的所述物体是一个人如购物者106的情况下，可以生成多个关键点，并且可以基于其所述标签将所述多个关键点分组为多个单独个的姿势图。

可以理解的是，一旦用于识别物品存在及位置的人所述工智能算法已经被充分训练，无论所述物品是一物体102还是一人类主体106，所述人工智能算法可以在系统100内操作，如上文参考图1-8所述。

现在参考图18，其是显示边界框收紧的图9A及9B的实施方案的部分的一简化的图。

在所述人工智能算法成功的处理多个图像之后，所述成功的处理可能涉及如上所述的图像改进，优选地将多个成功处理图像反馈给所述算法以训练所述算法。在为进一步训练的所述多个目的将所述多个图像反馈给所述算法之前，对含有多个边界框的多个图像进行边界框紧缩可能是有益的，以确保增强精度的多个边界框被用于所述算法的进一步训练。

图18中显示了包括一边界框1802的一成功处理图像1800的一部分。如图18所示，边界框1802包括其中感兴趣的物品102以及购物者106处理物品102的手1804的一部分。为了提高边界框1802的所述精度，可以使用像素分割来区分与手1804对应的所述图像部分及与物品102对应的所述图像的多个部分。此外，多个背景减法技术可被应用，以去除图像1800的多个静态部分。作为此技术的一结果，边界框1802可以被缩小，并且更准确地定位，如在所述收紧后基于原始边界框1802的新边界框1820的情况下所见。

可以理解的是，除了像素分割及背景减法之外，边界框收紧可以通过额外的或可替换的技术来实现，这在本领域可能是已知的。

本领域的技术人员可以理解，本发明并不局限于下文中的权利要求的内容。相反，本发明的范围包括本文所述特征的各种组合及子组合，以及本领域技术人员在阅读上述描述并参考附图后会想到的、现有技术中没有的修改及变化。

Claims

1.一种方法，用于处理与一物体相关的视觉数据，其特征在于：所述方法包括：

使至少一摄像机观察一场景；以及

采用视觉分析以：

确定来自所述至少一摄像机的至少一输出是否包含指示在所述场景中的至少一物体的存在及位置的信息；以及

增强不包含指示在所述场景中的所述至少一物体的所述存在及位置的信息的至少一输出，通过在其中添加指示所述至少一物体在所述场景中的所述存在及位置的信息。

2.根据权利要求1所述的方法，其特征在于：指示所述至少一物体的所述存在及位置的添加的所述信息是基于来自被安排成观察所述场景的至少两个其他摄像机的多个输出得出的。

3.根据权利要求2所述的方法，其特征在于：所述增强包括：

识别与指示所述至少一物体在来自所述至少两个其他摄像机的所述多个输出中的所述存在及位置的一边界框关联的至少一像素位置；

对于每一个所述像素位置，为所述至少两个其他摄像机寻找与其相对应的一摄像机射线；

执行所述多个摄像机射线中的一些摄像机射线之间的匹配，以寻找它们之间交会的一点，交会的所述点对应至所述物体的所述位置；

为具有一输出的所述至少一摄像机寻找对应至所述物体位置的一摄像机射线，所述输出不包含指示所述至少一物体的所述存在及位置的信息；

为具有一输出的所述至少一摄像机寻找对应至所述摄像机射线的一像素位置，所述输出不包含指示所述至少一物体的所述存在及位置的信息；以及

在对应至所述摄像机射线的所述像素位置，插入一新边界框至来自所述至少一摄像机的所述输出中，所述新边界框指示所述至少一物体的所述存在及位置。

4.根据权利要求3所述的方法，其特征在于：所述寻找所述摄像机射线及所述寻找对应至所述摄像机射线的一像素位置是基于所述至少一摄像机及所述至少两个其他摄像机的事先交互校准。

5.根据前述权利要求中的任一权利要求所述的方法，其特征在于：在所述增强步骤之后，还包括：过滤已经在其中添加指示所述场景中所述至少一物体的所述存在及位置的所述信息的所述输出，以确定所述增强是否成功。

6.根据权利要求5所述的方法，其特征在于：所述过滤是基于所述至少一输出的多个视觉或几何属性。

7.根据前述权利要求中的任一权利要求所述的方法，其特征在于：在所述确定步骤之后及所述增强步骤之前，还包括：

修改来自所述至少一摄像机的所述至少一输出，以提供至少一修改输出；以及

采用人工智能来确定在所述至少一修改输出中的所述至少一物体的所述存在及所述位置。

8.根据权利要求7所述的方法，其特征在于：

所述修改包括以大量的相互不同角度旋转所述至少一输出，以提供大量旋转输出；以及

所述采用人工智能来确定在所述至少一修改输出中的所述至少一物体的所述存在及所述位置包括采用人工智能来确定在所述大量旋转输出中的所述至少一物体的所述存在及所述位置。

9.根据权利要求7或权利要求8所述的方法，其特征在于：采用人工智能来确定在所述至少一修改输出中的所述至少一物体的所述存在及所述位置包括采用人工智能来通过指示其中所述至少一物体的所述存在及所述位置的一边界框注释所述至少一修改输出。

10.根据前述权利要求中的任一权利要求所述的方法，其特征在于：所述至少一物体包括一非人类物品或一人类主体中的至少一者。

11.一种系统，用于处理与一物体相关的数据，其特征在于：所述系统包括：

被安排成观察一场景的至少一摄像机；以及

一图像分析器，可操作用以：

12.根据权利要求11所述的系统，其特征在于：还包括被安排成观察所述场景的至少两个其他摄像机，指示所述至少一物体的所述存在及位置的添加的所述信息是基于来自所述至少两个其他摄像机的所述多个输出得出的。

13.根据权利要求12所述的系统，其特征在于：所述图像分析器可操作用以增强所述至少一输出，通过可操作用以：

为具有一输出的所述至少一摄像机寻找对应至所述物体的所述位置的一摄像机射线，所述输出不包含指示所述至少一物体的所述存在及位置的信息；

14.根据权利要求13所述的系统，其特征在于：所述图像分析器可操作用以寻找所述摄像机射线，以及基于所述至少一摄像机及所述至少两个其他摄像机的事先交互校准，寻找对应至所述摄像机射线的所述像素位置。

15.根据权利要求11至14中的任一权利要求所述的系统，其特征在于：所述图像分析器额外地可操作用以过滤已经在其中添加指示所述场景中所述至少一物体的所述存在及位置的所述信息的所述输出，以确定所述信息是否成功地被添加。

16.根据权利要求15所述的系统，其特征在于：所述图像分析器可操作用以基于所述至少一输出的多个视觉或几何属性进行过滤。

17.根据权利要求11至16中的任一权利要求所述的系统，其特征在于：在可操作用以增强所述至少一输出之前，所述图像分析器额外地可操作用以：

18.根据权利要求17所述的系统，其特征在于：

所述图像分析器可操作用以修改所述至少一输出包括所述至少一输出的大量的相互不同角度的旋转，以提供大量旋转输出；以及

所述图像分析器可操作用以采用人工智能来确定在所述至少一修改输出中的所述至少一物体的所述存在及所述位置包括人工智能的采用，以确定在所述大量旋转输出中的所述至少一物体的所述存在及所述位置。

19.根据权利要求17或权利要求18所述的系统，其特征在于：确定在所述大量旋转输出中的所述至少一物体的所述存在及所述位置的人工智能的所述采用，包括人工智能的采用，以通过指示其中所述至少一物体的所述存在及所述位置的一边界框注释所述至少一修改输出。

20.根据权利要求11至19中的任一权利要求所述的系统，其特征在于：所述至少一物体包括一非人类物品或一人类主体中的至少一者。