CN116363354A

CN116363354A - 物品追踪方法及装置、计算机可读存储介质

Info

Publication number: CN116363354A
Application number: CN202310436790.7A
Authority: CN
Inventors: 秦树林
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-06-30

Abstract

本公开涉及物品追踪方法及装置、计算机可读存储介质，涉及仓储物流领域。物品追踪方法包括：根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，其中，目标人物根据待追踪物品的物流信息确定；根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域；根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置；根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品。根据本公开，提高了物品追踪的准确性。

Description

物品追踪方法及装置、计算机可读存储介质

技术领域

本公开涉及仓储物流领域，特别涉及物品追踪方法及装置、计算机可读存储介质。

背景技术

随着经济全球化进程的加快，当今消费者更依赖于网购商品。物流便是快节奏消费时代的核心，必须适应快速变化的消费者需求，其中，一个重要的问题就是运输过程中物品的丢失和损毁。在物流行业中，每天丢失和损毁的物品数量是惊人的。

在分拣仓库中的扫描物品单号的区域，一般会设置有多个摄像头，对扫描场景进行监控录像，这些监控视频可以作为后期丢失物品的查找和判责的证据。例如，将当前物品从A站点配送到B站点，B站点没有收到相关物品，此时A站点可以根据场地监控视频，对丢失的物品进行视频追踪，证明此物品不是在A点丢失的，从而进行责任的划分。

发明内容

根据本公开的第一方面，提供了一种物品追踪方法，包括：

根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，其中，目标人物根据待追踪物品的物流信息确定；

根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域；

根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置；

根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品。

在一些实施例中，根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域，包括:

根据在指定方向上最远的两个关键点之间的距离，确定目标人物的身体宽度；

根据在目标视频的起始帧中目标人物的身体宽度和身体姿态，确定在目标视频的起始帧中目标人物的手臂最远能到达的位置；

根据在目标视频的起始帧中目标人物的手臂最远能到达的位置，提取在目标视频的起始帧中目标人物的操作区域。

在一些实施例中，身体姿态包括身体朝向，根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，包括：

根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的手臂向量；

根据在目标视频的起始帧中目标人物的手臂向量，确定在目标视频的起始帧中目标人物的身体朝向。

在一些实施例中，所述多个键点包括手部关键点和肩部关键点，手臂向量包括目标人物身体一侧的第一手臂向量和目标人物身体另一侧的第二手臂向量，所述根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的手臂向量，包括：

根据在目标视频的起始帧中目标人物身体一侧的手部关键点和肩部关键点，确定第一手臂向量；

根据在目标视频的起始帧中目标人物身体另一侧的手部关键点和肩部关键点，确定第二手臂向量。

在一些实施例中，根据在目标视频的起始帧中目标人物的手臂向量，确定在目标视频的起始帧中目标人物的身体朝向，包括：

根据第一手臂向量和第二手臂向量加权的结果，确定在目标视频的起始帧中目标人物的身体朝向。

在一些实施例中，根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置，包括：

确定操作区域中的一个或多个物品的位置；

在操作区域中的物品为多个的情况下，确定操作区域中目标人物的操作装置的位置；

根据操作区域中的一个或多个物品的位置和操作区域中目标人物的操作装置的位置，确定待追踪物品的位置。

在一些实施例中，确定操作区域中的一个或多个物品的位置，包括：

生成操作区域中的一个或多个物品的检测框；

根据操作区域中的一个或多个物品的检测框，确定操作区域中的一个或多个物品的位置。

在一些实施例中，确定操作区域中目标人物的操作装置的位置，包括：

生成操作区域中目标人物的操作装置的检测框；

根据操作区域中目标人物的操作装置的检测框，确定操作区域中目标人物的操作装置的位置。

在一些实施例中，根据操作区域中的一个或多个物品的位置和操作区域中目标人物的操作装置的位置，确定待追踪物品的位置，包括：

将位置离操作装置最近的物品确定为待追踪物品。

在一些实施例中，物品追踪方法还包括：

根据待追踪物品的物流信息，确定目标视频的起始帧。

在一些实施例中，根据待追踪物品的物流信息，确定目标视频的起始帧，包括：

根据物流信息中的待追踪物品的操作时间、操作地点，确定候选视频；

根据待追踪物品的操作时间和候选视频的每秒传输帧数，确定目标视频的起始帧；

根据目标视频的起始帧，从候选视频中截取目标视频。

在一些实施例中，待追踪物品的操作时间为待追踪物品最后一次被扫描的时间。

在一些实施例中，物品追踪方法还包括：

生成在目标视频的起始帧中目标人物的检测框；

根据在目标视频的起始帧中目标人物的检测框，生成在目标视频的起始帧中目标人物的多个关键点。

在一些实施例中，生成在目标视频的起始帧中目标人物的检测框，包括：

生成目标视频的起始帧中的一个或多个候选人物的检测框，其中，每个检测框对应一个候选人物；

在检测框为多个的情况下，根据每个检测框对应的特征，确定检测框对应的候选人物的标识；

根据检测框对应的候选人物的标识和待追踪物品的物流信息中的目标人物的标识，确定目标人物对应的检测框。

在一些实施例中，根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品，包括：

从目标视频的起始帧开始，根据在目标视频的当前帧中待追踪物品的位置，预测在目标视频的下一帧中待追踪物品的位置。

在一些实施例中，根据在目标视频的当前帧中待追踪物品的位置，预测在目标视频的下一帧中待追踪物品的位置，包括：

根据在目标视频的当前帧中待追踪物品的位置和移动速度，预测在目标视频的下一帧中待追踪物品的位置，得到位置预测结果；

根据下一帧的图像，利用目标检测模型，检测在目标视频的下一帧中待追踪物品的位置，得到位置检测结果；

根据位置预测结果和位置检测结果，预测在目标视频的下一帧中待追踪物品的位置。

根据本公开的第二方面，提供了一种物品追踪装置，包括：

姿态确定模块，被配置为根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，其中，目标人物根据待追踪物品的物流信息确定；

提取模块，被配置为根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域；

位置确定模块，被配置为根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置；

追踪模块，被配置为根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品。

根据本公开的第三方面，提供了一种通信装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行根据本公开任一实施例所述的物品追踪方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时，实现根据本公开任一实施例所述的物品追踪方法。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出根据本公开一些实施例的物品追踪方法的流程图；

图2示出根据本公开一些实施例的操作设备的实体图；

图3示出根据本公开一些实施例的检测框和关键点的示意图；

图4示出根据本公开一些实施例的操作区域的示意图；

图5示出根据本公开一些实施例的确定待追踪物品的示意图；

图6示出根据本公开一些实施例的物品追踪装置的框图；

图7示出根据本公开另一些实施例的物品追踪装置的框图；

图8示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

相关技术中，需要根据丢失物品的单号，人工查找到丢失物品的监控视频，并进行查看，从视频中找到物品出现问题的时间，以便于举证和追责。但是，人工查找的方式需要耗费大量的时间和人力成本。

另外，现有的目标追踪算法，逐帧对视频图像中的物品进行检测，并与目标物品进行相似性度量，以确定待追踪物品的位置，计算效率低，容易存在漏检或者位置偏差。特别是物流运输中的物品外观比较相似，在监控视频中同时出现多个物品的情况下，难以确定哪一个是待追踪物品，不能满足物流运输中物品追踪的需求。

本公开提供了一种物品追踪方法及装置、计算机可读存储介质，提高了物品追踪的准确性。

图1示出根据本公开一些实施例的物品追踪方法的流程图。

如图1所示，物品追踪方法包括步骤S1-步骤S4。

在步骤S1中，根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，其中，目标人物根据待追踪物品的物流信息确定。

例如，首先根据物品的物流信息，确定扫描该物品的操作人员是谁。

在物流站点的物品分拣人员，通常手里拿着操作设备(例如，扫码设备)对物品上的面单进行扫描，采集当前物品的信息。

图2示出了根据本公开一些实施例的操作设备的实体图。

如图2所示，操作人员可以利用操作设备的显示屏幕和按键区，来对物品进行操作，例如，扫描物品的信息并进行录入。

采集到的物品信息加上操作人员的标识，按照当前时间，存储到数据库中。在物品运输和多个物流节点扫描过程中，难免存在丢失的物品，当物品丢失后，会按照物品的扫描地点和扫描时间进行追踪，例如，根据数据库中的物品信息，确定该物品在站点对应的操作人员。

在一些实施例中，物品追踪方法还包括：根据待追踪物品的物流信息，确定目标视频的起始帧。

目标视频的起始帧可以是物品在丢失前的最后一次扫码操作时间对应的视频帧。根据物品单号，在数据库中查找到物品物流信息。物流信息如下表所示。

物品的物流信息中还可以包括物品的批次号、发货地点、发货时间、发货状态、目的站点、扫描操作的创建时间和完成时间等，未在上表示出。

根据物品的最后操作地点和操作时间，比如A站点2022.05.20 11：11：11，可以从A地点的视频监控中拉取视频数据。监控视频的每个视频帧上会带有时间的水印，根据从数据库中获取的扫码操作时间，使用OCR(optical character recognition，光学字符识别)，从监控视频中定位到扫描时刻的起始帧。

在一些实施例中，根据待追踪物品的物流信息，确定目标视频的起始帧，包括：根据物流信息中的待追踪物品的操作时间、操作地点，确定候选视频；根据待追踪物品的操作时间和候选视频的每秒传输帧数，确定目标视频的起始帧；根据目标视频的起始帧，从候选视频中截取目标视频。

例如，一般监控视频会先按照日期分类，进行存储。2022.05.20的视频会放在2022.05.20的文件目录下，此文件夹目录下的视频会按照小时为单位，分段存储为多个视频。在需要定位目标帧时，先在对应的文件目录内查找。例如，操作时间是11：11：11，先将10-11点的视频作为候选视频，然后，根据候选视频的每秒传输帧数，在候选视频中查找11：11：11对应的目标帧，计算公式如下：

Start_frame＝(time_find-time_start_video)*每秒传输帧数+1

其中，time_start_video是候选视频的第一帧的时间，time_find是扫描(操作)时间11：11：11。通常情况下，视频的每秒传输帧数是25fps(frame per second，每秒传输帧数)。

在一些实施例中，根据对候选视频第一帧的光符识别结果、待追踪物品的操作时间和候选视频的每秒传输帧数，确定目标视频的起始帧。

例如，通过OCR识别候选视频第一帧画面的左上角显示的时间，识别的时间time_start_video是10：10：10，此时距离11：11：11相隔3661秒，根据每秒25帧的视频帧率，可以计算出来扫码的起始帧在第3661*25+1＝91526帧。

本公开根据待追踪物品的操作时间和候选视频的每秒传输帧数，只需要找到候选视频的第一帧，就可以定位到目标视频起始帧，不需要对每一帧进行单独的OCR识别，避免浪费大量的时间和计算资源。

例如，在待追踪物品丢失的情况下，可以找到该物品最后一次出现并被扫描的视频，开始追踪。

从起始帧开始，按照预设时长从候选视频中截取视频片段，得到目标视频，进行固定时长的视频追踪。例如，需要追踪物品五分钟，作为丢失物品的查找以及举证，那么从起始帧开始，截取5分钟长度的视频片段作为目标视频。也可以是以物品离开操作台为截止时间，截取目标视频。

上面介绍了如何确定目标视频和起始帧，下面介绍如何确定目标人物并生成关键点。

首先，可以先进行目标检测，生成起始帧中目标人物的检测框，即，人体bbox(bounding boxes)。

在一些实施例中，生成在目标视频的起始帧中目标人物的检测框，包括：生成目标视频的起始帧中的一个或多个候选人物的检测框，其中，每个检测框对应一个候选人物；在检测框为多个的情况下，根据每个检测框对应的特征，确定检测框对应的候选人物的标识；根据检测框对应的候选人物的标识和待追踪物品的物流信息中的目标人物的标识，确定目标人物对应的检测框。

例如，在物品数量众多的时候，监控视频中会出现多人扫码操作的情况。因此对视频中出现的人员进行REID(Person Re-identification，行人重识别)，确定视频中出现的人员是谁。

在进行REID时，首先，生成起始帧中出现的所有人物的检测框，即，人体bbox(bounding boxes)。

然后，用resnet(残差网络)等人工智能模型，分别提取起始帧中所有人物的检测框内的特征，并将提取的特征分别与人员库中的人员特征进行相似性比对，进而确认视频中的各个人物的标识，也就是知道当前监控画面中的操作人员都是谁，并确定对应的检测框。

在得到各个人物的标识之后，与待追踪物品的物流信息中的目标人物的标识进行比对，例如，待追踪物品的物流信息中的目标人物的标识为张某，表示是张某扫描了失踪的物品，那么将视频帧中张某对应的检测框作为目标人物对应的检测框，过滤掉其他无关人物。

在一些实施例中，物品的追踪方法还包括，生成在目标视频的起始帧中目标人物的检测框；根据在目标视频的起始帧中目标人物的检测框，生成在目标视频的起始帧中目标人物的多个关键点。

例如，利用人工智能模型，对bbox中的目标人物的人体，进行人体关键点的检测，生成人体关键点坐标，人体关键点可以包括耳朵、鼻子、眼睛、手腕、手肘、肩膀等部位。

图3示出了根据本公开一些实施例的检测框和关键点的示意图。

如图3所示，虚线为检测框。可以对检测框中的人体生成关键点。为了更清楚地描述，图中只显示部分人体关键点。除了目标人物以外的其他无关人物已经在上述步骤中被过滤掉，此处不再考虑无关人物。

在一些实施例中，身体姿态包括身体朝向。根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，包括：根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的手臂向量；根据在目标视频的起始帧中目标人物的手臂向量，确定在目标视频的起始帧中目标人物的身体朝向。

例如，基于生成的人体关键点，可以确定人体的姿态，由于扫码人员的工作场景存在诸多遮挡物，尤其是下半身容易被遮挡，因此，可以用人体上半身，例如手臂的方向，来确定人体的姿态。

在一些实施例中，多个键点包括手部关键点和肩部关键点，手臂向量包括目标人物身体一侧的第一手臂向量和目标人物身体另一侧的第二手臂向量，根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的手臂向量，包括：根据在目标视频的起始帧中目标人物身体一侧的手部关键点和肩部关键点，确定第一手臂向量；根据在目标视频的起始帧中目标人物身体另一侧的手部关键点和肩部关键点，确定第二手臂向量。

例如，可以选择人体上半身的肩膀、手腕的坐标，计算人体手臂的朝向。计算公式如下：

其中wrist_left、wrist_right、shoulder_left、shoulder_right分别为左右手腕和肩膀坐标，∑表示对x和y轴的坐标分别计算后求和。

V_left、V_right为左右胳膊的归一化向量，即，第一手臂向量和第二手臂向量。为了防止出现除以0的问题，增加了一个很小的正数∈，∈可以取0.001等值。第一手臂向量和第二手臂向量分别表示人的两个手臂指向的方向。

在一些实施例中，根据在目标视频的起始帧中目标人物的手臂向量，确定在目标视频的起始帧中目标人物的身体朝向，包括：根据第一手臂向量和第二手臂向量的加权的结果，确定在目标视频的起始帧中目标人物的身体朝向。

例如，根据第一手臂向量和第二手臂向量，可以求得人体的朝向向量，计算公式如下：

V_body＝w1*V_left+w2*V_right

其中，w1和w2为权重，V_body为计算得到的目标人物的人体的方向向量(即，人体朝向，用于表示人体姿态)。在w1和w2均取1/2的情况下，V_body是第一手臂向量和第二手臂向量的角平分线。

在步骤S2中，根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域。

如图3所示，视频帧中可能同时出现很多个物品。本公开先根据人体的关键点、姿态等，提取出目标人物的身体能够到的操作区域。待追踪物品的位置不会超出操作区域的范围，在后续步骤中仅需要从操作区域中确定待追踪物品，从而能更准确地从多个物品中找到待追踪物品，避免错检、漏检。

在一些实施例中，根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域，包括:根据在指定方向上最远的两个关键点之间的距离，确定目标人物的身体宽度；根据在目标视频的起始帧中目标人物的身体宽度和身体姿态，确定在目标视频的起始帧中目标人物手臂最远能到达的位置；根据在目标视频的起始帧中目标人物手臂最远能到达的位置，提取在目标视频的起始帧中目标人物的操作区域。

例如，基于求出的人体的朝向，确定目标人物面前的操作区域。在物流的扫码场景中，扫描的物品距离人体的中心点一般不会超过两个人体的宽度。因此，可以根据人体朝向和关键点，选择操作区域，计算公式如下：

Body_width＝key_x_max-key_x_min

X_extention＝Body_width*extention_ratio*cos(Direction_theta)

Y_extention＝Body_width*extention_ratio*sin(Direction_theta)

其中，key_x_max和key_x_min是检测出的多个人体关键点中，在指定方向x轴方向上相距最远的两个关键点的横坐标。例如，key_x_min是所有关键点中x坐标最小的，key_x_max是所有关键点中x坐标最大的。

由于视频中，操作人员一般是站立的，图像的y轴方向与站立方向接近，而x轴方向与人体宽度方向接近，所以用key_x_max和key_x_min之间的差，即人体关键点的横向最大距离与横向最小距离key_x_min的差，来表示目标人物的身体宽度Body_width。

Direction_theta为人体的方向角，即人体的朝向与x轴的夹角，extention_ratio为人体扩展比例超参数，此处取2，也可以根据实际需要进行调整。X_extention、Y_extention分别为根据人体宽度、扩展比例、方向角求出的沿x轴横向和沿y轴纵向扩展的距离。根据人体关键点或检测框，可以确定人体中心点，在人体中心点的基础上，加上扩展距离，求得最终的扩展位置坐标，即操作区域的最远点。(X_extention，Y_extention)即为目标人物站在原地，身体(手臂)最远能到达的位置坐标，即操作区域的最远点。

图4示出了根据本公开一些实施例的操作区域的示意图。

如图4所示，箭头所在位置为扩展位置坐标，根据扩展位置坐标和检测框或人体关键点的位置，可以确定与箭头接触的实线框所示的操作区域。操作区域相较于原有图像，缩减了范围，排除了部分无关的其他物品。

在步骤S3中，根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置。

例如，在划定出如图4所示的操作区域后，利用YOLO等效果和速度都较好的目标检测网络，对操作区域内的物品进行检测，识别出待追踪物品的位置和检测框。

在扫描时刻对应的起始帧中，待追踪物品通常不会超出操作人员身体能够到的区域范围。本公开在操作人员能够到的操作区域中，确定待追踪物品，缩小了需要检测的图像范围，能更准确地从多个物品中找到待追踪物品，避免错检、漏检。

在一些实施例中，根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置，包括：确定操作区域中的一个或多个物品的位置；在操作区域中的物品为多个的情况下，确定操作区域中目标人物的操作装置的位置；根据操作区域中的一个或多个物品的位置和操作区域中目标人物的操作装置的位置，确定待追踪物品的位置。

例如，虽然已经确定出了操作区域，减小了待追踪物品可能存在的位置的范围。但是在操作区域，仍有可能出现多个物品。因此，可以进一步确定多个物品中哪一个是待追踪物品。

可以通过目标人物手持的用于扫描物品的操作装置，来确定待追踪物品的位置。先计算操作装置(例如扫码枪)与操作区域中各个物品的距离，可以利用欧式距离计算，公式如下所示：

其中，scan_coor、bag_coor分别为操作装置和各个物品的中心坐标，根据操作装置和各个物品的检测框确定。

在一些实施例中，根据操作区域中的一个或多个物品的位置和操作区域中目标人物的操作装置的位置，确定待追踪物品的位置，包括：将位置离操作装置最近的物品确定为待追踪物品。

例如，在目标人物正在用操作装置对待追踪物品扫描时，操作装置与待追踪物品的距离通常很近。将距离目标人物的扫码枪最近的物品，确定为目标人物正在扫描的物品，即待追踪物品。

也可以将扫码枪的方向对应的物品，作为待追踪物品。

根据本公开的一些实施例，充分考虑了物流场景的视频特点，通过确定操作装置的位置，来确定待追踪物品的位置，进一步提高了对待追踪物品的准确率。

在一些实施例中，确定操作区域中的一个或多个物品的位置，包括：生成操作区域中的一个或多个物品的检测框；根据操作区域中的一个或多个物品的检测框，确定一个或多个物品的位置。

例如，对操作区域的物品进行目标检测，生成检测框。分别根据各个物品的检测框，确定各个物品的中心坐标，即各个物品在起始帧中的位置。

在一些实施例中，确定操作区域中目标人物的操作装置的位置包括：生成操作区域中目标人物的操作装置的检测框；根据操作区域中目标人物的操作装置的检测框，确定操作区域中目标人物的操作装置的位置。

例如，对操作区域内的操作装置进行目标检测，生成检测框。根据操作装置的检测框，确定操作装置的中心坐标。

图5示出了根据本公开一些实施例的确定待追踪物品的示意图。

如图5所示，生成操作人员手中的操作装置的检测框(以虚线框表示)和物品的检测框(以虚线框表示)。图5中仅示出待追踪物品，如果在操作区域仍有多个物品，则根据检测框的位置，将离操作装置最近的物品确定为待追踪物品。

在步骤S4中，根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品。

通过上述步骤S1-S3，丢失的物品在目标视频中的初始位置已经确定，接下来使用目标追踪技术对物品进行路径的追踪。例如，可以通过目标追踪，定位并输出物品出现在视频中的最后一帧，从而确定物品最后在哪里消失。

根据本公开一些实施例的物品追踪方法，通过确定起始帧中目标人物的身体姿态，限定待追踪物品可能存在的操作区域，以在起始帧中确定待追踪物品的位置，实现了在物流场景中追踪待追踪物品。

此外，根据本公开的一些实施例，在确定待追踪物品的位置时，通过划定操作区域，减少了需要识别的图像的范围，排除了一部分与待追踪物品无关的图像区域，减少了运算量，避免漏检、错检或者位置偏差，提升了物品追踪的准确度。

在一些实施例中，根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品，包括：从目标视频的起始帧开始，根据在目标视频的当前帧中待追踪物品的位置，预测在目标视频的下一帧中待追踪物品的位置。

例如，在确定当前视频帧中待追踪物品的位置后，下一帧的待追踪物品的位置与当前帧中的位置不会相距太远。根据当前帧中待追踪物品的位置，以及物品的速度和位移等参数，或是利用目标跟踪模型等，确定下一帧的待追踪物品的位置。

根据本公开的一些实施例，仅需从视频的起始帧这一帧中，识别出待追踪物品的位置，就能循环根据当前视频帧中待追踪物品的位置，预测下一帧中待追踪物品，直到待追踪物品不再出现在视频中，或视频达到预定时长，减少了逐帧检测的计算量，提高了追踪效率。

因为已经通过确定人物姿态、限制操作区域等步骤，在起始帧中准确地确定了待追踪物品的位置，所以，在后续视频帧中，能够根据起始帧的正确结果，继续进行追踪，避免错误地跟踪到待追踪物品以外的其他物品，提高物品追踪的准确率和效率。

在一些实施例中，根据在目标视频的当前帧中待追踪物品的位置，预测在目标视频的下一帧中待追踪物品的位置，包括：根据在目标视频的当前帧中待追踪物品的位置和移动速度，预测在目标视频的下一帧中待追踪物品的位置，得到位置预测结果；根据下一帧的图像，利用目标检测模型，检测在目标视频的下一帧中待追踪物品的位置，得到位置检测结果；根据位置预测结果和位置检测结果，预测在目标视频的下一帧中待追踪物品的位置。

例如，对当前帧的图像中的物品进行目标检测，同时基于对物品位置坐标进行预测，综合目标检测和预测的结果，对物品进行追踪，使用上一帧物品的位置和速度对当前帧物品的位置进行预测，然后将预测和检测结果进行融合目标追踪公式如下所示：

Pn＝P_n-1+V_n-1*t

Tn＝α*Yolo(Fn)+β*Pn

其中，Pn-1为上一帧中物品的位置，Vn-1为上一帧中物品的速度，t为时间。通常情况下，视频是每秒25帧，为每一帧间隔1/25，则t为1/25秒。Fn为当前视频帧的图像，Yolo表示目标追踪模型模型，α、β分别为对图像Fn进行目标检测和对物品位置坐标进行预测的权重系数。Tn为当前帧中物品的位置。根据对位置预测结果和位置检测结果加权的结果，预测在目标视频的下一帧中待追踪物品的位置。

根据本公开的一些实施例，综合考虑目标检测模型(例如，YOLOV5)对图像中的物品进行逐帧检测的结果，以及根据当前视频帧中物品的位置对下一帧中物品位置进行预测的结果，将两种不同的方式得到的结果加权，最终确定物品的位置，提高整个物品追踪过程的鲁棒性。与单独使用目标检测模型，仅对视频图像物品进行逐帧检测的方法相比，能够避免对待追踪物品的漏检或者位置偏差。

经过上述步骤，已经在扫码时刻定位出丢失物品在图像中的位置和后续的追踪，此方法可以用于分拣站对于丢失物品的无责判定，定位并输出物品出现在视频中的最后一帧，或是生成对物品在本站点已经成功转运的判定结果，从而确定物品最后在哪里消失。视频定位和物品查找全程不需要人工去进行查看，实现了物流运输过程中对物品的自动化追踪。

图6示出根据本公开一些实施例的物品追踪装置的框图。

如图6所示，物品追踪装置6包括姿态确定模块61、提取模块62、位置确定模块63和追踪模块64。

姿态确定模块61，被配置为根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，其中，目标人物根据待追踪物品的物流信息确定，例如执行如图1所示的步骤S1。

提取模块62，被配置为根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域，例如执行如图1所示的步骤S2。

位置确定模块63，被配置为根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置，例如执行如图1所示的步骤S3。

追踪模块64，被配置为根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品，例如执行如图1所示的步骤S4。

图7示出根据本公开另一些实施例的物品追踪装置的框图。

如图7所示，物品追踪装置7包括存储器71；以及耦接至该存储器71的处理器72，存储器71用于存储执行物品追踪方法。处理器72被配置为基于存储在存储器71中的指令，执行本公开中任意一些实施例中的物品追踪方法。

图8示出用于实现本公开一些实施例的计算机系统的框图。

如图8所示，计算机系统80可以通用计算设备的形式表现。计算机系统80包括存储器810、处理器820和连接不同系统组件的总线800。

存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行本公开中任意一些实施例中的物品追踪方法的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器820可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线800可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统80还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间可以通过总线800连接。输入输出接口830可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可读存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的物品追踪方法及装置、计算机可读存储介质，提高了物品追踪的准确率。

至此，已经详细描述了根据本公开的物品追踪方法及装置、计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种物品追踪方法，包括：

2.根据权利要求1所述的一种物品追踪方法，其中，根据在目标视频的起始帧中目标人物的多个关键点和身体姿态，提取在目标视频的起始帧中目标人物的操作区域，包括:

3.根据权利要求1所述的物品追踪方法，其中，身体姿态包括身体朝向，根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的身体姿态，包括：

4.根据权利要求3所述的物品追踪方法，其中，所述多个键点包括手部关键点和肩部关键点，手臂向量包括目标人物身体一侧的第一手臂向量和目标人物身体另一侧的第二手臂向量，所述根据在目标视频的起始帧中目标人物的多个关键点，确定在目标视频的起始帧中目标人物的手臂向量，包括：

5.根据权利要求4所述的物品追踪方法，其中，根据在目标视频的起始帧中目标人物的手臂向量，确定在目标视频的起始帧中目标人物的身体朝向，包括：

6.根据权利要求1所述的物品追踪方法，其中，根据在目标视频的起始帧中目标人物的操作区域，确定在目标视频的起始帧中待追踪物品的位置，包括：

确定操作区域中的一个或多个物品的位置；

7.根据权利要求6所述的物品追踪方法，其中，确定操作区域中的一个或多个物品的位置，包括：

生成操作区域中的一个或多个物品的检测框；

8.根据权利要求6所述的物品追踪方法，其中，确定操作区域中目标人物的操作装置的位置，包括：

生成操作区域中目标人物的操作装置的检测框；

9.根据权利要求6所述的物品追踪方法，其中，根据操作区域中的一个或多个物品的位置和操作区域中目标人物的操作装置的位置，确定待追踪物品的位置，包括：

将位置离操作装置最近的物品确定为待追踪物品。

10.根据权利要求1所述的物品追踪方法，还包括：

根据待追踪物品的物流信息，确定目标视频的起始帧。

11.根据权利要求10所述的物品追踪方法，其中，根据待追踪物品的物流信息，确定目标视频的起始帧，包括：

根据目标视频的起始帧，从候选视频中截取目标视频。

12.根据权利要求11所述的物品追踪方法，其中，待追踪物品的操作时间为待追踪物品最后一次被扫描的时间。

13.根据权利要求1所述的物品追踪方法，还包括：

生成在目标视频的起始帧中目标人物的检测框；

14.根据权利要求13所述的物品追踪方法，其中，生成在目标视频的起始帧中目标人物的检测框，包括：

15.根据权利要求1所述的物品追踪方法，其中，根据在目标视频的起始帧中待追踪物品的位置，在目标视频中追踪待追踪物品，包括：

16.根据权利要求15所述的物品追踪方法，其中，根据在目标视频的当前帧中待追踪物品的位置，预测在目标视频的下一帧中待追踪物品的位置，包括：

17.一种物品追踪装置，包括：

18.一种通信装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行根据权利要求1至16任一项所述的物品追踪方法。

19.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时，实现根据权利要求1至16任一项所述的物品追踪方法。