CN113792569B

CN113792569B - 对象识别方法、装置、电子设备及可读介质

Info

Publication number: CN113792569B
Application number: CN202011259708.0A
Authority: CN
Inventors: 刘洋; 盛捷来
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2023-11-07
Anticipated expiration: 2040-11-12
Also published as: CN113792569A

Abstract

本公开实施例提供一种对象识别方法、装置、电子设备及可读介质，该方法包括：对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；通过机器学习模型对所述待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，所述分类概率序列包括的分类概率的数量与所述预设对象集合的对象数量相同；确定所述预设对象集合中每两个预设对象之间的条件概率；根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列。本公开实施例提供的对象识别方法、装置、电子设备及可读介质，能够提高行人识别结果的置信度和准确率。

Description

对象识别方法、装置、电子设备及可读介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种对象识别方法、装置、电子设备及计算机可读介质。

背景技术

当前的行人重识别技术都是在给定数据库中对单个的目标行人进行检索，没有充分考虑其社交属性。例如在办公园区中，外部人员通常不能进入，通常仅需要对园区内的工作人员进行识别。而目前的行人重识别技术只针对单个的对园区中的工作人员进行识别。而办公园区中经常会发生多个人在一个场所中经常同时出现的情况，例如，工作在同一个或者距离较近的区域的员工以及私下来往比较多的员工会同时往返。目前的行人重识别技术并未考虑到园区中工作人员之间的社交属性，将导致其识别结果的置信度较低，无法获得高准确率的识别结果。

因此，需要一种新的对象识别方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开实施例提供一种对象识别方法、装置、电子设备及计算机可读介质，进而至少在一定程度上提高行人识别结果的置信度和准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提出一种对象识别方法，该方法包括：对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；通过机器学习模型对所述待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，所述分类概率序列包括的分类概率的数量与所述预设对象集合的对象数量相同；确定所述预设对象集合中每两个预设对象之间的条件概率；根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列。

在本公开的一种示例性实施例中，所述方法还包括：获得第一训练样本，所述第一训练样本包括样本对象和所述样本对象在所述预设对象集合中预设对象的分类标注；通过所述机器学习模型对所述样本对象进行处理，获得第一训练分类结果；根据所述第一训练分类结果和所述分类标注确定交叉熵损失函数；根据所述交叉熵损失函数对所述机器学习模型进行训练，获得训练完成的所述机器学习模型。

在本公开的一种示例性实施例中，确定所述预设对象集合中每两个预设对象之间的条件概率包括：确定所述条件概率的初始值；获得第二训练样本，所述训练样本包括样本对象序列和所述样本对象序列在所述预设对象集合中预设对象的分类标注序列；通过所述机器学习模型对所述样本对象序列进行处理，获得第二训练分类结果序列；根据所述条件概率和所述第二训练分类结果序列确定第二损失函数；根据所述第二损失函数调整所述条件概率。

在本公开的一种示例性实施例中，所述方法还包括：根据所述第二损失函数调整所述机器学习模型的参数。

在本公开的一种示例性实施例中，对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列包括：对所述视频帧图像进行检测，获得至少一个待识别对象；根据所述至少一个待识别对象在所述视频帧图像中的像素坐标位置对所述至少一个待识别对象进行排序；按照排序结果将所述至少一个待识别对象整合为所述待识别对象序列。

在本公开的一种示例性实施例中，根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列包括：确定i的值；计算所述待识别对象序列中的前i个待识别对象为预设对象集合中的第h_i个预设对象的分类概率的第一乘积，所述待识别对象序列包括I个待识别对象，I为大于0的整数，0<i≤I；计算所述预设对象集合中第h_i+1个预设对象在第h_i个预设对象的条件下的条件概率的第二乘积，所述预设对象集合包括J个预设对象，J为大于0的整数，0<i<I，0<h_i，h_i+1≤J；将所述第一乘积和所述第二乘积的乘积确定为目标乘积；将具有最大的所述目标乘积的预设对象序列确定为所述前i个待识别对象对应的匹配对象序列；在根据预设步长对i的值进行更新后循环执行上述步骤，直至i>I时结束循环，将所述待识别对象序列中的前I个待识别对象对应的匹配对象序列确定为所述目标对象序列。

在本公开的一种示例性实施例中，将具有最大的所述目标乘积的预设对象序列确定为所述前i个待识别对象对应的匹配对象序列包括：将不存在重复的预设对象的，且目标乘积最大的预设对象序列确定为所述前i个待识别对象对应的匹配对象序列。

根据本公开实施例的第二方面，提出一种对象识别装置，该装置包括：对象检测模块，配置为对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；分类概率模块，配置为通过机器学习模型对所述待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，所述分类概率序列包括的分类概率的数量与所述预设对象集合的对象数量相同；条件概率模块，配置为确定所述预设对象集合中每两个预设对象之间的条件概率；对象识别模块，配置为根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列。

根据本公开实施例的第三方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的对象识别方法。

根据本公开实施例的第四方面，提出一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的对象识别方法。

根据本公开某些实施例提供的对象识别方法、装置、电子设备及计算机可读介质，在检测获得待识别对象序列后，确定该待识别对象序列中每个待识别对象为预设对象集合中预设对象的分类概率序列后，联合考虑预设对象集合中的每两个预设对象之间的条件概率，能够考虑到预设对象之间不同的预设对象之间的社交属性。进而在根据所述分类概率序列和所述条件概率获得的所述视频帧图像的目标对象序列时，能够利用多种信息实现对象识别，提高识别结果的置信度与准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种对象识别方法及装置的系统框图。

图2是根据一示例性实施例示出的一种对象识别方法的流程图。

图3是根据一示例性实施例示出的一种对象识别方法的流程图。

图4是根据一示例性实施例示出的一种对象识别方法的流程图。

图5是根据一示例性实施例示出的一种对象识别方法的示意图。

图6是根据一示例性实施例示出的一种对象识别装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图仅为本发明的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

相关技术中，行人重识别是用于安防的重要计算机视觉技术。在我们的物流园区中，一些关键的场所需要严格对人员进行管理，一种常见的管理方式是使用视频设备进行监控，对出现过的人员进行识别和记录。在一些情况下，无法获得清楚的人脸信息，必须通过人体的其它特征来检索目标数据库，确定监控摄像头采集到的目标行人的身份，这就用到了行人重识别。然而，在办公园区内的行人重识别场景中，工作在同一个或者距离较近的区域的员工以及私下来往比较多的员工会同时往返。这一信息实际上对目标行人身份的识别有很大帮助，例如在确认监控中一个员工的身份时，本申请的技术方案能够充分考虑社交属性，在该员工交往比较密切的其他人中去搜索样貌特征与视频中其他员工相似的来确认身份。多种信息的融合能够增加识别的置信度。

下面结合附图对本发明示例实施方式进行详细说明。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所进行操作的对象识别系统提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的对象识别请求等数据进行分析等处理，并将处理结果(例如目标对象序列--仅为示例)反馈给终端设备。

服务器105可例如对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；服务器105可例如通过机器学习模型对待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，分类概率序列包括的分类概率的数量与预设对象集合的对象数量相同；服务器105可例如确定预设对象集合中每两个预设对象之间的条件概率。服务器105可例如根据分类概率序列和条件概率确定视频帧图像的目标对象序列。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105中的一部分可例如作为本公开中的对象识别任务提交系统，用于获取将要执行对象识别命令的任务；以及服务器105中的一部分还可例如作为本公开中的对象识别系统，用于对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；通过机器学习模型对待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，分类概率序列包括的分类概率的数量与预设对象集合的对象数量相同；确定预设对象集合中每两个预设对象之间的条件概率；根据分类概率序列和条件概率确定视频帧图像的目标对象序列。

根据本公开实施例提供的对象识别方法及装置，能够考虑到预设对象之间不同的预设对象之间的社交属性，利用多种信息实现对象识别，提高识别结果的置信度与准确率。

图2是根据一示例性实施例示出的一种对象识别方法的流程图。本公开实施例提供的对象识别方法可以由任意具备计算处理能力的电子设备执行，例如终端设备101、102、103和/或服务器105，在下面的实施例中，以服务器执行方法为例进行举例说明，但本公开并不限定于此。本公开实施例提供的对象识别方法20可以包括步骤S202至S208。

如图2所示，在步骤S202中，对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列。

本公开实施例中，视频帧图像可例如由办公园区、生活区等中的视频采集设备获得。待识别对象可为行人。例如，可采用行人检测方法获得待识别对象。行人检测方法可例如但不限于为方向梯度直方图(Histogram of Oriented Gradient，HOG)+支持向量机(Support Vector Machine，SVM)算法。其中，检测获得的待识别对象可例如表示为内部含有单个行人图像的矩形框。可将待识别对象缩放或剪裁为预设尺寸大小。又例如，待识别对象序列中的待识别对象可例如通过像素数据形式进行表示。

在步骤S204中，通过机器学习模型对待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，分类概率序列包括的分类概率的数量与预设对象集合的对象数量相同。

本公开实施例中，机器学习模型可为具有分类功能的神经网络模型，例如但不限于为inception模型、视觉几何组网络(Visual Geometry Group Network，VGG)、残差网络模型(resnet)等。机器学习模型可表示为f(·)。预设对象集合可为已知对象身份的预设对象的集合。在办公园区的对象识别场景中，预设对象集合可例如为办公园区中所有员工集合。预设对象集合可表示为N。对于待识别对象序列D中，其中的待识别对象X_i∈D，(i＝1，2，...，|D|)的分类概率序列包括了待识别对象X_i为预设对象集合中的|N|个预设对象中任一个的概率，可表示为f(X_i)＝[p₁(i)，p₂(i)，...，p_|N|(i)]，其中p_j(i)为待识别对象X_i为预设对象j的概率。

在步骤S206中，确定预设对象集合中每两个预设对象之间的条件概率。

本公开实施例引入社交距离的想法，当多个待识别对象(例如多个员工)一同出现在视频帧图像中时，由于这些员工之间的亲疏关系不同，每个人会倾向于靠近自己比较熟悉的人而远离自己相对陌生的人。而同样的两个人一起出现的时候，也会倾向于选择自己相对习惯的站位。例如，有的人习惯站在左边，有的习惯站在右边。因此，多个人之间的位置关系可以看成是有序的，而这个顺序的信息也是可以通过行人检测算法获得的。

其中，假设该两个预设对象分别为A和B，预设对象集合中每两个预设对象之间的条件概率可包括A在B的条件下的条件概率和B在A条件下的条件概率。其中，A在B的条件下的条件概率p(A|B)是指A和B同时出现，且A在B的左侧的概率。又例如P(A|B)也可以指A和B同时出现，且A在B的右侧的概率。对条件概率是在左侧或右侧的设定可根据待识别对象序列中的待识别对象的排列规则确定，本公开实施例的技术方案对此并不作特殊限定。

在步骤S208中，根据分类概率序列和条件概率确定视频帧图像的目标对象序列。

本公开实施例中，当待识别对象序列D＝[X₁，...，X_|D|]对应的员工为[h₁，h₂，...，h_|D|]，假设[h₁，h₂，...，h_|D|]从左到右的站位为h₁，h₂，...，h_|D|，则[X₁，...，X_|D|]对应的员工为[h₁，h₂，...，h_|D|]的概率为其中，p(h_i+1|h_i)为h_i和h_i+1同时出现，且h_i在h_i+1左侧的概率，即条件概率。

其中，可通过求解使最大的预设对象序列，即对应的预设对象序列[h₁，h₂，...，h_|D|]，为视频帧图像的目标对象序列。

根据本公开实施例提供的对象识别方法，在检测获得待识别对象序列后，确定该待识别对象序列中每个待识别对象为预设对象集合中预设对象的分类概率序列后，联合考虑预设对象集合中的每两个预设对象之间的条件概率，能够考虑到预设对象之间不同的预设对象之间的社交属性。进而在根据分类概率序列和条件概率获得的视频帧图像的目标对象序列时，能够利用多种信息实现对象识别，提高识别结果的置信度与准确率。

在示例性实施例中，机器学习模块可通过训练获得。在训练机器学习模型时，可：获得第一训练样本，第一训练样本包括样本对象和样本对象在预设对象集合中预设对象的分类标注；通过机器学习模型对样本对象进行处理，获得第一训练分类结果；根据第一训练分类结果和分类标注确定交叉熵损失函数；根据交叉熵损失函数对机器学习模型进行训练，获得训练完成的机器学习模型。其中，样本对象可为在视频帧图像中检测获得的对象。可对一定数量的样本对象进行标记。标记的内容为，该样本对象在预设对象集合中对应的预设对象。例如，样本对象可涵盖预设对象集合中的所有预设对象。根据交叉熵损失函数对机器学习模型进行训练时，可例如采用但不限于为随机梯度下降法。在该实施例中，通过机器学习模型对第一训练样本的学习，能够获得具有对象识别能力的机器学习模型。

在示例性实施例中，在步骤S202中，可对视频帧图像进行检测，获得至少一个待识别对象；根据至少一个待识别对象在视频帧图像中的像素坐标位置对至少一个待识别对象进行排序；按照排序结果将至少一个待识别对象整合为待识别对象序列。

图3是根据一示例性实施例示出的一种对象识别方法的流程图。如图3所示，在确定预设对象集合中每两个预设对象之间的条件概率时，本公开实施例提供对象识别方法30可以包括步骤S302至S310。

如图3所示，在步骤S302中，确定条件概率的初始值。

本公开实施例中，条件概率的初始值可按照预设初始值确定，也可根据预设对象集合的组织架构和/或社交软件的联系等因素对条件概率的值进行初始化。

在步骤S304中，获得第二训练样本，训练样本包括样本对象序列和样本对象序列在预设对象集合中预设对象的分类标注序列。

本公开实施例中，第二训练样本中的样本对象可为与第一样本对象相同的样本对象。第二训练样本与第一训练样本的区别在于，第二训练样本中的样本数据为样本对象组成的样本对象序列。例如，可选取办公园区的历史监控画面中的多个员工的图像，抽取中每个员工的检测图像(即样本对象)，并按照检测图像在历史监控画面中的位置从左到右(或从右到左)进行排序，获得样本对象序列。分类标注序列可为样本对象序列中每个样本对象的分类标注组成。

在步骤S306中，通过机器学习模型对样本对象序列进行处理，获得第二训练分类结果序列。

本公开实施例中，第二训练分类结果序列中的元素可为该元素在样本对象序列中对应的样本对象的训练分类结果。

在步骤S308中，根据条件概率和第二训练分类结果序列确定第二损失函数。

在步骤S310中，根据第二损失函数调整条件概率。

本公开实施例中，可采用随机梯度下降算法对条件概率进行调整。

在示例性实施例中，还可根据第二损失函数调整机器学习模型的参数。根据考虑了条件概率的第二损失函数对机器学习模型的参数进一步进行调整，能够融合考虑不同的样本对象之间的社交属性，增加机器学习模型的分类结果的置信度，提高机器学习模型的识别率。

在本公开实施例中，根据预设对象集合的组织架构和/或社交软件的联系等因素对条件概率的值进行初始化，能够加快训练过程的收敛速度，并避免算法陷入局部最优而降低条件概率的准确性。

图4是根据一示例性实施例示出的一种对象识别方法的流程图。如图4所示，在根据分类概率序列和条件概率确定视频帧图像的目标对象序列时，本公开实施例提供对象识别方法40可以包括步骤S402至S412。

在步骤S402中，确定i的值。

本公开实施例中，在初次确定i的值时，可确定i的值为2。

在步骤S404中，计算待识别对象序列中的前i个待识别对象为预设对象集合中的第h_i个预设对象的分类概率的第一乘积，待识别对象序列包括I个待识别对象，I为大于0的整数，0＜i≤I。

本公开实施例中，图5是根据一示例性实施例示出的一种对象识别方法的示意图。如图5所示，对于待识别对象序列[X₁，...，X_|D|]，其中，|D|＝I。前i个待识别对象可为X₁，X₂，...X_i，第i个待识别对象的分类概率为第一乘积可例如表示为：/>

在步骤S406中，计算预设对象集合中第h_i+1个预设对象在第h_i个预设对象的条件下的条件概率的第二乘积，预设对象集合包括J个预设对象，J为大于0的整数，0＜i＜I，0＜h_i，h_i+1≤J。

本公开实施例中，第h_i+1个预设对象在第h_i个预设对象的条件下的条件概率可表示为p(h_i+1|h_i)，例如图5所示的p(h₂|h₁)、p(h₃|h₂)、p(h_|D||h_|D|-1)等。第二乘积可表示为Π_i＜|D|p(h_i+1|h_i)。例如，当i＝3，第二乘积可表示为p(h₂|h₁)·p(h₃|h₂)。其中，由于第二乘积中包括的h_i+1中需要i+1≤I且，i≤I，因此在第二乘积中需满足0＜i＜I。

在步骤S408中，将第一乘积和第二乘积的乘积确定为目标乘积。

本公开实施例中，目标乘积可例如表示为

在步骤S410中，将具有最大的目标乘积的预设对象序列确定为前i个待识别对象对应的匹配对象序列。

本公开实施例中，不同的预设对象序列可具有不同的目标乘积。通过确定具有最大的目标乘积的预设对象序列，可确定前i个待识别对象匹配概率最大的匹配对象序列。在示例性实施例中，可将不存在重复的预设对象的，且目标乘积最大的预设对象序列确定为前i个待识别对象对应的匹配对象序列。

在步骤S412中，根据预设步长对i的值进行更新后循环执行上述步骤，直至i＞I时结束循环，将待识别对象序列中的前1个待识别对象对应的匹配对象序列确定为目标对象序列。

本公开实施例中，预设步长可例如为1、2等。在该实施例中，通过动态规划方式求解目标乘积的最大值，由于那么能够使最大的序列必然包含了使最大的子序列。进而求得使得目标乘积最大的匹配对象序列为目标对象序列。能够融合考虑不同对象之间的社交属性，求得具有较大置信度的待识别对象序列的识别结果，即目标对象序列。同时，在求解目标乘积的最大值时，如果遍历所有可能的序列，将一共有/>种可能性。而本实施例在动态规划过程中把最不可能产生最优结果的中间结果剔除掉，能够降低计算复杂度，节约计算机资源，提高响应速度。

在本公开的另一个示例性实施例中，对象识别方法可包括训练流程和检测流程。以办公园区中的员工识别场景为例，训练流程可包括如下步骤：1、采集历史监控画面，并挑选出其中有多个员工的图片。2、对所有的图片使用HOG+SVM做行人检测，抽出其中的行人区域子图(即待识别对象)，采样成m×n尺寸。3、对每个行人区域子图进行标记，对一张图片中有多个行人的图片做序列的标记。4、根据单个行人区域子图标记情况(即第一训练样本)，对机器学习模型f(·)进行预训练。5、对条件概率p(h_j|h_i)进行初始化。6、根据序列标记情况对p(h_j|h_i)进行学习，对机器学习模型f(·)进行调优。

检测流程可包括如下步骤：1、在训练完成后，将训练得到的机器学习模型f(·)在云端部署。2、在办公园区内的关键场所布置摄像头，采集来往工作人员的信息。3、获取摄像头采集到的图片，并使用HOG+SVM算法进行行人检测。4、截取出图片中所有的行人子区域，通过采样变为m×n尺寸，并按照图片中从左到右的顺序加工为序列[X₁，...，X_|D|]。5、将序列[X₁，...，X_|D|]通过调用接口(API)的方式输入机器学习模型f(·)，并采用维比特算法获得概率最大的员工的序列，返回结果(即目标对象序列)。其中，维比特算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。在该实施例中，通过社交关系辅助行人重识别，能够适应办公园区等场景的识别需求，获得置信度较高的识别结果。同时，引入社交距离的思想，使用马尔可夫转移概率的形式来建模多人同时出现的条件概率。能够快速求解获得目标对象序列的最优解，降低计算复杂度，节约计算机资源，提高响应速度。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由中央处理器(Central Processing Unit，CPU)执行的计算机程序。在该计算机程序被中央处理器CPU执行时，执行本公开提供的上述方法所限定的上述功能。的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图6是根据一示例性实施例示出的一种对象识别装置的框图。参照图6，本公开实施例提供的对象识别装置60可以包括：对象检测模块602、分类概率模块604、条件概率模块606和对象识别模块608。

在对象识别装置60中，对象检测模块602可配置为对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列。

分类概率模块604可配置为通过机器学习模型对待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，分类概率序列包括的分类概率的数量与预设对象集合的对象数量相同。

条件概率模块606可配置为确定预设对象集合中每两个预设对象之间的条件概率。

对象识别模块608可配置为根据分类概率序列和条件概率确定视频帧图像的目标对象序列。

根据本公开实施例提供的对象识别装置，在检测获得待识别对象序列后，确定该待识别对象序列中每个待识别对象为预设对象集合中预设对象的分类概率序列后，联合考虑预设对象集合中的每两个预设对象之间的条件概率，能够考虑到预设对象之间不同的预设对象之间的社交属性。进而在根据分类概率序列和条件概率获得的视频帧图像的目标对象序列时，能够利用多种信息实现对象识别，提高识别结果的置信度与准确率。

在示例性实施例中，对象识别装置60还可包括：第一样本模块，可配置为获得第一训练样本，第一训练样本包括样本对象和样本对象在预设对象集合中预设对象的分类标注；第一样本处理模块，可配置为通过机器学习模型对样本对象进行处理，获得第一训练分类结果；第一损失函数模块，可配置为根据第一训练分类结果和分类标注确定交叉熵损失函数；第一模型训练模块，可配置为根据交叉熵损失函数对机器学习模型进行训练，获得训练完成的机器学习模型。

在示例性实施例中，条件概率模块606可包括：概率初始化单元，可配置为确定条件概率的初始值；第二样本单元，可配置为获得第二训练样本，训练样本包括样本对象序列和样本对象序列在预设对象集合中预设对象的分类标注序列；第二样本处理单元，可配置为通过机器学习模型对样本对象序列进行处理，获得第二训练分类结果序列；第二损失函数单元，可配置为根据条件概率和第二训练分类结果序列确定第二损失函数；条件概率单元，可配置为根据第二损失函数调整条件概率。

在示例性实施例中，还包括：第二模型训练模块，可配置为根据第二损失函数调整机器学习模型的参数。

在示例性实施例中，对象检测模块602可包括：对象检测单元，可配置为对视频帧图像进行检测，获得至少一个待识别对象；对象排序单元，可配置为根据至少一个待识别对象在视频帧图像中的像素坐标位置对至少一个待识别对象进行排序；对象序列单元，可配置为按照排序结果将至少一个待识别对象整合为待识别对象序列。

在示例性实施例中，对象识别模块608可包括：数值确定单元，可配置为确定i的值；第一乘积单元，可配置为计算待识别对象序列中的前i个待识别对象为预设对象集合中的第h_i个预设对象的分类概率的第一乘积，待识别对象序列包括I个待识别对象，I为大于0的整数，0<i≤I；第二乘积单元，可配置为计算预设对象集合中第h_i+1个预设对象在第h_i个预设对象的条件下的条件概率的第二乘积，预设对象集合包括J个预设对象，J为大于0的整数，0<i<I，0<h_i，h_i+1≤J；目标乘积单元，可配置为将第一乘积和第二乘积的乘积确定为目标乘积；求解最优单元，可配置为将具有最大的目标乘积的预设对象序列确定为前i个待识别对象对应的匹配对象序列；数值判断单元，可配置为在根据预设步长对i的值进行更新后循环执行上述步骤，直至i>I时结束循环，将待识别对象序列中的前I个待识别对象对应的匹配对象序列确定为目标对象序列。

在示例性实施例中，求解最优单元可配置为将不存在重复的预设对象的，且目标乘积最大的预设对象序列确定为前i个待识别对象对应的匹配对象序列。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备200。图7显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图3，图4中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

参考图8所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；通过机器学习模型对所述待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，所述分类概率序列包括的分类概率的数量与所述预设对象集合的对象数量相同；确定所述预设对象集合中每两个预设对象之间的条件概率；根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种对象识别方法，其特征在于，包括：

对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；

通过机器学习模型对所述待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，所述分类概率序列包括的分类概率的数量与所述预设对象集合的对象数量相同；

确定所述预设对象集合中每两个预设对象之间的条件概率；

根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列；

根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列包括：

确定i的值；

计算所述待识别对象序列中的前i个待识别对象为预设对象集合中的第h_i个预设对象的分类概率的第一乘积，所述待识别对象序列包括I个待识别对象，I为大于0的整数，0<i≤I；

计算所述预设对象集合中第h_i+1个预设对象在第h_i个预设对象的条件下的条件概率的第二乘积，所述预设对象集合包括J个预设对象，J为大于0的整数，0<i<I，0<h_i，h_i+1≤J；

将所述第一乘积和所述第二乘积的乘积确定为目标乘积；

将具有最大的所述目标乘积的预设对象序列确定为所述前i个待识别对象对应的匹配对象序列；

在根据预设步长对i的值进行更新后循环执行上述步骤，直至i>I时结束循环，将所述待识别对象序列中的前I个待识别对象对应的匹配对象序列确定为所述目标对象序列；

将具有最大的所述目标乘积的预设对象序列确定为所述前i个待识别对象对应的匹配对象序列包括：

将不存在重复的预设对象的，且目标乘积最大的预设对象序列确定为所述前i个待识别对象对应的匹配对象序列。

2.如权利要求1所述的方法，其特征在于，还包括：

获得第一训练样本，所述第一训练样本包括样本对象和所述样本对象在所述预设对象集合中预设对象的分类标注；

通过所述机器学习模型对所述样本对象进行处理，获得第一训练分类结果；

根据所述第一训练分类结果和所述分类标注确定交叉熵损失函数；

根据所述交叉熵损失函数对所述机器学习模型进行训练，获得训练完成的所述机器学习模型。

3.如权利要求1或2所述的方法，其特征在于，确定所述预设对象集合中每两个预设对象之间的条件概率包括：

确定所述条件概率的初始值；

获得第二训练样本，所述第二训练样本包括样本对象序列和所述样本对象序列在所述预设对象集合中预设对象的分类标注序列；

通过所述机器学习模型对所述样本对象序列进行处理，获得第二训练分类结果序列；

根据所述条件概率和所述第二训练分类结果序列确定第二损失函数；

根据所述第二损失函数调整所述条件概率。

4.如权利要求3所述的方法，其特征在于，还包括：

根据所述第二损失函数调整所述机器学习模型的参数。

5.如权利要求1所述的方法，其特征在于，对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列包括：

对所述视频帧图像进行检测，获得至少一个待识别对象；

根据所述至少一个待识别对象在所述视频帧图像中的像素坐标位置对所述至少一个待识别对象进行排序；

按照排序结果将所述至少一个待识别对象整合为所述待识别对象序列。

6.一种对象识别装置，其特征在于，包括：

对象检测模块，配置为对视频帧图像进行检测，获得包括至少一个待识别对象的待识别对象序列；

分类概率模块，配置为通过机器学习模型对所述待识别对象序列中的每个待识别对象进行处理，获得每个待识别对象为预设对象集合中的预设对象的分类概率序列，所述分类概率序列包括的分类概率的数量与所述预设对象集合的对象数量相同；

条件概率模块，配置为确定所述预设对象集合中每两个预设对象之间的条件概率；

对象识别模块，配置为根据所述分类概率序列和所述条件概率确定所述视频帧图像的目标对象序列；

所述对象识别模块包括：

数值确定单元，配置为确定i的值；

第一乘积单元，配置为计算待识别对象序列中的前i个待识别对象为预设对象集合中的第h_i个预设对象的分类概率的第一乘积，待识别对象序列包括I个待识别对象，I为大于0的整数，0<i≤I；

第二乘积单元，配置为计算预设对象集合中第h_i+1个预设对象在第h_i个预设对象的条件下的条件概率的第二乘积，预设对象集合包括J个预设对象，J为大于0的整数，0<i<I，0<h_i，h_i+1≤J；

目标乘积单元，配置为将第一乘积和第二乘积的乘积确定为目标乘积；

求解最优单元，配置为将具有最大的目标乘积的预设对象序列确定为前i个待识别对象对应的匹配对象序列；

所述求解最优单元，还配置为将不存在重复的预设对象的，且目标乘积最大的预设对象序列确定为前i个待识别对象对应的匹配对象序列；

数值判断单元，配置为在根据预设步长对i的值进行更新后循环执行上述步骤，直至i>I时结束循环，将待识别对象序列中的前I个待识别对象对应的匹配对象序列确定为目标对象序列。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。