CN112069892A

CN112069892A - 一种图像识别方法、装置、设备及存储介质

Info

Publication number: CN112069892A
Application number: CN202010766862.0A
Authority: CN
Inventors: 丁贵广; 何宇巍
Original assignee: Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-12-11
Anticipated expiration: 2040-08-03
Also published as: CN112069892B

Abstract

本公开提供一种图像识别方法、装置、设备及存储介质，涉及计算机技术领域，用于提升图像的识别准确度。该方法包括：对待识别图像进行识别得到图像语义特征；并从图像语义特征中获取目标语义特征，目标语义特征包括图像语义特征中针对目标语义的特征；基于图像语义特征中的非目标语义特征对目标语义特征的影响值，对目标语义特征进行调整；基于调整后的目标语义特征，得到识别语义特征；利用预设的历史图像的识别语义特征和图像类型的第一关联度，估计待识别图像包含目标语义的概率参数，图像类型是根据历史图像中是否包含目标语义确定的；该方法中基于图像语义特征和目标语义特征的关联对图像进行识别，提升了识别图像中的目标语义的准确度。

Description

一种图像识别方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种图像识别方法、装置、设备及存储介质。

背景技术

相关技术中在识别图像中是否包含目标语义(如指定身份的人、物等)时，常通过图像中可能是目标语义的目标对象(如各个人或物)的特征进行识别，进而基于目标对象的特征，识别出该图像中是否包含目标语义的结果，即通过图像中目标对象的特定特征，识别该目标对象是否属于目标语义，但图像中属于目标语义的目标对象中并不一定包括上述特定特征；若一个图像中的目标语义不包括上述特定特征，则该图像的识别结果是不包含目标语义(识别错误)，即根据图像中的目标对象的特征识别图像中是否包含目标语义的准确度低，因此如何提升图像中目标语义的识别准确度成为了需要考虑的问题。

发明内容

本公开实施例提供一种图像识别方法、装置、设备及存储介质，用于提升图像的识别准确度。

本公开第一方面，提供一种图像识别方法，包括：

对待识别图像进行初始语义识别，得到图像语义特征；以及从所述图像语义特征中获取目标语义特征，所述目标语义特征包括所述图像语义特征中针对目标语义的特征；

基于非目标语义特征对所述目标语义特征的影响值，对所述目标语义特征进行调整，所述非目标语义特征包括所述图像语义特征中除所述目标语义特征外的语义特征；以及

基于调整后的目标语义特征，得到针对所述待识别图像中所述目标语义的识别语义特征；

利用预设的历史图像的识别语义特征和图像类型的第一关联度，估计所述待识别图像的识别语义特征与图像类型的第二关联度，将估计的第二关联度转换为所述待识别图像包含所述目标语义的概率参数，其中所述图像类型是根据所述历史图像中是否包含所述目标语义确定的。

在一种可能的实现方式中，所述待识别图像包括待识别视频中的视频帧，所述将估计的第二关联度转换为所述待识别图像包含所述目标语义的概率参数的步骤之后，还包括：

将所述待识别视频中的视频帧包含所述目标语义的概率参数的最大值，确定为所述待识别视频包含所述目标语义的概率参数。

在一种可能的实现方式中，所述基于调整后的目标语义特征，得到针对所述待识别图像中所述目标语义的识别语义特征的步骤，包括：

将所述调整后的目标语义特征，确定为针对所述待识别图像中所述目标语义的识别语义特征；或

对所述调整后的目标语义特征和所述图像语义特征进行整合处理，得到针对所述待识别图像中所述目标语义的识别语义特征。

在一种可能的实现方式中，基于非目标语义特征对所述目标语义特征的影响值，对所述目标语义特征进行调整的步骤，包括：

通过目标网络中的每个转换单元，进行如下步骤对所述目标语义特征进行调整：

通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值；

利用所述各非目标语义特征对所述目标语义特征的影响值，对所述各非目标语义特征进行加权求和处理，得到加权后的语义特征；

将所述加权后的语义特征和所述目标语义特征进行整合处理，得到

所述待识别图像对应的调整后的目标语义特征；

其中，所述目标网络包括至少一个转换单元，若所述目标网络中包括串联的多个转换单元，则第i个转换单元使用的目标语义向量，是第i-1个转换单元得到的调整后的目标语义特征；所述待识别图像对应的调整后的目标语义特征，为所述多个转换单元中最末位置的转换单元得到的调整后的目标语义特征，所述i为大于1的整数。

在一种可能的实现方式中，所述通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值的步骤，包括：

将所述各非目标语义特征的语义权重向量与所述目标语义特征的目标语义向量进行点积的结果，确定为所述各非目标语义特征对所述目标语义特征的影响值；

所述利用所述各非目标语义特征对所述目标语义特征的影响值，对所述各非目标语义特征进行加权求和处理，得到加权后的语义特征的步骤，包括：

利用所述各非目标语义特征对所述目标语义特征的影响值，对所述各非目标语义特征的语义特征向量进行加权求和处理，得到加权后的语义特征。

在一种可能的实现方式中，所述通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值的步骤之前，还包括：

通过第一基本神经网络对所述目标语义特征进行处理，得到第一个转换单元中使用的所述目标语义向量，所述第一基本神经网络包括第一设定卷积核大小的卷积层。

通过第二基本神经网络对语义特征图进行处理，得到所述一个目标网络中每个转换单元中使用的所述各非目标语义特征的语义权重向量和语义特征向量；所述语义特征图与所述图像语义特征对应且所述语义特征图是通过第三基本神经网络对所述待识别图像进行处理后得到的；其中：

所述第二基本神经网络包括第二设定卷积核大小的卷积层；所述第三基本神经网络包括第三设定卷积核大小的卷积层。

在一种可能的实现方式中，所述目标网络包括多个，所述基于非目标语义特征对所述目标语义特征的影响值，对所述目标语义特征进行调整的步骤，包括：

分别通过多个目标网络，基于所述非目标语义特征对所述目标语义特征的影响值，对所述目标语义特征进行调整，得到每个目标网络对应的调整后的目标语义特征；以及对所述每个目标网络对应的调整后的目标语义特征进行整合处理，得到所述待识别图像对应的调整后的目标语义特征。

在一种可能的实现方式中，所述对待识别图像进行初始语义识别，得到图像语义特征的步骤，包括：

利用第四基本神经网络对所述待处理图像进行初始语义识别，得到所述待识别图像的图像语义特征，所述第四基本神经网络包括第四设定卷积核大小的卷积层；

所述从所述图像语义特征中获取目标语义特征的步骤，包括：

利用目标对象检测网络，获取所述待识别图中目标对象的位置信息，所述目标对象包括与所述目标语义对应的对象；

从所述图像语义特征中，获取与所述目标对象的位置信息对应的语义特征为所述目标语义特征。

在一种可能的实现方式中，所述利用预设的历史图像的识别语义特征和图像类型的第一关联度，估计所述待识别图像的识别语义特征与图像类型的第二关联度，将估计的第二关联度转换为所述待识别图像包含所述目标语义的概率参数的步骤，包括：

采用已训练的分类器模型，输入所述待识别图像的识别语义特征，并获得所述分类器模型输出的所述待识别图像包含所述目标语义的概率参数，所述分类器模型是基于机器学习方法，采用各历史图像的识别语义特征和所述各历史图像的图像类型作为训练样本训练得到的。

本公开第二方面，提供一种图像识别装置，包括：

特征提取单元，被配置为执行对待识别图像进行初始语义识别，得到图像语义特征；以及从所述图像语义特征中获取目标语义特征，所述目标语义特征包括所述图像语义特征中针对目标语义的特征；

第一特征处理单元，被配置为执行基于非目标语义特征对所述目标语义特征的影响值，对所述目标语义特征进行调整，所述非目标语义特征包括所述图像语义特征中除所述目标语义特征外的语义特征；以及

第二特征处理单元，被配置为执行基于调整后的目标语义特征，得到针对所述待识别图像中所述目标语义的识别语义特征；

图像识别单元，被配置为执行利用预设的历史图像的识别语义特征和图像类型的第一关联度，估计所述待识别图像的识别语义特征与图像类型的第二关联度，将估计的第二关联度转换为所述待识别图像包含所述目标语义的概率参数，其中所述图像类型是根据所述历史图像中是否包含所述目标语义确定的。

在一种可能的实现方式中，所述待识别图像包括待识别视频中的视频帧，所述图像识别单元还被配置为执行：

将估计的第二关联度转换为所述待识别图像包含所述目标语义的概率参数之后，将所述待识别视频中的视频帧包含所述目标语义的概率参数的最大值，确定为所述待识别视频包含所述目标语义的概率参数。

在一种可能的实现方式中，所述第二特征处理单元具体被配置为执行：

在一种可能的实现方式中，所述第一特征处理单元具体被配置为执行：

所述待识别图像对应的调整后的目标语义特征；

在一种可能的实现方式中，所述第一特征处理单元还被配置为执行：

通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值之前，通过第一基本神经网络对所述目标语义特征进行处理，得到第一个转换单元中使用的所述目标语义向量，所述第一基本神经网络包括第一设定卷积核大小的卷积层。

所述通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值之前，通过第二基本神经网络对语义特征图进行处理，得到所述一个目标网络中每个转换单元中使用的所述各非目标语义特征的语义权重向量和语义特征向量；所述语义特征图与所述图像语义特征对应且所述语义特征图是通过第三基本神经网络对所述待识别图像进行处理后得到的；其中：

在一种可能的实现方式中，所述目标网络包括多个，所述第一特征处理单元具体被配置为执行：

在一种可能的实现方式中，所述特征提取单元具体被配置为执行：

在一种可能的实现方式中，所述图像识别单元具体被配置为执行：

在一种可能的实现方式中，所述待识别图像包括待识别视频中的视频帧，所述分类器模型是通过多示例学习方法，采用各历史视频中的视频帧的识别语义特征和所述各历史视频的视频类型作为训练样本训练得到的，所述视频类型是根据所述各历史视频中是否包含目标帧确定的，所述目标帧包括包含所述目标语义的视频帧。

本公开第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及一种可能的实施方式中任一所述的方法。

本公开第四方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面的各种可能的实现方式中提供的方法。

本公开第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及一种可能的实施方式中任一所述的方法。

本公开的方案至少带来以下的有益效果：

本公开提供的方法中基于非目标语义特征对目标语义特征的影响值，对目标语义特征调整，进而根据调整后的目标语义特征估计待识别图像中包含目标语义的概率参数；即根据待识别图像中的非目标语义特征和目标语义特征的关系，估计待识别图像中包含目标语义的参数概率，既考虑了目标语义特征又考虑了非目标语义特征对目标语义的影响，进而提升了图像中的目标语义的识别准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本公开示例性实施例提供的一种图像识别的流程示意图；

图2为本公开示例性实施例提供的一种通过多个目标网络调整目标语义特征的示意图；

图3为本公开示例性实施例提供的一种利用转换单元调整目标语义特征的流程示意图；

图4为本公开示例性实施例提供的一种目标网络中多个转换单元的关系示意图；

图5为本公开示例性实施例提供的一种多个转换单元的调整目标语义的调整过程示意图；

图6为本公开示例性实施例提供的一种基于多示例学习训练分类器模型的训练架构示意图；

图7为本公开示例性实施例提供的一种通过分类器模型估计待识别视频包含目标语义的概率值是原理示意图；

图8为本公开示例性实施例提供的一种视频识别的神经网络结构示意图；

图9为本公开示例性实施例提供的一种图像识别装置的结构示意图；

图10为本公开示例性实施例提供的电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

为了便于本领域技术人员更好地理解本公开的技术方案，下面对本公开涉及的技术名称进行说明。

目标语义：在本公开实施例中，目标语义可以但不局限于包括设定类别的目标对象；其中目标对象可以但不局限于包括人、植物、动物、工业产品、建筑等；设定类别的目标对象可以但不局限于包括设定类别的人如警察、军人、医生等，设定类别的植物如花卉类植物、食物类植物等，设定类别的动物如猫、狗等，设定类别的建筑如医院、学校、公交车站等，本领域的技术人员还可根据其他实际需求设置目标语义。

下面对本公开的设计思想进行说明。

互联网图像以及视频已成为当今最大的信息载体之一，有效对这些图像和视频进行识别对我们十分有利。以包含军人和警察(以下将军人和警察简称“军警”)的视频为例，若能对包含军警的视频快速且准确的识别，将有助于安全维护和危险预警；但是当前的互联网中视频审核大多是人工进行的，效率很低。

相关技术中在通过其他方式识别视频中是否包含目标语义(如指定身份的人、物等)时，通常通过识别视频中的视频帧图像中是否包含目标语义；在识别图像中是否包含目标语义时，常通过图像中可能是目标语义的目标对象的特征进行识别，进而基于目标对象的特征识别出该图像中是否包含目标语义的结果，但在上述识别过程中，常出现目标对象的特征并不能反映其是目标语义；如在识别图像中的警察这个目标语义时，判断一个人是否是警察很大程度上依赖于这个人是否身穿警服，若图像中的一个是警察的人但其未穿警服时，则根据图像中的这个人的服装的特征识别出这个人是警察的概率很低，因此如何提升识别图像中目标语义的准确度成为了需要考虑的问题。

鉴于此，本公开设计一种图像识别方法、装置、设备及存储介质，用以提升图像识别的准确度，考虑到仅根据目标对象的特征识别其是否是目标语义的识别准确度低，且考虑到图像中的一些其他特征可能也会反映目标对象是否是目标语义，如人的位置附件的车辆的类型能在一定程度上反映这个人的身份，如若一个人的身边有一辆警车，则可以根据警车估计这个人很有可能是警察，因此本公开实施例中考虑，基于针对目标语义的目标语义特征和图像中的非目标语义特征的关系，预测图像中是否包含目标语义；具体地，可以基于图像中非目标语义特征对目标语义特征的影响值，调整目标语义特征，进而基于调整后的目标语义特征预测图像中是否包含目标语义。

以下结合附图对本公开的方案进行详细说明。

请参见图1，本公开实施例提供一种图像识别方法，该方法具体包括如下步骤：

步骤S101，对待识别图像进行初始语义识别，得到图像语义特征；以及从图像语义特征中获取目标语义特征，该目标语义特征包括上述图像语义特征中针对目标语义的特征。

为了提升获取图像的图像语义特征的准确度以及识别效率，可以利用神经网络对待识别图形进行识别，具体地，可以利用第四基本神经网络对待处理图像进行初始语义识别，得到待识别图像的图像语义特征，第四基本神经网络包括第四设定卷积核大小的卷积层；

进一步，可以利用目标对象检测网络，获取待识别图中目标对象的位置信息，目标对象包括与目标语义对应的对象；从图像语义特征中，获取与目标对象的位置信息对应的语义特征为目标语义特征。

如目标对象为人，目标语义为军警时，可以利用人体检测网络获取待识别图像中各个人的位置信息，并从图像语义特征中获取与上述各个人的位置信息对应的语义特征为目标语义特征。

上述过程中，根据目标对象的位置信息确定目标语义特征，以便于提升根据图像语义特征调整目标语义特征的准确度，且利用目标对象检测网络获取目标对象的位置信息，可以提升获取的位置信息的准确度，进而提升获取的目标语义特征的准确度。

步骤S102，基于非目标语义特征对目标语义特征的影响值，对目标语义特征进行调整，非目标语义特征包括图像语义特征中除目标语义特征外的语义特征。

具体地，可以通过一个目标网络，基于非目标语义特征对目标语义特征的影响值，对目标语义特征进行调整，得到待识别图像对应的调整后的目标语义特征；

进一步，考虑到增加特征处理的维度可以提升对目标语义特征的调整的丰富度，因此可以通过多个不同深度的目标网络对目标语义特征进行调整，具体地，可以分别通过多个目标网络，基于非目标语义特征对目标语义特征的影响值，对目标语义特征进行调整，得到每个目标网络对应的调整后的目标语义特征；进而对每个目标网络对应的调整后的目标语义特征进行整合处理，得到待识别图像对应的调整后的目标语义特征。

请参见图2，给出一个通过多个目标网络(Head网络)调整目标语义特征的示意图，该图中显示分别用3个Head网络对目标语义特征进行调整，获得待识别图像对应的调整后的目标语义特征。

步骤S103，基于调整后的目标语义特征，得到针对待识别图像中目标语义的识别语义特征。

考虑到目前仅根据调整前的目标语义特征，估计图像中包含目标语义的概率参数准确度较低，本公开实施例中考虑根据目标语义特征和图像语义特征之间的关联关系，调整目标语义特征，进而提升目标语义特征的精确度，以提升根据调整后的目标语义特征估计图像中包含目标语义的概率参数的准确度，具体地，可以将调整后的目标语义特征，确定为针对待识别图像中目标语义的识别语义特征。

为了进一步提升根据调整后的目标语义特征估计图像中包含目标语义的概率参数的准确度，也可以对调整后的目标语义特征和图像语义特征进行整合处理，得到针对待识别图像中目标语义的识别语义特征；如将调整后的目标语义特征和图像特征进行拼接处理，得到针对待识别图像中目标语义的识别语义特征。

步骤S104，利用预设的历史图像的识别语义特征和图像类型的第一关联度，估计待识别图像的识别语义特征与图像类型的第二关联度，将估计的第二关联度转换为待识别图像包含目标语义的概率参数，其中图像类型是根据历史图像中是否包含目标语义确定的。

具体地，上述概率参数可以包括概率值，也可以包括表征概率值的一些参数，本领域的技术人员可根据实际需求设置概率参数。

进一步，当概率参数包括概率值时，还可以在步骤S104之后，将待识别图像包含目标语义的概率值和第一概率阈值进行比较，若待识别图像包含目标语义的概率值大于第一概率阈值，则确定该待识别图像为包含目标语义的图像，否则确定该待识别图像为不包含目标语义的图像。

作为一种实施例，考虑到目前识别视频中是否包含目标语义的需求增加，因此为了提升识别视频中包含目标语义的准确度和识别效率，本公开实施例中的待识别图像可以包括待识别视频中的视频帧，还可以通过上述步骤S101至步骤S104，估计该待识别视频中每个视频帧包含目标语义的概率参数，进而将该待识别视频中的视频帧包含目标语义的概率参数的最大值，确定为待识别视频包含目标语义的概率参数。

进一步，当概率参数包括概率值时，还可以在确定待识别视频包含目标语义的概率值之后，将待识别视频包含目标语义的概率值和第二概率阈值进行比较，若待识别视频包含目标语义的概率值大于第二概率阈值，则确定该待识别视频为包含目标语义的视频，否则确定该待识别视频为不包含目标语义的视频；上述第一概率阈值和第二概率阈值可以为相同的值，也可以为不同的值，本领域的技术人员可根据实际需求设置上述第一概率阈值和第二概率阈值的数值。

作为一种实施例，以下对本公开实施例步骤S102中，通过目标网络对目标语义特征的调整过程进行说明。

具体地，针对一个目标网络而言，该目标网络中可以包括一个转换Transformer单元和多个转换单元，进而通过该目标网络中的每个转换单元对目标语义特征进行调整，以下分情况进行说明。

情况1：一个目标网络中包括一个Transformer单元。

请参见图3，通过Transformer单元，进行如下步骤S301至步骤S303，对目标语义特征进行调整。

步骤S301，通过注意力机制，确定各非目标语义特征对目标语义特征的影响值。

具体地，可以将各非目标语义特征的语义权重向量K与目标语义特征的目标语义向量q进行点积的结果，确定为各非目标语义特征对目标语义特征的影响值。

即可参见下述公式1，若图像语义特征中包括10个语义特征，其中一个特征为目标语义特征，9个为非目标语义特征，则此步骤中获得9个非目标语义特征对目标语义特征的影响值。

公式1：W(j)＝K(j)×q；

公式1中，j为非目标语义特征的标识信息，q为目标语义特征的目标语义向量，K(j)为标识信息为j的非目标语义特征的语义权重向量，W(j)为标识信息为j的非目标语义特征对目标语义特征向量的影响值。

步骤S302，利用各非目标语义特征对目标语义特征的影响值，对各非目标语义特征进行加权求和处理，得到加权后的语义特征。

具体地，可以利用各非目标语义特征对目标语义特征的影响值，对各非目标语义特征的语义特征向量V进行加权求和处理，得到加权后的语义特征；可参见下述公式2：

公式2：

公式2中，j为非目标语义特征的标识信息，W(j)为标识信息为j的非目标语义特征对目标语义特征向量的影响值，V(j)为标识信息为j的非目标语义特征的语义特征向量，n为非目标语义特征的数量且n为整数；C为上述加权后的语义特征。

步骤S303，将加权后的语义特征和目标语义特征进行整合处理，得到待识别图像对应的调整后的目标语义特征。

具体地，可以将上述加权后的语义特征C和目标语义向量q拼接在一起，得到待识别图像对应的调整后的目标语义特征，也可以将加权后的语义特征C和目标语义向量q进行其他处理，得到待识别图像对应的调整后的目标语义特征，本领域的技术人员可根据实际需求设置上述整合处理。

作为一种实施例，为了提升获取的目标语义向量的准确度，可以在上述步骤S301之前，通过第一基本神经网络对目标语义特征进行处理，得到该转换单元中使用的目标语义向量q，上述第一基本神经网络可以包括第一设定卷积核大小的卷积层。

作为一种实施例，为了提升获取的语义权重向量和语义特征向量的准确度，可以在步骤S301之前，通过第二基本神经网络对语义特征图进行处理，得到该Transformer单元中使用的各非目标语义特征的语义权重向量K(j)和语义特征向量V(j)；其中，上述语义特征图与图像语义特征对应且语义特征图是通过第三基本神经网络对待识别图像进行处理后得到的。

上述第二基本神经网络包括第二设定卷积核大小的卷积层；上述第三基本神经网络包括第三设定卷积核大小的卷积层，本领域的技术人员可根据实际需求设置上述第二设定卷积核大小和第一设定卷积核大小。

上述过程中，通过转换单元中的注意力机制，根据图像语义特征中各非目标语义特征对目标语义特征的影响值调整目标语义特征，能够使调整后的目标语义特征中包含待识别图像中与目标对象关联的特征，进而提升根据调整后的目标语义特征识别待识别图像包含目标语义的概率参数的准确度，且通过上述语义权重向量K、目标语义向量q以及语义特征向量V等向量，对目标语义特征进行调整，提升了调整目标语义特征的效率，进而提升了图像识别的效率。

情况2：一个目标网络中包括多个Transformer单元。

此种情况下一个目标网络中的多个Transformer单元是串联在一起的，请参见图4，示意出一个包括N个Transformer单元的目标网络，N为大于1的整数。

该情况下，通过每个Transformer单元对目标语义特征进行调整，其中每个Transformer单元对目标语义特征进行调整的过程可参见上述步骤S301至步骤S303，此处不再重复叙述。

作为一种实施例，该情况下第1个Transformer单元在步骤S301中使用的目标语义向量是通过第一基本神经网络对目标语义特征进行处理得到的，上述第一基本神经网络包括第一设定卷积核大小的卷积层；第i个Transformer单元使用的目标语义向量，是第i-1个Transformer单元得到的调整后的目标语义特征，i为大于1的整数；如图4示意出的第1个Transformer单元得到的目标语义特征的目标语义向量q(1)，传递到第2个Transformer单元作为第2个Transformer单元在步骤S201中使用的目标语义向量。

该情况下待识别图像对应的调整后的目标语义特征，为上述多个Transformer单元中最末位置的Transformer单元得到的调整后的目标语义特征，如图4所示，即第N个Transformer单元得到的目标语义向量q(N)为待识别图像对应的调整后的目标语义特征。

请参见图5，给出一种多个Transformer单元的调整目标语义的调整过程示意图。

作为一种实施例，在利用包含多个Transformer单元的目标网络调整目标语义特征之前，可以但不局限于通过第二基本神经网络对语义特征图进行处理，得到该目标网络的Transformer单元中使用的各非目标语义特征的语义权重向量K(j)和语义特征向量V(j)；语义特征图与图像语义特征对应，且语义特征图是通过第三基本神经网络对待识别图像进行处理后得到的；其中多个Transformer单元中每个Transformer单元使用的各非目标语义特征的语义权重向量K(j)和语义特征向量V(j)是相同的；上述第二基本神经网络包括第二设定卷积核大小的卷积层；上述第三基本神经网络包括第三设定卷积核大小的卷积层。

上述过程中，多个Transformer单元调整后的目标语义特征的内容更丰富，其与待识别图像的全局特征(图像语义特征)之间的关联信息也更多，因此，在用调整后的目标语义特征进行图像识别时，可以提升识别出的待识别图像包含目标语义的概率参数的准确度。

作为一种实施例，若在步骤S102中利用多个目标网络对目标语义特征进行调整，则每个目标网络中使用的各非目标语义特征的语义权重向量K(j)和语义特征向量V(j)可以是不相同的。

作为一种实施例，为了提升识别图像中包含目标语义的概率参数的准确度以及识别效率，在步骤S104中，可以通过已训练的分类器模型，基于待识别图像的识别语义特征，估计待识别图像包含上述目标语义的概率参数具体地，可以采用已训练的分类器模型，输入待识别图像的识别语义特征，并获得分类器模型输出的待识别图像包含上述目标语义的概率参数；其中：

上述分类器模型是基于机器学习方法，采用各历史图像的识别语义特征和上述各历史图像的图像类型作为训练样本训练得到的。

当用上述分类器估计待识别视频中包含目标语义的概率参数，若通过历史视频帧的识别语义特征和各历史视频帧的图像类型作为训练样本，则需要判断每个历史视频帧的图像类型，并为每个历史视频帧设置用于表征图像类型的标签，而通常情况下视频中会包含很多视频帧，训练分类器模型时便需要对数量巨大的历史视频帧设置标签，十分消耗资源且效率低、耗时长；因此本公开实施例中为了提升分类器模型的训练效率，直接通过各历史视频的识别语义也正和历史视频的视频类训练分类器模型，直接对历史视频设置表征视频类型的标签。

具体地，待识别图像包括待识别视频中的视频帧，分类器模型是通过多示例学习方法，采用各历史视频中的视频帧的识别语义特征和各历史视频的视频类型作为训练样本训练得到的，视频类型是根据各历史视频中是否包含目标帧确定的，目标帧包括包含目标语义的视频帧。

以下对通过多示例学习方法训练上述分类器模型的过程进行说明。

因此在本公开实施例中，在整个视频维度设置训练样本的标签，同时利用多示例学习机制优化分类器模型的训练过程；具体而言，在训练过程中，给出包含正样本视频和负样本视频的成对的样本组，正样本视频为包含上述目标帧的视频，负样本视频为不包含上述目标帧的视频；针对上述样本组，设计如下公式3所示的目标函数：

公式3：

其中，上述公式3中，V_p为正样本视频，且

Vn为负样本视频，且

N_p为正样本视频中视频帧的数量，N_n为负样本视频中视频帧的数量，i为正样本视频中视频帧的标识信息，j为负样本视频中视频帧的标识信息；f()的取值范围为0至1之间且包含0和1，且f()表示视频中包含目标语义的概率值；

表示正样本视频的视频帧中包含目标语义的概率值的最大值；

表示负样本视频的视频帧中包含目标语义的概率值的最大值。

上述公式3示意出的目标函数表征的训练目标是使得正样本视频的视频帧和负样本视频的视频帧的估计结果逐渐彼此远离。

此外，使用上述目标函数还具有如下两个优点：

优点一：对训练样本的标签的粒度的要求低，在一些情况下，视频的标签是在视频级别而不是视频帧级别进行设置的，这使得无法以完全监督的方式训练网络，但上述公式3示意出的目标函数使的分类器模型的训练过程变得可行。

优点二：训练样本中的噪声的标签的容忍度高，进而在优化开始期间，对于含有目标语义的视频但具有最大概率值的视频帧可能不包含目标语义；因此，我们需要一个对训练样本中的噪声不敏感的目标函数来优化网络，而上述公式3示意出的目标函数因其梯度是线性的，故而能达到这种效果。

具体地，请参见图6，给出一种基于多示例学习训练分类器模型的训练架构示意图，对于其而言，本公开实施例中还可以采用如下公式4至公式6示意出的损失函数来优化分类器模型的网络。

公式4：

公式5：

公式6：

其中，上述公式4至公式6中，V_p为正样本视频，且

Vn为负样本视频，且

表示负样本视频的视频帧中包含目标语义的概率值的最大值；l_rank是基于上述目标函数的思想，它是以排序损失的形式表示的；l_neg是为不含目标语义的负样本视频设计的，该类视频中的所有帧都不包含目标语义的信息，ln()表示利用交叉熵损失函数对其进行优化；l_smooth表征此损失函数用于约束概率值应在视频中的相邻视频帧之间平稳地变化。

本公开实施例中的分类器模型可以包括一层全连接网络，也可以包括多层全连接网络，本领域的技术人员可根据识别准确度的需求，设置分类器模型中的全连接网络的层数。

请参见图7，提供一个通过上述分类器模型估计待识别视频包含目标语义的概率值是原理示意图，其中分别用分类器模型对待识别视频中的视频帧1、视频帧2至视频帧n进行识别，分别输出对应的包含目标语义的概率值f(1)、概率值f(2)至概率值f(n)，最后将最大的概率值maxf()确定为待识别视频包含目标语义的概率值。

以下提供一个图像识别的具体示例。

该示例中以人为目标对象，以军人和警察(以下简称“军警”)作为目标语义，以识别视频中是否包含军警为例进行说明。

请参见图8，首先提供一个视频识别的神经网络结构示意图。

对于骨干网络，我们采用了经过ImageNet预训练的ResNet-50作为骨干网络来编码视频帧。针对一大小为H×W的视频帧，从最后的3个conv块(即三个基本神经网络Conv3_x、Conv4_x和Conv5_x)中各提取一个语义特征图，此处的基本神经网络可以但不局限于是上述第三基本神经网络，其中上述H为视频帧的高度，上述W为视频帧的宽度；上述从Conv3_x、Conv4_x和Conv5_x中提取的语义特征图的大小分别为(W/8)×(W/8)、(W/16)×(W/16)和(W/32)×(W/32)，本领域的技术人员还可以根据其他实际需求，设置从上述各目标网络中提取的特征图的大小。

本示例中用H(i)×W(i)表示为conv块Convi_x处的特征图大小，其中i为不同的目标网络的标识信息。实验发现，利用不同深度的多个基本神经网络(conv块)提取的语义特征图与仅用一个基本神经网络提取的语义特征图的数据更丰富，利用多个基本神经网络得到的语义特征图中的数据更丰富，用其预估的视频帧中包含目标语义的概率值更精确。

通过不同的conv块抽取得到语义特征图后，使用RoiPool操作针对每个conv块得到的语义特征图，根据视频帧中人体的位置信息提取人体的目标语义特征，该目标语义特征用以表示人体位置部分的图像特征。具体地，本示例中可以通过训练完成的人体检测网络来获取人体在视频帧中的位置信息；

上述RoiPool的输入是大小为r·H(i)×r·W(i)的包含目标语义特征的目标语义特征图，目标语义特征图与原始的语义特征图H(i)×W(i)的比例为r。

对于Convi_x处，由RoiPool输出的目标语义特征，本示例中利用3个Head网络分别对不同的Convi_x得到的目标语义特征进行调整，以生成视频帧对应的调整后的目标语义特征h(i)(i为上述三个基本神经网络Conv3_x、Conv4_x和Conv5_x的标识信息)，上述不同的Head网络具有不同数量的卷积层。

本示例中的各Head网络由多个Transformer单元拼接在一起，在Head网络的输入部分，需要分别获得目标语义特征对应的查询特征q(i)、键特征K(i)以及值特征V(i)；此示例中的查询特征q(i)为上述目标语义特征的目标语义向量q，键特征K(i)为上述非目标语义特征的语义权重向量K，值特征V(i)为上述非目标语义特征的语义特征向量V，查询特征q(i)、键特征K(i)以及值特征V(i)中的i为上述三个基本神经网络Conv3_x、Conv4_x和Conv5_x的标识信息。

本示例中通过如下方式获取Convi_x对应的查询特征q(i)、键特征K(i)以及值特征V(i)。

1)获取Convi_x对应的Head网络使用的查询特征q(i)。

在给定由RoiPool得到的形状为C×r·H(i)×r·W(i)的目标语义特征下，使用包括设定卷积核大小为r·H(i)×r·W(i)的卷积层的第一基本神经网络，对目标语义特征进行编码处理，得到查询特征q(i)，上述卷积层的维度是D×1×1，其中D是卷积层的输出通道。

2)获得Convi_x对应的Head网络使用的键特征K(i)以及值特征V(i)。

由于不同Head网络具有数量不同的卷积层，因此在获取不同的Convi_x对应的Head网络使用的键特征K(i)以及值特征V(i)，具体方式略有不同。具体如下：

对于位于Conv4_x的head网络，我们同样使用包含一层卷积核大小为r×H(4)×r×W(4)的卷积层的第二基本神经网络，对利用Conv4_x抽取的语义特征图进行编码处理，得到Conv4_x中的Head网络使用的键特征K(4)以及值特征V(4)。

对于位于Conv5_x的Head网络，我们同样使用包含一层卷积核大小为r×H(5)×r×W(5)的卷积层的第二基本神经网络，对利用Conv5_x抽取的语义特征图进行编码处理，得到Conv5_x中的Head网络使用的键特征K(5)以及值特征V(5)；其中获取位于Conv4_x和位于Conv5_x的head网络使用的键特征K(i)以及值特征V(i)时，可以使用相同的第二基本神经网络对相应的语义特征图进行编码处理。

但对于Conv3_x的Head网络，本示例中采用包含了两层卷积层的第二基本神经网络，对Conv3_x对应的语义特征图进行编码处理，获得位于Conv3_x的Head网络使用的键特征K(3)以及值特征V(3)；其中上述两层卷积层中每层卷积层的卷积核大小可以为{[(r×H(i)+1)/2]+[(r×W(i)+1)/2]}，其中此处的i为Conv3_x的标识信息3，以确保对于卷积层的输出特征，每个特征点的感受野(每个特征点涵盖的图像范围)与RoiPool特征大小相同。

此外，本示例中在Conv3_x处应用包含两层卷积层的第二基本神经网络的原因是，Conv3_x处的语义特征图的尺寸相对较大，仅一层卷积层可能无法在此处很好地对语义特征进行编码，因此添加一层卷积层来提高语义编码能力，然后通过卷积层，我们可以得到在Convi_x处的键特征K(i)和值特征V(i)，键特征和值特征的形状均为D×H(i)'×W(i)'的要素大小。

进而获取位于Convi_x的Head网络使用的查询特征q(i)、键特征K(i)以及值特征V(i)之后，利用每个Head网络对目标语义特征进行处理，此处可参照上述描述，主要包括如下内容：

针对一个Head网络中的一个Transformer单元而言，首先获得非目标语义特征对目标语义特征的影响值，可以通过上述公式1获取，也可以通过下述公式7获取。

公式7：

公式7中W_x,y(i)为各非目标语义特征对目标语义特征的影响值的矩阵，i为Convi_x的标识信息。

在基于公式7获取影响值的矩阵后，可以用个特征维度将W_x,y(i)进行归一化，并根据如下公式8，基于W_x,y(i)为对应的值特征V(i)进行加权求和处理，获得该Transformer单元对应的加权处理后的语义特征。

公式8：c(i)＝∑_x,y[Softmax(W(i))]_x,yV_x,y(i)；

公式8中i为Convi_x的标识信息，c(i)为该Transformer单元对应的加权处理后的语义特征。

在获取c(i)之后，对c(i)进行dropout操作，以减轻编码网络的过拟合；然后将c(i)与该Transformer单元输入的查询特征q(i)相加得到c(i)′，然后通过层归一化操作(LayerNorm)后，将c(i)′输入两层感知机网络，得到的特征可以获得充当下一个Transformer单元输入非查询特征q(i)′。其中c(i)包含了与q(i)包含了最相关的空间上下文信息，通过这种方式q(i)的信息得到了丰富，以上操作可以表示为以下公式9和公式10。

公式9：c(i)′＝LayerNorm(q(i))+Dropout(c(i))；

公式10：q(i)′＝LayerNorm(q(i)′)+Dropout(MLP(c(i)′))；

q(i)′，K(i)和V(i)将被输入下一个Transformer单元，上述步骤将被重复直到从Head网络的最后一个Transformer单元获得完整的调整后的目标语义特征h(i)。

作为一种实施例，如果一个视频帧中有多个目标语义特征，则h(i)将是所有调整后的目标语义特征的均值。

进而，在利用Conv3_x、Conv4_x和Conv5_x中的Head网络获得对应的h(3)，h(4)和h(5)，可以将h(3)，h(4)和h(5)与图像语义特征串联在一起作为视频帧的识别语义特征，也可以将h(3)，h(4)和h(5)的均值与图像语义特征串联在一起作为视频帧的识别语义特征，还可以将h(3)，h(4)和h(5)串联在一起作为视频帧的识别语义特征，还可以将h(3)，h(4)和h(5)的均值作为视频帧的识别语义特征；进而将视频帧的识别语义特征输入到训练好的分类器模型中，即可得到该视频帧包含军警的概率值；其中：

上述分类器模型是预先通过多示例学习的方法进行训练的，具体的训练方式可参见上述内容，此处不再重复叙述。

实验表明，通过本公开实施例提供的方法估计视频中包含军警的概率值，在单卡GPU GeForce RTX 1080Ti上，视频识别的AUC精度不低于82％，相比于其他方式的图像识别方法，可高2～3个百分点，明显低提升了图像中目标语义的识别准确度。

综上，本公开实施例中，基于非目标语义特征对目标语义特征的影响值，对目标语义特征调整，即根据待识别图像中的非目标语义特征和目标语义特征的关系，估计待识别图像中包含目标语义的参数概率，既考虑了目标语义特征又考虑了非目标语义特征对目标语义的影响，进而提升了图像中的目标语义的识别准确度。

如图9所示，基于相同的发明构思，本公开实施例还提供一种图像识别装置900，该装置包括：

特征提取单元901，被配置为执行对待识别图像进行初始语义识别，得到图像语义特征；以及从上述图像语义特征中获取目标语义特征，上述目标语义特征包括上述图像语义特征中针对目标语义的特征；

第一特征处理单元902，被配置为执行基于非目标语义特征对上述目标语义特征的影响值，对上述目标语义特征进行调整，上述非目标语义特征包括上述图像语义特征中除上述目标语义特征外的语义特征；以及

第二特征处理单元903，被配置为执行基于调整后的目标语义特征，得到针对上述待识别图像中上述目标语义的识别语义特征；

图像识别单元904，被配置为执行利用预设的历史图像的识别语义特征和图像类型的第一关联度，估计上述待识别图像的识别语义特征与图像类型的第二关联度，将估计的第二关联度转换为上述待识别图像包含上述目标语义的概率参数，其中上述图像类型是根据上述历史图像中是否包含上述目标语义确定的。

作为一种实施例，上述待识别图像包括待识别视频中的视频帧，图像识别单元904还被配置为执行：

将估计的第二关联度转换为上述待识别图像包含上述目标语义的概率参数之后，将上述待识别视频中的视频帧包含上述目标语义的概率参数的最大值，确定为上述待识别视频包含上述目标语义的概率参数。

作为一种实施例，第二特征处理单元903具体被配置为执行：

将上述调整后的目标语义特征，确定为针对上述待识别图像中上述目标语义的识别语义特征；或

对上述调整后的目标语义特征和上述图像语义特征进行整合处理，得到针对上述待识别图像中上述目标语义的识别语义特征。

作为一种实施例，第一特征处理单元902具体被配置为执行：

通过目标网络中的每个转换单元，进行如下步骤对上述目标语义特征进行调整：

通过注意力机制，确定各非目标语义特征对上述目标语义特征的影响值；

利用上述各非目标语义特征对上述目标语义特征的影响值，对上述各非目标语义特征进行加权求和处理，得到加权后的语义特征；

将上述加权后的语义特征和上述目标语义特征进行整合处理，得到

上述待识别图像对应的调整后的目标语义特征；

其中，上述目标网络包括至少一个转换单元，若上述目标网络中包括串联的多个转换单元，则第i个转换单元使用的目标语义向量，是第i-1个转换单元得到的调整后的目标语义特征；上述待识别图像对应的调整后的目标语义特征，为上述多个转换单元中最末位置的转换单元得到的调整后的目标语义特征，上述i为大于1的整数。

作为一种实施例，第一特征处理单元902具体被配置为执行：

将上述各非目标语义特征的语义权重向量与上述目标语义特征的目标语义向量进行点积的结果，确定为上述各非目标语义特征对上述目标语义特征的影响值；

上述利用上述各非目标语义特征对上述目标语义特征的影响值，对上述各非目标语义特征进行加权求和处理，得到加权后的语义特征的步骤，包括：

利用上述各非目标语义特征对上述目标语义特征的影响值，对上述各非目标语义特征的语义特征向量进行加权求和处理，得到加权后的语义特征。

作为一种实施例，第一特征处理单元902还被配置为执行：

通过注意力机制，确定各非目标语义特征对上述目标语义特征的影响值之前，通过第一基本神经网络对上述目标语义特征进行处理，得到第一个转换单元中使用的上述目标语义向量，上述第一基本神经网络包括第一设定卷积核大小的卷积层。

作为一种实施例，第一特征处理单元902还被配置为执行：

上述通过注意力机制，确定各非目标语义特征对上述目标语义特征的影响值之前，通过第二基本神经网络对语义特征图进行处理，得到上述一个目标网络中每个转换单元中使用的上述各非目标语义特征的语义权重向量和语义特征向量；上述语义特征图与上述图像语义特征对应且上述语义特征图是通过第三基本神经网络对上述待识别图像进行处理后得到的；其中：

上述第二基本神经网络包括第二设定卷积核大小的卷积层；上述第三基本神经网络包括第三设定卷积核大小的卷积层。

作为一种实施例，上述目标网络包括多个，第一特征处理单元902具体被配置为执行：

分别通过多个目标网络，基于上述非目标语义特征对上述目标语义特征的影响值，对上述目标语义特征进行调整，得到每个目标网络对应的调整后的目标语义特征；以及对上述每个目标网络对应的调整后的目标语义特征进行整合处理，得到上述待识别图像对应的调整后的目标语义特征。

作为一种实施例，特征提取单元901具体被配置为执行：

利用第四基本神经网络对上述待处理图像进行初始语义识别，得到上述待识别图像的图像语义特征，上述第四基本神经网络包括第四设定卷积核大小的卷积层；

利用目标对象检测网络，获取上述待识别图中目标对象的位置信息，上述目标对象包括与上述目标语义对应的对象；

从上述图像语义特征中，获取与上述目标对象的位置信息对应的语义特征为上述目标语义特征。

作为一种实施例，图像识别单元904具体被配置为执行：

采用已训练的分类器模型，输入上述待识别图像的识别语义特征，并获得上述分类器模型输出的上述待识别图像包含上述目标语义的概率参数，上述分类器模型是基于机器学习方法，采用各历史图像的识别语义特征和上述各历史图像的图像类型作为训练样本训练得到的。

作为一种实施例，上述待识别图像包括待识别视频中的视频帧，上述分类器模型是通过多示例学习方法，采用各历史视频中的视频帧的识别语义特征和上述各历史视频的视频类型作为训练样本训练得到的，上述视频类型是根据上述各历史视频中是否包含目标帧确定的，上述目标帧包括包含上述目标语义的视频帧。

如图10所示，本公开提供一种电子设备1000，包括处理器1001、用于存储上述处理器可执行指令的存储器1002；

其中，上述处理器被配置为执行本公开实施例中任意一种图像识别方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本公开实施例提供的一种图像识别方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由上述电子设备的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述待识别图像包括待识别视频中的视频帧，所述将估计的第二关联度转换为所述待识别图像包含所述目标语义的概率参数的步骤之后，还包括：

3.如权利要求1所述的方法，其特征在于，所述基于调整后的目标语义特征，得到针对所述待识别图像中所述目标语义的识别语义特征的步骤，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，基于非目标语义特征对所述目标语义特征的影响值，对所述目标语义特征进行调整的步骤，包括：

将所述加权后的语义特征和所述目标语义特征进行整合处理，得到所述待识别图像对应的调整后的目标语义特征；

5.如权利要求4所述的方法，其特征在于，所述通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值的步骤，包括：

6.如权利要求5所述的方法，其特征在于，所述通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值的步骤之前，还包括

7.如权利要求5所述的方法，其特征在于，所述通过注意力机制，确定各非目标语义特征对所述目标语义特征的影响值的步骤之前，还包括：

8.一种图像识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1至7中任一项所述的方法。