CN114220041A

CN114220041A - 目标识别方法、电子设备及存储介质

Info

Publication number: CN114220041A
Application number: CN202111342318.4A
Authority: CN
Inventors: 王超运; 殷俊; 潘华东; 孙鹤
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-22

Abstract

本发明公开了一种目标识别方法、电子设备及存储介质。该目标识别方法包括：基于训练后的目标识别模型对待处理图像进行识别，确定待处理图像中是否包含目标对象；目标识别模型至少包括特征提取层和目标识别层；目标识别模型是在基于第一图像集对特征提取层进行训练后，基于第二图像集对目标识别层和进行训练后的特征提取层进行再次训练得到的；第一图像集包括均不包含标识信息的第一对象图像和第一背景图像；第二图像集包括第二对象图像和第二背景图像，第二对象图像包含对象标识信息，第二背景图像包含背景标识信息。通过上述方式，本发明能够提高运动目标检测的可靠性。

Description

目标识别方法、电子设备及存储介质

技术领域

本发明涉及运动目标识别技术领域，特别是涉及一种运动目标检测方法、电子设备以及计算机可读存储介质。

背景技术

传统的视频监控系统在检测有害动物，例如老鼠、蟑螂等，通常对受监管的厨房场景进行视频监控，相关人员观看视频等方式实时查看或查看回放，观察监控视频的画面中是否出现待检测的有害动物，占用较大人力资源且容易出现漏看以及误判的情况，导致检测的结果不可靠。

发明内容

有鉴于此，本发明主要解决的技术问题是提供一种目标识别方法、电子设备以及计算机可读存储介质，能够提高目标识别的可靠性。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种目标识别方法，该目标识别方法包括：获取待处理图像；基于训练后的目标识别模型对待处理图像进行识别，确定待处理图像中是否包含目标对象；其中：目标识别模型至少包括特征提取层和目标识别层；目标识别模型是在基于第一图像集对特征提取层进行训练后，基于第二图像集对目标识别层和进行训练后的特征提取层进行再次训练得到的；第一图像集包括第一对象图像和第一背景图像，第一对象图像中包含与目标对象同类别的样本对象，第一背景图像中不包含样本对象，第一对象图像和第一背景图像均不包含标识信息；第二图像集包括第二对象图像和第二背景图像，第二对象图像中包含样本对象，第二背景图像中不包含样本对象，第二对象图像包含用于标识样本对象类别信息的对象标识信息，第二背景图像包含用于标识第二背景图像中背景对象类别信息的背景标识信息。

在本发明的一实施例中，基于第一图像集对特征提取层进行训练包括：对第一图像集的第一对象图像和第一背景图像进行第一数据增强处理，并将增强处理后的第一对象图像和第一背景图像输入自监督学习模型的主网络分支得到预测输出；对第一图像集的第一对象图像和第一背景图像进行第二数据增强处理，并将增强处理后的第一对象图像和第一背景图像输入自监督学习模型的副网络分支得到投影输出，主网络与副网络为孪生网络；基于预测输出与投影输出计算孪生网络的损失值；基于孪生网络的损失值迭代更新自监督学习模型的网络参数，直至损失值稳定，将更新训练后的主网络的残差神经网络作为目标识别模型的初级特征提取层。

在本发明的一实施例中，基于第二图像集对目标识别层和进行训练后的特征提取层进行再次训练包括：利用第二图像集中的第二对象图像和第二背景图像对初级特征提取层和目标识别层进行训练，计算初级特征提取层网络和目标识别层网络的损失值；基于初级特征提取层网络和目标识别层网络损失值迭代更新初级特征提取层网络和目标识别层网络的网络参数，直至损失值稳定；其中，初级特征提取层网络和目标识别层网络的损失值是利用标签平滑交叉熵损失函数计算得到的，且调控标签平滑交叉熵损失函数的标签参数，以使得第二对象图像对总损失的共享权重大于第二背景图像对总损失的共享权重。

在本发明的一实施例中，获取视频样本集；对视频样本集中的至少部分视频样本进行运动检测，得到第一对象图像和第一背景图像，形成第一图像集，第一对象图像的样本对象为运动目标对象，第一对象图像为运动区域图像，第一背景图像为静态区域图像。

在本发明的一实施例中，对视频样本集中的至少部分视频样本进行运动检测包括：获取视频样本连续三帧的视频图像及各视频图像的像素值；计算中间帧图像与前向帧图像的前向像素差值，以及中间帧图像与后向帧图像的后向像素差值；响应于中间帧图像的某区域图像的前向像素差值和后向像素差值均大于预设值，得到中间帧图像的运动区域图像。

在本发明的一实施例中，获取中间帧图像的二值图像，并对二值图像进行连通域标记处理，以获取运动区域图像中运动目标对象的移动轨迹；沿移动轨迹延伸方向外扩增大运动区域图像，将外扩后的图像区域作为第一对象图像。

在本发明的一实施例中，第一图像集中第一对象图像的数量大于第一背景图像的数量。

在本发明的一实施例中，获取视频样本集；对视频样本集中的至少部分视频样本进行抽帧，得到多个视频图像；对视频图像进行样本对象和背景对象标注，得到第二对象图像和第二背景图像，样本对象为运动目标对象，第二对象图像为运动目标图像，第二背景图像为背景区域图像。

在本发明的一实施例中，获取监控视频文件；识别监控视频文件中是否存在目标对象；响应于存在目标对象，发送反馈信息；反馈信息用于表示监控视频文件中存在目标对象；响应于监控视频文件中存在目标对象的帧数超过预设帧数，实时发送反馈信息。

为解决上述技术问题，本发明采用的又一个技术方案是：提供一种电子设备，该电子设备包括处理器，处理器用于执行上述任一项实施例所阐述的目标识别方法。

为解决上述技术问题，本发明采用的又一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储指令/程序数据，指令/程序数据能够被执行以实现如上述任一项实施例所阐述的的目标识别方法。

本发明的有益效果是：区别于现有技术，本发明通过目标识别模型确定待处理图像中是否包括目标图像，减少人为确认的工作，且能够提高工作效率；其中，目标识别模型包括特征提取层和目标识别层，基于第一图像集对目标识别模型的特征提取层进行训练，由于第一图像集中不包含标识信息，能够降低数据获取代价；而后再基于第二图像集对目标识别层和进行训练后的特征提取层再次训练得到目标识别模型，第二图像集中包括对象标识信息和背景标识信息，能够对目标识别模型的训练起到监督作用，从而提高目标识别模型的可靠性，即本发明能够降低数据获取代价的同时提高目标识别模型的可靠性，进而提高目标识别的可靠性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。此外，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

图1是本发明目标识别方法一实施例的流程示意图；

图2是本发明目标识别模型一实施例的结构示意图；

图3是本发明目标识别方法另一实施例的流程示意图；

图4是本发明目标识别模型训练方法一实施例的流程示意图；

图5是本发明运动检测方法一实施例的流程示意图；

图6是本发明第二对象图像和第二背景图像一实施例的场景示意图；

图7是本发明第二对象图像和第二背景图像另一实施例的场景示意图；

图8是本发明目标识别模型训练方法另一实施例的流程示意图；

图9是本发明图像数据获取方法一实施例的流程示意图；

图10是本发明获取图像子集一实施例的流程示意图；

图11是本发明获取图像子集另一实施例的流程示意图；

图12是本发明数据集一实施例的分叉树示意图；

图13是本发明图像处理模型训练方法一实施例的流程示意图；

图14是本发明对图像处理模型进行多轮训练一实施例的流程示意图；

图15是本发明目标识别方法一实施例的流程示意图；

图16是本发明电子设备一实施例的结构示意图；

图17是本发明计算机可读存储介质一实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

为解决现有技术中目标识别方法不可靠的技术问题，本发明提供一种目标识别方法、电子设备以及计算机可读存储介质。该目标识别方法包括：获取视频文件；利用目标识别模型对视频文件进行目标识别；目标识别模型是利用无标注数据样本进行自监督训练得到的，无标注数据样本是利用运动检测法在视频样本中获取得到的。以下进行详细阐述。

请参阅结合参阅图1和图2，图1是本发明目标识别方法一实施例的流程示意图，图2是本发明目标识别模型一实施例的结构示意图。需要说明的是，本实施例所阐述的目标识别方法并不局限于以下步骤：

S101：获取待处理图像。

在本实施例中，待处理图像为需要检测是否存在运动物体的图像，可以是若干图像，也可以是自视频抽帧得到的图像，在此不做限定。

S102：基于训练后的目标识别模型对待处理图像进行识别，确定待处理图像中是否包含目标对象。

在本实施例中，在获取待处理图像后，基于目标识别模型对待处理图像进行识别，确定待处理图像是否包含目标对象，即判断视频文件中是否出现目标对象，该目标对象可以蟑螂、老鼠等，亦或是人物、动物等，在此不做限定。

目标识别模型至少包括特征提取层和目标识别层。第一图像集包括第一对象图像和第一背景图像，第一对象图像中包含与目标对象同类别的样本对象，第一背景图像中不包含样本对象，且第一对象图像和第一背景图像中均不包含标识信息，基于第一图像集对特征提取层进行训练，能够减少用于训练目标识别模型的图像的获取代价，从而降低训练成本。其中，样本对象可以是自历史拍摄到的图像中所包含的目标对象，也可以是自其他数据库中所下载的目标对象的同类别的图像，例如网络搜索目标对象同类别对象的图像并下载。

第二图像集包括第二对象图像和第二背景图像，第二对象图像中包含样本对象以及背景对象，还包含用于标识样本对象类别信息的对象标识信息；第二背景图像中不包含样本对象仅包含对背景对象，还包含用于标识第二背景图像中背景对象类别信息的背景标识信息，基于第二图像集对目标识别层和进行训练后的特征提取层进行再次训练得到，通过第二图像集中的对象标识信息和背景标识信息，对目标识别模型的训练起到监督作用，以有利于提高目标识别模型训练的可靠性。

也就是说，目标识别方法是利用目标识别模型实现的，基于目标识别模型对待处理图像中是否包含目标对象进行识别，能够减少人力成本，从而减轻用户的使用负担。并且，利用第一图像集和第二图像集对目标识别模型进行训练，能够在训练过程中降低用于训练的图像的获取代价，同时提高目标识别模型训练的可靠性，从而提高目标识别模型的可靠性，进而有利于提高目标识别的可靠性。

请参阅图3，图3是本发明目标识别方法另一实施例的流程示意图。需要说明的是，本实施例所阐述的目标识别方法并不局限于以下步骤：

S201：获取监控视频文件。

在本实施例中，监控视频文件可以是实时监控的监控视频，也可以是导出历史监控的监控视频，在此不做限定。

可选地，为缓解由于经不同监控设备所获取的监控视频文件的清晰度不同，导致所获取的监控视频文件差异性较大，较难做到数据标注的统一性，甚至影响目标识别的可靠性，可以对监控视频文件进行预处理，例如降噪、平滑处理等，以改善监控视频文件的清晰度，从而降低影响目标识别的可靠性的风险，有利于目标识别模型对监控视频文件进行识别。

S202：识别监控视频文件中是否存在目标对象。

在本实施例中，若识别到监控视频文件中存在目标对象，认为视频文件中存在运动目标，则执行步骤S204；若识别到监控视频文件中不存在目标对象，认为视频文件中不存在运动目标，则流程结束。

目标识别模型能够识别监控视频文件中是否存在目标对象，其中，可以对监控视频文件进行抽帧处理，得到相应的视频帧，各视频帧即为待处理图像，基于目标识别模型对各待处理图像进行处理，具体实施方式与本发明目标识别方法一实施例中步骤S102的具体实施方式相同，在此就不再赘述，以减少用户自行查看视频文件的工作，减轻用户负担，还能够提高目标识别的可靠性。

S203：发送反馈信息。

在本实施例中，响应于存在目标对象，发送反馈信息；反馈信息用于表示监控视频文件中存在目标对象，以便于用户了解视频文件中存在目标对象。举例而言，目标识别模型检测到目标对象，则报警通知用户视频文件存在目标对象，具体可以通过发出提示声、发送短信、通过相关联app发送推送信息等方式。换言之，提示声、短信、app推送等均可以是反馈信息的反馈形式，在此不做限定。

S204：响应于监控视频文件中存在运动目标的帧数超过预设帧数，实时发送反馈信息。

在本实施例中，还可以在识别目标对象后，对目标对象进行跟踪监测，统计监控视频文件内运动目标连续出现的视频帧的帧数，响应于监控视频文件中存在目标对象的帧数超过预设帧数，可以在跟踪目标对象的同时实时发送反馈信息，从而提醒用户目标对象已连续出现在视频文件较长时间，以便于用户及时了解目标对象的动态。

其中，预设帧数可以是五帧、六帧、八帧、十帧等，可以避免预设帧数过少导致提醒用户的频率过高，用户由于反馈信息繁杂而不全部查看，导致反馈信息无效，甚至错过目标对象长时间出现的反馈信息；还可以避免预设帧数过多，而目标对象通常出现的帧数达不到预设帧数，导致用户无法及时了解目标对象的状态。

需要注意的是，步骤S203之后并非一定需要执行步骤S204，在一些实施方式中，仅在识别到运动目标后发出反馈信息即可，无需在对运动目标长时间出现进行实时反馈信息，即允许不执行步骤S204，在此不做限定。

请参阅图4，图4是本发明目标识别模型训练方法一实施例的流程示意图。需要说明的是，本实施例所阐述的目标识别模型训练方法并不局限于以下步骤：

S301：获取视频样本集。

在本实施例中，视频样本集为包含样本对象活动的视频样本的集合，以利用视频样本集对目标识别模型进行训练。

S302：对视频样本集中的至少部分视频样本进行运动检测，形成第一图像集。

在本实施例中，对视频样本集所包含的至少部分视频样本进行运动检测，以得到第一对象图像和第一背景图像，形成第一图像集。其中，第一对象图像的样本对象为运动目标对象，从而能够通过运动检测识别到样本对象，第一对象图像为运动区域图像，即运动目标在当前视频样本的运动区域，第一背景图像为静态区域图像，即在当前视频样本中不存在运动目标对象的图像，相当于背景图像。需要注意的是，虽然通过运动检测得到第一对象图像和第一背景图像，但并不会对视频样本产生标注，从而便于对目标识别模型进行自监督训练，以降低由于第一图像集带标注而本身存在强监督学习的特性的风险，有利于降低数据标注成本，进而降低对目标识别模型进行训练的训练代价。

可选地，第一图像集中第一背景图像的数量大于第一对象图像的数量，这是由于背景的多样性通常大于运动目标的多样性，当第一背景图像的数量大于第一对象图像时，能够缓解目标识别模型过拟合，还能够提高目标识别模型的泛化性。

具体地，以下结合图5举例阐述本发明进行运动检测的一种实施方式。请参阅图5，图5是本发明运动检测方法一实施例的流程示意图。需要说明的是，本发明运动检测法不限于应用于目标识别模型训练方法以及目标识别方法，还可以应用于视频筛选、移动轨迹预测等，在此不做限定，且本实施例所阐述的运动检测法并不局限于以下步骤：

S3021：获取视频样本连续三帧的视频图像及各视频图像的像素值。

在本实施例中，对视频样本集中的至少部分视频样本进行运动检测，将视频样本进行抽帧处理以获得相应的视频图像(即视频帧)，并分别获取各视频图像的像素值。在对视频样本集进行运动检测时，依次获取待检测的视频样本中连续三帧的视频图像及该连续三帧视频图像各自的像素值。

S3022：计算中间帧图像与前向帧图像的前向像素差值，以及中间帧图像与后向帧图像的后向像素差值。

在本实施例中，依次对各视频图像计算前向像素差值和后向像素差值，在对某一帧视频图像进行计算时该视频图像即为中间帧图像，计算其与前向帧图像的前向像素差值，以获取该视频图像相对前向帧图像发生改变的区域，可以认为区域为运动目标的已发生移动的运动区域；计算其与后向帧图像的后向像素差值，以获取该视频图像相对后向帧图像即将发生改变的区域，即后向帧图像相对该视频图像发生改变的区域，可以认为该区域为运动目标即将发生运动的运动区域。计算过程如下公式所示：

d1(x,y)＝|fk(x,y)-fk-1(x,y)| (式1-1)

d2(x,y)＝|fk(x,y)-fk+1(x,y)| (式1-2)

其中，fk(x,y)为第k帧视频图像的像素值，fk-1(x,y)为第k-1帧视频图像的像素值，fk+1(x,y)为第k+1帧视频图像的像素值，d1(x,y)为第k-1帧到第k帧运动的区域判断，d2(x,y)为第k1帧到第k帧运动的区域判断。

S3023：响应于中间帧图像的某区域图像的前向像素差值和后向像素差值均大于预设值，得到中间帧图像的运动区域图像。

在本实施例中，当中间帧图像的某区域图像的前向像素差值和后向像素差值均大于预设值，认为该区域图像相较于前向帧图像和后向帧图像均发生改变，运动物体在该区域经过，则该区域为中间帧图像的运动区域图像。其中，运动区域图像可以是上述实施例中所阐述的第一对象图像，也可以是经过后续步骤处理后的图像为第一对象图像，在此不做限定。运动区域图像的计算过程如下公式所示：

d1(x,y)>X&d2(x,y)>P (式1-3)

Dk(x,y)＝d1(x,y)|d2(x,y) (式1-4)

其中，P为预设值，Dk(x,y)为d1(x,y)和d2(x,y)的差集，即第k帧的运动区域图像。利用中间帧图像分别与前向帧图像和后向帧图像进行比对，能够获取当前中间帧图像中运动目标的运动来源以及运动趋势，从而能够获取该中间帧图像发生移动变化的区域，有利于明确运动目标的运动轨迹。

S3024：获取中间帧图像的二值图像，并对二值图像进行连通域标记处理，以获取运动区域图像中运动目标对象的移动轨迹。

在本实施例中，对中间帧图像进行处理以获取中间帧图像的二值图像，对二值图像进行连通域标记处理，从而获取运动区域图像中运动目标对象的移动轨迹，以能够自主获取运动目标对象的移动轨迹，无需用户对运动目标对象的移动轨迹进行选择，提高运动检测的智能性。还能够提高获取移动轨迹的准确性，例如，能够减少因运动目标对象的移动范围小或移动目标对象的体积较小，而用户在人为进行判断时漏判或误判的情况出现。

S3025：沿移动轨迹延伸方向外扩增大运动区域图像，将外扩后的图像区域作为第一对象图像。

在本实施例中，在得到移动目标的移动轨迹后，沿移动轨迹延伸方向外扩增大运动区域图像，将外扩后图像区域作为第一对象图像，以提高运动检测的可靠性，降低运动目标对象未被整体检测到的风险。这是由于，运动目标在当前视频图像中可能仅部分部位移动，例如运动目标为老鼠时，在该视频图像中仅头部发生移动，若直接将移动轨迹作为第一对象图像可能会导致运动目标的部分部位未被选中，影响运动检测的可靠性，甚至影响目标识别模型的可靠性。具体外扩方式可如下公式所示：

X1＝Xlu-k(Xrd-Xlu) (式1-5)

Y1＝Ylu-k(Yrd-Ylu) (式1-6)

X2＝Xrd+k(Xrd-Xlu) (式1-7)

Y2＝Yrd+k(Yrd-Ylu) (式1-8)

其中，获取运动目标的移动轨迹的外接矩形框，该外接矩形框左上角坐标和右上角坐标分别为(Xlu,Ylu)和(Xrd,Yrd)，进行外扩处理后的第一对象图像对应的左上角和右下角的坐标分别为(X1,Y1)、(X2,Y2)，其中k是大于1的常数。

请继续参阅图4，以下继续阐述目标识别模型训练方法一实施例在对视频样本集中的至少部分视频样本进行运动检测，形成第一图像集(步骤S302)之后的步骤。

S303：基于第一图像集对特征提取层进行训练。

在本实施例中，基于第一对象图像和第一背景图像形成第一图像集后，利用第一图像集对目标识别模型的特征提取层进行训练，由于第一图像集中不包含标识信息，能够减少图像获取代价，还能够减小对特征提取层进行训练时的训练代价。

可选地，可以是对目标识别模型的特征提取层进行自监督训练，以在减少标注成本的情况下，提高目标识别模型的可靠性。对目标识别模型进行自监督训练的具体实施方式将在下文举例阐述，在此就不再赘述。

S304：获取第二图像集。

在本实施例中，还可以获取第二图像集，第二图像集包括第二对象图像和第二背景图像；其中，第二对象图像包含用于标识样本对象类别的对象标识信息(如图6中虚线框所示)，第二背景图像包含用于标识第二背景图像中背景对象标识信息的背景标识信息(如图6中实线框所示)。

具体地，获取视频样本集，对视频样本集中的至少部分视频样本进行抽帧，得到多个视频图像。所谓抽帧是指将对视频进行抽取以得到视频帧。对视频图像进行样本对象和背景对象标注，得到第二对象图像和第二背景图像，样本对象为运动目标对象，则第二对象图像为运动目标区域，第二背景图像为背景区域图像。可选地，可以通过用户进行手动标注获取第二图像集，也可以通过预先训练目标识别模型获取，在此不做限定。通过目标识别模型获取的具体实施方式将在下文进行阐述。

在替代实施例中，第二背景图像也可以不包含背景标识信息，仅第二对象图像包含对象标识信息即可(如图7中所示)，在此不做限定。

需要说明的是，步骤S304并非表示在执行完成步骤S303后才能够执行，步骤S304只需在步骤S305之前执行即可，例如，步骤S304可以与步骤S302同步执行，亦或是先于步骤S302，在此不做限定。

S305：基于第二图像集对目标识别层和进行训练后的特征提取层进行再次训练。

在本实施例中，基于第一图像集对目标识别模型的特性提取层训练后，利用第二图像集对目标识别层和进行训练后的特征提取层进行再次训练。

通过第二对象图像和第二背景图像对特征提取层进行再次训练，有利于对特征提取层的特征提取起监督作用，提高特征提取层的可靠性，与此同时对目标识别层进行训练，有利于保证目标识别层的可靠性，从而提高目标识别模型的可靠性。

可选地，利用第二图像集中的第二对象图像和第二背景图像对初级特征提取层和目标识别层进行训练；其中，初级特征提取层为基于第一图像集训练后的特征提取层。

计算初级特征提取层网络和目标识别层网络的损失值。以基于第一图像集对特征提取层进行训练是通过自监督学习模型实现的为例，在基于第一图像集完成对特征提取层的训练后，可以将自监督学习模型学习后的目标参数进行迁移，利用第二图像集进行微调训练，进行多次迭代训练，以获取预测损失更小的网络。并且，由于运动检测法获取的视频图像的类型及数量不均衡，可以通过改进后交叉熵损失函数进行改进，如下公式所示：

CE(p_t)＝-αlog(p_t) (式1-10)

其中，可以通过设定α的值控制正样本与负样本对总的损失函数的共享权重，α可以取较小值以降低负样本的权重。也就是说，基于初级特征提取层网络和目标识别层网络瞬时值迭代，更新初级特征提取网络层和目标识别层网络的网络参数，直至损失值稳定。其中，初级特征提取层网络和目标识别层网络的损失值是利用标签平滑交叉熵损失函数计算得到的，且调控标签平滑交叉熵损失函数的标签参数，以使得第二对象图像对总损失的共享权重大于第二背景图像对总损失的共享权重。

进一步地，在本实施例中还可以对训练后的目标识别模型进行测试。具体地，可以获取测试视频，通过运动检测获取发生运动的视频图像，认为该部分视频图像中出现运动目标对象且运动目标对象发生运动。对视频图像进行预处理，以改善视频图像的清晰度，将经过预处理的视频图像写入目标识别模型，以对其进行测试，从而便于用户根据测试结果的可靠度了解目标识别模型的性能，以及判断是否仍需对目标识别模型进行训练。

请参阅图8，图8是本发明目标识别模型训练方法另一实施例的流程示意图。以下对利用第一图像集对目标识别模型的特征提取层进行训练进行举例阐述。

在一实施例中，基于第一图像集利用自监督学习模型对特征提取层进行训练，自监督学习模型包括主网络和副网络，且主网络和副网络为孪生网络。

可对第一图像集的第一对象图像和第一背景图像进行第一数据增强处理T，并将增强处理后的第一对象图像和第一背景图像输入自监督学习模型的主网络分支，依次经过变换图像处理(如式1-11)、特征表示处理(如式1-12)、投影处理(如式1-13)，得到预测输出qθ(zθ)。其中，θ为主网络分支参数，即超参数；变换图像处理可以对图像进行变换，例如改变第一图像集的角度或清晰度等；特征表示处理能够提取第一图像集的特征；投影处理能够对无标数据样本进行维度变化，以减小训练代价。

v＝T(x) (式1-11)

yθ＝fθ(v) (式1-12)

zθ＝gθ(y) (式1-13)

与此同时，还对第一图像集的第一对象图像和第一背景图像进行第二数据增强处理T’，并将增强处理后的第一对象图像和第一背景图像输入自监督学习模型的副网络分支，依次经过变换图像处理(如公式1-14)、特征表示处理(如公式1-15)、投影处理(如公式1-16)，得到投影输出z’ζ；ζ为副网络分支参数，即超参数。变换图像处理、特征表示处理以及投影处理与主网络分支的作用相同，在此就不再赘述。

v’＝T’(x) (式1-14)

y’ζ＝fζ(v’) (式1-15)

z’ζ＝gζ(yζ) (式1-16)

基于主网络分支的预测输出与副网络分支的投影输出进行自监督训练，自监督训练的目的为使得主网络分支的预测输出与副网络分支的投影输出趋近于同一结果。

进一步地，可以对主网络分支预测输出qθ(zθ)与副网络分支的投影输出z’ζ进行L2正则化，如下公式所示：

其中，所谓正则化(Regularization)是机器学习中一种用于控制模型复杂度、减小过拟合的手段，通过控制正则项θ、ζ的大小，约束目标识别模型的复杂度。

具体可以通过计算损失函数判断目标识别模型的复杂度，如下公式所示：

其中，Lθ，ζ为由主网络分支与副网络分支所构成的孪生网络的损失值。在不断的迭代训练中，计算孪生网络的损失值和梯度，利用损失值和梯度更新主网络分支参数θ和副网络分支参数ζ，以优化目标识别模型。具体如下公式所示：

ζ←τζ+(1-τ)θ (式1-21)

通过optimizer(优化器)对主网络分支参数θ和副网络分支参数ζ进行优化，以获取预测损失更小的孪生网络，并在训练完成后，将主网络分支取出，用于前述实施例中所阐述的强化监督学习训练，以进一步提高目标识别模型的可靠性。

基于预测输出qθ(zθ)和投影输出z’ζ计算孪生网络的损失值，具体已在上述实施例中阐述，在此就不再赘述。进一步地，基于孪生网络的损失值迭代更新自监督学习模型的网络参数，直至损失值稳定，将更新训练后的主网络的残差神经网络作为目标识别模型的初级特征提取层从而基于第二图像集对初级特征提取层和目标识别层进行训练，提高目标识别模型的可靠性。

本发明第二图像集可以通过预先训练的图像处理模型获取，也就是说，预先对图像处理模型进行训练，在图像处理模型训练完成后，通过图像处理模型获取第二对象图像和第二背景图像。以下进行举例阐述：

请参阅图9，图9是本发明图像数据获取方法一实施例的流程示意图。需要说明的是，本发明图像数据获取方法可以应用于目标识别、文字识别、图像分割等，在此就不再赘述。且本实施例所阐述的图像数据获取方法并不局限于以下步骤：

S401：对第一图像进行处理获取正样本集；以及，对第一图像和/或第二图像进行处理获取负样本集。

在本实施例中，获取包含目标对象的多个第一图像，第一图像中除包含目标对象外也可以包含部分环境背景；并获取不包含目标对象的多个第二图像，第二图像为不包含目标对象的图像，即仅包含环境背景的图像。将在后文举例阐述对第一图像进行处理获取正样本集、对第一图像进行处理获取负样本集以及对第二图像进行处理获取负样本集的具体实施方式。

S402：基于正样本集和负样本集进行样本组合，得到不相同的多个图像子集。

在本实施例中，多个图像子集中每两个图像子集中的正样本和/或负样本不同，多个图像子集用于训练同一个图像处理模型。也就是说，对至少部分正样本和至少部分负样本进行组合形成图像子集。其中，负样本可以来源于第一负样本集和/或第二负样本集。

以当通过图像子集对图像处理模型进行训练时，能够缓解图像处理模型过拟合，以提高图像处理模型的可靠性。并且，通过预先将正样本和负样本组合形成多个图像子集，当依次利用一个图像子集对图像处理模型进行训练时，能够避免图像处理模型进行训练时一次纳入过多样本；或，在利用多个图像子集对图像处理模型进行训练时，能够减少图像处理模型自身对正负样本进行选择的步骤，并对样本进行组合的操作，减少训练过程中冗余的操作，从而有利于减小训练代价。

以下举例阐述对第一图像进行处理获取正样本集的具体实施方式：

对第一图像进行处理获取正样本集，即对多个第一图像中所包含的目标对象进行提取，可通过抠图、裁剪等方式，以得到正样本，将正样本组合形成正样本集。

对第一图像和/或第二图像进行处理获取负样本集，负样本集可以包括第一负样本集和/或第二负样本集，以下分别阐述对第一图像进行处理获取第一负样本集和对第二图像进行处理获取第二负样本的实施方式：

对多个第一图像中除目标对象外的背景进行提取，可通过抠图、裁剪等方式，以得到负样本，将自第一图像所获取的负样本组合形成第一负样本集。并且，由于第一负样本集中的负样本是在第一图像中获取的，相较于第二图像中直接获取的负样本，能够体现有目标对象存在时的背景特征，具有真实性，进而进一步缓解模型过拟合。

对多个第二图像中的背景进行提取，可通过抠图、裁剪等方式，以得到负样本，并将自第二图像中所获取的负样本组合形成第二负样本集。也就是说，本实施例采样方法中，正样本的来源为第一图像，负样本的来源可以为第一图像和/或第二图像，以丰富负样本的来源，有利于获得充足的负样本。

在替代实施例中，在获取到负样本后，还可以对负样本进行处理，例如提取特征等，基于所提取的特征进一步生成负样本，以获取更多的负样本，进一步丰富负样本来源。

进一步地，请参阅图10，图10是本发明获取图像子集一实施例的流程示意图。以下对上述实施例中基于正样本集和负样本集进行样本组合，得到不相同的多个图像子集的一种实施方式进行举例阐述：

在一实施例中，基于正样本集和负样本集，进行N1个样本组合操作，得到不相同的N1个图像子集。其中，N1为大于1的整数。一个样本组合操作中，从正样本集中选取至少部分正样本，以及从负样本集合中选取部分负样本，将所选取的正样本和负样本进行组合得到一个图像子集。也就是说，将选取的正样本和选取的负样本组成的集合，确定为N1个图像子集中的一个图像子集，进行N1个样本组合操作能够得到N1个图像子集。

可选地，N1个样本组合操作的不同样本组合操作中，选取的正样本至少部分和/或选取的负样本至少部分不同。换言之，各样本组合操作中选取的正样本至少部分不同；或，各样本组合操作中所选取的负样本至少部分不同；或，各样本组合操作中选取的正样本至少部分不同且选取的负样本至少部分不同，从而使得用于对图像处理模型进行训练的多个图像子集各不相同，以增加图像处理模型所纳入的样本，丰富图像处理模型纳入样本的多样性，从而有利于缓解图像处理模型过拟合，提高图像处理模型的可靠性。

举例而言，正样本集中包括标号为正样本1、正样本2、……、正样本100，共计100个正样本；负样本集中包括标号为负样本1、负样本2、……、负样本1000，共计1000个负样本。在组成图像子集1时，选取正样本3～正样本99以及负样本1～负样本100；在组成图像子集2时，选取正样本1～正样本90以及负样本90～负样本180；直至组成10个图像子集、或20个图像子集，亦或是更多图像子集，在此就不再赘述。

请参阅图11，图11是本发明获取图像子集另一实施例的流程示意图。以下对上述实施例中基于正样本集和负样本集进行样本组合，得到不相同的多个图像子集的另一种实施方式进行举例阐述：

在一实施例中，将负样本集划分为N2个负样本子集，负样本子集包括负样本集的部分负样本，且每两个负样本子集中至少部分负样本不相同；换言之，各负样本子集中可以存在交集，也可以完全不同，还可以是部分负样本子集存在交集，从而能够丰富图像子集中负样本的多样性。其中，N2为大于1的整数，N2可以与上述实施例所阐述的N1相等，也可以与N1不等，在此不做限定。

具体地，分别将N2个负样本子集和正样本集进行样本组合，得到N2个图像子集。举例而言，将第一负样本集和/或第二负样本集中的负样本进行重新组合，形成N2个负样本子集，分别为负样本子集1、负样本子集2、……、负样本子集N2；分别与正样本集进行组合，形成图像子集1、图像子集2、……、图像子集N2；通俗理解，图像子集1由正样本集和负样本子集1组成，图像子集N2由正样本集和负样本子集N2组成，在此就不再赘述。

可选地，针对N2个负样本子集可以分别执行如下操作，从N2个负样本子集中的一个负样本子集中至少选取出部分负样本；将正样本集中的至少部分正样本和选取出的负样本组成的集合，确定为N2个负样本子集中的一个图像子集。举例而言，图像子集1中可以包括负样本子集1中的部分负样本以及正样本集中的至少部分正样本。其中，用于组合形成图像子集的正样本，至少可以是正样本集中全部正样本的2/3、3/4、3/5、5/6等，在此不做限定。

需要说明的是，在本发明图像数据获取方法中，可以通过图10所示的组合方式获取多个图像子集；或，通过图11所示的组合方式获取多个图像子集；或，通过图10所示的组合方式获取多个图像子集，且通过图11所示的组合方式获取多个图像子集，在此不做限定。

请参阅图13，图13是本发明图像数据一实施例的场景示意图。

在实际的图像数据获取场景中，目标对象的多样性通常小于背景环境的多样性，以本实施例采样方法应用于单类别目标对象识别中图像处理模型的训练为例，当检测目标对象为老鼠，检测环境为后厨时，目标对象具有较为明确的特征，且特征较为统一；而背景则可能包括调味料、厨具、餐具、清洁工具等等，特征较为繁杂。

为此在本实施例中，负样本集中负样本的总数量大于正样本集中正样本的总数量，以使得负样本的多样性与正样本的多样性和实际场景相匹配，进一步有利于缓解图像处理模型过拟合，提高图像处理模型的可靠性。并且，在图像处理模型进行训练的过程中，能够纳入更多的负样本，还有利于提高图像处理模型的泛化性。

可选地，负样本的数量至少大于正样本数量的十倍，以能够有效缓解图像处理模型过拟合。如是可以避免负样本的数量仍处于较少的水平，使得缓解图像处理模型过拟合的效果不明显；还可以避免负样本的数量过多，正样本相对负样本的数量过少，导致图像处理模型对目标对象的提取不准确，影响图像处理模型的可靠性。

需要说明的是，负样本的数量至少大于正样本数量的十倍仅作为举例，在实际训练图像处理模型的过程中，负样本的数量可以是至少大于正样本数量的五倍、七倍、八倍、九倍，亦或是十一倍、十五倍、二十倍、上百倍等，甚至负样本的数量可以无需是正样本数量的整数倍，在此就不再赘述。

进一步地，对第一图像进行处理获取正样本集可以是，获取第一图像中各个目标对象所在区域的目标区域图像，将获取的各个目标区域图像作为正样本集中的正样本。具体地，对第一图像进行抠图操作，抠取第一图像中目标对象所在区域的目标对象区域图像，目标对象区域图像是指第一图像中的部分图像区域，该部分图像区域为目标对象所在区域，可以是目标对象轮廓所包围形成的图像，也可以是目标对象轮廓的的外接矩形框所包围形成的图像，在此不做限定。其中，目标对象轮廓的外接矩形框所包围形成的图像为，将目标对象及目标对象相邻环境的图像抠出形成目标对象区域图像(如图13中虚线框所示)。将目标对象区域图像作为正样本，将多个第一图像所抠取的目标对象区域图像进行组合形成正样本集。

对第一图像进行处理获取第一负样本集可以是，确定第一图像中除目标区域图像外的剩余区域图像(如图13中实线框所示)，对剩余区域图像进行处理获取背景区域图像，将背景区域图像确定为负样本集中的负样本。具体地，可以是抠去目标对象区域图像后形成剩余区域图像，对剩余区域图像进行裁剪得到背景区域图像，背景区域图像与不包含目标对象的第二图像不同，背景区域图像是第一图像中的部分图像区域，是对第一图像中除目标对象所在区域进行剪裁所得到的；可选地，可以是通过随机剪裁的方式。将自第一图像获取的背景区域图像作为负样本，并进行组合形成第一负样本集。

可选地，背景区域图像的尺寸与目标对象区域图像的尺寸相匹配，以便于图像处理模型的训练。例如，可以是获取目标对象区域图像的尺寸信息等，对第一图像中的剩余区域图像进行剪裁。其中，目标区域图像的尺寸信息可以是目标对象自身轮廓的长宽比例，也可以是目标对象轮廓的外接矩形框的长宽比例，亦或是目标对象的头身比等，在此不做限定。

例如，第一图像Dwh的尺寸为w*h，记录目标对象所在的目标对象区域图像Dab(如图13中虚线框所示)的左上角左边位置坐标为(x1,y1)，右下角位置的坐标为(x2,y2)，可以得知目标对象区域图像的长宽比例为(x2-x1):(y2-y1)，由此可以基于该比例对第一图像中的背景部分Def进行裁剪，得到背景区域图像(如图13中实线框所示)，和/或，第二图像进行裁剪，以得到负样本。第一图像中的背景部分Def为第一图像Dwh与目标对象区域图像Dab的差集，具体关系式如下公式所示：

Def＝Dwh|Dab(式2-1)

对第二图像进行处理获取第二负样本集可以是，对第二图像进行裁剪，将裁剪得到的图像确定为负样本集中的负样本。例如，可以基于目标对象区域图像的尺寸信息等对第二图像进行剪裁，使得第一负样本集、第二负样本集以及正样本集中的样本尺寸相匹配，以便于对图像处理模型进行训练。也就是说，对第二图像进行处理获取第二负样本可以是，对第二图像进行处理，将处理得到的图像确定为负样本集中的负样本。具体可以是基于目标区域图像的尺寸信息对第二图像进行裁剪。

请参阅图12，图12是本发明数据集一实施例的分叉树示意图。

在一实施例中，数据集包括所获取的第一图像和第二图像。对第一图像进行处理得到目标区域图像，并将目标区域图像作为正样本组合形成正样本集。对第一图像和第二图像进行处理获取负样本集具体为：对第一图像中除目标区域图像外的区域进行处理获取背景区域图像，将背景区域图像作为负样本组合形成第一负样本集；对第二图像进行处理获取第二负样本集；负样本集包括第一负样本集以及第二负样本集，从而丰富负样本来源，利用所得到的正样本以及负样本对图像处理模型进行训练时，有利于缓解图像处理模型过拟合，提高图像处理模型的泛化性，进而提高图像处理模型的可靠性。

下文以本发明图像数据获取方法应用于图像处理模型训练方法中为例进行阐述。

请参阅图13，图13是本发明图像处理模型训练方法一实施例的流程示意图。需要说明的是，本实施例所阐述的图像处理模型训练方法并不局限于以下步骤：

S501：获取不相同的多个图像子集。

在本实施例中，多个图像子集可以是通过上述实施例中所阐述的图像数据获取方法所获取的，在此就不再赘述。

S502：利用多个图像子集对图像处理模型进行多轮训练。

在本实施例中，利用多个图像子集对图像处理模型进行多轮训练，以多次更新图像处理模型的模型参数，提高图像处理模型的可靠性；其中，模型参数可以为图像处理模型的权重参数。

并且，多轮训练中至少两轮训练所用的图像子集不同，以有利于图像处理模型能够纳入更多的样本。可选地，相邻轮训练所利用的图像子集可以是不相同的，以确保训练的有效性，在对图像处理模型进行训练后，图像处理模型的模型参数能够发生改变；也可以利用一图像子集对图像处理模型进行多轮训练，即完成一轮训练后将该图像子集再次纳入图像处理模型，该图像处理模型已在前次训练中已更新模型参数的，从而利用该图像子集对图像处理模型的模型参数再次进行更新，提高图像子集的利用率。

可选地，每轮训练中所使用的图像子集均可以为不同图像子集，以使得图像处理模型在训练过程中能够纳入充足的样本，从而能够缓解图像处理模型过拟合，提高图像处理模型的泛化性，有利于提高图像处理模型的可靠性。

进一步地，纳入图像处理模型的负样本去重后的数量大于正样本去重后的数量，即负样本的多样性大于正样本的多样性，趋近于实际应用场景，还能够有效缓解图像处理模型过拟合，进一步提高图像处理模型的可靠性。

其中，对图像处理模型进行多轮训练可以是进行epoch训练等，以在对图像处理模型进行训练时，能够纳入丰富的负样本数据，从而提高目标对象识别的泛化性。可选地，对图像处理模型进行一轮训练可以是进行一期epoch训练，包括多次迭代训练；亦或是，对图像处理模型进行一轮训练可以是进行一次迭代训练，进行多轮训练形成一期epoch训练，在此不做限定。

由此可见，本实施例图像处理模型训练方法中，能够结合实际应用中背景的多样性大于目标对象的多样性的情况进行采集图像，即所获取的第二图像的数量大于第一图像的数量，能够趋近于实际应用场景，从而缓解图像处理模型过拟合，以提高利用图像处理模型进行目标对象识别时的可靠性。

可选地，在本实施例中，还可以在完成利用图像子集完成对图像处理模型的多轮训练时，加载测试样本，对图像处理模型进行测试。其中，测试样本可以是包含目标对象的图像，也可以是未包含目标对象的图像，图像处理模型能够对测试样本进行识别，判断测试样本中是否存在目标对象，并输出测试结果，从而便于用户根据测试结果的可靠度了解图像处理模型的性能，以及判断是否仍需对图像处理模型进行训练。

请参阅图14，图14是本发明对图像处理模型进行多轮训练一实施例的流程示意图。需要说明的是，该训练方法不局限于图像处理模型进行训练，还可以应用于其他模型的训练，在此不做限定，且本实施例所阐述的图像处理模型进行多轮训练并不局限于以下步骤：

S601：选取第一图像子集。

在本实施例中，基于前述实施例中组合形成多个图像子集的实施方式，在对图像处理模型进行训练时，选择其中一个图像子集，所选中的图像子集即为第一图像子集，即第一图像子集为多个图像子集中的一个。容易理解的，在对图像处理模型的训练过程中，同一时间通过一个图像子集对其进行训练。

以通过epoch训练方法训练图像处理模型为例，由于此前未进行过训练，则记为epoch＝0。在epoch＝0时，加载图像处理模型的预训练参数，对图像处理模型进行初始化训练。

S602：对图像处理模型的模型参数进行迭代训练。

在本实施例中，利用所选取的图像子集对图像处理模型的模型参数进行迭代训练，以更新图像处理模型的模型参数。即基于第一图像子集对图像处理模型的模型参数进行迭代训练，当通过当前图像子集对图像处理模型进行训练时，当前图像子集即为第一图像子集。

S603：统计迭代训练轮数。

在本实施例中，以对图像处理模型进行一轮训练为进行一期epoch训练，包括多次迭代训练为例，通过图像子集完成一期迭代训练后，统计epoch训练期数，如下公式所示：

Epoch+＝1 (式2-2)

可以理解为，每完成一期epoch训练后，将epoch的值进行加一处理。

S604：判断是否满足训练截止条件。

在本实施例中，若满足训练截止条件，认为完成对图像处理模型的训练，则流程结束，或执行上述加载测试样本的实施方式；若未满足训练截止条件，认为仍需对图像处理模型进行训练，则执行步骤S605。

其中，训练截止条件包括迭代训练遍历多个不相同的图像子集的各图像子集，利用全部图像子集对图像处理模型进行迭代训练；或，训练轮数不小于轮数阈值，轮数阈值为预设值，轮数阈值可以是500、1000、1200、3000、5000等，在此不做限定，并当图像处理模型完成训练的轮数大于或等于轮数阈值时，则认为完成对图像处理模型的训练，即满足训练截止条件。

S605：判断训练轮数是否满足更换图像子集条件。

在本实施例中，若训练轮数满足更换图像子集条件，则执行步骤S606；若训练轮数不满足更换图像子集条件，则执行步骤S602。

更换图像子集条件包括训练轮数为更新频率的整数倍，更新频率为预设值。

举例而言，以对图像处理模型进行一轮训练为进行一期epoch训练，包括多次迭代训练为例，判断epoch训练期数是否满足更换图像子集条件可如下公式所示：

k＝epoch％m (式2-3)

其中，epoch为步骤S603中所统计的epoch训练期数，m为更新频率，k为epoch除以m后的余数。满足更换图像子集条件可以为：k的值为0；也就是说，k＝0时，则认为满足更换图像子集条件；当k≠0时，认为通过步骤S602中进行迭代训练所使用图像子集再次进行训练时能够有效更新图像处理模型的模型参数，则继续将该图像子集纳入更新模型参数后的图像处理模型，以充分利用各图像子集对图像处理模型进行训练。

S606：更换第二图像子集。

在本实施例中，更换第二图像子集后，执行步骤S602，对图像处理模型的模型参数进行迭代训练。

响应于训练期数满足更换图像子集条件，更换第二图像子集对图像处理模型的模型参数进行迭代训练；其中，第二图像子集为多个图像子集中除第一图像子集外的图像子集。换言之，满足更换图像子集条件时，相邻轮训练所利用的图像子集不同，以保证对图像处理模型进行多轮训练时，至少利用两个不同的图像子集，以有利于缓解图像处理模型的过拟合，提高图像处理模型的泛化性，进而有利于提高利用图像处理模型进行目标识别的可靠性。

需要说明的是，当使用该第二图像子集执行步骤S602对图像处理模型进行训练时，则认为该图像子集为第一图像子集。

可选地，上述步骤中所利用的图像子集可以按照图像子集批次顺序进行训练，以图像子集包括图像子集1、图像子集2、……、图像子集N3为例，N3为大于1的整数，N3可以等于N1或N2，也可以既不等于N1也不等于N2，在此不做限定；可以依次通过图像子集1、图像子集2、……、图像子集N3对图像处理模型进行训练时，更换另一个图像子集可以如下公式所示：

J＝epoch//m％n+1 (式2-4)

其中，J为第二图像子集标号，J＝1,2,3,…,N3；n为前次所利用的图像子集的标号。如是设计的原因在于，在通过一个图像子集对图像处理模型进行迭代训练时，当训练期数达到一定程度时，再次通过当前图像子集对图像处理模型进行训练，出现图像处理模型的模型参数不会再发生改变的情况，导致后续迭代训练为无用训练。而当更换另一图像子集时，由于图像子集各不相同，则可以通过新的样本对图像处理模型进行训练，图像处理模型能够在迭代训练中更新模型参数，从而有利于提高图像处理模型训练方法的有效性，并且，图像处理模型能够纳入丰富的负样本，以缓解图像处理模型过拟合，还能够提高图像处理模型的泛化性，进而能够提高目标对象识别的可靠性。

并且，图像子集可被重复利用于对图像处理模型进行训练，原因在于当利用与该图像子集不同的图像子集对图像处理模型进行训练后，图像处理模型的模型参数发生变化，再次利用该图像子集对图像处理模型进行训练时，仍能够对图像处理模型进行有效地训练，使得图像处理模型的模型参数发生改变。当然，各图像子集被利用对图像处理模型进行训练后，可以不再被利用对图像处理模型进行训练，在此不做限定。

请参阅图15，图15是本发明目标识别方法一实施例的流程示意图。需要说明的是，本实施例所阐述的目标识别方法进行多轮训练并不局限于以下步骤：

S701：获取待识别图像。

在本实施例中，待识别图像为需要识别是否包含目标对象的图像。

S702：利用图像处理模型对待识别图像进行识别。

在本实施例中，利用图像处理模型对待识别图像进行识别。其中，图像处理模型可以是利用上述实施例中所阐述的图像数据获取方法获取的图像子集进行训练的，或利用上述实施例中所阐述的图像处理模型训练方法进行训练得到的。利用上述实施例中所阐述的图像数据获取方法或图像处理模型训练方法所训练得到的图像处理模型，能够图像处理模型缓解过拟合，并提高图像处理模型的泛化性，从而有利于提高对待识别图像进行识别的可靠性。

S703：输出识别结果。

在本实施例中，通过图像处理模型识别待识别图像后，输出识别结果，识别结果用于指示待识别图像中是否包含目标对象。

综上所示，本发明目标识别方法利用了数字图像处理、图像分类算法以及目标跟踪算法等，能够有效缩短目标识别及跟踪的耗时，减小出现误报的情况，还能够在减少标注成本的同时提高目标识别的可靠性。

请参阅图16，图16是本发明电子设备一实施例的结构示意图。

在一实施例中，电子设备50包括处理器51，处理器51还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。

电子设备50可以进一步包括存储器(图中未示出)，用于存储处理器51运行所需的指令和数据。

处理器51用于执行指令以实现如上述任一实施例所阐述的所述的目标识别方法。

请参阅图17，图17是本发明计算机可读存储介质一实施例的结构示意图。

在一实施例中，计算机可读存储介质60用于存储指令/程序数据61，指令/程序数据61能够被执行以实现如上述实施例所阐述的目标识别方法，在此就不再赘述。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式为示意性的，例如，模块或单元的划分，为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质60中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所阐述方法的全部或部分步骤。而前述的计算机可读存储介质60包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存储器(RAM，Random AccessMemory)、磁碟或者光盘、服务器等各种可以存储程序代码的介质。

此外，在本发明中，除非另有明确的规定和限定，术语“相连”、“连接”、“层叠”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种目标识别方法，其特征在于，包括：

获取待处理图像；

基于训练后的目标识别模型对所述待处理图像进行识别，确定所述待处理图像中是否包含目标对象；其中：

所述目标识别模型至少包括特征提取层和目标识别层；所述目标识别模型是在基于第一图像集对所述特征提取层进行训练后，基于第二图像集对所述目标识别层和进行训练后的特征提取层进行再次训练得到的；

所述第一图像集包括第一对象图像和第一背景图像，所述第一对象图像中包含与所述目标对象同类别的样本对象，所述第一背景图像中不包含所述样本对象，所述第一对象图像和所述第一背景图像均不包含标识信息；

所述第二图像集包括第二对象图像和第二背景图像，所述第二对象图像中包含所述样本对象，所述第二背景图像中不包含所述样本对象，所述第二对象图像包含用于标识所述样本对象类别信息的对象标识信息，所述第二背景图像包含用于标识所述第二背景图像中背景对象类别信息的背景标识信息。

2.根据权利要求1所述的目标识别方法，其特征在于，所述基于第一图像集对所述特征提取层进行训练包括：

对所述第一图像集的所述第一对象图像和所述第一背景图像进行第一数据增强处理，并将增强处理后的第一对象图像和第一背景图像输入自监督学习模型的主网络分支得到预测输出；

对所述第一图像集的所述第一对象图像和所述第一背景图像进行第二数据增强处理，并将增强处理后的第一对象图像和第一背景图像输入所述自监督学习模型的副网络分支得到投影输出，主网络与副网络为孪生网络；

基于所述预测输出与所述投影输出计算所述孪生网络的损失值；

基于所述孪生网络的损失值迭代更新所述自监督学习模型的网络参数，直至所述损失值稳定，将更新训练后的所述主网络的残差神经网络作为所述目标识别模型的初级特征提取层。

3.根据权利要求2所述的目标识别方法，其特征在于，所述基于第二图像集对所述目标识别层和进行训练后的特征提取层进行再次训练包括：

利用所述第二图像集中的所述第二对象图像和所述第二背景图像对所述初级特征提取层和所述目标识别层进行训练，计算初级特征提取层网络和目标识别层网络的损失值；

基于所述初级特征提取层网络和所述目标识别层网络损失值迭代更新所述初级特征提取层网络和所述目标识别层网络的网络参数，直至损失值稳定；

其中，所述初级特征提取层网络和所述目标识别层网络的损失值是利用标签平滑交叉熵损失函数计算得到的，且调控所述标签平滑交叉熵损失函数的标签参数，以使得所述第二对象图像对总损失的共享权重大于所述第二背景图像对总损失的共享权重。

4.根据权利要求1所述的目标识别方法，其特征在于，包括：

获取视频样本集；

对所述视频样本集中的至少部分所述视频样本进行运动检测，得到所述第一对象图像和所述第一背景图像，形成所述第一图像集，所述第一对象图像的样本对象为运动目标对象，所述第一对象图像为运动区域图像，所述第一背景图像为静态区域图像。

5.根据权利要求4所述的目标识别方法，其特征在于，所述对所述视频样本集中的至少部分所述视频样本进行运动检测包括：

获取所述视频样本连续三帧的视频图像及各所述视频图像的像素值；

计算中间帧图像与前向帧图像的前向像素差值，以及所述中间帧图像与后向帧图像的后向像素差值；

响应于所述中间帧图像的某区域图像的所述前向像素差值和所述后向像素差值均大于预设值，得到所述中间帧图像的运动区域图像。

6.根据权利要求5所述的目标识别方法，其特征在于，还包括：

获取所述中间帧图像的二值图像，并对所述二值图像进行连通域标记处理，以获取所述运动区域图像中运动目标对象的移动轨迹；

沿所述移动轨迹延伸方向外扩增大所述运动区域图像，将外扩后的图像区域作为所述第一对象图像。

7.根据权利要求1所述的目标识别方法测方法，其特征在于，包括：

所述第一图像集中所述第一对象图像的数量大于所述第一背景图像的数量。

8.根据权利要求1所述的目标识别方法，其特征在于，包括：

获取视频样本集；

对所述视频样本集中的至少部分所述视频样本进行抽帧，得到多个视频图像；

对所述视频图像进行样本对象和背景对象标注，得到所述第二对象图像和所述第二背景图像，所述样本对象为运动目标对象，所述第二对象图像为运动目标图像，所述第二背景图像为背景区域图像。

9.根据权利要求1所述的目标识别方法，其特征在于，包括：

获取监控视频文件；

识别所述监控视频文件中是否存在目标对象；

响应于存在所述目标对象，发送反馈信息；所述反馈信息用于表示所述监控视频文件中存在所述目标对象；

响应于所述监控视频文件中存在所述目标对象的帧数超过预设帧数，实时发送所述反馈信息。

10.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行权利要求1-9任一项所述的目标识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令/程序数据，所述指令/程序数据能够被执行以实现如权利要求1-9任一项所述的目标识别方法。