CN109461168A

CN109461168A - 目标对象的识别方法和装置、存储介质、电子装置

Info

Publication number: CN109461168A
Application number: CN201811197547.XA
Authority: CN
Inventors: 陈炳文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-12
Anticipated expiration: 2038-10-15
Also published as: CN109461168B; EP3869459A4; EP3869459A1; EP3869459B1; WO2020078229A1; US11443498B2; US20210034901A1

Abstract

本发明公开了一种目标对象的识别方法和装置、存储介质、电子装置。其中，该方法包括：获取第一图像和第二图像，第一图像为在可见光下对目标场景拍摄得到的，第二图像为在红外线下对目标场景拍摄得到的；通过预测模型确定第一图像中像素点对应的预测红外强度值，模型是使用在可见光下拍摄的一组第三图像作为模型输入并使用在红外线下拍摄的一组第四图像作为模型输出进行训练得到的模型；获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。本发明解决了相关技术中对目标对象的识别准确率较低的技术问题。

Description

目标对象的识别方法和装置、存储介质、电子装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种目标对象的识别方法和装置、存储介质、电子装置。

背景技术

运动目标检测是指在序列图像中检测出变化区域并将运动目标从背景图像中提取出来，通常情况下，目标分类、跟踪和行为理解等后处理过程仅仅考虑图像中对应于运动目标的像素区域，因此运动目标的正确检测与分割对于后期处理非常重要。然而，由于场景的动态变化，如天气、光照、阴影及杂乱背景干扰等的影响，使得运动目标的检测与分割变得相当困难。

相关技术中的目标检测算法包括帧差法、背景差分法、光流法等，这些方法各有优缺点，传统帧差法的不足在于对环境噪声较为敏感，且不适用于运动目标的检测，背景差分法不足在于对动态场景的变化，如光照和外来无关事件的干扰等特别敏感。可见，相关技术中的方案并不能在存在场景的动态变化，如天气、光照、阴影及杂乱背景干扰等的情况下准确检测出目标对象。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标对象的识别方法和装置、存储介质、电子装置，以至少解决相关技术中对目标对象的识别准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种目标对象的识别方法，包括：获取第一图像和第二图像，第一图像为在可见光下对目标场景拍摄得到的图像，第二图像为在红外线下对目标场景拍摄得到的图像；通过预测模型确定第一图像中的像素点对应的预测红外强度值，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像；获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。

根据本发明实施例的另一方面，还提供了一种目标对象的识别装置，包括：第一获取单元，用于获取第一图像和第二图像，第一图像为在可见光下对目标场景拍摄得到的图像，第二图像为在红外线下对目标场景拍摄得到的图像；预测单元，用于通过预测模型确定第一图像中的像素点对应的预测红外强度值，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像；第二获取单元，用于获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；识别单元，用于确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本发明实施例中，采用自适应函数重建，能有效建立非线性的用于表示目标场景的背景的预测模型，能有效融合红外光与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标，可以解决相关技术中对目标对象的识别准确率较低的技术问题，进而达到在存在干扰的情况下仍然能够准确识别目标对象的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的目标对象的识别方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的目标对象的识别方法的流程图；

图3是根据本发明实施例的一种可选的场景可见光图像的示意图；

图4是根据本发明实施例的一种可选的场景红外图像的示意图；

图5是根据本发明实施例的一种可选的场景目标对象的示意图；

图6是根据本发明实施例的一种可选的场景目标对象的示意图；

图7是根据本发明实施例的一种可选的预测模型的示意图；

图8是根据本发明实施例的一种可选的预测结果的示意图；

图9是根据本发明实施例的一种可选的目标对象的识别装置的示意图；

以及

图10是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着科技的发展、社会的进步、生活水平的提高，团体和个人的安防意识都在不断增强，视频监控系统也就得到了越来越广泛的应用，另外，在人工智能领域，人、动物等的智能识别也越来越普通；在监控领域、人工智能等领域中，并不能在存在场景的动态变化，如天气、光照、阴影及杂乱背景干扰等的情况下准确检测出目标对象。

为了克服以上场景中存在的问题，根据本发明实施例的一方面，提供了一种目标对象的识别方法的方法实施例。

可选地，在本实施例中，上述目标对象的识别方法可以应用于如图1所示的由服务器101和用户终端103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，上述网络包括但不限于：广域网、城域网或局域网(如物业内部网络、公司内部网络等)，终端103为可进行拍摄可见光图像和红外光图像拍摄的终端，包括并不限定于可见光监控摄像机、红外光监控摄像机、具有摄像头的手机、具有摄像头的平板电脑等；服务器为用于进行监控视频存储和/或监控视频分析的设备。

上述的硬件环境可以是银行、博物馆、交通道路、商业机构、军事机构、公安局、电力部门、厂矿部门、智能小区、空间探测机构等领域的安全监控、自动监控和远程监控系统的硬件环境，其中，终端可以为这些系统中的位于同一位置的高清摄像机和红外摄像机，服务器可以是位于系统中控室的服务器，以实现利用计算机实现智能的目标检测和目标跟踪。

上述的硬件环境还可以是人工智能系统中硬件环境，终端可以为系统中飞行器等智能设备的可见光传感器、红外传感器，服务器可以是与飞行器通讯连接的互联网服务器。采用本申请的方法可以自动定位出在可视区域出现的对象。

将本申请的方法应用于监控、人工智能等领域时，本发明实施例的目标对象的识别方法可以由监控、人工智能系统中的服务器101来执行，图2是根据本发明实施例的一种可选的目标对象的识别方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，服务器获取第一图像和第二图像，第一图像为在可见光下对目标场景拍摄得到的图像，第二图像为在红外线下对目标场景拍摄得到的图像。

上述的第一图像和第二图像可以为拍摄的连续视频帧序列中的一帧，也可为单独拍到的一张图像，第一图像和第二图像为取景(即目标场景)相同的图像，且第一图像和第二图像为拍摄时间接近(即小于预先设定的数值，如0.02秒)的图像，如为同时拍摄得到的可见光视频帧序列和红外视频帧序列中的相同帧(即帧位置相同的视频帧)。

上述的目标场景即待进行目标对象识别的区域，可以为监控系统中终端所监控区域的场景、人工智能系统中飞行器当前所能够识别的区域。

可见光传感器能探测红绿蓝光谱能量，将其转化为彩色图像，具有丰富的色彩、纹理和结构等信息，且符合人类视觉感知体系，便于理解分析；基于红外传感器的侦查系统能接收来自目标和背景的红外辐射，将不可见的辐射转变成人眼可观测的图像，环境适应性好，灵敏度高，适合于弱小目标信号的探测和鉴别，而红外传感装置自身的红外辐射极其微弱，属于无源探测装置，隐蔽性好。因此，采用可见光图像与红外光图像结合的方式能有效丰富目标和场景信息，提高检测率。

步骤S204，服务器通过预测模型确定第一图像中的像素点对应的预测红外强度值，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像。

在进行模型训练时，训练的目的在于使得模型能够将可见光图像转换为相同场景下的红外图像，换言之，预测模型能够将第一图像转为一张红外图像，该红外图像中每个像素点的预测红外强度值是利用第一图像中相同位置的像素点的颜色值确定的。

上述的预测模型中包括多个分配有相应权重的预测函数(预测函数可以为基函数)，预测函数的输入即为预测模型的输入，预测模型的输出即为对所有预测函数的输出与相应的权重之间的乘积的累积和。

步骤S206，服务器获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值。

步骤S208，服务器确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。

上述实施例以本发明实施例的目标对象的识别方法由服务器101来执行为例进行说明，本发明实施例的目标对象的识别方法也可以由终端103来执行，本发明实施例的目标对象的识别方法还可以是由服务器101和终端103共同执行，由终端103执行步骤S202，服务器执行剩余步骤。其中，终端103执行本发明实施例的目标对象的识别方法也可以是由安装在其上的客户端来执行。

通过上述步骤S202至步骤S208，采用自适应函数重建，能有效建立非线性的用于表示目标场景的背景的预测模型，能有效融合红外光与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标，可以解决相关技术中对目标对象的识别准确率较低的技术问题，进而达到在存在干扰的情况下仍然能够准确识别目标对象的技术效果。

下面以智能小区为例进一步详述本申请的技术方案。

在步骤S202提供的技术方案中，在智能小区中，可以将小区分为若干个子区域，每个子区域的监控用的终端可以实时监控该子区域的情况，终端采集到的红外视频和可见光视频会被实时传输给小区中控室的服务器，以便于自动监控小区的情况，服务器在接收到红外视频和可见光视频之后，可以通过对可见光视频的解析获取在可见光下目标场景(即终端监控区域的场景)的第一图像，如图3所示的采集到的采集到的多个场景的第一图像，并通过对红外视频解析获取在红外线下目标场景的第二图像，如图4所示的采集到的与图3中的第一图像一一对应的第二图像，第一图像在可见光视频中的位置与第二图像在红外视频中的位置相同(可以认为是相同帧位置的图像，如图3中左上角的第一图像和图4中的左上角的第二图像)，即相当于获取的是在可见光下对目标场景拍摄得到的第一图像和同一时刻在红外线下对目标场景拍摄得到的第二图像。

在步骤S204提供的技术方案中，服务器通过预测模型确定第一图像中的像素点对应的预测红外强度值，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像。

上述的预测模型可以是预先训练好的，也可以是在执行步骤S204的时候训练的，一种可选的训练方式如步骤11-步骤14所示：

步骤11，在通过预测模型确定第一图像中的像素点对应的预测红外强度值之前，获取对目标场景进行拍摄得到的一组第三图像和一组第四图像。

需要说明的是，训练时所使用的图像是至少应该包括目标场景的图像，换言之，可以为仅包括目标场景的图像，也可以是包括目标场景和其他相邻场景的图像。

上述的一组第三图像中图像的数量和一组第四图像中图像的数量张数相同，且一组第三图像中图像与一组第四图像中图像是一一对应关系，换言之，每张第三图像均存在一张与之取景内容相同的第四图像。

步骤12，逐帧地使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧(或称为取景内容相同)的图像作为原始模型的输出来对原始模型进行训练。

可选地，逐帧地使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练包括步骤S121-步骤S122：

步骤S121，将第三图像中的像素点的颜色值输入至原始模型，并将相同帧的第四图像中的像素点的强度值作为原始模型输出，第三图像中的像素点的颜色值用于作为原始模型中多个预测函数的输入，原始模型的输出为对多个预测函数中每个预测函数与对应的权重之间的乘积的累积和。

在步骤S121所示的实施例中，在第三图像中的像素点的颜色类型不为基于生理特征的颜色类型(如Lab颜色值类型)的情况下，将第三图像中的像素点的颜色类型转换为基于生理特征的颜色类型；然后将进行颜色类型转换后的第三图像中的像素点的第一颜色通道(如a通道)的颜色值和第二颜色通道(如b通道)的颜色值输入至预测模型。

上述的预测函数可为基函数，在数学中，基函数是函数空间一组特殊的基的元素。对于函数空间中的连续函数(如用于表示模型的函数)都可以表示成一系列基函数的线性组合，就像是在向量空间中每个向量都可以表示成基向量的线性组合一样。

基函数可以用表示，其中，a_i表示第i个基函数f_i(x)的权重；表示基函数的第j个参数，r_ij为预先设定好的，如r_i1为0.1，r_i2为1，r_i3为2等，d为用于表示j的取值上限的整数，即模型输入特征的数目。

表示目标模型的函数可以用表示，k表示基函数数目；表示预测值；f_i(x)表示基函数，即输入特征的幂次的乘积。

步骤S122，利用第三图像中的像素点的颜色值和相同帧的第四图像中的像素点的强度值来初始化预测函数对应的权重和预测函数内部的参数，以完成对原始模型的训练。其相当于是将第三图像中的像素点的颜色值作为f_i(x)中x的取值，而将第四图像中的像素点的强度值作为的取值，从而通过内部的激活函数来求解函数中待确定的参数。

步骤13，当训练的次数达到一定量之后，使用在可见光下拍摄得到的测试图像作为训练后的原始模型的输入、并判断原始模型输出的预测图像与在红外线下拍摄得到的验证图像是否相匹配，以确认训练时的参数是否拟合完毕。

步骤14，当使用在可见光下拍摄得到的测试图像作为训练后的原始模型的输入、且原始模型输出的预测图像与在红外线下拍摄得到的验证图像相匹配，即二者之间的相似度达到某个阈值(如99％)的情况下，将训练后的原始模型作为预测模型，测试图像和验证图像为目标场景中同一取景区域的图像。

在求解相似度时可以通过比较预测图像中每个像素点的强度值q1与验证图像中的相同位置的像素点的强度值q2实现，如若相同位置的像素点的强度值|q2-q1|/q2大于一个固定阈值(如95％)则认为二者是相同的像素点，相似度可以用预测图像中与验证图像中相同像素点的数量n与验证图像中像素点的数量m之间的比值表示。

步骤15，当使用测试图像作为训练后的原始模型的输入、且原始模型输出的预测图像与验证图像不匹配的情况下，继续使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练，直至训练后的原始模型输出的预测图像与验证图像相匹配。

上述训练过程中使用的一组第三图像为可见光照射下的背景图像，而一组第四图像为相同取景区域内红外光照射下的背景图像，在使用上述方法完成对模型的训练之后，模型相当于能够建立背景模型，如果模型输入的数据是背景像素点，则模型预测输出值就跟该背景像素点的红外值很接近，目标对象的像素点输进去，与背景像素点的红外值差值就很大，即可使用该模型进行对象识别，可选地，通过预测模型确定第一图像中的像素点对应的预测红外强度值可以包括如下步骤：

步骤S21，将第一图像中的像素点的颜色值输入至预测模型。

在步骤S21所示的实施例中，将第一图像中的像素点的颜色值输入至预测模型时，可判断第一图像中的像素点的颜色类型是否为基于生理特征的颜色类型，若是则直接输入，若不是，即在第一图像中的像素点的颜色类型不为基于生理特征的颜色类型的情况下，将第一图像中的像素点的颜色类型转换为基于生理特征的颜色类型，然后将进行颜色类型转换后的第一图像中的像素点的第一颜色通道的颜色值和第二颜色通道的颜色值输入至预测模型。

步骤S22，调用预测模型中的多种类型的预测函数，根据第一图像中的像素点的颜色值确定第一图像中相同位置上的像素点对应的预测红外强度值。

其相当于是将第一图像中的像素点的颜色值作为f_i(x)中x的取值，并通过函数的参数求解出每个像素点的强度值的取值，从而完成预测。

在步骤S206提供的技术方案中，服务器获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值。如果模型输入的数据是背景像素点，则模型预测输出值就跟该背景像素点的红外值很接近，换言之，第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值就很小，小于第一阈值，目标对象的像素点输进去后预测得到的红外强度值与背景像素点的红外值差值就很大，大于第一阈值，故可以通过差值来判断像素点是否为目标对象上的像素点。

在步骤S208提供的技术方案中，服务器确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。

可选地，确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点包括：遍历第二图像中的每个像素点，将第二图像中的差值大于第一阈值的像素点的强度值设置为第二阈值(如白色对应的强度值)，并将第二图像中的差值不大于第一阈值的像素点的强度值设置为第三阈值(如黑色对应的强度值)，第二阈值与第三阈值为不同的阈值；在遍历完第二图像中的所有像素点之后，通过第二图像中强度值为第二阈值的像素点来描述目标对象，如图5所示，图5中每幅图像分别对应图3的四幅图像中的一副。

而在相关技术中方案中实现检测的效果如图6所示，以图5中和图6中左上角图中被白色方框标出的目标对象为例，采用本申请的技术方案，能够消除阴影干扰、红外图像中存在光环效应以及人为干扰等，使得目标对象的轮廓更加清晰，本申请的技术方案能有效融合红外与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标。

作为一种可选的实施例，下面结合具体的实施方式详述本申请的技术方案。

在一个可选的实施例中，在进行可见光图像空中运动目标的检测时，可通过在第N帧灰度图像上设置ROI框(全称为region of interest，即感兴趣区域)，获得当前帧ROI灰度图像，对当前帧ROI灰度图像进行图像预处理、图像二值化处理、图像二值取反处理和图像膨胀处理后，再使用筛选方法筛选连通区域获得目标图像的方法，可解决传统目标检测方法不适用于运动背景下的目标检测和目标穿过运动背景导致目标丢失的问题，保证了运动背景下运动目标检测的实时性和准确性。

红外遥感通过接收目标辐射的热能对其进行探测和定位，反映场景的辐射特性，具有较强抗干扰能力和识别能力，但对比度低时很可能漏检某些热能辐射较小的目标，误检部分较亮的背景区域；而可见光图像表征景物的反射特性，图像的对比度较好，具有丰富的灰度级分布，但其对光照的依赖性较强，工作时间受限。

相关技术中红外与可见光协同目标检测方法大致可分为两大类：基于先融合后检测的协同目标检测和基于先检测后融合的协同目标检测。基于先融合后检测的红外与可见光协同目标检测方法依据融合策略先将红外与可见光图像整合为一幅融合图像，以此突显目标增强场景对比度，再依据融合情况制定检测方案来检测目标。此类方法的重点在于高效融合模型的制定，例如采用非参数模型、码本模型和方向梯度直方图模型依据概率融合理论来区分各类目标。基于先检测后融合的红外与可见光协同目标检测方法将融合部分移至单源目标检测之后来完成，先依据数据源类型进行单一数据源的目标检测任务，再制定融合策略(多为概率融合策略或阈值融合策略)来调节各自检测结果得到目标。此类方法致力于鲁棒背景模型与显著特征的研究，例如双特征混合参数背景模型和显著轮廓图特征。

上述实施方式的主体思想是采用形态学运算和自适应阈值算法来进行目标检测，其不适合复杂户外场景(如有风树木摇摆背景、建筑物干扰等)，容易造成虚警、检测率低。当可见光图像中存在阴影干扰、红外图像中存在光环效应、以及人为干扰的情况下，容易造成虚警、目标检测率低等技术问题。

为了克服上述实施方式中的缺陷，本申请还提供了一种实施方式，即一种基于自适应基函数重建的红外与可见光协同目标检测方法，获取可见光视频的若干帧图像BG^v(即一组第三图像)、红外视频的若干帧图像BG^t(即一组第四图像)，来建立协同背景模型M(即预测模型)；针对前述步骤中得到的背景模型M，结合当前帧F_t(包括可见光下的第一图像和红外光下的第二图像)，进行背景杂波抑制，得到背景杂波抑制后的背景抑制图G_t，(G_t中每个像素点的预测强度值即利用第一图像的像素点预测得到的)采用自适应阈值分割算法来检测目标。采用自适应基函数重建技术，能有效建立非线性背景模型，能有效融合红外与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标。

本申请涉及的基于自适应基函数重建的红外与可见光协同目标检测方法，实际可部署于采用API(英文全称为Application Programming Interface，即应用程序编程接口)服务调用或SDK(英文全称为Software Development Kit，即软件开发工具包)嵌套的方式调用的服务器上，该服务器可结合实际落地场景实现，算法可运行于服务器的linux或window等系统环境中。

下面通过具体实施例，并结合附图，对本申请的技术方案作进一步说明。

步骤1，获取可见光视频的若干帧图像BG^v，如图3所示，红外视频的若干帧图像BG^t，如图4所示，以此来建立协同背景模型M，背景模型M是基于自适应基函数重建技术进行获取，图7示出了一种可选的背景模型的示意图；

分配T帧图像数据(F_t,t＝1…T)来建立背景模型，包含红外部分F^t _t，可见光部分F^v _t，针对每个像素点位置，分别建立一个背景模型M(i,j)：

步骤11，将可见光的RGB值转换成Lab颜色值，将a、b颜色值作为模型输入特征，即如图7所示的输入，将红外的强度值作为模型的输出，即如图7所示的输出，共组成T个训练样本X；

步骤12，针对步骤1.1得到的训练样本X，采用自适应基函数重建技术建立背景模型M(i,j)，

其中，a_i表示基函数的权重；k表示基函数数目；表示预测值；d表示模型输入特征数目；f_i(x)表示基函数，即输入特征的幂次的乘积。

步骤2，针对步骤1中得到的背景模型M，结合当前帧F_t，进行背景杂波抑制，得到背景杂波抑制后的背景抑制图G_t，即由对当前帧中的可见光图像(即第一图像)中的像素点进行预测得到的预测红外强度值与真实红外强度值的差值组成的图像，采用自适应阈值分割算法来检测目标。

步骤21，针对步骤1中得到的背景模型，获取背景抑制图G_t：

即取当前帧红外图像的强度值与背景模型的预测值的绝对差值，如图4所示。

步骤22，采用OTSU阈值算法(即大津法或最大类间方差法)等自适应阈值算法来计算阈值θ来提取目标。

采用本申请的技术方案，利用自适应基函数重建技术，能有效建立非线性局部背景模型，能有效融合红外与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标。

为了验证本方法的有效性，本申请采用实际采集到的六段复杂户外场景视频进行验证实验，参见图3、图4，并与其它算法进行比较验证，如图8所示和表1所示，验证得出：本申请的技术方案能有效地检测出不同复杂场景下的目标；相较于码本方法和加权单高斯方法，本方案的F1(一种评判指标)综合指标高达90.9％(即最上方较为平缓的曲线)，能较好地抑制可见光阴影、红外光环效应干扰，检测稳定性较好，场景适应性较强。三种检测方法的平均检测指标比较如表1所示：

表1

为了验证本方法的有效性，本申请采用一些其它方法进行对比验证。并对比了两种算法：码本方法(CB)、加权单高斯方法(SWG)。

上述两种方法以及本申请的方法这三种检测方法针对户外场景的检测结果如图8和表1所示，本方法能有效抑制阴影和光环效应，有效检测不同场景的目标。

为了更客观地评价本方法的检测性能，我们采用目标检测领域标准通用的Precision、Recall和F1指标来评价本方法检测结果；其中，Recall表示检测率，为检测到的真实目标数与真实目标总数之比；Precision表示准确率，为检测到的真实目标数与检测到的目标总数之比。一个好的目标检测方法应具有较高的Recall值，同时也能保持较高的Precision值；较高的F1值也意味着好的检测性能。

三种检测方法的三种指标评价结果如附图8和表1所示。从图表中可以比较各种检测算法的总体检测性能：加权单高斯算法具有较高的检测率，但准确率较低，码本算法的检测率和准确率表现一般；而本申请方法同时具有较高的检测率和准确率，且具有较好的检测稳定性，本方法的F1指标高达90.9％。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述目标对象的识别方法的目标对象的识别装置。图9是根据本发明实施例的一种可选的目标对象的识别装置的示意图，如图9所示，该装置可以包括：第一获取单元901、预测单元903、第二获取单元905以及识别单元907。

第一获取单元901，用于获取第一图像和第二图像，其中，第一图像为在可见光下对目标场景拍摄得到的图像，第二图像为在红外线下对目标场景拍摄得到的图像。

预测单元903，用于通过预测模型确定第一图像中的像素点对应的预测红外强度值，其中，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像。

第二获取单元905，用于获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值。

识别单元907，用于确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。

需要说明的是，该实施例中的第一获取单元901可以用于执行本申请实施例中的步骤S202，该实施例中的预测单元903可以用于执行本申请实施例中的步骤S204，该实施例中的第二获取单元905可以用于执行本申请实施例中的步骤S206，该实施例中的识别单元907可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，采用自适应函数重建，能有效建立非线性的用于表示目标场景的背景的预测模型，能有效融合红外光与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标，可以解决相关技术中对目标对象的识别准确率较低的技术问题，进而达到在存在干扰的情况下仍然能够准确识别目标对象的技术效果。

可选地，预测单元可包括：输入模块，用于将第一图像中的像素点的颜色值输入至预测模型；预测模块，用于调用预测模型中的多种类型的预测函数，根据第一图像中的像素点的颜色值确定第一图像中相同位置上的像素点对应的预测红外强度值。

可选地，本申请的装置还可包括：第三获取单元，用于在通过预测模型确定第一图像中的像素点对应的预测红外强度值之前，获取对目标场景进行拍摄得到的一组第三图像和一组第四图像；训练单元，用于逐帧地使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练；第一验证单元，用于当使用在可见光下拍摄得到的测试图像作为训练后的原始模型的输入、且原始模型输出的预测图像与在红外线下拍摄得到的验证图像相匹配的情况下，将训练后的原始模型作为预测模型，其中，测试图像和验证图像为目标场景的图像；第二验证单元，用于当使用测试图像作为训练后的原始模型的输入、且原始模型输出的预测图像与验证图像不匹配的情况下，继续使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练，直至训练后的原始模型输出的预测图像与验证图像相匹配。

可选地，训练单元逐帧地使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练可以通过如下方式实现：将第三图像中的像素点的颜色值输入至原始模型，并将相同帧的第四图像中的像素点的强度值作为原始模型输出，其中，第三图像中的像素点的颜色值用于作为原始模型中多个预测函数的输入，原始模型的输出为对多个预测函数中每个预测函数与对应的权重之间的乘积的累积和；利用第三图像中的像素点的颜色值和相同帧的第四图像中的像素点的强度值来初始化预测函数对应的权重和预测函数内部的参数，以完成对原始模型的训练。

可选地，识别单元在确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点时，可以通过如下方式实现：遍历第二图像中的每个像素点，将第二图像中的差值大于第一阈值的像素点的强度值设置为第二阈值，并将第二图像中的差值不大于第一阈值的像素点的强度值设置为第三阈值，其中，第二阈值与第三阈值为不同的阈值；在遍历完第二图像中的所有像素点之后，通过第二图像中强度值为第二阈值的像素点来描述目标对象。

可选地，第一获取单元获取第一图像和第二图像时，可获取在可见光下对目标场景拍摄得到的第一图像和同一时刻在红外线下对目标场景拍摄得到的第二图像。

采用本申请提供的技术方案，即一种基于自适应基函数重建的红外与可见光协同目标检测方案，获取可见光视频的若干帧图像BG^v(即一组第三图像)、红外视频的若干帧图像BG^t(即一组第四图像)，来建立协同背景模型M(即预测模型)；针对前述步骤中得到的背景模型M，结合当前帧F_t(包括可见光下的第一图像和红外光下的第二图像)，进行背景杂波抑制，得到背景杂波抑制后的背景抑制图G_t，(G_t中每个像素点的预测强度值即利用第一图像的像素点预测得到的)采用自适应阈值分割算法来检测目标。采用自适应基函数重建技术，能有效建立非线性背景模型，能有效融合红外与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例的另一个方面，还提供了一种用于实施上述目标对象的识别方法的服务器或终端。

图10是根据本发明实施例的一种终端的结构框图，如图10所示，该终端可以包括：一个或多个(图中仅示出一个)处理器1001、存储器1003、以及传输装置1005，如图10所示，该终端还可以包括输入输出设备1007。

其中，存储器1003可用于存储软件程序以及模块，如本发明实施例中的目标对象的识别方法和装置对应的程序指令/模块，处理器1001通过运行存储在存储器1003内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标对象的识别方法。存储器1003可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1003可进一步包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1005用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1005包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1005为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1003用于存储应用程序。

处理器1001可以通过传输装置1005调用存储器1003存储的应用程序，以执行下述步骤：

获取第一图像和第二图像，其中，第一图像为在可见光下对目标场景拍摄得到的图像，第二图像为在红外线下对目标场景拍摄得到的图像；

通过预测模型确定第一图像中的像素点对应的预测红外强度值，其中，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像；

获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；

确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点。

处理器1001还用于执行下述步骤：

获取对目标场景进行拍摄得到的一组第三图像和一组第四图像；

逐帧地使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练；

当使用在可见光下拍摄得到的测试图像作为训练后的原始模型的输入、且原始模型输出的预测图像与在红外线下拍摄得到的验证图像相匹配的情况下，将训练后的原始模型作为预测模型，其中，测试图像和验证图像为目标场景的图像；

当使用测试图像作为训练后的原始模型的输入、且原始模型输出的预测图像与验证图像不匹配的情况下，继续使用一组第三图像中的图像作为原始模型的输入并使用一组第四图像中相同帧的图像作为原始模型的输出来对原始模型进行训练，直至训练后的原始模型输出的预测图像与验证图像相匹配。

采用本发明实施例，采用“获取第一图像和第二图像，第一图像为在可见光下对目标场景拍摄得到的图像，第二图像为在红外线下对目标场景拍摄得到的图像；通过预测模型确定第一图像中的像素点对应的预测红外强度值，预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，一组第三图像和一组第四图像是相同场景的图像；获取第二图像中的像素点的实际红外强度值与第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；确定第二图像中的差值大于第一阈值的像素点为目标场景中目标对象所在的像素点”的方式，采用自适应函数重建，能有效建立非线性的用于表示目标场景的背景的预测模型，能有效融合红外光与可见光信息，抑制阴影干扰与红外光环效应，能有效抑制背景杂波突显目标，可以解决相关技术中对目标对象的识别准确率较低的技术问题，进而达到在存在干扰的情况下仍然能够准确识别目标对象的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图10所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行目标对象的识别方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标对象的识别方法，其特征在于，包括：

获取第一图像和第二图像，其中，所述第一图像为在可见光下对目标场景拍摄得到的图像，所述第二图像为在红外线下对所述目标场景拍摄得到的图像；

通过预测模型确定所述第一图像中的像素点对应的预测红外强度值，其中，所述预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，所述一组第三图像和所述一组第四图像是相同场景的图像；

获取所述第二图像中的像素点的实际红外强度值与所述第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；

确定所述第二图像中的所述差值大于第一阈值的像素点为所述目标场景中目标对象所在的像素点。

2.根据权利要求1所述的方法，其特征在于，通过预测模型确定所述第一图像中的像素点对应的预测红外强度值包括：

将所述第一图像中的像素点的颜色值输入至所述预测模型；

调用所述预测模型中的多种类型的预测函数，根据所述第一图像中的像素点的颜色值确定所述第一图像中相同位置上的像素点对应的预测红外强度值。

3.根据权利要求2所述的方法，其特征在于，将所述第一图像中的像素点的颜色值输入至所述预测模型包括：

在所述第一图像中的像素点的颜色类型不为基于生理特征的颜色类型的情况下，将所述第一图像中的像素点的颜色类型转换为基于生理特征的颜色类型；

将进行颜色类型转换后的所述第一图像中的像素点的第一颜色通道的颜色值和第二颜色通道的颜色值输入至所述预测模型。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，在通过预测模型确定所述第一图像中的像素点对应的预测红外强度值之前，所述方法还包括：

获取对所述目标场景进行拍摄得到的所述一组第三图像和所述一组第四图像；

逐帧地使用所述一组第三图像中的图像作为原始模型的输入并使用所述一组第四图像中相同帧的图像作为所述原始模型的输出来对所述原始模型进行训练；

当使用在可见光下拍摄得到的测试图像作为训练后的所述原始模型的输入、且所述原始模型输出的预测图像与在红外线下拍摄得到的验证图像相匹配的情况下，将训练后的所述原始模型作为所述预测模型，其中，所述测试图像和所述验证图像为所述目标场景的图像；

当使用所述测试图像作为训练后的所述原始模型的输入、且所述原始模型输出的所述预测图像与所述验证图像不匹配的情况下，继续使用所述一组第三图像中的图像作为所述原始模型的输入并使用所述一组第四图像中相同帧的图像作为所述原始模型的输出来对所述原始模型进行训练，直至训练后的所述原始模型输出的所述预测图像与所述验证图像相匹配。

5.根据权利要求4所述的方法，其特征在于，逐帧地使用所述一组第三图像中的图像作为原始模型的输入并使用所述一组第四图像中相同帧的图像作为所述原始模型的输出来对所述原始模型进行训练包括：

将所述第三图像中的像素点的颜色值输入至所述原始模型，并将相同帧的所述第四图像中的像素点的强度值作为所述原始模型输出，其中，所述第三图像中的像素点的颜色值用于作为所述原始模型中多个预测函数的输入，所述原始模型的输出为对所述多个预测函数中每个预测函数与对应的权重之间的乘积的累积和；

利用所述第三图像中的像素点的颜色值和相同帧的所述第四图像中的像素点的强度值来初始化所述预测函数对应的权重和所述预测函数内部的参数，以完成对所述原始模型的训练。

6.根据权利要求1至3中任意一项所述的方法，其特征在于，确定所述第二图像中的所述差值大于第一阈值的像素点为所述目标场景中目标对象所在的像素点包括：

遍历所述第二图像中的每个像素点，将所述第二图像中的所述差值大于所述第一阈值的像素点的强度值设置为第二阈值，并将所述第二图像中的所述差值不大于所述第一阈值的像素点的强度值设置为第三阈值，其中，所述第二阈值与所述第三阈值为不同的阈值；

在遍历完所述第二图像中的所有像素点之后，通过所述第二图像中强度值为所述第二阈值的像素点来描述所述目标对象。

7.根据权利要求1至3中任意一项所述的方法，其特征在于，获取第一图像和第二图像包括：

获取在可见光下对所述目标场景拍摄得到的所述第一图像和同一时刻在红外线下对所述目标场景拍摄得到的所述第二图像。

8.一种目标对象的识别装置，其特征在于，包括：

第一获取单元，用于获取第一图像和第二图像，其中，所述第一图像为在可见光下对目标场景拍摄得到的图像，所述第二图像为在红外线下对所述目标场景拍摄得到的图像；

预测单元，用于通过预测模型确定所述第一图像中的像素点对应的预测红外强度值，其中，所述预测模型是使用在可见光下拍摄得到的一组第三图像作为模型输入并使用在红外线下拍摄得到的一组第四图像作为模型输出进行训练得到的模型，所述一组第三图像和所述一组第四图像是相同场景的图像；

第二获取单元，用于获取所述第二图像中的像素点的实际红外强度值与所述第一图像中相同位置上的像素点对应的预测红外强度值之间的差值；

识别单元，用于确定所述第二图像中的所述差值大于第一阈值的像素点为所述目标场景中目标对象所在的像素点。

9.根据权利要求8所述的装置，其特征在于，所述预测单元包括：

输入模块，用于将所述第一图像中的像素点的颜色值输入至所述预测模型；

预测模块，用于调用所述预测模型中的多种类型的预测函数，根据所述第一图像中的像素点的颜色值确定所述第一图像中相同位置上的像素点对应的预测红外强度值。

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于在通过预测模型确定所述第一图像中的像素点对应的预测红外强度值之前，获取对所述目标场景进行拍摄得到的所述一组第三图像和所述一组第四图像；

训练单元，用于逐帧地使用所述一组第三图像中的图像作为原始模型的输入并使用所述一组第四图像中相同帧的图像作为所述原始模型的输出来对所述原始模型进行训练；

第一验证单元，用于当使用在可见光下拍摄得到的测试图像作为训练后的所述原始模型的输入、且所述原始模型输出的预测图像与在红外线下拍摄得到的验证图像相匹配的情况下，将训练后的所述原始模型作为所述预测模型，其中，所述测试图像和所述验证图像为所述目标场景的图像；

第二验证单元，用于当使用所述测试图像作为训练后的所述原始模型的输入、且所述原始模型输出的所述预测图像与所述验证图像不匹配的情况下，继续使用所述一组第三图像中的图像作为所述原始模型的输入并使用所述一组第四图像中相同帧的图像作为所述原始模型的输出来对所述原始模型进行训练，直至训练后的所述原始模型输出的所述预测图像与所述验证图像相匹配。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

12.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。