CN112699832B

CN112699832B - 目标检测方法、装置、设备以及存储介质

Info

Publication number: CN112699832B
Application number: CN202110033937.9A
Authority: CN
Inventors: 徐东; 林国飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2023-07-04
Anticipated expiration: 2041-01-12
Also published as: CN112699832A; WO2022152009A1; US20230053911A1

Abstract

本申请公开了一种目标检测方法、装置、设备以及存储介质，属于图像识别领域。通过本申请实施例提供的技术方案，能够对第一视频帧的第一目标区域进行频带滤波和方向滤波，得到表示第一目标区域频带信息的多个频带子图以及表示第一目标区域方向信息的多个方向子图。将频带信息和方向信息进行融合后得到的方向频带融合特征，也就能够更加完整的表示第一目标区域的特征，即使目标对象运动较慢或者发生旋转，方向频带融合信息也能够准确的表示第一目标区域的特征。后续通过目标检测模型，基于方向频带融合特征进行目标检测时，也就能够得到更加准确的检测效果。

Description

目标检测方法、装置、设备以及存储介质

技术领域

本申请涉及图像识别领域，特别涉及一种目标检测方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，越来越多的场景需要进行目标检测，比如在监控视频中识别出运动的目标人物，或者在游戏中识别出运动的游戏人物等。

相关技术中，计算机设备会采用帧差法来确定运动目标的位置，也即是将前后两帧或多帧图像做差值，得到差值图像。由于背景的像素值相减后数值很小或者为零，而运动目标的像素值相减后数值较大，因此计算机设备对得到的差值图像进行二值化处理，即可检测出运动目标。

但是，当运动目标的运动速度较慢或发生旋转时容易出现漏检现象，而且重叠的部分也不容易检测出来，出现空洞等现象，因此检测准确性不高。

发明内容

本申请实施例提供了一种目标检测方法、装置、设备以及存储介质，可以提升目标检测的准确性。所述技术方案如下：

一方面，提供了一种目标检测方法，所述方法包括：

对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图；

对所述多个频带子图进行多方向滤波，得到多个方向分别对应的多个方向子图；

根据所述多个方向子图，获取所述第一目标区域的方向频带融合特征；

将所述方向频带融合特征输入目标检测模型，通过所述目标检测模型，基于所述方向频带融合特征进行预测，得到所述第一目标区域的预测标签，所述预测标签用于表示所述第一目标区域是否包括目标对象。

一方面，提供了一种目标检测装置，所述装置包括：

多频带滤波模块，用于对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图；

多方向滤波模块，用于对所述多个频带子图进行多方向滤波，得到多个方向分别对应的多个方向子图；

特征获取模块，用于根据所述多个方向子图，获取所述第一目标区域的方向频带融合特征；

输入模块，用于将所述方向频带融合特征输入目标检测模型，通过所述目标检测模型，基于所述方向频带融合特征进行预测，得到所述第一目标区域的预测标签，所述预测标签用于表示所述第一目标区域是否包括目标对象。

在一种可能的实施方式中，所述特征获取模块，用于获取所述多个频带子图中任一频带子图对应的多个第一方向子图的能量；按照能量从大到小的顺序，对所述多个第一方向子图进行排序；基于排序后的所述多个第一方向子图以及多个第二方向子图，获取所述第一目标区域的方向频带融合特征，所述第二方向子图为所述多个频带子图中除所述任一频带子图之外的其他频带子图对应的方向子图。

在一种可能的实施方式中，所述特征获取模块，用于基于所述排序后的所述多个第一方向子图分别对应的多个融合权重，将所述排序后的所述多个第一方向子图进行加权融合，得到所述频带子图对应的第一方向融合图，所述融合权重与对应第一方向子图的能量正相关；基于所述多个融合权重，将所述多个第二方向子图分别进行融合，得到所述其他频带子图分别对应的多个第二方向融合图；基于所述第一方向融合图和所述多个第二方向融合图，获取所述方向频带融合特征。

在一种可能的实施方式中，所述特征获取模块，用于获取所述第一方向融合图对应的第一积分图；获取所述多个第二方向融合图分别对应的多个第二积分图；将所述第一积分图对应的第一积分特征向量与所述多个第二积分图分别对应的多个第二积分特征向量进行拼接，得到所述第一目标区域的方向频带融合特征。

在一种可能的实施方式中，所述装置还包括：

第一目标区域确定模块，用于确定所述目标对象在第二视频帧中所在的第二目标区域，所述第二视频帧为显示时间在所述第一视频帧之前的视频帧；基于所述第一视频帧和所述第二视频帧，对所述第二目标区域进行偏移，得到所述第一目标区域，所述第一目标区域为偏移后的所述第二目标区域在所述第一视频帧中对应的区域。

在一种可能的实施方式中，所述装置还包括：

显示模块，用于响应于所述预测标签指示所述第一目标区域包括所述目标对象，在所述第一视频帧中对所述第一目标区域的轮廓进行突出显示。

在一种可能的实施方式中，所述目标检测模型的训练装置用于对样本视频帧中待检测的样本区域进行多频带滤波，得到多个频带分别对应的多个样本频带子图；对所述多个样本频带子图进行多方向滤波，得到多个方向分别对应的多个样本方向子图；根据所述多个样本方向子图，获取所述样本区域的样本方向频带融合特征；基于所述样本方向频带融合特征以及所述样本区域的标签，对所述目标检测模型进行训练，所述标签用于指示所述样本区域是否包括样本对象。

在一种可能的实施方式中，所述目标检测模型的训练装置用于将所述样本方向频带融合特征输入所述目标检测模型，通过所述目标检测模型，基于所述样本方向频带融合特征进行预测，输出所述样本区域的预测标签；基于所述预测标签和所述样本区域的标签之间的差异信息，对所述目标检测模型的模型参数进行更新。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述目标检测方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述目标检测方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述目标检测方法。

通过本申请实施例提供的技术方案，能够对第一视频帧的第一目标区域进行频带滤波和方向滤波，得到表示第一目标区域频带信息的多个频带子图以及表示第一目标区域方向信息的多个方向子图。将频带信息和方向信息进行融合后得到的方向频带融合特征，也就能够更加完整的表示第一目标区域的特征，即使目标对象运动较慢或者发生旋转，方向频带融合信息也能够准确的表示第一目标区域的特征。后续通过目标检测模型，基于方向频带融合特征进行目标检测时，也就能够得到更加准确的检测效果。

附图说明

为例更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种目标检测方法的实施环境的示意图；

图2是本申请实施例提供的一种在游戏场景中标注游戏人物的示意图；

图3是本申请实施例提供的一种目标检测方法的流程图；

图4是本申请实施例提供的一种目标检测方法的流程图；

图5是本申请实施例提供的一种频带滤波器的结构示意图；

图6是本申请实施例提供的一种频带滤波器的结构示意图；

图7是本申请实施例提供的一种方向滤波器的结构示意图；

图8是本申请实施例提供的一种方向滤波器的结构示意图；

图9是本申请实施例提供的一种界面示意图；

图10是本申请实施例提供的一种目标检测方法的流程图；

图11是本申请实施例提供的一种目标检测模型的训练方法的流程图；

图12是本申请实施例提供的一种目标检测方法的流程图；

图13是本申请实施例提供的一种目标检测装置结构示意图；

图14是本申请实施例提供的一种终端的结构示意图；

图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个参照人脸图像是指两个或两个以上的参照人脸图像。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

归一化处理：也即是将取值范围不同的数列映射到(0，1)区间上的一种方法，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。能够实现归一化处理的函数包括软最大化(Softmax)函数以及S型生长曲线(Sigmoid)，当然也包括其他能够实现归一化处理的函数，本申请实施例对此不作限定。

图1是本申请实施例提供的一种目标检测方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选地，终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等，但并不局限于此。终端110安装和运行有支持图像显示的应用程序。

可选地，服务器是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地，终端110泛指多个终端中的一个，本申请实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在介绍完本申请实施例提供目标检测方法的实施环境之后，下面对本申请实施例提供的目标检测方法的应用场景进行介绍。

1、本申请实施例提供的目标检测方法能够应用在游戏目标的检测场景下，也即是，在游戏过程中，通过本申请实施例提供的目标检测方法，能够实现对游戏场景中游戏目标的检测和追踪。

以卡牌类游戏为例，在卡牌类游戏中，玩家能够在游戏场景中释放不同卡牌对应的游戏人物，该游戏人物能够在游戏场景中进行移动以及做出攻击动作。在游戏人物在游戏场景中进行移动的过程中，终端能够通过本申请实施例提供的目标检测方法来对移动中的游戏人物进行检测和追踪，从而实时获取游戏人物的坐标信息，记录游戏人物的运动轨迹，以供技术人员对游戏进行分析和测试，及时发现游戏中的漏洞，终端对游戏人物进行突出显示的一个示例参见图2，201为游戏人物的一个标注框。

以MOBA(Multiplayer Online Battle Arena，多人在线战术竞技游戏)为例，玩家能够在游戏场景中控制不同的游戏人物，也即是控制游戏人物在游戏场景中做出移动以及释放虚拟技能的动作。在游戏过程中，终端能够通过本申请实施例提供的目标检测方法来对游戏人物进行检测和追踪，从而实时获取游戏人物的坐标信息，记录游戏人物的运动轨迹。游戏人物的运动轨迹不仅能够提供的给技术人员对游戏进行分析和测试，及时发现游戏中的漏洞，也能够提供给技术人员生成单局游戏的游戏记录，游戏记录中至少存储有游戏人物在该局游戏中的运动轨迹。在这种情况下。玩家通过该局游戏的游戏记录就能够快速回顾自己在该局游戏中的表现，无需查看完整的游戏记录视频，人机交互的效率较高。

以回合制游戏为例，双方玩家能够在游戏场景中控制游戏人物进行相互攻击，相互攻击的方式为回合制，也即是一方玩家控制的游戏人物攻击完毕之后，另一方玩家控制的游戏人物才能发动攻击。在游戏过程中，终端能够通过本申请实施例提供的目标检测方法来对两方玩家控制的游戏人物进行检测和追踪，从而实时获取游戏人物的坐标信息，记录游戏人物的运动轨迹。游戏人物的运动轨迹能够提供的给技术人员对游戏进行分析和测试，消除出现一些游戏异常，比如游戏人物的异常消失，或者游戏人物死亡后没有消失等情况，技术人员能够基于游戏人物的运动轨迹，快速发现游戏异常，及时对游戏异常进行修复。

2、本申请实施例提供的目标检测方法能够应用在人物检测的场景下，终端能够对监控视频采用本申请实施例提供的目标检测方法，在监控视频中对目标人物进行检测。在一些实施例中，采用本申请实施例提供的目标检测方法之后，终端能够在播放监控视频的过程中，在监控视频中对目标人物进行突出显示，便于技术人员进行观察和记录。

3、本申请实施例提供的目标检测方法能够应用在车辆检测和追踪的场景下，也即是，当技术人员需要利用航拍视频来对目标车辆进行追踪时，终端能够对航拍视频采用本申请实施例提供的目标检测方法，在航拍视频中对目标车辆进行检测和追踪。在一些实施例中，采用本申请实施例提供的目标检测方法之后，终端能够在航拍视频中对目标车辆进行突出显示，便于技术人员进行车辆追踪。

需要说明的是，上述各个应用场景说明仅仅是为了便于理解而进行的，在其他可能的实施方式中，本申请实施例提供的目标检测方法也能够应用在其他目标检测场景下，比如动物检测或者飞行器检测等场景，本申请实施例对此不做限定。

在本申请实施例中，可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，也即服务器做后台的数据，将处理后的数据发送个终端，由终端将处理结果展现给用户，本申请实施例对此不作限定。下面将以执行主体为终端为例进行说明：

图3是本申请实施例提供的一种目标检测方法的流程图，参见图3，方法包括：

301、终端对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图。

其中，频带滤波是指采用特定的频率范围对第一目标区域进行滤波，比如，存在频率范围(500，800)，采用频率范围(500，800)对图像进行滤波时，也即是将第一目标区域中处于频率范围(500，800)的部分保留，其他处于频率范围(500，800)之外的部分被删除。终端通过多个频带滤波，能够将第一目标区域，分解为多个频带子图，频带子图为滤波后频率处于对应频率范围的图像，若终端采用频率范围(500，800)对第一目标区域进行滤波，那么滤波后得到的图像也就是频率处于频率范围(500，800)内的一个频带子图，若终端采用频率范围(200，300)对第一目标区域进行滤波，那么滤波后得到的图像也就是频率处于频率范围(200，300)内的一个频带子图，不同频带子图用于记录不同的图像特征。

302、终端对多个频带子图进行多方向滤波，得到多个方向分别对应的多个方向子图。

其中，方向滤波是指采用特征的方向对频带子图进行滤波，以存在四个方向为例，如果将正西方向标注为0°，那么正北方向也就为90°，正东方向也就为180°，正南方向也就为270°，其中，0°到90°也就为第一个方向，90°到180°也就为第二个方向，180°到270°也就为第三个方向，270°到360°(0°)也就为第四个方向。多方向滤波也即是将频带图像分解为方向子图的过程，以一个频带子图为例，若存在上述四个方向，那么对该频带子图采用方向滤波之后，该频带子图也就被分解为四个方向的方向子图，N个频带子图也就被分解为4N个方向子图，其中，N为正整数。

303、终端根据多个方向子图，获取第一目标区域的方向频带融合特征。

其中，由于多个方向子图为多个频带子图的多个方向子图，那么根据多个方向子图也就能够得到融合了方向信息和频率信息的方向频带融合特征。

304、终端将方向频带融合特征输入目标检测模型，通过目标检测模型，基于方向频带融合特征进行预测，得到第一目标区域的预测标签，预测标签用于表示第一目标区域是否包括目标对象。

其中，目标检测模型是基于样本视频帧和样本视频帧对应的标签训练得到模型，具有在视频帧中识别出目标对象的能力。在一些实施例中，目标检测模型为Faster R-CNN(Fast Region Convolutional Neural Networks，快速区域卷积神经网络)、SSD(SingleShot Multi Box Detector，实时目标检测)、YOLO(You Only Look Once，你只要看一次)、决策树模型或者Adaboost(增强学习)等，本申请实施例对此不做限定。

通过本申请实施例提供的技术方案，终端能够对第一视频帧的第一目标区域进行频带滤波和方向滤波，得到表示第一目标区域频带信息的多个频带子图以及表示第一目标区域方向信息的多个方向子图。终端将频带信息和方向信息进行融合后得到的方向频带融合特征，也就能够更加完整的表示第一目标区域的特征，即使目标对象运动较慢或者发生旋转，方向频带融合信息也能够准确的表示第一目标区域的特征。后续终端通过目标检测模型，基于方向频带融合特征进行目标检测时，也就能够得到更加准确的检测效果。

图4是本申请实施例提供的一种目标检测方法的流程图，参见图4，方法包括：

401、终端从第一视频帧中确定待检测的第一目标区域。

其中，第一视频帧为包含目标对象的视频中的一个视频帧，第一目标区域为可能存在目标对象的区域，目标对象也即是目标检测方法的目标。在游戏场景中，目标对象也即是游戏人物；在人物的检测的场景下，目标对象也即是目标人物；在车辆检测和追踪的场景下，目标对象也即是目标车辆。

在一种可能的实施方式中，终端确定目标对象在第二视频帧中所在的第二目标区域，第二视频帧为显示时间在第一视频帧之前的视频帧。终端基于第一视频帧和第二视频帧，对第二目标区域进行偏移，得到第一目标区域，第一目标区域为偏移后的第二目标区域在第一视频帧中对应的区域。

在这种实施方式下，由于视频帧往往是连续的，第一视频帧和第二视频帧均为同一个视频帧中的视频帧，目标对象相临近的视频帧中的位置也往往是接近的，终端确定目标对象在第二视频帧中的第二目标区域之后，对第二目标区域进行偏移，将偏移后的第二目标区域映射至第一视频帧，就能够在第一视频帧中得到第一目标区域。

下面通过两个例子对上述实施方式进行说明。

1、以目标对象为游戏人物，第二视频帧的显示时间早于第一视频帧1s为例，若终端确定游戏人物在第二视频帧中的中心坐标为(10，15)，那么终端能够确定以该中心坐标(10，15)为中心的第二目标区域。若第二目标区域为边长为4的正方形区域，那么第二目标区域左下角的坐标为(8，13)，右上角的坐标为(12，17)，终端通过左下角的坐标和右上角的坐标，就能够唯一确定第二目标区域。终端基于第一视频帧和第二视频帧，对第二目标区域进行偏移，得到偏移后的第二目标区域的中心坐标比如为(12，15)，也即是偏移后的第二目标区域左下角的坐标为(10，13)，右上角的坐标为(14，17)。终端将偏移后的第二目标区域映射至第一视频帧，也就在第一视频帧中确定出了第一目标区域。在一些实施例中，第一目标区域的数量为多个，也即是，终端对第二目标区域进行了多次偏移，得到多个偏移后的第二目标区域，终端将多个偏移后的第二目标区域映射至第一视频帧，也就得到了多个第一目标区域，终端后续能够基于多个第一目标区域进行目标检测，也即是游戏场景中的游戏人物检测。需要说明的是，终端除了能够通过游戏人物在第二视频帧中的中心坐标来反推第二目标区域之外，还能够直接在第二视频帧中确定第二目标区域，也即是，终端从第二视频帧中确定出游戏人物所在的第二目标区域之后，能够将第二目标区域的坐标存储在缓存中，后续能够直接从缓存中读取游戏人物在第二视频帧中的第二目标区域，无需终端进行反推计算，减少了终端的计算量，提高了终端的计算效率。

2、以目标对象为目标车辆，第二视频帧的显示时间早于第一视频帧0.5s为例，若终端确定目标车辆在第二视频帧中的中心坐标为(0，2)，那么能够确定以该中心坐标(0，2)为中心的第二目标区域。若第二目标区域为长方形区域，长方形区域的长为4，宽为2，那么第二目标区域左下角的坐标为(-2，1)，右上角的坐标为(2，3)，终端通过左下角的坐标和右上角的坐标，就能够唯一确定第二目标区域。终端基于第一视频帧和第二视频帧，对第二目标区域进行偏移，得到偏移后的第二目标区域的中心坐标比如为(2，2)，也即是偏移后的第二目标区域左下角的坐标为(0，2)，右上角的坐标为(4，3)。终端将偏移后的第二目标区域映射至第一视频帧，也就在第一视频帧中确定出了第一目标区域。在一些实施例中，第一目标区域的数量为多个，也即是，终端对第二目标区域进行了多次偏移，得到多个偏移后的第二目标区域，终端将多个偏移后的第二目标区域映射至第一视频帧，也就得到了多个第一目标区域，终端后续能够基于多个第一目标区域进行目标检测，也即是目标车辆的检测。需要说明的是，终端除了能够通过目标车辆在第二视频帧中的中心坐标来反推第二目标区域之外，还能够直接在第二视频帧中确定第二目标区域，也即是，终端从第二视频帧中确定出目标车辆所在的第二目标区域之后，能够将第二目标区域的坐标存储在缓存中，后续能够直接从缓存中读取目标车辆在第二视频帧中的第二目标区域，无需终端进行反推计算，减少了终端的计算量，提高了终端的计算效率。

可选地，在上述实施方式的基础上，下面对终端对第二目标区域进行偏移的方法进行说明。

在一种可能的实施方式中，终端基于第一视频帧和第二视频帧之间的显示时间差值，确定对第二目标区域进行偏移的距离，偏移的距离与该显示时间差值呈正比。

在这种实施方式下，第一视频帧和第二视频帧之间的显示时间差值越大，那么目标对象在视频帧中的位置变化幅度也就可能越大，终端能够根据第一视频帧和第二视频帧之间的显示时间差值，来确定对第二目标区域进行偏移的距离，提高第一目标区域中包含目标对象的概率，从而提高目标检测的效率。

举例来说，终端能够一个反比例函数来基于第一视频帧和第二视频帧之间的显示时间差值来确定对第二目标区域进行偏移的距离，也即是，终端能够通过公式(1)来确定对第二目标区域进行偏移的距离。

y＝K/x (1)

其中，y为对第二目标区域进行偏移的距离，x为第一视频帧和第二视频帧之间的显示时间差值，x＞0，K为反比例常数，由技术人员根据实际情况进行设置，K≠0。

需要说明的是，终端除了能够通过反比例函数来基于第一视频帧和第二视频帧之间的显示时间差值来确定对第二目标区域进行偏移的距离之外，也能够通过其他函数来确定对第二目标区域进行偏移的距离，本申请实施例对此不做限定。

可选地，在上述实施方式的基础上，若第一视频帧中为视频中的第一个视频帧，那么终端能够采用目标对象的模板图像在第一视频帧上进行模板匹配，从第一视频帧中确定待检测的第一目标区域。

在这种实施方式下，由于第一视频帧为视频中的第一个视频帧，那么第一视频帧之前也就不存在第二视频帧，终端能够采用目标对象的模板图像在第一视频帧上进行模板匹配，得到待检测的第一目标区域。由于模板匹配的效率较高，确定第一目标区域的效率也就较高。

举例来说，终端采用目标对象的模板图像在第一视频帧上进行滑动，获取该目标图像与第一视频帧上多个被覆盖区域的相似度，将相似度最高的区域确定为待检测的第一目标区域。

402、终端对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图。

在一种可能的实施方式中，终端将第一目标区域输入频带滤波器组，通过频带滤波器组中的多个频带滤波器，对第一目标区域进行多频带滤波，得到多个频带子图，在一些实施例中，频带滤波器为非下采样塔型滤波器。

在这种实施方式下，由于在对第一目标区域进行滤波的过程中采用了非下采样塔型滤波器，而非下采样塔型滤波器由于去掉了下采样过程，输出的频带子图的图像的尺寸与第一目标区域相同，也就减去了下采样之后的图像放大和图像配准过程，提高了后续目标检测的准确性，其中，下采样也即是降低图像分辨率的过程，举例来说，存在一个分辨率为512×512的参考图像，对该参考图像进行下采样的过程，也即是降低该参考图像进行下采样的过程，也即是从该参考图像中抽取部分像素点，得到新的参考图像的过程。在一些实施例中，终端从该分辨率为512×512的参考图像中抽取奇数行和奇数列的像素点，将抽取的像素点进行重新组合，也就得到了新的参考图像，新的参考图像的分辨率也就变成了256×256。

下面通过两个例子对上述实施方式进行说明。

例1、终端对第一视频帧进行时频变换，得到第一视频帧的第一频域图像。终端将第一频域图像中的第一目标区域输入频带滤波器组，频带滤波器组包括多个频带滤波器，每个频带滤波器对应于不同的频率范围。终端通过频带滤波器组中的多个频带滤波器，对第一目标区域进滤波，由多个频带滤波器分别输出对应的多个频带子图，每个频带子图也即是处于不同频率范围内的频域图像。参见图5，提供了一种频带滤波器组501的示意图像，该频带滤波器组包括频带滤波器5011、频带滤波器5012以及频带滤波器5013。三个频带滤波器对应于不同的频率范围。终端通过三个频带滤波器，也就能够将第一目标区域分解为频带子图A、频带子图B以及频带子图C。

下面将在上述例1的基础上，进一步对终端通过频带滤波器组对第一目标区域进行多频带滤波，得到多个频带子图的方法进行说明。

继续以图5为例，终端对第一视频帧进行快速傅里叶变换，得到第一视频帧的第一频域图像。终端将第一视频帧中的第一目标区域

输入频带滤波器组，该频带滤波器组包括三个频带滤波器，也即是频带滤波器5011、频带滤波器5012以及频带滤波器5013，其中，频带滤波器5011的滤波矩阵为/>

频带滤波器5012的滤波矩阵为

频带滤波器5013的滤波矩阵为/>

终端对第一目标区域

进行边缘填充，得到第一目标区域的填充图像/>

终端分别采用三个频带滤波器的滤波矩阵/>

以及/>

对第一目标区域的填充图像进行频带滤波，得到三个频带子图

以及

例2、终端对第一视频帧进行时频变换，得到第一视频帧的第一频域图像。终端将第一频域图像中的第一目标区域输入频带滤波器组，频带滤波器组包括多个层级不同的频带滤波器。终端通过多个层级不同的频带滤波器，对第一目标区域进行多级滤波，得到多个频带子图。参见图6，提供了另一种频带滤波器组600的结构，该频带滤波器组包括第一低通滤波器601和第一高通滤波器602。第一低通滤波器601后方还连接有第二低通滤波器603以及第二高通滤波器604。在一些实施例中，第二低通滤波器603后方还连接有第三低通滤波器605以及第三高通滤波器606，依次类推。其中，第一低通滤波器601、第二低通滤波器603以及第三低通滤波器605也就构成了三个层级的低通滤波器；第一高通滤波器602、第二高通滤波器604以及第三高通滤波器606也就构成了三个层级的高通滤波器。终端能够通过如图6所示的多层级频带滤波器，将第一目标区域分解为频带子图D、频带子图E、频带子图F及频带子图G。

下面将在上述例2的基础上，进一步对终端通过频带滤波器组对第一目标区域进行多频带滤波，得到多个频带子图的方法进行说明。

举例来说，终端对第一视频帧进行快速傅里叶变换，得到第一视频帧的第一频域图像。终端将第一频域图像中的第一目标区域

输入频带滤波器组，参见图6，该频带滤波器组包括6个频带滤波器，第一低通滤波器601、第二低通滤波器603、第三低通滤波器605、第一高通滤波器602、第二高通滤波器604以及第三高通滤波器606。终端对第一目标区域/>

进行边缘填充，得到第一目标区域的填充图像/>

终端采用第一低通滤波器/>

和第一高通滤波器

对第一目标区域的填充图像分别进行频带滤波，得到第一低通子图

以及第一高通子图/>

终端对第一低通子图

进行边缘填充，得到第一低通子图的填充图像

终端将第一低通子图的填充图像/>

分别输入第二低通滤波器/>

以及第二高通滤波器/>

得到第二低通子图

以及第二高通子图/>

终端对第二低通子图

进行边缘填充，得到第二低通子图的填充图像/>

终端将第二低通子图的填充图像分别输入第三低通滤波器

和第三高通滤波器/>

得到第三低通子图/>

和第三高通子图/>

其中，第三低通子图、第三高通子图、第二高通子图以及第一高通子图分别对应于频带子图D、频带子图E、频带子图F及频带子图G。通过实验得知，低通子图对模型分类的贡献不明显，终端能够在后续处理过程中忽略频带子图D，也即是第三低通子图，以减少计算量。

403、终端对多个频带子图进行多方向滤波，得到多个方向分别对应的多个方向子图。

在一种可能的实施方式中，对于每个频带子图，终端将该频带子图输入方向滤波器组，通过方向滤波器组中的多个方向滤波器，对该频带子图进行多方向滤波，得到频带子图对应的多个方向特征。终端分别将每个方向特征输入方向滤波器组中对应的重构滤波器，通过重构滤波器，基于输入的方向特征，生成该频带子图的多个方向子图，在一些实施例中，方向滤波器和重构滤波器均为非下采样滤波器。

在这种实施方式下，终端能够在将第一目标区域划分为多个频带子图之后，进一步按照方向对每个频带子图进行进一步的划分，得到每个频带子图的多个方向子图，后续基于多个频带子图分别对应的多个方向子图就能够充分表达第一目标区域的特征。

下面以终端对一个频带子图进行四方向滤波的方法进行说明。

为了更加清楚的进行说明，首先对方向滤波器组的结构进行介绍，参见图7，提供了一种方向滤波器组701的结构示意图，该方向滤波器组701包括方向滤波器702和重构滤波器703。对于方向滤波器来说，若要对频带子图进行四方向滤波，那么方向滤波器702中存在两级滤波结构，参见图8，方向滤波器702中存在第一级的楔形滤波器801和楔形滤波器802，楔形滤波器801和楔形滤波器802中白色的方向为滤波器允许通过的方向，楔形滤波器801和楔形滤波器802中灰色的方向为滤波器不允许通过的方向。在第一级的楔形滤波器801和楔形滤波器802之后，还分别连接有两个第二级的方形滤波器，其中，楔形滤波器801之后连接有方形滤波器8011和方形滤波器8012；楔形滤波器802之后连接有方形滤波器8021和方形滤波器8022，方形滤波器的中白色的方向为滤波器允许通过的方向，方形滤波器中灰色的方向为滤波器不允许通过的方向。通过楔形滤波器和方形滤波器的配合，终端能够将第一频带子图分解为四个方向的方向子图。对于重构滤波器703来说，其具有与方向滤波器702对称的结构，也即是，重构滤波器703的输入为四个方向子图，输出为一个合成的频带子图。

在介绍完方向滤波器组的结构之后，下面将结合方向滤波器组的结构，对终端将一个频带子图分解为四个方向子图的方法进行说明。

若存在一个频带子图

终端将该频带子图/>

输入方向滤波器组701，通过方向滤波器组中的方向滤波器702对该频带子图

进行方向滤波。参见图8，终端将该频带子图/>

输入楔形滤波器801，通过楔形滤波器801的楔形滤波矩阵/>

对该频带子图

进行方向滤波，也即是将楔形滤波矩阵与该频带子图对应位置的数值进行相乘，得到第一级方向特征/>

终端将该第一级方向特征

输入楔形滤波器801之后的方形滤波器8011，通过方形滤波器8011的方形滤波矩阵/>

对该第一级方向特征/>

进行方向滤波，也即是将该方形滤波矩阵与该第一级方向特征对应位置的数值进行相乘，得到一个第二级方向特征/>

终端将第二级方向特征输入重构滤波器703，通过重构滤波器，基于输入的第二级方向特征/>

生成该频带子的一个方向子图，比如为

终端将第一级方向特征/>

输入楔形滤波器801之后的方形滤波器8012，通过方形滤波器8012的方形滤波矩阵/>

对该第一级方向特征/>

进行方向滤波，也即是将该方形滤波矩阵与该第一级方向特征对应位置的数值进行相乘，得到另一个第二级方向特征/>

终端将该第二级方向特征/>

输入重构滤波器703，通过重构滤波器，基于输入的第二级方向特征

生成该频带子的另一个方向子图，比如为/>

另外，终端通过楔形滤波器802的处理过程与终端通过楔形滤波器801的处理方式属于同一发明构思，终端通过方形滤波器8021以及方形滤波器8022的处理过程与通过方形滤波器8011以及方形滤波器8012也属于同一发明构思，在此不再赘述。通过上述处理过程，终端也就将一个频带子图分解为四个方向子图。对于多个频带子图来说，每个频带子图也就被分解为4个方向子图，若存在N个频带子图，也就能够得到4N个方向子图，其中，N为正整数。

需要说明的是，在上述举例的过程中，是以终端将每个频带子图划分为4个方向子图为例进行说明的，在其他可能的实施方式中，终端也能够将每个频带子图划分为8个或更多的频带子图，只需在方形滤波器8011、方形滤波器8012、方形滤波器8021以及方形滤波器8022之后增加不同形状的滤波器即可，划分为8个方向子图的方法与上述划分为4个方向子图的方法属于同一发明构思，在此不再赘述。

404、终端根据多个方向子图，获取第一目标区域的方向频带融合特征。

在一种可能的实施方式中，终端获取多个频带子图中任一频带子图对应的多个第一方向子图的能量。终端按照能量从大到小的顺序，对该多个第一方向子图进行排序。终端基于排序后的多个第一方向子图以及多个第二方向子图，获取第一目标区域的方向频带融合特征，第二方向子图为多个频带子图中除该频带子图之外的其他频带子图对应的方向子图。

在这种实施方式下，终端只需获取多个频带子图中的任一频带子图对应的多个方向子图进行排序，就能够获取第一目标区域的方向频带融合特征，无需逐一对每个频带特征进行处理，减少了终端的计算量。

为了更加清楚的对上述实施方式进行说明，下面将分为几个部分对上述实施方式进行说明。

第一部分，对终端获取多个频带子图中任一频带子图对应的多个第一方向子图的能量的方法进行说明。需要说明是，在下述说明过程中，是以终端采用方向子图中数值的平方和来表示对应方向子图能量为例进行说明的，在其他可能的实施方式中，也能采用其他形式来表示对应方向子图的能量，比如采用对应方向子图中数值的平方和的二范数来表示对应子图的能量，本申请实施例对此不做限定。

以一个频带子图对应于四个方向子图为例，终端能够从多个频带子图中确定任一个频带子图，比如为

终端能够分别获取该频带子图/>

对应的四个第一方向子图/>

以及/>

终端获取四个第一方向子图/>

以及/>

的能量，在一些实施例中，能量也即是四个第一方向子图中数值的平方和。终端获取第一方向子图/>

的能量为1，第一方向子图/>

的能量为2，第一方向子图/>

的能量为7，第一方向子图/>

的能量为8。

第二部分，对终端按照能量从大到小的顺序，对该多个第一方向子图进行排序的方法进行说明。

以一个频带子图对应于四个方向子图为例，终端对四个第一方向子图

以及/>

进行排序，得到排序后的四个第一方向子图/>

/>

以及/>

第三部分，对终端基于排序后的多个第一方向子图以及多个第二方向子图，获取第一目标区域的方向频带融合特征的方法进行说明。为了更加清楚的对第三部分进行说明，下面对该频带子图、多个频带子图以及其他频带子图的关系进行说明。该频带子图为多个频带子图中的任一频带子图，其他频带子图为多个频带子图中，除了该频带子图之外的频带子图。

在一种可能的实施方式中，终端基于排序后的多个第一方向子图分别对应的多个融合权重，将排序后的多个第一方向子图进行加权融合，得到该频带子图对应的第一方向融合图，融合权重与对应第一方向子图的能量正相关。终端基于多个融合权重，将多个第二方向子图分别进行融合，得到其他频带子图分别对应的多个第二方向融合图。终端基于第一方向融合图和多个第二方向融合图，获取方向频带融合特征。

以一个频带子图对应于四个方向子图为例，终端根据排序后频带子图

的四个第一方向子图/>

以及/>

的能量，确定四个第一方向子图

以及/>

分别对应的融合权重。在一个实施例中，第一方向子图/>

的能量为8，第一方向子图

的能量为7，第一方向子图/>

的能量为2，第一方向子图/>

的能量为1，终端能够对四个第一方向子图

以及/>

分别对应的能量(8，7，2，1)进行归一化处理，得到四个第一方向子图/>

以及/>

分别对应的融合权重(0.44，0.39，0.11，0.06)。终端基于融合权重(0.44，0.39，0.11，0.06)，将四个第一方向子图

以及/>

进行加权融合，得到该频带子图对应的第一方向融合图/>

若多个频带子图的数量为两个，且其他频带子图为/>

终端能够对该其他频带子图/>

进行方向滤波，得到该其他频带子图/>

的四个第二方向子图/>

以及/>

终端基于之前确定的融合权重(0.44，0.39，0.11，0.06)，将四个第二方向子图

以及/>

进行加权融合，得到第二方向融合图/>

终端获取第一方向融合图/>

对应的第一积分图/>

终端获取多个第二方向融合图分别对应的多个第二积分图，在该举例中，也即是获取第二方向融合图/>

对应的第二积分图

终端将第一积分图/>

对应的第一积分特征向量与多个第二积分图分别对应的多个第二积分特征向量进行拼接，得到第一目标区域的方向频带融合特征，在该举例中，也即是将第一积分图

对应的第一积分特征向量，比如为(1，2，3，4)与第二积分图/>

对应的第二积分特征向量，比如为(2，3，4，5)进行拼接，得到第一目标区域的方向频带融合特征(1，2，3，4，2，3，4，5)。下面对上述举例中涉及的积分图以及积分特征向量的含义进行说明。对于积分图来说，由于图像是由一系列的离散像素点组成,因此图像的积分其实就是求和。积分图中每个点的值是原图像中该点左上角的所有像素值之和，在本申请实施例中，第一积分图中每个点的数值也即是第一方向融合图中该点左上角所有数值之和，第二积分图中每个点的数值也即是第二方向融合图中该点左上角所有数值之和。积分特征向量也即是积分图中数值按照从左至右，从上至下的顺序进行排列后得到的向量，在本申请实施例中，第一积分特征向量也即是第一积分图中各个数值按照顺序进行排列后得到的向量，第二积分特征向量也即是第二积分图中各个数值按照顺序进行排列后得到的向量。

405、终端将方向频带融合特征输入目标检测模型，通过目标检测模型，基于方向频带融合特征进行预测，得到第一目标区域的预测标签，预测标签用于表示第一目标区域是否包括目标对象。

目标检测模型的训练方法参见下述对于图11的描述。

在一种可能的实施方式中，目标检测模型包括多个子模型，多个子模型之间相互独立。终端将方向频带融合特征输入目标检测模型也即是将方向频带融合特征分别输入多个子模型。终端通过多个子模型基于方向频带分别进行预测，输出多个子模型分别对应的多个预测参数，预测参数用于确定对应的预测标签。终端基于多个子模型对应的置信度，将多个预测参数进行融合，得到第一目标区域的预测标签，其中，置信度与对应子模型在测试时的预测准确性正相关。在一些实施例中，目标检测模型也被称为Adaboost模型。

在这种实施方式下，终端能够通过目标检测模型的多个子模型分别进行独立预测，并基于多个子模型的置信度将多个子模型的预测结果进行融合，得到最终的预测标签，能够利用多个子模型的预测能力，避免某个子模型的预测错误导致整体预测标签错误的问题，也即是避免了对模型时的过拟合现象，提高了目标检测模型的预测能力。

举例来说，目标检测模型包括3个子模型，每个子模型均为独立训练的子模型。终端将第一目标区域的方向频带融合特征(1，2，3，4，2，3，4，5)分别输入3个子模型，由3个子模型通过权重矩阵

以及

对方向频带融合特征(1，2，3，4，2，3，4，5)进行全连接处理，得到3个子模型分别对应的3个预测参数(7，8)、(8，9)以及(8，12)。终端分别通过3个子模型对3个预测参数(7，8)、(8，9)以及(8，12)进行归一化处理，得到3个子模型分别对应的3个概率向量(0.46，0.54)、(0.47，0.53)以及(0.4，0.6)。终端根据3个子模型分别对应的3个置信度0.1、0.2以及0.7，将3个概率向量进行加权融合，得到融合概率向量(0.42，0.58)，其中，0.42表示第一目标区域包括目标对象的概率为42％，0.58表示第一目标区域不包括目标对象的概率为58％。若终端采用0表示第一目标区域包括目标对象的预测标签，采用1表示第一目标区域不包括目标对象的预测标签，那么终端能够将第一目标区域的预测标签设置为1。

需要说明是，上述是以目标检测模型为Adaboost模型为例进行说明的，在其他可能的实施方式中，目标检测模型也可以为其他结构的模型，比如为决策树模型或者卷积网络模型，本申请实施例对此不做限定。

406、响应于预测标签指示第一目标区域包括目标对象，在第一视频帧中对第一目标区域的轮廓进行突出显示。

参见图9，终端能够在第一视频帧901中显示第一目标区域的轮廓902，便于技术人员快速确定目标对象在第一视频帧901中的位置。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下面将结合图10以及上述步骤401-406中各个可能的实施方式，对本申请实施例提供的技术方案进行一步说明。

参见图10，终端通过NSP(Nonsubsampled Pyramid，非下采样金字塔)对第一视频帧的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图。终端通过NSDFB(Nonsubsampled DFB，非下采样方向滤波)对多个频带子图中的任一频带子图s₁进行多方向滤波，得到频带子图s₁对应的多个方向子图f_1，j，其中1表示频带子图s₁，j为方向子图的数量，在一些实施例中，j＝8。终端按照8个方向子图f_1，1-f_1，8的能量对8个方向子图f_1，1-f_1，8进行排序，得到排序后的8个方向子图pic_1，1-pic_1，8。终端根据8个方向子图f_1，1-f_1，8的能量获取8个方向子图分别对应的8个融合权重a₁-a₈，终端基于8个融合权重a₁-a₈将8个排序后的方向子图pic_1，1-pic_1，8进行加权融合，得到第一方向融合图Img₁。终端将8个融合权重a₁-a₈集成为融合等效滤波器，其他频带图像的多个方向子图通过融合等效滤波器就能够快速融合为对应的第二方向融合图，多个其他频带图像的分别对应的多个方向子图也就能够通过等效滤波器融合为多个第二方向融合图。在一些实施例中，若多个频带子图的数量为3，那么终端能够基于8个融合权重a₁-a₈集成为融合等效滤波器hc₂和融合等效滤波器hc₃。终端通过融合等效滤波器hc₂和融合等效滤波器hc₃对其他两个频带子图进行处理，得到其他两个频带子图分别对应的第二方向融合图Img₂和第三方向融合图Img₃。终端获取第一方向融合图Img₁的第一积分图Int₁，第二方向融合图Img₂的第二积分图Int₂和第三方向融合图Img₃的第三积分图Int₃。终端将第一积分图Int₁的第一积分特征向量，第二积分图Int₂的第二积分特征向量以及第三积分图Int₃的第三积分特征向量进行拼接，得到第一目标区域的方向频带融合特征X。终端能够将方向频带融合特征X输入目标检测模型，通过目标检测模型来输出第一目标区域的预测标签。当该预测标签指示第一目标区域包括目标对象时，终端在第一视频帧中对第一目标区域的轮廓进行突出显示。

本申请实施例提供的技术方案在游戏任务的识别与轨迹跟踪方面有很好的效果，游戏人物在旋转、遮挡过程中，该技术方案能够正确识别游戏人物的位置，在很大程度上优化了游戏人物数值分析的效率。其中，在卡牌游戏中识别成功率有99％，MOBA游戏也有95％以上。

另外，终端在对第一目标区域进行滤波的过程中采用了非下采样塔型滤波器，而非下采样塔型滤波器由于去掉了下采样过程，输出的频带子图的图像的尺寸与第一目标区域相同，也就减去了下采样之后的图像放大和图像配准过程，提高了后续目标检测的准确性。

还有，终端对频带子图进行多方向滤波时，也采用了非下采样滤波器，避免了方向滤波时尺度变换导致的图像失配，提高了后续目标检测的准确性。

除此之外，在获取第一目标区域的方向频带融合特征时，终端只需获取多个频带子图中的任一频带子图对应的多个方向子图进行排序，就能够获取第一目标区域的方向频带融合特征，无需逐一对每个频带特征进行处理，减少了终端的计算量。

更重要的是，终端在第一视频帧中确定出第一目标区域包括目标对象时，能够对第一目标区域的轮廓进行突出显示，便于技术人员及时发现目标对象的位置，提高了人机交互的效率。

在介绍完本申请实施例提供的目标检测方法之后，下面通过步骤1101-1104对本申请实施例提供的目标检测模型的训练方法进行说明，在本申请实施例中，目标检测模型既能够由终端进行训练，也能够由服务器进行训练，以目标检测模型由服务器进行训练为例，参见图11，方法包括：

1101、服务器对样本视频帧中待检测的样本区域进行多频带滤波，得到多个频带分别对应的多个样本频带子图。

其中，服务器可以从不同的视频中截取视频图像，由技术人员对服务器截取的视频图像进行筛选，将包含目标对象的视频图像作为样本视频帧，在对视频图像进行筛选的过程中，技术人员还可以在视频图像中进行增加标签，标签用于指示样本视频帧中对应区域是否包含目标对象。服务器后续能够以标签为监督，对目标检测模型进行训练。

在一种可能的实施方式中，终端将样本区域输入频带滤波器组，通过频带滤波器组中的多个频带滤波器，对样本区域进行多频带滤波，得到多个频带子图，频带滤波器为非下采样塔型滤波器。

该实施方式与上述步骤402中的对应实施方式属于同一发明构思，实现方式参见步骤402的相关描述，在此不再赘述。

1102、服务器对多个样本频带子图进行多方向滤波，得到多个方向分别对应的多个样本方向子图。

在一种可能的实施方式中，对于每个样本频带子图，终端将该样本频带子图输入方向滤波器组，通过方向滤波器组中的多个方向滤波器，对该样本频带子图进行多方向滤波，得到样本频带子图对应的多个方向特征。终端分别将每个方向特征输入方向滤波器组中对应的重构滤波器，通过重构滤波器，基于输入的方向特征，生成该样本频带子图的多个方向子图，方向滤波器和重构滤波器均为非下采样滤波器。

该实施方式与上述步骤403中的对应实施方式属于同一发明构思，实现方式参见步骤403的相关描述，在此不再赘述。

1103、服务器根据多个样本方向子图，获取样本区域的样本方向频带融合特征。

在一种可能的实施方式中，终端获取多个样本频带子图中任一样本频带子图对应的多个样本方向子图的能量。终端按照能量从大到小的顺序，对该样本频带子图对应的多个样本方向子图进行排序。终端基于排序后的该样本频带子图对应的多个样本方向子图以及多个样本频带子图中其他样本频带子图对应的多个样本方向子图，获取样本区域的样本方向频带融合特征。

该实施方式与上述步骤404中的对应实施方式属于同一发明构思，实现方式参见步骤404的相关描述，在此不再赘述。

1104、服务器基于样本方向频带融合特征以及样本区域的标签，对目标检测模型进行训练，标签用于指示样本区域是否包括样本对象。

在一种可能的实施方式中，服务器将样本方向频带融合特征输入目标检测模型，通过目标检测模型，基于样本方向频带融合特征进行预测，输出样本区域的预测标签。服务器基于预测标签和样本区域的标签之间的差异信息，对目标检测模型的模型参数进行更新。

下面以目标检测模型为Adaboost模型为例进行说明。

Adaboost模型包括多个子模型Classifier_t，其中t为子模型的数量。对于第一个子模型Classifier₁来说，服务器将样本方向融合特征t₁输入第一个子模型Classifier₁，由第一个子模型Classifier₁对样本方向融合特征t₁进行全连接处理和归一化处理，输出样本区域的预测样本标签，预测样本标签用于指示样本区域是否包括样本对象。服务器构建表示预测样本标签与样本区域的标签之间差异的损失函数，来对第一个子模型Classifier₁的模型参数进行更新。

另外，若第一个子模型Classifier₁基于样本方向融合特征预测t₁的预测样本标签与样本区域对应的标签相同，也就表示样本方向融合特征预测t₁的预测难度较低，该那么服务器能够降低该样本方向频带融合特征t₁的训练权重w₁；若第一个子模型Classifier₁基于样本方向融合特征t₁预测的预测样本标签与样本区域对应的标签不同，也就表示样本方向融合特征预测t₁的预测难度较高，那么服务器能够提升该样本方向频带融合特征t₁的训练权重w₁，训练权重也就该样本方向融合特征对模型参数的更新幅度，训练权重越大，对模型参数的更新幅度也就越大。

为该样本方向融合特征设置完训练权重之后，服务器能够获取另一个样本视频帧，对另一个样本视频帧执行上述1101-1103的步骤，得到该另一个样本视频帧的样本方向融合特征t₂。服务器初始化第二个子模型Classifier₂，基于样本方向融合特征预测t₁、样本方向融合特征预测t₁对应训练权重w₁以及样本方向融合特征t₂，对第二个子模型Classifier₂进行训练，以此类推。在这个过程中，后一个训练的子模型采用的训练样本均为前一个训练的子模型使用过的且添加了对应的训练权重的样本方向融合特征，这样能够提高目标检测模型对难以区分区域的识别能力。

在对目标检测模型的t个子模型训练完毕之后，服务器能够通过相同的测试集对t个子模型进行测试，分别记录t个子模型在测试过程中的正确率。服务器根据t个子模型在测试过程中的正确率，为t个子模型设置对应的置信度，在后续使用目标检测模型进行预测的过程中，能够基于t个子模型对应的置信度来进行标签预测。

需要说明的是，上述说明中均是以采用服务器训练模型为例进行说明的，在其他可能的实现方式中，上述目标检测模型也可以由终端进行训练，或者通过终端与服务器之间的交互来进行模型训练，例如由终端收集目标检测模型的训练图像，并将目标检测模型的训练图像发送至服务器，由服务器对目标检测模型进行训练。

下面将结合图12、上述步骤401-406以及上述步骤1101-1104中各个可能的实施方式，对本申请实施例提供的技术方案进行说明。

参见图12，上半部分为目标检测模型的训练流程图，与步骤1101-1104对应。服务器在样本视频帧上采集多个样本区域，多个样本区域包括正样本区域(包括样本对象的区域)和负样本区域(背景区域)。以样本视频帧中的一个样本区域为例，服务器通过NKP(Nonkubkampled Pyramid，非下采样金字塔)对样本视频帧的样本区域进行多频带滤波，得到多个频带分别对应的多个样本频带子图。服务器通过NSDFB(NonsubsampledDirectional Filter Banks，非下采样方向滤波器组)对多个样本频带子图中的任一样本频带子图k₁进行多方向滤波，得到样本频带子图k₁对应的多个样本方向子图m_1，j，其中1表示样本频带子图k₁，j为样本方向子图的数量，在一些实施例中，j＝8。服务器按照8个样本方向子图m_1，1-m_1，8的能量对8个样本方向子图m_1，1-m_1，8进行排序，得到排序后的8个样本方向子图pic_1，1-pic_1，8。服务器根据8个样本方向子图m_1，1-m_1，8的能量获取8个样本方向子图分别对应的8个融合权重a₁-a₈，服务器基于8个融合权重a₁-a₈将8个排序后的样本方向子图pic_1，1-pic_1，8进行加权融合，得到第一样本方向融合图SImg₁。服务器将8个融合权重a₁-a₈集成为融合等效滤波器，其他频带图像的多个样本方向子图通过融合等效滤波器就能够快速融合为对应的第二样本方向融合图，多个其他频带图像的分别对应的多个样本方向子图也就能够通过等效滤波器融合为多个第二样本方向融合图。在一些实施例中，若多个样本频带子图的数量为3，那么服务器能够基于8个融合权重a₁-a₈集成为融合等效滤波器hc₂和融合等效滤波器hc₃。服务器通过融合等效滤波器hc₂和融合等效滤波器hc₃对其他两个样本频带子图进行处理，得到其他两个样本频带子图分别对应的第二样本方向融合图SImg₂和第三样本方向融合图SImg₃。服务器获取第一样本方向融合图SImg₁的第一样本积分图SInt₁，第二样本方向融合图SImg₂的第二样本积分图SInt₂和第三样本方向融合图SImg₃的第三样本积分图SInt₃。服务器将第一样本积分图SInt₁的第一样本积分特征向量，第二样本积分图SInt₂的第二样本积分特征向量以及第三样本积分图SInt₃的第三样本积分特征向量进行拼接，得到样本区域的样本方向频带融合特征Y。服务器能够将样本方向频带融合特征Y输入目标检测模型，通过目标检测模型来输出样本区域的预测标签。服务器基于预测标签和该样本区域的标签之间的差异信息，对目标检测模型进行训练，训练过程参见步骤1104的描述，在此不再赘述。

图12的下半部分为使用目标检测模型进行目标检测的流程图，对步骤401-406对应，该过程的说明参见上述对图10的描述，在此不再赘述。需要说明的是，图12中的旧位置是指目标对象在第二视频帧中的位置，新位置是指目标对象在第一视频帧中的位置。

图13是本申请实施例提供的一种目标检测装置结构示意图，参见图13，装置包括：多频带滤波模块1301、多方向滤波模块1302、特征获取模块1303以及输入模块1304。

多频带滤波模块1301，用于对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图。

多方向滤波模块1302，用于对多个频带子图进行多方向滤波，得到多个方向分别对应的多个方向子图。

特征获取模块1303，用于根据多个方向子图，获取第一目标区域的方向频带融合特征。

输入模块1304，用于将方向频带融合特征输入目标检测模型，通过目标检测模型，基于方向频带融合特征进行预测，得到第一目标区域的预测标签，预测标签用于表示第一目标区域是否包括目标对象。

在一种可能的实施方式中，多频带滤波模块，用于将第一目标区域输入频带滤波器组，通过频带滤波器组中的多个频带滤波器，对第一目标区域进行多频带滤波，得到多个频带子图。

在一种可能的实施方式中，多方向滤波模块，用于对于每个频带子图，将频带子图输入方向滤波器组，通过方向滤波器组中的多个方向滤波器，对频带子图进行多方向滤波，得到频带子图对应的多个方向特征。分别将每个方向特征输入方向滤波器中对应的重构滤波器，通过重构滤波器，基于输入的方向特征，生成频带子图的多个方向子图。

在一种可能的实施方式中，特征获取模块，用于获取多个频带子图中任一频带子图对应的多个第一方向子图的能量。按照能量从大到小的顺序，对多个第一方向子图进行排序。基于排序后的多个第一方向子图以及多个第二方向子图，获取第一目标区域的方向频带融合特征，第二方向子图为多个频带子图中其他频带子图对应的方向子图。

在一种可能的实施方式中，特征获取模块，用于基于排序后的多个第一方向子图分别对应的多个融合权重，将排序后的多个第一方向子图进行加权融合，得到频带子图对应的第一方向融合图，融合权重与对应第一方向子图的能量正相关。基于多个融合权重，将多个第二方向子图分别进行融合，得到其他频带子图分别对应的多个第二方向融合图。基于第一方向融合图和多个第二方向融合图，获取方向频带融合特征。

在一种可能的实施方式中，特征获取模块，用于获取第一方向融合图对应的第一积分图。获取多个第二方向融合图分别对应的多个第二积分图。将第一积分图对应的第一积分特征向量与多个第二积分图分别对应的多个第二积分特征向量进行拼接，得到第一目标区域的方向频带融合特征。

在一种可能的实施方式中，装置还包括：

第一目标区域确定模块，用于确定目标对象在第二视频帧中所在的第二目标区域，第二视频帧为显示时间在第一视频帧之前的视频帧。基于第一视频帧和第二视频帧，对第二目标区域进行偏移，得到第一目标区域，第一目标区域为偏移后的第二目标区域在第一视频帧中对应的区域。

在一种可能的实施方式中，装置还包括：

显示模块，用于响应于预测标签指示第一目标区域包括目标对象，在第一视频帧中对第一目标区域的轮廓进行突出显示。

在一种可能的实施方式中，目标检测模型的训练装置用于对样本视频帧中待检测的样本区域进行多频带滤波，得到多个频带分别对应的多个样本频带子图。对多个样本频带子图进行多方向滤波，得到多个方向分别对应的多个样本方向子图。根据多个样本方向子图，获取样本区域的样本方向频带融合特征。基于样本方向频带融合特征以及样本区域的标签，对目标检测模型进行训练，标签用于指示样本区域是否包括样本对象。

在一种可能的实施方式中，目标检测模型的训练装置用于将样本方向频带融合特征输入目标检测模型，通过目标检测模型，基于样本方向频带融合特征进行预测，输出样本区域的预测标签。基于预测标签和样本区域的标签之间的差异信息，对目标检测模型的模型参数进行更新。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图14是本申请实施例提供的一种终端的结构示意图。该终端1400可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：一个或多个处理器1401和一个或多个存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1401所执行以实现本申请中方法实施例提供的目标检测方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407和电源1409中的至少一种。

外围设备接口1403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏1405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。

电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器1412可以终端1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3D动作。

压力传感器1413可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时，可以检测用户对终端1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时，由处理器1401根据用户对显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制显示屏1405的显示亮度。

接近传感器1416用于采集用户与终端1400的正面之间的距离。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图15是本申请实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1501和一个或多个的存储器1502，其中，所述一个或多个存储器1502中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1500还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的目标检测方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述各种可选实现方式中提供的目标检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取所述多个频带子图中任一频带子图对应的多个第一方向子图的能量；

按照能量从大到小的顺序，对所述多个第一方向子图进行排序；

基于排序后的所述多个第一方向子图分别对应的多个融合权重，将所述排序后的所述多个第一方向子图进行加权融合，得到所述频带子图对应的第一方向融合图，所述融合权重与对应第一方向子图的能量正相关；

基于所述多个融合权重，将多个第二方向子图分别进行融合，得到其他频带子图分别对应的多个第二方向融合图；

基于所述第一方向融合图和所述多个第二方向融合图，获取方向频带融合特征；

2.根据权利要求1所述的方法，其特征在于，所述对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图包括：

将所述第一目标区域输入频带滤波器组，通过所述频带滤波器组中的多个频带滤波器，对所述第一目标区域进行多频带滤波，得到所述多个频带子图。

3.根据权利要求1所述的方法，其特征在于，所述对所述多个频带子图进行多方向滤波，得到多个方向分别对应的多个方向子图包括：

对于每个频带子图，将所述频带子图输入方向滤波器组，通过所述方向滤波器组中的多个方向滤波器，对所述频带子图进行多方向滤波，得到所述频带子图对应的多个方向特征；

分别将每个方向特征输入所述方向滤波器组中对应的重构滤波器，通过所述重构滤波器，基于输入的方向特征，生成所述频带子图的多个方向子图。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一方向融合图和所述多个第二方向融合图，获取所述方向频带融合特征包括：

获取所述第一方向融合图对应的第一积分图；

获取所述多个第二方向融合图分别对应的多个第二积分图；

将所述第一积分图对应的第一积分特征向量与所述多个第二积分图分别对应的多个第二积分特征向量进行拼接，得到所述第一目标区域的方向频带融合特征。

5.根据权利要求1所述的方法，其特征在于，所述对第一视频帧中待检测的第一目标区域进行多频带滤波，得到多个频带分别对应的多个频带子图之前，所述方法还包括：

确定所述目标对象在第二视频帧中所在的第二目标区域，所述第二视频帧为显示时间在所述第一视频帧之前的视频帧；

基于所述第一视频帧和所述第二视频帧，对所述第二目标区域进行偏移，得到所述第一目标区域，所述第一目标区域为偏移后的所述第二目标区域在所述第一视频帧中对应的区域。

6.根据权利要求1所述的方法，其特征在于，所述得到所述第一目标区域的预测标签之后，所述方法还包括：

响应于所述预测标签指示所述第一目标区域包括所述目标对象，在所述第一视频帧中对所述第一目标区域的轮廓进行突出显示。

7.根据权利要求1所述的方法，其特征在于，所述目标检测模型的训练方法包括：

对样本视频帧中待检测的样本区域进行多频带滤波，得到多个频带分别对应的多个样本频带子图；

对所述多个样本频带子图进行多方向滤波，得到多个方向分别对应的多个样本方向子图；

根据所述多个样本方向子图，获取所述样本区域的样本方向频带融合特征；

基于所述样本方向频带融合特征以及所述样本区域的标签，对所述目标检测模型进行训练，所述标签用于指示所述样本区域是否包括样本对象。

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本方向频带融合特征以及所述样本区域的标签，对所述目标检测模型进行训练包括：

将所述样本方向频带融合特征输入所述目标检测模型，通过所述目标检测模型，基于所述样本方向频带融合特征进行预测，输出所述样本区域的预测标签；

基于所述预测标签和所述样本区域的标签之间的差异信息，对所述目标检测模型的模型参数进行更新。

9.一种目标检测装置，其特征在于，所述装置包括：

特征获取模块，用于获取所述多个频带子图中任一频带子图对应的多个第一方向子图的能量；按照能量从大到小的顺序，对所述多个第一方向子图进行排序；基于排序后的所述多个第一方向子图分别对应的多个融合权重，将所述排序后的所述多个第一方向子图进行加权融合，得到所述频带子图对应的第一方向融合图，所述融合权重与对应第一方向子图的能量正相关；基于所述多个融合权重，将多个第二方向子图分别进行融合，得到其他频带子图分别对应的多个第二方向融合图；基于所述第一方向融合图和所述多个第二方向融合图，获取方向频带融合特征；

10.根据权利要求9所述的装置，其特征在于，所述多频带滤波模块，用于将所述第一目标区域输入频带滤波器组，通过所述频带滤波器组中的多个频带滤波器，对所述第一目标区域进行多频带滤波，得到所述多个频带子图。

11.根据权利要求9所述的装置，其特征在于，所述多方向滤波模块，用于对于每个频带子图，将所述频带子图输入方向滤波器组，通过所述方向滤波器组中的多个方向滤波器，对所述频带子图进行多方向滤波，得到所述频带子图对应的多个方向特征；分别将每个方向特征输入所述方向滤波器中对应的重构滤波器，通过所述重构滤波器，基于输入的方向特征，生成所述频带子图的多个方向子图。

12.根据权利要求9所述的装置，其特征在于，所述特征获取模块，用于：

获取所述第一方向融合图对应的第一积分图；

获取所述多个第二方向融合图分别对应的多个第二积分图；

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

15.根据权利要求9所述的装置，其特征在于，所述目标检测模型的训练装置用于：

16.根据权利要求15所述的装置，其特征在于，所述目标检测模型的训练装置用于：

17.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的目标检测方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的目标检测方法。