CN113343895A

CN113343895A - 目标检测方法、目标检测装置、存储介质与电子设备

Info

Publication number: CN113343895A
Application number: CN202110707316.4A
Authority: CN
Inventors: 王升
Original assignee: Beijing Opper Communication Co ltd
Current assignee: Beijing Opper Communication Co ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-03
Anticipated expiration: 2041-06-24
Also published as: CN113343895B

Abstract

本公开提供一种目标检测方法、目标检测装置、计算机可读存储介质与电子设备，涉及图像处理技术领域。所述目标检测方法包括：获取待处理视频；将所述待处理视频中的一帧或多帧图像作为待处理图像；从所述待处理图像中提取感兴趣区域图像；在所述感兴趣区域图像中检测预设目标，得到所述预设目标的检测结果。本公开能够对视频中的预设目标进行有效识别。

Description

目标检测方法、目标检测装置、存储介质与电子设备

技术领域

本公开涉及图像处理技术领域，尤其涉及一种目标检测方法、目标检测装置、计算机可读存储介质与电子设备。

背景技术

随着5G时代的迅速发展，图像和视频数据迅猛增长，为了保证图像或视频内容准确、有效，避免其中出现违规内容，可以通过检测图像或视频内容中是否包含特定目标，以对其进行审核，例如对视频内容中存在的马赛克水印等影响用户感观质量的内容进行识别，或者对视频内容中存在的广告商标或二维码的内容进行识别等。

现有技术主要是通过深度学习技术直接对图像或视频数据进行计算处理，以对其中的特定目标进行检测，然而，这种方式在数据量较大的情况下，例如视频时长较长或图像帧数较多时，则会耗费较长的时间，模型的复杂度和计算量较高，影响目标检测的准确性和效率。

发明内容

本公开提供了一种目标检测方法、目标检测装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善现有技术中目标检测过程计算量较大，且目标检测效果较差的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种目标检测方法，包括：获取待处理视频；将所述待处理视频中的一帧或多帧图像作为待处理图像；从所述待处理图像中提取感兴趣区域图像；在所述感兴趣区域图像中检测预设目标，得到所述预设目标的检测结果。

根据本公开的第二方面，提供一种目标检测装置，包括：待处理视频获取模块，用于获取待处理视频；待处理图像选取模块，用于将所述待处理视频中的一帧或多帧图像作为待处理图像；区域图像确定模块，用于从所述待处理图像中提取感兴趣区域图像；检测结果获得模块，用于在所述感兴趣区域图像中检测预设目标，得到所述预设目标的检测结果。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的目标检测方法及其可能的实现方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；存储器，用于存储所述处理器的可执行指令。其中，所述处理器配置为经由执行所述可执行指令，来执行上述第一方面的目标检测方法及其可能的实现方式。

本公开的技术方案具有以下有益效果：

获取待处理视频；将待处理视频中的一帧或多帧图像作为待处理图像；从待处理图像中提取感兴趣区域图像；在感兴趣区域图像中检测预设目标，得到预设目标的检测结果。一方面，本示例性实施例从待处理视频中选择一帧或多帧图像作为待处理图像，并根据待处理图像生成感兴趣区域图像，通过多个阶段对待处理视频进行精简，并采用精简后的感兴趣区域图像进行预设目标的检测，以实现对待处理视频中预设目标的检测，逐步降低了预设目标检测的计算量，相比于直接对待处理视频进行预设目标的检测，具有较高的检测效率；另一方面，本示例性实施例通过从待处理视频中的待处理图像中提取感兴趣区域图像进行预设目标的检测，相比于直接对待处理图像或者非感兴趣区域图像进行检测，具有更高的有效性和更强的针对性，且避免了检测非感兴趣区域造成的检测内容冗余，计算资源浪费的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种系统架构的示意图；

图2示出本示例性实施方式中一种电子设备的结构图；

图3示出本示例性实施方式中一种目标检测方法的流程图；

图4示出本示例性实施方式中一种目标检测方法的子流程图；

图5示出本示例性实施方式中一种选取待处理图像的流程图；

图6示出本示例性实施方式中一种确定感兴趣区域图像的示意图；

图7示出本示例性实施方式中另一种目标检测方法的子流程图；

图8示出本示例性实施方式中一种目标检测流程的示意图；

图9示出本示例性实施方式中另一种目标检测过程的流程图；

图10示出本示例性实施方式中一种目标检测装置的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

鉴于上述一个或多个问题，本公开的示例性实施方式提供一种目标检测方法。图1示出了本示例性实施方式运行环境的系统架构图。如图1所示，该系统架构100可以包括用户终端110和服务端120，两者之间通过网络形成通信交互，例如用户终端110可以将待处理视频或待处理图像发送至服务端120，服务端120也可以将检测结果返回至用户终端110等。其中，用户终端110包括但不限于智能手机、平板电脑、游戏机、可穿戴设备等；服务端120是指提供互联网服务的后台服务器。

应当理解，图1中各装置的数量仅是示例性的。根据实现需要，可以设置任意数量的用户终端，或者服务端可以是多台服务器形成的集群。

本公开实施方式所提供的目标检测方法可以由用户终端110执行，例如在用户终端110获取待处理视频后，直接对其进行目标检测，得到检测结果；也可以由服务端120执行，例如用户终端110在获取待处理视频后，上传到服务端120，使服务端120对其进行目标检测，得到检测结果，并返回至用户终端110等，本公开对此不做限定。

本公开的示例性实施方式提供一种用于实现目标检测方法的电子设备，其可以是图1中的用户终端110或服务端120。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行目标检测方法。

下面以图2中的移动终端200为例，对上述电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、USB(Universal Serial Bus，通用串行总线)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏幕290、摄像模组291、指示器292、马达293、按键294以及SIM(Subscriber Identification Module，用户标识模块)卡接口295等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。

编码器可以对图像或视频数据进行编码(即压缩)，例如对美颜处理后得到的美颜图像进行编码，形成对应的码流数据，以减少数据传输所占的带宽；解码器可以对图像或视频的码流数据进行解码(即解压缩)，以还原出图像或视频数据，例如对待美颜的视频进行解码，以得到视频中每一帧的图像数据，提取其中的一帧或多帧进行美颜处理。移动终端100可以支持一种或多种编码器和解码器。这样，移动终端100可以处理多种编码格式的图像或视频，例如：JPEG(Joint Photographic Experts Group，联合图像专家组)、PNG(Portable Network Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(Moving Picture Experts Group，动态图像专家组)1、MPEG2、H.263、H.264、HEVC(HighEfficiency Video Coding，高效率视频编码)等视频格式。

在一些实施方式中，处理器210可以包括一个或多个接口，通过不同的接口和移动终端200的其他部件形成连接。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括易失性存储器、非易失性存储器等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令，执行移动终端200的各种功能应用以及数据处理。

外部存储器接口222可以用于连接外部存储器，例如Micro SD卡，实现扩展移动终端200的存储能力。外部存储器通过外部存储器接口222与处理器210通信，实现数据存储功能，例如存储音乐，视频等文件。

USB接口230是符合USB标准规范的接口，可以用于连接充电器为移动终端200充电，也可以连接耳机或其他电子设备。

充电管理模块240用于从充电器接收充电输入。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为设备供电；电源管理模块241还可以监测电池的状态。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块260可以提供应用在移动终端200上的包括WLAN(Wireless LocalArea Networks，无线局域网)(如Wi-Fi(Wireless Fidelity，无线保真)网络)、BT(Bluetooth，蓝牙)、GNSS(Global Navigation Satellite System，全球导航卫星系统)、FM(Frequency Modulation，调频)、NFC(Near Field Communication，近距离无线通信技术)、IR(Infrared，红外技术)等无线通信解决方案。

移动终端200可以通过GPU、显示屏幕290及AP等实现显示功能，显示用户界面。移动终端200可以通过ISP、摄像模组291、编码器、解码器、GPU、显示屏幕290及AP等实现拍摄功能，还可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及AP等实现音频功能。

传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等，以实现不同的感应检测功能。

指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。马达293可以产生振动提示，也可以用于触摸振动反馈等。按键294包括开机键，音量键等。

移动终端200可以支持一个或多个SIM卡接口295，用于连接SIM卡，以实现通话以及数据通信等功能。

图3示出了目标检测方法的示例性流程，可以由上述用户终端110或者服务端120执行，包括以下步骤S310至S340：

步骤S310，获取待处理视频。

其中，待处理视频是指需要进行目标检测的视频数据，其可以是各种类型的视频，如影视视频、动画视频或者用户自制的生活小视频等等。待处理视频可以通过多种方式获取，例如可以由用户通过终端配置的摄像模组录制得到，也可以从云端或网络下载得到等等，本公开对此不做具体限定。

步骤S320，将待处理视频中的一帧或多帧图像作为待处理图像。

为了提高对待处理视频进行目标检测的效率，本示例性实施例可以从待处理视频中提取一帧或多帧图像作为待处理图像进行目标检测的过程。其中，待处理图像的数量可以根据实际需要，或者系统可承载的计算量进行自定义设置。在从待处理视频中抽取一帧或多帧图像作为待处理图像时，可以采用随机抽取的方式，例如从待处理视频中随机抽取50帧图像，该50帧图像之间的间隔可以不同，且分布在不同的时间段内；也可以按照一定的规律从待处理视频中抽取一帧或多帧图像，例如采用等间隔的抽取方式，如每间隔2帧图像采集一帧图像，或者每间隔3帧图像采集一帧图像作为待处理图像等，或者在预设的时间段内采用非等间隔的方式，抽取特定数量的图像，如在视频首尾预设时间段内分别抽取10帧图像作为待处理图像等，本公开对此不做具体限定。

步骤S330，从待处理图像中提取感兴趣区域图像。

为了进一步节省目标检测的计算量，提高目标检测效率，本示例性实施例可以从待处理图像中提取感兴趣区域图像进行目标检测，从而避免对非感兴趣区域进行目标检测造成的内容识别冗余，浪费计算资源的问题。其中，感兴趣区域是指待处理图像中可能出现特定目标的区域，例如人脸、二维码、广告商标、马赛克水印等对象所在的区域，这些区域也是后续进行目标检测的重点分析区域。在待处理图像中，可以有一个或多个感兴趣区域，当然，待处理图像中也可以没有感兴趣区域，根据感兴趣区域可以生成待处理图像对应的感兴趣区域图像，例如将单独的感兴趣区域从待处理图像中扣取出来，直接作为感兴趣区域图像；或者将包括多个感兴趣区域的区域扣取出来作为感兴趣区域图像等，本公开对此不做具体限定。在本示例性实施例中，每一待处理图像可以对应多张感兴趣区域图像，例如待处理图像包含5个感兴趣区域时，可以分别将其从待处理图像中扣取出来，作为待处理图像的感兴趣区域图像，此时，考虑到不同感兴趣区域可能具有不同的尺寸或图像参数，本示例性实施例可以对感兴趣区域图像进行对齐处理，以使所有的感兴趣区域图像能够保持统一，具体的，可以根据实际需要进行自定义设置。

在本示例性实施例中，感兴趣区域可以通过人为选择或编程进行自定义设置，例如在对包含二维码的视频进行检测时，考虑到二维码通常出现在图像的右下角区域，则可以设置预设尺寸的区域从待处理图像中选择感兴趣区域；或者也可以预先训练一机器学习模型，通过模型对待处理图像中的图像特征进行处理，来确定感兴趣区域等等。

步骤S340，在感兴趣区域图像中检测预设目标，得到预设目标的检测结果。

其中，预设目标即为所要检测的对象，例如人脸、二维码、广告商标、马赛克水印等，本示例性实施例通过从待处理视频中抽取待处理图像，再根据待处理图像生成感兴趣区域图像，最后对感兴趣区域图像进行预设目标的检测，基于多层递进筛选的过程，降低了直接对视频进行预设目标检测的复杂度，提高了检测效率和准确性。其中，在对感兴趣区域图像进行预设目标检测时，可以通过机器学习模型或者特定的算法进行。检测结果可以是感兴趣区域图像关于预设目标的检测结果，例如感兴趣区域图像中是否包含预设目标，或者预设目标的位置信息，再或者包含预设目标的概率信息等等，检测结果也可以是待处理视频关于预设目标的检测结果，例如待处理视频中是否包含预设目标，在那些图像帧中出现了预设目标，预设目标的位置或概率信息等等，具体的，检测结果中预设目标可以通过边框进行框选显示或者对其进行特定标记显示等等，本公开对此不做具体限定。

综上，本示例性实施方式中，获取待处理视频；将待处理视频中的一帧或多帧图像作为待处理图像；从待处理图像中提取感兴趣区域图像；在感兴趣区域图像中检测预设目标，得到预设目标的检测结果。一方面，本示例性实施例从待处理视频中选择一帧或多帧图像作为待处理图像，并根据待处理图像生成感兴趣区域图像，通过多个阶段对待处理视频进行精简，并采用精简后的感兴趣区域图像进行预设目标的检测，以实现对待处理视频中预设目标的检测，逐步降低了预设目标检测的计算量，相比于直接对待处理视频进行预设目标的检测，具有较高的检测效率；另一方面，本示例性实施例通过从待处理视频中的待处理图像中提取感兴趣区域图像进行预设目标的检测，相比于直接对待处理图像或者非感兴趣区域图像进行检测，具有更高的有效性和更强的针对性，且避免了检测非感兴趣区域造成的检测内容冗余，计算资源浪费的问题。

在一示例性实施例中，上述步骤S320可以包括以下步骤：

步骤S410，当待处理视频满足预设条件时，将待处理视频中的一部分图像帧作为待处理图像；

步骤S420，当待处理视频不满足预设条件时，将待处理视频中的每一帧图像帧均作为待处理图像；

其中，预设条件包括：待处理视频中的图像帧数量超过第一阈值和/或待处理视频的时长大于第二阈值。

考虑到如果对待处理视频中的图像进行逐帧处理，将会消耗较大的计算资源，因此，本示例性实施例可以设置预设条件，对待处理视频中的待处理图像进行过滤，以抽取出符合条件的图像进行后续目标检测的处理过程。具体的，预设条件可以包括，待处理视频中图像帧数量超过第一阈值，或者待处理视频的时长大于第二阈值，再或者待处理视频中图像帧数量超过第一阈值且待处理视频的时长大于第二阈值，即待处理视频中的图像帧数量过多或者待处理视频的时长过长时，可以执行从中筛选待处理图像的过程。其中，第一阈值与第二阈值可以根据需要进行自定义设置，本公开对此不做具体限定。

具体的，如何将待处理视频中的一部分图像帧作为待处理图像，在一示例性实施例中，上述将待处理视频中的一部分图像帧作为待处理图像，包括：

根据预设目标的类型，在待处理视频的时间戳范围内确定候选时间段，并在候选时间段的图像帧中选取待处理图像。

考虑到不同预设目标的类型，在待处理视频中的分布可能具有差异，为了能够更有针对性的，从待处理视频中提取出有效性更高，更有可能存在感兴趣区域的待处理图像，本示例性实施例可以先根据预设目标的类型，在待处理视频的时间戳范围内确定候选时间段，例如当视频中在存在广告商标或二维码内容等宣传资源的预设目标时，这类目标往往多居于视频的首部、尾部或中间，以便于用户浏览的同时不影响用户对视频的正常观看，因此可以在待处理视频的时间戳范围内确定首部、尾部或中间时间段，并在该时间段内的图像帧中选取出待处理图像；或者当视频中存在人脸的预设目标时，这类目标往往多居于视频的中间，因此，也可以在待处理视频的时间戳范围内确定中间时间段，并在中间时间段内的图像帧中选取出待处理图像等等。需要说明的是，具体的从不同的时间段内提取图像帧的数量以及如何提取图像帧，本公开对此不做具体限定，例如预设目标为二维码时，可以从首部时间段或尾部时间段提取较多的图像帧，而从中间时间段提取较少的图像帧等，保证采集的图像帧的总数量保持在恒定数量的同时，针对不同时间段的特性进行图像帧数量的差异化设置。

图5示出本示例性实施例中一种选取待处理图像的流程的示意图，具体可以包括以下步骤：

步骤S510，获取待处理视频；

步骤S520，判断待处理视频的时长是否大于第二阈值；

如果待处理视频的时长小于等于第二阈值，则执行

步骤S530，将待处理视频中的每一帧图像帧均作为待处理图像；

如果待处理视频的时长大于第二阈值，则执行

步骤S540，判断采集图像帧的策略；

步骤S550，当采用普通均匀采集策略时，从待处理视频中等间隔均匀采集图像帧作为待处理图像；

步骤S560，当采用特殊非均匀采样策略时，根据预设目标的类型，在待处理视频的时间戳范围内确定候选时间段，并在候选时间段的图像帧中选取待处理图像。

在一示例性实施例中，上述步骤S330，可以包括以下步骤：

通过第一神经网络对待处理图像进行处理，得到待处理图像中多个局部区域的置信度，局部区域的置信度用于表示局部区域中包含预设目标的概率；

根据多个局部区域的置信度，从多个局部区域中确定感兴趣区域，并截取感兴趣区域图像。

其中，第一神经网络是指用于从待处理图像中确定感兴趣区域的机器学习模型，本示例性实施例可以预先通过样本数据以及样本数据对应的感兴趣区域的标签进行模型训练，进一步，通过训练完成的第一神经网络对待处理图像进行处理，得到待处理图像多个局部区域的置信度，局部区域是指可能包含预设目标的区域，也可以理解为候选感兴趣区域，置信度是指局部区域中包含预设目标的概率，置信度越高，局部区域为感兴趣区域的概率或者局部区域中存在预设目标的概率就越高。本示例性实施例可以根据多个局部区域的置信度，从多个局部区域中确定出感兴趣区域，并基于该感兴趣区域截取出感兴趣区域图像，需要说明的是，这里的感兴趣区域图像可以是一张，也可以是多张，例如根据多个局部区域的置信度，可以从多个局部区域中确定出置信度排序前几位的感兴趣区域，并生成对应的多张感兴趣区域图像；也可以从多个局部区域中确定出置信度最高的感兴趣区域，并生成对应的一张感兴趣区域图像。

另外，为了保证生成的感兴趣区域图像具有较高的有效性，提高计算效率，本示例性实施例还可以设置一置信度阈值，用于过滤不符合置信度要求的局部区域对应的待处理图像。当待处理图像中所有的局部区域的置信度均低于设置的置信度阈值时，可以认为该待处理图像中存在预设目标的概率较低，检测结果可能会不太理想，因此，可以直接将该待处理图像进行剔除，不再对该待处理图像进行后续的检测过程，以避免无效计算而浪费计算资源的问题。

如图6所示，本示例性实施例可以通过第一神经网络620，如三层轻量卷积神经网络620，对待处理图像610进行处理，具体的，可以将待处理图像分批次输入第一神经网络620中，以避免超过模型的计算负载能力，第一神经网络620可以输出每张待处理图像的一个或多个局部区域，如图所示P₁、P₂、……P_n，的区域坐标以及局部区域的置信度630，根据多个局部区域的置信度，可以从多个局部区域中确定出感兴趣区域，并截取感兴趣区域图像640，该感兴趣区域图像可以根据置信度进行排序。

需要说明的是，本示例性实施例可以根据局部区域的置信度，先确定出感兴趣区域，生成感兴趣区域图像，并根据置信度对不同感兴趣区域图像进行排序，执行后续预设目标检测的过程；也可以根据局部区域的置信度，先对多个局部区域图像进行排序，再选择置信度符合要求的局部区域图像作为感兴趣区域图像等，执行后续预设目标检测的过程等，本公开对此不做具体限定。

在一示例性实施例中，如图7所示，上述步骤S340可以包括以下步骤：

步骤S710，通过第二神经网络对感兴趣区域图像进行处理，得到感兴趣区域图像中多个候选框的置信度，候选框的置信度用于表示候选框中包含预设目标的概率；

步骤S720，根据多个候选框的置信度，从多个候选框中确定预设目标的包围盒，以得到预设目标的检测结果。

其中，第二神经网络是指用于对感兴趣区域图像进行预设目标检测的网络模型，具体可以采用MobileNet V3-Small Minimal(轻量化网络)主干网络配合Ancher-FreeFCOS(检测算法之目标检测算法)框架，以实现轻量化精准目标检测的效果。候选框是指针对感兴趣区域图像中可能存在预设目标的位置区域进行框选标记的标识框，通过第二神经网络对感兴趣区域图像进行处理，可以得到感兴趣区域图像中所包括的多个候选框的区域位置以及置信度，其中，不同的候选框可能会存在产生交集的情况，进一步，可以根据多个候选框的置信度，从多个候选框中确定中预设目标的最终标识框，也即包围盒，得到预设目标的检测结果。

在本示例性实施例中，预设目标的检测结果可以是预设目标的包围盒在待处理图像中的位置，本示例性实施例可以通过包围盒的位置来反映预设目标的位置，当确定了包围盒在待处理图像中的区域位置后，即可以确定出预设目标处于该包围盒的区域位置之内，上述位置可以是包围盒的区域坐标信息。

在一示例性实施例中，上述步骤S720可以包括：

删除置信度低于预设阈值的候选框；

利用非极大值抑制算法从候选框中检测并删除重复的候选框。

如图8所示，本示例性实施例可以通过以下过程确定出预设目标的包围盒，先获取上述步骤确定出的感兴趣区域图像810，将其输入第二神经网络820中，得到感兴趣区域图像810中关于预设目标的候选框M₁、M₂、……、M_n、M_n+1的信息，该候选框的信息可以包括候选框的区域位置以及候选框的置信度；进一步，通过阈值过滤算法830，删除置信度低于预设阈值的候选框；然后，再通过非极大值抑制算法840在候选框中检测并删除重复的候选框，得到预设目标的包围盒，从而确定出预设目标的检测结果850。其中，检测并删除重复的候选框可以是指选择出与预设目标最相关的候选框，例如更能够将预设目标完整包围的候选框，具体的，可以在重合率超过一定程度的多个候选框中删除其中几个候选框，或者在有部分重合的候选框中保留置信度最高的候选框等等。

在一示例性实施例中，上述目标检测方法还可以包括：

根据预设目标的先验信息，对预设目标的检测结果进行过滤；

先验信息包括以下至少一种：预设目标的尺寸范围，预设目标的宽高比例范围，预设目标在图像中的潜在出现区域。

为了进一步保证检测结果的准确性，本示例性实施例还可以通过预设目标的先验信息对预设目标的检测结果进行过滤。其中，先验信息是指根据预设目标的特性确定的验证参数信息，具体可以包括预设目标的尺寸范围，如具体的尺寸数值或者具有可波动范围的尺寸数值范围等；预设目标的宽高比例范围；以及预设目标在图像中的潜在出现区域，如画面的四个角落或者中间区域等等。本示例性实施例可以基于不同预设目标的特性，确定不同的先验信息，例如当视频中的预设目标为马赛克水印时，通常预设目标的区域长宽比会大于1，则先验信息可以是预设目标所在区域的尺寸范围大于1；当视频中的预设目标为二维码时，通常预设目标的区域长宽比近似等于1:1，则先验信息可以是预设目标所在区域的长宽比为1：1；当视频中的预设目标为广告商标时，通常预设目标的区域会分布在视频画面的四个角落中，则先验信息可以是预设目标在显示画面中四个边角的特定区域中等等。进一步的，可以基于先验信息可以对预设目标的检测结果进行过滤，例如当视频中存在二维码时，先验信息为二维码的长宽比近似等于1:1，则可以将检测结果中预设目标所在区域的长宽比未近似等于1:1的检测结果进行过滤。另外，当待处理视频中最终保留的关于待处理图像的检测结果较少时，可以认为该视频中包括预设目标的图像帧较少或者不够准确，也可以确定该待处理视频的有效性较低，便于用户对该待处理视频进行评价和分析。

图9示出了本示例性实施例中另一种目标检测方法的流程图，具体可以包括待处理图像选取模块910，用于执行，

步骤S911，获取待处理视频；

步骤S912，将待处理视频中的一帧或多帧图像作为待处理图像；

感兴趣区域图像提取模块920，用于执行，

步骤S921，从待处理图像中提取感兴趣区域图像；

预设目标检测模块930，用于执行，

步骤S931，在感兴趣区域图像中检测预设目标，得到预设目标的检测结果；

检测结果过滤模块940，用于执行，

步骤S941，根据预设目标的先验信息，对预设目标的检测结果进行过滤。

其中，在步骤S921中，如果未能从待处理图像中提取感兴趣区域图像，例如待处理图像中不包含感兴趣区域或者感兴趣区域的置信度低于一定程度时，则可以结束当前流程。在步骤S931中，如果未能在感兴趣区域图像中检测到预设目标，则也可以执行结束当前流程的步骤。

本公开的示例性实施方式还提供一种目标检测装置。如图10所示，该目标检测装置1000可以包括：待处理视频获取模块1010，用于获取待处理视频；待处理图像选取模块1020，用于将待处理视频中的一帧或多帧图像作为待处理图像；区域图像确定模块1030，用于从待处理图像中提取感兴趣区域图像；检测结果获得模块1040，用于在感兴趣区域图像中检测预设目标，得到预设目标的检测结果。

在一示例性实施例中，待处理图像选取模块包括：第一处理单元，用于当待处理视频满足预设条件时，将待处理视频中的一部分图像帧作为待处理图像；第二处理单元，用于当待处理视频不满足预设条件时，将待处理视频中的每一帧图像帧均作为待处理图像；其中，预设条件包括：待处理视频中的图像帧数量超过第一阈值和/或待处理视频的时长大于第二阈值。

在一示例性实施例中，第一处理单元，用于根据预设目标的类型，在待处理视频的时间戳范围内确定候选时间段，并在候选时间段的图像帧中选取待处理图像。

在一示例性实施例中，区域图像确定模块包括：第一神经网络处理单元，用于通过第一神经网络对待处理图像进行处理，得到待处理图像中多个局部区域的置信度，局部区域的置信度用于表示局部区域中包含预设目标的概率；区域图像截取单元，用于根据多个局部区域的置信度，从多个局部区域中确定感兴趣区域，并截取感兴趣区域图像。

在一示例性实施例中，检测结果获得模块包括：第二神经网络处理单元，用于通过第二神经网络对感兴趣区域图像进行处理，得到感兴趣区域图像中多个候选框的置信度，候选框的置信度用于表示候选框中包含预设目标的概率；检测结果获得单元，用于根据多个候选框的置信度，从多个候选框中确定预设目标的包围盒，以得到预设目标的检测结果。

在一示例性实施例中，检测结果获得单元包括：候选框过滤子单元，用于删除置信度低于预设阈值的候选框；候选框筛选子单元，用于利用非极大值抑制算法从候选框中检测并删除重复的候选框。

在一示例性实施例中，预设目标的检测结果包括：预设目标的包围盒在待处理图像中的位置。

在一示例性实施例中，目标检测装置还包括：检测结果过滤模块，用于根据预设目标的先验信息，对预设目标的检测结果进行过滤；其中，先验信息包括以下至少一种：预设目标的尺寸范围，预设目标的宽高比例范围，预设目标在图像中的潜在出现区域。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为程序产品的形式，包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3、图4、图5或图7中任意一个或多个步骤。该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待处理视频；

将所述待处理视频中的一帧或多帧图像作为待处理图像；

从所述待处理图像中提取感兴趣区域图像；

在所述感兴趣区域图像中检测预设目标，得到所述预设目标的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述将待处理视频中的一帧或多帧图像作为所述待处理图像，包括：

当所述待处理视频满足预设条件时，将所述待处理视频中的一部分图像帧作为所述待处理图像；

当所述待处理视频不满足所述预设条件时，将所述待处理视频中的每一帧图像帧均作为所述待处理图像；

其中，所述预设条件包括：所述待处理视频中的图像帧数量超过第一阈值和/或所述待处理视频的时长大于第二阈值。

3.根据权利要求2所述的方法，其特征在于，所述将所述待处理视频中的一部分图像帧作为所述待处理图像，包括：

根据所述预设目标的类型，在所述待处理视频的时间戳范围内确定候选时间段，并在所述候选时间段的图像帧中选取所述待处理图像。

4.根据权利要求1所述的方法，其特征在于，所述从所述待处理图像中提取感兴趣区域图像，包括：

通过第一神经网络对所述待处理图像进行处理，得到所述待处理图像中多个局部区域的置信度，所述局部区域的置信度用于表示所述局部区域中包含所述预设目标的概率；

根据所述多个局部区域的置信度，从所述多个局部区域中确定感兴趣区域，并截取感兴趣区域图像。

5.根据权利要求1所述的方法，其特征在于，所述在所述感兴趣区域图像中检测预设目标，得到所述预设目标的检测结果，包括：

通过第二神经网络对所述感兴趣区域图像进行处理，得到所述感兴趣区域图像中多个候选框的置信度，所述候选框的置信度用于表示所述候选框中包含所述预设目标的概率；

根据所述多个候选框的置信度，从所述多个候选框中确定所述预设目标的包围盒，以得到所述预设目标的检测结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个候选框的置信度，从所述多个候选框中确定所述预设目标的包围盒，包括：

删除置信度低于预设阈值的所述候选框；

利用非极大值抑制算法从所述候选框中检测并删除重复的候选框。

7.根据权利要求1所述的方法，其特征在于，所述预设目标的检测结果包括：所述预设目标的包围盒在所述待处理图像中的位置。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述预设目标的先验信息，对所述预设目标的检测结果进行过滤；

其中，所述先验信息包括以下至少一种：所述预设目标的尺寸范围，所述预设目标的宽高比例范围，所述预设目标在图像中的潜在出现区域。

9.一种目标检测装置，其特征在于，包括：

待处理视频获取模块，用于获取待处理视频；

待处理图像选取模块，用于将所述待处理视频中的一帧或多帧图像作为待处理图像；

区域图像确定模块，用于从所述待处理图像中提取感兴趣区域图像；

检测结果获得模块，用于在所述感兴趣区域图像中检测预设目标，得到所述预设目标的检测结果。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。

11.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8任一项所述的方法。