CN114386997A

CN114386997A - 投放终端投放内容检测方法、装置、电子设备及存储介质

Info

Publication number: CN114386997A
Application number: CN202011129946.XA
Authority: CN
Inventors: 任若楠
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-04-22

Abstract

本申请提供一种投放终端投放内容检测方法、装置、电子设备及计算机可读存储介质。该投放终端投放内容检测方法包括：获取投放终端的投放视频；按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像，其中，所述N帧投放图像中的每一帧均带有帧识别号，所述帧识别号用于指示所述N帧投放图像的投放时间先后；针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像；根据所述帧识别号、所述目标图像和所述截取频率，确定所述多媒体信息的投放时长。本申请中解决了投放终端分布范围广，难以全面监控多媒体信息的投放情况、人工稽核成本高的问题。

Description

投放终端投放内容检测方法、装置、电子设备及存储介质

技术领域

本申请涉及多媒体信息技术领域，具体涉及一种投放终端投放内容检测方法、装置、电子设备及计算机可读存储介质。

背景技术

在多媒体信息领域中，应用投放终端(如广告机)对需求者(如商家)的多媒体信息(如广告图像或广告视频)进行投放，是一种新兴的、重要的信息投放渠道。

投放终端具有灵活性，可以根据应用需求随意分布在不同的地点，如电梯内、地铁内、公交站台等，以提高信息的传播力。但是，与此同时，投放终端具有分布范围广，投放内容不易监控稽核的问题。

在传统的投放内容监控稽核方式中，通过人工前往投放终端的分布地点，对投放终端的投放内容进行稽核，以确定投放终端是否投放了需求者的多媒体信息、需求者的多媒体信息的投放次数、投放时长等投放情况。

但是，由于投放终端具有分布范围广的问题，难以全面监控需求者的多媒体信息的投放情况、人工稽核成本高。

发明内容

本申请提供一种投放终端投放内容检测方法、装置、电子设备及计算机可读存储介质，旨在解决由于投放终端分布范围广，难以全面监控待投放的多媒体信息的投放情况、人工稽核成本高的问题。

第一方面，本申请提供一种投放终端投放内容检测方法，所述方法包括：

获取投放终端的投放视频；

按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像，其中，所述N帧投放图像中的每一帧均带有帧识别号，所述帧识别号用于指示所述N帧投放图像的投放时间先后；

针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像；

根据所述帧识别号、所述目标图像和所述截取频率，确定所述多媒体信息的投放时长。

第二方面，本申请提供一种投放终端投放内容检测装置，所述投放终端投放内容检测装置包括：

获取单元，用于获取投放终端的投放视频；

截取单元，用于按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像，其中，所述N帧投放图像中的每一帧均带有帧识别号，所述帧识别号用于指示所述N帧投放图像的投放时间先后；

匹配单元，用于针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像；

确定单元，用于根据所述帧识别号、所述目标图像和所述截取频率，确定所述多媒体信息的投放时长。

第三方面，本申请还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请提供的任一种投放终端投放内容检测方法中的步骤。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的投放终端投放内容检测方法中的步骤。

本申请通过获取投放终端的投放视频进行图像帧截取，得到投放终端的N帧投放图像；并对N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，可以检测出待投放的多媒体信息在投放终端上是否被投放；通过根据帧识别号、目标图像和截取频率，可以确定多媒体信息的投放时长。可见，一方面，由于无需专人实时监控，解决了投放终端分布范围广，难以全面监控多媒体信息的投放情况、人工稽核成本高的问题。另一方面，可以自动监控到投放终端是否投放了待投放的多媒体信息、以及多媒体信息的投放时长，因此可以更全面的监控多媒体信息的投放情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例所提供的投放终端投放内容检测系统的场景示意图；

图2是本申请实施例提供的投放终端投放内容检测方法的一种流程示意图；

图3是本申请实施例中提供的投放视频中某一帧的图像示意图；

图4是本申请实施例中提供的步骤S40的一个实施例流程示意图；

图5是本申请实施例中提供的步骤S43的一个实施例流程示意图；

图6是本申请实施例中提供的投放终端的一种场景示意图；

图7是是本申请实施例中提供的投放终端投放内容检测装置的一个实施例结构示意图；

图8是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本申请实施例的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

本申请实施例提供一种投放终端投放内容检测方法、装置、电子设备和计算机可读存储介质。其中，该投放终端投放内容检测装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

首先，在介绍本申请实施例之前，先介绍下本申请实施例关于应用背景的相关内容。

在多媒体信息领域中，应用投放终端(如广告机)进行多媒体信息投放，如商家的产品广告投放、政府部门的公益广告投放，越来越常见。

许多公司会委托广告商在电梯的广告机、路牌广告位等地方投放自家产品的广告，很多是视频的形式，由于投放地点分布范围广，投放形式多样，公司自己建立人工团队来审核是否在指定地点投放了广告、投放效果需要花费巨大的人力物力并且投入产出比低下。

基于现有的相关技术存在的上述缺陷，本申请实施例提供了投放终端投放内容检测方法，至少在一定程度上克服现有的相关技术所存在的缺陷。

本申请实施例投放终端投放内容检测方法的执行主体可以为本申请实施例提供的投放终端投放内容检测装置，或者集成了该投放终端投放内容检测装置的服务器设备、物理主机或者用户设备(User Equipment，UE)等不同类型的电子设备，其中，投放终端投放内容检测装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式，通过应用本申请实施例提供的投放终端投放内容检测方法，可以自动监控到投放终端是否投放了待投放的多媒体信息、以及多媒体信息的投放时长。无需专人实时监控，解决了投放终端分布范围广，难以全面监控多媒体信息的投放情况、人工稽核成本高的问题。

参见图1，图1是本申请实施例所提供的投放终端投放内容检测系统的场景示意图。其中，该投放终端投放内容检测系统可以包括电子设备100，电子设备100中集成有投放终端投放内容检测装置。例如，该电子设备可以获取投放终端的投放视频；按照预设的截取频率，对投放视频进行图像帧截取，得到投放终端的N帧投放图像；针对N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像；根据帧识别号、目标图像和截取频率，确定多媒体信息的投放时长。

另外，如图1所示，该投放终端投放内容检测系统还可以包括存储器200，用于存储数据，如存储图像数据、视频数据。

需要说明的是，图1所示的投放终端投放内容检测系统的场景示意图仅仅是一个示例，本申请实施例描述的投放终端投放内容检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着投放终端投放内容检测系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本申请实施例提供的投放终端投放内容检测方法，本申请实施例中以电子设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体。

参照图2，图2是本申请实施例提供的投放终端投放内容检测方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该投放终端投放内容检测方法包括步骤S10～S40，其中：

S10、获取投放终端的投放视频。

其中，投放终端的表现形式可以有多种，如可以是广告机、移动电视、收银机、售货机等。投放终端的分布位置可以是地铁内、公交车内、公交车站台、电梯内、酒店大堂、商场等。当然，上述投放终端的表现形式、分布位置仅为举例，在本申请实施例中，投放终端可以有更多的表现形式、分布位置，具体此处不作限定。

其中，投放视频是指反映投放终端正在投放内容的视频，可以包括所投放内容的原始视频、或基于所投放内容而拍摄的视频。如图3所示，图3是本申请实施例中提供的投放视频中某一帧的图像示意图。

在一些实施例中，可以直接调取投放终端中实际投放的内容，以作为投放视频。例如，本申请实施例的执行主体电子设备直接与电梯里的广告机通信连接，电子设备可以直接录制或调取任意一段广告机的播放视频，以作为投放视频。

在一些实施例中，每个投放终端都被对应的监控摄像头的视野范围所覆盖，监控摄像头可以通过采集视频的方式来记录投放终端的投放内容。监控摄像头在采集到投放终端的视频后，可以将投放终端的视频上传至电子设备。电子设备可以直接将监控摄像头在采集到的投放终端的视频，作为投放视频。

例如，电梯内一般会有广告机和摄像头，电梯内的摄像头可以通过采集视频的方式监控到广告机的投放内容，此时，可以将电梯内的摄像头所采集的广告机的视频作为投放视频。

在一些实施例中，为了保证监控力度、同时节省人力、降低监控成本，路人(如行人、快递配送员、外卖配送员)可以对着投放终端直接拍一段视频，以记录投放终端的投放内容。路人在拍摄投放终端的视频后，可以将投放终端的视频上传至电子设备。电子设备可以直接将路人拍摄的投放终端的视频，作为投放视频。例如，为了节省人力，可以让快递配送员在配送快递时，通过手机对着路过的广告机拍摄一段3至5分钟的视频，以作为投放视频。

S20、按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像。

其中，N为正整数。N帧投放图像中的每一帧均带有帧识别号，帧识别号用于指示N帧投放图像的投放时间先后。

例如，原投放视频的帧率为25帧/秒。以每30帧抽取一帧的截取频率，对一段共1800帧的投放视频进行图像帧截取，得到投放终端的60帧投放图像。60帧投放图像的帧识别号依照投放时间先后记录为：1、2、3、4、...、N，60帧图像可以表示集合Q＝[1、2、3、4、...、N]，此处，N＝60。

又如，以每间隔5秒抽取一帧的截取频率，对一段共3分钟的投放视频进行图像帧截取，得到投放终端的36帧投放图像。36帧投放图像的帧识别号依照时间先后记录为：1、2、3、4、...、N，36帧图像可以表示集合Q＝[1、2、3、4、...、N]，此处，N＝36。

其中，上述截取频率仅为举例，具体可以根据实际情况进行设置，不以此为限。

S30、针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像。

其中，每一帧图像是指N帧投放图像中的第j帧图像(本文中亦简称为“第j帧图像”)，其中，j的取值范围为1至N。

其中，待投放的多媒体信息(若没有特别说明，本文所简称“多媒体信息”即待投放的多媒体信息)是指需求者需要传播的多媒体信息。需求者可以是商家、政府部门等。如，多媒体信息可以是商家的产品广告、政府部门的公益广告等。可以理解的是，此处多媒体信息、需求者仅为举例，具体可以有更多的表现形式，在此不作限定。

目标图像是指N帧投放图像中，投放内容与待投放的多媒体信息相符的图像。如，待投放的多媒体信息是商家A的奶粉广告，若第j帧图像对应的投放内容也是商家A的奶粉广告，则第j帧图像是目标图像。在本申请实施例中，确定目标图像的目的在于：找出投放内容是待投放的多媒体信息的图像帧，以确定多媒体信息是否被投放。

在一些实施例中，提取N帧投放图像的第j帧图像中的文字信息，与多媒体信息的文字信息进行对比。当第j帧图像中的文字信息与多媒体信息的文字信息相同时，将第j帧图像作为投放内容与多媒体信息相符的目标图像。

在一些实施例中，提取N帧投放图像的第j帧图像中的图案信息，与多媒体信息的图案信息进行对比。当第j帧图像中的图案信息与多媒体信息的图案信息相同时，将第j帧图像作为投放内容与多媒体信息相符的目标图像。

在一些实施例中，分别提取N帧投放图像的第j帧图像中的文字信息、图案信息，与多媒体信息的文字信息、图案信息进行对比。当第j帧图像中的文字信息与多媒体信息的文字信息相同、且图案信息与多媒体信息的图案信息相同时，将第j帧图像作为投放内容与多媒体信息相符的目标图像。

S40、根据所述帧识别号、所述目标图像和所述截取频率，确定所述多媒体信息的投放时长。

其中，投放时长是指在投放终端的一段投放视频期间内，多媒体信息在投放终端上的投放时长。

在一些实施例中，直接统计目标图像的图像帧总数，然后，根据图像帧总数、截取频率和投放视频的帧率，计算出多媒体信息的投放时长。

在一些实施例中，连续投放超过一定时长，才认定投放终端有效投放了待投放的多媒体信息。首先，根据帧识别号和目标图像，找出多媒体信息的连续投放片段，再统计连续投放片段的图像总数。最后，根据连续投放片段的图像总数、截取频率和投放视频的帧率，计算出多媒体信息的投放时长。

其中，连续投放片段的相关概念介绍后文中有详细介绍，在此不再赘述。

由以上内容可以看出，通过获取投放终端的投放视频进行图像帧截取，得到投放终端的N帧投放图像；并对N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，可以检测出待投放的多媒体信息在投放终端上是否被投放；通过根据帧识别号、目标图像和截取频率，可以确定多媒体信息的投放时长。可见，一方面，由于无需专人实时监控，解决了投放终端分布范围广，难以全面监控多媒体信息的投放情况、人工稽核成本高的问题。另一方面，可以自动监控到投放终端是否投放了待投放的多媒体信息、以及多媒体信息的投放时长，因此可以更全面的监控多媒体信息的投放情况。

在某些场景下，待投放的多媒体信息中包含了特定的文字和图案，通过检测N帧投放图像中的每一帧图像是否包含对应的文字和图像，可以确定投放终端是否在投放该多媒体信息。此时，步骤S30具体可以包括以下步骤a1～a3，其中：

a1、获取所述多媒体信息的基准文本信息。

其中，基准文本信息是指待投放的多媒体信息中的特定文字、特定图案中的至少一种。

例如，待投放的多媒体信息是商家A的奶粉广告，该奶粉广告包含的基准文本信息为：“某某奶粉”、“全国销量领先”、“双认证”等文字，以及一头牛的图案。

a2、对所述每一帧图像进行文本检测处理。

在本申请的一些实施例中，可以采用现有的文本识别算法，对N帧投放图像的第j帧图像进行文本检测，得到第j帧图像的文本信息的集合W_j＝[w1、w2、...、wn]，其中，n为第j帧图像的文本信息的数量，n为正整数。

在本申请的一些实施例中，还提供了用于文本检测的文本识别网络，具体地，将N帧投放图像的第j帧图像输入至本申请实施例提供的文本识别网络中，以使得文本识别网络对第j帧图像进行文本检测，得到第j帧图像的文本信息的集合W_j＝[w1、w2、...、wn]。

其中，上述文本识别网络可以通过如下步骤训练得到：

1、构建初步的文本识别网络。

例如，初步的文本识别网络可以包括文本检测模块和文本识别模块，可以使用开源的EAST网络作为文本检测模块、开源的DRCNN网络作为文本识别模块。其中，文本检测模块用于检测出图像中文本所在位置的检测框，文本识别模块用于基于文本所在位置的检测框进行识别，得到图像的文本信息。

2、获取训练数据集。

其中，训练数据集包含多个样本图像，一部分样本图像可以是包含基准文本信息的图像，一部分样本图像可以是包含其他场景文本的图像。

3、采用训练数据集对初步的文本识别网络进行训练，直至初步的文本识别网络收敛时，得到训练后的文本识别网络。

其中，训练后的文本检测模块可以充分学习文本所在位置与图像特征之间关系，从而可以精确地检测出图像中文本所在位置的检测框。训练后的文本识别模块可以充分学习文本所在位置的图像特征与文本之间关系，从而可以精确地检测出图像中的文本信息。

其中，文本识别网络的训练过程与现有的网络模型的训练过程类似，对于没有详细说明的训练过程，可以参照现有网络模型的训练方式，在此不再赘述。

a3、当检测到所述每一帧图像的目标文本信息时，将所述每一帧图像作为所述目标图像。

其中，目标文本信息是指每一帧图像的文本信息中，与基准文本信息相同的文本信息。

具体地，当检测到第j帧图像存在目标文本信息时，将第j帧图像作为目标图像。

为方便理解，接以上步骤a1的例子继续说明。

在一具体例子中，第j帧图像的文本信息的集合W_j中，有任一个文本信息wj与基准文本信息中的任一个文本相同，均可确定第j帧图像存在目标文本信息。

例如，第j帧图像的文本信息的集合W_j＝[w1、w2]，其中，w1＝“某某奶粉”、w2＝“全国销量领先”。则可以确定第j帧图像中存在目标文本信息，第j帧图像是目标图像。

在一具体例子中，第j帧图像的文本信息的集合W_j中，包含基准文本信息中的所有文本信息时，才确定第j帧图像存在目标文本信息。

例如，第j帧图像的文本信息的集合W_j＝[w1、w2、w3]，其中，w1＝“某某奶粉”、w2＝“全国销量领先”、w3＝“双认证”，则可以确定第j帧图像中存在目标文本信息，第j帧图像是目标图像。

又如，第j帧图像的文本信息的集合W_j＝[w1、w2]，其中，w1＝“某某奶粉”、w2＝“全国销量领先”，则可以确定第j帧图像中不存在目标文本信息，第j帧图像不是目标图像。

再如，第j帧图像的文本信息的集合W_j＝[w1、w2、w3]，其中，w1＝“某某奶粉”、w2＝“全国销量领先”、w3＝“婴幼儿奶粉”，则可以确定第j帧图像中不存在目标文本信息，第j帧图像不是目标图像。

由以上内容可以看出，通过检测每一帧图像中是否存在与多媒体信息的实际文字、图案相同(即基准文本信息)的目标文本信息，来确定每一帧图像是否投放了多媒体信息，进而可以快速、准确地找出投放了多媒体信息的目标图像。

在一些实施例中，可以截取待投放的多媒体信息中图像作为基准图像，可以直接对比N帧投放图像中的每一帧图像与基准图像之间的相似度，如果相似度较高，则可以确定投放终端在投放该多媒体信息。此时，对应地，步骤S30具体可以包括以下步骤b1～b2，其中：

b1、获取所述每一帧图像与预设的基准图像之间的相似度。

其中，所述基准图像与所述多媒体信息匹配。基准图像是预先从多媒体信息中截取的图像。

例如，可以通过训练后的开源mobilenetv2网络，提取第j帧图像的特征向量。然后，根据第j帧图像的特征向量，使用余弦相似度进行匹配，从而可以得到第j帧图像的与预设的基准图像之间的相似度。其中，余弦相似度进行匹配是现有的相似度匹配算法，在此不再赘述。

b2、当所述相似度大于预设相似度阈值时，将所述每一帧图像作为所述目标图像。

例如，预设相似度阈值为80％，若第j帧图像的相似度为90％，则可以将第j帧图像作为目标图像。若第j帧图像的相似度为60％，则可以将第j帧图像判定为不是目标图像。

上述预设相似度阈值仅为举例，具体可以根据实际需求而设置，不以此为限。

由以上内容可以看出，通过对比每一帧图像，与预先从多媒体信息中截取的基准图像的相似度，来确定每一帧图像是否投放了多媒体信息，进而可以快速、准确地找出投放了多媒体信息的目标图像。

由于有些视频出现模糊晃动等原因，会出现第j帧图像文字不清晰的情况，此种情况下上述步骤a1～a3过程会将第j帧图像误判为不是目标图像(即：将正在投放内容误判为不是待投放的多媒体信息)，从而漏掉一部分目标图像，导致投放内容检测的召回率不高。

针对此种情况，在一些实施例中，以步骤a1～a3中的方式确定目标图像，上述步骤b1～b2也可以作为辅助判别。具体地，若步骤a1～a3中将第j帧图像判定为不是目标图像，则可以进一步通过上述步骤b1～b2进一步判别，确定第j帧图像是否为目标图像。

进一步地，若步骤a1～a3将第j帧图像判定为不是目标图像、步骤b1～b2中将第j帧图像判别为目标图像，获取步骤b1～b2中将第j帧图像判别为目标图像的置信度，若置信度大于预设置信度阈值时，则将第j帧图像最终判定为目标图像。

请参照图4，图4是本申请实施例中提供的步骤S40的一个实施例流程示意图。在本申请的一些实施例中，步骤S40具体可以包括S41～S43，其中：

S41、获取所述目标图像的目标帧识别号。

为了方便理解，接以上步骤S20中的例子继续说明。

例如，60帧图像可以表示集合Q＝[1、2、3、4、...、N]，此处，N＝60。其中，帧识别号为：6～14、38～47的图像为目标图像，则目标帧识别号为：6～14、38～47。

又如，36帧图像可以表示集合Q＝[1、2、3、4、...、N]，此处，N＝36。帧识别号为：6～14的图像为目标图像，则目标帧识别号为：6～14。

S42、根据所述目标帧识别号，确定所述多媒体信息连续投放的开始帧和结束帧。

其中，开始帧是指多媒体信息在投放终端上连续投放的连续投放片段的开始帧。结束帧是指多媒体信息在投放终端上连续投放的连续投放片段的结束帧。连续投放片段的数量≥1，对应的，开始帧的数量≥1、结束帧的数量≥1。

为了方便理解，接以上步骤SS41中的例子继续说明。

具体地，在N帧图像中，若连续的至少两帧图像是目标图像，则可以判定多媒体信息是连续投放，连续的至少两帧图像可以构成一个连续投放片段。

其中，图像连续是指N帧投放图像中，投放时间最接近的图像帧。图像是否连续可以通过帧识别号判定。如，N＝60帧投放图像的帧识别号依照投放时间先后记录为：1、2、3、4、...、N，60帧图像可以表示集合Q＝[1、2、3、4、...、N]，则1、2和3是连续的3帧图像，5、6、7、8和9是连续的5帧图像。若1、2、3、5、6、7、8、9均为目标图像，则1、2和3图像帧可以构成一个连续投放片段，5、6、7、8和9又可以构成一个连续投放片。

其中，在N帧图像中，所构成的连续投放片段可以是x个，x为大于或等于1的正整数。所构成的每个连续投放片段可以记为“第i投放片段”，其中，i为取值范围为1至x。

在一具体例子中，投放视频中只包含了1段多媒体信息的连续投放片段，即在该段投放视频中，投放终端对待投放的多媒体信息投放了1次。例如，快递配送员拍摄投放终端的一段3分钟投放视频中，投放了1次商家A的奶粉广告。其中，1次投放对应了1个开始帧和1个结束帧。

例如，36帧图像可以表示集合Q＝[1、2、3、4、...、N]，此处，N＝36。目标帧识别号为：6～14，则可以确定连续投放片段为1，该连续投放片段的开始帧为6、结束帧为14。

在一些实施例中，投放视频中包含了多段多媒体信息的连续投放片段，即在该段投放视频中，投放终端对待投放的多媒体信息投放了多次。例如，快递配送员拍摄投放终端的一段3分钟投放视频中，投放了2次商家A的奶粉广告。其中，每次投放都有对应的开始帧和结束帧。即多媒体信息连续投放的开始帧和结束帧存在多个。

例如，60帧图像可以表示集合Q＝[1、2、3、4、...、N]，此处，N＝60。目标帧识别号为：6～14、38～47。则可以确定连续投放片段为2，其中，第1投放片段的开始帧为6、结束帧为14，第2投放片段的开始帧为38、结束帧为47。

S43、根据所述开始帧、所述结束帧和所述截取频率，确定所述多媒体信息的投放时长。

例如，原投放视频的帧率为25帧/秒，以每30帧抽取一帧的截取频率，对一段共1800帧的投放视频进行图像帧截取，得到投放终端的N＝60帧投放图像。60帧图像可以表示集合Q＝[1、2、3、4、...、N]。

在N＝60帧图像中，所构成的连续投放片段可以是2个，第1投放片段的开始帧为1、结束帧为14，第2投放片段的开始帧为38、结束帧为47。

则，第1投放片段的持续时长为：t1＝14*30*(1/25)＝16.8秒。

第2投放片段的持续时长为：t2＝(47-38+1)*30*(1/25)＝12秒。

最终，可以确定多媒体信息的投放时长为：t1+t2＝28.8秒。

由以上内容可以看出，通过将连续投放的连续投放片段才视为有效投放，并查找出投放终端上连续投放的x个连续投放片段，再根据连续投放的x个连续投放片段所包含的图像帧，统计出多媒体信息的投放时长，可以更有效、全面地监控投放终端的实际投放情况。

由于步骤S30中所提及的目标图像会出现误判的可能性，即存在：投放内容是多媒体内容的图像帧被误判为不是目标图像的可能性。若出现此种情况，将会导致原本是属于一个连续投放片段的内容，被拆分为两段。

考虑到在投放多媒体信息的过程中，在较短的时间内插播其他信息的可能性较小，因此若两个连续投放片段之间间隔的图像帧数小于预设帧数阈值时(如片段1和片段2之间只间隔了1帧)，可以判定两个连续投放片段隶属于同一连续片段，从而可以在一定程度上避免因投放内容是多媒体内容的图像帧被误判为不是目标图像，而导致投放内容检测准确率降低的问题。

请参照图5，图5是本申请实施例中提供的步骤S43的一个实施例流程示意图。

为此，在本申请的一些实施例中，在投放终端的一段投放视频中，连续投放片段为x，所述开始帧的数量和所述结束帧的数量均为x，其中x为大于1的正整数，步骤S43具体可以包括S431～S435，其中：

S431、将第i个所述开始帧与第i个所述结束帧之间的图像帧，作为所述多媒体信息的连续投放片段。

其中，i取值范围为1至x，x表示更新前(即片段合并前)的连续投放片段的数量。

例如，原投放视频的帧率为25帧/秒。以每30帧抽取一帧的截取频率，对一段共1800帧的投放视频进行图像帧截取，得到投放终端的N＝60帧投放图像。60帧投放图像的帧识别号依照投放时间先后记录为：1、2、3、4、...、N，60帧图像可以表示集合Q＝[1、2、3、4、...、N]。

其中，图像帧3～8、10～14、38～50为目标图像，则更新前(即片段合并前)的连续投放片段的数量为3。第1个连续投放片段(即第1投放片段)的开始帧为3、结束帧为8，第2个连续投放片段(即第2投放片段)的开始帧为10、结束帧为14，第3个连续投放片段(即第3投放片段)的开始帧为38、结束帧为50。

S432、获取第(i-1)个所述结束帧与第i个所述开始帧之间的第一图像帧数。

其中，第一图像帧数是指第(i-1)个连续投放片段的结束帧，与第i个连续投放片段的开始帧之间连续的图像帧的数量。

为了方便理解，接以上步骤S431继续说明。例如，第1个连续投放片段的结束帧(8)，与第2个连续投放片段的开始帧(10)之间图像帧的数量为1，则第一图像帧数为1。第2个连续投放片段的结束帧(14)，与第3个连续投放片段的开始帧(38)之间图像帧的数量为23，则第一图像帧数为23。

S433、当所述第一图像帧数小于预设帧数阈值时，根据第(i-1)个所述开始帧与第i个所述结束帧之间的图像帧，更新所述连续投放片段。

具体地，当第一图像帧数小于预设帧数阈值时，第(i-1)个连续投放片段的开始帧与第i个连续投放片段的结束帧之间的图像帧，合并为一个新的连续投放片段。当第一图像帧数大于或等于预设帧数阈值时，第(i-1)个连续投放片段、第i个连续投放片段不作合并处理。

接以上步骤S432例子继续说明。例如，预设帧数阈值为5。

由于第一图像帧数为1，小于预设帧数阈值(5)，则将第1个连续投放片段与第2个连续投放片段合并为1个片段；合并具体做法为：将第1个连续投放片段的开始帧与第2个连续投放片段的结束帧之间图像帧，作为一个新的连续投放片段，得到合并后的连续投放片段。

由于第一图像帧数为23，大于预设帧数阈值(5)，第2个连续投放片段和第3个连续投放片段不作合并处理。

上述预设帧数阈值仅为举例，可以根据实际情况来调整，此处不作限定。

S434、获取更新后的所述连续投放片段的第二图像帧数。

第二图像帧数是指更新后(即片段合并后)的第i’个连续投放片段的开始帧，与更新后的第i’个连续投放片段的结束帧之间连续的图像帧的数量。其中，i’取值范围为1至x’，x’表示更新后的连续投放片段的数量。

接以上步骤S433例子继续说明。例如，经过合并处理后，更新后的连续投放片段的数量为2。

更新后(即片段合并后)的第1个连续投放片段的开始帧为3、结束帧为14，第2个连续投放片段的开始帧为38、结束帧为50。

可以确定：更新后的第1个连续投放片段的开始帧3与结束帧14之间连续的图像帧的数量为12，即更新后的第1个连续投放片段的第二图像帧数为12。更新后的第2个连续投放片段的开始帧38与结束帧50之间连续的图像帧的数量为23，即更新后的第2个连续投放片段的第二图像帧数为23。

S435、根据所述第二图像帧数和所述截取频率，确定所述多媒体信息的投放时长。

具体地，获取投放视频的帧率。然后，将第二图像帧数、截取频率和投放视频的帧率的倒数三者之间的乘积作为多媒体信息的投放时长。

接以上步骤S434例子继续说明。

例如，更新后的连续投放片段的数量为2，更新后的第1个连续投放片段的第二图像帧数为12，更新后的第2个连续投放片段的第二图像帧数为23。

则可以确定多媒体信息的投放时长为：(12+23)*30*(1/25)＝42秒。

由以上内容可以看出，通过将时间间隔较短的两个连续投放片段合并为一个连续投放片段，避免了因投放内容是多媒体内容的图像帧被误判为不是目标图像，而导致实际的一个连续投放片段被拆分为两个不连续的片段，从而提高了投放内容的检测准确率。

为了解更详细投放终端对待投放的多媒体信息的投放情况，在本申请实施例中，还可以统计每个连续投放片段的持续时长。

此时，在本申请的一些实施例中，步骤S435具体可以包括：根据所述第二图像帧数和所述截取频率，确定所述连续投放片段的第二时长；根据所述第二时长，统计所述多媒体信息的投放时长。

其中，第二时长是指每个连续投放片段的持续时长。

例如，在步骤S435的例子中，第1个连续投放片段的持续时长为：t1＝12*30*(1/25)＝14.4秒。

第2个连续投放片段的持续时长为：t2＝23*30*(1/25)＝27.6秒。

最终，可以确定多媒体信息的投放时长为：t1+t2＝42秒。

由以上内容可以看出，通过根据第二图像帧数和截取频率，分别统计每个连续投放片段的第二时长，可以体现投放终端对待投放的多媒体信息进行投放时，每个连续投放片段的持续时长，更全面地检测到了投放终端对待投放的多媒体信息的投放情况。

在上述基础上，为更好地反映投放终端对待投放的多媒体信息的投放情况，在本申请的一些实施例中，还可以获取投放视频的总时长、投放视频中媒体信息的投放次数。例如，投放视频的总时长为第一时长。此时，该投放终端投放内容检测方法还包括：统计连续投放片段的数量，以作为多媒体信息在所述第一时长内的投放次数。

在一些实施例中，不对连续投放片段作合并处理，此时，可以直接将连续投放片段的数量x，作为多媒体信息在第一时长内的投放次数。或者，也可以统计更新前(即片段合并前)的连续投放片段的数量x，作为多媒体信息在第一时长内的投放次数。

例如，步骤S43的例子中，连续投放片段是2个，并且未对连续投放片段作合并处理，此时可以确定多媒体信息在第一时长内的投放次数2。

又如，步骤S431中，更新前(即片段合并前)的连续投放片段的数量为3，此时可以确定多媒体信息在第一时长内的投放次数3。

在一些实施例中，统计更新后的所述连续投放片段的数量，以作为所述多媒体信息在所述第一时长内的投放次数。

例如，更新前(即片段合并前)的连续投放片段的数量为x＝3，更新后(即片段合并后)的连续投放片段的数量为x’＝2，则确定多媒体信息在第一时长内的投放次数为2。

由以上内容可以看出，通过统计连续投放片段的数量，作为多媒体信息在第一时长内的投放次数，可以更全面地检测到投放终端对待投放的多媒体信息的投放情况。

请参照图6，图6是本申请实施例中提供的投放终端的一种场景示意图。有些投放终端会分为静态投放区域和动态投放区域，其中，可以理解为，动态投放区域用于动态投放多媒体信息的视频，静态投放区域用于固定投放多媒体信息的某一帧图像。如图6所示，图6中上方虚线框内表示投放终端的动态投放区域，下方虚线框内表示投放终端的静态投放区域。

在投放终端的静态投放区域和动态投放区域均在投放待投放的多媒体信息时，才能判定投放终端正在投放多媒体信息。因此需要分别针对静态投放区域和动态投放区域进行检测，才能确定投放终端是否投放了多媒体信息。

此时，步骤S30具体可以包括以下步骤c1～c3，其中：

c1、提取所述每一帧图像中的静态投放区域和动态投放区域。

例如，首先，基于训练数据集(包含样本投放终端正在投放信息时的多个图像，其中，样本放终端正在投放信息分为动态区域投放、静态区域投放)，对预设的区域检测网络进行训练，使得训练后的区域检测网络学习到静态投放区域、动态投放区域的特征，从而得到训练后的(适用于根据图像检测出静态投放区域、动态投放区域的)区域检测网络。

其中，预设的区域检测网络可以是可用于检测任务的开源网络模型，如OverFeat网络、YOLOv网络等等。具体地，可以采用模型参数为默认值的(可用于检测任务)开源网络作为预设的区域检测网络。

然后，将N帧投放图像中的第j帧图像输入至训练后的区域检测网络，以使得训练后的区域检测网络对第j帧图像进行检测，确定第j帧图像中的静态投放区域和动态投放区域。

c2、对所述静态投放区域进行文本检测处理。

具体地，步骤c2中“对所述静态投放区域进行文本检测处理”，与上述步骤a2中“对所述每一帧图像进行文本检测处理”类似，具体可以参照上述步骤a2的说明及举例，在此不再赘述。

c3、当检测到所述静态投放区域存在第一文本时，将所述每一帧图像作为所述目标图像。

其中，所述第一文本是指与预设的基准静态文本相同的文本。基准静态文本包括待投放的多媒体信息中的特定文字、特定图案中的至少一种。

具体地，步骤c3中“当检测到所述静态投放区域存在第一文本时，将所述每一帧图像作为所述目标图像”，与上述步骤a3中“当检测到所述每一帧图像的目标文本信息时，将所述每一帧图像作为所述目标图像”类似，具体可以参照上述步骤a3的说明及举例，在此不再赘述。

针对步骤c1～c3所确定的目标图像，可以根据上述步骤S41～S43中的方式确定投放视频的连续投放片段x。或者，可以根据上述步骤S431～S435中的方式确定投放视频的更新后的连续投放片段x’。

所述方法还包括以下步骤d1～d2，其中：

d1、分别对所述连续投放片段中图像帧的所述动态投放区域，进行文本检测处理，得到所述连续投放片段的第二文本。

其中，所述第二文本是指与预设的基准动态文本相同的文本。基准动态文本包括待投放的多媒体信息中的特定文字、特定图案中的至少一种。

具体地，对于x个连续投放片段(或者，对于x’个连续投放片段)，分别对每个连续投放片段i中第j帧图像的动态投放区域进行文本检测处理，以确定每个连续投放片段i中第j帧图像是否存在与预设的基准动态文本相同的文本。

并将连续投放片段i中第j帧图像中，所存在与预设的基准动态文本相同的文本，作为连续投放片段i的第二文本，得到连续投放片段i的多个第二文本。

例如，基准动态文本包括：“某某奶粉”、“全国销量领先”、“双认证”、“某某地区奶粉”、“获得某某标准认证”。

连续投放片段1包括1、2、3、...、10共10帧图像，其中第3、5、6、7帧图像出现了与基准动态文本相同的文本(如，分别为：“某某奶粉”、“获得某某标准认证”、“全国销量领先”、“某某奶粉”)，则可以将第3、5、6、7帧图像中所出现的与基准动态文本相同的文本，分别作为连续投放片段1的第二文本。

其中，“对每个连续投放片段i中第j帧图像的动态投放区域进行文本检测处理”，与上述步骤a2中“对所述每一帧图像进行文本检测处理”类似，具体可以参照上述步骤a2的说明及举例，在此不再赘述。

d2、当所述第二文本的数量小于预设数量阈值时，舍弃所述连续投放片段。

具体地，步骤d1中，在确定连续投放片段i的多个第二文本后，统计第二文本的数量。当第二文本的数量小于预设数量阈值时，舍弃连续投放片段i，以避免将只在动态投放区域和静态投放区域的连续投放片段i，判定为投放终端投放了多媒体信息的片段。

当第二文本的数量大于或等于预设数量阈值时，证明动态投放区域的投放内容是待投放的多媒体信息，保留连续投放片段i。

例如，步骤d1的例子中，连续投放片段1的第二文本的数量为4。若预设数量阈值为3，证明动态投放区域的投放内容是待投放的多媒体信息，则可以保留连续投放片段1。若预设数量阈值为5，证明动态投放区域的投放内容不是待投放的多媒体信息，则舍弃连续投放片段1。

进一步地，为了提高动态投放区域投放内容的判别准确率，可以统计连续投放片段i中不重复的第二文本的数量。当连续投放片段i中不重复的第二文本的数量小于预设数量阈值时，舍弃连续投放片段。当连续投放片段i中不重复的第二文本的数量大于或等于预设数量阈值时，保留连续投放片段。

如，上述步骤d1的例子中，连续投放片段1中不重复的第二文本的数量是3。若预设数量阈值为4，则舍弃连续投放片段1。若预设数量阈值为3，则可以保留连续投放片段1。

上述预设数量阈值仅为举例，具体可以根据实际需求调整，不以此为限。

由以上内容可以看出，针对连续投放片段i，通过结合第j帧图像的动态投放区域与静态投放区域的投放内容，判定投放终端连续投放片段i是否有效，避免了动态投放区域与静态投放区域没有同时投放待投放的多媒体信息的情况。

在某些情况下，由于拍摄投放视频的设备型号各异、拍摄时设备进行了旋转，为了提高后续图像的识别效率、准确性，在本申请的一些实施例中，需要对截取后的N帧投放图像进行方向矫正。即本申请实施例的投放终端投放内容检测方法还可以进一步包括：将所述N帧投放图像的方向调整为统一方向。

在一具体例子中，可以预先构建网络进行训练，得到可用于识别图像方向的方向判别网络。

然后，将N帧投放图像的第j帧图像输入至本申请实施例提供的方向判别网络中，以使得方向判别网络对第j帧图像进行方向识别，得到第j帧图像的图像方向。如，第j帧图像的图像方向可以是相对基准方向旋转了0°、90°、180°、270°。

若第j帧图像的图像方向相对基准方向进行了旋转，则对第j帧图像的图像方向进行调整，以使得第j帧图像的图像方向与基准方向相同。

其中，上述方向判别网络可以通过如下步骤训练得到：

1、构建初步的方向判别网络。

例如，可以采用开源的Mobilenetv2网络，作为4分类的初步的方向判别网络。其中，4分类包括：分别相对基准方向旋转了0°、90°、180°、270°共4个类别。

2、获取训练数据集。

其中，训练数据集包含多个样本图像，一部分样本图像可以是相对于基准方向旋转了0°的图像、一部分样本图像可以是相对于基准方向旋转了90°的图像、一部分样本图像可以是相对于基准方向旋转了180°的图像、一部分样本图像可以是相对于基准方向旋转了270°的图像。

3、采用训练数据集对初步的方向判别网络进行训练，直至初步的方向判别网络收敛时，得到训练后的方向判别网络。

其中，训练后的方向判别网络可以充分学习图像方向与图像空间特征之间关系，从而可以精确地识别图像方向。

其中，方向判别网络的训练过程与现有的网络模型的训练过程类似，对于没有详细说明的训练过程，可以参照现有网络模型的训练方式，在此不再赘述。

上述所提及的第j帧图像的图像方向、以及训练过程样本图像的图像方向仅为举例，具体可以根据实际应用需求而调整，不以此为限。

由以上内容可以看出，通过将N帧投放图像的方向调整为统一方向，可以提高后续图像的识别效率、以及准确性，进而提高投放终端投放内容检测的准确性、以及检测速度。

由于投放视频可以由路人(如行人、快递配送员、外卖配送员)、监控摄像头等对着投放终端拍摄得到，因此投放视频可能会有全黑全白、曝光过重、拍摄马路天空等不合格情况。

为了避免投放视频大幅度出现这种情况，影响后续图像帧识别，难以判定图像是否为：投放内容是待投放的多媒体信息的图像帧，进而影响投放内容检测结果。

为此，在本申请的一些实施例中，该投放终端投放内容检测方法还可以进一步包括：对所述N帧投放图像进行分类处理，确定所述投放视频的分类结果。

其中，所述分类结果包括视频合格和视频不合格。

例如，首先，将N帧投放图像中的每一帧图像分别输入至训练后的视频判别网络中，以使得预设视频判别网络针对每一帧图像进行分类，确定N帧投放图像中的每一帧图像合格或不合格。

然后，统计N帧投放图像中不合格的图像数量K，并确定N帧投放图像中的不合格图像占比K/N。

若不合格图像占比K/N大于预设占比阈值，则确定投放视频的分类结果为视频不合格。若不合格图像占比K/N小于或等于预设占比阈值，则确定投放视频的分类结果为视频合格。

其中，上述视频判别网络可以通过如下方式得到：基于训练数据集(包括正样本和负样本，正样本是正确拍摄的图像，负样本是全黑全白、曝光过重、拍摄马路天空等不合格图像)，对预设的视频判别网络进行训练，使得训练后的视频判别网络学习到合格图像的特征，从而得到训练后的(适用于对图像进行合格或不合格二分类的)视频判别网络。

其中，预设的视频判别网络可以是可用于分类任务的开源网络模型，如YOLOv3网络、MobileNet网络等等。具体地，可以采用模型参数为默认值的(可用于分类任务)开源网络作为预设的视频判别网络。

此时，对应地，步骤S30中“针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像”的步骤具体包括：当所述分类结果是视频合格时，针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像。

由以上内容可以看出，通过对N帧投放图像进行合格或不合格分类处理，以确定投放视频是否拍摄合格后，再作进一步的数据处理，可以避免因对拍摄不合格的投放视频进行处理，而导致投放终端投放内容的检测精度低的问题，在一定程度上提高了投放终端投放内容检测精度。

为了更好实施本申请实施例中投放终端投放内容检测方法，在投放终端投放内容检测方法基础之上，本申请实施例中还提供一种投放终端投放内容检测装置，如图7所示，为本申请实施例中投放终端投放内容检测装置的一个实施例结构示意图，该投放终端投放内容检测装置700包括：

获取单元701，用于获取投放终端的投放视频；

截取单元702，用于按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像，其中，所述N帧投放图像中的每一帧均带有帧识别号，所述帧识别号用于指示所述N帧投放图像的投放时间先后；

匹配单元703，用于针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像；

确定单元704，用于根据所述帧识别号、所述目标图像和所述截取频率，确定所述多媒体信息的投放时长。

在本申请的一些实施例中，所述匹配单元703具体用于：

获取所述多媒体信息的基准文本信息；

对所述每一帧图像进行文本检测处理；

当检测到所述每一帧图像的目标文本信息时，将所述每一帧图像作为所述目标图像，其中，所述目标文本信息是指所述每一帧图像的文本信息中，与所述基准文本信息相同的文本信息。

在本申请的一些实施例中，所述匹配单元703具体用于：

获取所述每一帧图像与预设的基准图像之间的相似度，其中，所述基准图像与所述多媒体信息匹配；

当所述相似度大于预设相似度阈值时，将所述每一帧图像作为所述目标图像。

在本申请的一些实施例中，所述确定单元704具体用于：

获取所述目标图像的目标帧识别号；

根据所述目标帧识别号，确定所述多媒体信息连续投放的开始帧和结束帧；

根据所述开始帧、所述结束帧和所述截取频率，确定所述多媒体信息的投放时长。

在本申请的一些实施例中，所述开始帧的数量和所述结束帧的数量均为x，其中x为大于1的正整数，所述确定单元704具体用于：

将第i个所述开始帧与第i个所述结束帧之间的图像帧，作为所述多媒体信息的连续投放片段，其中，i取值范围为1至x；

获取第(i-1)个所述结束帧与第i个所述开始帧之间的第一图像帧数；

当所述第一图像帧数小于预设帧数阈值时，根据第(i-1)个所述开始帧与第i个所述结束帧之间的图像帧，更新所述连续投放片段；

获取更新后的所述连续投放片段的第二图像帧数；

根据所述第二图像帧数和所述截取频率，确定所述多媒体信息的投放时长。

在本申请的一些实施例中，所述投放视频的总时长为第一时长，所述投放终端投放内容检测装置700还包括统计单元(图中未示出)，所述统计单元具体用于：

统计更新后的所述连续投放片段的数量，以作为所述多媒体信息在所述第一时长内的投放次数。

在本申请的一些实施例中，所述确定单元704具体用于：

根据所述第二图像帧数和所述截取频率，确定所述连续投放片段的第二时长；

根据所述第二时长，统计所述多媒体信息的投放时长。

在本申请的一些实施例中，所述匹配单元703具体用于：

提取所述每一帧图像中的静态投放区域和动态投放区域；

对所述静态投放区域进行文本检测处理；

当检测到所述静态投放区域存在第一文本时，将所述每一帧图像作为所述目标图像，其中，所述第一文本是指与预设的基准静态文本相同的文本；

在本申请的一些实施例中，所述投放终端投放内容检测装置700还包括舍弃单元(图中未示出)，所述舍弃单元具体用于：

分别对所述连续投放片段中图像帧的所述动态投放区域，进行文本检测处理，得到所述连续投放片段的第二文本，其中，所述第二文本是指与预设的基准动态文本相同的文本；

当所述第二文本的数量小于预设数量阈值时，舍弃所述连续投放片段。

在本申请的一些实施例中，所述投放终端投放内容检测装置700还包括方向调整单元(图中未示出)，在所述针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像步骤之前，所述方向调整单元具体用于：

将所述N帧投放图像的方向调整为统一方向。

在本申请的一些实施例中，在所述按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像，步骤之后，所述投放终端投放内容检测装置700还包括判别单元(图中未示出)，所述判别单元具体用于：

对所述N帧投放图像进行分类处理，确定所述投放视频的分类结果，其中，所述分类结果包括视频合格。

在本申请的一些实施例中，所述匹配单元703具体用于：

当所述分类结果是视频合格时，针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由于该投放终端投放内容检测装置可以执行本申请如图1至图6对应任意实施例中投放终端投放内容检测方法中的步骤，因此，可以实现本申请如图1至图6对应任意实施例中投放终端投放内容检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，为了更好实施本申请实施例中投放终端投放内容检测方法，在投放终端投放内容检测方法基础之上，本申请实施例还提供一种电子设备，参阅图8，图8示出了本申请实施例电子设备的一种结构示意图，具体的，本申请实施例提供的电子设备包括处理器801，处理器801用于执行存储器802中存储的计算机程序时实现如图1至图6对应任意实施例中投放终端投放内容检测方法的各步骤；或者，处理器801用于执行存储器802中存储的计算机程序时实现如图7对应实施例中各单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器802中，并由处理器801执行，以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

电子设备可包括，但不仅限于处理器801、存储器802。本领域技术人员可以理解，示意仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子备还可以包括输入输出设备、网络接入设备、总线等，处理器801、存储器802、输入输出设备以及网络接入设备等通过总线相连。

处理器801可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

存储器802可用于存储计算机程序和/或模块，处理器801通过运行或执行存储在存储器802内的计算机程序和/或模块，以及调用存储在存储器802内的数据，实现计算机装置的各种功能。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的投放终端投放内容检测装置、电子设备及其相应单元的具体工作过程，可以参考如图1至图6对应任意实施例中投放终端投放内容检测方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1至图6对应任意实施例中投放终端投放内容检测方法中的步骤，具体操作可参考如图1至图6对应任意实施例中投放终端投放内容检测方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1至图6对应任意实施例中投放终端投放内容检测方法中的步骤，因此，可以实现本申请如图1至图6对应任意实施例中投放终端投放内容检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请实施例所提供的一种投放终端投放内容检测方法、装置、电子设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种投放终端投放内容检测方法，其特征在于，所述方法包括：

获取投放终端的投放视频；

2.根据权利要求1所述的投放终端投放内容检测方法，其特征在于，所述针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，包括：

获取所述多媒体信息的基准文本信息；

对所述每一帧图像进行文本检测处理；

3.根据权利要求1所述的投放终端投放内容检测方法，其特征在于，所述针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，包括：

4.根据权利要求1所述的投放终端投放内容检测方法，其特征在于，所述根据所述帧识别号、所述目标图像和所述截取频率，确定所述多媒体信息的投放时长，包括：

获取所述目标图像的目标帧识别号；

5.根据权利要求4所述的投放终端投放内容检测方法，其特征在于，所述开始帧的数量和所述结束帧的数量均为x，其中x为大于1的正整数，所述根据所述开始帧、所述结束帧和所述截取频率，确定所述多媒体信息的投放时长，包括：

获取更新后的所述连续投放片段的第二图像帧数；

6.根据权利要求5所述的投放终端投放内容检测方法，其特征在于，所述投放视频的总时长为第一时长，所述方法还包括：

7.根据权利要求5所述的投放终端投放内容检测方法，其特征在于，所述根据所述第二图像帧数和所述截取频率，确定所述多媒体信息的投放时长，包括：

根据所述第二时长，统计所述多媒体信息的投放时长。

8.根据权利要求5所述的投放终端投放内容检测方法，其特征在于，所述针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，包括：

提取所述每一帧图像中的静态投放区域和动态投放区域；

对所述静态投放区域进行文本检测处理；

所述方法还包括：

9.根据权利要求1-8任一项所述的投放终端投放内容检测方法，其特征在于，所述针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，之前还包括：

将所述N帧投放图像的方向调整为统一方向。

10.根据权利要求1-8任一项所述的投放终端投放内容检测方法，其特征在于，所述按照预设的截取频率，对所述投放视频进行图像帧截取，得到所述投放终端的N帧投放图像，之后还包括：

对所述N帧投放图像进行分类处理，确定所述投放视频的分类结果，其中，所述分类结果包括视频合格；

所述针对所述N帧投放图像中的每一帧图像分别进行内容匹配，得到投放内容与待投放的多媒体信息相符的目标图像，包括：

11.一种投放终端投放内容检测装置，其特征在于，所述投放终端投放内容检测装置包括：

获取单元，用于获取投放终端的投放视频；

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至10任一项所述的投放终端投放内容检测方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至10任一项所述的投放终端投放内容检测方法中的步骤。