CN116662608A

CN116662608A - 一种广告识别方法

Info

Publication number: CN116662608A
Application number: CN202310606354.XA
Authority: CN
Inventors: 汪于迪; 王霄麟
Original assignee: Beijing Karakal Technology Co ltd
Current assignee: Beijing Karakal Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-29

Abstract

本发明实施例公开了一种广告识别方法。所述广告识别方法包括如下步骤：根据待识别视频中的视频信息，获取第一待确定广告视频片段；根据待识别视频中的音频信息，获取第二待确定广告视频片段；根据用户对待识别视频的操作记录，获取第三待确定广告视频片段；判断所述第一待确定广告视频片段、所述第二待确定广告视频片段和所述第三待确定广告视频片段是否有重合的视频片段；若是，则三者重合的部分为最终确定的广告片段。本发明实施例的广告识别方法从视频、音频、用户操作三个角度共同确定广告片段，应用范围广，适用于各种视频。需求数据库资源不多，计算量较小。多个维度检测，精确度有保证。

Description

一种广告识别方法

技术领域

本发明涉及广告识别相关技术领域，具体地说是涉及一种广告识别方法。

背景技术

在当前新媒体的快速发展中，数字化视频已然成为人们生活中无法缺少的信息载体，作为商业手段中极为关键的视频广告，更是新媒体背景下数字化视频应用的关键构成部分。但是面对如此浩瀚的视频数据，如何快速的识别和检测视频广告段的问题函需解决。例如，对于投放广告的企业，需要通过广告的识别和检测系统来确定自己的广告是否在视频中按照之前的签订的合同进行播放；对于广告公司，他们希望能够收集更多的优秀的广告，从而可以对各种各样的广告进行研究或者建立自己的视频广告数据库，以便对广告进行分析，从而制作出更有影响力，更有宣传效果的广告；对于普通消费者，需要跳过他们不感兴趣的广告部分；对于监管机构，他们想对广告进行监控，也需要快速地从视频中检测出广告片段。现有技术中最常见的是通过人工进行广告识别和审核。也有人提出提取现有数据库中的广告视频片段的特征信息，然后将待确定视频的特征和广告数据库里面的广告视频段或音频段的特征逐一进行比较，进而可以判断待确定视频是否为数据库里面的广告。

现有技术中最常见的是通过人工进行广告识别和审核，但存在效率低、易出错的缺陷。有人提出预先在广告片段中嵌入特定的水印，根据嵌入的特定水印识别广告，但目前业界并没有统一的广告识别规则与协议，通常广告商也没有在制作广告视频时嵌入水印，因此该方法应用范围较小。另外，也有人提出提取现有数据库中的广告视频片段的特征信息，然后将待确定视频的特征和广告数据库里面的广告视频段或音频段的特征逐一进行比较，进而可以判断待确定视频是否为数据库里面的广告，但该方法中，数据库包含的视频数量和质量很大程度上影响了识别精度，若想要达到较好的识别效果，对数据库的质量要求较高。

发明内容

针对现有技术之不足，本发明公开了一种广告识别方法。

所述广告识别方法包括如下步骤：

根据待识别视频中的视频信息，获取第一待确定广告视频片段；

根据待识别视频中的音频信息，获取第二待确定广告视频片段；

根据用户对待识别视频的操作记录，获取第三待确定广告视频片段；

判断所述第一待确定广告视频片段、所述第二待确定广告视频片段和所述第三待确定广告视频片段是否有重合的视频片段；

若是，则三者重合的部分为最终确定的广告片段。

根据本发明的一个优选实施方式，所述根据待识别视频中的视频信息，获取第一待确定广告视频片段，包括如下步骤：

获取待识别视频的所有图像帧；

根据图像帧，获取每一图像帧的像素矩阵；

根据像素矩阵，获取相邻两帧图像对应像素点的灰度差；

根据相邻两帧图像对应像素点的灰度差，获取相邻两帧图像的邻帧像素差；

根据邻帧像素差，判断相邻两帧图像是否发生突变，获取整个视频中所有突变点的集合；

根据相邻突变点之间的视频时间长度，获取第一待确定广告视频片段。

根据本发明的一个优选实施方式，所述根据待识别视频中的视频信息，获取第一待确定广告视频片段，还包括如下步骤：

获取视频片段中的静止帧；

判断静止帧中是否包含商标和/或品牌名称；

若是，则确定该视频片段为所述第一待确定广告视频片段。

根据本发明的一个优选实施方式，所述判断相邻两帧图像是否发生突变，获取整个视频中所有突变点的集合，包括如下步骤：

将获取的邻帧像素差与第一阈值比较，当邻帧像素差大于第一阈值时，认定图像发生了突变。

根据本发明的一个优选实施方式，所述根据相邻突变点之间的视频时间长度，获取第一待确定广告视频片段，包括如下步骤：

计算相邻图像帧突变点的间隔时间，间隔时间长度小于第二阈值的两个图像突变点间的视频为第一待确定广告视频片段。

根据本发明的一个优选实施方式，所述判断静止帧中是否包含商标和/或品牌名称包括如下步骤：

获取广告片段中的图像帧，获取这些图像帧的邻帧像素差；

将获取的邻帧像素差与第三阈值比较，当邻帧像素差小于第三阈值时，认定图像帧相对静止；

获取连续的相对静止帧，计算连续帧数，当连续帧数超过第四阈值时，认为这些连续帧为静止帧。

根据本发明的一个优选实施方式，所述根据待识别视频中的音频信息，获取第二待确定广告视频片段，包括如下步骤：

获取音频频谱；

获取音频的窗口平均能量；

根据音频的窗口平均能量，判断静音窗口，获取整个视频中所有静音窗口的集合；

根据相邻静音窗口的间隔时间，获取第二待确定广告视频片段。

根据本发明的一个优选实施方式，所述根据待识别视频中的音频信息，获取第二待确定广告视频片段，还包括如下步骤：

获取现有商标、品牌的音频频谱，生成第一音频指纹；

获取视频片段的第二音频指纹；

比较第一音频指纹和第二音频指纹，若存在相似的音频指纹的部分，则，获取这部分相似的音频指纹的视频片段为第二待确定广告视频片段。

根据本发明的一个优选实施方式，所述判断静音窗口，获取整个视频中所有静音窗口的集合包括如下步骤：

将获取的窗口平均能量与第五阈值比较，当窗口平均能量小于第四阈值时，认定该窗口为静音窗口；

根据相邻静音窗口的间隔时间，获取第二待确定广告视频片段，包括如下步骤：

计算相邻静音窗口的间隔时间，间隔时间长度小于第二阈值的两个静音窗口间的视频为第二待确定广告视频片段；

获取视频片段的第二音频指纹包括如下步骤：

获取音频频谱中信号的幅值，将获取的幅值与第六阈值比较；

保留音频频谱中幅值大于第六阈值的部分，提取这部分信号的频率、幅值、时序，生成音频指纹。

根据本发明的一个优选实施方式，所述根据用户对待识别视频的操作记录，获取第三待确定广告视频片段，包括如下步骤：

获取用户拖动进度条、快进或跳过的操作记录；

记视频中某个片段被拖动进度条、快进或跳过的次数为u，整个视频的播放次数为U，当u/U大于第八阈值时，确定u对应的片段为第三待确定广告视频片段。

本发明实施例提供的广告识别方法中的上述一个或多个技术方案至少具有如下技术效果之一：

本发明实施例的广告识别方法从视频、音频、用户操作三个角度共同确定广告片段，应用范围广，适用于各种视频。需求数据库资源不多，计算量较小。多个维度检测，精确度有保证。

本发明的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的检查或者对实施例的生产或操作的了解，本发明的一部分附加特性对于本领域技术人员是明显的。本发明披露的特性可以通过对以下描述的具体实施例的各种方法、手段和组合的实践或使用得以实现和达到。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，如果本发明的说明书和权利要求书中涉及到术语“第一”、“第二”等，其是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，如果涉及到术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明实施例公开了一种广告识别方法。

该广告识别方法包括如下步骤：

根据待识别视频中的视频信息，获取第一待确定广告视频片段。

根据待识别视频中的音频信息，获取第二待确定广告视频片段。

根据用户对待识别视频的操作记录，获取第三待确定广告视频片段。

判断第一待确定广告视频片段、第二待确定广告视频片段和第三待确定广告视频片段是否有重合的视频片段。

若是，则三者重合的部分为最终确定的广告片段。

其中，根据待识别视频中的视频信息，获取第一待确定广告视频片段，包括如下步骤：

获取待识别视频的所有图像帧。

根据图像帧，获取每一图像帧的像素矩阵。

根据像素矩阵，获取相邻两帧图像对应像素点的灰度差。

根据相邻两帧图像对应像素点的灰度差，获取相邻两帧图像的邻帧像素差。

根据邻帧像素差，判断相邻两帧图像是否发生突变，获取整个视频中所有突变点的集合。

进一步的，根据待识别视频中的视频信息，获取第一待确定广告视频片段，还包括如下步骤：

获取视频片段中的静止帧。

判断静止帧中是否包含商标和/或品牌名称。

若是，则确定该视频片段为第一待确定广告视频片段。

其中，判断相邻两帧图像是否发生突变，获取整个视频中所有突变点的集合，包括如下步骤：

其中，根据相邻突变点之间的视频时间长度，获取第一待确定广告视频片段，包括如下步骤：

其中，判断静止帧中是否包含商标和/或品牌名称包括如下步骤：

获取广告片段中的图像帧，获取这些图像帧的邻帧像素差。

将获取的邻帧像素差与第三阈值比较，当邻帧像素差小于第三阈值时，认定图像帧相对静止。

其中，根据待识别视频中的音频信息，获取第二待确定广告视频片段，包括如下步骤：

获取音频频谱。

获取音频的窗口平均能量。

根据音频的窗口平均能量，判断静音窗口，获取整个视频中所有静音窗口的集合。

进一步的，根据待识别视频中的音频信息，获取第二待确定广告视频片段，还包括如下步骤：

获取现有商标、品牌的音频频谱，生成第一音频指纹。

获取视频片段的第二音频指纹。

其中，判断静音窗口，获取整个视频中所有静音窗口的集合包括如下步骤：

将获取的窗口平均能量与第五阈值比较，当窗口平均能量小于第四阈值时，认定该窗口为静音窗口。

其中，根据相邻静音窗口的间隔时间，获取第二待确定广告视频片段，包括如下步骤：

其中，计算相邻静音窗口的间隔时间，间隔时间长度小于第二阈值的两个静音窗口间的视频为第二待确定广告视频片段。

获取视频片段的第二音频指纹包括如下步骤：

获取音频频谱中信号的幅值，将获取的幅值与第六阈值比较。

其中，根据用户对待识别视频的操作记录，获取第三待确定广告视频片段，包括如下步骤：

获取用户拖动进度条、快进或跳过的操作记录。

下面通过一个具体实施例对本发明进行更为具体的说明。

一种广告识别方法，其包括如下步骤：

S1、获取待分段视频，获取视频的所有图像帧。

视频是由一系列的帧图像所组成的一种非结构化的流数据，图像帧是视频的最小组成单位。由一系列逻辑相关、时间连续的帧图像组成，描述一个连续动作的视频分块称为视频镜头，视频由一个个镜头衔接而成。获取视频的图像帧就是获取视频的最小组成单位。

S2、获取每一图像帧的像素矩阵。

数字图像可被表示为一个二元函数f(x,y)，其中(x,y)表示图像像素点的坐标，函数f(x,y)的值表示为该坐标的像素的灰度值，一幅M×N的图像可表示为式(1)所示。

S3、获取相邻两帧图像对应像素点的灰度差。

通常在广告视频起始帧处会发生镜头的突变，当视频镜头发生突变时，相邻的图像帧之间对应的像素值会发生很大的变化，并产生一个差值。当差值超过阈值时，即判定镜头发生了突变。相邻两帧图像对应像素点的灰度差定义为式(2)。

d(i,j)＝|f_n+1(i,j)-f_n(i,j)| (2)。

其中，其中f_n+1(i,j)，f_n(i,j)分别为第n+1，第n幅图片坐标为(i，j)处的像素值，即灰度差为相邻两帧图像相同坐标像素点的灰度值的差的绝对值。

S4、获取相邻两帧图像的邻帧像素差

根据步骤S3中获取的相邻两帧图像对应像素点的灰度差，计算相邻两帧图像的邻帧像素差。邻帧像素差定义为式(3)。

S5、判断相邻两帧图像是否发生突变。

将步骤S4中获取的邻帧像素差与第一阈值比较，当邻帧像素差大于第一阈值时，认为图像发生了突变。在两个视频镜头的边界，通常相邻的帧图像内容会发生突变。因此，这种图像发生了突变的点，其可以作为是可能的广告视频起始点。

即若D(f_n,f_n+1)>C₁，因为f_n+1，f_n是第分别为第n+1，第n幅图片的像素值，则认为第n幅图片到第n+1幅图像发生了突变，其中C₁为第一阈值，这两个图片帧之间的时刻t_n，记为图像发生了突变的点。整个视频中所有突变点的集合为T，即T＝{t₁,t₂,...,t_n}。

S6、判断图像帧突变点之间的视频时间长度。

广告的播放时间往往很短。这是由于两方面的原因：第一，普通消费者难以忍受时间较长的广告。第二，过长的广告必然会增加广告投入成本，所以广告一般是以秒计。

因此，可以根据广告片段时长特点，计算步骤5中的相邻图像帧突变点(即集合T中的相邻点)的间隔时间，间隔时间长度小于第二阈值的两个图像突变点间的视频，其可以作为是可能的广告视频片段。

即若t_m+1-t_m<C₂，则t_m到t_m+1之间的视频片段为可能的广告片段，其中C₂为第二阈值。

S7、寻找广告片段中的静止帧。

广告视频中通常或有连续的数帧用于展示产品或商标品牌。为了突出需要广告的产品，这数帧中产品或产品的商标品牌会在画面的核心位置，为了使消费者能清楚的识别产品或品牌，这数帧的画面不会跳变太多，会保持相对静止。

获取步骤S6中判断得出的可能的广告片段中的图像帧，获取这些图像帧的邻帧像素差。将获取的邻帧像素差与第三阈值比较，当邻帧像素差小于第三阈值时，认为图像帧相对静止。

即若则第K幅图像帧和K+1幅图像帧相对静止，其中第K幅图像帧和K+1幅图像帧都是步骤6中判断出的可能的广告片段中的图像帧，C₃为第三阈值。

即若第K幅图像帧和K+n幅图像帧中任意相邻两帧都相对静止，且n>C₄，则从第K幅图像帧到第K+n幅图像帧的连续帧为静止帧，其中C₄为第三阈值。

S8、判断步骤S7中检测出的静止帧中是否包含商标品牌。

爬取现有网络资源中的品牌、商标名称，形成品牌、商标数据库。

对步骤S7中检测出的静止帧进行预处理，包括二值化，噪声去除，倾斜较正，然后对预处理后的帧进行文本识别，检测识别的文本，判断其中是否有品牌、商标数据库中的商标、品牌名称。当其中包含商标、品牌名称时，可以认为这些文本对应的视频片段可以作为是可能的广告视频片段。

S9、对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换，并最终得到音频频谱。

S10、获取音频的窗口平均能量。

音频的窗口平均能量指的是在一个窗口音频窗口内采样点信号的平均能量。窗口平均能量定义如式(4)。

其中，x(i)是采样窗口n内的音频采样信号，N为窗口内音频的信号采样数。

S11、判断静音窗口。

将步骤S10中获取的窗口平均能量与第五阈值比较，当窗口平均能量小于第四阈值时，认为该窗口为静音窗口。静音窗口通常出现于不同视频片段的衔接和切换处，所以这种静音窗口能够很好的定位广告片段的起始点。整个视频中所有静音窗口的集合为S，即S＝{s₁,s₂,...,s_n}。

S12、计算步骤S10中的相邻静音窗口的间隔时间，间隔时间长度小于第二阈值的两个静音窗口间的视频，可以作为是可能的广告视频片段。

即若s_m+1-s_m<C₂，则s_m到s_m+1之间的视频片段为可能的广告片段，其中C₂为第二阈值。

S13、爬取现有网络资源中的品牌、商标的音频，对音频数据进行采样、加窗、分段、常数Q变换，最终得到现有商标品牌的音频频谱。

获取音频频谱中信号的幅值，将获取的幅值与第六阈值比较。保留音频频谱中幅值大于第六阈值的部分，提取这部分信号的频率、幅值、时序，生成音频指纹。音频指纹是一组16位的数据，包含信号的频率、幅值、时序。

用同样的方式，获取步骤S12中判断的可能的广告视频片段的音频指纹。

音频指纹以(code,time)结构进行保存，其中，code,time都是一组连续的数，code包含特征点频率、特征点间距离、特征点幅值，time包含特征点的时序信息；

对现有商标品牌的音频和S12识别的可能的广告片段音频进行音频指纹对比，判断是否具备相同音频指纹特征。具体的比对方法为：提取code相同的特征点，计算这些code相同的特征点对应的time的差值ΔT，遍历整个音频指纹，计算相同的ΔT个数，当相同的ΔT个数超过设定阈值时，认为音频指纹匹配。

其匹配原理可以理解为：如果两段音频相似，则具备大量相同的特征点的(code,time)。故判断两段音频是否相似转变为了如何比较两段音频特征点的(code,time)。我们采取的办法是先比较两段频率中code相同的特征点，再比较time，若两者均对应得上，就能得到两段音频来自于同一人的结论。

但是两段音频的时序可能存在时间轴不一致，即波形在time上的平移，故我们只计算code相同的点的ΔT，当大量code相同且ΔT也相同的特征点出现，且其数量超过设定阈值时，即可视为两段音频相似。

这种通过数相同的ΔT个数的方式，相较于现有技术的直接比较所有(code,time)，减少了运算量。

S14、获取用户的操作记录。操作是指拖动视频播放进度条，操作记录是指用户拖动进度条的起始位置。通常普通用户并不喜欢视频中插播的广告，在遇到广告片段时，可能会采取快进、跳过等操作，因此可以根据大量用户的操作记录来检测广告片段，当大量用户跳过的片段重叠时，可以认为重叠部分是可能的广告片段。

记视频中某个片段被跳过的次数为u，整个视频的播放次数为U，当u/U大于第八阈值时，认为u对应的片段可能是广告片段。

S15、获取步骤S8、步骤S13、步骤S14检测的广告片段，将三者重合的部分作为最终确定为广告片段。

需要注意的是，本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

另外，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书的内容为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种广告识别方法，其特征在于，所述广告识别方法包括如下步骤：

若是，则三者重合的部分为最终确定的广告片段。

2.根据权利要求1所述的广告识别方法，其特征在于，所述根据待识别视频中的视频信息，获取第一待确定广告视频片段，包括如下步骤：

获取待识别视频的所有图像帧；

根据图像帧，获取每一图像帧的像素矩阵；

根据像素矩阵，获取相邻两帧图像对应像素点的灰度差；

3.根据权利要求2所述的广告识别方法，其特征在于，所述根据待识别视频中的视频信息，获取第一待确定广告视频片段，还包括如下步骤：

获取视频片段中的静止帧；

判断静止帧中是否包含商标和/或品牌名称；

若是，则确定该视频片段为所述第一待确定广告视频片段。

4.根据权利要求2所述的广告识别方法，其特征在于，所述判断相邻两帧图像是否发生突变，获取整个视频中所有突变点的集合，包括如下步骤：

5.根据权利要求2所述的广告识别方法，其特征在于，所述根据相邻突变点之间的视频时间长度，获取第一待确定广告视频片段，包括如下步骤：

6.根据权利要求3所述的广告识别方法，其特征在于，所述判断静止帧中是否包含商标和/或品牌名称包括如下步骤：

获取广告片段中的图像帧，获取这些图像帧的邻帧像素差；

7.根据权利要求1所述的广告识别方法，其特征在于，所述根据待识别视频中的音频信息，获取第二待确定广告视频片段，包括如下步骤：

获取音频频谱；

获取音频的窗口平均能量；

8.根据权利要求7所述的广告识别方法，其特征在于，所述根据待识别视频中的音频信息，获取第二待确定广告视频片段，还包括如下步骤：

获取现有商标、品牌的音频频谱，生成第一音频指纹；

获取视频片段的第二音频指纹；

9.根据权利要求8所述的广告识别方法，其特征在于，所述判断静音窗口，获取整个视频中所有静音窗口的集合包括如下步骤：

获取视频片段的第二音频指纹包括如下步骤：

10.根据权利要求1所述的广告识别方法，其特征在于，所述根据用户对待识别视频的操作记录，获取第三待确定广告视频片段，包括如下步骤：

获取用户拖动进度条、快进或跳过的操作记录；