CN116662608A - 一种广告识别方法 - Google Patents
一种广告识别方法 Download PDFInfo
- Publication number
- CN116662608A CN116662608A CN202310606354.XA CN202310606354A CN116662608A CN 116662608 A CN116662608 A CN 116662608A CN 202310606354 A CN202310606354 A CN 202310606354A CN 116662608 A CN116662608 A CN 116662608A
- Authority
- CN
- China
- Prior art keywords
- video
- advertisement
- acquiring
- determined
- adjacent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000012634 fragment Substances 0.000 claims abstract description 23
- 230000003068 static effect Effects 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000035772 mutation Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000005070 sampling Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例公开了一种广告识别方法。所述广告识别方法包括如下步骤:根据待识别视频中的视频信息,获取第一待确定广告视频片段;根据待识别视频中的音频信息,获取第二待确定广告视频片段;根据用户对待识别视频的操作记录,获取第三待确定广告视频片段;判断所述第一待确定广告视频片段、所述第二待确定广告视频片段和所述第三待确定广告视频片段是否有重合的视频片段;若是,则三者重合的部分为最终确定的广告片段。本发明实施例的广告识别方法从视频、音频、用户操作三个角度共同确定广告片段,应用范围广,适用于各种视频。需求数据库资源不多,计算量较小。多个维度检测,精确度有保证。
Description
技术领域
本发明涉及广告识别相关技术领域,具体地说是涉及一种广告识别方法。
背景技术
在当前新媒体的快速发展中,数字化视频已然成为人们生活中无法缺少的信息载体,作为商业手段中极为关键的视频广告,更是新媒体背景下数字化视频应用的关键构成部分。但是面对如此浩瀚的视频数据,如何快速的识别和检测视频广告段的问题函需解决。例如,对于投放广告的企业,需要通过广告的识别和检测系统来确定自己的广告是否在视频中按照之前的签订的合同进行播放;对于广告公司,他们希望能够收集更多的优秀的广告,从而可以对各种各样的广告进行研究或者建立自己的视频广告数据库,以便对广告进行分析,从而制作出更有影响力,更有宣传效果的广告;对于普通消费者,需要跳过他们不感兴趣的广告部分;对于监管机构,他们想对广告进行监控,也需要快速地从视频中检测出广告片段。现有技术中最常见的是通过人工进行广告识别和审核。也有人提出提取现有数据库中的广告视频片段的特征信息,然后将待确定视频的特征和广告数据库里面的广告视频段或音频段的特征逐一进行比较,进而可以判断待确定视频是否为数据库里面的广告。
现有技术中最常见的是通过人工进行广告识别和审核,但存在效率低、易出错的缺陷。有人提出预先在广告片段中嵌入特定的水印,根据嵌入的特定水印识别广告,但目前业界并没有统一的广告识别规则与协议,通常广告商也没有在制作广告视频时嵌入水印,因此该方法应用范围较小。另外,也有人提出提取现有数据库中的广告视频片段的特征信息,然后将待确定视频的特征和广告数据库里面的广告视频段或音频段的特征逐一进行比较,进而可以判断待确定视频是否为数据库里面的广告,但该方法中,数据库包含的视频数量和质量很大程度上影响了识别精度,若想要达到较好的识别效果,对数据库的质量要求较高。
发明内容
针对现有技术之不足,本发明公开了一种广告识别方法。
所述广告识别方法包括如下步骤:
根据待识别视频中的视频信息,获取第一待确定广告视频片段;
根据待识别视频中的音频信息,获取第二待确定广告视频片段;
根据用户对待识别视频的操作记录,获取第三待确定广告视频片段;
判断所述第一待确定广告视频片段、所述第二待确定广告视频片段和所述第三待确定广告视频片段是否有重合的视频片段;
若是,则三者重合的部分为最终确定的广告片段。
根据本发明的一个优选实施方式,所述根据待识别视频中的视频信息,获取第一待确定广告视频片段,包括如下步骤:
获取待识别视频的所有图像帧;
根据图像帧,获取每一图像帧的像素矩阵;
根据像素矩阵,获取相邻两帧图像对应像素点的灰度差;
根据相邻两帧图像对应像素点的灰度差,获取相邻两帧图像的邻帧像素差;
根据邻帧像素差,判断相邻两帧图像是否发生突变,获取整个视频中所有突变点的集合;
根据相邻突变点之间的视频时间长度,获取第一待确定广告视频片段。
根据本发明的一个优选实施方式,所述根据待识别视频中的视频信息,获取第一待确定广告视频片段,还包括如下步骤:
获取视频片段中的静止帧;
判断静止帧中是否包含商标和/或品牌名称;
若是,则确定该视频片段为所述第一待确定广告视频片段。
根据本发明的一个优选实施方式,所述判断相邻两帧图像是否发生突变,获取整个视频中所有突变点的集合,包括如下步骤:
将获取的邻帧像素差与第一阈值比较,当邻帧像素差大于第一阈值时,认定图像发生了突变。
根据本发明的一个优选实施方式,所述根据相邻突变点之间的视频时间长度,获取第一待确定广告视频片段,包括如下步骤:
计算相邻图像帧突变点的间隔时间,间隔时间长度小于第二阈值的两个图像突变点间的视频为第一待确定广告视频片段。
根据本发明的一个优选实施方式,所述判断静止帧中是否包含商标和/或品牌名称包括如下步骤:
获取广告片段中的图像帧,获取这些图像帧的邻帧像素差;
将获取的邻帧像素差与第三阈值比较,当邻帧像素差小于第三阈值时,认定图像帧相对静止;
获取连续的相对静止帧,计算连续帧数,当连续帧数超过第四阈值时,认为这些连续帧为静止帧。
根据本发明的一个优选实施方式,所述根据待识别视频中的音频信息,获取第二待确定广告视频片段,包括如下步骤:
获取音频频谱;
获取音频的窗口平均能量;
根据音频的窗口平均能量,判断静音窗口,获取整个视频中所有静音窗口的集合;
根据相邻静音窗口的间隔时间,获取第二待确定广告视频片段。
根据本发明的一个优选实施方式,所述根据待识别视频中的音频信息,获取第二待确定广告视频片段,还包括如下步骤:
获取现有商标、品牌的音频频谱,生成第一音频指纹;
获取视频片段的第二音频指纹;
比较第一音频指纹和第二音频指纹,若存在相似的音频指纹的部分,则,获取这部分相似的音频指纹的视频片段为第二待确定广告视频片段。
根据本发明的一个优选实施方式,所述判断静音窗口,获取整个视频中所有静音窗口的集合包括如下步骤:
将获取的窗口平均能量与第五阈值比较,当窗口平均能量小于第四阈值时,认定该窗口为静音窗口;
根据相邻静音窗口的间隔时间,获取第二待确定广告视频片段,包括如下步骤:
计算相邻静音窗口的间隔时间,间隔时间长度小于第二阈值的两个静音窗口间的视频为第二待确定广告视频片段;
获取视频片段的第二音频指纹包括如下步骤:
获取音频频谱中信号的幅值,将获取的幅值与第六阈值比较;
保留音频频谱中幅值大于第六阈值的部分,提取这部分信号的频率、幅值、时序,生成音频指纹。
根据本发明的一个优选实施方式,所述根据用户对待识别视频的操作记录,获取第三待确定广告视频片段,包括如下步骤:
获取用户拖动进度条、快进或跳过的操作记录;
记视频中某个片段被拖动进度条、快进或跳过的次数为u,整个视频的播放次数为U,当u/U大于第八阈值时,确定u对应的片段为第三待确定广告视频片段。
本发明实施例提供的广告识别方法中的上述一个或多个技术方案至少具有如下技术效果之一:
本发明实施例的广告识别方法从视频、音频、用户操作三个角度共同确定广告片段,应用范围广,适用于各种视频。需求数据库资源不多,计算量较小。多个维度检测,精确度有保证。
本发明的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的检查或者对实施例的生产或操作的了解,本发明的一部分附加特性对于本领域技术人员是明显的。本发明披露的特性可以通过对以下描述的具体实施例的各种方法、手段和组合的实践或使用得以实现和达到。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,如果本发明的说明书和权利要求书中涉及到术语“第一”、“第二”等,其是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,如果涉及到术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明实施例公开了一种广告识别方法。
该广告识别方法包括如下步骤:
根据待识别视频中的视频信息,获取第一待确定广告视频片段。
根据待识别视频中的音频信息,获取第二待确定广告视频片段。
根据用户对待识别视频的操作记录,获取第三待确定广告视频片段。
判断第一待确定广告视频片段、第二待确定广告视频片段和第三待确定广告视频片段是否有重合的视频片段。
若是,则三者重合的部分为最终确定的广告片段。
其中,根据待识别视频中的视频信息,获取第一待确定广告视频片段,包括如下步骤:
获取待识别视频的所有图像帧。
根据图像帧,获取每一图像帧的像素矩阵。
根据像素矩阵,获取相邻两帧图像对应像素点的灰度差。
根据相邻两帧图像对应像素点的灰度差,获取相邻两帧图像的邻帧像素差。
根据邻帧像素差,判断相邻两帧图像是否发生突变,获取整个视频中所有突变点的集合。
根据相邻突变点之间的视频时间长度,获取第一待确定广告视频片段。
进一步的,根据待识别视频中的视频信息,获取第一待确定广告视频片段,还包括如下步骤:
获取视频片段中的静止帧。
判断静止帧中是否包含商标和/或品牌名称。
若是,则确定该视频片段为第一待确定广告视频片段。
其中,判断相邻两帧图像是否发生突变,获取整个视频中所有突变点的集合,包括如下步骤:
将获取的邻帧像素差与第一阈值比较,当邻帧像素差大于第一阈值时,认定图像发生了突变。
其中,根据相邻突变点之间的视频时间长度,获取第一待确定广告视频片段,包括如下步骤:
计算相邻图像帧突变点的间隔时间,间隔时间长度小于第二阈值的两个图像突变点间的视频为第一待确定广告视频片段。
其中,判断静止帧中是否包含商标和/或品牌名称包括如下步骤:
获取广告片段中的图像帧,获取这些图像帧的邻帧像素差。
将获取的邻帧像素差与第三阈值比较,当邻帧像素差小于第三阈值时,认定图像帧相对静止。
获取连续的相对静止帧,计算连续帧数,当连续帧数超过第四阈值时,认为这些连续帧为静止帧。
其中,根据待识别视频中的音频信息,获取第二待确定广告视频片段,包括如下步骤:
获取音频频谱。
获取音频的窗口平均能量。
根据音频的窗口平均能量,判断静音窗口,获取整个视频中所有静音窗口的集合。
根据相邻静音窗口的间隔时间,获取第二待确定广告视频片段。
进一步的,根据待识别视频中的音频信息,获取第二待确定广告视频片段,还包括如下步骤:
获取现有商标、品牌的音频频谱,生成第一音频指纹。
获取视频片段的第二音频指纹。
比较第一音频指纹和第二音频指纹,若存在相似的音频指纹的部分,则,获取这部分相似的音频指纹的视频片段为第二待确定广告视频片段。
其中,判断静音窗口,获取整个视频中所有静音窗口的集合包括如下步骤:
将获取的窗口平均能量与第五阈值比较,当窗口平均能量小于第四阈值时,认定该窗口为静音窗口。
其中,根据相邻静音窗口的间隔时间,获取第二待确定广告视频片段,包括如下步骤:
其中,计算相邻静音窗口的间隔时间,间隔时间长度小于第二阈值的两个静音窗口间的视频为第二待确定广告视频片段。
获取视频片段的第二音频指纹包括如下步骤:
获取音频频谱中信号的幅值,将获取的幅值与第六阈值比较。
保留音频频谱中幅值大于第六阈值的部分,提取这部分信号的频率、幅值、时序,生成音频指纹。
其中,根据用户对待识别视频的操作记录,获取第三待确定广告视频片段,包括如下步骤:
获取用户拖动进度条、快进或跳过的操作记录。
记视频中某个片段被拖动进度条、快进或跳过的次数为u,整个视频的播放次数为U,当u/U大于第八阈值时,确定u对应的片段为第三待确定广告视频片段。
下面通过一个具体实施例对本发明进行更为具体的说明。
一种广告识别方法,其包括如下步骤:
S1、获取待分段视频,获取视频的所有图像帧。
视频是由一系列的帧图像所组成的一种非结构化的流数据,图像帧是视频的最小组成单位。由一系列逻辑相关、时间连续的帧图像组成,描述一个连续动作的视频分块称为视频镜头,视频由一个个镜头衔接而成。获取视频的图像帧就是获取视频的最小组成单位。
S2、获取每一图像帧的像素矩阵。
数字图像可被表示为一个二元函数f(x,y),其中(x,y)表示图像像素点的坐标,函数f(x,y)的值表示为该坐标的像素的灰度值,一幅M×N的图像可表示为式(1)所示。
S3、获取相邻两帧图像对应像素点的灰度差。
通常在广告视频起始帧处会发生镜头的突变,当视频镜头发生突变时,相邻的图像帧之间对应的像素值会发生很大的变化,并产生一个差值。当差值超过阈值时,即判定镜头发生了突变。相邻两帧图像对应像素点的灰度差定义为式(2)。
d(i,j)=|fn+1(i,j)-fn(i,j)| (2)。
其中,其中fn+1(i,j),fn(i,j)分别为第n+1,第n幅图片坐标为(i,j)处的像素值,即灰度差为相邻两帧图像相同坐标像素点的灰度值的差的绝对值。
S4、获取相邻两帧图像的邻帧像素差
根据步骤S3中获取的相邻两帧图像对应像素点的灰度差,计算相邻两帧图像的邻帧像素差。邻帧像素差定义为式(3)。
S5、判断相邻两帧图像是否发生突变。
将步骤S4中获取的邻帧像素差与第一阈值比较,当邻帧像素差大于第一阈值时,认为图像发生了突变。在两个视频镜头的边界,通常相邻的帧图像内容会发生突变。因此,这种图像发生了突变的点,其可以作为是可能的广告视频起始点。
即若D(fn,fn+1)>C1,因为fn+1,fn是第分别为第n+1,第n幅图片的像素值,则认为第n幅图片到第n+1幅图像发生了突变,其中C1为第一阈值,这两个图片帧之间的时刻tn,记为图像发生了突变的点。整个视频中所有突变点的集合为T,即T={t1,t2,...,tn}。
S6、判断图像帧突变点之间的视频时间长度。
广告的播放时间往往很短。这是由于两方面的原因:第一,普通消费者难以忍受时间较长的广告。第二,过长的广告必然会增加广告投入成本,所以广告一般是以秒计。
因此,可以根据广告片段时长特点,计算步骤5中的相邻图像帧突变点(即集合T中的相邻点)的间隔时间,间隔时间长度小于第二阈值的两个图像突变点间的视频,其可以作为是可能的广告视频片段。
即若tm+1-tm<C2,则tm到tm+1之间的视频片段为可能的广告片段,其中C2为第二阈值。
S7、寻找广告片段中的静止帧。
广告视频中通常或有连续的数帧用于展示产品或商标品牌。为了突出需要广告的产品,这数帧中产品或产品的商标品牌会在画面的核心位置,为了使消费者能清楚的识别产品或品牌,这数帧的画面不会跳变太多,会保持相对静止。
获取步骤S6中判断得出的可能的广告片段中的图像帧,获取这些图像帧的邻帧像素差。将获取的邻帧像素差与第三阈值比较,当邻帧像素差小于第三阈值时,认为图像帧相对静止。
即若则第K幅图像帧和K+1幅图像帧相对静止,其中第K幅图像帧和K+1幅图像帧都是步骤6中判断出的可能的广告片段中的图像帧,C3为第三阈值。
获取连续的相对静止帧,计算连续帧数,当连续帧数超过第四阈值时,认为这些连续帧为静止帧。
即若第K幅图像帧和K+n幅图像帧中任意相邻两帧都相对静止,且n>C4,则从第K幅图像帧到第K+n幅图像帧的连续帧为静止帧,其中C4为第三阈值。
S8、判断步骤S7中检测出的静止帧中是否包含商标品牌。
爬取现有网络资源中的品牌、商标名称,形成品牌、商标数据库。
对步骤S7中检测出的静止帧进行预处理,包括二值化,噪声去除,倾斜较正,然后对预处理后的帧进行文本识别,检测识别的文本,判断其中是否有品牌、商标数据库中的商标、品牌名称。当其中包含商标、品牌名称时,可以认为这些文本对应的视频片段可以作为是可能的广告视频片段。
S9、对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换,并最终得到音频频谱。
S10、获取音频的窗口平均能量。
音频的窗口平均能量指的是在一个窗口音频窗口内采样点信号的平均能量。窗口平均能量定义如式(4)。
其中,x(i)是采样窗口n内的音频采样信号,N为窗口内音频的信号采样数。
S11、判断静音窗口。
将步骤S10中获取的窗口平均能量与第五阈值比较,当窗口平均能量小于第四阈值时,认为该窗口为静音窗口。静音窗口通常出现于不同视频片段的衔接和切换处,所以这种静音窗口能够很好的定位广告片段的起始点。整个视频中所有静音窗口的集合为S,即S={s1,s2,...,sn}。
S12、计算步骤S10中的相邻静音窗口的间隔时间,间隔时间长度小于第二阈值的两个静音窗口间的视频,可以作为是可能的广告视频片段。
即若sm+1-sm<C2,则sm到sm+1之间的视频片段为可能的广告片段,其中C2为第二阈值。
S13、爬取现有网络资源中的品牌、商标的音频,对音频数据进行采样、加窗、分段、常数Q变换,最终得到现有商标品牌的音频频谱。
获取音频频谱中信号的幅值,将获取的幅值与第六阈值比较。保留音频频谱中幅值大于第六阈值的部分,提取这部分信号的频率、幅值、时序,生成音频指纹。音频指纹是一组16位的数据,包含信号的频率、幅值、时序。
用同样的方式,获取步骤S12中判断的可能的广告视频片段的音频指纹。
音频指纹以(code,time)结构进行保存,其中,code,time都是一组连续的数,code包含特征点频率、特征点间距离、特征点幅值,time包含特征点的时序信息;
对现有商标品牌的音频和S12识别的可能的广告片段音频进行音频指纹对比,判断是否具备相同音频指纹特征。具体的比对方法为:提取code相同的特征点,计算这些code相同的特征点对应的time的差值ΔT,遍历整个音频指纹,计算相同的ΔT个数,当相同的ΔT个数超过设定阈值时,认为音频指纹匹配。
其匹配原理可以理解为:如果两段音频相似,则具备大量相同的特征点的(code,time)。故判断两段音频是否相似转变为了如何比较两段音频特征点的(code,time)。我们采取的办法是先比较两段频率中code相同的特征点,再比较time,若两者均对应得上,就能得到两段音频来自于同一人的结论。
但是两段音频的时序可能存在时间轴不一致,即波形在time上的平移,故我们只计算code相同的点的ΔT,当大量code相同且ΔT也相同的特征点出现,且其数量超过设定阈值时,即可视为两段音频相似。
这种通过数相同的ΔT个数的方式,相较于现有技术的直接比较所有(code,time),减少了运算量。
S14、获取用户的操作记录。操作是指拖动视频播放进度条,操作记录是指用户拖动进度条的起始位置。通常普通用户并不喜欢视频中插播的广告,在遇到广告片段时,可能会采取快进、跳过等操作,因此可以根据大量用户的操作记录来检测广告片段,当大量用户跳过的片段重叠时,可以认为重叠部分是可能的广告片段。
记视频中某个片段被跳过的次数为u,整个视频的播放次数为U,当u/U大于第八阈值时,认为u对应的片段可能是广告片段。
S15、获取步骤S8、步骤S13、步骤S14检测的广告片段,将三者重合的部分作为最终确定为广告片段。
本发明实施例的广告识别方法从视频、音频、用户操作三个角度共同确定广告片段,应用范围广,适用于各种视频。需求数据库资源不多,计算量较小。多个维度检测,精确度有保证。
需要注意的是,本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
另外,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书的内容为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (10)
1.一种广告识别方法,其特征在于,所述广告识别方法包括如下步骤:
根据待识别视频中的视频信息,获取第一待确定广告视频片段;
根据待识别视频中的音频信息,获取第二待确定广告视频片段;
根据用户对待识别视频的操作记录,获取第三待确定广告视频片段;
判断所述第一待确定广告视频片段、所述第二待确定广告视频片段和所述第三待确定广告视频片段是否有重合的视频片段;
若是,则三者重合的部分为最终确定的广告片段。
2.根据权利要求1所述的广告识别方法,其特征在于,所述根据待识别视频中的视频信息,获取第一待确定广告视频片段,包括如下步骤:
获取待识别视频的所有图像帧;
根据图像帧,获取每一图像帧的像素矩阵;
根据像素矩阵,获取相邻两帧图像对应像素点的灰度差;
根据相邻两帧图像对应像素点的灰度差,获取相邻两帧图像的邻帧像素差;
根据邻帧像素差,判断相邻两帧图像是否发生突变,获取整个视频中所有突变点的集合;
根据相邻突变点之间的视频时间长度,获取第一待确定广告视频片段。
3.根据权利要求2所述的广告识别方法,其特征在于,所述根据待识别视频中的视频信息,获取第一待确定广告视频片段,还包括如下步骤:
获取视频片段中的静止帧;
判断静止帧中是否包含商标和/或品牌名称;
若是,则确定该视频片段为所述第一待确定广告视频片段。
4.根据权利要求2所述的广告识别方法,其特征在于,所述判断相邻两帧图像是否发生突变,获取整个视频中所有突变点的集合,包括如下步骤:
将获取的邻帧像素差与第一阈值比较,当邻帧像素差大于第一阈值时,认定图像发生了突变。
5.根据权利要求2所述的广告识别方法,其特征在于,所述根据相邻突变点之间的视频时间长度,获取第一待确定广告视频片段,包括如下步骤:
计算相邻图像帧突变点的间隔时间,间隔时间长度小于第二阈值的两个图像突变点间的视频为第一待确定广告视频片段。
6.根据权利要求3所述的广告识别方法,其特征在于,所述判断静止帧中是否包含商标和/或品牌名称包括如下步骤:
获取广告片段中的图像帧,获取这些图像帧的邻帧像素差;
将获取的邻帧像素差与第三阈值比较,当邻帧像素差小于第三阈值时,认定图像帧相对静止;
获取连续的相对静止帧,计算连续帧数,当连续帧数超过第四阈值时,认为这些连续帧为静止帧。
7.根据权利要求1所述的广告识别方法,其特征在于,所述根据待识别视频中的音频信息,获取第二待确定广告视频片段,包括如下步骤:
获取音频频谱;
获取音频的窗口平均能量;
根据音频的窗口平均能量,判断静音窗口,获取整个视频中所有静音窗口的集合;
根据相邻静音窗口的间隔时间,获取第二待确定广告视频片段。
8.根据权利要求7所述的广告识别方法,其特征在于,所述根据待识别视频中的音频信息,获取第二待确定广告视频片段,还包括如下步骤:
获取现有商标、品牌的音频频谱,生成第一音频指纹;
获取视频片段的第二音频指纹;
比较第一音频指纹和第二音频指纹,若存在相似的音频指纹的部分,则,获取这部分相似的音频指纹的视频片段为第二待确定广告视频片段。
9.根据权利要求8所述的广告识别方法,其特征在于,所述判断静音窗口,获取整个视频中所有静音窗口的集合包括如下步骤:
将获取的窗口平均能量与第五阈值比较,当窗口平均能量小于第四阈值时,认定该窗口为静音窗口;
根据相邻静音窗口的间隔时间,获取第二待确定广告视频片段,包括如下步骤:
计算相邻静音窗口的间隔时间,间隔时间长度小于第二阈值的两个静音窗口间的视频为第二待确定广告视频片段;
获取视频片段的第二音频指纹包括如下步骤:
获取音频频谱中信号的幅值,将获取的幅值与第六阈值比较;
保留音频频谱中幅值大于第六阈值的部分,提取这部分信号的频率、幅值、时序,生成音频指纹。
10.根据权利要求1所述的广告识别方法,其特征在于,所述根据用户对待识别视频的操作记录,获取第三待确定广告视频片段,包括如下步骤:
获取用户拖动进度条、快进或跳过的操作记录;
记视频中某个片段被拖动进度条、快进或跳过的次数为u,整个视频的播放次数为U,当u/U大于第八阈值时,确定u对应的片段为第三待确定广告视频片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606354.XA CN116662608A (zh) | 2023-05-26 | 2023-05-26 | 一种广告识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606354.XA CN116662608A (zh) | 2023-05-26 | 2023-05-26 | 一种广告识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662608A true CN116662608A (zh) | 2023-08-29 |
Family
ID=87723594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310606354.XA Pending CN116662608A (zh) | 2023-05-26 | 2023-05-26 | 一种广告识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662608A (zh) |
-
2023
- 2023-05-26 CN CN202310606354.XA patent/CN116662608A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7336890B2 (en) | Automatic detection and segmentation of music videos in an audio/video stream | |
EP2191400B1 (en) | Detection and classification of matches between time-based media | |
US6928233B1 (en) | Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal | |
JP4418748B2 (ja) | ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法 | |
US7327885B2 (en) | Method for detecting short term unusual events in videos | |
US8340498B1 (en) | Extraction of text elements from video content | |
JP2005513663A (ja) | コマーシャル及び他のビデオ内容の検出用のファミリーヒストグラムに基づく技術 | |
US20070220265A1 (en) | Searching for a scaling factor for watermark detection | |
CN106792005B (zh) | 一种基于音视频结合的内容检测方法 | |
US10779036B1 (en) | Automated identification of product or brand-related metadata candidates for a commercial using consistency between audio and image elements of products or brands detected in commercials | |
JP2009544985A (ja) | コンピュータによって実施されるビデオをセグメント化する方法 | |
CN109615440B (zh) | 直接反应广告检测及分类系统及方法 | |
CN112699787B (zh) | 一种广告插入时间点的检测方法及装置 | |
JP2011504034A (ja) | オーディオビジュアル信号における意味的なまとまりの開始点を決定する方法 | |
CN112434185B (zh) | 一种查找相似视频片段的方法、系统、服务器及存储介质 | |
Zhang et al. | Detecting sound events in basketball video archive | |
US8116462B2 (en) | Method and system of real-time identification of an audiovisual advertisement in a data stream | |
US10237610B1 (en) | Automated identification of product or brand-related metadata candidates for a commercial using persistence of product or brand-related text or objects in video frames of the commercial | |
US10271095B1 (en) | System and method for media segment indentification | |
KR101068288B1 (ko) | 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법 | |
CN116662608A (zh) | 一种广告识别方法 | |
US10306304B1 (en) | Automated identification of product or brand-related metadata candidates for a commercial using dominance and prominence of product or brand-related text or objects in video frames of the commercial | |
US10945030B2 (en) | Detection of potential commercial by detection and analysis of transitions in video content | |
JP3730179B2 (ja) | 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体 | |
US20060092327A1 (en) | Story segmentation method for video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |