CN112699787A - 一种广告插入时间点的检测方法及装置 - Google Patents

一种广告插入时间点的检测方法及装置 Download PDF

Info

Publication number
CN112699787A
CN112699787A CN202011604397.7A CN202011604397A CN112699787A CN 112699787 A CN112699787 A CN 112699787A CN 202011604397 A CN202011604397 A CN 202011604397A CN 112699787 A CN112699787 A CN 112699787A
Authority
CN
China
Prior art keywords
target
key frame
video
subtitle
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011604397.7A
Other languages
English (en)
Other versions
CN112699787B (zh
Inventor
杨杰
吴振港
宋施恩
罗思伟
胡玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan MgtvCom Interactive Entertainment Media Co Ltd
Original Assignee
Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan MgtvCom Interactive Entertainment Media Co Ltd filed Critical Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority to CN202011604397.7A priority Critical patent/CN112699787B/zh
Publication of CN112699787A publication Critical patent/CN112699787A/zh
Application granted granted Critical
Publication of CN112699787B publication Critical patent/CN112699787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种广告插入时间点的检测方法及装置,根据视频类型从目标视频中截取出能够插入广告的视频时段对应的目标视频片段,采用分镜算法将目标视频片段划分为多个分镜视频片段,并基于每个分镜视频片段的边缘关键帧确定所有的候选关键帧组,从所有的候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,基于每个目标关键帧组关键帧组权重值和表征视频相似度衡量标准的相似度得分,将作为广告插入时间点的排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。本发明实现了对影视节目中广告插入时间点的自动检测,因此降低了人力时间成本。

Description

一种广告插入时间点的检测方法及装置
技术领域
本发明涉及广告处理技术领域,更具体的说,涉及一种广告插入时间点的检测方法及装置。
背景技术
中插广告是在影视节目播放过程中插入广告的一种广告投放形式。对于中插广告而言,最为关键的技术是找到合适的广告插入时间点。广告插入时间点的选取要求广告插入前后的视频镜头完整、剧情分割和声音字幕不粘连等,保证广告插入的同时不影响用户的观感体验。
传统的中插广告主要依靠人工观看视频检测合适的广告插入时间点,进而对检测到的广告插入时间点进行标记后插入广告。因此,传统检测方案需要耗费大量的人力资源与时间成本。
发明内容
有鉴于此,本发明公开一种广告插入时间点的检测方法及装置,以实现对影视节目中广告插入时间点的自动检测,降低人力时间成本。
一种广告插入时间点的检测方法,包括:
根据待插入广告的目标视频的视频类型,从所述目标视频中截取出相应目标时段的目标视频片段,所述目标时段为:能够插入广告的视频时段;
采用分镜算法将所述目标视频片段划分为多个分镜视频片段,并基于每个所述分镜视频片段的边缘关键帧确定所有的候选关键帧组,所述边缘关键帧包括:首帧和尾帧,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成;
从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组;
基于每个所述目标关键帧组所在声音片段为静音的持续时间以及所在字幕片段为无字幕的持续时间,确定每个所述目标关键帧组的关键帧组权重值;
基于每个所述目标关键帧组对应的图像特征向量,确定每个所述目标关键帧组的表征视频相似度衡量标准的相似度得分;
基于每个所述目标关键帧组的所述关键帧组权重值和所述相似度得分,确定每个所述目标关键帧组所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。
可选的,所述从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,具体包括:
采用声音事件检测算法对所述目标视频进行声音事件检测,按照不同的声音事件对所述目标视频进行片段划分,并对划分得到的每个声音片段标注起始时间、结束时间和声音事件标签;
采用预先训练得到的字幕检测网络,对所述目标视频进行字幕检测,按照视频画面有无字幕对所述目标视频进行片段划分,并对划分得到的字幕片段标注字幕有无标签;
从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为所述目标关键帧组。
可选的,所述声音事件包括:人声、音乐和静音三个声音事件。
可选的,基于每个目标关键帧组对应的图像特征向量,确定每个目标关键帧组的表征视频相似度衡量标准的相似度得分,具体包括:
将每个所述目标关键帧组对应的首帧图像和尾帧图像,分为输入至场景分类网络,得到首帧图像特征向量和尾帧图像特征向量,所述图像特征向量包括:首帧图像特征向量和尾帧图像特征向量;
计算所述首帧图像特征向量和所述尾帧图像特征向量的余弦相似度;
将所述余弦相似度确定为对应目标关键帧组的相似度得分。
可选的,所述排序值的计算公式如下:
rank_score=0.6*(1/cos_score)+0.4*framegroup_wight;
式中,rank_score为所述排序值,cos_score为所述相似度得分,framegroup_wight为所述关键帧组权重值。
一种广告插入时间点的检测装置,包括:
视频截取单元,用于根据待插入广告的目标视频的视频类型,从所述目标视频中截取出相应目标时段的目标视频片段,所述目标时段为:能够插入广告的视频时段;
视频划分单元,用于采用分镜算法将所述目标视频片段划分为多个分镜视频片段,并基于每个所述分镜视频片段的边缘关键帧确定所有的候选关键帧组,所述边缘关键帧包括:首帧和尾帧,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成;
筛选单元,用于从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组;
权重值确定单元,用于基于每个所述目标关键帧组所在声音片段为静音的持续时间以及所在字幕片段为无字幕的持续时间,确定每个所述目标关键帧组的关键帧组权重值;
相似度得分确定单元,用于基于每个所述目标关键帧组对应的图像特征向量,确定每个所述目标关键帧组的表征视频相似度衡量标准的相似度得分;
广告插入时间点确定单元,用于基于每个所述目标关键帧组的所述关键帧组权重值和所述相似度得分,确定每个所述目标关键帧组所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。
可选的,所述筛选单元具体包括:
声音划分子单元,用于采用声音事件检测算法对所述目标视频进行声音事件检测,按照不同的声音事件对所述目标视频进行片段划分,并对划分得到的每个声音片段标注起始时间、结束时间和声音事件标签;
字幕划分子单元,用于采用预先训练得到的字幕检测网络,对所述目标视频进行字幕检测,按照视频画面有无字幕对所述目标视频进行片段划分,并对划分得到的字幕片段标注字幕有无标签;
筛选子单元,用于从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为所述目标关键帧组。
可选的,所述声音事件包括:人声、音乐和静音三个声音事件。
可选的,所述相似度得分确定单元具体包括:
图像特征向量获取子单元,用于将每个所述目标关键帧组对应的首帧图像和尾帧图像,分为输入至场景分类网络,得到首帧图像特征向量和尾帧图像特征向量,所述图像特征向量包括:首帧图像特征向量和尾帧图像特征向量;
相似度计算子单元,用于计算所述首帧图像特征向量和所述尾帧图像特征向量的余弦相似度;
相似度得分确定子单元,用于将所述余弦相似度确定为对应目标关键帧组的相似度得分。
可选的,所述排序值的计算公式如下:
rank_score=0.6*(1/cos_score)+0.4*framegroup_wight;
式中,rank_score为所述排序值,cos_score为所述相似度得分,framegroup_wight为所述关键帧组权重值。
从上述的技术方案可知,本发明公开了一种广告插入时间点的检测方法及装置,根据待插入广告的目标视频的视频类型,从目标视频中截取出能够插入广告的视频时段对应的目标视频片段,采用分镜算法将目标视频片段划分为多个分镜视频片段,并基于每个分镜视频片段的边缘关键帧确定所有的候选关键帧组,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成,从所有的候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,基于每个目标关键帧组关键帧组权重值和表征视频相似度衡量标准的相似度得分,确定每个目标关键帧组的所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。由此可以看出,本发明实现了对影视节目中广告插入时间点的自动检测,因此降低了人力时间成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种广告插入时间点的检测方法流程图;
图2为本发明实施例公开的一种广告插入时间点的检测流程示意图;
图3为本发明实施例公开的一种从所有的候选关键帧组中,筛选出处于静音片段且画面无字幕的候选关键帧组作为目标关键帧组的方法流程图;
图4为本发明实施例公开的一种基于每个目标关键帧组对应的图像特征向量,确定每个目标关键帧组的表征视频相似度衡量标准的相似度得分的方法流程图;
图5为本发明实施例公开的一种广告插入时间点的检测装置的结构示意图;
图6为本发明实施例公开的一种筛选单元的结构示意图;
图7为本发明实施例公开的一种相似度得分确定单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种广告插入时间点的检测方法及装置,根据待插入广告的目标视频的视频类型,从目标视频中截取出能够插入广告的视频时段对应的目标视频片段,采用分镜算法将目标视频片段划分为多个分镜视频片段,并基于每个分镜视频片段的边缘关键帧确定所有的候选关键帧组,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成,从所有的候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,基于每个目标关键帧组关键帧组权重值和表征视频相似度衡量标准的相似度得分,确定每个目标关键帧组的所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。由此可以看出,本发明实现了对影视节目中广告插入时间点的自动检测,因此降低了人力时间成本。
另外,相对于人工标注广告插入时间点的精度有限,很难精确到帧级别,容易造成场景画面的粘连而言,本发明整个检测过程可以精确到帧级别,因此,可以实现广告插入前后画面独立完善,剧情完整,声音字幕不粘连,保证广告插入的有效性,从而在丰富广告库存的同时保障用户的观感体验。
参见图1,本发明实施例公开过的一种广告插入时间点的检测方法流程图,该方法包括:
步骤S101、根据待插入广告的目标视频的视频类型,从所述目标视频中截取出相应目标时段的目标视频片段;
其中,目标时段为:能够插入广告的视频时段。
具体的,从媒体资产数据库中获取待插入广告的目标视频以及视频类别后,根据所述目标视频的视频类型,比如,电视剧或综艺节目等,从所述目标视频中截取出目标时段的目标视频片段。
由于不同的视频类型对应的广告插入时间不同,比如,电视剧的广告插入时间段为10-15分钟与25-25分钟,综艺节目的广告插入时间段为20-25分钟、35-45分钟和50-60分钟,因此,本发明根据不同视频类型对应的能够插入广告的视频时段,从目标视频中提取出目标时段的目标视频片段。
步骤S102、采用分镜算法将所述目标视频片段划分为多个分镜视频片段,并基于每个所述分镜视频片段的边缘关键帧确定所有的候选关键帧组;
其中,所述边缘关键帧包括:首帧和尾帧。
每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成。
候选关键帧组的首帧和尾帧之间为广告插入位置。
具体的,对目标视频片段采用分镜算法,尽可能多的将属于不同场景的镜头都切分开来,镜头切分点为可能的广告插入时间点。相连两个分镜视频片段中,前一个分镜视频片段的尾帧end_frame与后一个分镜视频片段的首帧begin_frame组成一个候选关键帧组frame_group(end_frame,begin_frame),所有的候选关键帧组组成一个关键帧组序列frame_group_list,后续以frame_group为基本单位进行广告插入位置的筛选。
步骤S103、从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组;
在实际应用中,可以将筛选出的所有的目标关键帧组放置在目标关键帧组列表中。
步骤S104、基于每个所述目标关键帧组所在声音片段为静音的持续时间以及所在字幕片段为无字幕的持续时间,确定每个所述目标关键帧组的关键帧组权重值;
其中,从分镜视频的尾帧end_frame往前,从分镜视频的首帧begin_frame往后,声音事件标签为‘voiceless’(静音),字幕标签为‘N’(无字幕)的持续时间越长,对应的候选关键帧组的权重值越大,本实施例中定义权重值为framegroup_weight。
步骤S105、基于每个所述目标关键帧组对应的图像特征向量,确定每个所述目标关键帧组的表征视频相似度衡量标准的相似度得分;
在实际应用中,可以设置相似度得分阈值,当目标关键帧组对应的首帧图像和尾帧图像的相似度得分高于相似度得分阈值,表示首帧图像对应的分镜视频片段和尾帧图像对应的分镜视频片段的相似度高,不适合广告插入,此时,丢弃该目标关键帧组,继续判断下一个关键帧组。
对于广告插入而言,两个分镜之间的差异越大,代表两个分镜的前后关联越小,越适合广告插入。
步骤S106、基于每个所述目标关键帧组的所述关键帧组权重值和所述相似度得分,确定每个所述目标关键帧组的所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。
具体的,当所有的目标关键帧组的关键帧组权重值和相似度得分都计算完毕后,基于关键帧组权重值和相似度得分按照如下公式计算出所有的目标关键帧组的排序值rank_score,排序值rank_score的计算公式如下:
rank_score=0.6*(1/cos_score)+0.4*framegroup_wight;
式中,cos_score为相似度得分,framegroup_wight为关键帧组权重值。
需要说明的是,相似度得分越小,代表对应的两个分镜视频片段的差异越大,越适合作为广告中插时间点,同时,关键帧组权重值越大,也越适合作为广告中插时间点,通过设置0.6和0.4的相关系数组成一个统一的排序值,排序后取排序值rank_score最大的目标关键帧组所在位置作为最终的广告插入时间点,并记录相关数据至数据库,如排序值rank_score、广告插入时间点目标关键帧组位置。
为便于理解广告插入时间点的整个检测过程,可参见图2所示的广告插入时间点的检测流程示意图。
综上可知,本发明公开的广告插入时间点的检测方法,根据待插入广告的目标视频的视频类型,从目标视频中截取出能够插入广告的视频时段对应的目标视频片段,采用分镜算法将目标视频片段划分为多个分镜视频片段,并基于每个分镜视频片段的边缘关键帧确定所有的候选关键帧组,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成,从所有的候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,基于每个目标关键帧组关键帧组权重值和表征视频相似度衡量标准的相似度得分,确定每个目标关键帧组的所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。由此可以看出,本发明实现了对影视节目中广告插入时间点的自动检测,因此降低了人力时间成本。
另外,相对于人工标注广告插入时间点的精度有限,很难精确到帧级别,容易造成场景画面的粘连而言,本发明整个检测过程可以精确到帧级别,因此,可以实现广告插入前后画面独立完善,剧情完整,声音字幕不粘连,保证广告插入的有效性,从而在丰富广告库存的同时保障用户的观感体验。
为进一步优化上述实施例,参见图3,本发明实施例公开的一种从所有的候选关键帧组中,筛选出处于静音片段且画面无字幕的候选关键帧组作为目标关键帧组的方法流程图,该方法包括:
步骤S201、采用声音事件检测算法对目标视频进行声音事件检测,按照不同的声音事件对所述目标视频进行片段划分,并对划分得到的每个声音片段标注起始时间sound_begin_index、结束时间sound_end_index和声音事件标签;
本实施例中,声音事件包括:人声sound、音乐music和静音silence三个声音事件。
声音事件标签包括:sound、music和silence。
其中,对于静音事件的检测原理如下:选取预设长度的声音进行音波采样,若采样点中大于某设定振幅值的采样点个数小于阈值则认为该片段静音。连续属于同一个声音事件的声音片段融合为一个片段。
步骤S202、采用预先训练得到的字幕检测网络,对所述目标视频进行字幕检测,按照视频画面有无字幕对所述目标视频进行片段划分,并对划分得到的字幕片段标注字幕有无标签;
在实际应用中,预先训练得到的字幕检测网络可以为YOLO字幕检测网络,YOLO字幕检测网络采用标注出字幕位置的图像数据集训练得到,具体检测字幕的能力。
在对目标视频按照视频画面有无字幕进行划分时,将连续属于同一字幕情况(有字幕或无字幕)的帧分为同一个字幕片段,并添加字幕有无标签Y/N。
步骤S203、从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为所述目标关键帧组。
在实际应用中,检测所有的候选关键帧组所在声音片段与字幕片段,将声音片段的声音事件标签为‘voiceless’(静音),且所在字幕片段的字幕标签为‘N’(无字幕)的候选关键帧组作为目标关键帧组。
为进一步优化上述实施例,参见图4,本发明实施例公开的一种基于每个目标关键帧组对应的图像特征向量,确定每个目标关键帧组的表征视频相似度衡量标准的相似度得分的方法流程图,该方法包括:
步骤S301、将每个目标关键帧组对应的首帧图像和尾帧图像,分为输入至场景分类网络,得到首帧图像特征向量和尾帧图像特征向量;
其中,目标关键帧组对应的图像特征向量包括:首帧图像特征向量和尾帧图像特征向量。
需要说明的是,本实施例中的场景分类网络具体可以为:用palce356场景数据集训练ResNet50分类网络得到。场景分类网络在本实施例中作为相似度计算的特征提取网络。
在实际应用中,以场景分类网络的倒数第二个全连接层输出作为关键帧图像的特征向量输出FT,其中,关键帧图像包括:分镜视频片段的首帧图像和尾帧图像。
步骤S302、计算所述首帧图像特征向量和所述尾帧图像特征向量的余弦相似度;
余弦相似度cosscore的计算公式如下:
Figure BDA0002872646530000101
式中,FT1为首帧图像特征向量,FT2为尾帧图像特征向量。
其中,
Figure BDA0002872646530000102
式中,n为特征向量的长度,n=512,i为变量标识,取值从1到N,xi和yi分别代表首帧图像特征向量和尾帧图像特征向量的具体值。
步骤S303、将所述余弦相似度确定为对应目标关键帧组的相似度得分。
需要说明的是,余弦相似度cosscore的范围在[-1,1]之间,余弦相似度越靠近1表示同一目标关键帧组对应的两个分镜视频片段越相似,越靠近-1代表两个分镜视频片段差异越大。
在实际应用中,在计算目标关键帧组的相似度得分后,还可以对目标关键帧组的位置进行记录。
与上述方法实施例相对应,本发明还公开了一种广告插入时间点的检测装置。
参见图5,本发明实施例公开的一种广告插入时间点的检测装置的结构示意图,该装置包括:
视频截取单元401,用于根据待插入广告的目标视频的视频类型,从所述目标视频中截取出相应目标时段的目标视频片段,所述目标时段为:能够插入广告的视频时段;
具体的,从媒体资产数据库中获取待插入广告的目标视频以及视频类别后,根据所述目标视频的视频类型,比如,电视剧或综艺节目等,从所述目标视频中截取出目标时段的目标视频片段。
由于不同的视频类型对应的广告插入时间不同,比如,电视剧的广告插入时间段为10-15分钟与25-25分钟,综艺节目的广告插入时间段为20-25分钟、35-45分钟和50-60分钟,因此,本发明根据不同视频类型对应的能够插入广告的视频时段,从目标视频中提取出目标时段的目标视频片段。
视频划分单元402,用于采用分镜算法将所述目标视频片段划分为多个分镜视频片段,并基于每个所述分镜视频片段的边缘关键帧确定所有的候选关键帧组;
所述边缘关键帧包括:首帧和尾帧,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成;
候选关键帧组的首帧和尾帧之间为广告插入位置。
具体的,对目标视频片段采用分镜算法,尽可能多的将属于不同场景的镜头都切分开来,镜头切分点为可能的广告插入时间点。相连两个分镜视频片段中,前一个分镜视频片段的尾帧end_frame与后一个分镜视频片段的首帧begin_frame组成一个候选关键帧组frame_group(end_frame,begin_frame),所有的候选关键帧组组成一个关键帧组序列frame_group_list,后续以frame_group为基本单位进行广告插入位置的筛选。
筛选单元403,用于从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组;
权重值确定单元404,用于基于每个所述目标关键帧组所在声音片段为静音的持续时间以及所在字幕片段为无字幕的持续时间,确定每个所述目标关键帧组的关键帧组权重值;
其中,从分镜视频的尾帧end_frame往前,从分镜视频的首帧begin_frame往后,声音事件标签为‘voiceless’(静音),字幕标签为‘N’(无字幕)的持续时间越长,对应的候选关键帧组的权重值越大,本实施例中定义权重值为framegroup_weight。
相似度得分确定单元405,用于基于每个所述目标关键帧组对应的图像特征向量,确定每个所述目标关键帧组的表征视频相似度衡量标准的相似度得分;
在实际应用中,可以设置相似度得分阈值,当目标关键帧组对应的首帧图像和尾帧图像的相似度得分高于相似度得分阈值,表示首帧图像对应的分镜视频片段和尾帧图像对应的分镜视频片段的相似度高,不适合广告插入,此时,丢弃该目标关键帧组,继续判断下一个关键帧组。
对于广告插入而言,两个分镜之间的差异越大,代表两个分镜的前后关联越小,越适合广告插入。
广告插入时间点确定单元406,用于基于每个所述目标关键帧组的所述关键帧组权重值和所述相似度得分,确定每个所述目标关键帧组所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。
具体的,当所有的目标关键帧组的关键帧组权重值和相似度得分都计算完毕后,基于关键帧组权重值和相似度得分按照如下公式计算出所有的目标关键帧组的排序值rank_score,排序值rank_score的计算公式如下:
rank_score=0.6*(1/cos_score)+0.4*framegroup_wight;
式中,cos_score为相似度得分,framegroup_wight为关键帧组权重值。
需要说明的是,相似度得分越小,代表对应的两个分镜视频片段的差异越大,越适合作为广告中插时间点,同时,关键帧组权重值越大,也越适合作为广告中插时间点,通过设置0.6和0.4的相关系数组成一个统一的排序值,排序后取排序值rank_score最大的目标关键帧组所在位置作为最终的广告插入时间点,并记录相关数据至数据库,如排序值rank_score、广告插入时间点目标关键帧组位置。
为便于理解广告插入时间点的整个检测过程,可参见图2所示的广告插入时间点的检测流程示意图。
综上可知,本发明公开的广告插入时间点的检测装置,根据待插入广告的目标视频的视频类型,从目标视频中截取出能够插入广告的视频时段对应的目标视频片段,采用分镜算法将目标视频片段划分为多个分镜视频片段,并基于每个分镜视频片段的边缘关键帧确定所有的候选关键帧组,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成,从所有的候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,基于每个目标关键帧组关键帧组权重值和表征视频相似度衡量标准的相似度得分,确定每个目标关键帧组的所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。由此可以看出,本发明实现了对影视节目中广告插入时间点的自动检测,因此降低了人力时间成本。
另外,相对于人工标注广告插入时间点的精度有限,很难精确到帧级别,容易造成场景画面的粘连而言,本发明整个检测过程可以精确到帧级别,因此,可以实现广告插入前后画面独立完善,剧情完整,声音字幕不粘连,保证广告插入的有效性,从而在丰富广告库存的同时保障用户的观感体验。
为进一步优化上述实施例,参见图6,本发明实施例公开的一种筛选单元的结构示意图,筛选单元具体可以包括:
声音划分子单元501,用于采用声音事件检测算法对所述目标视频进行声音事件检测,按照不同的声音事件对所述目标视频进行片段划分,并对划分得到的每个声音片段标注起始时间、结束时间和声音事件标签;
本实施例中,声音事件包括:人声sound、音乐music和静音silence三个声音事件。
声音事件标签包括:sound、music和silence。
其中,对于静音事件的检测原理如下:选取预设长度的声音进行音波采样,若采样点中大于某设定振幅值的采样点个数小于阈值则认为该片段静音。连续属于同一个声音事件的声音片段融合为一个片段。
字幕划分子单元502,用于采用预先训练得到的字幕检测网络,对所述目标视频进行字幕检测,按照视频画面有无字幕对所述目标视频进行片段划分,并对划分得到的字幕片段标注字幕有无标签;
在实际应用中,预先训练得到的字幕检测网络可以为YOLO字幕检测网络,YOLO字幕检测网络采用标注出字幕位置的图像数据集训练得到,具体检测字幕的能力。
在对目标视频按照视频画面有无字幕进行划分时,将连续属于同一字幕情况(有字幕或无字幕)的帧分为同一个字幕片段,并添加字幕有无标签Y/N。
筛选子单元503,用于从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为所述目标关键帧组。
在实际应用中,检测所有的候选关键帧组所在声音片段与字幕片段,将声音片段的声音事件标签为‘voiceless’(静音),且所在字幕片段的字幕标签为‘N’(无字幕)的候选关键帧组作为目标关键帧组。
为进一步优化上述实施例,参见图7,本发明实施例公开的一种相似度得分确定单元的结构示意图,相似度得分确定单元具体可以包括:
图像特征向量获取子单元601,用于将每个所述目标关键帧组对应的首帧图像和尾帧图像,分为输入至场景分类网络,得到首帧图像特征向量和尾帧图像特征向量,所述图像特征向量包括:首帧图像特征向量和尾帧图像特征向量;
需要说明的是,本实施例中的场景分类网络具体可以为:用palce356场景数据集训练ResNet50分类网络得到。场景分类网络在本实施例中作为相似度计算的特征提取网络。
在实际应用中,以场景分类网络的倒数第二个全连接层输出作为关键帧图像的特征向量输出FT,其中,关键帧图像包括:分镜视频片段的首帧图像和尾帧图像。
相似度计算子单元602,用于计算所述首帧图像特征向量和所述尾帧图像特征向量的余弦相似度;
余弦相似度cosscore的计算公式如下:
Figure BDA0002872646530000151
式中,FT1为首帧图像特征向量,FT2为尾帧图像特征向量。
其中,
Figure BDA0002872646530000152
式中,n为特征向量的长度,n=512,i为变量标识,取值从1到N,xi和yi分别代表首帧图像特征向量和尾帧图像特征向量的具体值。
相似度得分确定子单元603,用于将所述余弦相似度确定为对应目标关键帧组的相似度得分。
需要说明的是,余弦相似度cosscore的范围在[-1,1]之间,余弦相似度越靠近1表示同一目标关键帧组对应的两个分镜视频片段越相似,越靠近-1代表两个分镜视频片段差异越大。
在实际应用中,在计算目标关键帧组的相似度得分后,还可以对目标关键帧组的位置进行记录。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种广告插入时间点的检测方法,其特征在于,包括:
根据待插入广告的目标视频的视频类型,从所述目标视频中截取出相应目标时段的目标视频片段,所述目标时段为:能够插入广告的视频时段;
采用分镜算法将所述目标视频片段划分为多个分镜视频片段,并基于每个所述分镜视频片段的边缘关键帧确定所有的候选关键帧组,所述边缘关键帧包括:首帧和尾帧,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成;
从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组;
基于每个所述目标关键帧组所在声音片段为静音的持续时间以及所在字幕片段为无字幕的持续时间,确定每个所述目标关键帧组的关键帧组权重值;
基于每个所述目标关键帧组对应的图像特征向量,确定每个所述目标关键帧组的表征视频相似度衡量标准的相似度得分;
基于每个所述目标关键帧组的所述关键帧组权重值和所述相似度得分,确定每个所述目标关键帧组所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。
2.根据权利要求1所述的检测方法,其特征在于,所述从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组,具体包括:
采用声音事件检测算法对所述目标视频进行声音事件检测,按照不同的声音事件对所述目标视频进行片段划分,并对划分得到的每个声音片段标注起始时间、结束时间和声音事件标签;
采用预先训练得到的字幕检测网络,对所述目标视频进行字幕检测,按照视频画面有无字幕对所述目标视频进行片段划分,并对划分得到的字幕片段标注字幕有无标签;
从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为所述目标关键帧组。
3.根据权利要求2所述的检测方法,其特征在于,所述声音事件包括:人声、音乐和静音三个声音事件。
4.根据权利要求1所述的检测方法,其特征在于,基于每个目标关键帧组对应的图像特征向量,确定每个目标关键帧组的表征视频相似度衡量标准的相似度得分,具体包括:
将每个所述目标关键帧组对应的首帧图像和尾帧图像,分为输入至场景分类网络,得到首帧图像特征向量和尾帧图像特征向量,所述图像特征向量包括:首帧图像特征向量和尾帧图像特征向量;
计算所述首帧图像特征向量和所述尾帧图像特征向量的余弦相似度;
将所述余弦相似度确定为对应目标关键帧组的相似度得分。
5.根据权利要求1所述的检测方法,其特征在于,所述排序值的计算公式如下:
rank_score=0.6*(1/cos_score)+0.4*framegroup_wight;
式中,rank_score为所述排序值,cos_score为所述相似度得分,framegroup_wight为所述关键帧组权重值。
6.一种广告插入时间点的检测装置,其特征在于,包括:
视频截取单元,用于根据待插入广告的目标视频的视频类型,从所述目标视频中截取出相应目标时段的目标视频片段,所述目标时段为:能够插入广告的视频时段;
视频划分单元,用于采用分镜算法将所述目标视频片段划分为多个分镜视频片段,并基于每个所述分镜视频片段的边缘关键帧确定所有的候选关键帧组,所述边缘关键帧包括:首帧和尾帧,每个所述候选关键帧组由相连两个所述分镜视频片段中的前一个分镜视频片段的尾帧与后一个分镜视频片段的首帧组成;
筛选单元,用于从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为目标关键帧组;
权重值确定单元,用于基于每个所述目标关键帧组所在声音片段为静音的持续时间以及所在字幕片段为无字幕的持续时间,确定每个所述目标关键帧组的关键帧组权重值;
相似度得分确定单元,用于基于每个所述目标关键帧组对应的图像特征向量,确定每个所述目标关键帧组的表征视频相似度衡量标准的相似度得分;
广告插入时间点确定单元,用于基于每个所述目标关键帧组的所述关键帧组权重值和所述相似度得分,确定每个所述目标关键帧组所在位置作为广告插入时间点的排序值,并将排序值最高的目标关键帧组的所在位置确定为最终广告插入时间点。
7.根据权利要求6所述的检测装置,其特征在于,所述筛选单元具体包括:
声音划分子单元,用于采用声音事件检测算法对所述目标视频进行声音事件检测,按照不同的声音事件对所述目标视频进行片段划分,并对划分得到的每个声音片段标注起始时间、结束时间和声音事件标签;
字幕划分子单元,用于采用预先训练得到的字幕检测网络,对所述目标视频进行字幕检测,按照视频画面有无字幕对所述目标视频进行片段划分,并对划分得到的字幕片段标注字幕有无标签;
筛选子单元,用于从所有的所述候选关键帧组中,筛选出所在声音片段的声音事件标签为静音且所在字幕片段的字幕标签为无字幕的候选关键组作为所述目标关键帧组。
8.根据权利要求7所述的检测装置,其特征在于,所述声音事件包括:人声、音乐和静音三个声音事件。
9.根据权利要求6所述的检测装置,其特征在于,所述相似度得分确定单元具体包括:
图像特征向量获取子单元,用于将每个所述目标关键帧组对应的首帧图像和尾帧图像,分为输入至场景分类网络,得到首帧图像特征向量和尾帧图像特征向量,所述图像特征向量包括:首帧图像特征向量和尾帧图像特征向量;
相似度计算子单元,用于计算所述首帧图像特征向量和所述尾帧图像特征向量的余弦相似度;
相似度得分确定子单元,用于将所述余弦相似度确定为对应目标关键帧组的相似度得分。
10.根据权利要求6所述的检测装置,其特征在于,所述排序值的计算公式如下:
rank_score=0.6*(1/cos_score)+0.4*framegroup_wight;
式中,rank_score为所述排序值,cos_score为所述相似度得分,framegroup_wight为所述关键帧组权重值。
CN202011604397.7A 2020-12-30 2020-12-30 一种广告插入时间点的检测方法及装置 Active CN112699787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011604397.7A CN112699787B (zh) 2020-12-30 2020-12-30 一种广告插入时间点的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011604397.7A CN112699787B (zh) 2020-12-30 2020-12-30 一种广告插入时间点的检测方法及装置

Publications (2)

Publication Number Publication Date
CN112699787A true CN112699787A (zh) 2021-04-23
CN112699787B CN112699787B (zh) 2024-02-20

Family

ID=75512285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011604397.7A Active CN112699787B (zh) 2020-12-30 2020-12-30 一种广告插入时间点的检测方法及装置

Country Status (1)

Country Link
CN (1) CN112699787B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282941A (zh) * 2021-12-20 2022-04-05 咪咕音乐有限公司 广告插入位置的确定方法、装置、设备及存储介质
CN114554285A (zh) * 2022-02-25 2022-05-27 京东方科技集团股份有限公司 视频插帧处理方法、视频插帧处理装置和可读存储介质
CN114898265A (zh) * 2022-05-12 2022-08-12 北京奇艺世纪科技有限公司 帧分类模型的训练方法、应用性能的测试方法及装置
CN115103223A (zh) * 2022-06-02 2022-09-23 咪咕视讯科技有限公司 视频内容检测方法、装置、设备及存储介质
EP4135332A1 (en) * 2021-08-11 2023-02-15 Beijing Dajia Internet Information Technology Co., Ltd. Method and apparatus for placing delivery information, and storage medium

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072340A (zh) * 2007-06-25 2007-11-14 孟智平 流媒体中加入广告信息的方法与系统
CN101517550A (zh) * 2005-11-29 2009-08-26 谷歌公司 大众传媒的社会性和交互式应用
US20120005313A1 (en) * 2010-06-30 2012-01-05 Unicorn Media, Inc. Dynamic indexing for ad insertion in media streaming
CN103503463A (zh) * 2011-11-23 2014-01-08 华为技术有限公司 视频广告播放方法、设备和系统
CN104918060A (zh) * 2015-05-29 2015-09-16 北京奇艺世纪科技有限公司 一种视频广告中插点位置的选择方法和装置
CN106686404A (zh) * 2016-12-16 2017-05-17 中兴通讯股份有限公司 一种视频分析平台、匹配方法、精准投放广告方法及系统
CN108347643A (zh) * 2018-03-05 2018-07-31 成都索贝数码科技股份有限公司 一种基于深度学习的字幕叠加截图的实现方法
CN111601179A (zh) * 2020-05-12 2020-08-28 灵通展览系统股份有限公司 基于视频内容的网络广告推广方法
CN111754267A (zh) * 2020-06-29 2020-10-09 蚌埠科睿达机械设计有限公司 基于区块链的数据处理方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101517550A (zh) * 2005-11-29 2009-08-26 谷歌公司 大众传媒的社会性和交互式应用
CN101072340A (zh) * 2007-06-25 2007-11-14 孟智平 流媒体中加入广告信息的方法与系统
US20120005313A1 (en) * 2010-06-30 2012-01-05 Unicorn Media, Inc. Dynamic indexing for ad insertion in media streaming
CN103503463A (zh) * 2011-11-23 2014-01-08 华为技术有限公司 视频广告播放方法、设备和系统
CN104918060A (zh) * 2015-05-29 2015-09-16 北京奇艺世纪科技有限公司 一种视频广告中插点位置的选择方法和装置
CN106686404A (zh) * 2016-12-16 2017-05-17 中兴通讯股份有限公司 一种视频分析平台、匹配方法、精准投放广告方法及系统
CN108347643A (zh) * 2018-03-05 2018-07-31 成都索贝数码科技股份有限公司 一种基于深度学习的字幕叠加截图的实现方法
CN111601179A (zh) * 2020-05-12 2020-08-28 灵通展览系统股份有限公司 基于视频内容的网络广告推广方法
CN111754267A (zh) * 2020-06-29 2020-10-09 蚌埠科睿达机械设计有限公司 基于区块链的数据处理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGHUI YUE: "Subtitle Region Selection of S3D Images in Consideration of Visual Discomfort and Viewing Habit", 《ACM TRANSACTIONS ON MULTIMEDIA COMPUTING, COMMUNICATIONS, AND APPLICATIONS 》 *
朱玲玉: "从热播剧中插看广告创意新形式", 《明日风尚》 *
栾悉道: "融合多特征的新闻故事探测", 《小型微型计算机系统》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4135332A1 (en) * 2021-08-11 2023-02-15 Beijing Dajia Internet Information Technology Co., Ltd. Method and apparatus for placing delivery information, and storage medium
US11632586B2 (en) 2021-08-11 2023-04-18 Beijing Dajia Internet Information Technology Co., Ltd. Method for placing delivery information, electronic device, and storage medium
CN114282941A (zh) * 2021-12-20 2022-04-05 咪咕音乐有限公司 广告插入位置的确定方法、装置、设备及存储介质
CN114554285A (zh) * 2022-02-25 2022-05-27 京东方科技集团股份有限公司 视频插帧处理方法、视频插帧处理装置和可读存储介质
CN114898265A (zh) * 2022-05-12 2022-08-12 北京奇艺世纪科技有限公司 帧分类模型的训练方法、应用性能的测试方法及装置
CN115103223A (zh) * 2022-06-02 2022-09-23 咪咕视讯科技有限公司 视频内容检测方法、装置、设备及存储介质
CN115103223B (zh) * 2022-06-02 2023-11-10 咪咕视讯科技有限公司 视频内容检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112699787B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN112699787B (zh) 一种广告插入时间点的检测方法及装置
US11783585B2 (en) Detection of demarcating segments in video
CN110119711B (zh) 一种获取视频数据人物片段的方法、装置及电子设备
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
CN108769731B (zh) 一种检测视频中目标视频片段的方法、装置及电子设备
CN107707931B (zh) 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN101395607B (zh) 用于自动生成多个图像的概要的方法和设备
CN102547141B (zh) 基于体育赛事视频的视频数据筛选方法及装置
CN111683209A (zh) 混剪视频的生成方法、装置、电子设备及计算机可读存储介质
US8989491B2 (en) Method and system for preprocessing the region of video containing text
JP5135024B2 (ja) コンテンツのシーン出現を通知する装置、方法およびプログラム
TWI242376B (en) Method and related system for detecting advertising by integrating results based on different detecting rules
US8068678B2 (en) Electronic apparatus and image processing method
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
CN101137986A (zh) 音频和/或视频数据的概括
WO2019128724A1 (zh) 数据处理方法及装置
US8634708B2 (en) Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
JP2011504034A (ja) オーディオビジュアル信号における意味的なまとまりの開始点を決定する方法
KR20100116412A (ko) 동영상 장면 기반 광고정보 제공장치 및 방법
CN110198482A (zh) 一种视频重点桥段标注方法、终端及存储介质
CN114339451A (zh) 视频剪辑方法、装置、计算设备及存储介质
Tsao et al. Thumbnail image selection for VOD services
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
JP4270118B2 (ja) 映像シーンに対する意味ラベル付与方法及び装置及びプログラム
CN113012723B (zh) 多媒体文件播放方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant