CN109614842A - 用于识别候选视频插入对象类型的机器学习 - Google Patents

用于识别候选视频插入对象类型的机器学习 Download PDF

Info

Publication number
CN109614842A
CN109614842A CN201811009060.4A CN201811009060A CN109614842A CN 109614842 A CN109614842 A CN 109614842A CN 201811009060 A CN201811009060 A CN 201811009060A CN 109614842 A CN109614842 A CN 109614842A
Authority
CN
China
Prior art keywords
candidate
insert district
scene
descriptor
several
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811009060.4A
Other languages
English (en)
Inventor
提姆·哈里斯
菲利普·麦克劳克伦
戴维·奥克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Riyadh Advertising Public Ltd By Share Ltd
Mirriad Advertising PLC
Original Assignee
Riyadh Advertising Public Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Riyadh Advertising Public Ltd By Share Ltd filed Critical Riyadh Advertising Public Ltd By Share Ltd
Publication of CN109614842A publication Critical patent/CN109614842A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方法申请提供了使用机器学习识别候选视频插入对象类型的方法、系统和计算机程序。机器学习用于处理源视频的场景的若干帧的图像内容的至少一部分。该处理包括识别候选插入区以及确定所识别的候选插入区的插入区描述符,所述候选插入区用于将一个对象插入到若干帧中的至少一些帧的图像内容中,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合插入所述候选插入区的对象的类型。

Description

用于识别候选视频插入对象类型的机器学习
技术领域
本申请涉及用于处理源视频的场景的若干帧的图像内容的系统、方法、软件、装置,及用于训练该 系统的装置。
背景技术
随着数字文件处理的出现,可将对象数字插入(本申请中也称为“嵌入”)到视频中。在视频中数字 插入对象可具有许多优点,例如,增强视频的视觉效果,或改善视频的真实感,或允许视频在拍摄后更 灵活,这意味着在拍摄场景的阶段对于场景中要包含的对象需要做的决定更少。因此,数字对象插入正 变得越来越普遍并被视频制作者用于各种用途。
目前,数字对象插入通常需要许多处理阶段。虽然下面会做进一步描述,但这些可以大致分为:
1.切变(cut)检测;
2.相似镜头的融合和分组;
3.插入机会(在文中可与插入区互换)检测;
4.插入区的背景(context)特性;和
5.插入区和插入对象之间的匹配。
切变检测
一个节目通常可以是半小时或一小时的展示,节目素材被分解成若干镜头。镜头是不包括任何编辑 点的连续帧序列,即它们通常保持一致性,表明它们是由单台摄相机记录的。
镜头通过切变分界,在切变处通常摄相机停止录制、或者将素材编辑为产生这一感觉。从广义上讲, 有两种类型的切变:“硬”切变和“软”切变。例如,当连续帧之间的视觉相似性突然中断时,检测到硬 切变,指示编辑点或相机角度的变化。软切变对应于软转换的开始或结束,例如擦除或淡入淡出转换, 其具有跨过若干帧的视频的视觉外观显著但逐渐改变的特点。
首先,可能需要分析源视频素材(例如节目素材),并找到适合对象插入的场景。这通常被称为预分 析道次,最好通过将源视频划分为若干场景,特别是划分为从相同摄像机位置拍摄的若干场景来完成。 通常可以使用镜头变化检测将视频素材自动分割成若干场景。视频分析模块可以自动检测不同镜头之间 的分别对应于硬转换和软转换的硬切变和软切变。
相似镜头的融合与分组
一旦检测到一个或多个镜头,也可以在进一步的处理步骤中应用连续性检测,以识别已在源视频中 检测到的类似的镜头。以这种方式,当在一个镜头中识别出插入机会时,镜头相似性算法可以识别可能 存在相同机会的其他镜头。
插入区检测
源视频内容中适合于插入其他素材的图像区域被称为插入区,且这些区域大致可分为表面和物体。 通常,表面可适合于素材的插入。例如,在有墙的情况下,可以添加海报。在有桌子的情况下,可以插 入如饮料的物体。当一个物体被识别为插入区时,插入素材的机会可能涉及重新标记在产品上标识的任 何品牌标志、用属于同一类物体的另一个物体替换该物体,或者靠近该物体添加另一个相似物体。
通过跟踪整个源视频素材中的一致移动像素,可以进行并改进插入区检测。基于图像的跟踪技术包 括但不限于平面跟踪算法,以计算并模拟源视频中每个图像的二维变换。
插入区的背景特性
可能需要操作员评估所识别的插入区并为可插入其中的可能的其他素材提供背景。随着通过因特网 广播或流式传输的数字视频内容量的快速增加,人类操作员无法比实时更快地处理插入机会以识别背景 可能是一个问题。
插入区和产品类别之间的匹配
仅通过模式识别方法识别插入机会是不够的,在选择要插入视频内容的素材时可能还需要应用一些 智能技术。
对于不妨碍观看体验的对象插入的实例,它应该在其被放置的源视频内容的背景中有意义。例如, 如果场景发生在厨房中,则放置在该场景中的附加内容应该与观看者期望在该位置看到的对象相关。例 如,人们可能不希望看到水壶旁的厨房侧板上放置的香水瓶。在所描绘的背景中更适合的可能是一罐咖 啡。同样,浴室场景适合放置浴室或卫生相关物品,而不是杂货。因此,可能需要操作员评估场景以选 择适合插入任何被识别插入区的特定对象或对象类别。同样,人类操作员无法比实时更快地处理插入机 会以识别背景可能是一个问题。
从上面可以理解,识别插入区机会及用于插入的合适对象通常可能是耗时的多阶段过程,其可能限 制能被分析的视频素材量。
发明内容
本申请的第一方面提供了一种系统,包括:候选插入区模块,被配置为:接收源视频的场景的若干 帧;和至少部分使用机器学习对所述若干帧的图像内容进行处理,以便识别候选插入区,所述候选插入 区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和确定所识别的候选插入区的插入 区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的 对象的类型。
所述候选插入区模块可包括识别子模块,被配置为识别所述候选插入区及确定所识别的候选插入区 的插入区描述符;和确定所述场景的若干帧的至少部分像素的插入概率向量,所述插入概率向量包括若 干插入标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的 可能性。
所述若干插入标签可包括表示所述像素不适合于对象插入的标签;和表示对应的一个或多个对象类 型的一个或多个标签。
所述候选插入区可包括具有若干插入概率向量的若干个像素,所述若干插入概率向量均具有与表示 所述候选对象类型的标签对应的概率值的最大参数。
所述候选插入区模块可包括场景描述符子模块,被配置为利用机器学习处理所述若干帧中至少部分 帧的图像内容,以便确定场景描述符,其中所述候选对象类型的确定至少部分地基于所述场景描述符。
所述候选插入区的识别可至少部分地基于所述场景描述符。
所述场景描述符可包括至少一个整体描述符,其中每个整体背景描述符表示场景场所、情绪、人类 特征、人类行为、当日时间、一年中的季节、天气、和/或拍摄地点中的任意一个。
所述场景描述子模块还可被配置为:接收与所述源视频的场景有关的音频内容;和至少部分地基于 所接收的音频内容确定所述场景描述符。
所述场景描述符可包括表示所述场景中的被识别实体的至少一个局部背景描述符,所述至少一个局 部背景描述符可表示场景中的被识别实体是人、动物、表面、或物体中的任意一个。
所述场景描述子模块可被配置为,使用机器学习处理所述若干帧的图像内容,以便为所述场景的若 干帧的至少部分像素确定局部背景概率向量,所述局部背景概率向量包括若干局部背景标签中每个标签 的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。
所述若干局部背景标签可包括:表示像素与任何事物无关的标签,以及以下至少一个:表示人类的 一个或多个标签、表示动物的一个或多个标签、表示物体的一个或多个标签,和/或表示表面的一个或多 个标签。
所述候选插入区模块还包括:包含背景索引的插入对象类型库的数据库,其中,确定所述候选对象 类型至少部分地基于所述插入对象类型库和场景描述符。
所述插入区和插入对象识别子模块还可被配置为通过使用机器学习处理所述若干帧的图像内容来识 别所述候选插入区和候选对象类型,以确定所述场景的若干帧的至少部分像素中每个像素的插入概率向 量,所述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示所述对应插入标签适用 于所述像素的可能性。所述若干插入标签包括:表示所述像素不适合于对象插入的标签;和表示对应的 一个或多个对象类型适合于在所述像素中插入的一个或多个标签。
所述候选插入区可包括具有若干插入概率向量的若干个像素,所述若干插入概率向量均具有与表示 所述候选对象类型的标签对应的概率值的最大参数。
在任一上述系统实现中,所述候选插入区模块还包括后处理子模块,被配置为确定跨所述若干帧的 候选插入区的持续时间和/或所述候选插入区的大小。
所述插入区域描述符还可包括跨所述若干帧的候选插入区的持续时间和/或所述候选插入区的大小中 的至少一个。
所述后处理子模块还可被配置为至少部分地基于跨所述若干帧的候选插入区的持续时间和/或所述候 选插入区的大小确定视频影响分数。
在任一上述系统实现中,所述系统还可包括分段模块,配置为:生成插入区建议帧,所述插入区建 议帧包括所述若干帧中的一帧,所述一帧覆盖有所述候选插入区的可视化对象。
在任一上述系统实现中,所述系统还可包括对象插入模块,被配置为:基于所述候选对象类型选择 插入对象;和生成对象插入建议帧,所述对象插入建议帧包括所述若干帧中的一帧及插入所述候选插入 区中的被选择对象。
在任一上述系统实现中,所述候选插入区模块还可被配置为:从操作员接收反馈,其中所述反馈表 示所识别的候选插入区和/或所述候选对象类型对于所述若干帧的图像内容的适合性;和至少部分地基于 所述反馈来调整机器学习。
本申请的第二方面提供了一种处理源视频的场景的若干帧的图像内容的方法,所述方法包括:接收 所述源视频的场景的若干帧;和至少部分使用机器学习对所述若干帧的图像内容进行处理,以便:识别 候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和确定 所识别的候选插入区的插入区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适 合于插入所述候选插入区的对象的类型。
本申请的第三方面提供了一种计算机程序,被一个电子设备的处理器运行时执行第二方面的方法。
本申请的第四方面提供了一种电子设备,包括:用于存储第三方面的计算机程序的存储器;和用于 执行第三方面的计算机程序的处理器。
本申请的第五方面提供了一种训练候选插入区模块以识别候选插入区和用于插入源视频的场景中的 一个或多个候选对象的方法,所述方法包括:接收包括若干图像的训练集,每个图像用至少一个插入区 的标识和每个插入区的一个或多个候选对象类型进行标注;和使用机器学习和所述训练集训练所述候选 插入区模块,以处理所述源视频的若干帧的图像内容,以便:识别候选插入区,所述候选插入区用于将 一个对象插入到所述若干帧的至少部分帧的图像内容中;和确定所识别的候选插入区的插入区描述符, 所述插入区描述符包括一个或多个候选对象类型,所述一个或多个候选对象类型表示适合于插入所述候 选插入区的一个或多个对象类型。
所述训练集中的若干图像中的至少部分图像还可进一步用场景描述符进行标注,且使用机器学习对 所述候选插入区模块进行进一步训练,以便:识别所述若干帧中的至少部分帧的图像内容的至少一个场 景描述符;和至少部分地基于所识别的至少一个场景描述符来确定所述一个或多个候选对象类型。
第五方面的方法还包括:使用已训练的机器学习模块确定所述训练集中的若干图像中的至少部分图 像的一个或多个场景描述符,所述已训练的机器学习模块被配置为通过处理图像的内容来识别场景描述 符;其中使用机器学习训练所述候选插入区模块还包括训练所述候选插入区模块以便:识别所述若干帧 中的至少部分帧的图像内容的至少一个场景描述符;和至少部分地基于所识别的至少一个场景描述符来 确定所述一个或多个候选对象类型。
本申请的各个方面
1.一种系统,包括:
候选插入区模块,被配置为:
接收源视频的场景的若干帧;和
至少部分使用机器学习对所述若干帧的图像内容进行处理,以便
识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图 像内容中;和
确定所识别的候选插入区的插入区描述符,所述插入区描述符包括一个或多个候选对象类 型,所述一个或多个候选对象类型表示被推荐插入所述候选插入区的一个或多个对象类型。
2.根据第1项所述的系统,其中,所述候选插入区模块还包括:
插入区和插入对象识别子模块,被配置为通过使用机器学习处理所述若干帧的图像内容来识别所述 候选插入区和候选对象类型,以确定所述场景的若干帧的至少部分像素中每个像素的插入概率向量,所 述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示所述对应插入标签适用于所述 像素的可能性。
3.根据第2项所述的系统,其中,所述若干插入标签包括:
表示所述像素不适合于对象插入的标签;和
表示对应的一个或多个对象类型适合于在所述像素中插入的一个或多个标签。
4.根据第2项或第3项所述的系统,其中,所述候选插入区包括具有若干插入概率向量的若干个像素, 所述若干插入概率向量均具有与表示所述一个或多个候选对象类型的标签对应的概率值的最大参数。
5.如第1项所述的系统,其中,所述候选插入区模块还包括:
场景描述符子模块,被配置为利用机器学习处理所述若干帧中至少部分帧的图像内容,以便确定场 景描述符;
包含背景索引的插入对象类型库的数据库;和
识别子模块,被配置为:
从所述场景描述符子模块接收所述场景描述符;
使用机器学习,用所述场景描述符识别所述候选插入区;和
使用机器学习,至少用插入对象类型库及场景描述符确定所述候选插入对象。
6.如第5项所述的系统,其中,所述机器学习子模块还被配置为:
接收与所述源视频的场景有关的音频内容;和
至少部分地基于所接收的音频内容确定所述场景描述符。
7.如第5项或第6项所述的系统,其中,所述场景描述符包括至少一个整体描述符,其中每个整体背景 描述符表示下面任何一个:
场景场所;
情绪;
人类特征;
人类行为;
当天时间;
一年中的季节。
8.如第5条至第7条中任一项所述的系统,其中,所述场景描述符包括表示所述场景中的所识别实体的 至少一个局部背景描述符。
9.如第5条至第8条中任一项所述的系统,其中,所述识别子模块被配置为基于所述场景描述符和所述 插入对象的类型库来确定所述场景的若干帧的至少部分像素中的每个像素的插入概率向量,所述插入概 率向量包括若干插入标签中每个标签的概率值,每个概率值表示所述对应插入标签适用于所述像素的可 能性。
10.如第9条所述的系统,其中,所述若干插入标签包括:
指示像素不适合插入物体的标签;和
指示对应的一种或多种对象类型适合于在所述像素中插入的一个或多个标签。
11.如前面任一条所述的系统,其中,所述候选插入区模块还包括后处理子模块,被配置为确定跨所述若 干帧的候选插入区的持续时间和/或所述候选插入区的大小。
12.如第11条所述的系统,其中,所述插入区域描述符还包括跨所述若干帧的候选插入区的持续时间和/ 或所述候选插入区的大小中的至少一个。
13.如第11条或第12条所述的系统,其中,所述后处理子模块还被配置为至少部分地基于跨所述若干帧 的候选插入区的持续时间和/或所述候选插入区的大小确定视频影响分数。
14.如前面任一条所述的系统,还包括:
分段模块,配置为:
生成插入区建议帧,所述插入区建议帧包括所述若干帧中的一帧及一个或多个候选对象类型, 所述一帧覆盖有所述候选插入区的可视化对象。
15.如前面任一条所述的系统,还包括:
对象插入模块,被配置为:
基于一个或多个候选对象类型选择插入对象;和
生成对象插入建议帧,所述对象插入建议帧包括所述若干帧中的一帧及插入所述候选插入区中 的被选择对象。
16.一种处理源视频的场景的若干帧的图像内容的方法,所述方法包括:
接收所述源视频的场景的若干帧;和
至少部分使用机器学习对所述若干帧的图像内容进行处理,以便
识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图 像内容中;和
确定所识别的候选插入区的插入区描述符,所述插入区描述符包括一个或多个候选对象类 型,所述一个或多个候选对象类型表示被推荐插入所述候选插入区内的一个或多个对象类型。
17.一种计算机程序,被一个电子设备的处理器运行时执行如第15条所述的方法。
18.一种电子设备,包括:
用于存储第17条所述的计算机程序的存储器;和
用于执行第17条所述的计算机程序的处理器。
19.一种训练候选插入区模块以识别候选插入区和用于插入源视频的场景中的一个或多个候选对象的方 法,所述方法包括:
接收包括若干图像的训练集,每个图像用至少一个插入区的标识和每个插入区的一个或多个候选对 象类型进行标注;和
使用机器学习和所述训练集训练所述候选插入区模块,以处理所述源视频的若干帧的图像内容,以 便:
识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧的至少部分帧的图像内容 中;和
确定所识别的候选插入区的插入区描述符,所述插入区描述符包括一个或多个候选对象类型, 所述候选对象类型表示被推荐插入所述候选插入区的一个或多个对象类型。
20.如第19条所述的方法,其中,所述训练集中的若干图像中的至少部分图像每个还用场景描述符进行 标注,且使用机器学习对所述候选插入区模块进行进一步训练,以便:
识别所述若干帧中的至少部分帧的图像内容的至少一个场景描述符;和
至少部分地基于所识别的至少一个场景描述符来确定所述一个或多个候选对象类型。
21.如第19条所述的方法,还包括:
使用已训练的机器学习模块确定所述训练集中的若干图像中的至少部分图像的一个或多个场景描述 符,所述已训练的机器学习模块被配置为通过处理图像的内容来识别场景描述符;其中
使用机器学习训练所述候选插入区模块还包括训练所述候选插入区模块以便:
识别所述若干帧中的至少部分帧的图像内容的至少一个场景描述符;和
至少部分地基于所识别的至少一个场景描述符来确定所述一个或多个候选对象类型。
附图说明
从以下仅通过示例的方式并参考附图描述的实施例中,本申请的其他特征和优点将是明显的,其中 相同的附图标记表示相同的部件,其中:
图1是根据本申请一个方面的系统的示例性示意图;
图2示出由图1的系统执行的示例性方法;
图3示出用于插入候选插入区的对象的类型的示例性列表;
图4示例性地示出插入区建议帧;
图5示例性地示出对象插入建议帧;
图6示出图1的系统的候选插入区模块的配置的第一实例示意图;
图7a示例性地示出可用于更准确描述检测到的“人”的属性;
图7b示例性地示出可用于更准确描述检测到的“物体”的属性;
图7c示例性地示出可用于更准确描述检测到的“表面”的属性;
图7d示例性地示出可用于描述场景的“场所”的属性;
图8示例性地示出图1的系统的场景描述符子模块的机器学习的训练方法的步骤;
图9示出图1的系统的候选插入区模块的配置的第二实例示意图;
图10是用于训练图1的系统的候选插入区模块的训练系统的示例性示图;和
图11示出输入一图像时CNN在不同阶段的中间结果。
具体实施方式
本申请涉及一种使用机器学习识别视频场景中的插入区及用于插入到插入区中的对象的对应候选类 型的技术。对象的候选类型是适合于插入的类型的对象,例如,可以是诸如“汽水瓶”、“酒精瓶”、“车 辆”、“手机”等对象类别,或者可以更特定,例如是特定对象的特定品牌。
插入机会清单的大量生成
通过使用机器学习来处理若干帧的图像内容以识别候选插入区及对应的包括一个或多个候选对象类 型的插入区描述符,可以显著增加插入区机会和用于插入的合适对象的识别速度。特别地,操作员可以 直接查看候选插入区和推荐的用于插入的对象类型,而不必对场景内容本身进行任何分析。一个或多个 插入区描述符可以很快给出可以将什么类型的对象插入场景中的指示(且可选地指示它们可以在多长时 间内可见),此时可以进行进一步研究和/或对象插入。例如,源视频可以包括八个不同的场景,并且可以 为每个场景返回一个或多个候选插入区和对应的描述符。因此,在不需要花费操作员任何时间或努力的 情况下,就可以很快理解哪些场景可能适合于对象插入以及可以将哪种类型的对象插入到那些场景中。 然后,可以仅将进一步处理和/或操作员的时间集中在那些具有最大希望的场景上(例如插入的对象最久 可见和/或适合于特别感兴趣的对象类型,例如导演表示的他们希望看到插入到源视频的对象类型等)。因 此,可以更快速地评估正在生成的越来越大量的视频内容,并且操作员的时间仅集中在最合适的用于对 象插入的场景上。
工作流程
图1是根据本申请一个方面的系统100的示例性示意图。系统100包括候选插入区模块110、场景检 测模块120、分割模块130、对象插入模块140和数据库150。
图2示出由系统100执行的用于识别源视频的场景的至少一个插入区并确定对应插入区描述符的一 个示例性方法。
在步骤S210中,场景检测模块120获得源视频。源视频可以包括一个或多个数字文件,场景检测模 块120可以例如经由高速计算机网络连接、因特网或从计算机可读硬件存储设备获得源视频。源视频包 括视频素材的若干帧,如果是由同一个摄像机记录或是设在一特定位置,则可以将它们组合成“镜头” 或“场景”。
场景检测模块120可以对源视频执行预分析,以创建可适合于对象插入的相似镜头或场景的序列。 因为不涉及任何人为干预,预分析可以是完全自动化的。预分析可以包括使用镜头检测功能来识别源视 频中的不同镜头之间的边界。例如,场景检测模块120可以自动检测不同镜头之间的分别对应于硬转换 和软转换的“硬”切变和“软”切变。硬切变对应于源视频中两个连续帧之间的视觉相似性的突然变化。 软切变对应于软转换(例如擦除和交叉渐变转换)的开始或结束,其具有跨过若干帧的视觉外观显著但 逐渐改变的特点。可以采用本领域已知的其他预分析技术,例如连续性检测、点跟踪或平面跟踪、三维 跟踪、autokeying、区域分割等。
在步骤S220中,候选插入区模块110处理由场景检测模块120所识别的场景的若干帧的内容。在此, 应当理解,虽然图1所示的系统100包括场景检测模块120,但场景检测模块120是可选的,并且,在替 代实施方式中,候选插入区模块110可以从系统100外部的实体,例如经由高速计算机网络连接、互联 网、或自计算机可读硬件存储设备,接收源视频的场景的若干帧。
候选插入区模块110处理源视频的场景的若干帧的内容,以识别这些帧的图像内容中的一个或多个 候选插入区。可以处理场景的所有若干帧的内容,或者处理若干帧的子集(例如,通过分析数量少于所 有若干帧的帧可以提高处理速度,例如每隔一帧处理一次,或者分析帧的相似性以识别场景内的相似帧 组,以及仅识别每个相似组中的一个或部分帧等)。每个候选插入区适合于将一个(或更多个)对象插入 到场景的若干帧中的至少部分帧的图像内容中。候选插入区模块110还确定每个所识别的候选插入区的 插入区描述符。每个插入区描述符包括一个或多个候选对象类型,表示适合于插入到对应候选插入区中的一个或多个对象类型(例如,候选对象类型可以表示用于插入对应候选插入区的一个或多个推荐、建 议或预测对象类型)。插入区描述符还可以包括表示候选插入区的持续时间的进一步信息(例如,候选插 入区在场景中存在的时间长短、插入区的大小、关于图像的重要性(centralness)等中的一个或多个)。后面 对将候选插入区模块110配置为确定插入区描述符的不同方式的进一步细节进行解释。
候选插入区是适合于插入对象的场景的图像内容的区域。如前所述,候选插入区可以对应于场景的 图像内容中的桌子,其可以适合于插入可放置在桌子上的任何类型的物体,例如灯或一瓶苏打水。在一 种替代方案中,候选插入区可以对应于墙壁,其可以适合于插入海报。在一种替代方案中,候选插入区 可以对应于场景中的物体,例如一罐咖啡或车辆,其可以适合于插入品牌变更对象,以便改变场景中物 体的品牌。
如上所述,插入区描述符可以包括表示插入区的持续时间的信息。候选插入区的持续时间是候选插 入区存在于场景内的时间。作为非限制性示例,在持续30秒的场景期间,角色可以打开冰箱门,露出冰 箱内的架子,该架子可以被识别为候选插入区。五秒钟后,该角色可关闭冰箱门。在本例中,候选插入 区的持续时间是五秒,因为它在场景内仅五秒钟可见。插入区描述符中的信息可以以任何合适的方式表 示候选插入区的持续时间,例如通过以小时、和/或分钟、和/或秒、和/或毫秒等为单位指示插入区在场景 内存在的时间,或者通过指示插入区存在的场景的帧数(可以使用源视频的帧速率从帧数推导出持续时 间)等。
取决于候选插入区模块110的特定实现和/或系统100的所有者/操作者的要求,一个或多个候选对象 类型可以采用任何合适的形式。例如,一个或多个候选对象类型可包括可插入候选插入区的对象的特定 类别。图3提供20个不同对象类别的示例性列表,可以从中选择一个或多个候选对象类型(例如,候选 插入区可以是厨房中的柜台,一个或多个候选对象类型可以包括“食品;软饮料;热饮料”。一个或多个 候选对象类型可以另外地或替代地表示用于插入的特定候选对象,例如X品牌的苏打罐;Y品牌的咖啡 袋;Z品牌的水壶等)。
在识别出一个或多个候选插入区及对应的一个或多个插入区描述符之后,在步骤S230中,候选插入 区模块110可以从系统100输出候选插入区标识及一个或多个插入区描述符。另外或作为替代,在步骤 S230中,候选插入区模块110可以将一个或多个候选插入区标识及插入区描述符传递给分割模块130和/ 或对象插入模块140。
在可选步骤S240中,分割模块130从场景中选择包括候选插入区的帧(例如,它可以选择包含候选 插入区的任意帧,或场景中包含候选插入的第一帧,或场景中包含候选插入区的中间帧,或场景中包含 候选插入区的最后一帧等),并覆盖选定帧中候选插入区的可视化对象以创建插入区建议帧。可以例如基 于像素标记来覆盖候选插入区的可视化对象,其中候选插入区模块110已经标记了场景的帧中的像素以 将每个像素标识为是否属于候选插入区的一部分,使得分割模块可以容易地识别任何候选插入区的边界。 插入区建议帧还可以包括一个或多个候选对象类型的可视化对象(例如,覆盖在帧上的标识一个或多个 候选对象类型的文本)和/或插入区描述符中的任何其他信息的可视化对象,例如覆盖在帧上的文本,其 标识候选插入区在场景中存在的时间量和/或帧数。候选插入区的覆盖可视化对象可以采取场景帧的图像 内容上的彩色区域的形式,其边界对应于候选插入区的边界。
图4示出了场景410的示例帧和插入区建议帧420的示例,插入区建议帧420与场景410的示例帧 相同,但具有覆盖在场景的候选插入区425的可视化对象。应当理解的,插入区建议帧420可以帮助操 作者快速理解候选插入区425的特征和可能性,例如它在场景内的突出程度、什么类型的对象可能适合 于插入、以及这些对象在场景内可多久可见等等。因而,由于可以将源视频或源视频的场景输入到系统 100,并且从系统100快速输出候选插入区及候选插入区的对象插入机会的易理解表示,因此可以显著提 高评估候选插入区的潜在值和随后的对象插入的速度。
在可选步骤S250中,对象插入模块140执行与分割模块130类似的操作,区别在于,不同于生成插 入区建议帧420,对象插入模块140生成对象插入建议帧。这可与插入区建议帧420大致相同,但与候选 插入区覆盖可视化对象不同,对象插入建议帧可包括场景的有对象插入到候选插入区的帧。以这种方式, 可以创建插入机会的模型。
为此,对象插入模块140可以被配置为基于一个或多个候选对象类型,从数据库150中选择要插入 的对象,并将所选择的对象插入到该帧中,数据库150可包括用于插入的对象的图形库。对象图形库可 以按对象类型索引,使得要插入的对象可以是与插入区描述符中的一个或多个候选对象类型匹配的任何 对象(例如,如果插入区描述符标识“饮料,软饮料”作为候选对象类型,可以选择数据库150中任何 类型的软饮料对象并将其插入到帧中以创建对象插入建议帧)。可选地,对象插入模块140可以生成多个 不同的对象插入建议帧,每个帧包括不同的对象,以便可以容易地理解插入到场景中的不同对象的视觉 外观。进一步可选地,对象插入模块140不是完整的插入对象,而是可以插入一个形状(例如,彩色框 或圆柱等),该形状和与该候选对象类型匹配的通用对象大致匹配。这可能有助于对象插入后场景的视觉 显示,而不会限于候选对象类型中的特定对象。
图5示出场景510的示例帧和对象插入建议帧520的示例,对象插入建议帧520与场景510的示例 帧相同,但还包含被建议的插入到场景中的对象525。可选地,对象插入建议帧520还可以包括插入区描 述符中的任何其他信息的可视化对象(例如,覆盖在帧上的文本,其标识候选插入区在场景中存在的时 间量和/或帧数量)。能够理解,对象插入建议帧525可以帮助快速有合适对象插入的场景的快速视觉显示。 此外,如果确定将对象插入场景中,因为操作员可以很快地理解如何以及在何处插入对象,因此可帮助 加速插入过程。
基于候选插入区和候选对象类型,和/或对象插入建议帧和/或插入区建议帧,可以将与候选对象类型 所指示的对象类型对应的一个或多个对象插入到源视频的场景中,使得它们出现在场景的帧的图像内容 中。例如,操作员可以基于候选插入区和候选对象类型,和/或对象插入建议帧和/或插入区建议帧来决定 是否继续插入。如果他们决定继续,可以根据技术人员熟知的任何标准技术插入一个或多个对象。如果 他们决定不继续,则不会发生任何其他事情。作为替代,可以在确定候选插入区和候选对象类型之后自 动插入候选对象类型所指示类型的对象。
候选插入区模块110使用机器学习技术来执行处理场景的若干帧的图像内容所需的至少一些步骤, 以识别场景中的至少一个候选插入区以及对应的至少一个插入区描述符。为此可以以多种不同的方式将 候选插入区模块110配置为使用机器学习,在下面被概括为“间接方法”或“直接方法”。下面参考图6 和图9对根据“间接方法”和“直接方法”中每种方法的候选插入区模块110的示例性配置进行描述。
间接方法
图6是候选插入区模块110的配置的一种示例性示意图,该候选插入区模块110用于执行识别候选插 入区和确定插入区描述符的“间接方法”。候选插入区模块110包括场景描述符子模块610、标识子模块 620、包含插入对象类型库的数据库630和后处理子模块640。数据库630可以与数据库150相同,或者 可以形成数据库150的一部分(或者数据库150可以形成数据库630的一部分),或者可以与数据库150 完全分离。
局部背景描述符
场景描述符子模块610被配置为使用机器学习来处理场景的若干帧的图像内容,以确定场景描述符。 场景描述符可以包括至少一个局部背景描述符和/或至少一个整体背景描述符。
局部背景描述符可以表示若干帧的部分图像内容是什么类型的“事物”。例如,图像内的被标识部分 在语义上可以被归为局部背景描述符的四个分类中的任何一个:(1)人,(2)动物,(3)表面,(4)物 体。在部分图像已被识别为局部背景描述符的四个分类之一的一部分的情况下,可以使用与局部背景描 述符的该分类相关联的属性来更精确地描述图像的该部分。
例如,图7a示出可以用于更准确地描述检测到的“人”的若干属性。在该特定示例中,可以使用两 种不同类型的属性来更准确地描述“人”:性别和年龄。然而,应当理解,可以另外或替代地使用任何数 量的其他类型的属性,例如种族、头发颜色等。另外或替代地,属性可以标识特定演员或角色,以便可 以在整个一系列镜头中跟踪它们。为此目的,可以使用大量易获得的面部识别包中的一个,例如用Fisher 矢量,来标识角色和/或演员。Fisher向量描述于K.Simonyan,A.Vedaldi,A.Zisserman."Deep Fisher networks forlarge-scale image classification"Proc.NIPS,2013中。
例如,图7b示出可以用于更准确地描述检测到的“物体”的若干属性。同样,这些属性仅通过非限 制性的实例示出,并且可以另外或替代地使用任何其他合适的“物体”属性。此外,虽然在该实例中, 仅使用一种类型的物体属性来描述所识别的“物体”,但是作为替代,也可以使用两种或更多种不同类型 的属性,例如物体类别(如饮料罐、杂志、汽车等)和物体品牌,来描述所识别的“物体”。
例如,图7c示出可以用于更准确地描述检测到的“表面”的若干属性。同样,这些属性仅通过非限 制性的实例示出,并且可以另外或替代地使用任何其他合适的“表面”属性。此外,虽然在该实例中, 仅使用一种类型的“表面”属性来描述所识别的“表面”,但是作为替代,也可以使用两种或更多种不同 类型的“表面”属性来描述所识别的“表面”。
用于确定局部背景描述符的像素标签
机器学习子模块610可以被配置为,以任何合适的方式来确定一个或多个局部背景描述符。在一个 特定实例中,它可以被配置为用局部背景概率向量标注场景的若干帧的至少部分像素中的每一个像素(或 者在后面详细解释的场景的若干帧内的至少部分像素中的每一个像素)。虽然由于分辨率的原因,可优选 的用局部背景概率向量标注至少部分像素中的每一个,但在一种替代实现中,每个局部背景概率向量可 以对应于有两个或更多个像素的组。例如,构成一个帧的像素可以被分组为一系列子集,每个子集包括 两个或更多个像素。在这种情况下,每个子集可以用一个局部背景概率向量进行标注。因此,机器学习 子模块610可以被配置为,使用局部背景概率向量来标注至少部分像素(单独地或在子集组中)。局部背 景概率向量可包括若干局部背景标签中每个标签的概率值,每个概率值表示对应局部背景标签所指示的 实体类型适用于像素的可能性(例如,局部背景概率向量中的值可以表示每个标签的相对“评分”,表示 每个标签适用于像素的相对可能性。下面是一个用于像素的局部背景概率向量的非限制性示例:
c=[0.1,0.05,0,0.05,0,0.05,0.05,0.05,0.4,0.15,0.1]
向量c中的每个分量对应于一个局部背景标签,其中每个局部背景实体表示不同类型的实体。在此 例中,各局部背景标签是:
非“事物”,45岁以下男性,45岁以上男性,45岁以下女性,45岁以上女性,动物,桌面,厨房台 面,车辆,计算机,书
因此,此实例中,像素的每个局部背景标签具有以下概率值:
非“事物”=0.1
45岁以下男性=0.05
45岁以上男性=0
45岁以下女性=0.05
45岁以上女性=0
动物=0.05
桌面=0.05
厨房台面=0.05
车辆=0.4
计算机=0.15
书=0.1
因此,可以看出,有四个与“人”类相关的标签(每个标签是与人相关的属性),一个与“动物”类 相关的标签,两个与“表面”类相关的标签(每个标签是与表面相关的属性)和三个与“物体”分类相 关的标签(每个标签是与物体相关的属性)。
“非“事物””标签指示像素不属于任何其他局部背景标签的可能性,即,像素与任何事物无关。“非 “事物””标签的概率可被设置为:1减去局部背景向量中所有其他概率之和。因此,局部背景概率向量 中所有概率的总和应为1。
因此,在此例中,具有最大参数的概率(即最大概率)的局部背景标签是“车辆”。这样,被认为最 可能适用于该一个或多个像素的局部背景标签是“车辆”(即,像素被认为最有可能是车辆的一部分)。
虽然在本例中,局部背景概率向量中的每个概率在0-1之间,值越大表示可能性越大,但应当理解, 局部背景概率向量可以采用任何其他合适的表示对应局部背景标签所指示的实体类型适用于像素的可能 性的形式。例如,局部背景概率向量可以包括0-20之间、或10-20之间或0-100之间等的概率值,其中 每个值表示对应局部背景标签所指示的实体类型适用于像素的相对可能性。因此还可以看出,各概率的 总和不必为1,而是可以是任何其他合适的值。
上文中是局部背景概率向量的一个特定实例,应当理解,可以将机器学习子模块610配置为确定局 部背景概率向量,该局部背景概率向量包括与局部背景标签对应的任意数量的概率值,例如,对应于100s 或1000s的局部背景标签的100s或1000s的概率值。
通过确定帧中像素的局部背景概率向量,可以理解是什么“事物”在帧的图像内容中以及他们的相 对位置。例如,该帧中所有像素都用局部背景概率向量标注且概率值的最大参数对应于“动物”的区域 中可能具有动物。该帧的所有像素都有局部背景概率向量且最大参数对应于“桌面”的另一区域中可能 具有桌面。由于帧中每个像素的位置是已知的,因此动物和桌面的邻近度也是已知的。因此,可以说帧 的图像内容包括桌面和动物,并且它们彼此的邻近度是可感知的。
应当理解,局部背景概率向量不仅能用于识别是什么“事物”在帧的图像内容中以及它们的彼此接 近度,还可以用于确定有多少“事物”在该帧的图像内容内。例如,可以确定任何类型的“事物”的总 数,和/或可以确定每种不同类型的“事物”的总数(例如,人的数量,动物的数量,苏打罐的数量等等)。 这可被用于许多目的,例如确定整体背景描述符和/或确定候选对象类型(后面更详细解释)。
此外,由局部背景概率向量标识为表面的一部分的像素可以表示候选插入区。同样地,由局部背景 概率向量标识为物体的一部分的像素也可以表示候选插入区(因为所识别物体的品牌,例如可以通过对 象插入被改变)。因此,局部背景概率向量不仅可以提供关于图像内容中的“事物”的进一步信息,还可 以用于标识潜在的插入区以及它们与图像内容中标识出的其他“事物”的接近度。
整体背景描述符
整体背景描述符表示若干帧的图像内容的整体背景。可以由机器学习子模块确定一个或多个不同的 整体背景描述符,每个整体背景描述符对应于一个不同的整体背景分类。整体背景分类的非限制性示例 有:场所,人类活动,人类特征,情绪,当日时间,一年中的季节(例如春季,夏季,秋季,冬季),天 气,拍摄地点等。
例如,图7d示出了可用于描述场景的场所的一组属性。在此例中,列出了41种不同类型的场所, 但是应当理解,可以将场景描述符子模块610配置为从任意数量的不同场所属性的列表中确定场景的场 所背景描述符。此外,虽然图7d中的列表标识了通用场所属性,但是可以另外或替代地使用更特定的场 所属性,例如在电影或电视连续剧中经常出现的特定房间或地点可以是场所属性,例如特定角色的卧室, 或特定家庭的厨房等。
场景描述符子模块610可以以任何合适的方式使用机器学习来确定至少一个整体背景描述符。在一 个实例中,对于场景的至少一个帧,场景描述符子模块610可以使用机器学习来确定至少一个整体背景 概率向量。一个帧的每个整体背景概率向量可对应于整体背景描述符的一个不同分类(例如场所,情绪 等),且可以包括若干概率,每个概率对应于一个不同的整体背景标签(每个整体背景标签是整体背景描 述符的特定分类的属性)。基于图7d的示例,对应于“场所”分类的整体背景概率向量可以包括对应于 图7d中列出的41个不同属性的41个概率值。整体背景概率向量中的概率值表示所列出的不同属性适用 于场景的可能性。每个概率值可以在0-1之间,或者可以采用表示相对可能性的任何其他合适的形式,例 如0-20之间,或10-20之间,或0-100之间的值等。每个整体背景中的各概率的总和可选地可以为1,或 是任何其他合适的值。然后,可以将每个整体背景概率向量的具有最大对应概率参数的属性作为最佳地 描述场景的整体背景的属性。例如,如果与场所相关的整体背景概率向量的最大概率参数对应于属性“户 外白天城市街道”,则整体背景描述符可以包括“场所{户外白天城市街道}”。如果与情绪相关的 整体背景概率向量的最大概率参数对应于属性“高兴”,则整体背景描述符还可以包括“情绪{高兴}”等。 因此,整体背景描述符可以包括一个或多个整体背景概率向量和/或一个或多个各类整体背景的被选属性(例如,场所{户外白天城市街道},情绪{高兴}等)。
可以使用机器学习,由处理若干帧的图像内容直接确定整体背景描述符,或者从局部背景描述符推 导确定整体背景描述符。例如,可以基于帧的图像内容的一个或多个局部背景描述符来推出一个或多个 整体背景描述符的合适属性。举例来说,如果我们考虑为帧的图像内容中的局部背景分类“物体”、“表 面”和“人类”所标识的以下属性:
物体{水槽,瓶子,麦片盒}
表面{桌面,台面,墙壁}
人类{女,寡妇}
可以推断,整体背景分类“场所”的合适属性是“厨房”。
类似的,另举一例,如果确定了如道路和长椅的局部背景描述符属性,则可以推出整体背景分类“场 所”的合适属性是“户外”。在帧的图像内容中所标识对象的数量,特别是特定类型对象的数量,也可以 表示特定的整体背景属性。
除了处理若干帧的图像内容以便确定场景描述符之外,机器学习子模块610还可以可选地处理与帧 对应的音频数据。这可以提高确定的可靠性。例如,通常认为枪声是坏的,因此可以提供关于整体背景 描述符的人类行为和/或情绪分类的属性的强烈提示。类似地,笑声可以提供关于整体背景描述符的情绪 分类的幸福属性的提示,喊叫可以提供关于整体背景描述符的情绪分类的兴奋属性的提示等。
场景描述符被传至识别子模块620,识别子模块620使用机器学习基于场景描述符识别图像内容中的 一个或多个候选插入区,并确定每个的插入描述符。可以以带标注的若干帧的形式将它们传给识别子模 块620,用局部背景概率向量和/或整体背景概率向量对这些帧进行标注,和/或用场景的最相关的场景描 述符(例如,为每类整体背景选择的整体背景属性等)对这些帧进行标注。
如前所述,局部背景概率向量可表示可以是插入区的部分图像内容,例如与“表面”或“物体”相 关的区域。通过机器学习,识别子模块620能够识别哪些区域最适合作为候选插入区(例如,基于它们 的大小、在帧中的位置、相对于局部背景描述符所标识的帧中其他“事物”的位置等)。
人类特征背景描述符
识别子模块620还可以为每个候选插入区确定插入区描述符的一个或多个候选对象类型。可以例如 至少基于场景描述符和数据库630中存储的插入对象类型库来确定,所述插入对象类型是根据背景索引 的对象类型。因此,可以基于场景的整体背景属性和/或局部背景属性以最适合场景的方式确定候选对象 类型。
举例来说,出现在场景中的人在确定场景的合适候选对象类型时可能是有用的。这可能是因为插入 对象通常以某种方式与人相关,使得一些插入对象在某些类型的人附近可能看起来很自然,而在其他类 型的人附近则看起来不自然。例如,一般认为儿童对玩具更感兴趣,成人对衣服或家用电器则更感兴趣。 因此,如果场景描述符包括人分类中标识为属性“儿童”的局部背景描述符,则推荐玩具插入帧的图像 内容内可能更合适。因此,识别子模块620可以通过机器学习得知在库中用儿童背景索引出的候选对象 类型应该适合于插入该场景中。
考虑另一个例子,软饮料制造商可能具有一系列被销售给不同类消费者的不同品牌的产品。众所周 知,瘦身或清淡饮料往往更倾向于向女性销售。识别子模块620可以通过机器学习认识至,候选插入区 和局部背景描述符和/或整体背景描述符表明插入软饮料可能是合适的。例如,场景描述符包括场所描述 符“厨房”、表面“冰箱架”和冰箱中候选插入区附近的对象“软饮料”,在这种情况下,识别子模块620 可以搜索数据库630中的背景索引库并识别出插入软饮料可能是合适的(候选对象类型=“软饮料”)。 这可能是非常有用的对象插入推荐。然而,如果场景描述符还识别出场景包括女性,则对背景索引库的 搜索可以更特定地识别出更倾向于向女性销售的特定品牌的软饮料,在这种情况下可以将候选对象类型 设置为该特定品牌。在本案中,候选对象类型更特定,因此可能对后续分析和/或对象插入更有帮助。
因此,可以理解,场景描述符可与不同类型的对象相关联,并且可以使用机器学习来得知这些相关 性。例如,检测出局部背景描述符的实例场所{卧室},人{儿童}和表面{地板}之间的联系可能意味着对象 类型“玩具/游戏”的插入是合适的。对象类型“DIY家具配件”或“烈酒/利口酒”的插入则可能不太合 适。
插入概率向量
识别子模块620可以利用插入概率向量a来标注场景的若干帧中的每个像素。插入概率向量a可与 上述局部背景概率向量c非常相似,相似之处在于它可以具有若干概率值,其中除了一个之外的所有概 率值都对应于对象类型。剩余的一个概率值可对应于“不适合于对象插入”标签。每个概率值表示对应 插入标签所指示的插入类型适用于像素的可能性(例如,插入概率向量中的值可以表示每个标签的相对 “得分”,代表每个标签适用于该像素的相对可能性)。
尽管因为分辨率原因,优选地用插入概率向量对至少部分像素中的每一个像素进行标注,但在一个 替代方案中,每个插入概率向量可对应于包含两个或更多个像素的像素组。例如,构成一帧的像素可以 被分组为一系列子集,每个子集包括两个或更多个像素。在这种情况下,每个子集可以用一个插入概率 向量进行标注。因此,可以将识别子模块620配置为使用插入概率向量来标注至少部分像素(单独地或 在子集组中)。
插入概率向量中的概率值可以采用任何合适的形式。例如,每个概率值可以是0-1、0-10或20-40或0-200等之间的值,值越大表示可能性越高。插入概率向量a中的各概率的总和可以为1,或者可以为任 何其他合适的值。如果插入概率向量被配置为各概率值的总和为1,则对应于“不适合于对象插入”的值 可以被设置为1减去所有其他概率值之和。可以将该标注添加到先前从场景描述符子模块610接收的若 干帧的标注版本中(使得若干帧包括场景描述符和插入描述符标注),或者可以将该标注添加到帧的“新” 版本中(使得若干帧仅包括插入描述符标注)。因此,带标注的帧指示帧的图像内容内的候选插入区以及 对应的一个或多个候选对象类型。
如此,可以借助于帧的图像内容内的一个包括若干像素的区域来识别局部候选插入区,该若干像素 具有若干插入概率向量,所述若干插入概率向量均具有对应于表示特定对象类型的标签的最大概率参数 值。该特定对象类型为候选插入区的候选对象类型。
视觉影响分数建模
后处理子模块640可以接收带标注的若干帧,以便识别用若干插入概率向量标注的若干组像素,其 中各向量的最大参数均对应于相同的标签(即对应于相同的候选物体类型)。它还可以以相同的方式确定 候选插入区的大小、位置和/或持续时间。因此,后处理子模块640可以从候选插入区模块120输出所识 别的插入区的一个或多个候选物体类型的标识以及它已经确定的任何其他插入区描述符信息(例如插入 区的大小、位置、和/或持续时间)。
可选地,还可以将后处理模块640配置为确定一个或多个所识别的候选插入区的视频影响分数(Video Impact Score,简称VIS)。VIS可以作为插入区描述符之一,并用于评估插入区对视频观看者的潜在影响。 VIS可以是对象插入机会值的质量得分的乘数,以说明嵌入到视频内容中的对象的高度可变性。VIS可以 采用任何合适的形式,例如是一个范围内的数字,例如是0到大约2之间的数字(尽管范围可以是任何 大小和粒度)。实际上,可不允许VIS小于1,而是通常在1到2之间。
可以基于插入区的至少部分插入区描述符,例如基于候选插入区的持续时间和/或候选插入区的大小, 来计算候选插入区的VIS。
下面指出用于确定VIS的一种非限制性示例技术。在本例中,VIS基于曝光分数(Exposure Score) 和背景分数(尽管还可基于使用任何一个或多个插入区描述符项的确定VIS的任何其他合适的函数)。这 两个分数是如下面描述的许多参数的加权组合,包括品牌相关性(Brand relevance)、持续时间(Duration)、 主角地位(Hero Status)、接近度(Proximity)、放大(Amplification)。
考虑以下:
计算视频影响分数
VIS=ES+CS
ES=Exposure Score
CS=Context Score
计算曝光分数
ES=WDf(D)+WSf(S)+WAA
D=Quailfying Exposure Duration
S=Average Exposure Size
f(D)=Duration valuation function
f(S)=Size valuation function
W=Weight
背景分数(Context Score,简称CS)是将对象(特别是品牌对象)嵌入到视频内容中的具体指标的 加权组合,其重点在于根据对象(或品牌)与内容之间的适合度来提供评估。
CS可以在0和大约2之间(尽管范围可以是任何大小和粒度)。
用于确定CS的主要参数可以是品牌相关性,其用于确定品牌是否适合背景(例如,酒吧中的伏特加)。 若没有品牌相关性,则分数为0,且CS为0。当我们具有品牌相关性时,背景得分为1或更高,其余参 数供分值提高。
可通过下式获得背景得分,但是应当理解,在使用CS来确定VIS的情况下,可以以任何其他合适的 方式确定CS(例如,仅使用下面所标识的B、H和P中的一个或多个):
因此,应当理解,可以基于至少部分插入区描述符为新视频中的候选插入区确定VIS。候选插入区的 VIS可以是对候选插入区进行排序或者过滤较差的候选插入区的有用技术,以便可容易地识别满足特定视 频影响要求(例如具有大于阈值的VIS)的新视频的候选插入区的数量,以及直接理解对象插入机会对于 新视频的可能适合性。
在一个替代方案中,可以不使用后处理模块,识别子模块620可以简单地输出带标注的帧,使得系 统100内的任何其他模块或子模块(例如,对象插入模块140)或者系统100外部的任何其他模块或子模 块可以处理标注,以识别候选插入区和相应的插入区描述符。
间接方法建模
在描述“直接方法”之前,值得考虑一下如何实现场景描述符子模块610和识别子模块620以便执 行机器学习以及特别是如何训练它们的更多细节。较佳的,在“间接方法”中,我们将使用卷积神经网 络(Convolutional Neural Networks,简称CNN)来识别场景描述符,并使用支持向量机(Support Vector Machines,简称SVM)来识别插入描述符。
卷积神经网络:受生物启发的数学模型
可以使用CNN来识别不同的场景描述符。CNN是若干学习单元(被称为神经元)的网络。CNN用 于将视频帧的初始图像内容按顺序变换为概括图像的可解释特征图。
CNN的生物启发来自视觉信息的前馈处理和视觉皮层中神经元的分层组织。像视觉皮层的不同区域 一样,CNN中的神经元被分组为若干层,同一层内的每个神经元执行相同的数学运算。
CNN中的层通常可以执行:(1)卷积操作(convolutional operation),或(2)激活操作(activation operation),或(3)池化操作(pooling operation)或(4)内积操作(inner product operation)。CNN的第 一层利用一组二维卷积滤波器对图像进行卷积操作。它们大致模拟视觉皮层区域V1中视网膜细胞的行 为,在这个意义上说,它们表现得像Gabor滤波器,之后将信号转发到视觉皮层的更深区域。卷积滤波 器还模拟相邻视网膜细胞具有重叠的感受野(receptive fields)并对相同的视觉刺激做出类似响应。
然后,像视觉皮层的区域V2及其他区域一样,CNN的后续层通过组合较低级别的特征来构建更高 级别的特征。然而,在进行类比时需谨慎,因为人工神经网络并不能完全复制学习视觉概念的生物过程。
更详细地,可能需要训练场景描述符子模块610,以便经由像素标记(1)确定整体场景描述符以及 (2)确定局部背景描述符。为此,应以相似的方式标注用于训练的现有视频素材集。为了更详细地解释 训练过程,先介绍一些定义可能会有所帮助。
定义
CNN在张量上操作。根据定义,张量是多维数组,用于存储和表示CNN的图像数据和中间数据变 换,通常被称为特征图。
因此,可以将图像表示为三维张量
其中,C,H,W分别表示图像通道数、图像高度和图像宽度。像素的RGB颜色值是三维向量。
CNN的输出取决于视觉识别任务。让我们提供一些输出的例子。
·在例如确定给定图像x的整体背景描述符“场所”的图像分类任务中,CNN的最终输出是一个概率 向量
y=CNN(x)
其中第k个系数[k]量化了图像对应于类k(例如场所“厨房”)的概率,图像x的最佳“场所”描述 符被确定为
·在例如确定局部背景描述符的图像分割任务中,CNN的最终输出是若干概率向量的三维张量,其中 每个系数量化了图像像素(i,j)对应于类k(例如像素“桌子”)的概率。这样,将最佳像素标 记确定为下式所定义的张量
张量的维度并不重要,因为各层可以在任何维度的张量上操作。当处理作为输入的视频数据时,在 计算机视觉文献中有时将CNN称为视频网络。在实践中,用长短期记忆(Long-Short-Term-Memory,简 称LSTM)网络来仅使用图像数据并利用时间相干性是足够的并且在计算上更有效。尤其是将它们设计为 处理无限数据序列。
此外,在实践中,向CNN批量提供图像比一张一张地提供效率更高。一批N个图像可以用下面的四 维张量表示
对于视频数据,一批视频为五维张量
在下文中我们将描述限于图像数据并让读者将后续定义推广到视频数据。如上所述,CNN由互连的 若干层组成。层是可微分的函数。可微分性是CNN的核心特性,因为这是在训练阶段反向传播梯度的必 要条件。
作为另一个物理学类比,可将CNN想象为一个电网络,将张量想象为输入或输出电信号,而层则为 过滤来自入射层(incident layers)的输入电信号的电子组件。
定义1我们将卷积神经网络(CNN)定义为有向无环图G=(V,E),其中每个节点v∈V是一个层。
在图像分类任务中取得成功的经典CNN通常为若干层的链。让我们定义CNN中使用的最重要的卷 积层。
定义2设k是RN′×C′×H′×W′中的张量核。具有k的卷积层被定义为将输入张量x∈RN ′×C′×H′×W′(例如 一图像)变换为张量x*k∈RN×N′×H′×w′的函数
总之,张量核k对N个卷积核滤波器(即N个卷积神经元)进行编码,并且作为广泛使用的简化, 卷积层可以作为一种应用于每一图像x[n.,.,.]的所有大小为C×H×W的图像块上的局部取平均操作。每个特 征向量y[n,.,i,j]是描述第n个图像x[n.,.,.]的像素x[n.,i,j]的N'维向量。
在下文中,为简化说明,第n个图像也由xn∈RC×H×W表示。
一个重要的发现是卷积操作等同于简单的矩阵与矩阵的乘法运算,这是深度学习包实现它的方式。 特别地,
1.通过形成形为HW×C'H'W'的矩阵其中每行Wi+j对形为C'×H'×W'的以(i,j)为中心的图 像块区进行编码;和
通过将张量核k重新调整成形为C'H'W'×N'的矩阵K
K=[vec(k1);...;vec(kN′)],
然后我们发现,
特性1.张量卷积等同于矩阵与矩阵的乘积
以及卷积相对于张量核k的导数为
因此,一批N个图像x与核k的张量卷积包含运用N个矩阵-矩阵相乘,可由高效线性代数包很有效 地实现。注意,函数可以用MATLAB或Python中的著名函数im2col实现。
在训练阶段的每次迭代中,计算张量卷积的梯度以更新核k的权重,并且由于链式法则,将张量卷 积的梯度反向传播到前面层。
让我们定义一个整体场景概率向量
定义3整体场景概率向量被定义为任意维度的向量,其中第k个向量输入项(vector entry)是整体 背景描述符的单个分类的属性的置信值。
例如,向量的输入项可对应于场所描述符“厨房”、“起居室”、“城市”等。
为了识别每个像素的局部背景描述符,假设我们具有图像xn的训练集,其中用概率向量yn[.,i,j]标注 每个像素xn[.,i,j]。这使我们定义一个局部场景概率张量。
定义4局部背景概率张量c被定义为[0,1]N×C′×H×W中的若干概率向量的张量,其中c[n,k,i,j]量化了 每个像素xn[.,i,j]的第k个局部描述符的置信值。
应注意,局部背景概率张量与图像张量x具有相同的宽度和高度。仅张量的深度不同。
多目标损失函数和权重共享。可以训练一个专用CNN来预测每种类型的整体背景描述符(场所、情绪等)。 训练阶段通常被制定为参数估计问题。为此,需要可微分的损失函数l(CNN(x),y)来测量估计概率向量 CNN(x)与真值概率向量y之间的误差,其中,真值概率向量y除了在某个索引k处的输入项为1外, 其余每个输入项y[k]均为0。
然后,训练阶段将训练数据中所有数据(xi,yi),i=1,...,N的误差总和降至最小:
关于构成CNN的每层v的参数(xi,yi),i=1,...,N。
目标函数相对于参数kv,v=1...∨V∨是可微分的,通过提供批量图像,随机梯度下降(stochastic gradient descent)法逐步更新参数kv,v=1...∨V∨。
以在速度和存储器消耗方面计算有效的方式,可对每个CNN进行如下联合训练。首先,我们让它们 共享相同的卷积层。只有最后的层不同,以便每个CNN学习特定的整体场景描述符。其次,我们将多目 标损失函数定义为所有误差之和(可能是加权的)。
每个CNNk对应于场所预测器、情绪预测器等。将它们应用于图像张量x以估计整体场景概率向量或 局部概率张量CNNk(x)。每个损失函数lk评估估计张量CNNk(x)与真值张量ck之间的差距。因此,在训练 阶段,来自多目标损失函数的反向传播误差使得共享卷积层的权重相对于所有分类任务变得最佳。
像局部背景概率张量一样,我们定义插入概率张量如下。
定义5插入概率张量a被定义为[0,1]N×C′×H×w中的若干概率向量的张量,其中a[n,k,i,j]量化一类插 入描述符的置信值。
插入概率向量可以仅对插入对象嵌入类型(例如车辆、汽水瓶、手机等、或者不适合于对象插入) 进行编码。每个输入项an[.,i,j]对置信值进行编码,例如,像素xn[.,i,j]是:
k=1:不适合对象插入广告(object insertion advertising),
k=2:适合插入车辆类对象植入式广告(a vehicle type of object productplacement),
k=3:适合插入苏打瓶类对象植入式广告(a soda bottle type of objectsignage placement),
k=4:适合插入手机类对象。
等等。
应当理解,这仅是可以在插入概率向量中识别的对象类型的一个特定实例,在插入概率向量中可以 识别任何数量的其他类型或替代类型的对象。
以上定义有助于解释如何对训练图像集进行标注,以及已训练的机器学习系统因此如何标注源视频 的若干帧(例如,可以训练场景描述符子模块610以便通过上述方式标注与场景描述符概率向量相关的 整体背景概率向量和/或局部背景概率向量,可训练识别子模块620以便用上述插入概率向量标注帧的每 个像素)。由此,我们现在将简要描述可以进行机器学习训练的方法。
解释整体场景描述符识别中的特征图
下面我们展示了一个CNN架构的实例VGG-16,用于1000个类的图像分类。
图11示出输入一图像时CNN在不同阶段的中间结果。在该特定分类任务中,CNN的输入是一图像, 由宽度为224、高度为224、深度为3的三维体表示。
输出是softmax块,为1000维的概率向量。
CNN中的计算流程如下:
·在第一卷积+线性修正单元(convoulution+ReLU)块后,首先将图像变换为特征图224×224 ×64。特征图用作为64个不同卷积核的结果的64维特征向量描述图像的每个像素(i,j)∈[1, 224]×[1,224]。
·在第二卷积+线性修正单元块后,将第一特征图224×224×64变换为第二特征图224×224× 64。同样,第二特征图用作为64个不同卷积核的结果的64维特征向量描述图像的每个像素(i,j) ∈[1,224]×[1,224]。
·然后,最大池化(max pooling)层将第二特征图变换为第三特征图112×112×64。该特征图可 被解释为112×112网格图像块。每个块(i,j)对应于原始图像中不重叠的2×2像素的图像 块区(i,j)。每个块由64维(而不是如图像可能误导的128维)特征向量描述。
·然后,卷积+线性修正单元块将第三特征图变换为第四特征图112×112×64。每个块(i,j)对 应于原始图像中不重叠的2×2像素的图像块区(i,j),并由作为128个卷积核的结果的128 维特征向量描述。
·以此类推,读者能了解如何利用上述推理生成剩余的特征图。
因此,我们很容易理解,由于最大池化操作,CNN构建多尺度表示。在VGG-16例子中,我们即发 现在每个最大池化函数结束时,图像被连续表示为:
·112×112网格的图像块,每个块用64维向量描述原始图像的不重叠的2×2像素的图像块区;
·56×56网格的图像块,每个块用256维特征向量描述不重叠的4×4像素的图像块区;
·28×28网格的图像块,每个块用512维特征向量描述不重叠的8×8像素的图像块区;
·14×14网格的图像块,每个块用512维特征向量描述不重叠的16×16像素的图像块区。
之后,最粗的14×14网格的图像块最终自最后层被转换为1000维的概率向量,最后层由内积、dropout 和softmax层组成,共同形成所谓的感知器网络。
局部背景描述符的识别
为了计算特定的局部背景概率向量,原始的VGG-16架构不适合于直接执行像素分类。然而,我们 在之前已经指出,VGG-16构建输入图像的多尺度(或金字塔)表示。作为第一种方法,可以通过在金字 塔的每一层处连接特征向量来描述原始图像的每个像素。
直观地,由于皮肤颜色不均匀,因此像素的唯一颜色值并不总是足够对应于皮肤像素。然而,如果 我们分析具有不同邻区尺寸的相邻像素的平均颜色,则CNN模型越来越明显地推断出像素确实是皮肤像 素。
完全卷积网络和变异网络用反卷积层利用改进这种直觉。
通过LSTM网络识别人类行为
通过句子描述人类活动是很方便的,LSTM被设计用于预测单词序列。为了使机器能够预测这样的单 词序列,用LSTM网络替换感知器网络就足够了。与通常的层不同,LSTM维持由单元状态向量编码的 状态。这个向量可以被认为是从过去的预测中不断构建的“记忆”,这是LSTM的一个方面,它确保了预 测的时间一致性。
通过一组转移矩阵和权重矩阵更新LSTM。矩阵是训练阶段的优化参数。这些矩阵的一个作用是通过 对新预测的重要性进行适当加权来更新单元状态向量(“记忆”)。我们不会进一步详细说明LSTM网络的 数学机制,读者应该理解LSTM只是另一种可微分函数。因此,在训练阶段期间普通随机梯度方法仍然 工作。
实验中,这种使用VGG-16+LSTM的网络在图像自动字幕中显示出令人印象深刻的结果。
插入描述符的识别
为了识别插入描述符,我们采用基于SVM的方法。SVM是一种分类算法,可用于预测对象是否属 于特定类,并可用于监督学习应用中。基于SVM的分类器只能执行二分类。这看起来虽然似乎是一种限 制,但它可被推广到下面的强大的多类分类。
在间接方法中,我们使用一对多(one-vs-all)策略,为每类品牌类别(例如“厨房用具”)训练专用 SVM分类器,其中训练数据由正样本(即与“厨房用具”相关的图像)以及负样本(即与“厨房用具” 无关的图像)组成。
在训练阶段之后,每个特定类别分类器计算新的未见图像的预测分数。它应该在图像适合于该品牌 类别时提供正分数,在不适合时提供负分数。分数越高,图像越适合该品牌类别。然后可以建立品牌类 别的排名。使用SVM而非CNN的一个优点是,我们可以逐步学习识别新的品牌类别,而无需从零开始 学习过程。另一个优点是,分类不相互排斥时SVM的表现优于CNN。对于品牌类别分类问题,一个场 景实际上可能适合于许多品牌类别。然而,与CNN不同,SVM无法学习将图像数据转换为有效的特征 向量。相反,SVM需要预先准备好的特征表达,以确保适当的识别任务的良好预测结果。
用于减少标注量的半监督学习
有一些方法可以训练学习系统。最简单但最费力的方法是监督学习方法,其中每个训练样本都需要 完全标注。特别地,对于局部背景描述符的预测,可以标注图像的每个像素。最难但费力较少的方法是 半监督学习方法。
获得每个训练视频镜头的标注是一项昂贵且耗时的任务。在实践中,不标注局部背景向量的每个像 素而提供不一定完整但足够量的标注可能更有效。
特别地,我们可能希望允许训练包含粗略或部分标注的视频镜头,例如边界框、涂鸦。半监督学习 算法解决了这些问题。
使用LSTM的时间一致性
视频网络。由于卷积神经网络的通用性,可以将子模块610扩展到视频数据而非图像帧。但视频网 络则并不实用。最重要的是,它产生了沿时间维度适当的视频数据的问题,这可能意味着在预测任务中 丢失信息并降低准确性。
LSTM和变型。作为替代,使用LSTM网络而非感知器网络来确保时间一致性实际更有效。LSTM 仍然适用于场所检测、情绪检测、局部背景描述符、蓝盒预测,因为它意味着简单地通过每个相应CNN 中的LSTM网络替换感知器网络。需注意,它们是在语义分段任务中借用了LSTM的相同原理的众多变 型方法。我们举例性地提一下发条方法(clockworkapproaches)。
图8示出方法800的示例性步骤,方法800用于训练场景描述符子模块610和识别子模块620的机 器学习,以便确定前述的场景描述符。场景描述符子模块610可以包括CNN,其在步骤S802中被提供前 述用场景描述符概率向量标注的图像训练集。这是为了向CNN提供手段以学习前述的可与场景描述符相 关联的图像特征。CNN的最后层可用于提取与局部背景描述符和/或整体背景描述符有关的通用视觉识别 特征。在步骤S804中形成包括场景描述符的加权和预测的神经网络模型。识别子模块可包括用于识别候 选插入区的SVM模型和用于确定对应候选对象类型的另一CNN/CVM模型。可以将包括加权和预测的神 经网络模型提供给识别子模块620来训练SVM,以预测最有用的场景描述符,以用于在步骤S808中确 定候选对象类型。在将从CNN的最后层中的激活生成的通用视觉识别特征提供给SVM之前,可以执行 不同的预处理步骤S806以在SVM阶段改进该方法。这可以包括L2规一化这些特征,或组合图像中不同 块区的特征。
在训练场景描述符子模块610和识别子模块620之后,他们可以处理源视频的若干帧的图像内容如 下:
1.场景描述符子模块610中的基于CNN的模型为场景生成每个场景描述符的热图(例如,通过为若 干帧的每个像素确定局部背景概率向量,在这种情况下,借助于若干帧的热图,使用时间元素为每帧生 成局部背景概率的二维热图);
2.然后,识别子模块620中的一个SVM模型基于场景描述符识别图像内容中的候选插入区;
3.然后,识别子模块620中的另一CNN/SVM模型确定每个候选插入区的对应插入描述符。
直接方法
如前面关于“间接方法”所解释的,特定场景描述符和适合于插入场景的对象类型之间可能存在相 关性。但是,已经意识到,在某些情况下,不同的场景描述符可能是相交的,原因有两个:
·例如,让我们考虑将一个酒瓶放在餐桌上。单纯从背景角度来看,关联桌子-酒瓶似乎比关联墙壁- 酒瓶更正确。因此,对于酒瓶放置,可以认为每个桌子像素比墙壁像素更相关。由此,可以推出 桌子和酒瓶之间的相关性,而不会推出墙壁与酒瓶之间的相关性。
然而,从内容分析师或嵌入艺术家的角度来看,则可能更微妙。首先,由于三维几何形状,放置的 瓶子将需要占据至少部分桌子像素,也可能占据一些墙壁像素。其次,并非每个桌子像素都具有对象插 入影响:如果角色坐在餐桌旁,将瓶子插入角色的手旁而非桌子另一端可能会产生更大的影响。
·插入区的可学习统计属性。我们的数据显示,内容分析师标识的适合于对象插入的插入区通常取决 于它们相对于图像内容中的其他“事物”的位置。例如,他们可能选择“靠近角色手臂和手的桌 子部分”的插入区。同样,标志放置机会可能经常是“室外建筑物墙壁”类,而不是“室内墙壁”。
此外,可以联合学习与不同类型的表面(例如桌面、工作台和吧台)相关的若干特定对象类型。
这两个发现具有重要意义。虽然前面描述的与“间接方法”有关的场景描述符可能非常有用,但是 它们实际上可能并不是识别候选插入区以及确定适合插入候选插入区的候选对象类型所必需的。机器学 习系统,例如使用深度神经网络的机器学习系统,可能能够获得插入区的显著统计特性,并因此同时识 别候选插入区并确定所识别的那些候选插入区的候选对象类型。这在本申请中被称为“直接”方法,原 因是在单个步骤中使用机器学习直接从处理若干帧的图像内容来识别和确定候选插入区以及候选对象类 型(与“间接”方法不同,间接方法中,首先使用机器学习来处理若干帧的图像内容以确定场景描述符,然后在第二机器学习步骤中从场景描述符确定候选插入区和候选对象类型)。
图9示出了用于执行“直接方法”的候选插入区模块110的配置的示例性示意图。可以看出,插入 区和插入对象识别子模块910接收场景的若干帧并处理帧的图像内容,以识别候选插入区以及一个或多 个候选对象类型。
插入区和插入对象识别子模块910可以包括CNN模型,可以以与前述方式类似的方式对该CNN模 型方式进行训练。以这种方式,插入区和插入对象识别子模块910能够学习哪种图像特征类型(例如场 景描述符的类型、局部背景描述符的相对位置)可以确定插入区的大小和位置,并可能使它们自己插入 特定类型的对象。在训练集中对象通常由于特定原因而被插入到图像内容中,例如,特定类型的对象被 插入到图像中,因为它们与其余的图像内容很配和/或对象可以靠近特定角色被插入以提升所插入对象的 影响(如前面所解释的),因此插入区和插入对象识别子模块910应该从训练集学习这些。由此,当已训 练的插入区和插入对象识别子模块910处理新的源视频的若干帧时,它可以自然地将候选插入区识别为 处于图像内容的最佳区域中(例如,如前面“间接”方法部分所述,处于靠近角色的手的桌子和墙壁像 素内用于插入酒瓶,而不是远离角色的手桌子像素)。
类似于先前描述的识别子模块620,插入区和插入对象识别子模块910可以输出若干帧的标注版本, 标注包括每个像素的插入概率向量。后处理子模块920可以被配置为以与先前描述的后处理子模块640 相同的方式操作,并输出如前所述的候选插入区的标识和对应的插入描述符。然而,后处理子模块920 是可选的,或者,候选插入区模块110可以简单地输出由插入区和插入对象识别子模块生成的带标注的 若干帧。
在上述“直接”和“间接”实现中,使用由场景描述符和插入描述符标注的图像训练集来执行机器 学习模块的训练。然而,在某些情况下,可能无法获得足够大的包含这些标注的训练素材集。例如,可 能有内容分析员或嵌入艺术家标注过的具有插入描述符但没有任何场景描述符的大图像集,因为可能内 容分析员或嵌入艺术家的工作只是插入对象到这些图像中。在这种情况下,“直接”方法可能仍然有效, 因为它仍然可以隐含学习图像的不同特征,这些特征使得内容分析员或嵌入艺术家选择他们已选择的插 入区和插入对象。然而,优选地,机器学习模块仍可学习如何识别图像的场景描述符,以进一步对识别 候选插入区和确定候选对象类型进行改进。在仅包括插入描述符的训练集可用的情况下,可以利用其他 已训练的机器学习模块作为训练过程的一部分。
图10示出了训练系统的一个示例图,该训练系统包括已训练机器学习模块1010和待训练机器学习 模块1020。待训练机器学习模块1020可以是上述“间接方法”的场景描述符子模块610和识别子模块 620或上述“直接方法”的插入区和插入对象识别子模块910。在本例中,可以使用由插入区描述符标注 的训练集。这被提供给已训练机器学习模块1010和待训练机器学习模块1020。已训练机器学习模块1010 可被训练以识别场景描述符(例如,它可以被训练以执行局部背景识别),以便它可以识别图像训练集的 场景描述符并将它们提供给待训练机器学习模块1020(例如,如具有图像训练集的场景描述符概率向量 标注一样)。因此,通过利用现有的已训练机器学习模块1010,待训练机器学习模块1020仍被训练为如 前所述的使用缺少场景描述符的图像训练集进行操作。
可选地,对于上述直接和间接方法,操作员或用户可以向候选插入区模块110提供关于所识别的候 选插入区和/或插入区描述符的反馈。
用户或操作员可以以任何合适的形式(例如,通过查看对象插入建议帧和/或插入局部建议帧等)查 看所识别的候选插入区和/或插入区描述符,并评估其对于若干帧的图像内容的适合性。以这种方式,熟 练的操作者或用户可以利用他们的对象插入专业知识来评估至少部分使用机器学习已确定的候选插入区 和/或插入区描述符的适合性。
可以采用任何合适形式的反馈,例如,用户可以指示所识别的候选插入区和/或插入区描述符是否适 合于或不适合于若干帧的图像内容,或者他们可能会按0-5或0-10或0-100的等级对适合性进行评定等。 然后可以使用反馈来改进已在候选插入区模块110中使用的机器学习算法,以便提高将要确定的候选插 入区和/或插入区描述符的质量或适合性。
本领域技术人员将容易理解,在不脱离本申请的范围的情况下,可以对本申请的上述方面进行各种 改变或修改。
例如,可选地,系统100还可以包括最终插入模块,被配置为接收用于插入源视频的场景中的对象 或附加素材,并生成输出素材,所述输出素材包括源视频及所接收的对象或附加素材的至少一部分。所 接收的对象或附加素材可以是候选对象类型指示的类型。例如,可以借助于基于插入区描述符的检索或 任何其他手段,例如从附加素材的数据存储区/库(其可以是系统100的一部分或与系统100分离),接收 该对象或附加素材。以这种方式,最终插入模块可以类似于上述对象插入模块140工作,但最终插入模 块并不创建对象插入建议帧,实际上它可将对象插入到场景的若干帧的图像内容中。插入本身可以根据 技术人员很好理解的任何标准技术进行。对象或素材的接收和插入可以是自动的,或者可以在收到已考 虑候选插入区及被推荐为适合插入候选插入区的对象类型的用户批准之后进行。以这种方式,可以快速 且可靠地将合适的对象或附加素材插入到场景的图像内容中。
在自动插入的情况下,可将系统100配置为使其仅输出包括插入候选插入区中的对象或附加素材的 输出素材。在用户批准之后进行插入的情况下,系统100可以输出候选插入区的标识和候选对象类型、 对象插入建议帧、和/或插入区建议帧中的至少一个。在收到用户批准之后,系统100可以输出包括插入 候选插入区中的对象或附加素材的输出素材。
此外,图1、图6、图9和图10包括各种互连的模块/实体。然而,可以由单个模块执行任何两个或 更多个模块/实体的功能,例如,候选插入区模块110和对象插入模块140的功能可以由单个实体或模块 实现。同样,图中所示的任何一个或多个模块/实体可以由两个或更多个互连的模块或实体实现。例如, 场景描述符子模块610的功能可以由若干互连实体的系统实现,该若干实体被配置为共同执行场景描述 符子模块610的功能。图中所示的实体/模块(和/或可共同执行图中的一个实体/模块的功能的任何两个或 更多个模块)可以共同位于相同的地理位置(例如,在相同的硬件设备内),或者可以位于不同的地理位 置(例如在不同的国家)。它们可以作为较大实体的一部分(例如,多功能服务器或计算机内的软件模块) 或作为专用实体被执行。
本申请的上述各方面可以通过软件、硬件或软件和硬件的组合来实现。例如,候选插入区模块110 的功能可以由包括计算机可读代码的软件实现,该计算机可读代码在任何电子设备的处理器上运行时执 行上述功能。软件可以存储在任何合适的计算机可读介质上,例如非暂时性计算机可读介质,例如只读 存储器、随机存取存储器、CD-ROM、DVD、蓝光、磁带、硬盘驱动器、固态硬盘和光驱。计算机可读 介质可以分布在网络连接的计算机系统上,使得计算机可读指令以分布式方式存储和执行。或者,候选 插入区模块110的功能可以由电子设备实现,该电子设备被配置为例如借助于诸如FPGA的可编程逻辑 来执行该功能。
包括计算机可读介质(例如存储器)的电子设备,其包括被配置为执行上述过程的计算机程序。电 子设备还包括用于执行计算机程序的计算机可读代码的处理器。应当理解,电子设备可以可选地包括任 何其他合适的组件/模块/单元,例如一个或多个I/O终端、一个或多个显示设备、一个或多个另外的计算 机可读介质、一个或多个另外的处理器等。

Claims (16)

1.一种系统,包括:
候选插入区模块,被配置为:
接收源视频的场景的若干帧;和
至少部分使用机器学习对所述若干帧的图像内容进行处理,以便
识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和
确定所识别的候选插入区的插入区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的对象的类型。
2.如权利要求1所述的系统,其中,所述候选插入区模块包括:
识别子模块,被配置为识别所述候选插入区及确定所识别的候选插入区的插入区描述符;和
确定所述场景的若干帧的至少部分像素的插入概率向量,所述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。
3.如权利要求2所述的系统,其中,所述若干插入标签包括:
表示所述像素不适合于对象插入的标签;和
表示对应的一个或多个对象类型的一个或多个标签。
4.如权利要求2或3所述的系统,其中,所述候选插入区包括具有若干插入概率向量的若干个像素,所述若干插入概率向量均具有与表示所述候选对象类型的标签对应的概率值的最大参数。
5.根据任一前述权利要求的系统,其中,所述候选插入区模块包括:
场景描述符子模块,被配置为利用机器学习处理所述若干帧中至少部分帧的图像内容,以便确定场景描述符,其中
所述候选对象类型的确定至少部分地基于所述场景描述符。
6.如权利要求5所述的系统,其中:
所述候选插入区的识别至少部分地基于所述场景描述符。
7.如权利要求5或6所述的系统,其中,所述场景描述符包括至少一个表示所述场景中的被识别实体的局部背景描述符。
8.如权利要求7所述的系统,其中,
所述场景描述子模块被配置为,使用机器学习处理所述若干帧的图像内容,以便为所述场景的若干帧的至少部分像素确定局部背景概率向量,所述局部背景概率向量包括若干局部背景标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。
9.如权利要求8所述的系统,其中,所述若干局部背景标签包括:
表示所述像素与任何事物无关的标签;和以下至少其中一个:
表示人的一个或多个标签;
表示动物的一个或多个标签;
表示物体的一个或多个标签;
表示表面的一个或多个标签。
10.如权利要求1所述的系统,其中,所述候选插入区模块还包括:
插入区和插入对象识别子模块,被配置为通过使用机器学习处理所述若干帧的图像内容以识别所述候选插入区和候选对象类型,以便为所述若干帧的至少部分像素确定插入概率向量,所述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示对应于插入标签的插入类型适用于所述像素的可能性。
11.如权利要求10所述的系统,其中,所述若干插入标签包括:
表示所述像素不适合对象插入的标签;和
表示对应的一类或多类对象适合于在所述像素中插入的一个或多个标签。
12.如权利要求10或11所述的系统,其中,所述候选插入区包括具有若干插入概率向量的若干像素,所述若干插入概率向量均具有与表示所述候选对象类型的标签对应的概率值的最大参数。
13.如前述任一权利要求的系统,其中,所述候选插入区模块还被配置为:
接收来自操作员的反馈,其中所述反馈表示所识别的候选插入区和/或所述候选对象类型对所述若干帧的图像内容的适合性;和
至少部分地基于所述反馈对所述机器学习进行调整。
14.一种处理源视频的场景的若干帧的图像内容的方法,所述方法包括:
接收所述源视频的场景的若干帧;和
至少部分使用机器学习对所述若干帧的图像内容进行处理,以便:
识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和
确定所识别的候选插入区的插入区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的对象的类型。
15.一种计算机程序,被一个电子设备的处理器运行时执行如权利要求15的方法。
16.一种训练候选插入区模块以识别候选插入区和用于插入源视频的场景中的一个或多个候选对象的方法,所述方法包括:
接收包括若干图像的训练集,每个图像用至少一个插入区的标识和每个插入区的一个或多个候选对象类型进行标注;和
使用机器学习和所述训练集训练所述候选插入区模块,以处理所述源视频的若干帧的图像内容,以便:
识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧的至少部分帧的图像内容中;和
确定所识别的候选插入区的插入区描述符,所述插入区描述符包括一个或多个候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的对象类型。
CN201811009060.4A 2017-08-31 2018-08-31 用于识别候选视频插入对象类型的机器学习 Pending CN109614842A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB1714000.5 2017-08-31
GBGB1714000.5A GB201714000D0 (en) 2017-08-31 2017-08-31 Machine learning for identification of candidate video insertion object types

Publications (1)

Publication Number Publication Date
CN109614842A true CN109614842A (zh) 2019-04-12

Family

ID=60050523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811009060.4A Pending CN109614842A (zh) 2017-08-31 2018-08-31 用于识别候选视频插入对象类型的机器学习

Country Status (5)

Country Link
US (1) US10671853B2 (zh)
EP (1) EP3451683A1 (zh)
CN (1) CN109614842A (zh)
BR (1) BR102018067373A2 (zh)
GB (1) GB201714000D0 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079527A (zh) * 2019-11-07 2020-04-28 北京航空航天大学 一种基于3d残差网络的镜头边界检测方法
CN111988661A (zh) * 2019-05-24 2020-11-24 米利雅得广告公开股份有限公司 将视觉对象合并到视频材料中

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878021B2 (en) 2015-08-17 2020-12-29 Adobe Inc. Content search and geographical considerations
US11048779B2 (en) 2015-08-17 2021-06-29 Adobe Inc. Content creation, fingerprints, and watermarks
US10475098B2 (en) 2015-08-17 2019-11-12 Adobe Inc. Content creation suggestions using keywords, similarity, and social networks
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10366302B2 (en) * 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US11144798B2 (en) * 2016-11-21 2021-10-12 V7 Ltd. Contextually aware system and method
US10572775B2 (en) 2017-12-05 2020-02-25 X Development Llc Learning and applying empirical knowledge of environments by robots
CN108597034B (zh) * 2018-04-28 2022-11-01 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
TWI709188B (zh) * 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
US10853983B2 (en) * 2019-04-22 2020-12-01 Adobe Inc. Suggestions to enrich digital artwork
CN110059642B (zh) * 2019-04-23 2020-07-31 北京海益同展信息科技有限公司 人脸图像筛选方法与装置
CN110874594B (zh) * 2019-09-23 2023-06-30 平安科技(深圳)有限公司 基于语义分割网络的人体外表损伤检测方法及相关设备
US11373095B2 (en) * 2019-12-23 2022-06-28 Jens C. Jenkins Machine learning multiple features of depicted item
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
CN113934886B (zh) 2020-06-29 2023-08-22 抖音视界有限公司 转场类型确定方法及装置、电子设备和存储介质
WO2022018628A1 (en) * 2020-07-20 2022-01-27 Sky Italia S.R.L. Smart overlay : dynamic positioning of the graphics
WO2022018629A1 (en) * 2020-07-20 2022-01-27 Sky Italia S.R.L. Smart overlay : positioning of the graphics with respect to reference points
GB2600910A (en) * 2020-09-04 2022-05-18 Whisper Holdings Pte Ltd Video editing
US20220207294A1 (en) * 2020-12-28 2022-06-30 Markany Inc. Method and device for augmenting training data by combining object and background
CN112733919B (zh) * 2020-12-31 2022-05-20 山东师范大学 基于空洞卷积和多尺度多分支的图像语义分割方法及系统
CN112507978B (zh) * 2021-01-29 2021-05-28 长沙海信智能系统研究院有限公司 人物属性识别方法、装置、设备及介质
US11893792B2 (en) * 2021-03-25 2024-02-06 Adobe Inc. Integrating video content into online product listings to demonstrate product features
US11594258B2 (en) 2021-07-19 2023-02-28 Pes University System for the automated, context sensitive, and non-intrusive insertion of consumer-adaptive content in video
US11979620B2 (en) 2021-12-17 2024-05-07 Industrial Technology Research Institute System, non-transitory computer readable storage medium and method for automatically placing virtual advertisements in sports videos

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046920A1 (en) * 2006-08-04 2008-02-21 Aol Llc Mechanism for rendering advertising objects into featured content
US20110188836A1 (en) * 2008-05-28 2011-08-04 Mirriad Limited Apparatus and Method for Identifying Insertion Zones in Video Material and for Inserting Additional Material into the Insertion Zones
CN102521606A (zh) * 2011-11-29 2012-06-27 中南大学 一种对jpeg图像的像素块分类方法及基于此的图像篡改检测和被篡改区域定位方法
CN105141987A (zh) * 2015-08-14 2015-12-09 京东方科技集团股份有限公司 广告植入方法和广告植入系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1115001A (en) 1999-10-22 2001-05-08 Activesky, Inc. An object oriented video system
US8930561B2 (en) * 2003-09-15 2015-01-06 Sony Computer Entertainment America Llc Addition of supplemental multimedia content and interactive capability at the client
US8479229B2 (en) 2008-02-29 2013-07-02 At&T Intellectual Property I, L.P. System and method for presenting advertising data during trick play command execution
US9961388B2 (en) * 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US9467750B2 (en) 2013-05-31 2016-10-11 Adobe Systems Incorporated Placing unobtrusive overlays in video content
WO2015047246A1 (en) * 2013-09-25 2015-04-02 Intel Corporation Dynamic product placement in media content
WO2017066874A1 (en) * 2015-10-19 2017-04-27 Fatehali Dharssi Methods and systems for processing digital video files for image insertion involving computerized detection of similar backgrounds

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046920A1 (en) * 2006-08-04 2008-02-21 Aol Llc Mechanism for rendering advertising objects into featured content
US20110188836A1 (en) * 2008-05-28 2011-08-04 Mirriad Limited Apparatus and Method for Identifying Insertion Zones in Video Material and for Inserting Additional Material into the Insertion Zones
CN102521606A (zh) * 2011-11-29 2012-06-27 中南大学 一种对jpeg图像的像素块分类方法及基于此的图像篡改检测和被篡改区域定位方法
CN105141987A (zh) * 2015-08-14 2015-12-09 京东方科技集团股份有限公司 广告植入方法和广告植入系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111988661A (zh) * 2019-05-24 2020-11-24 米利雅得广告公开股份有限公司 将视觉对象合并到视频材料中
US11521656B2 (en) 2019-05-24 2022-12-06 Mirriad Advertising Plc Incorporating visual objects into video material
CN111079527A (zh) * 2019-11-07 2020-04-28 北京航空航天大学 一种基于3d残差网络的镜头边界检测方法

Also Published As

Publication number Publication date
US10671853B2 (en) 2020-06-02
EP3451683A1 (en) 2019-03-06
BR102018067373A2 (pt) 2019-03-19
GB201714000D0 (en) 2017-10-18
US20190065856A1 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
CN109614842A (zh) 用于识别候选视频插入对象类型的机器学习
Xie et al. Segmenting transparent objects in the wild
CN109447140B (zh) 一种基于神经网络深度学习的图像识别并推荐认知的方法
US20240028867A1 (en) Methods and apparatus for detecting, filtering, and identifying objects in streaming video
CN110737783B (zh) 一种推荐多媒体内容的方法、装置及计算设备
Russakovsky et al. Imagenet large scale visual recognition challenge
CN102855268A (zh) 基于属性关系进行图像排序的方法和系统
CN108491469B (zh) 引入概念标签的神经协同过滤概念描述词推荐方法
Vasconcelos et al. A Bayesian framework for semantic content characterization
Nie et al. Multimodal learning toward micro-video understanding
CN113536922A (zh) 一种加权融合多种图像任务的视频行为识别方法
Wang et al. The monkeytyping solution to the youtube-8m video understanding challenge
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN109391829A (zh) 视频打点位置分析系统、分析方法及储存媒体
CN105678340B (zh) 一种基于增强型栈式自动编码器的自动图像标注方法
Lonn et al. Smartphone picture organization: A hierarchical approach
Shigenaka et al. Content-aware multi-task neural networks for user gender inference based on social media images
CN116932862A (zh) 冷启动对象推荐方法、装置、计算机设备和存储介质
Rodriguez et al. Integrating vision and language in social networks for identifying visual patterns of personality traits
Ahsan et al. Complementary Recommendations Using Deep Multi-modal Embeddings For Online Retail
Amengual et al. How to measure memorability and social interestingness of images: A review
Lee On the linear algebraic structure of distributed word representations
Lu et al. Deep conditional color harmony model for image aesthetic assessment
Palamas et al. AI_deation: A Creative Knowledge Mining Method for Design Exploration.
Abdari et al. A Language-based solution to enable Metaverse Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190412

WD01 Invention patent application deemed withdrawn after publication