CN115298681A

CN115298681A - 用于将广告粘贴到视频的方法和设备

Info

Publication number: CN115298681A
Application number: CN202180022080.9A
Authority: CN
Inventors: 林柏杰; 杨成
Original assignee: Megas Creative Co ltd
Current assignee: Sunfun Technology Co ltd
Priority date: 2020-03-18
Filing date: 2021-03-02
Publication date: 2022-11-04
Also published as: US20230080997A1; WO2021185068A1

Abstract

本文公开了用于将对象粘贴到视频的系统和方法。一种方法可包含：接收具有多个视频帧的所述视频，其中包含结束视频帧；扫描所述多个视频帧中的第一视频帧，其中所述第一视频帧具有一个或多个第一目标对象和一个或多个第二目标对象；基于视频帧索引，确定所述多个视频帧中的所述第一视频帧是否为所述结束视频帧；如果所述第一视频帧不是所述结束视频帧，那么确定是否在数据库中识别到与所述第一视频帧相关联的对应的预定视频帧信息；如果在数据库中识别到与所述第一视频帧相关联的所述对应的预定视频帧信息，那么将所述一个或多个第二目标对象分段；从所述第一视频帧提取一个或多个分段后的第二目标对象；基于与所述第一视频帧相关联的所述对应的预定视频帧信息，将一个或多个预定对象粘贴到所述视频帧中的所述一个或多个第一目标对象；以及将所提取的一个或多个第二目标对象粘贴到所述视频帧。

Description

用于将广告粘贴到视频的方法和设备

技术领域

本发明涉及将对象粘贴到视频，确切地说，涉及用于将广告粘贴到视频的系统和方法。

背景技术

众所周知，一个或多个对象能够粘贴到视频。所述一个或多个对象可为例如2D广告横幅/标签或2D广告图像等广告材料。当粘贴到视频时，2D广告横幅/标签可以遮挡视频中的一个或多个对象。举例来说，2D广告横幅/标签在视频的一些场景中遮挡表演者，其结果是视频变得不自然且不真实。观众可能会对此类不自然且不真实的视频感到不适，并退出观看视频。

本发明涉及解决前述问题且提供相关优点的改进。

发明内容

下文描述本发明的各种实施例以提供用于经由视频广告平台将广告粘贴到视频的方法。

本文中公开了实例方法。实例包含具有AI引擎以接收具有多个视频帧的视频的设备，其中包含结束视频帧。扫描多个视频帧中的第一视频帧，其中第一视频帧具有一个或多个第一目标对象和一个或多个第二目标对象。AI引擎基于视频帧索引而确定多个视频帧中的第一视频帧是否为结束视频帧。当第一视频帧不是结束视频帧时，AI引擎确定是否在数据库中识别到与第一视频帧相关联的对应的预定视频帧信息。当在数据库中识别到与第一视频帧相关联的对应的预定视频帧信息时，AI引擎将一个或多个第二目标对象分段且从第一视频帧提取一个或多个分段后的第二目标对象。基于与第一视频帧相关联的对应的预定视频帧信息，将一个或多个预定对象粘贴到视频帧中的一个或多个第一目标对象。将所提取的一个或多个第二目标对象粘贴到视频帧。

附图说明

通过参考结合附图描述的附图能最佳地理解本发明，其中相同的部分可以用相同的附图标记表示。

图1说明根据本发明的各种实施例的网络配置。

图2说明根据本发明的各种实施例的视频广告平台的框图。

图3A说明根据本发明的各种实施例的视频广告平台的用户界面的登录界面。

图3B说明根据本发明的各种实施例的视频广告平台的用户界面的上传视频界面。

图3C说明根据本发明的各种实施例的视频广告平台的用户界面的视频库界面。

图3D说明根据本发明的各种实施例的视频广告平台的用户界面的简档界面。

图3E说明根据本发明的各种实施例的视频广告平台的用户界面的创建活动界面。

图3F说明根据本发明的各种实施例的视频广告平台的用户界面的简档界面。

图4A到图4D说明根据本发明的各种实施例手动地准备与视频帧相关联的一个或多个预定广告材料和预定视频帧信息。

图5A到图5F说明根据本发明的各种实施例将一个或多个第二目标对象分段且从视频帧提取一个或多个分段后的第二目标对象，且通过AI引擎将一个或多个预定广告材料粘贴到一个或多个第一目标对象。

图6说明根据本发明的各种实施例的展示将一个或多个广告材料粘贴到视频帧的过程的实例流程图。

图7说明根据本发明的各种实施例的展示将一个或多个广告材料粘贴到视频帧的过程的另一实例流程图。

具体实施方式

呈现以下描述以使得所属领域普通技术人员能够制造和使用各种实施例。特定装置、技术和应用的描述仅作为实例提供。所属领域的技术人员将易于了解对本文所描述的实例的各种修改，并且在不脱离本发明的精神和范围的情况下，本文所定义的一般原理可以应用于其它实例和应用。因此，公开的发明并不局限于本文描述和所示的实例，而是被赋予与权利要求一致的范围。

图1说明根据本发明的实施例中的一个的网络配置。网络100包含因特网110、视频提供商160a和160b、服务订户180a和180b、视频共享平台/社交媒体平台140以及视频广告平台120。视频提供商包含但不限于电影制片人、TV制片人、影响者、艺术家、名人、关键意见领袖(KOL)、个人和机构。服务订户180a和180b包含但不限于广告商、广告机构、品牌所有者、服务提供商和产品制造商。视频共享平台和/或社交媒体平台140包含但不限于

Tencent

以及

在一个实施例中，第一服务订户180a为能够将一个或多个对象上传到视频广告平台120的广告商。所述一个或多个对象存储在数据库中。所述一个或多个对象可为广告材料或任何图像。所述广告材料可为2D或3D图像，其包含品牌标志、产品、海报、横幅、标语、声明或用于促销/营销的任何图像。

图2说明根据本发明的实施例中的一个的视频广告平台120的框图的简化视图。视频广告平台120包含视频广告服务器122，在所述视频广告服务器处包含人工智能(AI)引擎124、用户界面126和存储装置128。

在一个实施例中，一个或多个视频提供商是视频广告平台120的注册用户。所述一个或多个视频提供商使用例如智能手机、平板计算机、手持式计算机、摄录像机、录像机、相机或具有视频拍摄功能的任何装置等视频拍摄装置来制作视频。仅举例来说，第一视频提供商160a使用他/她的智能手机来拍摄一个或多个视频。第二视频提供商160b使用录像机来拍摄一个或多个视频。第一视频提供商160a和第二视频提供商160b为注册用户并且能够将一个或多个视频上传到视频广告服务器122。第一视频提供商160a和第二视频提供商160b均为影响者。第一视频提供商160a和第二视频提供商160b中的每一个具有他/她自己的登录名，例如他/她的电子邮件地址。对登录名的格式没有限制。登录名可以是字母和数字的任何组合。第一视频提供商160a和第二视频提供商160b中的每一个具有他/她自己的登录密码。

图3A说明根据本发明的各种实施例的视频广告平台的用户界面的登录界面。登录界面300配置成供用户访问视频广告平台200。在一个实例中，登录界面300可为基于浏览器的版本且在网页浏览器上运行。网页浏览器可在多种操作系统上运行，包含个人计算机操作系统，例如Windows、iOS或Linux，或移动操作系统，例如iOS、Android或Windows Mobile等。在另一实例中，登录界面300可为在多种操作系统上运行的应用程序版本。

仅举例来说，登录界面300包含登录名称栏301和登录密码栏302。第一视频提供商160a能够在登录名称栏301中键入他/她的登录名。接着第一视频提供商160a能够在登录密码栏302中键入他/她的登录密码。

一旦第一视频提供商160a成功地键入登录名和登录密码，第一视频提供商160a就能够访问上传视频界面303，如图3B中所说明。上传视频界面303专供视频提供商160a上传一个或多个视频。

上传视频界面303包含用于视频提供商160a打开要上传的视频文件(也称为原始视频)的框304。接着布置原始视频以上传到视频广告服务器122并存储在存储装置128中。

一旦成功地将原始视频上传到视频广告服务器122，原始视频就将在视频库界面305上显示，如图3C中所说明。视频库界面305专供视频提供商操作。接着布置原始视频，以供AI引擎124通过插入一个或多个广告材料进行处理。仅举例来说，原始视频包含于原始视频显示框306中。当成功地将一个或多个广告材料粘贴到原始视频时，将生成对应的已处理视频。已处理视频将包含于已处理视频显示框307上。视频库界面305进一步包含重新处理按钮308a、同意按钮308b和拒绝按钮308c。第一视频提供商160a能够审阅已处理视频。接着第一视频提供商160a能够在审阅已处理视频之后通过按压对应的按钮(重新处理按钮308a、同意按钮308b和拒绝按钮308c)而重新处理、同意或拒绝已处理视频。原始视频可由第一视频提供商160a经由原始视频显示框306下载。并且，已处理视频可由第一视频提供商160a经由已处理视频显示框306下载。

仅举例来说，第一视频提供商160a能够在简档界面309处更新他/她的简档信息，如图3D中所说明。简档界面309专供视频提供商使用。简档界面309包含供视频提供商键入的一个或多个简档信息栏。举例来说，简档界面309可包含名字栏310a、姓氏栏310b、国籍栏310c、出生年份栏310d、位置栏310e、性别栏310f、机构栏310g、电话号码栏310h和地址栏310i。对简档界面309中包含什么简档信息栏没有限制。作为一个实例，简档信息栏可进一步包含教育栏、社交媒体账号栏和工作经历栏。作为另一实例，简档信息栏可仅包含名字栏310a、姓氏栏310b、国籍栏310c、出生年份栏310d。第一视频提供商160a能够在对应的栏中键入信息。

图3E说明根据本发明的各种实施例的视频广告平台的用户界面的创建活动界面。在一个实施例中，第一服务订户180a为广告商并且也为视频广告平台120的注册用户。第一服务订户180a具有登录名和登录密码。第一服务订户180a打开网页浏览器上的登录界面300。在第一服务订户180a成功地在登录名称栏301中键入登录名且在登录密码栏302中键入登录密码后，第一服务订户180a能够访问创建活动界面311。

创建活动界面310包含活动名称栏312a、描述312b、活动周期栏312c、相关KOL栏312d、广播位置栏312e以及优选视频流式传输平台312f。对创建活动界面311中包含什么栏没有限制。作为一个实例，创建活动界面311可进一步包含类别栏(例如，运动、健身、音乐、生活方式、食物、技术和旅行)和/或优选语言栏。作为另一实例，创建活动界面311可仅包含活动名称栏312a和描述312b。第一服务订户180a能够在对应的栏中键入信息。另外，创建活动界面311为第一服务订户180a提供用于上传一个或多个对象的栏或框。第一服务订户180a能够经由资产上传框312g上传一个或多个广告材料。

仅举例来说，第一服务订户180a能够经由简档界面313更新简档信息，如图3F中所说明。简档界面313专供服务订户使用。简档界面313可包含供服务订户键入的一个或多个简档信息栏。举例来说，简档界面313可包含两个区段，所述区段为联系人区段和公司信息区段。名字栏314a、姓氏栏314b、电子邮件地址栏314c和电话号码栏314d包含于联系人区段中。对联系人区段中包含什么栏没有限制。举例来说，联系人区段可进一步包含即时消息接发账户(例如，

和

)。公司信息区段可包含公司名称栏314e、公司网站栏314f和公司位置栏314g。对公司信息区段中包含什么栏没有限制。举例来说，公司信息区段可进一步包含公司地址栏和商业性质栏。第一服务订户180a能够在对应的栏中键入信息。

图4A到图4D说明根据本发明的各种实施例手动地准备与视频帧相关联的一个或多个预定广告材料和预定视频帧信息。在一个实施例中，视频广告平台120从第一视频提供商160a接收第一视频。第一视频显示于原始视频显示框306上。第一视频可满足一个或多个预定要求，例如分辨率、持续时间、目标对象的存在、拍摄背景和拍摄稳定性。

第一视频包含多个视频帧。在AI引擎124扫描第一视频之前，多个视频帧被布置成手动地检查以便识别一个或多个第一目标对象。举例来说，第一目标对象可为四边形对象，例如图片帧、监视器、显示器或电视。对第一目标对象的形状没有限制。第一目标对象可为三角形、六边形或八边形对象。对第一目标对象的性质没有限制。第一目标对象可为桌子、机柜、墙壁、床或具有平面的任何对象。

可逐一手动地检查视频帧，或可以集体方式手动地检查视频帧。举例来说，第一视频包含N个视频帧，其中视频帧索引为n(n为0到N-1)。N个视频帧的开始视频帧具有等于0(n＝0)的视频帧索引，且N个视频帧的结束视频帧具有等于N-1(n＝N-1)的视频帧索引。

在一个实施例中，逐一手动地检查视频帧。当在所检查视频帧中识别到一个或多个第一目标对象时，标注所述一个或多个第一目标对象的位置和形状，将其视为与所检查视频帧相关联的预定视频帧信息并将所述信息存储在存储装置128中的数据库中。

将从数据库中选择和检索服务订户所提供的一个或多个对象。一个或多个对象的选择可由AI引擎124基于第一视频的内容自动进行，或者可以手动进行。

在一个实例中，由服务订户提供的一个或多个对象为一个或多个广告材料，所述一个或多个广告材料被布置成基于一个或多个第一目标对象的位置来检索并显示于所检查的视频帧上。在一个实例中，一个或多个对象经手动地重新成形且与一个或多个所识别第一目标对象对准。一个或多个重新成形的对象位于透明平面上。

一个或多个重新成形的对象连同透明平面与所检查的视频帧相关联，且作为与所检查的视频帧相关联的一个或多个预定对象而存储在存储装置128中。一个或多个对象的位置和形状与一个或多个标注的第一目标对象的位置和形状相同。将相同程序应用于待检查的其它视频帧，其中识别一个或多个第一目标对象。

在一个实施例中，如图4A中所说明，第一视频具有10000个视频帧，其中的一个经手动地检查。举例来说，手动地检查n＝1000的视频帧(第一视频帧)。在n＝1000的视频帧中识别两个第一目标对象410a和410b。两个第二目标对象分别在两个第一目标对象410a和410b的前方。举例来说，第二目标对象为人类。第二目标对象412a和412b分别在第一目标对象410a和410b的前方。第二目标对象412a部分地遮挡第一目标对象410a。

分别标注第一目标对象410a和410b的位置和形状。第一目标对象410a和410b的位置和形状将被视为与n＝1000的视频帧相关联的预定视频帧信息并将所述信息存储在数据库中。

将从数据库中选择和检索服务订户所提供的一个或多个对象。在一个实例中，由第一服务订户180a提供的两个广告材料414a和414b被布置成基于第一目标对象410a和410b的位置来检索并显示于n＝1000的视频帧上，如图4B中所说明。两个广告材料414a和414b位于透明平面418上。

两个广告材料414a和414b经手动地重新成形且与两个所识别第一目标对象410a和410b对准以变成两个重新成形的广告材料414c和414d，如图4C中所说明。两个重新成形的广告材料414c和414d位于透明平面418上。

两个重新成形的广告材料414c和414d与n＝1000的视频帧相关联且作为与n＝1000的视频帧相关联的一个或多个预定广告材料存储在存储装置128中。广告材料414c和414d的位置和形状与第一目标对象410a和410b的位置和形状相同。将相同程序应用于待检查的其它视频帧，其中识别一个或多个第一目标对象。

替代地，在n＝1000的视频帧中识别两个第一目标对象410a和410b。n＝1000的视频帧被视为具有x轴和y轴的平面。举例来说，x轴为0到K，且y轴为0到L。K的值和L的值取决于第一目标对象的分辨率。如果分辨率为720×480，那么x轴为0到720，且y轴为0到480。如图4D中所说明，第一目标对象410a和410b分别具有四个拐角。手动地标注第一目标对象410a和410b两者的四个拐点的位置信息。举例来说，四个拐角的位置信息是坐标。第一目标对象410a的第一组坐标被手动标注为(99,19)、(125,23)、(98,64)和(124,65)。第一目标对象410b的第一组坐标为(162,41)、(183,44)、(163,82)和(183,82)。第一组坐标将被视为与n＝1000的视频帧相关联的预定视频帧信息并将所述信息存储在数据库中。广告材料514a和514b被布置成基于第一目标对象410a和410b的第一组坐标而分别经过第一目标对象410a和410b，且广告材料514a和514b作为与n＝1000的视频帧相关联的一个或多个预定广告材料存储在存储装置128中。将在待检查的其它视频帧中实施相同程序，其中识别一个或多个第一目标对象。

在一个实施例中，以集体方式手动地检查视频帧。一个或多个第一目标对象在第一视频的完整持续时间中出现，或者一个或多个第一目标对象在整个第一视频中出现且消失。第一视频包含N个视频帧(例如N＝10000)，其中视频帧索引为n＝0到n＝9999且具有400秒的完整持续时间。

在一个实施例中，一个或多个第一目标对象在第一视频的完整持续时间中出现。一个或多个第一目标对象可贯穿第一视频具有不同位置和形状。举例来说，对于n＝0的视频帧到n＝3000的视频帧(第一批)，识别在n＝0的视频帧到n＝3000的视频帧中具有第一位置和第一形状的一个或多个第一目标对象。举例来说，手动地检查n＝1000的视频帧。

标注一个或多个第一目标对象的第一位置和第一形状，所述第一位置和第一形状将被视为与n＝1000的视频帧相关联的预定视频帧信息。一个或多个第一目标对象的第一位置和第一形状将与从n＝0的视频帧到n＝3000的视频帧的视频帧相关联以形成与对应视频帧相关联的预定视频帧信息。

一个或多个广告材料被布置成基于一个或多个第一目标对象的第一位置而出现在n＝1000的视频帧中。一个或多个广告材料经手动地重新成形且与一个或多个第一目标对象对准。一个或多个重新成形的广告材料位于透明平面上。

一个或多个重新成形的广告材料连同透明平面与n＝10000的视频帧相关联，且作为与n＝10000的视频帧相关联的一个或多个预定广告材料而存储在存储装置128中。

一个或多个重新成形的广告材料连同透明平面将与从n＝0的视频帧到n＝3000的视频帧中包含的视频帧相关联，以形成与对应视频帧相关联的一个或多个预定广告材料。

对于n＝3001的视频帧到n＝6000的视频帧(第二批)，识别在n＝3001的视频帧到n＝6000的视频帧中具有第二位置和第二形状的一个或多个第一目标对象。举例来说，手动地检查n＝4000的视频帧。将在从n＝3001的视频帧到n＝6000的视频帧中实施以上相同过程。

对于n＝6001的视频帧到n＝9999的视频帧(第三批)，识别在n＝6001的视频帧到n＝9999的视频帧中具有第三位置和第三形状的一个或多个第一目标对象。举例来说，手动地检查n＝7000的视频帧。将在从n＝6001的视频帧到n＝9999的视频帧中实施以上相同过程。

在另一实施例中，一个或多个第一目标对象在整个第一视频中出现且消失。举例来说，在n＝0的视频帧到n＝3000的视频帧(第一批)中识别具有第一位置和第一形状的一个或多个第一目标对象。并且，在n＝6001的视频帧到n＝9999的视频帧(第二批)中识别具有第二位置和第二形状的一个或多个第一目标对象。在n＝3001的视频帧到n＝6000的视频帧中不识别第一目标对象。

对于n＝0的视频帧到n＝3000的视频帧，手动地检查n＝1000的视频帧。标注一个或多个第一目标对象的第一位置和第一形状，所述第一位置和第一形状将被视为与n＝1000的视频相关联的预定视频帧信息。一个或多个第一目标对象的第一位置和第一形状与从n＝0的视频帧到n＝3000的视频帧的视频帧相关联，以形成与对应视频帧相关联的预定视频帧信息。

一个或多个重新成形的广告材料连同透明平面与所检查的视频帧相关联，且作为与n＝1000的视频帧相关联的一个或多个预定广告材料而存储在存储装置128中。一个或多个重新成形的广告材料连同透明平面将与从n＝0的视频帧到n＝3000的视频帧的视频帧相关联，以形成与对应视频帧相关联的一个或多个预定广告材料。

对于n＝6001的视频帧到n＝9999的视频帧(第二批)，手动地检查n＝7000的视频帧。将在从n＝6001的视频帧到n＝9999的视频帧中实施以上相同过程。对于n＝3001的视频帧到n＝6000的视频帧，将不执行动作。

在一个实施例中，基于一个或多个第一目标对象的坐标，以集体方式手动地检查视频帧。举例来说，在n＝0的视频帧到n＝3000的视频帧(第一批)中识别一个或多个第一目标对象，所述一个或多个第一目标对象的坐标在n＝0的视频帧到n＝3000的视频帧中保持相同。以手动地检查n＝1000的视频帧作为实例。手动地标注一个或多个第一目标对象的四个拐点的坐标。举例来说，第一目标对象410a的第一组坐标被手动标注为(99,19)、(125,23)、(98,64)和(124,65)。第一目标对象410b的第一组坐标为(162,41)、(183,44)、(163,82)和(183,82)。第一目标对象410a和410b的第一组坐标将被视为与n＝1000的视频帧相关联的预定视频帧信息。

第一目标对象410a和410b的第一组坐标将被视为与n＝1000的视频帧相关联的预定视频帧信息并将所述信息存储在数据库中。将用第一目标对象410a和410b的第一组坐标更新从n＝0的视频帧到n＝3000的视频帧中的每一帧的预定视频帧信息。

对于具有第一目标对象中的一个或多个的其它批次，将实施以上相同过程。

一旦对第一视频的手动检查成功地完成，便通过AI引擎124扫描第一视频。AI引擎124将逐一从第一视频的多个视频帧中的开始视频帧扫描到结束视频帧。第一视频包含N个视频帧，其中视频帧索引为n(n为0到N-1)。N个视频帧的开始视频帧具有等于0的视频帧索引，且N个视频帧的结束视频帧具有等于N-1的视频帧索引。举例来说，第一视频包含10000个视频帧，且视频帧索引n为0到9999。

仅举例来说，由AI引擎124扫描n＝1000的视频帧，如图5A中所说明。AI引擎124将确定n是否等于N-1(是否等于9999)。如果n不等于N-1(即9999)，那么AI引擎124将通过将对应的预定视频帧信息与存储在数据库中的n＝1000的视频帧进行交叉检查来确定n＝1000的视频帧是否包含一个或多个第一目标对象。

如果在数据库中识别到与n＝1000的视频帧相关联的预定视频帧信息，那么将从数据库检索与n＝1000的视频帧相关联的预定广告材料414c和414d。

当在已扫描视频帧(n＝1000的视频帧)中识别到一个或多个第二目标对象时，AI引擎124将自动地执行分段和提取。举例来说，第二目标对象为人类。在n＝1000的视频帧中通过AI引擎124识别两个第二目标对象512a和512b。AI引擎124将对两个第二目标对象512a和512b执行分段以获得分段后的第二目标对象512c和512d。AI引擎124将接着执行提取以从n＝1000的视频帧中获得目标对象512e和512f。

基于与n＝1000的视频帧相关联的预定视频帧信息，通过插入透明平面418，将预定广告材料514a和514b布置成粘贴到第一目标对象510a和510b(其被称为粘贴有n＝1000的视频帧的AD)。将两个第二目标对象512e和512f粘贴到粘贴有n＝1000的视频帧的AD中的原始位置(在所述位置处，分段并提取两个第二目标对象)，以形成n＝1000的已处理视频帧。

AI引擎124被配置成扫描下一视频帧且视频帧索引以1递增(n＝n+1)。将在即将来临的视频帧中实施相同程序。当AI引擎结束扫描第一视频中的所有视频帧时，将广告材料414c和414d粘贴到第一视频。第一视频将变为已处理视频且将在已处理视频显示框307上展示。

在一个实施例中，对于分段，AI引擎124通过使用深度神经网络处理第一视频。AI引擎124被配置成收集第二目标对象512a和512b(两者均为人类)的像素。可使用不同的深度神经网络，例如Mask RCNN、RVOS和Deeplabv3+。举例来说，Mask RCNN用于分段。MaskRCNN中的核心网络为包含100个卷积层的“restnet101”。核心网络由COCO数据集预训练，以用于将1000个不同的对象分段。举例来说，分段被配置成应用于人类。因此，人类图像选自COCO数据集。因此，选择总共6000个人类图像，其中的5000个人类图像用于训练，且其中的1000个人类图像用于验证。通过使用这些6000个图像再次重新训练Mask RCNN。在训练之后，深度神经网络被配置成对第二目标对象512a和512b进行分段。如图5B中所说明，在n＝1000的视频帧中，被掩码的人类512c和512d(具有像素“1”，第一像素值)表示第二目标对象512a和512b的分段。第二目标对象512c和512d后方的对象用像素“0”，第二像素值表示。在分段之后，AI引擎124将基于被掩码的人类512c和512d而从n＝1000的视频帧中提取分段后的第二目标对象512e和512f(其为彩色的)，如图5C中所说明。

被掩码的第二目标对象512c和512d用于从n＝1000的视频帧中获得人类像素。举例来说，n＝1000的视频帧为3维(3D)矩阵F。第1(F₁)和第2(F₂)维度分别表示n＝1000的视频帧的高度和宽度。第3维度(F₃)表示色彩通道。假设F₃(0)表示红色通道(R)，F₃(1)表示绿色通道(G)且F₃(2)表示蓝色通道(B)。

被掩码的人类512c和512d由单通道矩阵M表示。矩阵M的高度和宽度与矩阵F的高度和宽度相同。通过使用矩阵M来提取矩阵F上的人类像素(对于第二目标对象512a和512b两者)。获得人类图像(H)的输出。人类图像(H)还包含3个色彩通道(RGB)。提取遵循下式：

H(0)＝F₃(0)·M

H(1)＝F₃(1)·M

H(2)＝F₃(2)·M

在以上公式中，多个符号“·”表示两个矩阵F与矩阵M之间的每一元素(像素)的相乘。被掩码的图像像素值为“1”且未被掩码的像素值为“0”。矩阵F的像素值乘以“1”得到原始值，且矩阵F的像素值乘以“0”得到“0”。因此，人类图像(H)显示彩色的第二目标对象512e和512f以及黑色背景，如图5C中所说明。

在一个实例中，为了减少多余遮挡，从矩阵P中提取第二目标对象512i和512j，如图5E中所说明。

B(0)＝P₃(0)·(1-M)

B(1)＝P₃(1)·(1-M)

B(2)＝P₃(2)·(1-M)

B表示背景图像，其在预定广告材料514a和514b的背景上显示粘贴的视频帧图像(P)。被掩码的第二目标对象512c和512d将在此背景图像中变为黑色。(1-M)操作反转被掩码的第二目标对象512c和512d的像素值且变为512i和512j，如图5E中所展示。

接着合并第二目标对象512k和512l(即，由H表示的人类图像)和背景(即，由B表示的背景图像)，获得最终结果视频帧(R)：

R＝H+B

以上公式将H和B中的每一对应元素(像素)相加。R为图5F中展示的n＝1000的已处理视频帧，包含分别粘贴到第一目标对象510a和510b上的预定广告材料514a和514b。对一个或多个第二目标对象进行分段和提取的益处之一是，以巧妙的方式将一个或多个广告材料粘贴到第一视频，并且第一视频看起来很自然，不会产生因一个或多个广告材料遮挡一个或多个第二目标对象而造成的任何多余场景。

在另一实例中，如图5D中所说明，预定广告材料514a和514b被布置成分别粘贴到n＝1000的视频帧中的第一目标对象510a和510b，以便获得另一矩阵P。矩阵P类似于矩阵F，不同之处在于其现在含有广告材料514a和514b，且预定广告材料514a遮挡第二目标对象512g，这不自然且令观众感觉不适。将图5C的第二目标对象512e和512f粘贴到图5D以获得图5F，以便减少广告材料514a与第二目标对象512g之间的多余遮挡。如图5F中所说明，将预定广告材料514a和514b粘贴到n＝1000的视频帧中的第一目标对象510a和510b。第二目标对象512k和512l在n＝1000的视频帧中的第一目标对象510a和510b的前方，无任何遮挡。

现在转向图6，即用于将一个或多个广告材料粘贴到已扫描视频帧中的一个或多个第一目标对象的实例过程600。在一些实例中，过程600在例如视频广告服务器122的计算设备处实施。如图6中所展示，过程600被实施为包含在步骤601处由视频广告服务器122从第一视频提供商160a接收具有多个视频帧的第一视频。所述多个视频帧具有N个视频帧，其中包含开始视频帧和结束视频帧。在步骤602处，在视频广告服务器122中从开始视频帧到结束视频帧逐一扫描N个视频帧。N个视频帧中的每一个被分配有视频帧索引n(n为0到N-1)。N个视频帧中的开始视频帧具有等于0的视频帧索引(n＝0)，且N个视频帧中的结束视频帧具有等于N-1的视频帧索引(n＝N-1)。在步骤603处，AI引擎124将确定已扫描视频帧(第一视频帧)是否为结束帧(即，n是否等于N-1)。如果已扫描视频帧不是结束视频帧(n≠N-1)，那么AI引擎124将在步骤604处确定是否在数据库中识别到与已扫描视频帧相关联的对应的预定视频帧信息。如果在数据库中识别到与已扫描视频帧相关联的对应的预定视频帧信息，那么AI引擎124将在步骤605处确定第二经过训练的深度神经网络是否在已扫描视频帧中识别到一个或多个第二目标。如果在已扫描视频帧中识别到一个或多个第二目标(第二对象512a和512b)，那么AI引擎124将在步骤606处对一个或多个第二目标对象(例如，第二目标对象512c和512d)进行分段。AI引擎124接着将在步骤607处提取分段后的第二目标对象512c和512d。接着在步骤608处，AI引擎124将基于与已扫描视频帧相关联的对应的预定视频帧信息，将预定广告材料粘贴到一个或多个第一目标对象(例如，第一目标对象510a和510b)。在步骤609处，AI引擎124将所提取的第二目标对象512e和512f粘贴到第二目标对象512a和512b在已扫描视频帧中所在的原始位置。接着在步骤610处，AI引擎将扫描已扫描帧之后的下一视频帧，其中n＝n+1。

在步骤604处，如果在数据库中未识别到与已扫描视频帧相关联的对应的预定视频帧信息，那么将执行步骤610。

在步骤605处，如果在已扫描视频帧中未识别到一个或多个第二目标，那么将执行步骤611。步骤611与步骤608相同。

在步骤603处，如果已扫描视频帧为结束视频帧(n＝N-1)，那么将执行步骤612，即结束扫描过程。

转向图7，即在例如视频广告服务器122的计算设备处实施的另一实例过程700。如图7中所展示，步骤701、步骤702和步骤703分别与步骤601、步骤602和步骤603相同。在步骤704处，AI引擎124将确定第二经过训练的深度神经网络是否在已扫描视频帧中识别到一个或多个第二目标。如果在已扫描视频帧中识别到一个或多个第二目标(第二对象512a和512b)，那么AI引擎124将在步骤705处确定第一经过训练的深度神经网络是否在已扫描视频帧中识别到一个或多个第一目标。如果在已扫描视频帧中识别到一个或多个第一目标(第一目标对象150a和150b)，那么将执行步骤706。步骤706与606相同。步骤707、步骤708、步骤709和步骤710分别与步骤607、步骤608、步骤609和步骤610相同。

在步骤704处，如果在已扫描视频帧中未识别到一个或多个第二目标，那么AI引擎124将在步骤711处确定第一经过训练的深度神经网络是否在已扫描视频帧中识别到一个或多个第一目标。如果在已扫描视频帧中识别到一个或多个第一目标(第一目标对象150a和150b)，那么将执行步骤712且接着将执行步骤710。步骤712与步骤708相同。

在步骤711处，如果在已扫描视频帧中未识别到一个或多个第一目标，那么将执行步骤710。

在步骤703处，如果已扫描视频帧为结束视频帧(n＝N-1)，那么将执行步骤713，即结束扫描过程。

所公开的和本文件中所描述的其它实施例、模块和功能性操作和模块可以实施于数字电子电路中，或实施于计算机软件、固件或硬件(包含此文件中所公开的结构和其结构等效物)中，或实施于其中一个或多个的组合中。公开的和其它实施例可被实施为一个或多个计算机程序产品，即，在计算机可读媒体上编码的计算机程序指令的一个或多个模块，用于由数据处理设备执行或控制数据处理设备的操作。计算机可读媒体可为机器可读存储装置、机器可读存储基板、存储器装置、影响机器可读传播信号的物质组合或其中的一个或多个的组合。术语“数据处理设备”涵盖用于处理数据的所有设备、装置和机器，作为举例，包含可编程处理器、计算机或多个处理器或计算机。除了硬件之外，设备还可包含产生用于所讨论的计算机程序的执行环境的代码，例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或其中一个或多个的组合的代码。传播信号为人工生成的信号，例如机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码以发射到合适的接收器设备。

计算机程序(又称为程序、软件、软件应用、脚本或代码)可以任何形式的编程语言编写，包含编译型语言或解释型语言，并且其可以任何形式部署，包含作为独立式程序或作为模块、组件、子例程、或适合于在计算环境中使用的其它单元。计算机程序不一定与文件系统中的文件相对应。程序可存储在保持其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、存储在专用于所讨论的程序的单个文件中，或存储在多个经协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中。计算机程序可经部署以在一个计算机上或在位于一个位点或跨越多个位点分布并由通信网络互连的多个计算机上执行。

本文献中所描述的过程或逻辑流程可由执行一个或多个计算机程序的一个或多个可编程处理器执行以执行通过对输入数据进行操作并且生成输出的功能。过程和逻辑流程还可由专用逻辑电路系统(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))执行，且设备还可实施为专用逻辑电路。

适合于执行计算机程序的处理器包含例如通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。一般来说，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器装置。一般来说，计算机将还包含或以操作方式耦合到从用于存储数据的一个或多个大容量存储装置接收数据或向其传送数据或进行这两种操作，所述大容量存储装置例如为磁盘、磁光盘或光盘。然而，计算机不需要具有此类装置。适合于存储计算机程序指令和数据的计算机可读媒体包含所有形式的非易失性存储器、媒体和存储器装置，包含例如：半导体存储器装置，例如EPROM、EEPROM和快闪存储器装置；磁盘，例如内部硬盘或可移动的磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路系统补充或并入在专用逻辑电路系统中。

尽管本文件含有许多细节，但这些细节不应被解释为对所要求保护的发明或可要求保护的发明的范围的限制，而是作为特定于具体实施例的特征的描述。在单独的实施例的上下文中在本文献中描述的某些特征还可在单个实施例中组合实施。与此相反，在单个实施例的背景下描述的不同特征也可以分开地或以任何适合的子组合形式在多个实施例中实施。此外，尽管上文可能将特征描述为以某些组合起作用且甚至最初因此而主张，但在一些情况下，可将来自所主张的组合的一个或多个特征从组合中删除，且所主张的组合可涉及子组合或子组合的变化。类似地，尽管在附图中以特定顺序描绘了操作，但这不应被理解为要求按照所示出的特定顺序或按照先后顺序来执行此类操作，或者要求执行所有展示的操作，以实现期望的结果。

公开了仅数个实例和实施方案。对所描述的实例和实施方案和其它实施方案的变化、修改和增强可以基于所公开的内容进行。

Claims

1.一种用于使用人工智能(AI)引擎将一个或多个预定对象粘贴到视频的视频帧的方法，其特征在于，其包括：

接收具有多个视频帧的所述视频，其中包含结束视频帧；

扫描所述多个视频帧中的第一视频帧，其中所述第一视频帧具有一个或多个第一目标对象和一个或多个第二目标对象；

基于视频帧索引，确定所述多个视频帧中的所述第一视频帧是否为所述结束视频帧；

如果所述第一视频帧不是所述结束视频帧，那么确定是否在数据库中识别到与所述第一视频帧相关联的对应的预定视频帧信息；

如果在数据库中识别到与所述第一视频帧相关联的所述对应的预定视频帧信息，那么将所述一个或多个第二目标对象分段；

从所述第一视频帧提取一个或多个分段后的第二目标对象；

基于与所述第一视频帧相关联的所述对应的预定视频帧信息，将一个或多个预定对象粘贴到所述视频帧中的所述一个或多个第一目标对象；以及

将所提取的一个或多个第二目标对象粘贴到所述视频帧。

2.根据权利要求1所述的方法，其特征在于，所述对应的视频预定视频帧信息经手动地确定且存储于所述数据库中。

3.根据权利要求1所述的方法，其特征在于，其进一步包括：在所述第一视频帧中，以第一像素值掩码所述一个或多个第二目标对象且以第二像素值掩码所述一个或多个第二目标对象后方的对象。

4.根据权利要求1所述的方法，其特征在于，所述一个或多个预定对象为广告材料。

5.根据权利要求1所述的方法，其特征在于，所述一个或多个第二目标对象位于所述一个或多个第一目标对象的前方且部分地遮挡所述第一视频帧中的所述一个或多个第一目标对象。