CN110163640A

CN110163640A - 一种在视频中植入广告的方法及计算机设备

Info

Publication number: CN110163640A
Application number: CN201810147228.1A
Authority: CN
Inventors: 徐威; 克莱尔·康兰; 弗朗索瓦·皮特
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2019-08-23
Anticipated expiration: 2038-02-12
Also published as: EP3745339A1; EP3745339A4; US20200374600A1; CN110163640B; WO2019154035A1; US11595737B2

Abstract

本发明实施例公开了一种在视频中植入广告的方法及计算机设备，其中，该方法包括：计算机设备确定目标图像，目标图像为目标视频的M帧图像中包含第一平面广告的图像，M为正整数；计算机设备确定目标区域，该目标区域为该目标图像中该第一平面广告所在的区域；计算机设备将待植入的第二平面广告插入到该目标区域中替换该第一平面广告；计算机设备对植入了该第二平面广告的该目标图像进行风格转换，转换后的该目标图像中该第二平面广告的风格与该目标图像中该第二平面广告所在区域以外的图像像素点的风格一致。实施本发明实施例，可以由计算机设备全自动化实现广告定位、广告植入以及植入的广告的风格转换，提高植入广告的视觉体验。

Description

一种在视频中植入广告的方法及计算机设备

技术领域

本申请涉及视频处理技术领域，尤其涉及一种在视频中植入广告的方法及计算机设备。

背景技术

传统的视频广告投放方式通过在影片开头插播贴片广告，或者影片中间暂停时在视频画面中嵌入广告，其手段较为突兀生硬，容易引起用户的反感，广告转化率低(广告转化率是指通过点击广告进入推广网站的网民形成转化的比例)。

近年来将广告主的商品、LOGO或海报画面无缝融入到视频画面中的广告植入技术逐渐兴起，发展蓬勃，其效果可参考图1，图1中的左图为原视频画面，右图为植入了平面广告的画面。

从技术演变的过程看，植入式广告也经历了较原始到较智能的发展阶段。最初阶段，通常将广告板、海报放置于拍摄场景中，预留镜头。随后由于广告商素材选择、广告位选择、突发性市场变化等问题，导致原先存在的广告需要被替换，于是一些预先在视频中预设占位标件、人工标识广告位后根据简单的特征参数进行广告替换的方法被提出。而随着技术的发展，一些方法倾向于自动化实现广告的替换，如对视频进行镜头切分后，简单地基于预设的视频中区域的形状、大小、颜色以及持续时长等属性特征来确定候选的广告插入位，并采用模板匹配等方式进行广告位的融合渲染。实际上，如何实现自动化检测视频中适宜的平面广告位并且将待植入的广告素材与周围环境无缝融合依然是非常复杂的问题，因此，如何实现自动化检测视频中适宜的平面广告位并且将待植入的广告素材与周围环境无缝融合是目前需要解决的技术问题。

发明内容

本发明实施例提供了一种在视频中植入广告的方法及计算机设备，可以由计算机设备全自动化实现广告定位、广告植入以及植入的广告与图像中其他像素点的风格一致性转换，提高植入广告的视觉体验。

本发明实施例具体可以通过如下技术方案实现：

第一方面，本发明实施例提供了一种在视频中植入广告的方法，应用于计算机设备。该方法包括：计算机设备确定目标图像，目标图像为目标视频的M帧图像中包含第一平面广告的图像，M为正整数。计算机设备确定目标区域，目标区域为目标图像中第一平面广告所在的区域。计算机设备将待植入的第二平面广告插入到目标区域中替换第一平面广告。计算机设备对植入了所述第二平面广告的所述目标图像进行风格转换，转换后的所述目标图像中所述第二平面广告的风格与所述目标图像中所述第二平面广告所在区域以外的图像像素点的风格一致。实施本发明实施例，可以由计算机设备全自动化实现广告定位、广告植入以及植入的广告与周围环境的无缝融合，无需人工干预，检测定位更智能化，并且植入的广告不仅仅是简单的放置广告，而是使平面广告素材与其周围环境无缝融合，仿佛平面广告本来就是视频的一部分，提高视频的视觉体验。

可选的，计算机设备对植入了所述第二平面广告的所述目标图像进行风格转换，包括：所述计算机设备将所述目标图像中的所述第二平面广告的风格转换为所述目标图像中所述第二平面广告以外的图像像素点的风格。

其中，所述风格包括但不限于图像的色彩、基调。

在一个可能的设计中，上述第一平面广告为任意的平面广告。

在一个可能的设计中，上述计算机设备确定目标图像，包括：计算机设备根据第一卷积神经网络模型识别M帧图像中的第i帧图像中是否包含第一平面广告。若第i帧图像中包含第一平面广告，则第i帧图像为目标图像，i依次取1到M的正整数。实施本发明实施例，可以实现计算机设备基于卷积神经网络算法自动化识别图像中是否包含平面广告，无需人工手动确定，省时省力，提高图像识别效率。

在一个可能的设计中，上述计算机设备根据第一卷积神经网络模型识别M帧图像中的第i帧图像中是否包含第一平面广告，包括：计算机设备将M帧图像中的第i帧图像输入第一卷积神经网络模型中的至少一个卷积层中，得到至少一个卷积层中的最后一个卷积层的特征图，第一卷积神经网络模型包括至少一个卷积层、至少一个全连接层以及一个Softmax层。计算机设备将最后一个卷积层的特征图输入至少一个全连接层中，得到至少一个全连接层中的最后一个全连接层输出的二维向量。计算机设备将二维向量输入Softmax层中，得到用于标识第i帧图像中是否包含第一平面广告的向量。

在一个可能的设计中，第一卷积神经网络模型中的卷积层的权重参数、第一卷积神经网络模型中的卷积层的偏置项参数、第一卷积神经网络模型中的全连接层的权重参数以及第一卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的包含第一平面广告的图像以及未包含第一平面广告的图像训练生成的。

在一个可能的设计中，计算机设备确定目标区域，包括：计算机设备将目标图像输入第二卷积神经网络模型中，得到第一平面广告在目标图像中的第一顶点坐标集合。计算机设备根据第一顶点坐标集合获得与第一顶点坐标集合的差值小于等于第一预设阈值的第二顶点坐标集合。这里，第二顶点坐标集合构成的多边形位于第一顶点坐标集合构成的多边形附近。计算机设备对第二顶点坐标集合构成的区域进行至少一种形变，得到N个形变后的区域，N为正整数。计算机设备将N个形变后的区域输入预先设置的第三卷积神经网络模型中，得到目标区域，第三卷积神经网络模型用于识别N个形变后的区域中对第一平面广告定位最精确的区域。实施本发明实施例，可以实现计算机设备基于卷积神经网络算法自动化识别图像中平面广告所在的精准区域，无需人工手动确定，省时省力，提高广告定位效率以及精准度。

在一个可能的设计中，第三卷积神经网络模型中的卷积层的权重参数、第三卷积神经网络模型中的卷积层的偏置项参数、第三卷积神经网络模型中的全连接层的权重参数以及第三卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的定位精确的区域以及定位不精确的区域训练生成的。

在一个可能的设计中，对第二顶点坐标集合构成的区域进行至少一种形变之后，将N个形变后的区域输入预先设置的第三卷积神经网络模型中，得到目标区域之前，还包括：对N个形变后的区域进行纯色填充。

可选的，第三卷积神经网络模型包括卷积层、池化层、全连接层和Softmax层。

可选的，若目标区域包括多个，将N个形变后的区域输入预先设置的第三卷积神经网络模型中，得到目标区域之后，还包括：从多个目标区域中选择一个对第一平面广告定位最精确的区域。实施本发明实施例，可以进行人工干预，在得到了多个候选广告位后可以选择定位最准确的广告位，提高平面广告植入后的视觉体验。

在一个可能的设计中，目标图像包括P帧。计算机设备将待植入的第二平面广告插入到目标区域中替换第一平面广告之后，对植入了所述第二平面广告的所述目标图像进行风格转换之前，还包括：计算机设备采用角点跟踪算法跟踪P帧目标图像中的每帧目标图像中植入的第二平面广告的坐标。若P帧目标图像中包含植入的第二平面广告的坐标偏移值大于等于第二预设阈值的第一图像，则计算机设备调整第一图像中第二平面广告的坐标，使得第一图像中第二平面广告的坐标偏移值小于第二预设阈值。实施本发明实施例，在将平面广告植入了多帧图像后，可以跟踪连续多帧图像中平面广告的区域，以便保证植入的平面广告在连续的多帧图像中的坐标保持一致，提高植入的平面广告在视频播放过程中的流畅性。

在一个可能的设计中，角点跟踪算法包括KLT(Kanade-Lucas-Tomasi)算法。

在一个可能的设计中，计算机设备对植入了所述第二平面广告的所述目标图像进行风格转换，包括：计算机设备将植入了第二平面广告的目标图像输入生成对抗网络模型中，得到风格转换后的图像，风格转换后的图像中第二平面广告与第二平面广告以外的图像像素点的风格一致。实施本发明实施例，对植入了平面广告的图像进行风格转换，以便平面广告本身色彩、基调等风格与其周围的图像像素点的风格保持一致，保证了平面广告在视频播放过程中不显得突兀，实现自然平滑的无缝融合效果。

在一个可能的设计中，生成对抗网络模型包括生成器和判别器，生成器包括卷积层、池化层、反卷积层以及反池化层，判别器包括卷积层、池化层、全连接层以及Softmax层。

在一个可能的设计中，生成器中的卷积层的权重参数、生成器中的卷积层的偏置项参数、生成器中的反卷积层的权重参数以及生成器中的反卷积层的偏置项参数是根据预先设置的已植入第二平面广告的图像以及将已植入第二平面广告的图像进行了风格调整的图像训练生成的，判别器中的卷积层的权重参数、判别器中的卷积层的偏置项参数、判别器中的全连接层的权重参数以及判别器中的全连接层的偏置项参数是根据预先设置的已植入第二平面广告的图像以及将已植入第二平面广告的图像进行了风格调整的图像训练生成的。

第二方面，本发明实施例提供了一种计算机设备，该计算机设备可包括多个功能模块或单元，用于相应的执行第一方面所提供的在视频中植入广告的方法。

第三方面，本发明实施例提供了一种计算机设备，用于执行第一方面描述的在视频中植入广告的方法。所述计算机设备可包括：存储器以及与所述存储器耦合的处理器、通信接口等，其中：所述通信接口用于与其他设备通信。所述存储器用于存储第一方面描述的在视频中植入广告的方法的实现代码，所述处理器用于执行所述存储器中存储的程序代码，即执行第一方面所提供的在视频中植入广告的方法。

第四方面，本发明实施例提供一种计算机存储介质，用于储存为上述计算机设备所用的计算机软件指令，其包含用于执行上述第一方面为所述计算机设备所设计的程序。

第五方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面描述的在视频中植入广告的方法。

实施本发明方法实施例，可以全自动化实现视频中已有的旧的平面广告的检测与定位，无需人工预设特定占位标件或者人工检测标识广告位坐标，也无需设计简单的平面广告特征规则实现自动检测，而是通过卷积神经网络自动生成平面广告的特征，检测定位更自由、更智能化，定位更精准。并且在植入广告时不仅仅是简单地放置广告，而是基于风格迁移方法使平面广告素材与其周围图像像素点无缝融合，仿佛平面广告本来就是视频的一部分，提高植入广告的视觉体验。

附图说明

图1是本发明实施例提供的植入式广告的示意图；

图2是本发明实施例提供的计算机设备的结构示意图；

图3是本发明实施例提供的在视频中植入平面广告的方法流程示意图；

图4是本发明实施例提供的第一卷积神经网络模型的结构示意图；

图5是本发明实施例提供的采用Unet进行图像分割提取平面广告所在区域的方式示意图；

图6是本发明实施例提供的对矩形框进行变形得到候选广告位的方式示意图；

图7是本发明实施例提供的一种第三卷积神经网络的结构示意图；

图8是本发明实施例提供的角点跟踪平面广告的坐标的方式示意图；

图9是本发明实施例提供的生成对抗网络的结构示意图；

图10是本发明实施例提供的生成器G的网络结构的示意图；

图11是本发明实施例提供的判别器D的网络结构的示意图；

图12是本发明实施例提供的计算机设备的结构框图。

具体实施方式

为了便于理解本发明实施例，首先介绍本发明实施例涉及的硬件设备。

请参见图2，为本发明实施例提供的计算机设备示意图。计算机设备200包括至少一个处理器201，通信总线202，存储器203以及至少一个通信接口204。

处理器201可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线202可包括一通路，在上述组件之间传送信息。所述通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RadioAccess Network，RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器203可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器203用于存储执行本发明方案的程序代码，并由处理器201来控制执行。所述处理器201用于执行所述存储器203中存储的程序代码。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图2中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备200可以包括多个处理器，例如图2中的处理器201和处理器208。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备200还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(Liquid Crystal Display，LCD)，发光二级管(Light Emitting Diode，LED)显示设备，阴极射线管(Cathode Ray Tube，CRT)显示设备，或投影仪(projector)、音频输出模块等。输入设备206和处理器201通信，可以以多种方式接受用户的输入。例如，输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备200可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备200可以是台式机、便携式电脑、网络服务器、无线终端设备、通信设备、嵌入式设备或有图2中类似结构的设备。本发明实施例不限定计算机设备200的类型。

基于上述图2所示的计算机设备，结合图3来说明本发明实施例提供的在视频中植入广告的方法。如图3所示，该在视频中植入广告的方法包括但不限于如下步骤。

S301：计算机设备确定目标图像，目标图像为目标视频的M帧图像中包含第一平面广告的图像，M为正整数。

本发明实施例中，第一平面广告为任意的平面广告。为了便于描述，也可以将第一平面广告称为旧的平面广告，待植入的第二平面广告称为新的平面广告。这里的平面广告是指任意四边形形状的广告，通过左上角、右上角、左下角、右下角四个坐标就可确定区域位置和面积。广告内容本身并不特别限定为四边形，可以是任意形状。

具体的，上述确定目标图像，包括：根据第一卷积神经网络模型识别M帧图像中的第i帧图像中是否包含第一平面广告；若第i帧图像中包含第一平面广告，则第i帧图像为目标图像，i依次取1到M的正整数。其中，图像中包含平面广告也即是说图像中存在平面广告。

本发明实施例中，上述目标视频是要进行广告植入的视频文件。上述M帧图像可以是目标视频所包含的多帧图像中的若干个关键帧(key frame)。例如目标视频对应的视频压缩域中包括I、B、P帧，而上述M帧图像为其中的I帧。上述M帧图像也可以是每间隔一定时间间隔从目标视频中选取出的若干帧图像。上述M帧图像还可以是目标视频所包含的所有帧，本发明实施例对此不做具体限定。

下面介绍本发明实施例中所涉及的如何识别/检测某帧图像中是否包含广告内容。这里将检测图像中是否包含平面广告作为一个分类问题，设计的第一卷积神经网络模型的结构如图4所示。其中，第一卷积神经网络模型包括卷积层、全连接层和Softmax层。其中，卷积层的数量包括至少一个，全连接层的数量包括至少一个。

其中，卷积层采用了迁移学习的思想，其结构可以使用预先训练好网络参数的VGG网络或者Resnet网络或者其他网络的卷积层部分。以使用VGG-16网络的卷积层为例：将VGG-16网络中的第一个卷积层(包含3×3的卷积核64个，会生成64张特征图)直至最后一个卷积层(包含1×1的卷积核512个，会生成512张特征图)所有的网络结构以及在Imagenet或其余一些Benchmark数据集上训练好的每个卷积层的参数作为本步骤的卷积层及参数。其输入是单帧的视频图像，输出是最后一个卷积层生成的特征图，以VGG-16为例，其输出是512张特征图。

卷积层后紧跟k个全连接层(k的数据一般为2～3)。由于将已存在的平面广告检测作为一个分类问题，本发明实施例中将最后一个全连接层的节点数目设置为2，其余全连接层的节点数目不做限定。全连接层的输入是最后一个卷积层输出的所有特征图(以VGG-16为例，其输出是512张特征图)，其输出为一个二维向量。

第一卷积神经网络模型的最后是一个是Softmax层，该层无参数，其作用是将最后一个全连接层输出的二维向量进行归一化，将结果映射到[0,1]范围，其输出是平面广告是否存在的概率。例如，假设将包含平面广告作为第一类，将不包含平面广告作为第二类，最后一个全连接层输出值为[x₁,x₂]，那么在Softmax层的计算公式是：

x_i＝x_i-max(x₁,x₂)

p_i值最大的下标i标识了图像是属于第一类还是第二类，即图像是包含平面广告还是不包含平面广告。

第一卷积神经网络模型构造好后，需要通过训练确定其中的全连接层的参数以及微调卷积层的参数。搜集大量包含与不包含平面广告的图像构造训练数据集。例如，假设图像xⁱ的类别标记为yⁱ，共有n张图像，训练数据集表示为{(x¹,y¹),(x²,y²),…,(xⁿ,yⁿ)}。采用均方误差(Mean Square Error，MSE)构造第一卷积神经网络模型的损失函数为：

其中，W表示第一卷积神经网络模型中所有层(具体包括所有的卷积层和所有的全连接层)的权重参数，b表示第一卷积神经网络模型中所有层(即卷积层和全连接层)的偏置项参数，f_W,b(xⁱ)为第一卷积神经网络模型的实际输出值。然后采用基于反向传播(Back-Propagation，BP)算法的Mini-batch梯度下降法训练得到优化的参数W和b。

实际使用/检测时，将视频中的一帧图像输入到训练好参数的第一卷积神经网络模型，在Softmax层输出分类预测向量，向量中哪个分量值最大，该分量代表的类别就是图像实际所属类别。例如，假设包含平面广告为第一类，表示为[1,0]；不包含平面广告为第二类，表示为[0,1]，待检测的图像经过Softmax层输出为[0.9,0.1]，则该图像属于第一类，即该图像中包含平面广告。

S302：计算机设备确定目标区域，目标区域为目标图像中第一平面广告所在的区域。

首先将步骤S301确定的已存在第一平面广告的目标图像输入到第二卷积神经网络模型中，实现对平面广告的粗略分割，即获得平面广告在目标图像中的粗略区域(具体可以表征为坐标，例如，粗略区域是一个四边形，可以通过四边形中的四个顶点的坐标来确定该粗略区域，这四个顶点坐标构成了第一顶点坐标集合)。这里，第二卷积神经网络模型可以包括但不限于经典的Unet或者Deconvnet这些用于图像分割的卷积神经网络。其中，Unet和Deconvnet是经典的采用卷积神经网络实现图像语义分割的方法。通过第二卷积神经网络模型获取的平面广告的坐标并不精确，但基本上框出了平面广告所在的大致位置。例如，一种采用Unet进行图像分割，提取平面广告所在区域的方式如图5所示。其中，经过Unet进行图像分割后，提取出了如图5右边图所示的平面广告所在的区域。

在得到了平面广告的粗略区域后，可以采用Selective Search方法在粗略分割后的平面广告位附近生成k个矩形框(bounding box)，用于后续标识平面广告位的精确坐标。这里，生成的k个矩形框对应了k组第二顶点坐标集合，每个第二顶点坐标集合可以用于确定一个矩形框。其中，Selective Search是经典的用于生成bounding box的方法，其可以尽可能覆盖图像中有意义的物体，在本步骤中，有意义的物体指的就是平面广告。需要说明的是，生成矩形框的方式不限于Selective Search方法。

之后，对上述步骤生成的k个矩形框中的每个矩形框进行m种不同形状的形变，用以匹配平面广告的真实形状。其中，形变包括任意改变矩形的边长、内角等操作，将其变成任意的四边形。需要说明的是，由于Selective Search方法生成的只能是矩形框，而真实的平面广告在图像中形态多变，因此，对矩形框进行适当变形可以确保最终确定的区域更加精准的定位到平面广告的真实所在区域。需要说明的是，对上述步骤生成的k个矩形框中的每个矩形框进行形变的数量也可以不同，例如，k个矩形框包括3个矩形框，其中，对第一个矩形框进行3种不同形状的变形，对第二个矩形框进行2种不同形状的变形，而对第三个矩形框进行4种不同形状的变形，对这3个矩形框进行了形变后得到N＝9种形变后的区域，也即是9个候选广告位。本发明实施例中以对每个矩形框进行相同数量的变形为例进行说明。

以图5经过Selective Search方法得到的某个矩形框为例进行形变的示例如6所示。形变后图像中的每个矩形框会生成m个形变后的区域(可以称为候选广告位)，分别记录这m个候选广告位四个角落的坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4)。

在得到了k×m＝N个候选广告位后，需要从这些候选广告位中选择定位精确的区域作为待植入广告的区域。本发明实施例将平面广告的像素级精确定位作为一个分类问题，分别将某个矩形框生成的m个候选广告位四个角的坐标围成的区域进行纯色填充，生成m张掩模图像，将这m张掩模图像输入到新设计的第三卷积神经网络模型中，其输出是这m张掩模图像中广告定位最精确的那张。第三卷积神经网络可以称为FourCornerNet网络。

具体的，上述筛选定位最精确的候选广告位的过程具体可以包括如下步骤11-14：

11)构造第三卷积神经网络结构。第三卷积神经网络采用简单的浅层卷积神经网络设计，包含卷积层+池化层这种形式的多层叠加，再与若干全连接层相连，最后再连接至Softmax层。一种第三卷积神经网络的结构如图7所示。其中，第三卷积神经网络包括2个卷积层、2个最大池化层、2个全连接层和1个Softmax层。其中，卷积层中卷积核的个数和大小、最大值池化层的下采样尺度、全连接层1中的节点数目不做限定，可根据实验要求调节。由于将广告位的精确定位作为一个分类问题看待，即确定某张掩模图像是不是精确的广告位存在的图像，因此全连接2中包含两个节点，相应的Softmax层的输出是二维向量。

12)构造第三卷积神经网络的训练样本集。每张已存在第一平面广告的图像经过上述步骤的处理后每个矩形框会生成m张掩模图像，而这m张掩模图像中仅有一张是精确定位广告位的，其余都是定位不精确的，则可简单的将掩模图像分为两种类别，即定位精确的以及定位不精确的。假设搜集n个已存在平面广告的图像的矩形框，则会有m×n张掩模图像，这m×n张掩模图像中的每张掩模图像要么属于精确定位的广告位，要么属于定位不精确的广告位。这m×n张掩模图像x和其对应的类别y变构成了训练样本集：{(x¹,y¹),(x²,y²),…,(x^mn,y^mn)}。

13)构造第三卷积神经网络的损失函数，通过训练计算第三卷积神经网络t网络参数。采用均方误差(Mean Square Error)构造第三卷积神经网络的损失函数为：

其中W表示第三卷积神经网络中所有层(包括所有的卷积层和所有的全连接层)的权重参数，b表示第三卷积神经网络中所有层(包括所有的卷积层和所有的全连接层)的偏置项参数，f_W,b(xⁱ)为网络的实际输出值。然后采用基于BP算法(Back-Propagation)的Mini-batch梯度下降法训练得到优化的参数W和b。

14)将实际待预测的某张已存在平面广告的图像中生成的m张掩模图像依次输入到训练好网络参数的第三卷积神经网络中，经Softmax层后每张图像输出一个二维向量，该二维向量的哪个分量值最大，该分量代表的类别就是掩模图像实际所属类别。假设该掩模图像广告位定位精确为第一类，表示为[1,0]；定位不精确为第二类，表示为[0,1]，待预测的掩模图像经过Softmax层输出为[0.8,0.2]，则该掩模图像属于第一类，即其中的候选广告位定位是精确的。

可选的，对第三卷积神经网络筛选出的像素级精确定位的候选广告位A的坐标进行微调。由于平面广告的真实形状多种多样，而上述步骤中的m种形变也不一定能够全部覆盖所有形状，可采用传统的基于像素值差异、边缘特征对真正的广告位坐标再进行微调。一种可行的办法是对图像进行边缘检测，假设候选广告位A的四个坐标为(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x₄,y₄)，而其中点(x₁,y₁)、(x₂,y₂)连成的直线与边缘检测算法得到的直线并不明显重合，则修改这两点的坐标，直至直线重合，依次类推。微调后，便得到最终像素级精确定位的真正的候选广告位的坐标。

需要说明的是，在得到了形变后的候选广告位后，也可以不进行纯色填充，进行纯色填充是为了将圈出的平面广告的区域更加凸显，便于图像识别。

可选的，在得到了上述定位精准的候选广告位后，还可以进行人工干预，即从得到的多个精准的候选广告位中选择最佳广告位。具体的，可根据候选广告位的形状、大小、在图像中的相对位置，人工选择最佳广告位。或可不选择，直接将多个精准的候选广告位作为最佳广告位。

S303：计算机设备将待植入的第二平面广告插入到目标区域中替换第一平面广告。

将视频中的每一帧图像经过步骤S301和S302后，已存在第一平面广告的图像中已提取出最佳广告位，而平面广告在视频中是一般连续多帧中出现的。假设共有P帧连续图像经过步骤S301自动检测出其中已经含有旧的平面广告，再经过步骤S302提取这些连续图像中的最佳广告位。但随着视频画面的运动，每帧图像中最佳广告位四个角的坐标不可能完全一致。后续处理步骤包括如下步骤21-22：

21)对于自动检测出已经含有旧的平面广告的P帧图像的每一帧，将待植入的新的平面广告插入该帧图像中的最佳广告位的方式可以为：假设该帧图像中最佳广告位在图像中的坐标为左上角(x₁,y₁)，右上角(x₂,y₂)，左下角(x₃,y₃)，右下角(x₄,y₄)。首先将待植入的新的平面广告在图像中移动，直至其左上角坐标与(x₁,y₁)重合。由于新的平面广告形状并不一定会与最佳广告位一样，因此，需要采用拉伸、缩小、透视变换处理将新的平面广告的形状调整为最佳广告位的形状，即将新的平面广告其余三个点的坐标调整为(x₂,y₂)、(x₃,y₃)、(x₄,y₄)，并且这四个点围成的面积与最佳广告位一样，且在图像中的位置也一样。

22)采用角点跟踪算法跟踪这P帧图像中新植入的平面广告，保证平面广告的时空一致性：将每帧图像中新植入的平面广告的四个角的坐标作为特征点，采用角点跟踪算法逐帧跟踪这四个角坐标，如果连续几帧图像中的某帧图像中新植入的平面广告的某个位置处的特征点偏移量超过某个阈值，则说明该帧图像的最佳广告位坐标与其相邻帧图像的最佳广告位坐标不一致，需要将其调整为相邻图像的最佳广告位坐标。其中，角点跟踪算法包括但不限于：KLT(Kanade-Lucas-Tomasi)算法，这里，KLT算法是经典的角点跟踪算法，通过选择多帧图像中的特征点进行匹配的方式实现目标的跟踪。一个具体示例如下：

假设连续几帧图像分别为A、B、C，A中新植入的平面广告位四个角坐标为：左上角(Ax₁,Ay₁)、右上角(Ax₂,Ay₂)、左下角(Ax₃,Ay₃)、右下角(Ax₄,Ay₄)，其余两张图像以此类推，分别为左上角(Bx₁,By₁)、右上角(Bx₂,By₂)、左下角(Bx₃,By₃)、右下角(Bx₄,By₄)以及左上角(Cx₁,Cy₁)、右上角(Cx₂,Cy₂)、左下角(Cx₃,Cy₃)、右下角(Cx₄,Cy₄)。采用KLT算法逐帧跟踪这四个角，以左上角为例，跟踪路径为(Ax₁,Ay₁)→(Bx₁,By₁)→(Cx₁,Cy₁)。计算左上角坐标偏移量，如果小于某个预先设定的阈值，则不调整；如果大于某个阈值，则调整。比如图8中对广告位右下角坐标的跟踪路径：(Ax₄,Ay₄)→(Bx₄,By₄)→(Cx₄,Cy₄)，其中图像B的右下角坐标明显与A、C不同，大于某个阈值，则将该坐标调整为A、C右下角坐标的均值，保持时空一致性。

S304：计算机设备对植入了所述第二平面广告的所述目标图像进行风格转换，转换后的所述目标图像中所述第二平面广告的风格与所述目标图像中所述第二平面广告所在区域以外的图像像素点的风格一致。

本发明实施例中，在进行风格转换时，可以将植入的第二平面广告的风格转换为目标图像中第二平面广告周围的图像像素点的风格。第二平面广告周围的图像像素点，即以第二平面广告所在区域为中心一定范围内的图像像素点。或者，在进行风格转换时，可以将植入的第二平面广告的风格转换为目标图像中第二平面广告以外的所有图像像素点的风格。

新的平面广告(即第二平面广告)经过步骤S301～S303的处理虽然已经植入到了视频的多帧图像中，但平面广告本身色彩、基调等风格需要保持与其周围的环境的风格一致，这样才能保证平面广告不显得突兀，实现自然平滑的无缝融合效果。本步骤中采用基于生成对抗网络的风格迁移算法实现风格转换，具体该过程包括如下步骤31-32。

31)构造训练样本集。选取n张经步骤S301～S303处理后得到的新的平面广告已植入的图像x₁,x₂,…x_n，采用Pohtoshop等软件调整x₁,x₂,…x_n的图像风格，使其中的平面广告在视觉效果上与周围的环境平滑、无缝融合，得到图像y₁,y₂,…y_n作为真实值(GroundTruth)。如此形成了训练样本集{(x₁,y₁),{(x₂,y₂),…,{(x_n,y_n)}。

32)构造生成对抗网络(GAN)的结构，如图9所示。生成对抗网络模型中包括生成器和判别器。

本发明中生成器G(Generator)的作用是对输入图像x进行自动渲染，生成图像G(x)，要求G(x)尽可能与x对应的真实值y相似，达到以假乱真的效果。而判别器D(Discriminator)的作用是尽可能正确区分真实值y和生成图像G(x)。

生成器G的网络结构采用经典的VGG网络除去最后一个池化层和所有全连接层的网络结构加上反向VGG网络。所谓反向VGG网络，是指该网络中的每个层都与VGG网络一一对应，并且都是反向操作。一种生成器G的网络结构如图10所示。其中，VGG网络中第一个、第二个卷积层各自含有3×3的卷积核64个；第三层是最大值池化层；第四、五个卷积层都包含3×3的卷积核128个；第六层是最大值池化层；第七、八个卷积层包含3×3的卷积核256个；第九层又是一个最大值池化层；第十、十一个卷积层包含3×3的卷积核512个；第十二层是最大值池化层；第十三、十四个卷积层包含3×3的卷积核512个；反向VGG网络结构正好与VGG网络相反，其第一个、第二个反卷积层各自含有3×3的卷积核64个；第三层是反最大值池化层；第四、五个反卷积层都包含3×3的卷积核128个；第六层是反最大值池化层；第七、八个反卷积层包含3×3的卷积核256个；第九层又是一个最大值池化层；第十、十一个反卷积层包含3×3的卷积核512个；第十二层是反最大值池化层；第十三、十四个反卷积层包含3×3的卷积核512个；第十四个反卷积层之后与一个卷积层相连，该卷积层包含3×3的卷积核3个，其输出即为生成图像G(x)。

判别器D采用经典的Resnet网络结构的变体：保留Resnet网络中第一个卷积层到最后一个卷积层之间所有的网络结构，再与一个最大值池化层相连，再与m个全连接层相连。由于判别器D的作用是区分真实图像y与生成图像G(x)，可看成是两种类别的分类问题，因此最后一个全连接层包含2个节点。最后再与Softmax层相连，输出判断结果(真实图像或生成图像)，判别器D的网络结构可如图11所示。

生成对抗网络需要构造新颖的生成对抗网络GAN的损失函数，并分别训练判别器D和生成器G的网络参数。

判别器D的损失函数构造如下：假设真实图像y输入判别器D后判断正确，输出为1；生成图像G(x)输入判别器D后判断正确，输出为-1；则判别器D的损失函数L_D为：

其中n表示有n张输入图像(真实图像或者生成图像)，W_D表示判别器D中所有层(包括判别器D中的所有的卷积层和所有的全连接层)的权重参数，b_D表示判别器D中所有层(包括判别器D中的所有的卷积层和所有的全连接层)的偏置项参数，表示生成图像G(x)输入到判别器D后计算得到的实际输出值，表示真实图像y输入到判别器D后计算得到的实际输出值，是指L2范数。

然后采用基于BP算法(Back-Propagation)的Mini-batch梯度下降法训练得到判别器D最终训练好的参数W_D和b_D。

生成器G的损失函数构造如下：

其中n表示有n张输入图像，即步骤5a中所述经过步骤S301～S303处理后得到的新的平面广告已植入的图像x₁,x₂,…x_n；W_G表示生成器G中所有层(包括生成器G中的所有的卷积层和所有的反卷积层)的权重参数，b_G表示生成器G中所有层(包括生成器G中的所有的卷积层和所有的反卷积层)的偏置项参数，表示输入图像x,经过生成器G处理后得到的实际生成的图像，y_i如步骤5a所述，表示图像x_i对应的真实值。是指L1范数，这里具体是指图像x_i与y_i每个相同位置处的像素点之间差值的绝对值。

然后也采用基于BP算法(Back-Propagation)的Mini-batch梯度下降法训练得到生成器G最终训练好的参数W_G和b_G。

实际训练时，可使用交替优化的方法：先固定生成器G，训练判别器D的参数，使得D的判别准确率最大化；然后固定判别器D，训练生成器G的参数，使得D的判别准确率最小化。在同一轮参数更新中，一般对判别器D的参数更新k次再对G的参数更新1次。

实际使用时仅需用到训练好参数的生成器G：依次将视频中每一帧新的平面广告已植入的图像x输入到已训练好参数的生成器G中，经过G中卷积层、池化层、反卷积、反池化层的操作后，输出生成图像G(x)，此时的G(x)已经达到了以假乱真的程度，新植入的平面广告与其周围环境无缝融合。

实施本发明方法实施例，可以全自动化实现视频中已有的旧的平面广告的检测与定位，无需人工预设特定占位标件或者人工检测标识广告位坐标，也无需设计简单的平面广告特征规则实现自动检测，而是通过卷积神经网络自动生成平面广告的特征，检测定位更自由、更智能化，定位更精准。并且在植入广告时不仅仅是简单地放置广告，而是基于风格迁移方法使平面广告素材与其周围环境无缝融合，仿佛平面广告本来就是视频的一部分，提高植入广告的视觉体验。

图12示出了本发明实施例提供的计算机设备的一种实施例。如图12所示，计算机设备120可包括：第一确定单元1201、第二确定单元1202、替换单元1203和风格转换单元1204。其中：

第一确定单元1201，用于确定目标图像，所述目标图像为目标视频的M帧图像中包含第一平面广告的图像，M为正整数；

第二确定单元1202，用于确定目标区域，所述目标区域为所述目标图像中所述第一平面广告所在的区域；

替换单元1203，用于将待植入的第二平面广告插入到所述目标区域中替换所述第一平面广告；

风格转换单元1204，用于对植入了所述第二平面广告的所述目标图像进行风格转换，转换后的所述目标图像中所述第二平面广告的风格与所述目标图像中所述第二平面广告所在区域以外的图像像素点的风格一致。

可选的，所述第一确定单元1201具体用于：

根据第一卷积神经网络模型识别所述M帧图像中的第i帧图像中是否包含所述第一平面广告；若所述第i帧图像中包含所述第一平面广告，则所述第i帧图像为所述目标图像，i依次取1到M的正整数。

可选的，所述第一确定单元1201，包括：

第一计算单元，用于将所述M帧图像中的第i帧图像输入所述第一卷积神经网络模型中的至少一个卷积层中，得到所述至少一个卷积层中的最后一个卷积层的特征图，所述第一卷积神经网络模型包括至少一个卷积层、至少一个全连接层以及一个Softmax层；

第二计算单元，用于将所述最后一个卷积层的特征图输入所述至少一个全连接层中，得到所述至少一个全连接层中的最后一个全连接层输出的二维向量；

第三计算单元，用于将所述二维向量输入所述Softmax层中，得到用于标识所述第i帧图像中是否包含所述第一平面广告的向量。

可选的，所述第一卷积神经网络模型中的卷积层的权重参数、所述第一卷积神经网络模型中的卷积层的偏置项参数、所述第一卷积神经网络模型中的全连接层的权重参数以及所述第一卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的包含所述第一平面广告的图像以及未包含所述第一平面广告的图像训练生成的。

可选的，所述第二确定单元1202，包括：

第四计算单元，用于将所述目标图像输入第二卷积神经网络模型中，得到所述第一平面广告在所述目标图像中的第一顶点坐标集合；

第五计算单元，用于根据所述第一顶点坐标集合获得与所述第一顶点坐标集合的差值小于等于第一预设阈值的第二顶点坐标集合；

第六计算单元，用于对所述第二顶点坐标集合构成的区域进行至少一种形变，得到N个形变后的区域，N为正整数；

第七计算单元，用于将所述N个形变后的区域输入预先设置的第三卷积神经网络模型中，得到所述目标区域，所述第三卷积神经网络模型用于识别所述N个形变后的区域中对所述第一平面广告定位最精确的区域。

可选的，所述第三卷积神经网络模型中的卷积层的权重参数、所述第三卷积神经网络模型中的卷积层的偏置项参数、所述第三卷积神经网络模型中的全连接层的权重参数以及所述第三卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的定位精确的区域以及定位不精确的区域训练生成的。

可选的，所述目标图像包括P帧；所述目标图像包括P帧；所述计算机设备120还包括：

角点跟踪单元，用于在所述替换单元1203将待植入的第二平面广告插入到所述目标区域中替换所述第一平面广告之后，所述风格转换单元1204对植入了所述第二平面广告的所述目标图像进行风格转换之前，采用角点跟踪算法跟踪所述P帧目标图像中的每帧目标图像中植入的所述第二平面广告的坐标；

调整单元，用于若所述P帧目标图像中包含植入的所述第二平面广告的坐标偏移值大于等于第二预设阈值的第一图像，则调整所述第一图像中所述第二平面广告的坐标，使得所述第一图像中所述第二平面广告的坐标偏移值小于所述第二预设阈值。

可选的，所述风格转换单元1204具体用于：

将植入了所述第二平面广告的所述目标图像输入生成对抗网络模型中，得到风格转换后的图像，所述风格转换后的图像中所述第二平面广告与所述第二平面广告以外的图像像素点的风格一致。

可选的，所述生成对抗网络模型包括生成器和判别器，所述生成器包括卷积层、池化层、反卷积层以及反池化层，所述判别器包括卷积层、池化层、全连接层以及Softmax层。

可选的，所述生成器中的卷积层的权重参数、所述生成器中的卷积层的偏置项参数、所述生成器中的反卷积层的权重参数以及所述生成器中的反卷积层的偏置项参数是根据预先设置的已植入所述第二平面广告的图像以及将所述已植入所述第二平面广告的图像进行了风格调整的图像训练生成的，所述判别器中的卷积层的权重参数、所述判别器中的卷积层的偏置项参数、所述判别器中的全连接层的权重参数以及所述判别器中的全连接层的偏置项参数是根据预先设置的已植入所述第二平面广告的图像以及将所述已植入所述第二平面广告的图像进行了风格调整的图像训练生成的。

需要说明，关于计算机设备120包括的各个功能单元的具体实现，可以参考前述实施例，这里不再赘述，图12实施例中未提及的内容以及各个功能单元的具体实现，请参考图3实施例，这里不再赘述。

综上所述，实施本发明实施例，可以全自动化实现视频中已有的旧的平面广告的检测与定位，无需人工预设特定占位标件或者人工检测标识广告位坐标，也无需设计简单的平面广告特征规则实现自动检测，而是通过卷积神经网络自动生成平面广告的特征，检测定位更自由、更智能化，定位更精准。并且在植入广告时不仅仅是简单地放置广告，而是基于风格迁移方法使平面广告素材与其周围图像像素点无缝融合，仿佛平面广告本来就是视频的一部分，提高植入广告的视觉体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种在视频中植入广告的方法，其特征在于，包括：

计算机设备确定目标图像，所述目标图像为目标视频的M帧图像中包含第一平面广告的图像，M为正整数；

所述计算机设备确定目标区域，所述目标区域为所述目标图像中所述第一平面广告所在的区域；

所述计算机设备将待植入的第二平面广告插入到所述目标区域中替换所述第一平面广告；

所述计算机设备对植入了所述第二平面广告的所述目标图像进行风格转换，转换后的所述目标图像中所述第二平面广告的风格与所述目标图像中所述第二平面广告所在区域以外的图像像素点的风格一致。

2.根据权利要求1所述的方法，其特征在于，所述计算机设备确定目标图像，包括：

所述计算机设备根据第一卷积神经网络模型识别所述M帧图像中的第i帧图像中是否包含所述第一平面广告；若所述第i帧图像中包含所述第一平面广告，则所述第i帧图像为所述目标图像，i依次取1到M的正整数。

3.根据权利要求2所述的方法，其特征在于，所述计算机设备根据第一卷积神经网络模型识别所述M帧图像中的第i帧图像中是否包含所述第一平面广告，包括：

所述计算机设备将所述M帧图像中的第i帧图像输入所述第一卷积神经网络模型中的至少一个卷积层中，得到所述至少一个卷积层中的最后一个卷积层的特征图，所述第一卷积神经网络模型包括至少一个卷积层、至少一个全连接层以及一个Softmax层；

所述计算机设备将所述最后一个卷积层的特征图输入所述至少一个全连接层中，得到所述至少一个全连接层中的最后一个全连接层输出的二维向量；

所述计算机设备将所述二维向量输入所述Softmax层中，得到用于标识所述第i帧图像中是否包含所述第一平面广告的向量。

4.根据权利要求3所述的方法，其特征在于，所述第一卷积神经网络模型中的卷积层的权重参数、所述第一卷积神经网络模型中的卷积层的偏置项参数、所述第一卷积神经网络模型中的全连接层的权重参数以及所述第一卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的包含所述第一平面广告的图像以及未包含所述第一平面广告的图像训练生成的。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述计算机设备确定目标区域，包括：

所述计算机设备将所述目标图像输入第二卷积神经网络模型中，得到所述第一平面广告在所述目标图像中的第一顶点坐标集合；

所述计算机设备根据所述第一顶点坐标集合获得与所述第一顶点坐标集合的差值小于等于第一预设阈值的第二顶点坐标集合；

所述计算机设备对所述第二顶点坐标集合构成的区域进行至少一种形变，得到N个形变后的区域，N为正整数；

所述计算机设备将所述N个形变后的区域输入预先设置的第三卷积神经网络模型中，得到所述目标区域，所述第三卷积神经网络模型用于识别所述N个形变后的区域中对所述第一平面广告定位最精确的区域。

6.根据权利要求5所述的方法，其特征在于，所述第三卷积神经网络模型中的卷积层的权重参数、所述第三卷积神经网络模型中的卷积层的偏置项参数、所述第三卷积神经网络模型中的全连接层的权重参数以及所述第三卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的定位精确的区域以及定位不精确的区域训练生成的。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述目标图像包括P帧；所述计算机设备将待植入的第二平面广告插入到所述目标区域中替换所述第一平面广告之后，所述对植入了所述第二平面广告的所述目标图像进行风格转换之前，还包括：

所述计算机设备采用角点跟踪算法跟踪所述P帧目标图像中的每帧目标图像中植入的所述第二平面广告的坐标；

若所述P帧目标图像中包含植入的所述第二平面广告的坐标偏移值大于等于第二预设阈值的第一图像，则所述计算机设备调整所述第一图像中所述第二平面广告的坐标，使得所述第一图像中所述第二平面广告的坐标偏移值小于所述第二预设阈值。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述计算机设备对植入了所述第二平面广告的所述目标图像进行风格转换，包括：

所述计算机设备将植入了所述第二平面广告的所述目标图像输入生成对抗网络模型中，得到风格转换后的图像，所述风格转换后的图像中所述第二平面广告与所述第二平面广告以外的图像像素点的风格一致。

9.根据权利要求8所述的方法，其特征在于，所述生成对抗网络模型包括生成器和判别器，所述生成器包括卷积层、池化层、反卷积层以及反池化层，所述判别器包括卷积层、池化层、全连接层以及Softmax层。

10.根据权利要求9所述的方法，其特征在于，所述生成器中的卷积层的权重参数、所述生成器中的卷积层的偏置项参数、所述生成器中的反卷积层的权重参数以及所述生成器中的反卷积层的偏置项参数是根据预先设置的已植入所述第二平面广告的图像以及将所述已植入所述第二平面广告的图像进行了风格调整的图像训练生成的，所述判别器中的卷积层的权重参数、所述判别器中的卷积层的偏置项参数、所述判别器中的全连接层的权重参数以及所述判别器中的全连接层的偏置项参数是根据预先设置的已植入所述第二平面广告的图像以及将所述已植入所述第二平面广告的图像进行了风格调整的图像训练生成的。

11.一种计算机设备，其特征在于，包括：

第一确定单元，用于确定目标图像，所述目标图像为目标视频的M帧图像中包含第一平面广告的图像，M为正整数；

第二确定单元，用于确定目标区域，所述目标区域为所述目标图像中所述第一平面广告所在的区域；

替换单元，用于将待植入的第二平面广告插入到所述目标区域中替换所述第一平面广告；

风格转换单元，用于对植入了所述第二平面广告的所述目标图像进行风格转换，转换后的所述目标图像中所述第二平面广告的风格与所述目标图像中所述第二平面广告所在区域以外的图像像素点的风格一致。

12.根据权利要求11所述的计算机设备，其特征在于，所述第一确定单元具体用于：

13.根据权利要求12所述的计算机设备，其特征在于，所述第一确定单元，包括：

14.根据权利要求13所述的计算机设备，其特征在于，所述第一卷积神经网络模型中的卷积层的权重参数、所述第一卷积神经网络模型中的卷积层的偏置项参数、所述第一卷积神经网络模型中的全连接层的权重参数以及所述第一卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的包含所述第一平面广告的图像以及未包含所述第一平面广告的图像训练生成的。

15.根据权利要求11至14任一项所述的计算机设备，其特征在于，所述第二确定单元，包括：

16.根据权利要求15所述的计算机设备，其特征在于，所述第三卷积神经网络模型中的卷积层的权重参数、所述第三卷积神经网络模型中的卷积层的偏置项参数、所述第三卷积神经网络模型中的全连接层的权重参数以及所述第三卷积神经网络模型中的全连接层的偏置项参数是根据预先设置的定位精确的区域以及定位不精确的区域训练生成的。

17.根据权利要求11至16任一项所述的计算机设备，其特征在于，所述目标图像包括P帧；所述目标图像包括P帧；所述计算机设备还包括：

角点跟踪单元，用于在所述替换单元将待植入的第二平面广告插入到所述目标区域中替换所述第一平面广告之后，所述风格转换单元对植入了所述第二平面广告的所述目标图像进行风格转换之前，采用角点跟踪算法跟踪所述P帧目标图像中的每帧目标图像中植入的所述第二平面广告的坐标；

18.根据权利要求11至17任一项所述的计算机设备，其特征在于，所述风格转换单元具体用于：

19.根据权利要求18所述的计算机设备，其特征在于，所述生成对抗网络模型包括生成器和判别器，所述生成器包括卷积层、池化层、反卷积层以及反池化层，所述判别器包括卷积层、池化层、全连接层以及Softmax层。

20.根据权利要求19所述的计算机设备，其特征在于，所述生成器中的卷积层的权重参数、所述生成器中的卷积层的偏置项参数、所述生成器中的反卷积层的权重参数以及所述生成器中的反卷积层的偏置项参数是根据预先设置的已植入所述第二平面广告的图像以及将所述已植入所述第二平面广告的图像进行了风格调整的图像训练生成的，所述判别器中的卷积层的权重参数、所述判别器中的卷积层的偏置项参数、所述判别器中的全连接层的权重参数以及所述判别器中的全连接层的偏置项参数是根据预先设置的已植入所述第二平面广告的图像以及将所述已植入所述第二平面广告的图像进行了风格调整的图像训练生成的。