CN108985229A

CN108985229A - 一种基于深度神经网络的智能广告替换方法及系统

Info

Publication number: CN108985229A
Application number: CN201810780765.XA
Authority: CN
Inventors: 刘跃庭; 魏松瑞
Original assignee: Beijing Guomeng Technology Co Ltd
Current assignee: Beijing Guomeng Technology Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-11

Abstract

本发明揭示了一种基于深度神经网络的智能广告替换方法及系统，所述方法包括：S1，直播视频导入；S2，采用基于实例分割模型的识别网络对视频中的广告区域进行识别，所述实例分割模型包括Mask‑RCNN架构；S3，将预先准备好的广告内容覆盖在S2中识别出来的广告区域内；S4，导出经S3编辑后的视频文件，发送给用户。本发明将深度神经网络算法应用于视频广告识别中，完整地实现了体育赛事广告位的精确识别和替换。

Description

一种基于深度神经网络的智能广告替换方法及系统

技术领域

本发明涉及广告替换技术，尤其是涉及一种基于深度神经网络的智能广告替换方法及系统。

背景技术

体育比赛具有巨大的商业价值，其中一个重要方面是体育比赛电视直播中插入的广告。这种广告主要分为两种，一种是现场的实体广告牌，例如足球场周围的围栏上的广告；另外一种是节目间隙插播进去的广告。但这两种形式都有各自的缺点，足球场围栏上的广告是固定的，不能根据不同的电视台的特定观众群体投放针对性的广告，而节目间隙插播替换进去的广告则会给观众带来不好的观看体验。

近年来出现的虚拟插播替换技术试图解决以上问题，虚拟插播替换技术可以在视频流推送给观众之前对视频进行处理，将其中围栏屏上的广告替换成新的广告内容，从而既具有内容上的针对性，又不会影响观众的观看体验。

然而目前的虚拟插播技术还有很多缺点，例如依赖于硬件，前期投入巨大，对围栏上的LED显示屏，摄像机都有额外要求，并且会减少LED屏的使用寿命。更重要的是，目前广告替换的精度也比较低，经常会出现错误的替换。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种广告替换精度高的基于深度神经网络的智能广告替换方法及系统。

为实现上述目的，本发明提出如下技术方案：一种基于深度神经网络的智能广告替换方法，包括：

S1，直播视频导入；

S2，采用基于实例分割模型的识别网络对视频中的广告区域进行识别，所述实例分割模型包括Mask-RCNN架构；

S3，将预先准备好的广告内容覆盖在S2中识别出来的所述广告区域内；

S4，导出经S3编辑后的视频文件，发送给用户。

优选地，所述S2包括：

S21：用基于卷积神经网络CNN的特征提取网络对视频中的图像做特征提取，然后对提取出的高级和低级特征用特征金字塔网络FPN处理后，输入给区域候选网络RPN进行候选区域建议；

S22：对区域候选网络RPN提出的所述候选区域用做二元目标归类，并设置一个阀值来判断有无广告；

S23：在步骤S22进行的同时，对检测为含有广告的候选区域，用回归算法进行坐标精修来标出像素级别的广告区域框，并生成一个对应的广告区域掩码Mask；

S24：将生成的所述广告区域掩码Mask通过区域对齐加在图像的广告区域。

优选地，S21中，所述特征提取网络采用残差网络resnet。

优选地，S21中，卷积神经网络CNN使用一个n×m的卷积核对视频中的图像做卷积变换，并使用多通道抓取图像特征，其中，n、m为大于等于1的自然数，n和m相同或不同。

优选地，所述卷积核通常选用1×1、3×3或5×5的卷积核。

优选地，S22中，所述二元目标分类采用sigmoid激活函数，输出判定为广告的置信度；且设置所述置信度大于所述阈值的候选区域判定为有广告，小于所述阈值的候选区域判定为无广告，其中，所述阈值设置为0.85～0.95。

优选地，S23中，所述用回归算法进行坐标精修来标出像素级别的广告区域框的过程包括：对于广告区域边缘计算出像素级别的位置框，回归算法训练卷积神经网络，预测广告区域边缘位置。

优选地，S24中，根据所述预测出的广告区域边缘位置，将卷积神经网络生成的区域掩码覆盖在图像中的广告区域，以标识出广告。

优选地，S3中，所使用的覆盖方式选用包括色键、Premiere软件中的一种。

本发明还提出了另外一种技术方案：一种基于深度神经网络的智能广告替换装置，所述装置包括：

视频导入装置，用于将待替换广告的直播视频导入；

广告区域识别装置，用于采用基于实例分割模型的识别网络对视频中的广告区域进行识别，所述实例分割模型包括Mask-RCNN架构；

广告内容替换装置，用于将预先准备好的广告内容覆盖在广告区域识别装置识别出来的广告区域内。

视频导出装置，用于导出经广告内容替换装置编辑后的视频文件，并发送给用户。

优选地，所述广告区域识别装置包括：

特征提取装置，用基于卷积神经网络CNN的特征提取网络对视频中的图像做特征提取，然后对提取出的高级和低级特征用特征金字塔网络FPN处理后，输入给区域候选网络RPN进行候选区域建议；

区域归类装置，用于对区域候选网络RPN提出的所述候选区域用做二元目标归类，并设置一个阀值来判断有无广告；

掩码生成装置，用于对检测为含有广告的候选区域，用回归算法进行坐标精修来标出像素级别的广告区域框，并生成一个对应的区域掩码Mask。

区域标示装置，用于将生成的广告区域掩码Mask通过区域对齐加在图像的广告区域，以标出广告。

优选地，所述广告内容替换装置可选用包括色键、Premiere软件中的一种。

本发明的有益效果是：基于广告位本身特征和深度神经网络技术，使用Mask-RCNN作为核心框架，输出层使用二元分类和迁移学习做广告位识别，减少数据需求，且完整地实现了体育赛事广告位的精确识别和替换。

附图说明

图1是本发明方法的流程示意图；

图2是本发明步骤S2的流程示意图；

图3是本发明Mask-RCNN框架的结构示意图。

具体实施方式

下面将结合本发明的附图，对本发明实施例的技术方案进行清楚、完整的描述。

本发明所揭示的一种基于深度神经网络的智能广告替换方法及系统，基于人工智能技术，将深度神经网络算法应用于视频广告识别中，实现广告位的精准识别、替换。

如图1所示，本发明所揭示的一种基于深度神经网络的智能广告替换方法，包括以下步骤：

S1，直播视频导入。

具体地，这一过程可采用目前比较常用的电视直播技术和网络直播技术来实现。其中，电视直播技术就是把活动现场的画面和声音通过摄像机、音频设备变成视频、音频信号，将这些视频、音频信号进行一定的技术处理后，通过传送设备送回电视台播出机房，播出人员在接到活动现场导播人员的指令后，把播出信号切换成现场的电视直播信号。现场直播信号可以通过卫星、光纤、微波、3G/4G无线网络等通信手段进行传输。如：用多台摄像机录制体育比赛的现场画面，使用电缆先将录制的画面传送到电视转播车上，在电视转播车上对节目进行包括虚拟替换之内的编辑处理之后，通过车载微波发射设备将电视信号传送给电视中心台，再送给用户，实现现场直播。

网络直播技术主要是将电视(模拟)信号通过采集，编辑转换为数字信号输入计算机，之后编码软件和编码服务器将计算机传送过来的节目信号源压缩成流媒体格式，上传到流媒体服务器，服务器管理、存储、分发上传流媒体节目，实时上传网站供人观看。

S2，采用基于实例分割模型的识别网络对视频中的广告区域进行识别。

实例分割是一种在像素层面识别目标轮廓的技术，实施时，这里的实例分割模型目前主要采用Mask-RCNN架构，如图3所示，下面以基于Mask-RCNN架构的识别网络为例，介绍对视频中的广告区域进行识别的具体原理。

具体地，本实施例中，结合图2所示，步骤S2包括以下步骤：

S21：用基于卷积神经网络CNN的特征提取网络对视频中的图像做特征提取，然后对提取出的高级和低级特征用特征金字塔网络FPN处理后，输入给区域候选网络RPN进行候选区域建议。

具体地，卷积神经网络CNN(英文全称为Convolutional Neural Network)作为特征提取器，通常有很多层卷积层组成，比如ResNet50或ResNet101，即分别有50层和101层，低级的卷积层用来检测图像的低级特征，比如边、角、曲线等，随着卷积层的增加，对应卷积层检测的特征就更加复杂(理性情况下，也是最终想要的情况)，比如第N(N为大于等于1的整数)个卷积层的输入实际上是第N-1层的输出，高级层逐渐可以检测低价特征的组合等情况(半圆、四边形等)，如此累积，以检测越来越复杂的特征，即相对低级特征的高级特征。

其中，采用滤波器来检测图像的过程包括：采用一个或多个卷积核在一个图像上做卷积，每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件(激活值越大越符合条件)的部分筛选出来。每个卷积核都会将图像生成为另一幅图像，比如两个通道的卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的区域特征。

举例来说，卷积神经网络CNN使用一个n×m(比如3×3的卷积核)的卷积核对视频中的图像做卷积变换，并使用多通道抓取图像空间特征，其中，n、m为大于等于1的自然数，n和m相同或不同。CNN在抓取图片区域特征的同时，相对于全联接网络大量减少了参数。如一张图片大小为256×256的RGB，从3通道变为64通道，那么CNN用3×3的卷积核对其卷积，就是一个通道需要3×3个参数，再乘通道数3×64，所以参数一共是3×3×3×64＝1728，而全联接网络则需要256×256×3×256×256×64个参数，所以相对于全联接网络大量减少了参数。实施时，作为可替换的实施例，这里的卷积核也可采用常用的1×1、5×5的卷积核，也就是说，目前1×1、3×3、5×5的卷积核是最常用的。另外，实施时，特征提取网络目前主要选用残差网络resnet，当然其他基于基于卷积神经网络CNN的特征提取网络也适用本发明。

在通过卷积获得了特征之后，还需要对卷积神经网络做进一步地提升。本实施例中，采用特征金字塔网络FPN(英文全称为Feature Pyramid Network)对卷积神经网络扩展，可以在多个尺度上更好地表征目标。具体地，FPN通过添加第二个金字塔提升了标准特征提取金字塔的性能，第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。通过这个过程，它允许每一级的特征都可以和高级、低级特征互相结合。特征金字塔网络FPN具体如何对特征进行处理，可参照现有FPN技术实现原理。

区域候选网络RPN(英文全称为Region Proposal Network)是一个轻量的神经网络，它用滑动窗口来扫描图像，并寻找存在目标的区域，即进行候选区域建议。RPN扫描的区域被称为anchor，这是在图像区域上分布的矩形，使用RPN的预测，可以选出最好地包含了目标的anchor，并对其位置和尺寸进行精调。如果有多个anchor互相重叠，将保留拥有最高前景分数的anchor，并舍弃余下的(采用Non-maximum suppression，非极大值抑制)，然后就得到了最终的区域建议，并将其传递到下一个阶段。这里RPN进行候选区域建议的具体实现原理也可以参照现有RPN技术，这里也不再赘述。

S22：对区域候选网络RPN提出的候选区域用做二元目标归类，并设置一个阀值来判断有广告或无广告。

这个阶段是在由RPN提出的ROI(Region of Interests)潜在围栏屏区域上运行的，和RPN不同(两个类别，前景或背景)，这个ROI网络更深并且可以将区域分类为具体的类别，如这里的广告区域。

具体地，在通过卷积及区域候选网络获得了候选区域之后，下一步需要对这些候选区域做分类。本实施例中，对候选区域做二元目标归类(BinaryClassification)，且二元目标分类采用sigmoid(S型)激活函数，输出判定为广告的置信度。二元目标归类结果只有两种可能，是围栏屏和不是围栏屏，具体实现方式为用专门数据训练后的模型对每个潜在区域输出一个0～1之间的值，即这里的置信度，该值代表该区域是围栏屏的概率，值越大表明是围栏屏的可能性越大。

最后再用一个阈值来决定候选区域中有无广告，根据多次实验结果，选择0.85～0.95作为阀值，优选为0.9，即置信度大于该阀值的候选区域判定为有广告，小于该阀值的候选区域判定为无广告。阈值的具体值的选择根据具体比赛场地状况而定，如果背景中有横幅等相对接近围栏广告牌的区域，则采用较大阀值以减少错误识别(假阳性)；如果比赛场地没有视觉上接近围栏屏的区域，则采用较小阀值，以减少遗漏识别。

S23：在步骤S22进行的同时，对检测为含有广告的候选区域，用回归算法进行坐标精修来精确标出像素级别的广告区域框，并生成一个对应的区域掩码Mask。

其中回归算法进行坐标精修的过程包括：模型训练过程中，将输出的坐标位置与真实位置的差别作为模型loss function损失函数的一部分，用大量数据训练至模型输出的坐标位置与真实位置保持一致，实现坐标精修。

具体地，对检测为含广告的候选区域，可以收紧边框以适应目标的真实尺寸。通过在区域提案上运行简单的线性回归，以生成更紧密的边界框坐标从而获得最终结果。本实施例中，采用回归算法进行坐标精修来精确标出像素级别的广告区域框。对于广告区域边缘计算出像素级别的位置框，回归算法实施中训练卷积神经网络以精确预测广告区域边缘位置。

S24：将生成的广告区域掩码Mask通过区域对齐加在图像的广告区域。

具体地，根据上述S23中预测出的广告区域边缘位置，将模型生成的掩码根据区域边缘坐标覆盖在图像中的广告区域，以精确标出广告。

需要说明的是，本发明中上述Mask-RCNN模型的基本框架可借鉴现有Mask-RCNN模型的框架，本发明主要是将该模型改进使其适用于广告识别。具体地，如只输出是否属于广告区域，相对于原模型识别多种类别来说减少计算量；通过改变输入输出分辨率，适应视频；改变一些卷积层的大小；改变训练方式，适用于多显卡并行训练，以适应视频替换需要的速度。

另外，基于Mask-RCNN模型的识别网络使用迁移学习进行训练。具体方式为，特征提取网络先在imagenet大型图片归类数据集进行训练，使用训练后的权重(不含最后一层归类层)初始化Mask-RCNN模型的特征提取网络，然后模型在COCO(Common Objects inContext)数据集训练，使用训练后的权重初始化广告区域检测模型，最后用标记好的广告区域数据进行精细化训练，达到精确识别广告区域的目的。

这里标记好的广告区域数据来源于公开媒体图片，使用VGG Image Annotator(VGG图像注释器，VIA)进行标注，标注后的数据输入为图片，输出为图片中广告区域的位置。

S3，将预先准备好的广告内容覆盖在S2中识别出来的广告区域内。

实施时，可以采用色键或使用Premiere软件来实现这一覆盖过程，其中色键或Premiere软件的具体实现原理可直接采用现有的。

S4，导出经S3编辑后的视频文件，发送给用户。

具体地，这里视频导出过程，即可以采用上述S1中描述的，如是电视直播技术，则现场直播信号可以通过卫星、光纤、微波、3G/4G无线网络等通信手段进行传输，送给用户，实现现场直播。如是网络直播技术，则是由流媒体服务器管理、存储、分发上传流媒体节目，实时上传网站供人观看。

本发明所揭示的一种基于深度神经网络的智能广告替换系统，包括：

视频导入装置，用于将待替换广告的直播视频导入。

其中，视频导入装置的导入方式可采用电视直播方式和网络直播方法，其中，采用电视直播方式时，视频导入装置包括信号采集装置、视频处理装置、信号传送装置，其中，信号采集装置包括摄像机、音频设备等，通过摄像机、音频设备变成视频、音频信号；视频处理装置用于将这些视频、音频信号进行一定的技术处理；信号传送装置用于将处理后的视频信号送回电视台播出机房。视频导入装置的具体实现原理可参照上述步骤S1中的描述。

广告区域识别装置，采用基于实例分割模型的识别网络对视频中的广告区域进行识别，其中，实例分割模型目前主要采用Mask-RCNN模型。

具体地，本实施例中，所述广告区域识别装置包括：

特征提取装置，用于用基于卷积神经网络CNN的特征提取网络对视频中的图像做特征提取，然后对提取出的高级和低级特征用特征金字塔网络FPN处理后，输入给区域候选网络RPN进行候选区域建议。

区域归类装置，用于对区域候选网络RPN提出的候选区域做二元目标归类，并设置一个阀值来判断有广告或无广告。

掩码生成装置，用于对检测为含有广告的候选区域，用回归算法进行坐标精修来精确标出像素级别的广告区域框，并生成一个对应的区域掩码Mask。

区域标示装置，用于将生成的广告区域Mask通过区域对齐加在图像的广告区域，以精确标出广告。

其中，上述特征提取装置、区域归类装置、掩码生成装置、区域标示装置的实现原理可分别参照上述S21～S24的描述。

实施时，这里的广告内容替换装置可采用现有色键或Premiere软件实现。

具体地，视频导出装置包括信号传出设备，信号传出设备可采用卫星、光纤、微波、3G/4G无线网络等通信手段中的一种。其实现原理可参照上述步骤S1中的描述。

本发明的技术内容及技术特征已揭示如上，然而熟悉本领域的技术人员仍可能基于本发明的教示及揭示而作种种不背离本发明精神的替换及修饰，因此，本发明保护范围应不限于实施例所揭示的内容，而应包括各种不背离本发明的替换及修饰，并为本专利申请权利要求所涵盖。

Claims

1.一种基于深度神经网络的智能广告替换方法，其特征在于，包括：

S1，直播视频导入；

S4，导出经S3编辑后的视频文件，发送给用户。

2.根据权利要求1所述的智能广告替换方法，其特征在于，所述S2包括：

3.根据权利要求2所述的智能广告替换方法，其特征在于，S21中，所述特征提取网络采用残差网络resnet。

4.根据权利要求3所述的智能广告替换方法，其特征在于，S21中，卷积神经网络CNN使用一个n×m的卷积核对视频中的图像做卷积变换，并使用多通道抓取图像特征，其中，n、m均为大于等于1的自然数，且n和m相同或不同。

5.根据权利要求2所述的智能广告替换方法，其特征在于，S22中，所述二元目标分类采用sigmoid激活函数，输出判定为广告的置信度；且设置所述置信度大于所述阈值的候选区域判定为有广告，小于所述阈值的候选区域判定为无广告，其中，所述阈值设置为0.85～0.95。

6.根据权利要求2所述的智能广告替换方法，其特征在于，S23中，所述用回归算法进行坐标精修来标出像素级别的广告区域框的过程包括：对于广告区域边缘计算出像素级别的位置框，用回归算法训练卷积神经网络，预测广告区域边缘位置。

7.根据权利要求2或5所述的智能广告替换方法，其特征在于，S24中，根据所述预测出的广告区域边缘位置，将卷积神经网络生成的区域掩码覆盖在图像中的广告区域，以标识出广告。

8.根据权利要求1所述的智能广告替换方法，其特征在于，S3中，所使用的覆盖方式选用包括色键、Premiere软件中的一种。

9.一种基于深度神经网络的智能广告替换装置，其特征在于，所述装置包括：

视频导入装置，用于将待替换广告的直播视频导入；

10.根据权利要求9所述的智能广告替换装置，其特征在于，所述广告区域识别装置包括：