CN113362353A

CN113362353A - 一种利用合成训练图片识别广告机边框的方法

Info

Publication number: CN113362353A
Application number: CN202010144748.4A
Authority: CN
Inventors: 陈岩; 刘杨; 李明博
Original assignee: Shanghai Fenzhong Software Technologies Co ltd
Current assignee: Shanghai Fenzhong Software Technologies Co ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2021-09-07

Abstract

本发明公开了一种利用合成训练图片识别广告机边框的方法，包括：使用Blender建立素材的3D模型，导入到Unity中进行渲染和图片生成，在生成图片的同时生成图片的标注信息；通过深度学习算法识别图片中的广告机边框，将其中播放的广告画面提取出来，并通过投影变换，消除广告图像的形变。本发明采用批量的合成图片来训练深度学习模型，不需要人工标注，节省了大量时间和人力成本，使用合成图片可以保证生成的数据标注是没有误差的；用深度学习模型检测出图片中的广告机边框，将其中的广告图片取出并矫正，排除了环境以及拍摄形变带来的干扰，提高了广告验刊的准确度；极大减小了图像之间的误差，使得广告验刊的准确度大幅提高。

Description

一种利用合成训练图片识别广告机边框的方法

技术领域

本发明属于将图像处理技术应用于信息传播领域，具体涉及一种利用合成训练图片识别广告机边框的方法。

背景技术

近年来，深度学习技术在多个领域都取得了巨大的成果，如：图像处理、自然语言处理、语音识别、机器翻译等等。深度学习之所以在近些年得到跨越式发展，得益于几个原因：一是互联网时代海量数据的生成，使神经网络有了足够多的训练数据；另外还有运算能力的提高和GPU的广泛应用；当然也有很多算法上的改进来避免过拟合和梯度消失。在图像处理领域，模型的训练需要大量的标注图片，例如，经典的机器学习入门的标准数据集MNIST包含60000张训练图像，10000张测试图像；MS-COCO则包含了150万个对象实例，而ImageNet使用的数据集则达到了惊人的1400万。数据量的大小对于深度学习模型的训练有着决定性的影响。传统手工标注方式会耗费大量的人力，例如某公司有400多人的标注团队，占公司总人数的六分之一，这对于一些小的团队或公司来说是不能承受的负担。广告验刊是指检验广告机上实际播放的广告和素材库中的广告是否相同。传统的广告验刊都是使用相机去广告机前拍摄，并将拍到的图片和素材库中的视频或图片进行人工比对，效率非常低下。使用算法对拍摄图片和素材库进行比对，则又误差很大。因为受限于拍摄环境拍摄技术等原因，拍摄到的图片和真实的素材有较大的差异。

现有技术存在的主要问题包括：大部分图像检测识别技术属于监督学习，必须有足够多的带有标注的训练数据，才能训练出好的模型。绝大部分深度学习研究人员都会采用网络上公开的一些数据集，例如：CIFAR-10、MS-COCO、ImageNet等，这些数据集都是由Google、微软等互联网巨头所提供。这些数据集用来做理论研究在大部分场景下是足够用的，但是在落地应用的时候则显得力不从心，因为每个公司的需求都是不同的，所需要的数据也是千差万别，不可能通过公共数据集来满足所有的需求；另一方面，很多数据集都有法律方面的风险，例如有些人脸数据集因为侵权问题已经无法使用。另外，在广告验刊时，实际场景下的拍摄到的图片受到环境(灯光，背景等)的影响以及拍摄角度的不同(拍摄角度的不同会使广告画面产生不同的形变)，直接拿来用算法进行比对会有很大的误差。通过“深度学习and图像and广告”与“广告and验刊”等关键词检索得到36篇专利，并无发现可解决上述技术问题的方案。

发明内容

有鉴于此，本发明的目的是提供一种利用合成训练图片识别广告机边框的方法，以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

提供一种利用合成训练图片识别广告机边框的方法，其中，包括：

使用Blender建立素材的3D模型，导入到Unity中进行渲染和图片生成，在生成图片的同时生成图片的标注信息；

通过深度学习算法识别图片中的广告机边框，将其中播放的广告画面提取出来，并通过投影变换，消除广告图像的形变。

上述利用合成训练图片识别广告机边框的方法，其中，在渲染的过程中，还包括：对生成好的图片以及标注信息进行预处理，得到训练数据；训练数据生成后，将训练数据分成训练集合测试集，训练神经网络模型，在训练过程中增加L2正则，每隔固定的epoch，则用标注好的一定数量的真实图片对模型进行测试，计算输出图片和真实标注值图片的IOU，并进行统计分析，不断根据反馈改进模型。

上述利用合成训练图片识别广告机边框的方法，其中，在渲染的过程中，通过给广告机的屏幕和背景贴上不同的图片，或是调节广告机的三个欧拉角Yaw,Pitch,Roll，或是调节光照条件，或是调节摄像机的远近方式来模仿实际场景，生成多种多样的图片。

上述利用合成训练图片识别广告机边框的方法，其中，生成每一张合成图片的同时，用一个和模型大小相同的纯色Cube来生成一张相同的投影图片，并通过算法来提取投影图片中的边框位置，作为标注信息。

上述利用合成训练图片识别广告机边框的方法，其中，深度学习算法采用ResNet神经网络模型，训练采用ResNet50架构加上全连接层，然后使用sigmoid函数，输出4个顶点的单位坐标值，再根据图片的尺寸乘以相应的比例，得到最终的坐标值；根据4个坐标将检测到的广告机图片剪切下来之后，做透视变换，变换成标准的矩形，最后输出矫正后的图片。

本发明技术方案的有益效果是：

--采用批量的合成图片来训练深度学习模型，不需要人工标注，节省了大量的时间和人力成本，并且使用合成图片可以保证生成的数据标注是没有误差的；

--用深度学习模型检测出图片中的广告机边框，将其中的广告图片取出并矫正，排除了环境以及拍摄形变带来的干扰，提高了广告验刊的准确度；

--得到的图片和真实素材图片的IOU大于0.9的超过50％，IOU大于0.8的超过90％，极大减小了图像之间的误差，使得广告验刊的准确度大幅提高。

附图说明

图1为本发明方法流程示意图；

图2为本发明实施例广告机3D模型示意图；

图3为本发明实施例拍照原图和剪切矫正后的图片对比示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参看图1、图2和图3所示，本发明利用合成训练图片识别广告机边框的方法，包括：使用Blender建立素材的3D模型，导入到Unity中进行渲染和图片生成，在生成图片的同时生成图片的标注信息(S1)；通过深度学习算法识别图片中的广告机边框，将其中播放的广告画面提取出来，并通过投影变换，消除广告图像的形变(S2)。

首先使用Blender对各种类型的广告机进行3D建模，细节上尽可能和真实广告机一致。Blender是一款开源免费的三维动画制作软件，用来对各种类型的广告机进行建模，根据实际的尺寸比例、形状以及材质(金属外壳、LCD屏幕)，并不断优化模型的细节，使模型的外观尽可能和真实广告机一样逼真。Unity3D是一款优秀的3D游戏开发引擎，可以使用C#进行编程。将Blender中建好的广告机模型导入到Unity3D中进行渲染和生成图片，一共合成了120000张训练图片和投影图片，并且每张训练图片都有不同的广告画面和投影图片。在渲染的过程中，通过给广告机的屏幕和背景贴上不同的图片，调节广告机的三个欧拉角(Yaw，Pitch，Roll)，调节光照条件(每个广告机的安装位置和光照条件都是不同的)，调节摄像机的远近等方式来模仿实际场景，生成多种多样的图片。由于Unity中难以通过直接的方法获得模型的顶点位置，因此生成每一张合成图片的同时，用一个和模型大小相同的纯色Cube来生成一张相同的投影图片，并通过算法来提取投影图片中的边框位置(广告机边框的四个顶点)，作为标注信息。

神经网络模型采用ResNet(残差网络)。传统的CNN(卷积神经网络)模型随着网络深度的增加会出现退化现象，导致了很深层次的网络无法训练。ResNet模型引入了残差模块，使得网络可以跳跃连接，实现了隔层线性传递,使得模型本身能够容忍更深层的网络，解决了网络退化问题，能够加快网络的收敛。训练采用ResNet50架构，加上全连接层，然后使用sigmoid函数，输出4个顶点的单位坐标值。然后根据图片的尺寸乘以相应的比例，得到最终的坐标值。

因为照片拍摄时会产生形变，所以检测到的4个坐标并不是标准的矩形。因此，根据4个坐标将检测到的广告机图片剪切下来之后，做透视变换(PerspectiveTransformation)，变换成标准的矩形，最后输出矫正后的图片。

再对生成好的图片以及标注信息进行预处理，得到训练数据。训练数据生成后，将训练数据分成训练集合测试集，使用NVIDIA Tesla P100 GPU开始训练神经网络模型。为了防止模型过拟合，在训练过程中增加了L2正则。每隔固定的epoch，则用标注好的一定数量(比如100张)真实图片对模型进行测试，计算输出图片和真实标注值图片的IOU，并进行统计分析，不断根据反馈改进模型(S3)。模型训练好之后，将其集成到APP后端，可以实现实时拍照验刊功能。

使用Unity3D在普通的笔记本电脑上，可以在1个小时内渲染出30000多张的标注图片，一天就可以生成百万级别的图片，这相当于一个5-6人的标注团队一个月的工作量。而且使用合成图片，生成的数据标注是没有误差的，而标注人员标注图片或多或少都会有误差，这会对深度学习的结果产生不可预知的结果。在使用基于深度学习的广告框提取算法后，得到的图片和真实素材图片的IOU大于0.9的超过50％，IOU大于0.8的超过90％，极大减小了图像之间的误差，使得广告验刊的准确度大幅提高。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种利用合成训练图片识别广告机边框的方法，其特征在于，包括：

2.如权利要求1所述利用合成训练图片识别广告机边框的方法，其特征在于，还包括：对生成好的图片以及标注信息进行预处理，得到训练数据；训练数据生成后，将训练数据分成训练集合测试集，训练神经网络模型，在训练过程中增加L2正则，每隔固定的epoch，则用标注好的一定数量的真实图片对模型进行测试，计算输出图片和真实标注值图片的IOU，并进行统计分析，不断根据反馈改进模型。

3.如权利要求2所述利用合成训练图片识别广告机边框的方法，其特征在于，在渲染的过程中，通过给广告机的屏幕和背景贴上不同的图片，或是调节广告机的三个欧拉角Yaw,Pitch,Roll，或是调节光照条件，或是调节摄像机的远近方式来模仿实际场景，生成多种多样的图片。

4.如权利要求3所述利用合成训练图片识别广告机边框的方法，其特征在于，生成每一张合成图片的同时，用一个和模型大小相同的纯色Cube来生成一张相同的投影图片，并通过算法来提取投影图片中的边框位置，作为标注信息。

5.如权利要求1所述利用合成训练图片识别广告机边框的方法，其特征在于，深度学习算法采用ResNet神经网络模型，训练采用ResNet50架构加上全连接层，然后使用sigmoid函数，输出4个顶点的单位坐标值，再根据图片的尺寸乘以相应的比例，得到最终的坐标值；根据4个坐标将检测到的广告机图片剪切下来之后，做透视变换，变换成标准的矩形，最后输出矫正后的图片。