CN113362353A - 一种利用合成训练图片识别广告机边框的方法 - Google Patents

一种利用合成训练图片识别广告机边框的方法 Download PDF

Info

Publication number
CN113362353A
CN113362353A CN202010144748.4A CN202010144748A CN113362353A CN 113362353 A CN113362353 A CN 113362353A CN 202010144748 A CN202010144748 A CN 202010144748A CN 113362353 A CN113362353 A CN 113362353A
Authority
CN
China
Prior art keywords
picture
training
advertisement
model
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010144748.4A
Other languages
English (en)
Inventor
陈岩
刘杨
李明博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fenzhong Software Technologies Co ltd
Original Assignee
Shanghai Fenzhong Software Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fenzhong Software Technologies Co ltd filed Critical Shanghai Fenzhong Software Technologies Co ltd
Priority to CN202010144748.4A priority Critical patent/CN113362353A/zh
Publication of CN113362353A publication Critical patent/CN113362353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用合成训练图片识别广告机边框的方法,包括:使用Blender建立素材的3D模型,导入到Unity中进行渲染和图片生成,在生成图片的同时生成图片的标注信息;通过深度学习算法识别图片中的广告机边框,将其中播放的广告画面提取出来,并通过投影变换,消除广告图像的形变。本发明采用批量的合成图片来训练深度学习模型,不需要人工标注,节省了大量时间和人力成本,使用合成图片可以保证生成的数据标注是没有误差的;用深度学习模型检测出图片中的广告机边框,将其中的广告图片取出并矫正,排除了环境以及拍摄形变带来的干扰,提高了广告验刊的准确度;极大减小了图像之间的误差,使得广告验刊的准确度大幅提高。

Description

一种利用合成训练图片识别广告机边框的方法
技术领域
本发明属于将图像处理技术应用于信息传播领域,具体涉及一种利用合成训练图片识别广告机边框的方法。
背景技术
近年来,深度学习技术在多个领域都取得了巨大的成果,如:图像处理、自然语言处理、语音识别、机器翻译等等。深度学习之所以在近些年得到跨越式发展,得益于几个原因:一是互联网时代海量数据的生成,使神经网络有了足够多的训练数据;另外还有运算能力的提高和GPU的广泛应用;当然也有很多算法上的改进来避免过拟合和梯度消失。在图像处理领域,模型的训练需要大量的标注图片,例如,经典的机器学习入门的标准数据集MNIST包含60000张训练图像,10000张测试图像;MS-COCO则包含了150万个对象实例,而ImageNet使用的数据集则达到了惊人的1400万。数据量的大小对于深度学习模型的训练有着决定性的影响。传统手工标注方式会耗费大量的人力,例如某公司有400多人的标注团队,占公司总人数的六分之一,这对于一些小的团队或公司来说是不能承受的负担。广告验刊是指检验广告机上实际播放的广告和素材库中的广告是否相同。传统的广告验刊都是使用相机去广告机前拍摄,并将拍到的图片和素材库中的视频或图片进行人工比对,效率非常低下。使用算法对拍摄图片和素材库进行比对,则又误差很大。因为受限于拍摄环境拍摄技术等原因,拍摄到的图片和真实的素材有较大的差异。
现有技术存在的主要问题包括:大部分图像检测识别技术属于监督学习,必须有足够多的带有标注的训练数据,才能训练出好的模型。绝大部分深度学习研究人员都会采用网络上公开的一些数据集,例如:CIFAR-10、MS-COCO、ImageNet等,这些数据集都是由Google、微软等互联网巨头所提供。这些数据集用来做理论研究在大部分场景下是足够用的,但是在落地应用的时候则显得力不从心,因为每个公司的需求都是不同的,所需要的数据也是千差万别,不可能通过公共数据集来满足所有的需求;另一方面,很多数据集都有法律方面的风险,例如有些人脸数据集因为侵权问题已经无法使用。另外,在广告验刊时,实际场景下的拍摄到的图片受到环境(灯光,背景等)的影响以及拍摄角度的不同(拍摄角度的不同会使广告画面产生不同的形变),直接拿来用算法进行比对会有很大的误差。通过“深度学习and图像and广告”与“广告and验刊”等关键词检索得到36篇专利,并无发现可解决上述技术问题的方案。
发明内容
有鉴于此,本发明的目的是提供一种利用合成训练图片识别广告机边框的方法,以解决现有技术中的不足。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
提供一种利用合成训练图片识别广告机边框的方法,其中,包括:
使用Blender建立素材的3D模型,导入到Unity中进行渲染和图片生成,在生成图片的同时生成图片的标注信息;
通过深度学习算法识别图片中的广告机边框,将其中播放的广告画面提取出来,并通过投影变换,消除广告图像的形变。
上述利用合成训练图片识别广告机边框的方法,其中,在渲染的过程中,还包括:对生成好的图片以及标注信息进行预处理,得到训练数据;训练数据生成后,将训练数据分成训练集合测试集,训练神经网络模型,在训练过程中增加L2正则,每隔固定的epoch,则用标注好的一定数量的真实图片对模型进行测试,计算输出图片和真实标注值图片的IOU,并进行统计分析,不断根据反馈改进模型。
上述利用合成训练图片识别广告机边框的方法,其中,在渲染的过程中,通过给广告机的屏幕和背景贴上不同的图片,或是调节广告机的三个欧拉角Yaw,Pitch,Roll,或是调节光照条件,或是调节摄像机的远近方式来模仿实际场景,生成多种多样的图片。
上述利用合成训练图片识别广告机边框的方法,其中,生成每一张合成图片的同时,用一个和模型大小相同的纯色Cube来生成一张相同的投影图片,并通过算法来提取投影图片中的边框位置,作为标注信息。
上述利用合成训练图片识别广告机边框的方法,其中,深度学习算法采用ResNet神经网络模型,训练采用ResNet50架构加上全连接层,然后使用sigmoid函数,输出4个顶点的单位坐标值,再根据图片的尺寸乘以相应的比例,得到最终的坐标值;根据4个坐标将检测到的广告机图片剪切下来之后,做透视变换,变换成标准的矩形,最后输出矫正后的图片。
本发明技术方案的有益效果是:
--采用批量的合成图片来训练深度学习模型,不需要人工标注,节省了大量的时间和人力成本,并且使用合成图片可以保证生成的数据标注是没有误差的;
--用深度学习模型检测出图片中的广告机边框,将其中的广告图片取出并矫正,排除了环境以及拍摄形变带来的干扰,提高了广告验刊的准确度;
--得到的图片和真实素材图片的IOU大于0.9的超过50%,IOU大于0.8的超过90%,极大减小了图像之间的误差,使得广告验刊的准确度大幅提高。
附图说明
图1为本发明方法流程示意图;
图2为本发明实施例广告机3D模型示意图;
图3为本发明实施例拍照原图和剪切矫正后的图片对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参看图1、图2和图3所示,本发明利用合成训练图片识别广告机边框的方法,包括:使用Blender建立素材的3D模型,导入到Unity中进行渲染和图片生成,在生成图片的同时生成图片的标注信息(S1);通过深度学习算法识别图片中的广告机边框,将其中播放的广告画面提取出来,并通过投影变换,消除广告图像的形变(S2)。
首先使用Blender对各种类型的广告机进行3D建模,细节上尽可能和真实广告机一致。Blender是一款开源免费的三维动画制作软件,用来对各种类型的广告机进行建模,根据实际的尺寸比例、形状以及材质(金属外壳、LCD屏幕),并不断优化模型的细节,使模型的外观尽可能和真实广告机一样逼真。Unity3D是一款优秀的3D游戏开发引擎,可以使用C#进行编程。将Blender中建好的广告机模型导入到Unity3D中进行渲染和生成图片,一共合成了120000张训练图片和投影图片,并且每张训练图片都有不同的广告画面和投影图片。在渲染的过程中,通过给广告机的屏幕和背景贴上不同的图片,调节广告机的三个欧拉角(Yaw,Pitch,Roll),调节光照条件(每个广告机的安装位置和光照条件都是不同的),调节摄像机的远近等方式来模仿实际场景,生成多种多样的图片。由于Unity中难以通过直接的方法获得模型的顶点位置,因此生成每一张合成图片的同时,用一个和模型大小相同的纯色Cube来生成一张相同的投影图片,并通过算法来提取投影图片中的边框位置(广告机边框的四个顶点),作为标注信息。
神经网络模型采用ResNet(残差网络)。传统的CNN(卷积神经网络)模型随着网络深度的增加会出现退化现象,导致了很深层次的网络无法训练。ResNet模型引入了残差模块,使得网络可以跳跃连接,实现了隔层线性传递,使得模型本身能够容忍更深层的网络,解决了网络退化问题,能够加快网络的收敛。训练采用ResNet50架构,加上全连接层,然后使用sigmoid函数,输出4个顶点的单位坐标值。然后根据图片的尺寸乘以相应的比例,得到最终的坐标值。
因为照片拍摄时会产生形变,所以检测到的4个坐标并不是标准的矩形。因此,根据4个坐标将检测到的广告机图片剪切下来之后,做透视变换(PerspectiveTransformation),变换成标准的矩形,最后输出矫正后的图片。
再对生成好的图片以及标注信息进行预处理,得到训练数据。训练数据生成后,将训练数据分成训练集合测试集,使用NVIDIA Tesla P100 GPU开始训练神经网络模型。为了防止模型过拟合,在训练过程中增加了L2正则。每隔固定的epoch,则用标注好的一定数量(比如100张)真实图片对模型进行测试,计算输出图片和真实标注值图片的IOU,并进行统计分析,不断根据反馈改进模型(S3)。模型训练好之后,将其集成到APP后端,可以实现实时拍照验刊功能。
使用Unity3D在普通的笔记本电脑上,可以在1个小时内渲染出30000多张的标注图片,一天就可以生成百万级别的图片,这相当于一个5-6人的标注团队一个月的工作量。而且使用合成图片,生成的数据标注是没有误差的,而标注人员标注图片或多或少都会有误差,这会对深度学习的结果产生不可预知的结果。在使用基于深度学习的广告框提取算法后,得到的图片和真实素材图片的IOU大于0.9的超过50%,IOU大于0.8的超过90%,极大减小了图像之间的误差,使得广告验刊的准确度大幅提高。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (5)

1.一种利用合成训练图片识别广告机边框的方法,其特征在于,包括:
使用Blender建立素材的3D模型,导入到Unity中进行渲染和图片生成,在生成图片的同时生成图片的标注信息;
通过深度学习算法识别图片中的广告机边框,将其中播放的广告画面提取出来,并通过投影变换,消除广告图像的形变。
2.如权利要求1所述利用合成训练图片识别广告机边框的方法,其特征在于,还包括:对生成好的图片以及标注信息进行预处理,得到训练数据;训练数据生成后,将训练数据分成训练集合测试集,训练神经网络模型,在训练过程中增加L2正则,每隔固定的epoch,则用标注好的一定数量的真实图片对模型进行测试,计算输出图片和真实标注值图片的IOU,并进行统计分析,不断根据反馈改进模型。
3.如权利要求2所述利用合成训练图片识别广告机边框的方法,其特征在于,在渲染的过程中,通过给广告机的屏幕和背景贴上不同的图片,或是调节广告机的三个欧拉角Yaw,Pitch,Roll,或是调节光照条件,或是调节摄像机的远近方式来模仿实际场景,生成多种多样的图片。
4.如权利要求3所述利用合成训练图片识别广告机边框的方法,其特征在于,生成每一张合成图片的同时,用一个和模型大小相同的纯色Cube来生成一张相同的投影图片,并通过算法来提取投影图片中的边框位置,作为标注信息。
5.如权利要求1所述利用合成训练图片识别广告机边框的方法,其特征在于,深度学习算法采用ResNet神经网络模型,训练采用ResNet50架构加上全连接层,然后使用sigmoid函数,输出4个顶点的单位坐标值,再根据图片的尺寸乘以相应的比例,得到最终的坐标值;根据4个坐标将检测到的广告机图片剪切下来之后,做透视变换,变换成标准的矩形,最后输出矫正后的图片。
CN202010144748.4A 2020-03-04 2020-03-04 一种利用合成训练图片识别广告机边框的方法 Pending CN113362353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010144748.4A CN113362353A (zh) 2020-03-04 2020-03-04 一种利用合成训练图片识别广告机边框的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010144748.4A CN113362353A (zh) 2020-03-04 2020-03-04 一种利用合成训练图片识别广告机边框的方法

Publications (1)

Publication Number Publication Date
CN113362353A true CN113362353A (zh) 2021-09-07

Family

ID=77523546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010144748.4A Pending CN113362353A (zh) 2020-03-04 2020-03-04 一种利用合成训练图片识别广告机边框的方法

Country Status (1)

Country Link
CN (1) CN113362353A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461006A (zh) * 2014-12-17 2015-03-25 卢晨华 一种基于自然用户界面的互联网智能镜
CN107330363A (zh) * 2017-05-26 2017-11-07 浙江大学 一种快速的互联网广告牌检测方法
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN108109010A (zh) * 2017-12-26 2018-06-01 南京开为网络科技有限公司 一种智能ar广告机
CN108416828A (zh) * 2018-03-26 2018-08-17 南开大学 一种3d场景文本图片合成方法及系统
CN108563742A (zh) * 2018-04-12 2018-09-21 王海军 自动创建人工智能图像识别训练素材与标注文件的方法
CN108846385A (zh) * 2018-07-10 2018-11-20 浪潮通用软件有限公司 基于卷积-反卷积神经网络的图像识别、校正方法和装置
CN108985229A (zh) * 2018-07-17 2018-12-11 北京果盟科技有限公司 一种基于深度神经网络的智能广告替换方法及系统
CN109086798A (zh) * 2018-07-03 2018-12-25 迈吉客科技(北京)有限公司 一种数据标注方法和标注装置
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109934864A (zh) * 2019-03-14 2019-06-25 东北大学 面向机械臂抓取位姿估计的残差网络深度学习方法
KR20190078800A (ko) * 2017-12-27 2019-07-05 인하대학교 산학협력단 3차 투영법을 이용한 인터랙티브 360 비디오 어노테이션 방법
CN110189406A (zh) * 2019-05-31 2019-08-30 阿里巴巴集团控股有限公司 图像数据标注方法及其装置
CN110248093A (zh) * 2019-06-20 2019-09-17 清华大学深圳研究生院 一种数据采集方法、系统和终端设备
WO2019176235A1 (ja) * 2018-03-12 2019-09-19 株式会社日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
CN110287806A (zh) * 2019-05-30 2019-09-27 华南师范大学 一种基于改进ssd网络的交通标志识别方法
CN110807808A (zh) * 2019-10-14 2020-02-18 浙江理工大学 一种基于物理引擎和深度全卷积网络的商品识别方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461006A (zh) * 2014-12-17 2015-03-25 卢晨华 一种基于自然用户界面的互联网智能镜
CN107330363A (zh) * 2017-05-26 2017-11-07 浙江大学 一种快速的互联网广告牌检测方法
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN108109010A (zh) * 2017-12-26 2018-06-01 南京开为网络科技有限公司 一种智能ar广告机
KR20190078800A (ko) * 2017-12-27 2019-07-05 인하대학교 산학협력단 3차 투영법을 이용한 인터랙티브 360 비디오 어노테이션 방법
WO2019176235A1 (ja) * 2018-03-12 2019-09-19 株式会社日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
CN108416828A (zh) * 2018-03-26 2018-08-17 南开大学 一种3d场景文本图片合成方法及系统
CN108563742A (zh) * 2018-04-12 2018-09-21 王海军 自动创建人工智能图像识别训练素材与标注文件的方法
CN109086798A (zh) * 2018-07-03 2018-12-25 迈吉客科技(北京)有限公司 一种数据标注方法和标注装置
CN108846385A (zh) * 2018-07-10 2018-11-20 浪潮通用软件有限公司 基于卷积-反卷积神经网络的图像识别、校正方法和装置
CN108985229A (zh) * 2018-07-17 2018-12-11 北京果盟科技有限公司 一种基于深度神经网络的智能广告替换方法及系统
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109934864A (zh) * 2019-03-14 2019-06-25 东北大学 面向机械臂抓取位姿估计的残差网络深度学习方法
CN110287806A (zh) * 2019-05-30 2019-09-27 华南师范大学 一种基于改进ssd网络的交通标志识别方法
CN110189406A (zh) * 2019-05-31 2019-08-30 阿里巴巴集团控股有限公司 图像数据标注方法及其装置
CN110248093A (zh) * 2019-06-20 2019-09-17 清华大学深圳研究生院 一种数据采集方法、系统和终端设备
CN110807808A (zh) * 2019-10-14 2020-02-18 浙江理工大学 一种基于物理引擎和深度全卷积网络的商品识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MOHAMMAD MOSTAFA SOLTANI等: "Automated annotation for visual recognition of construction resources using synthetic images", 《AUTOMATION IN CONSTRUCTION》, vol. 62, 18 November 2015 (2015-11-18), pages 14 - 23, XP029360017, DOI: 10.1016/j.autcon.2015.10.002 *
YINGYING QIN等: "Generating images for Imbalanced Dataset Problem", 《PROCEEDINGS OF THE 36TH CHINESE CONTROL CONFERENCE》, 28 July 2017 (2017-07-28), pages 10930 - 10935, XP033150481, DOI: 10.23919/ChiCC.2017.8029100 *
丛肖达: "基于深度学习神经网络的广告牌识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2019, 15 May 2019 (2019-05-15), pages 138 - 1487 *
徐彬: "基于Unity3D的虚拟场景交互式建模系统研发", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2019, 15 July 2019 (2019-07-15), pages 138 - 1372 *

Similar Documents

Publication Publication Date Title
CN101681438A (zh) 跟踪三维对象的系统和方法
US11663775B2 (en) Generating physically-based material maps
Song et al. 3d pose transfer with correspondence learning and mesh refinement
Xing et al. Lighting simulation of augmented outdoor scene based on a legacy photograph
CN111402403B (zh) 高精度三维人脸重建方法
Zhang et al. Adaptive affine transformation: A simple and effective operation for spatial misaligned image generation
CN117392289A (zh) 基于ai语音自动生成案发现场视频的方法和系统
Weitz et al. InfiniteForm: A synthetic, minimal bias dataset for fitness applications
Kong et al. Direction-aware attention aggregation for single-stage hazy-weather crowd counting
Li et al. Disentangled generation network for enlarged license plate recognition and a unified dataset
TW202020736A (zh) 使用模擬物件影像之物件辨識系統及其方法
Wang et al. Swimmer’s posture recognition and correction method based on embedded depth image skeleton tracking
Li et al. Image synthesis via adversarial geometric consistency pursuit
Yu et al. A framework for automatic and perceptually valid facial expression generation
CN113362353A (zh) 一种利用合成训练图片识别广告机边框的方法
Hou et al. A study on the realization of virtual simulation face based on artificial intelligence
Shu et al. Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing
Wang et al. Generative model with coordinate metric learning for object recognition based on 3D models
Cheng et al. Fast and accurate illumination estimation using LDR panoramic images for realistic rendering
Lu et al. Pose guided image generation from misaligned sources via residual flow based correction
Mazian et al. A Theoretical Framework for Creating Folk Dance Motion Templates using Motion Capture
Romero et al. Synthesizing Human Activity for Data Generation
Gai et al. Digital Art Creation and Visual Communication Design Driven by Internet of Things Algorithm
Zhang et al. Generation of Synthetic Images of Randomly Stacked Object Scenes for Network Training Applications.
Zhang et al. Exploration and research on the digital protection methods of ethnic dance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination