CN111062388B - 基于深度学习的广告文字的识别方法、系统、介质及设备 - Google Patents
基于深度学习的广告文字的识别方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN111062388B CN111062388B CN201911250460.9A CN201911250460A CN111062388B CN 111062388 B CN111062388 B CN 111062388B CN 201911250460 A CN201911250460 A CN 201911250460A CN 111062388 B CN111062388 B CN 111062388B
- Authority
- CN
- China
- Prior art keywords
- characters
- image
- text
- deep learning
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公开了一种基于深度学习的广告文字的识别方法、系统、介质及设备,所述识别方法包括:获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型;将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括后期添加文字以及原始场景文字;对含有所述后期添加文字的待检测图像进行广告文字识别。本发明通过深度学习算法自动化识别含有广告文字的图像,识别的效率和准确性较高,并且可大幅度节省运营维护成本,净化网络环境,有效提升了互联网环境下的用户浏览体验。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于深度学习的广告文字的识别方法、系统、介质及设备。
背景技术
在线旅游公司(OTA)在进行业务推广时,通常利用图像(例如:酒店图像、旅游景点图像等)来将信息直观生动的传达给用户,以提升用户体验,进而提高用户的转化率。由于OTA图像的来源比较复杂,供应商在大批量推送图像的时候,往往会混有含不适当广告文字的图像,如限时推销、恶意推广、个人联系方式等,严重影响了用户体验。
现有技术中,通常是通过人工设计搭建特征工程,并利用机器学习算法来识别广告文字,在搭建特征工程的过程中,需要人工定义和提取图像中的可识别的特征(例如:颜色、形状、纹理特征等),特征工程的设计依赖于设计人员的经验,鲁棒性不强,并且针对一个具体场景设计的特征工程往往并不适其他的场景,针对不同的场景,需要重新设计特征工程,极大的限制了机器学习算法的表现性能,整体识别效率和准确性较低,不利于运营成本的优化。
发明内容
本发明要解决的技术问题是为了克服现有技术中通过机器学习算法识别图像中的广告文字,效率低且准确性差的缺陷,提供一种基于深度学习的广告文字的识别方法、系统、介质及设备。
本发明是通过下述技术方案来解决上述技术问题:
一种基于深度学习的广告文字的识别方法,所述识别方法包括:
获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;
以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型;
将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括后期添加文字以及原始场景文字;
对含有所述后期添加文字的待检测图像进行广告文字识别。
较佳地,所述获取多个文字块的步骤之前包括:以人工标记的含有文字的图像训练第二深度学习模型,所述第二深度模型用于识别图像中是否含有文字;
所述将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别的步骤之前包括:将待检测图像输入训练后的第二深度学习模型,以识别所述待检测图像是否含有文字;若是,则执行所述将含有文字的待检测图像输入训练后的所述第一深度学习模型的步骤。
较佳地,所述获取多个文字块的步骤包括:
获取经人工标记的含有文字的图像;
识别所述图像中的所述文字块的中心点以及所述文字块的尺寸;
以所述中心点为中心,从所述图像中裁切得到与所述文字块的尺寸具有不同尺寸比例关系的多个关联文字块。
较佳地,所述对含有所述后期添加文字的待检测图像进行广告文字识别的步骤包括:
判断所述后期添加文字是否与预设的广告关键词匹配;
若是,则确认所述后期添加文字为广告文字,并过滤所述待检测图像;
若否,则确认所述后期添加文字为非广告文字,并将所述待检测图像展示给用户;
和/或,
所述第一深度学习模型为卷积神经网络模型。
一种基于深度学习的广告文字的识别系统,所述识别系统包括:
文字块获取模块,用于获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;
第一训练模块,用于以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型;
类型识别模块,用于将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括后期添加文字以及原始场景文字;
广告识别模块,用于对含有所述后期添加文字的待检测图像进行广告文字识别。
较佳地,所述识别系统还包括第二训练模块,所述第二训练模块用于以人工标记的含有文字的图像训练第二深度学习模型,所述第二深度模型用于识别图像中是否含有文字;
所述识别系统还包括文字识别模块,所述文字识别模块用于将待检测图像输入训练后的第二深度学习模型,以识别所述待检测图像是否含有文字;若是,则调用所述类型识别模块。
较佳地,所述文字块获取模块用于获取经人工标记的含有文字的图像;识别所述图像中的所述文字块的中心点以及所述文字块的尺寸;以所述中心点为中心,从所述图像中裁切得到与所述文字块的尺寸具有不同尺寸比例关系的多个关联文字块。
较佳地,所述广告识别模块包括判断单元、过滤单元以及显示单元;
所述判断单元用于判断所述后期添加文字是否与预设的广告关键词匹配;若是,则确认所述后期添加文字为广告文字,并调用所述过滤单元,所述过滤单元用于过滤所述待检测图像;
若否,则确认所述后期添加文字为非广告文字,并调用所述显示单元,所述显示单元用于将所述待检测图像展示给用户;
和/或,
所述第一深度学习模型为卷积神经网络模型。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述的基于深度学习的广告文字的识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于深度学习的广告文字的识别方法的步骤。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:本发明提供的基于深度学习的广告文字的识别方法、系统、介质及设备可以通过深度学习算法自动化识别含有广告文字的图像,便于后续对具有广告文字的图像进行过滤,图像识别的效率和准确性较高,并且可大幅度节省运营维护成本,净化网络环境,保证图像展示的美观性,有效提升了互联网环境下的用户浏览体验。
附图说明
图1为本发明实施例1的基于深度学习的广告文字的识别方法的流程图。
图2为本发明实施例2的基于深度学习的广告文字的识别方法的流程图。
图3为本发明实施例3中的基于深度学习的广告文字的识别系统的结构框图。
图4为本发明实施例4中的基于深度学习的广告文字的识别系统的结构框图。
图5是本发明实施例5中的基于深度学习的广告文字的识别方法的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种基于深度学习的广告文字的识别方法,如图1所示,所述识别方法可以包括如下步骤:
步骤S1:获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;
本实施例中,文字块可以取自数据库中带有文字的图像,图像可以是照相机拍摄的相互独立的图片,或者是从摄像机拍摄的视频中截取的某一帧或若干帧。
所述原始场景文字块仅包括原始场景文字,所述原始场景文字可以是指图片在拍摄时或视频帧截取时就含有的文字,所述后期添加文字是指广告商在图片生成之后,通过后期文字处理手段在图片上添加的文字(例如:电话号码,商品贩卖信息等)。
步骤S2:以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型(也可以称为后期文字判别模型);
优选地,所述第一深度学习模型可以为卷积神经网络模型。
步骤S3:将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括后期添加文字以及原始场景文字。
步骤S4:对含有所述后期添加文字的待检测图像进行广告文字识别。
若是广告文字,则执行步骤S5:过滤所述待检测图像;
若不是广告文字,则执行步骤S6:将所述待检测图像展示给用户。
进一步地,所述步骤S1可以通过如下方式执行:获取经人工标记的含有文字的图像;识别所述图像中的所述文字块的中心点以及所述文字块的尺寸;以所述中心点为中心,从所述图像中裁切得到与所述文字块的尺寸具有不同尺寸比例关系的多个关联文字块。
所述文字块的尺寸可以包括W(宽)、H(高)以及文字块相对于水平方向的旋转角度。
对于形状不规则的文字块,可以将文字块的外框调整等效为具有标准形状的矩形,然后按照不同的尺寸比例关系进行裁切。
优选地,所述尺寸比例关系可以是将原文字块的W(宽)和H(高)放大预设的数值倍数。
进一步地,执行步骤S3时,也可以对所述待检测图像的文字区域进行裁切,然后将含有文字的待检测图像对应的多个文字块(即图像块)输入训练后的第一深度学习模型。对所述待检测图像的裁切也可以采用以原始文字块的中心点为中心,从待检测图像中裁切得到与原始文字块的尺寸具有不同尺寸比例关系的多个关联文字块。接下来,第一深度学习模型可以预测得到每个关联文字块属于后期添加文字的概率,可以以多个关联文字块的概率平均值作为某位置的文字行是否属于后期添加文字的概率。
具体地,还可以预先设置第一概率阈值,若计算的某位置的文字行属于后期添加文字的概率超过第一概率阈值,则可以认为该文字行中含有后期添加文字;若小于第一概率阈值,则认为该文字行中不含有后期添加文字。
所述待检测图像的内容可以是酒店图像、景点图像、商场图像等,本实施例对此不作限制。
进一步地,所述步骤S4可以通过如下方式执行:判断所述后期添加文字是否与预设的广告关键词匹配;若是,则确认所述后期添加文字为广告文字,并过滤所述待检测图像;若否,则确认所述后期添加文字为非广告文字,并将所述待检测图像展示给用户。
所述过滤的操作可以是指将识别出的广告图片单独存储在数据库中的某个地址,也可以直接删除广告图片。
本实施例中,在广告文字判别过程中,可以提取文字的属性,所述属性可以包括文字的大小、文字行的数量,文字在图像中的位置、文字的字数以及文字的内容等等。
优选地,可以选用文字的内容作为文字属性的代表,将该文字属性与预设的广告关键词相匹配。所述预设的广告关键词可以通过现有技术中的聚类算法对海量的广告用语进行关键词提取,并保存在数据库中。需要将文字属性与预设的广告关键词进行对比的时候,再从数据库中调取所述广告关键词。可以理解的是,广告关键词可以定时或不定时的进行更新,以及时抓取不断变化的广告用语。
本实施例提供的基于深度学习的广告文字的识别方法通过深度学习算法自动化识别含有广告文字的图像,便于后续对具有广告文字的图像进行过滤,图像识别的效率和准确性较高,并且可大幅度节省运营维护成本,净化网络环境,保证图像展示的美观性,有效提升了互联网环境下的用户浏览体验。
实施例2
本实施例提供一种基于深度学习的广告文字的识别方法,如图2所示,所述识别方法是在实施例1基础上的进一步改进。
具体地,所述步骤S1之前还可以包括如下步骤:
步骤S7:以人工标记的含有文字的图像训练第二深度学习模型(也可以称为文字检测模型),所述第二深度模型用于识别图像中是否含有文字;
基于此,所述步骤S3之前还可以包括如下步骤:
步骤S8:将待检测图像输入训练后的第二深度学习模型,以识别所述待检测图像是否含有文字;
若是,则执行所述步骤S3:所述将含有文字的待检测图像输入训练后的所述第一深度学习模型的步骤。
若否,则执行步骤S6:将所述待检测图像展示给用户。
本实施例中,所述步骤S8可以通过如下方式执行:将待检测图像输入训练后的所述第二深度学习模型,并利用所述第二深度学习模型预测得到所述待检测图像中含有文字的概率,再利用所述概率判断待检测图像中是否含有文字。
具体地,可以预先设置第二概率阈值,若第二深度学习模型预测的概率超过该第二概率阈值,则可以认为待检测图像中含有文字;若第二深度学习模型预测的概率小于所述第二概率阈值,则可以认为待检测图像中不含文字。
优选地,所述第二深度学习模型可以为卷积神经网络模型。
下面以具体的卷积神经网络模型为例,说明第一深度学习模型以及第二深度学习模型的训练过程。
例如,可以设计含55层卷积层的目标检测算法CtripAds-55以训练得到前述的第二深度学习模型(文字检测模型),可以以121个网络层的图像分类网络算法Censenet121训练得到前述的第一深度学习模型(后期文字判别模型)
本实施例,在训练模型之前,需要预先从图片库获取含有广告文字的图片,人工框出图片中的文字行,以形成文字行的包围矩形框,标记该文字框中文字的类别,类别包括后期添加文字以及原始场景文字。
在本实施例中,可以利用含有文字框的图片对第二深度学习模型(文字检测模型)进行训练。具体地,卷积神经网络算法在计算时,带有文字框的图片的真实尺寸和位置可以映射至卷积层,以得到特征图,前述的每一个文字框在卷积网络层计算时被划分为多个小框,多个小框等宽、等高,每个小框可以框住一个文字的某一部分,每一个小框被作为待检测的目标。在特征图的每一个位置上,卷积网络可以输出目标的中心点坐标在x轴和y轴的偏移量系数tx,ty(tx,ty的值在0-1之间),目标的尺寸偏移量系数tw,th(tw,th值在0-1之间),目标是文字(此处不区分是后期添加文字还是原始场景文字)的概率(概率值在0-1之间)。其中,文字框在真实图片中的位置信息与文字框在卷积网络中特征图的位置信息具有如下关联:
bx=σ(tx)+cx
by=σ(ty)+cy
其中,tx为目标的中心点坐标的x轴偏移量,ty为目标的中心点坐标的y轴偏移量,cx为特征图某位置在原图上的x轴偏移量,cy为特征图某位置在原图上的y轴偏移量。pw,ph与卷积网络中特征图的尺度变化系数,(bx,by)为目标的中心点在真实图像中的位置坐标,bw为目标的真实宽度,bh为目标的真实高度,σ为激活函数,可以是sigmoid函数。
卷积神经网络在计算的过程,可以将目标检测网络检测出属于文字类的小框按照卷积网络预测的为文字的概率从大到小进行排序,在x轴方向上,利用非极大值抑制的方法过滤重复的框。以预测概率大的值为基准,遍历其余的框,与基准检测框计算得到的交并比大于阈值(例如:0.7)的小框都进行删除。接下来,从未处理的框中继续选一个得分最高的重复上述步骤。最后,扫描剩余的小框并合并相邻接的小框,拟合得到有角度的覆盖文字行的文字大框(xi,yi,wi,hi,ri),其中(xi,yi)为文字大框的中心点坐标,wi,hi分别表示文字大框的宽和高,ri表示文字大框相对水平位置的旋转角度。
在整个训练过程中,卷积神经网络的损失函数由四部分组成:类别损失Lc、目标损失Lo、定位损失Ls、位置损失Ll,其中类别损失Lc、目标损失Lo可以通过计算预测值与真实值的二值交叉熵得到,定位损失Ls和位置损失Ll均可以通过计算预测值与真实值的均方误差得到。当四个损失函数都趋于收敛后并且小于预设大小,可以认为训练结束。
在本实施例中,还可以以裁剪得到的文字块对第一深度学习模型(后期文字判别模型)进行训练,通过多层卷积神经网络的依次计算,可以得到文字块属于后期添加文字的概率。
具体地,含121个网络层的图像分类网络Censenet121包含4个Cense块,每个Cense块内的特征图(由文字块映射得到)的尺寸大小不变,Cense块内不同的卷积模块间跳跃相连,其中卷积模块均由Batch Normalization层+Relu层+3×3Convolution层组成,保证特征信息的传递,Cense块之间通过传递块连接,传递块对特征图进行2倍降采样。本实施例中,判别网络最后一层的激活函数为softmax函数,其可以预估出裁切的文字区域是否含后期添加文字的概率,网络通过交叉熵损失函数计算误差损失,训练时反向传播更新网络权重。
优选地,可以基于某一位置的文字行的中心点做不同尺寸文字块的裁切,在本例如,对于一个文字行,可以分别裁切出(xi,yi,wi,hi,ri),(xi,yi,1.414*wi,1.414*hi,ri),(xi,yi,2*wi,2*hi,ri)大小的文字块用于训练。其中(xi,yi)为文字大框的中心点坐标,wi,hi分别表示文字大框的宽和高,ri表示文字大框相对水平位置的旋转角度。对于某个位置裁切了多个文字块的情况,由卷积网络分别预估每个文字块包含后期添加文字的概率,再以多个文字块的概率平均值作为的该位置的文字块是否属于后期添加文字的概率,当损失函数的值趋于收敛后,可以认为第一深度学习模型的训练结束。
可以理解的是,当第一深度学习模型以及第二深度学习模型训练结束后,可以分别对两个模型进行测试,测试集数据也可以来源于现有数据库中已经标注的图片,当测试通过后,第一深度学习模型以及第二深度学习模型可以用来进行待检测图片的识别。
本实施例提供的基于深度学习的广告文字的识别方法在判断文字是否含有后期添加文字之前,先识别待检测图像中是否含有文字,并将不含有文字的图片直接通过筛选,从而减小了后续的判断过程中需要执行运算的繁杂度,有效提高了整体的识别效率。
实施例3
本实施例提供一种基于深度学习的广告文字的识别系统,如图3所示,所述识别系统1可以包括:
文字块获取模块11,用于获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;
第一训练模块12,用于以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型;
类型识别模块13,用于将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括后期添加文字以及原始场景文字;
广告识别模块14,用于对含有所述后期添加文字的待检测图像进行广告文字识别。
本实施例中,文字块可以来自于数据库中带有文字的图像,图像可以是照相机拍摄的相互独立的图片,或者是从摄像机拍摄的视频中截取的某一帧或若干帧。
所述原始场景文字块仅包括原始场景文字,所述原始场景文字可以是指图片在拍摄时或视频帧截取时就含有的文字,所述后期添加文字是指广告商在图片生成之后,通过后期文字处理手段在图片上添加的文字(例如:电话号码,商品贩卖信息等)。
优选地,所述第一深度学习模型可以为卷积神经网络模型。
所述待检测图像的内容可以是酒店图像、景点图像、商场图像等,本实施例对此不作限制。
进一步地,所述文字块获取模块11用于获取经人工标记的含有文字的图像;识别所述图像中的所述文字块的中心点以及所述文字块的尺寸;以所述中心点为中心,从所述图像中裁切得到与所述文字块的尺寸具有不同尺寸比例关系的多个关联文字块。
所述文字块的尺寸可以包括W(宽)、H(高)以及文字块相对于水平方向的旋转角度。
对于形状不规则的文字块,可以将文字块的外框调整等效为具有标准形状的矩形,然后按照不同的尺寸比例关系进行裁切。
优选地,所述尺寸比例关系可以是将原文字块的W(宽)和H(高)放大预设的数值倍数。
优选地,所述类型识别模块13可以对所述待检测图像的文字区域进行裁切,然后将含有文字的待检测图像对应的多个文字块(即图像块)输入训练后的第一深度学习模型。对所述待检测图像的裁切也可以采用以原始文字块的中心点为中心,从待检测图像中裁切得到与原始文字块的尺寸具有不同尺寸比例关系的多个关联文字块。接下来,第一深度学习模型可以预测得到每个关联文字块属于后期添加文字的概率,可以以多个关联文字块的概率平均值作为某位置的文字行是否属于后期添加文字的概率。
具体地,还可以预先设置第一概率阈值,若计算的某位置的文字行属于后期添加文字的概率超过第一概率阈值,则可以认为该文字行中含有后期添加文字;若小于第一概率阈值,则认为该文字行中不含有后期添加文字。
具体地,所述广告识别模块14可以包括判断单元141、过滤单元142以及显示单元143;
所述判断单元141用于判断所述后期添加文字是否与预设的广告关键词匹配;若是,则确认所述后期添加文字为广告文字,并调用所述过滤单元142,所述过滤单元142用于过滤所述待检测图像;
若否,则确认所述后期添加文字为非广告文字,并调用所述显示单元143,所述显示单元143用于将所述待检测图像展示给用户。
本实施例中,可以提取文字的属性,所述属性可以包括文字的大小、文字行的数量,文字在图像中的位置、文字的字数以及文字的内容等等。
优选地,可以选用文字的内容作为文字属性的代表,将该文字属性与预设的广告关键词相匹配。所述预设的广告关键词可以通过现有技术中的聚类算法对海量的广告用语进行关键词提取,并保存在数据库中。需要将文字属性与预设的广告关键词进行对比的时候,再从数据库中调取所述广告关键词。可以理解的是,广告关键词可以定时或不定时的进行更新,以及时抓取不断变化的广告用语。
本实施例提供的基于深度学习的广告文字的识别系统通过深度学习算法自动化识别含有广告文字的图像,便于后续对具有广告文字的图像进行过滤,图像识别的效率和准确性较高,并且可大幅度节省运营维护成本,净化网络环境,保证图像展示的美观性,有效提升了互联网环境下的用户浏览体验。
实施例4
本实施例提供一种基于深度学习的广告文字的识别系统,如图4所示,所述识别系统实施例3基础上的进一步改进。
具体地,所述识别系统1还可以包括第二训练模块15,所述第二训练模块15用于以人工标记的含有文字的图像训练第二深度学习模型,所述第二深度模型用于识别图像中是否含有文字;
所述识别系统1还包括文字识别模块16,所述文字识别模块16用于将待检测图像输入训练后的第二深度学习模型,以识别所述待检测图像是否含有文字;若是,则调用所述类型识别模块。
本实施例中,可以将待检测图像输入训练后的所述第二深度学习模型,并利用所述第二深度学习模型预测得到所述待检测图像中含有文字的概率,再利用所述概率判断待检测图像中是否含有文字。
具体地,可以预先设置第二概率阈值,若第一深度学习模型预测的概率超过该阈值,则可以认为待检测图像中含有文字;若第一深度学习模型预测的概率小于所述第一概率阈值,则可以认为待检测图像中不含文字。
优选地,所述第二深度学习模型可以为卷积神经网络模型。
下面以具体的卷积神经网络模型为例,说明第一深度学习模型以及第二深度学习模型的训练过程。
例如,可以设计含55层卷积层的目标检测算法CtripAds-55以训练得到前述的第二深度学习模型(文字检测模型),可以以121个网络层的图像分类网络算法Censenet121训练得到前述的第一深度学习模型(后期文字判别模型)
本实施例,在训练模型之前,需要预先从图片库获取含有广告文字的图片,人工框出图片中的文字行,以形成文字行的包围框,标记该文字框中文字的类别,类别包括后期添加文字以及原始场景文字。
在本实施例中,可以利用含有文字框的图片对第二深度学习模型(文字检测模型)进行训练。具体地,卷积神经网络算法在计算时,带有文字框的图片的真实尺寸和位置可以映射至卷积层,以得到特征图,前述的每一个文字框在卷积网络层计算时被划分为多个小框,多个小框等宽、等高,每个小框可以框住一个文字的某一部分,每一个小框被作为待检测的目标。在特征图的每一个位置上,卷积网络可以输出目标的中心点坐标在x轴和y轴的偏移量系数tx,ty(tx,ty的值在0-1之间),目标的尺寸偏移量系数tw,th(tw,th值在0-1之间),目标是文字(此处不区分是后期添加文字还是原始场景文字)的概率(概率值在0-1之间)。其中,文字框在真实图片中的位置信息与文字框在卷积网络中特征图的位置信息具有如下关联:
bx=σ(tx)+cx
by=σ(ty)+cy
其中,tx为目标的中心点坐标的x轴偏移量,ty为目标的中心点坐标的y轴偏移量,cx为特征图某位置在原图上的x轴偏移量,cy为特征图某位置在原图上的y轴偏移量。pw,ph与卷积网络中特征图的尺度变化系数,(bx,by)为目标的中心点在真实图像中的位置坐标,bw为目标的真实宽度,bh为目标的真实高度,σ为激活函数,可以是sigmoid函数。
卷积神经网络在计算的过程,可以将目标检测网络检测出属于文字类的小框按照卷积网络预测的为文字的概率从大到小进行排序,在x轴方向上,利用非极大值抑制的方法将检测框的交并比大于阈值(例如:0.7)的小框都进行删除。接下来,扫描剩余的小框并合并相邻的小框,连接文本区域合成有角度的覆盖文字行的文字大框(xi,yi,wi,hi,ri),其中(xi,yi)为文字大框的中心点坐标,wi,hi分别表示文字大框的宽和高,ri表示文字大框相对水平位置的旋转角度。
在整个训练过程中,卷积神经网络的损失函数由四部分组成:类别损失Lc、目标损失Lo、定位损失Ls、位置损失Ll,其中类别损失Lc通过计算预测值与真实值的二值交叉熵得到,目标损失Lo、定位损失Ls和位置损失Ll均通过计算预测值与真实值的均方误差得到。当四个损失函数都趋于收敛后,可以认为训练结束。
在本实施例中,还可以以裁剪得到的文字块对第一深度学习模型(后期文字判别模型)进行训练,通过多层卷积神经网络的依次计算,可以得到文字块属于后期添加文字的概率。
具体地,含121个网络层的图像分类网络Censenet121包含4个Cense块,每个Cense块内的特征图(由文字块映射得到)的尺寸大小不变,Cense块内不同的卷积模块间跳跃相连,其中卷积模块均由Batch Normalization层+Relu层+3×3Convolution层组成,保证特征信息的传递,Cense块之间通过传递块连接,传递块对特征图进行2倍降采样。本实施例中,判别网络最后一层的激活函数为softmax函数,其可以预估出裁切的文字区域是否含后期添加文字的概率,网络通过交叉熵损失函数计算误差损失,训练时反向传播更新网络权重。
优选地,可以基于某一位置的文字行的中心点做不同尺寸文字块的裁切,在本例如,对于一个文字行,可以分别裁切出(xi,yi,wi,hi,ri),(xi,yi,1.414*wi,1.414*hi,ri),(xi,yi,2*wi,2*hi,ri)大小的文字块用于训练。其中(xi,yi)为文字大框的中心点坐标,wi,hi分别表示文字大框的宽和高,ri表示文字大框相对水平位置的旋转角度。对于某个位置裁切了多个文字块的情况,由卷积网络分别预估每个文字块包含后期添加文字的概率,再以多个文字块的概率平均值作为的该位置的文字块是否属于后期添加文字的概率,当损失函数的值趋于收敛后,可以认为第一深度学习模型的训练结束。
可以理解的是,当第一深度学习模型以及第二深度学习模型训练结束后,可以分别对两个模型进行测试,测试集数据也可以来源于现有数据库中已经标注的图片,当测试通过后,第一深度学习模型以及第二深度学习模型可以用来进行待检测图片的识别。
本实施例提供的基于深度学习的广告文字的识别方法在判断文字是否含有后期添加文字之前,先识别待检测图像中是否含有文字,并将不含有文字的图片直接通过筛选,从而减小了后续的判断过程中需要执行运算的繁杂度,有效提高了整体的识别效率。
实施例5
本发明还提供一种电子设备,如图5所示,所述电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现前述实施例1或实施例2的基于深度学习的广告文字的识别方法的步骤。
可以理解的是,图5所示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备2可以以通用计算设备的形式表现,例如:其可以为服务器设备。电子设备2的组件可以包括但不限于:上述至少一个处理器3、上述至少一个存储器4、连接不同系统组件(包括存储器4和处理器3)的总线5。
所述总线5可以包括数据总线、地址总线和控制总线。
所述存储器4可以包括易失性存储器,例如随机存取存储器(RAM)41和/或高速缓存存储器42,还可以进一步包括只读存储器(ROM)43。
所述存储器4还可以包括具有一组(至少一个)程序模块44的程序工具45(或实用工具),这样的程序模块44包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
所述处理器3通过运行存储在所述存储器4中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或实施例2的基于深度学习的广告文字的识别方法的步骤。
所述电子设备2也可以与一个或多个外部设备6(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口7进行。并且,模型生成的电子设备2还可以通过网络适配器8与一个或者多个网络(例如局域网LAN,广域网WAN和/或公共网络)通信。
如图5所示,网络适配器8可以通过总线5与模型生成的电子设备2的其它模块通信。本领域技术人员应当明白,尽管图中未示出,可以结合模型生成的电子设备2使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
需要说明的是,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1或实施例2的基于深度学习的广告文字的识别方法的步骤。
其中,计算机可读存储介质可以采用的更具体方式可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1或实施例2的基于深度学习的广告文字的识别方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (8)
1.一种基于深度学习的广告文字的识别方法,其特征在于,所述识别方法包括:
获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;
其中,所述文字块为含有文字的图像,所述后期添加文字块包括后期添加文字,所述原始场景文字块仅包括原始场景文字,所述后期添加文字为在图片生成之后通过后期文字处理手段在所述图片上添加的文字,所述原始场景文字为在拍摄时或视频帧截取时包含的文字;
以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型;
将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括所述后期添加文字以及所述原始场景文字;
对含有所述后期添加文字的待检测图像进行广告文字识别;
所述获取多个文字块的步骤包括:
获取经人工标记的含有文字的图像;
识别所述图像中的所述文字块的中心点以及所述文字块的尺寸;
以所述中心点为中心,从所述图像中裁切得到与所述文字块的尺寸具有不同尺寸比例关系的多个关联文字块。
2.如权利要求1所述的基于深度学习的广告文字的识别方法,其特征在于,
所述获取多个文字块的步骤之前包括:以人工标记的含有文字的图像训练第二深度学习模型,所述第二深度模型用于识别图像中是否含有文字;
所述将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别的步骤之前包括:将待检测图像输入训练后的第二深度学习模型,以识别所述待检测图像是否含有文字;若是,则执行所述将含有文字的待检测图像输入训练后的所述第一深度学习模型的步骤。
3.如权利要求1或2所述的基于深度学习的广告文字的识别方法,其特征在于,所述对含有所述后期添加文字的待检测图像进行广告文字识别的步骤包括:
判断所述后期添加文字是否与预设的广告关键词匹配;
若是,则确认所述后期添加文字为广告文字,并过滤所述待检测图像;
若否,则确认所述后期添加文字为非广告文字,并将所述待检测图像展示给用户;
和/或,
所述第一深度学习模型为卷积神经网络模型。
4.一种基于深度学习的广告文字的识别系统,其特征在于,所述识别系统包括:
文字块获取模块,用于获取多个文字块,所述文字块包括后期添加文字块以及原始场景文字块;
其中,所述文字块为含有文字的图像,所述后期添加文字块包括后期添加文字,所述原始场景文字块仅包括原始场景文字,所述后期添加文字为在图片生成之后通过后期文字处理手段在所述图片上添加的文字,所述原始场景文字为在拍摄时或视频帧截取时包含的文字;
第一训练模块,用于以所述后期添加文字块为正样本,以所述原始场景文字块为负样本训练第一深度学习模型;
类型识别模块,用于将含有文字的待检测图像输入训练后的所述第一深度学习模型,以识别所述待检测图像中的文字类别,所述文字类别包括所述后期添加文字以及所述原始场景文字;
广告识别模块,用于对含有所述后期添加文字的待检测图像进行广告文字识别;
所述文字块获取模块用于获取经人工标记的含有文字的图像;识别所述图像中的所述文字块的中心点以及所述文字块的尺寸;以所述中心点为中心,从所述图像中裁切得到与所述文字块的尺寸具有不同尺寸比例关系的多个关联文字块。
5.如权利要求4所述的基于深度学习的广告文字的识别系统,其特征在于,
所述识别系统还包括第二训练模块,所述第二训练模块用于以人工标记的含有文字的图像训练第二深度学习模型,所述第二深度模型用于识别图像中是否含有文字;
所述识别系统还包括文字识别模块,所述文字识别模块用于将待检测图像输入训练后的第二深度学习模型,以识别所述待检测图像是否含有文字;若是,则调用所述类型识别模块。
6.如权利要求4或5所述的基于深度学习的广告文字的识别系统,其特征在于,所述广告识别模块包括判断单元、过滤单元以及显示单元;
所述判断单元用于判断所述后期添加文字是否与预设的广告关键词匹配;若是,则确认所述后期添加文字为广告文字,并调用所述过滤单元,所述过滤单元用于过滤所述待检测图像;
若否,则确认所述后期添加文字为非广告文字,并调用所述显示单元,所述显示单元用于将所述待检测图像展示给用户;
和/或,
所述第一深度学习模型为卷积神经网络模型。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-3中任一项所述的基于深度学习的广告文字的识别方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-3中任一项所述的基于深度学习的广告文字的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911250460.9A CN111062388B (zh) | 2019-12-09 | 2019-12-09 | 基于深度学习的广告文字的识别方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911250460.9A CN111062388B (zh) | 2019-12-09 | 2019-12-09 | 基于深度学习的广告文字的识别方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062388A CN111062388A (zh) | 2020-04-24 |
CN111062388B true CN111062388B (zh) | 2023-05-16 |
Family
ID=70300252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911250460.9A Active CN111062388B (zh) | 2019-12-09 | 2019-12-09 | 基于深度学习的广告文字的识别方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062388B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783786A (zh) * | 2020-07-06 | 2020-10-16 | 上海摩勤智能技术有限公司 | 图片的识别方法、系统、电子设备及存储介质 |
CN114758216B (zh) * | 2022-05-05 | 2023-01-13 | 北京容联易通信息技术有限公司 | 一种基于机器视觉的非法广告检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
-
2019
- 2019-12-09 CN CN201911250460.9A patent/CN111062388B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062388A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598686B (zh) | 发票的识别方法、系统、电子设备和介质 | |
CN110555372A (zh) | 数据录入方法、装置、设备及存储介质 | |
CN110503103B (zh) | 一种基于全卷积神经网络的文本行中的字符切分方法 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN111062388B (zh) | 基于深度学习的广告文字的识别方法、系统、介质及设备 | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
CN112070135A (zh) | 电力设备图像检测方法、装置、电力设备及存储介质 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN111612004A (zh) | 一种基于语义内容的图像裁剪方法及装置 | |
CN113076889B (zh) | 集装箱铅封识别方法、装置、电子设备和存储介质 | |
CN114155363A (zh) | 换流站车辆识别方法、装置、计算机设备和存储介质 | |
CN111709762B (zh) | 信息匹配度的评估方法、装置、设备及存储介质 | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN116246287B (zh) | 目标对象识别方法、训练方法、装置以及存储介质 | |
CN111539390A (zh) | 一种基于Yolov3的小目标图像识别方法、设备和系统 | |
CN111199050B (zh) | 一种用于对病历进行自动脱敏的系统及应用 | |
CN115019321A (zh) | 一种文本识别、模型训练方法、装置、设备及存储介质 | |
CN114783042A (zh) | 基于多移动目标的人脸识别方法、装置、设备及存储介质 | |
CN114639013A (zh) | 基于改进Orient RCNN模型的遥感图像飞机目标检测识别方法 | |
CN112464894B (zh) | 交互方法、装置及计算机设备 | |
WO2023241276A1 (zh) | 图像编辑方法及相关设备 | |
CN115687673B (zh) | 图片归档的方法、装置、电子设备及可读存储介质 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN112734778A (zh) | 基于神经网络的车辆抠图方法、系统、设备及存储介质 | |
CN117636054A (zh) | 一种图像识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |