CN111061904A - 一种基于图像内容识别的本地图片快速检测方法 - Google Patents

一种基于图像内容识别的本地图片快速检测方法 Download PDF

Info

Publication number
CN111061904A
CN111061904A CN201911240767.0A CN201911240767A CN111061904A CN 111061904 A CN111061904 A CN 111061904A CN 201911240767 A CN201911240767 A CN 201911240767A CN 111061904 A CN111061904 A CN 111061904A
Authority
CN
China
Prior art keywords
prediction
picture
text
angle
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911240767.0A
Other languages
English (en)
Other versions
CN111061904B (zh
Inventor
朱安娜
杜行
郭宏
路雄博
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201911240767.0A priority Critical patent/CN111061904B/zh
Publication of CN111061904A publication Critical patent/CN111061904A/zh
Application granted granted Critical
Publication of CN111061904B publication Critical patent/CN111061904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像内容识别的本地图片快速检测方法,主要包括:步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、中心点和旋转角等信息;步骤2,利用步骤1构建的训练数据在服务器端训练文本识别模型与目标检测模型;步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图像输入转化为带有语义标注的文件;步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并展示图片内容和对应标注。本发明提能够提高图像检索的准确性和速度。

Description

一种基于图像内容识别的本地图片快速检测方法
技术领域
本发明涉及机器学习与图像处理,具体涉及一种基于图像内容识别的本地图片快速检测方法。
背景技术
近年来,随着智能设备的发展和摄像头像素的不断提高,人们慢慢习惯了用相机来记录日常生活中的各种信息。但随着相册中照片越积越多,如何在相册文件夹中快速找到目标图片就成了一个新的难题。
现有的搜索方式多为基于文件名的搜索,但相册图片一般根据拍照时间或者序列命名,基于名称的查找不能胜任此类图像查询任务。而手动为每一张图片进行重命名然后进行检索虽然可以完成搜索任务,但随着照片数量的增多,巨大的标注工作量无疑会带来大量人力和时间上的花费。
目前,针对以上问题,大部分解决方案都是围绕快速重命名和图片注释,通过优化分类和注释方式,(如批量重命名模板和智能标签推荐等),虽然可以解决本地图片无从搜索的问题,但相册图片内容千变万化,且不同的人有不同的命名习惯,以上标注方式在准确率和速度方面就会产生很大的局限性。
针对此情况,我们利用计算机在大规模计算上的优势,通过深度学习的方法自动识别图像中的文本和目标类别等语义信息,并对这些信息进行解读和整合,作为图像的隐藏注释和搜索依据,可以较好解决上述问题。
发明内容
本发明的目的是为了解决上述背景技术存在的不足,提出了一种基于图像内容识别的本地图片快速检测方法。为了实现上述目的,本发明所采用的技术方案为:
步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、以及内容文本区域的中心点和旋转角信息,所述内容文本区域即定位框;
步骤2,利用步骤1构建的训练数据集在服务器端训练文本识别模型与目标检测模型,所述文本识别模型用于定位图片中的文本区域并提取图片中的关键字信息,目标检测模型用于识别图片的类别;
步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图片输入转化为带有语义标注的文件;
步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;
步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并显示图片内容和对应标注。
进一步的,步骤1中通过定位框的顶点计算中心点坐标,并计算每个定位框相对水平方向的旋转角,旋转角的计算过程如下,
Step11:对于给定的四个顶点{(x1,y1,),…,(x4,y4)},将横坐标最小的点xmin定义为A;
Step12:其他三个点和A连线形成夹角,取中间点为C;
Step13:以AC为连线,在AC上方为D,下方为B;
Step14:比较AC和BD的斜率,如果kAC>kBD,则顺序调整为DABC,反之,则维持ABCD;
Step15:定位框的旋转角θ为AB和水平线之间的夹角。
进一步的,所述文本识别模块中,以特征金字塔网络为主干网络对原始图片I进行特征提取,将提取到的特征图FI输入到Anchor生成模块,所述Anchor生成模块包括三个分支,分别为位置预测分支、形状预测分支和角度预测分支,用于获得预测框的位置、形状和旋转角,然后针对形状预测分支的预测结果,用1×1卷积预测每个位置卷积核的偏置场,并基于该偏置场进行3×3的可变卷积完成对特征图的融合,最后将特征融合结果输入到CRNN文本识别网络中实现对图片中文本信息的识别;
其中,位置预测分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积以获得目标概率的映射,然后对每个元素使用sigmoid函数从而转化为概率值,输出为与输入特征映射大小相同的概率图p(·|FI);
形状预测分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积,该分支为每个位置预测(w,h)的最佳形状,其中,w为预测框的宽度,h为预测框的高度;
角度预测分支的输入为基本特征图FI,输出为经过1×1卷积之后的角度预测信息iθ,最终角度预测值由
Figure BDA0002306155260000021
求得。
进一步的,所述文本识别模型采用多任务损失函数对模型进行优化训练,损失函数的计算公式如下,
L=Lcls+Lreg+αLloc+βLshape+λLangle
其中,分类损失Lcls采用Focal Loss,回归损失Lreg采用Smooth L1损失,通过引入位置预测损失Lloc,形状预测损失Lshape以及角度预测损失Langle三个部分,最终通过为这五个损失分配对应的权重来优化模型参数,经过反向传播进行梯度更新,训练文本识别模型;
其中,Lloc=-(1-y′)γlogy′,y′∈(0,1)是位置预测分支中经过激活函数的输出,即p(·|FI),γ为平衡因子;
Figure BDA0002306155260000031
此处L1为Smooth L1损失,w,h为形状预测分支的输出,wg和hg为训练数据集对应的真值标注;
Figure BDA0002306155260000032
其中θ为角度预测分支的输出结果,θg为训练数据集的旋转角标注信息。
进一步的,所述目标检测模型采用现有的Mask_Rcnn模型。
本发明的有益效果在于:本发明提出了一种基于图像中的文本关键字和物体类别等信息进行本地图像文件搜索的模式,结合深度学习下的场景文本识别和目标检测模型,自动、快速的生成图像注释,且不会改变图像原本信息。
本发明对场景文本和中文字符具有高鲁棒性,目前的场景文本识别算法大多针对英文字母和阿拉伯数字进行定位和识别,对于汉字的检测,尤其是对自然场景中汉字进行定位的研究结果不尽人意。本项目所做研究不仅仅适用于字母和数字,对于汉字的检测同样具有很高的重视程度和良好的表现。
附图说明
图1为本发明整体流程图。
图2为本发明技术路线图。
图3为本发明文本识别模型的网络结构示意图。
图4为本发明目标检测模型的网络结构示意图。
图5为本发明定位区域优劣判断算法示意图。
图6为本发明实施例中中心角的示意图。
具体实施方式
为了具体说明使本发明的目的、技术方案、优点和可实现性,下面结合附图和实施例对本发明做进一步的说明。应当理解,此处所描述的具体实例仅仅用于解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。
如图2所示,一种基于图像内容识别的本地图片快速检测方法,该方法主要包括图片输入,目标检测,文本识别,图像搜索四个模块,该方法包括如下步骤:
步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、中心点和旋转角等信息;
由于常用的目标与文本识别数据集大多只对类别和定位框的顶点坐标做了注释,而本模型为了更好的解决现实中文本带有倾角的问题,需要额外的中心点和旋转角度等信息,所以需要通过定位框的顶点计算中心点坐标,并计算每个定位框相对水平方向的旋转角度。旋转角度的定义过程下所示,如图6所示。
Step1:对于给定的四个顶点{(x1,y1,),…,(x4,y4)},我们将横坐标最小的点xmin定义为A;
Step2:其他三个点和A连线形成夹角,取中间点为C;
Step3:以AC为连线,在AC上方为D,下方为B;
Step4:比较AC和BD的斜率,如果kAC>kBD,则顺序调整为DABC,反之,则维持ABCD;
Step5:定位框的旋转角θ为AB和水平线之间的夹角。
其中,Step4是为了排除当存在水平定位框时,AB与水平线之间的夹角可为0°或90°的二义性。
本项目采取的数据集均为场景文本识别和目标检测标注数据集,具体如下:文本识别模块训练集采用2019年文档分析与识别国际会议(ICDAR)上由美团网提供的RECTS数据集,目标检测模块的训练集采用MS-COCO2017数据集。测试集除标准测试集外,还加入了本地测试相册图片195张。
步骤2,利用步骤1构建的训练数据在服务器端训练文本识别模型与目标检测模型,其中文本识别模型用于提取照片中的关键字信息;目标检测模型用于对COCO数据集中标注的生活中常见的90个类别进行识别,共同处理相册图像的分类和识别。具体而言,在文本识别模型中,我们采用图3所示的网络模型。首先将上述数据集中的图像I输入FPN网络进行特征提取,然后在Anchor生成模块计算位置、形状和角度三个部分的损失,通过反向传播算法更新参数得到Anchor,最后将检测结果输入到CRNN文本识别网络中实现对图片中文本信息的识别。
具体的,在特征提取阶段,为避免高维卷积中小尺度信息被忽略,基于特征金字塔网络(FPN)设计主干网络,通过共享高维和低维卷积特征,不仅可以保留图像的语义信息,并且不需要增加额外的计算量。
位置预测分支用于判断特征图上的每个点是否处于对应目标(即文本所在区域)的中心,如果处于目标中心,则进一步预测形状和角度信息,反之则将该点归入背景区域。该分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积以获得目标概率的映射,然后对每个元素使用sigmoid函数从而转化为概率值。输出为与输入特征映射大小相同的概率图p(·|FI),每个特征输入得到的结果表示对象中心在该位置存在的概率。在预测目标的可能位置之后,通过形状预测分支确定每个位置存在对象的规模和宽高比例。同样的,对基本特征输出FI进行1×1的卷积,输出为尺寸相同的两通道,表示每个位置可能最好的anchor形状。此过程不会改变锚的位置,对特征映射FI,该分支将为每个位置预测(w,h)的最佳形状,其中,w为定位框的宽度,h为定位框的高度。最后一个阶段是预测对象区域的旋转角,该过程类似于位置预测分支,输入为FI,旋转角度定义为AB和水平线之间的夹角,范围在
Figure BDA0002306155260000051
之间,并归一化至[0,1]。分支输入为基本特征图FI,输出为经过1×1卷积之后的角度预测信息iθ,最终角度预测值可由
Figure BDA0002306155260000052
求得,参数通过下方的损失函数进行优化。
由于w和h由网络预测得到,故每个位置对应anchor的形状和大小也不相同,较大的(w,h)组合对应较大的anchor,也就对应较大的感受野,较小的(w,h)组合对应的感受野则相对较小,所以无法用传统的方式直接对FI进行卷积来预测。此处利用可变卷积的思想,先用1×1卷积预测每个位置卷积核的偏置场,输入为形状预测分支的两通道预测结果,然后基于该偏置场进行3×3的可变卷积完成对特征图的融合。计算公式如下:
F′i=NT(Fi,wi,hi)
其中,Fi是第i个位置的特征,即FPN的网络输出,(wi,hi)是对应的anchor形状预测分支的输出结果。NT为3×3的可变卷积,通过对带偏置的原始特征图做可变卷积获得融合后的特征,用于进一步分类和回归定位框的。
为了实现以上目标,我们需要解决如下关键科学问题:
(1)Anchor的定义方式
对于传统的Anchor,可以通过矩形框四个顶点的坐标{(x1,y1,),…,(x4,y4)}来确定,也可以通过{x,y,w,h}四元组来确定,其中(x,y)为中心点坐标,w,h分别为矩形框的宽度和高度。同样,对于带倾角的Anchor,则会有更多种定义方式,并且不同的定义方式可能导致不同的准确率,既可以通过上文提到的五元组
Figure BDA0002306155260000053
来定义,也可以通过{x1,y1,x2,y2,h}来定义以消除
Figure BDA0002306155260000054
区间的不稳定性带来的影响,相关定义方式对结果的影响需要通过实验比较。
(2)如何判断Anchor生成的优劣
传统的Anchor算法通过设置IOU的阈值来判断哪些框应当保留或舍弃,但之前的IOU算法只能计算两个水平矩形区域的重叠比例,引入角度信息后,只利用坐标不能完成满足本项目要求的IOU计算,因此需要设计新的算法来评判Anchor生成的优劣。
对于带倾角的矩形区域,要计算其IOU(交并比,intersection over union),区别于传统方法,除了在像素级别计算之外,还可以通过如下方式进行计算,定义矩形α的四个顶点为ABCD,矩形β的四个顶点为EFGH,两个矩形的交点按照顺序以此排列为I,J,K…,图5简单列举了几种可能的情况:
Step1:建立集合S,将两个矩形区域的交点存入集合内;
Step2:存入在矩形α内的矩形β的顶点;
Step3:存入在矩形β内的矩形α的顶点;
Step4:对集合内的元素进行逆时针排序;
Step5:对排序结果,以此连接相邻顶点,利用三角形法则计算多边形面积;
Step6:用多边形面积除以总面积得到最终IOU。
在训练和优化过程中,采用多任务损失函数对模型进行优化,分类损失Lcls部分采用FocalLoss,回归损失Lreg部分采用Smooth L1损失,此外还引入了位置预测损失Lloc,形状预测损失Lshape以及角度预测损失Langle三个部分,最终通过为这五个损失分配对应的权重来优化模型参数,经过梯度更新,训练文本识别模型。
L=Lcls+Lreg+αLloc+βLshape+λLangle
具体而言,位置预测分支的目标是预测哪些区域应该作为中心点来生成anchor,是一个二分类问题。不同于传统RPN的分类,这里我们并不是预测每个点是前景还是背景,而是预测是不是文本区域的中心。为了减小正负样本的干扰,将整个特征图分为文本中心区域,外围区域和忽略区域,将GroundTruth框的中心一小块对应在特征图上的区域标为文本中心区域,在训练的时候作为正样本,其余区域按照离中心的距离标为忽略和负样本,此处采用FocalLoss来训练位置预测分支。即Lloc=-(1-y′)γlogy′,其中y′∈(0,1)是网络经过激活函数的输出,即p(·|FI),γ为平衡因子,设置为2。
在形状预测分支,直接采用IoU作为监督来学习w和h。
Figure BDA0002306155260000061
w,h为形状预测分支的输出,代表anchor的宽和高的预测结果,wg和hg为训练数据集对应的真值标注,此处L1为Smooth L1损失。
最后,用正弦损失
Figure BDA0002306155260000071
来训练角度预测分支,θ和θg代表定位框AB所在直线与水平方向的夹角,其中θ为角度预测分支的输结果,θg为训练数据集的旋转角标注信息。
目标检测部分,我们采用目前Github中表现较好的目标检测算法:Mask_Rcnn来处理目标检测任务,其网络架构如图4所示。
步骤3,利用训练好的文本识别与目标检测模型,自动将客户端的图像输入转化为带有语义标注的文件;具体步骤为:
向训练好的检测网络中输入用户的相册图像文件,网络输出即为检测和识别的结果文件。
步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;
具体的,首先解析网络输出的文件,将.xml和.txt文件中文件路径,文件名,检测和识别的相关结果进行解析和分割。然后针对需求设计数据表,表的设计可如下表所示。最后,将之前解析结果存入数据库中。对于识别结果不匹配或者为空的错误预测框进行删除,将正确的文本识别结果作为输出传输到客户端。
1-1图片表(picture)
字段名 字段含义 字段类型 允许为空 是否为主/外键
P_Source 图片路径 varchar NOT null
P_name 图片名 varchar NOT null
P_id 图片id Int NOT null 主键
1-2图片类别表(classification)
字段名 字段含义 字段类型 允许为空 是否为主/外键
class 类别名称 varchar NOT null
C_id 类别id Int 主键
1-3内容表(information)
字段名 字段含义 字段类型 允许为空 是否为主/外键
Content 文本内容 varchar
I_id 内容id Int NOT null 主键
P_id 图片id Int NOT null 外键
C_id 类别id Int NOT null 外键
Location 位置坐标 varchar NOT null
步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并可以显示图片内容和对应标注。
用户在客户端输入搜索关键词,返回结果为对应的图片文件。进一步的,在图片详情界面除了可以查看图片内容和标注之外还可以添加和修改部分标注内容。
整体来讲,文本识别模块和目标检测模块共同处理图片输入模块的用户图片输入,然后将以上两个模块处理的结果在图像搜索模块进行解析、整理和数据库存储。最后通过前台用户关键字请求和数据库后台进行交互,返回对应的图片检索结果。目前,本发明文本识别的精度在ICDAR 2017MLT文本识别任务中为67.9%,目标检测模块在MS COCO数据集中的精度为69.3%,通过抽样调查实验,总体检索的平均准确率可以达到93.1%,可以很好的应对生活中的图片检索任务。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于图像内容识别的本地图片快速检测方法,其特征在于,包括如下步骤:
步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、以及内容文本区域的中心点和旋转角信息,所述内容文本区域即定位框;
步骤2,利用步骤1构建的训练数据集在服务器端训练文本识别模型与目标检测模型,所述文本识别模型用于定位图片中的文本区域并提取图片中的关键字信息,目标检测模型用于识别图片的类别;
步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图片输入转化为带有语义标注的文件;
步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;
步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并显示图片内容和对应标注。
2.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法,其特征在于:步骤1中通过定位框的顶点计算中心点坐标,并计算每个定位框相对水平方向的旋转角,旋转角的计算过程如下,
Step11:对于给定的四个顶点{(x1,y1,),…,(x4,y4)},将横坐标最小的点xmin定义为A;
Step12:其他三个点和A连线形成夹角,取中间点为C;
Step13:以AC为连线,在AC上方为D,下方为B;
Step14:比较AC和BD的斜率,如果kAC>kBD,则顺序调整为DABC,反之,则维持ABCD;
Step15:定位框的旋转角θ为AB和水平线之间的夹角。
3.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法,其特征在于:所述文本识别模块中,以特征金字塔网络为主干网络对原始图片I进行特征提取,将提取到的特征图FI输入到Anchor生成模块,所述Anchor生成模块包括三个分支,分别为位置预测分支、形状预测分支和角度预测分支,用于获得预测框的位置、形状和旋转角,然后针对形状预测分支的预测结果,用1×1卷积预测每个位置卷积核的偏置场,并基于该偏置场进行3×3的可变卷积完成对特征图的融合,最后将特征融合结果输入到CRNN文本识别网络中实现对图片中文本信息的识别;
其中,位置预测分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积以获得目标概率的映射,然后对每个元素使用sigmoid函数从而转化为概率值,输出为与输入特征映射大小相同的概率图p(·|FI);
形状预测分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积,该分支为每个位置预测(w,h)的最佳形状,其中,w为预测框的宽度,h为预测框的高度;
角度预测分支的输入为基本特征图FI,输出为经过1×1卷积之后的角度预测信息iθ,最终角度预测值由
Figure FDA0002306155250000021
求得。
4.如权利要求3所述的一种基于图像内容识别的本地图片快速检测方法,其特征在于:所述文本识别模型采用多任务损失函数对模型进行优化训练,损失函数的计算公式如下,
L=Lcls+Lreg+αLloc+βLshape+λLangle
其中,分类损失Lcls采用Focal Loss,回归损失Lreg采用Smooth L1损失,通过引入位置预测损失Lloc,形状预测损失Lshape以及角度预测损失Langle三个部分,最终通过为这五个损失分配对应的权重来优化模型参数,经过反向传播进行梯度更新,训练文本识别模型;
其中,Lloc=-(1-y′)γlogy′,y′∈(0,1)是位置预测分支中经过激活函数的输出,即p(·|FI),γ为平衡因子;
Figure FDA0002306155250000022
此处L1为Smooth L1损失,w,h为形状预测分支的输出,wg和hg为训练数据集对应的真值标注;
Figure FDA0002306155250000023
其中θ为角度预测分支的输出结果,θg为训练数据集的旋转角标注信息。
5.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法,其特征在于:所述目标检测模型采用现有的Mask_Rcnn模型。
CN201911240767.0A 2019-12-06 2019-12-06 一种基于图像内容识别的本地图片快速检测方法 Active CN111061904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911240767.0A CN111061904B (zh) 2019-12-06 2019-12-06 一种基于图像内容识别的本地图片快速检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911240767.0A CN111061904B (zh) 2019-12-06 2019-12-06 一种基于图像内容识别的本地图片快速检测方法

Publications (2)

Publication Number Publication Date
CN111061904A true CN111061904A (zh) 2020-04-24
CN111061904B CN111061904B (zh) 2023-04-18

Family

ID=70300066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911240767.0A Active CN111061904B (zh) 2019-12-06 2019-12-06 一种基于图像内容识别的本地图片快速检测方法

Country Status (1)

Country Link
CN (1) CN111061904B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563502A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN112200184A (zh) * 2020-10-10 2021-01-08 福州大学 一种自然场景下的书法区域检测及作者识别方法
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN112381089A (zh) * 2020-11-20 2021-02-19 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112395975A (zh) * 2020-11-17 2021-02-23 南京泓图人工智能技术研究院有限公司 一种基于旋转区域生成网络的遥感图像目标检测方法
CN112464652A (zh) * 2020-11-24 2021-03-09 昆明理工大学 一种从文献中提取插图及其标题的方法
CN113011473A (zh) * 2021-03-02 2021-06-22 中国工商银行股份有限公司 模型优化方法、模型优化装置和电子设备
CN115063084A (zh) * 2022-07-12 2022-09-16 河南省烟草公司信阳市公司 一种卷烟零售商户库存盘点方法及系统
CN116610805A (zh) * 2023-07-20 2023-08-18 恒辉信达技术有限公司 一种非结构化数据的应用方法、系统、设备及存储介质
CN117573810A (zh) * 2024-01-15 2024-02-20 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
US20170249535A1 (en) * 2014-09-15 2017-08-31 Temasek Life Sciences Laboratory Limited Image recognition system and method
CN107766582A (zh) * 2017-11-27 2018-03-06 深圳市唯特视科技有限公司 一种基于目标局部区域的图像检索方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110263660A (zh) * 2019-05-27 2019-09-20 魏运 一种自适应场景变化的交通目标检测识别方法
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170249535A1 (en) * 2014-09-15 2017-08-31 Temasek Life Sciences Laboratory Limited Image recognition system and method
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN107766582A (zh) * 2017-11-27 2018-03-06 深圳市唯特视科技有限公司 一种基于目标局部区域的图像检索方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110263660A (zh) * 2019-05-27 2019-09-20 魏运 一种自适应场景变化的交通目标检测识别方法
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴建辉: "基于内容的图像检索技术研究" *
郭升挺: "基于深度学习的商标图像检索" *
齐亚莉: "基于内容的图像检索与图像语义分析" *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563502B (zh) * 2020-05-09 2023-12-15 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111563502A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN112200184A (zh) * 2020-10-10 2021-01-08 福州大学 一种自然场景下的书法区域检测及作者识别方法
CN112395975A (zh) * 2020-11-17 2021-02-23 南京泓图人工智能技术研究院有限公司 一种基于旋转区域生成网络的遥感图像目标检测方法
CN112381089A (zh) * 2020-11-20 2021-02-19 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112381089B (zh) * 2020-11-20 2024-06-07 山西同方知网数字出版技术有限公司 一种复杂环境下的自反馈文本分离方法及系统
CN112464652A (zh) * 2020-11-24 2021-03-09 昆明理工大学 一种从文献中提取插图及其标题的方法
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN113011473A (zh) * 2021-03-02 2021-06-22 中国工商银行股份有限公司 模型优化方法、模型优化装置和电子设备
CN115063084A (zh) * 2022-07-12 2022-09-16 河南省烟草公司信阳市公司 一种卷烟零售商户库存盘点方法及系统
CN116610805A (zh) * 2023-07-20 2023-08-18 恒辉信达技术有限公司 一种非结构化数据的应用方法、系统、设备及存储介质
CN117573810A (zh) * 2024-01-15 2024-02-20 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统
CN117573810B (zh) * 2024-01-15 2024-04-09 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统

Also Published As

Publication number Publication date
CN111061904B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111061904B (zh) 一种基于图像内容识别的本地图片快速检测方法
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
WO2022147965A1 (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
US9430719B2 (en) System and method for providing objectified image renderings using recognition information from images
US8649572B2 (en) System and method for enabling the use of captured images through recognition
US7809722B2 (en) System and method for enabling search and retrieval from image files based on recognized information
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
US11816149B2 (en) Electronic device and control method thereof
US9489402B2 (en) Method and system for generating a pictorial reference database using geographical information
CN111401410B (zh) 一种基于改进级联神经网络的交通标志检测方法
US20240078826A1 (en) Methods and systems of field detection in a document
CN112927776A (zh) 一种面向医学检验报告的人工智能自动解读系统
CN114708462A (zh) 多数据训练的检测模型生成方法、系统、设备及存储介质
Lenc et al. Historical map toponym extraction for efficient information retrieval
Scius-Bertrand et al. Annotation-free character detection in historical Vietnamese stele images
CN114647754A (zh) 一种融合图像标签信息的手绘图像实时检索方法
CN113378739A (zh) 一种基于深度学习的地基云状目标检测方法
Liao et al. Image-matching based identification of store signage using web-crawled information
Zhan et al. Image orientation detection using convolutional neural network
Yuan et al. Traffic sign recognition based on a context-aware scale-invariant feature transform approach
CN118135669B (zh) 一种基于轻量化网络的课堂行为识别方法及系统
Carlow-BSc Automatic Detection of Brand Logos Final Report
Van Exploiting edge features for scene text understanding systems and scene text searching applications
CN117709328A (zh) 一种基于ocr识别的合同文本差异智能检测方法
Xue et al. Person Search with Joint Detection, Segmentation and Re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant