CN111368831A - 一种竖排文字的定位系统及方法 - Google Patents

一种竖排文字的定位系统及方法 Download PDF

Info

Publication number
CN111368831A
CN111368831A CN202010140846.0A CN202010140846A CN111368831A CN 111368831 A CN111368831 A CN 111368831A CN 202010140846 A CN202010140846 A CN 202010140846A CN 111368831 A CN111368831 A CN 111368831A
Authority
CN
China
Prior art keywords
frame
vertical
character
prediction
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010140846.0A
Other languages
English (en)
Other versions
CN111368831B (zh
Inventor
王昊
黄明飞
姚宏贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Open Intelligent Machine Shanghai Co ltd
Original Assignee
Open Intelligent Machine Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Open Intelligent Machine Shanghai Co ltd filed Critical Open Intelligent Machine Shanghai Co ltd
Priority to CN202010140846.0A priority Critical patent/CN111368831B/zh
Publication of CN111368831A publication Critical patent/CN111368831A/zh
Application granted granted Critical
Publication of CN111368831B publication Critical patent/CN111368831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种竖排文字的定位系统及方法,涉及深度学习技术领域,包括:数据获取模块,对获取的各竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;数据生成模块,对各竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各条状真值框关联的前景真实概率;模型训练模块,将各竖排文字标注图像作为输入,将对应的各条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;数据预测模块,将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率,并根据预测框和前景预测概率处理得到待预测竖排文字图像的定位框。有益效果是能够准确检测垂直方向的竖排文字。

Description

一种竖排文字的定位系统及方法
技术领域
本发明涉及深度学习技术领域,尤其涉及一种竖排文字的定位系统及方法。
背景技术
自然场景文字定位时文字识别中非常重要的一部分,与通用的物体检测相比,自然场景下文字定位有更大的挑战性,文字在颜色、字体、长宽比、尺度、光照条件和方向上与更大的变化范围。
随着深度学习技术在物体识别和检测等计算机视觉任务方面已经取得重大进展,许多基于卷积神经网络的目标检测方法,比如Faster RCNN、SSD和FPN等已经用在文本定位领域,并且在性能上远远超过传统方法。
现有的自然场景文字检测方法大致可以分为三类,一是基于分割的文本定位方法,提出了全卷积网络的概念,基于分割的文本定位方法大都受到全卷积网络的启发,当全卷积网络被用于图文识别任务时,最后一层特征图每个像素被分成文字和非文字的文本块,然后再利用MSER提取候选字符区域,再结合候选字符的文本框生成每个每条文本行。二是基于文本框回归的文本定位方法,基于SSD框架在多个尺度的特征图上并行预测文本框,然后对预测结果做NMS过滤。三是基于Faster RCNN,加入了双向LSTM,分别判断锚框位置文字还是背景使用文本框回归,利用非极大值抑制算法和文本线构造输出最终结果。
由于自然场景中有很多文字都是竖直方向,尤其是有些中文标识,另外很多古籍也是竖排版的文字,上述方法只能检测水平方向文字,并不具备垂直方向检测。
发明内容
针对现有技术中存在的问题,本发明提供一种竖排文字的定位系统,具体包括:
数据获取模块,用于获取若干竖排文字图像,并分别对各所述竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
数据生成模块,连接所述数据获取模块,用于分别对各所述竖排文字标注图像的所述竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各所述条状真值框关联的前景真实概率;
模型训练模块,分别连接所述数据获取模块和所述数据生成模块,用于将各所述竖排文字标注图像作为输入,将对应的各所述条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;
数据预测模块,连接所述模型训练模型,用于将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率,并根据所述预测框和所述前景预测概率处理得到所述待预测竖排文字图像的定位框。
优选的,所述数据生成模块具体包括:
数据增强单元,用于对各所述竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
坐标计算单元,连接所述数据增强单元,用于根据各所述竖排文字缩放图像中的所述竖排文字真值框分别计算得到各所述竖排文字真值框的凸包坐标;
数据处理单元,连接所述坐标计算单元,用于针对每个所述竖排文字真值框,根据所述凸包坐标对所述竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
概率获取单元,连接所述数据处理单元,用于获取各所述条状真值框关联的前景真实概率。
优选的,所述模型训练模块具体包括:
数据准备单元,用于预先建立前馈网络模型以及生成若干锚框;
样本获取单元,连接所述数据准备单元,用于根据所述锚框和各所述条状真值框对各所述竖排文字标注图像进行正负样本均衡,得到若干正样本和若干负样本;
损失计算单元,分别连接所述数据准备单元和所述样本获取单元,用于根据各所述正样本和各所述负样本对所述前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
参数更新单元,分别连接所述样本获取单元和所述损失计算单元,用于根据所述边框损失函数和所述类别损失函数,采用反向传播算法对所述前馈网络模型进行参数更新,并根据各所述正样本和各所述负样本对参数更新后的所述前馈网络模型继续进行训练,直至训练结束得到竖排文字定位模型。
优选的,各所述锚框具有相同的预设固定高度。
优选的,所述数据预测模块具体包括:
数据预测单元,用于将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率;
第一筛选单元,连接所述数据预测单元,用于在所述预测框的框选区域为所述待预测竖排文字图像的子集合时,将所述预测框作为第一候选框输出,以及在所述预测框的尺寸不小于预设尺寸阈值时,将所述预测框作为所述第一候选框输出;
第二筛选单元,分别连接所述数据预测单元和所述第一筛选单元,用于提取各所述第一候选框对应的各所述前景预测概率,并将各所述前景预测概率按照由大到小的顺序排列形成预测概率队列;
数据过滤单元,连接所述第二筛选单元,用于将所述预测概率队列中排名靠前的预设数量的所述前景预测概率对应的各所述第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
数据处理单元,连接所述数据过滤单元,用于根据各所述第二候选框并采用文本线构造法处理得到所述待预测竖排文字图像的定位框。
优选的,所述竖排文字定位模型的网络架构包括:VGG_16网络模型,所述VGG_16网络模型的输出连接3*3卷积层,所述3*3卷积层的输出连接一维度变换模块,所述维度变换模块的输出连接双向LMTS网络,所述双向LMTS网络的输出分别连接第一全连接网络和第二全连接网络。
一种竖排文字的定位方法,应用以上任意一项所述的竖排文字的定位系统,所述竖排文字的定位方法具体包括以下步骤:
步骤S1,所述定位系统获取若干竖排文字图像,并分别对各所述竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
步骤S2,所述定位系统分别对各所述竖排文字标注图像的所述竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各所述条状真值框关联的前景真实概率;
步骤S3,所述定位系统将各所述竖排文字标注图像作为输入,将对应的各所述条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;
步骤S4,所述定位系统将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率,并根据所述预测框和所述前景预测概率处理得到所述待预测竖排文字图像的定位框。
优选的,所述步骤S2具体包括:
步骤S21,所述定位系统对各所述竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
步骤S22,所述定位系统根据各所述竖排文字缩放图像中的所述竖排文字真值框分别计算得到各所述竖排文字真值框的凸包坐标;
步骤S23,所述定位系统针对每个所述竖排文字真值框,根据所述凸包坐标对所述竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
步骤S24,所述定位系统获取各所述条状真值框关联的前景真实概率。
优选的,所述步骤S3具体包括:
步骤S31,所述定位系统预先建立前馈网络模型以及生成锚框;
步骤S32,所述定位系统根据所述锚框和各所述条状真值框进行正负样本均衡,得到若干正样本和若干负样本;
步骤S33,所述定位系统根据各所述正样本和各所述负样本对所述前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
步骤S34,所述定位系统根据所述边框损失函数和所述类别损失函数,采用反向传播算法对所述前馈网络模型进行参数更新,随后返回所述步骤S33,直至训练结束得到竖排文字定位模型。
优选的,所述步骤S4具体包括:
步骤S41,所述定位系统将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率;
步骤S42,所述定位系统在所述预测框的框选区域为所述待预测竖排文字图像的子集合时,将所述预测框作为第一候选框输出,以及在所述预测框的尺寸不小于预设尺寸阈值时,将所述预测框作为所述第一候选框输出;
步骤S43,所述定位系统提取各所述第一候选框对应的各所述前景预测概率,并将各所述前景预测概率按照由大到小的顺序排列形成预测概率队列;
步骤S44,所述定位系统将所述预测概率队列中排名靠前的预设数量的所述前景预测概率对应的各所述第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
步骤S45,所述定位系统根据各所述第二候选框并采用文本线构造法处理得到所述待预测竖排文字图像的定位框。
上述技术方案具有如下优点或有益效果:能够准确检测垂直方向的竖排文字,并具有较高的准确率。
附图说明
图1为本发明的较佳的实施例中,一种竖排文字的定位系统的结构示意图;
图2为本发明的较佳的实施例中,一种竖排文字的定位方法的流程示意图;
图3为本发明的较佳的实施例中,竖排文字定位模型的网络架构示意图;
图4为本发明的较佳的实施例中,条状真值框的生成方法流程图;
图5为本发明的较佳的实施例中,竖排文字定位模型的训练方法流程图;
图6为本发明的较佳的实施例中,待预测竖排文字图像的定位方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式,只要符合本发明的主旨,则其他实施方式也可以属于本发明的范畴。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种竖排文字的定位系统,如图1所示,具体包括:
数据获取模块1,用于获取若干竖排文字图像,并分别对各竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
数据生成模块2,连接数据获取模块1,用于分别对各竖排文字标注图像的竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各条状真值框关联的前景真实概率;
模型训练模块3,分别连接数据获取模块1和连接数据生成模块2,用于分别对各竖排文字标注图像的竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各条状真值框关联的前景真实概率;
数据预测模块4,连接模型训练模型3,用于将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率,并根据预测框和前景预测概率处理得到待预测竖排文字图像的定位框。
具体地,本实施例中,在训练数据生成方面,本发明将竖排文字标注图像,以及通过在垂直方向生成多个条状真值框并获取各条状真值框关联的前景真实概率作为模型训练数据;上述条状真值框优选为矩形。在训练方面,优选设置每组10个固定高度的锚框,并且将VGG模型的最后一层conv5_3层经过3*3卷积层输出的N*9C*H*W特征向量,经过维度变换之后输出的(N*W)*H*9C张量作为LMTS网络的输入,再通过后续网络进行训练得到竖排文字定位模型;其中,N表示特征图的图片个数,C表示图像通道数,H表示特征图的图片高度,W表示特征图的图片宽度。在推理预测方面,优选将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率后,将预测框采用非极大值抑制进行过滤,并将过滤后的预测框采用对预测框的垂直坐标进行排序并计算水平方向的重叠区域的文本线构造方法,最终得到待预测竖排文字图像的定位框。
本发明的较佳的实施例中,数据生成模块2具体包括:
数据增强单元21,用于对各竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
坐标计算单元22,连接数据增强单元21,用于根据各竖排文字缩放图像中的竖排文字真值框分别计算得到各竖排文字真值框的凸包坐标;
数据处理单元23,连接坐标计算单元22,用于针对每个竖排文字真值框,根据凸包坐标对竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
概率获取单元24,连接所述数据处理单元23,用于获取各所述条状真值框关联的前景真实概率。
具体地,本实施例中,上述图像缩放优选为首先以600除以竖排文字标注图像长宽的最小值作为缩放比对各所述竖排文字标注图像进行缩放,随后再次将缩放后的各所述竖排文字标注图像的的长宽的大小调整为可以被16整除,得到竖排文字缩放图像。
进一步地,首先根据竖排文字缩放图像中的竖排文字真值框计算得到凸包坐标,上述竖排文字真值框优选为矩形,即凸包优选为矩形,则凸包坐标为(x0,y0,x1,y1,x2,y2,x3,y3),其中,(x0,y0)为凸包的左下坐标,(x1,y1)为凸包的右下坐标,(x2,y2)为凸包的右上坐标,(x3,y3)为凸包的左上坐标,且(x0,y0)和(x3,y3)确定一第一直线,(x1,y1)和(x2,y2)确定一第二直线。
其次,沿y轴方向分别计算上述第一直线和上述第二直线的斜率和截距:
Figure BDA0002399032110000101
b1=x3-k1x0
Figure BDA0002399032110000102
b2=x2-k2x1
其中,k1表示第一直线的斜率,b1表示第一直线的截距,k2表示第二直线的斜率,b2表示第二直线的截距。
随后,沿y轴方向开始每次递增16个像素,按照以下公式依次产生若干条状真值框的坐标表示,上述各条状真值框为矩形:
左上坐标为:(yk1+b1,y)
右上坐标为:(yk2+b2,y)
左下坐标为:(yk1+b1,y+15)
右下坐标为:(yk2+b2,y+15)
剩余不足16个像素的部分作为最后一个条状真值框。
最后,优选将上述条状真值框的坐标计算结果写到指定文件,并获取各条状真值框关联的前景真实概率以作为训练数据进行保存。
本发明的较佳的实施例中,模型训练模块3具体包括:
数据准备单元31,用于预先建立前馈网络模型以及生成若干锚框;
样本获取单元32,连接数据准备单元31,用于根据锚框和各条状真值框进行正负样本均衡,得到若干正样本和若干负样本;
损失计算单元33,分别连接数据准备单元31和样本获取单元32,用于根据各正样本和各负样本对前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
参数更新单元34,分别连接样本获取单元32和损失计算单元33,用于根据边框损失函数和类别损失函数,采用反向传播算法对前馈网络模型进行参数更新,并根据各正样本和各负样本对参数更新后的前馈网络模型继续进行训练,直至训练结束得到竖排文字定位模型。
具体地,本实施例中,在竖排文字定位模型训练之前,首先建立前馈网络模型和生成若干锚框,上述前馈网络模型采用VGG_16模型为基础网络,VGG_16模型的最后一层conv5_3经过3*3卷积层输出大小为N*9C*H*W的特征向量,该特征向量经过维度变换转换成大小为(N*W)*H*9C的张量作为双向LMTS网络的输入,上述双向LMTS网络的隐藏层大小为128、输出通道数为512,最后将双向LMTS网络的输出分别经过输出通道个数为40和20的第一全连接网络和第二全连接网络,以分别输出大小为N*H*W*40的边框预测张量,即预测框和输出大小为N*H*W*20的前景概率张量,即前景预测概率。上述锚框优选设置每组10个预设固定高度的锚框,上述预设固定高度为16个像素,水平宽度分别为10像素,16像素,24像素,32像素,48像素,68像素,98像素,138像素,198像素,282像素。
进一步地,优选通过正负样本均衡的方式得到若干正样本和若干负样本,以有效提升训练得到的竖排文字定位模型的预测准确率,上述正样本和负样本的生成方法具体为:
将VGG_16模型的最后一层conv5_3经过3*3卷积层的输出的每一个像素都设置上述的10个锚框,并将所有锚框的坐标对应回原始图片中,计算这些锚框和对应的条状真值框之间的的重叠面积;随后,将重叠面积大于0.7的锚框设置为前景,否则设置被背景;最后,在设置为前景的锚框中随机选取128个作为正样本,在设置为背景的锚框中随机选取128个作为负样本;如果正样本总数小于128,则用负样本补充。
进一步地,在训练过程中,优选通过设置的损失函数以表征预测框与条状真值框之间的差异性,并采用反向传播算法根据损失函数进行前馈网络模型的参数更新,重复执行上述过程,直至训练结束得到竖排文字定位模型。上述损失函数包括边框损失函数和类别损失函数,上述边框损失函数用于表征预测框与标注的条状真值框之前的差异性,上述类别损失函数用于表征前景预测概率与条状真值框框选的区域的真实值是前景或背景之间的差异性。
本发明的较佳的实施例中,各锚框具有相同的预设固定高度。
本发明的较佳的实施例中,数据预测模块4具体包括:
数据预测单元41,用于将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率;
第一筛选单元42,连接数据预测单元41,用于在预测框的框选区域为待预测竖排文字图像的子集合时,将预测框作为第一候选框输出,以及在预测框的尺寸不小于预设尺寸阈值时,将预测框作为第一候选框输出;
第二筛选单元43,分别连接数据预测单元41和第一筛选单元42,用于提取各第一候选框对应的各前景预测概率,并将各前景预测概率按照由大到小的顺序排列形成预测概率队列;
数据过滤单元44,连接第二筛选单元43,用于将预测概率队列中排名靠前的预设数量的前景预测概率对应的各第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
数据处理单元45,连接数据过滤单元44,用于根据各第二候选框并采用文本线构造法处理得到待预测竖排文字图像的定位框。
具体地,本实施例中,在对待预测竖排文字图像进行推理预测之前,优选首先将待预测竖排文字图像进行图像缩放,图像缩放的具体操作方法同数据增强单元21的图像缩放方法,此处不再赘述。随后将缩放后的待预测竖排文字图像输入到竖排文字定位模型得到待预测竖排文字的预测框boxi,以及预测框对应的前景预测概率scorei
进一步地,于上述若干预测框boxi中移除超出图像范围的预测框,即预测框的框选区域不为待预测竖排文字图像的子集合时,将预测框移除,否则将预测框作为第一候选框输出;同时移除尺寸过小的预测框,上述尺寸过小的标准优选通过预设尺寸阈值界定,上述预设尺寸阈值优选高度和宽度为8像素,即移除高度和宽度小于8像素的预测框,否则将预测框作为第一候选框输出。
随后,通过前景预测概率对第一候选框进行进一步筛选,优选将第一候选框对应的前景预测概率scorei按照由大到小的顺序排列形成预测概率队列,并保留排名靠前的预设数量的第一候选框,上述预设数量优选为12000个。
进一步地,对上述12000个第一候选框通过非极大值抑制算法(nms)进行过滤,得到文本线构造需要使用的若干第二候选框,并采用文本线构造方法构造文本线,进而得到待预测竖排文字图像的定位框。上述文本线构造方法具体包括:
上述任意第二候选框boxi的坐标为
Figure BDA0002399032110000141
更具体地,左下坐标为
Figure BDA0002399032110000142
右下坐标为
Figure BDA0002399032110000143
右上坐标为
Figure BDA0002399032110000144
左上坐标为
Figure BDA0002399032110000145
沿y方向对上述第二候选框进行排序,并将所有N个第二候选框建立一个N行N列的连接图Graph,连接图Graph第i行第j列的元素为gij,将连接图Graph的所有元素值初始化为0。
按照以下规则,依次为每个第二候选框boxi找出可以和它配对的另一个第二候选框boxj,组成一对候选框(boxi,boxj):
1)沿y的正方向寻找和第二候选框boxi的左下坐标
Figure BDA0002399032110000151
距离小于48个像素的所有其他第二候选框作为第一备选集合;
在第一备选集合中,找出在x方向与第二候选框boxi重叠部分大于0.7的第二候选框作为第二备选集合;
在第二备选集合中,找出对应的前景预测概率最高的第二候选框boxj
2)沿y的负方向寻找和第二候选框boxj的左下坐标
Figure BDA0002399032110000152
距离小于48个像素的所有其他候选框作为第三备选集合;
在第三备选集合中,找出在x方向与第二候选框boxj重叠部分大于0.7的第二候选框作为第四备选集合;
在第四备选集合中,找出对应的前景预测概率最高的第二候选框boxk
如果第二候选框boxi对应的前景预测概率scorei不小于第二候选框boxk对应的前景预测概率scorek,则将连接图Graph的元素gik设为1;
3)沿y方向对第二候选框进行排序;如果连接图Graph的元素gij的值为1并且gjk的值为1,则对应的第二候选框从boxi到boxj组成一个文本,以此类推,遍历整个连接图Graph生成最终的文本定位框,即待预测竖排文字图像的定位框。
本发明的较佳的实施例中,如图2所示,竖排文字定位模型的网络架构包括:VGG_16网络模型100,VGG_16网络模型100的输出连接3*3卷积层101,3*3卷积层101的输出连接一维度变换模块102,维度变换模块102的输出连接双向LMTS网络103,双向LMTS网络103的输出分别连接第一全连接网络104和第二全连接网络105。
一种竖排文字的定位方法,应用以上任意一项的竖排文字的定位系统,如图3所示,竖排文字的定位方法具体包括以下步骤:
步骤S1,定位系统获取若干竖排文字图像,并分别对各竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
步骤S2,定位系统分别对各竖排文字标注图像的竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各条状真值框关联的前景真实概率;
步骤S3,定位系统根据将各竖排文字标注图像作为输入,将对应的各条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;
步骤S4,定位系统将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率,并根据预测框和前景预测概率处理得到待预测竖排文字图像的定位框。
本发明的较佳的实施例中,如图4所示,步骤S2具体包括:
步骤S21,定位系统对各竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
步骤S22,定位系统根据各竖排文字缩放图像中的竖排文字真值框分别计算得到各竖排文字真值框的凸包坐标;
步骤S23,定位系统针对每个竖排文字真值框,根据凸包坐标对竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
步骤S24,定位系统获取各条状真值框关联的前景真实概率。
本发明的较佳的实施例中,如图5所示,步骤S3具体包括:
步骤S31,定位系统预先建立前馈网络模型以及生成锚框;
步骤S32,定位系统根据锚框和各条状真值框进行正负样本均衡,得到若干正样本和若干负样本;
步骤S33,定位系统根据各正样本和各负样本对前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
步骤S34,定位系统根据边框损失函数和类别损失函数,采用反向传播算法对前馈网络模型进行参数更新,随后返回步骤S33,直至训练结束得到竖排文字定位模型。
本发明的较佳的实施例中,如图6所示,步骤S4具体包括:
步骤S41,定位系统将待预测竖排文字图像输入竖排文字定位模型得到待预测竖排文字的预测框,以及预测框对应的前景预测概率;
步骤S42,定位系统在预测框的框选区域为待预测竖排文字图像的子集合时,将预测框作为第一候选框输出,以及在预测框的尺寸不小于预设尺寸阈值时,将预测框作为第一候选框输出;
步骤S43,定位系统提取各第一候选框对应的各前景预测概率,并将各前景预测概率按照由大到小的顺序排列形成预测概率队列;
步骤S44,定位系统将预测概率队列中排名靠前的预设数量的前景预测概率对应的各第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
步骤S45,定位系统根据各第二候选框并采用文本线构造法处理得到待预测竖排文字图像的定位框。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (10)

1.一种竖排文字的定位系统,其特征在于,具体包括:
数据获取模块,用于获取若干竖排文字图像,并分别对各所述竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
数据生成模块,连接所述数据获取模块,用于分别对各所述竖排文字标注图像的所述竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各所述条状真值框关联的前景真实概率;
模型训练模块,分别连接所述数据获取模块和所述数据生成模块,用于将各所述竖排文字标注图像作为输入,将对应的各所述条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;
数据预测模块,连接所述模型训练模型,用于将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率,并根据所述预测框和所述前景预测概率处理得到所述待预测竖排文字图像的定位框。
2.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述数据生成模块具体包括:
数据增强单元,用于对各所述竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
坐标计算单元,连接所述数据增强单元,用于根据各所述竖排文字缩放图像中的所述竖排文字真值框分别计算得到各所述竖排文字真值框的凸包坐标;
数据处理单元,连接所述坐标计算单元,用于针对每个所述竖排文字真值框,根据所述凸包坐标对所述竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
概率获取单元,连接所述数据处理单元,用于获取各所述条状真值框关联的前景真实概率。
3.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述模型训练模块具体包括:
数据准备单元,用于预先建立前馈网络模型以及生成若干锚框;
样本获取单元,连接所述数据准备单元,用于根据所述锚框和各所述条状真值框对各所述竖排文字标注图像进行正负样本均衡,得到若干正样本和若干负样本;
损失计算单元,分别连接所述数据准备单元和所述样本获取单元,用于根据各所述正样本和各所述负样本对所述前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
参数更新单元,分别连接所述样本获取单元和所述损失计算单元,用于根据所述边框损失函数和所述类别损失函数,采用反向传播算法对所述前馈网络模型进行参数更新,并根据各所述正样本和各所述负样本对参数更新后的所述前馈网络模型继续进行训练,直至训练结束得到竖排文字定位模型。
4.根据权利要求3所述的竖排文字的定位系统,其特征在于,各所述锚框具有相同的预设固定高度。
5.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述数据预测模块具体包括:
数据预测单元,用于将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率;
第一筛选单元,连接所述数据预测单元,用于在所述预测框的框选区域为所述待预测竖排文字图像的子集合时,将所述预测框作为第一候选框输出,以及在所述预测框的尺寸不小于预设尺寸阈值时,将所述预测框作为所述第一候选框输出;
第二筛选单元,分别连接所述数据预测单元和所述第一筛选单元,用于提取各所述第一候选框对应的各所述前景预测概率,并将各所述前景预测概率按照由大到小的顺序排列形成预测概率队列;
数据过滤单元,连接所述第二筛选单元,用于将所述预测概率队列中排名靠前的预设数量的所述前景预测概率对应的各所述第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
数据处理单元,连接所述数据过滤单元,用于根据各所述第二候选框并采用文本线构造法处理得到所述待预测竖排文字图像的定位框。
6.根据权利要求1所述的竖排文字的定位系统,其特征在于,所述竖排文字定位模型的网络架构包括:VGG_16网络模型,所述VGG_16网络模型的输出连接3*3卷积层,所述3*3卷积层的输出连接一维度变换模块,所述维度变换模块的输出连接双向LMTS网络,所述双向LMTS网络的输出分别连接第一全连接网络和第二全连接网络。
7.一种竖排文字的定位方法,其特征在于,应用如权利要求1-6中任意一项所述的竖排文字的定位系统,所述竖排文字的定位方法具体包括以下步骤:
步骤S1,所述定位系统获取若干竖排文字图像,并分别对各所述竖排文字图像进行标注得到包含竖排文字真值框的竖排文字标注图像;
步骤S2,所述定位系统分别对各所述竖排文字标注图像的所述竖排文字真值框在垂直方向进行处理,以生成若干条状真值框,并获取各所述条状真值框关联的前景真实概率;
步骤S3,所述定位系统将各所述竖排文字标注图像作为输入,将对应的各所述条状真值框及前景真实概率作为输出,训练得到竖排文字定位模型;
步骤S4,所述定位系统将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率,并根据所述预测框和所述前景预测概率处理得到所述待预测竖排文字图像的定位框。
8.根据权利要求7所述的竖排文字的定位方法,其特征在于,所述步骤S2具体包括:
步骤S21,所述定位系统对各所述竖排文字标注图像进行图像缩放处理,得到竖排文字缩放图像;
步骤S22,所述定位系统根据各所述竖排文字缩放图像中的所述竖排文字真值框分别计算得到各所述竖排文字真值框的凸包坐标;
步骤S23,所述定位系统针对每个所述竖排文字真值框,根据所述凸包坐标对所述竖排文字真值框在垂直方向进行处理,得到若干条状真值框;
步骤S24,所述定位系统获取各所述条状真值框关联的前景真实概率。
9.根据权利要求7所述的竖排文字的定位方法,其特征在于,所述步骤S3具体包括:
步骤S31,所述定位系统预先建立前馈网络模型以及生成锚框;
步骤S32,所述定位系统根据所述锚框和各所述条状真值框进行正负样本均衡,得到若干正样本和若干负样本;
步骤S33,所述定位系统根据各所述正样本和各所述负样本对所述前馈网络模型进行训练,并在训练过程中,计算相应的边框损失函数和类别损失函数;
步骤S34,所述定位系统根据所述边框损失函数和所述类别损失函数,采用反向传播算法对所述前馈网络模型进行参数更新,随后返回所述步骤S33,直至训练结束得到竖排文字定位模型。
10.根据权利要求7所述的竖排文字的定位方法,其特征在于,所述步骤S4具体包括:
步骤S41,所述定位系统将待预测竖排文字图像输入所述竖排文字定位模型得到所述待预测竖排文字的预测框,以及所述预测框对应的前景预测概率;
步骤S42,所述定位系统在所述预测框的框选区域为所述待预测竖排文字图像的子集合时,将所述预测框作为第一候选框输出,以及在所述预测框的尺寸不小于预设尺寸阈值时,将所述预测框作为所述第一候选框输出;
步骤S43,所述定位系统提取各所述第一候选框对应的各所述前景预测概率,并将各所述前景预测概率按照由大到小的顺序排列形成预测概率队列;
步骤S44,所述定位系统将所述预测概率队列中排名靠前的预设数量的所述前景预测概率对应的各所述第一候选框,通过非极大值抑制算法进行过滤,得到第二候选框;
步骤S45,所述定位系统根据各所述第二候选框并采用文本线构造法处理得到所述待预测竖排文字图像的定位框。
CN202010140846.0A 2020-03-03 2020-03-03 一种竖排文字的定位系统及方法 Active CN111368831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010140846.0A CN111368831B (zh) 2020-03-03 2020-03-03 一种竖排文字的定位系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010140846.0A CN111368831B (zh) 2020-03-03 2020-03-03 一种竖排文字的定位系统及方法

Publications (2)

Publication Number Publication Date
CN111368831A true CN111368831A (zh) 2020-07-03
CN111368831B CN111368831B (zh) 2023-05-23

Family

ID=71206740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010140846.0A Active CN111368831B (zh) 2020-03-03 2020-03-03 一种竖排文字的定位系统及方法

Country Status (1)

Country Link
CN (1) CN111368831B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128485A (zh) * 2021-03-17 2021-07-16 北京达佳互联信息技术有限公司 文本检测模型的训练方法、文本检测方法及装置
CN113762109A (zh) * 2021-08-23 2021-12-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113989484A (zh) * 2021-11-02 2022-01-28 古联(北京)数字传媒科技有限公司 古籍的文字识别方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960229A (zh) * 2018-04-23 2018-12-07 中国科学院信息工程研究所 一种面向多方向的文字检测方法和装置
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108960229A (zh) * 2018-04-23 2018-12-07 中国科学院信息工程研究所 一种面向多方向的文字检测方法和装置
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阿卜杜外力・如则;帕力旦・吐尔逊;阿布都萨拉木・达吾提;艾斯卡尔・艾木都拉;: "基于深度学习的多方向维吾尔文区域检测" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128485A (zh) * 2021-03-17 2021-07-16 北京达佳互联信息技术有限公司 文本检测模型的训练方法、文本检测方法及装置
CN113762109A (zh) * 2021-08-23 2021-12-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113762109B (zh) * 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113989484A (zh) * 2021-11-02 2022-01-28 古联(北京)数字传媒科技有限公司 古籍的文字识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111368831B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
US11093789B2 (en) Method and apparatus for object re-identification
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN111368831A (zh) 一种竖排文字的定位系统及方法
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN106683048A (zh) 一种图像超分辨率方法及设备
CN109934239B (zh) 图像特征提取方法
CN110114776A (zh) 使用全卷积神经网络的字符识别的系统和方法
CN109800756B (zh) 一种用于中文历史文献密集文本的文字检测识别方法
CN113297956B (zh) 一种基于视觉的手势识别方法及系统
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN111666937A (zh) 一种图像中的文本识别方法及系统
CN116612478A (zh) 一种脱机手写汉字的评分方法、装置及存储介质
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN109284702B (zh) 一种基于图像模式的答题卷给分及阅卷系统
De Nardin et al. Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding
CN110503090A (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN111582202A (zh) 一种智能网课系统
CN111291754A (zh) 一种文本级联检测方法、装置及存储介质
Sharma et al. A deep cnn model for student learning pedagogy detection data collection using ocr
CN106447667A (zh) 基于自学习特征和矩阵低秩复原的视觉显著性检测方法
CN110490170A (zh) 一种人脸候选框提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant