CN112651396A - 字符拼接方法、装置、网络设备及计算机可读存储介质 - Google Patents

字符拼接方法、装置、网络设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112651396A
CN112651396A CN201910968425.4A CN201910968425A CN112651396A CN 112651396 A CN112651396 A CN 112651396A CN 201910968425 A CN201910968425 A CN 201910968425A CN 112651396 A CN112651396 A CN 112651396A
Authority
CN
China
Prior art keywords
character
text
target
position information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910968425.4A
Other languages
English (en)
Inventor
淦小健
刘聪海
陈亮亮
方清
曾晓嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fengtu Technology Shenzhen Co Ltd
Original Assignee
Fengtu Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fengtu Technology Shenzhen Co Ltd filed Critical Fengtu Technology Shenzhen Co Ltd
Priority to CN201910968425.4A priority Critical patent/CN112651396A/zh
Publication of CN112651396A publication Critical patent/CN112651396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请实施例公开了一种字符拼接方法、装置、网络设备及计算机可读存储介质,本申请实施例可以提高文本的识别效果。本申请字符拼接装置获取包含目标文本的待识别图像;然后从待识别图像中确定目标字符以及目标字符的位置信息;再根据位置信息对目标字符进行线性拟合处理,得到字符拟合线;并根据位置信息分别确定各个目标字符与字符拟合线的方差;最后根据方差以及字符拟合线的斜率对目标字符进行拼接处理,得到目标文本。本方案可以根据字符的位置信息确定字符拟合线,并且根据字符与字符拟合线的方差及字符拟合线的斜率对字符进行拼接处理,在识别图像中的文本时,可以避免由于字符拼接顺序出错而导致的文本错乱的问题,提高文本的识别效果。

Description

字符拼接方法、装置、网络设备及计算机可读存储介质
技术领域
本申请涉及图像识别技术领域,具体涉及一种字符拼接方法、装置、网络设备及计算机可读存储介质。
背景技术
自然场景图像指的是图片中除了含有文字之外还含有其他掺杂场景的图像,例如该自然场景图像可以为包含门牌信息的图片。
在快递地图系统里,如果可以提供小区内部各个单元楼栋的门牌信息,对于快递业务来说,可以大大节省人力的损耗,加快投递速度。但是自然场景图像中很多文本都是由多行或多列的字符组成的,在得到自然场景图像中的文本信息时,如果仅对文本字符进行识别的话,可能会由于字符顺序拼接出错,导致文本中的字符出现排列乱序的情况,文本的识别效果不佳。
发明内容
本申请实施例提供一种字符拼接方法、装置、网络设备及计算机可读存储介质,可以提高文本的识别效果。
第一方面,本申请实施例提供了一种字符拼接方法,包括:
获取包含目标文本的待识别图像;
从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
在一些实施方式中,所述从所述待识别图像中确定目标字符以及所述目标字符的位置信息,包括:
根据训练后的特征识别网络模型从所述待识别图像中确定特征文本区域;
根据训练后的文本提取网络模型从所述特征文本区域中提取所述目标字符以及所述位置信息。
在一些实施方式中,所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线之前,所述方法还包括:
获取所述特征文本区域的长度信息以及宽度信息;
根据所述长度信息以及所述宽度信息对所述位置信息进行归一化处理,得到处理后的位置信息;
所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线,包括:
根据所述处理后的位置信息对所述目标字符进行线性拟合处理,得到所述字符拟合线。
在一些实施方式中,所述根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本,包括:
确定所述方差是否均小于预置的方差阈值;
若是,则根据所述斜率以及预置的拼接规则对所述目标字符进行拼接处理;
若否,则根据所述目标字符相对于所述字符拟合线的位置,将所述目标字符分为第一字符以及第二字符;
分别对所述第一字符以及所述第二字符进行拼接处理,得到第一文本以及第二文本;
根据所述第一文本以及所述第二文本确定所述目标文本。
在一些实施方式中,所述分别对所述第一字符以及所述第二字符进行拼接处理,得到第一文本以及第二文本,包括:
根据所述第一字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第一文本;以及,
根据所述第二字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第二文本。
在一些实施方式中,所述根据所述第一文本以及所述第二文本确定所述目标文本,包括:
根据所述第一文本中目标字符的位置信息确定所述第一文本的第一位置信息;
根据所述第二文本中目标字符的位置信息确定所述第二文本的第二位置信息;
根据所述第一位置信息以及所述第二位置信息拼接所述第一文本以及所述第二文本,得到所述目标文本。
在一些实施方式中,所述获取包含目标文本的待识别图像之后,所述方法还包括:
根据角度检测网络模型检测所述待识别图像的旋转角度;
根据所述旋转角度对所述待识别图像进行角度调整,得到调整后的待识别图像;
所述从所述待识别图像中确定目标字符以及所述目标字符的位置信息,包括:
从所述调整后的待识别图像中确定目标字符以及所述目标字符的位置信息。
第二方面,本申请实施例还提供了一种字符拼接装置,包括:
第一获取单元,用于获取包含目标文本的待识别图像;
第一确定单元,用于从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
第一处理单元,用于根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
第二确定单元,用于根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
第二处理单元,用于根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
在一些实施方式中,所述第一确定单元具体用于:
根据训练后的特征识别网络模型从所述待识别图像中确定特征文本区域;
根据训练后的文本提取网络模型从所述特征文本区域中提取所述目标字符以及所述位置信息。
在一些实施方式中,所述装置还包括:
第二获取单元,用于获取所述特征文本区域的长度信息以及宽度信息;
第三处理单元,用于根据所述长度信息以及所述宽度信息对所述位置信息进行归一化处理,得到处理后的位置信息;
此时,所述第一处理单元具体用于:
根据所述处理后的位置信息对所述目标字符进行线性拟合处理,得到所述字符拟合线。
在一些实施方式中,所述第二处理单元具体用于:
确定所述方差是否均小于预置的方差阈值;
若是,则根据所述斜率以及预置的拼接规则对所述目标字符进行拼接处理;
若否,则根据所述目标字符相对于所述字符拟合线的位置,将所述目标字符分为第一字符以及第二字符;
分别对所述第一字符以及所述第二字符进行拼接处理,得到第一文本以及第二文本;
根据所述第一文本以及所述第二文本确定所述目标文本。
在一些实施方式中,所述第二处理单元还具体用于:
根据所述第一字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第一文本;以及,
根据所述第二字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第二文本。
在一些实施方式中,所述第二处理单元还具体用于:
根据所述第一文本中目标字符的位置信息确定所述第一文本的第一位置信息;
根据所述第二文本中目标字符的位置信息确定所述第二文本的第二位置信息;
根据所述第一位置信息以及所述第二位置信息拼接所述第一文本以及所述第二文本,得到所述目标文本。
在一些实施方式中,所述装置还包括:
检测单元,用于根据角度检测网络模型检测所述待识别图像的旋转角度;
调整单元,用于根据所述旋转角度对所述待识别图像进行角度调整,得到调整后的待识别图像;
此时,所述第一确定单元具体用于:
从所述调整后的待识别图像中确定目标字符以及所述目标字符的位置信息。
第三方面,本申请实施例还提供了一种网络设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种字符拼接方法中的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种字符拼接方法中的步骤。
本申请实施例中,字符拼接装置获取包含目标文本的待识别图像;然后从待识别图像中确定目标字符以及目标字符的位置信息;再根据位置信息对目标字符进行线性拟合处理,得到字符拟合线;并根据位置信息分别确定各个目标字符与字符拟合线的方差;最后根据方差以及字符拟合线的斜率对目标字符进行拼接处理,得到目标文本。本方案可以根据字符的位置信息确定字符拟合线,并且根据字符与字符拟合线的方差及字符拟合线的斜率对字符进行拼接处理,在识别图像中的文本时,可以避免由于字符拼接顺序出错而导致的文本错乱的问题,提高文本的识别效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的字符拼接方法的一种流程示意图;
图2是本申请实施例提供的字符拼接方法的另一种流程示意图;
图3是本申请实施例提供的字符拼接装置的一种结构示意图;
图4是本申请实施例提供的字符拼接装置的另一种结构示意图;
图5是本申请实施例提供的网络设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本申请的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本申请的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境,其中包括了任何的上述系统或装置。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
请参阅图1,图1是本申请一实施例提供的字符拼接方法的流程示意图。该字符拼接方法的执行主体可以是本申请实施例提供的字符拼接装置,或者集成了该字符拼接装置的网络设备,其中,该字符拼接装置可以采用硬件或者软件的方式实现,该网络设备可以是服务器或终端,该终端可以是智能手机、平板电脑、掌上电脑、台式电脑或者笔记本电脑等。
经过详细的统计分析,可以发现一般的文本,例如门牌文本的主要排布主要分为以下四类:
1、整行排列,例如:“一栋3单元”从左到右依次排列;
2、整列排列,例如:“一栋3单元”从上到下依次排列;
3、双行排列,例如:“一栋”在上行,“3单元”在下行,整体表达为“一栋3单元”;
4、双列排列,例如:“一栋”在左列,“3单元”在右列,整体表达为“一栋3单元”。
此外,还存在其他多行/多列的排列方式,所以为了避免出现字符拼接顺序出错的问题,提高文本的识别效果。对文本的排列进行正确拼接非常重要,该字符拼接方法可以包括:
101、获取包含目标文本的待识别图像。
本申请中的目标文本可以为门牌文本,例如,本申请实施例中的待识别图像可以为包含门牌文本信息的自然场景图像,其中,该图像可以由物流公司的快递员拍照收集,也可以通过其他方式收集,具体此处不做限定。
在一些实施例中,由于采集回来的图片会受采集人员的拍摄姿态和拍摄角度影响,导致部分图片中门牌会出现旋转,这类位姿不正确的门牌图片会严重影响后续文本检测的效果,为了提高检测结果的准确率,在一些实施例中,本申请可以将待识别图片分为0°、45°、90°、135°、180°、225°、270°、315°等至少一共8个类别的旋转分类问题。
其中,“摆正”待识别图像,方法如下:
a.根据角度检测网络模型检测待识别图像的旋转角度。
其中,该角度检测网络模型为训练好的网络模型,具体地,该角度检测网络模型采用VGG16(一种经典的卷积神经网络算法构架)作为骨干网络,并且,为了提高检测的速度,本申请将其网络的第一层全连接层替换为4096个7*7的卷积层,第二层全连接层替换为4096个1*1的卷积层,第三层全连接层也替换为4096个1*1的卷积层,至此构建起了全卷积操作的角度检测网络模型,它能够在保证模型准确率的情况下减少大量的参数量,提升模型效率。
此外,使用该角度检测网络模型之前,还需要采用迁移学习方法对该角度检测网络模型进行训练,具体地,可以将ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)预先训练好的模型权重初始化角度检测网络模型的前13层,然后使用已经分类好的数据,微调、优化模型参数,完成角度检测网络模型的训练。
训练好该角度检测网络模型之后,可以将待识别图像输入该角度检测网络模型,然后得到该待识别图像的旋转角度。
b.根据旋转角度对待识别图像进行角度调整,得到调整后的待识别图像。
当获取了待识别图像的旋转角度之后,将会根据该旋转角度对待识别图像进行角度调整,以摆正该待识别图像。
其中,如果旋转角度是0°,那么后续就不需要再对该待识别图像进行角度调整。
102、从待识别图像中确定目标字符以及目标字符的位置信息。
具体地,从待识别图像中确定目标字符以及目标字符的位置信息包括:
a.根据训练后的特征识别网络模型从待识别图像中确定特征文本区域。
其中,本实施例中的特征识别网络模型可以采用YOLO-V3(You Only Look OnceV3)网络,本模型需要检测的区域为包含门牌文本信息的图片区域。
YOLO-V3神经网络将输入图像切分为S*S个网格,然后对每个网格预测B个边界框,每个边界框都包含5个预测值x,y,w,h和confidence,其中w和h是边界框的宽和高的预测值,confidence是边界框所属类别的置信度,x和y是边界框的中心坐标的预测值,与gridcell(单元格)对齐(即相对于当前grid cell的偏移值),通过使用sigmoid函数使得偏移量在0到1之间,然后在每个单独区域直接预测目标文本出现的概率以及采用非极大值抑制算法(NMS,non maximum suppression)算法去掉重复率较大的边界框,最后推断目标边界框,得到特征文本区域。
其中,具体地,可以根据训练后的特征识别网络模型以及预置的特征从待识别图像中确定特征文本区域,在一些实施例中,预置的特征可以为与此时提取的场景相关的形状,例如,在一些实施例中,需要通过特征识别网络模型提取门牌区域,那么此时特征识别网络模型中预置的特征为门牌形状特征等,然后通过特征识别网络模型从待识别图像中定位出门牌区域。
b.根据训练后的文本提取网络模型从特征文本区域中提取目标字符以及目标字符的位置信息。
在一些实施例中,本实施例中的特征识别网络模型也可以采用YOLO-V3网络,与特征识别网络模型对应的YOLO-V3网络的不同点在于,在训练时使用不同的训练样本对模型进行训练,可以在预训练参数上微调优化出符合当前场景的模型。
当特征文本区域为门牌区域时,此时根据训练后的文本提取网络模型从门牌区域中提取门牌字符以及门牌字符的坐标,具体地,提取门牌字符的坐标的字符中心点坐标,其中,本申请中的目标字符包括多个门牌字符。
103、根据位置信息对目标字符进行线性拟合处理,得到字符拟合线。
在一些实施例中,根据位置信息对目标字符进行线性拟合处理,得到字符拟合线之前,方法还包括:
获取特征文本区域的长度信息以及宽度信息;然后根据长度信息以及宽度信息对位置信息进行归一化处理,得到处理后的位置信息;
具体地,假设字符中心点坐标为(x,y),门牌长宽为(w,h),本实施例可以将每个字符的横坐标和纵坐标分别除以门牌的长宽得到归一化的坐标,即(x,y)转换为(x/w,y/h),完成对字符位置信息的归一化处理,得到处理后的位置信息。
此时,根据位置信息对目标字符进行线性拟合处理,得到字符拟合线,包括:根据处理后的位置信息对目标字符进行线性拟合处理,得到字符拟合线。
即,当得到每个目标字符的归一化坐标之后,根据每个目标字符的归一化坐标将目标字符拟合为一条直线,即得到目标字符的字符拟合线。
104、根据位置信息分别确定各个目标字符与字符拟合线的方差。
具体地,根据每个目标字符的坐标,分别计算各个目标字符与字符拟合线之间的方差,其中,该方差可以反映目标字符是否处于同一行/列。
105、根据方差以及字符拟合线的斜率对目标字符进行拼接处理,得到目标文本。
具体地,确定方差是否均小于预置的方差阈值(例如0.02);若是,则根据斜率以及预置的拼接规则对目标字符进行拼接处理;若否,则根据目标字符相对于拟合线的位置,将目标字符分为第一字符以及第二字符;再分别对第一字符以及第二字符进行拼接处理,得到第一文本以及第二文本;最后根据第一文本以及第二文本确定目标文本。
具体地,如果方差均小于预置的方差阈值,则说明目标字符比较集中,可以确定字符处于同一行/列,如果存在方差大于预置的方差阈值,则此时说明目标字符比较离散,目标文本由多行/多列的目标字符构成。
更具体地,当方差均小于预置的方差阈值时,此时获取字符拟合线的斜率,然后根据斜率以及预置的拼接规则对目标字符进行拼接处理,例如,若用斜率在【-1,1】之间时,此时意味着目标文本比较平缓“成整行”,那么按拼接规则的行拼接“从左往右”对目标字符进行拼接;如果斜率大于1或者小于-1时,意味着文本信息比较陡峭“成整列”,那么按拼接规则的列拼接“从上往下”对目标字符进行拼接。
当存在方差不小于方差阈值时,此时需要根据目标字符相对于字符拟合线的位置,将目标字符分为第一字符以及第二字符,例如,将位于字符拟合线一侧的目标字符确定为第一字符,相应地,将位于字符拟合线另一侧的目标字符确定为第二字符,此时再分别针对第一字符以及第二字符对字符进行拼接处理。
其中,分别对第一字符以及第二字符进行拼接处理,得到第一文本以及第二文本,具体包括:根据第一字符更新目标字符,并返回执行根据位置信息对目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到第一文本;以及,根据第二字符更新目标字符,并返回执行根据位置信息对目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到第二文本。
其中,第一文本为根据第一字符拼接而成的本文,第二文本为根据第二字符拼接而成的本文。
当目标本文只有两行/两列的时候,此时可以直接根据第一文本对应的字符拟合线的斜率以及第二文本对应的字符拟合线的斜率分别对第一文本以及第二文本的字符进行拼接,然后再根据第一文本中目标字符的位置信息确定第一文本的第一位置信息;根据第二文本中目标字符的位置信息确定第二文本的第二位置信息;最后根据第一位置信息以及第二位置信息拼接第一文本以及第二文本,得到目标文本。例如,如果根据第一位置信息和第二位置信息确定第一文本位于第二文本的左边,那么在拼接时先拼接第一文本再拼接第二文本,如果第一文本位于第二文本的上边,在拼接时也先拼接第一文本再拼接第二文本,反之,先拼接第二文本再拼接第一文本。
当目标本文超过两行/两列的时候,那么在拟合第一字符和第二字符之后,还会对第一字符和/或第二字符进行再次划分,直到最后得到的划分的字符与对应字符拟合线均小于预置的方差阈值,停止划分,再根据字符拟合线的斜率对对应的字符进行拼接,最后根据文本之间的位置信息对文本进行拼接。
本申请实施例中,字符拼接装置获取包含目标文本的待识别图像;然后从待识别图像中确定目标字符以及目标字符的位置信息;再根据位置信息对目标字符进行线性拟合处理,得到字符拟合线;并根据位置信息分别确定各个目标字符与字符拟合线的方差;最后根据方差以及字符拟合线的斜率对目标字符进行拼接处理,得到目标文本。本方案可以根据字符的位置信息确定字符拟合线,并且根据字符与字符拟合线的方差及字符拟合线的斜率对字符进行拼接处理,在识别图像中的文本时,可以避免由于字符拼接顺序出错而导致的文本错乱的问题,提高文本的识别效果。
根据上述实施例所描述的字符拼接方法,以下将作进一步详细说明。
请参照图2,图2为本申请实施例提供的字符拼接方法的另一流程示意图。该字符拼接方法可以应用于网络设备,如图2所示,该字符拼接方法的流程可以如下:
201、网络设备获取包含目标文本的待识别图像。
其中,本申请中的目标文本可以为门牌文本,例如,本申请实施例中的待识别图像可以为包含门牌文本信息的自然场景图像,其中,该图像可以由物流公司的快递员拍照收集,也可以通过其他方式收集,具体此处不做限定。
202、网络设备根据角度检测网络模型检测待识别图像的旋转角度。
由于采集回来的图片会受采集人员的拍摄姿态和拍摄角度影响,导致部分图片中门牌会出现旋转,这类位姿不正确的门牌图片会严重影响后续文本检测的效果,为了提高检测结果的准确率,需要对该图像进行校正(摆正)处理。
该角度检测网络模型为训练好的网络模型,具体地,该角度检测网络模型采用VGG16作为骨干网络,并且,为了提高检测的速度,本申请将其网络的第一层全连接层替换为4096个7*7的卷积层,第二层全连接层替换为4096个1*1的卷积层,第三层全连接层也替换为4096个1*1的卷积层,至此构建起了全卷积操作的角度检测网络模型,它能够在保证模型准确率的情况下减少大量的参数量,提升模型效率。
训练好该角度检测网络模型之后,可以将待识别图像输入该角度检测网络模型,然后得到该待识别图像的旋转角度。
203、网络设备根据旋转角度对待识别图像进行角度调整,得到调整后的待识别图像。
当获取了待识别图像的旋转角度之后,将会根据该旋转角度对待识别图像进行角度调整,以摆正该待识别图像。
其中,如果旋转角度是0°,那么后续就不需要再对该待识别图像进行角度调整。
204、网络设备根据训练后的特征识别网络模型从调整后的待识别图像中确定特征文本区域。
本实施例中的特征识别网络模型可以采用YOLO-V3网络,本模型需要检测的区域为包含门牌文本信息的图片区域,即本申请中的特征文本区域为门牌区域。
其中,具体地,在一些实施例中,可以根据训练后的特征识别网络模型以及预置的门牌形状特征从待识别图像中确定门牌区域。
205、网络设备根据训练后的文本提取网络模型从特征文本区域中提取目标字符以及目标字符的坐标。
本实施例中的特征识别网络模型也可以采用YOLO-V3网络,与特征识别网络模型对应的YOLO-V3网络的不同点在于,在训练时使用不同的训练样本对模型进行训练,可以在预训练参数上微调优化出符合当前场景的模型。
其中,本申请中的目标字符包含多个门牌字符,目标字符的坐标为字符中心点坐标。
206、网络设备根据特征文本区域的长度信息以及宽度信息对目标字符的坐标进行归一化处理,得到处理后的坐标。
具体地,假设字符中心点坐标为(x,y),门牌长宽为(w,h),本实施例可以将每个字符的横坐标和纵坐标分别除以门牌的长宽得到归一化的坐标,即(x,y)转换为(x/w,y/h),完成对字符坐标的归一化处理,得到处理后的坐标。
207、网络设备根据处理后的坐标对目标字符进行线性拟合处理,得到字符拟合线。
即,当得到每个目标字符的归一化坐标之后,根据每个目标字符的归一化坐标将目标字符拟合为一条直线,即得到目标字符的字符拟合线。
208、网络设备根据坐标分别确定各个目标字符与字符拟合线的方差。
具体地,根据每个目标字符的坐标,分别计算各个目标字符与字符拟合线之间的方差,其中,该方差可以反映目标字符是否处于同一行/列。
209、网络设备确定方差是否均小于预置的方差阈值,若是,则执行步骤210,若否,则执行步骤211。
其中,该方差阈值可以为0.02,也可以为其他数值,此处不做限定。
210、若是,则网络设备根据斜率以及预置的拼接规则对目标字符进行拼接处理。
具体地,当方差均小于预置的方差阈值时,此时获取对应字符拟合线的斜率,然后根据斜率以及预置的拼接规则对目标字符进行拼接处理,例如,若用斜率在【-1,1】之间时,此时意味着目标文本比较平缓“成整行”,那么按拼接规则的行拼接“从左往右”对目标字符进行拼接;如果斜率大于1或者小于-1时,意味着文本信息比较陡峭“成整列”,那么按拼接规则的列拼接“从上往下”对目标字符进行拼接。
211、若否,则网络设备根据目标字符相对于字符拟合线的位置,将目标字符分为第一字符以及第二字符,并根据第一字符和第二字符分别更新目标字符,然后返回执行步骤207。
当存在方差不小于方差阈值时,此时需要根据目标字符相对于字符拟合线的位置,将目标字符分为第一字符以及第二字符,例如,将位于字符拟合线一侧的目标字符确定为第一字符,相应地,将位于字符拟合线另一侧的目标字符确定为第二字符,此时再分别针对第一字符以及第二字符对字符进行拼接处理。
具体地,可以根据第一字符更新目标字符,并返回执行根据处理后的坐标对目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到第一文本;以及,根据第二字符更新目标字符,并返回执行根据处理后的坐标对目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到第二文本。
当目标本文只有两行/两列的时候,此时可以直接根据第一文本对应的字符拟合线的斜率以及第二文本对应的字符拟合线的斜率分别对第一文本以及第二文本的字符进行拼接,然后再根据第一文本中目标字符的坐标确定第一文本的第一坐标;根据第二文本中目标字符的坐标确定第二文本的第二坐标;最后根据第一坐标以及第二坐标拼接第一文本以及第二文本,得到目标文本。例如,如果根据第一坐标和第二坐标确定第一文本位于第二文本的左边,那么在拼接时先拼接第一文本再拼接第二文本,如果第一文本位于第二文本的上边,在拼接时也先拼接第一文本再拼接第二文本,反之,先拼接第二文本再拼接第一文本。
当目标本文超过两行/两列的时候,那么在拟合第一字符和第二字符之后,还会对第一字符和/或第二字符进行再次划分,直到最后得到的划分的字符与对应字符拟合线均小于预置的方差阈值,停止划分,再根据字符拟合线的斜率对对应的字符进行拼接,最后根据文本之间的坐标对文本进行拼接。
212、输出目标文本。
当对目标字符进行拼接完毕之后,输出目标文本。
本申请实施例中,网络设备获取包含目标文本的待识别图像;然后从待识别图像中确定目标字符以及目标字符的坐标;再根据坐标对目标字符进行线性拟合处理,得到字符拟合线;并根据坐标分别确定各个目标字符与字符拟合线的方差;最后根据方差以及字符拟合线的斜率对目标字符进行拼接处理,得到目标文本。本方案可以根据字符的坐标确定字符拟合线,并且根据字符与字符拟合线的方差及字符拟合线的斜率对字符进行拼接处理,在识别图像中的文本时,可以避免由于字符拼接顺序出错而导致的文本错乱的问题,提高文本的识别效果。
为便于更好的实施本申请实施例提供的字符拼接方法,本申请实施例还提供一种基于上述字符拼接方法的装置。其中名词的含义与上述字符拼接方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本申请实施例提供的字符拼接装置的结构示意图,其中该字符拼接装置300可以包括第一获取单元301、第一确定单元302、第一处理单元303、第二确定单元304及第二处理单元305等,其中:
第一获取单元301,用于获取包含目标文本的待识别图像;
第一确定单元302,用于从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
第一处理单元303,用于根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
第二确定单元304,用于根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
第二处理单元305,用于根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
在一些实施方式中,所述第一确定单元302具体用于:
根据训练后的特征识别网络模型从所述待识别图像中确定特征文本区域;
根据训练后的文本提取网络模型从所述特征文本区域中提取所述目标字符以及所述位置信息。
请参阅图4,在一些实施方式中,所述装置还包括:
第二获取单元306,用于获取所述特征文本区域的长度信息以及宽度信息;
第三处理单元307,用于根据所述长度信息以及所述宽度信息对所述位置信息进行归一化处理,得到处理后的位置信息;
此时,所述第一处理单元303具体用于:
根据所述处理后的位置信息对所述目标字符进行线性拟合处理,得到所述字符拟合线。
在一些实施方式中,所述第二处理单元305具体用于:
确定所述方差是否均小于预置的方差阈值;
若是,则根据所述斜率以及预置的拼接规则对所述目标字符进行拼接处理;
若否,则根据所述目标字符相对于所述字符拟合线的位置,将所述目标字符分为第一字符以及第二字符;
分别对所述第一字符以及所述第二字符进行拼接处理,得到第一文本以及第二文本;
根据所述第一文本以及所述第二文本确定所述目标文本。
在一些实施方式中,所述第二处理单元305还具体用于:
根据所述第一字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第一文本;以及,
根据所述第二字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第二文本。
在一些实施方式中,所述第二处理单元305还具体用于:
根据所述第一文本中目标字符的位置信息确定所述第一文本的第一位置信息;
根据所述第二文本中目标字符的位置信息确定所述第二文本的第二位置信息;
根据所述第一位置信息以及所述第二位置信息拼接所述第一文本以及所述第二文本,得到所述目标文本。
在一些实施方式中,所述装置还包括:
检测单元308,用于根据角度检测网络模型检测所述待识别图像的旋转角度;
调整单元309,用于根据所述旋转角度对所述待识别图像进行角度调整,得到调整后的待识别图像;
此时,所述第一确定单元302具体用于:
从所述调整后的待识别图像中确定目标字符以及所述目标字符的位置信息。
本申请实施例中,第一获取单元301获取包含目标文本的待识别图像;然后第一确定单元302从待识别图像中确定目标字符以及目标字符的位置信息;第一处理单元303再根据位置信息对目标字符进行线性拟合处理,得到字符拟合线;第二确定单元304根据位置信息分别确定各个目标字符与字符拟合线的方差;最后第二处理单元305根据方差以及字符拟合线的斜率对目标字符进行拼接处理,得到目标文本。本方案可以根据字符的位置信息确定字符拟合线,并且根据字符与字符拟合线的方差及字符拟合线的斜率对字符进行拼接处理,在识别图像中的文本时,可以避免由于字符拼接顺序出错而导致的文本错乱的问题,提高文本的识别效果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例还提供一种网络设备,其集成了本申请实施例所提供的任一种区块链数据请求处理装置,所述网络设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述日志采集方法实施例中任一实施例中所述的区块链数据请求处理方法中的步骤。
本申请实施例还提供一种网络设备,其集成了本申请实施例所提供的任一种区块链数据请求处理装置。如图5所示,其示出了本申请实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
网络设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取包含目标文本的待识别图像;
从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对字符拼接方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种字符拼接方法中的步骤。例如,该指令可以执行如下步骤:
获取包含目标文本的待识别图像;
从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种字符拼接方法中的步骤,因此,可以实现本申请实施例所提供的任一种字符拼接方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种字符拼接方法、装置、网络设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种字符拼接方法,其特征在于,包括:
获取包含目标文本的待识别图像;
从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述从所述待识别图像中确定目标字符以及所述目标字符的位置信息,包括:
根据训练后的特征识别网络模型从所述待识别图像中确定特征文本区域;
根据训练后的文本提取网络模型从所述特征文本区域中提取所述目标字符以及所述位置信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线之前,所述方法还包括:
获取所述特征文本区域的长度信息以及宽度信息;
根据所述长度信息以及所述宽度信息对所述位置信息进行归一化处理,得到处理后的位置信息;
所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线,包括:
根据所述处理后的位置信息对所述目标字符进行线性拟合处理,得到所述字符拟合线。
4.根据权利要求1所述的方法,其特征在于,所述根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本,包括:
确定所述方差是否均小于预置的方差阈值;
若是,则根据所述斜率以及预置的拼接规则对所述目标字符进行拼接处理;
若否,则根据所述目标字符相对于所述字符拟合线的位置,将所述目标字符分为第一字符以及第二字符;
分别对所述第一字符以及所述第二字符进行拼接处理,得到第一文本以及第二文本;
根据所述第一文本以及所述第二文本确定所述目标文本。
5.根据权利要求4所述的方法,其特征在于,所述分别对所述第一字符以及所述第二字符进行拼接处理,得到第一文本以及第二文本,包括:
根据所述第一字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第一文本;以及,
根据所述第二字符更新所述目标字符,并返回执行所述根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线的步骤,以得到所述第二文本。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一文本以及所述第二文本确定所述目标文本,包括:
根据所述第一文本中目标字符的位置信息确定所述第一文本的第一位置信息;
根据所述第二文本中目标字符的位置信息确定所述第二文本的第二位置信息;
根据所述第一位置信息以及所述第二位置信息拼接所述第一文本以及所述第二文本,得到所述目标文本。
7.根据权利要求1至6中任一所述的方法,其特征在于,所述获取包含目标文本的待识别图像之后,所述方法还包括:
根据角度检测网络模型检测所述待识别图像的旋转角度;
根据所述旋转角度对所述待识别图像进行角度调整,得到调整后的待识别图像;
所述从所述待识别图像中确定目标字符以及所述目标字符的位置信息,包括:
从所述调整后的待识别图像中确定目标字符以及所述目标字符的位置信息。
8.一种字符拼接装置,其特征在于,包括:
第一获取单元,用于获取包含目标文本的待识别图像;
第一确定单元,用于从所述待识别图像中确定目标字符以及所述目标字符的位置信息;
第一处理单元,用于根据所述位置信息对所述目标字符进行线性拟合处理,得到字符拟合线;
第二确定单元,用于根据所述位置信息分别确定各个所述目标字符与所述字符拟合线的方差;
第二处理单元,用于根据所述方差以及所述字符拟合线的斜率对所述目标字符进行拼接处理,得到所述目标文本。
9.一种网络设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的字符拼接方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的字符拼接方法。
CN201910968425.4A 2019-10-12 2019-10-12 字符拼接方法、装置、网络设备及计算机可读存储介质 Pending CN112651396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910968425.4A CN112651396A (zh) 2019-10-12 2019-10-12 字符拼接方法、装置、网络设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910968425.4A CN112651396A (zh) 2019-10-12 2019-10-12 字符拼接方法、装置、网络设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112651396A true CN112651396A (zh) 2021-04-13

Family

ID=75343282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910968425.4A Pending CN112651396A (zh) 2019-10-12 2019-10-12 字符拼接方法、装置、网络设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112651396A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5081685A (en) * 1988-11-29 1992-01-14 Westinghouse Electric Corp. Apparatus and method for reading a license plate
JP2008217833A (ja) * 1997-11-28 2008-09-18 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
KR20100091383A (ko) * 2009-02-10 2010-08-19 전남대학교산학협력단 직선 핏팅에 의한 광각렌즈의 원주방향의 왜곡영상 보정 방법
CN106570500A (zh) * 2016-11-11 2017-04-19 北京三快在线科技有限公司 文本行的识别方法及装置、计算设备
CN108875744A (zh) * 2018-03-05 2018-11-23 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN110163786A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 一种去除水印的方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5081685A (en) * 1988-11-29 1992-01-14 Westinghouse Electric Corp. Apparatus and method for reading a license plate
JP2008217833A (ja) * 1997-11-28 2008-09-18 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
KR20100091383A (ko) * 2009-02-10 2010-08-19 전남대학교산학협력단 직선 핏팅에 의한 광각렌즈의 원주방향의 왜곡영상 보정 방법
CN106570500A (zh) * 2016-11-11 2017-04-19 北京三快在线科技有限公司 文本行的识别方法及装置、计算设备
CN108875744A (zh) * 2018-03-05 2018-11-23 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN110163786A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 一种去除水印的方法、装置及设备

Similar Documents

Publication Publication Date Title
CN106650780B (zh) 数据处理方法及装置、分类器训练方法及系统
CN111798360B (zh) 一种水印检测方法、装置、电子设备及存储介质
CN112801298B (zh) 异常样本检测方法、装置、设备和存储介质
CN109961041B (zh) 一种视频识别方法、装置及存储介质
CN111461105B (zh) 一种文本识别方法和装置
CN111126140A (zh) 文本识别方法、装置、电子设备以及存储介质
CN110672323B (zh) 一种基于神经网络的轴承健康状态评估方法及装置
CN112926584B (zh) 裂缝检测方法、装置、计算机设备及存储介质
EP4113376A1 (en) Image classification model training method and apparatus, computer device, and storage medium
CN110489423A (zh) 一种信息抽取的方法、装置、存储介质及电子设备
CN111488732A (zh) 一种变形关键词检测方法、系统及相关设备
CN113591884B (zh) 字符识别模型的确定方法、装置、设备及存储介质
CN115471439A (zh) 显示面板缺陷的识别方法、装置、电子设备及存储介质
CN110909578A (zh) 一种低分辨率图像识别方法、装置和存储介质
CN110475139B (zh) 一种视频字幕的遮挡方法、装置、存储介质及电子设备
CN112560480A (zh) 任务社区发现方法、装置、设备和存储介质
CN116645683A (zh) 基于提示学习的签名笔迹鉴别方法、系统及存储介质
CN112651396A (zh) 字符拼接方法、装置、网络设备及计算机可读存储介质
CN115223157A (zh) 一种基于循环神经网络的电网设备铭牌光学字符识别方法
CN113571046A (zh) 一种人工智能语音识别分析方法、系统、装置及存储介质
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
CN111160265A (zh) 文件转换方法、装置、存储介质及电子设备
CN116740721B (zh) 手指查句方法、装置、电子设备及计算机存储介质
CN115131597A (zh) 数据处理方法、装置、电子设备和存储介质
CN116187341A (zh) 语义识别方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination