CN116704518A

CN116704518A - 一种文本识别方法及装置、电子设备、存储介质

Info

Publication number: CN116704518A
Application number: CN202210335833.8A
Authority: CN
Inventors: 茅心悦
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-09-05

Abstract

本申请公开了一种文本识别方法及装置、电子设备、存储介质，该方法包括：对文本图像中的字符序列以及字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图；从而确定对应的多边形检测框，并对其进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集；根据字符起始点掩码图确定多边形点集中的起点，依据起点对多边形点集中的点进行顺时针排序；根据排序后的多边形点集对文本图像进行矫正，得到水平字符图片，通过对水平字符图片进行文本识别以得到文本图像中包含的文本。本申请通过对多边形检测框外扩，解决了检测框压线的同时能够利用形成的多边形点集对弯曲的文本图像进行矫正识别，提高识别准确率。

Description

一种文本识别方法及装置、电子设备、存储介质

技术领域

本申请涉及字符识别技术领域，尤其涉及一种文本识别方法及装置、电子设备、存储介质。

背景技术

随着人工智能技术的快速发展，基于计算机视觉的光学字符识别(OCR)技术已经被广泛应用于各种领域。

光学字符识别技术是指电子设备检查纸质文档上打印的字符，通过检测暗、亮的模式确定字符形状以及字符形状轮廓形成的检测框，然后用字符识别方法将检测框内的字符翻译成计算机文字，因此能够对文本图像中的文本进行识别。但是，光学字符识别技术只能对水平文字进行检测，并且当通过暗、亮检测得到的字符形状为不规则文本时，容易出现对应的检测框压线导致检测框内的字符内容不完整，进而影响文本识别率。即针对文本图像的表达具有多样性的自然场景图像/工业场景中的任意形状的文本进行字符识别仍是一个具有挑战的问题。

发明内容

为解决上述技术问题，，本申请的实施例提供了一种一种文本识别方法及装置、电子设备、计算机可读存储介质。

根据本申请实施例的一个方面，提供了一种文本识别方法，包括：对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图；确定所述字符分割掩码图对应的多边形检测框，并对所述多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集；根据所述字符起始点掩码图确定所述多边形点集中的起点，依据所述起点对所述多边形点集中的点进行顺时针排序；根据排序后的多边形点集对所述文本图像进行矫正，得到水平字符图片，通过对所述水平字符图片进行文本识别以得到所述文本图像中包含的文本。

在另一示例性实施例中，所述确定所述字符分割掩码图对应的多边形检测框，并对所述多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集，包括：根据所述字符分割掩码图确定对应的多边形检测框，并确定所述多边形检测框的多边形参数；对所述多边形检测框进行预设倍数的外扩，并根据所述多边形参数和所述预设倍数计算所述多边形检测框的外扩像素值；根据所述外扩像素值确定由外扩后的多边形检测框包含的点所形成的多边形点集。

在另一示例性实施例中，所述根据所述字符分割掩码图确定对应的多边形检测框，并确定所述多边形检测框的多边形参数，包括：获取由所述多边形检测框包含的点所形成的初始点集；根据所述初始点集计算所述多边形检测框的多边形参数。

在另一示例性实施例中，所述根据所述字符起始点掩码图确定所述多边形点集中的起点，包括：确定所述字符起始点掩码图的中心点；计算所述中心点与所述多边形点集中的各点之间的欧氏距离值，并筛选出最小欧氏距离值对应的多边形点集中的点作为起点。

在另一示例性实施例中，所述根据排序后的多边形点集对所述文本图像进行矫正，得到水平字符图片，通过对所述水平字符图片进行文本识别以得到所述文本图像中包含的文本，包括：将所述多边形点集划分为第一曲线点集和第二曲线点集；分别对所述第一曲线点集和所述第二曲线点集进行贝塞尔曲线计算，得到所述文本图像包含的像素点；将所述文本图像包含的像素点映射至预设的输出矩形中，得到正方向的水平字符图片。

在另一示例性实施例中，所述对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图，包括：对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到至少两个字符分割掩码图和对应数量的字符起始点掩码图；确定每个字符分割掩码图的定位信息以及每个字符起始点掩码图的定位信息；根据确定出的定位信息对所述至少两个字符分割掩码图和所述对应数量的字符起始点掩码图进行分组匹配，得到至少两组掩码图组合，以通过所述至少两组掩码图组合进行所述文本图像中所包含文本的识别；其中，每组掩码图组合包含一个字符分割掩码图和对应的字符起始点掩码图。

在另一示例性实施例中，通过FPN特征网络对文本图像中的字符序列以及所述字符序列的起始点进行定位。

根据本申请实施例的一个方面，一种文本识别装置，包括：获取单元，用于对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图；操作单元，用于确定所述字符分割掩码图对应的多边形检测框，并对所述多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集；预处理单元，用于根据所述字符起始点掩码图确定所述多边形点集中的起点，依据所述起点对所述多边形点集中的点进行顺时针排序；矫正识别单元，用于根据排序后的多边形点集对所述文本图像进行矫正，得到水平字符图片，通过对所述水平字符图片进行文本识别以得到所述文本图像中包含的文本。

根据本申请实施例的一个方面，一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备如前实现所述的文本识别方法。

根据本申请实施例的一个方面，一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的文本识别方法。

在本申请的实施例所提供的技术方案中，通过对文本图像中的字符序列以及字符序列的起始点进行精准定位，得到字符分割掩码图和字符起始点掩码图以及字符分割掩码图对应的多边形检测框，并通过对多边形点检测框进行预设倍数的外扩，避免了检测框压线对字符识别准确率造成影响，还通过将由外扩后的多边形检测框包含的点所形成的多边形点集中的点进行顺时针排序，提高了多边形点集的数据标注质量，由此使得根据高数据标准质量的多边形点集对文本图像进行矫正，能够进一步提高文本识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请的一示例性实施例示出的一种文本识别方法的流程图；

图3是图2所示实施例中的步骤S200在一示例性的实施例中的流程图；

图4是图2所示实施例中的多边形检测框外扩前后对比的效果示意图；

图5是图2所示实施例中的字符分割掩码图和字符起始点掩码图的效果示意图；

图6是图2所示实施例中的步骤S400在一示例性的实施例中的流程图；

图7是本申请的一示例性实施例示出的一种文本识别方法的流程图；

图8是本申请的一示例性实施例示出的一种文本识别装置的框图；

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先说明的是，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器视觉是人工智能正在快速发展的一个分支。简单说来，机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号；图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。机器视觉是一项综合技术，包括图像处理、机械工程技术、控制、电光源照明、光学成像、传感器、模拟与数字视频技术、计算机软硬件技术。

OCR(OpticalCharacterRecognition，光学字符识别)便是及其视觉的一种，是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

本申请的实施例提出的一种文本识别方法及装置、电子设备、计算机可读存储介质主要涉及人工智能技术中包括的机器视觉的字符识别技术，以下将对这些实施例进行详细说明。

首先请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端10和服务器20，终端10和服务器20之间通过有线或者无线网络进行通信。

服务器20用于对需要进行文本识别的文本图像进行后台处理，通过对字符序列的字符序列掩码图对应的多边形检测框进行外扩，解决了检测框压线的同时利用多边形检测框包含的点形成的多边形点集对弯曲的文本图像进行矫正识别，以得到文本图像中包含的文本，并将所得到的文本传输至终端10进行展示。相比于现有技术的光学字符识别方案，本实施环境所提供的文本识别方法能够提高对任意形状文本的识别准确率。

需说明的是，图1所示实施环境中的终端10可以是智能手机、平板、笔记本电脑、计算机等任意的电子设备；服务器20服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本处不进行限制。

图2是本申请的一示例性实施例示出的文本识别方法的流程图。该方法可以应用于图1所示的实施环境，并由图1所示实施例环境中的服务器20具体执行。而在其它的实施环境中，该方法可以由其它实施环境中的设备执行，本实施例不对此进行限制。

如图2所示，在一示例性实施例中，该文本识别方法可以包括步骤S100至步骤S400，详细介绍如下：

步骤S100，对文本图像中的字符序列以及字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图。

在获取到包含有文本的文本图像后，对文本图像中的字符序列以及字符序列的起始点进行定位，之后将定位得到的字符序列与文本图像中除字符序列外的其它区域，按照字符序列的外界轮廓形状进行多边形分割，得到字符序列的字符分割掩码图，并通过对字符序列的起始点的定位，得到字符分割掩码图上对应的字符起始点掩码图。

本实施例对于字符序列以及字符序列的起始点的定位，是特征提取的过程，具体可以是，通过特征网络，在文本图像中提取出作为特征的字符序列以及字符序列的起始点，从而确定字符序列以及字符序列的起始点在文本图像中的位置信息。其中确定字符序列的起始点位置信息的方式包括但不限于下列所描写的方式，如可以依据现代文字从左到右的书写习惯确定位于字符序列左边顶部的起始点，也可以是依据古代文字从右到左的书写习惯确定位于字符序列右边顶部的起始点，还可以是在字符序列为竖直形状时确定位于字符序列上端顶部的起始点。

通过特征网络，在文本图像中提取出作为特征的字符序列以及字符序列的起始点，并确定字符序列以及字符序列的其实点在文本图像中的位置信息后，再依据字符序列的外界轮廓，对字符序列和文本图像的其它区域依据字符序列外界轮廓形状进行多边形分割，对字符起始点进行矩形分割，得到字符分割掩码图和字符起始点掩码图，参阅图3，是本实施例中的字符分割掩码图和字符起始点掩码图的效果示意图，其中A_p为字符分割掩码图，A_q为字符起始点掩码图。

需要说明的是，上述提及的特征网络包括但不限于FPN分割网络(特征金字塔网络)，FPN分割网络对文本图像中的字符序列以及字符序列的起始点进行定位，并分割得到字符分割掩码图和字符起始点掩码图，FPN能够使用不同分辨率的特征图感知不同大小的物体，并通过连续上采样和跨层融合机制使输出特征兼具底层视觉信息和高层语义信息，单独的低层次的特征图语义不够丰富，不能直接用于分类，而深层的特征更值得信赖，FPN将侧向连接与自上而下的连接组合起来，就可以得到不同分辨率的特征图，而它们都包含了原来最深层特征图的语义信息。所以FPN能够对输入对象的多尺度特征图都进行了独立的预测，结果取置信度最高的像素，使得应用FPN分割网络的本申请能够实现对文本的精准定位，从而提高检测的准确性。

步骤S200，确定字符分割掩码图对应的多边形检测框，并对多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集。

由于字符分割掩码图的外界轮廓是由依据字符序列的形状进行多边形分割得到的，所以根据字符分割掩码图的外界轮廓形成的外接多边形，能够确定该字符分割掩码图对应的用于字符识别的多边形检测框，得到多边形检测框后对其进行预设倍数的外扩。

通过对字符分割掩码图对应的多边形检测框外扩，在原多边形检测框的基础上将多边形检测框向外进行等比延伸形成新的多边形检测框，能够解决检测框压线影响字符识别准确率的问题，也就是在合适的外扩范围内对多边形检测框所能检测的区域进行扩大，扩大后被压线的字符部分便会位于多边形检测框内，从而通过保证字符序列的完整性来提高字符识别的准确率。

如图4所示的多边形检测框外扩前后对比效果示意图，其中Bi是外扩后的多边形检测框，Bn是原多边形检测框，显而易见的，原多边形检测框Bn存在压线的情况，尤其是图中的字母“CAD”由于检测框压线字母内容存在严重缺失，经外扩后，Bi对框内的字符内容的接触压线减少，图中的各个英文均能完整位于Bi的区域内，减少了检测框压线影响识别准确率的情况。

步骤S300，根据字符起始点掩码图确定多边形点集中的起点，依据起点对多边形点集中的点进行顺时针排序。

经由特征网络处理得到的字符起始点掩码图为矩形结构，如图3所示，故确定字符起始点掩码图中的中心点方式为，根据字符起始点掩码图所处的矩形的顶点坐标得到字符起始点掩码图的中心点center，可表示为：

center(x,y)＝(np.mean(x1…x4)，np.mean(y1…y4))。

其中，center(x,y)表示中心点的坐标，xn、yn(n＝1,2,3,4)表示矩形顶点的横、纵坐标，np.mean()表示平均值函数。

在得到中心点以及中心点的坐标之后，便能通过坐标计算中心点与外扩后的多边形点集中的各点之间的欧式距离值，欧式距离值最小则说明，该欧式距离值对应的多边形点集中的该点离中心点距离最短，故筛选出最小欧氏距离值，将最小欧式距离值对应的多边形点集中的点作为多边形点集排序的起点。确认起点后依据起点对多边形点集中的点进行顺时针排序，顺时针排序具体如下：

first_index＝np.argsort(distEclud(center,new_box))[0]；

new_box＝new_box[first_index:]+new_box[:first_index]；

new_box＝new_box[:-1]。

其中，first＿index表示起点，new＿box表示多边形点集，distEclud表示用于计算中心点与多边形点集中各点之间的欧氏距离的函数，np.argsort表示排序函数。

若字符序列的起点不确定，便会导致多边形点集中的点排序混乱，在根据多边形点集对文本图像进行矫正时会导致结果的扭曲和误差，故根据上述步骤将多边形点集进行起点的确认以及根据起点顺时针排序后，该多边形点集便具有了高质量的数据标注，根据高数据标准质量的多边形点集对文本图像进行矫正，能够进一步提高文本识别的准确率。

步骤S400，根据排序后的多边形点集对文本图像进行矫正，得到水平字符图片，通过对水平字符图片进行文本识别以得到文本图像中包含的文本。

需要说明的是，该实施例中，对文本图像进行矫正的工具可以是贝塞尔模块。贝塞尔模块十分依赖数据标注质量，故将上述排序后具有高质量的数据标注多边形点集输入到贝塞尔模块中，便能通过贝塞尔曲线，控制原弯曲或者不规则的文本图像矫正对齐到设置输出的矩形当中，从而得到字符序列掩码图对应的水平字符图片，进而通过文本识别网络等识别工具对水平字符图片进行文本识别以得到文本图像中包含的文本，提高了文本识别的准确率。

由上可知，在本实施例提供的方法中，通过对多边形检测框外扩，解决了检测框压线的同时，对多边形检测框包含的点形成的多边形点集进行排序，利用排序后的多边形点集对弯曲的文本图像进行矫正识别，进一步提高了文本识别的准确率。本实施例提供的上述方法，能够应用到自然场景下的文字检测识别以及工业/交通场景下印刷/喷漆文字识别，对任意形状的文字进行矫正，不局限于纸上打印的字符。

请参阅图5，图5是图2所示实施例中的步骤S200在一个示例性实施例中的流程图。如图5所示，步骤S200具体可以包括步骤S201至步骤S203，通过上述步骤来确定外扩后多边形检测框包含的点形成的多边形点集，详细介绍如下：

步骤S201，根据字符分割掩码图确定对应的多边形检测框，并确定多边形检测框的多边形参数。

在特征网络对文本图像进行分割后得到的字符分割掩码图，字符分割掩码图为分割结果，字符分割掩码图的多边形外界轮廓为分割结果轮廓，进而根据分割结果轮廓得到该字符分割掩码图对应的多边形检测框。在对多边形检测框进行预设倍数的外扩之前，还需要通过多边拟合函数(cv2.approxPolyDP)计算得到多边形检测框包含的点所形成的初始点集，进而根据初始点集计算多边形检测框的多边形参数。

示例性的，多边形参数可以包括多边形面积和多边形周长，多边形面积和多边形周长是根据特征网络对字符序列进行定位时获取到的多边形各个点的坐标进行基础计算得到的，故在此不进行赘述。上述多边形参数的具体的计算公式表示为：

area＝Polygon.Polygon(box).area()；

peri＝perimeter(box)。

其中，area表示多边形面积，peri表示多边形周长，box表示初始点集，Polygon.Polygon().area()表示多边形面积计算函数，perimeter表示周长计算函数。步骤S202，对多边形检测框进行预设倍数的外扩，并根据多边形参数和预设倍数计算多边形检测框的外扩像素值。

值得注意的是，本申请中外扩的预设倍数为依据需求可自定义设置的参数，优选的取值范围为1－1.5倍。多边形检测框外扩之后，根据步骤S201中得到的多边形参数以及应用的预设倍数进行计算，能够得到多边形检测框的外扩像素值，具体计算公式为：

offset＝area*(1-rate²)/peri。

其中，offset表示外扩像素值，rate表示预设倍数，area和peri表示多边形参数包括的多边形面积和多边形周长，外扩像素值用于计算初始点集跟随多边形检测框进行预设倍数的外扩后，对应得到的多边形点集。

步骤S203，根据外扩像素值确定由外扩后的多边形检测框包含的点所形成的多边形点集。

需要说明的是，在确定外扩像素值后，根据外扩像素值得到多边形检测框外扩后包含的点对应形成的多边形点集，具体计算公式为：

new_box＝pco.Execute(-offset)。

其中，new＿box表示多边形点集，pco.Execute表示根据外扩像素值计算多边形点集的函数，offset表示外扩像素值。

本实施例根据外扩像素值和初始点集能够精准得到外扩后的多边形点集，而不需要特征网络再次对外扩后的多边形检测框所包含的点进行定位，避免了运算量的增加。

请参阅图6，图6是图2所示实施例中的步骤S400在一个示例性实施例中的流程图。如图5所示，步骤S400可以包括步骤S401至步骤S404，通过上述步骤来得到文本图像中包含的文本，详细介绍如下：

步骤S401，将多边形点集划分为第一曲线点集和第二曲线点集。

需要说明的是，对于多边形点集的划分，划分的标准可以是包括基于平面空间的上下进行划分，以及第一曲线点集和第二曲线点集中包括的点数量是一致的，这样既保证了划分的快捷性也保证了后续对第一曲线点集和第二曲线点集的同步运算。

步骤S402，分别对第一曲线点集和第二曲线点集进行贝塞尔曲线计算，得到文本图像包含的像素点。

需要说明的是，对第一曲线点集和第二曲线点集进行贝塞尔曲线计算，首先需要计算第一曲线点集和第二曲线点集的贝塞尔曲线控制点，具体如下：

CONTROL_POINTS_top＝REAL_POINTS_top*BezierCoeff(t)^-1；

CONTROL_POINTS_down＝REAL_POINTS_down*BezierCoeff(t)^-1。

其中，REAL_POINTS_top表示第一曲线点集，REAL_POINTS_down表示第二曲线点集，CONTROL_POINTS_top表示第一曲线点集的塞尔曲线控制点，CONTROL_POINTS_down表示第二曲线点集的塞尔曲线控制点，BezierCoeff(t)^-1表示贝塞尔的定义公式中相关矩阵函数，用于计算曲线控制点。

得到贝塞尔曲线控制点同时，需要设置输出矩形区域，以及输出矩形的宽高，进而通过控制点控制第一曲线点集和第二曲线点集在输出矩形区域进行循环映射得到像素点，该实施例中对应宽高的像素点优选为100和25，即循环W_output＝100像素点W_i，循环H_output＝25像素点H_i。其中，W_output表示输出矩形的宽，H_output表示输出矩形的高，W_i和H_i表示分别对应输出矩形宽高的像素点。

步骤S403，将文本图像包含的像素点映射至预设的输出矩形中，得到正方向的水平字符图片。

在将文本图像包含的像素点映射至预设的输出矩形中之前，还需要根据像素点和输出矩形的宽高计算得到设置的输出矩形上到文本图像上的对应系数，具体如下：

t_w＝W_i/W_output,t_h＝H_i/H_output。

其中，t_w和t＿h为输出矩形上到文本图像上的对应系数，W_output表示输出矩形的宽，H_output表示输出矩形的高，W_i和H_i表示分别对应输出矩形宽高的像素点。

然后利用上述的对应系数和贝塞尔曲线的定义公式计算第一曲线点集边界t＿p和第二曲线点集边界b＿p的点，具体如下：

t_p＝BezierCoeff(t_w)*CONTROL_POINTS_top；

b_p＝BezierCoeff(1-t_w)*CONTROL_POINTS_down。

再利用上述第一曲线点集边界t＿p和第二曲线点集边界b＿p，通过计算将采样点op线性索引化，计算式具体为：op＝bp＊t＿h+tp＊(1－t＿h)。

最终通过上述线性索引化后的采样点，完成文本图像包含的像素点在预设的输出矩形上的映射，得到正方向的水平字符图片，其中的正方向为一图片状态的形容词，可以与起始点在字符序列上的位置对应，也可以自定义进行设置，在此不进行限制，映射过程可以具体表示为：

result_img[g_ih,g_iw,∶]＝org_img[int(op[0][1]),int(op[0][0]),∶]。

步骤S404，通过对水平字符图片进行文本识别以得到文本图像中包含的文本。

需要说明的是，对水平字符进行文本识别的工具包括但不限于CRNN识别网络。CRNN全称为ConvolutionalRecurrentNeuralNetwork，主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。CRNN的应用前提是已经得到图像中的检测内容，并且具有可识别任意长度的文本序列，模型速度快、性能好，模型小参数少的特点，应用到本实施例中对已经得到的具有高准确率的水平字符图片进行文本识别，进一步提升了文本识别的准确率。

由上可知，在本实施例提供的方法中，通过特征网络对文本图像中的字符序列以及字符序列的起始点进行精准定位，并进行分割检测，使得定位更加准确，鲁棒性更高，分割得到字符分割掩码图和字符起始点掩码图以及字符分割掩码图对应的多边形检测框，通过对多边形加检测框进行预设倍数的外扩，避免了检测框压线对识别率造成影响，并对由外扩后的多边形检测框包含的点所形成的多边形点集的点进行顺时针排序，解决标注数据质量差的问题并降低了标注成本，排序后的多边形点集应用到包括具有高矫正性能的贝塞尔对齐的矫正模块中对弯曲的文本图像进行矫正识别，即可以针对各种场景下的任意形状(弯曲/水平)文字图像，提高了文本识别的准确率和质量。

请参阅图7，图7是本申请的另一示例性实施例示出的文本识别方法的流程图。其中，图7所示的文本识别方法在图2所示步骤的基础上，步骤S100包括步骤S101’至步骤S103’：

步骤S101’，对文本图像中的字符序列以及字符序列的起始点进行定位，得到至少两个字符分割掩码图和对应数量的字符起始点掩码图。

图7所示的一种文本识别方法的实施例与图2所示实施例之间的区别点在于，图7所示实施例在对字符序列以及字符序列的起始点进行定位时，识别出了至少两个字符序列以及相同数量的字符序列的起始点。该实施例中，获取的文本图像中至少包括两个需要识别的文本，之后将定位得到的多个字符序列以及字符序列的起始点与文本图像中其它区域进行分割，得到字符分割掩码图和字符起始点掩码图。

步骤S102’，确定每个字符分割掩码图的定位信息以及每个字符起始点掩码图的定位信息。

获取在上述的步骤S101’中，对文本图像中的字符序列以及字符序列的起始点进行定位时确定的字符序列以及字符序列的起始点在文本图像中的位置信息，进而确定每个字符分割掩码图的定位信息以及每个字符起始点掩码图的定位信息。

步骤S103’，根据确定出的定位信息对至少两个字符分割掩码图和对应数量的字符起始点掩码图进行分组匹配，得到至少两组掩码图组合。

由于同一字符序列的字符分割掩码图和字符起始点掩码图在后续的文本识别当中有关联计算，故需要对多个字符分割掩码图和字符起始点掩码图进行匹配。因为起始点是按照从左到右的书写习惯确定为位于字符序列左边的顶部，故能够根据字符分割掩码图和字符起始点掩码图的定位信息，从而确定字符分割掩码图和字符起始点掩码图之间的距离，将距离值最小的字符分割掩码图和字符起始点掩码图进行分组匹配为一组，得到至少两组掩码图组合，每组掩码图组合包含一个字符分割掩码图和对应的字符起始点掩码图。

分组后根据至少两组掩码图组合分别进行文本图像中所包含文本的识别，当得到的是两组掩码图组合时，具体实施过程如下：

对每组的多边形检测框进行预设倍数的外扩之前，通过多边拟合函数(cv2.approxPolyDP)得到两组多边形检测框包含的点所分别形成的初始点集，进而根据初始点集计算多边形检测框的多边形参数，在本申请的这一示例性实施例中，多边形参数包括多边形面积和多边形周长，故两组掩码图组合的多边形参数分别为：

area1＝Polygon.Polygon(box1).area()；

peri1＝perimeter(box1)；

area2＝Polygon.Polygon(box2).area()；

peri2＝perimeter(box1)。

其中，area1、area2表示多边形面积，peri1、peri2表示多边形周长，box1、box2表示初始点集，并且本申请中针对多组掩码图组合均通过下标序号区分，在该实施例中所有的相关计算值均通过下标1和2进行区分两组掩码图组合。

在对每组的多边形检测框进行预设倍数的外扩后，根据多边形参数和预设倍数计算多边形检测框的外扩像素值。外扩的预设倍数为依据需求的可设置参数，优选的取值范围为1－1.5倍，该实施例中外扩的预设倍数设为1.2倍，即rate＝1.2，故两组掩码图组合的外扩像素值分别为：

offset1＝area1*(1-rate²)/peri1；

offset2＝area2*(1-rate²)/peri2。

根据外扩像素值和初始点集能够精准外扩后的多边形点集，而不需要特征网络再次对多边形检测框所包含的点进行定位，避免了运算量的增加。所以在确定外扩像素值offset1和offset2后，根据其得到多边形检测框外扩后包含的点对应的多边形点集，两组掩码图组合的多边形点集分别为：

new_box1＝pco.Execute(-offset1)；

new_box2＝pco.Execute(-offset2)。

在根据多边形点集对文本图像进行矫正之前，为了避免由于字符序列的起点不确定，导致多边形点集中的带来排序混乱，在进行矫正时会导致结果的扭曲和误差，需要首先根据字符起始点掩码图确定多边形点集中的起点，再依据起点对多边形点集中的点进行顺时针排序。字符起始点掩码图为矩形结构，故能够根据字符起始点掩码图所处的矩形的顶点坐标得到两组字符起始点掩码图的中心点：

Center1(x,y)＝

(np.mean(box1_x1…box1_x4),np.mean(box1_y1…box1_y4))；

Center2(x,y)＝

(np.mean(box2_x1…box2_x4),np.mean(box2_y1…box2_y4))。

其中center(x，y)为中心点的坐标，xn、yn(n＝1，2，3，4)为矩形顶点的横纵坐标，该实施例中前缀boxm(m为大于0的自然数)表示其为不同组分的矩形顶点坐标等数值。

在得到每组的字符起始点掩码图中心点坐标之后，便能计算中心点与外扩后的多边形点集中的各点之间的欧式距离值，欧式距离值最小则说明对应的多边形点集中的点离中心点最近，故筛选出最小欧氏距离值对应的多边形点集中的点作为排序的起点，依据起点对每组掩码图组合的多边形点集当中的点进行顺时针排序。每组掩码图组合对应的多边形点集的排序方式，与图2所示实施例中文本图像中包含一个需要识别的文本时采用的方式相同，在此不再赘述。

最后将每组的掩码图组合的多边形点集划分为第一曲线点集和第二曲线点集，对文本图像进行矫正，得到水平字符图片，通过对水平字符图片进行文本识别以得到文本图像中包含的文本，对应两组掩码图组合的矫正过程相同。

首先计算第一曲线点集和第二曲线点集的贝塞尔曲线控制点，得到贝塞尔曲线控制点同时，需要设置输出矩形区域，进而通过控制点控制第一曲线点集和第二曲线点集在输出矩形区域进行循环映射得到像素点；其次根据像素点和输出矩形的宽高计算得到设置的输出矩形上到文本图像上的对应系数；再利用得到的对应系数和贝塞尔曲线的定义公式计算第一曲线点集边界和第二曲线点集边界的点；进而利用第一曲线点集边界和第二曲线点集边界，通过计算式将采样点线性索引化，通过线性索引化后的采样点完成文本图像包含的像素点在预设的输出矩形上的映射，得到正方向的水平字符图片。

最终通过CRNN识别网络或其他文本识别工具对水平字符图片进行文本识别以得到文本图像中包含的文本。

由此，通过本实施例的方法，本申请得到的字符分割掩码图和字符起始点掩码图可以是多组，通过定位信息进行分组匹配之后每组分别进行文本识别，从而得到文本图像中的所有文本信息。

这样本申请该实施例的技术方案通过能够精准定位的特征网络得到多组掩码图组合，分别对每组掩码图对应的多边形检测框外扩，解决了检测框压线的同时，对多边形检测框包含的点形成的多边形点集进行排序，利用排序后的多边形点集对弯曲的文本图像进行矫正识别，不仅提高的了多边形点集的标注数据质量，还应用待高矫正性能的矫正模块中对文本图像进行矫正，进而进一步提高了文本识别的准确率，使得提供的上述方法可以针对各种场景下的任意形状(弯曲/水平)文字图像，提高了文本识别的准确率和质量。

图8是本申请的一示例性实施例示出的一种文本识别装置800的框图。

如图8所示，该装置包括：

获取单元801，用于对文本图像中的字符序列以及字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图；操作单元802，用于确定字符分割掩码图对应的多边形检测框，并对多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集；预处理单元803，用于根据字符起始点掩码图确定多边形点集中的起点，依据起点对多边形点集中的点进行顺时针排序；矫正识别单元804，用于根据排序后的多边形点集对文本图像进行矫正，得到水平字符图片，通过对水平字符图片进行文本识别以得到文本图像中包含的文本。

该装置应用本申请提供的文本识别方法，通过对文本图像中的字符序列以及字符序列的起始点进行精准定位，得到字符分割掩码图和字符起始点掩码图以及字符分割掩码图对应的多边形检测框，通过对多边形点检测框进行预设倍数的外扩，避免了检测框压线对字符识别准确率造成影响，并将由外扩后的多边形检测框包含的点所形成的多边形点集的点进行顺时针排序，通过对点进行顺时针排序提高了多边形点集的数据标注质量，根据高数据标准质量的多边形点集对文本图像进行矫正，能够进一步提高文本识别的准确率。

并且在保证文本识别的准确率和质量的前提下，能够应用到自然场景下的文字检测识别以及工业/交通场景下印刷/喷漆文字识别，对任意形状的文字进行矫正，不局限于纸上打印的字符。

在另一示例性的实施例中，该装置还包括：

外扩处理模块，用于根据字符分割掩码图确定对应的多边形检测框，并确定多边形检测框的多边形参数；对多边形检测框进行预设倍数的外扩，并根据多边形参数和预设倍数计算得到多边形检测框的外扩像素值；根据外扩像素值确定由外扩后的多边形检测框包含的点所形成的多边形点集；

参数计算模块，用于获取由多边形检测框包含的点所形成的初始点集；根据初始点集计算得到多边形检测框的多边形参数。

筛选模块，用于确定字符起始点掩码图的中心点，根据中心点与多边形点集中的各点之间的欧氏距离值，并筛选出最小欧氏距离值对应的多边形点集中的点作为起点。

矫正模块，用于接收顺时针排序后的多边形点集，用于将多边形点集划分为第一曲线点集和第二曲线点集；分别对第一曲线点集和第二曲线点集进行贝塞尔曲线计算，得到文本图像包含的像素点；将文本图像包含的像素点映射至预设的输出矩形中，得到正方向的水平字符图片。

在另一示例性的实施例中，获取单元801，还用于对文本图像中的字符序列以及字符序列的起始点进行定位，得到至少两个字符分割掩码图和对应数量的字符起始点掩码图；确定字符分割掩码图和字符起始点掩码图的定位信息，根据定位信息对字符分割掩码图和字符起始点掩码图进行分组匹配，得到至少两组字符分割掩码图和字符起始点掩码图。

需要说明的是，上述实施例所提供的文本识别装置与上述实施例所提供的文本识别方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的文本识别装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现上述各个实施例中提供的路况刷新方法。

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图9示出的电子设备的计算机系统1200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统1200包括中央处理单元(CentralProcessingUnit，CPU)1201，其可以根据存储在只读存储器(Read－OnlyMemory，ROM)1202中的程序或者从储存部分1208加载到随机访问存储器(RandomAccessMemory，RAM)1203中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CathodeRayTube，CRT)、液晶显示器(LiquidCrystalDisplay，LCD)等以及扬声器等的输出部分1207；包括硬盘等的储存部分1208；以及包括诸如LAN(LocalAreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入储存部分1208。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(ErasableProgrammableReadOnlyMemory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(CompactDiscRead－OnlyMemory，CD－ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前的路况刷新方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

以上仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图；

确定所述字符分割掩码图对应的多边形检测框，并对所述多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集；

根据所述字符起始点掩码图确定所述多边形点集中的起点，依据所述起点对所述多边形点集中的点进行顺时针排序；

根据排序后的多边形点集对所述文本图像进行矫正，得到水平字符图片，通过对所述水平字符图片进行文本识别以得到所述文本图像中包含的文本。

2.根据权利要求1所述的文本识别方法，其特征在于，所述确定所述字符分割掩码图对应的多边形检测框，并对所述多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集，包括：

根据所述字符分割掩码图确定对应的多边形检测框，并确定所述多边形检测框的多边形参数；

对所述多边形检测框进行预设倍数的外扩，并根据所述多边形参数和所述预设倍数计算所述多边形检测框的外扩像素值；

根据所述外扩像素值确定由外扩后的多边形检测框包含的点所形成的多边形点集。

3.根据权利要求2所述的文本识别方法，其特征在于，所述根据所述字符分割掩码图确定对应的多边形检测框，并确定所述多边形检测框的多边形参数，包括：

获取由所述多边形检测框包含的点所形成的初始点集；

根据所述初始点集计算所述多边形检测框的多边形参数。

4.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述字符起始点掩码图确定所述多边形点集中的起点，包括：

确定所述字符起始点掩码图的中心点；

计算所述中心点与所述多边形点集中的各点之间的欧氏距离值，并筛选出最小欧氏距离值对应的多边形点集中的点作为起点。

5.根据权利要求4所述的文本识别方法，其特征在于，所述根据排序后的多边形点集对所述文本图像进行矫正，得到水平字符图片，通过对所述水平字符图片进行文本识别以得到所述文本图像中包含的文本，包括：

将所述多边形点集划分为第一曲线点集和第二曲线点集；

分别对所述第一曲线点集和所述第二曲线点集进行贝塞尔曲线计算，得到所述文本图像包含的像素点；

将所述文本图像包含的像素点映射至预设的输出矩形中，得到正方向的水平字符图片。

6.根据权利要求1所述的文本识别方法，其特征在于，所述对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图，包括：

对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到至少两个字符分割掩码图和对应数量的字符起始点掩码图；

确定每个字符分割掩码图的定位信息以及每个字符起始点掩码图的定位信息；

根据确定出的定位信息对所述至少两个字符分割掩码图和所述对应数量的字符起始点掩码图进行分组匹配，得到至少两组掩码图组合，以通过所述至少两组掩码图组合进行所述文本图像中所包含文本的识别；

其中，每组掩码图组合包含一个字符分割掩码图和对应的字符起始点掩码图。

7.根据权利要求1至6中任一项所述的文本识别方法，其特征在于，通过FPN特征网络对文本图像中的字符序列以及所述字符序列的起始点进行定位。

8.一种文本识别装置，其特征在于，包括：

获取单元，用于对文本图像中的字符序列以及所述字符序列的起始点进行定位，得到字符分割掩码图和字符起始点掩码图；

操作单元，用于确定所述字符分割掩码图对应的多边形检测框，并对所述多边形检测框进行预设倍数的外扩，得到由外扩后的多边形检测框包含的点所形成的多边形点集；

预处理单元，用于根据所述字符起始点掩码图确定所述多边形点集中的起点，依据所述起点对所述多边形点集中的点进行顺时针排序；

矫正识别单元，用于根据排序后的多边形点集对所述文本图像进行矫正，得到水平字符图片，通过对所述水平字符图片进行文本识别以得到所述文本图像中包含的文本。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1－7中的任一项所述的文本识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1－7中的任一项所述的文本识别方法。