CN111291761A

CN111291761A - 用于识别文字的方法和装置

Info

Publication number: CN111291761A
Application number: CN202010097553.9A
Authority: CN
Inventors: 冯博豪; 陈兴波; 张小帅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-16
Anticipated expiration: 2040-02-17
Also published as: CN111291761B

Abstract

本公开的实施例公开了用于识别文字的方法和装置。该方法的一具体实施方式包括：获取目标区域的图像，目标区域为表面上存在凹凸结构且凹凸结构形成待识别文字的区域，图像为采用平行光以预设角度照射于目标区域时所采集的图像；将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息；将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果；基于对应图像的目标识别结果，确定图像中的文字。基于平行光以预设角度照射于目标区域时所采集的图像对待识别文字进行识别，并基于对应图像的识别结果确定图像中的文字，实现了对凹凸结构形成的文字的自动识别，可以提高这类文字的识别效率。

Description

用于识别文字的方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及图像识别技术领域，尤其涉及用于识别文字的和装置。

背景技术

在日常生活中，很多物体表面存在由凹凸结构形成的文字，比如奖牌上面的文字，机械手表上面的刻度，圆形石头上面的浮雕，以及轮胎上面的标识。以轮胎上的标识为例，这类文字记载了轮胎在制造过程中的关键信息，例如在轮胎侧面记录了轮胎的大部分重要信息,包括生产日期、硫化机台号、轮胎型号及轮胎品牌等，翻新、跟踪轮胎的使用时都需要提取这些关键信息。

但是现阶段，尚没有针对凹凸结构形成的文字的智能识别技术，只能由人工录入。当凹凸结构形成的文字较多时，手工录入的方式难以保证准确率，而且录入效率低。

发明内容

本公开的实施例提出了用于识别文字的方法和装置。

第一方面，本公开的实施例提供了一种用于识别文字的方法，该方法包括：获取目标区域的图像，目标区域为表面上存在凹凸结构且凹凸结构形成待识别文字的区域，图像为采用平行光以预设角度照射于目标区域时所采集的图像；将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息；将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果；基于对应图像的目标识别结果，确定图像中的文字。

在一些实施例中，获取目标区域的图像，包括：分别获取平行光以不同的预设角度照射于目标区域所形成的图像。

在一些实施例中，基于对应图像的目标识别结果，确定图像中的文字，包括：基于对应图像的目标识别结果中重复率最高的目标识别结果，确定图像中的文字。

在一些实施例中，将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息，包括：将图像输入目标特征提取模型中的特征提取网络，获得图像中每个像素点的特征值，特征值用于表征该像素点是否存在待识别文字；以及在目标特征提取模型中，执行以下操作：基于特征值，确定待识别文字在图像中的位置；基于待识别文字在图像中的位置，对图像进行实例分割，得到实例分割图和实例分割参数，实例分割参数用于表征对应的实例分割图的准确率；基于实例分割图，确定分类概率值，分类概率值用于表征实例分割图为文字图像的概率；基于与实例分割图对应的实例分割参数和分类概率值的加权和，将符合预设条件的实例分割图的集合确定为待识别文字的特征信息。

在一些实施例中，在基于目标识别结果，确定图像中的文字之前还包括：基于预设词库，对目标识别结果进行修正。

在一些实施例中，在基于目标识别结果，确定图像中的文字之后还包括：响应于接收到针对图像中的文字的修改指令，将修改后的文字确定为图像中的文字。

第二方面，本公开的实施例提供了一种用于识别文字的装置，装置包括：获取单元，被配置成获取目标区域的图像，目标区域为表面上存在凹凸结构且凹凸结构形成待识别文字的区域，图像为采用平行光以预设角度照射于目标区域时所采集的图像；特征单元，被配置成将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息；识别单元，被配置成将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果；确定单元，被配置成基于对应图像的目标识别结果，确定图像中的文字。

在一些实施例中，获取单元被进一步配置成：分别获取平行光以不同的预设角度照射于目标区域所形成的图像。

在一些实施例中，确定单元通过如下方式确定图像中的文字：基于对应图像的目标识别结果中重复率最高的目标识别结果，确定图像中的文字。

在一些实施例中，特征单元经由如下步骤获得对应图像中的待识别文字的特征信息：将图像输入目标特征提取模型中的特征提取网络，获得图像中每个像素点的特征值，特征值用于表征该像素点是否存在待识别文字；以及在目标特征提取模型中，还执行以下操作：基于特征值，确定待识别文字在图像中的位置；基于待识别文字在图像中的位置，对图像进行实例分割，得到实例分割图和实例分割参数，实例分割参数用于表征对应的实例分割图的准确率；基于实例分割图，确定分类概率值，分类概率值用于表征实例分割图为文字图像的概率；基于与实例分割图对应的实例分割参数和分类概率值的加权和，将符合预设条件的实例分割图的集合确定为待识别文字的特征信息。

在一些实施例中，确定单元还包括修正模块，被配置成在基于目标识别结果，确定图像中的文字之前执行如下步骤：基于预设词库，对目标识别结果进行修正。

在一些实施例中，确定单元还被配置成在基于目标识别结果，确定图像中的文字之后，执行如下步骤：响应于接收到针对图像中的文字的修改指令，将修改后的文字确定为图像中的文字。

本公开的实施例提供的用于识别文字的方法和装置，将平行光以预设角度照射于目标区域时所采集的图像输入目标特征提取模型，获得待识别文字的特征信息，然后由目标文字识别模型对待识别文字的特征信息进行识别，获得对应图像的目标识别结果，最后基于对应图像的识别结果确定图像中的文字，从而实现了对凹凸结构形成的文字的自动识别，有助于提高这类文字的识别效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一些实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于识别文字的方法的一个实施例的流程图；

图3是根据本公开的实施例的用于识别文字的方法的一个应用场景的示意图；

图4是根据本公开的用于识别文字的方法的又一个实施例的流程图；

图5是根据本公开的用于识别文字的装置的一个实施例的结构示意图；

图6是适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的实施例的用于识别文字的方法或用于识别文字的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等，例如可以将目标区域的图像发送至服务器105，还可以接收服务器105确定出的图像中的文字。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持信息交互的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的图像提供数据支持的后台数据服务器。后台数据服务器可以对接收到的包含有待识别文字的图像进行识别处理，并将确定出的结果(图像中的文字)反馈给终端设备。

需要说明的是，本公开的实施例所提供的用于识别文字的方法可以由终端设备101、102、103执行，也可以由服务器105执行。相应地，用于识别文字的装置可以设置于终端设备101、102、103中，也可以设置于服务器105中。在此不做具体限定。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

继续参考图2，示出了根据本公开的用于识别文字的方法的一个实施例的流程200。该用于识别文字的方法，包括以下步骤：

步骤201，获取目标区域的图像。

在本实施例中，目标区域为表面上存在凹凸结构且凹凸结构形成待识别文字的区域。可以理解的是，该表面可以是平面，也可以是曲面，例如奖牌的表面或轮胎的表面等。

目标区域的图像为采用平行光以预设角度照射于目标区域时所采集的图像，需要说明的是，本实施例中的平行光特指人工制造的光源所产生的平行光，例如可以是LED光源。预设角度可以是不垂直于目标区域所在表面的任何角度，例如平行光与表面呈30度夹角照射于目标区域所形成的图像。由于目标区域的凹凸结构导致光线反射强度较弱，而其他区域的光线反射强度较强，这样一来，两者的明暗程度的对比更加明显，因而更有利于从图像中提取待识别文字。

下面结合具体场景举例说明采集目标区域的图像的方法：将LED光源置于目标区域侧方，使得LED光源产生的平行光以预设角度(例如可以与表面夹角为30度)照射于目标区域，然后将图像采集设备(例如高清摄像机)设置在平行光的反射光路上，以此采集目标区域的图像。

用于识别文字的方法的执行主体(例如图1所示的服务器或终端)可以通过有线连接方式或者无线连接方式直接或间接从图像采集设备获取目标区域的图像。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在一个具体的示例中，用户利用终端设备与图像采集设备进行数据交互，从图像采集设备处获取目标区域的图像。此后终端设备可以通过网络将目标区域的图像上传至服务器，由服务器作为用于识别文字的方法的执行主体，执行后续识别步骤以确定出的图像中的文字，完成对待识别文字的识别，并将识别结果返回至终端；或者，此后终端设备作为用于识别文字的方法的执行主体，直接在终端设备上执行后续识别步骤，以确定出的图像中的文字，完成对待识别文字的识别。

步骤202，将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息。

在本实施例中，基于步骤201中得到的目标区域的图像，上述执行主体(例如图1所示的服务器)可以通过预训练的目标特征提取模型从图像中提取待识别文字的特征信息，以便于后续的识别。此处的目标特征提取模型可以是机器学习领域中用于从图像中提取特征的模型，例如可以是卷积神经网络模型或SPCNet(Supervised Pyramid ContextNetwork,有监督提取上下文网络)模型。

在本实施例的一些可选的实现方式中，可以通过如下步骤从图像中提取待识别文字的特征信息：将图像输入目标特征提取模型中的特征提取网络，获得图像中每个像素点的特征值，特征值用于表征该像素点是否存在待识别文字；基于特征值，确定待识别文字在图像中的位置；以及在目标特征提取模型中，还执行以下操作：基于待识别文字在图像中的位置，对图像进行实例分割，得到实例分割图和实例分割参数，实例分割参数用于表征对应的实例分割图的准确率；基于实例分割图，确定分类概率值，分类概率值用于表征实例分割图为文字图像的概率；基于与实例分割图对应的实例分割参数和分类概率值的加权和，将符合预设条件的实例分割图的集合确定为待识别文字的特征信息。

下面结合具体场景举例说明如何从图像中提取待识别文字的特征信息。在一个具体的实施例中，当目标区域所在的表面为曲面时，待识别文字在获取的图像中是弯曲的，可以采用预训练的SPCNet模型提取待识别文字的特征信息，具体步骤如下：

将图像输入SPCNet模型中的ResNet(Residual Network,残差网络)和FPN(Feature Pyramid Network,特征提取网络)，根据像素点上是否存在待识别文字，利用ResNet网络对图像中的像素点进行分类，获得每个像素点的特征值，例如存在待识别文字的像素点的特征值为1，不存在待识别文字的像素点的特征值为0；然后基于特征值，利用FPN网络从图像中提取所有存在待识别文字的像素点，从而确定待识别文字在图像中的位置；

利用SPCNet模型中的RPN(Region Proposal Network，区域生成网络)，基于确定出的待识别文字在图像中的位置，生成矩形区域，矩形区域中包含了全部的待识别文字；

利用SPCNet模型中的Fast R-CNN(Fast Region-based Convolutional Network,基于快速区域的卷积神经网络)模型，基于生成的矩形区域，在待识别文字的轮廓外生成精确的矩形检测框，使得矩形检测框最大程度地贴合待识别文字，实现对待识别文字的精确定位和检测，可以理解的是，由于待识别文字获在图像中是弯曲的，因此矩形区域和矩形检测框也是弯曲的；

利用SPCNet模型中的Mask分支基于矩形检测框生成实例分割图和对应的实例分割参数，实例分割参数用于表征实例分割的准确度，实例分割图包括文本实例分割图和字符分割图，文本实例分割图是用一个矩形检测框框选出多个连续的待识别文字，而字符分割图则是用一个矩形检测框框选出单个的待识别文字；

基于实例分割图，利SPCNet模型中的用Mask-RCNN模型确定与实例分割图对应的分类概率值，分类概率值用于表征实例分割图为文字图像的概率；

利用SPCNet模型中的Re-Score模型按照预设权重获取实例分割参数与分类概率值的加权和，作为筛选实例分割图的依据，例如可以将预设条件设定为某个数值阈值，加权和小于该阈值的实例分割图表示不符合预设条件，则不应将该实例分割图加入待识别文字的特征信息；

将符合预设条件(例如，加权和大于阈值或按照加权和由大到小选取预定数量)的实例分割图的集合确定为待识别文字的特征信息，该待识别文字的特征信息为待识别文字和待识别文字轮廓外的矩形检测框组成的图像。

在本实施例的一些可选地实现方式中，在执行上述从目标区域的图像中提取待识别文字的特征信息之前，还可以通过图像处理以提高图像的清晰度，从而提高特征提取和识别的准确率。作为示例，可以采用如下的一种或多种图像处理方式：

灰度变换，例如可以通过OpenCV算法，对照明不足的图像进行灰度变换，以增强其对比度。

灰度直方图均衡化，例如可以通过OpenCV算法，将图像中的灰度直方图变平，使各个灰度级趋于平均分布，进一步增强图像的对比度，从而使得待识别文字所在的区域的清晰度更高。

图像锐化，例如可以通过OpenCV算法，对图像进行锐化处理，以解决图像的色度低导致的图像中物体边缘模糊的问题，可以通过求解图像色度的二阶导数，利用Laplacian(拉普拉斯)滤波加原图权重像素叠加来完成图像锐化。

无损放大，例如可以通过SRGAN(超分辨率图像复原)算法，先将图像放大至目标尺寸(如放大2倍、3倍或4倍)，再借助GAN(Generative Adversarial Networks，生成式对抗网络)的网络架构生成图像中的细节，由于此算法包含了图像超分辨率重建技术，因而能够在不降低图像的分辨率的情况下将图像放大。

步骤203，将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果。

在本实施例中，上述执行主体将步骤202中从目标区域的图像中提取出的待识别文字的特征信息，输入预训练的目标文字识别模型，获得预训练的目标文字识别模型输出的目标识别结果即为图像中待识别文字对应的文本信息。现阶段的文字识别技术已经非常成熟，因此本实施例中的目标文字识别模型可以是任何可以实现文字识别功能的模型，例如可以是CRNN(Convolution Recurrent Neural Network，卷积递归神经网络)模型或基于卷积神经网络的Seq2Seq模型，此处不再赘述。

在本实施例的一些可选的实现方式中，在执行步骤203之后、执行步骤204之前，执行主体还可以执行如下步骤：基于预设词库，对目标识别结果进行修正。

在本实现方式中，预设词库中存有与待识别文字相关的文字或词组，通过将目标识别结果与其中的文字或词组对比，可以对目标识别结果中的明显错误进行修正。下面结合应用场景举例说明，本公开的实施例提供的方法应用于轮胎标识的识别时，预设词库可以存有轮胎的品牌、生产日期、尺寸参数等关键词，假如步骤203中获得的目标识别结果为“米其木木”，则经过对比可以将其修正为“米其林”，以此提高识别的准确率。

步骤204，基于对应图像的目标识别结果，确定图像中的文字。

在本实施例中，由于步骤203中确定出的目标识别结果为从图像中识别出的文本信息，上述执行主体将该文本信息中包含的文字一一对应于图像中的待识别文字，即完成了对凹凸结构形成的待识别文字的识别。

在本实施例的一些可选的实现方式中，在步骤204之后，还可以进一步包括如下步骤：响应于接收到针对图像中的文字的修改指令，将修改后的文字确定为图像中的文字。

在本实现方式中，为了确保识别的准确率，该可以对上述步骤204中确定出的图像中的文字进行验证，修改其中的错误文字，然后将修改后的文字作为图像中的文字。作为示例，执行主体可以将步骤204中获得的对应图像中的文字呈现给操作人员，若操作人发现对应图像中的文字存在错误时，可以对其修改，然后将修改后的文字确定为与待识别文字对应的文字。

继续参见图3，图3是根据本实施例的用于识别文字的方法的应用场景的一个示意图。在图3的应用场景中，本实施例提供的用于识别文字的方法用于识别轮胎的标识，标识为轮胎表面上凹凸结构形成的文字。通过设置在平行光反射光路上的摄像头获取轮胎表面上的待识别文字所在区域的图像，然后将图像发送至终端，由终端执行上述步骤202至204，从图像中确定出待识别文字对应的文字，并可以通过显示设备将确定出的文字呈现给用户，从而完成了对轮胎表面上凹凸结构形成的文字的识别。

进一步参考图4，其示出了用于识别文字的方法的又一个实施例的流程400。该用于识别文字的方法的流程400，包括以下步骤：

步骤401，获取平行光以不同预设角度照射于目标区域所形成的图像。

在本实例中，为了提高对待识别文字的识别准确率，可以获取多张目标区域的图像，通过后续步骤分别对多张图像进行识别，综合与多张图像对应的多个识别结果确定图像中的文字。

在一个具体的示例中，可以将LED光源设置在目标区域的第一侧，使得LED光源产生的平行光以第一预设角度(例如可以是与表面成30度夹角)照射于目标区域，将图像采集设备(例如可以是高清摄像机)设置在平行光的反射光路上，从而采集到第一张目标区域的图像；之后，改变LED光源的姿态，使得平行光以第二预设角度(例如可以是与表面成45度夹角)照射于目标区域，通过图像采集设备采集到第二张目标区域的图像；然后，将LED光源移动至目标区域的第二侧，分别以第一预设角度和第二预设角度，获取第三张、第四张目标区域的图像；重复上述步骤即可获取多张目标区域的图像。最后，将采集到的多张目标区域的图像发送至执行主体(例如可以是图1中的终端)，之后由执行主体执行后续步骤。

步骤402，将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息，此步骤与前述步骤202相近，此处不再赘述。需要说明的是，由于步骤401中获取了多张目标区域的图像，因此，步骤402是将所有获取到的目标区域的图像分别输入预训练的目标特征提取模型，获得多个对应图像中的待识别文字的特征信息。

步骤403，将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果。此步骤与前述步骤203相近，此处不再赘述。需要说明的是，步骤403中是将步骤402中获取的所有与图像对应的待识别文字的特征信息分别输入预训练的目标文字识别模型中，获得对应的多个目标识别结果。

步骤404，基于预设词库，对目标识别结果进行修正。此步骤作为前述实施例的可选的实现方式，已经在前文中有所论述，此处不再赘述。需要说明的是，此步骤是对步骤403中所获得的多个目标识别结果进行修正。

在本实施例的一些可选的实现方式中，还可以进一步包括如下步骤：通过多个目标识别结果之间的比对分析，对目标识别结果进行修正。在一个具体的示例中，步骤401中一共获取了5张目标区域的图像，在此基础上，步骤403一共输出了5个目标识别结果，分别对应于5张目标区域的图像。作为示例，这5个目标识别结果为“米其林轮”、“其林轮胎”、“米其林轮胎”、“米其林轮胎”、“米其林轮胎”，经过对比分析，可以将“米其林轮”和“其林轮胎”修正为“米其林轮胎”。如此可以避免图像采集设备以某些拍摄角度获取目标区域的图像时，所采集到的图像中存在盲点，从而导致信息缺失，影响识别的准确度。

步骤405，基于对应图像的目标识别结果中重复率最高的目标识别结果，确定图像中的文字。由于所获取的目标区域的图像的是基于不同的预设角度采集到的，导致在此基础上获得的目标识别结果会存在差异，而目标识别结果的重复率与识别准确率是正相关的，因此从中选取重复率最高的目标识别结果，并以此确定图像中的文字，可以进一步提高识别的准确率。

步骤406，响应于接收到针对图像中的文字的修改指令，将修改后的文字确定为图像中的文字。此步骤作为前述实施例的可选的实现方式，已经在前文中有所论述，此处不再赘述。

此外，以上本公开的多个实施例还可以进一步包括如下步骤，基于最终确定出的图像中的文字，对所获取的目标区域的图像进行标记，将标记后的目标区域的图像加入到模型训练的训练样本中，用于提高模型的准确度。例如可以用于目标特征提取模型的训练过程中。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于识别文字的方法的流程400体现了基于多张目标区域的图像对凹凸结构形成的待识别文字进行识别的步骤。由此，本实施例描述的方案可以进一步提升对凹凸结构形成的待识别文字识别的准确率。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种用于识别文字的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于识别文字的装置500包括：获取单元501，被配置成获取目标区域的图像，目标区域为表面上存在凹凸结构且凹凸结构形成待识别文字的区域，图像为采用平行光以预设角度照射于目标区域时所采集的图像；特征单元502，被配置成将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息；识别单元503，被配置成将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果；确定单元504，被配置成基于对应图像的目标识别结果，确定图像中的文字。

在本实施例中，获取单元501被进一步配置成：分别获取平行光以不同的预设角度照射于目标区域所形成的图像。

在本实施例中，确定单元504通过如下方式确定图像中的文字：基于对应图像的目标识别结果中重复率最高的目标识别结果，确定图像中的文字。

在本实施例中，特征单元502经由如下步骤获得对应图像中的待识别文字的特征信息：将图像输入目标提取网络模型中的特征提取网络，获得图像中每个像素点的特征值，特征值用于表征该像素点是否存在待识别文字；以及在目标特征提取模型中，还执行以下操作：基于特征值，确定待识别文字在图像中的位置；基于待识别文字在图像中的位置，对图像进行实例分割，得到实例分割图和实例分割参数，实例分割参数用于表征对应的实例分割图的准确率；基于实例分割图，确定分类概率值，分类概率值用于表征实例分割图为文字图像的概率；基于与实例分割图对应的实例分割参数和分类概率值的加权和，将符合预设条件的实例分割图的集合确定为待识别文字的特征信息。

在本实施例中，确定单元504还包括修正模块，被配置成在基于目标识别结果，确定图像中的文字，之前执行如下步骤：基于预设词库，对目标识别结果进行修正。

在本实施例中，确定单元504还被配置成在基于目标识别结果，确定图像中的文字之后，执行如下步骤：响应于接收到针对图像中的文字的修改指令，将修改后的文字确定为图像中的文字。

下面参考图6，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)等等的移动终端以及诸如台式计算机等等的固定终端。图6示出的终端设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取目标区域的图像，目标区域为表面上存在凹凸结构且凹凸结构形成待识别文字的区域，图像为采用平行光以预设角度照射于目标区域时所采集的图像；将图像输入预训练的目标特征提取模型，获得对应图像中的待识别文字的特征信息；将对应图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应图像的目标识别结果；基于对应图像的目标识别结果，确定图像中的文字。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、特征单元和确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取目标区域的图像的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于识别文字的方法，包括：

获取目标区域的图像，所述目标区域为表面上存在凹凸结构且所述凹凸结构形成待识别文字的区域，所述图像为采用平行光以预设角度照射于所述目标区域时所采集的图像；

将所述图像输入预训练的目标特征提取模型，获得对应所述图像中的待识别文字的特征信息；

将所述对应所述图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应所述图像的目标识别结果；

基于所述对应所述图像的目标识别结果，确定所述图像中的文字。

2.根据权利要求1所述的方法，其中，获取目标区域的图像，包括：

分别获取平行光以不同的预设角度照射于所述目标区域所形成的图像。

3.根据权利要求2所述的方法，其中，所述基于所述对应所述图像的目标识别结果，确定所述图像中的文字，包括：

基于所述对应所述图像的目标识别结果中重复率最高的目标识别结果，确定所述图像中的文字。

4.根据权利要求1所述的方法，其中，将所述图像输入预训练的目标特征提取模型，获得对应所述图像中的待识别文字的特征信息，包括：

将所述图像输入所述目标特征提取模型中的特征提取网络，获得所述图像中每个像素点的特征值，所述特征值用于表征该像素点是否存在待识别文字；以及

在所述目标特征提取模型中，还执行以下操作：基于所述特征值，确定所述待识别文字在所述图像中的位置；基于所述待识别文字在所述图像中的位置，对所述图像进行实例分割，得到实例分割图和实例分割参数，所述实例分割参数用于表征对应的实例分割图的准确率；基于所述实例分割图，确定分类概率值，所述分类概率值用于表征所述实例分割图为文字图像的概率；基于与所述实例分割图对应的所述实例分割参数和所述分类概率值的加权和，将符合预设条件的实例分割图的集合确定为所述待识别文字的特征信息。

5.根据权利要求1至4之一所述的方法，其中，在所述基于所述目标识别结果，确定所述图像中的文字之前还包括：

基于预设词库，对所述目标识别结果进行修正。

6.根据权利要求5所述的方法，其中，在所述基于所述目标识别结果，确定所述图像中的文字之后还包括：

响应于接收到针对所述图像中的文字的修改指令，将修改后的文字确定为所述图像中的文字。

7.一种用于识别文字的装置，包括：

获取单元，被配置成获取目标区域的图像，所述目标区域为表面上存在凹凸结构且所述凹凸结构形成待识别文字的区域，所述图像为采用平行光以预设角度照射于所述目标区域时所采集的图像；

特征单元，被配置成将所述图像输入预训练的目标特征提取模型，获得对应所述图像中的待识别文字的特征信息；

识别单元，被配置成将所述对应所述图像中的待识别文字的特征信息输入预训练的目标文字识别模型，获得对应所述图像的目标识别结果；

确定单元，被配置成基于所述对应所述图像的目标识别结果，确定所述图像中的文字。

8.根据权利要求7所述的装置，其中，所述获取单元被进一步配置成：

9.根据权利要求8所述的装置，其中，所述确定单元通过如下方式确定对应所述图像中的文字：

10.根据权利要求7所述的装置，其中，所述特征单元经由如下步骤获得所述对应所述图像中的待识别文字的特征信息：

将所述图像输入所述目标特征提取模型中的特征提取网络，获得所述图像中每个像素点的特征值，所述特征值用于表征该像素点是否存在待识别文字；

以及在所述目标特征提取模型中，还执行以下操作：基于所述特征值，确定所述待识别文字在所述图像中的位置；基于所述待识别文字在所述图像中的位置，对所述图像进行实例分割，得到实例分割图和实例分割参数，所述实例分割参数用于表征对应的实例分割图的准确率；基于所述实例分割图，确定分类概率值，所述分类概率值用于表征所述实例分割图为文字图像的概率；基于与所述实例分割图对应的所述实例分割参数和所述分类概率值的加权和，将符合预设条件的实例分割图的集合确定为所述待识别文字的特征信息。

11.根据权利要求7至10之一所述的装置，其中，所述确定单元还包括修正模块，被配置成在所述基于所述目标识别结果，确定所述图像中的文字之前执行如下步骤：

基于预设词库，对所述目标识别结果进行修正。

12.根据权利要求11所述的装置，其中，所述确定单元还被配置成在所述基于所述目标识别结果，确定所述图像中的文字之后，执行如下步骤：

13.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。