CN111476067A

CN111476067A - 图像的文字识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN111476067A
Application number: CN201910065232.8A
Authority: CN
Inventors: 杨帆; 高文龙; 欧贫扶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2020-07-31
Anticipated expiration: 2039-01-23
Also published as: CN111476067B

Abstract

本申请提供了一种图像的文字识别方法、装置、电子设备及可读存储介质，该方法包括：对待处理图像进行多尺度检测，得到像素级热力图；基于像素级热力图进行实例分割，提取出待处理图像对应的各个文本框信息；根据各个文本框信息，在待处理图像中确定出与各个文本框信息分别对应的文本框图像；对各个文本框图像进行识别，得到分别对应的文字识别结果，即本申请采用基于像素级别的预测和实例分割，可以在待处理图像中分割出各种角度以及各种弯曲形状的文本，有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰，再通过对文本整体进行识别，避免了单字分割可能会引起的识别错误，显著提升图像的文字识别的准确率和召回率。

Description

图像的文字识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及OCR(Optical Character Recognition，光学字符识别)技术领域，具体而言，本申请涉及一种图像的文字识别方法、装置、电子设备及可读存储介质。

背景技术

OCR是指将一幅图像中的文字信息识别出来的技术。它的本质就是将光学设备捕捉的图像进行检测并对文字进行识别，将视觉和识字能力延伸到机器上。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业等领域。例如，在医疗健康业务的一种预约场景中，需要识别用户使用手机拍摄上传的临床病历照片中的文字，以实现精准预约。而通过OCR技术能够节省可观的识别、判别时间，节省大量人力和物力，提高处理效率。

但是，通常的业务场景中，照片的文字信息普遍较为复杂，例如会存在阴影、遮挡、褶皱、扭曲、多方向、多行密集等情况。使用现有技术中的图像检测方式仍无法达到理想的识别效果。例如，传统目标检测算法无法适应文本横跨整个页面的需求。又例如，语义分割的图像检测方式，只会将同一类型的目标所在的整体区域划分出来，可能会导致较为紧密的多行文字无法有效地区分开，结果产生多行检测为一行的情况，影响后续识别过程。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

第一方面，本申请提供了一种图像的文字识别方法，该方法包括：

对待处理图像进行多尺度检测，得到像素级热力图；

基于所述像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息；

根据所述各个文本框信息，在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像；

对各个文本框图像进行识别，得到分别对应的文字识别结果。

在一种可选的实现方式中，所述对待处理图像进行多尺度检测，得到像素级热力图，包括：

将所述对待处理图像缩放为多种预设尺度的图像；

对所述多种预设尺度的图像分别进行多尺度检测，得到所述多种预设尺度的像素级热力图。

在一种可选的实现方式中，对任一种预设尺度的图像进行多尺度检测，得到所述任一种预设尺度的像素级热力图，包括：

对所述任一种预设尺度的图像提取多个尺度层的特征图；

将所述多个尺度层的特征图进行融合，得到融合后的特征图；

将所述融合后的特征图进行分类，得到所述任一种预设尺度的像素级热力图。

在一种可选的实现方式中，所述像素级热力图包含每个像素点的两种通道信息，任一像素点的两种通道信息包括：

像素通道信息，用于表征所述任一像素点是否为文字；

连通通道信息，用于表征所述任一像素点与周围预定数量的像素点是否连通。

在一种可选的实现方式中，基于所述像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息，包括：

将所述多种预设尺度的像素级热力图的尺度均调整至所述多种预设尺度中的最大尺度；

分别确定调整后的各个像素级热力图的同一像素点的平均值，得到各个像素点为平均值的平均像素级热力图；

基于所述平均像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息。

在一种可选的实现方式中，所述基于所述平均像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息，包括：

将所述平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点；

根据所述文本像素点的连通通道信息，确定对应的文本连通域；

根据各个文本连通域，提取出对应的所述待处理图像中的各个文本框信息。

在一种可选的实现方式中，所述文本框信息包括文本框在所述待处理图像中的坐标信息；

所述根据所述各个文本框信息，在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像，包括：

根据各个文本框在所述待处理图像中的坐标信息，从所述待处理图像中确定出与各个文本框信息分别对应的文本框图像。

在一种可选的实现方式中，对任一文本框图像进行识别，得到对应的文字识别结果，包括：

提取所述任一文本框图像的文字特征，并对所述文字特征进行编码；

基于预定领域专业词典对编码后的文字特征进行解码，得到对应的文字识别结果。

在一种可选的实现方式中，所述提取所述任一文本框图像的文字特征，包括：

确定所述任一文本框图像的特征向量序列；

根据所述特征向量序列，提取对应的文字特征。

在一种可选的实现方式中，所述确定所述任一文本框图像的特征向量序列，包括：

提取所述任一文本框图像的语义特征；

将所述语义特征转换为特征向量序列。

在一种可选的实现方式中，所述根据所述特征向量序列，提取对应的文字特征，并对所述文字特征进行编码，包括以下任一项：

根据所述特征向量序列，通过深度双向循环神经网络提取对应的文字特征，并对所述文字特征进行编码；

根据所述特征向量序列，通过包含注意力机制的深度双向循环神经网络提取对应的文字特征，并对所述文字特征进行编码。

第二方面，本申请提供了一种图像的文字识别装置，该装置包括：

预测模块，用于对待处理图像进行多尺度检测，得到像素级热力图；

提取模块，用于基于所述像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息；

确定模块，用于根据所述各个文本框信息，在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像；

识别模块，用于对各个文本框图像进行识别，得到分别对应的文字识别结果。

在一种可选的实现方式中，所述预测模块具体用于将所述对待处理图像缩放为多种预设尺度的图像；对所述多种预设尺度的图像分别进行多尺度检测，得到所述多种预设尺度的像素级热力图。

在一种可选的实现方式中，所述预测模块具体用于对所述任一种预设尺度的图像提取多个尺度层的特征图；将所述多个尺度层的特征图进行融合，得到融合后的特征图；将所述融合后的特征图进行分类，得到所述任一种预设尺度的像素级热力图。

像素通道信息，用于表征所述任一像素点是否为文字；

在一种可选的实现方式中，所述提取模块具体用于将所述多种预设尺度的像素级热力图的尺度均调整至所述多种预设尺度中的最大尺度；分别确定调整后的各个像素级热力图的同一像素点的平均值，得到各个像素点为平均值的平均像素级热力图；基于所述平均像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息。

在一种可选的实现方式中，所述提取模块具体用于将所述平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点；根据所述文本像素点的连通通道信息，确定对应的文本连通域；根据各个文本连通域，提取出对应的所述待处理图像中的各个文本框信息。

所述确定模块具体用于根据各个文本框在所述待处理图像中的坐标信息，从所述待处理图像中确定出与各个文本框信息分别对应的文本框图像。

在一种可选的实现方式中，所述识别模块具体用于提取所述任一文本框图像的文字特征，并对所述文字特征进行编码；基于预定领域专业词典对编码后的文字特征进行解码，得到对应的文字识别结果。

在一种可选的实现方式中，所述识别模块具体用于确定所述任一文本框图像的特征向量序列；根据所述特征向量序列，提取对应的文字特征。

在一种可选的实现方式中，所述识别模块具体用于提取所述任一文本框图像的语义特征；将所述语义特征转换为特征向量序列。

在一种可选的实现方式中，所述识别模块具体用于以下任一项：

第三方面，本申请提供了一种电子设备，该电子设备包括：

处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请的第一方面所示的文字识别方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行以实现本申请的第一方面所示的文字识别方法。

本申请提供的图像的文字识别方法、装置、电子设备及可读存储介质，采用基于像素级别的预测和实例分割，可以不依赖于预设的小框，而在待处理图像中分割出各种角度以及各种弯曲形状的文本，进而将各类文本提取出来用于识别，能够有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰，再通过将文本框图像中的文本整体进行识别，避免了单字分割可能会引起的识别错误，显著提升图像的文字识别的准确率和召回率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图做简单的介绍。

图1为本申请实施例提供的图像的文字识别方法的流程示意图；

图2a为本申请实施例提供的预测出像素级热力图的示例图；

图2b为本申请实施例提供的提取各个文本框信息的示例图；

图2c为本申请实施例提供的确定文本框图像的示例图；

图3为本申请实施例提供的检测方法的示意图；

图4为本申请实施例提供的另一种图像的文字识别方法的示意图；

图5为本申请实施例提供的识别方法的示意图；

图6为本申请实施例提供的医疗健康场景OCR过程的示意图；

图7为本申请实施例提供的精准预约使用场景的示意图；

图8为本申请实施例提供的图像的文字识别装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

为使本申请的目的和优点更加清楚，下面将结合两种现有技术对本申请的实施方式做出介绍。

一种现有技术中，可以使用传统OCR方法来识别图像中的文字。然而，本申请的发明人经研究发现，该技术方案有如下缺点：

缺点1-1：传统OCR基于黑白光学变化，对图像质量要求很高，预处理阶段包括去噪、检测直线和抗扭曲等传统图像处理方法，对于处理结果需要设置固定的阈值和参数。而实际业务场景中，用户上传的图像来源多样化，例如在医疗健康等业务场景中，上传的图像包括化验单等，可能来自不同医院，具有不同格式，并且扭曲程度不同，黑白变化不均，文字分布情况复杂，因此，上传的所有图像无法使用同一套参数处理，而图像的预处理方法缺乏智能化和自适应性，导致包含预处理阶段的图像处理方法在实际业务场景中无法通用。

缺点1-2：图像切割分栏阶段，使用了版面分析方法。然而，版面分析依赖于预处理阶段的排除干扰和噪音、抗扭曲等情况，如果预处理阶段在图像处理中无法通用，则切割分栏阶段也会无法得到理想的效果。

缺点1-3：识别阶段，是将提取出的文本块送入开源引擎Tesseract。Tesseract会首先将文本块分割为单字，随后输入训练好的单字识别分类模型中。单字分割对于以英文为代表的拉丁语系文字较为适用，因为拉丁语系中字母之间有明显的分割，内部均为联通，因此Tesseract中的分割算法可以准确分割单字。但是实际业务场景中，文本内容可能包括中英文混合文字，单字分割算法对于复杂文字，例如“膨”，会将各部首分开，误分割为两个或多个字，大大降低准确率。

缺点1-4：识别阶段，Tesseract会对分割出来的每个单字进行识别，这对分类较少的数字(0-9)和英文(a-z，A-Z)来说较为容易，而对种类非常多的中文(4000种以上)来说，准确率将大幅降低。

另一种现有技术中，可以使用深度学习模型来进行语义分割，实现在业界通用场景下使用的OCR技术。然而，本申请的发明人经研究发现，该技术方案有如下缺点：

缺点2-1：该现有方案使用的CTPN检测模型框架，仅能检测水平方向文本，如果场景中同时存在水平、竖直甚至多方向的文本，则会出现大量漏检的情况。

缺点2-2：使用的CTPN模式，基于竖直小框(text proposals)对文本进行目标检测，将预测为文字的竖直小框连通为文本行，而准确率依赖于预设的竖直小框的水平和竖直两个方向的尺寸，例如，若图像中文字较小，而预设小框的尺寸较大，则会影响准确率，可见，该检测方法的智能化和适应性较低。

缺点2-3：使用的CRNN识别模型主要使用常规字词进行训练，对于专业术语，例如在医疗健康等业务场景中会使用到的“肌酐”等医疗术语，预测准确度低。

基于此，本申请提供的图像的文字识别方法、装置、电子设备及可读存储介质，旨在解决现有技术的如上技术问题。

下面将以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细描述。

本申请实施例提供了一种图像的文字识别方法，如图1所示，该方法包括：

步骤S101：对待处理图像进行多尺度检测，得到像素级热力图；

对于本申请实施例，执行主体可以为终端设备，例如用户使用的移动终端等。或者，执行主体也可以为服务器，在接收到终端设备发送的待处理图像后进行的处理。

其中，待处理图像是待进行文字识别的图像。实际应用中，待处理图像可以是用户从存储的图像中选择上传的，也可以是用户利用移动终端实时拍摄的照片或者实时扫描的图片等，本申请实施例在此不作限定。

具体地，待处理图像包括但不限于票据、书籍、报告、账单等。一个示例中，在医疗健康业务场景下，待处理图像具体可以为医疗相关图像，例如临床病历、体检报告、血常规和影像报告等纸质材料的照片等。作为示例地，用户在使用预约业务的过程中，需要通过OCR检测并识别这些照片中的文字及其位置，并将OCR结果通过结构化送入相应医院AI(Artificial Intelligence，人工智能)引擎，从而准确地推荐给医院相应科室进行处理。

本申请实施例中，对待处理图像进行多尺度检测，即基于多个尺度对待处理图像进行特征检测，由于不同的待处理图像大小不同，图像中的文字大小与文本大小也不会相同，多尺度检测可以针对大小不同文字或文本进行检测，从而提高对小文字和大文本检测的准确率。

随后，便可得到像素级热力图。本申请实施例中，根据一个待处理图像得到的像素级热力图可以为一个或多个。其中，每个像素级热力图均可以描述图像中每个像素点的预测信息，如图2a所示，像素级热力会以特殊高亮的形式显示所需的预测信息对应的区域，便于直观地看到文字区域的分布情况。

步骤S102：基于像素级热力图进行实例分割，提取出待处理图像对应的各个文本框信息；

本申请实施例采用基于像素级热力图的实例分割方式，由于像素级热力图均可以描述图像中每个像素点的预测信息，基于像素级的预测和分割，可以在图像中检测任意尺度的文字，以及检测各种任意形状及尺度的文本，例如各种角度以及各种弯曲形状的文本，这样，便可将待处理图像中的各类文本框信息提取出来。

实际应用中，由于根据一个待处理图像得到的像素级热力图可以为一个或多个，本申请实施例可以是基于待处理图像对应的一个像素级热力图进行的实例分割，提取出待处理图像对应的各个文本框信息，也可以是基于待处理图像对应的多个像素级热力图进行的实例分割，提取出待处理图像对应的各个文本框信息，如图2b所示。

相较于传统目标检测算法无法检测文本行横跨整个页面的情况，本申请实施例采用的实例分割方式无需极大的感受野就能够识别较大的文本。而相较于基于语义分割的图像检测方式会无法区分开较为紧密的多行文字，导致多行检测为一行的情况，本申请实施例采用的实例分割方式会能够识别较小尺度的文本，检测效果明显优于传统目标检测算法和基于语义分割的图像检测方式。

步骤S103：根据各个文本框信息，在待处理图像中确定出与各个文本框信息分别对应的文本框图像；

如图2c所示，示例出了从待处理图像中确定出个几个文本框图像。

步骤S104：对各个文本框图像进行识别，得到分别对应的文字识别结果。

本申请实施例中，将各个文本框图像的文本整体进行识别，相较于开源引擎Tesseract将文本块分割为单字再分别进行识别，能够避免单字分割可能会引起的识别错误，提升识别的准确率。

本申请实施例提供的图像的文字识别方法，采用基于像素级别的预测和实例分割，可以不依赖于预设的小框，而在待处理图像中分割出各种角度以及各种弯曲形状的文本，进而将各类文本提取出来用于识别，能够有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰，再通过将文本框图像中的文本整体进行识别，避免了单字分割可能会引起的识别错误，显著提升图像的文字识别的准确率和召回率。

本申请实施例中，对于步骤S101提供了一种可能的实现方式，具体地，包括：

步骤S1011：将对待处理图像缩放为多种预设尺度的图像；

考虑到待处理图像的来源多样化，例如在医疗健康等业务场景中，上传的图像包括临床病历、体检报告、血常规和影像报告等，可能来自不同医院，具有不同尺寸和格式，很难统一处理。

基于此，本申请实施例将对待处理图像缩放为多种预设尺度的图像，以提高对不同大小的待处理图像检测的准确度。

以医疗健康场景为例，由于通常图像的尺寸会处于824×824至2440×2440之间，可以设置将图片缩放为小(824×824)、中(1640×1640)、大(2440×2440)三种尺寸的正方形、水平长方形(2440×824)和竖直长方形(824×2440)这5种尺度。实际应用中，本领域技术人员可以根据实际情况对待处理图像缩放的尺度和数量进行设置，本申请实施例在此不做限定。

步骤S1012：对多种预设尺度的图像分别进行多尺度检测，得到多种预设尺度的像素级热力图。

本申请实施例中，是对多种预设尺度的图像分别进行多尺度检测，便可根据一个待处理图像得到的多个像素级热力图。例如上例中，可以对上述5种尺度的图像分别进行多尺度检测，则会分别得到上述5种尺度的像素级热力图。也就说，每种预设尺度的图像都得到与其一一对应的相同预设尺度的像素级热力图，进一步提高检测的准确率。

本申请实施例中，对于步骤S1012提供了一种可能的实现方式，如图3所示，具体地，对任一种预设尺度的图像进行多尺度检测，得到任一种预设尺度的像素级热力图的过程，包括：

步骤SA：对任一种预设尺度的图像(为方便描述，下文中简称为目标图像)提取多个尺度层的特征图；

提取多个尺度层的特征图，是指基于不同的尺度对目标图像进行特征提取，尺度层能够限定所提取的特征图的尺度。实际应用中，可以将目标图像输入神经网络来提取多个尺度层的特征图。

其中，较小尺度层的特征图包含更多的细节特征，而较大尺度层的特征图包含更多的分类特征。因此，多尺度检测挺高对目标图像的小文字和大文本检测的准确率。对于复杂场景中的噪音、褶皱和光线不均等因素，能够起到有效的抵抗干扰的作用。

一种可行的实现方式中，通过VGG-16网络来提取多个尺度层的特征图。具体而言，将目标图像经过多个卷积层和池化层，直至特征图大小为原图的1/16。

步骤SB：将多个尺度层的特征图进行融合，得到融合后的特征图；

具体而言，该步骤可以通过特征融合全卷积深度网络来执行，例如U型(例如U-net)深度全卷积神经网络、ResNet(Residual Neural Network，残差神经网络)、DenseNet(Dense Convolutional Network，密集卷积网络)或Inception Net(谷歌提出的一种卷积神经网络)等。

本申请实施例中，以U型全卷积深度神经网络为例，一种可行的实现方式中，使用VGG-16基础网络骨架，将提取的多个尺度层的特征图按照从小到大的顺序逐层进行上采样，将经过上采样后相同大小的浅层特征图和深层特征图进行融合。由于这种U型网络结构可有效学习到模型浅层特征图和深层特征图对应图片的语义信息，从而提高模型对小文字和大文本检测的准确率。

在其他实现方式中，也可以采用其他多尺度融合方式将多个尺度层的特征图进行融合，得到融合后的特征图，本申请实施例在此不做限定。

步骤SC：将融合后的特征图进行分类，得到任一种预设尺度的像素级热力图。

将最后一层融合后的特征图通过一个卷积层(例如1x1卷积)并进行分类(softmax)，输出目标图像的像素级热力图。

可以理解，针对步骤S1011中每种预设尺度的图像，需分别通过上述步骤SA-SC，以得到对应预设尺度的像素级热力图。

本申请实施例提供了一种可行的实现方式，其中，像素级热力图包含每个像素点的两种通道信息，任一像素点的两种通道信息包括像素通道信息(pixel)和连通通道信息(link)，即如图3所示，像素级热力图的每个像素点分为pixel和link两种通道输出。

其中，像素通道信息，用于表征任一像素点是否为文字；

连通通道信息，用于表征任一像素点与周围预定数量的像素点是否连通。例如，可以设置为表征任一像素点与周围8个像素点是否连通，实际应用中，也可以设置为表征任一像素点与周围4个像素点是否连通等。本领域技术人员可以根据实际情况对该预定数量进行设置，本申请实施例在此不做限定。

在其他实现方式中，像素级热力图也可以以其他形式的通道输出，本申请实施例在此不做限定。

本申请实施例中，对基于待处理图像对应的多个像素级热力图(步骤S1012中得到的多种预设尺度的像素级热力图)进行实例分割，提取出待处理图像对应的各个文本框信息的过程提供了一种可能的实现方式。其中，步骤S102包括：

步骤SL：将多种预设尺度的像素级热力图的尺度均调整至多种预设尺度中的最大尺度；

例如上例中，可以对上述5种尺度的像素级热力图，均放大至5种尺度中的最大尺度的高和宽(例如2440×2440)。

步骤SM：分别确定调整后的各个像素级热力图的同一像素点的平均值，得到各个像素点为平均值的平均像素级热力图；

即对调整后的不同像素级热力图的同一像素点平均所有尺度的值，得到平均像素级热力图。

步骤SN：基于平均像素级热力图进行实例分割，提取出待处理图像对应的各个文本框信息。

一种可行的实现方式中，步骤SN可以包括：

步骤SN1：将平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点；

具体而言，可以通过设置合适的像素阈值，将平均像素级热力图中像素通道信息低于像素阈值的像素点划分为非文本像素点，将平均像素级热力图中像素通道信息大于或等于像素阈值的像素点划分为文本像素点。本领域技术人员可以根据实际情况对像素阈值进行设置，本申请实施例在此不做限定。

步骤SN2：根据文本像素点的连通通道信息，确定对应的文本连通域；

进一步地，对于每个文本像素点，根据其连通通道信息确定与周围预定数量的相邻像素点(例如周围8个像素点)是否互相连通，从而判定各个文本的连通域。

步骤SN3：根据各个文本连通域，提取出对应的待处理图像中的各个文本框信息。

具体而言，可以使用OpenCV(Open Source Computer Vision Library，开源计算机视觉库)中的minAreaRect函数提取各个文本连通域的最小外接矩形，即为对应的文本框(也称为预测框，bounding box)，输出各个文本框信息。

此外，本申请实施例还提供了另一种可能的实现方式，也可以不对待处理图像进行缩放，而直接进行多尺度检测，便可根据一个待处理图像得到的一个像素级热力图。在待处理图像尺寸规范的场景中，可以提升文字识别的效率。

那么，对于待处理图像不进行缩放，而直接进行多尺度检测的方案，也可以通过以下过程得到待处理图像对应的一个像素级热力图：对待处理图像提取多个尺度层的特征图；将多个尺度层的特征图进行融合，得到融合后的特征图；将融合后的特征图进行分类，得到待处理图像的像素级热力图。其中，具体的执行方式可参见上述步骤SA-SC的介绍，在此不再赘述。

同理地，像素级热力图包含每个像素点的两种通道信息，任一像素点的两种通道信息包括像素通道信息(pixel)和连通通道信息(link)，即像素级热力图的每个像素点分为pixel和link两种通道输出。

其中，像素通道信息，用于表征任一像素点是否为文字；

连通通道信息，用于表征任一像素点与周围预定数量的像素点是否连通。例如，可以设置为代表任一像素点与周围8个像素点是否连通，实际应用中，也可以设置为代表任一像素点与周围4个像素点是否连通等。本领域技术人员可以根据实际情况对该预定数量进行设置，本申请实施例在此不做限定。

那么，对于待处理图像不进行缩放，而直接进行多尺度检测，得到待处理图像对应的一个像素级热力图的方案，后续的步骤S102就包括：将像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点；根据文本像素点的连通通道信息，确定对应的文本连通域；根据各个文本连通域，提取出对应的待处理图像中的各个文本框信息。其中，具体的执行方式可参见上述步骤SN1-SN3的介绍，在此不再赘述。

本申请实施例中，文本框信息包括文本框在待处理图像中的坐标信息。实际应用中，坐标信息的格式可以为(x1，y1，x2，y2，x3，y3，x4，y4)，即表示文本框四个顶点的坐标。

本申请实施例中，如图4所示，可将上述步骤S101-S102的过程由检测网络执行，即将输入待处理图像输入检测网络，在提取出各种形状及尺度的N个文本框在待处理图像中的坐标信息后，检测网络的过程结束。

本申请实施例提供的检测网络，结合将待处理图像缩放成多种预设尺度的图像以及多尺度检测的技术手段，无需使用同一套参数来执行预处理阶段，克服了上述现有技术中的技术问题：缺点1-1，使得图像的检测更加智能化，具有更高的自适应性。具体而言，通过对待处理图像进行多尺度检测，可以针对大小不同文字或文本进行检测，从而提高对小文字和大文本检测的准确率，并对于复杂场景中的噪音、褶皱和光线不均等因素，能够起到有效的抵抗干扰的作用。而通过对待处理图像缩放为多种预设尺度的图像，以提高对不同大小的待处理图像检测的准确度。

进一步结合基于像素级的实例分割的技术手段，通过基于像素级热力图的实例分割方式，可以在图像中检测任意尺度的文字，以及检测各种任意形状及尺度的文本，例如各种角度以及各种弯曲形状的文本。克服了上述现有技术中的技术问题：缺点1-2、缺点2-1和缺点2-2，使得图像的检测准确率、智能化和适应性更高。

本申请实施例中，在文本框信息为文本框在待处理图像中的坐标信息的情况下，为步骤S103提供了一种可能的实现方式，具体而言，根据各个文本框在待处理图像中的坐标信息，从待处理图像中确定出各个文本框图像。

实际应用中，根据各个文本框在待处理图像中的坐标信息，从待处理图像中剪裁出各个文本框图像，送入识别网络进行识别。

本申请实施例中，继续如图4所示，在将由N个文本框得到分别对应的N个字符串的过程，可以由识别网络执行。

可选地，为简化识别网络的参数配置，可以将各个文本框图像全部缩放至相同的输入尺寸，分批送入识别网络进行识别。本领域技术人员可以根据实际情况对输入尺寸进行设置，例如宽为100、高为32的矩形等，本申请实施例在此不做限定。

本申请实施例中，对于步骤S104提供了一种可能的实现方式，能够应对中英文混合、专业词汇难以识别等复杂文字情况，如图5所示，将任一文本框图像进行识别，得到对应的文字识别结果的过程，包括：

步骤S1041：提取该任一文本框图像的文字特征，并对文字特征进行编码；

步骤S1042：基于预定领域专业词典对编码后的文字特征进行解码，得到对应的文字识别结果。

其中，预定领域专业词典通常涵盖大量专业术语，能够辅助预测专业术语类文字或文本。以医疗健康场景为例，预定领域专业词典可以为医疗专业词典，目前涵盖3000余种医疗专业指标，有助于提高识别的准确率。

实际应用中，可通过连接时序分类算法(CTC，Connectionist TemporalClassification)对编码后的文字特征进行解码，得到对应的文字识别结果。

即基于预定领域专业词典，通过连接时序分类算法可结合上下文进行解码，以此得到词典中的词或任意长度的字符串。

一种可行的实现方式中，提取任一文本框图像的文字特征的过程，包括：

步骤SP：确定任一文本框图像的特征向量序列；

实际应用中，该步骤可以通过CNN(Convolutional Neural Network，卷积神经网络)、ResNet、DenseNet或Inception Net等卷积网络来执行，本领域技术人员可以根据实际情况进行选取，在此不做限定。

本申请实施例中，以使用标准CNN来提取文本框图像的特征向量序列为例。采用标准CNN(去除全连接层)中的卷积层和最大池化层来构造卷积层的组件，在产生的最后一层特征图(feature map)中提取特征向量序列。将这些特征向量序列作为循环层的输入，用于提取任一文本框图像的语义特征；将语义特征转换为特征向量序列，即将文本框图像中的语义特征，转换为特征向量序列。由于卷积操作具有平移不变性，此时特征图的每列对应于文本框图像的一个矩形区域，即感受野。感受野和特征图中自左向右的相应列具有相同的顺序。因此，特征向量序列中的每个向量关联一个感受野，可以被认为是对应区域的图像描述符。

步骤SQ：根据特征向量序列，提取对应的文字特征。

根据步骤SP中提取的特征向量序列，进一步文字特征，并对文字特征进行编码。

一种可行的实现方式中，根据特征向量序列，通过BiLSTM(Bi-directional LongShort-Term Memory，双向长短期记忆)网络，即一种深度双向RNN(Recurrent NeuralNetwork，循环神经网络)来提取对应的文字特征，并对文字特征进行编码。

这是因为RNN具有很强的捕获序列内上下文信息的能力，对于图像的文字识别，使用上下文提示的识别方式，与传统识别方式中进行单字分割再独立处理每个符号相比，会更稳定且更有帮助。例如，中文宽字符可通过一些连续的帧来完全描述，模糊和低分辨率的字符在观察其上下文时更容易区分。

实际应用中，RNN可以将其loss(损失)反向传播到其输入的卷积层，因此，可在同一网络端到端共同训练循环层和卷积层。RNN也可以从头到尾对任意长度的序列进行操作。对于传统RNN存在的梯度消失问题导致的上下文范围的限制，本申请实施例使用的BiLSTM网络，由两个方向的LSTM构成，而每个LSTM由存储单元、输入门、输出门和遗忘门构成，可以捕获长距离的序列信息。因此，BiLSTM可以向前和向后传递信息，用来捕获过去和未来的上下文信息。

另一种可行的实现方式中，根据特征向量序列，通过包含注意力机制的BiLSTM网络提取对应的文字特征，并对文字特征进行编码。

本申请实施例在BiLSTM结构基础上创造性地引入注意力机制，获得的全局权重信息和BiLSTM编码过程中的短距离局部相关性之后，可提升整行识别的准确率。

本申请实施例中，对于步骤S1042提供了一种可能的实现方式，具体而言，基于预定领域专业词典的CTC解码可以采用束搜索(Word Beam Search)、最佳路径解码(bestpath decoding)、集束搜索(beam search)、语言模型(language model)等方式。

本申请实施例中，以基于预定领域专业词典的束搜索的解码方式为例进行介绍。其中，可以基于预定领域专业词典离线构建前缀树(Trie)，在线进行解码。

其中，束搜索会采用宽度优先搜索来构建它的搜索树。在搜索树的每一层，都会生成一系列的解。需要对这些解进行排序，并与预定领域专业词典进行匹配，选择最好的K个解作为候选解，K又称为集束宽度，本领域技术人员可以根据实际情况进行设置，本申请实施例在此不做限定。这样，便可预测出预定领域专业词典中的词或任意长度的字符串。

本申请实施例提供的识别网络，采用包含注意力机制的BiLSTM网络提取对应的文字特征并编码，能够结合上下文，将文本整体进行识别，与传统识别方式中进行单字分割再独立处理每个符号相比，会更稳定且更有帮助，也能有效避免中文的误分割与误识别，克服了上述现有技术中的技术问题：缺点1-3和缺点1-4，使得图像的识别更加准确。

进一步结合基于预定领域专业词典的解码方式，能够大幅提高对专业术语的识别。克服了上述现有技术中的技术问题：缺点2-3，使得图像识别的准确率得到进一步提升。

本申请实施例中，由上文可知，可以将本申请实施例提供的技术方案应用于医疗健康场景，例如可以具体用于用户使用预约业务的场景，如图6所示，通过OCR检测并识别这些照片中的文字及其位置，并将OCR结果通过结构化送入相应医院AI(ArtificialIntelligence，人工智能)引擎，从而准确地推荐给医院相应科室进行处理。

具体地，图7所示，医院从预约的号源池中分配一定比例的号源用来做精准预约，在患者预约挂号时，让患者上传病历资料，通过AI精准筛选，把合适的医生匹配给合适的患者，从而提高门诊匹配效率。精准预约步骤如下：

(1)分配精准预约号源；

(2)病历收集；

(3)病历识别：通过OCR技术识别病历资料信息，并格式化数据；

(4)AI筛选患者；

(5)在线提交预约挂号。

其中，第(3)步的OCR过程即为本申请的上述各实施例所保护的技术方案，是精准预约场景中的关键基础能力。

那么对于该业务场景，在模型的训练阶段，可以基于大规模医疗专业标注数据对模型进行由易到难的分步训练。

在训练数据准备过程中，在业务场景中搜索真实数据，并由人工标注以及进行二次校验，保证训练数据和测试数据为独立同分布(i.i.d.，independent and identicallydistributed)。

在检测模型的训练中，pixel部分的目标函数为交叉熵loss，link部分的目标函数为基于类别平衡的交叉熵loss。

在识别模型的训练中，目标函数为CTC loss，可有效计算不定长度序列对groundtruth(正确标记的数据)基于条件概率的误差。

采用本申请实施例提供的图像的文字识别方法，能够有效提升医疗临床病历照片的文字识别准确率和召回率，并提高后续OCR结果结构化的准确率。

本领域技术人员应能理解，上述业务场景仅为举例，可以基于该范例进行的适当变化以用于其他场景，也可以属于本申请的精神或范畴。

本申请实施例还提供了一种图像的文字识别装置，如图8所示，该文字识别装置80可以包括：预测模块801、提取模块802、确定模块803和识别模块804，其中，

预测模块801用于对待处理图像进行多尺度检测，得到像素级热力图；

提取模块802用于基于像素级热力图进行实例分割，提取出待处理图像对应的各个文本框信息；

确定模块803用于根据各个文本框信息，在待处理图像中确定出与各个文本框信息分别对应的文本框图像；

识别模块804用于对各个文本框图像进行识别，得到分别对应的文字识别结果。

在一种可选的实现方式中，预测模块801具体用于将对待处理图像缩放为多种预设尺度的图像；对多种预设尺度的图像分别进行多尺度检测，得到多种预设尺度的像素级热力图。

在一种可选的实现方式中，预测模块801具体用于对任一种预设尺度的图像提取多个尺度层的特征图；将多个尺度层的特征图进行融合，得到融合后的特征图；将融合后的特征图进行分类，得到任一种预设尺度的像素级热力图。

在一种可选的实现方式中，像素级热力图包含每个像素点的两种通道信息，任一像素点的两种通道信息包括：

像素通道信息，用于表征任一像素点是否为文字；

连通通道信息，用于表征任一像素点与周围预定数量的像素点是否连通。

在一种可选的实现方式中，提取模块802具体用于将多种预设尺度的像素级热力图的尺度均调整至多种预设尺度中的最大尺度；分别确定调整后的各个像素级热力图的同一像素点的平均值，得到各个像素点为平均值的平均像素级热力图；基于平均像素级热力图进行实例分割，提取出待处理图像对应的各个文本框信息。

在一种可选的实现方式中，提取模块802具体用于将平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点；根据文本像素点的连通通道信息，确定对应的文本连通域；根据各个文本连通域，提取出对应的待处理图像中的各个文本框信息。

在一种可选的实现方式中，文本框信息包括文本框在待处理图像中的坐标信息；

确定模块803具体用于根据各个文本框在待处理图像中的坐标信息，从待处理图像中确定出与各个文本框信息分别对应的文本框图像。

在一种可选的实现方式中，识别模块804具体用于提取任一文本框图像的文字特征，并对文字特征进行编码；基于预定领域专业词典对编码后的文字特征进行解码，得到对应的文字识别结果。

在一种可选的实现方式中，识别模块804具体用于确定任一文本框图像的特征向量序列；根据特征向量序列，提取对应的文字特征。

在一种可选的实现方式中，识别模块804具体用于提取任一文本框图像的语义特征；将语义特征转换为特征向量序列。

在一种可选的实现方式中，识别模块804具体用于以下任一项：

根据特征向量序列，通过深度双向循环神经网络提取对应的文字特征，并对文字特征进行编码；

根据特征向量序列，通过包含注意力机制的深度双向循环神经网络提取对应的文字特征，并对文字特征进行编码。

本申请实施例提供的图像的文字识别装置，采用基于像素级别的预测和实例分割，可以不依赖于预设的小框，而在待处理图像中分割出各种角度以及各种弯曲形状的文本，进而将各类文本提取出来用于识别，能够有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰，再通过将文本框图像中的文本整体进行识别，避免了单字分割可能会引起的识别错误，显著提升图像的文字识别的准确率和召回率。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的图像的文字识别装置，其实现原理及产生的技术效果和前述方法实施例相同，为描述的方便和简洁，装置实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述方法实施例中相应内容。

可选地，电子设备还可以包括收发器。处理器和收发器相连，如通过总线相连。需要说明的是，实际应用中收发器不限于一个，该电子设备的结构并不构成对本申请实施例的限定。

其中，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本申请实施例提供的电子设备，采用基于像素级别的预测和实例分割，可以不依赖于预设的小框，而在待处理图像中分割出各种角度以及各种弯曲形状的文本，进而将各类文本提取出来用于识别，能够有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰，再通过将文本框图像中的文本整体进行识别，避免了单字分割可能会引起的识别错误，显著提升图像的文字识别的准确率和召回率。

本申请实施例还提供了一种可读存储介质，例如为计算机可读存储介质，该计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像的文字识别方法，其特征在于，包括：

对待处理图像进行多尺度检测，得到像素级热力图；

2.根据权利要求1所述的文字识别方法，其特征在于，所述对待处理图像进行多尺度检测，得到像素级热力图，包括：

将所述对待处理图像缩放为多种预设尺度的图像；

3.根据权利要求2所述的文字识别方法，其特征在于，对任一种预设尺度的图像进行多尺度检测，得到所述任一种预设尺度的像素级热力图，包括：

对所述任一种预设尺度的图像提取多个尺度层的特征图；

4.根据权利要求1-3任一项所述的文字识别方法，其特征在于，所述像素级热力图包含每个像素点的两种通道信息，任一像素点的两种通道信息包括：

像素通道信息，用于表征所述任一像素点是否为文字；

5.根据权利要求2-4所述的文字识别方法，其特征在于，基于所述像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息，包括：

6.根据权利要求5所述的文字识别方法，其特征在于，所述基于所述平均像素级热力图进行实例分割，提取出所述待处理图像对应的各个文本框信息，包括：

7.根据权利要求1-6任一项所述的文字识别方法，其特征在于，所述文本框信息包括文本框在所述待处理图像中的坐标信息；

8.根据权利要求1-7任一项所述的文字识别方法，其特征在于对任一文本框图像进行识别，得到对应的文字识别结果，包括：

9.根据权利要求8所述的文字识别方法，其特征在于，所述提取所述任一文本框图像的文字特征，包括：

确定所述任一文本框图像的特征向量序列；

根据所述特征向量序列，提取对应的文字特征。

10.根据权利要求9所述的文字识别方法，其特征在于，所述确定所述任一文本框图像的特征向量序列，包括：

提取所述任一文本框图像的语义特征；

将所述语义特征转换为特征向量序列。

11.根据权利要求9所述的文字识别方法，其特征在于，所述根据所述特征向量序列，提取对应的文字特征，并对所述文字特征进行编码，包括以下任一项：

12.一种图像的文字识别装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：处理器和存储器，

所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-11任一项所述的文字识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行如权利要求1-11任一项所述的文字识别方法。