CN114037826A

CN114037826A - 基于多尺度增强特征的文本识别方法、装置、设备及介质

Info

Publication number: CN114037826A
Application number: CN202111355984.1A
Authority: CN
Inventors: 陈昊
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-11

Abstract

本发明公开了基于多尺度增强特征的文本识别方法、装置、设备及介质，方法包括：对所输入的初始图像进行卷积融合处理得到融合特征图并从中截取多种尺度分别对应的基础区域特征，对每一基础区域特征进行分类预测得到对应的分类预测得分，根据分类预测得分对基础区域特征进行筛选得到关键基础区域特征，并根据关键基础区域特征从融合特征图中提取得到对应的特征描述符后输入文本识别模型，以识别得到文本识别信息。本发明属于文本识别技术领域，基于关键基础区域特征的尺度进行关联放大以从融合特征图中获取包含关联区域特征的特征描述符，可从初始图像中获取对应的上下文语义信息及前后字符信息的关联特征，大幅提高了对文本信息进行识别的可靠性。

Description

基于多尺度增强特征的文本识别方法、装置、设备及介质

技术领域

本发明涉及文本识别技术领域，属于智慧城市中对图像中所包含的文本信息进行智能识别的应用场景，尤其涉及一种基于多尺度增强特征的文本识别方法、装置、设备及介质。

背景技术

OCR技术(Optical Character Recognition，光学字符识别)是一种通过对图像中信息进行智能化处理以从中识别出文本信息的技术方法，在发票识别、合同文件识别等众多场景中得到了广泛应用。传统识别方法均是从输入的图像中截取字符，并对字符对应的区域图像进行识别，从而获取其中的文本信息，然而这一技术方法仅是对单个字符进行单独识别然后拼接为对应的一段文本信息，在对字符进行单独识别时缺乏上下文语义信息及前后字符信息等与字符相关联的其他特征信息，导致识别得到的文本信息存在前后语义相斥、语义不通顺、语义脱离真实语境等诸多问题，影响了从图像中获取文本信息的准确性，导致对图像进行识别的可靠性无法满足实际需求。因此，现有对图像中文本信息进行识别的技术方法存在识别可靠性不高的问题。

发明内容

本发明实施例提供了一种基于多尺度增强特征的文本识别方法、装置、设备及介质，旨在解决现有技术对图像中文本信息进行识别的技术方法所存在的识别可靠性不高的问题。

第一方面，本发明实施例提供了一种基于多尺度增强特征的文本识别方法，方法包括：

若接收到所输入的初始图像，根据预置的卷积处理模型对所述初始图像进行卷积融合处理得到对应的融合特征图；

根据预置的尺度信息中所包含的多种尺度，从所述融合特征图中截取与每一种所述尺度分别对应的基础区域特征；

根据预置的文本预测模型对每一所述尺度对应的基础区域特征进行分类预测，以得到每一所述基础区域特征对应的分类预测得分；

根据预置的关键特征筛选规则及所述分类预测得分对所述基础区域特征进行筛选，以筛选得到关键基础区域特征；

根据预存的特征描述提取规则及所述关键基础区域特征从所述融合特征图中提取与所述关键基础区域特征对应的特征描述符；

将所述特征描述符输入预置的文本识别模型进行识别，以得到对应的文本识别信息。

第二方面，本发明实施例提供了一种基于多尺度增强特征的文本识别装置，其包括：

融合特征图获取单元，用于若接收到所输入的初始图像，根据预置的卷积处理模型对所述初始图像进行卷积融合处理得到对应的融合特征图；

基础区域特征获取单元，用于根据预置的尺度信息中所包含的多种尺度，从所述融合特征图中截取与每一种所述尺度分别对应的基础区域特征；

分类预测得分获取单元，用于根据预置的文本预测模型对每一所述尺度对应的基础区域特征进行分类预测，以得到每一所述基础区域特征对应的分类预测得分；

基础区域特征筛选单元，用于根据预置的关键特征筛选规则及所述分类预测得分对所述基础区域特征进行筛选，以筛选得到关键基础区域特征；

特征描述符获取单元，用于根据预存的特征描述提取规则及所述关键基础区域特征从所述融合特征图中提取与所述关键基础区域特征对应的特征描述符；

文本识别信息获取单元，用于将所述特征描述符输入预置的文本识别模型进行识别，以得到对应的文本识别信息。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于多尺度增强特征的文本识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于多尺度增强特征的文本识别方法。

本发明实施例提供了一种基于多尺度增强特征的文本识别方法、装置、设备及介质。对所输入的初始图像进行卷积融合处理得到融合特征图并从中截取多种尺度分别对应的基础区域特征，对每一基础区域特征进行分类预测得到对应的分类预测得分，根据分类预测得分对基础区域特征进行筛选得到关键基础区域特征，并根据关键基础区域特征从融合特征图中提取得到对应的特征描述符后输入文本识别模型，以识别得到对应的文本识别信息。通过上述方法，基于关键基础区域特征的尺度进行关联放大以从融合特征图中获取包含关联区域特征的特征描述符，可从初始图像中获取对应的上下文语义信息及前后字符信息的关联特征，大幅提高了对文本信息进行识别的可靠性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于多尺度增强特征的文本识别方法的流程示意图；

图2为本发明实施例提供的基于多尺度增强特征的文本识别方法的子流程示意图；

图3为本发明实施例提供的基于多尺度增强特征的文本识别方法的另一子流程示意图；

图4为本发明实施例提供的基于多尺度增强特征的文本识别方法的另一子流程示意图；

图5为本发明实施例提供的基于多尺度增强特征的文本识别方法的另一子流程示意图；

图6为本发明实施例提供的基于多尺度增强特征的文本识别方法的另一子流程示意图；

图7为本发明实施例提供的基于多尺度增强特征的文本识别方法的另一流程示意图；

图8为本发明实施例提供的基于多尺度增强特征的文本识别装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于多尺度增强特征的文本识别方法的流程示意图；该基于多尺度增强特征的文本识别方法应用于管理服务器或终端设备中，该基于多尺度增强特征的文本识别方法通过安装于管理服务器或终端设备中的应用软件进行执行，管理服务器即是用于执行基于多尺度增强特征的文本识别方法以对来自客户端的初始图像进行识别以获取文本识别信息的服务器端，如企业或政府机构内配置的服务器端，终端设备即是用于执行基于多尺度增强特征的文本识别方法以对用户输入的初始图像进行识别以获取文本识别信息的终端设备，如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示，该方法包括步骤S110～S160。

S110、若接收到所输入的初始图像，根据预置的卷积处理模型对所述初始图像进行卷积融合处理得到对应的融合特征图。

可输入初始图像至管理服务器或终端设备，初始图像即为包含文字片段的图像，初始图像中可包含至少一个文本语句，可采用卷积处理模型对初始图像进行卷积融合处理，得到融合特征图，融合特征图即可用于对卷积处理模型中多个卷积层进行卷积处理的特征进行融合表征。

在一实施例中，如图2所示，步骤S110包括子步骤S111、S112和S113。

S111、根据所述卷积处理模型对所述初始图像进行卷积处理，并获取所述卷积处理模型中多个卷积层分别对应的特征图。

卷积处理模型中可包含多个卷积层，多个卷积层进行串联设置，卷积层可用于对图像中所包含像素点的像素值进行卷积处理，上一卷积层对图像进行卷积处理所得到的卷积结果可作为输入信息输入至下一卷积层进行卷积处理。具体的，可获取卷积处理模型中后几个卷积层对初始图像进行卷积处理所得到的特征图，特征图即为卷积层进行卷积处理所得到的卷积结果，特征图由包含多个卷积值组成的三维数组组成，则每一卷积层可对应一个特征图。

例如，某一卷积处理模型共包含6个卷积层，在通过卷积处理模型对初始图像进行卷积处理后，可依次获取第四、第五、第六这三个卷积层分别对应的特征图。

S112、根据预存的分辨率信息对所述多个卷积层对应的特征图分别进行缩放处理，得到与所述分辨率信息相匹配的多个缩放特征图。

基于卷积层对图像进行卷积处理的过程中会对图像进行上采样，也即会导致所得到的特征图尺寸小于输入的图像，则由于不同卷积层对应的特征图尺寸不相同，为实现对不同卷积层的特征图进行融合，需要对各卷积层的特征图分别进行缩放处理。具体的，可根据分辨率信息对特征图进行缩放处理，以使进行缩放处理后所得到的缩放特征图与分辨率信息相匹配，则对特征图分别进行缩放处理后所得到的缩放特征图的尺寸相等。

例如，第四卷积层对应的特征图尺寸为512×14×14，第五卷积层对应的特征图尺寸为512×7×7，第六卷积层对应的特征图尺寸为512×4×4，分辨率信息为7×7，则可对第四卷积层的特征图中512个通道(长32×宽16)分别对应的二维矩阵进行下采样处理(缩小处理)，得到尺寸为512×7×7的缩放特征图；对第五卷积层的特征图不进行处理直接作为缩放特征图进行使用，对第六卷积层的特征图进行上采样处理(放大处理)，得到尺寸为512×7×7的缩放特征图。

S113、对所述多个缩放特征图进行特征融合以得到对应的融合特征图。

对多个缩放特征图进行特征融合，即可得到一个融合特征图，则融合特征图中包含多个缩放特征图的特征信息。具体的，可对多个缩放特征图中同一位置的卷积值进行平均计算得到卷积平均值，获取每一位置对应的卷积平均值进行组合即可得到融合特征图。

S120、根据预置的尺度信息中所包含的多种尺度，从所述融合特征图中截取与每一种所述尺度分别对应的基础区域特征。

尺度信息中包含一组像素尺寸及一组长宽比，像素尺寸与长宽比进行组合构成一种尺度，则可根据多种尺度从融合特征图中截取得到与每一尺度分别对应的基础区域特征。

在一实施例中，如图3所示，步骤S120包括子步骤S121和S122。

S121、对所述尺度信息中包含的多种像素尺寸及多种长宽比进行配对组合，以确定所述尺度信息中包含的多种尺度。

尺度信息中包含多种像素尺寸及多种长宽比，对其中一种像素尺寸与其他每一长宽比分别进行配对组合，即可将组合信息确定为对应的多种尺度，则尺度信息中所包含尺度的数量即为像素尺寸数量与长宽比数量的乘积。

例如，尺度信息中包含的一组像素尺寸为{2,4,6,8}，一组长宽比为{1/1，2/1,1/2}，则像素尺寸4与长宽比1/2进行配对组合即可得到一种尺度，该尺度截取的长度为4通道，宽度为2通道，进行配对组合可形成12种尺度。

S122、从所述融合特征图中截取与每一所述尺度分别对应的基础区域特征。

以融合特征图中心点为基准，分别根据每一尺度从中截取得到对应的一组基础区域特征，则获取到的基础区域特征的数量与尺度信息中所包含尺度的数量相等。

S130、根据预置的文本预测模型对每一所述尺度对应的基础区域特征进行分类预测，以得到每一所述基础区域特征对应的分类预测得分。

文本预测模型即为对基础区域特征所包含的内容是否为文本信息进行预测的模型，文本预测模型可以是基于神经网络构建的智能预测模型，通过文本预测模型可对每一尺度的基础区域特征进行分类预测，从而得到每一基础区域特征对应的分类预测得分，分类预测得分越高则表明基础区域特征对应的图像信息为文本信息的概率越高，分类预测得分越低则表明为文本信息的概率越低。

在一实施例中，如图4所示，步骤S130包括子步骤S131和S132。

S131、将每一所述基础区域特征分别输入至所述文本预测模型，以通过所述文本预测模型中节点之间的关联公式分别对每一所述基础区域特征进行关联计算；S132、从所述文本预测模型的输出层中分别获取与每一所述基础区域特征对应的分类预测得分。

文本预测模型中包含一个输入层、多个中间层及一个输出层，其中，输入层与首个中间层之间、中间层与前后相邻其他中间层之间、末尾中间层与输出层之间均通过关联公式进行关联连接，关联公式均可采用一次函数进行表示。输入层可用于对一组基础区域特征进行输入，输入层中包含多个输入节点，每一输入节点即可用于对基础区域特征中一个特征值进行输入，中间层用于对由输入层所输入的多个特征值进行关联计算并由输出层输出对应的分类预测得分，输入层用于输出对应的分类预测得分，输出层中包含一个输出节点，输出节点的输出节点值即为分类预测得分，分类预测得分的取值范围为[0,1]。

S140、根据预置的关键特征筛选规则及所述分类预测得分对所述基础区域特征进行筛选，以筛选得到关键基础区域特征。

由于多个基础区域特征中包含重复覆盖初始图像的特征，为了从多个基础区域特征中获取仅用于准确表征初始图像中部分区域文本信息的特征，可根据关键特征筛选规则对基础区域特征进行筛选，从而获取关键基础区域特征，通过对基础区域特征进行筛选也能够减小后续进行计算处理的计算量。其中，所述关键特征筛选规则包括重叠度计算公式及重叠度阈值。

在一实施例中，如图5所示，步骤S140包括子步骤S141、S142、S143、S144、S145、S146和S147。

S141、根据所述分类预测得分由低到高对所述基础区域特征进行排序得到初始特征排序信息。

首先根据每一基础区域特征的分类得分对基础区域特征进行排序，则得分较低的基础区域特征在初始特征排序信息中排序靠前，得分较高的基础区域特征的排序靠后。

S142、根据所述重叠度计算公式分别计算所述初始特征排序信息中每一基础区域特征与末尾基础区域特征之间的重叠度。

重叠度计算公式即可用于对两个基础区域特征之间的重叠度进行计算，则根据重叠度计算公式分别计算除末尾基础区域特征之外的其它基础区域特征与末尾基础区域特征之间的重叠度。具体的，重叠度计算公式可采用公式(1)进行表示：

其中，s为当前的初始特征排序信息中第s个基础区域特征，m为初始特征排序信息所包含基础区域特征的总数，s∈[1，m-1]。Cs即表示第s个基础区域特征与末尾基础区域特征之间交集与并集的比值。

S143、将所述末尾基础区域特征确定为关键区域特征；S144、判断每一所述基础区域特征对应的重叠度是否不小于所述重叠度阈值，以根据判断结果从所述初始特征排序信息中筛除重叠度小于所述重叠度阈值的基础区域特征，得到特征排序更新信息。

将当前的初始特征排序信息中的一个末尾基础区域特征确定为关键区域特征。判断处末尾基础区域特征之外其它基础区域特征的重叠度是否不小于重叠度阈值，若不小于，则保留该基础区域特征，若小于，则从当前的初始特征排序信息中筛除该基础区域特征，通过这一筛除方法即可对当前的初始特征排序信息所包含的基础区域特征进行更新，并得到特征排序更新信息。

S145、判断所述特征排序更新信息是否为空；S146、若所述特征排序更新信息不为空，将所述特征排序更新信息确定为初始特征排序信息并返回执行所述根据所述重叠度计算公式分别计算每一基础区域特征与末尾基础区域特征之间的重叠度的步骤；S147、若所述特征排序更新信息为空，终止对所述基础区域特征进行筛选的流程并输出所述关键区域特征。

判断更新后所得到的特征排序更新信息是否为空，也即是判断特征排序更新信息中是否还包含基础区域特征，若特征排序更新信息为空，则终止上述对基础区域特征进行筛选的流程，并将当前获取到的关键区域特征进行输出；若特征排序更新信息不为空，则将特征排序更新信息作为初始排序更新信息，并返回执行上述步骤S142。通过上述方式可筛选得到至少一个关键区域特征。

S150、根据预存的特征描述提取规则及所述关键基础区域特征从所述融合特征图中提取与所述关键基础区域特征对应的特征描述符。

根据特征描述提取规则及筛选得到的关键基础区域特征，可进一步从融合特征图中提取得到与关键基础区域特征对应的特征描述符，则特征描述符可用于对初始图像中部分区域文本信息的综合特征进行表征。特征描述提取规则即为预存的用于从融合特征图中提取特征描述符的具体规则，其中，所述特征描述提取规则包括关联放大系数及标准描述尺度。

在一实施例中，如图6所示，步骤S150包括子步骤S151、S152和S153。

S151、根据所述关键基础区域特征对应的尺度及所述关联放大系数从所述融合特征图中截取与每一所述关键基础区域特征分别对应的关联区域特征。

关键基础区域特征用于对初始图像中部分区域文本信息的基础特征进行表征，为从初始图像中获取与上述部分区域文本信息相关联的其他文本特征，可基于关键基础区域特征的尺度与关联放大系数对关键基础区域特征的特征提取区域进行关联放大，并通过对特征提取区域进行关联放大后的提取区域从融合特征图中截取对应的关联区域特征，则关联区域特征可用于对初始图像中部分区域文本信息的关联特征进行表征，则关联区域特征中包含与初始图像中部分区域文本信息对应的上下文语义信息及前后字符信息等关联特征。

例如，关键基础区域特征的尺度对应特征提取区域的通道数为F，关联放大系数为1.5，则得到的关联区域特征对应的提取区域所包含通道数为1.5×F。

S152、根据所述标准描述尺度对每一所述关键基础区域特征及对应的关联区域特征分别进行特征提取，得到与每一所述关键基础区域特征对应的基础特征描述符及关联特征描述符。

为使提取得到的特征与后续文本识别模型中的输入层相匹配，可通过标准描述尺度从关键基础区域特征中提取得到基础特征描述符，并通过标准描述尺度从与关键基础区域特征对应的关联区域特征中提取得到对应的关联特征描述符。进行特征提取的过程可以是卷积运算过程，所得到的基础特征描述符及关联特征描述符的大小可以是7×7×512。

S153、对每一所述关键基础区域特征对应的基础特征描述符及关联特征描述符进行整合处理，以整合得到与每一所述关键基础区域特征对应的特征描述符。

对每一关键基础区域特征的基础特征描述符及对应的关联特征描述符进行整合处理，也即是对基础特征描述符及关联特征描述符中在同一位置对应的特征值进行整合处理；对每一关键基础区域特征对应的基础特征描述符及关联特征描述符进行整合处理，即可得到对应的一个特征描述符。

S160、将所述特征描述符输入预置的文本识别模型进行识别，以得到对应的文本识别信息。

将所得到的特征描述符输入文本识别模型进行识别，即可得到与特征描述符对应的文本识别信息，具体的，文本识别模型可以是基于神经网络所构建的智能识别模型，文本识别模型可由两个全连接层组合而成。所得到的文本识别信息即为初始图像中部分区域(如初始图像中央部分区域)所对应的文本信息。在一实施例中，如图7所示，步骤S130之前还包括步骤S1301。

S1301、根据预存的训练数据集及预置的训练规则同时对初始文本预测模型及初始文本识别模型进行迭代训练，以得到训练后的文本预测模型及训练后的文本识别模型。

在使用文本预测模型及文本识别模型之前，还可同时对两个模型进行迭代训练，从而得到训练后的文本预测模型及训练后的文本识别模型，对模型进行训练可大幅提高后续进行文本识别的准确性。训练数据集即为包含多个训练特征图的集合，每一训练特征图可用于对两个模型进行一次训练，则训练数据集中所包含的多个训练特征图可对两个模型进行多次迭代训练，训练规则即为进行迭代训练的具体规则信息，对模型进行训练即为对模型中所配置的参数值进行更新调整。

(1)根据所述尺度信息中所包含的多种尺度，从所述训练数据集中的一张训练特征图中截取与每一种所述尺度分别对应的训练基础区域特征；(2)根据所述文本预测模型对每一所述尺度对应的训练基础区域特征进行分类预测，以得到每一所述训练基础区域特征对应的分类预测得分；(3)根据所述关键特征筛选规则及所述分类预测得分对所述训练基础区域特征进行筛选，以筛选得到关键训练基础区域特征。

上述处理过程与对融合特征图进行处理的具体过程相同，在此不作赘述。

(4)根据所述关键特征筛选规则中的重叠度计算公式计算所述关键训练基础区域特征的截取区域与所述训练特征图的目标特征区域之间的重叠度；

关键训练基础区域特征的截取区域即为基于关键训练基础区域特征的尺度所对应得到的区域位置信息，训练数据集中每一训练特征图还配置有对应的一个目标特征区域，目标特征区域即为训练特征图中所需进行文本识别的目标区域信息，则可基于上述重叠度计算公式计算每一关键训练基础区域特征的截取区域与目标特征区域之间的重叠度，重叠度即为任意一个截取区域与目标特征区域之间交集与并集的比值。

(5)根据所述训练规则中的样本标签添加规则及所述关键训练基础区域特征的重叠度对所述关键训练基础区域特征添加样本标签；

根据样本标签规则及关键训练基础区域特征的重叠度对关键训练基础区域特征添加样本标签，具体的，样本标签添加规则包括重叠度区间及对应的标签，如重叠度区间[0.7,1]对应的标签为正样本标签，重叠度区间[0,0.3]对应的标签为负样本标签，则可根据关键训练基础区域特征的重叠度所落入的重叠度区间，获取与关键训练基础区域特征相匹配的一个标签作为对应的样本标签进行添加，若重叠度未落入任意一个重叠度区间，则无需为该关键训练基础区域特征添加样本标签。

(6)根据所述特征描述提取规则及所述关键训练基础区域特征从所述训练特征图中提取与所述关键基础区域特征对应的训练特征描述符；(7)将所述训练特征描述符输入所述文本识别模型进行识别，以得到对应的训练文本识别信息；

提取得到训练特征描述符的具体过程与提取得到特征描述符的具体过程，以及通过文本识别模型对训练特征描述符进行文本识别的具体过程与对特征描述符进行识别的具体过程均相同，在此不作赘述。

(8)根据所述训练规则中的损失函数计算公式计算所述训练特征图的训练文本识别信息、样本标签、分类预测得分与所述训练特征图的目标文本识别信息之间的损失值；

训练规则中还包括损失函数计算公式，可根据该损失函数计算公式对一张训练特征图对应的训练文本识别信息、样本标签、分类预测得分与该训练特征图的目标文本识别信息进行计算，以获取对应的损失值，训练数据集中每一训练特征图还配置有对应的目标文本识别信息，目标文本识别信息可以是对训练特征图对应的训练图像中目标区域进行人工识别所得到的文本信息。

具体的，损失函数计算公式可采用公式(2)进行表示：

其中，N_c为训练特征图对应的关键训练基础区域特征的总数，

为训练特征图中第i个关键训练基础区域特征对应的分类预测得分，i∈[1,N_c]，p_i为其中第i个关键训练基础区域特征的样本标签对应的标签转换值(正样本标签对应的标签转换值为1，负样本标签的标签转换值为0)，t₀为目标文本识别信息中包含的字符总数，

为其中i个关键训练基础区域特征对应的训练文本识别信息中命中字符数量(与训练文本识别信息中与目标文本识别信息相同的字符数量)，R和λ为公式中预置的参数值。

此外，还可对所得到上述得到的损失值进行归一化处理，并基于归一化处理后得到的归一化损失值对模型中的参数值进行调整，归一化处理的计算公式可采用公式(3)进行表示：

其中，x为输入上述计算公式的参数值，如对上述损失值进行归一化处理，则输入公式中的x即为L({p_i}，{t_i})，smooth_L(x)即为计算得到的归一化损失值。

(9)根据所述损失值同时对所述初始文本预测模型及所述初始文本识别模型中包含的参数值进行反向传播更新，以进行迭代训练得到训练后的文本预测模型及训练后的文本识别模型；

可根据损失值同时对初始文本预测模型及初始文本识别模型中所包含的参数值进行更新，具体可采用方向传播更新方式，反向传播更新也即是基于梯度下降基本原则对模型中参数值进行更新的处理方式，对初始文本识别模型及初始文本预测模型中参数值进行一次更新也即完成一次训练过程，则可通过训练数据集中多张训练特征图对两个模型中包含的参数值进行多次迭代更新，从而实现对模型进行迭代训练。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等对图像中所包含的文本信息进行智能识别的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的基于多尺度增强特征的文本识别方法中，对所输入的初始图像进行卷积融合处理得到融合特征图并从中截取多种尺度分别对应的基础区域特征，对每一基础区域特征进行分类预测得到对应的分类预测得分，根据分类预测得分对基础区域特征进行筛选得到关键基础区域特征，并根据关键基础区域特征从融合特征图中提取得到对应的特征描述符后输入文本识别模型，以识别得到对应的文本识别信息。通过上述方法，基于关键基础区域特征的尺度进行关联放大以从融合特征图中获取包含关联区域特征的特征描述符，可从初始图像中获取对应的上下文语义信息及前后字符信息的关联特征，大幅提高了对文本信息进行识别的可靠性。

本发明实施例还提供一种基于多尺度增强特征的文本识别装置，该基于多尺度增强特征的文本识别装置可配置于管理服务器或终端设备中，该基于多尺度增强特征的文本识别装置用于执行前述的基于多尺度增强特征的文本识别方法的任一实施例。具体地，请参阅图8，图8为本发明实施例提供的基于多尺度增强特征的文本识别装置的示意性框图。

如图8所示，基于多尺度增强特征的文本识别装置100包括消融合特征图获取单元110、基础区域特征获取单元120、分类预测得分获取单元130、基础区域特征筛选单元140、特征描述符获取单元150和文本识别信息获取单元160。

融合特征图获取单元110，用于若接收到所输入的初始图像，根据预置的卷积处理模型对所述初始图像进行卷积融合处理得到对应的融合特征图。

在一具体实施例中，所述融合特征图获取单元110包括子单元：特征图获取单元，用于根据所述卷积处理模型对所述初始图像进行卷积处理，并获取所述卷积处理模型中多个卷积层分别对应的特征图；缩放特征图获取单元，用于根据预存的分辨率信息对所述多个卷积层对应的特征图分别进行缩放处理，得到与所述分辨率信息相匹配的多个缩放特征图；特征图融合单元，用于对所述多个缩放特征图进行特征融合以得到对应的融合特征图。

基础区域特征获取单元120，用于根据预置的尺度信息中所包含的多种尺度，从所述融合特征图中截取与每一种所述尺度分别对应的基础区域特征。

在一具体实施例中，所述基础区域特征获取单元120包括子单元：尺度确定单元，用于对所述尺度信息中包含的多种像素尺寸及多种长宽比进行配对组合，以确定所述尺度信息中包含的多种尺度；区域特征获取单元，用于从所述融合特征图中截取与每一所述尺度分别对应的基础区域特征。

分类预测得分获取单元130，用于根据预置的文本预测模型对每一所述尺度对应的基础区域特征进行分类预测，以得到每一所述基础区域特征对应的分类预测得分。

在一具体实施例中，所述分类预测得分获取单元130包括子单元：关联计算单元，用于将每一所述基础区域特征分别输入至所述文本预测模型，以通过所述文本预测模型中节点之间的关联公式分别对每一所述基础区域特征进行关联计算；预测得分获取单元，用于从所述文本预测模型的输出层中分别获取与每一所述基础区域特征对应的分类预测得分。

基础区域特征筛选单元140，用于根据预置的关键特征筛选规则及所述分类预测得分对所述基础区域特征进行筛选，以筛选得到关键基础区域特征。

在一具体实施例中，所述基础区域特征筛选单元140包括子单元：排序信息获取单元，用于根据所述分类预测得分由低到高对所述基础区域特征进行排序得到初始特征排序信息；重叠度计算单元，用于根据所述重叠度计算公式分别计算所述初始特征排序信息中每一基础区域特征与末尾基础区域特征之间的重叠度；关联区域特征确定单元，用于将所述末尾基础区域特征确定为关键区域特征；特征排序更新信息获取单元，用于判断每一所述基础区域特征对应的重叠度是否不小于所述重叠度阈值，以根据判断结果从所述初始特征排序信息中筛除重叠度小于所述重叠度阈值的基础区域特征，得到特征排序更新信息；判断单元，用于判断所述特征排序更新信息是否为空；返回执行单元，用于若所述特征排序更新信息不为空，将所述特征排序更新信息确定为初始特征排序信息并返回执行所述根据所述重叠度计算公式分别计算每一基础区域特征与末尾基础区域特征之间的重叠度的步骤；关键区域特征输出单元，用于若所述特征排序更新信息为空，终止对所述基础区域特征进行筛选的流程并输出所述关键区域特征。

特征描述符获取单元150，用于根据预存的特征描述提取规则及所述关键基础区域特征从所述融合特征图中提取与所述关键基础区域特征对应的特征描述符。

在一具体实施例中，所述特征描述符获取单元150包括子单元：关联区域特征获取单元，用于根据所述关键基础区域特征对应的尺度及所述关联放大系数从所述融合特征图中截取与每一所述关键基础区域特征分别对应的关联区域特征；描述符提取单元，用于根据所述标准描述尺度对每一所述关键基础区域特征及对应的关联区域特征分别进行特征提取，得到与每一所述关键基础区域特征对应的基础特征描述符及关联特征描述符；整合处理单元，用于对每一所述关键基础区域特征对应的基础特征描述符及关联特征描述符进行整合处理，以整合得到与每一所述关键基础区域特征对应的特征描述符。

文本识别信息获取单元160，用于将所述特征描述符输入预置的文本识别模型进行识别，以得到对应的文本识别信息。

在一具体实施例中，所述基于多尺度增强特征的文本识别装置100还包括：模型训练单元，用于根据预存的训练数据集及预置的训练规则同时对初始文本预测模型及初始文本识别模型进行迭代训练，以得到训练后的文本预测模型及训练后的文本识别模型。

在本发明实施例所提供的基于多尺度增强特征的文本识别装置应用上述基于多尺度增强特征的文本识别方法，对所输入的初始图像进行卷积融合处理得到融合特征图并从中截取多种尺度分别对应的基础区域特征，对每一基础区域特征进行分类预测得到对应的分类预测得分，根据分类预测得分对基础区域特征进行筛选得到关键基础区域特征，并根据关键基础区域特征从融合特征图中提取得到对应的特征描述符后输入文本识别模型，以识别得到对应的文本识别信息。通过上述方法，基于关键基础区域特征的尺度进行关联放大以从融合特征图中获取包含关联区域特征的特征描述符，可从初始图像中获取对应的上下文语义信息及前后字符信息的关联特征，大幅提高了对文本信息进行识别的可靠性。

上述基于多尺度增强特征的文本识别装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于多尺度增强特征的文本识别方法以对图像中所包含的文本信息进行智能识别的管理服务器或终端设备。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于多尺度增强特征的文本识别方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于多尺度增强特征的文本识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于多尺度增强特征的文本识别方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于多尺度增强特征的文本识别方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多尺度增强特征的文本识别方法，其特征在于，包括：

2.根据权利要求1所述的基于多尺度增强特征的文本识别方法，其特征在于，所述根据预置的卷积处理模型对所述初始图像进行卷积融合处理得到对应的融合特征图，包括：

根据所述卷积处理模型对所述初始图像进行卷积处理，并获取所述卷积处理模型中多个卷积层分别对应的特征图；

根据预存的分辨率信息对所述多个卷积层对应的特征图分别进行缩放处理，得到与所述分辨率信息相匹配的多个缩放特征图；

对所述多个缩放特征图进行特征融合以得到对应的融合特征图。

3.根据权利要求1所述的基于多尺度增强特征的文本识别方法，其特征在于，所述根据预置的尺度信息中所包含的多种尺度，从所述融合特征图中截取与每一种所述尺度分别对应的基础区域特征，包括：

对所述尺度信息中包含的多种像素尺寸及多种长宽比进行配对组合，以确定所述尺度信息中包含的多种尺度；

从所述融合特征图中截取与每一所述尺度分别对应的基础区域特征。

4.根据权利要求1所述的基于多尺度增强特征的文本识别方法，其特征在于，所述根据预置的文本预测模型对每一所述尺度对应的基础区域特征进行分类预测，以得到每一所述基础区域特征对应的分类预测得分，包括：

将每一所述基础区域特征分别输入至所述文本预测模型，以通过所述文本预测模型中节点之间的关联公式分别对每一所述基础区域特征进行关联计算；

从所述文本预测模型的输出层中分别获取与每一所述基础区域特征对应的分类预测得分。

5.根据权利要求1所述的基于多尺度增强特征的文本识别方法，其特征在于，所述关键特征筛选规则包括重叠度计算公式及重叠度阈值，所述根据预置的关键特征筛选规则及所述分类预测得分对所述基础区域特征进行筛选，以筛选得到关键基础区域特征，包括：

根据所述分类预测得分由低到高对所述基础区域特征进行排序得到初始特征排序信息；

根据所述重叠度计算公式分别计算所述初始特征排序信息中每一基础区域特征与末尾基础区域特征之间的重叠度；

将所述末尾基础区域特征确定为关键区域特征；

判断每一所述基础区域特征对应的重叠度是否不小于所述重叠度阈值，以根据判断结果从所述初始特征排序信息中筛除重叠度小于所述重叠度阈值的基础区域特征，得到特征排序更新信息；

判断所述特征排序更新信息是否为空；

若所述特征排序更新信息不为空，将所述特征排序更新信息确定为初始特征排序信息并返回执行所述根据所述重叠度计算公式分别计算每一基础区域特征与末尾基础区域特征之间的重叠度的步骤；

若所述特征排序更新信息为空，终止对所述基础区域特征进行筛选的流程并输出所述关键区域特征。

6.根据权利要求1所述的基于多尺度增强特征的文本识别方法，其特征在于，所述根据预存的特征描述提取规则及所述关键基础区域特征从所述融合特征图中提取与所述关键基础区域特征对应的特征描述符，包括：

根据所述关键基础区域特征对应的尺度及所述关联放大系数从所述融合特征图中截取与每一所述关键基础区域特征分别对应的关联区域特征；

根据所述标准描述尺度对每一所述关键基础区域特征及对应的关联区域特征分别进行特征提取，得到与每一所述关键基础区域特征对应的基础特征描述符及关联特征描述符；

对每一所述关键基础区域特征对应的基础特征描述符及关联特征描述符进行整合处理，以整合得到与每一所述关键基础区域特征对应的特征描述符。

7.根据权利要求1所述的基于多尺度增强特征的文本识别方法，其特征在于，所述根据预置的文本预测模型对每一所述尺度对应的基础区域特征进行分类预测，以得到每一所述基础区域特征对应的分类预测得分之前，还包括：

根据预存的训练数据集及预置的训练规则同时对初始文本预测模型及初始文本识别模型进行迭代训练，以得到训练后的文本预测模型及训练后的文本识别模型。

8.一种基于多尺度增强特征的文本识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于多尺度增强特征的文本识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于多尺度增强特征的文本识别方法。