CN116958981B

CN116958981B - 一种文字识别方法及装置

Info

Publication number: CN116958981B
Application number: CN202310642042.4A
Authority: CN
Inventors: 蔡君; 唐亮; 杨件; 王靖聪
Original assignee: Guangdong Nanfang Network Information Technology Co ltd
Current assignee: Guangdong Nanfang Network Information Technology Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2024-04-30
Anticipated expiration: 2043-05-31
Also published as: CN116958981A

Abstract

本发明公开了一种文字识别方法及装置，包括：将待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字；其中，所述第一检测模型识别待检测图片中的文字，具体为：根据第一生成网络对所述待检测图片进行特征提取操作，获得各卷积层提取的特征样本；并对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框；所述融合操作包括求和操作和拼接操作；根据纵横向预测序列定位所述文本候选框中的曲线文本，并根据多边形处理模型检测所述文本候选框中的重叠框，生成单词级边界框，以识别待检测图片中的文字。

Description

一种文字识别方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文字识别方法及装置。

背景技术

目前，识别电子公文中的文本文字，首先要对对公文中存在的文字进行检测。但是，电子公文中的文字文本包含了多种文字类型，如文本印章中大多数是弯曲的文字内容，在同一页面中的文本文字存在的不同尺寸和大小字体，以及公文图片横幅中的轻度堆叠、形变的文字。因此通过文本检测准确查找、定位出公文图像中所有文本的单词级区域在文字识别中起着极为重要的作用。

现有的文字检测方法，通过利用卷积神经网络高层的卷积层提取的特征图检测文字，未考虑文本中字体大小不同、弯曲堆叠程度不同。仅采用高层特征也通常会导致图中尺度较小字体的特征信息缺失，使得不同高宽比文本的出现或字体大小的变化对文本检测系统的性能产生较大影响，检测准确性较低。

发明内容

本发明提供了一种文字识别方法及装置，以解决现有检测方案中对不同大小、弯曲程度字体检测准确性不高的技术问题。

为了解决上述技术问题，本发明实施例提供了一种文字识别方法，包括：

将待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字；

其中，所述第一检测模型识别待检测图片中的文字，具体为：

根据第一生成网络对所述待检测图片进行特征提取操作，获得各卷积层提取的特征样本；并对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框；所述融合操作包括求和操作和拼接操作；

根据纵横向预测序列定位所述文本候选框中的曲线文本，并根据多边形处理模型检测所述文本候选框中的重叠框，生成单词级边界框，以识别待检测图片中的文字。

本发明通过第一检测模型提取图片中的特征，并通过求和与拼接相结合的融合方式融合各卷积层之间的特征，由多个卷积层的输出融合创建新的表征特征以提高描述特征的多样性，令上层提取的信息能更平稳地传至下一层，各层能更准确地学习到从输入特征图中获取的差异性信息，提高整个模型对多尺度文本的鲁棒性；再基于纵横向预测序列检测文本框中的弯曲文本，以使无需外部连接也可定位出弯曲字体区域；最后通过基于多边形处理模型，对文字目标检测中的因物体褶皱等原因导致的重叠框加以抑制，并最终生成出更准确的单词级文本边界框，从而识别文本框中的文字，提高识别准确性。

进一步的，所述对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框，具体为：

对各个卷积层提取的特征样本进行求和操作，获取各个卷积层的特征求和结果；

对各个卷积层的特征求和结果进行拼接，获得第一特征，并根据所述第一特征对所述待检测图片生成文本候选框。

本发明先通过对不同卷积层之间的输出求和，使得上一层获得的信息更平稳地流到下一层，同时各层可以从输入的特征图中学习特征的差异性，最后再将不同层特征的求和结果拼接为新特征，既提高了收敛速度，也一定程度提升了模型得性能。

进一步的，在所述根据所述第一特征生成文本候选框之后，还包括：

对所述文本候选框进行修正操作，所述修正操作包括筛选、分组和区域修正。

进一步的，所述对所述文本候选框进行修正操作，具体为：

设置置信度阈值，筛选并保留所有置信度不低于所述置信度阈值的文本候选框；

根据各个文本候选框之间的交叉区域对各个文本候选框进行分组，并生成若干个区域候选边界框；

获取各个文本候选框的尺度因子，根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸，并将各个区域候选边界框设置为一个定值。

本发明通过对文本候选框进行修正操作，过滤置信度低的文本候选框，并对各个文本候选框进行分组和调整尺寸，从而使其各文本候选框中的文字定位结果更紧密，提高文本候选区域的准确性。

进一步的，所述根据纵横向预测序列定位所述文本候选框中的曲线文本，具体为：

根据目标检测特殊层连接循环神经网络，并设置所述目标检测特殊层的宽度偏移和高度偏移；

根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量，并根据所述横向偏移量和纵向偏移量检测所述文本候选框中的曲线文本。

进一步的，在所述根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量之前，还包括：

根据循环神经网络获取各个文本候选框的潜在特征，并根据所述潜在特征对各个文本候选框进行分类。

本发明通过将目标检测特殊层与循环神经网络进行连接，使得循环神经网络的时间序列数不被输入图像的大小所限制，并通过目标检测特殊层的宽度偏移和高度偏移分别预测文本候选框的横向偏移量和纵向偏移量，提高曲线文本的检测准确性。

进一步的，所述根据多边形处理模型检测所述文本候选框中的重叠框，生成单词级边界框，具体为：

将所述候选边界框映射到待检测图片中，并根据尺度因子对各个候选边界框进行缩放；

根据第一比例阈值对缩放后的候选边界框进行检测和过滤，并根据多边形非极大值抑制法对所述文本候选框中的重叠框进行删除，生成单词级边界框。

本发明通过多边形非极大值抑制法对所述文本候选框中的重叠框进行删除从而抑制文本框重叠现象，以生成单词级边界框，识别文本框中的文字，提高文字识别准确率。

第二方面，本发明提供了一种文字识别装置，所述文字识别装置将待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字

所述第一检测模型根据第一生成网络对所述待检测图片进行特征提取操作，获得各卷积层提取的特征样本；并对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框；所述融合操作包括求和操作和拼接操作；

第三方面，本发明提供了一种计算机设备，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行所述的文字识别方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现所述的文字识别方法。

附图说明

图1为本发明实施例提供的文字识别方法的一种流程示意图

图2为本发明实施例的提供的文字识别方法的第一生成网络的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，图1为本发明实施例提供的文字识别方法的一种流程示意图，包括步骤101至步骤102，具体如下：

步骤101：将待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字；

在本实施例中，所述第一检测模型包括主干网络、候选区域生成网络(MSF-RPN)、纵横向预测序列检测器和后处理模块，通过大量的文本图片进行训练生成。其中所述主干网络为较为精简的ResNet-50预训练模型。

步骤102：其中，所述第一检测模型识别待检测图片中的文字，具体为：

请参照图2，图2为本发明实施例的提供的文字识别方法的第一生成网络的一种结构示意图。

在本实施例中，第一生成网络为基于多尺度特征融合的网络(MSF-RPN)，所述第一生成网络中包括特征提取器、特征融合、多任务输出和召回修正模块四个子模块。

在本实施例中，为了避免使用群卷积、跳过连接或初始模块，所述第一生成网络中的特征提取器主要遵循VGG-16的设计，采用直接堆叠3×3卷积层的方式搭建特征提取网络，在每次降采样后，将内核数量增加1.5-2倍。由于鲁棒的场景文本特性也可以通过随机初始化和较少的网络参数获得，因此所述第一生成网络适当减少了内核的数量，第一层采用64内核的VGG-16。同时，为了扩大接受域，额外插入或附加3×3卷积层。

在本实施例中，由于公文文字识别场景具有各种各样的文字对象，其中既包括非常小的文本也有较大的文本，只使用简单底层特征无法提升特征表示的多样性，因此本方法通过对多个CNN层的输出特征进行融合来创建新特征。

在本实施例中，所述对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框，具体为：

在本实施例中，由于简单逐层特征拼接再输入的融合方式会导致特征图的深度增加，从而降低模型的收敛速度。因此通过求和和拼接结合的融合方式，先通过对不同卷积层之间的输出求和，使得上一层获得的信息更平稳地流到下一层，同时各层可以从输入的特征图中学习特征的差异性，最后再将不同层特征的求和结果拼接为新特征，既提高收敛速度，也一定程度提升了模型性能。对不同层的特征进行求和融合。

在本实施例中，设第a、b层输出的两个特征图分别为f^(a)和f^(b)(其中，f^(a),)，则两层输出特征的融合结果为：

其中,1≤i≤H，1≤j≤W，1≤l≤D。

最终将各层拼接为新的特征：

其中,1≤l≤2D。

作为本发明实施例的一种具体举例，如图2所示，由于所述第一生成网络没有使用C6之后的最后一个池化层，因此，C3之后的特征映射的大小是C4和C5之后的特征映射的两倍多。为了对它们进行和连接，应用了2×2内核和2×2步幅的最大池。从而将卷积层C9和C8融合之后的特征图汇总为一个特征图，然后与C7的特征图相加。

在本实施例中，通过使用不同的大小的卷积层提取多尺度特征，当融合时，可以增强特征，使其更具鉴别性。

在本实施例中，通过对不同卷积层之间的输出求和，使得上一层获得的信息更平稳地流到下一层，同时各层可以从输入的特征图中学习特征的差异性，最后再将不同层特征的求和结果拼接为新特征，既提高了收敛速度，也一定程度提升了模型得性能。

在本实施例中，在所述根据所述第一特征生成文本候选框之后，还包括：

在本实施例中，通过对多尺度特征融合RPN网络的生成的文本候选框进行进一步修正，从而获取更准确的文本候选区域；修正过程具体包括三个步骤：文本候选框筛选、文本候选框分组和文本候选框区域修正。

在本实施例中，所述对所述文本候选框进行修正操作，具体为：

在本实施例中，在进行文本候选框筛选时，为了保证一定比例的文本区域框召回率，通过预先设置一个置信度阈值过滤掉置信度较低的文本区域框。同时，将文本区域划分为三种预定义尺度：小区域、正常区域和大区域，分别对应三种不同的尺度因子β_k(k＝1,2,3)。并将对划分后的每个尺度区域进行独立处理。

在本实施例中，所述独立处理具体为：将任意四边形框转换为矩形形状以提高速度。若其中某个文本区域位于图中(x，y)处，边界回归任务是预测包含8个元素的向量d，对应的矩形框为{4x+min(d_1:2:8)，4y+min(d_2:2:8)，4x+max(d_1:2:8)，4y+max(d_2:2:8)}。

在本实施例中，在进行文本候选框分组时，根据文本候选框筛选所生成各矩形框之间是否存在交叉区域对这些矩形候选框进行分组，从而生成更准确的文本区域候选框。各候选矩形窗分成P个组后，每个组生成一个区域候选边界框B_p(p＝1...P)，该边界框包含该组所有矩形候选框。

在本实施例中，在进行候选文本框区域修正时，根据文本候选框筛选时计算的初始文本区域框不同尺度的尺度因子β_k，调整相应文本候选边界框内图像的尺寸为β_k·B_p。然后，将每个文本候选边界框展开为一个给定值。最后，在候选边界框内的文字候选区域图像送至文本检测器。从而调整文本候选框，使得所述文本候选框更好的包含整个文本。

在本实施例中，通过对文本候选框进行修正操作，过滤置信度低的文本候选框，并对各个文本候选框进行分组和调整尺寸，从而使其各文本候选框中的文字定位结果更紧密，提高文本候选区域的准确性。

在本实施例中，通过纵横向预测序列进行文字检测，在文本候选框的基础上，定位出弯曲字体区域，并对文本候选框进行调整以使其更紧密。

在本实施例中，所述根据纵横向预测序列定位所述文本候选框中的曲线文本，具体为：

在本实施例中，将循环神经网络RNN连接到对信息位置敏感的目标检测特殊层中的PSROIPooling(Position Sensitive ROI Pooling，位置敏感的候选区域池化)模块，并将输出目标的数量设定为固定的各u个宽度偏移和高度偏移。

在本实施例中，在所述根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量之前，还包括：

在本实施例中，通过PSROIPooling预测类概率和本地化偏移，并进行投票。同时，将各个候选框划分为r×r个小块以估算位置信息，由PSROIPooling为每个类生成出r²维度的得分图。对于分类分支，该类表示前景类的数量，所述前景类只有一个为“文本”。

在本实施例中，对于偏移量回归分支，类别数为偏移量的数量u。对于横向和纵向偏移量的预测，去除掉背景类的分数预测，因此输入卷积层的维数为u×r×r。通过使用第(m,n)个得分中的对应位置，来计算对应的第(m,n)个小块中(0<m，n<r-1)各像素值的平均池化，具体为：

其中，R_q(m,n|θ)是类别q(q＝1,2...Q,共Q个类别)的第(m,n)个小块的合并值，S_m,n,q代表对应维度的得分特征图。为该ROI的左上角坐标，n为小块中的像素数量，θ为网络参数。经过PSROIPooling后，检测器将通过位置敏感得分特征图上的全局特征图接收每个ROI的得分或估计的偏移量为：

生成出Q+1维的向量。再利用softmax计算所有Q个类别的类别投票分数，输出最终的置信度，具体为：

将定位偏移量输入到定位损失函数中。在训练阶段为得分和偏移量预测选择类似的多任务损失函数，如下式所示：

其中，N_P是正例候选框数目，而N是与特定重叠范围相匹配的正负例候选框数目，负例样本候选框则不需要细化。λ和μ分别表示权重因子，L_soft为SoftMax损失函数，L_loc为本地化损失函数。此外，(c,b,w,h)分别表示预测类，用来估计边界框以及宽度和高度偏移，而表示对应的标签值。

在本实施例中，假设每个点的宽度和高度都具有关联的上下文信息，并通过RNN获取这些潜在特征。并确定PSROIPooling的输出是否适合对偏移量上下文信息进行编码。对于宽度偏移，PSROIPooling输出u个得分特征图，并对其中每个偏移量进行投票，第m分数图的r²小块具有来自每个相应位置的投票值，可以将其编码为Z_m的特征。然后，RNN将每个点的宽度偏移功能作为顺序输入，并循环更新隐藏层L_v中的固有状态，具体为：

L_v＝ψ(L_v-1,O_v) (7)

其中，(v＝1...r)是相对于相应PSROIPooling输出通道的第v个预测偏移量。L_v是从当前输入O_v和以L_v-1进行编码的先前状态计算得出的循环内部状态，利用非线性函数ψ计算递归。

在本实施例中，RNN采用双向长短期记忆BLSTM架构，并使用256维的BLSTM隐藏层，RNN隐藏层内部的内部状态通过循环连接将顺序上下文信息与所有先前估计的偏移量相关联。BLSTM的最终输出是r维的1×256向量，该向量由(1×256)内核全局合并以输出最终的预测。而对于高度偏移，也可以通过类似方法获得。

在本实施例中，为了确保为RNN网络提供固定数量的输入时间序列。本方法在不进行外部连接的基础上进行文字弯曲区域定位，同时令RNN的时间序列数不被输入图像的大小所限制。

在本实施例中，将横向和纵向分支分开以预测用于定位文本区域的偏移量，并确定PSROIPooling的输出是否适合对偏移量上下文信息进行编码，以避免独立预测每个偏移量可能会导致文本区域粗糙并导致错误检测。

在本实施例中，通过将目标检测特殊层与循环神经网络进行连接，使得循环神经网络的时间序列数不被输入图像的大小所限制，并通过目标检测特殊层的宽度偏移和高度偏移分别预测文本候选框的横向偏移量和纵向偏移量，提高曲线文本的检测准确性。

在本实施例中，所述根据多边形处理模型检测所述文本候选框中的重叠框，生成单词级边界框，具体为：

在本实施例中，将文本候选框中的候选边界框映射回原始图像。若某个候选区域的四边形框B的位置为{(x₁,y₁)、...、(x₄,y₄)}，区域B按尺寸因子β_k进行缩放，其在原始图像中的左上角位置为则该四边形边框B的位置映射回原图像中，获得的边框B′的坐标位置{(x₁′,y₁′)、...、(x₄′,y₄′)}具体为：

在本实施例中，由于候选项中预测的边界框映射回原始图像后，部分可能无法包含整个文本单词，为了减少这种情况对最终检测结果的影响，通过第一检测规则对文本进行检测，所述第一检测规则具体为：当B′被另一个候选边界框按一定比例阈值ψ包含在内时，且B′的边界与该候选边界框边界非常接近时，将边界框B′去除不再进行下一步处理，从而去除部分不能包含整个文本单词的边界框干扰项。

在本实施例中，将有效的边界框映射回原始图像后，需要对文字目标检测中的重叠框加以抑制。针对弯曲场景文本的特殊性，本文采用多边形非极大值抑制PNMS法来删除冗余预测，生成单词级边界框，并得到最终的文本检测结果。

在本实施例中，通过多边形非极大值抑制法对所述文本候选框中的重叠框进行删除从而抑制文本框重叠现象，以生成单词级边界框，识别文本框中的文字，提高文字识别准确率。

本发明实施例还提供了一种文字识别装置，所述文字识别装置将所述待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字。

在本实施例中，通过基于多尺度特征融合的第一生成网络(MSF-RPN)生成文本候选框，并利用候选框召回修正子模块对上述生成区域进行微调，使其各区域的文字定位结果更紧密。再由纵横向预测序列连接模块将网络体系结构无缝集成，通过RNN网络学习各文本定位点之间的固有连接，从而使弯曲文本检测结果更平滑，更准确，并经回归模块连接主干网。最后通过后处理模块对上一阶段的候选框进行进一步处理，抑制文本检测中出现的文本框重叠现象，最终获得原始图像中更精确的单词级边界框。

本发明实施例还提供了一种计算机设备，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行所述的文字识别方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现所述的文字识别方法。

在本实施例中，通过第一检测模型提取图片中的特征，并通过求和与拼接相结合的融合方式融合各卷积层之间的特征，由多个卷积层的输出融合创建新的表征特征以提高描述特征的多样性，令上层提取的信息能更平稳地传至下一层，各层能更准确地学习到从输入特征图中获取的差异性信息，提高整个模型对多尺度文本的鲁棒性；再基于纵横向预测序列检测文本框中的弯曲文本，以使无需外部连接也可定位出弯曲字体区域；最后通过基于多边形处理模型，对文字目标检测中的因物体褶皱等原因导致的重叠框加以抑制，并最终生成出更准确的单词级文本边界框，从而识别文本框中的文字，提高识别准确性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文字识别方法，其特征在于，包括：

将待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字；所述第一检测模型包括主干网络、第一生成网络、纵横向预测序列检测器和后处理模块；所述第一生成网络为基于多尺度特征融合的网络，所述第一生成网络中包括特征提取器、特征融合、多任务输出和召回修正模块四个子模块；

根据第一生成网络对所述待检测图片进行特征提取操作，获得各卷积层提取的特征样本；并对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框；所述融合操作包括求和操作和拼接操作；并对所述文本候选框进行修正操作，所述修正操作包括筛选、分组和区域修正；具体的：设置置信度阈值，筛选并保留所有置信度不低于所述置信度阈值的文本候选框；根据各个文本候选框之间的交叉区域对各个文本候选框进行分组，并生成若干个区域候选边界框；其中，每个组生成一个区域候选边界框，所述区域候选边界框包含该组所有文本候选框；获取各个文本候选框的尺度因子，根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸，并将各个区域候选边界框设置为一个定值；

根据纵横向预测序列定位所述文本候选框中的曲线文本，具体为：根据目标检测特殊层连接循环神经网络，并设置所述目标检测特殊层的宽度偏移和高度偏移；根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量，并根据所述横向偏移量和纵向偏移量检测所述文本候选框中的曲线文本；并根据多边形处理模型检测所述文本候选框中的重叠框，生成单词级边界框，具体为：将所述候选边界框映射到待检测图片中，并根据尺度因子对各个候选边界框进行缩放；根据第一比例阈值对缩放后的候选边界框进行检测和过滤，并根据多边形非极大值抑制法对所述文本候选框中的重叠框进行删除，生成单词级边界框，以识别待检测图片中的文字。

2.如权利要求1所述的文字识别方法，其特征在于，所述对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框，具体为：

3.如权利要求1所述的文字识别方法，其特征在于，在所述根据所述目标检测特殊层的宽度偏移和高度偏移分别预测所述文本候选框的横向偏移量和纵向偏移量之前，还包括：

4.一种文字识别装置，其特征在于，所述文字识别装置将待检测图片输入预先训练好的第一检测模型，以使所述第一检测模型识别待检测图片中的文字；所述第一检测模型包括主干网络、第一生成网络、纵横向预测序列检测器和后处理模块；所述第一生成网络为基于多尺度特征融合的网络，所述第一生成网络中包括特征提取器、特征融合、多任务输出和召回修正模块四个子模块；

所述第一检测模型根据第一生成网络对所述待检测图片进行特征提取操作，获得各卷积层提取的特征样本；并对各卷积层提取的特征样本进行融合操作，获得第一特征，并根据所述第一特征生成文本候选框；所述融合操作包括求和操作和拼接操作；并对所述文本候选框进行修正操作，所述修正操作包括筛选、分组和区域修正；具体的：设置置信度阈值，筛选并保留所有置信度不低于所述置信度阈值的文本候选框；根据各个文本候选框之间的交叉区域对各个文本候选框进行分组，并生成若干个区域候选边界框；其中，每个组生成一个区域候选边界框，所述区域候选边界框包含该组所有文本候选框；获取各个文本候选框的尺度因子，根据各个文本候选框的尺度因子调整所述区域候选边界框中各个文本候选框的尺寸，并将各个区域候选边界框设置为一个定值；

5.一种计算机设备，其特征在于，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1至3中任一项所述的文字识别方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现权利要求1至3中任意一项所述的文字识别方法。