CN108470172B

CN108470172B - 一种文本信息识别方法及装置

Info

Publication number: CN108470172B
Application number: CN201710099305.6A
Authority: CN
Inventors: 陈凯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2021-06-11
Anticipated expiration: 2037-02-23
Also published as: CN108470172A

Abstract

本申请涉及图像识别技术领域，尤其涉及一种文本信息识别方法及装置，为了解决无法准确识别图像中排列不工整文本信息的问题，该方法为，基于预设的RPN模型对待识别图像进行图像处理，确定经图像处理得到的预处理图像中每一个像素点对应的每一个候选框映射至待识别图像后对应的候选区域，并计算各个候选区域包含文本信息的概率值，将概率值满足阈值的候选区域确定为包含文本信息的区域，且一个候选框为按照预设比例集合确定的封闭图形，这样，能对预设比例集合进行灵活配置，充分考虑多种类型的封闭图形，增加了候选框的丰富性，从而增大了覆盖文本信息的准确性，降低了因无法准确提取文本信息而导致的误判率，进而提高了模型识别的准确率。

Description

一种文本信息识别方法及装置

技术领域

本申请涉及图像识别技术领域，尤其涉及一种文本信息识别方法及装置。

背景技术

近年来，随着数字化技术、信息化技术以及多媒体技术的迅速发展，日常生活中随处可见数字图像、广告图像、路标指示牌等等，而这些图像中包含的丰富的语义信息，是信息检测与检索系统的重要处理对象。

以广告图像为例，参阅图1a和图1b所示，在电子商务的广告图像中，需要对图像中的广告词、违禁词等进行检测，以达到监管的目的。

现有技术下，只能有效识别出图像中排列工整的文字，仍以图1b为例进行说明，现有的文本信息识别技术，只能对“内含活性炭”、“抗花粉抗流感”和“除甲醛”这类排列整齐、四方工整的文本信息进行有效识别，而对于“五折出售”这类，稍有倾斜，排列不工整的文本信息，无法进行有效识别，倘若存在不法商家，利用这种漏洞，将违禁词制作为倾斜类文本信息添加在广告图像中，并在网络中肆意传播，可能会对社会造成无法估量的危害。

因此，需要设计一种新的文本信息识别方法，能克服以上技术缺陷。

发明内容

本申请实施例提供一种文本信息识别方法及装置，用以解决现有技术中存在无法准确识别图像中排列不工整的文本信息，导致文本信息识别准确率过低的问题。

本申请实施例提供的具体技术方案如下：

一种文本信息识别方法，包括：

基于预设的目标区域建议网络模型，对待识别图像进行图像处理，获得预处理图像；

分别确定预处理图像中的每一个像素点对应的候选框集合，其中，一个像素点对应的候选框集合，为以所述一个像素点为中心，按照预设比例集合确定的封闭图形集合；

基于所述目标区域建议网络模型，分别确定每一个候选框映射至待识别图像后对应的候选区域；

基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值，并将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域。

可选的，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值，包括：

基于所述目标区域建议网络模型内的外接框回归层中预设的损失函数，分别计算每一个侯选区域在待识别图像中的区域位置；

基于所述目标区域建议网络模型内的外接框分类层中预设的损失函数，分别计算每一个侯选区域对应的区域位置包含文本信息的概率值。

可选的，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值之后，进一步包括：

筛选出概率值大于等于设定的第二阈值对应的候选区域，并将每一个候选区域调整至水平方向，使所述每一个候选区域的长边要长于宽边，其中，所述第二阈值小于等于所述第一阈值；

基于预设的目标行分类器模型，分别基于已调整至水平方向的每一个候选区域对应的形状比例区间，确定所述每一个候选区域对应的子行分类器，其中，一个子行分类器对应一个形状比例区间，每一个子行分类器的网络结构相同，并且每一个子行分类器包含至少一个卷积层，至少一个池化层，以及至少一个全连接层；

将所述每一个候选区域输入至对应的子行分类器，并分别通过每一个子行分类器计算相应的各个候选区域包含文本信息的概率值；

将大于等于设定的第三阈值的概率值对应的候选区域确定所述候选区域为包含文本信息的区域。

可选的，基于预设的目标区域建议网络模型，对待识别图像进行图像处理之前，进一步包括：

获取图像样本集合，按照预设方法将所述图像样本集合划分为若干批次；

基于所述若干批次的图像样本，对预设的初始RPN模型进行分批次训练，以获得目标区域建议网络模型。

可选的，基于所述若干批次的图像样本，对预设的初始RPN模型进行分批次训练，包括：

依次针对每一批次的图像样本执行以下操作，直到判定连续Q个批次对应的文本信息识别正确率均大于第一正确率门限值为止，确定初始RPN模型训练完成，其中，Q为大于等于1的正整数；

使用当前的配置参数分别对一批次内包含的每一图像样本进行图像处理，并获得预处理图像样本，其中，所述配置参数中至少包括至少一个卷积层使用的参数，至少一个池化层使用的参数；

对所述一个批次内包含的各个预处理图像样本进行文本信息识别，并获得所述各个预处理图像样本包含文本信息的概率值，基于所述各个预处理图像样本包含文本信息的概率值和当前设定的第一阈值，获得相应的文本信息识别结果，以及基于所述文本信息识别结果计算所述一批次对应的文本信息识别正确率；

判断所述一批次对应的文本信息识别正确率是否大于第一正确率门限值，若是，则保持所述当前的配置参数以及所述当前设定的第一阈值不变，否则，对所述当前的配置参数以及所述当前设定的第一阈值进行相应调整，并将调整后的配置参数以及调整后的第一阈值作为下一批次使用的当前的配置参数以及当前设定的第一阈值。

可选的，对所述一个批次内包含的任一预处理图像样本进行文本信息识别，并获得所述任一预处理图像样本包含文本信息的概率值，基于所述任一预处理图像样本包含文本信息的概率值和当前设定的第一阈值，获得相应的文本信息识别结果，包括：

对所述任一预处理图像样本进行文本标定，获得若干包含文本信息的真值区域；

基于预设比例集合，确定所述任一预处理图像样本中每一个像素点对应的候选框集合，并分别确定所述每一个像素点对应的每一个候选框映射至图像样本后对应的候选区域；

分别将所述每一个候选框在图像样本中对应的候选区域与对应的真值区域进行比对，确定每一个侯选区域对应的重叠比例，并将重叠比例取值最大的候选区域，以及重叠比例取值大于第一预设值的候选区域，确定为候选文本样本；

分别计算每一个候选文本样本包含文本信息的概率值，并将概率值大于等于当前设定的第一阈值的候选文本样本确定为包含文本信息的区域。

可选的，所述预设比例集合至少包括面积元素、长宽比例元素和角度元素。

可选的，对预设的初始RPN模型进行分批次训练之后，获得目标区域建议网络模型之前，进一步包括：

获取图像测试样本集合；

分别将所述图像测试样本集合中的每一个图像测试样本输入至训练完成后的初始RPN模型中，并分别获得相应的测试结果，其中，一个图像测试样本对应一个测试结果，一个测试结果为对应的图像测试样本包含文本信息的概率；

基于获得的各个测试结果，统计当前测试的误判率，确定所述误判率小于等于第一误判率门限值，则将当前的初始RPN模型作为目标区域建议网络模型。

可选的，分别计算每一个候选文本样本包含文本信息的概率值之后，进一步包括：

筛选出所得的各个概率值中大于等于设定的第二阈值的候选文本样本，并按照预设方法将所述各个候选文本样本划分为若干批次；

基于所述若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练，以获得目标行分类器模型，其中，行分类器模型包含N个子行分类器，一个子行分类器对应一种形状比例区间，每一个子行分类器的网络结构相同，N为大于等于1的整数。

可选的，基于所述若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练，包括：

依次针对每一批次的候选文本样本执行以下操作，直到判定连续M个批次对应的识别正确率均大于第二正确率门限值为止，确定初始行分类器模型训练完成，其中，M为大于等于1的正整数：

将批次内包含的每一候选文本样本输入初始行分类器模型中，并按照所述每一候选文本样本对应的形状比例，确定各自形状比例所属的形状比例区间，以及基于所述形状比例区间，确定所述每一候选文本样本对应的子行分类器；

将所述每一候选文本样本输入至对应的子行分类器中，并由各个子行分类器基于各自当前的运行参数分别对各自接收的各个候选文本样本进行图像处理，并获得预处理候选文本样本，其中，所述运行参数中至少包括至少一个卷积层使用的参数，至少一个池化层使用的参数，以及至少一个全连接层使用的参数；

对所述一个批次内包含的各个预处理候选文本样本进行识别，并获得所述各个预处理候选文本样本包含文本信息的概率值，将包含文本信息的概率值大于等于当前设定的第三阈值的预处理候选文本样本，确定为包含文本信息的区域，以获得识别结果，并基于所述识别结果，确定相应的识别正确率；

判断所述一批次对应的识别正确率是否大于第二正确率门限值，若是，则保持所述当前的运行参数以及所述当前设定的第三阈值不变，否则，对所述当前的运行参数以及所述当前设定的第三阈值进行相应调整，并将调整后的运行参数以及调整后的第三阈值作为下一批次使用的当前的运行参数以及当前设定的第三阈值。

可选的，对预设的初始行分类器模型进行分批次训练之后，获得目标行分类器模型之前，进一步包括：

获取候选文本测试样本集合；

分别将所述候选文本测试样本集合中的每一个候选文本测试样本输入至训练完成后的初始行分类器模型中，并分别获得相应的测试结果，其中，一个候选文本测试样本对应一个测试结果，一个测试结果为对应的候选文本测试样本包含文本信息的概率；

基于获得的各个测试结果，统计当前测试的误判率，确定所述误判率小于等于第二误判率门限值，则将当前的初始行分类器模型作为目标行分类器模型。

一种图像识别方法，包括：

区域建议网络模型接收用户上传的待识别图像；

区域建议网络模型接收到用户触发的图像处理指令时，对所述待识别图像进行图像处理，获得预处理图像，并将预处理图像呈现给用户；

区域建议网络模型接收到用户触发的文本信息识别指令时，获取所述预处理图像中的每一个像素点对应的候选框集合中每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值；

区域建议网络模型将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

可选的，对所述待识别图像进行图像处理，具体包括：

对所述待识别图像进行至少一次卷积处理，至少一次池化处理。

可选的，计算每一个候选区域包含文本信息的概率值之后，进一步包括：

接收用户触发的筛选指令，筛选出概率值大于等于设定的第二阈值的候选区域，形成候选区域集合；

接收到用户触发的新的文本信息识别指令时，按照预先划分的形状比例区间，确定所述候选区域集合中的每一个候选区域所属的形状比例区间对应的子行分类器，并将所述候选区域集合中的每一个候选区域输入至对应的子行分类器中，以及分别通过每一个子行分类器计算相应的各个候选区域包含文本信息的概率值，其中，一个形状比例区间对应一个子行分类器；

将大于等于设定的第三阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

一种文本信息识别方法，包括：

区域建议网络模型向用户提供识别操作界面；

区域建议网络模型接收用户基于所述识别操作界面上传的待识别图像；

区域建议网络模型接收到用户基于所述识别操作界面触发的文本信息识别指令时，将所述待识别图像发送至对应的服务器，并触发所述服务器对所述待识别图像进行文本信息识别，以及接收所述服务器返回的所述待识别图像中包含文本信息的区域，并将所述待识别图像中包含文本信息的区域以候选框形式呈现给用户。

一种文本信息识别装置，包括：

图像处理单元，用于基于预设的目标区域建议网络模型，对待识别图像进行图像处理，获得预处理图像；

候选框确定单元，用于分别确定预处理图像中的每一个像素点对应的候选框集合，其中，一个像素点对应的候选框集合，为以所述一个像素点为中心，按照预设比例集合确定的封闭图形集合；

候选区域确定单元，用于基于所述目标区域建议网络模型，分别确定每一个候选框映射至待识别图像后对应的候选区域；

判定单元，用于基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值，并将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域。

可选的，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值时，所述判定单元用于：

可选的，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值之后，所述判定单元进一步用于：

可选的，进一步包括第一训练单元，所述第一训练单元用于：

基于预设的RPN模型，对待识别图像进行图像处理之前，执行以下操作：

可选的，基于所述若干批次的图像样本，对预设的初始RPN模型进行分批次训练，所述第一训练单元用于：

可选的，对所述一个批次内包含的任一预处理图像样本进行文本信息识别，并获得所述任一预处理图像样本包含文本信息的概率值，基于所述任一预处理图像样本包含文本信息的概率值和当前设定的第一阈值，获得相应的文本信息识别结果时，所述第一训练单元用于：

可选的，进一步包括第一测试单元，所述第一测试单元用于：

对预设的初始RPN模型进行分批次训练之后，获得目标区域建议网络模型之前，执行以下操作：

获取图像测试样本集合；

可选的，进一步包括第二训练单元，所述第二训练单元用于：

分别计算每一个候选文本样本包含文本信息的概率值之后，执行以下操作：

可选的，基于所述若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练时，所述第二训练单元用于：

可选的，进一步包括第二测试单元，所述第二测试单元用于：

对预设的初始行分类器模型进行分批次训练之后，获得目标行分类器模型之前，执行以下操作：

获取候选文本测试样本集合；

一种图像识别装置，包括：

图像接收单元，用于区域建议网络模型接收用户上传的待识别图像；

预处理单元，用于区域建议网络模型接收到用户触发的图像处理指令时，对所述待识别图像进行图像处理，获得预处理图像，并将预处理图像呈现给用户；

第一处理单元，用于区域建议网络模型接收到用户触发的文本信息识别指令时，获取所述预处理图像中的每一个像素点对应的候选框集合中每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值；

确定单元，用于区域建议网络模型将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

可选的，对所述待识别图像进行图像处理时，所述预处理单元具体用于：

可选的，进一步包括第二处理单元，所述第二处理单元用于：

计算每一个候选区域包含文本信息的概率值之后，执行以下操作：

一种文本信息识别装置，包括：

用户操作单元，用于区域建议网络模型向用户提供识别操作界面；

图像接收单元，用于区域建议网络模型接收用户基于所述识别操作界面上传的待识别图像；

处理单元，用于区域建议网络模型接收到用户基于所述识别操作界面触发的文本信息识别指令时，将所述待识别图像发送至对应的服务器，并触发所述服务器对所述待识别图像进行文本信息识别，以及接收所述服务器返回的所述待识别图像中包含文本信息的区域，并将所述待识别图像中包含文本信息的区域以候选框形式呈现给用户。

本申请实施例中，先基于预设的RPN模型对待识别图像进行图像处理，然后，确定经图像处理后得到的预处理图像中每一个像素点对应的每一个候选框映射至待识别图像后对应的候选区域，并计算每一个候选区域包含文本信息的概率值，将概率值满足设定阈值的候选区域确定为包含文本信息的区域，其中，一个候选框为以一个像素点为中心按照预设比例集合确定的封闭图形，这样，可以根据实际情况对预设比例集合进行灵活配置，而且，基于预设比例集合的灵活性，能充分考虑到多种类型的封闭图形，相应的增加了候选框的丰富性，从而增大了对文本信息进行覆盖的准确性，降低了因无法准确提取文本信息而导致的误判率，进而提高了模型识别的准确率，增加了用户体验。

附图说明

图1a为本申请实施例中示例广告图像样本图；

图1b为本申请实施例中示例广告图像样本中文本信息示意图；

图2为本申请实施例中RPN模型训练过程流程图；

图3为本申请实施例中示例图像样本包含的文本信息标定过程示意图；

图4为本申请实施例中示例一个像素点对应若干种候选框示意图；

图5a为本申请实施例中示例图像样本的文本信息对应的真值区域示意图；

图5b为本申请实施例中示例图像样本的文本信息对应的候选区域示意图；

图6为本申请实施例中，通过全连接层进行降维处理，将3个输入神经元转化为两个输出神经元的示意图；

图7为本申请实施例中行分类器模型训练过程流程图；

图8为本申请实施例中第一种文本信息识别装置结构示意图；

图9为本申请实施例中第二种文本信息识别装置结构示意图；

图10为本申请实施例中第三种文本信息识别装置结构示意图。

具体实施方式

为了解决现有技术中存在的无法准确识别图像中排列不工整的文本信息，导致文本信息识别准确率过低的问题，本申请实施例中，重新设计了一种文本信息识别方法，该方法为，基于预设的RPN模型对待识别图像进行图像处理，然后，分别确定经图像处理后得到的预处理图像中的每一个像素点对应的候选框集合，其中，一个像素点对应的候选框集合，为以一个像素点为中心按照预设比例集合确定的封闭图形集合，接着，基于该RPN模型分别确定每一个像素点对应的每一个候选框映射至待识别图像后对应的候选区域，并计算每一个候选区域包含文本信息的概率值，将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面将通过具体实施例对本申请的方案进行详细描述，当然，本申请并不限于以下实施例。

本申请实施例中，在进行文本信息识别之前，需要对现有的全卷积神经网络(Fully Convolutional Networks，FCN)进行改进，即，在现有的FCN中引入了候选窗口(anchor boxes)概念，建立区域建议网络(Region Proposal Network，RPN)，实际上，RPN就是优化后的FCN，FCN包括至少一个卷积层和至少一个池化层，且最后输出是由卷积层完成，RPN也包括至少一个卷积层和至少一个池化层，且最后输出是由卷积层完成，但是，在RPN中，在最后一层卷积层的基础上，将输出的图像划分出多个候选窗口(以下简称候选框)，并将上述多个候选框进行输出。

本申请实施例中，由RPN将已划分的多个候选框输出至预设的两个输出层中，其中，一个输出层为外接框回归层(box-regression layer，reg)，另一个输出层为外接框分类层(box-classification layer，cls)，并由reg获得候选区域，由cls获得区域分值。

之所以要确定候选区域，是因为原始图像(即待识别图像，后续为描述方便，称原始图像)在经过多个卷积层和多个池化层处理后，在一定程度上会被压缩，相应的，由最后一层卷积层输出的图像中的一个像素点，在原始图像中可能会对应一整片区域，因此，需要确定各个候选框在原始图像中对应的候选区域。

然后，再将这些候选区域和原始图像中各个已知包含文本信息的真值区域进行比对，以确定当前输出的各个候选框是否包含文本信息，即，进一步验证当前RPN模型的可信度；而上述区域分值就是指各个候选框包含文本信息的可信度，具体来说，区域分值为包含文本信息的概率。

进一步地，本申请实施例中，可以选取若干个图像样本作为图像样本训练集合，并将该图像样本训练集合作为输入，以对预先建立的初始RPN模型进行训练，参阅图2所示，具体训练过程如下：

步骤200：对图像样本训练集合中的每一个图像样本进行文本标定，并确定若干个真值区域。

具体的，图像样本训练集合中的每一个图像样本可以为训练专用的，也可以是网络上实际存在的(如，电子商务平台上的商品图片)，但为使训练结果更加可靠，本申请实施例中，在本次训练选用的图像样本训练集合是从网络上随机搜集合的，而且，每一个图像样本都确定包含文本信息，或者，确定不包含文本信息。

进一步地，对图像样本训练集合中的每一个图像样本中包含的文本信息进行文本标定，先确定文本信息的四个顶点，然后，根据四个顶点确定包含文本信息的外接矩形框，即，确定包含文本信息的真值区域，以一个水平放置的文本信息为例，具体参阅图3所示，最后输出的“打折促销”为真值区域。

步骤210：对图像样本训练集合中的每一个图像样本执行归一化操作。

具体的，在对图像样本训练集合进行处理前，需要将图像样本训练集合中的每一个图像样本都缩放至一定比例，即，执行归一化操作，以便于后续处理。

本申请实施例中，在保证每一个图像样本的长宽比不变化的前提下，对每一幅图像样本进行缩放，使得图像样本的较长边的边长度为1000。

步骤220：将归一化后的图像样本训练集合输入预设的RPN模型中，并确定该图像样本训练集合中的每一个图像样本包含的候选框集合。

具体的，在一个RPN模型中，卷积层表示为conv[N,w,s₁]，池化层表示为max[s₂]，其中，“N”表示卷积层的通道数目为N，“w”表示卷积层的每一个通道对应的卷积核大小为w*w，“s₁”表示卷积层的每一个通道对应的步长为s₁，“s₂”表示池化层的每一个通道对应的步长为s₂。

其中，卷积层用于提取输入图像的图像特征，卷积是图像处理常用的方法，在卷积层的输出图像中每一个像素是输入图像中一个小区域中像素的加权平均，其中，权值由一个函数定义，这个函数称为卷积核。卷积核是一个函数，卷积核中每一个参数都相当于一个权值参数，与对应的局部像素相连接，将卷积核中的各个参数与对应的局部像素值相乘，再加上偏置参数，即可得到卷积结果，具体计算公式如下：

其中，f^k表示第k个特征结果图，relu(x)＝max(0，x)，W^k表示第k个卷积核的参数，x表示上一层的特征，b^k为偏置参数。

而池化层用于对输入的特征图进行压缩，使得特征图变小，简化网络计算复杂量，并提取出输入的特征图的主要特征。因此，为了降低空间变换网络训练参数及训练模型的过拟合程度，需要对卷积层输出的特征图进行池化(Pooling)处理。常用的池化方式有最大值池化(Max Pooling)和平均池化(Average Pooling)，其中，最大值池化是选择池化窗口中的最大值作为池化后的值，平均池化是将池化区域中的平均值作为池化后的值。本申请实施例中，采用最大值池化，具体计算公式如下：

其中，i,j为考察的像素点的横、纵坐标，w为以i为中心、向前和向后考察的窗口范围，h为以j为中心，向上和向下考察的窗口范围，f_xy为x、y位置的像素值，P_ij为i、j位置计算得出的池化值。

进一步地，本申请实施例中，将RPN模型设定为“conv[96,7,2]-max[2]-conv[256,5,2]-max[2]-conv[384,3,1]-conv[256,3,1]”结构，即，第一层为卷积层conv[96,7,2]，第二层为池化层max[2]，第三层为卷积层conv[256,5,2]，第四层为池化层max[2]，第四层为卷积层conv[384,3,1]，第五层为卷积层conv[256,3,1]。

本申请实施例中，将归一化后的图像样本集合输入至上述RPN模型中，并经过卷积和池化，确定了该图像样本集合中的每一个图像样本包含的候选框集合。

具体的，由于输入的图像样本集合在上述RPN模型中，经过不断的卷积核池化，每一个图像样本会被不断的压缩，因此，由最后一层卷积层输出的每一个像素点在原始图像中表示一片区域，相应的，本申请实施例中，为了能将各个像素点在原始图像中进行还原，针对一个像素点设计了多种类型的候选框，其中，候选框集合为以一个像素点为中心，按照预设比例集合确定的封闭图形集合。

进一步地，所述预设比例集合至少包括面积元素、长宽比例元素和角度元素，具体采用了5类面积元素、5类长宽比例元素和6类角度元素。例如，5类面积元素可取值为“{32²,64²,128²,256²,512²}”，5类长宽比例元素可取值为“{1:1,1:3,1:7，1:4，4:1}”，6类角度元素可取值为“{0，30,60,90,120,150}”，显然，结合上述各类因素，针对一个像素点设计有150种类型的候选框。

这样，针对最后一层卷积层中的每一个像素点，需要分别以每一个像素点为中心，生成相应的150种类型的候选框，即每一个像素点均对应150种类型的候选框。例如，参阅图4所示，经过最后一层卷积层，得到卷积特征图，滑动窗口选择像素点A为中心，生成A1、A2、A3、A4、等各种类型候选框，当然，封闭图形可以是三角形，圆形，矩形，多边形，本申请实施例以矩形为例。

由于一个像素点对应150种类型的候选框，而每一个图像样本经过卷积池化后又包含了若干个像素点，相应的，每一个图像样本均对应有若干候选框，组成候选框集合。

步骤230：分别确定每一个图像样本对应的候选框集合中的每一个候选框在原始图像中对应的候选区域。

具体的，以一个图像样本a为例，在执行步骤230时，需要将图像样本a映射回相应的原始图像a，映射方式存在多种选择，为便于描述，可选的，可以直接将图像样本a按照原始样本a的大小比例进行扩大，这样，图像样本a对应的候选框集合中的每一个侯选框也会被相应扩大，从而在原始图像a中会各自对应部分区域，而这些部分区域即是原始图像a中的各个侯选框各自对应的侯选区域。

步骤240：分别将每一个图像样本的候选框集合中的每一个候选框在原始图像中对应的候选区域与对应的真值区域进行比对，确定重叠比例。

具体的，分别将每一个图像样本的候选框集合中的每一个候选框在相应的原始图像中对应的候选区域，与各个真值区域进行比对，并确定重叠比例。

以一个图像样本(以下仍称为图像样本a)为例进行说明，具体参阅图5a和图5b所示，假设图像样本a对应的原始图像a中包括3个文本信息的真值区域，具体如图5a所示，将图像样本a输入至预设的RPN模型中后，由最后一层卷积层输出获得了若干候选框，假设这些候选框中的3个候选框在原始图像a中对应的候选区域如图5b所示(分别为候选区域a1、候选区域a2和候选区域a3)，那么，便需要计算上述3个真值区域和上述3个候选框在原始图像a中对应的候选区域之间的重叠比例。

例如，假设计算文本信息“打折促销”的真值区域和候选区域a1之间的重叠比例为85％，计算文本信息“全场5折起”的真值区域和候选区域a2之间的重叠比例为90％，以及计算文本信息“纯天然无污染”的真值区域和候选区域a3之间的重叠比例为98％。

同理，每一个图像样本均可采样上述方式计算，各自的候选框在对应原始图像的候选区域与相应的真值区域之间的重叠比例。

步骤250：分别针对每一个图像样本执行以下操作：将在原始图像中与真值区域的重叠比例最大的候选区域，以及重叠比例大于第一预设值的候选区域，确定为候选文本样本。

具体的，经过上述步骤，获得了每一个图像样本的候选框集合中，各个候选框在原始图像内对应的候选区域与已知包含文本信息的真值区域之间的重叠比例。

以任意一个图像样本x为例。

在第一轮筛选中，从图像样本x的候选框集合x中，挑选出在原始图像x中对应的候选区域与真值区域之间重叠比例最大的候选框x1，并将候选框x1对应的候选区域x1再确定为候选文本样本。

然后，在第二轮筛选中，再从候选框集合x中，挑选出在原始图像中对应的候选区域与真值区域之间的重叠比例达到第一预设值的各个候选框，并将挑选出的各个候选框各自对应的候选区域也分别确定为候选文本样本。

经过上述第一轮筛选和第二轮筛选，对应的候选区域未被选中作为候选文本样本的候选框，将被视为废弃候选框，不做采用。

此外，任一候选区域在原始图像中若跨越图像边框，则相应的候选框也会被视为废弃候选框。

例如，若将初始第一预设值设定为0.7，对于一组重叠比例为“0.8、0.9、0.2、0.8、0.6”的各个候选区域，先挑选出重叠比例最大的(0.9)的候选区域作为候选文本样本，再从剩余的重叠比例“0.8、0.2、0.8、0.6”的各个候选区域中，将重叠比例大于0.7(0.8和0.8)的候选区域作为候选文本样本，剩余的候选区域视为废弃样本。

步骤260：分别计算每一个候选文本样本包含文本信息的概率值，并将概率值大于等于当前设定的第一阈值候选文本样本确定为包含文本信息的区域。

具体的，将确定的各个候选文本样本作为RPN模型中的两个输出层的输入，其中，一个输出层为外接框回归层，另一个输出层为外接框分类层，即，基于RPN模型内的外接框回归层中预设的损失函数，分别计算每一个候选文本样本在原始图像中的区域位置，以及基于RPN模型内的外接框分类层中预设的损失函数，分别计算每一个候选文本样本对应的区域位置包含文本信息的概率值(又称区域分值)。

较佳的，本申请实施例中，外接框回归层中采用的损失函数可以由以下公式表示：

其中，t^u表示当前RPN模型获取的候选文本样本，v为该候选文本样本对应的重叠比例最大的真值区域，i表示该候选文本的四个顶点对应的横坐标和纵坐标，smooth_L1可以表示为以下公式：

较佳的，本申请实施例中，外接框分类层的损失函数可以由以下公式表示：L_cls(p,u)＝-log p_u，其中，p_u＝0表示该候选文本样本为非文本信息的概率，p_u＝1表示该候选文本样本为文本信息的概率。

结合上述两个输出层的损失函数，RPN模型的多任务损失函数可以由以下公式表示：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)，其中，L_cls(p,u)为分类层的损失值，L_loc(t^u,v)为回归层的损失值，[u≥1]表示仅考虑候选文本样本的回归损失，λ用于调整分类损失和回归损失的权重，L(p,u,t^u,v)为分类损失和回归损失的加权和。

综上，对于RPN模型的输出，由外接框回归层确定每一个候选文本样本的区域位置，以及由外接框分类层将上述候选文本样本的区域位置进行分类，以确定每一个候选文本样本包含文本信息的概率，而且，本申请实施例中，会基于当前设定的第一阈值，将其作为外接框分类层在获得概率后，判断每一个候选文本样本是否包含文本信息的依据，并将满足上述第一阈值的候选文本样本判定为包含文本信息的区域。

例如，假设当前设定的第一阈值为0.95，在判定某候选文本样本输出的用于表示包含文本信息的概率大于等于0.95时，确定该候选文本样本为包含文本信息的区域，当然，本申请实施例中，仅以初始第一阈值为0.95举例说明，实际应用中可以根据运维经验设置其他数值，在此不再赘述。

上述过程仅为RPN模型的初次训练过程，本申请实施例中，采用分批次训练的方式对RPN模型进行训练。

具体的，先获取一个图像样本集合，并按照预设方法将该图像样本集合划分为若干批次，然后，基于该若干批次的图像样本，对预设的初始RPN模型进行分批次训练，以获得目标区域建议网络模型。

进一步地，针对每一批次的图像样本的训练，均使用当前的配置参数分别对一批次内包含的每一图像样本进行图像处理，并获得预处理图像样本，其中，上述配置参数中至少包括至少一个卷积层使用的参数，至少一个池化层使用的参数，一个卷积层使用的参数可以包括通道数、卷积核大小和步长数，一个池化层使用的参数可以包括步长数。

然后，对该批次内包含的各个预处理图像样本进行文本信息识别，并获得各个预处理图像样本包含文本信息的概率值，接着，基于各个预处理图像样本包含文本信息的概率值和当前设定的第一阈值(如，0.095)，获得相应的文本信息识别结果，最后，基于该文本信息识别结果计算该批次训练对应的文本信息识别正确率。

例如，针对RPN模型的多批次训练，即，存在若干批次图像样本，针对第一批次图像样本(以下简称第一批次)包含的256张图像样本设置当前的配置参数(也可称初始化配置参数)，并分别提取第一批次包含的256张图像样本的特征，以及采用上述RPN模型对第一批次包含的256张图像样本分别进行图像处理，分别得到每一个图像样本的预处理图像样本，然后，对该批次内的256张预处理图像样本进行文本信息识别，获得256张预处理图像样本包含的文本信息的概率值，基于所得各个概率值和当前设定的第一阈值，获得相应的文本信息识别结果，并基于该文本信息识别结果计算该批次对应的文本信息识别正确率，即获得第一批次的文本信息识别正确率。

接着，针对第二批次图像样本(以下简称第二批次)中包含的每一图像样本分别进行文本信息识别处理。具体的，若判定第一批次对应的识别正确率大于第一正确率门限值(如，98％)，则使用针对第一批次预设的初始化配置参数对第二批次包含的图像样本进行图像处理，以及使用针对第一批次预设的当前的第一阈值对第二批次包含的图像样本进行文本信息识别，并得到第二批次对应的文本信息识别正确率；若判定第一批次对应的文本识别正确率不大于第一正确率门限值，则在针对第一批次预设的初始化配置参数的基础上进行配置参数调整，得到调整后的配置参数，以及针对第一批次设置的第一阈值的基础上进行调整，得到调整后的第一阈值，并使用调节后的配置参数和调整后的第一阈值对第二批次包含的图像样本进行图像处理和文本信息识别，得到第二批次对应的文本信息识别正确率。

以此类推，可以继续采用相同方式对后续第三批次、第四批次……的图像样本子集进行相关处理，直到训练集合中的所有图像样本处理完毕。

简而言之，在训练过程中，从图像样本训练集合中第二批次开始，若判定上一批次对应的文本信息识别正确率大于第一正确率门限值，则继续使用上一批次的配置参数以及上一批次设定的第一阈值；若判定上一批次对应的文本信息识别正确率不大于第一正确率门限值，则在上一批次对应的配置参数以及当前设定的第一阈值进行相应调整，得到调整后的配置参数以及调整后的第一阈值，并使用调整后的配置参数以及调整后的第一阈值对当前批次中包含的图像样本进行图像处理以及文本信息识别，得到当前批次对应的识别正确率。

例如，假设进行第一批次训练时，初始的配置参数中，第一层为卷积层1，其中，卷积层1为conv[256,5,4]，第二层为池化层1，其中，池化层1为max[4]，第三层为卷积层2，其中，卷积层2为conv[384,6,4]，第四层为卷积层3，其中卷积层3为conv[256,5,2]，且第一预设值为80％，初始的第一阈值为0.95(包含文本信息的概率)，第一正确率门限值为98％，若根据第一批次训练结果可知，第一批次训练的文本信息识别正确率高于98％，则在进行第二批次训练时，第一阈值仍为0.95(包含文本信息的概率)，配置参数中，卷积层为3，池化层为1，其中，第一层为卷积层1，第二层为池化层1，第三层为卷积层2，第四层为卷积层3；若第一批次训练的文本信息识别正确率低于98％，那么，在进行第二批次训练时，配置参数和第一阈值在初始的配置参数和初始的第一阈值的基础上，根据第一批次训练结果进行相关调整，继续假设调整后的配置参数中，卷积层为4，池化层为2，其中，第一层为卷积层1，第二层为池化层1，第三层为池化层2，第四层为卷积层2，第五层为卷积层3，第六层为卷积层4，调整后的第一阈值为0.98(包含文本信息的概率)，并基于调整后的配置参数和第一阈值进行第二批次的训练，依次类推，直至RPN模型训练完成。

进一步的，在基于RPN模型进行模型训练的过程中，在判定训练过程中使用某一套配置参数和第一阈值时，连续Q个批次的识别正确率均大于第一正确率门限值时，其中，Q为大于等于1的正整数，则确定初始RPN模型训练完成。

更进一步地，对预设的初始RPN模型进行分批次训练之后，获得目标区域建议网络模型之前，还需获取图像测试样本集合，并将该图像测试样本集合中的每一个图像测试样本输入至训练完成后的初始RPN模型中，然后，获得相应的测试结果，其中，一个图像测试样本对应一个测试结果，一个测试结果为对应的图像测试样本包含文本信息的概率，接着，基于获得的各个测试结果，统计当前测试的误判率，确定获得的误判率小于等于第一误判率门限值时，将当前的初始RPN模型作为目标区域建议网络模型，若确定获得的误判率大于第一误判率门限值时，则重新建立初始RPN模型，并重新选用图像样本集合进行训练，以获得目标区域建议网络模型。

至此，关于使用目标区域建议网络模型，先获取待识别图像，然后，基于目标区域建议网络模型对待识别图像进行图像处理，分别确定经图像处理得到的预处理图像中的每一个像素点对应的候选框集合，其中，一个像素点对应的候选框集合，为以一个像素点为中心按照预设比例集合确定的封闭图形集合，接着，基于该目标区域建议网络模型分别确定每一个像素点对应的每一个候选框映射至待识别图像后对应的候选区域，最后，基于该目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值，并将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域。

例如，假设目标区域建议网络模型的配置参数设定为，第一层为卷积层1，其中，卷积层1为conv[384,5,3]，第二层为池化层1，其中，池化层1为max[4]，第三层为卷积层2，其中，卷积层2为conv[384,6,4]，第四层为卷积层3，其中，卷积层3为conv[256,5,2]，且第一阈值设定为0.96。那么，基于上述RPN模型对任一原始图像x进行文本信息识别的具体流程如下：

卷积层1将原始图像x作为输入图像，并对原始图像x进行锐化处理，以及将锐化处理过的原始图像x输出图像x1；

池化层1将输出图像x1作为输入图像，并对输出图像x1使用最大值池化的方式进行压缩处理，将压缩处理后的输出图像x1作为输出图像x2；

卷积层2将输出图像x2作为输入图像，并对输出图像x2的特征图进行文本标定，确定若干候选文本样本；

卷积层3将若干候选文本样本作为输入，并对若干候选文本样本进行文本信息识别，其中，RPN模型最后输出时，采用两个输出层(cls和reg)，由reg输出各个候选文本样本在原始图像x中的区域位置，以及由cls输出上述各个候选文本样本在原始图像x中的区域位置包含文本信息的概率值a，并将所得概率值a中大于0.96的概率值对应的候选文本样本确定为包含文本信息的区域。

进一步地，为了提高文本信息识别的正确率，可选的，可以基于各个候选区域的形状比例(如，长宽比例)进行分类，然后，再基于分类情况，进行文本信息识别，这是因为不同形状的候选区域放在一起识别，识别正确率不高。

本申请实施例中，筛选出上述目标区域建议网络模型识别过程中大于等于设定的第二阈值对应的候选区域，并将其输入至预设的目标行分类器模型中，以进行进一步的识别，进而确定识别结果是否正确，其中，第二阈值小于等于第一阈值。

具体的，在预设的行分类器模型中，可按照经验值为输入的候选文本样本的形状比例(以下以长宽比例为例进行说明)划分多个区间，而且一个区间对应一个子行分类器，这样，归属不同区间下的不同候选文本样本就能采用对应的子行分类器进行训练，使得训练结果更为准确，其中，所有的子行分类器均采用卷积神经网络(Convolutional NeuralNetworks，CNN)结构，即，所有的子行分类器的网络结构均相同，且一个子行分类器的CNN结构至少包括一个卷积层，至少一个池化层和至少一个全连接层，且最后一层为全连接层。

本申请实施例中，用fc[R]来表示包含R个输出单元的全连接层。任意两个相邻全连接层之间的各个节点相互连接，任一全连接层的输入神经元(即，特征图)与输出神经元的个数可以相同也可以不同，其中，若上述任一全连接层不是最后一个全连接层，那么，上述任一全连接层的输入神经元和输出神经元就是特征图。例如，参阅图6所示，本申请实施例中，通过全连接层进行降维处理，将3个输入神经元转化为两个输出神经元的示意图，具体转化公式如下：

其中，X1，X2和X3上述任一为全连接层的输入神经元，Y1和Y2为上述任一全连接层的输出神经元，Y1＝(X1*W11+X2*W21+X3*W31)，Y2＝(X1*W12+X2*W22+X3*W32)，W为X1，X2和X3在Y1和Y2上所占的权重。而本申请实施例中，行分类器模型中的最后一层全连接层只包含两个输出节点，两个输出节点的输出值分别用于表示输出候选文本样本包含文本信息的概率和不包含文本信息的概率。

本申请实施例中，以一个子行分类器a为例，假设将子行分类器a中的CNN结构设定为

即，第一层为卷积层conv[48,5,1]，第二层为池化层max[2]，第三层为卷积层conv[64,5,1]，第四层为卷积层conv[128,5,1]，第五层为池化层max[2]，第六层为卷积层conv[160,5,1]，第七层为卷积层conv[192,5,1]，第八层为池化层max[2]，第九层为卷积层conv[192,5,1]，第十层为卷积层conv[192,5,1]，第十一层为池化层max[2]，第十二层为卷积层conv[192,5,1]，第十三层为全连接层fc[3072]，第十四层为全连接层fc[3072]，第十五层为全连接层fc[2]。

进一步的，在行分类器模型中，卷积层和池化层具体操作过程与RPN模型中类似，在此不再赘述，而对于最后一层全连接层之后连接的是softmax分类器，其损失函数如下：

其中，m为训练样本的个数，x^j为为全连接层第j个节点的输出，y⁽ⁱ⁾为第i个样本的标签类别，当y⁽ⁱ⁾与j相等时，1(y⁽ⁱ⁾＝j)的值为1，否则为0，θ为网络的参数，J为损失函数值。

本申请实施例中，任意两个相邻全连接层之间的各个节点相互连接，最后一层全连接层只包含两个节点，两个节点的输出值分别表示输入候选文本样本包含文本信息的概率和不包含文本信息的概率。

上述仅以一个子行分类器a为例进行介绍，其余子行分类器的设置均可以参考上述方式，在此不再赘述。

具体的，参阅图7所示，采用行分类器模型进行文本信息识别的具体流程如下：

步骤700：筛选出初始RPN模型训练过程中所得概率值大于等于设定的第二阈值对应的候选文本样本，并将其输入至预设的初始行分类器模型中。

具体的，初始RPN模型的训练过程中，会得到每一个候选文本样本的概率值，然后，将满足设定的第二阈值(可以为一个固定值)的概率值对应的候选文本样本作为预设的初始行分类器模型的输入，这样，经过一轮筛选，能先剔除基本确定不包含文本信息的候选文本样本，然后，再对剩余的候选文本样本(极有可能包含文本信息)进行识别，有效提高了识别效率，其中，各个候选文本样本确定包含文本信息，或者，确定不包含文本信息。

例如，假设设定的第二阈值为0.3，则将在RPN模型中，概率值大于等于0.3的候选文本样本作为初始行分类器模型的输入。

步骤710：将每一个候选文本样本调整至水平方向，使得每一个候选文本样本的长边长于宽边。

具体的，将各个候选文本样本调整(如，旋转)至水平方向，使得各个目标文本样本的长边比宽边要长，具体参阅图4中A3候选框类型。

步骤720：基于初始行分类器模型，分别基于已调整至水平方向的每一个候选区域对应的形状比例区间，确定每一个候选文本样本对应的子行分类器。

具体的，按照预设的形状比例区间，对调整后的各个候选文本样本进行分类，并将各个区间下的各个候选文本样本输入至各自对应的子行分类器中。

在对调整后的各个候选文本样本进行分类前，预先划分了N个形状比例区间(以下以长宽比例区间为例进行说明)，其中，一个子行分类器对应一个形状比例区间，每一个子行分类器的网络结构相同，并且每一个子张分类器包含至少一个卷积层，至少一个池化层，以及至少一个全连接层。

例如，假设N为3，且上述三个区间设定为[1,2.5]、(2.5,5]和(5,+∞]，其中，区间[1,2.5]对应子行分类器1，区间(2.5,5]对应子行分类器2，区间(5,+∞]对应子行分类器3。

进一步地，按照预设的长宽比例区间，将调整后的各个候选文本样本进行分类。

例如，假设N为3，第一组候选文本样本集合中数目为5，经过分类，区间[1,2.5]下包含候选文本样本1和候选文本样本2，区间(2.5,5]下包含候选文本样本3和候选文本样本4，区间(5,+∞]下包含候选文本样本5。

又进一步地的，由于不同长宽比例区间对应不同的子行分类器，在按照长宽比例区间对调整后的各个候选文本样本进行分类后，将各个区间下的各个候选文本样本输入至各自对应的子行分类器中。

例如，继续沿用上例，由于候选文本样本1和候选文本样本2属于长宽比例区间[1,2.5]，因此，将候选文本样本1和候选文本样本2输入至子行分类器1中；由于候选文本样本3和候选文本样本4属于长宽比例区间(2.5,5]，因此，将候选文本样本3和候选文本样本4输入至子行分类器2中；由于，候选文本样本5属于长宽比例区间(5,+∞]，因此，将候选文本样本5输入至子行分类器3中。

步骤730：分别针对每一个子行分类器执行以下操作：基于输入的候选文本样本进行分类训练。

具体的，由于每一个子行分类器对输入的候选文本样本执行的操作过程类似，因此，基于已建立的初始行分类器模型，针对一个子行分类器进行分类训练操作的具体过程如下：

本申请实施例中，子行分类器对输入的候选文本样本进行分类训练包含了两部分，第一部分为图像处理过程，第二部分为识别过程，且子行分类器的最后一层为全连接层，且最后一层全连接层包含两个输出节点，两个节点的输出值分别表示输入候选文本样本包含文本信息的概率和不包含文本信息的概率。

具体的，子行分类器在接收到输入的候选文本样本后，基于当前的运行参数分别对接收到的各个候选文本样本进行图像处理，并获得预处理候选文本样本，其中，运行参数中至少包括至少一个卷积层使用的参数，至少一个池化层使用的参数，以及至少一个全连接层使用的参数，一个卷积层使用的参数可包含通道数、卷积核的大小和步长数，一个池化层使用的参数可包括步长数，一个全连接层使用的参数可包括输出单元的个数。

进一步地，对经过图像处理后得到的各个预处理候选文本样本进行识别，并获得各个预处理候选文本样本包含文本信息的概率值和不包含文本信息的概率值，然后对各个概率值进行判断，将所得的包含文本信息的概率值大于设定的第三阈值的预处理候选文本样本，确定为包含文本信息的区域。

在判断之前，会预先设定一个阈值，作为第三阈值，其用于最后一层全连接层判断每一个预处理候选文本样本是否包含文本信息，例如，以第三阈值为0.95为例，针对某一预处理候选文本样本输出的用于表示该预处理候选文本样本是文本信息的概率大于等于0.95，且是不是文本信息的概率小于等于0.05时，确定识别正确。当然，本申请实施例中，仅以初始第三阈值为0.95举例说明，实际应用中可以根据运维经验设置其他数值，在此不再赘述。

本申请实施例中，针对初始行分类器模型进行训练的过程，与针对初始RPN模型进行训练的过程类似，均采用分批次训练的方式进行，且在初始RPN模型训练中，已得到每一个候选文本样本包含文本信息的概率值之后，筛选出所得的各个概率值中大于等于设定的第二阈值的候选文本样本，并按照预设方法将各个候选文本样本划分为若干批次，然后，基于该若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练，以获得目标行分类器模型。

同样，由于每一批次训练的若干候选文本样本均已知确定包含文本信息，或确定不包含文本信息，因此，针对任一批次的若干候选文本样本在行分类器模型中的识别结果，与对应的实际文本信息情况进行比较，确定识别正确率，然后，基于获得识别正确率，判断该识别正确率是否大于预设的第二正确率门限值，若是，则保持当前的运行参数以及当前设定的第三阈值不变，否则，对当前的运行参数以及当前舍得的第三阈值进行相应调整，将调整后的运行参数以及调整后的第三阈值作为下一批使用的当前的运行参数以及当前设定的第三阈值，具体调整过程可参考上述针对RPN模型的调整方式，在此不再赘述。

进一步地，在基于初始行分类器模型进行训练的过程中，在判定训练过程中使用某一套运行参数和第三阈值时，连续M个批次的识别正确率均大于第二正确率门限值时，其中，M为大于等于1的正整数，则确定初始行分类器模型训练完成，然后，需要对建立的初始行分类器模型进行测试，以获得目标行分类器模型。

进一步地，先获取候选文本测试样本集合，分别将该候选文本测试样本集合中的每一个候选文本测试样本输入至训练完成后的初始行分类器模型中，并分别获得相应的测试结果，其中，一个候选文本测试样本对应一个测试结果，一个测试结果为对应的候选文本测试样本包含文本信息的概率，然后，基于获得的各个测试结果，统计当前测试的误判率，确定该误判率小于等于第二误判率门限值，则将当前的初始行分类器模型作为目标行分类器模型，若确定获得的误判率大于第二误判率门限值时，则重新建立初始行分类器模型，并重新选用候选文本样本进行训练，以获得目标行分类器模型。

至此，关于使用目标行分类器模型，基于目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值之后，筛选出所得概率值中大于等于设定的第二阈值对应的候选区域，并将每一个候选区域调整至水平方向，使每一个候选区域的长边要长于宽边，其中，第二阈值要小于等于目标区域建议网络模型中的第一阈值，然后，基于预设目标行分类器模型，分别基于已调整至水平方向的每一个候选区域对应的形状比例区间，确定每一个候选区域对应的子行分类器，其中，接着，将每一个候选区域输入至对应的子行分类器中，并分别通过每一个子行分类器计算相应的各个候选区域包含文本信息的概率值，以及将大于等于设定的第三阈值的概率值对应的候选区域确定为包含文本信息的区域。

例如，假设行分类器模型包含3个子行分类器，即，划分了3个长宽比例区间(如，[1,2.5]、(2.5,5]和(5,+∞])，且分别对应子行分类器a、子行分类器b和子行分类器c，上述3个子行分类器结构均设定为：第一层为卷积层1，其中，卷积层1为conv[384,5,3]，第二层为池化层1，其中，池化层1为max[4]，第三层为卷积层2，其中，卷积层2为conv[384,6,4]，第四层为全连接层1，其中，全连接层1为f_c[2]，且第三阈值为0.97。那么，若候选文本样本y判定属于(2.5,5]区间，则基于(2.5,5]对应的子行分类器b对候选文本样本y进行文本信息识别的具体流程如下：

卷积层1将候选文本样本y作为输入图像，并对候选文本样本y进行锐化处理，以及将锐化处理过的候选文本样本y作为输出图像y1；

池化层1将输出图像y1作为输入图像，并对输出图像y1使用最大值池化的方式进行压缩处理，将压缩处理后的输出图像y1作为输出图像y2；

卷积层2将输出图像y2作为输入图像，并对输出图像y2的特征图进行文本标定，确定若干候选区域；

全连接层1将若干候选区域作为输入，并对若干候选区域进行分类处理，其中，最后一层全连接层只包含两个输出节点，两个输出节点的输出值分别用于表示输出候选文本样本包含文本信息的概率值c和不包含文本信息的概率值d(c和d总和为1)，若存在有候选文本样本对应的概率值c大于等于0.97，且对应的概率值d小于等于0.03，则判定该候选文本样本为包含文本信息的区域。

下面将对本申请实施例在实际业务场景中的应用作进一步详细说明，具体的，本申请实施例中，服务器对用户上传的待识别图像进行文本信息识别的详细流程如下：

首先，区域建议网络模型接收用户上传的待识别图像。

其次，区域建议网络模型接收到用户触发的图像处理指令时，对待识别图像进行图像处理，得到预处理图像，并将预处理图像呈现给用户。

具体的，对待识别图像进行图像处理，可以包括对待识别图像进行至少一次卷积处理，至少一次池化处理。

接着，区域建议网络模型接收到用户触发的文本信息识别指令时，获取预处理图像中的每一个像素点对应的候选框集合中每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值。

最后，区域建议网络模型将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

然而，在计算每一个候选区域包含文本信息的概率值之后，还能基于上述文本信息识别过程进行进一步识别，具体的，进行进一步识别的具体流程如下：

首先，基于接收用户触发的筛选指令，筛选出概率值大于等于设定的第二阈值的候选区域，形成候选区域集合。

接着，接收到用户触发的新的文本信息识别指令时，按照预先划分的形状比例区间，确定候选区域集合中的每一个候选区域所属的形状比例区间对应的子行分类器，并将候选区域集合中的每一个候选区域输入至对应的子行分类器中，以及分别通过每一个子行分类器计算相应的各个候选区域包含文本信息的概率值，其中，一个形状比例区间对应一个子行分类器；

最后，将大于等于设定的第三阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

下面将对本申请实施例在实际业务场景中的应用作进一步详细说明，具体的：

首先，向用户提供识别操作界面；

接着，接收用户基于识别操作界面上传的待识别图像；

最后，接收到用户基于识别操作界面触发的文本信息识别指令时，将待识别图像发送至对应的服务器，并触发服务器对待识别图像进行文本信息识别，以及接收服务器返回的待识别图像中包含文本信息的区域，并将待识别图像中包含文本信息的区域以候选框形式呈现给用户。

基于上述实施例，参阅图8所示，本申请实施例中，第一种文本信息识别装置，至少包括图像处理单元80，候选框确定单元81、候选区域确定单元82和判定单元83，其中，

图像处理单元80，用于基于预设的目标区域建议网络模型，对待识别图像进行图像处理，获得预处理图像；

候选框确定单元81，用于分别确定预处理图像中的每一个像素点对应的候选框集合，其中，一个像素点对应的候选框集合，为以所述一个像素点为中心，按照预设比例集合确定的封闭图形集合；

候选区域确定单元82，用于基于所述目标区域建议网络模型，分别确定每一个候选框映射至待识别图像后对应的候选区域；

判定单元83，用于基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值，并将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域。

可选的，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值时，所述判定单元83用于：

可选的，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值之后，所述判定单元83进一步用于：

可选的，进一步包括第一训练单元84，所述第一训练单元84用于：

可选的，基于所述若干批次的图像样本，对预设的初始RPN模型进行分批次训练，所述第一训练单元84用于：

可选的，对所述一个批次内包含的任一预处理图像样本进行文本信息识别，并获得所述任一预处理图像样本包含文本信息的概率值，基于所述任一预处理图像样本包含文本信息的概率值和当前设定的第一阈值，获得相应的文本信息识别结果时，所述第一训练单元84用于：

可选的，进一步包括第一测试单元85，所述第一测试单元85用于：

获取图像测试样本集合；

可选的，进一步包括第二训练单元86，所述第二训练单元86用于：

可选的，基于所述若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练时，所述第二训练单元86用于：

可选的，进一步包括第二测试单元87，所述第二测试单元87用于：

获取候选文本测试样本集合；

基于上述实施例，参阅图9所示，本申请实施例中，第二种文本信息识别装置，至少包括图像接收单元90、预处理单元91、第一处理单元92和确定单元93，其中，

图像接收单元90，用于区域建议网络模型接收用户上传的待识别图像；

预处理单元91，用于区域建议网络模型接收到用户触发的图像处理指令时，对所述待识别图像进行图像处理，获得预处理图像，并将预处理图像呈现给用户；

第一处理单元92，用于区域建议网络模型接收到用户触发的文本信息识别指令时，获取所述预处理图像中的每一个像素点对应的候选框集合中每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值；

确定单元93，用于区域建议网络模型将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

可选的，对所述待识别图像进行图像处理时，所述预处理单元91具体用于：

可选的，进一步包括第二处理单元94，所述第二处理单元94用于：

基于上述实施例，参阅图10所示，本申请实施例中，第三种文本信息识别装置，至少包括用户操作单元100，图像接收单元101和处理单元102，其中，

用户操作单元100，用于区域建议网络模型向用户提供识别操作界面；

图像接收单元101，用于区域建议网络模型接收用户基于所述识别操作界面上传的待识别图像；

处理单元102，用于区域建议网络模型接收到用户基于所述识别操作界面触发的文本信息识别指令时，将所述待识别图像发送至对应的服务器，并触发所述服务器对所述待识别图像进行文本信息识别，以及接收所述服务器返回的所述待识别图像中包含文本信息的区域，并将所述待识别图像中包含文本信息的区域以候选框形式呈现给用户。

综上所述，本申请实施例中，通过训练预先建立了一个RPN模型，并基于该RPN模型，为待识别图像中每一个像素点考虑了多种候选框，其中，一个候选框为以一个像素点为中心按照预设比例集合确定的封闭图形，然后，基于该RPN模型，对输入的待识别图像进行图像处理，并确定经图像处理后得到的预处理图像中每一个像素点的每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值，并将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，这样，可以根据实际情况对预设比例集合进行灵活配置，而且，基于预设比例集合的灵活性，能充分考虑到多种类型的封闭图形，相应的增加了候选框的丰富性，从而增大了对文本信息进行覆盖的准确性，降低了因无法准确提取文本信息而导致的误判率，进而提高了模型识别的准确率，增加了用户体验。

进一步地，本申请实施例中，为了进一步提高文本信息识别的正确率，基于RPN模型，还提供了一种行分类器模型，以进行进一步的图像处理和识别，具体的，从RPN模型中得到的所有候选区域中，挑选出满足设定的第二阈值的候选区域，其中，第二阈值相对于RPN模型中的第一阈值来说较低，之所以设定一个较低的阈值，是为了剔除无效输入，如，基本已确定不再包含文本信息的候选区域，然后，再将挑选出的候选区域作为行分类器模型的输入，并按照输入的各个候选区域的形状比例，确定各个候选区域对应的预设的形状比例区间，其中，一个形状比例区间对应一个子行分类器，接着，基于确定的形状比例区间，确定各个候选区域对应的子行分类器，最后，由各个子行分类器对各自对应的候选区域进行识别，这样，通过按照形状比例区间对候选区域进行分类，使得归属同一形状比例区间的候选区域具有相似的区域特征，而由于子行分类器也是根据形状比例区间划分的，因此，对于输入至同一子行分类器的候选区域来说，能更加突出自身的区域特征，有利于提高子行分类器对其进一步识别的正确率，从而能解决因不同形状的候选区域堆积在一起进行识别而导致识别正确率不高的问题，而且，多个子行分类器同时执行识别操作，还能提高行分类器模型的处理速率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本信息识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值，包括：

基于所述目标区域建议网络模型内的外接框回归层中预设的损失函数，分别计算每一个候选区域在待识别图像中的区域位置；

基于所述目标区域建议网络模型内的外接框分类层中预设的损失函数，分别计算每一个候选区域对应的区域位置包含文本信息的概率值。

3.如权利要求1所述的方法，其特征在于，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值之后，进一步包括：

4.如权利要求1、2或3所述的方法，其特征在于，基于预设的目标区域建议网络模型，对待识别图像进行图像处理之前，进一步包括：

5.如权利要求4所述的方法，其特征在于，基于所述若干批次的图像样本，对预设的初始RPN模型进行分批次训练，包括：

6.如权利要求5所述的方法，其特征在于，对所述一个批次内包含的任一预处理图像样本进行文本信息识别，并获得所述任一预处理图像样本包含文本信息的概率值，基于所述任一预处理图像样本包含文本信息的概率值和当前设定的第一阈值，获得相应的文本信息识别结果，包括：

分别将所述每一个候选框在图像样本中对应的候选区域与对应的真值区域进行比对，确定每一个候选区域对应的重叠比例，并将重叠比例取值最大的候选区域，以及重叠比例取值大于第一预设值的候选区域，确定为候选文本样本；

7.如权利要求6所述的方法，其特征在于，所述预设比例集合至少包括面积元素、长宽比例元素和角度元素。

8.如权利要求4所述的方法，其特征在于，对预设的初始RPN模型进行分批次训练之后，获得目标区域建议网络模型之前，进一步包括：

获取图像测试样本集合；

9.如权利要求6所述的方法，其特征在于，分别计算每一个候选文本样本包含文本信息的概率值之后，进一步包括：

10.如权利要求9所述的方法，其特征在于，基于所述若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练，包括：

11.如权利要求9所述的方法，其特征在于，对预设的初始行分类器模型进行分批次训练之后，获得目标行分类器模型之前，进一步包括：

获取候选文本测试样本集合；

12.一种图像识别方法，其特征在于，包括：

区域建议网络模型接收用户上传的待识别图像；

所述区域建议网络模型接收到用户触发的图像处理指令时，对所述待识别图像进行图像处理，获得预处理图像，并将预处理图像呈现给用户；

所述区域建议网络模型接收到用户触发的文本信息识别指令时，获取所述预处理图像中的每一个像素点对应的候选框集合中每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值；

所述区域建议网络模型将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

13.如权利要求12所述的方法，其特征在于，对所述待识别图像进行图像处理，具体包括：

14.如权利要求12所述的方法，其特征在于，计算每一个候选区域包含文本信息的概率值之后，进一步包括：

15.一种文本信息识别方法，其特征在于，包括：

区域建议网络模型向用户提供识别操作界面；

所述区域建议网络模型接收用户基于所述识别操作界面上传的待识别图像；

所述区域建议网络模型接收到用户基于所述识别操作界面触发的文本信息识别指令时，将所述待识别图像发送至对应的服务器，并触发所述服务器对所述待识别图像进行文本信息识别，以及接收所述服务器返回的所述待识别图像中包含文本信息的区域，并将所述待识别图像中包含文本信息的区域以候选框形式呈现给用户。

16.一种文本信息识别装置，其特征在于，包括：

17.如权利要求16所述的装置，其特征在于，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值时，所述判定单元用于：

18.如权利要求16所述的装置，其特征在于，基于所述目标区域建议网络模型分别计算每一个候选区域包含文本信息的概率值之后，所述判定单元进一步用于：

19.如权利要求16、17或18所述的装置，其特征在于，进一步包括第一训练单元，所述第一训练单元用于：

在基于预设的RPN模型，对待识别图像进行图像处理之前，执行以下操作：

20.如权利要求19所述的装置，其特征在于，基于所述若干批次的图像样本，对预设的初始RPN模型进行分批次训练时，所述第一训练单元用于：

21.如权利要求20所述的装置，其特征在于，对所述一个批次内包含的任一预处理图像样本进行文本信息识别，并获得所述任一预处理图像样本包含文本信息的概率值，基于所述任一预处理图像样本包含文本信息的概率值和当前设定的第一阈值，获得相应的文本信息识别结果时，所述第一训练单元用于：

22.如权利要求21所述的装置，其特征在于，所述预设比例集合至少包括面积元素、长宽比例元素和角度元素。

23.如权利要求19所述的装置，其特征在于，进一步包括第一测试单元，所述第一测试单元用于：

获取图像测试样本集合；

24.如权利要求21所述的装置，其特征在于，进一步包括第二训练单元，所述第二训练单元用于：

25.如权利要求24所述的装置，其特征在于，基于所述若干批次的候选文本样本，对预设的初始行分类器模型进行分批次训练时，所述第二训练单元用于：

26.如权利要求24所述的装置，其特征在于，进一步包括第二测试单元，所述第二测试单元用于：

获取候选文本测试样本集合；

27.一种图像识别装置，其特征在于，包括：

预处理单元，用于所述区域建议网络模型接收到用户触发的图像处理指令时，对所述待识别图像进行图像处理，获得预处理图像，并将预处理图像呈现给用户；

第一处理单元，用于所述区域建议网络模型接收到用户触发的文本信息识别指令时，获取所述预处理图像中的每一个像素点对应的候选框集合中每一个候选框映射至待识别图像后对应的候选区域，以及计算每一个候选区域包含文本信息的概率值；

确定单元，用于所述区域建议网络模型将大于等于设定的第一阈值的概率值对应的候选区域确定为包含文本信息的区域，并呈现给用户。

28.如权利要求27所述的装置，其特征在于，对所述待识别图像进行图像处理时，所述预处理单元具体用于：

29.如权利要求27所述的装置，其特征在于，进一步包括第二处理单元，所述第二处理单元用于：

30.一种文本信息识别装置，其特征在于，包括：

图像接收单元，用于所述区域建议网络模型接收用户基于所述识别操作界面上传的待识别图像；

处理单元，用于所述区域建议网络模型接收到用户基于所述识别操作界面触发的文本信息识别指令时，将所述待识别图像发送至对应的服务器，并触发所述服务器对所述待识别图像进行文本信息识别，以及接收所述服务器返回的所述待识别图像中包含文本信息的区域，并将所述待识别图像中包含文本信息的区域以候选框形式呈现给用户。