CN110443140A

CN110443140A - 文本定位的方法、装置、计算机设备及存储介质

Info

Publication number: CN110443140A
Application number: CN201910606491.7A
Authority: CN
Inventors: 苏智辉; 孙强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-12
Anticipated expiration: 2039-07-05
Also published as: CN110443140B

Abstract

本发明实施例提供一种文本定位的方法，属于计算机技术领域。该文本定位的方法包括接收待识别的背景图片；选用预先训练好的文本划分模型识别该背景图片中的文本信息的位置，该文本划分模型为通过实例分割网络Mask‑RCNN创建的模型；若识别出该背景图片中包含有文本信息，则输出该文本信息的位置，否则，输出该背景图片未包含文本信息的提示。本申请突破了现有的对文字的文本框进行划分的方法，改进为根据文字的笔画进行文本划分，通过机器学习得到文本识别模型，利用该文本识别模型将背景图片中文字的边界划分出来，可以有效的在背景图片中划分出包围各文本的边界，并大大地减少了网络中有些文本字段被误切分以及误融合的情况，提高文本识别精度。

Description

文本定位的方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及文本定位的方法、装置、计算机设备及存储介质。

背景技术

现有技术中对文本的识别方式是通过划分出文本框的边界来划分文本，通过对检测网络中的文本进行定位划分出文本的边界，目前这种文本划分方法容易造成文本框误切分或者误融合的问题。例如，当两行文字的行间距较小时，现有的这种文本划分方法容易将两行文字划分在一个文本框中；当一个文字的左边部分与右边部分、或者上面部分与下面部分的分界比较分明时，容易将一个文字误划分为两个文字，导致文本的识别精度无法达到要求。

发明内容

本发明实施例提供文本定位的方法、装置、计算机设备及存储介质，可以在背景图片中更精确的定位出文本信息的位置。

根据本发明的一个方面提供的一种文本定位的方法，该方法包括：

接收待识别的背景图片；

选用预先训练好的文本划分模型识别该背景图片中的文本信息的位置，该文本划分模型为通过实例分割网络Mask-RCNN创建的模型；

若识别出该背景图片中包含有文本信息，则输出该文本信息的位置，否则，输出该背景图片未包含文本信息的提示。

进一步地，该选用预先训练好的文本划分模型识别该背景图片中的文本信息的位置的步骤包括：

识别该背景图片中文本信息的字符；

对识别出的该字符添加外边界；

该输出该文本信息的位置的步骤包括：

显示该背景图片及该外边界。

进一步地，训练该文本划分模型的步骤包括：

获取样本图片的特征映射的中心点及该中心点的伸缩纵横比；

根据该中心点及该中心点的纵横比确定候选框；

对该候选框进行二值分类，保存目标覆盖率大于预设值的候选框；

若保存的该候选框与该样本图片中的文本信息的位置不相符，则调整所述特征框的位置并重复该二值分类的步骤，直至该保存的该候选框与该样本图片中的文本信息的位置相对应。

进一步地，在该获取样本图片的特征映射的中心点的步骤之前，训练该文本划分模型的步骤还包括：

对该样本图片进行翻转、裁剪、亮度灰度调节中的至少一种处理。

进一步地，若识别出所述背景图片中未包含有文本信息，则通过语音播报和/或文字提醒的方式输出未识别到文本信息的消息提醒。

根据本发明的另一方面提供的一种文本定位的装置，该装置包括：

图片接收模块，用于接收待识别的背景图片；

位置识别模块，用于选用预先训练好的文本划分模型识别该背景图片中的文本信息的位置，该文本划分模型为通过实例分割网络Mask-RCNN创建的模型；

位置输出模块，用于若识别出该背景图片中包含有文本信息，则输出该文本信息的位置，否则，输出该背景图片未包含文本信息的提示。

进一步地，该位置识别模块包括：

字符识别单元，用于识别该背景图片中文本信息的字符；

边界添加单元，用于对识别出的该字符添加外边界；

该位置输出模块具体用于显示该背景图片及该外边界。

进一步地，该装置还包括：

特征获取模块，用于获取样本图片的特征映射的中心点及该中心点的伸缩纵横比；

候选框确定模块，用于根据该中心点及该中心点的纵横比确定候选框；

保存模块，用于对该候选框进行二值分类，保存目标覆盖率大于预设值的候选框；

回归模块，用于若保存的该候选框与该样本图片中的文本信息的位置不相符，则调整所述特征框的位置并重复该二值分类的步骤，直至该保存的该候选框与该样本图片中的文本信息的位置相对应。

根据本发明的再一方面提供的一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现上述的文本定位的方法。

根据本发明的还一方面提供的一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述文本定位的方法中的步骤。

本发明通过利用实例分割网络Mask-RCNN对样本图片进行训练，得到样本划分模型，该样本划分模型用于将背景图片中的像素分为文本像素和非文本像素，将被划分为文本像素的集合进行输出即可得到文本位置。本申请突破了现有的对文字的文本框进行划分的方法，改进为根据文字的笔画进行文本划分，通过机器学习得到文本识别模型，利用该文本识别模型将背景图片中文字的边界划分出来，可以有效的在背景图片中划分出包围各文本的边界，并大大地减少了网络中有些文本字段被误切分以及误融合的情况，提高文本识别精度。

附图说明

图1为根据本发明的一个实施例的文本定位的方法的流程图；

图2为根据本发明的另一实施例的文本定位的方法的流程图；

图3为根据本发明的一个实施例的训练该文本划分模型的流程图；

图4为根据本发明的一个实施例的窗口映射示意图；

图5为根据本发明的一个实施例的文本定位的装置的示范性结构框图；

图6为根据本发明的一个实施例的计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为根据本发明的一个实施例的文本定位的方法的流程图，下面结合图1来详细描述根据本发明的一个实施例的文本定位的方法的流程图，如图1所示，该文本定位的方法包括以下步骤S101至S103。

S101、接收待识别的背景图片。

在其中一个实施例中，上述的文本信息包括但不限于文字，数字和标点符号。所述待识别的背景图片可以是拍摄得到的照片，扫描得到的图片，下载得到的图片等等。

S102、选用预先训练好的文本划分模型识别该背景图片中的文本信息的位置，该文本划分模型为通过实例分割网络Mask-RCNN创建的模型。

在其中一个实施例中，上述步骤S102中通过实例分割网络Mask-RCNN进行机器学习，实例分割网络Mask-RCNN是一种在背景图片中分割出相同类别的对象的模型创建方法。

在该实施例中，调整实例分割网络Mask-RCNN中锚点的横纵比和输出层，控制样本的输入形态，调整后的锚点的伸缩纵横比为8.2、2.3、11.8、3.6、7.4，将输出层改为文本区域和非文本区域，即将实例分割网络Mask-RCNN中最后一层的分类数改成2；

在其中一个实施例中，利用调整后的实例分割网络Mask-RCNN对样本数据进行训练，直至训练误差在预设范围内，例如置信度为0.95，使得训练结果接近真值，以得到文本识别模型。

在其中一个实施例中，输入的所述样本为不同用户的身份证图片。

S103、若识别出该背景图片中包含有文本信息，则输出该文本信息的位置，否则，输出该背景图片未包含文本信息的提示。

在其中一个实施例中，所述字符包括文字、数字、字母、标点符号。

在其中一个实施例中，所述输出该背景图片未包含文本信息的提示的步骤可以是：

若识别出所述背景图片中未包含有文本信息，则通过语音播报和/或文字提醒的方式输出未识别到文本信息的消息提醒。

在其中一个实施例中，当识别出所述背景图片中包含有文本信息时，可以直接在所述背景图片中输出对应位置的文本信息，若识别出所述背景图片中未包含有文本信息，则可通过多种方式进行输出提醒，例如语音播报、文字提醒、输出至其他计算机设备进行提醒等。

在该实施例中，文本信息的位置输出方式可以是将文本的外围边界显示出来。

本实施例通过利用实例分割网络Mask-RCNN对样本图片进行训练，得到样本划分模型，该样本划分模型用于将背景图片中的像素分为文本像素和非文本像素，将被划分为文本像素的集合进行输出即可得到文本位置。本申请突破了现有的对文字的文本框进行划分的方法，改进为根据文字的笔画进行文本划分，通过机器学习得到文本识别模型，利用该文本识别模型将背景图片中文字的边界划分出来，可以有效的在背景图片中划分出包围各文本的边界，并大大地减少了网络中有些文本字段被误切分以及误融合的情况，提高文本识别精度。

图2为根据本发明的另一实施例的文本定位的方法的流程图，如图2所示，该文本定位的方法在包括上述步骤S101的基础上，上述步骤S102进一步包括以下步骤S1021及S1022。

S1021、选用预先训练好的文本划分模型识别该背景图片中的文本信息的字符，该文本划分模型为通过实例分割网络Mask-RCNN创建的模型。

S1022、对识别出的该字符添加外边界。

上述步骤S103进一步为以下步骤S1031：

S1031、若识别出该背景图片中包含有文本信息，则显示该背景图片及该外边界，否则，输出该背景图片未包含文本信息的提示。

图3为根据本发明的一个实施例的训练该文本划分模型的流程图，在本实施例中，训练该文本划分模型的步骤包括以下S001至S004。

S001、获取样本图片的特征映射的中心点及该中心点的伸缩纵横比。

在其中一个实施例中，所述中心点及所述中心点的伸缩纵横比通过设定得到。

本实施例可以将预处理后的样本图输入到一个预训练好的神经网络中(ResNeXt等)获得对应的特征映射的中心点，上述训练好的神经网络不限于ResNeXt神经网络，也可以是ResNet50/ResNet101/VGG16等神经网络，本实施例通过调整神经网络的输出参数，将特征映射的输出参数设为五，即可得到五个中心点，中心点压缩到最小时为一个像素，对中心点进行放大时，得到的是一块区域。

S002、根据该中心点及该中心点的纵横比确定候选框。

在其中一个实施例中，所述中心点的个数为1，所述伸缩纵横比的个数为5，对应的伸缩比分别为8.2 2.3 11.8 3.6 7.4，表示每一个候选框均可以上述五中比例的形式存在，一共可以得到25个候选框。

S003、对该候选框进行二值分类，保存目标覆盖率大于预设值的候选框。

在其中一个实施例中，该步骤S003的目的在于过滤掉一些不符合覆盖率的ROI特征框，为提高文本识别准确率，本实施例将过滤的覆盖参数设定为0.6，表示对应的ROI框中，目标覆盖率大于0.6就留下，目标覆盖率小于等于0.6的就舍弃。该步骤中的目标覆盖率既包括文本区域的覆盖率，也包括非文本区域的覆盖率。

在该实施例中，BB回归的目的是对ROI特征框的位置进行微调，使得微调后特征框的位置与背景图片中的真实位置更接近。

S004、若保存的该候选框与该样本图片中的文本信息的位置不相符，则调整所述特征框的位置并重复该二值分类的步骤，直至该保存的该候选框与该样本图片中的文本信息的位置相对应。

在其中一个实施例中，在所述获取样本图片的特征映射的中心点的步骤之前，所述训练该文本划分模型的步骤还包括对所述样本图片预处理，预处理的步骤具体可以是：

在样本使用之前对所述样本图片进行预处理可以扩大样本范围，使得训练得到的文本识别模型更加精确的划分出文本的边界。

其中，传统的Mask R-CNN算法步骤一般包括以下六个步骤，为便于说明，以下步骤1)-6)表示现有的Mask R-CNN算法：

1)，输入一幅你想处理的带文本的图片，或者输入预处理后的图片；

2)，将其输入到一个预训练好的神经网络中(ResNeXt等)获得对应的特征映射feature map，默认输出的特征映射的中心点为三个；

3)，对这个特征映射feature map中的三个点设定3个的ROI(Region ofInterest，特征图上的框)，从而获得9个候选ROI；

4)，将这些候选的9个ROI送入RPN网络(RegionProposal Network，区域生成网络)进行二值分类(前景或背景)和BB(Barzilar Borwein)回归，过滤掉一部分候选的ROI；

5)，对这些剩下的ROI进行ROIAlign操作(即先将原图和feature map特征映射的像素pixel对应起来，然后将特征映射feature map和固定的特征feature对应起来)；

6)，对这些ROI进行分类(N类别分类)、BB回归和MASK掩模生成(在每一个ROI里面进行FCN[Fully Convolutional Networks for Semantic Segmentation，全卷积网络]的特征分层操作)。

其中，MASK掩模生成方式是用选定的图像、图形或物体，对处理的图像(全部或局部)进行遮挡，来控制图像处理的区域或处理过程，掩模的用法在于用预先制作的感兴趣区掩模与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变，而区外图像值都为0。

上述现有的Mask R-CNN算法一般是用于处理背景里同一类的图像，并不适用于文本行回归，如果直接用现有的Mask R-CNN算法做文本行回归，不仅回归的慢并且准确率也不高，本申请请求保护的技术方案通过调整Mask R-CNN算法中的中心点的纵横伸缩比，使得调整后的算法能够进行高效的文本回归，用于将背景图片中的文字直接找出来。

下面对应的步骤a)-f)表示将该算法应用于本申请方案中的实际处理，本实施例中文本划分模型的步骤主要包括：

a)，对多张样本图进行对应的翻转、裁剪、亮度灰度调节等预处理操作，可以是对10000张样本图片进行预处理，这些预处理操作的目的是为了扩大样本中文本区域的显示状态，提高文本的辨识度。

b)，将预处理后的样本图输入到一个预训练好的神经网络中(ResNeXt等)获得对应的特征映射的中心点，上述训练好的神经网络不限于ResNeXt神经网络，也可以是ResNet50，ResNet101，VGG16神经网络，本实施例通过调整神经网络的输出参数，将特征映射的输出参数设为五，即可得到五个伸缩比，中心点压缩到最小时为一个像素，对中心点进行放大时，得到的是一块区域。

c).获取预先设置的中心点伸缩的五个纵横比，分别为8.2 2.3 11.8 3.67.4，共可得到25个候选ROI；

d).将这些候选的25个ROI送入RPN网络进行二值分类(前景或背景)和BB回归，过滤掉一些不符合覆盖率的ROI特征框，为提高文本识别准确率，本实施例将过滤的覆盖参数设定为0.6，表示对应的ROI框中，目标覆盖率大于0.6就留下，目标覆盖率小于等于0.6的就舍弃。该步骤中的目标覆盖率既包括文本区域的覆盖率，也包括非文本区域的覆盖率。

在该实施例中，BB回归的目的是对ROI特征框的位置进行微调，使得微调后特征框的位置与背景图片中的真实位置更接近。下面以下图中的中心点anchor为例的其中一个特征框来详细描述该BB回归算法。

对于特征框的窗口一般使用四维向量(x，y，w，h)来表示，分别表示窗口的中心点坐标和宽高，图4为根据本发明的一个实施例的窗口映射示意图，如图4所示，框1中的P代表原始的中心点，框3中的G代表目标的真实位置点，我们的目标是寻找一种关系使得输入原始窗口P经过映射得到一个跟真实窗口G更接近的回归窗口G’。

即：给定(Px,Py,Pw,Ph),寻找一种映射f，使得：

f(Px,Py,Pw,Ph)＝(G’x,G’y,G’w,G’h)≈(Gx,Gy,Gw,Gh)

在其中一个实施例中，可以通过对坐标进行平移和缩放来寻找这种映射关系。

(1)平移：设定△x＝Pw dx(P),△y＝Ph dy(P)

(2)尺度缩放：(Sw，Sh)，Sw＝Pw dw(P),Sh＝Ph dh(P)

Gw＝Pw e dw(P)

Gh＝Ph e dh(P)

从上述四个公式可以看出，需要学习的是dx(P)、dy(P)、dw(P)和dy(P)这四个变换，现在对于这种BB回归中偏移量的学习技术已经相对成熟，在此就不再赘述了。

e),将上述步骤中筛选留下的ROI特征框与原图中实际位置对应起来。

f).将位置对应后的ROI特征框分为两类，分别为文本框和非文本框，文本框用1表示，非文本框用0表示，然后对这些ROI特征框进行BB回归和MASK掩模生成，最终得到适用于本方案的文本识别模型。

最后利用修正后的文本识别模型即可在新的背景图片中高效准确的找出文本的位置。

相比于传统的Mask R-CNN算法，本申请将RPN网络(RegionProposal Network，区域生成网络)中锚点anchor的值设置为5，表示框选同一中心像素的框的个数有5个，并将各锚点的伸缩纵横比设为8.2 2.3 11.8 3.6 7.4，表示在背景图参与回归框一共有25个(在原有的Mask R-CNN算法中，框选同一中心像素的框只有三个，比例分别是0.5、1、2，传统的Mask R-CNN算法中一共有9个框参与回归)。

本实施例根据文本的笔画特性设定了特征框特有的纵横比，使得采用本申请在背景中划分出包围各文本的边界比较准确，有利于在背景图片中准确、快速的找到文本的位置。

根据本实施例的一个示例，上述步骤S001～S103的标号并不用于限定本实施例中各个步骤的先后顺序，各个步骤的编号只是为了使得描述各个步骤时可以通用引用该步骤的标号进行便捷的指代，例如上述步骤S001至S004可以在S101的步骤之前，也可以在步骤S101的步骤之后，只要各个步骤执行的顺序不影响本实施例的逻辑关系即可。

其中，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

图5为根据本发明的一个实施例的文本定位的装置的示范性结构框图，下面结合图5来详细描述根据本发明的一个实施例的文本定位的装置，如图5所示，该文本定位的装置100包括：

图片接收模块11，用于接收待识别的背景图片；

位置识别模块12，用于选用预先训练好的文本划分模型识别该背景图片中的文本信息的位置，该文本划分模型为通过实例分割网络Mask-RCNN创建的模型；

位置输出模块13，用于若识别出该背景图片中包含有文本信息，则输出该文本信息的位置，否则，输出该背景图片未包含文本信息的提示。

在其中一个实施例中，该位置识别模块包括：

字符识别单元，用于识别该背景图片中文本信息的字符；

边界添加单元，用于对识别出的该字符添加外边界；

该位置输出模块具体用于显示该背景图片及该外边界。

在其中一个实施例中，该文本定位的装置100还包括：

回归模块，用于若保存的该候选框与该样本图片中的文本信息的位置不相符，则调整该候选框的位置并重复该二值分类的步骤，直至该保存的该候选框与该样本图片中的文本信息的位置相对应。

其中，该文本定位的装置中包括的各个模块可全部或部分通过软件、硬件或其组合来实现。进一步地，该文本定位的装置中的各个模块可以是用于实现对应功能的程序段。

上述文本定位的装置可以实现为一种计算机程序的形式，计算机程序可以在如图6所示的计算机设备上运行。

本实施例还用于提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

在其中一个实施例中，所述处理器执行所述程序时还实现以下步骤：

接收待识别的背景图片；

识别该背景图片中文本信息的字符；

对识别出的该字符添加外边界；

显示该背景图片及该外边界。

根据该中心点及该中心点的纵横比确定候选框；

若保存的该候选框与该样本图片中的文本信息的位置不相符，则调整该候选框的位置比并重复该二值分类的步骤，直至该保存的该候选框与该样本图片中的文本信息的位置相对应。

在其中一个实施例中，所述处理器执行所述程序时还实现以下步骤：对该样本图片进行翻转、裁剪、亮度灰度调节中的至少一种处理。

在其中一个实施例中，所述处理器执行所述程序时还实现以下步骤：若识别出所述背景图片中未包含有文本信息，则通过语音播报和/或文字提醒的方式输出未识别到文本信息的消息提醒。

图6为一个实施例中计算机设备的内部结构示意图，该计算机设备可以为PC(personal computer)机、服务器或服务器组。参照图6，该计算机设备包括通过系统总线连接的处理器、存储器、输入装置、显示屏和网络接口。其中，该存储器包括非易失性存储介质和内存储器，该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令，该计算机可读指令被执行时，可使得处理器执行本申请各实施例的一种文本定位的方法，该方法的具体实现过程可参考图1至4各实施例的具体内容，在此不再赘述。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种文本定位的方法。计算机设备的输入装置用于各个参数的输入，计算机设备的显示屏用于进行显示，计算机设备的网络接口用于进行网络通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例另提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述文本定位的方法中的各个步骤。

在其中一个实施例中，所述处理器执行所述程序时实现所述方法时，还用于实现以下步骤：

接收待识别的背景图片；

识别该背景图片中文本信息的字符；

对识别出的该字符添加外边界；

显示该背景图片及该外边界。

根据该中心点及该中心点的纵横比确定候选框；

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本定位的方法，其特征在于，所述方法包括：

接收待识别的背景图片；

选用预先训练好的文本划分模型识别所述背景图片中的文本信息的位置，所述文本划分模型为通过实例分割网络Mask-RCNN创建的模型；

若识别出所述背景图片中包含有文本信息，则输出所述文本信息的位置，否则，输出所述背景图片未包含文本信息的提示。

2.根据权利要求1所述的方法，其特征在于，所述选用预先训练好的文本划分模型识别所述背景图片中的文本信息的位置的步骤包括：

识别所述背景图片中文本信息的字符；

对识别出的所述字符添加外边界；

所述输出所述文本信息的位置的步骤包括：

显示所述背景图片及所述外边界。

3.根据权利要求1所述的方法，其特征在于，训练所述文本划分模型的步骤包括：

获取样本图片的特征映射的中心点及所述中心点的伸缩纵横比；

根据所述中心点及所述中心点的纵横比确定候选框；

对所述候选框进行二值分类，保存目标覆盖率大于预设值的候选框；

若保存的所述候选框与所述样本图片中的文本信息的位置不相符，则调整所述特征框的位置比并重复所述二值分类的步骤，直至所述保存的所述候选框与所述样本图片中的文本信息的位置相对应。

4.根据权利要求3所述的方法，其特征在于，在所述获取样本图片的特征映射的中心点的步骤之前，训练所述文本划分模型的步骤还包括：

对所述样本图片进行翻转、裁剪、亮度灰度调节中的至少一种处理。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.一种文本定位的装置，其特征在于，所述装置包括：

图片接收模块，用于接收待识别的背景图片；

位置识别模块，用于选用预先训练好的文本划分模型识别所述背景图片中的文本信息的位置，所述文本划分模型为通过实例分割网络Mask-RCNN创建的模型；

位置输出模块，用于若识别出所述背景图片中包含有文本信息，则输出所述文本信息的位置，否则，输出所述背景图片未包含文本信息的提示。

7.根据权利要求6所述的装置，其特征在于，所述位置识别模块包括：

字符识别单元，用于识别所述背景图片中文本信息的字符；

边界添加单元，用于对识别出的所述字符添加外边界；

所述位置输出模块具体用于显示所述背景图片及所述外边界。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

特征获取模块，用于获取样本图片的特征映射的中心点及所述中心点的伸缩纵横比；

候选框确定模块，用于根据所述中心点及所述中心点的纵横比确定候选框；

保存模块，用于对所述候选框进行二值分类，保存目标覆盖率大于预设值的候选框；

回归模块，用于若保存的所述候选框与所述样本图片中的文本信息的位置不相符，则调整所述特征框的位置比并重复所述二值分类的步骤，直至所述保存的所述候选框与所述样本图片中的文本信息的位置相对应。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项的文本定位的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5任一项所述方法中的步骤。