CN110929721A

CN110929721A - 文本切割方法、装置、计算机设备和存储介质

Info

Publication number: CN110929721A
Application number: CN201911032363.2A
Authority: CN
Inventors: 田立文
Original assignee: Century Baozhong Beijing Network Technology Co Ltd
Current assignee: Century Baozhong Beijing Network Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-03-27

Abstract

本申请涉及一种文本切割方法、装置、计算机设备和存储介质，所述方法包括：获取待训练的文本图像，并进行分解，获得多个图像训练数据；提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型；根据所述图像训练数据对训练模型进行训练；将待测图片输入训练模型，生成关联的多个怀疑文本框；将所有关联怀疑文本框进行去重处理；将去重处理后的怀疑文本框拼接成接成连续文本框。采用本方法能从而精准切割文本，提升了文本切割的准确率和精准度。

Description

文本切割方法、装置、计算机设备和存储介质

技术领域

本申请涉及软件开发技术领域，特别是涉及一种文本切割方法、装置、计算机设备和存储介质。

背景技术

在保单(即保险单)OCR(Optical Character Recognition，光学字符识别)识别时需要将文本分行并截取，目前的方法中，一类是基于传统方式的水平投影或者垂直投影等对对象的特征提取来找到文本，另一类是基于深度学习目标检测来进行文本识别。

第一种方法常常会受到不同光线，不同角度等不确定因素的干扰而导致特征提取困难，无法用统一标准对文本进行精准截取，更无法对复杂情况的多文本，多角度进行精准定位。而第二种方法将文字作为目标进行检查，而保单在不同拍照环境常常会生成不同长度的文本，使得在截取识别时无法精准找到文本。因此，在文本图像出现扭曲歪斜而导致文本大小发生变形，或者角度发生变换时，现有技术无法对文本进行精准切割，导致误切或者漏切，这在保单OCR中很容易导致重要信息的遗漏，对用户体验很不友好。

发明内容

基于此，有必要针对上述技术问题，提供一种文本切割方法、装置、计算机设备和存储介质，从而精准切割文本，提升了文本切割的准确率和精准度。

一种文本切割方法，所述方法包括：

获取待训练的文本图像，并进行分解，获得多个图像训练数据；

提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型；

根据所述图像训练数据对训练模型进行训练；

将待测图片输入训练模型，生成关联的多个怀疑文本框；

将所有关联怀疑文本框进行去重处理；

将去重处理后的怀疑文本框拼接成接成连续文本框。

在其中一个实施例中，对待训练的文本图像进行分解包括：

获取待训练的文本图像中的文本框坐标；

将获得的文本框坐标按照设定数值宽度进行平分，并存储为图像训练数据。

在其中一个实施例中，提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型包括：

根据所述文本图像中的连接结构确定关键信息点，并获得关键信息点记录图；

将所述关键信息点记录图按照第一设定算法进行处理，确定关键信息点的顺序关系；

以关键信息点为中心确定多个怀疑框进行数据扩充；

将扩充后的怀疑框进行水平方向的回归并确定怀疑框的评分。

在其中一个实施例中，以关键信息点为中心确定多个怀疑框进行数据扩充包括：

以关键信息点为中心，确定以设定数值为像素宽，不同数值为像素高的多个怀疑框进行数据扩充。

在其中一个实施例中，还包括：

设置损失函数和训练参数，将分解得到的多个图像训练数据输入到训练模型中进行训练。

在其中一个实施例中，将所有关联怀疑文本框进行去重处理包括：

通过非极大值抑制算法对所有关联怀疑文本框进行去重处理。

在其中一个实施例中，将去重处理后的怀疑文本框拼接成接成连续文本框包括：

按照水平方向对去重处理后的怀疑文本框进行排序。

一种文本切割装置，所述装置包括：

获取模块，适于获取待训练的文本图像，并进行分解，获得多个图像训练数据；

第一怀疑文本框生成模块，适于提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型；

训练模块，适于根据所述图像训练数据对训练模型进行训练；

第二怀疑文本框生成模块，适于将待测图片输入训练模型，生成关联的多个怀疑文本框；

去重模块，适于将所有关联怀疑文本框进行去重处理；

拼接模块，适于将去重处理后的怀疑文本框拼接成接成连续文本框。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

上述文本切割方法、装置、计算机设备和存储介质，通过获取待训练的文本图像，并进行分解，获得多个图像训练数据，然后提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型，再根据所述图像训练数据对训练模型进行训练，然后将待测图片输入训练模型，生成关联的多个怀疑文本框，之后将所有关联怀疑文本框进行去重处理，最后将去重处理后的怀疑文本框拼接成接成连续文本框。从而精准切割文本，提升了文本切割的准确率和精准度。

附图说明

图1为一个实施例中一种文本切割方法的流程示意图；

图2为一个实施例中步骤S101的流程示意图；

图3为一个实施例中步骤S102的流程示意图；

图4为一个实施例中双向序列记录位置算法的示意图；

图5为一个实施例中线重构算法拼接重构的示意图；

图6为一个实施例中文本切割装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

附图中的流程图和框图，图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现预定的逻辑功能的可执行指令。也应当注意，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本文中，诸如左和右，上和下，前和后，第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作，而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

在本发明中，图片可以是任意领域和任意类型的图片，为便于表述，本发明中仅以保单(即保险单)为一种图片示例进行说明，但可以理解，其他类型的图片同样涵盖在本发明的范围内。

在一个实施例中，如图1所示，提供了一种文本切割方法，该方法可运行于智能终端中，智能终端可以是个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，也可以是独立的服务器或者是多个服务器组成的服务器集群，具体来说，该方法包括：

S101、获取待训练的文本图像，并进行分解，获得多个图像训练数据；

其中可通过图片扫描工具对多张纸质保单进行扫描，获得获取待训练的文本图像。

在某一实施例中，如图2所示，对待训练的文本图像进行分解具体包括：

S201、获取待训练的文本图像中的文本框坐标；

具体来说，可通过坐标截取工具对文本图像区域进行坐标截取，获得文本框坐标。

S202、将获得的文本框坐标按照设定数值宽度进行平分，并存储为图像训练数据。

例如，将文本坐标宽除以8进行平分，获得多个宽固定高不固定的小文本框并进行标记，在一张保单中可将文本图像作为一个因素记作1，除了文本图像的其他图像全部作为另一个因素记作0，由于只区分了两个因素，即文本和非文本的因素特性，所以任意保单图片都可以通过本发明的方案进行精准切割文本，而不受拍照的环境影响，更适用于在复杂场景应用中，同时也提升了准确率和精准度，为保单OCR文本切割提供了效率和精准度的提升。

S102、提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型；

在某一实施例中，如图3所示，S102具体包括：

S301、根据所述文本图像中的连接结构确定关键信息点，并获得关键信息点记录图；

其中，可根据文本图像的构造部分确定连接结构，以便后续将各文本框按照实际连接顺序进行连接。

S302、将所述关键信息点记录图按照第一设定算法进行处理，确定关键信息点的顺序关系；

具体地，将S301中得到的关键信息点记录图通过‘双向序列记录位置’算法将关键点信息的顺序关系进行图构造，举例来说，可通过如图4所示的方法进行图构造，其中，以文本关键点x_i作为输入，y_i作为输出进行如下运算：A′_i＝f(W′A′_i+1+U′x_i)；A_i＝f(WA_i-1+Ux_i)；y_i＝g(VA_i+V′A′_i)

S303、以关键信息点为中心确定多个怀疑框进行数据扩充；

具体地，以关键信息点为中心，确定以设定数值为像素宽，不同数值为像素高的多个怀疑框进行数据扩充。

比如，将S302中得到的图以关键信息点为中心，c＝8像素为宽，高为h＝[12、16、20、24、28、32、36、40]像素的外框作为怀疑框，自动生成多个怀疑框,作为数据进行扩充。

S304、将扩充后的怀疑框进行水平方向的回归并确定怀疑框的评分。

具体来说，可将获得的多个怀疑框进行水平方向回归，获得怀疑框的中心点坐标和高，同时对扩充的数据进行softmax分类获得怀疑框的评分。

S103、根据所述图像训练数据对训练模型进行训练；

具体地，可设置损失函数和相关训练参数，按深度学习训练模式将上述S101中获取的多个图像训练数据输入到训练模型中进行训练。

S104、将待测图片输入训练模型，生成关联的多个怀疑文本框；

具体地，可通过加载模型，将待测图片输入训练模型，生成带有中心、高数据及评分的怀疑文本框。

S105、将所有关联怀疑文本框进行去重处理；

在某一实施例中，可通过非极大值抑制算法(NMS算法)对所有关联怀疑文本框进行去重处理，阈值设置为0.2，这样获得的小文本框基本都是少部分边缘重叠，而绝大部分不重叠的数据。

S106、将去重处理后的怀疑文本框拼接成接成连续文本框。

具体来说，通过‘线重构’算法按水平方向对重处理后的所有怀疑文本框进行排序，并按照规则计算找到每一个怀疑文本框的终止框进而组成实际连续文本框对，通过实际文本框对建立连接图，最终获得精准文本框。

举例来说，如图5所示，可通过如下规则计算找到每一个怀疑文本框的终止框来组成实际连续文本框对：

a)从左向右寻找：

寻找和i水平距离小于20的怀疑文本框；从怀疑文本框中，挑出与沿水平方向评分大于0.7的记录；挑出符合条件记录中Softmax score最大的一对socre_i；

b)再从右向左寻找：

寻找和j水平距离小于20的怀疑文本框；从怀疑文本框中，挑出与沿水平方向评分大于0.7的记录；挑出符合条件记录中Softmax score最大的一对socre_j；

c)对比socre_i和socre_j:

如果socre_i>＝socre_j，则这是一个最长连接，那么设置G(i,j)＝true；

如果socre_i<socre_j，说明这不是一个最长的连接(即该连接包含在另外一个更长的连接中)。

如此，就建立了一个N*N的连接图，其中N为怀疑文本框数量。

d)遍历G：若G(i,j)＝true和G(j,z)＝true,则怀疑文本框i→j→z,组成一个文本框；通过确定的socre文本框对建立连接图，最终获得精准切割文本框。

在一个实施例中，如图6所示，提供了一种文本切割装置装置，该装置可以是具备一定计算能力的智能终端设备，例如移动手机、智能手机、PDA或平板电脑，也可以是其他可与互联网进行交互的电子设备，例如相机、穿戴电子设备、车载导航设备、设置在车站或学校等公共场所的电子交互终端，还可以是具有独立计算能力的服务器或者服务器集群，该装置适于执行上述任一基于OCR图片识别的模版定位方法，并且可以通过宽带，例如ADSL、VDSL、光纤、无线、有线电视、卫星等方式接入网络，也可通过窄带，例如电话拨号接入、GPRS、2G、3G等方式接入互联网，或者也可通过CDMA、2G、3G、4G等技术接入电信网络。具体来说，该装置包括：

获取模块601，适于获取待训练的文本图像，并进行分解，获得多个图像训练数据；

第一怀疑文本框生成模块602，适于提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型；

训练模块603，适于根据所述图像训练数据对训练模型进行训练；

第二怀疑文本框生成模块604，适于将待测图片输入训练模型，生成关联的多个怀疑文本框；

去重模块605，适于将所有关联怀疑文本框进行去重处理；

拼接模块606，适于将去重处理后的怀疑文本框拼接成接成连续文本框。

上述各个模块可以集成于处理器中运行，处理器可以是中央处理单元(“CPU”)或图形处理单元(“GPU”)，具体来说处理器可以包括一个或者多个印刷电路板或微处理模块芯片，执行计算机程序指令序列以执行上述提及的基于OCR图片识别的模版定位方法。

在某一实施例中，获取模块601进一步包括：

坐标获取单元，适于获取待训练的文本图像中的文本框坐标；

评分单元，适于将获得的文本框坐标按照设定数值宽度进行平分，并存储为图像训练数据。

在某一实施例中，第一怀疑文本框生成模块602进一步包括：

关键信息点记录图获取单元，适于根据所述文本图像中的连接结构确定关键信息点，并获得关键信息点记录图；

顺序确定单元，适于将所述关键信息点记录图按照第一设定算法进行处理，确定关键信息点的顺序关系；

怀疑框确定单元，适于以关键信息点为中心确定多个怀疑框进行数据扩充；

评分单元，适于将扩充后的怀疑框进行水平方向的回归并确定怀疑框的评分。

在某一实施例中，怀疑框确定单元进一步包括：

在某一实施例中，训练模块603进一步包括：

训练模块设置损失函数和训练参数，将分解得到的多个图像训练数据输入到训练模型中进行训练。

在某一实施例中，去重模块605进一步包括：

在某一实施例中，拼接模块606进一步包括：

按照水平方向对去重处理后的怀疑文本框进行排序。

关于文本切割装置的具体限定可以参见上文中对于文本切割方法的限定，在此不再赘述。上述基于文本切割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

S103、根据所述图像训练数据对训练模型进行训练；

S105、将所有关联怀疑文本框进行去重处理；

S106、将去重处理后的怀疑文本框拼接成接成连续文本框。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

S103、根据所述图像训练数据对训练模型进行训练；

S105、将所有关联怀疑文本框进行去重处理；

S106、将去重处理后的怀疑文本框拼接成接成连续文本框。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本切割方法，其特征在于，所述方法包括：

根据所述图像训练数据对训练模型进行训练；

将待测图片输入训练模型，生成关联的多个怀疑文本框；

将所有关联怀疑文本框进行去重处理；

将去重处理后的怀疑文本框拼接成接成连续文本框。

2.根据权利要求1所述的方法，其特征在于，对待训练的文本图像进行分解包括：

获取待训练的文本图像中的文本框坐标；

3.根据权利要求1所述的方法，其特征在于，提取文本图像中的关键信息点，根据所述关键信息点生成多个怀疑文本框，并确定训练模型包括：

以关键信息点为中心确定多个怀疑框进行数据扩充；

4.根据权利要求3所述的方法，其特征在于，以关键信息点为中心确定多个怀疑框进行数据扩充包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，将所有关联怀疑文本框进行去重处理包括：

7.根据权利要求1所述的方法，其特征在于，将去重处理后的怀疑文本框拼接成接成连续文本框包括：

按照水平方向对去重处理后的怀疑文本框进行排序。

8.一种文本切割装置，其特征在于，所述装置包括：

去重模块，适于将所有关联怀疑文本框进行去重处理；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。