CN113762259A

CN113762259A - 文本定位方法、装置、计算机系统和可读存储介质

Info

Publication number: CN113762259A
Application number: CN202010912570.3A
Authority: CN
Inventors: 谢树雷; 赖荣凤; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2021-12-07
Anticipated expiration: 2040-09-02

Abstract

本公开提供了一种文本定位方法、装置、计算机系统和计算机可读存储介质。其中，文本定位方法包括：获取待定位文本图像；将待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；根据第一特征图确定待定位文本图像中文本内容的至少一个初始区域；根据第二特征图确定待定位文本图像中文本内容的边界；以及根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域。

Description

文本定位方法、装置、计算机系统和可读存储介质

技术领域

本公开涉及计算机视觉技术领域，更具体地，涉及一种文本定位方法、装置、计算机系统和计算机可读存储介质。

背景技术

计算机视觉技术是一种涉及人工智能、图像处理和模式识别等诸多领域的技术。光学符号识别技术(OCR)是利用计算机视觉技术将图像中的文字信息提取并转换为人和计算机可以理解的文本，而文本定位方法是影响OCR中信息提取的关键。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题，基于分割的文本检测方法比较灵活，但是对于长文本在文本检测时容易产生检测框断开的情况，导致字符被分割，文本定位不准确，进而影响识别结果。

发明内容

有鉴于此，本公开提供了一种文本定位方法、装置、计算机系统和计算机可读存储介质。

本公开的一个方面提供了一种文本定位方法，包括：获取待定位文本图像；将所述待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；根据所述第一特征图确定所述待定位文本图像中文本内容的至少一个初始区域；根据所述第二特征图确定所述待定位文本图像中文本内容的边界；以及根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域。

根据本公开的实施例，上述的文本定位方法，还包括：所述分割网络模型通过如下方式训练得到：获取具有第一特征图输出通道和第二特征图输出通道的训练模型，其中，所述第一特征图输出通道对应第一损失函数，所述第二特征图输出通道对应第二损失函数；获取标注有角点坐标的文本图像训练集，其中，所述文本图像训练集中每帧文本图像的角点坐标用于确定所述文本图像中文本内容的真实文本区域和真实文本边界；将所述文本图像训练集中的文本图像输入所述训练模型；通过所述第一特征图输出通道输出预测文本区域；通过所述第二特征图输出通道输出预测文本边界；将所述真实文本区域和所述预测文本区域输入所述第一损失函数，得到第一损失值；将所述真实文本边界和所述预测文本边界输入第二损失函数，得到第二损失值；根据所述第一损失值调整所述第一特征图输出通道的模型参数，根据所述第二损失值调整所述第二特征图输出通道的模型参数，直到所述第一损失函数和所述第二损失函数收敛；以及在所述第一损失函数和所述第二损失函数收敛的情况下，将当前得到的训练模型作为所述分割网络模型。

根据本公开的实施例，通过所述第一特征图输出通道输出预测文本区域包括：根据所述角点坐标得到第一输出边界；将所述第一输出边界向内收缩第一预设数量的像素后得到第二输出边界；以及将所述第二输出边界内的区域作为所述预测文本区域。

根据本公开的实施例，通过所述第二特征图输出通道输出预测文本边界包括：根据所述角点坐标得到第一输出边界；将所述第一输出边界向内收缩所述第一预设数量的像素后得到第二输出边界；以及将所述第一输出边界和所述第二输出边界之间的区域作为所述预测文本边界。

根据本公开的实施例，根据所述第一损失值调整所述第一特征图输出通道的模型参数，根据所述第二损失值调整所述第二特征图输出通道的模型参数，直到所述第一损失函数和所述第二损失函数收敛还包括：为所述第一损失函数设置第一系数，其中，所述第一系数表征在训练所述训练模型的过程中所述第一损失函数的比例；为所述第二损失函数设置第二系数，其中，所述第二系数表征在训练所述训练模型的过程中所述第二损失函数的比例，所述第一系数加上所述第二系数等于1；以及调节所述第一系数和所述第二系数的值，直至所述第一损失函数和所述第二损失函数收敛。

根据本公开的实施例，根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域包括：计算所述至少一个初始区域中的每个所述初始区域与所述边界各自围成的区域之间的重合度；在所述重合度大于第一预设值的情况下，根据所述边界确定所述目标定位区域；以及在所述重合度等于0的情况下，根据所述初始区域确定所述目标定位区域。

根据本公开的实施例，计算所述至少一个初始区域中的每个所述初始区域与所述边界各自围成的区域之间的重合度包括：在所述初始区域具有至少两个的情况下，计算每两个所述初始区域之间的距离；确定所述距离小于第二预设值的至少两个所述初始区域；以及计算所述距离小于第二预设值的至少两个所述初始区域中的每个所述初始区域与所述边界各自围成的区域之间的重合度。

根据本公开的实施例，根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域还包括：将所述边界向外扩充第一预设数量的像素；将所述初始区域向外扩充所述第一预设数量的像素；以及将扩充后的所述边界内的区域或扩充后的所述初始区域作为所述目标定位区域。

本公开的另一个方面提供了一种文本定位装置，包括：获取模块，用于获取待定位文本图像；分割网络模块，用于将所述待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；第一确定模块，用于根据所述第一特征图确定所述待定位文本图像中文本内容的至少一个初始区域；第二确定模块，用于根据所述第二特征图确定所述待定位文本图像中文本内容的边界；以及第三确定模块，用于根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域。

本公开的另一方面提供了一种计算机系统，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，通过采用了获取待定位文本图像；将待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；根据第一特征图确定待定位文本图像中文本内容的至少一个初始区域；根据第二特征图确定待定位文本图像中文本内容的边界；以及根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域的技术手段，由于增加了用于约束文本内容的边界，所以至少部分地克服了对于长文本在文本检测时容易产生检测框断开而导致的部分字符被分割进而导致文本内容定位不准确的技术问题，进而达到了基于分割的文本检测方法在实现文本内容定位时的定位区域的高度完整性与更高稳定性的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用文本定位方法的示例性应用环境；

图2示意性示出了根据本公开实施例的文本定位方法的流程图；

图3示意性示出了根据本公开实施例的分割网络模型的示例性架构图；

图4示意性示出了根据本公开实施例的分割网络模型的训练过程的流程图；

图5示意性示出了根据本公开实施例的根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域的第一种示例性实施例；

图6示意性示出了根据本公开实施例的根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域的第二种示例性实施例；

图7示意性示出了根据本公开的实施例的文本定位装置的框图；以及

图8示意性示出了根据本公开实施例的适于实现上文描述的文本定位方法的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

光学符号识别技术(OCR)是利用计算机视觉技术将图像中的文字提取转换为人和计算机可以理解的文本。OCR技术提取是目前计算机视觉领域的研究分支之一。利用OCR技术提取证件(例如可以为车牌、身份证、银行卡或驾驶证等)图像中的关键字段信息，然后以结构化的结果返回给用户是OCR技术目前应用最广泛的场景，而文本定位方法是影响OCR中信息提取的关键，对文本进行精确定位和矫正有利于提高图像中文本信息识别的准确率。目前文本检测的主要方法包括基于分割的文本检测方法(如：EAST，u-net，CRAFT等基于分割的方法)和基于物体检测器及其变种的文本检测方法(如Faster-crnn，SSD，yolo，CTPN等物体检测方法)。

发明人在实现本公开构思的过程中发现，在待检测文本为文本行数过长或文本内容过多过杂的长文本的情况下，可能会因长文本内容排版的复杂性，导致每一个文本检测框只能检测到部分的文本内容，同时，文本内容的检测是针对具体的文本扫描结果的预测，预测结果必然不像理论结果那样可以保证绝对的准确性，例如可能会漏掉一些存在于文本内容的边界的字或词，导致文本检测不准确。另一方面，在复杂的长文本排版方式和可能漏掉的字或词的共同影响下，可能进一步导致针对长文本内容的检测框产生断裂或断开，例如本来属于同一部分的文本内容被检测至不同的检测框中，此时就需要遍历所有的文本检测框才能获知完整的长文本内容。因此，基于分割的文本检测方法在面对长文本检测时可能容易导致文本检测框不稳定，甚至产生检测框断开的情况，而检测框断开可能会导致字符识别不全(即字符被分割)，进而导致文本定位不准确，影响识别结果。

本公开的实施例提供了一种文本定位方法、装置、计算机系统和计算机可读存储介质。该方法包括获取待定位文本图像；将待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；根据第一特征图确定待定位文本图像中文本内容的至少一个初始区域；根据第二特征图确定待定位文本图像中文本内容的边界；以及根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域。

图1示意性示出了根据本公开实施例的可以应用文本定位方法的示例性应用环境100。需要注意的是，图1所示仅为可以应用本公开实施例的应用环境的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的应用环境100可以包括信息采集设备101、终端设备102、103或104，和网络105。网络105用以在信息采集设备101和终端设备102、103或104之间提供通信链路的介质。网络105可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用信息采集设备101通过网络105与终端设备102、103或104交互，以实现信息的读取与处理。或者可以直接由终端设备102、103或104通过其自带的信息采集及处理软件等实现信息处理功能。终端设备102、103或104上可以安装有各种实现信息处理的应用，例如图像识别类应用、图像处理类应用等，终端设备102、103或104上还可以安装有各种实现信息采集的应用，例如摄像头或其他具有扫描功能的应用等，终端设备102、103或104上还可以安装有可同时实现信息采集和处理的应用。

信息采集设备101可以是具有信息采集功能的各种终端装置或设备，包括但不限于扫描仪、照相机等。

终端设备102、103或104可以是具有显示屏并且支持信息展示的各种电子设备，例如对用户利用信息采集设备101所采集到的图像信息提供识别处理功能的智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

需要说明的是，本公开实施例所提供的文本定位方法一般可以由终端设备102、103或104执行，或者也可以由不同于终端设备102、103或104的其他终端设备执行。相应地，本公开实施例所提供的文本定位装置一般可以由该终端设备102、103或104实现，或者也可以由不同于终端设备102、103或104的其他终端设备实现。

本公开实施例所提供的文本定位方法也可以由信息采集设备101与终端设备102、103或104相结合执行。相应地，本公开实施例所提供的文本定位装置也可以由该信息采集设备101和终端设备102、103或104组合实现。

例如，从与终端设备102、103或104通信的外部采集设备(例如可以为信息采集设备101)得到。然后，信息采集设备101可以将待定位文本图像发送到终端设备(例如可以为终端设备102、103或104)，并由接收该待定位文本图像的终端设备来执行本公开实施例所提供的文本定位方法。

应该理解，图1中的信息采集设备和终端设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的信息采集设备和终端设备。

图2示意性示出了根据本公开实施例的文本定位方法的流程图。

如图2所示，该方法包括操作S201～S205。

在操作S201，获取待定位文本图像。

根据本公开的实施例，待定位文本图像例如可以为身份证、驾照等证件图像，或者可以为银行凭条、商品发票等票据图像，又或者可以为期刊、论文等文件图像，或是其他广告、标签等信息类图像等。

根据本公开的实施例，待定位文本图像的获取方式例如可以通过扫描仪扫描得到，或者可以通过照相机、摄像机或其他方式采集得到。

在操作S202，将待定位文本图像输入分割网络模型，输出第一特征图和第二特征图。

根据本公开的实施例，分割网络模型包括一个输入和两个输出，对输入和输出之间的神经网络结构不做具体限定。第一特征图和第二特征图为针对同一待定位文本图像的不同处理结果。

根据本公开的实施例，在获取到上述的待定位文本图像后，可以先进行图像预处理，消除无关信息，提取包含有有效信息的部分区域图像，然后将该包含有有效信息的部分区域图像输入至上述分割网络模型，得到针对该包含有有效信息的部分区域图像的第一特征图和第二特征图的输出结果。

在操作S203，根据第一特征图确定待定位文本图像中文本内容的至少一个初始区域。

根据本公开的实施例，第一特征图可以为包括一个或多个具有不规整边界的初始区域的特征图像，该具有不规整边界的初始区域对应上述部分区域图像中检测到的部分或全部有效信息。

需要说明的是，该有效信息包括但不限于是文本内容。

在操作S204，根据第二特征图确定待定位文本图像中文本内容的边界。

根据本公开的实施例，第二特征图可以为包括一个或多个由不规整线条构成的初始边界的特征图像，该由不规整线条构成的初始边界对应上述部分区域图像中的全部或部分检测到的有效信息的边界。

需要说明的是，上述的一个初始边界可以和上述的一个初始区域对应至同一段有效信息，上述的一个初始边界也可以和上述的一个初始区域的部分区域对应至同一段有效信息，上述的一个初始边界也可以和上述的多个初始区域对应至同一段有效信息，或者上述的一个初始边界也可以和上述的初始区域对应至不同的有效信息。

在操作S205，根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域。

根据本公开的实施例，上述具有不规整边界的初始区域和由不规整线条构成的初始边界首先经过拟合计算得到具有规整边界的初始区域和由规整线条构成的初始边界，然后根据该规整化后的初始区域和初始边界确定针对上述部分区域图像中的有效信息的目标定位区域，根据该目标定位区域进行文本定位。

通过本公开的上述实施例，由于在文本定位时不只是检测得到与文本内容相关的预测区域，由预测区域实现定位，还针对待定位文本图像中的文本内容增加了一个边界约束，使得在进行文本内容的检测时还增加了一个关于文本内容的边界的检测，通过区域和边界的协同作用，可进一步保证检测到的文本内容的完整性，以及在多次检测或在预测区域的数目过多的情况下，通过边界的作用可同时保证目标定位区域的稳定性，从而可有效解决基于分割的文本检测方法在面向长文本检测的过程中进行文本定位时的文本框断裂的问题。

下面参考图3～图6，结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的分割网络模型的示例性架构图。

根据本公开的实施例，如图3所示，对每次训练过程，将包含有文本内容的文本图像通过input(输入)模块输入至训练模型，然后经过一系列卷积与反向卷积的过程实现预测结果的输出，其中，O-1输出预测文本区域，O-2输出预测文本边界。

根据本公开的实施例，上述的卷积和反向卷积的过程包括：C-1(第一卷积模块)，对输入的文本图像进行下采样，输出特征图大小为input层的1/2；C-2(第二卷积模块)，对C-1特征图进行下采样，输出特征图大小为C-1层的1/2；C-3(第三卷积模块)，对C-2特征图进行下采样，输出特征图大小为C-2层的1/2；C-4(第四卷积模块)，对C-3特征图进行下采样，输出特征图大小与C-3层的一致；U-1(第一反向卷机模块)，对C-4特征图进行上采样后同C-3特征图进行合并输出，输出特征图大小为C-4特征图的2倍；U-2(第二反向卷机模块)，对U-1特征图进行上采样后同C-2特征图进行合并输出，输出特征图大小为U-1特征图的2倍；U-3(第三反向卷机模块)，对U-2特征图进行上采样后同C-1特征图进行合并输出，输出特征图大小为U-2特征图的2倍；C-5(第五卷积模块)，对U-3输出特征图进行卷积，不改变特征图大小；O-1(第一特征图输出通道)，输出第一特征图，该第一特征图的分辨率同前述输入的文本图像的分辨率大小一致，该第一特征图具有针对前述输入的文本图像的预测文本区域，该预测文本区域例如为图3中左边的白色方框区域；以及O-2(第二特征图输出通道)，输出第二特征图，该第二特征图的分辨率同前述输入的文本图像的分辨率大小一致，该第二特征图具有针对前述输入的文本图像的预测文本边界，该预测文本边界例如为图3中右边的白色条形框区域。

需要说明的是，图3中的从input到C-5之间的网络结构可以使用任意的分割网络结构，由O-1输出的预测文本区域和由O-2输出的预测文本边界的的分辨率大小，在此均不做限定。

图4示意性示出了根据本公开实施例的分割网络模型的训练过程的流程图。

参见图3和图4所示，上述操作S202中的分割网络模型的训练过程例如可以为如下的操作S401～S409。

在操作S401，获取具有第一特征图输出通道和第二特征图输出通道的训练模型，其中，第一特征图输出通道对应第一损失函数，第二特征图输出通道对应第二损失函数。

根据本公开的实施例，如图3所示，为针对本公开的分割网络模型设计的示例性的训练模型结构。其中，O-1为第一特征图输出通道，在训练过程中为O-1设置分割相关的第一损失函数，O-2为第二特征图输出通道，在训练过程中为O-2设置分割相关的第二损失函数，该第一损失函数和第二损失函数均用于训练模型收敛。

在操作S402，获取标注有角点坐标的文本图像训练集，其中，文本图像训练集中每帧文本图像的角点坐标用于确定文本图像中文本内容的真实文本区域和真实文本边界。

根据本公开的实施例，以图3中输入的文本图像为例，该文本图像为一张包含有文本内容的图片，将其作为上述文本图像训练集中的其中一帧文本图像，因该文本内容为一句规整的文字，因此其角点坐标为该文本内容区域的四个角点在该文本图像中的位置坐标，如四个点坐标可以为：(10，300)、(220，300)、(220，320)和(10，320)，该坐标可以通过相关软件或应用直接获取得到。真实文本区域和真实文本边界均通过该角点坐标直接计算得到。

根据本公开的实施例，将上述的角点坐标连线后得到第一边界，将第一边界向内收缩w像素后得到的第二边界。真实文本区域为第二边界内的区域，真实文本边界为第一边界和第二边界之间的区域形成的边界。

在操作S403，将上述文本图像训练集中的文本图像输入上述训练模型。

根据本公开的实施例，在将每一帧文本图像输入至训练模型之前，均需要进行上述的针对文本区域的角点坐标的获取与标记，以根据角点坐标的连线确定针对每一帧文本图像的真实文本区域和真实文本边界。

需要说明的是，文本内容通常不会如上述那样呈现整体规整的一句话展示，而通常为具有参差结构的段落，在此种情况下，角点坐标可以为针对某一整段内容的四个角点位置的坐标，也可以为针对该整段内容中的单行或部分行或部分语句的角点位置的坐标，在此不做限定。

在操作S404，通过上述第一特征图输出通道输出预测文本区域。

根据本公开的实施例，该操作还包括：根据上述角点坐标得到第一输出边界；将第一输出边界向内收缩第一预设数量的像素后得到第二输出边界；以及将第二输出边界内的区域作为预测文本区域。

根据本公开的实施例，第一输出边界对应上述真实文本区域的第一边界，第二输出边界对应上述真实文本区域的第二边界，第一预设数量的像素为w。

在操作S405，通过上述第二特征图输出通道输出预测文本边界。

根据本公开的实施例，该操作还包括：根据上述角点坐标得到第一输出边界；将第一输出边界向内收缩第一预设数量的像素后得到第二输出边界；以及将第一输出边界和第二输出边界之间的区域作为预测文本边界。

在操作S406，将上述真实文本区域和预测文本区域输入第一损失函数，得到第一损失值。

根据本公开的实施例，如图3所示，预测文本区域为训练模型O-1输出的黑底白框特征图。其中，黑色部分(像素设置为0)为输入该训练模型的文本图像的非文本区域，白色部分(像素设置为1)为该文本图像经过训练模型的预测后得到的文本区域向内收缩w像素后形成的区域。需要说明的是，该O-1输出的特征图和该特征图对应的文本图像具有相同大小的分辨率。

根据本公开的实施例，根据上述计算得到的真实文本区域和上述预测得到的预测文本区域并结合第一损失函数得到第一损失值。

在操作S407，将上述真实文本边界和预测文本边界输入第二损失函数，得到第二损失值。

根据本公开的实施例，如图3所示，预测文本边界为训练模型O-2输出的黑底白条框特征图。其中，白条框外部的黑色部分(像素设置为0)为输入该训练模型的文本图像的非文本区域，白条框内部的黑色部分(像素设置为0)为该文本图像经过训练模型的预测后得到的文本区域向内收缩w像素后形成的区域，白条框部分(像素设置为1)为该收缩的w像素形成的区域。需要说明的是，该O-2输出的特征图和该特征图对应的文本图像具有相同大小的分辨率。

根据本公开的实施例，根据上述计算得到的真实文本边界和上述预测得到的预测文本边界并结合第二损失函数得到第二损失值。

在操作S408，根据第一损失值调整第一特征图输出通道的模型参数，根据第二损失值调整第二特征图输出通道的模型参数，直到第一损失函数和第二损失函数收敛。

根据本公开的实施例，该操作还包括：为上述第一损失函数设置第一系数，其中，第一系数表征在训练上述训练模型的过程中第一损失函数的比例；为上述第二损失函数设置第二系数，其中，第二系数表征在训练上述训练模型的过程中第二损失函数的比例，第一系数加上第二系数等于1；以及调节第一系数和第二系数的值，直至第一损失函数和第二损失函数收敛。

根据本公开的实施例，设置第一系数r₁和第二系数r₂，其中，r₁+r₂＝1。并使用r₁和r₂调节训练模型中O-1和O-2对应的损失函数的比例。例如，开始训练时为设置r₁＝0.7，r₂＝0.3，训练过程中根据训练情况逐渐减小r₁的值，增大r₂的值，最终设置r₁＝0.3，r₂＝0.7，指导模型收敛。在本实施例中，r₁＝0.3，r₂＝0.7时为训练模型的收敛状态最好的情况下的r₁和r₂的取值。

在操作S409，在上述第一损失函数和第二损失函数收敛的情况下，将当前得到的训练模型作为分割网络模型。

根据本公开的实施例，根据上述训练得到的分割网络模型对待定位文本图像中的文本内容进行预测得到第一特征图和第二特征图。

根据本公开的实施例，上述w值的确定方式，例如可以为首先获取文本图像训练集的每一帧文本图像中关于文本内容的角点标注，然后统计所有标注的字段高度h，并将h按照从小到大排序，之后将所有的h舍去最小的10％和最大的10％计算平均值h_avg，最终得到w＝h_avg*0.18。但不限于此，例如还可以为根据实际情况人为设置得到。

通过本公开的上述实施例，为传统的分割网络结构增加了第二特征图输出通道，用于进行针对待定位文本图像的文本内容的边界区域的预测，该增加的第二特征图输出通道为边界约束提供了软件环境，从而在进行针对文本内容的文本区域预测的同时还进行边界预测，有利于根据双面预测结果保证最终的文本定位的准确性。

根据本公开的实施例，上述操作S205还包括：计算上述至少一个初始区域中的每个初始区域与上述边界各自围成的区域之间的重合度；在该重合度大于第一预设值的情况下，根据该边界确定目标定位区域；以及在该重合度等于0的情况下，根据初始区域确定目标定位区域。

图5示意性示出了根据本公开实施例的根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域的第一种示例性实施例。

如图5所示，待定位文本图像在经过分割网络模型预测并经拟合规整化后得到规整化的第一待定位文本特征图，该第一待定位文本特征图中包括文本边界A，以及文本区域B、C、D和E。在确定目标定位区域的过程中，首先将文本区域B、C、D和E和文本边界A分别进行比较，得到每个文本区域与文本边界A的重合度(IOU)，只有在IOU大于第一预设值或等于0的情况下，才能根据文本边界或文本区域确定目标定位区域，其他情况下的文本区域视为检测错误，直接舍弃。

根据图5所示的实施例，文本区域B和文本边界A的重合度小于第一预设值，则直接舍弃文本区域B；文本区域C和D与文本边界A的重合度大于第一预设值，且文本区域D和文本边界A的重合度为1，则根据文本边界A确定目标定位区域A’；文本区域E和文本边界A的重合度为0，则根据文本区域E确定目标定位区域E’。

根据本公开的实施例，上述计算至少一个初始区域中的每个初始区域与上述边界各自围成的区域之间的重合度还包括：在上述初始区域具有至少两个的情况下，计算每两个初始区域之间的距离；确定该距离小于第二预设值的至少两个初始区域；以及计算该距离小于第二预设值的至少两个初始区域中的每个初始区域与上述边界各自围成的区域之间的重合度。

需要说明的是，上述第二预设值可根据实际场景调整。

图6示意性示出了根据本公开实施例的根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域的第二种示例性实施例。

如图6所示，待定位文本图像在经过分割网络模型预测并经拟合规整化后得到规整化的第二待定位文本特征图，该第二待定位文本特征图中包括文本边界M，以及文本区域X、Y和Z。在确定目标定位区域的过程中，首先计算文本区域X、Y和Z两两之间相隔的距离，在该距离小于第二预设值的情况下，再分别将文本区域X、Y和Z与文本边界M进行重复度比较。

根据图6所示的实施例，文本区域X和文本区域Y之间，以及文本区域X和文本区域Z之间的距离均小于第二预设值，文本区域X和文本区域Z均可匹配至文本边界M，但文本区域Y与文本边界M的重复度小于第一预设值，即文本区域Y不可匹配至文本边界M，文本区域Y与文本区域X对应的文本边界不同。在此种情况下，文本区域X和文本区域Z可能为检测得到的断裂的文本框，可以通过文本边界M确定目标定位区域M’，以将可能为断裂关系的文本区域X和文本区域Z进行合并，进而得到文本内容更完整的文本区域的定位。

需要说明的是，上述第二预设值可以为基于文本区域的宽度计算得到，例如假设两个文本区域b1，b2，对应的文本区域的宽度为W_b1，W_b2当两个文本区域之间的距离小于min(W_b1，W_b2)*0.15并且对应的文本边界为同一个的情况下，应该将两个文本区域合并为一个。但对第二预设值的确定方式不做具体限定，例如还可以通过其他方式计算得到或人为设定得到。

根据本公开的实施例，上述操作S205还包括：将边界向外扩充第一预设数量的像素；将初始区域向外扩充第一预设数量的像素；以及将扩充后的边界内的区域或扩充后的初始区域作为目标定位区域。

根据图5所述的实施例，根据文本边界A确定目标定位区域A’时，将文本边界A向外扩充第一预设数量的像素得到目标定位区域A’。根据文本区域E确定目标定位区域E’时，将文本区域E向外扩充第一预设数量的像素得到目标定位区域E’。

根据图6所述的实施例，通过文本边界M确定目标定位区域M’时，将文本边界M向外扩充第一预设数量的像素得到目标定位区域M’。

通过本公开的上述实施例，由于目标定位区域为基于边界约束确定，可有效解决长文本检测时文本区域断裂的问题，从而保证文本内容定位的准确性与完整性。

图7示意性示出了根据本公开的实施例的文本定位装置的框图。

如图7所示，文本定位装置700包括获取模块710、分割网络模块720、第一确定模块730、第二确定模块740和第三确定模块750。

获取模块710，用于获取待定位文本图像.

分割网络模块720，用于将待定位文本图像输入分割网络模型，输出第一特征图和第二特征图。

第一确定模块730，用于根据第一特征图确定待定位文本图像中文本内容的至少一个初始区域。

第二确定模块740，用于根据第二特征图确定待定位文本图像中文本内容的边界。

第三确定模块750，用于根据文本内容的边界和至少一个初始区域确定文本内容的目标定位区域。

根据本公开的实施例，针对上述文本定位装置的分割网络模块，还包括一个训练过程，实现该训练过程的模块包括第一获取子模块、第二获取子模块、第一输入子模块、第一输出子模块、第二输出子模块、第二输入子模块、第三输入子模块、调整子模块和定义子模块。

需要事先说明的是，实现该训练过程的上述模块只作用于分割网络模块的训练阶段，在训练完成后，该些模块将暂时不再发挥作用，直到需要进行下一次训练时才重新启动。

第一获取子模块，用于获取具有第一特征图输出通道和第二特征图输出通道的训练模型，其中，第一特征图输出通道对应第一损失函数，第二特征图输出通道对应第二损失函数。

第二获取子模块，用于获取标注有角点坐标的文本图像训练集，其中，文本图像训练集中每帧文本图像的角点坐标用于确定文本图像中文本内容的真实文本区域和真实文本边界。

第一输入子模块，用于将文本图像训练集中的文本图像输入训练模型。

第一输出子模块，用于通过第一特征图输出通道输出预测文本区域。

第二输出子模块，用于通过第二特征图输出通道输出预测文本边界。

第二输入子模块，用于将真实文本区域和预测文本区域输入第一损失函数，得到第一损失值。

第三输入子模块，用于将真实文本边界和预测文本边界输入第二损失函数，得到第二损失值。

调整子模块，用于根据第一损失值调整第一特征图输出通道的模型参数，根据第二损失值调整第二特征图输出通道的模型参数，直到第一损失函数和第二损失函数收敛。

定义子模块，用于在第一损失函数和第二损失函数收敛的情况下，将当前得到的训练模型作为分割网络模型。

根据本公开的实施例，上述文本定位装置中的第一输出子模块还包括第一得到单元、第二得到单元和第一定义单元。

第一得到单元，用于根据角点坐标得到第一输出边界。

第二得到单元，用于将第一输出边界向内收缩第一预设数量的像素后得到第二输出边界。

第一定义单元，用于将第二输出边界内的区域作为预测文本区域。

根据本公开的实施例，上述文本定位装置中的第二输出子模块还包括第三得到单元、第四得到单元和第二定义单元。

第三得到单元，用于根据角点坐标得到第一输出边界。

第四得到单元，用于将第一输出边界向内收缩第一预设数量的像素后得到第二输出边界。

第二定义单元，用于将第一输出边界和所述第二输出边界之间的区域作为预测文本边界。

需要说明的是，第一输出子模块中的第一得到单元和第二输出子模块中的第三得到单元可以为同一个，第一输出子模块中的第二得到单元和第二输出子模块中的第四得到单元也可以为同一个。

根据本公开的实施例，上述文本定位装置中的调整子模块还包括第一设置单元、第二设置单元和调节单元。

第一设置单元，用于为第一损失函数设置第一系数，其中，第一系数表征在上述训练训练模型的过程中第一损失函数的比例。

第二设置单元，用于为第二损失函数设置第二系数，其中，第二系数表征在训练上述训练模型的过程中第二损失函数的比例，第一系数加上所述第二系数等于1。

调节单元，用于调节第一系数和第二系数的值，直至第一损失函数和第二损失函数收敛。

根据本公开的实施例，上述文本定位装置中的第三确定模块还包括计算单元、第一确定单元和第二确定单元。

计算单元，用于计算至少一个初始区域中的每个初始区域与边界各自围成的区域之间的重合度。

第一确定单元，用于在重合度大于第一预设值的情况下，根据边界确定目标定位区域。

第二确定单元，用于在重合度等于0的情况下，根据初始区域确定目标定位区域。

根据本公开的实施例，上述文本定位装置中第三确定模块中的计算单元还包括第一计算子单元、确定子单元和第二计算子单元。

第一计算子单元，用于在初始区域具有至少两个的情况下，计算每两个初始区域之间的距离。

确定子单元，用于确定距离小于第二预设值的至少两个初始区域。

第二计算子单元，用于计算距离小于第二预设值的至少两个初始区域中的每个初始区域与边界各自围成的区域之间的重合度。

根据本公开的实施例，上述文本定位装置中的第三确定模块还包括第一扩充单元、第二扩充单元和第三定义单元。

第一扩充单元，用于将边界向外扩充第一预设数量的像素。

第二扩充单元，用于将初始区域向外扩充第一预设数量的像素。

第三定义单元，用于将扩充后的边界内的区域或扩充后的初始区域作为目标定位区域。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块710、分割网络模块720、第一确定模块730、第二确定模块740和第三确定模块750中的任意多个可以合并在一个模块/子模块/单元/子单元中实现，或者其中的任意一个模块/子模块/单元/子单元可以被拆分成多个模块/子模块/单元/子单元。或者，这些模块/子模块/单元/子单元中的一个或多个模块/子模块/单元/子单元的至少部分功能可以与其他模块/子模块/单元/子单元的至少部分功能相结合，并在一个模块/子模块/单元/子单元中实现。根据本公开的实施例，获取模块710、分割网络模块720、第一确定模块730、第二确定模块740和第三确定模块750中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、分割网络模块720、第一确定模块730、第二确定模块740和第三确定模块750中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中文本定位装置部分与本公开的实施例中文本定位方法部分是相对应的，文本定位装置部分的描述具体参考文本定位方法部分，在此不再赘述。

图8示意性示出了根据本公开实施例的适于实现上文描述的文本定位方法的计算机系统的框图。图8示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，根据本公开实施例的计算机系统800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种文本定位方法，包括：

获取待定位文本图像；

将所述待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；

根据所述第一特征图确定所述待定位文本图像中文本内容的至少一个初始区域；

根据所述第二特征图确定所述待定位文本图像中文本内容的边界；以及

根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域。

2.根据权利要求1所述的方法，还包括：所述分割网络模型通过如下方式训练得到：

获取具有第一特征图输出通道和第二特征图输出通道的训练模型，其中，所述第一特征图输出通道对应第一损失函数，所述第二特征图输出通道对应第二损失函数；

获取标注有角点坐标的文本图像训练集，其中，所述文本图像训练集中每帧文本图像的角点坐标用于确定所述文本图像中文本内容的真实文本区域和真实文本边界；

将所述文本图像训练集中的文本图像输入所述训练模型；

通过所述第一特征图输出通道输出预测文本区域；

通过所述第二特征图输出通道输出预测文本边界；

将所述真实文本区域和所述预测文本区域输入所述第一损失函数，得到第一损失值；

将所述真实文本边界和所述预测文本边界输入第二损失函数，得到第二损失值；

根据所述第一损失值调整所述第一特征图输出通道的模型参数，根据所述第二损失值调整所述第二特征图输出通道的模型参数，直到所述第一损失函数和所述第二损失函数收敛；以及

在所述第一损失函数和所述第二损失函数收敛的情况下，将当前得到的训练模型作为所述分割网络模型。

3.根据权利要求2所述的方法，其中，通过所述第一特征图输出通道输出预测文本区域包括：

根据所述角点坐标得到第一输出边界；

将所述第一输出边界向内收缩第一预设数量的像素后得到第二输出边界；以及

将所述第二输出边界内的区域作为所述预测文本区域。

4.根据权利要求3所述的方法，其中，通过所述第二特征图输出通道输出预测文本边界包括：

根据所述角点坐标得到第一输出边界；

将所述第一输出边界向内收缩所述第一预设数量的像素后得到第二输出边界；以及

将所述第一输出边界和所述第二输出边界之间的区域作为所述预测文本边界。

5.根据权利要求2所述的方法，其中，根据所述第一损失值调整所述第一特征图输出通道的模型参数，根据所述第二损失值调整所述第二特征图输出通道的模型参数，直到所述第一损失函数和所述第二损失函数收敛还包括：

为所述第一损失函数设置第一系数，其中，所述第一系数表征在训练所述训练模型的过程中所述第一损失函数的比例；

为所述第二损失函数设置第二系数，其中，所述第二系数表征在训练所述训练模型的过程中所述第二损失函数的比例，所述第一系数加上所述第二系数等于1；以及

调节所述第一系数和所述第二系数的值，直至所述第一损失函数和所述第二损失函数收敛。

6.根据权利要求1所述的方法，其中，根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域包括：

计算所述至少一个初始区域中的每个所述初始区域与所述边界各自围成的区域之间的重合度；

在所述重合度大于第一预设值的情况下，根据所述边界确定所述目标定位区域；以及

在所述重合度等于0的情况下，根据所述初始区域确定所述目标定位区域。

7.根据权利要求6所述的方法，其中，计算所述至少一个初始区域中的每个所述初始区域与所述边界各自围成的区域之间的重合度包括：

在所述初始区域具有至少两个的情况下，计算每两个所述初始区域之间的距离；

确定所述距离小于第二预设值的至少两个所述初始区域；以及

计算所述距离小于第二预设值的至少两个所述初始区域中的每个所述初始区域与所述边界各自围成的区域之间的重合度。

8.根据权利要求1所述的方法，其中，根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域还包括：

将所述边界向外扩充第一预设数量的像素；

将所述初始区域向外扩充所述第一预设数量的像素；以及

将扩充后的所述边界内的区域或扩充后的所述初始区域作为所述目标定位区域。

9.一种文本定位装置，包括：

获取模块，用于获取待定位文本图像；

分割网络模块，用于将所述待定位文本图像输入分割网络模型，输出第一特征图和第二特征图；

第一确定模块，用于根据所述第一特征图确定所述待定位文本图像中文本内容的至少一个初始区域；

第二确定模块，用于根据所述第二特征图确定所述待定位文本图像中文本内容的边界；以及

第三确定模块，用于根据所述文本内容的边界和所述至少一个初始区域确定所述文本内容的目标定位区域。

10.一种计算机系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至8中任一项所述的方法。