CN115019310B

CN115019310B - 图文识别方法及设备

Info

Publication number: CN115019310B
Application number: CN202210934997.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-29
Anticipated expiration: 2042-08-05
Also published as: CN115019310A

Abstract

本发明的目的是提供一种图文识别方法及设备，通过基于识别出的横向排版的各个正文类文本框的四个角的坐标，从待识别图像中截取对应的横向排版的各个标题类文本图像；分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容。本发明针对标题类文本框和横向排版的各个正文类文本框，进行识别优化，可以提升文字识别的完整性。

Description

图文识别方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种图文识别方法及设备。

背景技术

目前OCR（光学字符识别）的应用场景主要分为以下三个方面：

(1) 自然场景下多形态文本检测与识别；

(2) 手写体文本检测与识别；

(3) 文档的文本检测与识别（版面分析等）。

目前的主流自然场景OCR模型是：文字检测+文字识别。其中，文字检测解决的是哪里有文字，文字的范围有多大。文字识别是对定位好的文字区域进行识别，主要解决的是每个文字是什么，将图像中的文字区域转化为字符信息。

一、文字检测的现有方式如下：

1) CTPN（基于Faster RCNN）：目前比较成熟的文本检测框架，精确度较好。但是检测时间较长，有很大的优化空间；

2) TextBoxes、TextBoxes++（基于SSD）：适用于文字细长的特点，但针对小文本会有漏检；

3) SegLink（CTPN+SSD）：通常用于自然场景下，检测多角度文本；

4) DMPNet：采用非矩形四边形选定Anchor进行检测，通过Monte-Carlo方法计算标注区域于矩形候选框和旋转候选框的重合度后重；

5) YOLO_v3：文本检测时间短，精确度较好。但针对小目标效果一般，容易造成大范围漏检；

6) EAST：传统Anchor-based算法检测小框再合并，流程复杂，损失精度，耗时较长。

二、文字识别的现有方式如下：

1）CNN（如Densenet）+CTC：效果一般，泛化能力较差。没有加入了RNN的效果好。

2）Tesserocr（Tesseract）：使用比较广泛的一种开源识别框架，支持多语言多平台。在识别清晰的标准中文字体效果还行，稍微复杂的情况很糟糕（多字体等），且耗时较长。

当现有的文字检测和文字识别的优点是程序计算速度快、耗时低，缺点是图片内容解析的完整性不能保证。而在一些如图1所示有文字横向排版的场景需求中，仅仅通过文字检测和文字识别的过程，并不一定可以做到对文本内容合理有效的输出，例如，图1中的文字区域包括三块：

1、标题区域：庆祝五一劳动节；

2、左边的正文区域：

今天是

二零二

一年四

月二十

八日，

天气晴；

3、右边的正文区域：

五一劳动节一般指五一国际劳动节，

国际劳动节又称“五一国际劳动节”

“国际示威游行日”，是世界上80多

个国家的全国性节日。定在每年的五

月一日。它是全世界劳动人民共同拥

有的节日。

其中，标题区域与两块正文区域，是上下排版的关系；而两块正文区域，即左边的正文区域和右边的正文区域是横向排版的关系。

现有文字检测和文字识别的方式，可以检测出上下排版关系的文字区域，但当碰到如图1所示的横向排版的关系的文字区域时，无法准确识别出不同的横向排版区域，会错误的将横向排版的文字区域混在一起从左到右，从上至下一起识别，导致识别到的错误文字内容如下：

庆祝五一劳动节。

今天是五一劳动节一般指五一国际劳动节。

二零二国际劳动节又称“五一国际劳动节”

一年四“国际示威游行日”，是世界上80多

月二十个国家的全国性节日。定在每年的五

八日，月一日。它是全世界劳动人民共同拥

天气晴；有的节日。

发明内容

本发明的一个目的是提供一种图文识别方法及设备。

根据本发明的一个方面，提供了一种图文识别方法，该方法包括：

获取待识别图像,基于所述待识别图像得到对应的第一特征图，基于所述第一特征图分别得到对应的概率图和阈值图；

基于所述概率图和阈值图，得到对应的第一二值图；

基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标；

基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标；

基于识别出的标题类文本框的四个角的坐标，从待识别图像中截取对应的标题类文本图像；基于识别出的横向排版的各个正文类文本框的四个角的坐标，从待识别图像中截取对应的横向排版的各个标题类文本图像；

分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容。

进一步的，上述方法中，获取待识别图像,基于所述待识别图像得到对应的特征图，包括：

获取待识别图像,通过DBNet以VGG16的神经网络从待识别图像中抽取特征，以得到对应的第一特征图。

进一步的，上述方法中，于所述概率图和阈值图，得到对应的第一二值图，包括：

基于如下DB二值化公式，得到对应的第一二值图；

其中，

表示待识别图像中某个像素点的序号，

表示第

个像素点在第一二值图中的值，

表示待识别图像中第

个像素点对应在概率图中的概率值，

表示待识别图像中第

个像素点对应在阈值图中的阈值，

表示自然对数的底，

表示放大倍数。

进一步的，上述方法中，基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标，包括：

基于如下Loss函数，定所述待识别图像中所有文本框的四个角的坐标：

L = Ls + α x Lb + β x Lt，

其中，Ls是损失概率图的损失值，Lb是所述第一二值图的损失值，Lt是所述损失阈值图的损失值，α=1，β=10。

进一步的，上述方法中，基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标；

基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；

基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标，包括：

根据各个文本框的左横坐标、右横坐标、上纵坐标和下纵坐标，计算得到每个文本框的高度和所有文本框的平均高度；

若某个文本框的高度高于所述平均高度的预设倍数时，则判定此文本框为标题类文本框，记录标题类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；

在剩余的非标题类的所有文本框的四个角的横坐标中，从左至右每次获取未选取过的最小的第一个左横坐标，作为横向排版的当前的一个正文类文本框的左横坐标点，以当前的一个正文类文本框的左横坐标点为初始点，以预设步长为向右递进横坐标，当递进横坐标到的横坐标不对应某个右横坐标时，若该右横坐标的左边存在某个右横坐标，则将该右横坐标作为当前的一个正文类文本框的右横坐标点，记录当前的一个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标，重复本步骤，直至得到每个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标。

进一步的，上述方法中，分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容，包括：

将标题类文本图像和各个正文类文本图像，分别转换为对应的第二二值图；

对各个第二二值图按比例进行缩放，得到缩放二值图；

将各个缩放二值图，输入CRNN模型，以输出识别到的待识别图像的完整的文字内容。

进一步的，上述方法中，将各个缩放二值图，输入CRNN模型，以输出识别到的待识别图像的完整的文字内容，包括：

将各个缩放二值图，输入CNN模型，以分别得到对应的第二特征图；

将各个第二特征图输入LSTM模型，以分别得到对应的向量图；

将归一化向量图输入CTC模型，以输出识别到的待识别图像的完整的文字内容。

根据本发明的另一方面，还提供一种图文识别设备，其中，该设备包括：

第一装置，用于获取待识别图像,基于所述待识别图像得到对应的第一特征图，基于所述第一特征图分别得到对应的概率图和阈值图；

第二装置，用于基于所述概率图和阈值图，得到对应的第一二值图；

第三装置，用于基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标；

第四装置，用于基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标；

第五装置，用于基于识别出的标题类文本框的四个角的坐标，从待识别图像中截取对应的标题类文本图像；基于识别出的横向排版的各个正文类文本框的四个角的坐标，从待识别图像中截取对应的横向排版的各个标题类文本图像；

第六装置，用于分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容。

根据本发明的另一方面，还提供一种基于计算的设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

基于所述概率图和阈值图，得到对应的第一二值图；

根据本发明的另一方面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

基于所述概率图和阈值图，得到对应的第一二值图；

与现有技术相比，本发明通过获取待识别图像,基于所述待识别图像得到对应的第一特征图，基于所述第一特征图分别得到对应的概率图和阈值图；基于所述概率图和阈值图，得到对应的第一二值图；基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标；基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标；基于识别出的标题类文本框的四个角的坐标，从待识别图像中截取对应的标题类文本图像；基于识别出的横向排版的各个正文类文本框的四个角的坐标，从待识别图像中截取对应的横向排版的各个标题类文本图像；分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容。现有的文字识别方案中，默认是以由上至下，由左至右的顺序进行排列识别输出的，但针对标题类文本框和横向排版的各个正文类文本框的识别，会存在没有对应的识别方式来输出合理的文字结果，导致后续业务方在获取文字结果进入语义理解时无法准确理解文字所表达的内容，严重降低了图文识别的能力的问题。本发明针对标题类文本框和横向排版的各个正文类文本框，进行识别优化，可以提升文字识别的完整性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出本发明一实施例的带有横向排版的待识别图文的示意图；

图2示出本发明一实施例的一种图文识别方法的流程图；

图3示出本发明一实施例的一种图文识别方法的细化流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

如图2所示，本发明提供一种图文识别方法，所述方法包括：

步骤S1,获取待识别图像,基于所述待识别图像得到对应的第一特征图，基于所述第一特征图分别得到对应的概率图和阈值图；

在此，概率图（probability map）中，记录有对应的待识别图像中的每个像素点是文本的概率；

阈值图（threshold map）中，记录有对应的待识别图像中的每个像素点的阈值；

步骤S2,基于所述概率图和阈值图，得到对应的第一二值图；

步骤S3,基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标；

步骤S4,基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标；

步骤S5,基于识别出的标题类文本框的四个角的坐标，从待识别图像中截取对应的标题类文本图像；基于识别出的横向排版的各个正文类文本框的四个角的坐标，从待识别图像中截取对应的横向排版的各个标题类文本图像；

步骤S6,分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容。

在此，图3中，步骤S101的P表示待识别图像，步骤S102的M表示DBNet网络模型，本发明的图文识别方法可以通过DBNet网络模型实现。

现有的文字识别方案中，默认是以由上至下，由左至右的顺序进行排列识别输出的，但针对标题类文本框和横向排版的各个正文类文本框的识别，会存在没有对应的识别方式来输出合理的文字结果，导致后续业务方在获取文字结果进入语义理解时无法准确理解文字所表达的内容，严重降低了图文识别的能力的问题。

本发明针对标题类文本框和横向排版的各个正文类文本框，进行识别优化，可以提升文字识别的完整性。

本发明的图文识别方法一实施例中，步骤S1,获取待识别图像,基于所述待识别图像得到对应的第一特征图，包括：

步骤S11,获取待识别图像,通过DBNet以VGG16的神经网络从待识别图像中抽取特征，以得到对应的第一特征图。

在此，DBNet是基于分割的文本检测网络，对每一个像素点进行自适应二值化，二值化阈值由网络学习得到，彻底将二值化这一步骤加入到网络里一起训练，这样最终的输出图对于阈值就会具有非常强的鲁棒性，在简化了后处理的同时提高了文本检测的效果。

文本区域检测（text_detect）时，可以通过DBNet以VGG16的神经网络，抽取图片特征，得到feature map（特征图），基于此feature map，后续可以预测两个结果，一个是基于分割方法得到的概率图（probability map，记录图像中像素点是文本的概率），另一个是阈值图（threshold map，记录图像每个像素点的阈值）。

本发明的图文识别方法一实施例中，步骤S2,基于所述概率图和阈值图，得到对应的第一二值图，包括：

步骤S21, 基于如下DB二值化公式，得到对应的第一二值图；

其中，

表示待识别图像中某个像素点的序号，

表示第

个像素点在第一二值图中的值，

表示待识别图像中第

个像素点对应在概率图中的概率值，

表示待识别图像中第

个像素点对应在阈值图中的阈值，

表示自然对数的底，

表示放大倍数，一般取值为50。

在此，由上述probabilitymap和 threshold map，根据DB二值化公式，可计算得二值图（binary map），二值图可以微分，即可用于模型训练。

本发明的图文识别方法一实施例中，步骤S3,基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标，包括：

L = Ls + α x Lb + β x Lt，

在此，通过使用Loss函数，可以得出待识别图像中的各个像素点，是否为文本框的四个角的预测，判断预测的准确程度，Loss函数的数值越低，代表预测的越准确。

具体的，以一张输入图像300 * 400为例。抽取特征后得到特征图feature map[R,G,B] ，在feature map中获取probability map（w * h * 1）以及threshold map(w * h *1)，其中w为宽，h为高，1表示map的维度为1维。threshold map对文本区域进行一个收缩或扩张的调整，可以得到文本框大致的边界。那得到了probability map和threshold map之后,引入DB二值化公式,可以得到更近似的二值图，最终基于二值图，可以确定出这张300*400图片中每个文本框的位置，即box，形状为矩形，位置由矩形的四个顶点（四个角）坐标确定，坐标原点位于待识别图像的左上角，横轴为x，纵轴为y，以坐标方式输出。

本发明的图文识别方法一实施例中，步骤S3,基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标；

基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的左横坐标X1、右横坐标X2、上纵坐标Y3和下纵坐标Y4；

在此，本步骤先检测出所有文本框的角点坐标，但每个角点坐标应该属于哪一个文本框还未知，需要通过后面的步骤S4，准确判断每个角点坐标属于的文本框；

在DBNet神经网络中可以获取的文本框四个角的横坐标和纵坐标[X1,X2,Y3,Y4]，其中，X1,X2为两个横坐标，Y3,Y4为纵坐标，基于四个角的横坐标和纵坐标，可以得到文本框四个角的坐标[X1, Y3]，[X2, Y3],[X1,Y4] ,[X2,Y4]。

步骤S4,基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标，包括：

步骤S41,根据各个文本框的左横坐标X1、右横坐标X2、上纵坐标Y3和下纵坐标Y4，计算得到每个文本框的高度和所有文本框的平均高度；

步骤S42,若某个文本框的高度高于所述平均高度的预设倍数时，则判定此文本框为标题类文本框，记录标题类文本框的四个角的左横坐标X1、右横坐标X2、上纵坐标Y3和下纵坐标Y4；

步骤S43,在剩余的非标题类的所有文本框的四个角的横坐标中，从左至右每次获取未选取过的最小的第一个左横坐标X1，作为横向排版的当前的一个正文类文本框的左横坐标点X1，以当前的一个正文类文本框的左横坐标点X1为初始点，以预设步长为向右递进横坐标，当递进横坐标到的横坐标不对应某个右横坐标X2时，若该右横坐标X2的左边存在某个右横坐标X2，则将该右横坐标X2作为当前的一个正文类文本框的右横坐标点X2，记录当前的一个正文类文本框的四个角的左横坐标X1、右横坐标X2、上纵坐标Y3和下纵坐标Y4，重复本步骤，直至得到每个正文类文本框的四个角的左横坐标X1、右横坐标X2、上纵坐标Y3和下纵坐标Y4。

在此，，获取n个文本框（boxes）的坐标后，将boxes做分类（sorted boxes）。首先根据坐标值，计算得到每个box的高度height，再获取n个box的平均高度avg_height。目的是筛选出标题类box，做判断即当单个box的height＞2.0*avg_height (2.0是固定参数)时，我们判定此类box作为标题，位于所有box的最前端。其次，将剩余的box，获得每个box的在图片中的左横坐标X1、右横坐标X2。取box中横坐标最小左横坐标X1为min_BOX1_x1作第一个板块的初始横坐标点，以此为初始点，依次向右以步长step为10向前递进横坐标，在递进横坐标的过程中，遇到横轴为连续的空值时，锁定距离此位置最近的左边一个右横坐标X2为max_BOX1_x2，以(min_BOX1_x1,max_BOX1_x2)作为第一个正文类文本框，同理继续向右递进.....得到(min_BOXm_x1,max_BOXm_x2) m个正文类文本框，如图3的步骤S103所示,可以再将标题类文本框与正文类文本框相结合得到按序输出的新的sorted boxes；如图3的步骤S104所示，后续可以将新的sorted boxes输入至CRNN模型进行文字检测。

本实施例可以分析大量文字横向排版且输出内容存在错乱无序的图片,对Boxes进行文本框高度分析,找到文本框高度大于某确定阈值的部分，作为图片文本的标题，针对其余文本框，根据初始文本框坐标，以step为10向右递进，寻找文本板块末段坐标，通过确定初始左横坐标x1和末端右横坐标x2完成每个文本板块的位置锁定，以此类推，可以做到对后续m个板块文本的聚类，最终完成对横向排版文字识别错乱问题的解决。

本发明的图文识别方法一实施例中，步骤S6,分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容，包括：

步骤S61,将标题类文本图像和各个正文类文本图像，分别转换为对应的第二二值图；

步骤S62,对各个第二二值图按比例进行缩放，得到缩放二值图；

步骤S63,将各个缩放二值图，输入CRNN模型，以输出识别到的待识别图像的完整的文字内容。

优选的，步骤S63,将各个缩放二值图，输入CRNN模型，以输出识别到的待识别图像的完整的文字内容，包括：

步骤S631,将各个缩放二值图，输入所述CNN模型，以分别得到对应的第二特征图；

在此，如图3的步骤S105所示，第二特征图可以是由CNN模型卷积后的特征图；

步骤S632,将各个第二特征图输入LSTM模型，以分别得到对应的向量图；

在此，如图3的步骤S106所示，可以将序列化的第二特征图输入至RNN的LSTM模型；

步骤S633，对各个向量图进行softmax归一化，以分别得到对应的归一化向量图；

步骤S634，将归一化向量图输入CTC模型，以输出识别到的待识别图像的完整的文字内容。

在此，如图3的步骤S107所示，输出识别到的待识别图像的完整的文字内容后，即完成了预测文本框中的文字内容。

在此，文字识别部分(CRNN)包括：

①.boxes预处理

将文本检测部分输出的boxes转为第二二值图,对第二二值图片按比例缩放,生成h为32像素点（高度设定为32像素点，是CRNN模型训练时数据集图片的高度，是CRNN模型的学习模板，所以我们将需要预测的图片也做等比例压缩）的图片，此时图片size为[32×W×1 ]；

②.经过CRNN模型（CRNN模型可以基于收集大量图片数据自训练所得）,输出文字对应的矩阵：

以[32×128×1]大小的图片为例，经过CNN模型，得到[512×(128/4)×1]，接着针对LSTM模型，设置 T=(W/4) ， D=512 ，即可将CRNN特征图的特征输入LSTM模型,LSTM有256个隐藏节点，经过LSTM后变为长度为T × n_class(n_class为文字数据集里面收集的字符的数量,本项目中n_class=6623) 的向量，再经过softmax进行归一化处理，列向量每个元素代表对应的字符预测概率矩阵，取概率值最大的那个文字作为预测结果，最终输出完整文本。

本发明可以基于DBNet和CRNN (CNN+RNN(BiLSTM)+CTC)实现中文自然场景下,需要特定排版输出文本的内容如对标题类文本框和横向排版的各个正文类文本框，进行识别优化，提升文字识别的完整性。

处理器；以及

基于所述概率图和阈值图，得到对应的第一二值图；

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路（ASIC）、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序（包括相关的数据结构）可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种图文识别方法，其中，该方法包括：

基于所述概率图和阈值图，得到对应的第一二值图；

分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容；

在剩余的非标题类的所有文本框的四个角的横坐标中，从左至右每次获取未选取过的最小的第一个左横坐标，作为横向排版的当前的一个正文类文本框的左横坐标点，以当前的一个正文类文本框的左横坐标点为初始点，以预设步长为向右递进横坐标，当递进横坐标到的横坐标不对应某个右横坐标时，若该递进横坐标到的横坐标的左边存在某个右横坐标，则将该左边存在的某个右横坐标作为当前的一个正文类文本框的右横坐标点，记录当前的一个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标，重复本步骤，直至得到每个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标。

2.根据权利要求1所述的方法，其中，获取待识别图像,基于所述待识别图像得到对应的特征图，包括：

3.根据权利要求1所述的方法，其中，所述概率图和阈值图，得到对应的第一二值图，包括：

基于如下DB二值化公式，得到对应的第一二值图；

其中，

表示待识别图像中某个像素点的序号，

表示第

个像素点在第一二值图中的值，

表示待识别图像中第

个像素点对应在概率图中的概率值，

表示待识别图像中第

个像素点对应在阈值图中的阈值，

表示自然对数的底，

表示放大倍数。

4.根据权利要求1所述的方法，其中，基于所述第一二值图，确定所述待识别图像中所有文本框的四个角的坐标，包括：

基于如下Loss函数，确定所述待识别图像中所有文本框的四个角的坐标：

L = Ls + α x Lb + β x Lt，

其中，Ls是损失概率图的损失值，Lb是所述第一二值图的损失值，Lt是损失阈值图的损失值，α=1，β=10。

5.根据权利要求1所述的方法，其中，分别对标题类文本图像和各个正文类文本图像中的文字内容进行识别，以输出识别到的待识别图像的完整的文字内容，包括：

对各个第二二值图按比例进行缩放，得到缩放二值图；

6.根据权利要求1所述的方法，其中，将各个缩放二值图，输入CRNN模型，以输出识别到的待识别图像的完整的文字内容，包括：

将各个第二特征图输入LSTM模型，以分别得到对应的向量图；

7.一种图文识别设备，其中，该设备包括：

第四装置，用于基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标，其中，根据各个文本框的左横坐标、右横坐标、上纵坐标和下纵坐标，计算得到每个文本框的高度和所有文本框的平均高度；若某个文本框的高度高于所述平均高度的预设倍数时，则判定此文本框为标题类文本框，记录标题类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；在剩余的非标题类的所有文本框的四个角的横坐标中，从左至右每次获取未选取过的最小的第一个左横坐标，作为横向排版的当前的一个正文类文本框的左横坐标点，以当前的一个正文类文本框的左横坐标点为初始点，以预设步长为向右递进横坐标，当递进横坐标到的横坐标不对应某个右横坐标时，若该递进横坐标到的横坐标的左边存在某个右横坐标，则将该左边存在的某个右横坐标作为当前的一个正文类文本框的右横坐标点，记录当前的一个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标，重复本步骤，直至得到每个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；

8.一种基于计算的设备，其中，包括：

处理器；以及

基于所述概率图和阈值图，得到对应的第一二值图；

基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标，包括：根据各个文本框的左横坐标、右横坐标、上纵坐标和下纵坐标，计算得到每个文本框的高度和所有文本框的平均高度；若某个文本框的高度高于所述平均高度的预设倍数时，则判定此文本框为标题类文本框，记录标题类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；在剩余的非标题类的所有文本框的四个角的横坐标中，从左至右每次获取未选取过的最小的第一个左横坐标，作为横向排版的当前的一个正文类文本框的左横坐标点，以当前的一个正文类文本框的左横坐标点为初始点，以预设步长为向右递进横坐标，当递进横坐标到的横坐标不对应某个右横坐标时，若该递进横坐标到的横坐标的左边存在某个右横坐标，则将该左边存在的某个右横坐标作为当前的一个正文类文本框的右横坐标点，记录当前的一个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标，重复本步骤，直至得到每个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；

9.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

基于所述概率图和阈值图，得到对应的第一二值图；

基于所有文本框的四个角的坐标，识别出标题类文本框和横向排版的各个正文类文本框的坐标，包括根据各个文本框的左横坐标、右横坐标、上纵坐标和下纵坐标，计算得到每个文本框的高度和所有文本框的平均高度；若某个文本框的高度高于所述平均高度的预设倍数时，则判定此文本框为标题类文本框，记录标题类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；在剩余的非标题类的所有文本框的四个角的横坐标中，从左至右每次获取未选取过的最小的第一个左横坐标，作为横向排版的当前的一个正文类文本框的左横坐标点，以当前的一个正文类文本框的左横坐标点为初始点，以预设步长为向右递进横坐标，当递进横坐标到的横坐标不对应某个右横坐标时，若该递进横坐标到的横坐标的左边存在某个右横坐标，则将该左边存在的某个右横坐标作为当前的一个正文类文本框的右横坐标点，记录当前的一个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标，重复本步骤，直至得到每个正文类文本框的四个角的左横坐标、右横坐标、上纵坐标和下纵坐标；