CN113111869A

CN113111869A - 提取文字图片及其描述的方法和系统

Info

Publication number: CN113111869A
Application number: CN202110368879.5A
Authority: CN
Inventors: 郭志新; 颜铭萱; 贾雨葶; 王海文; 杨莉娜; 李琦; 徐辉; 傅洛伊; 王新兵
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-13
Anticipated expiration: 2041-04-06
Also published as: CN113111869B

Abstract

本发明提供了一种提取文字图片及其描述的方法和系统，包括：从文件中抽取图片及其相关描述；判断图片中是否包含子图，若不包含子图则返回图片及其描述并结束；若包含子图则基于YOLO4模型进行目标检测，对子图进行识别切割；基于YOLO4目标检测模型检测子图的图片序号；基于CRNN算法，识别检测到的图片序号；根据图片序号信息对文本描述进行拆分及重新组合；将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述，若图片中包含子图，则将子图进行切割并与其对应描述对齐，实现了将文件中的图片数据进行整理的目的。

Description

提取文字图片及其描述的方法和系统

技术领域

本发明涉及计算机视觉及自然语言处理技术领域，具体地，涉及一种提取文字图片及其描述的方法和系统。

背景技术

目标检测是计算机视觉领域中的一种计算机技术，用于检测具有特定类别的语义对象(例如人、建筑物、动物)。它被广泛用于计算机视觉任务，例如图像注释、活动识别、人脸识别。它也被用于跟踪对象，例如在足球比赛中跟踪足球或跟踪视频中的人。每个对象类别都有自己的特殊特点，目前用于目标检测的方法通常分为基于机器学习的方法或基于深度学习的方法，无法预测图片中是否包含子图或文本。

专利文献CN112528954A(申请号：CN202011564026.0)公开了一种证件图像文字提取方法，包括以下步骤：S1、输入证件图像；S2、通过文字检测模型检测证件图像中的文字位置，并通过标注框标注文字位置；S3、统计证件图像中标注框位置分布情况，判断图像方向并进行调整；S4、建立平面坐标，将标注框按照Y轴进行同行合并、排序，获取每行文字的信息框；S5、将标准模板与信息框对齐，输出信息框与标准模板的交集部分，裁剪输出文字图片；S6、用文字识别模型识别文字图片，提取文字内容。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种提取文字图片及其描述的方法和系统。

根据本发明提供的提取文字图片及其描述的方法，包括：

步骤S1：解析文件并获取文件中的图片及图片对应的描述信息；

步骤S2：对数据库中已有的图片数据进行人工标注后，对YOLO4目标检测模型进行训练与调试，通过训练后的YOLO4目标检测模型判断获取的图片中是否存在子图；

步骤S3：若图片中不存在子图，则返回图片及其对应描述信息；

步骤S4：将含有子图的图片通过训练后的YOLO4目标检测模型进行检测与切割；

步骤S5：将切割后的子图通过训练后的YOLO4模型进行文本目标检测与切割；

步骤S6：人工生成图片文本数据并进行标注，对文本识别模型CRNN进行训练与调试，将子图上检测出来的图片序号通过调试后的CRNN模型进行文字识别；

步骤S7：根据图片序号识别结果进行图片描述信息的文本拆分及重组；

步骤S8：将子图与其对应的图片子描述对齐，并返回子图及其对应的图片描述。

优选的，所述步骤S1包括：

步骤S101：在数据库中取出待处理的PDF文件；

步骤S102：使用PDFFigure2对PDF文件进行解析，获取相关图片及PDF的JSON数据；

步骤S103：解析JSON数据，获取图片描述信息。

优选的，所述步骤S2包括：

步骤S201：将数据库中解析出来的图片使用LabelImg进行人工标注，标记需要检测的图片，并标记类别为子图；

步骤S202：根据标注好的数据按照9：1的比例随机分成训练集数据以及测试集数据，对YOLO4目标检测模型进行训练与调试，并获得对于子图检测的权重网络；

步骤S203：将图片输入到调试后的YOLO4目标检测模型中，若检测子图个数大于1，则图片中包含子图，反之则不包含子图。

优选的，所述步骤S5包括：

步骤S501：将数据库中解析出来的图片使用LabelImg进行人工标注，标记需要检测的图片，并标记类别为文字序号；

步骤S502：根据标注好的数据按照9：1的比例随机分成训练集数据以及测试集数据，对YOLO4目标检测模型进行训练与调试，并获得对于文字识别的权重网络；

步骤S503：将切割好的子图输入到YOLO4目标检测模型中，进行文本检测。

优选的，所述步骤S7包括：

步骤S701：将提取出来的图片描述文本通过Sci-Spacy进行粗粒度的预处理；

步骤S702：将经过Sci-Spacy预处理过的文本以句号为切分标识符，基于正则匹配和规则进行二次切分以及片段重组；

步骤S703：将切分后的文本以分号和冒号为切分标识符，判断是否需要进一步切分。

根据本发明提供的提取文字图片及其描述的系统，包括：

模块M1：解析文件并获取文件中的图片及图片对应的描述信息；

模块M2：对数据库中已有的图片数据进行人工标注后，对YOLO4目标检测模型进行训练与调试，通过训练后的YOLO4目标检测模型判断获取的图片中是否存在子图；

模块M3：若图片中不存在子图，则返回图片及其对应描述信息；

模块M4：将含有子图的图片通过训练后的YOLO4目标检测模型进行检测与切割；

模块M5：将切割后的子图通过训练后的YOLO4模型进行文本目标检测与切割；

模块M6：人工生成图片文本数据并进行标注，对文本识别模型CRNN进行训练与调试，将子图上检测出来的图片序号通过调试后的CRNN模型进行文字识别；

模块M7：根据图片序号识别结果进行图片描述信息的文本拆分及重组；

模块M8：将子图与其对应的图片子描述对齐，并返回子图及其对应的图片描述。

优选的，所述模块M1包括：

模块M101：在数据库中取出待处理的PDF文件；

模块M102：使用PDFFigure2对PDF文件进行解析，获取相关图片及PDF的JSON数据；

模块M103：解析JSON数据，获取图片描述信息。

优选的，所述模块M2包括：

模块M201：将数据库中解析出来的图片使用LabelImg进行人工标注，标记需要检测的图片，并标记类别为子图；

模块M202：根据标注好的数据按照9：1的比例随机分成训练集数据以及测试集数据，对YOLO4目标检测模型进行训练与调试，并获得对于子图检测的权重网络；

模块M203：将图片输入到调试后的YOLO4目标检测模型中，若检测子图个数大于1，则图片中包含子图，反之则不包含子图。

优选的，所述模块M5包括：

模块M501：将数据库中解析出来的图片使用LabelImg进行人工标注，标记需要检测的图片，并标记类别为文字序号；

模块M502：根据标注好的数据按照9：1的比例随机分成训练集数据以及测试集数据，对YOLO4目标检测模型进行训练与调试，并获得对于文字识别的权重网络；

模块M503：将切割好的子图输入到YOLO4目标检测模型中，进行文本检测。

优选的，所述模块M7包括：

模块M701：将提取出来的图片描述文本通过Sci-Spacy进行粗粒度的预处理；

模块M702：将经过Sci-Spacy预处理过的文本以句号为切分标识符，基于正则匹配和规则进行二次切分以及片段重组；

模块M703：将切分后的文本以分号和冒号为切分标识符，判断是否需要进一步切分。

与现有技术相比，本发明具有如下的有益效果：

本发明解决了论文中图片以及文本数据整理困难的问题，而且本发明解决方案具有较高的精确率，基于目前的训练集数据以及测试集数据，YOLO4子图检测任务精确率达到95％，YOLO4文本检测任务精确率达到90％，CRNN文本识别任务精确率达到91％，基于SCI-Spacy模型的切分在基于人工标注的分句数据集上的切分准确率达到了96％。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程图；

图2为YOLO4子图检测实例图；

图3为YOLO4文本检测实例图；

图4为CRNN文本识别实例图；

图5为Sci-Spacy文本拆分实例图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明使用的YOLO4模型为基于深度学习技术的识别方法，进行端到端的检测预测(主要基于卷积神经网络CNN，Convolutional Neural Network)。

除此以外，针对本发明中的文本识别任务，本质上是搭建了一种基于YOLO4以及CRNN模型的光学字符识别模型(OCR，Optical Character Recognition)。

光学字符识别或光学字符读取器(OCR)是将打字，手写或印刷的文本的图像电子或机械转换为机器编码的文本，无论是来自扫描的文档，文档的照片还是场景的照片(例如，风景照片中的标牌和广告牌上的文本)或叠加在图像上的字幕文本。通过目标检测任务对光学字符标识进行定位后，使用文本识别模型对光学字符进行识别。

对于本发明中图文匹配任务，使用了自然语言处理领域中的SCI-Spacy模型，对文本依据规则进行拆分与重组。

Sci-Spacy是由艾伦人工智能研究所于2019年发布的基于Spacy的用于进行生物医学领域自然语言处理的Python工具包，提供包括分词、分句、专有名词标注、命名实体识别等多种功能以及基于CRAFT、JNLPBA、BC5CDR、BIONLP13CG等生物医学语料库的多个对应的模型，其模型包括轻、中、重量级的实现Spacy完整的自然语言处理流水线的模型和专门基于语料库的命名实体识别模型，是目前最新的和效果最好的针对于生物医学这一特定学术领域进行自然语言处理的工具之一。本发明中引入Sci-Spacy工具中的重量级流水线模型en_core_sci_lg对文本进行粗粒度的预切分，由于该模型的开发基于生物医学领域的语料，故需要对预处理后的文本进行二次切分和切分片段的重组。

对预处理后的文本进行二次切分和重组的方法基于人工制定的规则。对于包含子图描述的文本进行切分，其切分的主要标识为子图的序号。通过对现有文本的观察，子图序号的组成形式包括但不限于下述三种：1、字母与标点组合；2、数字和标点组合；3、字母、数字与标点三种组合。其中标点符号大量使用到句号(点)、冒号和分号作为标识。切分与重组的规则的制定则基于这些标点在文本中出现的情况来判定被拆分出是否为子图序号，从而进一步判定是否需要重组文本片段。

二次切分的切分标识符为句号(点)，主要方法为先将与处理后的文本按标识符全部切分成若干片段，并依照如下规则按顺序进行重组：

(1)文本片段过短(长度小于6个字符)且不符合子图序号形式，则与后一片段进行合并。

(2)以特殊符号开头的文本片段与上一前段合并。

(3)以括号开头的片段，如果括号不完整或其内部文本不符合子图序号的组合形式，则与上一篇段进行合并。

(4)以字母和数字开头的片段，判断其是否符合子图序号的组合形式，不符合则与上一篇段进行合并。

(5)若片段首符合子图序号的形式，说明此处切分正确，不进行主动合并。在此次切分中，本发明特别针对人名的切分单独制定了组合规则：上述规则处理后，对于形如A.M.Turing的人名会出现无法将A.与M.重组回文本片段的情况，因为它们同时符合子图序号的特征，因此在二次切分的最后一步，会对处理好的文本再进行最后一次遍历来检查符合人名拆分的情况并进行组合。

二次切分后，以冒号和分号作为切分标识符，对文本进行再次切分，以保证将大部分字母与数字组合的子图描述切分出来。切分规则与上述二次切分的规则相同，但由于切分标识符的特殊性，不再需要做后续的如人名拆分等其他检查。

根据本发明提供的一种提取论文图片及其描述的方法，如图1，包括如下步骤：

步骤S1：使用PDFFigure2解析PDF文件，获取图片中的文件及图片对应的描述信息；

步骤S2：对数据库中已有的图片数据进行人工标注后，对YOLO4目标检测模型进行训练与调试，通过使用已训练好的YOLO4目标检测模型判断是否存在子图；

步骤S3：若图片不存在子图则返回图片及其对应描述信息；

步骤S4：将含有子图的图片通过已训练好的YOLO4目标检测模型进行检测与切割；

步骤S5：将切割后的子图通过已训练好的YOLO4模型进行文本目标检测与切割；

步骤S6：人工生成图片文本数据100w张，人工标注图片文本数据1400张，对文本识别模型CRNN进行训练与调试，将子图上检测出来的图片序号通过调试好的模型进行文字识别；

步骤S7：根据序号识别结果进行图片描述信息的文本拆分以及重新组合；

所述步骤S1包括：从数据库中获取需要解析的paper，通过使用PDF解析工具进行PDF解析，获取PDF中的图片数据以及树状文本数据，将解析出的数据用JSON格式保存方便以后使用。

如图2，所述步骤S2包括：

步骤S201：将数据库中解析出来的图片使用LabelImg进行人工标注，标记需要检测的图片，并标记类别(子图)。

LabelImg是用Python编写的图形图像注释工具。批注以PASCAL VOC格式(ImageNet使用的格式)另存为XML文件。标注图片后LabelImg在保存文件的路径下自动生成.xml文件，.xml文件的名字是和标注照片的名字一样，如果要修改已经标注过的图像，.xml中的信息也会随之改变。

步骤S202：根据标注好的数据按照9：1的比例随机分成训练集数据以及测试集数据，对YOLO4模型进行训练与调试，并获得对于子图检测的权重网络。

YOLO4算法是在原有YOLO目标检测架构的基础上，采用了近些年卷积神经网络领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化。

使用YOLO4算法进行训练及测试时，需要考虑召回率和精确率的平衡。

召回率和精确率的计算需要依据混淆矩阵，如表一所示：

	预测值0	预测值1
			真实值0	TN	FP
真实值1	FN	TP

表一混淆矩阵

其中，假阴性(FN，False Negative)算法预测为阴性，实际是阳性的个数；真阴性(TN，True Negative)算法预测为阴性，实际也是阴性的个数；真阳性(TP，True Positive)算法预测为阳性，实际也是阳性的个数；假阳性(FP，False Positive)算法预测为阳性，实际为阴性的个数。

通过混淆矩阵，定义精确率precision如等式1，即预测为阳性的数据中预测正确的个数。

通过混淆矩阵，定义召回率recall如等式2，即真正阳性数据中预测正确的个数。

然而精确率和召回率是此消彼长的，即精确率提高了可能导致召回率的下降，反之亦然。所以在训练调试的过程中需要找到精确率和召回率的平衡点，即F1分数，F1的定义如等式3所示：

除此以外，网络训练的好坏在很大程度上取决于数据的质量，即训练数据和预测数据是否符合相似的数据分布，训练集数据和测试集数据是否足够大满足训练和预测所需的要求。在本实例中，人工标注图片数据469张，训练集数和测试集数据据按照9：1的比例随机选取，即测试及数据422张，测试集数据47张，最终训练结果如表二所示：

	Iou＝0.5	Iou＝0.75	Iou＝0.9
				percision	95.4％	72.9％	7.0％

表二YOLO4子图检测任务结果

所述步骤S4包括：根据YOLO4返回的检测结果(检测到目标的四个顶点坐标)，做略微放大后进行图片切割，并返回切割好的若干子图。

如图3，所述步骤S5包括：

步骤S501：类似步骤S2，将数据库中解析出来的图片使用LabelImg进行人工标注，标记需要检测的图片，并标记类别(文字序号)，最终标注图片数据465张。

步骤S502：根据标注好的数据按照9：1的比例随机分成训练集数据以及测试集数据，其中训练集数据张418，测试集数据47张。对YOLO4模型进行训练与调试，并获得对于文字识别的权重网络。

最终训练结果如表三所示：

	Percision	Recall
			Iou＝0.3	90％	93％

表三YOLO4文本检测任务结果

如图4，所述步骤S6包括：

步骤S601：文本检测模型使用的是基于百度PaddleOCR框架的CRNN文本识别算法模型。在部署好PaddleOCR工具库后，将人工生成的文本数据集按照9：1的比例分成训练数据集(90万张)和测试数据集(10万张)对CRNN模型进行训练及调试，并获得网络权重。

通过Opencv进行图片生成，准对本次任务，生成文字为数字0-40、小写字母a-z、大写字母A-Z以及字母数字组合。并通过随机添加噪声、随机背景颜色以及随机文字颜色来尽可能模仿实际预测数据所产生的情况，以尽可能使生成数据覆盖所需预测数据的分布。

步骤S602：将子图上检测出的图片序号输入到训练好的CRNN模型中进行文本识别。最终识别结果如表四所示：

	测试集	预测集
			Precision	98％	91％

表四CRNN文本识别结果

如图5，所述步骤S7包括：

步骤S701：将提取出来的图片描述文本通过Sci-Spacy工具包中的en_core_sci_lg模型进行粗粒度的预处理。

步骤S702：将经过Sci-Spacy预处理过的文本以句号为切分标识符基于正则匹配和前述规则进行二次切分以及片段重组。

步骤S703：将通过上述两次切分后的文本以分号和冒号为切分标识符判断是否需要进一步切分。

在人工标注(分句)的132段子图描述的测试数据上，将无法正确与人工标注的文本相匹配的情况分为片段数量不匹配(切分数量错误)和片段内容不匹配(重组错误)两种情况，最终在测试数据上规则的切分情况如表五所示：

	片段数量错误	片段内容错误	正确切分
				数量	3	1	128

表五基于规则的文本切分结果

根据本发明提供的提取论文图片及其描述的系统，包括：

模块M1：使用PDF解析工具PDFFigure2处理PDF文件，并解析图片及其描述；

模块M2：针对子图部分目标检测任务搭建、部署、训练好YOLO4网络模型；

模块M3：针对文本部分目标检测任务搭建、部署、训练好YOLO4网络模型；

模块M4：针对文本识别任务搭建、部署、训练好CRNN网络模型；

模块M5：针对文本拆分任务搭建、部署、训练好SCI-Spacy网络模型。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种提取文字图片及其描述的方法，其特征在于，包括：

2.根据权利要求1所述的提取文字图片及其描述的方法，其特征在于，所述步骤S1包括：

步骤S101：在数据库中取出待处理的PDF文件；

步骤S103：解析JSON数据，获取图片描述信息。

3.根据权利要求1所述的提取文字图片及其描述的方法，其特征在于，所述步骤S2包括：

4.根据权利要求1所述的提取文字图片及其描述的方法，其特征在于，所述步骤S5包括：

5.根据权利要求1所述的提取文字图片及其描述的方法，其特征在于，所述步骤S7包括：

6.一种提取文字图片及其描述的系统，其特征在于，包括：

7.根据权利要求6所述的提取文字图片及其描述的系统，其特征在于，所述模块M1包括：

模块M101：在数据库中取出待处理的PDF文件；

模块M103：解析JSON数据，获取图片描述信息。

8.根据权利要求6所述的提取文字图片及其描述的系统，其特征在于，所述模块M2包括：

9.根据权利要求6所述的提取文字图片及其描述的系统，其特征在于，所述模块M5包括：

10.根据权利要求6所述的提取文字图片及其描述的系统，其特征在于，所述模块M7包括：