CN113111858A

CN113111858A - 自动检测图片中表格的方法、装置、设备和存储介质

Info

Publication number: CN113111858A
Application number: CN202110513879.XA
Authority: CN
Inventors: 曹峰; 黄夫龙
Original assignee: Chinascope Shanghai Technology Co ltd
Current assignee: Chinascope Shanghai Technology Co ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-07-13

Abstract

本发明属于图像检测技术领域，具体涉及一种自动检测图片中表格的方法、装置、设备和存储介质。其中方法包括：获取待检测图片，调用预设的目标检测模型，通过目标检测模型对待检测图片进行目标检测，得到目标检测结果，目标检测结果包括包括目标、目标在待检测图片中的坐标位置和分类标签；根据目标检测结果对待检测图片进行标记后输出。本发明通过训练好的目标检测模型能精准的识别出上市公司披露的公告数据中表格、文本段、图表等目标所在的位置区域，并对每个区域进行置信度标记，为后续内容可分类处理打下基础，也减少不同目标之间的相互干扰。

Description

自动检测图片中表格的方法、装置、设备和存储介质

技术领域

本发明属于图像检测技术领域，具体涉及一种自动检测图片中表格的方法、装置、设备和存储介质。

背景技术

随着互联网的快速发展，为方便更多投资者进行投资，许多券商或投资机构对于上市公司都会定期做一个专业的研究报告作为上市公司公告数据。这些数据都是以图片的形式进行披露展示。

在挖掘上市公司公告数据的过程中，会有很多表格数据以无线框和图片的方式进行披露，这给后续解析造成一个很大问题就是如何定位表格区域，以便更好的解析公告数据。

发明内容

本发明针对上市公司公告数据中无法定位表格区域的技术问题，目的在于提供一种自动检测图片中表格的方法、装置、设备和存储介质。

一种自动检测图片中表格的方法，包括：

获取待检测图片，调用预设的目标检测模型，通过所述目标检测模型对所述待检测图片进行目标检测，得到目标检测结果，所述目标检测结果包括目标、所述目标在所述待检测图片中的坐标位置和分类标签；

根据所述目标检测结果对所述待检测图片进行标记后输出。

可选的，所述获取待检测图片，调用预设的目标检测模型之前，包括对所述目标检测模型进行训练，训练过程包括：

从公告中披露的公告数据中获取多张样本图片，定义目标识别的分类标签；

根据所述分类标签对所述样本图片进行标注，生成用来训练的训练数据；

调用预设的目标检测模型，初始化所述目标检测模型，根据标注好的所述训练数据，利用目标检测算法训练所述目标检测模型，训练出适用于公告数据的目标检测模型。

可选的，所述分类标签包括标题、表格、特殊表格、文本、特殊结构、页眉或页脚中的至少一种。

可选的，所述目标检测算法采用Faster R-CNN目标检测算法。

可选的，所述获取待检测图片，调用预设的目标检测模型，包括：

获取待检测图片，将所述待检测图片的大小处理成最大不超过600*1024；

所述根据所述分类标签对所述样本图片进行标注之前，包括：

对样本图片的大小处理成最大不超过600*1024后，根据所述分类标签对所述样本图片进行标注。

可选的，所述根据标注好的所述训练数据，利用目标检测算法训练所述目标检测模型，训练出适用于公告数据的目标检测模型，包括：

使用预设的图片分类模型提取所述训练数据中样本图片的图片特征；

将所述图片特征输入RPN网络(Region Proposal Network，区域候选网络)，得到多个proposals(候选区域)；

将所述图片特征和多个所述候选区域输入RoI Pooling(特征池化层)，得到综合的候选特征；

根据所述候选特征预测目标的区域框和目标的类别，所述目标的类别为所述分类标签。

可选的，所述图片分类模型采用VGG16网络模型，所述图片分类模型的模型特征提取器采用faster_rcnn_resnet101。

可选的，所述根据所述候选特征预测目标的区域框和目标的类别时，所述目标的目标对象比例尺(scales)设置时最小为0.25、最大为2；

所述目标的目标对象重叠率(iou_threshold)取值在0到1之间，优选设置为0.1；

所述目标的训练步数(schedule.step)设置为75000步。

可选的，对所述目标检测模型进行训练，还包括：

获取新的公告数据，从新的公告数据中获取多张新的样本图片；

根据所述分类标签对所述新的样本图片进行标注，生成用来训练的新的训练数据；

调用所述目标检测模型，根据标注好的所述新的训练数据，利用目标检测算法训练所述目标检测模型，训练出适用于公告数据的目标检测模型。

可选的，所述利用目标检测算法训练所述目标检测模型时，所述目标检测模型的训练步数是初次训练步数的十分之一。

可选的，所述根据所述目标检测结果对所述待检测图片进行标记后输出，包括：

所述目标检测结果还包括置信度数据，对所述待检测图片进行标记时，还标记每个目标的置信度数据。

一种自动检测图片中表格的装置，包括：

目标检测模块，用于获取待检测图片，调用预设的目标检测模型，通过所述目标检测模型对所述待检测图片进行目标检测，得到目标检测结果，所述目标检测结果包括包括目标、所述目标在所述待检测图片中的坐标位置和分类标签；

标记和输出模块，用于根据所述目标检测结果对所述待检测图片进行标记后输出。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述自动检测图片中表格的方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述自动检测图片中表格的方法的步骤。

本发明的积极进步效果在于：本发明采用自动检测图片中表格的方法、装置、设备和存储介质，通过训练好的目标检测模型能精准的识别出上市公司披露的公告数据中表格、文本段、图表等目标所在的位置区域，并对每个区域进行置信度标记，为后续内容可分类处理打下基础，也减少不同目标之间的相互干扰。本发明还解决了常规公告中无线框表格无法确定表格所在位置或区域大小的问题。

附图说明

图1为本发明的一种流程示意图；

图2为本发明的一种经目标检测的图片进行标记后的效果图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示进一步阐述本发明。

参照图1，一种自动检测图片中表格的方法，包括：

S1，对图片进行目标检测：获取待检测图片，调用预设的目标检测模型，通过目标检测模型对待检测图片进行目标检测，得到目标检测结果，目标检测结果包括包括目标、目标在待检测图片中的坐标位置、分类标签和置信度数据。

本步骤中的目标检测模型是通过训练后得到的适用于上市公司公告数据的目标检测模型。其中分类标签即为目标的目标类别，本发明的分类标签包括标题、表格、特殊表格、文本、特殊结构、页眉或页脚中的至少一种。

在一个实施例中，本步骤中在获取待检测图片后，还对待检测图片进行了预处理，再调用预设的目标检测模型。预处理的过程主要是调节待检测图片的图片大小，将待检测图片的大小处理成最大不超过600*1024的图片。因为图片太大了目标检测的效率会降低，图片太小了检测效果会变差。

在一个实施例中，获取待检测图片，调用预设的目标检测模型之前，包括步骤S0，对目标检测模型进行训练，训练过程包括：

S001，筛选样本图片：从公告中披露的公告数据中获取多张样本图片，定义目标识别的分类标签。

本步骤中，获取的公告数据尽可能的覆盖所有分类标签。

S002，标注训练数据：根据分类标签对样本图片进行标注，生成用来训练的训练数据。

标注过程就是对样本图片中的目标区域打上预先定义的分类标签。本步骤可以使用开源的目标检测标注工具(labelImg)对样本图片进行标注。

本步骤中对样本图片的大小处理成最大不超过600*1024后，根据分类标签对样本图片进行标注。

S003，训练模型：调用预设的目标检测模型，初始化目标检测模型，根据标注好的训练数据，利用目标检测算法训练目标检测模型，训练出适用于公告数据的目标检测模型。

本步骤中的目标检测算法采用Faster R-CNN目标检测算法。

本步骤在利用目标检测算法训练目标检测模型时，包括：

使用预设的图片分类模型提取训练数据中样本图片的图片特征；将图片特征输入RPN网络(Region Proposal Network，区域候选网络)，得到多个proposals(候选区域)；将图片特征和多个候选区域输入RoI Pooling(特征池化层)，得到综合的候选特征；根据候选特征预测目标的区域框和目标的类别，目标的类别为分类标签。

图片分类模型采用VGG16网络模型，图片分类模型的模型特征提取器采用faster_rcnn_resnet101。

根据候选特征预测目标的区域框和目标的类别时，目标的目标对象比例尺(scales)设置时最小为0.25、最大为2。目标的目标对象重叠率(iou_threshold)取值在0到1之间，本发明目标对象的数据区域检测重叠概率非常小，因此优选设置为0.1。目标的训练步数(schedule.step)设置为75000步，太高了会出现过拟合现象。

在一个实施例中，当出现新的分类或新的样本时，本发明不需要重新将之前已标注过的样本图片和新样本集合在一起再重复初次的训练过程。本发明以之前训练的模型为基础，只加入新的标注的样本图片，再次训练模型：

S011，筛选新的样本图片：获取新的公告数据，从新的公告数据中获取多张新的样本图片。

S012，标注新的训练数据：根据分类标签对新的样本图片进行标注，生成用来训练的新的训练数据。

S013，更新模型：调用目标检测模型，根据标注好的新的训练数据，利用目标检测算法训练目标检测模型，训练出适用于公告数据的目标检测模型。

本步骤中的目标检测模型是经训练或更新过的目标检测模型，在利用目标检测算法训练该目标检测模型时，目标检测模型的训练步数是初次训练步数的十分之一。即如果目标的初次训练步数是75000步时，则更新模型时的训练步数是7500步即可。

S2，标记和输出：根据目标检测结果对待检测图片进行标记后输出。

在对检测图片进行标记时，可以采用对每个目标通过坐标位置进行标记框标记，并显示目标的分类标签，以直观的区分每个目标的位置情况和分类标签情况。

目标检测结果还包括置信度数据，对待检测图片进行标记时，还标记每个目标的置信度数据。

参照图2，是在通过本发明的上述步骤S1和步骤S2后，得到的图片效果。如图2中所示，通过目标检测模型检测得到的目标检测结果包括五个目标，从图片的上至下分别为：

1)特殊表格(special_table)，其置信度为99％；

2)文本(text)，其置信度为72％；

3)特殊结构(special_structure)，其置信度为62％；

4)文本(text)，其置信度为55％；

5)页脚(footer)，其置信度为87％。

本发明通过标注训练生成的目标检测模型来检测图片中的目标分类和位置区域。主要用于公司披露的公告中表格、文本段落、标题以及图表等区域检测，同时针对公告中的无线框表格也能在增加样本训练后通过生成图片的方式来检测其位置和区域。

一种自动检测图片中表格的装置，包括：

目标检测模块，用于获取待检测图片，调用预设的目标检测模型，通过目标检测模型对待检测图片进行目标检测，得到目标检测结果，目标检测结果包括包括目标、目标在待检测图片中的坐标位置和分类标签；

标记和输出模块，用于根据目标检测结果对待检测图片进行标记后输出。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例自动检测图片中表格的方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例自动检测图片中表格的方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

以上各实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种自动检测图片中表格的方法，其特征在于，包括：

根据所述目标检测结果对所述待检测图片进行标记后输出。

2.如权利要求1所述的自动检测图片中表格的方法，其特征在于，所述获取待检测图片，调用预设的目标检测模型之前，包括对所述目标检测模型进行训练，训练过程包括：

3.如权利要求1或2所述的自动检测图片中表格的方法，其特征在于，所述分类标签包括表格、特殊表格、文本、特殊结构、页眉或页脚中的至少一种。

4.如权利要求2所述的自动检测图片中表格的方法，其特征在于，所述目标检测算法采用Faster R-CNN目标检测算法。

5.如权利要求2所述的自动检测图片中表格的方法，其特征在于，所述获取待检测图片，调用预设的目标检测模型，包括：

6.如权利要求2所述的自动检测图片中表格的方法，其特征在于，所述根据标注好的所述训练数据，利用目标检测算法训练所述目标检测模型，训练出适用于公告数据的目标检测模型，包括：

将所述图片特征输入RPN网络，得到多个proposals；

将所述图片特征和多个所述候选区域输入RoIPooling，得到综合的候选特征；

7.如权利要求6所述的自动检测图片中表格的方法，其特征在于，所述图片分类模型采用VGG16网络模型，所述图片分类模型的模型特征提取器采用faster_rcnn_resnet101。

8.如权利要求6所述的自动检测图片中表格的方法，其特征在于，所述根据所述候选特征预测目标的区域框和目标的类别时，所述目标的目标对象比例尺设置时最小为0.25、最大为2；

所述目标的目标对象重叠率取值在0到1之间，优选设置为0.1；

所述目标的训练步数设置为75000步。

9.如权利要求1所述的自动检测图片中表格的方法，其特征在于，对所述目标检测模型进行训练，还包括：

10.如权利要求9所述的自动检测图片中表格的方法，其特征在于，所述利用目标检测算法训练所述目标检测模型时，所述目标检测模型的训练步数是初次训练步数的十分之一。

11.如权利要求1所述的自动检测图片中表格的方法，其特征在于，所述根据所述目标检测结果对所述待检测图片进行标记后输出，包括：

12.一种自动检测图片中表格的装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项权利要求所述的自动检测图片中表格的方法的步骤。

14.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至11中任一项权利要求所述的自动检测图片中表格的方法的步骤。