CN114155547B - 一种图表识别方法、装置、设备及存储介质 - Google Patents

一种图表识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114155547B
CN114155547B CN202210118577.7A CN202210118577A CN114155547B CN 114155547 B CN114155547 B CN 114155547B CN 202210118577 A CN202210118577 A CN 202210118577A CN 114155547 B CN114155547 B CN 114155547B
Authority
CN
China
Prior art keywords
sample
chart
preset
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210118577.7A
Other languages
English (en)
Other versions
CN114155547A (zh
Inventor
吴珂皓
薛逢源
李博岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Yingmi Fund Sales Co ltd
Original Assignee
Zhuhai Yingmi Fund Sales Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Yingmi Fund Sales Co ltd filed Critical Zhuhai Yingmi Fund Sales Co ltd
Priority to CN202210118577.7A priority Critical patent/CN114155547B/zh
Publication of CN114155547A publication Critical patent/CN114155547A/zh
Application granted granted Critical
Publication of CN114155547B publication Critical patent/CN114155547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图表识别方法、装置、设备及存储介质,该方法包括:获取包含图表数据的文本文件;将文本文件转换为预设格式的图片;将图片输入图表定位检测器中,输出图表数据在图片中的定位结果;其中,图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。本发明中包含图表数据的文本文件可以是任意格式种类的文本文件,将该文本文件转换为图片,则避免了现有技术中需要使用规范的协议来解析文本定位图表位置的操作,将转换后的图片直接输入预先训练完成的图表定位检测器中,则可以直接输出图表数据在图片中的定位结果,能够解决现有技术从文本文件中识别图表效率低下、且识别图表准确性较低的技术问题。

Description

一种图表识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及图像识别技术,尤其涉及一种图表识别方法、装置、设备及存储介质。
背景技术
在数据分析领域,从图表数据中获取有效信息最为直观,图表数据的形态分析往往是金融、科研等行业领域中重要的分析方法之一,其数据分析的有效性也在各行各业中得到了广泛的验证。
由于图表数据一般都是附着于文本文件而存在,利用图表数据进行分析时常需要把各文本文件中的图表单独提取出来。然而,传统的图表提取方法,一种是基于CPU计算设备进行处理,需要预先解析文本文件,导致时间成本过高,提取速度慢、耗时长,有时还需要基于规范的协议来解析文本,对文本文件自身的格式要求较高;另一种是基于数字图像处理技术来识别图表,一般是利用图像二值化来查找图表,但极易查找到形状相似、却并不是真实图表的非图表区域,因而识别精准度不够、准确性较低,同时现有神经网络中多采用ReLU、PReLU、FReLU激活函数,对空间不敏感忽略了阻碍视觉任务实现显著改善,灵活性较差。
发明内容
本发明提供一种图表识别方法、装置、设备及存储介质,能够解决现有技术从文本文件中识别图表效率低下、且识别图表准确性较低的技术问题。
第一方面,本发明实施例提供了一种图表识别方法,所述方法包括:
获取包含图表数据的文本文件;
将所述文本文件转换为预设格式的图片;
将所述图片输入图表定位检测器中,输出所述图表数据在所述图片中的定位结果;其中,所述图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。
可选的,预设的神经网络为Yolov5s网络或Yolov5l网络或Yolov5m网络或Yolov5x网络,所述神经网络采用改进的FReLU激活函数,改进的FReLU激活函数表示为y = max(ax,mT(x))+δ,其中T(·)是二维空间条件空间上下文特征提取器,m为与通道相关的自定义值,a为自定义常数,δ为调节值,x为输入像素参数化池窗口。
可选的,所述图表定位检测器的训练过程,可以包括:
获取包含样本图表数据的样本数据集,所述样本数据集包括训练样本集和测试样本集;
采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
当所述神经网络的训练次数达到预设的训练次数时,将所述测试样本集输入所述神经网络中,输出得到网络损失值;
若所述网络损失值不符合预设的要求,则返回执行所述采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
若所述网络损失值符合预设的要求,则保留所述神经网络当前的网络参数,确定所述神经网络为图表定位检测器。
可选的,所述获取包含样本图表数据的样本数据集,可以包括:
获取样本图表数据;
将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件;其中,所述预设的幻灯片演示文稿包括文字段落与无表格图片;
使用格式转换器将所述原始样本文本文件转化为样本图片;
确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集。
可选的,所述获取样本图表数据,可以包括:
通过爬虫技术采集不同格式种类的多个原始文件;
使用预设的正则表达式从所述多个原始文件中提取图表数据作为样本图表数据。
可选的,所述将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件,可以包括:
将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据超出所述幻灯片演示文稿的纸张范围,则获取新的样本图表数据,返回执行所述将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据未超出所述幻灯片演示文稿的纸张范围,则确定当前包含所述样本图表数据的所述幻灯片演示文稿为原始样本文本文件。
可选的,所述确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集,可以包括:
解析所述幻灯片演示文稿的可扩展标记语言XML部分;
依据所述可扩展标记语言XML部分确定所述样本图表数据在所述幻灯片演示文稿中的位置以及所述样本图表数据的形状参数;其中,所述位置包括所述样本图表数据在所述幻灯片演示文稿中的横坐标与纵坐标,所述形状参数包括所述样本图表数据在所述幻灯片演示文稿中的图表高度与图表宽度;
确定所述幻灯片演示文稿的纸张高度和纸张宽度;
以所述横坐标、所述纵坐标、所述图表高度、所述图表宽度、所述纸张高度以及所述纸张宽度作为所述样本图片的样本标签;
将具有所述样本标签的样本图片作为样本数据集。
第二方面,本发明实施例还提供了一种图表识别装置,所述装置包括:
数据获取模块,用于获取包含图表数据的文本文件;
格式转换模块,用于将所述文本文件转换为预设格式的图片;
图表识别模块,用于将所述图片输入图表定位检测器中,输出所述图表数据在所述图片中的定位结果;其中,所述图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的图表识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的图表识别方法。
本发明获取包含图表数据的文本文件,将文本文件转换为预设格式的图片,将图片输入图表定位检测器中,输出图表数据在图片中的定位结果;其中,图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。在本发明中,包含图表数据的文本文件可以是任意格式种类的文本文件,将该文本文件转换为图片,则避免了现有技术中需要使用规范的协议来解析文本定位图表位置的操作,将转换后的图片直接输入预先训练完成的图表定位检测器中,则可以直接输出图表数据在图片中的定位结果,能够解决现有技术从文本文件中识别图表效率低下、且识别图表准确性较低的技术问题;进一步的,本发明中的图表定位检测器由于是由预设的神经网络经包含样本图表数据的样本数据集训练得到的,该神经网络的精准度可以在训练过程中得到有效控制,且该神经网络的网络结构中各项网络参数也可以依据参与网络训练的样本数据集来调整、进而影响图表定位检测器识别图表的效率和精度,只要样本数据集的数据类型丰富且多样,训练得到的图表定位检测器的普适性和鲁棒性就能得到保证,并能够保证图表定位检测器在实际图表识别的应用过程中可以快速输出较高精度的定位结果。此外本申请Yolov5采用改进的FReLU激活函数,改进的FReLU通过将与通道相关的自定义值m、定义常数a、调节值δ的设置,将像素空间引入到视觉任务,实现显著改善,扩展了原有FReLU激活函数的深度,有助于提取物体的精细空间布局。
附图说明
图1为本发明实施例一提供的一种图表识别方法的流程图;
图2为本发明实施例二提供的一种图表识别装置的结构框图;
图3为本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种图表识别方法的流程图。本实施例可适用于对多种格式的文本文件中的图表数据进行识别的情况,本实施例所提出的图表识别方法可以由图表识别装置来执行,该图表识别装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、个人电脑、移动终端等计算设备,等等,该方法具体包括如下步骤:
S110、获取包含图表数据的文本文件。
在本实施例中,图表数据包括由表格构成的图像数据、纯表格数据等,其中,由表格构成的图像数据可以包括依据表格数据生成的折线图类、依据表格数据生成的柱状图类(例如柱状图、直方图、堆叠柱状图等)、依据表格数据生成的柱条形图类(例如条形图、堆叠条形图、百分比堆叠条形图)、依据表格数据生成的饼图类(例如饼图、环图等)、依据表格数据生成的面积图类、依据表格数据生成的散点图类、依据表格数据生成的热力图类,等等。本实施例对图表数据的具体类型和内容不作限定。
本实施例中的文本文件的格式类型可以包括docx,pptx,pdf或者其他格式文档,本发明实施例对此不作具体限定。在具体实现中,本实施例对获取的文本文件的数量不作限定,且单一文本文件中可以包括多个图表数据,本实施例对单一文本文件中所包含的图表数据的数量不作限定,进一步的,图表数据在文本文件中的位置可以是任意位置,例如页尾、页首、字段中间,等等,本实施例对此也不作限定。
在本实施例的具体实现中,获取包含图表数据的文本文件可以通过爬虫技术从公开数据库或公告网站上采集不同格式种类的多个原始文本文件,使用预设的正则表达式判断多个原始文本文件中是否包含图表数据,若原始文本文件中包含图表数据,则确定当前的原始文本文件作为待使用的文本文件。
S120、将文本文件转换为预设格式的图片。
在具体实现中,可以优先确定文本文件中的页面数量,再将文本文件中的每个页面通过格式转化器转化为图片,图片的预设格式可以是JPG格式、PNG格式,等等,本实施例对此不作限定。
可以理解的是,由于文本文件的格式种类可以多样化,则由不同格式种类的文本文件所转换得到的图片也可以是多样的,本实施例对其图片的数量不作限定。
S130、将图片输入图表定位检测器中,输出图表数据在图片中的定位结果。
其中,本实施例中的图表定位检测器可以由预设的神经网络经包含样本图表数据的样本数据集训练得到。
当确定预设的神经网络训练完成时,则可以确定待应用于图表识别领域的图表定位检测器,将由不同格式种类的文本文件所转换得到的各图片输入该图表定位检测器中,由该图表定位检测器输出图表数据在各图片中的定位结果,定位结果可以包括图表数据在各图片中的位置(例如横坐标、纵坐标),图表数据在各图片中所在区域的形状大小(例如图表高度与图表宽度),等等。
预设的神经网络可以包括早期的浅层神经网络和现在的深层神经网络,深层神经网络又称为深度学习;在本实施例优选的实施方式中,预设的神经网络可以使用Yolo v5网络,具体可以为Yolov5s网络、Yolov5l网络、Yolov5m网络、Yolov5x网络中的任意一个网络。上述4个网络所达到的识别效果与速度是不同的,本发明根据已测试的实验数据可以表明,由yolov5s网络训练得到的图表定位检测器对图表数据进行识别的速度最快,可以达到实时级别;由yolov5x网络训练得到的图表定位检测器对图表数据进行识别的性能最优良,但是时间成本是yolov5s的6倍,本发明实施例可以结合实际的业务需求选择对应的网络结构,用于训练得到图表定位检测器。
进一步的,若以YOLOv5网络作为预设的神经网络来进行图表定位检测器的训练。其中,YOLOv5网络所包含的骨干网络采用了Focus结构与CSP结构(CSP结构借鉴了CSPNet的网络架构)的网络设计,在该骨干网络中,可以使用Focus结构来对输入的待定位图表数据的图片进行切片操作,其优势在于采用切片操作可以使得输入图片能够在网络传播中生成多个特征维度的特征图,有利于特征的提取和融合,其后再利用CPS结构对多个特征图执行卷积操作,可从特征图中提取出丰富的特征信息,这些特征信息可以协助神经网络在训练过程中不断提升定位精度。再者,YOLOv5网络所具备的骨干网络可以解决其他大型卷积神经网络框架中网络优化的梯度信息重复问题,将梯度的变化从头到尾地集成到特征图中,因此减少网络的参数量和FLOPS数值(Floating point Opreations Per Second,每秒浮点运算次数),既保证了推理速度和准确率,又减小了网络尺寸。
在本实施例的一种优选实施方式中,预设的神经网络可以选择yolov5网络,其计算速度快(达到实施级别,每秒140FTP),且yolov5网络为轻量级网络(仅需240MB内存),兼容性强,与传统图标识别技术只能识别特定的文本文本类型不同,不论是docx,pptx,pdf或者其他文档,都可以进行有效的图表识别操作。
在本实施例的一个优选示例中,为了追求图表定位检测器的高精度、高性能,预设的神经网络可以进一步选择yolov5网络中的yolov5x网络,训练所需的样本数据集可以通过脚本文件进行传送,且在训练过程中可以指定所需的训练次数epoch,图片大小以320*240训练,目的是节约时间成本并且不影响检测精度。
在本实施例的一种实现方式中,图表定位检测器的训练过程可以包括如下具体步骤:
S1301、获取包含样本图表数据的样本数据集。
其中,样本数据集可以包括训练样本集和测试样本集。
在一个示例中,该样本数据集还可以划分成三份数据集,分别为训练样本集、测试样本集以及验证样本集,训练样本集和测试样本集用于训练图表定位检测器;验证样本集则可以用于作为包含图表数据的文本文件所转换为的图片,输入已经训练完成的图表定位检测器中,输出图表数据在图片中的定位结果,即验证样本集可以用于图表定位检测器在应用时的输入数据。
S1302、采用训练样本集训练预设的神经网络,在该神经网络的反向传播中更新网络参数,直到神经网络的训练次数达到预设的训练次数。
在具体实现中,训练样本集携带有样本标签,样本标签所含有的信息用于标识训练样本集中的样本图表数据在该训练样本集中的定位结果,将训练样本集输入预设的神经网络进行正向传播,使得神经网络输出对样本图表数据预测的定位结果,利用该预测的定位结果与样本标签之间的偏差和训练样本集再次对该神经网络进行反向传播,以更新该神经网络的权值等网络参数,该神经网络的一次正向传播和一次反向传播可以被视为一次训练epoch,当该神经网络的训练次数达到预设的训练次数时,则结束当前网络训练,进而执行S1303。
S1303、当神经网络的训练次数达到预设的训练次数时,将测试样本集输入神经网络中,输出得到网络损失值。
其中,测试样本集也携带有样本标签,即包含样本图表数据在该测试样本集中的定位结果,因此可以使用测试样本集从第三方视角来检测训练次数达标的神经网络的网络损失。
S1304、若网络损失值不符合预设的要求,则返回执行S1302。
S1305、若网络损失值符合预设的要求,则保留神经网络当前的网络参数,确定神经网络为图表定位检测器。
其中,预设的要求可以是预先设置固定的阈值,若测试样本集检测到的网络损失值小于该阈值,则可以确定保留神经网络当前的网络参数,确定神经网络为图表定位检测器。
在本发明的一个实施例中,在训练图表定位检测器的过程中,获取包含样本图表数据的样本数据集,可以包括如下具体步骤:
S13011、获取样本图表数据。
为了保证样本数据集的多样性,可以获取大小、形状以及内容均不同的样本图表数据,本实施例对样本图表数据的数量和具体形式不作限定。
在本实施例的一个示例中,可以预先通过爬虫技术在公共网站上采集不同格式种类的多个原始文件,例如pdf文件、docx文件、pptx文件,等等,在这些原始文件中会存在多个图表数据,例如直方图、表格数据、条形图、饼图,等等,在获取到多个原始文件后,可以使用预设的正则表达式从采集到的多个原始文件中提取图表数据作为样本图表数据。在一个具体示例中,由于训练模型需要获取足够的数据量,但实际得到的数据往往包含大量不同种类的文件,这种数据往往被称为脏数据,即本实施例中的原始文件,可以根据脏数据解析出来的xml文本信息,判断xml文本信息所指路径中是否存在预设的正则表达式,例如正则表达式为“//img”,若xpath路径中存在“//img”表达式,则表示该解析数据为图片类型的数据,即可以依据预设的正则表达式从采集到的多个原始文件中提取图表数据作为样本图表数据。
S13012、将样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件。
其中,预设的幻灯片演示文稿可以由空白的幻灯片演示文稿构成,还可以在空白的幻灯片演示文稿中增添文字段落与无表格图片来丰富文本背景,使得待插入样本图表数据的预设的幻灯片演示文稿的数据类型更为丰富,能进一步丰富由幻灯片演示文稿构造的样本数据集,使用多元化的样本数据集训练图表定位检测器,有助于提高图表定位检测器的鲁棒性和普适性。
在本实施例的一个示例中,S13012可以进一步包括如下步骤:
S1、将样本图表数据插入预设的幻灯片演示文稿中,判断样本图表数据是否超出幻灯片演示文稿的纸张范围。
S2、若样本图表数据超出幻灯片演示文稿的纸张范围,则获取新的样本图表数据,返回执行S1。
S3、若样本图表数据未超出幻灯片演示文稿的纸张范围,则确定当前包含样本图表数据的幻灯片演示文稿为原始样本文本文件。
在上述示例中,在构建原始样本文本文件的过程中,若样本图表数据的尺寸过大,插入预设的幻灯片演示文稿中的操作失败,进而选择重新插入新的样本图表数据的方式相对来说较为简单且容易实现。除却重新插入新的样本图表数据的方式,还可以考虑对插入失败的样本图表数据进行图像编辑,执行图像剪切、分割等操作,再将执行完图像编辑操作的样本图表数据重新插入预设的幻灯片演示文稿中,但该方式需要记录对样本图表数据进行剪裁操作的所有操作信息,会占用缓存,且操作起来较为繁琐。
需要说明的是,上述示例仅是对确定原始样本文本文件的一种实现方式的说明,本实施例对此不作具体限定。
S13012、使用格式转换器将原始样本文本文件转化为样本图片。
其中,格式转换器可以使用LibreOffice服务软件,也可以使用其他能够实现文本数据格式转换为图片格式的服务软件。
S13013、确定样本图片的样本标签,将具有样本标签的样本图片作为样本数据集。
在本实施例的一种实现方式中,确定样本图片的样本标签,将具有样本标签的样本图片作为样本数据集,可以具体包括如下步骤:
S11、解析幻灯片演示文稿的可扩展标记语言XML部分。
本实施例中,XML(Xtensible Markup Language)一般指可扩展标记语言,可扩展标记语言,为标准通用标记语言的子集,简称XML;是一种用于标记电子文件使其具有结构性的标记语言。在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。在实际应用中,可扩展标记语言XML常被用来传输和存储数据,一般的文本文件都带有XML部分。
S12、依据可扩展标记语言XML部分确定样本图表数据在幻灯片演示文稿中的位置以及样本图表数据的形状参数。
其中,样本图表数据在幻灯片演示文稿中的位置可以包括样本图表数据在幻灯片演示文稿中的横坐标与纵坐标,形状参数可以包括样本图表数据在幻灯片演示文稿中的图表高度与图表宽度。
在具体实现中,可以使用幻灯片演示文稿展示软件中的slides模块获取样本图表数据在幻灯片演示文稿中的位置以及样本图表数据的形状参数。
S13、确定幻灯片演示文稿的纸张高度和纸张宽度。
在具体实现中,可以使用幻灯片演示文稿展示软件中的presentation模块获得纸张的高度和宽度,即得到纸张高度和纸张宽带。
S14、以横坐标、纵坐标、图表高度、图表宽度、纸张高度以及纸张宽度作为样本图片的样本标签。
在具体实现中,样本标签的数量会随着样本图片数据类型的多样化而不断丰富,为了便于区分不同的样本图片,还可以为样本标签设置类别属性,利用该类别属性来对样本图片进行分类,进而便于划分不同的样本数据集。
S15、将具有样本标签的样本图片作为样本数据集。
在一个具体示例中,确定样本图表数据在幻灯片演示文稿中的位置、形状参数,以及确定幻灯片演示文稿的纸张高度和纸张宽度,可以以当前样本图表数据待插入的幻灯片演示文稿所在页面的左上角为坐标原点构建坐标系,通过slides模块获取当前样本图表数据在该幻灯片演示文稿中的横坐标x、纵坐标y以及其图表高度cy和图表宽度cx,通过presentation模块获得纸张高度h和纸张宽度w,由于该示例中确定位置、形状参数的方法是以左上角为坐标原点,因此在构造样本标签时需要对slides模块直接获取到的坐标位置(横坐标x、纵坐标y)进行坐标变化,修改后得到真实坐标位置为:横坐标(x+cx/2)、纵坐标(y+cy/2),而纸张高度和纸张宽度依然保留h和w;将当前构建的所有样本标签的类别属性都设置为‘chart’,记作0号分类。故所得样本标签可以标记为[0 (x+cx/2)/w (y+cy/2)/hcx/w cy/h],与样本图片组成样本数据集。
本发明实施例通过获取包含图表数据的文本文件,将文本文件转换为预设格式的图片,将图片输入图表定位检测器中,输出图表数据在图片中的定位结果;其中,图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。在本实施例中,包含图表数据的文本文件可以是任意格式种类的文本文件,将该文本文件转换为图片,则避免了现有技术中需要使用规范的协议来解析文本定位图表位置的操作,将转换后的图片直接输入预先训练完成的图表定位检测器中,则可以直接输出图表数据在图片中的定位结果,能够解决现有技术从文本文件中识别图表效率低下、且识别图表准确性较低的技术问题;进一步的,本发明实施例中的图表定位检测器由于是由预设的神经网络经包含样本图表数据的样本数据集训练得到的,该神经网络的精准度可以在训练过程中得到有效控制,且该神经网络的网络结构中各项网络参数也可以依据参与网络训练的样本数据集来调整、进而影响图表定位检测器识别图表的效率和精度,只要样本数据集的数据类型丰富且多样,训练得到的图表定位检测器的普适性和鲁棒性就能得到保证,并能够保证图表定位检测器在实际图表识别的应用过程中可以快速输出较高精度的定位结果。
实施例二
图2为本发明实施例二提供的一种图表识别装置的结构框图,该装置可由软件和\或硬件来实现。该装置包括:数据获取模块201、格式转换模块202和图表识别模块203,其中,
数据获取模块201,用于获取包含图表数据的文本文件;
格式转换模块202,用于将所述文本文件转换为预设格式的图片;
图表识别模块203,用于将所述图片输入图表定位检测器中,输出所述图表数据在所述图片中的定位结果;其中,所述图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。
在本发明的一个实施例中,所述预设的神经网络为Yolov5s网络或Yolov5l网络或Yolov5m网络或Yolov5x网络,所述神经网络采用改进的FReLU激活函数,改进的FReLU激活函数表示为y = max(ax,mT(x))+δ,其中T(·)是二维空间条件空间上下文特征提取器,m为与通道相关的自定义值,a为自定义常数,δ为调节值,x为输入像素参数化池窗口。
具体的定义激活函数
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
以二维空间位置(i,j)第c通道上非线性激活函数f()输入像素为中心的参数化池窗口;w为在窗口通道中共享的系数,m为与通道相关的自定义值,a为自定义常数,δ为调节值。
在本发明的一个实施例中,所述图表定位检测器的训练过程,包括:
获取包含样本图表数据的样本数据集,所述样本数据集包括训练样本集和测试样本集;
采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
当所述神经网络的训练次数达到预设的训练次数时,将所述测试样本集输入所述神经网络中,输出得到网络损失值;
若所述网络损失值不符合预设的要求,则返回执行所述采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
若所述网络损失值符合预设的要求,则保留所述神经网络当前的网络参数,确定所述神经网络为图表定位检测器。
在本发明的一个实施例中,所述获取包含样本图表数据的样本数据集,包括:
获取样本图表数据;
将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件;其中,所述预设的幻灯片演示文稿包括文字段落与无表格图片;
使用格式转换器将所述原始样本文本文件转化为样本图片;
确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集。
在本发明的一个实施例中,所述获取样本图表数据,包括:
通过爬虫技术采集不同格式种类的多个原始文件;
使用预设的正则表达式从所述多个原始文件中提取图表数据作为样本图表数据。
在本发明的一个实施例中,所述将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件,包括:
将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据超出所述幻灯片演示文稿的纸张范围,则获取新的样本图表数据,返回执行所述将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据未超出所述幻灯片演示文稿的纸张范围,则确定当前包含所述样本图表数据的所述幻灯片演示文稿为原始样本文本文件。
在本发明的一个实施例中,所述确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集,包括:
解析所述幻灯片演示文稿的可扩展标记语言XML部分;
依据所述可扩展标记语言XML部分确定所述样本图表数据在所述幻灯片演示文稿中的位置以及所述样本图表数据的形状参数;其中,所述位置包括所述样本图表数据在所述幻灯片演示文稿中的横坐标与纵坐标,所述形状参数包括所述样本图表数据在所述幻灯片演示文稿中的图表高度与图表宽度;
确定所述幻灯片演示文稿的纸张高度和纸张宽度;
以所述横坐标、所述纵坐标、所述图表高度、所述图表宽度、所述纸张高度以及所述纸张宽度作为所述样本图片的样本标签;
将具有所述样本标签的样本图片作为样本数据集。
本发明实施例所提供的图表识别装置可执行本发明任意实施例所提供的图表识别方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构示意图,如图3所示,该计算机设备包括处理器300、存储器310、输入装置320和输出装置330;计算机设备中处理器300的数量可以是一个或多个,图3中以一个处理器300为例;计算机设备中的处理器300、存储器310、输入装置320和输出装置330可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器310作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的图表识别方法对应的程序指令/模块(例如,图表识别装置中的数据获取模块201、格式转换模块202和图表识别模块203)。处理器300通过运行存储在存储器310中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的图表识别方法。
存储器310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器310可进一步包括相对于处理器300远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置320可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置330可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种图表识别方法,该方法包括:
获取包含图表数据的文本文件;
将所述文本文件转换为预设格式的图片;
将所述图片输入图表定位检测器中,输出所述图表数据在所述图片中的定位结果;其中,所述图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的图表识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述图表识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种图表识别方法,其特征在于,包括:
获取包含图表数据的文本文件;
将所述文本文件转换为预设格式的图片;
将所述图片输入图表定位检测器中,输出所述图表数据在所述图片中的定位结果;其中,所述图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到;
所述样本数据集的获取,包括:获取样本图表数据;
将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件;其中,所述预设的幻灯片演示文稿包括文字段落与无表格图片;
使用格式转换器将所述原始样本文本文件转化为样本图片;
确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集;所述预设的神经网络为Yolov5s网络或Yolov5l网络或Yolov5m网络或Yolov5x网络,所述神经网络采用改进的FReLU激活函数,改进的FReLU激活函数表示为:
Figure 455134DEST_PATH_IMAGE001
Figure 981930DEST_PATH_IMAGE002
以二维空间位置(i,j)第c通道上非线性激活函数f()输入像素为中心的参数化池窗口;w为在窗口通道中共享的系数,m为与通道相关的自定义值,a为自定义常数,δ为调节值,x为输入像素参数化池窗口;
所述样本数据集包括训练样本集和测试样本集;
所述图表定位检测器的训练过程,包括:
采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
当所述神经网络的训练次数达到预设的训练次数时,将所述测试样本集输入所述神经网络中,输出得到网络损失值;
若所述网络损失值不符合预设的要求,则返回执行所述采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
若所述网络损失值符合预设的要求,则保留所述神经网络当前的网络参数,确定所述神经网络为图表定位检测器;
所述将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件,包括:
将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据超出所述幻灯片演示文稿的纸张范围,则获取新的样本图表数据,返回执行所述将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据未超出所述幻灯片演示文稿的纸张范围,则确定当前包含所述样本图表数据的所述幻灯片演示文稿为原始样本文本文件。
2.根据权利要求1所述的方法,其特征在于,所述获取样本图表数据,包括:
通过爬虫技术采集不同格式种类的多个原始文件;
使用预设的正则表达式从所述多个原始文件中提取图表数据作为样本图表数据。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集,包括:
解析所述幻灯片演示文稿的可扩展标记语言XML部分;
依据所述可扩展标记语言XML部分确定所述样本图表数据在所述幻灯片演示文稿中的位置以及所述样本图表数据的形状参数;其中,所述位置包括所述样本图表数据在所述幻灯片演示文稿中的横坐标与纵坐标,所述形状参数包括所述样本图表数据在所述幻灯片演示文稿中的图表高度与图表宽度;
确定所述幻灯片演示文稿的纸张高度和纸张宽度;
以所述横坐标、所述纵坐标、所述图表高度、所述图表宽度、所述纸张高度以及所述纸张宽度作为所述样本图片的样本标签;
将具有所述样本标签的样本图片作为样本数据集。
4.一种图表识别装置,其特征在于,包括:
数据获取模块,用于获取包含图表数据的文本文件;
格式转换模块,用于将所述文本文件转换为预设格式的图片;
图表识别模块,用于将所述图片输入图表定位检测器中,输出所述图表数据在所述图片中的定位结果;其中,所述图表定位检测器由预设的神经网络经包含样本图表数据的样本数据集训练得到;
所述样本数据集的获取,包括:获取样本图表数据;
将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件;其中,所述预设的幻灯片演示文稿包括文字段落与无表格图片;
使用格式转换器将所述原始样本文本文件转化为样本图片;
确定所述样本图片的样本标签,将具有所述样本标签的样本图片作为样本数据集;所述预设的神经网络为Yolov5s网络或Yolov5l网络或Yolov5m网络或Yolov5x网络,所述神经网络采用改进的FReLU激活函数,改进的FReLU激活函数表示为:
Figure 477240DEST_PATH_IMAGE001
Figure 532921DEST_PATH_IMAGE002
以二维空间位置(i,j)第c通道上非线性激活函数f()输入像素为中心的参数化池窗口;w为在窗口通道中共享的系数,m为与通道相关的自定义值,a为自定义常数,δ为调节值,x为输入像素参数化池窗口;
所述样本数据集包括训练样本集和测试样本集;
所述图表定位检测器的训练过程,包括:
采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
当所述神经网络的训练次数达到预设的训练次数时,将所述测试样本集输入所述神经网络中,输出得到网络损失值;
若所述网络损失值不符合预设的要求,则返回执行所述采用所述训练样本集训练预设的神经网络,在所述神经网络的反向传播中更新网络参数,直到所述神经网络的训练次数达到预设的训练次数;
若所述网络损失值符合预设的要求,则保留所述神经网络当前的网络参数,确定所述神经网络为图表定位检测器;
所述将所述样本图表数据插入预设的幻灯片演示文稿中,得到原始样本文本文件,包括:
将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据超出所述幻灯片演示文稿的纸张范围,则获取新的样本图表数据,返回执行所述将所述样本图表数据插入预设的幻灯片演示文稿中,判断所述样本图表数据是否超出所述幻灯片演示文稿的纸张范围;
若所述样本图表数据未超出所述幻灯片演示文稿的纸张范围,则确定当前包含所述样本图表数据的所述幻灯片演示文稿为原始样本文本文件。
5.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的图表识别方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的图表识别方法。
CN202210118577.7A 2022-02-08 2022-02-08 一种图表识别方法、装置、设备及存储介质 Active CN114155547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210118577.7A CN114155547B (zh) 2022-02-08 2022-02-08 一种图表识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210118577.7A CN114155547B (zh) 2022-02-08 2022-02-08 一种图表识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114155547A CN114155547A (zh) 2022-03-08
CN114155547B true CN114155547B (zh) 2022-07-12

Family

ID=80450210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210118577.7A Active CN114155547B (zh) 2022-02-08 2022-02-08 一种图表识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114155547B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563872B (zh) * 2023-05-26 2024-01-30 珠海盈米基金销售有限公司 一种基于深度学习的图表提取方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256582B2 (en) * 2012-10-23 2016-02-09 International Business Machines Corporation Conversion of a presentation to Darwin Information Typing Architecture (DITA)
CN109461195A (zh) * 2018-09-28 2019-03-12 武汉优品楚鼎科技有限公司 一种基于svg的图表提取方法、装置及设备
CN110348294B (zh) * 2019-05-30 2024-04-16 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Funnel Activation for Visual Recognition;Ningning Ma et al;《arXiv:2007.11824v2》;20200724;第1-17页 *

Also Published As

Publication number Publication date
CN114155547A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN109284729B (zh) 基于视频获取人脸识别模型训练数据的方法、装置和介质
CA2668413C (en) Media material analysis of continuing article portions
US8347206B2 (en) Interactive image tagging
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
CN111291572B (zh) 一种文字排版方法、装置及计算机可读存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
US20060210171A1 (en) Image processing apparatus
CN108334800B (zh) 印章图像的处理装置、方法以及电子设备
Yuan et al. An opencv-based framework for table information extraction
CN113807158A (zh) 一种pdf内容提取方法、装置及设备
CN111079777B (zh) 一种基于书页定位的点读方法及电子设备
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
Xiao et al. Video text detection based on multi-feature fusion
CN101539944A (zh) 基于Haar特征匹配的数字图像内容搜索方法
CN117437651A (zh) 表格数据提取方法、装置、终端设备以及存储介质
CN113761833A (zh) 一种文档内容的显示方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant