CN114936279A - 一种面向协同制造企业的非结构化图表数据分析方法 - Google Patents

一种面向协同制造企业的非结构化图表数据分析方法 Download PDF

Info

Publication number
CN114936279A
CN114936279A CN202210225837.0A CN202210225837A CN114936279A CN 114936279 A CN114936279 A CN 114936279A CN 202210225837 A CN202210225837 A CN 202210225837A CN 114936279 A CN114936279 A CN 114936279A
Authority
CN
China
Prior art keywords
data
chart
unstructured
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210225837.0A
Other languages
English (en)
Inventor
刘昌宏
陈亮
赵康廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Chongqing China Tobacco Industry Co Ltd
Original Assignee
Xian Polytechnic University
Chongqing China Tobacco Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University, Chongqing China Tobacco Industry Co Ltd filed Critical Xian Polytechnic University
Priority to CN202210225837.0A priority Critical patent/CN114936279A/zh
Publication of CN114936279A publication Critical patent/CN114936279A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向协同制造企业的非结构化图表数据分析方法,包括:获取非结构化图表数据;通过光学字符识别技术和深度学习的卷积神经网络对所述非结构化图表数据进行文本提取,得到文本信息;通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提取,得到关键点特征数据;将所述关键点特征数据和所述文本信息进行结合整理,得到图表信息,通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到所述非结构化图表数据的图表分析文本。本发明能够实现自动获取图表中的文本和数据,提取了图表中的有价值的数据;获取了多种类别图表的底层特征,并根据多种类别图表的底层特征来分类和提取图表信息。

Description

一种面向协同制造企业的非结构化图表数据分析方法
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种面向协同制造企业的非结构化图表数据分析方法。
背景技术
随着信息通信技术和大数据技术的发展,制造企业管理过程的信息化和智能化程度不断提高。使用数据分析和数据管理方法将企业中离散多源的数据资源转化为数据知识用于生产运营决策已成为企业智能化转型的关键。网络化协同制造作为一种信息高度集成的智能制造模式,也极大地促进制造企业的智能发展。协同制造中的协同层可以获取到各个生产车间甚至是企业间的生产信息资源,实现生产资源交互整合和协调管控,从而提高企业资源利用能效。在这些信息资源中,可视化图表作为一种直观简单的展示数值数据的方式,被广泛应用在数据分析工作中,并作为重要的非结构化数据在企业间的协同过程中进行数据整合。由于数据格式的特殊性,对图表信息的分析应用常存在以下问题:一是图表的原始数据难以获得。由于图表的原始数据来自于不同企业或者车间的生产系统,因此在获取原始数据时需要访问不同生产系统的数据接口,并需要企业开放数据访问权限。然而部分企业出于数据安全性考虑不提供相关数据的访问接口,同时部分图表对应的原始数据具有较强的时序性,在数据库不断迭代更新过程可能会出现数据丢弃和错漏现象;二是企业对图表信息的分析需要依赖分析人员的专业能力进行详细的图表信息理解,这种方式人为因素较强且费时费力。
发明内容
本发明的主要目的在于提出一种面向协同制造企业的非结构化图表数据分析方法,旨在实现自动获取图表中的文本和数据,提取图表中的有价值的数据。
为实现上述目的,本发明提供一种面向协同制造企业的非结构化图表数据分析方法,所述方法包括如下步骤:
获取非结构化图表数据;
通过光学字符识别技术和深度学习的卷积神经网络对所述非结构化图表数据进行文本提取,得到文本信息,其中,文本信息包括文本内容信息和文本位置信息;
通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提取,得到关键点特征数据;
将所述关键点特征数据和所述文本信息进行结合整理,得到图表信息,其中图表信息包括图表基础信息和数值信息;
通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到所述非结构化图表数据的图表分析文本。
可选地,所述通过光学字符识别技术和深度学习的卷积神经网络对所述非结构化图表数据进行文本提取,得到文本信息的步骤,包括:
对非结构化图表数据进行预处理操作,所述预处理操作包括图像的缩放和裁剪;
对预处理后的非结构化图表数据进行二值化处理;
使用基于深度学习的文本像素分类器去除二值化处理后的非结构化图表数据中的非文本像素,获得仅保留了文本像素的纯净图像;
通过光学字符识别技术识别所述纯净图像中的文本,得到文本信息。
可选地,所述文本信息的类型为4种,包括:图表标题、图例、x轴以及y 轴;文本信息的类型是使用径向基核函数训练支持向量机对提取到的文本元素进行分类得到的。
可选地,所述通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提取,得到关键点特征数据的步骤,包括:
通过沙漏网络对非结构化图表数据进行一系列的下采样操作和上采样操作处理,得到将非结构化图表数据的关键点位置像素高亮的概率特征图;
将所述概率特征图作为输入经过关键点检测网络模型的左上角预测模块和右上角预测模块,得到所述概率特征图的热力特征图、嵌入特征图和偏移特征图;
根据关键点检测网络模型的热力特征图、嵌入特征图和偏移特征图得到关键点特征数据。
可选地,所述关键点检测网络模型包括沙漏网络、下采样操作层、上采样操作层、特征提取操作层、特征保存操作层构成。
可选地,所述根据热力特征图、嵌入特征图和偏移特征图得到关键点特征数据的步骤,包括:
通过热力特征图预测关键点区域左上角和右下角点的位置信息,通过嵌入特征图匹配同一目标的左上和右下关键点,通过偏移特征图校正关键点的位置,得到所述非结构化图表数据的关键点特征数据。
可选地,所述热力特征图的损失函数如下:
Figure RE-GDA0003739308930000031
其中,N为非结构化图表数据中关键点的数量,α和β为决定每个关键点贡献的超参数,分别设定为2和3;pcij为类别为C的关键点在(i,j)位置的得分;ycij为用高斯公式计算的真实热力特征图,(1-ycij)为高斯非线性化后预测角点与真实角点之间的距离。
可选地,所述嵌入特征图的损失函数为:
Figure RE-GDA0003739308930000032
Figure RE-GDA0003739308930000041
其中,Lpull为最小化同一组角点之间距离的损失函数,Lpush为增大不同组角点距离以区分角点的损失函数。etk为类别为k的左上角点的嵌入特征,ebk为类别为k的右上角点的嵌入特征,ek为etk与ebk的平均值。
可选地,所述图表信息提取部分的时间复杂度为:
Figure RE-GDA0003739308930000042
其中,D为关键点检测网络模型和卷积神经网络的层数,取值为关键点检测模型的104层加上卷积神经网络的3层,M为每个卷积层输出的特征图大小, N为卷积核的边长,C为每一层的输入输出通道数。
可选地,所述通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到所述非结构化图表数据的图表分析文本的步骤之前,包括:
获取制造企业语义表达数据集和制造企业意图分析数据集,以及通过制造企业可视化平台的用户需求文本;
通过所述制造企业语义表达数据集和所述制造企业意图分析数据集对深度学习的自然语言生成模型进行训练,将用户需求文本作为模型初始序列,经过自然语言生成模型迭代生成语义序列,得到预训练的自然语言生成模型,所述预训练的自然语言生成模型包含用户需求的语义序列。
有益效果:
1、实现了自动获取图表中的文本和数据,提取了图表中的有价值的数据;提高了提取图表信息的类型。
2、获取了多种类别图表的底层特征,并根据多种类别图表的底层特征来分类和提取图表信息;实现了更直接地获取图表中的信息。
3、能够实现能够帮助快速理解图表信息,同时方便企业人员进行图文交互,提高图表信息的可访问性。
4、在非结构化图表数据进行文本和关键点特征提取时,采用关键点检测技术和光学字符识别OCR技术对协同制造过程中不同类型的图表数据进行识别和提取。
5、在通过预训练的自然语言生成模型对图表信息进行处理时,使用自行构建的标注好的制造企业语义表示数据集和意图识别数据集来训练自然语言生成模型,使得模型可以根据用户输入来分析意图并生成相应的图表特征文本描述,帮助制造企业对图表数据进行应用。
附图说明
图1为本发明面向协同制造企业的非结构化图表数据分析方法第一实施例的流程示意图;
图2为本发明面向协同制造企业的非结构化图表数据分析方法的流程示意图;
图3为本发明非结构化图表数据的原始图表图像;
图4为本发明非结构化图表数据经过二值化处理之后的图像;
图5为本发明非结构化图表数据的剔除图像中的非文本像素后的纯净图像;
图6为本发明预测模块的结构以及关键点检测框架的关键点检测网络模型的结构以及关键点检测框架流程图;
图7为本发明自然语言生成模型的结构示意图;
图8为某企业加工的各类零件产量变化折线图和通过图表数据分析方法处理某企业加工的各类零件产量变化折线图生成图表分析文本;
图9为某企业车间零件生产任务完成量条形图和通过图表数据分析方法处理某企业车间零件生产任务完成量条形图生成图表分析文本;
图10为某企业中车间的零件缺陷率散点图和通过图表数据分析方法处理某企业中车间的零件缺陷率散点图生成图表分析文本;
图11为某企业订单量组合图和通过图表数据分析方法处理某企业订单量组合图生成图表分析文本。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明面向协同制造企业的非结构化图表数据分析方法第一实施例的流程示意图。
本发明实施例中,该面向协同制造企业的非结构化图表数据分析方法应用于图表数据分析装置,面向协同制造企业的非结构化图表数据分析方法包括:
步骤S10,获取非结构化图表数据;
在本实施例中,为了实现自动获取图表中的文本和数据,提取图表中的有价值的数据。图表数据分析装置获取非结构化图表数据。
步骤S20,通过光学字符识别技术和深度学习的卷积神经网络对非结构化图表数据进行文本提取,得到文本信息,其中,文本信息包括文本内容信息和文本位置信息;
在本实施例中,图表数据分析装置在获取了非结构化图表数据之后,通过光学字符识别技术和深度学习的卷积神经网络对非结构化图表数据进行文本提取,得到文本信息,其中,文本信息包括文本内容信息和文本位置信息。图表文本信息的提取用于识别和提取图表中的基础信息,包括图例、坐标轴、图表标题等,这部分信息由于其分布位置的特殊性以及文本的格式,更适合采用光学字符识别OCR技术单独进行提取。
步骤S20通过光学字符识别技术和深度学习的卷积神经网络对非结构化图表数据进行文本提取,得到文本信息,可以包括:
步骤S21,对非结构化图表数据进行预处理操作,预处理操作包括图像的缩放和裁剪;
在本实施例中,图表数据分析装置在获取了非结构化图表数据之后,对非结构化图表数据进行预处理操作,预处理操作包括图像的缩放和裁剪。
步骤S22,对预处理后的非结构化图表数据进行二值化处理。
在本实施例中,图表数据分析装置在得到了预处理后的非结构化图表数据之后,对预处理后的非结构化图表数据进行二值化处理。
步骤S23,使用基于深度学习的文本像素分类器去除二值化处理后的非结构化图表数据中的非文本像素,获得仅保留了文本像素的纯净图像。
在本实施例中,图表数据分析装置在得到了二值化处理后的非结构化图表数据之后,使用基于深度学习的文本像素分类器去除二值化处理后的非结构化图表数据中的非文本像素,获得仅保留了文本像素的纯净图像。
步骤S24,通过光学字符识别技术识别纯净图像中的文本,得到文本信息。
在本实施例中,图表数据分析装置在获得了仅保留了文本像素的纯净图像之后,通过光学字符识别技术识别纯净图像中的文本,得到文本信息。如图5 所示,纯净图像可以最大限度的让文本识别工具关注文本本身,以提高文本识别的精度。
其中,文本信息的类型为4种,包括:图表标题、图例、x轴以及y轴;文本信息的类型是使用径向基核函数训练支持向量机(SVM)对提取到的文本元素进行分类得到的。
步骤S30,通过基于沙漏网络的关键点检测网络模型对非结构化图表数据进行关键点提取,得到关键点特征数据;
在本实施例中,图表数据分析装置在获取了非结构化图表数据之后,通过基于沙漏网络的关键点检测网络模型对非结构化图表数据进行关键点提取,得到关键点特征数据。关键点提取用于提取图表中跟数值信息相关的图形关键点,如条形图中各个条形框的角点,折线图中的拐点等,这部分信息可以帮助获取图表中的数值信息分布详情,同时结合图表坐标以及图例信息能够获取图表的数值信息。
步骤S30通过基于沙漏网络的关键点检测网络模型对非结构化图表数据进行关键点提取,得到关键点特征数据,可以包括:
步骤S31,通过沙漏网络对非结构化图表数据进行一系列的下采样操作和上采样操作处理,得到将非结构化图表数据的关键点位置像素高亮的概率特征图;
在本实施例中,图表数据分析装置在获取了非结构化图表数据之后,通过沙漏网络对非结构化图表数据进行一系列的下采样操作和上采样操作处理,得到将非结构化图表数据的关键点位置像素高亮的概率特征图。
步骤S32,将概率特征图作为输入经过关键点检测网络模型的左上角预测模块和右上角预测模块,得到概率特征图的热力特征图、嵌入特征图和偏移特征图;
在本实施例中,图表数据分析装置在得到了概率特征图之后,将概率特征图作为输入经过关键点检测网络模型的左上角预测模块和右上角预测模块,得到概率特征图的热力特征图、嵌入特征图和偏移特征图。关键点检测网络模型包括沙漏网络、下采样操作层、上采样操作层、特征提取操作层、特征保存操作层构成。其中,特征提取操作层主要是从经过上采样和下采样操作产生的特征中提取出用于确定关键点位置的三类特征图,包括热力特征图、嵌入特征图和偏移特征图。特征保存操作层主要是对特征提取操作层中的三类特征图进行整合和数值数据转换,形成可用的结构化图表数值信息进行保存。
如图6所示,进行关键点提取的图像首先要经过沙漏网络。这里的沙漏网络采用传统的104层架构,其中的下采样操作由最大池化层实现,上采样操作由最近邻插值层实现,特征提取以及特征保存操作均由2层1x1卷积和1层3x3 卷积组成的残差模块实现,以融合各种像素维度的关键点的提取。沙漏网络的输出首先经过一个3x3的卷积层,随后分别进行左上角预测模块和右下角预测模块的处理。在预测模块中,特征图首先进行角池化操作,随后使用卷积层进行特征提取,从而输出包括热力特征图、嵌入特征图、偏移特征图在内的用于确定左上角点及右下角点位置的特征信息。
步骤S33,根据关键点检测网络模型的热力特征图、嵌入特征图和偏移特征图得到关键点特征数据。
在本实施例中,图表数据分析装置在得到了概率特征图的热力特征图、嵌入特征图和偏移特征图之后,根据关键点检测网络模型的热力特征图、嵌入特征图和偏移特征图得到关键点特征数据。
步骤S33根据关键点检测网络模型的热力特征图、嵌入特征图和偏移特征图得到关键点特征数据,可以包括:
步骤S331,通过热力特征图预测关键点区域左上角和右下角点的位置信息,通过嵌入特征图匹配同一目标的左上和右下关键点,通过偏移特征图校正关键点的位置,得到非结构化图表数据的关键点特征数据。
在本实施例中,图表数据分析装置在得到了概率特征图的热力特征图、嵌入特征图和偏移特征图之后,通过热力特征图预测关键点区域左上角和右下角点的位置信息,通过嵌入特征图匹配同一目标的左上和右下关键点,通过偏移特征图校正关键点的位置,得到非结构化图表数据的关键点特征数据。
热力特征图用来预测关键点区域左上角和右下角点的位置信息,通道数为训练集中的类别个数,用来表示关键点的类别概率。热力特征图的损失函数如下:
Figure RE-GDA0003739308930000091
其中,N为非结构化图表数据中关键点的数量,α和β为决定每个关键点贡献的超参数,分别设定为2和3;pcij为类别为C的关键点在(i,j)位置的得分,得分越高,该点是角点的概率越高。ycij为用高斯公式计算的真实热力特征图, (1-ycij)为高斯非线性化后预测角点与真实角点之间的距离。
嵌入特征图用于匹配同一目标的左上和右下关键点。其核心思想在于最小化同一组关键点特征映射的距离,增大不属于同一目标的特征映射的距离,从而实现同一组关键点的匹配。嵌入特征图的损失函数为:
Figure RE-GDA0003739308930000101
Figure RE-GDA0003739308930000102
其中,Lpull为最小化同一组角点之间距离的损失函数,Lpush为增大不同组角点距离以区分角点的损失函数。etk为类别为k的左上角点的嵌入特征,ebk为类别为k的右上角点的嵌入特征,ek为etk与ebk的平均值。
偏移特征图用来校正关键点的位置。沙漏网络一系列的上采样和下采样操作不可避免会带来一定的误差,这些误差在图表图形差距不大时更容易对图表关键点的提取造成影响,这也会使得最终图表的数值数据产生一定的误差。为此,偏移特征图在角点预测位置加入了偏移量,以减少这些误差。
步骤S40,将关键点特征数据和文本信息进行结合整理,得到图表信息,其中图表信息包括图表基础信息和数值信息;
在本实施例中,图表数据分析装置在得到了文本信息和关键点特征数据之后,将关键点特征数据和文本信息进行结合整理,得到图表信息,其中图表信息包括图表基础信息和数值信息。
图表信息提取部分的时间复杂度为:
Figure RE-GDA0003739308930000103
其中,D为关键点检测网络模型和卷积神经网络的层数,取值为关键点检测模型的104层加上卷积神经网络的3层,M为每个卷积层输出的特征图大小, N为卷积核的边长,C为每一层的输入输出通道数。其中,卷积神经网络使用的均为3x3卷积,而关键点检测网络则包含54层的1x1卷积和54层的3x3卷积,分别对应26个残差特征提取模块。
步骤S50,通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到非结构化图表数据的图表分析文本;
在本实施例中,图表数据分析装置在得到了图表信息之后,通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到非结构化图表数据的图表分析文本。也即是,图表数据分析装置在得到了图表信息之后,将图表信息中提取相应的图表基础信息和数值数据填入文本描述,即可得到用户期望的图表分析文本。
得到非结构化图表数据的图表分析文本的目标是根据企业用户的输入来生成用户期望得到的图表描述和分析文本。在得到非结构化图表数据的图表分析文本的过程中,是使用自行构建的制造企业语义表达数据集和制造企业意图分析数据集来训练得到自然语言生成模型,将用户在制造企业可视化平台的需求文本作为模型初始序列,经过自然语言生成模型迭代生成语义序列,序列包括模型分析得到的用户意图信息和遮盖了图表数据的文本描述,根据用户意图,从第一阶段中获得的图表信息中提取相应的图表信息和数值数据填入文本描述,即可得到用户期望的图表分析文本。最终将图表分析文本输出到制造企业可视化平台中,实现对制造企业协同过程中的图表数据分析。
得到非结构化图表数据的图表分析文本的目标是根据企业用户的输入来生成用户期望得到的图表描述和分析文本。
步骤S50,通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到非结构化图表数据的图表分析文本之前,可以包括:
步骤S61,获取制造企业语义表达数据集和制造企业意图分析数据集,以及通过制造企业可视化平台的用户需求文本;
在本实施例中,图表数据分析装置在通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理之前,获取制造企业语义表达数据集和制造企业意图分析数据集,以及通过制造企业可视化平台的用户需求文本。
步骤S62,通过制造企业语义表达数据集和制造企业意图分析数据集对深度学习的自然语言生成模型进行训练,将用户需求文本作为模型初始序列,经过自然语言生成模型迭代生成语义序列,得到预训练的自然语言生成模型,预训练的自然语言生成模型包含用户需求的语义序列。
在本实施例中,图表数据分析装置在获取制造企业语义表达数据集和制造企业意图分析数据集,以及通过制造企业可视化平台的用户需求文本之后,通过制造企业语义表达数据集和制造企业意图分析数据集对深度学习的自然语言生成模型进行训练,将用户需求文本作为模型初始序列,经过自然语言生成模型迭代生成语义序列,得到预训练的自然语言生成模型,预训练的自然语言生成模型包含用户需求的语义序列。
结合自然语言生成技术对制造企业的图表进行描述可以大大提高制造企业图表数据的可理解性和交互性,促进企业中制造数据的信息集成以及应用。传统的自然语言生成方法可以生成预定义格式的文本描述,这种类型的文本描述在对格式要求较为严谨、需求比较固定的情况下通常有很好的效果。但随着制造企业对数据分析灵活性和交互性的需求越来越高,企业用户更希望得到能够满足其特定需求的描述,而不是包含大量无用信息的分析结果。
与一般基于深度学习的自然语言生成任务相比,制造企业图表描述的最大特点在于其中的大量数值数据与图表基础信息。考虑到这些信息本身通常会因为图表属性不同发生较大变化,其对语义表示并没有帮助,甚至会在模型学习过程中对模型的语义理解造成不必要的误导。因此,本实施例中设计了一个遮盖图表相关数据信息的自然语言生成模型。在模型训练过程中,遮盖与图表相关的数值数据和图表属性数据,以帮助模型专注于语义表达的生成,同时在模型中增加了一个输出分支,以区分用户的意图。最终在生成的语义表示中,根据用户的意图将遮盖的信息替换成相应的图表数据,从而得到更可靠且更符合企业用户需求的图表描述。
如图7所示,自然语言生成模型长短期记忆网络LSTM架构为基础,将企业用户的需求文本作为模型输入,整体分为意图识别、语义生成、数据填充三个过程来实现制造企业图表的描述生成。
模型的初始序列是制造企业用户的输入文本,首先通过嵌入层将其转换为词向量。本文选择预训练的Bert模型作为编码层,随后将编码层得到的词向量作为输入,传递给LSTM网络。与传统的循环神经网络相比,LSTM引入了记忆模块和细胞状态来控制和存储信息。记忆模块包含三个门,分别是遗忘门、输入门、输出门。遗忘门用来决定之前的细胞状态ct-1是否存储在当前的细胞状态ct中,定义如下:
ft=σ(wf·[ht-1,xt]+bf) (5)
其中wf为遗忘门的权重矩阵,ht-1为上一时刻网络的输出向量,xt为当前网络的输入向量,[ht,xt]为两向量的拼接,σ为sigmoid激活函数,bf为偏置矩阵。输入门决定当前网络输入是否存储在细胞状态ct中,定义为:
it=σ(wi·[ht-1,xt]+bi) (6)
其中wi、bi为输入门的权重矩阵和偏置矩阵。细胞状态可以通过遗忘门和输入门的结果更新如下:
ct=ft×ct-1+it×tanh(wC[ht-1,xt]+bC) (7)
LSTM的输出ot由输出门根据当前单元状态ct确定:
ot=σ(wo·[ht-1,xt]+bo) (8)
在输出层,本文构建了两个全连接结构y1,y2,分别用于语义表示生成和用户意图识别。在y1层之后,模型增加了一个softmax分类层,根据文本序列通过一定的采样策略选择下一个字符或单词,并将其添加到当前的文本序列之后。这个过程将不断循环,直到预期的图表描述完全生成。为了提高图表描述的多样性,模型选择了更平滑的采样策略,如下所示:
Figure RE-GDA0003739308930000131
式中,t为控制采样随机性的参数。t值越大,采样的多样性越强,生成的描述变化越多。
循环生成n次字符的时间复杂度可表示为:
Time~O(n·4·SinSout) (10)
其中,n为循环生成的次数,会随着待生成语句终止符的位置而发生改变,Sin为每次生成字符的输入序列长度,这里设定为6,Sout为输出序列长度,由于每次生成单个字符,因此为1。
以处理图3中的图表为例,如果用户的输入是“最大”,模型可以通过采样过程得到遮盖了图表数据的图表描述:
“在{chart title}图表中,{yaxis}在{xaxis}中得到最大值,其值为{yvalue}。”
例中可见,当前生成的图表描述文本需要根据企业用户的意图来替换四项已遮盖的图表数据。意图信息由模型在y2层之后增加的softmax层处理得到。对于上例中的图表描述,模型可以判断出企业用户的需求为图表中的最大值描述,因此从图表数据中提取与最大值相关的图表数值和图表属性可。图表数据以键值对的格式存储,如下表:
表1图表数据格式
Figure RE-GDA0003739308930000141
模型根据用户的意图,通过关键字即可替换遮盖的对应图表数据值。替换过后的图表描述如下:
“在2020年上半年车间订单量图表中,1车间在1月订单最少,值为3.4。”
为了评估非结构化图表数据分析(MEUCA)方法中图表数据提取方法,本文引入了两个基准模型进行对比实验,分别是ReVision模型和ChartSense模型。实验的评价标准包括精度、召回率和f1评分:
Figure RE-GDA0003739308930000151
Figure RE-GDA0003739308930000152
Figure RE-GDA0003739308930000153
实验结果中给出了条形图、散点图、折线图三种不同图表类型中每种模型的实验结果。为了更直观地反映模型表现,也给出了三种图表的平均评价结果。如表2所示,表中“Prec”表示精度,“Rec”表示召回率,“F1”表示f1评分。
表2 MEUCA与其他方法的比较
Figure RE-GDA0003739308930000154
从表中可以看出,非结构化图表数据分析(MEUCA)方法在各种类型图表中的平均精度为88.6%,高于Revision和Chartsense方法,尤其在条形图上的数据提取精度可达91.2%。
与一般的深度学习任务不同,自然语言模型生成的文本描述的正确性很难进行衡量。本文采用BLEU的思想,通过比较生成的描述和预期描述来评估描述质量。首先计算每个生成的描述的得分,随后将所有描述的得分平均,得到总体质量得分。相关计算方式如下:
Figure RE-GDA0003739308930000155
Figure RE-GDA0003739308930000156
Figure RE-GDA0003739308930000161
其中Pn表示生成的描述ci与预期描述si,j相比的n-gram精度,BP(brevitypenalty) 表示简短惩罚系数,BLEU表示最终得分。hk(ci)表示生成的描述中第k个短语出现的个数。hk(si,j)表示标准描述中第k个短语的个数。lc表示生成描述的长度, ls表示预期描述的长度。最终的BLEU分数为描述得分的几何加权平均乘以长度惩罚因子得到。BLEU的值为0到1之间的数值,越接近1,生成的描述质量越高。
这一部分的比较实验引入了两种基准模型作为对比,包括初始的RNN和 LSTM模型。对比结果如下:
表3文本描述评估结果
Figure RE-GDA0003739308930000162
由此得到,非结构化图表数据分析(MEUCA)模型将图表描述分为意图识别和描述生成两部分,大大提高了描述质量,避免了图表属性值和数值数据对模型语义理解产生的不利影响。
例如,某网络协同制造企业联盟中包含多个制造企业,不同的企业中包括多个车间,车间内拥有各种不同型号的数控车床、立式(卧式)加工中心等加工设备。网络协同制造系统通过接入各企业的制造信息,监控分析企业联盟中制造过程的产能、生产进度、加工质量等,从而按期、保质的共同完成生产任务。不同企业的制造信息很多以图表的方式接入到网络协同系统,这些图表数据在非结构化数据中大约占40%左右,主要包括条形图、折线图和散点图等。从图表数据中提取关键信息并生成相关特征描述将极大地提高企业协同化制造过程中数据间的可访问性和交互性。
本文将提出的非结构化图表数据分析(MEUCA)方法应用于制造企业的质量数据集成与可视化分析平台。图8-图11展示了这些图表在可视化平台中根据用户输入产生的图表描述结果。图8为某企业加工的各类零件产量变化折线图。当使用“趋势”作为输入时,可以看到零件的产量的增长或下降趋势均被准确识别并进行了表述,同时图表获取到的数据能够帮助了解企业的生产变化趋势,便于生产任务的分配;图9为某企业车间零件生产任务完成量条形图,当采用“均值”作为输入时,图表中各个零件对应生产量数值被识别,并通过计算给出均值信息,这些数据信息能够帮助了解车间的生产进度;图10为某企业中车间的零件缺陷率散点图,当采用“极值”作为输入时,系统给出缺陷率最大最小的差值,便于根据缺陷情况管控所有车间的产品生产质量。图11为企业订单量组合图。当使用“最大”作为输入时,图表中的订单量最大的企业和月份被准确识别并进行描述,获取到的数值信息能够帮助系统整合企业生产信息,便于调控生产计划。
本实施例通过上述方案,实现了自动获取图表中的文本和数据,提取了图表中的有价值的数据;提高了提取图表信息的类型;获取了多种类别图表的底层特征,并根据多种类别图表的底层特征来分类和提取图表信息;实现了更直接地获取图表中的信息。能够实现能够帮助快速理解图表信息,同时方便企业人员进行图文交互,提高图表信息的可访问性;模板的方法产生的描述针对性和交互性不强,很难根据用户需求生成对应的描述;提高了描述的针对性和交互性不强,可以实现用户需求生成对应的描述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种面向协同制造企业的非结构化图表数据分析方法,其特征在于,包括如下步骤:
获取非结构化图表数据;
通过光学字符识别技术和深度学习的卷积神经网络对所述非结构化图表数据进行文本提取,得到文本信息,其中,文本信息包括文本内容信息和文本位置信息;
通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提取,得到关键点特征数据;
将所述关键点特征数据和所述文本信息进行结合整理,得到图表信息,其中图表信息包括图表基础信息和数值信息;
通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到所述非结构化图表数据的图表分析文本。
2.根据权利要求1所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述通过光学字符识别技术和深度学习的卷积神经网络对所述非结构化图表数据进行文本提取,得到文本信息的步骤,包括:
对非结构化图表数据进行预处理操作,所述预处理操作包括图像的缩放和裁剪;
对预处理后的非结构化图表数据进行二值化处理;
使用基于深度学习的文本像素分类器去除二值化处理后的非结构化图表数据中的非文本像素,获得仅保留了文本像素的纯净图像;
通过光学字符识别技术识别所述纯净图像中的文本,得到文本信息。
3.根据权利要求2所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述文本信息的类型为4种,包括:图表标题、图例、x轴以及y轴;文本信息的类型是使用径向基核函数训练支持向量机对提取到的文本元素进行分类得到的。
4.根据权利要求1所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述通过基于沙漏网络的关键点检测网络模型对所述非结构化图表数据进行关键点提取,得到关键点特征数据的步骤,包括:
通过沙漏网络对非结构化图表数据进行一系列的下采样操作和上采样操作处理,得到将非结构化图表数据的关键点位置像素高亮的概率特征图;
将所述概率特征图作为输入经过关键点检测网络模型的左上角预测模块和右上角预测模块,得到所述概率特征图的热力特征图、嵌入特征图和偏移特征图;
根据关键点检测网络模型的热力特征图、嵌入特征图和偏移特征图得到关键点特征数据。
5.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述关键点检测网络模型包括沙漏网络、下采样操作层、上采样操作层、特征提取操作层、特征保存操作层构成。
6.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述根据热力特征图、嵌入特征图和偏移特征图得到关键点特征数据的步骤,包括:
通过热力特征图预测关键点区域左上角和右下角点的位置信息,通过嵌入特征图匹配同一目标的左上和右下关键点,通过偏移特征图校正关键点的位置,得到所述非结构化图表数据的关键点特征数据。
7.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述热力特征图的损失函数如下:
Figure FDA0003535636860000021
其中,N为非结构化图表数据中关键点的数量,α和β为决定每个关键点贡献的超参数,分别设定为2和3;pcij为类别为C的关键点在(i,j)位置的得分;ycij为用高斯公式计算的真实热力特征图,(1-ycij)为高斯非线性化后预测角点与真实角点之间的距离。
8.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述嵌入特征图的损失函数为:
Figure FDA0003535636860000031
Figure FDA0003535636860000032
其中,Lpull为最小化同一组角点之间距离的损失函数,Lpush为增大不同组角点距离以区分角点的损失函数。etk为类别为k的左上角点的嵌入特征,ebk为类别为k的右上角点的嵌入特征,ek为etk与ebk的平均值。
9.根据权利要求4所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述图表信息提取部分的时间复杂度为:
Figure FDA0003535636860000033
其中,D为关键点检测网络模型和卷积神经网络的层数,取值为关键点检测模型的104层加上卷积神经网络的3层,M为每个卷积层输出的特征图大小,N为卷积核的边长,C为每一层的输入输出通道数。
10.根据权利要求1所述的面向协同制造企业的非结构化图表数据分析方法,其特征在于,所述通过基于深度学习的预训练的自然语言生成模型对图表信息进行处理,得到所述非结构化图表数据的图表分析文本的步骤之前,包括:
获取制造企业语义表达数据集和制造企业意图分析数据集,以及通过制造企业可视化平台的用户需求文本;
通过所述制造企业语义表达数据集和所述制造企业意图分析数据集对深度学习的自然语言生成模型进行训练,将用户需求文本作为模型初始序列,经过自然语言生成模型迭代生成语义序列,得到预训练的自然语言生成模型,所述预训练的自然语言生成模型包含用户需求的语义序列。
CN202210225837.0A 2022-03-07 2022-03-07 一种面向协同制造企业的非结构化图表数据分析方法 Pending CN114936279A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210225837.0A CN114936279A (zh) 2022-03-07 2022-03-07 一种面向协同制造企业的非结构化图表数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210225837.0A CN114936279A (zh) 2022-03-07 2022-03-07 一种面向协同制造企业的非结构化图表数据分析方法

Publications (1)

Publication Number Publication Date
CN114936279A true CN114936279A (zh) 2022-08-23

Family

ID=82862753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210225837.0A Pending CN114936279A (zh) 2022-03-07 2022-03-07 一种面向协同制造企业的非结构化图表数据分析方法

Country Status (1)

Country Link
CN (1) CN114936279A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309888A (zh) * 2022-08-26 2022-11-08 百度在线网络技术(北京)有限公司 图表摘要的生成方法和生成模型的训练方法、装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115309888A (zh) * 2022-08-26 2022-11-08 百度在线网络技术(北京)有限公司 图表摘要的生成方法和生成模型的训练方法、装置

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN111291819B (zh) 图像识别方法、装置、电子设备及存储介质
CN116541911B (zh) 一种基于人工智能的包装设计系统
CN111967527B (zh) 一种基于人工智能牡丹品种识别方法及识别系统
Mumuni et al. Automated data processing and feature engineering for deep learning and big data applications: a survey
CN114969548B (zh) 一种产业图谱数据智能获取方法及系统
CN117690098B (zh) 一种基于动态图卷积的开放驾驶场景下多标签识别方法
CN115311130A (zh) 一种多风格中国书法文字图像风格迁移方法、系统及终端
CN116611131B (zh) 一种包装图形自动生成方法、装置、介质及设备
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
Zhang Application of artificial intelligence recognition technology in digital image processing
Ma et al. SwinFG: A fine-grained recognition scheme based on swin transformer
CN114936279A (zh) 一种面向协同制造企业的非结构化图表数据分析方法
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及系统
CN115797795B (zh) 基于强化学习的遥感影像问答式检索系统及方法
CN116956214A (zh) 基于正则化集成学习的多模态细粒度论文分类方法和系统
Zhao et al. Recognition results classification and post-processing methods for painted characters on billet surface
CN112800259A (zh) 一种基于边缘闭合与共性检测的图像生成方法及系统
CN115204128A (zh) 一种配置文件生成方法、装置和计算机可读存储介质
Qi Hyperspectral image database query based on big data analysis technology
CN111046934A (zh) 一种swift报文软条款识别方法及装置
CN118170920B (zh) 一种混合语种文本检测方法及系统
CN114494813B (zh) 一种基于密集交叉注意力的指称表达生成方法
CN116456289B (zh) 一种富媒体信息处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination