CN113963232A - 一种基于注意力学习的网络图数据提取方法 - Google Patents

一种基于注意力学习的网络图数据提取方法 Download PDF

Info

Publication number
CN113963232A
CN113963232A CN202111207757.4A CN202111207757A CN113963232A CN 113963232 A CN113963232 A CN 113963232A CN 202111207757 A CN202111207757 A CN 202111207757A CN 113963232 A CN113963232 A CN 113963232A
Authority
CN
China
Prior art keywords
network
data
graph
node
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111207757.4A
Other languages
English (en)
Inventor
宋思程
王长波
李晨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202111207757.4A priority Critical patent/CN113963232A/zh
Publication of CN113963232A publication Critical patent/CN113963232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于注意力学习的网络图数据提取方法,其特点是采用文字提取深度神经网络提取图表中的文字数据,以及带有注意力模块的语义分割网络提取网络图可视化图表的像素特征,计算出结点与连接关系的数据,即可恢复出原始网络图的数据结构。本发明与现有技术相比具有较好的解决了网络图这一高级可视编码的数据挖掘问题,通过注意力机制解决了连接线的识别问题,提高模型的鲁棒性,能够在数据转换、可视化设计风格切换、知识产权保护等多种实际应用场景中对网络图可视化图表的位图进行数据提取,有较高的实用价值与良好的发展前景。

Description

一种基于注意力学习的网络图数据提取方法
技术领域
本发明涉及图表数据提取技术领域,尤其是一种基于注意力学习的网络图原始数据的提取方法。
背景技术
数据可视化图像可以帮助人们更快地获取数据特征,大多数图表以位图图像的形式存储,并在各种媒体上发布。获取它们的原始数据是一项复杂的任务,恢复图表的原始数据已经成为一项重要的研究,因为它的发展直接促进了人机交互领域。
网络图是指带有文本信息,不同风格的关系图,包括思维导图、建模图、流程图等,它们是人类容易理解但机器难以解码的高级视觉代码。研究表明已有一些方法可以解决获取原始数据的问题,但这些方法只适用于某些简单的图表,如饼图、条形图和折线图,网络图数据维数高,数据类型复杂,且具有识别困难的连接线,还存在文字与图形匹配的问题。
发明内容
本发明的目的是针对现有技术的不足而设计的基于注意力学习的网络图数据提取方法,采用GraphDecoder的框架,构建了一个文本提取神经网络和光学字符识别系统来提取图表中的文本,实现自动从网络图图像中提取原始数据,可应用于许多场景,如思维导图、流程图、E-R图、层级结构图等,用户可以在系统界面上重新设计和修改数据,提高了网络的鲁棒性,有效解决了从位图中进行网络图数据提取问题。
本发明的目的是这样实现的:一种基于注意力学习的网络图数据提取方法,其特点是采用GraphDecoder的框架,构建了一个文本提取神经网络和光学字符识别系统来提取图表中的文本,网络图数据的提取具体包括以下步骤:
a步骤:输入一张大小为H×W的网络图的光栅图像I,所述光栅图像I为H×W的像素值矩阵。其中,H为图像I纵向每列像素数,W为图像I横向每行像素数。
b步骤:构造网络图的语义数据集。
c步骤:在网络图的语义数据集上训练一个基于U-Net且带有注意力模块的语义分割神经网络模型;所述神经网络包括特征提取部分、上采样部分、注意力模块AttentionGate、softmax模型的输出层;
所述语义分割神经网络的特征提取部分包括:四层用于提取网络图可视化图片的卷积层,每个卷积核都使用3×3的大小,前两层卷积在两次卷积后进行最大化池化处理,后两层卷积在三次卷积后进行最大化池化处理;所述神经网络的上采样部分使用AttentionGate模块在不同尺度的特征图上得到与原始分辨率相同大小的注意力矩阵α,然后与特征提取部分对应的特征图进行相乘连接,最后为一层1×1卷积核的卷积层,得到所有像素点的语义类别值预测结果。
所述语义分割网络采用下述a式定义的联合损失函数进行协同训练:
Figure BDA0003307553090000021
所述
Figure BDA0003307553090000022
采用下述b式定义的函数:
Figure BDA0003307553090000023
所述
Figure BDA0003307553090000024
采用下述c式定义的函数:
Figure BDA0003307553090000025
其中:ω为每种像素点类别的权重,背景类的权重默认值为0.8,连接线类的权重默认值为1.25,其他结点类的权重默认值为1;yi是分割网络得到的像素点i的分类结果;y′i是像素点i类别的真实标签;在训练中,该损失函数考虑到了背景类的像素点过多和连接线类的像素点过少的平衡问题。
d步骤:训练一个文字提取的神经网络模型;所述神经网络包括文字定位部分CTPN、文字识别部分CRNN。
e步骤:将d步骤文字提取的神经网络模型应用到a步骤所输入的图像I,从CTPN中定位到文字信息的特征,然后从CRNN神经网络中的输出层输出每个文本框t的信息数组TextArrt。该数组包含{tx,ty,tw,th,ta,Text,Confidence},其中:tx,ty是该文本框中心点的坐标;tw,th是该文本框的宽和高;ta是该文本框的倾斜度;Text是该文本框的文字内容;Confidence是该文本框的置信度,默认置信度高于0.95的数值是可信的。
f步骤:移除图像I中的文本框部分,用文本框的背景色块进行填充,并对其进行Kernel=(2,2)的膨胀处理。
g步骤:将f步骤中预处理后的图像I输入到c步骤中的语义分割网络中,输出大小为H×W的语义图Is,Is中的每个像素值yi代表了像素i所属的类别,共被分为5类,且由下述d式表示为背景类、连接线类、矩形结点类、椭圆结点类和菱形结点类;
Figure BDA0003307553090000026
h步骤:根据输入图像I、e步骤得到的文字信息数组TextArrt和g步骤得到的语义图Is,进行连通区域的数据分析,计算步骤如下:
h1:将yi=0的像素点的颜色平均值赋给Cback
h2:在I上提取yi=1,2,3的连通分量,这些连通分量为结点类,Op,Cp,Hp,Wp,Tp分别为连通分量的中心像素的坐标值、中心像素的颜色RGB值以及像素高度,像素宽度和中心像素的yi值;
h3:在I上提取yi=1,2,3的连通分量,这些连通分量为连接线类,并以这些连通分量边缘像素点的yi值,计算该连通分量与每个结点的连接置信度
Figure BDA0003307553090000031
Figure BDA0003307553090000032
最高的两个结点视为相连接的;
h4:将TextArrt中Confidence高于0.95的文本数据分配给距离最近的连通分量,字体大小F为0.75th
上述Cback表示网络图的背景颜色RGB值;Op,Hp,Wp,Cp,Tp表示第p个结点的中心坐标值、高度值、宽度值、颜色RGB值和结点形状类型(矩形、椭圆或菱形);F表示字体的大小;
Figure BDA0003307553090000033
表示结点p和连接线q相接的置信度,初始值默认为0,每有一个重叠的像素点该置信度加1。
i步骤:输出网络图的结点信息Node与连接信息Link,得到网络可视化提取到的原始数据,用户可对网络可视化提取到的原始数据进行重新设计或修改,得到更优布局或配色方案的可视化设计图。
该方法同样适用于大规模高分辨的网络可视化图,其算法步骤如下:
I-1:将I输入到语义分割网络,得到语义图yentire
I-2:把I裁剪为M个碎片Im,m=1,2,...,M;
I-3:将Im输入到语义分割网络,得到语义图ym,并将ym合并为ypiece
I-4:将最终的语义图Is每一个像素的yi值采用下述d式定义的函数:
Figure BDA0003307553090000034
其中:α为完整语义图或分割拼合后语义图所占的比重,该权重最小值为0.5,且正比于H×W;在方法中,该函数考虑到了结点类和连接线类像素点不同的固有特征在卷积神经网络中的表现。
本发明采用GraphDecoder的框架,它可以自动从网络图图像中提取原始数据,解决从位图中进行网络图数据提取问题。使用一文本提取神经网络和光学字符识别系统来提取图表中的文本,构建了一个基于神经网络的分割深度神经网络。根据图表的特点设计主干网络和损失函数,并在解码器中添加了一个带有注意机制的模块,提高了网络的鲁棒性。在学习模仿人类感知网络图的过程,分析提取的数据以获得网络关系数据。构建了一个完整可用的系统。用户上传光栅图像后,系统提取其底层数据。用户可以在系统界面上重新设计和修改数据。该系统可以应用于许多场景,如思维导图、流程图、E-R图、层级结构图等。
本发明与现有技术相比具有较好解决了网络图这一高级可视编码的数据挖掘问题,通过注意力机制解决了连接线的识别问题,提高模型的鲁棒性,能够在数据转换、可视化设计风格切换、知识产权保护等多种实际应用场景中对网络图可视化图表的位图进行数据提取,有较高的实用价值与良好的发展前景。
附图说明
图1为本发明流程示意图;
图2为实施例示意图。
具体实施方式
参阅附图1,本发明按下述步骤进行网络可视化图的数据提取:
步骤一:输入一张网络可视化位图I,即光栅图像I;
步骤二:通过文字提取网络提取文字信息,输出文字数据TextArrt,并且去除I中的文字信息像素点,输出预处理后的图像I;
步骤三:将I输入到语义分割网络,输出语义图Is
步骤四:对Is,I,TextArrt进行连通分量分析算法;
步骤五:输出网络图结点信息Node,连接信息Link。
以下以提取一张思维导图为例对本发明作进一步的详细说明。
实施例1
步骤1:输入一张大小为H×W的思维导图I,所述图像I为H×W的像素值矩阵。其中,H为图像I纵向每列像素数,W为图像I横向每行像素数。
步骤2:将步骤1所输入的图像I输入到文字提取模型,从CTPN中定位到文字信息的特征后从CRNN神经网络中的输出层输出每个文本框t的信息数组TextArrt。该数组包含{tx,ty,tw,th,ta,Text,Confidence},其中:tx,ty是该文本框中心点的坐标,tw,th是该文本框的宽和高,ta是该文本框的倾斜度,Text是该文本框的文字内容,Confidence是该文本框的置信度,默认置信度高于0.95的数值是可信的。
步骤3:移除图像I中的文本框部分,用文本框的背景色块进行填充,在对其进行Kernel=(2,2)的膨胀处理。
步骤4:将步骤3中预处理后的图像I输入到语义分割网络中,输出大小为H×W的语义图Is,Is中的每个像素值yi代表了像素i所属的类别,共被分为5类,分别为背景类、连接线类、矩形结点类、椭圆结点类和菱形结点类。
步骤5:根据输入图像I,步骤2得到的文字信息数组TextArrt,步骤4得到的语义图Is,进行连通区域的数据分析。
步骤6:输出网络图的结点信息Node与连接信息Link。
步骤7:用户可以对网络可视化提取到的原始数据进行重新设计或修改,得到更优布局或配色方案的可视化设计图。
本发明采用文本检测模块提取图表中的文本数据,提高了语义分割的性能,通过光学字符识别系统,获得文本的上下文和位置,移除图像中的文本区域,并用颜色块填充它,获得没有文本的网络图图像。本发明构建了一个带有注意机制的语义分割神经网络,该网络可以准确定位结点和边缘所在的像素,并对各种类型的结点进行分类。通过增加关注模块和改进目标函数,该网络对连续曲线和折线具有鲁棒性。数据分析模块通过分析前两个模块中获得的数据的相关组成部分,并匹配文本和图形,最终获得完整的数据。
以上只是对本发明作进一步的说明,并非用以限制本专利,在不背离本发明构思的精神和范围下的等效实施,均应包含于本专利的权利要求范围之内。

Claims (6)

1.一种基于注意力学习的网络图数据提取方法,其特征在于网络图数据的提取具体包括以下步骤:
a步骤:输入一张大小为H×W网络图的光栅图像I;
b步骤:构造网络图的语义数据集;
c步骤:在网络图的语义数据集上训练一个基于u-Net且带有注意力模块的语义分割神经网络,所述神经网络包括特征提取部分、上采样部分、注意力模块AttentionGate、softmax模型的输出层;
d步骤:训练一个文字提取的神经网络模型,所述神经网络包括文字定位部分CTPN、文字识别部分CRNN;
e步骤:将d步骤文字提取的神经网络模型应用到a步骤所输入的光栅图像I,从CTPN中定位到文字信息的特征,然后从CRNN神经网络中的输出层输出每个文本框t的信息数组TextArrt,所述信息数组TextArrt包含{tx,ty,tw,th,ta,Text,Confidence},其中:tx,ty是该文本框中心点的坐标;tw,th是该文本框的宽和高;ta是该文本框的倾斜度;Text是该文本框的文字内容;Confidence是该文本框的置信度,默认置信度高于0.95的数值是可信的;
f步骤:移除光栅图像I中的文本框部分,用文本框的背景色块进行填充,并对其进行Kernel=(2,2)的膨胀处理;
g步骤:将f步骤中预处理后的图像I输入到c步骤中的语义分割网络中,输出大小为H×W的语义图Is,所述语义图Is中的每个像素值yi代表了像素i所属的类别,且由下述d式表示的背景类、连接线类、矩形结点类、椭圆结点类和菱形结点类;
Figure FDA0003307553080000011
h步骤:根据输入的光栅图像I、文字信息数组TextArrt和语义图Is按下述步骤进行连通区域的数据分析计算:
h1:将yi=0的像素点的颜色平均值赋给Cback
h2:在光栅图像I上提取yi=1,2,3的连通分量为结点类,并以Op,Hp,Wp,Cp,Tp分别为连通分量的中心像素的坐标值、中心像素的颜色RGB值以及像素高度、像素宽度和中心像素的yi值;
h3:在光栅图像I上提取yi=1,2,3的连通分量为连接线类,并以这些连通分量边缘像素点的yi值,计算该连通分量与每个结点的连接置信度
Figure FDA0003307553080000021
h4:将文字信息数组TextArrt中Confidence高于0.95的文本数据分配给距离最近的连通分量,其字体大小F为0.75th
上述Cback表示网络图的背景颜色RGB值;Op,Hp,Wp,Cp,Tp表示第p个结点的中心坐标值,高度值,宽度值,颜色RGB值和结点形状类型;F表示字体的大小;
Figure FDA0003307553080000022
表示结点p和连接线q相接的置信度,初始值默认为0,每有一个重叠的像素点该置信度加1;
i步骤:输出网络图的结点信息Node与连接信息Link,得到网络可视化提取到的原始数据,用户可对网络可视化提取到的原始数据进行重新设计或修改,得到更优布局或配色方案的可视化设计图。
2.根据权利要求1所述基于注意力学习的网络图数据提取方法,其特征在于所述神经网络的特征提取部分包括:四层用于提取网络图可视化图片的卷积层,每个卷积核都使用3×3的大小,前两层卷积在两次卷积后进行最大化池化处理,后两层卷积在三次卷积后进行最大化池化处理;所述神经网络的上采样部分使用AttentionGate模块在不同尺度的特征图上得到与原始分辨率相同大小的注意力矩阵α,然后与特征提取部分对应的特征图进行相乘连接,最后为一层1×1卷积核的卷积层,得到所有像素点的语义类别值预测结果。
3.根据权利要求1所述基于注意力学习的网络图数据提取方法,其特征在于所述基于U-Net且带有注意力模块的语义分割神经网络采用下述a式定义的联合损失函数进行协同训练:
Figure FDA0003307553080000023
其中:
Figure FDA0003307553080000024
采用下述b式定义的函数:
Figure FDA0003307553080000025
Figure FDA0003307553080000026
采用下述c式定义的函数:
Figure FDA0003307553080000027
其中:ω为每种像素点类别的权重,背景类的权重默认值为0.8,连接线类的权重默认值为1.25,其他结点类的权重默认值为1;yi是分割网络得到的像素点i的分类结果,y′i是像素点i类别的真实标签。
在训练中,该损失函数考虑到了背景类的像素点过多和连接线类的像素点过少的平衡问题。
4.根据权利要求1所述基于注意力学习的网络图数据提取方法,其特征在于所述结点形状类型为矩形、椭圆或菱形。
5.根据权利要求1所述基于注意力学习的网络图数据提取方法,其特征在于所述光栅图像I为H×W的像素值矩阵,其中,H为图像I纵向每列像素数,W为图像I横向每行像素数。
6.根据权利要求2所述基于注意力学习的网络图数据提取方法,其特征在于所述网络图可视化图片为开源可视化库中选取不同类型的多样化网络图,具体包括:D3、ECharts、Matplotlib和Scipy开源可视化库。
CN202111207757.4A 2021-10-18 2021-10-18 一种基于注意力学习的网络图数据提取方法 Pending CN113963232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111207757.4A CN113963232A (zh) 2021-10-18 2021-10-18 一种基于注意力学习的网络图数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111207757.4A CN113963232A (zh) 2021-10-18 2021-10-18 一种基于注意力学习的网络图数据提取方法

Publications (1)

Publication Number Publication Date
CN113963232A true CN113963232A (zh) 2022-01-21

Family

ID=79464989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111207757.4A Pending CN113963232A (zh) 2021-10-18 2021-10-18 一种基于注意力学习的网络图数据提取方法

Country Status (1)

Country Link
CN (1) CN113963232A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359313A (zh) * 2022-03-18 2022-04-15 北京点聚信息技术有限公司 一种基于版式文件处理大文件的方法
CN116756232A (zh) * 2023-08-17 2023-09-15 杭州比智科技有限公司 一种智能生成动态网络图的数据可视化方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359313A (zh) * 2022-03-18 2022-04-15 北京点聚信息技术有限公司 一种基于版式文件处理大文件的方法
CN114359313B (zh) * 2022-03-18 2022-05-27 北京点聚信息技术有限公司 一种基于版式文件处理大文件的方法
CN116756232A (zh) * 2023-08-17 2023-09-15 杭州比智科技有限公司 一种智能生成动态网络图的数据可视化方法及系统
CN116756232B (zh) * 2023-08-17 2023-11-24 杭州比智科技有限公司 一种智能生成动态网络图的数据可视化方法及系统

Similar Documents

Publication Publication Date Title
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
US11854244B2 (en) Labeling techniques for a modified panoptic labeling neural network
CN110276402B (zh) 一种基于深度学习语义边界增强的盐体识别方法
CN111414906A (zh) 纸质票据图片的数据合成与文本识别方法
CN112163401B (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN110929665B (zh) 一种自然场景曲线文本检测方法
US11853892B2 (en) Learning to segment via cut-and-paste
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN114005123A (zh) 一种印刷体文本版面数字化重建系统及方法
Tian et al. Kaokore: A pre-modern japanese art facial expression dataset
CN113963232A (zh) 一种基于注意力学习的网络图数据提取方法
CN111898439A (zh) 基于深度学习的交通场景联合目标检测和语义分割方法
US20030012438A1 (en) Multiple size reductions for image segmentation
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN113837366A (zh) 一种多风格字体生成方法
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN113421318B (zh) 一种基于多任务生成对抗网络的字体风格迁移方法和系统
CN113743389B (zh) 一种面部表情识别的方法、装置和电子设备
US20210056429A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN115965987A (zh) 基于异构架构的表格文字结构化识别方法
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
Bureš et al. Semantic text segmentation from synthetic images of full-text documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination