CN113963232A

CN113963232A - 一种基于注意力学习的网络图数据提取方法

Info

Publication number: CN113963232A
Application number: CN202111207757.4A
Authority: CN
Inventors: 宋思程; 王长波; 李晨辉
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-21

Abstract

本发明公开了一种基于注意力学习的网络图数据提取方法，其特点是采用文字提取深度神经网络提取图表中的文字数据，以及带有注意力模块的语义分割网络提取网络图可视化图表的像素特征，计算出结点与连接关系的数据，即可恢复出原始网络图的数据结构。本发明与现有技术相比具有较好的解决了网络图这一高级可视编码的数据挖掘问题，通过注意力机制解决了连接线的识别问题，提高模型的鲁棒性，能够在数据转换、可视化设计风格切换、知识产权保护等多种实际应用场景中对网络图可视化图表的位图进行数据提取，有较高的实用价值与良好的发展前景。

Description

一种基于注意力学习的网络图数据提取方法

技术领域

本发明涉及图表数据提取技术领域，尤其是一种基于注意力学习的网络图原始数据的提取方法。

背景技术

数据可视化图像可以帮助人们更快地获取数据特征，大多数图表以位图图像的形式存储，并在各种媒体上发布。获取它们的原始数据是一项复杂的任务，恢复图表的原始数据已经成为一项重要的研究，因为它的发展直接促进了人机交互领域。

网络图是指带有文本信息，不同风格的关系图，包括思维导图、建模图、流程图等，它们是人类容易理解但机器难以解码的高级视觉代码。研究表明已有一些方法可以解决获取原始数据的问题，但这些方法只适用于某些简单的图表，如饼图、条形图和折线图，网络图数据维数高，数据类型复杂，且具有识别困难的连接线，还存在文字与图形匹配的问题。

发明内容

本发明的目的是针对现有技术的不足而设计的基于注意力学习的网络图数据提取方法，采用GraphDecoder的框架，构建了一个文本提取神经网络和光学字符识别系统来提取图表中的文本，实现自动从网络图图像中提取原始数据，可应用于许多场景，如思维导图、流程图、E-R图、层级结构图等，用户可以在系统界面上重新设计和修改数据，提高了网络的鲁棒性，有效解决了从位图中进行网络图数据提取问题。

本发明的目的是这样实现的：一种基于注意力学习的网络图数据提取方法，其特点是采用GraphDecoder的框架，构建了一个文本提取神经网络和光学字符识别系统来提取图表中的文本，网络图数据的提取具体包括以下步骤：

a步骤：输入一张大小为H×W的网络图的光栅图像I，所述光栅图像I为H×W的像素值矩阵。其中，H为图像I纵向每列像素数，W为图像I横向每行像素数。

b步骤：构造网络图的语义数据集。

c步骤：在网络图的语义数据集上训练一个基于U-Net且带有注意力模块的语义分割神经网络模型；所述神经网络包括特征提取部分、上采样部分、注意力模块AttentionGate、softmax模型的输出层；

所述语义分割神经网络的特征提取部分包括：四层用于提取网络图可视化图片的卷积层，每个卷积核都使用3×3的大小，前两层卷积在两次卷积后进行最大化池化处理，后两层卷积在三次卷积后进行最大化池化处理；所述神经网络的上采样部分使用AttentionGate模块在不同尺度的特征图上得到与原始分辨率相同大小的注意力矩阵α，然后与特征提取部分对应的特征图进行相乘连接，最后为一层1×1卷积核的卷积层，得到所有像素点的语义类别值预测结果。

所述语义分割网络采用下述a式定义的联合损失函数进行协同训练：

所述

采用下述b式定义的函数：

所述

采用下述c式定义的函数：

其中：ω为每种像素点类别的权重，背景类的权重默认值为0.8，连接线类的权重默认值为1.25，其他结点类的权重默认值为1；y_i是分割网络得到的像素点i的分类结果；y′_i是像素点i类别的真实标签；在训练中，该损失函数考虑到了背景类的像素点过多和连接线类的像素点过少的平衡问题。

d步骤：训练一个文字提取的神经网络模型；所述神经网络包括文字定位部分CTPN、文字识别部分CRNN。

e步骤：将d步骤文字提取的神经网络模型应用到a步骤所输入的图像I，从CTPN中定位到文字信息的特征，然后从CRNN神经网络中的输出层输出每个文本框t的信息数组TextArr^t。该数组包含{t_x，t_y，t_w，t_h，t_a，Text，Confidence}，其中：t_x，t_y是该文本框中心点的坐标；t_w，t_h是该文本框的宽和高；t_a是该文本框的倾斜度；Text是该文本框的文字内容；Confidence是该文本框的置信度，默认置信度高于0.95的数值是可信的。

f步骤：移除图像I中的文本框部分，用文本框的背景色块进行填充，并对其进行Kernel＝(2，2)的膨胀处理。

g步骤：将f步骤中预处理后的图像I输入到c步骤中的语义分割网络中，输出大小为H×W的语义图I_s，I_s中的每个像素值y_i代表了像素i所属的类别，共被分为5类，且由下述d式表示为背景类、连接线类、矩形结点类、椭圆结点类和菱形结点类；

h步骤：根据输入图像I、e步骤得到的文字信息数组TextArr^t和g步骤得到的语义图I_s，进行连通区域的数据分析，计算步骤如下：

h₁：将y_i＝0的像素点的颜色平均值赋给C_back；

h₂：在I上提取y_i＝1，2，3的连通分量，这些连通分量为结点类，O_p，C_p，H_p，W_p，T_p分别为连通分量的中心像素的坐标值、中心像素的颜色RGB值以及像素高度，像素宽度和中心像素的y_i值；

h₃：在I上提取y_i＝1，2，3的连通分量，这些连通分量为连接线类，并以这些连通分量边缘像素点的y_i值，计算该连通分量与每个结点的连接置信度

最高的两个结点视为相连接的；

h₄：将TextArr^t中Confidence高于0.95的文本数据分配给距离最近的连通分量，字体大小F为0.75t_h。

上述C_back表示网络图的背景颜色RGB值；O_p，H_p，W_p，C_p，T_p表示第p个结点的中心坐标值、高度值、宽度值、颜色RGB值和结点形状类型(矩形、椭圆或菱形)；F表示字体的大小；

表示结点p和连接线q相接的置信度，初始值默认为0，每有一个重叠的像素点该置信度加1。

i步骤：输出网络图的结点信息Node与连接信息Link，得到网络可视化提取到的原始数据，用户可对网络可视化提取到的原始数据进行重新设计或修改，得到更优布局或配色方案的可视化设计图。

该方法同样适用于大规模高分辨的网络可视化图，其算法步骤如下：

I-1：将I输入到语义分割网络，得到语义图y_entire；

I-2：把I裁剪为M个碎片I^m，m＝1，2，...，M；

I-3：将I^m输入到语义分割网络，得到语义图y_m，并将y_m合并为y_piece；

I-4：将最终的语义图I_s每一个像素的y_i值采用下述d式定义的函数：

其中：α为完整语义图或分割拼合后语义图所占的比重，该权重最小值为0.5，且正比于H×W；在方法中，该函数考虑到了结点类和连接线类像素点不同的固有特征在卷积神经网络中的表现。

本发明采用GraphDecoder的框架，它可以自动从网络图图像中提取原始数据，解决从位图中进行网络图数据提取问题。使用一文本提取神经网络和光学字符识别系统来提取图表中的文本，构建了一个基于神经网络的分割深度神经网络。根据图表的特点设计主干网络和损失函数，并在解码器中添加了一个带有注意机制的模块，提高了网络的鲁棒性。在学习模仿人类感知网络图的过程，分析提取的数据以获得网络关系数据。构建了一个完整可用的系统。用户上传光栅图像后，系统提取其底层数据。用户可以在系统界面上重新设计和修改数据。该系统可以应用于许多场景，如思维导图、流程图、E-R图、层级结构图等。

本发明与现有技术相比具有较好解决了网络图这一高级可视编码的数据挖掘问题，通过注意力机制解决了连接线的识别问题，提高模型的鲁棒性，能够在数据转换、可视化设计风格切换、知识产权保护等多种实际应用场景中对网络图可视化图表的位图进行数据提取，有较高的实用价值与良好的发展前景。

附图说明

图1为本发明流程示意图；

图2为实施例示意图。

具体实施方式

参阅附图1，本发明按下述步骤进行网络可视化图的数据提取：

步骤一：输入一张网络可视化位图I，即光栅图像I；

步骤二：通过文字提取网络提取文字信息，输出文字数据TextArr^t，并且去除I中的文字信息像素点，输出预处理后的图像I；

步骤三：将I输入到语义分割网络，输出语义图I_s；

步骤四：对I_s，I，TextArr^t进行连通分量分析算法；

步骤五：输出网络图结点信息Node，连接信息Link。

以下以提取一张思维导图为例对本发明作进一步的详细说明。

实施例1

步骤1：输入一张大小为H×W的思维导图I，所述图像I为H×W的像素值矩阵。其中，H为图像I纵向每列像素数，W为图像I横向每行像素数。

步骤2：将步骤1所输入的图像I输入到文字提取模型，从CTPN中定位到文字信息的特征后从CRNN神经网络中的输出层输出每个文本框t的信息数组TextArr^t。该数组包含{t_x，t_y，t_w，t_h，t_a，Text，Confidence}，其中：t_x，t_y是该文本框中心点的坐标，t_w，t_h是该文本框的宽和高，t_a是该文本框的倾斜度，Text是该文本框的文字内容，Confidence是该文本框的置信度，默认置信度高于0.95的数值是可信的。

步骤3：移除图像I中的文本框部分，用文本框的背景色块进行填充，在对其进行Kernel＝(2，2)的膨胀处理。

步骤4：将步骤3中预处理后的图像I输入到语义分割网络中，输出大小为H×W的语义图I_s，I_s中的每个像素值y_i代表了像素i所属的类别，共被分为5类，分别为背景类、连接线类、矩形结点类、椭圆结点类和菱形结点类。

步骤5：根据输入图像I，步骤2得到的文字信息数组TextArr^t，步骤4得到的语义图I_s，进行连通区域的数据分析。

步骤6：输出网络图的结点信息Node与连接信息Link。

步骤7：用户可以对网络可视化提取到的原始数据进行重新设计或修改，得到更优布局或配色方案的可视化设计图。

本发明采用文本检测模块提取图表中的文本数据，提高了语义分割的性能，通过光学字符识别系统，获得文本的上下文和位置，移除图像中的文本区域，并用颜色块填充它，获得没有文本的网络图图像。本发明构建了一个带有注意机制的语义分割神经网络，该网络可以准确定位结点和边缘所在的像素，并对各种类型的结点进行分类。通过增加关注模块和改进目标函数，该网络对连续曲线和折线具有鲁棒性。数据分析模块通过分析前两个模块中获得的数据的相关组成部分，并匹配文本和图形，最终获得完整的数据。

以上只是对本发明作进一步的说明，并非用以限制本专利，在不背离本发明构思的精神和范围下的等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于注意力学习的网络图数据提取方法，其特征在于网络图数据的提取具体包括以下步骤：

a步骤：输入一张大小为H×W网络图的光栅图像I；

b步骤：构造网络图的语义数据集；

c步骤：在网络图的语义数据集上训练一个基于u-Net且带有注意力模块的语义分割神经网络，所述神经网络包括特征提取部分、上采样部分、注意力模块AttentionGate、softmax模型的输出层；

d步骤：训练一个文字提取的神经网络模型，所述神经网络包括文字定位部分CTPN、文字识别部分CRNN；

e步骤：将d步骤文字提取的神经网络模型应用到a步骤所输入的光栅图像I，从CTPN中定位到文字信息的特征，然后从CRNN神经网络中的输出层输出每个文本框t的信息数组TextArr^t，所述信息数组TextArr^t包含{t_x，t_y，t_w，t_h，t_a，Text，Confidence}，其中：t_x，t_y是该文本框中心点的坐标；t_w，t_h是该文本框的宽和高；t_a是该文本框的倾斜度；Text是该文本框的文字内容；Confidence是该文本框的置信度，默认置信度高于0.95的数值是可信的；

f步骤：移除光栅图像I中的文本框部分，用文本框的背景色块进行填充，并对其进行Kernel＝(2，2)的膨胀处理；

g步骤：将f步骤中预处理后的图像I输入到c步骤中的语义分割网络中，输出大小为H×W的语义图I_s，所述语义图I_s中的每个像素值y_i代表了像素i所属的类别，且由下述d式表示的背景类、连接线类、矩形结点类、椭圆结点类和菱形结点类；

h步骤：根据输入的光栅图像I、文字信息数组TextArr^t和语义图I_s按下述步骤进行连通区域的数据分析计算：

h₁：将y_i＝0的像素点的颜色平均值赋给C_back；

h₂：在光栅图像I上提取y_i＝1，2，3的连通分量为结点类，并以O_p，H_p，W_p，C_p，T_p分别为连通分量的中心像素的坐标值、中心像素的颜色RGB值以及像素高度、像素宽度和中心像素的y_i值；

h₃：在光栅图像I上提取y_i＝1，2，3的连通分量为连接线类，并以这些连通分量边缘像素点的y_i值，计算该连通分量与每个结点的连接置信度

h₄：将文字信息数组TextArr^t中Confidence高于0.95的文本数据分配给距离最近的连通分量，其字体大小F为0.75t_h；

上述C_back表示网络图的背景颜色RGB值；O_p，H_p，W_p，C_p，T_p表示第p个结点的中心坐标值，高度值，宽度值，颜色RGB值和结点形状类型；F表示字体的大小；

表示结点p和连接线q相接的置信度，初始值默认为0，每有一个重叠的像素点该置信度加1；

2.根据权利要求1所述基于注意力学习的网络图数据提取方法，其特征在于所述神经网络的特征提取部分包括：四层用于提取网络图可视化图片的卷积层，每个卷积核都使用3×3的大小，前两层卷积在两次卷积后进行最大化池化处理，后两层卷积在三次卷积后进行最大化池化处理；所述神经网络的上采样部分使用AttentionGate模块在不同尺度的特征图上得到与原始分辨率相同大小的注意力矩阵α，然后与特征提取部分对应的特征图进行相乘连接，最后为一层1×1卷积核的卷积层，得到所有像素点的语义类别值预测结果。

3.根据权利要求1所述基于注意力学习的网络图数据提取方法，其特征在于所述基于U-Net且带有注意力模块的语义分割神经网络采用下述a式定义的联合损失函数进行协同训练：

其中：

采用下述b式定义的函数：

采用下述c式定义的函数：

其中：ω为每种像素点类别的权重，背景类的权重默认值为0.8，连接线类的权重默认值为1.25，其他结点类的权重默认值为1；y_i是分割网络得到的像素点i的分类结果，y′_i是像素点i类别的真实标签。

在训练中，该损失函数考虑到了背景类的像素点过多和连接线类的像素点过少的平衡问题。

4.根据权利要求1所述基于注意力学习的网络图数据提取方法，其特征在于所述结点形状类型为矩形、椭圆或菱形。

5.根据权利要求1所述基于注意力学习的网络图数据提取方法，其特征在于所述光栅图像I为H×W的像素值矩阵，其中，H为图像I纵向每列像素数，W为图像I横向每行像素数。

6.根据权利要求2所述基于注意力学习的网络图数据提取方法，其特征在于所述网络图可视化图片为开源可视化库中选取不同类型的多样化网络图，具体包括：D3、ECharts、Matplotlib和Scipy开源可视化库。