CN116758557A

CN116758557A - 一种基于浅层图神经网络的联机手写笔画分类方法

Info

Publication number: CN116758557A
Application number: CN202310738640.1A
Authority: CN
Inventors: 王大寒; 王炎蓉; 朱顺痣; 张燕明; 殷飞
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-15
Anticipated expiration: 2043-06-21
Also published as: CN116758557B

Abstract

本发明提出一种基于浅层图神经网络的联机手写笔画分类方法，包括以下步骤：步骤S1、对联机手写文档的每一个笔画提取若干特征；提取笔画对的若干特征；步骤S2、得到文档笔画的初始图结构；步骤S3、将初始图结构送入边缘分支进行边缘特征学习；步骤S4、将分类结果作为图的邻接矩阵，从而更新图结构；步骤S5、从更新后的图结构的节点特征中提取连通子图特征与全局特征；步骤S6、在更新后的图结构基础上，得到最终的节点特征。对最终的节点特征进行分类，得到版面分析结果。

Description

一种基于浅层图神经网络的联机手写笔画分类方法

技术领域

本发明涉及计算机自然语言处理技术领域，特别是一种基于浅层图神经网络的联机手写笔画分类方法。

背景技术

随着手写设备的广泛应用，电子手写文档越来越普遍。电子手写文档的数字化有利于其保存和检索。电子手写文档由一系列笔画组成，包含坐标、时间、笔压等信息。笔划分类旨在将笔划分类为文本类/非文本类或多个类，包括文本、图形、表格、列表、公式等。布局分析的任务对在线手写文档数字化系统的性能至关重要。由于写作风格的多样性和文档结构的复杂性，笔划分类具有挑战性，近年来已进入提高性能的瓶颈。传统的笔画分类方法主要使用递归神经网络及其变体、条件随机场与马尔可夫场等概率图模型。近年来，随着图神经网络的发展，笔画分类任务有了新的思路。其主要方法是将笔画作为节点、笔画对之间的关系作为边缘、联机手写文档作为图结构，送入图神经网络；笔画分类任务转化为节点分类任务。图注意力网络被应用于笔画分类任务，其优点在于能够自主学习笔画之间的关系，根据笔画之间的不同权重进行节点信息融合。考虑到边缘信息对节点分类也起到辅助作用，网络框架由节点更新层与边缘更新层交替叠加的方式组成。由于边缘信息表征两个节点之间的关系，因此也有方法利用边缘信息参与节点注意力分数的计算。尽管已有的图神经网络在笔画分类任务已初具成效，但随着图神经网络的层数加深，节点所包含的信息呈指数级增长，节点信息被过度压缩，容易造成信息丢失。如何高质量、更有效地解决这一问题需要更多的研究工作。

发明内容

有鉴于此，本发明的目的在于提供一种基于浅层图神经网络的联机手写笔画分类方法，能够显著提高联机手写笔画的分类精度，在经典联机手写文档数据集中达到当前最高精度。联机手写笔画分类是版面分析任务的基础，为后续的文字识别、表格识别等具体模块识别任务提供帮助，对联机手写文档数字化系统的性能至关重要，具有较高的应用价值。

为实现上述目的，本发明采用如下技术方案：一种基于浅层图神经网络的联机手写笔画分类方法，用于联机手写文档的版面分析任务，包括以下步骤；

步骤S1、对联机手写文档的每一个笔画提取若干特征；将联机手写文档的每一个笔画两两作为笔画对，提取笔画对的若干特征；

步骤S2、将文档视为图、笔画视为节点、笔画对视为边，通过设定笔画对之间的连接规则，得到文档笔画的初始图结构；

步骤S3、将初始图结构送入边缘分支进行边缘特征学习；

步骤S4、对最后一层边缘特征进行分类，将分类结果作为图的邻接矩阵，从而更新图结构；

步骤S5、从更新后的图结构的节点特征中提取连通子图特征与全局特征；

步骤S6、在更新后的图结构基础上，融合节点的初始特征、连通子图特征、全局特征以及更新后的边缘特征，得到最终的节点特征；对最终的节点特征进行分类，得到版面分析结果。

在一较佳的实施例中：在步骤S1中，笔画特征采用手工设计的特征，共计30个，包括笔画的采样点数量、持续时长与长度之比、两个端点连线的距离与长度之比、采样点与第一点和最后一点之间连线的标准偏差、第一个点和最后一个点之间连接的斜率、长度与采样点数量之比、两个端点连线的距离与采样点数量之比、最小外接矩形的旋转角度、最小外接矩形的宽度、最小外接矩形的高度、最小外接矩形的对角线长度、边界框的宽度、边界框的高度、边界框的对角线长度、边界框对角线角度、长度与边界框对角线之比、最小外接半径、采样点与最小外切圆中心之间的距离方差、采样点与质心之间的距离方差、边界框面积、最小外接矩形面积、最小外切圆面积、凸包面积与边界框面积之比、凸包面积与最小外切圆面积之比、凸包面积与最小外接矩形面积之比、x轴上的笔划投影与第一个点和最后一个点之间的线的比率、由采样点组成的最大角度、由采样点组成的最小角度、采样点组成的平均角度、最小外切圆中心与质心之间的距离；笔画对特征采用手工设计的特征，包括两个笔画之间的时间距离、空间距离、长度比；笔画i特征，即节点i特征记为hi；笔画i和笔画j组成的笔画对特征，即边缘特征记为f_ij。

在一较佳的实施例中：在步骤S2中，笔画对的连接与否取决于其时间上下文与空间上下文关系；具体而言包括四条规则，满足其中一条即可；如果两个笔画的时间距离小于时间阈值，则两个笔画相连；如果两个笔画的空间距离小于空间阈值，则两个笔画相连；目标笔画与其时间距离上最近的k_t个笔画相连；目标笔画与其空间距离上最近的k_s个笔画相连；与此同时，每个笔画具有自连边，即与笔画自身相连。

在一较佳的实施例中：在步骤S3中，边缘特征的学习包括三层，依次为边缘特征更新层、节点特征更新层、边缘特征更新层；其中第一层与第三层边缘特征更新层采用相同的处理方式；具体而言，边缘特征更新考虑边缘所连接的两个节点的关系以及边缘特征本身，公式如下：

其中，表示拼接操作，W_h是可学习参数；节点特征更新采用基于带有NE结构的注意力机制；NE结构是一个由节点j和边缘e_ij组成的复合结构，它具有节点和边缘双重特征，既可以用于计算注意力分数，也可以用于最终节点特征的更新；节点特征更新计算公式如下：

其中，W_r、W_h、W_h、b、v是可学习参数，K是多头注意力的注意力头数量，σ是LeakyReLU激活函数。

在一较佳的实施例中：在步骤S4中，对最后一层边缘更新后得到的边缘特征进行二分类，其中1表示边缘存在，即两个节点之间连接成边；0表示边缘不存在，即两个节点之间没有连接边；分类结果作为新的图邻接矩阵，即得到新的图结构。

在一较佳的实施例中：在步骤S5中，基于更新后的图结构，利用带有NE结构的注意力机制对节点进行融合，获得节点在连通子图的特征，计算方式参见公式(2)；同时，对该注意力分数进行放缩后在全局进行节点特征融合，从而获得节点的全局特征；计算公式如下：

其中，a是放缩系数。

在一较佳的实施例中：在步骤S6中，基于更新后的图结构，将节点的原始特征、连通子图特征与全局特征利用公式四融合为具有多尺度信息节点特征，而后利用该特征与边缘特征利用公式二计算得到最终的节点特征；对最终的节点特征进行多分类处理，分类结果即为版面分析结果；

与现有技术相比，本发明具有以下有益效果：

(1)指出了当前图神经网络方法在联机文档笔画分类任务上由于节点压缩导致的信息确实问题。

(2)提出了先调整图结构再进行节点分类的策略，利用合理的图结构来扩展感受野，而非网络层的叠加。

(3)提出了基于NE结构的图注意力方法，用于节点特征的更新。其中，NE结构是由一条边与边缘对应的一个节点组成的复合结构。

附图说明

图1是本发明优选实施例的流程框图；

图2是本发明优选实施例的整体框架图；

图3是本发明优选实施例的联机文档笔画分类结果可视化示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种基于浅层图神经网络的联机手写笔画分类方法，参考图1至2，用于联机手写文档的版面分析任务，包括以下步骤；

步骤S3、将初始图结构送入边缘分支进行边缘特征学习；

在步骤S1中，笔画特征采用手工设计的特征，共计30个，包括笔画的采样点数量、持续时长与长度之比、两个端点连线的距离与长度之比、采样点与第一点和最后一点之间连线的标准偏差、第一个点和最后一个点之间连接的斜率、长度与采样点数量之比、两个端点连线的距离与采样点数量之比、最小外接矩形的旋转角度、最小外接矩形的宽度、最小外接矩形的高度、最小外接矩形的对角线长度、边界框的宽度、边界框的高度、边界框的对角线长度、边界框对角线角度、长度与边界框对角线之比、最小外接半径、采样点与最小外切圆中心之间的距离方差、采样点与质心之间的距离方差、边界框面积、最小外接矩形面积、最小外切圆面积、凸包面积与边界框面积之比、凸包面积与最小外切圆面积之比、凸包面积与最小外接矩形面积之比、x轴上的笔划投影与第一个点和最后一个点之间的线的比率、由采样点组成的最大角度、由采样点组成的最小角度、采样点组成的平均角度、最小外切圆中心与质心之间的距离。笔画对特征采用手工设计的特征，包括两个笔画之间的时间距离、空间距离、长度比等。笔画i特征，即节点i特征记为h_i；笔画i和笔画j组成的笔画对特征，即边缘特征记为f_ij。

在步骤S2中，笔画对的连接与否取决于其时间上下文与空间上下文关系。具体而言包括四条规则，满足其中一条即可：如果两个笔画的时间距离小于时间阈值，则两个笔画相连；如果两个笔画的空间距离小于空间阈值，则两个笔画相连；目标笔画与其时间距离上最近的k_t个笔画相连；目标笔画与其空间距离上最近的k_s个笔画相连。与此同时，每个笔画具有自连边，即与笔画自身相连。

在步骤S3中，边缘特征的学习包括三层，依次为边缘特征更新层、节点特征更新层、边缘特征更新层；其中第一层与第三层边缘特征更新层采用相同的处理方式。具体而言，边缘特征更新考虑了边缘所连接的两个节点的关系以及边缘特征本身，公式如下：

其中，表示拼接操作，W_h是可学习参数。节点特征更新采用基于带有NE结构的注意力机制。NE结构是一个由节点j和边缘e_ij组成的复合结构，它具有节点和边缘双重特征，既可以用于计算注意力分数，也可以用于最终节点特征的更新。节点特征更新计算公式如下：

在步骤S4中，对最后一层边缘更新后得到的边缘特征进行二分类，其中1表示边缘存在，即两个节点之间连接成边；0表示边缘不存在，即两个节点之间没有连接边。该分类结果作为新的图邻接矩阵，即得到新的图结构。

在步骤S5中，基于更新后的图结构，利用带有NE结构的注意力机制对节点进行融合，获得节点在连通子图的特征，计算方式参见公式二。同时，对该注意力分数进行放缩后在全局进行节点特征融合，从而获得节点的全局特征。计算公式如下：

其中，a是放缩系数。

在步骤S6中，基于更新后的图结构，将节点的原始特征、连通子图特征与全局特征利用公式四融合为具有多尺度信息节点特征，而后利用该特征与边缘特征利用公式二计算得到最终的节点特征。对最终的节点特征进行多分类处理，分类结果即为版面分析结果。

本发明提出了一种基于浅层图神经网络的联机手写笔画分类方法。针对深层图神经网络存在的节点信息压缩导致特征缺失的问题，通过先调整图结构再进行节点分类的策略，利用更合理的图结构获取远距离节点感受野从而减少图神经网络的层数，缓解节点信息压缩问题。本发明能够显著提高联机手写笔画的分类精度，在经典联机手写文档数据集中达到当前最高精度。联机手写笔画分类是版面分析任务的基础，为后续的文字识别、表格识别等具体模块识别任务提供帮助，对联机手写文档数字化系统的性能至关重要，具有较高的应用价值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于浅层图神经网络的联机手写笔画分类方法，用于联机手写文档的版面分析任务，其特征在于：包括以下步骤；

步骤S3、将初始图结构送入边缘分支进行边缘特征学习；

2.根据权利要求1所述的一种基于浅层图神经网络的联机手写笔画分类方法，其特征在于：在步骤S1中，笔画特征采用手工设计的特征，共计30个，包括笔画的采样点数量、持续时长与长度之比、两个端点连线的距离与长度之比、采样点与第一点和最后一点之间连线的标准偏差、第一个点和最后一个点之间连接的斜率、长度与采样点数量之比、两个端点连线的距离与采样点数量之比、最小外接矩形的旋转角度、最小外接矩形的宽度、最小外接矩形的高度、最小外接矩形的对角线长度、边界框的宽度、边界框的高度、边界框的对角线长度、边界框对角线角度、长度与边界框对角线之比、最小外接半径、采样点与最小外切圆中心之间的距离方差、采样点与质心之间的距离方差、边界框面积、最小外接矩形面积、最小外切圆面积、凸包面积与边界框面积之比、凸包面积与最小外切圆面积之比、凸包面积与最小外接矩形面积之比、x轴上的笔划投影与第一个点和最后一个点之间的线的比率、由采样点组成的最大角度、由采样点组成的最小角度、采样点组成的平均角度、最小外切圆中心与质心之间的距离；笔画对特征采用手工设计的特征，包括两个笔画之间的时间距离、空间距离、长度比；笔画i特征，即节点i特征记为hi；笔画i和笔画j组成的笔画对特征，即边缘特征记为f_ij。

3.根据权利要求1所述的一种基于浅层图神经网络的联机手写笔画分类方法，其特征在于：在步骤S2中，笔画对的连接与否取决于其时间上下文与空间上下文关系；具体而言包括四条规则，满足其中一条即可；如果两个笔画的时间距离小于时间阈值，则两个笔画相连；如果两个笔画的空间距离小于空间阈值，则两个笔画相连；目标笔画与其时间距离上最近的k_t个笔画相连；目标笔画与其空间距离上最近的k_s个笔画相连；与此同时，每个笔画具有自连边，即与笔画自身相连。

4.根据权利要求1所述的一种基于浅层图神经网络的联机手写笔画分类方法，其特征在于：在步骤S3中，边缘特征的学习包括三层，依次为边缘特征更新层、节点特征更新层、边缘特征更新层；其中第一层与第三层边缘特征更新层采用相同的处理方式；具体而言，边缘特征更新考虑边缘所连接的两个节点的关系以及边缘特征本身，公式如下：

t_ij＝σ(W_ff_ij)，

s_ij＝σ(v^TNE_ij)，

5.根据权利要求1所述的一种基于浅层图神经网络的联机手写笔画分类方法，其特征在于：在步骤S4中，对最后一层边缘更新后得到的边缘特征进行二分类，其中1表示边缘存在，即两个节点之间连接成边；0表示边缘不存在，即两个节点之间没有连接边；分类结果作为新的图邻接矩阵，即得到新的图结构。

6.根据权利要求1所述的一种基于浅层图神经网络的联机手写笔画分类方法，其特征在于：在步骤S5中，基于更新后的图结构，利用带有NE结构的注意力机制对节点进行融合，获得节点在连通子图的特征，计算方式参见公式(2)；同时，对该注意力分数进行放缩后在全局进行节点特征融合，从而获得节点的全局特征；计算公式如下：

其中，a是放缩系数。

7.根据权利要求1所述的一种基于浅层图神经网络的联机手写笔画分类方法，其特征在于：在步骤S6中，基于更新后的图结构，将节点的原始特征、连通子图特征与全局特征利用公式四融合为具有多尺度信息节点特征，而后利用该特征与边缘特征利用公式二计算得到最终的节点特征；对最终的节点特征进行多分类处理，分类结果即为版面分析结果；