CN117648633B

CN117648633B - 一种基于增强图注意力网络的敏感信息识别方法及系统

Info

Publication number: CN117648633B
Application number: CN202410121012.3A
Authority: CN
Inventors: 吴雨虹; 王欣; 张望
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-04-19
Anticipated expiration: 2044-01-29
Also published as: CN117648633A

Abstract

本发明涉及一种基于增强图注意力网络的敏感信息识别方法及系统，属于自然语言处理领域。包括：a)获取并预处理新闻文本分类数据集和敏感信息识别数据集的文本，分别得到新闻文本和敏感信息文本；b)构造基于新闻文本的文本图和基于敏感信息文本的文本图；c)将基于新闻文本的文本图作为训练数据输入基于增强图注意力网络的文本分类模型KGAX进行训练，并保存特征层参数；d)将KGAX的特征层参数迁移到基于增强图注意力网络的敏感信息识别模型KGAM中，再将基于敏感信息文本的文本图作为训练数据输入KGAM进行训练。本发明充分学习了敏感信息文本的潜在结构信息，提升了敏感信息识别任务的分类效果。

Description

一种基于增强图注意力网络的敏感信息识别方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于增强图注意力网络的敏感信息识别方法及系统。

背景技术

随着信息化社会建设和工业5.0时代的到来，来自于各行各业的网络文本数据正在以超乎想象的速度增加。在如此大规模的网络文本数据中混杂着对于社会秩序和意识形态存在威胁的文本，称为敏感信息。面对隐藏在海量信息中的敏感信息，人力筛检效率过低无法达到及时阻断信息传播的目的，对国家安全、社会治安以及个人生活带来了威胁。因此，如何高效地进行敏感信息的识别对于互联网的健康发展具有重要意义。

针对该问题，国内外所提出的方案可以分为两类：(1)基于敏感词典的方法。该方法通过简单匹配的方式来识别文本中是否含有敏感信息。为了达到目的需要预先构建敏感词表。由于数据的爆发增长，敏感词表的更新无疑变得十分困难，这导致该方法效率较低，具有一定迟滞性；(2)基于深度学习的方法。该方法通过深度学习模型自动提取数据中存在的潜在特征，通过推理有效提升了敏感信息的识别效率，并且由于其强大的特征学习能力，还能更加准确地判定敏感信息的具体类型，因此得到了广泛的认可。

但随着反检测技术的进一步提升，传统深度学习模型也迎来了挑战。在实际应用场景中，单词之间的相互影响可能使得单词表达出与单独存在时不同的含义，这使得文本语义变得更加难以学习，因此在敏感信息识别任务中学习文本中的单词之间的结构信息就显得尤为重要。传统模型对句子中的每个单词采取顺序处理的方式往往会忽略文本中潜在的结构信息，因而无力承担复杂语义环境下的敏感信息识别任务。图神经网络及其变体借助图结构有效地解决了该问题，因此获得更加广泛的认可。其中图注意力网络将注意力机制引入图神经网络中，通过计算源节点与邻接节点之间的注意力系数，实现了在语义层面上不同邻接节点对源节点的不同重要程度的度量，具有更强的局部关键信息捕捉能力，由于敏感信息往往存在于文本片段中，所以图注意力网络更加有利于敏感信息的识别。

基于上述情况，亟需一种基于增强图注意力网络的敏感信息识别方法及系统。

发明内容

有鉴于此，本发明的目的在于提供一种基于增强图注意力网络的敏感信息识别方法及系统，能够充分学习文本结构信息，从而提高敏感信息识别任务的分类效果。

一方面，一种基于增强图注意力网络的敏感信息识别方法，包括：

1、一种基于增强图注意力网络的敏感信息识别方法，包括以下步骤：

S1、下载新闻文本分类数据集，并从互联网中获取文本以构造敏感信息识别数据集；对新闻文本分类数据集和敏感信息识别数据集中的文本进行预处理后分别得到新闻文本和敏感信息文本；

S2、基于新闻文本和敏感信息文本构造以单词为节点、单词对的共现次数为边的文本图，分别得到基于新闻文本的文本图和基于敏感信息文本的文本图；

S3、构建基于增强图注意力网络的文本分类模型KGAX，将基于新闻文本的文本图作为训练数据输入至KGAX中，经过参数调优得到最佳模型，并保存KGAX的特征层参数；

S4、构建基于增强图注意力网络的敏感信息识别模型KGAM，将KGAX中的特征层参数迁移到KGAM中；将基于敏感信息文本的文本图作为训练数据输入至KGAM中，经过参数调优对模型参数进一步更新。

优选地，所述S1步骤具体包括：

S11、下载公开新闻文本分类数据集作为新闻文本分类数据集；获取来自于互联网的文本信息，构成敏感信息识别数据集；

S12、对新闻文本分类数据集和敏感信息识别数据集的每条文本进行分词、去除停用词和去除标点符号及特殊符号的操作，分别得到新闻文本和敏感信息文本。

优选地，所述S2步骤具体包括：

S21、按顺序依次处理基于S1步骤获取的新闻文本和敏感信息文本中的每条文本：首先构造一个大小为W的滑动窗口，设置每个单词对的共现次数为0，滑动窗口覆盖第1个单词到第W个单词；然后滑动窗口逐词向后一个单词移动，在滑动窗口每次移动时，将被滑动窗口同时覆盖的单词对的共现次数增加1，直到滑动窗口覆盖到文本中最后W个单词，滑动窗口停止移动，统计所有单词对的共现次数；

S22、构建每条文本对应的文本图G，其定义如下：

G＝(V，E，f_v，f_w)

式中：表示节点集，节点v_i对应文本中的第i个单词；E表示边集，E中的e_ij对应连接节点v_i与v_j的边；f_v是映射函数，f_v(v_i)表示节点v_i对应单词的d维单词表示，h_i从基于大规模语料库训练的开源模型GloVe中获得；f_w是映射函数，f_w(e_ij)表示边e_ij的边权重，其值为S21步骤中获取的v_i与v_j对应单词对的共现次数。

优选地，所述S3步骤具体包括：

S31、通过S2步骤获得的基于新闻文本的文本图构造对应的单词表示矩阵H与单词相关系数矩阵M，其中n为对应新闻文本的长度，h_i表示新闻文本中第i个单词的单词表示；M中的元素m_ij反映单词对在共现次数以及语义上的相关程度，m_ij定义为：

式中：γ是平衡参数，其值在0到1之间；

S32、通过增强图注意力网络更新单词表示矩阵H，并将该网络作为KGAX的特征层保存其参数：

首先，将S31步骤中获得的H与M输入含有K个头的多头图注意力网络层，定义第k个头对应的图注意力网络层的输出为其元素/>定义为：

式中：σ(·)是非线性激活函数；是在文本图中与v_i有边的点的下标集合；W^k是训练过程中可学习的参数，被第k个头对应的图注意力网络层的所有节点共享；/>是由第k个头计算的节点v_j与v_i之间的注意力系数，定义为：

式中：是增强注意力系数，表示在第k个头中，通过注意力机制以及m_ij得到的节点v_j对v_i的重要程度，其定义如下：

式中：||为连接操作；a^k是训练过程中可学习的向量；LeakyRelu(·)是激活函数；

其次，合并每个头对应的图注意力网络层的输出作为多头图注意力网络层的最终输出结果，定义多头图注意力网络层的输出结果为其元素/>定义为：

式中：||为连接操作，合并了k个头的图注意力网络层输出的结果；

再次，基于H^K、M输入到一个单头图注意力网络层中，单头图注意力网络层是多图注意力网络层中K＝1时的情况，定义该步骤最终输出结果为H^L；

最后，保存多头图注意力网络层和单头图注意力网络层的参数；

S33、为了加强全局理解上下文语义信息的能力，将S32步骤中所得到的H^L输入到注意力层中，注意力层的最终输出结果定义为

式中：W₁、W₂、b₁和b₂是训练过程中可学习的参数；σ(·)和tanh(·)是非线性函数；⊙表示矩阵的点积；

S34、基于S33步骤中获得的H^S，对H^S做平均池化处理得到文本表示H^O：

式中：i∈[1，n]是H^S中的元素；avg(·)表示平均池化操作，计算了输入值的平均值；

S35、基于S34步骤中获得的H^O，首先通过全连接层实现对H^O的维度转换，然后通过Softmax分类器实现对新闻文本标签的预测，通过Softmax分类器实现对新闻文本标签的预测，最终的预测结果为

式中：W₃、b₃是训练中可学习的参数；Softmax(·)对输入值进行归一化操作；

模型训练采用交叉熵损失，交叉熵损失L定义为：

式中：y_p表示标签的真实值，其值取0或1，表示待预测的新闻文本实际上是否属于第p个标签，y_p取0表示待预测的新闻文本不属于第p个标签，取1表示待预测的新闻文本属于第p个标签；为KGAX对待预测的新闻文本属于第p个标签的概率预测结果，其值在0到1之间。

优选地，所述S4步骤具体包括：

S41、构建基于增强图注意力网络的敏感信息识别模型KGAM，KGAM特征层结构与KGAX特征层结构一致，将S32步骤中保存的KGAX特征层的参数迁移到KGAM中，作为KGAM特征层的初始参数；

S42、基于S31步骤的方法实现基于敏感信息文本的文本图的获取，并基于敏感信息文本的文本图获取对应的单词表示矩阵和单词相关系数矩阵；单词表示矩阵的更新过程与S32步骤和S33步骤一致，定义更新后的单词表示矩阵为H^S′；对H^S′做平均池化处理与最大池化处理，两个处理结果相加作为最终的文本表示H^O′：

式中：i∈[1，n]是H^S′中的元素；avg(·)表示平均池化操作，计算了输入值的平均值；max(·)表示最大池化操作，选取了输入值的最大值；

S43、敏感信息识别的过程本质是文本分类过程，敏感类型对应文本分类任务中的标签，按照S35步骤处理S42步骤获得的H^O′获得敏感信息识别结果，同时KGAM训练采用交叉熵损失函数，其定义与S35步骤一致。

另一方面，一种基于增强图注意力网络的敏感信息识别系统，基于上述的一种基于增强图注意力网络的敏感信息识别方法的实现，包括：

数据获取模块：下载新闻文本分类数据集，并从互联网中获取文本以构造敏感信息识别数据集；对新闻文本分类数据集和敏感信息识别数据集中的文本进行预处理后分别得到新闻文本和敏感信息文本；

文本图构造模块：基于新闻文本和敏感信息文本构造以单词为节点、单词对的共现次数为边的文本图，分别得到基于新闻文本的文本图和基于敏感信息文本的文本图；

新闻文本分类模块：构建基于增强图注意力网络的文本分类模型KGAX，将基于新闻文本的文本图作为训练数据输入至KGAX中，经过参数调优得到最佳模型，并保存KGAX的特征层参数；

敏感信息识别模块：构建基于增强图注意力网络的敏感信息识别模型KGAM，将KGAX中的特征层参数迁移到KGAM中；将基于敏感信息文本的文本图作为训练数据输入至KGAM中，经过参数调优对模型参数进一步更新。

优选地，所述的数据获取模块包括：

数据获取单元：下载公开新闻文本分类数据集作为新闻文本分类数据集；获取来自于互联网的文本信息，构成敏感信息识别数据集；

文本预处理单元：对新闻文本分类数据集和敏感信息识别数据集的每条文本进行分词、去除停用词和去除标点符号及特殊符号的操作，分别得到新闻文本和敏感信息文本。

优选地，文本图构造模块包括：

单词共现次数统计单元：按顺序依次处理基于数据获取模块获取的新闻文本和敏感信息文本中的每条文本：首先构造一个大小为W的滑动窗口，设置每个单词对的共现次数为0，滑动窗口覆盖第1个单词到第W个单词；然后滑动窗口逐词向后一个单词移动，在滑动窗口每次移动时，将被滑动窗口同时覆盖的单词对的共现次数增加1，直到滑动窗口覆盖到文本中最后W个单词，滑动窗口停止移动，统计所有单词对的共现次数；

文本图定义单元：构造每条文本对应的文本图G，其定义为：

G＝(V，E，f_v，f_w)

式中：表示节点集，节点v_i对应文本中的第i个单词；E表示边集，E中的e_ij对应连接节点v_i与v_j的边；f_v是映射函数，f_v(v_i)表示节点v_i对应单词的d维单词表示，h_i从基于大规模语料库训练的开源模型GloVe中获得；f_w是映射函数，f_w(e_ij)表示边e_ij的边权重，其值为单词共现次数统计单元中获取的v_i与v_j对应单词对的共现次数。

优选地，新闻文本分类模块包括：

模型输入获取单元：通过文本图构造模块获得的基于新闻文本的文本图构造对应的单词表示矩阵H与单词相关系数矩阵M，其中n为对应新闻文本的长度，h_i表示新闻文本中第i个单词的单词表示；M中的元素m_ij反映单词对在共现次数以及语义上的相关程度，m_ij定义为：

式中：γ是平衡参数，其值在0到1之间；

增强图注意力网络单元：通过增强图注意力网络更新单词表示矩阵H，并将该网络作为KGAX的特征层保存其参数：

首先，将模型输入获取单元中获得的H与M输入含有K个头的多头图注意力网络层，定义第k个头对应的图注意力网络层的输出为其元素/>定义为：

注意力层单元：为了加强全局理解上下文语义信息的能力，将增强图注意力网络单元中所得到的H^L输入到注意力层中，注意力层的最终输出结果定义为

新闻文本表示获取单元：基于注意力层的单元中获得的H^S，对H^S做平均池化处理得到文本表示H^O：

新闻标签特预测单元：基于文本表示获取单元获得的H^O，首先通过全连接层实现对H^O的维度转换，然后通过Softmax分类器实现对新闻文本标签的预测，最终的预测结果为

模型训练采用交叉熵损失，交叉熵损失L定义为：

优选地，所述的敏感信息识别模块包括：

参数迁移单元：构建基于增强图注意力网络的敏感信息识别模型KGAM，KGAM特征层结构与KGAX特征层结构一致，将增强图注意力网络单元中保存的KGAX特征层的参数迁移到KGAM中，作为KGAM特征层的初始参数；

敏感信息文本表示获取单元：通过文本图构造模块获取基于敏感信息文本的文本图，基于敏感信息文本的文本图对应的单词表示矩阵和单词相关系数矩阵的获取与模型输入获取单元一致，单词表示矩阵的更新过程与增强图注意力网络单元和注意力层单元一致，定义更新后的单词表示矩阵为H^S′；对H^S′做平均池化处理与最大池化处理，两个处理结果相加作为最终的文本表示H^O′：

敏感类型识别单元：敏感信息识别的过程本质是文本分类过程，敏感类型对应文本分类任务中的标签，按照新闻标签预测单元流程处理敏感信息文本表示获取单元获得的H^O′，获得敏感信息识别结果，同时KGAM训练采用交叉熵损失函数，其定义与新闻标签预测单元一致。

采用上述技术方案所产生的有益效果在于：针对敏感信息识别问题，提出了一种基于增强图注意力网络的敏感信息识别方法及系统。首先，本发明下载了新闻文本分类数据集，同时还构造了一个敏感信息识别数据集。通过对新闻文本分类数据集和敏感信息识别数据集的文本进行预处理分别得到了新闻文本和敏感信息文本，为后续的模型训练准备了充足的数据；接着，构造了基于新闻文本和敏感信息文本的文本图。文本图以单词为节点，单词对的共现次数为边，能够充分反映单词之间的结构信息；然后，基于新闻文本的文本图训练了基于增强图注意力网络的文本分类模型KGAX；最后，将KGAX的特征层参数迁移到基于增强图注意力网络的敏感信息识别模型KGAM中，再基于敏感信息文本的文本图训练了KGAM。通过对文本构造文本图进而输入到增强图注意力网络中学习单词表示，充分考虑了单词之间的结构信息，有利于关键局部信息的捕捉。考虑到敏感信息数据样本较少，采用相似领域的新闻文本分类任务的数据集训练KGAX，以保证KGAX具有良好的特征提取能力，而KGAM的特征层初始参数由KGAX迁移得来，使得KGAM能够在少样本的情况下仍具有良好的特征提取能力。采用敏感信息文本进一步训练KGAM使得KGAM相较于KGAX适用于敏感信息识别任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于增强图注意力网络的敏感信息识别方法实施例的方法流程图；

图2为本发明一种基于增强图注意力网络的敏感信息识别方法及系统所述的模型结构示意图；

图3为本发明一种基于增强图注意力网络的敏感信息识别方法及系统所述的文本图构造过程示例图；

图4为本发明一种基于增强图注意力网络的敏感信息识别系统实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

一方面，本发明实例中提供一种基于增强图注意力网络的敏感信息识别方法，如图1、图2所示，所述方法包括以下步骤：

S1、下载新闻文本分类数据集，并从互联网中获取文本以构造敏感信息识别数据集；对新闻文本分类数据集和敏感信息识别数据集中的文本进行预处理后分别得到新闻文本和敏感信息文本，包括：

S11、下载公开新闻文本分类数据集作为新闻文本分类数据集；从互联网中获取文本信息以构造敏感信息识别数据集；

S12、对新闻文本分类数据集和敏感信息识别数据集的每条文本进行预处理操作：使用jieba中文分词工具对文本进行分词，并去除文本中的停用词、标点符号及特殊符号；例如对文本“电信网与互联网正在加快融合的步伐；”进行预处理，首先在经过分词处理以后文本被分为9个词(短语)：“电信网/与/互联网/正在/加快/融合/的/步伐/；/”；基于分词处理的结果进一步去除停用词、标点符号及特殊符号，文本剩下5个词(词组)：“电信网/互联网/加快/融合/步伐/”，中文停用词通常包括介词、连词、量词、语气词、代词、助词、副词和否定词等对文本语义贡献度不大的词，过滤停用词有助于提高模型训练效率。

S2、基于新闻文本和敏感信息文本构造以单词为节点、单词对的共现次数为边的文本图，分别得到基于新闻文本的文本图和基于敏感信息文本的文本图，参考图3，包括：

S21、按顺序依次处理基于S1步骤获取的新闻文本和敏感信息文本中的每条文本：首先构造一个大小为W的滑动窗口，在实际操作中W被设置为3，设置每个单词对的共现次数为0，滑动窗口覆盖第1个单词到第3个单词；然后滑动窗口逐词向后一个单词移动，在滑动窗口每次移动时，将被滑动窗口同时覆盖的单词对的共现次数增加1，直到滑动窗口覆盖到文本中最后3个单词，滑动窗口停止移动，统计所有单词对的共现次数；

S22、构建每条文本对应的文本图G，其定义如下：

G＝(V，E，f_v，f_w)

式中：表示节点集，节点v_i对应文本中的第i个单词；E表示边集，E中的e_ij对应连接节点v_i与v_j的边；f_v是映射函数，/>表示节点v_i对应单词的d维单词表示，h_i从基于大规模语料库训练的开源模型GloVe中获得；f_w是映射函数，f_w(e_ij)表示边e_ij的边权重，其值为S21步骤中获取的v_i与v_j对应单词对的共现次数。

S3、构建基于增强图注意力网络的文本分类模型KGAX，将基于新闻文本的文本图作为训练数据输入至KGAX中，经过参数调优得到最佳模型，并保存KGAX的特征层参数，包括：

式中：γ是平衡参数，其值在0到1之间，在实际操作中γ被设置为0.8；

首先，将S31步骤中获得的H与M输入含有K个头的多头图注意力网络层，在实际操作中K设置为8，定义第k个头对应的图注意力网络层的输出为其元素/>定义为：

式中：||为连接操作；a^k是训练过程中可学习的向量；LeakyRelu(·)是激活函数；m_ij是M中的元素；引入m_ij突出了近距离单词之间的重要影响；

LeakyRelu(·)具体定义为：

式中：x表示激活函数的输入值；λ是非0的数，在实际操作中λ设置为0.01；

S33、将S32步骤中所得到的H^L输入到注意力层中，引入注意力层是为更加全局地理解上下文信息，因为图注意力网络中的注意力机制是建立在图结构上的，侧重考虑图中相邻节点的影响，注意力层的最终输出结果定义为

S35、基于S34步骤中获得的H^O，首先通过全连接层实现对H^O的维度转换，然后通过Softmax分类器实现对新闻文本标签的预测，最终的预测结果为

模型训练采用交叉熵损失，交叉熵损失L定义为：

S4、构建基于增强图注意力网络的敏感信息识别模型KGAM，将KGAX中的特征层参数迁移到KGAM中；将基于敏感信息文本的文本图作为训练数据输入至KGAM中，经过参数调优对模型参数进一步更新，包括：

S41、构建基于增强图注意力网络的敏感信息识别模型KGAM，KGAM特征层结构与KGAX特征层结构一致，将S32步骤中保存的KGAX特征层的参数迁移到KGAM中，作为KGAM特征层的初始参数，该操作可以保证KGAM能够在少量的训练数据中仍具有较强的单词表示学习能力；

S42、通过S2步骤获取基于敏感信息文本的文本图，基于敏感信息文本的文本图对应的单词表示矩阵和单词相关系数矩阵的获取与S31步骤一致，单词表示矩阵的更新过程与S32步骤和S33步骤一致，定义更新后的单词表示矩阵为H^S′；对H^S′做平均池化处理与最大池化处理，两个处理结果相加作为最终的文本表示H^O′：

式中：i∈[1，n]是H^S′中的元素；avg(·)表示平均池化操作，计算了输入值的平均值；max(·)表示最大池化操作，选取了输入值的最大值；敏感信息识别任务相较于文本分类任务更需要关注文本中关键信息的作用，所以在文本分类任务的基础上加入了最大池化处理，突出了关键单词的作用；

另一方面，本发明实施例中提供了一种基于增强图注意力网络的敏感信息识别系统，如图2、图4所示，具体包括：

优选地，所述的数据获取模块包括：

数据获取单元：下载公开新闻文本分类数据集作为新闻文本分类数据集；从互联网中获取文本信息以构造敏感信息识别数据集；

文本预处理单元：对新闻文本分类数据集和敏感信息识别数据集的每条文本进行如下操作：使用jieba中文分词工具对文本进行分词、去除停用词和去除标点符号及特殊符号的操作，例如对文本“电信网与互联网正在加快融合的步伐；”进行预处理，首先在经过分词处理以后文本被分为9个词(短语)：“电信网/与/互联网/正在/加快/融合/的/步伐/；/”；基于分词处理的结果进一步去除停用词、标点符号及特殊符号，文本剩下5个词(词组)：“电信网/互联网/加快/融合/步伐/”，中文停用词通常包括介词、连词、量词、语气词、代词、助词、副词和否定词等对文本语义贡献度不大的词，过滤停用词有助于提高模型训练效率。

优选地，文本图构造模块，参考图3，包括：

单词共现次数统计单元：按顺序依次处理基于数据获取模块获取的新闻文本和敏感信息文本中的每条文本：首先构造一个大小为W的滑动窗口，在实际操作中，W被设计为3，设置每个单词对的共现次数为0，滑动窗口覆盖第1个单词到第3个单词；然后滑动窗口逐词向后一个单词移动，在滑动窗口每次移动时，将被滑动窗口同时覆盖的单词对的共现次数增加1，直到滑动窗口覆盖到文本中最后3个单词，滑动窗口停止移动，统计所有单词对的共现次数；

文本图定义单元：构造每条文本对应的文本图G，其定义为：

G＝(V，E，f_v，f_w)式中：表示节点集，节点v_i对应文本中的第i个单词；E表示边集，E中的e_ij对应连接节点v_i与v_j的边；f_v是映射函数，f_v(v_i)表示节点v_i对应单词的d维单词表示，/>h_i从基于大规模语料库训练的开源模型GloVe中获得；f_w是映射函数，f_w(e_ij)表示边e_ij的边权重，其值为单词共现次数统计单元中获取的v_i与v_j对应单词对的共现次数。

优选地，新闻文本分类模块，包括：

首先，将模型输入获取单元中获得的H与M输入含有K个头的多头图注意力网络层，在实际操作中K设置为8，定义第k个头对应的图注意力网络层的输出为其元素/>定义为：/>

LeakyRelu(·)具体定义为：

注意力层单元：将增强图注意力网络单元中所得到的H^L输入到注意力层中，引入注意力层是为更加全局地理解上下文信息，因为图注意力网络中的注意力机制是建立在图结构上的，侧重考虑图中相邻节点的影响，注意力层的最终输出结果定义为

新闻标签特预测单元：基于文本表示获取单元获得的H^O，首先通过全连接层实现对H^O的维度转换，然后通过Softmax分类器实现对新闻文本标签的预测，最终的预测结果为/>

模型训练采用交叉熵损失，交叉熵损失L定义为：

优选地，所述的敏感信息识别模块包括：

参数迁移单元：构建基于增强图注意力网络的敏感信息识别模型KGAM，KGAM特征层结构与KGAX特征层结构一致，将增强图注意力网络单元中保存的KGAX特征层的参数迁移到KGAM中，作为KGAM特征层的初始参数，该操作可以保证KGAM能够在少量的训练数据中仍具有较强的单词表示学习能力；

综上所述，与现有技术相比，本发明提供了一种基于增强图注意力网络的敏感信息识别方法及系统，具有以下有益效果：(1)针对现有方法对文本结构信息学习不足的问题，本发明设计了一种基于增强图注意力网络的敏感信息识别模型，该模型改进了图注意力网络，充分学习了文本中单词之间的复杂结构信息；(2)本发明通过滑动窗口对文本构造文本图，突出了距离更近的单词之间的影响，其有利于关键局部信息的捕捉，进而有利于对敏感信息的识别任务；(3)考虑到敏感信息数据样本较少，本发明采用相似领域的新闻文本分类任务的数据集训练KGAX，以保证KGAX具有良好的特征提取能力，而KGAM的特征层初始参数由KGAX迁移得来，使得KGAM能够在少样本的情况下仍具有良好的特征提取能力，采用敏感信息文本进一步训练KGAM使得KGAM相较于KGAX更适用于敏感信息识别任务。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于增强图注意力网络的敏感信息识别方法，其特征在于，包括以下步骤：

S3、构建基于增强图注意力网络的文本分类模型KGAX，将基于新闻文本的文本图作为训练数据输入至KGAX中，经过参数调优得到最佳模型，并保存KGAX的特征层参数，具体包括：

S31、通过S2步骤获得的基于新闻文本的文本图构造对应的单词表示矩阵H与单词相关系数矩阵M，其中n为对应新闻文本的长度，h_i表示新闻文本中第i个单词的单词表示，从基于大规模语料库训练的开源模型GloVe中获得；M中的元素m_ij反映单词对在共现次数以及语义上的相关程度，m_ij定义为：

式中：e_ij表示在基于新闻文本的文本图中连接文本第i个单词和第j个单词的边；f_w(e_ij)表示边e_ij的边权重，其值为S2步骤中获取的对应单词对的共现次数；γ是平衡参数，其值在0到1之间；

模型训练采用交叉熵损失，交叉熵损失L定义为：

式中：y_p表示标签的真实值，其值取0或1，表示待预测的新闻文本实际上是否属于第p个标签，y_p取0表示待预测的新闻文本不属于第p个标签，取1表示待预测的新闻文本属于第p个标签；为KGAX对待预测的新闻文本属于第p个标签的概率预测结果，其值在0到l之间；

S4、构建基于增强图注意力网络的敏感信息识别模型KGAM，将KGAX中的特征层参数迁移到KGAM中；将基于敏感信息文本的文本图作为训练数据输入至KGAM中，经过参数调优对模型参数进一步更新，具体包括：

2.根据权利要求1所述的一种基于增强图注意力网络的敏感信息识别方法，其特征在于，所述S1步骤，具体包括：

3.根据权利要求1所述的一种基于增强图注意力网络的敏感信息识别方法，其特征在于，所述S2步骤，具体包括：

S22、构建每条文本对应的文本图G，其定义如下：

G＝(V，E，f_v，f_w)

式中：表示节点集，节点v_i对应文本中的第i个单词；E表示边集，E中的e_ij对应连接节点v_i与v_j的边；f_v是映射函数，f_v(v_i)表示节点v_i对应单词的d维单词表示，/>h_i从基于大规模语料库训练的开源模型GloVe中获得；f_w是映射函数，f_w(e_ij)表示边e_ij的边权重，其值为S21步骤中获取的v_i与v_j对应单词对的共现次数。

4.一种基于增强图注意力网络的敏感信息识别系统，其特征在于，基于权利要求1所述的一种基于增强图注意力网络的敏感信息识别方法的实现，包括：