CN116361839B

CN116361839B - 一种基于nlp的涉密屏蔽方法

Info

Publication number: CN116361839B
Application number: CN202310603451.3A
Authority: CN
Inventors: 李飞; 陈妙波
Original assignee: Sichuan Yijing Intelligent Terminal Co ltd
Current assignee: Sichuan Yijing Intelligent Terminal Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-07-28
Anticipated expiration: 2043-05-26
Also published as: CN116361839A

Abstract

本发明公开了一种基于NLP的涉密屏蔽方法，属于电数字数据处理技术领域，本发明中先根据标点符号将待识别文字语句划分为多个短句，并将每个短句进行分词处理，得到短句词组，再将得到的短句词组进行向量化处理，得到词组矩阵，采用特征提取模型提取词组矩阵的特征，减少数据量，依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值，从而得到待识别文字语句和涉密文字语句的相似度，实现文字语句的全面对比，提高语句屏蔽精度。

Description

一种基于NLP的涉密屏蔽方法

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种基于NLP的涉密屏蔽方法。

背景技术

随着网络的迅速发展，个人言论可借助互联网的平台进行发布，使得企业的涉密信息容易遭到泄露，对于企业造成不可挽回的损失。因此，为了限制个人在网络上发表不利于他人的言论，现有自然语言处理NLP可用于自动屏蔽不当言论。

现有自然语言屏蔽方法通过标注敏感词的方式，构建训练样本集，再用训练样本集训练神经网络，采用训练后的神经网络进行分类，从而区分该自然语言是否包含敏感词或者非敏感词。现有自然语言屏蔽方法的分类精度取决于敏感词，在存在敏感词时其屏蔽精度较高，但对于语句屏蔽精度较低。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于NLP的涉密屏蔽方法解决了现有自然语言屏蔽方法存在语句屏蔽精度较低的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于NLP的涉密屏蔽方法，包括以下步骤：

S1、将待识别文字语句和涉密文字语句分别根据标点符号划分为多个短句，并将每个短句进行分词处理，得到待识别短句词组和涉密短句词组；

S2、将待识别短句词组和涉密短句词组分别进行向量化处理，得到待识别词组矩阵和涉密词组矩阵；

S3、采用特征提取模型分别提取待识别词组矩阵和涉密词组矩阵的特征，得到待识别特征和涉密特征；

S4、根据待识别特征和涉密特征的相似程度值，计算待识别文字语句和涉密文字语句的相似度，在相似度大于相似阈值时，待识别文字语句为涉密信息，剔除待识别文字语句。

进一步地，所述S3中特征提取模型包括：第一卷积特征提取网络、第二卷积特征提取网络、第三卷积特征提取网络、特征融合单元、第一时间递归网络和第二时间递归网络；

所述第一卷积特征提取网络的输入端分别与第二卷积特征提取网络的输入端、第三卷积特征提取网络的输入端和特征融合单元的第四输入端连接，并作为特征提取模型的输入端，用于输入待识别词组矩阵或涉密词组矩阵；所述特征融合单元的第一输入端与第一卷积特征提取网络的输出端连接，其第二输入端与第二卷积特征提取网络的输出端连接，其第三输入端与第三卷积特征提取网络的输出端连接，其输出端与第一时间递归网络的输入端连接；所述第一时间递归网络的输出端与第二时间递归网络的输入端连接；所述第二时间递归网络的输出端作为特征提取模型的输出端。

进一步地，每个所述卷积特征提取网络均包括：卷积层、全局平均池化层、全局最大池化层和Concat层；

所述卷积层的输入端作为卷积特征提取网络的输入端，其输出端分别与全局平均池化层的输入端和全局最大池化层的输入端连接；所述Concat层的输入端分别与全局平均池化层的输出端和全局最大池化层的输出端连接，其输出端作为卷积特征提取网络的输出端。

上述进一步地方案的有益效果为：本发明中设置四条路径用于特征在空间位置的融合，通过三个卷积层分别提取不同特征，再设置全局最大池化层提取显著特征，设置平均池化层提取整体特征，这三条路径实现对不同特征进行提取，Concat层将提取后的特征进行拼接，在第一个乘法器处，实现两条路径上的特征在空间位置的融合，为了避免信息丢失和损耗的问题，第四条路径直接将输入连接到第二转置层，保护信息的完整性，解决网络过深所引起的梯度消失问题和退化问题。

进一步地，所述特征融合单元包括：第一转置层、第二转置层、第一乘法器、第二乘法器和加法器；

所述第一转置层的输入端作为特征融合单元的第一输入端，其输出端与第一乘法器的第一输入端连接；所述第一乘法器的第二输入端作为特征融合单元的第二输入端，其输出端与加法器的第一输入端连接；所述第二转置层的输入端作为特征融合单元的第四输入端；所述第二乘法器的第一输入端作为特征融合单元的第三输入端，其第二输入端与第二转置层的输出端连接，其输出端与加法器的第二输入端连接；所述加法器的输出端作为特征融合单元的输出端。

进一步地，所述时间递归网络的表达式为：

其中，为时间递归网络第/>时刻的输出，/>为双曲正切激活函数，/>为中间变量，/>为时间递归网络第/>时刻的输入，/>为哈达玛积，/>为时间递归网络第/>时刻的输出，/>为输入权重，/>为输入偏置，/>为输出权重，/>为输出偏置，/>为传输权重，/>为传输偏置，/>为S形激活函数。

上述进一步地方案的有益效果为：本发明利用时间递归网络的记忆性更好的提取用户语义，本发明的时间递归网络的输入包括：和/>，对/>和/>分别赋予权重和偏置，从而实现对/>和/>分别进行控制，再采用/>激活函数选择/>和/>提取的部分，在输出时，建立/>、/>和/>与输出/>的模型关系，使得输出充分考虑/>和/>，提高特征提取的精度。

进一步地，所述S3中特征提取模型的损失函数为：

其中，为特征提取模型第/>次训练时损失函数的输出，/>为特征提取模型第次训练时的输出，/>为特征提取模型第/>次训练时的标签，/>为自然对数，/>为指数系数。

上述进一步地方案的有益效果为：本发明中采用标签的平方和输出的平方减去二倍标签和输出的乘积，从而体现出标签与输出的差距，同时为了使得训练时，模型训练速度快，模型快速收敛，本发明还设置了指数系数，在指数系数中通过比值来体现两者的差距，在比值越大时，两者差距越大，在比值等于1时，输出与标签相等，即本发明通过输出与标签在数据上差距体现两者差距，再通过比值反应差距的程度，将比值通过指数函数放大后作用于差距上，进一步地使得损失值增加，从而达到快速训练特征提取模型的目的。

进一步地，所述S4中计算相似度的公式为：

其中，为待识别文字语句和涉密文字语句的相似度，/>为第/>个待识别特征的相似程度值，/>为待识别文字语句对应的待识别特征的数量，/>为待识别文字语句对应的待识别特征中相似程度值大于等于0.5的待识别特征的数量，/>为待识别文字语句对应的待识别特征中相似程度值小于0.5的待识别特征的数量。

上述进一步地方案的有益效果为：本发明中将待识别文字语句中每个待识别特征的相似程度值进行叠加，体现整个文字语句与涉密文字语句的相似情况，同时，统计相似程度值大于等于0.5的待识别特征的数量和相似程度值小于0.5的待识别特征的数量，将两者数量的差距作为相似情况的指数，使得各个文字语句的相似度区别明显，更容易判断出文字语句是否为涉密信息，在大于等于/>时，即相似的短句占比更多，因此，该文字语句更容易被判定为涉密信息，在/>小于/>，即不相似的短句占比更多，该文字语句更容易被判定为非涉密信息，在/>越小于/>时，该文字语句的相似度越低。

进一步地，所述待识别特征的相似程度值的计算公式为：

其中，为取序列的最大值，/>为第/>个待识别特征，/>为第1个涉密特征，/>为第/>个涉密特征，/>为第/>个涉密特征，/>为涉密文字语句中对应的涉密特征的数量。

上述进一步地方案的有益效果为：本发明中将每个待识别特征分别与涉密文字语句的多个涉密特征依次进行比对，计算相似程度值，挑选出最大相似程度值，实现全面的比对，提高语句屏蔽精度。

综上，本发明的有益效果为：本发明中先根据标点符号将待识别文字语句划分为多个短句，并将每个短句进行分词处理，得到短句词组，再将得到的短句词组进行向量化处理，得到词组矩阵，采用特征提取模型提取词组矩阵的特征，减少数据量，依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值，从而得到待识别文字语句和涉密文字语句的相似度，实现文字语句的全面对比，提高语句屏蔽精度。

附图说明

图1为一种基于NLP的涉密屏蔽方法的流程图；

图2为特征提取模型的结构示意图；

其中，1、第一卷积特征提取网络；2、第二卷积特征提取网络；3、第三卷积特征提取网络；4、特征融合单元。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于NLP的涉密屏蔽方法，包括以下步骤：

在本实施例中，待识别文字语句例如：起落架有一点像汽车的车轮，但比汽车的车轮复杂得多，而且强度也大得多，它能够消耗和吸收飞机在着陆时的撞击能量。根据逗号和句号，划分得到“起落架有一点像汽车的车轮”“但比汽车的车轮复杂得多”“而且强度也大得多”“能够消耗和吸收飞机在着陆时的撞击能量”四个短句。

将每个短句进行分词处理，以第一个短句为例，分词后得到的待识别短句词组为：“起落架”“有一点”“像”“汽车”“车轮”，在分词时根据平时汉语习惯进行拆分。

在本实施例中，S3输入的待识别词组矩阵或涉密词组矩阵为一个短句对应的所有词组矩阵。因此，S3提取到的特征表征的是一个短句的特征，S4中的相似程度值表征的是短句与短句之间的相似情况。

在本实施例中，将各个涉密文件中涉密文字语句通过本发明步骤S1~S3的方法提取出涉密特征，将涉密特征保存起来，在有新的涉密文字语句时，再采用本发明步骤S1~S3的方法提取出涉密特征，再将新的涉密特征保存起来，便于用于与待识别文字语句的待识别特征进行比对。

如图2所示，所述S3中特征提取模型包括：第一卷积特征提取网络1、第二卷积特征提取网络2、第三卷积特征提取网络3、特征融合单元4、第一时间递归网络和第二时间递归网络；

所述第一卷积特征提取网络1的输入端分别与第二卷积特征提取网络2的输入端、第三卷积特征提取网络3的输入端和特征融合单元4的第四输入端连接，并作为特征提取模型的输入端，用于输入待识别词组矩阵或涉密词组矩阵；所述特征融合单元4的第一输入端与第一卷积特征提取网络1的输出端连接，其第二输入端与第二卷积特征提取网络2的输出端连接，其第三输入端与第三卷积特征提取网络3的输出端连接，其输出端与第一时间递归网络的输入端连接；所述第一时间递归网络的输出端与第二时间递归网络的输入端连接；所述第二时间递归网络的输出端作为特征提取模型的输出端。

每个所述卷积特征提取网络均包括：卷积层、全局平均池化层、全局最大池化层和Concat层；

在本实施例中，如图2所示，第一卷积层的卷积核大小为1*1，第二卷积层的卷积核大小为3*3，第三卷积层的卷积核大小为5*5，通过不同大小的卷积核提取不同特征，实现对特征的深度提取。C1为第一Concat层，C2为第二Concat层，C3为第三Concat层。

本发明中设置四条路径用于特征在空间位置的融合，通过三个卷积层分别提取不同特征，再设置全局最大池化层提取显著特征，设置平均池化层提取整体特征，这三条路径实现对不同特征进行提取，Concat层将提取后的特征进行拼接，在第一个乘法器处，实现两条路径上的特征在空间位置的融合，为了避免信息丢失和损耗的问题，第四条路径直接将输入连接到第二转置层，保护信息的完整性，解决网络过深所引起的梯度消失问题和退化问题。

所述特征融合单元4包括：第一转置层、第二转置层、第一乘法器、第二乘法器和加法器；

所述第一转置层的输入端作为特征融合单元4的第一输入端，其输出端与第一乘法器的第一输入端连接；所述第一乘法器的第二输入端作为特征融合单元4的第二输入端，其输出端与加法器的第一输入端连接；所述第二转置层的输入端作为特征融合单元4的第四输入端；所述第二乘法器的第一输入端作为特征融合单元4的第三输入端，其第二输入端与第二转置层的输出端连接，其输出端与加法器的第二输入端连接；所述加法器的输出端作为特征融合单元4的输出端。

所述时间递归网络的表达式为：

在本实施例中，第一时间递归网络和第二时间递归网络均为上述表达式，对于第一时间递归网络，其输入来源于特征融合单元4的输出。对于第二时间递归网络，其输入来源于第一时间递归网络的输出，同时，在每个时间递归网络中当前时刻的输出会在下一次时刻输入到自身网络中，实现对数据的记忆，将第二时间递归网络的输出作为特征提取模型的最终输出。

本发明利用时间递归网络的记忆性更好的提取用户语义，本发明的时间递归网络的输入包括：和/>，对/>和/>分别赋予权重和偏置，从而实现对/>和/>分别进行控制，再采用/>激活函数选择/>和/>提取的部分，在输出时，建立/>、/>和与输出/>的模型关系，使得输出充分考虑/>和/>，提高特征提取的精度。

在本发明步骤S3中的特征提取模型为提前训练好的模型，本发明中的特征提取模型仅需训练至对于不同的文字语句，特征提取模型能提取得到不同的特征，无需特征提取模型来进行分类。

所述S3中特征提取模型的损失函数为：

本发明中采用标签的平方和输出的平方减去二倍标签和输出的乘积，从而体现出标签与输出的差距，同时为了使得训练时，模型训练速度快，模型快速收敛，本发明还设置了指数系数，在指数系数中通过比值来体现两者的差距，在比值越大时，两者差距越大，在比值等于1时，输出与标签相等，即本发明通过输出与标签在数据上差距体现两者差距，再通过比值反应差距的程度，将比值通过指数函数放大后作用于差距上，进一步地使得损失值增加，从而达到快速训练特征提取模型的目的。

所述S4中计算相似度的公式为：

本发明中将待识别文字语句中每个待识别特征的相似程度值进行叠加，体现整个文字语句与涉密文字语句的相似情况，同时，统计相似程度值大于等于0.5的待识别特征的数量和相似程度值小于0.5的待识别特征的数量，将两者数量的差距作为相似情况的指数，使得各个文字语句的相似度区别明显，更容易判断出文字语句是否为涉密信息，在大于等于/>时，即相似的短句占比更多，因此，该文字语句更容易被判定为涉密信息，在/>小于，即不相似的短句占比更多，该文字语句更容易被判定为非涉密信息，在/>越小于/>时，该文字语句的相似度越低。

所述待识别特征的相似程度值的计算公式为：

本发明中将每个待识别特征分别与涉密文字语句的多个涉密特征依次进行比对，计算相似程度值，挑选出最大相似程度值，实现全面的比对，提高语句屏蔽精度。

综上，本发明实施例的有益效果为：本发明中先根据标点符号将待识别文字语句划分为多个短句，并将每个短句进行分词处理，得到短句词组，再将得到的短句词组进行向量化处理，得到词组矩阵，采用特征提取模型提取词组矩阵的特征，减少数据量，依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值，从而得到待识别文字语句和涉密文字语句的相似度，实现文字语句的全面对比，提高语句屏蔽精度。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于NLP的涉密屏蔽方法，其特征在于，包括以下步骤：

S4、根据待识别特征和涉密特征的相似程度值，计算待识别文字语句和涉密文字语句的相似度，在相似度大于相似阈值时，待识别文字语句为涉密信息，剔除待识别文字语句；

所述S3中特征提取模型包括：第一卷积特征提取网络（1）、第二卷积特征提取网络（2）、第三卷积特征提取网络（3）、特征融合单元（4）、第一时间递归网络和第二时间递归网络；

所述第一卷积特征提取网络（1）的输入端分别与第二卷积特征提取网络（2）的输入端、第三卷积特征提取网络（3）的输入端和特征融合单元（4）的第四输入端连接，并作为特征提取模型的输入端，用于输入待识别词组矩阵或涉密词组矩阵；所述特征融合单元（4）的第一输入端与第一卷积特征提取网络（1）的输出端连接，其第二输入端与第二卷积特征提取网络（2）的输出端连接，其第三输入端与第三卷积特征提取网络（3）的输出端连接，其输出端与第一时间递归网络的输入端连接；所述第一时间递归网络的输出端与第二时间递归网络的输入端连接；所述第二时间递归网络的输出端作为特征提取模型的输出端；

所述卷积层的输入端作为卷积特征提取网络的输入端，其输出端分别与全局平均池化层的输入端和全局最大池化层的输入端连接；所述Concat层的输入端分别与全局平均池化层的输出端和全局最大池化层的输出端连接，其输出端作为卷积特征提取网络的输出端；

所述特征融合单元（4）包括：第一转置层、第二转置层、第一乘法器、第二乘法器和加法器；

所述第一转置层的输入端作为特征融合单元（4）的第一输入端，其输出端与第一乘法器的第一输入端连接；所述第一乘法器的第二输入端作为特征融合单元（4）的第二输入端，其输出端与加法器的第一输入端连接；所述第二转置层的输入端作为特征融合单元（4）的第四输入端；所述第二乘法器的第一输入端作为特征融合单元（4）的第三输入端，其第二输入端与第二转置层的输出端连接，其输出端与加法器的第二输入端连接；所述加法器的输出端作为特征融合单元（4）的输出端。

2.根据权利要求1所述的基于NLP的涉密屏蔽方法，其特征在于，所述时间递归网络的表达式为：

，

其中，为时间递归网络第/>时刻的输出，/>为双曲正切激活函数，/>为中间变量，为时间递归网络第/>时刻的输入，/>为哈达玛积，/>为时间递归网络第/>时刻的输出，/>为输入权重，/>为输入偏置，/>为输出权重，/>为输出偏置，/>为传输权重，/>为传输偏置，/>为S形激活函数。

3.根据权利要求1所述的基于NLP的涉密屏蔽方法，其特征在于，所述S3中特征提取模型的损失函数为：

，

，其中，/>为特征提取模型第/>次训练时损失函数的输出，/>为特征提取模型第/>次训练时的输出，/>为特征提取模型第/>次训练时的标签，/>为自然对数，/>为指数系数。

4.根据权利要求1所述的基于NLP的涉密屏蔽方法，其特征在于，所述S4中计算相似度的公式为：

，其中，/>为待识别文字语句和涉密文字语句的相似度，/>为第/>个待识别特征的相似程度值，/>为待识别文字语句对应的待识别特征的数量，/>为待识别文字语句对应的待识别特征中相似程度值大于等于0.5的待识别特征的数量，/>为待识别文字语句对应的待识别特征中相似程度值小于0.5的待识别特征的数量。

5.根据权利要求4所述的基于NLP的涉密屏蔽方法，其特征在于，所述待识别特征的相似程度值的计算公式为：

，

其中，为取序列的最大值，/>为第/>个待识别特征，/>为第1个涉密特征，/>为第个涉密特征，/>为第/>个涉密特征，/>为涉密文字语句中对应的涉密特征的数量。