CN116361839B - 一种基于nlp的涉密屏蔽方法 - Google Patents
一种基于nlp的涉密屏蔽方法 Download PDFInfo
- Publication number
- CN116361839B CN116361839B CN202310603451.3A CN202310603451A CN116361839B CN 116361839 B CN116361839 B CN 116361839B CN 202310603451 A CN202310603451 A CN 202310603451A CN 116361839 B CN116361839 B CN 116361839B
- Authority
- CN
- China
- Prior art keywords
- input end
- secret
- network
- feature extraction
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 67
- 230000004927 fusion Effects 0.000 claims description 40
- 238000011176 pooling Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 230000017105 transposition Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 241000801118 Lepidium Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims 1
- 210000003734 kidney Anatomy 0.000 claims 1
- 230000000873 masking effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NLP的涉密屏蔽方法,属于电数字数据处理技术领域,本发明中先根据标点符号将待识别文字语句划分为多个短句,并将每个短句进行分词处理,得到短句词组,再将得到的短句词组进行向量化处理,得到词组矩阵,采用特征提取模型提取词组矩阵的特征,减少数据量,依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值,从而得到待识别文字语句和涉密文字语句的相似度,实现文字语句的全面对比,提高语句屏蔽精度。
Description
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于NLP的涉密屏蔽方法。
背景技术
随着网络的迅速发展,个人言论可借助互联网的平台进行发布,使得企业的涉密信息容易遭到泄露,对于企业造成不可挽回的损失。因此,为了限制个人在网络上发表不利于他人的言论,现有自然语言处理NLP可用于自动屏蔽不当言论。
现有自然语言屏蔽方法通过标注敏感词的方式,构建训练样本集,再用训练样本集训练神经网络,采用训练后的神经网络进行分类,从而区分该自然语言是否包含敏感词或者非敏感词。现有自然语言屏蔽方法的分类精度取决于敏感词,在存在敏感词时其屏蔽精度较高,但对于语句屏蔽精度较低。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于NLP的涉密屏蔽方法解决了现有自然语言屏蔽方法存在语句屏蔽精度较低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于NLP的涉密屏蔽方法,包括以下步骤:
S1、将待识别文字语句和涉密文字语句分别根据标点符号划分为多个短句,并将每个短句进行分词处理,得到待识别短句词组和涉密短句词组;
S2、将待识别短句词组和涉密短句词组分别进行向量化处理,得到待识别词组矩阵和涉密词组矩阵;
S3、采用特征提取模型分别提取待识别词组矩阵和涉密词组矩阵的特征,得到待识别特征和涉密特征;
S4、根据待识别特征和涉密特征的相似程度值,计算待识别文字语句和涉密文字语句的相似度,在相似度大于相似阈值时,待识别文字语句为涉密信息,剔除待识别文字语句。
进一步地,所述S3中特征提取模型包括:第一卷积特征提取网络、第二卷积特征提取网络、第三卷积特征提取网络、特征融合单元、第一时间递归网络和第二时间递归网络;
所述第一卷积特征提取网络的输入端分别与第二卷积特征提取网络的输入端、第三卷积特征提取网络的输入端和特征融合单元的第四输入端连接,并作为特征提取模型的输入端,用于输入待识别词组矩阵或涉密词组矩阵;所述特征融合单元的第一输入端与第一卷积特征提取网络的输出端连接,其第二输入端与第二卷积特征提取网络的输出端连接,其第三输入端与第三卷积特征提取网络的输出端连接,其输出端与第一时间递归网络的输入端连接;所述第一时间递归网络的输出端与第二时间递归网络的输入端连接;所述第二时间递归网络的输出端作为特征提取模型的输出端。
进一步地,每个所述卷积特征提取网络均包括:卷积层、全局平均池化层、全局最大池化层和Concat层;
所述卷积层的输入端作为卷积特征提取网络的输入端,其输出端分别与全局平均池化层的输入端和全局最大池化层的输入端连接;所述Concat层的输入端分别与全局平均池化层的输出端和全局最大池化层的输出端连接,其输出端作为卷积特征提取网络的输出端。
上述进一步地方案的有益效果为:本发明中设置四条路径用于特征在空间位置的融合,通过三个卷积层分别提取不同特征,再设置全局最大池化层提取显著特征,设置平均池化层提取整体特征,这三条路径实现对不同特征进行提取,Concat层将提取后的特征进行拼接,在第一个乘法器处,实现两条路径上的特征在空间位置的融合,为了避免信息丢失和损耗的问题,第四条路径直接将输入连接到第二转置层,保护信息的完整性,解决网络过深所引起的梯度消失问题和退化问题。
进一步地,所述特征融合单元包括:第一转置层、第二转置层、第一乘法器、第二乘法器和加法器;
所述第一转置层的输入端作为特征融合单元的第一输入端,其输出端与第一乘法器的第一输入端连接;所述第一乘法器的第二输入端作为特征融合单元的第二输入端,其输出端与加法器的第一输入端连接;所述第二转置层的输入端作为特征融合单元的第四输入端;所述第二乘法器的第一输入端作为特征融合单元的第三输入端,其第二输入端与第二转置层的输出端连接,其输出端与加法器的第二输入端连接;所述加法器的输出端作为特征融合单元的输出端。
进一步地,所述时间递归网络的表达式为:
其中,为时间递归网络第/>时刻的输出,/>为双曲正切激活函数,/>为中间变量,/>为时间递归网络第/>时刻的输入,/>为哈达玛积,/>为时间递归网络第/>时刻的输出,/>为输入权重,/>为输入偏置,/>为输出权重,/>为输出偏置,/>为传输权重,/>为传输偏置,/>为S形激活函数。
上述进一步地方案的有益效果为:本发明利用时间递归网络的记忆性更好的提取用户语义,本发明的时间递归网络的输入包括:和/>,对/>和/>分别赋予权重和偏置,从而实现对/>和/>分别进行控制,再采用/>激活函数选择/>和/>提取的部分,在输出时,建立/>、/>和/>与输出/>的模型关系,使得输出充分考虑/>和/>,提高特征提取的精度。
进一步地,所述S3中特征提取模型的损失函数为:
其中,为特征提取模型第/>次训练时损失函数的输出,/>为特征提取模型第次训练时的输出,/>为特征提取模型第/>次训练时的标签,/>为自然对数,/>为指数系数。
上述进一步地方案的有益效果为:本发明中采用标签的平方和输出的平方减去二倍标签和输出的乘积,从而体现出标签与输出的差距,同时为了使得训练时,模型训练速度快,模型快速收敛,本发明还设置了指数系数,在指数系数中通过比值来体现两者的差距,在比值越大时,两者差距越大,在比值等于1时,输出与标签相等,即本发明通过输出与标签在数据上差距体现两者差距,再通过比值反应差距的程度,将比值通过指数函数放大后作用于差距上,进一步地使得损失值增加,从而达到快速训练特征提取模型的目的。
进一步地,所述S4中计算相似度的公式为:
其中,为待识别文字语句和涉密文字语句的相似度,/>为第/>个待识别特征的相似程度值,/>为待识别文字语句对应的待识别特征的数量,/>为待识别文字语句对应的待识别特征中相似程度值大于等于0.5的待识别特征的数量,/>为待识别文字语句对应的待识别特征中相似程度值小于0.5的待识别特征的数量。
上述进一步地方案的有益效果为:本发明中将待识别文字语句中每个待识别特征的相似程度值进行叠加,体现整个文字语句与涉密文字语句的相似情况,同时,统计相似程度值大于等于0.5的待识别特征的数量和相似程度值小于0.5的待识别特征的数量,将两者数量的差距作为相似情况的指数,使得各个文字语句的相似度区别明显,更容易判断出文字语句是否为涉密信息,在大于等于/>时,即相似的短句占比更多,因此,该文字语句更容易被判定为涉密信息,在/>小于/>,即不相似的短句占比更多,该文字语句更容易被判定为非涉密信息,在/>越小于/>时,该文字语句的相似度越低。
进一步地,所述待识别特征的相似程度值的计算公式为:
其中,为取序列的最大值,/>为第/>个待识别特征,/>为第1个涉密特征,/>为第/>个涉密特征,/>为第/>个涉密特征,/>为涉密文字语句中对应的涉密特征的数量。
上述进一步地方案的有益效果为:本发明中将每个待识别特征分别与涉密文字语句的多个涉密特征依次进行比对,计算相似程度值,挑选出最大相似程度值,实现全面的比对,提高语句屏蔽精度。
综上,本发明的有益效果为:本发明中先根据标点符号将待识别文字语句划分为多个短句,并将每个短句进行分词处理,得到短句词组,再将得到的短句词组进行向量化处理,得到词组矩阵,采用特征提取模型提取词组矩阵的特征,减少数据量,依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值,从而得到待识别文字语句和涉密文字语句的相似度,实现文字语句的全面对比,提高语句屏蔽精度。
附图说明
图1为一种基于NLP的涉密屏蔽方法的流程图;
图2为特征提取模型的结构示意图;
其中,1、第一卷积特征提取网络;2、第二卷积特征提取网络;3、第三卷积特征提取网络;4、特征融合单元。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于NLP的涉密屏蔽方法,包括以下步骤:
S1、将待识别文字语句和涉密文字语句分别根据标点符号划分为多个短句,并将每个短句进行分词处理,得到待识别短句词组和涉密短句词组;
在本实施例中,待识别文字语句例如:起落架有一点像汽车的车轮,但比汽车的车轮复杂得多,而且强度也大得多,它能够消耗和吸收飞机在着陆时的撞击能量。根据逗号和句号,划分得到“起落架有一点像汽车的车轮”“但比汽车的车轮复杂得多”“而且强度也大得多”“能够消耗和吸收飞机在着陆时的撞击能量”四个短句。
将每个短句进行分词处理,以第一个短句为例,分词后得到的待识别短句词组为:“起落架”“有一点”“像”“汽车”“车轮”,在分词时根据平时汉语习惯进行拆分。
S2、将待识别短句词组和涉密短句词组分别进行向量化处理,得到待识别词组矩阵和涉密词组矩阵;
S3、采用特征提取模型分别提取待识别词组矩阵和涉密词组矩阵的特征,得到待识别特征和涉密特征;
在本实施例中,S3输入的待识别词组矩阵或涉密词组矩阵为一个短句对应的所有词组矩阵。因此,S3提取到的特征表征的是一个短句的特征,S4中的相似程度值表征的是短句与短句之间的相似情况。
在本实施例中,将各个涉密文件中涉密文字语句通过本发明步骤S1~S3的方法提取出涉密特征,将涉密特征保存起来,在有新的涉密文字语句时,再采用本发明步骤S1~S3的方法提取出涉密特征,再将新的涉密特征保存起来,便于用于与待识别文字语句的待识别特征进行比对。
如图2所示,所述S3中特征提取模型包括:第一卷积特征提取网络1、第二卷积特征提取网络2、第三卷积特征提取网络3、特征融合单元4、第一时间递归网络和第二时间递归网络;
所述第一卷积特征提取网络1的输入端分别与第二卷积特征提取网络2的输入端、第三卷积特征提取网络3的输入端和特征融合单元4的第四输入端连接,并作为特征提取模型的输入端,用于输入待识别词组矩阵或涉密词组矩阵;所述特征融合单元4的第一输入端与第一卷积特征提取网络1的输出端连接,其第二输入端与第二卷积特征提取网络2的输出端连接,其第三输入端与第三卷积特征提取网络3的输出端连接,其输出端与第一时间递归网络的输入端连接;所述第一时间递归网络的输出端与第二时间递归网络的输入端连接;所述第二时间递归网络的输出端作为特征提取模型的输出端。
每个所述卷积特征提取网络均包括:卷积层、全局平均池化层、全局最大池化层和Concat层;
所述卷积层的输入端作为卷积特征提取网络的输入端,其输出端分别与全局平均池化层的输入端和全局最大池化层的输入端连接;所述Concat层的输入端分别与全局平均池化层的输出端和全局最大池化层的输出端连接,其输出端作为卷积特征提取网络的输出端。
在本实施例中,如图2所示,第一卷积层的卷积核大小为1*1,第二卷积层的卷积核大小为3*3,第三卷积层的卷积核大小为5*5,通过不同大小的卷积核提取不同特征,实现对特征的深度提取。C1为第一Concat层,C2为第二Concat层,C3为第三Concat层。
本发明中设置四条路径用于特征在空间位置的融合,通过三个卷积层分别提取不同特征,再设置全局最大池化层提取显著特征,设置平均池化层提取整体特征,这三条路径实现对不同特征进行提取,Concat层将提取后的特征进行拼接,在第一个乘法器处,实现两条路径上的特征在空间位置的融合,为了避免信息丢失和损耗的问题,第四条路径直接将输入连接到第二转置层,保护信息的完整性,解决网络过深所引起的梯度消失问题和退化问题。
所述特征融合单元4包括:第一转置层、第二转置层、第一乘法器、第二乘法器和加法器;
所述第一转置层的输入端作为特征融合单元4的第一输入端,其输出端与第一乘法器的第一输入端连接;所述第一乘法器的第二输入端作为特征融合单元4的第二输入端,其输出端与加法器的第一输入端连接;所述第二转置层的输入端作为特征融合单元4的第四输入端;所述第二乘法器的第一输入端作为特征融合单元4的第三输入端,其第二输入端与第二转置层的输出端连接,其输出端与加法器的第二输入端连接;所述加法器的输出端作为特征融合单元4的输出端。
所述时间递归网络的表达式为:
其中,为时间递归网络第/>时刻的输出,/>为双曲正切激活函数,/>为中间变量,/>为时间递归网络第/>时刻的输入,/>为哈达玛积,/>为时间递归网络第/>时刻的输出,/>为输入权重,/>为输入偏置,/>为输出权重,/>为输出偏置,/>为传输权重,/>为传输偏置,/>为S形激活函数。
在本实施例中,第一时间递归网络和第二时间递归网络均为上述表达式,对于第一时间递归网络,其输入来源于特征融合单元4的输出。对于第二时间递归网络,其输入来源于第一时间递归网络的输出,同时,在每个时间递归网络中当前时刻的输出会在下一次时刻输入到自身网络中,实现对数据的记忆,将第二时间递归网络的输出作为特征提取模型的最终输出。
本发明利用时间递归网络的记忆性更好的提取用户语义,本发明的时间递归网络的输入包括:和/>,对/>和/>分别赋予权重和偏置,从而实现对/>和/>分别进行控制,再采用/>激活函数选择/>和/>提取的部分,在输出时,建立/>、/>和与输出/>的模型关系,使得输出充分考虑/>和/>,提高特征提取的精度。
在本发明步骤S3中的特征提取模型为提前训练好的模型,本发明中的特征提取模型仅需训练至对于不同的文字语句,特征提取模型能提取得到不同的特征,无需特征提取模型来进行分类。
所述S3中特征提取模型的损失函数为:
其中,为特征提取模型第/>次训练时损失函数的输出,/>为特征提取模型第次训练时的输出,/>为特征提取模型第/>次训练时的标签,/>为自然对数,/>为指数系数。
本发明中采用标签的平方和输出的平方减去二倍标签和输出的乘积,从而体现出标签与输出的差距,同时为了使得训练时,模型训练速度快,模型快速收敛,本发明还设置了指数系数,在指数系数中通过比值来体现两者的差距,在比值越大时,两者差距越大,在比值等于1时,输出与标签相等,即本发明通过输出与标签在数据上差距体现两者差距,再通过比值反应差距的程度,将比值通过指数函数放大后作用于差距上,进一步地使得损失值增加,从而达到快速训练特征提取模型的目的。
S4、根据待识别特征和涉密特征的相似程度值,计算待识别文字语句和涉密文字语句的相似度,在相似度大于相似阈值时,待识别文字语句为涉密信息,剔除待识别文字语句。
所述S4中计算相似度的公式为:
其中,为待识别文字语句和涉密文字语句的相似度,/>为第/>个待识别特征的相似程度值,/>为待识别文字语句对应的待识别特征的数量,/>为待识别文字语句对应的待识别特征中相似程度值大于等于0.5的待识别特征的数量,/>为待识别文字语句对应的待识别特征中相似程度值小于0.5的待识别特征的数量。
本发明中将待识别文字语句中每个待识别特征的相似程度值进行叠加,体现整个文字语句与涉密文字语句的相似情况,同时,统计相似程度值大于等于0.5的待识别特征的数量和相似程度值小于0.5的待识别特征的数量,将两者数量的差距作为相似情况的指数,使得各个文字语句的相似度区别明显,更容易判断出文字语句是否为涉密信息,在大于等于/>时,即相似的短句占比更多,因此,该文字语句更容易被判定为涉密信息,在/>小于,即不相似的短句占比更多,该文字语句更容易被判定为非涉密信息,在/>越小于/>时,该文字语句的相似度越低。
所述待识别特征的相似程度值的计算公式为:
其中,为取序列的最大值,/>为第/>个待识别特征,/>为第1个涉密特征,/>为第/>个涉密特征,/>为第/>个涉密特征,/>为涉密文字语句中对应的涉密特征的数量。
本发明中将每个待识别特征分别与涉密文字语句的多个涉密特征依次进行比对,计算相似程度值,挑选出最大相似程度值,实现全面的比对,提高语句屏蔽精度。
综上,本发明实施例的有益效果为:本发明中先根据标点符号将待识别文字语句划分为多个短句,并将每个短句进行分词处理,得到短句词组,再将得到的短句词组进行向量化处理,得到词组矩阵,采用特征提取模型提取词组矩阵的特征,减少数据量,依次计算每个待识别特征和涉密文字语句中所有涉密特征的相似程度值,从而得到待识别文字语句和涉密文字语句的相似度,实现文字语句的全面对比,提高语句屏蔽精度。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于NLP的涉密屏蔽方法,其特征在于,包括以下步骤:
S1、将待识别文字语句和涉密文字语句分别根据标点符号划分为多个短句,并将每个短句进行分词处理,得到待识别短句词组和涉密短句词组;
S2、将待识别短句词组和涉密短句词组分别进行向量化处理,得到待识别词组矩阵和涉密词组矩阵;
S3、采用特征提取模型分别提取待识别词组矩阵和涉密词组矩阵的特征,得到待识别特征和涉密特征;
S4、根据待识别特征和涉密特征的相似程度值,计算待识别文字语句和涉密文字语句的相似度,在相似度大于相似阈值时,待识别文字语句为涉密信息,剔除待识别文字语句;
所述S3中特征提取模型包括:第一卷积特征提取网络(1)、第二卷积特征提取网络(2)、第三卷积特征提取网络(3)、特征融合单元(4)、第一时间递归网络和第二时间递归网络;
所述第一卷积特征提取网络(1)的输入端分别与第二卷积特征提取网络(2)的输入端、第三卷积特征提取网络(3)的输入端和特征融合单元(4)的第四输入端连接,并作为特征提取模型的输入端,用于输入待识别词组矩阵或涉密词组矩阵;所述特征融合单元(4)的第一输入端与第一卷积特征提取网络(1)的输出端连接,其第二输入端与第二卷积特征提取网络(2)的输出端连接,其第三输入端与第三卷积特征提取网络(3)的输出端连接,其输出端与第一时间递归网络的输入端连接;所述第一时间递归网络的输出端与第二时间递归网络的输入端连接;所述第二时间递归网络的输出端作为特征提取模型的输出端;
每个所述卷积特征提取网络均包括:卷积层、全局平均池化层、全局最大池化层和Concat层;
所述卷积层的输入端作为卷积特征提取网络的输入端,其输出端分别与全局平均池化层的输入端和全局最大池化层的输入端连接;所述Concat层的输入端分别与全局平均池化层的输出端和全局最大池化层的输出端连接,其输出端作为卷积特征提取网络的输出端;
所述特征融合单元(4)包括:第一转置层、第二转置层、第一乘法器、第二乘法器和加法器;
所述第一转置层的输入端作为特征融合单元(4)的第一输入端,其输出端与第一乘法器的第一输入端连接;所述第一乘法器的第二输入端作为特征融合单元(4)的第二输入端,其输出端与加法器的第一输入端连接;所述第二转置层的输入端作为特征融合单元(4)的第四输入端;所述第二乘法器的第一输入端作为特征融合单元(4)的第三输入端,其第二输入端与第二转置层的输出端连接,其输出端与加法器的第二输入端连接;所述加法器的输出端作为特征融合单元(4)的输出端。
2.根据权利要求1所述的基于NLP的涉密屏蔽方法,其特征在于,所述时间递归网络的表达式为:
,
,
其中,为时间递归网络第/>时刻的输出,/>为双曲正切激活函数,/>为中间变量,为时间递归网络第/>时刻的输入,/>为哈达玛积,/>为时间递归网络第/>时刻的输出,/>为输入权重,/>为输入偏置,/>为输出权重,/>为输出偏置,/>为传输权重,/>为传输偏置,/>为S形激活函数。
3.根据权利要求1所述的基于NLP的涉密屏蔽方法,其特征在于,所述S3中特征提取模型的损失函数为:
,
,其中,/>为特征提取模型第/>次训练时损失函数的输出,/>为特征提取模型第/>次训练时的输出,/>为特征提取模型第/>次训练时的标签,/>为自然对数,/>为指数系数。
4.根据权利要求1所述的基于NLP的涉密屏蔽方法,其特征在于,所述S4中计算相似度的公式为:
,其中,/>为待识别文字语句和涉密文字语句的相似度,/>为第/>个待识别特征的相似程度值,/>为待识别文字语句对应的待识别特征的数量,/>为待识别文字语句对应的待识别特征中相似程度值大于等于0.5的待识别特征的数量,/>为待识别文字语句对应的待识别特征中相似程度值小于0.5的待识别特征的数量。
5.根据权利要求4所述的基于NLP的涉密屏蔽方法,其特征在于,所述待识别特征的相似程度值的计算公式为:
,
其中,为取序列的最大值,/>为第/>个待识别特征,/>为第1个涉密特征,/>为第个涉密特征,/>为第/>个涉密特征,/>为涉密文字语句中对应的涉密特征的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310603451.3A CN116361839B (zh) | 2023-05-26 | 2023-05-26 | 一种基于nlp的涉密屏蔽方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310603451.3A CN116361839B (zh) | 2023-05-26 | 2023-05-26 | 一种基于nlp的涉密屏蔽方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361839A CN116361839A (zh) | 2023-06-30 |
CN116361839B true CN116361839B (zh) | 2023-07-28 |
Family
ID=86939892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310603451.3A Active CN116361839B (zh) | 2023-05-26 | 2023-05-26 | 一种基于nlp的涉密屏蔽方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361839B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688137B (zh) * | 2024-01-31 | 2024-04-12 | 成都航空职业技术学院 | 应用于汽车营销管理系统软件的数据分析方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797998A (zh) * | 2016-08-29 | 2018-03-13 | 腾讯科技(深圳)有限公司 | 含谣言用户生成内容识别方法和装置 |
CN110213244A (zh) * | 2019-05-15 | 2019-09-06 | 杭州电子科技大学 | 一种基于时空特征融合的网络入侵检测方法 |
CN111427995A (zh) * | 2020-02-26 | 2020-07-17 | 平安科技(深圳)有限公司 | 基于内部对抗机制的语义匹配方法、装置及存储介质 |
CN112749274A (zh) * | 2019-10-30 | 2021-05-04 | 中南大学 | 基于注意力机制和干扰词删除的中文文本分类方法 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN114329225A (zh) * | 2022-01-24 | 2022-04-12 | 平安国际智慧城市科技股份有限公司 | 基于搜索语句的搜索方法、装置、设备及存储介质 |
CN114328807A (zh) * | 2021-08-24 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN115422944A (zh) * | 2022-09-01 | 2022-12-02 | 深圳市人马互动科技有限公司 | 语义识别方法、装置、设备及存储介质 |
CN115687701A (zh) * | 2021-07-23 | 2023-02-03 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法 |
-
2023
- 2023-05-26 CN CN202310603451.3A patent/CN116361839B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797998A (zh) * | 2016-08-29 | 2018-03-13 | 腾讯科技(深圳)有限公司 | 含谣言用户生成内容识别方法和装置 |
CN110213244A (zh) * | 2019-05-15 | 2019-09-06 | 杭州电子科技大学 | 一种基于时空特征融合的网络入侵检测方法 |
CN112749274A (zh) * | 2019-10-30 | 2021-05-04 | 中南大学 | 基于注意力机制和干扰词删除的中文文本分类方法 |
CN111427995A (zh) * | 2020-02-26 | 2020-07-17 | 平安科技(深圳)有限公司 | 基于内部对抗机制的语义匹配方法、装置及存储介质 |
CN115687701A (zh) * | 2021-07-23 | 2023-02-03 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本处理方法 |
CN114328807A (zh) * | 2021-08-24 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置、设备及存储介质 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN114329225A (zh) * | 2022-01-24 | 2022-04-12 | 平安国际智慧城市科技股份有限公司 | 基于搜索语句的搜索方法、装置、设备及存储介质 |
CN115422944A (zh) * | 2022-09-01 | 2022-12-02 | 深圳市人马互动科技有限公司 | 语义识别方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Cross Domain Hybrid Feature Fusion Based Sarcastic Opinion Recognition Over E-Commerce Reviews Using Adversarial Transfer Learning;Parvati Kadli;《Intelligent Engineering & Systems》;152-165 * |
Joint entity relation of Chinese electronic medical record based on graph convolutional neural network and word for relationship discovery;Q. Zhao;《Jiangsu Annual Conference on Automation(JACA 2022)》;8-16 * |
Also Published As
Publication number | Publication date |
---|---|
CN116361839A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188781B (zh) | 一种基于深度学习的古诗文自动识别方法 | |
CN106598959B (zh) | 一种确定双语语句对互译关系方法及系统 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN111259151B (zh) | 一种混合文本敏感词变体识别方法和装置 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN116361839B (zh) | 一种基于nlp的涉密屏蔽方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN102122297A (zh) | 一种基于语义的汉语网络文本情感提取方法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN110222338B (zh) | 一种机构名实体识别方法 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN107977353A (zh) | 一种基于lstm-cnn的混合语料命名实体识别方法 | |
CN112100365A (zh) | 双阶段文本摘要方法 | |
Gangadharan et al. | Paraphrase detection using deep neural network based word embedding techniques | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
Gupta | Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN113065350A (zh) | 一种基于注意力神经网络的生物医学文本词义消岐方法 | |
CN115204164B (zh) | 一种电力系统通信敏感信息识别方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |