CN115935972A - 一种计算机辅助文本定密方法及装置 - Google Patents

一种计算机辅助文本定密方法及装置 Download PDF

Info

Publication number
CN115935972A
CN115935972A CN202310044271.6A CN202310044271A CN115935972A CN 115935972 A CN115935972 A CN 115935972A CN 202310044271 A CN202310044271 A CN 202310044271A CN 115935972 A CN115935972 A CN 115935972A
Authority
CN
China
Prior art keywords
text
sentence
vector
node
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310044271.6A
Other languages
English (en)
Inventor
郭振涛
梁金千
崔培升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Original Assignee
BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD filed Critical BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202310044271.6A priority Critical patent/CN115935972A/zh
Publication of CN115935972A publication Critical patent/CN115935972A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种计算机辅助文本定密方法及装置,涉及数据处理技术领域,包括:获取已定密文本、待定密文本和涉密关键词;对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量;根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量;计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数;根据所述每个句向量的TextRank分数,计算所述每篇文本文档的TextRank分数;根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。本发明定密准确率高、解释性强、易于实现。

Description

一种计算机辅助文本定密方法及装置
技术领域
本发明涉及计算机信息安全技术领域,特别涉及一种计算机辅助文本定密方法及装置。
背景技术
在实际的文本定密工作中,目前所采用的技术方案绝大部分都是基于涉密关键词的统计分析定密,即统计文本中涉密关键词出现的次数和频率,文本中涉密关键词出现的次数和频率越高,则该文本就越有可能被定为相应密级;或者给定相应密级的涉密关键词,文本中若出现这些涉密关键词,则该文本就被定密为该密级。这种涉密关键词的统计分析方法存在定密复杂、效率低下、主观性较强、可解释性差的缺点。
发明内容
鉴于现有技术中的上述缺陷或不足,本发明提供了一种计算机辅助文本定密方法及装置,通过构建基于涉密关键词和词性的文本句向量,采用TextRank算法计算句向量的分数,然后计算每篇文本文档所有句向量TextRank分数的均值,即每篇文本文档的TextRank分数,最后将待定密文本的密级定为与之文本TextRank分数最接近的已定密文本的密级。本发明具有准确率高、解释性强、易实现等优点。
本发明的一个方面,提供了一种计算机辅助文本定密方法,包括如下步骤:
获取已定密文本、待定密文本和涉密关键词;
对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量;
根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量;
计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数;
根据所述每个句向量的TextRank分数,计算所述每篇文本文档的TextRank分数;
根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。
进一步的,通过下式构建所述句向量:
Figure SMS_1
Figure SMS_2
其中,
Figure SMS_4
表示文本文档中的句向量,
Figure SMS_6
表示句子中的涉密关键词向量,
Figure SMS_8
为涉密关键词向量的权重,
Figure SMS_5
表示句子中的名词向量,
Figure SMS_7
为名词向量的权重,
Figure SMS_9
表示非名词向量,
Figure SMS_10
为非名词向量的权重,
Figure SMS_3
表示句子中词的个数。
进一步的,通过下式计算每篇文本文档的每个句向量的TextRank分数:
Figure SMS_11
Figure SMS_12
其中,
Figure SMS_15
)表示节点
Figure SMS_23
的TextRank得分,
Figure SMS_31
)表示节点
Figure SMS_14
的TextRank得分,
Figure SMS_22
为阻尼系数,在0~1之间取值,文本中的每一个句子
Figure SMS_30
被作为节点
Figure SMS_37
,每一个句子
Figure SMS_20
被作为节点
Figure SMS_26
,文本文档中第k个句子被作为节点
Figure SMS_33
Figure SMS_38
表示文档中第i个句子,
Figure SMS_17
表示文本文档中第j个句子,
Figure SMS_25
表示既属于
Figure SMS_34
也属于
Figure SMS_40
的单词,|
Figure SMS_16
|表示句子
Figure SMS_24
的单词个数,|
Figure SMS_32
|表示句子
Figure SMS_39
的单词个数,
Figure SMS_13
表示节点
Figure SMS_21
与节点
Figure SMS_29
之间的链接强度,
Figure SMS_36
表示节点
Figure SMS_19
与节点
Figure SMS_27
之间的链接强度,
Figure SMS_35
表示文本文档中语义关系指向节点
Figure SMS_41
的节点集合,
Figure SMS_18
表示节点
Figure SMS_28
的语义关系指向其他节点的节点集合。
进一步的,通过下式计算每篇文本文档的TextRank分数:
Figure SMS_42
其中,
Figure SMS_43
为第i篇文本文档,
Figure SMS_44
为该篇文本文档中句子的个数,
Figure SMS_45
为第i篇文本文档的第j个句子,
Figure SMS_46
为句子
Figure SMS_47
的TextRank分数。
进一步的,使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。
本发明的第二方面,还提供了一种计算机辅助文本定密装置,包括如下步骤:
第一模块,被配置为获取已定密文本、待定密文本和涉密关键词;
第二模块,被配置为对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量;
第三模块,被配置为根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量;
第四模块,被配置为根据所述句向量计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句子的TextRank分数;
第五模块,被配置为根据所述每个句子的TextRank分数,计算所述每篇文本文档的TextRank分数;
第六模块,被配置为根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。
进一步的,所述第三模块被配置为通过下式构建所述句向量:
Figure SMS_48
Figure SMS_49
其中,
Figure SMS_51
表示文本文档中的句向量,
Figure SMS_53
表示句子中的涉密关键词向量,
Figure SMS_55
为涉密关键词向量的权重,
Figure SMS_52
表示句子中的名词向量,
Figure SMS_54
为名词向量的权重,
Figure SMS_56
表示非名词向量,
Figure SMS_57
为非名词向量的权重,
Figure SMS_50
表示句子中词的个数。
进一步的,所述第四模块被配置为通过下式计算每篇文本文档的每个句子的TextRank分数:
Figure SMS_58
Figure SMS_59
其中,
Figure SMS_67
)表示节点
Figure SMS_68
的TextRank得分,
Figure SMS_76
)表示节点
Figure SMS_61
的TextRank得分,
Figure SMS_69
为阻尼系数,在0~1之间取值,文本中的每一个句子
Figure SMS_77
被作为节点
Figure SMS_83
,每一个句子
Figure SMS_62
被作为节点
Figure SMS_74
,文本文档中第k个句子被作为节点
Figure SMS_81
Figure SMS_87
表示文档中第i个句子,
Figure SMS_63
表示文本文档中第j个句子,
Figure SMS_70
表示既属于
Figure SMS_78
也属于
Figure SMS_84
的单词,|
Figure SMS_65
|表示句子
Figure SMS_75
的单词个数,|
Figure SMS_82
|表示句子
Figure SMS_88
的单词个数,
Figure SMS_60
表示节点
Figure SMS_71
与节点
Figure SMS_80
之间的链接强度,
Figure SMS_86
表示节点
Figure SMS_66
与节点
Figure SMS_72
之间的链接强度,
Figure SMS_79
表示文本文档中语义关系指向节点
Figure SMS_85
的节点集合,
Figure SMS_64
表示节点
Figure SMS_73
的语义关系指向其他节点的节点集合。
进一步的,所述第五模块被配置为通过下式计算每篇文本文档的TextRank分数:
Figure SMS_89
其中,
Figure SMS_90
为第i篇文本文档,
Figure SMS_91
为该篇文本文档中句子的个数,
Figure SMS_92
为第i篇文本文档的第j个句子,
Figure SMS_93
为句子
Figure SMS_94
的TextRank分数。
进一步的,所述第二模块被配置为使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。
本发明提供的一种计算机辅助文本定密方法及装置,充分考虑了涉密关键词和名词在文本定密中的重要作用,具有准确率高、解释性强、易实现等优点。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请一个实施例提供的一种计算机辅助文本定密方法的流程图;
图2是本申请另一个实施例提供的一种计算机辅助文本定密装置的逻辑结构图;
图3是本申请另一个实施例提供电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块,但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要注意的是,本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的,不应理解为对本发明实施例的限定。此外在上下文中,还需要理解的是,当提到一个元件被形成在另一个元件“上”或“下”时,其不仅能够直接形成在另一个元件“上”或者“下”,也可以通过中间元件间接形成在另一元件“上”或者“下”。
本实施例提出了一种计算机辅助文本定密方法,通过构建基于涉密关键词和词性的文本句向量,采用TextRank算法计算句向量的分数,然后计算每篇文本文档所有句向量TextRank分数的均值,即每篇文本文档的TextRank分数,最后将待定密文本的密级定为与之文本TextRank分数最接近的已定密文本的密级,其定密准确率高、解释性强、易于实现。该方法包括如下步骤:
步骤S101,获取已定密文本、待定密文本和涉密关键词。
其中,已定密文本是已经确定密级的一篇或多篇文本,待定密文本是未确定密级的一篇或多篇文本,涉密关键词是与保密等级相关的词汇。
步骤S102,对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。
具体的,对已定密文本和待定密文本进行文本预处理,包括但不限于如下操作:对每一篇文本文档进行句子级别的文本分割,然后再进行分词、去停用词处理。进一步的,使用Word2Vec模型构建词向量,Word2Vec模型本质是一个轻量级的神经级的神经网络,其能够把自然语言中的每一个词,表示成一个统一意义统一维度的词向量。
步骤S103,根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量。
在传统的文本定密方法中,大多数都是根据涉密关键词在文本中出现的次数以及所占文本总词数的比例来进行定密。虽然这种方法简单、易于理解和操作,但是忽略了文本中可能会出现与涉密关键词具有相似表达的名词问题,这种情况下虽然文本未出现涉密关键词,但是语句表达的含义仍然具有涉密性。考虑到上述情况,为了体现涉密关键词和名词在文本中的语义重要性,保留其语义信息,本发明在构建文本句向量时提出基于涉密关键词、名词和非名词词性的加权句向量。
具体的,根据已定密文本和待定密文本中每篇文本文档句子中的涉密关键词、名词和非名词的词向量来构建句向量,构建方法如下:
Figure SMS_95
Figure SMS_96
其中,
Figure SMS_99
表示文本文档中的句向量,
Figure SMS_101
表示句子中的涉密关键词向量,
Figure SMS_103
为涉密关键词向量的权重,
Figure SMS_98
表示句子中的名词向量,
Figure SMS_100
为名词向量的权重,
Figure SMS_102
表示非名词向量,
Figure SMS_104
为非名词向量的权重,
Figure SMS_97
表示句子中词的个数。
通过适当提高α值与β值即可增加涉密关键词向量和名词向量的权重,获得文本句向量。通常情况下将α,β,γ分别设置为0.6,0.3和0.1,考虑到实际业务场景,可以适当调整上述权重值,以使文本定密的精确率、召回率均在0.9甚至0.95以上。
该步骤通过构建基于涉密关键词和词性的文本句向量,增加了涉密关键词、名词、非名词的权重,保留了文本语义,减少了不重要的其他词汇的干扰性。
步骤S104,计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数。
具体的,通过TextRank算法计算每个句子的分数。在本发明中,每个句子的TextRank分数即表明各个句子之间的联系。TextRank算法是一种根据PageRank算法改进而来的、用于文本的基于图的排序算法。通过把已定密或未定密的文本分割成若干组成节点,例如单词、句子,并建立图模型,根据节点的TextRank得分对文本中的节点进行排序,仅利用单篇文档本身的信息即可实现涉密关键词、句的提取。与LDA、HMM 等模型不同,TextRank算法不需要事先对多篇文档进行学习训练,使用较为简洁、高效。TextRank算法是将文本解析成单词/句子节点,节点之间的关系不仅是简单的指向和被指向关系,而是通过一个权重
Figure SMS_105
来表示节点Vi与节点Vj之间的链接强度,因此是一个带权的无向图。In(Vi)表示文本文档中语义关系指向节点Vi的节点集合,Out(Vj)表示节点Vj的语义关系指向其他节点的节点集合,此时In(Vi)= Out(Vi)=全体词语/句子集合。
计算每篇文本文档的每个句子的TextRank分数的公式如下所示:
Figure SMS_106
Figure SMS_107
其中,
Figure SMS_114
)表示节点
Figure SMS_123
的TextRank得分,
Figure SMS_130
)表示节点
Figure SMS_110
的TextRank得分,
Figure SMS_119
为阻尼系数,在0~1之间取值,文本中的每一个句子
Figure SMS_126
被作为节点
Figure SMS_133
,每一个句子
Figure SMS_112
被作为节点
Figure SMS_121
,文本文档中第k个句子被作为节点
Figure SMS_128
Figure SMS_135
表示文档中第i个句子,
Figure SMS_115
表示文本文档中第j个句子,
Figure SMS_120
表示既属于
Figure SMS_127
也属于
Figure SMS_134
的单词,|
Figure SMS_113
|表示句子
Figure SMS_122
的单词个数,|
Figure SMS_129
|表示句子
Figure SMS_136
的单词个数,
Figure SMS_108
表示节点
Figure SMS_116
与节点
Figure SMS_124
之间的链接强度,
Figure SMS_131
表示节点
Figure SMS_109
与节点
Figure SMS_117
之间的链接强度,
Figure SMS_125
表示文本文档中语义关系指向节点
Figure SMS_132
的节点集合,
Figure SMS_111
表示节点
Figure SMS_118
的语义关系指向其他节点的节点集合。步骤S105,根据所述每个句向量的TextRank分数,计算所述每篇文本文档的TextRank分数。
具体的,根据句子的TextRank分数计算文本的TextRank分数。通过下式计算每篇文本文档的TextRank分数:
Figure SMS_137
其中,
Figure SMS_138
为第i篇文本文档,
Figure SMS_139
为该篇文本文档中句子的个数,
Figure SMS_140
为第i篇文本文档的第j个句子,
Figure SMS_141
为句子
Figure SMS_142
的TextRank分数。
步骤S106,根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。
具体的,步骤S105中获得了已定密文本和待定密文本中每篇文本的TextRank分数,比较每篇已定密文本和待定密文本的TextRank分数,将待定密文本定密为与其分数最为接近的已定密文本的相应密级。例如,计算出了10篇已定密文本的TextRank分数和1篇待定密文本的TextRank分数,那么该篇待定密文本的密级就确定为与该篇待定密文本的TextRank分数最为接近的1篇已定密文本的TextRank分数。
参见图2,本发明的另一实施例还提供了一种计算机辅助文本定密装置200,包括第一模块201、第二模块202、第三模块203、第四模块204、第五模块205和第六模块206,该计算机辅助文本定密装置200能够执行上述方法实施例中的诸步骤。
具体的,计算机辅助文本定密装置200包括:
第一模块201,被配置为获取已定密文本、待定密文本和涉密关键词;
第二模块202,被配置为对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量;
第三模块203,被配置为根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量;
第四模块204,被配置为根据所述句向量计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句子的TextRank分数;
第五模块205,被配置为根据所述每个句子的TextRank分数,计算所述每篇文本文档的TextRank分数;
第六模块206,被配置为根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。
进一步的,第三模块203被配置为通过下式构建所述句向量:
Figure SMS_143
Figure SMS_144
其中,
Figure SMS_146
表示文本文档中的句向量,
Figure SMS_148
表示句子中的涉密关键词向量,
Figure SMS_151
为涉密关键词向量的权重,
Figure SMS_147
表示句子中的名词向量,
Figure SMS_149
为名词向量的权重,
Figure SMS_150
表示非名词向量,
Figure SMS_152
为非名词向量的权重,
Figure SMS_145
表示句子中词的个数。
进一步的,第四模块204被配置为通过下式计算每篇文本文档的每个句子的TextRank分数:
Figure SMS_153
Figure SMS_154
其中,
Figure SMS_162
)表示节点
Figure SMS_169
的TextRank得分,
Figure SMS_177
)表示节点
Figure SMS_156
的TextRank得分,
Figure SMS_163
为阻尼系数,在0~1之间取值,文本中的每一个句子
Figure SMS_171
被作为节点
Figure SMS_178
,每一个句子
Figure SMS_160
被作为节点
Figure SMS_167
,文本文档中第k个句子被作为节点
Figure SMS_176
Figure SMS_183
表示文档中第i个句子,
Figure SMS_158
表示文本文档中第j个句子,
Figure SMS_166
表示既属于
Figure SMS_174
也属于
Figure SMS_181
的单词,|
Figure SMS_157
|表示句子
Figure SMS_164
的单词个数,|
Figure SMS_173
|表示句子
Figure SMS_179
的单词个数,
Figure SMS_155
表示节点
Figure SMS_165
与节点
Figure SMS_172
之间的链接强度,
Figure SMS_180
表示节点
Figure SMS_159
与节点
Figure SMS_168
之间的链接强度,
Figure SMS_175
表示文本文档中语义关系指向节点
Figure SMS_182
的节点集合,
Figure SMS_161
表示节点
Figure SMS_170
的语义关系指向其他节点的节点集合。步骤S105,根据所述每个句向量的TextRank分数,计算所述每篇文本文档的TextRank分数。
进一步的,第五模块205被配置为通过下式计算每篇文本文档的TextRank分数:
Figure SMS_184
其中,
Figure SMS_185
为第i篇文本文档,
Figure SMS_186
为该篇文本文档中句子的个数,
Figure SMS_187
为第i篇文本文档的第j个句子,
Figure SMS_188
为句子
Figure SMS_189
的TextRank分数。
进一步的,第二模块202被配置为使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。
需要说明的是,本实施例提供的计算机辅助文本定密装置200对应的可用于执行各方法实施例的技术方案,其实现原理和技术效果与方法类似,此处不再赘述。
参见图3,本发明的另一实施例,提供了一种电子设备的结构示意图。该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器能够实现上述方法实施例中的各个步骤。
下面具体参考图3,其示出了适于用来实现本发明实施例中的电子设备300的结构示意图,该电子设备300可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
以上描述仅为本发明的较佳实施例。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种计算机辅助文本定密方法,其特征在于,包括如下步骤:
获取已定密文本、待定密文本和涉密关键词;
对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量;
根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量;
计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数;
根据所述每个句向量的TextRank分数,计算所述每篇文本文档的TextRank分数;
根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。
2.根据权利要求1所述的一种计算机辅助文本定密方法,其特征在于,通过下式构建所述句向量:
Figure QLYQS_1
Figure QLYQS_2
其中,
Figure QLYQS_3
表示文本文档中的句向量,表示句子中的涉密关键词向量,
Figure QLYQS_4
为涉密关键词向量的权重,
Figure QLYQS_5
表示句子中的名词向量,
Figure QLYQS_6
为名词向量的权重,
Figure QLYQS_7
表示非名词向量,
Figure QLYQS_8
为非名词向量的权重,
Figure QLYQS_9
表示句子中词的个数。
3.根据权利要求1所述的一种计算机辅助文本定密方法,其特征在于,
通过下式计算每篇文本文档的每个句向量的TextRank分数:
Figure QLYQS_10
Figure QLYQS_11
其中,
Figure QLYQS_19
)表示节点
Figure QLYQS_26
的TextRank得分,
Figure QLYQS_33
)表示节点
Figure QLYQS_15
的TextRank得分,
Figure QLYQS_27
为阻尼系数,在0~1之间取值,文本中的每一个句子
Figure QLYQS_34
被作为节点
Figure QLYQS_39
,每一个句子
Figure QLYQS_13
被作为节点
Figure QLYQS_25
,文本文档中第k个句子被作为节点
Figure QLYQS_32
Figure QLYQS_40
表示文档中第i个句子,
Figure QLYQS_17
表示文本文档中第j个句子,
Figure QLYQS_21
表示既属于
Figure QLYQS_29
也属于
Figure QLYQS_36
的单词,|
Figure QLYQS_18
|表示句子
Figure QLYQS_24
的单词个数,|
Figure QLYQS_31
|表示句子
Figure QLYQS_38
的单词个数,
Figure QLYQS_12
表示节点
Figure QLYQS_20
与节点
Figure QLYQS_28
之间的链接强度,
Figure QLYQS_35
表示节点
Figure QLYQS_16
与节点
Figure QLYQS_22
之间的链接强度,
Figure QLYQS_30
表示文本文档中语义关系指向节点
Figure QLYQS_37
的节点集合,
Figure QLYQS_14
表示节点
Figure QLYQS_23
的语义关系指向其他节点的节点集合。
4.根据权利要求1所述的一种计算机辅助文本定密方法,其特征在于,通过下式计算每篇文本文档的TextRank分数:
Figure QLYQS_41
其中,
Figure QLYQS_42
为第i篇文本文档,
Figure QLYQS_43
为该篇文本文档中句子的个数,
Figure QLYQS_44
为第i篇文本文档的第j个句子,
Figure QLYQS_45
为句子
Figure QLYQS_46
的TextRank分数。
5.根据权利要求1所述的一种计算机辅助文本定密方法,其特征在于,使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。
6.一种计算机辅助文本定密装置,其特征在于,包括如下步骤:
第一模块,被配置为获取已定密文本、待定密文本和涉密关键词;
第二模块,被配置为对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量;
第三模块,被配置为根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量;
第四模块,被配置为根据所述句向量计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句子的TextRank分数;
第五模块,被配置为根据所述每个句子的TextRank分数,计算所述每篇文本文档的TextRank分数;
第六模块,被配置为根据所述每篇文本文档的TextRank分数,将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。
7.根据权利要求6所述的一种计算机辅助文本定密装置,其特征在于,所述第三模块被配置为通过下式构建所述句向量:
Figure QLYQS_47
Figure QLYQS_48
其中,
Figure QLYQS_50
表示文本文档中的句向量,
Figure QLYQS_52
表示句子中的涉密关键词向量,
Figure QLYQS_54
为涉密关键词向量的权重,
Figure QLYQS_51
表示句子中的名词向量,
Figure QLYQS_53
为名词向量的权重,
Figure QLYQS_55
表示非名词向量,
Figure QLYQS_56
为非名词向量的权重,
Figure QLYQS_49
表示句子中词的个数。
8.根据权利要求6所述的一种计算机辅助文本定密装置,其特征在于,
所述第四模块被配置为通过下式计算每篇文本文档的每个句子的TextRank分数:
Figure QLYQS_57
Figure QLYQS_58
其中,
Figure QLYQS_64
)表示节点
Figure QLYQS_71
的TextRank得分,
Figure QLYQS_79
)表示节点
Figure QLYQS_60
的TextRank得分,
Figure QLYQS_72
为阻尼系数,在0~1之间取值,文本中的每一个句子
Figure QLYQS_78
被作为节点
Figure QLYQS_85
,每一个句子
Figure QLYQS_65
被作为节点
Figure QLYQS_73
,文本文档中第k个句子被作为节点
Figure QLYQS_80
Figure QLYQS_87
表示文档中第i个句子,
Figure QLYQS_66
表示文本文档中第j个句子,
Figure QLYQS_68
表示既属于
Figure QLYQS_76
也属于
Figure QLYQS_84
的单词,|
Figure QLYQS_63
|表示句子
Figure QLYQS_74
的单词个数,|
Figure QLYQS_81
|表示句子
Figure QLYQS_86
的单词个数,
Figure QLYQS_59
表示节点
Figure QLYQS_67
与节点
Figure QLYQS_75
之间的链接强度,
Figure QLYQS_83
表示节点
Figure QLYQS_61
与节点
Figure QLYQS_69
之间的链接强度,
Figure QLYQS_77
表示文本文档中语义关系指向节点
Figure QLYQS_82
的节点集合,
Figure QLYQS_62
表示节点
Figure QLYQS_70
的语义关系指向其他节点的节点集合。
9.根据权利要求5所述的一种计算机辅助文本定密装置,其特征在于,所述第五模块被配置为通过下式计算每篇文本文档的TextRank分数:
Figure QLYQS_88
其中,
Figure QLYQS_89
为第i篇文本文档,
Figure QLYQS_90
为该篇文本文档中句子的个数,
Figure QLYQS_91
为第i篇文本文档的第j个句子,
Figure QLYQS_92
为句子
Figure QLYQS_93
的TextRank分数。
10.根据权利要求5所述的一种计算机辅助文本定密装置,其特征在于,所述第二模块被配置为使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。
CN202310044271.6A 2023-01-30 2023-01-30 一种计算机辅助文本定密方法及装置 Pending CN115935972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310044271.6A CN115935972A (zh) 2023-01-30 2023-01-30 一种计算机辅助文本定密方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310044271.6A CN115935972A (zh) 2023-01-30 2023-01-30 一种计算机辅助文本定密方法及装置

Publications (1)

Publication Number Publication Date
CN115935972A true CN115935972A (zh) 2023-04-07

Family

ID=86557856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310044271.6A Pending CN115935972A (zh) 2023-01-30 2023-01-30 一种计算机辅助文本定密方法及装置

Country Status (1)

Country Link
CN (1) CN115935972A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674251A (zh) * 2019-08-21 2020-01-10 杭州电子科技大学 一种基于语义信息的计算机辅助密点标注方法
CN111538998A (zh) * 2020-03-31 2020-08-14 北京万里红科技股份有限公司 文本定密方法和装置、电子设备及计算机可读存储介质
CN114926189A (zh) * 2022-05-30 2022-08-19 迅捷信息科技南通有限公司 一种军队固定资产标签溯源监管系统
CN114936376A (zh) * 2022-06-14 2022-08-23 中国电信股份有限公司 文本定密方法及装置、非易失性存储介质、处理器
CN115577716A (zh) * 2022-12-07 2023-01-06 北京亿赛通科技发展有限责任公司 一种基于关键词语义信息的文本密级分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674251A (zh) * 2019-08-21 2020-01-10 杭州电子科技大学 一种基于语义信息的计算机辅助密点标注方法
CN111538998A (zh) * 2020-03-31 2020-08-14 北京万里红科技股份有限公司 文本定密方法和装置、电子设备及计算机可读存储介质
CN114926189A (zh) * 2022-05-30 2022-08-19 迅捷信息科技南通有限公司 一种军队固定资产标签溯源监管系统
CN114936376A (zh) * 2022-06-14 2022-08-23 中国电信股份有限公司 文本定密方法及装置、非易失性存储介质、处理器
CN115577716A (zh) * 2022-12-07 2023-01-06 北京亿赛通科技发展有限责任公司 一种基于关键词语义信息的文本密级分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晨庚,谢四江: "基于改进的TextRank算法的计算机辅助定密研究", 计算机应用与软件 *

Similar Documents

Publication Publication Date Title
CN112256874B (zh) 模型训练方法、文本分类方法、装置、计算机设备和介质
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
Xiao et al. Real-time identification of urban rainstorm waterlogging disasters based on Weibo big data
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
US20200175397A1 (en) Method and device for training a topic classifier, and computer-readable storage medium
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
WO2022174491A1 (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN110162620B (zh) 黑产广告的检测方法、装置、服务器及存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN105069143B (zh) 提取文档中关键词的方法及装置
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN107766318A (zh) 一种关键词的抽取方法、装置及电子设备
CN111401974A (zh) 信息发送方法、装置、电子设备和计算机可读介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
US20220138424A1 (en) Domain-Specific Phrase Mining Method, Apparatus and Electronic Device
WO2023280106A1 (zh) 信息获取方法、装置、设备及介质
CN109344246B (zh) 一种电子问卷生成方法、计算机可读存储介质及终端设备
CN115577716A (zh) 一种基于关键词语义信息的文本密级分类方法及装置
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
WO2022245469A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115878761B (zh) 事件脉络生成方法、设备及介质
CN112287667A (zh) 一种文本生成方法及设备
CN116167369A (zh) 一种文本关键词提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230407