CN115935972A

CN115935972A - 一种计算机辅助文本定密方法及装置

Info

Publication number: CN115935972A
Application number: CN202310044271.6A
Authority: CN
Inventors: 郭振涛; 梁金千; 崔培升
Original assignee: BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Current assignee: BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-04-07

Abstract

本发明公开了一种计算机辅助文本定密方法及装置，涉及数据处理技术领域，包括：获取已定密文本、待定密文本和涉密关键词；对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量；根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量；计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数；根据所述每个句向量的TextRank分数，计算所述每篇文本文档的TextRank分数；根据所述每篇文本文档的TextRank分数，将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。本发明定密准确率高、解释性强、易于实现。

Description

一种计算机辅助文本定密方法及装置

技术领域

本发明涉及计算机信息安全技术领域，特别涉及一种计算机辅助文本定密方法及装置。

背景技术

在实际的文本定密工作中，目前所采用的技术方案绝大部分都是基于涉密关键词的统计分析定密，即统计文本中涉密关键词出现的次数和频率，文本中涉密关键词出现的次数和频率越高，则该文本就越有可能被定为相应密级；或者给定相应密级的涉密关键词，文本中若出现这些涉密关键词，则该文本就被定密为该密级。这种涉密关键词的统计分析方法存在定密复杂、效率低下、主观性较强、可解释性差的缺点。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明提供了一种计算机辅助文本定密方法及装置，通过构建基于涉密关键词和词性的文本句向量，采用TextRank算法计算句向量的分数，然后计算每篇文本文档所有句向量TextRank分数的均值，即每篇文本文档的TextRank分数，最后将待定密文本的密级定为与之文本TextRank分数最接近的已定密文本的密级。本发明具有准确率高、解释性强、易实现等优点。

本发明的一个方面，提供了一种计算机辅助文本定密方法，包括如下步骤：

获取已定密文本、待定密文本和涉密关键词；

对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量；

根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量；

计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数；

根据所述每个句向量的TextRank分数，计算所述每篇文本文档的TextRank分数；

根据所述每篇文本文档的TextRank分数，将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。

进一步的，通过下式构建所述句向量：

其中，

表示文本文档中的句向量，

表示句子中的涉密关键词向量，

为涉密关键词向量的权重，

表示句子中的名词向量，

为名词向量的权重，

表示非名词向量，

为非名词向量的权重，

表示句子中词的个数。

进一步的，通过下式计算每篇文本文档的每个句向量的TextRank分数：

其中，

)表示节点

的TextRank得分，

)表示节点

的TextRank得分，

为阻尼系数，在0~1之间取值，文本中的每一个句子

被作为节点

，每一个句子

被作为节点

，文本文档中第k个句子被作为节点

，

表示文档中第i个句子，

表示文本文档中第j个句子，

表示既属于

也属于

的单词，|

|表示句子

的单词个数，|

|表示句子

的单词个数，

表示节点

与节点

之间的链接强度，

表示节点

与节点

之间的链接强度，

表示文本文档中语义关系指向节点

的节点集合，

表示节点

的语义关系指向其他节点的节点集合。

进一步的，通过下式计算每篇文本文档的TextRank分数：

其中，

为第i篇文本文档，

为该篇文本文档中句子的个数，

为第i篇文本文档的第j个句子，

为句子

的TextRank分数。

进一步的，使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。

本发明的第二方面，还提供了一种计算机辅助文本定密装置，包括如下步骤：

第一模块，被配置为获取已定密文本、待定密文本和涉密关键词；

第二模块，被配置为对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量；

第三模块，被配置为根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量；

第四模块，被配置为根据所述句向量计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句子的TextRank分数；

第五模块，被配置为根据所述每个句子的TextRank分数，计算所述每篇文本文档的TextRank分数；

第六模块，被配置为根据所述每篇文本文档的TextRank分数，将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。

进一步的，所述第三模块被配置为通过下式构建所述句向量：

其中，

表示文本文档中的句向量，

表示句子中的涉密关键词向量，

为涉密关键词向量的权重，

表示句子中的名词向量，

为名词向量的权重，

表示非名词向量，

为非名词向量的权重，

表示句子中词的个数。

进一步的，所述第四模块被配置为通过下式计算每篇文本文档的每个句子的TextRank分数：

其中，

)表示节点

的TextRank得分，

)表示节点

的TextRank得分，

为阻尼系数，在0~1之间取值，文本中的每一个句子

被作为节点

，每一个句子

被作为节点

，文本文档中第k个句子被作为节点

，

表示文档中第i个句子，

表示文本文档中第j个句子，

表示既属于

也属于

的单词，|

|表示句子

的单词个数，|

|表示句子

的单词个数，

表示节点

与节点

之间的链接强度，

表示节点

与节点

之间的链接强度，

表示文本文档中语义关系指向节点

的节点集合，

表示节点

的语义关系指向其他节点的节点集合。

进一步的，所述第五模块被配置为通过下式计算每篇文本文档的TextRank分数：

其中，

为第i篇文本文档，

为该篇文本文档中句子的个数，

为第i篇文本文档的第j个句子，

为句子

的TextRank分数。

进一步的，所述第二模块被配置为使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。

本发明提供的一种计算机辅助文本定密方法及装置，充分考虑了涉密关键词和名词在文本定密中的重要作用，具有准确率高、解释性强、易实现等优点。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请一个实施例提供的一种计算机辅助文本定密方法的流程图；

图2是本申请另一个实施例提供的一种计算机辅助文本定密装置的逻辑结构图；

图3是本申请另一个实施例提供电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要注意的是，本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。

本实施例提出了一种计算机辅助文本定密方法，通过构建基于涉密关键词和词性的文本句向量，采用TextRank算法计算句向量的分数，然后计算每篇文本文档所有句向量TextRank分数的均值，即每篇文本文档的TextRank分数，最后将待定密文本的密级定为与之文本TextRank分数最接近的已定密文本的密级，其定密准确率高、解释性强、易于实现。该方法包括如下步骤：

步骤S101，获取已定密文本、待定密文本和涉密关键词。

其中，已定密文本是已经确定密级的一篇或多篇文本，待定密文本是未确定密级的一篇或多篇文本，涉密关键词是与保密等级相关的词汇。

步骤S102，对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。

具体的，对已定密文本和待定密文本进行文本预处理，包括但不限于如下操作：对每一篇文本文档进行句子级别的文本分割，然后再进行分词、去停用词处理。进一步的，使用Word2Vec模型构建词向量，Word2Vec模型本质是一个轻量级的神经级的神经网络，其能够把自然语言中的每一个词，表示成一个统一意义统一维度的词向量。

步骤S103，根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量。

在传统的文本定密方法中，大多数都是根据涉密关键词在文本中出现的次数以及所占文本总词数的比例来进行定密。虽然这种方法简单、易于理解和操作，但是忽略了文本中可能会出现与涉密关键词具有相似表达的名词问题，这种情况下虽然文本未出现涉密关键词，但是语句表达的含义仍然具有涉密性。考虑到上述情况，为了体现涉密关键词和名词在文本中的语义重要性，保留其语义信息，本发明在构建文本句向量时提出基于涉密关键词、名词和非名词词性的加权句向量。

具体的，根据已定密文本和待定密文本中每篇文本文档句子中的涉密关键词、名词和非名词的词向量来构建句向量，构建方法如下：

其中，

表示文本文档中的句向量，

表示句子中的涉密关键词向量，

为涉密关键词向量的权重，

表示句子中的名词向量，

为名词向量的权重，

表示非名词向量，

为非名词向量的权重，

表示句子中词的个数。

通过适当提高α值与β值即可增加涉密关键词向量和名词向量的权重，获得文本句向量。通常情况下将α，β，γ分别设置为0.6，0.3和0.1，考虑到实际业务场景，可以适当调整上述权重值，以使文本定密的精确率、召回率均在0.9甚至0.95以上。

该步骤通过构建基于涉密关键词和词性的文本句向量，增加了涉密关键词、名词、非名词的权重，保留了文本语义，减少了不重要的其他词汇的干扰性。

步骤S104，计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句向量的TextRank分数。

具体的，通过TextRank算法计算每个句子的分数。在本发明中，每个句子的TextRank分数即表明各个句子之间的联系。TextRank算法是一种根据PageRank算法改进而来的、用于文本的基于图的排序算法。通过把已定密或未定密的文本分割成若干组成节点，例如单词、句子，并建立图模型，根据节点的TextRank得分对文本中的节点进行排序，仅利用单篇文档本身的信息即可实现涉密关键词、句的提取。与LDA、HMM 等模型不同，TextRank算法不需要事先对多篇文档进行学习训练，使用较为简洁、高效。TextRank算法是将文本解析成单词/句子节点，节点之间的关系不仅是简单的指向和被指向关系，而是通过一个权重

来表示节点V_i与节点V_j之间的链接强度，因此是一个带权的无向图。In(V_i)表示文本文档中语义关系指向节点V_i的节点集合，Out(V_j)表示节点V_j的语义关系指向其他节点的节点集合，此时In(V_i)= Out(V_i)=全体词语/句子集合。

计算每篇文本文档的每个句子的TextRank分数的公式如下所示:

其中，

)表示节点

的TextRank得分，

)表示节点

的TextRank得分，

为阻尼系数，在0~1之间取值，文本中的每一个句子

被作为节点

，每一个句子

被作为节点

，文本文档中第k个句子被作为节点

，

表示文档中第i个句子，

表示文本文档中第j个句子，

表示既属于

也属于

的单词，|

|表示句子

的单词个数，|

|表示句子

的单词个数，

表示节点

与节点

之间的链接强度，

表示节点

与节点

之间的链接强度，

表示文本文档中语义关系指向节点

的节点集合，

表示节点

的语义关系指向其他节点的节点集合。步骤S105，根据所述每个句向量的TextRank分数，计算所述每篇文本文档的TextRank分数。

具体的，根据句子的TextRank分数计算文本的TextRank分数。通过下式计算每篇文本文档的TextRank分数：

其中，

为第i篇文本文档，

为该篇文本文档中句子的个数，

为第i篇文本文档的第j个句子，

为句子

的TextRank分数。

步骤S106，根据所述每篇文本文档的TextRank分数，将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。

具体的，步骤S105中获得了已定密文本和待定密文本中每篇文本的TextRank分数，比较每篇已定密文本和待定密文本的TextRank分数，将待定密文本定密为与其分数最为接近的已定密文本的相应密级。例如，计算出了10篇已定密文本的TextRank分数和1篇待定密文本的TextRank分数，那么该篇待定密文本的密级就确定为与该篇待定密文本的TextRank分数最为接近的1篇已定密文本的TextRank分数。

参见图2，本发明的另一实施例还提供了一种计算机辅助文本定密装置200，包括第一模块201、第二模块202、第三模块203、第四模块204、第五模块205和第六模块206，该计算机辅助文本定密装置200能够执行上述方法实施例中的诸步骤。

具体的，计算机辅助文本定密装置200包括：

第一模块201，被配置为获取已定密文本、待定密文本和涉密关键词；

第二模块202，被配置为对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量；

第三模块203，被配置为根据所述已定密文本和所述待定密文本中的每篇文本文档的所述词向量构建句向量；

第四模块204，被配置为根据所述句向量计算所述已定密文本和所述待定密文本中的每篇文本文档的每个句子的TextRank分数；

第五模块205，被配置为根据所述每个句子的TextRank分数，计算所述每篇文本文档的TextRank分数；

第六模块206，被配置为根据所述每篇文本文档的TextRank分数，将所述待定密文本定密为与其分数最为接近的所述已定密文本的相应密级。

进一步的，第三模块203被配置为通过下式构建所述句向量：

其中，

表示文本文档中的句向量，

表示句子中的涉密关键词向量，

为涉密关键词向量的权重，

表示句子中的名词向量，

为名词向量的权重，

表示非名词向量，

为非名词向量的权重，

表示句子中词的个数。

进一步的，第四模块204被配置为通过下式计算每篇文本文档的每个句子的TextRank分数：

其中，

)表示节点

的TextRank得分，

)表示节点

的TextRank得分，

为阻尼系数，在0~1之间取值，文本中的每一个句子

被作为节点

，每一个句子

被作为节点

，文本文档中第k个句子被作为节点

，

表示文档中第i个句子，

表示文本文档中第j个句子，

表示既属于

也属于

的单词，|

|表示句子

的单词个数，|

|表示句子

的单词个数，

表示节点

与节点

之间的链接强度，

表示节点

与节点

之间的链接强度，

表示文本文档中语义关系指向节点

的节点集合，

表示节点

进一步的，第五模块205被配置为通过下式计算每篇文本文档的TextRank分数：

其中，

为第i篇文本文档，

为该篇文本文档中句子的个数，

为第i篇文本文档的第j个句子，

为句子

的TextRank分数。

进一步的，第二模块202被配置为使用Word2Vec模型对所述已定密文本和所述待定密文本中的每篇文本文档构建统一的词向量。

需要说明的是，本实施例提供的计算机辅助文本定密装置200对应的可用于执行各方法实施例的技术方案，其实现原理和技术效果与方法类似，此处不再赘述。

参见图3，本发明的另一实施例，提供了一种电子设备的结构示意图。该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器能够实现上述方法实施例中的各个步骤。

下面具体参考图3，其示出了适于用来实现本发明实施例中的电子设备300的结构示意图，该电子设备300可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备300可以包括处理装置（例如中央处理器、图形处理器等）301，其可以根据存储在只读存储器（ROM）302中的程序或者从存储装置308加载到随机访问存储器（RAM）303中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM303中，还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM302以及RAM 303通过总线304彼此相连。输入/输出（I/O）接口305也连接至总线304。

通常，以下装置可以连接至I/O接口305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置307；包括例如磁带、硬盘等的存储装置308；以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。