一种智能辅助定密系统中使用的语句编码方法
技术领域
本发明属于数据信息处理和分析方法技术领域,具体是针对在文本文件进行计算机辅助定密过程中,根据输入的文本数据信息进行语句编码的方法,即智能辅助定密系统中使用的语句编码方法。
背景技术
保密工作在国家安全、企业发展、个人生活因私信息等方面起着关键作用。特别是在涉及国家案件的技术研发中,涉密文档的密级对不同的审阅权限有着严格的限定。确定不同信息的是否属于国家秘密,为不同级别的信息确定密级是保密工作高效实现的基础。现有的密级标准分为“绝密”、“机密”、“秘密”三级。“绝密”是最重要的国家秘密,泄露会使国家的安全和利益遭受特别严重的损害;“机密”是重要的国家秘密,泄露会使国家的安全和利益遭受严重的损害;“秘密”是一般的国家秘密,泄露会使国家的安全和利益遭受损害。机关、单位对国家秘密事项确定密级时,根据情况确定其保密期限。现有的密级确定过程。随着电子技术的发展密级文件逐渐由纸件存储模式过渡到电子文件的模式,而密级的确定也逐渐由人为审阅定级,逐渐过渡到计算机辅助定密的操作。
不管是人为确定密级还是计算辅助确定密级,确定密级的核心还是进行密级文件中关键语言、文字的确定、分析。在人为密级确定中,通常是本领域人员对文件进行通篇阅读,从中分解出涉密的文字和内容,再根据这些内容的重要性予以密级。随着技术的发展,如何避免涉密文件更少的被他人接触和阅读,减少涉密内容的暴露人群是维护文件秘密的首选。计算机辅助定密能够减少密级文件的阅读人群,有效的缩小了密级文件的暴露范围,在密级文件的定密上已经取得了应用。例如专利201510613516.8就公开了一种通过计算机实现辅助定密的方法和装置。在计算机辅助定密的过程中,需要筛选涉密主题,通过主体的计算机比对进行密级分类。由于在定密主题的局限性,这种方式在定密的准确性较低。随着大数据技术的发展、机器学习方法的广泛利用,利用机器学习的方式实现密级确定模型的训练和完善不仅能够实现定密的高效性和安全性,而且密级确定的准确性随着定密文件的增加而不断提升。本申请的核心就是将机器学习、分析技术通过神经网络构架的方式融入计算机辅助定密方法中,为智能辅助定密系统提供高质量的语句编码信息,进而实现准确高效定密的目的。该方法有效克服了传统定密方法的密级文件暴露行为,批量输入密级文件的电子数据信息,将语句信息转为高质量的编码向量,有效提升了辅助定密系统的准确性和安全性。
发明内容
本申请的发明目的在于利用涉密文件的电子数据文本,对数据文本进行拆分、编码利用神经网络层进行语句的向量构建获得语句向量的编码。该编码矩阵在在辅助定密系统中能够被高效使用、分析从而获得准确的定密结果。
为实现上述辅助定密系统中输入信息的语句编码准确性和安全性,保证后续定密过程安全、可靠,本申请提出了一种智能辅助定密系统中使用的语句编码方法,该方法步骤如下:
S1、文本数据预处理,将长文本分割为语句列表,并将该语句列表转换为字id列表;
S2、将S1所得到的字id列表分别输入两个不同的字向量层,将语句中的每个字转换为字向量,得到每个语句的两个不同的字向量列表A和B;
S3、将S2所得到的每个语句的不同字向量列表分别输入深度循环神经网络层和卷积神经网络层:字向量列表A经过深度神经网络层得到第一个编码句向量;字向量列表B经过卷积神经网络层后输入最大值池化层得到第二个编码句向量;从而同一训练批次的多个语句经过上述过程构成两个不同的语句向量矩阵;
S4、将S3所得到两个不同的句向量矩阵横向拼接,从而得到最终的编码语句向量矩阵。
上述语句编码方法中,经过语句转换而成的id列表经过了两个不同的字向量层处理成为两个字向量列表,在分布经过不同的神经网络层的处理后进行语句向量矩阵横向拼接获得最终的编码语句向量矩阵。这种语句编码方式可以对同一语句可以实现不同方法的独立处理,再经过最终合成,提高了编码生成过程中的安全性,更适合文本定密系统的使用。
上述步骤S1中文本数据预处理方法步骤为:
S11、获取大量公开的中文文本数据,将中文文本数据输入语句分割器进行单句切分,得到语句列表,并按照原文的先后顺序进行存储;
S12、将S11所得的语句列表中的每个语句进行单个字符分割,同时过滤标点、英文、特殊符号等非汉字字符,将每个语句分割为纯汉字的字符列表;
S13、根据S12所述汉字字符列表统计字频,按照字频由高到低的顺序构建字典,字在字典的位置序号即为其id值;
S14、根据S13所述的字典和S12所述的字符列表,将每个句子转为id值列表。
上述文本数据预处理方法中通过语句分割器的使用、存储、字符过滤、字频统计排序建立id及id列表对应,可以完整保留需要编码的每条文本数据中的语句信息,完善了语句信息的采集过程。
上述步骤S2中所述的字向量层由字向量矩阵和查询层组成,字向量矩阵的行数为字典的大小,列数为字向量维度大小,查询层根据输入的字id值获取对应行数的字向量。该方法中实现了字向量矩阵的建立和变换过程,从而将id的编码列表转换成为了向量。
上述步骤S3所述的深度循环神经网络层的主要结构是GRU(Gated RecurrentUnit)循环神经网络层,GRU结构的神经元主要由更新门和重置门构成,其计算公式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
ht=(1-zt)*ht-1+zt*tanh(W·[rt*ht-1,xt])
上述计算公式中,zt为更新门的输出值,Wz为更新门的参数矩阵,rt为重置门的输出值,Wr为重置门的参数矩阵,ht为GRU神经元的输出值,W为GRU神经元的输出参数矩阵,ht-1为上一时刻GRU神经元的输出值,xt为当前时刻GRU神经元的输入值,σ为sigmoid激活函数,tanh是tanh激活函数;卷积神经网络层主要由多个不同大小的卷积核构成,从句子开头至结尾方向进行一维卷积操作。上述循环神经网络将时间序列数据之间存在的时间关联性和整体逻辑特性实现了整合,该深度学习模型利用历史数据的时间依赖关系来分析数据特征,是传统神经网络的升级和发展。
本申请还可以利用S3所得到的两个不同的语句向量矩阵进行模型训练,其具体过程为:将S3所述的两个不同的语句向量矩阵相乘,得到同一批次中句子之间的相似度得分矩阵,该矩阵计算公式为:
上述公式中,m为矩阵的行数,n为矩阵的列数,a1n为第一个句子的第一个句向量的第n个向量值,b1n为第一个句子的第二个句向量的第n个向量值,am为第m个句子的第一个句向量,bm为第m个句子的第二个句向量;将上述相似度得分矩阵与预先确定的相似度标签矩阵计算多分类交叉熵损失值,通过反向传播算法更新网络的权重以训练深度循环神经网络层和卷积神经网络层,经过大量公开中文语料数据集上不断迭代训练,得到训练好的网络层模型。该机器学习的实现,保证了网络层模型的实施更新和发展,保证了语句编码的准确性和安全性。
在前述步骤中的多分类交叉熵损失值的计算采用多分类交叉熵损失函数计算,其具体计算公式为:
上述公式中,s表示当前语句,D表示同一批次的所有语句集合,sc表示当前语句的上下文语句,Dc表示当前语句的上下文语句集合,sm表示待分类的候选语句,Dm表示待分类的候选语句集合,g表示第一个字向量层和深度循环神经网络层组成的编码器,f表示第二个字向量层和卷积神经网络层、最大值池化层组成的编码器,·表示向量点乘。采用多分类交叉熵损失函数的方法能够最快对网络层实现机器学习和优化,降低学习过程的时长。
上述循环神经网络层和卷积神经网络层的网络的输入长度为可变的,可随输入句子的长度不同而动态变化。
本申请的语句编码方法基于深度循环神经网络和卷积神经网络对文本进行特征提取并编码,在保证编码质量的同时,提高了编码的效率;采用无监督的方法进行模型训练,有效避免了保密领域标注文本数据量少的缺陷。
附图说明
图1为本发明技术方案的智能辅助定密系统中使用的语句编码方法流程图;
图2为本发明申请中深度循环神经网络结构示意图。
具体实施方式
以下结合实施例对本发明作出进一步的说明。本发明申请所提出的智能辅助定密系统中使用的语句编码方法具体过程如图1所示。其方法步骤主要分为如下四步:
步骤S1、文本预处理。从网络上采集公开的中文文本语料,然后对采集的语料以叹号、句号或者问号为切分点,将采集的文本切分为语句,并对切分的语句进行汉字切分,同时过滤英文,标点,特殊符号等非汉字字符,最终将每个句子切分为纯汉字字符列表。
根据分字后的语句文本,统计汉字字频,并按字频由高到低的顺序构建字典,汉字在字典中的序号即为其id值,根据构建好的字典,将每个语句的汉字字符列表转为id值列表。在实际训练时,同一批次的句子需要长度一致,以该批次最长的语句为基准,较短的语句后面id值补0,不同批次的语句长度可不同。
步骤S2、将语句的id列表输入两个不同的字向量层,将句子的id列表转换为两个不同的字向量列表。两个不同的字向量层的大小和维度均相同,字向量的大小即为字典的大小,每个字的id值即为字向量层对应行的字向量。字向量层的维度即为每个字向量的维度。
步骤S3、将每个语句两个不同的字向量列表分别输入深度循环神经网络层和卷积神经网络层,经过深度神经网络层得到第一个编码句向量,将卷积神经网络层的输出,输入到最大值池化层,得到第二个编码语句向量,同一训练批次的语句可构成两个不同的语句向量矩阵。两个不同的语句向量矩阵相乘,得到同一批次中句子之间的相似度得分矩阵,并将该相似度得分矩阵左上至右下的对角线置为0,以消除语句与语句本身的相似度分值,将相似度得分矩阵与既定的相似度标签矩阵计算多分类交叉熵损失值,然后通过反向传播算法更新网络的权重以训练网络。通过在大量公开中文语料数据集上不断迭代训练,得到训练好的模型。图2给出本申请中的循环神经网络层结构示意图。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。