CN111538998A - 文本定密方法和装置、电子设备及计算机可读存储介质 - Google Patents
文本定密方法和装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111538998A CN111538998A CN202010242186.7A CN202010242186A CN111538998A CN 111538998 A CN111538998 A CN 111538998A CN 202010242186 A CN202010242186 A CN 202010242186A CN 111538998 A CN111538998 A CN 111538998A
- Authority
- CN
- China
- Prior art keywords
- text
- encrypted
- sequence
- determined
- ciphertext
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 212
- 238000004364 calculation method Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是提供一种文本定密方法和装置、电子设备及计算机可读存储介质,其中文本定密方法包括:获取待定密文本,及一个或多个已定密文本;对待定密文本和已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列;基于待定密文本编号序列和已定密文本编号序列,通过向量化得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列;基于待定密文本向量序列与已定密文本向量序列之间的相似度,确定待定密文本的定密等级;上述技术方案通过对动态字向量序列进行相似度计算,有效提高了定密的准确度和效率性,且无需进行模型微调,进一步提升了在保密领域的适用性。
Description
技术领域
本公开涉及保密技术,具体涉及一种文本定密方法和装置、电子设备及计算机可读存储介质。
背景技术
目前,在保密领域中,定密工作是其中重要的环节之一,智能辅助定密是目前定密的热点和难点,文本相似度计算是智能定密的关键,现有文本定密过程中,是对预处理后的数据,要进行模型微调后,再去计算相似度进行比较,这种方法需要提前获取带标签的数据,而在保密领域中由于无法提前获取带标签的数据,故现有方法无法适用于保密领域。另外,现有技术中,文本相似度计算是将文本压缩为单个向量表示后计算相似度,这种方法文本信息损失较大且计算复杂,难以保证定密的准确性和效率性。
发明内容
为了克服相关技术中存在的不足,本公开提供一种文本定密方法和装置、电子设备及计算机可读存储介质。
根据本公开实施例的第一方面,提供一种文本定密方法,方法包括:获取待定密文本,及一个或多个已定密文本,其中,已定密文本对应于定密等级;对待定密文本和所述已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列;基于待定密文本编号序列和已定密文本编号序列,通过向量化得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列;基于待定密文本向量序列与已定密文本向量序列之间的相似度,确定待定密文本的定密等级。
在一实施例中,对待定密文本和已定密文本进行预处理,包括:对待定密文本和已定密文本进行清洗,得到待定密文本对应的待定密纯字文本,及已定密文本对应的已定密纯字文本;对待定密纯字文本和已定密纯字文本进行分字处理,得到待定密纯字文本对应的待定密字符序列,及已定密纯字文本对应的已定密字符序列;基于字典,将待定密字符序列转化为待定密文本编号序列,将已定密字符序列转化为已定密文本编号序列。
在一实施例中,基于待定密文本编号序列和已定密文本编号序列,通过向量化得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列,包括:基于待定密文本编号序列和已定密文本编号序列,通过语言模型,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
在一实施例中,基于待定密文本编号序列和已定密文本编号序列,通过语言模型,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列,包括:语言模型至少包括字向量层和自注意循环神经网络层;基于待定密文本编号序列和已定密文本编号序列,通过字向量层,得到待定密文本的字向量序列和已定密文本的字向量序列;基于待定密文本的字向量序列和已定密文本的字向量序列,通过自注意力循环神经网络层,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
在一实施例中,基于待定密文本向量序列与已定密文本向量序列之间的相似度,确定待定密文本的定密等级,包括:待定密文本与已定密文本向量序列,基于注意力计算机制,得到相应的注意力值序列和其对应的权重;根据待定密文本与已定密文本的注意力值序列和其对应的权重,通过加权均值计算,得到两个文本的相似度。
在一实施例中,基于待定密文本向量序列与已定密文本向量序列之间的相似度,确定待定密文本的定密等级,还包括,相似度通过以下公式计算得到:
其中,S为两个短文本的相似度,аi为序列中第i个注意力值,ωi为第i个注意力值对应的权重。
在一实施例中,基于待定密文本向量序列与已定密文本向量序列之间的相似度,确定待定密文本的定密等级,还包括:基于待定密文本向量序列分别与多个已定密文本向量序列比较,得到多个相似度;将相似度中,最大的相似度对应的已定密文本的定密等级,作为待定密文本的定密等级。
根据本公开实施例的第二方面,提供一种文本定密装置,装置包括:获取单元,用于获取待定密文本和一个或多个已定密文本,其中已定密文本对应于定密等级;预处理单元,用于对待定密文本和已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列;向量单元,用于对待定密文本编号序列和已定密文本编号序列,通过向量化得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列;确定单元,用于计算待定密文本向量序列与已定密文本向量序列之间的相似度,基于得出的相似度,确定待定密文本的定密等级。
在一实施例中,预处理单元还包括:清洗子单元,用于对待定密文本和已定密文本进行清洗,得到待定密文本对应的待定密纯字文本,及已定密文本对应的已定密纯字文本;划分子单元,用于对待定密纯字文本和已定密纯字文本进行分字处理,得到待定密纯字文本对应的待定密字符序列,及已定密纯字文本对应的已定密字符序列;编号子单元,用于基于字典,将待定密字符序列转化为待定密文本编号序列,将已定密字符序列转化为已定密文本编号序列。
在一实施例中,向量单元还用于:用于基于待定密文本编号序列和已定密文本编号序列,通过语言模型,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
在一实施例中,向量单元还包括:语言模型至少包括字向量层和自注意力循环神经网络层;字向量子单元,用于基于所述待定密文本编号序列和已定密文本编号序列,通过字向量层,得到待定密文本的字向量序列和已定密文本的字向量序列;神经网络子单元,用于基于待定密文本的字向量序列和已定密文本的字向量序列,通过自注意力循环神经网络层,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
在一实施例中,确定单元还包括:将待定密文本与所述已定密文本向量序列,基于注意力计算机制,得到相应的注意力值序列和其对应的权重;根据待定密文本与所述已定密文本的注意力值序列和其对应的权重,通过加权均值计算,得到两个文本的相似度。
在一实施例中,相似度通过以下公式计算得到:
其中,S为两个短文本的相似度,аi为序列中第i个注意力值,ωi为第i个注意力值对应的权重。
在一实施例中,确定单元还用于:基于待定密文本向量序列分别与多个已定密文本向量序列比较,得到多个相似度;将相似度中,最大的相似度对应的已定密文本的定密等级,作为待定密文本的定密等级。
根据本公开实施例的第三方面,提供一种电子设备,包括:存储器,用于存储指令;处理器,用于调用所述存储器存储的指令执行任意一种实施方式中的文本定密方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,存储有指令,指令被处理器执行时,执行第一方面的文本定密的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过直接对文本的动态字向量序列计算相似度,采用注意力计算机制,减少中间转化步骤,保证计算结果的准确性的同时,有效提升了模型的处理速度;无需获取标注样本就可以对模型进行训练,从而得到更准确的计算结果,非常适用在无法获取标注样本的保密领域中,更大程度上提高在保密领域的适用性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种文本定密方法的流程示意图。
图2是根据一示例性实施例示出的一种文本预处理的流程示意图。
图3是根据一示例性实施例示出的一种文本向量化的流程示意图。
图4是根据一示例性实施例示出的一种自注意力循环神经网络层的示意图。
图5是根据一示例性实施例示出的一种文本相似度计算的流程示意图。
图6是根据一示例性实施例示出的一种文本定密装置的示意框图。
图7是根据一示例性实施例示出的一种装置的示意框图。
图8是根据一示例性实施例示出的一种电子装置的示意框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,文本定密过程中,对文本进行预处理后,需要先进行模型微调后,再去计算相似度进行比较,得出文本定密等级,这种方法需要提前获取带标签的数据文本,而在保密领域中由于无法提前获取带标签的数据文本,故现有方法无法适用于保密领域,另外,现有技术中文本相似度计算是将文本压缩为单个向量表示后计算相似度,这种方法文本信息损失较大且计算复杂,难以保证定密结果的准确性和效率性。
为解决上述问题,本公开实施例提供一种文本定密方法S1,应用于保密领域系统中保密文件的密级的确定,通过对文本向量化,比较文本间的相似度,确定文本的定密等级,如图1所示,文本定密方法S1包括步骤S11-步骤S14:
步骤S11,获取待定密文本,及一个或多个已定密文本,其中已定密文本对应于定密等级。
在本实施例的已定密文本可以理解为系统数据库中已经确定密级的一个或多个已定密文本。
举例说明,待定密文本可设定为文本A,已定密文本可设定为文本B集合,文本B集合包括文本B1、B2、B3,相应的密级为文本B1为绝密,文本B2为机密,文本B3为秘密。
步骤S12,对待定密文本和已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列。
由于待定密文本和已定密文本中,可能存在格式差异,或存在不标准字符等情况,会对向量化以及识别的结果产生影响,因此需要对其进行预处理。
在一实施例中,如图2所示,步骤S12可以包括:步骤S121,对待定密文本和已定密文本进行过滤,将英文、标点、特殊符号等非汉字字符过滤,得到待定密文本纯文本和已定密文本纯文本。步骤S122,对待定密文本纯文本和已定密文本纯文本进行分字处理,得到待定密文本字符序列和已定密文本字符序列;将公开的中文语料进行预处理,统计汉字字频,按字频由高到低的顺序构建字典,每个汉字在字典中对应相应的编号。步骤S123,根据构建好的字典,字符序列里的汉字对应字典里相应的编号,待定密文本字符序列和已定密文本字符序列转化为相应待定密文本编号序列和已定密文本编号序列。
本实施例中,其中,对待定密文本和已定密文本进行预处理可以是对文本中的非标准汉子字符进行过滤或替换,如文本中存在一些英文、标点、数字、或如单位等符号的情况下,进行删除,或替换成汉字字符表达。在前述的具体例子中,可以对文本A和文本B1进行过滤,将英文、标点、特殊符号等非汉字字符过滤,得到纯文本A和纯文本B1。在得到纯文本后,可以对纯文本进行分字处理,得到以原文本为基础的字符序列。将公开的中文语料进行预处理,统计汉字字频,按字频由高到低的顺序构建字典,每个汉字在字典中对应相应的编号;根据构建好的字典,字符序列里的汉字对应字典里相应的编号。
本实施例中,对文本数据进行过滤分字等预处理后,可以完整的保留文本数据的信息,减少文本语义的损失,有效提高相似度对比的准确性。
举例说明,首先对文本A和文本B集合包括文本B1,B2,B3进行过滤,得到纯文本A和纯文本B集合,纯文本B集合包括纯文本B1,纯文本B2,纯文本B3;对纯文本A和纯文本B集合进行分字处理,得到文本A字符序列和文本B集合字符序列,文本B集合字符序列包括,文本B1字符序列,文本B2字符序列,文本B3字符序列;文本字符序列里的汉字在构建好的字典里有对应相应的编号,故文本A字符序列和文本B集合字符序列转化为文本A编号序列和文本B集合编号序列,文本B集合编号序列包括,文本B1编号序列,文本B2编号序列,文本B3编号序列。
步骤S13,基于待定密文本编号序列和已定密文本编号序列,通过向量化得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列。
在得到待定密文本编号序列和已定密文本编号序列之后,可以通过字向量层或其他网络模型进行向量化,得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列。
在一实施例中,步骤S13可以包括,基于待定密文本编号序列和已定密文本编号序列,通过语言模型,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
本公开实施例中,语言模型可以包括字向量层和自注意力循环神经网络层构成的动态向量层。在字向量层中,根据步骤S12构建的字典,得到字向量矩阵,字向量矩阵的行数为字典的大小,列数为字向量维度的大小,待定密文本编号序列和已定密文本编号序列在字向量层查询得到待定密文本字向量序列和已定密文本字向量序列;待定密文本字向量序列和已定密文本字向量序列,通过自注意力循环神经网络层得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
本实施例中,文本编号序列首先通过字向量层转化为字向量序列,然后经过自注意力循环神经网络计算,从而能够体现出每个字符在文本中的关联,得到相应的文本动态字向量序列,同时节约人工,提高计算效率。
在一实施例中,如图3所示,步骤S13可以包括:步骤S131,基于待定密文本编号序列和已定密文本编号序列通过字向量层,得到待定密文本的字向量序列和已定密文本的字向量序列;步骤S132,基于待定密文本的字向量序列和已定密文本的字向量序列,通过自注意力循环神经网络层,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
本实施例中,其中图4示意性示出了一种自注意力循环神经网络层的结构,如图4所示,自注意力循环神经网络层20所示,输入文本字向量序列,对输入的文本字向量序列作层归一化处理,通过长短期记忆网络训练得到K键向量,以及在长短期记忆网络隐状态得到Q查询向量和V值向量,得到的三个向量在自注意力计算网络中进行自注意力计算,层归一化处理后,输出得到文本动态字向量序列,该自注意力循环神经网络层结构是基于长短期记忆网络和自注意力计算网络结合,相比传统结构,在保证计算效果的同时,降低网络的规模,提升了计算速度。
举例说明,首先将文本A编号序列,文本B集合编号序列,包括文本B1编号序列,文本B2编号序列,文本B3编号序列在字向量层中通过查询在字向量矩阵中对应行数的字向量得到文本A字向量序列,文本B集合字向量序列,包括文本B1字向量序列、文本B2字向量序列、文本B3字向量序列,文本A字向量序列,文本B集合字向量序列通过字自注意力循环神经网络层的计算,得到文本A动态字向量序列,文本B集合动态字向量序列,包括文本B1动态字向量序列、文本B2动态字向量序列、文本B3动态字向量序列。
步骤S14,基于待定密文本向量序列与已定密文本向量序列之间的相似度,确定待定密文本的定密等级。
在得到待定密文本向量序列和已定密文本向量序列后,可以进行比较相似度,如通过余弦距离的方式,比较向量序列之间的距离从而确定相似度,也可以通过其他方式,获取两者的相似度,并基于此确定待定密文本的定密等级。
在一实施例中,如图5所示,步骤S14可以包括:步骤S141,待定密文本与已定密文本向量序列,基于注意力计算机制,得到相应的注意力值序列和其对应的权重;步骤S142,根据待定密文本与已定密文本的注意力值序列和其对应的权重,通过加权均值计算,得到两个文本的相似度。根据注意力机制,可以确定不同字符在文本中的作用,对文本语义表达的贡献程度,从而确定权重,基于此计算相似度能够更加贴近文本的真实意思,从而使得结果更加准确。
在一实施例中,计算待定密文本动态字向量序列和已定密文本动态字向量序列的余弦值,余弦值作为注意力大小的度量,具体计算公式为:
上述公式中,Mi代表待定密文本动态向量序列第i个分量,Ni代表已定密文本动态字向量序列的第i个分量,将待定密文本动态字向量序列中的某个动态字字向量与已定密文本动态字向量序列中所有动态字向量计算余弦值。
本实施例中,所得到的余弦值越接近1,表明计算的两个字向量相似度越高。
基于得到的余弦值,通过软注意力计算机制,得到两个动态字向量序列间的注意力值和注意力值的权重,具体计算公式如下:
аi=∑jcosij·f(λij)
上述计算公式中,λij为待定密文本动态字向量序列中第i个动态字向量与已定密文本动态字向量序列第j个动态字向量的注意力值的权重,cosij为待定密文本动态字向量序列中的第i个动态字向量与已定密文本动态字向量序列中第j个动态字向量间的注意力值,cosk为待定密文本动态字向量序列中的第i个动态字向量与已定密文本的第k个注意力值,η为既定阈值,范围在0-1之间,аi为待定密文本与已定密文本的第i个注意力值。
在一实施例中,采用加权的均值计算方法,计算两个文本间的相似度,具体计算公式如下:
其中,S代表待定密文本和已定密文本间的相似度,аi为序列中第i个注意力值,ωi为第i个注意力值对应的权重。权重是通过统计大量公开中文语料的词频信息来确定。
此步骤中,权重的计算公式如下:
其中,ωi为第i个字的权重,fi为第i个字的统计词频,某个字在语料中出现的频率越高,则词频越大,权重越低。
本实施例中,根据步骤S143计算的S值,得出待定密文本与已定密文本间的相似度。
本实施例中,待定密文本可与多个已定密文本计算得到多个相似度值。
在一实施例中,步骤S14还可以包括:基于待定密文本文本与多个已定密文本计算得到的多个相似度,对多个相似度值进行大小比较,最大的相似度对应的已定密文本的定密等级,就作为待定密文本的定密等级。
本实施例中,根据定密等级备有多个已定密文本,相应的,将待定密文本向量序列分别每个已定密文本向量序列比较,从而得到多个相似度。相似度反映了待定密文本与每个已定密文本的相似程度。因此,相似度最大的对应的已定密文本,即为与待定密文本最接近的文本,从而可以根据该已定密文本对应的定密等级,确定待定密文本的定密等级。
举例说明,以文本A动态字向量序列和文本B1动态字向量序列计算比较说明,首先基于余弦计算公式得到文本A动态字向量序列和文本B1动态字向量序列的余弦值;通过注意力计算公式,得到文本A动态字向量序列和文本B1动态字向量序列间注意力值和注意力值的权重,根据相似度计算公式,得到文本A和文本B1的相似度值为C1,同理文本A动态字向量序列和文本B2动态字向量序列,文本A动态字向量序列和文本B3动态字向量序列分别计算得到相似度为C2和C3,最后对C1,C2,C3大小进行比较,如C1值最大,则确定C1对应的文本B1的等级即为文本A的等级,文本B1的等级为绝密,则文本A的等级为绝密。
在又一实施例中,根据步骤S14所得到的多个相似度值还可以通过人工标注和对比,对执行本公开文本定密方法S1的模型进行微调,将多个相似度值与预先标注的相似度标签计算二分类交叉熵损失值,通过反向传播算法更新网络的权重以训练编码层,二分类交叉熵损失值采用二分类交叉熵损失函数计算,具体计算公式如下:
上述公式中,是模型预测样本是正例的概率,y是样本标签,如果样本属于正例取值为1,否则取值为0,采用二分类交叉熵损失函数的方法能够最快对长短期记忆网络实现机器学习和优化,降低学习过程的时长。通过在人工标注语料上的训练,可以进一步提升该定密模型在相关领域的应用效果。
基于同一个发明构思,图6示出了一种文本定密的装置10,包括:获取单元101,用于获取待定密文本和一个或多个已定密文本;预处理单元102,用于对待定密文本和已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列;向量单元103,用于对待定密文本编号序列和已定密文本编号序列,通过向量化得到待定密文本编号序列对应的待定密文本向量序列,及已定密文本编号序列对应的已定密文本向量序列;确定单元104,用于计算待定密文本向量序列与已定密文本向量序列之间的相似度,基于得出的相似度,确定待定密文本的定密等级。
在一实施例中,如图6所示,预处理单元102还包括:清洗子单元1021,用于对待定密文本和已定密文本进行清洗,得到待定密文本对应的待定密纯字文本,及已定密文本对应的已定密纯字文本;划分子单元1022,用于对待定密纯字文本和已定密纯字文本进行分字处理,得到待定密纯字文本对应的待定密字符序列,及已定密纯字文本对应的已定密字符序列;编号子单元1023,用于基于字典,将待定密字符序列转化为待定密文本编号序列,将已定密字符序列转化为已定密文本编号序列。
在一实施例中,向量单元103,还用于基于待定密文本编号序列和已定密文本编号序列,通过语言模型,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
在一实施例中,根据图6所示,向量单元103包括:语言模型至少包括字向量层和自注意力循环神经网络层;字向量子单元1031,用于基于待定密文本编号序列和已定密文本编号序列,通过字向量层,得到待定密文本的字向量序列和已定密文本的字向量序列;神经网络子单元1032,用于基于待定密文本的字向量序列和已定密文本字向量序列,通过自注意力循环神经网络层,得到待定密文本的动态字向量序列和已定密文本的动态字向量序列。
在一实施例中,确定单元104还包括:将待定密文本与已定密文本向量序列,基于注意力计算机制,得到相应的注意力值序列和其对应的权重;根据待定密文本与已定密文本的注意力值序列和其对应的权重,通过加权均值计算,得到两个文本的相似度。
在一实施例中,确定单元104,还包括:用于基于待定密文本向量序列分别与多个已定密文本向量序列比较,得到多个相似度;将相似度中,最大的相似度对应的已定密文本的定密等级,作为待定密文本的定密等级。
关于上述实施例中的文本定密的装置10,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的前述任一实施例装置的示意框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电力组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理组件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在装置300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件306为装置300的各种组件提供电力。电力组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。
多媒体组件308包括在装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到装置300的打开/关闭状态,组件的相对定位,例如组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种电子装置400的框图。例如,装置400可以被提供为一服务器。参照图8,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置400还可以包括一个电源组件426被配置为执行装置300的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (16)
1.一种文本定密方法,其特征在于,包括:
获取待定密文本,及一个或多个已定密文本,其中,所述已定密文本对应于定密等级;
对所述待定密文本和所述已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列;
基于所述待定密文本编号序列和所述已定密文本编号序列,通过向量化得到所述待定密文本编号序列对应的待定密文本向量序列,及所述已定密文本编号序列对应的已定密文本向量序列;
基于所述待定密文本向量序列与所述已定密文本向量序列之间的相似度,确定所述待定密文本的定密等级。
2.根据权利要求1所述的文本定密方法,其特征在于,所述对所述待定密文本和所述已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列,包括:
对所述待定密文本和所述已定密文本进行清洗,得到所述待定密文本对应的待定密纯字文本,及所述已定密文本对应的已定密纯字文本;
对所述待定密纯字文本和所述已定密纯字文本进行分字处理,得到所述待定密纯字文本对应的待定密字符序列,及所述已定密纯字文本对应的已定密字符序列;
基于字典,将所述待定密字符序列转化为待定密文本编号序列,将所述已定密字符序列转化为所述已定密文本编号序列。
3.根据权利要求1所述的文本定密方法,其特征在于,所述基于所述待定密文本编号序列和所述已定密文本编号序列,通过向量化得到所述待定密文本编号序列对应的待定密文本向量序列,及所述已定密文本编号序列对应的已定密文本向量序列,包括:
基于所述待定密文本编号序列和所述已定密文本编号序列,通过语言模型,得到所述待定密文本的动态字向量序列和所述已定密文本的动态字向量序列。
4.根据权利要求3所述的文本定密方法,其特征在于,所述基于所述待定密文本编号序列和所述已定密文本编号序列,通过语言模型,得到所述待定密文本的动态字向量序列和所述已定密文本的动态字向量序列,包括:
所述语言模型至少包括字向量层和自注意力循环神经网络层;
基于所述待定密文本编号序列和所述已定密文本编号序列,通过字向量层,得到所述待定密文本的字向量序列和所述已定密文本的字向量序列;
基于所述待定密文本的字向量序列和所述已定密文本的字向量序列,通过自注意力循环神经网络层,得到所述待定密文本的动态字向量序列和所述已定密文本的动态字向量序列。
5.根据权利要求1所述的文本定密方法,其特征在于,所述基于所述待定密文本向量序列与所述已定密文本向量序列之间的相似度,确定所述待定密文本的定密等级,包括:
所述待定密文本与所述已定密文本向量序列,基于注意力计算机制,得到相应的注意力值序列和其对应的权重;
根据待定密文本与所述已定密文本的注意力值序列和其对应的权重,通过加权均值计算,得到两个文本的相似度。
7.根据权利要求5所述的文本定密方法,其特征在于,所述基于所述待定密文本向量序列与所述已定密文本向量序列之间的相似度,确定所述待定密文本的定密等级,还包括:
基于所述待定密文本向量序列分别与多个所述已定密文本向量序列比较,得到多个所述相似度;
将所述相似度中,最大的相似度对应的所述已定密文本的所述定密等级,作为所述待定密文本的定密等级。
8.一种文本定密装置,其特征在于,所述装置包括:
获取单元,用于获取待定密文本和一个或多个已定密文本,其中,所述已定密文本对应于定密等级;
预处理单元,用于对所述待定密文本和所述已定密文本进行预处理,分别得到待定密文本编号序列和已定密文本编号序列;
向量单元,用于基于所述待定密文本编号序列和所述已定密文本编号序列,通过向量化得到所述待定密文本编号序列对应的待定密文本向量序列,及所述已定密文本编号序列对应的已定密文本向量序列;
确定单元,用于基于所述待定密文本向量序列与所述已定密文本向量序列之间的相似度,确定所述待定密文本的定密等级。
9.根据权利要求8所述的文本定密装置,其特征在于,所述预处理单元还包括:
清洗子单元,用于对所述待定密文本和所述已定密文本进行清洗,得到所述待定密文本对应的待定密纯字文本,及所述已定密文本对应的已定密纯字文本;
划分子单元,用于对所述待定密纯字文本和所述已定密纯字文本进行分字处理,得到所述待定密纯字文本对应的待定密字符序列,及所述已定密纯字文本对应的已定密字符序列;
编号子单元,用于基于字典,将所述待定密字符序列转化为待定密文本编号序列,将所述已定密字符序列转化为所述已定密文本编号序列。
10.根据权利要求8所述的文本定密装置,其特征在于,所述向量单元还用于:
基于所述待定密文本编号序列和所述已定密文本编号序列,通过语言模型,得到所述待定密文本的动态字向量序列和所述已定密文本的动态字向量序列。
11.根据权利要求10所述的文本定密装置,其特征在于,所述向量单元还包括:
所述语言模型至少包括字向量层和自注意力循环神经网络层;
字向量子单元,用于基于所述待定密文本编号序列和所述已定密文本编号序列,通过字向量层,得到所述待定密文本的字向量序列和所述已定密文本的字向量序列;
神经网络子单元,用于基于所述待定密文本的字向量序列和所述已定密文本的字向量序列,通过自注意力循环神经网络层,得到所述待定密文本的动态字向量序列和所述已定密文本的动态字向量序列。
12.根据权利要求8所述的文本定密装置,其特征在于,所述确定单元还包括:
将所述待定密文本与所述已定密文本向量序列,基于注意力计算机制,得到相应的注意力值序列和其对应的权重;
根据待定密文本与所述已定密文本的注意力值序列和其对应的权重,通过加权均值计算,得到两个文本的相似度。
14.根据权利要求12所述的文本定密装置,其特征在于,所述确定单元还包括:
基于所述待定密文本向量序列分别与多个所述已定密文本向量序列比较,得到多个所述相似度;将所述相似度中,最大的相似度对应的所述已定密文本的所述定密等级,作为所述待定密文本的定密等级。
15.一种电子设备,其特征在于,包括:
存储器,用于存储指令;
处理器,用于调用所述存储器存储的指令执行如权利要求1-7中任一项所述的文本定密方法。
16.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行如权利要求1至7中任意一项所述的文本定密方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010242186.7A CN111538998B (zh) | 2020-03-31 | 2020-03-31 | 文本定密方法和装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010242186.7A CN111538998B (zh) | 2020-03-31 | 2020-03-31 | 文本定密方法和装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538998A true CN111538998A (zh) | 2020-08-14 |
CN111538998B CN111538998B (zh) | 2023-11-24 |
Family
ID=71978721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010242186.7A Active CN111538998B (zh) | 2020-03-31 | 2020-03-31 | 文本定密方法和装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538998B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114281986A (zh) * | 2021-11-15 | 2022-04-05 | 国网吉林省电力有限公司 | 一种基于自注意力网络的企业文件密点标注方法 |
CN115935972A (zh) * | 2023-01-30 | 2023-04-07 | 北京亿赛通科技发展有限责任公司 | 一种计算机辅助文本定密方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093154A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 一种定密信息管理系统及定密信息管理方法 |
CN105260878A (zh) * | 2015-09-23 | 2016-01-20 | 成都网安科技发展有限公司 | 辅助定密方法和装置 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110647505A (zh) * | 2019-08-21 | 2020-01-03 | 杭州电子科技大学 | 一种基于指纹特征的计算机辅助密点标注方法 |
CN110826298A (zh) * | 2019-11-13 | 2020-02-21 | 北京万里红科技股份有限公司 | 一种智能辅助定密系统中使用的语句编码方法 |
-
2020
- 2020-03-31 CN CN202010242186.7A patent/CN111538998B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093154A (zh) * | 2013-02-06 | 2013-05-08 | 杭州电子科技大学 | 一种定密信息管理系统及定密信息管理方法 |
CN105260878A (zh) * | 2015-09-23 | 2016-01-20 | 成都网安科技发展有限公司 | 辅助定密方法和装置 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110647505A (zh) * | 2019-08-21 | 2020-01-03 | 杭州电子科技大学 | 一种基于指纹特征的计算机辅助密点标注方法 |
CN110826298A (zh) * | 2019-11-13 | 2020-02-21 | 北京万里红科技股份有限公司 | 一种智能辅助定密系统中使用的语句编码方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114281986A (zh) * | 2021-11-15 | 2022-04-05 | 国网吉林省电力有限公司 | 一种基于自注意力网络的企业文件密点标注方法 |
CN114281986B (zh) * | 2021-11-15 | 2024-03-26 | 国网吉林省电力有限公司 | 一种基于自注意力网络的企业文件密点标注方法 |
CN115935972A (zh) * | 2023-01-30 | 2023-04-07 | 北京亿赛通科技发展有限责任公司 | 一种计算机辅助文本定密方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111538998B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3133532A1 (en) | Method and device for training classifier and recognizing a type of information | |
US20170154104A1 (en) | Real-time recommendation of reference documents | |
CN110781305A (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN111524521A (zh) | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 | |
CN109558599B (zh) | 一种转换方法、装置和电子设备 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN110717328B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN110633470A (zh) | 命名实体识别方法、装置及存储介质 | |
CN111368541A (zh) | 命名实体识别方法及装置 | |
CN108345625B (zh) | 一种信息挖掘方法和装置、一种用于信息挖掘的装置 | |
CN110781813A (zh) | 图像识别方法及装置、电子设备和存储介质 | |
CN112528671A (zh) | 语义分析方法、装置以及存储介质 | |
CN111538998B (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
CN114332503A (zh) | 对象重识别方法及装置、电子设备和存储介质 | |
CN110619357B (zh) | 一种图片处理方法、装置和电子设备 | |
CN111222316A (zh) | 文本检测方法、装置及存储介质 | |
CN114880480A (zh) | 一种基于知识图谱的问答方法及装置 | |
CN113987128A (zh) | 相关文章搜索方法、装置、电子设备和存储介质 | |
CN116166843B (zh) | 基于细粒度感知的文本视频跨模态检索方法和装置 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
CN111079422A (zh) | 关键词提取方法、装置及存储介质 | |
CN115730073A (zh) | 文本处理方法、装置及存储介质 | |
CN114036937A (zh) | 场景布局预测网络的训练方法及场景布局的估计方法 | |
CN110908523A (zh) | 一种输入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100081 room 701, floor 7, Fuhai international port, Haidian District, Beijing Applicant after: Beijing wanlihong Technology Co.,Ltd. Address before: 100081 1504, floor 15, Fuhai international port, Daliushu Road, Haidian District, Beijing Applicant before: BEIJING SUPERRED TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |