CN111353301B - 辅助定密方法及装置 - Google Patents
辅助定密方法及装置 Download PDFInfo
- Publication number
- CN111353301B CN111353301B CN202010111504.6A CN202010111504A CN111353301B CN 111353301 B CN111353301 B CN 111353301B CN 202010111504 A CN202010111504 A CN 202010111504A CN 111353301 B CN111353301 B CN 111353301B
- Authority
- CN
- China
- Prior art keywords
- segment
- segments
- word
- occurrence probability
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种辅助定密方法及装置,通过非定密文本段的发生概率范围表从已定密文档中提取出关键段以考虑已定密文档中的重点部分,即对于涉密而言是否关键有效,并由此计算已定密文档与任务文档之间的结构化相似度,从而可以有效提高定密结果的准确性,更好地帮助定密的工作人员更高效更准确地完成定密工作。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及辅助定密方法及装置。
背景技术
目前传统的辅助定密方案一般将文档进行简单分段后直接进行相似度计算,从而对潜在涉密信息进行定密建议,但是此种方案得到的定密结果缺乏准确性,人工作业的工作量较大。因此,需要寻求一种辅助定密系统来更好地帮助定密的工作人员更高效更准确地完成定密工作。
发明内容
有鉴于此,本申请的目的在于提供一种辅助定密方法及装置,可以有效提高定密结果的准确性,更好地帮助定密的工作人员更高效更准确地完成定密工作。
根据本申请的第一方面,提供一种辅助定密方法,应用于电子设备,所述电子设备预先配置有非定密文本段的发生概率范围表,所述方法包括:
对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合;
根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合;
将所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键段进行匹配,并根据匹配结果计算所述任务文档与所述已定密文档之间的结构化相似度;
根据所述结构化相似度生成所述任务文档的辅助定密结果。
在第一方面的一种可能的实施方式中,所述对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合的步骤,包括:
根据预设噪声表去除所述任务文档和所述已定密文档中的噪声,并修正所述任务文档和已定密文档中各文本段的偏移;
根据语义划分的标点符号,对去除噪声后的所述任务文档进行分段,得到所述第一分段集合,并对去除噪声后的所述已定密文档进行分段,得到所述第二分段集合。
在第一方面的一种可能的实施方式中,所述根据语义划分的标点符号,对去除噪声后的所述任务文档进行分段,得到所述第一分段集合,并对去除噪声后的所述已定密文档进行分段,得到所述第二分段集合的步骤,包括:
根据语义划分的第一类标点符号对去除噪声后的所述任务文档和所述已定密文档进行第一次分段,得到所述任务文档的第一初始分段集合和所述已定密文档的第二初始分段集合,其中,所述第一类标点符号包括中文句号、中文感叹号、中文问号、英文问号、英文感叹号、制表符、换行符中的一种或者多种组合;
针对所述任务文档的第一初始分段集合和所述已定密文档的第二初始分段集合中的每一个分段,判断该分段的段落长度,如果所述段落长度小于第一设定长度,则将该分段与该分段的下一分段组合成为一个组合分段;
当所述组合分段的长度不大于第二设定长度时,将该组合分段确定一个可用分段;
当所述组合分段的长度大于第二设定长度,且所述组合分段中不包含语义划分的第二类标点符号时,则对所述组合分段进行第二次分段,以使第二次分段后的所述组合分段的长度不大于第二设定长度,并将第二次分段后的分段确定为可用分段,其中,所述第二类标点符号包括中文分号、中文逗号、中文顿号、英文逗号、英文分号中的一种或者多种组合。
在第一方面的一种可能的实施方式中,所述根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合的步骤,包括:
获得定密交互对象选定的标题关键词和正文关键段,并针对所述第二分段集合中的每个分段,当该分段中包含有所述标题关键词时,将该分段确定为第一关键段,当该分段为所述正文关键段时,将该分段确定为第二关键段;
针对所述第二分段集合中除去所述第一关键段和所述第二关键段之外的每个剩余分段,根据所述非定密文本段的发生概率范围表确定各个剩余分段的定密分值;
根据各个剩余分段的定密分值对各个剩余分段进行排序,并根据所述排序结果从所述各个剩余分段中选择至少部分剩余分段确定为第三关键段;
将所述第一关键段、所述第二关键段以及所述第三关键段组合形成所述已定密文档的关键段集合。
在第一方面的一种可能的实施方式中,所述非定密文本段的发生概率范围表包括不同分段长度对应的发生概率范围,所述根据所述非定密文本段的发生概率范围表确定各个剩余分段的定密分值的步骤,包括:
对各个剩余分段进行分词,并根据分词得到的单词数量获得各个剩余分段的长度;
利用预先训练得到的多元语言模型计算该剩余分段的发生概率,并判断每个剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中与该剩余分段的长度对应的发生概率范围内,得到判断结果;
以各个剩余分段分别作为图顶点,并以每两个剩余分段之间的相似度以及该两个剩余分段的发生概率两者的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述判断结果、所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的剩余分段的定密分值。
在第一方面的一种可能的实施方式中,每个图顶点对应的剩余分段的定密分值通过以下公式计算得到:
其中,WS(Vi)为图顶点Vi对应的剩余分段的定密分值,WS(Vj)为图顶点Vj对应的剩余分段的定密分值,Vi和Vj为所述有权图中相连接的两个图顶点,In(Vi)为指向Vi的第一顶点集合,Out(Vj)为Vj指向其它图顶点的第二顶点集合,Vk为属于Out(Vj)的顶点,d为阻尼因子,wji为从顶点Vj到顶点Vi的边的权重,wjk为从顶点Vj到顶点Vk的边的权重,wjk的计算方式同wji,α为权重平衡因子,Similarity(Vj,Vi)示Vj与Vi所对应的剩余分段之间的相似度,wk为剩余分段中有意义的词,|Vj|、|Vi|为Vj与Vi所对应的剩余分段中有意义的词数量,|{wk|wk∈Vj&wk∈Vi}|为剩余分段中属于Vj且又属于Vi的有意义的词数量,表示Vj所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应长度的发生概率范围内,若是则/>为0,否则/>为1,/>表示Vi所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应段长度的发生概率范围内,若是则/>为0,否则/>为1。
在第一方面的一种可能的实施方式中,所述多元语言模型为三元语言模型,所述三元语言模型通过以下训练过程获得:
获取公开语料库文本并将所述公开语料库文本随机置乱后,选择第一比例的语料库文本作为训练集,并选择第二比例的语料库文本作为测试集,其中,所述训练集用于训练得到所述三元语言模型;
对所述训练集中每个文本段进行分词,分别统计三元语法频次、二元语法频次以及一元语法频次,三元语法用于表示每个单词的发生概率仅取决于该单词之前的两个单词,统计三元语法频次即统计该单词以及该单词之前的两个单词组成的序列在公开语料库文本中出现的次数,二元语法用于表示每个单词的发生概率仅取决于该单词之前的一个单词,统计所述二元语法频次即统计该单词以及该单词之前的一个单词组成的序列在公开语料库文本中出现的次数,一元语法用于表示每个单词的发生概率与其他单次词无关,统计一元语法频次即统计该单词在公开语料库文本中出现的次数;
根据所述三元语法频次、二元语法频次以及一元语法频次训练得到初始三元语言模型;
根据所述初始三元语言模型计算所述测试集中每个测试文本段的发生概率,并对每个测试文本段进行分词,根据分词得到的单词数量获得各个测试文本段的长度,以得到包括不同分段长度对应的发生概率范围的非定密文本段的发生概率范围表;
其中,每个测试文本段的发生概率通过以下公式计算得到;
其中,λ1、λ2、λ3为平滑参数,满足λ1≥0,λ2≥0,λ3≥0,且λ1+λ2+λ3=1;c(wt)表示单词wt在训练集中出现的次数,c(wt-1wt)表示词序列wt-1wt在训练集中出现的次数,c(wt-1)、c(wt-2wt-1)、c(wt-2wt-1wt)分别表示词序列wt-1、wt-2wt-1、wt-2wt-1wt在训练集中出现的次数,V表示训练集中所有单词的数量。
在第一方面的一种可能的实施方式中,所述将所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键段进行匹配,并根据匹配结果计算所述任务文档与所述已定密文档之间的结构化相似度的步骤,包括:
针对参加匹配的任务分段和关键段,分别对该任务分段和该关键段进行哈希签名操作,并根据哈希签名结果计算该任务分段和该关键段之间的相似度;
根据所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键之间的相似度确定所述第一分段集合与所述关键段集合的全局相似度,以得到所述任务文档与所述已定密文档之间的结构化相似度。
在第一方面的一种可能的实施方式中,所述根据所述结构化相似度生成所述任务文档的辅助定密结果的步骤,包括:
判断所述结构化相似度是否大于设定相似度,当所述结构化相似度大于设定相似度时,将所述任务文档标记为涉密文档。
根据本申请的第二方面,提供一种辅助定密装置,应用于电子设备,所述电子设备预先配置有非定密文本段的发生概率范围表,所述装置包括:
分段模块,用于对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合;
提取模块,用于根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合;
匹配模块,用于将所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键段进行匹配,并根据匹配结果计算所述任务文档与所述已定密文档之间的结构化相似度;
生成模块,用于根据所述结构化相似度生成所述任务文档的辅助定密结果。
根据本申请的第三方面,提供一种电子设备,所述电子设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该电子设备实现第一方面或者第一方面的任意一种可能的实施方式中的辅助定密方法。
根据本申请的第四方面,提供一种可读存储介质,所述可读存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现第一方面或者第一方面的任意一种可能的实施方式中的辅助定密方法。
基于上述任一方面,本申请通过非定密文本段的发生概率范围表从已定密文档中提取出关键段以考虑已定密文档中的重点部分,即对于涉密而言是否关键有效,并由此计算已定密文档与任务文档之间的结构化相似度,从而可以有效提高定密结果的准确性,更好地帮助定密的工作人员更高效更准确地完成定密工作。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的辅助定密方法的流程示意图;
图2示出了图1中所示的步骤S110的子步骤流程示意图;
图3示出了图1中所示的步骤S120的子步骤流程示意图;
图4示出了本申请实施例所提供的辅助定密装置的功能模块示意图;
图5示出了本申请实施例所提供的用于实现上述的辅助定密方法的电子设备的结构示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
涉密信息,通常是指单位自行产生的涉及国家秘密的文字内容、设计图样等。随着信息化的快速发展,计算机信息技术在政府机关、部队、单位被广泛使用,国家涉密载体也日益数字化、网络化。涉密信息的载体也由传统的纸质档案变为电子档案,存储载体也由传统的档案室、保险箱变为了计算机存储设备。但是,信息化在提高工作效率的同时,也对保密工作提出了挑战。
保密工作关系着国家安全,定密工作作为开展保密工作的一个重要环节,其目的是确定哪些信息是国家秘密,哪些信息不是。传统的定密工作,一直依赖于人工,定密的准确性和工作效率不高。
辅助定密系统能辅助定密人员完成定密作业任务,帮助其进行密与非密的界定,完成对密级、保密期限和知悉范围的分析与判断,提高人工定密的准确率。此外,还能够帮助定密管理人员完成对定密授权和定密作业行为的有效监督和管理,完善规章制度的落实效果,方便人员进行定密申请、审核、审批以及管理,提高定密工作的效率和信息化程度。
图1示出了本申请实施例提供的辅助定密方法的流程示意图,应当理解,在其它实施例中,本实施例的辅助定密方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该辅助定密方法的详细步骤介绍如下。
步骤S110,对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合。
步骤S120,根据非定密文本段的发生概率范围表从第二分段集合中提取出关键段并作为已定密文档的关键段集合。
步骤S130,将第一分段集合中的每个任务分段与关键段集合中的每个关键段进行匹配,并根据匹配结果计算任务文档与已定密文档之间的结构化相似度。
步骤S140,根据结构化相似度生成任务文档的辅助定密结果。
基于上述步骤,本实施例通过非定密文本段的发生概率范围表从已定密文档中提取出关键段以考虑已定密文档中的重点部分,即对于涉密而言是否关键有效,并由此计算已定密文档与任务文档之间的结构化相似度,从而可以有效提高定密结果的准确性,更好地帮助定密的工作人员更高效更准确地完成定密工作。
在一种可能的实施方式中,为了在分段过程中区分合适的分段粒度,提高分段的语义准确性和完整性,请结合参阅图2,步骤S110可以通过以下子步骤进一步实现:
子步骤S111,根据预设噪声表去除任务文档和已定密文档中的噪声,并修正任务文档和已定密文档中各文本段的偏移。
本实施例中,预设噪声表可以根据需求收集语句中的常见噪声获得,本实施例对此不作具体限制。
子步骤S112,根据语义划分的标点符号,对去除噪声后的任务文档进行分段,得到第一分段集合,并对去除噪声后的已定密文档进行分段,得到第二分段集合。
例如在一种可能的示例中,本实施例可以根据语义划分的第一类标点符号对去除噪声后的任务文档和已定密文档进行第一次分段,得到任务文档的第一初始分段集合和已定密文档的第二初始分段集合。
其中,第一类标点符号可以包括但并不仅限于中文句号、中文感叹号、中文问号、英文问号、英文感叹号、制表符、换行符中的一种或者多种组合。
接着,可以针对任务文档的第一初始分段集合和已定密文档的第二初始分段集合中的每一个分段,判断该分段的段落长度,如果段落长度小于第一设定长度,则将该分段与该分段的下一分段组合成为一个组合分段,当组合分段的长度不大于第二设定长度时,将该组合分段确定一个可用分段。
此外,当组合分段的长度大于第二设定长度,且组合分段中不包含语义划分的第二类标点符号时,则对组合分段进行第二次分段,以使第二次分段后的组合分段的长度不大于第二设定长度,并将第二次分段后的分段确定为可用分段。
其中,第二类标点符号可以包括但并不仅限于中文分号、中文逗号、中文顿号、英文逗号、英文分号中的一种或者多种组合。
在一种可能的实施方式中,为了提高关键段提取的精确性,针对步骤S120,请结合参阅图3,可以通过以下子步骤进一步实现:
子步骤S121,获得定密交互对象选定的标题关键词和正文关键段,并针对第二分段集合中的每个分段,当该分段中包含有标题关键词时,将该分段确定为第一关键段,当该分段为正文关键段时,将该分段确定为第二关键段。
子步骤S122,针对第二分段集合中除去第一关键段和第二关键段之外的每个剩余分段,根据非定密文本段的发生概率范围表确定各个剩余分段的定密分值。
子步骤S123,根据各个剩余分段的定密分值对各个剩余分段进行排序,并根据排序结果从各个剩余分段中选择至少部分剩余分段确定为第三关键段。
子步骤S124,将第一关键段、第二关键段以及第三关键段组合形成已定密文档的关键段集合。
本实施例中,针对子步骤S121,定密交互对象可以是指用于选定标题关键词和正文关键段的任意对象,例如可以是用户对象,也可以是机器对象等,本实施例对此不作任何限制。对于第二分段集合中包含有标题关键词的分段,可以直接将该分段确定为第一关键段。当然,如果是定密交互对象直接选定的正文关键段时,可以将该分段直接确定为第二关键段。
在此基础上,本申请发明人考虑到定密交互对象难以做到穷尽细致选定所有的关键段,而除去以上第一关键段和第二关键段之外的剩余分段,也可能存在比较重要的关键段。
基于此,为了进一步从剩余分段中筛选出具有定密参考价值的第三关键段,在子步骤S122中,非定密文本段的发生概率范围表可以包括不同分段长度对应的发生概率范围。由此,本实施例可以对各个剩余分段进行分词,并根据分词得到的单词数量获得各个剩余分段的长度。
在此基础上,可以利用预先训练得到的多元语言模型计算该剩余分段的发生概率,并判断每个剩余分段的发生概率是否在非定密文本段的发生概率范围表中与该剩余分段的长度对应的发生概率范围内,得到判断结果。
其中,多元语言模型可以用于统计每个剩余分段的多元语法频次。作为一种可能的示例,多元语言模型可以为三元语言模型,详细地,三元语言模型可以通过以下训练过程获得:
首先,获取公开语料库文本并将公开语料库文本随机置乱后,选择第一比例的语料库文本作为训练集,并选择第二比例的语料库文本作为测试集,其中,训练集用于训练得到三元语言模型。
例如,公开语料库文本可以选用中文维基百科语料库文本、搜狗新闻语料库文本等公开文本,本实施例对此不作任何限制。第一比例和第二比例可以根据实际训练需求进行划分,例如,第一比例可以是90%,第二比例可以是10%,也即选择随机置乱后的公开语料库文本中,90%的语料库文本作为训练集,并选择10%的语料库文本作为测试集。
然后,可以对训练集中每个文本段进行分词,分别统计三元语法频次、二元语法频次以及一元语法频次。
详细地,三元语法可以用于表示每个单词的发生概率仅取决于该单词之前的两个单词,统计三元语法频次即统计该单词以及该单词之前的两个单词组成的序列在公开语料库文本中出现的次数。
再次,二元语法可以用于表示每个单词的发生概率仅取决于该单词之前的一个单词,统计二元语法频次即统计该单词以及该单词之前的一个单词组成的序列在公开语料库文本中出现的次数。
再次,一元语法可以用于表示每个单词的发生概率与其他单次词无关,统计一元语法频次即统计该单词在公开语料库文本中出现的次数。
本领域技术人员可以理解,在实际实施过程中,当多元语言模型采用N元语言模型时,则以上统计结果为:N元语法频次、N-1元语法频次、......、一元语法频次。
在此基础上,则可以根据三元语法频次、二元语法频次以及一元语法频次训练得到初始三元语言模型,然后根据初始三元语言模型计算测试集中每个测试文本段的发生概率。
其中,每个测试文本段的发生概率可以通过以下公式计算得到;
其中,λ1、λ2、λ3为平滑参数,满足λ1≥0,λ2≥0,λ3≥0,且λ1+λ2+λ3=1;c(wt)表示单词wt在训练集中出现的次数,c(wt-1wt)表示词序列wt-1wt在训练集中出现的次数,c(wt-1)、c(wt-2wt-1)、c(wt-2wt-1wt)分别表示词序列wt-1、wt-2wt-1、wt-2wt-1wt在训练集中出现的次数,V表示训练集中所有单词的数量。
由此,可以通过对每个测试文本段进行分词,根据分词得到的单词数量获得各个测试文本段的长度,以得到包括不同分段长度对应的发生概率范围的非定密文本段的发生概率范围表。
接着,可以以各个剩余分段分别作为图顶点,并以每两个剩余分段之间的相似度以及该两个剩余分段的发生概率两者的综合权重作为两个图顶点之间的边的权重,构造一个有权图,然后从有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据判断结果、第一顶点集合、第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的剩余分段的定密分值。
其中,每个图顶点对应的剩余分段的定密分值可以通过以下公式计算得到:
其中,WS(Vi)为图顶点Vi对应的剩余分段的定密分值,WS(Vj)为图顶点Vj对应的剩余分段的定密分值,Vi和Vj为所述有权图中相连接的两个图顶点,In(Vi)为指向Vi的第一顶点集合,Out(Vj)为Vj指向其它图顶点的第二顶点集合,Vk为属于Out(Vj)的顶点,d为阻尼因子,wji为从顶点Vj到顶点Vi的边的权重,wjk为从顶点Vj到顶点Vk的边的权重,wjk的计算方式同wji,α为权重平衡因子,Similarity(Vj,Vi)示Vj与Vi所对应的剩余分段之间的相似度,wk为剩余分段中有意义的词,|Vj|、|Vi|为Vj与Vi所对应的剩余分段中有意义的词数量,|{wk|wk∈Vj&wk∈Vi}|为剩余分段中属于Vj且又属于Vi的有意义的词数量,表示Vj所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应长度的发生概率范围内,若是则/>为0,否则/>为1,/>表示Vi所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应段长度的发生概率范围内,若是则/>为0,否则/>为1。
由此,在子步骤S123中,可以根据以上得到的各个剩余分段的定密分值对各个剩余分段进行排序,例如可以按照定密分值由高到低的顺序对各个剩余分段进行排序,然后从各个剩余分段中选择定密分值排序前N(N为正整数)的剩余分段确定为第三关键段,或者也可以从各个剩余分段中选择定密分值排序覆盖前50%的剩余分段确定为第三关键段。
在一种可能的实施方式中,针对步骤S130,本实施例可以针对参加匹配的任务分段和关键段,分别对该任务分段和该关键段进行哈希签名操作,并根据哈希签名结果计算该任务分段和该关键段之间的相似度。
例如,针对参加匹配的任务分段和关键段,分别对该任务分段和该关键段进行MinHash签名操作,依据MinHash签名计算该任务分段和该关键段的Jaccard相似度,若相似度值为1,则认为该任务分段和该关键段完全相同,若相似度值大于阈值M(0.5~0.7),则认为该任务分段和该关键段相似。
然后,可以根据第一分段集合中的每个任务分段与关键段集合中的每个关键之间的相似度确定第一分段集合与关键段集合的全局相似度,以得到任务文档与已定密文档之间的结构化相似度。
例如,可以在得到第一分段集合中的每个任务分段与关键段集合中的每个关键之间的相似度之后,记录任务文档与每个已定密文档的关键段的比值((A∩Bi)/A),其中(A∩Bi)代表通过相似度比较后获得的任务文件的任务分段与当前已定密文档Bi的关键段相同和相似的段的个数,A代表任务文件的总任务分段数,该比值((A∩Bi)/A)则为任务文档与已定密文档之间的结构化相似度。
在一种可能的实施方式中,针对步骤S140,可以判断结构化相似度是否大于设定相似度,当结构化相似度大于设定相似度时,则将任务文档标记为涉密文档。如此,可以认为此任务文档可能属于涉密文件,此时可通过交互界面交由定密专家对其进行具体鉴定。
基于同一发明构思,请参阅图4,示出了本申请实施例提供的辅助定密装置200的功能模块示意图,本实施例可以根据上述方法实施例对辅助定密装置200进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图4示出的辅助定密装置200只是一种装置示意图。其中,辅助定密装置200可以包括分段模块210、提取模块220、匹配模块230以及生成模块240,下面分别对该辅助定密装置200的各个功能模块的功能进行详细阐述。
分段模块210,用于对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合。可以理解,该分段模块210可以用于执行上述步骤S110,关于该分段模块210的详细实现方式可以参照上述对步骤S110有关的内容。
提取模块220,用于根据非定密文本段的发生概率范围表从第二分段集合中提取出关键段并作为已定密文档的关键段集合。可以理解,该提取模块220可以用于执行上述步骤S120,关于该提取模块220的详细实现方式可以参照上述对步骤S120有关的内容。
匹配模块230,用于将第一分段集合中的每个任务分段与关键段集合中的每个关键段进行匹配,并根据匹配结果计算任务文档与已定密文档之间的结构化相似度。可以理解,该匹配模块230可以用于执行上述步骤S130,关于该匹配模块230的详细实现方式可以参照上述对步骤S130有关的内容。
生成模块240,用于根据结构化相似度生成任务文档的辅助定密结果。可以理解,该生成模块240可以用于执行上述步骤S140,关于该生成模块240的详细实现方式可以参照上述对步骤S140有关的内容。
在一种可能的实施方式中,分段模块210通过以下方式对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合:
根据预设噪声表去除任务文档和已定密文档中的噪声,并修正任务文档和已定密文档中各文本段的偏移;
根据语义划分的标点符号,对去除噪声后的任务文档进行分段,得到第一分段集合,并对去除噪声后的已定密文档进行分段,得到第二分段集合。
在一种可能的实施方式中,分段模块210通过以下方式对去除噪声后的任务文档进行分段,得到第一分段集合,并对去除噪声后的已定密文档进行分段,得到第二分段集合:
根据语义划分的第一类标点符号对去除噪声后的任务文档和已定密文档进行第一次分段,得到任务文档的第一初始分段集合和已定密文档的第二初始分段集合,其中,第一类标点符号包括中文句号、中文感叹号、中文问号、英文问号、英文感叹号、制表符、换行符中的一种或者多种组合;
针对任务文档的第一初始分段集合和已定密文档的第二初始分段集合中的每一个分段,判断该分段的段落长度,如果段落长度小于第一设定长度,则将该分段与该分段的下一分段组合成为一个组合分段;
当组合分段的长度不大于第二设定长度时,将该组合分段确定一个可用分段;
当组合分段的长度大于第二设定长度,且组合分段中不包含语义划分的第二类标点符号时,则对组合分段进行第二次分段,以使第二次分段后的组合分段的长度不大于第二设定长度,并将第二次分段后的分段确定为可用分段,其中,第二类标点符号包括中文分号、中文逗号、中文顿号、英文逗号、英文分号中的一种或者多种组合。
在一种可能的实施方式中,提取模块220通过以下方式从第二分段集合中提取出关键段并作为已定密文档的关键段集合:
获得定密交互对象选定的标题关键词和正文关键段,并针对第二分段集合中的每个分段,当该分段中包含有标题关键词时,将该分段确定为第一关键段,当该分段为正文关键段时,将该分段确定为第二关键段;
针对第二分段集合中除去第一关键段和第二关键段之外的每个剩余分段,根据非定密文本段的发生概率范围表确定各个剩余分段的定密分值;
根据各个剩余分段的定密分值对各个剩余分段进行排序,并根据排序结果从各个剩余分段中选择至少部分剩余分段确定为第三关键段;
将第一关键段、第二关键段以及第三关键段组合形成已定密文档的关键段集合。
在一种可能的实施方式中,非定密文本段的发生概率范围表包括不同分段长度对应的发生概率范围,提取模块220通过以下方式确定各个剩余分段的定密分值:
对各个剩余分段进行分词,并根据分词得到的单词数量获得各个剩余分段的长度;
利用预先训练得到的多元语言模型计算该剩余分段的发生概率,并判断每个剩余分段的发生概率是否在非定密文本段的发生概率范围表中与该剩余分段的长度对应的发生概率范围内,得到判断结果;
以各个剩余分段分别作为图顶点,并以每两个剩余分段之间的相似度以及该两个剩余分段的发生概率两者的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据判断结果、第一顶点集合、第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的剩余分段的定密分值。
在一种可能的实施方式中,每个图顶点对应的剩余分段的定密分值通过以下公式计算得到:
其中,WS(Vi)为图顶点Vi对应的剩余分段的定密分值,WS(j)为图顶点Vj对应的剩余分段的定密分值,Vi和Vj为所述有权图中相连接的两个图顶点,In(Vi)为指向Vi的第一顶点集合,Out(Vj)为Vj指向其它图顶点的第二顶点集合,Vk为属于Out(Vj)的顶点,d为阻尼因子,wji为从顶点Vj到顶点Vi的边的权重,wjk为从顶点Vj到顶点Vk的边的权重,wjk的计算方式同wji,为权重平衡因子,Similarity(Vj,Vi)示Vj与Vi所对应的剩余分段之间的相似度,wk为剩余分段中有意义的词,|Vj|、|Vi|为Vj与Vi所对应的剩余分段中有意义的词数量,|{wk|wk∈Vj&wk∈Vi}|为剩余分段中属于Vj且又属于Vi的有意义的词数量,表示Vj所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应长度的发生概率范围内,若是则/>为0,否则/>为1,/>表示Vi所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应段长度的发生概率范围内,若是则/>为0,否则/>为1。
在一种可能的实施方式中,多元语言模型为三元语言模型,三元语言模型通过以下训练过程获得:
获取公开语料库文本并将公开语料库文本随机置乱后,选择第一比例的语料库文本作为训练集,并选择第二比例的语料库文本作为测试集,其中,训练集用于训练得到三元语言模型;
对训练集中每个文本段进行分词,分别统计三元语法频次、二元语法频次以及一元语法频次,三元语法用于表示每个单词的发生概率仅取决于该单词之前的两个单词,统计三元语法频次即统计该单词以及该单词之前的两个单词组成的序列在公开语料库文本中出现的次数,二元语法用于表示每个单词的发生概率仅取决于该单词之前的一个单词,统计二元语法频次即统计该单词以及该单词之前的一个单词组成的序列在公开语料库文本中出现的次数,一元语法用于表示每个单词的发生概率与其他单次词无关,统计一元语法频次即统计该单词在公开语料库文本中出现的次数;
根据三元语法频次、二元语法频次以及一元语法频次训练得到初始三元语言模型;
根据初始三元语言模型计算测试集中每个测试文本段的发生概率,并对每个测试文本段进行分词,根据分词得到的单词数量获得各个测试文本段的长度,以得到包括不同分段长度对应的发生概率范围的非定密文本段的发生概率范围表;
其中,每个测试文本段的发生概率通过以下公式计算得到;
其中,λ1、λ2、λ3为平滑参数,满足λ1≥0,λ2≥0,λ3≥0,且λ1+λ2+λ3=1;c(wt)表示单词wt在训练集中出现的次数,c(wt-1wt)表示词序列wt-1wt在训练集中出现的次数,c(wt-1)、c(wt-2wt-1)、c(wt-2wt-1wt)分别表示词序列wt-1、wt-2wt-1、wt-2wt-1wt在训练集中出现的次数,V表示训练集中所有单词的数量。
在一种可能的实施方式中,匹配模块230通过以下方式将第一分段集合中的每个任务分段与关键段集合中的每个关键段进行匹配,并根据匹配结果计算任务文档与已定密文档之间的结构化相似度:
针对参加匹配的任务分段和关键段,分别对该任务分段和该关键段进行哈希签名操作,并根据哈希签名结果计算该任务分段和该关键段之间的相似度;
根据第一分段集合中的每个任务分段与关键段集合中的每个关键之间的相似度确定第一分段集合与关键段集合的全局相似度,以得到任务文档与已定密文档之间的结构化相似度。
在一种可能的实施方式中,生成模块240通过以下方式生成任务文档的辅助定密结果:
判断结构化相似度是否大于设定相似度,当结构化相似度大于设定相似度时,将任务文档标记为涉密文档。
基于同一发明构思,请参阅图5,示出了本申请实施例提供的用于执行上述辅助定密方法的电子设备100的结构示意框图,该电子设备100可以包括机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于电子设备100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于电子设备100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
处理器130是该电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分,通过运行或执行存储在机器可读存储介质120内的软件程序和/或模块,以及调用存储在机器可读存储介质120内的数据,执行该电子设备100的各种功能和处理数据,从而对电子设备100进行整体监控。可选地,处理器130可包括一个或多个处理核心;例如,处理器130可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,处理器130可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制上述方法实施例提供的辅助定密方法的程序执行的集成电路。
机器可读存储介质120可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-OnlyMEMory,EEPROM)、只读光盘(Compactdisc Read-Only MEMory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。机器可读存储介质120可以是独立存在,通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中,机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令,以实现前述方法实施例提供的辅助定密方法。
由于本申请实施例提供的电子设备100是上述电子设备100执行的方法实施例的另一种实现形式,且电子设备100可用于执行上述方法实施例提供的辅助定密方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
进一步地,本申请实施例还提供一种包含计算机可执行指令的可读存储介质,计算机可执行指令在被执行时可以用于实现上述方法实施例提供的辅助定密方法。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的辅助定密方法中的相关操作。
本申请实施例是参照根据本申请实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种辅助定密方法,其特征在于,应用于电子设备,所述电子设备预先配置有非定密文本段的发生概率范围表,所述方法包括:
对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合;
根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合;
将所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键段进行匹配,并根据匹配结果计算所述任务文档与所述已定密文档之间的结构化相似度;
根据所述结构化相似度生成所述任务文档的辅助定密结果;
其中,所述根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合的步骤,包括:
获得定密交互对象选定的标题关键词和正文关键段,并针对所述第二分段集合中的每个分段,当该分段中包含有所述标题关键词时,将该分段确定为第一关键段,当该分段为所述正文关键段时,将该分段确定为第二关键段;
针对所述第二分段集合中除去所述第一关键段和所述第二关键段之外的每个剩余分段,根据所述非定密文本段的发生概率范围表确定各个剩余分段的定密分值;
根据各个剩余分段的定密分值对各个剩余分段进行排序,并根据所述排序结果从所述各个剩余分段中选择至少部分剩余分段确定为第三关键段;
将所述第一关键段、所述第二关键段以及所述第三关键段组合形成所述已定密文档的关键段集合;
其中,所述非定密文本段的发生概率范围表包括不同分段长度对应的发生概率范围,所述根据所述非定密文本段的发生概率范围表确定各个剩余分段的定密分值的步骤,包括:
对各个剩余分段进行分词,并根据分词得到的单词数量获得各个剩余分段的长度;
利用预先训练得到的多元语言模型计算该剩余分段的发生概率,并判断每个剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中与该剩余分段的长度对应的发生概率范围内,得到判断结果;
以各个剩余分段分别作为图顶点,并以每两个剩余分段之间的相似度以及该两个剩余分段的发生概率两者的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述判断结果、所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的剩余分段的定密分值;
其中,所述多元语言模型为三元语言模型,所述三元语言模型通过以下训练过程获得:
获取公开语料库文本并将所述公开语料库文本随机置乱后,选择第一比例的语料库文本作为训练集,并选择第二比例的语料库文本作为测试集,其中,所述训练集用于训练得到所述三元语言模型;
对所述训练集中每个文本段进行分词,分别统计三元语法频次、二元语法频次以及一元语法频次,三元语法用于表示每个单词的发生概率仅取决于该单词之前的两个单词,统计三元语法频次即统计该单词以及该单词之前的两个单词组成的序列在公开语料库文本中出现的次数,二元语法用于表示每个单词的发生概率仅取决于该单词之前的一个单词,统计所述二元语法频次即统计该单词以及该单词之前的一个单词组成的序列在公开语料库文本中出现的次数,一元语法用于表示每个单词的发生概率与其他单次词无关,统计一元语法频次即统计该单词在公开语料库文本中出现的次数;
根据所述三元语法频次、二元语法频次以及一元语法频次训练得到初始三元语言模型;
根据所述初始三元语言模型计算所述测试集中每个测试文本段的发生概率,并对每个测试文本段进行分词,根据分词得到的单词数量获得各个测试文本段的长度,以得到包括不同分段长度对应的发生概率范围的非定密文本段的发生概率范围表;
其中,每个测试文本段的发生概率通过以下公式计算得到;
其中,λ1、λ2、λ3为平滑参数,满足λ1≥0,λ2≥0,λ3≥0,且λ1+λ2+λ3=1;c(wt)表示单词wt在训练集中出现的次数,c(wt-1wt)表示词序列wt-1wt在训练集中出现的次数,c(wt-1)、c(wt- 2wt-1)、c(wt-2wt-1wt)分别表示词序列wt-1、wt-2wt-1、wt-2wt-1wt在训练集中出现的次数,V表示训练集中所有单词的数量。
2.根据权利要求1所述的辅助定密方法,其特征在于,所述对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合的步骤,包括:
根据预设噪声表去除所述任务文档和所述已定密文档中的噪声,并修正所述任务文档和已定密文档中各文本段的偏移;
根据语义划分的标点符号,对去除噪声后的所述任务文档进行分段,得到所述第一分段集合,并对去除噪声后的所述已定密文档进行分段,得到所述第二分段集合。
3.根据权利要求2所述的辅助定密方法,其特征在于,所述根据语义划分的标点符号,对去除噪声后的所述任务文档进行分段,得到所述第一分段集合,并对去除噪声后的所述已定密文档进行分段,得到所述第二分段集合的步骤,包括:
根据语义划分的第一类标点符号对去除噪声后的所述任务文档和所述已定密文档进行第一次分段,得到所述任务文档的第一初始分段集合和所述已定密文档的第二初始分段集合,其中,所述第一类标点符号包括中文句号、中文感叹号、中文问号、英文问号、英文感叹号、制表符、换行符中的一种或者多种组合;
针对所述任务文档的第一初始分段集合和所述已定密文档的第二初始分段集合中的每一个分段,判断该分段的段落长度,如果所述段落长度小于第一设定长度,则将该分段与该分段的下一分段组合成为一个组合分段;
当所述组合分段的长度不大于第二设定长度时,将该组合分段确定一个可用分段;
当所述组合分段的长度大于第二设定长度,且所述组合分段中不包含语义划分的第二类标点符号时,则对所述组合分段进行第二次分段,以使第二次分段后的所述组合分段的长度不大于第二设定长度,并将第二次分段后的分段确定为可用分段,其中,所述第二类标点符号包括中文分号、中文逗号、中文顿号、英文逗号、英文分号中的一种或者多种组合。
4.根据权利要求1所述的辅助定密方法,其特征在于,每个图顶点对应的剩余分段的定密分值通过以下公式计算得到:
其中,WS(Vi)为图顶点Vi对应的剩余分段的定密分值,WS(Vj)为图顶点Vj对应的剩余分段的定密分值,Vi和Vj为所述有权图中相连接的两个图顶点,In(Vi)为指向Vi的第一顶点集合,Out(Vj)为Vj指向其它图顶点的第二顶点集合,Vk为属于Out(Vj)的顶点,d为阻尼因子,wji为从顶点Vj到顶点Vi的边的权重,wjk为从顶点Vj到顶点Vk的边的权重,wjk的计算方式同wji,α为权重平衡因子,Similarity(Vj,Vi)表示Vj与Vi所对应的剩余分段之间的相似度,wk为剩余分段中有意义的词,|Vj|、|Vi|为Vj与Vi所对应的剩余分段中有意义的词数量,|{wk|wk∈Vj&wk∈Vi}|为剩余分段中属于Vj且又属于Vi的有意义的词数量,表示Vj所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应长度的发生概率范围内,若是则/>为0,否则/>为1,/>表示Vi所对应的剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中对应段长度的发生概率范围内,若是则/>为0,否则/>为1。
5.根据权利要求1-4中任意一项所述的辅助定密方法,其特征在于,所述将所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键段进行匹配,并根据匹配结果计算所述任务文档与所述已定密文档之间的结构化相似度的步骤,包括:
针对参加匹配的任务分段和关键段,分别对该任务分段和该关键段进行哈希签名操作,并根据哈希签名结果计算该任务分段和该关键段之间的相似度;
根据所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键之间的相似度确定所述第一分段集合与所述关键段集合的全局相似度,以得到所述任务文档与所述已定密文档之间的结构化相似度。
6.根据权利要求1-4中任意一项所述的辅助定密方法,其特征在于,所述根据所述结构化相似度生成所述任务文档的辅助定密结果的步骤,包括:
判断所述结构化相似度是否大于设定相似度,当所述结构化相似度大于设定相似度时,将所述任务文档标记为涉密文档。
7.一种辅助定密装置,其特征在于,应用于电子设备,所述电子设备预先配置有非定密文本段的发生概率范围表,所述装置包括:
分段模块,用于对任务文档进行分段,得到由多个任务分段组成的第一分段集合,并对已定密文档进行分段,得到由多个定密分段组成的第二分段集合;
提取模块,用于根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合;
匹配模块,用于将所述第一分段集合中的每个任务分段与所述关键段集合中的每个关键段进行匹配,并根据匹配结果计算所述任务文档与所述已定密文档之间的结构化相似度;
生成模块,用于根据所述结构化相似度生成所述任务文档的辅助定密结果;
其中,所述提取模块根据所述非定密文本段的发生概率范围表从所述第二分段集合中提取出关键段并作为所述已定密文档的关键段集合的方式,包括:
获得定密交互对象选定的标题关键词和正文关键段,并针对所述第二分段集合中的每个分段,当该分段中包含有所述标题关键词时,将该分段确定为第一关键段,当该分段为所述正文关键段时,将该分段确定为第二关键段;
针对所述第二分段集合中除去所述第一关键段和所述第二关键段之外的每个剩余分段,根据所述非定密文本段的发生概率范围表确定各个剩余分段的定密分值;
根据各个剩余分段的定密分值对各个剩余分段进行排序,并根据所述排序结果从所述各个剩余分段中选择至少部分剩余分段确定为第三关键段;
将所述第一关键段、所述第二关键段以及所述第三关键段组合形成所述已定密文档的关键段集合;
其中,所述非定密文本段的发生概率范围表包括不同分段长度对应的发生概率范围,所述根据所述非定密文本段的发生概率范围表确定各个剩余分段的定密分值的方式,包括:
对各个剩余分段进行分词,并根据分词得到的单词数量获得各个剩余分段的长度;
利用预先训练得到的多元语言模型计算该剩余分段的发生概率,并判断每个剩余分段的发生概率是否在所述非定密文本段的发生概率范围表中与该剩余分段的长度对应的发生概率范围内,得到判断结果;
以各个剩余分段分别作为图顶点,并以每两个剩余分段之间的相似度以及该两个剩余分段的发生概率两者的综合权重作为两个图顶点之间的边的权重,构造一个有权图;
从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述判断结果、所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的剩余分段的定密分值;
其中,所述多元语言模型为三元语言模型,所述三元语言模型通过以下训练过程获得:
获取公开语料库文本并将所述公开语料库文本随机置乱后,选择第一比例的语料库文本作为训练集,并选择第二比例的语料库文本作为测试集,其中,所述训练集用于训练得到所述三元语言模型;
对所述训练集中每个文本段进行分词,分别统计三元语法频次、二元语法频次以及一元语法频次,三元语法用于表示每个单词的发生概率仅取决于该单词之前的两个单词,统计三元语法频次即统计该单词以及该单词之前的两个单词组成的序列在公开语料库文本中出现的次数,二元语法用于表示每个单词的发生概率仅取决于该单词之前的一个单词,统计所述二元语法频次即统计该单词以及该单词之前的一个单词组成的序列在公开语料库文本中出现的次数,一元语法用于表示每个单词的发生概率与其他单次词无关,统计一元语法频次即统计该单词在公开语料库文本中出现的次数;
根据所述三元语法频次、二元语法频次以及一元语法频次训练得到初始三元语言模型;
根据所述初始三元语言模型计算所述测试集中每个测试文本段的发生概率,并对每个测试文本段进行分词,根据分词得到的单词数量获得各个测试文本段的长度,以得到包括不同分段长度对应的发生概率范围的非定密文本段的发生概率范围表;
其中,每个测试文本段的发生概率通过以下公式计算得到;
其中,λ1、λ2、λ3为平滑参数,满足λ1≥0,λ2≥0,λ3≥0,且λ1+λ2+λ3=1;c(wt)表示单词wt在训练集中出现的次数,c(wt-1wt)表示词序列wt-1wt在训练集中出现的次数,c(wt-1)、c(wt- 2wt-1)、c(wt-2wt-1wt)分别表示词序列wt-1、wt-2wt-1、wt-2wt-1wt在训练集中出现的次数,V表示训练集中所有单词的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111504.6A CN111353301B (zh) | 2020-02-24 | 2020-02-24 | 辅助定密方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111504.6A CN111353301B (zh) | 2020-02-24 | 2020-02-24 | 辅助定密方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353301A CN111353301A (zh) | 2020-06-30 |
CN111353301B true CN111353301B (zh) | 2023-07-21 |
Family
ID=71195710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010111504.6A Active CN111353301B (zh) | 2020-02-24 | 2020-02-24 | 辅助定密方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353301B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819604A (zh) * | 2012-08-20 | 2012-12-12 | 徐亮 | 基于内容相关性的文件涉密内容检索、密级判定及标注方法 |
CN103400059A (zh) * | 2006-07-19 | 2013-11-20 | 先进追踪和寻踪公司 | 保护和验证文件的方法和设备 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3622503B2 (ja) * | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US20060294060A1 (en) * | 2003-09-30 | 2006-12-28 | Hiroaki Masuyama | Similarity calculation device and similarity calculation program |
US20080181397A1 (en) * | 2007-01-25 | 2008-07-31 | John Wilson Dorminy | Secure data transmission and storage using limited-domain functions |
US8238669B2 (en) * | 2007-08-22 | 2012-08-07 | Google Inc. | Detection and classification of matches between time-based media |
US20120296637A1 (en) * | 2011-05-20 | 2012-11-22 | Smiley Edwin Lee | Method and apparatus for calculating topical categorization of electronic documents in a collection |
KR101515413B1 (ko) * | 2013-08-14 | 2015-04-29 | 숭실대학교산학협력단 | 전문분야 검색 지원 방법 및 그 장치 |
CN103544230A (zh) * | 2013-10-07 | 2014-01-29 | 宁波芝立软件有限公司 | 一种亲缘关系结点属性复用方法、系统及设备 |
CN105260878B (zh) * | 2015-09-23 | 2020-10-20 | 成都网安科技发展有限公司 | 辅助定密方法和装置 |
CN105260709B (zh) * | 2015-09-28 | 2018-11-02 | 北京石油化工学院 | 基于图像处理的水表检定方法、装置及系统 |
KR20180019437A (ko) * | 2016-08-16 | 2018-02-26 | 한국전자통신연구원 | 세트 멤버쉽 결정을 위한 테이블 검색 방법 및 이를 이용하는 테이블 검색 장치 |
CN106598940A (zh) * | 2016-11-01 | 2017-04-26 | 四川用联信息技术有限公司 | 基于全局优化关键词质量的文本相似度求解算法 |
CN106970910B (zh) * | 2017-03-31 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN108733766B (zh) * | 2018-04-17 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109344396A (zh) * | 2018-08-31 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置、及计算机设备 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109299228B (zh) * | 2018-11-27 | 2021-09-03 | 创新先进技术有限公司 | 计算机执行的文本风险预测方法及装置 |
CN109858028B (zh) * | 2019-01-30 | 2022-11-18 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN109948851A (zh) * | 2019-03-20 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于预测事件发生概率的方法和装置 |
CN110413745B (zh) * | 2019-06-21 | 2023-06-23 | 创新先进技术有限公司 | 选择代表文本的方法、确定标准问题的方法及装置 |
CN110647505B (zh) * | 2019-08-21 | 2021-06-29 | 杭州电子科技大学 | 一种基于指纹特征的计算机辅助密点标注方法 |
-
2020
- 2020-02-24 CN CN202010111504.6A patent/CN111353301B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400059A (zh) * | 2006-07-19 | 2013-11-20 | 先进追踪和寻踪公司 | 保护和验证文件的方法和设备 |
CN102819604A (zh) * | 2012-08-20 | 2012-12-12 | 徐亮 | 基于内容相关性的文件涉密内容检索、密级判定及标注方法 |
Non-Patent Citations (2)
Title |
---|
Research and application of news-text similarity algorithm based on Chinese word segmentation;Wei Guan等;《2013 3rd International Conference on Consumer Electronics, Communications and Networks》;全文 * |
基于VSM和余弦相似度的稿件精准送审方法;孟美任等;《中国科技期刊研究》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111353301A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN111159697B (zh) | 一种密钥检测方法、装置及电子设备 | |
CN104572958A (zh) | 一种基于事件抽取的敏感信息监控方法 | |
JPH10187754A (ja) | ドキュメント分類装置及び方法 | |
CN108021545B (zh) | 一种司法文书的案由提取方法及装置 | |
CN109753987B (zh) | 文件识别方法和特征提取方法 | |
CN106708798B (zh) | 一种字符串切分方法及装置 | |
CN110909531A (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
CN113961768B (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN115809662B (zh) | 一种文本内容异常检测的方法、装置、设备及介质 | |
CN107678560B (zh) | 输入法的候选结果生成方法及装置、存储介质、电子设备 | |
CN113381963A (zh) | 一种域名检测方法、装置和存储介质 | |
US9396177B1 (en) | Systems and methods for document tracking using elastic graph-based hierarchical analysis | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN110020430B (zh) | 一种恶意信息识别方法、装置、设备及存储介质 | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
CN111783812A (zh) | 违禁图像识别方法、装置和计算机可读存储介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN111353301B (zh) | 辅助定密方法及装置 | |
CN113094543A (zh) | 一种音乐鉴权方法、装置、设备及介质 | |
CN112329443A (zh) | 一种确定新词的方法、装置,计算机设备和介质 | |
CN113420545B (zh) | 摘要生成方法、装置、设备及存储介质 | |
Rodriguez-Bazan et al. | Android Ransomware Analysis Using Convolutional Neural Network and Fuzzy Hashing Features | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN113268986B (zh) | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |