CN116775888B

CN116775888B - 一种用于档案形成单位开放审核的方法及系统

Info

Publication number: CN116775888B
Application number: CN202311064099.7A
Authority: CN
Inventors: 邹华; 徐志国; 秦岭; 蒋守国; 章瑾; 王楠; 宋永生; 臧萌; 周红; 李军; 郭晓华; 韦秀霞
Original assignee: Jiangsu United Industrial Ltd By Share Ltd
Current assignee: Jiangsu United Industrial Ltd By Share Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-10-20
Anticipated expiration: 2043-08-23
Also published as: CN116775888A

Abstract

本发明提供了一种用于档案形成单位开放审核的方法及系统，涉及数据处理技术领域，包括：获取多级公开敏感词集合，并获得多个敏感值数据库，构建鉴定词典，进行开放时间鉴定，合格时对目标档案进行处理，并获得目标独热编码集合，计算获得多个累计独热值和多个累计敏感值，获得第一敏感鉴定系数，构建语义开放鉴定通道，并内嵌于敏感词开放鉴定通道，输入语义开放鉴定通道内，获得第二敏感鉴定系数，进行计算获得综合敏感鉴定系数，输入开放审核通道内，获得开放审核结果，包括开放、人工审核和不开放。本发明解决了传统的档案开放审核存在主要依赖于人工操作，其效率较低且易受主观因素影响，导致档案开放审核效率低、效果差的技术问题。

Description

一种用于档案形成单位开放审核的方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种用于档案形成单位开放审核的方法及系统。

背景技术

档案开放审核是一个关键的环节，涉及公共信息资源的安全和利用，档案形成单位将建立的档案移交至综合档案馆，综合档案馆执行档案开放审核工作。但是在档案管理标准下，综合档案馆需要执行的档案开放审核工作过于复杂和庞大，所以需要档案形成单位在移交档案时，对档案进行预先的审核，以减少综合档案馆的档案开放审核工作量。

档案形成单位内传统的档案开放审核主要依赖于人工操作，其效率较低且易受主观因素影响，随着大数据、云计算和人工智能等技术的快速发展，自动化档案开放审核成为一种新的需求和趋势。然而现今常用的自动化档案开放审核的方法还存在着一定的弊端，例如鉴定误判率较高，对于档案开放审核的方法还存在着一定的可提升空间。

发明内容

本申请通过提供了一种用于档案形成单位开放审核的方法及系统，旨在解决现有的自动化档案开放审核存在鉴定效率低、误判率较高、效果差的技术问题。

鉴于上述问题，本申请提供了一种用于档案形成单位开放审核的方法及系统。

本申请公开的第一个方面，提供了一种用于档案形成单位开放审核的方法，所述方法包括：根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，每个敏感值数据库内包括多个敏感词的敏感值；基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合；对待进行鉴定的目标档案进行开放时间鉴定，在开放时间鉴定合格时，对所述目标档案进行处理，并根据所述鉴定词典，获得目标独热编码集合；筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数；构建语义开放鉴定通道，并内嵌于所述敏感词开放鉴定通道，将所述目标独热编码集合输入所述语义开放鉴定通道内，获得第二敏感鉴定系数；对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，所述开放审核结果包括开放、人工审核和不开放。

本申请公开的另一个方面，提供了一种用于档案形成单位开放审核的系统，所述系统包括：敏感值数据库获取模块，所述敏感值数据库获取模块用于根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，每个敏感值数据库内包括多个敏感词的敏感值；鉴定词典构建模块，所述鉴定词典构建模块用于基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合；开放时间鉴定模块，所述开放时间鉴定模块用于对待进行鉴定的目标档案进行开放时间鉴定，在开放时间鉴定合格时，对所述目标档案进行处理，并根据所述鉴定词典，获得目标独热编码集合；第一系数获取模块，所述第一系数获取模块用于筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数；第二系数获取模块，所述第二系数获取模块用于构建语义开放鉴定通道，并内嵌于所述敏感词开放鉴定通道，将所述目标独热编码集合输入所述语义开放鉴定通道内，获得第二敏感鉴定系数；系数计算模块，所述系数计算模块用于对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，所述开放审核结果包括开放、人工审核和不开放。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

获取多级公开敏感词集合，并获得多个敏感值数据库，包括多个敏感词的敏感值，构建鉴定词典，包括多个敏感独热编码集合，进行开放时间鉴定，合格时对目标档案进行处理，并获得目标独热编码集合，筛选，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道，获得第一敏感鉴定系数，构建语义开放鉴定通道，并内嵌于敏感词开放鉴定通道，输入语义开放鉴定通道内，获得第二敏感鉴定系数，进行计算获得综合敏感鉴定系数，输入开放审核通道内，获得开放审核结果，包括开放、人工审核和不开放。本申请通过融合公开敏感词的数量并引入敏感值计算，提升公开鉴定审核的准确性，提升的自动化档案开放审核误判率较高的技术问题，解决了传统的档案开放审核存在主要依赖于人工操作，其效率较低且易受主观因素影响，导致档案开放审核效率低、效果差的技术问题，实现了对档案数据的自动化敏感度评估和鉴定，减轻人工审核的负担，同时对文本进行语义分析，实现对文本主题的分析，实现多维融合鉴定，达到提升审核的精确性、提高审核工作效率的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例提供了一种用于档案形成单位开放审核的方法流程示意图；

图2为本申请实施例提供了一种用于档案形成单位开放审核的方法中获得多个敏感值数据库可能的流程示意图；

图3为本申请实施例提供了一种用于档案形成单位开放审核的方法中获得多个敏感独热编码集合可能的流程示意图；

图4为本申请实施例提供了一种用于档案形成单位开放审核的系统可能的结构示意图。

附图标记说明：敏感值数据库获取模块10，鉴定词典构建模块20，开放时间鉴定模块30，第一系数获取模块40，第二系数获取模块50，系数计算模块60。

具体实施方式

本申请实施例通过提供一种用于档案形成单位开放审核的方法，通过融合公开敏感词的数量并引入敏感值计算，提升公开鉴定审核的准确性，提升的自动化档案开放审核误判率较高的技术问题，解决了传统的档案开放审核存在主要依赖于人工操作，其效率较低且易受主观因素影响，导致档案开放审核效率低、效果差的技术问题，实现了对档案数据的自动化敏感度评估和鉴定，减轻人工审核的负担，同时对文本进行语义分析，实现对文本主题的分析，实现多维融合鉴定，达到提升审核的精确性、提高审核工作效率的技术效果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种用于档案形成单位开放审核的方法，所述方法包括：

步骤S100：根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，每个敏感值数据库内包括多个敏感词的敏感值；

进一步而言，如图2所示，本申请步骤S100还包括：

步骤S110：获取所述目标档案馆内的多级公开敏感内容，并构建获得多级公开敏感词集合；

步骤S120：根据所述多级公开敏感词集合的敏感程度，进行敏感值分配，获得多个敏感值集合；

步骤S130：构建所述多级公开敏感词集合和多个敏感值集合的映射关系，获得所述多个敏感值数据库。

具体而言，将档案形成单位视为目标档案馆，所述目标档案馆为档案形成单位的代指，而不是真实的档案馆，通过文献检索等方式，获取目标档案馆的多级公开敏感内容，所述多级公开敏感内容对应不同等级，比如省级、市级、区级不同级别所认为的敏感内容。使用自然语言处理技术、数据挖掘技术等方法，对获取到的多级公开敏感内容进行处理，包括分词、词性标注、实体识别、关键词提取等操作，提取其中的敏感词，将提取出来的敏感词进行整合，构建多级公开敏感词集合，这个集合中包含了各种级别的敏感词，可以用于后续的敏感内容鉴定和管理。

根据敏感词的内容、来源、影响等因素，基于本领域技术人员，将多级公开敏感词集合中的敏感词按照不同的类型和级别进行分类和分级，使用专业知识、数据统计等方法，为每个敏感词指定一个敏感值范围或阈值，进行敏感程度评估，根据敏感词的分类、级别和敏感程度，对其进行敏感值分配。将所有敏感词的敏感值按照类别、级别等因素进行整合，获得多个敏感值集合，其中每个集合中包含了一类或一级别敏感词的敏感值信息，可以用于后续的敏感内容鉴定和管理。

根据敏感词的分类、级别和敏感程度等，对多级公开敏感词集合和多个敏感值集合之间进行映射关系的建立，根据映射关系，将多级公开敏感词集合和多个敏感值集合存储到敏感值数据库中。这个数据库包含了不同类型和级别的敏感词及其对应的敏感值信息，用于后续的敏感内容鉴定和管理。

步骤S200：基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合；

具体而言，进一步而言，如图3所示，本申请步骤S200还包括：

步骤S210：获取所述目标档案馆内档案的词集合和词总量，并将词总量记为N；

步骤S220：基于N位寄存器，构建所述词集合内每个词的独热编码，获得所述鉴定词典；

步骤S230：汇总所述多级公开敏感词集合内公开敏感词的独热编码，获得所述多个敏感独热编码集合。

具体而言，所述独热编码为现有技术里的One-Hot编码，又称一位有效编码，是一种将离散特征进行编码的方法，对于一个有N种可能取值的离散特征，可以用N位二进制数来表示，每个特征值对应一个唯一的二进制数，这样，每个离散特征就可以转化为一个长度为N的向量，其中只有一个元素是 1，其余元素都是0，这个元素的位置与该特征值对应的二进制数的位置相同。独热编码的好处是可以将离散特征转化为数值型特征，使得模型更容易处理。

对目标档案馆内的文本进行预处理，例如去除停用词、标点符号等，通过分词技术，将预处理后的文本切分为一个个词语，并将这些词语组成一个词集合，在分词的过程中，统计所有词语的数量，并将其记为词总量N，同时，也可以直接对现有的词典进行独热编码。

根据所述词集合的大小，确定N的值，通常情况下，N的值等于词集合的大小，即词集合中的词语数量。对于词集合中的每个词，使用N位寄存器进行独热编码，具体来说，将第i个词编码为一个长度为N的二进制向量，其中第i位为1，其余位均为0。将所有词的独热编码按照词集合中的顺序排列，构建一个鉴定词典，这个词典中包含了每个词的独热编码信息，用于后续的词语匹配和文本分类。

将同一类别或级别的公开敏感词的独热编码按顺序排列，并构成一个敏感独热编码集合，这个集合包含了同一类别或级别敏感词的独热编码信息，根据多级公开敏感词集合的分类和分级信息，将所有敏感独热编码集合进行整合和分类，并构建多个敏感独热编码集合。

步骤S300：对待进行鉴定的目标档案进行开放时间鉴定，在开放时间鉴定合格时，对所述目标档案进行处理，并根据所述鉴定词典，获得目标独热编码集合；

具体而言，待进行鉴定的目标档案为立档单位上传的待审核档案，对于目标档案，调取其具体的开放时间规则，比如必须达到2年才能开放等，根据这些规则，通过日期计算，判断当前是否已经到了开放时间。如果目标档案已经到达开放时间，就可以进行处理，这个过程包括解密、解压缩、数据清洗等操作，并进行停用词处理、分词处理等，将其转化为可供敏感词鉴定的形式，以确保文本格式正确且可以被鉴定词典所识别。

根据已有的鉴定词典，将目标档案中的文本内容转化为独热编码集合，如果目标档案中的文本内容与鉴定词典中的某一个独热编码匹配，那么就认为这个文本内容是敏感内容，在此过程中，需要使用独热编码对文本进行转换，并使用匹配算法来确定文本是否与鉴定词典中的某一个独热编码匹配。

步骤S400：筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数；

进一步而言，本申请步骤S400还包括：

步骤S410：筛选所述目标独热编码集合内的敏感独热编码，获得目标敏感独热编码集合；

步骤S420：根据所述目标敏感独热编码集合和多个敏感独热编码集合，统计获取所述多级公开敏感内容的多个累计独热值，将所述目标独热编码集合对应的公开敏感词输入所述多个敏感值数据库，计算获得所述多级公开敏感内容的所述多个累计敏感值；

步骤S430：根据所述多级公开内容的敏感程度，进行权重分配，获得包括多个权值的权重分配结果，分别对所述多个累计独热值和多个累计敏感值进行加权计算，获得总累计独热值和总累计敏感值；

具体而言，对目标独热编码集合进行遍历，依次取出每个独热编码，将当前独热编码与所有敏感独热编码集合进行匹配，判断是否为敏感独热编码，如果当前独热编码是敏感独热编码，则将其加入目标敏感独热编码集合中，否则，忽略该独热编码，经过筛选后，得到目标敏感独热编码集合。

根据多级公开敏感词集合的分类和分级信息，将所有敏感独热编码集合进行整合和分类，并统计每个类别或级别的独热值，获取累计独热值，即将每个敏感独热编码内的1加起来，获得累计独热值，多级公开敏感内容就有多个累计独热值；

将目标独热编码集合对应的公开敏感词输入多个敏感值数据库，并利用累加的方式计算获得多级公开敏感内容对应的公开敏感词的多个累计敏感值，所述累计敏感值是敏感独热编码对应的公开敏感词的敏感值，通过在多个敏感值数据库内查询并计算获得。

根据多级公开内容的敏感程度，对每个级别或类别进行权重分配，敏感程度越高则权重越大，将每个累计独热值与其对应的权重相乘，然后将所有结果相加，以获得总累计独热值；将每个累计敏感值与其对应的权重相乘，然后将所有结果相加，以获得总累计敏感值。

步骤S440：构建所述敏感词开放鉴定通道，所述敏感词开放鉴定通道包括第一鉴定分支和第二鉴定分支；

进一步而言，本申请步骤S440还包括：

步骤S441：对所述目标档案馆的档案开放鉴定数据进行数据挖掘，获得样本总累计独热值集合、样本总累计敏感值集合和样本第一敏感鉴定系数集合；

步骤S442：以总累计独热值为决策特征，基于所述样本总累计独热值集合，构建多层第一决策节点，每层第一决策节点对输入的总累计独热值进行二分类划分决策，并输入上层第一决策节点；

步骤S443：获取所述多层第一决策节点的多个第一最终决策结果，基于所述样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，对所述多个第一最终决策结果进行标记，获得所述第一鉴定分支；

步骤S444：以总累计敏感值为决策特征，基于所述样本总累计敏感值集合，构建多层第二决策节点；

步骤S445：获取所述多层第二决策节点的多个第二最终决策结果，基于所述样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，对所述多个第二最终决策结果进行标记，获得所述第二鉴定分支。

具体而言，从目标档案馆的档案开放鉴定数据中收集足够数量的样本数据，包括文本内容、敏感词，以及经过鉴定后的总累计独热值、总累计敏感值和第一敏感鉴定系数等信息，使用数据挖掘算法，如聚类、分类、关联规则挖掘等，对清洗后的样本数据进行分析和挖掘，从中获得样本总累计独热值集合、样本总累计敏感值集合和样本第一敏感鉴定系数集合等特征，样本第一敏感鉴定系数包括档案的敏感等级，例如为0-1内的值，数字越大，则越为敏感。

将样本总累计独热值集合作为输入数据，构建多层第一决策节点，每个节点都是一个二分类器，基于一个阈值或条件表达式，将输入的总累计独热值进行二分类划分决策，例如将总累计独热值大于某个数值的数据点划分到一组，如左分支，而将小于等于该值的数据点划分到另一组，如右分支。

这些节点按照层级结构排列，且每一层都有一个根节点，在每个节点中，通过上述决策规则对输入进行判断，以确定它是否属于分类器所需的类别。在每个节点上递归进行，直到到达根节点为止，最终的输出结果是根据输入数据所经过的路径来确定的。通过训练数据对所构建的分类器进行训练，以确定每个决策节点的最佳切割点和规则，这样，就能够利用该分类器来对新的、未知的数据进行分类预测。

使用训练数据对所构建的多层第一决策节点进行测试，并获取每个节点的第一最终决策结果，通过递归遍历每个节点，获得所有叶子节点的第一最终决策结果。获取样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，针对每个最终决策结果进行标记，获得构建完成的第一鉴定分支。基于构建完成的鉴定分支，对于输入的任意的总累计独热值，可进行多层的二分类划分决策，并得到对应的最终决策结果，进而获得该总累计独热值对应的第一敏感鉴定系数，作为输出结果。

以总累计敏感值为决策特征，采用前述完全相同的方法，获取所述第二鉴定分支，为了说明书的简洁，在此不再赘述。

步骤S450：将所述总累计独热值和总累计敏感值输入所述第一鉴定分支和第二鉴定分支，对两个输出结果进行加权计算，获得所述第一敏感鉴定系数。

具体而言，将所述总累计独热值输入所述第一鉴定分支，使用第一鉴定分支对总累计独热值进行分类预测，得到第一输出结果，其内包括一个敏感鉴定系数，将所述总累计敏感值输入所述第二鉴定分支，使用第二鉴定分支对总累计独热值进行分类预测，得到第一输出结果，其内包括一个敏感鉴定系数，对这两个敏感鉴定系数进行加权计算，以得到第一敏感鉴定系数。加权计算公式为：〖Q=W_1×P〗_1+W_2×P_2，其中，Q为第一敏感鉴定系数，P_1和P_2为第一输出结果和第二输出结果，W_1 和 W_2分别是总累计独热值和总累计敏感值的权重，并且它们的总和应该等于1，W_1 和 W_2可基于本领域技术人员确定，例如为0.6和0.64。

步骤S500：构建语义开放鉴定通道，并内嵌于所述敏感词开放鉴定通道，将所述目标独热编码集合输入所述语义开放鉴定通道内，获得第二敏感鉴定系数；

具体而言，通过使用自然语言处理技术，包括文本分类、情感分析、关键词提取等操作，构建语义开放鉴定通道，用于根据语义分析敏感鉴定系数。将构建好的语义开放鉴定通道内嵌于敏感词开放鉴定通道中，使其能够与敏感词鉴定并行运行，在鉴定过程中同时考虑文本的语义信息和敏感内容。将目标独热编码集合输入到语义开放鉴定通道中进行处理，这个过程需要使用自然语言处理技术对文本进行解析、分词、词性标注等操作，以便更好地理解文本的含义。根据语义开放鉴定通道获得的文本语义信息，计算出第二敏感鉴定系数，这个系数通常是一个0到1之间的值，用于表示文本的语义信息对应的敏感程度，系数越高，代表文本在语义上更容易引起敏感反应。

进一步而言，本申请步骤S500还包括：

步骤S510：根据所述目标档案馆内的档案开放鉴定数据，获取多个样本独热编码集合、多个样本语义分析结果和多个样本第二敏感鉴定系数；

步骤S520：采用所述多个样本独热编码集合、多个样本语义分析结果，基于BP神经网络，构建语义分析分支；

步骤S530：采用所述多个样本语义分析结果和多个样本第二敏感鉴定系数，构建语义敏感分析分支，连接所述语义分析分支，获得所述语义开放鉴定通道。

具体而言，从目标档案馆的档案开放鉴定数据中收集足够数量的样本数据，包括文本内容、敏感词，以及经过鉴定后的总累计独热值、总累计敏感值和第二敏感鉴定系数等信息。对每个样本进行独热编码处理，得到多个样本独热编码集合，该集合可以作为训练模型的输入特征之一，用于实现文本分类和敏感度评估。通过自然语言处理技术，对每个样本进行语义分析，得到其代表的语义信息，该信息用于判断文本的主题、情感倾向等，对文本进行进一步的分析和处理。对每个样本进行第二敏感鉴定，得到多个样本第二敏感鉴定系数，该系数用于判断文本的敏感程度，以及对文本进行分类和鉴定。

使用多个样本独热编码集合和多个样本语义分析结果，对BP神经网络进行训练和构建，具体来说，将样本独热编码集合作为输入层，将样本语义分析结果作为输出层，通过隐层节点进行信息传递和特征提取，根据实际需要设置网络的层数、节点数等参数，并使用各种优化算法，如反向传播算法，进行训练，并测试，获取满足要求的语义分析分支，例如准确率达到85%。训练好的BP神经网络可以用于对新的文本数据进行预测和分类，以实现文本的主题、情感倾向等方面的分析和处理。

采用前述相同的方法构建语义敏感分析分支，将构建好的语义敏感分析分支与语义分析分支进行连接，形成一条完整的语义开放鉴定通道，在该通道中，输入数据会先通过语义分析分支进行基础的文本处理，然后再进入语义敏感分析分支进行敏感信息鉴定。

通过构建语义开放鉴定通道，实现了更全面地考虑文本的语义信息，并将其与敏感词鉴定进行综合评估，以确定文本的实际敏感程度，进而可以有效提高敏感内容的识别准确性和鉴定效率，从而更好地保护数据安全和隐私。

步骤S600：对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，所述开放审核结果包括开放、人工审核和不开放。

进一步而言，本申请步骤S600还包括：

步骤S610：对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行加权计算，获得所述综合敏感鉴定系数；

步骤S620：获取样本综合敏感鉴定系数集合；

步骤S630：对所述样本综合敏感鉴定系数集合进行划分，获得第一综合敏感鉴定系数区间、第二综合敏感鉴定系数区间和第三综合敏感鉴定系数区间；

步骤S640：构建所述第一综合敏感鉴定系数区间、第二综合敏感鉴定系数区间和第三综合敏感鉴定系数区间与开放、人工审核和不开放的开放审核结果的映射关系，获得所述开放审核通道，并串行嵌入于所述语义开放鉴定通道；

步骤S650：将所述综合敏感鉴定系数输入所述开放审核通道，获得落入的综合敏感鉴定系数区间，并获得所述开放审核结果。

具体而言，结合各种因素，如数据来源、鉴定标准、实际需求等，确定第一敏感鉴定系数和第二敏感鉴定系数的权重，权重取值范围为0到1，且两个权重的和为1，根据确定的权重，对第一敏感鉴定系数和第二敏感鉴定系数进行加权计算，获得综合敏感鉴定系数，用于判断文本数据的敏感程度。

从目标档案馆的档案开放鉴定数据中收集足够数量的样本数据，包括样本第一敏感鉴定系数和样本第二敏感鉴定系数等信息，对所述样本第一敏感鉴定系数和所述样本第二敏感鉴定系数进行加权计算，获得样本综合敏感鉴定系数，对每个样本都进行该计算，得到样本综合敏感鉴定系数集合，用于实现文本的自动化敏感度评估和鉴定。

对样本综合敏感鉴定系数集合进行统计分析，结合实际需求和数据特点，通过经验法则、专家建议或数据驱动方法，确定两个阈值T_1和T_2，例如，取T_1=0.4、T_2=0.7。

根据确定的阈值，将样本综合敏感鉴定系数集合划分为三个区间：第一综合敏感鉴定系数区间，包含所有小于阈值T_1的样本综合敏感鉴定系数；第二综合敏感鉴定系数区间，包含所有大于等于阈值T_1且小于等于阈值T_2的样本综合敏感鉴定系数；第三综合敏感鉴定系数区间，包含所有大于阈值T_2的样本综合敏感鉴定系数。输出得到的第一、第二和第三综合敏感鉴定系数区间，用于进一步的文本敏感度评估和鉴定。

根据第一、第二和第三综合敏感鉴定系数区间，为每个区间分配相应的开放审核结果，例如，第一综合敏感鉴定系数区间对应开放；第二综合敏感鉴定系数区间对应人工审核；第三综合敏感鉴定系数区间对应不开放。将上述映射关系整合成一个开放审核通道，用于根据样本所属的综合敏感鉴定系数区间判断其开放审核结果。

将构建好的开放审核通道串行嵌入到语义开放鉴定通道中，使得文本数据在进行语义分析后，可以根据其综合敏感鉴定系数所属区间自动判断相应的开放审核结果。

将待评估文本的综合敏感鉴定系数输入到构建好的开放审核通道中，根据第一、第二和第三综合敏感鉴定系数区间的阈值范围，判断输入的综合敏感鉴定系数落入哪个区间。根据综合敏感鉴定系数所属区间，从开放审核通道中获取相应的开放审核结果，如开放、人工审核或不开放，输出得到的开放审核结果，用于指导档案馆对文本数据进行相应的处理和措施。

综上所述，本申请实施例所提供的一种用于档案形成单位开放审核的方法及系统具有如下技术效果：

获取多级公开敏感词集合，并获得多个敏感值数据库，包括多个敏感词的敏感值，构建鉴定词典，包括多个敏感独热编码集合，进行开放时间鉴定，合格时对目标档案进行处理，并获得目标独热编码集合，筛选，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道，获得第一敏感鉴定系数，构建语义开放鉴定通道，并内嵌于敏感词开放鉴定通道，输入语义开放鉴定通道内，获得第二敏感鉴定系数，进行计算获得综合敏感鉴定系数，输入开放审核通道内，获得开放审核结果，包括开放、人工审核和不开放。

解决了传统的档案开放审核存在主要依赖于人工操作，其效率较低且易受主观因素影响，导致档案开放审核效率低、效果差的技术问题，实现了对档案数据的自动化敏感度评估和鉴定，减轻人工审核的负担，同时对文本进行语义分析，实现对文本主题的分析，实现多维融合鉴定，达到提升审核的精确性、提高审核工作效率的技术效果。

实施例二

基于与前述实施例中一种用于档案形成单位开放审核的方法相同的发明构思，如图4所示，本申请提供了一种用于档案形成单位开放审核的系统，所述系统包括：

敏感值数据库获取模块10，所述敏感值数据库获取模块10用于根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，每个敏感值数据库内包括多个敏感词的敏感值；

鉴定词典构建模块20，所述鉴定词典构建模块20用于基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合；

开放时间鉴定模块30，所述开放时间鉴定模块30用于对待进行鉴定的目标档案进行开放时间鉴定，在开放时间鉴定合格时，对所述目标档案进行处理，并根据所述鉴定词典，获得目标独热编码集合；

第一系数获取模块40，所述第一系数获取模块40用于筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数；

第二系数获取模块50，所述第二系数获取模块50用于构建语义开放鉴定通道，并内嵌于所述敏感词开放鉴定通道，将所述目标独热编码集合输入所述语义开放鉴定通道内，获得第二敏感鉴定系数；

系数计算模块60，所述系数计算模块60用于对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，所述开放审核结果包括开放、人工审核和不开放。

进一步而言，所述系统还包括：

公开敏感词构建模块，用于获取所述目标档案馆内的多级公开敏感内容，并构建获得多级公开敏感词集合；

敏感值分配模块，用于根据所述多级公开敏感词集合的敏感程度，进行敏感值分配，获得多个敏感值集合；

映射关系构建模块，用于构建所述多级公开敏感词集合和多个敏感值集合的映射关系，获得所述多个敏感值数据库。

进一步而言，所述系统还包括：

词总量获取模块，用于获取所述目标档案馆内档案的词集合和词总量，并将词总量记为N；

独热编码构建模块，用于基于N位寄存器，构建所述词集合内每个词的独热编码，获得所述鉴定词典；

独热编码汇总模块，用于汇总所述多级公开敏感词集合内公开敏感词的独热编码，获得所述多个敏感独热编码集合。

进一步而言，所述系统还包括：

敏感独热编码筛选模块，用于筛选所述目标独热编码集合内的敏感独热编码，获得目标敏感独热编码集合；

累计独热值获取模块，用于根据所述目标敏感独热编码集合和多个敏感独热编码集合，统计获取所述多级公开敏感内容的多个累计独热值，将所述目标独热编码集合对应的公开敏感词输入所述多个敏感值数据库，计算获得所述多级公开敏感内容的所述多个累计敏感值；

权重分配模块，用于根据所述多级公开内容的敏感程度，进行权重分配，获得包括多个权值的权重分配结果，分别对所述多个累计独热值和多个累计敏感值进行加权计算，获得总累计独热值和总累计敏感值；

鉴定通道构建模块，用于构建所述敏感词开放鉴定通道，所述敏感词开放鉴定通道包括第一鉴定分支和第二鉴定分支；

加权计算模块，用于将所述总累计独热值和总累计敏感值输入所述第一鉴定分支和第二鉴定分支，对两个输出结果进行加权计算，获得所述第一敏感鉴定系数。

进一步而言，所述系统还包括：

数据挖掘，对所述目标档案馆的档案开放鉴定数据进行数据挖掘，获得样本总累计独热值集合、样本总累计敏感值集合和样本第一敏感鉴定系数集合；

划分决策模块，用于以总累计独热值为决策特征，基于所述样本总累计独热值集合，构建多层第一决策节点，每层第一决策节点对输入的总累计独热值进行二分类划分决策，并输入上层第一决策节点；

决策结果标记模块，用于获取所述多层第一决策节点的多个第一最终决策结果，基于所述样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，对所述多个第一最终决策结果进行标记，获得所述第一鉴定分支；

第二决策节点构建模块，用于以总累计敏感值为决策特征，基于所述样本总累计敏感值集合，构建多层第二决策节点；

第二鉴定分支获取模块，用于获取所述多层第二决策节点的多个第二最终决策结果，基于所述样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，对所述多个第二最终决策结果进行标记，获得所述第二鉴定分支。

进一步而言，所述系统还包括：

样本数据获取模块，用于根据所述目标档案馆内的档案开放鉴定数据，获取多个样本独热编码集合、多个样本语义分析结果和多个样本第二敏感鉴定系数；

语义分析分支构建模块，用于采用所述多个样本独热编码集合、多个样本语义分析结果，基于BP神经网络，构建语义分析分支；

敏感分析分支构建模块，用于采用所述多个样本语义分析结果和多个样本第二敏感鉴定系数，构建语义敏感分析分支，连接所述语义分析分支，获得所述语义开放鉴定通道。

进一步而言，所述系统还包括：

综合系数获取模块，用于对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行加权计算，获得所述综合敏感鉴定系数；

综合系数集合获取模块，用于获取样本综合敏感鉴定系数集合；

综合系数集合划分模块，用于对所述样本综合敏感鉴定系数集合进行划分，获得第一综合敏感鉴定系数区间、第二综合敏感鉴定系数区间和第三综合敏感鉴定系数区间；

通道嵌入模块，用于构建所述第一综合敏感鉴定系数区间、第二综合敏感鉴定系数区间和第三综合敏感鉴定系数区间与开放、人工审核和不开放的开放审核结果的映射关系，获得所述开放审核通道，并串行嵌入于所述语义开放鉴定通道；

开放审核结果获取模块，用于将所述综合敏感鉴定系数输入所述开放审核通道，获得落入的综合敏感鉴定系数区间，并获得所述开放审核结果。

本说明书通过前述对一种用于档案形成单位开放审核的方法的详细描述，本领域技术人员可以清楚地知道本实施例中一种用于档案形成单位开放审核的方法及系统，对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述得比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于档案形成单位开放审核的方法，其特征在于，所述方法包括：

根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，每个敏感值数据库内包括多个敏感词的敏感值；

基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合；

对待进行鉴定的目标档案进行开放时间鉴定，在开放时间鉴定合格时，对所述目标档案进行处理，并根据所述鉴定词典，获得目标独热编码集合；

筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数；

构建语义开放鉴定通道，并内嵌于所述敏感词开放鉴定通道，将所述目标独热编码集合输入所述语义开放鉴定通道内，获得第二敏感鉴定系数；

对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，所述开放审核结果包括开放、人工审核和不开放；

其中，筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数，包括：

筛选所述目标独热编码集合内的敏感独热编码，获得目标敏感独热编码集合；

根据所述目标敏感独热编码集合和多个敏感独热编码集合，统计获取所述多级公开敏感内容的多个累计独热值，将所述目标独热编码集合对应的公开敏感词输入所述多个敏感值数据库，计算获得所述多级公开敏感内容的所述多个累计敏感值；

根据所述多级公开内容的敏感程度，进行权重分配，获得包括多个权值的权重分配结果，分别对所述多个累计独热值和多个累计敏感值进行加权计算，获得总累计独热值和总累计敏感值；

构建所述敏感词开放鉴定通道，所述敏感词开放鉴定通道包括第一鉴定分支和第二鉴定分支；

将所述总累计独热值和总累计敏感值输入所述第一鉴定分支和第二鉴定分支，对两个输出结果进行加权计算，获得所述第一敏感鉴定系数；

其中，构建所述敏感词开放鉴定通道，包括：

对所述目标档案馆的档案开放鉴定数据进行数据挖掘，获得样本总累计独热值集合、样本总累计敏感值集合和样本第一敏感鉴定系数集合；

以总累计独热值为决策特征，基于所述样本总累计独热值集合，构建多层第一决策节点，每层第一决策节点对输入的总累计独热值进行二分类划分决策，并输入上层第一决策节点；

获取所述多层第一决策节点的多个第一最终决策结果，基于所述样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，对所述多个第一最终决策结果进行标记，获得所述第一鉴定分支；

以总累计敏感值为决策特征，基于所述样本总累计敏感值集合，构建多层第二决策节点；

获取所述多层第二决策节点的多个第二最终决策结果，基于所述样本第一敏感鉴定系数集合内的多个样本第一敏感鉴定系数，对所述多个第二最终决策结果进行标记，获得所述第二鉴定分支。

2.根据权利要求1所述的方法，其特征在于，根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，包括：

获取所述目标档案馆内的多级公开敏感内容，并构建获得多级公开敏感词集合；

根据所述多级公开敏感词集合的敏感程度，进行敏感值分配，获得多个敏感值集合；

构建所述多级公开敏感词集合和多个敏感值集合的映射关系，获得所述多个敏感值数据库。

3.根据权利要求1所述的方法，其特征在于，基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合，包括：

获取所述目标档案馆内档案的词集合和词总量，并将词总量记为N；

基于N位寄存器，构建所述词集合内每个词的独热编码，获得所述鉴定词典；

汇总所述多级公开敏感词集合内公开敏感词的独热编码，获得所述多个敏感独热编码集合。

4.根据权利要求1所述的方法，其特征在于，构建语义开放鉴定通道，包括：

根据所述目标档案馆内的档案开放鉴定数据，获取多个样本独热编码集合、多个样本语义分析结果和多个样本第二敏感鉴定系数；

采用所述多个样本独热编码集合、多个样本语义分析结果，基于BP神经网络，构建语义分析分支；

采用所述多个样本语义分析结果和多个样本第二敏感鉴定系数，构建语义敏感分析分支，连接所述语义分析分支，获得所述语义开放鉴定通道。

5.根据权利要求1所述的方法，其特征在于，对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，包括：

对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行加权计算，获得所述综合敏感鉴定系数；

获取样本综合敏感鉴定系数集合；

对所述样本综合敏感鉴定系数集合进行划分，获得第一综合敏感鉴定系数区间、第二综合敏感鉴定系数区间和第三综合敏感鉴定系数区间；

构建所述第一综合敏感鉴定系数区间、第二综合敏感鉴定系数区间和第三综合敏感鉴定系数区间与开放、人工审核和不开放的开放审核结果的映射关系，获得所述开放审核通道，并串行嵌入于所述语义开放鉴定通道；

将所述综合敏感鉴定系数输入所述开放审核通道，获得落入的综合敏感鉴定系数区间，并获得所述开放审核结果。

6.一种用于档案形成单位开放审核的系统，其特征在于，用于实施权利要求1-5任一项所述的一种用于档案形成单位开放审核的方法，包括：

敏感值数据库获取模块，所述敏感值数据库获取模块用于根据目标档案馆内的多级公开敏感内容，获取多级公开敏感词集合，并获得多级公开敏感内容的多个敏感值数据库，每个敏感值数据库内包括多个敏感词的敏感值；

鉴定词典构建模块，所述鉴定词典构建模块用于基于独热编码，构建鉴定词典，其中，所述鉴定词典内包括所述多级公开敏感词集合的多个敏感独热编码集合；

开放时间鉴定模块，所述开放时间鉴定模块用于对待进行鉴定的目标档案进行开放时间鉴定，在开放时间鉴定合格时，对所述目标档案进行处理，并根据所述鉴定词典，获得目标独热编码集合；

第一系数获取模块，所述第一系数获取模块用于筛选所述目标独热编码集合内的敏感独热编码，计算获得多个累计独热值和多个累计敏感值，输入敏感词开放鉴定通道内的第一鉴定分支和第二鉴定分支内，获得第一敏感鉴定系数；

第二系数获取模块，所述第二系数获取模块用于构建语义开放鉴定通道，并内嵌于所述敏感词开放鉴定通道，将所述目标独热编码集合输入所述语义开放鉴定通道内，获得第二敏感鉴定系数；

系数计算模块，所述系数计算模块用于对所述第一敏感鉴定系数和所述第二敏感鉴定系数进行计算，获得综合敏感鉴定系数，输入串行嵌入于所述语义开放鉴定通道的开放审核通道内，获得开放审核结果，所述开放审核结果包括开放、人工审核和不开放；

其中，构建所述敏感词开放鉴定通道，包括：