CN117349243A

CN117349243A - 一种标准文件档案一体化管理的编码与展示方法

Info

Publication number: CN117349243A
Application number: CN202311355172.6A
Authority: CN
Inventors: 张敬娟; 王春艳; 李晶; 张欣亮; 于帆
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-01-05

Abstract

本发明公开了一种标准文件档案一体化管理的编码与展示方法，包括获取待编码文件档案，对所述待编码文件档案进行预处理，提取相关信息，提取所述相关信息的标准特征，根据所述标准特征获取所述待编码文件档案的分类数据，将所述程序等级和所述分类数据关联获得标准分类数据，使用所述标准分类数据构建信息树，制定编码方案，根据所述编码方案构建标准文件档案编码模型，根据编码类型优化所述标准文件档案编码模型，将所述信息树输入优化后的所述标准文件档案编码模型，输出编码结果并展示。该方法不仅可以提高编码的精度，同时具有较好的可解释性，可以直接应用于标准文件档案系统中。

Description

一种标准文件档案一体化管理的编码与展示方法

技术领域

本发明涉及标准文件档案领域，尤其涉及一种标准文件档案一体化管理的编码与展示方法。

背景技术

编码技术在标准文件档案领域的应用越来越广泛，可以帮助标准文件档案的一体化管理者及时、高效地分析标准文件档案，实现标准文件档案一体化管理的编码和展示。目前，标准文件档案信息量庞大、种类多样、信息密度大等特点，编码分析方法存在较多的不确定因素，导致标准文件档案编码方法存在较大的不确定性。虽然已经发明了一些标准文件档案编码方法，但是仍不能有效解决标准文件档案编码方法的不确定问题。

发明内容

本发明的目的是要提供一种标准文件档案一体化管理的编码与展示方法。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

A获取待编码文件档案，对所述待编码文件档案进行预处理，提取预处理后的所述待编码文件档案的材料类型、项目类别和程序等级获得相关信息；

B提取所述相关信息的标准特征，根据所述标准特征获取所述待编码文件档案的分类数据，将所述程序等级和所述分类数据关联获得标准分类数据；

C使用所述标准分类数据构建信息树，制定编码方案；

D根据所述编码方案构建标准文件档案编码模型，根据编码类型优化所述标准文件档案编码模型；根据所述编码方案构建标准文件档案编码模型的方法，包括：

标准文件档案编码模型采用分层编码算法、哈希查找算法和插入算法构建，采用插入算法进行标准文件档案的更新和去重，其中计算标准文件档案内容的相似度：

其中第i个标准文件档案为d_i，第j个标准文件档案为d_j，特征向量的维数为h，特征向量h维数的数量为q，第i个标准文件档案第h个特征项的权重值为ω_ih，第j个标准文件档案第h个特征项的权重值为ω_jh，通过相似度进行标准文件档案的数据更新和去重，根据所述编码方案采用分层编码算法对更新去重后的标准文件档案进行编码，采用哈希查找算法对编码后的标准文件档案建立索引，使用随机森林算法将信息树按照4:1随机分成训练集和测试集，通过训练集训练标准文件档案编码模型，采用测试集对训练后的标准文件档案编码模型进行结果测试；

E将所述信息树输入优化后的所述标准文件档案编码模型，输出编码结果并展示。

进一步的，步骤A中所述预处理包括清洗、筛选、提取文字、去停用词、分词、标注、去重、合并和数据转换。

进一步的，提取预处理后的所述待编码文件档案的材料类型、项目类别和程序等级获得相关信息的方法，包括：

对预处理后的所述待编码文件档案进行语素解析，生成语素，将标准内容文本和待编码文件档案进行比对，标准内容文本为材料类型、项目类别和程序等级，计算标准内容文本和待编码文件档案的相关性得分：

其中待编码文件档案为A，第i个语素为a_i，待匹配总文本数为M，出现标准内容文本当前词的文本数为v(a_i)，调节因子为c₁、d，与标准内容文本匹配的数量为|E|，语料库中所有稳当的平均长度为搜索结果为E，重复匹配直到遍历待编码文件档案，将材料类型、项目类别和程序等级类别中相关性得分最高的作为待编码文件档案的材料类型、项目类别和程序等级，输出待编码文件档案的材料类型、项目类别和程序等级。

进一步的，提取所述相关信息的标准特征的方法，包括：

循环相关信息读取特征词条及相关类别信息，统计特征词的词频和文档频率，计算特征词相对类别的偏离程度：

其中类别c_i中包含特征s的文档数为u₁(s)，平均每个类别含有特征s的文档数为相关信息含有特征s的文档数为u(s)，计算特征词在文本类别的类内特征频率和类内集中频度：

其中相关信息的数量为m，类内特征频率为F，在第j个文本类别的标准词数量为R_jt(a)，特征s在第j个文本类别的标准词数量为R_jt(s)，相关信息的类别数量为n，计算特征词的互信息值：

其中包含特征s的文档概率为b(s)，在类别c_i中包含特征s的文档概率为b(s|c_i)，根据互信息值将特征词进行降序排列，选取预定数目的特征词条，组成标准特征集合。

进一步的，根据所述标准特征获取所述待编码文件档案的分类数据的方法，包括：

从待编码文件档案中采取有放回抽样，构造子数据集，利用子数据集构造决策树，将子数据集输入子决策树，从标准特征中随机选取三分之一的特征，

计算标准特征的重要性评分：

其中第a个特征为s_a，特征s_a的重要性评分为gn(s_a)，第a个特征的比例为p(a)，特征的数量为n，重复操作直到遍历所有特征，将标准特征按照重要性评分降序排序，将前三个特征作为分类特征，根据分类特征对待编码文件档案进行一级分类，对一级分类再次分类获得二级分类。

进一步的，使用所述标准分类数据构建信息树的方法，包括：

将标准分类数据划分成子集，计算标准分类数据的经验熵：

其中标准分类数据为u，标准分类数据的样本数量为|u|，标准分类数据的特征为i，第i个类别的样本数量为|b_i|，标准分类数据的类别数量为g，计算标准特征对标准分类数据的经验条件熵：

其中标准分类数据的子集为s，第s个子集的标准分类数据数量为u_s，第s个子集中包含类别k的标准分类数据集合为b_si，标准分类数据集合b_si的数量为|b_si|，子集s的数量为n，特征为e，计算信息增益：

q(u,e)＝H(u|e)

设定信息增益的阈值，如果标准分类数据中所有标准分类信息属于同一类别，则决策树为单节点树，将类别作为节点的标记，返回信息树；

如果特征集合为空，则决策树为单节点树，将集合忠诚出现频次最多的类别作为节点的标记，返回信息树；

否则计算特征集合中标准特征对标准分类数据的信息增益，选择信息增益最大的标准特征；如果标准特征对应最大的信息增益小于阈值，则决策树为单节点树，将集合中出现频次最多的类别作为结点的标记，返回信息树；

否则，对标准特征对应最大的信息增益的每一个可能值，将标准分类数据分割为多个非空集合，将非空集合中出现频次最多的类别作为标记，构造子结点，由结点及子节点构成信息树。

进一步的，所述制定编码方案的方法，包括建立标准制定材料的代码字典，包括代码项、代码类别项，其中二级代码与程序代码相关关联，代码字典管理的不同标准层级二级代码、程序代码，标准制定材料的代码组成为材料特征码、材料关联和材料个性。

进一步的，根据编码类型优化所述标准文件档案编码模型的方法，包括：

按照网络中链路的拓扑顺序设置编码类型，将信源节点输出链路对应的基因排在首位，对于网络中的任意节点将各输入链路对应的基因排在所有输出链路对应的基因之前；种群初始化，按照链路的拓扑顺序，设置编码类型基因，为基因随机赋值，给出适应度函数，适应度函数的计算公式为：

f(β)＝∑_t∈TK_t(β)

其中编码类型β代表的层级编码分配状态t获得的吞吐量为K_t(β)，β为信宿获得的总吞吐量为f(β)，信宿的数量为T，根据适应度值对编码类型进行优劣排序，计算编码类型的选择概率：

其中编码类型为i，编码类型的数量为p_sz，概率为θ，将选择概率按照顺序累加，获得累加概率序列，采用随机数选择编码类型进入下一代，重复操作直到选择出足够数量的编码类型，选择两个编码类型作为交叉对象，对信源节点输出链路的基因，选择一个进行交叉操作获得两个新的编码类型，从各链路的基因中选择一个进行变异操作，计算新生成的编码类型的适应度值，将新的编码类型和原来的编码类型合并为一个种群，根据适应度值对种群中的编码类型进行排序，选择适应度最高的编码类型作为最优编码类型，根据轮盘赌选择编码类型进入下一代，当最优编码类型的适应度函数值保持不变时停止迭代。

进一步的，所述展示的方法，包括通过材料关联，将一个标准的全过程材料进行提取并展示，按照材料特征码进行分类展示，展示的材料名称设计为链接，点击进入材料的页面，查看材料的具体信息，页面包含其他相关的材料信息。

本发明的有益效果是：

本发明是一种标准文件档案一体化管理的编码与展示方法，与现有技术相比，本发明具有以下技术效果：

本发明通过预处理、提取特征、分类、构建信息树、构建标准文件档案编码模型和优化标准文件档案编码模型步骤，可以提高标准文件档案编码的准确性，从而提高标准文件档案编码的精度，将标准文件档案编码智能化，可以大大节省资源和人力成本，提高工作效率，可以实现对标准文件档案的自动编码，实时对待编码文件档案进行特征提取，对标准文件档案编码具有重要意义，可以适应不同标准的标准文件档案编码、不同系统的标准文件档案编码，具有一定的普适性。

附图说明

图1为本发明一种标准文件档案一体化管理的编码与展示方法的步骤流程图。

具体实施方式

下面通过具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明一种标准文件档案一体化管理的编码与展示方法包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

在实际评估中，随机给出8组待编码文件档案分别为：

第1组智能家居控制系统标准化制定，处于立项阶段，2023年3月18号；

第2组智能家居控制系统标准工作组草案，处于组织起草阶段，2003年5月19号；

第3组智能家居控制系统标准征求意见草案，处于意见征求阶段，2023年3月25号；

第4组智能安防系统标准审查会议纪要，处于技术审查阶段，2021年11月21号；

第5组智能安防系统标准制定来往公文汇编，处于立项阶段，2022年3月7号；

第6组智能安防系统标准工作组草案，处于组织起草阶段，2021年12月10号；

第7组智能物流系统试验验证报告摘要，处于试验验证阶段，2018年7月19号；

第8组智能物流系统标准发布公告，处于发布阶段，2018年9月29号；

以上述8组待编码文件档案为研究对象；

在实际评估中，第1组的特征为智能家居控制系统标准化制定、立项、2023年3月18号；第2组的特征为智能家居控制系统标准工作组草案、组织起草、2003年5月19号；第3组的特征为智能家居控制系统标准征求意见草案、意见征求、2023年3月25号；第4组的特征为智能安防系统标准审查会议纪要、技术审查、2021年11月21号；第5组的特征为智能安防系统标准制定来往公文汇编、立项、2022年3月7号；第6组的特征为智能安防系统标准工作组草案、组织起草、2021年12月10号；第7组的特征为智能物流系统试验验证报告摘要、试验验证、2018年7月19号；第8组的特征为智能物流系统标准发布公告、发布、2018年9月29号，一级分类为文件和档案，二级分类为项目申报书、项目计划、标准工作组草案、标准征求意见草案、标准编制说明、征求意见发文、意见汇总表、审查会会议纪要、试验验证材料、标准发布公告，程序等级为提案、立项、起草、征求意见、技术审查、批准、编号、发布，一级分类档案包括第1组、第4组、第5组、第7组，一级分类材料包括第2组、第3组、第6组、第8组，二级分类为标准工作组草案包括第2组和第6组、标准征求意见草案为第3组、标准发布公告分别为第8组；标准编制说明为第1组、档案的审查会会议纪要为第4组、意见汇总表为第5组、试验验证材料为第7组，标准分类数据关联的信息为第1组立项、第4组技术审查、第5组立项、第7组试验验证、第2组组织起草、第3组意见征求、第6组组织起草、第8组标准发布；

C使用所述标准分类数据构建信息树，制定编码方案；

在实际评估中，档案十五编码为A，文件的编码为B，二级分类的编码项目申报书、项目计划、标准工作组草案、标准征求意见草案、标准编制说明、征求意见发文、意见汇总表、审查会会议纪要、试验验证材料、标准发布公告分别为D01、D02、D03、D04、D05、D06、D07、D08、D09、D10，程序等级的编码为提案、立项、起草、征求意见、技术审查、批准、编号、发布的编码分别为F01、F02、F03、F04、F05、F06、F07、F08，类别分别为智能家居编码Z01、智能安防编码Z02、智能物流编码Z03，编码方案为材料类型+程序等级+二级分类+类别+时间；

E将所述信息树输入优化后的所述标准文件档案编码模型，输出编码结果并展示；

在实际评估中，第1组、第4组、第5组、第7组的编码为AF02D05Z0120230318、AF05D08Z0220211121、AF02D07Z0220220307、AF05D09Z0320180719，第2组、第3组、第6组、第8组的编码为BF03D03Z0120030519、BF04D04Z0120230325、BF03D03Z0220211210、BF08D10Z0320180929。

在本实施例中，步骤A中所述预处理包括清洗、筛选、提取文字、去停用词、分词、标注、去重、合并和数据转换。

在本实施例中，提取预处理后的所述待编码文件档案的材料类型、项目类别和程序等级获得相关信息的方法，包括：

在本实施例中，提取所述相关信息的标准特征的方法，包括：

在本实施例中，根据所述标准特征获取所述待编码文件档案的分类数据的方法，包括：

计算标准特征的重要性评分：

在本实施例中，使用所述标准分类数据构建信息树的方法，包括：

将标准分类数据划分成子集，计算标准分类数据的经验熵：

q(u,e)＝H(u|e)

否则，对标准特征对应最大的信息增益的每一个可能值，将标准分类数据分割为多个非空集合，将非空集合中出现频次最多的类别作为标记，构造子结点，由结点及子节点构成信息树；

在实际评估中，信息树两个主干分支为档案和材料，材料的分支驱干为标准工作组草案、标准征求意见草案、标准发布公告，档案的分支驱干为标准编制说明、审查会会议纪要、意见汇总表、试验验证材料，材料的分支驱干为标准工作组草案包括第2组和第6组、文件的标准征求意见草案为第3组、文件的标准发布公告分别为第8组，档案的标准编制说明为第1组、档案的审查会会议纪要为第4组、档案的意见汇总表为第5组、档案的试验验证材料为第7组。

在本实施例中，所述制定编码方案的方法，包括建立标准制定材料的代码字典，包括代码项、代码类别项，其中二级代码与程序代码相关关联，代码字典管理的不同标准层级二级代码、程序代码，标准制定材料的代码组成为材料特征码、材料关联和材料个性。

在本实施例中，根据编码类型优化所述标准文件档案编码模型的方法，包括：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种标准文件档案一体化管理的编码与展示方法，其特征在于，包括以下步骤：

C使用所述标准分类数据构建信息树，制定编码方案；

2.根据权利要求1所述的一种标准文件档案一体化管理的编码与展示方法，其特征在于，步骤A中所述预处理包括清洗、筛选、提取文字、去停用词、分词、标注、去重、合并和数据转换。

3.根据权利要求1所述的一种标准文件档案一体化管理的编码与展示方法，其特征在于，提取预处理后的所述待编码文件档案的材料类型、项目类别和程序等级获得相关信息的方法，包括：

4.根据权利要求1所述的一种标准文件档案一体化管理的编码与展示方法，其特征在于，提取所述相关信息的标准特征的方法，包括：

5.根据权利要求1所述的一种标准文件档案一体化管理的编码与展示方法，其特征在于，根据所述标准特征获取所述待编码文件档案的分类数据的方法，包括：

计算标准特征的重要性评分：

6.根据权利要求1所述的一种标准文件档案一体化管理的编码与展示方法，其特征在于，使用所述标准分类数据构建信息树的方法，包括：

将标准分类数据划分成子集，计算标准分类数据的经验熵：

q(u,e)＝H(u|e)

7.根据权利要求1所述的一种标准文件档案一体化管理的编码与展示方法，其特征在于，根据编码类型优化所述标准文件档案编码模型的方法，包括：

f(β)＝∑_t∈TK_t(β)