CN106776695B

CN106776695B - 实现文书档案价值自动鉴定的方法

Info

Publication number: CN106776695B
Application number: CN201610997155.6A
Authority: CN
Inventors: 张曙华; 杨安荣; 路斌; 王国栋
Original assignee: Shanghai Xinlian Information Development Co Ltd
Current assignee: Shanghai Xinlian Information Development Co ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2020-12-04
Anticipated expiration: 2036-11-11
Also published as: CN106776695A

Abstract

本发明涉及一种实现文书档案价值自动鉴定的方法，分别提取文书档案的标题和全文内容的关键字（词）内容；对照“受控词表”进行关键词分配，得到关键字（词）的集合；对上述关键词分配的结果进行计算判别，通过关键字（词）权重词频计算确定归档类别、通过自动标注分类计算确定保管期限，进而分别得到分别包含归档类别和保管期限的结论一、结论二；综合推荐归档类别和保管期限。本发明建立了以文书档案保管价值为主题的关键字（词）库，根据相关文件提取出标题和文书中的关键字（词），确定文书档案的归档类别，大批量文书档案价值的自动鉴定提供了手段，可实现多个文书档案保管价值鉴定的并发操作，提升了文书档案价值鉴定的效率。

Description

实现文书档案价值自动鉴定的方法

技术领域

本发明涉及中文电子文书的分析、处理领域，具体而言是一种实现文书档案价值自动鉴定的方法。

背景技术

文书档案是机关、团体、企事业单位对在行政管理事务活动中产生的由通用文书转化而来的档案的习惯称谓，是档案部门普遍要进行管理的档案。档案价值鉴定工作是一项俗称“两分清”的工作，即应分清哪些需要保存，哪些不需要保存，也即鉴别“存”与“毁”的工作。分清应该保存的文书档案具体保存多长时间，对应存文书档案划定保管期限。目前各机关单位均采用人工界定的方式进行文书档案保管期限划分。

由于文书档案门类较多，各门类对应的保管期限又不尽一致。随着社会历史进程的变迁，一份文书档案的保管价值会随外界环境而发生变化。因此，文书档案价值的鉴定需要实现自动化，以应对不断变化的外界形势。

然而，目前实现文书档案价值鉴定的自动化较为困难，主要原因如下：

1、档案行业采用预归档方式较多，通常由业务部门文书人员手工操作完成。而文书人员流动较大，经常会出现归档范围出错和保管期限设置错误的现象，导致价值鉴定的工作经验无法长效积累。目前业内缺乏有代表性的经验值数据来支撑文书档案价值鉴定自动化工作的开展。

2、利用文书档案关键字(词)相似度度量的方法，实现对文书档案价值鉴定的自动化推荐，目前业内此项技术尚为空白。

关键字(词)是快速获取文件主题的重要方法，在信息检索和自然语言处理等领域均有重要应用。目前，中文文书关键字(词)的提取算法主要有：特征频率方法(TermFrequency:TF)、文档频率方法(Document Frequency:DF)、反文档频率方法(InverseDocument Frequency:IDF)、信息增益方法(Information Gain:IG)、互信息方法(MutualInformation:MI)、期望交叉熵(Expected Cross Entropy:ECE)及χ2统计量(Chi-square:CHI)等。

传统的方法仅依靠词汇的统计信息进行关键字(词)的提取，没有将文件所属行业的主题度关键字(词)的提取影响考虑在内。从档案行业的业务角度出发，目前业界尚未建立一个完整的以文书档案保管价值为主题的关键字(词)推荐标注体系，更没有形成一套文书档案保管价值“自动推荐”的解决方案。

推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。

应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法产生一个推荐预测结果，然后组合其结果。尽管从理论上有很多种推荐组合方法，但在某一具体问题中并不见得都有效，组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。综上，截至目前文书档案业界中并未发现解决此问题的成熟方案，而本发明为了解决这一问题，结合文书档案保管特色、利用基于关键字(词)的词法分析提供了一种文书档案价值鉴定的自动推荐法，实现了文书档案价值鉴定的自动化。

发明内容

本发明为解决上述问题，旨在提供一种实现文书档案价值自动鉴定的方法。

本发明提供一种实现文书档案价值自动鉴定的方法，包括如下步骤：

步骤一，分别提取文书档案的标题和全文内容的关键字(词)内容；

步骤二，分别对标题、全文内容的关键字(词)和标题的关键字(词)对照“受控词表”进行关键词分配，得到关键字(词)的集合；

步骤三，对上述关键词分配的结果进行计算判别，通过关键字(词)权重词频计算确定归档类别、通过自动标注分类计算确定保管期限，进而分别得到分别包含归档类别和保管期限的结论一、结论二；

步骤四，根据结论一、结论二的结果是否一致，综合推荐归档类别和保管期限。

作为优选，在所述步骤一中，利用马尔科夫模型通过词性标注过滤停用词。

作为优选，在所述步骤一中，若文书档案的标题为空，则提取首、尾段关键字(词)来代替标题关键字(词)来完成后续分类。

作为优选，在所述步骤二中，将标题和标题、全文内容的关键字(词)对照预设的已归档索引库，进行相关度矩阵计算，进而得到结论一；同时仅将标题的关键字(词)对照《文书档案保管期限表》，进行分类对应，进而得到结论二。

作为优选，在所述步骤三中，所述权重词频计算针对同一关键字(词)k与不同受控词表分类”c之间关键词权重P(k，g)的主次强弱关系，对主要关系给予较大的权值，次要关系给予较小的权值，即：

(1≤p≤g)P(k，c)＝p。

作为优选，在所述步骤三中，所述自动标注分类计算TFIDF＝TF(词频)*IDF(逆文档频率)的值，然后降序排列，取前列的关键字(词)；然后对照期限分类库，完成保管期限的确定。

作为优选，在所述步骤四中，若推荐分类不符合业务需求，则修改当前文档关键字的分类，把当前文档的关键字加入到“受控词表”对应的条目中。

和现有技术相比，本发明具有如下技术优势：

1)本发明建立了以文书档案保管价值为主题的关键字(词)库，根据相关文件提取出标题和文书中的关键字(词)，确定文书档案的归档类别；

2)本发明结合电子全文内容抽取和全文相似度比较技术，自动与文书档案已归档索引库进行全文内容相似度比对，提取出相似度较高的全文关键字(词)，确定文书档案的保管期限；

3)本发明打破了传统的文书档案价值鉴定方式，将人工鉴定变为自动鉴定，节约人力，提升了文书档案保管期限划分的准确率，文书档案保管期限快速划分具备可行性；

4)本发明建立了以文书档案保管价值为主题的关键字(词)数据库，为深化文书档案保管业务(如已归档索引数据库的更新)与个性化推荐(如推荐相似内容)提供了数据支撑；

5)本发明为大批量文书档案价值的自动鉴定提供了手段，可实现多个文书档案保管价值鉴定的并发操作，提升了文书档案价值鉴定的效率。

附图说明

图1为本发明的实施例的流程说明图；

图2为档案文书分类类别结构图；

图3为“关键字(词)结构树”的结构图；

图4为关键词与分类一对一关系的结构图；

图5为关键词与分类一对多关系的结构图；

图6为关键词与分类多对多关系的结构图；

图7为本发明的实施例的流程说明图。

具体实施方式

在机关、团体、企事业单位的日常工作中，文书档案、历史档案的文书数据量庞大、种类繁多，如果按照传统的文书档案保管价值鉴定方法，针对文书档案、档案业务人员则需逐行查看每份档案内容，再对照《机关文件材料归档范围和文书档案保管期限规定》,对文书档案进行分类并界定保管期限，费时费力。而大部分文书档案分类依赖人员手动处理，没有统一的管理机制，造成大量的人力、时间及资金的浪费。

基于此种情况，我们提出了一种实现文书档案价值自动鉴定的方法，可以对文书档案进行自动归类，进行统一、有效的管理。本发明所要解决的核心问题是：

提供一套通过对文书档案进行关键字(词)相似度度量的方法，实现文书档案价值鉴定的自动分类与推荐。

下面结合实例对本发明的具体实施方法作进一步描述。而该实例用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

参见图1，本发明通过技术手段实现了文书档案的价值鉴定的自动推荐，主要步骤为：

本步骤为关键字的提取，对于后面的计算至关重要。一般而言，一篇文书档案由标题、章节、段落、句子、词等文本组成。文书档案自动分类的核心任务是提取文书档案的关键字(词)，并根据关键字所处文档的不同部分赋予不同的权重，比对《文书档案保管期限》或者已归档的索引规则，计算并自动标注文档所属分类。

申请人通过对档案行业大量文书档案的自动分类标注处理经验得出：

1)绝大多数文书档案的标题名基本能够反映出该文档的主题内容；

2)对于标题名特征不是很明显的文书档案，采用标题、首尾段、中间内容等维度提取特征项信息计算分类标注。

参见图3，图3为“关键字(词)结构树”的结构图，关键词自动标注分为两个步骤：关键词抽取(keyword extraction)与关键词分配(keyword assignment)。其中关键词抽取，是从文档内容中寻找并提取关键词；

使用隐马尔科夫模型(HMM)对输入序列进行词性标注(part-of-speechtagging)，并过滤掉助词、副词等停用词(stop words)，只考虑剩下的有实际意义的词。所述词性标注的目标就是在产生中文分词那样的词序列的同时，给每个产生的词标注一个词性。

词性标注的处理参见下表所示：

表格中，(a)为原始中文句子，(b)为分词结果，(c)为词性分析结果

本实例处理一份标题为“关于XX县城镇环境噪声达标验收的通知”的文档。那么经过上述方法去除无用的停用词后，只留下名词“XX县”，“城镇”，“环境”，“噪声”，“通知”几个关键字(词)的集合。

步骤二，分别对标题、全文内容的关键字(词)和标题的关键字(词)对照“受控词表”进行关键词分配；

而关键词分配是从一个预先构建好的受控词表(controlled vocabulary)中推荐若干个词或者短语分配给文档作为关键词。

参见图4、图5和图6，关键字(词)的集合与“档案保管期限分类”之间的关系存有多种可能性。其中图4为一对一的关系，即一个关键字(词)只属于一个分类；图5为一对多的关系，即一个关键字(词)属于多个分类；而图6为多对多的关系，即一个关键字(词)属于多个分类，而一个分类也可以包含多个关键字(词)。

假设当前“档案保管期限分类”有如下分类与受控词表的对应关系：

上面所述的“AA县”，“BB局”，“春节”，“工作”，“请示”几个关键字(词)的集合分别属于

XX县-无分类

BB局-单位分类BB局

春节-无分类

工作-无分类

请示-{BB局{办公室2.7.1.1:[50]}，BB局{办公室2.7.2.1:[40]}}

步骤三，经过上述步骤的处理，关键词与“受控词表分类”之间可能存在一对多或多对多的关系。

对上述关键词分配的结果进行计算判别，通过关键字(词)权重词频计算确定归档类别、通过自动标注分类计算确定保管期限，进而分别得到分别包含归档类别和保管期限的推荐结论；

每一组关系中必然存在主次强弱之分，为了表明同一主题词与不同“受控词表分类”之间的主次强弱关系，本文规定了对主要关系给予较大的权值，次要关系给予较小的权值，即：

(1≤p≤g)P(k,c)＝p

其中，P(k,g)为主题词k与“受控词表分类”c的关系权重值，P值的大小与主题词k和“受控词表分类”c之间的主次强弱关系成正比。这样我们就可以在文本分类过程中，以不同“受控词表分类”的权值之和的大小来自动标注分类。比如根据上步关键字所属分类权重相加计算结果为：

BB局{办公室2.7.1.1:[50]}权重50

BB局{办公室2.7.2.1:[40]}权重40

因此可以通过这个权重值做出初步推荐，当前关键字所属分类推荐值应该为：

办公室[50]2.7.1.1永久

本文所用算法权值分配尺度规定如下：

1)当主题词可以直接由档案题名确定时，即某一个主题词特指为某分类，且只要该主题词出现，该档案文本就一定为这一分类时，P(k,g)＝g；

2)若一个关键词和多个“受控词表分类”存在关系，根据主次强弱程度，分别给予相对应的权重值；对于比较专指或词的长度较长的词，给予较高的权重值。

其中，自动标注分类计算首先计算词频：

词频(TF)＝某个词在文章中出现的次数

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化：

逆文档频率(Inverse Document Frequency，缩写为IDF)用统计学语言表达，

就是在词频的基础上，要对每个词分配一个"重要性"权重。这个权重叫做"逆文档频率"(Inverse Document Frequency，缩写为IDF)，它的大小与一个词的常见程度成反比。

逆文档频率计算为：

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有受控词表都不包含该词)。log表示对得到的值取对数。

最后计算TF-IDF的值：

TF-IDF＝词频(TF)X逆文档频率(IDF)

TF-IDF与一个词在文档中的出现次数成正比，与该词在整个受控词表的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

计算结果可能如下表：

由上表可见，函的TF-IDF值最大，那么此语句的主要关键词就是“请示”。

随后根据“档案保管期限分类库”中的关键字对照档案分类标注，自动根据关键字排序，推荐相应的分类及保管期限。

步骤四，根据结论的结果是否一致，综合推荐归档类别和保管期限。

综上可见，实施例的方法为两个途径展开。其中：

途径一：提取文书档案标题关键(字)词，对照《文书档案保管期限表》进行分类对应(《文书档案保管期限表》共计13类)，初步确定该文件是否纳入文书档案归档范围和归档类别。之后通过计算权重词频(如来源、时间、内容和形式特征等属性)判别档案的重要性程度(重要或一般)，推荐归档类别和保管期限，得出推荐结论一。

途径二：提取文书档案标题和全文内容关键(字)词，对照已归档索引库，通过相关度计算，从已归档索引库中获取相似矩阵(如最相似的三篇文章)，进行标题和全文比对。

以下用D(Document)表示档案文本，特征项(Term，用t表示)，指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由关键词构成，文本可以用特征项集合表示为D(T₁，T₂，......T_n)，其中T_k是特征项，要求满足1≤k≤n。假设一篇文档中有a、b、c、d四个特征项，那么这篇文档就可以表示：

D(a，b，c，d)

对于其它要与之比较的文本，也将遵从这个特征项顺序。对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度，即：

D＝D(T₁，W₁；T₂，W₂；......，T_n，W_n)

简记为:

D＝D(W₁，W₂，......，W_n)

我们把它叫做文本D的权值向量表示，其中W_k是T_k的权重，1≤k≤n

假设a、b、c、d的权重分别为30，20，20，10，那么该文本的向量表示为

D(30，20，20，10)

在向量空间模型中，两个文本D₁和D₂之间的内容相关度Sim(D₁，D₂)常用向量之间夹角的余弦值表示，公式为：

其中，W_1k、W_2k分别表示文本D₁和D₂第k个特征项的权值1≤k≤n。

假设文本D₁的特征项为a，b，c，d，权值分别为30，20，20，10，类目C₁的特征项为a，c，d，e，权值分别为40，30，20，10，则D1的向量表示为:

D1(30，20，20，10，0)

C₁的向量表示为:

C1(40,0，30,20,10)

根据上述公式计算推导出：

则根据上式计算出来的文本D1与类目C1相关度是0.86

之后通过计算权重词频(如来源、时间、内容和形式特征等属性)判别档案的重要性程度(重要或一般)，推荐归档类别和保管期限，得出推荐结论二。

综合两个推荐结论，给出文书档案归档类别和保管期限的最终推荐结论。

而当推荐意见不一致，可以融入机器学习方式，灵活选择推荐标准和比对矩阵，主要体现在：

1)途径选择的原则：发现哪个途径最有效，则优先采取哪个途径的推荐方式；

2)相似矩阵的变换原则：针对不同类别文书档案进行相似矩阵成功率的记忆和转换。如发现对于某类文书档案选取两篇文章比对更有效，则以后针对此类文书档案相似矩阵自动转换为选取两篇文章。

3)充实已归档索引库：提取出的关键(字)词与已归档索引库中的数据进行比对，出现新的关键(字)词，则提示更新到已归档索引库中，最终形成一个不断更替的文书档案关键字(词)分类学习库。

本发明实现了文书档案价值鉴定的自动化推荐，可自动推荐文书档案归档类别和保管期限，改变传统人工鉴定的方式，有效提升了文书档案保管工作的效率和准确性。

上述仅为本发明的优选实施方式，应指出的是，对于本行业内的普通技术技术人员而言，在本发明的原理之下可以由一些改进和替换，该改进和替换也应视为本发明的保护范围。

Claims

1.一种实现文书档案价值自动鉴定的方法，其特征在于：包括如下步骤：

步骤一，分别提取文书档案的标题和全文内容的关键字词内容；

步骤二，分别对标题、全文内容的关键字词和标题的关键字词对照“受控词表”进行关键词分配，得到关键字词的集合；

步骤三，对上述关键词分配的结果进行计算判别，通过关键字词权重词频计算确定归档类别，即针对同一关键字词与不同受控词表分类之间关键词权重的主次强弱关系，对主要关系给予较大的权值，次要关系给予较小的权值；

还通过自动标注分类计算确定保管期限，即计算关键字词的TF-IDF＝词频TF*逆文档频率IDF的值，然后将TF-IDF值降序排列，并取TF-IDF值排在前列的若干关键字词；然后对照《文书档案保管期限表》确定保管期限；

分别得到分别包含归档类别和保管期限的结论一、结论二，即：将标题和标题、全文内容的关键字词对照预设的已归档索引库，进行相关度矩阵计算，进而得到结论一；同时仅将标题的关键字词对照《文书档案保管期限表》，进行分类对应，进而得到结论二；

步骤四，结论一、结论二的结果若一致，则确定归档类别和保管期限。

2.根据权利要求1所述的一种实现文书档案价值自动鉴定的方法，其特征在于：在所述步骤一中，利用马尔科夫模型通过词性标注过滤停用词。

3.根据权利要求1或2所述的一种实现文书档案价值自动鉴定的方法，其特征在于：在所述步骤一中，若文书档案的标题为空，则提取首、尾段关键字词来代替标题关键字词来完成后续分类。