CN106407182A

CN106407182A - 一种用于企业电子公文文档自动摘要的方法

Info

Publication number: CN106407182A
Application number: CN201610829983.9A
Authority: CN
Inventors: 蔡宇翔; 付婷; 蔡力军; 苏运东; 肖琦敏; 王雪晶; 陈锐; 宋立华; 张垚
Original assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Fujian Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2017-02-15

Abstract

本发明涉及一种用于企业电子公文文档自动摘要的方法。不同于上述通用主流文摘抽取算法，本发明主要用于企业电子公文文档的自动摘要，从而能够充分利用企业电子公文文档的特点（包括文档主题性强、文档标题信息量丰富），并结合该特点对现有算法进行创新改造和结合，经过测试能够有效提升企业电子公文文档自动摘要的效果。

Description

一种用于企业电子公文文档自动摘要的方法

技术领域

本发明涉及一种面向大型企业的、用于企业电子公文文档自动摘要的方法，具体为一种用于企业电子公文文档自动摘要的方法。

背景技术

随着信息化建设的深入，企业中流程越来越多地运行在线上，大量的业务运行信息以电子文档的形式存在。企业文档通常编辑次数有限，但由于承载着具体的业务信息，通常会被大量地阅读，在阅读人数、次数上都远远超过了编辑的次数，且在文档搜索、查阅等很多场合仅需要略读，而不需要精读该文档，因此，若能研究公文电子文档的摘要提取技术，从海量的历史公文文档信息中提取出其重点内容，并以摘要的形式展现给用户，能够为用户的信息浏览带来大量的便利，提升了用户的工作效率。所以，异构文档的摘要信息自动提取也成为了当今信息化领域的一个热门研究主题。

另一方面，在海量的企业电子文档数据中，有很一大部分是公文文档。所谓企业公文，泛指在企业中常用的请示、通知、函、报告、会议纪要等格式文档。不同于其它文档，公文文档通常具有主题突出、文风朴实、结构紧凑等特点。以会议纪要为例，企业中的会议形形色色，尽管会议的内容千差万别，但会议的共同特点，即：目的性、组织计划性、沟通性、交流方式多样性。大多数的会议都是围绕着某个主题展开沟通与讨论。而传统的摘要提取技术通常仅依撤句子的打分高低提取出会议摘要．这种方法提取的信息摘要可能存在结构不严谨、重点提炼较差等问题。

文档摘要，其形式化定义是：由计算机相关程序和系统创建的文档的一种易于理解的简化版本，通过从文档中提炼出比较重要的内容，然后将这些比较重要的内容以一种简单的形式展现给用户。所以，摘要即是对从文档中提取出的最主要内容总结。摘要基于几个方面可以被分成不同的类别，第一种，也是最常用的是“提取摘要”，是指从文档中提取出一些最能够代表文档语义信息的单元（通常是句子）；第二种摘要称为“抽象摘要”，是指不是直接提取关键句子，而是基于语义的、由重新生成的句子组成的，也就是说其提取的是基于重点词句的信息而不是基于句子本身，通常代表更高层次的一种摘要；第三种是“通用摘要”，是不考虑任何上下文语义信息而是基于整个原始文档固有模版、提取固定位置的句子最而产生的摘要。在上述三种摘要中，纯粹的“抽象摘要”还只是停留在学术研究层面，远未达到实用化水平，且通常需要配合模版、用于某个特定业务上，如根据详细的天气预报信息而提炼的天气预报简报，使用用途较窄且不能通用；而“通用摘要”由于过于死板、依赖于模版的结构和行文的准确性，通常会固化到业务中、要求在文档撰写的同时就要考虑摘要生成，所以也仅能支持小范围的应用。本发明采用的是“提取摘要”技术，也是目前文档摘要的主流技术。

在“提取摘要”方面，业界目前也有较多的研究和应用成果，通用的是以下两种方法：

1、基于词频统计，实现文章摘要的自动提取

基于词频统计实现文章摘要自动提取的方法出自1958年的IBM公司科学家H.P. Luhn的论文《The Automatic Creation of Literature Abstracts》。它的基本原理是：文章的信息都包含在句子中，有些句子包含的信息多，有些句子包含的信息少。“自动摘要”就是要找出那些包含信息最多的句子。具体而言，句子的信息量用“关键词”来衡量。如果包含的关键词越多，就说明这个句子越重要。当时Luhn提出用“簇”（cluster）表示关键词的聚集。所谓“簇”可以认为就是包含多个关键词的句子。那么，句子的重要性的计算公式为：

句子的重要性 = （包含的关键词的数量）² / 句子的长度

其中，关键词的识别，可以通过字典来完成。即，通过一个字典记录所有业务相关的重要词汇，句子经过中文分词后，与字典中的词相匹配的分词，即视为关键词。

2、基于TextRank算法，实现文章摘要的自动提取

TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法。其原理是将文档的每句话作为节点，句子之间的相似度作为边权值构建图模型，用pagerank算法进行求解，得到每个句子的得分。具体而言，TextRank 一般模型可以表示为一个有向有权图G=(V,E)，由点集合V和边集合E组成,，E是VxV的子集。图中任两点Vi，Vj之间边的权重为Wji，对于一个给定的点Vi，In(Vi)为指向该点的点集合，Out(Vi)为点 Vi 指向的点集合。点 Vi 的得分定义如下：

其中，d 为阻尼系数，取值范围为 0 到 1，代表从图中某一特定点指向其他任意点的概率，一般取值为0.85。使用TextRank 算法计算图中各点的得分时，需要给图中的点指定任意的初值，并递归计算直到收敛，即图中任意一点的误差率小于给定的极限值时就可以达到收敛，一般该极限值取 0.0001。

基于TextRank的自动文摘属于自动摘录，通过选取文本中重要度较高的句子形成文摘，其主要步骤如下：

1）预处理：将输入的文本或文本集的内容分割成句子，并对句子进行分词、去除停止词后得到保留后的候选关键词。

2）句子相似度计算：给定两个句子，利用余弦定理等公式计算句子的相似度距离，若两个句子之间的相似度大于给定的阈值，就认为这两个句子语义相关并将它们连接起来，即边的权值。

3）句子权重计算：根据公式，迭代传播权重计算各句子的得分；

4）抽取文摘句：将3得到的句子得分进行倒序排序，抽取重要度最高的n个句子作为候选文摘句。

5）形成文摘：根据字数或句子数要求，从候选文摘句中抽取句子组成文摘。

上述两种方法，都是采用“摘要抽取”方法，核心都是基于句子的重要性排序，针对仅利用单篇文档本身的信息即可实现文档摘要的提取，未针对文档内容、类型的特点做出优化。在实际的使用过程中，我们发现上述算法运行结果较为不稳定，无法持续获得令人满足的效果。

发明内容

本发明的目的在于提供一种用于企业电子公文文档自动摘要的方法，该方法能够充分利用企业公文文档具有的主题性强、标题含义明确的特点，从而在企业电子公文文档的自动摘要领域获得比现有通用文档摘要技术方案更好的效果。

为实现上述目的，本发明的技术方案是：一种用于企业电子公文文档自动摘要的方法，包括如下步骤，

S1、文档预处理：获得文档的标题，以及从各种格式的企业公文文档抽取出纯文本流；而后，基于文档的纯文本流，以包括句号、分号、感叹号的代表句子结尾的标点符号为分隔符，将文档进行分句，获得文档的所有句子构成；

S2、正规化表示：文档正规化即将文档用数学向量和矩阵进行表示，并进行分词权重调整，用于后续的句子排序过程中；

S3、句子初步排序：将文档的标题作为主题句，将其词袋模型向量记为A；将文档中的其它句子的词袋模型向量记为B，并与A进行相似度比较，采用余弦相似度计算公式，如下：

上式中，similarity代表A、B两个向量的相似度；通过上述余弦相似度计算A和B两个向量的距离，而后通过反余弦函数计算夹角θ作为相似度的值——夹角越小，代表相似度越高；完成文档所有句子与标题的余弦相似度计算后，即可获得所有句子与标题的相似性排序；

S4、句子细化排序：经过上述步骤S3的余弦相似度的初步排序，已获得初步的关键句，由于步骤S3的结果只考虑了相关性，并没有考虑新颖性，因此采用MMR，为已经排好序的所有句子引入一个惩罚因子，作为新颖性的考虑，从而对所有的句子重新打分排序，公式如下：

步骤S3的余弦相似度的初步排序后排第一的句子不需要重新计算，从第二句开始，采用上述最终相似度计算公式进行最终相似度计算；其中， similarity(i)代表第i个句子的最终相似度；similarity(i, title)代表在步骤S3计算得到的第i个句子与标题的相似度值；similarity(i, i-1)代表第i个句子与第i-1个句子的相似度值；a为惩罚因子，取经验数据a=0.5，表示第i个句子与标题的相似度及第i个句子与第i-1个句子相似度的惩罚各占一半的权重；

S5、文档摘要输出：经过步骤S4，实现文档所有句子的重要性排序，并兼顾了语义相似度和新颖性，因此可将排序后的前N句话作为输出结果。

在本发明一实施例中，所述步骤S2的具体实现步骤如下：

S21、分词；

S22、去除停用词；

S23、用词袋模型表示，即将词定义为一个维度，那么整个文档即可表示成在所有词组成的词典的空间中的一个高维稀疏向量；

S24、正规化处理：采用TF-IDF对步骤S23的结果词袋模型向量进行正规化处理，即将原不带权重的词袋模型变成带权重的词袋模型，其权重为每个词的TFIDF值，TF-IDF包括TF、IDF两个公式，具体如下：

通过TF-IDF进行正规化处理后，文档的词袋向量能够更好地表现出文档的信息。

相较于现有技术，本发明具有以下有益效果：

本发明方法能够充分利用企业公文文档具有的主题性强、标题含义明确的特点，从而在企业电子公文文档的自动摘要领域获得比现有通用文档摘要技术方案更好的效果。

附图说明

图1为本发明文档自动摘要流程图。

图2为本发明文档预处理和词待模型表示。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明的一种用于企业电子公文文档自动摘要的方法，包括如下步骤，

在本发明一实施例中，所述步骤S2的具体实现步骤如下：

S21、分词；

S22、去除停用词；

以下为本发明的具体实施过程。

基于“摘要抽取”方法的文档自动摘要方法均基于一个假设：一篇文档的核心思想可以用文档中的某几句话来概括。所以，摘要的任务就变成了找到文档中最重要的几句话，也就是一个拆分句子加上句子排序的过程。本专利也采用这个思路。与现有方法不同的是，本发明旨在解决企业电子公文的摘要问题，而企业电子公文有两个显著的特点：

1）文章主题性强。通篇公文通常都围绕一个显著的主题进行内容阐述。如一份“新闻稿”通常围绕某个事件进行过程和总结性说明。

2）文章标题都有明确的意义，且通常和文章的主题强相关。如一份“通知”，通常是“关于XXXX的通知”。由于公文的严肃性，通常不会有诸如网络文章的“标题党”现象存在。

本发明充分利用了公文文档的上述特点，改进了现有基于“摘要抽取”方法的文档自动摘要算法和过程，其主要流程如图1所示：

步骤1：文档预处理。包括：获得文档的标题（通常基于数据库中保存的元数据，也可以从文件名或文档全文中提取），以及从各种格式的企业公文文档（如word、pdf等）抽取出纯文本流。而后，基于文档的纯文本流，以句号、分号、感叹号等代表句子结尾的标点符号为分隔符，将文档进行分句，获得文档的所有句子构成。

步骤2：正规化表示。文档正规化是指将文档（句子，含标题）用数学向量和矩阵进行表示，并进行一些必要的分词权重调整，用于后续的句子排序过程中。具体又包括以下几个步骤：

1）分词；

2）去除停用词；

3）用词袋（bag of words）模型表达。词袋模型是一种主流的文档数学表达模型，它将词定义为一个维度，那么一篇文档、一句话就可以表示成在所有词组成的“词典”的空间中的一个高维稀疏向量。如图2所示：

上述词袋模型向量的维度等于词典的维度，那么如果目标句子中包含词典的某个词，则其词袋向量模型就在词典中该词的顺序位置上标注为1，其它标注为0。

4）正规化处理。本发明采用TF-IDF对3的结果词袋向量进行正规化处理，这个过程可以理解为将原不带权重的词袋模型变成带权重的词袋模型，其权重为每个词的TFIDF值，TFIDF的原理是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力。TF-IDF实际上包括TF、IDF两个公式，具体如下：

通过TF-IDF进行正规化处理后，文档的词袋向量可以更好地表现出文档的信息。

步骤3：句子初步排序

将文档的标题作为主题句，将其词袋向量记为A；将文档中的其它句子（将其词袋向量记为B）与A进行相似度比较，采用余弦相似度计算公式，如下：

通过上述余弦相似度计算A和B两个向量的距离，而后通过反余弦函数计算夹角θ作为相似度的值——夹角越小，代表相似度越高。

在上述公式中，similarity代表A、B两个向量的相似度。而向量的相似度可以采用业界通用的余弦定理进行计算：上述公式的后半部分即为余弦定理，可以计算出两个向量的夹角的余弦值，即cos(θ)；cos(θ)的值分布在-1到1之间，当cos(θ)为1时代表两个向量完全相同，cos(θ)为-1时代表两个向量完全相反，cos(θ)越趋近与1，代表两个向量的相似度越高，同时也代表两个句子的相似度越高。完成文档所有句子与标题的余弦相似度计算后，按照余弦相似度从大到小排序，即可获得所有句子与标题的相似性排序；

完成文档所有句子与标题的余弦相似度计算后，就可以获得句子与标题的相似性排序。

步骤4：句子细化排序

经过上述步骤3的初步排序，已经通过余弦相似度排序，获得初步的关键句。但是，步骤S3的结果只考虑了句子和标题的相关性，并没有考虑句子的新颖性，从而虽然构成摘要的关键句都是与标题最相似的，但句子彼此之间却也会相似，导致摘要的整体效果并不理想。因此，在当前已经排好序的基础上，引入一个惩罚因子对所有的句子进行重新打分排序，以兼顾句子相似性和新颖性。改进后的句子相似性计算公式如下：

步骤5：文档摘要输出

经过步骤4，已经实现了文档所有句子的重要性排序，并兼顾了语义相似度和新颖性。然而，如果仅仅将排序后的前N句话作为输出结果，摘要的可读性通常不太好。因为各个句子都是从不同的段落中选择出来的，如果只是生硬地连起来、作为摘要，很难确保句子之间的连贯。

通过实验，本文采用一种较为简单、但可行的方法解决可读性问题，就是将排序之后的句子按照原文中的顺序输出。经过验证，在多数情况下可以提高整体摘要的可读性。

以上各步骤即为本发明实现公文电子文档自动摘要的创新方法。基于上述方法开发的电子公文自动摘要系统，能够良好地对各类公文，包括通知、新闻稿、函、请示等进行自动摘要提取，较小了企业用户定位、寻找文档的时间，提升搜索及文档管理效率。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种用于企业电子公文文档自动摘要的方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的一种用于企业电子公文文档自动摘要的方法，其特征在于：所述步骤S2的具体实现步骤如下：

S21、分词；

S22、去除停用词；