CN113032552B

CN113032552B - 一种基于文本摘要的政策要点抽取方法与提取系统

Info

Publication number: CN113032552B
Application number: CN202110568578.7A
Authority: CN
Inventors: 麦丞程; 仇学明; 黄宜华; 吕爽; 周昌东
Original assignee: Nanjing Hongcheng Information Technology Co ltd
Current assignee: Nanjing Hongcheng Information Technology Co ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-27
Anticipated expiration: 2041-05-25
Also published as: CN113032552A

Abstract

本发明公开了一种基于文本摘要的政策要点抽取方法与提取系统。本发明的方法包括如下步骤：S1.构造政策要点抽取数据集，对政策数据集和解读内容进行标签构造；S2.抽取基于文本摘要的政策要点，对政策要点数据集进行抽取式文本摘要算法模型构建；S3.基于关键单词进行候选政策要点抽取，通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选，作为最终的政策要点抽取结果。本发明充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。结合多任务学习框架，克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题；基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。

Description

一种基于文本摘要的政策要点抽取方法与提取系统

技术领域

本发明涉及人工智能和自然语言处理领域，特别涉及一种基于文本摘要的政策要点抽取方法与提取系统。

背景技术

近年来，由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息，互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时，很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此，如何能够从这些海量的长文本中提取出用户最关注的内容，提升对于信息处理的效率，成为了当下自然语言处理领域迫在眉睫的研究工作。

一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类，可分为抽取式文本摘要（Extractive Summarization）和生成式文本摘要（Abstractive Summarization）。其中，抽取式文本摘要能够直接从原文中抽取句子，并对其进行重要性排序，形成最终的摘要。生成式文本摘要在对原文进行语义理解的基础上，对信息进行压缩，生成包含新的词汇与具有不同描述风格的摘要内容。

这两种方法各有其优点与局限性。抽取式文本摘要虽然能够抽取原文中的重要句子，但是受摘要长度的限制，其所抽取的句子可能不能完全覆盖原文内容。相较而言，生成式文本摘要在直观上更符合人类摘要书写的习惯，可以生成原文中没有的单词，灵活性更强。但其描述内容容易出现事实性错误以及存在连贯性差等问题。

“智慧政务”是文本摘要技术应用的重要场景，为了从每年各级政务服务部门发布的大量政策文件中抽取出关键信息，为企业提供政策解读的辅助能力，在政策服务领域，政策要点抽取是抽取式文本摘要技术的一个重要应用场景。从长篇幅的政策原文中抽取出重要的内容与政策要求对于提升政策的易理解性与传播效率具有重要作用。

发明内容

发明目的：本发明提出了一种基于文本摘要的政策要点抽取方法与提取系统，充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。

为了实现上述目的，本发明提出的技术方案为：

一种基于文本摘要的政策要点抽取方法，该方法包括如下步骤：

S1.构造政策要点抽取数据集，对政策数据集和解读内容进行标签构造；

S2.抽取基于文本摘要的政策要点，对政策要点数据集进行抽取式文本摘要算法模型构建；

S3.基于关键单词进行候选政策要点抽取，通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选，作为最终的政策要点抽取结果。

所述的基于文本摘要的政策要点抽取方法，步骤S1中所述构造政策要点抽取数据集的具体方法是：

S11.对于一篇政策文档d和其对应的标准摘要集合用R表示，根据词表将输入文本单词转化成数字；

S12.初始化每个句子标签为

，预测摘要集合S为空

；

S13.当预测摘要集合S的单词个数小于摘要约束N=1000，尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S，取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(S，R)（文本摘要算法经典评价指标：衡量预测摘要与标准摘要之间的1-gram重合度）最大的句子；

S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高，那么就把该句加入预测摘要集合S，同时将句子标签置为1；否则退出循环。

所述的基于文本摘要的政策要点抽取方法，步骤S2中所述抽取基于文本摘要的政策要点的具体方法是：

S21.参数定义：对于一篇给定的政策文档

，n表示该政策文档d中包含n个句子，s _i表示该政策文档中的第i个句子，每个句子由m个单词构成，即

，所以，

，w _ij表示第i句话中的第j个单词，模型的输出为每个句子对应的标签

，

，标签“1”表示这句话出现在政策要点内容中，标签“0”表示这句话不出现在政策要点内容中；

S22.词性标注：给定一篇包含n个句子，每个句子包含m个单词的政策文档

，输出每个单词对应的词性标签

，词性标签包含动词、名词、副词、形容词；所述词性标注采用基于神经网络搭建的词性标注模型，具体方法是：

1）对输入的政策文档d进行词嵌入式表示，即将每个单词映射在低维稠密向量上，然后输入到前向和后向LSTM中进行特征提取；

2）将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态

，即第i句话中的第j个单词的隐状态；

3）将每个单词的隐状态

输入到分类器得到每个单词所对应的词性标签

；

S23.设计基于多任务学习的抽取式文本摘要模型，该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分，具体地：

1）输入层：将政策文档中的每条句子s _i，进行词嵌入式表示，即：

，其中，s _ij表示句子s _i中的第j个单词，

表示该单词采用词嵌入式表示后的向量；

2）词性标注层：将每条句子的词嵌入示表示结果

输入到前向和后向LSTM中，得到词性标注任务的隐状态：

其中，

表示词性标注层中句子s _i中的第j个单词的隐状态；

3）单词层：将词性标注中每个单词的隐状态

输入到单词层前向和后向LSTM中，得到单词层的隐状态：

其中，

表示单词层句子s _i中的第j个单词的隐状态；

4）句子层：采用将句内单词的单词层隐状态

叠加的形式，构成句子的语义表示

，公式表示如下：

其中，w，b为可学习的参数；

5）文档层：通过随机初始化文档级别的语义信息doc作为文档级别的信息表示，且通过模型训练更新语义信息参数，以捕获政策文档级别的语义信息；

6）预测层：结合单词层、句子层、文档层的语义信息对政策中的句子进行分类，计算每个句子抽取出来作为要点内容的概率p(y _i)，其计算公式如下：

其中，softmax为归一化指数函数，sent _i表示句子s _i在该句内单词上的注意力机制加权求和得到的句子语义向量表示，其计算方法如下：

其中，

表示

的向量转置，

表示句子向量

与该句子内的第j个单词的相似程度得分；

表示以常数e为底的指数函数；

表示句子向量

在该句子内第j个单词上的权重分布；

h _doc表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量，其计算方式如下：

其中，

表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分；

表示文档级别的语义信息doc与该文档内第i个句子上的权重分布；

表示文档级别的语义信息doc与句子

的矩阵相乘，

S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型，这两个模型优化目标都采用交叉熵损失函数，这两个模型的联合损失函数为：

其中，

，

，

为文本第i个句子预测为摘要句的概率；

，n表示文本中句子的个数，m表示每个句子的单词个数，C为词性标签的总个数，

表示文本中第i个句子中第j个单词真实词性为

的概率，

表示第i个句子中第j个单词预测词性为v的概率，在模型训练过程中，最小化该损失函数；

S25.阈值选择，待模型训练结束后，利用模型推理出每篇文档中每个句子成为候选摘要句子的概率，设定一个阈值，将概率高于阈值的句子抽取出来作为候选政策要点内容。

所述的基于文本摘要的政策要点抽取方法，步骤S3中所述基于关键单词的候选进行政策要点抽取的具体方法是：

使用词频逆文档频率TFIDF作为二次过滤，得到更加准确的政策要点内容，所述词频逆文档频率TFIDF的计算方式如下：统计一篇政策文件中每个单词出现的频率freq(w _z)与单词总数allwords的占比，称之为TF，即：

统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent(w _z)的对数比率，称之为IDF，即：

其中，分母加1示为了防止分母出现为0的情况，然后计算TFIDF的值：

选取TFIDF值最高的前20个单词作为该政策文件的关键单词，然后，将这些关键单词所在的候选政策要点内容中的句子抽取出来，作为最终政策要点内容。

一种基于文本摘要技术的政策要点抽取系统，该系统包括：

数据库层：数据库主要用来存储本系统的政策文档及其结果，提供用户层所需要的数据；

用户层：用于基于Web技术实现与用户交互，给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能；

人机交互模型预测层：用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后，通过训练好的模型进行推断得到候选政策要点，然后后台管理员对候选政策要点进行辅助解读，将解读结果保存在数据库中；

算法训练层：利用现有的政策文档及解读内容作为数据集来训练文本摘要模型；然后，通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据；最后，对这些新的数据进行预处理，构造政策要点标签，来训练基于多任务学习的抽取式，提升算法精度。

有益效果：

相对于现有技术，本发明的优点在于：（1）结合多任务学习框架，克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题；（2）基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。

附图说明

图1为本发明的基于多任务学习的抽取式文本摘要模型流程图；

图2为基于神经网络搭建的词性标注模型框架图；

图3为本发明的政策要点系统工作流程框架图；

图4为本发明的多任务学习文本摘要神经网络架构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明公开的基于文本摘要的政策要点抽取方法，该方法包括如下步骤：

S3.基于关键单词进行候选政策要点抽取，通过对步骤S2中得到的政策要点通过关键词进行二次筛选，作为最终的政策要点抽取结果。

由于国内外尚无公开的政策要点数据集，本发明首先整理了一个百篇规模的政策要点数据集，然后对该数据集使用pyltp工具进行分句、分词、构建词表、词性标注等操作。

然后，为了构造适合抽取式文本摘要算法的数据集，对中文政策解读数据集进行句子标签构造。即：如果当前句子在政策文件中比较重要，则将该句子标注为“1”，表示该句子出现在政策解读内容中；否则，将该句子标住为“0”，表示该句不出现在政策解读内容中。

具体操作过程为：步骤S1中所述构造政策要点抽取数据集的具体方法是：

S12.初始化每个句子标签为

，预测摘要集合S为空

；

S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高，那么就把该句加入预测摘要集合S，同时将句子标签置为1；否则退出循环。通过上述过程即可得到适合抽取式文本摘要的数据集。

S21.参数定义：对于一篇给定的政策文档

，n表示该政策文档d中包含n个句子，s _i表示该政策文本中的第i个句子，每个句子由m个单词构成，即

，所以，

，

S22.词性标注：目前的抽取式文本摘要算法存在着重要性不足与覆盖原文内容不全的问题，并且存在着模型容易过拟合、泛化性差等问题。为解决上述问题，本发明基于多任务学习，针对文本内容具备的“单词-句子-篇章”层次化结构进行学习，解决了抽取式文本摘要重要性不足与覆盖原文内容不全的问题，同时，提升了模型的泛化性。其中，词性标注任务是从“单词”层面对文本信息的捕获，所以本文引入词性标注任务作为辅助任务。

给定一篇包含n个句子，每个句子包含m个单词的政策文档

，输出每个单词对应的词性标签

，词性标签包含动词、名词、副词、形容词；所述词性标注采用基于神经网络搭建的词性标注模型，基于神经网络搭建的词性标注任务框架如图2所示，图2中最底层的LSTM代表前向循环神经网络，较上层的LSTM代表后向循环神经网络。具体方法是：

1）对输入的文档进行嵌入式词表示，向量维度为300；然后，输入到前向和后向LSTM中进行特征提取；

2）将前向和后向LSTM的的输出隐状态拼接后（如图2中的concat所示）得到每个单词的隐状态

，即第i句话中的第j个单词的隐状态，隐藏层维度为256；

3）将每个单词的隐状态

输入到分类器（如图2中的classfier所示）得到每个单词所对应的词性标签

。

，其中，s _ij表示句子s _i中的第j个单词，

表示该单词采用词嵌入式表示后的向量；

2）词性标注层：将每条句子的词嵌入示表示结果

输入到前向和后向LSTM中，得到词性标注任务的隐状态：

其中，

表示词性标注层中句子s _i中的第j个单词的隐状态；

3）单词层：将词性标注中每个单词的隐状态

输入到单词层前向和后向LSTM中，得到单词层的隐状态：

其中，

表示单词层句子s _i中的第j个单词的隐状态。

4）句子层：采用将句内单词的单词层隐状态

叠加的形式，构成句子的语义表示

，公式表示如下：

其中，w，b为可学习的参数；

5）文档层：通过随机初始化文档级别的语义信息doc作为文档级别的信息表示，且通过模型训练更新该语义信息参数，以捕获政策文档级别的语义信息；

其中，

表示

的向量转置，

表示句子向量

与该句子内的第j个单词的相似程度得分；

表示以常数e为底的指数函数；

表示句子向量

在该句子内第j个单词上的权重分布；

其中，

表示文档级别的语义信息doc与句子

的矩阵相乘，

其中，

，

，

为文本第i个句子预测为摘要句的概率；

表示文本中第i个句子中第j个单词真实词性为

的概率，

表示第i个句子中第j个单词预测词性为v的概率，在模型训练过程中，最小化该损失函数。

S25.阈值选择，待模型训练结束后，利用模型推理出每篇文档中每个句子成为候选摘要句子的概率，设定一个阈值，阈值采用经验设置，将概率高于阈值的句子抽取出来作为候选政策要点内容。

所述的基于文本摘要的政策要点抽取方法，步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是：

以上是本发明提出的基于多任务学习的抽取式文本摘要算法的具体实施过程。为了更好的评估算法模型的性能，本发明采用了文本摘要算法经典的ROUGE评价指标，其中R-1，R-2，R-L的指标越高说明抽取出来的内容重要程度越高，结果越准确。其实验结果如表1所示。

表1政策要点数据集ROUGE分数

表1中算法Lead-10表示取每篇政策的前10句话作为要点内容。可以看出，本文的方法相较于经典的Lead算法，可以实现更高ROUGE分数，说明本文方法可以抽取到政策文本中的核心内容，覆盖更全面的内容。

如图4所示，本发明公开的基于文本摘要技术的政策要点抽取系统是基于上述提出的基于文本摘要技术的政策要点抽取算法进行系统设计的。该系统主要包括数据库、用户层、人机交互模型预测层、算法训练层。

数据库：数据库主要用来存储本系统的政策文件及其结果，提供用户层所需要的数据。该过程是一个动态交互过程，当用户从用户层触发一个功能，意味着对数据库的一次读写操作。

用户层：该层主要为系统用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询等核心功能。上述系统功能基于Web技术实现与用户交互，系统从数据库读取已经分析过的政策文件及其结果，然后展示在Web页面上，提供给用户进行查询、管理。

人机交互模型预测层：具体流程为（1）后台管理员不断利用用户层提供的政策采集接口采集新的政策文件，如图4中的①所示。即：用户通过Web页面输入新的政策文件内容或者通过录入功能上传政策文件；（2）对这些政策文件进行预处理后，通过训练好的摘要系统模型进行推断得到候选政策要点，如图4中的②③④所示。其中，预处理主要包括对政策文件内容进行提取、分句、分词等，预处理结束后输入到算法模型中进行推断，生成候选政策要点内容；（3）后台管理员对候选政策要点进行辅助解读，将解读结果保存在数据库中，如图4中的⑤⑥所示。

算法训练层：利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型（初始阶段，数据集内带有标注的数据规模较少）如图4中的⑦所示；然后，通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据；最后，对这些新的数据进行预处理，构造政策要点标签，来训练多任务文本摘要算法模型，提升算法精度如图4中的⑧⑨⑩所示。

该系统是人机交互的过程。首先，利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型；然后，管理员不断提供新的政策文件到摘要系统，使用训练好的摘要模型进行推断得到候选政策要点；其次，管理员对与本专利发明自动生成的候选政策要点内容进行人工调整之后，再次作为训练数据保存到数据库中，成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明提出的政策要点抽取算法模型的准确度。因此，该人机过程由管理员、摘要系统、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。

在本申请所提供的实施例中，应该理解到，所揭露的方法，在没有超过本申请的精神和范围内，可以通过其他的方式实现。当前的实施例只是一种示范性的例子，不应该作为限制，所给出的具体内容不应该限制本申请的目的。例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。