CN112417853A

CN112417853A - 中文专利摘要改写方法

Info

Publication number: CN112417853A
Application number: CN202011470329.6A
Authority: CN
Inventors: 吕学强; 游新冬; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-02-26

Abstract

本申请公开了一种中文专利摘要改写方法，包括：文档预处理；句子分布式表示；句子抽取。本申请实施例提供的中文专利摘要改写方法，通过引入专利术语词典，基于强化学习的句子抽取方法，抽取专利说明书文本的关键句，利用Transformer深度神经网络文本生成方法生成候选摘要，最终融合专利原始摘要信息，经过语义去重和排序得到改写摘要，实现了端到端的专利摘要改写，并且在ROUGE‑1、ROUGE‑2和ROUGE‑L评价标准上表现极佳，明显优于其他序列生成基准方法，有利于降低人工改写的成本，提高专利数据加工的工作效率。

Description

中文专利摘要改写方法

技术领域

本申请涉及文本处理技术领域，具体涉及一种中文专利摘要改写方法。

背景技术

专利文献是技术信息最有效的载体之一，企业竞争情报的分析者，通过细致、严密的分析，可以从专利文献中提取到大量有用信息，而使公开的专利资料为本企业所用，从而实现其特有的经济价值。专利摘要人工改写是获取专利信息的一项重要技术手段。随着专利申请数量不断增多，专利摘要人工改写成本越来越高，如何利用文本自动摘要技术对专利摘要进行自动改写变得尤为重要。现有的文本自动摘要方法在处理多句子摘要改写的过程中，存在句子冗余和准确率低的问题，无法满足专利数据深加工的要求。

发明内容

本申请的目的是提供一种中文专利摘要改写方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种中文专利摘要改写方法，包括：

文档预处理；

句子分布式表示；

句子抽取。

进一步地，所述文档预处理包括：

使用分词工具对专利文档的句子进行分词以及词性标注。

进一步地，所述句子分布式表示，包括：

使用Doc2Vec计算句子的最终向量表示。

进一步地，所述句子抽取，包括：

利用Doc2Vec学习文档的句子表示和一个指针网络基于句子表示上抽取句子。

进一步地，所述句子抽取，包括：分别定义编码器和解码器的隐藏状态为(e₁，K，e_n)和(d₁，K，d_m)；采用一个LSTM结构去训练一个指针网络，循环地抽取基于Doc2Vec表示的关键句；抽取概率计算公式为

P(j_i|j₁，...，j_i-1)＝softmax(u^t)

对于LSTM，在每一个输出时刻，d_t是解码器LSTM的输出结果，w和v是训练参数；每一时刻，解码器执行一个注意力机制，首先关注e_j去得到上下文向量

softmax将向量u_j规范化为输入字典上的输出分布，得到抽取概率。

进一步地，所述句子抽取，包括：

利用生成网络将提取的文档句子改写为摘要句子；使用Transformer模型，并增加复制机制直接复制未登录词。

进一步地，所述句子抽取，包括：

使用极大似然估计分别优化每个子模块，训练抽取器以选择重要句子，并使用生成器来生成改写的摘要；应用强化学习来训练端到端的完整模型。

进一步地，所述句子抽取，包括：

把句子选择公式化为一个分类；

使用贪婪算法选择句子以最大化全局摘要级别的ROUGE评价值，根据单个句子级别ROUGE-L_recall(k_t，l_t)最大得分为每个人工摘要句子l_t从文档中准确匹配1个候选句子k_t；给候选句子打上伪训练标签，然后以最小化交叉熵损失训练抽取器；

将基于伪训练标签得到的多个关键句和摘要组合成{(关键句子，摘要)，......，(关键句子，摘要)}；

生成网络为标准的Transformer模型，以最小化在每个生成步骤的解码器语言模型的交叉熵损失

其中θ_abs是生成器的训练参数的集合，w_m是第m个生成的单词；

构造一个隐马可夫决策过程(MDP)：在每一个抽取时刻t，代理机制观察当前的状态s_t＝(K，k_t-1)，采取一个抽取动作a_t：π(s_t)＝P(k_t|k₁，K，k_t-1)去抽取一个文档句子k_t，随后生成器对这个抽取的句子k_t进行改写，反馈一个奖励：

式中T是生成器；

整个强化学习过程累积的总奖励

θ^π作为π(s)的网络参数且θ^π＝{τ¹，τ²，K，π^N}，N为抽取的次数；

用基于策略的强化学习训练抽取器；

定义一个状态值函数V^π(s)来评估抽取动作所获得的奖励值；定义

为一个基准奖励，它用来评估增益函数：

为总的期望值，利用以下策略梯度最大化R(τⁿ)：

训练Critic最小化方差损失：

学习抽取句子数量；

在强化学习训练阶段，添加停止向量V_EOE，其具有与句子表示相同的维度；将执行V_EOE的抽取行为的奖励函数设置为ROUGE-1_F1。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的中文专利摘要改写方法，通过引入专利术语词典，基于强化学习的句子抽取方法，抽取专利说明书文本的关键句，利用Transformer深度神经网络文本生成方法生成候选摘要，最终融合专利原始摘要信息，经过语义去重和排序得到改写摘要，实现了端到端的专利摘要改写，并且在ROUGE-1、ROUGE-2和ROUGE-L评价标准上表现极佳，明显优于其他序列生成基准方法，有利于降低人工改写的成本，提高专利数据加工的工作效率。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例的中文专利摘要改写方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例的强化学习(Reinforcement Learning)机制将抽取器(摘要抽取)和生成器(摘要生成)连接起来进行端到端的训练。本申请实施例使用句子级奖励来优化抽取器，同时保持ML(maximum likelihood)训练的生成解码器固定，从而获得两全其美的结果。本申请实施例首先使用抽取器代理来选择关键的句子，然后使用Transformer模型来依次改写这些抽取的句子。为了克服抽取器的不可微分度量和训练，本申请实施例对没有进行标注的原始文档-摘要对，使用具有句子级度量奖励的Actor-Critic策略梯度来连接这两个神经网络并学习句子重要性。本申请实施例的句子级强化学习考虑了单词-句子层次结构，它更好地模拟语言结构并使并行化成为可能。重写网络是一个简单的编码-校准-解码模型，并且通过自动匹配标准训练了伪文档-摘要句子对。因此，本申请实施例的方法结合了生成方法简洁地重写句子并从完整词汇中产生新词汇的优点，同时采用抽取行为来提高整体模型的质量，速度和稳定性。根据实验结果，本申请实施例的方法在真实数据集上的所有ROUGE评价指标取得了较好效果。

本申请实施例提出了一种基于原始摘要和说明书的专利摘要改写方法RLCPAR。它结合了专利特点、专利术语词表，基于自动文摘技术，融合专利摘要和说明书内容重新生成新的摘要，实现专利摘要改写。提出了基于强化学习连接抽取式和生成式的自动摘要模型，结合了抽取式和生成式方法的优势。该模型在一个中药材专利摘要数据集的多个版本的所有指标上实现了较好的效果，有效地利用了词汇、句子层次结构，融合词汇特征和句子语义信息。最后，针对中药材专利领域文本，RLCPAR生成的摘要与人工摘要具有高度语义相关性。

RLCPAR：基于强化学习的中文专利摘要改写

本申请实施例将给定的长文本文档概括为若干有序关键句的任务，然后将这些关键句组合成一个多句子摘要。抽取器从文档中顺序地抽取重要的句子，然后把这个关键句子集通过生成器去改写成摘要。RLCPAR是将这两个子模块用强化学习机制连接起来而形成的。

预处理

本申请实施例基于专利术语词表和中草药词典，使用jieba分词工具对句子进行分词及词性标注，如表1所示。

表1 句子预处理示例

句子的分布式表示

Doc2Vec是一种将句子或段落直接转化为固定维度向量的文档分布式表达的方法。本申请实施例使用Doc2Vec计算句子的最终向量表示。这不仅表示了词与词之间的关系，还可以表示句子和文档之间的关系。

抽取模型

关键句抽取模块可以认为是从文档中顺序地抽取关键句：本申请实施例利用Doc2Vec学习文档的句子表示和一个指针网络(Pointer Network)基于句子表示上抽取句子。

为了方便表示，本申请实施例分别定义编码器和解码器的隐藏状态为(e₁，K，e_n)和(d₁，K，d_m)。本申请实施例采用一个LSTM结构去训练一个指针网络，循环地抽取基于Doc2Vec表示的关键句。抽取概率计算公式如下：

P(j_i|j₁，...，j_i-1)＝soft max(u^t) (2)

对于LSTM，在每一个输出时刻，d_t是解码器LSTM的输出结果，w和v是训练参数。每一时刻，解码器执行一个注意力机制：首先关注e_j去得到上下文向量

softmax将向量u_j(长度为n)规范化为输入字典上的输出分布，得到抽取概率。具体过程：本申请实施例强制设置抽取后的句子的抽取概率为零，防止模型使用重复的句子集，避免句子冗余。这个操作是不可微的，所以只能在强化学习中训练。该模型在每个抽取步骤中类似于对文档的所有句子进行分类。

生成网络

生成网络将提取的文档句子改写为简洁的摘要句子。本申请实施例使用标准的Transformer模型，并增加复制机制直接复制未登录词(OOV)。

RNNs的顺序性使得充分利用TPU和GPU等现代快速计算设备变得更加困难，这些设备擅长并行而不是顺序处理。卷积神经网络(CNNs)的没有时序性的弊端，但在组合来自输入中长距离部分的信息所需的步骤数量仍会随着距离的增加而增加。

相较之下，Transformer是一种基于自注意力机制的新型神经网络结构，它特别适合于语言理解任务。它的工作原理：在每一个步骤中，它应用了一种自注意力机制，直接捕获句子中所有单词之间的关系，而不管它们各自的位置如何。更具体地说，为了计算给定单词的下一个表示，将当前词与句子中其余的每一个单词进行比较。这些比较的结果是句子中每一个单词的注意力得分。这些注意力得分决定了其他单词对当前词下一个表示的贡献。然后，将注意力得分作为所有单词表示的加权平均值的权重，该加权平均值被输入到一个全连接的网络中，生成一个对当前词汇新的表示。

强化学习

鉴于本申请实施例的抽取器执行不可微分的句子抽取，本申请实施例应用标准策略梯度方法来桥接反向传播并形成端到端可训练计算图。然而，简单地从随机初始化的网络开始以端到端的方式训练整个模型是不可行的。当随机初始化时，抽取器通常会选择不相关的句子，因此生成器很难学会抽象地改写。另一方面，如果没有训练有素的生成器，抽取器将获得嘈杂的奖励，这导致对策略梯度和次优策略的错误估计。因此，本申请实施例首先使用极大似然(ML)估计分别优化每个子模块：训练抽取器以选择重要句子，并使用生成器来生成改写的摘要。最后，应用强化学习来训练端到端的完整模型，如图1所示。

抽取器：在上文的抽取模型中，本申请实施例把句子选择公式化为一个分类。然而，原始数据集没有对每一个句子的重要性进行标注。因此，本申请实施例使用贪婪算法选择句子以最大化全局摘要级别的ROUGE评价值，根据单个句子级别ROUGE-L_recall(k_t，l_t)最大得分为每个人工摘要句子l_t从文档中准确匹配1个候选句子k_t。给这些候选句子打上伪训练标签，然后以最小化交叉熵损失训练抽取器。

生成器：本申请实施例将基于伪训练标签得到的多个关键句和摘要组合成{(关键句子，摘要)，......，(关键句子，摘要)}。生成网络为标准的Transformer模型，以最小化在每个生成步骤的解码器语言模型的交叉熵损失

其中θ_abs是生成器的训练参数的集合，w_m是第m个生成的单词。

而强化学习主要是为了解决训练过程中离散文本不可求导的问题。接下来简单描述策略梯度技术如何应用于优化RLCPAR。为了把抽取器变成一个强化学习代理，本申请实施例构造了一个隐马可夫决策过程(MDP)：在每一个抽取时刻t，代理机制观察当前的状态s_t＝(K，k_t-1)，采取一个抽取动作a_t：π(s_t)＝P(k_t|k₁，K，k_t-1)去抽取一个文档句子k_t，随后生成器对这个抽取的句子k_t进行改写，反馈一个奖励：

式中T是生成器。整个强化学习过程累积的总奖励

θ^π作为π(s)的网络参数且θ^π＝{τ¹，τ²，K，π^N}，N为抽取的次数。然后可以用基于策略的强化学习训练抽取器。抽取器使用ROUGE-L_recall是因为本申请实施例想要为改写，抽取包含尽可能多信息的句子。生成器使用

更合适，因为生成器应该在保证语义不失真的情况下尽可能简洁地改写抽取的句子k_t。

本申请实施例使用经典的A3C算法的同步版本Advantage Actor-Critic强化学习算法来优化抽取器，同时定义一个状态值函数V^π(s)来评估抽取动作所获得的奖励值。还定义

为一个基准奖励，它用来评估增益函数：

为总的期望值，本申请实施例利用以下策略梯度最大化R(τⁿ)：

而且训练Critic最小化方差损失：

如果抽取器选择了一个好的句子，在生成器改写之后，匹配的ROUGE值会很高，因此鼓励采取此行动。如果选择了一个错误的句子，虽然生成器仍然生成它的改写版本，但摘要与基本事实不符，较低的ROUGE评分是对此行为的惩罚。本申请实施例使用强化学习作为句子抽取指导而不改变生成器的语言模型，而在单词级别上应用强化学习，这可能倾向于以语言流畅性为代价来博取高评分。

学习抽取句子数量。在像游戏一样的典型强化学习设置中，剧集通常由环境终止。另一方面，在文本摘要中，抽取器事先不知道为给定的文章产生多少摘要句子。本申请实施例做了一个重要且简单，直观的改变来解决这个问题：在策略操作空间中添加“停止”操作。在强化学习训练阶段，本申请实施例添加停止向量V_EOE，其具有与句子表示相同的维度。指针网络解码器将V_EOE视为抽取候选之一，因此自然地导致随机策略中的停止动作。本申请实施例将执行V_EOE的抽取行为的奖励函数设置为ROUGE-1_F1(对词袋信息的更好衡量)；而对于任何无关的，不需要的抽取步骤，抽取器收到零奖励。因此，鼓励模型在仍有剩余的标准摘要句子(以积累中间奖励)时抽取句子，并通过优化全局ROUGE并避免额外抽取来学习停止。总的来说，这种修改允许基于输入文档的句子数量的动态决策，无需调整固定数量的步骤，并且能够对任何特定数据集或应用程序进行数据驱动的自适应。

现有的生成摘要系统在长文档上存在生成重复和冗余的单词和短语等问题。为了缓解这个问题，可以采用覆盖机制和在测试阶段的集束搜索(Beam Search)结合三元文法来避免。RLCPAR没有做这些工作的情况下已经表现良好，因为摘要句子是从互斥的文档句子生成的，这自然避免了冗余。然而，通过简单的重新排序策略，本申请实施例通过删除一些“跨句子”重复来进一步提高摘要质量：在句子级别，应用相同的集束搜索三元文法避免冗余。本申请实施例保留通过集束搜索生成的所有k个句子候选，其中k是集束的大小。接下来，重新排序n个生成的摘要句子的所有kⁿ组合，产生有用的多样化重新排序列表。其中重复的n-gram数量越小越好，最终得到改写的摘要。

例如，本申请一实施方式中，构建“中药材”中文专利摘要改写数据集，共11400篇专利说明书全文，以及某专利公司提供的11400篇人工改写的专利摘要。把专利说明书全文和专利摘要进行分词、断句和停用词过滤，组建成(文档，人工摘要)集合。数据集划分情况：训练集9000篇，验证集1200篇，测试集1200篇。训练数据样例由专利申请号、人工摘要、摘要和说明书组成，人工摘要在原始摘要的基础上添加了制备方法。

对于所有的数据集，评估标准采用ROUGE-1，ROUGE-2和ROUGE-L。ROUGE是一种自动摘要评价方法。

中文专利摘要改写模型的参数设置：输入限制最大长度为100个词，超出最大长度的句子截取前100个词，不足的用<PAD>补齐。程序由PyTorch深度学习模型框架实现，RNN编码器和解码器由LSTM结构单元组成，并加入了注意力机制、覆盖机制以及指针生成器。解码器和编码器的隐藏层设置为256。当验证集的损失值在5轮内没有低于当前最小的损失值时，模型提前终止学习。在解码器中使用Beam-Search算法解码，将Beam-Size设置为4。解码生成摘要的句子数量为3-6句，每个句子的最大长度为100个词，最小长度为6个词。

实验环境：一台linux服务器，两个英特尔至强(R)处理器E5-2603v4，一个型号为NVIDIA Tesla K40M的GPU。

模型中的主要参数设置如下表2所示。

表2 模型中的参数设置

原始摘要是对说明书的概括总结，包含了说明书的重要信息内容，又添加了人类自己的知识。本申请一实施方式中，将原始摘要和说明书拼接作为模型的全部输入，这样得到的改写摘要保留了原始摘要的内容，又从说明书正文中抽取新的句子，极大的完善了改写摘要的完整性和流畅性，而且RLCPAR方法的结果也超过了原始摘要。

RLCPAR改写后的摘要具备抽象性，本申请一实施方式中，将抽象性得分计算为生成的摘要中新的n-gram与输入文档中不存在的比率。产生这种情况的一个潜在原因是，当使用单个句子对进行训练时，模型学会删除更多文档单词，以便将单个简易句子写成像人类概括的简洁句子，从而改善了n-gram新颖性。而且改写后的摘要较原始摘要更加简洁，信息更加完整，包含了发明名称、原料组成、制备过程和功效四个基本要素，而且机器改写后的摘要更趋近于人类专家改写的结果。

综合分析，RLCPAR不是对输入的长文档序列的每个句子都进行编码，而是采用人类启发的粗到细方法，首先提取所有显著的句子，然后对它们进行解码(改写)，这个过程是并行的。这也避免了几乎所有的冗余问题，因为模型已经选择了非冗余的显著句子来进行摘要生成。为了提高额外的收益，本申请实施例还融合了原始摘要，保证摘要的完整性。

一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一实施方式的中文专利摘要改写方法。

本申请实施例提供的基于强化学习的中文专利摘要改写方法，通过引入专利术语词典，基于强化学习的句子抽取方法，抽取专利说明书文本的关键句，利用Transformer深度神经网络文本生成方法生成候选摘要，最终融合专利原始摘要信息，经过语义去重和排序得到改写摘要，实现了端到端的专利摘要改写，并且在ROUGE-1、ROUGE-2和ROUGE-L评价标准上表现极佳，明显优于其他序列生成基准方法，有利于降低人工改写的成本，提高专利数据加工的工作效率。

本申请实施例采用中文专利摘要改写模型，该模型注意到单词-句子层次结构信息。RLCPAR能够抽取和改写摘要，抽取器单独执行抽取关键句子，然后简单地在抽取的句子集上应用生成器来使摘要系统抽象化。RLCPAR的生成器改写每个句子而且会从一个大词汇表中产生新词，因此本申请实施例整体摘要中的每个词都是重新生成的，使RLCPAR归类到文本生成。本申请实施例展示了最佳模型如何选择的关键句子然后改写它们。读者可以看到生成器如何简洁地改写抽取的句子同时保留基本事实。该方法集成了关键句子抽取和文本生成的优势，对专利摘要进行改写，在“中药材”中文专利领域的摘要数据上取得了较好结果。有利于降低人工改写的成本，提高专利数据加工的工作效率。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。