CN112417853A - 中文专利摘要改写方法 - Google Patents

中文专利摘要改写方法 Download PDF

Info

Publication number
CN112417853A
CN112417853A CN202011470329.6A CN202011470329A CN112417853A CN 112417853 A CN112417853 A CN 112417853A CN 202011470329 A CN202011470329 A CN 202011470329A CN 112417853 A CN112417853 A CN 112417853A
Authority
CN
China
Prior art keywords
sentence
abstract
sentences
extraction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011470329.6A
Other languages
English (en)
Inventor
吕学强
游新冬
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202011470329.6A priority Critical patent/CN112417853A/zh
Publication of CN112417853A publication Critical patent/CN112417853A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种中文专利摘要改写方法,包括:文档预处理;句子分布式表示;句子抽取。本申请实施例提供的中文专利摘要改写方法,通过引入专利术语词典,基于强化学习的句子抽取方法,抽取专利说明书文本的关键句,利用Transformer深度神经网络文本生成方法生成候选摘要,最终融合专利原始摘要信息,经过语义去重和排序得到改写摘要,实现了端到端的专利摘要改写,并且在ROUGE‑1、ROUGE‑2和ROUGE‑L评价标准上表现极佳,明显优于其他序列生成基准方法,有利于降低人工改写的成本,提高专利数据加工的工作效率。

Description

中文专利摘要改写方法
技术领域
本申请涉及文本处理技术领域,具体涉及一种中文专利摘要改写方法。
背景技术
专利文献是技术信息最有效的载体之一,企业竞争情报的分析者,通过细致、严密的分析,可以从专利文献中提取到大量有用信息,而使公开的专利资料为本企业所用,从而实现其特有的经济价值。专利摘要人工改写是获取专利信息的一项重要技术手段。随着专利申请数量不断增多,专利摘要人工改写成本越来越高,如何利用文本自动摘要技术对专利摘要进行自动改写变得尤为重要。现有的文本自动摘要方法在处理多句子摘要改写的过程中,存在句子冗余和准确率低的问题,无法满足专利数据深加工的要求。
发明内容
本申请的目的是提供一种中文专利摘要改写方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种中文专利摘要改写方法,包括:
文档预处理;
句子分布式表示;
句子抽取。
进一步地,所述文档预处理包括:
使用分词工具对专利文档的句子进行分词以及词性标注。
进一步地,所述句子分布式表示,包括:
使用Doc2Vec计算句子的最终向量表示。
进一步地,所述句子抽取,包括:
利用Doc2Vec学习文档的句子表示和一个指针网络基于句子表示上抽取句子。
进一步地,所述句子抽取,包括:分别定义编码器和解码器的隐藏状态为(e1,K,en)和(d1,K,dm);采用一个LSTM结构去训练一个指针网络,循环地抽取基于Doc2Vec表示的关键句;抽取概率计算公式为
Figure BSA0000227638010000021
P(ji|j1,...,ji-1)=softmax(ut)
对于LSTM,在每一个输出时刻,dt是解码器LSTM的输出结果,w和v是训练参数;每一时刻,解码器执行一个注意力机制,首先关注ej去得到上下文向量
Figure BSA0000227638010000022
softmax将向量uj规范化为输入字典上的输出分布,得到抽取概率。
进一步地,所述句子抽取,包括:
利用生成网络将提取的文档句子改写为摘要句子;使用Transformer模型,并增加复制机制直接复制未登录词。
进一步地,所述句子抽取,包括:
使用极大似然估计分别优化每个子模块,训练抽取器以选择重要句子,并使用生成器来生成改写的摘要;应用强化学习来训练端到端的完整模型。
进一步地,所述句子抽取,包括:
把句子选择公式化为一个分类;
使用贪婪算法选择句子以最大化全局摘要级别的ROUGE评价值,根据单个句子级别ROUGE-Lrecall(kt,lt)最大得分为每个人工摘要句子lt从文档中准确匹配1个候选句子kt;给候选句子打上伪训练标签,然后以最小化交叉熵损失训练抽取器;
将基于伪训练标签得到的多个关键句和摘要组合成{(关键句子,摘要),......,(关键句子,摘要)};
生成网络为标准的Transformer模型,以最小化在每个生成步骤的解码器语言模型的交叉熵损失
Figure BSA0000227638010000031
其中θabs是生成器的训练参数的集合,wm是第m个生成的单词;
构造一个隐马可夫决策过程(MDP):在每一个抽取时刻t,代理机制观察当前的状态st=(K,kt-1),采取一个抽取动作at:π(st)=P(kt|k1,K,kt-1)去抽取一个文档句子kt,随后生成器对这个抽取的句子kt进行改写,反馈一个奖励:
Figure BSA0000227638010000032
式中T是生成器;
整个强化学习过程累积的总奖励
Figure BSA0000227638010000033
θπ作为π(s)的网络参数且θπ={τ1,τ2,K,πN},N为抽取的次数;
用基于策略的强化学习训练抽取器;
定义一个状态值函数Vπ(s)来评估抽取动作所获得的奖励值;定义
Figure BSA0000227638010000034
为一个基准奖励,它用来评估增益函数:
Figure BSA0000227638010000035
Figure BSA0000227638010000036
为总的期望值,利用以下策略梯度最大化R(τn):
Figure BSA0000227638010000037
训练Critic最小化方差损失:
Figure BSA0000227638010000038
学习抽取句子数量;
在强化学习训练阶段,添加停止向量VEOE,其具有与句子表示相同的维度;将执行VEOE的抽取行为的奖励函数设置为ROUGE-1F1
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的中文专利摘要改写方法,通过引入专利术语词典,基于强化学习的句子抽取方法,抽取专利说明书文本的关键句,利用Transformer深度神经网络文本生成方法生成候选摘要,最终融合专利原始摘要信息,经过语义去重和排序得到改写摘要,实现了端到端的专利摘要改写,并且在ROUGE-1、ROUGE-2和ROUGE-L评价标准上表现极佳,明显优于其他序列生成基准方法,有利于降低人工改写的成本,提高专利数据加工的工作效率。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例的中文专利摘要改写方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请实施例的强化学习(Reinforcement Learning)机制将抽取器(摘要抽取)和生成器(摘要生成)连接起来进行端到端的训练。本申请实施例使用句子级奖励来优化抽取器,同时保持ML(maximum likelihood)训练的生成解码器固定,从而获得两全其美的结果。本申请实施例首先使用抽取器代理来选择关键的句子,然后使用Transformer模型来依次改写这些抽取的句子。为了克服抽取器的不可微分度量和训练,本申请实施例对没有进行标注的原始文档-摘要对,使用具有句子级度量奖励的Actor-Critic策略梯度来连接这两个神经网络并学习句子重要性。本申请实施例的句子级强化学习考虑了单词-句子层次结构,它更好地模拟语言结构并使并行化成为可能。重写网络是一个简单的编码-校准-解码模型,并且通过自动匹配标准训练了伪文档-摘要句子对。因此,本申请实施例的方法结合了生成方法简洁地重写句子并从完整词汇中产生新词汇的优点,同时采用抽取行为来提高整体模型的质量,速度和稳定性。根据实验结果,本申请实施例的方法在真实数据集上的所有ROUGE评价指标取得了较好效果。
本申请实施例提出了一种基于原始摘要和说明书的专利摘要改写方法RLCPAR。它结合了专利特点、专利术语词表,基于自动文摘技术,融合专利摘要和说明书内容重新生成新的摘要,实现专利摘要改写。提出了基于强化学习连接抽取式和生成式的自动摘要模型,结合了抽取式和生成式方法的优势。该模型在一个中药材专利摘要数据集的多个版本的所有指标上实现了较好的效果,有效地利用了词汇、句子层次结构,融合词汇特征和句子语义信息。最后,针对中药材专利领域文本,RLCPAR生成的摘要与人工摘要具有高度语义相关性。
RLCPAR:基于强化学习的中文专利摘要改写
本申请实施例将给定的长文本文档概括为若干有序关键句的任务,然后将这些关键句组合成一个多句子摘要。抽取器从文档中顺序地抽取重要的句子,然后把这个关键句子集通过生成器去改写成摘要。RLCPAR是将这两个子模块用强化学习机制连接起来而形成的。
预处理
本申请实施例基于专利术语词表和中草药词典,使用jieba分词工具对句子进行分词及词性标注,如表1所示。
表1 句子预处理示例
Figure BSA0000227638010000061
句子的分布式表示
Doc2Vec是一种将句子或段落直接转化为固定维度向量的文档分布式表达的方法。本申请实施例使用Doc2Vec计算句子的最终向量表示。这不仅表示了词与词之间的关系,还可以表示句子和文档之间的关系。
抽取模型
关键句抽取模块可以认为是从文档中顺序地抽取关键句:本申请实施例利用Doc2Vec学习文档的句子表示和一个指针网络(Pointer Network)基于句子表示上抽取句子。
为了方便表示,本申请实施例分别定义编码器和解码器的隐藏状态为(e1,K,en)和(d1,K,dm)。本申请实施例采用一个LSTM结构去训练一个指针网络,循环地抽取基于Doc2Vec表示的关键句。抽取概率计算公式如下:
Figure BSA0000227638010000062
P(ji|j1,...,ji-1)=soft max(ut) (2)
对于LSTM,在每一个输出时刻,dt是解码器LSTM的输出结果,w和v是训练参数。每一时刻,解码器执行一个注意力机制:首先关注ej去得到上下文向量
Figure BSA0000227638010000063
softmax将向量uj(长度为n)规范化为输入字典上的输出分布,得到抽取概率。具体过程:本申请实施例强制设置抽取后的句子的抽取概率为零,防止模型使用重复的句子集,避免句子冗余。这个操作是不可微的,所以只能在强化学习中训练。该模型在每个抽取步骤中类似于对文档的所有句子进行分类。
生成网络
生成网络将提取的文档句子改写为简洁的摘要句子。本申请实施例使用标准的Transformer模型,并增加复制机制直接复制未登录词(OOV)。
RNNs的顺序性使得充分利用TPU和GPU等现代快速计算设备变得更加困难,这些设备擅长并行而不是顺序处理。卷积神经网络(CNNs)的没有时序性的弊端,但在组合来自输入中长距离部分的信息所需的步骤数量仍会随着距离的增加而增加。
相较之下,Transformer是一种基于自注意力机制的新型神经网络结构,它特别适合于语言理解任务。它的工作原理:在每一个步骤中,它应用了一种自注意力机制,直接捕获句子中所有单词之间的关系,而不管它们各自的位置如何。更具体地说,为了计算给定单词的下一个表示,将当前词与句子中其余的每一个单词进行比较。这些比较的结果是句子中每一个单词的注意力得分。这些注意力得分决定了其他单词对当前词下一个表示的贡献。然后,将注意力得分作为所有单词表示的加权平均值的权重,该加权平均值被输入到一个全连接的网络中,生成一个对当前词汇新的表示。
强化学习
鉴于本申请实施例的抽取器执行不可微分的句子抽取,本申请实施例应用标准策略梯度方法来桥接反向传播并形成端到端可训练计算图。然而,简单地从随机初始化的网络开始以端到端的方式训练整个模型是不可行的。当随机初始化时,抽取器通常会选择不相关的句子,因此生成器很难学会抽象地改写。另一方面,如果没有训练有素的生成器,抽取器将获得嘈杂的奖励,这导致对策略梯度和次优策略的错误估计。因此,本申请实施例首先使用极大似然(ML)估计分别优化每个子模块:训练抽取器以选择重要句子,并使用生成器来生成改写的摘要。最后,应用强化学习来训练端到端的完整模型,如图1所示。
抽取器:在上文的抽取模型中,本申请实施例把句子选择公式化为一个分类。然而,原始数据集没有对每一个句子的重要性进行标注。因此,本申请实施例使用贪婪算法选择句子以最大化全局摘要级别的ROUGE评价值,根据单个句子级别ROUGE-Lrecall(kt,lt)最大得分为每个人工摘要句子lt从文档中准确匹配1个候选句子kt。给这些候选句子打上伪训练标签,然后以最小化交叉熵损失训练抽取器。
生成器:本申请实施例将基于伪训练标签得到的多个关键句和摘要组合成{(关键句子,摘要),......,(关键句子,摘要)}。生成网络为标准的Transformer模型,以最小化在每个生成步骤的解码器语言模型的交叉熵损失
Figure BSA0000227638010000081
其中θabs是生成器的训练参数的集合,wm是第m个生成的单词。
而强化学习主要是为了解决训练过程中离散文本不可求导的问题。接下来简单描述策略梯度技术如何应用于优化RLCPAR。为了把抽取器变成一个强化学习代理,本申请实施例构造了一个隐马可夫决策过程(MDP):在每一个抽取时刻t,代理机制观察当前的状态st=(K,kt-1),采取一个抽取动作at:π(st)=P(kt|k1,K,kt-1)去抽取一个文档句子kt,随后生成器对这个抽取的句子kt进行改写,反馈一个奖励:
Figure BSA0000227638010000082
式中T是生成器。整个强化学习过程累积的总奖励
Figure BSA0000227638010000083
θπ作为π(s)的网络参数且θπ={τ1,τ2,K,πN},N为抽取的次数。然后可以用基于策略的强化学习训练抽取器。抽取器使用ROUGE-Lrecall是因为本申请实施例想要为改写,抽取包含尽可能多信息的句子。生成器使用
Figure BSA0000227638010000084
更合适,因为生成器应该在保证语义不失真的情况下尽可能简洁地改写抽取的句子kt
本申请实施例使用经典的A3C算法的同步版本Advantage Actor-Critic强化学习算法来优化抽取器,同时定义一个状态值函数Vπ(s)来评估抽取动作所获得的奖励值。还定义
Figure BSA0000227638010000085
为一个基准奖励,它用来评估增益函数:
Figure BSA0000227638010000086
Figure BSA0000227638010000091
为总的期望值,本申请实施例利用以下策略梯度最大化R(τn):
Figure BSA0000227638010000092
而且训练Critic最小化方差损失:
Figure BSA0000227638010000093
如果抽取器选择了一个好的句子,在生成器改写之后,匹配的ROUGE值会很高,因此鼓励采取此行动。如果选择了一个错误的句子,虽然生成器仍然生成它的改写版本,但摘要与基本事实不符,较低的ROUGE评分是对此行为的惩罚。本申请实施例使用强化学习作为句子抽取指导而不改变生成器的语言模型,而在单词级别上应用强化学习,这可能倾向于以语言流畅性为代价来博取高评分。
学习抽取句子数量。在像游戏一样的典型强化学习设置中,剧集通常由环境终止。另一方面,在文本摘要中,抽取器事先不知道为给定的文章产生多少摘要句子。本申请实施例做了一个重要且简单,直观的改变来解决这个问题:在策略操作空间中添加“停止”操作。在强化学习训练阶段,本申请实施例添加停止向量VEOE,其具有与句子表示相同的维度。指针网络解码器将VEOE视为抽取候选之一,因此自然地导致随机策略中的停止动作。本申请实施例将执行VEOE的抽取行为的奖励函数设置为ROUGE-1F1(对词袋信息的更好衡量);而对于任何无关的,不需要的抽取步骤,抽取器收到零奖励。因此,鼓励模型在仍有剩余的标准摘要句子(以积累中间奖励)时抽取句子,并通过优化全局ROUGE并避免额外抽取来学习停止。总的来说,这种修改允许基于输入文档的句子数量的动态决策,无需调整固定数量的步骤,并且能够对任何特定数据集或应用程序进行数据驱动的自适应。
现有的生成摘要系统在长文档上存在生成重复和冗余的单词和短语等问题。为了缓解这个问题,可以采用覆盖机制和在测试阶段的集束搜索(Beam Search)结合三元文法来避免。RLCPAR没有做这些工作的情况下已经表现良好,因为摘要句子是从互斥的文档句子生成的,这自然避免了冗余。然而,通过简单的重新排序策略,本申请实施例通过删除一些“跨句子”重复来进一步提高摘要质量:在句子级别,应用相同的集束搜索三元文法避免冗余。本申请实施例保留通过集束搜索生成的所有k个句子候选,其中k是集束的大小。接下来,重新排序n个生成的摘要句子的所有kn组合,产生有用的多样化重新排序列表。其中重复的n-gram数量越小越好,最终得到改写的摘要。
例如,本申请一实施方式中,构建“中药材”中文专利摘要改写数据集,共11400篇专利说明书全文,以及某专利公司提供的11400篇人工改写的专利摘要。把专利说明书全文和专利摘要进行分词、断句和停用词过滤,组建成(文档,人工摘要)集合。数据集划分情况:训练集9000篇,验证集1200篇,测试集1200篇。训练数据样例由专利申请号、人工摘要、摘要和说明书组成,人工摘要在原始摘要的基础上添加了制备方法。
对于所有的数据集,评估标准采用ROUGE-1,ROUGE-2和ROUGE-L。ROUGE是一种自动摘要评价方法。
中文专利摘要改写模型的参数设置:输入限制最大长度为100个词,超出最大长度的句子截取前100个词,不足的用<PAD>补齐。程序由PyTorch深度学习模型框架实现,RNN编码器和解码器由LSTM结构单元组成,并加入了注意力机制、覆盖机制以及指针生成器。解码器和编码器的隐藏层设置为256。当验证集的损失值在5轮内没有低于当前最小的损失值时,模型提前终止学习。在解码器中使用Beam-Search算法解码,将Beam-Size设置为4。解码生成摘要的句子数量为3-6句,每个句子的最大长度为100个词,最小长度为6个词。
实验环境:一台linux服务器,两个英特尔至强(R)处理器E5-2603v4,一个型号为NVIDIA Tesla K40M的GPU。
模型中的主要参数设置如下表2所示。
表2 模型中的参数设置
Figure BSA0000227638010000101
Figure BSA0000227638010000111
原始摘要是对说明书的概括总结,包含了说明书的重要信息内容,又添加了人类自己的知识。本申请一实施方式中,将原始摘要和说明书拼接作为模型的全部输入,这样得到的改写摘要保留了原始摘要的内容,又从说明书正文中抽取新的句子,极大的完善了改写摘要的完整性和流畅性,而且RLCPAR方法的结果也超过了原始摘要。
RLCPAR改写后的摘要具备抽象性,本申请一实施方式中,将抽象性得分计算为生成的摘要中新的n-gram与输入文档中不存在的比率。产生这种情况的一个潜在原因是,当使用单个句子对进行训练时,模型学会删除更多文档单词,以便将单个简易句子写成像人类概括的简洁句子,从而改善了n-gram新颖性。而且改写后的摘要较原始摘要更加简洁,信息更加完整,包含了发明名称、原料组成、制备过程和功效四个基本要素,而且机器改写后的摘要更趋近于人类专家改写的结果。
综合分析,RLCPAR不是对输入的长文档序列的每个句子都进行编码,而是采用人类启发的粗到细方法,首先提取所有显著的句子,然后对它们进行解码(改写),这个过程是并行的。这也避免了几乎所有的冗余问题,因为模型已经选择了非冗余的显著句子来进行摘要生成。为了提高额外的收益,本申请实施例还融合了原始摘要,保证摘要的完整性。
一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述任一实施方式的中文专利摘要改写方法。
本申请实施例提供的基于强化学习的中文专利摘要改写方法,通过引入专利术语词典,基于强化学习的句子抽取方法,抽取专利说明书文本的关键句,利用Transformer深度神经网络文本生成方法生成候选摘要,最终融合专利原始摘要信息,经过语义去重和排序得到改写摘要,实现了端到端的专利摘要改写,并且在ROUGE-1、ROUGE-2和ROUGE-L评价标准上表现极佳,明显优于其他序列生成基准方法,有利于降低人工改写的成本,提高专利数据加工的工作效率。
本申请实施例采用中文专利摘要改写模型,该模型注意到单词-句子层次结构信息。RLCPAR能够抽取和改写摘要,抽取器单独执行抽取关键句子,然后简单地在抽取的句子集上应用生成器来使摘要系统抽象化。RLCPAR的生成器改写每个句子而且会从一个大词汇表中产生新词,因此本申请实施例整体摘要中的每个词都是重新生成的,使RLCPAR归类到文本生成。本申请实施例展示了最佳模型如何选择的关键句子然后改写它们。读者可以看到生成器如何简洁地改写抽取的句子同时保留基本事实。该方法集成了关键句子抽取和文本生成的优势,对专利摘要进行改写,在“中药材”中文专利领域的摘要数据上取得了较好结果。有利于降低人工改写的成本,提高专利数据加工的工作效率。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种中文专利摘要改写方法,其特征在于,包括:文档预处理。
2.根据权利要求1所述的方法,其特征在于,所述中文专利摘要改写方法还包括:
句子分布式表示;
句子抽取。
3.根据权利要求2所述的方法,其特征在于,所述文档预处理包括:使用分词工具对专利文档的句子进行分词以及词性标注。
4.根据权利要求2所述的方法,其特征在于,所述句子分布式表示,包括:
使用Doc2Vec计算句子的最终向量表示。
5.根据权利要求2所述的方法,其特征在于,所述句子抽取,包括:
利用Doc2Vec学习文档的句子表示和一个指针网络基于句子表示上抽取句子。
6.根据权利要求2所述的方法,其特征在于,所述句子抽取,包括:分别定义编码器和解码器的隐藏状态为(e1,K,en)和(d1,K,dm);采用一个LSTM结构去训练一个指针网络,循环地抽取基于Doc2Vec表示的关键句;抽取概率计算公式为
Figure FSA0000227568000000011
P(ji|j1,...,ji-1)=soft max(ut)
对于LSTM,在每一个输出时刻,dt是解码器LSTM的输出结果,w和v是训练参数;每一时刻,解码器执行一个注意力机制,首先关注ej去得到上下文向量
Figure FSA0000227568000000012
softmax将向量uj规范化为输入字典上的输出分布,得到抽取概率。
7.根据权利要求2所述的方法,其特征在于,所述句子抽取,包括:
利用生成网络将提取的文档句子改写为摘要句子;使用Transformer模型,并增加复制机制直接复制未登录词。
8.根据权利要求2所述的方法,其特征在于,所述句子抽取,包括:
使用极大似然估计分别优化每个子模块,训练抽取器以选择重要句子,并使用生成器来生成改写的摘要;应用强化学习来训练端到端的完整模型。
9.根据权利要求8所述的方法,其特征在于,所述句子抽取,包括:
把句子选择公式化为一个分类;
使用贪婪算法选择句子以最大化全局摘要级别的ROUGE评价值,根据单个句子级别ROUGE-Lrecall(kt,lt)最大得分为每个人工摘要句子lt从文档中准确匹配1个候选句子kt;给候选句子打上伪训练标签,然后以最小化交叉熵损失训练抽取器;
将基于伪训练标签得到的多个关键句和摘要组合成{(关键句子,摘要),......,(关键句子,摘要)};
生成网络为标准的Transformer模型,以最小化在每个生成步骤的解码器语言模型的交叉熵损失
Figure FSA0000227568000000021
其中θabs是生成器的训练参数的集合,wm是第m个生成的单词;
构造一个隐马可夫决策过程(MDP):在每一个抽取时刻t,代理机制观察当前的状态st=(K,kt-1),采取一个抽取动作at:π(st)=P(kt|k1,K,kt-1)去抽取一个文档句子kt,随后生成器对这个抽取的句子kt进行改写,反馈一个奖励:
Figure FSA0000227568000000022
式中T是生成器;
整个强化学习过程累积的总奖励
Figure FSA0000227568000000023
θπ作为π(s)的网络参数且θπ={τ1,τ2,K,πN},N为抽取的次数;
用基于策略的强化学习训练抽取器;
定义一个状态值函数Vπ(s)来评估抽取动作所获得的奖励值;定义
Figure FSA0000227568000000031
为一个基准奖励,它用来评估增益函数:
Figure FSA0000227568000000032
Figure FSA0000227568000000033
为总的期望值,利用以下策略梯度最大化R(τn):
Figure FSA0000227568000000034
训练Critic最小化方差损失:
Figure FSA0000227568000000035
学习抽取句子数量;
在强化学习训练阶段,添加停止向量VEOE,其具有与句子表示相同的维度;将执行VEOE的抽取行为的奖励函数设置为ROUGE-1F1
10.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-9中任一所述的方法。
CN202011470329.6A 2020-12-15 2020-12-15 中文专利摘要改写方法 Withdrawn CN112417853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011470329.6A CN112417853A (zh) 2020-12-15 2020-12-15 中文专利摘要改写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011470329.6A CN112417853A (zh) 2020-12-15 2020-12-15 中文专利摘要改写方法

Publications (1)

Publication Number Publication Date
CN112417853A true CN112417853A (zh) 2021-02-26

Family

ID=74776579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011470329.6A Withdrawn CN112417853A (zh) 2020-12-15 2020-12-15 中文专利摘要改写方法

Country Status (1)

Country Link
CN (1) CN112417853A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113673241A (zh) * 2021-08-03 2021-11-19 之江实验室 一种基于范例学习的文本摘要生成框架及方法
CN115934897A (zh) * 2023-01-09 2023-04-07 北京知呱呱科技服务有限公司 一种专利用途改写的数据深加工方法及计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282742A (zh) * 2021-04-30 2021-08-20 合肥讯飞数码科技有限公司 摘要获取方法以及电子设备、存储装置
CN113673241A (zh) * 2021-08-03 2021-11-19 之江实验室 一种基于范例学习的文本摘要生成框架及方法
CN113673241B (zh) * 2021-08-03 2024-04-09 之江实验室 一种基于范例学习的文本摘要生成框架系统及方法
CN115934897A (zh) * 2023-01-09 2023-04-07 北京知呱呱科技服务有限公司 一种专利用途改写的数据深加工方法及计算机设备

Similar Documents

Publication Publication Date Title
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109657226B (zh) 多联结注意力的阅读理解模型、系统及方法
CN112417853A (zh) 中文专利摘要改写方法
Fonseca et al. A two-step convolutional neural network approach for semantic role labeling
Sojasingarayar Seq2seq ai chatbot with attention mechanism
JP2019185521A (ja) リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
CN112711948A (zh) 一种中文句子的命名实体识别方法及装置
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
Chen et al. Joint multiple intent detection and slot filling via self-distillation
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
US11450310B2 (en) Spoken language understanding
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN110688450A (zh) 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN113254582A (zh) 一种基于预训练模型的知识驱动对话方法
CN111814479A (zh) 一种企业简称生成及其模型的训练方法及装置
Elizalde et al. Natural language supervision for general-purpose audio representations
Zhuang et al. An ensemble approach to conversation generation
Szűcs et al. Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder
Tretyak et al. Combination of abstractive and extractive approaches for summarization of long scientific texts
Göker et al. Neural text normalization for turkish social media
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210226

WW01 Invention patent application withdrawn after publication