CN116028620B

CN116028620B - 一种基于多任务特征协同的生成专利摘要的方法及系统

Info

Publication number: CN116028620B
Application number: CN202310132408.3A
Authority: CN
Inventors: 冯好国; 裴非; 徐青伟; 严长春; 范娥媚
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd
Current assignee: Beijing Xinghe Zhiyuan Technology Co.,Ltd.
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-09
Anticipated expiration: 2043-02-20
Also published as: CN116028620A

Abstract

本发明公开了一种基于多任务特征协同的生成专利摘要的方法及系统，基于多任务模型分别生成要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息等生成文本，通过汇总生成专利摘要流程得到最终的专利摘要，实现输入原始专利文本自动撰写输出专利摘要的目的，降低了专利摘要撰写的人工成本，提升了专利摘要撰写的效率。

Description

一种基于多任务特征协同的生成专利摘要的方法及系统

技术领域

本发明涉及文献检索技术领域，具体涉及一种基于多任务特征协同的生成专利摘要的方法及系统。

背景技术

专利深加工针对专利文献特点利用文本生成技术获取高附加值的专利改写技术，专利摘要改写属于专利深加工组成部分。随着技术发展和专利数量迅速增多，国家和企业情报分析需要深入专利文本深层，迫切需要对专利大数据进行标注，由于人工标注存在成本高、速度慢等问题，自动标注技术也越来越受业界关注。目前较常用的几种处理方法如下：

（一）基于词表和模板自动深加工方法（“中文专利信息资源深加工方案设计与实证研究”，《技术与应用》，2014年第07期），深入到专利内容层面细粒度标引，利用半自动化的模板构建方法抽取专利文本摘要中的指定信息，实现指定领域的专利术语识别，利用识别出的术语进行标引，模板是对句子中被抽取部分、特征词以及它们之间的次序的抽象，共设计了发明类型（是否属于产品、方法、设备、流程、工艺、材料等主题）、技术主题（专利全文描述的主要对象或主要技术）、发明改进、应用领域（用途）等四种信息的标引。

（二）融合原文事实的中文专利摘要生成方法（崔卓，中文专利标题及摘要生成技术研究，北京信息科技大学专业硕士学位论文，2021年4月）使用文本排序TextRank算法（一种用于文本的基于图的排序算法）提取说明书中心句，提取中心句中三元组作为原文事实性描述，基于原文事实性描述进行指导利用转换器（Transformer）和指针神经网络得到最后的中文专利摘要。

转换器（Transformer）是一个利用注意力机制来提高模型训练速度的模型，是完全基于自注意力机制的一个深度学习模型，因为它适用于并行化计算，和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。

（三）一种基于规则的专利摘要自动抽取和关键词标引方法（公开号为CN101692240A的中国专利公开文本），其自动撰写摘要技术是：对于功能单一的段落，按照其前后顺序确定重要程度，越靠前越重要；对于功能复合段落，根据本段中各类标记字与非标记字的比率确定，最后挑选各种类型中权重最大的段落生成自动摘要的结果。

（四）中文专利摘要改写方法（公开号为CN112417853A的中国专利公开文本），通过引入专利术语词典，基于强化学习的句子抽取方法，抽取专利说明书文本的关键句，利用转换器（Transformer）深度神经网络文本生成方法生成候选摘要，最终融合专利原始摘要信息，经过语义去重和排序得到改写摘要，实现了端到端的专利摘要改写。

其中，（一）基于词表和模板自动深加工方法，需要首先建立模板库，采用人机交互方式，构建抽取模板，完成知识抽取任务，依赖模板数量、质量和覆盖度，成本较高且还依赖词表，其四种标引信息与本发明五种标引信息也不同。（二）融合原文事实的中文专利摘要生成方法提取中心句中三元组作为原文事实性描述，但没有考虑面对不同种类文本如何得到更能表示原文事实的三元组以及如何改变三元组加入模型的方式，融合原文事实中文专利摘要生成方法没有细分核心方案、发明点、其他技术方案中的发明信息、要解决的技术问题等摘要子类目，生成的摘要语句简洁，容易受训练数据和模型影响导致生成摘要子类目构成仍存在缺失问题。（三）一种基于规则的专利摘要自动抽取和关键词标引方法，通过抽取关键的段落组成摘要，属于抽取技术路线。（四）中文专利摘要改写方法采用一个LSTM（long short term memory，长短期记忆，LSTM是一种特殊的循环神经网络RNN）结构去训练一个指针网络，循环地抽取基于Doc2Vec（文档的向量化）表示的关键句，利用生成网络将提取的文档句子改写为摘要句子，应用强化学习来训练端到端的完整模型，技术较为先进但复杂度较高，没有明确专利摘要构成子类目种类。

发明内容

针对现有技术的不足，本发明提供的一种专利摘要生成的技术方案，可自动高效地生成专利摘要。

为了实现上述目的，本发明提供如下技术方案：

本发明一方面提供了一种专利摘要生成方法，包括确定专利摘要组成任务及其数据源类目，基于各任务特征压缩文本，所述压缩包括多任务特征协同压缩，基于预训练模型微调、验证和评估得到专利摘要生成模型。

本发明实施例提供的一种基于多任务特征协同的生成专利摘要的方法，包括如下步骤：

专利摘要组成部分的生成模型训练：基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化；

基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型；

对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型；

将待加工的专利文本进行拆分、压缩处理，并分别导入相应的专利摘要各组成部分生成模型；

将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要；

其中，所述专利摘要组成部分包括核心方案技术特征信息、发明点技术特征信息、其他技术方案中的发明信息、用途信息、要解决的技术问题和有益效果。

更适宜地，基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化，包括：

特征获取：根据词频进行筛选得到特征，经试验依据验证集损失、压缩文本权重和测试集评估值指标综合确定预定数量的特征；和/或

协同：通过将所述专利摘要组成部分生成任务划分成目标任务和支持任务实现的，所述目标任务指当前选出的正在优化的某个任务，所述支持任务指被用来达成对目标任务进行优化目的而选择的其他若干任务，所述协同任务是实际进入协同压缩阶段的支持任务，根据协同任务筛选算法从支持任务中筛选得到。

更适宜地，该生成专利摘要的方法，还包括压缩步骤：

压缩过程中，任一支持任务的特征划被分成私有特征和公有特征，所述私有特征指某一支持任务存在的而其支持的当前目标任务不存在的特征，所述公有特征指某一支持任务和其支持的当前目标任务都存在的特征。

更适宜地，要解决的技术问题和有益效果生成任务，包括如下步骤：

对样本库专利文献进行文本解析，拆分为名称、摘要、权利要求和说明书、背景技术、发明内容、有益效果；并进行清洗及预处理、压缩；

利用要解决的技术问题和有益效果任务的高相关文本对压缩文本进行强调；

在原文撰写了有益效果情况下，通过使用剩余压缩空间大小作为压缩长度阈值压缩原文撰写的有益效果，引入人类经验；

针对相关性低的压缩文本，实施对未使用的内容，如：权利要求和说明书，进行压缩，补充压缩文本；

确定支持任务，构建任务矩阵，经协同任务筛选算法得到协同任务，实施多任务协同压缩；

利用压缩文本和标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到要解决的技术问题和有益效果生成模型。

更适宜地，用途生成任务，包括如下步骤：

对用途生成任务的各类目数据源进行清洗及预处理；

对名称、摘要、技术领域、背景技术、发明内容、有益效果、正文末尾内容进行压缩；

对于用途生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建文本得到用途生成高相关文本，用于强调；

对摘要、技术领域、背景技术、发明内容、有益效果、正文末尾利用高相关文本强调；

对权利要求和非正文末尾未使用文本进行压缩后补充低相关文本；

确定支持任务，实施多任务特征协同压缩；

利用压缩文本和标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到用途生成模型。

更适宜地，核心方案生成任务，包括如下步骤：

对样本库专利文献进行文本解析，拆分为名称、摘要、权利要求和说明书，并进行清洗及预处理、压缩；

核心方案生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调；

对摘要、权利要求、说明书利用高相关文本强调；

确定支持任务，实施多任务特征协同压缩；

利用压缩文本和经过元件及编号处理过的标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到核心方案生成模型。

具体地，发明点生成任务，包括如下步骤：

发明点生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调；

对摘要、权利要求、说明书的类目主压缩结果利用高相关文本强调；

确定支持任务，实施多任务特征协同压缩。

利用压缩文本和标签构建数据集，基于迁移学习中模型迁移和预训练方法，结合撰写发明点对改写后的核心方案技术改进进行提炼的撰写经验，改写后的核心方案作为发明点的通用特征文本，将核心方案生成模型作为发明点的底层通用特征提取模型，通过样本库发明点标签文本进一步微调模型提取对发明点生成具有强相关的特征，基于核心方案生成模型进行微调、验证和评估得到发明点生成模型。

更适宜地，其他技术方案中的发明信息生成任务，包括如下步骤：

基于最长公共子序列（LCS）和目标贡献占比计算权重，结合摘要总长度得到其他技术方案中的发明信息生成任务所需的压缩文本长度；所述压缩包括：

对摘要、权利要求、说明书利用高相关文本强调；

确定支持任务，实施多任务协同压缩；其他技术方案中的发明信息生成任务的高相关文本指摘要、权利要求、说明书的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调；

利用压缩文本和经过元件及编号处理过的标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到其他技术方案中的发明信息生成模型。

更适宜地，汇总得到专利摘要的过程，还包括：

在将所生成的专利摘要组成部分汇总之前，对所述核心方案生成任务和其他技术方案中的发明信息生成任务涉及元件及编号进行处理。

优选地，文本生成模型中支持输入序列长度更长的文本生成模型为T5模型。

另一方面，本发明还提供一种专利摘要生成系统，包括：专利长文本解析及压缩模块，专利摘要生成模型训练模块，基于训练好的多任务专利摘要生成模型汇总生成专利摘要模块。

本发明实施例还提供一种基于多任务特征协同生成专利摘要的系统，包括：

生成模型训练单元，用于基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化；

模型迁移处理单元，基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型；

多任务处理单元，对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型；

汇总单元，用于将待加工的专利文本进行拆分、压缩处理，并分别导入相应的专利摘要各组成部分生成模型；将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要；

本发明实施例还提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的计算机程序，所述计算机程序被所述处理器执行，以使所述处理器能够执行前述生成专利摘要的方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现前述生成专利摘要的方法。

本发明具有如下优点：

本发明提供的技术方案基于多任务模型分别生成要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息等生成文本，通过汇总生成专利摘要流程得到最终的专利摘要，实现输入原始专利文本自动撰写输出专利摘要的目的，降低了专利摘要撰写的人工成本，提升了专利摘要撰写的效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其他的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例提供的基于多任务特征协同的生成专利摘要的方法流程图；

图2为本发明实施例一提供的生成专利摘要的方法总流程示意图；

图3为本发明实施例一提供的要解决的技术问题和有益效果生成任务中的压缩及生成流程示意图；

图4为本发明实施例一中的用途生成任务中的压缩及生成流程示意图；

图5为本发明实施例一中的核心方案生成任务中的压缩及生成流程示意图；

图6为本发明实施例1中的发明点生成任务中的压缩及生成流程示意图；

图7为本发明实施例一中的其他技术方案中的发明信息生成任务中的压缩及生成流程示意图；

图8为本发明实施例一中汇总生成专利摘要的流程示意图；

图9为本发明实施例二提供的基于多任务特征协同生成专利摘要的系统构成示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明采用生成技术路线，目的是通过多任务实现生成摘要的子类目构成更完整，信息更全面，更适用于各子类目维度信息检索；通过特征协同和模型迁移学习，实现在单任务优化基础上进一步提升专利摘要各组成部分生成任务评估指标值。

本发明适用于专利摘要生成或改写，具体是一种基于多任务特征协同的压缩生成专利摘要方法，简要概括为特征协同压缩、模型迁移和多任务。所述摘要构成要素包括核心方案、发明点、其他技术方案中的发明信息、用途、要解决的技术问题和有益效果等；

所述特征协同压缩指基于试验得到的多任务之间在特征层次实施关联优化方案；

所述模型迁移指利用迁移学习技术，在已有其他任务的生成模型基础上实施训练评估，得到更优的当前任务生成模型；所述多任务指专利摘要各组成部分的生成任务。

参见图1，本发明实施例提供的一种基于多任务特征协同的生成专利摘要的方法，包括如下步骤：

S101，专利摘要组成部分的生成模型训练：基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化；

S102，基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型；

S103，对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型；

S104，将待加工的专利文本进行拆分、压缩处理，并分别导入相应的专利摘要各组成部分生成模型；

S105，将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要。

其中，专利摘要组成部分包括核心方案技术特征信息、发明点技术特征信息、其他技术方案中的发明信息、用途信息、要解决的技术问题和有益效果。

为使本发明的原理、特性和优点更加清楚，下面详细描述本发明的技术实现方案。

实施例一

图2为本发明实施例中的生成专利摘要的方法总流程示意图，参见图2。

首先，需要进行专利摘要组成部分的生成模型训练：

在步骤S101中，基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化，具体如下：

一）特征协同、优化

（1）特征获取

从样本库中提取专利文献，统计词频并由高到低排序，绘制词频对数曲线，在拐点附近取若干值，拐点向左取得词汇并去除单字词得到特征，经试验依据验证集损失、压缩文本权重和测试集评估值等指标综合确定预定数量的特征。

（2）目标任务、支持任务和协同任务

本发明所述协同是通过将任务划分成目标任务、支持任务和协同任务实现的，所述目标任务指当前选出的正在优化的某个任务，所述支持任务指被用来达成对目标任务进行优化目的而选择的其他若干任务。对于某一次协同压缩先确定一个且只能一个目标任务，根据目标任务选取若干支持任务，支持任务可以有多个且因目标任务不同而不同。根据协同任务筛选算法从支持任务中筛选得到的实际进入协同压缩阶段对目标任务进行协同压缩的支持任务命名为协同任务，换句话说，所述协同任务是实际进入协同压缩阶段的支持任务，根据协同任务筛选算法从支持任务中筛选得到。

（3）私有特征和公有特征

本发明所述协同压缩过程中任一支持任务的特征划被分成私有特征和公有特征。所述私有特征指某一支持任务存在的而其支持的当前目标任务不存在的特征，数学公式定义：

(1a)

其中，

：某个支持任务的私有特征集，

：特征feature属于支持任务并且不属于目标任务，/>

：由属于支持任务并且不属于目标任务的特征feature构成的特征集。

某个支持任务的私有特征集可以通过支持任务特征集减去目标任务特征集计算差集得到，计算公式如下：

(2a)

其中，

：某个支持任务的私有特征集，/>

：某个支持任务的特征集，/>

：某个目标任务的特征集。

所述公有特征指某一支持任务和其支持的当前目标任务都存在的特征，数学公式定义：

(3a)

其中，

：某个支持任务相对于当前目标任务的公有特征集；

：特征feature属于支持任务且属于目标任务；

：由属于支持任务且属于目标任务的特征feature构成的特征集。

该特征集可以通过支持任务特征集和目标任务特征集计算交集得到，计算公式如下：

(4a)

其中，

：某个支持任务相对于当前目标任务的公有特征集，

：某个支持任务的特征集，/>

：某个目标任务的特征集。

（4）协同压缩文本与目标相关性计算

本发明不涉及特征权重建模，直接给出特征权重

，在此基础上设计协同压缩文本与目标的相关性数学公式。基于特征权重设计协同压缩文本权重公式：/>

(1b)

其中，

表示特征feature的权重，/>

表示句子sent中的所有特征，/>

表示协同压缩文本中的所有句子。

定义协同任务对目标任务贡献度计算公式：

(2b)

其中，

表示样本库目标任务标签文本分词非重复词集合，/>

表示样本库协同任务对应标签文本分词非重复词集合，/>

表示样本库协同任务标签文本与目标任务标签文本最长公共子串长度，/>

表示目标任务标签文本长度。

计算所有协同任务对目标任务贡献度靠前的N个协同任务，计算公式定义：

(3b)

其中，Softmax()表示对所有协同任务对目标任务的贡献度计算Softmax，

表示筛选出逆向排序靠前的n个协同任务，n大于等于0。

定义协同压缩文本与目标的相关性公式：

(4b)

其中，

表示根据公式(2b)计算得到的协同任务对目标任务的贡献度，/>

表示根据公式(1b)计算得到的协同压缩文本的权重。

（5）协同任务筛选

确定待优化的目标任务，将支持任务根据私有特征和公有特征绘制任务矩阵。

协同任务筛选算法

S201，绘制任务矩阵，得到候选协同任务集合；

S202，根据协同压缩文本权重公式(1)计算协同压缩文本权重；

S203，根据协同任务对目标任务贡献度公式(2b)计算所有协同任务对目标任务贡献度；

S204，根据计算对公式(3b)得到目标任务贡献度最大的的前N个协同任务；

S205，根据协同压缩文本与目标的相关性公式(4b)计算前N个协同任务的相关性；

S206，根据相关性确定最终的协同任务。

多任务中的各任务协同压缩将根据所述任务矩阵和所述协同任务筛选算法确定目标任务的协同任务，进行特征协同压缩。

二）模型迁移

在步骤S102中，基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型；

本发明所述模型迁移具体指基于迁移学习中模型迁移和预训练方法在核心方案生成模型基础上实施训练评估得到发明点生成模型。

三）多任务

步骤S103中，对各个所述专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型，具体如下：

（1）要解决的技术问题和有益效果

数据源优化。撰写要解决的技术问题和有益效果应列出说明书背景技术及发明内容中所揭露的现有技术中存在的技术问题，由技术改进直接带来的、或者由其必然产生的技术效果等内容，一般会参考发明内容第一段和最后一段进行标引。本发明自动撰写所述要解决的技术问题和有益效果，构建数据源类目如“表1要解决的技术问题和有益效果生成任务的数据源类目表”所示。

表1 要解决的技术问题和有益效果生成任务的数据源类目表

压缩优化。基于最长公共子序列（LCS,Longest Common Sub-sequence）和目标贡献占比计算权重，结合摘要总长度得到要解决的技术问题和有益效果生成任务所需的压缩文本长度。所述压缩包括：

S301，对名称、摘要、权利要求和说明书进行清洗及预处理；

S302，名称压缩、摘要压缩、背景技术压缩、发明内容压缩、有益效果压缩；

S303，对摘要、背景技术、发明内容和有益效果实施高相关文本强调；

S304，对于压缩文本且原文撰写了有益效果内容，通过使用剩余压缩空间大小作为阈值压缩有益效果，引入人类经验；

S305，针对相关性低的压缩文本，实施对未使用的部分内容，如：权利要求和说明书，进行压缩，补充压缩文本；

S306，确定支持任务，实施多任务协同压缩。要解决的技术问题和有益效果生成任务的高相关文本指摘要、背景技术、发明内容、有益效果等类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调。

模型生成。利用压缩文本和标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调,验证和评估得到要解决的技术问题和有益效果生成模型。本实施例选用截至2022年支持输入序列最长的T5模型进行微调，“要解决的技术问题和有益效果生成任务”的压缩及生成流程如图3所示。

（2）用途

数据源优化。撰写用途类目基于说明书技术领域、背景技术及发明内容处明确公开的用途信息进行撰写，一般参考说明书中技术领域或有益效果或背景技术部分中含有“用于、用作、用在、用做”的一句话，没有用途的情况，标引技术领域，除此以外，还应提取说明书中公开的技术主题的用途信息，若说明书正文末尾披露了工业实用性的相关内容，需从此内容中提取明确公开的用途信息。本发明自动撰写用途，需构建数据源类目如“表2用途生成任务的数据源类目表”所示。

表2 用途生成任务的数据源类目表

压缩优化。基于最长公共子序列（LCS）和目标贡献占比计算权重，结合摘要总长度得到用途生成任务所需的压缩文本长度。所述压缩包括：

S401，对各类目数据源进行清洗及预处理；

S402，对名称、摘要、技术领域、背景技术、发明内容、有益效果、正文末尾等内容进行压缩；

S403，对摘要、技术领域、背景技术、发明内容、有益效果、正文末尾等利用高相关文本强调；

S404，对权利要求和非正文末尾等未使用文本进行压缩后补充低相关文本；

S405，确定支持任务，实施多任务特征协同压缩。

用途生成任务的高相关文本指摘要、技术领域、背景技术、发明内容、有益效果、正文末尾等类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调。

模型生成。利用压缩文本和标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调,验证和评估得到要解决的技术问题和有益效果生成模型。本实施例选用截至2022年支持输入序列最长的T5模型，通过T5模型进行微调、验证和评估得到用途生成模型，“用途生成任务”的压缩及生成流程如图4所示。

（3）核心方案

数据源优化。撰写核心方案一般需要结合权利要求和说明书全文进行确定，根据权利要求书的提示和引导，在通读说明书全文基础上，针对要解决的技术问题，或达到其声称的发明目的或技术效果，确定所采取的技术改进后，以技术改进为核心，用本领域的通用技术语言展开描述。本发明自动撰写核心方案，需构建数据源类目如“表3 核心方案生成任务的数据源类目表”所示。

表3 核心方案生成任务的数据源类目表

压缩优化。基于LCS和目标贡献占比计算权重，结合摘要总长度得到核心方案生成任务所需的压缩文本长度。所述压缩包括：

S501，对名称、摘要、权利要求、说明书等内容清洗及预处理；

S502，对名称、摘要、权利要求、说明书等内容进行压缩；

S503，对摘要、权利要求、说明书等内容利用高相关文本强调；

S504，确定支持任务，实施多任务特征协同压缩。核心方案生成任务的高相关文本指摘要、权利要求、说明书等类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调。

模型生成。利用压缩文本和经过元件及编号处理过的标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调,验证和评估得到要解决的技术问题和有益效果生成模型。本实施例选用截至2022年支持输入序列最长的T5模型，通过T5模型进行微调、验证和评估得到核心方案生成模型，“核心方案生成任务”压缩及生成流程如图5所示。

（4）发明点

数据源优化。撰写发明点一般需要结合权利要求、说明书全文、改写后的核心方案进行确定，提取发明点时，应在阅读说明书全文基础上，针对要解决的技术问题，或达到其声称的发明目的或技术效果，确定所采取的技术改进，发明点应对核心方案的技术改进进行提炼。本发明自动撰写发明点，需构建数据源类目如“表4 发明点生成任务的数据源类目表”所示。

表4 发明点生成任务的数据源类目表

压缩优化。基于最长公共子序列（LCS,Longest Common Subsequence）和目标贡献占比计算权重，结合摘要总长度得到发明点生成任务所需的压缩文本长度。

本实施例中，压缩具体包括如下步骤：

S601，对名称、摘要、权利要求、说明书等内容清洗及预处理；

S602，对名称、摘要、权利要求、说明书等内容进行压缩；

S603，对摘要、权利要求、说明书等类目主压缩结果利用高相关文本强调；

S604，确定支持任务，实施多任务特征协同压缩。

发明点生成任务的高相关文本指摘要、权利要求、说明书等类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调。

模型生成。利用压缩文本和标签构建数据集，基于迁移学习中模型迁移和预训练方法，结合撰写发明点应对改写后的核心方案技术改进进行提炼的撰写经验，改写后的核心方案作为发明点的通用特征文本，把核心方案生成模型作为发明点的底层通用特征提取模型，通过样本库发明点标签文本进一步微调模型提取对发明点生成具有强相关的特征。具体实施方法是基于核心方案生成模型进行微调、验证和评估得到发明点生成模型，“发明点生成任务”压缩及生成流程如图6所示。

（5）其他技术方案中的发明信息

数据源优化。当权利要求书有多个独立权利要求时（例如：多个独立权利要求对应多个不同主题类型的技术方案），撰写还应体现核心方案之外的其他技术方案的发明信息，在摘要字数允许范围内，尽可能体现：a)其他独立权利要求对应技术方案的技术主题名称；b)相关技术主题的与核心方案不同的发明点信息。当说明书中存在其他发明信息时，也可以在该类目中体现，如果其他独立权利要求的技术主题名称与核心方案的技术主题名称相同，可以不重复体现。本发明自动撰写其他技术方案中的发明信息，需构建数据源类目如“表5 其他技术方案中的发明信息生成任务的数据源类目表”所示。

压缩优化。基于最长公共子序列（LCS）和目标贡献占比计算权重，结合摘要总长度得到其他技术方案中的发明信息生成任务所需的压缩文本长度。本实施例中，压缩包括如下步骤：

S701，对名称、摘要、权利要求、说明书等内容清洗及预处理；

S702，对名称、摘要、权利要求、说明书等内容进行压缩；

S703，对摘要、权利要求、说明书等内容利用高相关文本强调；

S704，确定支持任务，实施多任务协同压缩。

其他技术方案中的发明信息生成任务的高相关文本指摘要、权利要求、说明书等类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本，用于强调。

表5 其他技术方案中的发明信息生成任务的数据源类目表

模型生成。利用压缩文本和经过元件及编号处理过的标签构建数据集，通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调,验证和评估得到要解决的技术问题和有益效果生成模型。本实施例选用截至2022年支持输入序列最长的T5模型，通过T5模型进行微调、验证和评估得到其他技术方案中的发明信息生成模型，“其他技术方案中的发明信息生成任务”压缩及生成流程如图7所示。

4）汇总生成专利摘要

在步骤S104和S105中，将待加工的专利文本进行拆分、压缩处理，并分别导入相应的专利摘要各组成部分生成模型；将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要。具体如下：

输入原始专利文本，经压缩导入多任务阶段得到的模型，可以自动撰写要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息等并将其汇总得到所述专利摘要。所述核心方案生成任务和其他技术方案中的发明信息生成任务涉及到元件及编号，所以针对核心方案生成任务和其他技术方案中的发明信息生成任务增加元件及编号处理。汇总生成专利摘要的流程如图8所示。

实施例二

参见图9，本发明实施例提供的一种基于多任务特征协同生成专利摘要的系统100，包括：

生成模型训练单元10，用于基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化；

模型迁移处理单元20，基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型；

多任务处理单元30，对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型；

汇总单元40，用于将待加工的专利文本进行拆分、压缩处理，并分别导入相应的专利摘要各组成部分生成模型；将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要；

本发明实施例提供的基于多任务特征协同生成专利摘要的系统，其工作原理、各单元的功能及具体处理流程与前述实施例中描述的基于多任务特征协同的压缩生成专利摘要方法类同，在此不再赘述。

另外，本发明的实施例还提供一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述生成专利摘要的方法。

本发明的技术效果：

综上所述，本发明提供的技术方案，解决了专利摘要所有生成子任务之间的协同优化，实现在单任务优化基础上实施整体优化，提升效果。

本发明提供的多任务特征协同压缩，由于是在特征层次进行协同，避免了具有业务关联的任务之间因数据依赖需要串联执行导致时间成本增加问题，避免了串联执行任务之间的误差传递问题。

本发明所述模型迁移基于迁移学习中模型迁移和预训练方法在核心方案生成模型基础上实施训练评估得到发明点生成模型，与撰写发明点时参考核心方案的经验吻合，微调较好地克服了核心方案标签文本和发明点标签文本之间的差异性，好于T5模型初始化权重，加速发明点生成任务神经网络的学习和优化，成功迁移训练核心方案生成模型时学习到的自动撰写经验，进一步提升了发明点生成模型的预测评估值，优化了发明点生成模型的撰写效果。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于多任务特征协同的生成专利摘要的方法，其特征在于，包括如下步骤：

专利摘要组成部分的生成模型训练，包括：

协同：通过将所述专利摘要组成部分生成任务划分成目标任务和支持任务实现的，所述目标任务指当前选出的正在优化的某个任务，所述支持任务指被用来达成对目标任务进行优化目的而选择的其他若干任务；

压缩过程中，任一支持任务的特征划被分成私有特征和公有特征，所述私有特征指某一支持任务存在的而其支持的当前目标任务不存在的特征，所述公有特征指某一支持任务和其支持的当前目标任务都存在的特征；

参考词频对数曲线进行特征获取并划分出私有特征和公有特征；利用任务矩阵和协同任务筛选算法，得到每个任务的协同任务；将每个任务及其协同任务的特征，用于对专利文本进行压缩处理，得到每个任务的压缩文本；

基于迁移学习中在核心方案生成模型基础上使用发明点任务的压缩文本进行训练评估得到发明点生成模型；

对专利摘要组成部分对应的各任务生成模型训练：各任务在相关生成模型基础上使用相关压缩文本分别进行训练评估得到专利摘要各组成部分生成模型；

将待加工的专利文本进行拆分、压缩处理，并分别输入相应的专利摘要各组成部分生成模型；

将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息汇总得到专利摘要；

其中，所述专利摘要组成部分包括核心方案、发明点、其他技术方案中的发明信息、用途信息、要解决的技术问题和有益效果。

2.如权利要求1所述的生成专利摘要的方法，其特征在于，其中，要解决的技术问题和有益效果生成任务，包括如下步骤：

针对相关性低的压缩文本，实施对未使用的内容：权利要求和说明书，进行压缩，补充压缩文本；

3.如权利要求1所述的生成专利摘要的方法，其特征在于，其中，用途生成任务，包括如下步骤：

对用途生成任务的各类目数据源进行清洗及预处理；

确定支持任务，实施多任务特征协同压缩；

4.如权利要求1所述的生成专利摘要的方法，其特征在于，其中，核心方案生成任务，包括如下步骤：

对摘要、权利要求、说明书利用高相关文本强调；

确定支持任务，实施多任务特征协同压缩；

5.如权利要求1所述的生成专利摘要的方法，其特征在于，其中，发明点生成任务，包括如下步骤：

确定支持任务，实施多任务特征协同压缩；

利用压缩文本和标签构建数据集，基于迁移学习中模型迁移和预训练方法，结合对改写后的核心方案技术改进进行提炼的撰写经验，将改写后的核心方案作为发明点的通用特征文本，将核心方案生成模型作为发明点的底层通用特征提取模型，通过样本库发明点标签文本进一步微调模型提取对发明点生成具有强相关的特征，基于核心方案生成模型进行微调、验证和评估得到发明点生成模型。

6.如权利要求1所述的生成专利摘要的方法，其特征在于，其中，其他技术方案中的发明信息生成任务，包括如下步骤：

对摘要、权利要求、说明书利用高相关文本强调；

7.如权利要求1所述的生成专利摘要的方法，其特征在于，所述将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息汇总得到专利摘要，还包括：

8.如权利要求2、3、4或6所述的生成专利摘要的方法，其特征在于，其中，所述文本生成模型中支持输入序列长度更长的文本生成模型为T5模型。

9.一种基于多任务特征协同的生成专利摘要的系统，其特征在于，包括：

生成模型训练单元，用于协同处理：通过将所述专利摘要组成部分生成任务划分成目标任务和支持任务实现的，所述目标任务指当前选出的正在优化的某个任务，所述支持任务指被用来达成对目标任务进行优化目的而选择的其他若干任务；用于压缩处理：任一支持任务的特征划被分成私有特征和公有特征，所述私有特征指某一支持任务存在的而其支持的当前目标任务不存在的特征，所述公有特征指某一支持任务和其支持的当前目标任务都存在的特征；用于参考词频对数曲线进行特征获取并划分出私有特征和公有特征；利用任务矩阵和协同任务筛选算法，得到每个任务的协同任务；将每个任务及其协同任务的特征，用于对专利文本进行压缩处理，得到每个任务的压缩文本；

汇总单元，用于将待加工的专利文本进行拆分、压缩处理，并分别导输入相应的专利摘要各组成部分生成模型；将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息汇总得到专利摘要；

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的生成专利摘要的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现如权利要求1-7中任一项所述的生成专利摘要的方法。