CN115048488A - 专利摘要自动生成方法及存储介质 - Google Patents

专利摘要自动生成方法及存储介质 Download PDF

Info

Publication number
CN115048488A
CN115048488A CN202210622539.5A CN202210622539A CN115048488A CN 115048488 A CN115048488 A CN 115048488A CN 202210622539 A CN202210622539 A CN 202210622539A CN 115048488 A CN115048488 A CN 115048488A
Authority
CN
China
Prior art keywords
abstract
model
sentence
text
unilm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210622539.5A
Other languages
English (en)
Inventor
朱昶胜
郑欣
马芳兰
冯文芳
雷鹏
袁培文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Lanzhou University of Technology
Original Assignee
INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE, Lanzhou University of Technology filed Critical INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Priority to CN202210622539.5A priority Critical patent/CN115048488A/zh
Publication of CN115048488A publication Critical patent/CN115048488A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种专利摘要自动生成方法及存储介质,专利摘要自动生成方法包括:响应于获取专利说明书和参考摘要,对所述专利说明书和参考摘要使用抽取式模型生成抽取式摘要;以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示;将所述特征向量表示进行微调,获取生成式摘要。本申请提供的专利摘要自动生成方法及存储介质,可以将抽取式模型和生成式模型的优势结合起来,生成内容丰富、全面、可读性强的长文本摘要。

Description

专利摘要自动生成方法及存储介质
技术领域
本申请涉及自然语言处理领域,具体涉及专利摘要自动生成方法及存储介质。
背景技术
摘要可以从长文本中概括出简洁而不失原意的信息,将用户从繁琐冗余的数据中解脱出来,节省查找时间,但人工进行摘要撰写需要耗费大量的人力和时间.文本摘要自动生成技术作为一种解决信息过剩问题的手段,在信息检索、舆情分析、内容审查等领域具有较高研究价值。
我国专利申请数量庞大,每年均在百万级以上,并呈现逐年上升的趋势,专利摘要自动生成工具的引入可以极大地提高研究人员研究效率、降低新兴技术开发成本。如何从海量的专利说明书中快速提取出有用的摘要来完善自己的工作、提出更好的解决方案、避免无意义的研究和资金浪费已经成为一个亟待解决的问题。
发明内容
针对上述技术问题,本申请提供一种专利摘要自动生成方法及存储介质,以缓解上述问题。
本申请提供一种专利摘要自动生成方法,具体地,包括:
响应于获取专利说明书和参考摘要,对所述专利说明书和参考摘要使用抽取式模型生成抽取式摘要;
以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示;
将所述特征向量表示进行微调,获取生成式摘要。
可选地,所述响应于获取专利说明书和参考摘要,对所述专利说明书和参考摘要使用抽取式模型生成抽取式摘要的步骤中包括:
分割所述参考摘要为多个第一句子,分割所述专利说明书为多个第二句子,根据所述第一句子与所述第二句子的相似度,生成句向量;
基于DGCNN模型对所述句向量构建标注模型主体,以获取抽取式摘要。
可选地,所述根据所述第一句子与所述第二句子的相似度,生成句向量的步骤包括:
根据所述相似度,将所述第一句子和所述第二句子进行匹配,将第二句子中匹配到的所有句子作为抽取句子标签,以获取抽取式语料;
由所述抽取式语料,生成所述句向量。
可选地,所述由所述抽取式语料,生成句向量的步骤包括:
基于Roberta模型,通过在所述Roberta模型的第一维度对所述抽取式语料进行平均池化操作,生成所述句向量。
可选地,所述基于DGCNN模型对所述抽取式语料构建标注模型主体,以获取抽取式摘要的步骤包括:
基于所述DGCNN模型具有不同权值的两个一维卷积,设置激活函数,若所述一维卷积的输入与输出一致,则使用残差结构,以对所述一维卷积设置门机制。
可选地,所述以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示的步骤包括:
将所述抽取式摘要进行预处理,所述预处理包括分词和去停用词。
可选地,以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示的步骤包括:
使用NEZHA模型用于预训练,以获取所述特征向量表示。
可选地,所述使用NEZHA模型用于预训练,以获取所述特征向量表示的步骤之后包括:
构造输入序列,并使用UniLM模型对所述输入序列进行微调,以获取生成式摘要。
可选地,所述构造输入序列,并使用UniLM模型对所述输入序列进行微调,以获取生成式摘要的步骤包括:
对所述输入序列的目标序列进行预设比例的掩盖,以获取掩盖序列;根据所述掩盖序列,使所述UniLM模型学习恢复被掩盖词进行任务微调;
和/或,根据所述输入序列,设置句子特征标识,并掩盖所述输入序列的结束标识,使所述UniLM模型进行自动结束任务学习。
另一方面,本申请还提供一种存储介质,具体地,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的专利摘要自动生成方法。
本申请提供的专利摘要自动生成方法及存储介质,通过先抽取再生成的方法可以将抽取式模型和生成式模型的优势结合起来,生成内容丰富、全面、可读性强的长文本摘要。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请专利说明书摘要自动生成的过程架构示意图。
图2为信息的多通道传输示意图。
图3为UniLM的Seq2Seq框架示意图。
图4为“抽取+生成”模型生成不同长度参考摘要下ROUGE-L得分示意图。
图5为实验结果对比图。
图6为本申请一实施例的专利摘要自动生成方法流程图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面结合附图与实施例对本发明作进一步的详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本申请构建一种专利说明书摘要自动生成的过程架构,图1为本申请专利说明书摘要自动生成的过程架构示意图。
如图1所示,本实施例专利说明书摘要生成步骤如下:
步骤1:对输入文本进行预处理,将原始语料转换为抽取式语料;
首先将专利说明书原文及参考摘要按照标点分割为多个子句,对于参考摘要中的每个子句,都在原文中找到与之相似的句子,将原文中匹配到的所有句子作为抽取句子标签,最终得到抽取式语料。
步骤2:由“Roberta+平均池化”模型生成句向量;
首先调用Roberta模型,再对第一维度进行平均池化操作,带mask的平均池化过程如下:
假设:input=[1,2,3,4,5],mask=[T,T,F,F,F],axis=1
则:input*mask=1*1+2*1+3*0+4*0+5*0=3
其有效位为2,最终结果为input*mask/2=1.5
步骤3:使用DGCNN模型构建标注模型主体,最后生成抽取式摘要;
假设需处理序列为X=[x1,x2,...,xn],则可以给一维卷积加入门机制:
Figure BDA0003677422890000051
其中Conv1D1和Conv1D2代表两个形式相同,但权值不互相共享的一维卷积,σ代表激活函数sigmoid。
图2为信息的多通道传输示意图。
请参考图2,为了解决梯度消失,使得信息能够在多通道传输,若输入和输出一致,可使用残差结构:
Figure BDA0003677422890000061
为了清晰的看到信息的流动,将(2)式进行等价代换:
Figure BDA0003677422890000062
ω=Conv1D2(X) (4)
信息流以1-ω的概率直接通过,以ω的概率经过变换后才通过,如图2所示。
所述DGCNN模型输出一个0/1序列,其中,“1”表示需要将该句抽取出来作为摘要,“0”表示不需要将该句抽取出来,最终得到抽取式摘要。
步骤4:将抽取式模型的输出作为生成式模型输入,并进行预处理,包括分词、去停用词等;
步骤5:NEZHA模型运用于预训练阶段,获取文本序列的特征向量表示,得到输入序列;
用x=(x1,x2,...,xn)表示输入,用z=(z1,z2,...,zn)表示输出,其长度与输入序列一致,在相对位置编码方案中,注意力分数的计算涉及到关于两个位置之间的相对距离的参数嵌入,每个注意力头都有三个参数矩阵,分别为Wk、WQ、WV,输出zi的计算公式如下所示:
Figure BDA0003677422890000071
其中,αij是由位置i和位置j的隐藏状态求softmax得到:
Figure BDA0003677422890000072
Figure BDA0003677422890000073
其中,
Figure BDA0003677422890000074
Figure BDA0003677422890000075
是位置i和位置j的相对位置编码,其均为正弦函数,且在训练过程中固定不变,为了简化起见,直接将
Figure BDA0003677422890000076
Figure BDA0003677422890000077
简写为αij,dz表示NEZHA 模型的每个注意力头的隐含层大小,维度为2k以及2k+1的αij分别如下所示:
Figure BDA0003677422890000078
Figure BDA0003677422890000079
步骤6:UniLM模型运用于微调阶段,将得到的输入序列输入到UniLM中进行微调,最终得到生成式摘要。
UniLM模型的骨干网络由24层Transformer组成,输入向量
Figure BDA00036774228900000710
首先被打包成H0=[X1,...,X|x|],然后将其送入Transformer网络中,第l层的编码输出如下:
H1=Transformerl(Hl-1),l∈[1,L] (10) 在每个Transformer模块中,使用了多个自注意头来聚合前一层的输出向量,对于第l个Transformer层,自注意头Al的输出通过以下方式计算:
Figure BDA0003677422890000081
Figure BDA0003677422890000082
Figure BDA0003677422890000083
其中,dk表示Q和K的维度,上一层的输出Hl-1分别使用参数矩阵
Figure BDA0003677422890000084
Figure BDA0003677422890000085
线性投影到Query、Key和Value中,且MASK矩阵
Figure BDA0003677422890000086
确定一对 tokens是否可以相互连接。
图3为UniLM的Seq2Seq框架示意图。
生成式模型微调部分选择UniLM的Seq2Seq框架结构,如图3所示,S1表示源序列,S2表示目标序列,构造输入序列“[SOS]S1[EOS]S2[EOS]”,通过对目标序列按一定比例进行掩盖,让UniLM模型学习恢复被掩盖的词进行任务微调,另外通过掩盖目标序列的结束标识[EOS],模型便可以学习自动结束任务。UniLM 模型基于前后文本被遮蔽的最大似然度得到文本摘要。
本实施例使用从专利之星网站收集的专利说明书及其摘要数据,建立数据集,10000条用作训练集,600条用作测试集,其中专利说明书平均文本字符为 2493,平均摘要字符为281。
本实施例使用ROUGE自动摘要评价算法对所生成摘要进行评价,通过将生成摘要与参考摘要进行比较计算,从而得出自动生成摘要与参考摘要之间的相似度。本发明使用ROUGE-1、ROUGE-2、ROUGE-L作为评价指标。
ROUGE-N是在n-gram上计算召回率(N是n-gram中的n,其值可为1,2, 3等),具体为生成摘要和参考摘要之间共有的n-gram个数与参考摘要n-gram 个数的比值,具体计算如下:
Figure BDA0003677422890000091
其中,{RefSum}为参考摘要,Cmatch(n-gram)为模型生成摘要与参考摘要之间共有的n-gram个数,C(n-gram)为参考摘要中的n-gram个数。
ROUGE-L指标通过计算参考摘要与生成摘要之间的最长公共子序列 (longestcommon subsequence,LCS)和参考摘要长度之间的占比情况来衡量生成摘要的质量,具体计算如下:
Figure BDA0003677422890000092
Figure BDA0003677422890000093
Figure BDA0003677422890000094
其中,C为生成摘要,len(c)为生成摘要的长度,S为参考摘要,len(s)为参考摘要的长度,LCS(C,S)为生成摘要和参考摘要之间的最长公共子序列,β一般取一个非常大的值,RLCS为召回率,PLCS为准确率。
实验环境和配置如表1所示:
表1实验环境和配置
实验环境 实验配置
显卡型号 Tesla V100-32GB
编程语言 Python3.7
开发工具 PyCharm
深度学习框架 Tensorflow1.14.0
图4为“抽取+生成”模型生成不同长度摘要下ROUGE-L得分示意图。
为评估生成摘要的长度对DGCNN-NEZHA-UniLM模型性能的影响,图4展示了该模型生成摘要的长度与ROUGE-L评分的关系。可以看出,随着生成摘要长度的增加,其ROUGE-L分值在可控范围内波动,该现象表明生成摘要的长度几乎不会影响模型的最终效果,证明在生成长文本摘要时,该模型具有较强的上下文语意捕捉能力以及较高的稳定性。
实验选取六种模型,包括TextRank、MMR、DGCNN 3种抽取式模型, Roberta-UniLM、NEZHA-UniLM 2种生成式模型以及1种“抽取+生成”模型,将其共同作用于本实验所建立的数据集进行生成指标对比。TextRank模型基于图模型,通过把文本分割成若干组成句子,再利用投票机制对文本中的重要句子进行排序,从而生成摘要。最大边界相关算法(MMR)设计之初用于计算查询文本和搜索文档之间的相似度,然后对文档进行排序;通过该算法可以实现文本按重要性进行句子的抽取组成摘要。DGCNN是本实验中用到的抽取式模型。Roberta-UniLM模型将Roberta预训练语言模型与UniLM模型相结合,其主要分成两个阶段实现,即基于Roberta预训练模型的词向量参数获取阶段以及 UniLM模型的摘要生成阶段。NEZHA-UniLM是本实验中用到的生成式模型。 DGCNN-NEZHA-UniLM是本实验所用“抽取+生成”模型。实验评测结果如表2所示。
图5为实验结果对比图。
根据表2各个模型的ROUGE分值,绘制出结果对比图,如图5所示。
与其他基准模型相比,本发明提出的DGCNN-NEZHA-UniLM模型在专利说明书摘要数据集上的表现最优。具体而言,在所选的三种抽取式模型中,基于DGCNN 的抽取式模型在本实验建立的数据集上表现明显优于TextRank以及MMR两种抽取式模型。选择UniLM作为Seq2Seq模型,与使用Roberta模型作为基础模型结构相比,使用华为NEZHA作为基础模型结构在长文本摘要生成任务中可以取得更好的效果,原因在于NEZHA模型使用相对位置编码,使得模型在长文本摘要生成任务中具有更强的扩展性,即使遇到比预训练中序列长度更长的序列时,依然可以发挥作用。从ROUGE的整体评分中可以看出,通过对文本的语义进行分析得到的生成式摘要普遍优于仅抽取文本中重要语句的抽取式摘要,并且与其他模型相比,本实验提出的“抽取+生成”模型在三项ROUGE评分上均取得了最高的成绩。
表2实验评测结果
Figure BDA0003677422890000111
表3实例结果对比
Figure BDA0003677422890000121
给出同一段专利说明书文本,表3为分别使用Roberta-UniLM模型以及 DGCNN-NEZHA-UniLM模型生成的摘要,与人工撰写的参考摘要进行对比,可以看出,Roberta-UniLM模型生成的摘要较短,且存在信息缺失等问题; DGCNN-NEZHA-UniLM模型生成的摘要内容概括更为全面,涵盖了参考摘要中提到的各个关键信息,语言通顺流畅,更贴近标准摘要。
综上所述,本实验提出的DGCNN-NEZHA-UniLM模型在专利说明书摘要数据集上的表现最好。表明“先抽取再生成”的方法可以将基于DGCNN的抽取式模型和基于NEZHA-UniLM的生成式模型的优势结合起来,生成内容丰富、全面、可读性强的长文本摘要。
本申请还提供一种专利摘要自动生成方法,图6为本申请一实施例的专利摘要自动生成方法流程图。
如图6所示,在一实施例中,专利摘要自动生成方法包括:
S10:响应于获取专利说明书和参考摘要,对专利说明书和参考摘要使用抽取式模型生成抽取式摘要。
S20:以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示;将所述特征向量表示进行微调。
S30:根据特征向量表示,获取生成式摘要。
可选地,响应于获取专利说明书和参考摘要,对专利说明书和参考摘要使用抽取式模型生成抽取式摘要的步骤中包括:
分割参考摘要为多个第一句子,分割专利说明书为多个第二句子,根据第一句子与第二句子的相似度,获取抽取式语料;基于DGCNN模型对抽取式语料构建标注模型主体,以获取抽取式摘要。
可选地,根据第一句子与第二句子的相似度,生成句向量的步骤包括:
根据相似度,将第一句子和第二句子进行匹配,将第二句子中匹配到的所有句子作为抽取句子标签,以获取抽取式语料;由抽取式语料,生成句向量。
示例性地,首先将专利说明书原文及参考摘要按照标点分割为多个子句,对于参考摘要中的每个子句,都在原文中找到与之相似的句子,将原文中匹配到的所有句子作为抽取句子标签,最终得到抽取式语料。
可选地,由抽取式语料,生成句向量的步骤包括:
基于Roberta模型,由上述得到的抽取式语料,通过在Roberta模型的第一维度进行平均池化操作,生成句向量。
示例性地,首先调用Roberta模型,再对第一维度进行平均池化操作,带 mask的平均池化过程如下:
假设:input=[1,2,3,4,5],mask=[T,T,F,F,F],axis=1
则:input*mask=1*1+2*1+3*0+4*0+5*0=3
其有效位为2,最终结果为input*mask/2=1.5
可选地,基于DGCNN模型对抽取式语料构建标注模型主体,以获取抽取式摘要的步骤包括:
基于DGCNN模型具有不同权值的两个一维卷积,设置激活函数,若所述一维卷积的输入与输出一致,则使用残差结构,以对所述一维卷积设置门机制。
示例性地,假设需处理序列为X=[x1,x2,...,xn],则可以给一维卷积加入门机制:
Figure BDA0003677422890000141
其中Conv1D1和Conv1D2代表两个形式相同,但权值不互相共享的一维卷积,σ代表激活函数sigmoid。
为了解决梯度消失,使得信息能够在多通道传输,若输入和输出一致,可使用残差结构:
Figure BDA0003677422890000151
为了清晰的看到信息的流动,将(2)式进行等价代换:
Figure BDA0003677422890000152
ω=Conv1D2(X) (4)
信息流以1-ω的概率直接通过,以ω的概率经过变换后才通过,如图2所示
DGCNN模型输出一个0/1序列,其中,“1”表示需要将该句抽取出来作为摘要,“0”表示不需要将该句抽取出来,最终得到抽取式摘要。
可选地,以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示的步骤包括:
将抽取式摘要进行预处理,预处理包括分词和去停用词。
示例性地,将抽取式模型的输出作为生成式模型输入,并进行预处理,包括分词、去停用词等。
可选地,以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示的步骤包括:
使用NEZHA模型用于预训练,以获取特征向量表示。
示例性地,用x=(x1,x2,…,xn)表示输入,用z=(z1,z2,...,zn)表示输出, 其长度与输入序列一致,在相对位置编码方案中,注意力分数的计算涉及到关于两个位置之间的相对距离的参数嵌入,每个注意力头都有三个参数矩阵,分别为Wk、WQ、WV,输出zi的计算公式如下所示:
Figure BDA0003677422890000161
其中,αij是由位置i和位置j的隐藏状态求softmax得到:
Figure BDA0003677422890000162
Figure BDA0003677422890000163
其中,
Figure BDA0003677422890000164
Figure BDA0003677422890000165
是位置i和位置j的相对位置编码,其均为正弦函数,且在训练过程中固定不变,为了简化起见,直接将
Figure BDA0003677422890000166
Figure BDA0003677422890000167
简写为αij,dz表示NEZHA 模型的每个注意力头的隐含层大小,维度为2k以及2k+1的αij分别如下所示:
Figure BDA0003677422890000168
Figure BDA0003677422890000169
可选地,使用NEZHA模型用于预训练,以获取特征向量表示的步骤之后包括:
构造输入序列,并使用UniLM模型对输入序列进行微调,以获取生成式摘要。
UniLM模型的骨干网络由24层Transformer组成,输入向量
Figure BDA00036774228900001610
首先被打包成H0=[X1,...,X|x|],然后将其送入Transformer网络中,第l层的编码输出如下:
H1=Transformerl(Hl-1),l∈[1,L] (10)
在每个Transformer模块中,使用了多个自注意头来聚合前一层的输出向量,对于第l个Transformer层,自注意头Al的输出通过以下方式计算:
Figure BDA0003677422890000171
Figure BDA0003677422890000172
Figure BDA0003677422890000173
其中,dk表示Q和K的维度,上一层的输出Hl-1分别使用参数矩阵
Figure BDA0003677422890000174
Figure BDA0003677422890000175
线性投影到Query、Key和Value中,且MASK矩阵
Figure BDA0003677422890000176
确定一对 tokens是否可以相互连接。
可选地,构造输入序列,并使用UniLM模型对输入序列进行微调,以获取生成式摘要的步骤包括:
对输入序列的目标序列进行预设比例的掩盖,以获取掩盖序列;根据掩盖序列,使UniLM模型学习恢复被掩盖词进行任务微调。
可选地,构造输入序列,并使用UniLM模型对输入序列进行微调,以获取生成式摘要的步骤包括:
根据输入序列,设置句子特征标识,并掩盖输入序列的结束标识,使UniLM 模型进行自动结束任务学习。
示例性地,生成式模型微调部分选择UniLM的Seq2Seq框架结构,如图3 所示,S1表示源序列,S2表示目标序列,构造输入序列“[SOS]S1[EOS]S2[EOS]”,通过对目标序列按一定比例进行掩盖,让UniLM模型学习恢复被掩盖的词进行任务微调,另外通过掩盖目标序列的结束标识[EOS],模型便可以学习自动结束任务。UniLM模型基于前后文本被遮蔽的最大似然度得到文本摘要。
另一方面,本申请还提供一种存储介质,具体地,存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的专利摘要自动生成方法。
本申请提供的专利摘要自动生成方法及存储介质,基于DGCNN-NEZHA-UniLM 模型,表明“先抽取再生成”的方法可以将基于DGCNN的抽取式模型和基于 NEZHA-UniLM的生成式模型的优势结合起来,生成内容丰富、全面、可读性强的长文本摘要。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。
需要说明的是,在本文中,采用了诸如S10、S20等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行S20后执行S10等,但这些均应在本申请的保护范围之内。
在本申请提供的智能终端和计算机可读存储介质的实施例中,可以包含任一上述XX方法实施例的全部技术特征,说明书拓展和解释内容与上述方法的各实施例基本相同,在此不再做赘述。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行如上各种可能的实施方式中的方法。
本申请实施例还提供一种芯片,包括存储器和处理器,存储器用于存储计算机程序,处理器用于从存储器中调用并运行计算机程序,使得安装有芯片的设备执行如上各种可能的实施方式中的方法。
本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种专利摘要自动生成方法,其特征在于,包括:
响应于获取专利说明书和参考摘要,对所述专利说明书和参考摘要使用抽取式模型生成抽取式摘要;
以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示;
将所述特征向量表示进行微调,获取生成式摘要。
2.如权利要求1所述的方法,其特征在于,所述响应于获取专利说明书和参考摘要,对所述专利说明书和参考摘要使用抽取式模型生成抽取式摘要的步骤中包括:
分割所述参考摘要为多个第一句子,分割所述专利说明书为多个第二句子,根据所述第一句子与所述第二句子的相似度,获取抽取式语料;
基于DGCNN模型对所述抽取式语料构建标注模型主体,以获取抽取式摘要。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一句子与所述第二句子的相似度,生成抽取式语料的步骤包括:
根据所述相似度,将所述第一句子和所述第二句子进行匹配,将第二句子中匹配到的所有句子作为抽取句子标签,以获取抽取式语料;
由所述抽取式语料,生成句向量。
4.如权利要求3所述的方法,其特征在于,所述由所述抽取式语料,生成句向量的步骤包括:
基于Roberta模型,通过在所述Roberta模型的第一维度对所述抽取式语料进行平均池化操作,生成所述句向量。
5.如权利要求2所述的方法,其特征在于,所述基于DGCNN模型对所述抽取式语料构建标注模型主体,以获取抽取式摘要的步骤包括:
基于所述DGCNN模型具有不同权值的两个一维卷积,设置激活函数,若所述一维卷积的输入与输出一致,则使用残差结构,以对所述一维卷积设置门机制。
6.如权利要求1所述的方法,其特征在于,所述以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示的步骤包括:
将所述抽取式摘要进行预处理,所述预处理包括分词和去停用词。
7.如权利要求6所述的方法,其特征在于,所述以抽取式摘要作为输入文本,利用预训练语言模型,以获取文本的特征向量表示表示的步骤包括:
使用NEZHA模型用于预训练,以获取所述特征向量表示。
8.如权利要求7所述的方法,其特征在于,所述使用NEZHA模型用于预训练,以获取所述特征向量表示的步骤之后包括:
构造输入序列,并使用UniLM模型对所述输入序列进行微调,以获取生成式摘要。
9.如权利要求8所述的方法,其特征在于,所述构造输入序列,并使用UniLM模型对所述输入序列进行微调,以获取生成式摘要的步骤包括:
对所述输入序列中的目标序列进行预设比例的掩盖,以获取掩盖序列;根据所述掩盖序列,使所述UniLM模型学习恢复被掩盖词进行任务微调;
和/或,根据所述输入序列,设置句子特征标识,并掩盖所述输入序列的结束标识,使所述UniLM模型进行自动结束任务学习。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的专利摘要自动生成方法。
CN202210622539.5A 2022-06-02 2022-06-02 专利摘要自动生成方法及存储介质 Pending CN115048488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210622539.5A CN115048488A (zh) 2022-06-02 2022-06-02 专利摘要自动生成方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210622539.5A CN115048488A (zh) 2022-06-02 2022-06-02 专利摘要自动生成方法及存储介质

Publications (1)

Publication Number Publication Date
CN115048488A true CN115048488A (zh) 2022-09-13

Family

ID=83160055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210622539.5A Pending CN115048488A (zh) 2022-06-02 2022-06-02 专利摘要自动生成方法及存储介质

Country Status (1)

Country Link
CN (1) CN115048488A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028620A (zh) * 2023-02-20 2023-04-28 知呱呱(天津)大数据技术有限公司 一种基于多任务特征协同的生成专利摘要的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028620A (zh) * 2023-02-20 2023-04-28 知呱呱(天津)大数据技术有限公司 一种基于多任务特征协同的生成专利摘要的方法及系统
CN116028620B (zh) * 2023-02-20 2023-06-09 知呱呱(天津)大数据技术有限公司 一种基于多任务特征协同的生成专利摘要的方法及系统

Similar Documents

Publication Publication Date Title
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN106776562B (zh) 一种关键词提取方法和提取系统
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
US8577882B2 (en) Method and system for searching multilingual documents
CN104199965B (zh) 一种语义信息检索方法
CN106776548B (zh) 一种文本的相似度计算的方法和装置
CN113111836B (zh) 基于跨模态哈希学习的视频解析方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN112307190B (zh) 医学文献排序方法、装置、电子设备及存储介质
CN112417119A (zh) 一种基于深度学习的开放域问答预测方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN113962228A (zh) 一种基于记忆网络语义融合的长文档检索方法
CN115098706A (zh) 一种网络信息提取方法及装置
CN115048488A (zh) 专利摘要自动生成方法及存储介质
CN111881695A (zh) 一种审计知识的检索方法及装置
CN112287217B (zh) 医学文献检索方法、装置、电子设备及存储介质
KR102534131B1 (ko) 대화 형식 기반의 도서 추천 서비스 제공 방법 및 그를 위한 장치
CN113468366A (zh) 一种音乐自动标签方法
CN111858908A (zh) 一种摘报文本生成方法、装置、服务器及可读存储介质
CN113220824B (zh) 数据检索方法、装置、设备及存储介质
CN117076712B (zh) 视频检索方法、系统、设备及存储介质
Li et al. A multimodal framework for unsupervised feature fusion
CN108897749A (zh) 基于语法树和文本块密度的网页信息抽取方法及系统
CN115964490A (zh) 项目标签预测方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination