CN115238067A - 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质 - Google Patents

基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质 Download PDF

Info

Publication number
CN115238067A
CN115238067A CN202210623624.3A CN202210623624A CN115238067A CN 115238067 A CN115238067 A CN 115238067A CN 202210623624 A CN202210623624 A CN 202210623624A CN 115238067 A CN115238067 A CN 115238067A
Authority
CN
China
Prior art keywords
content
abstract
model
bert
wwm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210623624.3A
Other languages
English (en)
Inventor
朱昶胜
覃鹏
马芳兰
雷鹏
冯文芳
袁培文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Lanzhou University of Technology
Original Assignee
INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE, Lanzhou University of Technology filed Critical INSTITUTE OF SENSOR TECHNOLOGY GANSU ACADEMY OF SCIENCE
Priority to CN202210623624.3A priority Critical patent/CN115238067A/zh
Publication of CN115238067A publication Critical patent/CN115238067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于Bert‑wwm‑Ext模型的摘要自动生成方法及存储介质,所述摘要自动生成方法包括以下步骤:采集著录项目信息下的摘要标签对应的第一内容,以及说明书下的发明内容标签对应的第二内容,生成中文专利数据集;对所述中文专利数据集进行Token转化;根据Bert‑wwm‑Ext模型,进行预训练;基于Bert‑wwm‑Ext模型,根据所述句向量,生成摘要的第一文档级特征,并生成第一摘要内容,并对所述第一摘要内容与所述第一内容进行评价;根据评价结果,获取所述第二内容中的第二文档级特征,并根据所述评价结果对应的所述句向量,生成第二摘要内容。本申请输入文本即可获得摘要,在Rouge的召回率与F值上有改善。

Description

基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质
技术领域
本申请涉及自然语言处理领域,具体涉及基于Bert-wwm-Ext模型的摘要自 动生成方法及存储介质。
背景技术
现代互联网的爆炸式发展产生了海量的数据信息,但是更多的的数据信息 中有价值的信息的比重却随之降低,其中对于文本信息的有效利用更是一大难 题。文本摘要技术通过对文本数据信息,提取、概括或提炼其中的关键信息, 以概括和展示原文本信息的主要内容或要点,进而而极大提升用户从大量文本 数据中获取所需信息的效率。
中文专利文件的摘要,是说明书的简短说明和总结,是专利申请文件的重 要组成部分。在构思及实现本申请过程中,申请人发现摘要的撰写是一项费时 费力的工作。市场上的一些自动生成文字的软件,往往不符合中文专利文件中 对摘要的规定,造成后续的补正等问题。传统的通过人工进行文本摘要的提取 的方式需要耗费大量的时间和精力并且对于从业者的专业性有极高的要求,不 具备大规模适用的可能性。
发明内容
针对上述技术问题,本申请提供一种基于Bert-wwm-Ext模型的摘要自动生 成方法及存储介质,以缓解中文专利文件摘要撰写的问题。
本申请提供一种基于Bert-wwm-Ext模型的摘要自动生成方法,具体地,包 括以下步骤:
采集著录项目信息下的摘要标签对应的第一内容,以及说明书下的发明内 容标签对应的第二内容,生成中文专利数据集;
对所述中文专利数据集进行Head-Tail截取后,进行Token转化;
根据Bert-wwm-Ext模型,对Token转化后的所述中文专利数据集,进行预 训练,获取所述第一内容和所述第二内容之间的句向量;
基于训练后的Bert-wwm-Ext模型,根据所述句向量,获取所述第一内容和 所述第二内容中用于生成摘要的第一文档级特征,并根据所述第一文档级特征 对应的句子之间的第一关联权重,和所述句子在所述第二内容中的第一结构权 重,生成第一摘要内容,并对所述第一摘要内容与所述第一内容进行评价;
根据评价结果,基于所示第二内容的第二关联权重和第二结构权重,获取 所述第二内容中的第二文档级特征,并根据所述评价结果对应的所述句向量, 生成第二摘要内容。
可选地,在生成中文专利数据集的过程中,所述中文专利数据集为CLTPDS 数据集。
可选地,在对所述中文专利数据集进行Head-Tail截取的过程中,以128: 328的比例切取所述第二内容的头尾核心句,切取之后分句并直接舍弃低于4字 的句子。
可选地,在进行Token转化的过程中,将进行Head-Tail截取后的数据的 句首设置[CLS]标志位,判断是否为摘要句,句尾设置[SEP]分隔句子;
通过多次嵌入计算,输入表征,作为所述Bert-wwm-Ext模型的输入。
可选地,在进行预训练的过程中,根据所述句向量,构建至少一个预设指 向于所述第一内容的层,用于提取所述第一文档级特征。
可选地,在生成第一摘要内容的过程中,获取每个句子的预测分数,以及 整个模型的损失,其中,所述损失用于表示所述预测分数与黄金标签的二元分 类熵;
根据所述预测分数和所述损失,对所述第一内容的层,以及所述 Bert-wwm-Ext模型进行微调。
可选地,在获取所述预测分数的过程中,通过在所述Bert-wwm-Ext模型的 输出上添加至少一个复合分类器并使用sigmoid函数,以获得所述预测分数。
可选地,在对所述第一摘要内容与所述第一内容进行评价的过程中,通过 ROUGE法进行评价。
可选地,在通过ROUGE法进行评价的过程中,通过获取所述第一内容与所 述第一摘要内容在一元语法上的第一匹配度、在二元语法上的第二匹配度以及 N-gram上的召回率;判断所述第一摘要内容的质量。
另一方面,本申请还提供一种存储介质,具体地,所述存储介质上存储有 计算机程序,所述计算机程序被处理器执行时实现如上述的基于Bert-wwm-Ext 模型的摘要自动生成方法。
本申请提供的基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质,能 够基于改进Bertsum模型,协助撰写人员自动生成中文专利文件的摘要,缓解 了部分撰写难度,降低了专利申请文件的补正概率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请 的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请 实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍, 显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的长文本专利自动摘要流程图;
图2为本申请实施例提供的Head-Tail文本截取示意图;
图3为本申请实施例提供的输入表征示例图;
图4为本申请实施例提供的基于专利文本结构分类的的示意图;
图5为本申请实施例提供的原Bertsum模型与改进后的Bertsum模型的详细结 果对比图。
图6为本申请一实施例的摘要自动生成方法流程图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说 明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。 这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通 过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描 述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方 式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一 致的装置和方法的例子。
第一实施例
一种基于改进Bertsum模型的中文专利长文本自动摘要方法,以BertSum算 法模型为基础进行改进,设计一个句向量训练分类框架,以跟踪句子的句向量 生成,训练与分类。该框架分为以下五个部分,采用python爬虫采集到相关的 专利文本、对文本进行预处理、模型的预训练与微调、摘要结果的分类判断、 标准文本评价。具体如下:
步骤1:采用python爬虫采集到相关的专利文本
由于互联网中没有大规模的中文专利文本数据集,所以本申请所使用的的 数据集是通过从公开的专利网站如专利之星当中收集的真实专利数据,该数据 由1500字到3000字不等的专利文本和对应的150字到300字不等的文本摘要 组成。
本申请总共爬取了42,000左右的超长文本摘要数据用作实际实验。利用 python进行数据预处理之后将数据分为38,000训练集,3,300的验证集以及800 的测试集,整理为中文长文本专利数据集CLTPDS。
同时本申请利用Oracle算法生成的摘要数据,获得24k的短文本中文摘要, 该数据仅用作算法的可行性测试。
步骤2:对文本进行预处理
基于步骤1获得的中文长文本专利数据集CLTPDS,需要针对专利文章的文 本结构和规模特点加以处理。
由于预训练的模型都基于Bert模型,而Bert消耗计算资源和时间随着 token的长度是平方级别增长的,所以其无法处理太长的token,目前最长只支 持512个token,token过长也很容易会内存溢出,所以在使用Bert处理长文 本时需要设计巧妙的方法来解决这个问题。
目前业界主要采取Head-Tail截取,分段融合以及Sliding Window滑窗三 种方法处理长文本。基于专利文本的特点,本次发明采取注重头尾核心句,计 算资源消耗低的Head-Tail方法处理获得的数据。
数据进行初步处理后,进行输入表征。
输入表征能在一个词块序列中明确地表征单个文本句子或一对文本句子。 对于给定词块,其输入表征通过对相应词块的词块嵌入、段嵌入和位嵌入求和 来构造。
使用学习的位置嵌入,支持的序列长度最多为512个词块。
每个序列的第一个词块始终是特殊分类嵌入([CLS])。对应该词块的最终隐 藏状态(即Transformer输出)被用作分类任务的聚合序列表征。对于非分类任 务,将忽略此向量。
对于专利文本进行处理,就是对于文本分句之后进行输入表征处理(该处 理见图3)。对于同一文本将会是非常多句同时处理,句一与句二只是举例例证 多句如何区分。图3中句一以句A的名义进行处理,句二以句B,句三再次以句 A,以此类推。其中,句子A与句子B只是一个代号,代表不同的句子,没有特 定的含义。
假设为单句输入,则只使用句子A嵌入。
步骤3:模型的预训练与微调
预训练模型选择BERT-wwm-ext,其是由哈工大讯飞联合实验室发布的中文 预训练语言模型,是BERT-wwm的一个升级版。
该预训练模型是谷歌在2019年5月31日发布的一项BERT的升级版本,主 要更改了原预训练阶段的训练样本生成策略。原有基于WordPiece的分词方式 会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词 会随机被mask。
在全词Mask中,如果一个完整的词的部分WordPiece子词被mask,则同属 该词的其他部分也会被mask,即全词Mask。
需要注意的是,这里的mask指的是广义的mask(替换成[MASK];保持原词 汇;随机替换成另外一个词),并非只局限于单词替换成[MASK]标签的情况。
在微调过程中,除了输出层之外,预训练和微调使用相同的体系结构。相 同的预训练模型参数用于初始化不同下游任务的模型。在微调过程中,所有参 数都会进行微调。本申请为针对BERT的摘要提取方向的微调。
从预训练模型输出的结果中获得句向量后,将在其之上构建几个特定于摘 要的层,以捕获用于提取摘要的文档级特征。
对于每个句子Ti,将计算最终的预测分数
Figure BDA0003677850560000071
整个模型的损失是
Figure BDA0003677850560000072
对黄金 标签Yi的二元分类熵。这些汇总层将与BERT共同微调。
将预训练模型的输出上添加一个复合分类器并使用sigmoid函数以获得 预测分数:
Figure BDA0003677850560000073
Wa=Wo+Ws
其中σ为为sigmoid函数,Wo为输出句向量的内部句子关联权重,Ws为句 子在文章中的结构权重,包括句子的长度与句子在文章中的位置决定的权重。
步骤4:标准文本评价
目前在文本摘要任务中最常用的评价方法是ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation),其支持Rouge1,Rouge2,以及Rouge-L 三种评价。Rouge1是评价标准文本与生成文本在一元语法上的匹配度,Rouge2 是评价二元语法匹配度,而Rouge-L是计算标准文本与生成文本的最长共同字 长匹配度。本次发明选用最具区分度的Rouge-L作为主要参考分数。
计算方法如下:
Figure BDA0003677850560000081
Figure BDA0003677850560000082
Figure BDA0003677850560000083
其中S是人工摘要,C是机器摘要,RLCS表示召回率,PLCS表示精确率,FLCS的 结果即为Rouge-L的F值得分。
本申请通过研究专利文章的行文结构,组织规模,探究专利文章的摘要在 原文中出现的位置与频率的规律,进而建立考虑专利文本与其摘要特点的自动 摘要提取模型。本申请认为BertSum凭借其在庞大中文数据集上的预训练方法 和用于学习摘要复杂特征的强大架构,还有很大的提高提取摘要性能的空间。
图1为本申请实施例提供的长文本专利自动摘要流程图。
请参考图1,可选地,摘要自动生成过程步骤如下:
步骤1:采用python爬虫采集到相关的专利文本。
为更好适应现实专利摘要提取的需要,本技术建立的模型需要大规模的真实 中文专利数据集进行训练。
由于互联网中没有大规模的中文专利文本数据集,所以本申请所使用的的数 据集是通过从公开的专利网站如专利之星当中收集的真实专利数据。
本申请利用python进入专利之星检索网站爬取公开专利数据,id进入网站 之后依次爬取各领域专利内容,爬取的数据包括著录项目信息下的摘要标签以 及说明书下的发明内容标签的内容。最后获得了由1500字到3000字不等的专 利文本和对应的150字到300字不等的文本摘要组成的专利数据。
本申请总共爬取了42,000左右的超长文本摘要数据用作实际实验。利用 python进行数据预处理之后将数据分为38,000训练集,3,300的验证集以及800 的测试集,整理为中文长文本专利数据集CLTPDS。
同时本申请利用Oracle算法生成的摘要数据,获得24k的短文本中文摘要, 该数据仅用作算法的可行性测试。
以下是中文长文本专利数据集CLTPDS与经典长文本摘要数据集的TTNews 对比。
表1数据集文本长度对比
Figure BDA0003677850560000091
从表1可以看出,相比TTNews数据集,CLTODS数据集文本平均长度为前者 的3倍,达到1500以上,而摘要文本平均长度为前者的6倍,达到150以上。 所以CLTODS数据集能更真实地反映当前专利文本及其摘要的要求,能更加适应 本申请要研究达成的目标。
步骤2:对文本进行预处理(数据清洗,Head-Tail截取,Token转化)。
图2为本申请实施例提供的Head-Tail文本截取示意图。
请参考图2,一份完整的中文专利说明书包含扉页、权利要求书、说明书和 附图。而产生专利摘要的主要叙述在说明书的发明内容一栏中,遵循真实专利 要求,专利发明文本一般在1500字以上,专利摘要文本在100字到300字,因 此需要针对专利文章的文本结构和规模特点加以处理。
数据在收集时就已经考虑匹配选取专利说明书的发明内容与对应的摘要,收 集到的数据去除错误与重复之后,整理成为中文长文本专利数据集CLTPDS,同 时考虑到预训练的模型都基于Bert模型,而Bert消耗计算资源和时间随着 token的长度是平方级别增长的,所以其无法处理太长的token,目前最长只支 持512个token,token过长也很容易会内存溢出,所以在使用Bert处理专利 长文本时需要设计巧妙的方法来解决这个问题。
数据进行初步处理后,进行输入表征。图3为本申请实施例提供的输入表 征示例图。
请参考图3,在获得数据集的数据之后进行针对本模型需要的文本处理,包 括Head-tail处理,文本分句等。
分句之后将文档中的每个句子前后均插入[CLS]和[SEP]标记,其中分类 token([CLS])被用来起到聚集整个序列表征信息的作用,每个句子前的[CLS] 标记在进入模型后的输出向量是该句子的句向量表征。同时在序列tokens中把 分割token([SEP])插入到每个句子后是为分开不同的句子tokens。使模型有 能力去分辨各个句子的精确范围。经过以上处理之后获得输入文档。
如果输入序列只包含一个句子的话,则没有[SEP]及之后的token。
Token嵌入:将token转化为对应的表征,每个词语单独计算对应表征,而 [CLS]中记录该序列的表征信息集合。
分隔嵌入:为每一个token表征都添加一个可学习的Segment Embeddings 来指示其属于句子A还是句子B(不限于两个句子)。
位置嵌入:为token表征添加一个Position Embeddings来区分处于序列 不同位置的同一个词语,减小一词多义的影响。
此时构建好的输入表征即可输入预训练模型进行下一步的工作。
输入表征能在一个词块序列中明确地表征单个文本句子或一对文本句子。 对于给定词块,其输入表征通过对相应词块的词块嵌入、段嵌入和位嵌入求和 来构造。
目前长文本研究主要采取Head-Tail截取,分段融合以及Sliding Window 滑窗三种方法处理长文本。基于专利文本的核心内容集中在文本头部与尾部的 特点,采取注重头尾核心句,计算资源消耗低的Head-Tail方法进行处理,处 理过程中以128:328的比例切取专利说明书中发明内容的头尾核心句,切取之 后分句并直接舍弃低于4字的句子。
实验结果证明,Head-Tail的加入能在相对最低复杂度下显著提升摘要质量。
输入的数据进行Token转化,输入的数据句首设置[CLS]标志位,判断是否 为摘要句,句尾设置[SEP]分隔句子。
进行多次的嵌入计算,获得含有句间与句内特征的句向量,作为预训练模型 的输入。
步骤3:模型的预训练与微调。
本申请采用的预训练模型为Bert-wwm-Ext模型,该模型是由哈工大讯飞联 合实验室发布的中文预训练语言模型,相比其他预训练的Bert模型,该模型预 训练数据集做了增加,次数达到5.4B;训练步数增大,训练第一阶段1M步,训 练第二阶段400K步,在中文文本摘要领域有着更好的发挥。
为实现生成优良的长文本摘要的目标,改进Bertsum模型在摘要判断上额 外考虑了句子长度、句子文本结构等因素的影响。从预训练模型输出的结果中 获得句向量后,将在其之上构建几个特定于摘要的层,以捕获用于提取摘要的 文档级特征。
图4为本申请实施例提供的基于专利文本结构分类的的示意图。
请参考图4,通过预训练模型获取到每个句子的句向量后,构建几个特定于 摘要的层,以捕获用于提取摘要的文档级特征,具体如下:
Ti为输入表征的[CLS]标签经过预训练模型处理计算出句向量之后,记载的 该序列的特征信息,该信息由预训练模型的多重自注意力机制计算获得,包括 该序列与其他序列的关系以及该序列内部各词的关系。
对于每个句子Ti,将计算最终的预测分数
Figure BDA0003677850560000121
整个模型的损失是
Figure BDA0003677850560000122
对黄金 标签Yi的二元分类熵。这些汇总层将与BERT共同微调。
将预训练模型的输出上添加一个复合分类器并使用sigmoid函数以获得 预测分数:
Figure BDA0003677850560000123
Wa=Wo+Ws
其中σ为为sigmoid函数,Wo为输出句向量的内部句子关联权重,Ws为句 子在文章中的结构权重,包括句子的长度与句子在文章中的位置决定的权重。
步骤4:标准文本评价
目前在文本摘要任务中最常用的评价方法是ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation),其支持Rouge1,Rouge2,以及Rouge-L 三种评价。Rouge1是评价标准文本与生成文本在一元语法上的匹配度,Rouge2 是评价二元语法匹配度,ROUGE-N主要统计N-gram上的召回率,对于N-gram, 可以计算得到ROUGE-N分数,计算公式如下:
Figure BDA0003677850560000124
而Rouge-L是计算标准文本与生成文本的最长共同字长匹配度。本次发明 选用最具区分度的Rouge-L作为主要参考分数。
计算方法如下:
Figure BDA0003677850560000131
Figure BDA0003677850560000132
Figure BDA0003677850560000133
其中S是人工摘要,C是机器摘要,RLCS表示召回率,PLCS表示精确率,FLCS的 结果即为Rouge-L的F值得分。
中文专利文本摘要是一个新领域,相关工作比较少,同时由于生成的摘要 结果均超过100字,在Rouge计算中会获得更高的评价,与传统Rouge基线有 所不同,无法与已有工作进行对比。因此本申请通过实现现有的模型在本申请 的在超长文本摘要数据集上进行实验并对比,结果如下所示。所有模型均使用 中文长文本专利数据集CLTPDS。
1)TextRank:TextRank算法是一种通过构建文本的拓扑结构图对词句进行 排序的算法。本申请首先把专利文本分割成若干组成句子以构建节点连接图, 然后计算句子之间的相似度生成边的权重值,再通过循环迭代计算句子的 TextRank值,最后抽取TextRank值排名前三的句子按照原文顺序组合成文本摘 要,以获得逻辑语序相对通顺的摘要。
2)Transformer:由Vaswani等于2017年提出,Transformer模型一个完 全基于多头注意力机制的模型,本申请使用此模型时基线为6层,隐藏层大小 为512,前馈滤波器大小为2048。产生的结果取得分前三名组合成为摘要。
3)改进Bertsum-a:加入了Head-Tail技术的Bertsum模型,产生的结果取 得分前三组合成为摘要。
4)改进Bertsum-b:加入了基于专利文本结构的分类器的Bertsum模型,基 于改进Bertsum模型计算的结果经过该分类器后得出摘要。
5)改进Bertsum:同时加入Head-Tail技术与基于专利文本结构的分类器, 文本经过Head-Tail处理后基于经典的Bertsum模型进行计算,结果通过基于 专利结构的分类器产生。
表2各模型结果评价表
Figure BDA0003677850560000141
如表2所示,Bertsum在专利摘要领域比其他通用模型也有着决定性的优势。 而改进Bertsum在三个指标上都同时取得了最佳成绩。分别加入了Head-Tail 技术与基于专利文本结构的分类器后的Bertsum与它本身相比,有着显著的成 绩提升,而在前者的基础上再加入基于专利文本结构的分类器之后组成的改进 Bertsum模型更是获得了极为优异的成绩。
图5为本申请实施例提供的原Bertsum模型与改进后的Bertsum模型的详 细结果对比图。
如图5所示,从总体分布上看,Bertsum模型产生的结果得分在0.5区间 之前更多,而得分结果达到0.6及以上后,改进Bertsum则占有显著优势。即 改进Bertsum模型不仅能减少低质量的文本摘要,而且能产生更多高质量的文 本摘要,同时模型具有稳定性。从具体数值上看,Bertsum的ROUGE-L期望为 60.93,改进Bertsum的模型的ROUGE-L期望为66.78,单这一项测试而言有着 9.6个百分比的提升。总而言之,改进Bertsum模型相比原模型期望值提升明显, 并且在总体分布上更加偏向高分,相比Bertsum模型能稳定产生高质量的专利 文本摘要。
第二实施例
本申请还提供一种基于Bert-wwm-Ext模型的摘要自动生成方法,图6为本 申请一实施例的摘要自动生成方法流程图。
请参考图6,在一实施例中,摘要自动生成方法包括以下步骤:
S10:采集著录项目信息下的摘要标签对应的第一内容,以及说明书下的发 明内容标签对应的第二内容,生成中文专利数据集;
S20:对中文专利数据集进行Head-Tail截取后,进行Token转化;
S30:根据Bert-wwm-Ext模型,对Token转化后的中文专利数据集,进行 预训练,获取第一内容和第二内容之间的句向量;
S40:基于Bert-wwm-Ext模型,根据句向量,获取第一内容和第二内容中 用于生成摘要的第一文档级特征,并根据第一文档级特征对应的句子之间的第 一关联权重,和句子在第二内容中的第一结构权重,生成第一摘要内容,并对 第一摘要内容与第一内容进行评价;
S50:根据评价结果,基于所示第二内容的第二关联权重和第二结构权重, 获取第二内容中的第二文档级特征,并根据评价结果对应的句向量,生成第二 摘要内容。
可选地,模型训练时产生的摘要获取分数反馈到模型进行微调。模型训练 结束之后使用模型时,输入文本即可获得摘要。
可选地,在生成中文专利数据集的过程中,中文专利数据集为CLTPDS数据 集。
示例性地,CLTPDA为最终生成的数据集。
可选地,在对中文专利数据集进行Head-Tail截取的过程中,以128:328 的比例切取第二内容的头尾核心句,切取之后分句并直接舍弃低于4字的句子。
可选地,在进行Token转化的过程中,将进行Head-Tail截取后的数据的 句首设置[CLS]标志位,判断是否为摘要句,句尾设置[SEP]分隔句子;
通过多次嵌入计算,输入表征,作为Bert-wwm-Ext模型的输入。
可选地,在进行预训练的过程中,根据句向量,构建至少一个预设指向于 第一内容的层,用于提取第一文档级特征。
可选地,在生成第一摘要内容的过程中,获取每个句子的预测分数,以及 整个模型的损失,其中,损失用于表示预测分数与黄金标签的二元分类熵;
根据预测分数和损失,对第一内容的层,以及Bert-wwm-Ext模型进行微调。
可选地,在获取预测分数的过程中,通过在Bert-wwm-Ext模型的输出上添 加至少一个复合分类器并使用sigmoid函数,以获得预测分数。
可选地,在对第一摘要内容与第一内容进行评价的过程中,通过ROUGE法 进行评价。
可选地,在通过ROUGE法进行评价的过程中,通过获取第一内容与第一摘 要内容在一元语法上的第一匹配度、在二元语法上的第二匹配度以及N-gram上 的召回率;判断第一摘要内容的质量。
另一方面,本申请还提供一种存储介质,具体地,存储介质上存储有计算 机程序,计算机程序被处理器执行时实现如上述的基于Bert-wwm-Ext模型的摘 要自动生成方法。
本申请提供的基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质,能 够基于改进Bertsum模型,协助撰写人员自动生成中文专利文件的摘要,缓解 了部分撰写难度,降低了专利文件的补正率。
第三实施例
另一方面,本申请还提供一种存储介质,具体地,存储介质上存储有计算 机程序,计算机程序被处理器执行时实现如上述的编码方法。
本申请基于改进Bertsum模型BERT-wwm-ext,改进之处为输入表征token 引入Head-tail方法处理过长的输入文本。BERT-wwm-ext模型对于中文文本更 具适配性,提升计算句向量性能。分类器由原本的简单线性分类器改为基于专 利文本结构的分类器,并能自适应动态选择合适的摘要句使得最终摘要长度更 适应专利规定的需要。如上所述,本申请的基于专利文本自动摘要的Bertsum 模型,使用中文长文本专利数据集CLTPDS,通过在Bertsum模型的基础上引入 Head-Tail技术并优化分类器,解决了如何对超长专利文本摘要进行合理抽取以 及生成高质量长文本的问题。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者 装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、 物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样 命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行 确定。
应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息, 但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。 例如,在不脱离本文范围的情况下,第一信息也可以被称为第二信息,类似地, 第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语"如果"可 以被解释成为"在……时"或"当……时"或"响应于确定"。再者,如同在本文中 所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上 下文中有相反的指示。
需要说明的是,在本文中,采用了诸如S10、S20等步骤代号,其目的是为 了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员 在具体实施时,可能会先执行S20后执行S10等,但这些均应在本申请的保护 范围之内。
在本申请提供的智能终端和计算机可读存储介质的实施例中,可以包含任 一上述基于Bert-wwm-Ext模型的摘要自动生成方法实施例的全部技术特征,说 明书拓展和解释内容与上述方法的各实施例基本相同,在此不再做赘述。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程 序代码,当计算机程序代码在计算机上运行时,使得计算机执行如上各种可能 的实施方式中的方法。
本申请实施例还提供一种芯片,包括存储器和处理器,存储器用于存储计 算机程序,处理器用于从存储器中调用并运行计算机程序,使得安装有芯片的 设备执行如上各种可能的实施方式中的方法。
本申请技术方案的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本申请记载的范围。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方 案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来, 该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包 括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端, 或者网络设备等)执行本申请每个实施例的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实 现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算 机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可 以是通用计算机、专用计算机、计算机网络,或者其他可编程装置。计算机指 令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一 个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、 服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心 进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是 包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质 可以是磁性介质,(例如,软盘、存储盘、磁带)、光介质(例如,DVD),或 者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利 用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于,包括以下步骤:
采集著录项目信息下的摘要标签对应的第一内容,以及说明书下的发明内容标签对应的第二内容,生成中文专利数据集;
对所述中文专利数据集进行Head-Tail截取后,进行Token转化;
根据Bert-wwm-Ext模型,对Token转化后的所述中文专利数据集,进行预训练,获取所述第一内容和所述第二内容之间的句向量;
基于训练后的Bert-wwm-Ext模型,根据所述句向量,获取所述第一内容和所述第二内容中用于生成摘要的第一文档级特征,并根据所述第一文档级特征对应的句子之间的第一关联权重,和所述句子在所述第二内容中的第一结构权重,生成第一摘要内容,并对所述第一摘要内容与所述第一内容进行评价;
根据评价结果,基于所示第二内容的第二关联权重和第二结构权重,获取所述第二内容中的第二文档级特征,并根据所述评价结果对应的所述句向量,生成第二摘要内容。
2.根据权利要求1所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在生成中文专利数据集的过程中,所述中文专利数据集为CLTPDS数据集。
3.根据权利要求2所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在对所述中文专利数据集进行Head-Tail截取的过程中,以128:328的比例切取所述第二内容的头尾核心句,切取之后分句并直接舍弃低于4字的句子。
4.根据权利要求3所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在进行Token转化的过程中,将进行Head-Tail截取后的数据的句首设置[CLS]标志位,判断是否为摘要句,句尾设置[SEP]分隔句子;
通过多次嵌入计算,输入表征,作为所述Bert-wwm-Ext模型的输入。
5.根据权利要求4所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在进行预训练的过程中,根据所述句向量,构建至少一个预设指向于所述第一内容的层,用于提取所述第一文档级特征。
6.根据权利要求5所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在生成第一摘要内容的过程中,获取每个句子的预测分数,以及整个模型的损失,其中,所述损失用于表示所述预测分数与黄金标签的二元分类熵;
根据所述预测分数和所述损失,对所述第一内容的层,以及所述Bert-wwm-Ext模型进行微调。
7.根据权利要求6所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在获取所述预测分数的过程中,通过在所述Bert-wwm-Ext模型的输出上添加至少一个复合分类器并使用sigmoid函数,以获得所述预测分数。
8.根据权利要求7所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在对所述第一摘要内容与所述第一内容进行评价的过程中,通过ROUGE法进行评价。
9.根据权利要求8所述基于Bert-wwm-Ext模型的摘要自动生成方法,其特征在于:
在通过ROUGE法进行评价的过程中,通过获取所述第一内容与所述第一摘要内容在一元语法上的第一匹配度、在二元语法上的第二匹配度以及N-gram上的召回率;判断所述第一摘要内容的质量。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的基于Bert-wwm-Ext模型的摘要自动生成方法。
CN202210623624.3A 2022-06-02 2022-06-02 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质 Pending CN115238067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210623624.3A CN115238067A (zh) 2022-06-02 2022-06-02 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210623624.3A CN115238067A (zh) 2022-06-02 2022-06-02 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质

Publications (1)

Publication Number Publication Date
CN115238067A true CN115238067A (zh) 2022-10-25

Family

ID=83669122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210623624.3A Pending CN115238067A (zh) 2022-06-02 2022-06-02 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质

Country Status (1)

Country Link
CN (1) CN115238067A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050397A (zh) * 2023-03-07 2023-05-02 知呱呱(天津)大数据技术有限公司 一种长文本摘要生成方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050397A (zh) * 2023-03-07 2023-05-02 知呱呱(天津)大数据技术有限公司 一种长文本摘要生成方法、系统、设备及存储介质
CN116050397B (zh) * 2023-03-07 2023-05-30 知呱呱(天津)大数据技术有限公司 一种长文本摘要生成方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN102866782B (zh) 一种提高整句生成效率的输入法和输入法系统
CN112100326B (zh) 一种抗干扰的融合检索和机器阅读理解的问答方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN113204669A (zh) 一种基于语音识别的短视频搜索推荐方法、系统及计算机存储介质
CN115994535A (zh) 文本处理方法及装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN115238067A (zh) 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质
KR20130137048A (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN106776590A (zh) 一种获取词条译文的方法及系统
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN107609006B (zh) 一种基于地方志研究的搜索优化方法
CN113111645B (zh) 一种媒体文本相似性检测方法
CN115794987A (zh) 基于共享语义模型的跨语言信息检索系统及设备
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
CN109727591B (zh) 一种语音搜索的方法及装置
CN113609841A (zh) 一种主题词生成模型的训练方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination