CN112559730B - 基于全局性特征提取的文本摘要自动生成方法及系统 - Google Patents
基于全局性特征提取的文本摘要自动生成方法及系统 Download PDFInfo
- Publication number
- CN112559730B CN112559730B CN202011423830.7A CN202011423830A CN112559730B CN 112559730 B CN112559730 B CN 112559730B CN 202011423830 A CN202011423830 A CN 202011423830A CN 112559730 B CN112559730 B CN 112559730B
- Authority
- CN
- China
- Prior art keywords
- text
- network
- bertsum
- lstm
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于全局性特征提取的文本摘要自动生成方法及系统,方法包括以下步骤:将包含多个句子的文本载入训练好的BERTSUM‑CNN‑LSTM‑attention编码模型中;通过BERTSUM网络对文本中每个句子进行编码,输出第一特征;通过CNN网络处理第一特征,提取包含不同句子之间关联关系的第二特征;通过LSTM网络处理第二特征,提取用于表征文本中句子依赖关系的第三特征;通过attention网络对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;将第四特征引出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。本发明对多句子文本进行准确理解,即考虑句子间的局部特征,又考虑整个文档的整体特征以确保本文摘要生成质量。
Description
技术领域
本发明属于文本处理技术领域,具体涉及一种基于全局性特征提取的文本摘要自动生成方法及系统。
背景技术
法律诉讼作为解决纠纷的方式,与人民生活息息相关。随着社会经济的发展,越来越多的诉讼案件涌入法庭,随之而来的是大量的法律文书,案情摘要是对法律文书内容进行压缩、归纳和总结,法律文书的案情摘要对我国法治建设具有重要意义。如何从海量法律文本信息中获取关键信息便于办案人员把握案情,成为一种急需解决的问题。
目前,法律领域的案情摘要自动生成可采取基于文本摘要的方法来完成。基于摘要的研究主要包括抽取式摘要方法和生成式摘要两种方法。有学者提出将融合关键词的方法用于抽取式文本摘要生成,提出将关键词作为指示来提高文本抽取准确率,通过关键词与标题词相结合得到关键词列表,并依据此构建与当前文本相近的语料库从中抽取出主题相关词,最后采用算法完成摘要抽取。针对现有模型在生成摘要时会出现无关摘要词的问题,有研究提出将关键词融入到文本摘要生成过程中。该方法利用关键词信息并结合门控单元去除冗余信息,从而获得更精准的文本信息。
为了提高对文本的语义理解以进一步提升文本生成质量,学者将神经网络模型用于文本摘要,注入文本语言特征信息,构造一种改进的序列-序列的神经网络模型,该模型采用基于注意力机制的RNN模型,可以很好的进行语义理解,进而提高文本摘要生成效果。有学者结合CNN和LSTM模型对构造的汉字子块进行特征提取,解决未登录词问题,在下游的自然语言处理任务中取得了比较好的效果,然而在文本分类任务中,结果低于最佳模型BERT。也有学者提出一种基于BERT-PGN的模型完成中文新闻摘要自动生成任务,该方法以BERT模型获取文本词向量,得到更细粒度的上下文相关的文本表示,进而获得更高的文本摘要结果。
以上方法对于包含句子数量较少的文档取得了较高的文本摘要生成质量。但对公益诉讼案件诉前审查报告文档,通常包含多个句子,属于多句子文档生成问题,所以需要处理多句子文档文本生成问题。有学者将BERTSUM模型用于文本摘要生成,采用BERTSUM进行句子级别编码,获取每个文档的摘要,并将其与摘要层相结合,将摘要任务转化为分类任务,在摘要层分别实现了最优的生成结果。然而不足之处是在摘要层采用了Transformer模块使得参数过多,内存开销过大,尤其在有限的GPU资源条件下,无法完成文本的快速生成。在摘要层用LSTM代替Transformer来完成摘要生成,节省运算时间,实时性较好,但由于未考虑局部特征使得文本生成质量有所下降。也有研究提出提取TF-TDF特征并结合词向量得到文档的特征向量,并对特征向量进行聚类分析,得到具有共同主题的文档,对每个文档,采用BERTSUM进行句子级别编码,获取每个文档的摘要,最终确定目标文档,得到代表性摘要,其本质是对每个文档提取多个句子特征,直接选取全连接作为摘要层以获取句子摘要的预测值。全连接相比Transformer或LSTM,其预测结果有待提高。
发明内容
鉴于上述的分析,本发明旨在公开了一种基于全局性特征提取的文本摘要自动生成方法及系统,解决目前多个句子的文本摘要自动生成的问题。
本发明公开了一种基于全局性特征提取的文本摘要自动生成方法,包括以下步骤:
将包含多个句子的文本载入训练好的BERTSUM-CNN-LSTM-attention编码模型中;
通过BERTSUM网络对文本中每个句子进行编码,输出第一特征;
通过CNN网络处理第一特征,提取包含不同句子之间关联关系的第二特征;
通过LSTM网络处理第二特征,提取用于表征文本中句子依赖关系的第三特征;
通过attention网络对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;
将第四特征引出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。
进一步地,所述第一特征的表达式为:
Multiheadj=Concat(head1,...,headi,...,headN)WS;式中,headi为对BERTSUM网络第i个“头”的语义理解表示,N是BERTSUM网络中“头”的数量;在headi的表达式中,查询向量Q=XWQ,键值K=XWK,键值V=XWV;X为BERTSUM网络的输入句子词嵌入表示;WQ、WK、WV、WS为BERTSUM网络中的训练参数;QKT为X中不同词之间的相似性;T为转置;softmax为激活函数;Concat为对矩阵进行拼接;j=1,2,…,L;L为文本中句子的个数。
进一步地,所述第二特征的表达式Cj=CNN(Multiheadj);CNN网络具体包括:
CNN网络包括三层结构,其中第一层由R个卷积核构成,其滤波器尺寸为s1;第二层由2R个卷积核构成,其中前R个滤波器尺寸为s1,后R个滤波器尺寸为s2,前R个滤波器和后R个滤波器的关系为串联;第三层由3R个卷积核构成,其中前R个滤波器尺寸为s1,中间R个滤波器尺寸为s2,后R个滤波器尺寸为s3,三种滤波器的关系为串联;最终输出为三层滤波器输出的拼接;卷积核个数R满足使BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积等于3R;滤波器尺寸为s1、s2、s3根据模型的F1指标进行调整。
进一步地,双向LSTM网络具体包括前向LSTM和后向LSTM;具体参数包括隐藏层维度和层数;其中,层数选为一层,隐藏层的维度在数值上为BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积;将LSTM隐藏层的输出作为单向LSTM的输出,最终双向LSTM的输出是前向LSTM和后向LSTM的拼接。
进一步地,所述第四特征h'=tanh(γ);γ=hαT;α=softmax(WT(tanh(h)));WT为网络中的训练参数。
进一步地,BERTSUM-CNN-LSTM-attention编码模型在进行训练时,训练集的建立过程包括:
1)对作为训练样本的多个文本进行预处理;
所述预处理包括对每个文本去除停用词、去除特殊符号以及分词操作在内的处理;
2)对预处理后的文本进行标签标记;
标签标记的方法采用贪心算法;将预处理后的文本作为输入文本,与文本对应的摘要作为标签,以形成训练集。
进一步地,所述BERTSUM-CNN-LSTM-attention编码模型,在进行模型训练时的目标是最小化预测标签和真实标签的交叉熵损失函数,所述损失函数为式中,M是训练样本的个数,k取值为2,是第m个样本预测的第n个值,1{Truth}=1,1{False}=0。
本发明还公开了一种基于全局性特征提取的文本摘要自动生成系统,包括,用于进行文本摘要自动生成的训练好的编码模型;
所述编码模型包括BERTSUM网络模型、CNN网络模型、LSTM网络模型和attention网络模型;
所述BERTSUM网络模型,用于对输入文本中每个句子的首端标识符进行编码,输出对每个句子进行编码后的第一特征;
所述CNN网络模型,用于处理第一特征,提取包含不同句子之间关联关系的第二特征;
所述LSTM网络模型,用于处理第二特征,提取用于表征文本中句子依赖关系的第三特征;
所述attention网络,用于对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;
所述第四特征的输出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。
本发明至少可实现以下有益效果之一:
本发明对多句子文本进行准确理解,即考虑句子间的局部特征,又考虑整个文档的整体特征以确保本文摘要生成质量。
特别是,针对刑事或者民事诉讼法律文书,采用本发明对其进行案情摘要生成,也可对公益诉讼案件诉前审查文书进行检察建议文本生成。不仅具有实用性强、工程应用前景广等优点,而且还解决了人力资源浪费和效率不高等问题,可以辅助办案人员办案。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本实施例中的文本摘要自动生成方法流程图;
图2为本实施例中的部分标记样本示意图;
图3为本实施例中的BERTSUM词嵌入原理图;
图4为本实施例中的“单头”机制原理图;
图5为本实施例中的“多头”机制原理图;
图6为本实施例中的模型F1值随迭代次数变化示意图;
图7为本实施例中的不同方法ROGUE-L的召回率R指标随迭代次数的变化示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的一个实施例公开了一种基于全局性特征提取的文本摘要自动生成方法,如图1所示,包括以下步骤:
步骤S1、将包含多个句子的文本载入训练好的BERTSUM-CNN-LSTM-attention编码模型中;
步骤S2、通过BERTSUM网络对文本中每个句子进行编码,输出第一特征;
步骤S3、通过CNN网络处理第一特征,提取包含不同句子之间关联关系的第二特征;
步骤S4、通过LSTM网络处理第二特征,提取用于表征文本中句子依赖关系的第三特征;
步骤S5、通过attention网络对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;
步骤S6、将第四特征引出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。
所述BERTSUM-CNN-LSTM-attention编码模型在BERTSUM网络中进行基于BERTSUM的词嵌入表示、基于BERT的特征提取,在基于CNN-LSTM-attention组合网络进行编码处理;通过事先建立好的训练集对BERTSUM-CNN-LSTM-attention编码模型训练编码模型中的模型参数。
具体的,训练集的建立过程包括:
1)对作为训练样本的多个法律文书文本进行预处理。
其中,预处理可以包括但不限于对每个文本案例去除停用词、去除特殊符号、分词操作。
2)对预处理后的文本进行标签标记。
标签标记的方法可以采用贪心算法。将诉讼案件作为输入文本,案件案情摘要作为标签,通过训练模型,完成法律案件文本摘要生成。
首先对诉讼案件进行标签标记,根据案情摘要对诉讼案件中的句子进行重要性标记,如两者相关,则当前句子标签为1,反之为0,从诉讼案件中抽取句子作为案情摘要的内容就转化为对诉讼案件中句子标签的预测,如果预测为1,则将其抽取出来,作为案情摘要。
如图2所示,为部分标记样本示意图。
具体的,模型训练时的目标是最小化预测标签和真实标签的交叉熵损失函数。
对于训练好的BERTSUM-CNN-LSTM-attention编码模型;将包含多个句子的法律文书文本载入,进行处理得到文书的摘要信息;
具体的,BERTSUM-CNN-LSTM-attention编码模型中的BERTSUM网络对输入法律文书文本中每个句子的首端标识符进行编码,输出对每个句子进行编码后的第一特征;
所述第一特征的表达式为Multiheadj=Concat(head1,...,headi,...,headN)WS;式中,headi为对BERTSUM网络第i个“头”的语义理解表示,N是BERTSUM网络中“头”的数量;在headi的表达式中,查询向量Q=XWQ,键值K=XWK,键值V=XWV;X为BERTSUM网络的输入句子词嵌入表示;WQ、WK、WV、WS为BERTSUM网络中的训练参数;QKT为X中不同词之间的相似性;T为转置;softmax为激活函数;Concat为对矩阵进行拼接。
更具体的,BERTSUM词嵌入是对于每个词被编码为词向量,每个词向量由TokenEmbeddings,Interval Segment Embeddings和Position Embeddings三部分相加组成;经过BERTSUM词嵌入获得文本的向量表示如图3所示,每一个句子以[cls]开始,[sep]结束。通过每个句子的首端标识符[cls]进行编码。
对于BERTSUM网络中的每个“头”采用图4中的“单头”机制进行处理,得到第i个“头”的语义理解表示,通过缩放可保证(QKT)与(V)进行点乘操作时幅度不至于过大,而且在进行softmax操作后,使得后续梯度操作更为稳定。
为了获取更为丰富的语义表示,完成一词多义理解,在根据图5中的“多头”机制,“多头”模式“不共享参数”(不同的权重参数),这种机制更加符合人类对语言的理解。
以此得到,第一特征的表达式为Multiheadj=Concat(head1,...,headi,...,headN)WS。
为了提取不同句子之间的关联性,采用CNN对BERTSUM的编码多头输出进行进一步的编码,提取包含不同句子之间关联关系的第二特征,不同句子之间的关联性受限于滤波器尺寸,所述第二特征为局部性的特征。
具体的,所述第二特征的表达式Cj=CNN(Multiheadj);其中CNN网络具体包括:
CNN网络包括三层结构,其中第一层由R个卷积核构成,其滤波器尺寸为s1;第二层由2R个卷积核构成,其中前R个滤波器尺寸为s1,后R个滤波器尺寸为s2,前R个滤波器和后R个滤波器的关系为串联;第三层由3R个卷积核构成,其中前R个滤波器尺寸为s1,中间R个滤波器尺寸为s2,后R个滤波器尺寸为s3,三种滤波器的关系为串联;最终输出为三层滤波器输出的拼接;卷积核个数R满足使BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积等于3R;滤波器尺寸为s1、s2、s3根据模型的F1指标进行调整。通过对模型进行调试,具体的s1、s2、s3分别取3、5、7可使模型的F1指标最优。
进一步地,采用LSTM对CNN的输出进行特征提取,获得反映整个文本的整体特征的第三特征,所述第三特征可表征文本中句子依赖关系,特别是长距离的句子之间的依赖关系。
其中双向LSTM网络具体包括:
前向LSTM和后向LSTM的具体参数包括隐藏层维度和层数;其中层数选为一层,隐藏层的维度在数值上为BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积;将LSTM隐藏层的输出作为单向LSTM的输出,最终双向LSTM的输出是前向LSTM和后向LSTM的拼接。对前向和后向隐藏层输出进行拼接可以更好的捕捉文本上下文表示,可以提高最终文本生成效果。
利用注意力机制对双向LSTM的输出进行规范化操作,进一步完成文本特征提取,目的是对不同的句子,赋予其不同的权重进而得到第四特征。
具体的,所述第四特征h'=tanh(γ);γ=hαT;α=softmax(WT(tanh(h)));WT为网络中的训练参数。
采用本发明实施例的摘要生成方法的模型F1值随迭代次数变化如图6所示。从图中可以看出,最优迭代次数为5K,ROGUE-1,ROGUE-2,ROGUE-L的F1值分别达到最大值0.2742,0.1520,0.2351,再增加迭代次数,F1值会下降,所以迭代次数5K即可以保存最优结果,又可以节省训练时间,保证了文本的快速生成。
相比其他基于BERT的摘要生成方法,以自动文摘评测方法标准指标Rogue-1、Rogue-2和Rogue-L为评价指标,评价摘要生成质量。得出下表:
表1 ROUGE-1对比结果
表2 ROUGE-2对比结果
表3 ROUGE-L对比结果
由上表所示,在ROGUE-1、ROGUE-2、ROGUE-3的F1指标,本文方法相比BERT+RNN模型,在F1指标上有2%,1.8%,1.02%的提高,而且在三个指标的召回率R上取得了最好的效果,分别为58.16%,35.27%,52.21%。
本文方法对硬件环境要求更低,比如,运行速度更快,这更为实用。表4为各方法的运行速度与模型参数比较,如表4所示,本文方法的参数量为116M,训练速度为0.801秒每步,测试速度为0.072秒每步,优于BERT+Tranformer和BERT+RNN的各项指标。
表4运行速度与模型参数比较
结合对比结果可以得出,本文方法由于摘要层采用CNN+LSTM+Attention来代替Transformer,所以对硬件条件GPU等要求更低,可以在有限的硬件条件下保证文本摘要的生成质量,训练和测试速度均快于其他两个模型,保证了模型测试的实时性。
图7是不同方法ROGUE-L的召回率R指标随迭代次数的变化,从图中可以看出,本文方法BERTSUM+CNN+LSTM+attention在整个迭代过程中取得了最高的召回率,并且在5K的迭代次数取得最优值0.5178。
综上所述,本发明实施例对多句子文本进行准确理解,即考虑句子间的局部特征,又考虑整个文档的整体特征以确保本文摘要生成质量。特别是,针对刑事或者民事诉讼法律文书,采用本发明对其进行案情摘要生成,也可对公益诉讼案件诉前审查文书进行检察建议文本生成。不仅具有实用性强、工程应用前景广等优点,而且还解决了人力资源浪费和效率不高等问题,可以辅助办案人员办案。
本发明的另一个实施例还公开了一种基于全局性特征提取的文本摘要自动生成系统,包括,用于进行文本摘要自动生成的训练好的编码模型;
所述编码模型包括BERTSUM网络模型、CNN网络模型、LSTM网络模型和attention网络模型;
所述BERTSUM网络模型,用于对输入文本中每个句子的首端标识符进行编码,输出对每个句子进行编码后的第一特征;
所述CNN网络模型,用于处理第一特征,提取包含不同句子之间关联关系的第二特征;
所述LSTM网络模型,用于处理第二特征,提取用于表征文本中句子依赖关系的第三特征;
所述attention网络,用于对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;
所述将第四特征的输出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。
本实施例中的方案细节和有益效果与上一实施例中相似,在此就不一一赘述。
以上所述,仅为本发明较佳的几个具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于全局性特征提取的文本摘要自动生成方法,其特征在于,包括以下步骤:
将包含多个句子的文本载入训练好的BERTSUM-CNN-LSTM-attention编码模型中;
通过BERTSUM网络对文本中每个句子进行编码,输出第一特征;
通过CNN网络处理第一特征,提取包含不同句子之间关联关系的第二特征;
所述第二特征为局部性的特征,表达式为Cj=CNN(Multiheadj);Multiheadj为第一特征,j=1,2,…,L;L为文本中句子的个数;在CNN网络中通过设置滤波器尺寸来确定文本中不同句子之间的关联性;
CNN网络具体包括:
CNN网络包括三层结构,其中第一层由R个卷积核构成,其滤波器尺寸为s1;第二层由2R个卷积核构成,其中前R个滤波器尺寸为s1,后R个滤波器尺寸为s2,前R个滤波器和后R个滤波器的关系为串联;第三层由3R个卷积核构成,其中前R个滤波器尺寸为s1,中间R个滤波器尺寸为s2,后R个滤波器尺寸为s3,三种滤波器的关系为串联;最终输出为三层滤波器输出的拼接;卷积核个数R满足使BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积等于3R;其中,滤波器尺寸s1=3、s2=5、s3=7,用于使所述编码模型的F1指标最优;
通过LSTM网络处理第二特征,提取用于表征文本中句子依赖关系的第三特征;
通过attention网络对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;
将第四特征引出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。
4.根据权利要求3所述的文本摘要自动生成方法,其特征在于,双向LSTM网络具体包括前向LSTM和后向LSTM;具体参数包括隐藏层维度和层数;其中,层数选为一层,隐藏层的维度在数值上为BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积;将LSTM隐藏层的输出作为单向LSTM的输出,最终双向LSTM的输出是前向LSTM和后向LSTM的拼接。
5.根据权利要求4所述的文本摘要自动生成方法,其特征在于,所述第四特征h'=tanh(γ);γ=hαT;α=softmax(WT(tanh(h)));WT为网络中的训练参数。
7.根据权利要求1所述的文本摘要自动生成方法,其特征在于,BERTSUM-CNN-LSTM-attention编码模型在进行训练时,训练集的建立过程包括:
1)对作为训练样本的多个文本进行预处理;
所述预处理包括对每个文本去除停用词、去除特殊符号以及分词操作在内的处理;
2)对预处理后的文本进行标签标记;
标签标记的方法采用贪心算法;将预处理后的文本作为输入文本,与文本对应的摘要作为标签,以形成训练集。
9.一种基于如权利要求1-8任一项所述的文本摘要自动生成方法的自动生成系统,其特征在于,包括,用于进行文本摘要自动生成的训练好的编码模型;
所述编码模型包括BERTSUM网络模型、CNN网络模型、LSTM网络模型和attention网络模型;
所述BERTSUM网络模型,用于对输入文本中每个句子的首端标识符进行编码,输出对每个句子进行编码后的第一特征;
所述CNN网络模型,用于处理第一特征,提取包含不同句子之间关联关系的第二特征;
所述LSTM网络模型,用于处理第二特征,提取用于表征文本中句子依赖关系的第三特征;
所述attention网络模型,用于对第三特征进行规范化操作,得到对每个第三特征进行权重赋值的第四特征;
所述第四特征的输出至输出层,用于获取文本中每个句子的摘要预测概率,进而生成文本的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423830.7A CN112559730B (zh) | 2020-12-08 | 2020-12-08 | 基于全局性特征提取的文本摘要自动生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423830.7A CN112559730B (zh) | 2020-12-08 | 2020-12-08 | 基于全局性特征提取的文本摘要自动生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559730A CN112559730A (zh) | 2021-03-26 |
CN112559730B true CN112559730B (zh) | 2021-08-24 |
Family
ID=75059685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011423830.7A Active CN112559730B (zh) | 2020-12-08 | 2020-12-08 | 基于全局性特征提取的文本摘要自动生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559730B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626582B (zh) * | 2021-07-08 | 2023-07-28 | 中国人民解放军战略支援部队信息工程大学 | 基于内容选择和融合的两阶段摘要生成方法及系统 |
CN113609840B (zh) * | 2021-08-25 | 2023-06-16 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
CN113609287A (zh) * | 2021-09-16 | 2021-11-05 | 深圳豹耳科技有限公司 | 一种文本摘要的生成方法、装置、计算机设备和存储介质 |
CN115062140A (zh) * | 2022-05-27 | 2022-09-16 | 电子科技大学 | 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN111177376A (zh) * | 2019-12-17 | 2020-05-19 | 东华大学 | 一种基于bert与cnn层级连接的中文文本分类方法 |
CN111368086A (zh) * | 2020-03-17 | 2020-07-03 | 昆明理工大学 | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3081242A1 (en) * | 2019-05-22 | 2020-11-22 | Royal Bank Of Canada | System and method for controllable machine text generation architecture |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110348016B (zh) * | 2019-07-15 | 2022-06-14 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN110866117B (zh) * | 2019-10-25 | 2021-09-03 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN111723547A (zh) * | 2020-05-25 | 2020-09-29 | 河海大学 | 一种基于预训练语言模型的文本自动摘要方法 |
-
2020
- 2020-12-08 CN CN202011423830.7A patent/CN112559730B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN111177376A (zh) * | 2019-12-17 | 2020-05-19 | 东华大学 | 一种基于bert与cnn层级连接的中文文本分类方法 |
CN111368086A (zh) * | 2020-03-17 | 2020-07-03 | 昆明理工大学 | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112559730A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559730B (zh) | 基于全局性特征提取的文本摘要自动生成方法及系统 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN110119765A (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
US20220284321A1 (en) | Visual-semantic representation learning via multi-modal contrastive training | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113626589A (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN111435375A (zh) | 一种基于FastText的威胁情报自动化标注方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
Yan et al. | Law article prediction based on deep learning | |
CN112347766A (zh) | 一种处理微博文本认知歪曲的多标签分类方法 | |
CN115495550A (zh) | 一种基于多头注意力孪生Bi-LSTM网络的中文语义相似度计算方法 | |
CN113673241B (zh) | 一种基于范例学习的文本摘要生成框架系统及方法 | |
CN113065356B (zh) | 一种基于语义分析算法的it设备运维故障建议处理方法 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113051904A (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN113255344B (zh) | 一种融合主题信息的关键词生成方法 | |
CN115577072A (zh) | 一种基于深度学习的短文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |