CN111666402A - 文本摘要生成方法、装置、计算机设备及可读存储介质 - Google Patents
文本摘要生成方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111666402A CN111666402A CN202010367822.9A CN202010367822A CN111666402A CN 111666402 A CN111666402 A CN 111666402A CN 202010367822 A CN202010367822 A CN 202010367822A CN 111666402 A CN111666402 A CN 111666402A
- Authority
- CN
- China
- Prior art keywords
- candidate
- abstract
- score
- candidate abstract
- redundancy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000010845 search algorithm Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 102220617592 B1 bradykinin receptor_S42C_mutation Human genes 0.000 description 1
- 102220563037 BLOC-1-related complex subunit 5_S41C_mutation Human genes 0.000 description 1
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 102220618649 Beta-1,3-N-acetylglucosaminyltransferase lunatic fringe_S43T_mutation Human genes 0.000 description 1
- 102220618646 Beta-1,3-N-acetylglucosaminyltransferase lunatic fringe_S43V_mutation Human genes 0.000 description 1
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 102220588433 Keratin, type I cytoskeletal 18_S42A_mutation Human genes 0.000 description 1
- 102220588696 Keratin, type I cytoskeletal 18_S51A_mutation Human genes 0.000 description 1
- 102220588695 Keratin, type I cytoskeletal 18_S53A_mutation Human genes 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 102220585558 T cell receptor gamma constant 1_S41A_mutation Human genes 0.000 description 1
- 102220536512 THAP domain-containing protein 1_S52A_mutation Human genes 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 101150104012 TOP2 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能,公开了文本摘要生成方法、装置、计算机设备和可读存储介质,方法部分包括:获取待处理的文本信息,将文本信息转化为词向量;通过集束搜索算法,将词向量输入预训好的预设神经网络模型,以得到文本信息的候选摘要集合以及候选摘要集合中各候选摘要的对数似然概率值;获取候选摘要集合中各候选摘要的目标冗余性分值;根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值;从各候选摘要中选取参考分值大于预设参考分值的摘要作为文本信息对应的摘要。此外,本发明还涉及区块链技术,参考分值可存储于区块链中。本发明提出的文本摘要方法可以优化自动生成摘要的冗余词,从而提高自动生成文本摘要的可读性。
Description
技术领域
本发明涉及人工智能自然语言处理的技术领域,尤其涉及一种文本摘要生成方法、装置、计算机设备及可读存储介质。
背景技术
随着文本信息爆发式的增长,每天都会有海量的文本信息产生,其中包括但不局限于互联网新闻、博客、报告和论文等。摘要是能够反映文本信息的一段文本,从大量的文本信息中提取需要的内容,不仅能够帮助人们在阅读长篇的文章时缩短阅读时间,还能使人们大幅地提高对信息阅读效率,从而使人们可以更加高效地利用信息来生活和工作。基于上述的需求,自动文本摘要生成技术是知识管理系统核心功能之一,近年来得到了迅速的发展;而且自动文本摘要有非常多的应用场景,例如报告自动生成、新闻标题生成、搜索结果预览等。
目前的自动文本摘要生成的方法主要分为两类,抽取式摘要和生成式摘要。抽取式摘要主要是从原文中抽取重要的句子,结合句子数量及字数要求等拼凑形成摘要,常用的方法有textrank及其延伸算法,其好处在于可以直接从文中抽取句子,一般句子的通顺度会更好,但概括性较差。而生成式摘要是根据原文内容进行提炼总结形成一段新的汇总文字,更接近人进行摘要的过程,但生成式摘要必须要采用Seq2Seq模型并依赖于标注数据进行模型训练,一般的难度较大,当训练数据量较小,模型训练不充分的话得到的摘要不符合预期,例如会导致冗余词的出现,则会影响自动生成摘要可读性。
发明内容
本发明所要解决的技术问题在于,针对现有技术中自动生成的摘要文本容易出现的冗余词而影响摘要文本可读性的问题,提供一种文本摘要生成方法、装置、计算机设备及可读存储介质,可以降低自动生成文本摘要出现重复性较多词的概率,提高自动生成文本摘要的可读性。
本发明第一方面提供一种文本摘要生成方法,所述方法包括:
获取待处理的文本信息;
将所述文本信息转化为词向量;
通过集束搜索算法,将所述词向量输入预先训练好的预设神经网络模型,以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值;
获取所述候选摘要集合中各候选摘要的目标冗余性分值,所述目标冗余性分值表示所述候选摘要中的词的冗余程度;
根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值;
从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。
可选地,所述获取所述候选摘要集合中各候选摘要的目标冗余性分值,包括:
针对所述各候选摘要的词,分别计算每个词与其他剩余词的相似度,并选取相似度大于预设值的数量,统计得到各候选摘要的相似词的总个数m;
针对所述各候选摘要,将所述候选摘要对应的总个数m除以n*(n-1),并进行归一化处理,以得到所述各候选摘要的第一冗余性分值,其中,n表示所述候选摘要的词的总数量;
将各所述各候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。
可选地,所述获取所述候选摘要集合中各候选摘要的目标冗余性分值,包括:
针对所述各候选摘要,分别获取其中相同字符的长度;
针对所述各候选摘要中的相同字符,分别获取所述相同字符对应的第一句子的长度和第二句子的长度;
根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度,对应获取所述各候选摘要的第二冗余性分值;
将各所述各候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。
可选地,所述获取所述候选摘要集合中各候选摘要的目标冗余性分值,包括:
采用Bert模型对所述各候选摘要进行编码,得到各候选摘要的句子向量;
根据所述各候选摘要的句子向量,获取所述各候选摘要中任意两个句子向量的相似度,得到所述各候选摘要的第三冗余性分值;
将各所述各候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。
可选地,所述根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值,包括:
针对各候选摘要,分别获取其中各候选摘要对应的权重系数;
确定所述各候选摘要对应的权重系数与所述目标冗余性分值的乘积;
将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值,以得到各候选摘要的参考分值,所述参考分值存储于区块链中。
本发明第二方面提供一种文本摘要生成装置,所述装置包括:
第一获取模块,用于获取待处理的文本信息;
转化模块,用于将所述文本信息转化为词向量;
训练模块,用于通过集束搜索算法,将所述词向量输入预先训练好的预设神经网络模型,以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值;
第二获取模块,用于获取所述候选摘要集合中各候选摘要的目标冗余性分值,所述目标冗余性分值表示所述候选摘要中的词的冗余程度;
第三获取模块,用于根据各候选摘要的所述目标冗余性分值和对数似然概率值获取所述各候选摘要的参考分值;
摘要选取模块,用于从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。
可选地,所述第二获取模块还用于:
针对所述各候选摘要的词,分别计算每个词与其他剩余词的相似度,并选取相似度大于预设值的数量,统计得到各候选摘要的相似词的总个数m;
针对所述各候选摘要,将所述候选摘要对应的总个数m除以n*(n-1),并进行归一化处理,得到所述各候选摘要的第一冗余性分值,其中,n表示所述候选摘要的词的总数量;
将各所述候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。
可选地,所述第二获取模块还用于:
针对所述各候选摘要,分别获取其中相同字符的长度;
针对所述各候选摘要中的相同字符,分别获取所述相同字符对应的第一句子的长度和第二句子的长度;
根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度,对应获取所述各候选摘要的第二冗余性分值;
将所述各候选摘要的第二冗余性分值作为各候选摘要的所述目标冗余性分值。
本发明第三方面提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本发明第一方面所述的文本摘要生成方法。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如本发明第一方面所述的文本摘要生成方法。
本发明提供一种文本摘要生成方法、装置、计算机设备及存储介质中,其中,通过获取基于文本信息的候选摘要集合和候选摘要集合中各候选摘要的对数似然概率值,并获取候选摘要集合中各候选摘要的目标冗余性分值,则可以根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值,并从各候选摘要中选取参考分值大于预设参考分值的摘要作为该文本信息对应的摘要。该实施例中,通过计算和获取词的冗余度,可以减少重复词汇多次出现的概率,则可以增强自动生成摘要的可信度,从而提高自动生成摘要的可读性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本摘要生成方法的一流程示意图;
图2是本发明一实施例中获取第一冗余性分值的一流程示意图;
图3是本发明一实施例中获取第二冗余性分值的一流程示意图;
图4是本发明一实施例中获取第三冗余性分值的一流程示意图;
图5是本发明一实施例中获取各候选摘要参考分值的一流程示意图;
图6是本发明一实施例中获取各候选摘要参考分值的另一流程示意图;
图7是本发明一实施例中文本摘要生成装置的一架构示意图;
图8是本发明一实施例中计算机设备的一架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本摘要生成方法,具体地,如图1所示,可以包括如下步骤:
S10:获取待处理的文本信息。
在一个实施例中,可以对需要进行摘要总结的场景进行相应的文本信息收集,其中的文本信息可以包括但不局限于例如互联网新闻、博客、报告和论文等相关的文本信息。示例性地,文本信息可以是涉及新闻,或者可以是博客相关的文本信息等,或者可以是新闻和博客组合的文本信息等。获取待处理的文本信息,具体可以获取大量的新闻、博客等文本信息。
S20:将所述文本信息转化为词向量。
在一个实施例中,将当前获取的待处理的文本信息转化为词向量。具体可以采用Word2Vec方式将所述待处理的文本信息转化为词向量。该实施例中,通过Word2Vec方式将获取的待处理的文本信息转化为词向量的形式,当然还可以通过其他的方式例如One-Hot将待处理的文本信息转化为词向量的形式,此处并不限定。
另外,还可以根据语料级别选择对应的词向量。示例性地,如果语料量级较大可以自行训练词向量,例如通过直接调用GenSim库中的Word2Vec函数进行训练;如果语料量级不够大则可以使用现有的词向量结果文件,例如获取基于网上公开语料训练好的词向量数据,具体可以根据实际场景的贴合程度选择对应的词向量。
S30:通过集束搜索算法,将所述词向量输入预先训练好的预设神经网络模型,以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值。
在一个实施例中,基于人工智能领域的神经网络和深度学习等技术,预设神经网络模型为带有注意力机制的Seq2Seq模型,具体地,可以先搭建Seq2Seq模型结构,该Seq2Seq模型可以包括encoder编码器以及decoder解码器两个部分,具体可以由循环神经卷积RNN(Recurrent neural network)结构或者长短期记忆LSTM(Long Short-TermMemory)结构组成,通过embedding嵌入方式将转化的词向量输入预先训练好的预设神经网络模型,其中的训练目标可以为最大似然估计MLE(maximum likelihood estimation)。根据集束搜索算法Beam Search,可以得到基于文本信息的候选摘要集合,也即,可以理解,基于引入了集束搜索算法Beam Search,通过Seq2Seq模型可以解码输出候选摘要集合,则可以获取其中各候选摘要的对数似然概率值logP。
该实施例中,通过引入集束搜索算法Beam Search,该Beam Search算法是一种启发式的搜索算法,通常用在数据集比较大的情况,可以剔除质量比较差的结点,筛选出质量较高的结点,其作用主要在于减少搜索所占用的空间和时间,通过Beam Search算法可以获取基于文本信息的候选摘要集合。
基于对获取候选摘要集合数据量的考量,在一个实施例中,基于上述步骤S30获取的候选摘要集合,可以将获取候选摘要集合对应的概率进行排序,并选取其中概率排名topk的k条摘要作为候选摘要集合,例如选择其中的top10的10条候选摘要集合,具体地,可以根据实际进行设置,此处并不限定。另外,基于将最大似然估计MLE作为Seq2Seq模型训练目标的优化方法,其核心在于实现获取出现概率最大的候选摘要集合,则可以提高获取候选摘要集合的准确度。
S40:获取所述候选摘要集合中各候选摘要的目标冗余性分值,所述目标冗余性分值表示所述候选摘要中的词的冗余程度。
基于获取的候选摘要集合,可以获取候选摘要集合中各候选摘要的目标冗余性分值,目标冗余性分值体可以表示候选摘要中的词的冗余程度。
在一个实施例中,各候选摘要的目标冗余性分值可以通过步骤S41A-S43A获取,具体地,如图2所示,可以包括:
S41A:针对所述各候选摘要的词,分别计算每个词与其他剩余词的相似度,并选取相似度大于预设值的数量,统计得到各候选摘要的相似词的总个数m。
在一个实施例中,假设候选摘要集合中包括n个词,针对各候选摘要的词,可以分别计算各候选摘要中每个词与其他剩余词的相似度。具体地,可以分别计算每n个词与其他n-1个剩余词的余弦相似度,示例性地,例如针对第一个词,可以计算第一个词与剩余其他词的相似度得分,可以得到n-1个相似度得分,并统计其中相似度得分大于预设值的数量m1;针对第二个词,可以计算第二个词与剩余其他词的相似度得分,可以得到n-1个相似度得分,并统计其中相似度得分大于预设值的数量m2......;则针对第n个词,可以计算第n个词与剩余其他词的相似度得分,可以得到n-1个相似度得分,并统计其中相似度得分大于预设值的数量mn;则重复计算每n个词与其他n-1个剩余词的余弦相似度n次,并选取相似度大于预设值的数量,可以得到各候选摘要的相似词的总个数m,其中m=m1+m2+...+mn。其中,针对每一个词,获取相似度得分大于预设得分的数量,在一实施例中,相似度得分的预设值预设为0.9,示例性地,例如针对第一个词,则可统计并获取其中相似度得分大于预设得分0.9的相似度得分的个数为m1,也即可以得到针对第一个词的相似词的个数m1;则针对第二个词对应可得到m2,针对第n个词对应可得到mn。需要说明的是,此处的预设值仅用于举例,并不表示限定,还可以设置其他的预设值。
S42A:针对所述各候选摘要,将所述候选摘要对应的总个数m除以n*(n-1),并进行归一化处理,得到所述各候选摘要的第一冗余性分值,其中,n表示所述候选摘要的词的总数量。
S43A:将各所述各候选摘要的第一冗余性分值对应作为所述各候选摘要的目标冗余性分值。
在一个实施例中,可以将各候选摘要的第一冗余性分值对应作为各候选摘要的目标冗余性分值。
在一个实施例中,各候选摘要的目标冗余性分值可以还可以通过步骤S41B-S44B获取,具体地,如图3所示,可以包括:
S41B:针对所述各候选摘要,分别获取其中相同字符的长度。
在一个实施例中,针对各候选摘要的每个句子,分别确定并获取各候选摘要中的每个句子其中的相同字符的长度length相同字符。
该实施例中,可以理解,基于获取的候选摘要集合,该候选摘要集合可以包括多条候选摘要,各候选摘要中可以包括多个句子,针对各候选摘要中的每个句子,分别可以统计并获取各候选摘要中的每个句子其中的相同字符的长度length相同字符。
S42B:针对所述各候选摘要中的相同字符,分别获取所述相同字符对应的第一句子的长度和第二句子的长度。
在一个实施例中,针对各候选摘要中的相同字符,分别获取相同字符对应的第一句子的长度length句子1和第二句子的长度length句子2,示例性地,假设其中一条候选摘要中的句子1和句子2有相同字符,则可以分别获取该相同字符对应句子1的长度length句子1和句子2的长度length句子2。
S43B:根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度,对应获取所述各候选摘要的第二冗余性分值。
在一个实施例中,根据相同字符的长度length相同字符、以及第一句子的长度length句子1和第二句子的长度length句子2,可以获取各候选摘要的第二冗余性分值score2,将各候选摘要的第二冗余性分值作为各候选摘要的目标冗余性分值。具体地,目标冗余性分值则可以通过以下公式表示:
其中,length相同字符表示各候选摘要中相同字符的长度,length句子1表示相同字符对应第一句子的长度,length句子2表示相同字符对应的第二句子的长度。
S44B:将各所述各候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。
该实例中,基于候选摘要中的字符相似原则,通过确定相同字符的长度以及相同字符对应句子的长度,针对各字符相似度的计算可以获取候选摘要集合的第二冗余性分值scoredup2,并将各候选摘要的第二冗余性分值对应作为各候选摘要的目标冗余性分值。
在一个实施例中,各候选摘要的目标冗余性分值还可以通过步骤S41C-S43C获取,具体地,如图4所示,可以包括:
S41C:采用Bert模型对所述各候选摘要进行编码,得到各候选摘要的句子向量。
在一个实施例中,采用Bert(Bidirectional Encoder Representations fromTransformers)模型对候选摘要集合中的各候选摘要进行编码,可以得到各候选摘要的句子向量。
S42C:根据所述各候选摘要的句子向量,获取所述各候选摘要中任意两个句子向量的相似度,得到所述各候选摘要的第三冗余性分值。
在一个实施例中,可以理解,基于获取到各候选摘要的句子向量,可以计算任意两个句子向量的余弦相似度,将任意两个句子向量的余弦相似度的计算结果作为第三冗余性分值,则可以得到各候选摘要的第三冗余性分值。
S43C:将各所述各候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。
在一个实施例中,根据各候选摘要的句子向量,获取各候选摘要中任意两个句子向量的相似度,可以得到各候选摘要的第三冗余性分值scoredup3,并将各候选摘要的第三冗余性分值作为各候选摘要的目标冗余性分值,则可根据第三冗余性分值scoredup3得到第目标冗余性分值。该实施例中,基于获取的各候选摘要,在采用Bert模型对各候选摘要进行编码,可以得到各候选摘要的句子向量,并根据句子向量获取各候选摘要中任意两个句子向量的相似度,具体可通过余弦相似度的公式计算,则可以得出各候选摘要的第三冗余性分值scoredup3。其中,获取两个句子向量的相似度分值越高,则说明两个句子相似度越高,为避免累赘,此处不展开描述。
S50:根据各候选摘要的所述目标冗余性分值和所述对数似然概率值获取所述各候选摘要的参考分值。
在一实施例中,步骤S50,也即根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值,具体地,如图5所示,可以包括:
S51A:针对各候选摘要,分别获取各候选摘要对应的权重系数。
在一个实施例中,针对各候选摘要,分别获取各候选摘要对应的权重系数,该权重系数可以设置0-1之间的数值,可以根据实际情况进行配置。示例性,例如基于获取摘要集合中的top3条摘要,可以根据排名不同设置不同的权重系数,示例性地,例如将排名top1摘要的权重系数设为0.5,排名top2摘要的权重系数设为0.3,排名top3摘要的权重系数设为0.2,需要说明的是,此处仅用于举例,并不限定。
S52A:确定所述各候选摘要对应的权重系数与所述目标冗余性分值的乘积。
在一个实施例中,确定各候选摘要对应的权重系数与目标冗余性分值的乘积,具体地,该乘积可以通过公式α*scoredup表示。
S53A:将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值,以得到各候选摘要的参考分值,该参考分值存储于区块链中。
将各候选摘要的对数似然概率值与乘积的差值作为各候选摘要的参考分值,则可以得到各候选摘要的参考分值。在一个实施例中,具体地,参考分值可以通过公式:logP-α*scoredup表示,其中,α表示权重系数,该权重系数可以设置为0-1之间的值,具体可以根据实际情况确定相应的权重系数,此处并不限定;scoredup表示目标冗余性分值。可见,本实施例中获取各候选摘要的参考分值可以通过公式:logP-α*scoredup进行计算和获取,也即可根据获取的目标冗余性分值和对数似然概率值,并通过公式logP-α*scoredup可以得到参考分值,则可以根据该参考分值的进行参考,实现获取目标候选摘要。上述的实施例中,可以理解,基于上述步骤S41A-S43A,步骤S41B-S44B以及步骤S41C-S43C中,分别可以获取第一冗余性分值,第二冗余性分值和第三冗余性分值,并将第一冗余性分值,第二冗余性分值和第三冗余性分值分别作为目标冗余性分值,如此,可以得到不同的目标冗余性分值,也即第一冗余性分值scoredup1,第二冗余性分值scoredup2和第三冗余性分值scoredup3,则基于参考分值公式logP-α*scoredup,可以获取不同的参考分值logP-α*scoredup1、logP-α*scoredup2和logP-α*scoredup3。此外,本发明还涉及了区块链技术,在一个实施例中,具体地,基于上述参考分值公式logP-α*scoredup获取不同的参考分值,该参考分值还可以存储于区块链中。其中,区块链技术是一种可以不依赖第三方,通过自身分布式节点进行网络数据的存储、验证、传递和交流的技术,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特点,该实施例中,可以理解,通过将参考分值存储于区块链中,可以实现提高该参考分值的私密性以及安全性。
在一个实施例中,根据不同的目标冗余性分值获取不同的参考分值。具体地,还可以对不同的目标冗余性分值设置不同的权重系数进行优化,以使得到的参考分值更加接近合理和真实。需要强调的是,为进一步保证上述参考分值的私密和安全性,上述参考分值还可以存储于一区块链的节点中。在一个实施例中,步骤S50,也即根据各候选摘要的冗余性数值和对数似然概率值获取各候选摘要的参考分值,其中各候选摘要的参考分值还可以通过步骤S51B-S53B进行获取,具体地,如图6所示,包括:
S51B:针对所述各候选摘要中的第一冗余性分值、所述第二冗余性分值和第三冗余性分值,分别获取各候选摘要中对应的第一权重系数、第二权重系数和第三权重系数。
在一个实施例中,针对各候选摘要中第一冗余性分值scoredup1、第二冗余性分值scoredup2和第三冗余性分值scoredup3,分别获取各候选摘要中对应的第一权重系数α1、第二权重系数α2和第三权重系数α3。具体地,分别确定和获取各候选摘要中第一冗余性分值对应的第一权重系数、各候选摘要中第二冗余性分值对应的第二权重系数和各候选摘要中第三冗余性分值对应的第三权重系数系数。
S52B:并分别确定各候选摘要的第一冗余性分值与第一权重系数的第一乘积、所述第二权重系数与第二冗余性分值的第二乘积,和所述第三权重系数与第三冗余性分值的第三乘积。
在一个实施例中,分别确定各候选摘要的第一冗余性分值与第一权重系数的第一乘积、第二权重系数与第二冗余性分值的第二乘积,和第三权重系数与第三冗余性分值的第三乘积。具体地,第一乘积可以通过公式α1*scoredup1表示,第二乘积可以通过公式α2*scoredup2表示,第三乘积可以通过公式α3*scoredup3表示。
S53B:将各候选摘要的对数似然概率值与所述第一乘积、第二乘积和第三乘积的差值作为各候选摘要的参考分值,以得到各候选摘要的参考分值。
在一个实施例中,将各候选摘要的对数似然概率值与所述第一乘积、第二乘积和第三乘积的差值作为各候选摘要的参考分值,则可以得到各候选摘要的参考分值。具体可以通过以下公式:
参考分值=logP-α1*scoredup1-α2*scoredup2-α3*scoredup3;
其中,α1表示第一权重系数、α2表示第二权重系数、α3表示第三权重系数,scoredup1表示第一冗余性分值、scoredup2表示第二冗余性分值、scoredup3表示第三冗余性分值。
该实施例中,可以理解,针对不同的目标冗余性分值设置不同的权重系数,可以使获取的参考分值更加合理和准确。
S60:从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。
基于获取各候选摘要的参考分值score,则可以根据参考分值选取大于预设分值的摘要作为文本信息对应的摘要。在一个应用场景中,例如在获取各候选摘要的多个参考分值后,可以将该多个参考分值进行排序,并预设一个参考分值,例如参考分值预设为0.9,则可以选择将获取的参考分值大于0.9对应的摘要作为文本信息对应的摘要,当然还可以预设其他的数字例如0.95、0.85等,此处仅用于举例,并不限定。
上述的实施例中,通过获取基于文本信息的候选摘要集合和候选摘要集合中各候选摘要的对数似然概率值,并获取候选摘要集合中各候选摘要的目标冗余性分值,则可以根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值,并从各候选摘要中选取参考分值大于预设参考分值的摘要作为该文本信息对应的摘要。可以理解,上述实施例的一种文本摘要的生成方法,相比于传统的Seq2Seq模型结构,增加了多种获取冗余性分值的运算方式,可以实现对自动生成摘要的结果进行优化,并针对不同方式获取的冗余性分值配置不同的权重系数,则可使得获取的候选摘要集合中出现重复性较多的词得分降低,即重复性较多的词被选择的概率降低,从而使得获取的目标候选摘要中出现较多重复词的可能性降低,从而提高自动生成摘要的可信度和可读性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一个实施例中,提供一种文本摘要生成装置,实现功能与上述实施例中文本摘要生成方法对应的步骤一一对应。具体地,如图7所示,该文本摘要生成装置包括第一获取模块10、转化模块20、训练模块30、第二获取模块40、第三获取模块50和摘要选取模块60。各功能模块详细说明如下:
第一获取模块10,用于获取待处理的文本信息;
转化模块20,用于将所述文本信息转化为词向量;
训练模块30,用于通过集束搜索算法,将所述词向量输入预先训练好的预设神经网络模型,以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值;
第二获取模块40,用于获取所述候选摘要集合中各候选摘要的目标冗余性分值,所述目标冗余性分值表示所述候选摘要中的词的冗余程度;
第三获取模块50,用于根据各候选摘要的所述目标冗余性分值和对数似然概率值获取所述各候选摘要的参考分值;
摘要选取模块60,用于从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。
优选地,第二获取模块40还用于:
针对所述各候选摘要,分别计算每个词与剩余词的相似度,并选取相似度大于预设值的数量,得到各候选摘要的相似词的总个数m;
针对所述各候选摘要,将所述候选摘要对应的总个数m除以n*(n-1),并进行归一化处理,得到所述各候选摘要的第一冗余性分值,其中,n表示所述候选摘要的词的总数量;
将各所述候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。
优选地,第二获取模块40还用于:
针对所述各候选摘要,分别获取其中相同字符的长度;
针对所述各候选摘要中的相同字符,分别获取所述相同字符对应的第一句子的长度和第二句子的长度;
根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度,对应获取所述各候选摘要的第二冗余性分值;
将各所述候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。
优选地,第二获取模块40还用于:
采用Bert模型对所述各候选摘要进行编码,得到各候选摘要的句子向量;
根据所述各候选摘要的句子向量,获取所述各候选摘要中任意两个句子向量的相似度,得到所述各候选摘要的第三冗余性分值;
将各所述候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。
优选地,所示第三获取模块50还用于:
针对各候选摘要,分别获取其中各候选摘要对应的权重系数;
确定所述各候选摘要对应的权重系数与所述目标冗余性分值的乘积;
将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值,以得到各候选摘要的参考分值。
关于文本摘要生成装置的具体限定可以参见上文中对于文本摘要生成方法的限定,在此不再赘述。上述文本摘要生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例文本摘要生成方法,例如图1所示的步骤S10-S60或者图2所示的步骤S41A-S43A,图3所示步骤S41B-S44B、图4所示步骤S41C-S43C以及图5所示的步骤S51A-S53A或者图6所示的步骤S51B-S53B等。为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中文本摘要生成装置中各模块的功能,例如图7所示的第一获取模块10、转化模块20、训练模块30、第二获取模块40、第三获取模块50和摘要选取模块60等模块的功能,为避免重复,这里不再赘述。可以理解地,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号和电信信号等。
在一个实施例中,如图8所示,提供一种计算机设备。具体地,该实施例的计算机设备60包括:处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63。处理器61执行计算机程序63时实现上述实施例文本摘要生成方法,例如图1所示的步骤S10-S60或者图2所示的步骤S41A-S43A,图3所示步骤S41B-S44B、图4所示步骤S41C-S43C以及图5所示的步骤S51A-S53A或者图6所示的步骤S51B-S53B等等。或者,处理器61执行计算机程序63时实现上述实施例文本摘要生成装置中各模块的功能,例如图7所示的第一获取模块10、转化模块20、训练模块30、第二获取模块40、第三获取模块50和摘要选取模块60等模块的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SynchlinK)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块、子模块和单元完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本摘要生成方法,其特征在于,所述方法包括:
获取待处理的文本信息,将所述文本信息转化为词向量;
通过集束搜索算法,将所述词向量输入预先训练好的预设神经网络模型,以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值;
获取所述候选摘要集合中各候选摘要的目标冗余性分值,所述目标冗余性分值表示所述候选摘要中的词的冗余程度;
根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值;
从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。
2.如权利要求1所述的一种文本摘要生成方法,其特征在于,所述获取所述候选摘要集合中各候选摘要的目标冗余性分值,包括:
针对所述各候选摘要的词,分别计算每个词与其他剩余词的相似度,并选取相似度大于预设值的数量,统计得到各候选摘要的相似词的总个数m;
将所述候选摘要对应的总个数m除以n*(n-1),并进行归一化处理,以得到所述各候选摘要的第一冗余性分值,其中,n表示所述候选摘要的词的总数量;
将各所述候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。
3.如权利要求1所述的一种文本摘要生成方法,其特征在于,所述获取所述候选摘要集合中各候选摘要的目标冗余性分值,包括:
针对所述各候选摘要,分别获取其中相同字符的长度;
针对所述各候选摘要中的相同字符,分别获取所述相同字符对应的第一句子的长度和第二句子的长度;
根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度,对应获取所述各候选摘要的第二冗余性分值;
将各所述候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。
4.如权利要求1所述的一种文本摘要生成方法,其特征在于,所述获取所述候选摘要集合中各候选摘要的目标冗余性分值,包括:
采用Bert模型对所述各候选摘要进行编码,得到各候选摘要的句子向量;
根据所述各候选摘要的句子向量,获取所述各候选摘要中任意两个句子向量的相似度,得到所述各候选摘要的第三冗余性分值;
将各所述候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。
5.如权利要求1-4任一项所述的一种文本摘要生成方法,其特征在于,所述根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值,包括:
针对各候选摘要,分别获取其中各候选摘要对应的权重系数;
确定所述各候选摘要对应的权重系数与所述目标冗余性分值的乘积;
将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值,以得到各候选摘要的参考分值,所述参考分值存储于区块链中。
6.一种文本摘要生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理的文本信息;
转化模块,用于将所述文本信息转化为词向量;
训练模块,用于通过集束搜索算法,将所述词向量输入预先训练好的预设神经网络模型,以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值;
第二获取模块,用于获取所述候选摘要集合中各候选摘要的目标冗余性分值,所述目标冗余性分值表示所述候选摘要中的词的冗余程度;
第三获取模块,用于根据各候选摘要的所述目标冗余性分值和对数似然概率值获取所述各候选摘要的参考分值;
摘要选取模块,用于从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。
7.如权利要求6所述的一种文本摘要生成装置,其特征在于,所述第二获取模块还用于:
针对所述各候选摘要的词,分别计算每个词与其他剩余词的相似度,并选取相似度大于预设值的数量,统计得到各候选摘要的相似词的总个数m;
针对所述各候选摘要,将所述候选摘要对应的总个数m除以n*(n-1),并进行归一化处理,得到所述各候选摘要的第一冗余性分值,其中,n表示所述候选摘要的词的总数量;
将各所述候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。
8.如权利要求6所述的一种文本摘要生成装置,其特征在于,所述第二获取模块还用于:
针对所述各候选摘要,分别获取其中相同字符的长度;
针对所述各候选摘要中的相同字符,分别获取所述相同字符对应的第一句子的长度和第二句子的长度;
根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度,对应获取所述各候选摘要的第二冗余性分值;
将各所述各候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的文本摘要生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的文本摘要生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010367822.9A CN111666402B (zh) | 2020-04-30 | 2020-04-30 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
PCT/CN2020/112349 WO2021217987A1 (zh) | 2020-04-30 | 2020-08-31 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010367822.9A CN111666402B (zh) | 2020-04-30 | 2020-04-30 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666402A true CN111666402A (zh) | 2020-09-15 |
CN111666402B CN111666402B (zh) | 2024-05-28 |
Family
ID=72383200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010367822.9A Active CN111666402B (zh) | 2020-04-30 | 2020-04-30 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111666402B (zh) |
WO (1) | WO2021217987A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
CN113660541A (zh) * | 2021-07-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 新闻视频的摘要生成方法及装置 |
CN114398478A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于bert和外部知识的生成式自动文摘方法 |
CN114996441A (zh) * | 2022-04-27 | 2022-09-02 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN115374884A (zh) * | 2022-10-26 | 2022-11-22 | 北京智源人工智能研究院 | 基于对比学习的摘要生成模型的训练方法和摘要生成方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600586B (zh) * | 2022-12-15 | 2023-04-11 | 阿里巴巴(中国)有限公司 | 摘要文本生成方法、计算设备及存储介质 |
CN115965033B (zh) * | 2023-03-16 | 2023-07-11 | 安徽大学 | 基于序列级前缀提示的生成式文本摘要方法和装置 |
CN116595164B (zh) * | 2023-07-17 | 2023-10-31 | 浪潮通用软件有限公司 | 一种生成单据摘要信息的方法、系统、设备和存储介质 |
CN117610548B (zh) * | 2024-01-22 | 2024-05-03 | 中国科学技术大学 | 一种基于多模态的自动化论文图表标题生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN104915335A (zh) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688652B (zh) * | 2017-08-31 | 2020-12-29 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
US10909157B2 (en) * | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
CN109344391B (zh) * | 2018-08-23 | 2022-10-21 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
-
2020
- 2020-04-30 CN CN202010367822.9A patent/CN111666402B/zh active Active
- 2020-08-31 WO PCT/CN2020/112349 patent/WO2021217987A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN104915335A (zh) * | 2015-06-12 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
CN113660541A (zh) * | 2021-07-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 新闻视频的摘要生成方法及装置 |
CN113660541B (zh) * | 2021-07-16 | 2023-10-13 | 北京百度网讯科技有限公司 | 新闻视频的摘要生成方法及装置 |
CN114398478A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于bert和外部知识的生成式自动文摘方法 |
CN114398478B (zh) * | 2022-01-17 | 2024-09-17 | 山西中汇数智科技有限公司 | 一种基于bert和外部知识的生成式自动文摘方法 |
CN114996441A (zh) * | 2022-04-27 | 2022-09-02 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN114996441B (zh) * | 2022-04-27 | 2024-01-12 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN115374884A (zh) * | 2022-10-26 | 2022-11-22 | 北京智源人工智能研究院 | 基于对比学习的摘要生成模型的训练方法和摘要生成方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021217987A1 (zh) | 2021-11-04 |
CN111666402B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666402B (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
Chu et al. | Automatic image captioning based on ResNet50 and LSTM with soft attention | |
US10515155B2 (en) | Conversational agent | |
CN111859986B (zh) | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 | |
JP2020520492A (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
CN110929515A (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN110134780B (zh) | 文档摘要的生成方法、装置、设备、计算机可读存储介质 | |
US11042710B2 (en) | User-friendly explanation production using generative adversarial networks | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN110362799A (zh) | 基于在线仲裁的裁决书生成处理方法、装置和计算机设备 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN116050397B (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
EP3525107A1 (en) | Conversational agent | |
CN117972033A (zh) | 大模型幻觉检测方法、装置、计算机设备及存储介质 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN110597977B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
US20220374914A1 (en) | Regulatory obligation identifier | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
CN112035616B (zh) | 基于bert模型和规则的医保数据对码方法、装置及设备 | |
CN115512374A (zh) | 针对表格文本的深度学习特征提取分类方法及装置 | |
Eom et al. | Time-Weighted Cumulative LSTM Method Using Log Data for Predicting Credit Card Customer Turnover | |
Chen et al. | SR3: Sentence Ranking, Reasoning, and Replication for Scenario-Based Essay Question Answering | |
CN111625579A (zh) | 一种信息处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40032348 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |