CN110334334B - 一种摘要生成方法、装置及计算机设备 - Google Patents
一种摘要生成方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN110334334B CN110334334B CN201910531384.2A CN201910531384A CN110334334B CN 110334334 B CN110334334 B CN 110334334B CN 201910531384 A CN201910531384 A CN 201910531384A CN 110334334 B CN110334334 B CN 110334334B
- Authority
- CN
- China
- Prior art keywords
- style
- abstract
- content
- sample
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 193
- 238000000605 extraction Methods 0.000 claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 82
- 230000006870 function Effects 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 31
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000003491 array Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000011478 gradient descent method Methods 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种摘要生成方法、装置及计算机设备,其中,摘要生成方法包括:获取目标文本;确定与生成摘要的目标风格相匹配的模板摘要;基于风格提取模型提取所述模板摘要的风格向量;基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。本发明将模板摘要的风格向量与目标文本的内容编码向量作为摘要模型中文本解码器的输入,使得文本解码器的输出融合了目标文本的文本内容和模板摘要的目标风格,从而得到具有指定风格的摘要。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种摘要生成方法、装置及计算机设备。
背景技术
自动摘要生成是指利用自然语言处理技术来对文本进行分析处理,自动总结生成摘要。现有的自动摘要生成方法主要包括抽取式和生成式,其中,抽取式通过从文本中选取一些关键的句子作为摘要语句以组合成一篇摘要;生成式通过计算机读懂文本内容,并将文本内容用自己的意思表达出来,一般生成式得到的文本摘要更能符合人们对摘要的预期,也更能吸引用户阅读。
相关技术中,基于生成式的方法生成的摘要的写作风格单一,无法迎合不同用户群体的阅读兴趣,从而导致互联网产品的用户粘着性差。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种摘要生成方法、装置及计算机设备。所述技术方案如下:
一方面,提供了一种摘要生成方法,所述方法包括:
获取目标文本;
确定与生成摘要的目标风格相匹配的模板摘要;
基于风格提取模型提取所述模板摘要的风格向量;
基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;
将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。
另一方面,提供了一种摘要生成装置,所述装置包括:
第一获取模块,用于获取目标文本;
第一确定模块,用于确定与生成摘要的目标风格相匹配的模板摘要;
第一提取模块,用于基于风格提取模型提取所述模板摘要的风格向量;
第一编码模块,用于基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;
解码模块,用于将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。
可选的,所述装置还包括摘要模型训练模块,所述摘要模型训练模块包括:
第二获取模块,用于获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的摘要;
第二提取模块,用于基于内容提取模型提取所述摘要的内容向量;
第一训练模块,用于利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器;
第三提取模块,用于基于所述风格提取模型提取所述摘要的风格向量;
第二训练模块,用于利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。
可选的,所述第一样本数据集中每个样本文本对应多个摘要;
相应的,所述第二提取模块包括:
选取模块,用于从每个样本文本对应的多个摘要中选取不同风格的摘要,得到所述样本文本的样本摘要;
提取子模块,用于基于内容提取模型提取所述样本摘要的内容向量。
可选的,所述装置还包括风格提取模型训练模块,所述风格提取模型训练模块包括:
第三获取模块,用于获取用于训练的第二样本数据集,所述第二样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;
风格编码模块,用于将所述样本数组输入预设第一编码模型中进行风格编码处理,得到对应所述样本数组的风格向量;
第二确定模块,用于结合目标风格损失函数确定所述风格向量的总风格损失值;
第一调整模块,用于将所述总风格损失值与目标风格损失值进行比对,当所述总风格损失值大于所述目标风格损失值时,调整所述预设第一编码模型的模型参数至所述总风格损失值不大于所述目标风格损失值。
可选的,所述第二确定模块包括:
第三确定模块,用于根据同一风格的摘要对应的样本数组的风格向量,确定第一风格损失值;
第四确定模块,用于根据不同风格的摘要对应的样本数组的风格向量,确定第二风格损失值;
第一求和模块,用于对所述第一风格损失值和第二风格损失值进行加权求和,得到所述总风格损失值。
可选的,所述装置还包括内容提取模型训练模块,所述内容提取模型训练模块包括:
第四获取模块,用于获取用于训练的第三样本数据集,所述第三样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;
内容编码模块,用于将所述样本数组输入预设第二编码模型中进行内容编码处理,得到对应所述样本数组的内容向量;
第五确定模块,用于结合目标内容损失函数确定所述内容向量的总内容损失值;
第二调整模块,用于将所述总内容损失值与目标内容损失值进行比对,当所述总内容损失值大于所述目标内容损失值时,调整所述预设第二编码模型的模型参数至所述总内容损失值不大于所述目标内容损失值。
可选的,所述第五确定模块包括:
第六确定模块,用于根据同一样本文本对应的样本数组的内容向量,确定第一内容损失值;
第七确定模块,用于根据不同样本文本对应的样本数组的内容向量,确定第二内容损失值;
第二求和模块,用于对所述第一内容损失值和第二内容损失值进行加权求和,得到所述总内容损失值。
可选的,所述第一编码模块包括:
预处理模块,用于对所述目标文本进行预处理;
转化模块,用于将预处理后的目标文本进行词向量转化,得到所述目标文本对应的词向量;
编码子模块,用于基于摘要模型中的文本编码器对所述词向量进行编码处理,得到对应所述目标文本的内容编码向量。
另一方面,提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述摘要生成方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的摘要生成方法。
本发明实施例通过风格提取模型来提取与生成摘要的目标风格相匹配的模板摘要的风格向量,并将该风格向量与目标文本的内容编码向量作为摘要模型中文本解码器的输入,使得文本解码器的输出融合了目标文本的文本内容和模板摘要的目标风格即得到具有指定风格的摘要。在实际应用中,针对同一目标文本,可以结合实际的摘要风格需求生成与实际需求的风格相吻合的摘要,使得摘要的风格多样化,更能迎合不同用户群体的阅读兴趣,有利于提高用户对互联网产品的粘着性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种摘要生成方法的流程示意图;
图2是本发明实施例提供的训练风格提取模型的一种方法流程示意图;
图3是本发明实施例提供的训练风格提取模型和内容提取模型的一个实例图;
图4是本发明实施例提供的训练摘要模型的一种方法流程示意图;
图5是本发明实施例提供的训练内容提取模型的一种方法流程示意图;
图6是本发明实施例提供的一种摘要生成装置的结构示意图;
图7是本发明实施例提供的另一种摘要生成装置的结构示意图;
图8是本发明实施例提供的另一种摘要生成装置的结构示意图;
图9是本发明实施例提供的一种终端的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其所示为本发明实施例提供的一种摘要生成方法的流程示意图,该摘要生成方法可以应用于本发明实施例的摘要生成装置,该摘要生成装置可配置于计算机设备中,该计算机设备可以是终端或者服务器。其中,终端可以是智能手机、台式电脑、平板电脑、笔记本电脑等具有各种操作系统的硬件设备。服务器可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。
需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
S101,获取目标文本。
其中,目标文本为待生成摘要的文本,该文本可以包括新闻、书籍、社交平台中的文章等等。
S103,确定与生成摘要的目标风格相匹配的模板摘要。
在本说明书实施例中,摘要的风格主要指摘要的写作风格,写作风格是指撰写者在撰写中表现出来的写作特色和写作个性。一般而言,不同的撰写者在撰写中所表现出来的写作特色和写作个性是不相同的,因此,实际应用中可以将不同的撰写者对应于不同的写作风格。具体的,写作风格可以包括诗意、书面、俏皮、消极等等。
模板摘要可以从预先建立的模板摘要库中提取,该模板摘要库中存储有已经确定了风格的摘要,用户可以根据将要生成的摘要的目标风格从模板摘要库中去选取与目标风格相匹配的模板摘要。例如,生成摘要的目标风格是诗意风格,则可以从模板摘要库中选取诗意风格的模板摘要。当然,模板摘要也可以是用户提供的参照摘要。
S105,基于风格提取模型提取所述模板摘要的风格向量。
本说明书实施例中,风格提取模型是预先训练好的,能够提取出摘要的风格向量的机器学习模型。其中,摘要的风格向量是摘要的风格的一种向量表示。
对于风格提取模型的训练可以采用图2中的方法,如图2所示,该方法可以包括:
S201,获取用于训练的第二样本数据集。
其中,所述第二样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格,每种风格的摘要与相应的样本文本组成样本数组。
由于摘要的写作风格上的差异主要是由撰写者个体上的差异所导致的,因此,可以认为一个撰写者就代表了一种写作风格。在收集第二样本数据集时,可以收集不同撰写者对同一样本文本所撰写的摘要,从而每个样本文本可以得到多个摘要,且该多个摘要具有不同的风格,将每种风格的摘要与相应的样本文本组成样本数组。
需要说明的是,样本数组中的摘要需要有明确的风格标识,该风格标识用于标识摘要的风格。实际应用中,可以将撰写者标识作为摘要的风格标识,即所组成的样本数组可以表示为(i,Cj,Si),其中,i表示摘要的风格标识(可以采用撰写者标识,该撰写者标识用于唯一标识一个撰写者),Cj表示第j个样本文本,Si表示风格标识为i的摘要。如此,本说明书实施例中的第二样本数据集可以记为{(1,C1,S1),(1,C2,S1),(2,C1,S2),…,(i,Cj,Si),…}。
S203,将所述样本数组输入预设第一编码模型中进行风格编码处理,得到对应所述样本数组的风格向量。
实际应用中,可以根据样本数组中的摘要生成该摘要对应的词序列,该摘要的词序列可以是对摘要进行分词处理后得到的各个词所形成的序列,然后依据预训练词向量矩阵确定词序列中各词的词向量,将词序列中各词的词向量输入至预设第一编码模型中进行风格编码处理,得到对应样本数组的风格向量。其中,预训练词向量矩阵是预训练的用于将词序列中各词转化为对应的词向量的矩阵。
以样本数组中摘要的词序列为一个长度为n的序列为例,可以对样本数组中的摘要进行分词,得到该摘要的词序列为x=(x1,x2,...,xn),将该词序列通过预训练词向量矩阵进行线性变换,得到对应的词向量为w=(w1,w2,...,wn),将词序列中各词对应的词向量输入到预设第一编码模型中,得到每个词向量对应的风格向量,如此,就可以得到摘要的词序列对应的风格向量,可记为s=(s1,s2,...,sn),该摘要的词序列对应的风格向量即为该摘要所在样本数组对应的风格向量。
其中,预设第一编码模型可以是实现将输入序列转化为风格向量的编码器,该编码器可以是卷积神经网络(英文全称:Convolutional Neural Networks,英文缩写:CNN)模型、循环神经网络(英文全称:Recurrent Neural Networks,英文缩写:)模型、长短期记忆人工神经网络(英文全称:Long Short-Term Memory,英文缩写:LSTM)模型、transformer模型、BERT模型等等。风格向量是对摘要中属于预设风格词词典的风格词进行编码得到的向量,根据从摘要中匹配的属于该预设风格词词典的词得到该摘要的风格词,其中,风格词为能够表达摘要的写作风格的词。
如图3所示,以第二样本数据集{(1,C1,S1),(2,C1,S2),(1,C2,S1)}为例,其中包括三个样本数组,该三个样本数组中的相应摘要经过预设第一编码模型的风格编码处理后输出得到对应的风格向量分别为:风格向量s1_1,风格向量s2_2,风格向量s3_1,其中,风格向量sk_i表示第k个风格向量,该风格向量的风格标识为i。
S205,结合目标风格损失函数确定所述风格向量的总风格损失值。
在本说明书实施例中,基于目标风格损失函数训练得到的风格提取模型应能满足以下要求:差异化不同风格的摘要、不同文本的内容;同质化同一文本的内容、同一风格的摘要。基于此,可以构建目标风格损失函数,该目标风格损失函数包括第一风格损失值、第二风格损失值以及分别与第一风格损失值和第二风格损失值相对应的权重因子。其中,第一风格损失值根据同一风格的摘要对应的样本数组的风格向量确定,第二风格损失值根据不同风格的摘要对应的样本数组的风格向量确定,该目标风格损失函数具体可以表示为以下公式(1):
Ls=α1*L1 s+β1*L2 s (1)
其中,Ls表示总风格损失值;L1 s表示第一风格损失值;L2 s表示第二风格损失值;α1为第一风格损失值的权重因子,β1为第二风格损失值的权重因子,该α1和β1对应于预设第一编码模型中的模型参数。
在一个具体的实施例中,可以采用最大化分类间隔的算法来计算第一风格损失值L1 s,以图3所示的第二样本数据集为例,该第一风格损失值L1 s可以表示为以下公式(2):
L1 s=max(0,Δ1+y1 s-y2 s) (2)
其中,y1 s=f(s1_1),y2 s=f(s2_2);函数f()可以根据实际需求进行设定,如可以设定为max(),也可以设定为线性函数或者非线性函数;Δ1为大于零的预设参数,具体值可以根据实际需求进行设定,一般Δ1越大,越容易实现样本数组的区分。通过上述公式(2)可以最大化y1 s与y2 s之间的差异性。
在一个具体的实施例中,可以采用最小化分类间隔的算法来计算第二风格损失值L2 s,以图3所示的第二样本数据集为例,该第二风格损失值L2 s可以表示为以下公式(3):
L2 s=min(+∞,Δ2+y3 s-y1 s) (3)
其中,y3 s=f(s3_1),y1 s=f(s1_1);函数f()可以根据实际需求进行设定,如可以设定为max(),也可以设定为线性函数或者非线性函数;Δ2为大于零的预设参数,具体值可以根据实际需求进行设定,一般Δ2越大,越容易实现样本数组的区分。通过上述公式(3)可以最小化y3 s与y1 s之间的差异性。
需要说明的是,第一风格损失值L1 s的确定不限于上述提及的最大化分类间隔的算法,第二风格损失值L2 s的确定也不限于上述提及的最小化分类间隔的算法,实际应用中,可以根据需要选择任何一种能够区分正样本与负样本的损失函数,例如,还可以采用改造的交叉熵损失、pairwise算法中的Ranking Loss函数等。
S207,将所述总风格损失值与目标风格损失值进行比对,当所述总风格损失值大于所述目标风格损失值时,调整所述预设第一编码模型的模型参数至所述总风格损失值不大于所述目标风格损失值。
其中,目标风格损失值可以根据实际需求进行设定,一般目标风格损失值设置的越大,模型收敛的越快,但是训练得到的模型的预测能力也越差;反之,目标风格损失值设置的越小,模型收的的越慢,但是训练得到的模型的预测能力也越强。
根据总风格损失值与目标风格损失值的比对结果来判断当前预设第一编码模型是否收敛,若总风格损失值大于目标风格损失值,则表明训练模型还不收敛,此时可以采用梯度下降法来调整当前预设第一编码模型中的模型参数(即α1和β1),得到新的第一编码模型,并利用新的第一编码模型和第二样本数据集继续进行训练。若总风格损失值不大于目标风格损失值,则表明模型已收敛,训练完成,可以将当前的模型参数(即α1和β1)所对应的第一编码模型作为风格提取模型,该风格提取模型可以在训练样本数据的摘要风格的差异性和同质性之间取得最佳的效果。
S107,基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量。
在本说明书实施例中,摘要模型为基于编码解码框架训练得到的一种端到端的神经网络模型,编码解码框架用于解决一种序列转换为另一种序列的问题,其由编码器和解码器组成,通过编码器对输入序列进行编码得到中间编码向量,再由解码器解码得到输出序列,其中,中间编码向量相当于输入文本内容的内容压缩。
对于摘要模型的训练可以采用图4中的方法,如图4所示,该方法可以包括:
S401,获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的摘要。
实际应用中,在进行神经网络模型训练之前,可以先确定训练用的数据即第一样本数据集,该第一样本数据集包括样本文本以及样本文本对应的摘要。具体的,第一样本数据集中的每个样本文本可以对应有多个摘要,该多个摘要可以由不同的撰写者撰写,每个撰写者可以针对同一样本文字撰写出一个或者多个摘要,也即,该多个摘要中可以存在风格相同的摘要,也可以存在风格不同的摘要。
S403,基于内容提取模型提取所述摘要的内容向量。
在本说明书实施例中,内容提取模型是预先训练好的,能够提取出摘要的内容向量的机器学习模型。其中,摘要的内容向量是摘要内容的一种向量表示。
对于内容提取模型的训练可以采用图5中的方法,如图5所示,该方法可以包括:
S501,获取用于训练的第三样本数据集。
其中,所述第三样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格,每种风格的摘要与相应的样本文本组成样本数组。
实际应用中,第三样本数据集可以与第二样本数据集相同,也可以与第二样本数据集不同。本说明书实施例中,优选的将第二样本数据集直接作为第三样本数据集来训练得到内容提取模型。关于第二样本数据集的详细描述可以参见前述图2所示的方法实施例,在此不再赘述。
S503,将所述样本数组输入预设第二编码模型中进行内容编码处理,得到对应所述样本数组的内容向量。
实际应用中,可以根据样本数组中的摘要生成该摘要对应的词序列,该摘要的词序列可以是对摘要进行分词处理后得到的各个词所形成的序列,然后依据预训练词向量矩阵确定词序列中各词的词向量,将词序列中各词的词向量输入至预设第二编码模型中进行内容编码处理,得到对应样本数组的内容向量。其中,预训练词向量矩阵是预训练的用于将词序列中各词转化为对应的词向量的矩阵。
以样本数组中摘要的词序列为一个长度为m的序列为例,可以对样本数组中的摘要进行分词,得到该摘要的词序列为z=(z1,z2,...,zm),将该词序列通过预训练词向量矩阵进行线性变换,得到对应的词向量为t=(t1,t2,...,tm),将词序列中各词对应的词向量输入到预设第二编码模型中,得到每个词向量对应的内容向量,如此,就可以得到摘要的词序列对应的内容向量,可记为c=(c1,c2,...,cm),该摘要的词序列对应的内容向量即为该摘要所在样本数组对应的内容向量,该内容向量为摘要的内容的向量表示。
其中,预设第二编码模型可以是实现将输入序列转化为内容向量的编码器,该编码器可以是卷积神经网络(英文全称:Convolutional Neural Networks,英文缩写:CNN)模型、循环神经网络(英文全称:Recurrent Neural Networks,英文缩写:)模型、长短期记忆人工神经网络(英文全称:Long Short-Term Memory,英文缩写:LSTM)模型、transformer模型、BERT模型等等。
如图3所示,以第三样本数据集{(1,C1,S1),(2,C1,S2),(1,C2,S1)}为例,其中包括三个样本数组,该三个样本数组中的相应样本文本经过预设第二编码模型的内容编码处理后输出得到对应的内容向量分别为:内容向量c1_1,内容向量c2_1,内容向量c3_2,其中,内容向量ck_j表示第k个内容向量,该内容向量对应于样本文本j。
S505,结合目标内容损失函数确定所述内容向量的总内容损失值。
在本说明书实施例中,基于目标内容损失函数训练得到的内容提取模型应能满足以下要求:差异化不同风格的摘要、不同文本的内容;同质化同一文本的内容、同一风格的摘要。基于此,可以构建目标内容损失函数,该目标内容损失函数包括第一内容损失值、第二内容损失值以及分别与第一内容损失值和第二内容损失值相对应的权重因子。其中,第一内容损失值根据同一样本文本对应的样本数组的内容向量确定,第二内容损失值根据不同样本文本对应的样本数组的内容向量确定,该目标内容损失函数具体可以表示为以下公式(4):
Lc=α2*L1 c+β2*L2 c (4)
其中,Lc表示总内容损失值;L1 c表示第一内容损失值;L2 c表示第二内容损失值;α2为第一内容损失值的权重因子,β2为第二内容损失值的权重因子,该α2和β2对应于预设第二编码模型中的模型参数。
在一个具体的实施例中,可以采用最大化分类间隔的算法来计算第一内容损失值L1 c,以图3所示的第三样本数据集为例,该第一内容损失值L1 c可以表示为以下公式(5):
L1 c=max(0,Δ1+y1 c-y3 c) (5)
其中,y1 c=f(c1_1),y3 c=f(c3_2);函数f()可以根据实际需求进行设定,如可以设定为max(),也可以设定为线性函数或者非线性函数;Δ1为大于零的预设参数,具体值可以根据实际需求进行设定,一般Δ1越大,越容易实现样本数组的区分。通过上述公式(5)可以最大化y1 c与y3 c之间的差异性。
在一个具体的实施例中,可以采用最小化分类间隔的算法来计算第二内容损失值L2 c,以图3所示的第三样本数据集为例,该第二内容损失值L2 c可以表示为以下公式(6):
L2 c=min(+∞,Δ2+y2 c-y1 c) (6)
其中,y2 c=f(c2_1),y1 c=f(c1_1);函数f()可以根据实际需求进行设定,如可以设定为max(),也可以设定为线性函数或者非线性函数;Δ2为大于零的预设参数,具体值可以根据实际需求进行设定,一般Δ2越大,越容易实现样本数组的区分。通过上述公式(6)可以最小化y2 c与y1 c之间的差异性。
需要说明的是,第一内容损失值L1 c的确定不限于上述提及的最大化分类间隔的算法,第二内容损失值L2 c的确定也不限于上述提及的最小化分类间隔的算法,实际应用中,可以根据需要选择任何一种能够区分正样本与负样本的损失函数,例如,还可以采用改造的交叉熵损失、pairwise算法中的Ranking Loss函数等。
S507,将所述总内容损失值与目标内容损失值进行比对,当所述总内容损失值大于所述目标内容损失值时,调整所述预设第二编码模型的模型参数至所述总内容损失值不大于所述目标内容损失值。
其中,目标内容损失值可以根据实际需求进行设定,一般目标内容损失值设置的越大,模型收敛的越快,但是训练得到的模型的预测能力也越差;反之,目标内容损失值设置的越小,模型收的的越慢,但是训练得到的模型的预测能力也越强。
根据总内容损失值与目标内容损失值的比对结果来判断当前预设第二编码模型是否收敛,若总内容损失值大于目标内容损失值,则表明训练模型还不收敛,此时可以采用梯度下降法来调整当前预设第二编码模型中的模型参数(即α2和β2),得到新的第二编码模型,并利用新的第二编码模型和第三样本数据集继续进行训练。若总内容损失值不大于目标内容损失值,则表明模型已收敛,训练完成,可以将当前的模型参数(即α2和β2)所对应的第二编码模型作为内容提取模型,该内容提取模型可以在训练样本数据的摘要的差异性和同质性之间取得最佳的效果。
实际应用中,为了避免不同风格的摘要对后续摘要模型训练时收敛性的影响,在具体实施步骤S403时,可以从每个样本文本对应的多个摘要中选取不同风格的摘要,得到对应每个样本文本的样本摘要,然后基于内容提取模型提取样本摘要的内容向量,由于样本摘要中不同风格的摘要所对应的内容向量是一致的,所以后续利用该样本摘要的内容向量训练摘要模型时,可以迫使摘要模型的文本编码器对同一个文本输入保持一致性,避免了同样的文本输入,因为对应的摘要的风格不同导致的更新的文本编码器的模型参数不同,有利于提高摘要模型生成摘要的质量。
S405,利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器。
在本说明书实施例中,预设神经网络模型可以是预先构建的基于神经网络的编码解码框架,该框架中编码器和解码器可以采用相同类型的神经网络模型,也可以采用不同类型的神经网络模型。例如,编码器和解码器可以均采用卷积神经网络模型,也可以是编码器采用长短期记忆人工神经网络模型,解码器采用循环神经网络模型等等。
实际应用中,将第一样本数据集中的样本文本以及对应样本文本的摘要的内容向量输入至预设神经网络模型中的编码器,通过编码器确定样本文本的内容编码向量,该内容编码向量进一步作为解码器的输入,得到解码器输出的对应摘要,根据输入样本文本在第一样本数据集中对应的摘要与该样本文本对应的解码器输出的摘要使用交叉熵算法计算损失值,并根据计算的损失值判断当前预设神经网络模型是否收敛,如果收敛,则完成预设神经网络模型中编码器的训练,将当前编码器的参数对应的编码器作为文本编码器,同时将当前解码器的参数对应的解码器作为初始解码器;如果不收敛,则采用梯度下降法对当前预设神经网络模型中的编码器和解码器中的参数进行调整,得到新的神经网络模型,并利用新的神经网络模型和第一样本数据集以及摘要的内容向量继续进行训练。
其中,摘要的内容向量输入至编码器的方式可以是直接输入,也可以是经过一些矩阵变换后输入,或者是与相应样本文本的词向量拼接后一起输入。
本说明书实施例通过对预设神经网络模型的上述训练得到初始摘要模型,该初始摘要模型包括训练好的文本编码器,以及待进一步训练的初始解码器。
S407,基于所述风格提取模型提取所述摘要的风格向量。
具体的,将第一样本数据集中样本文本的摘要输入至风格提取模型中,得到风格提取模型输出的对应风格向量。
S409,利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。
在该初始解码器的训练过程中固定前述训练好的文本解码器的参数,只对初始摘要模型中的初始解码器进行训练。具体的,将第一样本数据集中的样本文本输入至文本编码器中得到文本编码器输出的内容编码向量,将该内容编码向量与输入样本文本在第一样本数据集中对应的摘要的风格向量作为初始解码器的输入,得到初始解码器输出的摘要,根据输入样本文本在第一样本数据集中对应的摘要与初始解码器输出的摘要使用交叉熵算法计算损失值,并根据计算的损失值判断当前初始解码器是否收敛,如果收敛,则完成初始解码器的训练,将当前初始解码器的参数对应的解码器作为文本解码器,如果不收敛,则采用梯度下降法对当前初始解码器中的参数进行调整,得到新的初始解码器,并利用新的初始解码器和第一样本数据集以及摘要的风格向量继续进行训练。
其中,摘要的风格向量输入至解码器的方式可以是直接输入,也可以是经过一些矩阵变换后输入,或者是与相应内容编码向量拼接后一起输入。
本说明书实施例通过固定文本编码器对初始解码器进行进一步的训练,从而得到摘要模型,该摘要模型包括文本编码器和文本解码器。将目标文本作为该摘要模型中文本编码器的输入,通过文本编码器对目标文本内容的编码得到输出的内容编码向量。
实际应用中,在将目标文本输入至摘要模型中的文本编码器之前还可以对目标文本进行预处理,该预处理可以包括去除标点符号,以及采用分词工具对目标文本进行分词处理,并使用停用词库将分词处理得到词中的停用词去除。然后将预处理后的目标文本进行词向量转化,得到该目标文本的词向量,在词向量转化时可以采用词向量工具如word2vec等等。最后基于摘要模型中的文本编码器对词向量进行编码处理,得到对应目标文本的内容编码向量。
S109,将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。
具体的,将文本编码器输出的对应于目标文本的内容编码向量和模板摘要的风格向量作为文本解码器的输入,从而使得文本解码器解码输出的摘要融合了目标文本的内容以及模板摘要的风格,即解码得到带有指定风格的摘要。
实际应用中,模板摘要的风格向量可以与内容编码向量一起拼接后输入至文本解码器,也可以是先输入内容编码向量后再输入模板摘要的风格向量,或者将内容编码向量以及模板摘要的风格向量经过一些矩阵变换后再输入至文本解码器。
由本发明实施例的上述技术方案可见,本发明实施例通过提取具有目标风格的模板摘要的风格向量,并将该风格向量与目标文本的内容编码向量作为文本解码器的输入,使得文本解码器的输出融合了目标文本的文本内容和模板摘要的目标风格即得到具有指定风格的摘要。在实际应用中,针对同一目标文本,可以结合实际的摘要风格需求生成与实际需求的风格相吻合的摘要,达到摘要的风格多样化,更能迎合不同用户群体的阅读兴趣,有利于提高用户对互联网产品的粘着性。
与上述几种实施例提供的摘要生成方法相对应,本发明实施例还提供一种摘要生成装置,由于本发明实施例提供的摘要生成控装置与上述几种实施例提供的摘要生成方法相对应,因此前述摘要生成方法的实施方式也适用于本实施例提供的摘要生成装置,在本实施例中不再详细描述。
请参阅图6,其所示为本发明实施例提供的一种摘要生成装置的结构示意图,该装置具有实现上述方法实施例中摘要生成方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。如图6所示,该装置可以包括:
第一获取模块610,用于获取目标文本;
第一确定模块620,用于确定与生成摘要的目标风格相匹配的模板摘要;
第一提取模块630,用于基于风格提取模型提取所述模板摘要的风格向量;
第一编码模块640,用于基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;
解码模块650,用于将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要。
在一些实施例中,如图7所示,所述装置还包括摘要模型训练模块660,所述摘要模型训练模块660可以包括:
第二获取模块,用于获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的摘要;
第二提取模块,用于基于内容提取模型提取所述摘要的内容向量;
第一训练模块,用于利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器;
第三提取模块,用于基于所述风格提取模型提取所述摘要的风格向量;
第二训练模块,用于利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。
可选的,所述第一样本数据集中每个样本文本对应多个摘要;
相应的,所述第二提取模块包括:
选取模块,用于从每个样本文本对应的多个摘要中选取不同风格的摘要,得到所述样本文本的样本摘要;
提取子模块,用于基于内容提取模型提取所述样本摘要的内容向量。
在一些实施例中,如图8所示,所述装置还包括风格提取模型训练模块670,所述风格提取模型训练模块670包括:
第三获取模块,用于获取用于训练的第二样本数据集,所述第二样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;
风格编码模块,用于将所述样本数组输入预设第一编码模型中进行风格编码处理,得到对应所述样本数组的风格向量;
第二确定模块,用于结合目标风格损失函数确定所述风格向量的总风格损失值;
第一调整模块,用于将所述总风格损失值与目标风格损失值进行比对,当所述总风格损失值大于所述目标风格损失值时,调整所述预设第一编码模型的模型参数至所述总风格损失值不大于所述目标风格损失值。
可选的,所述第二确定模块可以包括:
第三确定模块,用于根据同一风格的摘要对应的样本数组的风格向量,确定第一风格损失值;
第四确定模块,用于根据不同风格的摘要对应的样本数组的风格向量,确定第二风格损失值;
第一求和模块,用于对所述第一风格损失值和第二风格损失值进行加权求和,得到所述总风格损失值。
继续参见图8,在一些实施例中,所述装置还包括内容提取模型训练模块680,所述内容提取模型训练模块680可以包括:
第四获取模块,用于获取用于训练的第三样本数据集,所述第三样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;
内容编码模块,用于将所述样本数组输入预设第二编码模型中进行内容编码处理,得到对应所述样本数组的内容向量;
第五确定模块,用于结合目标内容损失函数确定所述内容向量的总内容损失值;
第二调整模块,用于将所述总内容损失值与目标内容损失值进行比对,当所述总内容损失值大于所述目标内容损失值时,调整所述预设第二编码模型的模型参数至所述总内容损失值不大于所述目标内容损失值。
可选的,所述第五确定模块包括:
第六确定模块,用于根据同一样本文本对应的样本数组的内容向量,确定第一内容损失值;
第七确定模块,用于根据不同样本文本对应的样本数组的内容向量,确定第二内容损失值;
第二求和模块,用于对所述第一内容损失值和第二内容损失值进行加权求和,得到所述总内容损失值。
可选的,所述第一编码模块640可以包括:
预处理模块,用于对所述目标文本进行预处理;
转化模块,用于将预处理后的目标文本进行词向量转化,得到所述目标文本对应的词向量;
编码子模块,用于基于摘要模型中的文本编码器对所述词向量进行编码处理,得到对应所述目标文本的内容编码向量。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例的摘要生成装置通过提取具有目标风格的模板摘要的风格向量,并将该风格向量与目标文本的内容编码向量作为文本解码器的输入,使得文本解码器的输出融合了目标文本的文本内容和模板摘要的目标风格即得到具有指定风格的摘要。在实际应用中,针对同一目标文本,可以结合实际的摘要风格需求生成与实际需求的风格相吻合的摘要,使得摘要的风格多样化,更能迎合不同用户群体的阅读兴趣,有利于提高用户对互联网产品的粘着性。
本发明实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的摘要生成方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及摘要生成。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行,即上述计算机设备可以包括计算机终端、服务器或者类似的运算装置。以运行在终端上为例,图9是本发明实施例提供的运行一种摘要生成方法的终端的硬件结构框图。具体来讲:
终端900可以包括RF(Radio Frequency,射频)电路910、包括有一个或一个以上计算机可读存储介质的存储器920、输入单元930、显示单元940、视频传感器950、音频电路960、WiFi(wireless fidelity,无线保真)模块970、包括有一个或者一个以上处理核心的处理器980、以及电源90等部件。本领域技术人员可以理解,图9中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器980处理;另外,将涉及上行的数据发送给基站。通常,RF电路910包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端900的使用所创建的数据(比如视频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器920还可以包括存储器控制器,以提供处理器980和输入单元930对存储器920的访问。
输入单元930可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元930可包括图像输入设备931以及其他输入设备932。图像输入设备931可以是摄像头,也可以是光电扫描设备。除了图像输入设备931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及终端900的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元940可包括显示面板941,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板941。
终端900可包括至少一种视频传感器950,视频传感器用于获取用户的视频信息。终端900还可以包括其它传感器(未示出),比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在终端900移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端900还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
视频电路960、扬声器961,传声器962可提供用户与终端900之间的视频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路910以发送给比如另一终端,或者将音频数据输出至存储器920以便进一步处理。音频电路960还可能包括耳塞插孔,以提供外设耳机与终端900的通信。
WiFi属于短距离无线传输技术,终端900通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970,但是可以理解的是,其并不属于终端900的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是终端900的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行终端900的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理核心;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
终端900还包括给各个部件供电的电源90(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源90还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端900还可以包括蓝牙模块等,在此不再赘述。
具体在本实施例中,终端900还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的摘要生成方法的指令。
本发明的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于终端之中以保存用于实现一种摘要生成方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的摘要生成方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种摘要生成方法,其特征在于,所述方法包括:
获取目标文本;
确定与生成摘要的目标风格相匹配的模板摘要;其中,摘要的风格包括摘要的写作风格,所述写作风格是指撰写中表现出来的写作特色和写作个性;
基于风格提取模型提取所述模板摘要的风格向量;
基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;
将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要;
其中,训练所述摘要模型包括:
获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的样本摘要,所述样本摘要包括从所述样本文本对应的多个摘要中选取的不同风格的摘要;
基于内容提取模型提取所述样本摘要的内容向量;
利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器;
基于所述风格提取模型提取所述摘要的风格向量;
固定所述文本编码器的参数,利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。
2.根据权利要求1所述的摘要生成方法,其特征在于,所述方法还包括训练所述风格提取模型,所述训练所述风格提取模型包括:
获取用于训练的第二样本数据集,所述第二样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;
将所述样本数组输入预设第一编码模型中进行风格编码处理,得到对应所述样本数组的风格向量;
结合目标风格损失函数确定所述风格向量的总风格损失值;
将所述总风格损失值与目标风格损失值进行比对,当所述总风格损失值大于所述目标风格损失值时,调整所述预设第一编码模型的模型参数至所述总风格损失值不大于所述目标风格损失值。
3.根据权利要求2所述的摘要生成方法,其特征在于,所述结合目标风格损失函数确定所述风格向量的总风格损失值包括:
根据同一风格的摘要对应的样本数组的风格向量,确定第一风格损失值;
根据不同风格的摘要对应的样本数组的风格向量,确定第二风格损失值;
对所述第一风格损失值和第二风格损失值进行加权求和,得到所述总风格损失值。
4.根据权利要求1所述的摘要生成方法,其特征在于,所述方法还包括训练所述内容提取模型,所述训练所述内容提取模型包括:
获取用于训练的第三样本数据集,所述第三样本数据集包括多个样本文本以及对应每个样本文本的多个摘要,所述多个摘要具有不同的风格;每种风格的摘要与相应的样本文本组成样本数组;
将所述样本数组输入预设第二编码模型中进行内容编码处理,得到对应所述样本数组的内容向量;
结合目标内容损失函数确定所述内容向量的总内容损失值;
将所述总内容损失值与目标内容损失值进行比对,当所述总内容损失值大于所述目标内容损失值时,调整所述预设第二编码模型的模型参数至所述总内容损失值不大于所述目标内容损失值。
5.根据权利要求4所述的摘要生成方法,其特征在于,所述结合目标内容损失函数确定所述内容向量的总内容损失值包括:
根据同一样本文本对应的样本数组的内容向量,确定第一内容损失值;
根据不同样本文本对应的样本数组的内容向量,确定第二内容损失值;
对所述第一内容损失值和第二内容损失值进行加权求和,得到所述总内容损失值。
6.根据权利要求1所述的摘要生成方法,其特征在于,所述基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量包括:
对所述目标文本进行预处理;
将预处理后的目标文本进行词向量转化,得到所述目标文本对应的词向量;
基于摘要模型中的文本编码器对所述词向量进行编码处理,得到对应所述目标文本的内容编码向量。
7.一种摘要生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本;
第一确定模块,用于确定与生成摘要的目标风格相匹配的模板摘要;其中,摘要的风格包括摘要的写作风格,所述写作风格是指撰写中表现出来的写作特色和写作个性;
第一提取模块,用于基于风格提取模型提取所述模板摘要的风格向量;
第一编码模块,用于基于摘要模型中的文本编码器对所述目标文本进行内容编码处理,得到所述目标文本的内容编码向量;
解码模块,用于将所述内容编码向量和风格向量输入所述摘要模型中的文本解码器进行解码处理,得到具有所述目标风格的所述目标文本的摘要;
其中,训练所述摘要模型包括:
获取用于训练的第一样本数据集,所述第一样本数据集包括样本文本以及所述样本文本对应的样本摘要,所述样本摘要包括从所述样本文本对应的多个摘要中选取的不同风格的摘要;
基于内容提取模型提取所述样本摘要的内容向量;
利用所述第一样本数据集以及所述内容向量,对预设神经网络模型进行训练,得到初始摘要模型;所述初始摘要模型包括所述文本编码器和初始解码器;
基于所述风格提取模型提取所述摘要的风格向量;
固定所述文本编码器的参数,利用所述第一样本数据集以及所述风格向量,对所述初始解码器进行训练,得到所述文本解码器。
8.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6中任一项所述的摘要生成方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6中任一项所述的摘要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910531384.2A CN110334334B (zh) | 2019-06-19 | 2019-06-19 | 一种摘要生成方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910531384.2A CN110334334B (zh) | 2019-06-19 | 2019-06-19 | 一种摘要生成方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334334A CN110334334A (zh) | 2019-10-15 |
CN110334334B true CN110334334B (zh) | 2024-05-14 |
Family
ID=68142577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910531384.2A Active CN110334334B (zh) | 2019-06-19 | 2019-06-19 | 一种摘要生成方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334334B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199151A (zh) * | 2019-12-31 | 2020-05-26 | 联想(北京)有限公司 | 数据处理方法、及数据处理装置 |
CN111552800A (zh) * | 2020-03-31 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 摘要生成方法、装置、电子设备及介质 |
CN111723196B (zh) * | 2020-05-21 | 2023-03-24 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
WO2021248435A1 (en) * | 2020-06-12 | 2021-12-16 | Bayer Aktiengesellschaft | Method and apparatus for automatically generating summary document |
CN113762523A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法、装置、存储介质及电子设备 |
CN113449079B (zh) * | 2021-06-25 | 2022-10-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304436A (zh) * | 2017-09-12 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 风格语句的生成方法、模型的训练方法、装置及设备 |
JP2019016181A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社野村総合研究所 | テキスト要約システム |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109635103A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
CN109885811A (zh) * | 2019-01-10 | 2019-06-14 | 平安科技(深圳)有限公司 | 文章风格转换方法、装置、计算机设备及存储介质 |
-
2019
- 2019-06-19 CN CN201910531384.2A patent/CN110334334B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019016181A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社野村総合研究所 | テキスト要約システム |
CN108304436A (zh) * | 2017-09-12 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 风格语句的生成方法、模型的训练方法、装置及设备 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109635103A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
CN109885811A (zh) * | 2019-01-10 | 2019-06-14 | 平安科技(深圳)有限公司 | 文章风格转换方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于文本类别的文本自动摘要模型;谢鸣元;《电脑知识与技术》(第01期);第212-214页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110334334A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334334B (zh) | 一种摘要生成方法、装置及计算机设备 | |
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN110162770B (zh) | 一种词扩展方法、装置、设备及介质 | |
US11416681B2 (en) | Method and apparatus for determining a reply statement to a statement based on a sum of a probability of the reply statement being output in response to the statement and a second probability in which the statement is output in response to the statement and further based on a terminator | |
CN108305296B (zh) | 图像描述生成方法、模型训练方法、设备和存储介质 | |
KR102360659B1 (ko) | 기계번역 방법, 장치, 컴퓨터 기기 및 기억매체 | |
CN110164415B (zh) | 一种基于语音识别的推荐方法、装置及介质 | |
US9355637B2 (en) | Method and apparatus for performing speech keyword retrieval | |
CN111816159B (zh) | 一种语种识别方法以及相关装置 | |
JP2017514204A (ja) | 連絡先グルーピング方法および装置 | |
CN111539212A (zh) | 文本信息处理方法、装置、存储介质及电子设备 | |
CN110852109A (zh) | 语料生成方法、语料生成装置、和存储介质 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN108549681B (zh) | 数据处理方法和装置、电子设备、计算机可读存储介质 | |
CN110781274A (zh) | 一种问答对生成的方法与装置 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN110390102B (zh) | 一种情感分析的方法和相关装置 | |
CN110597973B (zh) | 一种人机对话的方法、装置、终端设备和可读存储介质 | |
CN115981798A (zh) | 文件解析方法、装置、计算机设备及可读存储介质 | |
CN111723783B (zh) | 一种内容识别方法和相关装置 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN115831120B (zh) | 语料数据采集方法、装置、电子设备及可读存储介质 | |
CN115268664B (zh) | 一种纠错词展示的控制方法、装置、设备以及存储介质 | |
US20220262359A1 (en) | Electronic device and operation method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |