CN111666402A

CN111666402A - 文本摘要生成方法、装置、计算机设备及可读存储介质

Info

Publication number: CN111666402A
Application number: CN202010367822.9A
Authority: CN
Inventors: 郑立颖; 徐亮; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-15
Anticipated expiration: 2040-04-30
Also published as: WO2021217987A1; CN111666402B

Abstract

本发明涉及人工智能，公开了文本摘要生成方法、装置、计算机设备和可读存储介质，方法部分包括：获取待处理的文本信息，将文本信息转化为词向量；通过集束搜索算法，将词向量输入预训好的预设神经网络模型，以得到文本信息的候选摘要集合以及候选摘要集合中各候选摘要的对数似然概率值；获取候选摘要集合中各候选摘要的目标冗余性分值；根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值；从各候选摘要中选取参考分值大于预设参考分值的摘要作为文本信息对应的摘要。此外，本发明还涉及区块链技术，参考分值可存储于区块链中。本发明提出的文本摘要方法可以优化自动生成摘要的冗余词，从而提高自动生成文本摘要的可读性。

Description

文本摘要生成方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及人工智能自然语言处理的技术领域，尤其涉及一种文本摘要生成方法、装置、计算机设备及可读存储介质。

背景技术

随着文本信息爆发式的增长，每天都会有海量的文本信息产生，其中包括但不局限于互联网新闻、博客、报告和论文等。摘要是能够反映文本信息的一段文本，从大量的文本信息中提取需要的内容，不仅能够帮助人们在阅读长篇的文章时缩短阅读时间，还能使人们大幅地提高对信息阅读效率，从而使人们可以更加高效地利用信息来生活和工作。基于上述的需求，自动文本摘要生成技术是知识管理系统核心功能之一，近年来得到了迅速的发展；而且自动文本摘要有非常多的应用场景，例如报告自动生成、新闻标题生成、搜索结果预览等。

目前的自动文本摘要生成的方法主要分为两类，抽取式摘要和生成式摘要。抽取式摘要主要是从原文中抽取重要的句子，结合句子数量及字数要求等拼凑形成摘要，常用的方法有textrank及其延伸算法，其好处在于可以直接从文中抽取句子，一般句子的通顺度会更好，但概括性较差。而生成式摘要是根据原文内容进行提炼总结形成一段新的汇总文字，更接近人进行摘要的过程，但生成式摘要必须要采用Seq2Seq模型并依赖于标注数据进行模型训练，一般的难度较大，当训练数据量较小，模型训练不充分的话得到的摘要不符合预期，例如会导致冗余词的出现，则会影响自动生成摘要可读性。

发明内容

本发明所要解决的技术问题在于，针对现有技术中自动生成的摘要文本容易出现的冗余词而影响摘要文本可读性的问题，提供一种文本摘要生成方法、装置、计算机设备及可读存储介质，可以降低自动生成文本摘要出现重复性较多词的概率，提高自动生成文本摘要的可读性。

本发明第一方面提供一种文本摘要生成方法，所述方法包括：

获取待处理的文本信息；

将所述文本信息转化为词向量；

通过集束搜索算法，将所述词向量输入预先训练好的预设神经网络模型，以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值；

获取所述候选摘要集合中各候选摘要的目标冗余性分值，所述目标冗余性分值表示所述候选摘要中的词的冗余程度；

根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值；

从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。

可选地，所述获取所述候选摘要集合中各候选摘要的目标冗余性分值，包括：

针对所述各候选摘要的词，分别计算每个词与其他剩余词的相似度，并选取相似度大于预设值的数量，统计得到各候选摘要的相似词的总个数m；

针对所述各候选摘要，将所述候选摘要对应的总个数m除以n*(n-1)，并进行归一化处理，以得到所述各候选摘要的第一冗余性分值，其中，n表示所述候选摘要的词的总数量；

将各所述各候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。

针对所述各候选摘要，分别获取其中相同字符的长度；

针对所述各候选摘要中的相同字符，分别获取所述相同字符对应的第一句子的长度和第二句子的长度；

根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度，对应获取所述各候选摘要的第二冗余性分值；

将各所述各候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。

采用Bert模型对所述各候选摘要进行编码，得到各候选摘要的句子向量；

根据所述各候选摘要的句子向量，获取所述各候选摘要中任意两个句子向量的相似度，得到所述各候选摘要的第三冗余性分值；

将各所述各候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。

可选地，所述根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值，包括：

针对各候选摘要，分别获取其中各候选摘要对应的权重系数；

确定所述各候选摘要对应的权重系数与所述目标冗余性分值的乘积；

将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值，以得到各候选摘要的参考分值，所述参考分值存储于区块链中。

本发明第二方面提供一种文本摘要生成装置，所述装置包括：

第一获取模块，用于获取待处理的文本信息；

转化模块，用于将所述文本信息转化为词向量；

训练模块，用于通过集束搜索算法，将所述词向量输入预先训练好的预设神经网络模型，以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值；

第二获取模块，用于获取所述候选摘要集合中各候选摘要的目标冗余性分值，所述目标冗余性分值表示所述候选摘要中的词的冗余程度；

第三获取模块，用于根据各候选摘要的所述目标冗余性分值和对数似然概率值获取所述各候选摘要的参考分值；

摘要选取模块，用于从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。

可选地，所述第二获取模块还用于：

针对所述各候选摘要，将所述候选摘要对应的总个数m除以n*(n-1)，并进行归一化处理，得到所述各候选摘要的第一冗余性分值，其中，n表示所述候选摘要的词的总数量；

将各所述候选摘要的第一冗余性分值对应作为各所述候选摘要的目标冗余性分值。

可选地，所述第二获取模块还用于：

针对所述各候选摘要，分别获取其中相同字符的长度；

将所述各候选摘要的第二冗余性分值作为各候选摘要的所述目标冗余性分值。

本发明第三方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如本发明第一方面所述的文本摘要生成方法。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本发明第一方面所述的文本摘要生成方法。

本发明提供一种文本摘要生成方法、装置、计算机设备及存储介质中，其中，通过获取基于文本信息的候选摘要集合和候选摘要集合中各候选摘要的对数似然概率值，并获取候选摘要集合中各候选摘要的目标冗余性分值，则可以根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值，并从各候选摘要中选取参考分值大于预设参考分值的摘要作为该文本信息对应的摘要。该实施例中，通过计算和获取词的冗余度，可以减少重复词汇多次出现的概率，则可以增强自动生成摘要的可信度，从而提高自动生成摘要的可读性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文本摘要生成方法的一流程示意图；

图2是本发明一实施例中获取第一冗余性分值的一流程示意图；

图3是本发明一实施例中获取第二冗余性分值的一流程示意图；

图4是本发明一实施例中获取第三冗余性分值的一流程示意图；

图5是本发明一实施例中获取各候选摘要参考分值的一流程示意图；

图6是本发明一实施例中获取各候选摘要参考分值的另一流程示意图；

图7是本发明一实施例中文本摘要生成装置的一架构示意图；

图8是本发明一实施例中计算机设备的一架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文本摘要生成方法，具体地，如图1所示，可以包括如下步骤：

S10：获取待处理的文本信息。

在一个实施例中，可以对需要进行摘要总结的场景进行相应的文本信息收集，其中的文本信息可以包括但不局限于例如互联网新闻、博客、报告和论文等相关的文本信息。示例性地，文本信息可以是涉及新闻，或者可以是博客相关的文本信息等，或者可以是新闻和博客组合的文本信息等。获取待处理的文本信息，具体可以获取大量的新闻、博客等文本信息。

S20：将所述文本信息转化为词向量。

在一个实施例中，将当前获取的待处理的文本信息转化为词向量。具体可以采用Word2Vec方式将所述待处理的文本信息转化为词向量。该实施例中，通过Word2Vec方式将获取的待处理的文本信息转化为词向量的形式，当然还可以通过其他的方式例如One-Hot将待处理的文本信息转化为词向量的形式，此处并不限定。

另外，还可以根据语料级别选择对应的词向量。示例性地，如果语料量级较大可以自行训练词向量，例如通过直接调用GenSim库中的Word2Vec函数进行训练；如果语料量级不够大则可以使用现有的词向量结果文件，例如获取基于网上公开语料训练好的词向量数据，具体可以根据实际场景的贴合程度选择对应的词向量。

S30：通过集束搜索算法，将所述词向量输入预先训练好的预设神经网络模型，以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值。

在一个实施例中，基于人工智能领域的神经网络和深度学习等技术，预设神经网络模型为带有注意力机制的Seq2Seq模型，具体地，可以先搭建Seq2Seq模型结构，该Seq2Seq模型可以包括encoder编码器以及decoder解码器两个部分，具体可以由循环神经卷积RNN(Recurrent neural network)结构或者长短期记忆LSTM(Long Short-TermMemory)结构组成，通过embedding嵌入方式将转化的词向量输入预先训练好的预设神经网络模型，其中的训练目标可以为最大似然估计MLE(maximum likelihood estimation)。根据集束搜索算法Beam Search，可以得到基于文本信息的候选摘要集合，也即，可以理解，基于引入了集束搜索算法Beam Search，通过Seq2Seq模型可以解码输出候选摘要集合，则可以获取其中各候选摘要的对数似然概率值logP。

该实施例中，通过引入集束搜索算法Beam Search，该Beam Search算法是一种启发式的搜索算法，通常用在数据集比较大的情况，可以剔除质量比较差的结点，筛选出质量较高的结点，其作用主要在于减少搜索所占用的空间和时间，通过Beam Search算法可以获取基于文本信息的候选摘要集合。

基于对获取候选摘要集合数据量的考量，在一个实施例中，基于上述步骤S30获取的候选摘要集合，可以将获取候选摘要集合对应的概率进行排序，并选取其中概率排名topk的k条摘要作为候选摘要集合，例如选择其中的top10的10条候选摘要集合，具体地，可以根据实际进行设置，此处并不限定。另外，基于将最大似然估计MLE作为Seq2Seq模型训练目标的优化方法，其核心在于实现获取出现概率最大的候选摘要集合，则可以提高获取候选摘要集合的准确度。

S40：获取所述候选摘要集合中各候选摘要的目标冗余性分值，所述目标冗余性分值表示所述候选摘要中的词的冗余程度。

基于获取的候选摘要集合，可以获取候选摘要集合中各候选摘要的目标冗余性分值，目标冗余性分值体可以表示候选摘要中的词的冗余程度。

在一个实施例中，各候选摘要的目标冗余性分值可以通过步骤S41A-S43A获取，具体地，如图2所示，可以包括：

S41A：针对所述各候选摘要的词，分别计算每个词与其他剩余词的相似度，并选取相似度大于预设值的数量，统计得到各候选摘要的相似词的总个数m。

在一个实施例中，假设候选摘要集合中包括n个词，针对各候选摘要的词，可以分别计算各候选摘要中每个词与其他剩余词的相似度。具体地，可以分别计算每n个词与其他n-1个剩余词的余弦相似度，示例性地，例如针对第一个词，可以计算第一个词与剩余其他词的相似度得分，可以得到n-1个相似度得分，并统计其中相似度得分大于预设值的数量m1；针对第二个词，可以计算第二个词与剩余其他词的相似度得分，可以得到n-1个相似度得分，并统计其中相似度得分大于预设值的数量m2......；则针对第n个词，可以计算第n个词与剩余其他词的相似度得分，可以得到n-1个相似度得分，并统计其中相似度得分大于预设值的数量mn；则重复计算每n个词与其他n-1个剩余词的余弦相似度n次，并选取相似度大于预设值的数量，可以得到各候选摘要的相似词的总个数m，其中m＝m1+m2+...+mn。其中，针对每一个词，获取相似度得分大于预设得分的数量，在一实施例中，相似度得分的预设值预设为0.9，示例性地，例如针对第一个词，则可统计并获取其中相似度得分大于预设得分0.9的相似度得分的个数为m1，也即可以得到针对第一个词的相似词的个数m1；则针对第二个词对应可得到m2，针对第n个词对应可得到mn。需要说明的是，此处的预设值仅用于举例，并不表示限定，还可以设置其他的预设值。

S42A：针对所述各候选摘要，将所述候选摘要对应的总个数m除以n*(n-1)，并进行归一化处理，得到所述各候选摘要的第一冗余性分值，其中，n表示所述候选摘要的词的总数量。

该实施例中，针对各候选摘要，将所述候选摘要对应的总个数m除以n*(n-1)，具体地，可以通过公式

进行表示，并将

进行归一化处理，则可以得到各候选摘要的第一冗余性分值score_dup1。

S43A：将各所述各候选摘要的第一冗余性分值对应作为所述各候选摘要的目标冗余性分值。

在一个实施例中，可以将各候选摘要的第一冗余性分值对应作为各候选摘要的目标冗余性分值。

在一个实施例中，各候选摘要的目标冗余性分值可以还可以通过步骤S41B-S44B获取，具体地，如图3所示，可以包括：

S41B：针对所述各候选摘要，分别获取其中相同字符的长度。

在一个实施例中，针对各候选摘要的每个句子，分别确定并获取各候选摘要中的每个句子其中的相同字符的长度length_相同字符。

该实施例中，可以理解，基于获取的候选摘要集合，该候选摘要集合可以包括多条候选摘要，各候选摘要中可以包括多个句子，针对各候选摘要中的每个句子，分别可以统计并获取各候选摘要中的每个句子其中的相同字符的长度length_相同字符。

S42B：针对所述各候选摘要中的相同字符，分别获取所述相同字符对应的第一句子的长度和第二句子的长度。

在一个实施例中，针对各候选摘要中的相同字符，分别获取相同字符对应的第一句子的长度length_句子1和第二句子的长度length_句子2，示例性地，假设其中一条候选摘要中的句子1和句子2有相同字符，则可以分别获取该相同字符对应句子1的长度length_句子1和句子2的长度length_句子2。

S43B：根据所述各候选摘要的相同字符的长度、以及所述第一句子的长度和第二句子的长度，对应获取所述各候选摘要的第二冗余性分值。

在一个实施例中，根据相同字符的长度length_相同字符、以及第一句子的长度length_句子1和第二句子的长度length_句子2，可以获取各候选摘要的第二冗余性分值score2，将各候选摘要的第二冗余性分值作为各候选摘要的目标冗余性分值。具体地，目标冗余性分值则可以通过以下公式表示：

其中，length_相同字符表示各候选摘要中相同字符的长度，length_句子1表示相同字符对应第一句子的长度，length_句子2表示相同字符对应的第二句子的长度。

S44B：将各所述各候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。

该实例中，基于候选摘要中的字符相似原则，通过确定相同字符的长度以及相同字符对应句子的长度，针对各字符相似度的计算可以获取候选摘要集合的第二冗余性分值score_dup2，并将各候选摘要的第二冗余性分值对应作为各候选摘要的目标冗余性分值。

在一个实施例中，各候选摘要的目标冗余性分值还可以通过步骤S41C-S43C获取，具体地，如图4所示，可以包括：

S41C：采用Bert模型对所述各候选摘要进行编码，得到各候选摘要的句子向量。

在一个实施例中，采用Bert(Bidirectional Encoder Representations fromTransformers)模型对候选摘要集合中的各候选摘要进行编码，可以得到各候选摘要的句子向量。

S42C：根据所述各候选摘要的句子向量，获取所述各候选摘要中任意两个句子向量的相似度，得到所述各候选摘要的第三冗余性分值。

在一个实施例中，可以理解，基于获取到各候选摘要的句子向量，可以计算任意两个句子向量的余弦相似度，将任意两个句子向量的余弦相似度的计算结果作为第三冗余性分值，则可以得到各候选摘要的第三冗余性分值。

S43C：将各所述各候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。

在一个实施例中，根据各候选摘要的句子向量，获取各候选摘要中任意两个句子向量的相似度，可以得到各候选摘要的第三冗余性分值score_dup3，并将各候选摘要的第三冗余性分值作为各候选摘要的目标冗余性分值，则可根据第三冗余性分值score_dup3得到第目标冗余性分值。该实施例中，基于获取的各候选摘要，在采用Bert模型对各候选摘要进行编码，可以得到各候选摘要的句子向量，并根据句子向量获取各候选摘要中任意两个句子向量的相似度，具体可通过余弦相似度的公式计算，则可以得出各候选摘要的第三冗余性分值score_dup3。其中，获取两个句子向量的相似度分值越高，则说明两个句子相似度越高，为避免累赘，此处不展开描述。

S50：根据各候选摘要的所述目标冗余性分值和所述对数似然概率值获取所述各候选摘要的参考分值。

在一实施例中，步骤S50，也即根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值，具体地，如图5所示，可以包括：

S51A：针对各候选摘要，分别获取各候选摘要对应的权重系数。

在一个实施例中，针对各候选摘要，分别获取各候选摘要对应的权重系数，该权重系数可以设置0-1之间的数值，可以根据实际情况进行配置。示例性，例如基于获取摘要集合中的top3条摘要，可以根据排名不同设置不同的权重系数，示例性地，例如将排名top1摘要的权重系数设为0.5，排名top2摘要的权重系数设为0.3，排名top3摘要的权重系数设为0.2，需要说明的是，此处仅用于举例，并不限定。

S52A：确定所述各候选摘要对应的权重系数与所述目标冗余性分值的乘积。

在一个实施例中，确定各候选摘要对应的权重系数与目标冗余性分值的乘积，具体地，该乘积可以通过公式α*score_dup表示。

S53A：将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值，以得到各候选摘要的参考分值，该参考分值存储于区块链中。

将各候选摘要的对数似然概率值与乘积的差值作为各候选摘要的参考分值，则可以得到各候选摘要的参考分值。在一个实施例中，具体地，参考分值可以通过公式：logP-α*score_dup表示，其中，α表示权重系数，该权重系数可以设置为0-1之间的值，具体可以根据实际情况确定相应的权重系数，此处并不限定；score_dup表示目标冗余性分值。可见，本实施例中获取各候选摘要的参考分值可以通过公式：logP-α*score_dup进行计算和获取，也即可根据获取的目标冗余性分值和对数似然概率值，并通过公式logP-α*score_dup可以得到参考分值，则可以根据该参考分值的进行参考，实现获取目标候选摘要。上述的实施例中，可以理解，基于上述步骤S41A-S43A，步骤S41B-S44B以及步骤S41C-S43C中，分别可以获取第一冗余性分值，第二冗余性分值和第三冗余性分值，并将第一冗余性分值，第二冗余性分值和第三冗余性分值分别作为目标冗余性分值，如此，可以得到不同的目标冗余性分值，也即第一冗余性分值score_dup1，第二冗余性分值score_dup2和第三冗余性分值score_dup3，则基于参考分值公式logP-α*score_dup，可以获取不同的参考分值logP-α*score_dup1、logP-α*score_dup2和logP-α*score_dup3。此外，本发明还涉及了区块链技术，在一个实施例中，具体地，基于上述参考分值公式logP-α*score_dup获取不同的参考分值，该参考分值还可以存储于区块链中。其中，区块链技术是一种可以不依赖第三方，通过自身分布式节点进行网络数据的存储、验证、传递和交流的技术，具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特点，该实施例中，可以理解，通过将参考分值存储于区块链中，可以实现提高该参考分值的私密性以及安全性。

在一个实施例中，根据不同的目标冗余性分值获取不同的参考分值。具体地，还可以对不同的目标冗余性分值设置不同的权重系数进行优化，以使得到的参考分值更加接近合理和真实。需要强调的是，为进一步保证上述参考分值的私密和安全性，上述参考分值还可以存储于一区块链的节点中。在一个实施例中，步骤S50，也即根据各候选摘要的冗余性数值和对数似然概率值获取各候选摘要的参考分值，其中各候选摘要的参考分值还可以通过步骤S51B-S53B进行获取，具体地，如图6所示，包括：

S51B：针对所述各候选摘要中的第一冗余性分值、所述第二冗余性分值和第三冗余性分值，分别获取各候选摘要中对应的第一权重系数、第二权重系数和第三权重系数。

在一个实施例中，针对各候选摘要中第一冗余性分值score_dup1、第二冗余性分值score_dup2和第三冗余性分值score_dup3，分别获取各候选摘要中对应的第一权重系数α₁、第二权重系数α₂和第三权重系数α₃。具体地，分别确定和获取各候选摘要中第一冗余性分值对应的第一权重系数、各候选摘要中第二冗余性分值对应的第二权重系数和各候选摘要中第三冗余性分值对应的第三权重系数系数。

S52B：并分别确定各候选摘要的第一冗余性分值与第一权重系数的第一乘积、所述第二权重系数与第二冗余性分值的第二乘积，和所述第三权重系数与第三冗余性分值的第三乘积。

在一个实施例中，分别确定各候选摘要的第一冗余性分值与第一权重系数的第一乘积、第二权重系数与第二冗余性分值的第二乘积，和第三权重系数与第三冗余性分值的第三乘积。具体地，第一乘积可以通过公式α1*score_dup1表示，第二乘积可以通过公式α2*score_dup2表示，第三乘积可以通过公式α3*score_dup3表示。

S53B：将各候选摘要的对数似然概率值与所述第一乘积、第二乘积和第三乘积的差值作为各候选摘要的参考分值，以得到各候选摘要的参考分值。

在一个实施例中，将各候选摘要的对数似然概率值与所述第一乘积、第二乘积和第三乘积的差值作为各候选摘要的参考分值，则可以得到各候选摘要的参考分值。具体可以通过以下公式：

参考分值＝logP-α₁*score_dup1-α₂*score_dup2-α₃*score_dup3；

其中，α₁表示第一权重系数、α₂表示第二权重系数、α₃表示第三权重系数，score_dup1表示第一冗余性分值、score_dup2表示第二冗余性分值、score_dup3表示第三冗余性分值。

该实施例中，可以理解，针对不同的目标冗余性分值设置不同的权重系数，可以使获取的参考分值更加合理和准确。

S60：从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。

基于获取各候选摘要的参考分值score，则可以根据参考分值选取大于预设分值的摘要作为文本信息对应的摘要。在一个应用场景中，例如在获取各候选摘要的多个参考分值后，可以将该多个参考分值进行排序，并预设一个参考分值，例如参考分值预设为0.9，则可以选择将获取的参考分值大于0.9对应的摘要作为文本信息对应的摘要，当然还可以预设其他的数字例如0.95、0.85等，此处仅用于举例，并不限定。

上述的实施例中，通过获取基于文本信息的候选摘要集合和候选摘要集合中各候选摘要的对数似然概率值，并获取候选摘要集合中各候选摘要的目标冗余性分值，则可以根据各候选摘要的目标冗余性分值和对数似然概率值获取各候选摘要的参考分值，并从各候选摘要中选取参考分值大于预设参考分值的摘要作为该文本信息对应的摘要。可以理解，上述实施例的一种文本摘要的生成方法，相比于传统的Seq2Seq模型结构，增加了多种获取冗余性分值的运算方式，可以实现对自动生成摘要的结果进行优化，并针对不同方式获取的冗余性分值配置不同的权重系数，则可使得获取的候选摘要集合中出现重复性较多的词得分降低，即重复性较多的词被选择的概率降低，从而使得获取的目标候选摘要中出现较多重复词的可能性降低，从而提高自动生成摘要的可信度和可读性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一个实施例中，提供一种文本摘要生成装置，实现功能与上述实施例中文本摘要生成方法对应的步骤一一对应。具体地，如图7所示，该文本摘要生成装置包括第一获取模块10、转化模块20、训练模块30、第二获取模块40、第三获取模块50和摘要选取模块60。各功能模块详细说明如下：

第一获取模块10，用于获取待处理的文本信息；

转化模块20，用于将所述文本信息转化为词向量；

训练模块30，用于通过集束搜索算法，将所述词向量输入预先训练好的预设神经网络模型，以得到所述文本信息的候选摘要集合以及所述候选摘要集合中各候选摘要的对数似然概率值；

第二获取模块40，用于获取所述候选摘要集合中各候选摘要的目标冗余性分值，所述目标冗余性分值表示所述候选摘要中的词的冗余程度；

第三获取模块50，用于根据各候选摘要的所述目标冗余性分值和对数似然概率值获取所述各候选摘要的参考分值；

摘要选取模块60，用于从所述各候选摘要中选取参考分值大于预设参考分值的摘要作为所述文本信息对应的摘要。

优选地，第二获取模块40还用于：

针对所述各候选摘要，分别计算每个词与剩余词的相似度，并选取相似度大于预设值的数量，得到各候选摘要的相似词的总个数m；

优选地，第二获取模块40还用于：

针对所述各候选摘要，分别获取其中相同字符的长度；

将各所述候选摘要的第二冗余性分值对应作为各所述候选摘要的目标冗余性分值。

优选地，第二获取模块40还用于：

将各所述候选摘要的第三冗余性分值对应作为各所述候选摘要的目标冗余性分值。

优选地，所示第三获取模块50还用于：

将各候选摘要的对数似然概率值与所述乘积的差值作为各候选摘要的参考分值，以得到各候选摘要的参考分值。

关于文本摘要生成装置的具体限定可以参见上文中对于文本摘要生成方法的限定，在此不再赘述。上述文本摘要生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例文本摘要生成方法，例如图1所示的步骤S10-S60或者图2所示的步骤S41A-S43A，图3所示步骤S41B-S44B、图4所示步骤S41C-S43C以及图5所示的步骤S51A-S53A或者图6所示的步骤S51B-S53B等。为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中文本摘要生成装置中各模块的功能，例如图7所示的第一获取模块10、转化模块20、训练模块30、第二获取模块40、第三获取模块50和摘要选取模块60等模块的功能，为避免重复，这里不再赘述。可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号和电信信号等。

在一个实施例中，如图8所示，提供一种计算机设备。具体地，该实施例的计算机设备60包括：处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63。处理器61执行计算机程序63时实现上述实施例文本摘要生成方法，例如图1所示的步骤S10-S60或者图2所示的步骤S41A-S43A，图3所示步骤S41B-S44B、图4所示步骤S41C-S43C以及图5所示的步骤S51A-S53A或者图6所示的步骤S51B-S53B等等。或者，处理器61执行计算机程序63时实现上述实施例文本摘要生成装置中各模块的功能，例如图7所示的第一获取模块10、转化模块20、训练模块30、第二获取模块40、第三获取模块50和摘要选取模块60等模块的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SynchlinK)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、子模块和单元完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文本摘要生成方法，其特征在于，所述方法包括：

获取待处理的文本信息，将所述文本信息转化为词向量；

2.如权利要求1所述的一种文本摘要生成方法，其特征在于，所述获取所述候选摘要集合中各候选摘要的目标冗余性分值，包括：

将所述候选摘要对应的总个数m除以n*(n-1)，并进行归一化处理，以得到所述各候选摘要的第一冗余性分值，其中，n表示所述候选摘要的词的总数量；

3.如权利要求1所述的一种文本摘要生成方法，其特征在于，所述获取所述候选摘要集合中各候选摘要的目标冗余性分值，包括：

针对所述各候选摘要，分别获取其中相同字符的长度；

4.如权利要求1所述的一种文本摘要生成方法，其特征在于，所述获取所述候选摘要集合中各候选摘要的目标冗余性分值，包括：

5.如权利要求1-4任一项所述的一种文本摘要生成方法，其特征在于，所述根据各候选摘要的所述对数似然概率值和所述目标冗余性分值获取所述各候选摘要的参考分值，包括：

6.一种文本摘要生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理的文本信息；

转化模块，用于将所述文本信息转化为词向量；

7.如权利要求6所述的一种文本摘要生成装置，其特征在于，所述第二获取模块还用于：

8.如权利要求6所述的一种文本摘要生成装置，其特征在于，所述第二获取模块还用于：

针对所述各候选摘要，分别获取其中相同字符的长度；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的文本摘要生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的文本摘要生成方法。