CN109815336A

CN109815336A - 一种文本聚合方法及系统

Info

Publication number: CN109815336A
Application number: CN201910079927.1A
Authority: CN
Inventors: 夏静; 姬成龙; 吴东野; 冯大辉
Original assignee: No Code Technology (hangzhou) Co Ltd
Current assignee: No Code Technology (hangzhou) Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-28
Anticipated expiration: 2039-01-28
Also published as: CN109815336B

Abstract

本发明提供了一种文本聚合方法及系统，用于对长文本和短文本进行聚合，所述方法包括步骤：对长文本进行聚类，获得长文本对应的话题，所述长文本中包含有标题；建立分类模型，并获取长文本的摘要以及实体集合；利用所述话题、标题、摘要以及实体集合，建立第一映射集和第二映射集；利用所述第一映射集和第二映射集训练所述分类模型，得到训练后的分类模型；获取待测长文本的摘要，利用所述待测长文本的摘要和待测短文本建立第三映射集，利用所述第三映射集和所述训练后的分类模型，获得文本聚合结果；所述方法及系统利用长文本和短文本的实体特征，筛选出与长文本包含相同实体的短文本，降低了计算复杂度，保证了文本聚合效率。

Description

一种文本聚合方法及系统

技术领域

本发明涉及文本聚类技术领域，更具体地，涉及一种文本聚合方法及系统。

背景技术

实际生活中的资讯来源非常多元，包括专业的媒体网站、自媒体平台以及社交媒体等，将语义相关的多篇资讯和短评整合在一起成为了一种发展趋势。比如在展示搜索结果以及呈现新闻信息等场景中，大多是以主题而不是单篇文本的形式进行展示，这样可以实现整合多个新闻源，减少信息冗余，从而给用户提供更加丰富的信息。

在整合资讯和短评的过程中，即整合长文本和短文本的过程中，一般需要使用聚类算法。聚类算法可以聚合生成新闻中蕴含的主题，聚类算法通常只运用在长文本中，而在短文本上使用时效果通常不太理想，因为长本文词汇相对较多，可以提供一个稳定丰富的长文本特征表达；而短文本词汇较少，上下文信息缺失，难以形成有价值的聚类。对于短文本整合，通用的方法是使用分类算法，但分类算法需要人工预设主题类型，但由于自然语言数据的多维度性，所以很容易出现短文本内容和预设类型不完全匹配的问题。于是，如何设计一种对长文本和短文本实现有效聚合的方法，是目前面临的一个主要问题。

发明内容

本发明的目的在于提供一种文本聚合方法及系统，用于对长文本和短文本进行聚合，解决现有的文本聚合方法存在的上述问题。

为实现上述目的，本发明提供了一种文本聚合方法，用于对长文本和短文本进行聚合，包括以下步骤：

对长文本进行聚类，获得长文本对应的话题，所述长文本中包含有标题；

建立分类模型，并获取长文本摘要，以及所述长文本摘要对应的实体集合；

利用所述话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集；

利用所述第一映射集和第二映射集训练所述分类模型，得到训练后的分类模型；

获取待测长文本摘要，利用所述待测长文本摘要和待测短文本建立第三映射集，利用所述第三映射集和所述训练后的分类模型，获得文本聚合结果。

优选地，所述文本聚合方法利用Single-Pass算法对长文本进行聚类，获得长文本对应的话题。

优选地，所述文本聚合方法利用TextTeaser算法对长文本生成长文本摘要，以及利用命名实体识别算法获取长文本摘要对应的实体集合。

优选地，利用所述话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集，具体为：

将属于相同话题的长文本摘要和标题，随机一一匹配后组合得到第一映射集；

将属于不同话题的，且包含相同实体的长文本摘要和标题进行随机一一匹配，然后组合得到第二映射集。

优选地，所述利用所述待测长文本摘要和待测短文本建立第三映射集，具体为：

利用命名实体识别算法对待测长文本摘要和待测短文本进行处理，获得待测长文本摘要和待测短文本各自对应的实体集合；

根据所述待测长文本摘要和待测短文本各自对应的实体集合，获得包含有相同实体的待测长文本摘要集合和待测短文本集合；

对所述待测长文本摘要集合中的待测长文本摘要和待测短文本集合中的待测短文本分别进行预处理；

依据待测长文本摘要对应的实体集合和待测短文本对应的实体集合中包含的相同实体，对所述预处理后的待测长文本摘要和待测短文本进行一对一映射，映射完成后组合得到第三映射集。

本发明还提供了一种文本聚合系统，用于对长文本和短文本进行聚合，所述系统包括：

话题生成模块，用于对长文本进行聚类，获得长文本对应的话题，所述长文本中包含有标题；

分类模型建立模块，用于建立分类模型，并获取长文本摘要，以及所述长文本摘要对应的实体集合；

映射集建立模块，用于利用所述话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集；

模型训练模块，用于利用所述第一映射集和第二映射集训练所述分类模型，得到训练后的分类模型；

文本聚合模块，用于获取待测长文本摘要，利用所述待测长文本摘要和待测短文本建立第三映射集，利用所述第三映射集和所述训练后的分类模型，获得文本聚合结果。

优选地，所述话题生成模块利用Single-Pass算法对长文本进行聚类，获得长文本对应的话题。

优选地，所述分类模型建立模块利用TextTeaser算法对长文本生成长文本摘要，以及利用命名实体识别算法获取长文本摘要对应的实体集合。

优选地，所述映射集建立模块包括：

第一映射集建立单元，用于将属于相同话题的长文本摘要和标题，随机一一匹配后组合得到第一映射集；

第二映射集建立单元，用于将属于不同话题的，且包含相同实体的长文本摘要和标题进行随机一一匹配，然后组合得到第二映射集。

优选地，所述文本聚合模块包括：

实体生成单元，用于获取待测长文本摘要，利用命名实体识别算法对待测长文本摘要和待测短文本进行处理，获得待测长文本摘要和待测短文本各自对应的实体集合；

短文本筛选单元，用于根据所述待测长文本摘要和待测短文本各自对应的实体集合，获得包含有相同实体的待测长文本摘要集合和待测短文本集合；

文本预处理单元，用于对所述待测长文本摘要集合中的待测长文本摘要和待测短文本集合中的待测短文本分别进行预处理；

第三映射集建立单元，用于依据待测长文本摘要对应的实体集合和待测短文本对应的实体集合中包含的相同实体，对所述预处理后的待测长文本摘要和待测短文本进行一对一映射，映射完成后组合得到第三映射集。

本发明与现有技术相比，具有以下优点及突出性效果：

本发明提供的一种文本聚合方法及系统将短文本聚类问题转换为有监督的分类问题，避免了对短文本使用无监督聚类效果不佳，以及对短文本利用分类算法进行分类时需要预设类别标签的问题，该文本聚合方法及系统从长文本中提取摘要，得到了大量低成本的模型训练数据；利用长文本聚合的稳定性和分类模型的准确性，保证了长文本和短文本的聚合效果；并利用长文本和短文本的实体特征，筛选出与长文本包含相同实体的短文本，降低了计算复杂度，保证了文本聚合效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一公开的一种文本聚合方法的流程示意图；

图2为本发明实施例二公开的一种文本聚合系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下集合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例一公开了一种文本聚合方法，用于对长文本和短文本进行聚合，包括以下步骤：

S101，对长文本进行聚类，获得长文本对应的话题；该长文本中包含有标题。具体来说，先利用TF-IDF算法对长文本进行处理，得到长文本的特征词，然后将特征词进行向量化，得到长文本的特征向量表示，再利用Single-Pass算法根据特征向量的相似度对长文本中的相似文本进行聚类，具体来说，在聚类之前先利用余弦相似度算法计算特征向量之间的相似度，当相似度大于预设阈值时，则判定特征向量对应的长文本为相似文本，然后利用Single-Pass算法将相似文本归为一个簇。具体实施时，至少有3个长文本判定为相似文本时，才能归为一个簇，簇心向量表示为该簇内所有文本向量表示的算术均值。其中，利用余弦相似度算法计算特征向量之间的相似度时采用的计算方式表示如公式(1)所示：

其中，doc₁和doc₂分别表示进行相似度比较的两条长文本对应的特征向量，‖doc₁‖和‖doc₂‖分别表示特征向量doc₁和doc₂的长度，此时簇心向量即centroid(doc₁,doc₂)的计算方法为该簇心的两个向量的算术平均值，如公式(2)所示：

当有第三个文本需要聚类时，就将doc₁和doc₂对应的簇心向量，与第三个文本对应的特征向量比较，若doc₁和doc₂对应的簇心向量，与第三个文本对应的特征向量之间的相似度小于预设阈值，那么将第三个文本归入当前话题，否则，将第三个文本以特征向量的表示形式保存在内存中。

当一个话题下存在三篇长文本时，那么就表示该话题的簇心向量处于稳定状态，即形成了一个稳定的聚类；此时再输入新的长文本时，在判断当前长文本与已有簇的相似性时，本实施例引入了衰减系数，具体计算方式表示如公式(3)所示：

其中，λ表示衰减系数，doc_i表示当前长文本的特征向量，centroid表示当前簇心向量，‖doc_i‖和‖centroid‖分别表示向量doc_i和centroid的长度。

并且，在当前长文本归入到已有簇之后，已有簇的簇心也要进行更新，即根据衰减系数进行加权平均，新簇心的具体计算方式如公式(4)所示：

new centroid表示更新之后的新簇心，这样对所有的长文本进行聚类之后，获得多个话题。

S102，建立分类模型，并获取长文本摘要，以及长文本摘要对应的实体集合。具体来说，本实施例基于Bert fine-tuning算法建立的分类模型，该分类模型的建立包括两个步骤，第一步是通过对自然语言中的词随机遮盖得到大量标注语料，再让这些语料利用Transformer模型训练，从而得到完成预训练的语言表示。第二步是基于完成预训练的语言表示，针对本实施例中的分类任务，进行调优，即通过设置各个参数，使模型的调优效果达到最好。

这样就将一个传统无监督的，通常效果不好的长文本和短本文聚类问题转换为了一个分类问题，保证了长文本和短文本的聚合效果。

本实施例利用TextTeaser算法生成长文本的摘要，即根据长文本的句子长度、句子位置、句子是否包含标题词和句子关键词打分这些特征，自动生成长文本的摘要。同时本实施例利用命名实体识别方法生成长文本摘要对应的实体集合。具体过程通过现有技术即可实现，本实施例不再作具体说明。

S103，利用长文本的话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集，具体来说，将属于相同话题的长文本的摘要和标题，随机一一匹配后组合得到第一映射集；将属于不同话题的，且包含相同实体的长文本的摘要和标题进行随机一一匹配，然后组合得到第二映射集。这样避免了使用属于不同话题的全部长文本的摘要和标题作为负样本时，造成的训练成本太高，并且长文本中包含的多余词语作为噪音，对分类结果产生影响的问题。比如，当一条文本包含的实体为“京东、天猫、淘宝、苏宁”时，而另一条文本包含的实体为“马斯克”，那么这两条文本作为负样本训练分类模型，虽然模型能够识出上述两条文本为负类，但这种训练文本在实际生产中效果非常有限，因为通过简单的匹配规则即可实现对上述两条文本进行分类；利用属于不同话题且包含相同实体的文本进行训练效果更好，比如对于均包含实体“淘宝”，但属于两个不同话题的文本进行分类。

S104，利用上述第一映射集和第二映射集，分别作为分类模型的正样本和负样本，然后利用正样本和负样本训练分类模型，得到训练后的分类模型。具体来说，即将第一映射集中的长文本摘要和标题，作为正样本；将第二映射集中的长文本摘要和标题作为负样本，然后将上述正样本和负样本作为分类模型的输入，对分类模型进行训练。

S105，获取待测长文本摘要，利用待测长文本摘要和待测短文本建立第三映射集，利用第三映射集和上述训练后的分类模型，获得文本聚合结果。具体来说，利用TextTeaser算法生成待测长文本摘要，然后利用命名实体识别算法对待测长文本摘要和待测短文本进行处理，获得待测长文本摘要和待测短文本各自对应的实体集合。然后根据上述各自对应的实体集合，获得包含有相同实体的待测长文本摘要集合和待测短文本集合，并对上述待测长文本摘要集合中的待测长文本摘要和待测短文本集合中的待测短文本均进行预处理，然后依据待测长文本摘要对应的实体集合和待测短文本对应的实体集合中包含的相同实体，对预处理后的待测长文本摘要和待测短文本进行一对一映射，映射完成后组合得到一对一映射集，即第三映射集。

比如，获取到的待测长文本摘要有{A,B,C}，待测短文本有{A',B',C',D',E'}，其中，待测长文本摘要A包含实体{a₁,a₂}，B包含实体{b₁,b₂}，C包含实体{c₁}，待测短文本A'包含实体{a₁,a₃,b₁}，B'包含实体{b₁}，C'包含实体{e₁}，D'和E'不包含有实体。那么，待测长文本摘要中包含的实体有{a₁,a₂,b₁,b₂,c₁}，而包含实体{a₁,a₂,b₁,b₂,c₁}的待测短文本有{A',B'}，那么待测长文本摘要和待测短文本包含的相同实体为{a₁,b₁}，所以包含有相同实体的待测长文本摘要集合和待测短文本集合分别为{A,B}和{A',B'}，并对待测长文本摘要集合中的待测长文本摘要A和B，以及待测短文本集合中的待测短文本A'、B'均进行预处理，然后依据所包含的相同实体对预处理后的{A,B}和{A',B'}进行一对一映射。由于A和A'包含有共同实体a₁，所以就得到一对一映射对{A:A'}；由于B和A'包含有共同实体b₁，所以就得到一对一映射对{B:A'}；由于B和B'包含有共同实体b₁，所以就得到一对一映射对{B:B'}，将一对一映射对组合就得到了一对一映射集{A:A',B:A',B:B'}，即第三映射集。

然后将该第三映射集中的一对一映射对作为分类模型的输入，获得文本聚合结果。上述预处理操作包括但不限于去除停用词、特殊符号，更改Bert模型输入配置，然后通过Bert调优模型做分类处理。

需要说明的是，本实施例中设置为同一话题下的至少两条待测长文本和待测短文本匹配，才输出待测长文本和待测短文本的聚合结果。在其他实施例中，也可以根据需要设置在待测长文本和待测短文本满足其他匹配条件时，输出长文本和短文本的聚合结果。

实施例二

如图2所示，本发明实施例二公开了一种文本聚合系统，用于对长文本和短文本进行聚合，该系统的实施可参照上述方法的过程实现，重复之处不再冗述。该系统包括：

话题生成模块201，用于对长文本进行聚类，获得长文本对应的话题；该长文本中包含有标题。具体来说，话题生成模块201先利用TF-IDF算法对长文本进行处理，得到长文本的特征词，然后将特征词进行向量化，得到长文本的特征向量，再利用Single-Pass算法根据特征向量的相似度对长文本中的相似文本进行聚类，具体来说，在聚类之前先利用余弦相似度算法计算特征向量之间的相似度，当相似度大于预设阈值时，则判定特征向量对应的长文本为相似文本，然后利用Single-Pass算法将相似文本归为一个簇。

分类模型建立模块202，用于建立分类模型，并获取长文本摘要，以及长文本摘要对应的实体集合。具体来说，本实施例分类模型建立模块202基于Bert fine-tuning算法建立的分类模型，利用TextTeaser算法生成长文本摘要，即根据长文本的句子长度、句子位置、句子是否包含标题词和句子关键词打分这些特征，自动生成长文本摘要。同时本实施例利用命名实体识别方法生成长文本摘要对应的实体集合。具体过程通过现有技术即可实现，本实施例不再作具体说明。

映射集建立模块203，用于利用长文本的话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集，具体来说，映射集建立模块203将属于相同话题的长文本的摘要和标题，随机一一匹配，生成第一映射集；将属于不同话题的，且包含相同实体的长文本的摘要和标题进行随机一一匹配，生成第二映射集。这样避免了使用属于不同话题的全部长文本的摘要和标题作为负样本时，造成的训练成本太高，并且长文本中包含的多余词语作为噪音，对分类结果产生影响的问题。

模型训练模块204，用于利用第一映射集和第二映射集，分别作为分类模型的正样本和负样本，然后利用正样本和负样本训练分类模型，得到训练后的分类模型。模型训练模块204包括第一映射集建立单元和第二映射集建立单元，第一映射集建立单元用于将属于相同话题的长文本摘要和标题，随机一一匹配后组合得到第一映射集；第二映射集建立单元用于将属于不同话题的，且包含相同实体的长文本摘要和标题进行随机一一匹配，然后组合得到第二映射集。

文本聚合模块205，用于获取待测长文本摘要，利用待测长文本摘要和待测短文本建立第三映射集，利用第三映射集和上述训练后的分类模型，获得文本聚合结果。具体来说，文本聚合模块205包括：实体生成单元，用于获取待测长文本摘要，利用命名实体识别算法对待测长文本摘要和待测短文本进行处理，获得待测长文本摘要和待测短文本各自对应的实体集合；短文本筛选单元，用于根据待测长文本摘要和待测短文本各自对应的实体集合，获得包含有相同实体的待测长文本摘要集合和待测短文本集合；文本预处理单元，用于对待测长文本摘要集合中的待测长文本摘要和待测短文本集合中的待测短文本分别进行预处理；第三映射集建立单元，用于依据待测长文本摘要对应的实体集合和待测短文本对应的实体集合中包含的相同实体，对上述预处理后的待测长文本摘要集合中的待测长文本摘要和预处理后的待测短文本集合中的待测短文本进行一对一映射，映射完成后组合得到第三映射集。

本发明实施例公开的文本聚合方法及系统将短文本聚类问题转换为有监督的分类问题，避免了对短文本使用无监督聚类效果不佳，以及对短文本利用分类算法进行分类时需要预设类别标签的问题，该文本聚合方法及系统从长文本中提取摘要，得到了大量低成本的模型训练数据；利用长文本聚合的稳定性和分类模型的准确性，保证了长文本和短文本的聚合效果；并利用长文本和短文本的实体特征，筛选出与长文本包含相同实体的短文本，降低了计算复杂度，保证了文本聚合效率。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本聚合方法，用于对长文本和短文本进行聚合，其特征在于，包括以下步骤：

2.如权利要求1所述的一种文本聚合方法，其特征在于，所述文本聚合方法利用Single-Pass算法对长文本进行聚类，获得长文本对应的话题。

3.如权利要求1所述的一种文本聚合方法，其特征在于，所述文本聚合方法利用TextTeaser算法对长文本生成长文本摘要，以及利用命名实体识别算法获取长文本摘要对应的实体集合。

4.如权利要求1所述的一种文本聚合方法，其特征在于，利用所述话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集，具体为：

5.如权利要求1所述的一种文本聚合方法，其特征在于，所述利用所述待测长文本摘要和待测短文本建立第三映射集，具体为：

6.一种文本聚合系统，用于对长文本和短文本进行聚合，其特征在于，包括：

7.如权利要求6所述的一种文本聚合系统，其特征在于，所述话题生成模块利用Single-Pass算法对长文本进行聚类，获得长文本对应的话题。

8.如权利要求6所述的一种文本聚合系统，其特征在于，所述分类模型建立模块利用TextTeaser算法对长文本生成长文本摘要，以及利用命名实体识别算法获取长文本摘要对应的实体集合。

9.如权利要求6所述的一种文本聚合系统，其特征在于，所述映射集建立模块包括：

10.如权利要求6所述的一种文本聚合系统，其特征在于，所述文本聚合模块包括：