CN112463952B

CN112463952B - 一种基于近邻搜索的新闻文本聚合方法及系统

Info

Publication number: CN112463952B
Application number: CN202011531635.6A
Authority: CN
Inventors: 许建兵; 李军; 李帅; 章礼娟; 陶飞
Original assignee: Anhui Suncn Pap Information Technology Co ltd
Current assignee: Anhui Suncn Pap Information Technology Co ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-05-05
Anticipated expiration: 2040-12-22
Also published as: CN112463952A

Abstract

本发明提出一种基于近邻搜索的新闻文本聚合方法及系统，包括以下步骤：采集和清洗数据；基于清洗后的数据确定新闻文本特征向量；根据新闻文本特征向量构建KDTree；根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合；对近邻集合进行集合合并分析得到不同事件的聚合簇。本发明聚合分析模块集合的合并，利用非极大值抑制思想，提升了事件的聚合效率及效果，解决异常数据不敏感问题，无须自定义聚合簇数目，将同一类型事件成功聚合，同时也能提取出异常数据或者独簇数据；同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块，能够处理新数据，对我们的文本聚合的灵活性和时效性有保障，可以单独处理新数据，也可以实时更新聚合簇。

Description

一种基于近邻搜索的新闻文本聚合方法及系统

技术领域

本发明属于自然语言处理领域，特别涉及一种基于近邻搜索的新闻文本聚合方法及系统。

背景技术

现有文本的聚合分析主要都是基于无监督的聚类算法或者是利用主题模型进行聚类分析，又或者是直接根据相似度进行聚合。

常用的聚类算法：如K-means、层次聚类、密度聚类等等。

常用的主题模型：LSI、LDA等等。

传统的聚类算法的问题：计算复杂度高，计算成本高如K-means计算复杂度为n^2，不适用于大数据量的情况下的聚类；K-means需要先行设定聚类的簇数目，但是大多情况下我们不知道这个簇数目；对异常数据不敏感等。

传统主题模型的问题：主题模型需要预设主题数目，这个主题数目不好确定，我们一般可以采取主题模型来提取文档特征。

传统的直接进行相似度计算的方法复杂度高，需要两两计算相似度，也是n^2的复杂度，不适用于大数据量的情况。

本发明主要时通过近邻检索加上相似度阈值过滤进行文本聚合，并使用非极大值抑制(NMS)进行簇的融合，解决传统方法文本聚合方法中无法明确簇数目、计算复杂度高，对异常数据不明感的问题。最终能够快速、精准的进行文本事件聚合分析。

发明内容

针对上述问题，本发明提出一种基于近邻搜索的新闻文本聚合方法，所述方法包括以下步骤：

步骤a、采集和清洗数据；

步骤b、基于清洗后的所述数据确定新闻文本特征向量；

步骤c、根据所述新闻文本特征向量构建KDTree；

步骤d、根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合；

步骤e、对所述近邻集合进行集合合并分析得到不同事件的聚合簇。

进一步的，所述数据包括新闻文本id、新闻标题、正文内容、新闻发布时间。

进一步的，步骤a中所述采集和清洗数据具体包括以下步骤：

步骤a1、使用爬虫技术，从多个当前热门的新闻门户网站爬取新闻数据，数据爬取时应含有一下几个重要特征字段：新闻文本id、新闻标题、正文内容、新闻发布时间；

步骤a2、对所述新闻标题和所述正文内容进行数据清洗，去除文本中的html标签，只保留文本内容；对所述新闻标题和所述正文内容进行分词；

步骤a3、对所述新闻发布时间进行时间戳转换。

进一步的，确定所述新闻特征文本向量前包括根据预训练的词向量获取所述新闻标题和所述正文内容分词每个词的词向量的步骤，确定所述新闻文本特征向量具体包括以下步骤：

步骤b1、确定新闻标题特征向量title_embedding：对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量；

步骤b2、确定正文内容特征向量content_embedding：对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量；

步骤b3、确定新闻文本特征向量News_embedding：

News_embedding＝0.6*title_embedding+0.4*content_embedding。

进一步的，构建所述KDTree具体包括以下步骤：

步骤c1、将所述新闻文本特征向量与采集的所述新闻文本id、所述新闻发布时间按照索引对应，按照索引顺序输入所有的所述新闻文本特征向量进行KDTree的构建；

步骤c2、按照索引顺序存储所述新闻文本特征向量对应的所述新闻文本id和所述新闻发布时间。

进一步的，步骤d中，对所述新闻文本特征向量进行近邻检索具体包括以下步骤：

步骤d1、对输入数据的所述新闻文本特征向量在已经构建好的所述KDTree中获取K个近邻，返回其索引，其中，K表示超参数；

步骤d2、获取所述KDTree中保存的文本特征向量，并根据步骤d1中返回的近邻索引获取近邻文本特征向量；

步骤d3、根据步骤d1中返回的近邻索引在构建所述KDTree中保存的所述新闻文本id和所述新闻发布时间中找到所述近邻文本特征向量对应的新闻文本id和新闻发布时间。

进一步的，步骤d中，生成所述近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤：

相似度阙值过滤：计算输入所述新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度；对于相似度小于相似度阈值的近邻进行过滤，保留相似度大于等于相似阈值的近邻；

时间阈值过滤：计算输入数据的新闻发布时间与查找到的近邻数据的新闻发布时间的时间差；对于时间差大于时间阈值的近邻数据进行删除过滤，保留时间接近的新闻数据。

进一步的，步骤d中，生成所述近邻集合具体包括以下步骤：

对于构建所述KDTree过程中检索：遍历所有数据的时候找出来的过滤后的近邻数据与检索本体数据互相添加到各自的近邻集合中，其中，近邻集合中包含本身；

对于新数据的检索，只需要找出过滤后的近邻集合，其中，近邻集合中包含本身。

进一步的，步骤e中，采用非极大值抑制思想对所述近邻集合进行集合合并分析，具体包括以下步骤：

步骤e1、计算所述近邻集合中每个集合的集合长度并排序；

步骤e2、选择集合长度最大的集合，并遍历计算其他集合与最大集合长度的杰卡德相似度；

步骤e3、对于步骤e2中的其他集合及杰卡德相似度，将所有杰卡德相似度大于集合重合度阈值的其他集合与所述最大集合长度合并集合形成一簇，并且删除已经进行合并过的所有其他集合，保留对应的所述最大集合长度，作为簇中心；

步骤e4、经过步骤e2和步骤e3后，在剩下的集合中继续找到新的集合长度最大的集合，重复步骤e2和步骤e3，直至全部集合处理完毕。

本发明还提供一种基于近邻搜索的新闻文本聚合系统，所述系统包括：

数据采集和清洗单元，用于采集和清洗数据；

新闻文本特征向量确定单元，用于基于清洗后的所述数据确定新闻文本特征向量；

KDTree构建单元，用于根据所述新闻文本特征向量构建KDTree；

近邻检索单元，用于根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合；

集合合并分析单元，用于对所述近邻集合进行集合合并分析得到不同事件的聚合簇。

进一步的，所述新闻文本特征向量确定单元还用于根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量，所述新闻文本特征向量确定单元用于基于清洗后的所述数据确定新闻文本特征向量包括以下步骤：

确定标题特征向量title_embedding：对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量；

确定正文内容特征向量content_embedding：对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量；

确定新闻文本特征向量News_embedding：

News_embedding＝0.6*title_embedding+0.4*content_embedding。

进一步的，所述KDTree构建单元还用于KDTree更新，所述KDTree更新包括以下步骤：

加载原KDTree，并从所述原KDTree中加载原数据的新闻文本特征向量；按照索引将所述的原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与所述原数据的新闻文本特征向量进行合并；

将新更新的数据经过所述新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量，并按照索引合并所述新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间；根据时间保留阈值过滤掉时间较早的数据。

本发明的有益效果：

1、本发明的文本特征提取模块考虑到标题和正文文本的加权融合特征，能够更好的提高聚合的准确性；

2、本发明使用近邻检索技术，能够更快的提取出可能的相似文本再进行计算相似度，大大降低了计算的复杂度，由一般的n^2的复杂度变为现在的小于n*k的复杂度【n表示数据总数量，k表示检索出的近邻个数】，大大提升了聚合的效率；

3、通过相似度阈值过滤和时间过滤可以提升聚合效果，减少异常数据的影响；

4、本发明聚合分析模块集合的合并，利用非极大值抑制思想，根据杰卡德(Jaccard)相似度合并，提升了事件的聚合效率及效果，解决异常数据不敏感问题，无须自定义聚合簇数目，将同一类型事件成功聚合，同时也能提取出异常数据或者独簇数据；同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块，能够处理新数据，对我们的文本聚合的灵活性和时效性有保障，可以单独处理新数据，也可以实时更新聚合簇。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法流程示意图；

图2示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法具体流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法流程示意图；图1中，方法包括以下步骤：

步骤a、采集和清洗数据；

步骤b、基于清洗后的数据确定新闻文本特征向量；

步骤c、根据新闻文本特征向量构建KDTree；

步骤d、根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合；

步骤e、对近邻集合进行集合合并分析得到不同事件的聚合簇。

图2示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法具体流程示意图，图2中，具体的，采集和清洗数据具体包括以下步骤：

步骤a2、对新闻标题和正文内容进行数据清洗，去除文本中的html标签，只保留文本内容；对新闻标题和正文内容进行分词；

步骤a3、对新闻发布时间进行时间戳转换，例如将时间格式为“2020-12-0711:00:20”通过time模块时间戳转换成为：“1607310020000”，便于后续时间计算。

具体的，确定新闻特征文本向量前包括根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量的步骤，这里的预训练的词向量可以使用网络资源，比如腾讯预训练词向量、Glov维基百科中文词向量等。当然也可以使用word2vec模型自己训练出词向量模型用于使用。

具体的，确定新闻文本特征向量具体包括以下步骤：

步骤b1、确定新闻标题特征向量title_embedding：对每条数据的新闻标题的分词词向量取均值得到标题特征向量；title_embedding表示新闻标题词向量做平均得到的标题向量；

步骤b2、确定正文内容特征向量content_embedding：对每条数据的正文内容的分词词向量取均值得到正文内容特征向量；content_embedding表示正文内容词向量做平均得到的正文向量；

步骤b3、确定新闻文本特征向量News_embedding：

News_embedding＝0.6*title_embedding+0.4*content_embedding。对标题特征向量(title_embedding)和正文特征向量(content_embedding)按照加权平均计算新闻的文档特征向量(News_embedding)，这里我们给标题以更高的权重，是因为如果两个新闻是同一条新闻的不同门户网站的展示，其标题的相似度会很高，这样更容易将同一新闻聚合起来。

具体的，构建KDTree具体包括以下步骤：

步骤c1、将新闻文本特征向量与采集的新闻文本id、新闻发布时间按照索引对应，按照索引顺序输入所有的新闻文本特征向量进行KDTree的构建；

步骤c2、按照索引顺序存储新闻文本特征向量对应的新闻文本id和新闻发布时间。

具体的，利用scikit-learn中的neighbors模块(近邻检索模块)中的KDTree方法，按照索引顺序输入所有的新闻文本特征向量进行KDTree的构建，Scikit-learn(以前称为scikits.learn，也称为sklearn)是针对Python编程语言的免费软件机器学习库。

KDTree：一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构，主要应用于多维空间关键数据的搜索(如：范围搜索和最近邻搜索)，KdTree是以二叉搜索树(Binary Search Tree)为原型的用于空间检索的数据结构，能够在随机分布的空间内以O(log2N)的时间复杂度实现对平面内点的搜索以及O(log2N)+R的复杂度查询平面内任意矩形内的所有点(R为矩形内点的个数)。KdTree的应用十分广泛，包括且不限于范围搜索，最邻近点搜索，物理引擎中的碰撞检测以及地理节点(如外卖商家)数据库等。

本发明实施例中，构建KDTree还包括KDTree更新：当有大量的数据更新的时候，此时事件可能会有大的变化，所以此时需要重新构建KDTree，加载原KDTree，并从原KDTree中加载原数据的新闻文本特征向量，KDTree模型中已经保存；按照索引将原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与原数据的新闻文本特征向量进行合并；将新更新的数据经过新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量，并按照索引合并新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间；为了使保留的新闻据有时效性以及提升新闻文本的聚合效率，我们可以根据时间保留阈值keep_time，例如：比如只保留近三个月的数据，过滤掉时间较早的数据，按照上述KDTree构建的方式重新构建KDTree。其中，keep_time表示时间保留阈值，对所有新闻发布与当前时间的时间差，若超过该阈值则舍弃该新闻。

具体的，对新闻文本特征向量进行近邻检索具体包括以下步骤：

步骤d1、对输入数据的新闻文本特征向量在已经构建好的KDTree中获取K个近邻，返回其索引，其中，K表示超参数，K：近邻检索时近邻的个数；

步骤d2、获取KDTree中保存的文本特征向量，并根据步骤d1中返回的近邻索引获取近邻文本特征向量；

步骤d3、根据步骤d1中返回的近邻索引在构建KDTree中保存的新闻文本id和新闻发布时间中找到近邻文本特征向量对应的新闻文本id和新闻发布时间。

生成近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤：

相似度阙值过滤：计算输入新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度；对于相似度小于相似度阈值的近邻进行过滤，保留相似度大于等于相似阈值的近邻，余弦相似度：

sims_threshold：相似度阈值，两个文档向量的余弦相似度过滤阈值【0-1之间】。

时间阈值过滤：计算输入数据的新闻发布时间与查找到的近邻数据的新闻发布时间的时间差；对于时间差大于时间阈值的近邻数据进行删除过滤，保留时间接近的新闻数据；times_threshold：时间差阈值，近邻检索的时候，两个新闻文档向量的时间差过滤阈值，使用时间戳计算时间差。

具体的，生成近邻集合具体包括以下步骤：

对于构建KDTree过程中检索：遍历所有数据的时候找出来的过滤后的近邻数据与检索本体数据互相添加到各自的近邻集合中，其中，近邻集合中包含本身，这样可以保证每条数据的聚合度更高更全；

具体的，采用非极大值抑制思想对近邻集合进行集合合并分析，非极大值抑制(NMS)：本质是搜索局部极大值，抑制非极大值元素。一般用于物体检测算法中，这里我们利用NMS思想，对每个文本的近邻集合进行簇的融合。

具体的，采用非极大值抑制思想对近邻集合进行集合合并分析包括以下步骤：

步骤e1、计算近邻集合中每个集合的集合长度set_length并排序；

步骤e2、选择集合长度set_length最大的集合max_set，并遍历计算其他集合others_set与最大集合长度max_set的杰卡德相似度，杰卡德(Jaccard)相似度：

步骤e3、对于步骤e2中的其他集合others_set及杰卡德相似度，将所有杰卡德相似度大于集合重合度阈值set_sims_threshold的其他集合other_set与最大集合长度max_set合并集合形成一簇，并且删除已经进行合并过的所有其他集合other_set，保留对应的最大集合长度max_set，作为该簇的簇中心；set_sims_threshold：集合重合度阈值，如果两个集合的杰卡德(Jaccard)相似度大于这个阈值就将两个集合合并；

步骤e4、经过步骤e2和步骤e3后，在剩下的集合中继续找到新的集合长度最大的集合，重复步骤e2和步骤e3，直至全部集合处理完毕，经过上诉处理最终得到不同事件的聚合簇，若出现无法聚合的单条数据这些数据应单独作为一簇或者是异常数据。

本发明实施例方法中还提供一种数据更新处理的过程，当有大量的数据更新的时候，此时事件可能会有大的变化，所以此时需要重新构建KDTree，并进行新数据聚合。

KDTree更新：

加载原KDTree，并从原KDTree中加载原数据的新闻文本特征向量，KDTree模型中已经保存；按照索引将原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与原数据的新闻文本特征向量进行合并；将新更新的数据经过新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量，并按照索引合并新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间；为了使得保留的新闻据有时效性以及提升新闻文本的聚合效率，我们可以根据时间保留阈值keep_time，例如：比如只保留近三个月的数据，过滤掉时间较早的数据，按照上述KDTree构建的方式重新构建KDTree。

新数据的聚合：

对于新数据，先经过新闻文本特征向量确定单元进行文档特征提取得到文本特征向量；将提取得到的文本特征向量直接输入近邻检索模块，获取该文档的近邻集合；根据检索出来的近邻集合，计算其与上述所有簇的簇中心(max_set)集合的杰卡德(Jaccard)相似度，如果相似度高于集合重合度阈值(set_sims_threshold)，便将其加入该簇，否则单独成簇。

本发明实施例中还提供一种基于近邻搜索的新闻文本聚合系统，系统包括：

数据采集和清洗单元，用于采集和清洗数据；

新闻文本特征向量确定单元，用于基于清洗后的数据确定新闻文本特征向量；

KDTree构建单元，用于根据新闻文本特征向量构建KDTree；

近邻检索单元，用于根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合；

集合合并分析单元，用于对近邻集合进行集合合并分析得到不同事件的聚合簇。

具体的，新闻文本特征向量确定单元还用于根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量，新闻文本特征向量确定单元用于基于清洗后的数据确定新闻文本特征向量包括以下步骤：

确定标题特征向量title_embedding：对每条数据的新闻标题的分词词向量取均值得到标题特征向量；

确定正文内容特征向量content_embedding：对每条数据的正文内容的分词词向量取均值得到正文内容特征向量；

确定新闻文本特征向量News_embedding：

News_embedding＝0.6*title_embedding+0.4*content_embedding。

KDTree构建单元还用于KDTree更新，KDTree更新包括以下步骤：

加载原KDTree，并从原KDTree中加载原数据的新闻文本特征向量；按照索引将的原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与原数据的新闻文本特征向量进行合并；

将新更新的数据经过新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量，并按照索引合并新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间；根据时间保留阈值过滤掉时间较早的数据。

本发明的文本特征提取模块考虑到标题和正文文本的加权融合特征，能够更好的提高聚合的准确性；本发明使用近邻检索技术，能够更快的提取出可能的相似文本再进行计算相似度，大大降低了计算的复杂度，由一般的n^2的复杂度变为现在的小于n*k的复杂度【n表示数据总数量，k表示检索出的近邻个数】，大大提升了聚合的效率；通过相似度阈值过滤和时间过滤可以提升聚合效果，减少异常数据的影响；本发明聚合分析模块集合的合并，利用非极大值抑制思想，根据杰卡德(Jaccard)相似度合并，提升了事件的聚合效率及效果，解决异常数据不敏感问题，无须自定义聚合簇数目，将同一类型事件成功聚合，同时也能提取出异常数据或者独簇数据；同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块，能够处理新数据，对我们的文本聚合的灵活性和时效性有保障，可以单独处理新数据，也可以实时更新聚合簇。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于近邻搜索的新闻文本聚合方法，其特征在于，所述方法包括以下步骤：

步骤a、采集和清洗数据；

步骤b、基于清洗后的所述数据确定新闻文本特征向量；

步骤c、根据所述新闻文本特征向量构建KDTree；

步骤d中，生成所述近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤：

相似度阙值过滤包括：计算输入所述新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度；对于相似度小于相似度阈值的近邻进行过滤，保留相似度大于等于相似阈值的近邻；

步骤e、对所述近邻集合进行集合合并分析得到不同事件的聚合簇；

步骤e中，采用非极大值抑制思想对所述近邻集合进行集合合并分析，具体包括以下步骤：

步骤e1、计算所述近邻集合中每个集合的集合长度并排序；

2.根据权利要求1所述的基于近邻搜索的新闻文本聚合方法，其特征在于，所述数据包括新闻文本id、新闻标题、正文内容、新闻发布时间。

3.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法，其特征在于，步骤a中所述采集和清洗数据具体包括以下步骤：

步骤a3、对所述新闻发布时间进行时间戳转换。

4.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法，其特征在于，确定所述新闻特征文本向量前包括根据预训练的词向量获取所述新闻标题和所述正文内容分词每个词的词向量的步骤，确定所述新闻文本特征向量具体包括以下步骤：

步骤b3、确定新闻文本特征向量News_embedding：News_embedding=0.6*title_embedding+0.4*content_embedding。

5.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法，其特征在于，构建所述KDTree具体包括以下步骤：

6.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法，其特征在于，步骤d中，对所述新闻文本特征向量进行近邻检索具体包括以下步骤：

7.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法，其特征在于，

时间阈值过滤包括：计算输入数据的新闻发布时间与查找到的近邻数据的新闻发布时间的时间差；对于时间差大于时间阈值的近邻数据进行删除过滤，保留时间接近的新闻数据。

8.根据权利要求7所述的基于近邻搜索的新闻文本聚合方法，其特征在于，步骤d中，生成所述近邻集合具体包括以下步骤：

9.一种基于近邻搜索的新闻文本聚合系统，其特征在于，所述系统包括：

数据采集和清洗单元，用于采集和清洗数据；

KDTree构建单元，用于根据所述新闻文本特征向量构建KDTree；

生成所述近邻集合前近邻检索单元还用于对相似度阙值和时间阈值进行过滤：

集合合并分析单元，用于对所述近邻集合进行集合合并分析得到不同事件的聚合簇；

集合合并分析单元采用非极大值抑制思想对所述近邻集合进行集合合并分析包括：

计算所述近邻集合中每个集合的集合长度并排序；

选择集合长度最大的集合，并遍历计算其他集合与最大集合长度的杰卡德相似度；

对于其他集合及杰卡德相似度，将所有杰卡德相似度大于集合重合度阈值的其他集合与所述最大集合长度合并集合形成一簇，并且删除已经进行合并过的所有其他集合，保留对应的所述最大集合长度，作为簇中心；

在剩下的集合中继续找到新的集合长度最大的集合，重复上述步骤，直至全部集合处理完毕。

10.根据权利要求9所述的基于近邻搜索的新闻文本聚合系统，其特征在于，所述新闻文本特征向量确定单元还用于根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量，所述新闻文本特征向量确定单元用于基于清洗后的所述数据确定新闻文本特征向量包括以下步骤：

确定新闻文本特征向量News_embedding：News_embedding=0.6*title_embedding+0.4*content_embedding。

11.根据权利要求9所述的基于近邻搜索的新闻文本聚合系统，其特征在于，所述KDTree构建单元还用于KDTree更新，所述KDTree更新包括以下步骤：