CN112463952B - 一种基于近邻搜索的新闻文本聚合方法及系统 - Google Patents
一种基于近邻搜索的新闻文本聚合方法及系统 Download PDFInfo
- Publication number
- CN112463952B CN112463952B CN202011531635.6A CN202011531635A CN112463952B CN 112463952 B CN112463952 B CN 112463952B CN 202011531635 A CN202011531635 A CN 202011531635A CN 112463952 B CN112463952 B CN 112463952B
- Authority
- CN
- China
- Prior art keywords
- news
- neighbor
- data
- text
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提出一种基于近邻搜索的新闻文本聚合方法及系统,包括以下步骤:采集和清洗数据;基于清洗后的数据确定新闻文本特征向量;根据新闻文本特征向量构建KDTree;根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合;对近邻集合进行集合合并分析得到不同事件的聚合簇。本发明聚合分析模块集合的合并,利用非极大值抑制思想,提升了事件的聚合效率及效果,解决异常数据不敏感问题,无须自定义聚合簇数目,将同一类型事件成功聚合,同时也能提取出异常数据或者独簇数据;同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块,能够处理新数据,对我们的文本聚合的灵活性和时效性有保障,可以单独处理新数据,也可以实时更新聚合簇。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于近邻搜索的新闻文本聚合方法及系统。
背景技术
现有文本的聚合分析主要都是基于无监督的聚类算法或者是利用主题模型进行聚类分析,又或者是直接根据相似度进行聚合。
常用的聚类算法:如K-means、层次聚类、密度聚类等等。
常用的主题模型:LSI、LDA等等。
传统的聚类算法的问题:计算复杂度高,计算成本高如K-means计算复杂度为n^2,不适用于大数据量的情况下的聚类;K-means需要先行设定聚类的簇数目,但是大多情况下我们不知道这个簇数目;对异常数据不敏感等。
传统主题模型的问题:主题模型需要预设主题数目,这个主题数目不好确定,我们一般可以采取主题模型来提取文档特征。
传统的直接进行相似度计算的方法复杂度高,需要两两计算相似度,也是n^2的复杂度,不适用于大数据量的情况。
本发明主要时通过近邻检索加上相似度阈值过滤进行文本聚合,并使用非极大值抑制(NMS)进行簇的融合,解决传统方法文本聚合方法中无法明确簇数目、计算复杂度高,对异常数据不明感的问题。最终能够快速、精准的进行文本事件聚合分析。
发明内容
针对上述问题,本发明提出一种基于近邻搜索的新闻文本聚合方法,所述方法包括以下步骤:
步骤a、采集和清洗数据;
步骤b、基于清洗后的所述数据确定新闻文本特征向量;
步骤c、根据所述新闻文本特征向量构建KDTree;
步骤d、根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合;
步骤e、对所述近邻集合进行集合合并分析得到不同事件的聚合簇。
进一步的,所述数据包括新闻文本id、新闻标题、正文内容、新闻发布时间。
进一步的,步骤a中所述采集和清洗数据具体包括以下步骤:
步骤a1、使用爬虫技术,从多个当前热门的新闻门户网站爬取新闻数据,数据爬取时应含有一下几个重要特征字段:新闻文本id、新闻标题、正文内容、新闻发布时间;
步骤a2、对所述新闻标题和所述正文内容进行数据清洗,去除文本中的html标签,只保留文本内容;对所述新闻标题和所述正文内容进行分词;
步骤a3、对所述新闻发布时间进行时间戳转换。
进一步的,确定所述新闻特征文本向量前包括根据预训练的词向量获取所述新闻标题和所述正文内容分词每个词的词向量的步骤,确定所述新闻文本特征向量具体包括以下步骤:
步骤b1、确定新闻标题特征向量title_embedding:对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量;
步骤b2、确定正文内容特征向量content_embedding:对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量;
步骤b3、确定新闻文本特征向量News_embedding:
News_embedding=0.6*title_embedding+0.4*content_embedding。
进一步的,构建所述KDTree具体包括以下步骤:
步骤c1、将所述新闻文本特征向量与采集的所述新闻文本id、所述新闻发布时间按照索引对应,按照索引顺序输入所有的所述新闻文本特征向量进行KDTree的构建;
步骤c2、按照索引顺序存储所述新闻文本特征向量对应的所述新闻文本id和所述新闻发布时间。
进一步的,步骤d中,对所述新闻文本特征向量进行近邻检索具体包括以下步骤:
步骤d1、对输入数据的所述新闻文本特征向量在已经构建好的所述KDTree中获取K个近邻,返回其索引,其中,K表示超参数;
步骤d2、获取所述KDTree中保存的文本特征向量,并根据步骤d1中返回的近邻索引获取近邻文本特征向量;
步骤d3、根据步骤d1中返回的近邻索引在构建所述KDTree中保存的所述新闻文本id和所述新闻发布时间中找到所述近邻文本特征向量对应的新闻文本id和新闻发布时间。
进一步的,步骤d中,生成所述近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤:
相似度阙值过滤:计算输入所述新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度;对于相似度小于相似度阈值的近邻进行过滤,保留相似度大于等于相似阈值的近邻;
时间阈值过滤:计算输入数据的新闻发布时间与查找到的近邻数据的新闻发布时间的时间差;对于时间差大于时间阈值的近邻数据进行删除过滤,保留时间接近的新闻数据。
进一步的,步骤d中,生成所述近邻集合具体包括以下步骤:
对于构建所述KDTree过程中检索:遍历所有数据的时候找出来的过滤后的近邻数据与检索本体数据互相添加到各自的近邻集合中,其中,近邻集合中包含本身;
对于新数据的检索,只需要找出过滤后的近邻集合,其中,近邻集合中包含本身。
进一步的,步骤e中,采用非极大值抑制思想对所述近邻集合进行集合合并分析,具体包括以下步骤:
步骤e1、计算所述近邻集合中每个集合的集合长度并排序;
步骤e2、选择集合长度最大的集合,并遍历计算其他集合与最大集合长度的杰卡德相似度;
步骤e3、对于步骤e2中的其他集合及杰卡德相似度,将所有杰卡德相似度大于集合重合度阈值的其他集合与所述最大集合长度合并集合形成一簇,并且删除已经进行合并过的所有其他集合,保留对应的所述最大集合长度,作为簇中心;
步骤e4、经过步骤e2和步骤e3后,在剩下的集合中继续找到新的集合长度最大的集合,重复步骤e2和步骤e3,直至全部集合处理完毕。
本发明还提供一种基于近邻搜索的新闻文本聚合系统,所述系统包括:
数据采集和清洗单元,用于采集和清洗数据;
新闻文本特征向量确定单元,用于基于清洗后的所述数据确定新闻文本特征向量;
KDTree构建单元,用于根据所述新闻文本特征向量构建KDTree;
近邻检索单元,用于根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合;
集合合并分析单元,用于对所述近邻集合进行集合合并分析得到不同事件的聚合簇。
进一步的,所述新闻文本特征向量确定单元还用于根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量,所述新闻文本特征向量确定单元用于基于清洗后的所述数据确定新闻文本特征向量包括以下步骤:
确定标题特征向量title_embedding:对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量;
确定正文内容特征向量content_embedding:对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量;
确定新闻文本特征向量News_embedding:
News_embedding=0.6*title_embedding+0.4*content_embedding。
进一步的,所述KDTree构建单元还用于KDTree更新,所述KDTree更新包括以下步骤:
加载原KDTree,并从所述原KDTree中加载原数据的新闻文本特征向量;按照索引将所述的原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与所述原数据的新闻文本特征向量进行合并;
将新更新的数据经过所述新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量,并按照索引合并所述新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间;根据时间保留阈值过滤掉时间较早的数据。
本发明的有益效果:
1、本发明的文本特征提取模块考虑到标题和正文文本的加权融合特征,能够更好的提高聚合的准确性;
2、本发明使用近邻检索技术,能够更快的提取出可能的相似文本再进行计算相似度,大大降低了计算的复杂度,由一般的n^2的复杂度变为现在的小于n*k的复杂度【n表示数据总数量,k表示检索出的近邻个数】,大大提升了聚合的效率;
3、通过相似度阈值过滤和时间过滤可以提升聚合效果,减少异常数据的影响;
4、本发明聚合分析模块集合的合并,利用非极大值抑制思想,根据杰卡德(Jaccard)相似度合并,提升了事件的聚合效率及效果,解决异常数据不敏感问题,无须自定义聚合簇数目,将同一类型事件成功聚合,同时也能提取出异常数据或者独簇数据;同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块,能够处理新数据,对我们的文本聚合的灵活性和时效性有保障,可以单独处理新数据,也可以实时更新聚合簇。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法流程示意图;
图2示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法具体流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法流程示意图;图1中,方法包括以下步骤:
步骤a、采集和清洗数据;
步骤b、基于清洗后的数据确定新闻文本特征向量;
步骤c、根据新闻文本特征向量构建KDTree;
步骤d、根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合;
步骤e、对近邻集合进行集合合并分析得到不同事件的聚合簇。
图2示出了本发明实施例中的基于近邻搜索的新闻文本聚合方法具体流程示意图,图2中,具体的,采集和清洗数据具体包括以下步骤:
步骤a1、使用爬虫技术,从多个当前热门的新闻门户网站爬取新闻数据,数据爬取时应含有一下几个重要特征字段:新闻文本id、新闻标题、正文内容、新闻发布时间;
步骤a2、对新闻标题和正文内容进行数据清洗,去除文本中的html标签,只保留文本内容;对新闻标题和正文内容进行分词;
步骤a3、对新闻发布时间进行时间戳转换,例如将时间格式为“2020-12-0711:00:20”通过time模块时间戳转换成为:“1607310020000”,便于后续时间计算。
具体的,确定新闻特征文本向量前包括根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量的步骤,这里的预训练的词向量可以使用网络资源,比如腾讯预训练词向量、Glov维基百科中文词向量等。当然也可以使用word2vec模型自己训练出词向量模型用于使用。
具体的,确定新闻文本特征向量具体包括以下步骤:
步骤b1、确定新闻标题特征向量title_embedding:对每条数据的新闻标题的分词词向量取均值得到标题特征向量;title_embedding表示新闻标题词向量做平均得到的标题向量;
步骤b2、确定正文内容特征向量content_embedding:对每条数据的正文内容的分词词向量取均值得到正文内容特征向量;content_embedding表示正文内容词向量做平均得到的正文向量;
步骤b3、确定新闻文本特征向量News_embedding:
News_embedding=0.6*title_embedding+0.4*content_embedding。对标题特征向量(title_embedding)和正文特征向量(content_embedding)按照加权平均计算新闻的文档特征向量(News_embedding),这里我们给标题以更高的权重,是因为如果两个新闻是同一条新闻的不同门户网站的展示,其标题的相似度会很高,这样更容易将同一新闻聚合起来。
具体的,构建KDTree具体包括以下步骤:
步骤c1、将新闻文本特征向量与采集的新闻文本id、新闻发布时间按照索引对应,按照索引顺序输入所有的新闻文本特征向量进行KDTree的构建;
步骤c2、按照索引顺序存储新闻文本特征向量对应的新闻文本id和新闻发布时间。
具体的,利用scikit-learn中的neighbors模块(近邻检索模块)中的KDTree方法,按照索引顺序输入所有的新闻文本特征向量进行KDTree的构建,Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python编程语言的免费软件机器学习库。
KDTree:一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构,主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索),KdTree是以二叉搜索树(Binary Search Tree)为原型的用于空间检索的数据结构,能够在随机分布的空间内以O(log2N)的时间复杂度实现对平面内点的搜索以及O(log2N)+R的复杂度查询平面内任意矩形内的所有点(R为矩形内点的个数)。KdTree的应用十分广泛,包括且不限于范围搜索,最邻近点搜索,物理引擎中的碰撞检测以及地理节点(如外卖商家)数据库等。
本发明实施例中,构建KDTree还包括KDTree更新:当有大量的数据更新的时候,此时事件可能会有大的变化,所以此时需要重新构建KDTree,加载原KDTree,并从原KDTree中加载原数据的新闻文本特征向量,KDTree模型中已经保存;按照索引将原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与原数据的新闻文本特征向量进行合并;将新更新的数据经过新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量,并按照索引合并新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间;为了使保留的新闻据有时效性以及提升新闻文本的聚合效率,我们可以根据时间保留阈值keep_time,例如:比如只保留近三个月的数据,过滤掉时间较早的数据,按照上述KDTree构建的方式重新构建KDTree。其中,keep_time表示时间保留阈值,对所有新闻发布与当前时间的时间差,若超过该阈值则舍弃该新闻。
具体的,对新闻文本特征向量进行近邻检索具体包括以下步骤:
步骤d1、对输入数据的新闻文本特征向量在已经构建好的KDTree中获取K个近邻,返回其索引,其中,K表示超参数,K:近邻检索时近邻的个数;
步骤d2、获取KDTree中保存的文本特征向量,并根据步骤d1中返回的近邻索引获取近邻文本特征向量;
步骤d3、根据步骤d1中返回的近邻索引在构建KDTree中保存的新闻文本id和新闻发布时间中找到近邻文本特征向量对应的新闻文本id和新闻发布时间。
生成近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤:
相似度阙值过滤:计算输入新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度;对于相似度小于相似度阈值的近邻进行过滤,保留相似度大于等于相似阈值的近邻,余弦相似度:sims_threshold:相似度阈值,两个文档向量的余弦相似度过滤阈值【0-1之间】。
时间阈值过滤:计算输入数据的新闻发布时间与查找到的近邻数据的新闻发布时间的时间差;对于时间差大于时间阈值的近邻数据进行删除过滤,保留时间接近的新闻数据;times_threshold:时间差阈值,近邻检索的时候,两个新闻文档向量的时间差过滤阈值,使用时间戳计算时间差。
具体的,生成近邻集合具体包括以下步骤:
对于构建KDTree过程中检索:遍历所有数据的时候找出来的过滤后的近邻数据与检索本体数据互相添加到各自的近邻集合中,其中,近邻集合中包含本身,这样可以保证每条数据的聚合度更高更全;
对于新数据的检索,只需要找出过滤后的近邻集合,其中,近邻集合中包含本身。
具体的,采用非极大值抑制思想对近邻集合进行集合合并分析,非极大值抑制(NMS):本质是搜索局部极大值,抑制非极大值元素。一般用于物体检测算法中,这里我们利用NMS思想,对每个文本的近邻集合进行簇的融合。
具体的,采用非极大值抑制思想对近邻集合进行集合合并分析包括以下步骤:
步骤e1、计算近邻集合中每个集合的集合长度set_length并排序;
步骤e3、对于步骤e2中的其他集合others_set及杰卡德相似度,将所有杰卡德相似度大于集合重合度阈值set_sims_threshold的其他集合other_set与最大集合长度max_set合并集合形成一簇,并且删除已经进行合并过的所有其他集合other_set,保留对应的最大集合长度max_set,作为该簇的簇中心;set_sims_threshold:集合重合度阈值,如果两个集合的杰卡德(Jaccard)相似度大于这个阈值就将两个集合合并;
步骤e4、经过步骤e2和步骤e3后,在剩下的集合中继续找到新的集合长度最大的集合,重复步骤e2和步骤e3,直至全部集合处理完毕,经过上诉处理最终得到不同事件的聚合簇,若出现无法聚合的单条数据这些数据应单独作为一簇或者是异常数据。
本发明实施例方法中还提供一种数据更新处理的过程,当有大量的数据更新的时候,此时事件可能会有大的变化,所以此时需要重新构建KDTree,并进行新数据聚合。
KDTree更新:
加载原KDTree,并从原KDTree中加载原数据的新闻文本特征向量,KDTree模型中已经保存;按照索引将原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与原数据的新闻文本特征向量进行合并;将新更新的数据经过新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量,并按照索引合并新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间;为了使得保留的新闻据有时效性以及提升新闻文本的聚合效率,我们可以根据时间保留阈值keep_time,例如:比如只保留近三个月的数据,过滤掉时间较早的数据,按照上述KDTree构建的方式重新构建KDTree。
新数据的聚合:
对于新数据,先经过新闻文本特征向量确定单元进行文档特征提取得到文本特征向量;将提取得到的文本特征向量直接输入近邻检索模块,获取该文档的近邻集合;根据检索出来的近邻集合,计算其与上述所有簇的簇中心(max_set)集合的杰卡德(Jaccard)相似度,如果相似度高于集合重合度阈值(set_sims_threshold),便将其加入该簇,否则单独成簇。
本发明实施例中还提供一种基于近邻搜索的新闻文本聚合系统,系统包括:
数据采集和清洗单元,用于采集和清洗数据;
新闻文本特征向量确定单元,用于基于清洗后的数据确定新闻文本特征向量;
KDTree构建单元,用于根据新闻文本特征向量构建KDTree;
近邻检索单元,用于根据构建好的KDTree对新闻文本特征向量进行近邻检索并生成近邻集合;
集合合并分析单元,用于对近邻集合进行集合合并分析得到不同事件的聚合簇。
具体的,新闻文本特征向量确定单元还用于根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量,新闻文本特征向量确定单元用于基于清洗后的数据确定新闻文本特征向量包括以下步骤:
确定标题特征向量title_embedding:对每条数据的新闻标题的分词词向量取均值得到标题特征向量;
确定正文内容特征向量content_embedding:对每条数据的正文内容的分词词向量取均值得到正文内容特征向量;
确定新闻文本特征向量News_embedding:
News_embedding=0.6*title_embedding+0.4*content_embedding。
KDTree构建单元还用于KDTree更新,KDTree更新包括以下步骤:
加载原KDTree,并从原KDTree中加载原数据的新闻文本特征向量;按照索引将的原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与原数据的新闻文本特征向量进行合并;
将新更新的数据经过新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量,并按照索引合并新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间;根据时间保留阈值过滤掉时间较早的数据。
本发明的文本特征提取模块考虑到标题和正文文本的加权融合特征,能够更好的提高聚合的准确性;本发明使用近邻检索技术,能够更快的提取出可能的相似文本再进行计算相似度,大大降低了计算的复杂度,由一般的n^2的复杂度变为现在的小于n*k的复杂度【n表示数据总数量,k表示检索出的近邻个数】,大大提升了聚合的效率;通过相似度阈值过滤和时间过滤可以提升聚合效果,减少异常数据的影响;本发明聚合分析模块集合的合并,利用非极大值抑制思想,根据杰卡德(Jaccard)相似度合并,提升了事件的聚合效率及效果,解决异常数据不敏感问题,无须自定义聚合簇数目,将同一类型事件成功聚合,同时也能提取出异常数据或者独簇数据;同时本发明的聚合分析模块的新数据聚合以及KDTree更新模块,能够处理新数据,对我们的文本聚合的灵活性和时效性有保障,可以单独处理新数据,也可以实时更新聚合簇。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种基于近邻搜索的新闻文本聚合方法,其特征在于,所述方法包括以下步骤:
步骤a、采集和清洗数据;
步骤b、基于清洗后的所述数据确定新闻文本特征向量;
步骤c、根据所述新闻文本特征向量构建KDTree;
步骤d、根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合;
步骤d中,生成所述近邻集合前还包括相似度阙值过滤和时间阈值过滤的步骤:
相似度阙值过滤包括:计算输入所述新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度;对于相似度小于相似度阈值的近邻进行过滤,保留相似度大于等于相似阈值的近邻;
步骤e、对所述近邻集合进行集合合并分析得到不同事件的聚合簇;
步骤e中,采用非极大值抑制思想对所述近邻集合进行集合合并分析,具体包括以下步骤:
步骤e1、计算所述近邻集合中每个集合的集合长度并排序;
步骤e2、选择集合长度最大的集合,并遍历计算其他集合与最大集合长度的杰卡德相似度;
步骤e3、对于步骤e2中的其他集合及杰卡德相似度,将所有杰卡德相似度大于集合重合度阈值的其他集合与所述最大集合长度合并集合形成一簇,并且删除已经进行合并过的所有其他集合,保留对应的所述最大集合长度,作为簇中心;
步骤e4、经过步骤e2和步骤e3后,在剩下的集合中继续找到新的集合长度最大的集合,重复步骤e2和步骤e3,直至全部集合处理完毕。
2.根据权利要求1所述的基于近邻搜索的新闻文本聚合方法,其特征在于,所述数据包括新闻文本id、新闻标题、正文内容、新闻发布时间。
3.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,步骤a中所述采集和清洗数据具体包括以下步骤:
步骤a1、使用爬虫技术,从多个当前热门的新闻门户网站爬取新闻数据,数据爬取时应含有一下几个重要特征字段:新闻文本id、新闻标题、正文内容、新闻发布时间;
步骤a2、对所述新闻标题和所述正文内容进行数据清洗,去除文本中的html标签,只保留文本内容;对所述新闻标题和所述正文内容进行分词;
步骤a3、对所述新闻发布时间进行时间戳转换。
4.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,确定所述新闻特征文本向量前包括根据预训练的词向量获取所述新闻标题和所述正文内容分词每个词的词向量的步骤,确定所述新闻文本特征向量具体包括以下步骤:
步骤b1、确定新闻标题特征向量title_embedding:对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量;
步骤b2、确定正文内容特征向量content_embedding:对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量;
步骤b3、确定新闻文本特征向量News_embedding:News_embedding=0.6*title_embedding+0.4*content_embedding。
5.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,构建所述KDTree具体包括以下步骤:
步骤c1、将所述新闻文本特征向量与采集的所述新闻文本id、所述新闻发布时间按照索引对应,按照索引顺序输入所有的所述新闻文本特征向量进行KDTree的构建;
步骤c2、按照索引顺序存储所述新闻文本特征向量对应的所述新闻文本id和所述新闻发布时间。
6.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,步骤d中,对所述新闻文本特征向量进行近邻检索具体包括以下步骤:
步骤d1、对输入数据的所述新闻文本特征向量在已经构建好的所述KDTree中获取K个近邻,返回其索引,其中,K表示超参数;
步骤d2、获取所述KDTree中保存的文本特征向量,并根据步骤d1中返回的近邻索引获取近邻文本特征向量;
步骤d3、根据步骤d1中返回的近邻索引在构建所述KDTree中保存的所述新闻文本id和所述新闻发布时间中找到所述近邻文本特征向量对应的新闻文本id和新闻发布时间。
7.根据权利要求2所述的基于近邻搜索的新闻文本聚合方法,其特征在于,
时间阈值过滤包括:计算输入数据的新闻发布时间与查找到的近邻数据的新闻发布时间的时间差;对于时间差大于时间阈值的近邻数据进行删除过滤,保留时间接近的新闻数据。
8.根据权利要求7所述的基于近邻搜索的新闻文本聚合方法,其特征在于,步骤d中,生成所述近邻集合具体包括以下步骤:
对于构建所述KDTree过程中检索:遍历所有数据的时候找出来的过滤后的近邻数据与检索本体数据互相添加到各自的近邻集合中,其中,近邻集合中包含本身;
对于新数据的检索,只需要找出过滤后的近邻集合,其中,近邻集合中包含本身。
9.一种基于近邻搜索的新闻文本聚合系统,其特征在于,所述系统包括:
数据采集和清洗单元,用于采集和清洗数据;
新闻文本特征向量确定单元,用于基于清洗后的所述数据确定新闻文本特征向量;
KDTree构建单元,用于根据所述新闻文本特征向量构建KDTree;
近邻检索单元,用于根据构建好的所述KDTree对所述新闻文本特征向量进行近邻检索并生成近邻集合;
生成所述近邻集合前近邻检索单元还用于对相似度阙值和时间阈值进行过滤:
相似度阙值过滤包括:计算输入所述新闻文本特征向量与找到的K个近邻的文本特征向量的余弦相似度;对于相似度小于相似度阈值的近邻进行过滤,保留相似度大于等于相似阈值的近邻;
集合合并分析单元,用于对所述近邻集合进行集合合并分析得到不同事件的聚合簇;
集合合并分析单元采用非极大值抑制思想对所述近邻集合进行集合合并分析包括:
计算所述近邻集合中每个集合的集合长度并排序;
选择集合长度最大的集合,并遍历计算其他集合与最大集合长度的杰卡德相似度;
对于其他集合及杰卡德相似度,将所有杰卡德相似度大于集合重合度阈值的其他集合与所述最大集合长度合并集合形成一簇,并且删除已经进行合并过的所有其他集合,保留对应的所述最大集合长度,作为簇中心;
在剩下的集合中继续找到新的集合长度最大的集合,重复上述步骤,直至全部集合处理完毕。
10.根据权利要求9所述的基于近邻搜索的新闻文本聚合系统,其特征在于,所述新闻文本特征向量确定单元还用于根据预训练的词向量获取新闻标题和正文内容分词每个词的词向量,所述新闻文本特征向量确定单元用于基于清洗后的所述数据确定新闻文本特征向量包括以下步骤:
确定标题特征向量title_embedding:对每条数据的所述新闻标题的分词词向量取均值得到标题特征向量;
确定正文内容特征向量content_embedding:对每条数据的所述正文内容的分词词向量取均值得到正文内容特征向量;
确定新闻文本特征向量News_embedding:News_embedding=0.6*title_embedding+0.4*content_embedding。
11.根据权利要求9所述的基于近邻搜索的新闻文本聚合系统,其特征在于,所述KDTree构建单元还用于KDTree更新,所述KDTree更新包括以下步骤:
加载原KDTree,并从所述原KDTree中加载原数据的新闻文本特征向量;按照索引将所述的原数据的新闻文本特征向量对应的新闻文本id和新闻发布时间与所述原数据的新闻文本特征向量进行合并;
将新更新的数据经过所述新闻文本特征向量确定单元获得新更新数据的新闻文本特征向量,并按照索引合并所述新更新数据新闻文本特征向量与其新闻文本id和新闻发布时间;根据时间保留阈值过滤掉时间较早的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011531635.6A CN112463952B (zh) | 2020-12-22 | 2020-12-22 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011531635.6A CN112463952B (zh) | 2020-12-22 | 2020-12-22 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463952A CN112463952A (zh) | 2021-03-09 |
CN112463952B true CN112463952B (zh) | 2023-05-05 |
Family
ID=74803239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011531635.6A Active CN112463952B (zh) | 2020-12-22 | 2020-12-22 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463952B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515624B (zh) * | 2021-04-28 | 2023-07-21 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
CN113592529B (zh) * | 2021-06-22 | 2023-11-21 | 中债金科信息技术有限公司 | 债券产品的潜在客户推荐方法和装置 |
CN113553825B (zh) * | 2021-07-23 | 2023-03-21 | 安徽商信政通信息技术股份有限公司 | 一种电子公文脉络关系分析方法及系统 |
CN116881541A (zh) * | 2023-05-05 | 2023-10-13 | 厦门亚瑟网络科技有限公司 | 针对在线搜索活动的ai处理方法及在线服务大数据系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164097A (ja) * | 2011-02-04 | 2012-08-30 | Tottori Univ | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 |
CN103109307A (zh) * | 2010-04-28 | 2013-05-15 | 公立大学法人大阪府立大学 | 用于制作三维物体识别用图像数据库的方法和装置 |
WO2015134530A1 (en) * | 2014-03-03 | 2015-09-11 | Semanticmd, Inc. | Personalized content-based patient retrieval system |
CN107391636A (zh) * | 2017-07-10 | 2017-11-24 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | top‑m反近邻空间关键字查询方法 |
CN108304502A (zh) * | 2018-01-17 | 2018-07-20 | 中国科学院自动化研究所 | 基于海量新闻数据的快速热点检测方法及系统 |
CN109710612A (zh) * | 2018-12-25 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 向量索引的召回方法、装置、电子设备和存储介质 |
CN110070121A (zh) * | 2019-04-15 | 2019-07-30 | 西北工业大学 | 一种基于树策略与平衡k均值聚类的快速近似k近邻方法 |
CN111859070A (zh) * | 2020-07-20 | 2020-10-30 | 北京北斗天巡科技有限公司 | 一种海量互联网新闻清洗系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8832105B2 (en) * | 2011-05-26 | 2014-09-09 | Yahoo! Inc. | System for incrementally clustering news stories |
US9672206B2 (en) * | 2015-06-01 | 2017-06-06 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
-
2020
- 2020-12-22 CN CN202011531635.6A patent/CN112463952B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103109307A (zh) * | 2010-04-28 | 2013-05-15 | 公立大学法人大阪府立大学 | 用于制作三维物体识别用图像数据库的方法和装置 |
JP2012164097A (ja) * | 2011-02-04 | 2012-08-30 | Tottori Univ | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 |
WO2015134530A1 (en) * | 2014-03-03 | 2015-09-11 | Semanticmd, Inc. | Personalized content-based patient retrieval system |
CN107391636A (zh) * | 2017-07-10 | 2017-11-24 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | top‑m反近邻空间关键字查询方法 |
CN108304502A (zh) * | 2018-01-17 | 2018-07-20 | 中国科学院自动化研究所 | 基于海量新闻数据的快速热点检测方法及系统 |
CN109710612A (zh) * | 2018-12-25 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 向量索引的召回方法、装置、电子设备和存储介质 |
CN110070121A (zh) * | 2019-04-15 | 2019-07-30 | 西北工业大学 | 一种基于树策略与平衡k均值聚类的快速近似k近邻方法 |
CN111859070A (zh) * | 2020-07-20 | 2020-10-30 | 北京北斗天巡科技有限公司 | 一种海量互联网新闻清洗系统 |
Non-Patent Citations (6)
Title |
---|
一种面向图像拼接的快速匹配算法;赵小强;岳宗达;;南京理工大学学报(02);41-47 * |
图像检索技术研究进展;周文罡;李厚强;田奇;;南京信息工程大学学报(自然科学版)(06);51-72 * |
基于内容的视频重复性检测算法研究;李璇;中国优秀硕士学位论文全文数据库信息科技辑(第3期);I138-5504 * |
基于哈希加速的近似最近邻检索算法研究;杨根茂;中国优秀硕士学位论文全文数据库信息科技辑(第第2期期);I138-2 * |
基于神经网络的可学习Kd树;彭永鑫;;商洛学院学报(06);12-16+28 * |
基于训练集裁剪的加权K近邻文本分类算法;孙新;情报工程;第2卷(第6期);8-16 * |
Also Published As
Publication number | Publication date |
---|---|
CN112463952A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112463952B (zh) | 一种基于近邻搜索的新闻文本聚合方法及系统 | |
CN111125460B (zh) | 信息推荐方法及装置 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN113535972B (zh) | 一种融合上下文语义的知识图谱链路预测模型方法及装置 | |
US9009029B1 (en) | Semantic hashing in entity resolution | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN112633478A (zh) | 一种基于本体语义的图卷积网络学习模型的构建 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN107862089A (zh) | 一种基于感知数据的标签提取方法 | |
De Boom et al. | Semantics-driven event clustering in Twitter feeds | |
CN112836029A (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
CN115456043A (zh) | 分类模型处理、意图识别方法、装置和计算机设备 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
Sun et al. | Graph force learning | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
Li et al. | Adaptive multi-prototype relation network | |
CN114722304A (zh) | 异质信息网络上基于主题的社区搜索方法 | |
Tasoulis et al. | Unsupervised clustering using fractal dimension | |
CN111782837B (zh) | 图像检索方法和装置 | |
Wang et al. | RODA: A fast outlier detection algorithm supporting multi-queries | |
Yingfan et al. | Revisiting $ k $-Nearest Neighbor Graph Construction on High-Dimensional Data: Experiments and Analyses | |
CN112115991A (zh) | 移动终端换机预测方法、装置、设备及可读存储介质 | |
CN115858942B (zh) | 面向用户输入的序列化推荐方法及装置 | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |