CN104462253A - 一种面向网络文本大数据的话题检测或跟踪方法 - Google Patents

一种面向网络文本大数据的话题检测或跟踪方法 Download PDF

Info

Publication number
CN104462253A
CN104462253A CN201410670235.1A CN201410670235A CN104462253A CN 104462253 A CN104462253 A CN 104462253A CN 201410670235 A CN201410670235 A CN 201410670235A CN 104462253 A CN104462253 A CN 104462253A
Authority
CN
China
Prior art keywords
topic
matrix
document
keyword
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410670235.1A
Other languages
English (en)
Other versions
CN104462253B (zh
Inventor
邹复好
周可
范瑞
郑胜
张胜
陈进才
李春花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN SHUWEI TECHNOLOGY Co Ltd
Original Assignee
WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN SHUWEI TECHNOLOGY Co Ltd filed Critical WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority to CN201410670235.1A priority Critical patent/CN104462253B/zh
Publication of CN104462253A publication Critical patent/CN104462253A/zh
Application granted granted Critical
Publication of CN104462253B publication Critical patent/CN104462253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种面向网络文本大数据的话题检测或跟踪方法,其基本思路如下:通过检测不同文档中共同出现的关键词,构造关键词的图模型及对应的邻接矩阵,并将其与谱聚类相结合,提出了一种新的话题检测模型,计算得到每篇文档关于话题的概率分布,当新文档到达时计算其与历史话题所表示属性集的相似度,实现话题的自动检测或跟踪,并通过MapReduce编程模型来实现分布式的方法。本发明的特点在于,用关键词的共现关系对话题进行显示挖掘,而非隐式,面向大数据采用分布式计算,将互联网中的数据信息进行聚类,可拓展性更强,可处理的数据量更大,极大地提高了吞吐率。

Description

一种面向网络文本大数据的话题检测或跟踪方法
技术领域
本发明属于大数据分析和机器学习交叉的技术领域,更具体地,涉及一种面向文本大数据的话题检测或跟踪方法。
背景技术
随着互联网信息的大幅膨胀,信息量呈指数增长,浩瀚的网络数据远远超出了人类的掌控能力,用户难以从众多信息中快捷地提取自己所需要的信息。话题检测或跟踪(Topic Detection and Tracking,TDT)是一项针对新闻媒体信息流进行新话题的自动检测和已知话题的后续跟踪的信息处理技术。由于话题检测和跟踪与信息检索和数据挖掘等自然语言处理技术存在着很多的共性,而且它直接面向具备突发性特征的新闻语料,因此逐渐成为大数据分析的研究热点。这项技术以自然语言处理为依托,涉及机器学习、人工智能等多种学科的相关技术。它的发展与应用息息相关,在信息安全、私人订制、金融证券分析等领域都有一定的需求。例如,TDT可以发展成为一种对用户进行有针对性的信息传送的崭新信息服务模式。
目前的研究仍然以传统基于统计策略的文本分类、信息过滤和聚类等技术为主,忽视了新闻语料本身具备的特点,比如话题的突发性与跳跃性、相关报道的延续与继承性、新闻内容的层次性以及时序性等。针对这一问题,当前的研究趋势是将多种方法进行融合,并嵌入新闻语料特性实现话题的识别与追踪,,比如结合命名实体的话题模型描述、以时间为参数的权重与阈值估计等等。虽然这些方法能够在一定程度上提高TDT系统性能,但只是对传统统计策略的一种补充与修正,并没有形成独立于话题检测或跟踪领域特有的研究框架与模型。
发明内容
本发明的目的在于提供一种面向文本大数据的话题检测或跟踪方法,其可有效解决对新话题进行检测和对已出现话题的识别和跟踪问题,通过引入一种谱聚类和检测共同出现的关键字相结合的方法,提出了一种新的话题检测模型,并通过MapReduce编程模型来实现分布式的方法,使吞吐率得以显著提高。
本发明提供了一种面向文本大数据的话题检测或跟踪方法,包括如下步骤:
(1)对中文分词后的文档集构造图模型,每个关键词都视为图的一个结点,用关键词的共现关系构造结点间的边,得到图及其邻接矩阵;
(2)构造拉普拉斯矩阵,采用分布式的方法进行特征分解并计算其前k个特征向量;
(3)对拉普拉斯矩阵的前k个特征向量构成的矩阵使用K-means算法进行聚类,聚类的结果中每一行所属的类别就是原来图中的节点亦即最初的n个数据点分别所属的类别;
(4)构造话题的属性向量,根据话题的属性向量及上述聚类结果计算每篇文档关于话题的概率分布;
(5)利用步骤(1)-(4)的方法进行话题检测与追踪的相关应用。
在本发明的一个实施例中,所述步骤(1)具体包括如下子步骤:
(1.1)对文档集进行中文分词后,每个名词短语或命名实体作为一个关键词,将每个关键词视为图的一个结点;
(1.2)构造结点间的边,将共同在同一文档出现的关键词连接起来,边的权重用于表示在文档中所有关键词序列共同出现次数的规范化值,所述规范化是令所有的权重和为1,即边的权重表示该关键词序列共同出现次数/所有关键词序列共同出现次数;所述关键词序列是指共同在一篇文档中出现的两个关键词;
(1.3)将上述图模型用邻接矩阵的形式表示为N阶方阵,记为W∈Rn×n,其中n为关键词的总数。
在本发明的一个实施例中,所述步骤(2)具体包括如下子步骤:
(2.1)把邻接矩阵W的每一列元素加起来得到n个数,将它们放在对角线上,令其余元素都为零,组成一个n×n的矩阵,记为D∈Rn×n;并令L=D-W,L即为拉普拉斯矩阵;
(2.2)采用MapReduce模型进行分布式特征分解,将矩阵L横向分割为p个数据片段,每一台计算机存储矩阵的n/p行,设定p台计算机存储的n/p×n矩阵分别为L1,L2,…,Lp,其中p为集群中的计算机的个数;
(2.3)在各个计算机上分别对其存储的Li进行奇异值分解,其中i=1,2,…,p,对矩阵Li进行奇异值分解后计算其前k个特征向量,即前k个特征值对应的特征向量其中k值是预先设定的话题簇的数量;
(2.4)计算出矩阵Li的前k个特征向量后,构造矩阵Vi∈Rn/p×k,Vi的每一列元素是特征分解后的特征向量再将p台计算机上的矩阵Vi按i=1,2,…,p的次序整合成矩阵V∈Rn×k,则V的每一列元素是特征向量再将矩阵V进行规范化得到矩阵U∈Rn×k
在本发明的一个实施例中,所述步骤(3)具体包括如下子步骤:
(3.1)将矩阵U的每一行视为k维空间中的一个向量μj,j=1,2,…,n,在k维空间中向量μj可以看作是一个数据点;
(3.2)使用K-means算法对矩阵U听向量进行聚类,K-means算法是一个迭代的过程。
在本发明的一个实施例中,所述步骤(3.2)具体包括如下子步骤:
(3.2.1)选定k个中心点的初值,初值为随机选定或者根据经验值;
(3.2.2)将每个数据点μj归类到它最近的那个中心点所代表的簇中;
(3.2.3)用公式计算出每个簇的新的中心点;
(3.2.4)计算平方误差函数最大迭代步数为M,若迭代次数没有达到M,且计算出的J值与上次计算的J值之差不小于阈值ζ,转向(3.2.2);
(3.2.5)若迭代次数达到最大步数M或者相邻两次J值相差小于阈值ζ,迭代结束;聚类的结果中每一行所属的类别就是原来图中的节点亦即最初的n个数据点分别所属的类别。
在本发明的一个实施例中,所述步骤(4)具体包括如下子步骤:
(4.1)聚类的结果将图分为了相互之间无联系的簇,而簇内部的各结点紧密相连,把每一个簇视为一个话题T,簇内结点表示的每一个关键词视为话题属性,它表征话题的内容;将这些属性排列在一起组成了话题t∈T的一个属性向量ft
(4.2)文档d属于话题t的概率函数由d和属性向量ft的余弦相似度决定,公式为
p ( t | d ) = cos ine ( d , f t ) Σ t ′ ∈ T cos ine ( d , f t ′ )
每篇文档代表了一些话题所构成的一个概率分布,将每篇文档属于所有话题的概率进行排序,文档内容最贴近于序列位排第一的话题;
(4.3)对于所有的话题ti和tj,定义重叠部分为ti和tj中共同出现的关键词,重叠比率为重叠部分占ti和tj所有关键词总数的比率,若ti和tj的重叠比率比阈值ω要大,则将ti和tj合并成一个新的话题t,且定义 重新计算概率函数,进入步骤(4.2);阈值ω根据经验值设置。
在本发明的一个实施例中,所述步骤(5)具体为:
话题检测:网络爬虫从互联网上爬取出一篇新的文档后,利用上述步骤将文档表示成一系列属性的集合,计算它与所有的历史文档的属性集的相似度,选择具有最大相似度的话题簇,归类其中;若低于相似度门槛η1,则定义为新话题。
在本发明的一个实施例中,所述步骤(5)具体为:
话题追踪:在历史训练文档中,事先指定一个话题,在新文档到达时计算其与指定话题的相似度,判断当前文档是否属于该话题,若相似度大于阈值η2,则判断当前文档属于指定话题,实现了对已知话题的追踪;若相似度小于η2,则不属于该话题。
在本发明的一个实施例中,所述步骤(1)还包括:
(1.4)采用K最近邻分类算法稀疏化矩阵,或者预先设定一个阈值ε,将矩阵W中小于阈值ε的元素都设置为0,从而稀疏化矩阵;并且当位置(i,j)或(j,i)上任一元素不为0,则将对应的两个元素都改为Sij,其中Sij(i∈[0,n-1],j∈[0,n-1])为矩阵W中的元素。
与现有技术相比,本发明具有以下的优点和技术效果:
(1)、用谱聚类和识别文档中共同出现的关键字相组合的方式,提出了一种新的话题检测方法,结合图模型,用关键词的共现关系对话题进行显示挖掘;
(2)、通过MapReduce编程模型实现了分布式谱聚类的应用,分布式存储拉普拉斯矩阵,并对存储节点各自存储的矩阵进行奇异值分解,直接面向文本大数据,极大地提高了吞吐率;
(3)、用本发明中的方法将文档表示成一系列属性的集合,通过计算它与历史文档集的相似度,构建文档关于话题的概率分布,有效地自动检测新话题或实现了对已知话题进行追踪;
(4)、可拓展性强,随着时间的推移文档规模越来越大,数据量也越来越大,数据的分布式存储节点也可以根据具体情况而自行增加;
(5)、本发明满足了话题检测或跟踪和面向文本大数据的要求,具有极高的应用价值。
附图说明
图1是本发明面向文本大数据的话题检测或跟踪方法的总体流程图;
图2是本发明面向文本大数据的话题检测或跟踪方法的具体流程图;
图3是本发明实施例中一种分布式存储原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术。特征只要彼此之间未构成冲突就可以相互组合。
以下首先对本发明的技术术语进行解释和说明:
拉普拉斯矩阵:度矩阵和邻接矩阵的差,度矩阵是一个对角矩阵,它包含了每个顶点的度;拉普拉斯矩阵是一个半正定矩阵,特征值中0出现的次数就是图连通区域的个数,最小的特征值永远是0。
K最近邻(K-Nearest-Neighbor,KNN)分类算法:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
MapReduce编程模型:MapReduce是Google提出的一个软件架构,用于大规模数据集的并行计算。指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。
奇异值分解(Singular Value Decomposition,SVD):适用于任意的矩阵,最大的作用是数据的降维,能够用小得多的数据集来表示原始数据集,这实际上是去除了噪声和冗余信息。
本发明的主要步骤为处理数据词典、分布式谱聚类、构建文档-话题概率模型和话题检测或跟踪,即对中文分词后的文档,构建数据词典,并构建关键词的邻接矩阵,使用K-means算法进行聚类,每一个类就对应于一个话题,再分别计算文档属于每个话题的概率;再对新出现话题进行检测,对已出现话题实施追踪。
如图1所示,本发明面向文本大数据的话题检测或跟踪方法包括以下步骤:
(1)对中文分词后的文档集构造图模型,每个关键词(keyword)都视为图的一个结点,用关键词的共现关系构造结点间的边,得到图及其邻接矩阵;
具体地,如图2所示,本步骤包括如下子步骤:
(1.1)对大规模文档集(document collection)进行中文分词后,每个名词短语或命名实体都作为一个关键词(keyword),将每个关键词视为图(graph)的一个结点(node),设关键词的总数为n,这里没有考虑词与词之间的顺序;
(1.2)构造结点间的边,将共同在同一文档出现的关键词连接起来,边的权重用于表示在所有文档中关键词序列共同出现次数的规范化值,规范化是令所有的权重和为1,即某关键词序列共同出现次数/所有关键词序列共同出现次数;这里将共同在一篇文档中出现的两个关键词称作关键词序列;
(1.3)将上述步骤生成的图模型用邻接矩阵的形式表示为N阶邻接矩阵,记为W∈Rn×n,矩阵W中的元素记为Sij(i∈[0,n-1],j∈[0,n-1]);
(1.4)关键词的总数n是一个相当大的值,因此存储矩阵W会占用很大的存储空间。为了避免存储稠密矩阵,通常会采用K最近邻(K-Nearest-Neighbor,KNN)分类算法稀疏化矩阵,或者预先设定一个阈值ε,将矩阵W中小于阈值ε的元素都设置为0,从而达到稀疏矩阵的目的,对于阈值ε的选择可以根据存储设备和精度要求进行修改。这种方法可能会导致最后的矩阵不对称,为了使稀疏矩阵存储的是对称形式,只要位置(i,j)或(j,i)上任一元素不为0,则将对应的两个元素都改为Sij;这一步骤可以省略。
(2)构造拉普拉斯矩阵,采用分布式的方法进行特征分解并计算其前k个特征向量;
具体地,如图2所示,本步骤包括如下子步骤:
(2.1)把邻接矩阵W的每一列元素加起来得到n个数,将它们放在对角线上,令其余元素都为零,组成一个n×n的矩阵,记为D∈Rn×n;并令L=D-W,L即为拉普拉斯矩阵;
(2.2)当面向文本大数据时,拉普拉斯矩阵L会十分庞大,我们将采用分布式的方法实现特征分解,具体使用MapReduce模型,假设集群共p个计算机,将矩阵L横向分割为p个数据片段,每一台计算机存储矩阵的n/p行,设定p台计算机存储的n/p×n矩阵分别为L1,L2,…,Lp,如图3所示。但计算机间的通信代价比较大,通常通过广播的方式进行消息传递。
(2.3)在各个计算机上分别对其存储的Li(i=1,2,…,p)进行奇异值分解(Singular Value Decomposition,SVD),因为特征分解只适用于方阵,而SVD适用于任意的矩阵。对矩阵Li(i=1,2,…,p)进行奇异值分解后计算其前k个特征向量,即前k个特征值对应的特征向量这里的k值是预先设定的话题簇的数量,“前k个”指将特征值按从小到大的顺序排列后的第1,2,…,k个;
(2.4)计算出矩阵Li(i=1,2,…,p)的前k个特征向量后,构造矩阵Vi∈Rn/p×k,Vi的每一列元素是特征分解后的特征向量再将p台计算机上的矩阵Vi按i=1,2,…,p的次序整合成矩阵V∈Rn×k,则V的每一列元素是特征向量再将矩阵V进行规范化得到矩阵U∈Rn×k;这里将n阶矩阵进行了非线性降维,简化了后续的计算复杂度。
(3)对拉普拉斯矩阵的前k个特征向量构成的矩阵使用K-means算法进行聚类,聚类的结果中每一行所属的类别就是原来图中的节点亦即最初的n个数据点分别所属的类别;
具体地,如图2所示,本步骤包括如下子步骤:
(3.1)将矩阵U的每一行视为k维空间中的一个向量μj,j=1,2,…,n,在k维空间中向量μj可以看作是一个数据点;
(3.2)使用K-means算法进行聚类,K-means算法是一个迭代的过程。
进一步地,所述步骤(3.2)具体包括:
(3.2.1)选定k个中心点的初值,可以随机选定,也可以根据经验值人为设定;
(3.2.2)根据距离公式将每个数据点μj归类到它最近的那个中心点所代表的簇中;
(3.2.3)用公式计算出每个簇的新的中心点;
(3.2.4)计算平方误差函数最大迭代步数为M,若迭代次数没有达到M,且计算出的J值与上次计算的J值之差不小于阈值ζ(ζ一般设置为0.001),转向(3.2.2);
(3.2.5)迭代次数达到最大步数M或者相邻两次J值相差小于阈值ζ,迭代结束;聚类的结果中每一行所属的类别就是原来图中的节点亦即最初的n个数据点分别所属的类别。
(4)构造话题的属性向量,根据话题的属性向量及上述聚类结果计算每篇文档关于话题的概率分布;
具体地,如图2所示,本步骤包括如下子步骤:
(4.1)直观上,聚类的结果将图(graph)分为了相互之间无联系的簇,而簇内部的各结点紧密相连,把每一个簇视为一个话题(topic)T,簇内结点表示的每一个关键词视为话题属性,它表征话题的内容;将这些属性排列在一起组成了话题t∈T的一个属性向量ft
(4.2)文档d属于话题t的概率函数由d和属性向量ft的余弦相似度决定,公式为
p ( t | d ) = cos ine ( d , f t ) Σ t ′ ∈ T cos ine ( d , f t ′ )
于是每篇文档代表了一些话题所构成的一个概率分布,而不是绝对地只代表一个主题。将每篇文档属于所有话题的概率进行排序,显然文档内容最贴近于序列位排第一的话题。
(4.3)对于所有的话题ti和tj,定义重叠部分为ti和tj中共同出现的关键词,重叠比率为重叠部分占ti和tj所有关键词总数的比率。若ti和tj的重叠比率比阈值ω要大,则将ti和tj合并成一个新的话题t,且定义 重新计算概率函数,进入步骤(4.2);阈值ω根据经验值设置。
(5)利用步骤(1)-(4)的方法进行话题检测与追踪的相关应用。
具体地,相关应用可以包括:
话题检测:网络爬虫从互联网上爬取出一篇新的文档后,利用上述步骤将文档表示成一系列属性的集合,计算它与所有的历史文档的属性集的相似度,选择具有最大相似度的话题簇,归类其中;若低于相似度门槛η1,则定义为新话题;或者
话题追踪:在历史训练文档中,事先指定一个话题,在新文档到达时计算其与指定话题的相似度,判断当前文档是否属于该话题,若相似度大于阈值η2,则判断当前文档属于指定话题,实现了对已知话题的追踪;若相似度小于η2,则不属于该话题。
本发明是一个显式数据挖掘并对大规模文本集进行聚类的过程,创新点具体体现在:
(1)聚类方法对强连通子集的挖掘,采用图模型的方式将文本集形象化,使得聚类效果显示更加具体;
(2)面向大数据采用分布式计算,由于数据量较为庞大,单个计算机无法容纳并处理,所以采用计算机集群进行分布式存储计算,有效提高了吞吐率;
(3)用关键词的共现关系对话题进行显示挖掘,而非隐式。在显式的数据挖掘中,尝试预测一个特定的数据点,比如以给定的一个房子的售价来预测邻近地区内其他房子的售价;而在隐式的数据挖掘中,一般会尝试创建数据组或找到现有数据内的模式。
通过本发明所述的方法,可将互联网中的数据信息尤其是新闻媒体信息流进行聚类,自动在线检测并提取出用户感兴趣的话题,并能将特定时间段内最活跃的话题智能推送给用户,后续还能根据用户的需求对话题的动态演化过程进行准确跟踪。系统采用分布式存储的方法,可拓展性更强,可处理的数据量更大,极大地提高了吞吐率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种面向文本大数据的话题检测或跟踪方法,其特征在于,所述方法包括:
(1)对中文分词后的文档集构造图模型,每个关键词都视为图的一个结点,用关键词的共现关系构造结点间的边,得到图及其邻接矩阵;
(2)构造拉普拉斯矩阵,采用分布式的方法进行特征分解并计算其前k个特征向量;
(3)对拉普拉斯矩阵的前k个特征向量构成的矩阵使用K-means算法进行聚类,聚类的结果中每一行所属的类别就是原来图中的节点亦即最初的n个数据点分别所属的类别;
(4)构造话题的属性向量,根据话题的属性向量及上述聚类结果计算每篇文档关于话题的概率分布;
(5)利用步骤(1)-(4)的方法进行话题检测与追踪的相关应用。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括如下子步骤:
(1.1)对文档集进行中文分词后,每个名词短语或命名实体作为一个关键词,将每个关键词视为图的一个结点;
(1.2)构造结点间的边,将共同在同一文档出现的关键词连接起来,边的权重用于表示在文档中所有关键词序列共同出现次数的规范化值,所述规范化是令所有的权重和为1,即边的权重表示该关键词序列共同出现次数/所有关键词序列共同出现次数;所述关键词序列是指共同在一篇文档中出现的两个关键词;
(1.3)将上述图模型用邻接矩阵的形式表示为N阶方阵,记为W∈Rn×n,其中n为关键词的总数。
3.如权利要求1或2所述的方法,其特征在于,所述步骤(2)具体包括如下子步骤:
(2.1)把邻接矩阵W的每一列元素加起来得到n个数,将它们放在对角线上,令其余元素都为零,组成一个n×n的矩阵,记为D∈Rn×n;并令L=D-W,L即为拉普拉斯矩阵;
(2.2)采用MapReduce模型进行分布式特征分解,将矩阵L横向分割为p个数据片段,每一台计算机存储矩阵的n/p行,设定p台计算机存储的n/p×n矩阵分别为L1,L2,…,Lp,其中p为集群中的计算机的个数;
(2.3)在各个计算机上分别对其存储的Li进行奇异值分解,其中i=1,2,…,p,对矩阵Li进行奇异值分解后计算其前k个特征向量,即前k个特征值对应的特征向量其中k值是预先设定的话题簇的数量;
(2.4)计算出矩阵Li的前k个特征向量后,构造矩阵Vi∈Rn/p×k,Vi的每一列元素是特征分解后的特征向量再将p台计算机上的矩阵Vi按i=1,2,…,p的次序整合成矩阵V∈Rn×k,则V的每一列元素是特征向量再将矩阵V进行规范化得到矩阵U∈Rn×k
4.如权利要求1或2所述的方法,其特征在于,所述步骤(3)具体包括如下子步骤:
(3.1)将矩阵U的每一行视为k维空间中的一个向量μj,j=1,2,…,n,在k维空间中向量μj可以看作是一个数据点;
(3.2)使用K-means算法对矩阵U听向量进行聚类,K-means算法是一个迭代的过程。
5.如权利要求4所述的方法,其特征在于,所述步骤(3.2)具体包括如下子步骤:
(3.2.1)选定k个中心点的初值,初值为随机选定或者根据经验值;
(3.2.2)将每个数据点μj归类到它最近的那个中心点所代表的簇中;
(3.2.3)用公式计算出每个簇的新的中心点;
(3.2.4)计算平方误差函数最大迭代步数为M,若迭代次数没有达到M,且计算出的J值与上次计算的J值之差不小于阈值ζ,转向(3.2.2);
(3.2.5)若迭代次数达到最大步数M或者相邻两次J值相差小于阈值ζ,迭代结束;聚类的结果中每一行所属的类别就是原来图中的节点亦即最初的n个数据点分别所属的类别。
6.如权利要求1或2所述的方法,其特征在于,所述步骤(4)具体包括如下子步骤:
(4.1)聚类的结果将图分为了相互之间无联系的簇,而簇内部的各结点紧密相连,把每一个簇视为一个话题T,簇内结点表示的每一个关键词视为话题属性,它表征话题的内容;将这些属性排列在一起组成了话题t∈T的一个属性向量ft
(4.2)文档d属于话题t的概率函数由d和属性向量ft的余弦相似度决定,公式为
p ( t | d ) = cos ine ( d , f t ) Σ t ′ ∈ T cos ine ( d , f t ′ )
每篇文档代表了一些话题所构成的一个概率分布,将每篇文档属于所有话题的概率进行排序,文档内容最贴近于序列位排第一的话题;
(4.3)对于所有的话题ti和tj,定义重叠部分为ti和tj中共同出现的关键词,重叠比率为重叠部分占ti和tj所有关键词总数的比率,若ti和tj的重叠比率比阈值ω要大,则将ti和tj合并成一个新的话题t,且定义 重新计算概率函数,进入步骤(4.2);阈值ω根据经验值设置。
7.如权利要求1或2所述的方法,其特征在于,所述步骤(5)具体为:
话题检测:网络爬虫从互联网上爬取出一篇新的文档后,利用上述步骤将文档表示成一系列属性的集合,计算它与所有的历史文档的属性集的相似度,选择具有最大相似度的话题簇,归类其中;若低于相似度门槛η1,则定义为新话题。
8.如权利要求1或2所述的方法,其特征在于,所述步骤(5)具体为:
话题追踪:在历史训练文档中,事先指定一个话题,在新文档到达时计算其与指定话题的相似度,判断当前文档是否属于该话题,若相似度大于阈值η2,则判断当前文档属于指定话题,实现了对已知话题的追踪;若相似度小于η2,则不属于该话题。
9.如权利要求2所述的方法,其特征在于,所述步骤(1)还包括:
(1.4)采用K最近邻分类算法稀疏化矩阵,或者预先设定一个阈值ε,将矩阵W中小于阈值ε的元素都设置为0,从而稀疏化矩阵;并且当位置(i,j)或(j,i)上任一元素不为0,则将对应的两个元素都改为Sij,其中Sij(i∈[0,n-1],j∈[0,n-1])为矩阵W中的元素。
CN201410670235.1A 2014-11-20 2014-11-20 一种面向网络文本大数据的话题检测或跟踪方法 Active CN104462253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410670235.1A CN104462253B (zh) 2014-11-20 2014-11-20 一种面向网络文本大数据的话题检测或跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410670235.1A CN104462253B (zh) 2014-11-20 2014-11-20 一种面向网络文本大数据的话题检测或跟踪方法

Publications (2)

Publication Number Publication Date
CN104462253A true CN104462253A (zh) 2015-03-25
CN104462253B CN104462253B (zh) 2018-05-18

Family

ID=52908289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410670235.1A Active CN104462253B (zh) 2014-11-20 2014-11-20 一种面向网络文本大数据的话题检测或跟踪方法

Country Status (1)

Country Link
CN (1) CN104462253B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630899A (zh) * 2015-12-21 2016-06-01 南通大学 一种公共卫生事件预警知识库的构建方法
CN105868186A (zh) * 2016-06-01 2016-08-17 清华大学 简单高效的话题提取方法
CN106557558A (zh) * 2016-11-09 2017-04-05 中国工商银行股份有限公司 一种数据分析方法及装置
CN106970923A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 话题检测的方法和装置
CN107273346A (zh) * 2016-03-30 2017-10-20 邻客音公司 从文本中对热门见解的可扩展挖掘
CN107545033A (zh) * 2017-07-24 2018-01-05 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置
CN108062319A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种新主题的实时检测方法及装置
CN108140061A (zh) * 2015-06-05 2018-06-08 凯撒斯劳滕工业大学 网络模体的自动确定
CN108268560A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种文本分类方法及装置
CN108763206A (zh) * 2018-05-22 2018-11-06 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN108847220A (zh) * 2018-05-30 2018-11-20 苏州思必驰信息科技有限公司 对话状态跟踪器的训练方法及系统
CN108959318A (zh) * 2017-05-25 2018-12-07 郑州大学 基于rdf图的分布式关键词查询方法
CN109326327A (zh) * 2018-08-28 2019-02-12 福建师范大学 一种基于SeqRank图算法的序列聚类方法
CN109635081A (zh) * 2018-11-23 2019-04-16 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN110147439A (zh) * 2018-07-18 2019-08-20 中山大学 一种基于大数据处理技术的新闻事件检测方法及系统
CN110411724A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种旋转机械故障诊断方法、装置、系统及可读存储介质
CN110765360A (zh) * 2019-11-01 2020-02-07 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN111209390A (zh) * 2020-01-06 2020-05-29 北大方正集团有限公司 新闻展示方法和系统、计算机可读存储介质
CN112328795A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种基于关键词元的话题检测方法、系统及计算机存储介质
CN112464638A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN112685574A (zh) * 2021-01-06 2021-04-20 南京大学 领域术语层次关系的确定方法、装置
CN113420802A (zh) * 2021-06-04 2021-09-21 桂林电子科技大学 基于改进谱聚类的报警数据融合方法
CN115733858A (zh) * 2022-11-04 2023-03-03 广州懿豪科技有限公司 基于大数据和物联网通信的数据处理方法及系统
CN115841110A (zh) * 2022-12-05 2023-03-24 武汉理工大学 一种获取科学知识发现的方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943816A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种网络热点话题的发现方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
US20130086356A1 (en) * 2011-09-30 2013-04-04 International Business Machines Corporation Distributed Data Scalable Adaptive Map-Reduce Framework
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN103870474A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN104050302A (zh) * 2014-07-10 2014-09-17 华东师范大学 一种基于图谱模型的话题探测系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086356A1 (en) * 2011-09-30 2013-04-04 International Business Machines Corporation Distributed Data Scalable Adaptive Map-Reduce Framework
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103870474A (zh) * 2012-12-11 2014-06-18 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN103617169A (zh) * 2013-10-23 2014-03-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN104050302A (zh) * 2014-07-10 2014-09-17 华东师范大学 一种基于图谱模型的话题探测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯霞 等: "一种基于潜在语义索引的谱聚类方法研究", 《中国民航大学学报》 *
刘馨月: "Web挖掘中的链接分析与话题检测研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140061A (zh) * 2015-06-05 2018-06-08 凯撒斯劳滕工业大学 网络模体的自动确定
CN108140061B (zh) * 2015-06-05 2021-07-20 凯撒斯劳滕工业大学 确定图中的同现率的方法、存储介质和系统
CN105630899B (zh) * 2015-12-21 2019-11-08 南通大学 一种公共卫生事件预警知识库的构建方法
CN105630899A (zh) * 2015-12-21 2016-06-01 南通大学 一种公共卫生事件预警知识库的构建方法
CN106970923A (zh) * 2016-01-14 2017-07-21 北京国双科技有限公司 话题检测的方法和装置
CN106970923B (zh) * 2016-01-14 2020-10-09 北京国双科技有限公司 话题检测的方法和装置
CN107273346A (zh) * 2016-03-30 2017-10-20 邻客音公司 从文本中对热门见解的可扩展挖掘
CN105868186A (zh) * 2016-06-01 2016-08-17 清华大学 简单高效的话题提取方法
CN108062319A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种新主题的实时检测方法及装置
CN106557558B (zh) * 2016-11-09 2020-09-15 中国工商银行股份有限公司 一种数据分析方法及装置
CN106557558A (zh) * 2016-11-09 2017-04-05 中国工商银行股份有限公司 一种数据分析方法及装置
CN108268560A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种文本分类方法及装置
CN108959318A (zh) * 2017-05-25 2018-12-07 郑州大学 基于rdf图的分布式关键词查询方法
CN107545033A (zh) * 2017-07-24 2018-01-05 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107545033B (zh) * 2017-07-24 2020-12-01 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置
CN108763206A (zh) * 2018-05-22 2018-11-06 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN108763206B (zh) * 2018-05-22 2022-04-05 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN108847220B (zh) * 2018-05-30 2020-04-28 苏州思必驰信息科技有限公司 对话状态跟踪器的训练方法及系统
CN108847220A (zh) * 2018-05-30 2018-11-20 苏州思必驰信息科技有限公司 对话状态跟踪器的训练方法及系统
CN110147439A (zh) * 2018-07-18 2019-08-20 中山大学 一种基于大数据处理技术的新闻事件检测方法及系统
CN109326327B (zh) * 2018-08-28 2021-11-12 福建师范大学 一种基于SeqRank图算法的生物序列聚类方法
CN109326327A (zh) * 2018-08-28 2019-02-12 福建师范大学 一种基于SeqRank图算法的序列聚类方法
CN109635081B (zh) * 2018-11-23 2023-06-13 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN109635081A (zh) * 2018-11-23 2019-04-16 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN110411724B (zh) * 2019-07-30 2021-07-06 广东工业大学 一种旋转机械故障诊断方法、装置、系统及可读存储介质
CN110411724A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种旋转机械故障诊断方法、装置、系统及可读存储介质
CN110765360A (zh) * 2019-11-01 2020-02-07 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN110765360B (zh) * 2019-11-01 2022-08-02 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN111209390A (zh) * 2020-01-06 2020-05-29 北大方正集团有限公司 新闻展示方法和系统、计算机可读存储介质
CN111209390B (zh) * 2020-01-06 2023-09-05 新方正控股发展有限责任公司 新闻展示方法和系统、计算机可读存储介质
CN112328795A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种基于关键词元的话题检测方法、系统及计算机存储介质
CN112464638A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
WO2022126810A1 (zh) * 2020-12-14 2022-06-23 上海爱数信息技术股份有限公司 文本聚类方法
CN112685574A (zh) * 2021-01-06 2021-04-20 南京大学 领域术语层次关系的确定方法、装置
CN112685574B (zh) * 2021-01-06 2024-04-09 南京大学 领域术语层次关系的确定方法、装置
CN113420802A (zh) * 2021-06-04 2021-09-21 桂林电子科技大学 基于改进谱聚类的报警数据融合方法
CN115733858A (zh) * 2022-11-04 2023-03-03 广州懿豪科技有限公司 基于大数据和物联网通信的数据处理方法及系统
CN115841110A (zh) * 2022-12-05 2023-03-24 武汉理工大学 一种获取科学知识发现的方法及系统
CN115841110B (zh) * 2022-12-05 2023-08-11 武汉理工大学 一种获取科学知识发现的方法及系统

Also Published As

Publication number Publication date
CN104462253B (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN104462253A (zh) 一种面向网络文本大数据的话题检测或跟踪方法
Silva et al. Data stream clustering: A survey
Gupta et al. Scalable machine‐learning algorithms for big data analytics: a comprehensive review
Do et al. Multiview deep learning for predicting twitter users' location
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
Abebe et al. Generic metadata representation framework for social-based event detection, description, and linkage
Braverman et al. Clustering problems on sliding windows
CN106383877A (zh) 一种社交媒体在线短文本聚类和话题检测方法
Yao et al. Bursty event detection from collaborative tags
Li et al. Bursty event detection from microblog: a distributed and incremental approach
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
JP2022020070A (ja) 情報処理、情報推薦の方法および装置、電子デバイス及び記憶媒体
Rieger et al. RollingLDA: An update algorithm of Latent Dirichlet Allocation to construct consistent time series from textual data
Lyu et al. Weighted multi-information constrained matrix factorization for personalized travel location recommendation based on geo-tagged photos
Ye et al. A web services classification method based on GCN
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
Obaid et al. Semantic web and web page clustering algorithms: a landscape view
CN103927177A (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
Chauhan et al. Web page ranking using machine learning approach
CN103995828A (zh) 一种云存储日志数据分析方法
Wang et al. QoS prediction of web services based on reputation-aware network embedding
US20190188276A1 (en) Facilitation of domain and client-specific application program interface recommendations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zou Fuhao

Inventor after: Xu Tao

Inventor after: Zhou Ke

Inventor after: Fan Rui

Inventor after: Zheng Sheng

Inventor after: Zhang Sheng

Inventor after: Chen Jincai

Inventor after: Li Chunhua

Inventor before: Zou Fuhao

Inventor before: Zhou Ke

Inventor before: Fan Rui

Inventor before: Zheng Sheng

Inventor before: Zhang Sheng

Inventor before: Chen Jincai

Inventor before: Li Chunhua

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant