CN103793501A - 基于社交网络的主题社团发现方法 - Google Patents

基于社交网络的主题社团发现方法 Download PDF

Info

Publication number
CN103793501A
CN103793501A CN201410033736.9A CN201410033736A CN103793501A CN 103793501 A CN103793501 A CN 103793501A CN 201410033736 A CN201410033736 A CN 201410033736A CN 103793501 A CN103793501 A CN 103793501A
Authority
CN
China
Prior art keywords
theme
word
document
corporations
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410033736.9A
Other languages
English (en)
Other versions
CN103793501B (zh
Inventor
蔡昭权
周献政
黄翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong small grass Technology Co., Ltd.
Original Assignee
Huizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhou University filed Critical Huizhou University
Priority to CN201410033736.9A priority Critical patent/CN103793501B/zh
Publication of CN103793501A publication Critical patent/CN103793501A/zh
Application granted granted Critical
Publication of CN103793501B publication Critical patent/CN103793501B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种基于社交网络的主题社团发现方法,包括步骤:S1、对社交网络的文档集进行主题分析,从而得到主题向量集;S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。本发明结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。

Description

基于社交网络的主题社团发现方法
技术领域
本发明涉及数据挖掘领域,尤其涉及基于社交网络的主题社团发现方法。
背景技术
随着社交网络服务(简称SNS)的迅速发展,社交网络已经成为人们获取实时信息的重要来源和进行网络社交的重要平台。近几年里我国社交网络的用户数量在高速增长,这就说明了社交网络在高速发展。同时,社交网络存在大量数据信息,而且数据类型有多种形式,如人际网络,文本,图片,视频和音频等。如何利用这些数据为社交网络用户提供更好的服务已经成为了社交网络分析(Social network analysis)的重要研究方向。社团发现问题是社交网络分析的核心问题之一。由原来的无向图社团发现到现在的核心社团发现,社团发现问题得到了许多扩展,并且新的问题又被提出来。社团发现研究既有丰富的科学理论,又有巨大的商业意义,比如社团发现算法可以对社交网络的人及其人际结构进行分析,并可以向其推荐好友、商品等。
在社交网络分析时,通常是采集社交网络的文本集,再对文本集进行主题分析,主题分析是通过对文本内容分析并提取出文本中的主题的过程。传统的LDA算法就是对文本集进行主题分析,其中,LDA主题模型涉及到贝叶斯理论、Dirichlet分布、多项分布、图模型、变分推断、EM算法、Gibbs抽样等知识。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
LDA算法以文档集合作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出两个结果向量,即每个文档文档在主题上的概率,和每个主题在词上的概率。以下就是基于gibbs抽样的LDA算法的伪代码:
Figure BDA0000458899920000021
其中,k~Multinomial(1/K)为:p(zm,n=k)=1/K,
Figure BDA0000458899920000022
其中,V为所有文档的总词数,K为主题个数。
主题在词表上的概率矩阵
Figure BDA0000458899920000023
和文档在主题上的概率矩阵θ的元素值分别为:
主题k在词v的概率 φ k , v = n k ( v ) + β Σ v = 1 V ( n k ( v ) + β ) ,
文档m在主题k的概率
Figure BDA0000458899920000025
经分析,LDA算法时间复杂度为O(N*M*Z*K),其中N为迭代次数,N为文档的个数,Z为点的文本的词的平均个数,K为主题数,并且LDA算法可以对文本很好地进行主题划分。
但是LDA仍然有不足:当前社交网络用户文本更新的速度是非常频繁的,如果当有一篇新文档加入的时候,为了确定这篇文档的主题,LDA算法需要对旧文档和新文档一起进行主题分析,这就重复了对旧文档的主题分析的工作。针对社交网络这一特点,本发明对LDA算法进行改造,使它可以对新文档进行主题分析而不用重复地对旧文档进行主题分析。
Normalized-cuts和Modularity等是传统的社团发现算法,只是利用了链接关系而忽略了网络节点所拥有的文本信息,这就导致了划分结果不能反映社团之间的主题(兴趣)关系。在社交网络中是真实蕴含这些主题(兴趣)关系的,比如人际关系中不同的人有不同的兴趣,即使关系密切的人之间的兴趣也会是不同的。这就导致了在推荐好友中,传统的社团发现算法只能帮助用户找到与其关系密切的好友,并不能找到与其兴趣相近的好友。
经过上述的分析,可以知道传统的社团发现算法是仅能对社团进行链接划分,而不能对社团进行主题划分。本发明将结合基于链接的社团发现算法和主题模型算法设计一种主题社团发现算法。
发明内容
本发明的目的是针对当前社团发现算法仅能对社团进行链接划分而不能对社团进行主题划分的不足,结合基于链接的社团发现算法和主题模型算法提供一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
为解决以上技术问题,本发明公开了一种基于社交网络的主题社团发现方法,包括步骤:
S1、对社交网络的文档集进行主题分析,从而得到主题向量集;
S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;
S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。
进一步的,所述步骤S1具体包括步骤:
S11、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集。
进一步的,所述步骤S11之后还包括步骤:
S12、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤S11得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵。
进一步的,步骤S12中对所述新的文档集中每一个文档执行以下步骤:
S121、对当前新文档进行分词,得到词序列;
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数;
其中,概率分布Multinomial(1/K)具体为p(zn=k)=1/K,zn表示词n所属的主题,K表示当前新文档的主题总数,k表示主题变量;
S123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m,α,β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加1;
其中,m表示当前新文档,nm表示当前新文档中词的总数,K表示当前新文档的主题总数,V表示步骤S11中所述文档集中词的总数,
Figure BDA0000458899920000042
表示此时在当前新文档中主题k的出现次数,
Figure BDA0000458899920000043
表示词v出现在主题k的次数,nk表示主题k所包含的词的总数,α和β为参数;
S124、重复执行步骤S123,直至达到预设的迭代次数,得到迭代完毕时的每个主题的出现次数;
S125、根据步骤S124中得到的所述每个主题的出现次数求出每个主题出现在当前新文档中的概率;具体计算公式为:
Figure BDA0000458899920000051
Figure BDA0000458899920000052
表示主题k出现在文档m中的概率,m表示当前新文档,
Figure BDA0000458899920000053
表示步骤S124中得到的在文档m中主题k的出现次数。
其中,所述参数β=0.1,所述参数α=50/文档数。
进一步的,所述步骤S3对于每个主题簇进行如下步骤:
S31、将主题簇看作一个无向图,对图中的每个点进行编号;
S32、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的ΔQ>0,则将此两个节点合并为一个节点;
其中,节点i和节点j的社团链接相似度CLS为:
CLS = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | | N ( Cj ) | * | N ( Cj ) ∪ Cj ∩ N ( Ci ) | | N ( Ci ) | = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | 2 | N ( Cj ) | - | N ( Ci ) |
Q表示社团内部的边数与在假设没有社团结构时的度数的差值的期望的平方,ΔQ是指合并两个社团前的Q值减去合并两个社团后的Q值,Ci表示节点i对应的社团,N(Ci)表示社团Ci的邻居节点集;
S33、重复执行步骤S32,直至没有点需要合并为止,合并后的每个点代表一个社团,全部的点即为当前主题簇的主题社团集。
与现有技术相比,本发明的有益效果是:
1、对LDA算法进行改造,使它可以对更新后产生的新文档进行主题分析而不用重复地对旧文档进行主题分析;
2、本发明针对当前社团发现算法仅能对社团进行链接划分而不能对社团进行主题划分的不足,结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于社交网络的主题社团发现方法的流程示意图;
图2是图1中步骤S1的具体流程图;
图3是图2中步骤S12的具体流程图;
图4是图1中步骤S3的具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于社交网络的主题社团发现方法,如图1所示,包括步骤:
S1、对社交网络的文档集进行主题分析,从而得到主题向量集;
S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;
S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。
进一步的,如图2所示,所述步骤S1具体包括步骤:
S11、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集。
进一步的,所述步骤S11之后还包括步骤:
S12、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤S11得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵。
进一步的,如图3所示,步骤S12中对所述新的文档集中每一个文档执行以下步骤:
S121、对当前新文档进行分词,得到词序列;
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数;
其中,概率分布Multinomial(1/K)具体为p(zn=k)=1/K,zn表示词n所属的主题,K表示当前新文档的主题总数,k表示主题变量;
S123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m,α,β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加1;
其中,
Figure BDA0000458899920000071
m表示当前新文档,nm表示当前新文档中词的总数,K表示当前新文档的主题总数,V表示步骤S11中所述文档集中词的总数,
Figure BDA0000458899920000072
表示此时在当前新文档中主题k的出现次数,
Figure BDA0000458899920000073
表示词v出现在主题k的次数,nk表示主题k所包含的词的总数,α和β为参数;
S124、重复执行步骤S123,直至达到预设的迭代次数,得到迭代完毕时的每个主题的出现次数;
S125、根据步骤S124中得到的所述每个主题的出现次数求出每个主题出现在当前新文档中的概率;具体计算公式为:
Figure BDA0000458899920000081
表示主题k出现在文档m中的概率,m表示当前新文档,
Figure BDA0000458899920000085
表示步骤S124中得到的在文档m中主题k的出现次数。
其中,所述参数β=0.1,所述参数α=50/文档数。
进一步的,如图4所示,所述步骤S3对于每个主题簇进行如下步骤:
S31、将主题簇看作一个无向图,对图中的每个点进行编号;
S32、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的ΔQ>0,则将此两个节点合并为一个节点;
其中,节点i和节点j的社团链接相似度CLS为:
CLS = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | | N ( Cj ) | * | N ( Cj ) ∪ Cj ∩ N ( Ci ) | | N ( Ci ) | = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | 2 | N ( Cj ) | - | N ( Ci ) |
Q表示社团内部的边数与在假设没有社团结构时的度数的差值的期望的平方,ΔQ是指合并两个社团前的Q值减去合并两个社团后的Q值,Ci表示节点i对应的社团,N(Ci)表示社团Ci的邻居节点集;
S33、重复执行步骤S32,直至没有点需要合并为止,合并后的每个点代表一个社团,全部的点即为当前主题簇的主题社团集。
其中,S12步骤中的算法是对LDA算法所作的改进,定义为OLDA算法,其伪代码为:
Figure BDA0000458899920000084
其中,k~Multinomial(1/K)的具体公式为:p(zn=k)=1/K,K为主题总数,
Figure BDA0000458899920000092
其中,V为旧文档的总词数,文档在主题上的概率矩阵θ的元素值为:文档m在主题k的概率
Figure BDA0000458899920000093
其中,步骤S3是对CLS算法和modularity算法所作的改进,定义为OptimizeModularity算法,其伪代码为:
与现有技术相比,本发明实施例的有益效果是:
1、对LDA算法进行改造,使它可以对更新后产生的新文档进行主题分析而不用重复地对旧文档进行主题分析;
2、本发明针对当前社团发现算法仅能对社团进行链接划分而不能对社团进行主题划分的不足,结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种基于社交网络的主题社团发现方法,其特征在于,包括步骤:
S1、对社交网络的文档集进行主题分析,从而得到主题向量集;
S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;
S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。
2.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤S1具体包括步骤:
S11、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集。
3.如权利要求2所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤S11之后还包括步骤:
S12、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤S11得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵。
4.如权利要求3所述的基于社交网络的主题社团发现方法,其特征在于,步骤S12中对所述新的文档集中每一个文档执行以下步骤:
S121、对当前新文档进行分词,得到词序列;
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数;
其中,概率分布Multinomial(1/K)具体为p(zn=k)=1/K,zn表示词n所属的主题,K表示当前新文档的主题总数,k表示主题变量;
S123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m,α,β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加1;
其中,m表示当前新文档,nm表示当前新文档中词的总数,K表示当前新文档的主题总数,V表示步骤S11中所述文档集中词的总数,
Figure FDA0000458899910000022
表示此时在当前新文档中主题k的出现次数,
Figure FDA0000458899910000023
表示词v出现在主题k的次数,nk表示主题k所包含的词的总数,α和β为参数;
S124、重复执行步骤S123,直至达到预设的迭代次数,得到迭代完毕时的每个主题的出现次数;
S125、根据步骤S124中得到的所述每个主题的出现次数求出每个主题出现在当前新文档中的概率;具体计算公式为:
Figure FDA0000458899910000024
Figure FDA0000458899910000025
表示主题k出现在文档m中的概率,m表示当前新文档,
Figure FDA0000458899910000026
表示步骤S124中得到的在文档m中主题k的出现次数。
5.如权利要求4所述的基于社交网络的主题社团发现方法,其特征在于,所述参数β=0.1。
6.如权利要求4所述的基于社交网络的主题社团发现方法,其特征在于,所述参数α=50/文档数。
7.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤S3对于每个主题簇进行如下步骤:
S31、将主题簇看作一个无向图,对图中的每个点进行编号;
S32、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的ΔQ>0,则将此两个节点合并为一个节点;
其中,节点i和节点j的社团链接相似度CLS为:
CLS = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | | N ( Cj ) | * | N ( Cj ) ∪ Cj ∩ N ( Ci ) | | N ( Ci ) | = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | 2 | N ( Cj ) | - | N ( Ci ) |
Q表示社团内部的边数与在假设没有社团结构时的度数的差值的期望的平方,ΔQ是指合并两个社团前的Q值减去合并两个社团后的Q值,Ci表示节点i对应的社团,N(Ci)表示社团Ci的邻居节点集;
S33、重复执行步骤S32,直至没有点需要合并为止,合并后的每个点代表一个社团,全部的点即为当前主题簇的主题社团集。
CN201410033736.9A 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法 Expired - Fee Related CN103793501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410033736.9A CN103793501B (zh) 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410033736.9A CN103793501B (zh) 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法

Publications (2)

Publication Number Publication Date
CN103793501A true CN103793501A (zh) 2014-05-14
CN103793501B CN103793501B (zh) 2016-03-02

Family

ID=50669167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410033736.9A Expired - Fee Related CN103793501B (zh) 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法

Country Status (1)

Country Link
CN (1) CN103793501B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107391546A (zh) * 2017-06-01 2017-11-24 浙江唯见科技有限公司 Vr资源全关联的方法和系统
CN107705213A (zh) * 2017-07-17 2018-02-16 西安电子科技大学 一种静态社交网络的重叠社团发现方法
CN107835113A (zh) * 2017-07-05 2018-03-23 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN109255722A (zh) * 2018-08-22 2019-01-22 电子科技大学 一种基于邻居拓扑的复杂网络层次分析系统及方法
CN110264372A (zh) * 2019-05-16 2019-09-20 西安交通大学 一种基于节点表示的主题社团发现方法
CN110457477A (zh) * 2019-08-09 2019-11-15 东北大学 一种面向社交网络的兴趣社群发现方法
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法
US20220101852A1 (en) * 2020-09-30 2022-03-31 Honda Motor Co., Ltd. Conversation support device, conversation support system, conversation support method, and storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
江浩等: "《基于主题聚簇评价的论坛热点话题挖掘》", 《计算机应用》, vol. 33, no. 11, 1 November 2013 (2013-11-01), pages 3072 - 3074 *
王春龙等: "《基于LDA 的改进K-means 算法在文本聚类中的应用》", 《计算机应用》, vol. 34, no. 1, 10 January 2014 (2014-01-10), pages 250 - 252 *
董蜻灵等: "《基于LDA模型的文本聚类研究》", 《中国计算语言学研究前沿进展(2009-2011), 2011 年》, 31 December 2011 (2011-12-31), pages 455 - 460 *
补嘉: "《基于LDA的社交网络链接预测模型研究》", 《中国优秀硕士学位论文全文数据库》, 15 October 2012 (2012-10-15), pages 17 - 25 *
郑诚等: "《基于主题模型的K-均值文本聚类》", 《计算机与现代化》, no. 8, 31 August 2013 (2013-08-31), pages 78 - 80 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN106202480A (zh) * 2016-07-19 2016-12-07 淮阴工学院 一种基于K‑means和LDA双向验证的网络行为习惯聚类方法
CN106202480B (zh) * 2016-07-19 2019-06-11 淮阴工学院 一种基于K-means和LDA双向验证的网络行为习惯聚类方法
CN106960025B (zh) * 2017-03-19 2019-09-27 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107391546A (zh) * 2017-06-01 2017-11-24 浙江唯见科技有限公司 Vr资源全关联的方法和系统
CN107391546B (zh) * 2017-06-01 2020-07-07 浙江唯见科技有限公司 Vr资源全关联的方法和系统
CN107835113A (zh) * 2017-07-05 2018-03-23 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107705213A (zh) * 2017-07-17 2018-02-16 西安电子科技大学 一种静态社交网络的重叠社团发现方法
CN107705213B (zh) * 2017-07-17 2022-01-28 西安电子科技大学 一种静态社交网络的重叠社团发现方法
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN109255722A (zh) * 2018-08-22 2019-01-22 电子科技大学 一种基于邻居拓扑的复杂网络层次分析系统及方法
CN109255722B (zh) * 2018-08-22 2020-09-18 电子科技大学 一种基于邻居拓扑的复杂网络层次分析系统及方法
CN110264372A (zh) * 2019-05-16 2019-09-20 西安交通大学 一种基于节点表示的主题社团发现方法
CN110264372B (zh) * 2019-05-16 2022-03-08 西安交通大学 一种基于节点表示的主题社团发现方法
CN110457477A (zh) * 2019-08-09 2019-11-15 东北大学 一种面向社交网络的兴趣社群发现方法
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法
US20220101852A1 (en) * 2020-09-30 2022-03-31 Honda Motor Co., Ltd. Conversation support device, conversation support system, conversation support method, and storage medium

Also Published As

Publication number Publication date
CN103793501B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN104076944B (zh) 一种聊天表情输入的方法和装置
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
CN104679738B (zh) 互联网热词挖掘方法及装置
CN103870447A (zh) 一种基于隐含狄利克雷模型的关键词抽取方法
CN104199974A (zh) 一种面向微博的动态主题检测与演变追踪方法
CN103207856A (zh) 一种本体概念及层次关系生成方法
CN110134958B (zh) 一种基于语义词网络的短文本主题挖掘方法
CN105095419A (zh) 一种面向微博特定类型用户的信息影响力最大化方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN105740342A (zh) 一种基于社会关系主题模型的社交网络朋友推荐方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN104035975A (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN110222176A (zh) 一种文本数据的清洗方法、系统及可读存储介质
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN105302866A (zh) 一种基于lda主题模型的osn社区发现方法
CN106649730B (zh) 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN107992549A (zh) 动态短文本流聚类检索方法
CN104008301A (zh) 一种领域概念层次结构自动构建方法
CN105224675B (zh) 一种顾及时空效应的微博主题提取方法
CN103970865A (zh) 基于种子词的微博文本层次主题发现方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161206

Address after: Science and technology innovation center 2 No. 516000 Guangdong city of Huizhou province huiao Avenue South High-tech Industrial Park Huatai Road 1 Building No. 208

Patentee after: Huizhou Grass Technology Co., Ltd.

Address before: 516007 Huicheng City, Guangdong Province, the main road, No. 46, No.

Patentee before: Huizhou College

CP01 Change in the name or title of a patent holder

Address after: Science and technology innovation center 2 No. 516000 Guangdong city of Huizhou province huiao Avenue South High-tech Industrial Park Huatai Road 1 Building No. 208

Patentee after: Guangdong small grass Technology Co., Ltd.

Address before: Science and technology innovation center 2 No. 516000 Guangdong city of Huizhou province huiao Avenue South High-tech Industrial Park Huatai Road 1 Building No. 208

Patentee before: Huizhou Grass Technology Co., Ltd.

CP01 Change in the name or title of a patent holder
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20200120

CF01 Termination of patent right due to non-payment of annual fee