CN103793501B - 基于社交网络的主题社团发现方法 - Google Patents

基于社交网络的主题社团发现方法 Download PDF

Info

Publication number
CN103793501B
CN103793501B CN201410033736.9A CN201410033736A CN103793501B CN 103793501 B CN103793501 B CN 103793501B CN 201410033736 A CN201410033736 A CN 201410033736A CN 103793501 B CN103793501 B CN 103793501B
Authority
CN
China
Prior art keywords
topic
theme
document
word
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410033736.9A
Other languages
English (en)
Other versions
CN103793501A (zh
Inventor
蔡昭权
周献政
黄翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Small Grass Technology Co Ltd
Original Assignee
Huizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhou University filed Critical Huizhou University
Priority to CN201410033736.9A priority Critical patent/CN103793501B/zh
Publication of CN103793501A publication Critical patent/CN103793501A/zh
Application granted granted Critical
Publication of CN103793501B publication Critical patent/CN103793501B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于社交网络的主题社团发现方法,包括步骤:S1、对社交网络的文档集进行主题分析,从而得到主题向量集;S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。本发明结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。

Description

基于社交网络的主题社团发现方法
技术领域
本发明涉及数据挖掘领域,尤其涉及基于社交网络的主题社团发现方法。
背景技术
随着社交网络服务(简称SNS)的迅速发展,社交网络已经成为人们获取实时信息的重要来源和进行网络社交的重要平台。近几年里我国社交网络的用户数量在高速增长,这就说明了社交网络在高速发展。同时,社交网络存在大量数据信息,而且数据类型有多种形式,如人际网络,文本,图片,视频和音频等。如何利用这些数据为社交网络用户提供更好的服务已经成为了社交网络分析(Socialnetworkanalysis)的重要研究方向。社团发现问题是社交网络分析的核心问题之一。由原来的无向图社团发现到现在的核心社团发现,社团发现问题得到了许多扩展,并且新的问题又被提出来。社团发现研究既有丰富的科学理论,又有巨大的商业意义,比如社团发现算法可以对社交网络的人及其人际结构进行分析,并可以向其推荐好友、商品等。
在社交网络分析时,通常是采集社交网络的文本集,再对文本集进行主题分析,主题分析是通过对文本内容分析并提取出文本中的主题的过程。传统的LDA算法就是对文本集进行主题分析,其中,LDA主题模型涉及到贝叶斯理论、Dirichlet分布、多项分布、图模型、变分推断、EM算法、Gibbs抽样等知识。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bagofwords)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
LDA算法以文档集合作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出两个结果向量,即每个文档文档在主题上的概率,和每个主题在词上的概率。以下就是基于gibbs抽样的LDA算法的伪代码:
其中,k~Multinomial(1/K)为:p(zm,n=k)=1/K,
其中,V为所有文档的总词数,K为主题个数。
主题在词表上的概率矩阵和文档在主题上的概率矩阵θ的元素值分别为:
主题k在词v的概率 φ k , v = n k ( v ) + β Σ v = 1 V ( n k ( v ) + β ) ,
文档m在主题k的概率
经分析,LDA算法时间复杂度为O(N*M*Z*K),其中N为迭代次数,N为文档的个数,Z为点的文本的词的平均个数,K为主题数,并且LDA算法可以对文本很好地进行主题划分。
但是LDA仍然有不足:当前社交网络用户文本更新的速度是非常频繁的,如果当有一篇新文档加入的时候,为了确定这篇文档的主题,LDA算法需要对旧文档和新文档一起进行主题分析,这就重复了对旧文档的主题分析的工作。针对社交网络这一特点,本发明对LDA算法进行改造,使它可以对新文档进行主题分析而不用重复地对旧文档进行主题分析。
Normalized-cuts和Modularity等是传统的社团发现算法,只是利用了链接关系而忽略了网络节点所拥有的文本信息,这就导致了划分结果不能反映社团之间的主题(兴趣)关系。在社交网络中是真实蕴含这些主题(兴趣)关系的,比如人际关系中不同的人有不同的兴趣,即使关系密切的人之间的兴趣也会是不同的。这就导致了在推荐好友中,传统的社团发现算法只能帮助用户找到与其关系密切的好友,并不能找到与其兴趣相近的好友。
经过上述的分析,可以知道传统的社团发现算法是仅能对社团进行链接划分,而不能对社团进行主题划分。本发明将结合基于链接的社团发现算法和主题模型算法设计一种主题社团发现算法。
发明内容
本发明的目的是针对当前社团发现算法仅能对社团进行链接划分而不能对社团进行主题划分的不足,结合基于链接的社团发现算法和主题模型算法提供一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
为解决以上技术问题,本发明公开了一种基于社交网络的主题社团发现方法,包括步骤:
S1、对社交网络的文档集进行主题分析,从而得到主题向量集;
S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;
S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。
进一步的,所述步骤S1具体包括步骤:
S11、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集。
进一步的,所述步骤S11之后还包括步骤:
S12、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤S11得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵。
进一步的,步骤S12中对所述新的文档集中每一个文档执行以下步骤:
S121、对当前新文档进行分词,得到词序列;
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数;
其中,概率分布Multinomial(1/K)具体为p(zn=k)=1/K,zn表示词n所属的主题,K表示当前新文档的主题总数,k表示主题变量;
S123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m,α,β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加1;
其中,m表示当前新文档,nm表示当前新文档中词的总数,K表示当前新文档的主题总数,V表示步骤S11中所述文档集中词的总数,表示此时在当前新文档中主题k的出现次数,表示词v出现在主题k的次数,nk表示主题k所包含的词的总数,α和β为参数;
S124、重复执行步骤S123,直至达到预设的迭代次数,得到迭代完毕时的每个主题的出现次数;
S125、根据步骤S124中得到的所述每个主题的出现次数求出每个主题出现在当前新文档中的概率;具体计算公式为:
表示主题k出现在文档m中的概率,m表示当前新文档,表示步骤S124中得到的在文档m中主题k的出现次数。
其中,所述参数β=0.1,所述参数α=50/文档数。
进一步的,所述步骤S3对于每个主题簇进行如下步骤:
S31、将主题簇看作一个无向图,对图中的每个点进行编号;
S32、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的ΔQ>0,则将此两个节点合并为一个节点;
其中,节点i和节点j的社团链接相似度CLS为:
CLS = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | | N ( Cj ) | * | N ( Cj ) ∪ Cj ∩ N ( Ci ) | | N ( Ci ) | = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | 2 | N ( Cj ) | - | N ( Ci ) |
Q表示社团内部的边数与在假设没有社团结构时的度数的差值的期望的平方,ΔQ是指合并两个社团前的Q值减去合并两个社团后的Q值,Ci表示节点i对应的社团,N(Ci)表示社团Ci的邻居节点集;
S33、重复执行步骤S32,直至没有点需要合并为止,合并后的每个点代表一个社团,全部的点即为当前主题簇的主题社团集。
与现有技术相比,本发明的有益效果是:
1、对LDA算法进行改造,使它可以对更新后产生的新文档进行主题分析而不用重复地对旧文档进行主题分析;
2、本发明针对当前社团发现算法仅能对社团进行链接划分而不能对社团进行主题划分的不足,结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于社交网络的主题社团发现方法的流程示意图;
图2是图1中步骤S1的具体流程图;
图3是图2中步骤S12的具体流程图;
图4是图1中步骤S3的具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于社交网络的主题社团发现方法,如图1所示,包括步骤:
S1、对社交网络的文档集进行主题分析,从而得到主题向量集;
S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;
S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集。
进一步的,如图2所示,所述步骤S1具体包括步骤:
S11、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集。
进一步的,所述步骤S11之后还包括步骤:
S12、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤S11得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵。
进一步的,如图3所示,步骤S12中对所述新的文档集中每一个文档执行以下步骤:
S121、对当前新文档进行分词,得到词序列;
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数;
其中,概率分布Multinomial(1/K)具体为p(zn=k)=1/K,zn表示词n所属的主题,K表示当前新文档的主题总数,k表示主题变量;
S123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m,α,β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加1;
其中,m表示当前新文档,nm表示当前新文档中词的总数,K表示当前新文档的主题总数,V表示步骤S11中所述文档集中词的总数,表示此时在当前新文档中主题k的出现次数,表示词v出现在主题k的次数,nk表示主题k所包含的词的总数,α和β为参数;
S124、重复执行步骤S123,直至达到预设的迭代次数,得到迭代完毕时的每个主题的出现次数;
S125、根据步骤S124中得到的所述每个主题的出现次数求出每个主题出现在当前新文档中的概率;具体计算公式为:
表示主题k出现在文档m中的概率,m表示当前新文档,表示步骤S124中得到的在文档m中主题k的出现次数。
其中,所述参数β=0.1,所述参数α=50/文档数。
进一步的,如图4所示,所述步骤S3对于每个主题簇进行如下步骤:
S31、将主题簇看作一个无向图,对图中的每个点进行编号;
S32、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的ΔQ>0,则将此两个节点合并为一个节点;
其中,节点i和节点j的社团链接相似度CLS为:
CLS = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | | N ( Cj ) | * | N ( Cj ) ∪ Cj ∩ N ( Ci ) | | N ( Ci ) | = | N ( Ci ) ∪ Ci ∩ N ( Cj ) | 2 | N ( Cj ) | - | N ( Ci ) |
Q表示社团内部的边数与在假设没有社团结构时的度数的差值的期望的平方,ΔQ是指合并两个社团前的Q值减去合并两个社团后的Q值,Ci表示节点i对应的社团,N(Ci)表示社团Ci的邻居节点集;
S33、重复执行步骤S32,直至没有点需要合并为止,合并后的每个点代表一个社团,全部的点即为当前主题簇的主题社团集。
其中,S12步骤中的算法是对LDA算法所作的改进,定义为OLDA算法,其伪代码为:
其中,k~Multinomial(1/K)的具体公式为:p(zn=k)=1/K,K为主题总数,其中,V为旧文档的总词数,文档在主题上的概率矩阵θ的元素值为:文档m在主题k的概率
其中,步骤S3是对CLS算法和modularity算法所作的改进,定义为OptimizeModularity算法,其伪代码为:
与现有技术相比,本发明实施例的有益效果是:
1、对LDA算法进行改造,使它可以对更新后产生的新文档进行主题分析而不用重复地对旧文档进行主题分析;
2、本发明针对当前社团发现算法仅能对社团进行链接划分而不能对社团进行主题划分的不足,结合基于链接的社团发现算法和主题模型算法提供了一种能够有效和高效地对社团进行主题和链接划分的主题社团发现算法。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (4)

1.一种基于社交网络的主题社团发现方法,其特征在于,包括步骤:
S1、对社交网络的文档集进行主题分析,从而得到主题向量集;
S2、对所述主题向量集使用k-means算法进行聚类,从而得到主题簇;
S3、对每个所述主题簇进行链接划分,得到每个主题簇的主题社团集;
其中,所述步骤S1具体包括步骤:
S11、对所述社交网络的文档集分词,得到文档集中词的总数,并对所述分词后的文档集采用LDA算法进行主题分析,得到每个主题出现在每个文档的概率矩阵以及每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数;其中,所述概率矩阵中的每一行即为对应的文档在主题上的主题向量,全部的主题向量集合即为所述主题向量集;
S12、当社交网络的文档集更新从而产生新的文档集时,根据所述步骤S11得到的每个文档的主题总数、每个词出现在每个主题上的次数和每个主题所包含的词的总数,对所述新的文档集中每一个新文档分词后进行主题分析,从而得到更新后的每个主题出现在每个文档的概率矩阵;
步骤S12中对所述新的文档集中每一个文档执行以下步骤:
S121、对当前新文档进行分词,得到词序列;
S122、所述词序列中的每个词所属的主题服从概率分布Multinomial(1/K),对所述每个词所属的主题进行抽样,并统计每个主题被抽到的次数,将所述每个主题被抽到的次数标记为当前主题的出现次数;
其中,概率分布Multinomial(1/K)具体为p(zn=k)=1/K,zn表示词n所属的主题,K表示当前新文档的主题总数,k表示主题变量;
S123、对于所述词序列中的每个词,执行以下步骤:取出当前词所属的主题,并将步骤S122统计的被取出的主题的出现次数减1,则此时当前词所属的主题服从概率分布P(zn|m,α,β),接着对当前词所属的主题进行抽样,并将抽到的主题的出现次数加1;
其中,m表示当前新文档,nm表示当前新文档中词的总数,K表示当前新文档的主题总数,V表示步骤S11中所述文档集中词的总数,表示此时在当前新文档中主题k的出现次数,表示词v出现在主题k的次数,nk表示主题k所包含的词的总数,α和β为参数;
S124、重复执行步骤S123,直至达到预设的迭代次数,得到迭代完毕时的每个主题的出现次数;
S125、根据步骤S124中得到的所述每个主题的出现次数求出每个主题出现在当前新文档中的概率;具体计算公式为:
θ m , k = n m k + α Σ k = 1 K ( n m k + α )
θm,k表示主题k出现在文档m中的概率,m表示当前新文档,表示步骤S124中得到的在文档m中主题k的出现次数。
2.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述参数β=0.1。
3.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述参数α=50/文档数。
4.如权利要求1所述的基于社交网络的主题社团发现方法,其特征在于,所述步骤S3对于每个主题簇进行如下步骤:
S31、将主题簇看作一个无向图,对图中的每个点进行编号;
S32、计算任意两个点的社团链接相似度,找出使一个节点的社团链接相似度最大的另一个节点,若此两个节点的ΔQ>0,则将此两个节点合并为一个节点;
其中,节点i和节点i的社团链接相似度CLS为:
C L S = | N ( C i ) ∪ C i ∩ N ( C j ) | | N ( C j ) | * | N ( C j ) ∪ C j ∩ N ( C i ) | | N ( C i ) | = | N ( C i ) ∪ C i ∩ N ( C j ) | 2 | N ( C j ) | * | N ( C i ) |
Q表示社团内部的边数与在假设没有社团结构时的度数的差值的期望的平方,ΔQ是指合并两个社团前的Q值减去合并两个社团后的Q值,Ci表示节点i对应的社团,N(Ci)表示社团Ci的邻居节点集;
S33、重复执行步骤S32,直至没有点需要合并为止,合并后的每个点代表一个社团,全部的点即为当前主题簇的主题社团集。
CN201410033736.9A 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法 Expired - Fee Related CN103793501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410033736.9A CN103793501B (zh) 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410033736.9A CN103793501B (zh) 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法

Publications (2)

Publication Number Publication Date
CN103793501A CN103793501A (zh) 2014-05-14
CN103793501B true CN103793501B (zh) 2016-03-02

Family

ID=50669167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410033736.9A Expired - Fee Related CN103793501B (zh) 2014-01-20 2014-01-20 基于社交网络的主题社团发现方法

Country Status (1)

Country Link
CN (1) CN103793501B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055604B (zh) * 2016-05-25 2019-08-27 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN106202480B (zh) * 2016-07-19 2019-06-11 淮阴工学院 一种基于K-means和LDA双向验证的网络行为习惯聚类方法
CN106960025B (zh) * 2017-03-19 2019-09-27 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN107247728B (zh) * 2017-05-02 2021-04-27 北京星选科技有限公司 文本处理方法、装置及计算机存储介质
CN107391546B (zh) * 2017-06-01 2020-07-07 浙江唯见科技有限公司 Vr资源全关联的方法和系统
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107705213B (zh) * 2017-07-17 2022-01-28 西安电子科技大学 一种静态社交网络的重叠社团发现方法
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN109255722B (zh) * 2018-08-22 2020-09-18 电子科技大学 一种基于邻居拓扑的复杂网络层次分析系统及方法
CN110264372B (zh) * 2019-05-16 2022-03-08 西安交通大学 一种基于节点表示的主题社团发现方法
CN110457477A (zh) * 2019-08-09 2019-11-15 东北大学 一种面向社交网络的兴趣社群发现方法
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法
JP7369110B2 (ja) * 2020-09-30 2023-10-25 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《基于LDA 的改进K-means 算法在文本聚类中的应用》;王春龙等;《计算机应用》;20140110;第34卷(第1期);第250-252页 *
《基于LDA模型的文本聚类研究》;董蜻灵等;《中国计算语言学研究前沿进展(2009-2011), 2011 年》;20111231;第455-460页 *
《基于LDA的社交网络链接预测模型研究》;补嘉;《中国优秀硕士学位论文全文数据库》;20121015;第17-25页 *
《基于主题模型的K-均值文本聚类》;郑诚等;《计算机与现代化》;20130831(第8期);第78-80页 *
《基于主题聚簇评价的论坛热点话题挖掘》;江浩等;《计算机应用》;20131101;第33卷(第11期);第3072-3074页 *

Also Published As

Publication number Publication date
CN103793501A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN104462053B (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN104077417B (zh) 社交网络中的人物标签推荐方法和系统
CN107798043B (zh) 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN105389354B (zh) 面向社交媒体文本的无监督的事件抽取和分类方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN109522420B (zh) 一种获取学习需求的方法及系统
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN112182156B (zh) 基于文本处理的方面级可解释深度网络评分预测推荐方法
CN105302866A (zh) 一种基于lda主题模型的osn社区发现方法
CN109840324A (zh) 一种语义强化主题模型及主题演化分析方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN111026866B (zh) 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN112487110A (zh) 基于网络结构和节点内容的重叠社区演化分析方法及系统
CN106649730B (zh) 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN110851733A (zh) 基于网络拓扑和文档内容的社团发现和情感解释方法
Mishra et al. Twitter sentiment analysis using naive bayes algorithm
CN104008301A (zh) 一种领域概念层次结构自动构建方法
Chen et al. Learning user embedding representation for gender prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161206

Address after: Science and technology innovation center 2 No. 516000 Guangdong city of Huizhou province huiao Avenue South High-tech Industrial Park Huatai Road 1 Building No. 208

Patentee after: Huizhou Grass Technology Co., Ltd.

Address before: 516007 Huicheng City, Guangdong Province, the main road, No. 46, No.

Patentee before: Huizhou College

CP01 Change in the name or title of a patent holder

Address after: Science and technology innovation center 2 No. 516000 Guangdong city of Huizhou province huiao Avenue South High-tech Industrial Park Huatai Road 1 Building No. 208

Patentee after: Guangdong small grass Technology Co., Ltd.

Address before: Science and technology innovation center 2 No. 516000 Guangdong city of Huizhou province huiao Avenue South High-tech Industrial Park Huatai Road 1 Building No. 208

Patentee before: Huizhou Grass Technology Co., Ltd.

CP01 Change in the name or title of a patent holder
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20200120

CF01 Termination of patent right due to non-payment of annual fee