CN110457477A - 一种面向社交网络的兴趣社群发现方法 - Google Patents
一种面向社交网络的兴趣社群发现方法 Download PDFInfo
- Publication number
- CN110457477A CN110457477A CN201910734196.XA CN201910734196A CN110457477A CN 110457477 A CN110457477 A CN 110457477A CN 201910734196 A CN201910734196 A CN 201910734196A CN 110457477 A CN110457477 A CN 110457477A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- text
- matrix
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 230000003542 behavioural effect Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 210000003813 thumb Anatomy 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000003475 lamination Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 6
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 244000097202 Rathbunia alamosensis Species 0.000 abstract description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 244000060011 Cocos nucifera Species 0.000 description 5
- 235000013162 Cocos nucifera Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向社交网络的兴趣社群发现方法,涉及社区发现技术领域,本发明在传统Text CNN模型基础上建立新的深度学习模型,能够支持多篇社交网络文本输入,并结合社交网络文本间的相似度,提出了基于Text CNN结合相似度的多文本兴趣建模方法,并提出了结合网络结构和互动行为的用户兴趣特征建模方法。利用LM神将网络算法构建用户影响力模型,再根据该模型结果、关注关系以及@行为信息对基于SMB‑TextCNN的结果进行调整,最后根据SIBUIM的结果,提出了基于k‑means重叠的兴趣社区发现方法。该方法考虑了社交网络的结构性以及节点的内容,并且能够对新浪微博用户进行重叠的兴趣社区划分。
Description
技术领域
本发明涉及社区发现技术领域,具体涉及一种面向社交网络的兴趣社群发现方法。
背景技术
随着智能移动设备的发展,人们在互联网上的时间投入比例越来越多。人们会花费大量的时间在社交网络上进行信息的浏览获取。社交网络给用户提供发布超文本信息的功能、评论他人博文的功能、与他人聊天的功能等,用户可以在社交网络中感受到社交带来的愉悦,所以社交网络上的用户具有很大的研究价值。
目前,在线社交网络已成为连接网络虚拟空间和人类物理世界不可或缺的桥梁。如果能通过微博用户的文本及网络交互信息,分析在某一话题下具有兴趣相投的用户群体,对于社交网络上的兴趣发现、舆情监测及心理学研究等领域都具有重要意义。例如在网络舆情监测方面,通过挖掘微博热点事件中兴趣社区,可以帮助政府了解网络舆情以及不同兴趣社区的构成;在心理健康分析领域,对微博用户进行兴趣社区划分,便于进一步对其中的高压力人群实施针对性的心理疏导和专业干预;在类似推荐系统中,帮助进行广告投放等。
社区发现是指将网络中的节点分割成多个簇结构,通过聚类的形式使得分割后的结构中的簇具有高内聚低耦合的特点。兴趣社区发现是指将社交网络中用户以兴趣类别为划分依据的社区发现的研究。
目前对于兴趣社区发现的研究存在三个问题。第一,兴趣社区发现的研究是通过对社交网络中的结构分析、以及基于内容分析或者二者结合的方式进行的研究。对于基于内容的分析的兴趣社区发现研究中,目前存在应用较为广泛的LDA等主题提取的方法,然而对于这些方法的准确率受先验知识影响,并不稳定。而现公认的基于文本内容分类的TextCNN算法虽可解决单文本分类问题,但对网络用户多博文分类效果有所降低。第二,将结构和内容结合的兴趣社区发现方法虽然比单方面的研究更具体,但是它却忽略了社交网络的社交性,在用户的互动行为比如评论、转发、点赞、@等并没有考虑。第三,目前重叠的兴趣社区发现基于标签传播算法,只在网络结构上进行。并且其标签获取方式主要是靠用户标签信息,而用户标签信息具有不准确和片面化的负面影响。而非重叠的兴趣社区发现不符合社交网络中用户具有多种兴趣的这一现象,因此不具有很好的应用价值。所以该研究对网络舆情、公共心理健康、个性化推荐等领域均有重要意义和应用价值。
综上所述,传统的兴趣社区发现忽略了用户产生的多文本内容、交互行为以及用户标签准确性这些重要因素,而且现有基于兴趣社区发现的研究效果不太理想。
发明内容
针对现有技术存在的问题,本发明提供一种面向社交网络的兴趣社群发现方法,在传统Text CNN模型基础上建立新的深度学习模型,能够支持多篇社交网络文本输入,并结合社交网络文本间的相似度,提出了基于Text CNN结合相似度的多文本兴趣建模方法(Similarity considerations and Multi-Blog input interest model based TextCNN,SMB-TextCNN),并提出了结合网络结构和互动行为的用户兴趣特征建模方法(withstructure and interaction behavior user interest model,SIBUIM)。利用LM神将网络算法构建用户影响力模型,再根据该模型结果、关注关系以及@行为信息对基于SMB-TextCNN的结果进行调整,最后根据SIBUIM的结果,提出了基于k-means重叠的兴趣社区发现方法(overlap interest community discovery method based on k-means,K-OICD)。该方法考虑了社交网络的结构性以及节点的内容,并且能够对新浪微博用户进行重叠的兴趣社区划分。
一种面向社交网络的兴趣社群发现方法,具体步骤如下:
步骤1:将Text CNN卷积神经网络模型的单文本输入改为多文本输入,并利用TextCNN卷积神经网络生成该用户的兴趣特征矩阵,利用每个用户多个社交网络文本之间的文本相似度对得到的兴趣特征矩阵进行调整;
步骤1.1:读取同一用户ID的多篇社交网络文本,利用python语言实现的中文分词模块结巴分词中的精确模式对该用户的多篇社交网络文本进行分词;
步骤1.2:使用word2vec模型中的CBOW,即Continuous Bag-of-Words Model训练模型对分词结果进行向量化;
步骤1.3:将所述步骤1.2得到的词向量输入到Text CNN卷积神经网络模型中,经过卷积层,池化层,全连接层等操作后,得到该用户的网络社交文本兴趣特征矩阵T={I1,I2,…IN}T;
步骤1.4:利用余弦相似性计算该用户每篇网络社交文本之间的文本相似性,将得到的网络社交文本相似性作为权重对网络社交文本兴趣特征矩阵进行调整;
步骤2:用LM神经网络算法构建用户影响力模型,将用户影响力分为高、较高、中、低四个等级,再根据用户影响力模型结果、用户关注关系以及@行为信息对基于SMB-TextCNN的结果进行调整;
步骤2.1:抽取社交网络平台的用户的粉丝数、发表文本数、点赞数、评论数、转发数作为影响力模型的特征,将相同ID的用户数据进行合并;
步骤2.2:采用所述步骤2.1得到的用户数据对LM神经网络分类器进行训练验证,将用户影响力分为高、较高、中、低四个等级;
步骤2.3:采用所述步骤2.2中训练的LM神经网络分类器对用户ui的关注者列表构成的关注者集合UFi进行影响力的分类,并从中选取影响力类别为高的用户构成集合HFi;
步骤2.4:分别计算用户ui与集合HFi中所有用户的社交网络文本之间的相似性,利用得到的文本相似性调整所述步骤1.4得到的兴趣特征矩阵;
步骤2.5:计算用户ui的@列表构成的@用户集合P中元素的兴趣矩阵,并计算其兴趣矩阵与ui的兴趣矩阵的相似性,并用得到的结果对所述步骤2.4得到的兴趣特征矩阵进行调整,得到最终的兴趣特征矩阵Fi;
步骤3:基于k-means均值聚类的思想,利用兴趣特征矩阵Fi对社交网络平台用户进行重叠社区的发现和划分;
步骤3.1:计算每个用户兴趣特征矩阵中的每个兴趣类别上各元素的和,兴趣类别k上矩阵第i行各元素的和记为Sumik,所有用户在兴趣类别k上Sumk的值记为Yk={Sum1k,Sum2k,…Sumzk}。
步骤3.2:兴趣类别的Y构成的集合为L={Y1,Y2,…Ym},对集合L中每个元素内部进行k-means算法,即社区构成的集合记为集合C,将Yk内部进行社区划分的结果按照各社区质心的位置从高到低排序,记为{Ck1,Ck2,Cka}。
步骤3.3:设每个兴趣社区下有y个小社区,这y个小社区分别代表每个兴趣类别下的兴趣社区的分布状况,因此对L中每个元素取前y个社区作为本方法在每个类别上社区划分结果。
所述步骤1.4中计算计算社交网络文本相似性调整用户兴趣特征矩阵的公式如下:
V={ω1I1,ω2I2,...ωNIN}T
V为调整后的兴趣矩阵,ωi代表Ii的权重,ωi取值说明如下,使用余弦相似性作为相似性度量标准,计算方式如下:
其中Ii,Ij表示用户ui任意两篇社交网络文本的兴趣分布向量,计算任意两篇社交网络文本相似度后得到矩阵记为B,对矩阵B调整公式如下所示:
A=f(B-δE)
E表示单位矩阵,δ为阈值,如果Bij-δ>0,Aij取值为1表示两篇社交网络文本表示很大的相似度,否则为0。本文用(Ai)表示Ai中1的个数,用(A)表示矩阵A中总元素个数,ωi的值如下所示:
所述步骤2.4中利用用户ui关注的高影响力用户集合HFi的兴趣特征矩阵调节所述步骤1.4得到的兴趣特征矩阵公式如下:
其中|HFi|表示集合HFi中元素的个数,j代表HF中第j个用户的下标,λi为调节参数,g(Vi,Vj)是衡量Vj对Vi贡献的标准,计算方式如下:
矩阵H为用户ui及其关注的高影响力用户集合HFi的兴趣特征矩阵之间的相似度,Sum(H)为所有用户在某一兴趣类别上概率之和,计算方式如下:
所述步骤2.5中所述@行为对用户兴趣矩阵的调整公式如下:
其中用户ui的兴趣特征矩阵为V’i={Ii1’,Ii2’,...IiN’}T,用户ui的@列表构成的用户集合为P。P中任意元素uj兴趣矩阵为Vj’={Ij1’,Ij2’,...IjN’}T,Pik,Pjk分别为用户ui及其@的用户的某一篇社交网络文本在某种兴趣分类上的概率。
本发明的有益效果:本发明提出一种面向社交网络的兴趣社群发现的方法,该方法不仅能够发现模块度较高的兴趣社区,而且运行时间也在可接受范围之内,本方法既可以为政府监测社交网络中的舆论导向,同时又能够帮助完善改进各种推荐算法,而且还可以给心理研究机构提供敏感话题人群的情感变化分析结果。
附图说明
图1为本发明实施例中步骤1.1中分词结果展示图;
图2为本发明实施例中步骤1.2中词向量结果展示图;
图3为本发明实施例中Text CNN卷积神经网络模型框架图;
图4为本发明实施例中不同输入方式下SMB-Text CNN模型用户分类准确率对比实验图;
图5为本发明实施例中不同向量维度下准确率对比实验结果;
图6为本发明实施例中应用的SMB-Text CNN与Text CNN、LDA、TF-IDF四个模型分类准确率对比图;
图7为本发明实施例中步骤2中用LM神将网络算法建立的影响力模型算法流程图;
图8为本发明实施例中应用的LM神经网络于决策树分类器、朴素贝叶斯分类器、随机游走的PageRank算法的影响力结果准确率对比图;
图9为本发明实施例中步骤2提出的SIBUIM和步骤1提出SMB-Text CNN算法以及Text CNN算法准确率对比图;
图10为本发明实施例中K-OICD应用在的SMB-Text CNN算法和SIBUIM算法以及直接使用Text CNN算法和单独的COPRA算法进行类内紧密性CP值和类间紧密型SP值的比较图。
具体实施方式
为了使本发明的目的、技术方案及优势更加清晰,下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种面向社交网络的兴趣社区发现方法,具体方法如下所述:
本实例中,总共获取原始数据1200万条微博博文数据,100万个微博用户数据信息存到数据库中本实例中称为A数据集。另外,本从网上收集到了35000条带有主题标签的数据集。带有主题标签的数据集将主题分为21类:IT、财经、传媒、动漫、房产、广告公共、健康、教育、旅游、美食、女性、汽车、人为艺术、生活、时尚、体育、文字出版、校园、游戏、娱乐、育儿,本实例中称为B数据集。本实例中对A数据集中用户数据选取微博数较少,粉丝较少,转发和评论数较少的用户信息以及网上收集新浪大V用户数据信息和微博名人堂数据信息构建新的数据集C。
步骤1:将Text CNN卷积神经网络模型的单文本输入改为多文本输入,并利用TextCNN卷积神经网络生成该用户的兴趣特征矩阵,利用每个用户多个社交网络文本之间的文本相似度对得到的兴趣特征矩阵进行调整,具体步骤如下:
步骤1.1:读取同一用户ID的多篇社交网络文本,利用python语言实现的中文分词模块结巴分词中的精确模式对该用户的多篇社交网络文本进行分词,分词结果如图1所示;
步骤1.2:使用word2vec模型中的CBOW,即Continuous Bag-of-Words Model训练模型对分词结果进行向量化,向量化结果如图2所示;
步骤1.3:将所述步骤1.2得到的词向量输入到Text CNN卷积神经网络模型中,如图3所示,经过卷积层,池化层,全连接层等操作后,得到该用户的网络社交文本兴趣特征矩阵T={I1,I2,…IN}T;
步骤1.4:利用余弦相似性计算该用户每篇网络社交文本之间的文本相似性,将得到的网络社交文本相似性作为权重对网络社交文本兴趣特征矩阵进行调整;
所述博文相似性调整用户兴趣特征矩阵的公式如下:
V={ω1I1,ω2I2,...ωNIN}T (1)
V为调整后的兴趣矩阵,ωi代表Ii的权重,ωi取值说明如下,本方法使用余弦相似性作为相似性度量标准,计算方式如下:
其中Ii,Ij表示用户ui任意两篇博文的兴趣分布向量,计算任意两篇博文相似度后得到矩阵记为B,对矩阵B调整公式如下所示:
A=f(B-δE) (3)
E表示单位矩阵,δ为阈值,如果Bij-δ>0,Aij取值为1表示两篇博文表示很大的相似度,否则为0。本文用(Ai)表示Ai中1的个数,用(A)表示矩阵A中总元素个数,ωi的值如下所示:
本实例中每篇博文的长度会有差异,而SMB-TextCNN算法模型的输入层长度为固定值,所以本实例要对输入的博文的长度进行统一。本实例测试了输入长度取最大值、最小值、均值三种方法下SMB-TextCNN模型用户分类准确率,如图4所示。
本实例对word2vec输出的词向量维度的大小对SMB-TextCNN模型准确率的影响作出比较。本实验选取100维、150维、200维、250维、300维、350维、400维作为候选维度,观察准确率随着维度变化的变化趋势,通过图5可以发现如果词向量维度较大,会出现过拟合现象,维度过小会影响准确率。准确率在向量维度300维以下时,随着维度的提升而升高,在向量维度300维以上时,准确率开始降低。这里选择300维作为最优维度。
为了证明本实例提出的SMB-TextCNN模型的合理性,本实施例设计了对比实验,将SMB-TextCNN算法模型和TextCNN、LDA以及TF-IDF常见的文本分类算法进行对比。但是本实例提出最后的用户分类可以有多分类,因此传统单分类的分类标准不再适用。因此针对于本实验的分类正确与否说明如表1所示。
由于TextCNN只能对单篇博文进行处理,所以实例将同一用户ID下的所有博文进行合并作为输入,并进行实验对比。最后,实验结果如图6所示。
步骤2:用LM神经网络算法构建用户影响力模型,将用户影响力分为高、较高、中、低四个等级,再根据用户影响力模型结果、用户关注关系以及@行为信息对基于SMB-TextCNN的结果进行调整;
步骤2.1:抽取社交网络平台的用户的粉丝数、发表文本数、点赞数、评论数、转发数作为影响力模型的特征,将相同ID的用户数据进行合并,合并结果如表2所示;
表1分类正确性说明
表2最终数据形式
用户id | 粉丝数 | 微博数 | 点赞数 | 评论数 | 被转发数 | 分类结果 |
1802464801 | 1380 | 383 | 2790 | 732 | 223 | 高 |
2153467364 | 240 | 948 | 679 | 283 | 92 | 低 |
…… | …… | …… | …… | …… | …… | …… |
步骤2.2:采用步骤2.1得到的用户数据对LM神经网络分类器进行训练验证,将用户影响力分为高、较高、中、低四个等级,LM神经网络算法建立的影响力模型算法流程如图7所示;
本实例通过数据集C验证本实例提出的LM神经网络与决策树分类器,朴素贝叶斯分类器以及随机游走的PageRank算法的准确率。数据集划分如表3所示。其中四个指标,本实例将数据集C中用户如果有两项值超过上述平均值,则划分为高。类似,如果有用户有两项超过大V用户数据均值则为较高,准确率对比图如图8所示;
表3数据集划分
内容 | 总数量/个 | 均值/个 |
评论数 | 118431871 | 165870.97(Max=8342455) |
转发数 | 152082044 | 213000.06(Max=12528208) |
粉丝数 | 6341220030 | 888126.09(Max=14707929) |
微博数 | 1701001 | 2382.37(Max=31546) |
步骤2.3:用步骤2.2中训练的LM神经网络分类器对用户ui的关注者列表构成的关注者集合UFi进行影响力的分类,并从中选取影响力类别为高的用户构成集合HFi;
步骤2.4:分别计算用户ui与集合HFi中所有用户的社交网络文本之间的相似性,利用得到的文本相似性调整步骤1.4得到的兴趣特征矩阵;
所述利用用户ui关注的高影响力用户集合HFi的兴趣特征矩阵调节步骤1.4得到的兴趣特征矩阵公式如下:
其中|HFi|表示集合HFi中元素的个数,j代表HF中第j个用户的下标,λi为调节参数,g(Vi,Vj)是衡量Vj对Vi贡献的标准,计算方式如下:
矩阵H为用户ui及其关注的高影响力用户集合HFi的兴趣特征矩阵之间的相似度,Sum(H)为所有用户在某一兴趣类别上概率之和,计算方式如下:
步骤2.5:计算用户ui的@列表构成的@用户集合P中元素的兴趣矩阵,并计算其兴趣矩阵与ui的兴趣矩阵的相似性,并用得到的结果对步骤2.4得到的兴趣特征矩阵进行调整,得到最终的兴趣特征矩阵Fi;
所述@行为对用户兴趣矩阵的调整公式如下:
其中用户ui的兴趣特征矩阵为Vi’={Ii1’,Ii2’,...IiN’}T,用户ui的@列表构成的用户集合为P。P中任意元素uj兴趣矩阵为Vj’={Ij1’,Ij2’,...IjN’}T,Pik,Pjk分别为用户ui及其@的用户的某一篇博文在某种兴趣分类上的概率;
为了验证步骤2提出的SIBUIM算法的合理性,SIBUIM准确率对比实验将SIBUIM和本文提出SMB-TextCNN算法以及TextCNN算法进行对比。因为三个算法均涉及深度学习模型,非深度学习模型已经在SMB-TextCNN模型性能对比实验中进行对比,所以在这里不加入非深度学习模型进行比较。本实验将在准确率上对上述三个模型进行比较说明。SIBUIM准确率对比实验的结果如图9所示;
步骤3:基于k-means均值聚类的思想,利用兴趣特征矩阵Fi对社交网络平台用户进行重叠社区的发现和划分,具体步骤如下:
步骤3.1:计算每个用户兴趣特征矩阵中的每个兴趣类别上各元素的和,兴趣类别k上矩阵第i行各元素的和记为Sumik,所有用户在兴趣类别k上Sumk的值记为Yk={Sum1k,Sum2k,…Sumzk};
步骤3.2:兴趣类别的Y构成的集合为L={Y1,Y2,…Ym},对集合L中每个元素内部进行k-means算法,即社区构成的集合记为集合C,将Yk内部进行社区划分的结果按照各社区质心的位置从高到低排序,记为{Ck1,Ck2,Cka};
划分后的社区数设为a,采用k-means算法对L中元素进行聚类分析,得到a个质心即为输出的社区质心;
步骤3.3:每个兴趣社区下有y个小社区,这y个小社区分别代表每个兴趣类别下的兴趣社区的分布状况,因此对L中每个元素取前y个社区作为本方法在每个类别上社区划分结果;
为了证明步骤3提出的算法合理性,本文通过将K-OICD应用在的SMB-TextCNN算法和SIBUIM算法以及直接使用TextCNN算法和单独的COPRA算法进行CP值和SP值的比较。实验结果如图10所示。可以看出在经过SIBUIM算法后的K-OICD算法在性能上有更好的表现,值得一提的是COPRA算法在本文实验中表现并不理想,其原因为,本文的数据集对于COPRA而言,其信息并不符合而且不准确,所以COPRA算法的效果很差。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (4)
1.一种面向社交网络的兴趣社群发现方法,其特征在于:包括以下步骤:
步骤1:将Text CNN卷积神经网络模型的单文本输入改为多文本输入,并利用Text CNN卷积神经网络生成该用户的兴趣特征矩阵,利用每个用户多个社交网络文本之间的文本相似度对得到的兴趣特征矩阵进行调整;
步骤1.1:读取同一用户ID的多篇社交网络文本,利用python语言实现的中文分词模块结巴分词中的精确模式对该用户的多篇社交网络文本进行分词;
步骤1.2:使用word2vec模型中的CBOW,即Continuous Bag-of-Words Model训练模型对分词结果进行向量化;
步骤1.3:将所述步骤1.2得到的词向量输入到Text CNN卷积神经网络模型中,经过卷积层,池化层,全连接层等操作后,得到该用户的网络社交文本兴趣特征矩阵T={I1,I2,…IN}T;
步骤1.4:利用余弦相似性计算该用户每篇网络社交文本之间的文本相似性,将得到的网络社交文本相似性作为权重对网络社交文本兴趣特征矩阵进行调整;
步骤2:用LM神经网络算法构建用户影响力模型,将用户影响力分为高、较高、中、低四个等级,再根据用户影响力模型结果、用户关注关系以及@行为信息对基于SMB-Text CNN的结果进行调整;
步骤2.1:抽取社交网络平台的用户的粉丝数、发表文本数、点赞数、评论数、转发数作为影响力模型的特征,将相同ID的用户数据进行合并;
步骤2.2:采用所述步骤2.1得到的用户数据对LM神经网络分类器进行训练验证,将用户影响力分为高、较高、中、低四个等级;
步骤2.3:采用所述步骤2.2中训练的LM神经网络分类器对用户ui的关注者列表构成的关注者集合UFi进行影响力的分类,并从中选取影响力类别为高的用户构成集合HFi;
步骤2.4:分别计算用户ui与集合HFi中所有用户的社交网络文本之间的相似性,利用得到的文本相似性调整所述步骤1.4得到的兴趣特征矩阵;
步骤2.5:计算用户ui的@列表构成的@用户集合P中元素的兴趣矩阵,并计算其兴趣矩阵与ui的兴趣矩阵的相似性,并用得到的结果对所述步骤2.4得到的兴趣特征矩阵进行调整,得到最终的兴趣特征矩阵Fi;
步骤3:基于k-means均值聚类的思想,利用兴趣特征矩阵Fi对社交网络平台用户进行重叠社区的发现和划分;
步骤3.1:计算每个用户兴趣特征矩阵中的每个兴趣类别上各元素的和,兴趣类别k上矩阵第i行各元素的和记为Sumik,所有用户在兴趣类别k上Sumk的值记为Yk={Sum1k,Sum2k,…Sumzk};
步骤3.2:兴趣类别的Y构成的集合为L={Y1,Y2,…Ym},对集合L中每个元素内部进行k-means算法,即社区构成的集合记为集合C,将Yk内部进行社区划分的结果按照各社区质心的位置从高到低排序,记为{Ck1,Ck2,Cka};
步骤3.3:设每个兴趣社区下有y个小社区,这y个小社区分别代表每个兴趣类别下的兴趣社区的分布状况,因此对L中每个元素取前y个社区作为本方法在每个类别上社区划分结果。
2.根据权利要求1所述的一种面向社交网络的兴趣社群发现方法,其特征在于:所述步骤1.4中计算计算社交网络文本相似性调整用户兴趣特征矩阵的公式如下:
V={ω1I1,ω2I2,...ωNIN}T
V为调整后的兴趣矩阵,ωi代表Ii的权重,ωi取值说明如下,使用余弦相似性作为相似性度量标准,计算方式如下:
其中Ii,Ij表示用户ui任意两篇社交网络文本的兴趣分布向量,计算任意两篇社交网络文本相似度后得到矩阵记为B,对矩阵B调整公式如下所示:
A=f(B-δE)
E表示单位矩阵,δ为阈值,如果Bij-δ>0,Aij取值为1表示两篇社交网络文本表示很大的相似度,否则为0;本文用(Ai)表示Ai中1的个数,用(A)表示矩阵A中总元素个数,ωi的值如下所示:
3.根据权利要求1所述的一种面向社交网络的兴趣社群发现方法,其特征在于:所述步骤2.4中利用用户ui关注的高影响力用户集合HFi的兴趣特征矩阵调节所述步骤1.4得到的兴趣特征矩阵公式如下:
其中|HFi|表示集合HFi中元素的个数,j代表HF中第j个用户的下标,λi为调节参数,g(Vi,Vj)是衡量Vj对Vi贡献的标准,计算方式如下:
矩阵H为用户ui及其关注的高影响力用户集合HFi的兴趣特征矩阵之间的相似度,Sum(H)为所有用户在某一兴趣类别上概率之和,计算方式如下:
4.根据权利要求1所述的一种面向社交网络的兴趣社群发现方法,其特征在于:所述步骤2.5中所述@行为对用户兴趣矩阵的调整公式如下:
其中用户ui的兴趣特征矩阵为Vi’={Ii1’,Ii2’,...IiN’}T,用户ui的@列表构成的用户集合为P;P中任意元素uj兴趣矩阵为Vj’={Ij1’,Ij2’,...IjN’}T,Pik,Pjk分别为用户ui及其@的用户的某一篇社交网络文本在某种兴趣分类上的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910734196.XA CN110457477A (zh) | 2019-08-09 | 2019-08-09 | 一种面向社交网络的兴趣社群发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910734196.XA CN110457477A (zh) | 2019-08-09 | 2019-08-09 | 一种面向社交网络的兴趣社群发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457477A true CN110457477A (zh) | 2019-11-15 |
Family
ID=68485687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910734196.XA Pending CN110457477A (zh) | 2019-08-09 | 2019-08-09 | 一种面向社交网络的兴趣社群发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457477A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016003A (zh) * | 2020-08-19 | 2020-12-01 | 重庆邮电大学 | 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 |
CN112632275A (zh) * | 2020-12-03 | 2021-04-09 | 大箴(杭州)科技有限公司 | 基于个人文本信息的人群聚类数据处理方法、装置及设备 |
CN113326064A (zh) * | 2021-06-10 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 划分业务逻辑模块的方法、电子设备及存储介质 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
CN103793501A (zh) * | 2014-01-20 | 2014-05-14 | 惠州学院 | 基于社交网络的主题社团发现方法 |
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
-
2019
- 2019-08-09 CN CN201910734196.XA patent/CN110457477A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793501A (zh) * | 2014-01-20 | 2014-05-14 | 惠州学院 | 基于社交网络的主题社团发现方法 |
CN103729475A (zh) * | 2014-01-24 | 2014-04-16 | 福州大学 | 一种社交网络中的多标签传播重叠社区发现方法 |
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
Non-Patent Citations (3)
Title |
---|
KWAN HUI LIM: "Finding twitter communities with common interests using following links of celebrities", 《PROCEEDINGS OF THE 3RD INTERNATIONAL WORKSHOP ON MODELING SOCIAL MEDIA》 * |
杨乐: "面向大规模 Web 服务网络的社团发现算法", 《小型微型计算机系统》 * |
王高飞: "内容相似度的微博兴趣社区发现方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016003A (zh) * | 2020-08-19 | 2020-12-01 | 重庆邮电大学 | 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 |
CN112632275A (zh) * | 2020-12-03 | 2021-04-09 | 大箴(杭州)科技有限公司 | 基于个人文本信息的人群聚类数据处理方法、装置及设备 |
CN112632275B (zh) * | 2020-12-03 | 2022-05-13 | 大箴(杭州)科技有限公司 | 基于个人文本信息的人群聚类数据处理方法、装置及设备 |
CN113326064A (zh) * | 2021-06-10 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 划分业务逻辑模块的方法、电子设备及存储介质 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457477A (zh) | 一种面向社交网络的兴趣社群发现方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN103325061B (zh) | 一种社区发现方法和系统 | |
CN108363804A (zh) | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 | |
Yu et al. | Hierarchical topic modeling of Twitter data for online analytical processing | |
CN109145112A (zh) | 一种基于全局信息注意力机制的商品评论分类方法 | |
CN103617230B (zh) | 一种基于微博的广告推荐方法及系统 | |
CN108108849A (zh) | 一种基于弱监督多模态深度学习的微博情感预测方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
Peng et al. | Human–machine dialogue modelling with the fusion of word-and sentence-level emotions | |
CN107767279A (zh) | 一种基于lda的加权平均的个性化好友推荐方法 | |
Liu et al. | Using collaborative filtering algorithms combined with Doc2Vec for movie recommendation | |
CN108228867A (zh) | 一种基于观点增强的主题协同过滤推荐方法 | |
CN109271634A (zh) | 一种基于用户情感倾向感知的微博文本情感极性分析方法 | |
CN109214454A (zh) | 一种面向微博的情感社区分类方法 | |
Pan et al. | Deep neural network-based classification model for Sentiment Analysis | |
CN106294845A (zh) | 基于权重学习和多特征抽取的多情绪分类方法及装置 | |
CN108875034A (zh) | 一种基于层次化长短期记忆网络的中文文本分类方法 | |
CN108733675A (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN111026976B (zh) | 微博特定事件关注群体识别方法 | |
CN109145090A (zh) | 一种基于深度学习的微博用户情感影响力分析方法 | |
Liu et al. | A reliable cross-site user generated content modeling method based on topic model | |
Liu et al. | Identifying experts in community question answering website based on graph convolutional neural network | |
CN107169051B (zh) | 基于本体间语义相关的三维模型检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |