CN111026976A - 微博特定事件关注群体识别方法 - Google Patents

微博特定事件关注群体识别方法 Download PDF

Info

Publication number
CN111026976A
CN111026976A CN201911282150.5A CN201911282150A CN111026976A CN 111026976 A CN111026976 A CN 111026976A CN 201911282150 A CN201911282150 A CN 201911282150A CN 111026976 A CN111026976 A CN 111026976A
Authority
CN
China
Prior art keywords
user
microblog
users
feature
specific event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911282150.5A
Other languages
English (en)
Other versions
CN111026976B (zh
Inventor
黄改娟
刘浩天
王寒茹
张仰森
段瑞雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201911282150.5A priority Critical patent/CN111026976B/zh
Publication of CN111026976A publication Critical patent/CN111026976A/zh
Application granted granted Critical
Publication of CN111026976B publication Critical patent/CN111026976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种微博特定事件关注群体识别方法,通过改进PageRank算法对特定事件的重点用户进行识别,在对特定事件的重点关注用户进行识别的基础上,对重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征,然后采用模糊c‑means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次。本发明的方法能够很好的识别出特定事件的重点关注用户,同时采用特征映射的方法对用户群体聚类分析,在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。

Description

微博特定事件关注群体识别方法
技术领域
本发明涉及一种微博特定事件关注群体识别方法,属于群体识别方法技术领域。
背景技术
随着互联网的高速发展,社交媒体因其方便性、时效性迅速成为人们表达意见、抒发观点的重要载体。微博以用户交互为核心,用户更倾向于关注与自己有相同兴趣爱好、或有现实社会关系的用户,具有相同或相似的属性的用户往往形成一个群体。群体现象在社交网络中普遍存在,对于特定的群体而言,内部成员紧密联系,而群体内成员与外部的关系则相对稀疏。
微博中活跃着形形色色的用户群体,内部成员往往是某一特定事件的发布者、传播者、关注者。当一个事件发生之后,迅速会在微博上传播开来,吸引一大批特定人群去关注事件的发展与走向,这一庞大群体中,大多数人持旁观者角度,以数量优势默默影响事件的发展趋势,而事件的发布者和传播者往往是事件的当事人或者有影响力的社交账号,能够对事件的发展起到关键性乃至决定性的作用。识别微博中特定事件的关注群体这对于微博用户来说,有助于扩大社交圈,发现更多与自己有相同兴趣爱好的人;对于微博运营商来说,实现群体划分有助于实现精准营销;对于社会而言,由于发现潜在热点话题并及时追踪,便于决策者更好地对社会舆论实现监督和管理。
发明人在对群体发现的研究进行详细调研的基础上,同时对社团发现领域的相关研究加以调研,以求能对关注群体识别提供借鉴参考作用。
在社团发现的研究中,Xiu等人针对COPRA算法的随机更新和稳定性差的缺点,提出了一种基于标签传播的重叠社区发现算法。该算法通过遍历每个节点来计算节点的值,并找到参考节点以确定划分的社区数。然后参考节点用于更新相邻节点的标签以标识重叠节点,并且在找到所有重叠节点时可以对重叠社区进行划分。李孔文等人提出NCC算法,利用聚集系数对局部社团进行划分,该算法不需要考虑全局信息,在时间复杂度上具有一定的优势,然而,该算法的缺点在于最终解可能不是全局最优解。Gulmera和Amaral提出的采用基于模拟退火算法的GA算法解决了NCC算法的缺点。王雪梅和王义和将模拟退火算法(SA)与遗传算法(GA)进行结合应用在群体发现的研究上,提出了两种改进算法SSB1和SSB2来分析和测试他们的探索能力。该算法主要有两个缺陷:(1)无法准确的找到社团的边界;(2)算法复杂度高。
在面向微博特定群体发现的研究领域中,李蕾提出了基于TF-IDF算法的群体特征抽取算法,该算法对语义相似度进行了改进并且提出了用户主体相关度的概念,结合微博文本分析方法和关系分析方法对特定群体进行识别,结果提高搜索特定群体的效率和时间。王越提出了基于微博用户自定义兴趣标签的动态网络模型,该算法以差分分析的方式识别社群归属变化的节点,然后计算这些节点的社区隶属度,以实现动态网络的社区划分。Shen和Cheng等人提出了一种同时检测复杂群体结构重叠性和层次性的算法(Eagle),该算法采用凝聚框架使得Jaccard系数较大的两个类簇合成一个社团,扩展了模块性的质量函数,该算法在实际网络结构中的应用实例取得了很好的效果,但未考虑网络交互特征。
综上所述,关于社团发现和微博特定事件关注群体识别方面的研究,有了很大的进步,对群体识别和社团划分领域具有推动性的贡献。但是面向微博特定事件的关注群体识别的相关研究还是有限的,而且现有的社团发现算法的时间复杂度高,同时忽略了网络交互特征。
发明内容
为了解决现有技术存在的问题,本发明通过改进PageRank算法对重点用户进行识别,在基于网络特征的特定重点用户识别算法基础上,对识别出的重点用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征,然后采用模糊c-means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次。
本发明为了实现上述的技术目的,采用如下的技术方案。
一种微博特定事件关注群体的识别方法,包括如下步骤:
S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法,识别特定事件的重点关注用户。
S2对S1识别出的重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征。
S3采用模糊c-means聚类算法对重点关注用户进行聚类,识别重点关注用户的人群层次。
进一步的,本发明提供一种微博特定事件关注群体的识别方法,S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法,识别特定事件的重点关注用户,其具体方法如下。
S11构建特定事件的微博用户网络结构图,即有向加权图G=(V,E,P,W)
将整个微博社交平台看成一张图,图节点是微博用户自身,微博用户的交互关系构成边,而特定事件的关注群体之间的交互可以视为其中的子图,该图为特定事件的微博用户网络结构图,用有向加权图G=(V,E,P,W)表示。
其中,V为特定事件下关注用户的集合V={v1,v2,v3,v4,…,vn},其中vi为某个微博用户,当微博用户vi对特定事件进行了发表、转发或者评论操作时,将微博用户vi加入到特定事件关注用户集合中,其中vi∈V。
E为特定事件下相关微博用户交互的集合E={e11,e12,e13,e14,…,emn},其中eij为微博用户vi与微博用户vj对特定事件进行了交互操作,具体为微博用户vi转发或者评论了微博用户vj在特定事件下的相关微博,该交互具有方向性,即
Figure BDA0002317056560000031
P为特定事件下相关微博用户权重的集合P={p1,p2,p3,p4,…,pn},其中pi为微博用户vi的权重,满足pi∈P。
W为特定事件下用户交互关系权重的集合,W={w11,w12,w13,…,wmn},其中wij为微博用户vi与微博用户vj之间的交互关系eij的权重,满足wij∈W。
S12结合用户属性权重和用户交互属性权重构建DLRank排序算法,迭代收敛后,将DLR值排名靠前的用户当作该事件的重点关注用户。
识别特定事件的重点关注用户类似于寻找微博用户网络结构图中的核心节点,关于对微博影响力的研究中,像PageRank以及复杂网络中心性分析法,大多以互粉关系以及自身属性构建模型,基本忽略了用户自身属性的权重和用户交互关系的权重。
而事实上,每个微博用户都具有一定的影响力,影响力越大的用户越容易带动特定事件的观点走向,本申请在PageRank网页排名算法的基础上,增加了用户属性权重和用户交互属性权重值的特征,构建了基于网络结构特征的特定事件的重点关注用户识别算法DeepLeaderRank(DLRank)。
具体的,微博用户之间相互评论或者转发微博构成微博用户网络结构图的边,一条有向边表示一次投票策略,边的权重值采用微博用户之间的交互属性权重值衡量,边的权重值的大小表示用户之间互动的紧密度,同时节点自身具有权重值即用户自身属性权重。用户自身属性权重值越大,说明用户影响力越大;用户交互关系权重值越大,说明用户间的影响力越大。本申请结合用户属性权重和用户交互属性权重构建DLRank排序算法。
具体的,DLRank算法的迭代公式如下:
π(k+1)T=(1-α)eT+απ(k)TG (1)
其中,π(k)T为迭代更新前的所有微博用户的DLR值,π(k+1)T为迭代更新后的所有微博用户的DLR值,α为阻尼系数,eT为投票矩阵的单位行向量,G为投票矩阵,其中的元素gij为投票权重,其计算方法公式为:
Figure BDA0002317056560000041
由于在微博用户网络结构图中会出现一些出度为0的节点,也就是该微博用户没有任何与其他人进行交互,这类节点称为死节点(仅原创微博,没有评论或者转发他人微博),这些死节点会影响算法的效果。因此,引入阻尼系数α来解决图稀疏的问题,本申请阻尼系数α设置为α=0.85。
DLRank是迭代式的算法,算法收敛后的矩阵为π*,收敛的条件是矩阵A满足可逆条件,迭代算法的解如公式(3)所示,矩阵A如公式(4)所示:
π*=(1-α)eT+απ(*)G (3)
A=E-αG (4)
按照迭代公式计算所有节点的DLR值,最终迭代收敛后,将DLR值排名靠前的用户当作该特定事件的重点关注用户。
进一步的,本发明的一种微博特定事件关注群体的识别方法,S2,具体的,对S1识别出的重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征。
S21对S1识别出的特定事件的重点关注用户进行信息采集,抽取其标签和认证信息。
具体的,对特定事件的重点关注用户进行信息采集,所述信息包括微博用户的ID、昵称、标签、认证信息、关注数、粉丝数、微博数、微博内容、会员等级、所在省/市等,提取其认证信息和标签作为用户特征。
S22对用户特征进行预处理和格式化。
具体的,采用NLPIR分词系统对认证信息和标签的长词条进行分词,将该认证信息或者标签用词的集合来表示。
S23构建重点关注用户特征集合。
构建用户特征集合,具体的,用户特征集合表示为Fu={uw1,uw2,uw3,…,uwm},其中m表示当前用户特征包含的特征词数目;
特征维集合表示为Fd={dw1,dw2,dw3,…,dwn},其中n表示特征维所包含的词数目。
S24获得重点关注用户特征初始特征值。
重点关注用户初始特征值计算公式为:
Figure BDA0002317056560000051
其中,X为微博用户ui的特征集合数量,x为每个特征在该用户特征集合出现的次数。
S25计算用户特征与特征维之间的平均语义相似度。
用户特征集合与特征维集合之间的语义相似度计算公式为:
Figure BDA0002317056560000052
其中,fu为用户特征集合,fd为特征维集合,Sim(uwi,dwj)为用户特征与特征维之间的平均语义相似度,uwi为包含i个词的用户特征的集合,dwj为包含j个词的特征维集合。
词语相似度利用HowNet进行计算,其公式为:
Figure BDA0002317056560000053
其中,词语W1、W2在HowNet中分别有n和m个义原,S1i为W1的第i个义原,S2j为W2的第j个义原,Sim(S1,S2)表示两个义原S1i、S2j之间的相似度,其公式为:
Figure BDA0002317056560000054
其中,βi(1≤i≤4)为调节参数,且满足β1234=1,β1≥β2≥β3≥β4,本申请中,βi分别取值为:0.5、0.2、0.17和0.13。
S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量,将特征的特征值与最大相似度的乘积作为特征维的特征值。
具体的,特征维对应的特征值的计算公式为,
Figure BDA0002317056560000055
其中,max{SF((fu)a,fd)}表示用户的X个特征分别与特征维中fd计算后的最大语义相似度值,fd((fu)a)表示当取得最大相似度时该特征自身的特征值,T(fd)为特征维fd对应的特征值。
将每个重点用户用m维的向量进行表征,实现用户特征到特征维的特征映射。
进一步的,本发明的一种微博特定事件关注群体的识别方法,S3采用模糊c-means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次,其具体方法如下。
模糊c-means聚类算法(Fuzzy c-means Clustering Algorithm),简称FCMA,该算法的目标是计算每个元素对所有簇类中心的隶属程度,从而将数据归类为隶属程度值最高的簇类。FCMA算法是无监督的模糊聚类算法,在聚类的过程中无须人为干预。因此,本申请采用此算法,对特定事件关注用户进行群体聚类。
S31抽取特定事件的重点关注用户,构建待聚类的微博用户集合,得到微博用户原始数据矩阵。
待聚类的微博用户特征集合公式为:
Cu={x1,x2,x3,…,xn}
其中n表示待聚类的用户数量;
每个微博用户通过m维的特征向量进行表征,公式为:
xi=(xi1,xi2,xi3,…,xim);
其中,i为用户,m为特征维数。
基于以上特征得到重点关注用户的原始数据矩阵,公式为:
Figure BDA0002317056560000061
其中,i为用户,m为特征维数。
S32标准差规格化方法数据矩阵平滑转换,得到规格化的重点用户特征向量
由于不同微博用户数据有不同的量纲,不同量纲下的数据无法横向比较,为了比较不同量纲下的数据,本申请采用标准差规格化方法数据矩阵进行平滑转换,公式为:
Figure BDA0002317056560000062
其中i=1,2,3,...,n;k=1,2,3,...,m;
Figure BDA0002317056560000063
表示样本数据的平均值,
Figure BDA0002317056560000071
表示样本数据的标准差,x′ik表示经过规格化后的微博用户特征向量。
S33计算重点用户间相似程度
rij=R(xi,xj)表示数据矩阵中用户xi与用户xj之间的相似度,基于所有用户相似度值构建模糊相似矩阵,其中rij的值采用模糊数学中的指数相似系数法定值,公式为:
Figure BDA0002317056560000072
其中,m表示用户特征维度,
Figure BDA0002317056560000073
表示数据标准差的平方,基于上述公式得到用户间相似程度,最后构建模糊相似矩阵进行聚类分析。
S34构建模糊相似矩阵进行聚类分析
基于模糊c-means聚类分析中,核心在于找到最佳聚类阈值ξ∈[0,1],不同的聚类阈值,数据会聚到不同的簇类中,因此,本申请引入F统计量来确定最优聚类参数ξ。
第i个簇类中用户第k个特征的平均值
Figure BDA0002317056560000074
的公式为:
Figure BDA0002317056560000075
其中,UNi为第i个簇类中微博用户的数量,k=(1,2,3,…,m)为微博用户x的第k个特征,所有微博用户第k个特征的平均值
Figure BDA0002317056560000078
的公式为:
Figure BDA0002317056560000076
设CN表示当聚类阈值取值为ξ时对应的簇类数量,采用F统计量来衡量聚类阈值ξ的好坏,F统计量公式为:
Figure BDA0002317056560000077
统计量F服从(CN-1,UN-CN)的F分布,公式(15)计算F统计量中分子表示不同簇类之间的距离,分母表示同一簇类中元素间的距离,因此,分子值越大,F值就越大,不同簇类间的距离也就越大,说明聚类效果越好。
依据数理统计方差分析理论,若F≥Fα(CN-1,UN-CN)(α=0.05),则聚类结果合理;再取max{Fα}所对应的ξ作为模糊聚类的最佳阈值,聚类阈值为ξ时也就是最佳聚类结果。
本发明采用上述的技术方案,取得了如下的技术效果。
本发明的方法能够很好的识别出特定事件的重点关注用户,同时采用特征映射的方法对用户群体聚类分析,在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。
本发明的方法,可以得到微博中特定事件的关注群体,这对于微博用户来说,有助于扩大社交圈,发现更多与自己有相同兴趣爱好的人;对于微博运营商来说,实现群体划分有助于实现精准营销;对于社会而言,由于发现潜在热点话题并及时追踪,便于决策者更好地对社会舆论实现监督和管理,具有较强的有效性和进步性。
附图说明
图1为用户动态交互关系图;
图2为PageRank算法排名结果;
图3为DLRank算法排名结果;
图4为引入特征映射与基于规则硬匹配的平均聚类准确度对比图;
图5为模糊聚类结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明提供一种微博特定事件关注群体的识别方法,包括如下步骤:
一种微博特定事件关注群体的识别方法,包括如下步骤:
S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法,识别特定事件的重点关注用户。
S2对S1识别出的重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征。
S3采用模糊c-means聚类算法对重点关注用户进行聚类,识别重点关注用户的人群层次。
具体的,本发明提供一种微博特定事件关注群体的识别方法,S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法,识别特定事件的重点关注用户,其具体方法如下。
S11构建特定事件的微博用户网络结构图,即有向加权图G=(V,E,P,W)
将整个微博社交平台看成一张图,图节点是微博用户自身,微博用户的交互关系构成边,而特定事件的关注群体之间的交互可以视为其中的子图,该图为特定事件的微博用户网络结构图,用有向加权图G=(V,E,P,W)表示。
其中,V为特定事件下关注用户的集合V={v1,v2,v3,v4,…,vn},其中vi为某个微博用户,当微博用户vi对特定事件进行了发表、转发或者评论操作时,将微博用户vi加入到特定事件关注用户集合中,其中vi∈V。
E为特定事件下相关微博用户交互的集合E={e11,e12,e13,e14,…,emn},其中eij为微博用户vi与微博用户vj对特定事件进行了交互操作,具体为微博用户vi转发或者评论了微博用户vj在特定事件下的相关微博,该交互具有方向性,即
Figure BDA0002317056560000091
P为特定事件下相关微博用户权重的集合P={p1,p2,p3,p4,…,pn},其中pi为微博用户vi的权重,满足pi∈P。
W为特定事件下用户交互关系权重的集合,W={w11,w12,W13,…,wmn},其中wij为微博用户vi与微博用户vj之间的交互关系eij的权重,满足wij∈W。
S12结合用户属性权重和用户交互属性权重构建DLRank排序算法,迭代收敛后,将DLR值排名靠前的用户当作该事件下的重点关注用户。
具体的,微博用户之间相互评论或者转发微博构成微博用户网络结构图的边,一条有向边表示一次投票策略,边的权重值采用微博用户之间的交互属性权重值衡量,边的权重值的大小表示用户之间互动的紧密度,同时节点自身具有权重值即用户自身属性权重。本申请结合用户属性权重和用户交互属性权重构建DLRank排序算法。用户自身属性权重值越大,说明用户影响力越大;用户交互关系权重值越大,说明用户间的影响力越大。
具体的,DLRank算法的迭代公式如下:
π(k+1)T=(1-α)eT+απ(k)TG (1)
其中,π(k)T为迭代更新前的所有微博用户的DLR值,π(k+1)T为迭代更新后的所有微博用户的DLR值,α为阻尼系数,eT为投票矩阵的单位行向量,G为投票矩阵,其中的元素gij为投票权重,其计算方法公式为:
Figure BDA0002317056560000101
由于在微博用户网络结构图中会出现一些出度为0的节点,也就是该微博用户没有任何与其他人进行交互,这类节点称为死节点(仅原创微博,没有评论或者转发他人微博),这些死节点会影响算法的效果。因此,引入阻尼系数α来解决图稀疏的问题,本实施例阻尼系数α设置为α=0.85。
DLRank是迭代式的算法,算法收敛后的矩阵为π*,收敛的条件是矩阵A满足可逆条件,迭代算法的解如公式(3)所示,矩阵A如公式(4)所示:
π*=(1-α)eT+απ(*)G (3)
A=E-αG (4)
按照迭代公式计算所有节点的DLR值,最终迭代收敛后,将DLR值排名靠前的用户当作该特定事件的重点关注用户。
进一步的,本发明的一种微博特定事件关注群体的识别方法,S2,具体的,对S1识别出的重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征。
S21对S1识别出的特定事件的重点关注用户进行信息采集,抽取其标签和认证信息。
具体的,对特定事件的重点关注用户进行信息采集,所述信息包括微博用户的ID、昵称、标签、认证信息、关注数、粉丝数、微博数、微博内容、会员等级、所在省/市等,提取其认证信息和标签作为用户特征。
S22对用户特征进行预处理和格式化。
具体的,采用NLPIR分词系统对认证信息和标签的长词条进行分词,将该认证信息或者标签用词的集合来表示。
S23构建重点关注用户特征集合。
构建用户特征集合,具体的,用户特征集合表示为Fu={uw1,uw2,uw3,…,uwm},其中m表示当前用户特征包含的特征词数目;
特征维集合表示为Fd={dw1,dw2,dw3,…,dwn},其中n表示特征维所包含的词数目。
S24获得重点关注用户特征初始特征值。
重点关注用户初始特征值计算公式为:
Figure BDA0002317056560000111
其中,X为微博用户ui的特征集合数量,x为每个特征在该用户特征集合出现的次数。
S25计算用户特征与特征维之间的平均语义相似度。
用户特征集合与特征维集合之间的语义相似度计算公式为:
Figure BDA0002317056560000112
其中,fu为用户特征集合,fd为特征维集合,Sim(uwi,dwj)为用户特征与特征维之间的平均语义相似度,uwi为包含i个词的用户特征的集合,dwj为包含j个词的特征维集合。
词语相似度利用HowNet进行计算,其公式为:
Figure BDA0002317056560000113
其中,词语W1、W2在HowNet中分别有n和m个义原,S1i为W1的第i个义原,S2j为W2的第j个义原,Sim(S1,S2)表示两个义原S1i、S2j之间的相似度,其公式为:
Figure BDA0002317056560000114
其中,βi(1≤i≤4)为调节参数,且满足β1234=1,β1≥β2≥β3≥β4,本申请中,βi分别取值为:0.5、0.2、0.17和0.13。
S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量,将特征的特征值与最大相似度的乘积作为特征维的特征值。
具体的,特征维对应的特征值的计算公式为,
Figure BDA0002317056560000115
其中,max{SF((fu)a,fd)}表示用户的X个特征分别与特征维中fd计算后的最大语义相似度值,fd((fu)a)表示当取得最大相似度时该特征自身的特征值,T(fd)为特征维fd对应的特征值。
将每个重点用户用m维的向量进行表征,实现用户特征到特征维的特征映射。
进一步的,本发明的一种微博特定事件关注群体的识别方法,S3采用模糊c-means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次,其具体方法如下。
S31抽取特定事件的重点关注用户,构建待聚类的微博用户集合,得到微博用户原始数据矩阵。
待聚类的微博用户特征集合公式为:
Cu={x1,x2,x3,…,xn}
其中n表示待聚类的用户数量;
每个微博用户通过m维的特征向量进行表征,公式为:
xi=(xi1,xi2,xi3,…,xim);
其中,i为用户,m为特征维数。
基于以上特征得到重点关注用户的原始数据矩阵,公式为:
Figure BDA0002317056560000121
其中,i为用户,m为特征维数。
S32标准差规格化方法数据矩阵平滑转换,得到规格化的重点用户特征向量
由于不同微博用户数据有不同的量纲,不同量纲下的数据无法横向比较,为了比较不同量纲下的数据,本申请采用标准差规格化方法数据矩阵进行平滑转换,公式为:
Figure BDA0002317056560000122
其中i=1,2,3,...,n;k=1,2,3,...,m;
Figure BDA0002317056560000123
表示样本数据的平均值,
Figure BDA0002317056560000124
表示样本数据的标准差,x′ik表示经过规格化后的微博用户特征向量。
S33计算重点用户间相似程度
rij=R(xi,xj)表示数据矩阵中用户xi与用户xj之间的相似度,基于所有用户相似度值构建模糊相似矩阵,其中rij的值采用模糊数学中的指数相似系数法定值,公式为:
Figure BDA0002317056560000131
其中,m表示用户特征维度,
Figure BDA0002317056560000132
表示数据标准差的平方,基于上述公式得到用户间相似程度,最后构建模糊相似矩阵进行聚类分析。
S34构建模糊相似矩阵进行聚类分析
基于模糊c-means聚类分析中,核心在于找到最佳聚类阈值ξ∈[0,1],不同的聚类阈值,数据会聚到不同的簇类中,因此,本申请引入F统计量来确定最优聚类参数ξ。
第i个簇类中用户第k个特征的平均值
Figure BDA0002317056560000133
的公式为:
Figure BDA0002317056560000134
其中,UNi为第i个簇类中微博用户的数量,k=(1,2,3,…,m)为微博用户x的第k个特征,所有微博用户第k个特征的平均值
Figure BDA0002317056560000137
的公式为:
Figure BDA0002317056560000135
设CN表示当聚类阈值取值为ξ时对应的簇类数量,采用F统计量来衡量聚类阈值ξ的好坏,F统计量公式为:
Figure BDA0002317056560000136
统计量F服从(CN-1,UN-CN)的F分布,公式(15)计算F统计量中分子表示不同簇类之间的距离,分母表示同一簇类中元素间的距离,因此,分子值越大,F值就越大,不同簇类间的距离也就越大,说明聚类效果越好。
依据数理统计方差分析理论,若F>Fα(CN-1,UN-CN)(α=0.05),则聚类结果合理;再取max{Fα}所对应的ξ作为模糊聚类的最佳阈值,聚类阈值为ξ时也就是最佳聚类结果。
实施实验例
本实施实验例采集2018年11月4日至2019年01月01日的“重庆万州公交车坠江事件”下的402185条微博数据以及706392条用户评论数据,然后对发表微博和评论的1108577名用户的个人信息进行采集,抽取了微博用户的ID、昵称、标签、认证信息、关注数、粉丝数、微博数、微博内容、会员等级、所在省/市等18个特征,用于本实施实验例的特定事件关注群体的识别。
1、特定事件的重点关注用户标识结果
本实施实验例抽取了100名对上述特定事件关注用户,对用户的属性权重和交互属性权重进行计算,对活跃度阈值高于30的关注用户抽取动态交互关系特征,选出了相互转发、评论交互频度较高的10名用户进行展示分析,构建有向加权图G=(V,E,P,W),结合用户属性权重和用户交互属性权重构建DLRank排序算法,迭代收敛后,最终对用户的DLR值进行排名展示,这10名用户的数据信息如表1所示:
表1用户实验数据信息表
编号 用户ID 用户属性权重 动态交互关系 用户交互关系权重
1 5736XX1989 86.1504 1→(4,6,7,8) (0.0804,0.6000,0.4020,0.0000)
2 1150XX2194 80.3849 2→(3,9,10) (0.4020,0.6000,00804)
3 2808XX0071 72.3025 3→(7,9,10) (1.002,1.8000,0.0804
4 2706XX4154 70.9248 4→(2,10) (0.4020,0.4020)
5 2803XX6363 68.0875 5→(1,7,10) (1.0020,0.4020,0.0000)
6 6749XX5843 66.3573 6→(3,7,10) (1.4040,1.0002,0.0000)
7 1618XX1664 65.1734 7→(4,8) (0.4040,0.4040)
8 6837XX1033 58.0652 8→(5,10) (0.4040,0.6000)
9 5948XX7894 52.3602 9→(1,2,7) (0.1980,0.8040,10800)
10 1704XX1601 41.0679 10→(8) (0.4020)
(为保护隐私,将用户ID做了模糊处理)
使用编号代替用户ID,对用户之间的动态交互关系进行可视化表征,边表示用户i评论或者转发了用户j的微博,构建的用户动态交互关系图如图1所示:
此处,采用PageRank算法和DLRank算法分别对10名用户进行排名,排序结果分别如图2、图3所示。
从图2和图3的实验结果对比可以直观看出用户影响力的排名变化,在PageRank算法中,仅考虑了用户交互关系,没有将用户属性考虑在内,因此用户活跃度高、粉丝数高的用户排名相对靠前,因此用户10排名第一,在DLRank算法中,加入了用户属性权重和用户交互属性权重,因此用户排名相对也发生了变化,用户7的交互关系虽然没有用户10频度高,但是在特定事件下用户7的属性特征权重和其他用户与用户7的交互属性权重值都非常高,因此在DLRank算法排名中,用户7跃居第一名。
经过人工对数据分析显示,用户10(ID=1704XX1601)为名人明星,而用户7(ID=1618XX1664)为头条新闻的官方微博,因此用户的活跃度以及对特定事件的关注程度要远远高于普通微博用户。同理,受到用户属性权重和用户交互属性权重的影响,其他用户的重要程度也发生了不同程度的变化,因此本申请构建的DLRank算法效果要优于PageRank算法。
2、特定事件的关注群体聚类结果
本实施实验例对1108577名用户的进行信息采集,抽取其认证信息和标签,对其预处理和格式化后,构建关注用户特征集合,然后对关注用户特征集合中特征出现的频次进行从大到小排序,然后取TOP 100作为用户向量的特征维,最后为每个用户构建100维的用户属性特征向量进行聚类分析。
为了验证引入特征映射思想能对提升关注群体用户的聚类效果,做了对比试验,采用不同的方式构建用户属性特征向量:(1)基于特征映射的用户属性特征向量表征;(2)基于硬匹配规则构建用户属性特征向量。采用同样的数据集进行实验分析,用平均聚类准确度作为评价标准,平均聚类准确度计算公式如下:
Figure BDA0002317056560000151
其中n为聚类数量,pi为各聚类的准确度即簇类中相似元素的最大值与簇类总元素值之比,平均聚类准确度数值的大小,表示聚类效果的好坏。
对比结果如图4所示。通过实验结果分析发现,在构建用户属性特征向量时考虑语义相似度并且引入特征映射思想,相对于基于硬匹配规则构建用户属性特征向量,在平均聚类准确度上有明显提升效果。
为了便于聚类效果展示,本申请从1108577名用户中抽取出了102名领域差别明显领域内相似度高的用户进行聚类效果展示,同时对聚类阈值采用F统计量计算得到ξ=0.5812,本申请抽取了10名用户认证信息和标签数据进行展示,数据如表2所示。
对用户认证信息和标签进行分词,构建用户属性特征词集合,然后采用特征映射的策略构建关注用户特征集合,计算用户属性特征与特征维集合内特征之间的相似度,选取相似度最大的特征并计算对应的特征值构建用户特征向量,经规格化后计算数据矩阵中的元素相似程度,同时基于元素相似度值构建模糊相似矩阵,对分类阈值取0.5812时的数据进行模糊聚类,聚类结果如图5所示。
图5的聚类结果分析显示,102名用户共分为5类事件关注群体,其中五角星为噪音点,忽略不计,手动对各个簇类的用户进行分析发现,小圆点簇Cluster1的用户特征可以定义为官方微博群体;“+”号簇Cluster2的用户特征可以定义为微博博主群体;“×”号簇Cluster3的用户特征可以定义为爱好体育群体;下三角簇Cluster4的用户特征可以定义为爱好旅游群体;方块sss簇Cluster5的用户特征可以定义为爱好美食群体。经验证,本申请提出的用户群体聚类模型聚类效果明显,模型具有的可行性。
表2用户认证信息与标签数据采集样例表
用户ID 认证信息 标签
2357XX2555 重庆某律师事务所专职律师 科技,时尚
1706XX6081 某铁路公安局某公安处民警 健康,美食,军事
3122XX4691 某健身会所某店店长 体育,心理
2303XX8657 知名科学科普博主 好性格,吃,天蝎座
5936XX7005 某小主持人 做梦
3127XX7673 某市某医院骨科副主任医师 宠物
1882XX6220 知名音乐博主 美容服饰,美食
5579XX7215 头条文章作者 军事,娱乐,体育
2279XX5507 天津某文化传播有限公司法人代表 星座命理,旅行,音乐
5899XX7098 某品牌官方微博 时尚,潮流,美容护肤
(为保护隐私,将用户ID及认证信息做了模糊处理)
本发明提供的技术方案,不受上述实施例的限制,凡是利用本发明的结构和方式,经过变换和代换所形成的技术方案,都在本发明的保护范围内。

Claims (10)

1.一种微博特定事件关注群体的识别方法,其特征在于,包括如下步骤:
S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法,识别特定事件的重点关注用户;
S2对S1识别出的重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征;
S3采用模糊c-means聚类算法对重点关注用户进行聚类,识别重点关注用户的人群层次。
2.根据权利要求所述的一种微博特定事件关注群体的识别方法,其特征在于:
S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法,识别特定事件的重点关注用户,其方法为,
S11构建特定事件的微博用户网络结构图,即有向加权图G=(V,E,P,W),
其中,V为特定事件下关注用户的集合V={v1,v2,v3,v4,…,vn},其中vi为某个微博用户,当微博用户vi对特定事件进行了发表、转发或者评论操作时,将微博用户vi加入到特定事件关注用户集合中,其中vi∈V;
E为特定事件下相关微博用户交互的集合E={e11,e12,e13,e14,…,emn},其中eij为微博用户vi与微博用户vj对特定事件进行了交互操作,具体为微博用户vi转发或者评论了微博用户vj在特定事件下的相关微博,该交互具有方向性,即
Figure FDA0002317056550000011
P为特定事件下相关微博用户权重的集合P={p1,p2,p3,p4,…,pn},其中pi为微博用户vi的权重,满足pi∈P;
W为特定事件下用户交互关系权重的集合,W={w11,w12,w13,…,wmn},其中wij为微博用户vi与微博用户vj之间的交互关系eij的权重,满足wij∈W;
S12结合用户属性权重和用户交互属性权重构建DLRank排序算法,迭代收敛后,将DLR值排名靠前的用户当作该事件下的重点关注用户;
DLRank算法的迭代公式为,π(k+1)T=(1-α)eT+απ(k)TG,
其中,π(k)T为迭代更新前的所有微博用户的DLR值,π(k+1)T为迭代更新后的所有微博用户的DLR值,α为阻尼系数,为0.85,eT为投票矩阵的单位行向量,G为投票矩阵,其中的元素gij为投票权重,其计算方法公式为:
Figure FDA0002317056550000012
,
DLRank是迭代式的算法,算法收敛后的矩阵为π*,收敛的条件是矩阵A满足可逆条件,迭代算法的解和矩阵A公式分别为,
π*=(1-α)eT+απ(*)G
A=E-αG;
按照迭代公式计算所有节点的DLR值,最终迭代收敛后,将DLR值排名靠前的用户当作该特定事件的重点关注用户。
3.根据权利要求1所述的一种微博特定事件关注群体的识别方法,其特征在于:
S2对S1识别出的重点关注用户进行特征抽取,采用基于特征映射的方式对用户属性特征进行向量表征,包括以下步骤,
S21对S1识别出的特定事件的重点关注用户进行信息采集,抽取其标签和认证信息;
S22对用户特征进行预处理和格式化;
S23构建重点关注用户特征集合;
S24获得重点关注用户特征初始特征值;
S25计算用户特征与特征维之间的平均语义相似度;
S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量,将特征的特征值与最大相似度的乘积作为特征维的特征值;
将每个重点用户用m维的向量进行表征,实现用户特征到特征维的特征映射。
4.根据权利要求3所述的一种微博特定事件关注群体的识别方法,其特征在于:
S22对用户特征进行预处理和格式化的方法为采用NLPIR分词系统对认证信息和标签的长词条进行分词,将该认证信息或者标签用词的集合来表示。
5.根据权利要求3所述的一种微博特定事件关注群体的识别方法,其特征在于:
S23构建重点关注用户特征集合的方法为,用户特征集合表示为Fu={uw1,uw2,uw3,…,uwm},其中m表示当前用户特征包含的特征词数目;
特征维集合表示为Fd={dw1,dw2,dw3,…,dwn},其中n表示特征维所包含的词数目。
6.根据权利要求3所述的一种微博特定事件关注群体的识别方法,其特征在于:
重点关注用户初始特征值计算公式为:
Figure FDA0002317056550000021
其中,X为微博用户ui的特征集合数量,x为每个特征在该用户特征集合出现的次数。
7.根据权利要求3所述的一种微博特定事件关注群体的识别方法,其特征在于:
S25计算用户特征与特征维之间的平均语义相似度的方法为,
Figure FDA0002317056550000031
其中,fu为用户特征集合,fd为特征维集合,Sim(uwi,dwj)为用户特征与特征维之间的平均语义相似度,uwi为包含i个词的用户特征的集合,dwj为包含j个词的特征维集合,
词语相似度利用HowNet进行计算,其公式为:
Figure FDA0002317056550000032
其中,词语W1、W2在HowNet中分别有n和m个义原,S1i为W1的第i个义原,S2j为W2的第j个义原,Sim(S1,S2)表示两个义原S1i、S2j之间的相似度,其公式为:
Figure FDA0002317056550000033
其中,βi(1≤i≤4)为调节参数,且满足β1234=1,β1≥β2≥β3≥β4,βi分别取值为:0.5、0.2、0.17和0.13。
8.根据权利要求3所述的一种微博特定事件关注群体的识别方法,其特征在于:
S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量,将特征的特征值与最大相似度的乘积作为特征维的特征值的方法为,
特征维对应的特征值的计算公式为,
T(fd)=fd((fu)a)×max{SF((fu)a,fd)},
α=1,2,3,…,X,
其中,max{SF((fu)a,fd)}表示用户的X个特征分别与特征维中fd计算后的最大语义相似度值,fd((fu)a)表示当取得最大相似度时该特征自身的特征值,T(fd)为特征维fd对应的特征值。
9.根据权利要求1所述的一种微博特定事件关注群体的识别方法,其特征在于:
S3采用模糊c-means聚类算法对特定事件关注用户进行聚类,识别出某个特定事件下重点关注的人群层次,包括如下步骤,
S31抽取特定事件的重点关注用户,构建待聚类的微博用户集合,得到微博用户原始数据矩阵;
S32标准差规格化方法数据矩阵平滑转换,得到规格化的重点用户特征向量;
S33计算重点用户间相似程度;
S34构建模糊相似矩阵进行聚类分析。
10.根据权利要求9所述的一种微博特定事件关注群体的识别方法,其特征在于:
S31抽取特定事件的重点关注用户,构建待聚类的微博用户集合,得到微博用户原始数据矩阵方法为,
待聚类的微博用户特征集合公式为:
Cu={x1,x2,x3,…,xn}
其中n表示待聚类的用户数量;
每个微博用户通过m维的特征向量进行表征,公式为:
xi=(xi1,xi2,xi3,…,xim);
其中,i为用户,m为特征维数;
基于以上特征得到重点关注用户的原始数据矩阵,公式为:
Figure FDA0002317056550000041
其中,i为用户,m为特征维数;
S32标准差规格化方法数据矩阵平滑转换,得到规格化的重点用户特征向量方法为,
采用标准差规格化方法数据矩阵进行平滑转换,公式为:
Figure FDA0002317056550000042
其中i=1,2,3,...,n;k=1,2,3,...,m;
Figure FDA0002317056550000043
表示样本数据的平均值,
Figure FDA0002317056550000044
表示样本数据的标准差,x′ik表示经过规格化后的微博用户特征向量;
S33计算重点用户间相似程度方法为,
rij=R(xi,xj)表示数据矩阵中用户xi与用户xj之间的相似度,基于所有用户相似度值构建模糊相似矩阵,其中rij的值采用模糊数学中的指数相似系数法定值,公式为:
Figure FDA0002317056550000045
其中,m表示用户特征维度,
Figure FDA0002317056550000051
表示数据标准差的平方,基于上述公式得到用户间相似程度;
S34构建模糊相似矩阵进行聚类分析方法为,
引入F统计量来确定最优聚类参数ξ,
第i个簇类中用户第k个特征的平均值
Figure FDA0002317056550000052
的公式为:
Figure FDA0002317056550000053
其中,UNi为第i个簇类中微博用户的数量,k=(1,2,3,…,m)为微博用户x的第k个特征,所有微博用户第k个特征的平均值
Figure FDA0002317056550000054
的公式为:
Figure FDA0002317056550000055
设CN表示当聚类阈值取值为ξ时对应的簇类数量,采用F统计量来衡量聚类阈值ξ的好坏,F统计量公式为:
Figure FDA0002317056550000056
统计量F服从(CN-1,UN-CN)的F分布,若F>Fα(CN-1,UN-CN)(α=0.05),则聚类结果合理;再取max{Fα}所对应的ξ作为模糊聚类的最佳阈值,聚类阈值为ξ时也就是最佳聚类结果。
CN201911282150.5A 2019-12-13 2019-12-13 微博特定事件关注群体识别方法 Active CN111026976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911282150.5A CN111026976B (zh) 2019-12-13 2019-12-13 微博特定事件关注群体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911282150.5A CN111026976B (zh) 2019-12-13 2019-12-13 微博特定事件关注群体识别方法

Publications (2)

Publication Number Publication Date
CN111026976A true CN111026976A (zh) 2020-04-17
CN111026976B CN111026976B (zh) 2024-01-09

Family

ID=70209121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911282150.5A Active CN111026976B (zh) 2019-12-13 2019-12-13 微博特定事件关注群体识别方法

Country Status (1)

Country Link
CN (1) CN111026976B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695353A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN113360778A (zh) * 2021-08-09 2021-09-07 深圳索信达数据技术有限公司 划分用户群体的方法、装置、设备和介质
CN114817563A (zh) * 2022-04-27 2022-07-29 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850647A (zh) * 2015-05-28 2015-08-19 国家计算机网络与信息安全管理中心 一种微博团体的发现方法及装置
CN104991956A (zh) * 2015-07-21 2015-10-21 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850647A (zh) * 2015-05-28 2015-08-19 国家计算机网络与信息安全管理中心 一种微博团体的发现方法及装置
CN104991956A (zh) * 2015-07-21 2015-10-21 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695353A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN111695353B (zh) * 2020-06-12 2023-07-04 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN113360778A (zh) * 2021-08-09 2021-09-07 深圳索信达数据技术有限公司 划分用户群体的方法、装置、设备和介质
CN114817563A (zh) * 2022-04-27 2022-07-29 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法

Also Published As

Publication number Publication date
CN111026976B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN104394118B (zh) 一种用户身份识别方法及系统
Zhang et al. Multimodal marketing intent analysis for effective targeted advertising
CN106940732A (zh) 一种面向微博的疑似水军发现方法
Zhao et al. An empirical comparison of topics in twitter and traditional media
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
Crockett et al. Cluster analysis of twitter data: A review of algorithms
CN111026976A (zh) 微博特定事件关注群体识别方法
Mirani et al. Sentiment analysis of isis related tweets using absolute location
Gu et al. RaRE: Social rank regulated large-scale network embedding
CN110956210B (zh) 一种基于ap聚类的半监督网络水军识别方法及系统
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN110990683A (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN112231583A (zh) 基于动态兴趣组标识和生成对抗网络的电商推荐方法
CN109933720A (zh) 一种基于用户兴趣自适应演化的动态推荐方法
Harakawa et al. Extracting hierarchical structure of web video groups based on sentiment-aware signed network analysis
Hu et al. Co-clustering enterprise social networks
Han et al. Link Prediction in Microblog Network Using Supervised Learning with Multiple Features.
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
CN114840766A (zh) 一种用户画像构建方法、系统、设备及存储介质
CN110489665B (zh) 一种基于情景建模和卷积神经网络的微博个性化推荐方法
Kim et al. Diversity of recommendation with considering data similarity among different types of
Sun Music Individualization Recommendation System Based on Big Data Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant