CN111460317B - 一种意见领袖的识别方法、装置和设备 - Google Patents
一种意见领袖的识别方法、装置和设备 Download PDFInfo
- Publication number
- CN111460317B CN111460317B CN202010238810.6A CN202010238810A CN111460317B CN 111460317 B CN111460317 B CN 111460317B CN 202010238810 A CN202010238810 A CN 202010238810A CN 111460317 B CN111460317 B CN 111460317B
- Authority
- CN
- China
- Prior art keywords
- index parameters
- node user
- probability
- opinion leader
- topic network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 6
- MYVIATVLJGTBFV-UHFFFAOYSA-M thiamine(1+) chloride Chemical compound [Cl-].CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N MYVIATVLJGTBFV-UHFFFAOYSA-M 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 22
- 230000008569 process Effects 0.000 description 12
- 238000005259 measurement Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 241000238557 Decapoda Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种意见领袖的识别方法、装置及电子设备,用于提高意见领袖的识别效果。该方法包括:确定话题网络中的节点用户是意见领袖的概率;将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
Description
技术领域
本文件涉及计算机软件技术领域,尤其涉及一种意见领袖的识别方法、装置和电子设备。
背景技术
话题网络是社交网络中参与某一话题的所有用户以及用户间转发、评论、点赞关系所构成的网络。在话题网络中,有一部分用户与周围的用户存在较多的联系,能够以自己的观点影响其追随者,甚至主导舆论走向,这部分参与者被称为意见领袖。
由于意见领袖的重要性,因此有必要准确地识别出意见领袖。相关技术中常用的方案是利用PageRank算法计算话题网络中每个节点(即用户)的重要性程度值,进一步将重要性排名靠前的用户作为意见领袖。
然而,上述案忽略了用户自身的属性,比如话题中用户的粉丝数、关注数等指标参数,意见领袖的识别效果不佳。
发明内容
本说明书实施例的目的是提供一种意见领袖的识别方法、装置及电子设备,用于提高意见领袖的识别效果。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种意见领袖的识别方法,包括:
确定话题网络中的节点用户是意见领袖的概率;
将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
第二方面,提出了一种意见领袖的识别装置,其特征在于,包括:
概率获取模块,用于确定话题网络中的节点用户是意见领袖的概率;
比例系数获取模块,用于将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
权重获取模块,用于基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
识别模块,用于基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
第三方面,提出了一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
确定话题网络中的节点用户是意见领袖的概率;
将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
确定话题网络中的节点用户是意见领袖的概率;
将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
由以上本说明书实施例提供的技术方案可见,本说明书实施例方案至少具备如下一种技术效果:在识别意见领袖时考虑了节点用户的多个指标参数,便于提升意见领袖的识别效果。同时,对于不同的话题网络能够自动训练出最佳的权重,进一步提高了意见领袖的识别效果,计算得出的意见领袖在覆盖率、核心率等衡量指标上的表现较佳。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书的一个实施例提供的一种意见领袖的识别的方法的流程示意图。
图2是本说明书的另一个实施例提供的一种意见领袖的识别的方法的流程示意图。
图3是本说明书的一个实施例提供的一种意见领袖的识别装置的结构示意图。
图4是说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本文件中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
为解决相关技术意见领袖的识别效果不佳的问题,本说明书实施例提供一种意见领袖的识别方法,该方法的执行主体,可以但不限于手机、电脑、服务器等,或者,该方法的执行主体还可以是能够执行该方法的客户端本身。
为便于描述,下文以该方法的执行主体为服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
图1是本说明书一个或多个实施例提供的一种意见领袖的识别方法的实现流程示意图,包括如下步骤:
S102:确定话题网络中的节点用户是意见领袖的概率。
可选地,在S102之前还可以包括如下步骤:采集与话题网络的相关数据,并基于所述相关数据构建所述话题网络;通过PageRank算法确定所述节点用户在所述话题网络中的重要性程度值。上述话题网络的相关数据例如包括:博文内容、博文转发数、评论数、点赞数数据。
这样,S102具体可以是基于所述节点用户在所述话题网络中的重要性程度值,确定所述话题网络中的所述节点用户是意见领袖的概率。具体例如,该例子可以将话题网络中的多个(全部的)节点用户的重要性程度值相加作为分母,每个节点用户的重要性程度值作为分子,将得到的数值作为每个节点用户是意见领袖的概率。通常,节点用户的重要性程度值越大,节点用户是意见领袖的概率也越大。
S104:将概率以及节点用户的多个指标参数输入预设模型,得到多个指标参数分别对应的比例系数。其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关。
其中,上述预设模型用于基于用户是意见领袖的概率,以及节点用户的多个指标参数,得到上述多个指标参数分别对应的比例系数。该比例系数还可以称作是比例因子、系数等。
通常,多个指标参数中,各个指标参数分别与其对应的比例系数相乘,并相乘后得到的多个数值相加后得到的数值(即权重)越大,用户是意见领袖的概率也越大;反之,得到的数值越小,用户是意见领袖的概率也越小。
上述多个指标参数,例如可以是节点用户的粉丝数、关注数、转发数、评论数、点赞数等。
S106:基于多个指标参数以及多个指标参数分别对应的比例系数,得到节点用户的权重。
可选地,该S106可以通过如下公式得到节点用户的权重:
pi=β0x0+β1x1+β2x2+…+βnxn
其中,pi是所述节点用户的权重,i是所述节点用户的编号,该实施例可以通过上述公式得到话题网络中的每一个用户的权重。
x0~xn是所述多个指标参数,n是所述多个指标参数的个数。
β0~βn是所述多个指标参数分别对应的比例系数。
S108:基于节点用户的权重,通过PageRank算法识别出话题网络中的意见领袖。
实际上,S102至S108可以是一个循环执行的过程,也即通过S108利用 PageRank算法得到节点用户在话题网络中的重要性程度值,并重新确定话题网络中的节点用户是意见领袖的概率,也即返回执行S102。
上述循环过程中,在每次循环执行到S108之后,可以利用覆盖度指标等对比前后两次的意见领袖的识别结果,直到效果下降或提升很少即可结束循环,将最后一次循环过程得到的意见领袖作为最终的意见领袖。
本说明书实施例提供的意见领袖的识别方法,在识别意见领袖时考虑了节点用户的多个指标参数,便于提升意见领袖的识别效果。上述多个指标参数比如,话题网络中用户的粉丝数、关注数等指标,通常来说,用户的粉丝数量庞大,其在话题中的影响力也会较高,成为意见领袖的可能性越大。
同时,对于不同的话题网络而言,节点用户的粉丝数、关注数等指标参数间的相对重要性是不同的,不能仅仅利用一套权重体系来衡量。本说明书实施例提出的基于自适应加权的PageRank算法的话题意见领袖识别方法,加权计算节点用户的权重时,结合模型算法自动的计算出每个加权指标的权重大小 (基于多个指标参数以及对应的比例系数得到),对于不同的话题网络能够自动训练出最佳的权重,进一步提高了意见领袖的识别效果,计算得出的意见领袖在覆盖率、核心率等衡量指标上的表现较佳。
可选地,在实施例100执行之前,还可以包括如下步骤:以话题网络中的节点用户是意见领袖的概率为因变量,上述多个指标参数为自变量,建立上述预设模型,上述预设模型具体可以是逻辑回归模型。
在一个例子中,上述预设模型是逻辑回归模型,该逻辑回归模型是通过如下公式得到的:
其中,p是节点用户是意见领袖的概率。
X是节点用户的多个指标参数构成的向量,例如,X包括(x0,x1,…,xn),n 是所述多个指标参数的个数。
β是所述多个指标参数分别对应的比例系数构成的向量,例如,β包括(β0,β1,…,βn),n是所述多个指标参数的个数。
为详细说明本发明实施例提供的意见领袖的识别方法,以下将结合一个具体的实施例进行说明。如图2所示,该实施例200包括如下步骤。
S202:采集话题网络的相关数据。
该S202具体可以包括如下步骤:
1)根据关键词,利用爬虫采集热门博文数据,包括博文内容、博文转发数、评论数、点赞数数据等。
2)对于采集到的热门博文数据,进一步采集博文的转发者、评论者、评论内容数据等。
3)对于博文的作者、转发者、评论者等,采集每个用户的粉丝数、关注数等数据。
S204:构建话题网络。
该步骤可以将采集到的每个用户作为一个节点添加到网络中,当两个用户之间存在转发、评论、点赞等关联关系时,在两者之间构建一条指向被转发/ 评论人的有向边,最终构建出话题网络。
S206:计算初始意见领袖。
该S206具体可以包括如下步骤:
1)计算节点用户的重要性程度值。对于构建好的话题网络,使用 PageRank算法计算话题网络中每个节点用户的重要性程度值,计算公式如下:
π(k+1)T=(1-α)eT+απ(k)TV
其中,π(k+1)T和π(k)T分别表示更新前后所有节点用户的重要性程度值,α是阻尼系数(解决稀疏问题),eT表示单位行向量,V是投票矩阵,其元素vij表示节点用户i对节点用户j分配的权重的比例,此处投票矩阵中的相邻节点用户对应的元素等于1,其余元素为0,表示每个节点用户将自身的权重平均分配给相邻的节点用户。
2)计算初始意见领袖。
将能使得整个话题网络的覆盖度达到一定比例(人为设定的阈值)的重要性排名靠前的n位节点用户作为意见领袖。覆盖度是从用户交互形成的网络拓扑的角度出发,计算意见领袖进行单步传播(两个节点用户之间存在有向边)能够覆盖的节点占话题网络中所有节点用户的比例。一般认为,固定意见领袖人数的情况下,覆盖度越高,则说明意见领袖的识别效果越好。
S208:根据计算得出的初始意见领袖,计算不同指标参数对意见领袖的影响程度。
1)采集每个节点用户的粉丝数、关注数、转发数、评论数、点赞数等指标参数,并进行z-score标准化处理,具体参见如下公式:
其中,x′表示标准化处理后的指标参数,x为原始指标参数,μ为原始指标参数的均值,σ为原始指标参数的标准差。
2)以是否是意见领袖为因变量,标准化处理后的后的粉丝数、关注数、转发数、评论数、点赞数等指标参数为自变量,采用的逻辑回归模型如下:
其中,p是节点用户是意见领袖的概率。
X是节点用户的多个指标参数构成的向量,例如,X包括(x0,x1,…,xn),n 是所述多个指标参数的个数。
β是所述多个指标参数分别对应的比例系数构成的向量,例如,β包括 (β0,β1,…,βn),n是所述多个指标参数的个数。
3)对逻辑回归模型求解的比例系数向量进行归一化处理,比例系数的大小表示自变量对意见领袖的影响程度。归一化公式如下:
其中,β′表示归一化处理后的比例系数,β为原始比例系数,βmax为原始比例系数的最大值,βmin为原始比例系数的最小值。
S210:根据上述归一化处理后的比例系数,计算话题网络中每个节点用户的权重;并在考虑节点用户的权重的情况下,再次计算意见领袖。
1)计算每个节点用户的权重pi:
pi=β0x0+β1x1+β2x2+β3x3+β4x4
其中,β0~β4表示逻辑回归模型计算得到的归一化处理后的比例系数, x0~x4分别表示标准化处理后的粉丝数、关注数、转发数、评论数、点赞数, i是节点用户的编号。
2)再次计算节点用户的重要性程度值以及意见领袖:
π(k+1)T=(1-α)eT+απ(k)TV
此时,投票矩阵V中的元素不再等于0/1,而是根据节点用户的权重大小计算得到:
S212:判断PageRank算法模型是否收敛;
在模型收敛时结束流程;
在模型为收敛时,跳转至S208的步骤2),循环执行S208和S210,直至模型收敛。
具体地,该步骤可以可以利用覆盖度指标等对比前后两次的意见领袖的识别结果,直到效果下降或提升很少即可结束循环,将最后一次循环过程得到的意见领袖作为最终的意见领袖。
本说明书实施例提供的意见领袖的识别方法,在识别意见领袖时考虑了节点用户的多个指标参数,便于提升意见领袖的识别效果。
同时,本说明书实施例提出的基于自适应加权的PageRank算法的话题意见领袖识别方法,加权计算节点用户的权重时,结合模型算法自动的计算出每个加权指标的权值大小(基于多个指标参数以及对应的比例系数得到),对于不同的话题网络能够自动训练出最佳的权值,进一步提高了意见领袖的识别效果,计算得出的意见领袖在覆盖率、核心率等衡量指标上的表现较佳。
如图3所示,为本说明书实施例提供的一种意见领袖的识别装置300。请参阅图3,该意见领袖的识别装置300可包括:
概率获取模块302,可以用于确定话题网络中的节点用户是意见领袖的概率;
比例系数获取模块304,可以用于将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
权重获取模块306,可以用于基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
识别模块308,可以用于基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
本说明书实施例在识别意见领袖时考虑了节点用户的多个指标参数,便于提升意见领袖的识别效果。同时,对于不同的话题网络能够自动训练出最佳的权值,进一步提高了意见领袖的识别效果,计算得出的意见领袖在覆盖率、核心率等衡量指标上的表现较佳。
可选地,在一种实施方式中,所述装置300还包括:
模型建立模块,用于以所述概率为因变量,所述多个指标参数为自变量,建立所述预设模型。
可选地,在一种实施方式中,所述预设模型是通过如下公式得到的:
其中,p是所述概率;
X是所述多个指标参数构成的向量;
β是所述多个指标参数分别对应的比例系数构成的向量。
可选地,在一种实施方式中,所述权重获取模块306,还可以用于采集所述话题网络的相关数据,并基于所述相关数据构建所述话题网络;通过 PageRank算法确定所述节点用户在所述话题网络中的重要性程度值;其中,概率获取模块302,可以用于基于所述节点用户在所述话题网络中的重要性程度值,确定所述话题网络中的所述节点用户是意见领袖的概率。
可选地,在一种实施方式中,所述权重获取模块306,还可以用于通过如下公式得到所述节点用户的权重:
pi=β0x0+β1x1+β2x2+…+βnxn
其中,pi是所述节点用户的权重,i是所述节点用户的编号;
x0~xn是所述多个指标参数,n是所述多个指标参数的个数;
β0~βn是所述多个指标参数分别对应的比例系数。
意见领袖的识别装置300能够实现图1~图2的方法实施例的方法,具体可参考图1~图2所示实施例的意见领袖的识别方法,不再赘述。
图4是本说明书的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory, RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成意见领袖的识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
确定话题网络中的节点用户是意见领袖的概率;将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
由以上本说明书实施例提供的技术方案可见,本说明书实施例方案至少具备如下一种技术效果:在识别意见领袖时考虑了节点用户的多个指标参数,便于提升意见领袖的识别效果。同时,对于不同的话题网络能够自动训练出最佳的权值,进一步提高了意见领袖的识别效果,计算得出的意见领袖在覆盖率、核心率等衡量指标上的表现较佳。
上述如本说明书图1~图2所示实施例揭示的意见领袖的识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1~图2的方法,并实现意见领袖的识别装置在图 1~图2所示实施例的功能,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1~图2所示实施例的方法,并具体用于执行以下操作:
确定话题网络中的节点用户是意见领袖的概率;将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖。
由以上本说明书实施例提供的技术方案可见,本说明书实施例方案至少具备如下一种技术效果:在识别意见领袖时考虑了节点用户的多个指标参数,便于提升意见领袖的识别效果。同时,对于不同的话题网络能够自动训练出最佳的权值,进一步提高了意见领袖的识别效果,计算得出的意见领袖在覆盖率、核心率等衡量指标上的表现较佳。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (7)
1.一种意见领袖的识别方法,其特征在于,包括:
采集话题网络的相关数据,所述话题网络的相关数据包括:博文内容、博文转发数、评论数、点赞数数据,并基于所述相关数据构建所述话题网络;
通过PageRank算法确定节点用户在所述话题网络中的重要性程度值;
确定话题网络中的节点用户是意见领袖的概率;
将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖;
其中,所述将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数之前,所述方法还包括:
以所述概率为因变量,所述多个指标参数为自变量,建立所述预设模型;
所述预设模型是通过如下公式得到的:
其中,p是节点用户是意见领袖的概率;
X是节点用户的多个指标参数构成的向量;
β是所述多个指标参数分别对应的比例系数构成的向量;
对逻辑回归模型求解的比例系数向量进行归一化处理,比例系数的大小表示自变量对意见领袖的影响程度,归一化公式如下:
其中,β′表示归一化处理后的比例系数,β为原始比例系数,βmax为原始比例系数的最大值,βmin为原始比例系数的最小值。
2.根据权利要求1所述的方法,其特征在于,所述确定话题网络中的节点用户是意见领袖的概率包括:
基于所述节点用户在所述话题网络中的重要性程度值,确定所述话题网络中的所述节点用户是意见领袖的概率。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重包括:通过如下公式得到所述节点用户的权重:
pi=β0x0+β1x1+β2x2+…+βnxn
其中,pi是所述节点用户的权重,i是所述节点用户的编号;
x0~xn是所述多个指标参数,n是所述多个指标参数的个数;
β0~βn是所述多个指标参数分别对应的比例系数。
4.一种意见领袖的识别装置,其特征在于,包括:
概率获取模块,用于确定话题网络中的节点用户是意见领袖的概率;
比例系数获取模块,用于将所述概率以及所述节点用户的多个指标参数输入预设模型,得到所述多个指标参数分别对应的比例系数;其中,所述概率和所述多个指标参数以及所述多个指标参数分别对应的比例系数相关;
权重获取模块,用于基于所述多个指标参数以及所述多个指标参数分别对应的比例系数,得到所述节点用户的权重;
识别模块,用于基于所述节点用户的权重,通过PageRank算法识别出所述话题网络中的意见领袖;
模型建立模块,用于以所述概率为因变量,所述多个指标参数为自变量,建立所述预设模型;
所述预设模型是通过如下公式得到的:
其中,p是节点用户是意见领袖的概率;
X是节点用户的多个指标参数构成的向量;
β是所述多个指标参数分别对应的比例系数构成的向量;
对逻辑回归模型求解的比例系数向量进行归一化处理,比例系数的大小表示自变量对意见领袖的影响程度,归一化公式如下:
其中,β′表示归一化处理后的比例系数,β为原始比例系数,βmax为原始比例系数的最大值,βmin为原始比例系数的最小值;
所述权重获取模块,还用于采集所述话题网络的相关数据,所述话题网络的相关数据包括:博文内容、博文转发数、评论数、点赞数数据,并基于所述相关数据构建所述话题网络;通过PageRank算法确定所述节点用户在所述话题网络中的重要性程度值。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
模型建立模块,用于以所述概率为因变量,所述多个指标参数为自变量,建立所述预设模型。
6.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1所述的识别方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行权利要求1所述的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238810.6A CN111460317B (zh) | 2020-03-30 | 2020-03-30 | 一种意见领袖的识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238810.6A CN111460317B (zh) | 2020-03-30 | 2020-03-30 | 一种意见领袖的识别方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460317A CN111460317A (zh) | 2020-07-28 |
CN111460317B true CN111460317B (zh) | 2022-12-30 |
Family
ID=71681726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010238810.6A Active CN111460317B (zh) | 2020-03-30 | 2020-03-30 | 一种意见领袖的识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460317B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073476A1 (en) * | 2002-10-10 | 2004-04-15 | Prolink Services Llc | Method and system for identifying key opinion leaders |
CN102662956A (zh) * | 2012-03-05 | 2012-09-12 | 西北工业大学 | 一种基于用户话题链接行为的社交网络意见领袖识别方法 |
CN102890702A (zh) * | 2012-07-19 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种面向网络论坛的意见领袖挖掘方法 |
CN104142948A (zh) * | 2013-05-09 | 2014-11-12 | 富士通株式会社 | 挖掘领域观点领袖的方法和设备 |
CN105631021A (zh) * | 2015-12-29 | 2016-06-01 | 武汉理工大学 | Hadoop环境中基于PageRank的网络论坛中意见领袖识别优化方法 |
CN110489658A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于双图模型的在线社交网络意见领袖挖掘方法 |
-
2020
- 2020-03-30 CN CN202010238810.6A patent/CN111460317B/zh active Active
Non-Patent Citations (2)
Title |
---|
Detecting Opinion Leaders in Online Communities Based on an Improved PageRank Algorithm;X.D.Yu等;《Applied Mechanics and Materials》;20140331;第543-547卷;全文 * |
基于机器学习的水军识别及话题影响力分析研究;高云雪;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190515;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111460317A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409889B (zh) | 一种区块链中的区块确定方法、装置及电子设备 | |
CN110874440B (zh) | 一种信息推送及其模型训练的方法、装置及电子设备 | |
CN108763952B (zh) | 一种数据分类方法、装置及电子设备 | |
CN111639687B (zh) | 一种模型训练以及异常账号识别方法及装置 | |
US20110016111A1 (en) | Ranking search results based on word weight | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN110019785B (zh) | 一种文本分类方法及装置 | |
CN110334013B (zh) | 决策引擎的测试方法、装置及电子设备 | |
CN114817538B (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN109255073B (zh) | 一种个性化推荐方法、装置及电子设备 | |
CN110020025A (zh) | 一种数据处理方法及装置 | |
CN117648418A (zh) | 多文档问答方法、装置、电子设备及存储介质 | |
CN110245684B (zh) | 数据处理方法、电子设备和介质 | |
CN109271453B (zh) | 一种数据库容量的确定方法和装置 | |
CN114511358A (zh) | 工程建设材料价格估算方法、装置、电子设备及存储介质 | |
CN111460317B (zh) | 一种意见领袖的识别方法、装置和设备 | |
CN115129791A (zh) | 一种数据压缩存储方法、装置及设备 | |
CN111311372A (zh) | 一种用户识别方法和装置 | |
CN109063967B (zh) | 一种风控场景特征张量的处理方法、装置及电子设备 | |
CN117278566A (zh) | 算力节点选择方法、装置、电子设备及可读存储介质 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN114840762A (zh) | 推荐内容确定方法、装置和电子设备 | |
CN110443746B (zh) | 基于生成对抗网络的图片处理方法、装置及电子设备 | |
CN110032564B (zh) | 一种数据表关联关系的确定方法和装置 | |
CN111461892B (zh) | 用于风险识别模型的衍生变量选择方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096 Applicant after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100096 101 / F, building 14, 27 Jiancai Middle Road, Haidian District, Beijing Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |