CN111353905A - 针对网络社区的网民用户个体影响力测量和估算系统 - Google Patents

针对网络社区的网民用户个体影响力测量和估算系统 Download PDF

Info

Publication number
CN111353905A
CN111353905A CN202010130701.2A CN202010130701A CN111353905A CN 111353905 A CN111353905 A CN 111353905A CN 202010130701 A CN202010130701 A CN 202010130701A CN 111353905 A CN111353905 A CN 111353905A
Authority
CN
China
Prior art keywords
influence
user
participation
topic
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010130701.2A
Other languages
English (en)
Other versions
CN111353905B (zh
Inventor
王晓
曾轲
王飞跃
韩双双
徐延才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010130701.2A priority Critical patent/CN111353905B/zh
Publication of CN111353905A publication Critical patent/CN111353905A/zh
Application granted granted Critical
Publication of CN111353905B publication Critical patent/CN111353905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于社交网络分析领域,具体涉及一种针对网络社区的网民用户个体影响力测量和估算系统、方法、装置,旨在解决在无显性社交关系的网络社区中个体影响力估算不准确的问题。本系统包括:数据获取模块,配置为获取话题数据及用户评论数据,作为输入数据;指标统计模块,配置为计算参与频度、平均参与密度、显性转化率;转换系数获取模块,配置为获取各影响力节点对应的影响力转换系数;影响力计算模块,配置为基于所述影响力转换系数,获取各影响力节点的影响力。本发明提高了无显性社交关系的个体影响力的估算的准确度。

Description

针对网络社区的网民用户个体影响力测量和估算系统
技术领域
本发明属于社交网络分析领域,具体涉及一种针对网络社区的网民用户个体影响力测量和估算系统、方法、装置。
背景技术
随着Web2.0技术的推广,网络社区正在影响和改变着人们的生活和工作方法。网络用户不仅成为了信息的获取和消费者,也成为了信息的产生和创建者。在这一过程中,网民的交互过程不仅伴随着网络群体的出现,同时孕育了一些具有影响力的网络领袖诞生。罗杰斯在《创新的扩散》一书中就指出,对于一些新的产品和思想,往往是由少数几个人先接受,然后将其传播到整个社会中。这些少量的接收者的影响能力就对其后续的扩散和传播起到了重要的杠杆作用。因此,如何度量一个节点的影响力和在网络传播中起到的作用就成为了一个重要问题,一些学者从个体主义的角度出发,强调特殊个体对其他用户的影响作用,结合社会网络,使用度、中心度、节点介数等指标衡量网络个体的影响力大小。然而,复杂网络具有小世界效应,无法对最大化的目标群体规模进行测量。故此,也可从整体的角度对能够最大化影响潜在客户群体的节点进行考察,进而优化网络传播效率和扩散范围。
目前,主流的用户节点评价方法通常集中于社交网络环境,从显性的社会关系入手,考虑用户节点对其他的影响能力。与SNS等社交媒体环境不同,以天涯社区、百度贴吧等为代表的网络社区环境通常不存在显性的社交关系,即使一些网络社区中逐渐出现了粉丝或好友的社交结构,也不作为信息传播的主要途径。此外,社区用户在给予评论或转发信息的时候,并不要求遵守预定义的引用模板(例如:@userID,#digit,“回复作者”,“回复楼主”等),进而导致用户之间的指向性信息采集较为困难,增加了社区中领袖节点的发现难度。因此,在无显性社交关系的网络社区中,用户影响力的测量和领袖节点的发现面临着新的挑战。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的影响力评价方法无法从无显性社交关系的网络社区中准确地测量和估算网民用户个体影响力的问题,本发明第一方面,提出了一种针对网络社区的网民用户个体影响力测量和估算系统,该系统包括:获取数据模块、指标统计模块、转换系数获取模块、影响力计算模块;
所述数据获取模块,配置为获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据;
所述指标统计模块,配置为将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论;
所述转换系数获取模块,配置为基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数;
所述影响力计算模块,配置为基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
在一些优选的实施方式中,所述指标统计模块中“基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度”,其方法为:
Figure BDA0002395699540000031
其中,tpj表示序号为j的话题,TR表示所有的话题数量,ps(ui,tpj)表示用户ui是否曾经参与过话题tpj,并发布过信息或参与了讨论,若存在评论记录则为1,否则为0,η(tpj)表示话题对应的时效衰减值,PFi表示参与频度。
在一些优选的实施方式中,所述指标统计模块中“基于各影响力节点的行为频度,获取其对应的参与密度”,其方法为:
Figure BDA0002395699540000032
其中,Ci,k表示用户ui的第k条评论,CS表示全部话题对应的用户评论集合,k表示第k条评论,PDi表示参与密度。
在一些优选的实施方式中,所述指标统计模块中“通过计算所述参与密度和所述网络社区总的参与密度,得到用户的平均参与密度”,其方法为:
Figure BDA0002395699540000033
其中,APDi表示平均参与密度,U表示用户集合,Cp,k表示用户的评论序列,up表示用户p。
在一些优选的实施方式中,所述影响力计算模块中“基于所述影响力转化系数,所述预设的影响力计算方法计算用户在一个话题中的影响力的方法为:
Figure BDA0002395699540000041
其中,
Figure BDA0002395699540000042
为用户ui的话题j的影响力,f(k)表示话题影响指标与话题的总评论数量的正相关,
Figure BDA0002395699540000043
表示影响力转化系数,即用户ui在t时刻发布的评论与其他评论的相关度(影响度),CSj,t表示话题j在t时刻的评论集合,T表示用户影响力周期内的时间区域集合。
在一些优选的实施方式中,所述预设的影响力计算方法计算各影响力节点总的影响力的方法为:
Figure BDA0002395699540000044
其中,
Figure BDA0002395699540000045
表示用户总的影响力,TP表示整个话题空间。
本发明的第二方面,提出了一种针对网络社区的网民用户个体影响力测量和估算方法,该方法包括:
步骤S100,获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据;
步骤S200,将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论;
步骤S300,基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数;
步骤S400,基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的针对网络社区的网民用户个体影响力测量和估算方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的针对网络社区的网民用户个体影响力测量和估算方法。
本发明的有益效果:
本发明提高了无显性社交关系的网络社区中网民个体影响力的测量和估算的准确度。本发明通过分析网络社区的话题发展特征,结合影响力扩散概率模型IDM和独立级联模型IC的思想,分析不同用户在话题发展中的作用,将依赖于关系进行信息推送的社交网络中的影响力评价方法扩展至无显性社交结构的网络社区中。使用了PF(Frequency ofPromotion Behavior,参与频度)和APD(Average Participation Density,平均参与密度)两个行为特征指标对用户的个体影响力进行回归计算,简化了基于转移词频、衍生主题相似度等文法分析过程,克服了个体影响力易随话题转移而无法重复利用的问题,同时还涵盖了无法使用上下文和词频相关度方法测量的隐性影响力指标,有效地避免了文法分析和转移词频的计算过程,从而提高了网民个体影响力的测量和估算的准确度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的针对网络社区的网民用户个体影响力测量和估算系统的框架示意图;
图2是本发明一种实施例的针对网络社区的网民用户个体影响力测量和估算方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的针对网络社区的网民用户个体影响力测量和估算系统,如图1所示,包括以下模块:获取数据模块100、指标统计模块200、转换系数获取模块300、影响力计算模块400;
所述数据获取模块100,配置为获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据;
所述指标统计模块200,配置为将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论;
所述转换系数获取模块300,配置为基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数;
所述影响力计算模块400,配置为基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
为了更清晰地对本发明针对网络社区的网民用户个体影响力测量和估算系统进行说明,下面结合附图对本发明系统一种实施例中各步骤进行展开详述。
数据获取模块100,配置为获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据。
本发明中主要是测量和估算在无显性社交关系的网络社区中用户的影响力,即不依赖显性的社交关系,通过根据网络社区各话题之间用户的评论关系获取影响力。
在本实施例中,先获取网络社区中的话题数据及其对应的用户评论数据。
所述指标统计模块200,配置为将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论。
影响力是一种以间接和无形的方式引导或改变实际效果的能力和能量(Thepower or capacity of causing an effect in indirect or intangible ways)。一小部分具有较大影响力的用户,可以被称为影响力节点(Influential)或领袖(Leader)。他们不仅对关注他的人具有较大的影响力,还可以通过自身的社会关系进行观点传播,形成以口头流传为基础的宣传模式。如果将这种方式应用于商业推广活动,可以达到较小投入带来较高收益的效果。国内外对影响力的研究主要从两个角度出发:一是分析参与人群的社交网络结构,识别构成用户影响力的数据并建立模型;二是根据网络信息的传播特征,识别影响传播的重要网络节点。
在影响力传播模型的研究工作中,较为著名的包括影响力概率扩散模型(Influence Diffusion Model,IDM),独立级联模型(Independent Cascade Model,简称IC模型)和线性阈值模型(Linear Threshold Model,简称LT模型),后两个模型分别从主观性影响和被动式接受的两个角度模拟了影响力传播的主要过程。其中,IDM模型的基本思路和研究方法如下:
IDM模型用于对网络社区中的有影响力的用户和话题进行发现。提出了以下两个假设:
第一假设:帖子的回复链反映了用户之间的影响力传递。例如:cy帖子回复了cx,那么cy被认为受到了cx的影响。类似的,若用户y回复了用户x,则认为用户y受到了用户x的影响。这一过程即可被认为是影响力从cx传递到了cy,或x传递到了y;
第二假设:帖子中的关键词反映了用户的观点。在帖子的传递链中,关键词传递的比例反映了对用户的影响程度。
基于上述两个假设,影响力模型有如下定义:
关键词在帖子中的传递链的程度即为影响力传递的程度,例如,cy回复了cx,则帖子cx对cy的影响力Infx,y可定义如公式(1):
Figure BDA0002395699540000091
其中,wx,wy表示帖子cx、cy的关键词集合。
如果帖子cz回复了cy,那么帖子cx对帖子cz的影响力Infx,z定义如公式(2)所示:
Figure BDA0002395699540000092
其中,wz表示帖子cz的关键词集合。
如果一个主体(包括帖子、用户和关键词)对群体的影响力就是他对群体中所有其他主体的影响力的总和。例如群体中有3个主体,x、y、z,那么个体x对群体的影响力计算如公式(3)所示:
Figure BDA0002395699540000093
其中,
Figure BDA0002395699540000094
为x对整体群体K的影响力总和。
IDM模型利用信息的传递链表示了通信个体之间的关系,一个个体的影响力就是他所有的帖子的影响力的总和。因此,通过帖子的影响力计算就可以帮助寻找最具影响力的用户个体,也就是所说的观点领袖。IDM模型着眼于用户之间的交互关系,通过分析帖子和用户之间的影响力传递程度来发现核心用户。但IDM模型在影响力计算时需要寻找到个体本身所包含的关键词,使得影响力的测量与文法分析和语义解析的分析能力紧密相连,具有一定的局限性。
在本实施例中,根据IDM模型对用户影响力的定义,结合无显性社交关系的社区中话题的发展规律,话题的影响力可以被理解为话题自身的吸引力和所有参与用户的影响力之和。而一个用户在社区中的影响力,也可以被定义为他所有参与的话题中所获得影响力总和。设一个话题(Thread)内所包含的评论序列为
Figure BDA0002395699540000101
其中,k表示话题的序列号,ui,j表示编号为ui的用户发布了第j个评论。一个话题所形成的总体影响力即可认为是话题评论数量的总和,而其中一个参与者的影响力即可被认为是该用户所发布的评论数量和他出现所吸引到的评论数量,对于用户ua而言,在话题k内的影响力即影响力,其计算如公式(4)
所示:
Figure BDA0002395699540000102
其中,
Figure BDA0002395699540000103
表示话题k中编号u为的用户的第j个评论,当u=ua时,表示用户ua自身发布的评论信息,当u≠ua时,表示其他用户发布的评论
信息,Inf(ua,k)表示用户ua在话题k中的影响力,Inf(k)为序号为k的话题的总评论数量,ω(ua,j)为序号为j的评论与用户ua发表的评论的相关度。
公式(4)所表达的含义是用户的出现对话题发展的影响效果,内在思想与IDM模型对帖子链所表达的影响力传递过程较为类似,使用ω(ua,j)表达了一条评论的出现与ua的相关度,当评论j中所给予的信息仅仅与ua发布的评论相关时,则认为相关度为1;当评论j出现了对多
个不同用户的回复和评论信息时,其相关度为1/n。
当一个话题的影响力理解成为影响用户数量的大小(即用户点击次数或话题热度时),话题的评论次数通常显示出与影响力指标的正相关的特性,也就是说影响力指标值越大,相应话题的评论次数越多,其相关系数一般情况下高于0.8,即
Figure BDA0002395699540000104
因此,根据其话题影响指标和评论数量的正相关特性,公式(4)即转化为公式(5):
Figure BDA0002395699540000111
其中,f(k)表示话题影响指标与话题的总评论数量的正相关。
独立级联模型(Independent Cascade Model,简称IC模型)是一个概率模型,使用一个概率值来表示活跃节点的影响力,即一个活跃节点激活一个非活跃节点的可能性,概率值越大,激活的可能性就越大。节点影响力的传播过程如下:
在t时刻,非活跃用户节点v的邻居节点w被激活,成为活跃节点。此时,v有被激活w的可能性,记v被w成功激活的概率为Pv,w。如果v被成功激活,那么在t+1时刻,v转化为活跃状态;
如果非活跃节点v有多个处于激活状态的邻居节点,那么v受到激活的顺序是任意的。节点是否能被激活,受到概率Pv,w的影响;
节点v被激活之后,会继续影响它周围处于非活跃状态的邻居节点,重复上述激活过程,直至网络节点的状态达到稳定。
在线性阈值传播模型(LT模型)中,每个节点v有一个阈值θv,θv∈[0,1]表示节点被影响的难易程度。该模型考虑影响力的累积作用,对于任意节点w(w∈Nei(v)),使用Iv,w表示节点w对节点v的影响力,且满足
Figure BDA0002395699540000112
若满足
Figure BDA0002395699540000113
则节点v被激活。即当非活跃节点受到邻居活跃节点的综合影响力超过其激活阈值时,节点被激活。LT模型的传播过程如下:
在t时刻,非活跃节点v的邻居节点w被激活,成为活跃节点。此时,v有被激活w的可能性,使用A_N(v)表示节点v被激活的邻居节点集合;
Figure BDA0002395699540000121
则节点v被激活,成为活跃节点;否则,保持非活跃状态;
重复上述过程,直至网络中的节点状态达到稳定。
LT模型和IC模型从主观和被动、影响者和受影响者两方面分别对可能存在的影响方式和影响效果进行了模拟。其较为明显的差别存在于LT模型考虑邻居节点的综合影响力,而IC模型则考虑个体对个体的影响效果。目前,虽然LT和IC模型从不同的角度分别对用户之间的影响力的传递过程进行了表达,但是两个模型可用于的研究平台仅限于存在于社交网络结构,且以社交关系作为主要信息传播模式的社会媒体平台,并没有分析在不依赖关系进行信息传播的网络平台中的适用性情况。
其中,在IC独立级联模型中,假设非活跃的用户节点v以概率Pv,w被邻居节点w激活。在无显性社交关系的网络社区中并不存在邻居v,w的概念,即使当今部分网络社区环境出现了社交网络的组织结构,在信息传播中也不依赖于社交关系进行信息推送。因此,用户被“激活”的过程,也可以看作是被影响的过程,而影响用户的“邻居节点”则被替换为触发用户行为的原始评论信息。若一条评论信息的出现是受到了先前评论信息的触发,则该评论内容中必然会指向某个特定的用户评论,即使并未准确提及用户ID、不具有转移主题词或其他可用于身份定位的的信息。因此,在本实施例中,假定每条评论均存在对于其他的评论的激活能力,以
Figure BDA0002395699540000122
表示用户ui在t时刻发布的评论对于其他评论的激活能力,命名为影响力转化系数。用户ui在话题j中的影响力,作为影响力,其计算由公式(4)变换为公式(6):
Figure BDA0002395699540000123
其中,
Figure BDA0002395699540000131
为用户ui的话题j的影响力,f(k)表示话题影响指标与话题的总评论数量的正相关,
Figure BDA0002395699540000132
表示影响力转化系数,即用户ui在t时刻发布的评论与其他评论的相关度(影响度),CSj,t表示话题j在t时刻的评论集合,T表示用户影响力周期内的时间区域集合。
所以用户在该社区中的影响力为其参与各个话题中的影响力之和,计算如公式(7)所示:
Figure BDA0002395699540000133
其中,
Figure BDA0002395699540000134
表示用户总的影响力,TP表示整个话题空间。
公式(7)表达的含义是:通过使用影响力转换系数φ来替代影响力准确表达的方法。在网络社区中的话题区域通常会带来不同的影响效果,而话题的排位顺序则是通过评论的时间序列或话题获得的评论数量所决定。无论每条信息出现的什么时间,都可帮助话题置顶(即将话题推送至较为显著的展示区域),以达到同等的推送效果。此外,无论在哪个话题之中,仅较少评论可获得较高频度的引用次数,说明一个评论是否具有更强的吸引能力或者产生了吸引力较高的衍生舆论主题都可与话题本身无关。由此可知,评论内容是否具有吸引他人关注和参与的能力,主要由其质量以及发布者的知识、表达方法有关,与评论本身提供的推送效果产生的关联以及话题差异带来的影响在本发明中对其进行忽略,由此,本专利假设用户的影响力转化因子为用户内在属性,该属性可随着在社区内的活跃时间、活跃频度和知识的积累发生改变。因此,对于网络社区中个体影响力的估算方法则主要通过利用其行为特征(影响力)和对转化因子(影响力)的估算来实现个体影响力的测量。
在本实施例中,为了对影响力转换系数φ的估计,本发明以话题参与为基础,提出了两个基于行为的统计指标:参与频度(Frequency of Promotion Behavior,PF)和平均参与密度(Average Participation Density,APD)。
两个指标的提出则基于TF-IDF逆向词频文档概率模型的思想,在TF-IDF模型中,将文档集中出现较少次数,但在单个文档中出现较高频度的词语(Term)认定为权重较大的词语。本专利结合了这一思想,认为影响力用户则应该为某个话题中权重较大的用户,而与TF-IDF不同的是该影响力用户节点不仅需要在单个话题中具有较大权重,还应在大多话题中权重较大,因此可将IDF的计算过程进行更新,增加潜在影响力用户节点与其他常规用户平均状态的对比。
设一个社区内的用户集合为U,集合内成员至少出现过一条该社区的评论信息,对于网络的潜伏者,由于从来未发布过信息,也无法改变他人的行为方式,则认定其不存在影响力。社区内ui的参与频度(PF)其计算如公式(8)所示:
Figure BDA0002395699540000141
其中,tpj表示序号为j一个话题,TR表示所有的话题数量,ps(ui,tpj)表示用户ui是否曾经参与过话题tpj,并发布过信息或参与了讨论,若存在评论记录则为1,否则为0,η(tpj)表示话题对应的时效衰减值,用于约减由于话题发布时间过早,而引起的用户影响力消退的情况。当tpj距离影响力参考时间较远时,衰减效果较大;反之,则衰减效果减小。η的取值范围为(0,1],当测量全局影响力而忽略时间特征时,即可将η视为恒定值1,即忽略用户参与话题的时间特性,PFi表示参与频度。
平均参与密度(APD)因子的思想将话题中每个用户的行为方式进行统计构成行为密度空间,然后计算用户在每个话题中的行为频度,可有效的表示用户的参与密度。其中参与密度(PD)的计算方法如公式(9)所示:
Figure BDA0002395699540000151
其中,Ci,k表示用户ui的第k条评论,CS表示全部话题对应的用户评论集合,TRi表示用户ui参与的话题,k表示第k条评论,PDi表示参与密度。
用户的平均参与密度为用户在话题中平均参与频度与总话题空间中所有用户的平均参与频度的比值,计算方法如公式(10)所示:
Figure BDA0002395699540000152
其中,APDi表示平均参与密度,U表示用户集合,Cp,k表示用户的评论序列,up表示用户p。
同时,虽然无结构特征的隐含指引信息(如显性@行为等)无法获得,但是社区中仍可存在一部分规则化的指引结构,这种指引结构可以是社区中提供的引用模板或网民自发形成的通用规范。因此,这种可统计的引用模板被用于设计定制化的识别规则,帮助挖掘显性影响力的转化效率。显性转化率(Explicit Influence Conversion Rate,ER)的计算方法与总体影响力转化率的计算方法相同,即当前影响力节点发布信息中引起的显性的可抓取的引用次数和影响力节点发布信息次数的比例数值(各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,信息包括话题和评论)。
转换系数获取模块300,配置为基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数。
在本实施例中,根据参与频度、平均参与密度、显性转化率,进行加权求和,得到影响力转换系数,计算如公式(11)所示:
φi=β1ERi2PFi3APDi (11)
其中,β1、β2、β3为预设的权重,φi为影响力转换系数。
所述影响力计算模块400,配置为基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
在本实施例中,通过用户在社区中的参与频度、平均参与密度和显性转化率来实现个体影响力单个话题转化率的估算,然后根据每个话题自身影响力大小,对个体影响力进行估算。即根据获取的影响力转换系数,通过公式(6)和(7),得到各用户的影响力(各用户与其他用户在非同一话题中发布的评论的相关度)。
同时,本发明将用户影响力估算结果进行验证,验证集同样进行了引用结构的标注和多正则结构的信息识别和抽取,形成了包含隐性影响力力的指引结构。在此,本专利使用了相关系数和余弦相似度对真实影响力和估算影响力进行相似度测量,具体如公式(12)(13)所示:
相似相关系数(Correlation Coefficient:CC)的计算公式为:
Figure BDA0002395699540000161
余弦相似度Sim的计算公式为:
Figure BDA0002395699540000162
其中,x,y为标记样本集中每个用户的真实影响力和估计影响力,。
每个用户的影响力数值需要先进行相应的标准化过程(Normalization),其标准化方法如公式(14)所示:
Figure BDA0002395699540000171
其中,InfN(ua)表示标准化后的影响力。
而且,本发明也通过计算影响力的稳定性进行验证。通常在社会媒体的影响力研究中,主要关注于影响力的大小和走势变化,不会将影响力稳定性作为特定的研究对象。主要原因社交网络提供了具有积累效应的粉丝结构,可以在一定程度上保证用户节点的影响力持久效能。但是,在无显性社交关系的社区平台中,用户节点不存在积累能力的网络属性,而是依赖于用户在不同时刻的参与行为和评论内容。此外,由于社区中以话题作为信息交互的主要媒介,并不受到社交网络关系层面的信息约束,每个用户拥有同等的机会关注和参与他人的话题,或是受到其他用户和话题的影响。可想而知,持久性和稳定性不仅说明了个体影响力的属性,更显示出其一个影响者的潜在影响范围。因此,网络社区中影响力稳定性的测量就成为对影响力节点性能评估的重要指标。为了考察个体影响力的稳定性,本专利参考了均方误差(Mean Square Error,MSE)的计算方法,设计了个体影响力的波动性指标(Individual InStability Degree,IISD),计算如公式(15)所示:
Figure BDA0002395699540000172
其中,Tu为用户u影响力周期内的时间区域集合,Inf(ui,t)为用户在t时间区域内获得的影响力,avg.InfT(U)为用户在对应时间区域内的期望值。
稳定性计算所表达的含义为不同话题内获得的评论和引用频度的不一致的程度。IISDi越小说明该用户的影响力稳定性较好。若IISDi为5%,则说明该影响力节点在不同测量周期内大约存在5%的波动范围。
需要说明的是,上述实施例提供的针对网络社区的网民用户个体影响力测量和估算系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第二实施例的一种针对网络社区的网民用户个体影响力测量和估算方法,如图2所示,包括:
步骤S100,获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据;
步骤S200,将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论;
步骤S300,基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数;
步骤S400,基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的方法的具体的工作过程及有关说明,可以参考前述系统实施例中的对应过程,在此不再赘述。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的针对网络社区的网民用户个体影响力测量和估算方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的针对网络社区的网民用户个体影响力测量和估算方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述系统实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种针对网络社区的网民用户个体影响力测量和估算系统,其特征在于,该系统包括:获取数据模块、指标统计模块、转换系数获取模块、影响力计算模块;
所述数据获取模块,配置为获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据;
所述指标统计模块,配置为将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论;
所述转换系数获取模块,配置为基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数;
所述影响力计算模块,配置为基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
2.根据权利要求1所述的针对网络社区的网民用户个体影响力测量和估算方法,其特征在于,所述指标统计模块中“基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度”,其方法为:
Figure FDA0002395699530000011
其中,tpj表示序号为j的话题,TR表示所有的话题数量,ps(ui,tpj)表示用户ui是否曾经参与过话题tpj,并发布过信息或参与了讨论,若存在评论记录则为1,否则为0,η(tpj)表示话题对应的时效衰减值,PFi表示参与频度。
3.根据权利要求2所述的针对网络社区的网民用户个体影响力测量和估算方法,其特征在于,所述指标统计模块中“基于各影响力节点的行为频度,获取其对应的参与密度”,其方法为:
Figure FDA0002395699530000021
其中,Ci,k表示用户ui的第k条评论,CS表示全部话题对应的用户评论集合,k表示第k条评论,PDi表示参与密度。
4.根据权利要求3所述的针对网络社区的网民用户个体影响力测量和估算方法,其特征在于,所述指标统计模块中“通过计算所述参与密度和所述网络社区总的参与密度,得到用户的平均参与密度”,其方法为:
Figure FDA0002395699530000022
其中,APDi表示平均参与密度,U表示用户集合,Cp,k表示用户的评论序列,up表示用户p。
5.根据权利要求4所述的针对网络社区的网民用户个体影响力测量和估算方法,其特征在于,所述预设的影响力计算方法计算用户在一个话题中的影响力的方法为:
Figure FDA0002395699530000031
其中,
Figure FDA0002395699530000032
为用户ui的话题j的影响力,f(k)表示话题影响指标与话题的总评论数量的正相关,
Figure FDA0002395699530000033
表示影响力转化系数,即用户ui在t时刻发布的评论与其他评论的相关度(影响度),CSj,t表示话题j在t时刻的评论集合,T表示用户影响力周期内的时间区域集合。
6.根据权利要求5所述的针对网络社区的网民用户个体影响力测量和估算方法,其特征在于,所述预设的影响力计算方法计算各影响力节点总的影响力的方法为:
Figure FDA0002395699530000034
其中,
Figure FDA0002395699530000035
表示用户总的影响力,TP表示整个话题空间。
7.一种针对网络社区的网民用户个体影响力测量和估算方法,其特征在于,该方法包括:
步骤S100,获取网络社区中的话题数据及其对应的用户评论数据,作为输入数据;
步骤S200,将每一个用户作为影响力节点,基于其参与的话题数量,结合获取的各话题对应的时效衰减值,得到其对应的参与频度;基于各影响力节点的行为频度,获取其对应的参与密度,根据所述参与密度和所述网络社区总的参与密度,得到各影响力节点的平均参与密度;通过计算各影响力节点发表信息的引用次数及其发布信息的次数的比例数值,得到显性转化率;所述行为频度为影响力节点在各话题中发表的评论数量;所述信息包括话题和评论;
步骤S300,基于所述参与频度、所述平均参与密度、显性转化率,结合预设的权重进行加权求和,得到各影响力节点对应的影响力转换系数;
步骤S400,基于所述影响力转化系数,通过预设的影响力计算方法得到各影响力节点的影响力。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求7所述的针对网络社区的网民用户个体影响力测量和估算方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求7所述的针对网络社区的网民用户个体影响力测量和估算方法。
CN202010130701.2A 2020-02-28 2020-02-28 针对网络社区的网民用户个体影响力测量和估算系统 Active CN111353905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010130701.2A CN111353905B (zh) 2020-02-28 2020-02-28 针对网络社区的网民用户个体影响力测量和估算系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010130701.2A CN111353905B (zh) 2020-02-28 2020-02-28 针对网络社区的网民用户个体影响力测量和估算系统

Publications (2)

Publication Number Publication Date
CN111353905A true CN111353905A (zh) 2020-06-30
CN111353905B CN111353905B (zh) 2023-08-22

Family

ID=71197294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010130701.2A Active CN111353905B (zh) 2020-02-28 2020-02-28 针对网络社区的网民用户个体影响力测量和估算系统

Country Status (1)

Country Link
CN (1) CN111353905B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858673A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种基于分布和真值评定指标的高帧信息获取方法和系统
CN113592225A (zh) * 2021-06-24 2021-11-02 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN113901336A (zh) * 2021-10-29 2022-01-07 北京京航计算通讯研究所 一种基于用户信用的ai社区平台推荐内容排序方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886105A (zh) * 2014-04-11 2014-06-25 北京工业大学 一种基于社交网络用户行为的用户影响力分析方法
CN108960686A (zh) * 2018-08-20 2018-12-07 杜林蔚 影响力评估方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886105A (zh) * 2014-04-11 2014-06-25 北京工业大学 一种基于社交网络用户行为的用户影响力分析方法
CN108960686A (zh) * 2018-08-20 2018-12-07 杜林蔚 影响力评估方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢国豪;罗浩;吴志刚;张树壮;: "结合时间因子的校园论坛用户影响力分析方法研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858673A (zh) * 2020-07-22 2020-10-30 北京宏博知微科技有限公司 一种基于分布和真值评定指标的高帧信息获取方法和系统
CN113592225A (zh) * 2021-06-24 2021-11-02 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN113592225B (zh) * 2021-06-24 2023-12-01 浙江清朗科技有限公司 一种基层员工思维动态采集方法
CN113901336A (zh) * 2021-10-29 2022-01-07 北京京航计算通讯研究所 一种基于用户信用的ai社区平台推荐内容排序方法和系统
CN113901336B (zh) * 2021-10-29 2024-07-16 北京京航计算通讯研究所 一种基于用户信用的ai社区平台推荐内容排序方法和系统

Also Published As

Publication number Publication date
CN111353905B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US11659050B2 (en) Discovering signature of electronic social networks
Shulman et al. Predictability of popularity: Gaps between prediction and understanding
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN111353905B (zh) 针对网络社区的网民用户个体影响力测量和估算系统
Zhang et al. Product information diffusion in a social network
Zhaoyun et al. Mining topical influencers based on the multi-relational network in micro-blogging sites
Forestier et al. Roles in social networks: Methodologies and research issues
Lu et al. A graph-based action network framework to identify prestigious members through member's prestige evolution
Liu et al. Question quality analysis and prediction in community question answering services with coupled mutual reinforcement
CN103179198B (zh) 基于多关系网络的话题影响力个体挖掘方法
Kar et al. How to differentiate propagators of information and misinformation–Insights from social media analytics based on bio-inspired computing
Cao et al. Collusion-aware detection of review spammers in location based social networks
Bernabé-Moreno et al. A new model to quantify the impact of a topic in a location over time with social media
CN108388652B (zh) 一种发送歌单标识的方法和装置
Mahmud et al. Optimizing the selection of strangers to answer questions in social media
Deng et al. How your friends influence you: Quantifying pairwise influences on twitter
Luiten et al. Topical influence on Twitter: A feature construction approach
Liu et al. Personality prediction for microblog users with active learning method
CN114154076A (zh) 基于多角度分析的社交用户影响力度量方法
Zhao et al. Generalized lottery trees: Budget-balanced incentive tree mechanisms for crowdsourcing
Lim et al. Estimating domain-specific user expertise for answer retrieval in community question-answering platforms
Wang et al. Leave or not leave? Group members’ departure prediction in dynamic information networks
Carmagnola et al. Cross-systems identification of users in the social web
Wang et al. SocialDNA: A Novel Approach for Distinguishing Notable Articles and Authors through Social Events.
US8839088B1 (en) Determining an aspect value, such as for estimating a characteristic of online entity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant