CN113268976A - 一种面向微博的话题影响力评估方法 - Google Patents

一种面向微博的话题影响力评估方法 Download PDF

Info

Publication number
CN113268976A
CN113268976A CN202110192675.0A CN202110192675A CN113268976A CN 113268976 A CN113268976 A CN 113268976A CN 202110192675 A CN202110192675 A CN 202110192675A CN 113268976 A CN113268976 A CN 113268976A
Authority
CN
China
Prior art keywords
topic
time
obtaining
articles
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110192675.0A
Other languages
English (en)
Other versions
CN113268976B (zh
Inventor
张致远
常艺茹
张阳
陈乃月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202110192675.0A priority Critical patent/CN113268976B/zh
Publication of CN113268976A publication Critical patent/CN113268976A/zh
Application granted granted Critical
Publication of CN113268976B publication Critical patent/CN113268976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种面向微博的话题影响力评估方法,包括:根据每个话题的全部的点赞数、转发数和评论数,获得三个横向指标的权重;根据某个话题的相关文章数占所有话题文章的比例,以及其在单位时间内的文章数,获得活跃度;根据该话题在某月被涉及的持续时间单元数,获得该话题的总持续时间;通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话题的新颖性指标。本方法可以较好地度量微博话题的影响力大小,把握人们对微博话题的关注程度,准确定位人们所倾向关注的话题内容及民众的想法;综合用户参与度,话题活跃度,话题持续时间和话题新颖性对话题的影响力进行评估,可以快速的聚合热点话题的影响力因子,准确给出话题的影响力指标。

Description

一种面向微博的话题影响力评估方法
技术领域
本发明涉及原始话题数据集的获取和话题影响力的评估技术领域,尤其涉及一种面向 微博的话题影响力评估方法。
背景技术
随着大数据时代的到来,各社交媒体平台不断涌现出大量的数据。伴随着互联网时代 的快速发展,网络给人们的生活带来极大的影响,越来越多的人通过网络媒体平台发表自 己的言论和看法,也开始了网络舆情的新时代。尤其是用户最多的微博平台,近年来微博 快速发展,由于其互动性强、传播速度快和易于使用的特点,使得微博用户数量急剧增 加,成为了当下最流行的社交网络之一。越来越多的人通过微博来记录生活,发表自己的 言论和看法,甚至是通过网络舆论来维护自己的权益。微博上用户数量多,谈论话题广泛,随着社会的不断发展和变迁,越来越多的人通过网络舆情表达自己的观点,也有很多人为自己发声,广大民众都会参与其中,转发或评论自己感兴趣的话题,当有越多的人对同一话题感兴趣并形成大范围的讨论,就会形成热点话题。微博已成为人们日常生活中不可或缺的一部分。一个小小的话题通过网络的力量,就能够发酵为引起社会轰动的热点事件,因此对微博话题影响力的评估是极有意义的。如何从微博上海量的文章及观点中发现有影响力的话题,对政府把握民众当下的想法和关注点很有意义,所以,有效地对微博话题进行影响力评估很有必要。
而传统的影响力评估方法主要采用TF-PDF热度评估算法,该算法仅考虑了媒体对话 题关注的影响,但这一影响因素不够全面。在后来的一些评估算法中,对影响力评估方法 进行了改进,体现在将用户对话题的关注程度也考虑在内,但是这并不适用于全部领域。
发明内容
本发明的实施例提供了一种面向微博的话题影响力评估方法,用于解决现有技术中存 在的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种面向微博的话题影响力评估方法,包括:
根据某个话题的全部的点赞数、转发数和评论数,获得用户参与度以及该某个话题的 全部的点赞数、转发数和评论数的权重;
根据该话题的相关文章数占所有话题文章的比例,以及该话题在单位时间内的文章 数,获得该话题的活跃度;
根据该话题被涉及的持续时间单元数,获得该话题的总持续时间;
通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话题的新颖性指标;
根据该话题的用户参与度、活跃度、持续时间单元数和新颖性指标获得该话题的热 度。
优选地,根据某个话题的全部的点赞数、转发数和评论数,获得用户参与度以及该某 个话题的全部的点赞数、转发数和评论数的权值包括:
构建判断矩阵R=(rij)m×n(i=1,2,…,m;j=1,2,…,n)(1),并对该判断矩阵进行标准 化处理,获得
Figure BDA0002945706930000021
其中rmin=min(r1j,r2j,…rmj),rmax=max(r1j,r2j,…rmj) (3);式(1)中,m表示话题,n表示用户参与度的衡量指标数,R是一个m行n列的矩阵,rij表示第i个话题的第j个指标的值;式(2)中,rmax、rmin分别表示同一衡量指标下 不同话题的相关文章数中点赞数、转发数和评论数的最大值或最小值, bij表示将rij进行最小-最大标准化后的值;
通过式W=(wj)1×n (4)获得每个话题的全部的点赞数、转发数和评论数的权重;式中
Figure BDA0002945706930000022
Figure BDA0002945706930000023
式 (7)中,fij表示第i个话题的第j个指标的比重,并且是对fij′修正后的值。
优选地,根据某个话题的相关文章数占所有话题文章的比例,以及该话题在单位时间 内的文章数,获得该话题的活跃度包括:
根据某个话题的相关文章数占所有话题文章的比例
Figure BDA0002945706930000031
以及该话题在单位时间内的 文章数
Figure BDA0002945706930000032
获得话题的活跃度;其中,Mj是话题j的相关文章数,M是所有话题的全部文章数,Tj是话题j的持续时间。
优选地,根据该话题被涉及的持续时间单元数,获得该话题的总持续时间包括:
通过式nu=ne-nb (9)获得话题的总持续时间nu,式中,nu是话题被报道和讨 论的时间单元数,以天为单位,ne表示话题消亡的时间,nb表示话题产生的时间。
优选地,通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话题的新颖 性指标包括:
通过式△t(j)=tt-tp (10)获得该话题的新颖性指标△t(j),式中△t(j)是当前时 间与话题首次发布时间的时间单元数差,以天为单位,tt是当前时间,tp是话题首次发布 时间。
优选地,根据该话题的用户参与度、活跃度、持续时间单元数和新颖性指标获得该话 题的热度包括:
通过式
Figure BDA0002945706930000033
获得 话题的热度;式中:
Dj是话题j的全部点赞数,α是点赞数对用户参与度的权值;
Zj是话题j的全部转发数,β是转发数对用户参与度的权值;
Pj是话题j的全部评论数,γ是评论数对用户参与度的权值;
Mj是话题的相关文章数,M是所有话题的全部文章数;
Tj是话题j的持续时间;
nu是话题被报道和讨论的时间单元数,Tj=nu
n是整个爬虫时间段被切分的时间单元总数;
△t(j)是当前时间与话题首次发布时间的时间单元数差;
衰减系数k取值0.1;
在获取时间单元数时,当时间差的小时数大于12时或天数为0时,该时间单元数都按加1天计算,即式(11)中的Tj取值加1,若天数不为0且小时数不足12时,则不足12时的部分不按1天计算。
由上述本发明的实施例提供的技术方案可以看出,本发明提供的一种面向微博的话题 影响力评估方法,包括:根据每个话题的全部的点赞数、转发数和评论数,获得三个横向 指标的权重;根据某个话题的相关文章数占所有话题文章的比例,以及某个话题在单位时 间内的文章数,获得该话题的活跃度;根据该话题在某月被涉及的持续时间单元数,获得 该话题的总持续时间;通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话 题的新颖性指标。本方法可以较好地度量微博话题的影响力大小,把握人们对微博话题的 关注程度,准确定位人们所倾向关注的话题内容及民众的想法。该方法综合用户参与度, 话题活跃度,话题持续时间和话题新颖性对话题的影响力进行评估,可以快速的聚合热点 话题的影响力因子,准确给出话题的影响力指标,有利于监管部门及时了解热点话题态 势,采取有效的舆论引导措施。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明 显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。
图1为本发明提供的一种面向微博的话题影响力评估方法的处理流程图;
图2为本发明提供的一种面向微博的话题影响力评估方法的算法流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使 用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除 存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理 解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元 件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接 或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组 合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语 和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理 解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义 一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解 释说明,且各个实施例并不构成对本发明实施例的限定。
本文本发明针对微博平台,提出了一种综合用户参与度,话题活跃度,话题持续时间 和话题新颖性的影响力评估方法。用于解决如下技术问题:由于不同时间段内,话题的热 度有所不同,而同一时间段内,又会不断产生新的话题,尤其是微博中有关司法案件和政 治报道的话题可能会持续比较长的时间,而这期间产生的话题量并不多,那么该话题的热 度也会相对较小,而如果一个话题在短期内产生了大量的相关文章数目,那么该话题的热 度会较大。一个话题被用户讨论和关注的时间越长,说明用户越感兴趣,也有可能吸引到 更多的用户参与进来,所以将话题被持续讨论的时间单元总数作为衡量话题热度的一个指 标,时间单元数越大,对热度值贡献越大。热点话题是具有生命周期的,都会经历从“产 生”到“消亡”的过程。随着时间的推移,旧话题会逐渐被新话题代替新话题逐渐产生,旧话题慢慢被替代,旧话题的相关文章数越来越少,新话题的相关文章数越来越多,人们会逐渐忘记过去的旧话题,转而关注新话题的发展。所以,话题产生的时间距当前时刻越早,其对用户的影响越小,热度值也越小。而话题越新,活跃度越大,越能引起用户们的 注意。另外,与话题相关的文章数目的多少,对话题的热度衡量也有重要的意义。所以, 话题越新,用户参与度越高,话题相关文章数和活跃性越大,其热度值就越高,也就可能 成为热点话题。
参见图1和2,本发明针对目前微博受大众广泛使用,发酵各种热点话题的现状和需 求,提供一种面向微博的话题影响力评估方法,包括:
a.根据某个话题的全部的点赞数、转发数和评论数,获得用户参与度以及该某个话题 的全部的点赞数、转发数和评论数的权重;
b.根据某个话题的相关文章数占所有话题文章的比例,以及该话题在单位时间内的文 章数,获得该话题的活跃度;
c.根据该话题被涉及的持续时间单元数,获得该话题的总持续时间;
d.通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话题的新颖性指 标;
e.根据该话题的用户参与度、活跃度、持续时间单元数和新颖性指标获得该话题的热 度。
微博话题的点赞数、转发数和评论数反映了用户对一个话题的感兴趣程度和参与程 度,故用户的参与度可以通过用户的点赞、转发和评论行为来衡量。点赞数、转发数和评论数越多,说明用户对该话题越感兴趣,同时该话题由于用户的转发行为而进行传播,由于用户的评论行为而吸引更多的用户参与到话题的讨论中,从而扩大话题的影响力。步骤a中用户参与度是从话题的点赞数、转发数和评论数进行量化,三个指标的权值由熵权法确定。利用熵权法确定指标权重的步骤具体包括如下过程:
数据标准化处理
构建判断矩阵R=(rij)m×n(i=1,2,…,m;j=1,2,…,n) (1),并对该判断矩阵进行标准 化处理,获得
Figure BDA0002945706930000061
其中rmin=min(r1j,r2j,…rmj),rmax=max(r1j,r2j,…rmj) (3);式(1)中,m表示话题,n表示用户参与度的衡量指标数,R是一个m行n列的 矩阵,rij表示第i个话题的第j个指标的值;式(2)中,rmax、rmin分别表示同一衡量指标下不同话题的相关文章数中点赞数、转发数和评论数的最大值或最小值, bij表示将rij进行最小-最大标准化后的值;
熵权法求指标权重
利用熵值计算衡量指标的熵权
通过式W=(wj)1×n (4)获得所述每个话题的全部的点赞数、转发数和评论数的权 重;式中
Figure BDA0002945706930000071
根据熵的定义,确定所有衡量指标的权重
Figure BDA0002945706930000072
Figure BDA0002945706930000073
fij表示第i个话题的第j个指标的比重。
若式(6)中fij=0,会出现出现ln0的情况,为了解决这个问题,在本实施例中,还通过式式(7)对式(8)中的fij′进行修正,以避免fij=0时导致式(6)中出现ln0,即fij还表示对fij′修正后的值。
与话题相关的文章数目的多少,对话题的热度衡量有重要的意义。相关文章数目越 多,说明话题越热。与某一话题相关的文章数目占总文章数越多,说明该话题比其他话题 的影响力更大一些。一般而言,在整个时间段内,某个话题越活跃,其相较于其他话题的相关文章数就越多,影响力也就越大;而如果一个话题在短期内产生了大量的相关文章数目,另一个话题只产生了少量文章数,那么短期内产生大量相关文章数的话题热度会较大,或者说如果一个话题产生的文章数很多,但它分布在了很长的时间段上,平均到时间单元上的数量就很少,那么该话题的热度值相比于短期内产生大量相关文章数的话题的热度值会较小。也即单位时间内话题被发布的相关文章数越多,越能体现其影响力之大。因而,作为一个热点话题,不仅要考虑到与话题相关的文章数目的比例,还要考虑到自身单位时间内的活跃度大小。所以根据某个话题的相关文章数占所有话题文章数的比例,以及该话题在单位时间内的文章数,获得该话题的活跃度。在本发明提供的优选实施例中,其具体过程包括:
根据某个话题的相关文章数占所有话题文章的比例
Figure BDA0002945706930000074
以及该话题在单位时间内的 文章数
Figure BDA0002945706930000075
获得所述话题的活跃度;其中,Mj是话题j的相关文章数,M是所有话题的全部文章数,Tj是话题j的持续时间。
一个话题总是随着时间而发展的,一个事件成为话题不是一蹴而就的,需要大量用户 长期的讨论和参与。一个话题被用户讨论和关注的时间越长,说明用户越感兴趣,也有越 有可能吸引到更多的用户参与进来,而有些话题不一定是每天都被讨论的,有节点性,所 以将话题被讨论的时间单元总数作为衡量话题热度的一个指标,时间单元数越大,对热度 值的贡献就越大。所以根据该话题在某月被涉及的持续时间单元数,获得该话题的总持续 时间。在本发明提供的优选实施例中,其具体过程包括:
通过式nu=ne-nb (9)获得话题的总持续时间nu,式中,nu是话题被报道和讨 论的时间单元数,以天为单位,ne表示话题消亡的时间,nb表示话题产生的时间。
热点话题都是有生命周期的,都会经历从“产生”到“消亡”的过程。随着时间的迁移,旧话题的相关文章数会越来越少,新话题的相关文章数会越来越多,旧话题逐渐被新话题代替,从而旧话题慢慢被人们忘记,大家转而更加关注新话题的发展。所以,话题产 生的时间距当前时刻越早,其对用户的影响度就越小,热度值也越小。而话题越新,活跃 度越大,越能引起用户的注意。所以,话题越新,用户参与度越高,话题相关文章数和活 跃性越大,其热度值就越高,也就越有可能成为热点话题。因此通过当前某时刻与该话题 首次发布时间的时间单元数差,获得该话题的新颖性指标。在本发明提供的优选实施例 中,该过程具体包括:
通过式△t(j)=tt-tp (10)获得该话题的新颖性指标△t(j),式中△t(j)是当前时 间(以本发明为例,数据采集的是2020年4月1日至4月30日的数据,则当前时间是4月30日)与话题首次发布时间的时间单元数差,以天为单位时间,tt是当前时间,tp是话题 首次发布时间。
更进一步的,综合以上话题的用户参与度、活跃度、持续时间单元数和新颖性的指标,获得该话题的热度的具体过程包括:
通过式
Figure BDA0002945706930000081
式中:
Dj是话题j的全部点赞数,α是点赞数对用户参与度的权值;
Zj是话题j的全部转发数,β是转发数对用户参与度的权值;
Pj是话题j的全部评论数,γ是评论数对用户参与度的权值;
Mj是话题的相关文章数,M:所有话题的全部文章数;
Tj是话题j的持续时间(话题最后被讨论时间与最初被讨论时间的间隔,与时间片同 单位);
nu是话题被报道和讨论的时间单元数(与话题j的持续时间相同,用多少天表示),Tj=nu
n是整个爬虫时间段被切分的时间单元总数(给一个爬虫时间范围,做时间差);
△t(j)是当前时间与话题首次发布时间的时间单元数差;
衰减系数k取值0.1。
在获取时间单元数时,由于时间有天、时、分、秒的单位,所以当时间差的小时数大于12时或天数为0时,时间都按加1天计算,即式(11)中的时间Tj加1,若天数不为0且小 时数不足12时,则不足12时的部分不按1天计算。
本发明还提供一个实施例,用于显示对本方法的验证。
一、数据采集
该实验采用的数据集是通过自研爬虫获取的微博上2020年4月1日至4月30日这一个 月内排名前10的话题的所有相关文本数据,这10个话题分别是“中职篮季后赛”,“五一假期安排”,“五一电影档期”,“五一假期安排”,“武汉樱花开放预报”,“相信未 来”线上义演”,“2020年高考”,“铁人三项世界杯”,“在线网课”和“居家健身器材 销量上升”。相关数据存储在MySQL数据库中。数据库中的数据格式如图2所示。
二、实验过程
1.计算用户参与度
依据算法描述a中的说明,在采集到数据集后,每个话题的相关文章为一个聚类,计算 每个话题的全部点赞数、转发数和评论数,并通过熵权法确定三个衡量指标的权值,最后 将三个指标加权求和,得到用户参与度。
2.计算话题活跃度
依据算法描述b,计算话题的相关文章数占所有话题文章的比例和单位时间内的文章 数,两部分相乘得到话题活跃度。
3.计算话题的持续时间
依据算法描述c,根据话题中相关文章的发布时间来确定话题的起止时间,计算话题被 报道和讨论的时间单元数,求它占采集时间的比例,得到话题的持续时间;
4.计算话题的新颖性
依据算法描述d,由于话题有时效性,旧话题总是被新话题代替,所以计算当前时刻与 话题首次发布时间的时间单元数差,以得到话题的新颖性。
10个话题各自的点赞数、转发数、评论数、话题文章数、话题发布时间和话题持续时 间如表1所示。
表1原始话题数据信息统计
Figure RE-GDA0003161061670000101
Figure RE-GDA0003161061670000111
三、实验结果及分析
该算法模型的效果如表2所示。表2列出了采集的10个话题的话题名称,以及通过算法 模型得到的话题影响力大小。最后两列是话题的影响力大小排名。
表2算法模型的结果
Figure RE-GDA0003161061670000112
由于本发明提出的话题影响力评估主要是综合用户参与度,话题活跃度,话题持续时 间和话题新颖性对话题的影响力进行评估的,因此提出的影响力评估模型与话题的全部点 赞数、转发数、评论数和话题的相关文章数等因素有关。本发明中所有话题的全部文章数 为6010条。由表格1和2可以看出来:话题1“中职篮季后赛”的点赞数和转发数都很多,虽 然总评论数比话题6少22133条,但它在点赞数和转发数上占绝对优势,且文章总数比话题6 多,所以影响力也是最大的,模型计算结果符合实际。话题9“在线网课”虽然在点赞数、 转发数、评论数和发布时间上相比话题8“铁人三项世界杯”有一些优势,但是话题持续时 间太短,对其影响力大小的影响比较大,所以话题9的影响力比话题8的影响力稍小一点。 从各话题的全部数据及模型结果来看,本文提出的影响力评估模型有一定的有效性。
综上所述,本发明提供的一种面向微博的话题影响力评估方法,包括:根据每个话题 的全部的点赞数、转发数和评论数,获得三个横向指标的权重;根据某个话题的相关文章 数占所有话题文章的比例,以及某个话题在单位时间内的文章数,获得该话题的活跃度; 根据该话题在某月被涉及的持续时间单元数,获得该话题的总持续时间;通过当前某时刻 与该话题首次发布时间的时间单元数差,获得该话题的新颖性指标。本方法可以较好地度 量微博话题的影响力大小,把握人们对微博话题的关注程度,准确定位人们所倾向关注的 话题内容及民众的想法。该方法综合用户参与度,话题活跃度,话题持续时间和话题新颖 性对话题的影响力进行评估,可以快速的聚合热点话题的影响力因子,准确给出话题的影 响力指标,有利于监管部门及时了解热点话题态势,采取有效的舆论引导措施。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程 并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助 软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或 者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以 存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某 些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互 相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系 统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法 实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为 分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或 者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以 根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技 术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任 何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都 应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为 准。

Claims (6)

1.一种面向微博的话题影响力评估方法,其特征在于,包括:
根据某个话题的全部的点赞数、转发数和评论数,获得用户参与度以及该某个话题的全部的点赞数、转发数和评论数的权重;
根据该话题的相关文章数占所有话题文章的比例,以及该话题在单位时间内的文章数,获得该话题的活跃度;
根据该话题被涉及的持续时间单元数,获得该话题的总持续时间;
通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话题的新颖性指标;
根据该话题的用户参与度、活跃度、持续时间单元数和新颖性指标获得该话题的热度。
2.根据权利要求1所述的方法,其特征在于,所述的根据某个话题的全部的点赞数、转发数和评论数,获得用户参与度以及该某个话题的全部的点赞数、转发数和评论数的权值包括:
构建判断矩阵R=(rij)m×n(i=1,2,…,m;j=1,2,…,n) (1),并对该判断矩阵进行标准化处理,获得
Figure FDA0002945706920000011
其中rmin=min(r1j,r2j,…rmj),rmax=max(r1j,r2j,…rmj)
(3);式(1)中,m表示话题,n表示用户参与度的衡量指标数,R是一个m行n列的矩阵,rij表示第i个话题的第j个指标的值;式(2)中,rmax、rmin分别表示同一衡量指标下不同话题的相关文章数中点赞数、转发数和评论数的最大值或最小值,bij表示将rij进行最小-最大标准化后的值;
通过式W=(wj)1×n (4)获得所述每个话题的全部的点赞数、转发数和评论数的权重;式中
Figure FDA0002945706920000012
Figure FDA0002945706920000013
Figure FDA0002945706920000024
式(7)中,fij表示第i个话题的第j个指标的比重,并且是对fij′修正后的值。
3.根据权利要求2所述的方法,其特征在于,所述的根据某个话题的相关文章数占所有话题文章的比例,以及该话题在单位时间内的文章数,获得该话题的活跃度包括:
根据某个话题的相关文章数占所有话题文章的比例
Figure FDA0002945706920000021
以及该话题在单位时间内的文章数
Figure FDA0002945706920000022
获得所述话题的活跃度;其中,Mj是话题j的相关文章数,M是所有话题的全部文章数,Tj是话题j的持续时间。
4.根据权利要求3所述的方法,其特征在于,所述的根据该话题被涉及的持续时间单元数,获得该话题的总持续时间包括:
通过式nu=ne-nb (9)获得话题的总持续时间nu,式中,nu是话题被报道和讨论的时间单元数,以天为单位,ne表示话题消亡的时间,nb表示话题产生的时间。
5.根据权利要求4所述的方法,其特征在于,所述的通过当前某时刻与该话题首次发布时间的时间单元数差,获得该话题的新颖性指标包括:
通过式△t(j)=tt-tp (10)获得该话题的新颖性指标△t(j),式中△t(j)是当前时间与话题首次发布时间的时间单元数差,以天为单位,tt是当前时间,tp是话题首次发布时间。
6.根据权利要求5所述的方法,其特征在于,所述的根据该话题的用户参与度、活跃度、持续时间单元数和新颖性指标获得该话题的热度包括:
通过式
Figure FDA0002945706920000023
获得所述话题的热度;式中:
Dj是话题j的全部点赞数,α是点赞数对用户参与度的权值;
Zj是话题j的全部转发数,β是转发数对用户参与度的权值;
Pj是话题j的全部评论数,γ是评论数对用户参与度的权值;
Mj是话题的相关文章数,M是所有话题的全部文章数;
Tj是话题j的持续时间;
nu是话题被报道和讨论的时间单元数,Tj=nu
n是整个爬虫时间段被切分的时间单元总数;
△t(j)是当前时间与话题首次发布时间的时间单元数差;
衰减系数k取值0.1;
在获取时间单元数时,当时间差的小时数大于12时或天数为0时,该时间单元数都按加1天计算,即式(11)中的Tj取值加1,若天数不为0且小时数不足12时,则不足12时的部分不按1天计算。
CN202110192675.0A 2021-02-20 2021-02-20 一种面向微博的话题影响力评估方法 Active CN113268976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110192675.0A CN113268976B (zh) 2021-02-20 2021-02-20 一种面向微博的话题影响力评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110192675.0A CN113268976B (zh) 2021-02-20 2021-02-20 一种面向微博的话题影响力评估方法

Publications (2)

Publication Number Publication Date
CN113268976A true CN113268976A (zh) 2021-08-17
CN113268976B CN113268976B (zh) 2023-09-12

Family

ID=77228164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110192675.0A Active CN113268976B (zh) 2021-02-20 2021-02-20 一种面向微博的话题影响力评估方法

Country Status (1)

Country Link
CN (1) CN113268976B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036221A (zh) * 2021-09-24 2022-02-11 国务院国有资产监督管理委员会研究中心 一种专题事件分析方法
CN117635190A (zh) * 2023-11-27 2024-03-01 河北数港科技有限公司 一种日志数据分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110647692A (zh) * 2019-09-23 2020-01-03 钟栎娜 一种基于大数据的多维文旅数据监测及呈现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN108304371A (zh) * 2017-07-14 2018-07-20 腾讯科技(深圳)有限公司 热点内容挖掘的方法、装置、计算机设备及存储介质
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110647692A (zh) * 2019-09-23 2020-01-03 钟栎娜 一种基于大数据的多维文旅数据监测及呈现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUI FAN 等: "Topic dynamics in Weibo: a comprehensive study", SPRINGLINK *
李璟: "基于用户关系与行为的微博用户影响力评价研究", 中国优秀硕士学位论文全文数据库 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036221A (zh) * 2021-09-24 2022-02-11 国务院国有资产监督管理委员会研究中心 一种专题事件分析方法
CN117635190A (zh) * 2023-11-27 2024-03-01 河北数港科技有限公司 一种日志数据分析方法及系统
CN117635190B (zh) * 2023-11-27 2024-05-14 河北数港科技有限公司 一种日志数据分析方法及系统

Also Published As

Publication number Publication date
CN113268976B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Chae et al. Sex differences in the factors influencing Korean college students’ addictive tendency toward social networking sites
Chan Development of materialistic values among children and adolescents
Allison et al. Gender, sexual, and sports fan identities
CN109727152B (zh) 一种基于时变阻尼运动的在线社交网络信息传播构建方法
CN113268976A (zh) 一种面向微博的话题影响力评估方法
Cho et al. Direct and indirect effects of low self-control on the personal victimization of South Korean youth
Haampland Power laws and market shares: cumulative advantage and the Billboard Hot 100
US20130097235A1 (en) Online or offline virtual honor system
CN117217808B (zh) 一种智能的活动邀请裂变能力分析预测方法
CN111353905B (zh) 针对网络社区的网民用户个体影响力测量和估算系统
CN113850446B (zh) 融合时空注意力和异构图卷积网络的信息扩散预测方法
CN102866997A (zh) 用户数据的处理方法和装置
CN112836137B (zh) 人物网络支持度计算系统及方法、终端、设备、存储介质
Qi et al. Analysis of sponsorship networks and cross-domain knowledge exchange: an empirical study on Zhihu
Kostelecký et al. Housing affordability in Czech regions and demographic behaviour–Does housing affordability impact fertility
CN112734199A (zh) 基于平台波及度的人物网络人气值计算方法、系统、终端
Jordaan et al. Exploring social capital of emerging farmers from Eksteenskuil, South Africa
Mukherjee et al. Analyzing attitude of second screen social media messages
Hu et al. Intelligent cognitive evaluation of ice and snow sports training by fuzzy comprehensive evaluation from the perspective of supply chain management
Azarine et al. The Effect of Social Media Marketing on Brand Awareness of Sejuta Pengusaha
Xiao et al. Exploring the Risk Factors of Cyberbullying Among Chinese Adolescents: The Important Role of Cybervictimization
CN113609424B (zh) 一种针对网络舆情热度的计算与预警系统及方法
CN117764262A (zh) 一种社会媒体网络话题热度评估方法
WO2022234672A1 (ja) 影響力算出装置、影響力算出方法、及びプログラム
Zhao et al. Research on the phenomenon of fans “controlling comments” in cyberspace—taking sina Weibo as an example

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant