CN108959364A - 一种社交媒体事件级新闻中新闻媒体影响力评估方法 - Google Patents
一种社交媒体事件级新闻中新闻媒体影响力评估方法 Download PDFInfo
- Publication number
- CN108959364A CN108959364A CN201810486091.2A CN201810486091A CN108959364A CN 108959364 A CN108959364 A CN 108959364A CN 201810486091 A CN201810486091 A CN 201810486091A CN 108959364 A CN108959364 A CN 108959364A
- Authority
- CN
- China
- Prior art keywords
- user
- news
- media
- influence power
- social media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000013210 evaluation model Methods 0.000 claims abstract description 3
- 210000003813 thumb Anatomy 0.000 claims description 7
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 5
- 230000000644 propagated effect Effects 0.000 description 2
- 108091065810 E family Proteins 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种社交媒体事件级新闻中新闻媒体影响力评估方法,属于数据挖掘和复杂网络技术领域,用于解决评估新闻媒体影响力的问题,技术要点是包括R1、采集社交媒体数据,构建事件语料库;R2、统计语料库中各用户的相关数据;R3、构建转发网络;R4、构建评价模型评估新闻媒体影响力;R5、以国家为单位,对影响力进行可视化;本发明可以从事件层面出发,评估新闻媒体影响力,并以国家为单位对影响力进行展示。
Description
技术领域
本发明涉及数据挖掘和复杂网络技术领域,尤其涉及一种社交媒体事件级新闻中新闻媒体影响力评估方法。
背景技术
随着互联网络的发展,社交媒体的蓬勃发展,爆发出了强劲的能量,其传播的信息已成为人们浏览互联网的重要内容。人们可以通过社交媒体分享日常生活中的意见、心得,获取资讯,像微博、Twitter、Facebook等都是国内外非常热门的社交平台,他们不仅制造了人们社交生活中争相讨论的一个又一个热门话题,更进而吸引传统媒体争相跟进,而在这些社交媒体上,传统的媒体,如许多主流的新闻媒体都会有注册自己的账号,不仅通过报刊、广播等形式传播新闻,更是通过互联网在社交平台上传播信息。
近年来,研究社交媒体中用户的影响力取得了很多成果,如综合考虑社交媒体的结构,通过入度、转发、提及来衡量用户的影响力,这种方法没有考虑到社交媒体中各关系网络的的特性。且很多研究都是针对网络中的普通用户。而像新闻媒体与普通用户还是存在差异的,新闻媒体发布的新闻大都代表一个国家或者地区官方的言论,且因为他们的官方性与权威性,他们的跟随者数目也会比社交媒体中的普通用户要多。每当重大事件如自然灾害、暴力恐怖事件等事件发生时,各新闻媒体都会第一时间发布新闻。而现有的研究中很少有从具体事件出发,比较各新闻媒体对事件的关注情况以及他们具体事件中的影响力。
目前的研究中,大部分是对社交网络中普通用户的研究,很少有面向特殊群体的,如新闻媒体等,另一方面,目前的研究缺少对具体事件下用户的影响力分析,对舆情监控来说会有遗漏。
发明内容
本发明的目的是提供一种能从事件层面出发,评估新闻媒体影响力,并以国家为单位进行展示。
本发明解决现有技术问题所采用的技术方案:一种社交媒体事件级新闻中新闻媒体影响力评估方法,包括以下步骤:
R1、采集社交媒体数据,构建事件语料库:
首先利用社交媒体的API,以某一具体事件的关键词作为查询内容,采集社交网络中与这一具体事件相关的语料。得到初始的用户集合A,然后迭代的进行以下操作:对用户集合A里没有被标记的用户u进行标记,然后采集u关于这一具体事件相关的语料,并从中抽出被转发的用户添加到A里,直到用户数目达到指定上限10000或A里没有未被标记的用户为止;
R2、统计语料库中各用户的相关数据:
对A集合中用户的粉丝数,总推文数,地理位置,关于具体事件主题的推文或博文的发布数目,点赞数和转发数进行了统计。按照各用户的简介,筛选出是新闻媒体的用户,并将其以国家为单位分类。
R3、构建转发网络:
通过集合A构造出在具体事件主题下的转发网络。设网络中用户集合为V,推文集合为E。E中的每条边(i,j)代表用户i转发了用户j的推文。集合Fu代表E中所有指向u的用户集合,Du代表E中所有u指向的用户集合。
R4、构建评价模型评估新闻媒体影响力:
首先,计算用户之间的边的权重。Au,v代表用户v到用户u边的权重,其中nv,u代表用户v转发过用户u推文的数目。
其次,计算用户的个性化权值。每个用户的属性分为两类,第一类是整体属性,即用户的粉丝数x1和总的推文数x2。第二类是局部属性,即关于具体事件主题推文的发布数x3、转发数x4和点赞数x5;xu,i表示u用户第i个属性,xv,i表示v用户第i个属性,xi表示上述x1~x5属性,每一个属性都有人为设定的权重wi,加权求和并归一化后作为用户属性的权值,即PageRank式子中用户个性化的权值p。
最后,评估新闻媒体的影响力。用户v以1-α的概率转发集合Dv中用户的推文,接着以Av,u的概率转发用户u的推文;以α的概率转发普通用户的推文,这里的普通用户指所有用户,接着以pu的概率转发用户u的推文。传统的 PageRank算法,以1/|V|的概率随机跳转,忽视了用户之间的差异,所以为了结合用户的个性化信息,Ru是新闻媒体用户u的影响力值,这里以pu的概率进行跳转,并将此作为基于具体事件下新闻媒体影响力的值。
R5、以国家为单位,对影响力值进行可视化。通过上述步骤,可以得到基于具体事件新闻媒体的影响力值。将各新闻媒体,按照其简介中的描述,将他们以国家为单位划分,相同国家的新闻媒体影响力值相加,得到各国新闻媒体影响力值。为了更直观地展示实验结果,本专利对结果以地图形式进行了可视化。
附图说明
图1为本发明方法步骤流程图;
图2为本发明结果可视化;
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
图1是本发明一种社交媒体事件级新闻中新闻媒体影响力评估方法的步骤流程图,包括以下步骤:
R1、采集社交媒体数据,构建事件语料库:
首先利用社交媒体的API,以具体事件的关键词作为查询内容,采集社交网络中与事件相关的语料。得到初始的用户集合A,然后迭代的进行以下操作:对 A里没被标记的用户u进行标记,然后采集u关于事件相关的语料,并从中抽出被转发的用户添加到A里,直到用户数目达到指定上限10000或A里没有未被标记的用户为止;
利用Twitter API,以表1里某关键词相关的词语作为查询词,采集了种子Tweets3200条,然后得到初始的用户集合A,然后迭代的进行以下操作:对A里没被标记的用户u进行标记,然后采集u关于所述关键词的Tweets,并从Tweets中抽出被转发的用户添加到A里,直到用户数目达到指定上限10000 或A里没有未被标记的用户为止;
表一:某关键词相关词语
R2、统计语料库中各用户的相关数据:
对A集合中用户的粉丝数,总推文数,地理位置,关于具体事件主题的推文或博文的发布数目,点赞数和转发数进行了统计。按照各用户的简介,筛选出是新闻媒体的用户,并将其以国家为单位分类。
对A集合中用户的粉丝数,总推文数,地理位置,关于所述关键词主题的推文的发布数目,点赞数和转发数进行了统计。集合A里总共有8785个用户,其中650个是媒体用户,包括37个国家的主流媒体报社和个人经营的媒体账户。
R3、构建转发网络:
通过集合A构造出在所述关键词主题下的转发网络。设网络中用户集合为V,推文集合为E。E中的每条边(i,j)代表用户i转发了用户j的推文。集合Fu代表E中所有指向u的用户集合,Du代表E中所有u指向的用户集合。
R4、构建模型计算基于所述关键词事件的新闻媒体影响力值:
首先,计算用户之间的边的权重。Au,v代表用户v到用户u边的权重,其中 nv,u代表用户v转发过用户u推文的数目。
其次,计算用户的个性化权值。每个用户的属性分为两类,第一类是整体属性,即用户的粉丝数x1和总的推文数x2。第二类是局部属性,即关于所述关键词主题推文的发布数x3、转发数x4和点赞数x5;xu,i表示u用户第i个属性,xv,i表示v用户第i个属性,xi表示上述x1~x5属性,每一个属性都有人为设定的权重wi,加权求和并归一化后作为用户属性的权值,即PageRank式子中用户个性化的权值p。
最后,评估新闻媒体的影响力。用户v以1-α的概率转发集合Dv中用户的推文,接着以Av,u的概率转发用户u的推文;以α的概率转发普通用户的推文,这里的普通用户指所有用户,接着以pu的概率转发用户u的推文。传统的 PageRank算法,以1/V|的概率随机跳转,忽视了用户之间的差异,所以为了结合用户的个性化信息,这里以pu的概率进行跳转,并将此作为基于所述关键词事件下新闻媒体影响力的值,Ru是新闻媒体用户u的影响力值。
R5、以国家为单位,对影响力值进行可视化:
通过上述步骤,可以得到基于所述关键词事件下新闻媒体的影响力值。将各新闻媒体,按照其简介中的描述,将他们以国家为单位划分,相同国家的新闻媒体影响力值相加,得到各国新闻媒体影响力值。为了更直观地展示实验结果,本专利对结果进行了可视化,得到图2,其中圆的半径越大,颜色越鲜明,表明这个国家的影响力越大。
Claims (5)
1.一种社交媒体事件级新闻中新闻媒体影响力评估方法,其特征在于,步骤包括R1、采集社交媒体数据,构建事件语料库;R2、统计语料库中各用户的相关数据;R3、构建转发网络;R4、构建评价模型评估新闻媒体影响力;R5、以国家为单位,对影响力进行可视化。
2.根据权利要求1所述的一种社交媒体事件级新闻中新闻媒体影响力评估方法,其特征在于,在步骤R1中,首先利用社交媒体的API,以某一具体事件的关键词作为查询内容,采集社交网络中与这一具体事件相关的语料;得到初始的用户集合A,然后迭代的进行以下操作:对用户集合A里没有被标记的用户u进行标记,然后采集u关于这一具体事件相关的语料,并从中抽出被转发的用户添加到A里,直到用户数目达到指定上限或A里没有未被标记的用户为止。
3.根据权利要求1所述的一种社交媒体事件级新闻中新闻媒体影响力评估方法,其特征在于,步骤R2所述的相关数据包括用户的粉丝数,总推文数,地理位置,关于具体事件主题的推文或博文的发布数目,点赞数和转发数。
4.根据权利要求1所述的一种社交媒体事件级新闻中新闻媒体影响力评估方法,其特征在于,在步骤R4中,首先,计算用户之间的边的权重;Au,v代表用户v到用户u边的权重,其中nv,u代表用户v转发过用户u推文的数目;
其次,计算用户的个性化权值;每个用户的属性分为两类,第一类是整体属性,即用户的粉丝数x1和总的推文数x2;第二类是局部属性,即关于具体事件主题推文的发布数x3、转发数x4和点赞数x5;xu,i表示u用户第i个属性,xv,i表示v用户第i个属性,xi表示上述x1~x5属性,每一个属性都有人为设定的权重wi,加权求和并归一化后作为用户属性的权值;
最后,评估新闻媒体的影响力;用户v以1-α的概率转发集合Dv中用户的推文,接着以Av,u的概率转发用户u的推文;以α的概率转发普通用户的推文,这里的普通用户指所有用户,接着以pu的概率转发用户u的推文;
Ru是新闻媒体用户u的影响力值,以pu的概率进行跳转,作为基于具体事件下新闻媒体影响力的值。
5.根据权利要求2所述的一种社交媒体事件级新闻中新闻媒体影响力评估方法,其特征在于,所述的指定上限为10000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810486091.2A CN108959364B (zh) | 2018-05-21 | 2018-05-21 | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810486091.2A CN108959364B (zh) | 2018-05-21 | 2018-05-21 | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959364A true CN108959364A (zh) | 2018-12-07 |
CN108959364B CN108959364B (zh) | 2022-02-22 |
Family
ID=64499632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810486091.2A Active CN108959364B (zh) | 2018-05-21 | 2018-05-21 | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959364B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427577A (zh) * | 2019-06-26 | 2019-11-08 | 五八有限公司 | 内容的影响评估方法、装置、电子设备和存储介质 |
CN111062202A (zh) * | 2019-11-04 | 2020-04-24 | 中证征信(深圳)有限公司 | 信源影响力的评估方法、装置、设备及可读介质 |
CN111553146A (zh) * | 2020-05-09 | 2020-08-18 | 杭州中科睿鉴科技有限公司 | 新闻写作风格建模方法、写作风格-影响力分析方法及新闻质量评估方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297581A1 (en) * | 2009-12-01 | 2013-11-07 | Topsy Labs, Inc. | Systems and methods for customized filtering and analysis of social media content collected over social networks |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
US20150066948A1 (en) * | 2013-08-27 | 2015-03-05 | Adobe Systems Incorporated | Influence Scoring for Social Media Authors |
CN106341265A (zh) * | 2016-09-09 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 网络数据的展示方法和装置 |
-
2018
- 2018-05-21 CN CN201810486091.2A patent/CN108959364B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297581A1 (en) * | 2009-12-01 | 2013-11-07 | Topsy Labs, Inc. | Systems and methods for customized filtering and analysis of social media content collected over social networks |
US20150066948A1 (en) * | 2013-08-27 | 2015-03-05 | Adobe Systems Incorporated | Influence Scoring for Social Media Authors |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN106341265A (zh) * | 2016-09-09 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 网络数据的展示方法和装置 |
Non-Patent Citations (1)
Title |
---|
JIANSHU WENG等: "《TwitterTank:finding topic-sensitive influential twitterers》", 《WSDM "10: PROCEEDINGS OF THE THIRD ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427577A (zh) * | 2019-06-26 | 2019-11-08 | 五八有限公司 | 内容的影响评估方法、装置、电子设备和存储介质 |
CN110427577B (zh) * | 2019-06-26 | 2022-04-19 | 五八有限公司 | 内容的影响评估方法、装置、电子设备和存储介质 |
CN111062202A (zh) * | 2019-11-04 | 2020-04-24 | 中证征信(深圳)有限公司 | 信源影响力的评估方法、装置、设备及可读介质 |
CN111062202B (zh) * | 2019-11-04 | 2023-10-13 | 中证征信(深圳)有限公司 | 信源影响力的评估方法、装置、设备及可读介质 |
CN111553146A (zh) * | 2020-05-09 | 2020-08-18 | 杭州中科睿鉴科技有限公司 | 新闻写作风格建模方法、写作风格-影响力分析方法及新闻质量评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108959364B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
Nagarajan et al. | Spatio-temporal-thematic analysis of citizen sensor data: Challenges and experiences | |
Hampton | Internet use and the concentration of disadvantage: Glocalization and the urban underclass | |
Quercia et al. | Talk of the city: Our tweets, our community happiness | |
Quercia et al. | The emotional and chromatic layers of urban smells | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN108959364A (zh) | 一种社交媒体事件级新闻中新闻媒体影响力评估方法 | |
CN109063010A (zh) | 一种基于PageRank的意见领袖挖掘方法 | |
CN103617169A (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
CN103559315B (zh) | 资讯筛选推送方法及装置 | |
CN104834695A (zh) | 基于用户兴趣度和地理位置的活动推荐方法 | |
CN103699626A (zh) | 一种微博用户个性化情感倾向分析方法及系统 | |
CN109829114A (zh) | 一种基于用户行为的话题流行度预测系统及方法 | |
CN104090961A (zh) | 一种基于机器学习的社交网络垃圾用户过滤方法 | |
Russ | Examining large-scale regional variation through online geotagged corpora | |
Al-Saqaf et al. | How do social media users link different types of extreme events to climate change? A study of Twitter during 2008–2017 | |
Lee et al. | A Study of the Correlation between the Spatial Attributes on Twitter | |
Tyner et al. | Tweeting the Laurentian Great Lakes: A community opinion analysis about Great Lakes areas as assessed through mentions on Twitter | |
CN106874260A (zh) | 一种基于用户词典的网络社交文本大数据处理方法及系统 | |
Hu | Real-time Twitter sentiment toward thanksgiving and Christmas holidays | |
Sun et al. | EduVis: Visualization for education knowledge graph based on web data | |
Heravi et al. | Tweet location detection | |
JP5613701B2 (ja) | 関連文書収集装置及び方法及びプログラム | |
Stepchenkova et al. | Grassroots branding with twitter: Amazing Florida | |
JP2013109629A (ja) | 対話システム、対話方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |