CN102270240A - 网络论坛中热点发现及其演化态势分析方法 - Google Patents
网络论坛中热点发现及其演化态势分析方法 Download PDFInfo
- Publication number
- CN102270240A CN102270240A CN2011102315604A CN201110231560A CN102270240A CN 102270240 A CN102270240 A CN 102270240A CN 2011102315604 A CN2011102315604 A CN 2011102315604A CN 201110231560 A CN201110231560 A CN 201110231560A CN 102270240 A CN102270240 A CN 102270240A
- Authority
- CN
- China
- Prior art keywords
- model
- tuples
- post
- value
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网络论坛中热点发现及其演化态势分析方法,利用爬虫程序提取一个版块内所有帖子的HTML文本;从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);利用公式计算第i个帖子的得分;取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数得到二元组。下面列出拟合的效果以及评价指标:SSE=1.548e+07。SSE为误差项平方和,反映每个样本各观测值的离散状况,又称为组内平方和或残差平方和。R-square=0.8339。R-square是拟合系数,值越大拟合度越好。RMSE=525.7。RMSE为均方根误差,可以作为衡量测量精度的一种数值指标。对这些指标分析后,可以看出拟合的效果是比较理想的。求出最大的极值点为x0=14;取x1=15>x0,y′(x0)<0故该帖子的热度正在下降。
Description
技术领域
本发明涉及一种网络论坛中热点发现及其演化态势分析方法,属于网络的演化分析方法技术领域。
背景技术
现有对网络论坛中热点话题发现这个问题的解决方法主要是简单地以浏览量和回复量的多少作为评价标准,亦即浏览量和回复数多,帖子主题便是比较热门。如此简单的判断往往会忽略这些数值之中的内在的数学意义;在态势分析上使用人工跟踪的方法,往往网络论坛的管理人员对帖子的内容进行监测,以得到其演化规律,这样既费时又费力。
发明内容
本发明的目的是能够发现当前网络论坛中比较热门,持续时间比较长的帖子,得到的结果尽可能与话题实际背景与情况相符合;能够对话题在未来的一段时间内的发展态势做出分析,进而提供一种网络论坛中热点发现及其演化态势分析方法。
本发明的目的是通过以下技术方案实现的:
网络论坛中热点发现及其演化态势分析方法:
一、帖子打分方法
1、利用爬虫程序提取一个版块内所有帖子的HTML文本;2、从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);3、利用公式 计算第i个帖子的得分;其中,S(pi)代表第i个帖子的得分;average(x)表示所有帖子访问数的平均值;average(y)表示所有帖子回复数的平均值;max(α)表示所有元组中回复数比访问数的最大值;ω1[0.0-0.3],ω2[0.0-0.3],ω3[0.5-1.0]为权重因子,初始置为ω1=0.1,ω2=0.2,ω3=0.8;4、按照帖子分数高低排序,提取前k个感兴趣的热度帖子,作为演化态势分析的目标帖;
二、演化态势分析方法(基于MATLAB)
1、取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数(除作者自身),得到二元组(i,yi);其中,i为相距帖子发布日期的天数;yi为发生在第天的回复数;2、为这些二元组建立平面直角坐标系:以增大的方向为x轴正向,y增大的方向为y轴正向,将元组投影到该坐标系中;3、用合适的曲线y=f(x)拟合穿过这些点的曲线;4、求y=f(x)的最大极值点;如果不存在极值点,取适当大小的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态,结束;取大于xm的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态。
由上述提供的技术方案可以看出,在帖子打分方法中,我们提取天涯论坛中天涯杂谈版面中的31236篇帖子进行分析,运用帖子打分公式,得到如表1的结果(前6名):
表1 帖子得分部分结果
相比仅用访问数排名的方法,我们更多地考虑到回复数的重要性,更加合乎情理。
下面列出拟合的效果以及评价指标(见图1):
1、SSE=1.548e+07。SSE为误差项平方和,反映每个样本各观测值的离散状况,又称为组内平方和或残差平方和。2、R-square=0.8339。R-square是拟合系数,值越大拟合度越好。3、RMSE=525.7。RMSE为均方根误差,可以作为衡量测量精度的一种数值指标。
对这些指标分析后,可以看出拟合的效果是比较理想的。求出最大的极值点为x0=14;取x1=15>x0,y′(x0)<0故该帖子的热度正在下降。
附图说明
图1为高斯曲线拟合的单日回复量图;
图2为访问数与回复数的点分布图。
具体实施方式
本具体实施方式提供了一种网络论坛中热点发现及其演化态势分析方法,步骤如下:
一、帖子打分方法
1、利用爬虫程序提取一个版块内所有帖子的HTML文本;2、从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);3、利用公式 计算第i个帖子的得分;其中,S(pi)代表第i个帖子的得分;average(x)表示所有帖子访问数的平均值;average(y)表示所有帖子回复数的平均值;max(α)表示所有元组中回复数比访问数的最大值;ω1[0.0-0.3],ω2[0.0-0.3],ω3[0.5-1.0]为权重因子,初始置为ω1=0.1,ω2=0.2,ω3=0.8;4、按照帖子分数高低排序,提取前k个感兴趣的热度帖子,作为演化态势分析的目标帖;
二、演化态势分析方法(基于MATLAB)
1、取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数(除作者自身),得到二元组(i,yi);其中,i为相距帖子发布日期的天数;yi为发生在第天的回复数;2、为这些二元组建立平面直角坐标系:以增大的方向为x轴正向,y增大的方向为y轴正向,将元组投影到该坐标系中;3、用合适的曲线y=f(x)拟合穿过这些点的曲线;4、求y=f(x)的最大极值点;如果不存在极值点,取适当大小的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态,结束;取大于xm的x0,y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态。
在当今信息大爆炸的时代,互联网的信息传播早已成为人们工作、学习和生活中获取新闻、知识、娱乐等信息的必不可少的途径。在互联网各式各样的信息传播渠道中,网络论坛是中国网民一个重要的信息传播方式,而其中的热点话题自然成为舆情调控和效果评估的首要目标。
互联网舆情核心元素主要包括热点、焦点、敏点、频点等方面,其中热点是最基本的判断依据。热点指过去某一时间段内,被相对更加关注或集中关注的信息点。通俗地说,热点问题就是人民所关心的,与人民利益和现实生活完全贴近的,以及对社会造成广泛影响的一类问题,通常反映了社会成员对涉及切身利益问题的关注程度。社会热点问题常常由于涉及面广、化解难度大、后果严重等特点而导致社会运行风险度高,甚至影响社会稳定,危机和谐社会的构建。所以,在舆情调控中,我们极其有必要对这一类问题进行跟踪、疏导和调控,只有这样才能维护社会的公平和正义。研究网络中热点问题发现及其态势预测技术以具有重要的意义和社会价值。
天涯社区,创办于1999年3月,自创立以来,以其开放、包容、充满人文关怀的特色受到了全球华人网民的推崇,经过十年的发展,已经成为以论坛、部落、博客为基础交流方式,综合提供个人空间、相册、音乐盒子、分类信息、站内消息、虚拟商店、来吧、问答、企业品牌家园等一系列功能服务,并以人文情感为核心的综合性虚拟社区和大型网络社交平台。其中,天涯论坛在国内有着很大的舆论影响力。所以,就这个论题,我们以天涯论坛作为实例,提出一个快速有效的用于挖掘天涯论坛中热点帖子以及跟踪其发展态势的方法。
我们抓取了天涯论坛中天涯杂谈面从2010年2月开始到2010年12月为止共31236个帖子。其中每个帖子的格式大致包括:帖子标题、所属版面、访问数,回复数、作者、发表日期、帖子内容和评论回复等字段。在这些属性中,我们主要关心帖子的访问数、回复数两个字段作为热度分析的依据。所以,我们将每个帖子的访问数和回复数提取出来,构成二元组(访问数,回复数)。
我们可以将一个主题的访问数和回复数看成两个随机变量。可以猜想,访问数多的很可能回复数也多(为了简单起见,我们假设访问数少,回复数多这种情况是不成立的)。经过对很多主题这两列属性计算皮尔逊积矩系数,发现其值在0.5附近波动,说明两个变量具有一定的相关性。而另一个重要因素:回复数与访问数的比值,则反应了该帖子能否引起人们对所关注的话题的争论。该比值越高,我们就可以投入更多的精力对此帖进行跟踪以及调控(当然,前提是访问数要足够高,否则仅凭这个值是没有意义的。例如,分析一个访问数为2,回复数是1的帖子没有任何益处)。分析图2,我们可以分出以下三种情况。
一、访问数很少。这种帖子的一个特点是主题没有引起游客的兴趣,没有得到关注,只有很少人浏览。我们称之为“冷帖”。我们分析这种帖子是没有意义的。
二、访问数很大但是回复数很少,对应于图2右下方的区域。由于这种情况的存在,使得我们不能单纯用访问数的多少来评价一个帖子是否为热点帖子。一篇帖子的访问数很大,但是却有极少数的回复,这种情况表明这篇帖子的主题可能比较吸引人,引来了大量的游客访问,但是这些游客往往仅是出于兴趣进来看看,了解个大概罢了,没有或者只引发少量的讨论,我们把这种帖子成为“伪热点帖”。
三、访问数很大而且回复数很大,对于图2右上方的区域。这种帖子是我们需要的“热点帖”,一般具有回复密度高,持续时间长等特点。换句话说,这种帖子已经触发了大量网民的关注和讨论,人们在此主帖的主题背景下集思广益,纷纷提出了自己的观点和看法,可以延伸到很多其它的社会问题。正因如此,有很多不良或不法的言论就会滋生出来,如果不加以扼制的话,在互联网的信息传播下,可能对社会造成不良的影响。进行舆情调控要做到因地制宜,有的放矢,所以,我们对这种“热点帖”进行调控就变得理所当然了。
回头来看我们的帖子打分公式: 因为回复数更能体现出主题的热议程度,所以通常令ω1<ω2。当访问数和回复数难以区分帖子的得分时,可以考虑第三个因素,用回复数的比例来进行微调,由于故应将ω2设置的大一些。经过对天涯版面的测试,我们做出的初始设置:
ω1=0.1,ω2=0.2,ω3=0.8得到了比较好的结果。此外,由于不同版面讨论的主题特点不同,权重因子的设置会有所差别,具体可以通过机器学习的方法进行训练。
对于态势分析方法,我们主要考察了该帖子在最后的时间段内是如何演化的。所以我们求取其最大极值点xm,通过判断演化函数y=f(x)在x>xm的单调性来确定帖子热度的发展态势。如无极值点,说明帖子自发布以来一直处于上升或者下降的状态,我们可以求一个合理点的导数值来区分这两种情况。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (1)
1.一种网络论坛中热点发现及其演化态势分析方法,其特征在于,
一、帖子打分方法
(1)利用爬虫程序提取一个版块内所有帖子的HTML文本;(2)从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);(3)利用公式 计算第i个帖子的得分;其中,S(pi)代表第i个帖子的得分;average(x)表示所有帖子访问数的平均值;average(y)表示所有帖子回复数的平均值;max(α)表示所有元组中回复数比访问数的最大值;ω1[0.0-0.3],ω2[0.0-0.3],ω3[0.5-1.0]为权重因子,初始置为ω1=0.1,ω2=0.2,ω3=0.8;(4)按照帖子分数高低排序,提取前k个感兴趣的热度帖子,作为演化态势分析的目标帖;
二、演化态势分析方法
(1)取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数,得到二元组(i,yi);其中,i为相距帖子发布日期的天数;yi为发生在第天的回复数;(2)为这些二元组建立平面直角坐标系:以增大的方向为x轴正向,y增大的方向为y轴正向,将元组投影到该坐标系中;(3)用合适的曲线y=f(x)拟合穿过这些点的曲线;(4)求y=f(x)的最大极值点;如果不存在极值点,取适当大小的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态,结束;取大于xm的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102315604A CN102270240A (zh) | 2011-08-15 | 2011-08-15 | 网络论坛中热点发现及其演化态势分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102315604A CN102270240A (zh) | 2011-08-15 | 2011-08-15 | 网络论坛中热点发现及其演化态势分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102270240A true CN102270240A (zh) | 2011-12-07 |
Family
ID=45052545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102315604A Pending CN102270240A (zh) | 2011-08-15 | 2011-08-15 | 网络论坛中热点发现及其演化态势分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102270240A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722545A (zh) * | 2012-05-25 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种用于对已发布信息进行排序的方法、装置与设备 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN106886561A (zh) * | 2016-12-29 | 2017-06-23 | 中国科学院自动化研究所 | 基于时间关联交互融合的网络社区帖子影响排序方法 |
CN106909381A (zh) * | 2017-02-24 | 2017-06-30 | 西南交通大学 | 一种交互式的主题河流可视化方法 |
CN112115334A (zh) * | 2020-09-28 | 2020-12-22 | 北京百度网讯科技有限公司 | 网络社区热点内容的判别方法、装置、设备以及存储介质 |
CN112559936A (zh) * | 2020-12-16 | 2021-03-26 | 北京百度网讯科技有限公司 | 社区内容处理方法、装置、电子设备和存储介质 |
CN115795175A (zh) * | 2023-02-15 | 2023-03-14 | 铭台(北京)科技有限公司 | 基于数据分析的多维度热点提取方法 |
-
2011
- 2011-08-15 CN CN2011102315604A patent/CN102270240A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722545A (zh) * | 2012-05-25 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种用于对已发布信息进行排序的方法、装置与设备 |
CN102722545B (zh) * | 2012-05-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种用于对已发布信息进行排序的方法、装置与设备 |
CN104077377A (zh) * | 2014-06-25 | 2014-10-01 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN104077377B (zh) * | 2014-06-25 | 2018-02-23 | 红麦聚信(北京)软件技术有限公司 | 基于网络文章属性的网络舆情热点发现方法和装置 |
CN106886561A (zh) * | 2016-12-29 | 2017-06-23 | 中国科学院自动化研究所 | 基于时间关联交互融合的网络社区帖子影响排序方法 |
CN106909381A (zh) * | 2017-02-24 | 2017-06-30 | 西南交通大学 | 一种交互式的主题河流可视化方法 |
CN106909381B (zh) * | 2017-02-24 | 2020-01-03 | 西南交通大学 | 一种交互式的主题河流可视化方法 |
CN112115334A (zh) * | 2020-09-28 | 2020-12-22 | 北京百度网讯科技有限公司 | 网络社区热点内容的判别方法、装置、设备以及存储介质 |
CN112115334B (zh) * | 2020-09-28 | 2023-07-21 | 北京百度网讯科技有限公司 | 网络社区热点内容的判别方法、装置、设备以及存储介质 |
CN112559936A (zh) * | 2020-12-16 | 2021-03-26 | 北京百度网讯科技有限公司 | 社区内容处理方法、装置、电子设备和存储介质 |
CN115795175A (zh) * | 2023-02-15 | 2023-03-14 | 铭台(北京)科技有限公司 | 基于数据分析的多维度热点提取方法 |
CN115795175B (zh) * | 2023-02-15 | 2023-04-25 | 铭台(北京)科技有限公司 | 基于数据分析的多维度热点提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102270240A (zh) | 网络论坛中热点发现及其演化态势分析方法 | |
Debeer et al. | Modeling item‐position effects within an IRT framework | |
Jaech et al. | Talking to the crowd: What do people react to in online discussions? | |
Blanco et al. | Repeatable and reliable search system evaluation using crowdsourcing | |
Berthon et al. | Potential research space in MIS: A framework for envisioning and evaluating research replication, extension, and generation | |
Lease et al. | Crowdsourcing for information retrieval | |
US9223775B2 (en) | User question processing method and system | |
Kalampokis et al. | Combining social and government open data for participatory decision-making | |
Jones | Heroes and villains: Cultural narratives, mass opinions, and climate change | |
CN107122478A (zh) | 一种基于关键词提取热点话题的方法 | |
Liu et al. | Reform of the practice teaching system of entrepreneurship education based on 5g fog computing in colleges and universities | |
Su | Analysis of optimisation method for online education data mining based on big data assessment technology | |
CN103810170B (zh) | 交流平台文本分类方法及装置 | |
Kowald et al. | Individuals’ spatial social network choice: model-based analysis of leisure-contact selection | |
Arai et al. | Predicting quality of answer in collaborative Q/A community | |
Li et al. | [Retracted] The Media Public Opinion Analysis on the Implementation of “Double Reduction” Policy in Education Based on Big Data | |
Feng et al. | Research on the Effect Evaluation and the Time-series Evolution of Public Culture's Internet Communication under the Background of New Media: Taking the Information Dissemination of Red Tourism Culture as an Example | |
CN114398429A (zh) | 一种学校图书馆智能图书推荐方法及系统 | |
Brousseau et al. | Technology maturity assessment of micro and nano manufacturing processes | |
Liu et al. | The system framework of data mining and learning analysis for smart classroom | |
Kowald et al. | A population’s leisure network: descriptive statistics and a model-based analysis of leisure-contact selection | |
Shuva et al. | Internet Usage by the Students of Faculty of Arts, University of Dhaka (Bangladesh) | |
Nikkar et al. | Investigating the Electronic Journals’ Status in Comparison with Printed Journals among the Faculty Members of Payam-e-Noor University: A Study | |
Banciu et al. | Information quality–A challenge for e-Learning 3.0 | |
Yu et al. | Education data mining: How to mine interactive text in MOOCs using natural language process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111207 |