CN104933475A - 网络转发行为预测方法及装置 - Google Patents

网络转发行为预测方法及装置 Download PDF

Info

Publication number
CN104933475A
CN104933475A CN201510275958.6A CN201510275958A CN104933475A CN 104933475 A CN104933475 A CN 104933475A CN 201510275958 A CN201510275958 A CN 201510275958A CN 104933475 A CN104933475 A CN 104933475A
Authority
CN
China
Prior art keywords
focus incident
microblogging
predicted
matching degree
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510275958.6A
Other languages
English (en)
Inventor
刘玮
王丽宏
陈江
张同虎
马宏远
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510275958.6A priority Critical patent/CN104933475A/zh
Publication of CN104933475A publication Critical patent/CN104933475A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种网络转发行为预测方法及装置。该方法包括:计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;将第一匹配度、第二匹配度、以及待预测用户的信息输入到预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。借助于本发明的技术方案,有效提高了微博转发行为预测的准确性。

Description

网络转发行为预测方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种网络转发行为预测方法及装置。
背景技术
我国微博应用于2009年正式发布,正是发布以来,迅速以其内容简洁、交互便捷和快速传播等特点,发展成为人们表达观点、抒发情绪、传递信息的重要社会媒体。截至2014年6月底,我国微博用户规模为2.75亿,用户之间结成复杂的关注关系,每天发送微博近1亿条,信息沿着用户间的关注关系进行传播,形成传播网络。
微博转发是消息在微博网络中得到持续传播的重要方式,微博转发预测能够有效估计消息是否能获得转发及其转发规模,及早发现可能引发大规模爆发的微博,对微博突发性检测和微博影响力评估具有重要意义。
针对微博转发问题的代表性方法包括以下两类,一是以Suh为代表的针对某些消息具有更高的转发性这一现象,基于Twitter数据分析多种微博转发的影响因素,提取URL、标签、关注人数、粉丝人数等内容和统计特征,通过主成分分析和广义线性模型的分析方法,建立各影响因素与微博转发之间的函数关系,以此对微博转发行为进行预测。二是以Yang为代表的基于微博转发树的方法,通过截取Twitter消息中的RTusername提取微博转发关系建立微博转发树,然后基于因子图模型建立转发预测模型,以用户为节点,转发关系为连边,将用户转发和不转发作为两种节点状态,该模型将节点属性、前一时刻节点状态以及前后两个时刻的邻居节点状态作为训练数据获得模型参数,最终实现节点状态预测。
以高转发率微博属性提取的方法主要针对用户静态属性或消息特征来预测消息是否会被转发,没有充分考虑待预测用户的个体差异性和知识背景对转发决策的影响。用户在阅读到一条微博时,会根据自己已有相关知识对微博价值和新颖性进行判断,然后决定是否进行转发。用户具有哪些相关知识可以从用户历史所发微博中分析获得,但通过用户历史微博来获取用户所掌握的知识具有时间和内容局限性。时间局限性是指用户历史微博反映的都是用户以往感兴趣的内容,而用户的兴趣是随时间和外部事件影响而动态变化的,在面对一些新发生的热点事件时,无法通过分析历史微博判断用户对热点事件的感兴趣程度,往往造成预测准确性低。内容局限性是指微博只是用户进行网络交互的一种方式,难以期望用户将自己所有的生活、学习和工作的方方面面信息完整的反映在微博里。所以仅依靠用户历史微博来计算用户兴趣,进而计算用户兴趣与待转发微博内容的相似程度,据此判断用户是否会转发某条微博是不准确的。
基于转发关系的因子图模型方法需要建立完整的微博转发树、前一时刻节点状态以及前后两个时刻的邻居节点状态,这需要获得完整的转发关系和历史转发日志数据,但是在实际转发预测问题中,大部分情况下只能获取到部分用户转发数据和局部日志数据,建立完整的转发树和节点状态是很困难的,并且计算复杂度较高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络转发行为预测方法及装置。
本发明提供一种网络转发行为预测方法,包括:
计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;
将第一匹配度、第二匹配度、以及待预测用户的信息输入到预先训练好的 分类器中,输出待预测用户对待预测微博的动作类型。
优选地,计算待预测用户的转发行为与热点事件趋势的第一匹配度具体包括:
通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
优选地,计算待预测微博的关键词与热点事件匹配度具体包括:
根据公式1计算待预测微博的关键词与热点事件匹配度
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |          公式1;
其中,m表示待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,VS表示热点事件的特征词集合。
优选地,计算待预测微博与热点事件的第二匹配度具体包括:
在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2          公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值。
优选地,对分类器进行训练具体包括:
选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本集中标识用户、微博、以及动作类型之间的关系;
基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词与热点事件匹配度将匹配度最高的热点事件判定为待预测微博所属的热点事件;
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |           公式1;
其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,VS表示热点事件的特征词集合;
基于训练样本集,在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算微博用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算微博用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2             公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值;
基于训练样本集,将微博的关键词与热点事件匹配度微博用户转发行为与热点事件趋势的匹配度以及动作类型输入到分类器,对分类器进行训练。
本发明还提供了一种网络转发行为预测装置,包括:
计算模块,用于计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;
预测模块,用于将第一匹配度、第二匹配度、以及待预测用户的信息输入到训练模块预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。
优选地,计算模块具体用于:
通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
优选地,计算模块具体用于:
根据公式1计算待预测微博的关键词与热点事件匹配度
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |              公式1;
其中,m表示待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,VS表示热点事件的特征词集合。
优选地,计算模块具体用于:
在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2          公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周 期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值。
优选地,训练模块具体用于:
选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本集中标识用户、微博、以及动作类型之间的关系;
基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词与热点事件匹配度将匹配度最高的热点事件判定为待预测微博所属的热点事件;
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |            公式1;
其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,VS表示热点事件的特征词集合;
基于训练样本集,在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算微博用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算微博用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2              公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值;
基于训练样本集,将微博的关键词与热点事件匹配度微博用户转发行为与热点事件趋势的匹配度以及动作类型输入到分类器,对分类器进行训练。
本发明有益效果如下:
通过将用户背景知识作为用户转发决策的影响因素之一,通过判断微博所属热点事件,进而计算用户行为与事件趋势一致性程度,最终判断用户对微博的感兴趣程度,有效解决了现有技术中不考虑用户即有的知识背景,以及微博所含信息量少,用户兴趣计算不准确性的问题,有效提高了微博转发行为预测的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的网络转发行为预测方法的流程图;
图2是本发明实施例的网络转发行为预测方法的详细处理的示意图;
图3是本发明实施例的网络转发行为预测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如上所述,现有微博转发预测大多集中在消息属性及传播网络特征的研究,而微博是否会被转发与用户个体行为和用户对微博的知识背景具有紧密相关性,用户所掌握的微博背景知识一方面由历史微博获取,一方面由用户对微博内容的综合认知程度决定,而用户对微博内容的综合认知程度的计算受到多种复杂因素影响,本发明实施例的技术方案利用互联网中其他媒体如新闻网站对微博内容所涉及的热点事件报道作为微博相关的背景知识,建立事件关键词特征向量,借此表示用户能够从其他渠道获知的微博内容相关的背景知识。其次,传统判断用户是否会转发某条微博的方法通常是直接根据微博内容判断用户是否会感兴趣进而采取转发动作,而微博内容非常短,所含内容特征有限,仅通过文本相似度等度量方法计算微博与用户兴趣之间的相似程度准确性低。
综合以上分析,本发明实施例针对现有微博转发预测方法没有充分考虑用户对热点事件已有背景知识对是否采取转发动作的影响,以及仅依靠内容相似度来判断用户对微博感兴趣程度的不准确性等问题,(1)提出事件背景知识获取和特征向量计算方法,用于表示用户对热点事件的综合认知程度,并将直接判断用户对微博的感兴趣程度问题转换成判断用户对微博所属热点事件的感兴趣程度问题,能够避免因用户历史微博内容局限性而导致的预测准确性低问题。(2)提出利用用户历史转发行为趋势特征及其与热点事件传播趋势一致性的计算方法,以此代表用户对热点事件的关注程度,进而表示该用户对热点事件微博的感兴趣程度,避免直接通过计算单条微博与用户兴趣相似程度所带来的不准确性问题。(3)提出数据收集、特征计算、模型训练、转发预测四阶段的微博转发预测方法,提高微博转发预测准确性。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
方法实施例 
根据本发明的实施例,提供了一种网络转发行为预测方法,图1是本发明实施例的网络转发行为预测方法的流程图,如图1所示,根据本发明实施例的网络转发行为预测方法包括如下处理:
步骤101,计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;
在步骤101中,计算待预测用户的转发行为与热点事件趋势的第一匹配度具体包括:
通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
可以根据公式1计算待预测微博的关键词与热点事件匹配度
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |               公式1;
其中,m表示待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,VS表示热点事件的特征词集合。
在步骤101中,计算待预测微博与热点事件的第二匹配度具体包括:
在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2            公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周 期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值。
步骤102,将第一匹配度、第二匹配度、以及待预测用户的信息输入到预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。其中,动作类型包括:转发和非转发。
在步骤102中,对分类器进行训练具体包括:
选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本集中标识用户、微博、以及动作类型之间的关系;
基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词与热点事件匹配度将匹配度最高的热点事件判定为待预测微博所属的热点事件;
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |               公式1;
其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,VS表示热点事件的特征词集合;
基于训练样本集,在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算微博用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算微博用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2            公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值;
基于训练样本集,将微博的关键词与热点事件匹配度微博用户转发行为与热点事件趋势的匹配度以及动作类型输入到分类器,对分类器进行训练。
以下结合附图,对本发明实施例的上述技术方案进行详细说明。
图2是本发明实施例的网络转发行为预测方法的详细处理的示意图,如图2所示,本发明实施例提出的方法包括下列处理:
一、数据收集 
(1)选取一段时间内热点事件列表event_list;
(2)针对事件列表中的每个热点事件,从新闻网站爬取相关报道;
(3)对报道进行内容提取、分词、词频统计,形成由关键词组成的特征向量word_vec_event;
(4)选取训练样本集,包括用户、微博、动作类型(转发和非转发),进行数据标注;
二、特征计算 
(1)定义热点事件发生后60天为事件周期,统计热点事件相关微博在事件周期内每天的累积转发量,表示热点事件的传播趋势分布heat_event;
(2)统计用户在事件周期内每天转发的事件相关微博的数量user_heat_event;
(3)计算微博m与热点事件的匹配度即判断微博属于某热点事件的概率大小,概率越大,微博越有可能属于某热点事件。计算分为两步进行,首先通过提取微博的话题标签,判断话题标签内容是否命中热点事件,如果命中, 该微博就属于该热点事件,如果未命中,就进行第二步判断,计算微博关键词与热点事件相似度,相似度最高的热点事件判定为微博所属热点事件,计算方法如下:Vm表示微博特征词集合,VS表示热点事件S的特征词集合。
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |
(4)计算用户u转发行为与热点事件S趋势的匹配度即用户u行为与事件S传播趋势的共变关系大小,匹配度越高,表明用户在事件周期对事件相关微博进行了持续关注,对事件具有较高的兴趣度。用户行为与事件趋势的匹配度计算公式如下:t表示事件周期,表示第i天的与事件S相关的微博总数,表示的平均值。表示第i天用户u所转发的与事件S相关的微博数,表示的平均值。
Sim ( heat _ event , user _ heat _ event ) = ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2
三、模型训练
从训练集提取微博与热点事件匹配度、用户转发行为与热点事件趋势匹配度、动作类型,输入C4.5决策树分类模型,对模型参数进行训练;
四、转发预测 
(1)计算待预测用户转发行为与热点事件趋势匹配度;
(2)计算待预测微博与热点事件匹配度;
(3)将上述特征输入训练好的分类器,输出结果为动作类型。
从上述处理可以看出,本发明实施例针对现有微博转发预测方法没有充分考虑用户对热点事件已有背景知识对是否采取转发动作的影响,以及仅依靠内容相似度来判断用户对微博感兴趣程度的不准确性等问题,(1)提出事件背景知识获取和特征向量计算方法,用于表示用户对热点事件的综合认知程度,并将直接判断用户对微博的感兴趣程度问题转换成判断用户对微博所属热点事 件的感兴趣程度问题,能够避免因用户历史微博内容局限性而导致的预测准确性低问题。(2)提出利用用户历史转发行为趋势特征及其与热点事件传播趋势一致性的计算方法,以此代表用户对热点事件的关注程度,进而表示该用户对热点事件微博的感兴趣程度,避免直接通过计算单条微博与用户兴趣相似程度所带来的不准确性问题。
综上所述,借助于本发明实施例的技术方案,通过将用户背景知识作为用户转发决策的影响因素之一,通过判断微博所属热点事件,进而计算用户行为与事件趋势一致性程度,最终判断用户对微博的感兴趣程度,有效解决了现有技术中不考虑用户即有的知识背景,以及微博所含信息量少,用户兴趣计算不准确性的问题,有效提高了微博转发行为预测的准确性。
装置实施例 
根据本发明的实施例,提供了一种网络转发行为预测装置,图3是本发明实施例的网络转发行为预测装置的结构示意图,如图3所示,根据本发明实施例的网络转发行为预测装置包括:计算模块30、预测模块32,以下对本发明实施例的各个模块进行详细的说明。
计算模块30,用于计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;计算模块具体用于:
通过提取待预测微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
根据公式1计算待预测微博的关键词与热点事件匹配度
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |             公式1;
其中,m表示待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,VS表示热点事件的特征词集合。
在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算待预测微博的用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2           公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值。
预测模块32,用于将第一匹配度、第二匹配度、以及待预测用户的信息输入到训练模块预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。
训练模块具体用于:
选取预订时段内的热点事件列表,根据热点事件列表在网络上爬取相关信息,针对信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集合,并获取与热点事件列表中的热点事件相关的微博用户作为训练样本集,并在训练样本集中标识用户、微博、以及动作类型之间的关系;
基于训练样本集,通过提取微博的话题标签,判断话题标签内容是否命中热点事件,如果命中,则确定微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词与热点事件匹配度将匹配度最高的热点事件判定为待预测微博所属的热点事件;
ρ m S = max { P ( V m , V S ) } , P ( V m , V S ) = | V m ∩ V S | | V m ∪ V S |            公式1;
其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,VS表示 热点事件的特征词集合;
基于训练样本集,在热点事件发生周期内,计算热点事件相关微博在热点事件发生周期内每天的积累转发量,并计算微博用户在热点事件发生周期内每天转发相关微博的数量;
根据公式2计算微博用户转发行为与热点事件趋势的匹配度
ρ u S ( t ) = Σ i = 1 t { [ N u S ( i ) - N ^ u S ] × [ N i S - N ^ S ] } Σ i = 1 t [ N u S ( i ) - N ^ u S ] 2 × Σ i = 1 t [ N i S - N ^ S ] 2            公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值;
基于训练样本集,将微博的关键词与热点事件匹配度微博用户转发行为与热点事件趋势的匹配度以及动作类型输入到分类器,对分类器进行训练。
综上所述,借助于本发明实施例的技术方案,通过将用户背景知识作为用户转发决策的影响因素之一,通过判断微博所属热点事件,进而计算用户行为与事件趋势一致性程度,最终判断用户对微博的感兴趣程度,有效解决了现有技术中不考虑用户即有的知识背景,以及微博所含信息量少,用户兴趣计算不准确性的问题,有效提高了微博转发行为预测的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构 造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种网络转发行为预测方法,其特征在于,包括:
计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;
将所述第一匹配度、所述第二匹配度、以及所述待预测用户的信息输入到预先训练好的分类器中,输出所述待预测用户对所述待预测微博的动作类型。
2.如权利要求1所述的方法,其特征在于,计算待预测用户的转发行为与热点事件趋势的第一匹配度具体包括:
通过提取待预测微博的话题标签,判断所述话题标签内容是否命中热点事件,如果命中,则确定所述待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
3.如权利要求2所述的方法,其特征在于,计算待预测微博的关键词与热点事件匹配度具体包括:
根据公式1计算待预测微博的关键词与热点事件匹配度
   公式1;
其中,m表示所述待预测微博,s表示热点事件,Vm表示待预测微博的特征词集合,VS表示热点事件的特征词集合。
4.如权利要求1所述的方法,其特征在于,计算待预测微博与热点事件的第二匹配度具体包括:
在热点事件发生周期内,计算热点事件相关微博在所述热点事件发生周期内每天的积累转发量,并计算所述待预测微博的用户在所述热点事件发生周期内每天转发相关微博的数量;
根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度
   公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值。
5.如权利要求1所述的方法,其特征在于,对分类器进行训练具体包括:
选取预订时段内的热点事件列表,根据所述热点事件列表在网络上爬取相关信息,针对所述信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集合,并获取与所述热点事件列表中的热点事件相关的微博用户作为训练样本集,并在所述训练样本集中标识用户、微博、以及动作类型之间的关系;
基于所述训练样本集,通过提取微博的话题标签,判断所述话题标签内容是否命中热点事件,如果命中,则确定所述微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词与热点事件匹配度将匹配度最高的热点事件判定为待预测微博所属的热点事件;
   公式1;
其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,VS表示热点事件的特征词集合;
基于所述训练样本集,在热点事件发生周期内,计算热点事件相关微博在所述热点事件发生周期内每天的积累转发量,并计算所述微博用户在所述热点事件发生周期内每天转发相关微博的数量;
根据公式2计算微博用户转发行为与热点事件趋势的匹配度
   公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值;
基于所述训练样本集,将所述微博的关键词与热点事件匹配度所述微博用户转发行为与热点事件趋势的匹配度以及动作类型输入到分类器,对所述分类器进行训练。
6.一种网络转发行为预测装置,其特征在于,包括:
计算模块,用于计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;
预测模块,用于将所述第一匹配度、所述第二匹配度、以及所述待预测用户的信息输入到训练模块预先训练好的分类器中,输出所述待预测用户对所述待预测微博的动作类型。
7.如权利要求6所述的装置,其特征在于,所述计算模块具体用于:
通过提取待预测微博的话题标签,判断所述话题标签内容是否命中热点事件,如果命中,则确定所述待预测微博属于该热点事件,如果未命中,则计算待预测微博的关键词与热点事件匹配度,将匹配度最高的热点事件判定为待预测微博所属的热点事件。
8.如权利要求7所述的装置,其特征在于,所述计算模块具体用于:
根据公式1计算待预测微博的关键词与热点事件匹配度
   公式1;
其中,m表示所述待预测微博,s表示热点事件,Vm表示待预测微博的特 征词集合,VS表示热点事件的特征词集合。
9.如权利要求6所述的装置,其特征在于,所述计算模块具体用于:
在热点事件发生周期内,计算热点事件相关微博在所述热点事件发生周期内每天的积累转发量,并计算所述待预测微博的用户在所述热点事件发生周期内每天转发相关微博的数量;
根据公式2计算待预测微博的用户转发行为与热点事件趋势的匹配度
   公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值。
10.如权利要求6所述的装置,其特征在于,所述训练模块具体用于:
选取预订时段内的热点事件列表,根据所述热点事件列表在网络上爬取相关信息,针对所述信息进行内容提取,对提取的内容进行分词和词频统计,形成由关键词组成的特征词集合,并获取与所述热点事件列表中的热点事件相关的微博用户作为训练样本集,并在所述训练样本集中标识用户、微博、以及动作类型之间的关系;
基于所述训练样本集,通过提取微博的话题标签,判断所述话题标签内容是否命中热点事件,如果命中,则确定所述微博属于该热点事件,如果未命中,则根据公式1计算微博的关键词与热点事件匹配度将匹配度最高的热点事件判定为待预测微博所属的热点事件;
   公式1;
其中,m表示微博,s表示热点事件,Vm表示微博的特征词集合,VS表示 热点事件的特征词集合;
基于所述训练样本集,在热点事件发生周期内,计算热点事件相关微博在所述热点事件发生周期内每天的积累转发量,并计算所述微博用户在所述热点事件发生周期内每天转发相关微博的数量;
根据公式2计算微博用户转发行为与热点事件趋势的匹配度
   公式2;
其中,s表示热点事件,u表示待预测微博的用户,t表示热点事件发生周期,表示第i天与热点事件S相关的微博转发总量,表示的平均值。 表示第i天用户u所转发的与热点事件S相关的微博数量,表示的平均值;
基于所述训练样本集,将所述微博的关键词与热点事件匹配度所述微博用户转发行为与热点事件趋势的匹配度以及动作类型输入到分类器,对所述分类器进行训练。
CN201510275958.6A 2015-05-27 2015-05-27 网络转发行为预测方法及装置 Pending CN104933475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510275958.6A CN104933475A (zh) 2015-05-27 2015-05-27 网络转发行为预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510275958.6A CN104933475A (zh) 2015-05-27 2015-05-27 网络转发行为预测方法及装置

Publications (1)

Publication Number Publication Date
CN104933475A true CN104933475A (zh) 2015-09-23

Family

ID=54120635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510275958.6A Pending CN104933475A (zh) 2015-05-27 2015-05-27 网络转发行为预测方法及装置

Country Status (1)

Country Link
CN (1) CN104933475A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202222A (zh) * 2016-06-28 2016-12-07 北京小米移动软件有限公司 热点事件的确定方法及装置
CN106326481A (zh) * 2016-08-31 2017-01-11 中译语通科技(北京)有限公司 一种基于突发特征的微博热点话题检测方法
CN106681989A (zh) * 2015-11-09 2017-05-17 郑州大学 一种预测微博转发概率的方法
CN106682770A (zh) * 2016-12-14 2017-05-17 重庆邮电大学 一种基于好友圈子的动态微博转发行为预测系统及方法
CN107329946A (zh) * 2016-04-29 2017-11-07 阿里巴巴集团控股有限公司 相似度的计算方法和装置
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN110991742A (zh) * 2019-12-04 2020-04-10 清华大学 一种社交网络信息转发概率预测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082421A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. Click through rate prediction system and method
CN102394798A (zh) * 2011-11-16 2012-03-28 北京交通大学 一种基于多元特征的微博信息传播行为预测方法及系统
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103116605A (zh) * 2013-01-17 2013-05-22 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统
CN103617289A (zh) * 2013-12-12 2014-03-05 北京交通大学长三角研究院 基于用户特征及网络关系的微博推荐方法
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法
CN103823890A (zh) * 2014-03-10 2014-05-28 中国科学院信息工程研究所 一种针对特定群体的微博热点话题检测方法及装置
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082421A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. Click through rate prediction system and method
CN102394798A (zh) * 2011-11-16 2012-03-28 北京交通大学 一种基于多元特征的微博信息传播行为预测方法及系统
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103116605A (zh) * 2013-01-17 2013-05-22 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统
CN103617289A (zh) * 2013-12-12 2014-03-05 北京交通大学长三角研究院 基于用户特征及网络关系的微博推荐方法
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法
CN103823890A (zh) * 2014-03-10 2014-05-28 中国科学院信息工程研究所 一种针对特定群体的微博热点话题检测方法及装置
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘玮 等: ""面向话题的微博网络测量研究"", 《通信学报》 *
熊菲: ""互联网用户行为分析及信息演化模式研究"", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681989A (zh) * 2015-11-09 2017-05-17 郑州大学 一种预测微博转发概率的方法
CN107329946A (zh) * 2016-04-29 2017-11-07 阿里巴巴集团控股有限公司 相似度的计算方法和装置
CN106202222A (zh) * 2016-06-28 2016-12-07 北京小米移动软件有限公司 热点事件的确定方法及装置
CN106202222B (zh) * 2016-06-28 2022-08-12 北京小米移动软件有限公司 热点事件的确定方法及装置
CN106326481A (zh) * 2016-08-31 2017-01-11 中译语通科技(北京)有限公司 一种基于突发特征的微博热点话题检测方法
CN106682770A (zh) * 2016-12-14 2017-05-17 重庆邮电大学 一种基于好友圈子的动态微博转发行为预测系统及方法
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN107451249B (zh) * 2017-07-28 2020-01-21 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN108733791A (zh) * 2018-05-11 2018-11-02 北京科技大学 网络事件检测方法
CN108733791B (zh) * 2018-05-11 2020-11-20 北京科技大学 网络事件检测方法
CN110991742A (zh) * 2019-12-04 2020-04-10 清华大学 一种社交网络信息转发概率预测方法及系统

Similar Documents

Publication Publication Date Title
CN104933475A (zh) 网络转发行为预测方法及装置
Ramadhan et al. Sentiment analysis using multinomial logistic regression
Schouten et al. Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
US11238233B2 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
Bordin et al. DSPBench: A suite of benchmark applications for distributed data stream processing systems
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN103150374A (zh) 一种识别微博异常用户的方法和系统
EP3014414A2 (en) Real-time and adaptive data mining
CN104298679A (zh) 应用业务推荐方法及装置
CN105302810A (zh) 一种信息搜索方法和装置
CN104216881A (zh) 一种个性化标签的推荐方法及装置
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103268350A (zh) 一种互联网舆情信息监测系统及监测方法
CN110363427A (zh) 模型质量评估方法和装置
CN105550275A (zh) 一种微博转发量预测方法
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN103729388A (zh) 用于网络用户发表状态的实时热点检测方法
Kumar et al. Battling fake news: A survey on mitigation techniques and identification
Costa et al. Adaptive learning for dynamic environments: A comparative approach
Wegrzyn-Wolska et al. Tweets mining for French presidential election
Zhang et al. Social network information propagation model based on individual behavior
Kumar et al. Fake news detection using machine learning and natural language processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination