CN108229731A

CN108229731A - 一种热点话题下多消息互影响的用户行为预测系统及方法

Info

Publication number: CN108229731A
Application number: CN201711380240.9A
Authority: CN
Inventors: 肖云鹏; 李净桦; 刘红; 李暾; 李茜; 刘宴兵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-06-29
Anticipated expiration: 2037-12-20
Also published as: CN108229731B

Abstract

本发明请求保护一种热点话题下用户参与行为的预测系统及方法。属于社交网络分析领域。首先，提出了多消息影响机制，包括内部影响因素和外部影响因素；然后考虑到BP(error BackPropagation，误差逆传播)神经网络高度的自学习和自适应能力以及能充分逼近任意复杂非线性关系的特性，采用神经网络构建用户参与行为预测模型。同时使用模拟退火算法，解决了BP算法局部极小的问题，从而保证算法稳定和准确。最后，定义了多消息相关性指标，用来衡量多消息之间的互影响强度，同时可以更加准确的表征话题对用户参与行为的影响。

Description

一种热点话题下多消息互影响的用户行为预测系统及方法

技术领域

本发明属于网络话题分析领域，涉及多消息相互影响分析，是一种用户参与热点话题预测系统及方法。

背景技术

随着社交网络的不断普及与发展，它在人们生活中扮演的角色越来越重要，而微博就是其中非常具有代表性的社交网络之一。利用微博这个社交网络平台，用户可以自主选择自己感兴趣的其他用户进行关注或者自由发布自己的消息，且消息是所有人都能够看到的。所以，微博不仅具有社交的功能，同时它作为一种新的舆论媒介，吸引了我国大部分的网民参与，就出现了热点话题。与以往的传统媒介相比，微博给予每个用户自由表达交流的渠道，所以针对某热点话题，用户可以自由发表消息，而消息之间的相互影响又在一定程度上可以预测用户是否参与消息，在舆论传播与控制上具有非常重要的意义。

由于热点话题会很快扩散成为整个社会的热点事件，社会影响力也随之激增，所以对热点话题的分析也逐渐成为研究热点，包括用户参与行为、信息传播等方向。目前对用户参与行为的预测所使用的方法包括基于用户文本兴趣的分析、基于用户过往行为的分析和基于用户所受外界影响的分析等。在针对热点话题的用户行为预测中，多数研究以用户自身属性特点为切入点进行用户行为预测，忽略了热点话题下多条消息之间的相互影响，考虑因素略显单一，并不能很好的拟合出实际情况，导致了不能取得良好的预测效果。本发明综合以上各层面因素，将多消息之间的相互影响考虑在内，提出了一种用户参与热点话题预测模型。

发明内容

本发明针对多消息之间的相互作用对用户参与行为具有一定的影响，同时现有技术中神经网络算法进行预测时，容易陷入局部最小值并且收敛速度慢等问题。本发明提出了一种热点话题用户参与行为预测方法。该方法研究已经参与某话题下消息的用户，是否会在各种因素影响下参与该话题下其他消息。同时，分别从内部影响因素、外部影响因素两个角度出发，通过BP神经网络进行用户行为预测，进而量化多消息的相关性。提出了一种不易陷入局部极小值，大大提高了预测准确性的热点话题用户参与行为预测系统及方法。本发明的技术方案如下：

一种热点话题用户参与行为预测系统，其包括：获取数据模块、构建模型模块及预测分析模块，其中

获取数据模块，用于通过社交网络获取并统计数据，包括某话题下的多条消息、参与了这些消息的用户和用户的相关属性；

解析属性模块，用于将获取到的社交网络数据进行分析，分别从内部影响因素和外部影响因素来提取相关属性，内部影响因素即用户个人特征属性，外部影响因素即多消息之间相互影响属性；

构建模型模块，用于将用户自身的若干属性和多消息之间的相互影响属性作为输入，输入层节点数为7，输出用户是否参与话题，故输出层节点数为1。按照专家经验，取输入层节点数与输出层节点数之积开平方作为隐含层节点个数最为合理，将BP神经网络中隐含层的节点个数设为3，这样既不会因为隐含层节点数太少，使得训练性能变差，也不会因为节点数过多，延长训练时间且出现过拟合的情况，然后不断调整输入层与隐含层之间的连接权重，确定好权重之后即对神经网络进行训练，得到用户是否会参与话题下多消息的参与预测模型；

预测分析模块，将输入数据输入到参与预测模型进行用户是否会参与该话题下其他消息的预测，通过分析得到的预测结果量化热点话题下消息间的相关性。

进一步的，所述获取数据模块中，多条消息的相关数据包括消息发表时间、转发路径，以及平均消息影响力；用户参与行为数据包括参与用户的个人信息及历史行为数据。

进一步的，所述解析属性模块提取参与某消息用户个人特征属性，用户的个人特征属性主要包括①用户v_i的活跃度activity(v_i)；②用户v_i的标签中是否包括与热点话题相关的关键字isRelativeTag(v_i)；③用户v_i的历史转发率rateOfRetweet(v_i)；将以上有关用户的自身特征属性用x_ik的统一形式描述，表示用户v_i的第k个属性；

所述多消息之间相互影响属性主要包括①某消息m_p与其它消息m_q发表时间不同isDifT(m_p,m_q)；②某消息m_p与其他消息m_q转发源博是否相同isSameS(m_p,m_q)；③某消息m_p与其他消息m_q的博主是否相同isSameB(m_p,m_q)；④消息m_p的平均消息影响力influence(m_p)。

进一步的，所述构建模型模块主要包括以下处理步骤：S31：对抓取到的数据进行统计，按照用户自身特征属性和多消息之间相互影响属性进行量化；

S32：根据到抓取的数据对应输入层各个属性的函数值，以及组成是否会参与该话题下其他消息的结果集，在结果集中选取部分已得到的结果用来训练数据，同时剩下的未知的结果用来测试数据；

S33：根据专家经验，将学习率η设定为0.1，同时在(0,1)的范围内随机初始化网络中所有连接权和阈值；利用输入的属性，训练数据和BP算法进行模型拟合；

S34：根据当前参数以及公式计算当前样本的输出其中表示第k个训练例实际输出的第j维；β_j表示输出层第j个神经元接收到的输入值；θ_j表示输出层第j个神经元的阈值；

S35：然后利用训练例的实际输出值和期望输出值计算输出层神经元的梯度项g_j，其计算公式如下：

在式1中，表示训练例的实际输出值；表示训练例的期望输出值；

S36：利用隐含层和输出层的数据计算隐含层神经元的梯度项e_h。其计算公式如下：

在式2中，e_h表示隐含层第h个神经元的输出；ω_hj表示隐含层第h个神经元与输出层第j个神经元之间的连接权。

S37：然后根据求得的梯度项和训练集的输入进行更新连接权ω_hj，ν_ih与阈值θ_j，γ_h；

S38：更新迭代过程循环进行，直到训练误差达到设定值；

S39：若S37达到停止条件，则输出更新后的参数集合的值，即模型拟合完成，若没有达到，转到S34。

进一步的，所述预测分析模块将输入测试数据即可得出参与热点话题下某消息的用户是否会参与该话题下其他消息的讨论；通过预测后的结果集，可量化热点话题下多消息的相关性，同时定义多消息相关性指标，用来衡量多消息之间的互影响强度。

一种基于所述系统的热点话题用户参与行为预测方法，其包括以下步骤：

第一步：获取数据源的步骤：通过社交网络获取并统计某话题下多条消息，以及参与了某消息下的用户和用户的相关属性；

第二步：提取属性的步骤：获取到数据之后进行分析，分别从内部影响因素和外部影响因素来提取相关属性，内部影响因素即用户个人特征属性，外部影响因素即多消息之间相互影响属性，主要考虑热点话题下多消息之间的相互影响。

第三步：建立模型的步骤；将用户自身的若干属性和多消息之间相互影响属性作为输入，按照专家经验，将BP神经网络中隐含层的节点个数设为3，不断调整输入层与隐含层之间的连接权重，确定好权重之后对神经网络进行训练，得到用户是否会参与话题下多消息的预测模型；

第四步：预测和分析的步骤：将输入数据输入到预测模型即可进行用户是否会参与该话题下其他消息的预测，通过分析得到的预测结果量化热点话题下消息间的相关性。

本发明的优点及有益效果如下

本发明从参与热点话题下某消息的用户出发，提出一种用户参与该热点话题下其他消息的预测模型。考虑到用户参与行为变化的复杂成因，针对用户的自身属性与用户参与行为之间的映射关系具有单一性，该模型从用户自身属性及多消息之间相互影响属性两个方面出发。引入模拟退火算法使得BP神经网络不易陷入局部极小值，大大提高了预测准确性。本发明提出基于多消息相互影响和改进的BP神经网络热点话题用户参与行为预测系统及方法，不仅能充分逼近复杂的非线性关系，而且能够通过用户参与行为量化多消息间的相关性。

附图说明

图1是本发明提供优选实施例的整体框图。

图2是本发明的总体流程图。

图3是本发明的预测模型图。

图4是本发明的学习算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示为本发明整体框图，表明本发明的输入是话题下多消息相互影响因素和参与某条消息下用户的各项特征，经过预测模型后的输出是已参与话题下某条消息的用户是否会参与该话题下其他消息的预测结果。如图2所示为本发明的总体流程图，包括：获取数据模块，解析属性模块，构建模型模块，预测分析模块共四大模块。具体说明本发明的详细实施过程，包括如下四个步骤：

S1：获取数据源。获取社交网络用户数据源可以通过网络爬虫抓取web网页中的内容获取。

S2：提取相关属性。考虑到用户参与话题主要原因包括用户个人特征属性以及多消息之间相互影响属性的共同作用，将从这两个方面提取相关属性。

S3：建立模型。将用户自身的若干属性和多消息之间相互影响属性作为输入，按照专家经验，将BP神经网络中隐含层的节点个数设为3，不断调整输入层与隐含层之间的连接权重。确定好权重之后即可对神经网络进行训练，得到用户是否会参与话题下多消息的预测模型。

S4：预测和分析过程。将输入数据输入到预测模型即可进行用户是否会参与该话题下其他消息的预测。另一方面，通过分析得到的预测结果还可以量化热点话题下消息间的相关性。

上述步骤S1获取数据源，提取相关属性的具体内容为特定热点话题下多条消息的相关数据及某条消息下用户参与行为数据。多条消息的相关数据包括消息发表时间、转发路径，以及平均消息影响力；用户参与行为数据包括参与用户的个人信息及历史行为数据。

上述步骤S2提取相关属性。主要分以下2个步骤。

S21：提取参与某消息用户个人特征属性。用户的个人特征属性主要包括①用户v_i的活跃度activity(v_i)；②用户v_i的标签中是否包括与热点话题相关的关键字isRelativeTag(v_i)；③用户v_i的历史转发率rateOfRetweet(v_i)；本发明将以上有关用户的自身特征属性用x_ik的统一形式描述，表示用户v_i的第k个属性。

S22：提取多消息之间相互影响属性。多消息之间相互影响属性主要包括①某消息m_p与其它消息m_q发表时间不同isDifT(m_p,m_q)；②某消息m_p与其他消息m_q转发源博是否相同isSameS(m_p,m_q)；③某消息m_p与其他消息m_q的博主是否相同isSameB(m_p,m_q)；④消息m_p的平均消息影响力influence(m_p)。

上述步骤S3建立模型。主要分以下9个步骤。

S31：对抓取到的数据进行统计，按照用户自身特征属性和多消息之间相互影响属性进行量化。

S32：经过S2步骤我们可得到抓取的数据对应输入层各个属性的函数值，以及组成是否会参与该话题下其他消息的结果集。在结果集中选取部分已得到的结果，如：y_i＝1，y_j＝0，用来训练数据。同时剩下的让其为未知的，用来测试数据，如：y_k＝？。

S33：根据专家经验，将学习率η设定为0.1，同时在(0,1)的范围内随机初始化网络中所有连接权和阈值。利用输入的属性，训练数据和BP算法进行模型拟合。

S34：根据当前参数以及公式计算当前样本的输出其中表示第k个训练例实际输出的第j维；β_j表示输出层第j个神经元接收到的输入值；θ_j表示输出层第j个神经元的阈值。

S35：然后利用训练例的实际输出值和期望输出值计算输出层神经元的梯度项g_j。其计算公式如下：

在式1中，表示训练例的实际输出值；表示训练例的期望输出值。

S37：然后根据求得的梯度项和训练集的输入进行更新连接权ω_hj，ν_ih与阈值θ_j，γ_h。其计算公式如下：

Δω_hj＝ηg_jb_h 式(3)

Δθ_j＝-ηg_j 式(4)

Δν_ih＝ηe_hx_i 式(5)

Δγ_h＝-ηe_h 式(6)

S38：更新迭代过程循环进行，直到训练误差达到一个很小的值。

S39：若S37达到停止条件，则输出更新后的参数集合的值，即模型拟合完成。若没有达到，转到S34。

上述步骤S4预测分析过程。

S41：经过步骤S3训练后的预测模型，输入测试数据即可得出参与热点话题下某消息的用户是否会参与该话题下其他消息的讨论。

S42：通过预测后的结果集，可量化热点话题下多消息的相关性。同时定义多消息相关性指标，用来衡量多消息之间的互影响强度。

本发明从参与热点话题下某条消息的用户出发，考虑多消息之间的相互影响因素和用户个人自身的属性因素，利用改进的BP神经网络预测用户参与热点话题下其他消息的行为，即已参与话题下某条消息的用户是否会参与该话题下其他消息的讨论，并且通过用户行为的预测能够量化消息间的相关性。

本发明以上实施例对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所举实施方式或者实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内此外，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征，不能理解为对本发明的限制。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种热点话题下多消息互影响的用户行为预测系统，其特征在于，包括：获取数据模块、构建模型模块及预测分析模块，其中

构建模型模块，用于将用户自身的若干属性和多消息之间的相互影响属性作为输入，输入层节点数为7，输出用户是否参与话题，故输出层节点数为，按照专家经验，取输入层节点数与输出层节点数之积开平方作为隐含层节点个数，将BP神经网络中隐含层的节点个数设为3，然后不断调整输入层与隐含层之间的连接权重，确定好权重之后即对神经网络进行训练，得到用户是否会参与话题下多消息的参与预测模型；

2.根据权利要求1所述的热点话题下多消息互影响的用户行为预测系统，其特征在于，所述获取数据模块中，多条消息的相关数据包括消息发表时间、转发路径，以及平均消息影响力；用户参与行为数据包括参与用户的个人信息及历史行为数据。

3.根据权利要求2所述的热点话题下多消息互影响的用户行为预测系统，其特征在于，所述解析属性模块提取参与某消息用户个人特征属性，用户的个人特征属性主要包括①用户v_i的活跃度activity(v_i)；②用户v_i的标签中是否包括与热点话题相关的关键字isRelativeTag(v_i)；③用户v_i的历史转发率rateOfRetweet(v_i)；将以上有关用户的自身特征属性用x_ik的统一形式描述，表示用户v_i的第k个属性；

4.根据权利要求1所述的热点话题下多消息互影响的用户行为预测系统，其特征在于，所述构建模型模块主要包括以下处理步骤：S31：对抓取到的数据进行统计，按照用户自身特征属性和多消息之间相互影响属性进行量化；

S38：更新迭代过程循环进行，直到训练误差达到设定值；

5.根据权利要求4所述的热点话题下多消息互影响的用户行为预测系统，其特征在于，所述预测分析模块将输入测试数据即可得出参与热点话题下某消息的用户是否会参与该话题下其他消息的讨论；通过预测后的结果集，可量化热点话题下多消息的相关性，同时定义多消息相关性指标，用来衡量多消息之间的互影响强度。

6.一种基于权利要求5所述系统的热点话题用户参与行为预测方法，其特征在于，包括以下步骤：

第四步：预测和分析的步骤：将输入数据输入到预测模型即可进行用户是否会参与该话题下其他消息的预测，另一方面，通过分析得到的预测结果量化热点话题下消息间的相关性。