CN114692978A

CN114692978A - 一种基于大数据的社交媒体用户行为预测方法及系统

Info

Publication number: CN114692978A
Application number: CN202210362691.4A
Authority: CN
Inventors: 王祥兵; 舒晓惠; 李�荣; 杨刚营; 李燕; 穆鸿声
Original assignee: Huaihua University; Guizhou University of Engineering Science; Guizhou Institute of Technology
Current assignee: Huaihua University; Guizhou University of Engineering Science; Guizhou Institute of Technology
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-01

Abstract

本发明提供了一种基于大数据的社交媒体用户行为预测方法及系统，其中，所述方法包括：获得第一社交媒体的标准行为历史数据并对第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；根据第一聚类分析结果，获得各类用户的用户标签信息；根据各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；获得用户行为预测模型；获得第一用户的行为数据并通过用户行为预测模型进行预测，获得第一用户的预测行为特征标签信息，对第一用户进行社交媒体行为预测。解决了对于新用户或社交行为数据较少的用户，未能充分利用已有的画像数据优势，在进行社交媒体画像时准确度较低的技术问题。

Description

一种基于大数据的社交媒体用户行为预测方法及系统

技术领域

本发明涉及人工智能领域，具体涉及一种基于大数据的社交媒体用户行为预测方法及系统。

背景技术

随着媒体进入发展新时代，用户通过手机等移动设备进行网络社交的过程中，用户的社交媒体行为也通过信息的传播产生相应的数据标签，这些移动数据标签能够真实的反应用户的社交行为以及社交行为的变化规律。社交媒体用户画像技术是通过抽取移动社交媒体用户的特征数据标签，从多个角度凝聚用户行为表象，对数据标签进行分析和统计后，对目标用户进行分类、建模和推荐等量化处理，从而用以表征用户的社会属性、行为习惯等信息的方法。

现有技术存在对于社交行为数据较少的用户，未能充分利用已有的画像数据优势，对其进行社交媒体行为预测时准确度较低的技术问题。

发明内容

本申请通过提供了一种基于大数据的社交媒体用户行为预测方法及系统，解决了现有技术存在对于社交行为数据较少的用户，未能充分利用已有的画像数据优势，对其进行社交媒体行为预测时准确度较低的技术问题。达到了通过对已有的用户的社交行为数据进行分析，从而在深度学习已有用户的行为画像标签信息的基础上对数据量较少的用户进行社交行为预测，提高数据量较少的用户社交媒体社交行为预测的准确性的技术效果。

鉴于上述问题，本申请提供了一种基于大数据的社交媒体用户行为预测方法及系统。

第一方面，本申请提供了一种基于大数据的社交媒体用户行为预测方法，其中，所述方法包括：基于数据采集平台获得第一社交媒体的用户行为数据，对所述行为数据进行标准化预处理，获得标准行为历史数据；根据所述标准行为历史数据对所述第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；对所述第一聚类分析结果进行遍历，获得各类用户的用户标签信息；根据所述各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；根据所述各类用户的标准行为历史数据和所述行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；获得第一用户的行为数据，将所述第一用户的行为数据输入所述用户行为预测模型，获得所述第一用户的预测行为特征标签信息；基于所述预测行为特征标签信息，对所述第一用户进行社交媒体行为预测。

另一方面，本申请提供了一种基于大数据的社交媒体用户行为预测系统，其中，所述系统包括：第一获得单元，所述第一获得单元用于基于数据采集平台获得第一社交媒体的用户行为数据，对所述行为数据进行标准化预处理，获得标准行为历史数据；第二获得单元，所述第二获得单元用于根据所述标准行为历史数据对所述第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；第三获得单元，所述第三获得单元用于对所述第一聚类分析结果进行遍历，获得各类用户的用户标签信息；第四获得单元，所述第四获得单元用于根据所述各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；第五获得单元，所述第五获得单元用于根据所述各类用户的标准行为历史数据和所述行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；第六获得单元，所述第六获得单元用于获得第一用户的行为数据，将所述第一用户的行为数据输入所述用户行为预测模型，获得所述第一用户的预测行为特征标签信息；第一执行单元，所述第一执行单元用于基于所述预测行为特征标签信息，对所述第一用户进行社交媒体行为预测。

第三方面，本申请提供了一种基于大数据的社交媒体用户行为预测系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了基于数据采集平台获得第一社交媒体的用户行为数据，对行为数据进行标准化预处理后；根据标准行为历史数据对第一社交媒体的用户进行聚类分析；对聚类分析结果进行遍历，获得各类用户的用户标签信息；根据各类用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；根据各类用户的行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；获得第一用户的行为数据，将第一用户的行为数据输入用户行为预测模型，获得第一用户的预测行为特征标签信息，从而对第一用户进行社交媒体行为预测的技术方案，本申请通过提供了一种基于大数据的社交媒体用户行为预测方法及系统，达到了通过对已有的用户的社交行为数据进行分析，从而在深度学习已有用户的行为画像标签信息的基础上对数据量较少的用户进行社交行为预测，提高数据量较少的用户社交媒体社交行为预测的准确性的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于大数据的社交媒体用户行为预测方法的流程示意图；

图2为本申请实施例一种基于大数据的社交媒体用户行为预测方法的获得各类用户的用户标签信息的流程示意图；

图3为本申请实施例一种基于大数据的社交媒体用户行为预测方法的对用户行为预测模型进行优化的流程示意图；

图4为本申请实施例一种基于大数据的社交媒体用户行为预测系统的结构示意图；

图5为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第四获得单元14，第五获得单元15，第六获得单元16，第一执行单元17，电子设备300，存储器301，处理器302，通信接口303，总线架构304。

具体实施方式

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

用户通过手机等移动设备进行网络社交的过程中，用户的社交媒体行为也通过信息的传播产生相应的数据标签，这些移动数据标签能够真实的反应用户的社交行为以及社交行为的变化规律。

社交媒体用户画像技术是通过抽取移动社交媒体用户的特征数据标签，从多个角度凝聚用户行为表象，对数据标签进行分析和统计后，对目标用户进行分类、建模和推荐等量化处理，从而用以表征用户的社会属性、行为习惯等信息的方法。

存在对于社交行为数据较少的用户，未能充分利用已有的画像数据优势，对其进行社交媒体行为预测时准确度较低的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请提供了一种基于大数据的社交媒体用户行为预测方法，其中，所述方法包括：基于数据采集平台获得第一社交媒体的用户行为数据，对行为数据进行标准化预处理后；根据标准行为历史数据对第一社交媒体的用户进行聚类分析；对聚类分析结果进行遍历，获得各类用户的用户标签信息；根据各类用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；根据各类用户的行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；获得第一用户的行为数据，将第一用户的行为数据输入用户行为预测模型，获得第一用户的预测行为特征标签信息，从而对第一用户进行社交媒体行为预测。达到了通过对已有的用户的社交行为数据进行分析，从而在深度学习已有用户的行为画像标签信息的基础上对数据量较少的用户进行社交行为预测，提高数据量较少的用户社交媒体社交行为预测的准确性的技术效果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于大数据的社交媒体用户行为预测方法，其中，所述方法应用于社交媒体用户行为预测系统，所述方法包括：

步骤S100：基于数据采集平台获得第一社交媒体的用户行为数据，对所述行为数据进行标准化预处理，获得标准行为历史数据；

具体而言，随着媒体进入发展新时代，由于越来越多的社交软件的出现，社交软件对于用户数据的采集并对用户进行画像，能够提高为用户推送用户更加感兴趣的话题，从而提升用户粘性和用户使用活跃度。但是，由于新用户的数据量较少，导致对新用户的喜好分析、行为预测需要一定时间，在初期的行为预测往往准确率不高。因此本申请提出了一种基于大数据的社交媒体用户行为预测方法，所述方法应用与一种社交媒体用户行为预测系统。

所述数据采集平台为具有社交媒体数据采集能力的数据采集平台，具有多个数据提取工具，提供自动网页数据抓取、文本分析、数据导出等功能，示例性的：所述数据采集平台可以为Scrapinghub，Scrapinghub是一个基于云端的网页抓取平台。所述第一社交媒体为任一具有社交属性的媒体工具，例如微博。

在第一社交媒体开始投入市场、正式运行时，第一社交媒体便开始通过对应的数据采集平台进行用户的数据采集，因此，预设一段历史时间进行历史数据的采集，时间可根据第一社交媒体的相关工作人员进行设置，采集的对象为在预设的历史时间内具有一定数据量的用户。通过数据导出功能获得了第一社交媒体的数据信息，数据信息中包括用户的基本信息如年龄、昵称等身份信息还包括用户的行为数据信息，例如阅读、点赞、转发、发布内容、关注、私信等行为等数据。

通过对采集到的用户行为数据进行标准化处理，包括异常数据、重复数据的去除，数据量纲的统一，数据格式的转化(例如：文字信息转化为标签标识，如将“点赞”转化为“1”、或将“点赞”转化为“dianzan”，在此不进行限制)。经过标准化处理后，得到了标准行为历史数据。对历史数据采集并进行标准化处理后，能够为后续第一社交媒体进行用户画像分析提供大量数据支撑。

步骤S200：根据所述标准行为历史数据对所述第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；

进一步的，本申请实施例S200还包括：

步骤S210：构建第一主题集合，根据所述第一主题集合对所述标准行为历史数据进行预分类，获得第一预分类结果；

步骤S220：构建第一等量替换关系；

步骤S230：根据所述第一等量替换关系，将所述第一预分类结果中的标准行为历史数据进行等量替换，获得分支数量-长短信息；

步骤S240：基于所述分支数量-长短信息在所述第一预分类结果的基础上进行聚类分析，获得所述第一聚类分析结果。

具体而言，所述标准行为历史数据包括第一社交媒体上的具有一定数据量的用户的行为数据，也就是所述标准行为历史数据不包括数据量较少的用户的数据信息。为了将具有相同行为特征的用户进行分类，并对他们进行行为特征的数据标签标识，对第一社交媒体的用户进行聚类分析。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。

由于不同用户关注的主题领域不同，就会在不同主题领域下发现用户的操作痕迹，因此，可以先通过主题对大量的用户进行预分类。主题可以但不限于体育、娱乐、经济、社科、人文等。根据历史数据采集时间内的热点事件关键词构建所述第一主题集合。按照所述第一主题集合对与每一主题相关的话题相关的用户进行预分类，得到第一预分类结果，其中，会存在一个用户关注多个事件的情况，但是主题能够反映用户的兴趣爱好，能够起到一个较好的预分类的效果。

为了将用户数据更加清晰、准确的表示出来，构建第一等量替换关系，可以将用户的不同操作行为以不同方向的向量统一表示，操作行为的次数以向量的长度大小表示。按照所述第一等量替换关系将所述第一预分类结果中的所有标准行为历史数据进行等量替换，得到所有用户的行为数据分支数量和分支长短信息。

进一步按照所述分支数量-长短信息进行聚类分析，在第一预分类结果的基础上进行聚类分析，获得所述第一聚类分析结果，能够得到任一主题下的聚类分析结果。能够得到任一用户在不同主题下的不同行为特征分类结果，示例性的：用户对于感兴趣的事件和不感兴趣的事件的行为存在差异。将不同主题下的用户的标准行为历史数据进行等量替换后聚类，能够得到不同用户对不同主题的行为数据信息，为用户标签信息的获得奠定基础。

步骤S300：对所述第一聚类分析结果进行遍历，获得各类用户的用户标签信息；

进一步的，如图2所示，本申请实施例步骤S300还包括：

步骤S310：对所述第一聚类分析结果进行遍历，获得各类用户的分支长短均值信息；

步骤S320：基于所述标准行为历史数据，获得各类用户产生每一分支对应所耗费的平均时间信息；

步骤S330：基于所述分支长短均值信息和所述耗费的平均时间信息，进行所述各类用户的分支权重分配，获得第一权重分配结果；

步骤S340：根据所述第一权重分配结果，获得所述各类用户的用户标签信息。

具体而言，对第一主题集合中每一主题对应的所述第一聚类分析结果进行遍历，将同属于一类的同一方向的分支进行长短的均值计算。因为同一方向的分支代表者同一种行为特征。均值计算后得到每一类的分支长短均值信息。分支长短均值信息能够表示这一类中不同用户的每一种行为特征的平均状态，举不受限制的一例：若点赞行为对应的分支均值的不同，可以反映对于这一主题的状态，如非常活跃、一般活跃和不活跃状态。

每一用户在所述第一社交媒体的不同页面进行社交行为时，通过数据采集平台采集用户停留在页面上的时间信息，得到每一用户进行每一种标准行为所耗费的时间。基于所述第一聚类分析结果，将每一类用户的每一分支耗费的时间进行平均值计算，得到所述平均时间信息。

所耗费的平均时间越多，所述分支长短均值信息越长，说明用户对于这一行为、主题的关注程度和喜好程度越高，因此我们根据所述分支长短均值信息和所述耗费的平均时间信息，进行所述各类用户的分支权重分配，也就是对不同主题下的不同行为进行权重分配，权重越高说明用户倾向于这方面的行为，有利于对用户行为数据的准确抽取和挖掘。通过所述第一权重分配结果和现有的用户画像方法，对第一社交媒体的用户进行用户标签信息的获取。由于一个用户会对不同主题的事件产生行为数据，因此每一个用户的用户标签信息是由多个子标签集合构成的。

步骤S400：根据所述各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；

步骤S500：根据所述各类用户的标准行为历史数据和所述行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；

具体而言，对各类用户进行用户标签信息的生成后，由于同一类中的用户是存在一定相似性才被分为一类，但并不是完全相同，因此需要提取他们的相同的部分作为这一类用户的特征标签。通过标签交集分析，交集就是同一类用户的相同标签信息，获取交集处的标签信息作为所述各类用户的行为特征标签信息。长短期记忆网络模型是一种时间递归神经网络模型，具有时序观念，是典型的深度学习模型，能够更深层的挖掘数据潜在规律，使预测更加准确可靠。长短期记忆神经网络算法是基于循环神经网络改进的一种算法，在RNN神经网络的隐藏层引入LSTM细胞结构单元取代RNN神经网络的隐藏层单元，形成LSTM神经网络模型。一个通用的LSTM结构单元由输入门、输出门、遗忘门组成，主要作用是控制信息的传递。将所述各类用户的标准行为历史数据进行时间对齐后作为输入数据，将所述行为特征标签信息作为标识数据训练长短期记忆模型，所述长短期记忆模型包括LSTM结构层、全连接层和分类层，当模型达到一定的准确率或收敛时，结束训练得到用户行为预测模型。

步骤S600：获得第一用户的行为数据，将所述第一用户的行为数据输入所述用户行为预测模型，获得所述第一用户的预测行为特征标签信息；

步骤S700：基于所述预测行为特征标签信息，对所述第一用户进行社交媒体行为预测。

具体而言，所述第一用户为第一社交媒体平台的数据量较少的任一用户。基于数据采集平台采集第一用户的行为数据，将仅有的第一用户的行为数据作为输入数据，基于所述用户行为预测模型进行第一用户的行为特征预测，得到所述第一用户的预测行为特征标签信息，所述预测行为特征标签信息包括在不同主题下的第一用户的预测行为特征信息。根据得到的所述预测行为特征标签信息对所述第一用户进行社交媒体行为预测。进一步的根据数据采集平台可继续采集第一社交媒体中第一用户的行为数据，对所述用户行为预测模型进行优化，从而使模型预测结果更加准确，达到了根据第一社交媒体的数据量较多的用户的行为特征标签信息，对数据量较小的用户进行社交媒体行为的预测，基于用户的相似、趋同的属性，充分利用已有用户标签，提高预测准确性的技术效果。

进一步的，如图3所示，本申请实施例还包括：

步骤S710：获得第一预设时间周期；

步骤S720：在所述第一预设时间周期内持续采集所述第一社交媒体的所有用户的用户行为数据，获得更新行为数据；

步骤S730：基于所述更新行为数据对所述用户行为预测模型进行增量学习，获得优化调整参数；

步骤S740：基于所述优化调整参数对所述用户行为预测模型进行优化。

具体而言，为了提高所述用户行为预测模型对第一用户的预测准确性，需要定期采集数据对所述用户行为预测模型进行更新优化。因此，根据第一社交媒体的相关人员对第一社交媒体用户数据更迭的把控，设置所述第一预设时间周期。示例性的：若第一社交媒体上的用户活跃程度很高，社交平台各类事件更迭频率较高，则第一预设时间周期可以设置较短，如一周或三天、一天等。

在所述第一预设事件周期内，持续采集所述第一社交媒体上的所有用户的用户行为数据，其中也包括所述第一用户的数据。将这些采集到的数据作为所述更新行为数据，用于对用户行为预测模型进行增量学习。增量学习能够在学习新知识的同时保留以前学习到的大部分知识，可以通过更新数据在用户行为预测模型上的损失数据对所述用户行为预测模型进行更新优化，更新数据的损失数据即为所述优化调整参数。通过增量学习对所述用户行为预测模型进行更新优化，即保留了用户行为预测模型的基本功能，又能够维持模型不断更新的性能，从而提高了行为预测的准确性的技术效果。

进一步的，本申请实施例还包括：

步骤S750：对所述第一社交媒体的用户行为数据进行标的搜索，获得所述第一社交媒体的用户的分享行为数据；

步骤S760：对所述分享行为数据进行分享频率和分享内容分析，获得分享频率信息和分享关键词信息；

步骤S770：基于所述分享频率信息和所述分享关键词信息，获得第一强关联关系信息和第一弱关联关系信息；

步骤S780：基于所述第一强关联关系信息和所述第一弱关联关系信息构建所述第一社交媒体的用户星型拓扑结构，其中所述用户星型拓扑结构包括N个子星型拓扑结构。

具体而言，通过用户在所述第一社交媒体上的将内容分享至他人的行为，可以得到第一用户的社交网络关系。因此在所述第一社交媒体的用户行为数据中，以分享行为作为标的进行搜索，将第一社交媒体中的用户分享行为数据进行提取。

针对分享行为数据进行分享频率和分享内容分析，其中分享频率分析即通过一定时间内分享的次数进行统计，分享内容基于数据采集平台的文本分析功能进行关键词筛选提取，关键词为分享内容的主题信息。

若用户的分享频率和分享关键词能够表示用户与被分享者的关联关系，若分享的频率高且分享关键词重复率较高，说明分享者和被分享者间在社交媒体上的关系较为紧密，反之则在社交媒体上的关系较为疏远。因此，基于所述分享频率信息和所述分享关键词信息得到第一强关联关系信息和第一弱关联关系信息。可根据每一用户的分享频率的均值和分享关键词次数均值进行强弱关系的划分，高于平均值的为强关联关系，低于平均值的为弱关联关系。

星型拓扑结构为一种网络结构，网络中各节点以点到点的方式连接到一个中心节点。在此处进行分享的用户为中心节点，以用户的第一强关联关系信息和第一弱关联关系信息连接那些被分享用户，构成用户的星型拓扑子结构。为第一社交媒体的所有用户进行分享关系分析后，所有用户的星型拓扑子结构构成所述第一社交媒体的用户星型拓扑结构，其中包括了N个子星型拓扑结构。通过分享行为数据的分析，能够为每个用户的社交关系进行深入的挖掘和直观的展现，从而为通过用户分享行为数据的分析进行相似用户的搜寻奠定基础。

进一步的，本申请实施例还包括：

步骤S781：根据所述更新行为数据构建所述第一用户的子星型拓扑结构，获得第一用户子星型拓扑结构；

步骤S782：根据所述第一用户子星型拓扑结构与所述N个子星型拓扑结构进行重合度分析，获得第一重合子拓扑结构集合；

步骤S783：基于所述第一重合子拓扑结构集合，获得所述第一重合子拓扑结构集合的中心节点信息。

具体而言，所述更新行为数据为第一用户在第一社交媒体上新产生的行为数据，基于其中的分享行为数据，为第一用户构建子星型拓扑结构，得到第一用户子星型拓扑结构。通过第一用户的子星型拓扑结构与其他用户的N个子星型拓扑结构进行重合性比对。其中重合性比对主要比对拓扑结构中的节点重合度和关键词重合度。

根据重合度分析结果，可以匹配到满足一定重合度的子拓扑结构集合，即所述第一重合子拓扑结构集合，其中包括了多个子拓扑结构，将重合度最高的子拓扑结构的中心节点信息进行提取，若存在重合度并列第一的情况，分别获得并列第一的子拓扑结构的中心节点信息，可以通过中心节点信息追溯到对应的用户和用户的行为特征标签信息。示例性的第一用户的子拓扑结构和用户A、用户B的子拓扑结构重合度最高，说明第一用户与用户A、用户B具有较高的社交网络重合度和兴趣爱好重合度，那么很有可能第一用户与用户A和用户B具有相似度较高的行为特征标签信息，也有可能第一用户为用户A、用户B申请的其他账号。因此通过获得第一重合子拓扑结构集合的中心节点信息能够为第一用户的身份信息进行挖掘，并且能为第一用户特征行为标签信息的验证提供依据。

进一步的，本申请实施例步骤S783还包括：

步骤S7831：根据所述第一重合子拓扑结构集合的中心节点信息，获得所述中心节点对应的所述行为特征标签信息；

步骤S7832：获得第一比对指令，基于所述第一比对指令进行所述中心节点对应的所述行为特征标签信息和所述预测行为特征标签信息的比对校验；

步骤S7833：获得第一校验结果，根据所述第一校验结果对所述预测行为特征标签信息进行调整。

具体而言，所述第一重合子拓扑结构集合为与第一用户的子星型拓扑结构具有较高重合度的子拓扑结构集合。将其中的中心节点的信息对应的行为特征标签信息进行调用。进一步，需要将调用的行为特征标签信息与为第一用户预测得到的预测行为特征标签信息进行比对，故生成第一比对指令，将所述中心节点对应的所述行为特征标签信息和所述预测行为特征标签信息进行比对校验。

所述中心节点对应的所述行为特征标签信息为通过比对后与第一用户的现有的特征行为关联型最高的标签信息，若所述预测行为特征标签信息与所述行为特征标签信息的相似度在一定阈值内，则不对所述预测行为特征变迁信息进行调整，相似度低于一定阈值，则需要根据行为特征标签信息进行调整，可以但不限于调整标签的权重信息、新增标签等。相似度阈值可根据第一社交媒体对用户画像的精细程度需求进行人为设定。达到了通过用户社交网络的相似性进行同一用户的其他账号挖掘或是寻找相似性、关联性高的用户，从而对用户行为预测模型预测到的标签信息进行验证和调整，能够提高用户行为预测的准确性的技术效果。

综上所述，本申请实施例所提供的一种基于大数据的社交媒体用户行为预测方法及系统具有如下技术效果：

1、由于采用了基于数据采集平台获得第一社交媒体的用户行为数据，对行为数据进行标准化预处理后；根据标准行为历史数据对第一社交媒体的用户进行聚类分析；对聚类分析结果进行遍历，获得各类用户的用户标签信息；根据各类用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；根据各类用户的行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；获得第一用户的行为数据，将第一用户的行为数据输入用户行为预测模型，获得第一用户的预测行为特征标签信息，从而对第一用户进行社交媒体行为预测的技术方案，本申请实施例通过提供了一种基于大数据的社交媒体用户行为预测方法及系统，达到了基于第一社交媒体的其他用户的行为特征标签信息，对数据量较小的用户进行社交媒体行为的预测，基于用户的相似、趋同的属性，充分利用已有用户标签，提高预测准确性的技术效果。

2、由于采用了通过分享行为数据的分析的方法，达到了对每个用户的社交关系进行深入的挖掘和直观的展现，为通过分析用户分享行为数据，进行相似用户的搜寻奠定基础的技术效果。

3、由于采用了通过用户社交网络的相似性进行同一用户的其他账号挖掘或是寻找相似性、关联性高的用户，从而对用户行为预测模型预测到的标签信息进行验证和调整的方法，达到了提高用户行为预测的准确性的技术效果。

实施例二

基于与前述实施例中一种基于大数据的社交媒体用户行为预测方法相同的发明构思，如图4所示，本申请实施例提供了一种基于大数据的社交媒体用户行为预测系统，其中，所述系统包括：

第一获得单元11，所述第一获得单元11用于基于数据采集平台获得第一社交媒体的用户行为数据，对所述行为数据进行标准化预处理，获得标准行为历史数据；

第二获得单元12，所述第二获得单元12用于根据所述标准行为历史数据对所述第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；

第三获得单元13，所述第三获得单元13用于对所述第一聚类分析结果进行遍历，获得各类用户的用户标签信息；

第四获得单元14，所述第四获得单元14用于根据所述各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；

第五获得单元15，所述第五获得单元15用于根据所述各类用户的标准行为历史数据和所述行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；

第六获得单元16，所述第六获得单元16用于获得第一用户的行为数据，将所述第一用户的行为数据输入所述用户行为预测模型，获得所述第一用户的预测行为特征标签信息；

第一执行单元17，所述第一执行单元17用于基于所述预测行为特征标签信息，对所述第一用户进行社交媒体行为预测。

进一步的，所述系统包括：

第七获得单元，所述第七获得单元用于构建第一主题集合，根据所述第一主题集合对所述标准行为历史数据进行预分类，获得第一预分类结果；

第二执行单元，所述第二执行单元用于构建第一等量替换关系；

第八获得单元，所述第八获得单元用于根据所述第一等量替换关系，将所述第一预分类结果中的标准行为历史数据进行等量替换，获得分支数量-长短信息；

第九获得单元，所述第九获得单元用于基于所述分支数量-长短信息在所述第一预分类结果的基础上进行聚类分析，获得所述第一聚类分析结果。

进一步的，所述系统包括：

第十获得单元，所述第十获得单元用于对所述第一聚类分析结果进行遍历，获得各类用户的分支长短均值信息；

第十一获得单元，所述第十一获得单元用于基于所述标准行为历史数据，获得各类用户产生每一分支对应所耗费的平均时间信息；

第十二获得单元，所述第十二获得单元用于基于所述分支长短均值信息和所述耗费的平均时间信息，进行所述各类用户的分支权重分配，获得第一权重分配结果；

第十三获得单元，所述第十三获得单元用于根据所述第一权重分配结果，获得所述各类用户的用户标签信息。

进一步的，所述系统包括：

第十四获得单元，所述第十四获得单元用于获得第一预设时间周期；

第十五获得单元，所述第十五获得单元用于在所述第一预设时间周期内持续采集所述第一社交媒体的所有用户的用户行为数据，获得更新行为数据；

第十六获得单元，所述第十六获得单元用于基于所述更新行为数据对所述用户行为预测模型进行增量学习，获得优化调整参数；

第三执行单元，所述第三执行单元用于基于所述优化调整参数对所述用户行为预测模型进行优化。

进一步的，所述系统包括：

第十七获得单元，所述第十七获得单元用于对所述第一社交媒体的用户行为数据进行标的搜索，获得所述第一社交媒体的用户的分享行为数据；

第十八获得单元，所述第十八获得单元用于对所述分享行为数据进行分享频率和分享内容分析，获得分享频率信息和分享关键词信息；

第十九获得单元，所述第十九获得单元用于基于所述分享频率信息和所述分享关键词信息，获得第一强关联关系信息和第一弱关联关系信息；

第二十获得单元，所述第二十获得单元用于基于所述第一强关联关系信息和所述第一弱关联关系信息构建所述第一社交媒体的用户星型拓扑结构，其中所述用户星型拓扑结构包括N个子星型拓扑结构。

进一步的，所述系统包括：

第二十一获得单元，所述第二十一获得单元用于根据所述更新行为数据构建所述第一用户的子星型拓扑结构，获得第一用户子星型拓扑结构；

第二十二获得单元，所述第二十二获得单元用于根据所述第一用户子星型拓扑结构与所述N个子星型拓扑结构进行重合度分析，获得第一重合子拓扑结构集合；

第二十三获得单元，所述第二十三获得单元用于基于所述第一重合子拓扑结构集合，获得所述第一重合子拓扑结构集合的中心节点信息。

进一步的，所述系统包括：

第二十四获得单元，所述第二十四获得单元用于根据所述第一重合子拓扑结构集合的中心节点信息，获得所述中心节点对应的所述行为特征标签信息；

第四执行单元，所述第四执行单元用于获得第一比对指令，基于所述第一比对指令进行所述中心节点对应的所述行为特征标签信息和所述预测行为特征标签信息的比对校验；

第五执行单元，所述第五执行单元用于获得第一校验结果，根据所述第一校验结果对所述预测行为特征标签信息进行调整。

示例性电子设备

下面参考图5来描述本申请实施例的电子设备。基于与前述实施例中一种基于大数据的社交媒体用户行为预测方法相同的发明构思，本申请实施例还提供了一种基于大数据的社交媒体用户行为预测系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得系统以执行第一方面任一项所述的方法。

该电子设备300包括：处理器302、通信接口303、存储器301。可选的，电子设备300还可以包括总线架构304。其中，通信接口303、处理器302以及存储器301可以通过总线架构304相互连接；总线架构304可以是外设部件互连标(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture，简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器302可以是一个CPU，微处理器，ASIC，或一个或多个用于控制本申请方案程序执行的集成电路。

通信接口303，使用任何收发器一类的系统，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN),无线局域网(wireless local areanetworks，WLAN)，有线接入网等。

存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable Programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器301用于存储执行本申请方案的计算机执行指令，并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令，从而实现本申请上述实施例提供的一种基于大数据的社交媒体用户行为预测方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

本申请实施例提供了一种基于大数据的社交媒体用户行为预测方法，其中，所述方法包括：基于数据采集平台获得第一社交媒体的用户行为数据，对行为数据进行标准化预处理后；根据标准行为历史数据对第一社交媒体的用户进行聚类分析；对聚类分析结果进行遍历，获得各类用户的用户标签信息；根据各类用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；根据各类用户的行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；获得第一用户的行为数据，将第一用户的行为数据输入用户行为预测模型，获得第一用户的预测行为特征标签信息，从而对第一用户进行社交媒体行为预测。

本领域普通技术人员可以理解：本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围，也不表示先后顺序。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个、种)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其它可编程逻辑系统，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算系统的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于终端中。可选地，处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是本申请所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若这些修改和变型属于本申请及其等同技术的范围之内，则本申请意图包括这些改动和变型在内。

Claims

1.一种基于大数据的社交媒体用户行为预测方法，其特征在于，所述方法应用于社交媒体用户行为预测系统，所述方法包括：

基于数据采集平台获得第一社交媒体的用户行为数据，对所述行为数据进行标准化预处理，获得标准行为历史数据；

根据所述标准行为历史数据对所述第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；

对所述第一聚类分析结果进行遍历，获得各类用户的用户标签信息；

根据所述各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；

根据所述各类用户的标准行为历史数据和所述行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；

获得第一用户的行为数据，将所述第一用户的行为数据输入所述用户行为预测模型，获得所述第一用户的预测行为特征标签信息；

基于所述预测行为特征标签信息，对所述第一用户进行社交媒体行为预测。

2.如权利要求1所述的方法，其特征在于，所述方法包括：

构建第一主题集合，根据所述第一主题集合对所述标准行为历史数据进行预分类，获得第一预分类结果；

构建第一等量替换关系；

根据所述第一等量替换关系，将所述第一预分类结果中的标准行为历史数据进行等量替换，获得分支数量-长短信息；

基于所述分支数量-长短信息在所述第一预分类结果的基础上进行聚类分析，获得所述第一聚类分析结果。

3.如权利要求2所述的方法，其特征在于，所述方法包括：

对所述第一聚类分析结果进行遍历，获得各类用户的分支长短均值信息；

基于所述标准行为历史数据，获得各类用户产生每一分支对应所耗费的平均时间信息；

基于所述分支长短均值信息和所述耗费的平均时间信息，进行所述各类用户的分支权重分配，获得第一权重分配结果；

根据所述第一权重分配结果，获得所述各类用户的用户标签信息。

4.如权利要求1所述的方法，其特征在于，所述方法包括：

获得第一预设时间周期；

在所述第一预设时间周期内持续采集所述第一社交媒体的所有用户的用户行为数据，获得更新行为数据；

基于所述更新行为数据对所述用户行为预测模型进行增量学习，获得优化调整参数；

基于所述优化调整参数对所述用户行为预测模型进行优化。

5.如权利要求4所述的方法，其特征在于，所述方法包括：

对所述第一社交媒体的用户行为数据进行标的搜索，获得所述第一社交媒体的用户的分享行为数据；

对所述分享行为数据进行分享频率和分享内容分析，获得分享频率信息和分享关键词信息；

基于所述分享频率信息和所述分享关键词信息，获得第一强关联关系信息和第一弱关联关系信息；

基于所述第一强关联关系信息和所述第一弱关联关系信息构建所述第一社交媒体的用户星型拓扑结构，其中所述用户星型拓扑结构包括N个子星型拓扑结构。

6.如权利要求5所述的方法，其特征在于，所述方法包括：

根据所述更新行为数据构建所述第一用户的子星型拓扑结构，获得第一用户子星型拓扑结构；

根据所述第一用户子星型拓扑结构与所述N个子星型拓扑结构进行重合度分析，获得第一重合子拓扑结构集合；

基于所述第一重合子拓扑结构集合，获得所述第一重合子拓扑结构集合的中心节点信息。

7.如权利要求6所述的方法，其特征在于，所述方法包括：

根据所述第一重合子拓扑结构集合的中心节点信息，获得所述节点对应的所述行为特征标签信息；

获得第一比对指令，基于所述第一比对指令进行所述中心节点对应的所述行为特征标签信息和所述预测行为特征标签信息的比对校验；

获得第一校验结果，根据所述第一校验结果对所述预测行为特征标签信息进行调整。

8.一种基于大数据的社交媒体用户行为预测系统，其特征在于，所述系统包括：

第一获得单元，所述第一获得单元用于基于数据采集平台获得第一社交媒体的用户行为数据，对所述行为数据进行标准化预处理，获得标准行为历史数据；

第二获得单元，所述第二获得单元用于根据所述标准行为历史数据对所述第一社交媒体的用户进行聚类分析，获得第一聚类分析结果；

第三获得单元，所述第三获得单元用于对所述第一聚类分析结果进行遍历，获得各类用户的用户标签信息；

第四获得单元，所述第四获得单元用于根据所述各类用户的用户标签信息进行标签交集分析，获得各类用户的行为特征标签信息；

第五获得单元，所述第五获得单元用于根据所述各类用户的标准行为历史数据和所述行为特征标签信息作为训练数据训练长短期记忆模型，获得用户行为预测模型；

第六获得单元，所述第六获得单元用于获得第一用户的行为数据，将所述第一用户的行为数据输入所述用户行为预测模型，获得所述第一用户的预测行为特征标签信息；

第一执行单元，所述第一执行单元用于基于所述预测行为特征标签信息，对所述第一用户进行社交媒体行为预测。

9.一种基于大数据的社交媒体用户行为预测系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，其特征在于，使系统以执行如权利要求1～7任一项所述的方法。