CN117539963B

CN117539963B - 一种社交网络数据动态分析方法及系统

Info

Publication number: CN117539963B
Application number: CN202410032828.9A
Authority: CN
Inventors: 刘帅; 秦谦益; 王小文; 徐昊天; 刘龙成; 华友情; 王誉杰; 王昕怡; 刘淑娴
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-04-05
Anticipated expiration: 2044-01-10
Also published as: CN117539963A

Abstract

本发明公开了一种社交网络数据动态分析方法及系统，涉及高性能计算与机器学习技术领域。该方法包括步骤：获取社交网络数据，将社交网络数据进行数据预处理，并转换成统一的文本格式，得到训练样本；搭建分布式计算环境；利用线贯序极限学习机构建初步社交网络数据预测模型，利用训练样本对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型；利用社交网络数据预测模型在分布式计算环境中对社交网络数据进行行为模式预测，并根据预测结果反馈实时动态调整社交网络数据预测模型。本发明能够克服现有技术在处理大规模社交网络数据时的效率低下和扩展性差的局限性。

Description

一种社交网络数据动态分析方法及系统

技术领域

本发明涉及高性能计算与机器学习技术领域，尤其涉及一种社交网络数据动态分析方法及系统。

背景技术

在当今的数据科学领域，特别是在社交网络分析方面，分布式优化技术已成为处理大规模数据集的关键工具。随着社交媒体平台的普及和用户数据量的飞速增长，传统的中心化处理方法已经难以应对如此庞大且不断增长的数据需求。分布式计算通过在多节点上并行处理数据，有效提高了数据处理的速度和效率，解决了大规模数据集处理的瓶颈问题。然而，分布式计算环境中的数据一致性、节点间通信效率、以及数据安全和隐私保护等问题，仍然是该技术领域面临的主要挑战。与此同时，线贯序极限学习机（FOS-ELM）技术作为一种高效的机器学习方法，在处理复杂数据集，尤其是社交网络数据方面展现出巨大潜力。FOS-ELM以其高速的学习能力和对新数据的及时适应能力而著称，能够有效处理非线性、高维度和复杂结构的数据。但在实际应用中，FOS-ELM在泛化能力和算法稳定性方面仍存在局限，这成为该技术领域的研究热点。尤其是在信息传播、用户行为分析、社区发现等方面，对于算法的设计和优化，以及算法在分布式环境中的应用效率和稳定性，都提出了新的要求。

因此，面对社交网络数据的日益增长和复杂化，如何有效地结合分布式计算的高效处理能力和FOS-ELM的快速学习特性，以实现更高效和准确的数据分析，已成为数据科学领域的一大挑战。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种社交网络数据动态分析方法及系统，利用分布式计算的高效并行处理能力和FOS-ELM的快速学习特性，提高社交网络数据分析的速度和准确性，从而克服现有技术在处理大规模社交网络数据时的效率低下和扩展性差的局限性。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种社交网络数据动态分析方法，包括以下步骤：

获取社交网络数据，将社交网络数据进行数据预处理，并转换成统一的文本格式，得到训练样本；

搭建分布式计算环境；

利用线贯序极限学习机构建初步社交网络数据预测模型，利用训练样本对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型；

利用社交网络数据预测模型在分布式计算环境中对社交网络数据进行行为模式预测，并根据预测结果反馈实时动态调整社交网络数据预测模型。

进一步的，将社交网络数据进行数据预处理的具体步骤为：

应用自然语言处理技术对社交网络数据进行数据清洗，清洗方式包括去除停用词、进行词性标注和情感分析。

进一步的，搭建分布式计算环境的具体步骤为：

在云平台上部署分布式计算环境，配置多个虚拟机实例以处理庞大的数据集；

安装和配置高效的分布式数据处理框架。

进一步的，为了适应分布式计算环境，利用线贯序极限学习机分布式构建初步社交网络数据预测模型，使用多个社交网络数据预测模型协同工作，预测值是所有模型输出的平均值。

进一步的，初步社交网络数据预测模型包括输入层、隐藏层和输出层，在隐藏层中引入遗忘因子。

进一步的，利用训练样本对初步社交网络数据预测模型进行训练的具体步骤为：

在无初始样本的情况下，通过引入遗忘因子来初始化初步社交网络数据预测模型；

利用训练样本和社交网络结构特征对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型。

更进一步的，社交网络数据预测模型用于分析社交网络中的数据流动路径，并预测用户未来的行为模式。

本发明第二方面提供了一种社交网络数据动态分析系统，包括：

数据获取模块，被配置为获取社交网络数据，将社交网络数据进行数据预处理，并转换成统一的文本格式，得到训练样本；

环境搭建模块，被配置为搭建分布式计算环境；

模型构建模块，被配置为利用线贯序极限学习机构建初步社交网络数据预测模型，利用训练样本对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型；

行为预测模块，被配置为利用社交网络数据预测模型在分布式计算环境中对社交网络数据进行行为模式预测，并根据预测结果反馈实时动态调整社交网络数据预测模型。

以上一个或多个技术方案存在以下有益效果：

本发明公开了一种社交网络数据动态分析方法及系统，专注于分布式优化技术和在线贯序极限学习机在大规模社交网络数据分析中的应用。具体而言，本发明通过分布式计算框架，提高社交网络数据处理的效率和可扩展性，克服了传统串行算法在处理海量数据时的局限性。在此基础上，本发明利用FOS-ELM技术，对复杂的社交网络数据进行高效的学习和分析，以实现对社交网络中的信息流动模式、用户行为和社区结构的快速识别和预测。

本发明不仅有效地提高了处理大规模社交网络数据的效率和准确性，还优化了算法在不同计算环境下的性能和稳定性。通过分布式计算的并行处理能力，本发明显著提升了数据处理速度，同时降低了内存和存储的压力。利用FOS-ELM的快速学习特性和对新数据的及时适应能力，本发明能够更准确地处理和分析社交网络中的动态变化。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明中ELM模型结构示意图；

图2为本发明实施例一中FOS-ELM 分布式模型结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

ELM和OS-ELM的基本内容：

首先，ELM模型如图1所示，表示为：。

其中，i和j表示第i和第j个节点；L表示模型在隐藏层共有L个节点；K为常数，表示j可选择的范围，β是隐藏层和输出层之间连接的权重，G是隐藏层的激活函数，a和b是输入层和隐藏层之间链接的权重和偏差。式子可简化为:。

。

其中，矩阵H称为“隐层输出矩阵”，而学习过程H和Y是已知的，那么β可以直接计算为: 。

其中H†是矩阵H的伪逆，使用奇异值分解来计算H†。

OS-ELM基于ELM，能够从新到达的数据中持续学习，而不会丢失过去学习的数据。将递归最小二乘法应用于ELM，可以让它每次从一个或分块的新数据中学习。OS-ELM有两个工作阶段:初始化阶段和顺序学习阶段。

在初始化阶段，利用初始样本创建隐层输出矩阵并计算/>，其中和ELM方法相同。设置变量c作为输入数据的序号。顺序学习阶段，当第/>个数据到达时，创建新的隐藏层输出矩阵/>，并计算新的输出权重：。

其中，。/>是从/>得到的结果，所以OS-ELM可以从新到达的样本中增量学习，而不会忘记过去的样本。

实施例一：

本发明实施例一提供了一种社交网络数据动态分析方法，以新浪微博的用户行为预测为例进行说明，本实施例中，所有获取的数据均为公开数据，且预测过程得到用户许可，本发明仅对数据流向和用户对特定事件的反应或参与特定讨论的可能性进行概率分析，并不涉及侵犯用户隐私的行为。

该方法具体包括以下步骤：

步骤1：获取社交网络数据，将社交网络数据进行数据预处理，并转换成统一的文本格式，得到训练样本。

步骤2：搭建分布式计算环境。

步骤3：利用线贯序极限学习机构建初步社交网络数据预测模型，利用训练样本对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型。

步骤4：利用社交网络数据预测模型在分布式计算环境中对社交网络数据进行行为模式预测，并根据预测结果反馈实时动态调整社交网络数据预测模型。

步骤1中，将社交网络数据进行数据预处理的具体步骤为：

首先从社交网络平台，如新浪微博，收集用户的推文、转推、点赞和评论数据，以及用户的关注列表和粉丝列表。应用自然语言处理技术对社交网络数据进行数据清洗，清洗方式包括去除停用词、进行词性标注和情感分析，将文本数据转换为适合机器学习的格式，例如词向量或TF-IDF表示。

本实施例中，词性标注和情感分析的处理方式相近，步骤均为先清洗数据，移除无关内容，并将文本拆分为单独的词或符号。然后使用自然语言处理库（NLP）和情感分析库（textblob）等，将每个词根据上下文赋予词性（动词、名词、形容词等）和文本的情感倾向（积极、中性、消极等）。

步骤2中，搭建分布式计算环境的具体步骤为：

（1）在云平台上部署分布式计算环境，配置多个虚拟机实例以处理庞大的数据集。

（2）安装和配置高效的分布式数据处理框架，如Apache Spark或Hadoop，以提高数据处理的速度和效率。

步骤3中，初步社交网络数据预测模型包括输入层、隐藏层和输出层，在隐藏层中引入遗忘因子。具体的，利用训练样本对初步社交网络数据预测模型进行训练的具体步骤为：

（1）在无初始样本的情况下，通过引入遗忘因子来初始化初步社交网络数据预测模型。

在一种具体的实施方式中，在是奇异值时，OS-ELM无法应用。为了防止这种奇异值的问题，OS-ELM要求初始训练样本的数量大于隐含层的节点数量。另一种预防奇点的方法是增加一些小值/>到/>。在不需要初始样本的情况下，带遗忘因子的在线贯序极限学习机以/>来启动，所以FOS-ELM系统可以在不需要初始样本的情况下进行训练。

上述FOS-ELM系统构建过程如下：

1.选取性能指标。本实施例选择均方误差（MSE）作为性能指标， MSE越小，模型性能越好。首先在初始训练数据上计算MSE，设定为基准MSE，例如，基准MSE = 0.05。每次模型更新后，使用新数据计算当前MSE。如果当前MSE高于基准MSE（模型性能下降），降低遗忘因子；如果当前MSE等于或低于基准MSE（性能提升或稳定），维持或轻微增加遗忘因子。

2.调整公式。本实施例使用公式：新遗忘因子 = 旧遗忘因子(1 - 调整系数) 来降低遗忘因子，其中调整系数是基于性能差异的一个比例。

示例：

假设初始遗忘因子为 0.5，调整系数设置为 0.1（10%）。模型在新数据上的性能下降。

假设新数据上的MSE = 0.06（高于基准MSE）。调整遗忘因子：新遗忘因子 = 0.5(1 - 0.1) = 0.45。模型在新数据上的性能稳定。

假设新数据上的MSE = 0.05（等于基准MSE）。保持遗忘因子不变或轻微增加：新遗忘因子 = 0.5 或轻微增加。

调整公式过程中，通过设置遗忘因子的上下限，例如，0.1 至 0.9，以避免极端调整，并根据应用场景确定调整频率，例如，每处理1000个新样本或每天进行一次调整。

优化过程包括：

a）设置社交网络数据预测模型参数，包括训练集为系统24小时前的数值，目标值为系统下小时的数值，模型输出设置为系统的预测值，并设置学习次数。

b）接受训练集数据，利用FOS-ELM计算系统的预测值。

c）等待系统下小时的数值。

d）计算平均绝对百分比误差：

。

e）根据设置的学习次数进行增量学习，根据新数据调整和更新模型的权重，并利用遗忘因子逐渐减少对旧数据的依赖，直到学习结束。

此外，为了提高预测的精度和适应分布式计算环境，还采用FOS-ELM分布式建模，如图2所示，利用线贯序极限学习机分布式构建初步社交网络数据预测模型，使用多个社交网络数据预测模型协同工作，预测值是所有模型输出的平均值。

本实施例中，使用10个FOS-ELM模型协同工作，其中预测值是所有模型输出的平均值。FOS-ELM的结构为输入层24个节点，以sigmoid为激活函数的隐含层50个节点，输出层1个节点。在获取社交网络的信息后，将信息分类并作为输入值在FOS-ELM中使用。且由于FOS-ELM的主要特点是引入了遗忘因子。这意味着它能够在学习新数据的同时逐渐“遗忘”旧数据，从而更有效地适应数据流的变化。

这种方法的核心在于有效地解决了在处理庞大的社交网络数据时遇到的效率低下和可扩展性差的问题。通过利用分布式计算的强大并行处理能力，本方法显著提高了数据处理速度，同时借助FOS-ELM的快速学习特性，进一步提升了数据分析的准确性。随着新数据的到来，FOS-ELM能够更灵活地调整其学习重点，确保模型始终反映最新的数据特征。

（2）利用训练样本和社交网络结构特征对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型。其中，社交网络结构特征包括节点和边，网络密度，集聚系数，度中心性等属性特征，为社交网络已知信息。

（3）社交网络数据预测模型用于分析社交网络中的数据流动路径，并预测用户未来的行为模式。

本实施例中，分析社交网络中的数据流动路径包括识别推动信息传播的关键用户或帖子。

预测用户未来的行为模式包括基于用户的历史数据，预测其未来的行为模式，如对特定事件的反应或参与特定讨论的可能性。

在一种具体的实施方式中，行为模式包括：

话题参与：根据用户在类似话题上的过去参与情况和表现的兴趣，预测用户加入特定话题讨论或社群的可能性。

购买行为：根据用户对相关或类似产品的历史购买记录和反馈，预测用户对特定产品的购买意愿。

舆情反应：根据用户对类似事件的历史情感表达，预测用户对特定事件或信息的情感反应，如积极、消极或中性。

上述预测行为均采用用户公开数据，且预测过程均获得用户同意。

之后，利用分析和预测得到的批处理或实时数据流对FOS-ELM模型进行训练，不断更新模型中隐藏层的权重和输出层β值。

步骤4中，持续监控FOS-ELM模型的性能，根据预测结果与实际情况的对比来调整模型参数和计算资源。并且定期使用新收集的数据重新训练模型，确保模型能够适应社交网络的动态变化。

本发明通过结合大数据处理能力和FOS-ELM模型的快速学习特性，有效传统方法的效率问题。这种方法有望显著提升推荐服务的准确性和个性化水平，从而改善社交网络用户的体验。

在应用领域方面，这项发明具有广泛的用途。它可以应用于社交媒体趋势的分析，帮助快速识别和分析流行的趋势和模式；在用户行为预测上，根据用户的历史行为数据预测其未来行为；在网络营销中，通过分析用户群体和趋势来优化市场策略；在舆情监控方面，实时监控和分析公众的舆论和情绪变化；在个性化推荐系统上，根据用户的社交媒体活动提供定制化的内容和推荐；以及在网络安全领域中，监测和预防社交网络中的欺诈和恶意行为。关于其效果，这项技术的主要优势在于提高了处理大规模社交网络数据的效率，减少了对计算资源的需求，同时确保了分析的准确性。此外，其实时分析的能力使得可以即时处理新到达的数据，并提供及时的分析结果，极大地提高了模型的适应性和时效性。本发明的应用能够帮助研究者和实践者更好地理解和利用社交网络数据，为社会科学、市场营销、公共政策制定等领域提供有力的数据支持。

实施例二：

本发明实施例二提供了一种社交网络数据动态分析系统，包括：

环境搭建模块，被配置为搭建分布式计算环境；

数据获取模块，还被配置为：

环境搭建模块，还被配置为在云平台上部署分布式计算环境，配置多个虚拟机实例以处理庞大的数据集；安装和配置高效的分布式数据处理框架。

模型构建模块中，为了适应分布式计算环境，利用线贯序极限学习机分布式构建初步社交网络数据预测模型，使用多个社交网络数据预测模型协同工作，预测值是所有模型输出的平均值。

本实施例中，初步社交网络数据预测模型包括输入层、隐藏层和输出层，在隐藏层中引入遗忘因子。

社交网络数据预测模型用于分析社交网络中的数据流动路径，并预测用户未来的行为模式。

模型构建模块还包还被配置为：

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种社交网络数据动态分析方法，其特征在于，包括以下步骤：

搭建分布式计算环境；

利用线贯序极限学习机构建初步社交网络数据预测模型，利用训练样本对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型；其中，所述初步社交网络数据预测模型包括输入层、隐藏层和输出层，在隐藏层中引入遗忘因子；

所述利用训练样本对初步社交网络数据预测模型进行训练的具体步骤为：

利用训练样本和社交网络结构特征对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型；

2.如权利要求1所述的社交网络数据动态分析方法，其特征在于，将社交网络数据进行数据预处理的具体步骤为：

3.如权利要求1所述的社交网络数据动态分析方法，其特征在于，搭建分布式计算环境的具体步骤为：

安装和配置高效的分布式数据处理框架。

4.如权利要求1所述的社交网络数据动态分析方法，其特征在于，为了适应分布式计算环境，利用线贯序极限学习机分布式构建初步社交网络数据预测模型，使用多个社交网络数据预测模型协同工作，预测值是所有模型输出的平均值。

5.如权利要求1所述的社交网络数据动态分析方法，其特征在于，社交网络数据预测模型用于分析社交网络中的数据流动路径，并预测用户未来的行为模式。

6.一种社交网络数据动态分析系统，其特征在于，包括：

环境搭建模块，被配置为搭建分布式计算环境；

模型构建模块，被配置为利用线贯序极限学习机构建初步社交网络数据预测模型，利用训练样本对初步社交网络数据预测模型进行训练，得到训练好的社交网络数据预测模型；其中，所述初步社交网络数据预测模型包括输入层、隐藏层和输出层，在隐藏层中引入遗忘因子；