CN112822045B

CN112822045B - 基于多特征混合神经网络的内容传播热区预测方法

Info

Publication number: CN112822045B
Application number: CN202011644100.XA
Authority: CN
Inventors: 王晓飞; 张恒; 黄少远; 彭国政; 张宇熙; 沙宇恒; 马云高; 宋卓; 赵娟; 朱克平; 谢颖捷; 王铁铮
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-04-12
Anticipated expiration: 2040-12-31
Also published as: CN112822045A

Abstract

本发明公开了一种基于多特征混合神经网络的内容传播热区预测方法，包括：对内容的传播数据进行分类和筛选，确定传播数据的GPS信息；通过Geohash编码算法对GPS信息进行编码；根据传播数据的Geohash编码构建静态内容传播图；根据静态内容传播图构建内容传播时空图；将内容传播时空图与内容传播时空图的空间特征矩阵输入到GCN模型中进行特征提取和融合，输出表征向量；将表征向量输入到LSTM模型中进行计算，输出热区预测矩阵。本发明能够准确的内容传播热点预测，指导服务器部署和内容缓存策略制定，改善用户体验，减轻蜂窝网络传输压力。

Description

基于多特征混合神经网络的内容传播热区预测方法

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种基于多特征混合神经网络的内容传播热区预测方法。

背景技术

随着智能终端设备的普及和网络技术的飞速发展，人们在移动终端和各种通信业务上花费的时间日渐增多。移动通信产生的数据流量爆炸式增长，给现有的移动网络体系结构带来了巨大的冲击和挑战。网络及移动通信中的数据流量大部分产生自重复的文件下载和内容浏览，为了加快内容传输和减小服务延迟，降低对信道资源的消耗，提高用户体验，许多网络通信业务中都引入了类似计算机缓存的内容缓存技术，例如CDN的内容缓存机制，移动通信中的缓存网络等。

目前针对通讯内容传播的缓存策略大多基于对历史数据的统计分析和人为总结经验，而移动社交网络下用户间对不同内容的传播需求及传播过程的时空社交特征间接反映了用户对不同通信业务的需求分布规律，若可以基于此通过相关算法预测用户对不同通信业务的需求空间分布情况，通信服务商或内容提供商就可以更加精准地部署边缘服务器，制定更加精确的内容缓存策略，以此达到缓解蜂窝网络传输压力、提高用户通信体验的目的。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于多特征混合神经网络的内容传播热区预测方法，以实现准确的内容传播热点预测，指导服务器部署和内容缓存策略制定，改善用户体验，减轻蜂窝网络传输压力。

在本上下文中，本发明的实施方式期望提供一种基于多特征混合神经网络的内容传播热区预测方法。

在本发明实施方式的第一方面中，提供了一种基于多特征混合神经网络的内容传播热区预测方法，包括：

对内容的传播数据进行分类和筛选，确定上述传播数据的GPS信息；

通过Geohash编码算法对上述GPS信息进行编码；

根据上述传播数据的Geohash编码构建静态内容传播图；

根据上述静态内容传播图构建内容传播时空图；

将上述内容传播时空图与上述内容传播时空图的空间特征矩阵输入到GCN模型中进行特征提取和融合，输出表征向量；

将上述表征向量输入到LSTM模型中进行计算，输出热区预测矩阵。

在本发明的一个实施例中，上述对内容的传播数据进行分类和筛选包括：

根据应用的类别对上述传播数据进行分类；

根据上述传播数据的MD5和上述传播数据的大小对上述传播数据进行筛选。

在本发明的另一个实施例中，上述根据上述传播数据的MD5和上述传播数据的大小对上述传播数据进行筛选包括：

若上述传播数据的MD5为空或上述传播数据大小为0时，将上述传播数据删除；

若上述传播数据中存在用户ID缺失或乱码、无效时间戳、无效地理位置信息中的至少一项时，将上述传播数据删除。

在本发明的又一个实施例中，上述根据上述传播数据的Geohash编码构建静态内容传播图包括：

将上述GPS信息作为节点，依次判断每个上述传播数据的两个上述节点的发生时间的先后顺序；

基于上述Geohash编码按两个上述节点发生时间的先后顺序建立有向边。

在本发明的再一个实施例中，上述根据上述静态内容传播图构建内容传播时空图包括：

将上述传播数据的完整传播周期划分为多个相等的时间窗；

在每个上述时间窗中对完整的上述静态内容传播图进行子图提取，输出上述内容传播时空图。

在本发明的再一个实施例中，上述在每个上述时间窗中对完整的上述静态内容传播图进行子图提取包括：

依次遍历属于当前上述时间窗中的所有节点；

通过BFS算法得到上述节点的最大连通图；

选取上述最大连通图中上述Geohash编码前6位相同的上述节点与上述节点间的有向边。

在本发明的再一个实施例中，上述将上述内容传播时空图与上述内容传播时空图的空间特征矩阵输入到GCN模型中进行特征提取和综合，输出的表征向量包括：

上述内容传播时空图内每个时间窗下的上述静态内容传播图输入到GCN模型中进行卷积与特征提取；

输出序列型的内容传播时空图的表征向量：

其中：G表示内容传播时空图，k表示当前的时间窗。

在本发明的再一个实施例中，上述将上述表征向量输入到LSTM模型中进行计算，输出最终的热区预测矩阵包括：

上述LSTM模型对输入的上述表征向量进行参数计算，通过输入门和遗忘门调整记忆和遗忘的比例进行输出，得到下一层的隐藏状态；

将上述LSTM模型的最后一个隐藏状态的输出通过激活映射到热区预测矩阵，经过分类器产生最终的热区预测矩阵。

在本发明的再一个实施例中，上述将上述LSTM模型的最后一个隐藏状态的输出通过激活映射到热区概率矩阵包括：

添加Sigmoid激活层将上述LSTM模型的最后一个隐藏状态的输出映射到热区预测矩阵：

其中：O_i表示最后一个隐藏状态的输出。

在本发明实施方式的第二方面中，提供了一种电子设备，包括：

处理器；以及

与上述至少一个处理器通信连接的存储器；其中，

上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行基于多特征混合神经网络的内容传播热区预测方法。

本发明提供的基于多特征混合神经网络的内容传播热区预测方法有效解决了移动社交网络(MSNS)中的内容传播热点预测问题，不同于传统的通信网络预测问题，本发明更加注重于内容传播的地理分布。本发明提供的方法能够实现准确的内容传播热点预测，并可以指导服务器部署和内容缓存策略制定，改善用户体验，减轻蜂窝网络传输压力。

本发明通过综合提取移动社交网络下内容传播的时间、地理位置、以及用户组成的社交网络结构三个维度的特征建立一个多特征MF-GCN-LSTM模型来预测移动社交网络中的内容传播热区，从而最大化预测性能。并且通过将相似内容归纳为同一类使MF-GCN-LSTM模型具有更精确的预测能力。

附图说明

图1是本发明实施例提供的基于多特征混合神经网络的内容传播热区预测方法流程图。

图2A是本发明实施例提供的GCN模型、LSTM模型和MF-GCN-LSTM模型在OPPST上的平均训练损失曲线示意图。

图2B是本发明实施例提供的GCN模型、LSTM模型和MF-GCN-LSTM模型在Gowalla上的平均训练损失曲线示意图。

图3是本发明实施例提供的MF-GCN-LSTM模型的网络架构示意图。

图4A至图4D是本发明实施例提供的真实热区情况以及GCN模型、LSTM模型和MF-GCN-LSTM模型的热区预测结果对比示意图。

图5是本发明实施例提供的计算机系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1和图3所示，本发明实施例提供的基于多特征混合神经网络的内容传播热区预测方法，包括操作S101～S106。

在操作S101中，对内容的传播数据进行分类和筛选，确定传播数据的GPS信息。

在本实施例中，通过P2P文件传输记录(Offline P2P Sharing Trace，OPPST)收集内容的传播数据，并根据应用的类别对传播数据进行分类。根据传播数据的MD5和传播数据的大小对传播数据进行筛选，具体的，若传播数据的MD5为空或传播数据大小为0时，将传播数据删除；若传播数据中存在用户ID缺失或乱码、无效时间戳、无效地理位置信息中的至少一项时，将传播数据删除。

根据本发明实施例，通过对原始的内容的传播数据进行分类和筛选，能够有效将传输失败或错误的记录删除，便于静态内容传播图的生成。

在操作S102中，通过Geohash编码算法对GPS信息进行编码。

在本实施例中，为了具体解决热区预测问题，采用Geohash编码算法对所有传播数据的GPS信息进行编码。

使用Geohash建立空间索引可以提高数据经纬度检查的效率。根据GPS信息的实际精度、Geohash编码长度和误差计关系，将热区判断单元半径设置为610m(即6位Geohash码所代表的区域，接近城市基站的覆盖范围)，然后将判断单元划分为32(＝32)个等大小的区域(7bit Geohash码)，从而将判断单元中的热区预测结果直接应用于基于城市基站的内容缓存策略。

在操作S103中，根据传播数据的Geohash编码构建静态内容传播图。具体的，将GPS信息作为节点，依次判断每个传播数据的两个节点的发生时间的先后顺序；基于Geohash编码按两个节点发生时间的先后顺序建立有向边。

在本实施例中，将静态内容传播图的节点嵌入真实的地理空间，即每个节点拥有真实的地理位置属性。在合并相同内容类别的传播记录之后，建立每个内容类别的静态完整传播图。首先为每条内容传播记录设置一个节点，然后根据参与两次内容传播的用户(节点)之间的关系建立节点间的有向边。根据本发明实施例，能够使每个节点拥有真实的地理位置属性，最终能够提高热区预测的准确性。

在操作S104中，根据静态内容传播图构建内容传播时空图。具体的，将传播数据的完整传播周期划分为多个相等的时间窗；依次遍历属于当前时间窗中的所有节点；通过BFS算法得到节点的最大连通图；选取最大连通图中Geohash编码前6位相同的节点与节点间的有向边，完成在每个时间窗中对完整的静态内容传播图进行子图提取，最终，输出内容传播时空图。

在本实施例中，考虑到由于完整的静态内容传播图不能反映内容传播随时间的变化，同时，完整的传播图覆盖了全球的地理范围，不利于提取节点之间的交互，预测最终的热区。

为此，本实施例中，本发明实施例将内容传播的整个时间片划分为若干个相等的时间段(每个时间段的观察时间窗长度约为一周)，并通过划分热区判断单元来缩小图的地理范围。我们通过选择中心节点进行区域聚焦和时间划分，从完整的静态内容传播图中获得内容传播时空图。根据本发明实施例实施例，能够反应出内容随时间的变化，同时，便于提取节点之间的交互，预测最终的热区。

在操作S105中，将内容传播时空图与内容传播时空图的空间特征矩阵输入到GCN模型中进行特征提取和融合，输出表征向量。具体的，内容传播时空图内每个时间窗下的静态内容传播图输入到GCN模型中进行卷积与特征提取；

输出序列型的内容传播时空图的表征向量：

其中：G表示内容传播时空图，k表示当前的时间窗。

本实施例中，本发明实施例建立了一个具有两层卷积层和一个平均池层的GCN模型。使用GCN模型对内容传播时空图中的每个静态图进行编码，通过基于空间的图卷积来捕获社交网络拓扑结构特征和更新节点的空间特征。

在操作S106中，将表征向量输入到LSTM模型中进行计算，输出热区预测矩阵。具体的，LSTM模型对输入的表征向量进行参数计算，通过输入门和遗忘门调整记忆和遗忘的比例进行输出，得到下一层的隐藏状态；

添加Sigmoid激活层将LSTM模型的最后一个隐藏状态的输出映射到热区预测矩阵：

其中：O_i表示最后一个隐藏状态的输出。

在本实施例中，由于热区确定问题本质上是一个二进制分类问题，本发明实施例的MF-GCN-LSTM模型使用BCELoss函数作为损失函数。通过BCELoss函数计算每个预测热区矩阵与实际热区矩阵之间的差异。在训练过程中，使用DGL库的图像批处理功能将所有图形和顺序矩阵数据聚合成一个大数据集。

根据本发明实施例，基于多特征混合神经网络的内容传播热区预测方法有效解决了移动社交网络(MSNS)中的内容传播热点预测问题，不同于传统的通信网络预测问题，本发明实施例更加注重于内容传播的地理分布。本发明实施例提供的方法能够实现准确的内容传播热点预测，并可以指导服务器部署和内容缓存策略制定，改善用户体验，减轻蜂窝网络传输压力。

本发明实施例通过综合提取移动社交网络下内容传播的时间、地理位置、以及用户组成的社交网络结构三个维度的特征建立一个多特征MF-GCN-LSTM模型来预测移动社交网络中的内容传播热区，从而最大化预测性能。并且通过将相似内容归纳为同一类使MF-GCN-LSTM模型具有更精确的预测能力。

举例来说，请参照下表一，相较于SVM、GCN和LSTM等模型，本发明实施例提供的MF-GCN-LSTM能够综合提取内容传播的时间、地理位置、以及用户组成的社交网络结构三个维度。

表一

为了验证模型的泛化能力，在MSNs中的不同数据集上进行了大量的实验，结果表明，本发明实施例提供MF-GCN-LSTM模型的在准确率和召回率方面都能显著提高预测的有效性，即准确率最多提高1.18倍，召回率最高提高0.70倍。

举例来说，请参照表二和表三，表二是OPPST数据集预测精确率的评分结果，表三是OPPST数据集预测召回率的评分结果。相较于SVM、GCN和LSTM等模型，本发明实施例提供的MF-GCN-LSTM在对OPPST数据集的预测精确率和召回率均有明显的提升。

表二

表三

在实验中，使用DGL库和PyTorch实现了静态GCN、LSTM和基于多特征的GCN-LSTM。该模型采用Sigmoid和线性分类器作为最终的预测层。对于静态GCN模型，采用了中间嵌入层大小为48的两层卷积结构，并在最后一层应用平均聚集，以获得每个图的单个向量表示。LSTM网络配置为2层，中间嵌入层的大小为64。为了避免模型过度拟合，对LSTM和GCN都应用了一个比率为0.5的dropout层。

在模型训练过程中，采用批量梯度下降法，所有数据用于一次训练。通过shuffle将80％的数据设置为训练集，剩余20％的数据设置为测试集。将GCN模型和基于多特征的GCN-LSTM模型的学习率设置为0.01，LSTM模型的学习率设置为0.001，其中，使用Adam作为优化器。

本发明实施例根据分类任务的相关评价函数。使用准确率得分precision score、recall socere和F1得分F1 score三个评价指标来评估模型的热区预测能力。准确率得分和召回率得分别代表了模型预测未来热区分布和发现真实热区的能力。F1得分是准确率和召回率的调和均值，其准确率是在考虑假正例(Fp)和假负例(Fn)影响的基础上进行的，可以为模型的性能提供更全面的评价。

在实验中，使用SkLearning度量库下的F1得分函数。为了平衡非热区数量大于热区数量的情况，该函数采用了平均化的原则。

实验效果如表4和表5以及图2A和图2B所示，图2A和图2B是本发明实施例提供的GCN模型、LSTM模型和MF-GCN-LSTM模型在OPPST和Gowalla上的平均训练损失曲线示意图，其中，图2A和图2B中左侧纵坐标为损失，横坐标为时间。

表4为OPPST数据集预测F1值评分结果，表5为Gowalla数据集预测多指标评分结果。由实验结果可以看出，使用本发明实施例提出的综合提取社交网络结构、时间依赖、地理分布特征的MF-GCN-LSTM模型在进行移动社交网络中不同内容传播的热区预测时，精度、召回率、F1值均高于其他基线算法，收敛到的损失函数值最低。且通过图4A至图4B可以更加直观的看出本发明实施例所预测的热区分布基本吻合真实热区分布情况，图4A至图4D为本发明实施例提供的真实热区情况以及GCN模型、LSTM模型和MF-GCN-LSTM模型的热区预测结果对比示意图，其中，图4A至图4D中左侧纵坐标为热区纬度编号，横坐标为热区经度编号。

表四

表五

图5示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的框图。图5示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，根据本公开实施例的计算机系统500包括处理器501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 503中，存储有系统500操作所需的各种程序和数据。处理器501、ROM 502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 502和RAM503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统500还可以包括输入/输出(I/O)接口505，输入/输出(I/O)接口505也连接至总线504。系统500还可以包括连接至I/O接口505的以下部件中的一项或多项：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多特征混合神经网络的内容传播热区预测方法，其特征在于，包括：

对内容的传播数据进行分类和筛选，确定所述传播数据的GPS信息；

通过Geohash编码算法对所述GPS信息进行编码；

根据所述传播数据的Geohash编码构建静态内容传播图，具体包括：将所述GPS信息作为节点，依次判断每个所述传播数据的两个所述节点的发生时间的先后顺序；基于所述Geohash编码按两个所述节点发生时间的先后顺序建立有向边；

根据所述静态内容传播图构建内容传播时空图，具体包括：将所述传播数据的完整传播周期划分为多个相等的时间窗；在每个所述时间窗中对完整的所述静态内容传播图进行子图提取，输出所述内容传播时空图；

将所述内容传播时空图与所述内容传播时空图的空间特征矩阵输入到GCN模型中进行特征提取和融合，输出表征向量；

将所述表征向量输入到LSTM模型中进行计算，输出热区预测矩阵。

2.根据权利要求1所述的方法，其特征在于，所述对内容的传播数据进行分类和筛选包括：

根据应用的类别对所述传播数据进行分类；

根据所述传播数据的MD5和所述传播数据的大小对所述传播数据进行筛选。

3.根据权利要求2所述的方法，其特征在于，所述根据所述传播数据的MD5和所述传播数据的大小对所述传播数据进行筛选包括：

若所述传播数据的MD5为空或所述传播数据大小为0时，将所述传播数据删除；

若所述传播数据中存在用户ID缺失或乱码、无效时间戳、无效地理位置信息中的至少一项时，将所述传播数据删除。

4.根据权利要求1所述的方法，其特征在于，所述在每个所述时间窗中对完整的所述静态内容传播图进行子图提取包括：

依次遍历属于当前所述时间窗中的所有节点；

通过BFS算法得到所述节点的最大连通图；

选取所述最大连通图中所述Geohash编码前6位相同的所述节点与所述节点间的有向边。

5.根据权利要求1所述的方法，其特征在于，所述将所述内容传播时空图与所述内容传播时空图的空间特征矩阵输入到GCN模型中进行特征提取和融合，输出的表征向量包括：

所述内容传播时空图内每个时间窗下的所述静态内容传播图输入到GCN模型中进行卷积与特征提取；

输出序列型的内容传播时空图的表征向量：

其中：G表示内容传播时空图，

表示当前的时间窗。

6.根据权利要求1所述的方法，其特征在于，所述将所述表征向量输入到LSTM模型中进行计算，输出最终的热区预测矩阵包括：

所述LSTM模型对输入的所述表征向量进行参数计算，通过输入门和遗忘门调整记忆和遗忘的比例进行输出，得到下一层的隐藏状态；

将所述LSTM模型的最后一个隐藏状态的输出通过激活映射到热区预测矩阵，经过分类器产生最终的热区预测矩阵。

7.一种电子设备，包括：

处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。