CN112232887A

CN112232887A - 一种数据处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN112232887A
Application number: CN202011222297.8A
Authority: CN
Inventors: 毕超波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-15

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机设备以及存储介质，该方法包括：获取目标运营活动的历史运营数据，所述历史运营数据包括连续的多个时间段中每个时间段内所述目标运营活动的参与人数；对所述历史运营数据进行预处理，得到预处理后的历史运营数据；将所述预处理后的历史运营数据输入训练后的长短期记忆循环神经网络LSTM模型，以得到所述多个时间段的下一时间段内所述目标运营活动的预估参与人数。采用本申请实施例，可以提高活动参与人数预测的准确度，以更加合理配置活动资源，科学评估活动效果。

Description

一种数据处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置、计算机设备以及存储介质。

背景技术

随着互联网的高速发展，各类基于互联网的运营活动对运营指标数据的质量要求也相应提高。针对各类运营活动的开展，运营方都会根据该运营活动预测的运营指标数据，例如针对游戏类运营活动，通过预测该类活动的参与人数来准备和调配活动资源，以使得活动顺利进行。

目前，对运营活动中某个时间点的活动参与人数预测方法主要有两种，一种是根据活动的历史数据来取平均值预测活动的参与人数以预估资源的投放规模，另一种是采用人工经验值作为预估值参考。但是这两种预测方法都存在不同程度的缺陷：取平均值预测的准确度不高，而人工经验值的不确定性也可能导致运营活动的预测结果不科学。

发明内容

鉴于上述问题，本申请实施例提供了一种数据处理方法、装置、计算机设备以及存储介质，可以使得运营活动的预测数据更准确，通过科学地预测数据更加合理地配置活动资源。

第一方面，本申请实施例提供了一种数据处理方法，包括：

获取目标运营活动的历史运营数据，所述历史运营数据包括连续的多个时间段中每个时间段内所述目标运营活动的参与人数；

对所述历史运营数据进行预处理，得到预处理后的历史运营数据；

将所述预处理后的历史运营数据输入训练后的长短期记忆循环神经网络LSTM模型，以得到所述多个时间段的下一时间段内所述目标运营活动的预估参与人数。

第二方面，本申请实施例提供了一种数据处理装置，包括：

获取模块，用于获取目标运营活动的历史运营数据，所述历史运营数据包括连续的多个时间段中每个时间段内所述目标运营活动的参与人数；

预处理模块，用于对所述历史运营数据进行预处理，得到预处理后的历史运营数据；

预估模块，用于将所述预处理后的历史运营数据输入训练后的长短期记忆循环神经网络LSTM模型，以得到所述多个时间段的下一时间段内所述目标运营活动的预估参与人数。

第三方面，本申请实施例提供了一种计算机设备，包括：网络接口、处理器和存储器，所述网络接口、处理器与存储器相连接，所述网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如本申请实施例中第一方面所述数据处理方法。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储计算机程序，所述计算机程序包括程序指令，由一个或多个所述处理器加载并执行所述程序指令，以执行本申请实施例中第一方面中所述的数据处理方法。

第五方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行第一方面所述的数据处理方法。

可以看出，本申请实施例中，根据运营活动的历史运营数据并利用具有记忆功能的LSTM模型，可对目标运营活动的目标时间段的参与人数进行预测，和现有预估参与人数的方法相比，通过本申请实施例所述的方法可以将预测值控制在合理范围内，提高了数据预测的准确度。根据较准确的预测数据，运营方可以对活动资源分配量进行合理的预估与相应的准备，以保证运营活动的稳定开展。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法的步骤流程示意图；

图2是本申请实施例提供的一种目标运营活动的示意图；

图3是本申请实施例提供的一种目标运营活动的数据可视化的示意图；

图4a是本申请实施例提供的一种历史运营数据缺失的示意图；

图4b是本申请实施例提供的一种预测数据补齐缺失值的示意图；

图5是本申请实施例提供的另一种数据处理方法的步骤流程示意图；

图6是本申请实施例提供的一种目标运营活动的样本集划分示意图；

图7是本申请实施例提供的一种LSTM模型的神经网络结构示意图；

图8是本申请实施例提供是又一种数据处理方法的步骤流程示意图；

图9是本申请实施例提供是又一种数据处理方法的步骤流程示意图；

图10是本申请实施例提供的一种数据处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。其中，对数据的处理是深度学习应用的一个重要技术。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供的数据处理方法涉及人工智能的深度学习技术，可以通过LSTM模型的记忆功能对目标运营活动的某一时间段缺失的参与人数或者目标时间段的参与人数进行预测，提高数据的准确度，合理预估活动资源以保证活动顺利开展。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

神经网络：指人工神经网络。它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

RNN：循环神经网络。它是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

LSTM：长短期记忆循环神经网络。它是为了解决RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。

损失函数：算法模型中衡量预测值和真实值差异的函数。损失函数值越小，表示预测值和真实值越接近，模型预测效果越好。

梯度下降：在对损失函数求解极小值时用梯度下降方法，它是一种沿着导数下降变化最快的方向求解极小值。

加权平均：将各数值乘以相应的单位数，然后加总求和得到总体值，再除以总的单位数。

时间序列：将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。

本申请实施例所描述的计算机设备具体可以是用户设备，例如可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。计算机设备具体也可以是服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参阅图1，是本申请实施例提供的一种数据处理方法的步骤流程示意图，该方法包括：

S101，获取目标运营活动的历史运营数据，所述历史运营数据包括连续的多个时间段中每个时间段内所述目标运营活动的参与人数。

在一个可能的实施例中，目标运营活动是可以提供历史运营数据的活动，该目标运营活动可基于互联网开展，例如腾讯游戏超核玩家中针对某个子游戏举办的团队助力活动。如图2所示，是一种目标运营活动的示意图，该运营活动是基于互联网的线上活动，可在移动终端如手机界面上展示，主要是针对某款游戏的用户推出，该界面内展示了包括活动时间，活动规则以及其他活动参数，例如我的团队，助力礼包等活动开展的必要信息，通过可视化的方式使得用户预知活动的重要信息，可以让用户更顺利地参与运营活动。上述历史运营数据是目标运营活动开始的当前时间节点之前所记录的数据，例如该运营活动往期的参与人数等，这些数据可以存储在后台服务器中，具体的存储方式不限。获取目标运营活动的历史运营数据时可按照单位数量时间段的数据选取以组成所需的历史运营数据，具体的，计算机设备可获得连续的多个时间段中每个时间段内对应的参与人数，其中，时间段可以是以小时为单位或者以天为单位又或者以周为单位等，在此不做限制，在连续的多个时间段内，历史运营数据是每个时间段对应数据的组合。对于一些运营活动的历史运营数据，为了实现敏感隐私数据的可靠保护，会对该数据进行脱敏处理，即对真实记录的数据变形。

举例来说，将腾讯游戏超核玩家中举办的团队助力活动确定为目标运营活动，获取该目标运营活动的历史运营数据可以天为单位，那么就可以得到连续多日内每日的参与人数，例如2020年1月10日至2020年2月27日这个时间段内每天的活动参与人数，如果该数据是内部保密数据，例如活动的重要运营指标参与人数，则会进行脱敏处理。

S102，对所述历史运营数据进行预处理，得到预处理后的历史运营数据。

在获取的历史运营数据之中，不能百分之百保证该历史运营数据准确，有可能会因为后台故障造成某个时间段内统计的数据不准确或者和其他数据相比存在较大差异，在处理过程中这些数据会对最终结果有较大的影响，除此之外，具体数值范围大小以及量纲差异会影响输出结果的速度，因此有必要对历史运营数据做相应的加工处理以改善上述问题。

在一些可选的实施例中，对获取到的目标运营活动的历史运营数据的预处理主要包括：替换历史运营数据中的异常值。其中，异常值是超出合理范围之外的数据，为了保留原始数据的分布和重要信息，这里的异常值不能直接删除，而是采用其他措施处理。具体措施可以是参考目标运营活动的历史峰值，将合理范围设定为历史运营数据中小于目标运营活动参与人数的历史峰值的数据，将合理范围之外，即大于历史峰值的数据定义为异常值，同时将该异常值赋值为历史峰值以达到调整效果。例如，目标运营活动中的参与人数的历史峰值是100万，在历史运营数据中存在大于100万的数据，如200万，300万，那么这些数据就被视为异常值，对这些数据的处理方式就是将其更改为历史峰值100万，以此减小对输出结果的影响。在对异常值处理之后，得到了正常分布的历史数据，但是这些历史数据的值可能在数十万或者百万级别的数值之间波动，如果直接将这些数据输入算法中计算，不仅花费的时间长，代价大，而且最终输出结果的准确度也不一定高，所以需要相应处理消除量纲差异，以此加快计算速度，减小计算代价，比较常用的方法是归一化。可选的，可以采用极值归一化方法，对异常值处理后的历史运营数据做线性变换，使最终的结果落入[0,1]区间，在此，转换函数的表达式如下：

x＝(x-min)/(max-min)

其中，max是指目标运营活动的历史数据的最大值，min是指目标运营活动的历史数据的最小值，x是每个时间段对应的历史数据。

在经过上述预处理步骤，即异常值替换和归一化处理之后，得到的数据是统一规范的。利用这类数据，可以更高效地完成后续的步骤，且处理代价小，可以节省总的资源开销。

S103，将所述预处理后的历史运营数据输入训练后的长短期记忆循环神经网络LSTM模型，以得到所述多个时间段的下一时间段内所述目标运营活动的预估参与人数。

在一个可能的实施例中，训练后的长短期记忆循环神经网络LSTM模型可以根据预处理后的历史运营数据，就是说根据预处理后的目标运营活动的连续多个时间段中每个时间段的参与人数来预测下一时间段的参与人数。例如历史运营数据是某运营活动在2020年1月10日至2020年2月27日时间段每天的参与人数，将这些数据预处理之后输入LSTM模型，可以预测出2020年2月28日的参与人数。进一步地，根据预测出来的数据，可以和历史运营数据合并作为新的历史数据输入LSTM模型预测下一个时间段的数据，例如将预测出的2020年2月28日的参与人数和之前预处理之后的历史运营数据合并作为新的历史数据(即2020年1月10日至2020年2月28日期间每天的参与人数)输入LSTM模型中，然后预测第29日的参与人数，以此类推，可以预测出多天的数据。这里多天的数据可以提前预设，假设预测三天，则可以依次得到2月29日、2月30日、3月1日这三天对应的参与人数。可选的，上述内容的数据可以通过可视化的方式展示出来，如图3所示，展示了历史运营数据和预测数据所构成的折线图，可以更直观的得知活动参与人数的数据走势。

可选的，利用预估参与人数可还原历史运营数据中缺失的下一时间段内的参与人数。如图4a所示，为活动参与人数在2020年2月24日至2020年3月4日的活动参与人数数据记录图，但是因为后台存储容量的影响，3月2日数据丢失，导致当天活动的参与人数记录指标为空，可以将2020年2月24日至2020年3月1日的活动参与人数作为历史运营数据，输入训练之后的LSTM模型，预测出3月2日的数据，补齐该缺失值，如图4b所示，构成了完整的历史运营数据。根据这些历史运营数据，又可以预测下一个时间段，如3月5日的参与人数。可选的，若因为一些不可控因素丢失掉某日某个时间段数据，导致当天活动的参与人数记录指标不准确，也可使用丢失之前的运营数据作为历史运营数据来预测该日的数据，并将不准确的数据检测出来替换掉。

可选的，利用预估参与人数可以确定目标运营活动在下一时间段内的资源分配量。活动的参与人数是决定活动资源分配量的其中一个重要因素，根据预估的参与人数以及用户可能需要的活动资源，对运营活动需要的总活动资源预估，以提前配置这些资源，这里的资源可以包括虚拟资源以及实体资源，例如在运营活动中配置相应的带宽容纳预估数量的用户同时参加运营活动，或者在分布式服务器中部署该活动平台等虚拟资源，或者安排多台服务器负载等物力资源，又或者安排工程师维护后台等人力资源，以上均属于资源配置的范畴，在此不做限制。

综上所述，本申请实施例至少包含如下优点：

根据运营活动的历史运营数据并利用具有记忆功能的LSTM模型，可对目标运营活动中的目标时间段的参与人数进行预测，提高预测数据的准确度；还可通过预测以补齐缺失数据，保证了数据的完整性；根据预估参与人数可以对活动资源配置量有初步预估以保证活动资源的有效投放，节省了运营成本。

请参阅图5，是本申请实施例提供的另一种数据处理方法的步骤流程示意图，该方法包括：

S501，获取样本数据，所述样本数据包括连续的预设数量个时间段中每个时间段内所述目标运营活动的实际参与人数。

在一个可能的实施例中，采集的是目标运营活动的按时间顺序排列的一维样本数据，该样本数据包括连续的预设数量个时间段中每个时间段内目标运营活动的实际参与人数。其中，时间段可以小时或天或周为单位，在此不做限制。对应的，连续的预设数量个时间段可以是连续的小时或连续的日期或连续的周数，例如某天8:00-22:00这个时间段内每个小时，或者1月1日至1月30日每一天，或者某月第一周至第四周的每一周，可以通过后台服务器实时统计目标运营活动的实际参与人数，以便获取需要的单位时间段的数据，将单位时间段的数据组合可构成预设数量个时间段内的样本数据。

S502，将所述样本数据划分为训练样本集和验证样本集。

在一个可能的实施例中，训练样本集包括样本数据中第一数量个时间段中每个时间段内的实际参与人数，验证样本集包括样本数据中时间在第一数量个时间段之后的第二数量个时间段中每个时间段内的实际参与人数。样本数据按照一定比例将其划分为两份，分别表示训练样本集和验证样本集，具体参考标准可以是时间段，如图6所示的目标运营活动的样本集，汇集了2020年2月1日至3月1日这30天中每天的实际参与人数，则可以按照天为单位划分，即将前20日(2月1日至2月20日)的实际参与人数作为训练样本集，后10日(2月21日至3月1日)的实际参与人数作为验证样本集。一般情况下，第一数量大于第二数量，在上述例子中第一数量对应前20日，第二数量则对应后10日，其中训练样本集所包含的数据多于验证样本集，两个不同的样本集发挥不同的作用对模型进行调整。

S503，对所述训练样本集和所述验证样本集分别进行预处理，得到预处理后的训练样本集和预处理后的验证样本集。

在一个可能的实施例中，与历史运营数据的预处理类似，为了将样本集中的数据量纲统一，保留有效的分布和重要的信息，预处理方式包含异常值处理和归一化处理，分别对训练样本集和验证样本集中大于历史峰值的数据重新赋值，即异常值替换为历史峰值，然后分别将异常值处理之后的训练样本集和验证样本集中的最大值最小值选取出来，利用转换函数分别将训练样本集和验证样本集的数据线性量化到[0,1]区间内，以加快模型训练的收敛速度，以及验证时得到输出结果的速度。转换函数表达式如下：

x＝(x-min)/(max-min)

其中，max是指目标运营活动的训练样本集(验证样本集)的最大值，min是指目标运营活动的训练样本集(验证样本集)的最小值，x是每个时间段对应的训练样本集(验证样本集)中的数据。

S504，利用所述预处理后的训练样本集和所述预处理后的验证样本集对初始化的LSTM模型进行训练，以得到所述训练后的LSTM模型。

在一个可能的实施例中，初始化的LSTM模型是基于深度学习框架张量流TensorFlow构建，每个LSTM神经单元包含多个基本单元。如图7所示，是LSTM模型的神经网络结构示意图，前述的基本单元即图示中的A，在这个模型中的循环神经单元包括忘记门、输入门、更新门、输出门共计四个门，对应有四层数据处理函数。各自有着不同的功能，但又相互作用以实现对时间相隔较远的数据记忆的功能，避免长期依赖问题。

忘记门决定从细胞状态中扔掉哪些信息，利用sigmoid函数对输入的数据处理，通过查看h_t-1和X_t信息来输出一个0-1之间的向量，主要目的是对数据进行处理，转化为0-1之间的向量，具体处理是将h_t-1和X_t拼接为一个矩阵，利用下述表达式处理：

f_t＝σ(W_f[h_t-1，x_t]+b_f)

其中，W_f表示该层赋予的权重矩阵，b_f为该层设置的偏置向量，这里sigmoid函数σ的公式如下：

输入门处理当前序列位置的输入，首先由sigmoid函数决定更新哪些信息，然后将h_t-1和X_t通过一个tanh处理函数得到新的候选神经单元信息

更新操作如下：

i_t＝σ(W_i[h_t-1，x_t]+b_i)

其中，W_i表示该层赋予的权重矩阵，b_i是该层设置的偏置向量。

其中，Wc表示该层赋予的权重矩阵，b_c是该层设置的偏置向量，tanh是双曲正切函数，其计算公式如下：。

更新门结合忘记门的输出结果与要更新的新信息得到新细胞的状态，通过忘记门选择忘记旧神经单元信息的一部分以及输入门选择添加候选神经单元信息的一部分得到新的神经单元信息，即新的细胞信息。更新操作如下表达式：

其中，f_t为忘记门的输出结果，i_t为输入门的输出结果，

为候选神经单元信息，C_t-1是上一个细胞状态。

输出门基于神经单元信息决定要输出的内容，根据输入的h_t-1和X_t来判断输出神经单元的哪些状态特征，具体处理是将输入经过一个称为输出门的sigmoid处理函数得到判断条件，然后将神经单元状态经过tanh处理函数得到一个-1～1之间值的向量，具体表达式如下：

O_t＝σ(W_o[h_t-1，x_t]+b_o)

其中，W_o表示该层赋予的权重矩阵，b_o是该层设置的偏置向量。

h_t＝O_t*tanh(C_t)

其中，tanh是双曲正切函数。

将样本集中所包含的数据输入上述初始化的LSTM模型中训练可以得到合适的LSTM模型，利用该模型可以基于历史运营数据预估参与人数。

综上所述，本申请实施例至少包含如下优点：

通过对目标运营活动的样本集划分训练样本集和验证样本集，训练初始化的LSTM模型，得到用于预估目标运营活动的参与人数的LSTM模型。采用训练之后LSTM模型预估参与人数的数据有较好的泛化性和较高的预测精度。

请参见图8，是本实施例提供的又一种数据处理方法的步骤流程示意图。该方法包括：

S801，获取样本数据，所述样本数据包括连续的预设数量个时间段中每个时间段内所述目标运营活动的实际参与人数。

在一个可能的实施例中，采集的是目标运营活动的按时间顺序排列的一维样本数据，该样本数据包括连续的预设数量个时间段中每个时间段内目标运营活动的实际参与人数。其中，时间段可以小时或天或周为单位，在此不做限制。对应的，连续的预设数量个时间段可以是连续的小时或连续的日期或连续的周数，例如某天8:00-22:00这个时间段内每个小时，或者1月1日至1月30日每一天，或者某月第一周至第四周的每一周，可以通过后台服务器实时统计目标运营活动的实际参与人数，以便获取根据需要的单位时间段的数据，并将单位时间段的数据组合可构成预设数量个时间段内的样本数据。

S802，将所述样本数据划分为训练样本集和验证样本集。

在一个可能的实施例中，训练样本集包括样本数据中第一数量个时间段中每个时间段内的实际参与人数，验证样本集包括样本数据中时间在所述第一数量个时间段之后的第二数量个时间段中每个时间段内的实际参与人数。样本数据按照一定比例将其划分为两份，分别表示训练样本集和验证样本集，具体参考标准可以是时间段，例如如图6所示的样本数据集，表示2020年2月1日至2月30日每天的实际参与人数，则可以按照天为单位划分，即将前20日(2月1日至2月20日)的实际参与人数作为训练样本集，将后10日(2月21日至2月30日)的实际参与人数作为验证样本集。一般情况下，第一数量大于第二数量，在上述例子中第一数量对应前20日，第二数量则对应后10日，其中训练样本集所包含的数据多于验证样本集，两个不同的样本集发挥不同的作用对模型进行调整。

S803，对所述训练样本集和所述验证样本集分别进行预处理，得到预处理后的训练样本集和预处理后的验证样本集；

x＝(x-min)/(max-min)

S804，将所述预处理后的训练样本集输入初始化的LSTM模型，得到输出结果。

在一个可能的实施例中，预处理后的训练样本集是量纲统一的数据。针对大量的数据，需要分批次输入训练。具体的处理可以是按照预设的时间步长截取训练样本集，得到每个训练批次的输入样本，迭代训练该LSTM模型，并根据学习速率调整时间步长，学习速率与模型的训练时间成负相关，学习速率越大，所需的训练时间就越短，但是太大的学习速率会导致模型不收敛，所以需要在训练过程中不断迭代调整学习速率以得到合适的值。初始化的LSTM结构如前述实施例所述，在此不再赘述。将训练样本集输入初始化的LSTM模型得到的输出结果包括对所述预处理后的验证样本集中各个时间段内的预估参与人数，就是说预估的参与人数只在时间上和验证样本集的时间段对应，而具体的数值和验证样本集则存在一定程度上的差异。

S805，根据所述输出结果和所述预处理后的验证样本集对所述初始化的LSTM模型的参数进行调整，以得到所述训练后的LSTM模型。

在一个可能的实施例中，为了使误差最小，即预测值和实际值之间的差值最小，需要优化迭代以实现对模型参数的调整。具体方式可以是根据输出结果和预处理后的验证样本集共同确定损失函数的损失值，再根据损失值采用随机梯度下降方法对初始化的LSTM模型的参数进行调整，直到重新确定的损失函数的损失值满足预设收敛条件，至此，训练后的LSTM模型是模型参数优化后的LSTM模型，对目标运营活动的参与人数有良好的预估效果。可选的，模型参数中的损失函数可以定义为均方误差函数(mean-square error,MSE)，输出的预估参与人数和验证样本集中实际参与人数的偏差可以用来计算MSE以表示损失函数的损失值，随机梯度下降(stochastic gradient descent，SGD)算法可以实现损失函数优化，具体的是根据损失值是否收敛来判定是否需要继续调整，在这种算法的优化下，由于是在每轮迭代中随机优化某一条训练数据上的损失函数，每一轮参数的更新速度大大加快，使得优化速度更快；对经过训练样本集训练的LSTM模型的准确性进行评估可以用绝对误差评价指标，即输出的预估参与人数和验证样本集中实际参与人数之间偏差的绝对值。训练样本集和验证样本集输入初始化的LSTM模型各自的作用不同：训练样本集输入初始化的LSTM模型进行训练，验证样本集输入初始化的LSTM模型进行调参、评估模型好坏，但最终的目的都是为了得到一个合适的LSTM模型来预测数据。

处理后的样本集输入初始化的LSTM模型，经过多次迭代可以得到优化后的LSTM模型，在此迭代次数没有限制，只要使得该训练之后LSTM模型中参数达到最优化的预测结果。举例来说，在选取某个目标运营活动的样本数据训练后，可以得到最终的模型参数信息，如下表所示：

综上所述，本申请实施例至少包含如下优点：

通过对目标运营活动的样本集划分训练样本集和验证样本集，将训练样本集用于模型训练，验证样本集用于模型调参和预估，得到优化的模型参数LSTM模型，将此模型运用到目标运营活动的预测中使得预估的参与人数更准确，以实现活动资源的有效配置。

请参见图9，是本实施例提供的又一种数据处理方法的步骤流程示意图。该方法包括：

S901，获取数据。在一个可能的实施例中，这里是数据是指目标运营活动的待预测值对应时间段之前的参与人数的样本数据，并且获取到的数据已脱敏处理。具体对应的是前述实施例中所提及的样本集，主要作用是利用该数据训练LSTM模型。

S902，异常值处理。在一个可能的实施例中，异常值处理作为预处理方法中的一种，主要是指对超过合理范围之外的数据进行加工处理。异常值如果直接删除，会改变原始数据的分布，使原始数据丢失重要信息。这里处理的方法是参考目标运营活动数据的历史峰值，将每天活动数据超过历史峰值的数据定义为异常，对异常数据重新赋值为历史峰值，通过异常值处理后最终的数据预测精度能得到进一步提升。

S903，特征工程。在一个可能的实施例中，主要是指归一化，也属于前述实施例所述的预处理中的一种。可选的，可采用极值归一化消除数据的量纲差异、加快算法收敛的速度，通过对异常值处理之后的数据作线性变换，使结果落到[0,1]区间，利用这类数据可以使计算代价更小，上述预处理的步骤均是对输入模型的数据做的处理，因此这里的数据不仅包括目标运营活动的样本数据，还包括其他可以数据。

S904，LSTM模型训练。在一个可能是实施例中，训练之前涉及到对模型的选择，由于RNN模型的长期依赖特性不能很准确的预测时间序列数据，所以采用LSTM模型，将经过异常值处理和特征工程处理的数据输入这个模型，经过多次优化迭代得到误差最小的LSTM模型，该模型的结构可参见图7，各部分原理以及模型参数信息等可参见前述实施例。

S905，离线验证。在一个可能的实施例中，因为样本集中的数据对该模型的训练只代表了目标运营活动的部分数据，为了更好地验证此模型的泛化能力以及预测能力，这里将采用正确记录的历史运营数据作为训练样本输入优化的LSTM模型去预测至少一天的数据，得到最终的输出结果，然后将输出结果与实际记录的值相比较，验证误差数据是否能够控制在预设范围之内。

S906，结果比对。在一个可能的实施例中，结果对比其一是将预测值和实际值比对，计算两者的差值，来评估最终数据的误差，其二是将加权平均的预测结果的误差和利用训练后的LSTM模型得到的预测结果的误差相比较来评判此模型是否可优选，最终可以发现LSTM模型预测误差控制在范围之内，且误差值比加权平均的预测结果的误差小很多，所以可以优选LSTM模型来预测达到更好的预估结果。

综上所述，本申请实施例至少包含如下优点：

选取目标运营活动的数据作为样本集训练LSTM模型，对模型参数进行调整可以得到优化的LSTM模型，将正确记录的数据输入优化后的LSTM模型得到待预测值，和加权平均方法预测出的数据对比发现，采用优化的LSTM模型误差值更小，预估的参与人数更准确，可以为目标运营活动提供一种评估活动效果的优良方案。

请参见图10，是本实施例提供的一种数据处理装置的结构示意图。该装置包括：

获取模块1001，用于获取目标运营活动的历史运营数据，所述历史运营数据包括连续的多个时间段中每个时间段内所述目标运营活动的参与人数；

预处理模块1002，用于对所述历史运营数据进行预处理，得到预处理后的历史运营数据；

预估模块1003，用于将所述预处理后的历史运营数据输入训练后的长短期记忆循环神经网络LSTM模型，以得到所述多个时间段的下一时间段内所述目标运营活动的预估参与人数。

在一种可能的实施例中，该装置还包括：

还原模块1004，用于根据所述预估参与人数还原所述历史运营数据中缺失的所述下一时间段内的参与人数；或者，

确定模块1005，用于根据所述预估参与人数确定所述目标运营活动在所述下一时间段内的资源分配量。

在一种可能的实施例中，该装置还包括训练模块1006，其中：

获取模块1001，还用于获取样本数据，所述样本数据包括连续的预设数量个时间段中每个时间段内所述目标运营活动的实际参与人数；

训练模块1006，用于根据所述样本数据对初始化的LSTM模型进行训练，以得到所述训练后的LSTM模型。

可选的，所述训练模块1006具体用于：

将所述样本数据划分为训练样本集和验证样本集，所述训练样本集包括所述样本数据中第一数量个时间段中每个时间段内的实际参与人数，所述验证样本集包括所述样本数据中时间在所述第一数量个时间段之后的第二数量个时间段中每个时间段内的实际参与人数；

对所述训练样本集和所述验证样本集分别进行预处理，得到预处理后的训练样本集和预处理后的验证样本集；

利用所述预处理后的训练样本集和所述预处理后的验证样本集对初始化的LSTM模型进行训练，以得到所述训练后的LSTM模型。

可选的，所述训练模块1006具体用于：

将所述预处理后的训练样本集输入初始化的LSTM模型，得到输出结果，所述输出结果包括对所述预处理后的验证样本集中各个时间段内的预估参与人数；

根据所述输出结果和所述预处理后的验证样本集对所述初始化的LSTM模型的参数进行调整，以得到所述训练后的LSTM模型。

可选的，所述训练模块1006具体用于：

根据所述输出结果和所述预处理后的验证样本集确定损失函数的损失值；

根据所述损失值采用随机梯度下降方法对所述初始化的LSTM模型的参数进行调整，直到重新确定的所述损失函数的损失值满足预设收敛条件。

可选的，所述预处理模块1002具体用于：

获取所述历史运营数据中大于历史峰值的参与人数，并将所述大于历史峰值的参与人数替换为所述历史峰值；

获取替换为所述历史峰值后的历史运营数据中的最大值和最小值；

利用所述最大值和所述最小值对所述替换为所述历史峰值后的历史运营数据进行归一化处理，得到预处理后的历史运营数据。

对于装置实施例而言，由于其与方法实施例基本相似，相关之处参见方法实施例的部分说明即可。

请参见图11，是本申请实施例提供的一种计算机设备的结构示意图。如图11所示，该计算机设备可以包括处理器1101、存储器1102、网络接口1103和至少一个通信总线1104。其中，处理器1101用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器1102用于存储计算机程序，可以包括高速随机存取存储器，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口1103提供数据通信功能，通信总线1104负责连接各个通信元件。

其中，处理器1101可以用于调用存储器中的计算机程序，以执行如下操作：

在一种可能的实施例中，所述处理器1101，用于：

利用所述预估参与人数还原所述历史运营数据中缺失的所述下一时间段内的参与人数；或者，

利用所述预估参与人数确定所述目标运营活动在所述下一时间段内的资源分配量。

在一种可能的实施例中，所述处理器1101，用于：

获取样本数据，所述样本数据包括连续的预设数量个时间段中每个时间段内所述目标运营活动的实际参与人数；

利用所述样本数据对初始化的LSTM模型进行训练，以得到所述训练后的LSTM模型。

在一种可能的实施例中，所述处理器1101，用于：

应当理解，本申请实施例中所描述的计算机设备可以实现实施例中对数据处理方法的描述，也可执行对应实施例对数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也在此不再赘述。

此外，还应指出，本申请实施例还提供一种存储介质，该存储介质中存储了前述数据处理方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例一种对数据处理方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

最后，还需说明的是，本申请的说明书和权利要求书及上述附图中的术语，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述方法，其特征在于，所述方法还包括：

4.根据权利要求3所述方法，其特征在于，所述利用所述样本数据对初始化的LSTM模型进行训练，以得到所述训练后的LSTM模型，包括：

5.根据权利要求4所述方法，其特征在于，所述利用所述预处理后的训练样本集和所述预处理后的验证样本集对初始化的LSTM模型进行训练，以得到所述训练后的LSTM模型，包括：

6.根据权利要求5所述方法，其特征在于，所述根据所述输出结果和所述预处理后的验证样本集对所述初始化的LSTM模型的参数进行调整，以得到所述训练后的LSTM模型，包括：

7.根据权利要求1所述方法，其特征在于，所述对所述历史运营数据进行预处理，得到预处理后的历史运营数据，包括：

8.一种数据处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：网络接口、处理器和存储器，所述网络接口、处理器与存储器相连接，所述网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-7任一项所述方法。

10.一种存储介质，其特征在于，所述存储介质存储计算机程序，所述计算机程序包括程序指令，一个或多个处理器加载并执行所述程序指令，以执行如权利要求1-7任一项所述方法。