CN114897137A

CN114897137A - 训练神经网络的方法、预测呼入流量的方法及装置

Info

Publication number: CN114897137A
Application number: CN202210477732.4A
Authority: CN
Inventors: 梁唯佳; 米文双; 王照
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-12

Abstract

本公开提供了一种训练神经网络的方法、预测呼入流量的方法及装置，可用于人工智能领域或金融领域，网络包括：输入层、嵌入层、解码层和输出层。训练神经网络的方法包括：将当前时段的上一时段的流量特征的取值输入神经网络，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

Description

训练神经网络的方法、预测呼入流量的方法及装置

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种训练神经网络的方法、预测呼入流量的方法及装置。

背景技术

随着科技的快速发展，人工智能技术在客服方面得到很快发展。电话客服是企业为客户提供的重要的业务办理及沟通渠道。相关技术中，可以通过智能交互的方式对外提供电话客服。

在实现本公开构思的过程中，申请人发现相关技术中至少存在如下问题，为了满足对智能交互可用性和成本控制这两方面的需求，需要能够较精准地预测出未来一段时间的呼入流量。

发明内容

有鉴于此，本公开提供了一种训练神经网络的方法、预测呼入流量的方法及装置，以提升呼入流量的预测精准度，满足对智能交互可用性和成本控制这两方面的需求。

本公开的一个方面提供了训练神经网络的方法，神经网络包括：输入层，被配置为至少获得当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值；嵌入层，被配置为确定流量特征各自的第一特征权重，并且基于当前时段的上一时段的流量特征的取值和流量特征各自的特征权重确定第一预测流量；解码层，被配置为基于当前时段的流量特征的取值确定当前时段第二预测流量，并且基于当前时段的上一时段的流量特征的取值确定第三预测流量；以及输出层，被配置为输出由第一预测流量、第二预测流量和第三预测流量融合得到的预测流量。其中，训练神经网络的方法可以包括：将当前时段的上一时段的流量特征的取值输入神经网络，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

根据本公开的实施例，嵌入层包括：注意力机制网络，被配置为基于指定时段的流量特征的取值对第一预测流量的影响度，来确定流量特征各自的第一特征权重；以及长短时记忆网络，被配置为处理经第一特征权重调整后的当前时段的上一时段的流量特征的取值，得到第一预测流量。

根据本公开的实施例，流量特征包括呼入流量特征；注意力机制网络包括：第一子注意力机制网络，被配置为对于至少一个服务器中的每个服务器的流量特征，对按照时序排序后的指定时段的流量特征进行处理以确定流量子特征权重；第二子注意力机制网络，被配置为确定至少一个服务器中的每个服务器的服务器子特征权重；长短时记忆网络具体被配置为处理分别经流量子特征权重和服务器子特征权重调整后的当前时段的上一时段的流量特征的取值，得到第一预测流量。

根据本公开的实施例，神经网络还包括：基于时间的注意力机制网络，被配置为确定流量特征各自在相邻时段的第二特征权重，以调整当前时段的流量特征的取值和/或调整当前时段的上一时段的流量特征的取值。

根据本公开的实施例，流量特征的取值通过如下方式来确定：通过预先构建的字典将外部特征关联数据中的非结构化数据转换为结构化数据，得到外部特征数据；将外部特征数据和呼入流量数据进行拼接，得到拼接数据；按照时序对拼接数据进行排序，并在完成排序后删除时间维度，得到流量特征数据流；对流量特征数据流进行规范化处理，得到流量特征的取值。

根据本公开的实施例，流量特征包括：外部特征和呼入流量特征，外部特征包括：天气、节假日、业务处理周期节点、流量相关业务推广活动、服务器标识或者时间中至少一种。

根据本公开的实施例，训练神经网络的方法还包括：在单次训练神经网络的过程中，停止部分神经网络的节点输出处理结果。

本公开的一个方面提供了一种预测呼入流量的方法，包括：获取当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值；以及利用经训练的神经网络处理当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值，得到预测流量；其中，神经网络包括：输入层，被配置为至少获得当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值；嵌入层，被配置为确定流量特征各自的第一特征权重，并且基于当前时段的上一时段的流量特征的取值和流量特征各自的特征权重确定第一预测流量；解码层，被配置为基于当前时段的流量特征的取值确定当前时段第二预测流量，并且基于当前时段的上一时段的流量特征的取值确定第三预测流量；以及输出层，被配置为输出由第一预测流量、第二预测流量和第三预测流量融合得到的预测流量；其中，神经网络通过如下方式进行训练：将当前时段的上一时段的流量特征的取值输入神经网络，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

本公开的一个方面提供了一种预测呼入流量装置，包括：特征值获取模块，用于获取当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值；以及模型训练模块，用于利用经训练的神经网络处理当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值，得到预测流量；其中，神经网络包括：输入层，被配置为至少获得当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值；嵌入层，被配置为确定流量特征各自的第一特征权重，并且基于当前时段的上一时段的流量特征的取值和流量特征各自的特征权重确定第一预测流量；解码层，被配置为基于当前时段的流量特征的取值确定当前时段第二预测流量，并且基于当前时段的上一时段的流量特征的取值确定第三预测流量；以及输出层，被配置为输出由第一预测流量、第二预测流量和第三预测流量融合得到的预测流量；其中，神经网络通过如下方式进行训练：将当前时段的上一时段的流量特征的取值输入神经网络，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

本公开的另一方面提供了一种电子设备，包括一个或多个处理器以及存储装置，其中，存储装置用于存储可执行指令，可执行指令在被处理器执行时，实现如上的训练神经网络的方法和/或预测呼入流量的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的训练神经网络的方法和/或预测呼入流量的方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上的训练神经网络的方法和/或预测呼入流量的方法。

本公开实施例提供的训练神经网络的方法、预测呼入流量的方法及装置，在时序问题预测场景中，加入注意力(Attention)机制，聚焦到对预测流量影响大的流量特征，从而实现更加精准地预测。此外，可通过获得不同维度的权重大小，了解到对呼入流量影响最大的外部因素，以此来确定呼入用户最关心的营销策略。

本公开实施例提供的训练神经网络的方法、预测呼入流量的方法及装置，考虑到长短时记忆(Long Short Term Memory，简称LSTM)神经网络在针对时序数据的预测中表现出更加优秀的能力，采用LSTM神经网络以便更好地提取出长时间序列上的周期性特征。

本公开实施例提供的训练神经网络的方法、预测呼入流量的方法及装置，由于编码-解码(encoder-decoder)架构的性能会随着encoder的序列长度下降，因此在decoder阶段可以加入基于时间的Attention机制来关注每一时刻应该强调的序列内容。这样确定了对预测流量影响最大的时段，聚焦到对预测流量影响大的时段，从而实现更加精准地预测。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用训练神经网络的方法、预测呼入流量的方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的训练神经网络的方法的流程图；

图3示意性示出了根据本公开实施例的神经网络的结构示意图；

图4示意性示出了根据本公开实施例的注意力机制网络的结构示意图；

图5示意性示出了根据本公开实施例的确定流量特征的取值的流程图；

图6示意性示出了根据本公开实施例的预测呼入流量的方法的流程图；

图7示意性示出了根据本公开另一实施例的预测呼入流量的方法的流程图；

图8示意性示出了根据本公开实施例的预测呼入流量装置的方框图；以及

图9示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多特征。

电话客服是许多企业为客户提供的业务办理渠道及沟通渠道。如果能够较为精准地预测出未来一段时间的呼入量，则有助于合理分配计算资源等，以实现在控制成本的同时，满足智能交互可用性。

例如，相关技术中企业，如银行可以对cpu及内存的负载设置一个固定临界值，当现有系统负载超过临界值时，即对系统做升级和扩容。这样的方式在短期内可以解决问题，但对于长期的发展没有太大帮助，不利于企业长期发展。对于呼入流量进行整体预测的技术方案，大体可有趋势分析、回归分析和指数平滑等。

其中，趋势分析是利用已有数据，根据这些历史数据拟合一条曲线反映出其变化趋势，并根据变化趋势对未来的某一点进行预测。然而，趋势分析误差较大，只适合于较粗粒度的预测。

回归分析需要首先确定预测值与其影响因子之间的联系，建立起表达式，从而得出未来某时刻的呼入量。然而，回归分析法在呼入量问题中难以明确建立预测值与影响因子之间的联系。

指数平滑是利用历史数据的指数加权组合来预测时间序列的将来值，设置衰减因子0＜a＜1，根据近重远轻的原则来预测未来某时刻的呼入量。然而，指数平滑法虽考虑到了较长时间序列上的依赖关系但没有考虑到一些外部特征对预测值的影响，且衰减因子很难恰当确定。

为了解决上述复杂预测问题，还可以考虑神经网络的方式处理，将呼入流量看似一个纯粹的随机数。但是，如果考虑较长时间序列，会发现在时间序列上可能存在某种隐藏模式。根据申请人的大量统计分析等，发现呼入流量在时间上表现出一定的周期性。例如，在一个月的某几天、一天中的某些时段会表现出小的高峰。此外，呼入流量还可能受到某些外部因素的影响，例如，今天是否休息日，这是一天中的第几个小时，或者临近信用卡还款日，则呼入量将也会有所提高，与营销策略也存在一定联系。

本公开实施例提供的训练神经网络的方法、预测呼入流量的方法及装置，该训练神经网络的方法包括输入训练数据过程和调整模型参数过程，其中，输入训练数据过程包括将当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值输入神经网络，在完成输入训练数据过程后进入调整模型参数过程，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。其中，神经网络包括：输入层，被配置为至少获得当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值；嵌入层，被配置为确定流量特征各自的第一特征权重，并且基于当前时段的上一时段的流量特征的取值和流量特征各自的特征权重确定第一预测流量；解码层，被配置为基于当前时段的流量特征的取值确定当前时段第二预测流量，并且基于当前时段的上一时段的流量特征的取值确定第三预测流量；以及输出层，被配置为输出由第一预测流量、第二预测流量和第三预测流量融合得到的预测流量。

本公开实施例中，考虑到呼入流量在时间上表现出一定的周期性，例如会在一个月的某几天、一天中的某些时段表现出小的高峰；同时呼入流量还可能收到某些外部特征的影响，例如天气状况、是否休息日、是否临近信用卡还款日、近期是否进行了信用卡催收......则呼入量将也会有所提高，因此呼入量与营销策略也存在一定联系。每一台服务器都会间隔固定时间(例如1小时)采集流量数据，因此每一台服务器都会产生一系列的时序数据。假设服务器数量是N_g个，每一个服务器采集的外部特征数为N₁，那么我们就要在时间间隔T范围内的所有服务器数据，来预测某一个服务器N_i在接下来时间内的流量值。本实施例中采用编码-解码(encoder-decoder)架构，在时序问题预测中，借助于LSTM神经网络表现出的优秀能力，更好地提取出长时间序列上的周期性特征。在此基础上，加入Attention机制，聚焦到对预测值影响最大的外部特征、对当前值影响最大的时间阶段(简称时段)，从而实现更加精准的预测。此外，可通过获得不同维度的权重大小，了解到对呼入流量影响最大的外部因素即呼入用户最关心的营销策略。

图1示意性示出了根据本公开实施例的可以应用训练神经网络的方法、预测呼入流量的方法及装置的示例性系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。需要说明的是，本公开实施例提供的训练神经网络的方法、预测呼入流量的方法及装置可用于人工智能领域在预测呼入流量相关方面，也可用于除人工智能领域之外的多种领域，如金融领域，本公开实施例提供的训练神经网络的方法、预测呼入流量的方法及装置的应用领域不做限定。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104可以包括多个网关、路由器、集线器、网线等，用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与其他终端设备和服务器105进行交互，以接收或发送信息等，如发送模型训练指令、预测呼入流量指令、呼入流量数据、预测呼入流量结果等。终端设备101、102、103可以安装有各种通讯客户端应用，例如，人工智能分类应用、银行类应用、电商类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。

终端设备101、102、103包括但不限于智能手机、台式电脑、增强现实设备、平板电脑、远程视频监控终端、膝上型便携计算机等等可以支持客服功能的电子设备。终端设备上可以有客户端，以在用户使用客服功能时上送呼入流量相关信息。

服务器105可以接收模型训练请求、预测呼入流量请求、模型下载请求等，并对请求进行处理。例如，服务器105可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求等进行分析处理，并将处理结果(如预测呼入流量结果、训练模型得到的模型参数等)反馈给终端设备。

需要说明的是，本公开实施例所提供的训练神经网络、预测呼入流量的方法可以由终端设备101、102、103或服务器105执行。相应地，本公开实施例所提供的预测呼入流量装置可以设置于终端设备101、102、103或服务器105中。应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的训练神经网络的方法的流程图。

如图2所示，该训练神经网络的方法包括操作S210～操作S220。

在操作S210，将当前时段的上一时段的流量特征的取值输入神经网络。

其中，神经网络可以包括输入层、嵌入层、解码层和输出层。

输入层被配置为至少获得当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值。

嵌入层被配置为确定流量特征各自的第一特征权重，并且基于当前时段的上一时段的流量特征的取值和流量特征各自的特征权重确定第一预测流量。其中，嵌入层也可以称为编码层。

解码层被配置为基于当前时段的流量特征的取值确定当前时段第二预测流量，并且基于当前时段的上一时段的流量特征的取值确定第三预测流量。

输出层被配置为输出由第一预测流量、第二预测流量和第三预测流量融合得到的预测流量。

在某些实施例中，可以通过注意力机制网络来确定上述权重信息。

例如，嵌入层可以包括：注意力机制网络，被配置为基于指定时段的流量特征的取值对第一预测流量的影响度，来确定流量特征各自的第一特征权重；以及长短时记忆网络，被配置为处理经第一特征权重调整后的当前时段的上一时段的流量特征的取值，得到第一预测流量。

其中，流量特征可以包括：外部特征和呼入流量特征。例如，外部特征包括：天气、节假日、业务处理周期节点、流量相关业务推广活动、服务器标识或者时间中至少一种。

在操作S220，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

例如，神经网络的参数可以包括注意力机制网络的参数。当前时段的实际流量可以是基于当前时段的流量特征的取值来确定的。

在本实施例中，呼入流量在时间维度上表现出一定的周期性。例如，呼入流量在一个月的某几天、一天中的某些时间段表现出小的高峰。此外，呼入流量还可能受到某些外部特征的影响，例如，天气状况、是否休息日、是否临近信用卡还款日、近期是否进行了信用卡催收等，在某些外部特征的影响下，呼入量将也会有所提高。如呼入量与营销策略也存在一定联系。

此外，为了使得获取的权重信息更加精准，可以将权重拆分为多个维度的子权重，然后通过拼接、融合等方式得到总权重。

在某些实施例中，流量特征包括呼入流量特征。

相应地，注意力机制网络可以包括：第一子注意力机制网络和第二子注意力机制网络。

其中，第一子注意力机制网络被配置为对于至少一个服务器中的每个服务器的流量特征，对按照时序排序后的指定时段的流量特征进行处理以确定流量子特征权重。

第二子注意力机制网络被配置为确定至少一个服务器中的每个服务器的服务器子特征权重。

长短时记忆网络具体被配置为处理分别经流量子特征权重和服务器子特征权重调整后的当前时段的上一时段的流量特征的取值，得到第一预测流量。

本实施例中，每一台服务器都会间隔固定时间(例如1小时)采集流量数据，因此每一台服务器都会产生一系列的时序数据。假设服务器数量是N_g个，每一个服务器采集的外部特征数为N_l，需要在时间间隔T范围内的所有服务器数据，来预测某一个服务器N_i在接下来时间内的流量值。本实施例采用seq2seq的encoder-decoder架构，在时序问题预测中，LSTM神经网络会表现出更加优秀的能力，在本场景中，因此本文采用LSTM神经网络，以便更好地提取出长时间序列上的周期性特征。在此基础上，加入Attention机制，聚焦到对预测值影响最大的外部特征，从而实现更加精准的预测，同时可通过获得不同维度的权重大小，了解到对呼入流量影响最大的外部因素即呼入用户最关心的营销策略。

在某些实施例中，可以加入基于时间的Attention机制，聚焦到对当前值影响最大的时间步，从而实现更加精准的预测。

具体地，神经网络还可以包括：基于时间的注意力机制网络，被配置为确定流量特征各自在相邻时段的第二特征权重，以调整当前时段的流量特征的取值和/或调整当前时段的上一时段的流量特征的取值。

图3示意性示出了根据本公开实施例的神经网络的结构示意图。

如图3所示，构建的Encoder编码器模型，Encoder部分采用了LSTM网络模型，在LSTM的输入之前加入了Attention网络，LSTM的输入由[X_t ^本服务器，X_t ^全局]编码而成。“本服务器”指当前被预测的服务器的输入信息编码，“全局”指其他服务器的输入信息编码。这两个编码过程，都采用了Attention机制。

对于本服务器信息的Attention机制，如式(1)和式(2)所示。

其中，v_l，b_l，w_l，U_l是模型需要训练的参数，如l表示第l台服务器。X^i，k指第i个服务器的第k维外部特征在某一时间段收集的特征向量。对所有服务器中的所有特征都进行同样的操作，得到t时刻的权重α向量。例如，服务器数量是N_g个，每一个服务器采集的外部特征数量为N_l。V，W，U，b均为模型训练的权重参数。[ht-1，St-1]体现了时序信息，其中h_t-1是_t-1时刻解码器的隐层状态，S_t-1是LSTM在t-1时刻的输出。

所以有

其中

代表第i个服务器在t时刻的第1维外部特征取值。

对于全局服务器的Attention机制，如式(3)和式(4)所示。

需要计算本台服务器与全局其他服务器之间的相关度。参考图3所示，该相关度可以基于服务器网络的拓扑信息等来确定。

其中，V_g，b_g，w_g，U_g是模型需要训练的参数。y^l是指其他服务器在t时刻，在呼入流量维度上的取值，λ是一个调节参数，P_i，j作为先验概率表示服务器i、j之间的相似性(如容量、地理距离)。同上，l表示第l台服务器。例如，服务器数量是N_g个，V，W，U，b均为模型训练的权重参数。

所以有

也就是其他服务器的呼入流量信息加权编码。

综上，在encoder阶段，LSTM神经网络在每一时刻t的输入：

用f(e)代表一个LSTM的处理单元，则h_t＝f_e(h_t-1，x_t)。

关于decoder阶段——基于时间的attention

由于encoder-decoder架构的性能会随着encoder的序列长度下降，因此在decoder阶段应加入基于时间的attention机制来关注每一时刻应该强调的序列内容。在decoder过程中t时刻的attention权重计算公式如式(5)、式(6)所示。

其中，W_d，

v_d，b_d是模型的训练参数。

综上，在decoder阶段，会采用另一个LSTM网络进行建模，其迭代公式如式(8)所示。

其中，ex_t是使用embedding策略对服务器的时间信息、外部特征进行特征映射的编码。

就是i服务器在t-1时刻的流量预测值，其计算公式如式(9)所示。

其中，W_m，v_y，b_m，b_y是模型的训练参数。

需要说明的是，关于输入，encoder的输出对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K(key)，V(Value)来自encoder，Q(encoder的内容)来自上一位置decoder的输出。

解码：编码可以并行计算，一次性全部encoding出来，但解码不是一次把所有序列解出来的，而是像循环神经网络(Recurrent Neural Network，简称RNN)一样一个一个解出来的，因为要用上一个位置的输入当作attention的query。

注意力机制网络用于确定至少两个流量特征各自的权重、至少两个服务器各自的权重、至少两个时段各自的权重。

图4示意性示出了根据本公开实施例的注意力机制网络的结构示意图。

如图4所示，注意力机制网络包括：全局平局池化层(Global polling)、第一全连接层(FC)、归一化层(BN)和第二全连接层(FC)。

其中，全局平局池化层用于得到至少两个流量特征的取值。

第一全连接层用于基于激活函数(如ReLU函数)确定至少两个流量特征各自的权重。

需要说明的是，注意力机制网络还可以包括归一化层和第二全连接层。

其中，归一化层用于对至少两个流量特征各自的权重进行归一化。

第二全连接层用于基于损失函数(Softmax)确定至少两个流量特征各自的归一化权重的权重。

采取权重注意力机制的方式对特征进行选择，通过使用不同卷积核(如Conv_1、Conv_2)来提取特征，学习不同卷积核之间的信息，从而对通道间不同核(kernel)进行权重分配进而进行表征。具体操作如下。

在保证不同卷积核输出尺寸与通道数相同下对每一个元素进行相加。对所有的流量特征的取值使用全局平均池化使其变为1×1的特征图，以获得每一通道的全局信息。得到全局信息S_c，如式(10)所示。

然后，再将输出S_c输入到全连接网络，目的是通过激活单元找出每一通道的信息比重。通过使用ReLU激活函数实现非线性化的选择，以达到更准确的权重分配，同时也减少了输出神经元即降维操作。其中

为批量归一化，δ为ReLU激活函数，r为缩小比例，L为最小长度，Z为权重，如式(11)所示。d为降维后的大小，如式(12)所示。

d＝max(C/r，L) 式(12)

接着，将融合(Fuse)得到的带有权重的降维后的特征图，通过全连接层后扩大到原一维的大小代表每个通道的权重，使用softmax函数回归出每一个特征图的权重。其中不同卷积核形成同一通道的特征图权重和为1，如式(13)所示。最后将权重分别与原流量特征的取值相乘再融合，形成融合后的流量特征的取值。

本公开实施例采取权重注意力机制的方式对特征进行选择，通过使用不同卷积核来提取特征，学习不同卷积核之间的信息，从而对通道间不同核(kernel)进行权重分配进而进行表征，提升了提取的流量特征的质量。

以下对流量特征的取值确定过程进行示例性说明。

图5示意性示出了根据本公开实施例的确定流量特征的取值的流程图。

如图5所示，该确定流量特征的取值的方法包括操作S501～操作S502。

在操作S501，通过预先构建的字典将外部特征关联数据中的非结构化数据转换为结构化数据，得到外部特征数据。

在操作S502，将外部特征数据和呼入流量数据进行拼接，得到拼接数据。

在操作S503，按照时序对拼接数据进行排序，并在完成排序后删除时间维度，得到流量特征数据流。

在操作S504，对流量特征数据流进行规范化处理，得到流量特征的取值。

在一个具体实施例中，首先，获取原始数据。得到的数据为呼入流量数据与外部特征数据。外部特征数据，如如天气状况、是否休息日、是否临近信用卡还款日、近期是否进行了信用卡催收、某场景推广计划等。

例如，外部特征数据：(中雨，节假日，临近信用卡还款日，积极推广信用卡调额场景，服务器ID，2020-04-0113∶00)。呼入流量数据(150000/h)。

因为外部特征数据有部分为非结构化数据，不利于分析及处理。因此将其转换为结构化数据，建立相应的数据字典将其转换为结构化数据。

例：外部特征数据：(3，1，4，46，051，2020-04-01 13:00)分别对应(天气、是否节假日、是否临近信用卡还款日，某场景推广计划、服务器ID，时间…)

然后，通过特征处理从原始数据中获取影响力高的特征，本实施例中构建基于时间的特征序列数据，每条数据的时间间隔为1小时，为了保证预测的准确率，获取足够量的数据集，并划分为训练数据与测试数据两大部分。

其中，关于对数据进行预处理。对数据进行分析，去除无效，然后把外部特征数据与呼入流量数据进行拼接。例如，输入数据：(3，1，4，46，2020-04-01 13:00，051，150000……)分别对应((天气、是否节假日、是否临近信用卡还款日，某场景推广计划、服务器ID，时间…)，然后，构建时间先后顺序的序列数据。呼入流量以小时为计算单位，按照时序顺序进行先后排序，排序好后删除时间维度。例如，输入数据a1 2020-04-01 13:00(3，1，4，46，51，150000……)对应的流量特征为a2 2020-04-01 14:00(2，1，4，34，51，120000……)。

此外，由于结构化后的数据不同维度之间量级差距较大。为了消除不同量级的影响，所以对这些数据进行了z-score标准化处理，将观测值减去该组观测值的中值，再除以标准差，有利于提高模型的训练速度和预测精度。

在某些实施例中，训练神经网络的方法还可以包括如下操作：在单次训练神经网络的过程中，停止部分神经网络的节点输出处理结果。

本实施例中输入数据特征经过Embedding网络处理，维度可以得到降低，为了防止低维度训练数据造成预测模型过拟合，采用了dropout技术。其中，embedding中主要使用了一维的卷积层(提取特征)，即Conv1D层，最大池化层(减少输入数据的维度)与dropout层(防止过拟合)。最后经过Softmax层得到处理后的重要特征。

具体地，随着网络层的增加，考虑到模型训练难度增加、收敛变慢、出现过拟合等问题，使用Dropout和BatchNormalization策略来解决这些问题。Dropout的原理，是在训练网络的时候，以预先设置的概率停止神经单元的输出，这样部分神经单元的“罢工”，意味着每次的网络训练只有一部分数据特征在参与，从而防止网络过多地学习训练集的数据特征，达到防止过拟合的目的。BatchNormalization的原理，就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布转化为均值为0方差为1的标准正太分布里。这样让梯度变大，避免梯度消失问题的发生，加快收敛速度。

本公开的另一方面提供了一种预测呼入流量的方法。

图6示意性示出了根据本公开实施例的预测呼入流量的方法的流程图。

如图6所示，该预测呼入流量的方法可以包括操作S610～操作S620。

在操作S610，获取当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值。

在操作S620，利用经训练的神经网络处理当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值，得到预测流量。

其中，神经网络包括：输入层、嵌入层、解码层和输出层。

嵌入层被配置为确定流量特征各自的第一特征权重，并且基于当前时段的上一时段的流量特征的取值和流量特征各自的特征权重确定第一预测流量。

例如，神经网络通过如下方式进行训练。将当前时段的上一时段的流量特征的取值输入神经网络，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

图7示意性示出了根据本公开另一实施例的预测呼入流量的方法的流程图。

如图7所示，可以将呼入流量信息存储在系统数据库中，然后调用系统数据库中的数据进行模型训练，得到经训练的Attention-Based LSTM模型。

将每小时的呼入流量及对应的外部特征信息组装成为一条数据，需要用多维的时间序列数据去预测呼入流量。收集一段时间的所有历史数据作为数据集。

对输入数据进行结构化编码，再对于数据进行归一化处理，将呼入流量数据处理成归一化的序列数据；

将处理好的多维输入数据输入带有注意力机制的编码器-解码器结构中，得到输出；

若呼入流量预测结果超过系统最大负载，则控制系统自动进行限流处理并发送告警信息。例如，若下一时间节点的预测流量超过系统负载，则系统通过某一设定变量，发送给服务器，服务器接收到此变量的值时，自动执行限流代码，实现限流。同时可发送预警信息。

图8示意性示出了根据本公开实施例的预测呼入流量装置的方框图。

如图8所示，该预测呼入流量装置800可以包括：特征值获取模块810和模型训练模块820。

特征值获取模块810用于获取当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值。

模型训练模块820用于利用经训练的神经网络处理当前时段的流量特征的取值和当前时段的上一时段的流量特征的取值，得到预测流量。

其中，神经网络包括：输入层、嵌入层、解码层和输出层。

其中，神经网络通过如下方式进行训练：将当前时段的上一时段的流量特征的取值输入神经网络，通过调整神经网络的参数使得针对上一时段的预测流量趋近于当前时段的实际流量。

需要说明的是，装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再一一赘述。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，特征值获取模块810和模型训练模块820中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，特征值获取模块810和模型训练模块820中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，特征值获取模块810和模型训练模块820中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图9示意性示出了根据本公开实施例的电子设备的方框图。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此通讯连接。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或预测呼入流量的方法。

在该计算机程序被处理器901执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种用于训练神经网络的方法，所述神经网络包括：

输入层，被配置为至少获得当前时段的流量特征的取值和所述当前时段的上一时段的流量特征的取值；

嵌入层，被配置为确定所述流量特征各自的第一特征权重，并且基于所述当前时段的上一时段的流量特征的取值和所述流量特征各自的特征权重确定第一预测流量；

解码层，被配置为基于当前时段的流量特征的取值确定当前时段第二预测流量，并且基于所述当前时段的上一时段的流量特征的取值确定第三预测流量；以及

输出层，被配置为输出由所述第一预测流量、所述第二预测流量和所述第三预测流量融合得到的预测流量；

所述训练神经网络的方法包括：

将所述当前时段的上一时段的流量特征的取值输入所述神经网络，通过调整所述神经网络的参数使得针对所述上一时段的预测流量趋近于所述当前时段的实际流量。

2.根据权利要求1所述的方法，其中，所述嵌入层包括：

注意力机制网络，被配置为基于指定时段的流量特征的取值对所述第一预测流量的影响度，来确定所述流量特征各自的第一特征权重；以及

长短时记忆网络，被配置为处理经所述第一特征权重调整后的所述当前时段的上一时段的流量特征的取值，得到所述第一预测流量。

3.根据权利要求2所述的方法，其中，所述流量特征包括呼入流量特征；

所述注意力机制网络包括：

第一子注意力机制网络，被配置为对于至少一个服务器中的每个服务器的流量特征，对按照时序排序后的指定时段的流量特征进行处理以确定流量子特征权重；

第二子注意力机制网络，被配置为确定所述至少一个服务器中的每个服务器的服务器子特征权重；以及

所述长短时记忆网络具体被配置为处理分别经所述流量子特征权重和所述服务器子特征权重调整后的所述当前时段的上一时段的流量特征的取值，得到所述第一预测流量。

4.根据权利要求1至3任一项所述的方法，其中，所述神经网络还包括：

基于时间的注意力机制网络，被配置为确定所述流量特征各自在相邻时段的第二特征权重，以调整所述当前时段的流量特征的取值和/或调整所述当前时段的上一时段的流量特征的取值。

5.根据权利要求1至3任一项所述的方法，其中，所述流量特征的取值通过如下方式来确定：

通过预先构建的字典将外部特征关联数据中的非结构化数据转换为结构化数据，得到外部特征数据；

将外部特征数据和呼入流量数据进行拼接，得到拼接数据；

按照时序对所述拼接数据进行排序，并在完成排序后删除时间维度，得到流量特征数据流；以及

对所述流量特征数据流进行规范化处理，得到所述流量特征的取值。

6.根据权利要求1至3任一项所述的方法，其中，所述流量特征包括：外部特征和呼入流量特征，所述外部特征包括：天气、节假日、业务处理周期节点、流量相关业务推广活动、服务器标识或者时间中至少一种。

7.根据权利要求1至3任一项所述的方法，所述训练神经网络的方法还包括：

在单次训练所述神经网络的过程中，停止部分神经网络的节点输出处理结果。

8.一种预测呼入流量的方法，包括：

获取当前时段的流量特征的取值和所述当前时段的上一时段的流量特征的取值；以及

利用经训练的神经网络处理所述当前时段的流量特征的取值和所述当前时段的上一时段的流量特征的取值，得到预测流量；

其中，所述神经网络包括：

其中，所述神经网络通过如下方式进行训练：

9.一种预测呼入流量的装置，包括：

特征值获取模块，用于获取当前时段的流量特征的取值和所述当前时段的上一时段的流量特征的取值；以及

模型训练模块，用于利用经训练的神经网络处理所述当前时段的流量特征的取值和所述当前时段的上一时段的流量特征的取值，得到预测流量；

其中，所述神经网络包括：

其中，所述神经网络通过如下方式进行训练：

10.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1～7任一项所述的训练神经网络的方法，或者实现根据权利要求8所述的预测呼入流量的方法。

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时，实现根据权利要求1～7任一项所述的训练神经网络的方法，或者实现根据权利要求8所述的预测呼入流量的方法。