CN114330882A

CN114330882A - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114330882A
Application number: CN202111639430.4A
Authority: CN
Inventors: 谭瑞; 吴海英; 王洪斌; 蒋宁; 权佳成; 李宽
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本申请公开了一种数据处理方法，包括：服务器将预设模型分发至每个计算机设备，计算机设备接收从服务器发送的预设模型，以及对预设模型进行训练得到本地参数数据。进而计算机设备将本地参数数据发送至服务器，服务器根据参数奖惩规则确定每个本地参数数据对应的更新参数数据，并将每个更新参数数据发送至对应的计算机设备，计算机设备根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件得到目标预测模型，进而基于目标预测模型对用户进行意图预测得到意图预测结果。本方法能够联合多个参与方共同训练意图预测模型，提高企业对具有投诉意图的用户的预测准确率，降低用户投诉的频率。

Description

数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

移动互联网和智能终端的快速发展，使得网络应用产品层出不穷，随着产品多样性以及用户基数的不断增大，服务商在提供业务服务的过程中受到的投诉频率也急剧增长。由于投诉处理是服务商工作中尤为重要的环节，同时也是发现问题和提升服务质量的重要途径，所以减少用户投诉，提升用户满意度已经成为服务商重点关注的一个方面。

为了能够及时预测业务中将会出现的投诉问题，现阶段，大多数公司主要利用有关投诉预测的算法模型来对用户的投诉意图的概率进行预测，从而对投诉可能性较高的用户进行提前介入，例如，服务商会根据预测的客户投诉概率，针对性地向用户提供解决方案。然而在实际应用场景中，因为受到训练数据的局限，服务商仅能基于自身数据建模，导致模型的预测准确率较低并且泛化能力不足。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质。

第一方面，本申请一些实施例提供一种数据处理方法，该方法应用于服务器，服务器与多个计算机设备建立网络通信，方法包括：将预设模型分发至每个计算机设备，计算机设备基于训练完成后的预设模型对用户进行意图预测；接收每个计算机设备发送的本地参数数据，本地参数数据为计算机设备在对预设模型进行训练的过程中生成的参数数据；根据参数奖惩规则确定每个本地参数数据对应的更新参数数据；将每个更新参数数据发送至对应的计算机设备，更新参数数据用于计算机设备对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型。

第二方面，本申请一些实施例提供一种数据处理方法，该方法应用于计算机设备，计算机设备与服务器建立网络通信，方法包括：接收从服务器发送的预设模型，以及对预设模型进行训练，得到本地参数数据，本地参数数据为在对预设模型进行训练的过程中生成的参数数据；将本地参数数据发送至服务器；接收服务器发送的更新参数数据，更新参数数据用于对预设模型进行迭代训练；根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型；基于目标预测模型对用户进行意图预测得到意图预测结果。

第三方面，本申请一些实施例提供一种数据处理方法，应用于数据处理系统，数据处理系统包括服务器和多个计算机设备，服务器与多个计算机设备与建立网络通信，其中，服务器用于上述第一方面提供的方法，计算机设备用于执行上述第二方面提供的方法。

第四方面，本申请一些实施例提供一种服务器，该服务器与多个计算机设备建立网络通信，服务器包括：模型分发模块，用于将预设模型分发至每个计算机设备，计算机设备基于训练完成后的预设模型对用户进行意图预测；本地参数接收模型，用于接收每个计算机设备发送的本地参数数据，本地参数数据为计算机设备在对预设模型进行训练的过程中生成的参数数据；参数确定模块，用于根据参数奖惩规则确定每个本地参数数据对应的更新参数数据；更新参数发送模块，用于将每个更新参数数据发送至对应的计算机设备，更新参数数据用于计算机设备对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型。

第五方面，本申请一些实施例提供一种计算机设备，该计算机设备与服务器建立网络通信，计算机设备包括：模型接收模块，用于接收从服务器发送的预设模型，以及对预设模型进行训练，得到本地参数数据，本地参数数据为在对预设模型进行训练的过程中生成的参数数据；本地参数发送模块，用于将本地参数数据发送至服务器；更新参数接收模块，用于接收服务器发送的更新参数数据，更新参数数据用于对预设模型进行迭代训练；模型更新模块，用于根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型；投诉预测模块，用于基于目标预测模型对用户进行意图预测得到意图预测结果。

第六方面，本申请一些实施例提供一种数据处理系统，该数据处理系统包括服务器和多个计算机设备，服务器与多个计算机设备与建立网络通信，其中，服务器包括上述第四方面中的所有模块，计算机设备包括第五方面中的所有模块。

第七方面，本申请一些实施例还提供一种计算机设备，包括处理器以及存储器，存储器存储有计算机程序指令，计算机程序指令被处理器调用时执行上述的数据处理方法。

第八方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的数据处理方法。

第九方面，本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行上述的数据处理方法的步骤。

本申请提供的一种数据处理方法，服务器将预设模型分发至每个计算机设备，计算机设备接收从服务器发送的预设模型，以及对预设模型进行训练得到本地参数数据。进而计算机设备将本地参数数据发送至服务器，服务器根据参数奖惩规则确定每个本地参数数据对应的更新参数数据，并将每个更新参数数据发送至对应的计算机设备，计算机设备根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件得到目标预测模型，进而基于目标预测模型对用户进行意图预测得到意图预测结果。由此，计算机设备之间在不需要直接共享数据的前提下，利用自身数据对意图预测模型进行训练，并将训练得到的模型参数上传至服务器，进而由服务器对所有的模型参数进行融合并返回给各个参与方用于模型更新的参数。从而各个参与方根据融合后的模型参数对自身参数进行更新，避免了各计算机设备直接共享数据，在保障数据隐私安全的同时，获取预测性能更具有优越的意图预测模型，提高了企业对用户意图预测的准确率以及模型的泛化能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种数据处理方法的环境架构图。

图2示出了本申请实施例提供的一种数据处理方法的流程示意图。

图3示出了本申请实施例提供的一种数据处理方法的功能架构图。

图4示出了本申请实施例提供的另一种数据处理方法的流程示意图。

图5示出了图4的确定更新参数数据的步骤的一种流程示意图。

图6示出了本申请实施例提供的又一种数据处理方法的流程示意图。

图7示出了图6的对预设模型进行训练的步骤的一种流程示意图。

图8示出了本申请实施例提供的一种用户画像数据的示意图。

图9示出了本申请实施例提供的一种用户基础数据的示意图。

图10示出了本申请实施例提供的一种数据处理装置的模块框图。

图11示出了本申请实施例提供的另一种数据处理装置的模块框图。

图12是本申请实施例提供的一种计算机设备的模块框图。

图13是本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

用户投诉管理是改善企业与用户的关系、提升用户体验借以提升客户满意度的重要举措。现今许多投诉预测方案都引入大数据挖掘技术，采用大数据建模的思路建立投诉预测系统，例如，消费金融公司通过意图预测模型能够识别用户监管投诉倾向，以供服务部门采取应对策略，降低投诉量。

由于绝大多数企业都存在数据量少，数据质量差的问题，从而不足以支撑利用人工智能技术来实现准确地预测用户投诉，同时国内外监管环境也在逐步加强数据保护，每个公司自己内部的相关数据都仅存在本公司，从而导致数据孤岛的情况，由此，每家公司都只能局限于自身数据进行建模，仅能预测一小部分的高投诉人群，对投诉预测的准确度和模型泛化能力有较大影响。

为了解决上述问题，发明人经过长期研究，提出了本申请实施例提供的数据处理方法，服务器将预设模型分发至每个计算机设备，计算机设备接收从服务器发送的预设模型，以及对预设模型进行训练得到本地参数数据。进而计算机设备将本地参数数据发送至服务器，服务器根据参数奖惩规则确定每个本地参数数据对应的更新参数数据，并将每个更新参数数据发送至对应的计算机设备，计算机设备根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件得到目标预测模型，进而基于目标预测模型对用户进行意图预测得到意图预测结果。如此，每个计算机设备可以单独利用各自本地存储的训练数据进行模型训练，并根据服务器分发的模型的更新参数数据进行模型的更新，从而使得每个计算机设备具有模型架构相同的模型，有效解决数据孤岛问题，让参与方在不直接共享数据的基础上联合建模，提高模型对投诉预测的准确度和泛化能力。

下面先对本申请所涉及到的数据处理方法的环境架构图进行介绍。

如图1所示，在一些实施例中，本申请实施例提供的数据处理方法可以应用在图1所示的数据处理系统400中，数据处理系统400包括服务器401、多个计算机设备402。例如，计算机设备402a、计算机设备402b、计算机设备402c、计算机设备402e及计算机设备402f。服务器401可以为云服务器，服务器401可以通过互联网分别与多个计算机设备建立网络连接。其中，计算机设备402指的是用于参与方进行模型训练的终端设备，参与方指的是与服务器所在方建立合作关系以提供数据集和训练模型的参与者，例如，参与联合训练模型的多家消费金融公司。服务器401指的是用于聚合各个参与方提供的参数数据的聚合方，服务器可以对获取的所有计算机设备402的参数数据进行聚合，利用聚合后的参数数据对模型进行更新，从而得到新的参数数据。

在一些实施例中，参与方的计算机设备402可以通过超文本传输协议(Hyper TextTransfer Protocol，HTTP)从服务器401下载预设模型，每个计算机设备402可以利用本地训练数据对从服务器401下载的模型进行训练得到新的模型参数，并将新的模型参数和训练日志通过HTTP上传给服务器401。从而，服务器401聚合各个参与方的计算机设备402上传的模型参数以更新模型参数，并将更新后的模型参数返回给参与方的计算机设备402。

进一步地，各个参与方的计算机设备402在接收到服务器401发送的更新后的模型参数时，对各自的模型进行更新，直至模型训练完成。从而各个参与方可以采用训练完成后得到的预测模型对本企业的用户进行投诉预测，并根据预测模型的预测结果判断投诉用户的类型，以便客户服务部门采用相应的策略对该类型的投诉用户进行针对性地服务和业务限制。

下面将结合附图具体描述本申请中的各实施例。

请参阅图2，图2示出了本申请实施例提供的一种数据处理方法，该方法可以应用于数据处理系统，该数据处理系统可以包括服务器和多个计算机设备，服务器可以与多个计算机设备与建立网络通信，该数据处理方法可以包括步骤S110至步骤S140。

步骤S110：服务器将预设模型分发至每个计算机设备。

通常利用深度学习(Deep Learning)/机器学习(Machine Learning)在构建神经网络模型时需要获取大量的训练数据，而在实际的应用场景中，因为商业机密以及信息安全等问题的存在，训练数据的获取比较困难，从而训练数据的质量和数据量的不足会对神经网络模型处理目标任务造成影响。

例如，消费金融企业间一般不会共享公司数据，从而在每家公司都只能局限于自身数据进行意图预测模型的建模，只能为一小部分具有高投诉意图的人群提供投诉处理。为此，本申请实施例通过将提供训练数据的参与方(协作用户)与聚合方(预测模型的学习平台)进行联合，实现两者传输模型训练过程中的参数时不会泄漏参与方样本原始特征数据的问题。

预设模型指的是针对不同业务场景，聚合方预先设置的神经网络模型，该神经网络模型在初始化参数后可以由服务器下发至每个计算机设备进行训练。例如，聚合方可以预先设置消费金融行业用于预测投诉用户的预测模型，该预测模型可利用XGBoost模型。对于一个给定的有n个样本和m个特征的训练集D＝(x_i，y_i)，|D|＝n，x_i∈R^m，y_i∈R，该模型可以表示为：

其中，

(q:R→T，w∈R^T)}为决策树的空间，q_(x)表示将x映射到对应的叶节点中,T是树中叶子节点的个数，每个f_k对应于一个独立的树结构q和叶子权重w，w实则为一个向量[w₁，w₂，…，w_T]，该向量中的每个维度的值表示一个树节点的标签。

为训练集中第i个样本对应的预测结果，x_i为训练集中第i个样本的特征向量，k为累加数。

作为一种实施方式，服务器通过HTTP在与各个参与方的计算机设备建立通信连接后，可以将预设模型分别发送至各个参与方的计算机设备，从而各个计算机设备对预设模型进行训练，得到并返回本地参数数据，从而各个参与方之间在不需要直接共享数据的前提下，能够独立进行模型训练，在保障自身的数据隐私安全。例如，服务器向各个计算机设备发送XGBoost模型中的相关初始化的参数值，该初始化的参数值可以包括决策树的深度max_depth，树的棵数num_boost_round，学习率learning_rate，正则化项，以及服务器与计算机设备间传参的公钥等。

步骤S120：计算机设备接收从服务器发送的预设模型，以及对预设模型进行训练，得到本地参数数据。

在申请实施例中，本地参数数据指的是参与方在训练模型过程中得到的中间参数，例如，在预测模型训练过程中利用随机梯度下降(Stochastic Gradient Descent，SGD)对损失函数进行优化时得到的梯度。

作为一种实施方式，各个参与方的计算机设备在接收从服务器发送来的预设模型后，可以利用各自的训练数据对预设模型进行训练。具体的，计算机设备可以对获取的训练数据进行预处理包括数据清洗和向量化处理。进一步地，计算机设备可以基于预处理后的训练数据对预设模型进行训练得到本地参数数据。

例如，参与方的计算机设备可以从服务器获取意图预测模型(XGBoost模型)后，可以对该意图预测模型进行训练也即最小化损失函数，其中损失函数可以表示为：

其中，ω(f_k)为正则化项，防止过拟合，γ和ρ为调参的对象。训练过程中当新引入的一次分裂所带来的增益Gain<0时，或者当决策树达到最大深度时，停止模型训练。可选地，计算机设备对预设模型的训练可以利用基于精确贪婪算法的分裂查找(Exact GreedyAlgorithm for Split Finding)。

示例性地，XGBoost模型的训练过程可以包括：计算机设备可以结合训练集中样本数据的数据特征从根节点开始(Top-down greedy)构建第一棵决策树，通过计算每个样本数据的数据特征的信息增益Gain，并加密传送至服务器，以使得参数服务器基于各参与方提供的信息增益Gain选择最大增益作为特征分裂点，并出将该特征分裂点传送至计算机设备。

进一步地，计算机设备把可以将样本数据分为左子节点和右子节点两个集合，需要说明的是，每次得到叶子结点的值后需要乘以学习率来进行特征缩减(Shrinkage)以减少过拟合的风险。进而计算机设备根据特征分裂点对左右子节点两个集合进行分裂，分裂时将此时的结点作为根节点。

进一步地，计算机设备重复上述分裂步骤得到第一棵决策树的结构，并且每一次特征分裂点的选取都需要加密传送至服务器，由服务器基于加权平均计算平均分裂点，并将平均分裂点下发至各计算机设备。进一步地，基于第一棵决策树构建第二棵决策树，并重复上述过程至所有的决策树构建完成，训练结束。

步骤S130：计算机设备将本地参数数据发送至服务器。

作为一种实施方式，每个参与方的计算机设备在对预设模型训练后，可以将训练过程得到的本地参数数据发送给服务器。例如，参与方的计算机设备对意图预测模型(XGBoost模型)训练后，得到优化损失函数的梯度参数，进而将该梯度参数作为本地参数数据发送至服务器。

步骤S140：服务器接收每个计算机设备发送的本地参数数据，并根据参数奖惩规则确定每个本地参数数据对应的更新参数数据。

考虑到各个参与方参与模型学习时，不可避免地消耗自身设备的资源，包括计算资源、通信资源和能源等。所以在没有足够回报的情况下，参与方可能不愿意参与或分享模型训练得到本地参数数据。为此，本申请实施例提供了一种参数奖罚规则用于激励参与方更积极的参与到整个模型训练的过程中，进而提升模型预测用户投诉的准确率。

其中，参数奖罚规则可以作为一种激励机制用于服务器根据贡献度为每个计算机设备对应地分发用于更新模型的参数数据，例如，基于根据贡献度调整下发的梯度参数。贡献度用于评估每个参与方参对整个模型训练的付出程度，其计算方式可由聚合方根据参与方数据进行设置，参与方数据可包括训练集的数据质量，数据量，以及参与方(协作用户)与聚合方(学习平台)的合作强度等，在此不做限定。

作为一种实施方式，服务器可以在接收每个计算机设备发送的本地参数数据后，获取该计算机设备数据，例如，模型训练的训练日志，进而从训练日志获取训练集的数据量。进一步地，服务器可以基于目标计算机设备训练集的数据量占所有计算机设备的训练集的数据量计算出目标计算机设备对应的贡献度。并根据本地参数数据和贡献度，确定每一计算机设备对应的更新参数数据。其中，更新参数数据指的是服务器根据某一计算机设备的贡献度返回给该计算机设备用于模型更新的参数。

作为一种实施方式，服务器在获取到每个计算机设备贡献度和本地参数数据后，可以对所有的本地参数数据进行聚合，并基于贡献度对聚合后得到的参数数据进行计算，从而得到每个计算机设备对应的更新参数数据。

例如，在预测用户是否为监管投诉类型用户的应用场景中，有三个参与方分别包括参与方a、参与方b以及参与方c，且各参与方的贡献度分别为0.5、0.27、0.23，各参与方将自身模型训练的梯度参数发送至服务器时，服务器可以将三个梯度参数进行聚合，得到聚合后的梯度参数α，进一步地，服务器可以利用各参与方的贡献度对聚合后的梯度参数α进行计算，分别得到各参与方的更新参数数据也即更新梯度参数β，参与方a：β_a＝0.5α，参与方b：β_b＝0.27α，参与方c：β_c＝0.23α。

步骤S150：服务器将每个更新参数数据发送至对应的计算机设备。

步骤S160：计算机设备接收服务器发送的更新参数数据，并根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型。

其中，目标预测模型指的是计算机设备经过多次基于更新参数数据对预设模型的更新，最终得到的用于预测投诉用户任务的模型。例如，消费金融公司用于预测投诉用户的神经网络模型。

作为一种实施方式，服务器计算出每一计算机设备对应的更新参数数据后，可以将该更新参数数据发送给对应的计算机设备，从而该计算机设备可以根据对应的更新参数数据对预设模型进行更新训练，直至得到目标预测模型。

步骤S170：计算机设备基于目标预测模型对用户进行意图预测得到意图预测结果。

作为一种实施方式，计算机设备在训练得到目标预测模型后，在获取用户数据后，可以基于用户数据利用该目标预测模型对用户投诉意图进行预测，进而可以得出该用户投诉的意图等级。可选地，利用集成模型的形式来提高模型的预测准确性，例如，将不投诉样本随机分为20份，然后每一份与投诉样本组成训练集用于训练模型，由此训练20个意图预测模型，然后采用所有模型预测意图的概率的平均值作为最终的预测意图的概率，并根据预测意图的概率划分投诉的意图等级，请参阅表1，表1示出了意图等级的划分详细：

表1

可选地，计算机设备可以根据预测出的用户投诉的意图等级为不同意图等级的用户指定针对性的服务策略，从而根据不同的服务策略准确高效地为预测出的投诉用户提供服务，该服务方式可以分为主动服务和被动服务。其中，被动服务指的是客户通过热线主动拨打电话进行投诉/咨询时提供的服务。主动服务指的是主动拨打客户电话对客户业务提供的服务。

例如，当客户主动拨打电话进行服务咨询时，客户关系管理(CustomerRelationship Management，CRM)系统可以根据意图预测模型的预测结果，辅助坐席采用对应的服务策略对其服务如：对高风险投诉客户实施安抚策略。此外，可以从CRM系统中获取高风险投诉客户，主动拨打电话为其提供服务，降低该客户的投诉意向。

示例性地，如图3所示，图3示出了本申请实施例提供的一种数据处理方法的功能框架图。在一些实施例中，聚合方的服务器可以同多个参与方的计算机设备建立网络通信连接，进而服务器可以将预设模型发送给每个计算机设备，各个参与方的计算机设备从数据库中获取自身的训练集，并基于训练集对预设模型进行训练得到梯度参数，其中，每个参与方的数据库中都存储有用户的历史通话数据和用户画像，进而将梯度参数θ传送至服务器。

进一步地，由服务器对所有梯度参数进行聚合之后，再根据各个计算机设备的贡献值计算出各个计算机设备对应的更新参数数据，也即用于更新预设模型的更新梯度参数β，其中，贡献值的计算由激励模块完成。参与方的计算机设备在获取更新梯度参数β时，可根据更新梯度参数β进行预设模型的更新，直至得到目标预测模型。

考虑到在模型实际的训练过程中会面临频繁访问修改模型参数需要消耗的巨大带宽，以及如何提高并行度减少同步等待造成的延迟等问题。可选地，可以利用参数服务器(Parameter Server)架构来进行模型的训练，其中，PS架构包括计算资源与机器学习算法两个部分。其中计算资源包括参数服务器节点和工作节点，参数服务器节点可以用来存储模型参数，工作节点可以用于用户意图预测模型的训练。

本申请实施例中，服务器将预设模型分发至每个计算机设备，计算机设备接收从服务器发送的预设模型，并对预设模型进行训练，得到本地参数数据。进而计算机设备将本地参数数据发送至服务器，服务器接收每个计算机设备发送的本地参数数据，并确定出每个计算机设备的本地参数数据对应的更新参数数据，并将每个更新参数数据发送至对应的计算机设备。从而激励参与方更积极的参与到整个模型训练的过程中，进而提升模型预测效果。

进一步地，计算机设备接收服务器发送的更新参数数据，并根据更新参数数据对预设模型进行更新，直至得到目标预测模型，并基于目标预测模型对用户进行投诉预测得到投诉预测结果。由此，参与方之间在不需要直接共享数据的前提下，各个参与方根据服务融合后的模型参数对自身参数进行更新，在保障数据隐私安全的同时，提高了意图预测模型的性能，增强了企业对投诉用户预测的准确率，降低了用户投诉的频率。

如图4所示，图4示意性地示出本申请实施例提供的另一种数据处理方法，该方法可以应用于服务器，服务器可以与多个计算机设备建立网络通信，该数据处理方法可以包括步骤S210至步骤S250。

步骤S210：将预设模型分发至每个计算机设备。

步骤S220：接收每个计算机设备发送的本地参数数据。

在本实施例中，步骤S210以及步骤S220的具体实施，可以分别参考上文实施例所提供的步骤S110以及步骤S120的阐述，此处不再一一赘述。

步骤S230：根据参数奖罚规则确定每个计算机设备参与模型训练的贡献度。

为了提高各个参与方参与模型训练的积极性和公平性，在本申请实施例中设定了参数奖罚规则，通过参数奖罚规则计算出每个计算机设备对应的贡献度，并根据该贡献度为每个计算机设备针对性地分配更新参数数据，从而对贡献度较高的参与方进行奖励，对贡献度较低的参与方进行惩罚，由此保障参与方参与模型训练的公平性，增强参与训练的积极性。

在一些实施例中，服务器可以根据获取的计算机设备参与模型训练的训练数据的数据量、数据质量，或者计算机设备对应的协作用户(参与方)与服务器对应的学习平台(聚合方)之间的合作强度来计算出每个计算机设备的对应的贡献度，其中，数据质量可以基于模型参数的沙普利值(Shapley Value)和信息增益计算得出。

作为一种实施方式，服务器获取每个计算机设备的训练日志，并根据每个训练日志确定每个计算机设备参与模型训练的数据集的数据量，进而基于每个计算设备对应的数据量对每个计算机设备进行贡献度计算，得到每个计算机设备参与模型训练的贡献度。

作为另一种实施方式，服务器可以获取每一计算机设备的合作系数，该合作系数用于表征计算机设备对应的参与方与服务器的合作强度，进而基于合作系数对计算机设备进行贡献度计算，得到计算机设备参与模型训练的贡献度。

步骤S240：根据所有计算机设备的本地参数数据和每个计算机的贡献度，确定每个计算机设备对应的更新参数数据。

在本申请实施例中，每个计算机设备对应的更新参数数据可以由所有的本地参数数据和贡献度计算得出。具体地，请参阅图5，步骤S240可以包括步骤S241和步骤S242。

步骤S241：对所有计算机设备的本地参数数据进行参数聚合得到全局参数数据。

作为一种实施方式，服务器在接收各个计算机设备发送来的本地参数数据后，可以对所有的本地参数数据进行聚合得到全局参数数据，其中，全局参数数据可以包含聚合后的梯度参数。

例如，服务器接收到n个计算机设备发送的梯度参数[g₁，g₂，……，g_n]，服务器可以通过聚合计算得到全局参数数据也即全局梯度参数

此外，也可以根据全局梯度参数

更新模型参数

(

为学习率)，将更新后的模型参数w作为全局参数数据。需要说明的是，为了减小通信代价的同时，更好地保护好整个梯度信息，可以优先选择全局梯度参数作为全局参数数据。

步骤S242：根据全局参数数据和每个计算机设备的贡献度，确定每个计算机设备对应的更新参数数据。

作为一种实施方式，服务器在获取全局参数数据后，可以根据全局参数数据与每个计算机设备的贡献度计算出每个计算机设备对应的更新参数数据。例如，将全局梯度参数

乘以各个计算机设备对应的贡献度，或者将更新后的模型参数w乘以各个计算机设备对应的贡献度。

例如，参与方a的贡献度是参与方b的贡献度的一半，则服务器在聚合梯度参数后将得到的全局梯度参数分发给两者时，会根据两者的贡献度，给参与方a的更新梯度参数为给参与方b的更新梯度参数的一半。

步骤S250：将每个更新参数数据发送至对应的计算机设备。

在本实施例中，步骤S250的具体实施，可以分别参考上文实施例所提供的步骤S160的阐述，此处不再赘述。

本申请实施例中，服务器步骤将预设模型分发至每个计算机设备，以使得每个计算机设备对预设模型进行训练，得到并返回本地参数数据，进而接收每个计算机设备发送的本地参数数据，并根据参数奖罚规则对每个计算机设备进行贡献度计算，得到每个计算机设备参与模型训练的贡献度，进一步地，根据本地参数数据和贡献度，确定每个计算机设备对应的更新参数数据，并将每个更新参数数据发送至对应的计算机设备，以使得每个计算机设备根据对应的更新参数数据更新预设模型，直至得到目标预测模型。从而为多个参与方提供一个公平的模型学习环境，激发足够多的参与方参与模型学习，进而提升模型预测效果。

如图6所示，图6示意性地示出本申请实施例提供的又一种数据处理方法，应用于计算机设备，该计算机设备可以与服务器建立网络通信，该数据处理方法可以包括步骤S310至步骤S350。

步骤S310：接收从服务器发送的预设模型，以及对预设模型进行训练，得到本地参数数据。

在一些实施例中，聚合方发送建模任务寻求参与方，参与方根据自身需求，提出联合建模设想。在与其他参与方达成协议后，联合建模设想被确立，各参与方进入联合建模过程，由聚合方的服务器向各参与方的计算机设备发送初始参数也即预设模型。进一步地，各个计算机设备接收从服务器发送的预设模型，并对该预设模型进行训练，得到本地参数数据。具体地，请参阅图7，步骤S310可以包括步骤S310至步骤S323。

步骤S311：获取用于训练预设模型的数据集。

考虑到在消费金融行业进行预测投诉用户的应用场景中，仅依靠用户基础数据和催收数据可实现投诉预测效果，但缺失了客户与催收人员交流过程中的通话特征，该特征往往能更加直观的体现用户的情绪状况，对催收的满意程度。

因此将催收通话语音转为文本，并对文本进行特征提取，能够有效提高预测投诉用户的准确率。基于表2所示特征抽取方法，可以将用户最近至少五通的通话数据作为原始数据来提取历史通话数据特征。

表2

其中，用户画像数据为每个用户的多个具体信息抽象而成的标签组合，利用这些标签可以将用户形象具体化，从而为用户提供有针对性的服务。请参阅图8，图8示出了部分用户画像数据。用户基础数据包含了用户的基础的信息，包括客户号、姓名、收入等涉及个人身份和基础业务的数据。请参阅图9，图9示出了部分用户基础数据。

可选地，用户画像数据可以包括152个维度，用户基础数据包括86个维度，历史通话数据特征可以包括11个维度。作为一种实施方式，计算机设备可以从数据库中获取用于训练预设模型的用户画像数据、用户基础数据以及催收数据作为数据集。

步骤S312：对数据集进行量化处理得到用于训练预设模型的训练集。

神经网络的训练通常需要大量的数据，而大量的数据意味着计算机设备需要有强大的计算能力。为了减少神经网络的训练时间，可以对训练数据进行向量化。作为一种实施方式，计算机设备可以根据不同的数据类型，对训练数据进行向量化，得到包括所有特征的特征向量。

例如，对于用户所处的省份，计算机设备可以利用不同的数字信息代表不同的省份、社会身份等。代码举例：

具体地，不同数据可以利用不同数字表示，在此不做限定。直至最终所有维度的数据都有数字表示完，例如，得到第i个样本的特征向量x_i＝[μ₁，μ₂，…，μ_m]，m＝249，μ_m表示第m个特征值。需要说明的是，除了数据特征的向量化，本申请实施例还为训练数据的每个样本数据进行标签化，例如，包括内部监管投诉样本(标签为0)和外部监管投诉样本(标签为1)。可选地，选取某个时间段内的内部监管投诉样本(标签为0)和外部监管投诉样本(标签为1)进而生成训练数据的特征向量作为训练集用于对模型进行训练。

作为一种实施方式，计算机设备在获取训练集后可以基于训练集对预设模型进行训练。可选地，数据集可以包括至少共计200万条数据，并按照7:3的分配比例对预设模型进行训练和测试。将选取的训练集输入到XGBoost模型进行训练。

需要说明的是，由于内部监管投诉和外部监管投诉样本比例相差很大，因此需要对数据进行样本均衡处理，从而控制样本平衡，加快模型迭代。可选地，按照不投诉样本和外部监管投诉样本实际的比例来对XGBoost模型的scale_pos_weight参数进行设置，例如，实际比例为20：1。

步骤S320：将本地参数数据发送至服务器。

步骤S330：接收服务器发送的更新参数数据。

步骤S340：根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型。

步骤S350：基于目标预测模型对用户进行意图预测得到意图预测结果。

在本实施例中，步骤S320至步骤S350的具体实施，可以分别参考上文实施例所提供的步骤S130以及步骤S180的阐述，此处不再一一赘述。

本申请实施例中，计算机设备可以获取用于训练预设模型的数据集，并对数据集进行量化处理得到用于训练预设模型的训练集，进而基于训练集对预设模型进行训练得到本地参数数据，进一步地，将本地参数数据发送至服务器，并接收服务器发送的更新参数数据，进而根据更新参数数据对预设模型进行更新，直至得到目标预测模型，并基于目标预测模型对用户进行投诉预测得到投诉预测结果。由此，利用多种数据特征进行模型的训练，进而解决了从通话记录提取信息维度不够的问题，提高模型预测投诉用户的准确性。

请参阅图10，其示出了本申请实施例提供的一种数据处理装置500的结构框图。该数据处理装置500应用于服务器，服务器与多个计算机设备建立网络通信，该装置包括：模型分发模块510，用于将预设模型分发至每一计算机设备，以使得每一计算机设备对预设模型进行训练，得到并返回本地参数数据；本地参数接收模型520，用于接收每一计算机设备发送的本地参数数据；参数确定模块530，用于根据参数奖惩规则，确定每一本地参数数据对应的更新参数数据；更新参数发送模块540，用于将每一更新参数数据发送至对应的计算机设备，以使得每一计算机设备根据对应的更新参数数据更新预设模型，直至得到目标预测模型。

在一些实施例中，参数确定模块530可以具体包括计算单元和确定单元。计算单元，用于根据参数奖罚规则确定每个计算机设备参与模型训练的贡献度；确定单元，用于根据所有计算机设备的本地参数数据和每个计算机的贡献度，确定每个计算机设备对应的更新参数数据。

在一些实施例中，计算单元可以具体用于：获取每个计算机设备的训练日志；根据每个训练日志确定每个计算机设备参与模型训练的数据集的数据量；基于每个计算设备对应的数据量对每个计算机设备进行贡献度计算，得到每个计算机设备参与模型训练的贡献度。

在一些实施例中，确定单元可以具体用于：对所有计算机设备的本地参数数据进行参数聚合得到全局参数数据；根据全局参数数据和每个计算机设备的贡献度，确定每个计算机设备对应的更新参数数据。

在一些实施例中，计算单元还可以具体用于：获取每个计算机设备的合作系数，合作系数用于表征计算机设备对应的协作用户与服务器对应的学习平台之间的合作强度；基于每个计算机设备的合作系数对每个计算机设备进行贡献度计算，得到每个计算机设备参与模型训练的贡献度。

请参阅图11，其示出了本申请实施例提供的一种数据处理装置600的结构框图。该数据处理装置600应用于计算机设备，计算机设备与服务器建立网络通信，该装置包括：模型接收模块610，用于接收从服务器发送的预设模型，并对预设模型进行训练，得到本地参数数据；本地参数发送模块620，用于将本地参数数据发送至服务器；更新参数接收模块630，用于接收服务器发送的更新参数数据；模型更新模块640，用于根据更新参数数据对预设模型进行更新，直至得到目标预测模型；投诉预测模块650，用于基于目标预测模型对用户进行投诉预测得到投诉预测结果。

在一些实施例中，模型接收模块610可以具体用于获取用于训练预设模型的数据集，数据集包括用户画像数据、用户基础数据以及催收数据；对数据集进行量化处理得到用于训练预设模型的训练集，训练集用于计算机设备对预设模型进行训练。

在一些实施例中，意图预测结果包括预测意图的概率，数据处理装置600还可以具体用于根据预测意图的概率确定用户的意图等级；根据意图等级确定并执行对应的意图处理操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例还提供了一种数据处理系统，该数据处理系统包括服务器和多个计算机设备，服务器与多个计算机设备与建立网络通信，该系统包括：

服务器将预设模型分发至每个计算机设备，计算机设备基于训练完成后的预设模型对用户进行意图预测；并接收每个计算机设备发送的本地参数数据，本地参数数据为计算机设备在对预设模型进行训练的过程中生成的参数数据。

服务器根据参数奖惩规则确定每个本地参数数据对应的更新参数数据；并将每个更新参数数据发送至对应的计算机设备，更新参数数据用于计算机设备对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型。

计算机设备接收从服务器发送的预设模型，以及对预设模型进行训练，得到本地参数数据，本地参数数据为在对预设模型进行训练的过程中生成的参数数据；并将本地参数数据发送至服务器。

计算机设备接收服务器发送的更新参数数据，更新参数数据用于对预设模型进行迭代训练；并根据更新参数数据对预设模型进行迭代训练，直至预设模型满足预设条件，得到目标预测模型；基于目标预测模型对用户进行意图预测得到意图预测结果。

如图12所示，本申请实施例还提供一种计算机设备700，该计算机设备700包括处理器710、存储器720，存储器720存储有计算机程序指令，计算机程序指令被处理器710调用时实执行上述的数据处理方法。

处理器710可以包括一个或者多个处理核。处理器710利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器720内的指令、程序、代码集或指令集，以及调用存储在存储器720内的数据，执行电池管理系统的各种功能和处理数据。可选地，处理器710可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器710可集成中央处理器710(Central Processing Unit，CPU)、图像处理器710(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器710中，单独通过一块通信芯片进行实现。

存储器720可以包括随机存储器720(Random Access Memory，RAM)，也可以包括只读存储器720(Read-Only Memory)。存储器720图可用于存储指令、程序、代码、代码集或指令集。存储器720图可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备图在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

如图13所示，本申请实施例还提供一种计算机可读存储介质800，该计算机可读存储介质800中存储有计算机程序指令810，计算机程序指令810可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种数据处理方法，其特征在于，应用于服务器，所述服务器与多个计算机设备通信连接，所述方法包括：

将预设模型分发至每个所述计算机设备，所述计算机设备基于训练完成后的预设模型对用户进行意图预测；

接收每个所述计算机设备发送的本地参数数据，所述本地参数数据为所述计算机设备在对所述预设模型进行训练的过程中生成的参数数据；

根据参数奖惩规则确定每个本地参数数据对应的更新参数数据；

将每个所述更新参数数据发送至对应的计算机设备，所述更新参数数据用于所述计算机设备对所述预设模型进行迭代训练，直至所述预设模型满足预设条件，得到目标预测模型。

2.根据权利要求1所述的方法，其特征在于，所述根据参数奖惩规则确定每个本地参数数据对应的更新参数数据，包括：

根据参数奖罚规则确定每个所述计算机设备参与模型训练的贡献度；

根据所有所述计算机设备的本地参数数据和每个所述计算机的贡献度，确定每个所述计算机设备对应的更新参数数据。

3.根据权利要求2所述的方法，其特征在于，所述根据参数奖罚规则确定每个所述计算机设备参与模型训练的贡献度，包括：

获取每个所述计算机设备的训练日志；

根据每个所述训练日志确定每个所述计算机设备参与模型训练的数据集的数据量；

基于每个所述计算设备对应的数据量对每个所述计算机设备进行贡献度计算，得到每个所述计算机设备参与模型训练的贡献度。

4.根据权利要求3所述的方法，其特征在于，所述根据所有所述计算机设备的本地参数数据和每个所述计算机的贡献度，确定每个所述计算机设备对应的更新参数数据，包括：

对所有所述计算机设备的本地参数数据进行参数聚合得到全局参数数据；

根据所述全局参数数据和每个所述计算机设备的贡献度，确定每个所述计算机设备对应的更新参数数据。

5.根据权利要求2所述的方法，其特征在于，所述根据参数奖罚规则确定每个所述计算机设备参与模型训练的贡献度，包括：

获取每个所述计算机设备的合作系数，所述合作系数用于表征所述计算机设备对应的协作用户与所述服务器对应的学习平台之间的合作强度；

基于每个所述计算机设备的合作系数对每个所述计算机设备进行贡献度计算，得到每个所述计算机设备参与模型训练的贡献度。

6.一种数据处理方法，其特征在于，应用于计算机设备，所述计算机设备与服务器通信连接，所述方法包括：

接收从所述服务器发送的预设模型，以及对所述预设模型进行训练，得到本地参数数据，所述本地参数数据为在对所述预设模型进行训练的过程中生成的参数数据；

将所述本地参数数据发送至所述服务器；

接收所述服务器发送的更新参数数据，所述更新参数数据用于对所述预设模型进行迭代训练；

根据所述更新参数数据对所述预设模型进行迭代训练，直至所述预设模型满足预设条件，得到目标预测模型；

基于所述目标预测模型对用户进行意图预测得到意图预测结果。

7.根据权利要求6所述的方法，其特征在于，所述接收从所述服务器发送的预设模型，以及对所述预设模型进行训练，得到本地参数数据之前，所述方法还包括包括：

获取用于训练所述预设模型的数据集，所述数据集包括用户画像数据、用户基础数据以及催收数据；

对所述数据集进行量化处理得到用于训练所述预设模型的训练集，所述训练集用于所述计算机设备对所述预设模型进行训练。

8.根据权利要求6所述的方法，其特征在于，所述意图预测结果包括预测意图的概率，在所述基于所述目标预测模型对用户进行意图预测得到意图预测结果之后，所述方法还包括：

根据所述预测意图的概率确定所述用户的意图等级；

根据所述意图等级确定并执行对应的意图处理操作。

9.一种数据处理方法，其特征在于，应用于数据处理系统，所述数据处理系统包括服务器和多个计算机设备，所述服务器与多个所述计算机设备与建立网络通信，其中，所述服务器用于执行权利要求1～5任一项所述的方法，所述计算机设备用于执行权利要求6～8任一项所述的方法。

10.一种服务器，其特征在于，所述服务器与多个计算机设备建立网络通信，所述服务器包括：

模型分发模块，用于将预设模型分发至每个所述计算机设备，所述计算机设备基于训练完成后的预设模型对用户进行意图预测；

本地参数接收模型，用于接收每个所述计算机设备发送的本地参数数据，所述本地参数数据为所述计算机设备在对所述预设模型进行训练的过程中生成的参数数据；

参数确定模块，用于根据参数奖惩规则确定每个本地参数数据对应的更新参数数据；

更新参数发送模块，用于将每个所述更新参数数据发送至对应的计算机设备，所述更新参数数据用于所述计算机设备对所述预设模型进行迭代训练，直至所述预设模型满足预设条件，得到目标预测模型。

11.一种计算机设备，其特征在于，所述计算机设备与服务器建立网络通信，所述计算机设备包括：

模型接收模块，用于接收从所述服务器发送的预设模型，以及对所述预设模型进行训练，得到本地参数数据，所述本地参数数据为在对所述预设模型进行训练的过程中生成的参数数据；

本地参数发送模块，用于将所述本地参数数据发送至所述服务器；

更新参数接收模块，用于接收所述服务器发送的更新参数数据，所述更新参数数据用于对所述预设模型进行迭代训练；

模型更新模块，用于根据所述更新参数数据对所述预设模型进行迭代训练，直至所述预设模型满足预设条件，得到目标预测模型；

投诉预测模块，用于基于所述目标预测模型对用户进行意图预测得到意图预测结果。

12.一种数据处理系统，其特征在于，所述数据处理系统包括服务器和多个计算机设备，所述服务器与多个所述计算机设备与建立网络通信，其中，所述服务器包括权利要求10中的所有模块，所述计算机设备包括权利要求11中的所有模块。

13.一种计算机设备，其特征在于，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1～9任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1～9任一项所述的方法。

15.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行如权利要求1～9任一项所述的数据处理方法。