CN112182379B

CN112182379B - 数据处理方法、电子设备及介质

Info

Publication number: CN112182379B
Application number: CN202011041965.7A
Authority: CN
Inventors: 蔡文渊; 骆玮璐; 潘翔; 张坤坤
Original assignee: Shanghai Hipu Intelligent Information Technology Co ltd
Current assignee: Shanghai Hipu Intelligent Information Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-07-13
Anticipated expiration: 2040-09-28
Also published as: CN112182379A

Abstract

本发明涉及一种数据处理方法、电子设备及介质，方法包括：步骤S1、获取信息浏览数据；步骤S2、为数据处理模型设定模型参数的初始值；步骤S3、对信息浏览特征向量序列进行信息编码处理，得到呈现中间特征序列

步骤S4、对

进行解码处理，得到点击中间特征序列

基于S_i获取x_j对应的预测点击概率

基于

和实际点击概率z_j确定第一损失函数L^c；步骤S5、获取预测信息推送结果概率

和第二损失函数L^v；步骤S6、基于获取的测试集获取当前模型精度，若低于预设的精度阈值，则基于L^c和L^v调整所述模型参数，返回执行步骤S1，否则，执行步骤S7；步骤S7、获取当前模型对应的A₁、A₂，基于A₁和A₂确定每一通道对应的权重。本发明能够高效、准确地获取到不同通道对于推送结果数据的权重。

Description

数据处理方法、电子设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理方法、电子设备及介质。

背景技术

数据处理领域是计算机领域的重要分支。在计算机领域中，根据呈现方式，数据可以包括文本数据、图像数据、音频数据、视频数据等多种；根据存储方式，数据可以被存储到数据库、文本文件、特定格式文件(例如.doc/.xls)等；根据数据形成的方式，可以包括静态数据和动态数据，动态数据尤其是随时间变化的数据，例如通过路由器交换机等网络设备获取的信息推送数据、通过GPS或北斗等采集的设备LBS数据、等。数据处理可以为“正向处理”，例如利用某种算法处理图像，使之更清晰，也可以为“逆向处理”，例如在已知合成图像的清楚下，通过计算机程序分离合成图像所使用的多个原始图像。再如，在信息推送场景中，信息通常可以通过多种通道进行推送，选择目标通道对信息进行推送时，需要根据已有的信息推送结果数据逆向获取到不同通道对于推送结果数据的权重，基于每一通道对于推送结果数据的权重选择目标通道。

静态数据的“逆向处理”相对容易。动态数据之间也会存在关联关系，但因为动态数据多是随时间变化的数据，需要考虑时间维度对关联关系的影响，不仅会占用较多的计算机存储资源、检索资源、运算处理资源，而且处理精度也不够理想，随着智能化时代的到来，信息推送应用越来越广泛，因此，如何高效准确地通过数据的“逆向处理”，获取到不同通道对于推送结果数据的权重，成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种数据处理方法、电子设备及介质，能够高效、准确地获取到不同通道对于推送结果数据的权重。

根据本发明第一方面，提供了一种数据处理方法，包括：

步骤S1、从预设的数据库中获取n条信息浏览数据{G₁,G₂...G_n}组成训练集，

i＝1,2...n,G_i共有m_i个信息浏览特征向量，分别为

按照对应的时间戳顺序排列，构成信息浏览特征向量序列，X_j表示G_i的第j个信息浏览特征向量，j＝1,2,3...m_i,所述信息浏览特征向量X_j包括呈现特征向量x_j和实际点击概率z_j,y_i为G_i的实际信息推送结果概率；

步骤S2、为预设的数据处理模型设定模型参数的初始值，所述模型参数包括呈现权重向量矩阵A₁、点击权重向量A₂、呈现中间特征向量初始值h₀、点击中间特征向量初始值s₀，平衡系数λ，其中，通道呈现权重向量A₁的元素用于表示信息推送通道的呈现权重，通道点击权重向量A₂的元素用于表示信息推送通道的点击权重；

步骤S3、以

作为所述模型的输入，基于呈现中间特征向量初始值h₀对信息浏览特征向量序列

进行信息编码处理，得到呈现中间特征序列

步骤S4、基于点击中间特征向量初始值s₀对

进行解码处理，得到点击中间特征序列

基于S_i获取x_j对应的预测点击概率

基于所述n条信息浏览数据对应的所有的预测点击概率

和实际点击概率z_j确定第一损失函数L^c；

步骤S5、基于所述呈现中间特征序列H_i、通道呈现权重向量A₁、点击中间特征序列S_i、通道点击权重向量A₂确定G_i对应的预测信息推送结果概率

基于所述n条信息浏览数据的预测信息推送结果概率

和实际信息推送结果概率y_i确定第二损失函数L^v；

步骤S6、从预设的数据库获取q条信息浏览数据{Q₁,Q₂...Q_q}组成测试集，对当前数据处理模型进行测试，获取当前模型精度，若当前模型模型精度低于预设的精度阈值，则基于L^c和L^v调整所述模型参数，返回执行步骤S1，否则，执行步骤S7；

步骤S7、获取当前模型对应的通道呈现权重向量A₁、通道点击权重向量A₂，基于A₁和A₂确定每一通道对应的权重。

根据本发明第二方面，提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行本发明第一方面所述的方法。

根据本发明第三方面，提供一种计算机可读存储介质，所述计算机指令用于执行本发明第一方面所述的方法。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种数据处理方法、电子设备及介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明能够高效准确地通过数据的“逆向处理”，基于多条信息浏览数据获取到不同通道对于推送结果数据的权重。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供的数据处理方法示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种数据处理方法、电子设备及介质的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种数据处理方法，如图1所示，包括以下步骤：

步骤S1、从预设的数据库中获取n条信息浏览数据{G₁,G₂...G_n}作为训练集，

i＝1,2...n,G_i共有m_i个信息浏览特征向量，分别为

按照对应的时间戳顺序排列，构成信息浏览特征序列，X_j表示G_i的第j个信息浏览特征向量，j＝1,2,3...m_i,所述信息浏览特征向量X_j包括呈现特征向量x_j和实际点击概率z_j,y_i为G_i的实际信息推送结果概率；

其中，每个信息浏览特征向量中对应一个通道向量，所述通道是指用于推送信息的传输路径。呈现特征向量用于表示该信息通道向量所呈现的信息特征，点击概率用于表示该通道所呈现的信息特征被点击的概率，可以理解的是，实际点击概率为0或者1，该通道呈现的信息未被点击，实际概率为0，该通道呈现的信息被点击，实际概率为1。

步骤S2、为预设的数据处理模型设定模型参数的初始值，所述模型参数包括呈现权重向量矩阵A₁、点击权重向量A₂、呈现中间特征向量初始值h₀、点击中间特征向量初始值s₀，平衡系数λ₀，其中，通道呈现权重向量A₁的元素用于表示信息推送通道的呈现权重，通道点击权重向量A₂的元素用于表示信息推送通道的点击权重；

步骤S3、以

进行信息编码处理，得到呈现中间特征序列

可以理解的是，输入的所述信息浏览特征向量X_j包括呈现特征向量x_j和实际点击概率z_j,但在进行编码处理时，只需处理浏览特征向量序列

无需处理实际点击概率z_j，当进入步骤S4后，再基于实际点击概率z_j和预测点击概率

确定第一损失函数L^c。

步骤S4、基于点击中间特征向量初始值s₀对

进行解码处理，得到点击中间特征序列

基于S_i获取x_j对应的预测点击概率

基于所述n条信息浏览数据对应的所有的预测点击概率

和实际点击概率z_j确定第一损失函数L^c；

基于所述n条信息浏览数据的预测信息推送结果概率

和实际信息推送结果概率y_i确定第二损失函数L^v；

其中，呈现权重向量A₁的每一元素，分别代表

对应通道向量的呈现信息对于信息推送结果达到预设目标的重要程度；点击权重向量A₂的每一元素分别代表

对应通道向量的点击信息对于信息推送结果达到预设目标的重要程度。

这样可以避免仅通过测试集进行训练造成的对测试集的数据依赖过大，导致模型精确度低。可以理解的是，为了进一步提高模型训练精确度，还可将通过集检测判断当前模型精确度和通过损失函数判断当前模型精确度两种方式结合来判断。

作为上述实施例的变形，步骤S6可替换为、根据L^c和L^v判断是否需要调整所述模型参数，若需要，则基于L^c和L^v调整所述模型参数，返回执行步骤S1，否则，执行步骤S7；通过调整模型参数使得模型精确度符合预设需求，例如，通过调整呈现权重向量A₁、通道点击权重向量A₂拟合真实的信息浏览特征序列，最终获得贴近实际情况的呈现权重向量A₁、通道点击权重向量A₂。通过损失函数判断当前模型精确度以及调整模型参数，具有高可靠性，且处理效率很高。

从预设的数据库获取q条信息浏览数据{G₁,G₂...G_n}组成测试集，对当前数据处理模型进行测试，获取当前模型精度，若当前模型模型精度低于预设的精度阈值，则基于L^c和L^v调整所述模型参数，返回执行步骤S1，否则，执行步骤S7。

本发明实施例能够高效准确地通过数据的“逆向处理”，基于多条信息浏览数据获取到不同通道对于推送结果数据的权重，本发明实施例基于信息呈现和信息点击两种特征结合起来获取到不同通道对于推送结果数据的权重，提高了获取结果的可靠性和准确度。

作为一种示例，所述方法还包括：步骤S10、构建所述预设数据库，具体包括：

步骤S101、获取不同终端的信息呈现数据和信息推送结果数据，所述信息呈现数据包括呈现信息ID、呈现设备ID、通道ID、信息点击数据、呈现时间戳，所述信息推送结果包括“0”或“1”，“0”表示未达到预设信息推送目标，“1”表示达到预设信息推送目标；

其中，终端可以物理实现为智能手机、PAD等能够安装应用程序(例如APP)的移动设备。

步骤S102、根据用户ID与设备ID的关联关系获取每一用户ID对应的信息呈现数据和信息推送结果数据；

可以理解的是，一个用户ID可以对应多个设备ID，通过步骤S102可以将统一用户在不同设备上浏览的信息搜集起来，再通过步骤S103得到对应的信息浏览数据

步骤S103、根据呈现时间戳将每个信息推送结果对应的信息呈现数据按照时间先后的顺序组成时间序列，并存储在所述数据库的记录中，构建所述预设数据库。

模型训练过程中，正样本和负样本的比例设置对模型精确度会有直接影响，比例过高或过低均会降低模型的精确度，影响数据处理的结果，因此要将正样本和负样本的比例设置在合理范围，以提高模型训练的精确度，作为一种实施例，正样本和负样本的比例设置为(1:4,1:2)，优选的，可将正所述步骤1中，所获取的n条信息浏览数据所述正样本数据和负样本数据的比例为1:3，其中，正样本数据对应的信息推送结果为“1”，负样本数据对应的推送结果为“0”。

在上述变形实施例中，测试集数据所选择的数量会影响模型训练的精确度和训练效率，如果测试集选择数据过多，会降低模型训练效率，过少，降低模型训练的精确度，因此可以将训练集和测试集数据的比例设置为(3:1，5:1)，优选地，所述训练集数据条数与所述测试集条数比例为4:1，需要说明的是，所述训练集数据和所述测试集数据为不同的信息浏览数据，这样可以避免模型对大量相同数据的依赖性，提高模型训练的精度，从而提高了数据处理结果的准确性。

作为一种实施例，所述步骤S3包括：

步骤S301、基于信息浏览特征向量序列上一时刻的呈现中间特征向量h_j-1和当前时刻的信息浏览特征向量x_j进行信息编码处理，确定当前时刻的呈现中间特征向量：

h_j＝f_e(x_j,h_j-1)

其中，f_e()为预设的编码函数，作为一种示例，f_e()为长短期记忆网络(LSTM)的编码函数。

步骤S302、基于呈现中间特征向量h_j确定呈现中间特征序列

作为一种实施例，所述步骤S4中、基于点击中间特征向量初始值s₀对

进行解码处理，得到点击中间特征序列

包括：

步骤S401、基于信息浏览特征向量序列上一时刻的点击中间特征向量s_j-1和预测点击概率

以及

确定当前时刻的点击中间特征向量：

其中，f_d()为预设的解码函数，作为一种示例，f_d()为长短期记忆网络(LSTM)的解码函数。

步骤S402、基于点击中间特征向量s_j确定点击中间特征序列

步骤S4中、基于S_i获取x_j对应的预测点击概率

包括：

步骤S411、基于S_i和

获取x_j对应的预测点击概率：

其中，g()为预设的感知机模型函数，其核心公式是激活方程为

上述过程中，编码函数采用上一时刻的呈现中间特征向量h_j-1和当前时刻的信息浏览特征向量x_j确定当前时刻的呈现中间特征向量h_j；解码函数基于信息浏览特征向量序列上一时刻的点击中间特征向量s_j-1和预测点击概率

以及

确定当前时刻的点击中间特征向量；基于S_i和

获取x_j对应的预测点击概率

可以动态调整相邻里两个信息浏览特征向量之间的关系，以提高模型训练的效率和精度，从而提高数据处理的效率和精确度

作为一种实施例，所述步骤S4中，基于所述n条信息浏览数据对应的所有的预测点击概率和实际点击概率确定第一损失函数L₁，包括：

作为一种实施例，所述步骤S5中，所述基于所述呈现中间特征序列H_i、通道呈现权重向量A₁、点击中间特征序列S_i、通道点击权重向量A₂确定G_i对应的预测信息推送结果概率

包括：

步骤S501、基于呈现中间特征序列H_i、通道呈现权重向量A₁获取呈现参数：

C₁＝A₁(h₁,h₂,……,h_mi)

步骤S502、基于点击中间特征序列S_i、通道点击权重向量A₂获取点击参数：

C₂＝A₂(s₁,s₂,……,s_mi)

步骤S503、基于呈现参数和点击参数获取预测信息推送结果概率

作为一种实施例，所述基于所述n条信息浏览数据的预测信息推送结果概率

和实际信息推送结果概率y_i确定第二损失函数L^v，包括：

作为一种实施例，所述步骤S6中，所述包括：

步骤S611、将测试集中的每条信息浏览数据中的信息浏览特征向量序列输入当前的数据处理模型，得到对应的预测信息推送结果概率；

步骤S612、基于每条信息浏览数据对应的预测信息推送结果概率和实际信息推送结果概率确定该条信息浏览数据对应的模型精确度；

步骤S613、基于所述测试集中所有信息浏览数据对应的模型精确度确定当前模型的精确度。

通过构建测试集来判断当前模型的精度，可以避免仅通过测试集进行训练造成的对测试集的数据依赖过大，导致模型精确度低，提高模型训练结果的精确度，从而提高数据处理结果的精确度。

在上述变形实施例中，所述步骤S6中包括：

步骤S601、连续获取M个L^c和L^v，若连续M个L^c和L^v均逐渐变小，且变化幅度小于预设的变化阈值，则判断不需要调整模型参数，否则，进入步骤S602调整模型参数；

步骤S602、基于L^c和L^v确定模型参数的调整幅度，基于所述调整幅度调整模型参数，然后返回步骤S1。

基于L^c和L^v来判断模型参数能够快速准确判断当前模型是否需要调整，以及确定模型参数的调整幅度，提高了模型训练的精确度和效率，从而提高了数据处理的精确度和效率。

作为一种实施例，所述步骤S7中，获取当前模型对应的通道呈现权重向量A₁、通道点击权重向量A₂，基于A₁和A₂确定每一通道对应的权重：

Attr_k＝(1-λ_d)A_1k+λ_dA_2k

其中，Attr_k为第k个通道的权重，A_1k为A₁中第k个通道的通道呈现权重值，A_2k表示A₂中第k个通道的通道点击权重值，λ_d为当前模型的平衡系数，k＝1,2,3...K，K为通道总数。

本发明实施例还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行本发明实施例所述的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机指令用于执行本发明实施例所述的方法。

在一种具体应用场景中，所述信息可以为广告信息，通过本发明实施例可以获取到不同的信息通道对推送广告信息达到预设目标的权重，为下一步广告推送提供有力参考。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。