CN116956996A

CN116956996A - 数据处理方法、装置、介质及设备

Info

Publication number: CN116956996A
Application number: CN202310676849.XA
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-10-27

Abstract

本申请公开了数据处理方法、装置、介质及设备，方法包括：获取目标账号的多种属性信息；基于多种属性信息确定缺失指示信息，缺失指示信息包括与多种属性信息对应的多个缺失指示分量信息；对多种属性信息进行特征表示得到多个特征表示信息；将每一种属性信息的特征表示信息和缺失指示分量信息拼接后输入每一种属性信息对应的分枝网络，得到每一种属性信息的第一指标预测信息；基于每一种属性信息的第一指标预测信息进行针对目标账号的资源推送处理。本申请将缺失指示信息作为特征引入到业务指标的预测中以在数据缺失时也可以执行业务处理，同时构建的与每种属性信息对应的分枝网络降低了整体的模型复杂度，提升了业务处理的效率。

Description

数据处理方法、装置、介质及设备

技术领域

本申请涉及人工智能领域，具体涉及数据处理方法、装置、介质及设备。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理、机器学习、深度学习等几大方向。随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

数据缺失是十分常见的现象，而数据的缺失会增加建模的不确定性以及模型输出的不可靠性。相关技术中，将数据的缺失信息融入到业务模型中以提升模型输出的准确性，但N种类别的数据，其缺失模式会有2^N种，相应地会造成业务模型的复杂度更高，业务模型的构建和业务处理的效率较低。

发明内容

为了在数据缺失情况下提高业务模型的处理效率，本申请提供了数据处理方法、装置、介质及设备。所述技术方案如下：

第一方面，本申请提供了一种数据处理方法，所述方法包括：

获取目标账号的多种属性信息，所述多种属性信息中存在至少一种属性信息为预设信息，所述预设信息表征对应的属性信息为缺失状态；

基于所述多种属性信息，确定缺失指示信息，所述缺失指示信息包括与多种属性信息一一对应的多个缺失指示分量信息，每个缺失指示分量信息表征对应的属性信息是否为缺失状态；

对所述多种属性信息分别进行特征表示，得到对应的多个特征表示信息；

将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的分枝网络，进行业务指标预测处理，得到每一种属性信息对应的第一指标预测信息；

基于每一种属性信息对应的第一指标预测信息，进行针对所述目标账号的资源推送处理。

可选地，所述方法还包括：

将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的门控网络，进行权重分析处理，得到每一种属性信息对应的属性权重信息；所述属性权重信息表征对应的属性信息的重要程度；

所述基于每一种属性信息对应的第一指标预测信息，进行针对所述目标账号的资源推送处理，包括：

根据每一种属性信息对应的第一指标预测信息和每一种属性信息对应的属性权重信息进行加权求和计算，得到所述目标账号对应的第二指标预测信息；所述第二指标预测信息表征所述目标账号的资源偏好情况；

基于所述第二指标预测信息，进行针对所述目标账号的资源推送处理。

可选地，所述对所述多种属性信息分别进行特征表示，得到对应的多个特征表示信息，包括：

将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息；

将每一种属性信息对应的嵌入表示信息输入特征编码网络，进行编码处理，得到每一种属性信息对应的特征表示信息。

可选地，所述将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息，包括：

在任一属性信息为离散型变量的情况下，基于预设特征词表确定第一属性信息对应的嵌入表示信息；所述嵌入表示信息为稠密特征表示，所述第一属性信息为离散型变量的任一属性信息。

可选地，将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息，还包括：

在任一属性信息为连续型变量的情况下，将第二属性信息输入深度网络，进行特征变换处理，得到所述属性信息对应的嵌入表示信息，所述第二属性信息为连续型变量的任一属性信息。

可选地，所述基于每一种属性信息对应的第一指标预测信息，进行针对所述目标账号的资源推送处理，包括：

根据每一种属性信息对应的第一指标预测信息，确定平均指标预测信息；

基于所述平均指标预测信息，进行针对所述目标账号的资源推送处理。

可选地，所述方法还包括：

获取样本账号的多种样本属性信息和所述样本账号的标签信息，所述多种样本属性信息中存在至少一种样本属性信息为所述预设信息；

基于所述多种样本属性信息，确定样本缺失指示信息，所述样本缺失指示信息包括与所述多种样本属性信息一一对应的多个样本缺失指示分量信息，每个样本缺失指示分量信息表征对应的样本属性信息是否为缺失状态；

对所述多种样本属性信息分别进行特征表示，得到对应的多个样本特征表示信息；

将每一种样本属性信息对应的样本特征表示信息和每一种样本属性信息对应的样本缺失指示分量信息拼接后，输入每一种样本属性信息对应的待训练网络，进行业务指标预测处理，得到每一种样本属性信息对应的第一样本指标预测信息；

基于每一种样本属性信息对应的第一样本指标预测信息和所述样本账号的所述标签信息，确定损失信息；

基于所述损失信息，对每一种样本属性信息对应的待训练网络进行训练，得到对应的所述分枝网络。

第二方面，本申请提供了一种数据处理装置，所述装置包括：

信息获取模块，用于获取目标账号的多种属性信息，所述多种属性信息中存在至少一种属性信息为预设信息，所述预设信息表征对应的属性信息为缺失状态；

缺失指示模块，用于基于所述多种属性信息，确定缺失指示信息，所述缺失指示信息包括与多种属性信息一一对应的多个缺失指示分量信息，每个缺失指示分量信息表征对应的属性信息是否为缺失状态；

特征表示模块，用于对所述多种属性信息分别进行特征表示，得到对应的多个特征表示信息；

指标预测模块，用于将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的分枝网络，进行业务指标预测处理，得到每一种属性信息对应的第一指标预测信息；

第一资源推送模块，用于基于每一种属性信息对应的第一指标预测信息，进行针对所述目标账号的资源推送处理。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的一种数据处理方法。

第四方面，本申请提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如第一方面所述的一种数据处理方法。

第五方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如第一方面所述的一种数据处理方法。

本申请提供的数据处理方法、装置、介质及设备，具有如下技术效果：

本申请提供的方案提出了一种针对数据缺失的业务模型，包括多个与属性信息的属性维度相对应的分枝网络，能够在目标账号的多种属性信息存在缺失的情况下，结合多种属性信息对应的缺失指示信息，进行业务指标的预测处理，得到每一种属性信息对应的第一指标预测信息，从而可以基于每一种属性信息对应的第一指标预测信息进行针对目标账号的资源推送处理；

本申请提供的方案将缺失指示信息作为额外的特征引入到业务指标的预测中以在数据缺失的情况下也可以准确地进行业务处理，同时构建的与属性信息的类别对应的分枝网络降低了整个业务模型的复杂度，提升了业务处理的效率。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种数据处理方法的实施环境示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的另一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种网络训练的流程示意图；

图5是本申请实施例提供的另一种网络训练的流程示意图；

图6是本申请实施例提供的一种应用场景示意图；

图7是本申请实施例提供的一种账号列表的示意图以及意向度评级示意图；

图8是本申请实施例提供的一种业务模型的结构示意图；

图9是本申请实施例提供的一种数据处理装置的示意图；

图10是本申请实施例提供的用于实现一种数据处理方法的设备的硬件结构示意图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

本申请实施例提供的方案涉及人工智能的深度学习(Deep Learning，DL)等技术。

深度学习(Deep Learing，DL)是机器学习(Machine Learning，ML)领域中一个主要的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

本申请实施例提供的方案可部署在云端，其中还涉及云技术等。

云技术(Cloud technology)：是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称，可以组成资源池，按需所用，灵活便利。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，因此云技术需要以云计算作为支撑。云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

本申请实施例提供了数据处理方法、装置、介质及设备。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本申请实施例所述的技术方案及其产生的技术效果，本申请实施例对于涉及到的相关专业名词进行解释：

MAR：missing at random，指数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。

MNAR：missing not at random，指数据的缺失依赖于不完全变量自身。

MCAR：missing completely at random，完全随机缺失，指数据的缺失是随机的，数据的缺失不依赖于任何不完全变量或完全变量。

DeepFM：包含两部分：因子分解机部分(Factorization Machines，FM)与神经网络部分(DNN)，分别负责低阶特征的提取和高阶特征的提取。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息、账号的属性信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参阅图1，其为本申请实施例提供的一种数据处理方法的实施环境示意图，如图1所示，该实施环境可以至少包括客户端110和服务器120。

具体的，所述客户端110可以包括智能手机、台式电脑、平板电脑、笔记本电脑、车载终端、数字助理、智能可穿戴设备及语音交互设备等类型的设备，也可以包括运行于设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，用户通过目标账号登录所述客户端中所运行的应用程序，所述客户端110可以用于获取目标账号的账号标识，并将账号标识发送至所述服务器120。

具体的，所述服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。所述服务器120可以包括有网络通信单元、处理器和存储器等等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。具体的，所述服务器120可以基于所述客户端110发送的目标账号的账号标识，从内部数据库或外部数据库中获取目标账号的多种属性信息。所述服务器120还负责业务的处理，具体地，可以基于多种属性信息确定缺失指示信息，缺失指示信息包括与多种属性信息一一对应的多个缺失指示分量信息，每个缺失指示分量信息表征对应的属性信息是否为缺失状态；对多种属性信息分别进行特征表示，得到对应的多个特征表示信息；将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的分枝网络，进行业务指标预测处理，得到每一种属性信息对应的第一指标预测信息；最终基于每一种属性信息对应的第一指标预测信息，进行针对目标账号的资源推送处理。

本申请实施例还可以结合云技术实现，云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。云技术需要以云计算作为支撑。云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。具体地，所述服务器120和数据库位于云端，所述服务器120可以是实体机器，也可以是虚拟化机器。

以下介绍本申请提供的一种数据处理方法。图2是本申请实施例提供的一种数据处理方法的流程图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图2，本申请实施例提供的一种数据处理方法可以包括如下步骤：

S210：获取目标账号的多种属性信息，多种属性信息中存在至少一种属性信息为预设信息，预设信息表征对应的属性信息为缺失状态。

在本申请实施例中，目标账号的多种属性信息分别对应多种属性维度，属性维度可以是与账号本身相关的属性维度，如账号标识、账号注册年限、账号使用者的性别、账号登录设备类型、账号是否为公域账号或私域账号等，也可以是与基于账号执行的操作相关的属性维度，如打开应用程序的次数、登录时间、浏览喜好等。从业务角度还可以将多种属性维度分为统计类、规则类和机器学习挖掘类，统计类的属性维度可以包括但不限于性别、年龄、设备系统、会员等级、消费金额累计、价格段偏好等，规则类的属性维度可以包括但不限于活跃度、价值度等，机器学习挖掘类的属性维度可以包括但不限于购物风格、忠诚度等。目标账号的多种属性信息表征目标账号在多种属性维度下的属性值。

在本申请实施例中，目标账号的多种属性信息是数据缺失的，可以理解为在多种属性信息中存在至少一种属性信息是未知的，暂时以预设信息来代替，其中预设信息用于表征属性信息是缺失状态，如预设信息可以具体表现为NA或NULL。

S220：基于多种属性信息，确定缺失指示信息，缺失指示信息包括与多种属性信息一一对应的多个缺失指示分量信息，每个缺失指示分量信息表征对应的属性信息是否为缺失状态。

可以理解的是，数据缺失是常见现象，而数据的缺失会增加业务模型输出的不可靠性。在本申请实施例中，由多种属性信息确定对应的缺失指示信息，并将缺失指示信息作为一种特殊的特征引入到后续的业务处理过程中，以在数据缺失的情况下也可以准确地进行业务处理。

在本申请的一个实施例中，可以根据多种属性信息是否为预设信息确定为缺失状态的属性信息，从而得到缺失指示信息I(x₁,x₂......x_n)，其中缺失指示分量信息x_i是缺失指示信息I(x₁,x₂......x_n)中的任意一个分量，i＝1,2...n；缺失指示分量信息x_i表征对应的第i种属性信息是否为缺失状态。示例性的，当x_i＝1时，则表示第i种属性信息不为缺失状态，当x_i＝0时，则表示第i种属性信息为缺失状态。0与1所指示的状态可以人为设定，本申请不作唯一限定。

S230：对多种属性信息分别进行特征表示，得到对应的多个特征表示信息。

在本申请实施例中，基于机器学习模型进行业务指标的预测，故需要将不同数据类型的属性信息进行特征表示，以满足模型输入的要求。

在本申请的一个实施例，步骤S230可以具体实施为：

S231：将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息。

S232：将每一种属性信息对应的嵌入表示信息输入特征编码网络，进行编码处理，得到每一种属性信息对应的特征表示信息。

上述实施例中，利用特征嵌入网络执行嵌入表示处理，可以将每一种属性信息的特征进行提取并将提取后的高纬度稀疏特征表示映射到低纬度稠密特征表示，也即每一种属性信息对应的嵌入表示信息为稠密特征表示，稠密特征表示会保留更多的特征数据，在分类、回归等任务中表现更好。利用特征编码网络执行特征编码处理，也即是对嵌入表示信息进行非线性映射，通过低阶特征的交互以及高阶特征的交互得到更为精确的特征表示信息，以提升业务模型的预测准确性；示例性的，特征编码网络可以基于DeepFM模型构建，将嵌入表示信息分别输入Deep网络和FM网络对应进行高阶特征的交互和低阶特征的交互，并将Deep网络和FM网路的输出拼接后得到特征表示信息。

需要说明的是，对属性信息进行特征表示的网络不唯一限定为特征嵌入网络与特征编码网络，还可以是其他特征表示学习网络。

在本申请的一个实施例中，针对不同数据类型的属性信息，执行不同的嵌入表示处理。具体地，可以包括：

S2311：在任一属性信息为离散型变量的情况下，基于预设特征词表确定第一属性信息对应的嵌入表示信息；嵌入表示信息为稠密特征表示，第一属性信息为离散型变量的任一属性信息。

S2312：在任一属性信息为连续型变量的情况下，将第二属性信息输入深度网络，进行特征变换处理，得到属性信息对应的嵌入表示信息，第二属性信息为连续型变量的任一属性信息。

上述实施例中，利用预设特征词表对离散型变量的第一属性信息进行词嵌入处理，比如年龄维度，对应的属性信息取值为男或女，则可以将属性信息嵌入表示为1或2，将离散型变量表示为模型可处理的数据；利用深度网络对连续型变量的第二属性信息进行深度网络变换，以降低数据的稀疏度，更好地适用于神经网络模型和具体的业务应用。

S240：将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的分枝网络，进行业务指标预测处理，得到每一种属性信息对应的第一指标预测信息。

在本申请实施例中，提供了一种针对数据缺失的业务模型，包括多个与属性信息的维度相对应的分枝网络，其实质是为每一种属性维度构建了对应的分枝网络，以对该属性维度对应的属性信息单独地、并行地进行业务指标预测。每一种属性信息对应的分枝网络可以为网络类型、网络架构、网络层级相同的深度学习网络，但各个分枝网络的网络权重等参数可以不相同，网络权重等参数由训练过程确定。为了满足不同的业务需求，深度学习网络可以为分类网络或回归网络。

在本申请实施例中，将缺失指示信息作为一种特殊的特征引入到业务处理过程中，以在数据缺失的情况下也可以准确地进行业务处理。具体地是将各属性信息对应的特征表示信息和对应的缺失指示分量信息进行特征拼接后输入与属性信息对应的分枝网络，也即是每个分枝网络单独进行业务指标预测处理时都能参考输入的特征表示信息对应的缺失指示分量信息，提升预测的准确性。

可以理解的是，对于N种属性信息，数据缺失的模式有2^N种，相关技术中在业务模型中引入缺失模式信息，则需要对每一种缺失模式建模，极大地增大了业务模型的数据复杂度，业务模型的构建和应用的效率也受到影响。而本申请实施例不需要对每一种缺失模块建模，业务模型的数据复杂度降为N，能够在额外引入缺失指示信息的提高保障业务模型的处理效率。

在本申请实施例中，第一指标预测信息表征基于对应的属性信息和缺失指示分量信息对目标账号执行与业务指标对应的预设操作的预估，业务指标可以视业务需求而定，如可以为浏览、点赞、购买意向等，则第一指标预测信息可以相应地表现为所预测的浏览时长、点赞概率、购买意向度等。

S250：基于每一种属性信息对应的第一指标预测信息，进行针对目标账号的资源推送处理。

在本申请实施例中，综合多种属性信息各自对应的第一指标预测信息，确定目标账号执行与业务指标对应的预设操作的可能性结果，进而最终可以根据可能性结果决定是否向该目标账号推送资源。其中资源可以是资讯、消息、商品等对象，利用本申请实施例提供的方法筛选待推送的账号，可以提高待推送的账号与待推送的资源之间的匹配度，为用户提供更好的使用体验。示例性的，可以确定多个候选账号对待推送商品的购买意向度，从而根据购买意向度从多个候选账号中筛选出至少一个待推送账号，以提高商品的购买成交率。

在本申请的一个实施例中，步骤S250可以具体实施为：

S251：根据每一种属性信息对应的第一指标预测信息，确定平均指标预测信息。

S252：基于平均指标预测信息，进行针对目标账号的资源推送处理。

上述实施例中，利用平均算法由各个第一指标预测信息确定平均指标预测信息，平均指标预测信息可以表征目标账号执行与业务指标对应的预设操作的可能性，在数据的缺失类型为随机缺失的情况下的预测准确性较高。此外，还可以基于其他统计方式确定最终的指标预测信息，本申请不作限定。

图3是本申请实施例提供的另一种数据处理方法的流程图，请参照图3，为了不同缺失情况下保障业务处理的准确性，本申请实施例提供的一种数据处理方法还可以包括如下步骤：

S310：获取目标账号的多种属性信息，多种属性信息中存在至少一种属性信息为预设信息，预设信息表征对应的属性信息为缺失状态。

S320：基于多种属性信息，确定缺失指示信息，缺失指示信息包括与多种属性信息一一对应的多个缺失指示分量信息，每个缺失指示分量信息表征对应的属性信息是否为缺失状态。

S330：对多种属性信息分别进行特征表示，得到对应的多个特征表示信息。

S340：将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的分枝网络，进行业务指标预测处理，得到每一种属性信息对应的第一指标预测信息。

以上的步骤S310至步骤S340与前述实施例中的步骤S210至步骤S240一致，此处不作赘述。

S350：将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的门控网络，进行权重分析处理，得到每一种属性信息对应的属性权重信息。

在本申请的一个实施例中，除了多个单独进行业务指标预测的分枝网络，还可以为每一种属性信息构建对应的门控网络，每一种属性信息对应的门控网络可以为网络类型、网络架构、网络层级相同的神经网络，门控网络与分枝网络共享输入。

门控网络可以基于Sigmoid激活函数构建，Sigmoid激活函数可以将输出控制在0到1之间，则门控网络可以帮助实现保留或删除数据以及多大程度保留数据的功能，也即知道哪些数据不重要，可以被遗忘，或者哪些数据需要保存。故门控网络输出的属性权重信息可以表征对应的属性信息的重要程度。

S360：根据每一种属性信息对应的第一指标预测信息和每一种属性信息对应的属性权重信息进行加权求和计算，得到目标账号对应的第二指标预测信息。

其中，第二指标预测信息可以表征目标账号执行与业务指标对应的预设操作的可能性，也即可以表征目标账号的资源偏好情况。

具体地，在各个信息均为数值型数据的情况下，将每一种属性信息对应的第一指标预测信息和每一种属性信息对应的属性权重信息进行相乘，得到更新后的第一指标预测信息；将各个更新后的第一指标预测信息相加，得到第二指标预测信息。

S370：基于第二指标预测信息，进行针对目标账号的资源推送处理。

上述实施例中，采用门控机制进行不同属性信息的自适应权重的学习，并基于权重进行多分枝加权求和，能够更好地适应不同的缺失情况，提升最终输出的准确性。

图4是本申请实施例提供的一种网络训练的流程示意图，请参照图4，本申请实施例提供的一种数据处理方法还可以包括如下步骤：

S410：获取样本账号的多种样本属性信息和样本账号的标签信息，多种样本属性信息中存在至少一种样本属性信息为预设信息。

在本申请的一个实施例中，样本账号的多种样本属性信息可以由完备的源信息进行随机遮蔽处理得到，可以高效地获得丰富多样的训练数据。样本账号的标签信息指示样本账号执行与业务指标对应的预设操作的实际结果，从业务角度也即可以指示样本账号的真实资源偏好情况。

S420：基于多种样本属性信息，确定样本缺失指示信息，样本缺失指示信息包括与多种样本属性信息一一对应的多个样本缺失指示分量信息，每个样本缺失指示分量信息表征对应的样本属性信息是否为缺失状态。

S430：对多种样本属性信息分别进行特征表示，得到对应的多个样本特征表示信息。

S440：将每一种样本属性信息对应的样本特征表示信息和每一种样本属性信息对应的样本缺失指示分量信息拼接后，输入每一种样本属性信息对应的待训练网络，进行业务指标预测处理，得到每一种样本属性信息对应的第一样本指标预测信息。

步骤S410至步骤S440与前述实施例中的的步骤S210至步骤S240的思想一致，此处不再赘述。

S450：基于每一种样本属性信息对应的第一样本指标预测信息和样本账号的标签信息，确定损失信息。

具体地，可以针对不同类型的业务采用不同的损失函数以计算损失信息，如分类问题可以应用交叉熵损失函数，回归问题可以采用均方差损失函数。

S460：基于损失信息，对每一种样本属性信息对应的待训练网络进行训练，得到对应的分枝网络。

上述实施例中，构建并训练得到了本申请实施例中的业务处理模型，包括多个分枝网络，分别可以基于对应的属性信息和缺失指示分量信息进行业务指标的预测处理，降低了在数据缺失情况下的业务处理的数据复杂度。

图5是本申请实施例提供的另一种网络训练的流程示意图，请参照图5，本申请实施例提供的一种数据处理方法还可以包括如下步骤：

S510：获取样本账号的多种样本属性信息和样本账号的标签信息，多种样本属性信息中存在至少一种样本属性信息为预设信息。

S520：基于多种样本属性信息，确定样本缺失指示信息，样本缺失指示信息包括与多种样本属性信息一一对应的多个样本缺失指示分量信息，每个样本缺失指示分量信息表征对应的样本属性信息是否为缺失状态。

S530：对多种样本属性信息分别进行特征表示，得到对应的多个样本特征表示信息。

S540：将每一种样本属性信息对应的样本特征表示信息和每一种样本属性信息对应的样本缺失指示分量信息拼接后，输入每一种样本属性信息对应的第一待训练网络，进行业务指标预测处理，得到每一种样本属性信息对应的第一样本指标预测信息。

S550：将每一种样本属性信息对应的样本特征表示信息和每一种样本属性信息对应的样本缺失指示分量信息拼接后，输入每一种属性信息对应的第二待训练网络，进行权重分析处理，得到每一种样本属性信息对应的样本属性权重信息。

S560：根据每一种样本属性信息对应的样本指标预测信息和每一种样本属性信息对应的样本属性权重信息进行加权求和计算，得到样本账号对应的第二样本指标预测信息。

S570：基于样本账号对应的第二样本指标预测信息和样本账号的标签信息，确定损失信息。

S580：基于损失信息，对每一种样本属性信息对应的第一待训练网络和每一种样本属性信息对应的第二待训练网络进行训练，得到多个分枝网络和多个门控网络。

上述实施例中，构建并训练得到了本申请实施例中的业务处理模型，包括多个分枝网络和多个门控网络，多个分枝网络可以分别基于对应的属性信息和缺失指示分量信息进行业务指标的预测处理，降低了在数据缺失情况下的业务处理的数据复杂度，多个门控网络可以自适应学习各个属性信息对应的权重，能够更好地适应不同的缺失情况，提升最终输出的准确性。

图6是本申请实施例提供的一种业务处理流程示意图。如图6所示，为了评估用户购买某件商品的意向度，需求者可以在应用程序中输入待评估意向度的多个账号，构成账号列表，账号可以以用户的账号标识、或加密手机号等表征。应用程序将账号列表发送至服务器，服务器基于账号列表查先从特征库中查找各个账号的多个属性信息，并将各个账号的多个属性信息输入至上述实施例所提供的包含多个分枝网络的业务模型，进行特征表示和业务指标的预测处理，此时业务指标也即购买意向，从而获得各个账号对应的意向度；服务器将意向度返回至应用程序中以供需求者查看。图7示出了在终端界面上账号列表的示意图(图7中的左图)以及意向度评级示意图(图7中的右图)，在意向度评价示意图中已经按照意向度分数对多个用户的账号进行了排序，从上到下，用户的购买意向度呈降低趋势，进而可以决策是否向意向度达到预设阈值的用户推送该商品。

图8是本申请实施例提供的一种业务模型的结构示意图。如图8所示，业务模型包括特征嵌入网络、特征编码网络、多分枝网络与多门控网络和自适应权重网络，各个网络层的具体功能可参考前述实施例。此外缺失指示器用于引入缺失指示信息。具体地，目标账号的多种属性信息为A1、A2...Ad，经过特征嵌入表示处理后可以表示为E1、E2...Ed，特征编码可以参考DeepFM网络，执行如公式(1)所示的特征编码处理，输出特征表示信息f1、f2...fd。

F＝{[DNN(E₁),FM(E₁)],...[DNN(E_d),FM(E_d)]}

＝{f₁，f₂，...f_d} (1)

缺失指示器根据多种属性信息为A1、A2...Ad的缺失情况确定缺失指示信息，可以表示为[I(x1),I(x2)...I(xd)]，其中I(x1)表征属性信息A1是否缺失，依次类推。在多分枝网络与多门控网络中，将f1与I(x1)拼接后分别输入与属性信息A1对应的分枝网络DNN1和门控网络G1，在分枝网络DNN1中执行业务指标的预测处理，以此类推，多分枝网络输出的第一指标预测信息可以如公式(2)所示计算得到，p1、p2...pd为第一指标预测信息。

/>

利用门控网络和自适应权重网络中的Sigmoid函数进行权重分析，各个属性信息对应的属性权重信息可以如公式(3)所示计算得到，w1、w2...wd为属性权重信息。

如公式(4)所示,在自适应权重网络中对属性信息Ai对应的的自适应权重wi和pi进行加权组合，得到最终的输出O。

结合图6所示的业务类型，将某一个账号的多种属性信息3、Na、5作为特征嵌入网络的输入，其中第二种属性信息为缺失，对应的缺失指示信息为[1，0，1]，通过特征嵌入和特征编码，最终得到三种属性信息的特征表示信息为[0.5，0.2，0.1]、[0.2，0.3，0.2]、[0.7，0.8，0.5]。经过多门控网络，得到每个特征表示信息对应的权重归一值依次为0.76、0.81、0.43，经过多分枝网络，得到每个特征表示信息对应的意向度依次为0.3、0.8、1.2，最终进行加权求和得到最终的输出为0.73*0.3+0.81*0.8+0.43*1.2＝1.39，也即该用户的购买意向度评分为1.39。

由上述实施例可知，在本申请提供的一种数据处理方法中提供了一种针对数据缺失的业务模型，包括多个与属性信息的维度相对应的分枝网络，能够在目标账号的多种属性信息存在缺失的情况下，结合多种属性信息对应的缺失指示信息，进行业务指标的预测处理，得到每一种属性信息对应的第一指标预测信息，从而可以基于每一种属性信息对应的第一指标预测信息进行针对目标账号的资源推送处理；

本申请实施例还提供了一种数据处理装置900，如图9所示，所述装置可以包括：

信息获取模块910，用于获取目标账号的多种属性信息，所述多种属性信息中存在至少一种属性信息为预设信息，所述预设信息表征对应的属性信息为缺失状态；

缺失指示模块920，用于基于所述多种属性信息，确定缺失指示信息，所述缺失指示信息包括与多种属性信息一一对应的多个缺失指示分量信息，每个缺失指示分量信息表征对应的属性信息是否为缺失状态；

特征表示模块930，用于对所述多种属性信息分别进行特征表示，得到对应的多个特征表示信息；

指标预测模块940，用于将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的分枝网络，进行业务指标预测处理，得到每一种属性信息对应的第一指标预测信息；

第一资源推送模块950，用于基于每一种属性信息对应的第一指标预测信息，进行针对所述目标账号的资源推送处理。

在本申请的一个实施例中，所述装置还可以包括：

权重分析模块，用于将每一种属性信息对应的特征表示信息和每一种属性信息对应的缺失指示分量信息拼接后，输入每一种属性信息对应的门控网络，进行权重分析处理，得到每一种属性信息对应的属性权重信息；所述属性权重信息表征对应的属性信息的重要程度；

加权求和模块，用于根据每一种属性信息对应的第一指标预测信息和每一种属性信息对应的属性权重信息进行加权求和计算，得到所述目标账号对应的第二指标预测信息；所述第二指标预测信息表征所述目标账号的资源偏好情况；

第二资源推送模块，用于基于所述第二指标预测信息，进行针对所述目标账号的资源推送处理。

在本申请的一个实施例中，所述特征表示模块930可以包括：

特征嵌入单元，用于将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息；

特征编码单元，用于将每一种属性信息对应的嵌入表示信息输入特征编码网络，进行编码处理，得到每一种属性信息对应的特征表示信息。

在本申请的一个实施例中，所述特征嵌入单元可以包括：

第一子单元，用于在任一属性信息为离散型变量的情况下，基于预设特征词表确定第一属性信息对应的嵌入表示信息；所述嵌入表示信息为稠密特征表示，所述第一属性信息为离散型变量的任一属性信息。

在本申请的一个实施例中，所述特征嵌入单元还可以包括：

第二子单元，用于在任一属性信息为连续型变量的情况下，将第二属性信息输入深度网络，进行特征变换处理，得到所述属性信息对应的嵌入表示信息，所述第二属性信息为连续型变量的任一属性信息。

在本申请的一个实施例中，所述第一资源推送模块950可以包括：

平均化单元，用于根据每一种属性信息对应的第一指标预测信息，确定平均指标预测信息；

第一资源推送单元，用于基于所述平均指标预测信息，进行针对所述目标账号的资源推送处理。

在本申请的一个实施例中，所述装置还可以包括：

样本信息获取模块，用于获取样本账号的多种样本属性信息和所述样本账号的标签信息，所述多种样本属性信息中存在至少一种样本属性信息为所述预设信息；

样本缺失指示模块，用于基于所述多种样本属性信息，确定样本缺失指示信息，所述样本缺失指示信息包括与所述多种样本属性信息一一对应的多个样本缺失指示分量信息，每个样本缺失指示分量信息表征对应的样本属性信息是否为缺失状态；

样本特征表示模块，用于对所述多种样本属性信息分别进行特征表示，得到对应的多个样本特征表示信息；

第一样本指标预测模块，用于将每一种样本属性信息对应的样本特征表示信息和每一种样本属性信息对应的样本缺失指示分量信息拼接后，输入每一种样本属性信息对应的待训练网络，进行业务指标预测处理，得到每一种样本属性信息对应的第一样本指标预测信息；

损失信息计算模块，用于基于每一种样本属性信息对应的第一样本指标预测信息和所述样本账号的所述标签信息，确定损失信息；

网络训练模块，用于基于所述损失信息，对每一种样本属性信息对应的待训练网络进行训练，得到对应的所述分枝网络。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的一种数据处理方法。

图10示出了一种用于实现本申请实施例所提供的一种数据处理方法的设备的硬件结构示意图，所述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图10所示，设备10可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种数据处理方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于服务器之中以保存用于实现方法实施例中一种数据处理方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种数据处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中提供的一种数据处理方法。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述多种属性信息分别进行特征表示，得到对应的多个特征表示信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述将每一种属性信息输入特征嵌入网络，进行嵌入表示处理，得到每一种属性信息对应的嵌入表示信息，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于每一种属性信息对应的第一指标预测信息，进行针对所述目标账号的资源推送处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7中任一项所述的一种数据处理方法。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如权利要求1至7中任一项所述的一种数据处理方法。