CN110069706A

CN110069706A - 数据处理的方法、端侧设备、云侧设备和端云协同系统

Info

Publication number: CN110069706A
Application number: CN201910229629.6A
Authority: CN
Inventors: 李建军; 吴饶金; 周昕宇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-30
Also published as: WO2020192460A1

Abstract

本申请公开了人工智能领域中的一种数据处理的方法、端侧设备、云侧设备和端云协同系统，该方法包括：端侧设备接收来自云侧设备发送的标签值关联关系模型信息，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；所述端侧设备根据第一用户当前已存在的标签值和所述标签值关联关系模型，确定所述第一用户当前缺失的标签值，以得到所述第一用户的画像标签值集合。本申请的数据处理方法、端侧设备、云侧设备和端云协同系统，可以实现在保护用户隐私的同时提高用户画像能力。

Description

数据处理的方法、端侧设备、云侧设备和端云协同系统

技术领域

本申请涉及通信领域，更具体地，涉及一种数据处理的方法、端侧设备、云侧设备与端云协同系统。

背景技术

随着人工智能(artificial intelligence，AI)的迅速发展，人们对生活有了更强烈的智能化需求，移动终端成为集娱乐、工作和学习活动的通用设备，扮演着个人智能助理的角色。AI给终端带来的价值在于入口越来越精准、便利、人性化。理解用户，主动服务，终生学习给用户带来极致的体验，成为手机终端智慧化的未来。

充分利用终端设备上的各种资源优势，可以为用户提供精准、贴心的全方位个性化服务。例如，基于用户画像(user profile，UP)的应用，即根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。

用户画像标签数据作为基本、核心的数据，画像的准确率会对业务形成直接的影响。用户标签的准确率和完整性是影响用户画像准确率的主要因素。同时，人们对隐私保护要求越来越高，因此，如何在保证用户隐私的同时提高用户画像能力已成为亟待解决的问题。

发明内容

本申请提供一种数据处理的方法、端侧设备、云侧设备和端云协同系统，可以在保证用户隐私的同时提高用户画像能力。

第一方面，提供了一种数据处理的方法，该方法包括：端侧设备接收来自云侧设备发送的标签值关联关系模型信息，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；端侧设备根据第一用户当前已存在的标签值和所述标签值关联关系模型，确定所述第一用户当前缺失的标签值，以得到所述第一用户的画像标签值集合。

例如，标签值关联关系模型中的变量包括用户的第一类标签值、第二类标签值，其中第一类标签值可以是用户的性别标签值、年龄标签值、位置标签值，第二类标签值可以是端侧设备采集到的用户的多个应用程序APP的标签值，由于用户对于不同的APP存在不同的偏好，因此端侧设备可以根据用户使用该APP的使用时长记录该APP的标签值，该标签值对应用户使用APP的时长。

在本申请实施例中，端侧的用户画像模块在进行用户画像时，需要获得用户的性别信息，由于用户可以选择不反馈性别、年龄、位置等个人隐私信息，因此用户的性别标签值可能存在缺失的情况。例如，当App#1中的广告推荐算法需要根据用户的画像向用户推荐某些业务时，由于该业务与用户的性别标签值存在依赖关系，当用户的画像标签数据中的性别标签值缺失时，根据该画像标签数据计算得到的用户画像难以满足业务的需求。

本申请的数据处理方法，可以根据端侧设备获取到的画像标签数据中存在的画像标签值和标签值关联关系模型，确定画像标签数据中缺失的画像标签值，以得到完整的画像标签数据，从而提高了端侧画像的能力和用户画像的准确率。

结合第一方面，在第一方面的某些实现方式中，该方法还包括：端侧设备根据所述第一用户的画像标签值集合确定所述第一用户的用户画像。

结合第一方面，在第一方面的某些实现方式中，该方法还包括：端侧设备对所述第一用户的画像标签值集合中的画像标签值进行差分加噪处理，得到差分加噪处理后的画像标签数据；所述端侧设备向所述云侧设备发送所述差分加噪处理后的画像标签数据。

由于端侧设备对所述用户的画像标签值集合中的画像标签值进行差分加噪处理，用户的画像标签数据在由端侧上传至云侧的过程中实现了加密保护，画像标签数据在云侧设备经过差分减噪处理保留了画像标签数据的统计学特征，因此在端云协同系统中实现了用户的隐私保护。

结合第一方面，在第一方面的某些实现方式中，所述第一用户当前缺失的标签值包括以下至少一项：所述第一用户的性别标签值、所述第一用户的年龄标签值、所述第一用户的位置标签值。

应理解，用户可以不主动反馈部分隐私信息，因此端侧设备采集到的用户画像标签值集合中存在缺失的画像标签值。

第二方面，提供了一种数据处理的方法，该方法包括：云侧设备获取画像标签值训练数据，所述画像标签值训练数据包括多个用户的画像标签数据；云侧设备根据所述画像标签值训练数据生成标签值关联关系模型信息，其中，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型是根据所述画像标签值训练数据训练得到的，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；所述云侧设备向端侧设备发送所述标签值关联关系模型信息。

在本申请的数据处理方法中，云侧设备可以根据画像标签数据集训练得到画像标签数据中的不同类型标签值的关联关系。由于云侧设备可以采集多个端侧设备对应的用户的画像标签数据，因此可以采用机器学习算法计算得到画像标签数据中不同类型标签值的关联关系。

在本申请实施例中，云侧设备可以获取1000万画像标签数据样本，样本中包括第一类型标签值、第二类型标签值，其中第一类型标签值可以是用户的性别标签值、年龄标签值、位置标签值，第二类标签值可以是用户的应用程序App的标签值。云侧设备可以训练得到用户的性别标签值和不同应用程序App的标签值之间的关联关系。

在一种实现中，云侧设备计算得到的关联关系模型可以反映第一类型标签值与第二类型标签值的关联关系，例如，该关联关系模型包括Gender标签值Y与用户的App标签值Xi的关联关系可以记作：

其中，X1，X2，Xi分别对应App1，App2，AppN的标签值，A1，A2，Ai分别对应X1，X2，Xi的系数。

在一种实现中，云侧设备可以采用线性回归算法计算得到Ai，从而得到上述关联关系模型信息，由于该关联关系模型信息是根据多个用户画像标签数据训练得到的，因此可以反映画像标签数据的统计学特征，即画像标签数据的群体特征。

相应的，当端侧设备的用户画像模块存在缺失的画像标签值时，可以根据用户的画像标签数据中已有的画像标签值、管理关系模型计算得到缺失的画像标签值，从而提高了端侧用户画像的准确率。

由于云侧设备可以采集大量的画像标签值训练数据，因此云侧设备可以计算得到用户的画像标签关联关系模型，该关联关系模型包括用户的不同标签值之间的关联关系，从而端侧设备可以根据用户已有的画像标签值、该关联关系模型信息确定用户缺失的画像标签值。

结合第二方面，在第二方面的某些实现方式中，所述云侧设备获取画像标签值训练数据，包括：所述云侧设备接收来自多个用户的画像标签数据，以得到所述画像标签值训练数据。

结合第二方面，在第二方面的某些实现方式中，所述画像标签值训练数据中的画像标签数据是经过差分加噪处理后的画像标签数据，所述云侧设备根据所述画像标签值训练数据生成标签值关联关系模型信息，包括：所述云侧设备对所述画像标签值训练数据中的画像标签数据进行差分降噪处理，得到差分降噪处理后的画像标签数据；所述云侧设备根据所述差分降噪处理后的画像标签数据生成标签值关联关系模型信息。

结合第二方面，在第二方面的某些实现方式中，所述用户当前缺失的标签值包括下列标签值中的至少一种：所述用户的性别标签值、所述用户的年龄标签值、所述用户的位置标签值。

第三方面，提供了一种数据处理的方法，该方法包括：端侧设备获取用户的第一类型标签的标签值；所述端侧设备根据所述第一类型标签的标签值、第一关联关系模型确定所述用户的第二类型标签的标签值，以得到第一画像标签数据；其中，所述第一关联关系模型包括所述第一类型标签的标签值、所述第二类型标签的标签值的关联关系。

结合第三方面，在第三方面的某些实现方式中，用户的第一业务与所述第二类型标签的标签值存在依赖关系。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：端侧设备确定所述用户的画像标签数据中的所述第二类型标签的标签值是否存在；在所述第二类型标签的标签值不存在时，所述端侧设备根据所述第一类型标签的标签值、所述第一关联关系模型确定所述用户的第二类型标签的标签值。

结合第三方面，在第三方面的某些实现方式中，第一画像标签数据用于所述端侧设备对所述用户进行画像，所述第一画像标签数据包括所述第一类型标签的标签值、所述第二类型标签的标签值。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：所述端侧设备对所述第一画像标签数据进行差分加噪处理，以得到第二画像标签数据；所述端侧设备向云侧设备发送所述第二画像标签数据。

结合第三方面，在第三方面的某些实现方式中，该第二类型标签的标签值包括以下至少一项：所述用户的性别标签值、所述用户的年龄标签值、所述用户的位置标签值。

第四方面，提供了一种数据处理的方法，该方法包括：云侧设备根据第一画像标签数据集中的第一类型标签的标签值、第二类型标签的标签值对用户的画像标签数据的关联关系模型进行训练，以得到第一关联关系模型；所述云侧设备向端侧设备发送所述第一关联关系模型，所述第一关联关系模型包括所述第一类型标签的标签值、所述第二类型标签的标签值的关联关系。

例如，云侧设备获取1000万画像标签数据样本，样本中包括第一类型标签值、第二类型标签值，其中第一类型标签值可以是用户的性别标签值、年龄标签值、位置标签值，第二类标签值可以是用户的应用程序App的标签值。云侧设备可以训练得到用户的性别标签值和不同应用程序App的标签值之间的关联关系。

结合第四方面，在第四方面的某些实现方式中，该方法还包括：所述云侧设备获取来所述自端侧设备发送的用户的画像标签数据，以得到画像标签数据集；所述云侧设备对所述画像标签数据集进行差分减噪处理，以得到所述第一画像标签数据集。

第五方面，提供一种端侧设备，所述端侧设备用于执行第一方面或第三方面中任一种可能的实现方式中的方法。

具体地，所述端侧设备可以包括用于执行第一方面或第三方面中任一种可能的实现方式中的方法的模块。

第六方面，提供一种云侧设备，所述云侧设备用于执行第二方面或第四方面中任一种可能的实现方式中的方法。

具体地，所述云侧设备可以包括用于执行第二方面或第四方面中任一种可能的实现方式中的方法的模块。

第七方面，提供一种端侧设备，所述端侧设备包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行该存储器存储的指令，并且对所述存储器中存储的指令的执行使得所述处理器执行第一方面或第三方面中任一种可能的实现方式中的方法。

第八方面，提供一种云侧设备，所述云侧设备包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行该存储器存储的指令，并且对所述存储器中存储的指令的执行使得所述处理器执行第二方面或第四方面中任一种可能的实现方式中的方法。

第九方面，提供了一种计算机可读介质，所述计算机可读介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面至第四方面中任一种可能实现方式中的方法。

第十方面，提供一种端云协同系统，所述端云协同系统包括第五方面提供的端侧设备与第六方面提供的云侧设备。

附图说明

图1为本申请实施例提供的端云协同系统的示意性结构图。

图2为本申请实施例提供的数据处理方法的应用场景图。

图3为本申请实施例的一种数据处理方法的示意性交互图。

图4为本申请实施例的另一种数据处理方法的示意性交互图。

图5为本申请实施例的一种数据处理方法的示意性流程图。

图6为本申请实施例的另一种数据处理方法的示意性流程图。

图7为本申请实施例提供的一种端侧设备的示意性结构图。

图8为本申请实施例提供的另一种端侧设备的示意性结构图。

图9为本申请实施例提供的一种云侧设备的示意性结构图。

图10为本申请实施例提供的另一种云侧设备的示意性结构图。

图11为本申请实施例的一种端云协同系统的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

本申请实施例中的端侧设备也可称之为用户设备(user equipment，UE)、移动台(mobile station，MS)，或移动终端(mobile terminal)等。端侧设备，例如，可以是移动电话(或称为“蜂窝”电话)或者具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置。本申请实施例中的云侧设备可以是服务器或者是服务器集群，该云侧设备还可以称为计算节点，或者云侧计算集群。

为了便于理解与描述本申请实施例提供的数据处理的方法，下面先结合图1描述本申请实施例提供的端云协同系统100。端云协同平台区别于传统的云平台，将提供一定计算能力的移动终端也加入资源池中，共同完成计算任务，达到了对空闲资源的有效利用。

如图1所示，端云协同系统100包括端侧设备110和云侧设备120。端侧设备110包括用户画像平台111和应用程序112(APP1,APP2，…，APPN)。该用户画像平台111包括：差分隐私模块111a、用户画像模块111b、用户画像库111c；其中，差分隐私模块111a用于对画像标签数据进行差分加噪处理；应用程序112运行在端侧设备110上，用于为用户提供认知计算功能；本地画像库111c用于保存画像标签数据。

云侧设备120包括云侧建模模块、用户画像平台，其中用户画像平台包括：云侧分发模块、差分隐私模块、云侧数据库，其中差分隐私模块用于对画像标签数据进行差分减噪处理。

用户画像包括：端侧用户画像、云侧用户画像，其中，端侧用户画像只在端侧采集和使用用户的标签值，不将相关数据上传到云侧或第三方。由于数据的存储和使用范围只限定在用户手机上，而用户手机属于个人物品，因此隐私泄漏的风险较小。端侧画像方法只是在端侧进行画像，由于端侧的计算能力和标签数据量有限，因此存在较大的局限性，导致用户画像能力不足、用户画像准确性较低。

其中，影响端侧画像准确率的因素包括：端侧用户不一定会按实际情况提交数据，导致画像标签值存在一定错误率；端侧用户不一定会提交画像标签数据，导致一定比例的画像标签的标签值缺失；或者，端侧用户的标签数据量比较小。

对于云侧用户画像，用户在端侧的行为数据和云侧的打点数据需要上传到云侧，该方法的用户数据量比较全面，可以利用机器学习算法，极大的提升用户画像的准确率。由于云侧用户画像所有数据上传到云侧，因此用户隐私泄漏的风险较高。

应理解，数据分析是决策的重要依据，数据打点作为数据分析的源头，负责数据采集，以达到为数据分析提供数据源的目的；其中，打点软件开发工具包(softwaredevelopment kit，SDK)用于在客户端使用过程中，将采集到的用户操作行为数据发送到指定服务器。

本申请的用户画像方法和装置，融合端侧画像和云侧画像的优点，实现业务对画像准确率的同时保护用户的隐私。

下面，对本申请实施例涉及的相关术语进行介绍。

1、用户画像

用户画像(Persona)是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。可以根据用户的目标、行为和观点的差异，将不同的用户区分为不同的类型，然后从每种类型中抽取出典型特征，赋予名字、照片等一些人口统计学要素、场景等描述，就形成了一个人物原型，该人物原型即为用户画像。简而言之，用户画像为了让研发团队在产品设计的过程中能够抛开个人喜好，将焦点关注在目标用户的动机和行为上进行产品设计。

用户画像作用包括：1)精准营销，分析产品潜在用户，针对特定群体利用短信邮件等方式进行营销；2)用户统计；数据挖掘，构建智能推荐系统。利用关联规则计算，利用聚类算法分析；3)进行效果评估，完善产品运营，提升服务质量，相当于市场调研、用户调研，以提供高水平的服务。

由于用户画像是基于大量的用户数据而建立的，因此需要收集用户数据，用户数据分为：网络行为数据、服务内行为数据、用户内容偏好数据、用户交易数据等；在收集到足够用户数据后进行用户行为建模，进而为不同用户生成对应的用户画像。

2、神经网络模型

神经网络模型指的是经过大量有标签的数据训练，得到的用于执行认知计算的程序和数据。神经网络模型包括神经网络架构组件与神经网络参数组件。其中，神经网络架构组件指的是神经网络模型中与神经网络算法相关的网络及其层次结构，也就是上述的神经网络模型中用于执行认知计算的程序。神经网络参数组件指的是训练神经网络模型时得到的大量参数，作为神经网络架构中神经元的值，也就是上述的神经网络模型中用于执行认知计算的数据。在数据挖掘中采用差分隐私保护技术的目的是在提取有价值信息的同时不泄露敏感隐私信息。

3、差分隐私算法

差分隐私作为一种新的隐私定义，与传统的隐私保护方法相比，有其独特的优势。差分隐私保护模型假设攻击者拥有最大背景知识，在这一假设下，差分隐私保护能应对各种新型攻击，无需考虑攻击者所拥有的任何可能的背景知识。差分隐私保护有着坚实的数学基础，对隐私保护有着严格的定义和可靠的量化评估方法，使得不同的参数处理下的隐私保护水平具有可比性。差分隐私保护在大大降低隐私泄露风险的同时，极大地保证了数据的可用性。

给定一个随机算法K，若对于任意的兄弟表T1和T2，以及任意的输出(K)满足：Pr[K(T₁)∈S]≤e^∈×Pr[K(T₂)∈S]，即：Pr[K(T₁)∈S]/Pr[K(T₁)∈S]≤e^∈，则算法K满足∈差分隐私。

其中，从差分隐私保护的定义可知，隐私保护预算ε用于控制算法M在邻近数据集上获得相同输出的概率比值，反映了算法M所的隐私保护水平，ε越小，隐私保护水平越高。在极端情况下，当ε取值为0时，即表示算法M针对D与D’的输出的概率分布完全相同，由于D与D’为邻近数据集，根据数学归纳法可以很显然地得出结论，即当ε＝0时，算法M的输出结果不能反映任何关于数据集的有用的信息。因此，从另一方面，ε的取值同时也反映了数据的可用性，在相同情况下，ε越小，数据可用性越低。

在本申请实施例中，端侧设备包括端侧设备#1、端侧设备#2，端侧设备A1属于用户A#1、端侧设备#2属于用户A#2，其中端侧设备#1采集得到的用户A1的画像标签数据不存在缺失的画像标签值，端侧设备#2采集得到的用户A2的画像标签数据存在缺失的画像标签值。

云侧设备在采集画像标签数据时按照预定义的用户模型采集用户数据，预定义的用户模型包括第一类型标签、第二类型标签，云侧设备采集得到完整的画像标签数据。

图2示出了本申请提供的数据处理方法的应用场景图。

如图2所示，端云协同系统包括端侧设备、云侧设备，其中，端侧设备包括端侧用户画像模块、端侧差分隐私模块、端侧存储模块，端侧用户画像模块用于提供用户画像，端侧差分隐私模块用于对画像标签数据进行差分加噪处理，端侧存储模块用于提供计算规则；云侧设备包括云侧差分隐私模块、云侧建模模块、云侧分发模块，云侧差分隐私模块用于对画像标签数据进行差分减噪处理，云侧建模模块用于根据计算规则对画像标签数据进行训练以得到关联关系模型。

作为示例而非限定，在本申请实施例中，如表1所示，用户画像包括9个标签，其中标签(Gender)属于第一类型标签、标签(TOPApp)属于第二类型标签，第一类型标签属于用户隐私信息。

表1用户的画像标签

画像标签	画像标签的含义
		Gender	性别
App1	用户最常使用的APP名
		App2	用户第2常用的APP名
App3	用户第3常用的APP名
		APP4	用户第4常用的APP名
APP5	用户第5常用的APP名
		APP6	用户第6常用的APP名
APP7	用户第7常用的APP名
		APP8	用户第8常用的APP名

如表1所示用户的画像标签，端侧设备可以收集用户的APP使用记录，以得到用户不同APP的标签值。Gender标签值依赖用户的反馈，而用户可以选择不反馈，当用户选择不反馈Gender标签值时，即第二类型标签的标签值不存在，对应的画像标签值为缺失状态。

当某个业务对该标签值(Gender)存在较大依赖的话，那么此时该业务就会受到较大影响。而用户信息的标签值属于个人隐私，采用云侧画像需要将用户信息的标签值上传至云侧，容易造成用户隐私泄露。

应理解，标签是某一种用户特征的符号表示，标签体系两个视角：一“化整为零”，每个标签都规定了我们观察、认识和描述用户的一个角度；二“化零为整”，用户画像是一个整体，各个维度不孤立，标签之间有联系，用户画像就可以用标签的集合来表示。

以下，对本申请的数据处理的方法进行介绍。

本申请的数据处理的方法、端侧设备、云侧设备和端云协同系统，采用差分隐私算法、线性回归算法训练大数据模型，可以补齐Gender标签的值，在保护用户隐私的同时实现提升用户画像能力。

本申请的数据处理的方法，在端侧采用差分隐私算法对用户画像标签数据进行差分加噪处理，即采用差分隐私算法对用户画像标签数据在端云传输进行加密，在云侧采用差分隐私算法对用户画像标签数据进行差分降噪处理，其中，端侧差加噪处理的用户画像标签数据在云侧用于计算群体标签关联关系，云侧采用机器学习算法对差分降噪后的用户画像标签数据进行训练，以得到缺失画像标签值与已有画像标签值的关联关系模型。云侧向端侧发送该关联关系模型，该关联关系模型用于端侧根据已有画像标签值计算得到缺失画像标签值。

图3示出了本申请的数据处理的方法的示意性交互图。

在S301，云侧设备获取画像标签值训练数据，该画像标签值训练数据包括多个用户的画像标签数据。

例如，云侧设备采集1000万画像标签数据样本，以得到画像标签值训练数据，其中，该画像标签数据中包括第一类画像标签值、第二类画像标签值。

如表2所示，用户A#1的画像标签数据包括Gender标签的标签值，TOPApp的标签值。

表2用户A#1的画像标签数据

序号	画像标签	标签值
			1	Gender	5
2	App1	1
			3	App2	8
4	App3	15
			5	APP4	20
6	APP5	20
			7	APP6	20
8	APP7	20
			9	APP8	20

在S302，云侧设备根据标签值训练数据生成标签值关联关系模型信息，标签值关联关系模型信息用于指示用户的标签值关联关系模型。

例如，用户画像标签数据集可以包括1000万用户画像标签样本，云侧设备采用线性回归算法对用户画像标签数据集进行训练，以得到Gener标签值和TOPApp标签值的标签值关联关系模型信息。

在本申请实施例中，云侧设备根据画像标签训练数据计算得到标签值Y与标签值Xi的关联关系如下：

其中，Xi属于第一类标签值，Y属于第二类标签值，Ai为Xi的权重系数。

如表3所示，云侧设备根据画像标签数据集中的Xi、Y计算得到Xi的权重系数Ai，即目标变量与Xi的权重关系。

表3标签值关联关系模型信息

Xi	权重系数Ai
		X<sub>1</sub>(APP1)	0.029
X<sub>2</sub>(APP2)	0.075
		X<sub>3</sub>(APP3)	0.014
X<sub>4</sub>(APP4)	0.003
		X<sub>5</sub>(APP5)	0.018
X<sub>6</sub>(APP6)	0.045
		X<sub>7</sub>(APP7)	0.072
X<sub>8</sub>(APP8)	0.090

在S303，云侧设备向端侧设备发送标签值关联关系模型信息。

在S304，端侧设备接收来自云侧设备发送的标签值关联关系模型信息。

在S305，端侧设备根据用户当前已存在的标签值和标签值关联关系模型，确定用户当前缺失的标签值。

如表4所示，用户A#2的画像标签数据中存在缺失的标签值，当App#1需要根据用户A#2的Gender标签值向用户A#2推荐业务时，端侧设备可以根据标签值关联关系模型信息Xi，计算得到缺失的画像标签值。

例如，端侧设备判断用户#A2的画像标签值中是否存在Gender标签值，当用户#A2的画像标签值中不存在Gender标签值时，将用户#A2的8个TopAPP的标签值Xi带入计算得到Gender标签值Y为5.3。

表4用户A#2的画像标签数据

序号	画像标签	标签值
			1	Gender	Y
2	App1	1
			3	App2	8
4	App3	15
			5	APP4	20
6	APP5	20
			7	APP6	20
8	APP7	20
			9	APP8	20

如表4所示，用户A#2的画像标签数据中存在缺失的标签值，当App#1需要根据用户A#2的Gender标签值向用户A#2推荐业务时，端侧设备可以根据标签值关联关系模型信息Xi，计算得到缺失的画像标签值Y＝5.3。

端侧的用户画像模块在进行用户画像时，需要获得用户的性别信息，由于用户可以选择不反馈性别、年龄、位置等个人隐私信息，因此用户的性别标签值可能存在缺失的情况。

在此情况下，当App#1中的广告推荐算法需要根据用户的画像向用户推荐某些业务时，由于该业务与用户的性别标签值存在依赖关系，当用户的画像标签数据中的性别标签值缺失时，根据该画像标签数据计算得到的用户画像难以满足业务的需求。

图4示出了本申请的数据处理的方法的示意性交互图。

在S401，端侧设备#1对第一画像标签数据进行差分加噪，以得到第二画像标签数据。

其中，第一画像标签数据包括第一类型标签的标签值、第二类型标签的标签值。

第一类型画像标签值与第一用户信息存在相关关系，第二类型画像标签值与用户信息不存在相关关系。

表5用户A#1的画像标签数据(差分加噪处理)

序号	画像标签	标签值
			1	Gender	5
2	App1	1→2
			3	App2	8
4	App3	15→13
			5	APP4	20
6	APP5	20
			7	APP6	20
8	APP7	20
			9	APP8	20

如表5所示，第一类型标签值可以是用户的性别标签值(Gender)、用户的年龄标签值(Year)、用户的位置标签值(Location)；第二类型标签值可以是用户的APP使用记录。

作为示例而非限定，端侧设备包括用户画像模块、差分隐私模块，其中用户画像模块可以判断采集到的标签组中的各标签值是否有缺失，如果没有缺失则将标签数据传给端侧差分隐私模块。端侧差分隐私模块对画像标签值进行差分加噪处理，端侧的差分隐私模块将差分加噪后的画像标签数据上传到云侧。

应理解，该第一画像标签数据不存在缺失的画像标签值，端侧设备采用差分隐私算法对第一画像标签数据集进行加噪处理，以得到第二画像标签数据。即，端侧设备采用差分隐私算法对该第一画像标签数据进行加密。

在S402，端侧设备向云侧设备发送第二画像标签数据。

端侧设备向云侧设备上传差分加噪后的画像标签数据，差分加噪确保用户的画像标签数据保持统计学的特征。

在S403，云侧设备获取第二画像标签数据，以得到第二画像标签数据集。

例如，云侧设备获取来自多个端侧设备上传的画像标签数据，以得到第二画像标签数据集。

这里的第二画像标签数据集可以作为画像标签值训练数据，由于云侧设备可以获取多个端侧设备上传的画像标签数据，该画像标签数据包括第一类型标签值、第二类型标签值，即该画像标签数据不存在缺失的画像标签值，因此，云侧设备可以根据该画像标签值训练数据生成标签值关联关系模型信息。

在S404，云侧设备对第二画像标签数据集进行差分降噪，以得到第一画像标签数据集。

如表5所示，采用差分加噪后的画像标签数据集无法还原出具体的个体数据，无法将画像标签数据和用户信息建立关联，即在获得样本群体特征的同时保护在样本中个体的隐私信息，从而保证了用户的隐私安全。

如表6所示，云侧设备周期性的对接收到的画像标签数据进行差分降噪处理。

表6用户A#1的画像标签数据(差分减噪处理)

序号	画像标签	标签值
			1	Gender	5
2	App1	2→1
			3	App2	8
4	App3	13→15
			5	APP4	20
6	APP5	20
			7	APP6	20
8	APP7	20
			9	APP8	20

在S405，云侧设备根据第一画像标签数据集中的第一类型标签的标签值、第二类型标签的标签值对用户的画像标签数据的关联关系模型进行训练，以得到标签值关联关系模型信息。

例如，云侧设备采用机器学习算法对差分降噪后的画像标签数据进行训练，计算出用户#A1的Gener标签值和App标签值的关联关系模型。

其中，Gener标签值与用户#A1的用户信息存在相关关系，App标签值与用户#A1的用户信息不存在相关关系。

用户画像标签数据集包括1000万用户画像标签样本，云侧设备采用线性回归算法对用户画像标签数据集进行训练，以得到Gener标签值和App标签值的标签值关联关系模型信息。

其中，标签值Xi属于第一类标签值，标签值Y属于第二类标签值，Ai为标签值Xi的权重系数。

如表5所示，云侧设备根据画像标签数据集中的Xi、Y计算得到Xi的权重系数，即目标变量与Xi的权重关系。

在S406，云侧设备向端侧设备#2发送标签值关联关系模型信息。

在S407，端侧设备#2根据关联关系模型、第一类型标签的标签值确定第二类型标签的标签值。

具体地，端侧设备判断用户的画像标签数据是否存在缺失画像标签值，当用户的画像标签数据中存在缺失画像标签值时，端侧设备根据该关联关系模型、已有画像标签值计算得到缺失画像标签值。

例如，端侧设备判断用户#A2的画像标签值中是否存在Gender标签值，当用户#A2的画像标签值中不存在Gender标签值时，将用户#A2的8个APP的标签值Xi带入计算得到Gender标签值Y＝5.3。

端侧设备将计算得到的Gender标签值写入本地画像库中的画像标签数据。

在本申请实施例中，计算得到的Gender标签值对应用户的性别标签值，当Gender标签值归一化得到的结果在0-0.5之间时可以定义为女性，当Gender标签值归一化得到的结果在0.5-1之间时可以定义为男性。例如，Gender标签值归一化得到的结果为0.53，在0.5-1之间，即计算得到用户缺失的性别标签值对应男性。

当运行于端侧的App中的App1的业务#1与用户的性别标签存在依赖关系时，即App1可以根据用户的性别采用相应的推荐算法向用户推荐业务#1。

由于用户可以不反馈性别信息，因此用户的性别标签值可能存在缺失的情况，本申请的数据处理方法可以根据用户已有的标签值、用户的标签值关联关系模型计算得到用户缺失的标签值，从而提高了端侧用户画像的能力和用户画像的准确率。

在本申请实施例中，由端侧进行用户画像，端侧通过云侧发送的标签关联关系模型计算得到缺失的用户画像标签值，在保护用户隐私的同时提高了用户画像的准确率。

作为示例而非限定，端侧设备的客户端App位于终端设备，该客户端可以是Web客户端，CS架构的客户端，也可以是其他服务器上的云侧服务。

例如，位于个人办公设备的Web客户端，位于浏览器的CS客户端。

图5示出了本申请的数据处理的方法的示意性流程图，该方法可以由云侧设备执行。

在S501，端侧设备接收来自云侧设备发送的标签值关联关系模型信息，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系。

在S502，端侧设备根据所述用户当前已存在的标签值和所述标签值关联关系模型，确定所述用户当前缺失的标签值，以得到所述用户的画像标签值集合。

图6示出了本申请的数据处理的方法的示意性流程图，该方法可以由云侧设备执行。

在S601，云侧设备获取画像标签值训练数据，所述画像标签值训练数据包括多个用户的画像标签数据。

如表2所示，用户A#1的画像标签数据包括Gender标签的标签值，App的标签值。

在S602，云侧设备根据所述画像标签值训练数据生成标签值关联关系模型信息，其中，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系。

如表5所示，云侧设备根据画像标签数据集中的Xi、Y计算得到Xi的权重系数Ai，即目标变量与Xi的权重关系。

在S604，云侧设备向端侧设备发送所述标签值关联关系模型信息。

在本申请实施例中，通过端侧设备向云侧设备上传差分加噪处理的画像标签数据，云侧设备对差分减噪处理的画像标签数据进行训练以得到关联关系模型，云侧设备向端侧设备发送用于处理缺失标签值的关联关系模型。从而，端侧设备根据该关联关系模型、第一类型标签的标签值确定第二类型标签的标签值，因此，本申请的数据处理的方法、端侧设备、云侧设备和端云协同系统可以实现在保护用户隐私的同时提高画像的准确率。

上文结合图3-图6对本申请实施例的数据处理方法进行了介绍，下文结合图7-图11，描述本申请实施例的端侧设备、云侧设备以及端云协同系统。

图7示出本申请实施例的端侧设备700的示意性框图，该端侧设备700包括：接收模块710、处理模块720、发送模块730。

在一种可能的设计中，该接收模块710，用于接收来自云侧设备发送的标签值关联关系模型信息，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；该处理模块720，用于根据所述用户当前已存在的标签值和所述标签值关联关系模型，确定所述用户当前缺失的标签值，以得到所述用户的画像标签值集合。

在一种可能的设计中，所述处理模块720还用于对所述用户的画像标签值集合中的画像标签值进行差分加噪处理，得到差分加噪处理后的画像标签数据；所述发送模块730用于向所述云侧设备发送所述差分加噪处理后的画像标签数据。

在一种可能的设计中，所述处理模块720还用于根据所述用户的画像标签值集合确定所述用户的用户画像。

其中，所述用户当前已存在的标签值属于第一类型标签值，所述用户当前缺失的标签值属于第二类型标签值；

可选的，所述第二类型标签值包括下列标签值中的至少一种：所述用户的性别标签值、所述用户的年龄标签值、所述用户的位置标签值。

如图8所示，本申请实施例还提供了一种端侧设备800，该端侧设备800包括处理器810、存储器820、接收器830和发送器840。其中，处理器810、存储器820、接收器830和发送器840通过内部连接通路互相通信，该存储器820用于存储指令，该处理器810用于执行该存储器820存储的指令，以控制接收器830接收信号，并控制发送器840发送信号。其中，该处理器810用于，根据所述用户当前已存在的标签值和所述标签值关联关系模型，确定所述用户当前缺失的标签值，以得到所述用户的画像标签值集合。

图9示出本申请实施例的端侧设备900的示意性框图，该端侧设备900包括：接收模块910、处理模块920、发送模块930。

在一种可能的设计中，该接收模块910，用于获取画像标签值训练数据，所述画像标签值训练数据包括多个用户的画像标签数据；该处理模块920，用于根据所述画像标签值训练数据生成标签值关联关系模型信息，其中，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型是根据所述画像标签值训练数据训练得到的，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；该发送模块930，用于向端侧设备发送所述标签值关联关系模型信息。

在一种可能的设计中，所述处理模块920还用于根据所述用户的画像标签值集合确定所述用户的用户画像。

如图10所示，本申请实施例还提供了一种端侧设备1000，该端侧设备1000包括处理器1010、存储器1020、接收器1030和发送器1040。其中，处理器1010、存储器1020、接收器1030和发送器1040通过内部连接通路互相通信，该存储器1020用于存储指令，该处理器1010用于执行该存储器1020存储的指令，以控制接收器1030接收信号，并控制发送器1040发送信号。该处理器1010用于，根据所述画像标签值训练数据生成标签值关联关系模型信息，其中，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型是根据所述画像标签值训练数据训练得到的，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；该发送器1040，用于向端侧设备发送所述标签值关联关系模型信息。

图11示出本申请实施例的端云协同协同1100的示意性框图，该端云协同协同1100包括端侧设备1111和云侧设备1120，其中，该端侧设备1111对应上文实施例中的端侧设备600或端侧设备700，该云侧设备1120对应上文实施例中的云侧设备800或云侧设备900。

应理解，在本申请实施例中，处理器可以是中央处理单元(central processingunit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable prom，EPROM)、电可擦除可编程只读存储器(electrically eprom，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static ram，SRAM)、动态随机存取存储器(dynamic ram，DRAM)、同步动态随机存取存储器(synchronous dram，SDRAM)、双倍数据速率同步动态随机存取存储器(double data ratesdram，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced sdram，ESDRAM)、同步连接动态随机存取存储器(synchlink dram，SLDRAM)和直接内存总线随机存取存储器(directrambus ram，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

还应理解，本文中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在上述各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在上述各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理的方法，其特征在于，包括：

端侧设备接收来自云侧设备发送的标签值关联关系模型信息，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；

所述端侧设备根据第一用户当前已存在的标签值和所述标签值关联关系模型，确定所述第一用户当前缺失的标签值，以得到所述第一用户的画像标签值集合。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述端侧设备根据所述第一用户的画像标签值集合确定所述第一用户的用户画像。

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述端侧设备对所述第一用户的画像标签值集合中的画像标签值进行差分加噪处理，得到差分加噪处理后的画像标签数据；

所述端侧设备向所述云侧设备发送所述差分加噪处理后的画像标签数据。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一用户当前已存在的标签值属于第一类型标签值，所述第一用户当前缺失的标签值属于第二类型标签值；

所述第二类型标签值包括下列标签值中的至少一种：所述第一用户的性别标签值、所述第一用户的年龄标签值、所述第一用户的位置标签值。

5.一种数据处理的方法，其特征在于，包括：

云侧设备获取画像标签值训练数据，所述画像标签值训练数据包括多个用户的画像标签数据；

云侧设备根据所述画像标签值训练数据生成标签值关联关系模型信息，其中，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型是根据所述画像标签值训练数据训练得到的，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；

所述云侧设备向端侧设备发送所述标签值关联关系模型信息。

6.如权利要求5所述的方法，其特征在于，所述云侧设备获取画像标签值训练数据，包括：

所述云侧设备接收来自多个端侧设备的画像标签数据，以得到所述画像标签值训练数据。

7.如权利要求5或6所述的方法，其特征在于，所述画像标签值训练数据中的画像标签数据是经过差分加噪处理后的画像标签数据，所述云侧设备根据所述画像标签值训练数据生成标签值关联关系模型信息，包括：

所述云侧设备对所述画像标签值训练数据中的画像标签数据进行差分降噪处理，以得到差分降噪处理后的画像标签数据；

所述云侧设备根据所述差分降噪处理后的画像标签数据生成标签值关联关系模型信息。

8.根据权利要求5-7中任一项所述的方法，其特征在于，所述第一用户当前已存在的标签值属于第一类型标签值，所述第一用户当前缺失的标签值属于第二类型标签值；

9.一种端侧设备，其特征在于，包括：

接收单元，用于接收来自云侧设备发送的标签值关联关系模型信息，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；

处理单元，用于根据第一用户当前已存在的标签值和所述标签值关联关系模型，确定所述第一用户当前缺失的标签值，以得到所述第一用户的画像标签值集合。

10.根据权利要求9所述的设备，其特征在于，所述处理单元还用于：根据所述第一用户的画像标签值集合确定所述第一用户的用户画像。

11.根据权利要求9或10所述的设备，其特征在于，所述设备还包括发送单元，

所述处理单元还用于对所述第一用户的画像标签值集合中的画像标签值进行差分加噪处理，得到差分加噪处理后的画像标签数据；

所述发送单元用于向所述云侧设备发送所述差分加噪处理后的画像标签数据。

12.根据权利要求9-11中任一项所述的设备，其特征在于，所述第一用户当前已存在的标签值属于第一类型标签值，所述第一用户当前缺失的标签值属于第二类型标签值；

13.一种云侧设备，其特征在于，包括：

接收单元，用于获取画像标签值训练数据，所述画像标签值训练数据包括多个用户的画像标签数据；

处理单元，用于根据所述画像标签值训练数据生成标签值关联关系模型信息，其中，所述标签值关联关系模型信息用于指示用户的标签值关联关系模型，所述标签值关联关系模型是根据所述画像标签值训练数据训练得到的，所述标签值关联关系模型包括所述用户的不同标签值之间的关联关系；

发送单元，用于向端侧设备发送所述标签值关联关系模型信息。

14.根据权利要求13所述的设备，其特征在于，所述接收单元具体用于：接收来自多个端侧设备的画像标签数据，以得到所述画像标签值训练数据。

15.根据权利要求13或14所述的设备，其特征在于，所述画像标签值训练数据中的画像标签数据是经过差分加噪处理后的画像标签数据，所述处理单元具体用于：

对所述画像标签值训练数据中的画像标签数据进行差分降噪处理，以得到差分降噪处理后的画像标签数据；

根据所述差分降噪处理后的画像标签数据生成标签值关联关系模型信息。

16.根据权利要求13-15中任一项所述的设备，其特征在于，所述第一用户当前已存在的标签值属于第一类型标签值，所述第一用户当前缺失的标签值属于第二类型标签值；

17.一种端云协同系统，其特征在于，包括如权利要求9至12中任一项所述的端侧设备与如权利要求13至16中任一项所述的云侧设备。