CN113362048B - 数据标签分布确定方法、装置、计算机设备和存储介质 - Google Patents

数据标签分布确定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113362048B
CN113362048B CN202110918917.XA CN202110918917A CN113362048B CN 113362048 B CN113362048 B CN 113362048B CN 202110918917 A CN202110918917 A CN 202110918917A CN 113362048 B CN113362048 B CN 113362048B
Authority
CN
China
Prior art keywords
initial
binning
ciphertext
information
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110918917.XA
Other languages
English (en)
Other versions
CN113362048A (zh
Inventor
范晓亮
蒋杰
程勇
刘煜宏
陈鹏
陶阳宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110918917.XA priority Critical patent/CN113362048B/zh
Publication of CN113362048A publication Critical patent/CN113362048A/zh
Application granted granted Critical
Publication of CN113362048B publication Critical patent/CN113362048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Operations Research (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种数据标签分布确定方法、装置、计算机设备和存储介质,该方法包括:获取标签方设备对多个样本标识对应的样本标签进行同态加密处理后发送的标签密文信息;获取样本特征集合对应的初始分箱信息,样本特征集合包括多个样本标识对应的样本特征,初始分箱信息包括各个样本特征对应的初始分箱;基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理得到目标密文统计信息序列;获取标签方设备对目标密文统计信息序列进行同态解密处理后返回的目标解密统计信息序列,对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。采用本方法能提高数据交互安全性。

Description

数据标签分布确定方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据标签分布确定方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,可以在网络上传输、存储的数据日益增长。不同公司不同部门之间通常存储、维护着不同的数据,例如,部门A存储有样本的标签,部门B存储有样本的特征。
基于业务需求,不同公司不同部门之间有些时候需要进行数据交互,联合对方的数据进行数据分析,例如,部门B可以借助部门A的标签数据确定本地样本标签的分布情况。然而,存储、维护着不同数据的持有方之间通常是独立维护各自的数据,若直接进行数据交互,不利于维护双方的数据隐私,会导致数据泄露,存在一定的安全隐患。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据交互安全性的数据标签分布确定方法、装置、计算机设备和存储介质。
一种数据标签分布确定方法,应用于特征方设备,所述方法包括:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;
对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;
将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种数据标签分布确定装置,所述装置包括:
标签密文获取模块,用于获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;
分箱信息获取模块,用于获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
密文统计模块,用于基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;
密文混淆模块,用于对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;
密文解密模块,用于将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
标签分布确定模块,用于获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;
对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;
将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;
对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;
将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种数据标签分布确定方法,应用于标签方设备,所述方法包括:
获取与所述标签方设备对应的多个样本标识匹配的样本标签;
对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种数据标签分布确定装置,所述装置包括:
标签获取模块,用于获取与标签方设备对应的多个样本标识匹配的样本标签;
标签密文生成模块,用于对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
标签密文发送模块,用于将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
信息解密模块,用于获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
解密信息发送模块,用于将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与所述标签方设备对应的多个样本标识匹配的样本标签;
对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取与所述标签方设备对应的多个样本标识匹配的样本标签;
对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
上述数据标签分布确定方法、装置、计算机设备和存储介质,存储有样本特征的特征方设备和存储有样本标签的标签方设备之间不传输明文数据,标签方设备将样本标签进行同态加密处理后再发送至特征方设备。特征方设备可以基于标签方设备发送的标签密文信息和本地的初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,将目标密文统计信息序列发送至标签方设备。特征方设备获取标签方设备对目标密文统计信息序列进行同态解密处理得到的目标解密统计信息序列,特征方设备对目标解密统计信息序列进行还原处理可以得到各个初始分箱对应的初始标签分布信息。这样,借助标签方设备的样本标签,特征方设备可以确定各个样本标识在初始分箱中的标签分布情况。并且,通过同态加密处理,特征方设备无法获知标签方设备存储的样本标签数据,通过混淆处理,标签方设备也无法获知特征方设备的初始标签分布信息,结合同态加密和数据混淆可以有效维护双方的数据隐私,保障数据安全,提高数据交互安全性。
附图说明
图1为一个实施例中数据标签分布确定方法的应用环境图;
图2为一个实施例中数据标签分布确定方法的流程示意图;
图3A为一个实施例中确定目标分箱信息的流程示意图;
图3B为一个实施例中确定目标分箱信息的流程示意图;
图3C为一个实施例中确定目标分箱信息的流程示意图;
图4为一个实施例中确定有效样本特征的流程示意图;
图5为一个实施例中基于联邦学习训练模型的流程示意图;
图6为另一个实施例中数据标签分布确定方法的流程示意图;
图7A为一个实施例中特征方设备和标签方设备进行数据交互的时序示意图;
图7B为另一个实施例中特征方设备和标签方设备进行数据交互的时序示意图;
图8为一个实施例中数据标签分布确定装置的结构框图;
图9为另一个实施例中数据标签分布确定装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习、联邦学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习、大数据处理等技术,具体通过如下实施例进行说明:
本申请提供的数据标签分布确定方法,可以应用于如图1所示的应用环境中。其中,特征方设备102通过网络与标签方设备104进行通信。特征方设备102和标签方设备104可以是计算机设备,计算机设备具体可以是终端,也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。可以理解,特征方设备102可以为至少一个,标签方设备104也可以为至少一个,一个特征方设备可以和至少一个标签方设备进行数据交互,一个标签方设备也可以和至少一个特征方设备进行数据交互。
特征方设备是指存储有样本对应的样本特征,但是没有存储样本对应的样本标签的设备。标签方设备是指存储有样本对应的样本标签的设备。样本可以是有生命的个体,例如,用户、动物、植物。样本也可以是物品,例如,工厂中的各种机械设备、电子设备。样本特征是指用于描述样本属性、特性的特征信息,例如,当样本为用户时,可以将用户的年龄、性别、收入、学历、职位等用户属性信息作为用户的样本特征。样本标签是指用于标识样本分类结果的标签,例如,当样本为用户时,样本标签可以是用户是否点击文章的行为标签,具体包括点击标签和非点击标签。
具体地,标签方设备获取与标签方设备对应的多个样本标识匹配的样本标签,对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息。标签方设备将标签密文信息发送至特征方设备。特征方设备获取样本特征集合对应的初始分箱信息,样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱。特征方设备基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,将目标密文统计信息序列发送至标签方设备。标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,将目标解密统计信息序列发送至特征方设备。特征方设备对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。后续,特征方设备可以对初始分箱信息进行调整得到目标分箱信息,基于目标分箱信息进行资源推荐、数据分类等处理。特征方设备也可以基于目标分箱信息确定样本特征的有效性,利用机器学习技术将有效样本特征应用于模型训练。
进一步的,在联邦学习中,特征方设备具体可以是指Host方,Host方存储有样本特征,但是没有存储样本标签,标签方设备具体可以是指Guest方,Guest方存储有样本标签。以虚拟资源转移应用场景为例,Guest方具体可以是指虚拟资源转移机构(例如银行),持有用户转移虚拟资源是否逾期的用户行为标签。Host方可以是社交平台,持有用户的用户属性特征,例如,用户的年龄、性别、收入、学历、职位等用户属性特征。以用户年龄为例,Host方可以对多个用户的用户年龄进行初始分箱处理,得到多个初始分箱,不同的初始分箱对应不同的年龄范围,用户根据用户年龄归入对应的初始分箱。Host方可以从Guest方获取各个用户的用户行为标签密文,其中,用户行为标签密文是Guest方对用户行为标签进行同态加密处理得到的。Host方可以基于用户行为标签密文计算各个初始分箱分别对应的初始密文统计信息,对初始密文统计信息进行混淆处理得到目标密文统计信息序列,并将目标密文统计信息序列发送至Guest方。Guest方对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,并将目标解密统计信息序列返回给Host方。Host方对目标解密统计信息序列进行还原处理,可以得到各个初始分箱对应的初始标签分布信息,例如,用户年龄范围为30-40岁的初始分箱对应的初始标签分布信息为初始分箱中80%用户的用户行为标签为非逾期,20%用户的用户行为标签为逾期。这样,在不获知各个用户分别对应的用户行为标签的情况下,Host方可以借助Guest方存储的用户行为标签来确定本地用户属性特征的标签分布情况。后续,Host方可以基于用户属性特征的标签分布信息为用户分配在社交平台上进行虚拟资源转移的转移权限。转移权限具体可以是虚拟资源转移数值上限,虚拟资源转移时间期限等。例如,根据初始标签分布信息可知30-40岁的用户在进行虚拟资源转移时不逾期的比例较高,社交平台就可以为用户年龄在30-40岁之间的用户设置较高的虚拟资源转移数值上限。当然,Host方在获取标签分布信息后,也可以联合Guest方基于联邦学习进行用户行为标签预测模型的模型训练。
进一步的,本申请的数据标签分布确定方法中初始分箱信息、各个初始分箱对应的初始标签分布信息、目标分箱信息、各个目标分箱对应的目标标签分布信息等数据可以存储在区块链上。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
在一个实施例中,如图2所示,提供了一种数据标签分布确定方法,以该方法应用于图1中的特征方设备为例进行说明,包括以下步骤:
步骤S202,获取标签方设备发送的标签密文信息,标签密文信息包括与标签方设备对应的多个样本标识匹配的标签密文,标签密文是标签方设备对样本标识对应的样本标签进行同态加密处理得到的。
其中,特征方设备是指不持有样本标签,但持有样本特征的设备,标签方设备是指持有样本标签的设备。特征方设备和标签方设备之间可以存储有相同样本标识对应的数据,也可以存储有不同样本标识对应的数据。
样本标识是一种标识,用于唯一标识样本,具体可以包括字母、数字和符号中至少一种字符的字符串,例如用户ID、设备ID等。样本可以是有生命的个体,例如,用户、动物、植物。样本也可以是物品,例如,工厂中的各种机械设备、电子设备。样本标签用于标识样本的分类结果,例如,样本标签可以是样本的行为标签、情感标签等,也可以是样本的事件标签等多种类型的标签。行为标签是用于描述个体行为的标签,例如,用户是否点击某一文章的行为标签可以分为点击标签和非点击标签,用户支付是否逾期的行为标签可以分为逾期标签和非逾期标签,植物是否向阳生长的行为标签可以分为向阳标签和非向阳标签。情感标签是用于描述个体情感的标签,例如,用户对体育类新闻的情感标签可以分为喜爱标签和不喜爱标签。事件标签是用于描述物品事件的标签,例如,电子设备的质检事件结果可以分为合格和不合格。样本标签具体可以是二分类标签,二分类标签包括正标签和负标签,例如,将点击标签作为正标签,将非点击标签作为负标签,正标签可以用1表示,负标签可以用0表示。样本特征是用于描述样本属性的特征信息。例如,当样本为用户时,可以将用户的身份证号码、手机号、工号等信息作为用户标识,将用户的年龄、性别、收入、学历、职位等用户属性信息作为用户特征;当样本为植物时,可以将植物的地理位置、编号作为植物标识,将植物的年龄、类别、颜色、地理位置等信息作为植物特征;当样本为机械设备时,可以将设备的生产编号、二维码等信息作为设备标识,将设备的投入使用时间、类别、生产商、检修次数等信息作为设备特征。
标签密文是指加密后的样本标签,是标签方设备对样本标签进行同态加密处理得到的。标签密文信息包括标签方设备对应的多个样本标识所对应的标签密文,也就是,标签密文信息包括由标签方设备计算得到的多个样本标签对应的标签密文,各个标签密文可以携带对应的样本标识。标签密文信息可以认为是标签密文集合。同态加密处理是指通过同态加密技术对样本标签进行加密。同态加密技术是基于数学难题的计算复杂性理论的密码学技术。同态加密技术存在很多同态加密性质,例如对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。例如,A和B是明文数据,[A]和[B]是A、B分别对应的同态密文数据,对密文数据求和得到[C],对[C]进行解密得到的结果为明文数据的求和结果C,即,[A]+[B]=[C],A+B=C,[C]是C对应的同态密文数据。对明文数据添加随机数再进行同态加密的处理结果和对密文数据添加随机数得到的结果一致,[A] + B = [A + B]。对明文数据与随机数相乘再进行同态加密的处理结果和对密文数据与随机数相乘得到的结果一致,[A] *B = [A *B]等。
具体地,在特征方设备需要借助标签方设备的数据确定本地数据的标签分布情况时,特征方设备可以从标签方设备获取标签密文信息,标签密文信息包括与标签方设备对应的多个样本标识匹配的标签密文。标签方设备可以在本地获取预先存储的多个样本标识对应的样本标签,对样本标签进行同态加密处理得到标签密文,多个标签密文组成标签密文信息。标签方设备也可以从其他设备获取多个样本标识对应的样本信息,对样本信息进行标签提取得到样本标签,对提取到的样本标签进行同态加密处理得到标签密文信息。其中,样本信息是对样本进行信息采集得到的,可以包括文字信息、图片信息、视频信息和音频信息中的至少一种。例如,标签方设备获取包含样本对象的视频,视频携带样本标识,对视频中的样本对象进行行为识别或情感识别,得到样本标签。标签方设备也可以将本地的样本标签和提取到的样本标签进行同态加密处理得到标签密文信息。
可以理解,标签方设备在进行同态加密处理时可以采用理想格全同态加密算法、整数全同态加密算法、整数环全同态加密算法等同态加密算法,本申请实施例对标签方设备所采取的同态加密算法不做限定。
步骤S204,获取样本特征集合对应的初始分箱信息,样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱。
其中,样本特征集合包括特征方设备对应的多个样本标识的样本特征。特征方设备可以在本地获取预先存储的多个样本标识对应的样本特征组成样本特征集合。特征方设备也可以从其他设备获取多个样本标识对应的样本信息,对样本信息进行特征提取得到样本特征,各个样本标识对应的样本特征组成样本特征集合。例如,特征方设备从终端获取人脸图像,人脸图像携带用户标识,对人脸图像进行特征提取,得到该用户标识对应的身份特征(例如,年龄、性别、职位等)。特征方设备也可以基于本地的样本特征和获取到的样本特征得到样本特征集合。样本特征集合可以包括多个样本标识分别对应的至少一个特征维度的样本特征。
初始分箱信息是指对样本特征进行初始分箱处理得到的信息。初始分箱信息可以包括至少两个初始分箱的分箱信息。一个初始分箱的分箱信息可以包括属于同一初始分箱的各个样本特征、各个样本特征对应的样本标识、初始分箱中样本特征数量、样本特征范围、初始分箱标识等信息。可以理解,不同特征维度的样本特征是分开进行初始分箱处理的。若样本特征集合包括至少两个特征维度的样本特征,对一个特征维度的样本特征进行初始分箱处理得到该特征维度对应的第一分箱信息,各个特征维度对应的第一分箱信息组成样本特征集合对应的初始分箱信息。初始分箱信息包括各个样本特征对应的初始分箱,也就是,各个样本特征归入哪一个初始分箱。初始分箱处理是指对样本特征进行分组,将杂乱的样本特征分配到若干个有序排列的箱子中。例如,将100个用户的年龄平均分为5组,那么可以得到5个初始分箱,每个初始分箱中包括20个用户的年龄信息,5个初始分箱对应的年龄范围是依次递增的。可以理解,一个特征维度对应的多个初始分箱是存在排列顺序的,各个初始分箱是按照特征值从小到大依次排列的。
具体地,特征方设备可以获取多个样本标识对应的样本特征,对样本特征进行初始分箱处理得到初始分箱信息。特征方设备可以预先进行初始分箱处理,得到初始分箱信息,后续若特征方设备获取到标签密文信息,特征方设备可以直接获取初始分箱信息。特征方设备也可以在获取到标签明文信息后,对样本特征进行初始分箱处理得到初始分箱信息。
在一个实施例中,为了提高数据处理效率,特征方设备和标签方设备可以预先确定双方共有的样本标识,只对双方共有的样本标识对应的数据进行处理,从而避免盲目进行同态加密处理和初始分箱处理。特征方设备可以发送第一样本标识集合到标签方设备,以使标签方设备将第二样本标识集合和第一样本标识集合求交集,得到多个目标样本标识,目标样本标识为双方共有的样本标识,第一样本标识集合中的样本标识为特征方设备对应的样本标识,第二样本标识集合中的样本标识为标签方设备对应的样本标识。同理,标签方设备也可以发送第二样本标识集合到特征方设备集合,以使特征方设备将第一样本标识集合和第二样本标识集合求交集,得到多个目标样本标识。当然,为了进一步保护特征方设备和标签方设备之间的数据隐私,特征方设备和标签方设备之间可以采取加密传输,也可以借助可信的第三设备确定特征方设备和标签方设备共有的样本标识,第三设备分别向特征方设备和标签方设备返回目标样本标识。这样,特征方设备和标签方设备都不会获知对方在目标样本标识之外的样本标识。后续,标签方设备可以对目标样本标识对应的样本标签进行同态加密处理得到标签密文,并组成标签密文信息,将标签密文信息发送至特征方设备。特征方设备可以对目标样本标识对应的样本特征进行初始分箱处理得到初始分箱信息。
步骤S206,基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息。
其中,初始密文统计信息是对初始分箱中多个样本特征对应的样本标识的标签密文进行统计得到的信息,例如,可以对初始分箱中多个样本特征对应的样本标识的标签密文进行求和,得到对应的初始密文统计信息,也可以对初始分箱中多个样本特征对应的样本标识的标签密文进行求和,得到初始标签密文和,对初始标签密文和取平均值,得到初始标签密文均值,基于初始标签密文和以及初始标签密文均值得到初始密文统计信息。
具体地,特征方设备可以基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息。若标签密文信息和初始分箱信息对应的样本标识一致,例如,特征方设备和标签方设备预先对样本标识进行了求交集处理,那么特征方设备可以直接从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息,以此类推,得到各个初始分箱对应的初始密文统计信息。不论标签密文信息和初始分箱信息对应的样本标识是否一致,特征方设备也可以将标签密文信息中各个样本标识和初始分箱信息中各个样本标识求交集,将交叉的样本标识作为目标样本标识,从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息,以此类推,得到各个初始分箱对应的初始密文统计信息。
步骤S208,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
其中,混淆处理是指对各个初始密文统计信息进行重新组合和处理,使得初始分箱信息、初始标签分布信息不被标签方设备获知,保护数据的安全。目标密文统计信息序列是由多个目标密文统计信息组成的序列。各个目标密文统计信息存在对应的初始密文统计信息。
具体地,得到各个初始密文统计信息后,特征方设备可以对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。特征方设备具体可以是对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息,基于各个目标密文统计信息得到目标密文统计信息序列,例如,特征方设备可以将各个目标密文统计信息按照初始分箱顺序进行排序得到目标密文统计信息序列,特征方设备也可以对各个目标密文统计信息进行随机排序,得到目标密文统计信息序列。特征方设备也可以先对各个初始密文统计信息进行随机排序,再进行噪声添加,得到目标密文统计信息序列。特征方设备也可以将初始密文统计信息两两组合,组成多个初始密文统计信息对,对各个初始密文统计信息对进行加减运算,得到初始密文统计信息和与初始密文统计信息差,基于各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差得到目标密文统计信息序列。例如,一个初始密文统计信息对为[A]和[B],初始密文统计信息和为[A]+[B],初始密文统计信息差为[A]-[B]。其中,两两组合可以是按照初始分箱顺序首尾两两组合,也可以是按照初始分箱顺序依次两两组合,也可以是随机组合。可以理解,针对奇数个初始密文统计信息,其中一个初始密文统计信息可以不进行组合。
步骤S210,将目标密文统计信息序列发送至标签方设备,以使标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。
其中,同态解密处理是同态加密处理的逆过程,可以将密文数据解密为明文数据。目标解密统计信息序列是由多个初始解密统计信息组成的序列。各个初始解密统计信息存在对应的目标密文统计信息。
具体地,特征方设备得到目标密文统计信息序列后,特征方设备可以将目标密文统计信息序列发送至标签方设备,由标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。例如,目标密文统计信息序列包括[A]- [B]- [C]-[D],[A]、[B]、[C]和[D]分别表示A、B、C、D对应的密文数据,标签方设备分别对各个目标密文统计信息进行同态解密处理,得到各个目标密文统计信息对应的初始解密统计信息,目标解密统计信息序列为A-B-C-D。可以理解,由于特征方设备对初始密文统计信息进行了混淆处理,隐藏了初始分箱信息,因此即使标签方设备得到目标解密统计信息序列,标签方设备也无法获知初始分箱的有关信息。
步骤S212,获取标签方设备返回的目标解密统计信息序列,对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
其中,还原处理是混淆处理的逆过程,可以将混淆数据还原为原始数据。举例说明,若混淆处理为先进行噪声添加,再进行随机排序,那么还原处理可以是先还原出原始排序,再进行噪声去除。若混淆处理为先进行随机排序,再进行噪声添加,那么还原处理可以是先进行噪声去除,再还原出原始排序。若混淆处理为先进行两两组合,再进行加减运算,那么还原处理可以是先进行数学运算,再还原出原始排序。
初始标签分布信息是指初始分箱中样本特征对应的样本标识的标签分布情况。初始标签分布信息可以包括正负标签的数量、正负标签的局部比例、正负标签的全局比例等信息。标签的局部比例是指某一初始分箱的某一标签在该初始分箱中所占的比例,标签的全局比例是指某一初始分箱的某一标签在所有初始分箱中所占的比例。可以理解,若正标签用1表示,负标签用0表示,不同样本标识对应的同一种标签的标签密文可以相同可以不同,此时,一个初始分箱对应的初始密文统计信息的解密结果可以表示该初始分箱中正标签的数量,此时,基于初始分箱中样本特征数量也可以得到该初始分箱中负标签的数量。可以理解,正标签也可以用0表示,负标签也可以用1表示。
具体地,特征方设备接收标签方设备发送的目标解密统计信息序列,特征方设备可以对目标解密统计信息序列进行还原处理,得到各个初始密文统计信息对应的目标解密统计信息,基于各个初始分箱对应的目标解密统计信息得到各个初始分箱对应的初始标签分布信息。例如,针对初始密文统计信息对([A]和[B],[A]为第一初始分箱对应的初始密文统计信息,[B]为第二初始分箱对应的初始密文统计信息),初始密文统计信息和为[A]+[B],初始密文统计信息差为[A]-[B],初始密文统计信息和对应的目标解密统计信息为C=A+B,初始密文统计信息差对应的目标解密统计信息为D=A-B,特征方设备基于目标解密统计信息可以得到相应初始分箱对应的初始标签分布信息,第一初始分箱对应的初始标签分布信息A=(C+D)/2,第二初始分箱对应的初始标签分布信息B=(C-D)/2。
在一个实施例中,初始标签分布信息可以用于标签预测、样本分类。若一个初始分箱对应的初始标签分布信息中正标签的数量大于负标签的数量,那么当一个待分类样本标识对应的样本特征位于该初始分箱对应的样本特征范围内,那么该待分类样本标识对应的样本标签为正标签的概率大于为负标签的概率,可以粗略判断该待分类样本标识对应的样本标签为正标签。
在一个实施例中,初始分箱可能不是最优分箱,最优分箱可以使分箱之间的差异化比较明显,使各个分箱比较准确地反映不同群体的特质。特征方设备可以基于初始标签分布信息对初始分箱信息进行调整,得到分箱更准确的目标分箱信息。目标分箱可以认为是最优分箱。目标分箱信息对应的各个目标分箱的目标标签分布信息也可以用于标签预测、样本分类。可以理解,目标标签分布信息的标签预测准确性高于初始标签分布信息的标签预测准确性,即目标分箱信息的标签预测准确性高于初始分箱信息的标签预测准确性。
在一个实施例中,目标标签分布信息还可以用于确定样本特征的标签预测能力,确定样本特征对于样本分类结果的影响度。特征方设备可以基于一个特征维度的各个目标分箱的目标标签分布信息计算该特征维度的样本特征对应的样本分类影响度,当样本分类影响度在预设阈值范围内时,特征方设备可以确定该特征维度的样本特征为有效样本特征,有效样本特征对样本分类结果的影响度在合理范围内。有效样本特征可以应用于样本分类模型的模型训练。其中,样本分类影响度可以是基于目标分箱价值信息得到的,例如将目标分箱价值信息作为样本分类影响度。目标分箱价值信息可以是基于各个目标分箱对应的目标标签分布差异计算得到的,例如,对目标标签分布差异进行加权求和得到目标分箱价值信息,权重可以是预设权重,也可以是根据自定义公式计算得到。目标分箱价值信息也可以是基于各个目标分箱对应的目标标签分布信息和目标标签分布差异计算得到的,例如,基于目标标签分布信息计算目标标签分布差异对应的权重,基于计算得到的权重对各个目标标签分布差异进行加权求和得到目标分箱价值信息。当然,样本分类影响度也可以是基于其他自定义算法或公式计算得到的数据。
举例说明数据标签分布确定方法的整体技术方案,在资源推荐应用场景下,特征方设备可以存储有多个用户标识对应的用户年龄,标签方设备存储有各个用户标识对应的用户行为标签,用户行为标签表示用户是否点击待推送资源。在保护特征方设备和标签方设备的数据隐私的基础上,特征方设备可以借助标签方设备来确定本地用户标识对应的标签分布信息。标签方设备对各个用户标识对应的用户行为标签进行同态加密处理得到各个用户标识对应的标签密文,各个标签密文组成标签密文信息,并发送至特征方设备。特征方设备对各个用户标识对应的年龄信息进行初始分箱处理,得到年龄特征维度对应的年龄分箱信息,年龄分箱信息包括多个有序排列的初始分箱,具体为第一初始分箱包括0-20岁对应的用户标识,第二初始分箱包括20-40岁对应的用户标识,第三初始分箱包括40-60岁对应的用户标识。特征方设备基于标签密文信息和年龄特征维度对应的年龄分箱信息得到各个初始分箱对应的初始密文统计信息,特征方设备对各个初始密文统计信息进行噪声添加和随机排序,得到目标密文统计信息序列。特征方设备将目标密文统计信息序列发送至标签方设备,标签方设备对目标密文统计信息序列进行同态解密处理得到目标解密统计信息序列。特征方设备获取标签方设备返回的目标解密统计信息序列,对目标解密统计信息序列进行排序还原和噪声去除,得到各个初始分箱对应的初始标签分布信息。各个初始标签分布信息具体可以包括第一初始分箱对应的正负标签数量,第二初始分箱对应的正负标签数量,第三初始分箱对应的正负标签数量。这样,在特征方设备和标签方设备的整个交互过程中,特征方设备只是知道各个初始分箱对应的初始标签分布信息,并不知道各个样本标识对应的具体样本标签,保护了标签方设备的数据安全。同时,标签方设备并不知道特征方设备的初始分箱信息以及准确的初始标签分布信息,保护了特征方设备的数据安全。后续初始标签分布信息可以应用于资源推荐,例如,根据待分类用户标识对应的待分类用户年龄所属分箱的初始标签分布信息判断该待分类用户标识对应的用户行为标签。
上述数据标签分布确定方法中,存储有样本特征的特征方设备和存储有样本标签的标签方设备之间不传输明文数据,标签方设备将样本标签进行同态加密处理后再发送至特征方设备。特征方设备可以基于标签方设备发送的标签密文信息和本地的初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,将目标密文统计信息序列发送至标签方设备。特征方设备获取标签方设备对目标密文统计信息序列进行同态解密处理得到的目标解密统计信息序列,特征方设备对目标解密统计信息序列进行还原处理可以得到各个初始分箱对应的初始标签分布信息。这样,借助标签方设备的样本标签,特征方设备可以确定各个样本标识在初始分箱中的标签分布情况。并且,通过同态加密处理,特征方设备无法获知标签方设备存储的样本标签数据,通过混淆处理,标签方设备也无法获知特征方设备的初始标签分布信息,结合同态加密和数据混淆可以有效维护双方的数据隐私,保障数据安全,提高数据交互安全性。
在一个实施例中,获取样本特征集合对应的初始分箱信息,包括:
对样本特征集合进行初始分箱处理,得到至少两个初始分箱;初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;基于各个初始分箱得到初始分箱信息。
其中,等频分箱处理是指对同一特征维度的样本特征从小到大排序,使用预设频率对样本特征进行分箱处理,使得每个初始分箱具有数量相同的样本特征。等长分箱处理是指对同一特征维度的样本特征从小到大排序,将样本特征取值区间进行等分处理,得到多个初始分箱,使得每个初始分箱对应的样本特征范围相同,各个样本特征根据其取值落到对应的初始分箱中。任意分割点分箱处理是指对同一特征维度的样本特征从小到大排序,将样本特征取值区间进行随机分割,得到多个初始分箱,各个样本特征根据其取值落到对应的初始分箱中。
举例说明,假设有100个用户分别对应的用户标识和用户年龄,用户年龄总区间为10-59岁,将100个用户的用户年龄从小到大进行排序。等频分箱处理可以是根据排序结果,每10个用户的用户年龄落入一个初始分箱中,得到5个初始分箱。等长分箱处理可以是对用户年龄总区间进行等分处理,得到5个初始分箱,每个初始分箱对应的用户年龄区间为10-19岁、20-29岁、30-39岁、40-49岁、50-59岁,各个用户年龄根据其取值落到对应的初始分箱中。任意分割点分箱处理可以是对用户年龄总区间进行随机分割,得到5个初始分箱,每个初始分箱对应的用户年龄区间为10-29岁、30-36岁、37-39岁、40-50岁、51-59岁,各个用户年龄根据其取值落到对应的初始分箱中。
具体地,特征方设备可以对样本特征集合进行初始分箱处理,得到至少两个初始分箱。若样本特征集合中只包括一个特征维度对应的样本特征,那么可以得到至少两个初始分箱,若样本特征集合中包括至少两个特征维度对应的样本特征,那么各个特征维度可以分别对应至少两个初始分箱。特征方设备基于各个初始分箱可以得到初始分箱信息,初始分箱信息可以包括各个初始分箱对应的样本特征、各个样本特征对应的样本标识、样本特征数量、样本特征范围、初始分箱标识等信息。其中,初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种。
本实施例中,在对样本特征集合进行初始分箱处理时支持多样的初始分箱处理方式,灵活性较高。
在一个实施例中,对样本特征集合进行初始分箱处理,得到至少两个初始分箱,包括:
从样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集;对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱;基于各个第一分箱信息得到初始分箱信息。
其中,样本特征集合可以包括至少一个特征维度的样本特征。样本特征子集包括属于同一特征维度的多个样本特征。第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱。
具体地,若样本特征集合包括不同特征维度的样本特征,需要对不同特征维度的样本特征分别进行初始分箱处理。特征方设备可以从样本特征集合中获取同一特征维度的样本特征组成样本特征子集,从而得到各个特征维度分别对应的初始样本特征子集。特征方设备对各个初始样本特征子集进行初始分箱处理,得到各个特征维度分别对应的第一分箱信息,初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种。最后,特征方设备基于各个第一分箱信息得到样本特征集合对应的初始分箱信息。
在一个实施例中,特征方设备可以基于初始分箱数对各个初始样本特征子集进行初始分箱处理,使得各个第一分箱信息中初始分箱的总分箱数量为该初始分箱数。具体地,特征方设备根据初始分箱数M对Xi(特征维度i对应的初始样本特征子集)进行初始分箱处理,经过初始分箱处理后,连续型特征被转换成离散型特征,取值范围为0到M-1,也就是,落入同一初始分箱的样本特征的取值可以转换为初始分箱对应的初始分箱标识。初始分箱标识可以根据初始分箱的排列顺序确定。例如,排序第一的初始分箱对应的初始分箱标识为0,排序第二的初始分箱对应的初始分箱标识为1,以此类推。若用户a的用户年龄A落入排序第一的初始分箱,那么用户a的用户年龄A可以转换为0,若用户a的用户年龄A落入排序第四的初始分箱,那么用户a的用户年龄A可以转换为3。其中,初始分箱数可以根据实际需要进行设置,例如设置为默认值。初始分箱数也可以基于样本分类模型的模型参数进行设置,以便后续进行模型训练,便于在模型训练时计算各种中间数据。
本实施例中,不同特征维度的样本特征分别进行初始分箱处理,可以提高分箱处理的准确性。
在一个实施例中,基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,包括:
将标签方设备对应的各个样本标识和特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识;从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文;对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息。
具体地,在获取到标签密文信息和初始分箱信息后,特征方设备可以根据同一样本标识对应的标签密文和样本特征得到初始分箱对应的初始密文统计信息。由于特征方设备对应的样本标识和标签方设备对应的样本标识可以存在部分不一致的样本标识,因此特征方设备需要从中确定双方共有的样本标识。特征方设备可以将标签方设备对应的各个样本标识和特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识,交叉的样本标识就是双方共有的样本标识。在计算初始分箱对应的初始密文统计信息时,特征方设备可以从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息,以此类推,特征方设备最终可以得到各个初始分箱分别对应的初始密文统计信息。其中,特征方设备对各个目标标签密文进行统计具体可以是计算各个目标标签密文的总和、平均值等。
本实施例中,基于双方交叉的样本标识对初始分箱对应的各个标签密文进行统计,可以得到各个初始分箱分别对应的初始密文统计信息。
在一个实施例中,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:
对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息;基于各个目标密文统计信息得到目标密文统计信息序列。
其中,噪声添加是指在初始密文统计信息中加入干扰信号,从而隐藏初始密文统计信息。干扰信号具体可以是随机数,对各个初始密文统计信息进行噪声添加具体可以是将初始密文统计信息和随机数相加,也可以是将初始密文统计信息和随机数相减。不同的初始密文统计信息对应的随机数可以相同可以不同。
具体地,在进行混淆处理时,特征方设备可以给初始密文统计信息添加噪声,例如,特征方设备可以为各个初始密文统计信息生成随机数,利用同态加密的性质,将各个初始密文统计信息和对应的随机数相加,从而得到各个初始密文统计信息对应的目标密文统计信息。特征方设备可以基于各个目标密文统计信息得到目标密文统计信息序列,例如,可以将各个目标密文统计信息按照初始分箱顺序组成目标密文统计信息序列,也可以将各个目标密文统计信息随机排序组成目标密文统计信息序列。
本实施例中,对各个初始密文统计信息进行噪声添加,可以将初始密文统计信息隐藏起来,从而保护特征方设备的数据安全。
在一个实施例中,基于各个目标密文统计信息得到目标密文统计信息序列,包括:
对各个目标密文统计信息进行随机排序,得到目标密文统计信息序列。
具体地,在基于各个目标密文统计信息得到目标密文统计信息序列时,为了进一步增加数据复杂度,特征方设备可以对各个目标密文统计信息进行随机排序,打乱顺序,得到目标密文统计信息序列。
举例说明,对样本特征集合进行初始分箱处理,得到m个初始分箱。初始密文统计信息依次为Enc(histogram(0))、Enc(histogram(1))、Enc(histogram(2))、……、Enc(histogram(m-1))。Enc(histogram(i))表示第i个初始分箱对应的初始密文统计信息,即密文数据,histogram(i)表示第i个初始分箱对应的初始标签分布信息,即明文数据。为了保护histogram(i)不被标签方设备获取,特征方设备可以为每个初始分箱生成一个随机数R(i),利用同态加密的性质([A] + B = [A + B]),将随机数和初始密文统计信息相加,得到目标密文统计信息。目标密文统计信息依次为Enc(histogram(0))+R(0)、Enc(histogram(1))+R(1)、Enc(histogram(2))+R(2)、……、Enc(histogram(m-1))+R(m-1)。为了保护初始分箱的顺序,特征方设备可以对目标密文统计信息进行随机排序,并记录排序前后的对应关系(即排序映射信息),以便后续能够还原出原始数据。特征方设备对目标密文统计信息进行随机排序得到的目标密文统计信息序列可以为Enc(histogram(7))+R(7)、Enc(histogram(2))+R(2)、Enc(histogram(5))+R(5)、……、Enc(histogram(1))+R(1)
本实施例中,对各个目标密文统计信息进行随机排序,可以得到更复杂的目标密文统计信息序列,进一步将初始密文统计信息隐藏起来,保护特征方设备的数据安全。
在一个实施例中,对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息,包括:
获取排序映射信息;排序映射信息是基于初始密文统计信息的初始排序信息和初始密文统计信息对应的目标密文统计信息的目标排序信息生成的;基于排序映射信息对目标解密统计信息序列进行排序还原,得到初始解密统计信息序列;对初始解密统计信息序列中各个初始解密统计信息进行噪声去除,得到各个初始解密统计信息对应的目标解密统计信息;获取各个初始分箱对应的样本特征数量;基于同一初始分箱对应的目标解密统计信息和样本特征数量得到各个初始分箱对应的初始标签分布信息。
其中,排序映射信息用于将打乱顺序的数据还原为原始顺序。排序映射信息是基于初始密文统计信息的初始排序信息和初始密文统计信息对应的目标密文统计信息的目标排序信息生成的。例如,在初始排序信息中,初始密文统计信息a对应的排序位置为1,在目标排序信息中,初始密文统计信息a对应的目标密文统计信息A对应的排序位置为7,排序映射信息具体可以记录初始密文统计信息a的映射信息为1-7。排序还原是随机排序的逆过程。噪声去除是噪声添加的逆过程。
具体地,特征方设备获取排序映射信息,基于排序映射信息对目标解密统计信息序列进行排序还原,将目标解密统计信息序列中数据的排列顺序恢复为初始排序,从而得到初始解密统计信息序列。初始解密统计信息序列由多个初始解密统计信息按照原始顺序排列组成。特征方设备对初始解密统计信息序列中各个初始解密统计信息进行噪声去除,得到各个初始解密统计信息对应的目标解密统计信息。例如,若噪声添加是将初始密文统计信息和随机数相加,那么噪声去除是将初始解密统计信息减去随机数,得到对应的目标解密统计信息。若噪声添加是将初始密文统计信息和随机数相减,那么噪声去除是将初始解密统计信息加上随机数,得到对应的目标解密统计信息。由于目标解密统计信息表示初始分箱中某一种标签对应的总数量,为了得到初始分箱中另一种标签对应的总数量,特征方设备可以获取初始分箱对应的样本特征数量,将样本特征数量减去目标解密统计信息得到另一种标签对应的总数量。因此,特征方设备可以获取各个初始分箱对应的样本特征数量,基于同一初始分箱对应的目标解密统计信息和样本特征数量得到各个初始分箱对应的初始标签分布信息。此时,初始标签分布信息具体包括正标签对应的标签数量和负标签对应的标签数量。
举例说明,目标密文统计信息序列为Enc(histogram(7))+R(7)、Enc(histogram(2))+R(2)、Enc(histogram(5))+R(5)、……、Enc(histogram(1))+R(1)。目标解密统计信息序列为histogram(7)+R(7)、histogram(2) +R(2)、histogram(5) +R(5)、……、histogram(1) +R(1)。基于排序映射信息对目标解密统计信息序列进行排序还原,得到初始解密统计信息序列。初始解密统计信息序列为histogram(0) +R(0)、histogram(1) + R(1)、histogram(2)+R(2)、……、histogram(m-1)+R(m-1)。对各个初始解密统计信息进行噪声去除得到的目标解密统计信息为histogram(0)、histogram(1)、histogram(2)、……、histogram(m-1)。各个初始分箱对应的初始标签分布信息可以是{ histogram(0),N(0)- histogram(0)}、{ histogram(1),N(1)-histogram(1)}、{ histogram(2),N(2)- histogram(2)}、……、{ histogram(m-1),N(m-1)-histogram(m-1)}。其中,N(i)表示第i个初始分箱对应的样本特征数量。
本实施例中,基于排序映射信息对目标解密统计信息序列进行还原处理,可以准确还原出各个初始解密统计信息对应的目标解密统计信息。
在一个实施例中,如图3A所示,所述方法还包括:
步骤S302,获取各个初始分箱对应的初始分箱价值信息。
其中,初始分箱价值信息是指初始分箱对应的分箱价值信息。分箱价值信息用于合并分箱,从而调整分箱边界。可以理解,针对同一样本特征集合,不同的分箱方式可以得到不同的初始分箱,从而可以得到不同的分箱价值信息。进一步的,基于分箱价值信息可以计算得到分箱价值统计信息,分箱价值统计信息用于衡量一个特征维度的样本特征对于样本标签的预测能力,衡量一个特征维度的样本特征对于样本分类结果的影响度,即一个特征维度的样本特征的标签预测能力、样本分类影响度。分箱价值统计信息可以量化一个特征维度的样本特征对于样本分类的价值。
具体地,特征方设备可以获取各个初始分箱对应的初始分箱价值信息。若特征方设备获取到各个初始分箱对应的初始标签分布信息,那么特征方设备可以基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异,基于各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。此外,为了进一步保护标签方设备的样本标签数据,特征方设备在不获知各个初始分箱对应的初始标签分布信息的情况下,特征方设备也可以获取到各个初始分箱对应的初始分箱价值信息。在不获知各个初始分箱对应的初始标签分布信息的情况下,特征方设备通过和标签方设备的数据交互,可以计算得到各个初始分箱对应的初始分箱价值信息。
步骤S304,基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,基于更新的初始分箱信息得到更新的各个初始分箱对应的初始分箱价值信息,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。
其中,对初始分箱信息进行调整可以是将初始分箱价值信息差异最小的相邻初始分箱进行分箱合并,也就是,将正负标签数量差不多的相邻初始分箱进行分箱合并。初始分箱价值信息差异是指相邻初始分箱对应的初始分箱价值信息的差值。对初始分箱信息进行调整也可以是基于由相邻初始分箱合并得到的合并分箱对应的分箱价值差异进行分箱合并。
收敛条件可以是初始分箱的数量达到目标分箱数量、初始分箱中正标签数量达到正标签数量阈值、初始分箱中负标签数量达到负标签数量阈值、基于初始分箱价值信息计算得到的初始分箱价值统计信息在预设价值信息区间内最大化等中的至少一种。
具体地,特征方设备可以基于初始分箱价值信息对初始分箱信息进行调整,将若干个初始分箱进行合并,得到新的初始分箱信息,即得到更新的初始分箱信息。可以理解,若分箱信息发生了变化,那分箱价值信息也会随之发生变化。因此,特征方设备基于更新的初始分箱信息可以得到更新的各个初始分箱对应的初始分箱价值信息。特征方设备可以基于初始分箱信息或初始分箱价值信息判断当前分箱方式是否达到预设目标,若达到预设目标,那么特征方设备可以不再调整初始分箱信息,将最新的初始分箱信息作为目标分箱信息,若未达到预设目标,那么特征方设备需要对初始分箱信息进行进一步调整,直至新的分箱方式达到预设目标。也就是,直至初始分箱信息或初始分箱价值信息满足收敛条件,特征方设备将满足收敛条件的初始分箱信息作为目标分箱信息。
若特征方设备可以获取到各个初始分箱对应的初始标签分布信息,那么特征方设备可以基于更新的初始分箱信息得到更新的各个初始分箱对应的初始标签分布信息,然后返回基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异的步骤,重新计算新的各个初始分箱对应的初始标签分布差异、初始分箱价值信息,判断更新的初始分箱信息的相关数据是否满足收敛条件,若满足收敛条件,则将满足收敛条件的初始分箱信息作为目标分箱信息。若不满足收敛条件,则继续调整初始分箱信息,直至满足收敛条件,将满足收敛条件的初始分箱信息作为目标分箱信息。
若特征方设备无法获取到各个初始分箱对应的初始标签分布信息,那么特征方设备可以基于更新的初始分箱信息与标签方设备进行数据交互来得到更新的各个初始分箱对应的初始分箱价值信息,判断更新的初始分箱信息的相关数据是否满足收敛条件,若满足收敛条件,则将满足收敛条件的初始分箱信息作为目标分箱信息。若不满足收敛条件,则继续调整初始分箱信息,直至满足收敛条件,将满足收敛条件的初始分箱信息作为目标分箱信息。
本实施例中,基于初始分箱价值信息可以对初始分箱信息进行调整,得到满足预设条件的目标分箱信息,目标分箱信息中分箱边界是综合最优的,可以使得各个目标分箱对分箱价值的贡献尽量最大化,从而基于目标分箱对样本特征离散化可以提高样本特征的预测能力。
在一个实施例中,如图3B所示,步骤S302包括:
步骤S302A,基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异。
其中,初始标签分布差异是指初始分箱对应的标签分布差异。标签分布差异用于表示正负标签的分布差异。标签分布差异越大,表示样本特征对正标签的贡献越大,标签分布差异越小,表示样本特征对负标签的贡献越大。
具体地,初始分箱对应的初始标签分布信息可以包括初始分箱中正负标签分别对应的数量和局部比例,特征方设备可以基于各个初始分箱对应的初始标签分布信息计算各个初始分箱中正负标签分别对应的全局比例。正负标签对应的局部比例是指一个初始分箱中正负标签的数量占该初始分箱的正负标签总数量的比例。一个初始分箱的正负标签对应的局部比例之和为1或100%。正负标签对应的全局比例是指一个初始分箱中正负标签的数量占所有正负标签总数量的比例。一个特征维度的所有初始分箱的正负标签对应的全局比例之和为1或100%。特征方设备可以基于初始分箱对应的正标签全局比例和负标签全局比例计算该初始分箱对应的初始标签分布差异,以此类推,得到各个初始分箱对应的初始标签分布差异。特征方设备具体可以计算正标签全局比例和负标签全局比例的比值,基于该比值得到初始标签分布差异,例如,将该比值作为初始标签分布差异,或者,将该比值取对数得到初始标签分布差异等。
在一个实施例中,标签分布差异可以用WOE(Weight of Evidence,证据权重)表示。
Figure 52450DEST_PATH_IMAGE001
Figure 662423DEST_PATH_IMAGE002
表示第k个分箱中正标签的数量,
Figure 688630DEST_PATH_IMAGE003
表示第k个分箱中负标签的数量,
Figure 929118DEST_PATH_IMAGE004
表示正标签的总数量,
Figure 676494DEST_PATH_IMAGE005
表示负标签的总数量,N表示分箱数量,
Figure 355737DEST_PATH_IMAGE006
表示第k个分箱对应的正标签的全局比例,
Figure 239380DEST_PATH_IMAGE007
表示第k个分箱对应的负标签的全局比例。
步骤S302B,基于各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。
其中,初始分箱价值信息是指初始分箱对应的分箱价值信息。分箱价值信息用于合并分箱,从而调整分箱边界。可以理解,针对同一样本特征集合,不同的分箱方式可以得到不同的初始分箱,从而可以得到不同的分箱价值信息。进一步的,基于分箱价值信息可以计算得到分箱价值统计信息,分箱价值统计信息用于衡量一个特征维度的样本特征对于样本标签的预测能力,衡量一个特征维度的样本特征对于样本分类结果的影响度,即一个特征维度的样本特征的标签预测能力、样本分类影响度。分箱价值统计信息可以量化一个特征维度的样本特征对于样本分类的价值。
具体地,特征方设备可以基于各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。特征方设备具体可以基于各个初始分箱对应的初始标签分布信息计算各个初始标签分布差异对应的权重,将各个初始标签分布差异和对应的权重相乘得到各个初始分箱对应的初始分箱价值信息。
可以理解,不同特征维度的数据独立计算标签分布差异和分箱价值信息。例如,特征方设备基于特征维度A对应的各个初始分箱的初始标签分布信息计算特征维度A对应的各个初始分箱的初始标签分布差异。
如图3B所示,步骤S304包括:
步骤S304A,基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,返回基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异的步骤,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。
在一个实施例中,分箱价值信息可以用IV(Information Value,信息价值)表示。
Figure 916349DEST_PATH_IMAGE008
Figure 885442DEST_PATH_IMAGE009
表示第k个分箱对应的分箱价值信息,
Figure 102796DEST_PATH_IMAGE002
表示第k个分箱中正标签的数量,
Figure 106524DEST_PATH_IMAGE003
表示第k个分箱中负标签的数量,
Figure 688815DEST_PATH_IMAGE004
表示正标签的总数量,
Figure 145205DEST_PATH_IMAGE005
表示负标签的总数量,N表示初始分箱数。分箱价值统计信息可以是
Figure 166250DEST_PATH_IMAGE010
表示,
Figure 227747DEST_PATH_IMAGE011
,即分箱价值统计信息为各个分箱价值信息的总和。
表1
Figure 43256DEST_PATH_IMAGE012
举例说明,特征维度为用户年龄,不同年龄段的人群,有不同的特质。可以将用户年龄分为0-30、31-50以及>50这三个年龄段,也可以将用户年龄分成0-20、21-30、31-45、46-60以及>=61岁这五个年龄段。如表1所示,数据源为1100个用户的用户年龄,正标签表示逾期,负标签表示非逾期。将用户年龄分成0-20、21-30、31-45、46-60以及>=61岁这五个年龄段,一个年龄段对应一个初始分箱,各个初始分箱对应的初始标签分布差异依次为1.098612289、0、-0.287682072、-0.287682072、-0.510825624,各个初始分箱对应的初始分箱价值信息依次为0.219722458、0、0.014384104、0.014384104、0.051082562,初始分箱价值统计信息为0.299573227。
在一个实施例中,如图3C所示,步骤S302包括:
步骤S302C,获取标签方设备发送的正标签总数量和负标签总数量。
其中,正标签总数量是指目标样本标识对应的样本标签中正标签的数量。负标签总数量是指目标样本标识对应的样本标签中负标签的数量。
具体地,为了进一步保护标签方设备的样本标签数据,可以将初始标签分布差异和初始分箱价值信息分别存储在标签方设备和特征方设备。特征方设备不需要获知初始分箱对应的初始标签分布差异和初始标签分布信息,也可以计算得到初始分箱价值信息,进而基于初始分箱价值信息来判断样本特征是否为有效样本特征。可以理解,针对与样本标签相关的数据,特征方设备获取到的越少,对标签方设备的样本标签数据的保护力度越强,从而可以进一步提高标签方设备的数据安全。
特征方设备可以从标签方设备获取标签密文信息、正标签总数量和负标签总数量,基于标签密文信息、正标签总数量和负标签总数量可以计算各个初始分箱对应的由加密数据计算得到的正样本标签的局部比例和负样本标签的局部比例,将该数据经过混淆后与标签方设备进行数据交互,来最终计算得到各个初始分箱对应的初始分箱价值信息。
步骤S302D,基于各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息。
其中,中间密文统计信息包括正标签密文比例信息和负标签密文比例信息。若正标签用1表示,负标签用0表示,正标签密文比例信息是基于初始密文统计信息和正标签总数量的比值得到的,即正标签密文比例信息=初始密文统计信息/正标签总数量。负标签密文比例信息是基于样本特征数量和初始密文统计信息的差值与负标签总数量的比值得到的,即负标签密文比例信息=(样本特征数量-初始密文统计信息)/负标签总数量。当然,正标签也可以用0表示,负标签也可以用1表示。
步骤S302E,对各个中间密文统计信息进行混淆处理,得到第一密文统计信息序列。
其中,第一密文统计信息序列包括各个中间密文统计信息对应的第一密文统计信息。
具体地,特征方设备可以对各个中间密文统计信息进行混淆处理,得到第一密文统计信息序列。特征方设备具体可以是对各个中间密文统计信息进行噪声添加,得到第一密文统计信息序列。特征方设备也可以是对各个中间密文统计信息进行噪声添加,再进行随机排序,得到第一密文统计信息序列。其中,对中间密文统计信息进行噪声添加具体可以是将中间密文统计信息和随机数相乘,即将正标签密文比例信息和随机数相乘,将负标签密文比例信息和随机数相乘。
例如,若正标签用1表示,负标签用0表示,
Figure 252521DEST_PATH_IMAGE013
Figure 546099DEST_PATH_IMAGE014
Figure 462102DEST_PATH_IMAGE015
表示第i个初始分箱中正标签密文比例信息经过噪声添加得到的数据,
Figure 448513DEST_PATH_IMAGE016
表示第i个初始分箱对应的初始密文统计信息,
Figure 145073DEST_PATH_IMAGE017
表示第i个初始分箱对应的随机数。
Figure 242342DEST_PATH_IMAGE018
表示第i个初始分箱中负标签密文比例信息经过噪声添加得到的数据,
Figure 12852DEST_PATH_IMAGE019
第i个初始分箱对应的样本特征数量,
Figure 435743DEST_PATH_IMAGE020
表示正标签总数量,
Figure 356951DEST_PATH_IMAGE021
表示负标签总数量。
步骤S302F,将第一密文统计信息序列发送至标签方设备,以使标签方设备对第一密文统计信息序列进行同态解密处理,得到第一解密统计信息序列,基于第一解密统计信息序列得到第一分箱价值信息序列。
具体地,特征方设备可以将第一密文统计信息序列发送至标签方设备。标签方设备可以对接收到的第一密文统计信息序列进行同态解密处理,得到第一解密统计信息序列。第一解密统计信息序列包括多个第一解密统计信息。第一解密统计信息包括正标签参考比例和负标签参考比例,特征方设备基于正标签参考比例和负标签参考比例可以计算得到第一解密统计信息对应的第一分箱价值信息,将各个第一解密统计信息组成第一分箱价值信息序列。
在一个实施例中,第一解密统计信息序列包括多个第一解密统计信息,第一解密统计信息包括正标签参考比例和负标签参考比例。基于第一解密统计信息序列得到第一分箱价值信息序列,包括:
标签方设备基于第一解密统计信息包含的正标签参考比例和负标签参考比例,计算各个第一解密统计信息对应的中间标签分布差异和标签参考比例差异;基于同一第一解密统计信息对应的中间标签分布差异和标签参考比例差异,计算各个第一解密统计信息对应的第一分箱价值信息;基于各个第一分箱价值信息得到第一分箱价值信息序列。
其中,正样本标签参考比例是指正样本标签的局部比例被添加噪声后的数据。负样本标签参考比例是指负样本标签的局部比例被添加噪声后的数据。一个第一解密统计信息包含的正样本标签参考比例和负样本标签参考比例是使用相同的随机数。不同的第一解密统计信息之间可以使用不同的随机数。
中间标签分布差异是指初始分箱对应的标签分布差异,是基于正样本标签参考比例和负样本标签参考比例计算得到的。样本标签参考比例差异是指正样本标签参考比例和负样本标签参考比例的差值。第一分箱价值信息是指初始分箱价值信息被添加噪声后的数据。
具体地,标签方设备基于第一解密统计信息包含的正样本标签参考比例和负样本标签参考比例可以计算该第一解密统计信息对应的中间标签分布差异和标签参考比例差异。标签方设备具体可以计算正样本标签参考比例和负样本标签参考比例的比值,基于该比值得到中间标签分布差异。标签方设备具体可以计算正样本标签参考比例和负样本标签参考比例的差值作为标签参考比例差异。最终,标签方设备可以得到各个第一解密统计信息对应的中间标签分布差异和标签参考比例差异。进而,标签方设备可以基于同一第一解密统计信息对应的中间标签分布差异和样本标签参考比例差异,计算各个第一解密统计信息对应的第一分箱价值信息,将各个第一分箱价值信息按照第一解密统计信息序列中的排列顺序进行排序得到第一分箱价值信息序列。
举例说明,第i个初始分箱对应的第一密文统计信息包括
Figure 195594DEST_PATH_IMAGE015
Figure 882927DEST_PATH_IMAGE018
,那么对该第一密文统计信息进行同态解密处理得到的第一解密统计信息为
Figure 476719DEST_PATH_IMAGE022
Figure 616714DEST_PATH_IMAGE023
Figure 524627DEST_PATH_IMAGE022
=
Figure 66467DEST_PATH_IMAGE024
Figure 831160DEST_PATH_IMAGE023
=
Figure 458451DEST_PATH_IMAGE025
Figure 638896DEST_PATH_IMAGE026
Figure 300822DEST_PATH_IMAGE027
。其中,
Figure 236417DEST_PATH_IMAGE022
表示第i个初始分箱对应的正样本标签参考比例,
Figure 554266DEST_PATH_IMAGE023
表示第i个初始分箱对应的负标签参考比例,
Figure 335140DEST_PATH_IMAGE028
表示第i个初始分箱对应的中间标签分布差异,
Figure 117151DEST_PATH_IMAGE029
表示第i个初始分箱对应的标签参考比例差异,
Figure 958068DEST_PATH_IMAGE030
表示第i个初始分箱对应的第一分箱价值信息。
Figure 559951DEST_PATH_IMAGE031
表示第i个初始分箱对应的初始分箱价值信息。
步骤S302G,获取标签方设备返回的第一分箱价值信息序列,对第一分箱价值信息序列进行还原处理,得到各个初始分箱对应的初始分箱价值信息。
其中,对第一分箱价值信息序列进行还原处理是对各个中间密文统计信息进行混淆处理的逆过程。
具体地,标签方设备计算得到第一分箱价值信息序列后,会发送至特征方设备。特征方设备可以对第一分箱价值信息序列进行还原处理,得到各个初始分箱对应的初始分箱价值信息。第一分箱价值信息序列包括多个第一分箱价值信息,若混淆处理是将中间密文统计信息和随机数相乘,那么还原处理可以是将第一分箱价值信息和随机数相除得到初始分箱价值信息。若混淆处理是将中间密文统计信息和随机数相乘,再进行随机排序,那么还原处理可以是先还原排序,再将第一分箱价值信息和随机数相除得到初始分箱价值信息。
如图3C所示,步骤S304包括:
步骤S304B,基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,基于更新的初始分箱信息和标签密文信息得到更新的各个初始分箱对应的初始密文统计信息,返回基于各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息的步骤,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。
具体地,因为初始分箱信息有所更新,所以特征方设备需要重新计算初始密文统计信息,特征方设备具体可以基于更新的初始分箱信息和之前获取到的标签密文信息计算更新的各个初始分箱对应的初始密文统计信息,然后返回基于各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息的步骤,重新计算新的各个初始分箱对应的中间密文统计信息,判断更新的初始分箱信息的相关数据是否满足收敛条件,若满足收敛条件,则将满足收敛条件的初始分箱信息作为目标分箱信息。若不满足收敛条件,则继续调整初始分箱信息,直至满足收敛条件,将满足收敛条件的初始分箱信息作为目标分箱信息。
本实施例中,特征方设备除了基于初始标签分布信息确定初始分箱价值信息之外,还可以基于标签方设备返回的第一分箱价值信息确定初始分箱价值信息,从而可以进一步保护标签方设备的样本标签数据,进一步提高数据的安全性。
在一个实施例中,基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,包括:
将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;计算各个候选合并分箱对应的候选分箱价值信息;基于候选合并分箱对应的候选分箱价值信息和相邻初始分箱对应的初始分箱价值信息计算候选合并分箱对应的分箱价值差异;基于各个候选合并分箱对应的分箱价值差异,从多个候选合并分箱中确定目标合并分箱,基于目标合并分箱和剩余的初始分箱得到更新的初始分箱信息。
其中,相邻初始分箱为排列顺序相邻的初始分箱。例如,初始分箱信息包括初始分箱A-初始分箱B-初始分箱C-初始分箱D-初始分箱E,初始分箱A和初始分箱B可以为相邻初始分箱,初始分箱C和初始分箱D可以为相邻初始分箱。候选分箱价值信息是指候选合并分箱对应的分箱价值信息。可以理解,候选分箱价值信息的计算过程可以参考前述各个相关实施例所述的方法。
在一个实施例中,计算各个候选合并分箱对应的候选分箱价值信息,包括:
基于相邻初始分箱对应的初始标签分布信息计算候选合并分箱对应的候选标签分布信息;基于各个候选合并分箱对应的候选标签分布信息计算各个候选合并分箱对应的候选标签分布差异,基于各个候选合并分箱对应的候选标签分布差异和候选标签分布信息计算各个候选合并分箱对应的候选分箱价值信息。
具体地,候选标签分布信息是指候选合并分箱对应的标签分布信息,候选标签分布差异是指候选合并分箱对应的标签分布差异。若初始标签分布信息包括正负标签对应的数量,特征方设备基于各个相邻初始分箱对应的初始标签分布信息可以计算各个候选合并分箱对应的候选标签分布信息。候选标签分布信息包括正负标签对应的数量、局部比例和全局比例。若初始标签分布信息包括正负标签对应的数量、局部比例和全局比例,特征方设备基于相邻初始分箱对应的初始标签分布信息可以计算相应的候选合并分箱对应的候选标签分布信息。可以理解,候选标签分布差异、候选分箱价值信息的计算过程可以参考前述各个相关实施例所述的方法,例如图3B对应的实施例。
在一个实施例中,计算各个候选合并分箱对应的候选分箱价值信息,包括:
获取标签方设备发送的正标签总数量和负标签总数量;基于相邻初始分箱对应的初始密文统计信息计算候选合并分箱对应的初始密文统计信息;基于各个候选合并分箱对应的初始密文统计信息、正标签总数量和负标签总数量得到各个候选合并分箱对应的第二密文统计信息;对各个第二密文统计信息进行混淆处理,得到第二密文统计信息序列;将第二密文统计信息序列发送至标签方设备,以使标签方设备对第二密文统计信息序列进行同态解密处理,得到第二解密统计信息序列,基于第二解密统计信息序列得到第二分箱价值信息序列;获取标签方设备返回的第二分箱价值信息序列,对第二分箱价值信息序列进行还原处理,得到各个候选合并分箱对应的候选分箱价值信息。
具体地,特征方设备基于相邻初始分箱对应的初始密文统计信息可以计算候选合并分箱对应的初始密文统计信息。例如,初始分箱A和初始分箱B为相邻初始分箱,将相邻初始分箱进行合并得到候选初始分箱1,可以将初始分箱A和初始分箱B对应的初始密文统计信息相加得到候选初始分箱1对应的初始密文统计信息。可以理解,第二密文统计信息、第二密文统计信息序列、第二解密统计信息序列、第二分箱价值信息序列、候选分箱价值信息的计算过程可以参考前述各个相关实施例所述的方法,例如图3C对应的实施例。
计算候选合并分箱对应的分箱价值差异可以是将相邻初始分箱对应的初始分箱价值信息进行求和得到对应的候选合并分箱的合并分箱价值信息,将候选合并分箱对应的合并分箱价值信息和候选分箱价值信息的差值作为候选合并分箱对应的分箱价值差异。例如,相邻初始分箱为初始分箱A和初始分箱B,初始分箱A和初始分箱B对应的初始分箱价值信息为IV(A)和IV(B),将初始分箱A和初始分箱B合并得到候选合并分箱1,候选合并分箱1对应的候选分箱价值信息为IV(1),候选合并分箱1对应的合并分箱价值信息为
Figure 347778DEST_PATH_IMAGE032
,候选合并分箱1对应的分箱价值差异
Figure 984296DEST_PATH_IMAGE033
从多个候选合并分箱中确定目标合并分箱可以是选取分箱价值差异较大的至少一个候选合并分箱作为目标合并分箱,也可以是选取分箱价值差异大于预设价值差异的至少一个候选合并分箱作为目标合并分箱。例如,初始分箱信息包括初始分箱A-初始分箱B-初始分箱C-初始分箱D-初始分箱E-初始分箱F,初始分箱A和初始分箱B合并得到的候选合并分箱1,初始分箱B和初始分箱C合并得到的候选合并分箱2,初始分箱C和初始分箱D合并得到的候选合并分箱3,初始分箱D和初始分箱E合并得到的候选合并分箱4,初始分箱E和初始分箱F合并得到的候选合并分箱5。若候选合并分箱1和候选合并分箱5对应的分箱价值差异为所有分箱价值差异中最大的两个数据,那么可以将候选合并分箱1和候选合并分箱5作为目标合并分箱。更新的初始分箱信息可以是目标合并分箱1-初始分箱C-初始分箱D-目标合并分箱5。当候选合并分箱对应的分箱价值差异较大时,表明合并对应的相邻初始分箱可以提高分箱的分箱价值信息,从而有助于提高分箱价值统计信息,有助于让分箱价值统计信息在合理范围内最大化。
本实施例中,通过合并相邻初始分箱来调整初始分箱信息,从多个候选合并分箱中将分箱价值差异较大的候选合并分箱作为需要保留的目标合并分箱,可以提高分箱价值统计信息,从而基于目标分箱对样本特征离散化可以提高样本特征的预测能力。
在一个实施例中,所述方法还包括:
获取目标分箱信息对应的各个目标分箱的目标标签分布信息;获取待分类样本标识对应的待分类样本特征;从各个目标分箱中,将待分类样本特征对应的目标分箱作为参考分箱;基于参考分箱对应的目标标签分布信息确定待分类样本标识对应的参考标签。
其中,目标分箱信息包括多个目标分箱的分箱信息,分箱信息包括目标分箱对应的样本特征范围。各个目标分箱存在对应的目标标签分布信息。
待分类样本标识是指待分类的样本标识,例如,新用户的用户标识、新设备的设备标识。待分类样本特征是指待分类样本标识对应的样本特征,例如,新用户标识对应的用户年龄,新设备标识对应的投入使用时间。
具体地,得到目标分箱信息后,特征方设备可以从目标分箱信息对应的各个目标分箱中,确定待分类样本标识对应的待分类样本特征落入的目标分箱,将该目标分箱作为待分类样本标识对应的参考分箱。特征方设备可以基于参考分箱对应的目标标签分布信息确定待分类样本标识对应的参考标签,具体可以将参考分箱对应的目标标签分布信息中数量更多、局部比例更高的样本标签作为参考标签。
进一步的,参考标签还可以携带标签关联信息,标签关联信息可以包括参考标签对应的局部比例、全局比例中的至少一种。例如,待分类样本标识对应的样本特征为33岁,待分类样本标识对应的参考分箱为第二目标分箱(20-40岁),该目标分箱对应的目标标签分布信息为正标签70%,负标签30%,那么待分类样本标识对应的参考标签可以是正标签,标签关联信息可以是70%。可以理解,标签关联信息可以为数据分析人员提供一个参考信息,以便进行数据分析。
本实施例中,目标分箱对应的目标标签分布信息可以应用于样本标识的标签预测。
在一个实施例中,如图4所示,所述方法还包括:
步骤S402,获取目标分箱信息对应的各个目标分箱的目标分箱价值信息。
步骤S404,基于各个目标分箱价值信息得到目标分箱价值统计信息。
具体地,目标分箱价值信息是指目标分箱对应的分箱价值信息。在得到目标分箱信息后,特征方设备可以获取各个目标分箱对应的目标分箱价值信息,基于各个目标分箱价值信息得到目标分箱价值统计信息,例如,计算各个目标分箱价值信息的总和作为目标分箱价值统计信息。
步骤S406,当目标分箱价值统计信息位于预设价值信息区间内时,确定样本特征集合中的样本特征为有效样本特征,有效样本特征用于和标签方设备基于联邦学习进行样本分类模型的模型训练。
其中,联邦学习(FL,Federated Learning)是一种分布式人工智能,能有效帮助多个设备在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模。联邦学习适用于训练机器学习模型,联邦学习分散了机器学习模型的训练过程,从而无需将数据发送到集中式服务器就可以维护用户隐私、数据安全。将训练过程分散到多个设备上也可以提高训练效率。样本分类模型是机器学习模型,输入数据为样本特征,输出数据为样本标签。
具体地,预设价值信息区间用于判断样本特征是否为有效样本特征,预设价值信息区间可以根据实际需要进行设置。当目标分箱价值统计信息位于预设价值信息区间内时,特征方设备可以确定样本特征集合中的样本特征为有效样本特征。有效样本特征的标签预测能力是比较优秀的,可以将有效样本特征应用于模型训练,作为样本分类模型的输入来预测标签。可以理解,一个样本标识对应的样本特征通常有多个,不同的样本特征对不同类型的样本标签的影响度也是不同的。基于各个特征维度对应的目标分箱价值统计信息可以从大量的特征维度中筛选出若干个特征维度作为关键特征维度,将关键特征维度的样本特征作为有效样本特征,关键特征维度的样本特征对样本标签的影响度较高且合理。将有效样本特征应用于模型训练可以有效减少模型的输入数据,提高模型训练效率。特征方设备和标签方设备可以基于联邦学习进行样本分类模型的模型训练。
举例说明,对银行来说,不同的年龄段,是否守约(是否逾期)的能力也不一样。如何对年龄分段,能最准确的反应群体特质,对银行来说至关重要。因此,在得到用户年龄的目标分箱信息后,特征方设备可以计算目标分箱信息对应的目标分箱价值统计信息,基于目标分箱价值统计信息判断用户年龄的预测能力,确定用户年龄是否为有效样本特征。当用户年龄为有效样本特征时,银行基于用户年龄可以比较准确地判断用户是否守约,例如,基于用户年龄、收入等有效的用户属性特征训练机器学习模型,通过机器学习模型预测用户行为标签,正标签为点击标签,负标签为非点击标签。
参考表2,目标分箱价值统计信息并不是越大越好。当目标分箱价值统计信息大于0.5时,因为样本特征表现过好而显得不够真实,所以需要对样本特征存疑,此时样本特征不利于数据分析和模型训练。当目标分箱价值统计信息小于0.02时,样本特征表现较差,此时样本特征也不利于数据分析和模型训练。当目标分箱价值统计信息在0.1−0.5之间时,样本特征表现良好、真实。因此,预设价值信息区间可以设置为0.1−0.5。可以理解,针对不同的应用场景,预设价值信息区间可以不同,例如,预设价值信息区间设置为0.1-0.3。进一步的,在调整初始分箱信息时,调整目标可以是尽量使得分箱价值统计信息在合理范围内最大化。
表2
Figure 996114DEST_PATH_IMAGE034
特征方设备和标签方设备可以基于联邦学习进行样本分类模型的模型训练。在模型训练时,可以利用特征方设备的有效样本特征和标签方设备的样本标签,也可以利用特征方设备的有效样本特征和标签方设备的有效样本特征、样本标签。其中,有效样本特征和样本标签可以是相同样本标识对应的数据。特征方设备的有效样本特征和标签方设备的有效样本特征可以是不同特征维度的样本特征。
若特征方设备和标签方设备具有不同的样本标识,相同特征维度的样本特征,即特征方设备和标签方设备特征维度重叠多,样本标识重叠少,可以基于横向联邦学习进行模型训练。特征方设备和标签方设备从目标服务器下载待训练的样本分类模型,特征方设备基于本地用户标识对应的有效样本特征训练模型,得到梯度信息,标签方设备基于本地用户标识对应的有效样本特征和样本标签训练模型,得到梯度信息。特征方设备和标签方设备通过同态加密技术加密梯度信息上传给目标服务器。目标服务器聚合梯度信息更新模型参数,返回更新后的模型参数给特征方设备和标签方设备。重复特征方设备、标签方设备训练模型的训练步骤,直至模型收敛,得到训练完成的样本分类模型。模型收敛的收敛条件可以是迭代次数达到预设值,梯度信息聚合值达到预设值等。此时,特征方设备和标签方设备可以具备相同且完整的样本分类模型。
若特征方设备和标签方设备具有相同的样本标识,不同特征维度的样本特征,即特征方设备和标签方设备样本标识重叠多,特征维度重叠少,可以基于纵向联邦学习进行模型训练。参考图5,特征方设备持有业务系统A,标签方设备持有业务系统B。样本ID 表示样本标识的集合,X表示样本特征集合,x1,x2,x3,x4,x5为不同特征维度的样本特征数据,Y表示样本标签。
1、A、B双方提取样本ID,通过加密算法加密后,在B方进行安全样本ID对齐(PSI,Private Set Intersection,隐私保护集合交集),得到双方共同的ID集合的交集 A∩B ={u2, u3}。可以理解,A,B均不知对方除了交集外的部分。
2、根据交集ID,双方提取相应样本的特征维度数据X,先在本地计算本地模型数据(如梯度),然后A通过同态加密方式,将中间数据(如梯度)发送给B,B根据A计算得到的中间数据、本地计算得到的中间数据和样本标签计算预测误差,基于预测误差调整模型参数,并将模型更新信息加密后传回A。
3、模型收敛后训练结束,A、B分别持有模型中与自己特征维度X相关部分的参数,并共同提供模型服务。也就是,A持有x1,x2,x3相关的模型参数,B持有x4,x5相关的模型参数,A和B共同提供模型服务。
可以理解,特征方设备和标签方设备还可以基于其他联邦学习方式进行模型训练。在进行模型训练时,样本特征的取值可以转换为对应的目标分箱的目标分箱标识,这样可以减少数据计算复杂度。同理,在进行模型应用时,样本特征的取值也可以转换为对应的目标分箱的目标分箱标识。
本实施例中,基于目标分箱信息对应的目标分箱价值统计信息可以对样本特进行筛选,从多个特征维度的样本特征中筛选出若干个特征维度的样本特征作为有效样本特征,只将有效样本特征应用于模型训练,可以减少模型训练的训练数据,提高模型训练效率。
在一个实施例中,样本标识为用户标识,样本特征为用户属性特征,样本标签为待推送资源对应的用户行为标签,所述方法还包括:
基于各个初始标签分布信息确定待推送资源对应的目标属性特征;将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。
其中,在资源推荐应用场景中,样本标识可以是用户标识,例如,用户ID、用户身份证号码、用户手机号码等。样本特征可以是用户属性特征,例如,用户年龄、用户收入、用户地理位置等。样本标签可以是待推送资源对应的用户行为标签。待推送资源是指待推送给用户的资源,资源是指能够通过网络应用获取到的信息,可以包括文字信息、图片信息、视频信息和音频信息中的至少一种。待推送资源可以是某一个具体的资源,也可是某一类资源。用户行为标签是用于描述用户行为的标签,例如,用户是否点击某一文章或某类文章的行为可以分为点击标签和非点击标签。
具体地,特征方设备基于各个初始分箱对应的初始标签分布信息可以确定待推送资源对应的目标属性特征,例如,特征方设备可以将点击标签全局比例排序靠前(从大到小排序)的至少一个初始分箱对应的用户属性特征作为目标属性特征。进而,特征方设备可以将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。
举例说明,样本标签为新闻A对应的用户行为标签,正标签为点击标签,即向用户推送了新闻A,用户点击阅读了新闻A,负标签为非点击标签,即向用户推送了新闻A,但是用户没有点击阅读新闻A。针对年龄特征维度,若20-40岁对应的初始分箱的点击标签全局比例最大,则可以将20-40岁作为目标属性特征。那么,可以将用户年龄在20-40岁的新用户或未推送用户作为目标用户,向目标用户对应的终端推送新闻A,这样可以提高新闻A的点击率,提高资源的推荐有效性。
可以理解,若样本特征集合包括多个特征维度的样本特征。特征方设备可以确定待推送资源在各个特征维度分别对应的目标属性特征。特征方设备可以将用户属性特征满足所有特征维度对应的目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。特征方设备也可以将用户属性特征满足预设数量的特征维度对应的目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。此外,也可以基于各个目标标签分布信息确定待推送资源对应的目标属性特征,将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。
本实施例中,在资源推荐场景中,样本标识可以为用户标识,样本特征可以为用户属性特征,样本标签可以为待推送资源对应的用户行为标签。各个初始分箱对应的初始标签分布信息可以应用于资源推荐,从多个候选用户中确定目标用户,向目标用户对应的终端推送待推送资源。
在一个实施例中,如图6所示,提供了一种数据标签分布确定方法,以该方法应用于图1中的标签方设备为例进行说明,包括以下步骤:
步骤S602,获取与标签方设备对应的多个样本标识匹配的样本标签。
步骤S604,对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息。
步骤S606,将标签密文信息发送至特征方设备,以使特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱。
步骤S608,获取特征方设备发送的目标密文统计信息序列,对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。
步骤S610,将目标解密统计信息序列发送至特征方设备,以使特征方设备对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
具体地,标签方设备可以获取标签方设备对应的多个样本标识所对应的样本标签,对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息。标签方设备将标签密文信息发送至特征方设备。这样,特征方设备接收到的是密文数据,所以标签方设备的样本标签数据不会泄露,保护了标签方设备的数据安全。特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。特征方设备将目标密文统计信息序列发送至标签方设备。这样,标签方设备接收到的是数据是经过混淆处理的,标签方设备无法得知混淆处理前的数据,所以特征方设备的初始分箱信息、初始标签分布信息不会泄露,保护了特征方设备的数据安全。标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,并发送至特征方设备。特征方设备对目标解密统计信息序列进行还原处理,最终可以得到各个初始分箱对应的初始标签分布信息。
可以理解,特征方设备和标签方设备进行数据处理的具体过程可以参照前述各个相关实施例所述的方法,此处不再赘述。
上述数据标签分布确定方法,存储有样本特征的特征方设备和存储有样本标签的标签方设备之间不传输明文数据,标签方设备将样本标签进行同态加密处理后再发送至特征方设备。特征方设备可以基于标签方设备发送的标签密文信息和本地的初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,将目标密文统计信息序列发送至标签方设备。特征方设备获取标签方设备对目标密文统计信息序列进行同态解密处理得到的目标解密统计信息序列,特征方设备对目标解密统计信息序列进行还原处理可以得到各个初始分箱对应的初始标签分布信息。这样,借助标签方设备的样本标签,特征方设备可以确定各个样本标识在初始分箱中的标签分布情况。并且,通过同态加密处理,特征方设备无法获知标签方设备存储的样本标签数据,通过混淆处理,标签方设备也无法获知特征方设备的初始标签分布信息,结合同态加密和数据混淆可以有效维护双方的数据隐私,保障数据安全,提高数据交互安全性。
在一个实施例中,对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息,包括:
对标签方设备对应的各个样本标识进行哈希分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配第二数据处理分区;各个第二数据处理分区并行进行数据处理;在各个第二数据处理分区中,对各个第二样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文;基于同一第二数据处理分区对应的各个标签密文得到各个第二数据处理分区对应的标签密文子集;基于各个标签密文子集得到标签密文信息。
其中,哈希分类处理是指基于哈希算法对样本标识进行分类处理,例如先计算样本标识对应的哈希值,再计算哈希值和样本标识分区数量的余数,将余数一致的样本标识归入一个样本标识子集。计算公式:partitionn=Hash(样本标识n) %partitionNum,partitionn表示第n个样本标识对应的样本标识子集,Hash(样本标识n)表示对第n个样本标识进行哈希计算,%表示求余运算,partitionNum表示样本标识子集数量。可以理解,通过哈希分类处理可以将海量的数据均匀分散在不同的样本标识分区中。当然,除了进行哈希分类处理,也可以使用其他分类处理方法,例如,将地理位置位于一个区域内的样本标识归入同一样本标识子集,将样本标识末尾数字相同的样本标识归入同一样本标识子集等。
第二样本标识子集是指标签方设备处理得到的样本标识子集。第二数据处理分区是标签方设备上的数据处理单元,标签方设备可以将本地的计算、存储资源(例如硬盘、服务器集群)进行划分,分为不同的数据处理单元。不同的数据处理单元用于存储不同的数据,对不同的数据进行数据处理、数据计算,这样可以提高资源利用率。不同的数据处理单元可以并行进行数据处理,从而可以进一步提高数据处理效率。
标签密文子集包括属于同一样本标识子集的各个样本标识的样本标签对应的标签密文。
具体地,标签方设备可以对本地的各个样本标识进行哈希分类处理,得到至少一个第二样本标识子集,并为各个第二样本标识子集分配对应的第二数据处理分区。第二数据处理分区用于存储对应的第二样本标识子集和第二样本标识子集对应的样本标签,用于对对应的样本标签进行同态加密处理。进一步的,为了提高数据处理效率,各个第二数据处理分区之间可以并行进行数据处理。在各个第二数据处理分区中,标签方设备可以对各个第二样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文,将在同一第二数据处理分区内计算得到的各个标签密文组成标签密文子集,从而得到各个第二数据处理分区对应的标签密文子集。最终,各个标签密文子集组成标签密文信息,各个标签密文子集可以携带对应的第二样本标识子集的集合标识、第二数据处理分区的分区标识。
本实施例中,标签方设备通过不同的第二数据处理分区并行对样本标签进行同态加密处理,可以提高数据加密效率。
在一个实施例中,将标签密文信息发送至特征方设备之前,所述方法还包括:
特征方设备对特征方设备对应的各个样本标识进行哈希分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区;各个第一数据处理分区并行进行数据处理,所述各个第一数据处理分区存在对应的第二数据处理分区。
其中,第一样本标识子集是指特征方设备处理得到的样本标识子集。第一数据处理分区是特征方设备上的数据处理单元,特征方设备可以将本地的计算、存储资源(例如硬盘、服务器集群)进行划分,分为不同的数据处理单元。不同的数据处理单元用于存储不同的数据,对不同的数据进行数据处理、数据计算,这样可以提高资源利用率。不同的数据处理单元可以并行进行数据处理,从而可以进一步提高数据处理效率。
具体地,特征方设备也可以对本地的各个样本标识进行哈希分类处理得到至少一个第一样本标识子集,并为各个第一样本标识子集分配对应的第一数据处理分区。第一数据处理分区用于存储对应的第一样本标识子集和第一样本标识子集对应的样本特征,用于进行密文统计。进一步的,为了提高数据处理效率,各个第一数据处理分区之间可以并行进行数据处理。可以理解,特征方设备和标签方设备的哈希分类处理方式相同,特征方设备和标签方设备可以具有相同数量的样本标识子集,特征方设备和标签方设备之间同一样本标识对应的样本标识子集可以具有相同的集合标识,因此,第一数据处理分区和第二数据处理分区存在对应关系。
将标签密文信息发送至特征方设备,以使特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:
将标签密文信息发送至特征方设备,以使特征方设备获取各个第一数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的标签密文子集、目标样本特征子集得到多个样本特征对应的候选密文,基于各个候选密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;目标样本特征子集包括属于同一第一样本标识子集的各个样本标识对应的样本特征。
具体地,标签方设备可以将标签密文信息发送至特征方设备。在特征方设备接收到数据后,特征方设备可以获取各个第一数据处理分区对应的目标样本特征子集,目标样本特征子集包括属于同一第一样本标识子集的各个样本标识对应的样本特征。由于存在对应关系的第一数据处理分区和第二数据处理分区中包含相同的样本标识,特征方设备可以将各个标签密文子集存储至对应的第一数据处理分区中。进而,特征方设备基于第一数据处理分区中的标签密文子集和目标样本特征子集可以确定多个样本特征对应的候选密文。特征方设备汇总所有第一数据处理分区的处理结果可以得到各个初始分箱对应的初始密文统计信息。特征方设备再对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
本实施例中,特征方设备通过不同的第一数据处理分区并行进行标签密文统计,可以提高数据统计效率。
本申请还提供一种应用场景,该应用场景应用上述的数据标签分布确定方法。具体地,该数据标签分布确定方法在该应用场景的应用如下:
在资源推荐场景下,各个公司独立存储和维护海量用户的相关数据。由于不同公司不同部门之间独立存储、独立维护数据,逐渐形成了“数据孤岛”。在数据隐私及安全保护法律越来越完善的情况下,如何在“数据孤岛”之间安全高效的进行数据标签分布确定,成为一个挑战。通过本申请的数据标签分布确定方法可以在保障数据安全、维护数据隐私的情况下,通过特征方设备和标签方设备的数据交互确定特征方设备上数据的标签分布情况。
特征方设备可以称为Host方,Host方是不含样本标签的一方数据源,但是持有样本特征。标签方设备可以称为Guest方,Guest方是提供样本标签(label)的一方数据源,样本标签标注了是为正标签还是为负标签,取值为0或1。举例说明,在资源推荐场景下,Guest方可以是资源推荐平台,持有用户对于待推送资源的用户行为标签。Host方可以是各种需要进行待推送资源相关数据的数据分析的企业或部门,例如资源产出方、大数据平台。
最优分箱作为一种模型分箱,被广泛的应用于机器学习建模前的特征工程阶段,分箱后的数据可以很好的提升模型效果。这种非线性的分箱模型天生具有对连续型特征切分的能力,可以利用分割点对特征进行离散化,将特征值转换为分箱标识。对于Guest方来说,由于Guest方持有标签信息,对自己的数据做最优分箱具有天然优势。但对于Host方来说,由于自身没有标签信息,因此需要借助Guest方的标签信息达到最优分箱的目的。Host方需要借助Guest方的样本标签进行分箱处理,并统计标签分布情况。
假设Host方和Guest方包含相同的样本标识(样本id),Host方包含样本特征集合X={X1,X2,X3,X4},一共4个特征维度的样本特征子集,Guest方包含Label={Y}的标签信息,其中Y是二分类。
参考图7A,数据标签分布确定方法可以包括以下步骤:
1、Host方对X进行初始分箱处理。
Host方根据机器学习模型的第一超参数M(初始分箱数)对Xi进行初始分箱处理(等频分箱、等长分箱、或者任意分割点分箱),经过分箱后的连续型特征被转换成离散型特征,取值范围0到M-1。可以理解,图7A中的x11表示id1对应的特征维度1的样本特征,x21表示id1对应的特征维度2的样本特征。
2、Guest方对Y进行同态加密,将加密结果发送给Host方。
具体地,为了保证运行效率,Guest方和Host方可以分别对id列做哈希分片(HashPartition),将不同的样本标识对应的数据分配到不同的数据处理分区中。这样既能保证数据均匀分散在不同的Partition(数据处理分区)中,也能保证Guest方和Host方相应的Partition中拥有相同id集合。
在每个Partition内部,Guest方对二分类label进行同态加密,分别加密为Enc(1)和Enc(0),即对样本标签进行同态加密处理得到标签密文。Guest方把加密得到的标签密文和对应的样本标识发送至Host方对应的partition中。在一个实施例中,Guest方可以是分批次把加密数据发送给Host方对应的partition,每个批次的大小可以根据机器学习模型的第二超参数进行配置,比如配置大小为128。
3、Host方计算各个初始分箱对应的密文求和结果,把各个初始分箱对应的密文求和结果发送给Guest方。
Host方,在每个Partition内部,接受来自Guest方、并且经过加密的label。Host方,在每个Partition内部,对属于同一初始分箱的样本特征对应的标签密文进行密文求和,同时统计各分箱大小。例如,Host方的第4个Partition中,包含了X1和X2两个特征列,其中X1包含4个初始分箱,分别是{0、1、2、3},同样,X2也包含4个初始分箱,分别是{0、1、2、3}。在第4个Partition中,X1和X2各个初始分箱对应的密文求和结果是{Enc(a)、Enc(b)、Enc(c)、Enc(d)}、{Enc(e)、Enc(f)、Enc(g)、Enc(h)},各分箱大小是{t0、t1、t2、t3}、{ t4、t5、t6、t7 }。
Host方汇总每个Partition的密文求和结果以及各初始分箱包含的样本数量。例如,X1和X2最终汇总的密文求和结果是{Enc(A)、Enc(B)、Enc(C)、Enc(D)}、{Enc(E)、Enc(F)、Enc(G)、Enc(H)},各分箱包含的样本数{T0、T1、T2、T3}、{ T4、T5、T6、T7 }。可以理解,所有Partition的数据进行汇总才最终得到各个初始分箱对应的密文求和结果(即初始密文统计信息)和初始分箱大小(即样本特征数量)。
Host方需要对密文求和结果添加随机数,并打乱其顺序。例如,Host方首先对密文求和结果添加噪声,得到{Enc(A)+R(a)、Enc(B) +R(b)、Enc(C)+R(c)、Enc(D) +R(d)}、{Enc(E) +R(e)、Enc(F) +R(f)、Enc(G) +R(g)、Enc(H) +R(h)},再进行随机排序,并记录和原序的对应关系,得到{Enc(A)+R(a)、Enc(B) +R(b、Enc(E) +R(e)、Enc(F) +R(f))、Enc(C)+R(c)、Enc(D) +R(d)、Enc(G) +R(g)、Enc(H) +R(h)},随机排序的结果与原序的对应关系是{0->0,1->1、2->4、3->5、4->2、5->3、6->6、7->7}。
Host方把混淆处理后得到的目标密文统计信息序列发给Guest方。目标密文统计信息序列为{Enc(A)+R(a)、Enc(B) +R(b、Enc(E) +R(e)、Enc(F) +R(f))、Enc(C)+R(c)、Enc(D) +R(d)、Enc(G) +R(g)、Enc(H) +R(h)}。
4、Guest方对密文求和结果进行同态解密,将解密结果发送给Host方。
Guest方接收Host方发送来的目标密文统计信息序列{Enc(A)+R(a)、Enc(B) +R(b、Enc(E) +R(e)、Enc(F) +R(f))、Enc(C)+R(c)、Enc(D) +R(d)、Enc(G) +R(g)、Enc(H) +R(h)},并对其进行同态解密处理,得到目标解密统计信息序列{ A+R(a)、B+R(b、E+R(e)、F+R(f))、C+R(c)、D+R(d)、G+R(g)、H+R(h)},并发送给Host方。
5、Host方基于解密结果确定各个初始分箱对应的初始标签分布信息。
Host方接收Guest方发送的目标解密统计信息序列{ A+R(a)、B+R(b、E+R(e)、F+R(f))、C+R(c)、D+R(d)、G+R(g)、H+R(h)},首先根据对应关系{0->0,1->1、2->4、3->5、4->2、5->3、6->6、7->7}恢复数据原序,得到{ A+R(a)、B+R(b、C+R(c)、D+R(d)、E+R(e)、F+R(f))、G+R(g)、H+R(h)},再去除噪声得到{A、B、C、D}、{E、F、G、H},最终通过计算得到每个初始分箱的样本标签分布{(A, T0-A)、(B,T1-B)、(C,T2-C)、(D,T3-D)}、{(E,T4-E)、(F,T5-F)、(G,T6-G)、(H,T7-H)}。
Host方得到各个初始分箱对应的初始标签分布信息后,可以基于初始标签分布信息计算初始分箱价值信息,从而对初始分箱进行调整,得到最优分箱(即目标分箱)。Host方可以基于最优分箱从样本特征集合中确定可以影响用户行为标签预测的有效样本特征,基于最优分箱将有效样本特征离散化,再应用于机器学习模型的训练。训练完成的机器学习模型可以将新用户的用户属性特征作为模型输入,输出新用户对应的用户行为标签,基于模型预测得到的用户行为标签进行资源推荐。例如,若模型预测得到的用户行为标签为点击标签,那么可以向新用户对应的终端进行资源推荐,若模型预测得到的用户行为标签为非点击标签,那么可以不向新用户对应的终端进行资源推荐,避免无效的资源推荐,提高资源推荐的有效性。
本实施例中,通过使用同态加密和混淆处理,在Host方和Guest方传送加密数据,通过数据交互流程严格保证数据安全性,并利用同态性质保护Host方初始分箱正负样本分布结果,从而提高了数据交互安全性。
参考图7B,初始分箱价值信息的确定还可以包括以下步骤:
1、Host方对X进行初始分箱处理。
2、Guest方对Y进行同态加密,将加密结果发送给Host方。Guest方将
Figure 22976DEST_PATH_IMAGE020
(正标签总数量)和
Figure 411232DEST_PATH_IMAGE021
(负标签总数量)发送给Host方。
3、Host方计算各个初始分箱对应的Enc(
Figure 469685DEST_PATH_IMAGE022
)和Enc(
Figure 917984DEST_PATH_IMAGE023
),并发送至Guest方(Enc(
Figure 697721DEST_PATH_IMAGE022
)和Enc(
Figure 624089DEST_PATH_IMAGE023
)组成第一密文统计信息)。
3-1、Host方获取初始分箱对应的
Figure 969619DEST_PATH_IMAGE019
(样本特征数量)。
3-2、Host方基于接收到的标签密文信息计算初始分箱对应的密文求和结果,得到正标签对应的Enc(
Figure 588819DEST_PATH_IMAGE035
)。
3-2、Host方基于初始分箱对应的
Figure 590273DEST_PATH_IMAGE019
和Enc(
Figure 54753DEST_PATH_IMAGE035
)计算得到负标签对应的(
Figure 520369DEST_PATH_IMAGE036
)。
3-3、Host方获取初始分箱对应的随机数
Figure 310471DEST_PATH_IMAGE017
3-4、Host方基于Enc(
Figure 533642DEST_PATH_IMAGE035
)、
Figure 332970DEST_PATH_IMAGE020
Figure 387514DEST_PATH_IMAGE017
计算初始分箱对应的Enc(
Figure 286200DEST_PATH_IMAGE022
),基于(
Figure 58984DEST_PATH_IMAGE037
)、
Figure 396424DEST_PATH_IMAGE021
Figure 305474DEST_PATH_IMAGE017
计算初始分箱对应的Enc(
Figure 640641DEST_PATH_IMAGE023
)。
其中,
Figure 635142DEST_PATH_IMAGE013
Figure 776273DEST_PATH_IMAGE014
4、Guest方计算
Figure 8671DEST_PATH_IMAGE030
,并发送至Host方。
4-1、Guest方对Enc(
Figure 45897DEST_PATH_IMAGE022
)和Enc(
Figure 796203DEST_PATH_IMAGE023
)进行同态解密,得到
Figure 475446DEST_PATH_IMAGE022
Figure 562351DEST_PATH_IMAGE023
其中,
Figure 770478DEST_PATH_IMAGE022
=
Figure 5151DEST_PATH_IMAGE024
Figure 425768DEST_PATH_IMAGE023
=
Figure 163917DEST_PATH_IMAGE025
4-2、Guest方基于
Figure 870841DEST_PATH_IMAGE022
Figure 592810DEST_PATH_IMAGE023
计算
Figure 348276DEST_PATH_IMAGE030
其中,
Figure 409773DEST_PATH_IMAGE026
Figure 225282DEST_PATH_IMAGE027
5、Host方基于
Figure 168968DEST_PATH_IMAGE030
计算初始分箱对应的初始分箱价值信息
Figure 728125DEST_PATH_IMAGE031
Host方得到各个初始分箱对应的初始分箱价值信息后,还可以对初始分箱进行调整,得到最优分箱(即目标分箱)。Host方可以基于最优分箱从样本特征集合中确定可以影响用户行为标签预测的有效样本特征,基于最优分箱将有效样本特征离散化,再应用于机器学习模型的训练。
可以理解,本申请的数据标签分布确定方法除了应用于资源推荐场景(例如广告推荐、文章推荐、视频推荐等),还可以应用于资源转移场景(例如,分期付款等各种银行对应的资源转移业务)、以及其他数据分析场景。
应该理解的是,虽然图2、图3A、图3B、图3C、图4和图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3A、图3B、图3C、图4和图6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种数据标签分布确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:标签密文获取模块802、分箱信息获取模块804、密文统计模块806、密文混淆模块808、密文解密模块810和标签分布确定模块812,其中:
标签密文获取模块802,用于获取标签方设备发送的标签密文信息,标签密文信息包括与标签方设备对应的多个样本标识匹配的标签密文,标签密文是标签方设备对样本标识对应的样本标签进行同态加密处理得到的。
分箱信息获取模块804,用于获取样本特征集合对应的初始分箱信息,样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱。
密文统计模块806,用于基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息。
密文混淆模块808,用于对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
密文解密模块810,用于将目标密文统计信息序列发送至标签方设备,以使标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。
标签分布确定模块812,用于获取标签方设备返回的目标解密统计信息序列,对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
上述数据标签分布确定装置,通过数据交互流程严格保证数据安全性,提高了数据交互安全性。
在一个实施例中,分箱信息获取模块包括:
分箱处理单元,用于对样本特征集合进行初始分箱处理,得到至少两个初始分箱;初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种。
信息确定单元,用于基于各个初始分箱得到初始分箱信息。
在一个实施例中,分箱处理单元还用于从样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集,对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息,第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱,基于各个第一分箱信息得到初始分箱信息。
在一个实施例中,密文统计模块还用于将标签方设备对应的各个样本标识和特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识,从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息。
在一个实施例中,密文混淆模块包括:
噪声添加单元,用于对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息。
序列确定单元,用于基于各个目标密文统计信息得到目标密文统计信息序列。
在一个实施例中,序列确定单元还用于对各个目标密文统计信息进行随机排序,得到目标密文统计信息序列。
在一个实施例中,标签分布确定模块还用于获取排序映射信息,排序映射信息是基于初始密文统计信息的初始排序信息和初始密文统计信息对应的目标密文统计信息的目标排序信息生成的,基于排序映射信息对目标解密统计信息序列进行排序还原,得到初始解密统计信息序列,对初始解密统计信息序列中各个初始解密统计信息进行噪声去除,得到各个初始解密统计信息对应的目标解密统计信息,获取各个初始分箱对应的样本特征数量,基于同一初始分箱对应的目标解密统计信息和样本特征数量得到各个初始分箱对应的初始标签分布信息。
在一个实施例中,所述数据标签分布确定装置还包括:
分箱价值信息获取模块,用于获取各个初始分箱对应的初始分箱价值信息。
分箱调整模块,用于基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,基于更新的初始分箱信息得到更新的各个初始分箱对应的初始分箱价值信息,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。
在一个实施例中,分箱调整模块包括:
第一标签分布差异计算单元,用于基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异。
第一分箱价值信息计算单元,用于基于各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。
在一个实施例中,分箱调整模块包括:
标签数量获取单元,用于获取标签方设备发送的正标签总数量和负标签总数量。
中间密文统计单元,用于基于各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息。
中间密文混淆单元,用于对各个中间密文统计信息进行混淆处理,得到第一密文统计信息序列。
中间密文发送单元,用于将第一密文统计信息序列发送至标签方设备,以使标签方设备对第一密文统计信息序列进行同态解密处理,得到第一解密统计信息序列,基于第一解密统计信息序列得到第一分箱价值信息序列;
第二分箱价值信息计算单元,用于获取标签方设备返回的第一分箱价值信息序列,对第一分箱价值信息序列进行还原处理,得到各个初始分箱对应的初始分箱价值信息。
在一个实施例中,第一解密统计信息序列包括多个第一解密统计信息,第一解密统计信息包括正标签参考比例和负标签参考比例,标签方设备基于第一解密统计信息包含的正标签参考比例和负标签参考比例,计算各个第一解密统计信息对应的中间标签分布差异和标签参考比例差异,基于同一第一解密统计信息对应的中间标签分布差异和标签参考比例差异,计算各个第一解密统计信息对应的第一分箱价值信息,基于各个第一分箱价值信息得到第一分箱价值信息序列。
在一个实施例中,分箱调整模块包括:
分箱合并单元,用于将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;
分箱价值信息计算单元,用于计算各个候选合并分箱对应的候选分箱价值信息。
分箱价值差异计算单元,用于基于候选合并分箱对应的候选分箱价值信息和相邻初始分箱对应的初始分箱价值信息计算候选合并分箱对应的分箱价值差异。
合并分箱确定单元,用于基于各个候选合并分箱对应的分箱价值差异,从多个候选合并分箱中确定目标合并分箱,基于目标合并分箱和剩余的初始分箱得到更新的初始分箱信息。
在一个实施例中,分箱价值信息计算单元还用于基于相邻初始分箱对应的初始标签分布信息计算候选合并分箱对应的候选标签分布信息,基于各个候选合并分箱对应的候选标签分布信息计算各个候选合并分箱对应的候选标签分布差异,基于各个候选合并分箱对应的候选标签分布差异和候选标签分布信息计算各个候选合并分箱对应的候选分箱价值信息。
在一个实施例中,分箱价值信息计算单元还用于获取标签方设备发送的正标签总数量和负标签总数量;基于相邻初始分箱对应的初始密文统计信息计算候选合并分箱对应的初始密文统计信息;基于各个候选合并分箱对应的初始密文统计信息、正标签总数量和负标签总数量得到各个候选合并分箱对应的第二密文统计信息;对各个第二密文统计信息进行混淆处理,得到第二密文统计信息序列;将第二密文统计信息序列发送至标签方设备,以使标签方设备对第二密文统计信息序列进行同态解密处理,得到第二解密统计信息序列,基于第二解密统计信息序列得到第二分箱价值信息序列;获取标签方设备返回的第二分箱价值信息序列,对第二分箱价值信息序列进行还原处理,得到各个候选合并分箱对应的候选分箱价值信息。
在一个实施例中,所述数据标签分布确定装置还包括:
标签预测模块,用于获取目标分箱信息对应的各个目标分箱的目标标签分布信息,获取待分类样本标识对应的待分类样本特征,从各个目标分箱中,将待分类样本特征对应的目标分箱作为参考分箱,基于参考分箱对应的目标标签分布信息确定待分类样本标识对应的参考标签。
在一个实施例中,所述数据标签分布确定装置还包括:
有效特征确定模块,用于获取目标分箱信息对应的各个目标分箱的目标分箱价值信息,基于各个目标分箱价值信息得到目标分箱价值统计信息,当目标分箱价值统计信息位于预设价值信息区间内时,确定样本特征集合中的样本特征为有效样本特征,有效样本特征用于和标签方设备基于联邦学习进行样本分类模型的模型训练。
在一个实施例中,样本标识为用户标识,样本特征为用户属性特征,样本标签为待推送资源对应的用户行为标签。所述数据标签分布确定装置还包括:
资源推送模块,用于基于各个初始标签分布信息确定待推送资源对应的目标属性特征,将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。
在一个实施例中,如图9所示,提供了一种数据标签分布确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:标签获取模块902、标签密文生成模块904、标签密文发送模块906、信息解密模块908和解密信息发送模块910,其中:
标签获取模块902,用于获取与标签方设备对应的多个样本标识匹配的样本标签;
标签密文生成模块904,用于对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
标签密文发送模块906,用于将标签密文信息发送至特征方设备,以使特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱;
信息解密模块908,用于获取特征方设备发送的目标密文统计信息序列,对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
解密信息发送模块910,用于将目标解密统计信息序列发送至特征方设备,以使特征方设备对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
上述数据标签分布确定装置,通过数据交互流程严格保证数据安全性,提高了数据交互安全性。
在一个实施例中,标签密文生成模块还用于对标签方设备对应的各个样本标识进行哈希分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配对应的第二数据处理分区,各个第二数据处理分区并行进行数据处理,在各个第二数据处理分区中,对各个第二样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文,基于同一第二数据处理分区对应的各个标签密文得到各个第二数据处理分区对应的标签密文子集,基于各个标签密文子集得到所述标签密文信息。
在一个实施例中,将标签密文信息发送至特征方设备之前,特征方设备对特征方设备对应的各个样本标识进行哈希分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区,各个第一数据处理分区并行进行数据处理,各个第一数据处理分区存在对应的第二数据处理分区。
标签密文发送模块还用于将标签密文信息发送至特征方设备,以使特征方设备获取各个第一数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的目标样本特征子集、标签密文子集得到多个样本特征对应的候选密文,基于各个候选密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;目标样本特征子集包括属于同一第一样本标识子集的各个样本标识对应的样本特征。
关于数据标签分布确定装置的具体限定可以参见上文中对于数据标签分布确定方法的限定,在此不再赘述。上述数据标签分布确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本标识、样本标签、样本特征等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标签分布确定方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据标签分布确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10、11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (42)

1.一种数据标签分布确定方法,其特征在于,应用于特征方设备,所述方法包括:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;
对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:对各个初始密文统计信息进行两两组合,得到多个初始密文统计信息对,对同一初始密文统计信息对中的初始密文统计信息进行加减运算,得到各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,基于各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,得到所述目标密文统计信息序列;
将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
2.根据权利要求1所述的方法,其特征在于,所述获取样本特征集合对应的初始分箱信息,包括:
对所述样本特征集合进行初始分箱处理,得到至少两个初始分箱;所述初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;
基于各个初始分箱得到所述初始分箱信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述样本特征集合进行初始分箱处理,得到至少两个初始分箱,包括:
从所述样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集;
对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;所述第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱;
基于各个第一分箱信息得到所述初始分箱信息。
4.根据权利要求3所述的方法,其特征在于,所述对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息,包括:
基于初始分箱数对当前特征维度对应的初始样本特征子集进行初始分箱处理,得到所述当前特征维度对应的第一分箱信息,所述当前特征维度对应的第一分箱信息中初始分箱的总分箱数量为所述初始分箱数。
5.根据权利要求1所述的方法,其特征在于,所述基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,包括:
将所述标签方设备对应的各个样本标识和所述特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识;
从所述标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文;
对各个目标标签密文进行统计,得到所述当前初始分箱对应的初始密文统计信息。
6.根据权利要求1所述的方法,其特征在于,所述两两组合包括按照初始分箱排序首尾两两组合、按照初始分箱排序依次两两组合和随机两两组合中的任意一种。
7.根据权利要求1所述的方法,其特征在于,所述对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息,包括:
从所述目标解密统计信息序列中,获取当前初始密文统计信息对所对应的当前解密统计信息对;
对所述当前解密统计信息对中的当前解密统计信息进行加减运算,得到对应的当前解密统计信息和与当前解密统计信息差;
基于所述当前解密统计信息和与当前解密统计信息差,得到所述当前初始密文统计信息对所对应的初始分箱的初始标签分布信息。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述方法还包括:
获取各个初始分箱对应的初始分箱价值信息;
基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,基于所述更新的初始分箱信息得到更新的各个初始分箱对应的初始分箱价值信息,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。
9.根据权利要求8所述的方法,其特征在于,所述获取各个初始分箱对应的初始分箱价值信息,包括:
基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异;
基于所述各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。
10.根据权利要求8所述的方法,其特征在于,所述获取各个初始分箱对应的初始分箱价值信息,包括:
获取标签方设备发送的正标签总数量和负标签总数量;
基于所述各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息;
对各个中间密文统计信息进行混淆处理,得到第一密文统计信息序列;
将所述第一密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述第一密文统计信息序列进行同态解密处理,得到第一解密统计信息序列,基于所述第一解密统计信息序列得到第一分箱价值信息序列;
获取所述标签方设备返回的第一分箱价值信息序列,对所述第一分箱价值信息序列进行还原处理,得到各个初始分箱对应的初始分箱价值信息。
11.根据权利要求10所述的方法,其特征在于,所述第一解密统计信息序列包括多个第一解密统计信息,所述第一解密统计信息包括正标签参考比例和负标签参考比例,所述基于所述第一解密统计信息序列得到第一分箱价值信息序列,包括:
所述标签方设备基于第一解密统计信息包含的正标签参考比例和负标签参考比例,计算各个第一解密统计信息对应的中间标签分布差异和标签参考比例差异;
基于同一第一解密统计信息对应的中间标签分布差异和标签参考比例差异,计算各个第一解密统计信息对应的第一分箱价值信息;
基于各个第一分箱价值信息得到所述第一分箱价值信息序列。
12.根据权利要求8所述的方法,其特征在于,所述基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,包括:
将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;
计算各个候选合并分箱对应的候选分箱价值信息;
基于候选合并分箱对应的候选分箱价值信息和相邻初始分箱对应的初始分箱价值信息计算候选合并分箱对应的分箱价值差异;
基于各个候选合并分箱对应的分箱价值差异,从多个候选合并分箱中确定目标合并分箱,基于所述目标合并分箱和剩余的初始分箱得到所述更新的初始分箱信息。
13.根据权利要求12所述的方法,其特征在于,所述计算各个候选合并分箱对应的候选分箱价值信息,包括:
基于相邻初始分箱对应的初始标签分布信息计算候选合并分箱对应的候选标签分布信息;
基于所述各个候选合并分箱对应的候选标签分布信息计算各个候选合并分箱对应的候选标签分布差异,基于所述各个候选合并分箱对应的候选标签分布差异和候选标签分布信息计算各个候选合并分箱对应的候选分箱价值信息。
14.根据权利要求12所述的方法,其特征在于,所述计算各个候选合并分箱对应的候选分箱价值信息,包括:
获取标签方设备发送的正标签总数量和负标签总数量;
基于相邻初始分箱对应的初始密文统计信息计算候选合并分箱对应的初始密文统计信息;
基于各个候选合并分箱对应的初始密文统计信息、所述正标签总数量和所述负标签总数量得到各个候选合并分箱对应的第二密文统计信息;
对各个第二密文统计信息进行混淆处理,得到第二密文统计信息序列;
将所述第二密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述第二密文统计信息序列进行同态解密处理,得到第二解密统计信息序列,基于所述第二解密统计信息序列得到第二分箱价值信息序列;
获取所述标签方设备返回的第二分箱价值信息序列,对所述第二分箱价值信息序列进行还原处理,得到各个候选合并分箱对应的候选分箱价值信息。
15.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述目标分箱信息对应的各个目标分箱的目标标签分布信息;
获取待分类样本标识对应的待分类样本特征;
从各个目标分箱中,将所述待分类样本特征对应的目标分箱作为参考分箱;
基于所述参考分箱对应的目标标签分布信息确定所述待分类样本标识对应的参考标签。
16.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述目标分箱信息对应的各个目标分箱的目标分箱价值信息;
基于各个目标分箱价值信息得到目标分箱价值统计信息;
当所述目标分箱价值统计信息位于预设价值信息区间内时,确定所述样本特征集合中的样本特征为有效样本特征,所述有效样本特征用于和标签方设备基于联邦学习进行样本分类模型的模型训练。
17.根据权利要求1至7任意一项所述的方法,其特征在于,所述样本标识为用户标识,所述样本特征为用户属性特征,所述样本标签为待推送资源对应的用户行为标签,所述方法还包括:
基于各个初始标签分布信息确定所述待推送资源对应的目标属性特征;
将用户属性特征为所述目标属性特征的候选用户作为目标用户,向所述目标用户对应的终端推送所述待推送资源。
18.一种数据标签分布确定方法,其特征在于,应用于标签方设备,所述方法包括:
获取与所述标签方设备对应的多个样本标识匹配的样本标签;
对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:对各个初始密文统计信息进行两两组合,得到多个初始密文统计信息对,对同一初始密文统计信息对中的初始密文统计信息进行加减运算,得到各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,基于各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,得到所述目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
19.根据权利要求18所述的方法,其特征在于,所述对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息,包括:
对所述标签方设备对应的各个样本标识进行哈希分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配对应的第二数据处理分区;各个第二数据处理分区并行进行数据处理;
在各个第二数据处理分区中,对各个第二样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文;
基于同一第二数据处理分区对应的各个标签密文得到各个第二数据处理分区对应的标签密文子集;
基于各个标签密文子集得到所述标签密文信息。
20.根据权利要求19所述的方法,其特征在于,所述将所述标签密文信息发送至特征方设备之前,所述方法还包括:
所述特征方设备对所述特征方设备对应的各个样本标识进行哈希分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区;各个第一数据处理分区并行进行数据处理,所述各个第一数据处理分区存在对应的第二数据处理分区;
所述将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:
将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取各个第一数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的目标样本特征子集、标签密文子集得到多个样本特征对应的候选密文,基于各个候选密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述目标样本特征子集包括属于同一第一样本标识子集的各个样本标识对应的样本特征。
21.一种数据标签分布确定装置,其特征在于,所述装置包括:
标签密文获取模块,用于获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的样本标签进行同态加密处理得到的;
分箱信息获取模块,用于获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
密文统计模块,用于基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息;
密文混淆模块,用于对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:对各个初始密文统计信息进行两两组合,得到多个初始密文统计信息对,对同一初始密文统计信息对中的初始密文统计信息进行加减运算,得到各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,基于各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,得到所述目标密文统计信息序列;
密文解密模块,用于将所述目标密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
标签分布确定模块,用于获取所述标签方设备返回的目标解密统计信息序列,对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
22.根据权利要求21所述的装置,其特征在于,分箱信息获取模块包括:
分箱处理单元,用于对所述样本特征集合进行初始分箱处理,得到至少两个初始分箱;所述初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;
信息确定单元,用于基于各个初始分箱得到所述初始分箱信息。
23.根据权利要求22所述的装置,其特征在于,所述分箱处理单元还用于从所述样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集,对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;所述第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱,基于各个第一分箱信息得到所述初始分箱信息。
24.根据权利要求23所述的装置,其特征在于,所述分箱处理单元还用于基于初始分箱数对当前特征维度对应的初始样本特征子集进行初始分箱处理,得到所述当前特征维度对应的第一分箱信息,所述当前特征维度对应的第一分箱信息中初始分箱的总分箱数量为所述初始分箱数。
25.根据权利要求21所述的装置,其特征在于,所述密文统计模块还用于将所述标签方设备对应的各个样本标识和所述特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识,从所述标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到所述当前初始分箱对应的初始密文统计信息。
26.根据权利要求21所述的装置,其特征在于,所述两两组合包括按照初始分箱排序首尾两两组合、按照初始分箱排序依次两两组合和随机两两组合中的任意一种。
27.根据权利要求21所述的装置,其特征在于,所述标签分布确定模块还用于从所述目标解密统计信息序列中,获取当前初始密文统计信息对所对应的当前解密统计信息对,对所述当前解密统计信息对中的当前解密统计信息进行加减运算,得到对应的当前解密统计信息和与当前解密统计信息差,基于所述当前解密统计信息和与当前解密统计信息差,得到所述当前初始密文统计信息对所对应的初始分箱的初始标签分布信息。
28.根据权利要求21至27任意一项所述的装置,其特征在于,所述装置还包括:
分箱价值信息获取模块,用于获取各个初始分箱对应的初始分箱价值信息;
分箱调整模块,用于基于初始分箱价值信息对初始分箱信息进行调整,得到更新的初始分箱信息,基于所述更新的初始分箱信息得到更新的各个初始分箱对应的初始分箱价值信息,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,停止调整,得到目标分箱信息。
29.根据权利要求28所述的装置,其特征在于,所述分箱价值信息获取模块包括:
第一标签分布差异计算单元,用于基于各个初始分箱对应的初始标签分布信息计算各个初始分箱对应的初始标签分布差异;
第一分箱价值信息计算单元,用于基于所述各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱对应的初始分箱价值信息。
30.根据权利要求28所述的装置,其特征在于,所述分箱价值信息获取模块包括:
标签数量获取单元,用于获取标签方设备发送的正标签总数量和负标签总数量;
中间密文统计单元,用于基于所述各个初始分箱对应的初始密文统计信息、样本特征数量、正标签总数量和负标签总数量得到各个初始分箱对应的中间密文统计信息;
中间密文混淆单元,用于对各个中间密文统计信息进行混淆处理,得到第一密文统计信息序列;
中间密文发送单元,用于将所述第一密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述第一密文统计信息序列进行同态解密处理,得到第一解密统计信息序列,基于所述第一解密统计信息序列得到第一分箱价值信息序列;
第二分箱价值信息计算单元,用于获取所述标签方设备返回的第一分箱价值信息序列,对所述第一分箱价值信息序列进行还原处理,得到各个初始分箱对应的初始分箱价值信息。
31.根据权利要求30所述的装置,其特征在于,所述第一解密统计信息序列包括多个第一解密统计信息,所述第一解密统计信息包括正标签参考比例和负标签参考比例,所述标签方设备基于第一解密统计信息包含的正标签参考比例和负标签参考比例,计算各个第一解密统计信息对应的中间标签分布差异和标签参考比例差异,基于同一第一解密统计信息对应的中间标签分布差异和标签参考比例差异,计算各个第一解密统计信息对应的第一分箱价值信息,基于各个第一分箱价值信息得到所述第一分箱价值信息序列。
32.根据权利要求28所述的装置,其特征在于,所述分箱调整模块包括:
分箱合并单元,用于将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;
分箱价值信息计算单元,用于计算各个候选合并分箱对应的候选分箱价值信息;
分箱价值差异计算单元,用于基于候选合并分箱对应的候选分箱价值信息和相邻初始分箱对应的初始分箱价值信息计算候选合并分箱对应的分箱价值差异;
合并分箱确定单元,用于基于各个候选合并分箱对应的分箱价值差异,从多个候选合并分箱中确定目标合并分箱,基于所述目标合并分箱和剩余的初始分箱得到所述更新的初始分箱信息。
33.根据权利要求32所述的装置,其特征在于,所述分箱价值信息计算单元还用于基于相邻初始分箱对应的初始标签分布信息计算候选合并分箱对应的候选标签分布信息,基于所述各个候选合并分箱对应的候选标签分布信息计算各个候选合并分箱对应的候选标签分布差异,基于所述各个候选合并分箱对应的候选标签分布差异和候选标签分布信息计算各个候选合并分箱对应的候选分箱价值信息。
34.根据权利要求32所述的装置,其特征在于,所述分箱价值信息计算单元还用于获取标签方设备发送的正标签总数量和负标签总数量,基于相邻初始分箱对应的初始密文统计信息计算候选合并分箱对应的初始密文统计信息,基于各个候选合并分箱对应的初始密文统计信息、所述正标签总数量和所述负标签总数量得到各个候选合并分箱对应的第二密文统计信息,对各个第二密文统计信息进行混淆处理,得到第二密文统计信息序列,将所述第二密文统计信息序列发送至所述标签方设备,以使所述标签方设备对所述第二密文统计信息序列进行同态解密处理,得到第二解密统计信息序列,基于所述第二解密统计信息序列得到第二分箱价值信息序列,获取所述标签方设备返回的第二分箱价值信息序列,对所述第二分箱价值信息序列进行还原处理,得到各个候选合并分箱对应的候选分箱价值信息。
35.根据权利要求28所述的装置,其特征在于,所述装置还包括:
标签预测模块,用于获取所述目标分箱信息对应的各个目标分箱的目标标签分布信息,获取待分类样本标识对应的待分类样本特征,从各个目标分箱中,将所述待分类样本特征对应的目标分箱作为参考分箱,基于所述参考分箱对应的目标标签分布信息确定所述待分类样本标识对应的参考标签。
36.根据权利要求28所述的装置,其特征在于,所述装置还包括:
有效特征确定模块,用于获取所述目标分箱信息对应的各个目标分箱的目标分箱价值信息,基于各个目标分箱价值信息得到目标分箱价值统计信息,当所述目标分箱价值统计信息位于预设价值信息区间内时,确定所述样本特征集合中的样本特征为有效样本特征,所述有效样本特征用于和标签方设备基于联邦学习进行样本分类模型的模型训练。
37.根据权利要求21至27任意一项所述的装置,其特征在于,所述样本标识为用户标识,所述样本特征为用户属性特征,所述样本标签为待推送资源对应的用户行为标签,所述装置还包括:
资源推送模块,用于基于各个初始标签分布信息确定所述待推送资源对应的目标属性特征,将用户属性特征为所述目标属性特征的候选用户作为目标用户,向所述目标用户对应的终端推送所述待推送资源。
38.一种数据标签分布确定装置,其特征在于,所述装置包括:
标签获取模块,用于获取与标签方设备对应的多个样本标识匹配的样本标签;
标签密文生成模块,用于对各个样本标签进行同态加密处理得到对应的标签密文,基于各个样本标识对应的标签密文得到标签密文信息;
标签密文发送模块,用于将所述标签密文信息发送至特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:对各个初始密文统计信息进行两两组合,得到多个初始密文统计信息对,对同一初始密文统计信息对中的初始密文统计信息进行加减运算,得到各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,基于各个初始密文统计信息对所对应的初始密文统计信息和与初始密文统计信息差,得到所述目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
信息解密模块,用于获取所述特征方设备发送的目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
解密信息发送模块,用于将所述目标解密统计信息序列发送至所述特征方设备,以使所述特征方设备对所述目标解密统计信息序列进行还原处理,得到各个初始分箱对应的初始标签分布信息。
39.根据权利要求38所述的装置,其特征在于,所述标签密文生成模块还用于对所述标签方设备对应的各个样本标识进行哈希分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配对应的第二数据处理分区,各个第二数据处理分区并行进行数据处理,在各个第二数据处理分区中,对各个第二样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文,基于同一第二数据处理分区对应的各个标签密文得到各个第二数据处理分区对应的标签密文子集,基于各个标签密文子集得到所述标签密文信息。
40.根据权利要求39所述的装置,其特征在于,所述特征方设备对所述特征方设备对应的各个样本标识进行哈希分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区;各个第一数据处理分区并行进行数据处理,所述各个第一数据处理分区存在对应的第二数据处理分区;
所述标签密文发送模块还用于将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取各个第一数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的目标样本特征子集、标签密文子集得到多个样本特征对应的候选密文,基于各个候选密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述目标样本特征子集包括属于同一第一样本标识子集的各个样本标识对应的样本特征。
41.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至17或18至20中任一项所述的方法的步骤。
42.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至17或18至20中任一项所述的方法的步骤。
CN202110918917.XA 2021-08-11 2021-08-11 数据标签分布确定方法、装置、计算机设备和存储介质 Active CN113362048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110918917.XA CN113362048B (zh) 2021-08-11 2021-08-11 数据标签分布确定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110918917.XA CN113362048B (zh) 2021-08-11 2021-08-11 数据标签分布确定方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113362048A CN113362048A (zh) 2021-09-07
CN113362048B true CN113362048B (zh) 2021-11-30

Family

ID=77522962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110918917.XA Active CN113362048B (zh) 2021-08-11 2021-08-11 数据标签分布确定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113362048B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591133B (zh) * 2021-09-27 2021-12-24 支付宝(杭州)信息技术有限公司 基于差分隐私进行特征处理的方法及装置
CN113923006B (zh) * 2021-09-30 2024-02-02 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN114491416A (zh) * 2022-02-23 2022-05-13 北京百度网讯科技有限公司 特征信息的处理方法、装置、电子设备和存储介质
CN114401079B (zh) * 2022-03-25 2022-06-14 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN116451279B (zh) * 2023-06-20 2023-08-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990857A (zh) * 2019-12-11 2020-04-10 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置
CN111539009A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 保护隐私数据的有监督特征分箱方法及装置
CN112597525A (zh) * 2021-03-04 2021-04-02 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160572B (zh) * 2020-04-01 2020-07-17 支付宝(杭州)信息技术有限公司 一种基于多标签的联邦学习方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990857A (zh) * 2019-12-11 2020-04-10 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置
CN111539009A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 保护隐私数据的有监督特征分箱方法及装置
CN112597525A (zh) * 2021-03-04 2021-04-02 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113362048A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113362048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
US11902413B2 (en) Secure machine learning analytics using homomorphic encryption
EP3965023A1 (en) Method and device for constructing decision trees
Al Badawi et al. Privft: Private and fast text classification with homomorphic encryption
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
JP6768681B2 (ja) 分散データからの学習
CN111931950A (zh) 一种基于联邦学习进行模型参数更新的方法及系统
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN111539535B (zh) 基于隐私保护的联合特征分箱方法及装置
CN111081337B (zh) 一种协同任务预测方法及计算机可读存储介质
CN111666460A (zh) 基于隐私保护的用户画像生成方法、装置及存储介质
CN111539009B (zh) 保护隐私数据的有监督特征分箱方法及装置
CN111401572B (zh) 基于隐私保护的有监督特征分箱方法及装置
CN113704800A (zh) 基于混淆箱的数据分箱处理方法、装置、设备及存储介质
Dwork 14 Differential Privacy: A Cryptographic Approach to Private Data Analysis
Pyrgelis et al. Privacy-friendly mobility analytics using aggregate location data
CN114186263A (zh) 一种基于纵向联邦学习的数据回归方法及电子装置
CN112990484A (zh) 基于非对称联邦学习的模型联合训练方法、装置及设备
KR102040782B1 (ko) 서버 로그들로부터의 식별자들을 연결하기 위한 브리지 매치 식별자들 생성
CN107305583B (zh) 实时串流纪录数据分析系统与方法
CN114372871A (zh) 信用评分值的确定方法及其装置、电子设备及存储介质
Rannenberg et al. Study on the technical evaluation of de-identification procedures for personal data in the automotive sector
Beg et al. Dynamic parameters-based reversible data transform (RDT) algorithm in recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053155

Country of ref document: HK