CN113449048A - 数据标签分布确定方法、装置、计算机设备和存储介质 - Google Patents

数据标签分布确定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113449048A
CN113449048A CN202111008110.9A CN202111008110A CN113449048A CN 113449048 A CN113449048 A CN 113449048A CN 202111008110 A CN202111008110 A CN 202111008110A CN 113449048 A CN113449048 A CN 113449048A
Authority
CN
China
Prior art keywords
information
sample
initial
label
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111008110.9A
Other languages
English (en)
Other versions
CN113449048B (zh
Inventor
范晓亮
蒋杰
程勇
刘煜宏
陈鹏
陶阳宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111008110.9A priority Critical patent/CN113449048B/zh
Publication of CN113449048A publication Critical patent/CN113449048A/zh
Application granted granted Critical
Publication of CN113449048B publication Critical patent/CN113449048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请涉及一种数据标签分布确定方法、装置、计算机设备和存储介质,包括:基于特征方设备发送的参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到对应的目标样本标签;对各个目标样本标签进行同态加密处理得到标签密文信息;获取特征方设备基于标签密文信息和样本特征集合对应的初始分箱信息得到的目标密文统计信息序列,并进行同态解密处理得到目标解密统计信息序列;基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息,并发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。采用本方法能提高数据安全性。

Description

数据标签分布确定方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据标签分布确定方方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,可以在网络上传输、存储的数据日益增长。不同公司不同部门之间通常存储、维护着不同的数据,例如,部门A存储有样本的标签,部门B存储有样本的特征。
基于业务需求,不同公司不同部门之间有些时候需要进行数据交互,联合对方的数据进行数据分析,例如,部门B可以借助部门A的标签数据确定本地样本标签的分布情况。然而,存储、维护着不同数据的持有方之间通常是独立维护各自的数据,若直接进行数据交互,不利于维护双方的数据隐私,会导致数据泄露,存在一定的安全隐患。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据安全性的数据标签分布确定方法、装置、计算机设备和存储介质。
一种数据标签分布确定方法,所述方法包括:
获取特征方设备发送的参考样本特征信息;
基于所述参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签;
对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息;
将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱,所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
获取所述特征方设备返回的所述目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种数据标签分布确定装置,所述装置包括:
信息获取模块,用于获取特征方设备发送的参考样本特征信息;
标签转换模块,用于基于所述参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签;
密文生成模块,用于对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息;
密文发送模块,用于将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱,所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
密文解密模块,用于获取所述特征方设备返回的所述目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
信息发送模块,用于基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取特征方设备发送的参考样本特征信息;
基于所述参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签;
对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息;
将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱,所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
获取所述特征方设备返回的所述目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取特征方设备发送的参考样本特征信息;
基于所述参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签;
对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息;
将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱,所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
获取所述特征方设备返回的所述目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种数据标签分布确定方法,所述方法包括:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,所述目标样本标签是所述标签方设备基于所述特征方设备发送的参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
将所述目标密文统计信息序列发送至标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息;
获取所述标签方设备返回的所述标签分布参考信息,基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种数据标签分布确定装置,所述装置包括:
标签密文信息获取模块,用于获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,所述目标样本标签是所述标签方设备基于特征方设备发送的参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
初始分箱信息获取模块,用于获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
密文统计信息获取模块,用于基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
密文统计信息发送模块,用于将所述目标密文统计信息序列发送至标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息;
标签分布信息确定模块,用于获取所述标签方设备返回的所述标签分布参考信息,基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,所述目标样本标签是所述标签方设备基于所述特征方设备发送的参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
将所述目标密文统计信息序列发送至标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息;
获取所述标签方设备返回的所述标签分布参考信息,基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,所述目标样本标签是所述标签方设备基于所述特征方设备发送的参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
将所述目标密文统计信息序列发送至标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息;
获取所述标签方设备返回的所述标签分布参考信息,基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
上述数据标签分布确定方法、装置、计算机设备和存储介质,标签方设备基于参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签,对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息。标签方设备把标签密文信息发送至特征方设备。特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列,并将目标密文统计信息序列发送至标签方设备。标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息。标签方设备将标签分布参考信息发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。这样,特征方设备和标签方设备之间不直接传输样本特征和样本标签,通过同态加密技术和标签映射,特征方设备在不获知标签方设备存储的具体样本标签数据的情况下,也可以计算得到样本特征对应的初始分箱的初始标签分布信息,从而有效维护了标签方设备的数据隐私、数据安全。
附图说明
图1为一个实施例中数据标签分布确定方法的应用环境图;
图2为一个实施例中数据标签分布确定方法的流程示意图;
图3为一个实施例中标签转换的流程示意图;
图4为一个实施例中确定候选标签分布信息的流程示意图;
图5为另一个实施例中数据标签分布确定方法的流程示意图;
图6为一个实施例中对初始分箱信息进行调整得到目标分箱信息的流程示意图;
图7为一个实施例中基于联邦学习训练模型的流程示意图;
图8A为一个实施例中标签方设备和特征方设备进行数据交互的时序示意图;
图8B为另一个实施例中标签方设备和特征方设备进行数据交互的时序示意图;
图9为一个实施例中数据标签分布确定装置的结构框图;
图10为一个实施例中数据标签分布确定装置的结构框图;
图11为一个实施例中计算机设备的内部结构图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习、联邦学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习、大数据处理等技术,具体通过如下实施例进行说明:
本申请提供的数据标签分布确定方法,可以应用于如图1所示的应用环境中。其中,特征方设备102通过网络与标签方设备104进行通信。特征方设备102和标签方设备104可以是计算机设备,计算机设备具体可以是终端,也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。可以理解,特征方设备102可以为至少一个,标签方设备104也可以为至少一个,一个特征方设备可以和至少一个标签方设备进行数据交互,一个标签方设备也可以和至少一个特征方设备进行数据交互。
特征方设备是指存储有样本对应的样本特征,但是没有存储样本对应的样本标签的设备。标签方设备是指存储有样本对应的样本标签的设备。样本标识用于标识样本。样本可以是有生命的个体,例如,用户、动物、植物。样本也可以是物品,例如,工厂中的各种机械设备、电子设备。样本特征是指用于描述样本属性、特性的特征信息,例如,当样本为用户时,可以将用户的年龄、性别、收入、学历、职位等用户属性信息作为用户的样本特征。样本标签是指用于标识样本分类结果的标签,样本标签可以是二分类标签或多分类标签,例如,当样本为用户时,样本标签可以是某一文章对应的用于行为标签,具体可以包括非点击标签、点击但没有评论标签、点击并评论标签等。
具体地,标签方设备可以特征方设备发送的参考样本特征信息,基于参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签。标签方设备对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息,并将标签密文信息发送至特征方设备。特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列。其中,样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱,目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息。标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布信息,将标签分布参考信息发送至特征方设备。最终,特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
进一步的,在联邦学习中,特征方设备具体可以是指Host方,Host方存储有样本特征,但是没有存储样本标签,标签方设备具体可以是指Guest方,Guest方存储有样本标签。基于本申请的数据标签分布确定方法进行数据交互,在保障Guest方和Host方双方数据隐私、数据安全的情况下,Host方最终可以得到初始标签分布信息。后续,Host方可以基于初始标签分布信息进行资源推荐,也可以基于初始标签分布信息确定样本特征是否为有效样本特征,将有效样本特征应用于模型训练,联合Guest方基于联邦学习技术进行标签分类模型的模型训练。
进一步的,本申请的数据标签分布确定方法中初始分箱信息、各个初始分箱对应的初始标签分布信息、目标分箱信息、各个目标分箱对应的目标标签分布信息等数据可以存储在区块链上。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
在一个实施例中,如图2所示,提供了一种数据标签分布确定方法,以该方法应用于图1中的标签方设备为例进行说明,包括以下步骤:
步骤S202,获取特征方设备发送的参考样本特征信息。
其中,特征方设备是指不持有样本标签,但持有样本特征的设备,标签方设备是指持有样本标签的设备。特征方设备和标签方设备之间可以存储有相同样本标识对应的数据,也可以存储有不同样本标识对应的数据。
参考样本特征信息是基于各个初始分箱对应的样本特征数量中数值最大的样本特征数量确定的参考信息,用于对初始样本标签进行标签转换。例如,可以是将数值最大的样本特征数量直接作为参考样本特征信息,也可以是对数值最大的样本特征数量进行转换处理得到参考样本特征信息。
具体地,特征方设备可以对本地的样本特征进行初始分箱处理得到初始分箱信息。初始分箱信息包括各个初始分箱对应的分箱信息,分箱信息包括样本特征数量。特征方设备可以从各个初始分箱对应的样本特征数量中获取数值最大的样本特征数量,基于数值最大的样本特征数量得到参考样本特征信息。进而,特征方设备将参考样本特征信息发送至标签方设备。
在一个实施例中,参考样本特征信息是特征方设备从各个初始分箱对应的样本特征数量中基于数值最大的样本特征数量得到的。
具体地,特征方设备可以将数值最大的样本特征数量直接作为参考样本特征信息。例如,各个初始分箱对应的样本特征数量分别为60,40,80,特征方设备可以将80作为参考样本特征信息。为了进一步提高数据安全性,特征方设备也可以对数值最大的样本特征数量进行转换处理,将转换结果作为参考样本特征信息。后续,标签方设备获取到参考样本特征信息,可以对参考样本特征信息进行转换逆处理,得到数值最大的样本特征数量。例如,特征方设备可以对数值最大的样本特征数量进行编码处理,得到参考样本特征信息。后续,标签方设备对参考样本特征信息进行解码处理,得到数值最大的样本特征数量。特征方设备可以对数值最大的样本特征数量进行加密处理,得到参考样本特征信息。后续,标签方设备对参考样本特征信息进行解密处理,得到数值最大的样本特征数量。进一步的,为了保护特征方设备的样本特征数量,特征方设备也可以选取比数值最大的样本特征数量更大的数据作为参考样本特征信息,基于比数值最大的样本特征数量更大的数据得到参考样本特征信息。这样,标签方设备即使获取到参考样本特征信息,也无法知道特征方设备上某一初始分箱对应的样本特征数量。
可以理解,若有多个特征方设备,从各个特征方设备分别对应的数值最大的样本特征数量进一步选取数值最大的样本特征数量作为中间样本特征数量,基于中间样本特征数量得到参考样本特征信息。
步骤S204,基于参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签。
其中,样本标识是一种标识,用于唯一标识样本,具体可以包括字母、数字和符号中至少一种字符的字符串,例如用户ID、设备ID等。样本可以是有生命的个体,例如,用户、动物、植物。样本也可以是物品,例如,工厂中的各种机械设备、电子设备。样本标签用于标识样本的分类结果,例如,样本标签可以是样本的行为标签、情感标签等,也可以是样本的事件标签等多种类型的标签。样本标签可以是二分类标签,也可以是多分类标签,即样本标签对应至少两个标签类别。行为标签是用于描述个体行为的标签,例如,用户是否点击、评论某一文章的行为标签可以分为非点击标签、点击但非评论标签、点击且评论标签,用户支付是否逾期的行为标签可以分为非逾期标签、轻度逾期标签、重度逾期标签等,植物是否向阳生长的行为标签可以分为向阳标签、直立标签和向阴标签。情感标签是用于描述个体情感的标签,例如,用户对于体育类新闻的情感标签可以分为喜爱标签、不感兴趣标签和讨厌标签。事件标签是用于描述物品事件的标签,例如,电子设备的质检事件结果可以分为优秀、良好、合格和不合格。
初始样本标签是指标签转换前的样本标签,目标样本标签是指标签转换后的样本标签。标签转换用于将复杂的初始样本标签转换为简单便于计算的目标样本标签,并且目标样本标签对应的相关标签数据在进行统计时彼此之间不会相互影响,从而有利于后续基于解密统计信息确定标签分布信息。也就是,对于一个初始分箱来说,第一初始样本标签对应的统计值不会影响第二初始样本标签对应的统计值,也不会影响其他初始样本标签对应的统计值。在一个实施例中,标签方设备可以基于自定义公式或算法进行标签转换。在一个实施例中,标签方设备也可以基于预设设置好的标签对照信息进行标签转换,标签方设备可以基于参考样本特征信息从标签对照信息中查找各个初始样本标签对应的目标样本标签。例如,标签对照信息包括在各种参考样本特征信息下,多分类标签中各个标签类别分别可以对应的目标标签,如,针对三分类,各个标签类别分别可以对应的目标标签,针对六分类,各个标签类别分别可以对应的目标标签。
具体地,在获取到参考样本特征信息后,标签方设备可以基于参考样本特征信息对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签。标签方设备具体可以基于参考样本特征信息对各个标签类别进行标签转换,得到各个标签类别对应的标签转换结果,进一步将各个初始样本标签转换为对应的标签类别的标签转换结果,从而得到各个初始样本标签对应的目标样本标签。
标签方设备可以在本地获取预先存储的多个样本标识对应的初始样本标签,对初始样本标签进行标签转换得到对应的目标样本标签。标签方设备也可以从其他设备获取多个样本标识对应的样本信息,对样本信息进行标签提取得到初始样本标签,对提取到的初始样本标签进行标签转换得到对应的目标样本标签。其中,样本信息是对样本进行信息采集得到的,可以包括文字信息、图片信息、视频信息和音频信息中的至少一种。例如,标签方设备获取包含样本对象的视频,视频携带样本标识,对视频中的样本对象进行行为识别或情感识别,得到初始样本标签。标签方设备也可以将本地的初始样本标签和提取到的初始样本标签进行标签转换得到对应的目标样本标签。
标签方设备可以基于自定义公式进行标签转换。目标样本标签具体可以是由数字组成的样本标签,不同标签类别对应的目标样本标签是不同的,不同标签类别对应的目标样本标签的相关标签数据在进行统计时彼此之间不会相互影响,从而有助于后续基于解密统计信息确定标签分布信息。
步骤S206,对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息。
其中,标签密文是指加密后的目标样本标签。标签密文是标签方设备对目标样本标签进行同态加密处理得到的。标签密文信息包括标签方设备对应的多个样本标识所对应的标签密文,也就是,标签密文信息包括由标签方设备计算得到的多个目标样本标签对应的标签密文,各个标签密文可以携带对应的样本标识。标签密文信息可以认为是标签密文集合。可以理解,同一标签类别对应的多个目标样本标签的标签密文可以相同可以不同。
同态加密处理是指通过同态加密技术对目标样本标签进行加密。同态加密技术是基于数学难题的计算复杂性理论的密码学技术。同态加密技术存在很多同态加密性质,例如对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。例如,A和B是明文数据,[A]和[B]是A、B分别对应的同态密文数据,对密文数据求和得到[C],对[C]进行解密得到的结果为明文数据的求和结果C,即,[A]+[B]=[C],A+B=C,[C]是C对应的同态密文数据。对明文数据添加随机数再进行同态加密的处理结果和对密文数据添加随机数得到的结果一致,[A] + B =[A + B]等。
具体地,标签方设备可以对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,并将各个标签密文组成标签密文信息。
可以理解,标签方设备在进行同态加密处理时可以采用理想格全同态加密算法、整数全同态加密算法、整数环全同态加密算法等同态加密算法,本申请实施例对标签方设备所采取的同态加密算法不做限定。
步骤S208,将标签密文信息发送至特征方设备,以使特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列;样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱,目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息。
其中,样本特征集合包括特征方设备对应的多个样本标识的样本特征。样本特征是用于描述样本属性的特征信息。例如,当样本为用户时,可以将用户的身份证号码、手机号、工号等信息作为用户标识,将用户的年龄、性别、收入、学历、职位等用户属性信息作为用户特征;当样本为植物时,可以将植物的地理位置、编号作为植物标识,将植物的年龄、类别、颜色、地理位置等信息作为植物特征;当样本为机械设备时,可以将设备的生产编号、二维码等信息作为设备标识,将设备的投入使用时间、类别、生产商、检修次数等信息作为设备特征。
特征方设备可以在本地获取预先存储的多个样本标识对应的样本特征组成样本特征集合。特征方设备也可以从其他设备获取多个样本标识对应的样本信息,对样本信息进行特征提取得到样本特征,各个样本标识对应的样本特征组成样本特征集合。例如,特征方设备从终端获取人脸图像,人脸图像携带用户标识,对人脸图像进行特征提取,得到该用户标识对应的身份特征(例如,年龄、性别、职位等)。特征方设备也可以基于本地的样本特征和获取到的样本特征得到样本特征集合。样本特征集合可以包括多个样本标识分别对应的至少一个特征维度的样本特征。
初始分箱信息是指对样本特征进行初始分箱处理得到的信息。初始分箱信息可以包括至少两个初始分箱的分箱信息。一个初始分箱的分箱信息可以包括属于同一初始分箱的各个样本特征、各个样本特征对应的样本标识、初始分箱中样本特征数量、样本特征范围、初始分箱标识等信息。可以理解,不同特征维度的样本特征是分开进行初始分箱处理的。若样本特征集合包括至少两个特征维度的样本特征,对一个特征维度的样本特征进行初始分箱处理得到该特征维度对应的第一分箱信息,各个特征维度对应的第一分箱信息组成样本特征集合对应的初始分箱信息。初始分箱信息包括各个样本特征对应的初始分箱,也就是,各个样本特征归入哪一个初始分箱。初始分箱处理是指对样本特征进行分组,将杂乱的样本特征分配到若干个有序排列的箱子中。例如,将100个用户的年龄平均分为5组,那么可以得到5个初始分箱,每个初始分箱中包括20个用户的年龄信息,5个初始分箱对应的年龄范围是依次递增的。可以理解,一个特征维度对应的多个初始分箱是存在排列顺序的,各个初始分箱是按照特征值从小到大依次排列的。
目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息。目标密文统计信息是基于初始密文统计信息得到的,初始密文统计信息是对初始分箱中多个样本特征对应的样本标识的标签密文进行统计得到的信息。例如,可以对初始分箱中多个样本特征对应的样本标识的标签密文进行求和,将初始标签密文和作为该初始分箱对应的初始密文统计信息。也可以对初始标签密文和取平均值,得到初始标签密文均值,将初始标签密文均值作为初始密文统计信息。
具体地,标签方设备可以将标签密文信息发送至特征方设备。特征方设备可以获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列。特征方设备可以预先进行初始分箱处理,得到初始分箱信息,后续若特征方设备获取到标签密文信息,特征方设备就可以直接获取初始分箱信息。当然,特征方设备也可以在获取到标签密文信息后,对样本特征进行初始分箱处理得到初始分箱信息。进而,特征方设备可以基于标签密文信息和初始分箱信息得到各个初始分箱对应的初始密文统计信息,基于各个初始密文统计信息得到对应的目标密文统计信息,由各个目标密文统计信息组成目标密文统计信息序列。例如,从标签密文信息中,特征方设备获取当前初始分箱中各个样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息。特征方设备可以直接将初始密文统计信息作为目标标签密文信息,进而得到目标密文统计信息序列。例如,将各个初始密文统计信息进行有序排序得到目标密文统计信息序列。特征方设备也可以对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。例如,对各个初始密文统计信息进行噪声添加和随机排序得到目标密文统计信息序列。
在一个实施例中,为了提高数据处理效率,特征方设备和标签方设备可以预先确定双方共有的样本标识,只对双方共有的样本标识对应的数据进行处理,从而避免盲目进行同态加密处理和初始分箱处理。此时,标签方设备对应的多个样本标识和特征方设备对应的多个样本标识为双方共有的样本标识。特征方设备可以发送第一样本标识集合到标签方设备,以使标签方设备将第二样本标识集合和第一样本标识集合求交集,得到多个目标样本标识,目标样本标识为双方共有的样本标识,第一样本标识集合中的样本标识为特征方设备对应的样本标识,第二样本标识集合中的样本标识为标签方设备对应的样本标识。同理,标签方设备也可以发送第二样本标识集合到特征方设备集合,以使特征方设备将第一样本标识集合和第二样本标识集合求交集,得到多个目标样本标识。当然,为了进一步保护特征方设备和标签方设备之间的数据隐私,特征方设备和标签方设备之间可以采取加密传输,也可以借助可信的第三方设备确定特征方设备和标签方设备共有的样本标识,第三方设备分别向特征方设备和标签方设备返回目标样本标识。这样,特征方设备和标签方设备都不会获知对方在目标样本标识之外的样本标识。后续,标签方设备可以对目标样本标识对应的样本标签进行同态加密处理得到标签密文,并组成标签密文信息,将标签密文信息发送至特征方设备。特征方设备可以对目标样本标识对应的样本特征进行初始分箱处理得到初始分箱信息。
步骤S210,获取特征方设备返回的目标密文统计信息序列,对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。
其中,同态解密处理是同态加密处理的逆过程,可以将密文数据解密为明文数据。目标解密统计信息序列包括各个目标密文统计信息对应的目标解密统计信息。
具体地,特征方设备得到目标密文统计信息序列后,可以将目标密文统计信息序列发送至标签方设备,由标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。例如,目标密文统计信息序列包括[A]- [B]- [C]-[D],[A]、[B]、[C]和[D]分别表示A、B、C、D对应的密文数据,标签方设备分别对各个目标密文统计信息进行同态解密处理,得到各个目标密文统计信息对应的初始解密统计信息,目标解密统计信息序列为A-B-C-D。
步骤S212,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息,将标签分布参考信息发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
其中,标签映射关系用于确定目标样本标签对应的初始样本标签。标签映射关系可以记录各个初始样本标签对应的目标样本标签,也可以记录各个标签类别对应的标签转换结果。
标签分布参考信息是指用于确定标签分布信息的参考信息。标签分布信息可以包括标签映射关系和目标解密统计信息序列,那么特征方设备接收到标签分布信息后,可以基于标签映射关系和目标解密统计信息序列得到各个初始分箱对应的初始标签分布信息。标签分布信息也可以包括基于标签映射关系和目标解密统计信息序列得到的候选标签分布信息序列,那么特征方设备接收到标签分布信息后,可以基于候选标签分布信息序列得到各个初始分箱对应的初始标签分布信息。
初始标签分布信息是指初始分箱中样本特征对应的样本标识的标签分布情况。初始标签分布信息可以包括各个标签类别对应的标签数量、标签局部比例、标签全局比例等信息。标签局部比例是指某一初始分箱的某一标签类别在该初始分箱中所占的比例,标签全局比例是指某一初始分箱的某一标签类别在所有初始分箱中所占的比例。
具体地,标签方设备可以基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息。例如,标签方设备可以将标签映射关系和目标解密统计信息序列作为标签分布参考信息,标签方设备也可以基于标签映射关系和目标解密统计信息序列计算各个目标解密统计信息对应的候选标签分布信息,将各个候选标签分布信息组成候选标签分布信息序列,将候选标签分布信息作为标签分布参考信息。
特征方设备获取到标签分布参考信息后,可以基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。例如,若标签分布信息包括标签映射关系和目标解密统计信息序列,那么特征方设备可以基于标签映射关系和目标解密统计信息序列得到各个初始分箱对应的初始标签分布信息。若标签分布信息包括候选标签分布信息序列,那么特征方设备可以基于候选标签分布信息序列得到各个初始分箱对应的初始标签分布信息。
可以理解,不同标签类别对应的目标样本标签的标签密文在进行统计时彼此之间不会相互影响,因此,基于标签映射关系可以从目标解密统计信息中分别提取出多个标签类别对应的标签数量。可以基于自定义公式或算法从目标解密统计信息中提取出多个标签类别对应的标签数量。进一步的,为了保护特征方设备的初始标签分布信息,某一标签类别对应的目标样本标签可以为预设值,从对预设值进行统计得到的统计结果中无法反推出统计过程。因此,标签方设备基于标签映射关系和目标解密统计信息只能计算得到部分标签类别对应的标签数量,无法计算得到所有标签类别的标签数量,也就是,标签方设备无法获知完整的初始标签分布信息。后续,特征方设备可以基于初始分箱对应的样本特征数量和标签方设备发送的部分标签类别对应的标签数量得到各个标签类别对应的标签数量,从而得到初始分箱对应的初始标签分布信息。当然,若各个标签类别对应的目标样本标签不是预设值,从对各个目标样本标签进行统计得到的统计结果中可以反推出统计过程,那么可以直接基于标签映射关系和目标解密统计信息计算得到各个标签类别对应的标签数量。
在一个实施例中,初始标签分布信息可以用于标签预测、样本分类。若一个初始分箱对应的初始标签分布信息中某一标签类别对应的标签数量最大,那么当一个待分类样本标识对应的样本特征位于该初始分箱对应的样本特征范围内,可以粗略判断该待分类样本标识对应的样本标签为该标签类别。
在一个实施例中,初始分箱可能不是最优分箱,最优分箱可以使分箱之间的差异化比较明显,使各个分箱比较准确地反映不同群体的特质。第一设备可以基于初始标签分布信息对初始分箱信息进行调整,得到分箱更准确的目标分箱信息。目标分箱可以认为是最优分箱。目标分箱信息对应的各个目标分箱的目标标签分布信息也可以用于标签预测、样本分类。可以理解,目标标签分布信息的标签预测准确性高于初始标签分布信息的标签预测准确性,即目标分箱信息的标签预测准确性高于初始分箱信息的标签预测准确性。
在一个实施例中,目标分箱对应的目标标签分布信息还可以用于确定样本特征的标签预测能力,确定样本特征对于样本分类结果的影响度。第一设备可以基于一个特征维度的各个目标分箱的目标标签分布信息计算该特征维度的样本特征对应的样本分类影响度,当样本分类影响度在预设阈值范围内时,第一设备可以确定该特征维度的样本特征为有效样本特征,有效样本特征对样本分类结果的影响度在合理范围内。有效样本特征可以应用于样本分类模型的模型训练。其中,样本分类影响度可以是基于目标分箱价值信息得到的,例如将目标分箱价值信息作为样本分类影响度。目标分箱价值信息可以是基于各个目标分箱对应的目标标签分布差异计算得到的,例如,对目标标签分布差异进行加权求和得到目标分箱价值信息,权重可以是预设权重,也可以是根据自定义公式计算得到。目标分箱价值信息也可以是基于各个目标分箱对应的目标标签分布信息和目标标签分布差异计算得到的,例如,基于目标标签分布信息计算目标标签分布差异对应的权重,基于计算得到的权重对各个目标标签分布差异进行加权求和得到目标分箱价值信息。当然,样本分类影响度也可以是基于其他自定义算法或公式计算得到的数据。
上述数据标签分布确定方法中,标签方设备基于参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签,对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息。标签方设备把标签密文信息发送至特征方设备。特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列,并将目标密文统计信息序列发送至标签方设备。标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息。标签方设备将标签分布参考信息发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。这样,特征方设备和标签方设备之间不直接传输样本特征和样本标签,通过同态加密技术和标签映射,特征方设备在不获知标签方设备存储的具体样本标签数据的情况下,也可以计算得到样本特征对应的初始分箱的初始标签分布信息,从而有效维护了标签方设备的数据隐私、数据安全。
在一个实施例中,如图3所示,基于参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签,包括:
步骤S302,基于参考样本特征信息确定目标样本特征数量;目标样本特征数量大于或等于参考样本特征信息对应的参考样本特征数量。
其中,参考样本特征数量是基于参考样本特征信息确定的样本特征数量。例如,若参考样本特征信息为数值最大的样本特征数量,则参考样本特征数量为数值最大的样本特征数量。若参考样本特征信息是对数值最大的样本特征数量进行加密处理得到的,则参考样本特征数量是对参考样本特征信息进行解密处理得到的。
具体地,标签方设备基于参考样本特征信息可以得到目标样本特征数量,目标样本特征数量大于或等于参考样本特征信息对应的参考样本特征数量。
步骤S304,获取各个初始样本标签对应的标签类别,基于目标样本特征数量对各个标签类别进行类别转换,得到各个标签类别对应的类别参数;在将各个类别参数从小到大进行排序的排序结果中,当前类别参数和对应的下一类别参数的比值小于或等于目标样本特征数量的倒数,排序第一的类别参数为预设值。
其中,类别转换是指将某一标签类别转换为某一类别参数。例如,将非点击标签转换为0,将点击但非评论标签转换为1,将点击且评论标签转换为10000。
具体地,标签方设备可以基于目标样本特征数量对各个初始样本标签对应的标签类别进行类别转换,得到各个标签类别对应的类别参数。在将各个类别参数从小到大进行排序的排序结果中,排序第一的类别参数为预设值,预设值具体可以是0。可以理解,任意数量的0相加结果都为0,此时,即使标签方设备获知标签映射关系和目标解密统计信息,标签方设备也只能知道其余标签类别对应的标签分布信息,无法获知排序第一的类别参数对应的标签类别的标签分布信息。将排序第一的类别参数设置为预设值可以有效保护特征方设备的初始标签分布信息。此外,在将各个类别参数从小到大进行排序的排序结果中,当前类别参数和对应的下一类别参数的比值小于或等于目标样本特征数量的倒数。也就是,当前类别参数对应的下一类别参数与当前类别参数的比值大于或等于目标样本特征数量。可以理解,若下一类别参数为当前类别参数的至少目标样本特征数量倍,那么,对于一个初始分箱来说,即使初始分箱中所有样本特征对应的用户标识的初始样本标签相同,均为当前类别参数对应的标签类别,对该初始分箱中各个用户标识对应的当前类别参数相加得到的统计值也不可能超过下一类别参数,也就是,各个类别参数在进行统计时彼此之间不会相互影响。
举例说明,目标样本特征数量为100,多个标签类别包括四个标签类别。第一标签类别对应的类别参数为0,第二标签类别对应的类别参数可以为50(0/50<1/100),第三标签类别对应的类别参数可以为5000(50/5000<=1/100,即5000/50=100),第四标签类别对应的类别参数可以为500050(5000/500050<1/100,即500050/5000>100)。
在一个实施例中,除了排序第一的类别参数,各个类别参数可以是以目标样本特征数量为底数的指数运算结果,各个类别参数对应的指数依次递增。各个类别参数对应的指数可以是连续递增的,也可以是非连续递增的。举例说明,标签类别Y{ y0,y1,……,yh },类别参数Y’{y0’,y1’,……,yh’},若i=0,则y0’=0,若i>0且i<h-1,则yi’=B(i-1)。其中,B表示目标样本特征数量,h+1表示标签类别的类别个数,yi表示标签类别,yi’表示yi对应的类别参数。
步骤S306,将各个初始样本标签转换为对应的标签类别的类别参数,得到各个初始样本标签对应的目标样本标签。
具体地,在得到各个标签类别对应的类别参数后,标签方设备可以将各个初始样本标签转换为对应的标签类别的类别参数,从而最终得到各个初始样本标签对应的目标样本标签。
本实施例中,基于参考样本特征信息确定目标样本特征数量,基于目标样本特征数量对各个标签类别进行类别转换得到各个标签类别对应的类别参数,将各个初始样本标签转换为对应的标签类别的类别参数得到各个初始样本标签对应的目标样本标签。在将各个类别参数从小到大进行排序的排序结果中,当前类别参数和对应的下一类别参数的比值小于或等于目标样本特征数量的倒数,从而各个标签类别对应的相关标签数据在进行统计时不会相互影响。在将各个类别参数从小到大进行排序的排序结果中,排序第一的类别参数为预设值可以保障标签方设备无法得到完整的标签分布信息。
在一个实施例中,对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息,包括:
对标签方设备对应的各个样本标识进行分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区;各个第一数据处理分区并行进行数据处理;在各个第一数据处理分区中,对各个第一样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文;基于同一第一数据处理分区对应的各个标签密文得到各个第一数据处理分区对应的标签密文子集;基于各个标签密文子集得到所述标签密文信息。
其中,对样本标识进行分类处理的方法有很多,例如,将地理位置位于一个区域内的样本标识归入同一样本标识子集,将样本标识末尾数字相同的样本标识归入同一样本标识子集等。在一个实施例中,为了保障数据的分布均匀性,对样本标识进行分类处理具体可以是对样本标识进行哈希分类处理。哈希分类处理是指基于哈希算法对样本标识进行分类处理,例如先计算样本标识对应的哈希值,再计算哈希值和样本标识分区数量的余数,将余数一致的样本标识归入一个样本标识子集。计算公式可以是:partitionn=Hash(样本标识n) %partitionNum,partitionn表示第n个样本标识对应的样本标识子集,Hash(样本标识n)表示对第n个样本标识进行哈希计算,%表示求余运算,partitionNum表示样本标识子集的数量。可以理解,通过哈希分类处理可以将海量的数据均匀分散在不同的样本标识分区中。
第一样本标识子集是指标签方设备对对应的样本标识进行处理得到的样本标识子集。第一数据处理分区是标签方设备上的数据处理单元,标签方设备可以将本地的计算、存储资源(例如硬盘、服务器集群)进行划分,分为不同的数据处理单元。不同的数据处理单元用于存储不同的数据,对不同的数据进行数据处理、数据计算,这样可以有效提高资源利用率。不同的数据处理单元可以并行进行数据处理,从而可以进一步提高数据处理效率。
标签密文子集包括属于同一第一样本标识子集的各个样本标识的样本标签对应的标签密文。
具体地,标签方设备可以对本地的各个样本标识进行分类处理,得到至少一个第一样本标识子集,并为各个第一样本标识子集分配对应的第一数据处理分区。第一数据处理分区用于存储对应的第一样本标识子集和第一样本标识子集对应的样本标签,用于对对应的样本标签进行同态加密处理。进一步的,为了提高数据处理效率,各个第一数据处理分区之间可以并行进行数据处理。在各个第一数据处理分区中,标签方设备可以对各个第一样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文,将在同一第一数据处理分区内计算得到的各个标签密文组成标签密文子集,从而得到各个第一数据处理分区对应的标签密文子集。最终,各个标签密文子集组成标签密文信息,各个标签密文子集可以携带对应的第一样本标识子集的集合标识、第一数据处理分区的分区标识等信息。
本实施例中,标签方设备通过各个第一数据处理分区并行对样本标签进行同态加密处理,可以提高数据加密效率。
在一个实施例中,将标签密文信息发送至特征方设备之前,所述方法还包括:
特征方设备对特征方设备对应的各个样本标识进行分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配对应的第二数据处理分区;各个第二数据处理分区并行进行数据处理,各个第二数据处理分区存在对应的第一数据处理分区。
其中,第二样本标识子集是指特征方设备对对应的样本标识进行处理得到的样本标识子集。第二数据处理分区是特征方设备上的数据处理单元,特征方设备可以将本地的计算、存储资源(例如硬盘、服务器集群)进行划分,分为不同的数据处理单元。不同的数据处理单元用于存储不同的数据,对不同的数据进行数据处理、数据计算,这样可以提高资源利用率。不同的数据处理单元可以并行进行数据处理,从而可以进一步提高数据处理效率。
具体地,特征方设备也可以对本地的各个样本标识进行分类处理得到至少一个第二样本标识子集,并为各个第二样本标识子集分配对应的第二数据处理分区。第二数据处理分区用于存储对应的第二样本标识子集和第二样本标识子集对应的样本特征,用于进行密文统计。进一步的,为了提高数据处理效率,各个第二数据处理分区之间可以并行进行数据处理。可以理解,特征方设备和标签方设备的分类处理方式相同,例如,都采用哈希分类处理方法。因此,特征方设备和标签方设备可以具有相同数量的样本标识子集,特征方设备和标签方设备之间同一样本标识对应的样本标识子集可以具有相同的集合标识,从而第一数据处理分区和第二数据处理分区之间存在对应关系。
将标签密文信息发送至特征方设备,以使特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列,包括:
将标签密文信息发送至特征方设备,以使特征方设备获取各个第二数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的标签密文子集、目标样本特征子集得到多个样本特征对应的目标标签密文,基于各个目标标签密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;目标样本特征子集包括属于同一第二样本标识子集的各个样本标识对应的样本特征。
具体地,标签方设备可以将标签密文信息发送至特征方设备。在特征方设备接收到数据后,特征方设备可以获取各个第二数据处理分区对应的目标样本特征子集,目标样本特征子集包括属于同一第二样本标识子集的各个样本标识对应的样本特征。由于存在对应关系的第一数据处理分区和第二数据处理分区中包含相同的样本标识,特征方设备可以将各个标签密文子集存储至对应的第二数据处理分区中。进而,特征方设备基于第二数据处理分区中的标签密文子集和目标样本特征子集可以确定多个样本特征对应的目标标签密文。特征方设备汇总所有第二数据处理分区的处理结果可以得到各个初始分箱对应的初始密文统计信息。特征方设备再对各个初始密文统计信息进行混淆处理得到目标密文统计信息序列。
本实施例中,特征方设备通过各个第二数据处理分区并行进行标签密文统计,可以提高数据统计效率。
在一个实施例中,获取各个第二数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的标签密文子集、目标样本特征子集得到多个样本特征对应的目标标签密文,基于各个目标标签密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:
特征方设备从当前标签密文子集对应的各个样本标识和当前目标样本特征子集对应的各个样本标识中,获取交叉的样本标识作为目标样本标识;从当前标签密文子集中,获取各个目标样本标识对应的标签密文作为对应的样本特征的目标标签密文;对同一初始分箱对应的样本特征的目标标签密文进行统计,得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
具体地,在获取到标签密文信息和初始分箱信息后,特征方设备可以根据同一样本标识对应的标签密文和样本特征得到初始分箱对应的初始密文统计信息。由于特征方设备对应的样本标识和标签方设备对应的样本标识可以存在部分不一致的样本标识,因此特征方设备需要从中确定双方共有的样本标识。在当前第二数据处理分区中,特征方设备可以从当前标签密文子集对应的各个样本标识和当前目标样本特征子集对应的各个样本标识中获取二者交叉的样本标识作为目标样本标识,交叉的样本标识就是双方共有的样本标识。从当前标签密文子集中,特征方设备可以获取各个目标样本标识对应的标签密文作为对应的样本特征的目标标签密文,从而得到多个样本特征对应的目标标签密文。在计算初始分箱对应的初始密文统计信息时,特征方设备可以对同一初始分箱对应的多个样本特征的目标标签密文进行统计,得到各个初始分箱对应的初始密文统计信息,然后,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
本实施例中,基于双方交叉的样本标识对初始分箱对应的各个标签密文进行统计,可以得到各个初始分箱分别对应的初始密文统计信息。
在一个实施例中,目标密文统计信息序列的确定方法包括以下方式中的任意一种:
对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息,对各个目标密文统计信息进行排序处理,得到目标密文统计信息序列;排序处理为有序排序或随机排序;
对各个初始密文统计信息进行随机排序,得到目标密文统计信息序列。
其中,噪声添加是指在初始密文统计信息中加入干扰信号,从而隐藏初始密文统计信息。干扰信号具体可以是随机数,对各个初始密文统计信息进行噪声添加具体可以是将初始密文统计信息和随机数相加,也可以是将初始密文统计信息和随机数相减。不同的初始密文统计信息对应的随机数可以相同可以不同。
具体地,在进行混淆处理时,特征方设备可以给初始密文统计信息添加噪声,例如,特征方设备可以为各个初始密文统计信息生成随机数,利用同态加密的性质,将各个初始密文统计信息和对应的随机数相加,从而得到各个初始密文统计信息对应的目标密文统计信息。特征方设备可以将各个目标密文统计信息按照初始分箱顺序进行有序排序得到目标密文统计信息序列,也可以将各个目标密文统计信息进行随机排序得到目标密文统计信息序列。初始分箱顺序为按照样本特征从小到大对初始分箱进行排列得到的顺序。可以理解,将各个目标密文统计信息进行随机排序可以进一步隐藏初始密文统计信息。后续,若特征方设备获取到包括标签映射关系和目标解密统计信息序列的标签分布参考信息,特征方设备可以先对目标解密统计信息序列进行还原处理,得到各个初始分箱对应的参考解密统计信息,再基于标签映射关系对各个参考解密统计信息进行标签还原,得到各个初始分箱对应的候选标签分布信息,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
举例说明,对样本特征集合进行初始分箱处理,得到m个初始分箱。初始密文统计信息依次为Enc(histogram(0))、Enc(histogram(1))、Enc(histogram(2))、……、Enc(histogram(m-1))。Enc(histogram(i))表示第i个初始分箱对应的初始密文统计信息,即密文数据,histogram(i)表示第i个初始分箱对应的初始标签分布信息,即明文数据。为了保护histogram(i)和初始分箱顺序不被标签方设备获取,特征方设备可以为每个初始分箱生成一个随机数R(i),利用同态加密的性质([A] + B = [A + B]),将随机数和初始密文统计信息相加,得到目标密文统计信息。目标密文统计信息依次为Enc(histogram(0))+R(0)、Enc(histogram(1))+R(1)、Enc(histogram(2))+R(2)、……、Enc(histogram(m-1))+R(m-1)。为了保护初始分箱的顺序,特征方设备可以对目标密文统计信息进行随机排序,并记录排序前后的对应关系(即排序映射信息),排序映射信息用于后续特征方设备能够还原出原始顺序。特征方设备对目标密文统计信息进行随机排序得到的目标密文统计信息序列可以为Enc(histogram(7))+R(7)、Enc(histogram(2))+R(2)、Enc(histogram(5))+R(5)、……、Enc(histogram(1))+R(1)
特征方设备也可以直接对各个初始密文统计信息进行随机排序,得到目标密文统计信息序列。后续,若特征方设备获取到包括标签映射关系和目标解密统计信息序列的标签分布参考信息,特征方设备可以先对目标解密统计信息序列进行排序还原,再基于标签映射关系得到初始标签分布信息。若特征方设备获取到包括候选标签分布信息序列的标签分布参考信息,特征方设备可以先对候选标签分布信息序列进行排序还原,再基于样本特征数量得到初始标签分布信息。
本实施例中,对各个初始密文统计信息进行噪声添加,可以将初始密文统计信息隐藏起来,从而保护特征方设备的数据安全。对各个目标密文统计信息进行随机排序,可以得到更复杂的目标密文统计信息序列,进一步将初始密文统计信息隐藏起来,保护特征方设备的数据安全。对各个初始密文统计信息进行随机排序,可以将初始密文统计信息隐藏起来,从而保护特征方设备的数据安全。
在一个实施例中,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息,将标签分布参考信息发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息,包括:
基于标签映射关系对目标解密统计信息序列中各个目标解密统计信息进行标签还原,得到各个目标解密统计信息对应的候选标签分布信息,基于各个候选标签分布信息得到候选标签分布信息序列;
将候选标签分布信息序列作为标签分布参考信息发送至特征方设备,以使特征方设备确定候选标签分布信息序列中各个候选标签分布信息对应的初始分箱,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
其中,候选标签分布信息包括部分标签类别对应的标签分布信息。初始标签分布信息包括全部标签类别对应的标签分布信息。标签还原用于从解密统计信息中提取出部分标签类别对应的标签分布信息。候选标签分布信息序列包括多个候选标签分布信息,候选标签分布信息与目标解密统计信息一一对应,各个候选标签分布信息可以按照目标解密统计信息序列中各个目标解密统计信息的排列顺序进行排序得到候选标签分布信息序列。
具体地,标签方设备基于标签映射关系可以对目标解密统计信息序列中各个目标解密统计信息进行标签还原,基于标签映射关系从目标解密统计信息中推出部分标签类别对应的标签分布信息,从而得到各个目标解密统计信息对应的候选标签分布信息。标签方设备将各个候选标签分布信息组成候选标签分布信息序列,并将候选标签分布信息序列发送至特征方设备。获取到候选标签分布信息序列后,特征方设备可以先确定候选标签分布信息序列中各个候选标签分布信息对应的初始分箱,然后再计算各个初始分箱对应的初始标签分布信息。特征方设备基于各个初始分箱对应的样本特征数量和候选标签分布信息可以得到各个初始分箱对应的初始标签分布信息。
可以理解,若特征方设备发送至标签方设备的目标密文统计信息序列是经过随机排序的,那么特征方设备需要对候选标签分布信息序列进行排序还原来确定各个初始分箱分别对应的候选标签分布信息。在生成目标密文统计信息序列时,特征方设备可以基于初始密文统计信息对应的初始排序信息和目标排序信息生成排序映射信息。后续,特征方设备获取到候选标签分布信息序列后,可以基于排序映射信息对候选标签分布信息序列进行排序还原。例如,在初始排序信息中,第一初始分箱对应的初始密文统计信息a对应的排序位置为1,在目标排序信息中,初始密文统计信息a对应的排序位置为7,排序映射信息具体可以记录第一初始分箱或初始密文统计信息a的映射信息为1-7。那么,特征方设备获取到候选标签分布信息序列后,可以从中获取第7个候选标签分布信息作为第一初始分箱对应的候选标签分布信息。
举例说明,各个初始分箱对应的初始密文统计信息序列依次为Enc(histogram(0))、Enc(histogram(1))、Enc(histogram(2))、……、Enc(histogram(m-1))。目标密文统计信息序列为Enc(histogram(7))-Enc(histogram(2))-Enc(histogram(5))-……-Enc(histogram(1))。目标解密统计信息序列为histogram(7)-histogram(2)-histogram(5)-……-histogram(1)。标签方设备基于标签映射关系对目标解密统计信息序列中各个目标解密统计信息进行标签还原得到各个目标解密统计信息对应的候选标签分布信息,候选标签分布信息序列为{
Figure 899971DEST_PATH_IMAGE001
,b7,c7,d7}-{
Figure 213140DEST_PATH_IMAGE001
,b2,c2,d2}-{
Figure 522899DEST_PATH_IMAGE001
,b5,c5,d5}-……-{
Figure 609935DEST_PATH_IMAGE001
,b1,c1,d1}。特征方设备获取到候选标签分布信息序列,进行排序还原得到各个初始分箱对应的候选标签分布信息,各个候选标签分布信息为{
Figure 663341DEST_PATH_IMAGE001
,b0,c0,d0}、{
Figure 503121DEST_PATH_IMAGE001
,b1,c1,d1}、……、{
Figure 249360DEST_PATH_IMAGE001
,bi,ci,di}、……、{
Figure 541802DEST_PATH_IMAGE001
,bm-1,c m-1,d m-1}。特征方设备基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息,各个初始标签分布信息为{a0,b0,c0,d0}、{ a1,b1,c1,d1}、……、{ ai,bi,ci,di}、……、{ am-1,bm-1,c m-1,d m-1}。ai表示初始分箱i中标签类别a对应的标签数量,bi表示初始分箱i中标签类别b对应的标签数量,ci表示初始分箱i中标签类别c对应的标签数量,di表示初始分箱i中标签类别d对应的标签数量。ai+bi+ci+di=Li,Li为初始分箱i对应的样本特征数量。例如,若标签类别a对应的预设值0,那么标签方设备从目标解密统计信息中是无法获知存在多少个0,因此,标签方设备在不获知初始分箱对应的样本特征数量的情况下,是无法得到标签类别a对应的标签数量。
本实施例中,标签方设备基于标签映射关系和目标解密统计信息可以计算得到候选标签分布信息,特征方设备只需要基于候选标签分布信息和对应的初始分箱的样本特征数量就可以计算得到对应的初始标签分布信息。标签方设备为特征方设备承担部分数据计算任务,可以减轻特征方设备的计算压力。
在一个实施例中,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息,将标签分布参考信息发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息,包括:
将标签映射关系和目标解密统计信息序列作为标签分布参考信息发送至特征方设备,以使特征方设备确定目标解密统计信息序列中各个目标解密统计信息对应的初始分箱,基于各个初始分箱对应的目标解密统计信息得到各个初始分箱对应的参考解密统计信息,基于标签映射关系对各个参考解密统计信息进行标签还原,得到各个初始分箱对应的候选标签分布信息,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
具体地,标签方设备也可以直接将标签映射关系和目标解密统计信息序列作为标签分布参考信息发送至特征方设备,由特征方设备自己逐步计算得到各个初始分箱对应的初始标签分布信息。特征方设备获取到标签分布参考信息后,可以先确定目标解密统计信息序列中各个目标解密统计信息对应的初始分箱,也就是,对各个目标解密统计信息进行排序还原得到各个初始分箱对应的目标解密统计信息。进而,特征方设备基于各个初始分箱对应的目标解密统计信息得到各个初始分箱对应的参考解密统计信息,例如,若特征方设备对各个初始密文统计信息进行混淆处理时进行了噪声添加,那么可以对各个目标解密统计信息进行噪声去除得到对应的参考解密统计信息。若特征方设备对各个初始密文统计信息进行混淆处理时没有进行噪声添加,那么特征方设备可以将各个目标解密统计信息直接作为参考解密统计信息。进一步的,特征方设备可以基于标签映射关系对各个参考解密统计信息进行标签还原,得到各个初始分箱对应的候选标签分布信息,再基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
举例说明,各个初始分箱对应的初始密文统计信息序列依次为Enc(histogram(0))、Enc(histogram(1))、Enc(histogram(2))、……、Enc(histogram(m-1))。目标密文统计信息序列为Enc(histogram(7))+R(7)-Enc(histogram(2))+R(2)-Enc(histogram(5))+R(5)-……-Enc(histogram(1))+R(1)。目标解密统计信息序列为histogram(7) +R(7)-histogram(2) +R(2)-histogram(5) +R(5)-……-histogram(1) +R(1)。特征方设备获取到目标解密统计信息序列后,对目标解密统计信息序列进行排序还原得到各个初始分箱对应的目标解密统计信息,各个初始分箱对应的目标解密统计信息为histogram(0) +R(0)-histogram(1) +R(1)-……- histogram(i) +R(i)-……- histogram(m-1) +R(m-1)。其中,R(i)表示随机数。特征方设备对各个目标解密统计信息进行噪声去除后,得到对应的参考解密统计信息。各个初始分箱对应的参考解密统计信息为histogram(0)、histogram(1)、histogram(2)、……、histogram(m-1)。特征方设备标签映射关系对各个参考解密统计信息进行标签还原得到各个初始分箱对应的候选标签分布信息,各个初始分箱对应的候选标签分布信息为{
Figure 398899DEST_PATH_IMAGE001
,b0,c0,d0}、{
Figure 358765DEST_PATH_IMAGE001
,b1,c1,d1}、……、{
Figure 10326DEST_PATH_IMAGE001
,bi,ci,di}、……、{
Figure 55642DEST_PATH_IMAGE001
,bm-1,c m-1,d m-1}。特征方设备基于各个初始分箱对应的样本特征数量和候选标签分布信息得到各个初始分箱对应的初始标签分布信息,各个初始分箱对应的初始标签分布信息为{a0,b0,c0,d0}、{ a1,b1,c1,d1}、……、{ ai,bi,ci,di}、……、{ am-1,bm-1,c m-1,d m-1}。
本实施例中,标签方设备将用于计算初始标签分布信息的标签映射关系和目标解密统计信息序列发送至特征方设备,由特征方设备自己基于标签映射关系和目标解密统计信息序列计算各个初始分箱对应的初始标签分布信息,可以避免标签方设备参与过多的数据计算,特征方设备自主计算初始标签分布信息也可以在一定程度上提高初始标签分布信息的计算准确性。
在一个实施例中,如图4所示,基于标签映射关系对当前解密统计信息进行标签还原,得到对应的候选标签分布信息,包括:
步骤S402,基于标签映射关系确定初始样本标签对应的标签类别的类别参数,对各个类别参数从大到小进行排序,得到类别参数序列。
具体地,当前设备为标签方设备或特征方设备。若当前设备为标签方设备,第一轮信息分解对应的当前解密统计信息为目标解密统计信息。若当前设备为特征方设备,第一轮信息分解对应的当前解密统计信息为参考解密统计信息。当前设备基于标签映射关系可以确定各个标签类别对应的类别参数,并对各个类别参数从大到小进行排序,得到类别参数序列。
步骤S404,从类别参数序列中确定当前类别参数。
步骤S406,基于当前类别参数对当前解密统计信息进行信息分解,得到对应的标签分布子信息和中间参考解密统计信息。
步骤S408,将中间参考解密统计信息作为更新的当前解密统计信息,返回从类别参数序列中确定当前类别参数的步骤,直至中间参考解密统计信息为预设信息,得到多个标签分布子信息。
其中,信息分解用于从当前解密统计信息中分解出当前类别参数对应的标签类别的标签数量。经过一轮信息分解可以得到一个类别参数对应的标签类别的标签数量和用于进行下一轮信息分解的数据。标签分布子信息为当前类别参数对应的标签类别的标签数量。中间参考解密统计信息为进行下一轮信息分解的数据。
具体地,当前设备可以从类别参数序列中按照排序依次选取类别参数作为当前类别参数,基于各个当前类别参数进行多轮信息分类,从而得到多个标签分布子信息。可以理解,一轮信息分解使用到一个类别参数。在第一轮信息分解中,当前设备可以从类别参数序列中获取排序第一的类别参数作为当前类别参数,基于当前类别参数对当前解密统计信息进行信息分解,得到对应的标签分布子信息和中间参考解密统计信息。例如,将当前解密统计信息除以当前类别参数,从除法运算结果中获取商作为与当前类别参数对应的标签类别匹配的标签分布子信息,从除法运算结果中获取余数作为与当前类别参数对应的标签类别匹配的中间参考解密统计信息。在第二轮信息分解中,当前设备将第一轮信息分解得到的中间参考解密统计信息作为新的当前解密统计信息,从类别参数序列中选取下一个类别参数作为当前类别参数,开始新一轮的信息分解,得到新的标签分布子信息和中间参考解密统计信息。以此类推,进行多轮信息分解,直至中间参考解密统计信息为预设信息,最终得到多个标签分布子信息。其中,预设信息具体可以是为预设值,也可以是比剩余未参与信息分类的类别参数大的数据。例如,若中间参考解密统计信息为0,0已经无法再继续信息分解。若中间参考解密统计信息比剩余未参与信息分类的类别参数大,表明中间参考解密统计信息也无法再继续信息分解。
步骤S410,基于各个标签分布子信息得到对应的候选标签分布信息。
具体地,在得到多个标签分布子信息后,当前设备可以将各个标签分布子信息组成某一解密统计信息对应的候选标签分布信息。
举例说明,标签映射关系M{y0->0, y1->1, y2->10000, y3->100000000},共四个标签类别。若某一初始分箱对应的参考解密统计信息为2100262734,第一轮信息分解:当前参考解密统计信息为2100262734,当前类别参数为100000000,2100262734/100000000的商为2,余数为262734。第二轮信息分解:当前参考解密统计信息为262734,当前类别参数为10000,262734/10000的商为26,余数为2734。第三轮信息分解:当前参考解密统计信息为2734,当前类别参数为1,2734/1的商为2734,余数为0。最终,该初始分箱对应的候选标签分布信息为{
Figure 716431DEST_PATH_IMAGE001
, 2734, 26, 21}。后续,特征方设备可以基于该初始分箱对应的样本特征数量得到该初始分箱对应的初始标签分布信息。若该初始分箱对应的样本特征数量为3000,y0=3000-2734-26-21=219,初始标签分布信息为{219, 2734, 26, 21}。
本实施例中,基于多个类别参数进行多轮信息分解,能够逐步从当前解密统计信息中提取出多个标签类别对应的标签分布子信息,最终基于提取得到的各个标签分布子信息可以得到候选标签分布信息。
在一个实施例中,如图5所示,提供了一种数据标签分布确定方法,以该方法应用于图1中的特征方设备为例进行说明,包括以下步骤:
步骤S502,获取标签方设备发送的标签密文信息,标签密文信息包括与标签方设备对应的多个样本标识匹配的标签密文,标签密文是标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,目标样本标签是标签方设备基于特征方设备发送的参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的。
步骤S504,获取样本特征集合对应的初始分箱信息,样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱。
步骤S506,基于标签密文信息和初始分箱信息得到目标密文统计信息序列;目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息。
步骤S508,将目标密文统计信息序列发送至标签方设备,以使标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息。
步骤S510,获取标签方设备返回的标签分布参考信息,基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
具体地,以特征方设备为执行主体说明特征方设备和标签方设备的数据交互过程。特征方设备可以获取标签方设备发送的标签密文信息,标签密文信息包括多个样本标识对应的标签密文,标签密文是标签方设备对样本标签进行同态加密处理得到的。这样,特征方设备接收到的是密文数据,所以标签方设备的样本标签数据不会泄露,保护了标签方设备的数据安全。特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列。特征方设备将目标密文统计信息序列发送至标签方设备。标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息。标签方设备将标签分布参考信息发送至特征方设备。特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。若目标密文统计信息序列是经过混淆处理得到的,则标签方设备接收到的是数据是经过混淆处理的,这样标签方设备就无法得知混淆处理前的数据,所以特征方设备的初始分箱信息、初始标签分布信息不会泄露,保护了特征方设备的数据安全。在保障数据安全的前提下,通过上述数据交互模式,特征方设备最终可以得到样本特征对应的各个初始分箱的初始标签分布信息。
可以理解,各个步骤的具体实现过程可以参照前述各个相关实施例所述的方法,此处不再赘述。
上述数据标签分布确定方法,在多分类场景下,特征方设备和标签方设备之间不直接传输样本特征和样本标签,通过同态加密技术和标签映射,特征方设备在不获知标签方设备存储的具体样本标签数据的情况下,也可以计算得到样本特征对应的初始分箱的初始标签分布信息,从而有效维护了标签方设备的数据隐私、数据安全。
在一个实施例中,获取样本特征集合对应的初始分箱信息,包括:
对样本特征集合进行初始分箱处理,得到至少两个初始分箱;初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;从样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集;对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱;基于各个第一分箱信息得到初始分箱信息。
其中,等频分箱处理是指对同一特征维度的样本特征从小到大排序,使用预设频率对样本特征进行分箱处理,使得每个初始分箱具有数量相同的样本特征。等长分箱处理是指对同一特征维度的样本特征从小到大排序,将样本特征取值区间进行等分处理,得到多个初始分箱,使得每个初始分箱对应的样本特征范围相同,各个样本特征根据其取值落到对应的初始分箱中。任意分割点分箱处理是指对同一特征维度的样本特征从小到大排序,将样本特征取值区间进行随机分割,得到多个初始分箱,各个样本特征根据其取值落到对应的初始分箱中。
举例说明,假设有100个用户分别对应的用户标识和用户年龄,用户年龄总区间为10-59岁,将100个用户的用户年龄从小到大进行排序。等频分箱处理可以是根据排序结果,每10个用户的用户年龄落入一个初始分箱中,得到5个初始分箱。等长分箱处理可以是对用户年龄总区间进行等分处理,得到5个初始分箱,每个初始分箱对应的用户年龄区间为10-19岁、20-29岁、30-39岁、40-49岁、50-59岁,各个用户年龄根据其取值落到对应的初始分箱中。任意分割点分箱处理可以是对用户年龄总区间进行随机分割,得到5个初始分箱,每个初始分箱对应的用户年龄区间为10-29岁、30-36岁、37-39岁、40-50岁、51-59岁,各个用户年龄根据其取值落到对应的初始分箱中。
样本特征集合可以包括至少一个特征维度的样本特征。样本特征子集包括属于同一特征维度的多个样本特征。第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱。
具体地,特征方设备可以对样本特征集合进行初始分箱处理,得到至少两个初始分箱。若样本特征集合中只包括一个特征维度对应的样本特征,那么可以得到至少两个初始分箱,若样本特征集合中包括至少两个特征维度对应的样本特征,那么各个特征维度可以分别对应至少两个初始分箱。特征方设备基于各个初始分箱的分箱信息可以得到初始分箱信息,初始分箱信息可以包括各个初始分箱对应的样本特征、各个样本特征对应的样本标识、样本特征数量、样本特征范围、初始分箱标识等信息。其中,初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种。
若样本特征集合包括不同特征维度的样本特征,需要对不同特征维度的样本特征分别进行初始分箱处理。特征方设备可以从样本特征集合中获取同一特征维度的样本特征组成样本特征子集,从而得到各个特征维度分别对应的初始样本特征子集。特征方设备对各个初始样本特征子集进行初始分箱处理,得到各个特征维度分别对应的第一分箱信息。然后,特征方设备基于各个第一分箱信息得到样本特征集合对应的初始分箱信息。
在一个实施例中,特征方设备可以基于初始分箱数对各个初始样本特征子集进行初始分箱处理,使得各个第一分箱信息中初始分箱的总分箱数量为该初始分箱数。具体地,特征方设备根据初始分箱数M对Xi(特征维度i对应的初始样本特征子集)进行初始分箱处理,经过初始分箱处理后,连续型特征被转换成离散型特征,取值范围为0到M-1,也就是,落入同一初始分箱的样本特征的取值可以转换为初始分箱对应的初始分箱标识。初始分箱标识可以根据初始分箱的排列顺序确定。例如,排序第一的初始分箱对应的初始分箱标识为0,排序第二的初始分箱对应的初始分箱标识为1,以此类推。若用户a的用户年龄A落入排序第一的初始分箱,那么用户a的用户年龄A可以转换为0,若用户a的用户年龄A落入排序第四的初始分箱,那么用户a的用户年龄A可以转换为3。其中,初始分箱数可以根据实际需要进行设置,例如设置为默认值。初始分箱数也可以基于样本分类模型的模型参数进行设置,以便后续进行模型训练,便于在模型训练时计算各种中间数据。
本实施例中,在对样本特征集合进行初始分箱处理时支持多样的初始分箱处理方式,灵活性较高。不同特征维度的样本特征分别进行初始分箱处理,可以提高分箱处理的准确性。
在一个实施例中,基于标签密文信息和初始分箱信息得到目标密文统计信息序列,包括:
将标签方设备对应的各个样本标识和特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识;从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文;对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息;对各个初始分箱对应的初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
具体地,在获取到标签密文信息和初始分箱信息后,特征方设备可以根据同一样本标识对应的标签密文和样本特征得到初始分箱对应的初始密文统计信息。由于特征方设备对应的样本标识和标签方设备对应的样本标识可以存在部分不一致的样本标识,因此特征方设备需要从中确定双方共有的样本标识。特征方设备可以将标签方设备对应的各个样本标识和特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识,交叉的样本标识就是双方共有的样本标识。在计算初始分箱对应的初始密文统计信息时,特征方设备可以从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文,对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息,以此类推,特征方设备最终可以得到各个初始分箱分别对应的初始密文统计信息。其中,特征方设备对各个目标标签密文进行统计具体可以是计算各个目标标签密文的总和、平均值等。
本实施例中,基于双方交叉的样本标识对初始分箱对应的各个标签密文进行统计,可以得到各个初始分箱分别对应的初始密文统计信息。
在一个实施例中,如图6所示,所述方法还包括:
步骤S602,获取各个初始样本标签对应的标签类别,将各个标签类别进行类别划分,得到多个标签类别组。
具体地,类别划分是指将多分类转换为多个二分类,也就是,将多个标签类别转换为多个标签类别组,每个标签类别组对应一种二分类方式。例如,多个标签类别分别包括A、B、C,特征方设备可以将多个标签类别进行类别划分,得到三个标签类别组,各个标签类别组分别为{A vs [B, C] },{B vs [A, C]},{C vs [A, B] }。以{A vs [B, C] }为例,A作为二分类中的一个类别,B和C作为二分类中的另一个类别。可以理解,若原本就是二分类标签,那么进行类别划分后,还是二分类标签。
步骤S604,基于各个标签类别组分别对各个初始标签分布信息进行信息划分,得到各个初始分箱对应的中间标签分布信息集合;中间标签分布信息集合包括各个标签类别组对应的中间标签分布信息。
具体地,信息划分是指将多分类对应的标签分布信息转换为多个二分类对应的标签分布信息。特征方设备可以基于各个标签类别组分别对各个初始标签分布信息进行信息划分,得到各个初始分箱对应的中间标签分布信息集合,一个初始分箱对应的中间标签分布信息集合包括各个标签类别组分别对应的中间标签分布信息。
举例说明,多个标签类别分别包括A、B、C,对应的标签类别组分别为{A vs [B, C] },{B vs [A, C]},{C vs [A, B] },一个初始分箱对应的初始标签分布信息为{219,2734,26}。对于{A vs [B, C] },该初始分箱在该标签类别组对应的中间标签分布信息为{219,2760}。对于{B vs [A, C]},该初始分箱在该标签类别组对应的中间标签分布信息为{2734,245}。对于{C vs [A, B] },该初始分箱在该标签类别组对应的中间标签分布信息为{26,2953}。最终,该初始分箱对应的中间标签分布信息集合包括{219,2760}、{2734,245}和{26,2953}。
步骤S606,基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始标签分布差异集合。
其中,初始标签分布差异集合包括各个标签类别组分别对应的初始标签分布差异。初始标签分布差异是指初始分箱对应的标签分布差异。标签分布差异用于表示二分类标签的分布差异。二分类标签可以分为正标签和负标签。标签分布差异越大,表示样本特征对正标签的贡献越大,标签分布差异越小,表示样本特征对负标签的贡献越大。可以理解,各个标签类别组的相关数据独立计算。
具体地,一个中间标签分布信息可以包括一个标签类别组中正负标签分别对应的标签数量。针对同一标签类别组,特征方设备基于各个初始分箱中正负标签分别对应的标签数量可以计算各个初始分箱中正负标签分别对应的标签全局比例。正负标签对应的标签局部比例是指一个初始分箱中正负标签的数量占该初始分箱的正负标签总数量的比例。一个初始分箱的正负标签对应的标签局部比例之和为1或100%。正负标签对应的标签全局比例是指一个初始分箱中正负标签的数量占所有正负标签总数量的比例。一个特征维度的所有初始分箱的正负标签对应的标签全局比例之和为1或100%。进而,特征方设备可以基于初始分箱对应的正标签的标签全局比例和负标签的标签全局比例计算该初始分箱在该标签类别组对应的初始标签分布差异,以此类推,得到各个初始分箱在该标签类别组对应的初始标签分布差异。同理,特征方设备最终可以得到各个初始分箱在各个标签类别组对应的初始标签分布差异,同一初始分箱对应的各个初始标签分布差异组成初始标签分布差异集合。
特征方设备具体可以计算正标签的标签全局比例和负标签的标签全局比例的比值,基于该比值得到初始标签分布差异,例如,将该比值作为初始标签分布差异,或者,将该比值取对数得到初始标签分布差异等。
在一个实施例中,标签分布差异可以用WOE(Weight of Evidence,证据权重)表示。以一个标签类别组中,
Figure 265224DEST_PATH_IMAGE002
Figure 353266DEST_PATH_IMAGE003
表示在该标签类别组下,第k个分箱中正标签的标签数量,
Figure 885878DEST_PATH_IMAGE004
表示在该标签类别组下,第k个分箱中负标签的标签数量,
Figure 84778DEST_PATH_IMAGE005
表示在该标签类别组下,正标签的总数量,
Figure 488078DEST_PATH_IMAGE006
表示在该标签类别组下,负标签的总数量,N表示分箱数量,
Figure 12600DEST_PATH_IMAGE007
表示在该标签类别组下,第k个分箱对应的正标签的标签全局比例,
Figure 766929DEST_PATH_IMAGE008
表示在该标签类别组下,第k个分箱对应的负标签的标签全局比例。同理,其他标签类别组可以按照类型的方法计算得到对应的标签分布差异。
举例说明,多个标签类别为非点击标签、点击但非评论标签,点击且评论标签。可以将该多个标签类别分为关于是否点击的标签类别组,将点击标签作为正标签,非点击标签作为负标签,点击标签包括点击但非评论标签和点击且评论标签。若正标签的总数量为1000,负标签的总数量为222,一个初始分箱中正标签的标签数量为200,负标签的标签数量为30。针对关于是否点击的标签类别组,该初始分箱对应的初始标签分布差异WOE=
Figure 503941DEST_PATH_IMAGE009
=0.392。当然,也可以将该多个标签类别分为关于是否评论的标签类别组,具体包括评论标签和非评论标签,非评论标签包括点击但非评论标签和非点击标签。也可以将该多个标签类别分为点击但非评论标签和其他标签,其他标签包括点击且评论标签和非点击标签,此时,可以将点击但非评论标签作为正标签,其他标签作为负标签。
步骤S608,基于各个初始分箱对应的中间标签分布信息集合和初始标签分布差异集合计算各个初始分箱对应的初始分箱价值信息集合。
其中,初始分箱价值信息集合包括各个标签类别组对应的初始分箱价值信息。初始分箱价值信息是指初始分箱对应的分箱价值信息。分箱价值信息用于合并分箱,从而调整分箱边界。可以理解,针对同一样本特征集合,不同的分箱方式可以得到不同的初始分箱,从而可以得到不同的分箱价值信息。进一步的,基于分箱价值信息可以计算得到分箱价值统计信息,分箱价值统计信息用于衡量一个特征维度的样本特征对于样本标签的预测能力,衡量一个特征维度的样本特征对于样本分类结果的影响度,即一个特征维度的样本特征的标签预测能力、样本分类影响度。分箱价值统计信息可以量化一个特征维度的样本特征对于样本分类的价值。
具体地,针对同一标签类别组,特征方设备可以基于各个初始分箱对应的初始标签分布信息和初始标签分布差异计算各个初始分箱在该标签类别组对应的初始分箱价值信息。特征方设备具体可以基于各个初始分箱对应的初始标签分布信息计算各个初始标签分布差异对应的权重,将各个初始标签分布差异和对应的权重相乘得到各个初始分箱对应的初始分箱价值信息。同理,特征方设备可以计算得到各个初始分箱在各个标签类别组对应的初始分箱价值信息,同一初始分箱对应的各个初始分箱价值信息组成初始分箱价值信息集合。
可以理解,不同特征维度的数据独立计算标签分布差异和分箱价值信息。例如,关于一个标签类别组,第一设备基于特征维度A对应的各个初始分箱的初始标签分布信息计算特征维度A对应的各个初始分箱的初始标签分布差异。
在一个实施例中,分箱价值信息可以用IV(Information Value,信息价值)表示。在一个标签类别组中,
Figure 292906DEST_PATH_IMAGE010
Figure 722750DEST_PATH_IMAGE011
表示在该标签类别组下,第k个分箱对应的分箱价值信息,
Figure 698796DEST_PATH_IMAGE003
表示在该标签类别组下,第k个分箱中正标签的标签数量,
Figure 505078DEST_PATH_IMAGE004
表示在该标签类别组下,第k个分箱中负标签的标签数量,
Figure 148549DEST_PATH_IMAGE005
表示在该标签类别组下,正标签的总数量,
Figure 998562DEST_PATH_IMAGE006
表示在该标签类别组下,负标签的总数量,N表示分箱数量。一个标签类别组对应的分箱价值统计子信息可以是
Figure 727484DEST_PATH_IMAGE012
表示,
Figure 806298DEST_PATH_IMAGE013
,即一个标签类别组对应的分箱价值统计子信息为同一标签类别组下,各个分箱价值信息的总和。当然也可以是各个分箱价值信息的平均值等数据。
步骤S610,基于初始分箱价值信息集合对初始分箱信息进行调整,得到更新的初始分箱信息,基于更新的初始分箱信息得到更新的各个初始分箱对应的中间标签分布信息集合,返回基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始分布差异集合的步骤,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,得到目标分箱信息。
具体地,特征方设备可以基于初始分箱价值信息集合对初始分箱信息进行调整,将若干个初始分箱进行合并,得到新的初始分箱信息,即得到更新的初始分箱信息。特征方设备可以基于更新的初始分箱信息得到更新的各个初始分箱对应的中间标签分布信息集合,然后返回基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始分布差异集合的步骤,重新计算新的各个初始分箱对应的初始标签分布差异集合、初始分箱价值信息集合,判断更新的初始分箱信息的相关数据是否满足收敛条件,若满足收敛条件,则将满足收敛条件的初始分箱信息作为目标分箱信息。若不满足收敛条件,则继续调整初始分箱信息,直至满足收敛条件,将满足收敛条件的初始分箱信息作为目标分箱信息。
其中,对初始分箱信息进行调整可以是将初始分箱价值信息差异统计值最小的相邻初始分箱进行分箱合并,也就是,将正负标签数量差不多的相邻初始分箱进行分箱合并。初始分箱价值信息差异是指同一标签类别组下,相邻初始分箱对应的初始分箱价值信息的差值。初始分箱价值信息差异统计值是对同一相邻初始分箱在各个标签类别组对应的初始分箱价值信息进行统计得到的,例如,计算各个初始分箱价值信息差异的总和、平均值等。对初始分箱信息进行调整也可以是基于由相邻初始分箱合并得到的合并分箱对应的分箱价值差异集合进行分箱合并。
收敛条件可以是初始分箱的数量达到目标分箱数量、初始分箱中标签数量最大的标签类别对应的标签数量达到标签数量阈值、初始分箱中目标标签类别对应的标签数量达到标签数量阈值、初始分箱信息对应的初始分箱价值统计信息在预设价值信息区间内最大化等中的至少一种。初始分箱信息对应的初始分箱价值统计信息是指初始分箱对应的各个初始分箱价值信息的统计值,例如,将所有初始分箱价值信息的总和作为初始分箱信息对应的初始分箱价值统计信息。
本实施例中,基于初始分箱价值信息集合可以对初始分箱信息进行调整,得到满足预设条件的目标分箱信息,目标分箱信息中分箱边界是综合最优的,可以使得各个目标分箱对分箱价值的贡献尽量最大化,从而基于目标分箱对样本特征离散化可以提高样本特征的预测能力。
在一个实施例中,基于初始分箱价值信息集合对初始分箱信息进行调整,得到更新的初始分箱信息,包括:
将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;基于相邻初始分箱对应的中间标签分布信息集合计算各个候选合并分箱对应的候选标签分布信息集合;基于各个候选合并分箱对应的候选标签分布信息集合计算各个候选合并分箱对应的候选标签分布差异集合,基于各个候选合并分箱对应的候选标签分布差异集合和候选标签分布信息集合计算各个候选合并分箱对应的候选分箱价值信息集合;基于候选合并分箱对应的候选分箱价值信息集合和相邻初始分箱对应的初始分箱价值信息集合计算候选合并分箱对应的分箱价值差异集合;基于各个候选合并分箱对应的分箱价值差异集合,从多个候选合并分箱中确定目标合并分箱,基于目标合并分箱和剩余的初始分箱得到更新的初始分箱信息。
其中,相邻初始分箱为排列顺序相邻的初始分箱。例如,初始分箱信息包括初始分箱A-初始分箱B-初始分箱C-初始分箱D-初始分箱E,初始分箱A和初始分箱B可以认为是相邻初始分箱,初始分箱C和初始分箱D可以认为是相邻初始分箱。候选标签分布信息集合是指候选合并分箱对应的标签分布信息集合。候选标签分布差异集合是指候选合并分箱对应的标签分布差异集合。候选分箱价值信息集合是指候选合并分箱对应的分箱价值信息集合。可以理解,候选标签分布信息集合、候选标签分布差异集合和候选分箱价值信息集合的计算过程可以参考前述各个相关实施例所述的方法。
具体地,若初始标签分布信息包括正负标签对应的标签数量,特征方设备基于各个相邻初始分箱对应的中间标签分布信息集合可以计算各个候选合并分箱对应的候选标签分布信息集合。例如,相邻初始分箱为初始分箱A和初始分箱B,初始分箱A对应的中间标签分布信息集合为{219,2760}、{2734,245}和{26,2953},初始分箱B对应的中间标签分布信息集合为{230,3031}、{3001,260}和{30,3231}。那么将初始分箱A和初始分箱B进行分箱合并得到的候选合并分箱1对应的候选标签分布信息集合为{4499,5791}、{5735,505}和{56,6184}。
分箱价值差异集合包括各个标签类别组分别对应的分箱价值差异。针对一个标签类别组,计算候选合并分箱对应的分箱价值差异可以是将相邻初始分箱在该标签类别组对应的初始分箱价值信息进行求和得到对应的候选合并分箱的合并分箱价值信息,将候选合并分箱对应的候选分箱价值信息和合并分箱价值信息的差值作为候选合并分箱在该标签类别组对应的分箱价值差异。例如,共包括三个标签类别组,相邻初始分箱为初始分箱A和初始分箱B。针对第一标签类别组,初始分箱A和初始分箱B对应的初始分箱价值信息为IVtotal1(A)和IVtotal1(B),将初始分箱A和初始分箱B合并得到候选合并分箱1,针对第一标签类别组,候选合并分箱1对应的初始分箱价值信息为IVtotal1(1),候选合并分箱1对应的分箱价值差异
Figure 569855DEST_PATH_IMAGE014
。同理,针对第二标签类别组,候选合并分箱1对应的分箱价值差异
Figure 75923DEST_PATH_IMAGE015
。针对第三标签类别组,候选合并分箱1对应的分箱价值差异
Figure 292141DEST_PATH_IMAGE016
。候选合并分箱1对应的分箱价值差异集合包括
Figure 440225DEST_PATH_IMAGE017
Figure 792709DEST_PATH_IMAGE018
Figure 836DEST_PATH_IMAGE019
从多个候选合并分箱中确定目标合并分箱可以是选取分箱价值差异统计值较大的至少一个候选合并分箱作为目标合并分箱,也可以是选取分箱价值差异统计值大于预设价值差异的至少一个候选合并分箱作为目标合并分箱。其中,候选合并分箱对应的分箱价值差异统计值是对候选合并分箱对应的分箱价值差异集合进行统计得到的,例如,计算分箱价值差异集合中所有分箱价值差异的总和作为分箱价值差异统计值。计算分箱价值差异集合中所有分箱价值差异的平均值作为分箱价值差异统计值。
举例说明,初始分箱信息包括初始分箱A-初始分箱B-初始分箱C-初始分箱D-初始分箱E-初始分箱F,初始分箱A和初始分箱B合并得到的候选合并分箱1,初始分箱B和初始分箱C合并得到的候选合并分箱2,初始分箱C和初始分箱D合并得到的候选合并分箱3,初始分箱D和初始分箱E合并得到的候选合并分箱4,初始分箱E和初始分箱F合并得到的候选合并分箱5。若候选合并分箱1和候选合并分箱5对应的分箱价值差异统计值为所有分箱价值差异统计值中最大的两个数据,那么可以将候选合并分箱1和候选合并分箱5作为目标合并分箱。更新的初始分箱信息可以是目标合并分箱1-初始分箱C-初始分箱D-目标合并分箱5。当候选合并分箱对应的分箱价值差异统计值较大时,表明合并对应的相邻初始分箱可以提高分箱的分箱价值信息,从而有助于提高分箱价值统计信息,有助于让分箱价值统计信息在合理范围内最大化。
本实施例中,通过合并相邻初始分箱来调整初始分箱信息,从多个候选合并分箱中将分箱价值差异统计值较大的候选合并分箱作为需要保留的目标合并分箱,可以提高分箱价值统计信息,从而基于目标分箱对样本特征离散化可以提高样本特征的预测能力。
在一个实施例中,所述方法还包括:
获取目标分箱信息对应的各个目标分箱的目标分箱价值信息集合;基于各个目标分箱价值信息集合得到目标分箱价值统计信息;当目标分箱价值统计信息位于预设价值信息区间内时,确定样本特征集合中的样本特征为有效样本特征,有效样本特征用于和标签方设备基于联邦学习进行样本分类模型的模型训练。
其中,联邦学习(FL,Federated Learning)是一种分布式人工智能,能有效帮助多个设备在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模。联邦学习适用于训练机器学习模型,联邦学习分散了机器学习模型的训练过程,从而无需将数据发送到集中式服务器就可以维护用户隐私、数据安全。将训练过程分散到多个设备上也可以提高训练效率。样本分类模型是机器学习模型,输入数据为样本特征,输出数据为样本标签。
具体地,目标分箱价值统计信息是指目标分箱对应的分箱价值统计信息。在得到目标分箱信息后,特征方设备可以计算目标分箱信息对应的各个目标分箱的目标分箱价值信息集合,从而对各个目标分箱价值信息集合进行统计得到目标分箱价值统计信息。例如,将各个目标分箱价值信息集合中各个目标分箱价值信息的总和、平均值等作为目标分箱价值统计信息。例如,存在三个标签类别组,各个标签类别组对应的分箱价值统计子信息为
Figure 438771DEST_PATH_IMAGE020
Figure 859388DEST_PATH_IMAGE021
Figure 597537DEST_PATH_IMAGE022
,目标分箱价值统计信息
Figure 445407DEST_PATH_IMAGE023
预设价值信息区间用于判断样本特征是否为有效样本特征,预设价值信息区间可以根据实际需要进行设置。当目标分箱价值统计信息位于预设价值信息区间内时,特征方设备可以确定样本特征集合中的样本特征为有效样本特征。有效样本特征的标签预测能力是比较优秀的,可以将有效样本特征应用于模型训练,作为样本分类模型的输入来预测标签。可以理解,一个样本标识对应的样本特征通常有多个,不同的样本特征对不同类型的样本标签的影响度也是不同的。基于各个特征维度对应的目标分箱价值统计信息可以从大量的特征维度中筛选出若干个特征维度作为关键特征维度,将关键特征维度的样本特征作为有效样本特征,关键特征维度的样本特征对样本标签的影响度较高且合理。将有效样本特征应用于模型训练可以有效减少模型的输入数据,提高模型训练效率。特征方设备和标签方设备可以基于联邦学习进行样本分类模型的模型训练。
举例说明,对银行来说,不同的年龄段,是否守约(是否逾期)的能力也不一样。如何对年龄分段,能最准确的反应群体特质,对银行来说至关重要。因此,在得到用户年龄的目标分箱信息后,特征方设备可以计算目标分箱信息对应的目标分箱价值统计信息,基于目标分箱价值统计信息判断用户年龄这个特征的预测能力,确定用户年龄是否为有效样本特征。当用户年龄为有效样本特征时,银行或社交平台基于用户年龄等有效样本特征可以比较准确地判断用户是否守约。例如,基于用户年龄、收入等有效的用户属性特征训练机器学习模型,通过机器学习模型预测用户支付是否逾期的行为标签。
在一个实施例中,目标分箱价值统计信息并不是越大越好。当目标分箱价值统计信息大于第一预设阈值时,因为样本特征表现过好而显得不够真实,所以需要对样本特征存疑,此时样本特征不利于数据分析和模型训练。当目标分箱价值统计信息小于第二预设阈值时,样本特征表现较差,此时样本特征也不利于数据分析和模型训练。当目标分箱价值统计信息在第一预设阈值和第二预设阈值之间时,样本特征表现良好、真实。因此,预设价值信息区间可以设置为在第一预设阈值和第二预设阈值之间。其中,第一预设阈值可以为0.5,第二预设阈值可以为0.02。可以理解,针对不同的应用场景,预设价值信息区间可以不同,例如,预设价值信息区间可以设置为0.1-0.3。进一步的,在调整初始分箱信息时,调整目标可以是尽量使得分箱价值统计信息在合理范围内最大化。
特征方设备和标签方设备可以基于联邦学习进行样本分类模型的模型训练。在模型训练时,可以利用特征方设备的有效样本特征和标签方设备的样本标签,也可以利用特征方设备的有效样本特征和标签方设备的有效样本特征、样本标签。其中,有效样本特征和样本标签可以是相同样本标识对应的数据。特征方设备的有效样本特征和标签方设备的有效样本特征可以是不同特征维度的样本特征。
若特征方设备和标签方设备具有不同的样本标识,相同特征维度的样本特征,即特征方设备和标签方设备特征维度重叠多,样本标识重叠少,可以基于横向联邦学习进行模型训练。特征方设备和标签方设备从目标服务器下载待训练的样本分类模型,特征方设备基于本地用户标识对应的有效样本特征训练模型,得到梯度信息,标签方设备基于本地用户标识对应的有效样本特征和样本标签训练模型,得到梯度信息。特征方设备和标签方设备通过同态加密技术加密梯度信息上传给目标服务器。目标服务器聚合梯度信息更新模型参数,返回更新后的模型参数给特征方设备和标签方设备。重复特征方设备、标签方设备训练模型的训练步骤,直至模型收敛,得到训练完成的样本分类模型。模型收敛的收敛条件可以是迭代次数达到预设值,梯度信息聚合值达到预设值等。此时,特征方设备和标签方设备可以具备相同且完整的样本分类模型。
若特征方设备和标签方设备具有相同的样本标识,不同特征维度的样本特征,即特征方设备和标签方设备样本标识重叠多,特征维度重叠少,可以基于纵向联邦学习进行模型训练。参考图7,特征方设备持有业务系统A,标签方设备持有业务系统B。样本ID 表示样本标识的集合,X表示样本特征集合,x1,x2,x3,x4,x5为不同特征维度的样本特征数据,Y表示样本标签。
1、A、B双方提取样本ID,通过加密算法加密后,在B方进行安全样本ID对齐(PSI,Private Set Intersection,隐私保护集合交集),得到双方共同的ID集合的交集 A∩B ={u2, u3}。可以理解,A,B均不知对方除了交集外的部分。
2、根据交集ID,双方提取相应样本的特征维度数据X,先在本地计算本地模型数据(如梯度),然后A通过同态加密方式,将中间数据(如梯度)发送给B,B根据A计算得到的中间数据、本地计算得到的中间数据和样本标签计算预测误差,基于预测误差调整模型参数,并将模型更新信息加密后传回A。
3、模型收敛后训练结束,A、B分别持有模型中与自己特征维度X相关部分的参数,并共同提供模型服务。也就是,A持有x1,x2,x3相关的模型参数,B持有x4,x5相关的模型参数,A和B共同提供模型服务。
可以理解,特征方设备和标签方设备还可以基于其他联邦学习方式进行模型训练。在进行模型训练时,样本特征的取值可以转换为对应的目标分箱的目标分箱标识,这样可以减少数据计算复杂度。同理,在进行模型应用时,样本特征的取值也可以转换为对应的目标分箱的目标分箱标识。
本实施例中,基于目标分箱信息对应的目标分箱价值统计信息可以对样本特进行筛选,从多个特征维度的样本特征中筛选出若干个特征维度的样本特征作为有效样本特征,只将有效样本特征应用于模型训练,可以减少模型训练的训练数据,提高模型训练效率。
在一个实施例中,样本标识为用户标识,样本特征为用户属性特征,初始样本标签为待推送资源对应的用户行为标签。所述方法还包括:
基于各个初始标签分布信息确定与待推送资源对应的目标行为标签匹配的目标属性特征;将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。
其中,在资源推荐应用场景中,样本标识可以是用户标识,例如,用户ID、用户身份证号码、用户手机号码等。样本特征可以是用户属性特征,例如,用户年龄、用户收入、用户地理位置等。样本标签可以是待推送资源对应的用户行为标签。待推送资源是指待推送给用户的资源,资源是指能够通过网络获取到的信息,可以包括文字信息、图片信息、视频信息和音频信息中的至少一种。待推送资源可以是某一个具体的资源,也可是某一类资源。用户行为标签是用于描述用户行为的标签,例如,用户是否点击、评论某一文章或某类文章的行为标签可以分为非点击标签、点击但非评论标签、点击且评论标签。
目标行为标签为数据分析人员更关注的用户行为标签,例如,点击且评论标签。
具体地,特征方设备基于各个初始分箱对应的初始标签分布信息可以确定与待推送资源对应的目标行为标签匹配的目标属性特征,例如,特征方设备可以将点击且评论标签的标签全局比例排序靠前(从大到小排序)的至少一个初始分箱对应的用户属性特征作为目标属性特征。进而,特征方设备可以将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源,从而提高待推送资源的点击率和评论率,提高资源推荐的有效性。
举例说明,初始样本标签为产品A对应的用户行为标签,包括非点击标签、点击但非进行虚拟资源转移标签,点击且进行虚拟资源转移标签。针对年龄特征维度,若20-40岁对应的初始分箱的点击且进行虚拟资源转移标签的标签全局比例最大,则可以将20-40岁作为与产品A点击且进行虚拟资源转移标签匹配的目标属性特征。那么,可以将用户年龄在20-40岁的新用户或未推送用户作为产品A对应的目标用户,向目标用户对应的终端推送产品A,这样可以提高产品A的点击率和虚拟资源转移率。
本申请还提供一种应用场景,该应用场景应用上述的数据标签分布确定方法。具体地,该数据标签分布确定方法在该应用场景的应用如下:
在资源推荐场景下,各个公司独立存储和维护海量用户的相关数据。由于不同公司不同部门之间独立存储、独立维护数据,逐渐形成了“数据孤岛”。在数据隐私及安全保护法律越来越完善的情况下,如何在“数据孤岛”之间安全高效的进行数据标签分布确定,成为一个挑战。通过本申请的数据标签分布确定方法可以在保障数据安全、维护数据隐私的情况下,通过标签方设备和特征方设备的数据交互确定特征方设备上数据的标签分布情况。
特征方设备可以称为Host方,Host方是不含样本标签的一方数据源,但是持有样本特征。标签方设备可以称为Guest方,Guest方是提供样本标签(label)的一方数据源,样本标签为多分类标签。举例说明,在资源推荐场景下,Guest方可以是资源推荐平台,持有用户对于待推送资源的用户行为标签。Host方可以是各种需要进行待推送资源相关数据的数据分析的企业或部门,例如资源编辑方、大数据平台。
最优分箱作为一种模型分箱,被广泛的应用于机器学习建模前的特征工程阶段,分箱后的数据可以很好的提升模型效果。这种非线性的分箱模型天生具有对连续型特征切分的能力,可以利用分割点对特征进行离散化,将特征值转换为分箱标识。对于Guest方来说,由于Guest方持有标签信息,对自己的数据做最优分箱具有天然优势。但对于Host方来说,由于自身没有标签信息,因此需要借助Guest方的标签信息达到最优分箱的目的。Host方需要借助Guest方的样本标签进行分箱处理,并统计标签分布情况。
假设Host方和Guest方包含相同的样本标识(样本id),Host方包含样本特征集合X={X1,X2,X3,X4},一共4个特征维度的样本特征子集,Guest方包含Label={Y}的标签信息,其中Y为多分类标签。
参考图8A,数据标签分布确定方法可以包括以下步骤:
1、Host方对X进行初始分箱处理。
Host方根据机器学习模型的第一超参数M(初始分箱数)对Xi进行初始分箱处理(等频分箱、等长分箱或者任意分割点分箱),经过分箱后的连续型特征被转换成离散型特征,取值范围0到M-1。Host方记录每个初始分箱的样本特征数量Li。可以理解,图8A中的x11表示id1对应的特征维度1的样本特征,x21表示id1对应的特征维度2的样本特征。
2、Guest方对Y进行标签转换,并记录标签映射关系。
在所有Host方中,找到经过初始分箱处理后包含最多样本特征数量的初始分箱,获取该初始分箱的样本特征数量Nmax,将Nmax发送给Guest方。
Guest方接收到Nmax后,可以随机确定一个大于或等于Nmax的整数B作为基数。例如Nmax取值为8890,那么B的取值可以是8890也可以是10000。
Guest方统计标签Y的个数h,根据标签个数h和基数B对标签Y进行转换,转换得到的yi的公式为:i=0时,y0=0;i>0且i<h-1时,yi=B(i-1)。同时,Guest方记录转换关系M{ y0->y0’,…, yh->yh’},转换关系M即为标签映射关系。例如,基数B取值10000,标签Y{y0,y1,y2,y3}的个数m取值4,那么通过公式转换得到标签Y’{0,1,10000,100000000},转换关系M为{y0->0,y1->1,y2->10000,y3->100000000}。
3、Guest方对Y进行同态加密,将加密结果发送给Host方。
具体地,为了保证运行效率,Guest方和Host方可以分别对id列做哈希分片(HashPartition),将不同的样本标识对应的数据分配到不同的数据处理分区中。这样既能保证数据均匀分散在不同的Partition(数据处理分区)中,也能保证Guest方和Host方相应的Partition中拥有相同id集合。
在每个Partition内部,Guest方对转换后的样本标签进行同态加密处理得到标签密文。Guest方把加密得到的标签密文和对应的样本标识发送至Host方对应的partition中。在一个实施例中,Guest方可以是分批次把加密数据发送给Host方对应的partition,每个批次的大小可以根据机器学习模型的第二超参数进行配置,比如配置大小为128。
4、Host方计算各个初始分箱对应的密文求和结果,把各个初始分箱对应的密文求和结果发送给Guest方。
Host方,在每个Partition内部,接受来自Guest方发送的标签密文。Host方,在每个Partition内部,对属于同一初始分箱的样本特征对应的标签密文进行密文求和。例如,Host方的第4个Partition中,包含了X1和X2两个特征列,其中X1包含4个初始分箱,分别是{0、1、2、3},同样,X2也包含4个初始分箱,分别是{0、1、2、3}。在第4个Partition中,X1和X2各个初始分箱对应的密文求和结果是{Enc(a)、Enc(b)、Enc(c)、Enc(d)}、{Enc(e)、Enc(f)、Enc(g)、Enc(h)}。
Host方汇总每个Partition的密文求和结果。例如,X1和X2最终汇总的密文求和结果是{Enc(A)、Enc(B)、Enc(C)、Enc(D)}、{Enc(E)、Enc(F)、Enc(G)、Enc(H)},各分箱包含的样本特征数量{L0、L1、L2、L3}、{ L4、L5、L6、L7 }。可以理解,所有Partition的数据进行汇总才最终得到各个初始分箱对应的密文求和结果(即初始密文统计信息)。
Host方可以对密文求和结果添加随机数,并打乱其顺序。例如,Host方首先对密文求和结果添加噪声,得到{Enc(A)+R(a)、Enc(B) +R(b)、Enc(C)+R(c)、Enc(D) +R(d)}、{Enc(E) +R(e)、Enc(F) +R(f)、Enc(G) +R(g)、Enc(H) +R(h)},再进行随机排序,并记录和原序的对应关系,得到{Enc(A)+R(a)、Enc(B) +R(b)、Enc(E) +R(e)、Enc(F) +R(f)、Enc(C)+R(c)、Enc(D) +R(d)、Enc(G) +R(g)、Enc(H) +R(h)},随机排序的结果与原序的对应关系(即排序映射信息)是{0->0,1->1、2->4、3->5、4->2、5->3、6->6、7->7}。
Host方把混淆处理后得到的目标密文统计信息序列发给Guest方。目标密文统计信息序列为{Enc(A)+R(a)、Enc(B) +R(b、Enc(E) +R(e)、Enc(F) +R(f))、Enc(C)+R(c)、Enc(D) +R(d)、Enc(G) +R(g)、Enc(H) +R(h)}。
5、Guest方对密文求和结果进行同态解密,将解密结果和标签映射关系发送给Host方。
Guest方接收Host方发送的目标密文统计信息序列{Enc(A)+R(a)、Enc(B) +R(b、Enc(E) +R(e)、Enc(F) +R(f))、Enc(C)+R(c)、Enc(D) +R(d)、Enc(G) +R(g)、Enc(H) +R(h)},并对其进行同态解密处理,得到目标解密统计信息序列{ A+R(a)、B+R(b)、E+R(e)、F+R(f)、C+R(c)、D+R(d)、G+R(g)、H+R(h)},并发送给Host方。
6、Host方基于解密结果和标签映射关系确定各个初始分箱对应的初始标签分布信息。
Host方接受Guest方发来的数据{ A+R(a)、B+R(b)、E+R(e)、F+R(f)、C+R(c)、D+R(d)、G+R(g)、H+R(h)},首先根据排序映射信息{0->0,1->1、2->4、3->5、4->2、5->3、6->6、7->7}恢复数据原序,得到{ A+R(a)、B+R(b、C+R(c)、D+R(d)、E+R(e)、F+R(f))、G+R(g)、H+R(h)},再去掉噪声得到{A、B、C、D}、{E、F、G、H},然后根据标签映射关系可以推导候选标签分布信息,再基于样本特征数量最终计算得到每个分箱的初始标签分布信息{(a1,a2,a3,L0-a1-a2-a3)、(b1,b2,b3,L1-b1-b2-b3)、(c1,c2,c3,L2-c1,c2,c3)、(d1,d2,d3,L3-d1-d2-d3)}、{(e1,e2,e3,L4-e1-e2-e3)、(f1,f2,f3,L5-f1-f2-f3)、(g1,g2,g3,L6-g1-g2-g3)、(h1,h2,h3,L7-h1-h2-h3)}。
参考图8B,数据标签分布确定方法可以包括以下步骤:
1、Host方对X进行初始分箱处理。
2、Guest方对Y进行标签转换,并记录标签映射关系。
3、Guest方对Y进行同态加密,将加密结果发送给Host方。
4、Host方计算各个初始分箱对应的密文求和结果,把各个初始分箱对应的密文求和结果发送给Guest方。
Host方可以打乱密文求和结果的顺序。例如,Host方首先对密文求和结果进行随机排序,并记录和原序的对应关系,得到{Enc(A)、Enc(B)、Enc(E)、Enc(F)、Enc(C)、Enc(D)、Enc(G)、Enc(H) },随机排序的结果与原序的对应关系(即排序映射信息)是{0->0,1->1、2->4、3->5、4->2、5->3、6->6、7->7}。
Host方把混淆处理后得到的目标密文统计信息序列发给Guest方。目标密文统计信息序列为{Enc(A)、Enc(B)、Enc(E)、Enc(F)、Enc(C)、Enc(D)、Enc(G)、Enc(H) }。
5、Guest方对密文求和结果进行同态解密,基于解密结果和标签映射关系确定候选标签分布信息,并将候选标签分布信息发送至Host方。
Guest方接收Host方发送的目标密文统计信息序列{Enc(A)、Enc(B)、Enc(E)、Enc(F)、Enc(C)、Enc(D)、Enc(G)、Enc(H) },并对其进行同态解密处理,得到目标解密统计信息序列{ A、B、E、F、C、D、G、H}。Guest方基于标签映射关系对目标解密统计信息序列进行标签还原,得到由多个候选标签分布信息组成的候选标签分布信息序列,并将候选标签分布信息序列发送至Host方。候选标签分布信息序列为{(a1,a2,a3,
Figure 370638DEST_PATH_IMAGE001
)、(b1,b2,b3,
Figure 860525DEST_PATH_IMAGE001
)、(e1,e2,e3,
Figure 187601DEST_PATH_IMAGE001
)、(f1,f2,f3,
Figure 471952DEST_PATH_IMAGE001
)、(c1,c2,c3,
Figure 150058DEST_PATH_IMAGE001
)、(d1,d2,d3,
Figure 912478DEST_PATH_IMAGE001
)、(g1,g2,g3,
Figure 94060DEST_PATH_IMAGE001
、(h1,h2,h3,
Figure 814892DEST_PATH_IMAGE001
)}。
6、Host方基于样本特征数量和候选标签分布信息序列确定对应的初始标签分布信息。
Host方首先根据排序映射信息{0->0,1->1、2->4、3->5、4->2、5->3、6->6、7->7}恢复数据原序,得到{(a1,a2,a3,
Figure 714715DEST_PATH_IMAGE001
)、(b1,b2,b3,
Figure 297137DEST_PATH_IMAGE001
)、(c1,c2,c3,
Figure 333226DEST_PATH_IMAGE001
)、(d1,d2,d3,
Figure 959379DEST_PATH_IMAGE001
)}、{(e1,e2,e3,
Figure 612078DEST_PATH_IMAGE001
)、(f1,f2,f3,
Figure 716300DEST_PATH_IMAGE001
)、(g1,g2,g3,
Figure 872475DEST_PATH_IMAGE001
)、(h1,h2,h3,
Figure 935109DEST_PATH_IMAGE001
)},再基于样本特征数量最终计算得到每个分箱的初始标签分布信息{(a1,a2,a3, L0-a1-a2-a3)、(b1,b2,b3,L1-b1-b2-b3)、(c1,c2,c3,L2-c1,c2,c3)、(d1,d2,d3,L3-d1-d2-d3)}、{(e1,e2,e3,L4-e1-e2-e3)、(f1,f2,f3,L5-f1-f2-f3)、(g1,g2,g3,L6-g1-g2-g3)、(h1,h2,h3,L7-h1-h2-h3)}。
Host方得到各个初始分箱对应的初始标签分布信息后,还可以对初始分箱进行调整,得到最优分箱(即目标分箱)。Host方可以基于最优分箱从样本特征集合中确定可以影响用户行为标签预测的有效样本特征,基于最优分箱将有效样本特征离散化,再应用于机器学习模型的训练。训练完成的机器学习模型可以将新用户的用户属性特征作为模型输入,输出新用户对应的用户行为标签,基于模型预测得到的用户行为标签进行资源推荐。例如,若模型预测得到的用户行为标签为点击标签,那么可以向新用户对应的终端进行资源推荐,若模型预测得到的用户行为标签为非点击标签,那么可以不向新用户对应的终端进行资源推荐,避免无效的资源推荐,提高资源推荐的有效性。
本实施例中,通过重新编排样本标签Y的取值,利用同态加密性质,在Host和Guest方传送加密数据,通过数据交互流程严格保证数据安全性。此外,可以利用同态加密性质保护Host方初始分箱的多标签分布结果。
可以理解,本申请的数据标签分布确定方法除了应用于资源推荐场景(例如广告推荐、文章推荐、视频推荐等),还可以应用于资源转移场景(例如,分期付款等各种银行对应的资源转移业务)、以及其他数据分析场景。
应该理解的是,虽然图2-图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种数据标签分布确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:信息获取模块902、标签转换模块904、密文生成模块906、密文发送模块908、密文解密模块910和信息发送模块912,其中:
信息获取模块902,用于获取特征方设备发送的参考样本特征信息。
标签转换模块904,用于基于参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签。
密文生成模块906,用于对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息。
密文发送模块908,用于将标签密文信息发送至特征方设备,以使特征方设备获取样本特征集合对应的初始分箱信息,基于标签密文信息和初始分箱信息得到目标密文统计信息序列;样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱,目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息。
密文解密模块910,用于获取特征方设备返回的目标密文统计信息序列,对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列。
信息发送模块912,用于基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息,将标签分布参考信息发送至特征方设备,以使特征方设备基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
在一个实施例中,参考样本特征信息是特征方设备从各个初始分箱对应的样本特征数量中基于数值最大的样本特征数量得到的。
在一个实施例中,标签转换模块还用于基于参考样本特征信息确定目标样本特征数量;目标样本特征数量大于或等于参考样本特征信息对应的参考样本特征数量;获取各个初始样本标签对应的标签类别,基于目标样本特征数量对各个标签类别进行类别转换,得到各个标签类别对应的类别参数;在将各个类别参数从小到大进行排序的排序结果中,当前类别参数和对应的下一类别参数的比值小于或等于目标样本特征数量的倒数,排序第一的类别参数为预设值;将各个初始样本标签转换为对应的标签类别的类别参数,得到各个初始样本标签对应的目标样本标签。
在一个实施例中,密文生成模块还用于对标签方设备对应的各个样本标识进行分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区;各个第一数据处理分区并行进行数据处理;在各个第一数据处理分区中,对各个第一样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文;基于同一第一数据处理分区对应的各个标签密文得到各个第一数据处理分区对应的标签密文子集;基于各个标签密文子集得到标签密文信息。
在一个实施例中,特征方设备对特征方设备对应的各个样本标识进行分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配对应的第二数据处理分区;各个第二数据处理分区并行进行数据处理,各个第二数据处理分区存在对应的第一数据处理分区。密文发送模块还用于将标签密文信息发送至特征方设备,以使特征方设备获取各个第二数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的标签密文子集、目标样本特征子集得到多个样本特征对应的目标标签密文,基于各个目标标签密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;目标样本特征子集包括属于同一第二样本标识子集的各个样本标识对应的样本特征。
在一个实施例中,特征方设备从当前标签密文子集对应的各个样本标识和当前目标样本特征子集对应的各个样本标识中,获取交叉的样本标识作为目标样本标识;从当前标签密文子集中,获取各个目标样本标识对应的标签密文作为对应的样本特征的目标标签密文;对同一初始分箱对应的样本特征的目标标签密文进行统计,得到各个初始分箱对应的初始密文统计信息;对各个初始密文统计信息进行混淆处理,得到所述目标密文统计信息序列。
在一个实施例中,目标密文统计信息序列的确定方法包括以下方式中的任意一种:
对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息,对各个目标密文统计信息进行排序处理,得到目标密文统计信息序列;对各个初始密文统计信息进行随机排序,得到目标密文统计信息序列;其中,排序处理为有序排序或随机排序。
在一个实施例中,信息发送模块还用于基于标签映射关系对目标解密统计信息序列中各个目标解密统计信息进行标签还原,得到各个目标解密统计信息对应的候选标签分布信息,基于各个候选标签分布信息得到候选标签分布信息序列;将候选标签分布信息序列作为标签分布参考信息发送至特征方设备,以使特征方设备确定候选标签分布信息序列中各个候选标签分布信息对应的初始分箱,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
在一个实施例中,信息发送模块还用于将标签映射关系和目标解密统计信息序列作为标签分布参考信息发送至特征方设备,以使特征方设备确定目标解密统计信息序列中各个目标解密统计信息对应的初始分箱,基于各个初始分箱对应的目标解密统计信息得到各个初始分箱对应的参考解密统计信息,基于标签映射关系对各个参考解密统计信息进行标签还原,得到各个初始分箱对应的候选标签分布信息,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
在一个实施例中,信息发送模块还用于基于标签映射关系确定初始样本标签对应的标签类别的类别参数,对各个类别参数从大到小进行排序,得到类别参数序列;从类别参数序列中确定当前类别参数;基于当前类别参数对当前解密统计信息进行信息分解,得到对应的标签分布子信息和中间参考解密统计信息;将中间参考解密统计信息作为更新的当前解密统计信息,返回从类别参数序列中确定当前类别参数的步骤,直至中间参考解密统计信息为预设信息,得到多个标签分布子信息;基于各个标签分布子信息得到对应的候选标签分布信息。
在一个实施例中,如图10所示,提供了一种数据标签分布确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:标签密文信息获取模块1002、初始分箱信息获取模块1004、密文统计信息获取模块1006、密文统计信息发送模块1008和标签分布信息确定模块1010,其中:
标签密文信息获取模块1002,用于获取标签方设备发送的标签密文信息,标签密文信息包括与标签方设备对应的多个样本标识匹配的标签密文,标签密文是标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,目标样本标签是标签方设备基于特征方设备发送的参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
初始分箱信息获取模块1004,用于获取样本特征集合对应的初始分箱信息,样本特征集合包括与特征方设备对应的多个样本标识匹配的样本特征,初始分箱信息包括各个样本特征对应的初始分箱;
密文统计信息获取模块1006,用于基于标签密文信息和初始分箱信息得到目标密文统计信息序列;目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
密文统计信息发送模块1008,用于将目标密文统计信息序列发送至标签方设备,以使标签方设备对目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于初始样本标签和目标样本标签之间的标签映射关系、目标解密统计信息序列得到标签分布参考信息;
标签分布信息确定模块1010,用于获取标签方设备返回的标签分布参考信息,基于标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
在一个实施例中,初始分箱信息获取模块还用于对样本特征集合进行初始分箱处理,得到至少两个初始分箱;初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;从样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集;对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱;基于各个第一分箱信息得到初始分箱信息。
在一个实施例中,密文统计信息获取模块还用于将标签方设备对应的各个样本标识和特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识;从标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文;对各个目标标签密文进行统计,得到当前初始分箱对应的初始密文统计信息;对各个初始分箱对应的初始密文统计信息进行混淆处理,得到目标密文统计信息序列。
在一个实施例中,所述数据标签分布确定装置还包括:
标签类别划分模块,用于获取各个初始样本标签对应的标签类别,将各个标签类别进行类别划分,得到多个标签类别组。
标签分布信息划分模块,用于基于各个标签类别组分别对各个初始标签分布信息进行信息划分,得到各个初始分箱对应的中间标签分布信息集合;中间标签分布信息集合包括各个标签类别组对应的中间标签分布信息。
标签分布差异确定模块,用于基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始标签分布差异集合。
分箱价值信息确定模块,用于基于各个初始分箱对应的中间标签分布信息集合和初始标签分布差异集合计算各个初始分箱对应的初始分箱价值信息集合。
分箱信息调整模块,用于基于初始分箱价值信息集合对初始分箱信息进行调整,得到更新的初始分箱信息,基于更新的初始分箱信息得到更新的各个初始分箱对应的中间标签分布信息集合,返回基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始分布差异集合的步骤,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,得到目标分箱信息。
在一个实施例中,分箱信息调整模块包括:
分箱合并单元,用于将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;基于相邻初始分箱对应的中间标签分布信息集合计算各个候选合并分箱对应的候选标签分布信息集合;基于各个候选合并分箱对应的候选标签分布信息集合计算各个候选合并分箱对应的候选标签分布差异集合,基于各个候选合并分箱对应的候选标签分布差异集合和候选标签分布信息集合计算各个候选合并分箱对应的候选分箱价值信息集合;基于候选合并分箱对应的候选分箱价值信息集合和相邻初始分箱对应的初始分箱价值信息集合计算候选合并分箱对应的分箱价值差异集合;基于各个候选合并分箱对应的分箱价值差异集合,从多个候选合并分箱中确定目标合并分箱,基于目标合并分箱和剩余的初始分箱得到更新的初始分箱信息。
在一个实施例中,所述数据标签分布确定装置还包括:
有效样本特征确定模块,用于获取目标分箱信息对应的各个目标分箱的目标分箱价值信息集合;基于各个目标分箱价值信息集合得到目标分箱价值统计信息;当目标分箱价值统计信息位于预设价值信息区间内时,确定样本特征集合中的样本特征为有效样本特征,有效样本特征用于和标签方设备基于联邦学习进行样本分类模型的模型训练。
在一个实施例中,样本标识为用户标识,样本特征为用户属性特征,初始样本标签为待推送资源对应的用户行为标签。所述数据标签分布确定装置还包括:
资源推荐模块,用于基于各个初始标签分布信息确定与待推送资源对应的目标行为标签匹配的目标属性特征;将用户属性特征为目标属性特征的候选用户作为目标用户,向目标用户对应的终端推送待推送资源。
关于数据标签分布确定装置的具体限定可以参见上文中对于数据标签分布确定方法的限定,在此不再赘述。上述数据标签分布确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本特征、样本标签、标签映射关系等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标签分布确定方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据标签分布确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11、12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (21)

1.一种数据标签分布确定方法,其特征在于,应用于标签方设备,所述方法包括:
获取特征方设备发送的参考样本特征信息;
基于所述参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签;
对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息;
将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱,所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
获取所述特征方设备返回的所述目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
2.根据权利要求1所述的方法,其特征在于,所述参考样本特征信息是所述特征方设备从所述各个初始分箱对应的样本特征数量中基于数值最大的样本特征数量得到的。
3.根据权利要求1所述的方法,其特征在于,所述基于所述参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签,包括:
基于所述参考样本特征信息确定目标样本特征数量;所述目标样本特征数量大于或等于所述参考样本特征信息对应的参考样本特征数量;
获取各个初始样本标签对应的标签类别,基于所述目标样本特征数量对各个标签类别进行类别转换,得到各个标签类别对应的类别参数;在将各个类别参数从小到大进行排序的排序结果中,当前类别参数和对应的下一类别参数的比值小于或等于目标样本特征数量的倒数,排序第一的类别参数为预设值;
将各个初始样本标签转换为对应的标签类别的类别参数,得到各个初始样本标签对应的目标样本标签。
4.根据权利要求1所述的方法,其特征在于,所述对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息,包括:
对所述标签方设备对应的各个样本标识进行分类处理,得到至少一个第一样本标识子集,为各个第一样本标识子集分配对应的第一数据处理分区;各个第一数据处理分区并行进行数据处理;
在各个第一数据处理分区中,对各个第一样本标识子集对应的样本标签进行同态加密处理得到对应的标签密文;
基于同一第一数据处理分区对应的各个标签密文得到各个第一数据处理分区对应的标签密文子集;
基于各个标签密文子集得到所述标签密文信息。
5.根据权利要求4所述的方法,其特征在于,所述将所述标签密文信息发送至所述特征方设备之前,所述方法还包括:
所述特征方设备对所述特征方设备对应的各个样本标识进行分类处理,得到至少一个第二样本标识子集,为各个第二样本标识子集分配对应的第二数据处理分区;各个第二数据处理分区并行进行数据处理,各个第二数据处理分区存在对应的第一数据处理分区;
所述将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列,包括:
将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取各个第二数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的标签密文子集、目标样本特征子集得到多个样本特征对应的目标标签密文,基于各个目标标签密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列;所述目标样本特征子集包括属于同一第二样本标识子集的各个样本标识对应的样本特征。
6.根据权利要求5所述的方法,其特征在于,所述获取各个第二数据处理分区对应的目标样本特征子集,基于存在对应关系的第一数据处理分区和第二数据处理分区分别对应的标签密文子集、目标样本特征子集得到多个样本特征对应的目标标签密文,基于各个目标标签密文得到各个初始分箱对应的初始密文统计信息,对各个初始密文统计信息进行混淆处理,得到目标密文统计信息序列,包括:
所述特征方设备从当前标签密文子集对应的各个样本标识和当前目标样本特征子集对应的各个样本标识中,获取交叉的样本标识作为目标样本标识;
从所述当前标签密文子集中,获取各个目标样本标识对应的标签密文作为对应的样本特征的目标标签密文;
对同一初始分箱对应的样本特征的目标标签密文进行统计,得到各个初始分箱对应的初始密文统计信息;
对各个初始密文统计信息进行混淆处理,得到所述目标密文统计信息序列。
7.根据权利要求6所述的方法,其特征在于,所述目标密文统计信息序列的确定方法包括以下方式中的任意一种:
对各个初始密文统计信息进行噪声添加,得到各个初始密文统计信息对应的目标密文统计信息,对各个目标密文统计信息进行排序处理,得到所述目标密文统计信息序列;所述排序处理为有序排序或随机排序;
对各个初始密文统计信息进行随机排序,得到所述目标密文统计信息序列。
8.根据权利要求1所述的方法,其特征在于,所述基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息,包括:
基于所述标签映射关系对所述目标解密统计信息序列中各个目标解密统计信息进行标签还原,得到各个目标解密统计信息对应的候选标签分布信息,基于各个候选标签分布信息得到候选标签分布信息序列;
将所述候选标签分布信息序列作为所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备确定所述候选标签分布信息序列中各个候选标签分布信息对应的初始分箱,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
9.根据权利要求1所述的方法,其特征在于,所述基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息,包括:
将所述标签映射关系和所述目标解密统计信息序列作为所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备确定所述目标解密统计信息序列中各个目标解密统计信息对应的初始分箱,基于各个初始分箱对应的目标解密统计信息得到各个初始分箱对应的参考解密统计信息,基于所述标签映射关系对各个参考解密统计信息进行标签还原,得到各个初始分箱对应的候选标签分布信息,基于各个初始分箱对应的样本特征数量和候选标签分布信息,得到各个初始分箱对应的初始标签分布信息。
10.根据权利要求8或9所述的方法,其特征在于,基于所述标签映射关系对当前解密统计信息进行标签还原,得到对应的候选标签分布信息,包括:
基于所述标签映射关系确定初始样本标签对应的标签类别的类别参数,对各个类别参数从大到小进行排序,得到类别参数序列;
从所述类别参数序列中确定当前类别参数;
基于所述当前类别参数对当前解密统计信息进行信息分解,得到对应的标签分布子信息和中间参考解密统计信息;
将所述中间参考解密统计信息作为更新的当前解密统计信息,返回所述从所述类别参数序列中确定当前类别参数的步骤,直至中间参考解密统计信息为预设信息,得到多个标签分布子信息;
基于各个标签分布子信息得到对应的候选标签分布信息。
11.一种数据标签分布确定方法,其特征在于,应用于特征方设备,所述方法包括:
获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,所述目标样本标签是所述标签方设备基于所述特征方设备发送的参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
将所述目标密文统计信息序列发送至标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息;
获取所述标签方设备返回的所述标签分布参考信息,基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
12.根据权利要求11所述的方法,其特征在于,所述获取样本特征集合对应的初始分箱信息,包括:
对所述样本特征集合进行初始分箱处理,得到至少两个初始分箱;所述初始分箱处理包括等频分箱处理、等长分箱处理和任意分割点分箱处理中的至少一种;
从所述样本特征集合中获取同一特征维度的样本特征组成样本特征子集,得到各个特征维度对应的初始样本特征子集;
对各个初始样本特征子集进行初始分箱处理,得到各个特征维度对应的第一分箱信息;所述第一分箱信息包括同一特征维度对应的至少两个有序排列的初始分箱;
基于各个第一分箱信息得到所述初始分箱信息。
13.根据权利要求11所述的方法,其特征在于,所述基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列,包括:
将所述标签方设备对应的各个样本标识和所述特征方设备对应的各个样本标识之间交叉的样本标识作为目标样本标识;
从所述标签密文信息中,获取当前初始分箱中各个目标样本标识对应的标签密文作为目标标签密文;
对各个目标标签密文进行统计,得到所述当前初始分箱对应的初始密文统计信息;
对各个初始分箱对应的初始密文统计信息进行混淆处理,得到所述目标密文统计信息序列。
14.根据权利要求11至13中任意一项所述的方法,其特征在于,所述方法还包括:
获取各个初始样本标签对应的标签类别,将各个标签类别进行类别划分,得到多个标签类别组;
基于各个标签类别组分别对各个初始标签分布信息进行信息划分,得到各个初始分箱对应的中间标签分布信息集合;所述中间标签分布信息集合包括各个标签类别组对应的中间标签分布信息;
基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始标签分布差异集合;
基于所述各个初始分箱对应的中间标签分布信息集合和初始标签分布差异集合计算各个初始分箱对应的初始分箱价值信息集合;
基于所述初始分箱价值信息集合对所述初始分箱信息进行调整,得到更新的初始分箱信息,基于所述更新的初始分箱信息得到更新的各个初始分箱对应的中间标签分布信息集合,返回所述基于各个初始分箱对应的中间标签分布信息集合计算各个初始分箱对应的初始分布差异集合的步骤,直至更新的初始分箱信息或初始分箱价值信息满足收敛条件,得到目标分箱信息。
15.根据权利要求14所述的方法,其特征在于,所述基于所述初始分箱价值信息集合对所述初始分箱信息进行调整,得到更新的初始分箱信息,包括:
将各个初始分箱中的相邻初始分箱进行合并,得到多个候选合并分箱;
基于相邻初始分箱对应的中间标签分布信息集合计算各个候选合并分箱对应的候选标签分布信息集合;
基于所述各个候选合并分箱对应的候选标签分布信息集合计算各个候选合并分箱对应的候选标签分布差异集合,基于所述各个候选合并分箱对应的候选标签分布差异集合和候选标签分布信息集合计算各个候选合并分箱对应的候选分箱价值信息集合;
基于候选合并分箱对应的候选分箱价值信息集合和相邻初始分箱对应的初始分箱价值信息集合计算候选合并分箱对应的分箱价值差异集合;
基于各个候选合并分箱对应的分箱价值差异集合,从多个候选合并分箱中确定目标合并分箱,基于所述目标合并分箱和剩余的初始分箱得到所述更新的初始分箱信息。
16.根据权利要求14所述的方法,其特征在于,所述方法还包括:
获取所述目标分箱信息对应的各个目标分箱的目标分箱价值信息集合;
基于各个目标分箱价值信息集合得到目标分箱价值统计信息;
当所述目标分箱价值统计信息位于预设价值信息区间内时,确定所述样本特征集合中的样本特征为有效样本特征,所述有效样本特征用于和所述标签方设备基于联邦学习进行样本分类模型的模型训练。
17.根据权利要求11至13中任意一项所述的方法,其特征在于,所述样本标识为用户标识,所述样本特征为用户属性特征,所述初始样本标签为待推送资源对应的用户行为标签,所述方法还包括:
基于各个初始标签分布信息确定与所述待推送资源对应的目标行为标签匹配的目标属性特征;
将用户属性特征为所述目标属性特征的候选用户作为目标用户,向所述目标用户对应的终端推送所述待推送资源。
18.一种数据标签分布确定装置,其特征在于,所述装置包括:
信息获取模块,用于获取特征方设备发送的参考样本特征信息;
标签转换模块,用于基于所述参考样本特征信息,对与标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换,得到各个初始样本标签对应的目标样本标签;
密文生成模块,用于对各个目标样本标签进行同态加密处理,得到各个目标样本标签对应的标签密文,基于各个标签密文得到标签密文信息;
密文发送模块,用于将所述标签密文信息发送至所述特征方设备,以使所述特征方设备获取样本特征集合对应的初始分箱信息,基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱,所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
密文解密模块,用于获取所述特征方设备返回的所述目标密文统计信息序列,对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列;
信息发送模块,用于基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息,将所述标签分布参考信息发送至所述特征方设备,以使所述特征方设备基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
19.一种数据标签分布确定装置,其特征在于,所述装置包括:
标签密文信息获取模块,用于获取标签方设备发送的标签密文信息,所述标签密文信息包括与所述标签方设备对应的多个样本标识匹配的标签密文,所述标签密文是所述标签方设备对样本标识对应的目标样本标签进行同态加密处理得到的,所述目标样本标签是所述标签方设备基于特征方设备发送的参考样本特征信息,对与所述标签方设备对应的多个样本标识匹配的初始样本标签进行标签转换得到的;
初始分箱信息获取模块,用于获取样本特征集合对应的初始分箱信息,所述样本特征集合包括与所述特征方设备对应的多个样本标识匹配的样本特征,所述初始分箱信息包括各个样本特征对应的初始分箱;
密文统计信息获取模块,用于基于所述标签密文信息和所述初始分箱信息得到目标密文统计信息序列;所述目标密文统计信息序列包括各个初始分箱对应的目标密文统计信息;
密文统计信息发送模块,用于将所述目标密文统计信息序列发送至标签方设备,以使所述标签方设备对所述目标密文统计信息序列进行同态解密处理,得到目标解密统计信息序列,基于所述初始样本标签和所述目标样本标签之间的标签映射关系、所述目标解密统计信息序列得到标签分布参考信息;
标签分布信息确定模块,用于获取所述标签方设备返回的所述标签分布参考信息,基于所述标签分布参考信息得到各个初始分箱对应的初始标签分布信息。
20.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10或11至17中任一项所述的方法的步骤。
21.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10或11至17中任一项所述的方法的步骤。
CN202111008110.9A 2021-08-31 2021-08-31 数据标签分布确定方法、装置、计算机设备和存储介质 Active CN113449048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008110.9A CN113449048B (zh) 2021-08-31 2021-08-31 数据标签分布确定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008110.9A CN113449048B (zh) 2021-08-31 2021-08-31 数据标签分布确定方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113449048A true CN113449048A (zh) 2021-09-28
CN113449048B CN113449048B (zh) 2021-11-09

Family

ID=77819105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008110.9A Active CN113449048B (zh) 2021-08-31 2021-08-31 数据标签分布确定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113449048B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329127A (zh) * 2021-12-30 2022-04-12 北京瑞莱智慧科技有限公司 特征分箱方法、装置及存储介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN114500642A (zh) * 2022-02-25 2022-05-13 百度在线网络技术(北京)有限公司 模型应用方法、装置及电子设备
CN115659381A (zh) * 2022-12-26 2023-01-31 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN116451279A (zh) * 2023-06-20 2023-07-18 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07323515A (ja) * 1994-06-02 1995-12-12 Toppan Printing Co Ltd フィルム継ぎ種類判別方法およびラベル貼付システム
US20160055236A1 (en) * 2014-08-21 2016-02-25 Affectomatics Ltd. Personalized experience scores based on measurements of affective response
CN107391492A (zh) * 2017-08-04 2017-11-24 南京理工大学 基于局部样本相关性的标记分布中文情感预测方法
CN108304935A (zh) * 2017-05-09 2018-07-20 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置和计算机设备
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置
WO2020150453A1 (en) * 2019-01-20 2020-07-23 Helios Data Inc. Classification of network packet data
CN111539009A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 保护隐私数据的有监督特征分箱方法及装置
CN111539535A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 基于隐私保护的联合特征分箱方法及装置
CN112100679A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112560105A (zh) * 2021-02-19 2021-03-26 支付宝(杭州)信息技术有限公司 保护多方数据隐私的联合建模方法及装置
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN112801134A (zh) * 2020-12-30 2021-05-14 杭州趣链科技有限公司 基于区块链和图像的手势识别模型训练与分发方法与装置
CN113312451A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 文本标签确定方法和装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07323515A (ja) * 1994-06-02 1995-12-12 Toppan Printing Co Ltd フィルム継ぎ種類判別方法およびラベル貼付システム
US20160055236A1 (en) * 2014-08-21 2016-02-25 Affectomatics Ltd. Personalized experience scores based on measurements of affective response
CN108304935A (zh) * 2017-05-09 2018-07-20 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置和计算机设备
CN107391492A (zh) * 2017-08-04 2017-11-24 南京理工大学 基于局部样本相关性的标记分布中文情感预测方法
WO2020150453A1 (en) * 2019-01-20 2020-07-23 Helios Data Inc. Classification of network packet data
CN111539009A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 保护隐私数据的有监督特征分箱方法及装置
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置
CN111539535A (zh) * 2020-06-05 2020-08-14 支付宝(杭州)信息技术有限公司 基于隐私保护的联合特征分箱方法及装置
CN112100679A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112801134A (zh) * 2020-12-30 2021-05-14 杭州趣链科技有限公司 基于区块链和图像的手势识别模型训练与分发方法与装置
CN112560105A (zh) * 2021-02-19 2021-03-26 支付宝(杭州)信息技术有限公司 保护多方数据隐私的联合建模方法及装置
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN113312451A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 文本标签确定方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329127A (zh) * 2021-12-30 2022-04-12 北京瑞莱智慧科技有限公司 特征分箱方法、装置及存储介质
CN114500642A (zh) * 2022-02-25 2022-05-13 百度在线网络技术(北京)有限公司 模型应用方法、装置及电子设备
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN115659381A (zh) * 2022-12-26 2023-01-31 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN115659381B (zh) * 2022-12-26 2023-03-10 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN116451279A (zh) * 2023-06-20 2023-07-18 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质
CN116451279B (zh) * 2023-06-20 2023-08-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质

Also Published As

Publication number Publication date
CN113449048B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN113362048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
Al Badawi et al. Privft: Private and fast text classification with homomorphic encryption
US11902413B2 (en) Secure machine learning analytics using homomorphic encryption
CN110084377B (zh) 用于构建决策树的方法和装置
JP6768681B2 (ja) 分散データからの学習
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN111666460A (zh) 基于隐私保护的用户画像生成方法、装置及存储介质
CN111539009B (zh) 保护隐私数据的有监督特征分箱方法及装置
Devaraj et al. An efficient framework for secure image archival and retrieval system using multiple secret share creation scheme
CN111967615A (zh) 基于特征抽取的多模型训练方法及系统、电子设备和介质
CN111401572B (zh) 基于隐私保护的有监督特征分箱方法及装置
CN112990484B (zh) 基于非对称联邦学习的模型联合训练方法、装置及设备
Dwork 14 Differential Privacy: A Cryptographic Approach to Private Data Analysis
CN114186263A (zh) 一种基于纵向联邦学习的数据回归方法及电子装置
CN114372871A (zh) 信用评分值的确定方法及其装置、电子设备及存储介质
CN114329127B (zh) 特征分箱方法、装置及存储介质
Howe et al. Integrative urban AI to expand coverage, access, and equity of urban data
Ranbaduge et al. A scalable privacy-preserving framework for temporal record linkage
CN114422105A (zh) 联合建模方法、装置、电子设备及存储介质
CN114463063A (zh) 数据处理方法及相关装置
CN114065641A (zh) 多分类梯度提升树的构建方法、装置及电子设备
Melis Building and evaluating privacy-preserving data processing systems
Sun et al. Secure grid‐based density peaks clustering on hybrid cloud for industrial IoT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053153

Country of ref document: HK