CN111242244A - 特征值分箱方法、系统及装置 - Google Patents

特征值分箱方法、系统及装置 Download PDF

Info

Publication number
CN111242244A
CN111242244A CN202010329687.9A CN202010329687A CN111242244A CN 111242244 A CN111242244 A CN 111242244A CN 202010329687 A CN202010329687 A CN 202010329687A CN 111242244 A CN111242244 A CN 111242244A
Authority
CN
China
Prior art keywords
sample
binning
sequence
initial
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010329687.9A
Other languages
English (en)
Other versions
CN111242244B (zh
Inventor
张文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sasi Digital Technology Beijing Co ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010329687.9A priority Critical patent/CN111242244B/zh
Publication of CN111242244A publication Critical patent/CN111242244A/zh
Application granted granted Critical
Publication of CN111242244B publication Critical patent/CN111242244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书中的实施例提供了特征值分箱方法、系统及装置。在联合分箱过程中,特征方的设备使用样本ID记录特征值的分箱情况,将获得的初始样本ID分箱序列发送给标签方的设备。标签方的设备基于接收到的初始样本ID分箱序列继续进行有监督分箱,获得满足终止分箱条件的目标样本ID分箱序列,并将目标样本ID分箱序列反馈给特征方的设备。最终,特征方的设备可将目标样本ID分箱序列转化为目标特征值分箱序列,即完成对样本集中各样本特征值的分箱,以便后续的模型训练。如此,可以有效保护特征方和标签方各自的数据隐私。

Description

特征值分箱方法、系统及装置
技术领域
本说明书实施例涉及信息技术领域,特别涉及特征值分箱方法、系统及装置。
背景技术
数据分箱(简称分箱)是一种对多个数据进行分组的技术,每个分组可称为一个“分箱”。在特征工程中,通过对样本集中的特征值进行分箱,可以将特征离散化,能够带来加快模型的迭代、训练出的模型对异常特征值表现出较强的鲁棒性、提升模型的表达能力、降低模型过拟合的风险等优势。
在一些有监督分箱方案中,需要同时用到特征数据和标签数据。然而,特征数据和标签数据可能分布于多个数据提供方,例如,一方持有数特征数据而另一方持有标签数据。分箱时,各方均不希望自身数据中的隐私发生泄露。因此,希望提供一种可以有效保护各方数据隐私的联合分箱方案。
发明内容
本说明书实施例之一提供一种特征值分箱方法,其中,所述方法由特征方的设备执行,特征方持有样本集中各样本的特征值,所述方法包括:基于所述样本集中各样本的特征值,获得初始样本ID分箱序列;初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;将所述初始样本ID分箱序列发送给标签方的设备,标签方持有所述样本集中各样本的标签,以使:标签方的设备基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;接收来自标签方的设备的目标样本ID分箱序列;基于所述目标样本ID分箱序列获得目标特征值分箱序列。
本说明书实施例之一提供一种特征值分箱系统,其中,所述系统在特征方的设备上实现,特征方持有样本集中样本的特征值,所述系统包括:初始分箱模块,用于基于所述样本集中各样本的特征值,获得初始样本ID分箱序列;初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;第一发送模块,用于将所述初始样本ID分箱序列发送给标签方的设备,标签方持有所述样本集中各样本的标签,以使:标签方的设备基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;第一接收模块,用于接收来自标签方的设备的目标样本ID分箱序列;目标特征值分箱序列获得模块,用于基于所述目标样本ID分箱序列获得目标特征值分箱序列。
本说明书实施例之一提供特征值分箱装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如本说明书任一实施例所述的由特征方的设备执行的特征值分箱方法。
本说明书实施例之一提供一种特征值分箱方法,其中,所述方法由标签方的设备执行,标签方持有样本集中样本的标签,所述方法包括:接收来自特征方的设备的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;将所述目标样本ID分箱序列发送给特征方的设备。
本说明书实施例之一提供一种特征值分箱系统,其中,所述系统在标签方的设备上实现,标签方持有样本集中样本的标签,所述系统包括:第二接收模块,用于接收来自特征方的设备的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;目标分箱模块,用于基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;第二发送模块,用于所述目标样本ID分箱序列发送给特征方的设备。
本说明书实施例之一提供一种特征值分箱装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如本说明书任一实施例所述由标签方的设备执行的特征值分箱方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的数据共享系统的应用场景示意图;
图2是根据本说明书一些实施例所示的特征值分箱方法的示例性流程图;
图3是根据本说明书一些实施例所示的特征值分箱方法的示例性流程图;
图4是根据本说明书一些实施例所示的特征值分箱系统的示例性框图;
图5是根据本说明书一些实施例所示的特征值分箱系统的示例性框图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书中的实施例提供了特征值分箱方法、系统及装置。在联合分箱过程中,特征方的设备使用样本ID记录特征值的分箱情况,将获得的初始样本ID分箱序列发送给标签方的设备。标签方的设备基于接收到的初始样本ID分箱序列继续进行有监督分箱,获得满足终止分箱条件的目标样本ID分箱序列,并将目标样本ID分箱序列反馈给特征方的设备。最终,特征方的设备可将目标样本ID分箱序列转化为目标特征值分箱序列,即完成对样本集中各样本特征值的分箱,以便后续的模型训练。
如此,无需交互私密的标签/特征值,特征方和标签方通过交互公共的样本ID信息,即可完成联合分箱,能够有效保护各方的数据隐私。
图1是根据本说明书一些实施例所示的数据共享系统的应用场景示意图。数据共享系统100可以包括一个或多个特征方(如,图1中特征方X1,特征方X1,...,特征方Xn)的设备110、标签方(记为Y)的设备120以及网络130。
对于同一样本集:特征方持有各样本的特征,多个特征方持有的特征不同;标签方指持有各样本的标签。特征属于特征方的私密数据,标签属于标签方的私密数据。因此,特征方和标签方在进行联合分箱时,都不希望泄露各自的私密数据。
以逾期风险识别模型为例,特征方可以包括持有用户行为数据(如,活动轨迹等)的数据提供方(如,地图服务商等),标签方可以是持有用户信用数据(如,还款记录等)的数据提供方(如,银行、金融机构等)。特征方和标签方共同的用户可看作样本,用户行为数据可看作样本特征,用户信用数据可看作样本标签。用户行为数据和用户信用数据均涉及用户隐私,在联合分箱时,不希望任何一方出现隐私泄露的问题。
在一些实施例中,本说明书中提及的样本可以是针对业务对象的样本。其中,业务对象可以包括用户、商户、商品、品牌、数据、事件、文件、资产等中的一种或其任意组合。
特征方/标签方的设备可以包括各类具有数据收发及处理功能的设备,如服务器。在一些实施例中,服务器可以是独立的服务器或者服务器组,服务器组可以是集中式的或者分布式的。在一些实施例中,服务器可以是区域的或者远程的。在一些实施例中,服务器可在云平台上执行。例如,云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
网络130连接系统的各组成部分,使得各部分之间可以进行通讯。在系统中各部分之间的网络可以包括有线网络和/或无线网络。例如,网络130可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigBee)、近场通信(NFC)、设备内总线、设备内线路、线缆连接等或其任意组合。每两个部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。
图2是根据本说明书一些实施例所示的特征值分箱方法的示例性流程图。流程200可以由特征方的设备110执行。在一些实施例中,流程200可以由联合进行模型训练的多个特征方中任一特征方的设备110执行。如图2所示,流程200可以包括:
步骤210,基于样本集中各样本的特征值,获得初始样本ID分箱序列。在一些实施例中,步骤210可以由初始分箱模块410实现。
初始样本ID分箱序列包括多个子序列。每个子序列可看作一个分箱,包括来自样本集的一个或多个样本ID。需要注意的是,若两个以上样本的特征值相同,则该两个以上样本的样本ID位于同一子序列。
在一些实施例中,初始分箱模块410可以对样本集中各样本的特征值进行无监督分箱,得到初始特征值分箱序列。初始特征值分箱序列中的子序列包括一个或多个特征值。应当理解,该无监督分箱的过程中包含将相同的特征值合并成一个子序列的前置步骤。换言之,假设样本集的特征值包括N种取值,则初始特征值分箱序列包括不多于N个子序列。进而,初始分箱模块410可以基于初始特征值分箱序列得到初始样本ID分箱序列。具体地,对于初始特征值分箱序列中任一子序列,初始分箱模块410可以将该子序列中的每个特征值替换成对应的样本ID,得到初始样本ID分箱序列。
在一些实施例中,初始分箱模块410可以获得样本ID序列,该样本ID序列包括样本集中各样本ID,且各样本的样本ID按各样本的特征值排序。进而,初始分箱模块410可以样本ID序列获得初始样本ID分箱序列。
对于属于数值变量的特征,可以按各样本的特征值大小对各样本的样本ID进行排序。其中,可采用各类排序算法,如冒泡排序、插入排序、归并排序、选择排序、快速排序、堆排序等算法。
对于属于分类变量的特征,可以按预设的排序规则对各样本的样本ID进行排序。例如,当特征值为类别的英文名称(如,各样本的特征值包括apple、banana、pear、peach、grape、cherry等)时,可以按特征值首字母在字母表中的位置对各样本的样本ID进行排序。又如,当特征值由字符组成时,可以按首字符在字符表中的位置对各样本的样本ID进行排序。诸如此类的变形,均在本说明书的保护范围内。
在一些实施例中,初始分箱模块410可以将样本ID序列中特征值相同的样本的样本ID合并成一个子序列,得到初始样本ID分箱序列。
在一些实施例中,初始分箱模块410可以对样本ID序列进行无监督分箱,得到初始样本ID分箱序列。应当理解,该无监督分箱的过程包含将样本ID序列中特征值相同的样本的样本ID合并成一个子序列的前置步骤。换言之,假设样本集的特征值包括N种取值,则初始特征值分箱序列包括不多于N个子序列。
在一些实施例中,本说明书中提及的无监督分箱可以包括等宽分箱、等频分箱、聚类分箱等中的一种或多种。
值得说明的是,无论是无监督分箱还是有监督分箱,由于样本ID与特征值和标签是绑定关系,对特征值进行分箱的方法仍然适用于对样本ID进行分箱。对样本ID进行分箱得到的样本ID分箱序列和对特征值进行分箱获得的特征值分箱序列,在子序列的划分情况(即分箱情况)上是一致的,并且可以互相转换。因此,本说明书中的实施例以样本ID为分箱对象,相当于用样本ID记录特征值的分箱情况,同时也能起到保护各方私密数据的作用。
步骤220,将初始样本ID分箱序列发送给标签方的设备120,以使:标签方的设备120基于样本集中各样本的标签对初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列。在一些实施例中,步骤220可以由第一发送模块420实现。
关于标签方的设备120对初始样本ID分箱序列进行有监督分箱的细节,可以参考图3及其相关描述。
在一些实施例中,特征方的设备110可以先改变初始样本ID分箱序列中子序列内各样本ID的顺序,再将子序列内部经过乱序的初始样本ID分箱序列发送给标签方的设备120。通过对子序列内部进行乱序,可以在一定程度上克服数据隐私泄露的风险。另外,值得说明的是,打乱目标特征值分箱序列中任一子序列的内部顺序都不会对特征值分箱之后的模型训练产生影响,而标签方的设备120是将接收到的初始样本ID分箱序列中的子序列看作最小单元继续进行分箱(即初始样本ID分箱序列中一个或连续多个子序列内各样本ID对应的特征值包含于目标特征值分箱序列中的子序列),因此打乱初始分箱序列中子序列的内部顺序也不会对特征值分箱之后的模型训练产生影响。
对于属于数值型变量的特征,若不进行乱序处理,初始样本ID分箱序列内各样本ID的顺序可以反映各样本ID对应的特征值的大小关系,该大小关系可能会向标签方或攻击者暴露其感兴趣的数据隐私。在一些实施例中,该感兴趣的数据隐私可以对应偏高的特征值、偏低的特征值和/或中等大小的特征值。
仅作为示例,若特征值为用户(看作样本)的收入,则在不进行乱序处理的情况下:越靠近初始样本ID分箱序列首端或尾端的样本ID,其对应的收入越高。基于此,标签方或攻击方可以在位于首部的子序列中靠近首端的位置以及位于尾部的子序列中靠近尾端的位置确定较少的样本ID,其中必定包含收入水平最高(或最低)的用户的样本ID;也可以在位于中部的子序列中靠近子序列中心的位置确定较少的样本ID,其中较大概率包含收入水平中等的用户的样本ID。即,标签方或攻击方可以根据初始样本ID分箱序列内各样本ID的顺序定位出感兴趣的收入水平的用户,这些用户还有可能遭受来自标签方或攻击者的骚扰(如,营销等)甚至侵害(如,诈骗等)。
对于属于分类型变量的特征,若不进行乱序处理,初始样本ID分箱序列内各样本ID的顺序可能会暴露部分样本ID对应的特征值。仅作为示例,若特征值为用户(看作样本)喜爱的水果(用英文名称表示),且标签方或攻击者已知初始样本ID分箱序列中的样本ID是按相应特征值首字母在字母表中的位置排序的,标签方或攻击者可推测位于初始样本ID分箱序列首端或尾端的少量(例如,1个)样本ID对应apple,进而还可向这少量样本ID对应的用户针对苹果进行营销。若推测属实,不仅会侵犯这少量样本ID对应的用户的隐私,还会对其造成进一步的困扰。
因此,通过对初始样本ID分箱序列的子序列内部进行乱序,可以在一定程度上克服数据隐私泄露的风险,同时也不会对特征值分箱之后的模型训练产生影响。
在一些实施例中,特征方的设备110可以对初始样本ID分箱序列的每个子序列的内部进行乱序。在一些实施例中,特征方的设备110可以仅对初始样本ID分箱序列的部分子序列的内部分别进行乱序,例如,仅对首端、中部和/或尾端的子序列的内部分别进行乱序。
仅作为示例,在一些实施例中,乱序的具体流程可以包括:对初始样本ID分箱序列的任一子序列,针对该子序列中每一样本ID生成随机数,并将该子序列中的各样本ID按相应随机数的大小进行排序。
步骤230,接收来自标签方的设备120的目标样本ID分箱序列。在一些实施例中,步骤230可以由第一接收模块430实现。
步骤240,基于目标样本ID分箱序列获得目标特征值分箱序列。在一些实施例中,步骤240可以由目标特征值分箱序列获得模块440实现。
目标样本ID分箱序列可指满足有监督分箱的终止分箱条件的分箱结果。由于特征值分箱的目的是对特征值进行分组,最终得到的分箱结果需要呈现出特征值的分组情况。因此,特征方的设备110还需要将目标样本ID分箱序列转换成目标特征值分箱序列。具体地,特征方的设备110可以将目标样本ID分箱序列中各子序列的每个样本ID替换成对应的特征值,得到目标特征值分箱序列。
图3是根据本说明书一些实施例所示的特征值分箱方法的示例性流程图。流程300可以由标签方的设备120执行。如图3所示,流程300可以包括:
步骤310,接收来自特征方的设备110的初始样本ID分箱序列。在一些实施例中,步骤310可以由第二接收模块510实现。
初始样本ID分箱序列包括多个子序列,每个子序列包括来自样本集的一个或多个样本ID。关于初始样本ID分箱序列的更多细节,可以在图2及其相关描述中找到,这里不再赘述。
步骤320,基于样本集中各样本的标签对初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列。在一些实施例中,步骤320可以由目标分箱模块520实现。
有监督分箱是指根据样本标签进行数据分箱。需要注意的是,由于标签方不能获取特征数据,标签方可以对初始样本ID分箱序列进行无需特征值参与计算的有监督分箱,用样本ID记录特征值的分箱情况。在一些实施例中,所述无需特征值参与计算的有监督分箱包括但不限于卡方分箱或Best-KS分箱。下面针对这两种有监督分箱方案分别进行说明。
卡方分箱是一种基于合并思想的分箱方案,其中,卡方值可用于衡量邻接的两个以上分箱(子序列)的相关性。在一些卡方分箱算法中,对于需要进一步分箱的特征值分箱序列,可以计算各组邻接分箱(即,两个以上分箱为一组)的卡方值,将卡方值最小的组中的分箱合并为一个分箱,反复计算卡方值及合并分箱,直至分箱数量达到预设数量和/或各组对应的卡方值不小于预设值,即完成特征值的分箱。在一些实施例中,可以按如下计算式计算一组邻接分箱的卡方值:
Figure 399456DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示该组邻接分箱的卡方值(非负数),m表示组中分箱的个数(m不小于2),k表示样本集中不同标签的个数,k个不同的标签可分别记为标签1、...标签k(k不小于2),Aij表示组内第i个分箱中对应标签j的特征值的实际频数(即个数),Eij表示组内第i个分箱中对应标签j的特征值的期望频数,Ri表示组内第i个分箱中特征值的个数,N表示样本集中样本的个数,Cj表示样本集中对应标签j的样本的个数。
在步骤320中,目标分箱模块520也可以利用上述卡方分箱算法进行分箱,只是分箱的对象是样本ID分箱序列而不是特征值分箱序列。相应地,在上述用于计算卡方值的计算式中,Aij表示组内第i个分箱中对应标签j的样本ID的实际频数(即个数),Eij表示组内第i个分箱中对应标签j的样本ID的期望频数,Ri表示组内第i个分箱中样本ID的个数。
Best-KS分箱是一种基于切割思想的分箱方案。在一些Best-KS分箱算法中,对于需要进一步分箱的特征值分箱序列(其可以包含多个特征值分箱),首先整个特征值分箱序列可看作一个区间,可以计算区间内各候选切割点的KS值。候选切割点可位于特征值分箱序列中任意相邻的两个分箱之间,可将区间由一个切割为二个(该候选切割点是否会作为最终的切割点取决于其KS值大小),切割后得到的两个区间的KS值中较大值可作为该候选切割点的KS值。比较区间内各候选切割点的KS值,可确定KS值最大的候选切割点作为最终的切割点并按该切割点将区间一分为二。反复在各区间内计算候选切割点的KS值并根据区间内各候选切割点的KS值大小切割区间,直至区间数量达到预设数量或各区间的KS值不大于预设值。在一些实施例中,可以按以下计算式计算区间的KS值(用KS表示):
KS=|A'/A-B'/B|,
在二分类问题中,A可表示样本集中所有正例的数量,B可表示样本集中所有负例的数量,相应地,A'表示区间内对应正例的特征值的数量,B'可表示区间内对应负例的特征值的数量。
在步骤320中,目标分箱模块520也可以利用上述KS分箱算法进行分箱,只是分箱的对象是样本ID分箱序列而不是特征值分箱序列。相应地,在上述用于计算KS值的计算式中,A'表示区间内对应正例的样本ID的数量,B'表示区间内对应负例的样本ID的数量。
步骤330,将目标样本ID分箱序列发送给特征方的设备110。在一些实施例中,步骤330可以由第二发送模块530实现。
特征方的设备120可基于目标样本ID分箱序列获得目标特征值分箱序列,更多细节可以参考图2中披露的步骤240及其相关描述。
应当注意的是,上述有关流程200和300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200和300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的特征值分箱系统的示例性框图。系统400可在特征方的设备110上实现。如图4所示,系统400可以包括初始分箱模块410、第一发送模块420、第一接收模块430和目标特征值分箱序列获得模块440。
在一些实施例中,初始分箱模块410可以用于初始分箱模块,用于基于所述样本集中各样本的特征值,获得初始样本ID分箱序列。初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID。
在一些实施例中,第一发送模块420可以用于将所述初始样本ID分箱序列发送给标签方的设备120,标签方持有所述样本集中各样本的标签,以使:标签方的设备120基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列。
在一些实施例中,第一接收模块430可以用于接收来自标签方的设备120的目标样本ID分箱序列。
在一些实施例中,目标特征值分箱序列获得模块440可以用于基于所述目标样本ID分箱序列获得目标特征值分箱序列。
关于系统400及其模块的更多细节,可以参照图2及其相关描述。
图5是根据本说明书一些实施例所示的特征值分箱系统的示例性框图。系统500可在标签方的设备120上实现。如图5所示,系统500可以包括第二接收模块510、目标分箱模块520和第二发送模块530。
在一些实施例中,第二接收模块510可以用于接收来自特征方的设备110的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID。
在一些实施例中,目标分箱模块520可以用于基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列。
在一些实施例中,第二发送模块530可以用于所述目标样本ID分箱序列发送给特征方的设备110。
关于系统500及其模块的更多细节,可以参照图3及其相关描述。
应当理解,图4、图5所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,图4中披露的初始分箱模块410和第一发送模块420可以是两个模块,也可以合并为一个模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)特征方和样本方联合分箱时,通过用样本ID记录特征值的分箱情况,可交互公共的样本ID信息,无需交互各自的私密信息,在有效保护各方数据隐私的前提下实现联合分箱;(2)通过对初始样本ID分箱序列的子序列内部进行乱序,可以在一定程度上克服数据隐私泄露的风险,同时也不会对特征值分箱之后的模型训练产生影响;(3)交互的数据量小,通信量较小;(4)不涉及复杂的交互,联合分箱效率较高;(5)有监督分箱具有较好的分箱效果。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (12)

1.一种特征值分箱方法,其中,所述方法由特征方的设备执行,特征方持有样本集中各样本的特征值,所述方法包括:
基于所述样本集中各样本的特征值,获得初始样本ID分箱序列;初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;
将所述初始样本ID分箱序列发送给标签方的设备,标签方持有所述样本集中各样本的标签,以使:标签方的设备基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;
接收来自标签方的设备的目标样本ID分箱序列;
基于所述目标样本ID分箱序列获得目标特征值分箱序列。
2.如权利要求1所述的方法,其中,所述样本为针对业务对象的样本。
3.如权利要求1所述的方法,其中,所述基于所述样本集中各样本的特征值,获得初始样本ID分箱序列,包括:
对所述样本集中各样本的特征值进行无监督分箱,得到初始特征值分箱序列;
基于所述初始特征值分箱序列获得所述初始样本ID分箱序列。
4.如权利要求1所述的方法,其中,所述获得初始样本ID分箱序列,包括:
获得样本ID序列,所述样本ID序列包括所述样本集中各样本的样本ID,且各样本的样本ID按各样本的特征值排序;
基于所述样本ID序列获得所述初始样本ID分箱序列。
5.如权利要求4所述的方法,其中,所述基于所述样本ID序列获得所述初始样本ID分箱序列,包括:
对所述样本ID序列进行无监督分箱,得到所述初始样本ID分箱序列。
6.如权利要求1所述的方法,其中,所述基于所述样本集中各样本的特征值,获得初始样本ID分箱序列,还包括:
改变初始样本ID分箱序列的子序列中各样本ID的顺序。
7.一种特征值分箱系统,其中,所述系统在特征方的设备上实现,特征方持有样本集中样本的特征值,所述系统包括:
初始分箱模块,用于基于所述样本集中各样本的特征值,获得初始样本ID分箱序列;初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;
第一发送模块,用于将所述初始样本ID分箱序列发送给标签方的设备,标签方持有所述样本集中各样本的标签,以使:标签方的设备基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;
第一接收模块,用于接收来自标签方的设备的目标样本ID分箱序列;
目标特征值分箱序列获得模块,用于基于所述目标样本ID分箱序列获得目标特征值分箱序列。
8.一种特征值分箱装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如权利要求1~6中任一项所述的方法。
9.一种特征值分箱方法,其中,所述方法由标签方的设备执行,标签方持有样本集中样本的标签,所述方法包括:
接收来自特征方的设备的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;
基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;
将所述目标样本ID分箱序列发送给特征方的设备。
10.如权利要求9所述的方法,其中,所述样本为针对业务对象的样本。
11.一种特征值分箱系统,其中,所述系统在标签方的设备上实现,标签方持有样本集中样本的标签,所述系统包括:
第二接收模块,用于接收来自特征方的设备的初始样本ID分箱序列,特征方持有样本集中各样本的特征值,初始样本ID分箱序列包括多个子序列,每个子序列包括来自所述样本集的一个或多个样本ID;
目标分箱模块,用于基于所述样本集中各样本的标签对所述初始样本ID分箱序列进行有监督分箱,得到目标样本ID分箱序列;
第二发送模块,用于所述目标样本ID分箱序列发送给特征方的设备。
12.一种特征值分箱装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如权利要求9或10所述的方法。
CN202010329687.9A 2020-04-24 2020-04-24 特征值分箱方法、系统及装置 Active CN111242244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329687.9A CN111242244B (zh) 2020-04-24 2020-04-24 特征值分箱方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329687.9A CN111242244B (zh) 2020-04-24 2020-04-24 特征值分箱方法、系统及装置

Publications (2)

Publication Number Publication Date
CN111242244A true CN111242244A (zh) 2020-06-05
CN111242244B CN111242244B (zh) 2020-09-18

Family

ID=70864692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329687.9A Active CN111242244B (zh) 2020-04-24 2020-04-24 特征值分箱方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111242244B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100643A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052979A (zh) * 2017-12-15 2018-05-18 阿里巴巴集团控股有限公司 对模型预测值进行融合的方法、装置和设备
CN110032878A (zh) * 2019-03-04 2019-07-19 阿里巴巴集团控股有限公司 一种安全的特征工程方法和装置
CN110245140A (zh) * 2019-06-12 2019-09-17 同盾控股有限公司 数据分箱处理方法及装置、电子设备和计算机可读介质
CN110990857A (zh) * 2019-12-11 2020-04-10 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052979A (zh) * 2017-12-15 2018-05-18 阿里巴巴集团控股有限公司 对模型预测值进行融合的方法、装置和设备
CN110032878A (zh) * 2019-03-04 2019-07-19 阿里巴巴集团控股有限公司 一种安全的特征工程方法和装置
CN110245140A (zh) * 2019-06-12 2019-09-17 同盾控股有限公司 数据分箱处理方法及装置、电子设备和计算机可读介质
CN110990857A (zh) * 2019-12-11 2020-04-10 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100643A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质
WO2022188648A1 (zh) * 2021-03-10 2022-09-15 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品

Also Published As

Publication number Publication date
CN111242244B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
US11645515B2 (en) Automatically determining poisonous attacks on neural networks
Rawat et al. Ai based drones for security concerns in smart cities
CN111242244B (zh) 特征值分箱方法、系统及装置
CN111242358A (zh) 一种双层结构的企业情报流失预测方法
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN114328277A (zh) 一种软件缺陷预测和质量分析方法、装置、设备及介质
CN114244611A (zh) 异常攻击检测方法、装置、设备及存储介质
CN113723555A (zh) 异常数据的检测方法及装置、存储介质、终端
US11847230B2 (en) Learning device estimating apparatus, learning device estimating method, risk evaluation apparatus, risk evaluation method, and program
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
Mieczyńska et al. K-means clustering for SAT-AIS data analysis
Kraeva et al. Application of the metric learning for security incident playbook recommendation
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN113626826A (zh) 智能合约安全检测方法、系统、设备、终端及应用
CN110852082B (zh) 同义词的确定方法及装置
CN112668857A (zh) 分阶段质检的数据分类方法、装置、设备及存储介质
CN117216736A (zh) 异常账号的识别方法、数据调度平台及图计算平台
Viswanathan et al. R data analysis cookbook
CN115600226A (zh) 一种仓单质押数据加密方法
CN114912628A (zh) 特征选择方法、装置、电子设备及计算机可读存储介质
CN114493850A (zh) 基于人工智能的在线公证方法、系统及存储介质
CN114662580A (zh) 数据分类模型的训练方法、分类方法、装置、设备和介质
CN113379212A (zh) 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质
CN111400375A (zh) 一种基于财务业务数据商机挖掘方法及装置
Fernandes de Araújo et al. Leveraging active learning to reduce human effort in the generation of ground‐truth for entity resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030602

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20240926

Address after: Room 302, 3rd Floor, Building 1, Yard 1, Danling Street, Haidian District, Beijing, 100080

Patentee after: Sasi Digital Technology (Beijing) Co.,Ltd.

Country or region after: China

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: Alipay (Hangzhou) Information Technology Co.,Ltd.

Country or region before: China