CN112700012A - 联邦特征选择方法、装置、设备及存储介质 - Google Patents

联邦特征选择方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112700012A
CN112700012A CN202011644116.0A CN202011644116A CN112700012A CN 112700012 A CN112700012 A CN 112700012A CN 202011644116 A CN202011644116 A CN 202011644116A CN 112700012 A CN112700012 A CN 112700012A
Authority
CN
China
Prior art keywords
federal
feature
filter
filtering
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011644116.0A
Other languages
English (en)
Other versions
CN112700012B (zh
Inventor
林冰垠
范涛
陈天健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011644116.0A priority Critical patent/CN112700012B/zh
Publication of CN112700012A publication Critical patent/CN112700012A/zh
Application granted granted Critical
Publication of CN112700012B publication Critical patent/CN112700012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种联邦特征选择方法、装置、设备和存储介质,该方法包括:获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。本申请能够保护各参与方的数据和隐私安全,不会泄漏各方任何的特征,且由于通过交互式的步骤确定特征过滤规则对所述联邦特征接入数据进行过滤处理,因而,能够准确得到联邦特征选择结果,即准确将各参与方满足条件的特征筛选出来,用于下一步模型的训练,因而,提升纵向联邦建模效率。

Description

联邦特征选择方法、装置、设备及存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种联邦特征选择方法、装置、设备及存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如金融业对联邦特征选择也有更高的要求。
机器学习中通常需要对特征进行筛选,以保证后续更佳的模型训练效果。例如在风控领域需要使用iv值和woe值等多种方法对特征进行过滤和筛选,以区分好用户或坏用户等,在联邦机器学习特征选择过程中,尤其是纵向联邦特征选择的场景中,参与联邦建模的特征来自于多个参与方,因而,需要在兼顾联邦安全和隐私保护的前提下,筛选出符合条件的特征,目前,联邦多方特征选择,是线下与各参与方单独沟通的,各参与方线下单独沟通筛选特征或者选择特征,既不安全也不高效,影响联邦建模的建模效率。
发明内容
本申请的主要目的在于提供一种联邦特征选择方法、装置、设备和存储介质,旨在解决现有技术中线下各参与方单独沟通如何筛选或者选择特征,影响联邦建模的建模效率的技术问题。
为实现上述目的,本申请提供一种联邦特征选择方法,所述联邦特征选择方法包括:
获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;
获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则;
根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
可选地,述过滤组合信息包括过滤器类型以及过滤器的组合顺序;
所述通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则的步骤,包括:
获取通过交互式方式确定的预设设置信息,以确定所述参与方的过滤器类型以及所述不同类型过滤器的组合顺序;
确定每个类型过滤器的过滤条件;
根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则。
可选地,所述根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则的步骤,包括:
若接收到对所述组合顺序进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序;
基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则。
可选地,所述过滤器的类型包括内置过滤器和外接过滤器,所述过滤条件包括过滤参数和过滤参数范围;
所述基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则的步骤,包括:
分别获取所述内置过滤器和外接过滤器的过滤条件;
基于所述变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。
可选地,所述外接过滤器为外部接入模型。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤之后,包括:
确定与所述联邦特征选择结果匹配的可视化方式;
根据所述可视化方式,对所述联邦特征选择结果进行可视化处理,得到可视化显示的所述联邦特征选择结果。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
基于所述参与方的联邦特征选择结果,得到参与方地的模型训练参数;
聚合各个参与方本地的模型训练参数,训练待训练联邦模型,得到目标联邦模型。
本申请还提供一种联邦特征选择装置,述联邦特征选择方法包括:
获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;
获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则;
根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
可选地,述过滤组合信息包括过滤器类型以及过滤器的组合顺序;
所述通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则的步骤,包括:
获取通过交互式方式确定的预设设置信息,以确定所述参与方的过滤器类型以及所述不同类型过滤器的组合顺序;
确定每个类型过滤器的过滤条件;
根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则。
可选地,所述根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则的步骤,包括:
若接收到对所述组合顺序进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序;
基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则。
可选地,所述过滤器的类型包括内置过滤器和外接过滤器,所述过滤条件包括过滤参数和过滤参数范围;
所述基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则的步骤,包括:
分别获取所述内置过滤器和外接过滤器的过滤条件;
基于所述变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。
可选地,所述外接过滤器为外部接入模型。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤之后,包括:
确定与所述联邦特征选择结果匹配的可视化方式;
根据所述可视化方式,对所述联邦特征选择结果进行可视化处理,得到可视化显示的所述联邦特征选择结果。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
基于所述参与方的联邦特征选择结果,得到参与方地的模型训练参数;
聚合各个参与方本地的模型训练参数,训练待训练联邦模型,得到目标联邦模型。
本申请还提供一种联邦特征选择设备,所述联邦特征选择设备为实体设备,所述联邦特征选择设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述联邦特征选择方法的程序,所述联邦特征选择方法的程序被处理器执行时可实现如上述的联邦特征选择方法的步骤。
本申请还提供一种存储介质,所述存储介质上存储有实现上述联邦特征选择方法的程序,所述联邦特征选择方法的程序被处理器执行时实现如上述的联邦特征选择方法的步骤。
本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的联邦特征选择方法的步骤。
本申请提供一种联邦特征选择方法、装置、设备及存储介质,与现有线下各参与方单独沟通如何筛选特征,致使联邦建模的建模效率低相比,本申请通过获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。在本申请中,由于获取的是参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据,因而,能够保护各参与方的数据和隐私安全,不会泄漏各方任何的特征,且由于通过交互式的步骤确定特征过滤规则对所述联邦特征接入数据进行过滤处理,因而,能够准确得到联邦特征选择结果,即准确将各参与方满足条件的特征筛选出来,用于下一步模型的训练,因而,提升纵向联邦建模效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请联邦特征选择方法第一实施例的流程示意图;
图2为本申请联邦特征选择方法第一实施例中步骤S20的步骤细化流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图;
图4为本申请实施例方案涉及的第一场景示意图;
图5为本申请实施例方案涉及的第二场景示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种联邦特征选择方法,在本申请联邦特征选择方法的第一实施例中,参照图1,所述联邦特征选择方法包括:
步骤S10,获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;
步骤S20,获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
具体步骤如下:
步骤S10,获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;
在本实施例中,联邦特征选择方法应用于多方联邦建模场景,具体地,应用于多方联邦建模场景中的特征选择情景。在多方联邦建模场景中,分为应用方(guest方)和数据源方(host方),应用方是含有标签的那一方,数据源方是不含标签的那一方,通常在纵向联邦建模过程中,可以有一个guest方和多个host方,在本实施例中,需要说明的是,应用方和数据源方都是参与方,在联邦特征选择方法中,具体地,可以应用于服务器端,当然还可以应用于其他端,其中,在本实施例中,以联邦特征选择方法应用于服务器端为例进行具体说明。
在本实施例中,需要说明的是,服务器端具有可视化显示的界面,在该可视化显示的界面上,具有各个可供选择的选项,该各个可供选择的选项可以是过滤数据选择,例如,是选择哪个参与方的数据进行过滤,或者是选择部分参与方的数据过滤,或者是选择全部参与方的数据过滤。另外,该各个可供选择的选项还可以是过滤规则的选择,或者过滤器的选择,例如,只选择内置过滤器设置,或者只选择外接过滤器设置,或者选择内置过滤器和外接过滤器设置。需要说明的是,内置的过滤器包括:单一值过滤器(过滤掉所有特征值都一样的特征)、iv值(影响力占比)阈值过滤器、iv值排序后比例过滤器、iv值top_k过滤器、变异系数过滤器、离群特征过滤器等,需要说明的是,内置过滤器还支持用户自定义过滤器,用户可以自行根据业务需要定义过滤器,例如自定义一个列值占比过滤器(如规定当某列中的某个值的比例超过一定范围,则过滤该列),并保存该过滤器,在后期使用只要勾选就可以使用。需要说明的是,可以选择内置过滤器中的一个或者多个具体过滤器。
在本实施例中,外接过滤器可以是通过接入外部模型进行过滤,即从外部模型输入口接入不同的模型进行过滤,例如接入联邦纵向PSI模型(利用PSI值进行过滤)、接入联邦纵向Secureboost(利用Secureboost输出的特征重要性值进行过滤)等,外部模型接入还支持用户自行添加,用户可以根据实际业务需要,增加外部模型的种类及其过滤条件,例如增加联邦特征统计模型,利用特征统计模型输出的结果-特征值缺失比例,最小/最大值,中值,均值,标准差,偏度,峰度(根据用户选择)来进行过滤,在本实施例中,可以将外部模型的过滤条件设置加入内置过滤器中并保存,后期,只要接入该外部模型,就可以直接设置条件进行过滤。
在本实施例中,首先获取参与方的联邦特征接入数据,具体地,获取参与方的联邦特征接入数据的方式可以是,在用户在可视化界面上选择参与方后,通过数据输入端口得到参与方的联邦特征接入数据,该联邦特征接入数据可以是数据表的形式。
获取参与方的联邦特征接入数据的方式还可以是,用户在可视化界面上选择参与方后,直接从已得到的数据表中筛选得到参与方的联邦特征接入数据。
在本实施例中,需要说明的是,获取参与方的联邦特征接入数据的方式可以是通过交互式的,即通过交互式确定参与方,然后确定参与方的联邦特征接入数据。
其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据,具体地,用户关联标识包括用户的名称,用户的ID号,用户的身份证号等,不包括用户关联标识但包括用户联邦特征的数据指的是:不包括用户关联标识但包括用户对物体或者用户对数据的行为特征,如用户对物品的带看次数特征,用户对物品的带看时长特征,用户对物品的点击数量特征,用户对物品的收藏数量特征等,由于所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据,因而,可以实现隐私保护。也即,虽然确定了用户对物体或者用户对数据的行为特征,但不确定是何具体用户作出的行为特征,因而,用户具体信息也不会泄露,在本实施例中,需要强调的是,在本实施例中,联邦特征接入数据是特征数据,联邦特征接入数据可以是未经处理的原始特征,也可以是独热编码后的特征,或者是是独热编码后的向量特征,具体地,假设用户数据的独热编码为01000000,则可以对应生成所述独热编码01000000的嵌入向量。
另外,需要说明的是,在本实施例中是可以在服务器端进行独热编码处理。
步骤S20,获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果,其中,交互式方式指的是:
方式一:通过用户在可视化界面选择的过滤器接入类型;
方式二;在选择接入类型过滤器后,在可视化界面选择具体过滤器;
方式三;通过用户在可视化界面选择具体过滤器的具体参数;
方式四;通过用户在可视化界面选择具体参数的具体范围或者具体内容。
所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
步骤S21,通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则;
在本实施例中,通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则,其中,过滤组合信息可以指的是过滤条件组合,或者过滤器组合,或者过滤参数组合,其中,过滤组合信息还包括过滤顺序。
所述通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则的步骤,包括:
步骤S211,获取通过交互式方式确定的预设设置信息,以确定所述参与方的过滤器类型以及所述不同类型过滤器的组合顺序;
在本实施例中,过滤条件组合包括多个过滤器类型以及不同类型过滤器的组合方式,具体地,获取通过交互式方式确定的预设设置信息,进而,基于预设设置信息得到所述参与方的过滤器类型以及所述不同类型过滤器的组合顺序。
步骤S212,确定每个类型过滤器的过滤条件;
在本实施例中,针对每个类型过滤器,还需要确定具体的过滤条件,如设置是否各参与方都参与特征选择,以及不同参与方过滤各自特征的阈值条件,其中,需要说明的是,每个过滤器在可视化界面显示为一个卡片,过滤器排序自上而下,点击每个过滤器卡片上下移动可以切换过滤器的顺序。
步骤S213,根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则。
根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则,即完成过滤器的参数设置或者条件设置后,就基于组合顺序显示过滤规则,本方法采用“阶梯状”表格的形式显示过滤规则,如图4所示,表格的列从左往右依次表示各个过滤器,并按照从左往右的顺序将各个过滤器串联,即在本实施例中,可以按照组合顺序串联各个过滤器,需要说明的是,过滤器是可以自由排序和自由组合的(由于每个过滤器在可视化界面显示为一个卡片,因而,可以自由适配任何业务场景的任何指标需求,根据实际生产需求来增加或删除过滤器,而不仅限于常规的特征选择过滤指标),改变过滤器的顺序后,过滤结果可能不同,通过过滤器的顺序变更和更改,可以避免浪费多余的过滤器,节约资源,使用最合适最实用的过滤器来达到最佳的过滤效果。
步骤S22,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果,如图5所示,经过左边第一个过滤器后输出的结果,方格灰色底表示该特征被过滤掉,方格白色底表示通过选择的特征,并进入左边第二个过滤器进行过滤(不进入下一个过滤器的特征在后续的过滤器中不再参与值的计算,因此方格数值为空)最终的特征选择结果为“x0”和“host_9999_0”。
其中,特征选择结果的直观可视化,如通过“阶梯状”的表格直接展示特征选择的结果。
所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤之后,包括:
步骤S30,确定与所述联邦特征选择结果匹配的可视化方式;
步骤S40,根据所述可视化方式,对所述联邦特征选择结果进行可视化处理,得到可视化显示的所述联邦特征选择结果。
在本实施例中,确定与所述联邦特征选择结果匹配的可视化方式(可以是用户选择的),如是表格形式还是柱状图形式等,根据所述可视化方式,对所述联邦特征选择结果进行可视化处理,得到可视化显示的所述联邦特征选择结果。
所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
步骤S50,基于所述参与方的联邦特征选择结果,得到参与方地的模型训练参数;
步骤S60,聚合各个参与方本地的模型训练参数,训练待训练联邦模型,得到目标联邦模型。
在本实施例中,服务器端基于所述参与方的联邦特征选择结果,得到参与方地的模型训练参数。具体地,服务器端得到所述参与方的联邦特征选择结果,将对应的特征选择结果发送给对应的参与方,对应的参与方得到特征选择结果后,基于特征选择结果,得到本地的模型训练数据,各个参与方在得到本地的模型训练数据后,确定待训练联邦模型,基于模型训练数据对待训练联邦模型进行训练,得到本地训练后的待聚合模型参数,并将待聚合模型参数发送给服务器端,服务器端基于接收到的各个参与方的待聚合模型参数,并进行聚合处理,得到聚合参数,并将聚合参数发送给各个参与方,以供各个参与方基于聚合参数更新待训练联邦模型,并不断进行待训练联邦模型的联邦训练,以得到目标联邦模型。
本申请提供一种联邦特征选择方法、装置、设备及存储介质,与现有线下各参与方单独沟通如何筛选特征,致使联邦建模的建模效率低相比,本申请通过获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。在本申请中,由于获取的是参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据,因而,能够保护各参与方的数据和隐私安全,不会泄漏各方任何的特征,且由于通过交互式的步骤确定特征过滤规则对所述联邦特征接入数据进行过滤处理,因而,能够准确得到联邦特征选择结果,即准确将各参与方满足条件的特征筛选出来,用于下一步模型的训练,因而,提升纵向联邦建模效率。
本申请实施例提供一种联邦特征选择方法,在本申请联邦特征选择方法的另一实施例中,所述根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则的步骤,包括:
步骤A1,若接收到对所述组合顺序进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序;
在本实施例中,若接收到对所述组合顺序进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序,其中,变更顺序可以是第一位过滤器变为第三位过滤器,第三位过滤器变为第二位过滤器,第二位过滤器变为第一位过滤器。
另外,需要说明的是,在本实施例中,组合顺序若为先内置过滤器,后外接过滤器,则组合顺序的变更可以是先外接过滤器,后内置过滤器,对于变更了组合顺序的外接过滤器和内置过滤器,其内部具体的过滤条件可以进行变更,也可以不发生变更,具体地,例如,外接过滤器内部排序包括:第三位外接过滤器、第二位外接过滤器、第一位外接过滤器,则外接过滤器内部排序变更后可能变为:第三位外接过滤器、第一位外接过滤器、第二位外接过滤器,对于内置过滤器也是如此,在此不做具体说明。
另外,在本实施例中,需要说明的是,变更还可以是每个过滤器内部过滤顺序的变更,例如,在先的过滤顺位为:第一过滤条件,第二过滤条件,第三过滤条件,则变更后可以变为:第一过滤条件,第三过滤条件,第二过滤条件。
步骤A2,基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则。
基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则,具体地,根据所述每个类型过滤器的过滤条件,以及所述变更顺序,得到特征过滤规则,即完成过滤器的参数设置或者条件设置后,就基于变更顺序显示过滤规则,本方法采用“阶梯状”表格的形式显示过滤规则。
在本实施例中,通过若接收到对所述组合顺序,进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则。在本实施例中,便捷地更改特征过滤规则。
本申请实施例提供一种联邦特征选择方法,在本申请联邦特征选择方法的另一实施例中,所述过滤器的类型包括内置过滤器和外接过滤器,所述过滤条件包括过滤参数和过滤参数范围;
所述基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则的步骤,包括:
步骤B1,分别获取所述内置过滤器和外接过滤器的过滤条件;
步骤B2,基于所述变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。
在本实施例中,分别获取所述内置过滤器和外接过滤器的过滤条件,基于所述内置过滤器和外接过滤器的变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。
在本实施例中,分别获取所述内置过滤器和外接过滤器的过滤条件,基于所述变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。在本实施例中,过滤规则可以是内置过滤器和外接过滤器之间变更。因而,拓宽了应用场景。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该联邦特征选择设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该联邦特征选择设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的联邦特征选择设备结构并不构成对联邦特征选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及联邦特征选择程序。操作系统是管理和控制联邦特征选择设备硬件和软件资源的程序,支持联邦特征选择程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与联邦特征选择系统中其它硬件和软件之间通信。
在图3所示的联邦特征选择设备中,处理器1001用于执行存储器1005中存储的联邦特征选择程序,实现上述任一项所述的联邦特征选择方法的步骤。
本申请联邦特征选择设备具体实施方式与上述联邦特征选择方法各实施例基本相同,在此不再赘述。
本申请还提供一种联邦特征选择装置,述联邦特征选择方法包括:
获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;
获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则;
根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
可选地,述过滤组合信息包括过滤器类型以及过滤器的组合顺序;
所述通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则的步骤,包括:
获取通过交互式方式确定的预设设置信息,以确定所述参与方的过滤器类型以及所述不同类型过滤器的组合顺序;
确定每个类型过滤器的过滤条件;
根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则。
可选地,所述根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则的步骤,包括:
若接收到对所述组合顺序进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序;
基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则。
可选地,所述过滤器的类型包括内置过滤器和外接过滤器,所述过滤条件包括过滤参数和过滤参数范围;
所述基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则的步骤,包括:
分别获取所述内置过滤器和外接过滤器的过滤条件;
基于所述变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。
可选地,所述外接过滤器为外部接入模型。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤之后,包括:
确定与所述联邦特征选择结果匹配的可视化方式;
根据所述可视化方式,对所述联邦特征选择结果进行可视化处理,得到可视化显示的所述联邦特征选择结果。
可选地,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
基于所述参与方的联邦特征选择结果,得到参与方地的模型训练参数;聚合各个参与方本地的模型训练参数,训练待训练联邦模型,得到目标联邦模型。
本申请联邦特征选择装置的具体实施方式与上述联邦特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种存储介质,且所述存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的联邦特征选择方法的步骤。
本申请存储介质具体实施方式与上述联邦特征选择方法各实施例基本相同,在此不再赘述。
本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的联邦特征选择方法的步骤。
本申请计算机程序产品的具体实施方式与上述联邦特征选择方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (12)

1.一种联邦特征选择方法,其特征在于,所述联邦特征选择方法包括:
获取参与方的联邦特征接入数据,其中,所述联邦特征接入数据为不包括用户关联标识但包括用户联邦特征的数据;
获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
2.如权利要求1所述的联邦特征选择方法,其特征在于,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则;
根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果。
3.如权利要求2所述的联邦特征选择方法,其特征在于,所述过滤组合信息包括过滤器类型以及过滤器的组合顺序;
所述通过交互式方式确定所述参与方的过滤组合信息,以得到特征过滤规则的步骤,包括:
获取通过交互式方式确定的预设设置信息,以确定所述参与方的过滤器类型以及所述不同类型过滤器的组合顺序;
确定每个类型过滤器的过滤条件;
根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则。
4.如权利要求3所述的联邦特征选择方法,其特征在于,所述根据所述每个类型过滤器的过滤条件,以及所述组合顺序,得到预设的特征过滤规则的步骤,包括:
若接收到对所述组合顺序进行变更的变更指令时,基于所述组合顺序和所述变更指令,得到变更顺序;
基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则。
5.如权利要求4所述联邦特征选择方法,其特征在于,所述过滤器的类型包括内置过滤器和外接过滤器,所述过滤条件包括过滤参数和过滤参数范围;
所述基于所述变更顺序,以及所述过滤条件,得到预设的特征过滤规则的步骤,包括:
分别获取所述内置过滤器和外接过滤器的过滤条件;
基于所述变更顺序,以及所述内置过滤器和外接过滤器的过滤条件,得到预设的特征过滤规则。
6.如权利要求5所述的联邦特征选择方法,其特征在于,所述外接过滤器为外部接入模型。
7.如权利要求1所述的联邦特征选择方法,其特征在于,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤之后,包括:
确定与所述联邦特征选择结果匹配的可视化方式;
根据所述可视化方式,对所述联邦特征选择结果进行可视化处理,得到可视化显示的所述联邦特征选择结果。
8.如权利要求1-7任一项所述的联邦特征选择方法,其特征在于,所述获取交互式方式确定的特征过滤规则,根据所述特征过滤规则对所述联邦特征接入数据进行过滤处理,得到联邦特征选择结果的步骤,包括:
基于所述参与方的联邦特征选择结果,得到参与方地的模型训练参数;
聚合各个参与方本地的模型训练参数,训练待训练联邦模型,得到目标联邦模型。
9.一种联邦特征选择装置,其特征在于,应用于第一参与方,所述联邦特征选择装置包括:
第一获取模块,用于获取样本数据,所述样本数据包括用户数据和物品数据;
接收模块,用于在所述第一参与方本地,确定所述用户数据的用户嵌入向量,并接收服务器发送的物品嵌入向量,所述物品嵌入向量为在所述服务器本地基于所述物品数据生成的;
第二获取模块,用于基于所述用户嵌入向量以及所述物品嵌入向量,通过联邦学习训练得到所述第一参与方的预设预测模型。
10.一种联邦特征选择设备,其特征在于,所述联邦特征选择设备包括:存储器、处理器以及存储在存储器上的用于实现所述联邦特征选择方法的程序,
所述存储器用于存储实现联邦特征选择方法的程序;
所述处理器用于执行实现所述联邦特征选择方法的程序,以实现如权利要求1至8中任一项所述联邦特征选择方法的步骤。
11.一种存储介质,其特征在于,所述存储介质上存储有实现联邦特征选择方法的程序,所述实现联邦特征选择方法的程序被处理器执行以实现如权利要求1至8中任一项所述联邦特征选择方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
CN202011644116.0A 2020-12-30 2020-12-30 联邦特征选择方法、装置、设备及存储介质 Active CN112700012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011644116.0A CN112700012B (zh) 2020-12-30 2020-12-30 联邦特征选择方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011644116.0A CN112700012B (zh) 2020-12-30 2020-12-30 联邦特征选择方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112700012A true CN112700012A (zh) 2021-04-23
CN112700012B CN112700012B (zh) 2024-08-09

Family

ID=75514290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011644116.0A Active CN112700012B (zh) 2020-12-30 2020-12-30 联邦特征选择方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112700012B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537361A (zh) * 2021-07-20 2021-10-22 同盾科技有限公司 联邦学习系统中的跨样本特征选择方法及联邦学习系统
CN113537633A (zh) * 2021-08-09 2021-10-22 中国电信股份有限公司 基于纵向联邦学习的预测方法、装置、设备、介质和系统
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170041296A1 (en) * 2015-08-05 2017-02-09 Intralinks, Inc. Systems and methods of secure data exchange
CN111046283A (zh) * 2019-12-04 2020-04-21 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及存储介质
CN111259443A (zh) * 2020-01-16 2020-06-09 百融云创科技股份有限公司 一种基于psi技术保护联邦学习预测阶段隐私的方法
WO2020134704A1 (zh) * 2018-12-28 2020-07-02 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN111428883A (zh) * 2020-03-30 2020-07-17 深圳前海微众银行股份有限公司 基于向后法的联邦建模方法、设备和可读存储介质
CN111898767A (zh) * 2020-08-06 2020-11-06 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及介质
CN111950739A (zh) * 2020-08-13 2020-11-17 深圳前海微众银行股份有限公司 基于区块链的数据处理方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170041296A1 (en) * 2015-08-05 2017-02-09 Intralinks, Inc. Systems and methods of secure data exchange
WO2020134704A1 (zh) * 2018-12-28 2020-07-02 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN111046283A (zh) * 2019-12-04 2020-04-21 深圳前海微众银行股份有限公司 特征选择方法、装置、设备及存储介质
CN111259443A (zh) * 2020-01-16 2020-06-09 百融云创科技股份有限公司 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN111428883A (zh) * 2020-03-30 2020-07-17 深圳前海微众银行股份有限公司 基于向后法的联邦建模方法、设备和可读存储介质
CN111898767A (zh) * 2020-08-06 2020-11-06 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及介质
CN111950739A (zh) * 2020-08-13 2020-11-17 深圳前海微众银行股份有限公司 基于区块链的数据处理方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANYI CHEN ET AL.: "VAFL: a Method of Vertical Asynchronous Federated Learning", 《ARXIV:2007.06081V1 [CS.LG]》, 12 July 2020 (2020-07-12), pages 1 - 22 *
何雯;白翰茹;李超;: "基于联邦学习的企业数据共享探讨", 信息与电脑(理论版), no. 08, 25 April 2020 (2020-04-25), pages 177 - 180 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537361A (zh) * 2021-07-20 2021-10-22 同盾科技有限公司 联邦学习系统中的跨样本特征选择方法及联邦学习系统
CN113537361B (zh) * 2021-07-20 2024-04-02 同盾科技有限公司 联邦学习系统中的跨样本特征选择方法及联邦学习系统
CN113537633A (zh) * 2021-08-09 2021-10-22 中国电信股份有限公司 基于纵向联邦学习的预测方法、装置、设备、介质和系统
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112700012B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN112700012A (zh) 联邦特征选择方法、装置、设备及存储介质
CN111401722B (zh) 智能决策方法和智能决策系统
EP3044762A2 (en) Techniques to manage color representations for a digital map
CN108268575A (zh) 标注信息的处理方法、装置和系统
US10043131B2 (en) Systems and methods for rule-based content optimization
CN110231974A (zh) 运维信息的可视化方法、装置、设备及可读存储介质
CN108197203A (zh) 一种门脸头图挑选方法、装置、服务器和存储介质
US10642902B2 (en) Systems and methods for rule-based content generation
WO2014099571A1 (en) Systems and methods for rule-based animated content optimization
CN113609697A (zh) 一种基于事件网的模拟仿真方法、装置及计算机设备
CN116450907A (zh) 工艺路线可视化设置方法、系统和可读存储介质
CN113254000B (zh) 基于json数据生成2d场景的方法、装置、存储介质和设备
CN115270923A (zh) 一种基于场景的可视化智能决策方法及系统
CN116226116A (zh) 联合学习任务查看方法、装置、电子设备及存储介质
CN111984637A (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质
CN112632309A (zh) 图像展示方法、装置、电子设备和存储介质
CN113836293B (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN110889635A (zh) 一种用于对食品安全事件的处理进行应急演练的方法
CN118093794B (zh) 一种新型的图形数据转换和可视化方法及系统
CN117032947A (zh) 基于边缘计算框架的数据处理系统和方法
US20150317566A1 (en) Systems and methods for content generation and optimization using probability factors
US20150310658A1 (en) Systems and methods for rule-based animated content generation
CN117785956A (zh) 一种针对快递业务的数据处理方法、装置以及电子设备
Buesch A pixel-based approach for evaluating the visual scalability of the v-plot matrix
CN114022576A (zh) 图像压缩方法、装置、计算机设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant