CN110874491A - 基于机器学习的隐私数据处理方法、装置及电子设备 - Google Patents

基于机器学习的隐私数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110874491A
CN110874491A CN202010047788.7A CN202010047788A CN110874491A CN 110874491 A CN110874491 A CN 110874491A CN 202010047788 A CN202010047788 A CN 202010047788A CN 110874491 A CN110874491 A CN 110874491A
Authority
CN
China
Prior art keywords
feature
data
target original
vector
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010047788.7A
Other languages
English (en)
Other versions
CN110874491B (zh
Inventor
陈凌
杨耀
刘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010479759.8A priority Critical patent/CN111475851A/zh
Priority to CN202010047788.7A priority patent/CN110874491B/zh
Publication of CN110874491A publication Critical patent/CN110874491A/zh
Application granted granted Critical
Publication of CN110874491B publication Critical patent/CN110874491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Bioethics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种基于机器学习的隐私数据处理方法、装置和电子设备,其中,所述方法可以基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征,基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,将所述目标原始特征的特征嵌入向量提供给所述数据需求方。

Description

基于机器学习的隐私数据处理方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于机器学习的隐私数据处理方法、装置及电子设备。
背景技术
随着科学技术的发展,获取数据并利用数据建模以解决相应的问题,已是非常常见的技术手段。例如,各电商平台会收集用户的商品浏览记录等数据,并根据收集的数据构建商品推荐模型,以向用户推荐商品。
但是很多情况下,数据所有方和数据需求方并非同一方(如数据所有方为第三方支付平台,数据为第三方支付平台积累的用户信用数据,数据需求方为商业银行),随着人们隐私保护意识的增强以及保护隐私的相关政策法规的推行,数据所有方不愿意或没办法将自身拥有的数据提供给数据需求方。例如,第三方支付平台收集的用户信用数据过于敏感,不便于提供给商业银行。这使得数据需求方的数据使用需求得不到满足。
因此,亟需提出一种既能保护数据隐私,又能满足数据需求方的数据使用需求的数据处理方案。
发明内容
本说明书实施例提供了一种基于机器学习的隐私数据处理方法、装置及电子设备,以在保证隐私不被泄露的前提下,满足数据需求方的数据使用需求。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种基于机器学习的隐私数据处理方法,包括:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
第二方面,提出了一种基于机器学习的隐私数据处理方法,包括:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
第三方面,提出了一种基于机器学习的隐私数据处理装置,包括:
第一特征提取模块,用于基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
第一向量确定模块,用于基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
第一数据提供模块,用于将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
第四方面,提出了一种基于机器学习的隐私数据处理装置,包括:
第二特征提取模块,用于基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
第二向量确定模块,用于基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
第二数据提供模块,用于将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
第五方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
第六方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
第七方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
第八方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
由以上本说明书实施例提供的技术方案可见,本说明书实施例提供的方案至少具备如下一种技术效果:由于将数据所有方的隐私数据中的目标原始特征转化成特征嵌入向量后提供给数据需求方,而不是直接将隐私数据提供给数据需求方,并且特征嵌入向量能够保留目标原始特征的特征信息,因此可以在保证隐私不被泄露的前提下,满足数据需求方的数据使用需求。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本说明书实施例提供的一种基于机器学习的隐私数据处理方法的流程示意图之一。
图2是本说明书实施例提供的一种基于机器学习的隐私数据处理方法的流程示意图之二。
图3是本说明书实施例提供的另一种基于机器学习的隐私数据处理方法的流程示意图。
图4是本说明书实施例提供的一种电子设备的结构示意图。
图5是本说明书实施例提供的一种基于机器学习的隐私数据处理装置的结构示意图之一。
图6是本说明书实施例提供的一种基于机器学习的隐私数据处理装置的结构示意图之二。
图7是本说明书实施例提供的另一种基于机器学习的隐私数据处理装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了在保证隐私不被泄露的前提下,满足数据需求方的数据使用需求,本说明书实施例提供一种基于机器学习的隐私数据处理方法及装置。本说明书实施例提供的基于机器学习的隐私数据处理方法及装置可以由电子设备执行,例如数据所有方的终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述终端设备包括但不限于:智能手机、个人电脑(personal computer,PC)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种。
下面对本说明书提供的一种基于对抗样本的隐私保护方法进行说明。
图1是本说明书的一个实施例提供的基于机器学习的隐私数据处理方法的流程示意图,该方法可以包括如下步骤。
步骤102、基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征。
原始隐私数据是指包含不便于对外公开的隐私信息或敏感信息的数据。数据所有方是指原始隐私数据的产生方或保管方,具有直接操作(如查看、使用等)原始隐私数据的权限。数据需求方是指需要获取原始隐私数据或原始隐私数据中的特征以满足自身的一些需求的另一方,数据需求方常常不具有直接操作(如查看、使用等)原始隐私数据的权限。数据所有方和数据需求方往往不是同一方,它们可以是两个不同的公司,或者,它们可以是同一公司的两个不同的部门。
在一个例子中,原始隐私数据可以包括第三方支付平台的服务器中保存的用户的社会属性、信用属性和风险偏好等用户隐私数据,其中,社会属性包括性别、年龄、地域、职业、收入等,信用属性包括信用分、借贷额度、违约率等,风险偏好包括习惯于购买某一风险等级的理财产品等。在这个例子中,第三方支付平台即为数据所有方,数据需求方可以是一些金融机构,如银行、微贷平台等,这些数据需求方可能需要这些用户隐私数据,构建用于评估用户的风险评估参数的风控模型,并将评估结果作为是否向用户提供某一金融服务(如提供贷款)的判断依据。
在另一个例子中,原始隐私数据可以包括电商平台服务器中保存的用户的基础属性(如性别、年龄、地域等)、购物偏好、商品浏览记录、购买记录等用户隐私数据。在这个例子中,电商平台即为数据所有方,数据需求方可能是入驻电商平台的一些商户,这些商户可能需要这些用户隐私数据,构建商品营销/推荐模型,以向用户营销或推荐合适的商品。
在实际应用中,当原始隐私数据属于上述两个例子中的情况时,可以通过读取用户的日志记录,收集这些原始隐私数据。
原始特征可以看作是从原始隐私数据中提取出的未经转换的特征。在实际应用可以利用正则表达式及关键词提取等方式从原始隐私数据中提取目标原始特征。步骤102中提取出的目标原始特征的类型可以是一个以上,一种类型的目标原始特征的数量也可以是一个以上。以数据所有方为第三方支付平台为例,当数据需求方的需求为获取批量特征以进行机器学习建模时,步骤102中提取的目标原始特征可以包括一批用户中各用户的至少一种类型的特征,具体可以是一批用户中各用户的性别、年龄、婚姻状况、职业、收入、消费习惯、信贷偏好和理财偏好等类型的特征中的至少一种。
可以理解,步骤102中提取出的目标原始特征的类型和数量由实际情况确定,而不局限于上述例子所列举的这些情况。
可选的,目标原始特征可以是单一特征,也可以是至少两个单一特征合并以后形成的耦合特征。所谓单一特征是指无法再拆分的特征,例如,性别、年龄、婚姻状况等。耦合特征是对两个以上的特征按一定的规则进行合并得到的特征,例如,“年龄在20-30岁的男性”是对年龄和性别这两个单一特征进行合并得到的特征,“年龄在20-30岁的已婚男性”是对年龄、性别和婚姻状况这三个特征进行合并得到的特征。
在步骤102中,数据需求方的需求可以根据实际情况确定,本说明书实施例不加限制。
步骤104、基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同。
举例来说,当步骤102中提取的目标原始特征包括某一用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征时,训练数据可以包括一批用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征。
当目标原始特征以单词、词组和字符串等形式中的任一种呈现时,特征嵌入(embedding)模型可以是通过无监督训练得到的word2vec、node2vec、item2vec、feature2vec中的任一种。其中,word2vec可以包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和skim-gram中的任一种。
当然,不管目标原始特征以何种形式呈现,特征嵌入模型还可以是基于有监督训练得到深度学习模型,例如深度神经网络(Deep Neural Networks,DNN)。
需要说明的是,对于不同类型的目标原始特征,基于特征嵌入模型确定的特征嵌入向量的维度可以不同,例如,对于性别这一特征来说,可以基于特征嵌入模型嵌入一个10维的特征向量,而对消费偏好这一特征,可以基于特征嵌入模型嵌入一个100维的特征向量。
对于特征嵌入模型的具体训练过程可以参照下文对图2所示的实施例的描述,此处暂不赘述。
在具体实现时,步骤104可以包括如下两种实施方式。
第一种实施方式
对于同一个目标原始特征,针对数据需求方的不同业务场景,可以基于同一特征嵌入模型生成相同的特征嵌入向量。
第二种实施方式
对于同一个目标原始特征,针对数据需求方的不同业务场景,可以基于不同特征嵌入模型生成不同的特征嵌入向量。例如,对于下文所述的商品营销和风控场景,同一个用户的特征“年龄”的特征向量的维度和实际数值可以不同。
具体而言,在这一实施方式中,可以预先针对多种业务场景,基于与业务场景相关的标签和所述训练数据,训练得到多个特征嵌入模型,其中,一种业务场景对应训练出一个特征嵌入模型;然后,对于一个目标原始特征,可以基于这多个特征嵌入模型分别生成针对这多种业务场景的多个特征嵌入向量。
多种业务场景可以根据实际需要确定。以数据所有方为第三方支付平台为例,由于该平台上积累了用户的历史消费数据、借贷及还款情况、保险购买情况以及理财产品购买情况等原始隐私数据,因此可以面向商品营销、商品推荐、金融服务风控(如借贷风控)、保险风控等业务场景提供数据服务。
与业务场景相关的标签,可以看作是数据所有方的内部标签。例如,在金融服务风控场景下,训练数据中的特征可以是第三方支付平台积累的用户的历史消费数据和社会属性,与该业务场景相关的标签可以是用户在第三方支付平台上的借贷还款情况(如正常还款、未正常还款、违约率等),将训练数据和与业务场景相关的标签作为输入进行深度学习,得到特征嵌入模型(如DNN)。训练完成后,将目标原始特征输入DNN,将DNN的一些中间参数提取出来,可以形成目标原始特征的特征嵌入向量。
步骤106、将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
可以理解,目标原始特征的特征嵌入向量可以保留目标原始特征中的原始特征信息,但是数据需求方无法根据特征嵌入向量反推出目标原始特征的值,因此将目标原始特征的特征嵌入向量提供给数据需求方,既能保护用户隐私,又能满足数据需求方的需求。
在一种实施方式中,可以将目标原始特征的特征嵌入向量直接提供给数据需求方。在另一种实施方式中,可以对所述目标原始特征的特征嵌入向量进行加密,并将加密后的所述目标原始特征的特征嵌入向量提供给所述数据需求方,具体加密方式可以是对称加密、非对称加密等,本说明书实施例对具体加密方式不做限定。
在实际应用中,作为数据所有方的一种服务形态,数据所有方可以通过应用程序编程接口(Application Programming Interface,API)或者以数据表的形式,向数据需求方提供目标原始特征的特征嵌入向量。或者,在法律法规和用户的允许下,可以将目标原始特征的特征嵌入向量打包发送给数据需求方(如数据所有方的其他部门或外部公司),辅助数据需求方基于机器学习进行建模,数据需求方使用这些特征嵌入向量建模的具体业务场景、所用基础模型以及建模方式可以不受限制。
可选的,由于在步骤102中,基于数据需求方的需求,从数据所有方的原始隐私数据中提取的目标原始特征种类可能很多,进而在步骤104中确定出的特征嵌入向量种类也可能很多,而不同类型的特征嵌入向量的重要程度、影响力可能是不同的,因此,有必要对步骤104中确定出的特征嵌入向量分类后提供给数据需求方,以使数据需求方可以根据业务场景和实际建模任务的差异,选择不同类型的特征嵌入向量进行建模。
也就是说,在另一种实施方式中,步骤106可以包括:基于预设规则,对目标原始特征的特征嵌入向量进行分类;将所述目标原始特征的特征嵌入向量和该特征嵌入向量的类型,提供给所述数据需求方。例如,可以将特征嵌入向量分为多个层级类别,如一级类别为购物、贷款类,在贷款这一大类别之下,又可以分为贷款社会属性类、贷款行为类等。具体的层级情况可以按实际需要设定。
图1所示的实施例提供的一种基于机器学习的隐私数据处理方法,由于将数据所有方的隐私数据中的目标原始特征转化成特征嵌入向量后,提供给数据需求方,而不是直接将隐私数据或目标原始特征提供给数据需求方,并且特征嵌入向量能够保留目标原始特征的特征信息,因此可以在保证隐私不被泄露的前提下,满足数据需求方的数据使用需求。
可选的,如图2所示,在步骤102和/或步骤104之前,本说明书提供的一种基于机器学习的隐私数据处理方法,还可以包括:
步骤108、基于包含预设原始特征的训练数据,训练特征嵌入模型。
其中,预设原始特征与步骤102中提取的目标原始特征的类型相同。
在本说明书实施例中,可以存在两种训练方式,下面分别进行说明。
第一种,基于包含预设原始特征的训练数据进行无监督训练,得到所述特征嵌入模型。
举例来说,当步骤102中需要提取的目标原始特征包括某一用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征时,训练数据可以包括一批用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征。
当目标原始特征以单词、词组和字符串等形式中的任一种呈现时,特征嵌入(embedding)模型可以是通过无监督训练得到的word2vec、node2vec、item2vec、feature2vec中的任一种。其中,word2vec可以包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和skim-gram中的任一种。
当然,在无监督训练方式中,训练数据也可以是从用户在网络上浏览的文章或者发表的文章,这些训练数据中可以不包含预设原始特征。
第二种,针对多种业务场景,基于与业务场景相关的标签和所述训练数据,训练得到多个特征嵌入模型,一种业务场景对应训练出一个特征嵌入模型。
这样一来,对于同一个目标原始特征,针对数据需求方的不同业务场景,可以基于不同特征嵌入模型生成不同的特征嵌入向量。例如,对于下文所述的商品营销和风控场景,同一个用户的特征“年龄”的特征向量的维度和实际数值可以不同。
在此基础上,作为一个例子,步骤104可以包括:基于所述数据需求方的需求,确定所述数据需求方面对的目标业务场景,所述目标业务场景是所述多种业务场景中的一种;基于所述目标业务场景对应的特征嵌入模型,确定所述目标原始特征的特征嵌入向量。相应的,步骤106可以包括:将基于目标业务场景对应的特征嵌入模型确定的目标原始特征的特征嵌入向量,提供给数据需求方。
多种业务场景可以根据实际需要确定。以数据所有方为第三方支付平台为例,由于该平台上积累了用户的历史消费数据、借贷及还款情况、保险购买情况以及理财产品购买情况等原始隐私数据,因此可以面向商品营销、商品推荐、金融服务风控(如借贷风控)、保险风控等业务场景提供数据服务。
与业务场景相关的标签,可以看作是数据所有方的内部标签。例如,在金融服务风控场景下,训练数据中的特征可以是第三方支付平台积累的用户的历史消费数据和社会属性,与该业务场景相关的标签可以是用户在第三方支付平台上的借贷还款情况(如正常还款、未正常还款、违约率等),将训练数据和与业务场景相关的标签作为输入进行深度学习,得到特征嵌入模型(如DNN)。训练完成后,将目标原始特征输入DNN,将DNN的一些中间参数提取出来,可以形成目标原始特征的特征嵌入向量。
可以理解针对不同的业务场景,训练不同的特征嵌入模型,使得针对具体的业务场景,对目标原始特征作特征嵌入得到的特征嵌入向量更有针对性,能更好的满足数据需求方的建模需求。
基于图1所示的实施例提供的技术构思,本说明书还提供了一种针对风控场景的基于机器学习的隐私数据处理方法,下面结合图3进行说明。
图3所示的实施例针对的风控场景具体可以为:第三方支付平台为数据所有方,另一金融机构(如微贷平台、商业银行等)为数据需求方,且金融机构需要获取第三方支付平台所拥有的用户隐私数据中的用户社会属性、用户信用属性和用户风险偏好等目标原始特征中的至少一种,以构建用于确定用户的风险评估参数的风控模型,其中,风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据,指定金融服务例如可以是发放贷款等。
如图3所示,针对风控场景的基于机器学习的隐私数据处理方法,可以包括如下步骤。
步骤302、基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括但不限于用户的社会属性、信用属性和风险偏好中的至少一种。
第三方支付平台积累的批量用户隐私数据可以是一批用户的隐私数据,一个用户的隐私数据可以包括该用户的历史消费数据、该用户的社会属性、借贷记录、借贷额度、信用评价指标(如信用分)、借贷还款记录、理财产品购买记录、违约记录等数据中的一种或多种。
在提取的目标原始特征中,其中,社会属性包括性别、年龄、地域、职业、收入等,信用属性包括信用分、借贷额度、违约率等,风险偏好包括习惯于购买某一风险等级的理财产品等。
步骤304、基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同。
举例来说,当步骤102中提取的目标原始特征包括某一用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征时,训练数据可以包括一批用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征。
当目标原始特征以单词、词组和字符串等形式中的任一种呈现时,特征嵌入(embedding)模型可以是通过无监督训练得到的word2vec、node2vec、item2vec、feature2vec中的任一种。其中,word2vec可以包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和skim-gram中的任一种。
当然,不管目标原始特征以何种形式呈现,特征嵌入模型还可以是基于有监督训练得到深度学习模型,例如深度神经网络(Deep Neural Networks,DNN)。
对于特征嵌入模型的具体训练过程可以参照上文对图2所示的实施例的描述,此处不再赘述。
步骤306、将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
可以理解,目标原始特征的特征嵌入向量可以保留目标原始特征中的原始特征信息,但是金融机构无法根据特征嵌入向量反推出目标原始特征的值,因此将目标原始特征的特征嵌入向量提供给其他金融机构,既能保护用户隐私,又能满足其他金融机构的需求。
在一种实施方式中,可以将目标原始特征的特征嵌入向量直接提供给金融机构。在另一种实施方式中,可以对所述目标原始特征的特征嵌入向量进行加密,并将加密后的所述目标原始特征的特征嵌入向量提供给所述金融机构。
在实际应用中,作为第三方支付平台的一种服务形态,第三方支付平台可以通过应用程序编程接口(Application Programming Interface,API)或者以数据表的形式,向金融机构提供目标原始特征的特征嵌入向量。或者,在法律法规和用户的允许下,可以将目标原始特征的特征嵌入向量打包发送给金融机构,以辅助金融机构基于机器学习进行建模,金融机构使用这些特征嵌入向量建模时所用的基础模型以及建模方式可以不受限制。
图3所示的实施例提供的一种基于机器学习的隐私数据处理方法,由于将第三方支付平台积累的批量用户隐私数据中的目标原始特征转化成特征嵌入向量后,提供给其他金融机构,而不是直接将用户隐私数据或目标原始特征提供给其他金融机构,并且特征嵌入向量能够保留目标原始特征的特征信息,因此可以在保证隐私不被泄露的前提下,满足其他金融机构的数据使用需求。
以上是对本说明书提供的方法实施例的说明,下面对本说明书提供的电子设备进行介绍。
图4是本说明书的一个实施例提供的电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于机器学习的隐私数据处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
或者,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
上述如本说明书图1至图3任一附图所示实施例揭示的基于机器学习的隐私数据处理方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1至图3中任一实施例提供的基于机器学习的隐私数据处理方法,本说明书在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图7所示实施例的方法,并具体用于执行以下操作:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
下面对本说明书提供的基于机器学习的隐私数据处理装置进行说明。
如图5所示,本说明书的一个实施例提供了一种基于机器学习的隐私数据处理装置,在一种软件实施方式中,该基于机器学习的隐私数据处理装置500可包括:第一特征提取模块501、第一向量确定模块502和第一数据提供模块503。
第一特征提取模块501,用于基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征。
第一向量确定模块502,用于基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同。
第一数据提供模块503,用于将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
可以理解,目标原始特征的特征嵌入向量可以保留目标原始特征中的原始特征信息,但是数据需求方无法根据特征嵌入向量反推出目标原始特征的值,因此将目标原始特征的特征嵌入向量提供给数据需求方,既能保护用户隐私,又能满足数据需求方的需求。
可选的,如图6所示,本说明书提供的一种基于机器学习的隐私数据处理装置500,还可以包括:模型训练模块504。
模型训练模块504,用于基于包含预设原始特征的训练数据,训练特征嵌入模型。
其中,预设原始特征与第一特征提取模块501中提取的目标原始特征的类型相同。
在本说明书实施例中,可以存在两种训练方式,下面分别进行说明。
第一种,模型训练模块504可用于:基于包含预设原始特征的训练数据进行无监督训练,得到所述特征嵌入模型。
举例来说,当模型训练模块504中需要提取的目标原始特征包括某一用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征时,训练数据可以包括一批用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征。
当目标原始特征以单词、词组和字符串等形式中的任一种呈现时,特征嵌入(embedding)模型可以是通过无监督训练得到的word2vec、node2vec、item2vec、feature2vec中的任一种。其中,word2vec可以包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和skim-gram中的任一种。
当然,在无监督训练方式中,训练数据也可以是从用户在网络上浏览的文章或者发表的文章,这些训练数据中可以不包含预设原始特征。
第二种,模型训练模块504可用于:针对多种业务场景,基于与业务场景相关的标签和所述训练数据,训练得到多个特征嵌入模型,一种业务场景对应训练出一个特征嵌入模型。
这样一来,对于同一个目标原始特征,针对数据需求方的不同业务场景,可以基于不同特征嵌入模型生成不同的特征嵌入向量。例如,对于下文所述的商品营销和风控场景,同一个用户的特征“年龄”的特征向量的维度和实际数值可以不同。
在此基础上,作为一个例子,第一向量确定模块502可用于:基于所述数据需求方的需求,确定所述数据需求方面对的目标业务场景,所述目标业务场景是所述多种业务场景中的一种;基于所述目标业务场景对应的特征嵌入模型,确定所述目标原始特征的特征嵌入向量。相应的,第一数据提供模块503可用于:将基于目标业务场景对应的特征嵌入模型确定的目标原始特征的特征嵌入向量,提供给数据需求方。
多种业务场景可以根据实际需要确定。以数据所有方为第三方支付平台为例,由于该平台上积累了用户的历史消费数据、借贷及还款情况、保险购买情况以及理财产品购买情况等原始隐私数据,因此可以面向商品营销、商品推荐、金融服务风控(如借贷风控)、保险风控等业务场景提供数据服务。
与业务场景相关的标签,可以看作是数据所有方的内部标签。例如,在金融服务风控场景下,训练数据中的特征可以是第三方支付平台积累的用户的历史消费数据和社会属性,与该业务场景相关的标签可以是用户在第三方支付平台上的借贷还款情况(如正常还款、未正常还款、违约率等),将训练数据和与业务场景相关的标签作为输入进行深度学习,得到特征嵌入模型(如DNN)。训练完成后,将目标原始特征输入DNN,将DNN的一些中间参数提取出来,可以形成目标原始特征的特征嵌入向量。
可以理解针对不同的业务场景,训练不同的特征嵌入模型,使得针对具体的业务场景,对目标原始特征作特征嵌入得到的特征嵌入向量更有针对性,能更好的满足数据需求方的建模需求。
本说明书还提供了一种针对风控场景的基于机器学习的隐私数据处理方法,下面结合图7进行说明。
图7所示的实施例针对的风控场景具体可以为:第三方支付平台为数据所有方,另一金融机构(如微贷平台、商业银行等)为数据需求方,且金融机构需要获取第三方支付平台所拥有的用户隐私数据中的用户社会属性、用户信用属性和用户风险偏好等目标原始特征中的至少一种,以构建用于确定用户的风险评估参数的风控模型,其中,风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据,指定金融服务例如可以是发放贷款等。
需要说明的是,基于机器学习的隐私数据处理装置500能够实现图1的方法实施例的方法,具体可参考图1所示实施例的基于机器学习的隐私数据处理方法,不再赘述。
如图7所示,针对风控场景的基于机器学习的隐私数据处理装置,在一种软件实施方式中,该基于机器学习的隐私数据处理装置700可包括:第二特征提取模块701、第二向量确定模块702和第二数据提供模块703。
第二特征提取模块701,用于基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种。
第三方支付平台积累的批量用户隐私数据可以是一批用户的隐私数据,一个用户的隐私数据可以包括该用户的历史消费数据、该用户的社会属性、借贷记录、借贷额度、信用评价指标(如信用分)、借贷还款记录、理财产品购买记录、违约记录等数据中的一种或多种。
在提取的目标原始特征中,其中,社会属性包括性别、年龄、地域、职业、收入等,信用属性包括信用分、借贷额度、违约率等,风险偏好包括习惯于购买某一风险等级的理财产品等。
第二向量确定模块702,用于基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同。
举例来说,当步骤102中提取的目标原始特征包括某一用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征时,训练数据可以包括一批用户的性别、职业、收入、消费习惯、信贷偏好和理财偏好等各类型特征。
当目标原始特征以单词、词组和字符串等形式中的任一种呈现时,特征嵌入(embedding)模型可以是通过无监督训练得到的word2vec、node2vec、item2vec、feature2vec中的任一种。其中,word2vec可以包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和skim-gram中的任一种。
当然,不管目标原始特征以何种形式呈现,特征嵌入模型还可以是基于有监督训练得到深度学习模型,例如深度神经网络(Deep Neural Networks,DNN)。
对于特征嵌入模型的具体训练过程可以参照上文对图2所示的实施例的描述,此处不再赘述。
第二数据提供模块703,用于将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
可以理解,目标原始特征的特征嵌入向量可以保留目标原始特征中的原始特征信息,但是金融机构无法根据特征嵌入向量反推出目标原始特征的值,因此将目标原始特征的特征嵌入向量提供给其他金融机构,既能保护用户隐私,又能满足其他金融机构的需求。
需要说明的是,基于机器学习的隐私数据处理装置700能够实现图3的方法实施例的方法,具体可参考图3所示实施例的基于机器学习的隐私数据处理方法,不再赘述。
上述对本说明书特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (15)

1.一种基于机器学习的隐私数据处理方法,包括:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
2.根据权利要求1所述的方法,在所述基于特征嵌入模型确定所述目标原始特征的特征嵌入向量之前,还包括:
针对多种业务场景,基于与业务场景相关的标签和所述训练数据,训练得到多个特征嵌入模型,其中,一种业务场景对应训练出一个特征嵌入模型;
其中,所述基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,包括:
基于所述数据需求方的需求,确定所述数据需求方面对的目标业务场景,所述目标业务场景是所述多种业务场景中的一种;
基于所述目标业务场景对应的特征嵌入模型,确定所述目标原始特征的特征嵌入向量。
3.根据权利要求2所述的方法,其中,所述针对多种业务场景,基于与业务场景相关的标签和所述训练数据,训练得到多个特征嵌入模型,包括:
针对多种业务场景,基于与业务场景相关的标签和所述训练数据,进行深度学习得到多个特征嵌入模型。
4.根据权利要求1所述的方法,其中,在所述基于特征嵌入模型确定所述目标原始特征的特征嵌入向量之前,还包括:
基于所述训练数据进行无监督训练,得到所述特征嵌入模型。
5.根据权利要求4所述的方法,
所述特征嵌入模型包括word2vec、node2vec、item2vec、feature2vec中的任一种。
6.根据权利要求1-5任一项所述的方法,其中,所述将所述目标原始特征的特征嵌入向量提供给所述数据需求方,包括:
基于预设规则,对所述目标原始特征的特征嵌入向量进行分类;
将所述目标原始特征的特征嵌入向量和该特征嵌入向量的类型,提供给所述数据需求方。
7.根据权利要求1-5任一项所述的方法,其中,所述将所述目标原始特征的特征嵌入向量提供给所述数据需求方,包括:
对所述目标原始特征的特征嵌入向量进行加密;
将加密后的所述目标原始特征的特征嵌入向量提供给所述数据需求方。
8.根据权利要求1-5任一项所述的方法,
所述目标原始特征为单一特征,或者,所述目标原始特征为至少两个单一特征合并形成的耦合特征。
9.一种基于机器学习的隐私数据处理方法,包括:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
10.一种基于机器学习的隐私数据处理装置,包括:
第一特征提取模块,用于基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
第一向量确定模块,用于基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
第一数据提供模块,用于将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
11.一种基于机器学习的隐私数据处理装置,包括:
第二特征提取模块,用于基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
第二向量确定模块,用于基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
第二数据提供模块,用于将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
12.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
13.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于数据需求方的需求,从数据所有方的原始隐私数据中提取目标原始特征;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述目标原始特征的特征嵌入向量提供给所述数据需求方。
14.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
15.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
基于金融机构的需求,从第三方支付平台积累的批量用户隐私数据中提取目标原始特征,其中,所述目标原始特征包括用户的社会属性、信用属性和风险偏好中的至少一种;
基于特征嵌入模型确定所述目标原始特征的特征嵌入向量,其中,所述特征嵌入模型是基于包含预设原始特征的训练数据训练得到的,所述预设原始特征与所述目标原始特征的类型相同;
将所述特征嵌入向量提供给所述金融机构,以使所述金融机构基于所述特征向量构建风控模型,所述风控模型用于确定用户的风险评估参数,所述风险评估参数是所述金融机构判断是否向用户提供指定金融服务的依据。
CN202010047788.7A 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备 Active CN110874491B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010479759.8A CN111475851A (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备
CN202010047788.7A CN110874491B (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010047788.7A CN110874491B (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010479759.8A Division CN111475851A (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110874491A true CN110874491A (zh) 2020-03-10
CN110874491B CN110874491B (zh) 2020-05-08

Family

ID=69717610

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010047788.7A Active CN110874491B (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备
CN202010479759.8A Pending CN111475851A (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010479759.8A Pending CN111475851A (zh) 2020-01-16 2020-01-16 基于机器学习的隐私数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (2) CN110874491B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310234A (zh) * 2020-05-09 2020-06-19 支付宝(杭州)信息技术有限公司 基于零知识证明的个人数据处理方法、装置及电子设备
CN111429270A (zh) * 2020-04-22 2020-07-17 广州东百信息科技有限公司 境外信用卡风控模型获取方法、装置、设备以及存储介质
CN111552985A (zh) * 2020-05-14 2020-08-18 支付宝(杭州)信息技术有限公司 一种信息核验方法和装置
CN111581663A (zh) * 2020-04-30 2020-08-25 电子科技大学 面向非规则用户的保护隐私的联邦深度学习方法
CN112035881A (zh) * 2020-11-03 2020-12-04 支付宝(杭州)信息技术有限公司 一种基于隐私保护的应用程序识别方法、装置及设备
CN112818390A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据信息发布方法、装置及设备
WO2023231939A1 (zh) * 2022-06-01 2023-12-07 维沃移动通信有限公司 业务处理方法、装置、网络设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181121A1 (en) * 2012-12-21 2014-06-26 Microsoft Corporation Feature embedding in matrix factorization
US9141885B2 (en) * 2013-07-29 2015-09-22 Adobe Systems Incorporated Visual pattern recognition in an image
CN110598070A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 应用类型识别方法及装置、服务器及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834872B (zh) * 2010-05-19 2013-06-12 天津大学 基于度优先的K-Anonymity匿名算法的数据处理方法
CN105574438B (zh) * 2016-01-07 2018-10-30 中国联合网络通信集团有限公司 用户隐私保护方法及系统
CN108596434B (zh) * 2018-03-23 2019-08-02 卫盈联信息技术(深圳)有限公司 欺诈检测和风险评估方法、系统、设备及存储介质
CN108804704A (zh) * 2018-06-19 2018-11-13 北京顶象技术有限公司 一种用户深度画像方法及装置
CN110457694B (zh) * 2019-07-29 2023-09-22 腾讯科技(上海)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181121A1 (en) * 2012-12-21 2014-06-26 Microsoft Corporation Feature embedding in matrix factorization
US9141885B2 (en) * 2013-07-29 2015-09-22 Adobe Systems Incorporated Visual pattern recognition in an image
CN110598070A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 应用类型识别方法及装置、服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵震宇: "基于深度学习和海云协同的推荐方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429270A (zh) * 2020-04-22 2020-07-17 广州东百信息科技有限公司 境外信用卡风控模型获取方法、装置、设备以及存储介质
CN111581663A (zh) * 2020-04-30 2020-08-25 电子科技大学 面向非规则用户的保护隐私的联邦深度学习方法
CN111581663B (zh) * 2020-04-30 2022-05-03 电子科技大学 面向非规则用户的保护隐私的联邦深度学习方法
CN111310234A (zh) * 2020-05-09 2020-06-19 支付宝(杭州)信息技术有限公司 基于零知识证明的个人数据处理方法、装置及电子设备
CN111310234B (zh) * 2020-05-09 2020-11-03 支付宝(杭州)信息技术有限公司 基于零知识证明的个人数据处理方法、装置及电子设备
CN111552985A (zh) * 2020-05-14 2020-08-18 支付宝(杭州)信息技术有限公司 一种信息核验方法和装置
CN112035881A (zh) * 2020-11-03 2020-12-04 支付宝(杭州)信息技术有限公司 一种基于隐私保护的应用程序识别方法、装置及设备
CN112035881B (zh) * 2020-11-03 2021-02-09 支付宝(杭州)信息技术有限公司 一种基于隐私保护的应用程序识别方法、装置及设备
CN112818390A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据信息发布方法、装置及设备
WO2023231939A1 (zh) * 2022-06-01 2023-12-07 维沃移动通信有限公司 业务处理方法、装置、网络设备及存储介质

Also Published As

Publication number Publication date
CN110874491B (zh) 2020-05-08
CN111475851A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN110874491B (zh) 基于机器学习的隐私数据处理方法、装置及电子设备
CN109064175B (zh) 一种账户盗用风险防控方法及装置
CN111008709A (zh) 联邦学习、资料风险评估方法、装置和系统
CN108550046B (zh) 一种资源和营销推荐方法、装置及电子设备
CN110009474B (zh) 一种信用风险评估方法、装置和电子设备
JP7159923B2 (ja) データベース公開に起因したプライバシー侵害の検出及び防止
CN108492112B (zh) 判定虚假资源转移及虚假交易的方法、装置及电子设备
CN107679916A (zh) 用于获取用户兴趣度的方法及装置
CN111582872A (zh) 异常账号检测模型训练、异常账号检测方法、装置及设备
Zhao et al. Anatomy of a web-scale resale market: a data mining approach
Callanan et al. Targeting vulnerable populations: The ethical implications of data mining, automated prediction, and focused marketing
CN109903166B (zh) 一种数据风险预测方法、装置及设备
Kim et al. Consumer preference structure of online privacy concerns in an IoT environment
Crișan et al. Big data: the beauty or the beast
CN111275071B (zh) 预测模型训练、预测方法、装置及电子设备
Zhang et al. The approaches to contextual transaction trust computation in e‐Commerce environments
CN116977088A (zh) 基于信用的交易处理方法及装置
CN113297462A (zh) 数据处理方法、装置、设备和存储介质
CN113159834B (zh) 一种商品信息排序方法、装置以及设备
CN113283978B (zh) 基于生物基础与行为特征及业务特征的金融风险评估方法
Lukings et al. Data sovereignty
Aımeur et al. How data brokers endanger privacy
Joy et al. Ethical Issues of Data Tracking and Analytics
Zalessky et al. The Impact of Payment Context on the Use of Mobile Payment Systems.
Williams Problem Solved?: Is the Fintech Era Uprooting Decades Long Discriminatory Lending Practices?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Yang Yao

Inventor after: Chen Ling

Inventor after: Liu Lei

Inventor before: Chen Ling

Inventor before: Yang Yao

Inventor before: Liu Lei

CB03 Change of inventor or designer information