CN111797126B - 数据的处理方法、装置及设备 - Google Patents

数据的处理方法、装置及设备 Download PDF

Info

Publication number
CN111797126B
CN111797126B CN201910276456.3A CN201910276456A CN111797126B CN 111797126 B CN111797126 B CN 111797126B CN 201910276456 A CN201910276456 A CN 201910276456A CN 111797126 B CN111797126 B CN 111797126B
Authority
CN
China
Prior art keywords
data
processing
party
behavior
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910276456.3A
Other languages
English (en)
Other versions
CN111797126A (zh
Inventor
黄智聪
洪澄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910276456.3A priority Critical patent/CN111797126B/zh
Publication of CN111797126A publication Critical patent/CN111797126A/zh
Application granted granted Critical
Publication of CN111797126B publication Critical patent/CN111797126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明实施例提供了一种数据的处理方法、装置及设备,方法包括:获取待处理数据,待处理数据包括目标训练标签,第一数据方和第二数据方均包括目标训练标签,第一数据方和第二数据方之间包括共同目标信息;根据共同目标信息针对第一数据方和第二数据方获取与共同目标信息相对应的行为特征数据;基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得分别与第一数据方的行为特征数据和第二数据方的行为特征数据相对应的第一处理结果和第二处理结果;利用安全计算方法对第一处理结果和第二处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法;利用模型预测算法对待处理数据进行处理,获得处理结果。

Description

数据的处理方法、装置及设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据的处理方法、装置及设备。
背景技术
随着科学技术的飞速发展,信息的数字化技术已经逐步向人类生活中的各个领域全面推进,尤其是在电商领域、互联网金融领域、物流领域、云计算领域等领域中,信息的数字化技术应用的更加广泛。
以电商领域为例,现有技术中,电商平台和商家各自拥有不同维度的用户数据,在对用户数据进行分析处理时,电商平台和商家希望利用双方拥有的用户数据进行机器学习模型训练,从而可以获得更精准的数据处理模型,这样便于提高对用户数据进行分析处理的准确性。然而,对于电商平台和商家而言,为了保证数据使用的安全可靠性,电商平台和商家并不想向对方泄露各自独有的数据。
发明内容
本发明实施例提供一种数据的处理方法、装置及设备,可以在不透漏各自独有的数据的同时,通过数据提供方共有的用户数据建立数据处理模型,从而可以提高数据处理模型对用户数据进行分析处理的准确性。
第一方面,本发明实施例提供一种数据的处理方法,包括:
获取待处理数据,所述待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括所述目标训练标签,并且,所述第一数据方和第二数据方之间包括共同目标信息;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;
利用所述模型预测算法对所述待处理数据进行处理,获得与所述待处理数据相对应的处理结果。
第二方面,本发明实施例提供一种数据的处理装置,包括:
第一获取模块,用于获取待处理数据,所述待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括所述目标训练标签,并且,所述第一数据方和第二数据方之间包括共同目标信息;
所述第一获取模块,还用于根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
第一处理模块,用于基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
第一训练模块,用于利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;
所述第一处理模块,还用于利用所述模型预测算法对所述待处理数据进行处理,获得与所述待处理数据相对应的处理结果。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的一种数据的处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的一种数据的处理方法。
在获取到待处理数据之后,先获取第一数据方和第二数据方所包括的共同目标信息,而后根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;基于所述目标训练标签对所述行为特征数据分别进行学习训练,获得与所述行为特征数据相对应的第一处理结果和第二处理结果;最后利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;通过对共同目标信息以及所对应的行为特征数据进行两次学习训练,实现了可以在不透漏各自独有的数据的同时,有效地建立与目标训练标签相对应的模型预测算法,在利用模型预测算法对用户数据进行处理时,可以提高对用户数据进行分析处理的准确性,进一步提高了该方法的实用性,有利于市场的推广与应用。
第五方面,本发明实施例提供一种数据的处理方法,包括:
获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与所述待处理信息相对应的第一行为数据以及针对第二数据方且与所述待处理信息相对应的第二行为数据;
利用至少一个模型处理算法对所述第一行为数据进行降低数据维度处理,获得第一处理结果;
利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果;
将所述第一处理结果与所述第二处理结果进行合并,获得合并结果;
利用预设的模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
第六方面,本发明实施例提供一种数据的处理装置,包括:
第二获取模块,用于获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与所述待处理信息相对应的第一行为数据以及针对第二数据方且与所述待处理信息相对应的第二行为数据;
第一预测模块,用于利用至少一个模型处理算法对所述第一行为数据进行降低数据维度处理,获得第一处理结果;
所述第一预测模块,还用于利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果;
第二处理模块,用于将所述第一处理结果与所述第二处理结果进行合并,获得合并结果;
第二预测模块,用于利用预设的模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
第七方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的一种数据的处理方法。
第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面中的一种数据的处理方法。
在获得待处理请求之后,可以通过待处理请求获取相对应的待处理数据,而后采用预设数量的模型处理算法对待处理数据进行第一轮处理,获得第一处理结果和第二处理结果,再利用预设的模型预测算法对第一处理结果和第二处理结果进行预测处理,从而可以获得与待处理请求相对应的预测结果;有效地实现了对模型预测算法的应用,不仅保证了数据处理的质量和效率,还可以满足用户的使用需求,进而提高了该方法的实用性,有利于市场的推广与应用。
第九方面,本发明实施例提供一种数据的处理方法,包括:
获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
第十方面,本发明实施例提供一种数据的处理装置,包括:
第三获取模块,用于获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
所述第三获取模块,还用于根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
第三处理模块,用于基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
第二训练模块,用于利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
第十一方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第九方面中的一种数据的处理方法。
第十二方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第九方面中的一种数据的处理方法。
通过获取第一数据方和第二数据方之间的共同目标信息,而后根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;基于所述目标训练标签对所述行为特征数据分别进行学习训练,获得与所述行为特征数据相对应的第一处理结果和第二处理结果;最后利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;通过对共同目标信息以及所对应的行为特征数据进行两次学习训练,实现了可以在不透漏各自独有的数据的同时,有效地建立与目标训练标签相对应的模型预测算法,在利用模型预测算法对用户数据进行处理时,可以提高对用户数据进行分析处理的准确性,进一步提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的一种应用数据的处理方法的系统结构示意图;
图1为本发明实施例提供的一种数据的处理方法的流程图;
图2为本发明实施例提供的获取第一数据方和第二数据方之间的共同目标信息的流程图;
图3为本发明实施例提供的根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据的流程图;
图4为本发明实施例提供的基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果的流程图;
图5为本发明实施例提供的基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第二数据方的行为特征数据相对应的第二处理结果的流程图;
图6为本发明实施例提供的利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法的流程图;
图7为本发明实施例提供的利用所述模型预测算法对所述待处理数据进行处理的流程图;
图8为本发明实施例提供的利用所述模型预测算法对所述目标信息和所述待处理行为数据进行预测处理的流程图;
图9为本发明实施例提供的又一种数据的处理方法的流程图;
图10为本发明应用实施例提供的一种数据的处理方法的示意图;
图11为本发明实施例提供的一种数据的处理装置的结构示意图;
图12为与图11所示实施例提供的数据的处理装置对应的电子设备的结构示意图;
图13为本发明实施例提供的另一种数据的处理装置的结构示意图;
图14为与图13所示实施例提供的数据的处理装置对应的电子设备的结构示意图;
图15为本发明实施例提供的又一种数据的处理装置的结构示意图;
图16为与图15所示实施例提供的数据的处理装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
术语定义:
同态加密算法(Homomorphic Encryption)是一种特殊的加密算法,在利用该同态加密算法对一数据进行加密后,可以得到加密的输出结果;而在对这一输出结果进行解密时,所获取的解密后结果与用同一方法处理未加密的原始数据得到的输出结果是相同的。举例来说:对加密的2和加密的3进行同态加法处理,可以得到加密的5;对加密的2和加密的3进行同态乘法处理,可以得到加密的6;进一步的,在加密的数据之上进行机器学习算法计算,可以得到加密的计算结果。
安全多方计算算法(Secure Multi-Party Computation,简称SMC)用于解决一组互不信任的参与方之间保护隐私的协同计算问题,SMC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,安全多方计算在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。
为了便于理解本申请的技术方案,以电商领域为例,对现有技术进行简要说明:在电商领域的业务场景中,电商平台和商家各自拥有不同维度的用户数据,在对用户数据进行分析处理时,电商平台和商家希望利用双方拥有的用户数据进行机器学习模型训练,从而可以获得更精准的数据处理模型,这样便于提高对用户数据进行分析处理的准确性。然而,对于电商平台和商家而言,为了保证数据使用的安全可靠性,电商平台和商家并不想向对方泄露各自独有的数据。举例来说:电商平台上可以拥有用户线上购买多种品类产品的消费记录,商家可以拥有用户线上、线下购买本商家拥有品类产品的消费记录,双方希望进行数据互补,更好的对用户进行相关产品或者相关信息的推荐。
为了解决现有技术中存在的上述问题,现有技术中提出了一种直接基于双方已有的数据进行安全计算方法,比如:基于同态加密或安全多方计算方式对双方数据进行处理的方案。但是,如果待处理的数据属性过多(例如:电商品类经常多达成千上万个),其计算效率较低,所实施的计算代价将无法满足用户的使用需求,举例来说,当待处理的数据包括1000万行数据,此时的数据属性包括1000个属性,那么,在利用同态加密算法或者安全多方计算方式对上述待处理的数据直接进行训练时,则将需要400个小时以上。
为了解决上述技术问题,参考附图1a所示,本实施例提供了一种可以实现数据处理方法的数据处理系统,该数据处理系统包括用户终端01和与用户终端01通信连接的处理装置02,其中,该用户终端01可以是手机、平板电脑、个人电脑等各种电子设备,而处理装置02可以实现为软件、或者软件和硬件的组合。另外,用户终端01和处理装置02可以为建立在局域网上的客户端/服务器CS架构;或者,用户终端01和处理装置02也可以为建立在广域网上的浏览器/服务器BS架构,本领域技术人员可以根据具体的应用场景来选择不同的实现方式。具体的:
用户终端01,用于检测用户输入的执行操作,并基于执行操作生成待处理请求,该待处理请求中可以包括:待处理信息、针对第一数据方03、且与待处理信息相对应的第一行为数据以及针对第二数据方04、且与待处理信息相对应的第二行为数据;其中,第一数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台、数据处理平台;相对应的,第二数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台、数据处理平台。而行为特征数据可以包括:交易行为、浏览/查看网页行为等等。在用户终端01获取到用户输入的待处理请求之后,可以将待处理请求发送至处理装置02。
其中,用户终端01上可以设置有与处理装置02相对应的应用程序或者应用网址,用户通过应用程序或者应用网址可以实现将所输入的待处理请求发送至处理装置02;举例来说,在用户想要进行数据的预测处理时,可以通过应用程序中的数据输入端口输入待处理请求,在用户终端01获取上述的待处理请求之后,可以将待处理请求发送至处理装置02进行处理。
处理装置02,与用户终端01、第一数据方03和第二数据方04通信连接,用于接收用户终端01发送的待处理请求,在接收到待处理请求之后,可以通过第一数据方03和第二数据方04获取与待处理请求相对应的待处理数据(包括第一行为数据和第二行为数据),而后,利用至少一个模型处理算法对所述第一行为数据进行预测,用于降低待处理的第一行为数据的数据维度,可以获得第一预测结果,利用至少一个模型处理算法对所述第二行为数据进行预测,用于降低待处理的第二行为数据的数据维度,可以获得第二预测结果;在获取到第一预测结果和第二预测结果之后,可以将第一预测结果和第二预测结果进行合并处理,获得合并预测结果,而后,可以利用预设的模型预测算法对合并预测结果进行预测处理,从而可以获得预测结果。
本实施例中,在获得待处理请求之后,可以通过待处理请求获取相对应的待处理数据,而后采用预设数量的模型处理算法对待处理数据进行第一轮处理,获得第一预测结果和第二预测结果,再利用预设的模型预测算法对第一预测结果和第二预测结果进行预测处理,从而可以获得与待处理请求相对应的预测结果;有效地实现了对模型预测算法的应用,不仅保证了数据处理的质量和效率,还可以满足用户的使用需求,进而提高了该方法的实用性,有利于市场的推广与应用。
为了便于了解本实施例中的技术方案,下面对模型预测算法的学习训练过程进行说明,参考附图1所示,本实施例提供了一种数据的处理方法,该处理方法的执行主体为数据的处理装置,该处理装置可以集成在第一数据方和/或第二数据方所对应的装置上,该处理装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S101:获取待处理数据,待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括目标训练标签,并且,第一数据方和第二数据方之间包括共同目标信息。
其中,第一数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台、数据处理平台;相对应的,第二数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台、数据处理平台。
可以理解的是,当第一数据方和第二数据方代表不同的应用平台时,可以应用在不同的业务场景下。举例来说,当第一数据方为电商平台,第二数据方为商户平台时,该方法可以应用于电商业务领域,此时,通过该方法可以获得用于预测用户购买行为的模型预测算法。在第一数据方为物流平台,第二数据方为用户平台时,该方法可以应用于物流业务领域,此时,通过该方法可以对物流的流向、流量或者资金周转等方面进行预测的模型预测算法。在第一数据方为金融平台,第二数据方为用户平台时,该方法可以应用于金融业务领域,此时,通过该方法可以获得用于对用户的信用等方面进行预测的模型预测算法。在第一数据方为业务平台,第二数据方为用户平台时,该方法可以应用于其他业务领域,此时,通过该方法可以获得用于对用户感兴趣的业务、数据等方面进行预测的模型预测算法。
另外,共同目标信息为第一数据方和第二数据方共有的目标信息,该目标信息可以是指用户的身份标识信息和用户的名称信息等等,例如,目标信息可以包括与用户相对应的用户身份标识信息;举例来说,第一数据方所拥有的目标信息包括:用户ID1、用户ID2、用户ID3和用户ID4,第二数据方所拥有的目标信息包括:用户ID3、用户ID4和用户ID5,那么共同目标信息可以包括第一数据方和第二数据方所共同拥有的目标信息,即共同目标信息包括:用户ID3和用户ID4。当然的,共同目标信息也可以是指第一数据方和第二数据方所共同拥有的其他数据信息,例如:产品信息、服务信息、地域信息等等,在此不再赘述。
此外,本实施例对于获取第一数据方和第二数据方之间的共同目标信息的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:基于哈希算法获取第一数据方和第二数据方之间的共同目标信息;较为优选的,参考附图2所示,本实施例中的方法还可以包括:
S1011:控制第一数据方和第二数据方通过私有集交集技术进行通信连接。
S1012:通过私有集交集技术获取第一数据方与第二数据方之间的共同目标信息。
其中,私有集交集技术是一种可以获取第一数据方和第二数据方的用户数据交集的协议,该技术可以不泄露任何一方除了用户数据交集以外的信息;具体的,第一数据方和第二数据方通过私有集交集技术协议进行数据通信,从而可以基于该私有集交集技术来获得第一数据方和第二数据方之间的共同目标信息,这样不仅保证了共同目标信息获取的准确可靠性,而且也保证了数据使用的安全可靠性。
需要说明的是,对于第一数据方和第二数据方而言,双方需要均包括目标训练标签,该目标训练标签可以包括以下至少之一:与目标用户相对应的目标用户的身份标识信息、与目标业务相对应的业务标识信息。基于该目标训练标签,可以基于共同目标信息进行训练学习,从而可以获得与目标训练标签相对应的模型预测算法。可以理解的是,在所应用的业务场景不同时,目标训练标签不同,例如:在该方法应用在电商业务领域时,目标训练标签可以包括:使用电商平台和商户平台的用户信息和电商平台和商户平台所包括的商品信息等等;在该方法应用在物流业务领域时,目标训练标签可以为使用物流平台和用户平台的用户信息或者区域信息;在该方法应用在金融业务领域时,目标训练标签可以为使用金融平台和用户平台的用户信息等等。
S102:根据共同目标信息,分别针对第一数据方和第二数据方获取与共同目标信息相对应的行为特征数据。
在获取到共同目标信息之后,可以针对第一数据方、获取与共同目标信息相对应的行为特征数据,该行为特征数据可以包括:交易行为、浏览/查看网页行为等等;相类似的,在获取到共同目标信息之后,可以针对第二数据方、获取与共同目标信息相对应的行为特征数据,该行为特征数据可以包括:交易行为、浏览/查看网页行为等等。具体的,参考附图3所示,本实施例中的根据共同目标信息,分别针对第一数据方和第二数据方获取与共同目标信息相对应的行为特征数据可以包括:
S1021:针对第一数据方,根据共同目标信息获取与共同目标信息相对应的第一行为集合,第一行为集合中包括与每个共同目标信息相对应的行为特征数据。
S1022:针对第二数据方,根据共同目标信息获取与共同目标信息相对应的第二行为集合,第二行为集合中包括与每个共同目标信息相对应的行为特征数据。
其中,共同目标信息中的每个目标信息均对应有各自的行为特征数据,该行为特征数据可以存储在预设的存储区域内,具体的,该行为特征数据可以包括:用户的交易行为、用户查看浏览行为等等;在获取到共同目标信息之后,可以根据共同目标信息来获取每个目标信息中位于第一数据方的第一行为特征数据,所有的第一行为特征数据即构成了与共同目标信息相对应的第一行为集合;同理的,也可以获取到与共同目标信息相对应的位于第二数据方的第二行为集合。
需要注意的是,本实施例中步骤S1021和步骤S1022之间并没有限于上述序号所标识的执行顺序,其中,步骤S1021也可以与步骤S1022同时执行,或者,步骤S1021也可以在步骤S1022之后执行。
S103:基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得与第一数据方的行为特征数据相对应的第一处理结果以及与第二数据方的行为特征数据相对应的第二处理结果。
在获取到行为特征数据之后,可以基于目标训练标签对行为特征数据分别进行处理,从而可以获取到与行为特征数据相对应的处理结果。而本实施例对于基于目标训练标签对行为特征数据(第一数据方的行为特征数据和第二数据方的行为特征数据)分别进行处理的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景进行不同的设置,只要能够准确地第一处理结果以及第二处理结果即可,在此不再赘述。
举例来说:当行为特征数据包括第一行为集合和第二行为集合时,可以基于目标训练标签、采用预设的第一机器学习算法和第二机器学习算法分别对第一行为集合和第二行为集合分别进行预测处理,从而可以获取到与第一行为集合相对应的第一处理结果和与第二行为集合相对应的第二处理结果。或者,当行为特征数据包括第一行为集合和第二行为集合时,可以基于目标训练标签,采用至少两个机器学习算法分别对第一行为集合和第二行为集合进行预测处理,从而可以获取与第一行为集合相对应的第一处理结果和与第二行为集合相对应的第二处理结果。
较为优选的,参考附图4可知,本实施例中的基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得与第一数据方的行为特征数据相对应的第一处理结果可以包括:
S1031:基于目标训练标签、并利用预设的第一数量的机器学习算法对第一行为集合进行本地学习训练,获得与第一数量的机器学习算法相对应的第一数量的模型处理算法。
S1032:利用第一数量的模型处理算法对第一行为集合进行预测处理,获得与第一行为集合相对应的第一处理结果。
其中,本实施例中的机器学习算法包括以下至少之一:随机森林算法、支持向量机算法、梯度提升决策树GBDT算法、邻近算法KNN。具体的,在获取到第一行为集合之后,可以采用第一数量的机器学习算法基于目标训练标签对第一行为集合进行本地的学习训练,从而可以获得与第一数量的机器学习算法相对应的第一数量的模型处理算法,该模型处理算法为对机器学习算法进行学习训练之后所获得的优化模型方法;而后,可以利用所获得的模型处理算法对第一行为集合进行预测处理,从而可以获得与第一行为集合相对应的第一处理结果。
需要注意的是,本实施例对于第一数量的具体数值范围不做限定,例如,第一数量可以为1、2或者4、5等等,可以理解的是,在第一数量的数值越大时,在获取模型处理算法是的复杂度更高,计算的时间更长,而所获取的模型处理算法的处理准确率更高,因此,本领域技术人员可以根据具体的设计需求和应用需求对第一数量进行设置,在此不再赘述。
较为优选的,参考附图5可知,本实施例中的基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得与第二数据方的行为特征数据相对应的第二处理结果可以包括:
S1033:基于目标训练标签、并利用预设的第二数量的机器学习算法对第二行为集合进行本地学习训练,获得与第二数量的机器学习算法相对应的第二数量的模型处理算法。
S1034:利用第二数量的模型处理算法对第二行为集合进行预测处理,获得与第二行为集合相对应的第二处理结果。
其中,第一数量与第二数量的和值小于行为特征数据的属性数量;并且,本实施例中的机器学习算法包括以下至少之一:随机森林算法、支持向量机算法、梯度提升决策树GBDT算法、邻近算法KNN。可以理解的是,第二数量的机器学习算法与第一数量的机器学习算法中的机器学习算法可以相同,也可以不同。
具体的,在获取到第二行为集合之后,可以采用第二数量的机器学习算法基于目标训练标签对第二行为集合进行本地的学习训练,可以获得与第二数量的机器学习算法相对应的第二数量的模型处理算法,该模型处理算法为对机器学习算法进行学习训练之后所获得的优化模型方法;而后可以利用所获得的模型处理算法对第二行为集合进行预测处理,从而可以获得与第二行为集合相对应的第二处理结果。
可以理解的是,第一数量与第二数量可以相同,也可以不同,只要能够使得第一数量与第二数量的和值小于行为特征数据的属性数量即可,其中,行为特征数据的属性数量可以理解为行为特征数据的类别数量,举例来说,行为特征数据包括:受教育时间、年龄、性别、职业等等,此时,行为特征数据的属性数量为4。当要处理的行为特征数据较多时,行为特征数据的属性数量可以达到成千上万,因此,为了降低对行为特征数据进行处理的数据维度,可以采用机器学习算法对行为特征数据进行学习训练。
举例来说,第一行为集合和第二行为集合中的用户数据所对应的行为特征数据的属性数量为1000个,当采用p个机器学习算法对第一行为集合进行学习训练时,可以获得p个与第一行为集合相对应的第一处理结果,同理的,当采用q个机器学习算法对第一行为集合进行学习训练时,可以得到q个与第二行为集合相对应的第二处理结果。此时,可以将行为特征数据的属性数量由1000个维度降到p+q个维度,从而有效地提高了对数据进行处理的速度和效率,同时也保证了数据处理的质量。另外,采用机器学习算法对第一行为集合和第二行为集合进行本地的学习训练,也可以有效地保证数据使用的安全可靠性。
需要注意的是,本实施例中步骤S1031-S1032和步骤S1033-S1034之间并没有限于上述序号所标识的执行顺序,其中,步骤S1031-S1032也可以与步骤S1033-S1034同时执行,或者,步骤S1031-S1032也可以在步骤S1033-S1034之后执行。
S104:利用预设的安全计算方法对第一处理结果和第二处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法。
其中,安全计算方法包括以下至少之一:同态加密算法、安全多方计算方法。在获取到处理结果之后,可以利用安全计算方法对第一处理结果和第二处理结果再次进行学习训练,从而可以获得与目标训练标签相对应的模型预测算法,该模型预测算法可以对用户的行为/与用户有关的数据信息进行预测。具体的,参考附图6所示,本实施例中的利用预设的安全计算方法对第一处理结果和第二处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法可以包括:
S1041:将第一处理结果和第二处理结果进行合并,获得合并处理结果。
S1042:利用安全计算方法对合并处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法。
其中,在获取到第一处理结果和第二处理结果之后,可以将第一处理结果和第二处理结果进行合并,从而可以获得合并处理结果,为了便于对第一处理结果和第二处理结果进行合并,第一处理结果和第二处理结果可以以矩阵向量的方式进行表达,此时的合并处理结果为包括有第一处理结果和第二处理结果的矩阵向量信息。在获取到合并处理结果之后,可以利用安全计算方法对合并处理结果进行学习训练,从而可以获得与目标训练标签相对应的模型预测算法。
举例来说:当第一数据方为与银行合作的企业,第二数据方为银行时,企业与银行的目标训练标签为用户的信用信息,此时,企业中存储的与目标信息(例如:目标用户)相关的第一行为集合可以包括:消费数据、投资理财数据等等信息,银行中存储的与目标信息相关的第二行为集合可以包括:存款数据、贷款数据、还款数据等等信息,先获取企业中的第一行为集合和银行中的第二行为集合,而后利用预设的模型处理算法分别对上述第一行为集合和第二行为集合的预测处理,可以获取与第一行为集合相对应的第一处理结果和第二行为集合相对应的第二处理结果,将第一处理结果和第二处理结果合并为合并处理结果,而后利用安全计算方法对合并处理结果进行学习训练,获得与用户的信用信息相对应的模型预测算法,此时的模型预测算法可以预测用户的信用信息。
当第一数据方为视频数据方,第二数据方为网页数据方(例如:微博)时,视频数据方与网页数据方的目标训练标签为用户的感兴趣信息,此时,视频数据方中存储的与目标信息相关的第一行为集合可以包括:播放过的视频数据、浏览过的视频数据、感兴趣的视频数据等等信息,网页数据方中存储的与目标信息相关的第二行为集合可以包括:感兴趣的话题/网页、关注的话题/网页、浏览过的话题/网页等等信息,通过获取视频数据方中的第一行为集合和网页数据方中的第二行为集合,而后利用预设的模型处理算法分别对上述第一行为集合和第二行为集合进行预测处理,可以获取与第一行为集合相对应的第一处理结果和第二行为集合相对应的第二处理结果,将第一处理结果和第二处理结果合并为合并处理结果,而后利用安全计算方法对合并处理结果进行学习训练,获得与用户的感兴趣信息相对应的模型预测算法,此时的模型预测算法可以预测用户的感兴趣信息。
S105:利用模型预测算法对待处理数据进行处理,获得与待处理数据相对应的处理结果。
在获取到模型处理算法之后,可以利用模型预测算法对待处理数据进行处理,从而可以准确、快速地获取到与待处理数据相对应的处理结果。
本实施例提供的数据的处理方法,在获取到待处理数据之后,先获取第一数据方和第二数据方之间所包括的共同目标信息,而后根据共同目标信息,分别针对第一数据方和第二数据方获取与共同目标信息相对应的行为特征数据;基于目标训练标签对行为特征数据分别进行学习训练,获得与第一数据方的行为特征数据相对应的第一处理结果以及与第二数据方的行为特征数据相对应的第二处理结果;最后利用预设的安全计算方法对第一处理结果和第二处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法;通过对共同目标信息以及所对应的行为特征数据进行两次学习训练,实现了可以在不透漏各自独有的数据的同时,有效地建立与目标训练标签相对应的模型预测算法,在利用模型预测算法对用户数据进行处理时,可以提高对用户数据进行分析处理的准确性,进一步提高了该方法的实用性,有利于市场的推广与应用。
图7为本发明实施例提供的利用所述模型预测算法对所述待处理数据进行处理的流程图;图8为本发明实施例提供的利用模型预测算法对目标信息和待处理行为数据进行预测处理的流程图;在上述实施例的基础上,继续参考附图7-8可知,本实施例中的利用所述模型预测算法对所述待处理数据进行处理可以包括:
S1051:获取待处理数据中的目标信息以及与目标信息相对应的待处理行为数据。
其中,待处理数据中的目标信息为第一数据方和第二数据方所共同拥有的目标信息,并且,该目标信息可以为目标训练标签的一部分。此外,待处理行为数据包括针对第一数据方、且与目标信息相对应的第一行为数据以及针对第二数据方、且与目标信息相对应的第二行为数据。
本实施例对于获取待处理行为数据(包括:第一行为数据和第二行为数据)的具体实现方式不做限定,本领域技术人员可以根据具体的使用需求进行设置,例如:待处理行为数据可以存储在预设区域内,通过访问预设区域可以获取到待处理行为数据。或者,待处理行为数据也可以是存储在其他设备端(例如:用户终端)内,通过与设备端的通信连接来获取到存储至设备端内的待处理行为数据,具体的,一种可实现的方式为:可以向设备端发送数据获取请求,使得设备端可以基于数据请求返回待处理行为数据;或者,另一种可实现的方式为:设备端可以主动将待处理行为数据发送至处理装置,从而使得处理装置可以主动地获取待处理行为数据。
可以理解的是,本领域技术人员也可以根据具体的应用场景和应用需求采用其他的方式获取待处理行为数据,只要能够保证待处理行为数据获取的准确可靠性即可,在此不再赘述。
S1052:利用模型预测算法对目标信息和待处理行为数据进行预测处理。
在获取到目标信息和待处理行为数据之后,可以利用所获得的模型预测算法对目标信息和待处理行为数据进行预测处理,具体的,参考附图8所示,本实施例中的利用模型预测算法对目标信息和待处理行为数据进行预测处理可以包括:
S10521:利用第一数量的模型处理算法对第一行为数据进行预测,获得第一预测结果。
S10522:利用第二数量的模型处理算法对第二行为数据进行预测,获得第二预测结果。
S10523:将第一预测结果与第二预测结果进行合并,获得合并预测结果。
S10524:利用模型预测算法对合并预测结果进行预测处理,获得与目标信息相对应的目标预测结果。
在待处理行为数据包括第一行为数据和第二行为数据时,此时的利用模型预测算法对目标信息和待处理行为数据进行预测处理的步骤需要先对待处理行为数据进行预测数据,具体的,可以利用第一数量的模型处理算法对第一行为数据进行预测,获得第一预测结果,需要注意的是,此时的模型处理算法为上述实施例中通过对第一数量的机器学习算法进行优化训练得到的。同理的,还可以利用第二数量的模型处理算法对第二行为数据进行预测,获得第二预测结果,其中,第一数量与第二数量的和值远远小于待处理行为数据所包括的属性数量,从而降低了数据处理的维度,此时的第一预测结果和第二预测结果可以以矩阵向量的方式进行表达。在获取到第一预测结果和第二预测结果之后,可以将第一预测结果和第二预测结果进行合并,从而可以获得合并预测结果,此时的合并预测结果可以包括有第一预测结果和第二预测结果。在获取到合并预测结果之后,可以利用模型预测算法对合并预测结果进行预测处理,从而可以获得与目标信息相对应的目标预测结果,该目标预测结果可以是一个百分比、分值或者数值等等。
在获取到目标预测结果之后,可以基于目标预测结果对与目标信息相对应的行为/相关信息进行预测,例如:当目标预测结果大于或等于预设的阈值时,则说明与目标信息相对应的用户可以执行某种行为;当目标预测结果小于预设的阈值时,则说明与目标信息相对应的用户不可以执行某种行为。或者,当目标预测结果大于或等于预设的阈值时,则说明与目标信息相对应的用户的可信度较高;当目标预测结果小于预设的阈值时,则说明与目标信息相对应的用户的可信度较低。
本实施例中,在获得与目标训练标签相对应的模型预测算法之后,通过获取目标信息以及与目标信息相对应的待处理行为数据;而后利用模型预测算法对目标信息和待处理行为数据进行预测处理,有效地实现了对模型预测算法的应用,不仅保证了数据处理的质量和效率,还可以满足用户的使用需求,进而提高了该方法的实用性,有利于市场的推广与应用。
图9为本发明实施例提供的又一种数据的处理方法的流程图;参考附图9所示,本实施例提供了又一种数据的处理方法,该处理方法的执行主体为数据的处理装置,该处理装置可以单独设置或者集成在第一数据方和/或第二数据方所对应的装置上,该处理装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S301:获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与待处理信息相对应的第一行为数据以及针对第二数据方且与待处理信息相对应的第二行为数据。
其中,待处理请求可以是用户终端发送至处理装置中的,具体的,用户终端可以用于检测用户输入的执行操作,并基于执行操作生成待处理请求。在用户终端获取到用户输入的待处理请求之后,可以将待处理请求发送至处理装置,从而使得处理装置可以获取到待处理请求,该待处理请求用于供处理装置对用户的行为(例如:购买行为、消费行为)或者用户的相关信息(例如:信用信息)进行预测处理。
S302:利用至少一个模型处理算法对所述第一行为数据进行降低数据维度处理,获得第一处理结果。
S303:利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果。
S304:将所述第一处理结果与所述第二处理结果进行合并,获得合并结果。
S305:利用预设的模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
本实施例中步骤的实现过程和实现效果与上述实施例中的步骤S1051-S1052、S10521-S10524的实现过程和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
本实施例提供的数据的处理方法,在获得待处理请求之后,可以通过待处理请求获取相对应的待处理数据(包括第一行为数据和第二行为数据),而后采用预设数量的模型处理算法对待处理数据进行第一轮处理(降低数据维度处理),获得第一处理结果和第二处理结果,再利用预设的模型预测算法对第一处理结果和第二处理结果进行预测处理,从而可以获得与待处理请求相对应的预测结果;有效地实现了对模型预测算法的应用,不仅保证了数据处理的质量和效率,还可以满足用户的使用需求,进而提高了该方法的实用性,有利于市场的推广与应用。
可选地,本实施例的另一方面提供了另一种数据的处理方法,该处理方法的执行主体为数据的处理装置,该处理装置可以单独设置或者集成在第一数据方和/或第二数据方所对应的装置上,该处理装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S401:获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签。
S402:根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据。
S403:基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果。
S404:利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
本实施例中步骤的实现过程和实现效果与上述实施例中的步骤S101-S104的实现过程和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
具体应用时,参考附图10所示,为了更加清楚地了解本实施例中的技术方案,下面以电商业务领域为例来说明数据的处理方法的实现过程,也即:第一数据方为电商平台方A,第二数据方为品牌商户方B,此时,目标训练标签为位于品牌商户方B下的产品C,也即双方希望共同预测用户在平台上购买B的某个产品C的概率。具体的,该方法可以包括:
step1:电商平台方A可以通过私有集交集技术与品牌商户方B进行通信连接。
step2:通过私有集交集技术,可以获取电商平台方A和品牌商户方B之间的n个共同目标信息(共同用户),而后,在电商平台方A获得与共同目标信息相对应的本地数据集XA,在品牌商户方B获得与共同目标信息相对应的本地数据集XB。
具体的,A和B分别根据这n个用户有没有在平台上购买C,形成本地数据集XA和本地数据集XB;举例来说:用户是否购买商品用“0”和“1”进行标识,其中,“1”代表用户购买过商品,“0”代表用户未购买过商品,此时,当用户包括用户id1和用户id2,对于A而言,在商品包括商品A1、商品A2、商品A3和商品C时,XA可以表示为:同理的,当用户包括用户id1和用户id2,对于B而言,在商品包括商品B1、商品B2和商品C时,XA可以表示为:/>
由上述两个矩阵信息的表达含义可知,A与B双方的数据具有部分重合性,即用户在电商平台方A上购买C这个行为是双方都了解的,另外,A与B双方还各自拥有对方不了解的其他维度的数据,例如:用户在电商平台方A上购买了其他品牌商的商品A1/A2/A3的信息,B是不知道的,同理,用户在B的线下店购买了商品B1/B2,A是不知道的。
step3:在获取到XA和XB之后,A和B可以各自在本地独立地对XA和XB进行第一轮的机器学习训练。
具体的,对于A而言,可以采用p种不同的机器学习算法对XA进行本地的学习训练,其中,p的数值不做限定,本领域技术人员可以根据具体的应用需求和设计需求来设置p的数值,可以理解的是,当p的数值越大时,进行机器学习训练的准确度就越高,随之进行机器学习训练的复杂度也越高。通过p个机器学习算法对XA进行学习训练,可以获得p个用于预测用户是否会购买C的优化训练模型,该p个优化训练模型即为上述实施例中的第一数量的模型处理算法。在获取到p个模型处理算法之后,可以利用p个模型处理算法对XA进行预测,从而可以得到n*p维的矩阵XA’。
同理的,对于B而言,可以采用q种不同的机器学习算法对XB进行本地的学习训练,其中,q的数值不做限定,本领域技术人员可以根据具体的应用需求和设计需求来设置q的数值,可以理解的是,当q的数值越大时,进行机器学习训练的准确度就越高,随之进行机器学习训练的复杂度也越高。需要注意的是,p+q的和值要远远小于原始数据中的属性数目。通过q个机器学习算法对XB进行学习训练,可以获得q个用于预测用户是否会购买C的优化训练模型,该q个优化训练模型即为上述实施例中的第二数量的模型处理算法。在获取到q个模型处理算法之后,可以利用q个模型处理算法对XB进行预测,从而可以得到n*q维的矩阵XB’。
需要注意的是,上述的学习训练过程为本地的学习训练,不需要使用安全计算,这样可以有效地保证数据使用的安全可靠性。此外,XA’和XB’的元素都是第一轮模型进行预测后的预测结果,只含有0或者1(标志着用户是否会购买C)。
step4:合并XA’和XB’,而后采用安全计算方法对合并后的XA’和XB’进行安全的第二轮机器学习训练,获得与目标训练标签相对应的模型预测算法。
具体的,合并后的XA’和XB’的数据属性为p+q个属性,训练目标仍然是预测用户是否会购买C;此时,由于p+q远小于原始数据中的属性数目(例如:取p=q=6,原始品类数目则经常在1000以上),而且,合并后的XA’和XB’为矩阵信息,矩阵元素只有0和1,其安全计算效率可以显著提高(例如:1000万行数据,只需要数个小时完成)。学习训练完毕之后,可以获得一个p+q个属性、且用于预测用户行为的模型预测算法。
需要说明的是,第二轮机器学习训练的过程需要使用安全计算技术,而当前的安全计算技术可以支持简单的机器学习算法,例如:加权平均,逻辑回归,多数投票等。
Step5:在获得模型预测算法之后,可以获取待处理的用户u和与该用户u相对应的待处理行为数据,而后利用模型预测算法对用户u和待处理行为数据进行预测处理,从而可以获得预测结果,预测结果可以是一个概率值、分值或者数值等等,该预测结果即为用户u有没有购买商品C的预测结果。
本应用实施例提供的数据的处理方法,基于第一数据方和第二数据方之间的共同目标信息(该共同目标信息为电商平台方A与品牌商户方B之间部分重合的数据),存在部分重合的数据的情况是电商平台方A和品牌商户方B之间普遍存在的现象,在获得共同目标信息之后,可以让电商平台方A和品牌商户方B各自基于已有的数据进行第一轮训练,从而可以将数据压缩到p+q个维度,而后可以高效的使用安全计算方案对数据进行第二轮训练,从而可以获得与目标训练标签相对应的模型预测算法。以上数据的处理过程,有效地克服了现有技术中存在的安全计算方案因性能不佳而导致的无法支持属性较多的大规模数据的缺陷,另外,本处理犯法通过把数据维度进行压缩,在通常的电商场景下,可以以同等硬件资源支持100倍以上的数据,有效地提高了数据处理的质量和效率,并且保证了对用户数据进行分析处理的准确性,进一步提高了该方法的实用性,有利于市场的推广与应用。
图11为本发明实施例提供的一种数据的处理装置的结构示意图;参考附图11所示,本实施例提供了一种数据的处理装置,并且,该处理装置可以执行上述图1所对应的数据的处理方法。具体的,该处理装置可以包括:
第一获取模块11,用于获取待处理数据,待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括目标训练标签,并且,第一数据方和第二数据方之间包括共同目标信息;
第一获取模块11,还用于根据共同目标信息,分别针对第一数据方和第二数据方获取与共同目标信息相对应的行为特征数据;
第一处理模块12,用于基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得与第一数据方的行为特征数据相对应的第一处理结果以及与第二数据方的行为特征数据相对应的第二处理结果;
第一训练模块13,用于利用预设的安全计算方法对第一处理结果和第二处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法;
第一处理模块12,还用于利用所述模型预测算法对所述待处理数据进行处理,获得与所述待处理数据相对应的处理结果。
可选地,第一获取模块11具体用于执行:控制第一数据方和第二数据方通过私有集交集技术进行通信连接;通过私有集交集技术获取第一数据方与第二数据方之间的共同目标信息。
可选地,在第一获取模块11根据共同目标信息,分别针对第一数据方和第二数据方获取与共同目标信息相对应的行为特征数据时,该第一获取模块11可以用于执行:针对第一数据方,根据共同目标信息获取与共同目标信息相对应的第一行为集合,第一行为集合中包括与每个共同目标信息相对应的行为特征数据;针对第二数据方,根据共同目标信息获取与共同目标信息相对应的第二行为集合,第二行为集合中包括与每个共同目标信息相对应的行为特征数据。
可选地,在第一处理模块12基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得与第一数据方的行为特征数据相对应的第一处理结果时,该第一处理模块12可以用于执行:基于目标训练标签、并利用预设的第一数量的机器学习算法对第一行为集合进行本地学习训练,获得与第一数量的机器学习算法相对应的第一数量的模型处理算法;利用第一数量的模型处理算法对第一行为集合进行预测处理,获得与第一行为集合相对应的第一处理结果。
可选地,在第一处理模块12基于目标训练标签分别对第一数据方的行为特征数据和第二数据方的行为特征数据进行处理,获得与第二数据方的行为特征数据相对应的第二处理结果时,该第一处理模块12可以用于执行:基于目标训练标签、并利用预设的第二数量的机器学习算法对第二行为集合进行本地学习训练,获得与第二数量的机器学习算法相对应的第二数量的模型处理算法;利用第二数量的模型处理算法对第二行为集合进行预测处理,获得与第二行为集合相对应的第二处理结果。
其中,第一数量与第二数量的和值小于行为特征数据的属性数量。机器学习算法包括以下至少之一:随机森林算法、支持向量机算法、梯度提升决策树GBDT算法、邻近算法KNN。
可选地,在第一训练模块13利用预设的安全计算方法对第一处理结果和第二处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法时,该第一训练模块13可以用于执行:将第一处理结果和第二处理结果进行合并,获得合并处理结果;利用安全计算方法对合并处理结果进行学习训练,获得与目标训练标签相对应的模型预测算法。
其中,安全计算方法包括以下至少之一:同态加密算法、安全多方计算方法。
可选地,在第一处理模块12利用所述模型预测算法对所述待处理数据进行处理时,该在第一处理模块12用于执行以下步骤:获取待处理数据中的目标信息以及与目标信息相对应的待处理行为数据;利用模型预测算法对目标信息和待处理行为数据进行预测处理。
其中,待处理行为数据包括针对第一数据方、且与目标信息相对应的第一行为数据以及针对第二数据方、且与目标信息相对应的第二行为数据。
可选地,在第一处理模块12利用模型预测算法对目标信息和待处理行为数据进行预测处理时,该第一处理模块12可以用于执行:利用第一数量的模型处理算法对第一行为数据进行预测,获得第一预测结果;利用第二数量的模型处理算法对第二行为数据进行预测,获得第二预测结果;将第一预测结果与第二预测结果进行合并,获得合并预测结果;利用模型预测算法对合并预测结果进行预测处理,获得与目标信息相对应的目标预测结果。
其中,第一数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台、数据处理平台;第二数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台、数据处理平台。
图11所示装置可以执行图1-图8、图10所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图8、图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图8、图10所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图11所示数据的处理装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图12所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持电子设备执行上述图1-图8、图10所示实施例中提供的数据的处理方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理数据,所述待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括所述目标训练标签,并且,所述第一数据方和第二数据方之间包括共同目标信息;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;
利用所述模型预测算法对所述待处理数据进行处理,获得与所述待处理数据相对应的处理结果。
可选地,第一处理器21还用于执行前述图1-图8、图10所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图8、图10所示方法实施例中数据的处理方法所涉及的程序。
图13为本发明实施例提供的另一种数据的处理装置的结构示意图;参考附图13所示,本实施例提供了另一种数据的处理装置,并且,该处理装置可以执行上述图9-图10所对应的数据的处理方法。具体的,该处理装置可以包括:
第二获取模块31,用于获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与待处理信息相对应的第一行为数据以及针对第二数据方且与待处理信息相对应的第二行为数据;
第二处理模块32,用于利用至少一个模型处理算法对所述第一行为数据进行降低数据维度处理,获得第一处理结果;
第二处理模块32,还用于利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果;
合并模块33,用于将所述第一处理结果与所述第二处理结果进行合并,获得合并结果;
预测模块34,用于利用预设的模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
图13所示装置可以执行图9-图10所示实施例的方法,本实施例未详细描述的部分,可参考对图9-图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图9-图10所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图13所示数据的处理装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图14所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储支持电子设备执行上述图9-图10所示实施例中提供的数据的处理方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与待处理信息相对应的第一行为数据以及针对第二数据方且与待处理信息相对应的第二行为数据;
利用至少一个模型处理算法对所述第一行为数据进行降低数据维度处理,获得第一处理结果;
利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果;
将所述第一处理结果与所述第二处理结果进行合并,获得合并结果;
利用预设的模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图9-图10所示方法实施例中数据的处理方法所涉及的程序。
图15为本发明实施例提供的又一种数据的处理装置的结构示意图;参考附图15所示,本实施例提供了又一种数据的处理装置,并且,该处理装置可以执行的处理方法步骤为上述图1所对应数据处理方法中的一部分。具体的,该处理装置可以包括:
第三获取模块51,用于获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
第三获取模块51,还用于根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
第三处理模块52,用于基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
第二训练模块53,用于利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
图15所示装置可以执行图1所示实施例的部分方法,本实施例未详细描述的部分,可参考对图1所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图15所示数据的处理装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图16所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储支持电子设备执行上述图1所示实施例中提供的数据的处理方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:
获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
可选地,第三处理器61还用于执行前述图1-图8、图10所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行以下数据的处理方法所涉及的程序:
获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (21)

1.一种数据的处理方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括所述目标训练标签,并且,所述第一数据方和第二数据方之间包括共同目标信息;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;
利用所述模型预测算法对所述待处理数据进行处理,获得与所述待处理数据相对应的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
控制所述第一数据方和所述第二数据方通过私有集交集技术进行通信连接;
通过所述私有集交集技术获取所述第一数据方与所述第二数据方之间的共同目标信息。
3.根据权利要求1所述的方法,其特征在于,根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据,包括:
针对所述第一数据方,根据所述共同目标信息获取与所述共同目标信息相对应的第一行为集合,所述第一行为集合中包括与每个共同目标信息相对应的行为特征数据;
针对所述第二数据方,根据所述共同目标信息获取与所述共同目标信息相对应的第二行为集合,所述第二行为集合中包括与每个共同目标信息相对应的行为特征数据。
4.根据权利要求3所述的方法,其特征在于,基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果,包括:
基于所述目标训练标签、并利用预设的第一数量的机器学习算法对所述第一行为集合进行本地学习训练,获得与所述第一数量的机器学习算法相对应的第一数量的模型处理算法;
利用所述第一数量的模型处理算法对所述第一行为集合进行预测处理,获得与所述第一行为集合相对应的第一处理结果。
5.根据权利要求4所述的方法,其特征在于,基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第二数据方的行为特征数据相对应的第二处理结果,包括:
基于所述目标训练标签、并利用预设的第二数量的机器学习算法对所述第二行为集合进行本地学习训练,获得与所述第二数量的机器学习算法相对应的第二数量的模型处理算法;
利用所述第二数量的模型处理算法对所述第二行为集合进行预测处理,获得与所述第二行为集合相对应的第二处理结果。
6.根据权利要求5所述的方法,其特征在于,所述第一数量与所述第二数量的和值小于所述行为特征数据的属性数量。
7.根据权利要求5所述的方法,其特征在于,所述机器学习算法包括以下至少之一:随机森林算法、支持向量机算法、梯度提升决策树GBDT算法、邻近算法KNN。
8.根据权利要求5所述的方法,其特征在于,利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法,包括:
将所述第一处理结果和所述第二处理结果进行合并,获得合并处理结果;
利用所述安全计算方法对所述合并处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
9.根据权利要求8所述的方法,其特征在于,所述安全计算方法包括以下至少之一:同态加密算法、安全多方计算方法。
10.根据权利要求5-9中任意一项所述的方法,其特征在于,利用所述模型预测算法对所述待处理数据进行处理,包括:
获取待处理数据中的目标信息以及与所述目标信息相对应的待处理行为数据;
利用所述模型预测算法对所述目标信息和所述待处理行为数据进行预测处理。
11.根据权利要求10所述的方法,其特征在于,所述待处理行为数据包括针对所述第一数据方、且与所述目标信息相对应的第一行为数据以及针对所述第二数据方、且与所述目标信息相对应的第二行为数据。
12.根据权利要求11所述的方法,其特征在于,利用所述模型预测算法对所述目标信息和所述待处理行为数据进行预测处理,包括:
利用所述第一数量的模型处理算法对所述第一行为数据进行预测,获得第一预测结果;
利用所述第二数量的模型处理算法对所述第二行为数据进行预测,获得第二预测结果;
将所述第一预测结果与所述第二预测结果进行合并,获得合并预测结果;
利用所述模型预测算法对所述合并预测结果进行预测处理,获得与所述目标信息相对应的目标预测结果。
13.根据权利要求1-9中任意一项所述的方法,其特征在于,
所述第一数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台;
所述第二数据方包括以下至少之一:电商平台、商户平台、物流平台、金融平台、业务平台。
14.一种数据的处理方法,其特征在于,包括:
获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与所述待处理信息相对应的第一行为数据以及针对第二数据方且与所述待处理信息相对应的第二行为数据;
利用至少一个模型处理算法对所述第一行为数据进行降低数据维度处理,获得第一处理结果;
利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果;
将所述第一处理结果与所述第二处理结果进行合并,获得合并结果;
利用安全计算方法对所述合并结果进行学习训练,获得与目标训练标签相对应的模型预测算法,利用所述模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
15.一种数据的处理方法,其特征在于,包括:
获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
16.一种数据的处理装置,其特征在于,包括:
第一获取模块,用于获取待处理数据,所述待处理数据包括目标训练标签,其中,第一数据方和第二数据方均包括所述目标训练标签,并且,所述第一数据方和第二数据方之间包括共同目标信息;
所述第一获取模块,还用于根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
第一处理模块,用于基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
第一训练模块,用于利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法;
所述第一处理模块,还用于利用所述模型预测算法对所述待处理数据进行处理,获得与所述待处理数据相对应的处理结果。
17.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至13中任一项所述的数据的处理方法。
18.一种数据的处理装置,其特征在于,包括:
第二获取模块,用于获取待处理请求,所述待处理请求中包括:待处理信息、针对第一数据方且与所述待处理信息相对应的第一行为数据以及针对第二数据方且与所述待处理信息相对应的第二行为数据;
第二处理模块,用于利用至少一个模型处理算法对所述第一行为数据降低数据维度处理,获得第一处理结果;
所述第二处理模块,还用于利用至少一个模型处理算法对所述第二行为数据进行降低数据维度处理,获得第二处理结果;
合并模块,用于将所述第一处理结果与所述第二处理结果进行合并,获得合并结果;
预测模块,用于利用安全计算方法对所述合并结果进行学习训练,获得与目标训练标签相对应的模型预测算法,利用所述模型预测算法对所述合并结果进行计算,获得与所述待处理请求相对应的预测结果。
19.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求14所述的数据的处理方法。
20.一种数据的处理装置,其特征在于,包括:
第三获取模块,用于获取第一数据方和第二数据方之间的共同目标信息,其中,所述第一数据方和所述第二数据方均包括目标训练标签;
所述第三获取模块,还用于根据所述共同目标信息,分别针对所述第一数据方和所述第二数据方获取与所述共同目标信息相对应的行为特征数据;
第三处理模块,用于基于所述目标训练标签分别对所述第一数据方的行为特征数据和所述第二数据方的行为特征数据进行处理,获得与所述第一数据方的行为特征数据相对应的第一处理结果以及与所述第二数据方的行为特征数据相对应的第二处理结果;
第二训练模块,用于利用预设的安全计算方法对所述第一处理结果和第二处理结果进行学习训练,获得与所述目标训练标签相对应的模型预测算法。
21.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求15所述的数据的处理方法。
CN201910276456.3A 2019-04-08 2019-04-08 数据的处理方法、装置及设备 Active CN111797126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910276456.3A CN111797126B (zh) 2019-04-08 2019-04-08 数据的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910276456.3A CN111797126B (zh) 2019-04-08 2019-04-08 数据的处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111797126A CN111797126A (zh) 2020-10-20
CN111797126B true CN111797126B (zh) 2024-04-02

Family

ID=72805636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910276456.3A Active CN111797126B (zh) 2019-04-08 2019-04-08 数据的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111797126B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017186048A1 (zh) * 2016-04-27 2017-11-02 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
WO2018174873A1 (en) * 2017-03-22 2018-09-27 Visa International Service Association Privacy-preserving machine learning
WO2018213205A1 (en) * 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109033854A (zh) * 2018-07-17 2018-12-18 阿里巴巴集团控股有限公司 基于模型的预测方法和装置
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109492772A (zh) * 2018-11-28 2019-03-19 北京百度网讯科技有限公司 生成信息的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017186048A1 (zh) * 2016-04-27 2017-11-02 第四范式(北京)技术有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
WO2018174873A1 (en) * 2017-03-22 2018-09-27 Visa International Service Association Privacy-preserving machine learning
WO2018213205A1 (en) * 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
CN109033854A (zh) * 2018-07-17 2018-12-18 阿里巴巴集团控股有限公司 基于模型的预测方法和装置
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109492772A (zh) * 2018-11-28 2019-03-19 北京百度网讯科技有限公司 生成信息的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种改进的无偏节点标签预测方法研究;俞刚;张泉方;;计算机科学(第11期);全文 *
基于属性偏好自学习的推荐方法;刘志;林振涛;鄢致雯;陈波;;浙江工业大学学报(第02期);全文 *
机器学习安全及隐私保护研究进展.;宋蕾;马春光;段广晗;;网络与信息安全学报(第08期);全文 *

Also Published As

Publication number Publication date
CN111797126A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN111008709A (zh) 联邦学习、资料风险评估方法、装置和系统
WO2021114911A1 (zh) 用户风险评估方法及装置、电子设备、存储介质
CN111080123A (zh) 用户风险评估方法及装置、电子设备、存储介质
JP2019517057A (ja) ワイドアンドディープマシンラーニングモデル
KR20200006967A (ko) 가맹점 평가 방법 및 시스템
WO2020053854A1 (en) Systems and methods for secure prediction using an encrypted query executed based on encrypted data
CN112200382B (zh) 一种风险预测模型的训练方法和装置
US11308077B2 (en) Identifying source datasets that fit a transfer learning process for a target domain
WO2021189926A1 (zh) 业务模型训练方法、装置、系统及电子设备
CN111612167A (zh) 机器学习模型的联合训练方法、装置、设备及存储介质
CN112465627A (zh) 基于区块链和机器学习的金融借贷审核方法及系统
CN111563267A (zh) 用于联邦特征工程数据处理的方法和装置
CN111768258A (zh) 识别异常订单的方法、装置、电子设备和介质
WO2022237175A1 (zh) 图数据的处理方法、装置、设备、存储介质及程序产品
CN112507323A (zh) 基于单向网络的模型训练方法、装置和计算设备
CN111797126B (zh) 数据的处理方法、装置及设备
US20230113118A1 (en) Data compression techniques for machine learning models
US10832315B2 (en) Implementing cognitive modeling techniques to provide bidding support
CN115409512A (zh) 异常信息检测方法、装置、计算机设备、存储介质
CN112818235B (zh) 基于关联特征的违规用户识别方法、装置和计算机设备
US11848915B2 (en) Multi-party prediction using feature contribution values
US20210192296A1 (en) Data de-identification method and apparatus
US20220027434A1 (en) Providing recommendations via matrix factorization
CN114493850A (zh) 基于人工智能的在线公证方法、系统及存储介质
CN114358311B (zh) 纵向联邦数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant