CN113033717A - 一种模型生成方法、装置以及用于模型生成的装置 - Google Patents

一种模型生成方法、装置以及用于模型生成的装置 Download PDF

Info

Publication number
CN113033717A
CN113033717A CN202110580608.6A CN202110580608A CN113033717A CN 113033717 A CN113033717 A CN 113033717A CN 202110580608 A CN202110580608 A CN 202110580608A CN 113033717 A CN113033717 A CN 113033717A
Authority
CN
China
Prior art keywords
user
matrix
ciphertext
model
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110580608.6A
Other languages
English (en)
Other versions
CN113033717B (zh
Inventor
陈智隆
王国赛
贾晓丰
高嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huakong Tsingjiao Information Technology Beijing Co Ltd
Original Assignee
Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huakong Tsingjiao Information Technology Beijing Co Ltd filed Critical Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority to CN202110580608.6A priority Critical patent/CN113033717B/zh
Publication of CN113033717A publication Critical patent/CN113033717A/zh
Application granted granted Critical
Publication of CN113033717B publication Critical patent/CN113033717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种模型生成方法、装置以及用于模型生成的装置。该方法中,响应于模型需求方发送的模型生成请求,获取至少两个数据提供方提供的包括样本用户的预设维度下的用户特征以及样本用户的用户标签的密文训练数据。对于任一预设维度的用户特征,对用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵。基于训练数据矩阵以及用户标签,训练获取密文的目标模型,密文计算方对密文的处理方式与密文训练数据的加密方式相匹配,向模型需求方返回密文的目标模型。这样,通过使用多种数据来源的密文训练数据进行训练,一定程度上可以确保模型训练的效果,以及确保以多个数据提供方提供的多种训练数据进行训练时的数据安全。

Description

一种模型生成方法、装置以及用于模型生成的装置
技术领域
本发明涉及网络技术领域,尤其涉及一种模型生成方法、装置以及用于模型生成的装置。
背景技术
在模型训练过程中,训练数据对于模型训练的训练效果起到至关重要的作用。
现有方式中,在训练模型时,往往是利用单一数据源的数据直接训练获取模型。这种方式中,获取到的模型的处理效果往往较差。
发明内容
本发明实施例提供一种模型生成方法、装置以及用于模型生成的装置,可以解决训练获取到的模型的处理效果往往较差的问题。
为了解决上述问题,本发明实施例公开了一种模型生成方法,应用于密文计算方,所述方法包括:
接收模型需求方发送的模型生成请求;
响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
向所述模型需求方返回所述密文的目标模型。
另一方面,本发明实施例公开了一种模型生成装置,应用于密文计算方,所述装置包括:
第一接收模块,用于接收模型需求方发送的模型生成请求;
获取模块,用于响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
向量化模块,用于对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
训练模块,用于基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
第一返回模块,用于向所述模型需求方返回所述密文的目标模型。
再一方面,本发明实施例公开了一种用于模型生成的装置,包括有存储器,以及一个或者一个以上程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收模型需求方发送的模型生成请求;
响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
向所述模型需求方返回所述密文的目标模型。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的模型生成方法。
本发明实施例包括以下优点:
本发明实施例的模型生成方法中,响应于模型需求方发送的模型生成请求,会获取至少两个数据提供方提供的密文训练数据,密文训练数据包括样本用户的预设维度下的用户特征以及样本用户的用户标签。对于任一预设维度的用户特征,对用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵。不同分组编号对应不同分组,不同分组表征不同的特征范围;训练数据矩阵的行数为样本用户的总数量m,训练数据矩阵的列数为预设维度的总数量n与用户特征对应的分组的总数量nbins之间的乘积。接着,基于训练数据矩阵以及用户标签,训练获取密文的目标模型,密文计算方对密文的处理方式与密文训练数据的加密方式相匹配,最后,向模型需求方返回密文的目标模型。这样,通过使用多种数据来源的密文训练数据进行训练,一定程度上可以确保模型训练的效果,以及确保以多个数据提供方提供的多种训练数据进行训练时的数据安全。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种模型生成方法实施例的步骤流程图;
图2是本发明实施例提供的一种系统流程示意图;
图3是本发明的一种模型生成装置实施例的结构框图;
图4是本发明的一种用于模型生成的装置800的框图;及
图5是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种模型生成方法实施例的步骤流程图,应用于密文计算方,所述方法包括如下步骤:
步骤101、接收模型需求方发送的模型生成请求。
步骤102、响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签。
步骤103、对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积。
步骤104、基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配。
步骤105、向所述模型需求方返回所述密文的目标模型。
其中,密文计算方可以是用于进行密文计算的平台,密文计算方可以为使用多方安全计算技术的多方安全计算平台。密文计算方可以包括服务器、终端等具备计算能力的处理设备。模型需求方可以是需要目标模型的设备,示例的,模型需求方可以包括服务器、终端设备。模型需求方可以是一方也可以是多方,在一种实现方式中模型需求方也可以是一个或多个数据提供方。模型生成请求可以是模型需求方在需要获取目标模型的情况下,发送给密文计算方的,模型生成请求可以用于指示密文计算方生成目标模型并返回给模型需求方,这样,模型需求方无需自己执行建模过程,在密文计算方上使用多方安全计算技术,实现在保护数据提供方提供的数据的前提下,实现建模。其中,目标模型可以是用于实现指定功能的模型,该指定功能可以根据实际需求设置,示例的,指定功能可以为信用评分预测、违约概率预测、用户分类等功能。
进一步地,数据提供方可以是训练数据的数据源。不同数据提供方持有的数据可能不同。例如,数据提供方“银行”,持有样本用户的存款、贷款等信息,数据提供方“第三方借款机构”,持有样本用户的借款信息。因此,以多个数据提供方提供的密文训练数据获取目标模型,一定程度上可以扩大训练数据的覆盖范围,进而使得模型可以基于训练数据学习到更多的数据特征,进而提高训练得到的目标模型的处理效果。密文计算方可以接收数据提供方发送的密文训练数据并存储,相应地,可以通过读取存储的密文训练数据,实现获取密文训练数据的操作。或者,也可以是在接收到模型生成请求之后,向各个数据提供方发送数据提供指令,相应地,各个数据提供方响应于数据提供指令,可以向数据提供方返回密文训练数据,进而实现获取。
可以理解的是,样本用户可以为数据提供方中具备预设维度下的用户特征的部分或全部用户。预设维度可以是根据实际需求预先指定的。示例的,预设维度可以包括年龄、存款、借款、贷款、职业,等等。相应地,预设维度下的用户特征可以包括年龄值、存款数额、借款数额、贷款数额以及具体职业。用户标签的具体种类可以根据实际需求相应设置,示例的,在需要训练用于用户分类的模型时,用户标签可以表征样本用户所属的真实类别,在需要训练用于信用评分或者违约概率预测的模型时,用户标签可以表征样本用户是否违约。
进一步地,本发明实施例中按照用户特征所属分组的分组编号进行向量编码,获取向量化的训练数据矩阵,并基于向量化的训练数据矩阵进行训练,由于向量化的训练数据矩阵在后续更方便处理,因此,一定程度上可以提高训练过程中的处理效率,进而提高训练效率。且向模型需求方返回时,返回的是密文的目标模型,因此,一定程度上可以确保目标模型的安全性。
本发明实施例的模型生成方法中,响应于模型需求方发送的模型生成请求,会获取至少两个数据提供方提供的密文训练数据,密文训练数据包括样本用户的预设维度下的用户特征以及样本用户的用户标签。对于任一预设维度的用户特征,对用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵。不同分组编号对应不同分组,不同分组表征不同的特征范围;训练数据矩阵的行数为样本用户的总数量m,训练数据矩阵的列数为预设维度的总数量n与用户特征对应的分组的总数量nbins之间的乘积。接着,基于训练数据矩阵以及用户标签,训练获取密文的目标模型,密文计算方对密文的处理方式与密文训练数据的加密方式相匹配,最后,向模型需求方返回密文的目标模型。这样,通过使用多种数据来源的密文训练数据进行训练,一定程度上可以确保模型训练的效果,以及确保以多个数据提供方提供的多种训练数据进行训练时的数据安全。
可选的,密文计算方可以包括多个计算节点,以为密文计算方提供充足的算力。进一步地,在一种实现方式中,密文计算方的部分计算节点可以部署于数据提供方和/或模型需求方。即,密文计算方的一部分可以部署在所有数据提供方和模型需求方中的一方,也可以分布式地部署在所有数据提供方和模型需求方中的多方,以充分利用数据提供方和/或模型需求方的处理资源。进一步地,这部分计算节点可以用于对部分密文训练数据进行处理。即,各个计算节点可以负责对部分密文训练数据进行处理,这样,可以避免数据提供方和/或模型需求方还原出完整的原始数据,进而可以确保利用多数据源的数据训练时的安全性。示例的,可以将密文训练数据进行切片处理,由部署于数据提供方和/或模型需求方的部分计算节点仅对切片处理切分的随机数进行处理,进而避免模型需求方拿到不同数据提供方提供完整的加密后的数据,通过解密获取到数据提供方提供的全量的数据的问题。
本发明实施例中,密文计算方法由数据提供方和模型需求方中的多方分散管理,在密文计算过程中,任何一方都无法单独对密文训练和密文计算的中间结果进行解密,进而可以确保多数据源训练时,数据的安全性。当然,在其他实现方式中,密文计算方也可以部署在独立于所有数据提供方和模型需求方的另一方。
可以理解的是,密文计算方对密文的处理方式可以为密文计算方式,对训练数据进行加密的方式可以有多种,不同加密方式加密后得到的密文数据,所需的密文计算方式可能不同。其中,对于不同加密方式得到的密文训练数据,对该密文训练数据进行同一操作的处理逻辑可以相同,但在对该密文训练数据执行该的处理逻辑的过程中,对密文训练数据的数据形式的改变方式可能不同。示例的,数据提供方可以将数据加密后,发送给密文计算方,密文计算方可以对其进行存储,并在后续建模过程中基于该加密方式相匹配的密文计算方式,将密文训练数据转换为特定形式的密文,并基于特定形式的密文参与后续的计算过程。这样,可以基于密文计算方对密文形式的训练数据进行存储以及处理,可以实现对多数据源的数据的安全计算及存储,且由于整个建模过程的处理操作中训练数据均是基于密文执行的,敏感的原始训练数据在任何计算过程中都不会被恢复为明文,因此,可以避免敏感数据的对外公开风险,进而最大程度确保各个数据提供方提供的数据的安全性。当然,也可以基于密文计算方式,将密文训练数据直接还原为明文数据,并进行后续操作,本发明实施例对此不作限定。
进一步地,密文计算方为了确保对密文训练数据正常处理,可以在接收到密文训练数据之后,检测该密文训练数据所使用的加密方式,示例的,可以对密文训练数据进行数据分析,以确定加密方式。然后基于该加密方式相匹配的密文计算方式,对该密文训练数据进行处理。示例的,在加密方式为混淆电路的情况下,以基于混淆电路对应的密文计算方式,对密文训练数据执行后续的操作。在加密方式为秘密分享的情况下,可以基于秘密分享对应的密文计算方式,对密文训练数据执行后续的操作。在加密方式为同态加密的情况下,基于同态加密对应的密文计算方式,对密文训练数据执行后续的操作。
可选的,在一种实现方式中,上述对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵的操作,可以具体包括:
步骤S21、对所述用户特征进行数据分组,以确定所述用户特征对应的分组编号。
本发明实施例中,数据分组可以指的是根据不同的分割点,将用户特征归类至所属的分组,其中,一个分组可以表示一个分箱,数据分组操作可以为数据分箱操作。各个分组对应的分组编号以及特征范围可以不同,分割点可以划分出不同的特征范围,分组对应的分组编号以及特征范围的具体值可以是根据实际需求设置的,示例的,各个分组对应的分组编号可以逐个递增,例如,各个分组对应的分组编号可以按照特征范围由小至大/由大至小的顺序,依次设置为1,2,3,…,本发明实施例对此不作限定。其中,在分组的总数量为nbins的情况下,针对一个预设维度下的用户特征,分割点的数量可以为nbins-1。具体的,可以将一个预设维度下的用户特征的分割点作为一行数据,相应地,n个预设维度下的用户特征可以共计n行数据,所有分割点可以表示为一个大小为(n, nbins-1)的分割点矩阵。
进一步地,通过数据分组,可以将用户特征按照一定的规则归并为少数的类别,从而在突出整体特征的同时,避免数据维度过多带来的负面影响。进行数据分组时,可以检测该用户特征落入的特征范围,然后将该特征范围对应的分组的分组编号,确定为该用户特征对应的分组编号。具体实施例时,也可以基于在密文上实现的预设算法实现数据分组操作,该预设算法可以包括等距分组,等频分组,卡方分组,信息值(Information Value,IV)分组,KS分组,GINI分组,等等。基于分组操作,可以得到对用户特征进行分割的切分点。示例的,在等距分组算法中,可以统计待分组数据中的每个用户特征的大小范围,并将该大小范围依照预设的箱数要求(即,分组的总数量nbins),等距的切分开。其中,切分处即为分割点,每一个范围为一个分组。等频分组算法中,可以将用户特征依照预设的箱数进行分组,在分组的过程中,可以保证每个箱里面对应的用户特征的数量大致相同。卡方分组算法是一种基于卡方检验的分组方法,卡方分组算法中,是基于卡方检验中的独立性检验来实现分组功能。IV分组算法中,可以使分组结果的信息值尽量大。KS分组算法为一种对连续型变量的分组方案,可以使分组后的KS值保持最大,其中,KS值用于表征用户特征对好坏样本的鉴别能力。GINI分组算法为基于GINI值进行分组的方法,GINI分组算法中,可以使分组后的GINI值最大。
需要说明的是,为了确保训练数据的数据质量,本发明实施例还可以在获取到密文训练数据之后,先进行数据筛选。示例的,可以采用密文数据筛选中可用的筛选算法,例如,密文情况下的单一值筛选,卡方筛选,方差筛选等。其中,单一值筛选指的是筛选掉值全部一样的一列。卡方筛选指的是通过卡方检验对数据进行特征选择。方差筛选指的是计算每个特征的方差,若方差小于某一个值,则筛掉该特征。相较于直接对明文数据进行数据筛选的方式,由于这些特征筛选方法均在密文上实现计算以及筛选,因此,可以在最终的处理结果与直接在明文计算所期待的结果一致的情况下,避免暴露数据信息,进而确保数据安全。
步骤S22、将所述用户特征对应的分组编号编码为编号向量;所述编号向量的维数为nbins
其中,各预设维度下的用户特征对应的分组的总数量nbins可以是根据实际需求预先设定的。对该用户特征对应的分组编号进行编码时,可以将nbins维的各个位的值均为0的初始向量中,第P位的值修改为1,进而得到编号向量。其中,P的具体值为分组编号的具体值。即,本发明实施例中,可以对用户特征对应的分组编号进行0-1编码,通过对分组编号向量化编码,可以将其作为二进制向量的表示。需要说明的是,在对各个样本用户的用户特征对应的分组编号进行向量编码时,可以依照分割点取出各样本用户的各个用户特征对应的分组编号,然后对该分组编号进行向量编码,以得到编号向量。
示例的,假设经过数据筛选后的密文训练数据包括4个样本用户,即m=4,每个样本用户对应两个预设维度下的用户特征:样本用户A对应的用户特征包括(1,0.1),样本用户B对应的用户特征包括(3,0.3),样本用户C对应的用户特征包括(2,0.5),样本用户D对应的用户特征包括(5,0.7)。密文训练数据可以表示为如下数据矩阵:
Figure 166210DEST_PATH_IMAGE001
其中,同一列用户特征对应相同的预设维度,不同列用户特征对应不同的预设维度。
进一步地,以特征1表示第一列用户特征,以特征2表示第二列用户特征为例,假设nbins为3,各预设维度的用户特征对应的分组的特征范围及其编号可以如下表所示:
特征 下界 下界 分组编号
特征1 -无穷 1.5 1
特征1 1.5 4 2
特征1 4 无穷 3
特征2 -无穷 0.4 1
特征2 0.4 0.6 2
特征2 0.6 无穷 3
相应地,样本用户A对应的用户特征“1”的分组编号=1,样本用户A对应的用户特征“0.1”的分组编号=1,样本用户B对应的用户特征“3”的分组编号=2,样本用户B对应的用户特征“0.3”的分组编号=1,样本用户C对应的用户特征“2”的分组编号=2,样本用户C对应的用户特征“0.5”的分组编号=2,样本用户D对应的用户特征“5”的分组编号=3,样本用户C对应的用户特征“0.7”的分组编号=3。
进一步地,对各个样本用户的用户特征对应的分组编号进行向量化之后,可以得到样本用户A对应的编号向量:100,100,样本用户B对应的编号向量:010,100,样本用户C对应的编号向量:010,010,样本用户D对应的编号向量:001,001。
步骤S23、将各个所述样本用户的用户特征对应的编号向量分别作为行元素,以组成所述训练数据矩阵。
本步骤中,可以以1个样本用户的用户特征对应的编号向量作为一行元素,进而得到向量化的训练数据矩阵。对于m个样本用户,在预设维数为n,每种预设维度的用户特征存在nbins个分组的情况下,则可以生成一个大小为m行,n*nbins列的训练数据矩阵。其中,训练数据矩阵中的每一行可以对应每一个数据,即,对应每一个样本用户。每nbins列可以代表一种用户特征的结果。需要说明的是,本发明实施例中,每种预设维度下的用户特征对应的nbins的具体值可以相同,这样,一定程度上可以方便后续进行计算。当然,每种预设维度的用户特征对应的nbins的具体值也可以不相同,本发明实施例对此不作限定。
示例的,以OH表示训练数据矩阵为例,在用户特征均对应3个分组的情况下,假设以样本用户A的用户特征对应的编号向量作为第一行,以样本用户B的用户特征对应的编号向量作为第二行,以样本用户C的用户特征对应的编号向量作为第三行,以样本用户D的用户特征对应的编号向量作为第一行,那么可以得到:
Figure 353523DEST_PATH_IMAGE002
本发明实施例中,对用户特征进行数据分组,以确定用户特征对应的分组编号,将用户特征对应的分组编号编码为编号向量,编号向量的维数为nbins,然后,将各个样本用户的用户特征对应的编号向量分别作为行元素,以组成训练数据矩阵。这样,在对每个用户特征的分组编号进行向量化时,均将其编码为nbins维的向量,进而可以确保各个用户特征在训练数据矩阵对应部分的维数统一,进而一定程度上可以确保最终生成的训练数据矩阵的规范性。
可选的,本发明实施例中密文计算方还可以基于生成的目标模型,为预设需求方进行预测。该目标模型可以为信用评分卡模型,相应地,本发明实施例还可以包括下述步骤:
步骤S31、接收预测需求方发送的预测请求;所述预测请求中包括待预测用户的相关数据。
步骤S32、响应于所述预测请求,根据所述待预测用户的相关数据以及所述信用评分卡模型,确定所述待预测用户对应的信用评分。
步骤S33、向所述预测需求方返回所述信用评分。
其中,预设需求方可以是需要检测待预测用户的信用评分的终端,预设需求方可以为一方或者是多方,预设需求方可以与数据提供方相同,也可以不同。密文计算方接收到预设需求方发送预测请求之后,可以提取预设需求方中携带的待预测用户的相关数据。其中,相关数据可以为密文的数据,相关数据的具体种类可以根据实际需求设置,示例的,相关数据可以包括待预测用户的预设维度下的用户特征。接着,基于相关数据,确定待预测用户的各用户特征对应的权重值,将各用户特征对应的权重值输入信用评分卡模型,之后获取信用评分卡模型针对各预设维度下的用户特征输出的信用评分,最后可以将信用评分之和确定为待预测用户对应的信用评分。待预测用户对应的信用评分可以为预测需求方提供风险评估的参考,用于风险评级。
本发明实施例中,接收预测需求方发送的预测请求,预测请求中包括待预测用户的相关数据,响应于预测请求,将待预测用户的相关数据作为信用评分卡模型的输入,以确定待预测用户对应的信用评分,向预测需求方返回信用评分。这样,预测需求方仅需提供待预测用户的相关数据,即可得到所需的信用评分,进而一定程度上可以降低信用评分的获取成本。同时,分离目标模型的建模过程和使用过程,确保预测需求方使用目标模型时,不会导致泄漏建模结果。且密文计算方基于生成好的目标模型为预测需求方进行信用评分预测,可以提高目标模型的利用率,进而避免模型资源闲置,增加模型资源所能产生的价值。
进一步地,上述用户标签可以用于表征样本用户是否违约。上述基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型的操作,可以具体包括:
步骤S41、根据所述训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数;所述用户标签矩阵中的行元素为所述训练数据矩阵中对应行元素所对应的样本用户的用户标签。
本步骤中,用户标签可以由0,1组成。示例的,可以以等于0的用户标签表征样本用户违约,以等于1的用户标签表征样本用户未违约。或者,也可以以等于0的用户标签表征样本用户未违约,以等于1的用户标签表征样本用户违约。对于训练数据矩阵中任一行表示的样本用户,可以nbins个该样本用户对应的用户标签作为一行元素,最后,按照训练数据矩阵中样本用户的顺序,对各行元素组合,进而得到用户标签矩阵。在一种实现方式中,用户标签可以为大小为(m,1)的向量,本发明实施例中,可以对其进行扩充,进而得到大小为(m,nbins)用户标签矩阵。
示例的,假设样本用户A、B、C、D对应的用户标签分别为1,0,1,0。那么,可以将样本用户A、B、C、D对应的用户标签分别扩充为:111,000,111,000。相应地,由于训练数据矩阵中的第一行表示样本用户A,那么可以将111作为用户标签矩阵中的第一行。由于训练数据矩阵中的第二行表示样本用户B,那么可以将000作为用户标签矩阵中的第二行。由于训练数据矩阵中的第三行表示样本用户C,那么可以将111作为用户标签矩阵中的第三行。由于训练数据矩阵中的第四行表示样本用户D,那么可以将000作为用户标签矩阵中的第四行。即,可以将这4个样本用户对应的用户标签
Figure 398839DEST_PATH_IMAGE003
扩充为如下所示的用户标签矩阵:
Figure 59628DEST_PATH_IMAGE004
由于用户标签可以表征样本用户是否违约,而训练数据矩阵可以表征样本用户的用户特征所属的分组,因此,可以结合训练数据矩阵以及用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数。
步骤S42、根据所述违约用户数以及所述未违约用户数,计算各所述用户特征对应的权重值;所述权重值用于表征所述用户特征对所述目标模型的输出值的影响程度。
在本发明实施例的一种实现方式中,对于任一预设维度下的用户特征,可以先计算该用户特征所对应的各分组内的违约用户数与样本用户中违约的用户总数量的比值,得到第一比值。以及,计算该用户特征所对应的各分组内的未违约用户数与样本用户中未违约的用户总数量的比值,得到第二比值。对于该用户特征所对应的任一分组,根据该分组对应的第一比值与第二比值,计算该分组对应的权重值。最后,将该用户特征所对应的各分组对应的权重值,确定为该用户特征对应的权重值。示例的,权重值可以具体为证据权重WOE值。进一步地,计算该分组对应的权重值时,可以将ln(*)作为该分组对应的权重值,其中,*=第一比值/第二比值,即,该权重值可以反映该用户特征在每个分组下违约用户相对未违约用户的占比与总体中违约用户相对未违约用户占比之间的差异,进而可以确保权重值可以较为直观的反映该用户特征对目标模型的输出值的影响程度。
步骤S43、根据各所述用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的所述目标模型。
本发明实施例中,预设的逻辑回归模型(Logistic Regression, LR)可以为密文的LR模型。具体的,可以基于各用户特征对应的权重值,对LR模型进行拟合训练,以获取其中的模型参数,即,得到逻辑回归模型的权重。在获得逻辑回归模型的权重之后,可以基于根据预设需求,例如,确定用户的基础信用分,确定区间分值大小(即,每个分组对应的分数)等,生成密文的评分卡,进而得到密文的目标模型。由于本发明实施例中获取目标模型的相关步骤均在密文上实现,因此,不会暴露样本数据的信息,进而可以确保数据安全。相应地,模型需求方后续在接收到密文的目标模型之后,可以将其解密,获得明文的评分卡,其中,该评分卡可以包括不同用户特征在不同分组下所对应的评分。当然,在另一种实现方式,密文计算方还可以基于样本用户的用户特征对应的权重值,以及生成的目标模型,确定样本用户的信用评分,并将密文的样本用户的信用评分一并发送给模型需求方。
进一步地,模型需求方可以基于待预测用户的相关数据,确定待预测用户的各用户特征对应的权重值,然后将各用户特征对应的权重值输入评分卡,以得到各用户特征对应的分值,最后,通过对各个分值进行求和,得到待预测用户对应的信用评分。其中,模型需求方计算各用户特征对应的权重值的实现方式可以与密文计算方中计算权重值的实现方式相同,进而一定程度上可以提高确保模型需求方在预测环节中的计算权重值的效率,进而提高模型需求方的预测速度。
本发明实施例中,根据训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数,用户标签矩阵中的行元素为训练数据矩阵中对应行元素对应的样本用户的用户标签,根据违约用户数以及未违约用户数,计算各用户特征对应的权重值,根据各用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的目标模型。这样,通过将密文训练数据转换为向量化的训练数据矩阵,并将用户标签扩充为用户标签矩阵,基于训练数据矩阵以及用户标签矩阵进行计算,即可得出各分组内的违约用户数以及未违约用户数,进而一定程度上可以提高整体的处理效率。
可选的,在一种实现方式中,上述根据所述训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征对应的各分组内的违约用户数以及未违约用户数的步骤,可以具体包括:
步骤S51、对于所述训练数据矩阵中的一个m*nbins维的矩阵分部,计算所述矩阵分部的转置矩阵与所述用户标签矩阵的乘积,得到第一结果矩阵;所述矩阵分部包含的元素基于一个所述预设维度的用户特征对应的分组编号编码得到。
本发明实施例中,对于第i个预设维度下的用户特征,可以取出该用户特征在训练数据矩阵OH中对应的矩阵分部OHi。其中,OHi包括第i个预设维度下的各用户特征所属分组的分组编号的编号向量,OHi大小为(m,nbins)。
示例的,对于第一个预设维度下的用户特征的矩阵分部OH1,
Figure 139579DEST_PATH_IMAGE005
进一步地,可以计算OHiT*Y,得到第一结果矩阵。其中,OHiT为OHi的转置矩阵。
步骤S52、将所述第一结果矩阵中各行元素之和,确定为所述行对应的分组内的第一数量。
由于第i个预设维度下的用户特征对应OHi中,各个行可以用于表示各个样本用户的第i个预设维度下的用户特征所属的分组,相应地,在一种实施方式中,每一列中包含的1的数量可以表示属于该列所在位对应的分组的用户特征数量,该列所在位对应的分组可以是分组编号为该列所在位对应表征的分组编号的分组。例如,第1列所在位为第1位,相应地,该列所在位对应表征的分组编号可以为1。第2列所在位为第2位,相应地,该列所在位对应表征的分组编号可以为2。且Y中的每一列可以表征各个样本用户是否违约,因此,基于OHi的转置矩阵与Y的乘积得到的第一结果矩阵中,每个行一定程度上可以表征各个分组对应的用户标签为1的样本用户的数量。
进一步地,可以计算各行元素之和,得到各个行对应的分组内的第一数量。具体的,在以等于1的用户标签表征样本用户违约的情况下,第一数量可以为违约用户数。在以等于0的用户标签表征样本用户违约的情况下,第一数量可以为未违约用户数。
步骤S53、对于任一所述分组,将所述样本用户的总数量与所述分组内的第一数量的差值,确定为第二数量;所述第一数量为所述未违约用户数时,所述第二数量为所述违约用户数;所述第一数量为所述违约用户数时,所述第二数量为所述未违约用户数。
具体的,可以基于上述步骤中的分组结果,确定落入各个分组内的样本用户的总数量,接着,以该总数量减去第一数量之后得到的差值,作为第二数量。
本发明实施例中,将一个预设维度的用户特征对应的分组编号编码得到部分作为一个的矩阵分部,通过计算矩阵分部与标签矩阵的乘积获取第一结果矩阵,计算第一结果矩阵中各行元素之和,即可得到各个行对应的分组内的第一数量,通过计算样本用户的总数量与分组内的第一数量的差值,即可得到第二数量。相较于现有方式中通过多次比较操作实现确定第一数量以及第二数量的方式,由于比较运算在密文上的计算复杂度较高且存在大量的单步循环,因此,计算需要大量的时间。而本发明实施例中仅需进行向量的矩阵相乘,基于相乘结果进行简单的求和求差值的操作,即可实现确定第一数量以及第二数量,进而一定程度上可以提高确定第一数量以及第二数量的效率。同时,通过提高确定第一数量以及第二数量的效率,可以进一步提高后续基于第一数量以及第二数量计算权重值的效率。
可选的,在一种实现方式中,上述根据各所述用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的目标模型的步骤,可以具体包括:
步骤S61、对于任一所述矩阵分部,计算所述矩阵分部与目标权重值组成的权重列矩阵的乘积,得到第二结果矩阵;所述目标权重值是所述矩阵分部对应的预设维度的用户特征所对应的权重值。
其中,权重列矩阵的大小可以为(nbins,1)。示例的,假设各预设维度下的用户特征的各个分组对应的权重值如下表所示:
特征 下界 下界 分组编号 权重值
特征1 -无穷 1.5 1 -0.1
特征1 1.5 4 2 0.2
特征1 4 无穷 3 0.8
特征2 -无穷 0.4 1 -0.5
特征2 0.4 0.6 2 0.5
特征 0.6 无穷 3 0.9
即,权重值向量可以表示为权重值=[-0.1,0.2,0.8,-0.5,0.5,0.9],第1个预设维度下用户特征的矩阵分部OH1对应的目标权重值可以为-0.1,0.2,0.8, OH1对应的权重列矩阵为权重值[0:3]T,即, [-0.1,0.2,0.8]T。第2个预设维度下用户特征的矩阵分部OH2对应的目标权重值可以为-0.5,0.5,0.9, OH2对应的权重列矩阵为[-0.5,0.5,0.9]T
进一步地,由于权重列矩阵可以表征预设维度下在各分组对应的权重值,即,表征该预设维度下的用户特征所对应的权重值,因此,通过计算矩阵分部与权重列矩阵的乘积得到的第二结果矩阵,可以表征每个样本用户的第i个预设维度下的用户特征对应的权重值。
步骤S62、将各个矩阵分部的第二结果矩阵进行组合,得到目标数据矩阵。
本发明实施例中,针对每个矩阵分部可以计算得到一个第二结果矩阵,进一步地,可以将基于矩阵分部计算得到的所有第二结果矩阵组合拼接,进而得到目标数据矩阵。该目标数据矩阵可以表征每个样本用户的每个预设维度下的用户特征对应的权重值。该目标数据矩阵相当于通过计算OH*WOE矩阵,生成的大小为(m,n)的原样本数据被WOE编码后的数据矩阵。其中,WOE矩阵可以是由所有矩阵分部的权重列矩阵拼接得到的大小为(nbins,n)的矩阵。这样,无需遍历每个特征去一一进行WOE编码,通过前述的矩阵扩充以及矩阵相乘的即可实现对样本数据的WOE编码,因此,可以提高计算速度。且相较于现有方式逐一比较每一个特征的分组编号,并比较统计每一分组内的正负样本数的方式,本发明实施例中上述向量化操作,使得后续可以基于向量矩阵之间的乘法,替代比较操作,进而一定程度实现快速的实WOE值的计算及转换,提高密文的目标模型的生成效率。
步骤S63、基于所述目标数据矩阵对所述逻辑回归模型进行训练,以获取密文的目标模型。
示例的,可以以目标数据矩阵作为逻辑回归模型的输入,以拟合获取其中的模型参数,进而通过模型参数创建评分卡模型。需要说明的是,在一种实现方式中,还可以是基于各个用户特征的WOE值,计算该用户特征对应的变量VI值,然后按照变量VI值的大小进行排序,以筛选变量VI值大于预设阈值的用户特征,然后基于筛选后的用户特征参与训练,进而一定程度上确保训练效果。
本发明实施例中,对于任一矩阵分部,计算矩阵分部与目标权重值组成的权重列矩阵的乘积,得到第二结果矩阵,目标权重值是矩阵分部对应的预设维度的用户特征所对应的权重值,将各个矩阵分部的第二结果矩阵进行组合,得到目标数据矩阵,基于目标数据矩阵对逻辑回归模型进行训练,以获取密文的目标模型。这样,仅需基于向量化的矩阵分部与权重列矩阵进行矩阵相乘,并结合相乘后得到的第二结果矩阵,即可得到用于对逻辑回归模型进行训练的目标数据矩阵,进而一定程度上可以提高训练效率。
下面对本发明实施例涉及的一种具体应用场景进行说明。目前,在各种贷款、信用评级、风险预测业务中,经常需要创建评分卡模型以进行信用风险评估领域。比如,往往需要使用信用评分作为用户贷款额度的依据,而信用评分则是通过评分卡模型计算出的。由于各金融机构所能获取的数据非常有限,主要的数据往往是来自于内部的非公开数据,因此,只能在内部应用,无法对外展示。但是有很多其他数据也可以作为信用评分,判定贷款额度的参考数据。比如,用户在其他金融机构的贷款数据、保险公司的数据、等等。
但是,为了确保用户隐私,各个金融机构往往不想将私有的数据进行共享,这就会导致数据孤岛现象,各个金融机构只能基于单一数据源的数据,创建评分卡模型。但是这种方式创建的评分卡模型的预测效果往往具有局限性,预测效果较差,容易产生由于评估不准确而造成损失的风险。
本发明实施例中,以密文的形式获取多个数据提供方提供的密文训练数据,在密文的基础上,融合多数据源的训练数据,以创建密文的评分卡模型。示例的,以存在4个数据提供方为例,图2是本发明实施例提供的一种系统流程示意图,如图2所示,各个数据提供方可以对数据加密之后,发送给密文计算方,模型需求方可以向密文计算方提供评分卡建模需求,即,发送模型生成请求。相应地,密文计算方可以通过多方安全计算,进行密文数据筛选,密文数据分组,密文WOE转换以及密文LR训练的操作,进而生成密文的评分卡模型。其中,在对数据的处理过程中均是对密文形态的数据进行处理,且密文形态的数据所蕴含的特征与原始数据相同,两者仅是数据形态上存在差别。因此,可以在确保数据的安全性的同时,实现模型训练。
最后,向模型需求方返回评分卡模块,使得模型需求方得到评分卡模块。且预测需求方可以向密文计算方提供查询需求,即,发送预测请求。相应地,密文计算方可以基于训练好的评分卡模型,确定用户的信用评分并返回给预测需求方,以便于预测需求方进行用户风险评估。
本发明实施例中,基于多方安全计算提供了一种在保护用户隐私,确保数据安全和模型安全的前提下,促进各数据提供方之间共享内部数据,打破数据孤岛,满足在不同数据提供方之间共享数据,以在更大规模、更高质量的数据集上进行模型训练的需求,且可以避免数据提供方直接共享未加密数据导致用户隐私泄露,数据提供方有价值的数据丢失,为数据提供方造成损失的问题。需要说明的是,本发明实施例中的密文计算方还可以与数据融合展示平台,以通过该数据融合展示平台实现同和多个数据提供方提供的数据,并基于该数据融合展示平台向用户展示是否成功完成建模。
装置实施例
参照图3,示出了本发明的一种模型生成装置实施例的结构框图,应用于密文计算方,所述装置包括:
第一接收模块201,用于接收模型需求方发送的模型生成请求;
获取模块202,用于响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
向量化模块203,用于对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
训练模块204,用于基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
第一返回模块205,用于向所述模型需求方返回所述密文的目标模型。
可选的,所述用户标签用于表征所述样本用户是否违约;所述训练模块204,具体用于:
根据所述训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数;所述用户标签矩阵中的行元素为所述训练数据矩阵中对应行元素所对应的样本用户的用户标签;
根据所述违约用户数以及所述未违约用户数,计算各所述用户特征对应的权重值;所述权重值用于表征所述用户特征对所述目标模型的输出值的影响程度;
根据各所述用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的所述目标模型。
可选的,所述训练模块204,还具体用于:
对于所述训练数据矩阵中的一个m* nbins维的矩阵分部,计算所述矩阵分部的转置矩阵与所述用户标签矩阵的乘积,得到第一结果矩阵;所述矩阵分部包含的元素基于一个所述预设维度的用户特征对应的分组编号编码得到;
将所述第一结果矩阵中各行元素之和,确定为所述行对应的分组内的第一数量;
对于任一所述分组,将所述样本用户的总数量与所述分组内的第一数量的差值,确定为第二数量;所述第一数量为所述未违约用户数时,所述第二数量为所述违约用户数;所述第一数量为所述违约用户数时,所述第二数量为所述未违约用户数。
可选的,所述训练模块204,还具体用于:
对于任一所述矩阵分部,计算所述矩阵分部与目标权重值组成的权重列矩阵的乘积,得到第二结果矩阵;所述目标权重值是所述矩阵分部对应的预设维度的用户特征所对应的权重值;
将各个矩阵分部的第二结果矩阵进行组合,得到目标数据矩阵;
基于所述目标数据矩阵对所述逻辑回归模型进行训练,以获取密文的目标模型。
可选的,所述目标模型为信用评分卡模型;所述装置还包括:
第二接收模块,用于接收预测需求方发送的预测请求;所述预测请求中包括待预测用户的相关数据;
确定模块,用于响应于所述预测请求,根据所述待预测用户的相关数据以及所述信用评分卡模型,确定所述待预测用户对应的信用评分;
第二返回模块,用于向所述预测需求方返回所述信用评分。
可选的,所述密文计算方的部分计算节点部署于所述数据提供方和/或所述模型需求方;
所述部分计算节点用于对部分密文训练数据进行处理。
可选的,所述向量化模块203,具体用于:
对所述用户特征进行数据分组,以确定所述用户特征对应的分组编号;
将所述用户特征对应的分组编号编码为编号向量;所述编号向量的维数为nbins
将各个所述样本用户的用户特征对应的编号向量分别作为行元素,以组成所述训练数据矩阵。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处以及所能达到的技术效果参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于模型生成的装置,包括有存储器,以及一个或者一个以上程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收模型需求方发送的模型生成请求;响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;向所述模型需求方返回所述密文的目标模型。
图4是根据一示例性实施例示出的一种用于模型生成的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/ O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/ O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的模型生成方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行上述模型生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种模型生成方法、一种模型生成装置和一种用于模型生成的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种模型生成方法,其特征在于,应用于密文计算方,所述方法包括:
接收模型需求方发送的模型生成请求;
响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
向所述模型需求方返回所述密文的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述用户标签用于表征所述样本用户是否违约;所述基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型,包括:
根据所述训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数;所述用户标签矩阵中的行元素为所述训练数据矩阵中对应行元素所对应的样本用户的用户标签;
根据所述违约用户数以及所述未违约用户数,计算各所述用户特征对应的权重值;所述权重值用于表征所述用户特征对所述目标模型的输出值的影响程度;
根据各所述用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的所述目标模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数,包括:
对于所述训练数据矩阵中的一个m*nbins维的矩阵分部,计算所述矩阵分部的转置矩阵与所述用户标签矩阵的乘积,得到第一结果矩阵;所述矩阵分部包含的元素基于一个所述预设维度的用户特征对应的分组编号编码得到;
将所述第一结果矩阵中各行元素之和,确定为所述行对应的分组内的第一数量;
对于任一所述分组,将所述样本用户的总数量与所述分组内的第一数量的差值,确定为第二数量;所述第一数量为所述未违约用户数时,所述第二数量为所述违约用户数;所述第一数量为所述违约用户数时,所述第二数量为所述未违约用户数。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的所述目标模型,包括:
对于任一所述矩阵分部,计算所述矩阵分部与目标权重值组成的权重列矩阵的乘积,得到第二结果矩阵;所述目标权重值是所述矩阵分部对应的预设维度的用户特征所对应的权重值;
将各个矩阵分部的第二结果矩阵进行组合,得到目标数据矩阵;
基于所述目标数据矩阵对所述逻辑回归模型进行训练,以获取密文的目标模型。
5.根据权利要求1至4任一所述的方法,其特征在于,所述目标模型为信用评分卡模型;所述方法还包括:
接收预测需求方发送的预测请求;所述预测请求中包括待预测用户的相关数据;
响应于所述预测请求,根据所述待预测用户的相关数据以及所述信用评分卡模型,确定所述待预测用户对应的信用评分;
向所述预测需求方返回所述信用评分。
6.根据权利要求1至4任一所述的方法,其特征在于,所述密文计算方的部分计算节点部署于所述数据提供方和/或所述模型需求方;
所述部分计算节点用于对部分密文训练数据进行处理。
7.根据权利要求1所述的方法,其特征在于,所述对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵,包括:
对所述用户特征进行数据分组,以确定所述用户特征对应的分组编号;
将所述用户特征对应的分组编号编码为编号向量;所述编号向量的维数为nbins
将各个所述样本用户的用户特征对应的编号向量分别作为行元素,以组成所述训练数据矩阵。
8.一种模型生成装置,其特征在于,应用于密文计算方,所述装置包括:
第一接收模块,用于接收模型需求方发送的模型生成请求;
获取模块,用于响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
向量化模块,用于对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
训练模块,用于基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
第一返回模块,用于向所述模型需求方返回所述密文的目标模型。
9.根据权利要求8所述的装置,其特征在于,所述用户标签用于表征所述样本用户是否违约;所述训练模块,具体用于:
根据所述训练数据矩阵以及m*nbins维的用户标签矩阵,计算各预设维度的用户特征所对应的各分组内的违约用户数以及未违约用户数;所述用户标签矩阵中的行元素为所述训练数据矩阵中对应行元素所对应的样本用户的用户标签;
根据所述违约用户数以及所述未违约用户数,计算各所述用户特征对应的权重值;所述权重值用于表征所述用户特征对所述目标模型的输出值的影响程度;
根据各所述用户特征对应的权重值,对预设的逻辑回归模型进行训练,以获取密文的所述目标模型。
10.根据权利要求9所述的装置,其特征在于,所述训练模块,还具体用于:
对于所述训练数据矩阵中的一个m*nbins维的矩阵分部,计算所述矩阵分部的转置矩阵与所述用户标签矩阵的乘积,得到第一结果矩阵;所述矩阵分部包含的元素基于一个所述预设维度的用户特征对应的分组编号编码得到;
将所述第一结果矩阵中各行元素之和,确定为所述行对应的分组内的第一数量;
对于任一所述分组,将所述样本用户的总数量与所述分组内的第一数量的差值,确定为第二数量;所述第一数量为所述未违约用户数时,所述第二数量为所述违约用户数;所述第一数量为所述违约用户数时,所述第二数量为所述未违约用户数。
11.根据权利要求10所述的装置,其特征在于,所述训练模块,还具体用于:
对于任一所述矩阵分部,计算所述矩阵分部与目标权重值组成的权重列矩阵的乘积,得到第二结果矩阵;所述目标权重值是所述矩阵分部对应的预设维度的用户特征所对应的权重值;
将各个矩阵分部的第二结果矩阵进行组合,得到目标数据矩阵;
基于所述目标数据矩阵对所述逻辑回归模型进行训练,以获取密文的目标模型。
12.根据权利要求8至11任一所述的装置,其特征在于,所述目标模型为信用评分卡模型;所述装置还包括:
第二接收模块,用于接收预测需求方发送的预测请求;所述预测请求中包括待预测用户的相关数据;
确定模块,用于响应于所述预测请求,根据所述待预测用户的相关数据以及所述信用评分卡模型,确定所述待预测用户对应的信用评分;
第二返回模块,用于向所述预测需求方返回所述信用评分。
13.根据权利要求8至11任一所述的装置,其特征在于,所述密文计算方的部分计算节点部署于所述数据提供方和/或所述模型需求方;
所述部分计算节点用于对部分密文训练数据进行处理。
14.根据权利要求8所述的装置,其特征在于,所述向量化模块,具体用于:
对所述用户特征进行数据分组,以确定所述用户特征对应的分组编号;
将所述用户特征对应的分组编号编码为编号向量;所述编号向量的维数为nbins
将各个所述样本用户的用户特征对应的编号向量分别作为行元素,以组成所述训练数据矩阵。
15.一种用于模型生成的装置,其特征在于,包括有存储器,以及一个或者一个以上程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收模型需求方发送的模型生成请求;
响应于所述模型生成请求,获取至少两个数据提供方提供的密文训练数据;所述密文训练数据包括样本用户的预设维度下的用户特征以及所述样本用户的用户标签;
对于任一预设维度的所述用户特征,对所述用户特征所属分组的分组编号进行向量编码,以获取向量化的训练数据矩阵;不同分组编号对应不同分组,不同分组表征不同的特征范围;所述训练数据矩阵的行数为所述样本用户的总数量m,所述训练数据矩阵的列数为所述预设维度的总数量n与所述用户特征对应的分组的总数量nbins之间的乘积;
基于所述训练数据矩阵以及所述用户标签,训练获取密文的目标模型;所述密文计算方对密文的处理方式与所述密文训练数据的加密方式相匹配;
向所述模型需求方返回所述密文的目标模型。
16.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7任一所述的模型生成方法。
CN202110580608.6A 2021-05-26 2021-05-26 一种模型生成方法、装置以及用于模型生成的装置 Active CN113033717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580608.6A CN113033717B (zh) 2021-05-26 2021-05-26 一种模型生成方法、装置以及用于模型生成的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580608.6A CN113033717B (zh) 2021-05-26 2021-05-26 一种模型生成方法、装置以及用于模型生成的装置

Publications (2)

Publication Number Publication Date
CN113033717A true CN113033717A (zh) 2021-06-25
CN113033717B CN113033717B (zh) 2021-08-31

Family

ID=76455787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580608.6A Active CN113033717B (zh) 2021-05-26 2021-05-26 一种模型生成方法、装置以及用于模型生成的装置

Country Status (1)

Country Link
CN (1) CN113033717B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821811A (zh) * 2021-08-26 2021-12-21 上海赢科信息技术有限公司 基于区块链的数据获取方法及系统、电子设备及存储介质
CN115880036A (zh) * 2023-02-23 2023-03-31 山东金潮交通设施有限公司 一种车位级动态共享智能管控交易平台

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059073A1 (en) * 2004-09-15 2006-03-16 Walzak Rebecca B System and method for analyzing financial risk
CN108053120A (zh) * 2017-12-15 2018-05-18 阿里巴巴集团控股有限公司 一种模型整合方法及装置
RU2680760C1 (ru) * 2018-04-04 2019-02-26 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Компьютеризированный способ разработки и управления моделями скоринга
CN110322335A (zh) * 2019-04-15 2019-10-11 梵界信息技术(上海)股份有限公司 一种基于woe转换通过机器学习的信贷客户资质分类方法
KR20200038130A (ko) * 2018-10-02 2020-04-10 코리아크레딧뷰로 (주) 성향기반 신용평가모형의 생성방법 및 운영방법
CN111563810A (zh) * 2020-04-28 2020-08-21 北京云从科技有限公司 信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备
CN112215702A (zh) * 2020-10-14 2021-01-12 深圳市欢太科技有限公司 信用风险的评估方法、移动终端及计算机存储介质
CN112668016A (zh) * 2020-01-02 2021-04-16 华控清交信息科技(北京)有限公司 一种模型训练方法、装置和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059073A1 (en) * 2004-09-15 2006-03-16 Walzak Rebecca B System and method for analyzing financial risk
CN108053120A (zh) * 2017-12-15 2018-05-18 阿里巴巴集团控股有限公司 一种模型整合方法及装置
RU2680760C1 (ru) * 2018-04-04 2019-02-26 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Компьютеризированный способ разработки и управления моделями скоринга
KR20200038130A (ko) * 2018-10-02 2020-04-10 코리아크레딧뷰로 (주) 성향기반 신용평가모형의 생성방법 및 운영방법
CN110322335A (zh) * 2019-04-15 2019-10-11 梵界信息技术(上海)股份有限公司 一种基于woe转换通过机器学习的信贷客户资质分类方法
CN112668016A (zh) * 2020-01-02 2021-04-16 华控清交信息科技(北京)有限公司 一种模型训练方法、装置和电子设备
CN111563810A (zh) * 2020-04-28 2020-08-21 北京云从科技有限公司 信贷风控模型生成方法、信用评估方法、系统、机器可读介质及设备
CN112215702A (zh) * 2020-10-14 2021-01-12 深圳市欢太科技有限公司 信用风险的评估方法、移动终端及计算机存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821811A (zh) * 2021-08-26 2021-12-21 上海赢科信息技术有限公司 基于区块链的数据获取方法及系统、电子设备及存储介质
CN113821811B (zh) * 2021-08-26 2023-08-29 上海赢科信息技术有限公司 基于区块链的数据获取方法及系统、电子设备及存储介质
CN115880036A (zh) * 2023-02-23 2023-03-31 山东金潮交通设施有限公司 一种车位级动态共享智能管控交易平台
CN115880036B (zh) * 2023-02-23 2023-06-06 山东金潮交通设施有限公司 一种车位级动态共享智能管控交易平台

Also Published As

Publication number Publication date
CN113033717B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
US20220036250A1 (en) Method and device for training tree model
CN109936525B (zh) 一种基于图结构模型的异常账号防控方法、装置以及设备
CN110457912B (zh) 数据处理方法、装置和电子设备
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN106850346B (zh) 用于监控节点变化及辅助识别黑名单的方法、装置及电子设备
CN111008709A (zh) 联邦学习、资料风险评估方法、装置和系统
CN113033717B (zh) 一种模型生成方法、装置以及用于模型生成的装置
CN111160572B (zh) 一种基于多标签的联邦学习方法、装置和系统
CN111144576A (zh) 模型训练方法、装置和电子设备
CN111859035B (zh) 数据处理方法及装置
CN112989399B (zh) 数据处理系统及方法
CN110874650B (zh) 融合公域数据和私有数据的联盟学习方法、装置和系统
CN114401154B (zh) 一种数据处理方法、装置、密文计算引擎和用于数据处理的装置
CN114978512B (zh) 一种隐私求交方法、装置和可读存储介质
CN109583228B (zh) 一种隐私信息管理方法、装置和系统
CN112487415B (zh) 计算任务的安全性检测方法及装置
CN111353554A (zh) 预测缺失的用户业务属性的方法及装置
CN113792890A (zh) 一种基于联邦学习的模型训练方法及相关设备
CN112667741B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112464257A (zh) 一种数据检测方法、装置和用于数据检测的装置
CN112580064B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112967044A (zh) 一种支付业务的处理方法及装置
Gursoy et al. Customer churn behaviour predicting using social network analysis techniques: A case study
CN113821764B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112668015B (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant