CN112597379B - 数据识别方法、装置和存储介质及电子装置 - Google Patents

数据识别方法、装置和存储介质及电子装置 Download PDF

Info

Publication number
CN112597379B
CN112597379B CN202011403676.7A CN202011403676A CN112597379B CN 112597379 B CN112597379 B CN 112597379B CN 202011403676 A CN202011403676 A CN 202011403676A CN 112597379 B CN112597379 B CN 112597379B
Authority
CN
China
Prior art keywords
sample data
target
data
characteristic value
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011403676.7A
Other languages
English (en)
Other versions
CN112597379A (zh
Inventor
李琨
郑方兰
何玥颖
彭成霞
田江
向小佳
丁永建
李璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Original Assignee
Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202011403676.7A priority Critical patent/CN112597379B/zh
Publication of CN112597379A publication Critical patent/CN112597379A/zh
Application granted granted Critical
Publication of CN112597379B publication Critical patent/CN112597379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种数据识别方法、装置和存储介质及电子装置。其中,该方法包括:获取目标用户的目标数据;将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签。本发明解决了数据识别的效率较低的技术问题。

Description

数据识别方法、装置和存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据识别方法、装置和存储介质及电子装置。
背景技术
近年来,随着互联网技术和传统金融的快速融合,越来越多的金融交易和活动(如第三方支付和网络借贷)已经实现了数字化,利用丰富的业务数据进行快速准确的预测是在金融实践中需求强烈。在众多的建模应用实践中,规则化的模型输出由于其易于解释,易于落地而受到业务应用的欢迎。
但金融场景下的业务数据往往不够海量、全面以及集中,而冲突的是建模往往需要海量、全面以及集中的业务数据,进而导致现有技术很难训练出一个完整可用的数据识别模型以识别业务数据,降低了数据的识别效率。概括而言,在现有技术中存在数据的识别效率较低的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据识别方法、装置和存储介质及电子装置,以至少解决数据识别的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种数据识别方法,包括:获取目标用户的目标数据;将上述目标数据输入数据识别模型,其中,上述数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,上述多个样本数据为整合至少两个目标来源的样本数据后获得的数据,上述至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取上述数据识别模型输出的识别结果,其中,上述识别结果包括上述目标用户的目标用户标签。
根据本发明实施例的另一方面,还提供了一种数据识别装置,包括:第一获取单元,用于获取目标用户的目标数据;输入单元,用于将上述目标数据输入数据识别模型,其中,上述数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,上述多个样本数据为整合至少两个目标来源的样本数据后获得的数据,上述至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;第二获取单元,用于获取上述数据识别模型输出的识别结果,其中,上述识别结果包括上述目标用户的目标用户标签。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据识别方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的数据识别方法。
在本发明实施例中,获取目标用户的目标数据;将上述目标数据输入数据识别模型,其中,上述数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,上述多个样本数据为整合至少两个目标来源的样本数据后获得的数据,上述至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取上述数据识别模型输出的识别结果,其中,上述识别结果包括上述目标用户的目标用户标签,利用结合联邦学习以及决策树模型的方式,无需等待完整的样本数据,通过多个来源的样本数据即可训练出较为完整的数据识别数据,进而达到了快速识别用户的数据,获取对应的用户标签的技术目的,从而实现了提高数据的识别效率的技术效果,进而解决了数据识别的效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据识别方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的数据识别方法的流程图的示意图;
图3是根据本发明实施例的一种可选的数据识别方法的示意图;
图4是根据本发明实施例的另一种可选的数据识别方法的示意图;
图5是根据本发明实施例的另一种可选的数据识别方法的示意图;
图6是根据本发明实施例的一种可选的数据识别装置的示意图;
图7是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种数据识别方法,可选地,作为一种可选的实施方式,上述数据识别方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。可选的,用户设备102上可以但不限于安装有图1所示的客户端,以及在该客户端上可以但不限于显示图1所示的用户查询界面,用户设备102的使用者可以但不限于在用户查询界面上输入目标用户1022的索引信息(例如名字张三等),以查询目标用户的目标用户标签1024。
具体过程可如下步骤:
步骤S102,用户设备102获取客户端的用户查询界面上触发的查询指令,其中,该查询指令用于查询用户名称为“张三”的用户标签,或者说,将用户名称为“张三”作为目标用户1022;
步骤S104-S106,用户设备102通过存储器104查找与用户名称“张三”对应的目标数据,并通过网络110将目标数据发送给服务器112;
步骤S108,服务器112通过处理引擎116将目标数据进行处理,从而生成识别结果,其中,处理目标数据可以但不限于通过数据识别模型,该识别结果可以但不限于携带有目标用户标签1024;
步骤S110-S112,服务器112通过网络110将识别结果发送给用户设备102,设备102中的处理器106将识别结果对应的目标用户标签1024显示在显示器108中,并将目标用户标签1024存储在存储器104中。可选的,目标数据可以但不限于存储在用户设备102,也可以但不限于存在服务器112。
可选地,作为一种可选的实施方式,如图2所示,数据识别方法包括:
S202,获取目标用户的目标数据;
S204,将上述目标数据输入数据识别模型,其中,上述数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,上述多个样本数据为整合至少两个目标来源的样本数据后获得的数据,上述至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;
S206,获取上述数据识别模型输出的识别结果,其中,上述识别结果包括上述目标用户的目标用户标签。
可选的,在本实施例中,上述数据识别方法可以但不限于应用在金融交易和活动(如第三方支付和网络借贷)的场景下,利用丰富的业务数据进行快速准确的预测或识别,帮助用户完成更高效的金融实践。例如,在精准营销实践中,利用上述数据识别方法,识别出用户数据对应的用户标签,进而基于上述用户标签开展产品推荐、拉新促活、客户挽留。再例如,在风控领域,利用上述数据识别方法,识别出用户数据对应的用户标签,进而基于上述用户标签判断与该用户的交易风险与欺诈用户。
可选的,在本实施例中,可以但不限于利用不纯度Gini系数或者信息增益等变量作为节点分裂筛选和分裂的依据,建立起决策树预测模型,然后根据给定的规则效果判定的标准,遍历决策树上的路径,生成相应的单条规则,其中,该单条规则携带有对应的用户标签。概括而言,决策树预测模型训练的是用户标签下该用户的数据规则。
可选的,在本实施例中,两个目标来源可以但不限于同持有相同领域下的样本数据,但可能一个目标来源内的样本数据较为全面,例如一个目标来源只持有样本数据但无对应的用户标签,一个目标来源虽然持有样本数据以及对应的用户标签,但样本数据的量较小,上述两个目标来源在现有技术中,都不满足建模的要求,进而也都无法通过训练得到完整的数据识别模型,更无法准确识别出用户数据,以获得对应的用户标签。而使用上述数据识别方法,可以灵活结合上述两个目标来源,以及其他目标来源,进而达到即使在样本数据存在缺陷的情况下,仍可训练出较为完整的识别模型,以加快数据识别的速度,提高数据识别的效率。
可选的,在本实施例中,可以但不限基于联邦学习方法实现上述数据识别方法,其中,联邦学习方法可以但不限于为是在数据隐私保护限制下,实现联合建模的方法。针对横向和纵向数据划分场景下传统基于不纯度或者信息增益的决策树类方法的实现,已有secureboost等多种实现。其中的关键技术,针对纵向数据联合场景下,计算二分类目标变量下的自变量特征分布,有通过基于Pailler半同态加密技术的实现方案。有相同样本的双方,有自变量X的A方,和有二分类目标变量Y的B方。B方经Pailler半同态加密后的Y传输到A方;A方利用自己的X统计相应取值的Y取值求和;计算完毕后,传回B方,B解密后,得到相应分布结果。
需要说明的是,获取目标用户的目标数据;将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签。充分利用联邦学习和规则系统的优点,该模型在联邦学习框架下,保证数据隐私安全的前提下,可以对跨机构场景的样本数据进行联合建模,解决了坏样本不充足无法抽取有效规则的问题;还可以对跨机构场景的特征进行联合建模,解决了有效特征缺乏的问题。
进一步举例说明,可选的例如图3所示,在客户端的用户查询界面中触发对目标用户302的查询指令;进一步响应该查询指令,将目标用户302的目标数据输入识别模型304,其中,目标数据可以但不限于在客户端本地,也可以但不限于在识别模型304所在的云端服务器;识别模型304基于目标数据输出识别结果,并将该识别结果发送至客户端;客户端基于识别结果获取目标用户标签304,并将目标用户标签304显示在用户查询界面。
通过本申请提供的实施例,获取目标用户的目标数据;将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签,利用结合联邦学习以及决策树模型的方式,无需等待完整的样本数据,通过多个来源的样本数据即可训练出较为完整的数据识别数据,进而达到了快速识别用户的数据,获取对应的用户标签的技术目的,从而实现了提高数据的识别效率的技术效果。
作为一种可选的方案,在获取目标用户的目标数据之前,包括:
S1,获取多个样本数据;
S2,对每个样本数据使用对应的用户标签进行标记,得到标记后的多个样本数据;
S3,将标记后的多个样本数据输入初始数据识别模型,以训练得到数据识别模型。
需要说明的是,获取多个样本数据;对每个样本数据使用对应的用户标签进行标记,得到标记后的多个样本数据;将标记后的多个样本数据输入初始数据识别模型,以训练得到数据识别模型。
进一步举例说明,可选的例如利用同态加密方法,获取目标来源的加密后的数据,进行相应的统计量计算;然后采用贪心算法构建决策树模型,每个节点以最大化目标标签的F评分作为选取特征和划分的标准,并设置提升阈值控制进行预剪枝,生成一棵决策树模型,进而获得F评分最优的一条规则。之后从数据集中去除该条规则覆盖的样本后,对未覆盖样本再次进行基于F评分的决策树规则抽取,自动化生成规则集,从而获得一组分别有明确评价的规则,方便应用。
可选的,在本实施例中,F评分是二分类场景常用的规则评价指标,特别是在分类标签不平衡的场景,对数量少的类别的F评分形式灵活,应用广泛。由此出发本方法采用F评分作为树模型作为选取特征和划分的标准。假设对于一个数据集D,正样本数为ntarget,正确预测的正样本数为ncorrect,预测为正的样本数为ncover。
预测的精确率为:
预测的召回率为:
F评分的定义计算公式如下,其中precision为精确率,recall为召回率:
根据应用场景需要可通过调节β的大小来调节F评分中精确率和召回率的权重,β=1时二者权重相同,β<1时,精确率权重更高,β>1时,召回率权重更高。F评分的值越大,则模型效果越好。因此在进行特征选取和划分时,应选取使F评分增加最多的特征和分割点。
可选的,在本实施例中,基于F评分的决策树建立和规则抽取过程包括:首先,对于任意一个特征Ai,将该特征每一个取值xi作为特征划分点进行F评分计算,假设该特征取值小于划分点的样本均为正样本可计算F评分1,均为负样本可计算F评分2,当F评分1大于F评分2时,则认为该特征取值小于划分点的样本均为正例,该取值作为划分点时的规则判断符为“<=”,即特征A取值“<=xi”的样本为正样本,该划分点的F评分取值为F评分1;反之则规则判断符为“>”,即特征A取值“>xi”的样本为正样本,该划分点的F评分取值为F评分2。遍历特征A的所有取值,取F评分最大的划分点xk作为特征A的最优划分点,在该划分点的规则作为划分规则,该划分点的F评分作为此次划分后的F评分。
在建立单个树模型和规则的过程中采用贪心算法,在每一个子节点都需要对数据集的所有特征A进行遍历,选择使F评分增加最多的特征A,划分点xk和对应的划分规则作为该子节点的最优划分规则,未划分为正样本的样本则进入下一个子节点进行新一轮规则抽取,最终形成单棵树模型,并组合所有子节点的划分规则形成单条规则。同时,本方法还对模型进行了预剪枝,设置临界值c和深度d,当某个子节点采用最优规则进行划分后的F评分F’相对于划分前的F评分的增量没有超过c,即F’<=F+c,或是树的深度达到d,则不再对该子节点进行划分,以避免模型过拟合。
可选的,在本实施例中,通过树模型的集成可提高模型预测效果。对于数据集D进行单条规则的自动化抽取,生成一个树模型。随后将此条规则未覆盖的数据作为新的数据集进行新一轮的自动化规则抽取,生成新的树模型,直至树的个数达到预设值。所有的单条规则便组合成为一个规则集同时该模型基于最大化目标标签的F评分生成多棵树,并自动化抽取每棵树生成的规则,形成规则集,同时通过预剪枝来避免过拟合和向量化计算来加速运算,以保证该模型具有计算速度快、业务可解释性、应用灵活和可移植性强等特点。
通过本申请提供的实施例,获取多个样本数据;对每个样本数据使用对应的用户标签进行标记,得到标记后的多个样本数据;将标记后的多个样本数据输入初始数据识别模型,以训练得到数据识别模型,达到了训练出识别足够精准的数据识别模型的目的,实现了提高数据识别模型的识别精准性的效果。
作为一种可选的方案,获取多个样本数据,包括:
S1,获取公钥,以及第一目标来源的第一样本数据,其中,第一样本数据使用公钥进行同态加密,至少两个目标来源包括第一目标来源,第一样本数据中包括对应的用户标签;
S2,基于第二目标来源的第二样本数据以及第一样本数据,提取目标特征值,其中,目标特征值用于表示对应一组样本数据以及样本数据对应的用户标签,目标特征值使用公钥进行同态加密;
S3,计算多个样本数据各自对应的目标特征值的求和结果,及第一分布统计结果,其中,第一分布统计结果用于表示对应的用户标签在第一样本数据以及第二样本数据的分布情况,其中,至少两个目标来源包括第二目标来源;
S4,将求和结果与第一分布统计结果发送至第一目标来源,以使第一目标来源使用公钥对应的私钥进行解码,得到解码后的求和结果和第一分布统计结果,并基于解码后的求和结果和第一分布统计结果获取多个样本数据。
可选的,在本实施例中,联邦学习框架按数据划分的形式,可分为纵向联邦学习和横向联邦学习两种不同场景。横向联邦学习是指每个参与者都持有包含所有特征和目标值的部分样本数据集(样本或者说样本数据不足),纵向联邦学习是指每个参与者都持有所有样本的部分特征数据(特征或者说用户标签不足)。在联邦学习框架下,参与建模的双方都将对自己的数据进行Paillier加法同态加密,本方法将基于加密后的数据计算F评分,并在此基础上进行决策树建模和自动化规则抽取。由于每个样本的加密均带有随机数的影响,相同数据不同次加密结果不同,所以各方都无法从模型计算结果推知对方的数据,确保了数据安全。针对两种联邦学习场景的特点,分别设计了2种不同的实现方式。
可选的,在本实施例中,第一目标来源的第一样本数据可以但不限于包括全面的用户标签,第二目标来源的第二样本数据可以但不限于包括部分或不全面的用户标签。
需要说明的是,获取公钥,以及第一目标来源的第一样本数据,其中,第一样本数据使用公钥进行同态加密,至少两个目标来源包括第一目标来源,第一样本数据中包括对应的用户标签;基于第二目标来源的第二样本数据以及第一样本数据,提取目标特征值,其中,目标特征值用于表示对应一组样本数据以及样本数据对应的用户标签,目标特征值使用公钥进行同态加密;计算多个样本数据各自对应的目标特征值的求和结果,及第一分布统计结果,其中,第一分布统计结果用于表示对应的用户标签在第一样本数据以及第二样本数据的分布情况,其中,至少两个目标来源包括第二目标来源;将求和结果与第一分布统计结果发送至第一目标来源,以使第一目标来源使用公钥对应的私钥进行解码,得到解码后的求和结果和第一分布统计结果,并基于解码后的求和结果和第一分布统计结果获取多个样本数据。
进一步举例说明,可选的例如图4所示,上述数据识别方法的参与双方分为被动方A(第二目标来源)和主动方B(第一目标来源)。对于B方的特征数据,计算F评分的过程与单独建模没有区别。而对于A方的特征数据,则需经过以下步骤:
步骤S1,由B方将目标值进行Paillier加法同态加密,并将加密后的目标值交给A方,并将Paillier加密的公钥发给A方;
步骤S2,A方通过结合己方特征计算每个特征取值下加密后目标值的求和结果和分布统计,并将序列化加密后的特征值,加密的目标统计值和分布统计加密后结果,交付给B方;
步骤S3,B方对目标值的统计值进行解码,进而得到相应的统计直方图,即可计算A方所有特征的每个取值的F评分,找出A方所有特征的最优划分点和相应最优F评分,并结合B方自己拥有的特征的最优F评分和划分点,确定最终单个分支选用的特征和划分点。
重复步骤S1-S3得到最终的树模型,获得单条规则。
由于B方是基于A方加密后的特征进行建模,因此B方虽然获得规则集,却无法反推A方特征取值,保护了被动方的数据隐私安全。可选的,图4中的公式仅用于举例,并不做限定。
通过本申请提供的实施例,获取公钥,以及第一目标来源的第一样本数据,其中,第一样本数据使用公钥进行同态加密,至少两个目标来源包括第一目标来源,第一样本数据中包括对应的用户标签;基于第二目标来源的第二样本数据以及第一样本数据,提取目标特征值,其中,目标特征值用于表示对应一组样本数据以及样本数据对应的用户标签,目标特征值使用公钥进行同态加密;计算多个样本数据各自对应的目标特征值的求和结果,及第一分布统计结果,其中,第一分布统计结果用于表示对应的用户标签在第一样本数据以及第二样本数据的分布情况,其中,至少两个目标来源包括第二目标来源;将求和结果与第一分布统计结果发送至第一目标来源,以使第一目标来源使用公钥对应的私钥进行解码,得到解码后的求和结果和第一分布统计结果,并基于解码后的求和结果和第一分布统计结果获取多个样本数据,达到了保护数据识别过程中的隐私性的目的,实现了提高数据识别过程中的安全性的效果。
作为一种可选的方案,获取多个样本数据,包括:
S1,获取第三目标来源的第三样本数据,并基于第三样本数据提取第一特征值,其中,第三样本数据包括对应的用户标签,每个第一特征值用于表示第三样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第三目标来源;
S2,获取第四目标来源的第四样本数据,并基于第四样本数据提取第二特征值,其中,第四样本数据包括对应的用户标签,每个第二特征值用于表示第四样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第四目标来源;
S3,合并第一特征值以及第二特征值,以获得合并后的特征值;
S4,基于合并后的特征值获取多个样本数据。
需要说明的是,获取第三目标来源的第三样本数据,并基于第三样本数据提取第一特征值,其中,第三样本数据包括对应的用户标签,每个第一特征值用于表示第三样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第三目标来源;获取第四目标来源的第四样本数据,并基于第四样本数据提取第二特征值,其中,第四样本数据包括对应的用户标签,每个第二特征值用于表示第四样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第四目标来源;合并第一特征值以及第二特征值,以获得合并后的特征值;基于合并后的特征值获取多个样本数据。
进一步举例说明,可选的例如图5所示,在横向联邦学习场景中,持有数据的双方C、D都持有各自样本的特征值和目标值。为了保护C、D方统计量的信息,以免泄露经营状况的信息,可以引入可信任的第三方作为协调者E。协调者持有加法同态加密的公钥和私钥,对从C、D获得的加密后的统计直方图进行建模,并将规则集反馈给C、D双方。具体操作步骤如下:
步骤S1,E方持有加法同态加密的公钥和私钥,并将公钥分享给C、D双方;
步骤S2,C、D双方统计各自的特征值的取值SjA,SjB反馈给E方;
步骤S3,E方将SjA,SjB合并为数据集Sj,基于Sj生成随机统计直方图并将加密后的统计直方图{Sj,[rj1],[rj2]}发送给C、D中的任意一方(图中为B方);
步骤S4,D方基于自己的数据和E方发来的随机统计直方图,加总计算出基于经过加密的D方样本的特征值和目标值统计分布{SjB,Bj1,Bj2},交给C方;
步骤S5,C方基于自己的数据和D方发来的统计直方图,加总计算出基于经过加密的C、D双方所有样本的特征值和目标值统计分布{Sj,CDj1,CDj2},交给E方;
步骤S6,E方基于最后的统计分布对数据进行解密并计算各特征的最优F评分,基于F评分进行节点特征和划分点的选取。
重复上述步骤S1-S6,E方得到最终的树模型,获得单条规则。最后将获得的规则反馈给C、D双方。可选的,图5中的公式仅用于举例,并不做限定。
由于持有数据的AB双方都只知道某个特征基于己方数据的统计直方图,无法反推其他参与方的数据,有效的保护了各参与方的数据隐私安全。
通过本申请提供的实施例,获取第三目标来源的第三样本数据,并基于第三样本数据提取第一特征值,其中,第三样本数据包括对应的用户标签,每个第一特征值用于表示第三样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第三目标来源;获取第四目标来源的第四样本数据,并基于第四样本数据提取第二特征值,其中,第四样本数据包括对应的用户标签,每个第二特征值用于表示第四样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第四目标来源;合并第一特征值以及第二特征值,以获得合并后的特征值;基于合并后的特征值获取多个样本数据,达到了保护数据识别过程中的隐私性的目的,实现了提高数据识别过程中的安全性的效果。
作为一种可选的方案,基于合并后的特征值获取多个样本数据,包括:
S1,将合并后的特征值使用公钥进行动态加密,并发送至第三目标来源,以使第三目标来源基于第三样本数据以及合并后的特征值进行加总计算计算,获取第二分布统计结果,其中,第二分布统计结果用于表示对应的用户标签在第三样本数据的分布情况;
S2,将第一特征值以及第二分布统计结果发送至第四目标来源,以使第四目标来源基于第二特征值、第一特征值以及第二分布统计结果进行计算,获取第三分布统计结果,其中,第一特征值使用公钥进行动态加密,第三分布统计结果用于表示对应的用户标签在第三样本数据以及第四样本数据的分布情况;
S3,接收第四目标来源发送的第二特征值、第一特征值以及第三分别统计结果,其中,第二特征值使用公钥进行动态加密;
S4,使用公钥对应的私钥加密第二特征值、第一特征值以及第三分别统计结果,并基于解码后的第二特征值、第一特征值以及第三分别统计结果,获取多个样本数据。
需要说明的是,将合并后的特征值使用公钥进行动态加密,并发送至第三目标来源,以使第三目标来源基于第三样本数据以及合并后的特征值进行加总计算计算,获取第二分布统计结果,其中,第二分布统计结果用于表示对应的用户标签在第三样本数据的分布情况;将第一特征值以及第二分布统计结果发送至第四目标来源,以使第四目标来源基于第二特征值、第一特征值以及第二分布统计结果进行计算,获取第三分布统计结果,其中,第一特征值使用公钥进行动态加密,第三分布统计结果用于表示对应的用户标签在第三样本数据以及第四样本数据的分布情况;接收第四目标来源发送的第二特征值、第一特征值以及第三分别统计结果,其中,第二特征值使用公钥进行动态加密;使用公钥对应的私钥加密第二特征值、第一特征值以及第三分别统计结果,并基于解码后的第二特征值、第一特征值以及第三分别统计结果,获取多个样本数据。
通过本申请提供的实施例,将合并后的特征值使用公钥进行动态加密,并发送至第三目标来源,以使第三目标来源基于第三样本数据以及合并后的特征值进行加总计算计算,获取第二分布统计结果,其中,第二分布统计结果用于表示对应的用户标签在第三样本数据的分布情况;将第一特征值以及第二分布统计结果发送至第四目标来源,以使第四目标来源基于第二特征值、第一特征值以及第二分布统计结果进行计算,获取第三分布统计结果,其中,第一特征值使用公钥进行动态加密,第三分布统计结果用于表示对应的用户标签在第三样本数据以及第四样本数据的分布情况;接收第四目标来源发送的第二特征值、第一特征值以及第三分别统计结果,其中,第二特征值使用公钥进行动态加密;使用公钥对应的私钥加密第二特征值、第一特征值以及第三分别统计结果,并基于解码后的第二特征值、第一特征值以及第三分别统计结果,获取多个样本数据,达到了保护数据识别过程中的隐私性的目的,实现了提高数据识别过程中的安全性的效果。
作为一种可选的方案,将标记后的多个样本数据输入初始数据识别模型,以训练得到数据识别模型,包括:
S1,重复执行以下步骤,直至得到数据识别模型:
S2,从标记后的多个样本数据中确定出当前样本数据,并确定当前数据识别模型,其中,当前样本数据中包括对应的用户标签;
S3,通过当前数据识别模型识别出当前特征值序列,其中,当前数据识别模型以最大化目标标签的F评分作为当前选取节点类型的配置依据,和当前选取节点的下一选取节点的划分依据,当前特征值序列由每个选取节点对应的特征值组成;
S4,在当前特征值序列对应的识别结果未达到识别收敛条件的情况下,获取下一个样本数据作为当前样本数据;
S5,在当前特征值序列对应的识别结果达到识别收敛条件的情况下,确定当前数据识别模型为数据识别模型。
需要说明的是,重复执行以下步骤,直至得到数据识别模型:从标记后的多个样本数据中确定出当前样本数据,并确定当前数据识别模型,其中,当前样本数据中包括对应的用户标签;通过当前数据识别模型识别出当前特征值序列,其中,当前数据识别模型以最大化目标标签的F评分作为当前选取节点类型的配置依据,和当前选取节点的下一选取节点的划分依据,当前特征值序列由每个选取节点对应的特征值组成;在当前特征值序列对应的识别结果未达到识别收敛条件的情况下,获取下一个样本数据作为当前样本数据;在当前特征值序列对应的识别结果达到识别收敛条件的情况下,确定当前数据识别模型为数据识别模型。
通过本申请提供的实施例,重复执行以下步骤,直至得到数据识别模型:从标记后的多个样本数据中确定出当前样本数据,并确定当前数据识别模型,其中,当前样本数据中包括对应的用户标签;通过当前数据识别模型识别出当前特征值序列,其中,当前数据识别模型以最大化目标标签的F评分作为当前选取节点类型的配置依据,和当前选取节点的下一选取节点的划分依据,当前特征值序列由每个选取节点对应的特征值组成;在当前特征值序列对应的识别结果未达到识别收敛条件的情况下,获取下一个样本数据作为当前样本数据;在当前特征值序列对应的识别结果达到识别收敛条件的情况下,确定当前数据识别模型为数据识别模型,达到了保证该模型具有计算速度快、业务可解释性、应用灵活和可移植性强等特点的目的,实现了提高模型的数据识别能力的效果。
作为一种可选的方案,在获取数据识别模型输出的识别结果之后,包括以下至少之一:
S1,在目标用户标签指示目标用户执行第一业务的风险值大于等于第一阈值的情况下,禁止目标用户执行第一业务;
S1,在目标用户标签指示目标用户执行第二业务的预测值大于等于第二阈值的情况下,向目标用户所在的目标客户端发送目标信息,其中,目标信息用于推荐目标用户执行第二业务。
可选的,原有基于传统决策树的规则抽取方法,在建立决策树的过程中,并不是针对规则的评价指标来生成树的。在此基础上,抽取的规则不具有在相应规则评价意义下最优的性质。另外单棵树直接生成的规则集,规则集内规则相关性强,业务挑选使用不够灵活。且传统的规则引擎系统大多采取基于特征匹配的专家系统或者基于统计的机器学习算法,这种传统的规则系统不可避免存在两个基本问题:(1)由于缺乏足够的样本,无法通过专家经验学习到有效的规则;(2)由于目标样本的延迟特征,规则系统无法及时更新、误报率高和维护成本高,由于上述两个基本问题,导致在具体的应用场景,例如在风控领域下,无法准确识别高风险用户,进而容易发生欺诈事件;再例如在精准营销实践场景下,无法准确识别用户的消费定位,从而无法为用户推荐最契合的商品,导致商品滞销的同时,也影响了用户的消费体验。而在本实施例中,通过上述数据识别方法,准确获取数据的识别结果,并根据识别结果指示的风险值预测以及判断目标用户执行第一业务所带来的交易风险,或根据识别结果指示的预测值预测以及判断目标用户执行第二业务的倾向程度。
需要说明的是,在目标用户标签指示目标用户执行第一业务的风险值大于等于第一阈值的情况下,禁止目标用户执行第一业务;在目标用户标签指示目标用户执行第二业务的预测值大于等于第二阈值的情况下,向目标用户所在的目标客户端发送目标信息,其中,目标信息用于推荐目标用户执行第二业务。
通过本申请提供的实施例,在目标用户标签指示目标用户执行第一业务的风险值大于等于第一阈值的情况下,禁止目标用户执行第一业务;在目标用户标签指示目标用户执行第二业务的预测值大于等于第二阈值的情况下,向目标用户所在的目标客户端发送目标信息,其中,目标信息用于推荐目标用户执行第二业务,达到了提高用户与业务执行的契合度的目的,实现了控制业务执行风险以及执行准确性的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述数据识别装置的数据识别装置。如图6所示,该装置包括:
第一获取单元602,用于获取目标用户的目标数据;
输入单元604,用于将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;
第二获取单元606,用于获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签。
可选的,在本实施例中,上述数据识别装置可以但不限于应用在金融交易和活动(如第三方支付和网络借贷)的场景下,利用丰富的业务数据进行快速准确的预测或识别,帮助用户完成更高效的金融实践。例如,在精准营销实践中,利用上述数据识别装置,识别出用户数据对应的用户标签,进而基于上述用户标签开展产品推荐、拉新促活、客户挽留。再例如,在风控领域,利用上述数据识别装置,识别出用户数据对应的用户标签,进而基于上述用户标签判断与该用户的交易风险与欺诈用户。
可选的,在本实施例中,可以但不限于利用不纯度Gini系数或者信息增益等变量作为节点分裂筛选和分裂的依据,建立起决策树预测模型,然后根据给定的规则效果判定的标准,遍历决策树上的路径,生成相应的单条规则,其中,该单条规则携带有对应的用户标签。概括而言,决策树预测模型训练的是用户标签下该用户的数据规则。
可选的,在本实施例中,两个目标来源可以但不限于同持有相同领域下的样本数据,但可能一个目标来源内的样本数据较为全面,例如一个目标来源只持有样本数据但无对应的用户标签,一个目标来源虽然持有样本数据以及对应的用户标签,但样本数据的量较小,上述两个目标来源在现有技术中,都不满足建模的要求,进而也都无法通过训练得到完整的数据识别模型,更无法准确识别出用户数据,以获得对应的用户标签。而使用上述数据识别装置,可以灵活结合上述两个目标来源,以及其他目标来源,进而达到即使在样本数据存在缺陷的情况下,仍可训练出较为完整的识别模型,以加快数据识别的速度,提高数据识别的效率。
可选的,在本实施例中,可以但不限基于联邦学习装置实现上述数据识别装置,其中,联邦学习装置可以但不限于为是在数据隐私保护限制下,实现联合建模的装置。针对横向和纵向数据划分场景下传统基于不纯度或者信息增益的决策树类装置的实现,已有secureboost等多种实现。其中的关键技术,针对纵向数据联合场景下,计算二分类目标变量下的自变量特征分布,有通过基于Pailler半同态加密技术的实现方案。有相同样本的双方,有自变量X的A方,和有二分类目标变量Y的B方。B方经Pailler半同态加密后的Y传输到A方;A方利用自己的X统计相应取值的Y取值求和;计算完毕后,传回B方,B解密后,得到相应分布结果。
需要说明的是,获取目标用户的目标数据;将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签。充分利用联邦学习和规则系统的优点,该模型在联邦学习框架下,保证数据隐私安全的前提下,可以对跨机构场景的样本数据进行联合建模,解决了坏样本不充足无法抽取有效规则的问题;还可以对跨机构场景的特征进行联合建模,解决了有效特征缺乏的问题。
具体实施例可以参考上述数据识别装置中所示示例,本示例中在此不再赘述。
通过本申请提供的实施例,获取目标用户的目标数据;将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签,利用结合联邦学习以及决策树模型的方式,无需等待完整的样本数据,通过多个来源的样本数据即可训练出较为完整的数据识别数据,进而达到了快速识别用户的数据,获取对应的用户标签的技术目的,从而实现了提高数据的识别效率的技术效果。
作为一种可选的方案,包括:
第三获取单元,用于在获取目标用户的目标数据之前,获取多个样本数据;
标记单元,用于在获取目标用户的目标数据之前,对每个样本数据使用对应的用户标签进行标记,得到标记后的多个样本数据;
训练单元,用于在获取目标用户的目标数据之前,将标记后的多个样本数据输入初始数据识别模型,以训练得到数据识别模型。
具体实施例可以参考上述数据识别方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第三获取单元,包括:
第一获取模块,用于获取公钥,以及第一目标来源的第一样本数据,其中,第一样本数据使用公钥进行同态加密,至少两个目标来源包括第一目标来源,第一样本数据中包括对应的用户标签;
提取模块,用于基于第二目标来源的第二样本数据以及第一样本数据,提取目标特征值,其中,目标特征值用于表示对应一组样本数据以及样本数据对应的用户标签,目标特征值使用公钥进行同态加密;
计算模块,用于计算多个样本数据各自对应的目标特征值的求和结果,及第一分布统计结果,其中,第一分布统计结果用于表示对应的用户标签在第一样本数据以及第二样本数据的分布情况,其中,至少两个目标来源包括第二目标来源;
发送模块,用于将求和结果与第一分布统计结果发送至第一目标来源,以使第一目标来源使用公钥对应的私钥进行解码,得到解码后的求和结果和第一分布统计结果,并基于解码后的求和结果和第一分布统计结果获取多个样本数据。
具体实施例可以参考上述数据识别方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第三获取单元,包括:
第二获取模块,用于获取第三目标来源的第三样本数据,并基于第三样本数据提取第一特征值,其中,第三样本数据包括对应的用户标签,每个第一特征值用于表示第三样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第三目标来源;
第三获取模块,用于获取第四目标来源的第四样本数据,并基于第四样本数据提取第二特征值,其中,第四样本数据包括对应的用户标签,每个第二特征值用于表示第四样本数据的每一组样本数据以及样本数据对应的用户标签,至少两个目标来源包括第四目标来源;
合并模块,用于合并第一特征值以及第二特征值,以获得合并后的特征值;
第四获取模块,用于基于合并后的特征值获取多个样本数据。
具体实施例可以参考上述数据识别方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第四获取模块,包括:
第一发送子模块,用于将合并后的特征值使用公钥进行动态加密,并发送至第三目标来源,以使第三目标来源基于第三样本数据以及合并后的特征值进行加总计算计算,获取第二分布统计结果,其中,第二分布统计结果用于表示对应的用户标签在第三样本数据的分布情况;
第二发送子模块,用于将第一特征值以及第二分布统计结果发送至第四目标来源,以使第四目标来源基于第二特征值、第一特征值以及第二分布统计结果进行计算,获取第三分布统计结果,其中,第一特征值使用公钥进行动态加密,第三分布统计结果用于表示对应的用户标签在第三样本数据以及第四样本数据的分布情况;
接收子模块,用于接收第四目标来源发送的第二特征值、第一特征值以及第三分别统计结果,其中,第二特征值使用公钥进行动态加密;
获取子模块,用于使用公钥对应的私钥加密第二特征值、第一特征值以及第三分别统计结果,并基于解码后的第二特征值、第一特征值以及第三分别统计结果,获取多个样本数据。
具体实施例可以参考上述数据识别方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,输入单元604,包括:
重复模块,用于重复执行以下步骤,直至得到数据识别模型:
确定模块,用于从标记后的多个样本数据中确定出当前样本数据,并确定当前数据识别模型,其中,当前样本数据中包括对应的用户标签;
识别模块,用于通过当前数据识别模型识别出当前特征值序列,其中,当前数据识别模型以最大化目标标签的F评分作为当前选取节点类型的配置依据,和当前选取节点的下一选取节点的划分依据,当前特征值序列由每个选取节点对应的特征值组成;
第五获取模块,用于在当前特征值序列对应的识别结果未达到识别收敛条件的情况下,获取下一个样本数据作为当前样本数据;
第六获取模块,用于在当前特征值序列对应的识别结果达到识别收敛条件的情况下,确定当前数据识别模型为数据识别模型。
具体实施例可以参考上述数据识别方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括以下至少之一:
禁止单元,用于在获取数据识别模型输出的识别结果之后,在目标用户标签指示目标用户执行第一业务的风险值大于等于第一阈值的情况下,禁止目标用户执行第一业务;
发送单元,用于在获取数据识别模型输出的识别结果之后,在目标用户标签指示目标用户执行第二业务的预测值大于等于第二阈值的情况下,向目标用户所在的目标客户端发送目标信息,其中,目标信息用于推荐目标用户执行第二业务。
具体实施例可以参考上述数据识别方法中所示示例,本示例中在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述数据识别方法的电子装置,如图7所示,该电子装置包括存储器702和处理器704,该存储器702中存储有计算机程序,该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取目标用户的目标数据;
S2,将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;
S3,获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签。
可选地,本领域普通技术人员可以理解,图7所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等),或者具有与图7所示不同的配置。
其中,存储器702可用于存储软件程序以及模块,如本发明实施例中的数据识别方法和装置对应的程序指令/模块,处理器704通过运行存储在存储器702内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据识别方法。存储器702可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器702可进一步包括相对于处理器704远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器702具体可以但不限于用于存储目标数据、识别结果以及目标用户标签等信息。作为一种示例,如图7所示,上述存储器702中可以但不限于包括上述数据识别装置中的第一获取单元602、输入单元604及第二获取单元606。此外,还可以包括但不限于上述数据识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置706包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置706为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器708,用于显示上述目标数据、识别结果以及目标用户标签等信息;和连接总线710,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标用户的目标数据;
S2,将目标数据输入数据识别模型,其中,数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,多个样本数据为整合至少两个目标来源的样本数据后获得的数据,至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;
S3,获取数据识别模型输出的识别结果,其中,识别结果包括目标用户的目标用户标签。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种数据识别方法,其特征在于,包括:
获取目标用户的目标数据;
将所述目标数据输入数据识别模型,其中,所述数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,所述多个样本数据为整合至少两个目标来源的样本数据后获得的数据,所述至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;
获取所述数据识别模型输出的识别结果,其中,所述识别结果包括所述目标用户的目标用户标签;
在所述获取目标用户的目标数据之前,包括:
获取所述多个样本数据;
对每个所述样本数据使用对应的用户标签进行标记,得到标记后的所述多个样本数据;
将标记后的所述多个样本数据输入初始数据识别模型,以训练得到所述数据识别模型;
所述获取所述多个样本数据,包括:
获取公钥,以及第一目标来源的第一样本数据,其中,所述第一样本数据使用所述公钥进行同态加密,所述至少两个目标来源包括所述第一目标来源,所述第一样本数据中包括所述对应的用户标签;基于第二目标来源的第二样本数据以及所述第一样本数据,提取目标特征值,其中,所述目标特征值用于表示对应一组样本数据以及所述样本数据对应的用户标签,所述目标特征值使用所述公钥进行所述同态加密;计算所述多个样本数据各自对应的所述目标特征值的求和结果,及第一分布统计结果,其中,所述第一分布统计结果用于表示所述对应的用户标签在所述第一样本数据以及所述第二样本数据的分布情况,其中,所述至少两个目标来源包括所述第二目标来源;将所述求和结果与所述第一分布统计结果发送至所述第一目标来源,以使所述第一目标来源使用所述公钥对应的私钥进行解码,得到解码后的所述求和结果和所述第一分布统计结果,并基于解码后的所述求和结果和所述第一分布统计结果获取所述多个样本数据;或,
获取第三目标来源的第三样本数据,并基于所述第三样本数据提取第一特征值,其中,所述第三样本数据包括所述对应的用户标签,每个所述第一特征值用于表示所述第三样本数据的每一组样本数据以及所述样本数据对应的用户标签,所述至少两个目标来源包括所述第三目标来源;
获取第四目标来源的第四样本数据,并基于所述第四样本数据提取第二特征值,其中,所述第四样本数据包括所述对应的用户标签,每个所述第二特征值用于表示所述第四样本数据的每一组样本数据以及所述样本数据对应的用户标签,所述至少两个目标来源包括所述第四目标来源;
合并所述第一特征值以及所述第二特征值,以获得合并后的特征值;
将所述合并后的特征值使用公钥进行动态加密,并发送至所述第三目标来源,以使所述第三目标来源基于所述第三样本数据以及所述合并后的特征值进行加总计算计算,获取第二分布统计结果,其中,所述第二分布统计结果用于表示所述对应的用户标签在所述第三样本数据的分布情况;
将所述第一特征值以及所述第二分布统计结果发送至所述第四目标来源,以使所述第四目标来源基于所述第二特征值、所述第一特征值以及所述第二分布统计结果进行计算,获取第三分布统计结果,其中,所述第一特征值使用所述公钥进行动态加密,所述第三分布统计结果用于表示所述对应的用户标签在所述第三样本数据以及所述第四样本数据的分布情况;
接收所述第四目标来源发送的所述第二特征值、所述第一特征值以及所述第三分别统计结果,其中,所述第二特征值使用所述公钥进行动态加密;
使用所述公钥对应的私钥加密所述第二特征值、所述第一特征值以及所述第三分别统计结果,并基于解码后的所述第二特征值、所述第一特征值以及所述第三分别统计结果,获取所述多个样本数据。
2.根据权利要求1所述的方法,其特征在于,所述将标记后的所述多个样本数据输入初始数据识别模型,以训练得到所述数据识别模型,包括:
重复执行以下步骤,直至得到所述数据识别模型:
从标记后的所述多个样本数据中确定出当前样本数据,并确定当前数据识别模型,其中,所述当前样本数据中包括所述对应的用户标签;
通过所述当前数据识别模型识别出当前特征值序列,其中,所述当前数据识别模型以最大化目标标签的F评分作为当前选取节点类型的配置依据,和所述当前选取节点的下一选取节点的划分依据,所述当前特征值序列由每个选取节点对应的特征值组成;
在所述当前特征值序列对应的识别结果未达到识别收敛条件的情况下,获取下一个样本数据作为所述当前样本数据;
在所述当前特征值序列对应的识别结果达到所述识别收敛条件的情况下,确定所述当前数据识别模型为所述数据识别模型。
3.根据权利要求1至2中任一项中所述的方法,其特征在于,在所述获取所述数据识别模型输出的识别结果之后,包括以下至少之一:
在所述目标用户标签指示所述目标用户执行第一业务的风险值大于等于第一阈值的情况下,禁止所述目标用户执行所述第一业务;
在所述目标用户标签指示所述目标用户执行第二业务的预测值大于等于第二阈值的情况下,向所述目标用户所在的目标客户端发送目标信息,其中,所述目标信息用于推荐所述目标用户执行所述第二业务。
4.一种数据识别装置,其特征在于,包括:
第一获取单元,用于获取目标用户的目标数据;
输入单元,用于将所述目标数据输入数据识别模型,其中,所述数据识别模型为利用多个样本数据进行训练后得到的用于识别数据的决策树模型,所述多个样本数据为整合至少两个目标来源的样本数据后获得的数据,所述至少两个目标来源中的至少一个目标来源的样本数据中包括至少一个类别的用户标签;
第二获取单元,用于获取所述数据识别模型输出的识别结果,其中,所述识别结果包括所述目标用户的目标用户标签;
第三获取单元,用于在所述获取目标用户的目标数据之前,获取所述多个样本数据;
标记单元,用于在所述获取目标用户的目标数据之前,对每个所述样本数据使用对应的用户标签进行标记,得到标记后的所述多个样本数据;
训练单元,用于在所述获取目标用户的目标数据之前,将标记后的所述多个样本数据输入初始数据识别模型,以训练得到所述数据识别模型;
所述第三获取单元,包括:
第一获取模块,用于获取公钥,以及第一目标来源的第一样本数据,其中,所述第一样本数据使用所述公钥进行同态加密,所述至少两个目标来源包括所述第一目标来源,所述第一样本数据中包括所述对应的用户标签;
提取模块,用于基于第二目标来源的第二样本数据以及所述第一样本数据,提取目标特征值,其中,所述目标特征值用于表示对应一组样本数据以及所述样本数据对应的用户标签,所述目标特征值使用所述公钥进行所述同态加密;
计算模块,用于计算所述多个样本数据各自对应的所述目标特征值的求和结果,及第一分布统计结果,其中,所述第一分布统计结果用于表示所述对应的用户标签在所述第一样本数据以及所述第二样本数据的分布情况,其中,所述至少两个目标来源包括所述第二目标来源;
发送模块,用于将所述求和结果与所述第一分布统计结果发送至所述第一目标来源,以使所述第一目标来源使用所述公钥对应的私钥进行解码,得到解码后的所述求和结果和所述第一分布统计结果,并基于解码后的所述求和结果和所述第一分布统计结果获取所述多个样本数据;
所述第三获取单元,还包括:
第二获取模块,用于获取第三目标来源的第三样本数据,并基于所述第三样本数据提取第一特征值,其中,所述第三样本数据包括所述对应的用户标签,每个所述第一特征值用于表示所述第三样本数据的每一组样本数据以及所述样本数据对应的用户标签,所述至少两个目标来源包括所述第三目标来源;
第三获取模块,用于获取第四目标来源的第四样本数据,并基于所述第四样本数据提取第二特征值,其中,所述第四样本数据包括所述对应的用户标签,每个所述第二特征值用于表示所述第四样本数据的每一组样本数据以及所述样本数据对应的用户标签,所述至少两个目标来源包括所述第四目标来源;
合并模块,用于合并所述第一特征值以及所述第二特征值,以获得合并后的特征值;
第四获取模块,用于基于所述合并后的特征值获取所述多个样本数据;
所述第四获取模块,包括:
第一发送子模块,用于将所述合并后的特征值使用公钥进行动态加密,并发送至所述第三目标来源,以使所述第三目标来源基于所述第三样本数据以及所述合并后的特征值进行加总计算计算,获取第二分布统计结果,其中,所述第二分布统计结果用于表示所述对应的用户标签在所述第三样本数据的分布情况;
第二发送子模块,用于将所述第一特征值以及所述第二分布统计结果发送至所述第四目标来源,以使所述第四目标来源基于所述第二特征值、所述第一特征值以及所述第二分布统计结果进行计算,获取第三分布统计结果,其中,所述第一特征值使用所述公钥进行动态加密,所述第三分布统计结果用于表示所述对应的用户标签在所述第三样本数据以及所述第四样本数据的分布情况;
接收子模块,用于接收所述第四目标来源发送的所述第二特征值、所述第一特征值以及所述第三分别统计结果,其中,所述第二特征值使用所述公钥进行动态加密;
获取子模块,用于使用所述公钥对应的私钥加密所述第二特征值、所述第一特征值以及所述第三分别统计结果,并基于解码后的所述第二特征值、所述第一特征值以及所述第三分别统计结果,获取所述多个样本数据。
5.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至3任一项中所述的方法。
6.一种电子装置,其特征在于,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至3任一项中所述的方法。
CN202011403676.7A 2020-12-04 2020-12-04 数据识别方法、装置和存储介质及电子装置 Active CN112597379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011403676.7A CN112597379B (zh) 2020-12-04 2020-12-04 数据识别方法、装置和存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011403676.7A CN112597379B (zh) 2020-12-04 2020-12-04 数据识别方法、装置和存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN112597379A CN112597379A (zh) 2021-04-02
CN112597379B true CN112597379B (zh) 2023-09-01

Family

ID=75188085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011403676.7A Active CN112597379B (zh) 2020-12-04 2020-12-04 数据识别方法、装置和存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN112597379B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780806A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于决策树的经纪人匹配方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920714A (zh) * 2018-07-26 2018-11-30 上海交通大学 一种分布式环境下隐私保护的关联规则挖掘方法和系统
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110633806A (zh) * 2019-10-21 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN111046425A (zh) * 2019-12-12 2020-04-21 支付宝(杭州)信息技术有限公司 多方联合进行风险识别的方法和装置
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN111784001A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 一种模型训练方法、设备及计算机可读存储介质
WO2020233260A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于同态加密的隐私保护多机构数据分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920714A (zh) * 2018-07-26 2018-11-30 上海交通大学 一种分布式环境下隐私保护的关联规则挖掘方法和系统
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
WO2020233260A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于同态加密的隐私保护多机构数据分类方法
CN110633806A (zh) * 2019-10-21 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
CN111046425A (zh) * 2019-12-12 2020-04-21 支付宝(杭州)信息技术有限公司 多方联合进行风险识别的方法和装置
CN111598186A (zh) * 2020-06-05 2020-08-28 腾讯科技(深圳)有限公司 基于纵向联邦学习的决策模型训练方法、预测方法及装置
CN111784001A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 一种模型训练方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112597379A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN108428132B (zh) 欺诈交易识别方法、装置、服务器及存储介质
CN107566358B (zh) 一种风险预警提示方法、装置、介质及设备
US20200285980A1 (en) System for secure federated learning
CN104901971B (zh) 对网络行为进行安全分析的方法和装置
TW202123052A (zh) 防止隱私資料洩漏的編碼模型訓練方法及裝置
CN105956469B (zh) 文件安全性识别方法和装置
CN111860865B (zh) 模型构建和分析的方法、装置、电子设备和介质
CN110782333B (zh) 一种设备风险控制方法、装置、设备及介质
WO2022142060A1 (zh) 基于联邦学习的虹膜图像特征提取方法、系统和装置
CN112669187B (zh) 身份识别方法、装置、电子设备及相关产品
CN112200382A (zh) 一种风险预测模型的训练方法和装置
US20230410220A1 (en) Information processing apparatus, control method, and program
CN113934983A (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
CN112597379B (zh) 数据识别方法、装置和存储介质及电子装置
CN112381000A (zh) 基于联邦学习的人脸识别方法、装置、设备及存储介质
CN110457601B (zh) 社交账号的识别方法和装置、存储介质及电子装置
Aminanto et al. Multi-class intrusion detection using two-channel color mapping in IEEE 802.11 wireless Network
CN110162957B (zh) 智能设备的鉴权方法和装置、存储介质、电子装置
CN113766085A (zh) 图像处理方法及相关装置
CN110874638B (zh) 面向行为分析的元知识联邦方法、装置、电子设备及系统
CN115455457B (zh) 基于智慧大数据的链数据管理方法、系统和存储介质
CN110222187B (zh) 保护用户隐私的共同活动检测与数据共享方法
CN109978028B (zh) 一种基于集成深度学习的特定辐射源识别方法
Prabhu et al. Design of multiple share creation with optimal signcryption based secure biometric authentication system for cloud environment
CN113988867A (zh) 欺诈行为检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant