CN118114154A - 风险评估模型训练方法、风险评估方法及装置 - Google Patents

风险评估模型训练方法、风险评估方法及装置 Download PDF

Info

Publication number
CN118114154A
CN118114154A CN202410520040.2A CN202410520040A CN118114154A CN 118114154 A CN118114154 A CN 118114154A CN 202410520040 A CN202410520040 A CN 202410520040A CN 118114154 A CN118114154 A CN 118114154A
Authority
CN
China
Prior art keywords
risk assessment
model
abnormal sample
aligned
assessment model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410520040.2A
Other languages
English (en)
Inventor
常雯
李坤
王栩晨
李国鹏
刘妍妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Publication of CN118114154A publication Critical patent/CN118114154A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种风险评估模型训练方法、风险评估方法及装置,涉及计算机技术领域,方法包括:获得至少一个异常样本号码中的至少一个对齐异常样本的特征信息、各对齐异常样本的标签信息、各非对齐异常样本的特征信息和各非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;向中心服务器发送第一风险评估模型的参数信息;接收中心服务器发送的第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;基于中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息得到目标风险评估模型,提升风险评估模型的泛化能力,进而提升异常号码风险评估的准确率。

Description

风险评估模型训练方法、风险评估方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种风险评估模型训练方法、风险评估方法及装置。
背景技术
现有的异常号码风险评估方法主要有基于规则的识别和基于机器学习的识别,其中,基于规则的识别是根据电信异常的常见模式和行为,建立一系列规则,对来电号码、来电频率和短信内容等信息进行判断,从而识别出可能的异常号码;基于机器学习的识别是通过训练机器学习模型,让模型自动从大量数据中学习出正常的通信行为和异常的通信行为的模式,从而识别出可能的异常号码。
然而,现有的异常号码风险评估方法往往只利用了来自单一维度的少量特征,例如通话次数和短信收发次数等通联类特征,无法全面有效地对异常号码进行建模,导致异常号码风险评估的准确率低;此外,各个行业(如金融、运营商、互联网企业等)虽然都有自己的数据资源和检测方法,但出于信息隔离和数据安全的原因往往不能充分利用起来。
因此,如何在保护数据隐私的同时,有效整合各行业的数据资源,实现全面、准确的风险评估,是当前亟待解决的问题。
发明内容
本发明提供一种风险评估模型训练方法、风险评估方法及装置,用以解决如何在保护数据隐私的同时,有效整合各行业的数据资源,实现全面、准确的风险评估的问题,实现在保护参与方数据隐私安全的前提下,提高异常号码风险评估的全面性、准确率和泛化能力。
第一方面,本发明提供一种风险评估模型训练方法,应用于目标客户端,包括:
步骤A:获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤B:基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
步骤C:向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
步骤D:接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行步骤B-步骤D,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤E:基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
根据本发明提供的一种风险评估模型训练方法,所述目标客户端包括风险评估模型和本地私有模型;
所述基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型,包括:
基于各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始本地私有模型进行训练,得到第一本地私有模型;
基于所述第一本地私有模型的参数信息和深度互学习策略,更新所述初始风险评估模型的参数信息;所述深度互学习策略用于所述风险评估模型和所述本地私有模型之间互相学习;
基于各所述对齐异常样本的特征信息和各所述对齐异常样本的标签信息,对更新参数信息后的初始风险评估模型进行训练,得到所述第一风险评估模型。
根据本发明提供的一种风险评估模型训练方法,在得到所述第一风险评估模型之后,所述方法还包括:
基于所述第一风险评估模型的参数信息和所述深度互学习策略,更新所述第一本地私有模型的参数信息,得到第二本地私有模型;所述第二本地私有模型用于下一轮训练时的初始本地私有模型。
根据本发明提供的一种风险评估模型训练方法,所述方法还包括:
获取各所述异常样本号码的样本原始数据;
对所述样本原始数据进行预处理,得到预处理后的样本原始数据;
基于所述预处理后的样本原始数据,提取各所述异常样本号码对应的各所述维度特征信息。
第二方面,本发明还提供一种风险评估模型训练方法,应用于中心服务器,包括:
步骤F:接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤G:向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行步骤F-步骤G,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤H:向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
根据本发明提供的一种风险评估模型训练方法,所述方法还包括:
采用隐私集合求交技术对各所述异常样本号码对应的各所述维度特征信息进行样本对齐,得到各所述异常样本号码中的各所述对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的至少一个维度特征信息。
第三方面,本发明还提供一种风险评估方法,应用于目标客户端,包括:
获取待评估的目标号码的原始数据;
提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;
将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于第一方面任一项所述的风险评估模型训练方法,或者基于第二方面任一项所述的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;
基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
第四方面,本发明还提供一种风险评估模型训练装置,应用于目标客户端,包括:
第一获取模块,获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
第一训练模块,用于基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
第一发送模块,用于向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
第一接收模块,用于接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
第一更新模块,用于基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
第五方面,本发明还提供一种风险评估模型训练装置,应用于中心服务器,包括:
第二接收模块,用于至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
第二发送模块,用于向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
第三发送模块,用于向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
第六方面,本发明还提供一种风险评估装置,应用于目标客户端,包括:
第二获取模块,用于获取待评估的目标号码的原始数据;
第一特征提取模块,用于提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;
预测模块,用于将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于第一方面任一项所述的风险评估模型训练方法,或者基于第二方面任一项所述的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;
评估模块,用于基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
第七方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面任一项所述的风险评估模型训练方法,或者如上述第二方面任一项所述的风险评估模型训练方法,或者如上述第三方面任一项所述的风险评估方法。
第八方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面任一项所述的风险评估模型训练方法,或者如上述第二方面任一项所述的风险评估模型训练方法,或者如上述第三方面任一项所述的风险评估方法。
本发明提供的风险评估模型训练方法、风险评估方法及装置,通过获得各所述异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息和各所述非对齐异常样本的特征信息、各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。通过使用各异常样本号码中的多维度特征信息和联邦学习算法的结合,在保护数据隐私安全的前提下,实现目标风险评估模型的训练,能够提升目标风险评估模型的效率和泛化能力,进而提升异常号码风险评估的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的风险评估模型训练方法的流程示意图之一;
图2是本发明提供的两个客户端场景下的对齐异常样本和非对齐异常样本的示意图;
图3是本发明提供的风险评估模型训练方法的流程示意图之二;
图4是本发明提供的风险评估模型训练方法的流程示意图之三;
图5是本发明提供的风险评估方法的流程示意图;
图6是本发明提供的风险评估模型训练装置的结构示意图之一;
图7是本发明提供的风险评估模型训练装置的结构示意图之二;
图8是本发明提供的风险评估装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的风险评估方法,需要收集所有样本数据集并存储在一个位置,由中心计算节点进行分析处理,这种方式带来了数据安全性和隐私性方面的问题。
为了在保证数据隐私安全的前提下进一步挖掘异常号码的多维度特征,提高异常号码风险分析的准确率,本申请提出了基于纵向联邦学习和深度互学习策略的风险评估模型训练方法,致力于在确保不向其他参与者泄露隐私数据的条件下,实现各个参与者协作训练和预测的目标风险评估模型。
具体地,不同参与者的样本原始数据资源保存在各自本地客户端中,提取样本原始数据的多维度特征信息,通过中心服务器使用隐私集合求交(Private SetIntersection )技术对来自各个客户端的加密后的多个异常样本号码的多维度特征信息进行样本对齐,得到多个参与者的异常样本号码中的对齐异常样本和非对齐异常样本,异常样本号码的明文不会发送给中心服务器和其他客户端,每个客户端独有的非对齐异常样本也不会对外暴露。本申请不仅利用共享的对齐异常样本数据训练跨参与者的共享模型,还利用私有的未对齐异常样本数据训练各个参与者的私有模型,并采用深度互学习策略,使得共享模型和私有模型之间进行双向的知识传递,提升整体分类性能和泛化能力。最终经过多方的分布式协作训练,得到目标风险评估模型,使用目标风险评估模型对未知号码的异常样本类别(是否异常)或异常概率进行预测,实现对未知号码的识别检测和风险评估。
需要说明的是,各个参与者在风险评估模型的训练和预测时,使用同态加密算法对数据资源进行加密,以避免数据泄露和滥用风险。同时,参与者之间进行数据传输时,使用如SSL/TLS等安全通信协议进行数据加密传输,以确保数据的安全性和隐私性。
下面结合图1-图5描述本发明的风险评估模型训练方法及风险评估方法。
图1是本发明提供的风险评估模型训练方法的流程示意图之一,如图1所示,应用于目标客户端,方法包括步骤101-步骤105;其中,
步骤101,获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码。
需要说明的是,本发明提供的风险评估模型训练方法可应用于异常号码的风险评估的场景中,例如,可以广泛应用于金融、运营商等行业的异常号码识别和预防工作中,该方法的执行主体可以为风险评估模型训练装置,例如目标客户端、或者该风险评估模型训练装置中的用于执行风险评估模型训练方法的控制模块。
具体地,目标客户端为多个参与方的客户端中的任一客户端,目标客户端包括共享模型和本地私有模型,共享模型为风险评估模型,中心服务器包括全局共享模型,其中,私有模型为联邦随机森林模型,共享模型为联邦随机森林模型,全局共享模型为联邦随机森林模型。对齐异常样本为各异常样本号码中具有相同特征信息的异常样本号码;非对齐异常样本为各异常样本号码中不具有相同特征信息的异常样本号码。至少一个维度特征信息包括以下至少一项:基本属性特征信息、通联频率特征信息、用卡规律特征信息、行踪轨迹特征信息、用户举报特征信息,综合考虑了用户信息、号码属性、电话联系、用卡习惯、行踪位置、短信联系等多个维度信息。
中心服务器使用隐私集合求交技术对来自各客户端的加密后的异常样本号码对应的各维度特征信息进行样本对齐,即确定各异常样本号码中具有相同特征信息的异常样本号码和具有不相同特征信息的异常样本号码,具有相同特征信息的异常样本号码为对齐异常样本,不具有相同特征信息的异常样本号码为非对齐异常样本,再将对齐异常样本和非对齐异常样本以加密的形式发送给各客户端,各客户端对加密的对齐异常样本和非对齐异常样本进行解密,从而使各客户端获得各异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息。各客户端可以获得中心服务器通过样本对齐得到的各异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;其中,对齐异常样本的至少一个维度特征信息用于训练客户端的风险评估模型(即共享模型),非对齐异常样本的至少一个维度特征信息用于训练客户端的私有模型。
需要说明的是,在异常号码风险评估的场景中,存在行业内各参与者(客户端)的异常样本号码ID(训练样本ID)重叠较多,而异常样本号码的特征信息重叠较少的情况,因此,使用联邦学习中的纵向联邦学习策略,即进行样本对齐,其中,联邦学习还可以为联邦迁移学习或者联邦自适应学习,联合多个企业参与者共同样本的不同特征进行训练和预测,增加训练样本的特征维度。本申请采用基于对称加密和哈希算法的数据对齐机制,在不泄露各个客户端异常样本号码ID和特征信息的前提下,找出各个参与者共有的异常样本号码ID和特征信息,称为对齐异常样本,作为纵向联邦学习中共享模型的训练数据,共享模型实现了多个参与者之间的联合建模,打破了数据孤岛现象。对于只在单个客户端的原始数据集中出现,无法与其他客户端的原始数据集合进行对齐的异常样本号码,称为未对齐异常样本。未对齐异常样本无法直接用于共享模型的训练,但可用于各客户端的本地私有模型的训练,本地私有模型可以更好地适应各客户端的本地数据的独特性,学习到未对齐异常样本独有的特征和模式,提高对异常号码分类预测的性能。
图2是本发明提供的两个客户端场景下的对齐异常样本和非对齐异常样本的示意图,如图2所示,客户端A的非对齐特征1为非对齐异常样本的一个特征信息,客户端A的对齐特征1为对齐异常样本的一个特征信息;客户端B的非对齐特征2为非对齐异常样本的一个特征信息,客户端B的对齐特征2为对齐异常样本的一个特征信息;其中,对齐特征1和对齐特征2相同,且对齐特征1和对齐特征2分别对应的异常号码ID相同。
步骤102,基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息和各所述非对齐异常样本的特征信息、各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的。
具体地,初始风险评估模型为客户端的共享模型,初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的,即中心服务器向客户端发送初始全局共享模型的参数信息,客户端将初始全局共享模型的参数信息作为初始风险评估模型的参数信息,得到初始风险评估模型。
针对每一轮训练,客户端基于各对齐异常样本的特征信息、各对齐异常样本的标签信息、各非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,采用深度互学习策略对初始风险评估模型进行训练,得到第一风险评估模型。深度互学习策略用于风险评估模型和本地私有模型之间互相学习。
步骤103,向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型。
具体地,第一风险评估模型的参数信息用于中心服务器更新初始全局共享模型的参数信息,得到第一全局共享模型。
客户端向中心服务器发送第一风险评估模型的参数信息,中心服务器接收客户端发送的第一风险评估模型的参数信息,对第一风险评估模型的参数信息进行聚合,得到聚合参数,使用聚合参数更新中心服务器的全局共享模型的参数信息,得到第一全局共享模型。中心服务器向客户端发送第一全局共享模型的参数信息。
步骤104,接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行步骤102-步骤104,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息。
具体地,第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息。客户端接收中心服务器发送的第一全局共享模型的参数信息,更新第一风险评估模型的参数信息,将更新后的第一风险评估模型作为下一轮训练的初始风险评估模型,并重复执行步骤B-步骤D,直至满足训练停止条件;其中,训练停止条件为达到预设的训练周期(最大训练次数)或累积损失值趋于稳定,累积损失值可以为全局共享模型的损失值或者风险评估模型的损失值。
步骤105,基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
具体地,在满足训练停止条件时,根据中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,将最终更新后的第一风险评估模型作为目标风险评估模型。
需要说明的是,纵向联邦学习是一种分布式机器学习方法,允许各个客户端在不共享原始数据的情况下,协作训练一个模型(目标风险评估模型),它适用于数据集上具有相同样本空间但不同特征空间的参与者。
本发明提供的风险评估模型训练方法,通过获得各所述异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。通过使用客户端的各异常样本号码中的多维度特征信息和联邦学习算法的结合,在保护数据隐私安全的前提下,实现目标风险评估模型的训练,能够提升目标风险评估模型的效率和泛化能力,进而提升异常号码风险评估的准确率。
可选地,获取各所述异常样本号码的样本原始数据;对所述样本原始数据进行预处理,得到预处理后的样本原始数据;基于所述预处理后的样本原始数据,提取各所述异常样本号码对应的各所述维度特征信息。
具体地,客户端可以获取多个异常样本号码的样本原始数据,例如,异常样本号码对应的用户信息、号码属性、电话联系、用卡习惯、行踪位置和短信联系等信息。在获取样本原始数据的过程中,需要确保数据的真实性和完整性,同时采取必要的隐私保护措施,如数据脱敏、加密等。再对收集到的样本原始数据进行预处理,可以得到预处理后的样本原始数据;其中,预处理的方式包括数据清洗、去重、归一化等,提高数据的质量和可靠性、以及统一数据量纲。再基于预处理后的样本原始数据,从预处理后的样本原始数据中提取各异常样本号码对应的各维度特征信息,即对异常号码风险评估有贡献的多维度特征信息,客户端将各异常样本号码对应的各维度特征信息进行加密,并将加密后的信息发送至中心服务器,使得中心服务器能够根据来自各客户端加密后的多个异常样本号码的多维度特征信息进行样本对齐。
本申请拟汇聚行业内跨企业的数据资源,根据各自业务特点生成用户信息、号码属性、电话联系、用卡习惯、行踪位置和短信联系等不同类型的多维度特征信息,并保存在本地,从多个维度对异常样本号码进行分析建模,能够有效地刻画异常号码的本质属性,大大提高了风险评估的全面性。
可选地,所述目标客户端包括风险评估模型和本地私有模型;上述步骤102的具体实现方式包括:
(1)基于各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始本地私有模型进行训练,得到第一本地私有模型。
具体地,根据各非对齐异常样本的特征信息和各非对齐异常样本的标签信息,对初始本地私有模型进行训练,可以得到第一本地私有模型。
(2)基于所述第一本地私有模型的参数信息和深度互学习策略,更新所述初始风险评估模型的参数信息;所述深度互学习策略用于所述风险评估模型和所述本地私有模型之间互相学习。
具体地,深度互学习策略用于风险评估模型和本地私有模型之间互相学习,即让风险评估模型(共享模型)和私有模型之间进行双向的知识传递,互相参考对方的训练经验以共同进步。深度互学习策略是一种源自知识蒸馏的深度学习策略,通过在单个或多个数据集上相互学习来训练多个模型,在训练过程中,每个层次的子模型都会与其他层次的子模型进行交互和协作,从而不断优化自身的性能和泛化能力。
根据训练得到的第一本地私有模型的参数信息和深度互学习策略,可以更新初始风险评估模型的参数信息,得到更新参数信息后的初始风险评估模型。
(3)基于各所述对齐异常样本的特征信息和各所述对齐异常样本的标签信息,对更新参数信息后的初始风险评估模型进行训练,得到所述第一风险评估模型。
具体地,使用各对齐异常样本的特征信息和各对齐异常样本的标签信息,可以对更新参数信息后的初始风险评估模型进行训练,得到第一风险评估模型。
客户端向中心服务器发送第一风险评估模型的参数信息,使得中心服务器更新全局共享模型的参数信息。
在本申请中,通过联邦学习、深度互学习策略和局部半监督学习,实现跨域样本和特征数据的汇聚与联合建模,提高了风险评估模型的效率和泛化能力。
可选地,在得到所述第一风险评估模型之后,基于所述第一风险评估模型的参数信息和所述深度互学习策略,更新所述第一本地私有模型的参数信息,得到第二本地私有模型;所述第二本地私有模型用于下一轮训练时的初始本地私有模型。
具体地,在得到所述第一风险评估模型之后,根据第一风险评估模型的参数信息和深度互学习策略,可以更新第一本地私有模型的参数信息,即第一本地私有模型学习第一风险评估模型,得到第二本地私有模型。
在本申请中,通过深度互学习策略,能够使得第一风险评估模型和第一本地私有模型之间进行双向的知识传递,提升整体分类性能和泛化能力。
图3是本发明提供的风险评估模型训练方法的流程示意图之二,如图3所示,应用于中心服务器,方法包括步骤301-步骤303;其中,
步骤301,接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码。
具体地,客户端包括共享模型和本地私有模型,共享模型为风险评估模型,中心服务器包括全局共享模型。至少一个维度特征信息包括以下至少一项:基本属性特征信息、通联频率特征信息、用卡规律特征信息、行踪轨迹特征信息、用户举报特征信息。
中心服务器使用隐私集合求交技术对来自各客户端的加密后的异常样本号码对应的各维度特征信息进行样本对齐,确定各异常样本号码中具有相同特征信息的异常样本号码和具有不相同特征信息的异常样本号码,具有相同特征信息的异常样本号码为对齐异常样本,不具有相同特征信息的异常样本号码为非对齐异常样本,再将对齐异常样本和非对齐异常样本以加密的形式发送给各客户端,各客户端对加密的对齐异常样本和非对齐异常样本进行解密,从而使各客户端获得各异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息。
初始风险评估模型为客户端的共享模型,初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的,即中心服务器向客户端发送初始全局共享模型的参数信息,客户端将初始全局共享模型的参数信息作为初始风险评估模型的参数信息,得到初始风险评估模型。
各客户端基于各对齐异常样本的特征信息、各对齐异常样本的标签信息、各非对齐异常样本的特征信息和各非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型。各客户端向中心服务器发送第一风险评估模型的参数信息。
中心服务器接收各客户端发送的第一风险评估模型的参数信息,并基于各第一风险评估模型的参数信息,对各第一风险评估模型的参数信息进行聚合,得到聚合参数;再使用聚合参数更新初始全局共享模型的参数信息,得到第一全局共享模型。
步骤302,向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行步骤301-步骤302,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息。
具体地,第一全局共享模型的参数信息用于更新第一风险评估模型的参数信息。中心服务器向各客户端发送第一全局共享模型的参数信息,各客户端基于第一全局共享模型的参数信息更新,对初始风险评估模型进行训练,得到第一风险评估模型。各客户端向中心服务器发送第一风险评估模型的参数信息,并重复执行步骤301-步骤302,直至满足训练停止条件;其中,训练停止条件为达到预设的训练周期(最大训练次数)或累积损失值趋于稳定,累积损失值可以为全局共享模型的损失值或者风险评估模型的损失值。
步骤303,向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
具体地,在满足训练停止条件时,中心服务器向各客户端发送最终更新后的第一全局共享模型的参数信息;各客户端根据中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,将最终更新后的第一风险评估模型作为目标风险评估模型。
本发明提供的风险评估模型训练方法,通过接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。通过对各异常样本号码中的多维度特征信息对齐,并结合联邦学习算法,在保护数据隐私安全的前提下,实现目标风险评估模型的训练,能够提升目标风险评估模型的效率和泛化能力,进而提升异常号码风险评估的准确率。
可选地,采用隐私集合求交技术对各所述异常样本号码对应的各所述维度特征信息进行样本对齐,得到各所述异常样本号码中的各所述对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的至少一个维度特征信息。
具体地,中心服务器使用隐私集合求交技术,对来自各个客户端的加密后的各异常样本号码对应的各维度特征信息进行样本对齐,即确定各异常样本号码中具有相同特征信息的异常样本号码和具有不相同特征信息的异常样本号码,具有相同特征信息的异常样本号码为对齐异常样本,不具有相同特征信息的异常样本号码为非对齐异常样本,再将对齐异常样本和非对齐异常样本以加密的形式发送给各客户端,各客户端对加密的对齐异常样本和非对齐异常样本进行解密,从而使各客户端获得各异常样本号码中的各对齐异常样本的至少一个维度特征信息和各非对齐异常样本的至少一个维度特征信息。
图4是本发明提供的风险评估模型训练方法的流程示意图之三,如图4所示,在本申请中,包含一个中心服务器和多个行业参与者(企业)的客户端,例如,企业1的客户端、企业2的客户端和企业3的客户端。中心服务器包括一个全局共享模型(记为G)。每个企业参与者客户端不仅拥有经过对齐异常样本的特征信息,还拥有独占的非对齐异常样本的特征信息,每个客户端包括两个模型:共享模型(记为W)以及私有模型(记为V)。共享模型W在整个系统中扮演着关键的角色,使用对齐异常样本的特征信息来训练,共享模型负责与全局共享模型G进行信息交互,从而使得所有客户端都能够获得最新的全局共享模型的全局最优参数。私有模型V用于处理每个参与者客户端的非对齐异常样本,这些非对齐异常样本由于无法与其他参与者客户的对齐异常样本进行对齐,不能直接用于共享模型W的训练。私有模型V能够针对每个客户端的特定需求进行学习和优化,更准确地处理非对齐异常样本中的信息。私有模型V和共享模型W之间经过深度互学习策略,同时获得对齐异常样本和非对齐异常样本的数据分布特性,进而也改善了全局共享模型G的性能和泛化能力。各个模型的参数信息在与参与者交互过程中均使用加法同态加密和SSL/TLS安全传输协议来保证数据的安全性和隐私性。
在训练过程中,输入为:经过各客户端的对齐异常样本的多维度特征和非对齐异常样本的特征信息,输出为:全局共享模型参数。中心服务器在每轮训练的过程中,聚合各个客户端的本地共享模型的参数信息,更新全局共享模型的参数信息,形成新的全局共享模型。算法流程的具体步骤如下:
1)中心服务器初始化初始全局共享模型的参数信息G,并发送给各个参与者的客户端,各个客户端初始化各自的本地共享模型W,得到初始风险评估模型W;
2)各个客户端使用各自的非对齐异常样本的特征信息在本地训练私有模型V,得到第一本地私有模型,并将得到第一本地私有模型的参数信息输入到初始风险评估模型W中进行进一步的学习;本地共享模型W和本地私有模型V使用深度互学习策略,更新双方模型参数;
3)各个客户端使用对齐异常样本的特征信息在本地训练初始风险评估模型W,得到第一风险评估模型W,并将第一风险评估模型的参数信息输入到第一本地私有模型V中进行进一步的学习;
4)将第一风险评估模型W的参数信息上传给中心服务器;
5)中心服务器汇聚所有参与者本地的第一风险评估模型W的参数信息,得到聚合参数,使用聚合参数更新初始全局共享模型G,得到第一全局共享模型G;
6)中心服务器将第一全局共享模型G的参数信息发送给所有客户端的第一风险评估模型W进行下一轮训练,并重负执行2)-6),直至达到预设的训练周期或者累积损失值趋于稳定;
7)基于中心服务器发送的最终更新后的第一全局共享模型G的参数信息,更新最终训练得到的第一风险评估模型W的参数信息,得到目标风险评估模型W。
算法表示如下:
;/>
图5是本发明提供的风险评估方法的流程示意图,如图5所示,方法包括步骤501-步骤504;其中,
步骤501,获取待评估的目标号码的原始数据。
具体地,例如,异常样本号码对应的用户信息、号码属性、电话联系、用卡习惯、行踪位置和短信联系等信息。
步骤502,提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息。
具体地,从待评估的目标号码的原始数据中提取待评估的目标号码的对应的各维度特征信息,即对待评估的目标号码风险评估有贡献的多维度特征信息。至少一个维度特征信息包括以下至少一项:基本属性特征信息、通联频率特征信息、用卡规律特征信息、行踪轨迹特征信息、用户举报特征信息。
步骤503,将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果。
其中,所述目标风险评估模型是基于前述各实施例中所述的方式训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项。
具体地,将各维度特征信息输入至预先训练好的目标风险评估模型,可以得到目标风险评估模型输出的预测结果;其中,预测结果表示待评估的目标号码对应的异常标签和异常概率中的至少一项。
步骤504,基于预测结果,对待评估的目标号码进行异常风险评估。
具体地,根据预测结果,可以对待评估的目标号码进行异常风险评估。例如,预测结果表示待评估的目标号码对应的异常标签,异常标签为1,表示待评估的目标号码为异常号码;或者,预测结果表示待评估的目标号码对应的异常概率,当异常概率大于预设阈值时,表示待评估的目标号码为异常号码。
本发明提供的风险评估方法,通过获取待评估的目标号码的原始数据;提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;基于所述预测结果,对所述待评估的目标号码进行异常风险评估。由于在训练目标风险评估模型时,结合各个客户端的多种数据资源,从多个维度对异常样本号码进行建模分析,通过联邦学习、深度互学习和局部半监督学习等实现跨域样本和特征数据的汇聚与联合建模,提高了目标风险评估模型的效率、泛化能力和准确性,进而实现待评估的目标号码异常风险的准确评估,提升了评估效率和准确性。
下面对本发明提供的风险评估模型训练装置进行描述,下文描述的风险评估模型训练装置与上文描述的风险评估模型训练方法可相互对应参照。
图6是本发明提供的风险评估模型训练装置的结构示意图之一,如图6所示,应用于目标客户端,风险评估模型训练装置600包括第一获取模块601、第一训练模块602、第一发送模块603、第一接收模块604和第一更新模块605;其中,
第一获取模块601,用于获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
第一训练模块602,用于基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
第一发送模块603,用于向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
第一接收模块604,用于接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
第一更新模块605,用于基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
本发明提供的风险评估模型训练装置,通过获得各所述异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。通过使用客户端的各异常样本号码中的多维度特征信息和联邦学习算法的结合,在保护数据隐私安全的前提下,实现目标风险评估模型的训练,能够提升目标风险评估模型的效率和泛化能力,进而提升异常号码风险评估的准确率。
可选地,所述目标客户端包括风险评估模型和本地私有模型;所述第一训练模块602,具体用于:
基于各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始本地私有模型进行训练,得到第一本地私有模型;
基于所述第一本地私有模型的参数信息和深度互学习策略,更新所述初始风险评估模型的参数信息;所述深度互学习策略用于所述风险评估模型和所述本地私有模型之间互相学习;
基于各所述对齐异常样本的特征信息和各所述对齐异常样本的标签信息,对更新参数信息后的初始风险评估模型进行训练,得到所述第一风险评估模型。
可选地,在得到所述第一风险评估模型之后,所述风险评估模型训练装置600还包括:
第二更新模块,用于基于所述第一风险评估模型的参数信息和所述深度互学习策略,更新所述第一本地私有模型的参数信息,得到第二本地私有模型;所述第二本地私有模型用于下一轮训练时的初始本地私有模型。
可选地,所述风险评估模型训练装置600还包括:
第三获取模块,用于获取各所述异常样本号码的样本原始数据;
预处理模块,用于对所述样本原始数据进行预处理,得到预处理后的样本原始数据;
第二特征提取模块,用于基于所述预处理后的样本原始数据,提取各所述异常样本号码对应的各所述维度特征信息。
图7是本发明提供的风险评估模型训练装置的结构示意图之二,如图7所示,应用于中心服务器,风险评估模型训练装置700包括第二接收模块701、第二发送模块702和第三发送模块703;其中,
第二接收模块701,用于接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
第二发送模块702,用于向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
第三发送模块703,用于向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
本发明提供的风险评估模型训练装置,通过接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。通过对各异常样本号码中的多维度特征信息对齐,并结合联邦学习算法,实现目标风险评估模型的训练,能够提升目标风险评估模型的效率和泛化能力,进而提升异常号码风险评估的准确率。
可选地,所述风险评估模型训练装置700还包括:
样本对齐模块,用于采用隐私集合求交技术对各所述异常样本号码对应的各所述维度特征信息进行样本对齐,得到各所述异常样本号码中的各所述对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的至少一个维度特征信息。
图8是本发明提供的风险评估装置的结构示意图,如图8所示,风险评估装置800包括第二获取模块801、第一特征提取模块802、预测模块803和评估模块804;其中,
第二获取模块801,用于获取待评估的目标号码的原始数据;
第一特征提取模块802,用于提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;
预测模块803,用于将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于图6所示的风险评估模型训练方法,或者基于图7所示的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;
评估模块804,用于基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
本发明提供的风险评估装置,通过获取待评估的目标号码的原始数据;提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;基于所述预测结果,对所述待评估的目标号码进行异常风险评估。由于在训练目标风险评估模型时,结合各个客户端的多种数据资源,从多个维度对异常样本号码进行建模分析,通过联邦学习、深度互学习和局部半监督学习等实现跨域样本和特征数据的汇聚与联合建模,提高了目标风险评估模型的效率、泛化能力和准确性,进而实现待评估的目标号码异常风险的准确评估,提升了评估效率和准确性。
图9是本发明提供的一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行风险评估模型训练方法,该方法包括:
步骤A:获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤B:基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
步骤C:向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
步骤D:接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行步骤B-步骤D,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤E:基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
可选地,处理器910可以调用存储器930中的逻辑指令,以执行上述的风险评估模型训练方法,该方法包括:
步骤F:接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤G:向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行步骤F-步骤G,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤H:向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
可选地,处理器910可以调用存储器930中的逻辑指令,以执行上述的风险评估方法,该方法包括:获取待评估的目标号码的原始数据;提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于前述任一实施例中所述的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的风险评估模型训练方法,该方法包括:
步骤A:获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤B:基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
步骤C:向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
步骤D:接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行步骤B-步骤D,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤E:基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
可选地,该计算机程序被处理器执行时实现以执行上述各方法提供的风险评估模型训练方法,该方法包括:
步骤F:接收各所述客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤G:向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行步骤F-步骤G,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤H:向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
可选地,该计算机程序被处理器执行时实现以执行上述各方法提供的风险评估方法,该方法包括:获取待评估的目标号码的原始数据;提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于前述任一实施例中所述的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种风险评估模型训练方法,其特征在于,应用于目标客户端,包括:
步骤A:获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤B:基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
步骤C:向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
步骤D:接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行步骤B-步骤D,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤E:基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
2.根据权利要求1所述的风险评估模型训练方法,其特征在于,所述目标客户端包括风险评估模型和本地私有模型;
所述基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型,包括:
基于各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始本地私有模型进行训练,得到第一本地私有模型;
基于所述第一本地私有模型的参数信息和深度互学习策略,更新所述初始风险评估模型的参数信息;所述深度互学习策略用于所述风险评估模型和所述本地私有模型之间互相学习;
基于各所述对齐异常样本的特征信息和各所述对齐异常样本的标签信息,对更新参数信息后的初始风险评估模型进行训练,得到所述第一风险评估模型。
3.根据权利要求2所述的风险评估模型训练方法,其特征在于,在得到所述第一风险评估模型之后,所述方法还包括:
基于所述第一风险评估模型的参数信息和所述深度互学习策略,更新所述第一本地私有模型的参数信息,得到第二本地私有模型;所述第二本地私有模型用于下一轮训练时的初始本地私有模型。
4.根据权利要求1至3任一项所述的风险评估模型训练方法,其特征在于,所述方法还包括:
获取各所述异常样本号码的样本原始数据;
对所述样本原始数据进行预处理,得到预处理后的样本原始数据;
基于所述预处理后的样本原始数据,提取各所述异常样本号码对应的各所述维度特征信息。
5.一种风险评估模型训练方法,其特征在于,应用于中心服务器,包括:
步骤F:接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
步骤G:向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行步骤F-步骤G,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
步骤H:向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
6.根据权利要求5所述的风险评估模型训练方法,其特征在于,所述方法还包括:
采用隐私集合求交技术对各所述异常样本号码对应的各所述维度特征信息进行样本对齐,得到各所述异常样本号码中的各所述对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的至少一个维度特征信息。
7.一种风险评估方法,其特征在于,应用于目标客户端,包括:
获取待评估的目标号码的原始数据;
提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;
将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于权利要求1至4任一项所述的风险评估模型训练方法,或者基于权利要求5或6所述的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;
基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
8.一种风险评估模型训练装置,其特征在于,应用于目标客户端,包括:
第一获取模块,用于获得至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息和至少一个非对齐异常样本的至少一个维度特征信息;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
第一训练模块,用于基于各所述对齐异常样本的特征信息、各所述对齐异常样本的标签信息、各所述非对齐异常样本的特征信息和各所述非对齐异常样本的标签信息,对初始风险评估模型进行训练,得到第一风险评估模型;所述初始风险评估模型是基于中心服务器发送的初始全局共享模型的参数信息确定的;
第一发送模块,用于向所述中心服务器发送所述第一风险评估模型的参数信息;所述第一风险评估模型的参数信息用于所述中心服务器更新所述初始全局共享模型的参数信息,得到第一全局共享模型;
第一接收模块,用于接收所述中心服务器发送的所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
第一更新模块,用于基于所述中心服务器发送的最终更新后的第一全局共享模型的参数信息,更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
9.一种风险评估模型训练装置,其特征在于,应用于中心服务器,包括:
第二接收模块,用于接收至少一个客户端发送的第一风险评估模型的参数信息,并基于各所述第一风险评估模型的参数信息,更新初始全局共享模型的参数信息,得到第一全局共享模型;所述第一风险评估模型是基于各所述客户端的至少一个异常样本号码中的至少一个对齐异常样本的至少一个维度特征信息、各所述对齐异常样本的标签信息、至少一个非对齐异常样本的至少一个维度特征信息和各所述非对齐异常样本的标签信息对初始风险评估模型进行训练得到的;所述初始风险评估模型是基于所述中心服务器发送的初始全局共享模型的参数信息确定的;所述对齐异常样本为各所述异常样本号码中具有相同特征信息的异常样本号码;所述非对齐异常样本为各所述异常样本号码中不具有相同特征信息的异常样本号码;
第二发送模块,用于向各所述客户端发送所述第一全局共享模型的参数信息,并重复执行上述步骤,直至满足训练停止条件;所述第一全局共享模型的参数信息用于更新所述第一风险评估模型的参数信息;
第三发送模块,用于向各所述客户端发送最终更新后的第一全局共享模型的参数信息;所述最终更新后的第一全局共享模型的参数信息用于更新最终训练得到的第一风险评估模型的参数信息,得到目标风险评估模型。
10.一种风险评估装置,其特征在于,应用于目标客户端,包括:
第二获取模块,用于获取待评估的目标号码的原始数据;
第一特征提取模块,用于提取所述待评估的目标号码的原始数据对应的至少一个维度特征信息;
预测模块,用于将各所述维度特征信息输入至目标风险评估模型,得到所述目标风险评估模型输出的预测结果;所述目标风险评估模型是基于权利要求1至4任一项所述的风险评估模型训练方法,或者基于权利要求5或6所述的风险评估模型训练方法训练得到的,所述预测结果表示所述待评估的目标号码对应的异常标签和异常概率中的至少一项;
评估模块,用于基于所述预测结果,对所述待评估的目标号码进行异常风险评估。
CN202410520040.2A 2024-04-28 风险评估模型训练方法、风险评估方法及装置 Pending CN118114154A (zh)

Publications (1)

Publication Number Publication Date
CN118114154A true CN118114154A (zh) 2024-05-31

Family

ID=

Similar Documents

Publication Publication Date Title
US20200412767A1 (en) Hybrid system for the protection and secure data transportation of convergent operational technology and informational technology networks
Waqas et al. The role of artificial intelligence and machine learning in wireless networks security: Principle, practice and challenges
CN111277587A (zh) 基于行为分析的恶意加密流量检测方法及系统
CN112468347B (zh) 一种云平台的安全管理方法、装置、电子设备及存储介质
Yan et al. Identifying wechat red packets and fund transfers via analyzing encrypted network traffic
CN115426137A (zh) 恶意加密网络流量检测溯源方法及系统
CN115242371A (zh) 差分隐私保护的集合交集及其基数计算方法、装置及系统
Shrivastava et al. Data leakage detection in Wi-Fi networks
CN117171779B (zh) 基于交集保护的数据处理装置
CN112380404B (zh) 数据过滤方法、装置及系统
CN115840965B (zh) 一种信息安全保障模型训练方法和系统
CN116756518A (zh) 基于联邦学习的云边协同电力缺陷识别方法及相关装置
Abou El Houda et al. Blockchain-Enabled Federated Learning for Enhanced Collaborative Intrusion Detection in Vehicular Edge Computing
CN118114154A (zh) 风险评估模型训练方法、风险评估方法及装置
Ramraj et al. Signature identification and user activity analysis on WhatsApp web through network data
CN116681141A (zh) 隐私保护的联邦学习方法、终端及存储介质
CN116232696A (zh) 基于深度神经网络的加密流量分类方法
Salami et al. Collaborative Integrity Verification for Blockchain-Based Cloud Forensic Readiness Data Protection
Sharma et al. A review on client-server attacks and defenses in federated learning
Ren et al. BPFL: Blockchain-Based Privacy-Preserving Federated Learning against Poisoning Attack
Ramos et al. Uprise-iot: User-centric privacy & security in the iot
Li et al. Deepkeystego: Protecting communication by key-dependent steganography with deep networks
CN115186285B (zh) 联邦学习的参数聚合方法和装置
Bhuvaneshwari et al. A Review of Deep Learning Strategies for Enhancing Cybersecurity in Networks: DEEP LEARNING STRATEGIES FOR ENHANCING CYBERSECURITY
Jain et al. An Approach to Identify Vulnerable Features of Instant Messenger

Legal Events

Date Code Title Description
PB01 Publication