CN116579020B - 基于隐私保护的校园风险预测方法、装置、设备及介质 - Google Patents

基于隐私保护的校园风险预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN116579020B
CN116579020B CN202310811763.3A CN202310811763A CN116579020B CN 116579020 B CN116579020 B CN 116579020B CN 202310811763 A CN202310811763 A CN 202310811763A CN 116579020 B CN116579020 B CN 116579020B
Authority
CN
China
Prior art keywords
data
subset
ciphertext
participant
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310811763.3A
Other languages
English (en)
Other versions
CN116579020A (zh
Inventor
朱琳
陈曦
胡姣姣
蒙雄发
李如先
张剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202310811763.3A priority Critical patent/CN116579020B/zh
Publication of CN116579020A publication Critical patent/CN116579020A/zh
Application granted granted Critical
Publication of CN116579020B publication Critical patent/CN116579020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及人工智能技术,提供了基于隐私保护的校园风险预测方法、装置、设备及介质,能够利用PSI算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以MPC方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。

Description

基于隐私保护的校园风险预测方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于隐私保护的校园风险预测方法、装置、设备及介质。
背景技术
目前,教育行业中对学生的管理是非常重要的一环,高效且精准的管理有助于学生的健康发展。学校需要规律地、系统地、全面地对学生行为进行风险评估,以便发现学生的异常举动,及时进行引导与规劝,防止学生误入各种诈骗陷阱。
现有的评估方案中,学校仅拥有学生在校的行为记录,但不足以用来衡量学生的社会行为风险程度或者学生的真实财务状况,评估结果有失真实性,可信度不够,难以用来指导实际政策。学校方想要获取学生的外部财务信息,需要获得学生本人的授权,且因为各方数据不共享,所以需要分别查询获取各方明文数据,过程繁琐且不安全,还容易造成学生敏感信息的泄露。
发明内容
本申请实施例提供了一种基于隐私保护的校园风险预测方法、装置、设备及介质,能够在保证数据安全的前提下实现准确的校园风险预测。
第一方面,本申请实施例提供了一种基于隐私保护的校园风险预测方法,其包括:
获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;
利用PSI算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;
获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;
将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;
基于每个第二子集进行联合特征工程,得到每个样本子集;
获取初始模型,利用每个样本子集以MPC方式对所述初始模型进行联合训练,得到密文预测模型;
对所述密文预测模型进行模型评测;
当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;
利用所述MPC方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;
将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;
利用所述MPC方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
第二方面,本申请实施例提供了一种基于隐私保护的校园风险预测装置,其包括:
构建单元,用于获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;
计算单元,用于利用PSI算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;
所述构建单元,还用于获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;
预处理单元,用于将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;
联合特征工程单元,用于基于每个第二子集进行联合特征工程,得到每个样本子集;
训练单元,用于获取初始模型,利用每个样本子集以MPC方式对所述初始模型进行联合训练,得到密文预测模型;
评测单元,用于对所述密文预测模型进行模型评测;
获取单元,用于当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;
加密单元,用于利用所述MPC方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;
输入单元,用于将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;
解密单元,用于利用所述MPC方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于隐私保护的校园风险预测方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于隐私保护的校园风险预测方法。
本申请实施例提供了一种基于隐私保护的校园风险预测方法、装置、设备及介质,能够利用PSI算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以MPC方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于隐私保护的校园风险预测方法的应用场景示意图;
图2为本申请实施例提供的基于隐私保护的校园风险预测方法的流程示意图;
图3为本申请实施例提供的基于隐私保护的校园风险预测装置的示意性框图;
图4为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本申请实施例提供的基于隐私保护的校园风险预测方法的应用场景示意图;图2为本申请实施例提供的基于隐私保护的校园风险预测方法的流程示意图,该基于隐私保护的校园风险预测方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S111。
S101、获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合。
在本实施例中,是以服务器为执行主体来描述技术方案。用户使用的用户端(如智能手机、平板电脑等智能终端)可与服务器进行数据交互,具体如服务器提供了一个校园风险预测平台,用户使用用户端可登录该校园风险预测平台。用户端的终端界面上显示有该校园风险预测平台的用户交互界面,且该用户交互界面中存在有至少一个数据上传接口。当上传待预测用户的目标用户身份标识,并从数据上传接口上传至服务器后,在服务器中即可进行后续的风险预测。
其中,所述用户身份标识可以包括,但不限于:身份证号、银行卡号等。
相应地,所述第一标识信息集合用于存储所述目标学校内学生的身份证号、银行卡号等可以唯一标记学生身份的信息。所述第二标识信息集合用于存储各参与方所存储的用户的身份证号、银行卡号等可以唯一标记用户身份的信息。
其中,所述每个参与方可以包括,但不限于小额借贷平台、银行、网购平台等校外机构。
S102、利用PSI(Private Set Intersection,隐私集合求交)算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合。
其中,利用PSI算法,能够使各方在不泄露任何额外信息的情况下,得到各方出游的数据的交集。其中,额外的信息是指除了各方的数据交集以外的任何信息。
在上述实施例中,利用PSI算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在后续保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集。
S103、获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集。
在本实施例中,所述获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,包括:
连接至每个参与方的数据库;
根据每个第三标识信息集合中的用户身份标识在对应的每个参与方的数据库中进行查询;
利用查询到的数据构建数据集。
其中,每个参与方的数据库可以为每个参与方的本地数据库,也可以为与每个参与方相连接的数据库,本申请不做限制。
在本实施例中,所述获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集的方式与前文所述获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集的方式类似,在此不赘述。
S104、将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集。
在本实施例中,所述对每个第一子集进行本地预处理得到每个第二子集,包括:
在每个参与方的本地服务器中获取对应的每个第一子集中的异常值,并从每个第一子集中删除所述异常值,得到每个第一中间子集;
在每个参与方的本地服务器中获取对应的每个第一中间子集中的空缺值,并对每个第一中间子集中的空缺值进行中位数填充处理,得到每个第二中间子集;
在每个参与方的本地服务器将对应的每个第二中间子集中的数据统一至预设度量空间,得到每个第二子集。
其中,所述异常值可以包括过大值或者过小值等。
其中,所述中位数填充处理是指利用与所述空缺值相邻的各数据的中位数对该空缺值进行填充。
其中,所述预设度量空间可以进行自定义配置,如[0,1]。
通过上述实施例,能够对各方的数据进行本地预处理,使数据不出各方本地,保证了数据的安全性。
S105、基于每个第二子集进行联合特征工程,得到每个样本子集。
在本实施例中,所述基于每个第二子集进行联合特征工程,得到每个样本子集,包括:
获取预先配置的预测标签,及获取预先配置的相关度阈值;
对于每个第二子集,采用斯皮尔曼相关系数法计算所述第二子集中的每个数据与所述预测标签的相关度;
从所述第二子集中剔除与所述预测标签的相关度低于所述相关度阈值的数据,得到所述第二子集对应的所述样本子集。
其中,所述预测标签可以根据实际的预测需求进行配置,例如:当所述预测需求为对学生是否贫困进行预测时,所述预测标签可以为贫困及非贫困。
其中,所述相关度阈值可以进行自定义配置。
在上述实施例中,能够通过联合特征工程提高各第二子集中数据与预测标签的关联度,通过剔除关联度低的无效数据,避免对模型的训练结果产生不利影响,进而建立更适合于进行模型训练的样本子集,使训练得到的模型的预测准确率更高,且预测结果更加可靠。
S106、获取初始模型,利用每个样本子集以MPC(Secure Multi-partyComputation,安全多方计算)方式对所述初始模型进行联合训练,得到密文预测模型。
在本实施例中,所述获取初始模型,利用每个样本子集以MPC方式对所述初始模型进行联合训练,得到密文预测模型,包括:
获取当前的预测需求数据,并根据所述预测需求数据获取所述初始模型;
利用所述MPC方式对应的加密算法对每个样本子集中的数据进行加密,得到每个密文样本;
以所述预测标签作为训练目标,并利用每个密文样本对所述初始模型进行训练,得到所述密文预测模型。
具体地,所述根据所述预测需求数据获取所述初始模型,包括:
当所述预测需求数据为学生财务风险预测时,获取纵向逻辑回归模型作为所述初始模型;或者
当所述预测需求数据为学生财务实力等级预测时,获取多分类模型作为所述初始模型。
通过上述实施例,利用每个样本子集以MPC方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型。
S107、对所述密文预测模型进行模型评测。
在本实施例中,所述对所述密文预测模型进行模型评测,包括:
计算所述密文预测模型的精确度precision、召回率recall、F1分数f1-score及准确度accuracy;
获取所述精确度对应的精确度阈值、所述召回率对应的召回率阈值、所述F1分数对应的分数阈值,及所述准确度对应的准确度阈值;
当所述精确度大于或者等于所述精确度阈值、所述召回率大于或者等于所述召回率阈值、所述F1分数大于或者等于所述分数阈值,及所述准确度大于或者等于所述准确度阈值时,确定所述密文预测模型通过评测;或者
当所述精确度小于所述精确度阈值,及/或所述召回率小于所述召回率阈值,及/或所述F1分数小于所述分数阈值,及/或所述准确度小于所述准确度阈值时,确定所述密文预测模型未通过评测,继续对所述密文预测模型进行联合训练。
其中,所述精确度阈值、所述召回率阈值、所述分数阈值及所述准确度阈值可以根据实际需求进行配置。
通过上述实施例,能够结合多个维度对训练得到的密文预测模型进行模型评测,进而保证模型的可用性及预测效果。
S108、当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据。
其中,所述待预测用户可以为所述目标学校的学生。
在本实施例中,可以根据所述目标用户身份标识在所述目标学校及每个参与方对应的数据库中匹配数据,以获取到所述待处理数据。
S109、利用所述MPC方式对应的加密算法对所述待处理数据进行加密,得到待处理密文。
在上述实施例中,由于所述密文预测模型是以密文进行训练得到的密文模型,因此,对应采用所述MPC方式相应的加密算法对所述待处理数据进行加密,能够保证预测过程中数据的隐私性。
S110、将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据。
其中,所述密文输出数据可以包括预测的类型及对应的概率值。
S111、利用所述MPC方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
在上述实施例中,基于所述MPC方式,利用所述密文预测模型对所述待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
例如:当学校需要对学生的财务状况进行预测时,无需分别查询获取各方明文数据,而是直接采用密文数据进行预测,再对预测结果进行解密,预测过程简单且安全性较高,不易造成敏感信息的泄露。
由以上技术方案可以看出,本申请能够利用PSI算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以MPC方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
本申请实施例还提供一种基于隐私保护的校园风险预测装置,该基于隐私保护的校园风险预测装置用于执行前述基于隐私保护的校园风险预测方法的任一实施例。具体地,请参阅图3,图3是本申请实施例提供的基于隐私保护的校园风险预测装置100的示意性框图。
其中,如图3所示,基于隐私保护的校园风险预测装置100包括构建单元101、计算单元102、预处理单元103、联合特征工程单元104、训练单元105、评测单元106、获取单元107、加密单元108、输入单元109、解密单元110。
其中,所述构建单元101,用于获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;
所述计算单元102,用于利用PSI算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;
所述构建单元101,还用于获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;
所述预处理单元103,用于将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;
所述联合特征工程单元104,用于基于每个第二子集进行联合特征工程,得到每个样本子集;
所述训练单元105,用于获取初始模型,利用每个样本子集以MPC方式对所述初始模型进行联合训练,得到密文预测模型;
所述评测单元106,用于对所述密文预测模型进行模型评测;
所述获取单元107,用于当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;
所述加密单元108,用于利用所述MPC方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;
所述输入单元109,用于将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;
所述解密单元110,用于利用所述MPC方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果。
由以上技术方案可以看出,本申请能够利用PSI算法对学校提供的用户身份标识与其他各参与方提供的用户身份标识进行隐匿求交,使各方在不泄露任何额外信息的情况下得到数据的交集,进而能够在保证隐私性的前提下结合学校及各参与方的数据构建更加全面的样本子集,利用每个样本子集以MPC方式对初始模型进行联合训练得到密文预测模型,保证在各方数据不出本地的前提下联合训练得到准确的预测模型,并利用密文预测模型对待预测用户进行风险预测,使各方能够利用本地数据与密文预测模型进行可靠的风险预测,且风险预测结果不会暴露各方的原始输入数据,更加提高了预测过程中数据的安全性。
上述基于隐私保护的校园风险预测装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的计算机设备的示意性框图。该计算机设备400是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参阅图4,该计算机设备400包括通过装置总线401连接的处理器402、存储器和网络接口405,其中,存储器可以包括存储介质403和内存储器404。
该存储介质403可存储操作系统4031和计算机程序4032。该计算机程序4032被执行时,可使得处理器402执行基于隐私保护的校园风险预测方法。
该处理器402用于提供计算和控制能力,支撑整个计算机设备400的运行。
该内存储器404为存储介质403中的计算机程序4032的运行提供环境,该计算机程序4032被处理器402执行时,可使得处理器402执行基于隐私保护的校园风险预测方法。
该网络接口405用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备400的限定,具体的计算机设备400可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器402用于运行存储在存储器中的计算机程序4032,以实现本申请实施例公开的基于隐私保护的校园风险预测方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器402可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器402还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的基于隐私保护的校园风险预测方法。
需要说明的是,本案中所涉及到的数据均为合法取得。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,后台服务器,或者网络设备等 ) 执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于隐私保护的校园风险预测方法,其特征在于,包括:
获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;
利用隐私集合求交算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;
获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;其中,所述第一标识信息集合用于存储所述目标学校内学生的身份信息;
将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;
基于每个第二子集进行联合特征工程,得到每个样本子集;
获取初始模型,利用每个样本子集以安全多方计算方式对所述初始模型进行联合训练,得到密文预测模型;
对所述密文预测模型进行模型评测;
当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;
利用所述安全多方计算方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;
将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;
利用所述安全多方计算方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果;
所述对每个第一子集进行本地预处理得到每个第二子集,包括:
在每个参与方的本地服务器中获取对应的每个第一子集中的异常值,并从每个第一子集中删除所述异常值,得到每个第一中间子集;
在每个参与方的本地服务器中获取对应的每个第一中间子集中的空缺值,并对每个第一中间子集中的空缺值进行中位数填充处理,得到每个第二中间子集;其中,所述中位数填充处理是指利用与所述空缺值相邻的各数据的中位数对该空缺值进行填充;
在每个参与方的本地服务器将对应的每个第二中间子集中的数据统一至预设度量空间,得到每个第二子集;
所述获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,包括:
连接至每个参与方的数据库;
根据每个第三标识信息集合中的用户身份标识在对应的每个参与方的数据库中进行查询;
利用查询到的数据构建数据集;
其中,所述第二标识信息集合用于存储各参与方所存储的用户身份信息。
2.根据权利要求1所述的基于隐私保护的校园风险预测方法,其特征在于,所述基于每个第二子集进行联合特征工程,得到每个样本子集,包括:
获取预先配置的预测标签,及获取预先配置的相关度阈值;
对于每个第二子集,采用斯皮尔曼相关系数法计算所述第二子集中的每个数据与所述预测标签的相关度;
从所述第二子集中剔除与所述预测标签的相关度低于所述相关度阈值的数据,得到所述第二子集对应的所述样本子集。
3.根据权利要求2所述的基于隐私保护的校园风险预测方法,其特征在于,所述获取初始模型,利用每个样本子集以安全多方计算方式对所述初始模型进行联合训练,得到密文预测模型,包括:
获取当前的预测需求数据,并根据所述预测需求数据获取所述初始模型;
利用所述安全多方计算方式对应的加密算法对每个样本子集中的数据进行加密,得到每个密文样本;
以所述预测标签作为训练目标,并利用每个密文样本对所述初始模型进行训练,得到所述密文预测模型。
4. 根据权利要求3所述的基于隐私保护的校园风险预测方法,其特征在于,所述根据所述预测需求数据获取所述初始模型,包括:
当所述预测需求数据为学生财务风险预测时,获取纵向逻辑回归模型作为所述初始模型;或者
当所述预测需求数据为学生财务实力等级预测时,获取多分类模型作为所述初始模型。
5.根据权利要求1所述的基于隐私保护的校园风险预测方法,其特征在于,所述对所述密文预测模型进行模型评测,包括:
计算所述密文预测模型的精确度、召回率、F1分数及准确度;
获取所述精确度对应的精确度阈值、所述召回率对应的召回率阈值、所述F1分数对应的分数阈值,及所述准确度对应的准确度阈值;
当所述精确度大于或者等于所述精确度阈值、所述召回率大于或者等于所述召回率阈值、所述F1分数大于或者等于所述分数阈值,及所述准确度大于或者等于所述准确度阈值时,确定所述密文预测模型通过评测;或者
当所述精确度小于所述精确度阈值,及/或所述召回率小于所述召回率阈值,及/或所述F1分数小于所述分数阈值,及/或所述准确度小于所述准确度阈值时,确定所述密文预测模型未通过评测,继续对所述密文预测模型进行联合训练。
6.一种基于隐私保护的校园风险预测装置,其特征在于,包括:
构建单元,用于获取目标学校提供的用户身份标识构建第一标识信息集合,及获取每个参与方提供的用户身份标识构建每个参与方对应的第二标识信息集合;
计算单元,用于利用隐私集合求交算法计算所述第一标识信息集合与每个第二标识信息集合的交集作为每个参与方提供的第三标识信息集合;
所述构建单元,还用于获取每个第三标识信息集合中的用户身份标识对应的数据构建数据集,及获取所述第一标识信息集合中的用户身份标识对应的数据构建数据集;其中,所述第一标识信息集合用于存储所述目标学校内学生的身份信息;
预处理单元,用于将构建的数据集确定为每个第一子集,并对每个第一子集进行本地预处理得到每个第二子集;
联合特征工程单元,用于基于每个第二子集进行联合特征工程,得到每个样本子集;
训练单元,用于获取初始模型,利用每个样本子集以安全多方计算方式对所述初始模型进行联合训练,得到密文预测模型;
评测单元,用于对所述密文预测模型进行模型评测;
获取单元,用于当所述密文预测模型通过评测时,获取待预测用户的目标用户身份标识,并利用所述目标用户身份标识从所述目标学校及每个参与方获取待处理数据;
加密单元,用于利用所述安全多方计算方式对应的加密算法对所述待处理数据进行加密,得到待处理密文;
输入单元,用于将所述待处理密文输入至所述密文预测模型,并获取所述密文预测模型的密文输出数据;
解密单元,用于利用所述安全多方计算方式对应的加密算法对所述密文输出数据进行解密,得到所述待预测用户的风险预测结果;
所述预处理单元,具体用于:
在每个参与方的本地服务器中获取对应的每个第一子集中的异常值,并从每个第一子集中删除所述异常值,得到每个第一中间子集;
在每个参与方的本地服务器中获取对应的每个第一中间子集中的空缺值,并对每个第一中间子集中的空缺值进行中位数填充处理,得到每个第二中间子集;其中,所述中位数填充处理是指利用与所述空缺值相邻的各数据的中位数对该空缺值进行填充;
在每个参与方的本地服务器将对应的每个第二中间子集中的数据统一至预设度量空间,得到每个第二子集;
所述构建单元,包括:
连接至每个参与方的数据库;
根据每个第三标识信息集合中的用户身份标识在对应的每个参与方的数据库中进行查询;
利用查询到的数据构建数据集;
其中,所述第二标识信息集合用于存储各参与方所存储的用户身份信息。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于隐私保护的校园风险预测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的基于隐私保护的校园风险预测方法。
CN202310811763.3A 2023-07-04 2023-07-04 基于隐私保护的校园风险预测方法、装置、设备及介质 Active CN116579020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310811763.3A CN116579020B (zh) 2023-07-04 2023-07-04 基于隐私保护的校园风险预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310811763.3A CN116579020B (zh) 2023-07-04 2023-07-04 基于隐私保护的校园风险预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116579020A CN116579020A (zh) 2023-08-11
CN116579020B true CN116579020B (zh) 2024-04-05

Family

ID=87536082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310811763.3A Active CN116579020B (zh) 2023-07-04 2023-07-04 基于隐私保护的校园风险预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116579020B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN111666576A (zh) * 2020-04-29 2020-09-15 平安科技(深圳)有限公司 数据处理模型生成方法和装置、数据处理方法和装置
CN113505894A (zh) * 2021-06-02 2021-10-15 北京航空航天大学 纵向联邦学习线性回归和逻辑回归模型训练方法及装置
CN114372867A (zh) * 2021-12-31 2022-04-19 南京星云数字技术有限公司 用户信用度的验证评估方法、装置和计算机设备
CN114492605A (zh) * 2022-01-12 2022-05-13 杭州博盾习言科技有限公司 联邦学习特征选择方法、装置、系统以及电子设备
WO2023108967A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 基于隐私保护计算和跨组织的联合信用评分方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、系统及介质
CN111666576A (zh) * 2020-04-29 2020-09-15 平安科技(深圳)有限公司 数据处理模型生成方法和装置、数据处理方法和装置
CN113505894A (zh) * 2021-06-02 2021-10-15 北京航空航天大学 纵向联邦学习线性回归和逻辑回归模型训练方法及装置
WO2023108967A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 基于隐私保护计算和跨组织的联合信用评分方法及装置
CN114372867A (zh) * 2021-12-31 2022-04-19 南京星云数字技术有限公司 用户信用度的验证评估方法、装置和计算机设备
CN114492605A (zh) * 2022-01-12 2022-05-13 杭州博盾习言科技有限公司 联邦学习特征选择方法、装置、系统以及电子设备

Also Published As

Publication number Publication date
CN116579020A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN112182595A (zh) 基于联邦学习的模型训练方法及装置
US9749302B1 (en) Secure collection of sensitive data
US20170070351A1 (en) Method and apparatus for verifying processed data
CN111931216A (zh) 一种基于隐私保护的方式获取联合训练模型的方法及系统
US11790094B2 (en) Evaluation of a monitoring function
CN109687952A (zh) 数据处理方法及其装置、电子装置及存储介质
Singh et al. Cloud-based patient health information exchange system using blockchain technology
US11699185B2 (en) Systems and methods for privacy-preserving inventory matching
CN116579020B (zh) 基于隐私保护的校园风险预测方法、装置、设备及介质
WO2023100720A1 (ja) 機械学習装置、機械学習システム、機械学習方法、および機械学習プログラム
CN114021732B (zh) 一种比例风险回归模型训练方法、装置、系统及存储介质
CN111431918B (zh) 一种基于区块链确定目标用户状态标签的方法和系统
CN113965310A (zh) 基于可控去标识化的标签实现混合隐私计算处理的方法
CN111931947A (zh) 一种用于分布式模型训练的训练样本重组方法及系统
JP7112151B1 (ja) 機械学習装置、機械学習システム、機械学習方法、および機械学習プログラム
US7844267B2 (en) Server for providing access by a communication terminal to a communication processing service
Fantaye An Introduction and Overview of Privacy-Enhancing Technologies for Data Processing and Analysis
CN116488789B (zh) 一种数据处理方法、装置、设备和介质
CN113657614B (zh) 联邦学习模型的更新方法和装置
EP4332811A1 (en) Method, computer program and system for collecting confidential data from several data providers, for joint analysis of said data
CN117611165A (zh) 异常对象检测方法、装置、计算机设备和存储介质
CN117291602A (zh) 基于同态加密的风险评估方法、装置和计算机设备
CN117992934A (zh) 数据安全共享方法、数据安全分析方法及装置
CN117009996A (zh) 数据处理方法、装置、电子设备和介质
CN115719279A (zh) 养老保障待遇的可信评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant