CN114880637B - 账户风险的验证方法、装置、计算机设备和存储介质 - Google Patents

账户风险的验证方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114880637B
CN114880637B CN202210793901.5A CN202210793901A CN114880637B CN 114880637 B CN114880637 B CN 114880637B CN 202210793901 A CN202210793901 A CN 202210793901A CN 114880637 B CN114880637 B CN 114880637B
Authority
CN
China
Prior art keywords
authentication data
model
account authentication
account
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210793901.5A
Other languages
English (en)
Other versions
CN114880637A (zh
Inventor
蔡文锴
王泽峰
史晓婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuyun Technology Co ltd
Original Assignee
Shenzhen Zhuyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuyun Technology Co ltd filed Critical Shenzhen Zhuyun Technology Co ltd
Priority to CN202210793901.5A priority Critical patent/CN114880637B/zh
Publication of CN114880637A publication Critical patent/CN114880637A/zh
Application granted granted Critical
Publication of CN114880637B publication Critical patent/CN114880637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本公开涉及一种账户风险的验证方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待评估账户的账户认证数据;将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。采用本方法能够减少建模工作量和成本,提高了效率。

Description

账户风险的验证方法、装置、计算机设备和存储介质
技术领域
本公开涉及数据处理技术领域,特别是涉及一种账户风险的验证方法、装置、计算机设备和存储介质。
背景技术
在用户登录系统或访问系统等情况时,除了验证用户此次凭证是否有效外,还需要对用户行为进行可信验证,通常情况下,是通过风险评分的形式判断用户行为是否可信。
现有技术中,可以通过安全策略专家按照具体的场景情况进行风险评级或评分定值,然而这种方法不能应对复杂情况,且工作量大;还可以通过逻辑回归算法进行评分,但是需要人工设定标签值,建模成本高,工作量大,效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种减少工作量提高效率降低成本的账户风险的验证方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本公开实施例提供了一种账户风险的验证方法。所述方法包括:
获取待评估账户的账户认证数据;
将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;
在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。
在其中一个实施例中,所述评分模型的获取方式,包括:
获取待标注账户认证数据样本;
将所述待标注账户认证数据样本输入至所述标注模型,经所述标注模型输出风险评分;
将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,利用所述第一训练样本训练初始评分模型,得到评分模型。
在其中一个实施例中,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
获取训练所述标注模型时使用的第二训练样本;
将风险评分位于预设范围内的所述待标注账户认证数据样本和所述第二训练样本作为第一训练样本。
在其中一个实施例中,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
将风险评分位于预设范围内的所述待标注账户认证数据样本作为中间训练样本,利用所述中间训练样本训练初始中间模型,得到第一中间模型;
获取第三账户认证数据,并将所述第三账户认证数据输入至所述第一中间模型,经所述第一中间模型输出风险评分;
将风险评分位于预设范围内的所述第三账户认证数据替换所述中间训练样本,训练得到第二中间模型;
重复执行所述将风险评分位于预设范围内的账户认证数据替换为所述中间训练样本至预设次数,确定中间模型;
将所述中间模型输出的风险评分位于预设范围内的账户认证数据作为第一训练样本。
在其中一个实施例中,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
获取风险评分高于第一预设值的所述待标注账户认证数据样本和低于第二预设值的所述待标注账户认证数据样本作为第一训练样本。
在其中一个实施例中,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得,包括:
获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据;
构建初始标注模型,所述初始标注模型中设置有训练参数;
将所述第二账户认证数据样本输入至所述初始标注模型,得到输出结果;
基于所述输出结果与标注的风险评分标签的差异,对所述初始标注模型进行迭代调整,直至所述差异满足预设要求,得到标注模型。
在其中一个实施例中,所述获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据,包括:
获取初始认证数据集合;
对所述初始认证数据集合进行过采样处理和/或欠采样处理得到第二账户认证数据;
确定标注有风险评分标签的所述第二账户认证数据的集合作为第二账户认证数据样本集合。
第二方面,本公开实施例还提供了一种账户风险的验证装置。所述装置包括:
获取模块,用于获取待评估账户的账户认证数据;
输出模块,用于将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;
确定模块,用于在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。
在其中一个实施例中,所述评分模型的获取模块,包括:
获取子模块,用于获取待标注账户认证数据样本;
输出子模块,用于将所述待标注账户认证数据样本输入至所述标注模型,经所述标注模型输出风险评分;
训练模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,利用所述第一训练样本训练初始评分模型,得到评分模型。
在其中一个实施例中,所述训练模块,包括:
获取子模块,用于获取训练所述标注模型时使用的第二训练样本;
样本确定模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本和所述第二训练样本作为第一训练样本。
在其中一个实施例中,所述训练模块,包括:
训练模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本作为中间训练样本,利用所述中间训练样本训练初始中间模型,得到第一中间模型;
获取子模块,用于获取第三账户认证数据,并将所述第三账户认证数据输入至所述第一中间模型,经所述第一中间模型输出风险评分;
替换模块,用于将风险评分位于预设范围内的所述第三账户认证数据替换所述中间训练样本,训练得到第二中间模型;
重复模块,用于重复执行所述将风险评分位于预设范围内的账户认证数据替换为所述中间训练样本至预设次数,确定中间模型;
样本确定子模块,用于将所述中间模型输出的风险评分位于预设范围内的账户认证数据作为第一训练样本。
在其中一个实施例中,所述训练模块,包括:
获取子模块,用于获取风险评分高于第一预设值的所述待标注账户认证数据样本和低于第二预设值的所述待标注账户认证数据样本作为第一训练样本。
在其中一个实施例中,所述标注模型的获取模块,包括:
获取子模块,用于获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据;
构建模块,用于构建初始标注模型,所述初始标注模型中设置有训练参数;
输入模块,用于将所述第二账户认证数据样本输入至所述初始标注模型,得到输出结果;
调整模块,用于基于所述输出结果与标注的风险评分标签的差异,对所述初始标注模型进行迭代调整,直至所述差异满足预设要求,得到标注模型。
在其中一个实施例中,所述获取子模块,包括:
获取单元,用于获取初始认证数据集合;
采样模块,用于对所述初始认证数据集合进行过采样处理和/或欠采样处理得到第二账户认证数据;
确定模块,用于确定标注有风险评分标签的所述第二账户认证数据的集合作为第二账户认证数据样本集合。
第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
第五方面,本公开实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
本公开实施例,根据第二账户认证数据和风险评分之间的对应关系训练得到标注模型,将第一账户认证数据输入至标注模型中,经所述标注模型输出对应的风险评分;将第一账户认证数据和标注模型输出的风险评分作为训练数据,训练得到评分模型;获取待评估账户的账户认证数据,经账户认证数据输入到评分模型中,经评分模型输出待评估账户的风险评分值;判断风险评分值是否低于评分阈值,若风险评分值高于评分阈值,则判定待评估账户的风险较高,未通过风险验证。本公开实施例中,可以首先训练得到标注模型,然后通过标注模型输出认证数据对应的风险评分,训练得到评分模型,利用训练后的评分模型输出风险评分,对待评估账户进行风险验证,减少了人工打标签的工作量,降低建模成本和工作量,提高了效率,能够对账户的认证数据进行风险评分验证,保证了用户行为的安全性。
附图说明
图1为一个实施例中账户风险的验证方法的流程示意图;
图2为一个实施例中评分模型的获取方式的流程示意图;
图3为一个实施例中标注模型的获取方式的流程示意图;
图4为一个实施例中账户风险的验证方法的流程示意图;
图5为一个实施例中模型迭代过程的流程示意图;
图6为一个实施例中账户风险的验证装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。
在一个实施例中,如图1所示,提供了一种账户风险的验证方法,所述方法包括:
步骤S110,获取待评估账户的账户认证数据;
其中,通常情况下,用户在登录系统或访问系统功能等情况时,需要对用户的操作凭证进行验证,为了保证系统和用户的安全,还需要对用户的行为进行可信验证。对用户行为进行可信验证可以通过账户认证数据进行风险评分,根据风险评分值确定用户行为是否可信。在一个示例中,风险指用户在认证、登录某个应用系统的时候由于存在某点或多点异常所触发的事件;风险检测指在用户认证、登录某个应用系统的时候进行确认是否存在风险的过程。
本公开实施例中,获取待评估账户的账户认证数据,其中,账户认证数据可以包括但不限于账户的认证日志。在一个示例中,可以根据账户数据与风险之间的相关性,获取账户数据中的部分特征作为账户认证数据,用于进行风险验证。
步骤S120,将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;
本公开实施例中,首先获取第二账户认证数据样本,第二账户认证数据样本中的第二账户认证数据上标注有对应的风险评分,通过第二账户认证数据和风险评分之间的对应关系训练得到标注模型。然后获取标注模型根据输入的第一账户认证数据输出的风险评分;根据第一账户认证数据和标注模型输出的风险评分之间的对应关系训练得到评分模型。在一个示例中,还可以根据第一账户数据与风险评分之间的对应关系以及第二账户数据与风险评分之间的对应关系训练得到评分模型。将获取到的待评估账户的账户认证数据输入评分模型中,经评分模型输出对应的风险评分值。在一个示例中,待评估账户的账户认证数据、第一账户认证数据和第二账户认证数据中包含的数据类型和特征相同。
步骤S130,在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。
本公开实施例中,获取到待评估账户对应的风险评分值之后,判断风险评分值是否高于评分阈值,若风险评分高于评分阈值,可以认为此时待评估账户的风险较高,该待评估账户未通过风险验证,对应的用户未通过验证,用户的此次操作失败。其中,本实施例中,风险评分值越高,账户的可信度越低。在一个示例中,评分阈值为根据实际应用场景设置的一个风险评分值,当风险评分值高于该评分阈值时,可以认为对应的账户可信度较低,无法通过风险验证。
本公开实施例,根据第二账户认证数据和风险评分之间的对应关系训练得到标注模型,将第一账户认证数据输入至标注模型中,经所述标注模型输出对应的风险评分;将第一账户认证数据和标注模型输出的风险评分作为训练数据,训练得到评分模型;获取待评估账户的账户认证数据,经账户认证数据输入到评分模型中,经评分模型输出待评估账户的风险评分值;判断风险评分值是否低于评分阈值,若风险评分值高于评分阈值,则判定待评估账户的风险较高,未通过风险验证。本公开实施例中,可以首先训练得到标注模型,然后通过标注模型输出认证数据对应的风险评分,训练得到评分模型,利用训练后的评分模型输出风险评分,对待评估账户进行风险验证,减少了人工打标签的工作量,降低建模成本和工作量,提高了效率,能够对账户的认证数据进行风险评分验证,保证了用户行为的安全性。
在一个实施例中,如图2所示,所述评分模型的获取方式,包括:
步骤S210,获取待标注账户认证数据样本;
步骤S220,将所述待标注账户认证数据样本输入至所述标注模型,经所述标注模型输出风险评分;
步骤S230,将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,利用所述第一训练样本训练初始评分模型,得到评分模型。
本公开实施例中,首先获取待标注账户认证数据样本,将待标注账户认证样本输入到得到的标注模型中,经所述标注模型输出对应的风险评分,其中,待标注账户认证数据样本为没有风险评分标签的账户认证数据。根据标注模型输出的风险评分对待标注账户认证数据样本进行划分,将风险评分位于预设范围内的待标注账户认证数据样本作为训练样本,训练初始评分模型,得到最终的评分模型,其中,初始评分模型为根据实际应用场景构建得到,模型中设置有训练参数,训练初始评分模型时,将标注模型输出的风险评分作为训练样本的评分标签。在一个示例中,预设范围为预先设置的一个根据实际应用场景确定的风险评分的范围。
本公开实施例,将待标注账户认证数据样本输入到标注模型中,经标注模型输出风险评分,并利用风险评分在预设范围内的待标注账户认证数据样本训练模型得到评分模型,无需人工对大量的数据打标签,大大减少了工作量,提高了效率,降低了建模难度。
在一个实施例中,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
获取训练所述标注模型时使用的第二训练样本;
将风险评分位于预设范围内的所述待标注账户认证数据样本和所述第二训练样本作为第一训练样本。
本公开实施例中,确定第一训练样本时,还需要获取训练标注模型时使用的训练样本,即第二训练样本。将风险评分位于预设范围内的待标注账户认证数据样本和第二训练样本数据作为第一训练样本,其中,第一训练样本中待标注账户认证数据样本带有标注模型输出的对应的风险评分的标签。
本公开实施例,将训练标注模型时使用的训练样本同时作为评分模型的训练样本,提高了评分模型的训练样本的丰富性,保证了训练得到的评分模型的准确性。
在一个实施例中,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
将风险评分位于预设范围内的所述待标注账户认证数据样本作为中间训练样本,利用所述中间训练样本训练初始中间模型,得到第一中间模型;
获取第三账户认证数据,并将所述第三账户认证数据输入至所述第一中间模型,经所述第一中间模型输出风险评分;
将风险评分位于预设范围内的所述第三账户认证数据替换所述中间训练样本,训练得到第二中间模型;
重复执行所述将风险评分位于预设范围内的账户认证数据替换为所述中间训练样本至预设次数,确定中间模型;
将所述中间模型输出的风险评分位于预设范围内的账户认证数据作为第一训练样本。
本公开实施例中,在确定第一训练样本时,首先,将风险评分位于预设范围内的待标注账户认证数据样本作为中间训练样本。采用中间训练样本训练初始中间模型,当训练后的模型的准确率在预设准确率范围内时,得到第一中间模型。然后获取第三账户认证数据,将第三账户认证数据输入至第一中间模型,第一中间模型输出对应的风险评分,将风险评分位于预设范围内的第三账户认证数据替换中间训练样本,训练得到第二中间模型,其中,通常情况下,第三账户认证数据中的数据类型和包含的特征与待标注账户认证数据一致。得到第二中间模型之后,再次获取第四账户认证数据,经第二中间模型输出对应的风险评分,将风险评分位于预设范围内的第四账户认证数据替换中间训练样本,训练得到第三中间模型,重复执行上述的获取认证数据、输出风险评分、替换训练样本、训练得到新的中间模型的过程,直到执行次数达到预设次数,确定得到中间模型,将此时的中间模型输出的风险评分位于预设范围内的账户认证数据作为第一训练样本,其中,预设次数为根据具体应用场景事先设置的一个迭代次数,当重复次数达到预设次数时,保证了效率的同时尽可能使得最终得到的评分模型准确性较高。在一个示例中,替换中间训练样本时,可以将迭代过程中的中间模型的训练样本一起作为中间训练样本的一部分,以提升训练得到的评分模型的准确性。
本公开实施例,在确定中间模型时,通过重复执行输出和训练的过程,保证了训练样本的丰富性,同时提高了训练得到的评分模型的准确性,提升了用户的体验感,提高了效率,无需人工进行标注,减少工作量,降低了成本。
在一个实施例中,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
获取风险评分高于第一预设值的所述待标注账户认证数据样本和低于第二预设值的所述待标注账户认证数据样本作为第一训练样本。
本公开实施例中,标注模型对待标注账户认证数据标注完成后,将风险评分高于第一预设值的待标注账户认证数据样本和低于第二预设值的所述待标注账户认证数据样本作为第一训练样本,其中,第一预设值和第二预设值为根据实际应用场景事先设置的风险评分值。在一个示例中,高于第一预设值的账户认证数据可以认为是正样本,低于第二预设值的账户认证数据可以认为是负样本,在设置第一预设值和第二预设值时,通常尽可能保证正样本和负样本的数量均衡。
本公开实施例,通过获取风险评分高于第一预设值的账户认证数据和低于第二预设值的账户认证数据作为训练样本,可以保证训练样本中正样本和负样本的均衡,提高了训练得到的模型的准确性,降低了建模的难度,减少了工作量,提高了效率。本实施例中,根据风险评分设定预设值划分得到正负样本,能够保证正负样本均衡的同时保证样本数据的质量,进而提高模型的准确性。
在一个实施例中,如图3所示,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得,包括:
步骤S310,获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据;
步骤S320,构建初始标注模型,所述初始标注模型中设置有训练参数;
步骤S330,将所述第二账户认证数据样本输入至所述初始标注模型,得到输出结果;
步骤S340,基于所述输出结果与标注的风险评分标签的差异,对所述初始标注模型进行迭代调整,直至所述差异满足预设要求,得到标注模型。
本公开实施例中,首先获取第二账户认证数据集合,通常情况下,第二账户认证数据集合中包括标注有风险评分标签的第二账户认证数据。构建初始标注模型,初始标注模型中设置有训练参数,将样本数据输入到初始标注模型中,得到输出结果,根据输出结果与对应的评分标签之间的差异,对初始标注模型中的训练参数进行迭代调整,直到调整后的差异满足预设要求,得到标注模型。在一个示例中,标注模型和评分模型可以采用逻辑回归模型。在另一个示例中,在对标注模型进行评估时,可以通过测试集合进行验证,测试集合为标注有风险评分的账户认证数据,将测试集输入到模型中,若输出的正确率在预设范围内,则通过评估,若输出的正确率不在预设范围内,则对模型中的训练参数进行调整或对账户认证数据进行调整,修改或增加数据类型和特征。
本公开实施例,通过样本数据集合和标注好的第二账户认证数据得到标注模型,从而能够根据账户认证数据输出对应的风险评分,进而降低了工作量,提高了效率,无需人工对大量数据进行标注。
在一个实施例中,所述获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据,包括:
获取初始认证数据集合;
对所述初始认证数据集合进行过采样处理和/或欠采样处理得到第二账户认证数据;
确定标注有风险评分标签的所述第二账户认证数据的集合作为第二账户认证数据样本集合。
本公开实施例中,在获取标注模型的样本数据集合时,首先获取初始认证数据集合,其中,初始认证数据集合通常为在实际场景中采集的账户认证数据。通常情况下,直接采集得到的账户认证数据中正负样本之间的数量是不均衡的,不均衡的正负样本训练得到的模型准确率较低,因此,可以通过采样处理来平衡正负样本。其中,模型中更关注的样本(如:日志风险检测模型中的风险日志样本,欺诈检测模型中的欺诈用户样本,流失预警模型中的流失用户样本等)为正样本,与之相对的是负样本。在一个示例中,正样本是指属于某一类别的样本,反样本是指不属于某一类别的样本,本实施例中,可以认为风险评分较低的账户认证数据为负样本,风险评分较高的账户认证数据为正样本,也可以认为有风险的为正样本,无风险的为负样本。本实施例中,通过对第二账户认证数据进行过采样处理和/或欠采样处理,平衡正负样本的数量,其中,假设负样本的数量大于正样本,欠采样处理通常为对训练集中的负样本进行欠采样,即去除一些负样本,使得正样本和反样本的数目相当,如正样本不做处理,对负样本进行抽样,以提升正样本比例;过采样处理通常为对训练集中的正样本进行过采样,即增加一些正样本使得正样本和反样本的数目相当,如负样本不做处理,复制正样本,以提升正样本比例。对初始认证数据集合采样得到第二账户认证数据,将标注有风险评分标签的第二账户认证数据的集合作为第二账户认证数据集合,用于训练模型得到标注模型。
本公开实施例,通过对初始账户认证数据进行过采样和/或欠采样处理,平衡正负样本的数量,保证了训练得到的模型的准确率,降低了建模难度。
图4是根据一示例性实施例示出的一种账户风险的验证方法的流程示意图,参考图4所示,首先通过人工标签对用户认证的风险进行判定,并提取相应数据,得到建模初始样本;进行特征工程,根据网络安全相关业务知识,添加与风险相关的变量,得到建模样本,其中,特征工程是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果;然后按照目标变量(即是否有风险)对建模样本进行过采样和欠采样,得到建模采样样本,未被采样的为非建模采样样本;对建模采样样本进行划分得到训练集和测试集,可以按照训练集:测试集=7:3(或6:4)的比例对建模采样样本进行随机分配;用训练集建立训练逻辑回归模型;在测试集上对得到的模型进行评估,如果未达到预期,则调整参数,或增加更多的特征工程重新建立模型,如果达到预期,则进入下一步;迭代建模——判断迭代次数是否等于预先指定次数,若是,则进入下一步,否则如图5所示,用上述模型建模样本中一定比例的非建模采样样本进行预测,在一个示例中,一定比例通常根据模型迭指定代次数而定,设模型迭代指定次数为n,该比例可取1/(2n),如:模型迭代指定次数为5次,该比例可取1/10。把预测分数高于第一预设值的样本视为正样本(即正伪标签),分数低于第二预设值的样本视为负样本(即负伪标签,正伪标签和负伪标签合称伪标签),把伪标签样本和上述步骤中的建模采样样本作为新的训练样本,划分训练集和测试集,训练得到新的逻辑回归模型,并重复上述步骤直至迭代次数等于预先指定次数,得到最终的评分模型。得到评分模型后,可以部署上线,预测风险评分,用模型对用户认证日志进行预测,得到日志对应的风险评分结果。在一个示例中,可以根据不同的应用场景按照上述方式训练得到评分模型,用于检测用户的行为风险,也可以应用于检测设备、IP的行为风险。其中,所述预先指定次数、第一预设值、第二预设值可以根据实际应用场景通过配置文件进行修改。在一个示例中,预先指定次数可以设置为5,第一预设值可以设置为0.9,第二预设值可以设置为0.1。
参考图5所示,在上述方法中模型的迭代过程中,首先利用已经打好风险评分标签的标签数据建立并评估模型;然后用模型对未标注的非标签数据进行评分预测,得到伪标签数据;利用所述标签数据和所述伪标签数据建立并评估模型,得到新模型。上述过程即完成了一次模型的迭代。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的账户风险的验证方法的账户风险的验证装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个账户风险的验证装置实施例中的具体限定可以参见上文中对于账户风险的验证方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种账户风险的验证装置600,包括:
获取模块610,用于获取待评估账户的账户认证数据;
输出模块620,用于将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;
确定模块630,用于在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。
在一个实施例中,所述评分模型的获取模块,包括:
获取子模块,用于获取待标注账户认证数据样本;
输出子模块,用于将所述待标注账户认证数据样本输入至所述标注模型,经所述标注模型输出风险评分;
训练模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,利用所述第一训练样本训练初始评分模型,得到评分模型。
在一个实施例中,所述训练模块,包括:
获取子模块,用于获取训练所述标注模型时使用的第二训练样本;
样本确定模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本和所述第二训练样本作为第一训练样本。
在一个实施例中,所述训练模块,包括:
训练模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本作为中间训练样本,利用所述中间训练样本训练初始中间模型,得到第一中间模型;
获取子模块,用于获取第三账户认证数据,并将所述第三账户认证数据输入至所述第一中间模型,经所述第一中间模型输出风险评分;
替换模块,用于将风险评分位于预设范围内的所述第三账户认证数据替换所述中间训练样本,训练得到第二中间模型;
重复模块,用于重复执行所述将风险评分位于预设范围内的账户认证数据替换为所述中间训练样本至预设次数,确定中间模型;
样本确定子模块,用于将所述中间模型输出的风险评分位于预设范围内的账户认证数据作为第一训练样本。
在一个实施例中,所述训练模块,包括:
获取子模块,用于获取风险评分高于第一预设值的所述待标注账户认证数据样本和低于第二预设值的所述待标注账户认证数据样本作为第一训练样本。
在一个实施例中,所述标注模型的获取模块,包括:
获取子模块,用于获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据;
构建模块,用于构建初始标注模型,所述初始标注模型中设置有训练参数;
输入模块,用于将所述第二账户认证数据样本输入至所述初始标注模型,得到输出结果;
调整模块,用于基于所述输出结果与标注的风险评分标签的差异,对所述初始标注模型进行迭代调整,直至所述差异满足预设要求,得到标注模型。
在一个实施例中,所述获取子模块,包括:
获取单元,用于获取初始认证数据集合;
采样模块,用于对所述初始认证数据集合进行过采样处理和/或欠采样处理得到第二账户认证数据;
确定模块,用于确定标注有风险评分标签的所述第二账户认证数据的集合作为第二账户认证数据样本集合。
上述账户风险的验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储账户认证数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种账户风险的验证方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本公开实施例方案相关的部分结构的框图,并不构成对本公开实施例方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开实施例所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开实施例所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开实施例专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例的保护范围应以所附权利要求为准。

Claims (9)

1.一种账户风险的验证方法,其特征在于,所述方法包括:
获取待评估账户的账户认证数据;
将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;
其中,所述评分模型的获取方式,包括:
获取待标注账户认证数据样本;
将所述待标注账户认证数据样本输入至所述标注模型,经所述标注模型输出风险评分;
将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,利用所述第一训练样本训练初始评分模型,得到评分模型;
在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。
2.根据权利要求1所述的方法,其特征在于,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
获取训练所述标注模型时使用的第二训练样本;
将风险评分位于预设范围内的所述待标注账户认证数据样本和所述第二训练样本作为第一训练样本。
3.根据权利要求1所述的方法,其特征在于,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
将风险评分位于预设范围内的所述待标注账户认证数据样本作为中间训练样本,利用所述中间训练样本训练初始中间模型,得到第一中间模型;
获取第三账户认证数据,并将所述第三账户认证数据输入至所述第一中间模型,经所述第一中间模型输出风险评分;
将风险评分位于预设范围内的所述第三账户认证数据替换所述中间训练样本,训练得到第二中间模型;
重复执行所述将风险评分位于预设范围内的账户认证数据替换为所述中间训练样本至预设次数,确定中间模型;
将所述中间模型输出的风险评分位于预设范围内的账户认证数据作为第一训练样本。
4.根据权利要求1所述的方法,其特征在于,所述将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,包括:
获取风险评分高于第一预设值的所述待标注账户认证数据样本和低于第二预设值的所述待标注账户认证数据样本作为第一训练样本。
5.根据权利要求1所述的方法,其特征在于,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得,包括:
获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据;
构建初始标注模型,所述初始标注模型中设置有训练参数;
将所述第二账户认证数据样本输入至所述初始标注模型,得到输出结果;
基于所述输出结果与标注的风险评分标签的差异,对所述初始标注模型进行迭代调整,直至所述差异满足预设要求,得到标注模型。
6.根据权利要求5所述的方法,其特征在于,所述获取第二账户认证数据样本集合,其中,所述第二账户认证数据样本包括标注有风险评分标签的第二账户认证数据,包括:
获取初始认证数据集合;
对所述初始认证数据集合进行过采样处理和/或欠采样处理得到第二账户认证数据;
确定标注有风险评分标签的所述第二账户认证数据的集合作为第二账户认证数据样本集合。
7.一种账户风险的验证装置,其特征在于,所述装置包括:
获取模块,用于获取待评估账户的账户认证数据;
输出模块,用于将所述账户认证数据输入至评分模型中,经所述评分模型输出所述待评估账户的风险评分值,其中,所述评分模型为根据第一账户认证数据样本和风险评分之间的对应关系训练获得,所述第一账户认证数据样本和风险评分之间的对应关系为通过标注模型输出得到,所述标注模型为根据第二账户认证数据样本和风险评分之间的对应关系训练获得;
其中,所述评分模型的获取模块,包括:
获取子模块,用于获取待标注账户认证数据样本;
输出子模块,用于将所述待标注账户认证数据样本输入至所述标注模型,经所述标注模型输出风险评分;
训练模块,用于将风险评分位于预设范围内的所述待标注账户认证数据样本作为第一训练样本,利用所述第一训练样本训练初始评分模型,得到评分模型;
确定模块,用于在所述风险评分值高于评分阈值的情况下,确定所述待评估账户未通过风险验证。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的账户风险的验证方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的账户风险的验证方法的步骤。
CN202210793901.5A 2022-07-07 2022-07-07 账户风险的验证方法、装置、计算机设备和存储介质 Active CN114880637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210793901.5A CN114880637B (zh) 2022-07-07 2022-07-07 账户风险的验证方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210793901.5A CN114880637B (zh) 2022-07-07 2022-07-07 账户风险的验证方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN114880637A CN114880637A (zh) 2022-08-09
CN114880637B true CN114880637B (zh) 2022-09-20

Family

ID=82683232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210793901.5A Active CN114880637B (zh) 2022-07-07 2022-07-07 账户风险的验证方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114880637B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291609B (zh) * 2023-10-09 2024-07-02 石溪信息科技(上海)有限公司 用于账户风险监控系统的数据分析方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881783A (zh) * 2015-05-14 2015-09-02 中国科学院信息工程研究所 电子银行账户欺诈行为及风险检测方法与系统
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN111583024A (zh) * 2020-05-08 2020-08-25 南京甄视智能科技有限公司 信用评估方法、装置、存储介质及服务器
CN112288279A (zh) * 2020-10-30 2021-01-29 平安医疗健康管理股份有限公司 基于自然语言处理和线性回归的业务风险评估方法和装置
CN112330035A (zh) * 2020-11-10 2021-02-05 支付宝(杭州)信息技术有限公司 风险预测模型的训练方法及装置
CN113641970A (zh) * 2021-08-16 2021-11-12 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN113780398A (zh) * 2021-09-02 2021-12-10 科大国创云网科技有限公司 一种无线网络链路质量预测方法及系统
CN114298823A (zh) * 2021-12-28 2022-04-08 上海数禾信息科技有限公司 用于模型构建的数据处理方法和装置
CN114638999A (zh) * 2022-03-23 2022-06-17 支付宝(杭州)信息技术有限公司 图像质量评估模型的训练方法、资料上传处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN111311107B (zh) * 2020-03-02 2023-05-09 腾讯科技(深圳)有限公司 基于用户关系的风险评估方法、装置和计算机设备
US11531734B2 (en) * 2020-06-30 2022-12-20 Bank Of America Corporation Determining optimal machine learning models

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881783A (zh) * 2015-05-14 2015-09-02 中国科学院信息工程研究所 电子银行账户欺诈行为及风险检测方法与系统
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN111583024A (zh) * 2020-05-08 2020-08-25 南京甄视智能科技有限公司 信用评估方法、装置、存储介质及服务器
CN112288279A (zh) * 2020-10-30 2021-01-29 平安医疗健康管理股份有限公司 基于自然语言处理和线性回归的业务风险评估方法和装置
CN112330035A (zh) * 2020-11-10 2021-02-05 支付宝(杭州)信息技术有限公司 风险预测模型的训练方法及装置
CN113641970A (zh) * 2021-08-16 2021-11-12 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN113780398A (zh) * 2021-09-02 2021-12-10 科大国创云网科技有限公司 一种无线网络链路质量预测方法及系统
CN114298823A (zh) * 2021-12-28 2022-04-08 上海数禾信息科技有限公司 用于模型构建的数据处理方法和装置
CN114638999A (zh) * 2022-03-23 2022-06-17 支付宝(杭州)信息技术有限公司 图像质量评估模型的训练方法、资料上传处理方法及装置

Also Published As

Publication number Publication date
CN114880637A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
US11835987B2 (en) Methods and apparatus for finding long methods in code
CN107622008B (zh) 一种应用页面的遍历方法和装置
CN111931179B (zh) 基于深度学习的云端恶意程序检测系统及方法
CN114880637B (zh) 账户风险的验证方法、装置、计算机设备和存储介质
CN115952081A (zh) 一种软件测试方法、装置、存储介质及设备
CN106201857A (zh) 测试用例的选取方法及装置
CN111723377B (zh) 一种平台脆弱性的评估方法、装置、电子设备及存储介质
CN114968750A (zh) 基于人工智能的测试用例生成方法、装置、设备和介质
TWI778411B (zh) 學習模型應用系統、學習模型應用方法及程式產品
CN111459796B (zh) 自动化测试方法、装置、计算机设备和存储介质
CN116228045B (zh) 基于性能退化的产品可靠性薄弱环节评估方法和装置
CN112632564A (zh) 一种威胁评估方法及装置
CN116015932B (zh) 入侵检测网络模型生成方法以及数据流量入侵检测方法
CN116776390A (zh) 一种数据泄漏行为的监测方法、装置、存储介质及设备
CN112988566B (zh) 测试覆盖率提高方法、装置、计算机设备及存储介质
CN110865939B (zh) 应用程序质量监测方法、装置、计算机设备和存储介质
CN114490415A (zh) 业务测试方法、计算机设备、存储介质和计算机程序产品
CN115525528A (zh) 页面质量检测方法、装置、电子设备和存储介质
CN114816964B (zh) 风险模型构建方法、风险检测方法、装置、计算机设备
CN117891566B (zh) 智能软件的可靠性评估方法、装置、设备、介质和产品
US11625318B2 (en) System and method for identifying software behavior
CN116795705A (zh) 异常节点的确定方法、装置和计算机设备
CN116527290A (zh) 信息安全检测方法、装置、设备和介质
CN117151887A (zh) 权限调整方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518000 4001, Block D, Building 1, Chuangzhi Yuncheng Lot 1, Liuxian Avenue, Xili Community, Xili Street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen Zhuyun Technology Co.,Ltd.

Address before: 518051 East, 3rd floor, incubation building, China Academy of science and technology development, No. 009, Gaoxin South 1st Road, Nanshan District, Shenzhen, Guangdong Province

Patentee before: Shenzhen Zhuyun Technology Co.,Ltd.