CN110009012B - 一种风险样本识别方法、装置及电子设备 - Google Patents

一种风险样本识别方法、装置及电子设备 Download PDF

Info

Publication number
CN110009012B
CN110009012B CN201910214223.0A CN201910214223A CN110009012B CN 110009012 B CN110009012 B CN 110009012B CN 201910214223 A CN201910214223 A CN 201910214223A CN 110009012 B CN110009012 B CN 110009012B
Authority
CN
China
Prior art keywords
anomaly detection
dimension
data set
sample
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910214223.0A
Other languages
English (en)
Other versions
CN110009012A (zh
Inventor
陈志招
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910214223.0A priority Critical patent/CN110009012B/zh
Publication of CN110009012A publication Critical patent/CN110009012A/zh
Application granted granted Critical
Publication of CN110009012B publication Critical patent/CN110009012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请实施例提供一种风险样本识别方法、装置及电子设备。其中,方法包括:对样本信息进行分析,以获取与风险相关的特征维度;确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;基于异常检测结果,确定样本信息中的风险样本。

Description

一种风险样本识别方法、装置及电子设备
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种风险样本识别方法、装置及电子设备。
背景技术
在安全领域里,风险防控体系会对各类型的风险进行有针对性的防控。现有的风险防控体系的风险识别能力过于依赖于对黑样本(即已发生的风险案件)的学习。在开发资源有限的情况下,无法毫无限制地为每个类型的风险标注黑样本。此外,若某类风险缺少足够的黑样本,或者黑样本分布不均,还会导致风险防控体系对该风险的识别能力存在缺陷。
有鉴于此,如何在不依赖对黑样本的学习的前提下,实现对风险样本的识别,是本申请所要解决的技术问题。
发明内容
本申请实施例目的是提供一种风险样本识别方法、装置及电子设备,能够在不依赖对黑样本的学习的前提下,实现对风险样本的识别。
为了实现上述目的,本申请实施例是这样实现的:
第一方面,提供一种风险样本识别方法,包括:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
第二方面,提供一种风险样本识别装置,包括:
特征维度分析模块,对样本信息进行分析,以获取与风险相关的特征维度;
客群划分配置模块,确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
客群划分执行模块,针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
异常检测模块,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
风险评估模块,基于异常检测结果,确定样本信息中的风险样本。
第三方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
第四方面,提供一种算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
基于本申请实施例的方案,先对样本信息中的样本按照各异常检测维度相匹配的客群划分方式进行细分,得到各异常检测维度所对应的分类后的数据集,之后,对分类后的数据集按照数据集对应的异常检测维度进行异常检测,并根据异常检测结果来识别样本信息中的风险样本。由于属于无监督的识别方式,因此不依赖对黑样本的学习,可泛用识别任何种类的风险。同时,也不会因黑样本缺少,或者黑样本分布不均而导致识别能力存在在缺陷。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的风险样本识别方法的流程示意图。
图2为本申请实施例提供的风险样本识别装置的结构示意图。
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如前所述,现有的风险防控体系的风险识别能力过于依赖于对黑样本(即已发生的风险案件)的学习。在开发资源有限的条件下,无法毫无限制地为每个类型的风险标注黑样本。此外,若某类风险缺少足够的黑样本,或者黑样本分布不均,还会导致风险防控体系对该风险的识别能力存在缺陷。为此,本申请旨在提供一种不依赖于对黑样本的学习的前提下,识别风险样本的技术方案。
图1是本申请实施例风险样本识别方法的流程图。图1所示的方法可以由下文相对应的装置执行,包括:
步骤S102,对样本信息进行分析,以获取与风险相关的特征维度。
其中,样本信息包括有多个样本。在本步骤中,可以基于样本信息和风险的特点,来刻画用于判断样本是否具有风险的特征维度。或者,也可以从预先确定好的与风险相关的特征维度集中,获取出与样本信息相关联的特征维度。
需要说明的是,特征维度和特征维度的获取方法并不唯一,本申请实施例对此不作具体限定。
步骤S104,确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度。
在本步骤中,可以对分析得到的特征维度进行灵活搭配,组合出不同的异常检测维度。
其中,不同的异常检测维度对应有不同的客群划分方式。针对一个异常检测维度,应按不同的呈现能力划分客群,从而保证客群划分后,属于同一客群的样本在正常情况下具有大致相同的量级。
为方便理解,假设异常检测维度包括的特征维度为“身高”,由于男性和女性在身高上呈现不同的量级,因此“身高”对应的客群划分方式具体是按照“性别”划分客群。或者,假设异常检测维度包括的特征维度为“每月支出”,对于不同收入阶级的人,在每月支出上会呈现不同的量级,因此“每月支出”相匹配的客群划分方式具体是按照“每月收入”划分客群。
步骤S106,针对至少一种异常检测维度,按照对应的客群划分方式对样本信息进行分类,得到至少一种异常检测维度对应的分类后的数据集。
应理解,分类后属于同一数据集的样本对应有相同的客群,因此在对应的异常检测维度上呈现的量级在正常情况下大致相同。
步骤S108,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测。
在本步骤中,可以基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测。
在正常情况下,同一数据集的样本在该数据集对应的异常检测维度所呈现的量级应大致相同。因此,当基于离群点异常检测算法所得到的某个样本的异常检测结果反映出了该样本在所属数据集中的离群度达到预设阈值时,则说明该样本相对于其所属客群来讲,在对应的异常检测维度上呈现出了异常的量级。
举例来讲,假设异常检测维度包括的特征维度为“每月支出”。针对“每月支出”,可以将样本信息中的样本按照“每月收入5千”和“每月收入5万”进行客群细分。一般情况下,月支出1万在月收入5万级别的客群中属于常见支出,但在月收入5千级别的客群中属于罕见支出。因此在“每月收入5万”的数据集中,如果存在每月支出1万的样本,则该样本相对于“每月支出”的异常检测维度,属于正常范畴,对应的离群度不会超过判定为异常的阈值。但是在“每月收入5千”的数据集中,如果存在每月支出1万的样本,则该样本相对于“每月支出”的异常检测维度,属于异常范畴,对应的离群度会过判定为异常的阈值。
显然,样本针对各异常检测维度的异常检测维结果是评估该样本是否存在风险的重要依据。
步骤S110,基于异常检测结果,确定样本信息中的风险样本。
在本步骤中,可以基于样本对应的各个异常检测维度的异常检测结果,来对该样本是否为风险样本进行综合评估。由于评估方式并不唯一,本申请实施例对此不作具体限定。
通过图1所示的风险样本识别方法可以知道,本申请实施例的方案先对样本信息中的样本按照各异常检测维度相匹配的客群划分方式进行细分,得到各异常检测维度所对应的分类后的数据集,之后,对分类后的数据集按照数据集对应的异常检测维度进行异常检测,并根据异常检测结果来识别样本信息中的风险样本。由于属于无监督的识别方式,因此不依赖对黑样本的学习,可泛用识别任何种类的风险。同时,也不会因黑样本缺少,或者黑样本分布不均而导致识别能力存在在缺陷。
下面对本申请实施例的方法进行详细介绍。
本申请实施例的方法的主流流程分为以下四个阶段:
阶段一,通过无监督学习,确定样本信息中各个样本的特征向量。
在本阶段中,首先对样本信息进行分析,获取与风险相关的特征维度。
之后,对特征维度进行搭配,得到至少一种异常检测维度,并确定出各个异常检测维度相匹配的客群划分方式。
在异常检测维度构建完成后,针对每个异常检测维度,按照对应的客群划分方式,对样本信息中的样本进行分类,得到各个异常检测维度对应的分类后的数据集。
之后,基于无监督的离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测。
其中,离群异常检测算法并不唯一,本申请实施例对此不作具体限定。
作为示例性介绍。
针对仅包括一个特征维度的异常检测维度,本申请实施例可以采用广义极端学生化偏差算法,对该异常检测维度对应的数据集分别进行离散点异常检测。
可选地,广义极端学生化偏差算法可以表征有:数据集中的目标样本针对单一特征维度的离群检测结果、目标样本针对单一特征维度的特征值、数据集中的所有样本针对单一特征维度的特征值中位数、数据集中的所有样本针对单一特征维度的特征值方差之间的等量关系。
或者,广义极端学生化偏差算法可以表征有:数据集中的目标样本针对单一特征维度的异常检测结果、目标样本针对单一特征维度的特征值、数据集中的所有样本针对单一特征维度的平均特征值、数据集中的所有样本针对单一特征维度的特征值绝对中位数之间的等量关系。
基于表征有上述任一等量关系的广义极端学生化偏差算法,最终计算得到的异常检测结果具体为作为离散值。本申请实施例将离散值定义为异常分数。
针对仅包括多个特征维度的异常检测维度,本申请实施例可以采用孤立森林算法,对该异常检测维度对应的数据集分别进行离散点异常检测。
假设数据集有N条样本,基于孤立森林算法进行离散点异常检测的过程大致包括:构建一颗iTree(孤立树),从N条样本中均匀抽样(一般是无放回抽样)出ψ个样本出来,作为这颗树的训练样本。在样本中,随机选一个特征,并在这个特征的所有值范围内随机选一个值,对样本进行二叉划分,将样本中小于该值的划分到节点的左边,大于等于该值的划分到节点的右边。这样得到了一个分裂条件和左、右两边的数据集,然后分别在左右两边的数据集上重复上面的过程,直接达到终止条件。终止条件有两个,一个是数据本身不可再分,另外一个是树的高度达到log2(ψ)。基于上述方法把所有iTree树构建完成后,即可对样本进行离散点异常检测。检测的过程就是把样本在iTree树上沿对应的条件分支往下走,直到达到叶子节点,并记录这过程中经过的路径长度h(x),即从根节点,穿过中间的节点,最后到达叶子节点,所走过的边的数量(path length)。最后,将h(x)带入,计算每条待测数据的异常分数。
显然,采用上述广义极端学生化偏差算法和孤立森林算法,最终能够确定样本针对每个异常检测维度的异常分数。本申请实施例将样本针对每个异常检测维度的异常分数,作为该样本的特征向量。
阶段三,基于样本信息中各个样本的特征向量,进行风险评估。
在本阶段可以构建以异常检测维度为底层特征的风险评估模型。之后将样本针对各异常检测维度的异常分数作为特征向量输入至风险评估模型,得到风险评估模型对样本的风险评估结果。其中,需要说明的是,风险评估模型的类别并不唯一,本申请实施例对此不作具体限定。
阶段四,验证样本的风险评估结果的准确性。
在本阶段中,可以通过尽职调查的方式,来验证风险评估模型对样本的风险评估结果。比如,技术人员可以根据风险样本在体系内已有的信息进行详尽分析,验证风险样本是否真的存在风险。再比如,技术人员可以要求风险样本的主体提供相关凭证,以证明样本的某种真实性,进而验证样本是否存在风险。设置是,技术人员实地走访,来验证风险样是否真的存在风险。
阶段四,基于风险样本的验证结果调整风险样本的识别决策。
在本阶段中,如果风险样本的验证结果指示风险样本实际上不存在风险,则可以对异常检测维度、离群点异常检测算法、风险评估模型中的至少一者进行调整。
作为示例性介绍。
对于异常检测维度的调整可以包括:对已有的异常检测维度中的特征维度进行修改、添加、删除等,或者是重新对特征维度进行搭配组合,构建新的异常检测维度。
对于离群点异常检测算法的调整可以包括:修改广义极端学生化偏差算法中数据集的中心位置、等量关系等,或者修改孤立森林算法中的节点限制高度等。
对于风险评估模型的调整可以包括:构建风险评估模型的损失函数,基于损失函数,计算风险评估模型输出的样本的风险评估结果与验证结果之间的损失,并以降低损失为目的,调整风险评估模型中底层特征的权重。
显然,基于阶段1到阶段4的不断迭代,最终可以使整个风险样本的识别策略得到优化。
综上所述,本申请实施例的方法从异常出发来识别风险样本,避免对于黑样本的强依赖。不会出现某类风险没有黑样本就缺乏对其的识别能力的情况,也不会出现因为某类风险的黑样本分布有偏而导致针对该风险的识别能力有偏的情况。此外,对样本进行客群细分,并进行基于异常检测维度的离群点异常检测在理论上来讲,可以用于识别任何类型风险,具有极高的泛用性。
为方便理解本申请实施例方法的方案,下面结合简单的示例进行介绍。
假设本申请实施例的方法用于识别赌博风险的样本。
在样本信息形成一定积累后,确定与赌博相关特征维度包括:特征维度Ⅰ、特征维度Ⅱ和特征维度Ⅲ。
结合先验知识,对特征维度Ⅰ、特征维度Ⅱ和特征维度Ⅲ进行搭配组合,得到可以与赌博具有强关联的异常检测维度A和异常检测维度B。其中,异常检测维度A由特征维度Ⅰ和特征维度Ⅱ组成,异常检测维度B仅由特征维度Ⅲ组成。
之后,确定与异常检测维度A相匹配的客群划分方式,以及,与异常检测维度B相匹配的客群划分方式。
在客群划分方式确定后,基于异常检测维度A相匹配的客群划分方式对样本信息的样本进行划分,得到数据集1、数据集2和数据集3。同时,基于异常检测维度A相匹配的客群划分方式对样本信息的样本进行划分,得到数据集4、数据集5。
应理解,在这种划分方式下,样本信息中的一个样本在异常检测维度A上会对应有一个数据集(可以是数据集1、数据集2和数据集3中的任一者),并且在异常检测维度B上对应有一个数据集(可以是数据集4和数据集5中的任一者).
之后,基于孤立森林算法,对数据集1、数据集2和数据集3分别进行离异常检测,得到数据集1、数据集2和数据集3中样本的异常得分(即异常检测结果)。应理解,数据集1中样本的异常得分是该样本在异常检测维度A下相对于数据集1所有样本的离散度。同理,数据集2中样本的异常得分是该样本在异常检测维度A下相对于数据集2所有样本的离散度。
同时,基于广义极端学生化偏差算法,对数据集4和数据集5分别进行离异常检测,得到数据集4和数据集4中样本的异常得分。同理,数据集4中样本的异常得分是该样本在异常检测维度B下相对于数据集4所有样本的离散度;数据集5中样本的异常得分是该样本在异常检测维度B下相对于数据集5所有样本的离散度。
应理解,在离群点异常检测完成后,可以得到样本信息中每个样本在异常检测维度A的异常得分和异常检测维度B的异常得分。
之后,构建以异常检测维度A和异常检测维度B作为底层特征的风险评估模型。
在基于风险评估模型对样本信息中的目标样本进行风险评估时,将目标样本针对异常检测维度A的异常得分和目标样本针对异常检测维度B的异常得分输入至风险评估模型,最终得到风险评估模型对目标样本的风险评估结果。
假设,风险评估模型输出的目标样本的风险评估结果指示该目标样本为风险样本,则可以通过尽职调查的方式,来验证目标样本是否真的具有风险。
如果验证结果与风险评估结果不一致,则可以重新确定异常检测维度、孤立森林算法、广义极端学生化偏差算法和风险评估模型进行调整,从而优化风险识别能力。
以上是对本申请实施例的方法的介绍。应理解,在不脱离本文上述原理基础之上,还可以进行适当的变化,这些变化也应视为本申请实施例的保护范围。
与上述风险样本识别方法相对应地,如图2所示,本申请实施例还提供一种风险样本识别装置200,包括:
特征维度分析模块210,对样本信息进行分析,以获取与风险相关的特征维度;
客群划分配置模块220,确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
客群划分执行模块230,针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
异常检测模块240,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
风险评估模块250,基于异常检测结果,确定样本信息中的风险样本。
基于图2所示的风险样本识别装置,先对样本信息中的样本按照各异常检测维度相匹配的客群划分方式进行细分,得到各异常检测维度所对应的分类后的数据集,之后,对分类后的数据集按照数据集对应的异常检测维度进行异常检测,并根据异常检测结果来识别样本信息中的风险样本。由于属于无监督的识别方式,因此不依赖对黑样本的学习,可泛用识别任何种类的风险。同时,也不会因黑样本缺少,或者黑样本分布不均而导致识别能力存在在缺陷。
可选地,所述异常检测模块240具体基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测。
其中,若划分后的数据集对应的异常检测维度仅包括一个特征维度,则异常检测模块240基于广义极端学生化偏差算,对该数据集按照该数据集对应的异常检测维度进行异常检测。若划分后的数据集对应的异常检测维度包括至少两个特征维度,则所述异常检测模块240基于孤立森林算法,对该数据集按照该数据集对应的异常检测维度进行异常检测。
可选地,所述广义极端学生化偏差算法表征有:数据集中的目标样本针对单一特征维度的离群检测结果、目标样本针对单一特征维度的特征值、数据集中的所有样本针对单一特征维度的特征值中位数、数据集中的所有样本针对单一特征维度的特征值方差之间的等量关系。
可选地,所述广义极端学生化偏差算法表征有:数据集中的目标样本针对单一特征维度的异常检测结果、目标样本针对单一特征维度的特征值、数据集中的所有样本针对单一特征维度的平均特征值、数据集中的所有样本针对单一特征维度的特征值绝对中位数之间的等量关系。
可选地,本申请实施例的装置还包括:
验证模块,对样本信息中的风险样本进行验证;
调整模块,若验证结果指示所述风险样本不存在风险,则对异常检测维度和离群点异常检测算法中的至少一者进行调整。
显然,本申请实施例的区块链通信装置可以作为上述图1所示的区块链通信方法的执行主体,因此该区块链通信装置能够实现区块链通信方法在图1所实现的功能。由于原理相同,本文不再赘述。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成问答对数据挖掘装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
本申请实施例的电子设备先对样本信息中的样本按照各异常检测维度相匹配的客群划分方式进行细分,得到各异常检测维度所对应的分类后的数据集,之后,对分类后的数据集按照数据集对应的异常检测维度进行异常检测,并根据异常检测结果来识别样本信息中的风险样本。由于属于无监督的识别方式,因此不依赖对黑样本的学习,可泛用识别任何种类的风险。同时,也不会因黑样本缺少,或者黑样本分布不均而导致识别能力存在在缺陷。
上述如本申请图1所示实施例揭示的风险样本识别方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本申请实施例的电子设备可以实现上述风险样本识别装置在图1所示的实施例的功能,本文不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
此外,本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
应理解,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使上文所述的区块链通信装置实现图1所示实施例的功能,本文不再赘述。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (9)

1.一种风险样本识别方法,包括:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配的客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
2.根据权利要求1所述的方法,
对样本信息中的风险样本进行验证;
若验证结果指示所述风险样本不存在风险,则对异常检测维度和离群点异常检测算法中的至少一者进行调整。
3.根据权利要求1所述的方法,
基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测,包括:
若划分后的数据集对应的异常检测维度仅包括一个特征维度,则基于广义极端学生化偏差算法,对该数据集按照该数据集对应的异常检测维度进行异常检测。
4.根据权利要求3所述的方法,
所述广义极端学生化偏差算法表征有:数据集中的目标样本针对单一特征维度的离群检测结果、目标样本针对单一特征维度的特征值、数据集中的所有样本针对单一特征维度的特征值中位数、数据集中的所有样本针对单一特征维度的特征值方差之间的等量关系。
5.根据权利要求4所述的方法,
所述广义极端学生化偏差算法表征有:数据集中的目标样本针对单一特征维度的异常检测结果、目标样本针对单一特征维度的特征值、数据集中的所有样本针对单一特征维度的平均特征值、数据集中的所有样本针对单一特征维度的特征值绝对中位数之间的等量关系。
6.根据权利要求2所述的方法,
基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测,包括:
若划分后的数据集对应的异常检测维度包括至少两个特征维度,则基于孤立森林算法,对该数据集按照该数据集对应的异常检测维度进行异常检测。
7.一种风险样本识别装置,包括:
特征维度分析模块,对样本信息进行分析,以获取与风险相关的特征维度;
客群划分配置模块,确定至少一种异常检测维度相匹的配客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
客群划分执行模块,针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
异常检测模块,基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
风险评估模块,基于异常检测结果,确定样本信息中的风险样本。
8.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配的客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
对样本信息进行分析,以获取与风险相关的特征维度;
确定至少一种异常检测维度相匹配的客群划分方式;一个异常检测维度包括与风险相关的一个或多个特征维度;
针对异常检测维度,按照对应的客群划分方式对所述样本信息中的样本进行分类,得到异常检测维度对应的分类后的数据集;
基于离群点异常检测算法,对分类后的数据集按照该数据集对应的异常检测维度进行异常检测;
基于异常检测结果,确定样本信息中的风险样本。
CN201910214223.0A 2019-03-20 2019-03-20 一种风险样本识别方法、装置及电子设备 Active CN110009012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910214223.0A CN110009012B (zh) 2019-03-20 2019-03-20 一种风险样本识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910214223.0A CN110009012B (zh) 2019-03-20 2019-03-20 一种风险样本识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110009012A CN110009012A (zh) 2019-07-12
CN110009012B true CN110009012B (zh) 2023-06-16

Family

ID=67167550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910214223.0A Active CN110009012B (zh) 2019-03-20 2019-03-20 一种风险样本识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110009012B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581191B (zh) * 2020-08-14 2022-07-19 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN113672675B (zh) * 2021-08-09 2023-12-15 北京字跳网络技术有限公司 数据检测方法、装置和电子设备
CN114928496A (zh) * 2022-05-31 2022-08-19 阿里云计算有限公司 异常行为检测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292528A (zh) * 2017-06-30 2017-10-24 阿里巴巴集团控股有限公司 车险风险预测方法、装置及服务器
CN108683530B (zh) * 2018-04-28 2021-06-01 北京百度网讯科技有限公司 多维度数据的数据分析方法、装置及存储介质
CN109101562B (zh) * 2018-07-13 2023-07-21 中国平安人寿保险股份有限公司 寻找目标群体的方法、装置、计算机设备及存储介质
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型

Also Published As

Publication number Publication date
CN110009012A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
US11734353B2 (en) Multi-sampling model training method and device
US20180365522A1 (en) Methods and apparatuses for building data identification models
CN110009012B (zh) 一种风险样本识别方法、装置及电子设备
CN110930218B (zh) 一种识别欺诈客户的方法、装置及电子设备
CN110570312B (zh) 样本数据获取方法、装置、计算机设备和可读存储介质
CN108681751B (zh) 确定事件影响因素的方法及终端设备
CN110705573A (zh) 一种目标检测模型的自动建模方法及装置
CN109583731B (zh) 一种风险识别方法、装置及设备
CN111860698B (zh) 确定学习模型的稳定性的方法和装置
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN116166967B (zh) 基于元学习与残差网络的数据处理方法、设备和存储介质
CN115484112B (zh) 支付大数据安全防护方法、系统及云平台
CN110661913B (zh) 一种用户排序方法、装置及电子设备
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
Cortes Explainable outlier detection through decision tree conditioning
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN113256402A (zh) 风险控制规则确定方法、装置和电子设备
US11138099B2 (en) Method for testing software, and computing device and computer-readable storage medium thereof
CN111385342B (zh) 一种物联网行业识别方法、装置、电子设备及存储介质
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN111951027A (zh) 具有欺诈风险的企业识别方法及装置
CN110708414A (zh) 一种电话号码的排序方法、装置及电子设备
US20240160696A1 (en) Method for Automatic Detection of Pair-Wise Interaction Effects Among Large Number of Variables
CN118013428B (zh) 基于人工智能的地质灾害风险评估方法及系统
CN113469235B (zh) 用水波动异常识别方法及装置、计算机装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant