CN115641201A - 数据异常检测方法、系统、终端设备及存储介质 - Google Patents
数据异常检测方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN115641201A CN115641201A CN202211182024.4A CN202211182024A CN115641201A CN 115641201 A CN115641201 A CN 115641201A CN 202211182024 A CN202211182024 A CN 202211182024A CN 115641201 A CN115641201 A CN 115641201A
- Authority
- CN
- China
- Prior art keywords
- graph
- encoder
- data
- self
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000002159 abnormal effect Effects 0.000 claims description 79
- 238000012360 testing method Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 18
- 230000005856 abnormality Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000005295 random walk Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种数据异常检测方法、系统、终端设备及存储介质,该方法包括:根据知识图谱中的邻域上下文数据确定目标类型节点的图嵌入特征;查询目标类型节点在各知识图谱中的关联类型节点,根据各关联类型节点的局部统计特征确定目标类型节点的图规则特征;根据图嵌入特征对第一自编码器进行训练,根据图规则特征对第二自编码器进行训练;将待识别贷款数据分别输入训练后的第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率;根据第一异常概率和第二异常概率生成异常检测结果。本发明基于训练后的第一自编码器和第二自编码器能有效地对待识别贷款数据进行关联性的异常分析,提高了对借贷行为的数据异常检测的准确性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据异常检测方法、系统、终端设备及存储介质。
背景技术
随着互联网的快速发展,随着越来越多的实体经济进行“互联网+”,以及互联网原生业态的蓬勃发展,大量的资金和业务依托互联网而实现,同时保障这些资金和业务流转的技术也日渐成熟,作为常态金融需求之一的借贷行为,也就很自然地出现在网络经济之中,为控制每笔借贷行为的风险,针对借贷行为的数据异常检测问题越来越受人们所重视。
现有的借贷行为数据异常检测,主要依赖于客户贷款申请的进件信息和外部信息的结构化数据,缺乏关联性分析,降低了数据异常检测的准确性。
发明内容
本发明实施例的目的在于提供一种数据异常检测方法、系统、终端设备及存储介质,旨在解决现有的借贷行为的数据异常检测准确性较低的问题。
本发明实施例是这样实现的,一种数据异常检测方法,所述方法包括:
根据样本数据构建知识图谱,获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征;
查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征;
根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练;
将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率;
根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果。
更进一步的,所述获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征,包括:
获取所述知识图谱中各样本实体之间的实体关系,并根据所述实体关系构建关系元路径;
根据所述关系元路径在所述知识图谱中进行随机游走采样,得到所述邻域上下文数据;
将所述邻域上下文数据输入预训练后的向量转换模型进行向量转换,得到所述图嵌入特征。
更进一步的,所述查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征,包括:
将所述目标类型节点与预存储的关联类型查询表进行匹配,得到所述关联类型节点,所述关联类型查询中存储有不同所述目标类型节点与对应关联类型节点之间的对应关系;
分别获取各关联类型节点在所述知识图谱中的局部统计特征,并分别对各局部统计特征进行向量转换,得到局部统计向量;
对各局部统计向量进行特征聚合,得到所述图规则特征。
更进一步的,所述根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练,包括:
根据所述目标类型节点对所述知识图谱进行样本划分,得到正样本和负样本,并将所述正样本划分为正常样本和逾期样本;
将所述正常样本划分为训练样本、阈值优化样本和测试样本,并将所述测试样本和所述逾期样本进行合并,得到测试样本集;
将所述训练样本和所述负样本对应的图嵌入特征输入所述第一自编码器进行训练,直至所述第一自编码器对所述测试样本集的检测结果满足收敛条件;
将所述训练样本和所述负样本对应的图规则特征输入所述第二自编码器进行训练,直至所述第二自编码器对所述测试样本集的检测结果满足收敛条件。
更进一步的,所述将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率之后,还包括:
将所述阈值优化样本对应的图嵌入特征输入收敛后的所述第一自编码器进行异常检测,得到第一重构误差,并根据所述第一重构误差对所述第一异常概率进行误差修正;
将所述阈值优化样本对应的图规则特征输入收敛后的所述第二自编码器进行异常检测,得到第二重构误差,并根据所述第二重构误差对所述第二异常概率进行误差修正。
更进一步的,所述根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果,包括:
分别获取所述第一自编码器和所述第二自编码器的权重系数,得到第一权重系数和第二权重系数;
根据所述第一权重系数对误差修正后的所述第一异常概率进行权重计算,并根据所述第二权重系数对误差修正后的所述第二异常概率进行权重计算;
计算权重计算后所述第一异常概率和所述第二异常概率之间的和,得到数据异常概率;
若所述数据异常概率小于等于异常概率阈值,则判定所述待识别贷款数据未存在异常,若所述数据异常概率大于所述异常概率阈值,则判定所述待识别贷款数据是异常数据。
更进一步的,所述根据样本数据构建知识图谱,包括:
对所述样本数据进行实体识别,得到样本实体,并根据预存储的实体关系列表对各样本实体进行图谱构建,得到所述知识图谱。
本发明实施例的另一目的在于提供一种数据异常检测系统,所述系统包括:
图谱构建单元,用于根据样本数据构建知识图谱,获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征;
特征确定单元,用于查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征;
编码器训练单元,用于根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练;
异常检测单元,用于将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率,并根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果。
本发明实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例,通过样本数据构建知识图谱,基于知识图谱能有效地表征各节点之间的关系,通过获取知识图谱中的邻域上下文数据,基于邻域上下文数据能有效地确定到知识图谱中目标类型节点的图嵌入特征,基于图嵌入特征能有效地表征知识图谱中目标类型节点与不同节点关系之间的关联性,通过查询目标类型节点在各知识图谱中的关联类型节点,基于各关联类型节点在知识图谱中的局部统计特征,能有效地确定知识图谱中目标类型节点的图规则特征,基于图规则特征能有效地表征目标类型节点与不同节点之间的关联性,通过图嵌入特征对第一自编码器进行训练,使得训练后的第一自编码器能有效地学习到目标类型节点与不同节点关系之间的关联特性,通过图规则特征对第二自编码器进行训练,使得训练后的第二自编码器能有效地学习到目标类型节点与不同节点之间的关联特性,基于训练后的第一自编码器和第二自编码器能有效地对待识别贷款数据进行关联性的异常分析,提高了对借贷行为的数据异常检测的准确性。
附图说明
图1是本发明第一实施例提供的数据异常检测方法的流程图;
图2是本发明第二实施例提供的数据异常检测方法的流程图;
图3是本发明第三实施例提供的数据异常检测系统的结构示意图;
图4是本发明第四实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的数据异常检测方法的流程图,该数据异常检测方法可以应用于任一终端设备或系统,该数据异常检测方法包括步骤:
步骤S10,根据样本数据构建知识图谱,获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征;
其中,该样本数据可以根据用户需求进行数量和内容的设置,该步骤中,样本数据中包括正常贷款数据和逾期贷款数据,该贷款数据中存储有客户的身份标识、年龄、性别、手机号、地址、毕业院校、贷款金额、贷款时间、贷款逾期时间和公司等信息,由于本实施需要探查的是贷款逾期风险,因此需要明确贷款逾期风险的识别对象,本实施例中目标类型节点选取的是身份标识类型节点;
可选的,该步骤中,所述根据样本数据构建知识图谱,包括:
对所述样本数据进行实体识别,得到样本实体,并根据预存储的实体关系列表对各样本实体进行图谱构建,得到所述知识图谱;
其中,通过将样本数据输入预训练后的实体识别模型进行实体识别,该预训练后的实体识别模型用于根据用户需求识别出样本数据中的样本实体,该样本实体包括身份标识、手机号、地址和公司等信息,通过实体关系列表中存储的对应关系将各样本实体进行关联关系构建,得到该知识图谱,该知识图谱中各样本实体采用节点的方式进行存储,该实体关系列表中存储的对应关系可以根据用户需求进行设置,例如,该实体关系列表中存储的对应关系包括身份标识-持有-手机、身份标识-居住于-地址或公司-位于-地址等关系。
具体地,该步骤中,将知识图谱采用图表示算法进行节点与关系的特征计算,得到该图嵌入特征,该步骤中,所采用的图表示算法包括基于三元关系进行网络表示的Trans系列算法,例如TransE、TransR、TransH、RotatE等算法,基于随机游走算法,具体代表算法有DeepWalk、Node2VEC、LINE、SDNE、Metapath2Vec等算法。
进一步地,该步骤中,所述获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征,包括:
获取所述知识图谱中各样本实体之间的实体关系,并根据所述实体关系构建关系元路径;其中,该关系元路径用于表征知识图谱中不同样本实体之间的连接关系;
根据所述关系元路径在所述知识图谱中进行随机游走采样,得到所述邻域上下文数据;其中,基于关系元路径在知识图谱中进行随机游走采样,以得到skip-gram的邻域上下文数据;
将所述邻域上下文数据输入预训练后的向量转换模型进行向量转换,得到所述图嵌入特征;
其中,该向量转换模型用于对目标类型节点的特征进行向量转换,得到该图嵌入特征,该目标类型节点可以根据需求进行设置,例如,该目标类型节点可以设置身份标识、手机号、地址和公司等,该步骤中的,目标类型节点设置为身份标识,即,该步骤中,向量转换模型输出的是身份标识的图嵌入特征;
步骤S20,查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征;
其中,通过图表示算法计算后,获取知识图谱内标类型节点的关联类型节点的局部统计特征,基于获取到的局部统计特征确定目标类型节点的图规则特征,基于该图规则特征能有效地表征目标类型节点与各关联类型节点之间的关联性;
可选的,该步骤中,所述查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征,包括:
将所述目标类型节点与预存储的关联类型查询表进行匹配,得到所述关联类型节点,其中,关联类型查询中存储有不同目标类型节点与对应关联类型节点之间的对应关系,例如,该对应关系包括身份标识关联手机号关联的身份标识节点数、身份标识关联地址关联的身份标识节点数、身份标识关联手机号关联的身份标识节点是否具有违规行为、身份标识关联地址关联的身份标识节点平均逾期天数等关系;
分别获取各关联类型节点在所述知识图谱中的局部统计特征,分别对各局部统计特征进行向量转换,得到局部统计向量,并对各局部统计向量进行特征聚合,得到所述图规则特征;
其中,通过分别获取各关联类型节点在知识图谱中的局部统计特征,基于局部统计特征能有效地转换为局部统计向量,通过对各局部统计向量进行特征聚合,能有效地得到目标类型节点对应的图规则特征;
步骤S30,根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练;
其中,可以采用无监督单分类器对图嵌入特征和图规则特征进行特征学习,单分类模型是一种比较特殊的分类模型,一般训练此类模型仅使用一类样本,模型也只学习该类样本的模式,对于不属于该类的样本则被统一归为一类。常见的单分类器包括one-classSVM、自编码器等算法,其中自编码器为本实施例的最优实践,以自编码器构建为例,即,通过图嵌入特征对第一自编码器进行训练,使得训练后的第一自编码器能有效地学习到目标类型节点与不同节点关系之间的关联特性,通过图规则特征对第二自编码器进行训练,使得训练后的第二自编码器能有效地学习到目标类型节点与不同节点之间的关联特性;
步骤S40,将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率;
其中,基于训练后的第一自编码器和第二自编码器能有效地对待识别贷款数据进行关联性的异常分析,提高了对借贷行为的数据异常检测的准确性,该第一异常概率用于表征待识别贷款数据在图嵌入特征上的异常概率,该第二异常概率用于表征待识别贷款数据在图规则特征上的异常概率;
步骤S50,根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果;
其中,计算第一异常概率和第二异常概率之间的和,得到总异常概率,并基于总异常概率判断待识别贷款数据是否存在逾期风险,得到该异常检测结果,当总异常概率越大时,则判定该待识别贷款数据对应的贷款行为的逾期风险越大。
本实施例,通过样本数据构建知识图谱,基于知识图谱能有效地表征各节点之间的关系,通过获取知识图谱中的邻域上下文数据,基于邻域上下文数据能有效地确定到知识图谱中目标类型节点的图嵌入特征,基于图嵌入特征能有效地表征知识图谱中目标类型节点与不同节点关系之间的关联性,通过查询目标类型节点在各知识图谱中的关联类型节点,基于各关联类型节点在知识图谱中的局部统计特征,能有效地确定知识图谱中目标类型节点的图规则特征,基于图规则特征能有效地表征目标类型节点与不同节点之间的关联性,通过图嵌入特征对第一自编码器进行训练,使得训练后的第一自编码器能有效地学习到目标类型节点与不同节点关系之间的关联特性,通过图规则特征对第二自编码器进行训练,使得训练后的第二自编码器能有效地学习到目标类型节点与不同节点之间的关联特性,基于训练后的第一自编码器和第二自编码器能有效地对待识别贷款数据进行关联性的异常分析,提高了对借贷行为的数据异常检测的准确性。本实施例中的数据异常检测方法,具备较强的通用性,能够跨产品使用,所需的输入特类型征较少,通过筛选不同产品间的共同实体,能够充分利用不同产品间的数据,例如针对逾期检测来说,A产品可能是金融理财相关,若是包含部分实体,能够将其加入到构建的图谱当中,并采用该方法给出该用户贷款逾期的相关风险。本实施例仅依赖于网络结构进行判断,而不依赖具体的特征信息,例如在逾期检测判别中,仅需要知道身份标识、地址、电话、公司等通用实体就能够进行判别,而不需要实际的贷款金额、历史贷款信息、征信信息等,本实施例相较于传统机器学习方法在关联角度上具有更强的表现力,与传统规则相结合使用,能够从不同维度出发联合判断,补全传统方法在关联分析上的短板。
实施例二
请参阅图2,是本发明第二实施例提供的数据异常检测方法的流程图,该实施例用于对步骤S30的步骤作进一步细化,包括步骤:
步骤S31,根据所述目标类型节点对所述知识图谱进行样本划分,得到正样本和负样本,并将所述正样本划分为正常样本和逾期样本;
其中,在知识图片中将身份标识类型的节点(样本实体)进行额外标记,将其划分为正样本和负样本,并将正样本划分为正常样本和逾期样本,该正常样本为未存在逾期的样本,该逾期样本为已知的发生了逾期的样本;
步骤S32,将所述正常样本划分为训练样本、阈值优化样本和测试样本,并将所述测试样本和所述逾期样本进行合并,得到测试样本集;
其中,通过将正常样本划分为训练样本、阈值优化样本和测试样本,有效地保障了后续第一自编码器和第二自编码器的模型训练,并将测试样本和逾期样本进行合并,得到测试样本集,基于测试样本集有效地保障了后续对第一自编码器和第二自编码器的模型测试,提高了第一自编码器和第二自编码器训练的准确性;
步骤S33,将所述训练样本和所述负样本对应的图嵌入特征输入所述第一自编码器进行训练,直至所述第一自编码器对所述测试样本集的检测结果满足收敛条件;
其中,通过将训练样本和负样本对应的图嵌入特征输入第一自编码器进行训练,使得第一个自编码器的输入特征为经过图嵌入表示后的正常身份标识向量,保障了第一自编码器仅学习正常样例基于网络连接关系表达的隐含模式;由数据划分步骤可以知道,训练样本全由正常样本构成,使用正常样本表示特征训练单分类器以发现正常身份标识实体内的隐含模式;
步骤S34,将所述训练样本和所述负样本对应的图规则特征输入所述第二自编码器进行训练,直至所述第二自编码器对所述测试样本集的检测结果满足收敛条件;
其中,通过将训练样本和负样本对应的图规则特征输入第二自编码器进行训练,使得第二个自编码器的输入特征为人工定义的图规则抽取后的正常身份标识特征向量,用于学习目标节点的周围局部信息,该步骤中,该收敛条件可以根据需求进行设置,例如,该收敛条件可以设置为判断编码器的迭代次数是否大于次数阈值,以判定编码器是否收敛;
可选的,该步骤中,所述将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率之后,还包括:
将所述阈值优化样本对应的图嵌入特征输入收敛后的所述第一自编码器进行异常检测,得到第一重构误差,并根据所述第一重构误差对所述第一异常概率进行误差修正;
将所述阈值优化样本对应的图规则特征输入收敛后的所述第二自编码器进行异常检测,得到第二重构误差,并根据所述第二重构误差对所述第二异常概率进行误差修正;
其中,第一自编码器和第二自编码器训练后,本实施例使用重构误差进行估计,对于重构误差较小的样本将其认为符合正常模式(数据正常),重构误差较大的样本认为其属于未知模式(数据异常),具有较高的逾期风险,因此,对于正负样本需要与阈值对比进行判断,第一自编码器用于计算重构后的输出与输入的图嵌入特征之间的误差大小,第二自编码器用于计算重构后的输出与输入的图规则特征之间的误差大小;
在第一自编码器和第二自编码器训练后,由于阈值优化样本内只包含正常样本,实际上估计的是正常样本的大致误差范围,该误差范围相较于未知模式来说是较小的,因此,通过第一重构误差对第一异常概率进行误差修正,并通过第二重构误差对第二异常概率进行误差修正,有效地提高了第一自编码器和第二自编编码器输出的正确性,提高了数据异常检测的准确性;
进一步地,本实施例中,针对步骤S50,所述根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果,包括:
分别获取所述第一自编码器和所述第二自编码器的权重系数,得到第一权重系数和第二权重系数;
根据所述第一权重系数对误差修正后的所述第一异常概率进行权重计算,并根据所述第二权重系数对误差修正后的所述第二异常概率进行权重计算;
计算权重计算后所述第一异常概率和所述第二异常概率之间的和,得到数据异常概率;
若所述数据异常概率小于等于异常概率阈值,则判定所述待识别贷款数据未存在异常,若所述数据异常概率大于所述异常概率阈值,则判定所述待识别贷款数据是异常数据;
其中,由于需要结合两个自编码器的输出进行联合判断,分属不同的输入的重构误差范围并不一致,因此,需要对两个编码器的重构误差与输出进行百分比变换等方法统一到同一维度上。对于训练、预测等阶段的样本最终得分为两个自编码器输出分别经过百分比变换后的数值相加,使得最终能得到单一样本在网络结构维度与局部属性维度方面的综合得分,两个自编码器的输出得分也可以分配不同的权重系数,两个权重系数为正数且相加为1,用于调整综合得分更加倾向依赖网络结构判别结果还是局部属性判别结果;
该步骤中,数据异常概率是一个连续数值,在数值越大的情况下存在的逾期风险越高,该异常概率阈值可以根据需求进行设置,或通过计算训练样本对应的数据异常概率的最大值或三倍标准差的上界值等方式,以确定该异常概率阈值,该异常概率阈值用于判定待识别贷款数据是否是异常数据,当判断到待识别贷款数据是异常数据,则判定该待识别贷款数据对应的贷款行为存在逾期风险。
本实施例中,通过将正常样本划分为训练样本、阈值优化样本和测试样本,有效地保障了后续第一自编码器和第二自编码器的模型训练,并将测试样本和逾期样本进行合并,得到测试样本集,基于测试样本集有效地保障了后续对第一自编码器和第二自编码器的模型测试,提高了第一自编码器和第二自编码器训练的准确性,通过将训练样本和负样本对应的图嵌入特征输入第一自编码器进行训练,使得第一个自编码器的输入特征为经过图嵌入表示后的正常身份标识向量,保障了第一自编码器仅学习正常样例基于网络连接关系表达的隐含模式,通过将训练样本和负样本对应的图规则特征输入第二自编码器进行训练,使得第二个自编码器的输入特征为人工定义的图规则抽取后的正常身份标识特征向量,用于学习目标节点的周围局部信息,本实施例充分考虑了网络结构及局部属性方面的影响,在一定程度上克服了贷款逾期检测中异常用户较少的问题,仅使用正常用户就可以进行建模分析。
实施例三
请参阅图3,是本发明第三实施例提供的数据异常检测系统100的结构示意图,包括:图谱构建单元10、特征确定单元11、编码器训练单元12和异常检测单元13,其中:
图谱构建单元10,用于根据样本数据构建知识图谱,获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征。
可选的,该图谱构建单元10还用于:获取所述知识图谱中各样本实体之间的实体关系,并根据所述实体关系构建关系元路径;
根据所述关系元路径在所述知识图谱中进行随机游走采样,得到所述邻域上下文数据;
将所述邻域上下文数据输入预训练后的向量转换模型进行向量转换,得到所述图嵌入特征。
进一步地,图谱构建单元10还用于:对所述样本数据进行实体识别,得到样本实体,并根据预存储的实体关系列表对各样本实体进行图谱构建,得到所述知识图谱。
特征确定单元11,用于查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征。
可选的,特征确定单元11还用于:将所述目标类型节点与预存储的关联类型查询表进行匹配,得到所述关联类型节点,所述关联类型查询中存储有不同所述目标类型节点与对应关联类型节点之间的对应关系;
分别获取各关联类型节点在所述知识图谱中的局部统计特征,并分别对各局部统计特征进行向量转换,得到局部统计向量;
对各局部统计向量进行特征聚合,得到所述图规则特征。
编码器训练单元12,用于根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练。
可选的,编码器训练单元12还用于:根据所述目标类型节点对所述知识图谱进行样本划分,得到正样本和负样本,并将所述正样本划分为正常样本和逾期样本;
将所述正常样本划分为训练样本、阈值优化样本和测试样本,并将所述测试样本和所述逾期样本进行合并,得到测试样本集;
将所述训练样本和所述负样本对应的图嵌入特征输入所述第一自编码器进行训练,直至所述第一自编码器对所述测试样本集的检测结果满足收敛条件;
将所述训练样本和所述负样本对应的图规则特征输入所述第二自编码器进行训练,直至所述第二自编码器对所述测试样本集的检测结果满足收敛条件。
异常检测单元13,用于将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率,并根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果。
可选的,异常检测单元13还用于:将所述阈值优化样本对应的图嵌入特征输入收敛后的所述第一自编码器进行异常检测,得到第一重构误差,并根据所述第一重构误差对所述第一异常概率进行误差修正;
将所述阈值优化样本对应的图规则特征输入收敛后的所述第二自编码器进行异常检测,得到第二重构误差,并根据所述第二重构误差对所述第二异常概率进行误差修正。
进一步地,异常检测单元13还用于:分别获取所述第一自编码器和所述第二自编码器的权重系数,得到第一权重系数和第二权重系数;
根据所述第一权重系数对误差修正后的所述第一异常概率进行权重计算,并根据所述第二权重系数对误差修正后的所述第二异常概率进行权重计算;
计算权重计算后所述第一异常概率和所述第二异常概率之间的和,得到数据异常概率;
若所述数据异常概率小于等于异常概率阈值,则判定所述待识别贷款数据未存在异常,若所述数据异常概率大于所述异常概率阈值,则判定所述待识别贷款数据是异常数据。
本实施例,通过样本数据构建知识图谱,基于知识图谱能有效地表征各节点之间的关系,通过获取知识图谱中的邻域上下文数据,基于邻域上下文数据能有效地确定到知识图谱中目标类型节点的图嵌入特征,基于图嵌入特征能有效地表征知识图谱中目标类型节点与不同节点关系之间的关联性,通过查询目标类型节点在各知识图谱中的关联类型节点,基于各关联类型节点在知识图谱中的局部统计特征,能有效地确定知识图谱中目标类型节点的图规则特征,基于图规则特征能有效地表征目标类型节点与不同节点之间的关联性,通过图嵌入特征对第一自编码器进行训练,使得训练后的第一自编码器能有效地学习到目标类型节点与不同节点关系之间的关联特性,通过图规则特征对第二自编码器进行训练,使得训练后的第二自编码器能有效地学习到目标类型节点与不同节点之间的关联特性,基于训练后的第一自编码器和第二自编码器能有效地对待识别贷款数据进行关联性的异常分析,提高了对借贷行为的数据异常检测的准确性。
实施例四
图4是本申请第四实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如数据异常检测方法的程序。处理器20执行所述计算机程序22时实现上述各个数据异常检测方法各实施例中的步骤,例如图1所示的S10至S50,或者图2所示的S31至S34。或者,所述处理器20执行所述计算机程序22时实现上述图3对应的实施例中各单元的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成图谱构建单元10、特征确定单元11、编码器训练单元12和异常检测单元13,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图3仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据异常检测方法,其特征在于,所述方法包括:
根据样本数据构建知识图谱,获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征;
查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征;
根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练;
将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率;
根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果。
2.如权利要求1所述的数据异常检测方法,其特征在于,所述获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征,包括:
获取所述知识图谱中各样本实体之间的实体关系,并根据所述实体关系构建关系元路径;
根据所述关系元路径在所述知识图谱中进行随机游走采样,得到所述邻域上下文数据;
将所述邻域上下文数据输入预训练后的向量转换模型进行向量转换,得到所述图嵌入特征。
3.如权利要求1所述的数据异常检测方法,其特征在于,所述查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征,包括:
将所述目标类型节点与预存储的关联类型查询表进行匹配,得到所述关联类型节点,所述关联类型查询中存储有不同所述目标类型节点与对应关联类型节点之间的对应关系;
分别获取各关联类型节点在所述知识图谱中的局部统计特征,并分别对各局部统计特征进行向量转换,得到局部统计向量;
对各局部统计向量进行特征聚合,得到所述图规则特征。
4.如权利要求1所述的数据异常检测方法,其特征在于,所述根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练,包括:
根据所述目标类型节点对所述知识图谱进行样本划分,得到正样本和负样本,并将所述正样本划分为正常样本和逾期样本;
将所述正常样本划分为训练样本、阈值优化样本和测试样本,并将所述测试样本和所述逾期样本进行合并,得到测试样本集;
将所述训练样本和所述负样本对应的图嵌入特征输入所述第一自编码器进行训练,直至所述第一自编码器对所述测试样本集的检测结果满足收敛条件;
将所述训练样本和所述负样本对应的图规则特征输入所述第二自编码器进行训练,直至所述第二自编码器对所述测试样本集的检测结果满足收敛条件。
5.如权利要求4所述的数据异常检测方法,其特征在于,所述将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率之后,还包括:
将所述阈值优化样本对应的图嵌入特征输入收敛后的所述第一自编码器进行异常检测,得到第一重构误差,并根据所述第一重构误差对所述第一异常概率进行误差修正;
将所述阈值优化样本对应的图规则特征输入收敛后的所述第二自编码器进行异常检测,得到第二重构误差,并根据所述第二重构误差对所述第二异常概率进行误差修正。
6.如权利要求5所述的数据异常检测方法,其特征在于,所述根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果,包括:
分别获取所述第一自编码器和所述第二自编码器的权重系数,得到第一权重系数和第二权重系数;
根据所述第一权重系数对误差修正后的所述第一异常概率进行权重计算,并根据所述第二权重系数对误差修正后的所述第二异常概率进行权重计算;
计算权重计算后所述第一异常概率和所述第二异常概率之间的和,得到数据异常概率;
若所述数据异常概率小于等于异常概率阈值,则判定所述待识别贷款数据未存在异常,若所述数据异常概率大于所述异常概率阈值,则判定所述待识别贷款数据是异常数据。
7.如权利要求1至6任一所述的数据异常检测方法,其特征在于,所述根据样本数据构建知识图谱,包括:
对所述样本数据进行实体识别,得到样本实体,并根据预存储的实体关系列表对各样本实体进行图谱构建,得到所述知识图谱。
8.一种数据异常检测系统,其特征在于,所述系统包括:
图谱构建单元,用于根据样本数据构建知识图谱,获取所述知识图谱中的邻域上下文数据,并根据所述邻域上下文数据确定所述知识图谱中目标类型节点的图嵌入特征;
特征确定单元,用于查询所述目标类型节点在各知识图谱中的关联类型节点,并根据各关联类型节点在所述知识图谱中的局部统计特征,确定所述知识图谱中所述目标类型节点的图规则特征;
编码器训练单元,用于根据所述图嵌入特征对第一自编码器进行训练,并根据所述图规则特征对第二自编码器进行训练;
异常检测单元,用于将待识别贷款数据分别输入训练后的所述第一自编码器和第二自编码器进行异常检测,得到第一异常概率和第二异常概率,并根据所述第一异常概率和所述第二异常概率生成所述待识别贷款数据的异常检测结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182024.4A CN115641201B (zh) | 2022-09-27 | 2022-09-27 | 数据异常检测方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211182024.4A CN115641201B (zh) | 2022-09-27 | 2022-09-27 | 数据异常检测方法、系统、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115641201A true CN115641201A (zh) | 2023-01-24 |
CN115641201B CN115641201B (zh) | 2023-11-07 |
Family
ID=84941327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211182024.4A Active CN115641201B (zh) | 2022-09-27 | 2022-09-27 | 数据异常检测方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115641201B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131445A (zh) * | 2023-07-28 | 2023-11-28 | 深圳市财富趋势科技股份有限公司 | 一种异常交易检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765117A (zh) * | 2019-09-30 | 2020-02-07 | 中国建设银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
CN110781308A (zh) * | 2019-06-25 | 2020-02-11 | 广微数据科技(苏州)有限公司 | 一种基于大数据构建知识图谱的反欺诈系统 |
CN112270547A (zh) * | 2020-10-27 | 2021-01-26 | 上海淇馥信息技术有限公司 | 基于特征构造的金融风险评估方法、装置和电子设备 |
CN114078050A (zh) * | 2021-11-17 | 2022-02-22 | 中国建设银行股份有限公司 | 贷款逾期预测方法、装置、电子设备及计算机可读介质 |
CN114757581A (zh) * | 2022-05-18 | 2022-07-15 | 华南理工大学 | 一种金融交易风险评估方法、装置、电子设备及计算机可读介质 |
-
2022
- 2022-09-27 CN CN202211182024.4A patent/CN115641201B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781308A (zh) * | 2019-06-25 | 2020-02-11 | 广微数据科技(苏州)有限公司 | 一种基于大数据构建知识图谱的反欺诈系统 |
CN110765117A (zh) * | 2019-09-30 | 2020-02-07 | 中国建设银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
CN112270547A (zh) * | 2020-10-27 | 2021-01-26 | 上海淇馥信息技术有限公司 | 基于特征构造的金融风险评估方法、装置和电子设备 |
CN114078050A (zh) * | 2021-11-17 | 2022-02-22 | 中国建设银行股份有限公司 | 贷款逾期预测方法、装置、电子设备及计算机可读介质 |
CN114757581A (zh) * | 2022-05-18 | 2022-07-15 | 华南理工大学 | 一种金融交易风险评估方法、装置、电子设备及计算机可读介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131445A (zh) * | 2023-07-28 | 2023-11-28 | 深圳市财富趋势科技股份有限公司 | 一种异常交易检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115641201B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444952B (zh) | 样本识别模型的生成方法、装置、计算机设备和存储介质 | |
CN110472675B (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN111444951B (zh) | 样本识别模型的生成方法、装置、计算机设备和存储介质 | |
CN110364185B (zh) | 一种基于语音数据的情绪识别方法、终端设备及介质 | |
WO2020082734A1 (zh) | 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN111091175A (zh) | 神经网络模型训练方法、分类方法、装置和电子设备 | |
CN110377733B (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
CN115641201A (zh) | 数据异常检测方法、系统、终端设备及存储介质 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN114817933A (zh) | 评估业务预测模型鲁棒性的方法、装置及计算设备 | |
CN116662555B (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN110059743B (zh) | 确定预测的可靠性度量的方法、设备和存储介质 | |
CN110955755A (zh) | 一种确定目标标准信息的方法和系统 | |
CN113706201A (zh) | 房产预估模型训练方法、装置、计算机设备及介质 | |
CN114116456A (zh) | 测试用例生成方法、系统及计算机可读存储介质 | |
CN113434630A (zh) | 客服服务评估方法、装置、终端设备及介质 | |
CN118196567B (zh) | 基于大语言模型的数据评价方法、装置、设备及存储介质 | |
CN116912920B (zh) | 表情识别方法及装置 | |
CN117851835B (zh) | 一种深度学习的物联网识别系统及方法 | |
CN113887214B (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN118013188A (zh) | 处理噪声数据的方法、装置、设备及存储介质 | |
CN109214411B (zh) | 一种基于训练模型识别典型图片对新增实体的验证方法及系统 | |
Zhou et al. | Gauss-guided patch-based deep convolutional neural networks for no-reference image quality assessment | |
CN117851475A (zh) | 基于用户图数据建立业务分析模型的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |