CN117196846A - 风险识别方法、装置、计算机设备、存储介质 - Google Patents
风险识别方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN117196846A CN117196846A CN202311218408.1A CN202311218408A CN117196846A CN 117196846 A CN117196846 A CN 117196846A CN 202311218408 A CN202311218408 A CN 202311218408A CN 117196846 A CN117196846 A CN 117196846A
- Authority
- CN
- China
- Prior art keywords
- risk
- entity
- data
- knowledge graph
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims description 66
- 238000012216 screening Methods 0.000 claims description 44
- 238000004140 cleaning Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 41
- 238000004422 calculation algorithm Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 9
- 230000005856 abnormality Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种风险识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取前端配置的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;以目标对象作为初始风险知识图谱中的实体,将目标对象、第一关系标签、及第二关系标签更新至初始风险知识图谱;获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;在存在待更新风险标签的候选实体节点的情况下,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱;对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;对目标对象进行风险识别。采用本方法能够准确进行风险识别。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种风险识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着信息技术的快速发展,在不同领域中,用户的数据量和数据种类也呈现指数型上升的趋势,但是,随着用户数据的指数型上升,数据中的风险数据也随之增加,从而该用户成为风险用户的可能性也随之增加。对用户进行风险识别能够提高对用户进行数据处理时的安全性。因此,需要具备对用户进行风险识别的能力。
以银行对用户进行风险识别为例,目前,对银行数据进行风险识别一般是对用户的消费流水数据来进行的,即对用户的消费流水数据来进行分析,判断用户的消费流水数据是否存在异常,若存在异常,则认为该用户的数据为风险数据,该用户也为异常用户。然而,目前的这种风险识别方式,并不能够准确进行风险识别。
发明内容
基于此,有必要针对上述技术问题,提供一种准确的风险识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种风险识别方法。所述方法包括:
获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
根据所述社区风险数据,对所述目标对象进行风险识别。
在其中一个实施例中,所述获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签包括:
获取前端配置的原始信息、字段筛选配置信息、及数据清洗配置信息;
基于所述字段筛选配置信息,对所述原始信息进行字段筛选,得到所述原始数据中目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与所述初始风险知识图谱中实体节点之间的第二关系标签;
基于所述数据清洗配置信息,对所述目标对象的信息、所述第一关系标签、所述第二关系标签进行数据清洗,更新所述目标对象的信息、所述第一关系标签、所述第二关系标签。
在其中一个实施例中,所述以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱包括:
确定所述初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段;
从所述目标对象的信息中获取所述目标对象的属性标签;
基于所述所需实体字段、所述所需属性字段、及所述所需关系字段,分别对所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签进行筛选,并对筛选后的数据进行规范化处理;
以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱。
在其中一个实施例中,所述以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签更新至初始风险知识图谱包括:
以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、及数据规范处理后的所述属性标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点及所述实体节点的属性标签;
基于更新后的实体节点,将数据规范处理后的所述第一关系标签、及数据规范处理后的所述第二关系标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点之间的关系标签。
在其中一个实施例中,所述在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱包括:
当存在待更新风险标签的所述风险标签发生变化的候选实体节点时,基于所述第一关系标签、及所述第二关系标签,获取各所述实体节点与所述候选实体节点的关系密切度,并基于所述关系密切度,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱;
或;
当存在待更新风险标签的所述结构特征表征异常的候选实体节点时,确定候选实体节点对应的结构特征中的各实体节点,并基于所述候选实体节点对应的结构特征中的各实体节点,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱。
在其中一个实施例中,所述对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据包括:
对所述风险知识图谱进行社区划分,得到不同社区;
获取不同社区中实体节点数量、关系标签数量、所述实体节点对应的风险标签表征异常的节点数量、及所述实体节点对应的最大出度入度数量;
根据所述实体节点数量、所述关系标签数量、所述风险标签表征异常的节点数量、及所述最大出度入度数量,计算社区划分后的不同社区风险数据。
在其中一个实施例中,所述根据所述社区风险数据,对所述目标对象进行风险识别包括:
获取社区风险指标阈值数据;
基于所述社区风险指标阈值数据,对所述社区风险数据进行比较,得到比较结果,并根据所述比较结果,对所述目标对象进行风险识别。
第二方面,本申请还提供了一种风险识别装置。所述装置包括:
目标数据获取模块,用于获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
初始图谱更新模块,用于以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
标签及结构获取模块,用于获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
风险标签更新模块,用于在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
图谱社区划分模块,用于对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
目标风险识别模块,用于根据所述社区风险数据,对所述目标对象进行风险识别。
在一个实施例中,所述目标数据获取模块用于获取前端配置的原始信息、字段筛选配置信息、及数据清洗配置信息;基于所述字段筛选配置信息,对所述原始信息进行字段筛选,得到所述原始数据中目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与所述初始风险知识图谱中实体节点之间的第二关系标签;基于所述数据清洗配置信息,对所述目标对象的信息、所述第一关系标签、所述第二关系标签进行数据清洗,更新所述目标对象的信息、所述第一关系标签、所述第二关系标签。
在一个实施例中,所述初始图谱更新模块用于确定所述初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段;从所述目标对象的信息中获取所述目标对象的属性标签;基于所述所需实体字段、所述所需属性字段、及所述所需关系字段,分别对所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签进行筛选,并对筛选后的数据进行规范化处理;以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱。
在一个实施例中,所述初始图谱更新模块还用于以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、及数据规范处理后的所述属性标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点及所述实体节点的属性标签;基于更新后的实体节点,将数据规范处理后的所述第一关系标签、及数据规范处理后的所述第二关系标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点之间的关系标签。
在一个实施例中,所述风险标签更新模块用于当存在待更新风险标签的所述风险标签发生变化的候选实体节点时,基于所述第一关系标签、及所述第二关系标签,获取各所述实体节点与所述候选实体节点的关系密切度,并基于所述关系密切度,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱;或;当存在待更新风险标签的所述结构特征表征异常的候选实体节点时,确定候选实体节点对应的结构特征中的各实体节点,并基于所述候选实体节点对应的结构特征中的各实体节点,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱。
在一个实施例中,所述图谱社区划分模块用于对所述风险知识图谱进行社区划分,得到不同社区;获取不同社区中实体节点数量、关系标签数量、所述实体节点对应的风险标签表征异常的节点数量、及所述实体节点对应的最大出度入度数量;根据所述实体节点数量、所述关系标签数量、所述风险标签表征异常的节点数量、及所述最大出度入度数量,计算社区划分后的不同社区风险数据。
在一个实施例中,所述目标风险识别模块用于获取社区风险指标阈值数据;基于所述社区风险指标阈值数据,对所述社区风险数据进行比较,得到比较结果,并根据所述比较结果,对所述目标对象进行风险识别。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
根据所述社区风险数据,对所述目标对象进行风险识别。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
根据所述社区风险数据,对所述目标对象进行风险识别。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
根据所述社区风险数据,对所述目标对象进行风险识别。
上述风险识别方法、装置、计算机设备、存储介质和计算机程序产品,获取前端配置的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;以目标对象作为初始风险知识图谱中的实体,将目标对象、第一关系标签、及第二关系标签更新至初始风险知识图谱;获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;在存在待更新风险标签的候选实体节点的情况下,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;根据社区风险数据,对目标对象进行风险识别。整个过程中,通过前端配置的目标对象的信息、及与目标对象相关的关系标签来更新初始风险知识图谱,并且能够基于初始风险知识图谱中各实体节点的风险标签、结构特征对初始风险知识图谱中实体节点的风险标签进行准确更新,从而更准确的获取风险知识图谱的社区风险数据,以实现对目标对象进行更准确的风险识别。
附图说明
图1为一个实施例中风险识别方法的应用环境图;
图2为一个实施例中风险识别方法的流程示意图;
图3为另一个实施例中风险识别方法的流程示意图;
图4为又一个实施例中风险识别方法的流程示意图;
图5为再一个实施例中风险识别方法的流程示意图;
图6为一个具体应用实例中风险识别方法的流程示意图;
图7为一个实施例中风险识别装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例提供的风险识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。业务人员在终端102的配置界面上进行操作,使得终端102发送风险识别请求至服务器104,风险识别请求中携带目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;服务器104提取风险识别请求中的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;以目标对象作为初始风险知识图谱中的实体,将目标对象、第一关系标签、及第二关系标签更新至初始风险知识图谱;获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;在存在待更新风险标签的候选实体节点的情况下,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;根据社区风险数据,对目标对象进行风险识别。进一步地,风险识别结果可以被反馈至终端102。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种风险识别方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S100,获取前端配置的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签。
其中,前端配置是指用户能够将信息输入至终端,在终端的前端页面进行信息的配置。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是实体-关系-实体三元组,以及实体及其相关属性-值对,即知识图谱实体之间通过关系相互联结构成网状的知识结构。知识图谱可将不同来源、不同类型、不同结构的知识单元通过链接关联成图,为用户提供更广度、更深度的知识体系。
具体地,业务人员在终端的前端配置界面上进行操作,即在前端配置目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;终端根据目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签,生成、并发送风险识别请求至服务器;服务器提取风险识别请求中的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签。
进一步地,目标对象的信息中包括用户姓名、用户手机号、公司名称、用户所拥有的电子设备等目标对象,目标对象之间的第一关系标签可以是目标对象与另一个目标对象之间的关系标签,举例来说,某两个用户的姓名为用户A、用户B,其中,用户A与用户B均为需要同步至初始风险知识图谱中的新增目标对象,此时用户A与用户B之间的关系标签可以为家人、朋友、同事等。同理,第二关系标签也可以是需要同步至初始风险知识图谱中的新增用户A与初始风险知识图谱中原有存在的用户C之间的关系标签。
S200,以目标对象作为初始风险知识图谱中的实体,将目标对象、第一关系标签、及第二关系标签更新至初始风险知识图谱。
具体地,初始风险知识图谱中包括实体和实体之间的关系标签,且风险知识图谱中的实体是作为节点存在的。本申请将目标对象作为初始风险知识图谱中需要新增的实体,将目标对象与目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点的第二关系标签均作为初始风险知识图谱中需要新增的关系标签,将初始风险知识图谱中需要新增的实体和关系标签均导入初始风险知识图谱,以更新初始风险知识图谱。
S300,获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征。
具体地,将新增的实体节点与实体节点之间的关系标签都更新到初始分析知识图谱中后,对更新后的初始风险知识图谱进行分析。具体来说,进行分析主要是对更新后的初始风险知识图谱中各实体节点的风险标签及结构特征进行分析。因此,需要获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征。
进一步地,实体节点的风险标签可以是业务人员在前端对某个数据进行风险水平的标记后,将标记的标签数据同步至初始风险知识图谱中得到的风险标签。举例来说,业务人员可以标记某个用户是黑名单客户。此外,对实体节点的结构特征进行分析也是评判更新后的初始风险知识图谱中实体节点的一项标准。
S400,在存在待更新风险标签的候选实体节点的情况下,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱。
其中,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点。
具体地,对更新后的初始风险知识图谱中各实体节点的风险标签及结构特征进行分析,可以判断更新后的初始风险知识图谱中各实体节点的风险标签是否发生变化,或者是各实体节点的结构特征是否表征异常。当单个实体节点的风险标签发生变化或各实体节点的结构特征表征异常时,就认为该实体节点是候选实体节点,即认为更新后的初始风险知识图谱中存在待更新风险标签的实体节点。且由于实体节点的关联节点也容易被实体节点影响,需要对存在待更新风险标签的候选实体节点以及候选实体节点的关联节点的风险标签均进行更新,得到风险知识图谱。在实际应用中,风险标签发生变化可以是从高风险的风险标签变为低风险的风险标签,也可以是从低风险的风险标签变为高风险的风险标签。风险标签可以定义为高风险、中风险、低风险,也可以定义为黑名单用户、非黑名单用户等。在不同的情况下可以对风险标签的类型进行不同的定义。
比如,更新后的初始风险知识图谱中某一个实体节点M,它预先被标记的风险标签是低风险,但是对它在知识图谱中所对应的结构特征进行分析,发现它的结构特征是异常的结构特征,则更新该实体节点M的风险标签。又比如,更新后的初始风险知识图谱中,某一个实体节点N,它预先被标记的风险标签是低风险,但由于实体节点N对应的用户经营不善,导致该客户的风险标签转变为高风险用户,对图谱中对应实体节点N的风险标签也进行变更。
S500,对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据。
具体地,此时的风险知识图谱是最终更新后的风险知识图谱,即图谱中的实体节点、实体节点与实体节点之间的关系标签、实体节点的风险标签均是最新的,对风险知识图谱进行社区划分,将风险知识图谱分为不同的社区群组,并计算每个社区群组的社区风险数据,以评判每个社区群组的风险水平。
S600,根据社区风险数据,对目标对象进行风险识别。
具体地,根据社区风险数据可以对每个社区进行风险识别,从而对某个社区内的目标对象进行风险识别,来识别目标对象是否为风险较高的对象。
上述风险识别方法中,获取前端配置的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;以目标对象作为初始风险知识图谱中的实体,将目标对象、第一关系标签、及第二关系标签更新至初始风险知识图谱;获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;在存在待更新风险标签的候选实体节点的情况下,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;根据社区风险数据,对目标对象进行风险识别。整个过程中,通过前端配置的目标对象的信息、及与目标对象相关的关系标签来更新初始风险知识图谱,并且能够基于初始风险知识图谱中各实体节点的风险标签、结构特征对初始风险知识图谱中实体节点的风险标签进行准确更新,从而更准确的获取风险知识图谱的社区风险数据,以实现对目标对象进行更准确的风险识别。
在一个实施例中,如图3所示,S100包括:
S120,获取前端配置的原始信息、字段筛选配置信息、及数据清洗配置信息。
其中,字段筛选配置信息是指在前端配置的所需要的字段信息。数据清洗配置信息是指在前端配置的清洗要求信息。
具体地,业务人员能够在前端上通过原始信息的自动导入功能导入原始信息至服务器,且原始信息的自动导入功能中还提供了字段筛选配置功能、及数据清洗配置功能。业务人员可以在前端根据字段筛选配置功能,对原始信息中所需要的字段进行筛选配置,本申请中的字段筛选配置信息包括在原始信息中可以上传至知识图谱中作为实体和关系的信息,即目标对象、目标对象与其余目标对象之间的关系信息。此外,业务人员也可以在前端自定义清洗要求,即配置数据清洗信息,从而对字段筛选后的数据进行清洗,去除脏数据的干扰。此外,原始数据的自动导入功能中还包括数据文件上传接口,原始信息和字段筛选配置信息、数据清洗配置信息均通过数据文件上传接口上传至服务器。
S140,基于字段筛选配置信息,对原始信息进行字段筛选,得到原始数据中目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签。
具体地,以业务人员输入用户A、用户B的交易数据为例,将字段筛选配置信息设为目标对象、目标对象与其余目标对象之间的关系信息,服务器根据字段筛选配置信息以及数据格式,从用户A交易数据中提取出用户A、用户A与初始风险知识图谱中用户C之间的关系标签信息、用户A与用户B之间的关系标签信息;从用户B交易数据中提取出用户B、用户B与初始风险知识图谱中用户C之间的关系标签信息、用户B与用户A之间的关系标签信息,且这些信息均可以被存储在服务器的Hive中。
S160,基于数据清洗配置信息,对目标对象的信息、第一关系标签、第二关系标签进行数据清洗,更新目标对象的信息、第一关系标签、第二关系标签。
具体地,服务器获取数据清洗配置信息,对数据筛选后得到的目标对象的信息、第一关系标签、第二关系标签进行数据清洗,以避免后续脏数据的干扰。一般地,数据清洗配置信息包括统一数据格式、非空非法过滤、去重等配置信息。
进一步地,通过数据信息配置信息,对数据进行清洗是采用pyspark脚本来进行的。
本实施例中,通过在前端配置字段筛选配置信息、及数据清洗配置信息,能够提高业务人员的可自主操作性,避免无法高效对数据进行配置与修改。且对配置数据清洗信息,还可以减少脏数据的干扰,提高后续对数据进行处理的准确性。
在一个实施例中,如图4所示,S200包括:
S220,确定初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段。
其中,属性是指一个实体的特征,是每个实体都具备的特性,但是不同类型的实体拥有的属性不同,比如对于个人客户实体对应的属性是自身身份证号、性别等,但对于公司实体属性则是组织性质、所在行业等。
具体地,前端还包括网络模式自定义功能。网络模式自定义功能允许业务人员可以对知识图谱的实体、实体和实体之间的关系的类型进行配置。此外,网络模式自定义功能还允许对知识图谱的实体的属性进行配置。用户在前端对风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段进行配置,服务器中此时的风险知识图谱是初始风险知识图谱,因此,服务器获取的是初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段。其中所需实体字段包括但不限于用户姓名,手机号、公司名称、电子设备等;所需属性字段包括但不限于用户身份证号、性别、职位、学历等属性;所需关系字段包括但不限于亲人、同事、朋友等关系字段。
S240,从目标对象的信息中获取目标对象的属性标签。
具体地,目标对象的信息中还包括目标对象的属性标签。从目标对象的信息中获取目标对象的属性标签。
S260,基于所需实体字段、所需属性字段、及所需关系字段,分别对目标对象、属性标签、第一关系标签、及第二关系标签进行筛选,并对筛选后的数据进行规范化处理。
具体地,服务器根据前端配置的所需实体字段、所需实体属性字段、所需关系字段信息,分别对目标对象、属性标签、第一关系标签、及第二关系标签进行筛选。具体来说,可以是根据所需实体字段对目标对象进行筛选,根据所需实体属性字段对从目标对象的信息中获取的目标对象的属性标签进行筛选,根据所需关系字段对第一关系标签和第二关系标签进行筛选,从而实现前端业务人员对知识图谱中实体及关系的类型的配置。
进一步地,在进行筛选后,还需要对筛选后的数据进行规范处理,才能输入至初始风险知识图谱中。其中,规范化处理是采用pyspark脚本文件来进行的。规范化处理包括但不限于对数据进行数据标准化和实体对齐。举例来说,数据标准化包括手机号标准化,实体对齐包括将名称相似的公司对齐为同一家公司。
S280,以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、属性标签、第一关系标签、及第二关系标签更新至初始风险知识图谱。
具体地,风险知识图谱由实体、关系标签构成。以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、属性标签、第一关系标签、及第二关系标签更新至初始风险知识图谱。且初始风险知识图谱是在neo4j图数据中的知识图谱。
本实施例中,通过确定初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段,能够使得业务人员自主选择建网实体和关系的类型,从而大大提高知识图谱的可操作性,使得对知识图谱进行修改时,也能够便捷进行修改,提高交互效率。且以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、属性标签、第一关系标签、及第二关系标签更新至初始风险知识图谱,能够对初始风险知识图谱中的实体与关系进行准确更新。
在一个实施例中,以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、属性标签、第一关系标签、及第二关系标签更新至初始风险知识图谱包括:
以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、及数据规范处理后的属性标签更新至初始风险知识图谱,以更新初始风险知识图谱的实体节点及实体节点的属性标签;基于更新后的实体节点,将数据规范处理后的第一关系标签、及数据规范处理后的第二关系标签更新至初始风险知识图谱,以更新初始风险知识图谱的实体节点之间的关系标签。
具体地,风险知识图谱包括实体节点、实体节点与实体节点之间的关系标签。将目标对象作为初始风险知识图谱中的实体,即将数据规范后的目标对象来更新初始风险知识图谱中的实体节点,将数据规范处理后的属性标签来更新初始风险知识图谱中的实体节点的属性标签,以更新初始风险知识图谱的实体节点及实体节点的属性标签。此时,由于初始风险知识图谱中的实体节点已经被更新,所以,新增的实体节点之间的关系标签与新增的实体节点与之前的实体节点的关系标签均需要被重新设置,即基于更新后的实体节点,将数据规范处理后的第一关系标签和数据规范处理后的第二关系标签更新至初始风险知识图谱,来对新增的实体节点对应的关系标签进行更新。
本实施例中,通过将目标对象作为初始风险知识图谱中的实体,将关系标签作为初始风险知识图谱中实体节点与实体节点的标签,代替只对目标对象的交易数据进行分析,能够对目标对象的非结构化数据也进行有效利用,从而使得基于知识图谱准确提高对目标对象的风险识别能力。
在一个实施例中,如图5所示,S400包括:
S420,当存在待更新风险标签的风险标签发生变化的候选实体节点时,基于第一关系标签、及第二关系标签,获取各实体节点与候选实体节点的关系密切度,并基于关系密切度,确定候选实体节点的关联节点;更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱。
具体地,前端还配置了一些用于判断异常数据的算法提供至服务器,其中包括基于实体节点的关联节点判断实体节点的风险标签是否需要更新。以实体节点D为风险标签发生变化的候选实体节点为例,首先,确定与实体节点D高度关联的实体节点,当实体节点D从低风险更新为高风险时,对实体节点D高度关联的关联节点进行更新,若实体节点D高度关联的关联节点为低风险,则更新关联节点为高风险。在更新候选实体节点以及候选实体节点的关联节点的风险标签后,获得新的风险知识图谱。
进一步地,确定与实体节点D高度关联的实体节点是根据实体节点与实体节点之间的关系标签来判断关系亲密度的,且实体节点与实体节点之间的关系标签包括第一关系标签、及第二关系标签;并基于关系密切度,确定候选实体节点的关联节点。
S440,当存在待更新风险标签的结构特征表征异常的候选实体节点时,确定候选实体节点对应的结构特征中的各实体节点,并基于候选实体节点对应的结构特征中的各实体节点,确定候选实体节点的关联节点;更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱。
具体地,前端也配置了一些异常算法提供至服务器,其中包括基于实体节点所处的结构特征判断实体节点的风险标签是否需要更新。判断实体节点的风险标签是否更新包括判断实体节点所处的结构特征是否为环状结构、金字塔状结构、同点发散状结构、或出度数在前K名,这些结构特征内的实体节点均为结构特征表征异常的实体节点。并且当存在结构特征表征异常的候选实体节点时,不仅是候选实体节点的风险标签需要进行更新,候选实体节点的关联节点的风险标签也需要进行更新。同理,确定候选实体节点的关联节点也可以根据关系密切度来确定。最后,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱。
进一步地,可以对不同的异常算法赋权重来进行算法的组合和优化。优化的目标可以由业务人员自主判定;且异常算法可以配置为异常模型,业务人员根据需求进行异常模型的配置。比如业务人员想要根据实体节点的关联节点数的数量判断异常,则配置的异常模型为判断度数大小排名在前N位的节点,执行运行后此模型即开始跑起来,输出结果为度数大小位于TOP N的节点。
此外,还提供了异常数据展示功能,能够使得业务人员根据配置的异常模型来展示风险标签表征异常的实体节点及其关系网络。
本实施例中,通过对实体节点进行异常算法的配置,能够是否需要对实体节点进行更新,且还可以根据关联节点对实体节点进行更新,能够获得准确的风险知识图谱。
在一个实施例中,服务器还提供异常模型运行操作功能,它允许业务人员对由异常算法配置的异常模型的运行进行控制,可对其模型实施运行、暂停、删除等操作。且前端页面的模型控制端存在运行、暂停和删除按钮。比如分析人员运用度数topN模型,则点击运行后,模型会调起来。但是有些模型运行时间很长,点击暂停相当于模型中止,但是模型配置还在,可以随时再次点击运行。点击删除则整个模型配置都会删掉运行后得到的结果存入关系型数据库。
在一个实施例中,对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据包括:
对风险知识图谱进行社区划分,得到不同社区;获取不同社区中实体节点数量、关系标签数量、实体节点对应的风险标签表征异常的节点数量、及实体节点对应的最大出度入度数量;根据实体节点数量、关系标签数量、风险标签表征异常的节点数量、及最大出度入度数量,计算社区划分后的不同社区风险数据。
具体地,采用社区发现算法对风险知识图谱进行社区划分,以得到社区划分后的不同社区。其中,网络中的各个节点不是孤立的,彼此之间的互联互通必不可少,当一部分节点因为某样共有的属性,紧密地联系在一起时,就构成了一个社区。社区发现通过对各节点间联系紧密程度的分析找出网络中的社区结构。即社区是网络中紧密连接的群体,寻找这些群体能够帮助我们理解复杂网络中的组织结构和关系,社区发现算法就是寻找这些群体的方法。本申请中的社区发现算法包括通过Louvain算法、Label PropagationAlgorithm标签传播算法等或连通图算法。进一步地,服务器是通过spark来使用社区发现算法的。
此时,不同社区中的社区风险数据也不同。本申请中的社区风险数据包括实体节点数据、关系标签数据、异常节点数据、出度入度数据等。服务器获取不同社区中实体节点数量、关系标签数量、实体节点对应的风险标签表征异常的节点数量、及实体节点对应的最大出度入度数量,可以对应得到不同的社区风险数据。社区风险数据支持对社区风险进行识别。此外,社区风险数据还包括知识图谱的网络直径、平均路径等。进一步地,服务器还提供群体报告查询及下载功能,支持导出不同社区、及社区对应的各社区风险数据。
更进一步地,采用Louvain算法,对风险知识图谱进行社区划分的方法包括:将风险知识图谱的每个节点看作一个初始社区,并获取初始社区的不同相邻社区,将初始社区融合至不同相邻社区,以得到不同模块度变化值;对比不同模块度变化值,并以最大的模块度变化值时初始社区融入的社区来分别更新初始社区;返回获取初始社区的不同相邻社区的步骤,直至初始社区不变,得到不同社区。
采用连通图算法,对风险知识图谱进行社区划分的方法包括:连通图是指在一个无向图中,任意两个顶点之间都存在至少一条路径相连的图。在我们的知识图谱的网络中,把一个连通图中的节点作为同一个社区。且连通图算法可以通过pyspark的图计算库实现。
本实施例中,通过对风险知识图谱进行基于社区的划分,能够充分利用群体数据,从而发挥大数据时代的优势。而不是单独的个人结构化数据,从更准确地对目标对象进行风险识别。
在一个实施例中,根据社区风险数据,对目标对象进行风险识别包括:
获取社区风险指标阈值数据;基于社区风险指标阈值数据,对社区风险数据进行比较,得到比较结果,并根据比较结果,对目标对象进行风险识别。
具体地,获取社区风险指标阈值数据,社区风险指标阈值数据为社区风险数据为正常时的数据阈值,社区风险指标阈值数据可以为范围数据也可以为单个数据。当社区风险指标阈值数据为范围数据时,若社区风险数据在这个范围数据内,则社区风险数据正常,反之则异常。但社区风险指标阈值数据为单个数据时,若社区风险数据小于该阈值数据,则正常,反之则异常。以实体节点对应的风险标签表征异常的节点数量为例,当实体节点对应的风险标签表征异常的节点数量为5时,异常节点指标阈值为4,则认为该社区的风险较高,该社区可能为风险群体。其中,风险标签表征异常可以是被标记为黑名单用户。
本实施例中,通过获取社区风险指标阈值数据,能够准确判断社区风险数据是否为正常的指标数据,从而更准确地对社区中的目标对象进行风险识别。
在一个实施例中,原始信息在经过字段筛选配置信息筛选后,并进行清洗加工得到的数据也被存储在Hive数据仓库中。因此,需要对Hive数据仓库中的数据进行维护。本申请提供了数据维护功能,能够调用预设的HQL语言来查询Hive数据仓库,为业务人员提供了单条或批量数据的增删改查功能。即当不需要某条数据时,可以调用预设的HQL语言来删除该数据。
在一个实施例中,还提供了实体关系链路查询和分析功能,它支持当业务人员输入查询的目标对象,如某一用户的姓名时,利用cypher语言搜索neo4j数据中风险知识图谱中相关数据,将获取的数据的n度关系以图形方式返回,并且可以表格形式返回知识图谱中节点和边的统计数据。
在一个实施例中,风险识别方法包括:
1、系统初始化。业务人员在按照一定格式导入原始信息后,根据字段筛选配置信息进行原始信息的字段筛选,并选择自动化清洗功能进行数据的清洗,随后根据知识图谱网络模式自定义功能和网络实体关系属性的映射功能对知识图谱网络模式的自定义及所需属性字段进行选择,其中,知识图谱网络模式的自定义包括对所需实体字段、及关系字段进行配置。对清洗后的数据做进一步规范处理,形成最终的实体和关系数据,导入neo4j图数据库进行初始知识图谱的更新。
2、更新操作。业务人员可对数据进行更新,或者对建网模型进行更改,亦或根据自己对异常数据的定义,进行异常算法、异常模型的配置,从而进行初始知识图谱的更新。其中,异常模型的配置包括判断是否环状结构、金字塔状结构、同点发散状结构、度数在前N名的节点、及判断是否和高风险节点高度关联。在确定进行更新后,后台的相应程序重新运行,建网结果、群组结果和异常数据随之更新。
3、查询操作。业务人员通过实体关系链路查询和分析功能查询某一节点的n度关系图及统计信息,业务人员通过查看某节点与其他节点的关联度及其关联节点的风险情况可分析这一节点的风险程度。业务人员还可以通过群体报告查询及下载功能查看并下载所有网络节点的分团情况,即各社区风险数据,并通过各社区风险数据分析该社区是否存在欺诈团体。业务人员还可自主通过异常数据展示功能查询符合其界定的异常条件的数据,可找出其认为风险较高的节点。
在一个实施例中,如图6所示,风险识别方法还包括:
1、数据管理。数据管理是指对数据进行管理维护,包括原始数据的自主导入功能、自动化清洗功能、数据维护功能以及页面打标功能。
具体地,原始数据的自主导入功能提供了字段筛选及数据文件上传接口,业务人员基于数据文件上传接口上传的原始信息、前端配置的字段筛选配置信息、数据清洗配置信息,对原始信息进行字段筛选,并基于数据清洗配置信息对字段筛选后的原始信息进行自动化清洗。此外,数据维护功能能够提供数据清洗后的数据中单条或批量数据的增删查改功能。页面打标功能能够提供对数据清洗后的数据进行风险水平的标记的功能,且标记结果会被同步至知识图谱中。
2、模型管理。模型管理是指对模型参数的修改和模型的运行管理,包括网络模式自定义功能、网络实体关系属性的映射功能、异常配置功能、异常模型运行操作功能。
具体地,网络模式自定义功能允许业务人员自主选择知识图谱的实体和关系的类型,例如,可以从不同实体中确定部分需要的实体类型。网络实体关系属性的映射功能允许业务人员为实体和关系配置所需要的属性字段。此外,后台pyspark脚本文件还可以根据选择的知识图谱的实体和关系的类型和属性映射关系将清洗后的数据进行进一步规范化处理,从而得到可以入网的实体、关系数据,并将其导入neo4j数据库中初始风险知识图谱。
异常配置功能内置了一些常用于判断异常数据的算法,分析人员可根据自己的经验及对异常的定义,对算法或其组合进行选择,并在判断异常数据后对对应的实体节点进行更新。异常模型运行操作功能允许分析人员对异常模型的运行进行控制,可对其模型实施运行、暂停、删除等操作。运行后得到的结果存入关系型数据库。
3、图谱可视化。图谱可视化对数据的建网和异常模型的运行结果进行展示,包括实体关系链路查询和分析功能、群体报告查询及下载功能、异常结果展示功能。
实体关系链路查询和分析功能可以根据业务人员输入查询的实体,搜索neo4j数据中的相关数据,然后将其n度关系以图形方式返回,并且可以表格形式返回节点和边的统计数据。群体报告查询及下载功能展示由社区发现算法运行出来的某一群体的各项风险数据并支持导出。异常数据展示功能根据业务人员定义的异常模型的运行结果显示风险标签表征异常的节点数据及其关系网络。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的风险识别方法的风险识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个风险识别装置实施例中的具体限定可以参见上文中对于风险识别方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种风险识别装置,包括:目标数据获取模块100、初始图谱更新模块200、标签及结构获取模块300、风险标签更新模块400、图谱社区划分模块500和目标风险识别模块600,其中:
目标数据获取模块100,用于获取前端配置的目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
初始图谱更新模块200,用于以目标对象作为初始风险知识图谱中的实体,将目标对象、第一关系标签、及第二关系标签更新至初始风险知识图谱;
标签及结构获取模块300,用于获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
风险标签更新模块400,用于在存在待更新风险标签的候选实体节点的情况下,更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
图谱社区划分模块500,用于对风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
目标风险识别模块600,用于根据社区风险数据,对目标对象进行风险识别。
在一个实施例中,目标数据获取模块用于获取前端配置的原始信息、字段筛选配置信息、及数据清洗配置信息;基于字段筛选配置信息,对原始信息进行字段筛选,得到原始数据中目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签;基于数据清洗配置信息,对目标对象的信息、第一关系标签、第二关系标签进行数据清洗,更新目标对象的信息、第一关系标签、第二关系标签。
在一个实施例中,初始图谱更新模块用于确定初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段;从目标对象的信息中获取目标对象的属性标签;基于所需实体字段、所需属性字段、及所需关系字段,分别对目标对象、属性标签、第一关系标签、及第二关系标签进行筛选,并对筛选后的数据进行规范化处理;以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、属性标签、第一关系标签、及第二关系标签更新至初始风险知识图谱。
在一个实施例中,初始图谱更新模块还用于以目标对象作为初始风险知识图谱中的实体,将数据规范处理后的目标对象、及数据规范处理后的属性标签更新至初始风险知识图谱,以更新初始风险知识图谱的实体节点及实体节点的属性标签;基于更新后的实体节点,将数据规范处理后的第一关系标签、及数据规范处理后的第二关系标签更新至初始风险知识图谱,以更新初始风险知识图谱的实体节点之间的关系标签。
在一个实施例中,风险标签更新模块用于当存在待更新风险标签的风险标签发生变化的候选实体节点时,基于第一关系标签、及第二关系标签,获取各实体节点与候选实体节点的关系密切度,并基于关系密切度,确定候选实体节点的关联节点;更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱;或;当存在待更新风险标签的结构特征表征异常的候选实体节点时,确定候选实体节点对应的结构特征中的各实体节点,并基于候选实体节点对应的结构特征中的各实体节点,确定候选实体节点的关联节点;更新候选实体节点以及候选实体节点的关联节点的风险标签,获得风险知识图谱。
在一个实施例中,图谱社区划分模块用于对风险知识图谱进行社区划分,得到不同社区;获取不同社区中实体节点数量、关系标签数量、实体节点对应的风险标签表征异常的节点数量、及实体节点对应的最大出度入度数量;根据实体节点数量、关系标签数量、风险标签表征异常的节点数量、及最大出度入度数量,计算社区划分后的不同社区风险数据。
在一个实施例中,目标风险识别模块用于获取社区风险指标阈值数据;基于社区风险指标阈值数据,对社区风险数据进行比较,得到比较结果,并根据比较结果,对目标对象进行风险识别。
上述风险识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标对象的信息、目标对象之间的第一关系标签、目标对象与初始风险知识图谱中实体节点之间的第二关系标签等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风险识别方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (17)
1.一种风险识别方法,其特征在于,所述方法包括:
获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
根据所述社区风险数据,对所述目标对象进行风险识别。
2.根据权利要求1所述的方法,其特征在于,所述获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签包括:
获取前端配置的原始信息、字段筛选配置信息、及数据清洗配置信息;
基于所述字段筛选配置信息,对所述原始信息进行字段筛选,得到所述原始数据中目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与所述初始风险知识图谱中实体节点之间的第二关系标签;
基于所述数据清洗配置信息,对所述目标对象的信息、所述第一关系标签、所述第二关系标签进行数据清洗,更新所述目标对象的信息、所述第一关系标签、所述第二关系标签。
3.根据权利要求1所述的方法,其特征在于,所述以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱包括:
确定所述初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段;
从所述目标对象的信息中获取所述目标对象的属性标签;
基于所述所需实体字段、所述所需属性字段、及所述所需关系字段,分别对所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签进行筛选,并对筛选后的数据进行规范化处理;
以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签更新至初始风险知识图谱包括:
以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、及数据规范处理后的所述属性标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点及所述实体节点的属性标签;
基于更新后的实体节点,将数据规范处理后的所述第一关系标签、及数据规范处理后的所述第二关系标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点之间的关系标签。
5.根据权利要求1所述的方法,其特征在于,所述在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱包括:
当存在待更新风险标签的所述风险标签发生变化的候选实体节点时,基于所述第一关系标签、及所述第二关系标签,获取各所述实体节点与所述候选实体节点的关系密切度,并基于所述关系密切度,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱;
或;
当存在待更新风险标签的所述结构特征表征异常的候选实体节点时,确定候选实体节点对应的结构特征中的各实体节点,并基于所述候选实体节点对应的结构特征中的各实体节点,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱。
6.根据权利要求1所述的方法,其特征在于,所述对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据包括:
对所述风险知识图谱进行社区划分,得到不同社区;
获取不同社区中实体节点数量、关系标签数量、所述实体节点对应的风险标签表征异常的节点数量、及所述实体节点对应的最大出度入度数量;
根据所述实体节点数量、所述关系标签数量、所述风险标签表征异常的节点数量、及所述最大出度入度数量,计算社区划分后的不同社区风险数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述社区风险数据,对所述目标对象进行风险识别包括:
获取社区风险指标阈值数据;
基于所述社区风险指标阈值数据,对所述社区风险数据进行比较,得到比较结果,并根据所述比较结果,对所述目标对象进行风险识别。
8.一种风险识别装置,其特征在于,所述装置包括:
目标数据获取模块,用于获取前端配置的目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与初始风险知识图谱中实体节点之间的第二关系标签;
初始图谱更新模块,用于以所述目标对象作为所述初始风险知识图谱中的实体,将所述目标对象、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱;
标签及结构获取模块,用于获取更新后的初始风险知识图谱中各实体节点的风险标签及结构特征;
风险标签更新模块,用于在存在待更新风险标签的候选实体节点的情况下,更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱,候选实体节点包括风险标签发生变化或结构特征表征异常的实体节点;
图谱社区划分模块,用于对所述风险知识图谱进行社区划分,并计算社区划分后的社区风险数据;
目标风险识别模块,用于根据所述社区风险数据,对所述目标对象进行风险识别。
9.根据权利要求8所述的装置,其特征在于,所述目标数据获取模块用于获取前端配置的原始信息、字段筛选配置信息、及数据清洗配置信息;基于所述字段筛选配置信息,对所述原始信息进行字段筛选,得到所述原始数据中目标对象的信息、所述目标对象之间的第一关系标签、所述目标对象与所述初始风险知识图谱中实体节点之间的第二关系标签;基于所述数据清洗配置信息,对所述目标对象的信息、所述第一关系标签、所述第二关系标签进行数据清洗,更新所述目标对象的信息、所述第一关系标签、所述第二关系标签。
10.根据权利要求8所述的装置,其特征在于,所述初始图谱更新模块用于确定所述初始风险知识图谱中所需实体字段、所需实体属性字段、所需关系字段;从所述目标对象的信息中获取所述目标对象的属性标签;基于所述所需实体字段、所述所需属性字段、及所述所需关系字段,分别对所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签进行筛选,并对筛选后的数据进行规范化处理;以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、所述属性标签、所述第一关系标签、及所述第二关系标签更新至所述初始风险知识图谱。
11.根据权利要求10所述的装置,其特征在于,所述初始图谱更新模块还用于以所述目标对象作为所述初始风险知识图谱中的实体,将数据规范处理后的所述目标对象、及数据规范处理后的所述属性标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点及所述实体节点的属性标签;基于更新后的实体节点,将数据规范处理后的所述第一关系标签、及数据规范处理后的所述第二关系标签更新至所述初始风险知识图谱,以更新所述初始风险知识图谱的实体节点之间的关系标签。
12.根据权利要求8所述的装置,其特征在于,所述风险标签更新模块用于当存在待更新风险标签的所述风险标签发生变化的候选实体节点时,基于所述第一关系标签、及所述第二关系标签,获取各所述实体节点与所述候选实体节点的关系密切度,并基于所述关系密切度,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱;或;当存在待更新风险标签的所述结构特征表征异常的候选实体节点时,确定候选实体节点对应的结构特征中的各实体节点,并基于所述候选实体节点对应的结构特征中的各实体节点,确定所述候选实体节点的关联节点;更新所述候选实体节点以及所述候选实体节点的关联节点的风险标签,获得风险知识图谱。
13.根据权利要求8所述的装置,其特征在于,所述图谱社区划分模块用于对所述风险知识图谱进行社区划分,得到不同社区;获取不同社区中实体节点数量、关系标签数量、所述实体节点对应的风险标签表征异常的节点数量、及所述实体节点对应的最大出度入度数量;根据所述实体节点数量、所述关系标签数量、所述风险标签表征异常的节点数量、及所述最大出度入度数量,计算社区划分后的不同社区风险数据。
14.根据权利要求8所述的装置,其特征在于,所述目标风险识别模块用于获取社区风险指标阈值数据;基于所述社区风险指标阈值数据,对所述社区风险数据进行比较,得到比较结果,并根据所述比较结果,对所述目标对象进行风险识别。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
17.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218408.1A CN117196846A (zh) | 2023-09-20 | 2023-09-20 | 风险识别方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218408.1A CN117196846A (zh) | 2023-09-20 | 2023-09-20 | 风险识别方法、装置、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117196846A true CN117196846A (zh) | 2023-12-08 |
Family
ID=88996020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311218408.1A Pending CN117196846A (zh) | 2023-09-20 | 2023-09-20 | 风险识别方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117196846A (zh) |
-
2023
- 2023-09-20 CN CN202311218408.1A patent/CN117196846A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11632383B2 (en) | Predictive model selection for anomaly detection | |
EP3477906B1 (en) | Systems and methods for identifying and mitigating outlier network activity | |
US11645471B1 (en) | Determining a relationship recommendation for a natural language request | |
US11102225B2 (en) | Detecting fraud by correlating user behavior biometrics with other data sources | |
US10725981B1 (en) | Analyzing big data | |
Luo et al. | A highly efficient approach to protein interactome mapping based on collaborative filtering framework | |
AU2013329525C1 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
CN110738577B (zh) | 社区发现方法、装置、计算机设备和存储介质 | |
US11372956B2 (en) | Multiple input neural networks for detecting fraud | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
US20110125746A1 (en) | Dynamic machine assisted informatics | |
CN111417954A (zh) | 基于数据去标识过程的可允许配置的检测的数据去标识 | |
EP3740883A1 (en) | Unified knowledge graphs | |
CN112989059A (zh) | 潜在客户识别方法及装置、设备及可读计算机存储介质 | |
US20140337274A1 (en) | System and method for analyzing big data in a network environment | |
US11315010B2 (en) | Neural networks for detecting fraud based on user behavior biometrics | |
US20220114215A1 (en) | Neighborhood-based entity disambiguation system and method | |
JP7423998B2 (ja) | 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム | |
Fanrong et al. | Local community detection in complex networks based on maximum cliques extension | |
US11556595B2 (en) | Attribute diversity for frequent pattern analysis | |
CN117390011A (zh) | 报表数据处理方法、装置、计算机设备和存储介质 | |
CN116561134A (zh) | 业务规则处理方法、装置、设备及存储介质 | |
CN117196846A (zh) | 风险识别方法、装置、计算机设备、存储介质 | |
Taranto et al. | Uncertain Graphs meet Collaborative Filtering. | |
CA3087635C (en) | Unified knowledge graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |