CN113392226A - 一种确定风险实体的方法、装置及设备 - Google Patents
一种确定风险实体的方法、装置及设备 Download PDFInfo
- Publication number
- CN113392226A CN113392226A CN202110684546.3A CN202110684546A CN113392226A CN 113392226 A CN113392226 A CN 113392226A CN 202110684546 A CN202110684546 A CN 202110684546A CN 113392226 A CN113392226 A CN 113392226A
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- risk
- information set
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 239000003016 pheromone Substances 0.000 claims description 58
- 230000015654 memory Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 241000257303 Hymenoptera Species 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种确定风险实体的方法、装置及设备,所述确定风险实体的方法、装置及设备可用于人工智能技术领域。所述方法包括获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;根据蚁群算法,确定所述实体信息集中实体间的最优路径;基于所述实体间的最优路径,构建知识图谱网络;计算所述知识图谱网络中每个待排查实体的风险数据;基于每个待排查实体的风险数据,确定风险实体。利用本说明书实施例可以提高对风险客户的识别准确度。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种确定风险实体的方法、装置及设备。
背景技术
随着互联网金融场景的活跃发展,个人客户风险管控,尤其是风险客户的识别变得越来越重要。
目前在对可疑风险客户进行排查的过程中,主要是工作人员根据有关部门提供的名单逐个排查或者工作人员通过分析单个客户的资金交易情况来排查。然而,当需要排查的客户比较多时,这种方式不仅需要耗费大量的人力物力,而且容易出错,使得对风险客户的识别准确度较低。
因此,业内亟需一种可以解决上述技术问题的技术方案。
发明内容
本说明书实施例提供了一种确定风险实体的方法、装置及设备,可以提高对风险客户的识别准确度。
本说明书提供的一种确定风险实体的方法、装置及设备是包括以下方式实现的。
一种确定风险实体的方法,包括:获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;根据蚁群算法,确定所述实体信息集中实体间的最优路径;基于所述实体间的最优路径,构建知识图谱网络;计算所述知识图谱网络中每个待排查实体的风险数据;基于每个待排查实体的风险数据,确定风险实体。
一种确定风险实体的装置,包括:获取模块,用于获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;第一确定模块,用于根据蚁群算法,确定所述实体信息集中实体间的最优路径;构建模块,用于基于所述实体间的最优路径,构建知识图谱网络;计算模块,用于计算所述知识图谱网络中每个待排查实体的风险数据;第二确定模块,用于基于每个待排查实体的风险数据,确定风险实体。
一种确定风险实体的设备,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例的步骤。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。
本说明书提供的一种确定风险实体的方法、装置及设备。一些实施例可以获取实体信息集,其中,实体信息集中至少包括待排查实体对应的信息,根据蚁群算法,确定实体信息集中实体间的最优路径。还可以基于实体间的最优路径,构建知识图谱网络,计算知识图谱网络中每个待排查实体的风险数据,进一步可以基于每个待排查实体的风险数据,确定风险实体。由于基于蚁群算法的最优路径思想抽取实体关系,进而构建知识图谱网络,不仅可以解决目前实体抽取方式单一问题,提高风险客户探查效率,而且可以在实体关系抽取过程中进行实体筛选,提高后续对风险实体识别的准确度。由于在对已构建的知识图谱网络中的实体进行风险评定时,综合考虑了社区风险因子、度中心性风险因子、网页级别风险因子等多个指标来获得实体风险数据,使得根据实体的风险数据识别风险实体的准确性更高。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,并不构成对本说明书的限定。在附图中:
图1是本说明书提供的一种确定风险实体的方法的一个实施例的流程示意图;
图2是本说明书提供的一种确定风险实体的装置的一个实施例的模块结构示意图;
图3是本说明书提供的一种确定风险实体的服务器的一个实施例的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书中的一部分实施例,而不是全部的实施例。基于本说明书中的一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例保护的范围。
下面以一个具体的应用场景为例对本说明书实施方案进行说明。具体的,图1是本说明书提供的一种确定风险实体的方法的一个实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。
本说明书提供的一种实施方案可以应用到客户端、服务器等中。所述客户端可以包括终端设备,如智能手机、平板电脑等。所述服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式系统的服务器结构等。
需要说明的是,下述实施例描述并不对基于本说明书的其他可扩展到的应用场景中的技术方案构成限制。具体的一种实施例如图1所示,本说明书提供的一种确定风险实体的方法的一种实施例中,所述方法可以包括以下步骤。
S0:获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息。
其中,实体可以是客户,还可以是其他对象,例如文档、图像、软件等。相应的,实体信息集可以是客户信息集,还可以是其他对象信息集,例如文档信息集、图像信息集等。
一些实施场景中,实体信息集中至少可以包括待排查实体对应的信息。其中,待排查实体可以是需要排查是否存在风险的实体。一些实施场景中,实体信息集中还可以包括风险实体对应的信息。
一些实施场景中,实体信息可以包括实体标识、实体属性信息,比如客户基本信息、交易行为信息、历史信息等。其中,实体标识可以唯一标识实体。实体标识可以是由数字、字母、符号等中一种或多种组成,本说明书对此不做限定。
一些实施场景中,可以从数据库或数据湖中获取实体信息集。其中,实体信息集中至少可以包括待排查实体对应的信息。实体信息集中可以包括多个实体对应的信息,每个实体可以通过其对应的实体标识进行表示。
一些实施场景中,可以先确定一个或多个存在风险的实体,然后从数据库或数据湖中抽取与上述风险实体关联的实体的信息作为实体信息集。其中,实体信息集中包括的实体可以是风险实体,也可以是待排查实体。一些实施场景中,可以根据预设机构(如公安机构等)提供的信息确定一个或多个存在风险的实体。
一些实施场景中,在获取实体信息集后,可以根据实体基本信息、交易行为信息、历史信息等确定实体属性,然后根据实体属性对实体信息集中实体进行分类并做标签标记。其中,实体信息集中风险实体的标签可以记为1,待排查实体的标签可以记为0。当然,上述只是进行示例性说明,实体的标签不限于上述举例,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
S2:根据蚁群算法,确定所述实体信息集中实体间的最优路径。
本说明书实施例中,在获取实体信息集后,可以根据蚁群算法,确定实体信息集中实体间的最优路径。其中,蚁群算法是模拟蚂蚁觅食过程中释放信息素而达到最优路径的群集智能算法,其基本原理可以概括为以下步骤:
(1)蚂蚁在路径上释放信息素;
(2)碰到还没走过的路口,就随机挑选一条路走,同时释放与路径长度有关的信息素;
(3)信息素浓度与路径长度成反比,后来的蚂蚁再次碰到该路口时,就选择信息素浓度较高路径;
(4)循环迭代,最优路径上的信息素浓度越来越高;
(5)最终蚁群找到最优寻食路径。
其中,在蚁群算法中,为了避免残留信息素过多而淹没启发信息,在每只蚂蚁走完一步或者完成对所有实体的遍历(即一次迭代结束)后,可以对残留信息进行更新处理。其中,蚂蚁在路径上会释放信息素,后面的蚂蚁根据前面蚂蚁释放的信息素来选择路径可以理解为是启发信息;如果信息太多混乱了蚂蚁的选择可以理解为是残留信息过多。
本说明书实施例中,基于以上思路通过建立状态转移模型和信息素更新模型来实现实体关系的抽取,从而确定所述实体信息集中实体间的最优路径。
一些实施例中,所述根据蚁群算法,确定所述实体信息集中实体间的最优路径,可以包括:确定目标实体;基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的连接概率;根据所述连接概率,确定与所述目标实体连接的第一实体;其中,所述目标实体和所述第一实体之间的路径为目标实体和第一实体之间的最优路径。其中,目标实体可以是实体信息集中任意一个实体。
一些实施场景中,所述基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的连接概率,可以包括:基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的第一连接概率;在未到达预设迭代次数的情况下,利用信息素更新模型更新每条路径上的信息素浓度,获得每条路径更新后的信息素浓度;基于所述状态转移模型和每条路径更新后的信息素浓度,计算目标实体分别与所述实体信息集中其他实体的第二连接概率;在达预设迭代次数的情况下,将目标实体分别与所述实体信息集中其他实体的第二连接概率作为目标实体分别与所述实体信息集中其他实体的连接概率。其中,预设迭代次数可以根据实际场景进行设定,例如可以是20、100等,本说明书对此不做限定。需要说明的是,第一、第二只是为了区别不同迭代过程获得的连接概率。
一些实施场景中,所述基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的第一连接概率,可以包括:根据下述公式计算目标实体分别与所述实体信息集中其他实体的第一连接概率:
其中,PAB表示目标实体A与实体B在第t次迭代过程中的连接概率,τAB(t)表示第t次迭代过程中AB路径上的信息素浓度,α表示信息素因子,α可以表征信息素重要程度,ηAB表示AB路径的能见度,ηAB可以反映对决策空间的认识,β表示能见度的重要程度,N表示除目标实体A外的实体个数,τAi(t)表示第t次迭代过程中目标实体A与其他实体中第i个实体的连接概率,ηAi表示目标实体A与其他实体中第i个实体对应路径的能见度,i表示序号。
一些实施场景中,可以通过ηAB=1/dAB计算能见度。其中,dAB表示实体A到实体B的距离,能见度与距离成反比。
例如一些实施场景中,实体信息集中包括A、B、C三个实体,则可以将A作为目标实体,然后根据上述公式(1)分别计算A与B在第一次迭代过程中的连接概率(记为PAB1)、A与C在第一次迭代过程中的连接概率(记为PAC1),进一步可以判断是否达到预设迭代次数,若达到,则可以将上述PAB1、PAC1分别作为实体A分别与实体信息集中其他实体的连接概率。
一些实施场景中,若未达到预设迭代次数,可以利用信息素更新模型更新每条路径上的信息素浓度,获得每条路径更新后的信息素浓度。
一些实施场景中,所述利用信息素更新模型更新每条路径上的信息素浓度,可以包括:根据下述方式更新每条路径上的信息素浓度:
τAB(t+1)=(1-ρ)×τAB(t)+ΔτAB(t) (2)
其中,τAB(t+1)表示第t+1次迭代过程中AB路径上的信息素浓度,τAB(t)表示第t次迭代过程中AB路径上的信息素浓度,ρ表示信息挥发因子,(1-ρ)表示残留因子,ΔτAB(t)表示第t次迭代过程中AB路径上的信息素增量。ρ过小会导致残留信息过多而影响收敛速度,ρ过大可能会导致有效路径也被放弃而影响到最优值的搜索。根据公式(2)可知,每次搜索路径上的信息素浓度不仅取决于上一次迭代结果,还取决于所有蚂蚁在实体A到实体B路径的信息素浓度之和(即实体A到实体B路径上的信息素增量)。
(1)蚁周模型
信息素增量为Q/Lk,其中,Q表示信息释放总量,Lk表示搜索路径的全路径,即从起点到终点全路径的长度。通过蚁周模型确定的信息素增量只与搜索路径相关,与具体的路径无关。在第k只蚂蚁完成一次路径搜索后,对线路上所有路径进行信息素的更新,由于信息素增量与本次搜索的整体线路有关,因此属于全局信息更新。一些实施场景中,可以根据欧几里得距离计算Lk。
(2)蚁量模型
信息素增量为Q/dAB,其中,Q表示信息释放总量,dAB表示两个实体间的路径,即实体A到实体B的距离,不是全路径。通过蚁量模型确定的信息素增量与路径实体间的路径长度有关。
(3)蚁密模型
信息素增量为固定值Q。
由于蚁量模型与蚁密模型都是在蚁群前进过程中进行,蚂蚁每完成一步移动后更新该路径上的信息素,利用蚂蚁所走路径上的信息进行更新,因此属于局部信息更新。
综上可知,第t+1次搜索时,路径AB上信息素的浓度的一部分继承自上一次迭代,另一部分增量是用于鼓励每一次迭代的最优解和全局最优解。由于能见度实际是实体点对最优路径最大期望的度量,这样,蚁群在信息素浓度和能见度的指导下,可以不断积累对搜索空间的知识,在满足迭代终止条件后(通常是达到一定的迭代次数),可以获得近似全局最优解。其中,全局最优解可以理解为最大概率。
一些实施场景中,在利用信息素更新模型更新每条路径上的信息素浓度,获得每条路径更新后的信息素浓度后,可以基于上述公式(1)和每条路径更新后的信息素浓度,计算A与B在第二次迭代过程中的连接概率(记为PAB2)、A与C在第二次迭代过程中的连接概率(记为PAC2),进一步可以判断是否达到预设迭代次数,若达到,则可以将上述PAB2、PAC2分别作为实体A分别与实体信息集中其他实体的连接概率,若未达到,则可以根据上述方式继续更新每条路径上的信息素浓度,然后基于上述公式(1)和每条路径更新后的信息素浓度,计算A与B、C在第n次迭代过程中的连接概率(n小于等于预设迭代次数),直至达到预设迭代次数,将最后一次计算获得的连接概率作为实体A分别与实体信息集中其他实体的连接概率。
一些实施例中,在确定目标实体分别与实体信息集中其他实体的连接概率后,可以根据连接概率,确定与目标实体连接的第一实体。其中,目标实体和第一实体之间的路径为目标实体和第一实体之间的最优路径。确定目标实体与实体信息集中其他实体间的最优路径可以理解为从实体信息集中确定出与目标实体连接的下一个实体。
一些实施场景中,在确定目标实体分别与实体信息集中其他实体的连接概率后,可以将最大连接概率对应的实体作为与目标实体连接的第一实体。例如,目标实体A与实体B的连接概率为0.6、与实体C的连接概率为0.5、与实体D的连接概率为0.2,则可以将实体B作为与目标实体连接的第一实体。当然,上述只是进行示例性说明,确定与目标实体连接的第一实体的方式不限于上述举例,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
需要说明的是,上述描述了根据蚁群算法,确定实体信息集中目标实体A与实体信息集中其他实体间的最优路径,当然可以通过类似方式遍历访问实体信息集中每一个实体,计算每个实体连接下一个实体的概率,直到访问完所有的实体,确定实体信息集中实体间的最优路径,具体实现过程可以参照上述实施例,对此不做赘述。
此外,根据以上蚁群算法确定实体间的最优路径即最优解的具体实现过程中,涉及到的信息素因子α的取值范围可以为[0,5],能见度的重要程度β的取值范围可以为[0,5],信息挥发因子ρ的取值范围可以为[0.1,0.99],信息释放总量Q的取值范围可以为[10,10000]。
本说明书实施例中,通过根据蚁群算法确定实体信息集中实体间的最优路径,可以实现对实体信息集中实体的抽取,从而提高后续对风险实体的识别准确度。
S4:基于所述实体间的最优路径,构建知识图谱网络。
本说明书实施例中,在确定实体信息集中实体间的最优路径后,可以基于实体间的最优路径,构建知识图谱网络。其中,知识图谱网络是以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱网络本身就是用来表示关系的,这种直观的表示方法可以更加直接有效地分析复杂关系中存在的特定的潜在风险,特别是有利于分析挖掘与特定风险客户有关联关系的潜在风险客户。
一些实施场景中,由于实体间的最优路径可以表示实体间的连接关系,所以在确定实体信息集中实体间的最优路径后,可以基于实体间的最优路径,构建知识图谱网络。
一些实施场景中,基于所述实体间的最优路径构建知识图谱网络时,可以将一个实体作为一个点,将实体间的最优路径作为边,然后基于所有点和边获得知识图谱网络。
S6:计算所述知识图谱网络中每个待排查实体的风险数据。
本说明书实施例中,在构建知识图谱网络后,可以计算知识图谱网络中每个待排查实体的风险数据。其中,知识图谱网络中可以包括风险实体和待排查实体。
一些实施场景中,所述计算所述知识图谱网络中每个待排查实体的风险数据,可以包括:获取每个待排查实体的风险因子数据;基于所述风险因子数据,确定每个待排查实体的风险数据。
一些实施场景中,所述风险因子数据至少可以包括下述之一:社区风险因子数据、度中心性风险因子数据、网页级别风险因子数据。
一些实施场景中,可以根据社区发现算法(Label Propagation,LPA)计算待排查实体的风险因子数据(记为lp)。具体实现过程可以包括:(1)为知识图谱网络中每个点分配一个唯一标签(label);(2)逐轮刷新每个点的标签,直到收敛。基于此,对于每一个实体,统计其所有邻居实体的标签,将出现个数最多的那个标签赋值给当前实体,当标签为风险客户时,lp记为1,否则记为0。
一些实施场景中,可以根据度中心性算法计算待排查实体的度中心性风险因子数据(记为dg)。其中,度中心性算法可以用来衡量网络中一个节点与所有其它节点相联系的程度。一个节点的节点度越大意味着这个节点的度中心越高,该节点越重要。在无向图中,节点度是指直接与该节点相连的节点个数之和。本实施例中,可以统计知识图谱网络中与实体1直接连接的实体个数,当连接的实体个数中风险实体的数量大于其他实体的数量时,可以用2乘以与实体1直接连接的实体个数作为实体1的度中心性风险因子dg,否则可以用1乘以与实体1直接连接的实体个数作为实体1的度中心性风险因子dg。
一些实施场景中,可以根据Pagerank算法计算待排查实体的网页级别风险因子数据(记为pr)。其中,Pagerank算法可以用来衡量特定节点对于其他节点而言的重要程度,pr值越大,节点重要性越高。Pagerank算法主要有两个基本假设:(1)数量假设:更重要的节点可能会被更多的节点链接到,也就是如果一个节点被很多节点链接到,那么该节点将拥有很高的pr;(2)质量假设:有更高pr的节点将会传递更高的权重,也就是如果一个节点被pr很高的节点链接到,可以大幅度提高该节点的pr。
一些实施场景中,可应用pr函数计算pr值来度量顶点影响力。当一个网络中存在风险信息时,经过时间的推移,pr值越大的客户转为风险客户的可能性越高,因此,获取网页级别风险因子数据对评估实体风险信息比较重要。
当然,上述只是进行示例性说明,本说明书风险因子数据不限于上述举例,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
一些实施场景中,在获取每个待排查实体的风险因子数据后,可以基于风险因子数据,确定每个待排查实体的风险数据。
例如一些实施场景中,在获取每个待排查实体的社区风险因子数据、度中心性风险因子数据、网页级别风险因子数据后,可以按照Y=m1×lp+m2×dg+m3×pr进行加权求和,获得各个待排查实体的风险数据。其中,m1、m2、m3分别对应各个风险因子的权重,Y为待排查实体的风险数据。待排查实体的风险数据也可以称为待排查实体最终的风险重要因子。当然,上述确定每个待排查实体的风险数据的方式只是进行示例性说明,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
S8:基于每个待排查实体的风险数据,确定风险实体。
本说明书实施例中,在获得知识图谱网络中每个待排查实体的风险数据后,可以基于每个待排查实体的风险数据,确定风险实体。其中,确定的风险实体可以包括一个或多个。
一些实施例中,所述基于每个待排查实体的风险数据,确定风险实体,可以包括:基于每个待排查实体的风险数据对待排查实体进行排序;将满足预设条件的待排查实体作为风险实体。其中,预设条件可以根据实际场景进行确定,例如可以是排序靠前的1个、3个等,本说明书对此不做限定。
本说明书实施例中,基于蚁群算法对实体信息集中实体进行筛选,然后根据筛选出的实体构建知识图谱网络,进一步计算知识图谱网络中实体的风险重要因子,根据风险重要因子可以精准识别出风险客户。
本说明书实施例,首先基于蚁群算法的最优路径思想进行实体关系的抽取,并构建知识图谱网络,然后基于知识图谱网络、社区发现算法、度中心性算法、Pagerank算法计算实体的风险重要因子,最后根据风险重要因子确定实体的风险级别,从而精准识别出风险客户。相较于现有技术中对风险客户的识别,本申请方案利用知识图谱可以提高风险客户探查效率。应用最优路径让实体在关系抽取过程中就进行了初步的聚类,从而可以大幅提高客户识别准确度。综合考虑多项风险指标得出风险重要因子,不仅可以克服当前客户识别方式单一、风险客户识别遗漏或不准确的问题,而且可以提升客户风险识别的准确性,提升金融场景下风险管控的有效性。
当然,上述只是进行示例性说明,本说明书实施例不限于上述举例,所属领域技术人员在本申请技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本申请相同或相似,均应涵盖于本申请保护范围内。
从以上的描述中,可以看出,本申请实施例可以获取实体信息集,其中,实体信息集中至少包括待排查实体对应的信息,根据蚁群算法,确定实体信息集中实体间的最优路径。还可以基于实体间的最优路径,构建知识图谱网络,计算知识图谱网络中每个待排查实体的风险数据,进一步可以基于每个待排查实体的风险数据,确定风险实体。由于基于蚁群算法的最优路径思想抽取实体关系,进而构建知识图谱网络,不仅可以解决目前实体抽取方式单一问题,提高风险客户探查效率,而且可以在实体关系抽取过程中进行实体筛选,提高后续对风险实体识别的准确度。由于在对已构建的知识图谱网络中的实体进行风险评定时,综合考虑了社区风险因子、度中心性风险因子、网页级别风险因子等多个指标来获得实体风险数据,使得根据实体的风险数据识别风险实体的准确性更高。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参照即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
基于上述所述一种确定风险实体的方法,本说明书一个或多个实施例还提供一种确定风险实体的装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图2是本说明书提供的一种确定风险实体的装置的一个实施例的模块结构示意图,如图2所示,本说明书提供的一种确定风险实体的装置可以包括:获取模块120,第一确定模块122,构建模块124,计算模块126,第二确定模块128。
获取模块120,可以用于获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;
第一确定模块122,可以用于根据蚁群算法,确定所述实体信息集中实体间的最优路径;
构建模块124,可以用于基于所述实体间的最优路径,构建知识图谱网络;
计算模块126,可以用于计算所述知识图谱网络中每个待排查实体的风险数据;
第二确定模块128,可以用于基于每个待排查实体的风险数据,确定风险实体。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书还提供一种确定风险实体的设备的实施例,包括处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;根据蚁群算法,确定所述实体信息集中实体间的最优路径;基于所述实体间的最优路径,构建知识图谱网络;计算所述知识图谱网络中每个待排查实体的风险数据;基于每个待排查实体的风险数据,确定风险实体。
需要说明的,上述所述的设备根据方法或装置实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图3是本说明书提供的一种确定风险实体的服务器的一个实施例的硬件结构框图,该服务器可以是上述实施例中的确定风险实体的装置或确定风险实体的设备。如图3所示,服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图3中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图3所示不同的配置。
存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的确定风险实体的方法对应的程序指令/模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书提供的上述确定风险实体的方法或装置实施例可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、设备、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参照即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把部分模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。
本发明是参照根据本发明实施例的方法、装置、设备、系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现,可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。
Claims (11)
1.一种确定风险实体的方法,其特征在于,包括:
获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;
根据蚁群算法,确定所述实体信息集中实体间的最优路径;
基于所述实体间的最优路径,构建知识图谱网络;
计算所述知识图谱网络中每个待排查实体的风险数据;
基于每个待排查实体的风险数据,确定风险实体。
2.根据权利要求1所述的方法,其特征在于,所述根据蚁群算法,确定所述实体信息集中实体间的最优路径,包括:
确定目标实体;
基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的连接概率;
根据所述连接概率,确定与所述目标实体连接的第一实体;其中,所述目标实体和所述第一实体之间的路径为目标实体和第一实体之间的最优路径。
3.根据权利要求2所述的方法,其特征在于,所述基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的连接概率,包括:
基于状态转移模型计算目标实体分别与所述实体信息集中其他实体的第一连接概率;
在未到达预设迭代次数的情况下,利用信息素更新模型更新每条路径上的信息素浓度,获得每条路径更新后的信息素浓度;
基于所述状态转移模型和每条路径更新后的信息素浓度,计算目标实体分别与所述实体信息集中其他实体的第二连接概率;
在达预设迭代次数的情况下,将目标实体分别与所述实体信息集中其他实体的第二连接概率作为目标实体分别与所述实体信息集中其他实体的连接概率。
5.根据权利要求3所述的方法,其特征在于,所述利用信息素更新模型更新每条路径上的信息素浓度,包括:
根据下述方式更新每条路径上的信息素浓度:
τAB(t+1)=(1-ρ)×τAB(t)+ΔτAB(t)
其中,τAB(t+1)表示第t+1次迭代过程中AB路径上的信息素浓度,τAB(t)表示第t次迭代过程中AB路径上的信息素浓度,ρ表示信息挥发因子,(1-ρ)表示残留因子,ΔτAB(t)表示第t次迭代过程中AB路径上的信息素增量。
6.根据权利要求1所述的方法,其特征在于,所述计算所述知识图谱网络中每个待排查实体的风险数据,包括:
获取每个待排查实体的风险因子数据;
基于所述风险因子数据,确定每个待排查实体的风险数据。
7.根据权利要求6所述的方法,其特征在于,所述风险因子数据至少包括下述之一:社区风险因子数据、度中心性风险因子数据、网页级别风险因子数据。
8.根据权利要求1所述的方法,其特征在于,所述基于每个待排查实体的风险数据,确定风险实体,包括:
基于每个待排查实体的风险数据对待排查实体进行排序;
将满足预设条件的待排查实体作为风险实体。
9.一种确定风险实体的装置,其特征在于,包括:
获取模块,用于获取实体信息集;其中,所述实体信息集中至少包括待排查实体对应的信息;
第一确定模块,用于根据蚁群算法,确定所述实体信息集中实体间的最优路径;
构建模块,用于基于所述实体间的最优路径,构建知识图谱网络;
计算模块,用于计算所述知识图谱网络中每个待排查实体的风险数据;
第二确定模块,用于基于每个待排查实体的风险数据,确定风险实体。
10.一种确定风险实体的设备,其特征在于,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-8中任意一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110684546.3A CN113392226A (zh) | 2021-06-21 | 2021-06-21 | 一种确定风险实体的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110684546.3A CN113392226A (zh) | 2021-06-21 | 2021-06-21 | 一种确定风险实体的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392226A true CN113392226A (zh) | 2021-09-14 |
Family
ID=77623163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110684546.3A Pending CN113392226A (zh) | 2021-06-21 | 2021-06-21 | 一种确定风险实体的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392226A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598509A (zh) * | 2018-10-17 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 风险团伙的识别方法和装置 |
CN110503236A (zh) * | 2019-07-08 | 2019-11-26 | 中国平安人寿保险股份有限公司 | 基于知识图谱的风险预测方法、装置、设备以及存储介质 |
CN110825890A (zh) * | 2020-01-13 | 2020-02-21 | 成都四方伟业软件股份有限公司 | 一种预训练模型知识图谱实体关系抽取方法及装置 |
CN111292008A (zh) * | 2020-03-03 | 2020-06-16 | 电子科技大学 | 一种基于知识图谱的隐私保护数据发布风险评估方法 |
CN112613796A (zh) * | 2020-12-30 | 2021-04-06 | 中国农业银行股份有限公司 | 金融风险预测方法、金融风险评分卡的生成方法和装置 |
-
2021
- 2021-06-21 CN CN202110684546.3A patent/CN113392226A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598509A (zh) * | 2018-10-17 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 风险团伙的识别方法和装置 |
CN110503236A (zh) * | 2019-07-08 | 2019-11-26 | 中国平安人寿保险股份有限公司 | 基于知识图谱的风险预测方法、装置、设备以及存储介质 |
CN110825890A (zh) * | 2020-01-13 | 2020-02-21 | 成都四方伟业软件股份有限公司 | 一种预训练模型知识图谱实体关系抽取方法及装置 |
CN111292008A (zh) * | 2020-03-03 | 2020-06-16 | 电子科技大学 | 一种基于知识图谱的隐私保护数据发布风险评估方法 |
CN112613796A (zh) * | 2020-12-30 | 2021-04-06 | 中国农业银行股份有限公司 | 金融风险预测方法、金融风险评分卡的生成方法和装置 |
Non-Patent Citations (2)
Title |
---|
何芳等: "土地市场对地方政府性债务风险压力与系统性传染效应研究", 31 January 2019, pages: 232 - 234 * |
全球金融科技创新案例编写小组: ""新基建+数字金融"全球金融科技创新实践(2020)", 31 August 2020, pages: 117 - 119 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210227B (zh) | 风险检测方法、装置、设备和存储介质 | |
CN109685647B (zh) | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 | |
CN110363449B (zh) | 一种风险识别方法、装置及系统 | |
CN106992994A (zh) | 一种云服务的自动化监控方法和系统 | |
CN110798467B (zh) | 目标对象识别方法、装置、计算机设备及存储介质 | |
CN110738577B (zh) | 社区发现方法、装置、计算机设备和存储介质 | |
CN110166344B (zh) | 一种身份标识识别方法、装置以及相关设备 | |
CN111309822A (zh) | 用户身份识别方法及装置 | |
CN114398669B (zh) | 基于隐私保护计算和跨组织的联合信用评分方法及装置 | |
CN113360580A (zh) | 基于知识图谱的异常事件检测方法、装置、设备及介质 | |
CN110706015A (zh) | 一种面向广告点击率预测的特征选取方法 | |
CN110321438A (zh) | 基于复杂网络的实时欺诈检测方法、装置及电子设备 | |
CN113641827A (zh) | 一种基于知识图谱的网络诈骗识别方法及系统 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN117240632A (zh) | 一种基于知识图谱的攻击检测方法和系统 | |
WO2022156720A1 (zh) | 群控账号挖掘方法、装置、设备及存储介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN110309948A (zh) | 整车物流订单预测方法及装置、物流系统以及计算机可读介质 | |
CN116703682B (zh) | 一种基于深度学习的政务数据平台 | |
CN113688542A (zh) | 智能优化水资源配置方法、装置、计算机设备及存储介质 | |
CN116346638B (zh) | 基于电网功率及告警信息交互验证的数据篡改推断方法 | |
CN113392226A (zh) | 一种确定风险实体的方法、装置及设备 | |
CN107424026A (zh) | 商家信誉评价方法和装置 | |
CN113469696B (zh) | 一种用户异常度评估方法、装置及计算机可读存储介质 | |
CN115098701A (zh) | 黑产设备的筛选方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |