CN111259167A - 用户请求风险识别方法及装置 - Google Patents
用户请求风险识别方法及装置 Download PDFInfo
- Publication number
- CN111259167A CN111259167A CN202010087185.XA CN202010087185A CN111259167A CN 111259167 A CN111259167 A CN 111259167A CN 202010087185 A CN202010087185 A CN 202010087185A CN 111259167 A CN111259167 A CN 111259167A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- current
- evaluation
- evaluation data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000011156 evaluation Methods 0.000 claims abstract description 126
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013210 evaluation model Methods 0.000 claims abstract description 16
- 239000012634 fragment Substances 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 10
- 238000012502 risk assessment Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种用户请求风险识别方法及装置。其中,该方法包括:将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
Description
技术领域
本公开涉及图数据库应用技术领域,具体涉及一种用户请求风险识别方法、装置、电子设备及存储介质。
背景技术
随着大数据和人工智能技术的发展,尤其是认知智能技术在近年来的突破,基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地,利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持,比如个性化推荐、关联信息搜索、地图数据处理、社交网络服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。
典型地,在现有的基于图数据的金融风控和反欺诈系统中,图谱的构建和使用均采用以订单为中心的方式。现有的以订单为中心的方式的好处在于:反欺诈系统收到的消息是以金融进件为单位的,因此以订单为中心的方式与收到的信息相匹配,易于快速地建立图系统并进行图数据分析。此外,以订单为中心的构建方式也便于直接的业务分析,例如一个订单在超过预定日期没有收到回款时即可为该订单标注为失信状态。
然而,发明人在实现本公开实施例相关技术方案的过程中发现,现实中欺诈行为是以人为单位组织和实施的,因此虽然以订单为中心的建图方法虽然实施简单,但是使用知识图谱的最大优势在于对深度关系的存储、查询和使用,现有技术无论在建模效果还是后续的图数据的应用等方面均存在不足。例如,以订单为中心的图数据无法直接反映人与人之间的关系,两个人的节点之间需要通过其他顶点来连接。同时,以订单为中心的建图方式还容易带来超点问题,例如多个订单均与一个电话号码连接时就会产生超点。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种用户请求风险识别方法、装置、电子设备及计算机可读存储介质,以解决现有技术中图数据无法直接反映和利用人的真实关系的问题。
本公开实施例的第一方面提供了一种用户请求风险识别方法,包括:
将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;
将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;
从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;
将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
在一些实施例中,所述得到对所述当前订单的评估数据包括:
根据所述当前用户信息查找所述当前用户的历史评价数据;
以所述当前用户的历史评价数据作为所述当前订单的评估数据。
在一些实施例中,所述将所述用户变量和所述历史订单信息输入预设的模型中进行训练包括:
以所述用户变量和所述用户的多个历史订单作为样本数据;
以所述历史订单信息中的该订单的处理结果作为标注信息;
所述预设的模型根据所述样本数据和所述标注信息进行机器学习的训练,自动学习并建立所述样本数据与所述标注信息之间关联关系。
在一些实施例中,所述得到对所述当前订单的评估数据还包括:
在不存在所述当前用户的历史评价数据时,提取所述当前用户的用户变量;
所述欺诈评估模型根据所述用户变量计算所述当前用户的评价数据;
以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
在一些实施例中,所述得到对所述当前订单的评估数据还包括:
在不存在所述当前用户的历史评价数据时,获取与所述当前用户相关联的至少一个关联用户;
所述欺诈评估模型根据所述至少一个关联用户计算所述当前用户的评价数据;
以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
本公开实施例的第二方面提供了一种用户请求风险识别装置,包括:
数据整合模块,用于将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;
图谱建立模块,用于将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;
模型训练模块,用于从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;
风险评估模块,用于将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
在一些实施例中,所述风险评估模块包括:
历史查询模块,用于根据所述当前用户信息查找所述当前用户的历史评价数据;
评估输出模块,用于以所述当前用户的历史评价数据作为所述当前订单的评估数据。
在一些实施例中,所述模型训练模块包括:
样本输入模块,用于以所述用户变量和所述用户的多个历史订单作为样本数据;
标注输入模块,用于以所述历史订单信息中的该订单的处理结果作为标注信息;
训练学习模块,用于使所述预设的模型根据所述样本数据和所述标注信息进行机器学习的训练,自动学习并建立所述样本数据与所述标注信息之间关联关系。
在一些实施例中,所述风险评估模块还包括:
当前用户变量提取模块,用于在不存在所述当前用户的历史评价数据时,提取所述当前用户的用户变量;
第一计算模块,用于使所述欺诈评估模型根据所述用户变量计算所述当前用户的评价数据;
所述评估输出还用于以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
在一些实施例中,所述风险评估模块还包括:
关联用户获取模块,用于在不存在所述当前用户的历史评价数据时,获取与所述当前用户相关联的至少一个关联用户;
第二计算模块,用于使所述欺诈评估模型根据所述至少一个关联用户计算所述当前用户的评价数据;
所述评估输出还用于以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本公开实施例通过构建以人为中心的知识图谱来训练以人为中心的人工智能模型,充分挖掘真实世界的真实关系来帮助进行用户的风险程度识别,从而可有效提升系统的适用性和响应速度。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种用户请求风险识别方法流程示意图;
图2是根据本公开的一些实施例所示的一种用户请求风险识别装置模块结构示意图;
图3是根据本公开的一些实施例所示的一种电子设备的结构示意图;
图4是根据本公开的一些实施例所示的一种用户关系知识图谱示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
知识图谱可以帮助识别和理解真实世界中事物之间的关联关系,从而进一步帮助发现某些事物的隐藏特性,现有技术中,进一步结合人工智能技术可以让机器实现对真实事物的自动认知,自动完成复杂业务的处理。比如现有的反欺诈识别方案就是基于知识图谱和人工智能技术的结合,在基于知识图谱的人工智能模型中,利用知识图谱构建的关系图,能够根据种子用户的可信度得到整个网络的可信度情况。对于用户身份/可靠性识别这一应用来说,用户的人际关系有特殊的现实意义,是帮助进行反欺诈识别的重要信息。然而,现有技术中知识图谱的构建和使用均采用以订单为中心的方式,该方式无法直接反映人与人之间的关系,对于以人际关系为主的应用场景中,现有方式无法充分利用真实世界的信息,反而会在某些方面带来负面影响。
有鉴于此,本公开实施例提供了一种用户身份识别方法,通过构建以人为中心的知识图谱,充分挖掘真实世界的人际关系帮助进行用户身份识别,从而可有效提升系统的适用性,拥有响应快、超节点问题少、能获得连续的欺诈人评估结果等优势。在本公开的一个实施例中,如图1所示,用户请求风险识别方法包括步骤:
S101,将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;
S102,将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;
S103,从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;
S104,将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
其中,在本公开的一个实施例中,单个数据片段以RDF形式来记录;RDF(资源描述框架,Resource Description Framework)是一个使用XML语法来表示的数据模型,用来描述Web资源的特性以及资源与资源之间的关系。典型地,数据片段中包括用户节点和非用户的实体信息构成的顶点,用户节点和顶点之间通过表示关联关系的边建立连接,比如,用户与订单之间通过“拥有该订单”关系建立连接,用户与联系方式之间通过“联系电话”或“联系邮箱”关系建立连接。作为一种规范化框架,RDF可将多个不同数据源中不同格式的数据转换为统一的规范化描述,从而使得图数据库可对不同数据源的异构数据进行处理。在本公开的实施例中,为了构建以人(用户)为中心的知识图谱,采用与用户关联的唯一标识(用户的ID)来采集和整理合并数据,这一方面通过初步合并数据解决了现有以进件订单为中心方式数据量大计算压力大的问题;另一方面可以如实呈现人(用户)的真实关系,从而使图数据与真实世界一致,也使知识图谱可以直接使用真实世界的人的关系来处理问题。
进一步地,将以人为中心的多个数据片段输入至图数据库中,例如NEO4j中,建立起以人为中心的知识图谱。其中,图数据库对RDF的数据片段进行解析,将全部关系数据以用户的ID为主键进行存储。典型地,图数据库(知识图谱数据库)存储的关系数据一般是按现实世界中的实体与关系来存储;不同的用户实体对应不同的用户节点,不同的非用户实体对应不同的顶点,不同的实体间通过关系来完成连接,实体与关系还进一步包括不同的属性,用于定义实体的类型和关系的类型。如图4所示,在一个示例性的图数据库实例中,知识图谱展示了基于个人信息构建的用户关系网络,其中不同的实体构成了图4中不同形状的节点/顶点,实体之间的关系构成了节点/顶点之间的连线。比如“张明”和“李强”为两个用户实体,每个实体通过例如“工作于”或“拥有电话”等关系与其他的“手机号”或“公司”等实体相连。在图4所示的用户关系知识图谱中,用户可以与多个进件订单关联,不同的用户可以通过人际关系直接关联,也可以通过共同的非人实体间接关联(比如同属一家公司等)。
在本公开的实施例中,还基于上述以用户为中心的知识图谱进行机器学习的训练,获得以人(用户)为中心的欺诈评估模型(典型应用为金融反欺诈识别)。人工智能模型的训练的核心是输入大量的样本数据让模型进行机器学习,本公开实施例此处使用用户变量和该用户的多个历史订单作为样本数据,其中,历史订单中包括该订单的处理结果,以处理结果作为标注信息来帮助人工智能模型建立对用户可信度/风险程度的预测/识别模式(通常通过优化后的模型参数表示)。在本公开的实施例中,使用历史订单数据训练以人为中心的欺诈评估模型,使得其对最新单个订单的欺诈评估结果与该订单个订单的欺诈评估结果差异最小。
典型地,现有技术中以订单为中心的反欺诈模型的本质在于,在当前得到了申请人的一组变量,例如一个最新的金融进项中得到的参量,来预测当前订单的欺诈概率,也就是说以订单为中心的反欺诈模型是一个实时决策的方法。假设,当前金融进项的变量为其中T1为当前时刻的标识,也可以用于指示当前订单。则一个反欺诈评估模型的计算过程为:
其中fO是训练过的以订单为中心的反欺诈模型计算过程,例如fO可以是公知并广泛使用的GDBT模型。其中S是模型计算得出的反欺诈分数,该分数用于判断当前订单的欺诈概率。此时,由于这种计算方法必须是实时运行GDBT模型,因此当变量较多时,模型相应时延会非常长。此外,如果当前没有金融进项,则该模型无法给出反欺诈识别。
而在本公开实施例所推出的以人为中心的反欺诈模型中,实际上一种利用预测的方法预测当前申请人的欺诈概率。因此本质上以人为中心的反欺诈模型是一种延时预测,也正是如此不需要当前必须有实时的金融进项。反之,以人为中心的反欺诈模型必须要依赖大量的历史数据来生成对一个人的可靠判断。也就是说,以人为中心的反欺诈模型是建立在人的行为连续性的假设之上,并利用机器学习的算法给出的预测性判断。相比以订单为中心的反欺诈,在任意时刻模型都能即时相应,延迟非常低,此外也不需要一个对应的进项才能完成计算。以下,我们描述如何实现上述目的。
在一种方法中,我们假设传统的以订单为中心的模型对每个进项都计算了对应的反欺诈分值:
或者,上述计算过程可以表达为:
其中:
显然,fp模型的得到通过机器学习的方法是一种较优的选择。具体的,可以利用深度学习模型或GDBT模型并结合训练数据得到fp。具体的,一组训练数据可以为一个用户对应的订单得分[S1,S2,S3,…,SN]或变量矩阵[V1,V2,V3,…,VN]。并且,以一个历史是数据SM作为标注数据,并计算作为额外的输入。可以定义MSE作为代价函数,也就是argmin{|SM-YM|2}为优化目标来改变fp中的变量取值。最终,通过大量的训练数据,得到fp。此时,训练后的fp就实现了上述欺诈评估结果差异最小的目的。
在另外一种实施方式中,以人为中心的预测模型仅对部分变量进行预测,这是因为变量的设计具有可解释性。例如为第n年的申请人的年龄,则在第m年时,该变量的预测是可以通过精准预测得到。此时,我们可以将变量划分成两组;
注意上式中收入变量仍然是全部变量。在得到预测变量后,可以使用以订单为中心的反欺诈模型来完成最后的计算,也就是:
Sm=fO([Vm])
此时,模型也实现了以人为中心对m时刻的反欺诈预测。
在具体的实施过程中,一个存在的问题在于订单的时间周期呈现随机的状态。此时可以通过对数据进行随机打孔来扩充样本空间。例如一个连续12个月有进项的用户,可以通过随机打孔得到基于6个进项数据来预测第13个月该用户的欺诈概率。此外,打孔还可以得到不同的来使得模型能够在不同预测区间的鲁棒性。
最后,系统在收到一个金融进项(订单)时,获得该订单对应的人ID,在系统中获取该人对应的通过以人为中心的欺诈评估模型得到的欺诈评估得分,并返回结果。其中,在本公开的实施例中,一起以用户为中心,故判断进件是否存在欺诈的可能实质是判断提交该进件的用户是否存在欺诈可能,因此可以将当前用户的历史评价数据作为当前进件的评价数据。服务器可以在计算资源充足的时候预先计算好系统内存储的所有用户的评价数据,并将计算得到的评价数据记录到对应用户节点的属性上作为历史评价数据,这样在有用户提出业务申请时,就可以从数据库中查找出该用户的历史评价数据来作为当前进件的评价数据。由于图形数据库中按照多层社交关系存储有海量用户节点,在大部分情况下可以在数据库中查找到该用户对应的用户节点。
与现有技术中以进件为中心构建数据库,每次有新的进件提交都需要进行评价计算不同,本公开实施例中的金融产品进件评价方法以用户为中心构建数据库,在并发请求高导致计算资源不足时,直接以当前用户的历史评价数据作为当前进件的评价数据,因此无需对每一个进件都进行评价计算,提升了并发请求高时系统的响应速度。
此外,在某些情况下,可能并不存在当前用户直接的评估数据,还可以根据若干关联用户信息获取当前用户的评价数据,如上文所述,关联用户包括直接和间接关联的用户,例如可以从关联用户信息中抽取出若干评价变量,将这些评价变量输入至评价模型就可以得到当前用户的评价数据,该评价模型可以是基于机器学习的评价模型,例如可以是基于决策树的GDBT模型或基于神经网络的深度模型。在计算得到当前用户的评价数据之后,服务器就可以将该评价数据记录到当前用户节点的属性上作为历史评价数据。在当前计算资源不足的时候,服务器可以直接从当前用户节点中读取历史评价数据作为当前进件的评价数据,而无需在当前执行复杂的计算。
在本公开实施例的以用户为中心的数据库中,任何用户提交的进件信息与之前提交的进件信息不同,都会影响到与其直接或间接关联的用户的历史评价数据。如上文中所述,本领域技术人员可以根据实际情况选择预定关联层次的关联用户来计算当前用户的评价数据,或是选择预定数量的关联层次最近的关联用户来计算当前用户的评价数据,在当前计算资源充足且关联用户信息发生改变时,重新计算当前用户的历史评价数据来作为当前进件的评价数据,从而使得对于当前进件的评价更为准确。重新计算的当前用户的历史评价数据可以存储到当前用户节点的属性中,以便于将来使用。可选地,可以在当前用户节点中记录此次重新计算历史评价数据的时间。在关联用户信息未发生改变时,由于所有的变量均为发生改变,即使重新计算当前用户的评价数据,其结果也不会发生改变,因此无需重复计算,可以直接将当前用户的历史评价数据作为当前进件的评价数据。
根据本公开实施例所提出的用户请求风险识别方法,通过构建以人为中心的知识图谱来训练以人为中心的人工智能模型,充分挖掘真实世界的真实关系来帮助进行用户的风险程度识别,从而可有效提升系统的适用性,拥有响应快、超节点问题少、能获得连续的欺诈人评估结果等优势。
图2是根据本公开的一些实施例所示的一种用户请求风险识别装置示意图。如图2所示,用户请求风险识别装置200包括数据整合模块201、图谱建立模块202、模型训练模块203和风险评估模块204;其中,
数据整合模块201,用于将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;
图谱建立模块202,用于将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;
模型训练模块203,用于从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;
风险评估模块204,用于将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
在一些实施例中,所述风险评估模块包括:
历史查询模块,用于根据所述当前用户信息查找所述当前用户的历史评价数据;
评估输出模块,用于以所述当前用户的历史评价数据作为所述当前订单的评估数据。
在一些实施例中,所述模型训练模块包括:
样本输入模块,用于以所述用户变量和所述用户的多个历史订单作为样本数据;
标注输入模块,用于以所述历史订单信息中的该订单的处理结果作为标注信息;
训练学习模块,用于使所述预设的模型根据所述样本数据和所述标注信息进行机器学习的训练,自动学习并建立所述样本数据与所述标注信息之间关联关系。
在一些实施例中,所述风险评估模块还包括:
当前用户变量提取模块,用于在不存在所述当前用户的历史评价数据时,提取所述当前用户的用户变量;
第一计算模块,用于使所述欺诈评估模型根据所述用户变量计算所述当前用户的评价数据;
所述评估输出还用于以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
在一些实施例中,所述风险评估模块还包括:
关联用户获取模块,用于在不存在所述当前用户的历史评价数据时,获取与所述当前用户相关联的至少一个关联用户;
第二计算模块,用于使所述欺诈评估模型根据所述至少一个关联用户计算所述当前用户的评价数据;
所述评估输出还用于以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
参考附图3,为本公开一个实施例提供的电子设备示意图。如图3所示,该电子设备300包括:
存储器330以及一个或多个处理器310;
其中,所述存储器330与所述一个或多个处理器310通信连接,所述存储器330中存储有可被所述一个或多个处理器执行的指令332,所述指令332被所述一个或多个处理器310执行,以使所述一个或多个处理器310执行本公开前述实施例中的方法。
具体地,处理器310和存储器330可以通过总线或者其他方式连接,图3中以通过总线340连接为例。处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器330作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的级联渐进网络等。处理器310通过运行存储在存储器330中的非暂态软件程序、指令以及功能模块332,从而执行处理器的各种功能应用以及数据处理。
存储器330可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器310所创建的数据等。此外,存储器330可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器330可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口320)连接至处理器310。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行本公开前述实施例中的方法。
前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所本公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。
综上所述,本公开提出了一种用户请求风险识别方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过构建以人为中心的知识图谱来训练以人为中心的人工智能模型,充分挖掘真实世界的真实关系来帮助进行用户和用户请求订单的风险程度识别。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种用户请求风险识别方法,其特征在于,包括:
将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;
将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;
从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;
将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
2.根据权利要求1所述的方法,其特征在于,所述得到对所述当前订单的评估数据包括:
根据所述当前用户信息查找所述当前用户的历史评价数据;
以所述当前用户的历史评价数据作为所述当前订单的评估数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述用户变量和所述历史订单信息输入预设的模型中进行训练包括:
以所述用户变量和所述用户的多个历史订单作为样本数据;
以所述历史订单信息中的该订单的处理结果作为标注信息;
所述预设的模型根据所述样本数据和所述标注信息进行机器学习的训练,自动学习并建立所述样本数据与所述标注信息之间关联关系。
4.根据权利要求2所述的方法,其特征在于,所述得到对所述当前订单的评估数据还包括:
在不存在所述当前用户的历史评价数据时,提取所述当前用户的用户变量;
所述欺诈评估模型根据所述用户变量计算所述当前用户的评价数据;
以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
5.根据权利要求2所述的方法,其特征在于,所述得到对所述当前订单的评估数据还包括:
在不存在所述当前用户的历史评价数据时,获取与所述当前用户相关联的至少一个关联用户;
所述欺诈评估模型根据所述至少一个关联用户计算所述当前用户的评价数据;
以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
6.一种用户请求风险识别装置,其特征在于,包括:
数据整合模块,用于将从多个数据源获取的针对同一用户的数据整合成单个数据片段,其中,每个所述数据片段以所述用户的ID作为唯一标识,包括所述用户所对应的多个顶点以及所述用户与所述顶点间建立的边;
图谱建立模块,用于将多个所述数据片段输入至图数据库中,建立起以用户为中心的知识图谱;
模型训练模块,用于从所述知识图谱中提取用户变量和对应的至少一个历史订单信息,将所述用户变量和所述历史订单信息输入预设的模型中进行训练,得到欺诈评估模型;
风险评估模块,用于将当前订单请求中的当前用户信息输入所述欺诈评估模型,得到对所述当前订单的评估数据。
7.根据权利要求6所述的装置,其特征在于,所述风险评估模块包括:
历史查询模块,用于根据所述当前用户信息查找所述当前用户的历史评价数据;
评估输出模块,用于以所述当前用户的历史评价数据作为所述当前订单的评估数据。
8.根据权利要求6所述的装置,其特征在于,所述模型训练模块包括:
样本输入模块,用于以所述用户变量和所述用户的多个历史订单作为样本数据;
标注输入模块,用于以所述历史订单信息中的该订单的处理结果作为标注信息;
训练学习模块,用于使所述预设的模型根据所述样本数据和所述标注信息进行机器学习的训练,自动学习并建立所述样本数据与所述标注信息之间关联关系。
9.根据权利要求7所述的装置,其特征在于,所述风险评估模块还包括:
当前用户变量提取模块,用于在不存在所述当前用户的历史评价数据时,提取所述当前用户的用户变量;
第一计算模块,用于使所述欺诈评估模型根据所述用户变量计算所述当前用户的评价数据;
所述评估输出还用于以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
10.根据权利要求7所述的装置,其特征在于,所述风险评估模块还包括:
关联用户获取模块,用于在不存在所述当前用户的历史评价数据时,获取与所述当前用户相关联的至少一个关联用户;
第二计算模块,用于使所述欺诈评估模型根据所述至少一个关联用户计算所述当前用户的评价数据;
所述评估输出还用于以计算得到的所述当前用户的评价数据作为所述当前订单的评估数据,并保存为所述当前用户的历史评价数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087185.XA CN111259167B (zh) | 2020-02-11 | 2020-02-11 | 用户请求风险识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087185.XA CN111259167B (zh) | 2020-02-11 | 2020-02-11 | 用户请求风险识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259167A true CN111259167A (zh) | 2020-06-09 |
CN111259167B CN111259167B (zh) | 2024-03-15 |
Family
ID=70947215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010087185.XA Active CN111259167B (zh) | 2020-02-11 | 2020-02-11 | 用户请求风险识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259167B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951079A (zh) * | 2020-08-14 | 2020-11-17 | 国网电子商务有限公司 | 一种基于知识图谱的信用评级方法、装置及电子设备 |
CN112200644A (zh) * | 2020-12-09 | 2021-01-08 | 北京顺达同行科技有限公司 | 欺诈用户识别方法、装置、计算机设备以及存储介质 |
CN116308748A (zh) * | 2023-03-19 | 2023-06-23 | 二十六度数字科技(广州)有限公司 | 一种基于知识图谱的用户欺诈行为判断系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262852A1 (en) * | 2016-03-10 | 2017-09-14 | Amadeus S.A.S. | Database monitoring system |
CN107481019A (zh) * | 2017-07-28 | 2017-12-15 | 上海携程商务有限公司 | 订单欺诈识别方法、系统、存储介质和电子设备 |
US20190140847A1 (en) * | 2017-11-03 | 2019-05-09 | Mastercard International Incorporated | Systems and methods for authenticating a user based on biometric and device data |
CN109871445A (zh) * | 2019-01-23 | 2019-06-11 | 平安科技(深圳)有限公司 | 欺诈用户识别方法、装置、计算机设备和存储介质 |
CN109886806A (zh) * | 2019-03-05 | 2019-06-14 | 湖南衍金征信数据服务有限公司 | 基于知识图谱的人工识别金融反欺诈的方法 |
CN110110093A (zh) * | 2019-04-08 | 2019-08-09 | 深圳众赢维融科技有限公司 | 一种基于知识图谱的识别方法、装置、电子设备及存储介质 |
CN110232524A (zh) * | 2019-06-14 | 2019-09-13 | 哈尔滨哈银消费金融有限责任公司 | 社交网络欺诈模型的构建方法、防欺诈方法和装置 |
CN110297912A (zh) * | 2019-05-20 | 2019-10-01 | 平安科技(深圳)有限公司 | 欺诈识别方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-02-11 CN CN202010087185.XA patent/CN111259167B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262852A1 (en) * | 2016-03-10 | 2017-09-14 | Amadeus S.A.S. | Database monitoring system |
CN107481019A (zh) * | 2017-07-28 | 2017-12-15 | 上海携程商务有限公司 | 订单欺诈识别方法、系统、存储介质和电子设备 |
US20190140847A1 (en) * | 2017-11-03 | 2019-05-09 | Mastercard International Incorporated | Systems and methods for authenticating a user based on biometric and device data |
CN109871445A (zh) * | 2019-01-23 | 2019-06-11 | 平安科技(深圳)有限公司 | 欺诈用户识别方法、装置、计算机设备和存储介质 |
CN109886806A (zh) * | 2019-03-05 | 2019-06-14 | 湖南衍金征信数据服务有限公司 | 基于知识图谱的人工识别金融反欺诈的方法 |
CN110110093A (zh) * | 2019-04-08 | 2019-08-09 | 深圳众赢维融科技有限公司 | 一种基于知识图谱的识别方法、装置、电子设备及存储介质 |
CN110297912A (zh) * | 2019-05-20 | 2019-10-01 | 平安科技(深圳)有限公司 | 欺诈识别方法、装置、设备及计算机可读存储介质 |
CN110232524A (zh) * | 2019-06-14 | 2019-09-13 | 哈尔滨哈银消费金融有限责任公司 | 社交网络欺诈模型的构建方法、防欺诈方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951079A (zh) * | 2020-08-14 | 2020-11-17 | 国网电子商务有限公司 | 一种基于知识图谱的信用评级方法、装置及电子设备 |
CN111951079B (zh) * | 2020-08-14 | 2024-04-02 | 国网数字科技控股有限公司 | 一种基于知识图谱的信用评级方法、装置及电子设备 |
CN112200644A (zh) * | 2020-12-09 | 2021-01-08 | 北京顺达同行科技有限公司 | 欺诈用户识别方法、装置、计算机设备以及存储介质 |
CN116308748A (zh) * | 2023-03-19 | 2023-06-23 | 二十六度数字科技(广州)有限公司 | 一种基于知识图谱的用户欺诈行为判断系统 |
CN116308748B (zh) * | 2023-03-19 | 2023-10-20 | 二十六度数字科技(广州)有限公司 | 一种基于知识图谱的用户欺诈行为判断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111259167B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309822B (zh) | 用户身份识别方法及装置 | |
CN109345399B (zh) | 理赔风险评估方法、装置、计算机设备及存储介质 | |
Athawale et al. | Decision making for facility location selection using PROMETHEE II method | |
CN111259167B (zh) | 用户请求风险识别方法及装置 | |
CN111506723B (zh) | 问答响应方法、装置、设备及存储介质 | |
CN111444226B (zh) | 业务预约网点数据的推送方法和系统 | |
CN104851025A (zh) | 一种基于案例推理的电商网站商品的个性化推荐方法 | |
CN110619055B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112861972A (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN114186760A (zh) | 一种企业稳健运营的分析方法、系统及可读存储介质 | |
CN110598126B (zh) | 基于行为习惯的跨社交网络用户身份识别方法 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN111241297B (zh) | 一种基于标签传播算法的图谱数据处理方法及装置 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
CN117076770A (zh) | 基于图计算的数据推荐方法、装置、存储价值及电子设备 | |
CN107424026A (zh) | 商家信誉评价方法和装置 | |
EP3493082A1 (en) | A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN115310606A (zh) | 基于数据集敏感属性重构的深度学习模型去偏方法及装置 | |
CN114692978A (zh) | 一种基于大数据的社交媒体用户行为预测方法及系统 | |
CN114529399A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN114119078A (zh) | 目标资源确定方法、装置、电子设备及介质 | |
CN109885647B (zh) | 用户履历验证方法、装置、电子设备及存储介质 | |
CN111241277A (zh) | 一种基于稀疏图的用户身份识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240103 Address after: Room 801-109, Unit 1, No. 35 Sicheng Road, Tianhe District, Guangzhou City, Guangdong Province, 510630 Applicant after: Jianlian Technology (Guangdong) Co.,Ltd. Address before: Room 922-6, No. 185 Haibin Road, Nansha District, Guangzhou City, Guangdong Province, 511458 (for office use only) Applicant before: Guangzhou Zhongying Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |