CN115953172A - 一种基于图神经网络的欺诈风险识别方法和装置 - Google Patents

一种基于图神经网络的欺诈风险识别方法和装置 Download PDF

Info

Publication number
CN115953172A
CN115953172A CN202211625194.5A CN202211625194A CN115953172A CN 115953172 A CN115953172 A CN 115953172A CN 202211625194 A CN202211625194 A CN 202211625194A CN 115953172 A CN115953172 A CN 115953172A
Authority
CN
China
Prior art keywords
event
incidence relation
data table
neural network
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211625194.5A
Other languages
English (en)
Inventor
张泷
胡汉一
潘怡君
吴迪
那崇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211625194.5A priority Critical patent/CN115953172A/zh
Publication of CN115953172A publication Critical patent/CN115953172A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请涉及一种基于图神经网络的欺诈风险识别方法和装置,该方法包括:根据数据表获取待识别事件的第一关联关系邻接矩阵;数据表中包括待识别事件的数据,第一关联关系邻接矩阵用于标识待识别事件与数据表中其他事件的关联关系;根据数据表和第一关联关系邻接矩阵,获取待识别事件的第一特征矩阵;第一特征矩阵用于标识数据表中的事件的数据;根据第一关联关系邻接矩阵、第一特征矩阵和预先训练好的图神经网络,获取待识别事件的欺诈概率;图神经网络用于获取事件的欺诈概率;根据欺诈概率,确定待识别事件的欺诈风险。通过本申请,解决了现有的车险理赔领域的欺诈风险的识别方法,未对数据库中的历史数据进行关联,导致识别结果不准确的问题。

Description

一种基于图神经网络的欺诈风险识别方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于图神经网络的欺诈风险识别方法和装置。
背景技术
目前计算机技术日新月异的发展,实际业务中产生了数据量越来越庞大的业务数据存储于计算机数据库中。具有欺诈行为的用户在车险报案、出险、理赔国政中产生的实际数据之间具有一定的关联性,从海量业务数据中及时发现其中的欺诈潜在风险点对判断具体案件是否欺诈越来越重要。业务机构将业务数据按照其各自类别分门别类的存储于数据库中。但由于不同数据表之间互相独立存储,表和表之间很难通过主键进行一一连接,形成了一个又一个数据孤岛,难以简易、批量对比关联案件。
现有的车险理赔领域的欺诈风险的识别方法,未对数据库中的历史数据进行关联,导致识别结果不准确。
针对现有技术中存在的欺诈风险识别结果不准确的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种基于图神经网络的欺诈风险识别方法和装置,以解决现有技术中存在的欺诈风险识别结果不准确的问题。
第一个方面,在本实施例中提供了一种基于图神经网络的欺诈风险识别方法,所述方法包括:
根据数据表获取待识别事件的第一关联关系邻接矩阵;所述数据表中包括所述待识别事件的数据,所述第一关联关系邻接矩阵用于标识所述待识别事件与数据表中其他事件的关联关系;
根据所述数据表和所述第一关联关系邻接矩阵,获取所述待识别事件的第一特征矩阵;所述第一特征矩阵用于标识所述数据表中的事件的数据;
根据所述第一关联关系邻接矩阵、所述第一特征矩阵和预先训练好的图神经网络,获取所述待识别事件的欺诈概率;所述图神经网络用于获取事件的欺诈概率;
根据所述欺诈概率,确定所述待识别事件的欺诈风险。
在其中的一些实施例中,所述根据数据表获取待识别事件的第一关联关系邻接矩阵,包括:
根据所述数据表获取所述待识别事件的关联关系图;所述关联关系图用于标识所述待识别事件与数据表中其他事件的关联关系;
根据所述关联关系图,生成所述待识别事件的所述第一关联关系邻接矩阵。
在其中的一些实施例中,所述根据所述数据表和所述第一关联关系邻接矩阵,获取所述待识别事件的第一特征矩阵,包括:
根据所述第一关联关系邻接矩阵中的事件顺序,对所述数据表的记录数据进行调整;
根据调整后的数据表,获取所述待识别事件的第一特征矩阵。
在其中的一些实施例中,所述根据调整后的数据表,获取所述待识别事件的第一特征矩阵,包括:
根据调整后的数据表获取所述待识别事件对应的特征向量,根据所述特征向量获取对应的特征值,根据所述特征值生成所述第一特征矩阵。
在其中的一些实施例中,所述根据调整后的数据表获取所述待识别事件对应的特征向量,包括:
根据所述待识别事件与其他事件的关联关系,从所述调整后的数据表中获取所述待识别事件对应的特征向量。
在其中的一些实施例中,所述方法还包括:
根据所述数据表,获取训练事件的第二关联关系邻接矩阵;
根据所述数据表和所述第二关联关系邻接矩阵,获取所述训练事件的第二特征矩阵;
利用所述第二关联关系邻接矩阵和所述第二特征矩阵,对所述图神经网络进行训练。
在其中的一些实施例中,所述利用所述第二关联关系邻接矩阵和所述第二特征矩阵,对所述图神经网络进行训练,包括:
将所述训练事件的第二关联关系邻接矩阵和所述训练事件的第二特征矩阵输入至所述图神经网络,得到预测值;
根据所述预测值和所述训练事件的标签值,构造所述图神经网络的损失函数;
根据所述损失函数,对所述图神经网络的参数进行调整。
第二个方面,在本实施例中提供了一种基于图神经网络的欺诈风险识别装置,所述装置包括:
第一获取模块,用于根据数据表获取待识别事件的第一关联关系邻接矩阵;所述数据表中包括所述待识别事件的数据,所述第一关联关系邻接矩阵用于标识所述待识别事件与数据表中其他事件的关联关系;
第二获取模块,用于根据所述数据表和所述第一关联关系邻接矩阵,获取所述待识别事件的第一特征矩阵;所述第一特征矩阵用于标识所述数据表中的事件的数据;
第三获取模块,用于根据所述第一关联关系邻接矩阵、所述第一特征矩阵和预先训练好的图神经网络,获取所述待识别事件的欺诈概率;所述图神经网络用于获取事件的欺诈概率;
确定模块,用于根据所述欺诈概率,确定所述待识别事件的欺诈风险。
第三个方面,在本实施例中提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一个方面所述的基于图神经网络的欺诈风险识别方法。
第四个方面,在本实施例中提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一个方面所述的基于图神经网络的欺诈风险识别方法的步骤。
与现有技术相比,在本实施例中提供的一种基于图神经网络的欺诈风险识别方法和装置,通过根据数据表中的历史数据获取第一关联关系邻接矩阵,并根据该第一关联关系邻接矩阵获取待识别事件的第一特征矩阵,根据第一关联关系邻接矩阵和第一特征矩阵,经过图神经网络获取待识别事件的欺诈概率,并根据该欺诈概率进行风险识别,从而解决了现有的车险理赔领域的欺诈风险的识别方法,未对数据库中的历史数据进行关联,导致识别结果不准确的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是执行本申请实施例的一种基于图神经网络的欺诈风险识别方法的终端的硬件结构框图;
图2是本申请实施例的一种基于图神经网络的欺诈风险识别方法的流程图;
图3是本申请实施例根据数据表获取待识别事件的第一关联关系邻接矩阵的流程图;
图4是本具体实施例的基于图神经网络的欺诈风险识别方法的流程图;
图5是本申请实施例的一种基于图神经网络的欺诈风险识别装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是执行本申请实施例的一种基于图神经网络的欺诈风险识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的一种基于图神经网络的欺诈风险识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于图神经网络的欺诈风险识别方法,图2是本申请实施例的一种基于图神经网络的欺诈风险识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,根据数据表获取待识别事件的第一关联关系邻接矩阵;数据表中包括待识别事件的数据,第一关联关系邻接矩阵用于标识待识别事件与数据表中其他事件的关联关系。
具体地,根据待识别事件的事件标识,获取与该待识别事件相关的数据表,数据表中包括待识别事件的数据。根据该数据表获取待识别事件的第一关联关系邻接矩阵,该第一关联关系邻接矩阵用于标识待识别事件与数据表中其他事件的关联关系。
示例性地,该数据表存储于历史事件结构化数据库,该历史事件结构化数据库用于存储历史事件车险理赔事件相关信息。第一关联关系邻接矩阵为N*N维的矩阵,其中N为数据表中事件的数量,第一关联关系邻接矩阵中元素Aij,表示事件i和时间j之间的关联关系,例如,元素Aij为0时表示事件i和事件j之间不存在关联关系,元素Aij为1时表示事件i和事件j之间存在关联关系。
步骤S220,根据数据表和第一关联关系邻接矩阵,获取待识别事件的第一特征矩阵;第一特征矩阵用于标识数据表中的事件的数据。
具体地,根据步骤S210中获取的第一关联关系邻接矩阵,从数据表中获取待识别事件的第一特征矩阵,该第一特征矩阵用于标识数据表中的事件的数据。
示例性地,数据表中记录了事件M个维度的数据,则根据第一关联关系邻接矩阵从数据表中提取相应事件的M个维度的数据,组成该第一特征矩阵,第一特征矩阵为N*M维的矩阵。
步骤S230,根据第一关联关系邻接矩阵、第一特征矩阵和预先训练好的图神经网络,获取待识别事件的欺诈概率;图神经网络用于获取事件的欺诈概率。
具体地,将第一关联关系邻接矩阵和第一特征矩阵输入至预先训练好的图神经网络,获取待识别事件的欺诈概率。该图神经网络输出的为概率值,该概率值用于标识待识别事件的存在欺诈的概率。
步骤S240,根据欺诈概率,确定待识别事件的欺诈风险。
具体地,根据步骤S230的图神经网络输出的欺诈概率,来确定待识别事件的欺诈风险。示例性地,当欺诈概率越高时,待识别事件的欺诈风险越大,当欺诈概率越低时,待识别事件的欺诈风险越小。
在本实施例中,通过根据数据表中的历史数据获取第一关联关系邻接矩阵,并根据该第一关联关系邻接矩阵获取待识别事件的第一特征矩阵,根据第一关联关系邻接矩阵和第一特征矩阵,经过图神经网络获取待识别事件的欺诈概率,并根据该欺诈概率进行风险识别,从而解决了现有的车险理赔领域的欺诈风险的识别方法,未对数据库中的历史数据进行关联,导致识别结果不准确的问题。
在其中的一些实施例中,步骤S210,根据数据表获取待识别事件的第一关联关系邻接矩阵,如图3所示,包括如下步骤:
步骤S211,根据数据表获取待识别事件的关联关系图;关联关系图用于标识待识别事件与数据表中其他事件的关联关系。
具体地,历史事件结构化数据库的数据表中获取待识别事件的关联关系图,该关联关系图用于标识待识别事件与数据表中其他事件的关联关系。示例性地,该关联关系图的节点用于标识事件,若两个节点之间存在关联关系边,则表示两个事件存在关联关系。
步骤S212,根据关联关系图,生成待识别事件的第一关联关系邻接矩阵。
示例性地,第一关联关系邻接矩阵为N*N维的矩阵,其中N为数据表中事件的数量,第一关联关系邻接矩阵中元素Aij,表示事件i和时间j之间的关联关系,例如,元素Aij为0时表示事件i和事件j之间不存在关联关系边,即事件i和事件j之间不存在关联关系,元素Aij为1时表示事件i和事件j之间存在关联关系边,即事件i和事件j之间存在关联关系。
在本实施例中,根据待识别事件的关联关系图生成第一关联关系邻接矩阵,从而对数据库中的历史数据进行关联,提高识别结果的准确度。
在其中的一些实施例中,根据数据表和第一关联关系邻接矩阵,获取待识别事件的第一特征矩阵,包括:根据第一关联关系邻接矩阵中的事件顺序,对数据表的记录数据进行调整;根据调整后的数据表,获取待识别事件的第一特征矩阵。
具体地,在根据关联关系图生成第一关联关系邻接矩阵时,第一关联关系邻接矩阵中的事件的顺序会与数据表中的事件顺序不一致,比如在生成第一关联关系邻接矩阵时,会将关联关系度较大的事件的顺序调整到前面。示例性地,数据表中的事件的顺序为N1、N2、N3、N4、N5,生成的第一关联关系邻接矩阵的行列所代表的事件为(N2、N3、N1、N4、N5)及(N2、N3、N1、N4、N5),根据第一关联关系邻接矩阵中的事件顺序,对数据表的记录数据进行调整,调整后的数据表的事件的顺序为N2、N3、N1、N4、N5,根据调整后的数据表,获取待识别事件的第一特征矩阵。
在其中的一些实施例中,根据调整后的数据表,获取待识别事件的第一特征矩阵,包括:根据调整后的数据表获取待识别事件对应的特征向量,根据特征向量获取对应的特征值,根据特征值生成第一特征矩阵。
具体地,根据调整后的数据表获取待识别事件对应的特征向量,这里的特征向量指的是事件对应的M个维度,即数据表的表头,获取每个事件的每个维度对应的具体值,作为特征值,根据该特征值生成第一特征矩阵。
在其中的一些实施例中,根据调整后的数据表获取待识别事件对应的特征向量,包括:根据待识别事件与其他事件的关联关系,从调整后的数据表中获取待识别事件对应的特征向量。
在其中的一些实施例中,该基于图神经网络的欺诈风险识别方法还包括:根据数据表,获取训练事件的第二关联关系邻接矩阵;根据数据表和第二关联关系邻接矩阵,获取训练事件的第二特征矩阵;利用第二关联关系邻接矩阵和第二特征矩阵,对图神经网络进行训练。
在其中的一些实施例中,利用第二关联关系邻接矩阵和第二特征矩阵,对图神经网络进行训练,包括:将训练事件的第二关联关系邻接矩阵和训练事件的第二特征矩阵输入至图神经网络,得到预测值;根据预测值和训练事件的标签值,构造图神经网络的损失函数;根据损失函数,对图神经网络的参数进行调整。
下面通过具体实施例对本申请实施例进行描述和说明。
图4是本具体实施例的基于图神经网络的欺诈风险识别方法的流程图,如图4所示,该基于图神经网络的欺诈风险识别方法包括如下步骤:
步骤S410,将历史案件根据关联关系图提取历史案件关联关系邻接矩阵;关联关系图由结构化数据库中数据表结构得到。
具体地,历史案件结构化数据库用于存储历史案件车险理赔案件相关信息。将关系型数据库中数据根据业务场景的实际意义划分,即按照自定义的车险反欺诈关联关系进行案件号之间的关联关系提取案件关联关系邻接矩阵,邻接矩阵用来表示关联关系图中的节点与节点间的连接关系。示例性地,结构化数据库中的数据表如表1所示。
表1结构化数据库中的数据表
Figure BDA0004004015010000081
步骤S420,根据得到的历史案件关联关系邻接矩阵先后顺序,结合历史案件数据库,得到历史案件关联关系邻接矩阵和对应特征。
具体地,历史案件关联关系邻接矩阵为一个n*n的0、1矩阵,n为案件数量,其中i行j列值为0表示案件i和案件j之间不存在关联关系边,同理其中i行j列值为1表示案件i和案件j之间存在关联关系边。如表1所示,每个案件有PlateNumber,ContactPersonTelephoneNumber,ContactPersonName,AccidentProvince,AccidentCity共5个维度的信息数据,每个维度对应一个n*n的邻接矩阵,每个邻接矩阵的行和列都表示案件号。如果得出的n*n邻接矩阵中案件的顺序为00,02,01,04,03*00,02,01,04,03,则需要调整数据表中事件的顺序为00,02,01,04,03顺序,根据调整后的数据表提取对应特征。历史案件关联关系邻接矩阵的对应特征即为表中提取的有效字段,例如表1中提取的特征即为PlateNumber,ContactPersonTelephoneNumber,ContactPersonName,AccidentProvince,AccidentCity对应的值。该对应特征可以为,根据表1提取的PlateNumber,ContactPersonTelephoneNumber,ContactPersonName,AccidentProvince,AccidentCity对应的值,生成的特征矩阵,该特征矩阵为n*m的矩阵,m为数据表中的数据的维度数量,如表1中共有5个维度的信息数据,此时的m为5。根据案件关联关系邻接矩阵案件号依次整理相关字段。若有多个字段表示同一属性值,则需要挑选一个信息量最大的字段作为属性字段。最终整理之后形成数据库表格到案件关联关系邻接矩阵和对应特征。
步骤S430,使用历史案件关联关系邻接矩阵和对应特征训练图神经网络模型。
图神经网络是指使用数学里图论中用顶点和边建立相应关系的拓扑图,同时使用图邻接矩阵信息与对应特征信息。
基本的图神经网络的消息传递定义如公式(1)所示:
Figure BDA0004004015010000091
其中,A是邻接矩阵,
Figure BDA0004004015010000092
表示图神经网络中第k层的节点表示矩阵(每个节点对应矩阵中的一行),
Figure BDA0004004015010000093
Figure BDA0004004015010000094
是可训练的参数矩阵,σ表示逐元素的非线性函数(如tanh或ReLU)。
图神经网络模型的损失函数采用交叉熵公式进行计算,如公式(2)所示:
H(p,q)=-∑x(p(x)logq(x)+(1-p(x))log(1-q(x)))  (2)
其中,x为训练案件,p(x)为真实的标签,p(x)的取值为[0,1],表示训练案件x的欺诈风险,概率值越大,欺诈风险越大。q(x)为根据上述神经网络预测的标签。
模型使用随机梯度下降法更新梯度,如公式(3)所示:
Figure BDA0004004015010000101
其中,x为模型输入的训练案件,y为案件x的真实的标签,δt为所有的样本集,函数f(x;θ)为当前模型在输入数据为x,参数为θ的情况下计算的结果,函数L(y,f(x;θ))为带入当前模型数据计算结果和案件真实标签计算的损失函数,该损失函数可以采用公式(2)进行计算,f(x;θt)为当前模型在输入数据为x,参数为θt的情况下计算的结果,函数L(y,f(x;θt))为带入当前模型数据计算结果和案件真实标签计算的损失函数。下一状态下θt+1是上一状态下的θt,根据当次预测结果y对上一状态下的θ求偏导后求K个样本采样点的平均值,后与梯度步长α相乘。
进一步的更新神经元的权重,将神经元权重W带入梯度下降公式中的θ中得到公式(4),这里的神经元权重W为
Figure BDA0004004015010000102
Figure BDA0004004015010000103
Figure BDA0004004015010000104
将案件关联关系邻接矩阵和对应特征和案件是否欺诈标签传入图神经网络模型训练代码后可训练得到图神经网络模型。图神经网络模型训练代码根据图神经网络模型针对车险理赔业务具体数据情况改写。
步骤S440,将待预测案件根据关联关系图提取历史案件关联关系邻接矩阵;该关联关系图由结构化数据库中数据表结构得到。
步骤S450,根据得到的待预测案件关联关系邻接矩阵先后顺序,结合待预测案件数据集,得到待预测案件关联关系邻接矩阵和对应特征。
具体地,这里的待预测案件数据集可以为结构化数据库中的数据表。
步骤S460,使用步骤S430中训练好的图神经网络模型对案件欺诈风险概率进行预测,得到待预测车险案件的风险值。
具体地,根据案件的预测风险值,从关系型数据库中调取案件,将案件的案件号和风险值返回给用户。
在本实施例中,通过根据数据表中的历史数据获取关联关系邻接矩阵,并根据该关联关系邻接矩阵获取待识别事件的对应特征,根据关联关系邻接矩阵和对应特征,经过图神经网络获取待识别事件的欺诈概率,并根据该欺诈概率进行风险识别,从而解决了现有的车险理赔领域的欺诈风险的识别方法,未对数据库中的历史数据进行关联,导致识别结果不准确的问题。
下面给出一个具体的实施例。在该实施例中,车险数据集中有9175个案件,其中2129个案件标记为欺诈案件,案件欺诈率为23.20%。
在处理历史案件数据集时使用了关系型数据库中的报案电话特征,将具有相同报案电话的案件连边,邻接矩阵中表示为对应案件中边关系置为1。
在实施例中采用2层图卷积神经网络模型,每层隐含层使用100个节点,dropoutrate设置为0.5,学习速率为0.001,一次训练100000轮。使用切分的一部分历史案件关联关系邻接矩阵和对应特征为训练集进行模型训练,剩下案件作为测试集进行模型测试。
在和普通神经网络对比时,使用2层神经网络,每层100给隐含层节点,dropoutrate,学习速率为0.001,训练轮数均与图卷积神经网络模型相同。考虑到普通神经网络无法使用图关联关系信息,仅将普通神经网络图节点设置为自相关的对角矩阵,采用相同的训练集进行模型训练,相同测试集测试模型指标。
在实际业务场景中,保险公司会使用模型评估单个案件风险值,对风险较高的案件采用人工调查的方式确定案件是否是欺诈案件。考虑到人工调查每个案件均有一定成本,保险公司希望人工参与调查的案件欺诈率越高越好,一般保险公司的案件抽调率在1%—5%之间。
为了能够评价不同算法的优劣,在precision(正确率)和recall(召回率)的基础上提出了F1值的概念,来对precision和recall进行整体评价。F1的定义如下,如公式(5):
F1值=正确率*召回率*2/(正确率+召回率)
Figure BDA0004004015010000111
如表2所示,图神经网络的AUC值、准确率、精确率、找回率和F1值。从表2中可以看出,仅仅使用对应案件特征,不使用图邻接矩阵在神经网络模型中得到的F1值仅为0.085。而使用图邻接矩阵后,F1值均得到提高,提升至0.243,提升较为明显。
表2图神经网络模型和神经网络中各项评价指标表
模型名称 AUC值 准确率 精确率 召回率 F1值
图神经网络 0.555 0.694 0.646 0.150 0.243
神经网络 0.515 0.778 0.442 0.047 0.085
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种基于图神经网络的欺诈风险识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是本申请实施例的一种基于图神经网络的欺诈风险识别装置的结构框图,如图5所示,该装置包括:
第一获取模块510,用于根据数据表获取待识别事件的第一关联关系邻接矩阵;数据表中包括待识别事件的数据,第一关联关系邻接矩阵用于标识待识别事件与数据表中其他事件的关联关系;
第二获取模块520,用于根据数据表和第一关联关系邻接矩阵,获取待识别事件的第一特征矩阵;第一特征矩阵用于标识数据表中的事件的数据;
第三获取模块530,用于根据第一关联关系邻接矩阵、第一特征矩阵和预先训练好的图神经网络,获取待识别事件的欺诈概率;图神经网络用于获取事件的欺诈概率;
确定模块540,用于根据欺诈概率,确定待识别事件的欺诈风险。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,根据数据表获取待识别事件的第一关联关系邻接矩阵;数据表中包括待识别事件的数据,第一关联关系邻接矩阵用于标识待识别事件与数据表中其他事件的关联关系;
S2,根据数据表和第一关联关系邻接矩阵,获取待识别事件的第一特征矩阵;第一特征矩阵用于标识数据表中的事件的数据;
S3,根据第一关联关系邻接矩阵、第一特征矩阵和预先训练好的图神经网络,获取待识别事件的欺诈概率;图神经网络用于获取事件的欺诈概率;
S4,根据欺诈概率,确定待识别事件的欺诈风险。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的一种基于图神经网络的欺诈风险识别方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于图神经网络的欺诈风险识别方法的步骤。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于图神经网络的欺诈风险识别方法,其特征在于,所述方法包括:
根据数据表获取待识别事件的第一关联关系邻接矩阵;所述数据表中包括所述待识别事件的数据,所述第一关联关系邻接矩阵用于标识所述待识别事件与数据表中其他事件的关联关系;
根据所述数据表和所述第一关联关系邻接矩阵,获取所述待识别事件的第一特征矩阵;所述第一特征矩阵用于标识所述数据表中的事件的数据;
根据所述第一关联关系邻接矩阵、所述第一特征矩阵和预先训练好的图神经网络,获取所述待识别事件的欺诈概率;所述图神经网络用于获取事件的欺诈概率;
根据所述欺诈概率,确定所述待识别事件的欺诈风险。
2.根据权利要求1所述的基于图神经网络的欺诈风险识别方法,其特征在于,所述根据数据表获取待识别事件的第一关联关系邻接矩阵,包括:
根据所述数据表获取所述待识别事件的关联关系图;所述关联关系图用于标识所述待识别事件与数据表中其他事件的关联关系;
根据所述关联关系图,生成所述待识别事件的所述第一关联关系邻接矩阵。
3.根据权利要求1所述的基于图神经网络的欺诈风险识别方法,其特征在于,所述根据所述数据表和所述第一关联关系邻接矩阵,获取所述待识别事件的第一特征矩阵,包括:
根据所述第一关联关系邻接矩阵中的事件顺序,对所述数据表的记录数据进行调整;
根据调整后的数据表,获取所述待识别事件的第一特征矩阵。
4.根据权利要求3所述的基于图神经网络的欺诈风险识别方法,其特征在于,所述根据调整后的数据表,获取所述待识别事件的第一特征矩阵,包括:
根据调整后的数据表获取所述待识别事件对应的特征向量,根据所述特征向量获取对应的特征值,根据所述特征值生成所述第一特征矩阵。
5.根据权利要求4所述的基于图神经网络的欺诈风险识别方法,其特征在于,所述根据调整后的数据表获取所述待识别事件对应的特征向量,包括:
根据所述待识别事件与其他事件的关联关系,从所述调整后的数据表中获取所述待识别事件对应的特征向量。
6.根据权利要求1所述的基于图神经网络的欺诈风险识别方法,其特征在于,所述方法还包括:
根据所述数据表,获取训练事件的第二关联关系邻接矩阵;
根据所述数据表和所述第二关联关系邻接矩阵,获取所述训练事件的第二特征矩阵;
利用所述第二关联关系邻接矩阵和所述第二特征矩阵,对所述图神经网络进行训练。
7.根据权利要求6所述的基于图神经网络的欺诈风险识别方法,其特征在于,所述利用所述第二关联关系邻接矩阵和所述第二特征矩阵,对所述图神经网络进行训练,包括:
将所述训练事件的第二关联关系邻接矩阵和所述训练事件的第二特征矩阵输入至所述图神经网络,得到预测值;
根据所述预测值和所述训练事件的标签值,构造所述图神经网络的损失函数;
根据所述损失函数,对所述图神经网络的参数进行调整。
8.一种基于图神经网络的欺诈风险识别装置,其特征在于,所述装置包括:
第一获取模块,用于根据数据表获取待识别事件的第一关联关系邻接矩阵;所述数据表中包括所述待识别事件的数据,所述第一关联关系邻接矩阵用于标识所述待识别事件与数据表中其他事件的关联关系;
第二获取模块,用于根据所述数据表和所述第一关联关系邻接矩阵,获取所述待识别事件的第一特征矩阵;所述第一特征矩阵用于标识所述数据表中的事件的数据;
第三获取模块,用于根据所述第一关联关系邻接矩阵、所述第一特征矩阵和预先训练好的图神经网络,获取所述待识别事件的欺诈概率;所述图神经网络用于获取事件的欺诈概率;
确定模块,用于根据所述欺诈概率,确定所述待识别事件的欺诈风险。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求7中任一项所述的基于图神经网络的欺诈风险识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的基于图神经网络的欺诈风险识别方法的步骤。
CN202211625194.5A 2022-12-16 2022-12-16 一种基于图神经网络的欺诈风险识别方法和装置 Pending CN115953172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211625194.5A CN115953172A (zh) 2022-12-16 2022-12-16 一种基于图神经网络的欺诈风险识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211625194.5A CN115953172A (zh) 2022-12-16 2022-12-16 一种基于图神经网络的欺诈风险识别方法和装置

Publications (1)

Publication Number Publication Date
CN115953172A true CN115953172A (zh) 2023-04-11

Family

ID=87288928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211625194.5A Pending CN115953172A (zh) 2022-12-16 2022-12-16 一种基于图神经网络的欺诈风险识别方法和装置

Country Status (1)

Country Link
CN (1) CN115953172A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304885A (zh) * 2023-05-11 2023-06-23 之江实验室 一种基于图节点嵌入的事件识别方法、装置和设备
CN117252555A (zh) * 2023-11-14 2023-12-19 之江实验室 一种基于车险场景的半自动化特征工程方法、系统和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304885A (zh) * 2023-05-11 2023-06-23 之江实验室 一种基于图节点嵌入的事件识别方法、装置和设备
CN116304885B (zh) * 2023-05-11 2023-08-22 之江实验室 一种基于图节点嵌入的事件识别方法、装置和设备
CN117252555A (zh) * 2023-11-14 2023-12-19 之江实验室 一种基于车险场景的半自动化特征工程方法、系统和介质
CN117252555B (zh) * 2023-11-14 2024-04-09 之江实验室 一种基于车险场景的半自动化特征工程方法、系统和介质

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN109003089B (zh) 风险识别方法及装置
CN115953172A (zh) 一种基于图神经网络的欺诈风险识别方法和装置
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN113420190A (zh) 一种商户风险识别方法、装置、设备及存储介质
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN112085615A (zh) 图神经网络的训练方法及装置
CN111740977A (zh) 投票检测方法及装置、电子设备、计算机可读存储介质
CN111415167B (zh) 网络欺诈交易检测方法及装置、计算机存储介质和终端
CN117036060A (zh) 车险欺诈识别方法、装置和存储介质
CN115618008A (zh) 账户状态模型构建方法、装置、计算机设备和存储介质
CN112966072A (zh) 案件的预判方法、装置、电子装置和存储介质
CN116596095A (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN116304885B (zh) 一种基于图节点嵌入的事件识别方法、装置和设备
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN110457387B (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN115174237B (zh) 一种物联网系统恶意流量的检测方法、装置和电子设备
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN113011893B (zh) 数据处理方法、装置、计算机设备及存储介质
CN116050828A (zh) 基于复杂关系网络的风险团伙识别方法和系统
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113076451B (zh) 异常行为识别和风险模型库的建立方法、装置及电子设备
CN111723872B (zh) 行人属性识别方法及装置、存储介质、电子装置
CN111241277A (zh) 一种基于稀疏图的用户身份识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination