CN113837886A - 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 - Google Patents
一种基于知识图谱的车险理赔欺诈风险识别方法和系统 Download PDFInfo
- Publication number
- CN113837886A CN113837886A CN202111085743.XA CN202111085743A CN113837886A CN 113837886 A CN113837886 A CN 113837886A CN 202111085743 A CN202111085743 A CN 202111085743A CN 113837886 A CN113837886 A CN 113837886A
- Authority
- CN
- China
- Prior art keywords
- case
- graph
- fraud
- insurance
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012216 screening Methods 0.000 claims description 25
- 230000008439 repair process Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012502 risk assessment Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于知识图谱的车险理赔欺诈风险识别方法和系统,该方法通过解析、拆分历史车险案件的结构化数据,根据车险理赔反欺诈业务场景、理赔流程设计的本体,历史案件实例化为案件知识图谱后,使用子图关键节点筛选和图点集向量化,建立多个案件间高欺诈风险筛选模型。该方法将不同时间段的车险理赔案件放于同一知识图谱中,通过分析不同时间、相似节点特征,串联关联案件,从而提示新提交车险案件风险等级。该方法对新提交车险案件进行欺诈风险评估,提供历史关联或相似案件作为风险点参考,提高车险理赔业务欺诈案件治理能力。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于知识图谱的车险理赔欺诈风险识别方法和系统。
背景技术
目前计算机技术发展的日新月异,计算机数据库中存储了数据量越来越庞大的业务数据。不法分子在车险理赔中实施的欺诈行为产生的业务数据之间具有一定的关联性,如何从大量业务数据中及时发现其中潜在风险点对识别欺诈行为具有越来越重要的作用。传统技术中,将业务数据按照各自规范分门别类的存储于数据库中。但由于不同数据表之间独立存储,表和表之间不存在关联性,形成了一个又一个数据孤岛,难以简易、批量对比关联案件。现有技术中有提出运用图技术,在查找关联关系时在不同数据表之间跳转,极大地降低了数据关联关系获取的效率。也有使用知识图谱在金融借贷进行反欺诈风险识别。该方法应用于金融借贷业务而且部署在金融借贷业务前端,目前缺少使用知识图谱技术运用于车险业务中控制欺诈风险的系统。该技术可以增加查找效率,但不能及时、有效的推断案件是否暗含欺诈风险。
发明内容
针对现有技术的不足,本发明提出一种基于知识图谱的车险理赔欺诈风险识别方法和系统,运用基于知识图谱技术的反欺诈模型有效降低保险公司成本,对降低车险费率、新险种的设计和定价有很大的帮助。
本发明的目的通过如下的技术方案来实现:
一种基于知识图谱的车险理赔欺诈风险识别方法,该方法包括如下步骤:
步骤一:将历史车险案件按照车险反欺诈本体进行分类整理,所述车险反欺诈本体包括人员本体及其属性单元、机构本体及其属性单元、保单本体及其属性单元、车辆本体及其属性单元、零部件本体及其属性单元、案件本体及其属性单元;
步骤二:根据整理后历史车险案件的数据建立知识图谱关系图;所述知识图谱关系图中包括各个实体和实体关联关系,每个实体为一个节点;
步骤三:从所述知识图谱关系图删除连接度小于预设的连接度阈值的节点,再删除那些与案件没建立连接的节点;
步骤四:以报案人和修理厂为中心,将知识图谱关系图进行划分,形成若干个关键子图,每个关键子图对应多个案件;
步骤五:根据RotatE、TransE、TransH、TransR、TransD模型将所述关键子图进行向量化,得到每个关键子图中每个案件对应的5个特征值;
步骤六:利用每个案件的对应的5个特征值和该案件在关系型数据库中存储的相关信息,以及每个车险案件是否为欺诈案件的标签,对案件间高欺诈风险筛选模型进行训练,得到训练后的案件间高欺诈风险筛选模型;
步骤七:将待识别的车险案件按照所述车险反欺诈本体进行分类整理,并将整理后的案件数据加入所述知识图谱关系图中;采用RotatE、TransE、TransH、TransR、TransD模型对待识别车险案件对应的节点和实体关联关系进行向量化,得到该案件对应的5个特征值;然后将该案件的信息和5个特征值输入训练后的案件间高欺诈风险筛选模型,模型输出待识别车险案件的风险值。
进一步地,所述案件间高欺诈风险筛选模型为XGB模型。
进一步地,输入到训练后的案件间高欺诈风险筛选模型中的信息需为布尔型或数字型特征。
进一步地,所述连接度阈值为5。
一种基于知识图谱的车险理赔欺诈风险识别系统,该系统包括:
关系型数据库,用于存储车险理赔案件相关信息;
车险反欺诈本体提取模块,用于将车险理赔案件相关信息按照车险反欺诈本体进行分类整理,并根据车险理赔案件中的各个实体和实体关联关系创建知识图谱关系图,每个实体在知识图谱关系图为一个节点;所述车险反欺诈本体包括人员本体及其属性单元、机构本体及其属性单元、保单本体及其属性单元、车辆本体及其属性单元、零部件本体及其属性单元、案件本体及其属性单元;
子图关键节点筛选模块,用于删除知识图谱关系图中连接度小于连接度阈值的节点和没有连接案件的节点,并以报案人和修理厂为中心,将知识图谱关系图划分为子图,这些子图为关键子图;
图点集向量化模块,用于根据RotatE、TransE、TransH、TransR、TransD模型将所述关键子图进行向量化,得到每个关键子图中每个案件对应的5个高风险欺诈特征值;
案件间高欺诈风险筛选模型,用于根据每个案件的5个高风险欺诈特征值以及该案件在关系型数据库中存储的相关信息,输出单个案件的风险值。
进一步地,该系统还包括关联案件返回模块,用于根据所述案件的风险值,从所述关系型数据库中调取案件,将案件的案件号和风险值返回给用户。
本发明的有益效果如下:
传统车险反欺诈模型仅单独采用知识图谱技术进行数据可视化、案件关联性进行分析;或单独运用机器学习模型,根据单个案件相关信息对案件是否欺诈进行预测。本发明综合了知识图谱技术和机器学习模型的优点,通过知识图谱技术和图点集向量化技术提取案件间的关联关系,以特征向量的形式提供给机器学习模型。通过分析不同时间、相似节点特征,串联关联案件,从而提示新提交车险案件风险等级。该方法对新提交车险案件进行欺诈风险评估,提高车险理赔业务欺诈案件治理能力。经检验,使用本发明的方法和系统可以有效提高机器学习模型预测准确度。
附图说明
图1为本发明的基于知识图谱的车险理赔欺诈风险识别方法的流程图;
图2为车险车险反欺诈本体的示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的基于知识图谱的车险理赔欺诈风险识别系统,包括关系型数据库、车险反欺诈本体提取模块、子图关键节点筛选模块、图点集向量化模块、案件间高欺诈风险筛选模型和关联案件返回模块。
1.关系型数据库
关系型数据库用于存储车险理赔案件相关信息。
2.车险反欺诈本体提取模块
将关系型数据库中数据根据业务场景的实际意义划分,即按照自定义的车险反欺诈本体进行分类整理,并根据车险理赔案件中的各个实体和实体关联关系创建知识图谱关系图,每个实体在知识图谱关系图为一个节点。
如图2所示,所述车险反欺诈本体包括:
(1)人员本体及其属性单元。具体包括身份证号、地址、住址、电话、其他代码、驾驶证号、驾驶类型、性别、姓名等属性。
(2)机构本体及其属性单元。具体包括机构代码、机构名称、修理厂类型、是否合作修理厂、修理厂经度、修理厂纬度等属性。
(3)保单本体及其属性单元。具体包括保单号、保单类型、持有者姓名、持有者身份证号、承保机构标识代码、承保二级机构标识代码、总保费、保费、起始时间、截止时间、特别条款内容、特别条款日期、修正内容、批单号码等属性。
(4)车辆本体及其属性单元。具体包括车架号、品牌标识代码、品牌名称、车型标识代码、车型名称、车辆类别、车辆类型名称、车辆使用性质、车辆所属性质、新车价格、案发时车龄、购车日期、车牌号、注册日期、发动机号等属性。
(5)零部件本体及其属性单元。具体包括零部件标识代码、零部件名称、单价、工时类型、案件工时标识代码。
(6)案件本体及其属性单元。具体包括案件号、被保险人身份证号、驾驶员身份证号、查勘员标识代码、定损员标识代码、联系人身份证号、报案人身份证号、保单号、案件节点、事故地址、省份、城市、乡镇、修理厂代码、定损地址、是否指定区域行驶、定损时间、报案时间、道路类型、报案电话、是否现场报案、案件描述、责任代码、责任名称、赔付类型、是否互碰自赔、事故原因名称、是否人伤、是否物伤、查勘时间、查勘描述、估损金额、第三者责任名称、维修零部件标识代码、维修零部件数量(和维修零部件标识代码对应)、维修零部件总价(和维修零部件标识代码对应)、是否人工、查勘地址、查勘时间。
根据案件号依次整理相关字段。若有多个字段表示同一属性值,则需要挑选一个信息量最大的字段作为属性字段。最终整理之后形成数据库表格到具体实体属性映射文件。然后将文件中数据转化为图数据节点和图数据关系。
知识图谱关系图包含实体节点和实体关联关系。实体节点e={E,a},其中E∈ε是实体类型,ε={E1,E2,E3,...,En}是n个本体种类的集合,a是单个实体的具体属性。实体关联关系是三元组{e1,r,e2},其中e1,e2是具体实体,r∈δ是实体与实体间关系,δ={R1,R2,R3,...,Rm}是m个实体与实体之间关系的集合。知识图谱关系图中的实体节点为全量实体节点。
3.子图关键节点筛选模块
该模块用于删除知识图谱关系图中连接度小于连接度阈值的节点和没有连接案件的节点,并以报案人和修理厂为中心,将知识图谱关系图划分为子图,这些子图为关键子图。关键子图g={E,R},其中E是单个实体节点集合,R是实体节点集合E中实体节点相互之间的关联关系。作为其中一种实施方式,综合常规的车险理赔案件涉及的因素,将连接点阈值设置为5。所得关键子图即为高风险欺诈子图。下一步通过图点集向量化模块得到的关键子图点集向量即为高风险欺诈特征值。
4.图点集向量化模块
该模块用于根据RotatE、TransE、TransH、TransR、TransD模型将所述关键子图进行向量化,将图g′={E′,R′}中的单个实体节点根据其相关关系R″转化为向量v={V1,V2,V3,...,Vp},其中向量v维数p为确定值。得到每个关键子图中每个案件对应的5个高风险欺诈特征值。其中:
RotatE:将每个关系定义为在复矢量空间中从源实体到目标实体的旋转。
TransE:核心思想源于word2vec训练出的词向量在向量空间中存在的平移不变性质。
TransH:认为实体在不同关系下应当拥有不同的表示,并进一步提出每个关系都对应一个超平面。
TransR:认为不同的关系拥有不同的语义空间。
TransD:为实体与关系分别设置了投影向量,并通过投影向量构建投影矩阵,既使得投影矩阵考虑到了头尾实体的影响,又控制了参数规模。
整合向量化图点集,根据不同案件属性加入索引,为案件间高欺诈风险筛选模型提供图点集向量化特征。
5.案件间高欺诈风险筛选模型
该模型可以采用二分类模型,该实施例中,优选XGB:全称是eXtreme GradientBoosting。XGB机器学习中最常用的非线性监督学习方法之一,特点是高效、灵活、轻便。这个模型包括了高效的线性模型和树学习算法,支持不同的函数,包括分类、排序和回归。它是梯度提升框架的一种高效且可扩展的实现和优化。正则化模型用于控制模型的复杂度,使学习模型更简单,避免过拟合。相比GBDT,XGB运用损失函数的二阶泰勒展开XGB的目标函数是:
其中
因此
其中Ω(ft)是正则项,防止模型过拟合。
XGB模型用泰勒展开来原来的目标函数,在优化目标函数时可以使用二阶导的信息。
把每个案件的5个特征值以及该案件在关系型数据库中存储的相关信息输入该模型中,模型输出单个案件的风险值。输入到训练后的案件间高欺诈风险筛选模型中的信息需为布尔型或数字型特征。如果在关系型数据库中存储的数据类型为类别型数据,则需要使用One-Hot编码方法将类别型数据转化为数字型特征。
6.调用关联案件返回模块
该模块用于根据案件的风险值,从关系型数据库中调取案件,将案件的案件号和风险值返回给用户。
如图1所示,本发明公开一种基于知识图谱的车险理赔欺诈风险识别方法,该方法模型训练过程和案件风险实时识别过程;
其中,训练过程包括如下步骤:
步骤一:将历史车险案件按照车险反欺诈本体进行分类整理,所述车险反欺诈本体包括人员本体及其属性单元、机构本体及其属性单元、保单本体及其属性单元、车辆本体及其属性单元、零部件本体及其属性单元、案件本体及其属性单元;
步骤二:根据整理后车险案件的数据建立知识图谱关系图;所述知识图谱关系图中包括各个实体和实体关联关系,每个实体为一个节点;
步骤三:从所述知识图谱关系图首先删除连接度小于预设的连接度阈值的节点,然后再删除那些与案件没建立连接的节点;
步骤四:以报案人和修理厂为中心,将所述历史知识图谱关系图进行划分,形成若干个关键子图,每个关键子图对应多个案件;
步骤五:根据RotatE、TransE、TransH、TransR、TransD模型将所述关键子图进行向量化,得到每个关键子图中每个案件对应的5个特征值;
步骤六:将每个历史车险案件的对应的5个特征值和该案件在关系型数据库中存储的相关信息,以及每个车险案件是否为欺诈案件的标签,输入案件间高欺诈风险筛选模型中,对模型进行训练,得到优化后的案件间高欺诈风险筛选模型。所述案件间高欺诈风险筛选模型为二分类模型。
案件风险实时识别过程包括:
(1)将实时车险案件也按照车险反欺诈本体进行分类整理,然后将整理后的案件数据加入所述知识图谱关系图中,若所述知识图谱关系图中已有相同节点,则直接使用该节点,并为该节点添加新案件的实体关联关系;若所述知识图谱关系图中没有相同节点,则先创建新节点,并为新节点添加新案件的实体关联关系;
(2)采用RotatE、TransE、TransH、TransR、TransD模型对新创建的节点和/或实体关联关系进行向量化,得到新案件对应的5个特征值;
(3)将新案件对应的5个特征值以及该案件分类整理后的相关信息输入优化后的案件间高欺诈风险筛选模型中,模型输出该案件的风险值。
下面给出一个本发明的方法和系统的一个具体实施例。在该实施例中,车险数据集中有9175个案件,其中2129个案件标记为欺诈案件,案件欺诈率为23.20%。
在实际业务场景中,保险公司会使用模型评估单个案件风险值,对风险较高的案件采用人工调查的方式确定案件是否是欺诈案件。考虑到人工调查每个案件均有一定成本,保险公司希望人工参与调查的案件欺诈率越高越好,一般保险公司的案件抽调率在1%——5%之间。使用本发明的案件间高欺诈风险筛选模型(XGB模型加上图点集向量化特征)从车险数据集中的9175个案件中抽取了288个高风险案件,案件抽调率为3.14%,其中有117个被标记为欺诈的案件,案件欺诈率为40.63%,比数据集的整体案件欺诈率23.20%有显著的提高。
为了能够评价不同算法的优劣,在Precision和Recall的基础上提出了F1值的概念,来对Precision和Recall进行整体评价。F1的定义如下:
F1值=正确率*召回率*2/(正确率+召回率)
如表1所示,给出了使用单个特征值与XGB模型结合,得到的AUC值、准确率、精确率、找回率和F1值。从表1中可以看出,仅仅使用XGB模型,不使用图点集向量化特征,得到的F1值仅为0.295。而单独使用RotatE、TransE、TransH、TransR、TransD特征中的任意一个,F1值均得到提高。而同时使用RotatE、TransE、TransH、TransR、TransD特征,F1值达到0.468,提升较为明显。
为了进一步证明本发明的方法的优越性,选用不同的二分法模型,如支持向量机模型、神经网络模型分别结合RotatE、TransE、TransH、TransR、TransD单个特征或者全部特征进行计算,结果如表2和表3所示。通过对比表1~表3,发现本发明使用的XGB模型结合RotatE、TransE、TransH、TransR、TransD全部特征,F1值最高。
表1图点集向量化特征加入XGBoost模型中各项评价指标表
模型名称 | AUC值 | 准确率 | 精确率 | 召回率 | F1值 |
不使用特征 | 0.576 | 0.779 | 0.520 | 0.206 | 0.295 |
使用RotatE特征 | 0.636 | 0.807 | 0.640 | 0.324 | 0.430 |
使用TransE特征 | 0.616 | 0.793 | 0.573 | 0.295 | 0.389 |
使用TransH特征 | 0.607 | 0.792 | 0.575 | 0.271 | 0.368 |
使用TransR特征 | 0.604 | 0.792 | 0.577 | 0.263 | 0.362 |
使用TransD特征 | 0.616 | 0.794 | 0.579 | 0.295 | 0.391 |
使用全部特征 | 0.654 | 0.820 | 0.692 | 0.354 | 0.468 |
表2图点集向量化特征加入支持向量机模型中各项评价指标表
模型名称 | AUC值 | 准确率 | 精确率 | 召回率 | F1值 |
不使用特征 | 0.539 | 0.772 | 0.465 | 0.116 | 0.186 |
使用RotatE特征 | 0.605 | 0.766 | 0.466 | 0.312 | 0.374 |
使用TransE特征 | 0.585 | 0.780 | 0.520 | 0.232 | 0.321 |
使用TransH特征 | 0.557 | 0.767 | 0.448 | 0.177 | 0.254 |
使用TransR特征 | 0.561 | 0.772 | 0.479 | 0.177 | 0.258 |
使用TransD特征 | 0.587 | 0.773 | 0.487 | 0.251 | 0.332 |
使用全部特征 | 0.626 | 0.774 | 0.496 | 0.354 | 0.413 |
表3图点集向量化特征加入神经网络模型中各项评价指标表
模型名称 | AUC值 | 准确率 | 精确率 | 召回率 | F1值 |
不使用特征 | 0.513 | 0.721 | 0.263 | 0.136 | 0.179 |
使用RotatE特征 | 0.539 | 0.287 | 0.239 | 0.994 | 0.385 |
使用TransE特征 | 0.539 | 0.655 | 0.275 | 0.328 | 0.299 |
使用TransH特征 | 0.509 | 0.237 | 0.227 | 1.000 | 0.370 |
使用TransR特征 | 0.541 | 0.582 | 0.260 | 0.466 | 0.333 |
使用TransD特征 | 0.538 | 0.581 | 0.257 | 0.460 | 0.330 |
使用全部特征 | 0.591 | 0.497 | 0.275 | 0.760 | 0.404 |
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (6)
1.一种基于知识图谱的车险理赔欺诈风险识别方法,其特征在于,该方法包括如下步骤:
步骤一:将历史车险案件按照车险反欺诈本体进行分类整理,所述车险反欺诈本体包括人员本体及其属性单元、机构本体及其属性单元、保单本体及其属性单元、车辆本体及其属性单元、零部件本体及其属性单元、案件本体及其属性单元;
步骤二:根据整理后历史车险案件的数据建立知识图谱关系图;所述知识图谱关系图中包括各个实体和实体关联关系,每个实体为一个节点;
步骤三:从所述知识图谱关系图删除连接度小于预设的连接度阈值的节点,再删除那些与案件没建立连接的节点;
步骤四:以报案人和修理厂为中心,将知识图谱关系图进行划分,形成若干个关键子图,每个关键子图对应多个案件;
步骤五:根据RotatE、TransE、TransH、TransR、TransD模型将所述关键子图进行向量化,得到每个关键子图中每个案件对应的5个特征值;
步骤六:利用每个案件的对应的5个特征值和该案件在关系型数据库中存储的相关信息,以及每个车险案件是否为欺诈案件的标签,对案件间高欺诈风险筛选模型进行训练,得到训练后的案件间高欺诈风险筛选模型;
步骤七:将待识别的车险案件按照所述车险反欺诈本体进行分类整理,并将整理后的案件数据加入所述知识图谱关系图中;采用RotatE、TransE、TransH、TransR、TransD模型对待识别车险案件对应的节点和实体关联关系进行向量化,得到该案件对应的5个特征值;然后将该案件的信息和5个特征值输入训练后的案件间高欺诈风险筛选模型,模型输出待识别车险案件的风险值。
2.根据权利要求1所述的基于知识图谱的车险理赔欺诈风险识别方法,其特征在于,所述案件间高欺诈风险筛选模型为XGB模型。
3.根据权利要求1所述的基于知识图谱的车险理赔欺诈风险识别方法,其特征在于,输入到训练后的案件间高欺诈风险筛选模型中的信息需为布尔型或数字型特征。
4.根据权利要求1所述的基于知识图谱的车险理赔欺诈风险识别方法,其特征在于,所述连接度阈值为5。
5.一种基于知识图谱的车险理赔欺诈风险识别系统,其特征在于,该系统包括:
关系型数据库,用于存储车险理赔案件相关信息;
车险反欺诈本体提取模块,用于将车险理赔案件相关信息按照车险反欺诈本体进行分类整理,并根据车险理赔案件中的各个实体和实体关联关系创建知识图谱关系图,每个实体在知识图谱关系图为一个节点;所述车险反欺诈本体包括人员本体及其属性单元、机构本体及其属性单元、保单本体及其属性单元、车辆本体及其属性单元、零部件本体及其属性单元、案件本体及其属性单元;
子图关键节点筛选模块,用于删除知识图谱关系图中连接度小于连接度阈值的节点和没有连接案件的节点,并以报案人和修理厂为中心,将知识图谱关系图划分为子图,这些子图为关键子图;
图点集向量化模块,用于根据RotatE、TransE、TransH、TransR、TransD模型将所述关键子图进行向量化,得到每个关键子图中每个案件对应的5个高风险欺诈特征值;
案件间高欺诈风险筛选模型,用于根据每个案件的5个高风险欺诈特征值以及该案件在关系型数据库中存储的相关信息,输出单个案件的风险值。
6.根据权利要求5所述的基于知识图谱的车险理赔欺诈风险识别系统,其特征在于,该系统还包括关联案件返回模块,用于根据所述案件的风险值,从所述关系型数据库中调取案件,将案件的案件号和风险值返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085743.XA CN113837886B (zh) | 2021-09-16 | 2021-09-16 | 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111085743.XA CN113837886B (zh) | 2021-09-16 | 2021-09-16 | 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837886A true CN113837886A (zh) | 2021-12-24 |
CN113837886B CN113837886B (zh) | 2024-05-31 |
Family
ID=78959489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111085743.XA Active CN113837886B (zh) | 2021-09-16 | 2021-09-16 | 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837886B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418780A (zh) * | 2022-03-11 | 2022-04-29 | 太平金融科技服务(上海)有限公司深圳分公司 | 欺诈团伙识别方法、装置、计算机设备和存储介质 |
CN116150341A (zh) * | 2023-04-23 | 2023-05-23 | 之江实验室 | 理赔事件检测方法、计算机设备和存储介质 |
CN117523683A (zh) * | 2024-01-05 | 2024-02-06 | 湖北微模式科技发展有限公司 | 一种基于生物特征识别的欺诈视频检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919783A (zh) * | 2019-01-31 | 2019-06-21 | 德联易控科技(北京)有限公司 | 车险理赔案件的风险识别方法、装置、设备及存储介质 |
WO2019149021A1 (zh) * | 2018-02-01 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 理赔业务的数据处理方法、装置、电子设备、服务器 |
CN110706118A (zh) * | 2019-09-09 | 2020-01-17 | 中国平安财产保险股份有限公司 | 基于数据分析的风险案件筛选方法及相关设备 |
CN110717824A (zh) * | 2019-10-17 | 2020-01-21 | 北京明略软件系统有限公司 | 基于知识图谱的银行对公客群风险传导测算的方法及装置 |
CN111104522A (zh) * | 2019-12-20 | 2020-05-05 | 武汉理工大学 | 一种基于知识图谱的区域产业关联效应趋势预测方法 |
CN111160745A (zh) * | 2019-12-23 | 2020-05-15 | 中国建设银行股份有限公司 | 用户账户数据的处理方法及装置 |
CN111242315A (zh) * | 2020-01-08 | 2020-06-05 | 中保车服科技服务股份有限公司 | 车险人伤反欺诈方法、装置、计算机设备及存储介质 |
CN111639193A (zh) * | 2020-05-27 | 2020-09-08 | 上海明略人工智能(集团)有限公司 | 产品风险评估方法及装置、电子设备、存储介质 |
CN112182245A (zh) * | 2020-09-28 | 2021-01-05 | 中国科学院计算技术研究所 | 一种知识图谱嵌入模型的训练方法、系统和电子设备 |
CN112215500A (zh) * | 2020-10-15 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 账号关系识别方法及装置 |
-
2021
- 2021-09-16 CN CN202111085743.XA patent/CN113837886B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019149021A1 (zh) * | 2018-02-01 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 理赔业务的数据处理方法、装置、电子设备、服务器 |
CN109919783A (zh) * | 2019-01-31 | 2019-06-21 | 德联易控科技(北京)有限公司 | 车险理赔案件的风险识别方法、装置、设备及存储介质 |
CN110706118A (zh) * | 2019-09-09 | 2020-01-17 | 中国平安财产保险股份有限公司 | 基于数据分析的风险案件筛选方法及相关设备 |
CN110717824A (zh) * | 2019-10-17 | 2020-01-21 | 北京明略软件系统有限公司 | 基于知识图谱的银行对公客群风险传导测算的方法及装置 |
CN111104522A (zh) * | 2019-12-20 | 2020-05-05 | 武汉理工大学 | 一种基于知识图谱的区域产业关联效应趋势预测方法 |
CN111160745A (zh) * | 2019-12-23 | 2020-05-15 | 中国建设银行股份有限公司 | 用户账户数据的处理方法及装置 |
CN111242315A (zh) * | 2020-01-08 | 2020-06-05 | 中保车服科技服务股份有限公司 | 车险人伤反欺诈方法、装置、计算机设备及存储介质 |
CN111639193A (zh) * | 2020-05-27 | 2020-09-08 | 上海明略人工智能(集团)有限公司 | 产品风险评估方法及装置、电子设备、存储介质 |
CN112182245A (zh) * | 2020-09-28 | 2021-01-05 | 中国科学院计算技术研究所 | 一种知识图谱嵌入模型的训练方法、系统和电子设备 |
CN112215500A (zh) * | 2020-10-15 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 账号关系识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
ZHU, QIANNAN等: "Learning Knowledge Graph Embeddings via Generalized Hyperplanes", 《LECTURE NOTES IN ARTIFICIAL INTELLIGENCE》, 12 June 2018 (2018-06-12) * |
姚思雨等: "规则引导的知识图谱联合嵌入方法", 《计算机研究与发展》, 31 December 2020 (2020-12-31) * |
邢巍;余锦河;曹肖悦;江帆;: "基于数据分析的业务风险防控研究", 现代商业, no. 09, 28 March 2020 (2020-03-28) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418780A (zh) * | 2022-03-11 | 2022-04-29 | 太平金融科技服务(上海)有限公司深圳分公司 | 欺诈团伙识别方法、装置、计算机设备和存储介质 |
CN116150341A (zh) * | 2023-04-23 | 2023-05-23 | 之江实验室 | 理赔事件检测方法、计算机设备和存储介质 |
CN117523683A (zh) * | 2024-01-05 | 2024-02-06 | 湖北微模式科技发展有限公司 | 一种基于生物特征识别的欺诈视频检测方法 |
CN117523683B (zh) * | 2024-01-05 | 2024-03-29 | 湖北微模式科技发展有限公司 | 一种基于生物特征识别的欺诈视频检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113837886B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837886B (zh) | 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 | |
CN110383319B (zh) | 大规模异构数据摄取和用户解析 | |
CN107657267B (zh) | 产品潜在用户挖掘方法及装置 | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
JP2020115346A (ja) | Aiドリブン・トランザクション管理システム | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
Gardner et al. | Driving with data: Modeling and forecasting vehicle fleet maintenance in Detroit | |
CN111784495A (zh) | 担保圈识别方法、装置、计算机设备和存储介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN111402068A (zh) | 基于大数据的保费数据分析方法、装置及存储介质 | |
CN115809930A (zh) | 基于数据融合匹配的反欺诈分析方法、装置、设备及介质 | |
CN115081447A (zh) | 软件开发的需求文档构建方法、装置、设备及存储介质 | |
CN114331728A (zh) | 一种证券分析管理系统 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
Chen et al. | A spatial–temporal graph-based AI model for truck loan default prediction using large-scale GPS trajectory data | |
CN111445028B (zh) | Ai驱动的交易管理系统 | |
CN116578613B (zh) | 一种用于大数据分析的数据挖掘系统 | |
CN114492308B (zh) | 一种结合知识发现与文本挖掘的产业信息标引方法和系统 | |
CN117078441B (zh) | 理赔欺诈识别方法、装置、计算机设备和存储介质 | |
Chaudhary et al. | Intelligent Lender–Prediction of Loan Applicant Credibility Based on the Machine Learning Model | |
Wang | Check for Preprocessing and Feature Extraction Methods for Microfinance Overdue Data Jiahao Wang, Liang Zhang', Peiyi Shen 2 and Yuhuai Zhang² | |
CN115293792A (zh) | 一种提高商户拓展成功率的筛选系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |