CN114140025A

CN114140025A - 面向多模态数据的车险欺诈行为预测系统、方法和装置

Info

Publication number: CN114140025A
Application number: CN202111520083.3A
Authority: CN
Inventors: 杨佳熹; 那崇宁; 董今妮
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-04

Abstract

本发明公开了一种面向多模态数据的车险欺诈行为预测系统、方法和装置，本发明从图片数据中抽取风险因子后，与对应结构化数据字段相结合，基于特征工程，机器学习，深度学习等算法，构建车险欺诈风险预测模型，对有风险的行为进行预警。在预测之后，对图片因子进行风险评估和重要性排序，对存在高风险，高权重的因子进行可视化表达。该方法可有效辅助人工进行风险评估，并利用不同种类图片的数据，实现模型和预测结果的可视化因果关系表达。本发明方法利用计算机视觉算法，对某些难以利用的图片数据进行因子抽取，并借助因子分析，因果推论等算法，对预测模型和结果进行可视化展示。

Description

面向多模态数据的车险欺诈行为预测系统、方法和装置

技术领域

本发明涉及识别保险欺诈的领域，尤其涉及一种面向多模态数据的车险欺诈行为预测系统、方法和装置。

背景技术

随着保险欺诈案件的频率和损失也逐年上升，保险欺诈的形势也日趋严峻，保险欺诈行为的检测有重要意义。因此，针对调查员，驾驶员，汽车修理厂等图片信息进行重识别具有较大的意义。

现有计算机识别技术在车辆保险业的应用，大多针对于保险的定损，现场的记录，少有直接根据多种图片信息对车险欺诈进行风险因子提取的应用。绝大部分根据照片判断欺诈行为是由人工的方式来完成的。对于事故现场生成的图片，文字等信息，现有技术只用于对当下的车辆，驾驶员等信息进行即时处理，并未综合保险流程的各个阶段进行统一分析和风险因子提取。对于现有的预测是否案件为欺诈案件的机器学习和深度学习模型，其并未综合运用多模态数据（文本，单证，照片等）进行建模，导致关键信息的低效利用和缺失，且一般不具备可解释性，一线从业者往往对模型训练出的结果倾向于更为保守的判断。

发明内容

本发明针对现有技术不足，提出了一种面向多模态数据的车险欺诈行为预测系统、方法和装置。

本发明的目的是通过以下技术方案来实现的：本发明提出了一种面向多模态数据的车险欺诈行为预测系统，包括车险理赔流程图像数据库、车险理赔流程结构化数据库、图像分类存储模块、图像识别模块、因子合并储存模块、车险欺诈风险预测模型和可视化输出模块；

所述车险理赔流程图像数据库用于存储和检索调用在车险理赔流程中采集的图像数据；

所述车险理赔流程结构化数据库用于存储和调用在车险理赔流程中产生的结构化数据；并利用特征工程算法处理结构化数据得到结构化数据的特征因子；

所述图像分类存储算法模块对车险理赔流程中采集的图像进行分类并存储；

所述图像识别模块提取分类图像对应的风险因子，并生成高风险因子的标签，存储为对应的风险因子字段；

所述因子合并储存模块将图像分类算法模块输出的分类图片的风险因子，通过唯一案件号ID与车险理赔流程结构化数据库得到的结构化数据的特征因子进行合并和存储；

所述车险欺诈风险预测模型用于计算车险欺诈的概率，对因子合并储存模块输出的合并后的风险因子和欺诈行为进行因果关系分析；

所述可视化输出模块调用分类图像数据存储模块中的高概率车险欺诈案件对应的经过标注后的图像、结构化数据统计信息、车险欺诈风险预测模型输出的因果关系分析结果，进行可视化输出。

本发明提出了一种应用上述系统的面向多模态数据的车险欺诈行为预测方法，具体包括以下步骤：

（1）采集在车险理赔流程中产生的图像数据及对应案件的结构化数据，并设定唯一的案件号ID，并将采集的图像存储于车险理赔流程图像数据库中，将结构化数据存储于车险理赔流程结构化数据库中；

（2）利用图像分类存储模块对步骤（1）采集的图像数据进行预处理，得到分类图片；

（3）利用深度学习算法，通过图像识别算法模块对步骤（2）得到的多模态分类图片提取对应的风险因子，再进行因子排序，并对高风险因子对应的分类图像数据进行图标注；总结所有的风险因子，得到车险欺诈风险因子；

（4）通过特征工程得到步骤（1）采集的结构化数据的特征因子；利用因子合并储存模块对步骤（3）得到的分类图片对应的风险因子，通过唯一案件号ID与结构化数据对应的特征因子进行合并与存储；

（5）构建车险欺诈风险预测模型，利用车险欺诈风险预测模型计算车险欺诈的概率，对步骤（4）合并得到的因子进行因果关系检验，输出预测结果；

（6）利用可视化输出模块将车险欺诈风险预测模型输出的预测结果，案件对应的分类图片及其风险因子标注进行可视化输出。

一种面向多模态数据的车险欺诈行为预测装置，包括一个或多个处理器，用于实现上述的面向多模态数据的车险欺诈行为预测方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的面向多模态数据的车险欺诈行为预测的方法。

本发明的有益效果为：本发明方法运用了目标检测算法、图像文字信息识别和行人重识别等计算机视觉算法，通过机器学习、特征工程和因果关系分析，利用结构化数据中无法体现的信息，实现了对图像和结构化数据的多模态建模，解决图片数据利用效率较低的问题，对欺诈行为进行预测，为保险从业者提供汽车保险欺诈行为的预警及风险因子的提供直观的可视化展示。

附图说明

图1为本发明提供的一种面向多模态数据的车险欺诈行为预测系统的结构框图；

图2为本发明方法的流程图；

图3为本发明系统的示意图；

图4为目标检测算法结构示意图；

图5为AUC示意图；

图6是本发明另一种面向多模态数据的车险欺诈行为预测装置的结构图。

具体实施方式

下面结合附图与实施例对本发明进一步说明，本发明要求保护的范围包含但不局限于下列实施例所表述的范围。

本发明提供了一种面向多模态数据的车险欺诈行为预测系统，如图1所示，包括车险理赔流程图像数据库、车险理赔流程结构化数据库、图像分类存储模块、图像识别模块、因子合并储存模块、车险欺诈风险预测模型和可视化输出模块。

所述车险理赔流程图像数据库用于存储和检索调用在车险理赔流程中采集的图像数据，所述图像数据与唯一的案件号ID对应；所述图像数据的格式为jpg、png或jpeg等。

所述车险理赔流程结构化数据库用于存储和调用在车险理赔流程中产生的结构化数据，所述结构化数据与唯一的案件号ID对应；并利用特征工程算法处理结构化数据得到结构化数据的特征因子。

所述图像分类模块对车险理赔流程中采集的图像进行分类存储。具体为：将图片分类为车现场图、单证图片和人车合影图片；所述车现场图包括整车图片和车零部件图片；所述单证图片包括驾驶证图片、行驶证图片和发票图片；所述人车合影图片包括勘察员和事故车辆。

所述图像识别算法模块提取分类图像对应的风险因子，进行因子排序，并对高风险因子对应的分类图像数据进行图标注，并自动生成高风险因子的标签，存储为对应的风险因子字段，并对分类图像中文本信息进行提取和储存。

所述因子合并储存模块将图像分类算法模块输出的分类图片的风险因子，通过唯一案件号ID与车险理赔流程结构化数据库得到的结构化数据的特征因子进行合并，存储。

所述车险欺诈风险预测模型用于计算车险欺诈的概率，对车险理赔流程结构化数据库存储的结构化数据的字段、图像识别算法模块产生的风险因子和欺诈行为进行因果关系分析。

所述可视化输出模块将调用分类图像数据存储模块中的高概率车险欺诈案件对应的经过标注后的图像，结构化数据统计信息，以及对于对应案件预测结果的文字描述，其中文字描述包含了因果关系的分析和高风险因子的提示信息，帮助保险从业者对欺诈案件进行预警。

如图3所示，所述可视化输出模块利用深度学习算法学习图像分类算法模块输出的分类图像，输出案件为车险欺诈的概率，结构化数据情况，以及变量的因果关系分析。帮助保险从业者对欺诈案件进行预警。

本发明提供了一种面向多模态数据的车险欺诈行为预测方法，通过计算机视觉技术实现车险图片中风险因子信息的提取；将风险因子与机器学习模型进行整合；模型高风险因子的展示和可视化表达，本发明方法的流程图如图2所示，具体包括以下步骤：

（1）采集在车险理赔流程中产生的图像数据及对应案件的结构化数据，并设定唯一的案件号ID，并将采集的图像存储于车险理赔流程图像数据库中，将结构化数据存储于车险理赔流程结构化数据库中。

（2）利用图像分类算法模块对步骤（1）采集的图像数据进行预处理，得到分类图片。具体为：

为了便于后续的图像识别算法处理，首先通过图片分类算法（如ResNet、ImageNet或NetVLAD等）对步骤（1）采集的图像数据进行预分类并预留储存信息的空间。，将图片分为以下几个类别（见表1），以便于后续算法的处理。将图片分类为车现场图、单证图片和人车合影图片；所述车现场图包括整车图片和车零部件图片；所述单证图片包括驾驶证图片、行驶证图片和发票图片。所述人车合影图片包括勘察员和事故车辆。人车合影图片可以是在事故现场拍摄的，也可以非事故现场拍摄的，如人车合影图片可以是在汽修厂拍摄。由于现场图和零部件图的情况随着案件的不同有很大的区别，同时需要解决神经网络训练过拟合的问题，因此本发明实施例中优选ResNet图片分类算法进行图像的预分类，可以得到良好的分类准确率。

表1：图像预分类

（3）利用深度学习算法通过学习汽车欺诈评估报告和相关文献，总结与欺诈行为高度相关的风险因子；通过图像识别算法模块对步骤（2）得到的多模态分类图片识别对应的风险因子，并对结构化数据进行信息补全。总结所有的风险因子，得到车险欺诈风险因子。所述车险欺诈风险因子包括：从汽车欺诈评估报告和相关文献中提取的和欺诈行为高度相关的风险因子；从车辆现场图中提取的车辆信息及破损信息；从发票、驾驶证、行驶证中提取和事故相关的信息等。具体为：

通过目标检测算法（Yolov5）从步骤（2）得到车现场图以及车零部件图中识别对应的风险因子，图4为目标检测算法分类框图。通过对汽车部位和汽车零部件的人工预标注，利用ResNet或NetVLAD进行对场景信息的识别，实现对汽车零部件的识别，查看同时和破损出现的汽车零部件，由此大致判断出汽车破损的位置。比如：通过图像算法得知汽车的破损和汽车的特征部位，如前灯，后灯，前保险杠，车门等，从而判断出车损的位置，并抽象为结构数据。且通过限定损伤及零部件类别，将识别出的图像信息直接转化为结构化数据。

通过图像文字信息的算法（OCR）从步骤（2）得到的预先分类的维修发票，驾驶证，行驶证等单证图片中提取出风险因子。由于车险理赔流程中产生的照片大多存在过曝，不规范拍照等问题，需要对单证进行一定的旋转，调整，从而得到较好的结果。对于和结构化数据不一致的信息，需要进行人工识别和筛选。由于结构化数据大多来自人工录入，因此对结构化数据也要保持一定的怀疑。接下来，使用NLP算法对于识别出的文本数据向量化，将文本数据转换为结构化数据。

通过行人重识别的算法（ReID识别算法）从步骤（2）得到的预先分类的人车合影图片中提取出风险因子。并将ID类数据变为结构化数据，可后续用于知识图谱等算法进行团伙欺诈识别。

（4）通过特征工程得到步骤（1）采集的结构化数据的特征因子；利用因子合并储存模块对步骤（3）得到的各个分类图片对应的风险因子，通过唯一案件号ID与结构化数据对应的特征因子进行合并与存储。

（5）对图像识别模块提取的分类图像对应的风险因子进行排序，将排序靠前的风险因子作为高风险因子；通过特征工程与深度学习模型（如深度优先搜索算法DFS、XGB模型等）构建车险欺诈风险预测模型，通过该车险欺诈风险预测模型计算车险欺诈的概率，对步骤（4）合并得到的因子进行因果关系检验，并基于高风险因子对应的分类图片对对车险欺诈行为进行预测；同时可对神经网络中的隐性输出层作为因子进行识别，例如卷积神经网络中的池化层产生的向量。

将整体数据集分为80%/20%的比例，其中80%为训练集，20%为预测集，训练模型。模型评价标准如下：

为检验基于自动化特征工程算法的模型性能提升指数，对于二分类问题，根据样本真实类别和对应模型预测结果的组合分为真正例（True Positive, TP）,真负例（TrueNegative, TN），假正例（False Positive, FP），假负例（False Negative, FN），如表2所示。

表2：分类样本混淆矩阵

评估指标主要从精确率、召回率、F1-值、精度、AUC面积大小、逻辑损失5种评估指标来进行度量，以下分别对这5种指标来进行描述。

Precision:又被称为精确率、查准率，是二分类任务中常用于评估模型预测结果是否精确的性能指标。精确率定义为真正例占所有预测结果为正例样本的比值，对应的公式为：

。

Recall:又被称为召回率、查全率，是二分类任务中常用于评估模型预测结果是否完备的性能指标。召回率定义为真正例占所有真实类别为正例样本的比值，对应的公式为：

。

F1-score:又被称为F1度量，它是在精确率和召回率的基础上取调和平均数得到的，对应的公式为：

。

Accuracy:又被称为精度，定义为分类正确的样本占样本总数的比值，对应的公式为：

。

AUC（Area Under ROC Curve）: AUC是二分类任务中用于评估模型泛化性能的指标，它的定义是ROC（Receiver Operating Characteristic）曲线下的区域面积。ROC曲线按照模型的预测结果逐个对样本进行排序，并分别以真正例率和假正例率为纵轴和横轴绘制在二维坐标系上形成一条曲线。其中真正例率（True Positive Rate,TPR）和假正例率(False Positive Rate, FPR)公式为：

。

通常使用曲线下区域面积AUC来进行比较，如图5所示。该性能指标可以在数据不平衡的数据集上进行客观的评估。

在此使用更符合车险欺诈业务的指标，Accuracy精度，作为本发明方法的评判标准。通过模型对测试集中的每个案例进行风险评估，得到每个案件是欺诈案件的概率，从高到低排序，基于整体数据的平均欺诈固定比例进行案件提调。将提调的案件对应的概率进行二分，并将预测标签与真实标签进行比较，预测正确（TP，TN）的比例即为精度。从图像中获取的因子可显著提升预测精度，且让车险欺诈风险预测的解释性大大增强。

（6）如图3所示，利用可视化输出模块将车险欺诈风险预测模型输出的案情描述、因果分析评估结果、概率预测分析，带红色标注框和相应高风险标签信息的案件分类图像和车险理赔流程结构化数据库存储的结构化数据统计信息在可视化界面进行可视化输出；所述可视化界面还包括唯一的案件号ID、高风险因子标注后的分类图像和案件相对应的结构化数据，从而协助保险从业者进行风险评估和欺诈行为判断。

与前述面向多模态数据的车险欺诈行为预测方法的实施例相对应，本发明还提供了面向多模态数据的车险欺诈行为预测装置的实施例。

参见图6，本发明实施例提供的一种面向多模态数据的车险欺诈行为预测装置，包括一个或多个处理器，用于实现上述实施例中的面向多模态数据的车险欺诈行为预测方法。

本发明面向多模态数据的车险欺诈行为预测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明面向多模态数据的车险欺诈行为预测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的面向多模态数据的车险欺诈行为预测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

综上所述，本发明方法运用了目标检测算法、图像文字信息识别和行人重识别等计算机视觉算法，通过机器学习、特征工程和因果关系分析，利用结构化数据中无法体现的信息，实现了对图像和结构化数据的多模态建模，解决图片数据利用效率较低的问题，对欺诈行为进行预测，为保险从业者提供汽车保险欺诈行为的预警及风险因子的提供直观的可视化展示。本发明方法提出了利用多模态数据对欺诈行为进行预测。且通过因果关系分析，将多模态的数据信息进行集中体现，在输出结果的阶段，同时输出案件结构化数据，风险分析，预测结果，以及经过标注处理的案件图片，图片中会用红框标出高风险因素并给出对应的标签。用可视化展示的方式增强了模型的可解释性，为保险从业者提供了便利，提高了使用数据的效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种面向多模态数据的车险欺诈行为预测系统，其特征在于，包括车险理赔流程图像数据库、车险理赔流程结构化数据库、图像分类存储模块、图像识别模块、因子合并储存模块、车险欺诈风险预测模型和可视化输出模块；

2.一种应用权利要求1所述系统的面向多模态数据的车险欺诈行为预测方法，其特征在于，具体包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述步骤（2）具体为首先通过图片分类算法对步骤（1）采集的图像数据进行预分类并预留储存信息的空间；具体将图片分类为车现场图、单证图片和人车合影图片；所述车现场图包括整车图片和车零部件图片；所述单证图片包括驾驶证图片、行驶证图片和发票图片；所述人车合影图片包括勘察员和事故车辆。

4.根据权利要求3所述的方法，其特征在于，所述图片分类算法包括ResNet、ImageNet或NetVLAD中的一种。

5.根据权利要求3所述的方法，其特征在于，所述步骤（3）具体为通过对汽车部位和汽车零部件的人工预标注，通过目标检测算法Yolov5对整车图片和车零部件图片识别，得到汽车破损的位置，得到对应的风险因子，并将识别出的图像信息转化为结构化数据；通过图像文字信息的算法OCR识别单证图片，得到对应的风险因子；通过行人重识别的算法ReID识别人车合影图片，得到对应的风险因子；并对结构化数据进行信息补全。

6.根据权利要求2所述的方法，其特征在于，所述步骤（5）具体为：对图像识别模块提取的分类图像对应的风险因子进行排序，将排序靠前的风险因子作为高风险因子；通过特征工程与深度学习模型构建车险欺诈风险预测模型，通过该车险欺诈风险预测模型计算车险欺诈的概率，对步骤（4）合并得到的因子进行因果关系检验，并基于高风险因子对应的分类图片对对车险欺诈行为进行预测。

7.根据权利要求2所述的方法，其特征在于，所述步骤（6）具体为：利用可视化输出模块将车险欺诈风险预测模型输出的案情描述、因果分析评估结果、概率预测分析，高风险因子标注后的分类图像在可视化界面进行可视化输出；可视化界面还包括唯一的案件号ID、高风险因子标注后的分类图像和案件相对应的结构化数据，从而协助保险从业者进行风险评估和欺诈行为判断。

8.一种面向多模态数据的车险欺诈行为预测装置，其特征在于，包括一个或多个处理器，用于实现权利要求2-7中任一项所述的面向多模态数据的车险欺诈行为预测方法。

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求2-7中任一项所述的面向多模态数据的车险欺诈行为预测方法。