CN114462553B - 一种面向车险反欺诈的图像标注及要素抽取方法与系统 - Google Patents
一种面向车险反欺诈的图像标注及要素抽取方法与系统 Download PDFInfo
- Publication number
- CN114462553B CN114462553B CN202210376689.2A CN202210376689A CN114462553B CN 114462553 B CN114462553 B CN 114462553B CN 202210376689 A CN202210376689 A CN 202210376689A CN 114462553 B CN114462553 B CN 114462553B
- Authority
- CN
- China
- Prior art keywords
- image
- insurance
- vehicle
- car
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向车险反欺诈的图像标注及要素抽取方法与系统,本发明方法针对车险现场采集,事后补充图片等图像进行反欺诈要素提取。本发明系统包括:车险要素表构建模块,图像采集模块、标注功能模块和要素提取模块,其中标注功能模块包括多标签类别标注模块,车损部位标注模块,人脸标注模块;要素提取模块用于对各个标注数据集进行要素提取。本发明主要聚焦于建立面向车险反欺诈的图像要素标注与提取,使得提取的图像要素更客观,生成可以用于交叉验证车险结构化数据,提高数据质量。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种面向车险反欺诈的图像标注及要素抽取方法与系统。
背景技术
同时,随着金融保险行业信息化的发展,相关业务数据快速增长,如何利用快速增长的数据,特别是较客观的图像数据,进行保险欺诈行为检测,有效打击和震慑反欺诈行为,对车险行业有重要意义。现有智能识别技术在车辆保险业的应用,大多针对于保险的定损,例如中国专利CN113344712A公开了基于图像识别的智能分拣及保险赔付系统,中国专利CN113706513A公开了基于图像检测的车损图像的分析方法等。其次,现有的图像模型较多使用公开数据库,可提取要素种类较少,在反欺诈中的应用价值不大。再次,车险图像数据标注没有针对性,通常仅在预训练模型进行微调时额外加入少量车损特征,使得提取结果包含大量噪声特征,影响反欺诈模型判定。
发明内容
针对现有技术不足,本发明提出了一种面向车险反欺诈的图像标注及要素抽取方法与系统。
为实现上述技术目的,本发明的技术方案为:本发明实施例的第一方面提供了一种面向车险反欺诈的图像标注及要素抽取方法,具体包括以下步骤:
S1,基于欺诈类型,通过设定判定依据提取车险要素以构建车险要素表;
S2,采集车险现场图像,通过图像向量化和设置相似阈值,基于图像相似度度量模型去除相似样本;
S3,根据车险要素表,对去除相似样本的车险现场图像中的车险、车损、人脸分别进行标注,得到车险要素标注数据集、车损要素标注数据集和人员信息标注数据集;
S4,对车险要素标注数据集基于加权多标签提取车险要素,对车损要素标注数据集基于目标检测算法提取车损要素,对人员信息标注数据集基于人脸检测算法进行人脸检测提取人员信息。
进一步地,所述步骤S1具体为:分析包括车险反欺诈案例,对摆放现场,重复索赔,人员偷换,二次碰撞在内的欺诈类型,对其判定依据进行总结,得到基于图像要素反欺诈规则,并以此构建车险要素表;所述车险要素表中的车险要素包括车损面积、车损位置、事故时间、天气、事故类型、车损程度、人脸。
进一步地,所述步骤S2通过图像向量化和设置相似阈值,去除相似样本的过程具体为:使用细粒度车辆分类数据库为图像相似度度量模型的训练集,训练后的模型作为图像向量化的编码器;然后,利用向量化距离计算最远点抽样,通过设置采样数量或者图像相似度阈值,实现样本的距离最大化,以满足采样的车险现场图像的多样性。
进一步地,所述步骤S3具体为:根据车险要素表,利用labelme遍历去除相似样本的的车险现场图像,对包括车辆数目、行驶状态、事故类型、双方、天气、时间、路况的车险要素,包括凹陷、凸起弯折、划蹭、燃烧、玻璃碎裂、爆胎、撕裂、脱落在内的车损要素和人员要素进行标注,得到车险要素标注数据集、车损要素标注数据集和人员信息标注数据集。
进一步地,对车险要素标注数据集基于加权多标签提取车险要素的过程具体为:以基于Imagenet图像库的Efficientnet预训练模型为基础,将车险要素标注数据集作为训练集基于加权多标签进行多标签分类任务精调,得到车险要素。
进一步地,对车损要素标注数据集基于目标检测算法提取车损要素的过程具体为:以基于COCO图像库的Yolo预训练模型为基础,将车损要素标注数据集作为训练集,在车损图像训练库上进行多标签分类任务精调,对车损像素面积进行标准化得到实际车损面积,得到车损要素。
进一步地,对车损框面积进行标准化的过程具体为:解耦车损框包围像素数与拍摄相机和距离相关性,以车轮为侧面照参照物,以车牌为正面照参照物,计算框总像素/单位像素厘米平方得到标准化车损面积;再根据车轮和车牌的实际尺寸,计算单位像素对应面积值。
本发明实施例的第二方面提供了一种面向车险反欺诈的图像标注及要素抽取系统,包括车险要素表构建模块,图像采集模块、标注功能模块和要素提取模块;
所述车险要素表构建模块用于基于欺诈类型,通过设定判定依据提取车险要素构建得到车险要素表;
所述图像采集模块用于收集待标注图像,这些图像来源于保险公司采集的车险现场图像、网上公开的车损图像集和通过道路监控摄像头采集的图像。所述采集的图像还需经过去重复、去相似等预处理;
所述标注功能模块对待标注图像中的车险、车损、人员等信息进行标注,分别得到车险标注数据集、车损标注数据集、人员标注数据集;
所述要素提取模块对车险标注数据集、车损标注数据集、人员标注数据集进行要素提取。
本发明实施例的第三方面提供了一种电子设备,包括存储器和处理器,其中,所述存储器与所述处理器耦接;所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的面向车险反欺诈的图像标注及要素抽取方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的面向车险反欺诈的图像标注及要素抽取方法。
本发明的有益效果为:本发明方法取要素种类较多,在反欺诈中的应用价值较大。再次,车险图像数据标注具有针对性,针对车险案件中的天气、路况、车损部位、人员等信息做出针对性标注,并在预训练模型进行微调时额外加入车损特征,使得提取结果减少噪声影响,为后续反欺诈判定奠定基础。
附图说明
图1为本发明系统框架图;
图2为本发明方法流程图;
图3为车险要素标注示例图;
图4为车部件及车损标注第一示例图;
图5为车部件及车损标注第二示例图;
图6示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明提出的一种面向车险反欺诈的图像标注及要素抽取方法与系统进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明提出了一种面向车险反欺诈的图像标注及要素抽取方法与系统针对车险现场采集,事后补充图片等进行反欺诈要素提取。本发明系统包括车险要素表构建模块,图像采集模块、标注功能模块和要素提取模块。
所述车险要素表构建模块用于基于欺诈类型,通过设定判定依据提取车险要素构建得到车险要素表。
所述图像采集模块用于收集待标注图像,这些图像来源于保险公司采集的车险现场图像、网上公开的车损图像集和通过道路监控摄像头采集的图像。所述采集的图像还需经过去重复、去相似等预处理。
所述标注功能模块对待标注图像中的车险、车损、人员等信息进行标注,包括多标签类别标注模块,车损部位标注模块,人脸标注模块。所述多标签类别标注模块用于对对待标注图像中的天气、时间、路况等车险要素进行标注,得到车险要素标注数据集。所述车损部位标注模块用于对待标注图像中的车损部位进行标注,在车损部位打上位置框,得到车损要素标注数据集。所述人脸标注模块用于对待标注图像中的人员进行标注,对人脸打上位置框,得到人员信息标注数据集。
所述要素提取模块对各个标注数据集进行要素提取,提取得到结构化数据,将该结构化数据加入车险公司的反欺诈系统中,为后续的用于交叉验证和反欺诈预测奠定基础。所述要素提取模块包括车险要素多标签分类模型、车损要素检测模型和人脸重识别模型。所述车险要素多标签分类模型对车险要素标注数据集进行车险要素提取。所述车损要素检测模型对车损要素标注数据集进行车损要素提取。所述人脸重识别模型对人员信息标注数据集进行人员信息提取。
如图1~图2所示,本发明聚焦解决车险现场伪造等相关的欺诈行为,采用一种面向车险反欺诈的图像标注及要素抽取方法,针对车险图像,构建完备的车险图片提取要素表和相应的标注及提取方法。具体步骤如下:
S1,基于欺诈类型,通过设定判定依据提取车险要素以构建车险要素表,补充结构化车险数据的缺失,以增强数据的客观性。
具体地,车险报案数据主要为结构化数据,非结构化数据包括文本数据如案情描述和图像数据如车险现场图像等。车险结构化数据可能因操作人员的疏忽,立场等,存在数据缺失,错误,双方各执一词等问题,为此使用车险现场图像并提取相关特征,可以补充数据的缺失,并增强数据的客观性。
首先,通过分析车险现场伪造案例,针对性地构建一个较为完备的提取要素表,如表1所示,提升图像要素提取功能的价值,可以补充缺失信息和减少歧义数据。其次,通过提出一组标注规则,可以提高图像要素标注的标准化程度,提高标注效率。针对标注数据,通过提出优化了计算量的提取模型,可降低系统的总体成本。
表1:提取要素表
根据车险反欺诈案例分析,欺诈分为几种类型:摆放现场,二次碰撞,虚报盗抢,重复索赔,人员偷换,故意全损等。其中,虚报盗抢可能涉及刑事责任,且难以通过图像确认。故意全损主要手段是使用二手豪华车进行故意损坏并高价索赔,目前应对手段是对投保车辆进行合理估价,减少全损赔偿金额与车辆实际价格的差额,使故意全损无利可图。除以上两类,其他几种欺诈类型均可以借助由图像提取的信息进行判断,本发明实施例对这几种欺诈类型对应的判断依据进行了总结,并构建出待提取要素,如表1所示。其中,现场摆拍和二次碰撞都属于对过去发生的车损进行后期伪造,伪造的现场通常存在可证伪的线索,例如伪造两车碰撞,由于实际两车车损部位和受损程度大概率一致,两车车损位置离地高度差别较大,两车受损程度差别较大的概率非常小。另外,伪造现场的时间,地点也有规律,早晚高峰,车流较大的区域,造假难度和成本较高。重复索赔是指对同一事故多次进行索赔,可以通过车辆车牌号和车损位置重复性进行判断。人员偷换存在于酒驾等事故中,欺诈人利用驾驶员偷换手段实现赔偿,可通过人脸验证方法检测欺诈行为。以上特征是判断是否欺诈的重要要素,本发明实施例以此表为基础进行车险要素图像标注和模型训练。
S2,采集车险现场图像,通过图像向量化和设置相似阈值,基于图像相似度度量模型去除相似样本;具体为:
通过图像采集模块收集待标注图像,这些待标注图像来源于保险公司采集的车险现场图像、网上公开的车损图像集和通过道路监控摄像头采集的图像。所述采集的待标注图像还需经过去重复、去相似等预处理。
所述去重复、去相似等预处理具体方法是使用网上公开的细粒度车辆分类数据库为图像相似度度量模型的训练集,训练后的模型作为图像向量化的编码器,对采集的图像样本进行向量化。然后,利用向量化距离计算最远点抽样,通过设置采样数量或者图像相似度阈值,实现样本的距离最大化,满足后续要素抽取模型对样本多样性的要求。
S3,根据车险要素表,对去除相似样本的车险现场图像中的车险、车损、人脸分别进行标注,得到车险要素标注数据集、车损要素标注数据集和人员信息标注数据集;
通过标注功能模块对待标注图像中的车险、车损、人员等信息进行标注,包括多标签类别标注模块,车损部位标注模块,人脸标注模块。所述多标签类别标注模块用于对对待标注图像中的天气、时间、路况等车险要素进行标注。所述车损部位标注模块用于对待标注图像中的车损部位进行标注,在车损部位打上位置框。所述人脸标注模块用于对待标注图像中的人员进行标注,对人脸打上位置框。
具体地,车险要素标注的过程具体为:后续的车险要素提取任务被视为多标签提取任务,因此使用类别标签进行标注。本发明实施例中,使用labelme工具进行标注,它遍历文件夹读取并显示图片,选择类别标签,标注结果被存储为与对应图片有相同文件名的txt文件。车险要素示例表如下表2所示。
表2:车险要素示例表
具体地,车损要素标注的过程具体为:车损要素提取任务被视为目标检测任务,使用目标物体框进行标注。本发明实施例中标注同样使用labelme工具,它遍历文件夹读取并显示图片,人工分别框选车部件位置和车损位置,并选择部件名和车损类型,具体如下表所示。标注结果被存储为与对应图片有相同文件名的txt或者json文件。车损要素示例表如下表3所示。
表3:车损要素示例表
具体地,人员要素标注的过程具体为:针对车险欺诈中的驾驶员偷换,查勘员伪造等,需抽取人员信息并进行一致性查验。首先,对车险图片进行人员信息标注。人员包括事故双方驾驶员和查勘员,主要提取人脸信息,便于反欺诈系统对照数据库中存储图片进行一致性判断。人员信息提取任务被视为目标检测任务,使用目标物体框进行标注。标注同样使用labelme工具,仅需框选出人脸。标注结果被存储为与对应图片有相同文件名的txt或者json文件。
S4,对标注后的车险现场图像基于加权多标签提取车险要素。
面向图像的车险要素提取的过程具体为:针对车险图像的多标签分类,主要指从文本中提取多种事故要素,例如事故车辆数目,事故类型,事故双方类型,天气,交通情况等。通常对车险图片每种要素的提取被视为一个任务,本发明实施例中提出使用多标签分类器完成要素抽取任务。
本发明实施例以基于Imagenet图像库的Efficientnet预训练模型为基础,在车险图像训练库上进行多标签分类任务精调。首先,以车险事故图片为输入,以Efficientnet预训练模型作为特征提取和编码器。Efficient预训练模型使用囊括上千种类图像的Imagenet数据库为训练集,保证了其对车险图像的适用性。接着,以随机权重替换原模型的全连接层,形成新分类器输出层。然后,将标注的多标签转化为独热(one-hot)格式作为参照标签,并以二分类交叉熵为惩罚函数训练分类器。二分类交叉熵函数如下式:
式中,Loss_bce表示二分类交叉熵,ŷ为预测为1的概率。
上述模型是基础多标签模型,使用上述模型进行车险多标签数据模型训练和预测时,存在标签缺失的情况。例如,原本应有4个标签,预测结果仅有3个标签。原因主要是某些字段的样本分布不均衡,样本稀少的类别难以学习。为此,本发明使用加权方式,提高这些稀疏和困难样本的学习率。多标签惩罚函数为二分类交叉熵,经加权表示如下:
和原二分类交叉熵对照,新惩罚函数增添了a k 和幂函数项。式中,ŷ为预测为1的概率,a k 为第k字段正负样本加权项,定义为负样本数比正样本数;幂函数项对难分样本进行加权,r通常取2,样本越容易区分,惩罚值越低。当单个字段不是二分类而是多分类时,Loss函数形式不变,仅将a k 变定义为a ki ,它表示第k字段第i类正样本统计值与k字段最大类统计值的反比。
最后,车险要素提取模块在测试集上进行效果测试,将提取结果与标注结果进行一致性对比,使用一致性百分比为模型准确度和有效性指标。当测试准确度高于85%时,可认为模型有效,否则需增加标注数据或者通过进一步调整模型参数等方式优化模型。
面向图像的车损部位要素提取的过程具体为:本发明实施例通过目标检测算法(Yolov5)从车险图片中抽取对应的要素。首先,使用基于公开数据库COCO训练的Yolov5模型作为初始模型,对初始YOLO模型在标注的训练集进行模型精调训练。具体地,前80层卷积层模型保持不变,80层以后参数进行随机初始化后进行训练。设定多轮惩罚函数下降阈值为训练结束标志,例如,5轮内惩罚函数下降低于20%时训练结束。接着,使用训练好的模型,实现对汽车零部件的识别。然后,筛选车损位置与其距离最近的汽车零部件,由此大致判断出汽车破损的位置。比如:通过图像算法得知汽车的破损和汽车的特征部位,如前灯,后灯,前保险杠,车门等,从而判断出车损的位置,并抽象为结构数据。最后,对车损框面积进行标准化,即解耦车损框包围像素数与拍摄相机和距离相关性。标准化车损面积表示为:框总像素/参照单位面积,其中参照物为车牌或者车轮。其中侧面照参照物为车轮,正面照参照物为车牌。根据车轮和车牌的实际尺寸,计算单位像素对应面积值,即*厘米2/像素。因为车牌和车辆的尺寸相对固定,例如轿车轮毂大小在15-19寸,车牌尺寸蓝牌为440*140mm,标准化后面积与米制面积近似为某固定比例关系。
人员信息抽取的过程具体为:本发明实施例采用Yolov5方法进行人脸检测,本发明实施例中直接使用公开人脸检测数据库为训练集,或者下载Yolov5人脸检测预训练模型,直接用于人脸检测。人员包括事故双方驾驶员和查勘员。检测出人脸后,利用反欺诈系统进行人脸识别,对照数据库中存储图片进行一致性判断。人脸检测模型经在LFW等数据库上进行预训练。
S5,将车险现场图像输入训练好的模型中,进行车险、车损、人员要素提取,为后续的反欺诈判定奠定基础。车险反欺诈系统作为辅助决策系统,为车险查勘人员过滤欺诈概率较低的案件。当案件被反欺诈系统判定为疑似欺诈时,车险查勘人员需对案件要素进行合规性复核,最终确定案例是否涉嫌欺诈。
实施例1
本发明实施例1以车险现场图像为例,基于车险图像提取要素表,进行图像采样,图像标注,训练模型并使用模型抽取车险要素,车损要素和人员信息等。
首先,构建车险图像提取要素表,需根据车险反欺诈实操专家经验结合图像处理算法研究经验,提炼出精度和反欺诈重要性都较高,且对计算机算力要求较低的图像要素特征。为此,本发明实施例构建的图像要素表仅包含基于图像分类和目标检测算法的特征,对应模型是Efficientnet和Yolov5单独和组合使用的架构,这两种模型符合本发明实施例算力要求较低的标准。
所述的图像采样使用细粒度汽车数据为训练集,训练集为香港中文大学的综合车辆数据库http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/index.html,在此数据库基础上,人工将图像数据合并为多种轿车,suv,皮卡,客车,工程车等。数据合并后,车辆类别之间的区别主要是车辆轮廓,体积,车头车尾形状等。然后,使用Efficientnet进行分类训练。接着,将训练好的模型作为图像向量化编码器,将待标注样本进行向量化。最后,利用最远点方法对向量化样本进行采样,通过设置采样数量,获得最终的待标注图像集。从效果上,采样使得样本数量减少,样本多样性占比增加。
如图3所示,图3为采集的车险现场图像,对该图像进行车险要素标注,示例性地,对该图像标注为:白天|晴|停车场|单车事故|刮蹭|轿车。所述的图像标注在标注客户端完成,标注客户端通常是安装在单体计算机的程序。计算机中同时存储有训练图像集,要素配置文件等。其中,要素配置文件存储任务和要素名称,例如:
{车险要素提取任务:
事故类型:刮蹭,砸伤,碰撞,燃烧,水浸,爆胎,滑坠,倾覆;
时间:白天,晚上;
车辆数目:单车,双车,三车,多车;
...
}
{车损要素提取任务:
车损类型:凹陷,划蹭,燃烧,玻璃碎裂,爆胎,撕裂,脱落,凸起弯折;
车辆部件:前右灯,前左灯,前保险杠,前盖...;
}
所述类别标注,先选择车险要素任务配置文件和图像文件夹。而后,客户端程序自动遍历图像文件,并将其显示在展示框,同时对事故类型,时间等多个任务,以复选框方式显示车险要素名称。标注者根据经验,点选相关车险要素类型,完成标注。标注结果记录为txt等格式,并与图像同名,保存在车险要素标签文件夹。
如图4和图5所示,所述车损要素标注,先选择车损要素任务配置文件和图像文件夹。而后,客户端程序读取图像,并显示在展示框,同时对车损类型和车辆部件等任务,以单选框方式显示车损要素名称。标注者框出目标物体位置,形如[目标中心点x,目标中心点y,目标宽度w,目标高度h],然后在选择区点选车损类型,完成标注。标注结果记录为txt等格式,保存在车损标签文件夹。
所述人物要素标注,与上述车损要素相似,但仅需框出人物,不进行类别选择。标注结果为txt等格式,保存于人物标签文件夹。
针对图像分类问题,有非常多的方法,主要区别在于模型架构以及分类方式等。模型架构例如Resnet,Inceptionnet,VGGNet,MobileNet,Efficientnet等,分类方式包括多类分类,多任务分类,多标签分类等。对于车险要素提取任务,本发明实施例选用基于Efficientnet预训练模型的多标签分类的方法,它的优点是仅需一个模型,且模型参数少,收敛较快,缺点是存在类型缺失。为此,本发明提出了改进惩罚函数的方法,解决预测中类型缺失的问题。所述的Efficientnet在ImageNet数据库进行预训练,然后利用我们标注的车险要素数据集进行精调训练。精调训练时将预训练Efficientnet模型末端的全连接层重置为随机权值,然后,使用改进惩罚函数按照梯度下降方式进行模型整体的权值更新。预训练精调的方法可以大幅缩减训练时间。同时由于模型底层的权值变动较小,模型对于新标注类别未出现的正样本和新标注类别的负样本都有一定的泛化和区分能力,从而保证模型精度。
针对目标检测问题,同样研究较多,包括FastRCNN,SSD,Yolo,MaskCNN等,图像数据库包括VOC2007等。对于车损要素提取任务,本实施例以Yolov5为模型,使用基于COCO训练集的预训练模型,并在此基础上进行精调。COCO训练集是一个比较大的目标检测图像集,包括约30万张图片,对80个种类的物体进行了人工标注。在此基础上训练的Yolo模型,可以提取出图像中较多区分性纹理和轮廓特征。针对我们新标注的车损要素图像,精调Yolo模型时需重置Yolo最高层的全连接层,然后使用Yolo融合位置,置信度和类别的惩罚函数对模型权值进行迭代更新。
当抽取模型训练后,使用模型进行要素抽取。车险要素抽取在用户客户端完成,此客户端可以是单独的移动端APP,也可以是嵌入车险公司车险APP的一个或几项功能模块,或者是服务器端单体计算机程序。
当要素抽取发生在用户移动端时,移动端有拍摄功能,已经完成了车险图像采集,移动端APP载入抽取模型对图像进行车险要素抽取,并显示抽取结果。用户根据反馈结果进行图像重采集或者将抽取的信息传回车险公司数据库服务器。用户可以是驾驶人或者查勘员,查勘员是车损评估相关技术人员,熟悉车险要素,可根据经验复核或者修改提取要素结果。最后,融合车险公司前期已录入相关车辆的结构化数据与当前抽取车险要素,通过反欺诈系统进行欺诈预测。
当要素抽取发生在服务器端时,移动客户端需完成图像采集和图像传输工作,服务器载入模型并进行计算,然后,将抽取结果反馈给用户,用户根据反馈结果进行图像重采集或者审核认同抽取结果与当前车险现场符合。最后,抽取服务器将结果提交到车险公司的数据服务器。
要素抽取客户端还可以具有通信模块,可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述的服务器可以包括保险公司反欺诈系统,也可以包括中间平台服务器。所述的服务器具体的架构上可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式系统的服务器,或者是结合了区块链的服务器。
标准化车损面积计算具体为:为了将像素面积转化为实际面积,使用框总像素/单位像素毫米平方的方法,其中侧面照参照物为车轮,正面照参照物为车牌。车牌和车轮的尺寸相对固定,例如轿车轮毂大小在15-19寸,取车轮均值为17寸,直径为432.0mm,车牌中蓝牌高度为140mm。因此,单位像素对应毫米为140/车牌高度,或者432/车轮高度。标准化后面积与米制面积近似为某固定比例关系。
人脸信息提取方法具体为:人脸检测算法是一种通用方法,已有很多成果,并有公开图像库。本实施例直接使用COCO预训练Yolo模型自带人脸检测功能。需要说明的是,人脸的角度,距离对人脸识别影响较大,因此在人脸采集时,通常有严格要求。比如使用交互框方法采集正向无遮挡人脸等。
与前述面向车险反欺诈的图像标注及要素抽取方法的实施例相对应,本发明还提供了面向车险反欺诈的图像标注及要素抽取装置的实施例。
参见图6,本发明实施例提供的一种面向车险反欺诈的图像标注及要素抽取装置,包括一个或多个处理器,用于实现上述实施例中的面向车险反欺诈的图像标注及要素抽取方法。
本发明面向车险反欺诈的图像标注及要素抽取装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明面向车险反欺诈的图像标注及要素抽取装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的面向车险反欺诈的图像标注及要素抽取方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (8)
1.一种面向车险反欺诈的图像标注及要素抽取方法,其特征在于,具体包括以下步骤:
S1,基于欺诈类型,通过设定判定依据提取车险要素以构建车险要素表;
所述步骤S1具体为:分析车险反欺诈案例,对包括摆放现场,重复索赔,人员偷换,二次碰撞在内的欺诈类型,对其判定依据进行总结,得到基于图像要素反欺诈规则,并以此构建车险要素表;所述车险要素表中的车险要素包括车损面积、车损位置、事故时间、天气、事故类型、车损程度、人脸;
S2,采集车险现场图像,通过图像向量化和设置相似阈值,基于图像相似度度量模型去除相似样本;所述车险现场图像包括保险公司采集的车险现场图像、网上公开的车损图像集和通过道路监控摄像头采集的图像;
S3,根据车险要素表,对去除相似样本的车险现场图像中的车险、车损、人脸分别进行标注,得到车险要素标注数据集、车损要素标注数据集和人员信息标注数据集;
所述步骤S3具体为:根据车险要素表,遍历去除相似样本的车险现场图像,对包括车辆数目、行驶状态、事故类型、双方、天气、时间、路况的车险要素,包括凹陷、凸起弯折、划蹭、燃烧、玻璃碎裂、爆胎、撕裂、脱落在内的车损要素和人员要素进行标注,得到车险要素标注数据集、车损要素标注数据集和人员信息标注数据集;
S4,对车险要素标注数据集基于加权多标签提取车险要素,对车损要素标注数据集基于目标检测算法提取车损要素,对人员信息标注数据集基于人脸检测算法进行人脸检测提取人员信息。
2.根据权利要求1所述的面向车险反欺诈的图像标注及要素抽取方法,其特征在于,所述步骤S2通过图像向量化和设置相似阈值,去除相似样本的过程具体为:使用细粒度车辆分类数据库为图像相似度度量模型的训练集,训练后的模型作为图像向量化的编码器;然后,利用向量化距离计算最远点抽样,通过设置采样数量或者图像相似度阈值,实现样本的距离最大化,以满足采样的车险现场图像的多样性。
3.根据权利要求1所述的面向车险反欺诈的图像标注及要素抽取方法,其特征在于,对车险要素标注数据集基于加权多标签提取车险要素的过程具体为:以基于Imagenet图像库的Efficientnet预训练模型为基础,将车险要素标注数据集作为训练集基于加权多标签进行多标签分类任务精调,得到车险要素。
4.根据权利要求1所述的面向车险反欺诈的图像标注及要素抽取方法,其特征在于,对车损要素标注数据集基于目标检测算法提取车损要素的过程具体为:以基于COCO图像库的Yolo预训练模型为基础,将车损要素标注数据集作为训练集,在车损图像训练库上进行精调训练,对车损像素面积进行标准化得到实际车损面积,得到车损要素。
5.根据权利要求4所述的面向车险反欺诈的图像标注及要素抽取方法,其特征在于,对车损框面积进行标准化的过程具体为:解耦车损框包围像素数与拍摄相机和距离相关性,以车轮为侧面照参照物,以车牌为正面照参照物,计算框总像素/参照物单位面积,得到标准化车损面积;再根据车轮和车牌的实际尺寸,计算单位像素对应面积值。
6.一种面向车险反欺诈的图像标注及要素抽取系统,应用于权利要求1~5任一项所述的面向车险反欺诈的图像标注及要素抽取方法,其特征在于,包括车险要素表构建模块,图像采集模块、标注功能模块和要素提取模块;
所述车险要素表构建模块用于基于欺诈类型,通过设定判定依据提取车险要素构建得到车险要素表;
所述图像采集模块用于收集待标注图像,这些图像来源于保险公司采集的车险现场图像、网上公开的车损图像集和通过道路监控摄像头采集的图像;所述采集的图像还需经过包括去重复、去相似在内的预处理;
所述标注功能模块根据车险要素表对待标注图像中的车险、车损、人员信息进行标注,分别得到车险标注数据集、车损标注数据集、人员标注数据集;
所述要素提取模块对车险标注数据集、车损标注数据集、人员标注数据集进行要素提取。
7.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-5任一项所述的面向车险反欺诈的图像标注及要素抽取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的面向车险反欺诈的图像标注及要素抽取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376689.2A CN114462553B (zh) | 2022-04-12 | 2022-04-12 | 一种面向车险反欺诈的图像标注及要素抽取方法与系统 |
US18/133,515 US20230325934A1 (en) | 2022-04-12 | 2023-04-11 | Method and system of image annotation and element extraction for automobile insurance anti-fraud |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210376689.2A CN114462553B (zh) | 2022-04-12 | 2022-04-12 | 一种面向车险反欺诈的图像标注及要素抽取方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114462553A CN114462553A (zh) | 2022-05-10 |
CN114462553B true CN114462553B (zh) | 2022-07-15 |
Family
ID=81416994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210376689.2A Active CN114462553B (zh) | 2022-04-12 | 2022-04-12 | 一种面向车险反欺诈的图像标注及要素抽取方法与系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230325934A1 (zh) |
CN (1) | CN114462553B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410174B (zh) * | 2022-11-01 | 2023-05-23 | 之江实验室 | 一种两阶段车险反欺诈图像采集质检方法、装置和系统 |
CN115964634B (zh) * | 2022-12-10 | 2024-04-02 | 北京自动化控制设备研究所 | 一种数据标注优化方法 |
CN116543181A (zh) * | 2023-05-10 | 2023-08-04 | 北京微聚智汇科技有限公司 | 一种基于图像背景特征识别的反团伙欺诈方法及系统 |
CN116664112B (zh) * | 2023-07-25 | 2023-11-14 | 凯泰铭科技(北京)有限公司 | 用于车损案件的检修扩损决策方法及系统 |
CN116911882B (zh) * | 2023-09-13 | 2023-11-21 | 国任财产保险股份有限公司 | 一种基于机器学习的保险防欺诈预测方法及系统 |
CN117523369B (zh) * | 2023-11-03 | 2024-09-10 | 长沙银行股份有限公司 | 一种基于图像技术的反欺诈系统及反欺诈方法 |
CN117671329B (zh) * | 2023-11-14 | 2024-06-21 | 平安科技(上海)有限公司 | 基于人工智能的车辆损伤分析方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719188A (zh) * | 2016-01-22 | 2016-06-29 | 平安科技(深圳)有限公司 | 基于多张图片一致性实现保险理赔反欺诈的方法及服务器 |
CN110033608A (zh) * | 2018-12-03 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 车辆损伤检测的处理方法、装置、设备、服务器和系统 |
WO2019212407A1 (en) * | 2018-05-02 | 2019-11-07 | Agency For Science, Technology And Research | A system and method for image retrieval |
CN110502998A (zh) * | 2019-07-23 | 2019-11-26 | 平安科技(深圳)有限公司 | 车辆定损方法、装置、设备和存储介质 |
CN113706513A (zh) * | 2021-08-31 | 2021-11-26 | 深圳壹账通智能科技有限公司 | 基于图像检测的车损图像的分析方法、装置、设备及介质 |
CN114140025A (zh) * | 2021-12-13 | 2022-03-04 | 之江实验室 | 面向多模态数据的车险欺诈行为预测系统、方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458718A (zh) * | 2019-08-09 | 2019-11-15 | 泰康保险集团股份有限公司 | 车险欺诈识别方法、装置、介质及电子设备 |
-
2022
- 2022-04-12 CN CN202210376689.2A patent/CN114462553B/zh active Active
-
2023
- 2023-04-11 US US18/133,515 patent/US20230325934A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719188A (zh) * | 2016-01-22 | 2016-06-29 | 平安科技(深圳)有限公司 | 基于多张图片一致性实现保险理赔反欺诈的方法及服务器 |
WO2019212407A1 (en) * | 2018-05-02 | 2019-11-07 | Agency For Science, Technology And Research | A system and method for image retrieval |
CN110033608A (zh) * | 2018-12-03 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 车辆损伤检测的处理方法、装置、设备、服务器和系统 |
CN110502998A (zh) * | 2019-07-23 | 2019-11-26 | 平安科技(深圳)有限公司 | 车辆定损方法、装置、设备和存储介质 |
CN113706513A (zh) * | 2021-08-31 | 2021-11-26 | 深圳壹账通智能科技有限公司 | 基于图像检测的车损图像的分析方法、装置、设备及介质 |
CN114140025A (zh) * | 2021-12-13 | 2022-03-04 | 之江实验室 | 面向多模态数据的车险欺诈行为预测系统、方法和装置 |
Non-Patent Citations (4)
Title |
---|
Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision;Milagros Miceli 等;《Proceedings of the ACM on Human-Computer Interaction》;20201015;全文 * |
基于蚁群算法优化随机森林模型的汽车保险欺诈识别研究;闫春等;《保险研究》;20170620(第06期);全文 * |
机器学习模型在车险欺诈检测的研究进展;卢冰洁 等;《计算机工程与应用》;20211116;全文 * |
汽车保险理赔中的欺诈与防范;白玉;《常州工学院学报》;20180628(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20230325934A1 (en) | 2023-10-12 |
CN114462553A (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462553B (zh) | 一种面向车险反欺诈的图像标注及要素抽取方法与系统 | |
CN107784587B (zh) | 一种驾驶行为评价系统 | |
US8447112B2 (en) | Method for automatic license plate recognition using adaptive feature set | |
CN108197326A (zh) | 一种车辆检索方法及装置、电子设备、存储介质 | |
CN111291812B (zh) | 属性类别的获取方法及装置、存储介质、电子装置 | |
US20230289887A1 (en) | Optical Fraud Detector for Automated Detection Of Fraud In Digital Imaginary-Based Automobile Claims, Automated Damage Recognition, and Method Thereof | |
TW201039247A (en) | Method for image recombination of multiple images and identifying image and system for identifying image and outputting identification result | |
CN107886731A (zh) | 一种非法营运车辆智能检测方法 | |
CN110532855A (zh) | 基于深度学习的自然场景证件图像文字识别方法 | |
CN115810134B (zh) | 一种车险反欺诈的图像采集质检方法、系统和装置 | |
CN110378254B (zh) | 车损图像修改痕迹的识别方法、系统、电子设备及存储介质 | |
CN110852358A (zh) | 一种基于深度学习的车辆类型判别方法 | |
CN107463941A (zh) | 一种车主身份识别方法及装置 | |
CN113077182B (zh) | 一种车辆维保异常监测系统及方法 | |
CN114140025A (zh) | 面向多模态数据的车险欺诈行为预测系统、方法和装置 | |
CN117746117A (zh) | 变体图像识别及其模型训练方法、及电子设备 | |
CN117253217A (zh) | 一种充电站车辆识别方法、装置、电子设备及存储介质 | |
CN115713399B (zh) | 一种结合第三方数据源的用户信用评估系统 | |
CN116541786A (zh) | 基于驾驶行为的网约车识别方法、装置及系统 | |
CN114187476A (zh) | 基于图像分析的车险信息核对方法、装置、设备及介质 | |
CN111931680A (zh) | 一种基于多尺度的车辆重识别方法及系统 | |
CN112633163A (zh) | 一种基于机器学习算法实现非法运营车辆检测的检测方法 | |
CN111709720A (zh) | 一种基于大数据的车辆年检自动识别方法及系统 | |
Findley et al. | Effects of license plate attributes on automatic license plate recognition | |
CN112258315B (zh) | 基于身份标签的车贷贷前数据检验方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |