CN108885700A

CN108885700A - 数据集半自动标记

Info

Publication number: CN108885700A
Application number: CN201680070416.8A
Authority: CN
Inventors: 亚历山大·戴利克; 拉兹万·雷卡; 罗伯特·霍根; 纳撒尼尔·约翰·麦卡雷·帕克; 肯·查菲尔德
Original assignee: Kawashina Tokubo Ltd
Current assignee: Kawashina Tokubo Ltd; Tractable Ltd
Priority date: 2015-10-02
Filing date: 2016-10-03
Publication date: 2018-11-23
Also published as: JP2018537798A; WO2017055878A1; AU2016332947B2; KR20180118596A; AU2022202268A1; JP2022091875A; GB201517462D0; JP7048499B2; US20180300576A1; EP3357002A1; AU2016332947A1

Abstract

机器学习模型对未标记或部分标记的目标数据集进行模型化处理来分类(或回归)。机器学习模型对目标数据集进行处理；准备目标数据集的子集呈现给用户进行标记或标签验证；接收标签验证或用户重做的标签或用户对子集做的标签；并且机器学习模型重新处理更新的目标数据集。用户标记或标签验证与利用机器学习模型对未分类或部分分类的目标数据集进行模型化处理相结合提高了对目标数据集中的未标记元件进行标记的效率。

Description

数据集半自动标记

技术领域

本发明涉及一种数据集的数据的分类(或回归)。特别地，本发明涉及将标签分配给一个或多个数据集内的数据，以增强机器学习技术在一个或多个数据集的应用。本发明还涉及一种在数据分类(或回归)过程中的计算机辅助质量控制方法，以及一种对一个或多个数据集内的数据进行半自动标记的方法。

背景技术

在用于分类(或回归)的监督学习算法的应用中，首先，训练数据需要被正确标记，即需要将因变量正确地分配给训练数据的每个数据点。监督学习算法是一种回归或分类技术，其中因变量的值是已知的并且被假定是正确的。因变量是正在被学习的变量，在分类情况下是离散的，在回归情况下是连续的，分类中也称为标记或标签。训练数据的因变量的值可以通过经验丰富的人基于他/她对因变量的真实值的观点而做出的手动注释获得，或者通过真实值本身获得，或通过其他方式输出的真实值的记录获得。

例如，在地质学应用中，训练集可能是一组三维地震扫描，数据点将是扫描中的体素，因变量将是体素所代表的空间点的资源禀赋的指标，这个真实值可能是通过钻井或勘探发现的。

在法律应用中，训练集可能是一组历史诉讼案件，数据点将是代表一个诉讼案件的文件集合，因变量的真实值将是案件中对被告而言的实际财务后果。然后完全标记的数据用于训练一个或多个监督型学习算法。

在许多例子中，有必要由经验丰富的人对各个数据点添加标签来生成训练数据。准备这些训练数据(即对数据正确分类)可能非常耗费人力、成本高且不方便，尤其是训练数据的数量大且预准备的数据质量不高时。传统的交互式标记方法的计算成本很高，并且难以产生良好的结果。

在传统的车险理赔及维修估算中，图像是在标准化条件(例如照明、角度、焦距、背景)及受控环境下拍摄的。为了提供受控环境下的图像，专用场所需要设置专用特殊设备，需要评估的车辆被运送到这些专用场所，这会是成本高且不方便。

发明内容

各方面和/或实施例可以提供一种能够高效地对一个或多个数据集内的数据进行标记的方法或/和系统。

此外，各方面和/或实施例可以提供一种至少能够缓解上述问题的用于车损理赔及维修估算的改进的图像分析系统。特别是，系统能够适应非受控环境下的普通硬件产生的图像。

根据一方面，提供的一种分类机器学习模型对未标记或部分标记的目标数据集进行模型化处理的方法，包括利用机器学习模型对目标数据集进行处理；准备目标数据集的子集呈现给用户进行标记或标签验证；接收标签验证或用户重做的标签或用户对子集做的标签；并且利用机器学习模型重新处理更新的目标数据集。

用户标记或标签验证与利用机器学习模型对未分类或部分分类的目标数据集进行模型化处理相结合，可以有效标记目标数据集中未标记的元件。通过使用机器学习模型进行模型化处理，可以有效处理在各种成像条件(如照明、角度、焦距、背景、遮挡)拍摄的图像。机器学习算法可以例如是卷积神经网络、支持向量机、随机森林或神经网络。可选地，机器学习模型是非常适合对高维(例如10，000或以上像素)图像进行分类或回归的模型。

可选地，该方法可以包括确定目标数据集的目标子集用于呈现给用户进行目标子集的标记和标签验证。这样可以使用户被动地响应对其提出的询问，并且因此可以降低对用户主动性、技能和知识的依赖，可改进模型和数据集的质量。

可选地，准备步骤可以包括确定多个代表性数据样本及准备仅用于呈现该聚类图的那些代表性数据样本的聚类图。这可以减少计算负担，并且可以快速准备聚类图以便快速显示及快速视觉化高维数据集。可选地，可以在特征空间中确定多个代表性数据样本。可选地，可以在输入空间中确定多个代表性数据样本。可选地，可以通过采样来确定多个代表性数据样本。可选地，准备步骤可以包括将多个代表性数据样本的维度降至二维或三维。可选地，降维可以通过T-分布领域嵌入算法进行降维。

可选地，准备步骤可以包括在用于呈现的网格中准备多个图像。在网格中呈现可以特别有效地识别无规律的图像。

可选地，准备步骤可以包括识别与贝叶斯集方法选中的一个或多个数据样本相似的用于呈现的数据样本。贝叶斯集方法的处理效率特别有效，这可以减少执行处理所需的时间。

根据另一方面，提供的一种利用卷积神经网络估算车辆受损维修的计算模型的产生方法，包括：接收多个未标记的车辆图像；通过卷积神经网络处理车辆图像；准备车辆图像的子集呈现给用户进行标记或标签验证；接收标签验证或用户重做的标签或用户对子集做的标签；以及通过卷积神经网络重新处理多个车辆图像。

用户标记或标签验证与利用机器学习模型对包含未标记的图像的目标数据集进行模型化处理相结合，可以有效地对目标数据集的未标注图像进行分类(或回归)。通过使用卷积神经网络进行模型化处理，可以有效处理各种成像条件(例如照明、角度、缩放、背景、遮挡)的成像的图像。另一种机器学习算法可以代替卷积神经网络。

可选地，该方法可以包括确定车辆图像的目标子集呈现给用户呈进行目标子集的标记和标签验证。这可以使用户被动地响应向用户提出的询问，并且因此可以降低对用户主动性、技能和知识的依赖性，以改进模型和数据集的质量。可选地，准备步骤可以包括如上所述的用于准备数据的一个或多个步骤。

可选地，该方法可以进一步包括：接收具有多幅未标记的车辆图像的多幅非车辆图像；通过卷积神经网络处理接收具有未标记的车辆图像的非车辆图像；准备非车辆图像呈现给用户以进行验证；接收非车辆图像的验证；并去除非车辆图像以产生多幅未标记的车辆图像。这可以改善包含不相关图像的数据集。

车辆图像的子集可全部显示具体的车辆零部件。这样可以使车辆零部件来标记图像。一幅图像可以具有多个与之相关的车辆零部件标签。车辆图像的子集可以全部显示受损条件下具体的车辆零部件。这可以通过受损状态来标记图像。车辆图像的子集可以全部显示受损条件下能够维修的具体的车辆零部件。车辆图像的子集可以全部显示受损条件下适合更换的具体的车辆零部件。这样可以用维修或更换的指示来标记图像。

根据另一方面，提供了一种根据如上所述的方法产生用于估算车辆受损维修的计算模型。这可以生成模拟车辆受损的模型及恰当的维修/更换响应。

该计算模型可适用于计算维修费用估算：从图像中识别一个或多个受损零部件；识别受损零部件是否能够维修或是否适合更换；并对车损计算维修费用估算。这可以快速处理与车损有关的保险赔偿。

可选地，为了提高实用性，计算模型可适用于计算维修费用估算的确定性。可选地，为了提高实用性，计算模型可适用于确定报废建议。可选地，为了提高维修费用估算的质量，计算模型可适用于以受损车辆的多幅图像为条件计算其输出来估算车辆受损维修。可选地，为了提高维修费用估算的质量，计算模型可适用于接收受损车辆的多幅图像用来估算车辆受损维修。可选地，为了提高实用性，计算模型可适用于估算车辆内部受损估算。可选地，为了提高实用性，计算模型可适用于向用户请求一幅或多幅进一步的图像。

根据另一方面，提供了一种用于产生如上所述的计算模型的软件。根据另一方面，提供了一种用于产生如上所述的计算模型的处理器。

各方面和/或实施例可以扩展到基本上如本文所述和/或如参照说明书附图所示的一种对数据进行模型化处理的方法。

各方面和/或实施例还可以扩展到基本上如本文所述和/或如参照说明书附图所示的一种产生用于估算车辆受损维修的计算模型的方法。

各方面和/或实施例还可以扩展到基本上如本文所述和/或如参照说明书附图所示的一种计算模型。

各方面和/或实施例还可以扩展到基本上如本文所述和/或如参照说明书附图所示的用于对数据进行模型化处理的软件。

各方面和/或实施例还可以扩展到基本上如本文所述和/或如参照说明书附图所示的用于对数据进行模型化处理的系统。

各方面和/或实施例还可以扩展到基本上如本文所述和/或如参照说明书附图所示的方法和/或装置。

各方面和/或实施例还可以提供用于执行本文所述的任何方法和/或用于体现本文所述的任何装置特征的计算机程序和计算机程序产品，以及其上存储有用于执行本文所述的任何方法和/或用于体现本文所述的任何装置特征的计算机程序的计算机可读介质。

各方面和/或实施例还可以提供一种体现计算机程序的信号、传送这样的信号的方法以及操作系统。计算机程序用于执行本文所述的任何方法和/或用于体现本文所述的任何装置特征。操作系统支持用于执行本文所述的任何方法和/或用于体现本文所述的任何装置特征的计算机程序。

如本文所述的任何装置特征也可以作为方法特征，反之亦然。如本文件所用的，装置加功能特征的表述可更换为对应结构的表述，例如适当编程的处理器和相关联的存储器。

一个方面的任何特征可以以任何合适的组合用于其他实施例。特别地，方法实施例可以应用于装置实施例，反之亦然。此外，一个实施例中的任何、一些和/或全部特征可以以任何适合的组合用于任何其他实施例中的任何、一些和/或所有特征。

还应该理解的是，任何实施例中描述和限定的各种特征的特定组合可以独立地被实施和/或被提供和/或被使用。

此外，在硬件实施的特征通常可以在软件中实施，反之亦然。本文所指的任何软件特征和硬件特征都应被相应地解释。

附图说明

结合具有相同的附图标记的参考附图对以下示例性的实施例的描述，使本发明的这些和其它方面将变得清楚，其中：

图1是一种数据标记方法的示意图；

图2是图1的方法的一个步骤的示意图；

图3是一种数据标记系统的示意图；

图4a及图4b是具有聚类图的图形用户界面的视图；

图5是具有网格形式的图像的图形用户界面的视图；

图6a及图6b是用于目标监督的图形用户界面的视图；及

图7是车辆受损估算系统的示意图。

具体实施方式

大约近十年来，许多国家的车辆修理店和损失理算师一直是将拍摄的受损车辆的照片作为支持维修估算的证据提交给保险公司或律师。每年仅美国就有大约1900万的车辆赔偿，每一赔偿大约有10张图像，因此存在大量受损车辆的图像数据。

机器学习是利用现有车辆受损图像的有吸引力的工具，并且深度学习(特别是卷积神经网络)已经在自动识别和理解高维传感数据方面取得了巨大进步。这些技术的基本思想之一是算法可以通过学习提取最有用的特征来确定如何最好地呈现数据。如果提取的特征足够好(区别性够)，那么任何基本的机器学习算法都可以应用于它们以获得非常好的结果。卷积神经网络(也被称为convnets或CNN)特别适合于对图像数据进行分类，并且应用了监督学习训练的卷积神经网络的图形处理器单元(GPU)已经显示出对“自然”图像(在非标准化条件下拍摄并且在例如照明、角度、焦距、背景、遮挡及车型设计等方面有变化的图像、包括错误和不相关的图像、在质量和可靠性方面存在变化的图像)分类(或回归)的高性能。

为了利用大量车损图像来训练卷积神的经网络，数据需要尽可能没有错误，并且特别是图像需要被正确标记。用于深度学习的工业数据集具有一些新问题，例如需要处理的噪声/缺失/不一致或包含不相关数据的部分标记的数据。

为了使机器学习进行高质量的分类(或回归)，有必要确保训练数据的质量，并用数据训练质量足够好的模型。通常，用户需要首先通过查看数据及(重新)标记数据直到对质量满意为止来准备训练数据。然后，用干净的数据来训练模型。

由用户将标签分配给图像而对训练数据集进行标记(并且更普遍地是清洗数据)，是商业应用所不允许的非常耗时及成本昂贵的过程。

如果准备训练数据集和训练模型交叉进行，则可以显着地提高效率。算法用已知有缺陷的数据集开始学习，不是一个直观的方法。然而，利用机器学习算法识别不相同且可能错误的数据集，是非常有效的。模型训练的每次迭代都会为随后重新标记的重复迭代提供最佳方法(反之亦然)。这个迭代过程的最终结果是具有质量足够好的数据集和为该数据集提供具有充分区别特征的模型。

数据可以是图像形式(每个图像代表一个单独的数据集)，也可以是任何高维数据，如文本(例如每个单词代表单个数据集)或声音。

使用现有图像数据来训练卷积神经网络进行半自动标记的描述如下。

半自动标记可实现数据集的标记的半自动化。模型是用已知包含错误的数据来进行训练的。该模型是用于对数据进行模型化处理和分类(或回归)。所选数据点(单独图像或图像集)的分类(也称为记签或标签)是由用户(也被称为顾问或监督者)查看、更正或确认。对标签进行迭代优化，然后根据标记的数据对模型进行优化。用户可以主动查看输出的模型并搜索要查看和标注的图像，或者用户可以被动地响应模型中对特定图像标记的查询。

图1是半自动标记方法的示意图。图2是图1的半自动标记方法的步骤的示意图。图3是半自动标记系统100的示意图。处理器104通过输入/输出108向用户110提供如何利用计算模型106对数据集102进行模型化处理的信息。用户110通过输入/输出108向处理器104提供利用计算模型106对数据进行模型化处理的指导。

用户主动查看的半自动标记的方法的操作顺序为：

1.用尽可能好的(在数量和标签方面)相似数据预先训练模型；

2.使用预先训练好的模型对目标数据进行模型化处理；

3.准备模型化的目标数据供用户查看；

a.利用模型提取目标数据集的特征(称为特征集)；

b.对目标特征集执行降维；

c.将标签分配给一些/全部的特征点或者不分配标签给特征点；

d.将可视化技术应用于标记的特征集；

4.向用户呈现用于查看和编辑标记的特征集的高效界面；

a.用户通过有效地查看标记的特征集找到需要验证的区域；

b.用户对界面上看到的标签进行验证或更正；

5.用验证过或更正过的标签从第2步开始的重复循环，直到获得质量足够好的数据和模型；

6.使用一些/所有标记过的数据集或特征集对最新的特征提取模型进行微调，直到获得质量足够好的数据和模型；

在如上所述的半自动标记过程的示例中，单个用户可以在一个小时内将约30，000个图像标记为具有90％准确率的18个分类的方案。

在用户被动响应询问(也称为目标监督)的情况下，上述流程的步骤3和步骤4如下：

3.准备完整的模型化处理的数据以供用户查看

a.利用模型提取目标数据集的特征(称为特征集)；

b.对特征集执行降维；

d.将可视化技术应用于标记的特征集；

e.近似下一个可能的用户询问；

4.向用户呈现用于查看标记的特征集的询问

a.高效地向用户呈现询问；

b.用户对界面上看到的标签进行验证或更正；

被动用户查看与和主动用户查看也可以并列地结合进行。

“将标签分配给一些/全部的特征点”的步骤3c，可以通过诸如将特征空间划分为分类区域之类的聚类技术进行分类来实施。步骤3c也可以通过诸如在特征空间定义离散随机值之类的离散技术进行回归来实施。

作为步骤6(微调)的一部分，可以执行以下附加步骤：

a.用不可见的数据来运行模形及通过分类(或回归)概率对图像进行排序(可能是二进制的)；

b.向用户呈现高概率图像和低概率图像，用来识别特别有意义的错误。

在一个变形中，概率排序(例如，用颜色表示概率)增强了聚类图中的语义聚类(其中数据按图像内容分开显示，例如一起显示所有汽车保险杠图像)，以使微调的功能更强大。

实施如上所述的流程的进一步的考虑，包括：

·充分利用现有标签来初始化流程。在最坏的情况下，标签是无用的并且执行无监督的初始化。否则，可以用不管是否有标签的数据来训练监督型模型。

·优化提取特征的可视化，使得用户可以了解模型正在做什么。实际特征存在于高维空间(即大于1000维)中，因此在保持尽可能多的信息的情况下它们将需要降维到2或3维，实时进行这种可视化带来很大好处。

·重新标记一部分数据，以便为下一次训练迭代带来最好的效果。一种方法是在训练模型期间为用户提供发现的“最令人困惑”的图像/图像集的排序。

·考虑新的用户输入，对重新训练的模型进行优化。在最简单的情况下，用户指出他认为模型应该重新训练的程度。这会影响重新训练的表达能力和花费的时间。利用给予模型的新信息需要达成足够的表达力，但不要过度拟合新数据。

·在每次迭代中评估模型的实际性能。通常，一部分数据不用于训练模型，因此该部分数据可以用来评估模型的性能。然而，不使用少量最近重新标记的训练数据可能会明显地减慢重新标记周期的速度。两者之间必须达成平衡。

可用于实现如上所述的半自动标标记的技术是：

·预先训练的卷积神经网络

·通过图像处理单元并行提取特征

·用主成分分析(PCA)方法进行降维。主成分分析(PCA)方法特别适合T-分布领域嵌入算法(TSNE)。主成分分析(PCA)方法不太适合于贝叶斯集。如果T-分布领域嵌入算法(TSNE)的速度足够快，甚至可以不必进行降维。

·用k-means聚类算法寻找特征集并确定质心

·用T-分布领域嵌入算法(TSNE)处理k-means聚类算法的质心

·具有T-分布领域嵌入算法(TSNE)的聚类图的图形用户界面(GUI)，聚类图中，以质心为圆心的圆表示簇，圆的直径表示的图像数量，最常用的颜色表示类别。

·图像处理单元中的约100网格的图像需要验证/编辑标签

·贝叶斯集应用于卷积神经网络

·Softmax(分类函数)微调模型

·siamese微调模型

·三元组损失函数(triplet loss)微调模型

预训练的卷积神经网络可以用例如网络图像集合的图像来进行训练。

图4a是具有语义聚簇的聚类图的图形用户界面的视图(例如，所有汽车保险杠图像都位于聚类图中的相同区域中)。聚类图显示了在特征空间表示数据集分布的圆。聚类图呈现给用户以选择一个或多个圆进一步查看。聚类图通过例如圆的颜色来显示数据集标记/未标记的状态。聚类图还通过例如圆的颜色显示要查看的数据集的选中/未选中的状态。图4b是具有聚类图的图形用户界面的视图，其中圆的颜色表示与该数据相关联的标签。当用户停留在一个圆上时，圆所表示的图像数据将呈现给用户。围绕聚类图中感兴趣的一组圆画边界，使得用户可以选择一组圆。

图5是具有网格形式的图像的图形用户界面的视图。在聚类图中被选中的图像以网格的形式呈现给用户查看。例如，网格中有8条纵线及6条横线。在图示的示例中，网格显示了7×5张图像。人类视觉皮层能以特别高的效率领悟和识别网格形式的不同图像。通过以网格形式显示图像，在短时间内可以将大量的图像呈现给用户及供用户进行查看。对于每视窗包括48个图像的21个视窗，用户可以查1000多幅图像。可以用特定标签来标记网格中选择或取消选择的图像。例如进行相似性搜索，可以选择或取消选择图像以供进一步查看，。

执行相似性搜索是用来寻找与特定图像相以的图像或一组感兴趣的图像。这可以使用户能够找到特别感兴趣的单个图像(例如，挡风玻璃图像集中具有破洞的挡风玻璃的图像)，进一步找到类似的其他图像，并为这些图像集集体提供标签。

图6a和6b是用于目标监督的图形用户界面的视图。一定数量(在图示示例中为7个图像)的图像聚集在一起提供给用户，还提供了标签输入区域以供用户输入标签。图6a显示了空白的标签输入区域，图6b显示了输入标签的标签输入区域，还显示了标记图像的彩色框，其中颜色与图像的标签相关。

现在对特征集进行降维的方法(上述的步骤3c)进行更详细的描述。在一个示例中，特征集是4096维向量(一般认为是N维向量)，具有大约-2至2(一般认为在典型范围内)范围内的值。降维到二维或三维(人可以直观地理解)可能需要相当可观的计算资源及并需要大量时间。为了缩短耗费劳力的计算步骤，在特征空间中对数据集聚类，并且从每个簇中选择单个代表性数据样本(也被称为质心，例如k-均值聚类的质心)用于进一步处理。然后仅对代表性数据样本执行降维，由此将计算负荷减小到可以非常快地可视化非常大的数据集的程度。数据集的数据点并非单独显示在呈现给用户的聚类图中，聚类图中的圆的直径表示特征空间中代表性数据样本附近的数据点的数量，并且推定具有相同或相似的标签值。通过在聚类图中选择一个圆，向用户呈现该圆表示的所有图像。这使得用户查看圆代表的所有图像。为了清楚显示，用户可以优化和/或调整圆的缩放比例。

现在对执行相似性搜索的方法进行更详细的描述。图像在特征空间中用高维向量(例如4096维向量)表示，具有一定范围的值(例如大约从-2到2)。对大量的向量执行相似性搜索可能是计算量大且耗时的。贝叶斯集可以提供一种非常快速和简单的方法来识别与特别感兴趣的一张图像或一组图像相似的图像。为了应用贝叶斯集方法，数据(这里是高维向量)需要是二进制的而不是具有一定范围的值。为了应用贝叶斯集方法，特征集向量需要被转换成二进制向量，即接近零的值被改变为零，远离零的值被改变为1。利用贝叶斯集方法进行相似性搜索，可以产生良好的结果。由于卷积神经网络通常产生具有稀疏表示(向量中有大量零)的特征集，可在半自动标记的背景下将特征集直接转换为具有稀疏表示的二元向量，因此将贝叶斯集应用于卷积神经网络(或者更适用于图像的机器学习模型和稀疏表示)是特别有利的。

现在对半自动标记应用于车辆受损估算进行更详细地描述。对于给定的车辆受损情况，输出是基于受损车辆的自然图像预测必要的维修以及估算相应维修费用。这可以使保险公司例如就如何处理车辆受损做出决定。输出可能包括分类的建议，例如“报废车辆”，“需要重大维修”或“需要简单维修”等。

图7是车辆受损估算系统700的示意图。用户710利用照相机714拍摄受损车辆716的图像712，并且经由移动设备708(例如平板电脑或智能手机)将图像712发送到系统700。处理器704使用计算模型706来评估图像712并产生车辆受损估算，该车辆受损估算通过移动设备708返回给用户710。报告可以提供给其他相关方，例如保险公司或车辆维修店。图像712可以由移动设备708直接拍摄。图像712可以被添加到数据集702，并且模型706可以用图像712进行更新。

产生维修估算的流程按照以下方式进行细分以进行优化处理。

1.通过深度学习(最好是卷积神经网络)识别一组受损零部件。例如，对于车主提供的没有进行零部件标记的图像，一个图像数据的稳健模型是必需的。可能需要车主提供整车可见的图像。为了确保提供最合适和恰当的图像，可以与用户进行实时交互反馈。例如，通过将图像输入一个或多个“质量保证”分类器并实时返回结果，来确保用户拍摄所有必要的图像可以进行精确的维修估算。

2.通过卷积神经网络为每个受损零部件预测“维修”/“更换”标签。维修/更换区别通常是非常嘈杂的，可能会出现错误标记。为了解决零部件标记的问题，需识别每个图像。维修/更换标签不是用于每个图像，而是用于每个零部件，这样会更可靠。交叉参考有助于获得各图像的相应零部件的维修/更换标签。为了消除对近距离图像的需要，可以准备整车可见的多个相关图像。可以与用户进行实时交互反馈，以便获得零部件的特定近距离图像，否则置信度会低。步骤2可以与前面的步骤1结合，预测每个零部件的“不可见”/“未受损”/“维修”/“更换”标签。

2.5通过卷积神经网络和预测分析软件来预测相关内部零部件的“未受损”/“维修”/“更换”标签。准确预测内部受损是困难的，即使是评估专家也可能会遇到困难。为了获得良好的结果，需要从车辆提供远程信息处理数据(例如，加速度计数据)，以确定哪些内部电子零部件是好的/坏的，并且附加到预测分析回归。

3.通过例如预测或取平均值获得执行每一人工操作的工时。这一步骤也可能涉及卷积神经网络。更可取的是预测受损程度而不是预测工时本身。工时数据可从第三方获得。在使用平均工时的情况下，可以根据一个或多个容易观察到的参数，例如车辆类型、所有受损零部件的集合、受损严重程度，来调整平均工时。

4.获取零部件价格和更换每个零部件的人工工资率。零部件的价格和人工工资率可以通过查找或取平均值来获得。为了查找价格和人工工资率，应用程序接口(Application Programming Interface，API)可以调用例如保险公司、第三方或相关维修店的数据库。可以通过查找获得平均值。在使用平均价格或平均人工工资率的情况下，可以根据一个或多个可观察或可获得的参数，例如车辆类型、所有受损零部件的集合、受损严重程度、故障/非故障，来调整平均价格或平均人工工资率。

5.通过加和乘价格、工资率、工时来计算维修估算。为了获得维修估算的后验分布，也可对维修估算的不确定性建模。例如，可以提供全部维修费用的95％的置信区间或车辆报废的概率。如果维修算的置信度不足，则可以将赔偿交给人工来处理。

通过这个流程，在第一时间损失通知，通过保单持有人例如用智能手机拍摄的图像产生维修估算。这可以在车辆受损发生后几乎可以立即处理赔偿。它还可以通过例如移动应用程序快速启动以下选择：

·如果新车受损，则为全损；

·如果礼宾车辆受损，则需要重大维修；

·如果需要进行重大维修，则需要有良好的维修能力和价格的修理店；

·如果需要进行重大维修，则需要及早从合格供应商采购更换零部件；

·如果仅发生轻微受损(例如挡风玻璃的破洞维修)时，需要进行现场维修。

在稍晚于第一时间损失通知，例如在警察或急救人员等官方服务员离开后，在汽车修理或其他专业中心可提供图像用于维修估算。产生的输出后验分布的维修估算可以提供更多的洞悉，例如，95％置信区间的维修估算；或者报废的概率。维修估算的过程可以是机器/人工双方面生成的，例如，如果由模型给出的估算的置信度较低或在模糊的情况下，则将维修估算交由人工处理。除了保单持有人之外的其他人可以拍摄照片(例如，受损车辆中的乘客、事故涉及的其他人、警察、救护员/急救员、损失调节人/评估人、保险人代表、经纪人、律师、维修车间人员)。提供用于维修估算的图像可以来自照相机或其他照相设备。也可以向保单持有人提供其他相关信息，例如超额费用和/或而预期保费增加至妨碍赔偿。

通过实施本文描述的维修估算，保险公司和保单持有人都可以享受到许多好处。例如，保险公司可以：

·减少管理赔偿的行政费用；

·通过提供准确的或至少合适的保费增长预估来降低赔偿率(损失率)；

·通过快速结清来减少赔偿额和减少高额损害赔偿的可能；

·(对于某些国家/地区)，通过将保单持有人直接引导至控制良好的维修链来减少非过失赔偿的赔偿金额；

·减少关键时间；

·增加客户保留率；以及

·激励潜在客户转换保险公司。

保单持有人可以享受优质的客户服务及供应商竞标的好处。某些零部件供应商可以受益于优选供应商身份。车辆维修人员和车辆修理店可以避免花费时间来准备估算。

在上述步骤中利用了卷积神经网络。包含多重图像查询的多样本学习(MIL)卷积神经网络比单图像询问的卷积神经网络的性能更好。多图像特别有助于从角度、光线、遮挡、背景缺失、分辨率不足等方面去除图像噪声。在分类情况下，与传统图像分类的类别是以单幅图像为条件的输出是有所区别的。在碰撞维修估算中，通常不可能在单幅图像中获得维修估算所需的所有信息。在一个例子中，后保险杠需要维修的事实只能通过拍摄受损特写图像来进行确认，这损失了用来确认后保险杠一部分被拍摄的背景信息。通过训练利用多图像中的信息的机器学习模型，可以输出后保险杠需要维修的结果。在适应多图像询问的卷积神经网络结构中，卷积神经网络提供了对图像池化的层。池化可以为最大池化、平均池化、中间池化或学习池化。为了更简单，可以采用单图像卷积神经网络。

现在详细描述一个模型产生的流程，该模型可以完成如上所述的产生维修估算的步骤1和步骤2，即识别一组受损零部件并预测“维修”/“更换”标签。这基本上是通过如上所述的半自动标记方法来实现的。该过程用于包括未标记的车辆图像的数据集，这些车辆图像用于识别/诊断的每个车辆零部件。

A.移除不相关的图像。移除不相关的数据，使得数据变得更容易呈现。

1.使用预先训练的模型提取目标数据集的特征(如上所述)；

2.向用户呈现数据是如何被进行模型化的(如上所述的T-分布领域嵌入算法(TSNE)的聚类图的图形用户界面)。由于语义不同，使得用户容易识别不相关的簇。

3.接收用户对不相关群集的选择(或确认)并从数据集中移除相应的图像；和

4.直到不再有不相关的图像被删除，重复上述步骤。

B.创建“零部件不可见”、“零部件受损”、“零部件未受损”的分类器

1.用模型提取目标数据集的特征，目标数据是根据上述步骤A中产生的；

2.向用户呈现数据是如何进行模型化处理(如上所述的T-分布领域嵌入算法(TSNE)的聚类图的图形用户界面)。这允许用户识别严重偏差的簇并适当标记它们。

-如果特征空间的区域未被查找：向用户呈现用户尚未检查的数据子集进行模型化处理。用户可以寻找用来识别并提供区域供用户查看的信息及主动型学习算法。

-对于无偏差的簇：将图像呈现给用户进行查看并使用相似性搜索进行标记：

·相似性搜索可以快速识别具有共同标签的图像；

·用户具有事先知道子分类(也可能是密度)的类层级结构(也可能是密度)，以确保该模型能够正确表示真实车辆受损的可能性(例如，如果在现实生活中某种类型的可维修的前左翼板受损发生时，则模型需要能够识别这种情况)；

·如果所识别的特征不能恰当地划分类层级结构，则可能需要高的用户监督；

·如果用户没有建立可用的类层级结构，那么用户可以通过查看和学习数据集来构建特定的子分类；和

·分布是逐簇逐页生成的。当出现重要的案例时，用户在这些案例花费更多时间，并通过相似搜索来研究它们。

3.接收用户标签(或标签验证)并更新数据集。

4.训练模型；如果零部件分类(或回归)不令人满意，则通过确认标记/更正标记从步骤2开始重复循环，直到获得质量足够好的数据和模型。

5.一旦特征不再是具有区分性的微调(例如，在簇内容中找到的差异更小及并且标签编辑变成更细微的视觉模式)，微调还可以与前一个循环交错或组合，而不是按顺序进行循环。

6.提取目标数据集的特征

7.向用户呈现数据是如何进行模型化的。可以通过分类(或回归)输出对图像进行排序呈现，使得用户可以通过分类(或回归)输出查看模型了解哪些是模型正确区分的子集及哪些是模型较差区分的子集。通过相似性搜索，用户根据较差区分的子集可以专注下一步的学习。通过能够自动查看和识别较差区分的子集的主动学习技术，向用户提供建议的下一个学习步骤。

8.接收来自用户的指导及相应地更新数据集。

9.训练模型；如果模型准确率不令人满意，则通过验证/更正标签从步骤6开始重复循环，直到获得质量足够好的数据和模型。

C.创建“维修零部件”、“更换零部件”分类器(目标数据集可以包含部分错误标记的图像)

1.从csv/txt文件中提取与具体受损零部件图像及适当的操作有关的维修/更换的元数据；

2.将维修/更换标签分配给具有“受损零部件”标签的部件；

3.用更新的目标数据集训练模型及提取数据集的特征；

4.向用户呈现数据如何进行模型化的(如上所述的T-分布领域嵌入算法(TSNE)的聚类图的图形用户界面)。这允许用户识别严重偏差的簇并适当标记它们。

-对于无偏差的簇：如上所述的步骤B.4，将图像呈现给用户查看并使用相似性搜索进行标记。

5.接收用户标签(或标签验证)并更新数据集；

6.训练模型；如果零部件分类(或回归)不令人满意，则通过验证标签/更正标签从步骤4开始循环，直到模型准确率令人满意。

D.合并来自步骤B和C的标记的数据以训练这4个分类器(“零部件不可见”、“零部件受损”、“维修零部件”及“更换零部件”)。

E.测量训练后模型的真实准确度。为此需要一个无偏差的测试数据集。获取测试数据集的优选技术是从完整数据集中抽取随机样本，然后让用户查看测试数据集的所有图像并正确分配所有标签。半自动标记可以提供一些帮助，但是测试数据集的每个图像的正确标记必须经用户验证。

现在对内部受损预测的应用进行更详细地描述。内部受损预测可以通过诸如回归模型等预测分析来实现。受损车辆的图像不能够直接观察内部零部件。

A.预测维修估算：回归维修费用:

1.确定图像预测能力的指标：回归总维修费用；逐步减少回归的费用。其中在实践中测量费用昂贵的回归元的方法可以通过以下方式来近似并消除：

-仅记录及考虑一些零部件的状态，这可能会产生总费用的准确估计。

分析回归模型可以省略零部件的数量。

-隐性记录和考虑车辆的内部零部件的图像(例如打开发动机盖)，甚至去除一些零部件以便于查看特定的内部零部件。仅记录和考虑车辆外部的图像可能就足够了。分析回归模型可以省略的内部零部件的数量。

-考虑零部件的受损程度以确定人工操作(维修、更换、不做处理)。(如上所述的半自动标记数据训练的)维修/更换分类器的输出可输入到该步骤。

-考虑零部件的价格：例如，确切的原始设备的零部件价格、当前/历史平均价格、萨彻姆(Thatcham)价格

-考虑是否是过失/无过失赔偿

-评估总人工费用：了解确切的工资率、平均工资率或过失/非过失工资率，还可了解每个人工操作的确切工时、平均工时或萨彻姆(Thatcham)工时

-考虑其他元数据，如车型、里程

-评估预测的灵敏度(x％分类误差＝>y％费用预测误差)

-公司做估算时，考虑可以通过诸如图像类型的元数据字段来预测是否是非典型预期误差(例如6％)

-考虑从查表中获得基于规则的操作顺序

2.评估图像的预测能力

-利用如上所述的回归模型及利用卷积神经网络的结果取代某些正确标记的数据值：用卷积神经网络模型的等效预测替代可见零部件的“维修”/“更换”标签。通过这种方式，分类输出作为回归模型的输入。回归参数可以用于微调卷积神经网络的输出。考虑到的零部件的数量减少为从被分析回归模型中省略的零部件的数量。

-训练卷积神经网络执行回归以直接对图像进行回归。在图像和所有其他可观察物对总费用进行回归。预测的维修费用的误差被反向传播。

B.预测总损失：回归报废。上述执行步骤A(回归维修费用)的步骤适用于回归二进制指示，该指示基于维修费用于指示是否报废受损车辆而不进行维修。

在上述过程中，这些步骤的顺序可以变化。相对维修/更换的两种决定，受损零部件的图像提供了更多信息。因此，与无图像模型相比，将维修费用回归到图像提高了准确率。

实现维修估算进一步包括如下特征，例如：

·阻止和检测图像欺诈以及其他欺诈的特征；

·确定过失方的特征；和/或

·获取和分析碰撞中涉及的其他车辆和/或财产的图像以供保险公司处理的特征。

应该理解的是，以上仅以示例的方式描述了本发明，并且可以在本发明的范围内对细节进行修改。

说明书和(在适当的情况下)权利要求和附图中公开的每个特征可以独立地提供或以任何适当的组合方式提供。

在权利要求中出现的附图标记仅仅是为了说明而对权利要求的范围没有限制作用。

Claims

1.一种利用分类或回归的机器学习模型对未标记或部分标记的目标数据集进行模型化处理的方法，包括：

利用机器学习模型化处理目标数据集；

准备目标数据的子集呈现给用户进行标记或标签验证；

接收标签验证或用户重做的标签或用户对子集做的标签；及

利用机器学习模型重新处理更新的目标数据集。

2.如权利要求1所述的方法，其特征在于：机器学习算法是卷积神经网络、支持向量机、随机森林或神经网络。

3.如权利要求1或2所述的方法，其特征在于：进一步包括确定目标数据集的目标子集呈现给用户进行目标子集的标记或标签验证。

4.如权利要求1至3中任意一项所述的方法，其特征在于：所述准备步骤包括确定多个代表性数据样本及准备仅用于呈现聚类图的那些代表性数据样本的聚类图。

5.如权利要求4所述的方法，其特征在于：多个代表性数据样本是在特征空间进行确定的。

6.如权利要求4所述的方法，其特征在于：多个代表性数据样本是在输入空间进行确定的。

7.如权利要求4至6项中任意一项所述的方法，其特征在于：多个代表性数据样本是通过采样进行确定的。

8.如权利要求4至7项中任意一项所述的方法，其特征在于：准备步骤包括将代表性数据样本的维度降至二维或三维。

9.如权利要求8所述的方法，其特征在于：通过T-分布领域嵌入算法进行降维。

10.如权利要求所1至9项中任意一项所述的方法，其特征在于：所述准备步骤包括在用于呈现的网格准备多幅图像。

11.如权利要求所1至10项中任意一项所述的方法，其特征在于：所述准备步骤包括识别与贝叶斯集方法选中的一个或多个样本相似的用于呈现的数据样本。

12.一种利用卷积神经网络产生估算车辆受损维修的计算模型的方法：

接收多幅未标记的车辆图像；

利用机器学习模型化处理车辆图像；

准备车辆图像的子集呈现给用户进行标记或标签验证；

接收标签验证或用户重做的标签或用户对子集做的标签；及

利用机器学习模型重新处理多幅车辆图像。

13.如权利要求12所述的方法，其特征在于：进一步包括确定车辆图像的目标子集呈现给用户进行目标子集的标记或标签验证。

14.如权利要求12或13所述的方法，其特征在于：所述准备步骤包括权利要求4至11中任意一项所述的方法。

15.如权利要求12至14中任意一项所述的方法，其特征在于：进一步包括：

接收具有多幅未标记的车辆图像的多幅非车辆图像；

利用机器学习模型化处理具有未标记的车辆图像的非车辆图像；

准备非车辆图像呈现给用户进行验证；

接收非车辆图像的验证；及

去除非车辆图像而产生多幅未标记的车辆图像。

16.如权利要求12至15中任意一项所述的方法，其特征在于：车辆图像的子集全部显示具体的车辆零部件。

17.如权利要求12至16项中任意一项所述的方法，其特征在于：车辆图像的子集全部显示受损条件下具体的车辆零部件。

18.如权利要求12至17项中任意一项所述的方法，其特征在于：车辆图像的子集全部显示受损条件下能够维修的具体的车辆零部件。

19.如权利要求12至17项中任意一项所述的方法，其特征在于：车辆图像的子集全部显示受损条件下适合更换的具体的车辆零部件。

20.一种由权利要求12至19中任意一项的方法产生的估算车辆受损维修的计算模型。

21.如权利要求20所述的计算模型适用于计算维修费用估算：

从图像中识别一个或多个受损零部件；

识别受损零部件是否能够维修或是否适合更换；及

对车损计算维修费用估算。

22.如权利要求21所述的计算模型，进一步适用于计算维修费用估算的确定性。

23.如权利要求21或22所述的计算模型，进一步适用于确定报废建议。

24.如权利要求21至23项中任意一项所述的计算模型，进一步适用于以受损车辆的多个图像为条件计算其输出来估算车辆受损维修。

25.如权利要求21至24项中任意一项所述的计算模型，进一步地适用于计算内部受损估算。

26.如权利要求21至25项中任意一项所述的计算模型，进一步适用于向用户请求一幅或多幅进一步的图像。

27.一种用于产生如权利要求20到26项中任意一项所述的计算模型的软件。

28.一种用于产生如权利要求20到26项中任意一项所述的计算模型的处理器。

29.一种基本上如本文所描述的或/及说明书附图所示出的对数据进行模型化处理的方法。

30.一种基本上如本文所描述的或/及说明书附图所示出的产生用于估算车辆受损维修的计算模型的方法。

31.一种基本上如本文所描述的或/及说明书附图所示出的计算模型。

32.一种基本上如本文所描述的或/及说明书附图所示出的对数据进行模型化处理的软件。

33.一种基本上如本文所描述的或/及说明书附图所示出的对数据进行模型化处理的系统。