CN112651493A

CN112651493A - 基于联合训练模型的事故车判别方法和装置

Info

Publication number: CN112651493A
Application number: CN202110039388.6A
Authority: CN
Inventors: 王宝祥; 章水鑫
Original assignee: Nanjing Sanbaiyun Information Technology Co ltd
Current assignee: Nanjing Sanbaiyun Information Technology Co ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-04-13
Anticipated expiration: 2041-01-12
Also published as: CN112651493B

Abstract

本发明提供了一种基于联合训练模型的事故车判别方法和装置，涉及事故车判别的技术领域，联合训练模型包括线性模型和深度学习模型，包括获取当前车辆的预先处理的保险维修记录；基于预先处理的保险维修记录获得车辆结构化数据；将车辆结构化数据输入线性模型并将预先处理的保险维修记录作为车辆非结构化数据输入深度学习模型，判别出当前车辆是否为事故车；若是，则根据车辆结构化数据识别事故原因，通过结构化数据与非结构化数据的联合训练，实现事故原因与事故车的准确判别。

Description

基于联合训练模型的事故车判别方法和装置

技术领域

本发明涉及事故车判别的技术领域，尤其是涉及一种基于联合训练模型的事故车判别方法和装置。

背景技术

伴随着国内持续发展的汽车工业和逐步提高的人民收入水平，汽车生产与消费水平也显著提升，汽车保有量不断增加。随着个体消费观念的转变，也让购买使用二手车行为逐步被消费者接受，而对二手车进行科学有效的评估则是促进二手车交易市场进步与发展的重要措施，以保证消费者能够购买到具有价值的优质二手车。

二手车中包括一部分事故车辆，即汽车在使用过程中，曾发生过严重碰撞、水浸、火烧等虽然经过修复并使用，但仍存在安全隐患的车辆。提高对事故车的识别是二手车评估过程中的重中之重。

当前一般利用深层的神经网络的自动获取特征表达能力，去掉了繁杂的人工特征识别工程，从车辆维修保养记录及保险记录等文本中识别事故车辆，但此种方式识别准确性有限，也无法识别出车辆的事故原因，不能满足当前二手车市场的应用要求。

发明内容

本发明的目的在于提供一种基于联合训练模型的事故车判别方法和装置，通过结构化数据与非结构化数据的联合训练，实现事故原因与事故车的准确判别。

第一方面，本发明实施例提供了一种基于联合训练模型的事故车判别方法，联合训练模型包括线性模型和深度学习模型，所述方法包括：

获取当前车辆的预先处理的保险维修记录；

基于所述预先处理的保险维修记录获得车辆结构化数据；

将所述车辆结构化数据输入所述线性模型并将所述预先处理的保险维修记录作为车辆非结构化数据输入所述深度学习模型，判别出所述当前车辆是否为事故车；

若是，则根据所述车辆结构化数据识别事故原因。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述车辆结构化数据包括动词名词组合和车辆数据，基于所述预先处理的保险维修记录获得车辆结构化数据的步骤，包括：

基于概率上下文无关文法将所述预先处理的保险维修记录生成动词名词组合；

从所述预先处理的保险维修记录中抽取车辆数据。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述线性模型包括第一线性模型和第二线性模型，将所述车辆结构化数据输入所述线性模型的步骤，包括：

将所述动词名词组合对应的数据源、所述动词名词组合和所述当前车辆的车型输入所述第一线性模型，将所述车辆数据输入第二线性模型。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，在获取当前车辆的预先处理的保险维修记录的步骤之前，还包括：

建立车辆的汽车零件词库，所述词库中包括车辆的所有零件；

根据事故分析师的标注，划分为零件主要汽车零件词库与非主要汽车零件词库；

通过正则表达式对当前车辆的保险维修记录进行过滤处理操作；

通过词语处理工具对过滤处理后的保险维修记录进行分词处理以及去除停用词操作；

将去除停用词后的保险维修记录与所述非主要汽车零件词库进行模糊匹配处理，去除非主要汽车零件词组。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，根据所述车辆结构化数据识别事故原因的步骤，包括：

判断所述事故车是否具有动词名词组合；

若有，则根据所述动词名词组合识别出事故原因；

若无，则根据所述事故车的零件主要汽车零件识别出事故原因。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，将所述车辆结构化数据输入所述线性模型并将所述预先处理的保险维修记录作为车辆非结构化数据输入所述深度学习模型，判别出所述当前车辆是否为事故车的步骤，包括：

根据以下公式判别所述当前车辆是否为事故车：

其中，x_d为包括所述动词名词组合的离散变量，

为包括所述车辆数据的连续变量，

为包括所述非结构化数据的文本特征。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述联合训练模型通过预先标注的保险维修记录数据、从所述预先标注的保险维修记录数据中提取的车辆结构化数据以及所述预先标注的保险维修记录数据对应的保险维修记录训练而成。

第二方面，本发明实施例还提供一种基于联合训练模型的事故车判别装置，联合训练模型包括线性模型和深度学习模型，所述装置包括：

第一获取模块，获取当前车辆的预先处理的保险维修记录；

第二获取模块，基于所述预先处理的保险维修记录获得车辆结构化数据；

判别模块，将所述车辆结构化数据输入所述线性模型并将所述预先处理的保险维修记录作为车辆非结构化数据输入所述深度学习模型，判别出所述当前车辆是否为事故车；

若是，则识别模块根据所述车辆结构化数据识别事故原因。

第三方面，实施例提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。

第四方面，实施例提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。

本发明实施例提供了一种基于联合训练模型的事故车判别方法和装置，通过对当前车辆的保险维修记录进行预处理，得到预先处理的保险维修记录以及对应的车辆结构化数据，并将该车辆结构化数据作为联合训练模型中线性模型的输入，预先处理的保险维修记录作为非结构化数据输入联合训练模型中的深度学习模型中，以判别当前车辆是否为事故车，若该车辆为事故车，则根据该车辆的结构化数据识别出事故原因，在事故车判别过程中考虑多种复杂因素，实现事故原因与事故车的准确判别。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于联合训练模型的事故车判别方法流程图；

图2为本发明实施例提供的一种联合训练模型的示意图；

图3为本发明实施例提供的另一种基于联合训练模型的事故车判别方法流程图；

图4为本发明实施例提供的一种基于联合训练模型的事故车判别装置的功能模块示意图；

图5为本发明实施例提供的电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，影响事故车判断的因素多且复杂，无论专家规则还是深度学习，准确率有限，且均无法进一步优化。经发明人研究发现，不同年款不同车型的事故车判断依据亦存在差异。鉴于不同的车型、不同年款的相同部件的材质也可能不同，如既有塑料件也有是铁件，年款、车型等特征也是判断事故车的重要特征。而此类车型、年款及提取到重要部件是结构化数据，一般用于事故车判断的维修保养记录、保险记录是非结构化数据。

基于此，本发明实施例提供的一种基于联合训练模型的事故车判别方法、装置以及系统，通过结构化数据与非结构化数据的联合训练，实现事故原因与事故车的准确判别。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于联合训练模型的事故车判别方法进行详细介绍，该联合训练模型包括线性模型和深度学习模型。

图1为本发明实施例提供的一种基于联合训练模型的事故车判别方法流程图。

参照图1，该方法包括以下步骤：

步骤S102，获取当前车辆的预先处理的保险维修记录；

步骤S104，基于预先处理的保险维修记录获得车辆结构化数据；

步骤S106，将车辆结构化数据输入线性模型并将预先处理的保险维修记录作为车辆非结构化数据输入深度学习模型，判别出当前车辆是否为事故车；

步骤S108，若是，则根据车辆结构化数据识别事故原因。

步骤S110，若否，则返回非事故车的结果。

在实际应用的优选实施例中，通过对当前车辆的保险维修记录进行预处理，得到预先处理的保险维修记录以及对应的车辆结构化数据，并将该车辆结构化数据作为联合训练模型中线性模型的输入，预先处理的保险维修记录作为非结构化数据输入联合训练模型中的深度学习模型中，以判别当前车辆是否为事故车，若该车辆为事故车，则根据该车辆的结构化数据识别出事故原因，在事故车判别过程中考虑多种复杂因素，实现事故原因与事故车的准确判别。

其中，保险维修记录包括维修记录和保险记录，其按照每个时间节点上车辆的车型、车型年款、维修细节、更换的材料等进行记录的样本。

在一些实施例中，步骤S102之前，还包括：

步骤2.1)，建立车辆的汽车零件词库，所述词库中包括车辆的所有零件；

步骤2.2)，根据事故分析师的标注，划分为零件主要汽车零件词库与非主要汽车零件词库；

步骤2.3)，通过正则表达式对当前车辆的保险维修记录进行过滤处理操作；

这里，为了保证接下来的文本分类识别操作具有更加顺畅的效果，通过正则表达式过滤特殊符号；作为一种可选的实施例，如果需要从保险维修记录中提取特定的字段，也可通过正则表达式进行实现，缩短接下来分类识别操作的时间以及节省运行资源。

步骤2.4)，通过词语处理工具对过滤处理后的保险维修记录进行分词处理以及去除停用词操作；

其中，将过滤处理后的保险维修记录利用经过汽车零件词库生成的词语处理工具例如分词工具进行分词，并去除停用词，能够更加准确地完成分词操作。

步骤2.5)，将去除停用词后的保险维修记录与所述非主要汽车零件词库进行模糊匹配处理，将非主要汽车零件词组去除。

这里，对前述通过正则表达式获取的汽车零件字段，通过模糊匹配方式，识别出主要零件与非主要零件，并将非主要汽车零件词组进行去除，以便为后续操作节省识别分类的时间和运行资源。

需要说明的是，本发明实施例中的非主要汽车零件为低概率会引发故障的零件，同理，主要汽车零件高概率会引发故障，属于需要重点关注的零件。

在一些实施例中，所述车辆结构化数据包括动词名词组合和车辆数据，步骤S104还包括以下步骤：

步骤1.1)，基于概率上下文无关文法将所述预先处理的保险维修记录生成动词名词组合；

其中，动词名词组合通过概率上下文无关文法(Probabilistic Context FreeGrammar，PCFG)生成动词名词组合。

这里，预先处理的保险维修记录包括动词词汇和名词词汇，经概率上下文无关文法生成动词词汇加名词词汇的动词名词组合。

需要说明的是，按照上述方式分别根据维修记录和保险记录各自生成对应的动词名词组合。

作为一种可选的实施例，为保证事故车判别更加准确，将上述动词名词组合与分析师预先标注设计的汽车主要部件词库进行匹配，并将匹配成功的动词名词组合作为后续联合训练模型的输入，以此来判别车辆是否为事故车。

步骤1.2)，从所述预先处理的保险维修记录中抽取车辆数据。这里，与前述实施例相同，分别维修记录和保险记录中抽取对应的车辆数据。

在一些实施例中，所述线性模型包括第一线性模型和第二线性模型，步骤S106中将所述车辆结构化数据输入所述线性模型，还包括：将所述动词名词组合对应的数据源、所述动词名词组合和所述当前车辆的车型输入所述第一线性模型，将所述车辆数据输入第二线性模型。

其中，该数据源为动词名词组合的来源，即该动词名词组合来自维修记录还是保险记录。此外，输入第一线性模型的数据为离散变量，输入第二线性模型的数据为连续变量。

在一些实施例中，步骤S108，还可用以下步骤实现，包括：

步骤3.1)，判断所述事故车是否具有动词名词组合；

步骤3.2)，若有，则根据所述动词名词组合得到事故原因；

步骤3.3)，若无，则根据所述事故车的零件主要汽车零件得到事故原因。

这里，经优化训练后的联合训练模型即可用于预测，若预测为事故车，则将动词名词组合与重要部件做进一步模糊匹配作为事故原因。如车辆A在某个时间点上的维修记录被预测为事故车，且动词名词组合非空，则事故原因即为该动词名词组合(如更换后叶子板、钣金A柱等)，如该动词名词组合为空，则将上述步骤中的人工细分后的主要零件词库与当前记录进行精准与模糊匹配。其中，模糊匹配包括形近词匹配识别、同音词匹配识别、同义词匹配识别等等。

在一些优选实施例中，步骤S108可根据以下公式判别所述当前车辆是否为事故车：

其中，x_d为包括所述动词名词组合的离散变量，

为包括所述车辆数据的连续变量，

为包括所述非结构化数据的文本特征。

可以理解的是，上述公式中输入的解释变量X时，被解释变量Y为车辆是否是事故车的概率，用0或1来表示是否是事故车。上述公式P(Y＝1/X)为输入为X的情况下Y＝1的概率，即当前输入变量，该车辆为事故车的概率值，其中，该解释变量X包括离散变量和连续变量。

这里，两个线性模型分别接受结构化数据(离散特征和连续特征)，深度学习模型为DPCNN模型接受非结构化数据(文本数据)。本发明实施例中数据源、车型、动词名词组合作为离散特征经one-hot独热编码后输入线性模型，汽车年款、当前已跑的公里数、当前维保或保险记录中维修费、材料费用经标准化后作为连续特征输入另一个线性模型(卷积神经网络全连接层FC layer)，维修记录或保险记录作为文本数据输入深度学习模型DPCNN)，模型具体结构见图2。

在一些实施例中，所述联合训练模型通过预先标注的保险维修记录数据、从所述预先标注的保险维修记录数据中提取的车辆结构化数据以及所述预先标注的保险维修记录数据对应的保险维修记录训练而成。

其中，预先标注的保险维修记录为经评估师预先标注过是否会出现故障的保险维修记录，该保险维修记录是按照随机记录时间或维修时间进行抽取，并提供给评估师标注的。

如图3所示，按照时间点从预先处理的保险维修记录中抽取数据，经评估师设计模式，得到标注数据，并基于标注数据划分数据集，用于训练、检验和检测。评估师将汽车零件划分重要部件和非重要部件，生成词库，并结合概率上下文无关文法生成动词名词组合，与预先标注数据中的重要部件进行匹配，利用匹配字段和标注数据共同构建训练联合训练模型。通过训练好的联合训练模型判别当前车辆是否是事故车，若为事故车，则判别动词名词组合是否为空，若为空，则根据车辆数据模糊匹配得到的重要部件确定事故原因；若非空，则将该动词名词组合作为事故原因。

本发明实施例提出一种针对多模态数据集(包括结构化数据和非结构化数据)的联合训练的方法，融合多种类型特征，结构化特征为行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据，如数据来源、车型等离散特征，费用、公里数等连续特征；非结构化数据为不方便用数据库二维逻辑表达实现的数据，如维修保养记录、保险记录等文本、图片、视频类型数据。

本发明实施例面向汽车维修保养和保险记录判断一辆车是否为事故车并提供事故原因，综合考虑了专家规则和深度神经网络联合训练。利用联合训练将公里数、费用等连续数据和车型、专家规则等离散数据及维保等非结构化数据融入到深度学习模型中，有效地提高了事故车分类的精准率和召回率，并给出了判为事故车的原因。例如在维修保养记录记录了该二手车进行了发动机大修，那么该情况可能是因为发动机老化，也可能是因为发生碰撞，然而一般情况下因发动机老化而引起的发动机大修是不会判为事故车的。所以依据离散数据即该车已行使公里数，维修费用等可为判别事故车提供一定的特征依据。又例如对判别事故车有重要影响的但存在歧义的部件，根据维修费用可一定程度地消除歧义进而判别是否为事故车。

如图4所示，本发明实施例提供一种基于联合训练模型的事故车判别装置，联合训练模型包括线性模型和深度学习模型，所述装置包括：

第一获取模块，获取当前车辆的预先处理的保险维修记录；

若是，则识别模块根据所述车辆结构化数据识别事故原因；

若否，则返回模块返回非事故车的结果。

本发明实施例提供的用于实现一种电子设备，本实施例中，所述电子设备可以是，但不限于，个人电脑(Personal Computer，PC)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。

作为一种示范性实施例，可参见图5，电子设备110，包括通信接口111、处理器112、存储器113以及总线114，处理器112、通信接口111和存储器113通过总线114连接；上述存储器113用于存储支持处理器112执行上述图像锐化方法的计算机程序，上述处理器112被配置为用于执行该存储器113中存储的程序。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于联合训练模型的事故车判别方法，其特征在于，联合训练模型包括线性模型和深度学习模型，所述方法包括：

获取当前车辆的预先处理的保险维修记录；

基于所述预先处理的保险维修记录获得车辆结构化数据；

若是，则根据所述车辆结构化数据识别事故原因。

2.根据权利要求1所述的基于联合训练模型的事故车判别方法，其特征在于，所述车辆结构化数据包括动词名词组合和车辆数据，基于所述预先处理的保险维修记录获得车辆结构化数据的步骤，包括：

从所述预先处理的保险维修记录中抽取车辆数据。

3.根据权利要求2所述的基于联合训练模型的事故车判别方法，其特征在于，所述线性模型包括第一线性模型和第二线性模型，将所述车辆结构化数据输入所述线性模型的步骤，包括：

4.根据权利要求1所述的基于联合训练模型的事故车判别方法，其特征在于，在获取当前车辆的预先处理的保险维修记录的步骤之前，还包括：

5.根据权利要求4所述的基于联合训练模型的事故车判别方法，其特征在于，根据所述车辆结构化数据识别事故原因的步骤，包括：

判断所述事故车是否具有动词名词组合；

若有，则根据所述动词名词组合识别出事故原因；

6.根据权利要求2所述的基于联合训练模型的事故车判别方法，其特征在于，将所述车辆结构化数据输入所述线性模型并将所述预先处理的保险维修记录作为车辆非结构化数据输入所述深度学习模型，判别出所述当前车辆是否为事故车的步骤，包括：

根据以下公式判别所述当前车辆是否为事故车：

其中，x_d为包括所述动词名词组合的离散变量，

为包括所述车辆数据的连续变量，

为包括所述非结构化数据的文本特征。

7.根据权利要求1所述的基于联合训练模型的事故车判别方法，其特征在于，所述联合训练模型通过预先标注的保险维修记录数据、从所述预先标注的保险维修记录数据中提取的车辆结构化数据以及所述预先标注的保险维修记录数据对应的保险维修记录训练而成。

8.一种基于联合训练模型的事故车判别装置，其特征在于，联合训练模型包括线性模型和深度学习模型，所述装置包括：

第一获取模块，获取当前车辆的预先处理的保险维修记录；

若是，则识别模块根据所述车辆结构化数据识别事故原因。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任意一项所述的方法。