CN117786427A

CN117786427A - 一种车型主数据匹配方法及系统

Info

Publication number: CN117786427A
Application number: CN202410209859.7A
Authority: CN
Inventors: 杨剑
Original assignee: Sco Digital Technology Co ltd
Current assignee: Sco Digital Technology Co ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-03-29
Anticipated expiration: 2044-02-26
Also published as: CN117786427B

Abstract

本发明公开了一种车型主数据匹配方法及系统，属于智能汽车技术领域。所述方法包括：构建车型数据的语料库，并对语料库中的样本数据进行分词处理；对分词处理后的语料库中的部分样本数据进行噪声增强处理，生成正样本；根据生成的正样本对语料库进行样本扩增，构建训练集；构建车型匹配模型，通过所述训练集训练车型匹配模型；通过车型匹配模型进行不同业务模块的车型数据匹配。本发明通过语料库中的部分样本数据进行噪声增强处理，生成正样本，提高了正样本的抗干扰性，以此方式构建训练集并训练得到车型识别模型，并结合多级匹配算法，可以实现不同业务模块之间的车型数据准确、快速匹配。

Description

一种车型主数据匹配方法及系统

技术领域

本发明属于智能汽车技术领域，具体涉及一种车型主数据匹配方法及系统。

背景技术

随着智能汽车技术和互联网技术的发展，汽车领域涌现了一大批互联网公司，除了传统的汽车销售、租赁、保险等基础服务，还提供车辆定位和导航、自动驾驶技术、车联网技术、车辆安全技术等技术服务以及汽车金融服务、车辆维护和保养、车联网服务等诸多服务功能。

由于汽车领域业务范围广泛，车型数据来源复杂，涉及多个业务模块，汽车车型是业务模块之间信息流的重要内容，而同一车型在不同模块间的不同名称造成了整个系统的割裂，对不同业务之间的信息推送造成了不利影响。例如对于同一款车型，不同业务模块之间的车型数据可能存在差异，甚至含有错误信息，影响了不同业务模块之间的信息对接。由于车型数据量庞大，而车型匹配较为复杂，不同模块之间的车型如使用人工进行匹配显然不现实，因此，对不同业务系统的车型名称进行智能、准确的匹配成为急需解决的问题。

现有的智能车型识别方法多采用机器学习等模型进行车型识别训练，然而在同一款车型的车型描述数据存在差异甚至含有错误信息时，车型识别的准确度难以保障，不利于不同业务模块之间的车型数据准确、快速匹配。

发明内容

有鉴于此，本发明提出了一种车型主数据匹配方法及系统，用于解决汽车领域不同业务模块之间的车型数据不能准确匹配的问题。

本发明第一方面，公开了一种车型主数据匹配方法，所述方法包括：

构建车型数据的语料库，并对语料库中的样本数据进行分词处理；

对分词处理后的语料库中的部分样本数据进行噪声增强处理，生成正样本；

根据生成的正样本对语料库进行样本扩增，构建训练集；

构建车型匹配模型，通过所述训练集训练车型匹配模型；

通过车型匹配模型进行不同业务模块的车型数据匹配。

在以上技术方案的基础上，优选的，所述对分词处理后的语料库中的部分样本数据进行噪声增强处理，生成正样本具体包括：

将语料库中的关键字划分成厂商、品牌、车系、车型四个不同类型；

分别计算对不同类型的关键字进行处理的概率；

按照对不同类型的关键字进行处理的概率，对部分样本数据中的关键字进行替换、删除处理、打乱顺序处理或添加处理；

根据替换、删除处理、打乱顺序处理或添加处理后的样本数据生成正样本。

在以上技术方案的基础上，优选的，所述分别计算对不同类型的关键字进行处理的概率具体包括：

分别计算语料库中厂商、品牌、车系、车型四个类型的关键字的权重：

其中，type代表关键字的类型，type为厂商、品牌、车系、车型四个类型中的一种，kw代表关键字，表示类型type下关键字kw的权重；/>为类型type下关键字kw在语料库中出现的次数，/>为厂商、品牌、车系或车型的所有关键字在语料库中出现的总次数；

根据各个类型的关键字的权重分别计算对厂商、品牌、车系、车型四个类型的关键字进行处理的概率：

其中，代表厂商、品牌、车系或车型的关键字的处理概率，/>为厂商、品牌、车系以及车型的关键字总数。

在以上技术方案的基础上，优选的，所述替换、删除处理包括：

从分词后的语料库中删除车型数据所使用的文字，得到噪声文字库；

从厂商、品牌、车系或车型的关键字的处理概率中随机选出一个概率，按照随机选出的概率从待处理的样本数据中抽样出一个关键字，对抽样出的关键字进行替换或删除，进行替换和删除的概率均为50%；

若进行替换，计算新替换的文字长度L _broken：

其中，W _lb=random(0.2,0.6)，random(·)为随机函数，L _kw为抽样出的关键字的文字长度；

根据新替换的文字长度L _broken从噪声文字库中查找长度最接近的关键字并替换原关键字。

在以上技术方案的基础上，优选的，所述打乱顺序处理具体包括：

将厂商、品牌、车系和车型的关键字的处理概率分别乘以一个修正系数α_correct，得到新的处理概率值；

随机抽取一个新的处理概率值，并根据新的处理概率值的大小决定待处理样本数据是否需要打乱顺序，如需要打乱，则对待处理样本数据中的关键词的顺数进行随机的位置调换。

使用ALBERT模型计算出不同厂商、品牌、车系的词向量，并分别计算不同厂商、品牌或车系之间的余弦相似度Sim _score：

Sim _score =CosSim(W _{emb_1} , W _{emb_2})

其中，W _{emb_1}、W _{emb_2}分别代表2个不同的厂商、品牌或车系的词向量，CosSim()为余弦相似度计算函数；

使用softmax公式分别计算厂商、品牌、车系的关键字的添加概率：

P _add =softmax(Sim _score)

所述添加处理具体包括：

随机选取厂商、品牌、车系中的一种类型数据，按照对应的添加概率进行抽样，向待处理样本数据中添加其他的厂商、品牌、车系的关键字。

在以上技术方案的基础上，优选的，所述车型匹配模型包括依次连接的ALBERT模型、卷积模块和循环模块；

所述ALBERT模型用于提取输入的样本数据的词向量；

所述卷积模块用于对词向量进行降维处理；

所述循环模块用于捕捉不同词向量之间的关系，并计算匹配度。

在以上技术方案的基础上，优选的，所述通过车型匹配模型进行不同业务模块的车型数据匹配的过程中，采用多级匹配算法进行车型主数据匹配；

所述多级匹配算法具体包括：

通过车型匹配模型对不同业务模块的车型数据中的厂商进行一对一匹配，并筛选匹配度最高的前N1个厂商；

从不同业务模块的车型数据中筛选出匹配度较高的前N1个厂商对应的品牌和车系，并将品牌和车系合并成一个字符串，通过车型匹配模型对对应的品牌和车系进行匹配，并筛选出匹配度最高的前N2个品牌和车系；

从不同业务模块的车型数据中筛选出匹配度最高的前N2个品牌和车系对应的车型，通过车型匹配模型对车型进行匹配，输出最终的匹配结果。

本发明第二方面，公开了一种车型主数据匹配系统，所述系统包括：

分词处理模块：用于构建车型数据的语料库，并对语料库中的样本数据进行分词处理；

样本生成模块：用于对分词处理后的语料库中的部分样本数据进行噪声增强处理，生成正样本；根据生成的正样本对语料库进行样本扩增，构建训练集；

模型构建模块：用于构建车型匹配模型，通过所述训练集训练车型匹配模型；

多级匹配模块：用于通过车型匹配模型进行不同业务模块的车型数据匹配。

本发明第三方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如本发明第一方面所述的方法。

本发明相对于现有技术具有以下有益效果：

1）本发明通过对语料库中的部分样本数据进行噪声增强处理，生成正样本，提高了正样本的抗干扰性，根据生成的正样本对语料库进行样本扩增，以此构建训练集并训练车型识别模型，可以实现不同业务模块之间的车型数据准确、快速匹配，即便不同业务模块之间的车型数据差异较大、甚至存在错误信息时也能实现车型主数据准确匹配，打通了不同业务模块之间的信息壁垒，有利于汽车业务系统的集成。

2）本发明将语料库中的关键字划分成厂商、品牌、车系、车型四个不同类型，分别计算对不同类型的关键字进行处理的概率，按照对不同类型的关键字进行处理的概率，对部分样本数据中的关键字进行替换、删除处理、打乱顺序处理或添加处理，生成正样本，可以模拟真实的车型匹配任务中，少量的车型数据存在异常情况，比如会混入其他的厂商、品牌、车系或存在异常文字等情况，从而增强正样本的抗干扰性，以这种方式扩增训练集后训练得到的车型匹配模型具有更好的鲁棒性。

3）本发明使用ALBERT模型计算词向量而不是直接使用ALBERT模型进行车型匹配，当待匹配车型数据众多时，可以预先通过ALBERT模型计算好待匹配车型的词向量，实时车型匹配计算只用计算想要匹配的车型词向量之间的相似度，从而加快计算速度，同时词向量的匹配效果明显更好，能快速处理复杂的匹配关系。

4）本发明采用车型匹配模型计算匹配度，并采用多级匹配算法进行从厂商、品牌、车系到车型的多级匹配，在每一级匹配后进一步缩小匹配的范围，将计算量由上万条降低到数百条，大大提升了计算速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种车型主数据匹配方法流程示意图；

图2为本发明的车型匹配模型结构示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，本发明提出了一种车型主数据匹配方法，所述方法包括：

S1、构建车型数据的语料库，并对语料库中的样本数据进行分词处理。

在网上收集海量的汽车新闻数据，进行清洗处理，并与各业务模块车型数据一起组成语料库。根据语料库训练分词模型，训练后的分词模型能对汽车专有名词进行较好的分析处理。

S2、对分词处理后的语料库中的部分样本数据进行噪声增强处理，生成正样本。

相对于可以大量得到的负样本，正样本很少，直接训练模型效果较差，同时，实际的业务模块中的车型描述数据可能存在一些错误信息，这些而且不同业务模块的车型描述数据各不相同，导致车型匹配的准确度降低，因此需要提高正样本的抗干扰性，以保障车型匹配的准确度。

本发明将语料库中的关键字划分成厂商、品牌、车系、车型四个不同类型，分别计算对不同类型的关键字进行处理的概率，按照对不同类型的关键字进行处理的概率，对部分样本数据中的关键字进行替换、删除处理、打乱顺序处理或添加处理，然后根据替换、删除处理、打乱顺序处理或添加处理后的样本数据生成正样本。

具体实施时，可以采用（1）替换、删除处理，（2）打乱顺序处理，（3）添加处理中的任意一种处理方法对样本数据进行处理，生成正样本。

（1）替换、删除处理。

该处理方式主要是对每条样本数据中的厂商、品牌、车系、车型四种关键字进行破坏，破坏的方式包括替换或删除。

具体的，从分词后的语料库中删除车型数据所使用的文字，得到噪声文字库。

分别计算语料库中厂商、品牌、车系、车型四个类型的关键字的权重，某个类型type下关键词kw的权重为：

其中，type代表关键字的类型，type为厂商、品牌、车系、车型四个类型中的一种，kw代表关键字，表示类型type下关键字kw的权重；/>为类型type下关键字kw在语料库中出现的次数，例如，type=品牌，kw=丰田，则F _丰田为“丰田”在语料库中出现的次数；为厂商、品牌、车系或车型的所有关键字在语料库中出现的总次数，例如F _品牌为所有品牌在语料库中出现的次数。

其中，代表厂商、品牌、车系或车型的关键字的处理概率，/>为语料库中厂商、品牌、车系以及车型的关键字总数。

若进行替换，计算新替换的文字长度L _broken：

其中，W _lb=random(0.2,0.6)，random(·)为随机函数，INT(·)为取整函数，L _kw为抽样出的关键字的文字长度；

（2）打乱顺序处理

该处理方式主要改变每条样本中的关键词的顺序，正常顺序为厂商，品牌，车系，车型，打乱方式如下：

将步骤（1）中厂商、品牌、车系和车型的关键字的处理概率分别乘以一个修正系数α _correct，得到新的处理概率值。可取α _correct=[1.25,1.2,1.15,1.1]。

随机抽取一个新的处理概率值，并根据新的处理概率值的大小决定待处理样本数据是否需要打乱顺序，如果随机抽取的新的处理概率值大于预设阈值，则需要打乱，此时对待处理样本数据中的关键词的顺数进行随机的位置调换，否则不打乱。

（3）添加处理。

该处理方式主要在在每条样本数据中添加其他的厂商，品牌，车系的关键字。

Sim _score =CosSim(W _{emb_1} , W _{emb_2})

其中，W _{emb_1}、W _{emb_2}分别代表2个不同的厂商、品牌或车系的词向量，CosSim()为余弦相似度计算函数。

P _add =softmax(Sim _score)

随机选取厂商、品牌、车系中的一种类型数据，按照对应的添加概率进行抽样，向待处理样本数据中添加其他的厂商、品牌、车系的关键字。例如，假设选到了厂商，前面已计算好各厂商的添加概率，按照添加概率进行抽样，抽出一种厂商添加其他的厂商、品牌、车系的关键字。

本发明分别计算对不同类型的关键字进行处理的概率，按照对不同类型的关键字进行处理的概率，对部分样本数据中的关键字进行替换、删除处理、打乱顺序处理或添加处理，以生成正样本，可以模拟在真实的车型匹配任务中，少量的车型数据存在异常情况，比如会混入其他的厂商、品牌、车系或存在异常文字等情况，从而增强正样本的抗干扰性。

S3、根据生成的正样本对语料库进行样本扩增，构建训练集。

将生成的正样本与语料库中的原有的正负样本一起组成训练集，该训练集中包括了恰当比例的正负样本，且正样本中进行了噪声增强，具有较强的抗干扰能力，以此训练集训练车型匹配模型时，有助于提升模型的稳定性和鲁棒性。

S4、构建车型匹配模型，通过所述训练集训练车型匹配模型。

为了对车型主数据进行快速匹配，本发明设计了新的车型匹配模型。本发明车型匹配模型包含词向量模块和匹配关系计算模块，任务是将需匹配的车型数据A和另一个业务系统B中数万条的车型进行匹配。

本发明的词向量模块采用了ALBERT模型。 ALBERT模型则是BERT模型的轻量化版本，具有参数少，计算速度快的有点，且拥有接近BERT模型的性能。使用时将需匹配的车型数据A和车型数据B分别输入各自的ALBERT模型并计算词向量。

匹配关系计算模块由一个卷积模块和循环模块构成。其中卷积模块用于对词向量进行降维，而循环模块是为了捕捉两个词向量之间的关系，并最终计算两者的匹配度。

如图2所示为本发明的车型匹配模型结构示意图，本发明的车型匹配模型包括依次连接的ALBERT模型、卷积模块和循环模块；

所述ALBERT模型用于提取输入的样本数据的词向量；

所述卷积模块用于采用卷积操作对词向量进行降维处理；

所述循环模块采用循环神经网络，用于捕捉不同词向量之间的关系，并计算匹配度。

整个车型匹配模型的原理是：将待匹配的两个车型数据的文本分别输入对应的ALBERT模型，得到两个词向量，将两个词向量拼接后输入到匹配关系计算模块，得到最终的匹配结果。

传统的文本匹配方式是将两个文本直接输入ALBERT模型，输出匹配结果。而本发明中几万条的待匹配车型词向量可以预先通过ALBERT模型计算好，实时计算只用计算想要匹配的车型词向量之间的相似度，因此本发明采用词向量计算的方式能够加快计算速度，同时词向量的匹配效果明显更好，匹配关系计算模块能基于词向量快速处理复杂的配对关系。

使用大量的汽车新闻语料对ALBERT模型进行预训练对汽车专业知识进行学习，为下一步的车型匹配模型训练打下基础。

采用步骤S3的训练集训练车型匹配模型，车型匹配模型中的ALBERT模型使用前期预训练的ALBERT模型，使用三百多万条数据进行车型匹配任务训练，输出车型数据之间的匹配度。

S5、通过车型匹配模型进行不同业务模块的车型数据匹配。

如图1所示，先将不同业务模块A、B、C中的车型数据通过分词模型进行分词处理，通过训练好的车型匹配模型进行匹配度计算。

以业务模块A和业务模块B的车型为例，若需将业务模块A车型作为匹配目标，则需将业务模块A的车型数据与所有的业务模块B的车型数据进行一对一匹配，为了提升匹配速度，本发明将匹配任务分解，设计了的多级匹配算法。

首先对厂商进行匹配，通过车型匹配模型对不同业务模块A、B的车型数据中的厂商进行一对一匹配，并按照匹配度从大到小将品牌排序，筛选匹配度最高的前N1个厂商；

从不同业务模块的车型数据中筛选出匹配度较高的前N1个厂商对应的品牌和车系，并将品牌和车系合并成一个字符串输入车型匹配模型与车型数据中对应的品牌和车系进行匹配，并筛选出匹配度最高的前N2个品牌和车系；

从不同业务模块的车型数据中筛选出匹配度最高的前N2个品牌和车系对应的车型，最后通过车型匹配模型对车型进行匹配，输出最终的匹配结果。

本发明采用多级匹配算法进行从厂商、品牌、车系到车型的多级匹配，在每一级匹配后进一步缩小匹配的范围，将计算量由上万条降低到数百条，大大提升了计算速度。

在以上方法实施例的基础上，本发明还提出一种车型主数据匹配系统，所述系统包括：

以上系统实施例和方法实施例是一一对应的，系统实施例简述之处请参阅方法实施例即可。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种车型主数据匹配方法，其特征在于，所述方法包括：

根据生成的正样本对语料库进行样本扩增，构建训练集；

构建车型匹配模型，通过所述训练集训练车型匹配模型；

通过车型匹配模型进行不同业务模块的车型数据匹配。

2.根据权利要求1所述的车型主数据匹配方法，其特征在于，所述对分词处理后的语料库中的部分样本数据进行噪声增强处理，生成正样本具体包括：

分别计算对不同类型的关键字进行处理的概率；

3.根据权利要求2所述的车型主数据匹配方法，其特征在于，所述分别计算对不同类型的关键字进行处理的概率具体包括：

；

代表厂商、品牌、车系或车型的关键字的处理概率，/>为厂商、品牌、车系以及车型的关键字总数。

4.根据权利要求3所述的车型主数据匹配方法，其特征在于，所述替换、删除处理包括：

若进行替换，计算新替换的文字长度L _broken：

；

5.根据权利要求3所述的车型主数据匹配方法，其特征在于，所述打乱顺序处理具体包括：

6.根据权利要求2所述的车型主数据匹配方法，其特征在于，所述分别计算对不同类型的关键字进行处理的概率具体包括：

Sim _score =CosSim(W _{emb_1}，W _{emb_2})

使用softmax公式分别计算对厂商、品牌、车系的关键字的添加概率P _add：

P _add =softmax(Sim _score)

所述添加处理具体包括：

7.根据权利要求1所述的车型主数据匹配方法，其特征在于，所述车型匹配模型包括依次连接的ALBERT模型、卷积模块和循环模块；

所述ALBERT模型用于提取输入的样本数据的词向量；

所述卷积模块用于对词向量进行降维处理；

所述循环模块用于捕捉不同词向量之间的关系，并计算匹配度；所述循环模块采用循环神经网络。

8.根据权利要求7所述的车型主数据匹配方法，其特征在于，所述通过车型匹配模型进行不同业务模块的车型数据匹配的过程中，采用多级匹配算法进行车型主数据匹配；

所述采用多级匹配算法进行车型主数据匹配具体包括：

9.一种车型主数据匹配系统，其特征在于，所述系统包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如权利要求1~7任一项所述的方法。