CN117312880B

CN117312880B - 一种车辆基本信息数据的处理方法和装置

Info

Publication number: CN117312880B
Application number: CN202311597222.1A
Authority: CN
Inventors: 董娜; 刚红润; 李彦林; 王娟; 沈严航; 闫建朝; 李玮; 孙东泉; 冯淑贞
Original assignee: China Academy of Transportation Sciences
Current assignee: China Academy of Transportation Sciences
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-02-23
Anticipated expiration: 2043-11-28
Also published as: CN117312880A

Abstract

本发明提供一种车辆基本信息数据的处理方法和装置，该方法包括以预定周期，基于车辆唯一标识将多条车辆基本信息数据进行聚合分组；计算车辆基本信息数据组中车辆基本信息数据的属性字段集之间的相似度，获取属性字段集之间的最大相似度对应的候选车辆基本信息数据；将候选车辆基本信息数据的空白属性字段进行填充，并将填充后的候选车辆基本信息数据合并为一条合并车辆基本信息数据，根据车辆运单数据校验合并车辆基本信息数据的第一属性字段内容，根据校验结果将其存入车辆唯一信息正确库或车辆唯一信息错误库，从而提高了车辆基本信息数据处理的效率以及后续车辆基本信息数据的校验准确性。

Description

一种车辆基本信息数据的处理方法和装置

技术领域

本发明涉及多源数据处理及融合领域，更具体地，涉及一种车辆基本信息数据的处理方法和装置。

背景技术

随着互联网和移动通信技术的发展，基于网络货运平台的物流新业态得到快速发展。为了对网络货运平台上的网络货运业务行为进行监管，各网络货运平台需要向主管部门的网络货运信息监测系统上传车辆基本信息单、车辆运单、驾驶员基本信息单、资金流水单等相关单据。主管部门依托网络货运信息监测系统对各网络货运平台上传的单据进行清洗和核验，构建统一的货运车辆的基准校验信息库，以用于对网络货运平台的网络货运业务进行动态监测和异常校验。

目前，对各网络货运平台上传的单据进行清洗和核验，构建统一的货运车辆的基准校验信息库通常基于常规的多源数据融合技术，由于货运车辆可自由选择网络货运平台企业合作，车辆信息可在多家平台注册，并且各网络货运平台分别上传的单据可能存在字段缺失、填写错误、格式差异等问题，对上传的单据的清洗和核验需要过多依赖人工处理，效率极为低下，不利于对网络货运平台的网络货运业务进行有效地动态监测和异常校验。

发明内容

本发明的目的在于提供一种车辆基本信息数据的处理方法和装置。以解决现有技术中各网络货运平台上传的车辆基本信息数据可能存在的字段缺失、填写错误、格式差异等问题。

本发明提供了一种车辆基本信息数据的处理方法，包括以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组，得到至少一个车辆基本信息数据组，车辆基本信息数据组包括至少两条车辆基本信息数据，车辆基本信息数据包括多个属性字段；计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度，得到至少两条车辆基本信息数据的属性字段集之间的最大相似度，属性字段集为车辆基本信息数据的全部属性字段的集合；获取至少两条车辆基本信息数据的属性字段集之间的最大相似度对应的至少两条候选车辆基本信息数据；基于接收的多条车辆运单数据，获得与候选车辆基本信息数据的车辆唯一标识匹配的至少一条车辆运单数据，计算至少一条车辆运单数据的可靠性程度，并基于至少一条车辆运单数据的可靠性程度和至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，得到至少两条候选车辆基本信息数据的合并车辆基本信息数据；基于至少一条车辆运单数据，校验合并车辆基本信息数据的第一属性字段的内容是否正常，如是，则将合并车辆基本信息数据存入车辆唯一信息正确库，如否，则将合并车辆基本信息数据存入车辆唯一信息错误库。

在其中一个实施例中，计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度，还包括：计算每个车辆基本信息数据组的至少两条车辆基本信息数据的主要属性字段的内容的第一非空概率值和次要属性字段的内容的第二非空概率值，分别作为第一权重和第二权重；计算每个车辆基本信息数据组的至少两条车辆基本信息数据的相匹配的属性字段的第二匹配度乘以对应的第一权重或第二权重的第一加权和，与每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集的并集中的每个属性字段的第二匹配度乘以对应的第一权重或第二权重的第二加权和之间的比值，作为至少两条车辆基本信息数据的属性字段集之间的相似度。

在其中一个实施例中，基于至少一条车辆运单数据的可靠性程度和至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，还包括：依次计算至少两条候选车辆基本信息数据的每两条候选车辆基本信息数据的每个属性字段的第一匹配度，得到第一匹配度超过第一阈值的至少两个属性字段；在第一匹配度超过第一阈值的至少两个属性字段中，根据第一匹配度对应的两个属性字段中非空白的属性字段填充空白的属性字段。

在其中一个实施例中，计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度之前，还包括：剔除每个车辆基本信息数据组中，具有关联性的车辆基本信息数据。

在其中一个实施例中，当车辆基本信息数据组中的至少两条车辆基本信息数据的属性字段集的相似度均超过第二阈值时，将第一上传时间所对应的车辆基本信息数据存入车辆唯一信息正确库。

在其中一个实施例中，当车辆运单数据的可靠性程度低于第三阈值时，计算车辆基本信息数据组中的最大似然车辆基本信息数据，并基于至少一条车辆运单数据，校验最大似然车辆基本信息数据的第一属性字段的内容是否正常，如是，则将最大似然车辆基本信息数据存入车辆唯一信息正确库，如否，则将最大似然车辆基本信息数据存入车辆唯一信息错误库。

在其中一个实施例中，当车辆基本信息数据组中只包括一条车辆基本信息数据时，调用全国运政信息库校验车辆基本信息数据的多个属性字段内容，当校验结果正常时，将车辆基本信息数据存入车辆唯一信息正确库，当校验结果异常时则将车辆基本信息数据存入车辆唯一信息错误库。

在其中一个实施例中，本发明提供的一种车辆基本信息数据的处理方法，还包括：接收一条新的车辆基本信息数据；基于车辆唯一信息正确库判断新的车辆基本信息数据的多个属性字段的内容是否正常，当新的车辆基本信息数据的多个属性字段的内容均正常时，判定新的车辆基本信息数据为正常数据。

在其中一个实施例中，当新的车辆基本信息数据的多个属性字段的内容为异常时，判断是否为多个属性字段中的第二属性字段或第三属性字段的内容异常，若是则判断第二属性字段的内容或第三属性字段的内容是否更新，根据判断结果更新车辆唯一信息正确库。

本发明提供了一种车辆基本信息数据的处理装置，包括：

数据接收模块，用于接收多条车辆基本信息数据和多条车辆运单数据；

数据聚合分组模块，用于以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组，得到至少一个车辆基本信息数据组；

相似度计算模块，用于计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度，得到至少两条车辆基本信息数据的属性字段集之间的最大相似度；

数据填充模块，获取至少两条车辆基本信息数据的属性字段集之间的最大相似度对应的至少两条候选车辆基本信息数据；基于接收的多条车辆运单数据，获得与候选车辆基本信息数据的车辆唯一标识匹配的至少一条车辆运单数据，计算至少一条车辆运单数据的可靠性程度，并基于至少一条车辆运单数据的可靠性程度和至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，得到至少两条候选车辆基本信息数据的合并车辆基本信息数据；

数据校验模块，用于基于至少一条车辆运单数据，校验合并车辆基本信息数据的第一属性字段的内容是否正常，如是，则将合并车辆基本信息数据存入车辆唯一信息正确库，如否，则将合并车辆基本信息数据存入车辆唯一信息错误库。

本发明提供的一种车辆基本信息数据的处理方法和装置，通过将预定周期内的车辆基本信息数据进行聚合分组，进而计算车辆基本信息数据组中车辆基本信息数据的属性字段集之间的相似度，获得属性字段集之间的最大相似度对应的候选车辆基本信息数据，并基于车辆运单数据的可靠性程度和候选车辆基本信息数据的属性字段之间的第一匹配度将候选车辆基本信息数据的空白属性字段进行填充，并且基于车辆运单数据或全国运政信息库校验候选车辆基本信息数据的属性字段的内容是否正确，基于属性字段的内容为正确的车辆基本信息数据建立车辆唯一信息正确库，排除了同一车辆唯一标识下，相似度较低的车辆基本信息数据的干扰，提高了车辆基本信息数据处理的效率，以及后续车辆基本信息数据的校验准确性。

附图说明

图1为一个实施例中一种车辆基本信息数据的处理方法的流程图；

图2为一个实施例中计算车辆基本信息数据组中的车辆基本信息数据的属性字段集之间的相似度的流程图；

图3为一个实施例中填充候选车辆基本信息数据中的空白属性字段的流程图；

图4为一个实施例中计算最大似然车辆基本信息数据的流程图；

图5为另一个实施例中一种车辆基本信息数据的处理方法的流程图；

图6A-图6F为又一个实施例中一种车辆基本信息数据的处理方法的流程图；

图7为一个实施例中一种车辆基本信息数据的处理装置的结构示意图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。这里使用的词语“一”、“一个（种）”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

另外，本文中尽管多次采用术语“第一”、“第二”等来描述各种元件(或各种阈值或各种应用或各种指令或各种操作)等，不过这些元件(或阈值或应用或指令或操作)不应受这些术语的限制。这些术语只是用于区分一个元件(或阈值或应用或指令或操作)和另一个元件(或阈值或应用或指令或操作)。例如，第一阈值可以被称为第二阈值，第二阈值也可以被称为第一阈值，而不脱离本发明的范围，第一阈值和第二阈值并非相同的阈值。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

本发明提供了一种车辆基本信息数据的处理方法，如图1所示，该方法主要包括以下步骤：

步骤S101：以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组，得到至少一个车辆基本信息数据组。

在本实施例中，一条完整的车辆基本信息数据的属性字段包括14个属性字段。举例来说，14个属性字段包括：车牌号码（VehicleNumber）、车牌颜色（VehiclePlateColorCode）、道路运输证号（RoadTransportCertificateNumber）、车辆类型（VehicleType）、所有人（Owner）、使用性质（UseCharacter）、车辆识别代号（VIN）、发证机关（IssuingOrganization）、注册日期（RegisterDate）、发证日期（IssueDate ）、车辆能源类型（VehicleEnergyType）、核定载质量（VehicleTonnag）、吨位（GrossMass ），年检日期（AnnualinspectionDate）。

在一个实施例中，每个属性字段均填充有对应的内容，例如车牌号码（VehicleNumber）填充的内容为冀E3404Z。

在本实施例中，预定周期为固定的时间段，具体地，可以为大于一个月的时间段。举例来说，以两个月为预定周期，将两个月内接收到车辆基本信息数据进行聚合分组。

在本实施例中，车辆唯一标识可以为车牌号码（VehicleNumber）或道路运输证号（RoadTransportCertificateNumber）的内容。

在一个实施例中，吨位（GrossMass ）在4.5吨以上的车辆，道路运输证号（RoadTransportCertificateNumber）的内容不能为空白，也就是说，吨位（GrossMass ）在4.5吨以上的车辆，若车牌号码（VehicleNumber）的内容为空白，则将道路运输证号（RoadTransportCertificateNumber）的内容作为车辆唯一标识。同理，吨位（GrossMass ）在4.5吨以下的车辆，若道路运输证号（RoadTransportCertificateNumber）的内容为空白，则使用车牌号码（VehicleNumber）的内容作为车辆唯一标识。

在一个实施例中，一个车辆基本信息数据组可以包括一条车辆基本信息数据。

在一个实施例中，多条车辆基本信息数据由同一个网络货运平台发送至服务器。

具体地，车辆基本信息数据以14列1行的集合形式表示，属性字段的内容可能为空白。例如网络货运平台A上传的3条车辆基本信息数据，其属性字段的内容如下：

V_A11[京P69728,2,370282317652,H11,李四,拉货,LFWRMXNF3AAC07583,城南车管所,20191010,20101010,B,10,10,20211010]；

V_A12[京P69728,2,370282317652,H11,李四,拉货,LFWRMXNF3AAC07583,城南车管所,20191010,20101010,0,10,10,20211010]；

V_A21[京P63126,2,487082317231,H11,张三,拉货,LFWRMXNF3ABA03423,城南车管所,20191021,20101021,B,10,10,20211010]。

上述车辆基本信息数据V_A11、V_A12、V_A21中，V_A12的车辆能源类型（VehicleEnergyType）的内容为空白，即0值。

在一个实施例中，将车牌号码（VehicleNumber）的内容作为车辆唯一标识，将相同车牌号码对应的车辆基本信息数据作为一个车辆基本信息数据组。

举例来说，V_A11、V_A12均为车牌号码京P69728所对应的2条车辆基本信息数据，因此V_A11、V_A12为一个车辆基本信息数据组中的2条车辆基本信息数据，V_A21则为另一个车辆基本信息数据组中的1条车辆基本信息数据。

在一个实施例中，将道路运输证号（RoadTransportCertificateNumber）的内容作为车辆唯一标识，将相同道路运输证号对应的车辆基本信息数据作为一个车辆基本信息数据组。举例来说，V_A11、V_A12均为道路运输证号370282317652所对应的2条车辆基本信息数据，因此V_A11、V_A12为一个车辆基本信息数据组中的2条车辆基本信息数据，V_A21则为另一个车辆基本信息数据组中的1条车辆基本信息数据。

在一个实施例中，多条车辆基本信息数据由不同的网络货运平台上传。

例如货运平台A上传的2条车辆基本信息数据：

以及货运平台B上传的1条车辆基本信息数据：

V_B11[京P69728,2,370282317652,H11,张三,拉货,LFWRMXNF3AAC07583,城南车管所,20191010,20101010,B,10,10,20211010]。

在一个实施例中，网络货运平台A上传的车辆基本信息数据V_A11以及网络货运平台B上传的车辆基本信息数据V_B11均为车牌号码京P69728所对应的2条车辆基本信息数据，因此V_A11、V_B11为一个车辆基本信息数据组中的2条车辆基本信息数据，V_A21则为另一个车辆基本信息数据组的1条车辆基本信息数据。

在一个实施例中，V_A11、V_B11均为道路运输证号370282317652所对应的2条车辆基本信息数据，因此V_A11、V_B11为一个车辆基本信息数据组中的2条车辆基本信息数据，V_A21则为另一个车辆基本信息数据组中的1条车辆基本信息数据。

在本实施例中，每个属性字段的内容均有对应的格式，例如车牌号码的内容对应的格式为：省份/直辖市/自治区简称+所属地市级简称+5位字母及数字，车牌颜色的内容对应的格式为1位数字代码。

在一个实施例中，根据字符长度判断属性字段的内容是否存在格式异常，将格式异常的车辆基本信息数据存入车辆唯一信息错误库。

步骤S102：计算所述至少一个车辆基本信息数据组中每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度，得到所述至少两条车辆基本信息数据的属性字段集之间的最大相似度。

在本实施例中，网络货运平台在发送车辆基本信息数据时，属性字段可能会出现不一致的情况，会导致后续车辆基本信息数据填充及校验不准确，因此针对车辆基本信息数据组中的车辆基本信息数据，需要进行属性字段集之间的相似度计算。

举例来说，一个车辆基本信息数据组包括4条车辆车辆基本信息数据，其属性字段如下：

V_A31[车牌号码,车牌颜色,道路运输证号,车辆类型,所有人,使用性质,车辆识别代号,发证机关,注册日期,发证日期,车辆能源类型,核定载质量,吨位,年检日期]；

V_A32[车牌号,车牌颜色,道路运输证号,车辆类型,车主,使用性质,车辆识别代号,发证机关,注册日期,发证日期,车辆能源类型,核定载质量,0,年检日期]；

V_A33[车牌号,车牌颜色,道路运输证号,车辆类型,所有人,使用性质,车辆识别代号,发证机关,注册日期,发证日期,车辆能源类型,核定载质量,0,年检时间]；

V_A34[车牌号码,车牌颜色,道路运输证号,车辆类型,车辆持有人,使用性质,车辆识别代号,发证机关,注册日期,发证日期,车辆能源类型,核定载质量,核定载质量,年检时间]；

上述4条车辆基本信息数据中，所有人（Owner ）的名称还包括车主（vehicleowner）、车辆持有人（Vehicleholder），车牌号码（VehicleNumber）的名称还包括车牌号（LicensePlateNumber），也就是说，所有人的属性字段或车牌号码的属性字段不一致，为了保证后续车辆基本信息数据填充及校验的准确性，需要进行属性字段集之间的相似度计算。

在一个实施例中，车辆基本信息数据的属性字段可能为空白，例如上述4条车辆基本信息数据中，V_A32、V_A33存在一个属性字段为空白，即0值，相应的，该属性字段的内容也为空白。

在一个实施例中，车辆基本信息数据的属性字段可以是英文代码。

在一个实施例中，计算车辆基本信息数据组中，每两条车辆基本信息数据的属性字段集之间的相似度。举例来说，一个车辆基本信息数据组包括4条车辆基本信息数据：V_A31、V_A32、V_A33、V_A34，分别计算V_A31与V_A32、V_A31与V_A33、V_A31与V_A34、V_A32与V_A33、V_A32与V_A34、V_A33与V_A34的属性字段集之间的相似度。

在本实施例中，属性字段集为一条车辆基本信息数据的全部属性字段的集合，属性字段集之间的相似度为每个车辆基本信息数据组中，每两条车辆基本信息数据的全部属性字段的集合的相似度。

在一个实施例中，可以设置标准车辆基本信息数据，计算车辆基本信息数据组中每条车辆基本信息数据与标准车辆基本信息数据的属性字段集之间的相似度，得到最大相似度对应的至少一条车辆基本信息数据。其中，标准车辆基本信息数据即所有属性字段为标准名称，且属性字段个数为14个的一条车辆基本信息数据，将标准车辆基本信息数据的属性字段集作为参照数据进行相似度计算。

例如，标准车辆基本信息数据可以为：

V₀[车牌号码,车牌颜色,道路运输证号,车辆类型,所有人,使用性质,车辆识别代号,发证机关,注册日期,发证日期,车辆能源类型,核定载质量,吨位,年检日期]。

步骤S103：获取所述至少两条车辆基本信息数据的属性字段集之间的最大相似度对应的至少两条候选车辆基本信息数据；基于接收的多条车辆运单数据，获得与所述候选车辆基本信息数据的车辆唯一标识匹配的至少一条车辆运单数据，计算所述至少一条车辆运单数据的可靠性程度，并基于所述至少一条车辆运单数据的可靠性程度和所述至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将所述至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，得到所述至少两条候选车辆基本信息数据的合并车辆基本信息数据。

在本实施例中，车辆运单数据包括车牌号码（VehicleNumber）、车牌颜色（VehiclePlateColorCode）。

在本实施例中，当每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度未全部超过第二阈值时，也就是说，至少存在两条车辆基本信息数据的属性字段集之间的相似度低于第二阈值，将属性字段集之间的最大相似度对应的车辆基本信息数据作为候选车辆基本信息数据。其中，第二阈值为属性字段集的相似度为95%。

在一个实施例中，候选车辆基本信息数据为2条。

在一个实施例中，候选车辆基本信息数据大于2条，则将属性字段为空白的数量最少的至少两条车辆基本信息数据作为候选车辆基本信息数据。

在本实施例中，至少一条车辆运单数据的可靠性程度即同一车辆唯一标识下的至少一条车辆运单数据中，判定为可靠的车辆运单数据的占比。

在一个实施例中，基于车辆轨迹及驾驶员轨迹判断一条车辆运单数据是否可靠，当车辆轨迹与驾驶员轨迹位置误差小于第一预设误差值时，则判定该条车辆运单数据为可靠。

在一个实施例中，第一预设误差值为5%。

在一个实施例中，基于网络货运平台的信用评分判断一条车辆运单数据是否可靠。具体地，网络货运平台的信用评分来自第三方平台评价软件。信用评分超过第一预设分值即可判定该条车辆运单数据可靠。

在一个实施例中，第一预设分值为90分。

在本实施例中，当可靠性程度大于第三阈值时，根据至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，其中第三阈值即判定为可靠的车辆运单数据的占比为90%。

步骤S104：基于所述至少一条车辆运单数据，校验所述合并车辆基本信息数据的第一属性字段的内容是否正常，如是，则将所述合并车辆基本信息数据存入车辆唯一信息正确库，如否，则将所述合并车辆基本信息数据存入车辆唯一信息错误库。

在本实施例中，第一属性字段为车牌颜色（VehiclePlateColorCode ）。

在本实施例中，校验填充后的候选车辆基本信息数据的所有属性字段的内容是否一致，若不一致，则将填充后的候选车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，每个属性字段的内容包括多个字符，可以基于ASCII码或Unicode码点校验填充后的车辆基本信息数据中的属性字段的内容是否一致。

在一个实施例中，当填充后的候选车辆基本信息数据的属性字段的内容一致时，将两条候选车辆基本信息数据进行合并，得到合并车辆基本信息数据，校验合并车辆基本信息数据的主要属性字段及主要属性字段的内容是否为空白，若任意一个主要属性字段或主要属性字段的内容为空白，则将该合并车辆基本信息数据存入车辆唯一信息错误库。

在本实施例中，当填充后的候选车辆基本信息数据的属性字段的内容均一致，主要属性字段及主要属性字段的内容不为空白，且吨位（GrossMass ）的内容为小于4.5吨，将两条候选车辆基本信息数据进行合并，得到合并车辆基本信息数据，校验合并车辆基本信息数据的车牌颜色（VehiclePlateColorCode ）的内容是否与对应的多条车辆运单数据中，频率最大的车牌颜色的内容一致，若不一致，则将合并车辆基本信息数据存入车辆唯一信息错误库中。若一致，则进一步基于人工校验合并车辆基本信息数据中，填充的属性字段的内容是否正确，若均正确则将合并车辆基本信息数据存入车辆唯一信息正确库中，若任意一个填充的属性字段的内容不正确则将合并车辆基本信息数据存入车辆唯一信息错误库中。

在一个实施例中，填充后的候选车辆基本信息数据的属性字段的内容均一致，主要属性字段及主要属性字段的内容不为空白，且吨位（GrossMass ）的内容为大于4.5吨，将两条候选车辆基本信息数据进行合并，得到合并车辆基本信息数据，调用全国运政信息库校验合并车辆基本信息数据的属性字段的内容。具体地，向全国运政信息库发送属性字段的内容，例如所有人张三，全国运政信息库向服务器返回正确或错误的判断结果，当服务器接收到的所有属性字段的内容的判断结果均为正确时，将合并车辆基本信息数据存入车辆唯一信息正确库中，当服务器接收到任意一个属性字段的内容的判断结果为错误时，将合并车辆基本信息数据存入车辆唯一信息错误库中。

本发明通过计算车辆基本信息数据组中的至少两条车辆基本信息数据的属性字段集之间的相似度，基于最大相似度对应的候选车辆基本信息数据进行空白属性字段的填充及校验，剔除了相似度较低的车辆基本信息数据的干扰，提高了后续车辆基本信息数据填充及校验的效率。

本发明基于车辆运单数据的可靠性程度以及属性字段之间的第一匹配度，填充候选车辆基本信息数据中的空白属性字段，在保证了候选车辆基本信息数据的完整性的同时，提高了填充的准确性。

在一个实施例中，如图2所示，所述步骤S102，所述计算所述至少一个车辆基本信息数据组中每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度，还包括：

步骤S201，计算每个车辆基本信息数据组的所述至少两条车辆基本信息数据的主要属性字段的内容的第一非空概率值和次要属性字段的内容的第二非空概率值，分别作为第一权重和第二权重。

在一个实施例中，主要属性字段包括车牌号码（VehicleNumber ）、车牌颜色（VehiclePlateColorCode）、道路运输证号（RoadTransportCertificateNumber）、所有人（Owner），其他属性字段为次要属性字段。

在本实施例中，主要属性字段的内容的第一非空概率值为服务器接收到的所有车辆基本信息数据中，主要属性字段的内容为非空白的车辆基本信息数据的占比；次要属性字段的内容的第二非空概率值为服务器接收到的所有车辆基本信息数据中，次要属性字段的内容为非空白的车辆基本信息数据的占比。

在一个实施例中，还可以计算每个网络货运平台发送的所有车辆基本信息数据中，主要属性字段的内容为非空白的车辆基本信息数据的占比，并将多个不同网络货运平台发送的所有车辆基本信息数据中，主要属性字段的内容为非空白的车辆基本信息数据的占比的平均值作为第一非空概率值；同理，计算每个网络货运平台发送的所有车辆基本信息数据中，次要属性字段的内容为非空白的车辆基本信息数据的占比，并将多个不同网络货运平台发送的所有车辆基本信息数据中，次要属性字段的内容为非空白的车辆基本信息数据的占比的平均值作为第二非空概率值。

举例来说，网络货运平台A上传的所有车辆基本信息数据中，主要属性字段的内容为非空白的车辆基本信息数据的占比为a₁，次要属性字段的内容为非空白的车辆基本信息数据的占比为a₂，网络货运平台B上传的所有车辆基本信息数据中，主要属性字段的内容为非空白的车辆基本信息数据的占比为b₁，次要属性字段的内容为非空白的车辆基本信息数据的占比为b₂，网络货运平台C上传的所有车辆基本信息数据中，主要属性字段的内容为非空白的车辆基本信息数据的占比为c₁，次要属性字段的内容为非空白的车辆基本信息数据的占比为c₂，将a₁、b₁、c₁的平均值作为第一非空概率值，a₂、b₂、c₂的平均值作为第一非空概率值。

在本实施例中，主要属性字段的内容为非空白即一条车辆基本信息数据中，所有主要属性字段的内容均为非空白。也就是说，一条车辆基本信息数据中，车牌号码（VehicleNumber ）、车牌颜色（VehiclePlateColorCode）、道路运输证号（RoadTransportCertificateNumber）、所有人（Owner）均为非空白。

在本实施例中，次要属性字段的内容为非空白即一条车辆基本信息数据中，所有次要属性字段的内容均为非空白。

在一个实施例中，赋予第一权重为预设值，第二权重为第一权重的90%。具体地，可以根据本领域技术人员的经验赋予第一权重为预设值。

步骤S202，计算所述每个车辆基本信息数据组的所述至少两条车辆基本信息数据的相匹配的属性字段的第二匹配度乘以对应的第一权重或第二权重的第一加权和，与所述每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集的并集中的每个属性字段的第二匹配度乘以对应的第一权重或第二权重的第二加权和之间的比值，作为所述至少两条车辆基本信息数据的属性字段集之间的相似度。

在本实施例中，在每个车辆基本信息数据组中，计算每两条车辆基本信息数据的属性字段集之间的相似度，将该两条车辆基本信息数据的所有属性字段作为属性字段集的并集。

举例来说，一个车辆基本信息数据组中包括2条车辆基本信息数据：

V_A41[X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀,X₁₁,X₁₂,X₁₃,X₁₄]；

V_A42[Y₁,Y₂,Y₃,Y₄,Y₅,Y₆,Y₇,Y₈,Y₉,Y₁₀,Y₁₁,Y₁₂,Y₁₃,Y₁₄]。

上述车辆基本信息数据组中，V_A41和V_A42的属性字段集的并集为[X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀,X₁₁,X₁₂,X₁₃,X₁₄,Y₁,Y₂,Y₃,Y₄,Y₅,Y₆,Y₇,Y₈,Y₉,Y₁₀,Y₁₁,Y₁₂,Y₁₃,Y₁₄]。

在一个实施例中，属性字段的第二匹配度即属性字段的余弦相似度，第二匹配度大于85%即为相匹配的属性字段。

举例来说，上述两条车辆基本信息数据组中，即V_A41和V_A41中，X₁、X₂、X₃、X₅和Y₁、Y₂、Y₃、Y₅为主要属性字段，第一权重均为n₁，X₄、X₆、X₇、X₈、X₉、X₁₀、X₁₁、X₁₂、X₁₃、X₁₄和Y₄、Y₆、Y₇、Y₈、Y₉、Y₁₀、Y₁₁、Y₁₂、Y₁₃、Y₁₄为次要属性字段，第二权重均为n₂。

V_A41中的每个属性字段分别与V_A42中的所有属性字段逐一进行第二匹配度计算，或V_A42中的每个属性字段分别与V_A42中的所有属性字段逐一进行第二匹配度计算。

举例来说，X₁、X₂、X₃、X₅与Y₁、Y₂、Y₃、Y₅的第二匹配度分别为m₁、m₂、m₃、m₅，其中m₁、m₃的值大于80%，即X₁与Y₁相匹配，X₃与Y₃相匹配。X₄、X₆、X₇、X₈、X₉、X₁₀、X₁₁、X₁₂、X₁₃、X₁₄与Y₄、Y₆、Y₇、Y₈、Y₉、Y₁₀、Y₁₁、Y₁₂、Y₁₃、Y₁₄的第二匹配度分别为m₄、m₆、m₇、m₈、m₉、m₁₀、m₁₁、m₁₂、m₁₃、m₁₄，其中m₇、m₈、m₉、m₁₀、m₁₁、m₁₂、m₁₃的值大于80%，即X₇、X₈、X₉、X₁₀、X₁₁、X₁₂、X₁₃分别与Y₇、Y₈、Y₉、Y₁₀、Y₁₁、Y₁₂、Y₁₃相匹配。

则上述两条车辆基本信息数据组中，V_A41和V_A42的属性字段集之间的相似度为：

(m₁×n₁+m₃×n₁+m₇×n₂+m₈×n₂+m₉×n₂+m₁₀×n₂+m₁₁×n₂+m₁₂×n₂+m₁₃×n₂)/(m₁×n₁+m₂×n₁₊m₃×n₁+m₅×n₁+m₄×n₂+m₆×n₂+m₇×n₂+m₈×n₂+m₉×n₂+m₁₀×n₂+m₁₁×n₂+m₁₂×n₂+m₁₃×n₂+m₁₄×n₂)，其中第一加权和为：

m₁×n₁+m₃×n₁+m₇×n₂+m₈×n₂+m₉×n₂+m₁₀×n₂+m₁₁×n₂+m₁₂×n₂+m₁₃×n₂。

第二加权和为：

m₁×n₁+m₂×n₁₊m₃×n₁+m₅×n₁+m₄×n₂+m₆×n₂+m₇×n₂+m₈×n₂+m₉×n₂+m₁₀×n₂+m₁₁×n₂+m₁₂×n₂+m₁₃×n₂+m₁₄×n₂。

在一个实施例中，将每两条车辆基本信息数据的属性字段利用词袋模型或TF-IDF转化为向量，向量的维度个数表示属性字段的字符个数，向量的维度值表示字符在服务器接收到的所有车辆基本信息数据中的出现概率，基于向量的长度与内积计算两个向量之间的余弦相似度，并将该余弦相似度作为每两条车辆基本信息数据的属性字段之间的第二匹配度。

举例来说，X₁、Y₁分别为上述2条车辆基本信息数据V_A41、V_A42中的属性字段，将X₁、Y₁分别转化为向量，其中X₁包含x₁₁、x₁₂、x₁₃3个维度，即X₁有3个字符，同样的Y₁包含y₁₁、y₁₂、y₁₃3个维度，即Y₁有3个字符。也就是说，X₁、Y₁所包含的字符个数相同。其中x₁₁、x₁₂、x₁₃在服务器接收到的所有车辆基本信息数据中的出现概率分别为k₁₁、k₁₂、k₁₃，y₂₁、y₂₂、y₂₃在服务器接收到的所有车辆基本信息数据中的出现概率分别为p₁₁、p₁₂、p₁₃。

则X₁与Y₁的第二匹配度=(X₁与Y₁的内积) / (X₁的长度 × Y₁的长度)，其中X₁与Y₁的内积是指对应维度的乘积之和，即k₁₁×p₁₁+k₁₂×p₁₂+k₁₃×p₁₃，X₁的长度或Y₁的长度为每个维度的平方和再开平方根，即k₁₁ ²+k₁₂ ²+k₁₃ ²的平方根，和p₁₁ ²+p₁₂ ²+p₁₃ ²的平方根。

举例来说，X₂、Y₂分别为上述2条车辆基本信息数据V_A41、V_A42中的属性字段，将X₂、Y₂分别转化为向量，其中X₂包含x₂₁、x₂₂、x₂₃3个维度，即X₂有3个字符，同样的Y₂包含y₂₁、y₂₂、y₂₃、y₂₄、y₂₅5个维度，即Y₂有5个字符。也就是说，X₂、Y₂所包含的字符个数不同。其中x₂₁、x₂₂、x₂₃在服务器接收到的所有车辆基本信息数据中的出现概率分别为k₂₁、k₂₂、k₂₃，y₂₁、y₂₂、y₂₃、y₂₄、y₂₅在服务器接收到的所有车辆基本信息数据中的出现概率分别为p₂₁、p₂₂、p₂₃、p₂₄、p₂₅。

则X₂与Y₂的第二匹配度=(X₂与Y₂的内积) / (X₂的长度 × Y₂的长度)，其中X₂与Y₂的内积是指对应维度的乘积之和，即k₂₁×p₂₁+k₂₂×p₂₂+k₂₃×p₂₃+0×p₂₄+0×p₂₅，向量X的长度或向量Y的长度为每个维度的平方和再开平方根，即k₂₁ ²+k₂₂ ²+k₂₃ ²的平方根，和p₂₁ ²+p₂₂ ²+p₂₃ ²+p₂₄ ²+p₂₅ ²的平方根。

本发明通过将主要属性字段与次要属性字段设置第一权重与第二权重，提高了车辆基本信息数据的属性字段集之间的相似度计算的准确性。

如图3所示，在一个实施例中，所述基于所述至少一条车辆运单数据的可靠性程度和所述至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将所述至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，还包括：

步骤S301：依次计算所述至少两条候选车辆基本信息数据的每两条候选车辆基本信息数据的每个属性字段的第一匹配度，得到第一匹配度超过第一阈值的至少两个属性字段。

在一个实施例中，属性字段的第一匹配度即属性字段的余弦相似度，与前文中属性字段的第二匹配度一致，在此处不再赘述。

在一个实施例中，候选车辆基本信息数据大于两条，以候选车辆基本信息数据包括第一候选车辆基本信息数据、第二候选车辆基本信息数据、第三候选车辆基本信息数据为例，分别计算第一候选车辆基本信息数据中的每个属性字段与第二候选车辆基本信息数据的每个属性字段之间的第一匹配度、第一候选车辆基本信息数据中的每个属性字段与第三候选车辆基本信息数据的每个属性字段之间的第一匹配度、第二候选车辆基本信息数据中的每个属性字段与第三候选车辆基本信息数据的每个属性字段之间的第一匹配度。

在本实施例中，第一阈值为第一匹配度大于80%。

在一个实施例中，所述基于所述至少一条车辆运单数据的可靠性程度和所述至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将所述至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，还包括：

步骤S302：在所述第一匹配度超过第一阈值的至少两个属性字段中，根据第一匹配度对应的两个属性字段中非空白的属性字段填充空白的属性字段。

举例来说，以步骤S202中的两条候选车辆基本信息数据为例：

V_A41、V_A42的属性字段中，X₁和Y₁、X₂和Y₂、X₃和Y₃的第一匹配度均超过第一阈值，其中X₁和Y₁为第一匹配度d₁对应的两个属性字段，X₂和Y₂为第一匹配度d₂对应的两个属性字段，X₃和Y₃为第一匹配度d₃对应的两个属性字段。

第一匹配度d₁对应的属性字段X₁和Y₁中，若X₁的内容为空白，Y₁的内容非空白，则根据Y₁的内容填充X₁的内容；同理，第一匹配度d₂对应的属性字段X₂和Y₂中，若X₂的内容为非空白，Y₂的内容为空白，则根据X₂的内容填充Y₁的内容；第一匹配度d₃对应的属性字段X₃和Y₃中，若X₃的内容为非空白，Y₃的内容为空白，则根据X₃的内容填充Y₃的内容。

举例来说，以三条候选车辆基本信息数据为例：

V_A42[Y₁,Y₂,Y₃,Y₄,Y₅,Y₆,Y₇,Y₈,Y₉,Y₁₀,Y₁₁,Y₁₂,Y₁₃,Y₁₄]；

V_A43[Z₁,Z₂,Z₃,Z₄,Z₅,Z₆,Z₇,Z₈,Z₉,Z₁₀,Z₁₁,Z₁₂,Z₁₃,Z₁₄]。

V_A41、V_A42、V_A43的属性字段中，X₄和Y₄、X₄和Z₄、Y₄和Z₄、X₅和Y₅、X₅和Z₅、Y₅和Z₅的第一匹配度均超过第一阈值。由于X₄、Y₄、Z₄中任意两个属性字段之间的第一匹配度均超过第一阈值，若X₄、Y₄的内容为空白，Z₄的内容为非空白，则可以根据Z₄的内容同时填充X₄、Y₄的内容；同理，由于X₅、Y₅、Z₅中任意两个属性字段之间的第一匹配度均超过第一阈值，若Y₅、Z₅的内容为空白，X₅的内容为非空白，则可以根据X₅的内容同时填充Y₅、Z₅的内容。

在一个实施例中，第一匹配度对应的两个属性字段均为空白，则基于候选车辆基本信息数据所对应的车辆基本信息数据组中，该两个属性字段的内容的频率最大值分别填充空白的属性字段。

在一个实施例中，所述计算所述至少一个车辆基本信息数据组中每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度之前，还包括，剔除每个车辆基本信息数据组中，具有关联性的车辆基本信息数据。

在本实施例中，具有关联性的车辆基本信息数据即发送多条车辆基本信息数据的不同网络货运平台为同一公司的关联公司，如总公司、子公司、分公司、控股关联公司。

在一个实施例中，根据公司树数据库判断所有人的关联性。

在本实施例中，具有关联性的车辆基本信息数据为所有人具有关联性，且车辆基本信息数据的属性字段的内容一致。

举例来说，一个车辆基本信息数据组中包括5条车辆基本信息数据V_A51、V_A52、V_B51、V_B52、V_B53。V_A51、V_A52由网络货运平台A上传，V_B51、V_B52、V_B53由网络货运平台B上传，其中网络货运平台A为网络货运平台B的子公司，则进一步校验V_A51、V_A52、V_B51、V_B52、V_B53的属性字段的内容是否一致，若上述5条车辆基本信息数据的每个属性字段的内容均一致，则保留其中任意一条车辆基本信息数据；若上述5条车辆基本信息数据中，V_A51、V_B51、V_B52的每个属性字段的内容一致，V_A52与V_B53的每个属性字段的内容一致，则保留V_A51、V_B51、V_B52中的任意一条车辆基本信息数据以及V_A52、V_B53中的任意一条车辆基本信息数据。

在一个实施例中，基于ASCII码或Unicode码点校验属性字段的内容是否一致。

本发明通过剔除具有关联性的车辆基本信息数据，避免了相关联的车辆基本信息数据的干扰，提高了计算车辆基本信息数据的属性字段集的相似度的效率。

在一个实施例中，当所述车辆基本信息数据组中的所述至少两条车辆基本信息数据的属性字段集的相似度均超过第二阈值时，将第一上传时间所对应的车辆基本信息数据存入车辆唯一信息正确库。

在本实施例中，第一上传时间为车辆基本信息数据组中，网络货运平台发送车辆基本信息数据的最新时间。

在一个实施例中，当属性字段集的相似度均为100%时，将第一上传时间所对应的车辆基本信息数据存入车辆唯一信息正确库。

在一个实施例中，车辆基本信息数据组中的车辆基本信息数据由不同网络货运平台发送，则校验不同网络货运平台第一上传时间发送的车辆基本信息数据的属性字段的内容是否一致，若一致，则将其中任意一条第一上传时间发送的车辆基本信息数据存入车辆唯一信息正确库。

若不同网络货运平台第一上传时间发送的车辆基本信息数据的属性字段的内容不一致，当吨位（GrossMass ）的内容为大于4.5吨时，调用全国运政信息库校验第一上传时间发送的车辆基本信息数据的属性字段的内容是否正确，将所有属性字段的内容均正确的车辆基本信息数据存入车辆唯一信息正确库。

在一个实施例中，若不同网络货运平台第一上传时间发送的车辆基本信息数据的属性字段的内容不一致，当吨位（GrossMass ）的内容为小于4.5吨时，将不同网络货运平台第一上传时间发送的车辆基本信息数据均存入车辆唯一信息错误库。

举例来说，V_A61、V_A62、V_B61、V_B62、V_B63为一个车辆基本信息数据组中的5条车辆基本信息数据，其中V_A62为网络货运平台A第一上传时间发送的车辆基本信息数据，V_B63为网络货运平台B第一上传时间发送的车辆基本信息数据，当V_A62与V_B63的属性字段的内容一致时，将V_A62或V_B63存入车辆唯一信息正确库。

当V_A62与V_B63的属性字段的内容不一致时，例如V_A62中的所有人（Owner ）为张三，V_B63中的所有人（Owner ）为李四，且吨位（GrossMass ）的内容为大于4.5吨时，向全国运政信息库发送张三或李四，全国运政信息库返回正确或错误的判断结果，将判断结果为正确的一条车辆基本信息数据存入车辆唯一信息正确库。

在一个实施例中，当所述车辆运单数据的可靠性程度低于第三阈值时，计算所述车辆基本信息数据组中的最大似然车辆基本信息数据，并基于所述至少一条车辆运单数据，校验最大似然车辆基本信息数据的第一属性字段的内容是否正常，如是，则将所述最大似然车辆基本信息数据存入车辆唯一信息正确库，如否，则将所述最大似然车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，将每个车辆基本信息数据组的属性字段的内容进行分类，获得至少一个属性字段内容分组，每个属性字段内容分组对应一个属性字段的内容，提取每个属性字段内容分组中，频率最大的属性字段的内容，并组合为一条车辆基本信息数据作为最大似然车辆基本信息数据。

在一个实施例中，可以采用KNN算法将每个车辆基本信息数据组的属性字段的内容进行分类。

如图4所示，采用KNN算法将每个车辆基本信息数据组的属性字段的内容进行分类包括以下步骤：

步骤S401：将属性字段的内容进行编码转换。具体地，可以基于标签编码将属性字段的内容映射为不同的整数标签。

步骤S402：将编码转换后的属性字段的内容划分为训练集与测试集。

步骤S403：基于余弦相似度计算训练集中的属性字段的内容之间的第三匹配度。

步骤S404：建立初始KNN模型：确定预设K值，基于训练集中的属性字段内容之间的第三匹配度对训练集进行分类，获得至少一个属性字段内容分组，每个属性字段内容分组中的一个属性字段的内容具有K个邻近的属性字段的内容；

步骤S405：测试KNN模型的准确率：将测试集中的属性字段的内容作为KNN模型的输入，并基于余弦相似度计算至少一个属性字段内容分组中的属性字段的内容之间的第三匹配度是否超过第四阈值；

步骤S406：若至少一个属性字段内容分组中的属性字段的内容之间的第三匹配度未超过第四阈值，调整K值大小并循环执行步骤S404至步骤S405，直到模型的准确率达到99%。

在一个实施例中，可以将相同的属性字段所对应的属性字段的内容分为一个属性字段内容分组。

在一个实施例中，当所述车辆基本信息数据组中只包括一条车辆基本信息数据时，调用全国运政信息库校验所述车辆基本信息数据的多个属性字段内容，当校验结果正常时，将所述车辆基本信息数据存入车辆唯一信息正确库，当校验结果异常时则将所述车辆基本信息数据存入车辆唯一信息错误库。

在本实施例中，一个车辆基本信息数据组中包括1条车辆基本信息数据，当吨位（GrossMass ）的内容为大于4.5吨时，调用全国运政信息库校验车辆基本信息数据的属性字段的内容是否正确，当所有属性字段的内容均正确时，将该条车辆基本信息数据存入车辆唯一信息正确库。

在一个实施例中，一个车辆基本信息数据组中包括为1条车辆基本信息数据，当吨位（GrossMass ）的内容为小于4.5吨时，则校验车牌颜色（VehiclePlateColorCode ）的内容是否与对应的多条车辆运单数据中，频率最大的车牌颜色的内容一致，若不一致，则将该条车辆基本信息数据存入车辆唯一信息错误库，若一致，则进一步判断该条车辆基本信息数据中，主要属性字段是否为空白，或主要属性字段的内容是否为空白，若主要属性字段或主要属性字段的内容为空白，则将该条车辆基本信息数据存入车辆唯一信息错误库，当主要属性字段及主要属性字段的内容非空白，则将该条车辆基本信息数据存入车辆唯一信息正确库。

如图5所示，本发明提出的一种车辆基本信息数据的处理方法还包括以下步骤：

步骤S501：接收一条新的车辆基本信息数据。

在本实施例中，基于建立的车辆唯一信息正确库校验新的车辆基本信息数据是否为正常数据。

步骤S502：基于所述车辆唯一信息正确库判断所述新的车辆基本信息数据的多个属性字段的内容是否正常，当所述新的车辆基本信息数据的多个属性字段的内容均正常时，判定所述新的车辆基本信息数据为正常数据。

在本实施例中，根据车辆唯一标识，在车辆唯一信息正确库里匹配新的车辆基本信息数据，当匹配成功时，校验新的车辆基本信息数据的属性字段的内容是否与车辆唯一信息正确库中的一致，若一致，则判定为正常数据，若不一致，则将新的车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，当所述新的车辆基本信息数据的多个属性字段的内容为异常时，判断是否为所述多个属性字段中的第二属性字段或第三属性字段的内容异常，若是则判断所述第二属性字段的内容或第三属性字段的内容是否更新，根据判断结果更新所述车辆唯一信息正确库。

在本实施例中，第二属性字段为所有人（Owner ），第三属性字段为年检日期（AnnualinspectionDate）。

在本实施例中，当新的车辆基本信息数据中存在至少一个属性字段的内容与车辆唯一信息库中的不一致时，进一步判断是否为所有人（Owner ）或年检日期（AnnualinspectionDate）的内容与车辆唯一信息正确库不一致，若是，则向车辆唯一标识所属的省属运政系统发送是否更新的确认请求，当服务器接收到确认更新时，将车辆唯一信息正确库中该条车辆基本信息数据对应属性字段的内容替换为更新后的所有人（Owner）或年检日期（AnnualinspectionDate）的内容。

本发明通过更新所有人或年检日期的内容，实时更新了车辆唯一信息正确库，保证了车辆唯一信息正确库中车辆基本信息数据的准确性。

图6A-图6F示出了本发明提出的又一种车辆基本信息数据的处理方法，该方法包括：

步骤S601：接收发送的多条车辆基本信息数据。

步骤S602：以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组。

步骤S603：判断车辆基本信息数据组中是否只有一条车辆基本信息数据。

步骤S604：若车辆基本信息数据组中有多条车辆基本信息数据，进一步判断车辆基本信息数据组中的车辆基本信息数据的关联性。

步骤S605：若车辆基本信息数据组中的车辆基本信息数据具有关联性，若是则将具有关联性的车辆基本信息数据剔除。

步骤S606：再次判断车辆基本信息数据组中是否只有一条车辆基本信息数据。

步骤S607：若车辆基本信息数据组中有多条车辆基本信息数据，或车辆基本信息数据组中的车辆基本信息数据不具有关联性，计算车辆基本信息数据组中的多条车辆基本信息数据的属性字段集之间的相似度。

步骤S608：判断多条车辆基本信息数据的属性字段集之间的相似度是否均超过第二阈值。

步骤S609：若属性字段集之间的相似度未均超过第二阈值，则将属性字段集之间的最大相似度对应的车辆基本信息数据作为候选车辆基本信息数据。

步骤S610：基于候选车辆基本信息数据的车辆唯一标识匹配车辆运单数据。

步骤S611：计算车辆运单数据的可靠性程度。

步骤S612：判断可靠性程度是否超过第三阈值。

步骤S613：若可靠性程度超过第三阈值，则基于候选车辆基本信息数据的属性字段之间的第一匹配度，将候选车辆基本信息数据的空白属性字段进行填充。

步骤S614：判断填充后的候选车辆基本信息数据的属性字段的内容是否一致。

步骤S615；若填充后的候选车辆基本信息数据的属性字段的内容一致，则将填充后的候选车辆基本信息数据进行合并，得到合并车辆基本信息数据。

步骤S616：进一步校验合并车辆基本信息数据的吨位的内容是否大于4.5吨。

步骤S617：若吨位的内容小于4.5吨，则进一步校验合并车辆基本信息数据的车牌颜色的内容是否与车辆运单数据一致。

步骤S618：若合并车辆基本信息数据的车牌颜色的内容与车辆运单数据一致，则向进一步基于人工校验合并车辆基本信息数据的属性字段的内容是否正确。

步骤S619：当属性字段的内容均正确时，将合并车辆基本信息数据存入车辆唯一信息正确库；否则，将合并车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，所述方法还包括：

步骤S620：当车辆基本信息数据组中只有一条车辆基本信息数据时，校验吨位的内容是否大于4.5吨。

步骤S621：若吨位的内容小于4.5吨，则进一步校验车辆基本信息数据的车牌颜色的内容是否与车辆运单数据一致，若车辆基本信息数据的车牌颜色的内容与车辆运单数据一致，将车辆基本信息数据存入车辆唯一信息正确库；否则，将车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，所述方法还包括：

步骤S622：当车辆基本信息数据组中只有一条车辆基本信息数据时，若吨位的内容大于4.5吨，调用全国运政信息库校验候选车辆基本信息数据的属性字段的内容。

步骤S623：若属性字段的内容均正确，则将车辆基本信息数据存入车辆唯一信息正确库；否则，将车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，所述方法还包括：

步骤S624：若合并车辆基本信息数据的吨位的内容大于4.5吨，调用全国运政信息库校验合并车辆基本信息数据的属性字段的内容。

步骤S625：若属性字段的内容均正确，则将合并车辆基本信息数据存入车辆唯一信息正确库；否则，将合并车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，所述方法还包括：

步骤S626：若属性字段集的相似度均超过第二阈值，则判断车辆基本信息数据是否为第一上传时间对应的车辆基本信息数据。若是，将车辆基本信息数据存入车辆唯一信息正确库，否则，将车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，所述方法还包括：

步骤S627：当可靠性程度未超过第三阈值，计算车辆基本信息数据组中的最大似然车辆基本信息数据。

步骤S628：校验最大似然车辆基本信息数据的吨位的内容是否大于4.5吨。

步骤S629：若最大似然车辆基本信息数据的吨位的内容大于4.5吨，则调用全国运政信息库校验最大似然车辆基本信息数据的属性字段的内容。

步骤S630：若属性字段的内容均正确，则将最大似然车辆基本信息数据存入车辆唯一信息正确库；否则，将最大似然车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，所述方法还包括：

步骤S631：若最大似然车辆基本信息数据的吨位的内容小于4.5吨，则进一步校验最大似然车辆基本信息数据的车牌颜色的内容是否与车辆运单数据一致，若最大似然车辆基本信息数据的车牌颜色的内容与车辆运单数据一致，将最大似然车辆基本信息数据存入车辆唯一信息正确库；否则，将最大似然车辆基本信息数据存入车辆唯一信息错误库。

本发明还提出了一种车辆基本信息数据的处理装置，如图7所示，该装置包括：

数据接收模块701，用于接收多条车辆基本信息数据和多条车辆运单数据；

数据聚合分组模块702，用于以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组，得到至少一个车辆基本信息数据组，车辆基本信息数据组包括至少两条车辆基本信息数据，车辆基本信息数据包括多个属性字段；

相似度计算模块703，用于计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度，得到至少两条车辆基本信息数据的属性字段集之间的最大相似度；

数据填充模块704，用于获取至少两条车辆基本信息数据的属性字段集之间的最大相似度对应的至少两条候选车辆基本信息数据；基于接收的多条车辆运单数据，获得与候选车辆基本信息数据的车辆唯一标识匹配的至少一条车辆运单数据，计算至少一条车辆运单数据的可靠性程度，并基于至少一条车辆运单数据的可靠性程度和至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，得到至少两条候选车辆基本信息数据的合并车辆基本信息数据；

数据校验模块705，用于基于至少一条车辆运单数据，校验合并车辆基本信息数据的第一属性字段的内容是否正常，如是，则将合并车辆基本信息数据存入车辆唯一信息正确库，如否，则将合并车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，数据聚合分组模块702还用于剔除每个车辆基本信息数据组中，具有关联性的车辆基本信息数据。

在一个实施例中，数据校验模块705还用于当车辆基本信息数据组中的至少两条车辆基本信息数据的属性字段集的相似度均超过第二阈值时，将第一上传时间所对应的车辆基本信息数据存入车辆唯一信息正确库。

在一个实施例中，数据填充模块704还用于当车辆运单数据的可靠性程度低于第三阈值时，计算车辆基本信息数据组中的最大似然车辆基本信息数据，并基于至少一条车辆运单数据，校验最大似然车辆基本信息数据的第一属性字段的内容是否正常，如是，则将最大似然车辆基本信息数据存入车辆唯一信息正确库，如否，则将最大似然车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，数据校验模块705还用于当车辆基本信息数据组中只包括一条车辆基本信息数据时，调用全国运政信息库校验车辆基本信息数据的多个属性字段内容，当校验结果正常时，将车辆基本信息数据存入车辆唯一信息正确库，当校验结果异常时则将车辆基本信息数据存入车辆唯一信息错误库。

在一个实施例中，数据接收模块701还用于接收一条新的车辆基本信息数据。

在一个实施例中，数据校验模块705还用于基于车辆唯一信息正确库判断新的车辆基本信息数据的多个属性字段的内容是否正常，当新的车辆基本信息数据的多个属性字段的内容均正常时，判定新的车辆基本信息数据为正常数据。

在一个实施例中，数据校验模块705还用于当新的车辆基本信息数据的多个属性字段的内容为异常时，判断是否为多个属性字段中的第二属性字段或第三属性字段的内容异常，若是则判断第二属性字段的内容或第三属性字段的内容是否更新，根据判断结果更新车辆唯一信息正确库。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本发明构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种车辆基本信息数据的处理方法，其特征在于，包括以下步骤：

以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组，得到至少一个车辆基本信息数据组，所述车辆基本信息数据组包括至少两条车辆基本信息数据，所述车辆基本信息数据包括多个属性字段；

计算所述至少一个车辆基本信息数据组中每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度，得到所述至少两条车辆基本信息数据的属性字段集之间的最大相似度，所述属性字段集为所述车辆基本信息数据的全部属性字段的集合；所述计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度的方法包括：计算每个车辆基本信息数据组的所述至少两条车辆基本信息数据的主要属性字段的内容的第一非空概率值和次要属性字段的内容的第二非空概率值，分别作为第一权重和第二权重；计算所述每个车辆基本信息数据组的所述至少两条车辆基本信息数据的相匹配的属性字段的第二匹配度乘以对应的第一权重或第二权重的第一加权和，与所述每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集的并集中的每个属性字段的第二匹配度乘以对应的第一权重或第二权重的第二加权和之间的比值，作为所述至少两条车辆基本信息数据的属性字段集之间的相似度；

获取所述至少两条车辆基本信息数据的属性字段集之间的最大相似度对应的至少两条候选车辆基本信息数据；基于接收的多条车辆运单数据，获得与所述候选车辆基本信息数据的车辆唯一标识匹配的至少一条车辆运单数据，计算所述至少一条车辆运单数据的可靠性程度，并基于所述至少一条车辆运单数据的可靠性程度和所述至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将所述至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，得到所述至少两条候选车辆基本信息数据的合并车辆基本信息数据；

基于所述至少一条车辆运单数据，校验所述合并车辆基本信息数据的第一属性字段的内容是否正常，如是，则将所述合并车辆基本信息数据存入车辆唯一信息正确库，如否，则将所述合并车辆基本信息数据存入车辆唯一信息错误库。

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一条车辆运单数据的可靠性程度和所述至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将所述至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，还包括：

依次计算所述至少两条候选车辆基本信息数据的每两条候选车辆基本信息数据的每个属性字段的第一匹配度，得到第一匹配度超过第一阈值的至少两个属性字段；

在所述第一匹配度超过第一阈值的至少两个属性字段中，根据第一匹配度对应的两个属性字段中非空白的属性字段填充空白的属性字段。

3.根据权利要求1所述的方法，其特征在于，所述计算所述至少一个车辆基本信息数据组中每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度之前，还包括：

剔除每个车辆基本信息数据组中，具有关联性的车辆基本信息数据。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述车辆基本信息数据组中的所述至少两条车辆基本信息数据的属性字段集的相似度均超过第二阈值时，将第一上传时间所对应的车辆基本信息数据存入车辆唯一信息正确库。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述车辆运单数据的可靠性程度低于第三阈值时，计算所述车辆基本信息数据组中的最大似然车辆基本信息数据，并基于所述至少一条车辆运单数据，校验最大似然车辆基本信息数据的第一属性字段的内容是否正常，如是，则将所述最大似然车辆基本信息数据存入车辆唯一信息正确库，如否，则将所述最大似然车辆基本信息数据存入车辆唯一信息错误库。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述车辆基本信息数据组中只包括一条车辆基本信息数据时，调用全国运政信息库校验所述车辆基本信息数据的多个属性字段内容，当校验结果正常时，将所述车辆基本信息数据存入车辆唯一信息正确库，当校验结果异常时则将所述车辆基本信息数据存入车辆唯一信息错误库。

7.根据权利要求1-6中任意一项所述的车辆基本信息数据的处理方法，其特征在于，所述方法还包括：

接收一条新的车辆基本信息数据；

基于所述车辆唯一信息正确库判断所述新的车辆基本信息数据的多个属性字段的内容是否正常，当所述新的车辆基本信息数据的多个属性字段的内容均正常时，判定所述新的车辆基本信息数据为正常数据。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述新的车辆基本信息数据的多个属性字段的内容为异常时，判断是否为所述多个属性字段中的第二属性字段或第三属性字段的内容异常，若是则判断所述第二属性字段的内容或第三属性字段的内容是否更新，根据判断结果更新所述车辆唯一信息正确库。

9.一种车辆基本信息数据的处理装置，其特征在于，所述装置包括：

数据聚合分组模块，用于以预定周期，基于车辆唯一标识将接收的多条车辆基本信息数据进行聚合分组，得到至少一个车辆基本信息数据组，所述车辆基本信息数据组包括至少两条车辆基本信息数据，所述车辆基本信息数据包括多个属性字段；

相似度计算模块，用于计算所述至少一个车辆基本信息数据组中每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集之间的相似度，得到所述至少两条车辆基本信息数据的属性字段集之间的最大相似度；所述计算至少一个车辆基本信息数据组中每个车辆基本信息数据组的至少两条车辆基本信息数据的属性字段集之间的相似度的方法包括：计算每个车辆基本信息数据组的所述至少两条车辆基本信息数据的主要属性字段的内容的第一非空概率值和次要属性字段的内容的第二非空概率值，分别作为第一权重和第二权重；

计算所述每个车辆基本信息数据组的所述至少两条车辆基本信息数据的相匹配的属性字段的第二匹配度乘以对应的第一权重或第二权重的第一加权和，与所述每个车辆基本信息数据组的所述至少两条车辆基本信息数据的属性字段集的并集中的每个属性字段的第二匹配度乘以对应的第一权重或第二权重的第二加权和之间的比值，作为所述至少两条车辆基本信息数据的属性字段集之间的相似度；

数据填充模块，获取所述至少两条车辆基本信息数据的属性字段集之间的最大相似度对应的至少两条候选车辆基本信息数据；基于接收的多条车辆运单数据，获得与所述候选车辆基本信息数据的车辆唯一标识匹配的至少一条车辆运单数据，计算所述至少一条车辆运单数据的可靠性程度，并基于所述至少一条车辆运单数据的可靠性程度和所述至少两条候选车辆基本信息数据的属性字段之间的第一匹配度，将所述至少两条候选车辆基本信息数据的至少一个空白属性字段进行填充，得到所述至少两条候选车辆基本信息数据的合并车辆基本信息数据；

数据校验模块，用于基于所述至少一条车辆运单数据，校验所述合并车辆基本信息数据的第一属性字段的内容是否正常，如是，则将所述合并车辆基本信息数据存入车辆唯一信息正确库，如否，则将所述合并车辆基本信息数据存入车辆唯一信息错误库。