CN115496440A

CN115496440A - 一种二手车库存量的确定方法及装置

Info

Publication number: CN115496440A
Application number: CN202211133608.2A
Authority: CN
Inventors: 蓬蕾; 程博; 周策; 黄锡轩
Original assignee: Guangdong Piston Intelligence Technology Co ltd
Current assignee: Guangdong Piston Intelligence Technology Co ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-20
Anticipated expiration: 2042-09-15
Also published as: CN115496440B

Abstract

本发明公开了一种二手车库存量的确定方法及装置，方法包括根据网络爬虫技术获取各车源的初始数据；基于预置的型号匹配模型和预置的车商匹配模型，得到由型号匹配模型输出的型号结果和由车商匹配模型输出的车商结果构成的各车源的待清洗数据；对待清洗数据进行数据清洗得到各车源的待识别数据；根据各车源之间的相似度对待识别数据进行重复车源识别，得到各车源的待筛选数据；从待筛选数据中筛选出目标二手车车源，基于目标二手车车源的在售状态得到目标二手车的库存量。本发明提供的二手车库存量的确定方法及装置，对车源信息进行抓取、匹配、数据清洗、重复车源识别、在售状态确认等，最终得到二手车的库存量，提高了二手车库存量的准确率。

Description

一种二手车库存量的确定方法及装置

技术领域

本发明涉及二手车技术领域，尤其是涉及一种二手车库存量的确定方法及装置。

背景技术

现如今，市场的二手车库存量对二手车商收车、定价及销售都有显著影响，掌握二手车库存量一直是二手车经营中的一项重要诉求。随着出行、租赁业务的不断发展，会出现某类车型成批进入二手车市场并引起二手车库存量大幅波动的现象，这对二手车的库存确定提出了新的挑战。

现如今，确定二手车库存量的方法主要有三种：一、车商之间的信息交流，但是，车商之间交流信息依靠车商圈子，只包含一部分车商的情况，会出现缺漏严重的问题，而且因为是自愿交流，因此不能保证按时更新最新库存情况，且因为车商对某些车型叫法不一致，信息常有错误；二、某些汽车城内车商按照约定填报，汽车城进行加总得到库存量，但是，这种方法由于填报管理比较松散，会出现错填，漏填，不及时填写，只报上架没有报下架等现象，从而导致无法获得准确的库存信息；三、从主流二手车网站上搜索同城同车型二手车数量并进行简单加总，但是，由于二手车商普遍存在一个车源同时发布在多个网站上的情况，还有对售出车源不进行下架的现象存在，因此这种方法计算的二手车库存量会被严重高估无法使用。由此可见，上述三种方法都难以得到准确的二手车库存量，因此，如何准确获取二手车的库存量，是摆在本行业技术人员面前亟待解决的问题。

发明内容

本发明提供一种二手车库存量的确定方法及装置，以解决现有技术难以准确获取二手车库存量的技术问题，通过设置特定的方法步骤对车源信息进行抓取、匹配、数据清洗、重复车源识别，最终计算得到二手车的库存量，提高了二手车库存量的准确率。

为了解决上述技术问题，本发明实施例提供了一种二手车库存量的确定方法，包括：

根据网络爬虫技术获取各车源的初始数据，其中，所述初始数据包括初始型号数据和初始车商数据；

基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的待清洗数据；

对所述待清洗数据进行数据清洗，得到各车源的待识别数据；

根据各车源之间的相似度，对所述待识别数据进行重复车源识别，得到各车源的待筛选数据；

从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。

作为其中一种优选方案，所述预置的车商匹配模型，其构建过程包括：

第一步，获取各车源的车商信息的训练样本集；

第二步，基于TF-IDF技术，从所述训练样本集中提取每一车源的车商名称特征词，构建特征词库；

第三步，基于NLP技术和所述特征词库，从所述训练样本集中选取任意两个车源的车商信息，并分别计算上述两者的车商相似度；

第四步，将相似度超过阈值的车商标记为同一个车商；

第五步，循环所述第三步和所述第四步，直至遍历所述训练样本集中的全部车商；

第六步，记录得到的所有所述同一个车商，以此构建所述车商匹配模型。

作为其中一种优选方案，若所述初始车商数据相比于所述训练样本集为新增数据，则依次将所述初始车商数据和所述训练样本集中的每一车商组队，并计算每一组队的相似度；

若相似度最高的组队对应的相似度大于既定阈值，则将这一组队中的初始车商数据和所述训练样本集中的对应车商标记为同一个车商，并以此更新所述车商匹配模型；

若相似度最高的组队对应的相似度小于所述既定阈值，则将这一组队中的初始车商数据标记为全新车商，并以此更新所述车商匹配模型。

作为其中一种优选方案，所述分别计算上述两者的车商相似度，具体包括：

基于NLP技术和所述特征词库，计算两个车商的名称相似度；

基于NLP技术和车商经纬度信息，计算两个车商的地址相似度；

基于NLP技术，计算两个车商发布的车源的相似度；

将所述名称相似度、地址相似度和所述车源的相似度作为输入变量，将对两个车商进行人工标记得到结果作为标记变量，基于所述输入变量和所述标记变量构建概率预测模型，训练得到每个所述输入变量的系数；

以得到的所述系数作为权重计算所述车商相似度。

作为其中一种优选方案，所述根据各车源之间的相似度，对所述待识别数据进行重复车源识别，具体为：

在所述待识别数据中，依次选取任意两个车源，判断两者所属的销售圈的类型，并确定对应的所述销售圈的预设阈值，其中，所述销售圈反映两个车源在销售地域上的共同性；

基于NLP技术，依次计算选取的两个车源的相似度，将相似度结果与对应的所述销售圈的预设阈值进行比较，判断是否为重复车源。

作为其中一种优选方案，所述基于目标二手车车源的在售状态，得到目标二手车的库存量，具体包括：

获取目标二手车车源的重复车源记录，若目标二手车车源在所述记录内均未下架或已售，且目标二手车车源在所述记录内的最晚发布时间与当前时间的差值在预设范围内，则标记为在售状态，否则为已售状态。

本发明另一实施例提供了一种二手车库存量的确定装置，包括：

数据获取模块，用于根据网络爬虫技术获取各车源的初始数据，其中，所述初始数据包括初始型号数据和初始车商数据；

型号和车商匹配模块，用于基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的待清洗数据；

车源数据清洗模块，用于对所述待清洗数据进行数据清洗，得到各车源的待识别数据；

重复车源识别模块，用于根据各车源之间的相似度，对所述待识别数据进行重复车源识别，得到各车源的待筛选数据；

库存量计算模块，用于从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。

第一步，获取各车源的车商信息的训练样本集；

第四步，将相似度超过阈值的车商标记为同一个车商；

基于NLP技术和所述特征词库，计算任意两个车商的名称相似度；

基于NLP技术和车商经纬度信息，计算任意两个车商的地址相似度；

基于NLP技术，计算任意两个车商发布的车源的相似度；

其中，概率预测模型优选为逻辑回归模型，其作用是预测一个事件发生的概率，需要强调的是，只要能够实现上述功能的概率预测模型，都构成为本发明的保护范围。

以得到的所述系数作为权重计算所述车商相似度。

作为其中一种优选方案，所述重复车源识别模块，具体包括：

销售圈判断单元，用于在所述待识别数据中，依次选取任意两个车源，判断两者所属的销售圈的类型，并确定对应的所述销售圈的预设阈值，其中，所述销售圈反映两个车源在销售地域上的共同性；

比较单元，用于基于NLP技术，依次计算选取的两个车源的相似度，将相似度结果与对应的所述销售圈的预设阈值进行比较，判断是否为重复车源。

相比于现有技术，本发明实施例的有益效果在于以下所述中的至少一点：

首先根据网络爬虫技术获取初始数据，提高了数据的获取广度，然后基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，降低型号和车商名称或ID多样化对数据的精度影响，接着采用数据清洗技术对数据进行清理，进一步提高数据的精度，再接着对数据进行重复车源识别，通过引入销售圈的概念对数据的精度进行优化，最后判断目标二手车车源的在售状态，得到目标二手车的库存量，整个方法集数据的获取和处理为一体，通过特定的车商匹配模型和相似度重复车源识别等环节，实现了二手车库存量计算流程的自动化，避免人工填报或计算带来的缺陷，节约大量的人力成本与时间成本，有效提高了二手车库存量确定的准确率，推进了二手车领域的智能化进程。

附图说明

图1是本发明其中一种实施例中的二手车库存量的确定方法的流程示意图；

图2是本发明其中一种实施例中的二手车库存量的确定装置的结构示意图；

附图标记：

其中，11、数据获取模块；12、型号和车商匹配模块；13、车源数据清洗模块；14、重复车源识别模块；15、库存量计算模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

在本申请的描述中，需要说明的是，除非另有定义，本发明所使用的所有的技术和科学术语与属于本的技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明，对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

本发明一实施例提供了一种二手车库存量的确定方法，具体的，请参见图1，图1示出为本发明其中一种实施例中的二手车库存量的确定方法的流程示意图，其具体包括步骤S1～S5：

S1、根据网络爬虫技术获取各车源的初始数据，其中，所述初始数据包括初始型号数据和初始车商数据；

S2、基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的待清洗数据；

S3、对所述待清洗数据进行数据清洗，得到各车源的待识别数据；

S4、根据各车源之间的相似度，对所述待识别数据进行重复车源识别，得到各车源的待筛选数据；

S5、从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。

应当说明的是，随着二手车平台的发展，目前95％以上的二手车源信息都会通过一个或多个网站进行发布，使得基于网络车源信息推算各城市的二手车库存量成为可能。本发明实施例提供的二手车库存量的确定方法是一个能自动识别并去掉重复车源、判断正确的下架日期、计算并展示当前市场中二手车库存量的系统。该系统整合了爬虫和基于机器学习&概率论作为理论框架的算法，实现全网抓取二手车源信息，自动识别重复车源，自动筛选出无重复在售车源，并基于此计算给定车型和城市的二手车库存量，后续可以通过对应的前端将结果展示出来，例如在智能终端或用户的移动终端将目标二手车的库存量显示在交互界面上，方便用户直观获取库存量信息。

为更好地理解本发明实施例的内容，首先对相关专业术语进行解释。重复车源：同一个车源可能被发布在不同的网站上，形成多条二手车源记录，这些记录就被叫做重复车源；销售圈：用于表明两个车源在销售地域上的共同性，比如两个车源为同一个车商销售，它们的销售圈为“车商”，如果两个车源来自不同车商但却在同一个汽车城销售，销售圈则为“汽车城”；下架/已售：二手车车源售出后，车商从网站上把该车信息删掉称为下架，删掉的日期称作下架日期，车商给该车打上售出的标签叫做已售，在处理中下架等同于已售。

本发明实施例的整体流程可以概括为：利用爬虫技术从主流二手车网站获取二手车车源信息，再将这些信息输入预置的型号匹配模块和预置的车商匹配模块，目的是为了获得准确且唯一的型号信息和车商信息，后文会详细说明，再对这些信息进行数据清洗，识别虚假车源并进行删除，清洗后的车源进行重复车源识别，识别同一车源是否被发布到了多个网站，如果是，打上标记。经标记的车源，在目标二手车的库存量计算环节时，利用车源特征、同一车源在不同网站上下架时间等，筛选出无重复的在售车源，并基于此计算出各种维度(例如：每个城市每个车型当前)的二手车库存量，再推送至前端展示并供查询。

此外，二手车的车源应至少包括三类信息：一、车源状态信息：发布日期、信息(报价、里程等)更改日期、是否已售、下架日期等；二、车商信息：车商ID、车商地址、车商名称等；三、车源特征信息：上牌日期、报价、表显里程、车况、主要配置、发布城市，在此不再赘述。

进一步地，在上述实施例中，由于一个车商通常会在多个二手车网站上注册并发布车源信息，同一个车商在不同的二手车网站上有不同的ID，同时车商名称和地址也常常因为缩写或者网站规则而不同，因此需要预置车商匹配模型来识别同一个车商在不同二手车网站上的ID各自是什么。预置的型号匹配模型也是如此，下面详细说明车商匹配模型的构建。

车商匹配模型的目的是为了获得准确且唯一的车商信息，因此，可以单独构建形成一个数据库来记录准确且唯一的车商信息，这个数据库的名称在本实施例中优选为数鼎数据库，包括车商的数鼎ID(唯一识别码)、名称、地址及其在各个网站上的ID、画像等信息，再根据二手车车源信息中车商的网站和该网站上的ID，在数鼎数据库中查询并得到相应的数鼎ID和车商地址。

对于数鼎数据库的建立，首先，获取各车源的车商信息的训练样本集，也即，从各网站二手车车源信息中提取车商信息，包括车商ID、车商地址、车商名称、规模、发布的车源信息。值得注意的是，同一个车商在不同的网站上会被赋予不同的ID，因此不能靠ID来辨认是否同一车商。此外，车商名称也不能作为辨识车商的唯一标识，因为同一车商的名称在不同网站上可能不一样(有些网站是缩写，有些网站不提供车商名称)，名称相同的车商也可能不是一个车商而仅仅是重名。同样，地址也不能作为辨识车商的唯一标识，因为有些网站不提供车商地址或写法不标准，而同一汽车城内的不同车商常常填写一样的地址(汽车城的地址)。因此对于一个车商，想要识别它在不同网站上各自对应哪个ID需要一个匹配流程，需综合利用名称，地址，发布的车源等信息。

接着，在构建数鼎数据库的过程中，基于TF-IDF技术，从所述训练样本集中提取每一车源的车商名称特征词，构建特征词库，当然，也可紧密结合二手车行业术语，建立诸如停用词词库等，在此不再赘述。

最后，需要计算车商之间的相似度，本实施例基于NLP技术和所述特征词库，依次从所述训练样本集中选取任意两个车源的车商，并分别计算上述两者的车商相似度，具体的，相似度包括三个维度：

一、利用NLP技术，计算车商名称相似度R_name：利用数鼎的车商专用词库，去除名称中的无用词，并利用n-gram model方法进行分词，对这对车商各自的名称分别提取一组有序的关键词，这样就得到了两组有序关键词。计算两组有序关键词的Levenshtein(编辑距离L)和杰卡德系数(J)，另外再用Word2Vec计算句子中词向量的加权平均，再计算两个向量之间的相似性(R)。其中权重是词频的函数，词频越低说明其标示性越强，权重就越高。

其中ω_i为权重，m为有序关键词中的字数，其中权重ω_i为使得成本函数最小的优化的结果。

二、利用NLP和经纬度计算车商地址相似度R_address，若两个车商地址都能够转化为经纬度，则计算两个点之间的距离(D)，此时

此处T是阈值，超过此值认为肯定不是一个地址。否则若有至少一个车商地址不能转化为经纬度，则用地址文字的相似度作为R_address。其文字相似度计算过程与车商名称相似度计算算法一致。

三、利用NLP计算车商发布车源的相似度R_veh，取每个车商最近K个月发布的车源，假设车商1下有n1个车源，车商2下有n2个车源。对这些车源做笛卡尔积组合配对，共得到(n1*n2)对车源。计算每一对车源之间的相似度，则

其中车源之间的相似度与这两个车源的上牌时间差，型号匹配度，颜色是否相同，报价差，表显里程差距，上架时间差距等车源特征相关。

最后，基于上述一二三得到的相似度结果加权得到两个车商的相似度，其中权重为使得训练集上成本函数最小的优化的结果，通过权重的选择使得车商匹配模型的误差降到最小。

需要说明的是，对于跨网站车商ID匹配，产生车商ID列表，对于列表中的每一个车商ID做如下操作，直到列表为空，具体算法如下：

(1)当前循环中的车商ID称为目标ID。取出所有包含目标ID的车商对，再删掉两个ID来自于同一个网站的车商对，剩下的车商对按照网站与两个车商之间的相似度(第三步计算得到)进行降序排序；

(2)取出每个网站中的第一个车商对，其中非目标ID对应的车商是在其对应的网站中与目标ID对应的车商相似度最高的车商；

(3)对于取出的车商对用阈值进行测试，相似度大于阈值的就认为这两个车商ID是同一个车商在不同网站上的ID，记录进车商数据库，同时将相应的两个ID从循环列表中删除；

(4)对于目标ID，给一个数鼎车商ID作为唯一关键字，并从相关信息中确定车商名称及地址；

优选地，在实际操作过程中，需要对数鼎车商库进行维护，具体的维护过程如下：

第一步：每天从各网站新增二手车源记录中筛选出各网站新增的车商ID；

第二步：对于每一个新增车商ID，与车商数据库中的所有数鼎车商ID做配对，并重复以上车商库建立过程中对车商计算相似度的步骤；

第三步：对于每一个新增车商ID取与其相似度最高的数鼎车商ID，如果相似度超过阈值，就认为该新增车商ID隶属于对应的数鼎车商ID，否则认为是一个新车商，为其新建一个数鼎车商ID并记入数据库。

优选地，若所述初始车商数据相比于所述训练样本集为新增数据，则依次将所述初始车商数据和所述训练样本集中的每一车商组队，并计算每一组队的相似度，例如，新增数据有5条，训练样本集中有300条其中每3条对应同一个车商共100个不同的车商。那么这里一共组成5*300车商对，计算每对车商的相似度。对于每一个新增的车商，它有300相似度的值，最大的那个如果超过阈值就认为新增车商和最大的那个样本内车商是同一个车商，否则在样本内添加一个新车商。

进一步地，在上述实施例中，对于步骤S1中的网络爬虫技术和步骤S3中的数据清洗所采用的数据清洗技术，均可以参照现有技术中公开的相关内容，在此不再额外说明。

对于步骤S4：对所述待识别数据进行重复车源识别，其具体包括：

在所述待识别数据中，依次选取任意两个车源，判断两者所属的销售圈的类型，其中，所述销售圈反映两个车源在销售地域上的共同性；

在上述实施例中，要识别重复车源，需要用两车源之间的相似度S_veh与阈值比较来进行判断(备注：相似度S_veh是0,1之间的一个值，0代表完全不相似，1代表完全一样)。如果S_veh超过阈值，则被判定为重复车源。但是阈值大小与销售圈中车源量有关，比如，如果两个车源来自同一个小型二手车商(较小的销售圈)，因为一个小型车商库存中有两辆极为类似的车的概率很小，所以阈值可以设置的小一点也不会发生错判。但如果两个车源来自同一城市(大销售圈)，因为同城中有两辆极为类似的车的概率就相对大一些，所以阈值也要设置的相对大一些以避免错判。因此在本实施例中，识别重复车源的关键有两个，第一是判断两个车源所属的销售圈类型，第二是为每类销售圈设置阈值，对应下面技术细节中的b)～d)。在完成上述两步后，只需要比较两个车源相似度S_veh与该销售圈类型下的阈值大小就可以判断是否重复车源了，对应下面技术细节中的e)。

技术细节：

a)销售圈类型：具体的，在本实施例中，销售圈类型从小到大划分为5类，包括：小型二手车商、中型二手车商、大型二手车商、汽车城、城市。

b)提取不同类型销售圈的车源相似度的概率分布，并作为原始分布，过程如下：

i.将人工标记好的无重复车源用作训练集，并将这些车源做笛卡尔积组合两两配对，对每一对车源计算两车源之间的相似度S_veh；

ii.对每一类销售圈，计算S_veh的概率分布：

①对每一对车源，按照两个车源的销售信息给出销售圈类别。比如如果两个车源来自同一个小型二手车商，则这一个车源对的销售圈类别就是“小型二手车商”；如果两个车源来自不同车商但属于同一个汽车城，则这一个车源对的销售圈类别就是“汽车城”；如果两个车源来自不同车商和汽车城，但属于同一所城市，则这一个车源对的销售圈类别就是“城市”；

②对同一类别的车源的S_veh计算其经验分布F_i，i代表销售圈类型，共5种。

c)划分销售圈并对每个销售圈j，基于其所属销售圈类型i的经验分布F_i去计算具有该销售圈特征的特有经验分布

i.车商：从车商库中将所有在两个或以上网站出现的车商提取出来并对其中每个车商做如下操作---提取该车商在所有网站发布的所有二手车车源，做笛卡尔积组合两两配对，赋予其销售圈唯一标识码(记为j)，并按照车商画像将其归类为小型二手车商、中型二手车商或大型二手车商。

ii.汽车城：对于没有车商圈的二手车车源，按照其地址隶属的汽车城进行划分---提取各网站发布的车商地址隶属于该汽车城的所有二手车车源，做笛卡尔积组合两两配对，赋予其销售圈唯一标识码，并归类为汽车城。

iii.城市：对于不隶属于某汽车城的二手车车源按照其地址隶属的城市进行划分---提取各网站发布的该城市的所有二手车车源，做笛卡尔积组合两两配对，赋予其销售圈唯一标识码，并归类为城市。

d)对每个具体的销售圈j，利用其本身不重复车源的相似度分布去更新F_i，得到具有本销售圈特征的车源相似度分布

i.对每个销售圈j内人工标注出的不重复车源做笛卡尔积组合两两配对，对每一对车源计算两车源之间的相似度S_veh并得到新的经验分布

ii.用

去更新F_i得到本销售圈j的车源相似度分布

其中γ_i为权重，与销售圈j和其所属类别i各自包含的车源个数有关，个数越多权重越大。

e)判断是否重复车源：

i.对具体每个销售圈j中的车源对，用

设置的阈值

判断两个车源是否为重复车源，其中

使得

ii.当销售圈j中来自不同网站的两个车源的相似度S_veh大于阈值

时，这两个车源就被判定为同一车源发布在多个网站而产生的重复车源记录。

进一步地，在经过上述重复车源识别后，需要对目标二手车进行筛选和库存量计算，也即步骤S5：从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。在这其中，如何确定目标二手车的在售状态就是关键。考虑到计算二手车库存量，需要用当前在售车源进行计算，因此在本实施例中，需要从爬取的二手车源中筛选出当前在售的车源，并去掉重复车源再进行计算，具体包括下述a)～b)：

a)根据二手车源信息及重复车源记录，判断是否在售；

说明：一个车源被发布在多个网站上会产生多条二手车车源记录。这些车源记录的发布时间和下架时间很可能不同。有些网站管理松散，会出现部分二手车商只发布车源但在车源售出后不进行下架的现象。

优选地，在本实施例中，对每个二手车车源，找到其全部重复车源记录。若所有记录中该车源均未下架或已售，且所有记录中最晚发布(或记录中信息调整)的时间与当前时间差距在预设范围N天之内(预设范围N根据商业需要确定，一般为60天)，该记录标记为在售，否则标记为已售。

b)删除标记为已售的所有二手车车源和所有重复的车源(重复车源中只保留一条)。然后用在售的无重复车源进行各维度的二手车库存量计算，并将计算结果推入数据库。例如：

时刻在城市j车型v的在售车数量。

本发明另一实施例提供了一种二手车库存量的确定装置，具体的，请参见图2，图2示出为本发明其中一种实施例中的二手车库存量的确定装置的结构示意图，其包括：

数据获取模块11，用于根据网络爬虫技术获取各车源的初始数据，其中，所述初始数据包括初始型号数据和初始车商数据；

型号和车商匹配模块12，用于基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，得到由所述型号匹配模型输出的型号结果和由所述车商匹配模型输出的车商结果构成的各车源的待清洗数据；

车源数据清洗模块13，用于对所述待清洗数据进行数据清洗，得到各车源的待识别数据；

重复车源识别模块14，用于根据各车源之间的相似度，对所述待识别数据进行重复车源识别，得到各车源的待筛选数据；

库存量计算模块15，用于从所述待筛选数据中筛选出目标二手车车源，并基于目标二手车车源的在售状态，得到目标二手车的库存量。

进一步地，在上述实施例中，型号和车商匹配模块12中的所述预置的车商匹配模型，其构建过程包括：

获取各车源的车商信息的训练样本集；

基于TF-IDF技术，从所述训练样本集中提取每一车源的车商名称特征词，构建特征词库；

基于NLP技术和所述特征词库，依次从所述训练样本集中选取任意两个车源的车商，并分别计算上述两者的车商相似度；

以所述车商相似度的结果对所述车商匹配模型的误差进行修正。

进一步地，在上述实施例中，所述分别计算上述两者的车商相似度，具体包括：

基于NLP技术，计算任意两个车商发布的车源的相似度；

对所述名称相似度、地址相似度和所述车源的相似度进行加权计算，将得到的权重确认为所述车商相似度。

进一步地，在上述实施例中，所述重复车源识别模块14，具体包括：

进一步地，在上述实施例中，计算两个车源相似度需要考虑这两个车源的上牌时间差，型号名称相似度，颜色是否相同，报价差，表显里程差距，上架时间差距等车源特征来算。其中型号相似度是基于NLP技术，上牌时间，报价差，表显里程差距，上架时间差距等都是数字按照数字之间的差异大小做标准化及加权计算出一个相似度，比如这几个的差都是0，那么就是完全相似其相似度就＝1，如果差异大相似度就减小。

进一步地，在上述实施例中，所述库存量计算模块15，具体包括：

在售状态判断单元，用于获取目标二手车车源的重复车源记录，若目标二手车车源在所述记录内均未下架或已售，且目标二手车车源在所述记录内的最晚发布时间与当前时间的差值在预设范围内，则标记为在售状态，否则为已售状态。

本发明实施例提供的二手车库存量的确定方法及装置，有益效果在于以下所述中的至少一点：

(1)首先根据网络爬虫技术获取初始数据，提高了数据的获取广度，然后基于预置的型号匹配模型和预置的车商匹配模型对所述初始数据进行处理，降低型号和车商名称或ID多样化对数据的精度影响，接着采用数据清洗技术对数据进行清理，进一步提高数据的精度，再接着对数据进行重复车源识别，通过引入销售圈的概念对数据的精度进行优化，最后判断目标二手车车源的在售状态，得到目标二手车的库存量，整个方法集数据的获取和处理为一体，通过特定的车商匹配模型和相似度重复车源识别等环节，实现了二手车库存量的确定；

(2)整个流程自动化，避免了人工填报或计算，节约大量的人力成本与时间成本；

(3)通过抓取所有主流二手车平台的车源信息，避免显著缺漏；对车源数据进行跨网站比对，避免一个车源因同时发布在多个网站而被当成不同车源发生的重复计算以及有些网站车源下架时间大幅晚于售出时间这两个情况造成的二手车库存量被高估的问题；每个车源都根据其特征匹配到准确的型号与年款，避免了信息错误的问题；

(4)本实施例中的二手车库存量确定装置能够多线程自动运行，可以做得每天更新，保证数据的实施有效。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种二手车库存量的确定方法，其特征在于，包括：

2.如权利要求1所述的二手车库存量的确定方法，其特征在于，所述预置的车商匹配模型，其构建过程包括：

第一步，获取各车源的车商信息的训练样本集；

第四步，将相似度超过阈值的车商标记为同一个车商；

3.如权利要求2所述的二手车库存量的确定方法，其特征在于，若所述初始车商数据相比于所述训练样本集为新增数据，则依次将所述初始车商数据和所述训练样本集中的每一车商组队，并计算每一组队的相似度；

4.如权利要求2所述的二手车库存量的确定方法，其特征在于，所述分别计算上述两者的车商相似度，具体包括：

基于NLP技术和所述特征词库，计算两个车商的名称相似度；

基于NLP技术，计算两个车商发布的车源的相似度；

以得到的所述系数作为权重计算所述车商相似度。

5.如权利要求1所述的二手车库存量的确定方法，其特征在于，所述根据各车源之间的相似度，对所述待识别数据进行重复车源识别，具体为：

6.如权利要求1所述的二手车库存量的确定方法，其特征在于，所述基于目标二手车车源的在售状态，得到目标二手车的库存量，具体包括：

7.一种二手车库存量的确定装置，其特征在于，包括：

8.如权利要求7所述的二手车库存量的确定装置，其特征在于，所述预置的车商匹配模型，其构建过程包括：

第一步，获取各车源的车商信息的训练样本集；

第四步，将相似度超过阈值的车商标记为同一个车商；

9.如权利要求8所述的二手车库存量的确定装置，其特征在于，所述分别计算上述两者的车商相似度，具体包括：

基于NLP技术，计算任意两个车商发布的车源的相似度；

以得到的所述系数作为权重计算所述车商相似度。

10.如权利要求7所述的二手车库存量的确定装置，其特征在于，所述重复车源识别模块，具体包括：