CN112100496A - 一种车型数据标准化匹配方法和系统 - Google Patents

一种车型数据标准化匹配方法和系统 Download PDF

Info

Publication number
CN112100496A
CN112100496A CN202010960753.2A CN202010960753A CN112100496A CN 112100496 A CN112100496 A CN 112100496A CN 202010960753 A CN202010960753 A CN 202010960753A CN 112100496 A CN112100496 A CN 112100496A
Authority
CN
China
Prior art keywords
vehicle type
type data
matched
data
standardized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010960753.2A
Other languages
English (en)
Inventor
薛淼
孟格思
李敏
王瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202010960753.2A priority Critical patent/CN112100496A/zh
Publication of CN112100496A publication Critical patent/CN112100496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本说明书实施例提供一种车型数据标准化匹配方法和系统。所述方法包括:获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;通过TF‑IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。

Description

一种车型数据标准化匹配方法和系统
技术领域
本说明书涉及数据处理领域,特别涉及一种车型数据标准化匹配方法和系统。
背景技术
随着共享出行、汽车租赁、汽车转卖等行业的蓬勃发展,记录汽车的数据体量也急剧增大。由于各大企业汽车数据体系建设不一致,记录车辆数据呈现体量大而杂的情况,导致难以应用这些数据。
因此,希望提供一种车型数据标准化匹配方法。
发明内容
本说明书一个方面提供一种车型数据标准化匹配方法。所述方法包括:获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。
本说明书另一个方面提供一种车型数据标准化匹配系统。所述系统包括:获取模块,用于获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;数据处理模块,用于基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;匹配模块,用于通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。
本说明书另一个方面提供一种车型数据标准化匹配装置,包括至少一个处理器,所述至少一个处理器用于执行如前所述的方法。
本说明书另一个方面提供计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如前所述的方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的车型数据标准化匹配方法的应用场景示意图;
图2是根据本说明书一些实施例所示的车型数据标准化匹配系统的示例性模块图;
图3是根据本说明书一些实施例所示的车型数据标准化匹配方法的示例性流程图;
图4是根据本说明书另一些实施例所示的车型数据标准化匹配方法的示例性流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
虽然本说明书对根据本说明书的实施例的系统中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
由于各大企业汽车数据体系建设不一致,记录车辆数据呈现体量大而杂的情况,这对汽车数据、汽车整体行业发展趋势等的研究会产生阻力导致难以应用这些数据。本说明书实施例提供一种车型数据标准化匹配方法,通过对车型数据进行数据预处理、车型特征划分、并行处理、结果评估等方式中的一种或多种实现车型数据标准化匹配,将散落在各个企业的汽车数据规范整合,建立汽车行业统一的具有标杆性的命名规则,可以提高车型数据标准化匹配的效率和准确率,以及对汽车行业研究的便捷性。在一些实施例中,可以基于车型数据的全部车型特征建立多级词库,每级词库设置不同的权重和/或阈值,基于多级词库对车型数据进行标准化匹配。在一些实施例中,可以通过多线程方法,对多组车型数据并行处理,同时确定多组车型数据的标准化车型数据。在一些实施例中,可以对车型数据的标准化匹配结果进行评估,基于评估结果对匹配过程进行优化。
图1是根据本说明书一些实施例所示的车型数据标准化匹配方法的应用场景示意图。
如图1所示,场景100可以包括服务器110、网络120、终端设备130、数据库140以及其他数据源150。
在一些实施例中,车型数据标准化匹配方法可以应用于大体量车辆数据库建立。例如,服务器110可以通过网络120从终端设备130、和/或数据库140、和/或其他数据源150,获取待匹配的车型数据,通过TF-IDF(term frequency–inverse document frequency)方法,结合多级词库和/或多线程技术从标准化车型数据库中确定待匹配车型数据对应的标准化车型数据,基于确定的标准化车型数据建立车辆数据库。
服务器110可以用于管理资源以及处理来自场景100中至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。例如,服务器110可以从终端设备130获取待匹配车型数据。又例如,服务器110可以从数据库140获取标准化车型数据。在一些实施例中,服务器110可以为车型数据标准化匹配系统的一部分。例如,服务器110可以为车型数据标准化匹配系统的后台服务器。在一些实施例中,服务器110可以为终端设备130的一部分。
在一些实施例中,服务器110可以是单个的服务器或者服务器群。在一些实施例中,服务器群可以是集中式的或分布式的(例如,服务器110可以是分布式系统)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以通过网络120访问储存于终端设备130和/或数据库140中的信息和/或数据。再例如,服务器110可以直接连接到终端设备130和/或数据库140、和/或其他数据源150以访问储存的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,服务器110可以在计算设备上实现,例如电脑、移动设备或任何具有计算处理功能的设备。
在一些实施例中,服务器110可以包括处理设备112。处理设备112可以处理各种与车型数据标准化匹配相关的信息和/或数据,以执行本说明书中描述的一个或多个功能。例如,处理设备112可以从终端设备130获取待匹配车型数据,从标准化车型数据库中确定待匹配车型数据对应的标准化车型数据。在一些实施例中,处理设备112可以包括一个或多个处理器(例如,单晶片处理器或多晶片处理器)。仅作为示例,处理设备112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。
网络120可以促进信息和/或数据的交换。在一些实施例中,场景100中的一个或多个部件(例如,服务器110、终端设备130、数据库140)可以通过网络120向场景100中的其他部件发送信息和/或数据。例如,服务器110可以通过网络120从终端设备130获取待匹配车型数据。又例如,服务器110可以通过网络120从数据库140获取标准化车型数据。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种或其组合。仅作为示例,网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中,网络120可以包括一个或多个网络交换点。例如,网络120可以包括有线或无线网络交换点,如基站和/或互联网交换点120-1、120-2、……,通过网络交换点,场景100的一个或多个部件可以连接到网络120以交换数据和/或信息。
终端设备130可以用于输入和/或获取数据和/或信息。在一些实施例中,终端设备130可以包括智能手机130-1、平板电脑130-2、膝上型电脑130-3等。在一些实施例中,终端设备130可以包括移动终端设备等。例如,移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等或上述举例的任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器的控制设备、智能监测设备、智能电视、智能摄影机、对讲机等或上述举例的任意组合。在一些实施例中,可穿戴设备可以包括手环、鞋袜、眼镜、头盔、手表、衣物、背包、智能配饰等或上述举例的任意组合。在一些实施例中,智能移动设备可以包括移动手机、个人数字助理、游戏设备、导航设备、POS机、膝上型电脑、台式电脑等或上述举例的任意组合。
在一些实施例中,用户可以通过终端设备130获取待匹配车型数据和/或标准化车型数据。在一些实施例中,用户可以通过终端设备130获取车辆数据。例如,用户可以通过终端设备130获取经标准化之后的车辆数据库中的租赁汽车、和/或二手售卖汽车等相关的车辆系别、性能参数、价格等数据。
数据库140可以储存数据和/或指令。在一些实施例中,数据库140可以储存从终端设备130和/或网络120获取的数据。在一些实施例中,数据库140可以储存供服务器110执行或使用的数据和/或指令,服务器110可以通过执行或使用这些数据和/或指令以实现本说明书描述的示例性方法。在一些实施例中,数据库140可以包括大容量存储器、可以移动存储器、挥发性读写存储器、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性的可以移动存储器可以包括快闪驱动器、软盘、光盘、存储卡、压缩盘、磁带等。在一些实施例中,数据库140可以在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。
在一些实施例中,数据库140可以与网络120连接以与场景100中的一个或多个部件(例如,服务器110、终端设备130)通信。场景100中的一个或多个部件可以通过网络120访问储存于数据库140中的数据或指令。在一些实施例中,数据库140可以直接与场景100中的一个或多个部件(例如,服务器110、终端设备130)连接或通信。在一些实施例中,数据库140可以是服务器110和/或终端设备130的一部分。
其他数据源150可以用于为场景100提供其他信息的一个或多个来源。在一些实施例中,其他数据源150可以包括一个或多个设备、一个或多个应用程序接口、一个或多个数据库查询接口、一个或多个基于协议的信息获取接口、或其他可获取信息的方式等,或上述方式中两种或多种的组合。在一些实施例中,数据源提供的信息可以包括在提取信息时已存在的、在提取信息时临时生成的,或上述方式的组合。在一些实施例中,其他数据源150可以用于为场景100提供待匹配车型数据、标准化车型数据等数据。
在一些替代性实施例中,场景100还可以包括其他用于车型数据标准化匹配的组件,例如,可以包括用于基于标准化后的车型数据建立车辆数据库的第二服务器等,本说明书对此不做限制。
图2是根据本说明书一些实施例所示的车型数据标准化匹配系统的示例性模块图。
如图2所示,在一些实施例中,系统200可以包括获取模块210、数据处理模块220、匹配模块230、数据预处理模块240、评估模块250、优化模块260、以及数据库生成模块270。这些模块也可以作为应用程序或一组由处理引擎读取和执行的指令实现。此外,模块可以是硬件电路和应用/指令的任何组合。例如,当处理引擎或处理器执行应用程序/一组指令时,模块可以是处理器的一部分。
获取模块210可以用于获取待匹配车型数据。在一些实施例中,获取模块210可以从至少两个不同的数据源获取多组待匹配车型数据。在一些实施例中,每组待匹配车型数据可以包括多个车型特征。在一些实施例中,每组待匹配车型数据可以对应一辆车的一组运营数据。
数据处理模块220可以用于基于预设条件对待匹配车型数据的多个车型特征进行划分。在一些实施例中,划分后的车型特征可以包括第一级特征和第二级特征,所述第一级特征的重要性高于所述第二级特征的重要性。在一些实施例中,划分后的车型特征还可以包括第三级特征,所述第三级特征的重要性低于所述第二级特征的重要性。
匹配模块230可以用于通过TF-IDF算法,基于划分后的车型特征从标准化车型数据库中确定待匹配车型数据对应的标准化车型数据。在一些实施例中,匹配模块230可以基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。在一些实施例中,匹配模块230可以在确定所述待匹配车型数据对应的第一标准化车型数据集之前,基于预设的停用词库过滤所述待匹配车型数据中的停用词。在一些实施例中,匹配模块230可以通过所述TF-IDF算法,基于待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定待匹配车型数据对应的第二标准化车型数据集,以及基于所述待匹配车型数据的第三级特征中的车型特征,从所述第二标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。在一些实施例中,匹配模块230可以根据待匹配车型数据的车系,从标准化车型数据库中确定对应车系的标准化车型数据集,基于对应车系的标准化车型数据集进行标准化车型数据匹配。在一些实施例中,匹配模块230可以当第二待匹配车型数据与已被标准化匹配的第一待匹配车型数据相似时,从第二车型数据库中确定所述第二待匹配车型数据的标准化车型数据。
数据预处理模块240可以用于对待匹配车型数据中的车型特征进行数据预处理。在一些实施例中,预处理可以包括但不限于数据清洗、归一化、值分析、编码、分级、组合、过滤等中的一种或多种的组合。
评估模块250可以用于对所述待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库。其中,所述第一车型数据库包括匹配不准确的车型数据及其对应的标准化车型数据,所述第二车型数据库包括匹配准确的车型数据及其对应的标准化车型数据;所述第一车型数据库用于优化所述TF-IDF算法,所述第二车型数据库用于索引待匹配车型数据的标准化车型数据。在一些实施例中,评估模块250可以计算所述待匹配车型数据与其对应标准化车型数据之间的车型特征的相似度,基于相似度进行匹配准确性自动打分;基于打分结果确定所述第一车型数据库和所述第二车型数据库。
优化模块260可以用于基于所述第一车型数据库中的待匹配车型数据的车型特征,以及其对应的标准化车型数据的车型特征,更新所述TF-IDF算法中的多级词袋模型。在一些实施例中,多级词袋模型的更新可以包括在多级词袋中加入车型特征的同义词表述。
数据库生成模块270可以用于将所述多组待匹配车型数据中对应的标准化车型数据相同的待匹配车型数据对应的车辆的至少部分运营数据合并,生成车辆运营数据库,基于所述车辆营运数据库自动确定待评估车辆的价格和车型数据来源。
在一些实施例中,系统200可以对所述多组待匹配车型数据中的至少两组待匹配车型数据并行处理,同时确定所述至少两组待匹配车型数据的标准化车型数据。例如,系统200可以同时对至少两组待匹配车型数据的车型特征进行数据预处理。又例如,系统200可以同时对至少两组待匹配车型数据的车型特征进行划分。再例如,系统200可以同时从标准化车型数据库中确定至少两组待匹配车型数据的标准化车型数据。
应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统200及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统200及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,获取模块210、数据处理模块220、匹配模块230、数据预处理模块240、评估模块250、优化模块260、以及数据库生成模块270可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。在一些实施例中,获取模块210、数据处理模块220、匹配模块230、数据预处理模块240、评估模块250、优化模块260、以及数据库生成模块270可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
图3是根据本说明书一些实施例所示的车型数据标准化匹配方法的示例性流程图。
如图3所示,流程300可以通过处理设备(如服务器110)或车型数据标准化匹配系统(如系统200)执行。其包括:
步骤310,获取多组待匹配车型数据。在一些实施例中,该步骤310可以由获取模块210执行。
待匹配车型数据可以是尚未进行标准化的,各个企业定义的原始车型数据。在一些实施例中,一组待匹配车型数据可以包括多个车型特征。在一些实施例中,车型特征可以包括但不限于车辆的品牌、车系、年款、排量、变速箱类型、最佳马力、指导价、成交价、行驶里程等。例如,一组待匹配车型数据可以为:2015款(年款)标致308S(车系)1.6L(排量)手动(变速箱类型)。在一些实施例中,处理设备可以从汽车厂商、汽车交易网站等渠道获取待匹配车型数据。例如,处理设备可以从东风、大众、长安、雪铁龙、夏利、奔驰、奥迪等汽车厂商获取对应厂商生产的所有车辆的车型数据为待匹配车型数据。又例如,处理设备可以从瓜子、天天拍、车300、人人车等二手车交易网站,和/或一嗨、神州、悟空等租车网站获取对应网站的所有车辆的车型数据为待匹配车型数据。
在一些实施例中,处理设备可以从至少两个不同的数据源获取多组待匹配车型数据。不同的数据源可以为不同类型的两个或多个渠道,或相同类型的两个或多个不同企业。例如,处理设备可以同时从汽车产商和二手车交易网站获取多组待匹配车型数据。又例如,处理设备可以同时从瓜子和车300对应的交易网站获取多组待匹配车型数据。在一些实施例中,待匹配车型数据的获取方式可以包括但不限于直接获取、合作关系获取等,本说明书对此不做限制。
在一些实施例中,每组待匹配车型数据可以对应一辆汽车的一组运营数据。例如,一组待匹配车型数据可以为某辆二手汽车的品牌、车系、年款、排量、变速箱类型、指导价、成交价、行驶里程、车龄等数据。
步骤315,对获取的待匹配车型数据进行数据预处理。在一些实施例中,该步骤315可以由数据预处理模块240执行。
在一些实施例中,处理设备可以对获取的待匹配车型数据中的车型特征进行数据预处理。在一些实施例中,预处理方式可以包括但不限于数据清洗、归一化、值分析、编码、分级、组合、过滤等中的一种或多种的组合。在一些实施例中,对于每组待匹配车型数据中成交价、指导价、车身长、宽、高、行驶里程等连续型车型特征可以对其进行数据清洗、归一化、值分析等预处理操作,对该待匹配车型数据中变速箱类型、年款、品牌、车系、高低配置等离散型车型特征可以对其进行编码、分级、组合等预处理操作。例如,处理设备可以通过对车型特征中的指导价/成交价进行值分析去除价格中多余的零、单位等冗余数据。又例如,处理设备可以将车型特征中的车系与年款进行组合以及编码,基于组合编码后的车型特征进行标准化匹配。再例如,处理设备可以过滤掉指导价格明显异常的该组待匹配车型数据。
在一些实施例中,对于待匹配车型数据的连续型和离散型车型特征可以同时或分别进行预处理操作。优选地,可以同时对待匹配车型数据的连续型和离散型车型特征进行预处理操作。在一些实施例中,处理设备可以同时对获取的多组待匹配车型数据中的至少两组待匹配车型数据并行执行数据预处理操作。例如,处理设备可以同时对获取的全部待匹配车型数据进行预处理,或同时对其中的两组待匹配车型数据进行预处理,或同时对所述多组待匹配车型数据中的一半待匹配车型数据进行预处理。在一些实施例中,处理设备可以通过训练好的算法模型对待匹配车型数据的车型特征进行预处理。
通过对待匹配车型数据中的特征数据进行数据预处理,可以过滤特征数据中的冗余、不合理等的信息数据,基于预处理后的车型特征数据进行车型数据标准化匹配,可以提高匹配效率和准确率。
步骤320,基于预设条件,对待匹配车型数据的多个车型特征进行划分。在一些实施例中,步骤320可以由数据处理模块220执行。
在一些实施例中,预设条件可以包括但不限于对车型特征的划分条件、数量、类型、级别、组数等中的一种或多种的组合。例如,预设条件可以为:根据每个车型特征的所属类别将全部车型特征划分为两组,或根据每个车型特征对车辆品名识别的重要性将全部车型特征划分为多个组别等。在一些实施例中,预设条件可以为对车型特征的直接划分规则。例如,预设条件可以为:将车型数据中品牌、车系划分为第一组车型特征,将车型数据中排量、变速箱类型、最佳马力划分为第二组车型特征。
在一些实施例中,划分后的车型特征可以包括多个重要性不同的特征组。例如,划分后的车型特征可以包括第一级特征和第二级特征,其中第一级特征的重要性高于第二级特征的重要性。又例如,划分后的车型特征可以包括第一级特征、第二级特征和第三级特征,其中第一级特征的重要性高于第二级特征的重要性,第二级特征的重要性高于第三级特征的重要性。仅作为示例,第一级特征可以为品牌(如,江铃、铃木、东风小康、东南、福田、红旗等)、车系(如,特顺新能源、北斗星、东风小康K05S、富利卡、萨瓦纳、世纪星等)等由车辆厂家制定需严格保持一致的车型特征;第二级特征可以为排量(如,4.8L、1.3L、3.6L等)、变速箱类型(如,手动、自动、手自一体)等可以由厂商自行定义的车型特征,例如,车辆的排量可以定义为1.6T,也可以定义为1.6L;第三级特征可以为车型级别(如,中型车、小型车等)、马力(如,103马力、108马力等)等第一级特征和第二级特征之外的其他车型特征。在一些替代性实施例中,第三级特征可以为其他车型特征中的部分,例如,第三级特征可以不包含其他车型特征中的指导价、成交价、排放标准等车型特征,本说明书对此不做限制。
通过将车型特征划分为多个重要性不同的特征组,可以根据每个特征组的重要性逐级进行标准化车型数据匹配,经过多层标准化车型数据的匹配,使得最终获得的匹配结果更加准确。
步骤330,通过TF-IDF算法,基于划分后的车型特征从标准化车型数据库中确定待匹配车型数据对应的标准化车型数据。在一些实施例中,步骤330可以由匹配模块230执行。
标准化车型数据库是指通过对组成汽车的各个元素(即车型特征)给出标准化定义,建立的标准化定义数据体系。例如,可以将车辆的排量标准化定义为“数字+T”,将“手自一体”标准化定义为“自动”等。在一些实施例中,标准化车型数据库可以包括多个车型,以及多条车型特征。例如,标准化车型数据库可以包括9万多个车型,300多条车型特征。在一些实施例中,处理设备可以基于汽车厂家、厂商、和/或二手车交易网站的车型数据确定车型特征的标准化定义。例如,可以直接将二手车交易平台-车300中对各类车辆的车型特征的定义确定为车型数据的标准化定义,并基于平台车辆数据库建立标准化车型数据库。又例如,可以基于汽车厂家对车辆各个元素的定义,确定车型数据的标准化定义,并基于厂家的车辆数据建立标准化车型数据库。在一些实施例中,处理设备可以基于用户表述习惯确定车型数据的标准化定义。例如,可以将普通群众对车辆各个元素的习惯性表述确定为标准化定义,并基于车辆的类别建立标准化车型数据库。在一些实施例中,处理设备可以基于国际标准确定车型数据的标准化定义。例如,可以基于国际单位、国际上对车辆各个元素的常规/标准表述,确定车型数据的标准定义。在一些替代性实施例中,车型数据的标准化定义可以通过任意合理的方式确定,本说明书对此不做限制。
在一些实施例中,可以对标准化车型数据库中的标准化车型数据对应的车型特征进行划分。例如,可以与待匹配车型数据的车型特征对应的,划分为第一级特征、第二级特征和第三级特征。处理设备可以基于划分后的车型特征对应的特征组进行标准化车型数据匹配。
在一些实施例中,可以基于车型数据的更新定期更新标准化车型数据库。例如,可以每周、或每天、或每月更新标准化车型数据库中的车型特征标准化定义。在一些实施例中,可以基于车辆的出产时间更新标准化车型数据库。例如,可以基于新生产的车辆在标准化车型数据库中增加对应的标准化车型数据。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的加权技术。其中,TF是指词频(Term Frequency),IDF是指逆文本频率指数(Inverse Document Frequency)。TF-IDF可以用于评估一字词对于一个文本集或一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在一些实施例中,处理设备可以通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定待匹配车型数据对应的第一标准化车型数据集,基于待匹配车型数据的第二级特征中的车型特征从第一标准化车型数据集中确定待匹配车型数据对应的标准化车型数据。在一些实施例中,处理设备可以通过TF-IDF算法,基于待匹配车型数据的第二级特征中的车型特征从第一标准化车型数据集中确定待匹配车型数据对应的第二标准化车型数据集,基于待匹配车型数据的第三级特征中的车型特征,从第二标准化车型数据集中确定待匹配车型数据对应的标准化车型数据。例如,基于待匹配车型数据的第一级特征的车型特征品牌、车系,从标准化车型数据库中匹配到10组与待匹配车型数据相关的标准化车型数据,基于第二级特征的车型特征年款、排量、变速箱类型,可以从10组标准化车型数据中进一步匹配到5组与该待匹配车型数据相关的标准化车型数据,基于第三级特征的车型特征车型级别、马力,可以从5组标准化车型数据中匹配到一组待匹配车型数据对应的标准化车型数据。在一些实施例中,可以基于待匹配车型数据的车型特征对应的组别的重要性,确定标准化车型数据匹配结果。例如,若基于待匹配车型数据的第一级特征未从标准化车型数据库中匹配到对应的标准化车型数据,则不进行后面的匹配;或基于待匹配车型数据的第二级特征未从第一标准化车型数据集中匹配到对应的标准化车型数据,则不进行后面的匹配;或基于待匹配车型数据的第三级特征未从第二标准化车型数据集中匹配到对应的标准化车型数据,则认为匹配失败(即未匹配到对应的标准化车型数据)。
在一些实施例中,处理设备可以基于待匹配车型数据的车型特征与标准化车型数据的对应车型特征之间的相似度距离,确定待匹配车型数据对应的标准化车型数据。例如,可以当待匹配车型数据的车型特征与标准化车型数据的对应车型特征之间的相似度距离值大于预设匹配阈值时,确定该标准化车型数据为待匹配车型数据对应的标准化车型数据。在一些实施例中,相似度距离值大于预设匹配阈值可以包括,待匹配车型数据的每个车型特征与标准化车型数据的对应车型特征之间的相似度距离均大于预设匹配阈值,或待匹配车型数据的部分车型特征与标准化车型数据的对应车型特征之间的相似度距离大于预设匹配阈值,或待匹配车型数据的全部或部分车型特征与标准化车型数据的对应车型特征之间的相似度距离的均值大于预设匹配阈值。
在一些实施例中,可以基于车型特征的重要性为每组车型特征设置不同的车型数据标准化匹配阈值。例如,车型数据的第一级特征对应的匹配阈值可以为0.6,第二级特征对应的匹配阈值可以为0.8,第三级特征对应的匹配阈值可以为0.95。又例如,车型数据的第一级特征对应的匹配阈值可以为0.5,第二级特征对应的匹配阈值可以为0.7,第三级特征对应的匹配阈值可以为0.9。再例如,车型数据的第一级特征对应的匹配阈值可以为0.8,第二级特征对应的匹配阈值可以为0.9,第三级特征对应的匹配阈值可以为0.98。在一些实施例中,每组车型特征对应的预设匹配阈值可以为任意合理的值,本说明书对此不做限制。
在一些实施例中,每组车型特征满足预设匹配阈值的条件可以全部相同、或全部不同、或部分相同。例如,基于待匹配车型数据的第一级特征的标准化匹配可以为第一级特征的全部车型特征与标准化车型数据的对应车型特征之间的相似度距离值均大于对应的预设匹配阈值,基于第二级特征的标准化匹配可以为第二级特征的全部车型特征与标准化车型数据的对应车型特征之间的相似度距离值均大于对应的预设匹配阈值,基于第三级特征的标准化匹配可以为第三级特征的全部车型特征与标准化车型数据的对应车型特征之间的相似度距离的均值大于对应的预设匹配阈值。
在一些实施例中,处理设备在确定待匹配车型数据对应的第一标准化车型数据集之前可以基于预设的停用词库过滤所述待匹配车型数据中的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,过滤掉的字或词。在一些实施例中,停用词可以包括但不限于英文字符、数字、数学字符、标点符号,以及使用频率较高的语气助词、副词、介词、连接词(例如,“在”、“了”、“的”、“吧”等)等。在一些实施例中,处理设备可以通过TF-IDF算法或其他方法过滤停用词。
在一些实施例中,处理设备可以在进行标准化车型数据匹配之前,根据待匹配车型数据的车系,从标准化车型数据库中确定对应车系的标准化车型数据集。处理设备可以基于所述对应车系的标准化车型数据集进行车型数据标准化匹配。例如,待匹配车型数据的车系为“东风小康K05S”,则可以直接在标准化车型数据库中“东风小康K05S”对应的标准化车型数据中搜索待匹配车型数据的标准化车型数据。
在一些实施例中,待匹配车型数据的标准化匹配结果可以包括匹配成功和匹配失败。匹配成功即待匹配车型数据匹配到至少一个标准化车型数据,匹配失败即待匹配车型数据未从标准化车型数据库中匹配到对应的标准化车型数据。
在一些替代性实施例中,可以通过其他能够实现数据匹配的算法进行待匹配车型数据的标准化车型数据匹配,本说明书对此不做限制。
步骤340,对待匹配车型数据与其对应的标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库。在一些实施例中,步骤340可以由评估模块250执行。
所述第一车型数据库可以包括匹配不准确的车型数据及其对应的标准化车型数据。在一些替代性实施例中,第一车型数据库可以包括匹配不准确的车型数据、该组车型数据对应的匹配获得的标准化车型数据、或该组车型数据对应的正确的标准化车型数据等中的一种或多种的组合。在一些实施例中,第一车型数据库可以用于优化所述TF-IDF算法,例如,步骤343。所述第二车型数据库可以包括匹配准确的车型数据及其对应的标准化车型数据。在一些实施例中,第二车型数据库可以包括匹配准确的车型数据或其对应的标准化车型数据。在一些实施例中,第二车型数据库可以用于索引待匹配车型数据的标准化车型数据,例如,流程400中步骤415。
在一些实施例中,处理设备可以对每组待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库。例如,可以选取待匹配车型数据对应的TOP N的标准化车型数据,进行匹配准确性评估,N为任意正整数。在一些实施例中,对于每组待匹配车型数据,处理设备可以分别计算所述待匹配车型数据的与其对应的至少一个标准化车型数据之间的相应车型特征的相似度,基于相似度值进行匹配准确性自动打分;并基于打分结果确定所述第一车型数据库和所述第二车型数据库。在一些实施例中,处理设备可以基于待匹配车型数据的全部车型特征与其对应标准化车型数据中的相应车型特征之间的相似度距离,进行自动打分。在一些实施例中,可以通过回归技术进行自动打分。在一些实施例中,可以通过机器学习模型对待匹配车型数据与其对应的标准化车型数据进行匹配准确性评估。
在一些实施例中,可以通过设置第二阈值,确定第一车型数据库和第二车型数据库。例如,可以将分值大于第二阈值的待匹车型数据与其对应的标准化车型数据确定为第二车型数据库,将分值小于或等于所述第二阈值的待匹配车型数据与其对应的标准化车型数据确定为第一车型数据库。
步骤343,基于第一车型数据库优化TF-IDF算法。在一些实施例中,步骤343可以由优化模块260执行。
在一些实施例中,处理设备可以基于第一车型数据库中的待匹配车型数据的车型特征,以及其对应的标准化车型数据的车型特征,更新TF-IDF算法中的多级词袋模型。词袋模型是指不考虑词语的词法和语序等问题,将所有词语装进一个袋子里,词袋中每个词语相互独立不依赖于其他词是否出现的词集合。在一些实施例中,词袋模型可以为TF-IDF算法中的一部分,TF-IDF算法可以在进行数据匹配的过程中基于输入数据和词库自动构建词袋模型。本说明书实施例中,多级词袋模型是指可以根据划分后的每组车型特征的级别的不同,构建多个不同级别的词袋的词集合。在一些实施例中,可以基于第一车型数据中待匹配车型数据与其对应的标准化车型数据中车型特征更新多级词袋模型。仅作为示例,可以将第一车型数据库中因语言不一致、命名更新等导致的匹配不准确的车型数据及其对应的正确的标准化车型数据输入TF-IDF算法,TF-IDF算法可以基于该组数据在多级词袋中加入对应车型特征的英文翻译(如,“丰田”对应的英文“TOYOTA”等)、原始命名(如,“宾利”对应的其他命名“本特利”等)等同义词表述。例如,若匹配不准确的原始车型数据为“本特利2010款欧陆6.0T自动版”,对应正确的标准化车型数据为“宾利2010款欧陆6.0T自动版”,则优化后的TF-IDF算法构建的多级词袋可以包括“本特利2010款欧陆6.0T自动版宾利”等词语。
在一些实施例中,处理设备可以基于TF-IDF算法的召回率(匹配到标准化车型数据的待匹配车型数据与所有进行标准化匹配的待匹配车型数据的比值)、精确率、AUC指标(准确率与召回率之间的关系曲线)等优化TF-IDF算法。
在一些替代性实施例中,可以基于第一车型数据库和/或其他数据,更新TF-IDF算法的其他部分,或更新车型数据标准化匹配方法中的其他部分,例如,更新车型特征的多级特征词库(如,基于第一车型数据库中的车型特征,更新车型特征的划分方式等),本说明书对此不做限制。
在一些实施例中,处理设备(或车型数据标准化匹配系统)可以对所述多组待匹配车型数据中的至少两组待匹配车型数据并行处理,同时确定所述至少两组待匹配车型数据的标准化车型数据。例如,处理设备可以同时对10组、或20组、或50组、或100组待匹配车型数据执行数据预处理、数据处理、停用词过滤、标准化车型数据匹配操作,以同时确定所述10组、或20组、或50组、或100组待匹配车型数据对应的标准化车型数据。
在一些实施例中,可以基于待匹配车型数据的标准化车型数据匹配结果,建立车辆数据库。例如,可以将待匹配车型数据中与对应标准化车型数据中不匹配的车型特征更改为标准化车型数据中车型特征表述,并标注该组待匹配车型数据的来源,以构建所有待匹配车型数据对应的车辆数据库。在一些实施例中,可以将所述多组待匹配车型数据中对应的标准化车型数据相同的待匹配车型数据对应的车辆的至少部分运营数据合并,生成车辆运营数据库,基于所述车辆营运数据库自动确定待评估车辆的价格和车型数据来源。在一些实施例中,可以通过重置成本法、现行估价法、收益现值法、现行市价法等中的一种或多种确定待评估车辆的价格。例如,可以根据车辆运营数据库中车辆的车型特征,以同款式、同年份、同使用期限的车辆在市场上的平均价格为基础,再考虑待评估车辆的现时技术状况评定系数,以平均价格乘以系数确定车辆的价格。在一些实施例中,可以直接基于车辆的标准化车型数据中建议价格,确定待评估车辆的价格。例如,在建议价格的基础上增/减一定数额。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,在一些实施例中,步骤315-步骤330可以通过同时具有数据预处理、数据处理、数据匹配等功能的一个模型实现,或可以通过分别具有数据预处理、数据处理、数据匹配功能的三个模型实现。
图4是根据本说明书另一些实施例所示的车型数据标准化匹配方法的示例性流程图。
如图4所示,在一些实施例中,处理设备(或车型数据标准化匹配系统)可以当第二待匹配车型数据与已被标准化匹配的第一待匹配车型数据相似时,基于确定的第二车型数据库确定所述第二待匹配车型数据的标准化车型数据。其中,在流程400中,步骤410、步骤415、步骤420-步骤440,分别与流程300中步骤310、步骤315、步骤320-步骤340对应,更多内容可以参见图3及其相关描述,在此不再赘述。
在步骤413中,处理设备可以先判断待匹配车型数据是否与已被标准化匹配的车型数据相似。当待匹配车型数据与已被标准化匹配的车型数据不相似时,通过步骤415-步骤440确定该待匹配车型数据的标准化车型数据;当待匹配车型数据与已被标准化匹配的车型数据相似时,通过步骤445,直接从第二车型数据库中,通过索引确定该待匹配车型数据的标准化车型数据。
在一些实施例中,可以基于车型特征判断待匹配车型数据是否与已被标准化匹配的车型数据相似。例如,对应的车型特征是否一致或相似。通过构建第二车型数据库,可以当相同或相似的待匹车型数据再次输入时,直接从第二车型数据库索引对应的标准化车型数据,提高车型数据标准化匹配效率。例如,若第一待匹配车型数据为来自瓜子的车型数据“大众朗逸2015款1.6T自动舒适版”,经标准化匹配确定该组车型数据的标准化车型数据为“大众朗逸2015款1.6L自动舒适版”,且经评估该组数据匹配准确,加入第二车型数据库;则若第二待匹配车型数据为来自人人车的车型数据“大众朗逸2015款1.6T自动舒适版”时,可以直接从第二车型数据库中索引确定对应的标准化车型数据“大众朗逸2015款1.6L自动舒适版”。
在一些实施例中,处理设备(或车型数据标准化匹配系统)可以基于车型数据标准化匹配确定的第二车型数据库,对车型数据进行标准化。例如,可以从第二车型数据库中获取车型数据的标准化车型数据。
应当注意的是,上述有关流程400的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程400进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,流程400还可以包括与流程300中步骤343相似的步骤443,基于第一车型数据库优化TF-IDF算法。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过将车型特征划分为多个特征组,分别基于每个特征组的车型特征逐级进行标准化车型数据,可以提高匹配准确性和效率;(2)通过对多组待匹配车型数据并行处理,可以提高车型数据标准化匹配的效率;(3)通过对匹配结果进行评估,基于评估结果构建用于优化匹配算法的第一车型数据库和用于索引的第二车型数据库,可以提高匹配准确率和匹配效率。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (26)

1.一种车型数据标准化匹配方法,其特征在于,所述方法包括:
获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;
基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;
通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。
2.根据权利要求1所述的方法,其特征在于,对所述多组待匹配车型数据中的至少两组待匹配车型数据并行处理,同时确定所述至少两组待匹配车型数据的标准化车型数据。
3.根据权利要求1所述的方法,其特征在于,在通过所述TF-IDF算法确定所述待匹配车型数据对应的标准化车型数据前,还包括:
根据所述待匹配车型数据的车系,从所述标准化车型数据库中确定对应车系的标准化车型数据集,基于所述对应车系的标准化车型数据集进行标准化车型数据匹配。
4.根据权利要求1所述的方法,其特征在于,在确定所述待匹配车型数据对应的第一标准化车型数据集之前还包括:
基于预设的停用词库过滤所述待匹配车型数据中的停用词。
5.根据权利要求1所述的方法,其特征在于,还包括:对所述待匹配车型数据中的所述多个车型特征进行数据预处理,所述预处理至少包括数据清洗、归一化、值分析、编码、分级、组合、或过滤。
6.根据权利要求1所述的方法,其特征在于,所述划分后的车型特征还包括第三级特征;
所述基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据,包括:
通过所述TF-IDF算法,基于所述待匹配车型数据的所述第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的第二标准化车型数据集,以及基于所述待匹配车型数据的所述第三级特征中的车型特征,从所述第二标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。
7.根据权利要求1所述的方法,其特征在于,还包括:
对所述待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库;
其中,所述第一车型数据库包括匹配不准确的车型数据及其对应的标准化车型数据,所述第二车型数据库包括匹配准确的车型数据及其对应的标准化车型数据;所述第一车型数据库用于优化所述TF-IDF算法,所述第二车型数据库用于索引待匹配车型数据的标准化车型数据。
8.根据权利要求7所述的方法,其特征在于,所述对所述待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库包括:
计算所述待匹配车型数据与其对应标准化车型数据之间的车型特征的相似度,基于相似度进行匹配准确性自动打分;
基于打分结果确定所述第一车型数据库和所述第二车型数据库。
9.根据权利要求7所述的方法,其特征在于,所述第一车型数据库用于优化所述TF-IDF算法包括:
基于所述第一车型数据库中的待匹配车型数据的车型特征,以及其对应的标准化车型数据的车型特征,更新所述TF-IDF算法中的多级词袋模型;
其中,所述多级词袋模型的更新至少包括在多级词袋中加入车型特征的同义词表述。
10.根据权利要求7所述的方法,其特征在于,所述第二车型数据库用于索引待匹配车型数据的标准化车型数据包括:
当第二待匹配车型数据与已被标准化匹配的第一待匹配车型数据相似时,从所述第二车型数据库中确定所述第二待匹配车型数据的标准化车型数据。
11.根据权利要求1所述的方法,其特征在于,还包括:
从至少两个不同的数据源获取多组待匹配车型数据,每组所述待匹配车型数据对应一辆车的一组运营数据。
12.根据权利要求11所述的方法,其特征在于,还包括:
将所述多组待匹配车型数据中对应的标准化车型数据相同的待匹配车型数据对应的车辆的至少部分运营数据合并,生成车辆运营数据库,基于所述车辆营运数据库自动确定待评估车辆的价格和车型数据来源。
13.一种车型数据标准化匹配系统,其特征在于,所述系统包括:
获取模块,用于获取多组待匹配车型数据,每组待匹配车型数据包括多个车型特征;
数据处理模块,用于基于预设条件对每组待匹配车型数据的所述多个车型特征进行划分,划分后的车型特征至少包括第一级特征和第二级特征;
匹配模块,用于通过TF-IDF算法,基于待匹配车型数据的第一级特征中的车型特征从标准化车型数据库中确定所述待匹配车型数据对应的第一标准化车型数据集,以及基于所述待匹配车型数据的第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。
14.根据权利要求13所述的系统,其特征在于,对所述多组待匹配车型数据中的至少两组待匹配车型数据并行处理,同时确定所述至少两组待匹配车型数据的标准化车型数据。
15.根据权利要求13所述的系统,其特征在于,所述匹配模块还用于:
根据所述待匹配车型数据的车系,从所述标准化车型数据库中确定对应车系的标准化车型数据集,基于所述对应车系的标准化车型数据集进行标准化车型数据匹配。
16.根据权利要求13所述的系统,其特征在于,所述匹配模块在确定所述待匹配车型数据对应的第一标准化车型数据集之前还用于:
基于预设的停用词库过滤所述待匹配车型数据中的停用词。
17.根据权利要求13所述的系统,其特征在于,所述系统还包括数据预处理模块,所述数据预处理模块用于:
对所述待匹配车型数据中的所述多个车型特征进行数据预处理,所述预处理至少包括数据清洗、归一化、值分析、编码、分级、组合、或过滤。
18.根据权利要求13所述的系统,其特征在于,所述划分后的车型特征还包括第三级特征;
所述匹配模块还用于:
通过所述TF-IDF算法,基于所述待匹配车型数据的所述第二级特征中的车型特征从所述第一标准化车型数据集中确定所述待匹配车型数据对应的第二标准化车型数据集,以及基于所述待匹配车型数据的所述第三级特征中的车型特征,从所述第二标准化车型数据集中确定所述待匹配车型数据对应的标准化车型数据。
19.根据权利要求13所述的系统,其特征在于,所述系统还包括评估模块,所述评估模块用于:
对所述待匹配车型数据与其对应的至少一个标准化车型数据进行匹配准确性评估,基于评估结果确定第一车型数据库和第二车型数据库;
其中,所述第一车型数据库包括匹配不准确的车型数据及其对应的标准化车型数据,所述第二车型数据库包括匹配准确的车型数据及其对应的标准化车型数据;所述第一车型数据库用于优化所述TF-IDF算法,所述第二车型数据库用于索引待匹配车型数据的标准化车型数据。
20.根据权利要求19所述的系统,其特征在于,所述评估模块用于:
计算所述待匹配车型数据与其对应标准化车型数据之间的车型特征的相似度,基于相似度进行匹配准确性自动打分;
基于打分结果确定所述第一车型数据库和所述第二车型数据库。
21.根据权利要求19所述的系统,其特征在于,所述系统还包括优化模块,所述优化模块用于:
基于所述第一车型数据库中的待匹配车型数据的车型特征,以及其对应的标准化车型数据的车型特征,更新所述TF-IDF算法中的多级词袋模型;
其中,所述多级词袋模型的更新至少包括在多级词袋中加入车型特征的同义词表述。
22.根据权利要求19所述的系统,其特征在于,所述匹配模块还用于:
当第二待匹配车型数据与已被标准化匹配的第一待匹配车型数据相似时,从所述第二车型数据库中确定所述第二待匹配车型数据的标准化车型数据。
23.根据权利要求13所述的系统,其特征在于,所述获取模块从至少两个不同的数据源获取多组待匹配车型数据,每组所述待匹配车型数据对应一辆车的一组运营数据。
24.根据权利要求23所述的系统,其特征在于,所述系统还包括数据库生成模块,所述数据库生成模块用于:
将所述多组待匹配车型数据中对应的标准化车型数据相同的待匹配车型数据对应的车辆的至少部分运营数据合并,生成车辆运营数据库,基于所述车辆营运数据库自动确定待评估车辆的价格和车型数据来源。
25.一种车型数据标准化匹配装置,包括至少一个处理器,所述至少一个处理器用于执行如权利要求1~12任一项所述的方法。
26.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~12中任一项所述的方法。
CN202010960753.2A 2020-09-14 2020-09-14 一种车型数据标准化匹配方法和系统 Pending CN112100496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010960753.2A CN112100496A (zh) 2020-09-14 2020-09-14 一种车型数据标准化匹配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010960753.2A CN112100496A (zh) 2020-09-14 2020-09-14 一种车型数据标准化匹配方法和系统

Publications (1)

Publication Number Publication Date
CN112100496A true CN112100496A (zh) 2020-12-18

Family

ID=73751509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010960753.2A Pending CN112100496A (zh) 2020-09-14 2020-09-14 一种车型数据标准化匹配方法和系统

Country Status (1)

Country Link
CN (1) CN112100496A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562780A (zh) * 2017-07-21 2018-01-09 杭州大搜车汽车服务有限公司 一种车辆匹配方法、电子设备及存储介质
CN109740166A (zh) * 2019-01-17 2019-05-10 杭州联保致新科技有限公司 一种车型数据名称标准化治理方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN110555024A (zh) * 2019-08-13 2019-12-10 广东数鼎科技有限公司 一种基于人工智能算法的精准汽车型号匹配系统
CN111047419A (zh) * 2019-12-31 2020-04-21 广州探途天下科技有限公司 一种车型标准化方法及相关装置
WO2020103183A1 (en) * 2018-11-22 2020-05-28 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for constructing database
CN111422153A (zh) * 2020-02-21 2020-07-17 浙江吉利汽车研究院有限公司 一种车辆个性化设置的方法、装置、介质及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562780A (zh) * 2017-07-21 2018-01-09 杭州大搜车汽车服务有限公司 一种车辆匹配方法、电子设备及存储介质
WO2020103183A1 (en) * 2018-11-22 2020-05-28 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for constructing database
CN109740166A (zh) * 2019-01-17 2019-05-10 杭州联保致新科技有限公司 一种车型数据名称标准化治理方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN110555024A (zh) * 2019-08-13 2019-12-10 广东数鼎科技有限公司 一种基于人工智能算法的精准汽车型号匹配系统
CN111047419A (zh) * 2019-12-31 2020-04-21 广州探途天下科技有限公司 一种车型标准化方法及相关装置
CN111422153A (zh) * 2020-02-21 2020-07-17 浙江吉利汽车研究院有限公司 一种车辆个性化设置的方法、装置、介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘加运;李玉惠;李勃;严明;: "一种多维特征融合的车辆对象同一性匹配方法", 计算机技术与发展, vol. 26, no. 04, 30 April 2016 (2016-04-30), pages 167 - 171 *

Similar Documents

Publication Publication Date Title
US10740404B1 (en) Database system for dynamically generating customized models
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
TW201905773A (zh) 車險風險預測方法、裝置及伺服器
CN107590688A (zh) 目标客户的识别方法及终端设备
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
CN107230108A (zh) 业务数据的处理方法及装置
CN108389069A (zh) 基于随机森林和逻辑回归的优质客户识别方法及装置
Dey et al. Representation of developer expertise in open source software
CN113934868A (zh) 政务大数据治理方法及系统
CN112579900B (zh) 二手车置换信息推荐方法、系统及设备
CN112508600A (zh) 一种基于互联网公开数据的车辆价值评估方法
CN108364191A (zh) 基于随机森林和逻辑回归的优质客户优化识别方法及装置
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN115168736A (zh) 一种评标专家推荐方法、装置、设备及介质
CN112991026A (zh) 一种商品推荐方法、系统、设备及计算机可读存储介质
CN116628228B (zh) 一种rpa流程推荐方法以及计算机可读存储介质
CN116384841A (zh) 一种企业数字化转型诊断评价方法及服务平台
CN114385921B (zh) 一种标书推荐方法、系统、设备及存储介质
CN115329207B (zh) 智能销售信息推荐方法及系统
CN116843483A (zh) 一种车险理赔方法、装置、计算机设备及存储介质
WO2020106950A1 (en) User-experience development system
CN112100496A (zh) 一种车型数据标准化匹配方法和系统
Sagan Market research and preference data
US11694258B2 (en) Systems, methods, and devices for generating and trading environmental credits
US11586520B2 (en) Automated data linkages across datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination