CN111930775A - 车辆信息识别方法、装置、终端及计算机可读存储介质 - Google Patents

车辆信息识别方法、装置、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN111930775A
CN111930775A CN202010872786.1A CN202010872786A CN111930775A CN 111930775 A CN111930775 A CN 111930775A CN 202010872786 A CN202010872786 A CN 202010872786A CN 111930775 A CN111930775 A CN 111930775A
Authority
CN
China
Prior art keywords
information
vehicle
atom
standard
vehicle type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010872786.1A
Other languages
English (en)
Inventor
周凯
金振东
贺业强
丁新民
许可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Enlighten Beijing Co ltd
Original Assignee
Data Enlighten Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Data Enlighten Beijing Co ltd filed Critical Data Enlighten Beijing Co ltd
Priority to CN202010872786.1A priority Critical patent/CN111930775A/zh
Publication of CN111930775A publication Critical patent/CN111930775A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种车辆信息识别方法、装置、终端及计算机可读存储介质,获取车辆信息;车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;将车辆信息进行切词处理得到一个或者多个原子信息;根据该一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;根据匹配原子信息在预定汽车专业词典中查找匹配车辆信息;输出该匹配车辆信息。通过本发明,对输入的车辆信息这一分子进行切词得到原子,在标准汽车专业词典中查找与该原子对应的标准原子,再通过该标准原子得到标准车辆信息,解决了在搜索车型和汽车零配件等信息时,不能对其进行准确识别的问题,提高了对车型和汽车零配件等信息进行识别的准确度,提升了用户体验。

Description

车辆信息识别方法、装置、终端及计算机可读存储介质
技术领域
本发明涉及车辆技术领域,具体涉及一种车辆信息识别方法、装置、终端及计算机可读存储介质。
背景技术
随着我国经济的长足发展,人们的消费水平逐渐提升,汽车逐步从之前的消耗品转成家庭日常代步工具。
如今,汽车配件成千上万种,汽车零配件产品都是通过通用的平台或者搜索引擎进行查找,而产品搜索都是模糊的,不能够精确定位所查找的汽车零配件。在查找合适车型和汽车零配件时,通常需要消费者花费很长的时间。例如,现有搜索引擎即使使用高级搜索,如输入“帕萨特2007款”,不能识别“2007款”信息,无法返回“帕萨特2007款”的结果,或输入“帕萨特”和“帕萨特2007款”的返回结果完全相同,或输入“帕萨特”返回结果没有排序逻辑;有时用户会输入错误,如输入“丰田冠道”错误逻辑的内容,现有搜索引擎无法返回请求内容;对于熟悉的销售版本描述,如输入“吉利金刚自动村淘版上市”,现有搜索引擎则无法返回请求内容;对于输入随意数据如“大众出租车”,现有搜索引擎无法返回请求内容;对输入如“宝马520”或者“520”,现有搜索引擎对“宝马520”无法返回请求内容,说明没有对输入的内容进行切词处理,不能识别用户查询语句中的关键信息,现有搜索引擎对输入的“520”,优先返回的是“兰博基尼LP520”,数据的准确性不高,说明没有固有或者动态的结果排序逻辑,用户查询体验不好;有些车型可以通过输入专业信息进行搜索,如输入发动机型号“N20B20D”,现有搜索引擎无法返回请求内容;有些车型可以通过输入专业信息进行搜索,如输入丰田EPC车型代号“GRJ120”,现有搜索引擎无法识别,且无法返回请求内容;当用户想输入复杂信息搜索时,如其他汽车综合性网站上看到的信息“F20 M135i”,现有搜索引擎无法识别,且无法返回请求内容;现有技术特别是在配件电商领域,如输入帕萨特的火花塞,不能准确定位该电商的产品,而且不能返回这个火花塞的适用车型跟知名大厂牌的火花赛适用的车型是否一样的结果。
目前在汽车领域还没有一款关于车型、零配件的成熟搜索引擎,包括一些电商网站均不具备车型和零配件检索的专业性或车型检索准确性。
发明内容
有鉴于此,本发明实施例提供了一种车辆信息识别方法、装置、终端及计算机可读存储介质,以解决现有技术中在搜索车型和汽车零配件等信息时,不能对车辆车型和零配件等信息进行准确识别的问题。
为此,本发明实施例提供了如下技术方案:
本发明第一方面,提供了一种车辆信息识别方法,包括:
获取车辆信息;其中,所述车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;
将所述车辆信息进行切词处理得到一个或者多个原子信息;
根据所述一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,所述预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息;
根据所述匹配原子信息在所述预定汽车专业词典中查找匹配车辆信息;其中,所述匹配车辆信息包括以下至少之一:匹配车型信息、零配件信息、匹配车辆维修信息;其中,所述匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息;
输出所述匹配车辆信息。
可选地,所述方法还包括:
在根据所述一个或者多个原子信息在所述预定汽车专业词典中无法查找到匹配原子信息时,根据车辆领域声母韵母相似度算法将所述一个或者多个原子信息转换为一个或者多个第一原子拼音信息;
采用倒排索引技术对所述一个或者多个第一原子拼音信息进行处理,得到一个或者多个第二原子拼音信息;
在所述预定汽车专业词典中查找与所述一个或者多个第二原子拼音信息中文数量之差最小的指定原子拼音信息,将所述指定原子拼音信息作为所述匹配原子信息。
可选地,在所述车辆信息包括车型信息和OE编码信息的情况下,将所述车辆信息进行切词处理得到一个或者多个原子信息之前,所述方法还包括:
确定所述OE编码信息对应的指定车型信息;
在所述指定车型信息与所述车型信息一致的情况下,对所述车型信息进行切词处理得到所述一个或者多个原子信息;
在所述指定车型信息与所述车型信息不一致的情况下,对所述指定车型信息进行切词处理得到所述一个或者多个原子信息。
可选地,将所述车辆信息进行切词处理得到一个或者多个原子信息之前,所述方法还包括:
将所述车辆信息包括的多个子车辆信息进行优先级排序;
根据优先级顺序对所述多个子车辆信息中的全部或者部分子车辆信息进行切词处理得到所述一个或者多个原子信息。
可选地,所述车辆信息包括第一年款信息时,输出所述匹配车辆信息包括:
所述标准车型信息对应的第二年款信息与所述第一年款信息无交集的情况下,获取与所述第一年款信息相差年限小于预定阈值并与所述第二年款信息存在交集的第三年款信息;
输出所述车型信息以及对应的所述第三年款信息。
可选地,输出所述匹配车辆信息包括:
在所述标准车型信息为多个的情况下,获取多个标准车型信息对应的多个车型保有量;
根据所述多个车型保有量的递减顺序对所述多个标准车型信息进行降序输出。
可选地,所述车型信息包括车型数据和车型参数数据;其中,所述车型数据用于定义车型,所述车型参数数据用于定义车型配置。
本发明第二方面,提供了一种车辆信息识别装置,包括:
获取模块,用于获取车辆信息;其中,所述车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;
切词模块,用于将所述车辆信息进行切词处理得到一个或者多个原子信息;
第一查找模块,用于根据所述一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,所述预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息;
第二查找模块,用于根据所述匹配原子信息在所述预定汽车专业词典中查找匹配车辆信息;其中,所述匹配车辆信息包括以下至少之一:匹配车型信息、零配件信息、匹配车辆维修信息;其中,所述匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息;
输出模块,用于输出所述匹配车辆信息。
本发明第三方面,提供了一种终端,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述第一方面中任一所述的车辆信息识别方法。
本发明第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述第一方面中任一所述的车辆信息识别方法。本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种车辆信息识别方法、装置、终端及计算机可读存储介质,其中,该方法包括:获取车辆信息;车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;将车辆信息进行切词处理得到一个或者多个原子信息;根据该一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息;根据匹配原子信息在预定汽车专业词典中查找匹配车辆信息;其中,该匹配车辆信息包括以下至少之一:匹配车型信息、零配件信息、匹配车辆维修信息;其中,匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息;输出该匹配车辆信息。通过上述方法,对输入的车辆信息这一分子进行切词处理得到原子,在标准汽车专业词典中查找与该原子对应的标准原子,再通过该标准原子得到标准车辆信息这另一分子,解决了现有技术中在搜索车型和汽车零配件等信息时,不能对车辆车型和零配件等信息进行准确识别的问题,提高了对车型和汽车零配件等信息进行识别的准确度,提升了用户体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的车辆信息识别方法的流程图;
图2是根据本发明实施例的车辆信息识别装置的结构框图;
图3是本发明实施例提供的终端的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
根据本发明实施例,提供了一种车辆信息识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在本实施例中提供了一种车辆信息识别方法,可用于上述的移动终端,如手机、平板电脑等,图1是根据本发明实施例的车辆信息识别方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取车辆信息,其中,该车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息。具体地,该车型信息包括车型数据和车型参数数据,其中,该车型数据用于定义车型,该车型参数数据用于定义车型配置。获取车辆信息的方式可以包括很多种,例如通过物理按键或者虚拟按键的方式获取车辆信息,也可以通过语音方式获取车辆信息,本领域技术人员应当知晓上述车辆信息的获取方式仅为举例说明,不构成对本发明的限定,本领域技术人员能够想到的其他获取方式也在本发明的保护范围之内。
步骤S102,将该车辆信息进行切词处理得到一个或者多个原子信息。具体地,一方面需要对自然语句进行切词,需要创新一套基于汽车专业词典的切词算法;另一方面调用汽车后市场近百位汽车专家,按照他们平常的工作习惯进行点选查询或语音搜索操作,收集原始素材。然后再进行机器学习,对语义智能解析。同时对比公开车型信息如汽车之家车型描述、一网车型描述以及各大知名厂商公开网站的车型描述信息,均作为算法训练输入信息。
步骤S103,根据一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息。具体地,车型原子库:在汽车后市场,对于一个车的定义通常用车型来指定,但车型的描述既有各数据厂商定义的规范,也有市面上的通俗叫法。本发明实施例的车型原子库是为了准确识别市面上各类通俗车型表述而建立的,目的是通过将被需要识别的车型字段打碎成原子,如“揽胜运动版”对应原子“揽胜运动”,“帕萨特领驭”对应“帕萨特领驭”或“领驭”等,来方便切词识别后的逻辑处理,将不同语义,不同维度的车型描述转换成标准车型库中所被定义的最细维度车型数据。详细原子包含如“品牌、厂商、底盘、车系、车型、排量、年款、发动机、变速箱、销售版型……”。
配件原子库:在汽车专业领域,同一配件名称或维修操作既有书面称谓,如前保险杠皮、发动机罩、中网、钣金、喷漆,也有行业当中的俗称,如前保,头盖,鬼面罩、修复喷漆。前保即为前保险杠皮,头盖即为发动机罩,鬼面罩即为中网,修复喷漆即为钣金和喷漆。而且,一个物件往往还会存在很多个不同的俗称,前保险杠皮的俗称有“前杠,前保,前杆,前泵把、前杠蒙皮……”。
为了适应普遍的自然语音与语义AI智能解析,本发明实施例创造了千万级的汽车专业词典,并创造一套“原子分子物质理论“来识别专业术语。分子即为汽车配件名称,或者维修操作,我们称之为”汽车专业词典“,构成分子的原子是最小单位的专业词典,物质即为语句。
原子又为A,B,C,F,E五类,分别代表不同的属性,如F代表方位,左前大灯中的左就是方位词F,E代表维修操作,如更换,喷漆…。
标准车型库:车型是车型数据是指车型数据库里精确描述一个车型所需的经定义过的字段的总和。经定义过的字段的数量越多,不同经定义过的字段按一定逻辑排列的长度越长,经定义过的字段包含的信息越多,则车型数据就越精确。具体分成车型数据和附属的车型参数数据。车型数据的作用是用来定义车型,车型参数据只用来描述车型配置。通常可以按:主机厂车型名称、工信部公告号、经销渠道销售版型、车身形式、国别、经分类定义的参数配置等多种形式来细分。本发明实施例的标准车型库是在整理了中国汽车后市场的市面上已被使用的不同车型的表述,经字段定义标准化后整理了一套更加规范的车型描述信息,同时结合主机厂的车型信息,如底盘号、发动机型号、变速箱型号。从主机厂底盘维度形成一套车组定义规范,车型定义更加精确易懂。整个标准车型库横向超过15万条信息,覆盖乘用车99.9%的车,纵向每个车型有超过150个详细且存在合理价值的字段来表征。包括底盘号数据、车型底盘分代数据、发动机及替换号数据、工信部公告号数据、悬架及减振器数据、轮胎轮毂数据及上市情况和换代改款信息等。
标准适配库:为了确保品牌件适配数据的质量,本发明实施例抽取了各大知名厂商的公开的适配数据,结合OE唯一性数据进行了反向校验,形成市场有典型参考价值的标准数据库。其中包含:产品信息、适配关系、OE及替换链和参数图片等完整数据库。从而对于同品牌件的数据的矫正纠错、适配推荐和销售管理有这重要指导意义。在本发明实施例的算法中,一方面能提供海量的原子库,另一方面也是查询结果集的重要的一部分。
具体地,车型原子冲突情况下的各种校验:如“宝马3系/MG6、奔驰E200,宝马3系”整词识别会首先得到:“品牌-宝马”,然后再识别“车系-马3”,然而“宝马与马3”存在冲突字符。所以第一步校验“宝马和马3”是否是符合逻辑的车型,结果不符合,程序判定是错误的切词结果;第二步,去掉宝马,再来做一次切词,得到正确结果“3系“。对于MG6,同样存在字符冲突,但是”MG和MG6“是符合逻辑的车型,程序判定是正确的切词结果。
步骤S104,根据该匹配原子信息在预定汽车专业词典中查找匹配车辆信息;其中,匹配车辆信息包括以下至少之一:匹配车型信息、零配件信息、匹配车辆维修信息;其中,所述匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息。具体地,对于“奔驰E200,E200”既是奔驰、众泰车型原子,也是宝骏底盘原子,那么这个时候就要根据品牌奔驰来判断E200应该是奔驰的车型原子,从而丢弃掉底盘原子。
步骤S105,输出该匹配车辆信息。
通过上述步骤,对输入的车辆信息这一分子进行切词处理得到原子,在标准汽车专业词典中查找与该原子对应的标准原子,再通过该标准原子得到标准车辆信息这另一分子,解决了现有技术中在搜索车型和汽车零配件等信息时,不能对车辆车型和零配件等信息进行准确识别的问题,提高了对车型和汽车零配件等信息进行识别的准确度,提升了用户体验。
在一个具体的可选实施例中,在识别车辆信息时,(1)前期预处理阶段:第一步:预先由汽车车型专家编写原子。如品牌原子、厂商原子、车系原子、底盘原子、车型原子和发动机原子、版型原子等等。第二步:对这些原子进行分表存储,并且打上标记,便于区分。如,卡罗拉->'O:卡罗拉'、底盘'CM'->'V:CM'、版型'舒适精典版'->'SALE_VERSION:舒适'和'SALE_VERSION:经典'。(2)实际切词时刻:第三步:判断原子是否已经在缓存,如不在,则将需要识别的类型原子整表读入;如已存在,则省略此步骤,提高匹配效率。比如对输入字符'丰田卡罗拉舒适精典版'进行车系识别:第一次的情况下,会将车系原子表整个读入缓存。第二次及以后,则会直接匹配。第四步:①从第一个字符开始,依次读入最长20位,对输入字符循环与缓存中的原子进行最大长度匹配,如上案例中,假如我们有车系原子'卡罗'和'卡罗拉',则匹配到'卡罗拉'。然后再从'舒适精典版'开始,重复这个过程,直至所有输入字符匹配完毕。②对于纯英文和字母组合的原子,除了做最大长度匹配外,还会判断是否是一个独立的词,比如输入'fiats',虽然ATS是卡迪拉克的车系,但是fiats明显是一个整单词,此时不做切词处理。③对于品牌、厂商、车型、底盘和车型原子在识别后,会做剔除处理,防止相同字符被反复识别为不同的类型原子,造成精度的干扰。对剩下的字符再做其他配置项的匹配,比如年款、排量等。配件编码的识别:对输入字符进行分析,是否存在连续5位及以上由字母和数字组成的字符组,将字符组的中元素依次在配件编码表中进行匹配,匹配到了,即认为是配件匹配到车型。
在语音转文字过程中,由于人的腔调,外界噪音等影响,往往会发生转译错误。如语音说“前保支架”,有时会转译成“钱包支架”。为了解决这一问题,在一个可选实施例中,在根据上述一个或者多个原子信息在预定汽车专业词典中无法查找到匹配原子信息时,根据车辆领域声母韵母相似度算法将上述一个或者多个原子信息转换为一个或者多个第一原子拼音信息,采用倒排索引技术对所述一个或者多个第一原子拼音信息进行处理,得到一个或者多个第二原子拼音信息,在上述预定汽车专业词典中查找与该一个或者多个第二原子拼音信息中文数量之差最小的指定原子拼音信息,将指定原子拼音信息作为上述匹配原子信息。基于此,本发明实施例提出一种“语音模糊匹配算法”,先是把最小单位的汽车专业词典原子转译成拼音组合,再按照声母,韵母相近规律,创新汽车专业术语汉语拼音相似度算法,将语音转译成正确的专业词典。具体地,将汽车专业最小词典,即原子,转译成汉语拼音;将本发明实施例创造的千万级汽车专业词典,按照原子组合成分子理论,用拼音方式进行原子结合,最终又形成千万级汉语拼音式的汽车专业词典;在语音转文字的识别过程中,先将汉字穷尽拼音,将拼音声调独立处理。再将声母与韵母按相近分类,如声母g,k,h为相近组,韵母en,eng为相近组。汉字组成原子,原子组成分子。在语音转译文字的认别过程中,计算拼音字符串之间的“相似度(similarity)”找到拼音最相似的原子,其中用到了倒排索引技术,把原子表中所有的拼音字符串按照滑动N字节分解(如“abcde”分解为ab,abc,bcd,cde,de)并建立索引,然后对输入中文的拼音字符串也进行分解后,在索引中快速定位两者相同与不同的子串个数,进而算出相识度。
在相似度中所有相似的目标字符串中,找到符合拼音可替换的并且编辑距离最小的原子词作为最相似原子词。因为算法采用了倒排索引技术,可以在几毫秒内快速在千万级专业词典拼音字符串中快速定位最相似的汽车专业词典(即为分子),最终将语音智能识别为由专业词典组成的语句,再对语句进行语义智能解析。
在一个可选实施例中,在上述车辆信息包括车型信息和OE编码信息的情况下,将所述车辆信息进行切词处理得到一个或者多个原子信息之前,确定OE编码信息对应的指定车型信息,在该指定车型信息与上述车型信息一致的情况下,对车型信息进行切词处理得到所述一个或者多个原子信息,在指定车型信息与所述车型信息不一致的情况下,对上述指定车型信息进行切词处理得到上述一个或者多个原子信息。具体地,OE与车型混输,首先判断是否有交集,有则取交集,无交集则OE反查出来的车型优先展示。
在一个可选实施例中,将所述车辆信息进行切词处理得到一个或者多个原子信息之前,将所述车辆信息包括的多个子车辆信息进行优先级排序,根据优先级顺序对多个子车辆信息中的全部或者部分子车辆信息进行切词处理得到上述一个或者多个原子信息。具体地,动态筛选:当存在版型和年款同时存在的情况下,若无排量原子,则优先匹配年款,如卡罗拉2014款豪华版。如果也存在排量原子,则优先匹配排量和版型,年款最后考虑,如卡罗拉2014款1.2t豪华版。排序算法:首先切词算法会获得用户随意输入信息中的OE和车型数据和车型配置数据。如果OE和车型混输,那么排序算法的顺序是优先排序OE和车型信息识别的车型。其次如果用户输入信息中含有年款,但是该销售年款不存在于被识别到的车型数据中,则车组年款范围最接近的优先展示。比如“卡罗拉2015”优先展示“卡罗拉_E18_2014-2019”;其次对于同权重结果信息的,按对应车型保有量信息进行降序排序。如结果同时包含保时捷、众泰两个品牌的车型信息,则由于保时捷的保有量高于众泰,因此保时捷的车型信息排在前面。再其次,在混合输入车型和多种类配置的情况下。对于车型数据唯一,而各配置存在矛盾的情况下,会依据输入配置数据的种类进行动态过滤。比如卡罗拉1.2T2008款豪华版,因排量配置和销售版本配置组合在排序算法中的优先级高于年款,固被获得的年款信息会被过滤,仅展示“卡罗拉1.2T豪华版”的结果;若输入的数据是“卡罗拉2019款尊享版”,则因为在仅存在年款和销售版本配置的情况下年款的优先级高于销售版本,故被获得的销售版本信息会被过滤,仅展示“卡罗拉2019款”的结果。
在另一个可选实施例中,配置打分筛选算法:对于根据车型匹配到的详细记录,通过记录中的配置字段原子和识别出来的配置原子进行逐条打分。相交为正,不相交为负,然后根据设定好的配置字段优先级取分数最高的记录,再用每条记录与最高分记录比较,分数不低于最高记录的则返回。
在一个可选实施例中,上述车辆信息包括第一年款信息时,在标准车型信息对应的第二年款信息与所述第一年款信息无交集的情况下,获取与上述第一年款信息相差年限小于预定阈值并与第二年款信息存在交集的第三年款信息,输出所述车型信息以及对应的所述第三年款信息。具体地,如果用户输入信息中含有年款,但是该销售年款不存在于被识别到的车型数据中,则车组年款范围最接近的优先展示。比如“卡罗拉2015”优先展示“卡罗拉_E18_2014-2019”;
上述步骤S105中,具体地,在上述标准车型信息为多个的情况下,获取多个标准车型信息对应的多个车型保有量,根据多个车型保有量的递减顺序对多个标准车型信息进行降序输出。具体地,对于同权重结果信息的,按对应车型保有量信息进行降序排序。如结果同时包含保时捷、众泰两个品牌的车型信息,则由于保时捷的保有量高于众泰,因此保时捷的车型信息排在前面。
下面结合一个具体的实施例进行详细说明。
S1,输入关键词,例如卡罗拉3系1.2T;
S2,根据底层切词库对输入的上述关键词进行切词处理,处理过程包括英文数字拼音、语义逻辑处理、纠偏等;
S3,判断切词后的结果是否包括车型原子;在不包括车型原子时,执行步骤S4,在包括车型原子时,执行步骤S6;
S4,判断是否为发动机系列原子,在判断结果为是时,执行步骤S5,否则无结果;
S5,通过发动机/发动机系列号/发动机替换号查找车型,输出车型结果;
S6,判断包括车型原子是否包括品牌、厂牌原子,在判断结果为是的情况下,执行步骤S7,在判断结果为否的情况下,输出底盘原子(A),配置原子(B);
S7,筛选车型数据;
S8,判断品牌、厂牌原子和车型车系原子重合还是矛盾?在重合的情况下,输出车型原子(A),矛盾的情况下,输出车系车型原子(A);
S9,在原子系统中对上述底盘原子(A)、配置原子(B)、车型原子(A)和车系车型原子(A)进行处理,输出车型结果。
在本实施例中还提供了一种车辆信息识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种车辆信息识别装置,如图2所示,包括:
获取模块201,用于获取车辆信息;其中,该车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;
切词模块202,用于将上述车辆信息进行切词处理得到一个或者多个原子信息;
第一查找模块203,用于根据该一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,该预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息;
第二查找模块204,用于根据该匹配原子信息在所述预定汽车专业词典中查找匹配车辆信息;其中,该匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息;
输出模块205,用于输出该匹配车辆信息。
本实施例中的车辆信息识别装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种移动终端,具有上述图2所示的车辆信息识别装置。
请参阅图3,图3是本发明可选实施例提供的一种终端的结构示意图,如图3所示,该终端可以包括:至少一个处理器301,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口303,存储器304,至少一个通信总线302。其中,通信总线302用于实现这些组件之间的连接通信。其中,通信接口303可以包括显示屏(Display)、键盘(Keyboard),可选通信接口303还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器304可选的还可以是至少一个位于远离前述处理器301的存储装置。其中处理器301可以结合图2所描述的装置,存储器304中存储应用程序,且处理器301调用存储器304中存储的程序代码,以用于执行上述任一车辆信息识别方法的步骤。
其中,通信总线302可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器304可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器301可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器301还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:fieid-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器304还用于存储程序指令。处理器301可以调用程序指令,实现如本申请图1实施例中所示的车辆信息识别方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的车辆信息识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
综上所述,1、本发明目前是汽车领域仅有的可精准搜索车型和零配件信息的搜索引擎,可实现用户可以随意输入,返回的结果可准确反应用户的需求,且返回结果的排序符合用户的诉求,提高了用户的体验,达到自由、准确、智能的搜索效果。2、较传统汽车领域内的搜索引擎,本发明提供多种有效的搜索方式,专业和非专业用户均可满足使用。也因此它可应用在汽车领域内不同行业,如零配件生产制造商、零配件经销商、汽车修理厂、保险公司、二手车平台、电商平台、以及车主等使用,从而提高行业内的业务实用性。3、本发明仅需输入一个信息参数即可获得所需车型或零配件信息,且响应和返回结果更快捷,大大提高了用户的体验度。4、语音搜索带来高效智能便捷的同时还突破了传统搜索引擎手工输入或一步步筛选的单一性操作。5、本发明同时提供智能点选服务,并且提供车体外观图作为选择参考标准,极大提高用户搜索效率及准确性。6、本发明不断分析并学习用户行为,对于用户输入的信息进行全面分析并自我学习不断优化补充原子库、输出结果以及排序算法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种车辆信息识别方法,其特征在于,包括:
获取车辆信息;其中,所述车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;
将所述车辆信息进行切词处理得到一个或者多个原子信息;
根据所述一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,所述预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息;
根据所述匹配原子信息在所述预定汽车专业词典中查找匹配车辆信息;其中,所述匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息;
输出所述匹配车辆信息。
2.根据权利要求1所述的车辆信息识别方法,其特征在于,所述方法还包括:
在根据所述一个或者多个原子信息在所述预定汽车专业词典中无法查找到匹配原子信息时,根据车辆领域声母韵母相似度算法将所述一个或者多个原子信息转换为一个或者多个第一原子拼音信息;
采用倒排索引技术对所述一个或者多个第一原子拼音信息进行处理,得到一个或者多个第二原子拼音信息;
在所述预定汽车专业词典中查找与所述一个或者多个第二原子拼音信息中文数量之差最小的指定原子拼音信息,将所述指定原子拼音信息作为所述匹配原子信息。
3.根据权利要求1所述的车辆信息识别方法,其特征在于,在所述车辆信息包括车型信息和OE编码信息的情况下,将所述车辆信息进行切词处理得到一个或者多个原子信息之前,所述方法还包括:
确定所述OE编码信息对应的指定车型信息;
在所述指定车型信息与所述车型信息一致的情况下,对所述车型信息进行切词处理得到所述一个或者多个原子信息;
在所述指定车型信息与所述车型信息不一致的情况下,对所述指定车型信息进行切词处理得到所述一个或者多个原子信息。
4.根据权利要求1所述的车辆信息识别方法,其特征在于,将所述车辆信息进行切词处理得到一个或者多个原子信息之前,所述方法还包括:
将所述车辆信息包括的多个子车辆信息进行优先级排序;
根据优先级顺序对所述多个子车辆信息中的全部或者部分子车辆信息进行切词处理得到所述一个或者多个原子信息。
5.根据权利要求1所述的车辆信息识别方法,其特征在于,所述车辆信息包括第一年款信息时,输出所述匹配车辆信息包括:
所述标准车型信息对应的第二年款信息与所述第一年款信息无交集的情况下,获取与所述第一年款信息相差年限小于预定阈值并与所述第二年款信息存在交集的第三年款信息;
输出所述车型信息以及对应的所述第三年款信息。
6.根据权利要求1所述的车辆信息识别方法,其特征在于,输出所述匹配车辆信息包括:
在所述标准车型信息为多个的情况下,获取多个标准车型信息对应的多个车型保有量;
根据所述多个车型保有量的递减顺序对所述多个标准车型信息进行降序输出。
7.根据权利要求1至6中任一所述的车辆信息识别方法,其特征在于,所述车型信息包括车型数据和车型参数数据;其中,所述车型数据用于定义车型,所述车型参数数据用于定义车型配置。
8.一种车辆信息识别装置,其特征在于,包括:
获取模块,用于获取车辆信息;其中,所述车辆信息包括以下至少之一:车型信息、零配件信息、车辆维修信息;
切词模块,用于将所述车辆信息进行切词处理得到一个或者多个原子信息;
第一查找模块,用于根据所述一个或者多个原子信息在预定汽车专业词典中查找匹配原子信息;其中,所述预定汽车专业词典包括以下至少之一:预定车型原子库、预定零配件原子库、预定车辆维修信息;
第二查找模块,用于根据所述匹配原子信息在所述预定汽车专业词典中查找匹配车辆信息;其中,所述匹配车辆信息包括标准车型信息、标准零配件信息、标准车辆维修信息、标准车型信息与其对应的标准零配件信息、标准车型信息与其对应的标准车辆维修信息、标准零配件信息与其对应的标准车辆维修信息、或者标准车型信息与其对应的标准零配件信息以及对应的标准车辆维修信息;
输出模块,用于输出所述匹配车辆信息。
9.一种终端,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述权利要求1-7中任一所述的车辆信息识别方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现上述权利要求1-7中任一所述的车辆信息识别方法。
CN202010872786.1A 2020-08-26 2020-08-26 车辆信息识别方法、装置、终端及计算机可读存储介质 Pending CN111930775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010872786.1A CN111930775A (zh) 2020-08-26 2020-08-26 车辆信息识别方法、装置、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010872786.1A CN111930775A (zh) 2020-08-26 2020-08-26 车辆信息识别方法、装置、终端及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111930775A true CN111930775A (zh) 2020-11-13

Family

ID=73305815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010872786.1A Pending CN111930775A (zh) 2020-08-26 2020-08-26 车辆信息识别方法、装置、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111930775A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297172A (zh) * 2021-05-11 2021-08-24 浙江惠瀜网络科技有限公司 银行车贷业务数据处理确定方法、装置、设备和存储介质
CN114090620A (zh) * 2022-01-19 2022-02-25 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133876A (zh) * 2017-05-08 2017-09-05 明觉科技(北京)有限公司 车辆定损方法及定损客户端
CN107562780A (zh) * 2017-07-21 2018-01-09 杭州大搜车汽车服务有限公司 一种车辆匹配方法、电子设备及存储介质
CN108108349A (zh) * 2017-11-20 2018-06-01 北京百度网讯科技有限公司 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN108170708A (zh) * 2017-11-23 2018-06-15 杭州大搜车汽车服务有限公司 一种车辆实体识别方法、电子设备、存储介质、系统
CN108248612A (zh) * 2017-12-25 2018-07-06 深圳市轱辘车联数据技术有限公司 车辆诊断信息的管理方法、装置及终端设备
CN109101604A (zh) * 2018-08-01 2018-12-28 深圳市元征科技股份有限公司 车辆品牌识别的方法及车辆品牌识别装置
CN110895566A (zh) * 2018-08-23 2020-03-20 优估(上海)信息科技有限公司 一种车辆评估方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133876A (zh) * 2017-05-08 2017-09-05 明觉科技(北京)有限公司 车辆定损方法及定损客户端
CN107562780A (zh) * 2017-07-21 2018-01-09 杭州大搜车汽车服务有限公司 一种车辆匹配方法、电子设备及存储介质
CN108108349A (zh) * 2017-11-20 2018-06-01 北京百度网讯科技有限公司 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN108170708A (zh) * 2017-11-23 2018-06-15 杭州大搜车汽车服务有限公司 一种车辆实体识别方法、电子设备、存储介质、系统
CN108248612A (zh) * 2017-12-25 2018-07-06 深圳市轱辘车联数据技术有限公司 车辆诊断信息的管理方法、装置及终端设备
CN109101604A (zh) * 2018-08-01 2018-12-28 深圳市元征科技股份有限公司 车辆品牌识别的方法及车辆品牌识别装置
CN110895566A (zh) * 2018-08-23 2020-03-20 优估(上海)信息科技有限公司 一种车辆评估方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁树明: "基于自然语言理解的车辆行驶指令抽取", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297172A (zh) * 2021-05-11 2021-08-24 浙江惠瀜网络科技有限公司 银行车贷业务数据处理确定方法、装置、设备和存储介质
CN114090620A (zh) * 2022-01-19 2022-02-25 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置

Similar Documents

Publication Publication Date Title
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
Abrahams et al. Vehicle defect discovery from social media
CN109408809A (zh) 一种基于词向量的针对汽车产品评论的情感分析方法
CN106815208A (zh) 法律裁判文书的解析方法及装置
CN110866089B (zh) 基于同义多语境分析的机器人知识库构建系统及方法
CN111930775A (zh) 车辆信息识别方法、装置、终端及计算机可读存储介质
CN111339284A (zh) 产品智能匹配方法、装置、设备及可读存储介质
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN110532265B (zh) 基于产品使用手册构建问答系统的方法、装置及计算设备
CN111813903B (zh) 一种问句匹配方法和计算设备
CN111104803A (zh) 语义理解处理方法、装置、设备及可读存储介质
CN111241290A (zh) 一种评论标签生成方法、装置和计算设备
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
EP1099171A2 (en) An index to a semi-structured database
CN112651493A (zh) 基于联合训练模型的事故车判别方法和装置
CN111695874A (zh) 一种司法判决辅助系统以及方法、设备、可存储介质
JP2003173345A (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
CN110532362A (zh) 基于产品使用手册的问答方法、装置及计算设备
CN111640032B (zh) 车辆定损评估方法、装置、终端及计算机可读存储介质
CN113377957B (zh) 基于知识图谱的国民经济行业分类方法和系统
CN112634066B (zh) 通过车辆识别号解析销售车型的方法及装置
CN109918495A (zh) 一种面向交通事故责任纠纷案件的法条推荐方法
CN112699643B (zh) 一种生成语言模型的方法和文章自动生成方法
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN114861625A (zh) 一种获得目标训练样本的方法、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination