CN109492023B - 一种汽车信息处理方法及其设备、计算机存储介质 - Google Patents

一种汽车信息处理方法及其设备、计算机存储介质 Download PDF

Info

Publication number
CN109492023B
CN109492023B CN201811192288.1A CN201811192288A CN109492023B CN 109492023 B CN109492023 B CN 109492023B CN 201811192288 A CN201811192288 A CN 201811192288A CN 109492023 B CN109492023 B CN 109492023B
Authority
CN
China
Prior art keywords
brand
vehicle
information
image
automobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811192288.1A
Other languages
English (en)
Other versions
CN109492023A (zh
Inventor
周宝成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Culture Technology Co Ltd
Original Assignee
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Culture Technology Co Ltd filed Critical MIGU Culture Technology Co Ltd
Priority to CN201811192288.1A priority Critical patent/CN109492023B/zh
Publication of CN109492023A publication Critical patent/CN109492023A/zh
Application granted granted Critical
Publication of CN109492023B publication Critical patent/CN109492023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明实施例提供一种汽车信息处理方法及其设备、计算机存储介质,其中,所述方法包括:基于爬取的汽车信息,确定第一记录库和第二记录库,其中,所述第一记录库中包括品牌的信誉值大于第一阈值的汽车信息,所述第二记录库中包括品牌的信誉值不大于第一阈值的汽车信息;根据所述第一记录库中的品牌信息,对所述第二记录库中汽车信息进行修正,得到修正后的第二记录库;对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,以得到汽车知识库。

Description

一种汽车信息处理方法及其设备、计算机存储介质
技术领域
本发明涉及汽车信息处理技术领域,涉及但不限于一种汽车信息处理方法及其设备、计算机存储介质。
背景技术
随着生活水平的不断提高,汽车的普及率和保有量也呈现出巨大的增长。由于汽车属于大宗商品,所以用户在购买汽车之前,通常都希望对汽车的各项细节进行全面了解。而随着通信技术的迅猛发展,用户可以通过各种类型的汽车网站对汽车信息进行了解。
但是,在各大Web站点上不仅有经过行业专家编辑发布的页面,更多的是由Web用户提交的内容。内容复杂多样、质量不一,导致从Web站点上提取有效信息成为挑战。汽车交易领域涉及的Web站点众多,如何从众多的Web站点中提取客观有效、真实的数据、目前尚未有很好的解决方案。
发明内容
有鉴于此,本发明实施例期望提供一种汽车信息处理方法及其设备、计算机存储介质,解决了现有技术中汽车信息真实性、有效性不高的技术问题,能够得到数据完备、准确且冗余性低的汽车知识库。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种汽车信息处理方法,所述方法包括:
基于爬取的汽车信息,确定第一记录库和第二记录库,其中,所述第一记录库中包括品牌的信誉值大于第一阈值的汽车信息,所述第二记录库中包括品牌的信誉值不大于第一阈值的汽车信息;
根据所述第一记录库中的品牌信息,对所述第二记录库中汽车信息进行修正,得到修正后的第二记录库;
对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,得到汽车知识库。
本发明实施例再提供一种汽车信息处理设备,所述设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储汽车信息处理程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的汽车信息处理程序,以实现本发明其他实施例提供的汽车信息处理方法的步骤。
本发明实施例提供一种计算机存储介质,所述计算机存储介质上存储有汽车信息处理程序,所述汽车信息处理程序被处理器执行时实现本发明其他实施例提供的汽车信息处理方法的步骤。
本发明实施例提供一种汽车信息处理方法及其设备、计算机存储介质,其中,首先,基于爬取的汽车信息,确定第一记录库和第二记录库,其中,所述第一记录库中包括品牌的信誉值大于第一阈值的汽车信息,所述第二记录库中包括品牌的信誉值不大于第一阈值的汽车信息;然后根据所述第一记录库中的品牌信息,对所述第二记录库中汽车信息进行修正,得到修正后的第二记录库;最后分别对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,得到汽车知识库。如此,通过根据信誉值较高的第一记录库中的品牌信息对信誉值较低的第二记录库中的品牌信息进行修正,不仅能够保证修正后的记录库中信息的准确性,并且能够保证数据处理的完备性,进而再对汽车信息进行融合,将重复或本质相同的汽车信息进行删除,从而以得到准确且冗余性低的汽车知识库。
附图说明
图1为本发明实施例网络架构示意图;
图2为本发明实施例汽车信息处理方法的实现流程示意图;
图3为本发明实施例汽车信息处理方法的实现流程示意图;
图4为本发明实施例汽车信息处理方法的实现流程示意图图;
图5为本发明实施例汽车知识库中汽车信息的层级架构示意图;
图6为本发明实施例车型规范化的实现流程示意图;
图7为本发明实施例对错误品牌集记录Error_set进行纠错的实现流程示意图;
图8为本发明实施例根据搜索区域与模板图像进行匹配的示意图;
图9为本发明实施例汽车信息处理设备的组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明实施例网络架构示意图,如图1所示,所述网络架构至少包括汽车信息处理设备11和R个汽车网站服务器12,其中,汽车信息处理设备11和R个汽车网站服务器12之间可以建立有线或者无线网络连接,由此,汽车信息处理设备11与汽车网站服务器12之间便能够基于该网络连接进行数据传输。汽车信息处理设备11可以利用爬虫技术从汽车网站服务器12中爬取汽车信息,然后再对爬取到的汽车信息按照汽车品牌的信誉值进行分类,得到第一记录库和第二记录库,其中,第一记录库中的汽车品牌可以认为是准确的,第二记录库中的汽车品牌可以认为是不准确的,进而基于第一记录库中的汽车品牌对第二记录库中的汽车品牌进行更正,这样能尽可能的保证数据的完整性,并基于更正后的数据进行汽车信息融合,以得到汽车知识库。
在实际应用过程中,汽车信息处理设备也可以认为是一种服务器。
需要说明的是,在本发明实施例中所说的服务器可以是一台服务器,也可以是由多台服务器构成的服务器集群、云计算中心等等,在此不加以限定。
基于上述提供的网络架构,本发明实施例提供一种汽车信息处理方法,图2为本发明实施例汽车信息处理方法的实现流程示意图,如图2所示,所述方法包括以下步骤:
步骤S201,基于爬取的汽车信息,确定第一记录库和第二记录库。
这里,所述步骤S201可以是由汽车信息处理设备实现的,所述汽车信息处理设备可以是具备计算能力和通信能力的智能终端,例如可以是台式计算机、桌面电脑等终端。
所述步骤S201在实现时,首先从各个网站上爬取汽车信息,然后再对爬取到的汽车信息确定各个汽车品牌的信誉值,并将信誉值大于第一阈值的汽车品牌对应的汽车信息加入到第一记录库,将信誉值不大于所述第一阈值的汽车品牌对应的汽车信息加入到第二记录库。所述品牌的信誉值可以反映一个汽车品牌的可信度,当品牌的信誉值大于第一阈值时,可以认为该品牌的可信度较高,继而可以认为该汽车信息中的汽车品牌这一字段是正确的。在本发明实施例中,某个汽车品牌下的车型出现的数量越多,分布在更多的网站上时,该品牌的信誉值就越高。
所述第一阈值可以是根据从爬取到的汽车信息中得到的所有汽车品牌的信誉值来确定的。
在其他实施例中,在所述步骤S201之前,所述方法还包括:从各个汽车信息网站上爬取汽车信息,在实现时可以是,根据网页HTTP协议,利用爬虫技术爬取预设的汽车信息网站中的汽车信息,其中,所述汽车信息至少包括识别汽车特征的字段,例如可以包括车型、品牌、能源类型、产地、排量、价格等信息,然后将爬取到的汽车信息存储入汽车原始维度记录库。
需要说明的是,为了保证爬取的汽车信息的完备性,在初次爬取汽车信息后,还可以每间隔预设时长,例如每间隔24小时再对上述字段进行增量抓取,确保数据的稳定增长和时间上的连续性。
步骤S202,根据所述第一记录库中的品牌信息,对所述第二记录库中汽车信息进行修正,以得到修正后的第二记录库。
这里,所述步骤S202可以是由汽车信息处理设备实现的。
所述步骤S202在实现时可以是,首先获取所述第一记录库中每一品牌的品牌标识图像模板;然后再对所述第二记录库中的车辆图像进行预处理,得到预处理车辆图像,并确定所述预处理车辆图像中的搜索区域图像;将所述每一品牌的品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配;如果存在与所述搜索区域图像匹配的品牌模板图像,将所述品牌模板图像对应的品牌信息修正为所述车辆图像的品牌信息;如果不存在与所述搜索区域图像匹配的品牌模板图像,从所述第二记录库中将所述车辆图像对应的汽车信息删除。
步骤S203,对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,以得到汽车知识库。
这里,所述步骤S203可以是由汽车信息处理设备实现的。
所述步骤S203在实现时可以是,分别对第一记录库和修正后的第二记录库中的汽车信息进行数据融合,然后再将进行数据融合后的第一记录库和修正后的第二记录库进行合并,以得到汽车知识库。
在其他实施例中,所述步骤S203在实现时,还可以是首先将第一记录库和修正后的第二记录库进行合并,然后在对合并后的记录库中的第一记录库和修正后的第二记录库进行数据融合,以得到汽车知识库。
为更好地理解本发明实施例,这里对信息融合进行相关说明。
信息融合(information fusion)起初被称为数据融合(data fusion),起源于1973年美国国防部资助开发的声纳信号处理系统。信息融合实现的基本原理是:模拟人类大脑对接收到的各种信息进行加工处理,然后根据经验或相关理论知识对数据进行综合分析做出最终判断的过程。依据信息融合系统中数据抽象层次,融合可以划分为3个级别:数据级融合、特征级融合和决策级融合,其中,特征融合是中间层次的信息融合。
信息融合从提出到现在已有几十年的历史,其研究应用已经非常广泛。然而直到现在,信息融合尚未形成统一的理论框架、通用的融合模型和算法。目前,融合研究大多是针对某一特定领域的具体问题进行的,因此需要在解决具体问题时充分分析问题的特点,针对融合的目标及数据特性选择融合算法。从运行环境、处理的信息类型、信息表示、信息的不确定性、融合技术和适用范围等方向针对性提出解决方法。
在本实施例中,对第一记录库中的汽车信息进行数据融合时,可以首先分别对所述第一记录库中属于同一品牌的两个车型信息进行相似度计算,确定所述两个车型信息的相似度值;如果所述两个车型信息的相似度值大于第二阈值,可以认为这两个车型信息是相同的,此时再分别获取所述两个车型信息对应的M个预设属性信息,其中,M为不小于1的整数;如果所述两个车型信息对应的M个预设属性信息满足预设条件,确定所述两个车型信息对应的汽车信息是相同的;将所述两个车型信息中满足预设删除条件的车型信息对应的汽车信息删除,在本发明实施例中,可以是将两个车型信息中字节数较大的一个作为满足预设删除条件的车型信息,当然在其他实施例中,可以是将两个车型信息中字节数较小的一个作为满足预设删除条件的车型信息。对修正后的第二记录库中的汽车信息进行数据融合的实现过程与上述处理过程是类似的。
由于传统的文本融合方式为基于文本相似度的方式,对短文本适用性差。在本实施例中进行汽车信息融合时,考虑到车型本身作为短文本来计算相似度的同时,还考虑到车型值与型号、排量、价格等其它字段存在相关性,因此弱化了对文本相似度的要求,而强化了其它相关字段在进行车型融合时的重要性,从而能够达到较好的融合效果。
在本发明实施例提供的汽车信息处理方法中,首先,基于爬取的汽车信息,确定第一记录库和第二记录库,其中,所述第一记录库中包括品牌的信誉值大于第一阈值的汽车信息,所述第二记录库中包括品牌的信誉值不大于第一阈值的汽车信息;然后根据所述第一记录库中的品牌信息,对所述第二记录库中汽车信息进行修正,得到修正后的第二记录库;最后分别对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,得到汽车知识库。如此能够根据汽车品牌的信誉值将汽车信息进行划分,并且利用信誉值高的汽车信息对信誉值低的汽车信息进行修正,不仅能保证数据处理的完备性,还能保证准确率,进而再对汽车信息进行融合,以得到准确的汽车知识库。
基于前述的实施例,本发明实施例再提供一种汽车信息处理方法,应用于汽车信息处理设备,图3为本发明实施例汽车信息处理方法的实现流程示意图,如图3所示,所示方法包括以下步骤:
步骤S301,汽车信息处理设备从各个汽车信息网站上爬取汽车信息。
这里,所述步骤S301在实现时,是汽车信息处理设备根据网页HTTP协议,利用爬虫技术从各个汽车信息网站中的汽车信息,其中,所述汽车信息至少包括识别汽车特征的字段,例如可以包括车型、品牌、能源类型、产地、排量、价格等信息,然后将爬取到的汽车信息存储入汽车原始维度记录库。
所述各个汽车信息网站可以是由用户预先设置好的,例如,可以预先设置好从A网站、B网站和C网站上爬取汽车信息。当然,所述各个汽车信息网站还可以是根据预设规则从所有的网站信息中筛选出的汽车信息网站。所述汽车信息网站可以是新车汽车信息网站,还可以是二手车汽车信息网站。
需要说明的是,为了保证爬取的汽车信息的完备性,在初次爬取汽车信息后,还可以每间隔预设时长,例如每间隔24小时再对上述字段进行增量抓取,确保数据的稳定增长和时间上的连续性。
步骤S302,所述汽车信息处理设备基于所述爬取的汽车信息,确定每一品牌的车型数、每一品牌的所有车型在各个网站出现次数的第一总数和所有品牌的所有车型在各个网站出现次数的第二总数。
这里,一个品牌的车型数可以认为是在所述汽车信息中该品牌有多少车型,例如,假设在步骤S301中从A网站、B网站和C网站三个新车汽车信息网站中爬取了汽车信息,大众这一品牌名称下有5种车型分别为D1、D2、D3、D4、D5,那么大众的车型数为5,D1在这三个网站中出现的次数分别为15、20、25;D2在这三个网站中出现的次数分别为5、15、20;D3在这三个网站中出现的次数分别为15、20、25;D4在这三个网站中出现的次数分别为10、20、30;D5在这三个网站中出现的次数分别为50、60、70;那么大众的所有车型在各个网站出现次数的第一总数为400。
步骤S303,所述汽车信息处理设备根据每一品牌的车型数、第一总数和第二总数确定每一品牌的信誉值。
这里,可以根据公式(1-1)来确定每一品牌的信誉值:
Figure BDA0001827809830000081
其中,Pi为品牌i的信誉值,ni为品牌i的车型数,S1i为该品牌的所有车型在各个网站出现次数的第一总数,S2i为所有品牌的所有车型在各个网站出现次数的第二总数。
假设第二总数为20000,大众品牌的第一总数为400,车型数为5,那么大众品牌的信誉值为0.1。
步骤S304,所述汽车信息处理设备将信誉值大于第一阈值的汽车信息加入第一记录库。
这里,第一阈值可以是预先设置的,还可以是根据每一品牌的信誉值确定的。例如,市场上在售的汽车品牌有200余种,那么就可以将每一品牌的信誉值由大到小进行排序,取排序前300的汽车品牌的信誉值作为第一阈值,将信誉值大于第一阈值的汽车信息加入第一记录库,第一记录库可以认为是一个正确的汽车品牌库R_set。
步骤S305,所述汽车信息处理设备将信誉值小于或者等于所述第一阈值的汽车信息加入第二记录库。
这里,第二记录库可以认为是品牌名称编写错误或者有差异的汽车品牌库Error_set。
步骤S306,所述汽车信息处理设备获取所述第一记录库中每一品牌的品牌标识图像模板。
这里,所述步骤S306在实现时可以是,首先获取第一记录库中每一品牌的原始品牌图像,然后对原始品牌图像进行灰度和二值化处理,进而得到每一品牌标识图像模板。
步骤S307,所述汽车信息处理设备对所述第二记录库中的车辆图像进行预处理,得到预处理车辆图像。
这里,所述步骤S307在实现时,是首先对车辆图像进行灰度和二值化处理,然后再进行边缘检测,最后进行腐蚀和膨胀处理,从而得到预处理车辆图像。
步骤S308,所述汽车信息处理设备确定所述预处理车辆图像中的搜索区域图像。
这里,由于汽车品牌标志的位置一般位于车牌号的正上方,距车牌的距离一般不大于一个车牌的长度(部分车型的情况不考虑)。因此,所述步骤S308在实现时,可以是将预处理车辆图像中的每个矩形轮廓的正上方,最大距离一个该矩形长度的范围内的区域,作为搜索区域图像。
步骤S309,所述汽车信息处理设备将所述每一品牌的品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配。
这里,所述步骤S309在实现时,由于预处理车辆图像中的搜索区域图像可能与品牌模板图像的缩放比例不同,因此,所述步骤S309在实现时,可以是将每一品牌的品牌模板图像按一定的比例进行缩放,得到一系列的品牌模板图像,其中,缩放比例可以是根据搜索区域图像的宽度确定的,最小模板宽度大小取搜索区域图像宽度大小的0.2倍,最大模板宽度大小取搜索区域图像宽度大小的1.0倍。
步骤S310,所述汽车信息处理设备判断是否存在与所述搜索区域图像匹配的品牌模板图像。
这里,如果存在与所述搜索区域图像匹配的品牌模板图像,说明该搜索区域图像对应的汽车品牌与该品牌模板图像对应的汽车品牌相同,此时进入步骤S311;如果不存在与所述搜索区域图像匹配的品牌模板图像,说明没有与该搜索区域图像对应的汽车品牌相同的汽车品牌,此时进入步骤S312。
步骤S311,所述汽车信息处理设备将所述品牌模板图像对应的品牌信息修正为所述车辆图像的品牌信息。
这里,由于存在与所述搜索区域图像匹配的品牌模板图像,说明该搜索区域图像对应的汽车品牌与该品牌模板图像对应的汽车品牌相同,那么就可以将所述品牌模板图像对应的品牌信息修正为所述车辆图像的品牌信息。
步骤S312,所述汽车信息处理设备从所述第二记录库中将所述车辆图像对应的汽车信息删除。
这里,如果不存在与所述搜索区域图像匹配的品牌模板图像,说明没有与该搜索区域图像对应的汽车品牌相同的汽车品牌,那么此时认为该搜索区域图像对应的汽车品牌可能是编辑错误或者不准确的,此时将所述车辆图像对应的汽车信息从第二记录库中删除。
步骤S313,所述汽车信息处理设备分别对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,得到汽车知识库。
这里,在其他实施例中,在所述步骤S311之后,可以不执行步骤S312和步骤S313,而是执行步骤S312’和步骤S313’:
步骤S312’,所述汽车信息处理设备将所述车辆图像对应的修正后的汽车信息加入第一记录库中;
步骤S313’,所述汽车信息处理设备对第一记录库中的汽车信息进行数据融合,得到汽车知识库。
在步骤S312’和步骤S313’所在的实施例中,在存在与所述搜索区域图像匹配的品牌模板图像,并将所述品牌模板图像对应的品牌信息修正为所述车辆图像的品牌信息之后,将修正了品牌信息的汽车信息加入到第一记录库中,那么在对第二记录库中的所有汽车图像匹配完毕后,所述第一记录库中就保存有最初爬取的汽车信息中所有正确汽车品牌对应的汽车信息,此时仅对第一记录库中的汽车信息进行数据融合,即可得到汽车知识库。
在本发明实施例提供的汽车信息处理方法中,首先,汽车信息处理设备按照预设规则从各个网站上爬取汽车信息,然后基于所述爬取的汽车信息,确定每一品牌的车型数、每一品牌的所有车型在各个网站出现次数的第一总数和所有品牌的所有车型在各个网站出现次数的第二总数;再根据每一品牌的车型数、第一总数和第二总数确定每一品牌的信誉值,并且将信誉值大于第一阈值的汽车信息加入第一记录库,将信誉值小于或者等于所述第一阈值的汽车信息加入第二记录库;进而所述汽车信息处理设备获取所述第一记录库中每一品牌的品牌标识图像模板,再对所述第二记录库中的车辆图像进行预处理,得到预处理车辆图像;进一步确定所述预处理车辆图像中的搜索区域图像;再将所述每一品牌的品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配;如果存在与所述搜索区域图像匹配的品牌模板图像,所述汽车信息处理设备将所述品牌模板图像对应的品牌信息修正为所述车辆图像的品牌信息;如果不存在与所述搜索区域图像匹配的品牌模板图像,所述汽车信息处理设备从所述第二记录库中将所述车辆图像对应的汽车信息删除,最后再分别对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,得到汽车知识库。
在其他实施例中,所述步骤S302中的“根据所述爬取的汽车信息,确定每一品牌的所有车型在各个网站出现次数的第一总数”,可以通过以下步骤实现:
步骤S3021,获取每一品牌的各个车型在新车信息网站出现次数的第三总数;
步骤S3022,获取每一品牌的各个车型在二手车信息网站出现次数的第四总数;
步骤S3023,将第四总数与预设系数的乘积确定为第一数值;
步骤S3024,将所述第一数值与所述第三总数的和确定为第一总数。
这里,在步骤S3021至步骤S3024所在的实施例中,假设品牌A的第三总数为500,第四总数为1000,预设系数为0.5,那么第一总数为500+1000*0.5=1000。
在其他实施例中,所述步骤S303“所述根据每一品牌的车型数、第一总数和第二总数确定每一品牌的信誉值”,可以通过以下步骤实现:
步骤S3031,将每一品牌的第一总数和所述第二总数的比值确定为第二数值;
步骤S3032,将每一品牌的车型数和所述第二数值的乘积确定为每一品牌的信誉值。
在其他实施例中,所述步骤S306“所述获取所述第一记录库中每一品牌的品牌标志图像模板”,可以通过以下步骤实现:
步骤S3061,获取所述第一记录库中每一品牌的原始品牌标志图像。
步骤S3062,对所述原始品牌标志图像进行灰度化处理,得到灰度化的品牌标志图像。
这里,所述步骤S3062可以通过以下两种方式实现:
第一种方式:确定所述原始品牌标志图像中每个像素点的红(Red,R)、绿(Green,G)、蓝(Blue,B)三个分量的平均值,然后将这个平均值赋予给这个像素的三个分量。
第二种方式:根据亮度色度浓度(Luma Chrominance Chroma,YUV)的颜色空间中,Y的分量的物理意义是点的亮度,由该值反映亮度等级,根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应公式(1-2):
Y=0.3R+0.59G+0.11B (1-2);
这里,可以根据公式(1-2)确定所述原始品牌标志图像中每个像素点的亮度值,并用该亮度值表达图像中各个像素的灰度值。
步骤S3063,对所述灰度化的品牌标志图像进行二值化处理,得到品牌标志图像模板。
这里,所述步骤S3063在实现时,可以将灰度化的品牌标志图像的灰度均值作为二值化灰度阈值。二值化指将图片上的象素点灰度值设置为0或255,也就是将灰度化的品牌标志图像中灰度值大于二值化灰度阈值的像素点的灰度值置为255,将灰度化的品牌标志图像中灰度值小于或者等于二值化灰度阈值的像素点的灰度值置为0,从而让整张图片成黑白的效果。
在其他实施例中,所述步骤S307“对所述第二记录库中的车辆图像进行预处理,得到预处理车辆图像”可以通过以下步骤实现:
步骤S3071,对所述第二记录库中的车辆图像进行灰度化和二值化处理,得到二值化灰度车辆图像。
步骤S3072,对所述二值化灰度车辆图像进行边缘检测,得到边缘检测处理后的车辆图像。
这里,所述步骤S3072在实现时,可以是采用canny算子对所述二值化灰度车辆图像进行边缘检测。
步骤S3073,对所述边缘检测处理后的车辆图像进行膨胀与腐蚀处理,得到预处理车辆图像。
这里,所述步骤S3073在实现时,可以是对所述边缘检测处理后的车辆图像先进行若干次膨胀处理,使得每个闭合边缘轮廓的内部能够联通起来形成一个整体。为使边缘恢复至原来的位置,还需要进行相同次数的腐蚀处理。
在其他实施例中,所述步骤S308“确定所述预处理车辆图像中的搜索区域图像”可以通过以下步骤实现:
步骤S3081,对所述预处理车辆图像按照第一预设规则进行矩形轮廓查找,确定所述预处理车辆图像中车牌区域的大小和位置信息。
这里,由于车牌的长宽比一般是固定的,假设为3.14,那么在进行矩形轮廓查找时可以是根据长宽比进行搜索,确定所述预处理车辆图像中长宽比为3.14的矩形区域,将该矩形区域确为车牌区域,车牌区域的大小可以是指车牌区域的长和宽,车牌区域的位置信息至少包括车牌的左上角和右上角两个顶点的位置信息。
步骤S3082,根据所述车牌区域的大小和位置信息确定搜索区域图像。
这里,由于车标一般是位于车牌以上,距车牌的距离一般不大于一个车牌的长度,那么可以根据车牌的宽度和车牌的左上角和右上角两个顶点的位置信息确定搜索区域图像。
在其他实施例中,所述步骤S309“将所述每一品牌的品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配,确定与所述搜索区域图像匹配的品牌模板图像”,包括:
步骤S3091,将所述每一品牌的品牌模板图像按照预设的N个缩放比例进行缩放,得到N个缩放品牌模板图像。
这里,其中N为大于1的自然数。
步骤S3092,将所述每一品牌的N个缩放品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配,确定与所述搜索区域图像匹配的品牌模板图像。
这里,所述步骤S3092在实现时,可以是采用平均绝对差(Mean AbsoluteDifferences,MAD)算法,将所述每一品牌的N个缩放品牌模板图像依次与所述搜索区域图像进行匹配。在MAD算法中,设S(x,y)是大小为m×n的搜索图像,T(x,y)为大小为M×N的模板图像,在搜索图S中,取以(i,j)为左上角像素点在图像坐标系中的坐标值,M×N大小的子图,计算其与模板图像的相似度;在所有能够取到的子图中,找到与模板图像最相似的子图作为最终结果,如果与模板图像最相似的子图与模板图像的相似度小于预设的相似度阈值,说明与模板图像最相似的子图与模板图像是匹配的。
在其他实施例中,对所述第一记录库中的汽车信息进行数据融合,可以通过以下步骤实现:
步骤41,分别对所述第一记录库中属于同一品牌的两个车型信息进行相似度计算,确定所述两个车型信息的相似度值。
步骤42,如果所述两个车型信息的相似度值大于第二阈值,分别获取所述两个车型信息对应的M个预设属性信息。
这里,如果所述两个车型信息的相似度值大于第二阈值,说明所述两个车型信息是相同的,为了确定所述两个车型信息对应的汽车信息是不是相同的,还需要进一步确定M个预设属性信息是否满足预设条件,M为不小于1的整数。
步骤43,判断所述两个车型信息对应的M个预设属性信息是否满足预设条件。
这里,如果所述两个车型信息对应的M个预设属性信息满足预设条件进入步骤44;如果所述两个车型信息对应的M个预设属性信息不满足预设条件,那么结束流程。
步骤44,确定所述两个车型信息对应的汽车信息是相同的。
步骤45,将所述两个车型信息中满足预设删除条件的车型信息对应的汽车信息删除。
这里,在本发明实施例中,可以是将两个车型信息中字节数较大的一个作为满足预设删除条件的车型信息,当然在其他实施例中,可以是将两个车型信息中字节数较小的一个作为满足预设删除条件的车型信息
这里,在实际应用过程中,所述步骤41“分别对所述第一记录库中属于同一品牌的两个车型信息进行相似度计算,确定所述两个车型信息的相似度值”可以通过以下步骤实现:
步骤411,对所述第一记录库中属于同一品牌的两个车型信息按照第二预设规则进行分词处理,对应得到第一分词集合和第二分词集合。
这里,假设两个车型信息分别为东风A9、东风风神A9,在本实施例中,采用2_GRAM分词后的结果为第一分词集合=<东,东风,风A,A9,9>,第二分词集合=<东,东风,风风,风神,神A,A9,9>。
步骤412,确定所述第一分词集合与所述第二分词集合的交集中的第一元素个数。
这里,第一分词集合与第二分词集合的交集为<东,东风,A9,9>,第一元素个数为4。
步骤413,确定所述第一分词集合与所述第二分词集合的并集中的第二元素个数。
这里,第一分词集合与第二分词集合的并集为<东,东风,风A,A9,9,风风,风神,神A>,即第二元素个数为8。
步骤414,根据所述第一元素个数和所述第二元素个数确定所述两个车型信息的相似度值。
这里,所述步骤414在实现时可以是将所述第一元素个数与第二元素个数的比值确定为所述两个车型信息的相似度值。即东风A9和东风风神A9的相似度值为0.5。
这里,所述M个预设属性信息包括型号、排量和价格中的至少一个,对应地,如果所述两个车型信息对应的M个预设属性信息满足预设条件,确定所述两个车型信息对应的汽车信息是相同的,包括:
如果所述两个车型信息对应的型号满足第一预设子条件;和/或,
如果所述两个车型信息对应的排量满足第二预设子条件;和/或,
如果所述两个车型信息对应的价格满足第三预设子条件,确定所述两个车型信息对应的汽车信息是相同的。
这里,所述第一预设子条件可以是两个车型信息对应的型号相同,所述第二预设子条件可以是两个车型信息对应的排量相同,所述第三预设子条件可以是所述两个车型信息对应的价格满足公式(2-1):
Figure BDA0001827809830000161
这里,A_price和B_price分别为两个车型信息对应的价格,max()为求最大值函数。
需要说明的是,0.1仅为示例性的,可以根据实际需要设置该值。
基于前述的实施例,本发明实施例再提供一种汽车信息处理方法,图4为本发明实施例汽车信息处理方法的实现流程示意图图,如图4所示,所述方法包括以下步骤:
步骤S401,数据采集。
这里,数据采集针对多个不同的汽车web站点,爬取能够识别汽车特征的字段(原始数据的获取,主要依赖爬虫来获取原始数据的相应字段值),包括车型、品牌、能源类型、产地、排量、价格等。
步骤S402,汽车原始维度数据存储。
这里,将所述步骤S401中采集到的数据存储入记录库,从而构成汽车原始维度记录库,供下一步分析融合使用。一条完整的汽车信息记录包括品牌、车型、型号、版本号、排量、国别、产地、空间大小、能源类型、价格等记录,表1为一条完整的汽车信息记录:
Figure BDA0001827809830000171
步骤S403,对汽车原始维度数据进行分析、纠错、融合。
步骤S404,输出汽车知识库。
这里,经过数据采集、数据融合后形成如图5所示的汽车信息知识库,存储于记录库中,并根据数据源的数据变化进行定时更新。如图5所示,在汽车知识库501中依次保存有各个品牌502、车型信息503以及型号、排量等信息504。该汽车信息知识库可供数据分析、市场调研、汽车市场行情分析、用户/网页标签生成等应用。
基于最终融合得到的汽车信息库,可以得到某个品牌或者品牌下面某个车型的一系列信息,及该信息的来源,如此当用户浏览了某个数据源下的某款车,可以立即对该用户打上相应的汽车相关标签,最终应用于广告、推荐。
在相关技术中,主要是针对文本数据的融合,采用文本相似度或者文本主题LDA的方式来比对两篇文本的相似性。由于汽车信息的特殊性,一条汽车信息记录含有多个字段,每个字段内容很短,单纯比较文本内容的相似性无法取得好的效果。因此在本发明实施例借助文本相似度算法的同时,从数据源的角度来验证字段值的准确性(如品牌字段),以及字段间的相互关系的角度来验证字段值的相似性(如汽车车型字段)。同时,为尽可能的利用已获取的数据,对字段值错误的记录进行纠正(如采用图像识别的方式,来进一步纠正品牌字段错误的数据),最终的融合结果会更加准确、全面。
这里,由于在步骤S401中采集到的数据,因用户编辑、用户数据采集、不同网站数据来源差异等因素,使得数据可能存在以下问题:
一、同一品牌的同一款汽车(统一车型),获得的信息差异较大甚至存在错误(价格、产地等字段不一致)。
二、实际为同一款汽车,但车型编写有误或者名称有差异。
三、品牌编写错误或者有差异。
在本实施例中,汽车信息融合流程包括以下步骤:
步骤51,对每条原始数据进行预处理。
这里,对原始数据进行预处理包括但不限于:将繁体转换为简体、将英文大写转换为小写、将中文数字/英文数字转换为阿拉伯数字,对原始数据进行简单的归一化处理。使用正则表达式将版本号字段统一处理为“XXXX年XXXX版”。使用正则表达式匹配模式将排量字段统一处理成“XXXLXXX马力”或者“XXXTXXX马力”。
步骤52,识别品牌编写错误的记录,建立正确记录库。
这里,在实际应用中,所述步骤342,可以通过以下两个步骤实现:
步骤521,统计汽车原始维度记录库的品牌及车型计数。
这里,经过步骤521,得到<品牌名称,车型数量n,涉及的web站点数量Web_m1>,爬取的web站点总数量Web_m。
举例来说,假设品牌名称为奥迪,车型数量n为10,即说明奥迪这一品牌名称下有10种车型。
Web_m1及Web_m依据网站信息来源的可信程度进行加权计算,其中:
Web_m1的计算方式为:品牌的每个车型在一个新车信息网站每出现一次计数+1,品牌的每个车型在一个二手车信息网站每出现一次则计数+0.5;比如,奥迪品牌,在爬取过的某个新车信息网站出现了8种车型,则出现次数+8,依照该方式遍历所有爬取过的新车信息网站;而若该品牌在爬取过的某二手车车信息网站出现了6种车型,则出现次数+(6*0.5)=+3,依照该方式遍历所有爬取过的新车信息网站。
Web_m的计算方式为:对所有采集的Web站点计数,所有品牌的每个车型每出现在一个新车信息网站计数+1,所有品牌的每个车型每出现在一个二手车网站计数+0.5。如某个新车网站一共出现了100种车型,则Web_m+100,某个二手车网站共出现了100种车型,则Web_m+(100*0.5)=+50。
步骤522,计算Web站点来源数量比值theta=Web_m1/Web_m。
theta值的大小与该字段值来源于Web站点的数量正相关,作为该字段值的可靠程度参考因素之一。
计算threshold=n*theta,并根据threshold降序排列,因中国市场上在售的汽车品牌共计200余种,因此取排序前300的汽车品牌(threshold>threshold_t)可信度较高并辅于人工干预,得到一个正确的汽车品牌库R_set。其余threshold<=threshold_t的品牌为品牌名称编写错误或者有差异的集合Error_set。
这里,关于品牌值的可信程度的排序说明:某个品牌下的车型出现的数量越多,分布在更多的网站上,其threshold值会更大,在该排序规则下更倾向于排到前面。
步骤53,车型规范化。
这里,同一品牌下的同一种汽车车型可能有多种写法,如东风A9和东风风神A9,实际为同一个车型。在此基于以下两种方式进行修正,假设A、B均为品牌K下的两条记录(1)过滤车型名称中的品牌字;(2)对过滤之后的车型值进行采用N_GRAM模型进行分词处理(在本实施例中N值取2)。
图6为本发明实施例车型规范化的实现流程示意图,如图6所示,所述流程包括以下步骤:
步骤S601,输入A、B两条记录。
步骤S602,对车型字段过滤其中的品牌名称。
步骤S603,车型字段相似度计算。
这里,假设A、B两条记录中车型字段分别为东风A9、东风风神A9,A、B两条记录的车型的分词结果是A_model_set和B_model_set。在本实施例中,采用2_GRAM分词后的结果为A_model_set=<东,东风,风A,A9,9>,B_model_set=<东,东风,风风,风神,神A,A9,9>。
根据公式(3-1)定义model_threshold:
Figure BDA0001827809830000201
在公式(3-1)中length(A_model_set∩B_model_set)为A_model_set与B_model_set的交集的元素的个数,如A_model_set=<东,东风,风A,A9,9>、B_model_set=<东,东风,风风,风神,神A,A9,9>时,交集为<东,东风,A9,9>,则length(A_model_set∩B_model_set)=4;length(A_model_set∪B_model_set)为A_model_set与B_model_set的并集的元素的个数,如A_model_set=<东,东风,风A,A9,9>、B_model_set=<东,东风,风风,风神,神A,A9,9>时,交集为<东,东风,风A,A9,9,风风,风神,神A>,则length(A_model_set∪B_model_set)=8。model_threshold=4/8=0.5。
步骤S604,判断车型相似度是否大于第一预设值。
这里,如果车型相似度大于第一预设值,例如model_threshold≥0.5则进入步骤S605进行其余字段的相似度比较;如果车型相似度小于或者等于第一预设值,则认为A和B不是同一车型,结束流程。
步骤S605,根据预设规则计算其余字段的相似度。
这里,在本实施例中,其余字段的比较方式为:如果型号、排量、新车价格三者相同即为同一车型,其中,价格相同的定义可以参照公式(2-1)。
步骤S606,判断其余字段相似度是否大于第二预设值。
这里,如果其余字段相似度大于第二预设值,进入步骤S607;如果其余字段相似度小于或者等于第二预设值,例如型号、排量、新车价格三个有任一不同时,则认为A和B不是同一车型,结束流程。
步骤S607,车型值融合,取车型值长度较短的为正确值。
这里,若判定不同写法的字段实际是表示同一汽车车型,那么,针对该同一汽车车型的多种写法,将该多种写法中长度相对较长的所有车型值,都替换为长度较短的车型值,例如,判断东风A9与东风风神A9为同一车型,则将东风风神A9替换为东风A9。
步骤53,对错误品牌集记录Error_set进行纠错。
需要说明的是,在本发明实施例中采用图像处理的方式进一步处理品牌字段值有问题的数据,可以使得融合后数据尽可能的能够覆盖网站上出现的汽车信息,得到更全更准的结果集。而不是将Error_set当作错误集直接舍弃。
图7为本发明实施例对错误品牌集记录Error_set进行纠错的实现流程示意图,如图7所示:
步骤S701,对汽车品牌库R_set的每个品牌,构造每个品牌的品牌标志图片模板。
步骤S702,对原始模板图片进行灰度化,并进行二值化。
这里,二值化灰度阈值取整张图片灰度的均值。二值化指将图片上的象素点灰度值设置为0或255,从而让整张图片成黑白的效果。
步骤S703,得到品牌标志的二值化灰度图片模板。
步骤S704,获取Error_set中的每条记录分别对应的车辆图片。
步骤S705,对Error_set中的车辆图片进行灰度化和二值化处理得到车辆的二值化灰度图片。
步骤S706,对二值化的图片进行边缘检测。
这里,可以采用canny算子对二值化的图片进行边缘检测。
步骤S707,对经过边缘检测处理后得到的图像进行膨胀与腐蚀处理。
这里,对经过边缘检测处理后的图像先进行若干次膨胀处理,使得每个闭合边缘轮廓的内部能够联通起来形成一个整体。为使边缘恢复至原来的位置,还需要进行相同次数的腐蚀处理。
步骤S708,对膨胀腐蚀后的图片进行矩形轮廓查找与筛选。
这里,筛选的规则是根据车牌的长宽比进行(小轿车的车牌长宽比根据国标计算约为r=440:140=3.14左右),由于实际图片处理过程受噪声影响,在此取长宽比值r的正负10%范围的值均作为符合要求的矩形轮廓。
步骤S709,模板匹配与平均绝对差算法(Mean Absolute Differences,MAD)值排序。
这里,汽车品牌标志的位置一般位于车牌号的正上方,距车牌的距离一般不大于一个车牌的长度(部分车型的情况不考虑)。因此,在上述符合要求的每个矩形轮廓的正上方,最大距离一个该矩形长度的范围内,即为模板匹配时的搜索范围S(W,W),这里,W为车牌的宽度,使用正确品牌集的二值化灰度图片模板T(m,n)进行图片模板匹配。二值化灰度图片模板进行模板自适应大小调节,最小模板宽度大小取矩形宽度大小的0.2倍,最大模板宽度大小取矩形宽度大小的1.0倍。
该模板搜索的过程为:
模板匹配算法采用MAD算法,设S(x,y)是大小为m×n的搜索图像,T(x,y)为大小为M×N的模板图像,在搜索图S中,取以(i,j)为左上角像素点在图像坐标系中的坐标值,M×N大小的子图,计算其与模板图相似度;在所有能够取到的子图中,找到与模板图最相似的子图作为最终结果。MAD算法的相似性测度公式如(3-2)所示:
Figure BDA0001827809830000221
其中,i的取值范围为:1≤i≤m-M+1,j的取值范围为:1≤j≤n-N+1。
平均绝对差D(i,j)越小,表明越相似,故只需找到最小的D(i,j)即可确定模板匹配的最佳位置。
由于车标一般是关于车牌的中线对称的,因此在本实施例例中只需在如图8中所示的矩形区域802的正上方、以W/2为中轴801的位置进行搜索,此时,D(i,j)可简化为公式(3-3):
Figure BDA0001827809830000222
其中,1<j<W-N+1。
对于同一品牌的自适应大小后的多个模板进行上述匹配、计算每个模板最小的
Figure BDA0001827809830000231
并取多个模板中的最小的
Figure BDA0001827809830000232
作为该品牌的最终的MAD值。
模版采用自适应大小,初始化模版数量为K个,则模版缩放系数为
Figure BDA0001827809830000233
1<=k1<=K(如K=5时模版缩放系数即为0.2、0.4、0.6、0.8、1.0),经过搜索计算后取得较优的模版缩放系数
Figure BDA0001827809830000234
再对
Figure BDA0001827809830000235
进行K等分划分(此时模版缩放系数为
Figure BDA0001827809830000236
),确定较优的模版系数后再进行上述划分。最终划分的最小间距小于0.005时停止划分。
步骤S710,计算R_set的每个品牌的MAD值,取MAD值最小的品牌为最终的品牌结果。
上述步骤S709和步骤S710采用模板匹配算法,在该特定场景下,对该算法进行优化,提高算法识别准确率与计算速度。
步骤S711,得到正确品牌字段值后,调用车型规范化过程重新处理这部分记录的车型字段。
在本发明实施例提供的汽车信息处理方法中,采用了独创的品牌字段值可信度分析及排序方法,从而识别出正确的品牌字段值,并利用改进的图像模板匹配MAD算法进一步提高品牌融合的效果。传统的文本融合方式为基于文本相似度的方式,对短文本适用性差。在本实施中考虑到车型本身作为短文本来计算相似度的同时,还考虑到车型值与型号、排量、价格等其它字段存在相关性,因此弱化了对文本相似度的要求(阈值仅取了0.5),而强化了其它相关字段在进行车型融合时的重要性。
本发明实施例提供一种汽车信息处理设备,图9为本发明实施例汽车信息处理设备的组成结构示意图,如图9所示,所示设备900至少包括:存储器901、通信总线902和处理器903,其中:
所述存储器901,用于存储汽车信息处理程序;
所述通信总线902,用于实现处理器和存储器之间的连接通信;
所述处理器903,用于执行存储器中存储的汽车信息处理程序,以实现以下步骤:
基于爬取的汽车信息,确定第一记录库和第二记录库,其中,所述第一记录库中包括品牌的信誉值大于第一阈值的汽车信息,所述第二记录库中包括品牌的信誉值不大于第一阈值的汽车信息;
根据所述第一记录库中的品牌信息,对所述第二记录库中汽车信息进行修正,得到修正后的第二记录库;
分别对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,得到汽车知识库。
相应地,本发明实施例再提供一种计算机存储介质,所述计算机存储介质上存储有汽车信息处理程序,所述汽车信息处理程序被处理器执行时实现本发明其他实施例提供的汽车信息处理方法的步骤。
以上汽车信息处理设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明汽车信息处理设备和计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本发明实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种汽车信息处理方法,其特征在于,所述方法包括:
基于爬取的汽车信息,将信息来源可信度值大于第一阈值的汽车信息存储至第一记录库,将信息来源可信度值不大于第一阈值的汽车信息存储至第二记录库;
根据所述第一记录库中的汽车信息,对所述第二记录库中的汽车信息进行修正,以得到修正后的第二记录库;所述修正后的第二记录库由修正后的汽车信息构成;
对所述第一记录库和修正后的第二记录库中的汽车信息进行数据融合,以得到汽车知识库。
2.根据权利要求1中所述的方法,其特征在于,所述基于爬取的汽车信息,确定第一记录库和第二记录库包括:
基于所述爬取的汽车信息,确定每一品牌的车型数、每一品牌的所有车型在各个网站出现次数的第一总数和所有品牌的所有车型在各个网站出现次数的第二总数;
根据每一品牌的车型数、第一总数和第二总数确定每一品牌的信誉值;
将信誉值大于第一阈值的汽车信息加入第一记录库;
将信誉值小于或者等于所述第一阈值的汽车信息加入第二记录库。
3.根据权利要求2中所述的方法,其特征在于,根据所述爬取的汽车信息,确定每一品牌的所有车型在各个网站出现次数的第一总数,包括:
获取每一品牌的各个车型在新车信息网站出现次数的第三总数;
获取每一品牌的各个车型在二手车信息网站出现次数的第四总数;
将第四总数与预设系数的乘积确定为第一数值;
将所述第一数值与所述第三总数的和确定为第一总数。
4.根据权利要求2或3中所述的方法,其特征在于,所述根据每一品牌的车型数、第一总数和第二总数确定每一品牌的信誉值,包括:
将每一品牌的第一总数和所述第二总数的比值确定为第二数值;
将每一品牌的车型数和所述第二数值的乘积确定为每一品牌的信誉值。
5.根据权利要求1中所述的方法,其特征在于,所述根据所述第一记录库中的汽车信息,对所述第二记录库中的汽车信息进行修正得到修正后的第二记录库,包括:
获取所述第一记录库中每一品牌的品牌标识图像模板;
对所述第二记录库中的车辆图像进行预处理,得到预处理车辆图像;
确定所述预处理车辆图像中的搜索区域图像;
将所述每一品牌的品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配;
如果存在与所述搜索区域图像匹配的品牌模板图像,将所述品牌模板图像对应的品牌信息修正为所述车辆图像的品牌信息。
6.根据权利要求5中所述的方法,其特征在于,所述方法还包括:
如果不存在与所述搜索区域图像匹配的品牌模板图像,从所述第二记录库中将所述车辆图像对应的汽车信息删除。
7.根据权利要求5中所述的方法,其特征在于,所述获取所述第一记录库中每一品牌的品牌标志图像模板,包括:
获取所述第一记录库中每一品牌的原始品牌标志图像;
对所述原始品牌标志图像进行灰度化处理,得到灰度化的品牌标志图像;
对所述灰度化的品牌标志图像进行二值化处理,得到品牌标志图像模板。
8.根据权利要求5中所述的方法,其特征在于,所述对所述第二记录库中的车辆图像进行预处理,得到预处理车辆图像,包括:
对所述第二记录库中的车辆图像进行灰度化和二值化处理,得到二值化灰度车辆图像;
对所述二值化灰度车辆图像进行边缘检测,得到边缘检测处理后的车辆图像;
对所述边缘检测处理后的车辆图像进行膨胀与腐蚀处理,得到预处理车辆图像。
9.根据权利要求5或8中所述的方法,其特征在于,所述确定所述预处理车辆图像中的搜索区域图像,包括:
对所述预处理车辆图像按照第一预设规则进行矩形轮廓查找,确定所述预处理车辆图像中车牌区域的大小和位置信息;
根据所述车牌区域的大小和位置信息确定搜索区域图像。
10.根据权利要求5中所述的方法,其特征在于,所述将所述每一品牌的品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配,确定与所述搜索区域图像匹配的品牌模板图像,包括:
将所述每一品牌的品牌模板图像按照预设的N个缩放比例进行缩放,得到N个缩放品牌模板图像,其中N为大于1的自然数;
将所述每一品牌的N个缩放品牌模板图像依次与所述搜索区域图像按照预设算法进行匹配,确定与所述搜索区域图像匹配的品牌模板图像。
11.根据权利要求1中所述的方法,其特征在于,对所述第一记录库中的汽车信息进行数据融合,包括:
分别对所述第一记录库中属于同一品牌的两个车型信息进行相似度计算,确定所述两个车型信息的相似度值;
如果所述两个车型信息的相似度值大于第二阈值,分别获取所述两个车型信息对应的M个预设属性信息,其中,M为不小于1的整数;
如果所述两个车型信息对应的M个预设属性信息满足预设条件,确定所述两个车型信息对应的汽车信息是相同的;
将所述两个车型信息中满足预设删除条件的车型信息对应的汽车信息删除。
12.根据权利要求11中所述的方法,其特征在于,所述分别对所述第一记录库中属于同一品牌的两个车型信息进行相似度计算,确定所述两个车型信息的相似度值,包括:
对所述第一记录库中属于同一品牌的两个车型信息按照第二预设规则进行分词处理,对应得到第一分词集合和第二分词集合;
确定所述第一分词集合与所述第二分词集合的交集中的第一元素个数;
确定所述第一分词集合与所述第二分词集合的并集中的第二元素个数;
根据所述第一元素个数和所述第二元素个数确定所述两个车型信息的相似度。
13.根据权利要求11中所述的方法,其特征在于,所述M个预设属性信息包括型号、排量和价格中的至少一个,对应地,如果所述两个车型信息对应的M个预设属性信息满足预设条件,确定所述两个车型信息对应的汽车信息是相同的,包括:
如果所述两个车型信息对应的型号满足第一预设子条件;和/或,
如果所述两个车型信息对应的排量满足第二预设子条件;和/或,
如果所述两个车型信息对应的价格满足第三预设子条件,确定所述两个车型信息对应的汽车信息是相同的。
14.一种汽车信息处理设备,其特征在于,所述设备至少包括:存储器、通信总线和处理器,其中:
所述存储器,用于存储汽车信息处理程序;
所述通信总线,用于实现处理器和存储器之间的连接通信;
所述处理器,用于执行存储器中存储的汽车信息处理程序,以实现权利要求1至13中任一项所述的汽车信息处理方法的步骤。
15.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有汽车信息处理程序,所述汽车信息处理程序被处理器执行时实现1至13任一项中所述的汽车信息处理方法的步骤。
CN201811192288.1A 2018-10-12 2018-10-12 一种汽车信息处理方法及其设备、计算机存储介质 Active CN109492023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811192288.1A CN109492023B (zh) 2018-10-12 2018-10-12 一种汽车信息处理方法及其设备、计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811192288.1A CN109492023B (zh) 2018-10-12 2018-10-12 一种汽车信息处理方法及其设备、计算机存储介质

Publications (2)

Publication Number Publication Date
CN109492023A CN109492023A (zh) 2019-03-19
CN109492023B true CN109492023B (zh) 2021-02-19

Family

ID=65689801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811192288.1A Active CN109492023B (zh) 2018-10-12 2018-10-12 一种汽车信息处理方法及其设备、计算机存储介质

Country Status (1)

Country Link
CN (1) CN109492023B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738598A (zh) * 2019-08-28 2020-01-31 咪咕文化科技有限公司 图像适配方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833568A (zh) * 2010-04-01 2010-09-15 武汉大学 Web数据管理系统
CN102123071A (zh) * 2010-01-11 2011-07-13 中兴通讯股份有限公司 数据报文分类处理的实现方法、网络、终端及互通服务节点
CN102722719A (zh) * 2012-05-25 2012-10-10 西安电子科技大学 基于观察学习的入侵检测方法
CN106157106A (zh) * 2015-04-23 2016-11-23 阿里巴巴集团控股有限公司 商品信息的展示方法和装置
AR103025A1 (es) * 2015-12-15 2017-04-12 Univ Nac Del Litoral (Unl) Un método y un dispositivo para detectar, clasificar y cuantificar en tiempo real la actividad alimenticia de animales rumiantes
CN106650433A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种异常行为检测方法及系统
CN106708851A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 信息处理方法和装置
CN108563683A (zh) * 2018-03-08 2018-09-21 北京达佳互联信息技术有限公司 标签添加方法、装置及终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102123071A (zh) * 2010-01-11 2011-07-13 中兴通讯股份有限公司 数据报文分类处理的实现方法、网络、终端及互通服务节点
CN101833568A (zh) * 2010-04-01 2010-09-15 武汉大学 Web数据管理系统
CN102722719A (zh) * 2012-05-25 2012-10-10 西安电子科技大学 基于观察学习的入侵检测方法
CN106157106A (zh) * 2015-04-23 2016-11-23 阿里巴巴集团控股有限公司 商品信息的展示方法和装置
CN106708851A (zh) * 2015-11-13 2017-05-24 北京国双科技有限公司 信息处理方法和装置
AR103025A1 (es) * 2015-12-15 2017-04-12 Univ Nac Del Litoral (Unl) Un método y un dispositivo para detectar, clasificar y cuantificar en tiempo real la actividad alimenticia de animales rumiantes
CN106650433A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种异常行为检测方法及系统
CN108563683A (zh) * 2018-03-08 2018-09-21 北京达佳互联信息技术有限公司 标签添加方法、装置及终端

Also Published As

Publication number Publication date
CN109492023A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
JP4928310B2 (ja) ナンバープレート認識装置、その制御方法、コンピュータプログラム
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
US11580763B2 (en) Representative document hierarchy generation
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
CN110222695B (zh) 一种证件图片处理方法及装置、介质、电子设备
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
CN113032580B (zh) 关联档案推荐方法、系统及电子设备
US11741735B2 (en) Automatically attaching optical character recognition data to images
CN111209827A (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
US11436852B2 (en) Document information extraction for computer manipulation
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN112417167A (zh) 保险知识图谱的构建方法、装置、计算机设备及存储介质
CN111104941A (zh) 图像方向纠正方法、装置及电子设备
CN109492023B (zh) 一种汽车信息处理方法及其设备、计算机存储介质
AU2015204339B2 (en) Information processing apparatus and information processing program
CN113052181A (zh) 基于语义分割的表格重建方法、装置、设备及存储介质
CN116611450A (zh) 一种提取文档信息的方法、装置、设备和可读存储介质
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN115690795A (zh) 简历信息提取方法、装置、电子设备和存储介质
CN114359912A (zh) 基于图神经网络的软件页面关键信息提取方法及系统
US10824922B1 (en) Similarity detection system
CN112287763A (zh) 图像处理方法、装置、设备及介质
JP2020166811A (ja) 文書フォームの識別
JP3817442B2 (ja) 画像認識装置、画像認識方法、及び画像認識方法を実現するプログラムとこのプログラムの記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant