CN110020286A - 一种车型参配信息的聚类方法,装置及系统 - Google Patents
一种车型参配信息的聚类方法,装置及系统 Download PDFInfo
- Publication number
- CN110020286A CN110020286A CN201710905252.2A CN201710905252A CN110020286A CN 110020286 A CN110020286 A CN 110020286A CN 201710905252 A CN201710905252 A CN 201710905252A CN 110020286 A CN110020286 A CN 110020286A
- Authority
- CN
- China
- Prior art keywords
- information
- vehicle
- ginseng
- fragmentation
- vehicles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例示出一种车型参配信息的聚类方法,装置及系统,所述方法,采用网页自动抓取、自动提取车辆官网上的车辆信息、然后对车辆信息进行切割,得到切割后的车型参配信息碎片,判别车型参配信息碎片的内容结构属性,并导入相关的存储数据库;只有当所述车型参配信息符合标准模板时,将车型参配信息碎片的内容聚类到相应的标准项中,并进行显示。用户在不同品牌车辆的车型参配信息进行比对的过程中,由于本申请实施例示出的车型参配信息的聚类系统,所有汽车官网中的车型参配信息做了统一,方便用户对不同品牌不同车系进行交叉对比。
Description
技术领域
本发明涉及数据处理的技术领域,特别涉及一种车型参配信息的聚类方法,装置及系统。
背景技术
随着互联网技术的发展,基于互联网的应用服务系统也越来越多。典型的基于互联网的应用服务系统如图1所示,这个系统一般设置有一个应用服务器1,与其连接的数据存储服务器2,该数据存储服务器2设置在应用服务器1内部或独立设置,以及,与应用服务器1通过互联网3或移动互联网3连接的终端(也称为客户端)4,应用服务器1为终端4的用户提供应用服务。
车型参配信息搜索服务系统就是一个如图1所示的系统。具体的,在汽车官网WEB端(相当于应用服务器)中承载着官网所属车系的宣传信息,以及,该车系下各个车辆的车型参配信息;其中,车型参配信息包括:车辆的额定配置信息,以及,车型亮点信息,车型亮点信息为该车辆独有的优异性能,如:RAV4荣放的车型亮点信息为强劲动感外形,捕获都市目光。终端4,是一个安装了具有车型参配信息查询功能的用户APP(Application,应用程序),用户选择待查询车辆,此时,在汽车官网WEB将该车辆对应的车型参配信息发送至终端,终端对相应的车型参配信息进行显示,车型参配信息显示方式包括:图片,视频,文字,以及,各种动态图等。
目前,现有的车型参配信息搜索服务系统,用户在与应用服务器1互动时所得到的车型参配信息通常都是以单条信息的形式进行显示。例如:用户在搜索本田CR-V的车型参配信息,终端仅显示本田CR-V的车型参配信息。通常,用户在准备购买车辆时,需要了解多台的车辆的车型参配信息,通过对多台的车辆的车型参配信息进行比对,选择一款适合自己的车辆;其中,多台车辆包括,相同品牌的车辆,以及,不同品牌的车辆。用户在对不同品牌车辆的车型参配信息进行比对时,用户需要在不同品牌车辆的官网之间频繁的切换,同时,每个品牌在WEB端的展示效果千差万别,没有统一的对比风格,增加用户在信息比对过程中的难度。用户在不同品牌车辆的车型参配信息进行比对的过程中,承载了车型参配信息搜索服务系统的应用平台服务器1长时间处于等待的状态,降低了系统带宽、数据库等资源的利用率。
发明内容
本发明的发明目的在于提供一种车型参配信息的聚类方法,装置及系统,以解决现有技术示出的车型参配信息搜索服务系统,用户在不同品牌车辆的车型参配信息进行比对的过程中,承载了车型参配信息搜索服务系统的应用平台服务器1长时间处于等待的状态,降低了系统带宽、数据库等资源的利用率的技术问题。
本申请实施例第一方面示出一种车型参配信息的聚类方法,包括:
分别获取车辆官网中的每个车辆对应的车辆信息;
切割所述车辆信息,生成车型参配信息碎片集,所述车型参配信息集包括至少一个车型参配信息碎片;
将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
本申请实施例第二方面示出一种车型参配信息的聚类装置,包括:
信息获取单元,用于分别获取车辆官网中的每个车辆对应的车辆信息;
切割单元,用于切割所述车辆信息,生成车型参配信息碎片集;
聚类单元,用于将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
本申请实施例第三方面示出一种车型参配信息的聚类系统,包括:应用平台服务器,与所述应用平台服务器相连接的数据存储服务器,所述数据存储服务器设置在所述平台服务器内部或独立设置,所述应用平台服务器通过互联网与终端相连接,所述终端,用于显示车辆的标准项,以及,所述标准项对应的车型参配信息;
所述应用平台服务器,用于分别获取车辆官网中的每个车辆对应的车辆信息;
切割所述车辆信息,生成车型参配信息碎片集,所述车型参配信息集包括至少一个车型参配信息碎片;
将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示;
所述数据存储服务器,用于相关数据的存储。
由以上技术方案可知,本申请实施例示出一种车型参配信息的聚类方法,装置及系统,所述方法,采用网页自动抓取、自动提取车辆官网上的车辆信息、然后对车辆信息进行切割,得到切割后的车型参配信息碎片,判别车型参配信息碎片的内容结构属性,并导入相关的存储数据库;只有当所述车型参配信息符合标准模板时,将车型参配信息碎片的内容聚类到相应的标准项中,并进行显示。用户在不同品牌车辆的车型参配信息进行比对的过程中,由于本申请实施例示出的车型参配信息的聚类系统,所有汽车官网中的车型参配信息做了统一,方便用户对不同品牌不同车系进行交叉对比,方便用户对比配置差异,用户在不同品牌车辆的车型参配信息之间比对的过程中,无需频繁的在不同官网的网页之间频繁的切换,进而缩短了承载了车型参配信息搜索服务系统的应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的背景技术中应用服务系统的结构示意图;
图2-1为本申请一优选实施例示出的一种车型参配信息的聚类系统的结构框图;
图2-2为本申请又一优选实施例示出的一种车型参配信息的聚类系统的结构框图;
图3为根据一优选实施例示出的一种车型参配信息的聚类方法的流程图;
图4为根据一优选实施例是的步骤S103的详细流程图;
图5为奥迪汽车官网关于发动机的车辆信息的显示界面;
图6为奥迪汽车官网关于外观的车辆信息的显示界面;
图7为根据一优选实施例示出的步骤S101的详细流程图;
图8为根据又一优选实施例示出的步骤S103的详细流程图;
图9为根据一优选实施例示出的一种车型参配信息的聚类装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2-1和2-2为本申请实施例提供的一种车型参配信息的聚类系统的结构框图,该系统包括:用于显示车辆的标准项,以及,所述标准项对应的车型参配信息的终端33;终端33,用于本系统应用人机交互,向应用服务器发送用户输入信息及处理指令,接收来自应用服务器信息;
用于分别获取车辆官网中的每个车辆对应的车辆信息;切割所述车辆信息,生成车型参配信息碎片集,所述车型参配信息集包括至少一个车型参配信息碎片;将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示的应用平台服务器31,
以及,用于相关数据的存储的数据存储服务器32。
其中,用于显示车辆的标准项,以及,所述标准项对应的车型参配信息的终端33通常部署于移动智能通讯设备、个人电脑、PAD、iPad等终端设备。
所述终端33包括但不限于移动通讯设备,也可以是个人电脑、PAD、iPad等终端设备。
与现有技术不同的是,本申请实施例提供的车型参配信息的聚类系统,首先收集各个品牌官网上的每个车辆对应的车辆信息,所述车辆信息包括,文字,图片,以及flash。识别车型参配信息的类别,如果所述车辆信息为文字,将所述车辆信息行切割;
具体过程为找到开始数据的标志,@lines=split/<\/div>|.../开始获取数据。当能匹配到文字信息时,从切割的信息中提取需要的内容,foreach(@lines){start=1if(/start_tag/);end=1and last if(/end_tag/);if(start_tag==1and/info_tag(.+)info_end/){info="info$1"}if(star_tag==1and/img_tag(.+)i mg_end/){push(img_list,$1)},生成一系列的文字信息,将文字信息连起来组成一个完整的车型参配信息碎片,然后将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
如果所述车型参配信息为图片或flash,将图片或flash的地址存放到一个list中。每个list中可以保存多张图片地址。将获取的图片的地址格式化成json字符串。存储到msyql,mongo中,将图片的地址聚类到相应的标准项中进行显示。
用户在不同品牌车辆的车型参配信息进行比对的过程中,由于本申请实施例示出的车型参配信息的聚类系统,将所有汽车官网中的车型参配信息做了统一,方便用户对不同品牌不同车系进行交叉对比,方便用户对比配置差异,用户在不同品牌车辆的车型参配信息之间比对的过程中,无需频繁的在不同官网的网页之间频繁的切换,进而缩短了承载了车型参配信息搜索服务系统的应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
实施例1:
本申请实施例第二方面示出一种车型参配信息的聚类方法,请参阅图3,所述方法包括:
S101分别获取车辆官网中的每个车辆对应的车辆信息;
首先收集各个品牌官网上的每个车辆对应的车辆信息,所述车辆信息包括,文字,图片,以及flash。
S102切割所述车辆信息,生成车型参配信息碎片集,所述车型参配信息集包括至少一个车型参配信息碎片;
由于终端的屏幕小,在终端上展示的信息基本需求首先是简洁高质量信息。本步骤可提供具有通用价值的网络信息订制手段。
具体的,识别车型参配信息的类别,如果所述车型参配信息为文字,将所述参配信息进行切割,具体切割过程为找到开始数据的标志,@lines=split/<\/div>|.../开始获取数据。当能匹配到文字信息时,从切割的信息中提取需要的内容,foreach(@lines){start=1if(/start_tag/);end=1and last if(/end_tag/);if(start_tag==1and/info_tag(.+)info_end/){info="info$1"}if(star_tag==1and/img_tag(.+)i mg_end/){push(img_list,$1)},生成一系列的文字信息,将文字信息连起来组成一个完整的车型参配信息碎片将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。如果所述车型参配信息为图片或flash,将图片或flash的地址存放到一个list中。每个list中可以保存多张图片地址。将获取的图片的地址格式化成json字符串。存储到msyql.mongo中。
S103将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
计算每个车型参配信息和标准项中心节点的余弦夹角相似度。把其中相似度最高的作为这个标准项对应的车型参配信息。
例如,车辆A1的车辆信息a1中包含一条数据为“1.3AT尊贵”,车辆信息经过分割后,能够获取“1.3”、“AT”和“尊贵”三个车型参配信息碎片,“1.3”、“AT”均符合标准模板,根据已知匹配关系,确定标准项b1与车型参配信息碎片“1.3”相匹配,将1.3聚类到标准项b1中。将标准项b2与车型参配信息碎片“AT”相匹配,将AT聚类到标准项b2中。
车辆A2的车辆信息a2中包含一条数据为“1.5MT标准”,车辆信息经过分割后,能够获取“1.5”、“MT”和“标准”三个车型参配信息碎片,“1.5”、“MT”均符合标准模板,根据已知匹配关系,确定标准项b1与车型参配信息碎片“1.5”相匹配,将1.5聚类到标准项b1中。将标准项b2与车型参配信息碎片“MT”相匹配,将MT聚类到标准项b2中。
用于将A1与A2进行车型信息比对时,终端中的显示内容为:
A1 | A2 | |
b1 | 1.3 | 1.5 |
b2 | AT | MT |
本申请实施例示出的方法,采用网页自动抓取、自动提取车辆官网上的车辆信息、然后对车辆信息进行切割,得到切割后的车型参配信息碎片,判别车型参配信息碎片的内容结构属性,并导入相关的存储数据库;只有当所述车型参配信息符合标准模板时,将车型参配信息碎片的内容聚类到相应的标准项中,并进行显示。本申请实施例示出的方法,由于本申请实施例示出的车型参配信息的聚类方法,将所有汽车官网中的车型参配信息做了统一,方便用户对不同品牌不同车系进行交叉对比,方便用户对比配置差异,用户在不同品牌车辆的车型参配信息之间比对的过程中,无需频繁的在不同官网的网页之间频繁的切换,进而缩短了承载了车型参配信息搜索服务系统的应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
实施例2:
由于实施例1中车辆信息切割后车型参配信息碎片均符合标准模板,所以直接将每个车型参配信息碎片聚类到相应的标准项中。但是每个品牌在WEB、APP端的展示效果千差万别,没有统一的对比风格,例如:对于标准项(长×宽×高):品牌1获取的车辆信切割后的车型参配信息为:5087×1868×1500mm。对于品牌2获取的车辆信切割后的车型参配信息为:5.2×1.8×1.5m显然若直接将获取的车型参配信息归类到相应的标准项中。用户在对两款车进行比对时,需要对长度单位进行换算,增加用户操作的复杂度,降低用户的体验感。
为了解决上述的技术问题,本申请以优选实施例示出所述基于步骤103还可以执行以下的步骤:
S10311判断所述车型参配信息碎片是否满足标准模板;
每个品牌在WEB、APP端的展示效果千差万别,在不同品牌车辆官网上获取的车辆数据的类型也是千差万别的,车型参配信息是描述一个车辆性能的参数,通常每个车型参配信息后边都带有单位,可以以车型参配信息后的单位作为标准模板,判断所述车型参配信息是否符合标准模板。
例如:官网1获取的车辆信切割后的车型参配信息为:5087×1868×1500mm;对于官网2获取的车辆信切割后的车型参配信息为:5.2×1.8×1.5m;
本申请实施例中对应的标准项(长宽高)的标准模板的单位为mm,显然在官网2上获取的车型参配信息不满足该标准模板。
值得注意的是,本申请实施例只是实例性的记载了一个车型参配信息与标准模板的满足条件,所有可以区分参配信息的条件均在本申请实施例的保护范围内,在此处由于篇幅有限,不一一列举。
如果所述车型参配信息碎片满足标准模板;执行步骤S10312将所述车型参配信息聚类到相应的标准项中进行显示;
显然在官网1上获取的车辆信息切割后的车型参配信息5087×1868×1500mm满足标准项(长宽高)对应的标准模板,此时将5087×1868×1500mm聚类到标准项(长宽高)中并进行显示。
如果所述车型参配信息碎片不满足标准模板,执行步骤S10313解析所述车型参配信息碎片,将解析后的车型参配信息碎片转换为解析文本,所述解析文本满足标准模板;
对于官网2上获取的车辆信息切割后的车型参配信息:5.2×1.8×1.5m显然不满足标准项(长宽高)对应的标准模板,处理器将所述车型参配信息5.2×1.8×1.5m转换为解析文本5200×1800×1500mm,然后将解析文本聚类到标准项(长宽高)中并进行显示。
值得注意的是,本申请实施例涉及文本解析并不限于单位之间的转换,中英文之间的转换,大小写之间的转换,以及,缩写与全拼之间的转换均在本申请实施例的保护范围内。
S10314将解析文本聚类到相应的标准项中进行显示。
可见在本实施例中,对每个标准项中的显示内容的格式进行了统一,即使用户在对不同品牌车辆的之间进行比对的过程中,由于不同品牌车辆对于相同标准项显示的车型参配信息的格式一致,单位一致,进而方便用户对不同品牌车辆的性能进行比对,用户无需显示的信息进行进一步的处理,降低了用户操作的难度,提高了用户的体验感。
实施例3:
本申请实施例示出的聚类方法首先在官网的网页上获取车辆信息。通常每个官网为了突出自家品牌,在每个网页上均存放自家的宣传信息,通常在获取车辆信息时以网页为单位获取每个网页上的信息,由于官网上的自家宣传信息存在于每个网页上,在获取每个网页上的信息的过程中,官网上的自家宣传信息将会多次被获取,在此情况下,无疑是增加处理器对数据的处理量,进一步,增加存储器的占用内存。
为了解决上述的技术问题,本申请以优选实施例示出所述基于步骤103还可以执行以下的步骤:
获取车辆官网中每个网页上的车辆信息,如果所述车辆信息重复出现,只获取一次所述车辆信息。
具体的,请参阅图5,以及,图6。其中图5为奥迪官网中关于A4L款车的车辆信息,其中图6也是显示的车辆信息为A4L车辆关于车型的车辆信息显示界面,图中6对应的车辆信息在发动机的网页上首次出现,应用平台服务器在获取发动机相关的车辆信息的网页上首次获取图中6对应的信息,应用平台服务器继续获取外观对应的车辆信息,获取的方式是获取图6示出的网页上的全部信息,显然在图6示出的网页上的车辆信息6’对应的车辆信息属于重复出现的车辆信息,应用平台服务器在获取6’对应的车辆信息的过程中,判断该车辆信息为重复出现的信息,不再重复获取该条车辆信息。
再例如:在获取A4L款车的车辆信息,首选出现的为A4L款车的图片,如图5中的5所示,应用平台服务器首先获取A4L款车对应的图片,将图片或flash的地址存放到一个list中。每个list中可以保存多张图片地址。应用平台服务器继续获取外观对应的车辆信息,获取的方式是获取图6示出的网页上的全部信息,显然在图6示出的网页上关于A4L款车对应的图片再次出现,如图6中5’所示,应用平台服务器在获取5’对应的车辆信息的过程中,判断该车辆信息为重复出现的信息,不再重复获取该条车辆信息。
值得注意的是,本申请实施例只是实例性的记载了一个车型参配信息与标准模板的满足条件,所有可以区分参配信息的条件均在本申请实施例的保护范围内,在此处由于篇幅有限,不一一列举。
本申请实施例示出的聚类方法,首先在官网的网页上获取车辆信息。为了避免信息的重复获取,本申请实施例示出的方法在数据的获取的过程中判断所述数据是否为重复出现的信息,如果所述信息为重复出现的信息,应用平台服务器,只获取首次出现的信息,然后将所述信息进行处理。本申请实施例示出的方法,可有效地避免消息的重复出现,减少处理器对数据的处理量,减少存储器的内存占用量。
实施例4:
应用平台服务器在获取车辆信息时,通常以网页为单位通过爬虫技术将网页上的信息“爬取”到应用平台服务器的存储器中,通常品牌汽车的官网上会放置一些无用信息,所述无用信息通常为与车型参配信息不相关的信息,例如,通常每个官网为了突出自家品牌,在每个网页上均存放自家的宣传信息。通常应用平台服务在信息爬取的过程中将这些无用信息爬取下来,并存储以存储器中,等待进一步的信息处理,显然爬取这些无用信息,无疑是增加后续数据的处理量。
为了解决上述的技术问题,本申请以优选实施例示出所述基于步骤101还可以执行以下的步骤:
具体的请参阅图7,步骤S101包括:
S10111获取车辆官网中每个网页上的网页信息;
S10112判断所述网页信息是否为车型参配信息;
如果所述网页信息不是车型参配信息,S10113将所述网页信息删除;
如果所述网页信息是车型参配信息,S10114存储所述车型参配信息。
首先收集各个品牌官网上的网页信息,所述网页信息包括:车辆信息,以及,图片,文字,其中信息的展示方式主要为图片,以及,flash。应用平台服务器在获取车辆信息时,通常以网页为单位通过爬虫技术将网页上的信息“爬取”到应用平台服务器的存储器中,在爬取网页上的信息后,应用平台服务器判断所述网页信息是否为车型参配信息。如果,爬取的信息不是车型参配信息,则直接将所述信息删除,如遇到车型参配信息,则将所述车型参配信息存储。
可见本申请是实施例示出的方法应用平台服务器在获取车辆信息时,通常以网页为单位通过爬虫技术将网页上的网页信息“爬取”到应用平台服务器的存储器中,通过判断所述网页信息是否为车型参配信息,删除一些无用信息,进而达到减少服务器处理的数据量,减少存储器的内存占用量,进而缩短了承载了车型参配信息搜索服务系统的应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
实施例5:作为本申请可行性的方案,步骤将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。可包括以下的步骤:具体的,请参阅图8,步骤S103包括:
S10321判断是否存在与所述车型参配信息碎片相对应的标准项;
如果存在与所述车型参配信息碎片相对应的标准项,S10322将所述车型参配信息碎片聚类到相应的标准项中进行显示;
如果不存在与所述车型参配信息碎片相对应的标准项,S10323提取所述车型参配信息碎片的关键字;
S10324根据所述关键字,生成所述车型参配信息碎片对应的亮点标准项;
在车型参配信息中提取出能够涵盖车型参配信息的亮点标题项;
S10325将所述车型参配信息碎片聚类到所述亮点标准项进行显示。
本申请实施例示出的方法,爬取网页上的网页信息,然后将所述网页信息,切割成车型参配信息,然后对车型参配信息的格式进行了统一,然后将车型参配信息,聚类到相应的标准项中,即使用户在对不同品牌车辆的之间进行比对的过程中,由于不同品牌车辆对于相同标准项显示的车型参配信息的格式一致,单位一致,进而方便用户对不同品牌车辆的性能进行比对,方便用户对比配置差异,用户在不同品牌车辆的车型参配信息之间比对的过程中,无需频繁的在不同官网的网页之间频繁的切换,进而缩短了承载了车型参配信息搜索服务系统的应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率,进一步本申请是实施例示出的方法,针对统一额定的配置外的车型参配信息,可自行增加其它配置项即亮点标题项。在达到各品牌参配信息统一的前提下,做到自有特性配置不丢失。
如图9所示,本申请实施例第三方面示出一种车型参配信息的聚类装置,包括:
信息获取单元21,用于分别获取车辆官网中的每个车辆对应的车辆信息;
切割单元22,用于切割所述车辆信息,生成车型参配信息碎片集;
聚类单元23,用于将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
作为本申请以可选实施例,其中,聚类单元23包括:
第一判断单元,用于判断所述车型参配信息碎片是否满足标准模板;
第一显示单元,用于将所述车型参配信息聚类到相应的标准项中进行显示;
解析单元,用于解析所述车型参配信息碎片,将解析后的车型参配信息碎片转换为解析文本,所述解析文本满足标准模板;
第二显示单元,用于将解析文本聚类到相应的标准项中进行显示。
作为本申请以可选实施例,其中,聚类单元23包括:
第二判断单元,用于判断是否存在与所述车型参配信息碎片相对应的标准项;
如果存在与所述车型参配信息碎片相对应的标准项,
第一聚类单元,用于将所述车型参配信息碎片聚类到相应的标准项中进行显示;
如果不存在与所述车型参配信息碎片相对应的标准项,
第一提取单元,用于提取所述车型参配信息碎片的关键字;
第一生成单元,用于根据所述关键字,生成所述车型参配信息碎片对应的亮点标准项;
第三显示单元,用于将所述车型参配信息碎片聚类到所述亮点标准项进行显示。
作为本申请以可选实施例,其中,信息获取单元21包括:
第一获取单元,用于获取车辆官网中每个网页上的网页信息;
第三判断单元,用于判断所述网页信息是否为车型参配信息;
如果所述网页信息不是车型参配信息,第一删单元,用于将所述网页信息删除;
如果所述网页信息是车型参配信息,第一存储单元,用于存储所述车型参配信息。
作为本申请以可选实施例,其中,信息获取单元21包括:
第二获取单元,用于获取车辆官网中每个网页上的网页信息,以及,所述网页信息对应的链接;
第一计算单元,用于计算所述链接对应的响应页面的信息与所述网页信息之间的相似度;
如果所述相似度小于相似度阈值,第二删除单元,用于删除产生所述链接的网页信息;
如果所述相似度大于或等于相似度阈值,确定单元,用于确定产生所述链接的网页信息为车辆信息。
由以上技术方案可知,本申请实施例示出一种车型参配信息的聚类方法,装置及系统,所述方法,采用网页自动抓取、自动提取车辆官网上的车辆信息、然后对车辆信息进行切割,得到切割后的车型参配信息碎片,判别车型参配信息碎片的内容结构属性,并导入相关的存储数据库;只有当所述车型参配信息符合标准模板时,将车型参配信息碎片的内容聚类到相应的标准项中,并进行显示。用户在不同品牌车辆的车型参配信息进行比对的过程中,由于本申请实施例示出的车型参配信息的聚类系统,所有汽车官网中的车型参配信息做了统一,方便用户对不同品牌不同车系进行交叉对比,方便用户对比配置差异,用户在不同品牌车辆的车型参配信息之间比对的过程中,无需频繁的在不同官网的网页之间频繁的切换,进而缩短了承载了车型参配信息搜索服务系统的应用平台服务器的等待时间,提高了系统带宽、数据库等资源的利用率。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的用户身份的服务提供方法或用户注册方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于用户身份的服务提供装置或用户注册装置的实施例而言,由于其基本相似于方法实施例,所以描述的比对简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来。
Claims (10)
1.一种车型参配信息的聚类方法,其特征在于,包括:
分别获取车辆官网中的每个车辆对应的车辆信息;
切割所述车辆信息,生成车型参配信息碎片集,所述车型参配信息集包括至少一个车型参配信息碎片;
将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
2.根据权利要求1所述的方法,其特征在于,所述将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示的步骤包括:
判断所述车型参配信息碎片是否满足标准模板;
如果所述车型参配信息碎片满足标准模板,将所述车型参配信息聚类到相应的标准项中进行显示;
如果所述车型参配信息碎片不满足标准模板,解析所述车型参配信息碎片,将解析后的车型参配信息碎片转换为解析文本,所述解析文本满足标准模板;
将解析文本聚类到相应的标准项中进行显示。
3.根据权利要求1所述的方法,其特征在于,所述将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示的步骤包括:
判断是否存在与所述车型参配信息碎片相对应的标准项;
如果存在与所述车型参配信息碎片相对应的标准项,将所述车型参配信息碎片聚类到相应的标准项中进行显示;
如果不存在与所述车型参配信息碎片相对应的标准项,提取所述车型参配信息碎片的关键字;
根据所述关键字,生成所述车型参配信息碎片对应的亮点标准项;
将所述车型参配信息碎片聚类到所述亮点标准项进行显示。
4.根据权利要求1所述的方法,其特征在于,所述分别获取车辆官网中的每个车辆对应的车辆信息的步骤包括:
获取车辆官网中每个网页上的车辆信息,如果所述车辆信息重复出现,只获取一次所述车辆信息。
5.根据权利要求1所述的方法,其特征在于,所述分别获取车辆官网中的每个车辆对应的车辆信息的步骤包括:
获取车辆官网中每个网页上的网页信息;
判断所述网页信息是否为车型参配信息;
如果所述网页信息不是车型参配信息,将所述网页信息删除;
如果所述网页信息是车型参配信息,存储所述车型参配信息。
6.根据权利要求1所述的方法,其特征在于,所述分别获取车辆官网中的每个车辆对应的车辆信息的步骤包括:
获取车辆官网中每个网页上的网页信息,以及,所述网页信息对应的链接;
计算所述链接对应的响应页面的信息与所述网页信息之间的相似度;
如果所述相似度小于相似度阈值,删除产生所述链接的网页信息;
如果所述相似度大于或等于相似度阈值,确定产生所述链接的网页信息为车辆信息。
7.根据权利要求1所述的方法,其特征在于,所述车型参配信息包括:文字信息和/或图片信息。
8.一种车型参配信息的聚类装置,其特征在于,包括:
信息获取单元,用于分别获取车辆官网中的每个车辆对应的车辆信息;
切割单元,用于切割所述车辆信息,生成车型参配信息碎片集;
聚类单元,用于将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示。
9.根据权利要求8所述的装置,其特征在于,所述聚类单元包括:
第一判断单元,用于判断所述车型参配信息碎片是否满足标准模板;
第一显示单元,用于将所述车型参配信息聚类到相应的标准项中进行显示;
解析单元,用于解析所述车型参配信息碎片,将解析后的车型参配信息碎片转换为解析文本,所述解析文本满足标准模板;
第二显示单元,用于将解析文本聚类到相应的标准项中进行显示。
10.一种车型参配信息的聚类系统,包括:应用平台服务器,与所述应用平台服务器相连接的数据存储服务器,所述数据存储服务器设置在所述平台服务器内部或独立设置,所述应用平台服务器通过互联网与终端相连接,其特征在于,
所述终端,用于显示车辆的标准项,以及,所述标准项对应的车型参配信息;
所述应用平台服务器,用于分别获取车辆官网中的每个车辆对应的车辆信息;
切割所述车辆信息,生成车型参配信息碎片集,所述车型参配信息集包括至少一个车型参配信息碎片;
将满足标准模板的车型参配信息碎片,聚类到相应的标准项中进行显示;
所述数据存储服务器,用于相关数据的存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710905252.2A CN110020286A (zh) | 2017-09-29 | 2017-09-29 | 一种车型参配信息的聚类方法,装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710905252.2A CN110020286A (zh) | 2017-09-29 | 2017-09-29 | 一种车型参配信息的聚类方法,装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110020286A true CN110020286A (zh) | 2019-07-16 |
Family
ID=67186453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710905252.2A Pending CN110020286A (zh) | 2017-09-29 | 2017-09-29 | 一种车型参配信息的聚类方法,装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020286A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1323112A4 (en) * | 2000-08-25 | 2006-08-02 | Jonas Ulenas | METHOD AND APPARATUS FOR OBTAINING PREFERENCES OF CONSUMER PRODUCTS BY SELECTING AND EVALUATING PRODUCTS |
CN104899285A (zh) * | 2015-06-04 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索结果展示方法和装置 |
CN104933665A (zh) * | 2015-06-23 | 2015-09-23 | 北京寰球时代互联信息技术有限公司 | 车辆推送方法和装置 |
CN105426536A (zh) * | 2015-12-21 | 2016-03-23 | 北京奇虎科技有限公司 | 汽车类搜索结果页的展现方法及装置 |
CN107153978A (zh) * | 2016-03-02 | 2017-09-12 | 腾讯科技(北京)有限公司 | 车型展示方法和系统 |
-
2017
- 2017-09-29 CN CN201710905252.2A patent/CN110020286A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1323112A4 (en) * | 2000-08-25 | 2006-08-02 | Jonas Ulenas | METHOD AND APPARATUS FOR OBTAINING PREFERENCES OF CONSUMER PRODUCTS BY SELECTING AND EVALUATING PRODUCTS |
CN104899285A (zh) * | 2015-06-04 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索结果展示方法和装置 |
CN104933665A (zh) * | 2015-06-23 | 2015-09-23 | 北京寰球时代互联信息技术有限公司 | 车辆推送方法和装置 |
CN105426536A (zh) * | 2015-12-21 | 2016-03-23 | 北京奇虎科技有限公司 | 汽车类搜索结果页的展现方法及装置 |
CN107153978A (zh) * | 2016-03-02 | 2017-09-12 | 腾讯科技(北京)有限公司 | 车型展示方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654950B (zh) | 自适应语音反馈方法和装置 | |
US9600570B2 (en) | Method and system for text filtering | |
US20150213042A1 (en) | Search term obtaining method and server, and search term recommendation system | |
CN108984650B (zh) | 计算机可读记录介质及计算机设备 | |
CN106844685B (zh) | 用于识别网站的方法、装置及服务器 | |
CN110413875A (zh) | 一种文本信息推送的方法以及相关装置 | |
US10380267B2 (en) | System and method for tagging multimedia content elements | |
CN108304368B (zh) | 文本信息的类型识别方法和装置及存储介质和处理器 | |
WO2014154096A1 (zh) | 信息推荐方法、装置及信息资源推荐系统 | |
US9524337B2 (en) | Apparatus, system, and method for detecting complex issues based on social media analysis | |
CA3166742A1 (en) | Method of generating text plan based on deep learning, device and electronic equipment | |
CN103049495A (zh) | 用于提供与查询序列相对应的搜索建议的方法、装置与设备 | |
CN110162637B (zh) | 信息图谱构建方法、装置及设备 | |
CN114357197B (zh) | 事件推理方法和装置 | |
CN111563382A (zh) | 文本信息的获取方法、装置、存储介质及计算机设备 | |
CN106708829B (zh) | 一种数据推荐方法及推荐系统 | |
US10372746B2 (en) | System and method for searching applications using multimedia content elements | |
CN110162769B (zh) | 文本主题输出方法和装置、存储介质及电子装置 | |
CN116955720A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN109829033B (zh) | 数据展示方法和终端设备 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
CN107798004B (zh) | 关键词查找方法、装置及终端 | |
JP2020502710A (ja) | ウェブページメイン画像認識方法及び装置 | |
CN115129976B (zh) | 一种资源召回方法、装置、设备及存储介质 | |
CN110020286A (zh) | 一种车型参配信息的聚类方法,装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |
|
RJ01 | Rejection of invention patent application after publication |