CN110188300A

CN110188300A - 一种面向汽车领域的采购信息的处理方法及装置

Info

Publication number: CN110188300A
Application number: CN201910461497.XA
Authority: CN
Inventors: 包铁; 刘露; 彭涛; 静思婷; 吴孟函
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-30
Anticipated expiration: 2039-05-30
Also published as: CN110188300B

Abstract

本发明提供了一种面向汽车领域的采购信息的处理方法及装置，爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典；在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重；依据所述已爬取网页的权重对所述已爬取网页进行排序显示，使用户可以获取全面准确的汽车领域的采购信息。

Description

一种面向汽车领域的采购信息的处理方法及装置

技术领域

本发明涉及信息处理技术领域，更具体的，涉及一种面向汽车领域的采购信息的处理方法及装置。

背景技术

随着经济全球化的快速发展，我国的汽车工业已成为全球汽车体系的重要组成部分，形成了全系列，多品种的车辆和零部件生产体系。而汽车领域内的数据作为一种新型的资源，在汽车销售、研发等方面起着重要的作用，而如何能够准确地获取到有价值的信息尤为重要。

目前工作人员主要通过搜索引擎获取汽车领域的采购信息，但是，在搜索引擎搜索到的结果中，采购信息分散在大量推荐结果中，工作人员需要浏览大量的推荐结果获得想要的采购信息，造成了人力资源的浪费，且人工筛选信息容易漏掉某些重要信息，不能得到全面准确的采购信息。

发明内容

有鉴于此，本发明提供了一种面向汽车领域的采购信息的处理方法及装置，使用户可以获取全面准确的汽车领域的采购信息。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种面向汽车领域的采购信息的处理方法，包括：

爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典；

在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重；

依据所述已爬取网页的权重对所述已爬取网页进行排序显示。

可选的，所述爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典，包括：

利用主题爬虫工具对包含车辆采购信息主题词项的网站进行网页解析，确定发布时间在预设时间段内且包含车辆采购信息主题词项的目标网页；

对所述目标网页进行遍历，爬取网页的标题、发布时间、省份、链接以及包含车辆采购信息主题词项的信息内容；

将网页中标题、发布时间、爬取信息内容、采购车类型、采购车数量以及采购金额存储到数据库中，生成所述已爬取网页的车辆采购信息数据字典。

可选的，在所述设置所述已爬取网页的权重之前，所述方法还包括：

计算所述已爬取网页之间的相似度；

在相似度超过阈值的所述已爬取网页中保留发布时间最晚的网页，对剩余网页进行过滤。

可选的，所述在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重，包括：

依据预先设定的网页发布时间区间与权重的对应关系以及所述已爬取网页的发布时间，确定所述已爬取网页的发布时间权重；

根据预先设定的链入网页数量区间与权重的对应关系以及所述已爬取网页链入网页的数量，确定所述已爬取网页的链入网页权重；

根据所述已爬取网页中每个主题词项在网页中的词频以及预设设定的每个主题词项的权重因子，计算所述已爬取网页的主题相关度权重；

依据所述已爬取网页中每个主题词项在网页中出现的词频、在网页中不同位置出现的词频、以及预先设定的主题词项在网页中不同位置的位置权重因子，计算主题词项在所述已爬取网页中的位置权重；

基于预设设定的发布时间权重、链入网页权重、主题相关度权重以及位置权重的权重因子，对所述已爬取网页的发布时间权重、链入网页权重、主题相关度权重以及位置权重进行加权求和计算，得到所述已爬取网页的权重。

一种面向汽车领域的采购信息的处理装置，包括：

网页爬取单元，用于爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典；

权重设置单元，用于在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重；

排序显示单元，用于依据所述已爬取网页的权重对所述已爬取网页进行排序显示。

可选的，所述网页爬取单元具体用于：

可选的，所述装置还包括：

网页过滤单元，用于计算所述已爬取网页之间的相似度，在相似度超过阈值的所述已爬取网页中保留发布时间最晚的网页，对剩余网页进行过滤。

可选的，所述权重设置单元具体用于：

相对于现有技术，本发明的有益效果如下：

本发明公开的一种面向汽车领域的采购信息的处理方法，针对汽车领域内采购信息的发现，主题更加明确，且综合依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置对已爬取网页进行排序显示，保证用户在得到全面准确的采购信息的同时，优先浏览重要的车辆采购信息，避免人工筛选信息造成的人力资源的浪费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种面向汽车领域的采购信息的处理方法的流程示意图；

图2为本发明实施例公开的一种网页爬取方法的流程示意图；

图3为本发明实施例公开的一种权重设置方法的流程示意图；

图4为本发明实施例公开的一种面向汽车领域的采购信息的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例公开了一种面向汽车领域的采购信息的处理方法，具体包括以下步骤：

S101：爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典；

本实施例采用主题爬虫工具对包含车辆采购信息主题词项的网页进行爬取，主题爬虫工具仅针对汽车领域的采购信息对网络中所有的网页进行爬取，需要预先设置车辆采购信息主题词项，如车辆采购、采购汽车等等。

具体的，请参阅图2，上述爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典，包括以下步骤：

S201：利用主题爬虫工具对包含车辆采购信息主题词项的网站进行网页解析，确定发布时间在预设时间段内且包含车辆采购信息主题词项的目标网页；

S202：对所述目标网页进行遍历，爬取网页的标题、发布时间、省份、链接以及包含车辆采购信息主题词项的信息内容；

S203：将网页中标题、发布时间、爬取信息内容、采购车类型、采购车数量以及采购金额存储到数据库中，生成已爬取网页的车辆采购信息数据字典。

优选的，可以对各省市政府采购网站中的网页进行爬取，爬取过程如下：

需要爬取除港澳台外其他31个省市政府采购网的相关信息，而每个网站的结构和内容都不相同，所以需要分别对每个网站进行网页解析。

以山东省为例，有关山东省政府采购信息来源于两个网站：

山东省政府采购信息公开平台

http://www.ccgp-shandong.gov.cn/sdgp2017/site/index.jsp

山东省公共资源交易网

http://www.sdggzyjy.gov.cn/queryContent_1-jyxxgg.jspx？channelId＝79。

首先对山东省政府采购信息公开平台网站结构进行分析，关于采购公告信息，网站分为两个模块：省采购公告和市县级采购公告，具体网址分别为：

http://www.ccgp-shandong.gov.cn/sdgp2017/site/channelall.jsp？colcode＝0301

http://www.ccgp-shandong.gov.cn/sdgp2017/site/channelall.jsp？colcode＝0303。由网址及界面展示可以看出该网站采用的是post请求方式，且两个公告页面结构相同，只有colcode值不同，所以可以将colcode值和curpage值作为参数传递进去。

以省采购公告为例，由于对每一个页面都有唯一编号，所以获取最大页面的页数就是我们需要爬取页面的数量。

首先，init_post(thisurl,post_dict,encoding＝"utf-8")函数，传递url值http://www.ccgp-shandong.gov.cn/sdgp2017/site/channelall.jsp？colcode＝0301及参数post_data＝{"colcode":"0301","curpage":1,}，省采购公告的第一条，也就是要爬取省级公告页面中的第一篇公告，并返回给BeautifulSoup对象。

在页面中找到对象内第一个<option>标签的入口，匹配标签后的数字的字符串形式，并强制返回匹配的对象的整型形式,获得最大页数。

然后对整个省采购公告进行爬取，从第一页开始到最后一页，也就是从页数1到页数最大值进行遍历

同样采用post请求方式，调用init_post函数，参数设置为post_data＝{"colcode":"0301","curpage":page,}。将爬取下来的信息进行分析，首先找出网页中所有链接的信息，也就是<a>标签中的内容，根据网页的具体分析，我们需要找到并爬取的是<a>标签中"class"为"aa"的信息，对所有这样的信息进行遍历，<a>标签中的文本内容移除字符串头尾的空格后，可以得到文档的信息标题，标签<a>父节点的内容移除头尾空格后用“\n”回车分隔开的第一个数据，得到公告发布时间。然后将信息中带有“href”的信息放入列表report_url中。

获得所有信息后，判断公告发布时间是否在预设时间段内，如12个月内，如果不是，则不爬取该条信息，如果在12个月内，判断标题是否符合限制，即满足上节中函数title_restraint(title,car_count,true_count)的限制条件，如果不满足，不爬取该条信息；如果满足，将列表report_url加入待爬取列表中。

接下来爬取该信息的文本内容，由于该条信息的url不需要进行传参，所以采用get请求方式，调用init_get函数进行解析，找到爬取文本<td>标签中属性"bgcolor"为"#FFFFFF"及"align"为"center"的模块，该标签下的所有文字为需要爬取的文本，对文本的格式进行整理，得到标准的爬取信息内容。

将所有获取到的数据，包括存储文档的信息标题，发布时间，爬取信息内容，省份，链接，存入数据库中。重复上述步骤直到将待爬取列表遍历完。至此，省采购公告爬取完毕。

市县采购公告只有colcode值与省采购公告不同，为0303，所以将上述步骤中colcode值替换成0303，即可完成市县采购公告的爬取。

生成的车辆采购信息数据字典如下：

表1车辆采购信息数据字典中的爬取采购信息表

列名	数据类型	长度	主键	字段描述
					id	Int	11	是	编号，自增
title	VARchar	256	否	信息标题
					time	VARchar	11	否	发布时间
content	VARchar	256	否	爬取信息内容
					provice	VARchar	11	否	省份
href	VARchar	256	否	链接
					car_name	VARchar	11	否	采购车的类型
car_num	VARchar	11	否	采购车的数量
					money	int	11	否	采购金额

S102：在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重；

爬取的网页可能存在相似网页，重复浏览相似的网页会占用用户的时间，实际上，用户只需要浏览其中一个网页就可以了，因此，本实施例公开的面向汽车领域的采购信息的处理方法，在设置已爬取网页的权重之前，计算所述已爬取网页之间的相似度，在相似度超过阈值的所述已爬取网页中保留发布时间最晚的网页，对剩余网页进行过滤。

其中，计算网页相似度的方法可以为：通过对网页进行聚类分析得到网页间的相似度，提取网页的特征向量以计算特征向量间的相似度等，本发明不做具体限定。

请参阅图3，权重设置具体包括以下步骤：

S301：依据预先设定的网页发布时间区间与权重的对应关系以及已爬取网页的发布时间，确定已爬取网页的发布时间权重；

具体的，以发布时间早的网页权重大，发布时间晚的网页权重小的原则设定网页发布时间区间与权重的对应关系。

S302：根据预先设定的链入网页数量区间与权重的对应关系以及已爬取网页链入网页的数量，确定已爬取网页的链入网页权重；

以链入网页数量大的网页权重大，链入网页数量小的网页权重小的原则设定链入网页数量区间与权重的对应关系。

S303：根据已爬取网页中每个主题词项在网页中的词频以及预设设定的每个主题词项的权重因子，计算已爬取网页的主题相关度权重；

具体的，出现在网页中的权重因子越大，网页的主题相关度权重越大，主题词项出现在网页中的词频越大，网页的主题相关度权重越大。

以上为计算网页主题相关度的原则，本发明并不限定计算网页主题相关度的具体算法。

S304：依据已爬取网页中每个主题词项在网页中出现的词频、在网页中不同位置出现的词频、以及预先设定的主题词项在网页中不同位置的位置权重因子，计算主题词项在已爬取网页中的位置权重；

具体的，可以将网页中的词项位置分为Head/Title、H1标记、H2标记、超链接和锚文本、表格、网页其他正文等6个位置来进行加权处理，每个位置的权重因子可以设定为5：4：3：3：4：2。

设定词项s_i在网页P中的位置权值因子为其中x表示词项出现在文本中的位置，一共存在6种取值。x＝0表示词项出现在Head /Title中，x＝1表示词项出现在H1标记中，x＝2表示词项出现在H2标记中，x＝3表示词项出现在超链接和锚文本中，x＝4表示词项出现在表格中，x＝5表示词项出现在网页其他正文中。

主题词项在已爬取网页中的位置权重公式如下：

其中，W_pos(i,p)表示词项s_i在网页p中出现的位置权重，tf_x(i,p)表示词项s_i在网页中x位置出现的词频，tf(i,p)表示词项s_i在网页中出现的词频，表示词项s_i在网页中位置x的权重因子。

S305：基于预设设定的发布时间权重、链入网页权重、主题相关度权重以及位置权重的权重因子，对已爬取网页的发布时间权重、链入网页权重、主题相关度权重以及位置权重进行加权求和计算，得到已爬取网页的权重。

其中，发布时间权重、链入网页权重、主题相关度权重以及位置权重的权重因子可以根据实际需要进行设定。

S103：依据所述已爬取网页的权重对所述已爬取网页进行排序显示。

具体的，已爬取网页的权重越大，排序越靠前，即让用户先浏览权重大的网页，提高用户获取有效车辆采购信息的效率。

本实施例公开的一种面向汽车领域的采购信息的处理方法，针对汽车领域内采购信息的发现，主题更加明确，且综合依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置对已爬取网页进行排序显示，保证用户在得到全面准确的采购信息的同时，优先浏览重要的车辆采购信息，避免人工筛选信息造成的人力资源的浪费。

基于上述实施例公开的一种面向汽车领域的采购信息的处理方法，本实施例对应公开了一种面向汽车领域的采购信息的处理装置，具体包括：

网页爬取单元401，用于爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典；

权重设置单元402，用于在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重；

排序显示单元403，用于依据所述已爬取网页的权重对所述已爬取网页进行排序显示。

可选的，所述网页爬取单元401具体用于：

可选的，所述装置还包括：

可选的，所述权重设置单元402具体用于：

本实施例公开的一种面向汽车领域的采购信息的处理装置，针对汽车领域内采购信息的发现，主题更加明确，且综合依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置对已爬取网页进行排序显示，保证用户在得到全面准确的采购信息的同时，优先浏览重要的车辆采购信息，避免人工筛选信息造成的人力资源的浪费。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向汽车领域的采购信息的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述爬取发布时间在预设时间段内且包含车辆采购信息主题词项的网页，生成已爬取网页的车辆采购信息数据字典，包括：

3.根据权利要求1所述的方法，其特征在于，在所述设置所述已爬取网页的权重之前，所述方法还包括：

计算所述已爬取网页之间的相似度；

4.根据权利要求1所述的方法，其特征在于，所述在所述车辆采购信息数据字典中，依据已爬取网页的发布时间、链入网页数量、主题相关度以及主题词项在网页中的位置，设置所述已爬取网页的权重，包括：

5.一种面向汽车领域的采购信息的处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述网页爬取单元具体用于：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5所述的装置，其特征在于，所述权重设置单元具体用于：