CN110874680A

CN110874680A - 一种企业信息数据的采集与处理的方法和装置

Info

Publication number: CN110874680A
Application number: CN201811018896.0A
Authority: CN
Inventors: 沈立顶; 宋京; 刘哲; 胡伦良; 王旭辉; 张海斌
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2020-03-10

Abstract

本申请公开了一种企业信息数据的采集与处理的方法和装置，其中方法包括：对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码，并根据预设的特征参数，对每个所述网页对应的HTML代码进行分析处理，得到相应的有用特征值并保存；所述网页包括主网页以及主网页下的所有子网页；利用预设的评估模型，根据所述有用特征值计算得到相应的评估数据。采用本发明，有利于确保企业评估数据的准确性。

Description

一种企业信息数据的采集与处理的方法和装置

技术领域

本发明涉及数据处理技术，特别是涉及一种企业信息数据的采集与处理的方法和装置。

背景技术

目前，科技园区内的孵化器管理较为简单，只实现了对基本职能的信息化工作。对于入驻孵化器的小微企业的评估，由专家根据经验结合企业的实际运营信息，对企业的各种评估指标进行评分，得到相应的企业价值评估结果。

上述现有的企业评估方法中，由于由专家是通过经验进行评估，使得所得到的评估结果具有一定的主观性，从而无法确保评估的准确性。另外，也无法对企业价值进行有效跟踪管理，也无法对孵化器自身的孵化效果进行量化管理。

发明内容

有鉴于此，本发明的主要目的在于提供一种企业信息数据的采集与处理的方法和装置，有利于确保企业评估数据的准确性。

为了达到上述目的，本发明提出的技术方案为：

一种企业信息数据的采集与处理的方法，包括：

对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码，并根据预设的特征参数，对每个所述网页对应的HTML代码进行分析处理，得到相应的有用特征值并保存；所述网页包括主网页以及主网页下的所有子网页；

利用预设的评估模型，根据所述有用特征值计算得到相应的评估数据。

较佳地，所述对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码包括：

a1、根据待抓取HTML代码的网址，向该地址对应的网页服务器，请求下载相应网页的HTML代码；

a2、当所述请求成功时，将所述网页服务器返回的HTML代码，保存在相应目标网址对应网页文件中；

a3、如果所述网页服务器返回的HTML代码中包含子网页的网址，则对所述子网页的网址进行重复网址去除处理；对于经过去除处理后得到的每个网址，如果该网址不在所述信息采集目标网址集合中，则将其加入到所述信息采集目标网址集合中；

a4、如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址，则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址，作为当前待抓取HTML代码的网址，返回步骤a1。

较佳地，对每个所述网页对应的HTML代码进行分析处理包括：

对于每个所述网页，从该网页对应的HTML代码中，提取出所述特征参数对应的特征值，清除其中的无效特征值，根据所述无效特征值的数量，判断经过所述清除的特征值是否满足预设的精度要求，如果是，则利用网络爬虫工具的决策树模型，对经过所述清除的特征值进行特征分类，并保存相应的分类结果数据。

较佳地，所述判断经过所述清除的特征值是否满足预设的精度要求包括：

对于每个所述网页，计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例；如果该比例小于预设阈值，则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求，否则，判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。

较佳地，所述根据所述有用特征值计算得到相应的评估数据包括：

按照

计算得到相应的评估数据A；其中，i为特征参数编号，V_i为特征参数i的有用特征值，w_i为预设的特征参数i的权重，n为特征参数的数量，

一种企业信息数据的采集与处理的装置，包括：

数据采集处理模块，用于对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码，并根据预设的特征参数，对每个所述网页对应的HTML代码进行分析处理，得到相应的有用特征值并保存；所述网页包括主网页以及主网页下的所有子网页；

评估模块，用于利用预设的评估模型，根据所述有用特征值计算得到相应的评估数据。

较佳地，所述数据采集处理模块包括：

请求单元，用于根据待抓取HTML代码的网址，向该地址对应的网页服务器，请求下载相应网页的HTML代码；

网页文件创建单元，用于当所述请求成功时，将所述网页服务器返回的HTML代码，保存在相应目标网址对应网页文件中；

网址集合更新单元，用于如果所述网页服务器返回的HTML代码中包含子网页的网址，则对所述子网页的网址进行重复网址去除处理；对于经过去除处理后得到的每个网址，如果该网址不在所述信息采集目标网址集合中，则将其加入到所述信息采集目标网址集合中；

待抓取网址更新单元，用于如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址，则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址，作为当前待抓取HTML代码的网址，返回步骤a1。

较佳地，所述数据采集处理模块包括：

代码分析单元，用于对于每个所述网页，从该网页对应的HTML代码中，提取出所述特征参数对应的特征值，清除其中的无效特征值，根据所述无效特征值的数量，判断经过所述清除的特征值是否满足预设的精度要求，如果是，则利用网络爬虫工具的决策树模型，对经过所述清除的特征值进行特征分类，并保存相应的分类结果数据。

较佳地，所述代码分析单元，用于对于每个所述网页，计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例；如果该比例小于预设阈值，则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求，否则，判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。

较佳地，所述根评估模块，用于按照

综上所述，本发明提出的企业信息数据的采集与处理的方法和装置，利用网络爬虫技术，爬取与被评估企业相关联的网络数据，根据预设的特征参数对爬取到的数据进行分类清洗后，获得相应的有效特征值，再利用预设的评估模型，基于有效特征值对得出企业的评估数据。如此，通过利用从网页上获取的能反映企业客观情况的特征数据，按照预设的评估模型，采用定量评估的方式对企业进行评估，可以确保评估数据的准确性。

附图说明

图1为本发明实施例的方法流程示意图；

图2为图1步骤101中的HTML代码抓取流程示意图；

图3为本发明实施例的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明的核心思想是：通过网络爬虫技术爬取与被评估企业相关联的最新网络数据，对爬取到的数据进行分类清洗后，再利用预设的评估模型，为目标企业得出实时的评估数据，如此，通过从网页上抓取能反映企业客观情况的特征数据，利用这些数据按照预设的评估模型，对企业进行评估，从而可以提高评估的准确性。

图1为本发明实施例的企业信息数据的采集与处理方法流程示意图，如图1所示，该实施例主要包括：

步骤101、对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码，并根据预设的特征参数，对每个所述网页对应的HTML代码进行分析处理，得到相应的有用特征值并保存；所述网页包括主网页以及主网页下的所有子网页。

本步骤中，需要基于预设的信息采集目标网址集合中的每个网址，获取相应的网页HTML代码，为确保数据获取的全面性，该网页HTML代码将包括主网页和主网页下的所有子网页的HTML代码。

所述信息采集目标网址集合可由本领域技术人员根据实际需要进行设置，该集合中将包括能提供企业特征数据的第三方网站的网址。

所述特征参数具体可由本领域技术人员根据实际应用中能够反映企业价值的参数进行设置。

较佳地，如图2所示，可以采用下述方法抓取目标网址所对应网页的HTML代码：

步骤1011、根据待抓取HTML代码的网址，向该地址对应的网页服务器，请求下载相应网页的HTML代码。

步骤1012、当所述请求成功时，将所述网页服务器返回的HTML代码，保存在相应目标网址对应网页文件中。

步骤1013、如果所述网页服务器返回的HTML代码中包含子网页的网址，则对所述子网页的网址进行重复网址去除处理；对于经过去除处理后得到的每个网址，如果该网址不在所述信息采集目标网址集合中，则将其加入到所述信息采集目标网址集合中。

本步骤中，如果网页服务器返回的HTML代码中包含子网页的网址，则为了避免网页HTML代码的重复下载，需要先将其中重复的网址进行删除，如果子网页的网址不在当前的信息采集目标网址集合中，则可以将其增加至信息采集目标网址集合中，以便在后续步骤中进一步下载其网页HTML代码。

步骤1014、如果所述信息采集目标网址集合中存在未进行HTML代码抓取的网址，则从所述信息采集目标网址集合中读取一个未进行HTML代码抓取的网址，作为当前待抓取HTML代码的网址，返回步骤1011。

本步骤中，如果信息采集目标网址集合中还有未进行HTML代码抓取的网址，则需要取出一个，返回步骤1011执行相应的HTML代码抓取，直到信息采集目标网址集合中所有网址对应的HTML代码均已被抓取。

较佳地，对于每个所述网页对应的HTML代码，可以采用下述方法进行分析处理：

对于每个所述网页，从该网页对应的HTML代码中，提取出所述特征参数对应的特征值，清除其中的无效特征值；

根据所述无效特征值的数量，判断经过所述清除的特征值是否满足预设的精度要求，如果是，则利用网络爬虫工具的决策树模型，对经过所述清除的特征值进行特征分类，并保存相应的分类结果数据。

上述无效特征值指的是不在对应特征参数正常取值范围内的特征值。

上述方法中，为了提高用于进行评估的特征数据的准确性，需要对提取出的特征值进行有效性的筛选，筛选出能够满足预设精度要求的特征值进行估计。

较佳地，可以采用下述方法判断经过所述清除的特征值是否满足预设的精度要求：

步骤102、利用预设的评估模型，根据所述有用特征值计算得到相应的评估数据。

本步骤，所述评估模型可以采用现有的评估模型实现。

较佳地，可以采用预设的权重系数进行综合评估的方式，根据所述有用特征值计算得到相应的评估数据：

按照

上述方法中，每个特征参数的权重可由本领域技术人员根据实际需要进行设置合适的取值，只要满足

即可。

上述方法中选择了基于权重的评估模型，在实际应用中并不限于此，具体可由本领域技术人员根据实际的评估需要选择合适的评估模型。

图3为与上述方法相对应的企业信息数据的采集与处理装置结构示意图，如图3该装置包括：

数据采集处理模块，用于对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码，并根据预设的特征参数，对每个所述网页对应的HTML代码进行分析处理，得到相应的有用特征值并保存；所述网页包括主网页以及主网页下的所有子网页。

较佳地，所述数据采集处理模块具体可以包括下述单元：

较佳地，所述数据采集处理模块包括：

较佳地，所述根评估模块，用于按照

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种企业信息数据的采集与处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对于预设的信息采集目标网址集合中的每个目标网址，利用网络爬虫工具，抓取该目标网址所对应网页的HTML代码包括：

3.根据权利要求1所述的方法，其特征在于，对每个所述网页对应的HTML代码进行分析处理包括：

4.根据权利要求1所述的方法，其特征在于，所述判断经过所述清除的特征值是否满足预设的精度要求包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述有用特征值计算得到相应的评估数据包括：

按照

6.一种企业信息数据的采集与处理的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述数据采集处理模块包括：

8.根据权利要求6所述的装置，其特征在于，所述数据采集处理模块包括：

9.根据权利要求6所述的装置，其特征在于，所述代码分析单元，用于对于每个所述网页，计算从该网页的HTML代码提取的所述特征值中无效特征值所占的比例；如果该比例小于预设阈值，则判定清除所述特征值中的无效特征值后所得到的特征值满足所述精度要求，否则，判定清除所述特征值中的无效特征值后所得到的特征值不满足所述精度要求。

10.根据权利要求6所述的装置，其特征在于，所述根评估模块，用于按照