CN113094382B

CN113094382B - 一种面向多来源数据管理的半自动化数据采集更新方法

Info

Publication number: CN113094382B
Application number: CN202110363545.9A
Authority: CN
Inventors: 温延龙; 王艺茹; 皮春莹; 郑羽辰; 乜鹏
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-12-06
Anticipated expiration: 2041-04-02
Also published as: CN113094382A

Abstract

本发明属于计算机领域，具体涉及用户在采集大量的有不同来源的数据时，通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。该方法包括如下步骤，步骤1、用户建立数据类型库，并为类型库配置不同来源；步骤2、用户为数据类型库中的来源设置数据抓取规则，并启动源数据采集任务获取网页中的源数据；步骤3、用户启动数据预处理任务，对步骤2中得到的源数据进行初步预处理，提取出来源网页中的网页信息；步骤4、用户基于数据预处理得到的网页信息，进行系统配置，并在配置完成后启动数据处理任务，对数据进行处理或更新。

Description

一种面向多来源数据管理的半自动化数据采集更新方法

技术领域

本发明属于计算机领域，具体涉及用户在采集大量的有不同来源的数据时，通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。

背景技术

随着信息时代的不断发展，数据已经成为信息化管理的一个重要组成部分，对数据的采集、清洗和利用也成为信息展示和管理的基础。在数据的采集过程中，常常会出现资源消耗过大、多个程序管理不便、爬虫程序与清洗程序混乱、用户无法自定义系统配置等问题，这对企业的信息采集过程以及研究者的数据集收集都带来了极大的不便。除此之外，现有的爬虫管理平台不能实现完整的一套符合用户个性化配置的数据采集、清洗、更新流程。例如现流行的开箱即用的爬虫管理平台crawlab，其侧重点更偏向于爬虫程序的管理和监控，主要包括在线开发爬虫文档、实时监控爬虫运行、分布式爬虫任务处理等功能，而没有实现一套数据采集、清洗到更新的完整流程。而本系统在设计出一套半自动化的数据采集更新方法之后，对爬虫任务、更新任务的管理仍然保持了高度的扩展性，更加符合用户需求。

发明内容

为了解决上述问题，将系统对数据的采集、清洗和更新进行统一管理，与用户的个性化配置结合在一起，本发明提出了一种面向多来源数据管理的半自动化数据采集更新方法，可实现按照用户的配置执行相应任务，例如数据采集和数据处理任务。通过增加数据预处理的方式，将网页源数据中的所有网页标题提取出来，用户通过比对各个来源的网页标题决定在该数据类型库中最终要保留的属性名，则所有来源的数据转换完成之后都将按照该格式保存，以此来实现用户的个性化数据设置。

为实现上述目的，本发明采用如下技术方案：

一种面向多来源数据管理的半自动化数据采集更新方法，包括如下步骤，

步骤1、用户建立数据类型库，并为类型库配置不同来源；

步骤2、用户为数据类型库中的来源设置数据抓取规则，并启动源数据采集任务获取网页中的源数据；

步骤3、用户启动数据预处理任务，对步骤2中得到的源数据进行初步预处理，提取出来源网页中的网页信息；

步骤4、用户基于数据预处理得到的网页信息，进行系统配置，并在配置完成后启动数据处理任务，对数据进行处理或更新。

本技术方案进一步的优化，所述步骤1中的数据类型库是指用户需要收集的任意一种类型的数据，为其命名并在系统中创建。

本技术方案进一步的优化，所述步骤1中用户在配置不同来源时，主要包括以下步骤：

步骤1.1、新增一个来源时，首先查看系统来源库中是否包含该来源；

步骤1.2、如果系统来源库中包含该来源，则用户只需将该来源添加到该数据类型库中；

步骤1.3、如果系统来源库中不包含该来源，则用户需要添加新来源，录入来源信息包括设置来源信息、来源地址、上传数据抓取文件等。

本技术方案进一步的优化，所述步骤2中用户为数据类型库中的来源设置抓取规则时，若用户采用的是系统来源库中的来源，则不需要再提供抓取规则。

本技术方案进一步的优化，所述步骤2中用户为数据类型库中的来源设置抓取规则，所述抓取规则自定义抓取规则。

本技术方案进一步的优化，所述步骤3中的数据预处理任务是指，对抓取的网页源数据进行网页结构的梳理，根据用户提供的匹配规则提取出网页中的所有标题项。

本技术方案进一步的优化，所述步骤3中的网页信息为网页标题。

本技术方案进一步的优化，所述步骤3数据的预处理操作是将网页中出现的所有网页标题提取出来，形成一张对应关系表的一列，用户需要在下一步中配置对应规则，即网页标题到属性名的转换规则。

本技术方案进一步的优化，所述步骤4中的系统配置的步骤包括：

步骤4.1、用户查看各来源数据预处理结果，确定该数据类型库的最终属性名；

步骤4.2、用户根据步骤4.1中确定的属性名，分别为每个来源配置网页标题到属性名的对应关系；即在该对应关系下，该来源网页中的标题项及其内容将会展示在对应的属性名下。

本技术方案进一步的优化，所述步骤4中启动数据处理任务包括以下步骤：

步骤4.3、用户启动数据处理任务，得到根据标题-属性配置转化之后的最终数据，该数据在不同来源中的结构相同，都与步骤4.1中用户确定的属性名格式一致；

步骤4.4、用户对得到的最终数据进行汇总利用，在出现数据时效性降低、数据完整性被破坏等情况时，可以利用系统提供的更新任务，重新进行数据采集和处理，保证数据的一致性和完整性。

本技术方案更进一步的优化，所述步骤4.3用户在完成配置后可以启动数据处理任务，该任务将会根据用户配置的网页标题到属性名的对应规则进行相应的转换，即建立一张以所有属性名标题的表，数据源中的每一条数据对应标题下的一行数据，行与列的交叉即为数据处理任务转换的结果。

本技术方案进一步的优化，所述步骤4在完成数据预处理操作之后，用户已经得到所有来源的网页标题列表，用户可以参阅该列表配置改数据类型库的全局属性名，也即用户希望最后保存的数据属性或数据格式。

本技术方案进一步的优化，所述步骤4对数据进行更新，包括两种情况：一是系统后台运行的监测任务监测到网页数据较本地数据有更新时，启动数据采集任务重新进行采集；二是，用户发现本地存储数据的时效性降低时，可以启动数据采集任务重新进行更新采集。

本技术方案进一步的优化，所述数据更新方式包括对本地所有数据进行自动更新、立即启动更新任务、对用户指定的数据进行更新。

本技术方案进一步的优化，所述步骤1中数据类型库包括新闻、娱乐、图片。

区别于现有技术，上述技术方案具有如下优点：

1.灵活自主的设置属性名，用户可以灵活的对属性名进行增删改操作，最后数据处理得到的数据格式也会随之改变；

2.半自动化的操作流程，用户可以按照系统的指引和说明书的说明进行半自动化操作，方便灵活的同时又不失自主性；

3.随时对现有数据进行更新，用户可以在数据采集、数据处理和数据清洗的任何一个阶段随时启动系统的更新任务，保证数据的实时性和一致性；

4.不同来源的数据格式相同，通过使用本发明的数据采集方法，用户可以在灵活配置数据类型库的属性名之后，将不同来源的数据转换成统一格式，方便后续使用。

附图说明

图1为面向多来源数据的数据采集更新方法流程图；

图2为用户自定义配置示意图；

图3为用户更新模块示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1所示，为面向多来源数据的数据采集更新方法流程图，该方法包括如下步骤：

步骤1、用户建立数据类型库，并为类型库配置不同来源。

用户根据要采集的数据类型在系统中新建一个数据类型库，例如要收集新闻类的数据时，可以建立名为news的数据类型库。在建立好数据类型库之后，用户可以根据要采集的数据来源在系统中为该数据类型库进行相应配置，例如用户需要从新浪新闻和百度新闻两个网站进行数据采集，则在系统中为news类型库配置来源为xinlang和baidu即可。

用户在配置不同来源时，主要包括以下步骤：

步骤2、用户为数据类型库中的来源设置数据抓取规则，并启动源数据采集任务获取网页中的源数据。

在用户设置完数据类型库以及相应的来源之后，需要为不同的来源设置抓取规则，如图1中的子流程所示。由于不同来源的网页结构不一样，所以在进行数据采集时的采集规则也有差异，用户可以选择系统来源库中的默认来源，系统会提供默认的抓取规则；也可以自定义抓取规则。

在用户配置好抓取规则之后，便可以根据抓取规则启动数据采集任务，将网页中的数据爬取到本地存储中。

步骤3、用户启动数据预处理任务，对步骤2中得到的源数据进行初步处理，提取出来源网页中的网页标题。

在得到不同来源数据的本地存储之后，系统便可以对该数据进行数据预处理操作，方便后续的数据处理和数据清洗。

参阅图2所示，为用户自定义配置示意图。数据的预处理操作是将网页中出现的所有网页标题提取出来，形成一张对应关系表的一列，用户需要在下一步中配置对应规则，即网页标题到属性名的转换规则。

网页标题到属性名的转换规则，即用户希望网页标题下的所有内容最后出现在那个属性名对应的格式下。以百度百科中某一篇新闻为例，该新闻包含“文章题目”、“小标题”、“作者”、“正文”、“注释”等网页标题及其对应的相关信息，用户需要的数据格式为《题目》、《作者》、《正文》。为充分利用网页数据，不遗失重要信息，用户希望“小标题”这个网页标题可以作为《题目》的一部分，则可以配置“文章题目”->《题目》，“小标题”->《题目》两条转换规则。在该规则下，《题目》属性下将会既包含“文章题目”标题下的内容，又包含“小标题”下的内容。

步骤4、用户基于数据预处理的结果，进行系统配置，并在配置完成后启动数据处理任务。

在完成数据预处理操作之后，用户已经得到所有来源的网页标题列表，用户可以参阅该列表配置改数据类型库的全局属性名，也即用户希望最后保存的数据属性或数据格式。

参阅图2所示，在完成类型库的全局配置表之后，用户需要逐一设置所有来源的对应关系表，配置每个来源的网页标题到属性名的转换规则。

用户进行系统配置，并在配置完成后启动数据处理任务，其具体步骤如下：

参阅图2所示，用户在得到所有来源的数据预处理结果后，可以综合各个来源的网页标题提取结果以及用户的需求，设置该数据类型库的全局属性名，即最终返回给用户的数据格式。

步骤4.2、用户根据步骤4.1中确定的属性名，分别为每个来源配置网页标题到属性名的对应关系

用户在完成全局属性名的设置之后，需要对数据预处理的结果进行配置，即配置数据预处理任务提取出的网页标题到属性名的转换规则，例如将网页标题T1与属性名C1建立对应，则网页标题T1下的所有内容，将会在C1属性下进行展示，即在最终的数据格式里，网页标题T1及其内容将会出现在以C1为键对应的值中。

步骤4.3、用户启动数据处理任务，得到转化之后的最终数据。

用户在完成配置后可以启动数据处理任务，该任务将会根据用户配置的网页标题到属性名的对应规则进行相应的转换，即建立一张以所有属性名标题的表，数据源中的每一条数据对应标题下的一行数据，行与列的交叉即为数据处理任务转换的结果。经过转换之后，可以出现多个网页标题在一个属性列下的情况，即根据用户需求合并网页信息；也可能出现网页标题没有对应任何属性名的情况，即用户根据自身需求判断不需要该标题及其内容。

步骤5、用户启动监测任务，在数据时效性降低时随时更新本地数据。

参阅图3所示，为数据更新模块示意图。系统会在两种情况下对系统中存储的数据进行更新：一是系统后台运行的监测任务监测到网页数据较本地数据有更新时，启动数据采集任务重新进行采集；二是，用户发现本地存储数据的时效性降低时，可以启动数据采集任务重新进行更新采集。

在进行更新采集时，系统提供三种不同粒度的采集更新方式，分别是对本地所有数据进行自动更新、立即启动更新任务、对用户指定的数据进行更新。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种面向多来源数据管理的半自动化数据采集更新方法，其特征在于，该方法包括如下步骤，

步骤1、用户建立数据类型库，并为类型库配置不同来源；

所述步骤3中的数据预处理任务是指，对抓取的网页源数据进行网页结构的梳理，根据用户提供的匹配规则提取出网页中的所有标题项；

所述步骤3数据的预处理操作是将网页中出现的所有网页标题提取出来，形成一张对应关系表的一列，用户需要在下一步中配置对应规则，即网页标题到属性名的转换规则；

步骤4、用户基于数据预处理得到的网页信息，进行系统配置，并在配置完成后启动数据处理任务，对数据进行处理或更新；

所述步骤4中的系统配置的步骤包括：

步骤4.2、用户根据步骤4.1中确定的属性名，分别为每个来源配置网页标题到属性名的对应关系；即在该对应关系下，该来源网页中的标题项及其内容将会展示在对应的属性名下；

所述步骤4中启动数据处理任务包括以下步骤：

所述步骤4.3用户在完成配置后可以启动数据处理任务，该任务将会根据用户配置的网页标题到属性名的对应规则进行相应的转换，即建立一张以所有属性名标题的表，数据源中的每一条数据对应标题下的一行数据，行与列的交叉即为数据处理任务转换的结果；

步骤4.4、用户对得到的最终数据进行汇总利用，在出现数据时效性降低、数据完整性被破坏情况时，可以利用系统提供的更新任务，重新进行数据采集和处理，保证数据的一致性和完整性；

所述步骤4对数据进行更新，包括两种情况：一是系统后台运行的监测任务监测到网页数据较本地数据有更新时，启动数据采集任务重新进行采集；二是，用户发现本地存储数据的时效性降低时，可以启动数据采集任务重新进行更新采集。

2.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤1中的数据类型库是指用户需要收集的任意一种类型的数据，为其命名并在系统中创建。

3.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤1中用户在配置不同来源时，主要包括以下步骤：

步骤1.3、如果系统来源库中不包含该来源，则用户需要添加新来源，录入来源信息包括设置来源信息、来源地址、上传数据抓取文件。

4.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤2中用户为数据类型库中的来源设置抓取规则时，若用户采用的是系统来源库中的来源，则不需要再提供抓取规则。

5.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤2中用户为数据类型库中的来源设置抓取规则，所述抓取规则自定义抓取规则。

6.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤3中的网页信息为网页标题。

7.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤4在完成数据预处理操作之后，用户已经得到所有来源的网页标题列表，用户可以参阅该列表配置该数据类型库的全局属性名，也即用户希望最后保存的数据属性或数据格式。

8.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述数据更新方式包括对本地所有数据进行自动更新、立即启动更新任务、对用户指定的数据进行更新。

9.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法，其特征在于，所述步骤1中数据类型库包括新闻、娱乐、图片。