CN111191052B

CN111191052B - 一种数据采集方法、设备及介质

Info

Publication number: CN111191052B
Application number: CN201911346604.0A
Authority: CN
Inventors: 石忠民; 林剑周; 钟力
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-12-22
Anticipated expiration: 2039-12-24
Also published as: CN111191052A

Abstract

本发明提供一种数据采集方法，包括根据预设业务逻辑对若干需要的目标字段进行分组，得到若干含有不同目标字段的原子化字段组；预设服务端采集例程采集目标平台上的目标数据，目标数据中含有若干文本数据；根据原子化字段组中的目标字段组织每个目标数据中的文本数据，得到若干原子化字段组数据，预设服务端采集例程根据若干原子化字段组提供若干原子化字段组API，预设客户端采集例程通过访问原子化字段组API获取对应的原子化字段组数据。本发明提供一种数据采集方法，预设服务端采集例程和预设客户端采集例程的相互配合，保证了整体数据采集的稳定性，同时便于对数据采集系统的维护。

Description

一种数据采集方法、设备及介质

技术领域

本发明涉及数据处理领域，尤其涉及一种数据采集方法、设备及介质。

背景技术

当今对于数据分析以及自然语言处理等数据处理领域都离不开对数据的有效采集和整理。传统的数据采集都是在一个数据处理例程中包含了数据采集和数据整理的业务逻辑，即对数据采集和数据的整理均在同一例程同时处理，但是目前的数据来源具有多样性和多变性，传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种数据采集方法，其能解决传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性的问题。

本发明的目的之二在于提供一种电子设备，其能解决传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性的问题。

本发明的目的之一采用以下技术方案实现：

一种数据采集方法，包括以下步骤：

目标字段分组，根据预设业务逻辑对若干需要的目标字段进行分组，得到若干含有不同目标字段的原子化字段组；

数据采集，预设服务端采集例程采集目标平台上的目标数据，所述目标数据中含有若干文本数据；

组织数据，根据所述原子化字段组中的目标字段组织每个所述目标数据中的所述文本数据，得到若干原子化字段组数据，每个原子化字段组数据含有至少一所述文本数据；

提供API，预设服务端采集例程根据若干所述原子化字段组提供若干原子化字段组API，每个所述原子化字段组API与唯一的所述原子化字段组数据对应；

数据获取，预设客户端采集例程通过访问所述原子化字段组API获取对应的所述原子化字段组数据。

进一步地，所述数据采集还包括：预设服务端采集例程采集目标平台上的目标数据对应的目标ID，每个所述目标数据对应一个所述目标ID。

进一步地，在所述数据获取之前还包括数据缓存，根据所述目标ID将对应的所述原子化字段组数据分类缓存在预设数据库中。

进一步地，根据所述原子化字段组的预设属性设置缓存时间，单个所述缓存时间、单个所述原子化字段组、单个所述原子化字段组数据相互关联，根据所述缓存时间、所述目标ID将对应的所述原子化字段组数据缓存在预设数据库中。

进一步地，所述组织数据具体为：根据所述原子化字段组中目标字段将每个所述目标数据中的文本数据分类为若干不同的原子化字段组数据，每个所述原子化字段组数据包含至少一所述文本数据。

进一步地，所述目标平台包括网页终端和APP终端。

本发明的目的之二采用以下技术方案实现：

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行本申请的一种数据采集方法。

本发明的目的之三采用以下技术方案实现：

一种电子设备，包括：处理器；

相比现有技术，本发明的有益效果在于：本申请的一种数据采集方法，包括根据预设业务逻辑对若干需要的目标字段进行分组，得到若干含有不同目标字段的原子化字段组；预设服务端采集例程采集目标平台上的目标数据，目标数据中含有若干文本数据；根据原子化字段组中的目标字段组织每个目标数据中的文本数据，得到若干原子化字段组数据，每个原子化字段组数据含有至少一文本数据；预设服务端采集例程根据若干原子化字段组提供若干原子化字段组API，每个原子化字段组API与唯一的原子化字段组数据对应；预设客户端采集例程通过访问原子化字段组API获取对应的原子化字段组数据；通过将采集到的目标数据进行组织，并提供与其对应的API，再使用预设客户端采集例程通过与原子化字段组数据对应的API进行获取数据，实现了数据的采集与获取业务的分离，预设服务端采集例程和预设客户端采集例程的相互配合，保证了整体数据采集的稳定性，同时便于对数据采集系统的维护。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种数据采集方法的流程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本发明提供了一种数据采集方法，包括以下步骤：

目标字段分组，根据预设业务逻辑对若干需要的目标字段进行分组，得到若干含有不同目标字段的原子化字段组。在本实施例中，按照数据获取的需求，设定了多个目标字段，根据预设业务逻辑将目标字段进行分组，预设业务逻辑即为根据需要获取的数据类型的不同对与之对应的目标字段进行分组，以下举例说明：假如需要获取与电影相关的数据，则对应的相关字段有：名称，导演，演员，风格流派，语言，首播时间，播放量，评分，电影简介；根据对应的预设分组规则将上述相关字段分为(名称，导演，演员，电影简介，首播时间)、(风格流派，语言)、(播放量)、(评分)；则将(名称，导演，演员，电影简介，首播时间)、(风格流派，语言)、(播放量)、(评分)作为不同的原子化字段组。

数据采集，预设服务端采集例程采集目标平台上的目标数据，所述目标数据中含有若干文本数据；本实施例中预设服务端采集例程采集多个目标平台上的不同的目标数据，目标平台包括网站、APP终端等，在本实施例中，预设服务端采集例程采集目标平台上的目标数据对应的目标ID，每个所述目标数据对应一个所述目标ID，ID是根据目标数据来决定，例如当数据类型为电影资讯时，目标数据可为不同的电影数据,例如含有电影“功夫”的目标数据对应一个ID，含有电影“甲方乙方”的电影数据也对应一个特定的ID，两者的ID不同。

组织数据，根据所述原子化字段组中的目标字段组织每个所述目标数据中的所述文本数据，得到若干原子化字段组数据，每个原子化字段组数据含有至少一所述文本数据。具体为：根据所述原子化字段组中目标字段将每个所述目标数据中的文本数据分类为若干不同的原子化字段组数据，因为每个文本数据中可能含有目标字段或与含有目标字段有关联的词汇，因此根据目标字段来对文本数据进行分类，每个所述原子化字段组数据包含至少一所述文本数据。

提供API，预设服务端采集例程根据若干所述原子化字段组提供若干原子化字段组API，每个所述原子化字段组API与唯一的所述原子化字段组数据对应。本实施例中的API(Application Programming Interface)为应用程序编程接口，为了更好地让预设客户端采集例程及时有效的获取数据，设置了与每个原子化字段组数据对应原子化字段API。例如：当目标数据为原子化字段组分别为(名称，导演，演员，电影简介，首播时间)、(风格流派，语言)、(播放量)、(评分)时，设置以下API与之对应：

SERVE_URL/movie/websiteA/basicInfo/id＝{id}与(名称，导演，演员，电影简介，首播时间)对应；

SERVE_URL/movie/websiteA/typeInfo/id＝{id}与(风格流派，语言)对应；

SERVE_URL/movie/websiteA/playCountInfo/id＝{id}与(播放量)对应；

SERVE_URL/movie/websiteA/scoreInfo/id＝{id}与(评分)对应。

数据缓存，根据所述目标ID将对应的所述原子化字段组数据分类缓存在预设数据库中。具体为根据所述原子化字段组的预设属性设置缓存时间，单个所述缓存时间、单个所述原子化字段组、单个所述原子化字段组数据相互关联，根据所述缓存时间、所述目标ID将对应的所述原子化字段组数据缓存在预设数据库中。举例说明：以原子化字段组为(名称，导演，演员，电影简介，首播时间)、(风格流派，语言)、(播放量)、(评分)为例，当每个原子化字段组的字段属性基本不会变化时，缓存时间可设置为无限期，即缓存数据一直有效；当原子化字段组为(播放量)时，根据业务需求，缓存时间设置为3天(此处数值具体根据实际需求设定)，即3天后缓存数据失效，需要重新对原子化字段组为(播放量)的数据重新采集数据。

数据获取，预设客户端采集例程通过访问所述原子化字段组API获取对应的所述原子化字段组数据；预设客户端采集例程将获取的原子化字段组数据根据用户所提供的业务需求再次进行整理，并发送给下游任务使用，本实施例中的下游任务使用为存入数据库或添加到数据索引服务等。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种数据采集方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种数据采集方法，其特征在于：所述数据采集还包括：预设服务端采集例程采集目标平台上的目标数据对应的目标ID，每个所述目标数据对应一个所述目标ID。

3.如权利要求2所述的一种数据采集方法，其特征在于：在所述数据获取之前还包括数据缓存，根据所述目标ID将对应的所述原子化字段组数据分类缓存在预设数据库中。

4.如权利要求3所述的一种数据采集方法，其特征在于：所述数据缓存具体为根据所述原子化字段组的预设属性设置缓存时间，单个所述缓存时间、单个所述原子化字段组、单个所述原子化字段组数据相互关联，根据所述缓存时间、所述目标ID将对应的所述原子化字段组数据缓存在预设数据库中。

5.如权利要求1所述的一种数据采集方法，其特征在于：所述组织数据具体为：根据所述原子化字段组中目标字段将每个所述目标数据中的文本数据分类为若干不同的原子化字段组数据，每个所述原子化字段组数据包含至少一所述文本数据。

6.如权利要求1所述的一种数据采集方法，其特征在于：所述目标平台包括网页终端和APP终端。

7.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-6任意一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-6任意一项所述的方法。