CN108776686A

CN108776686A - 一种数据标签构建系统和方法

Info

Publication number: CN108776686A
Application number: CN201810563260.8A
Authority: CN
Inventors: 贾俊龙; 庞云霄
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-09

Abstract

本发明提供了一种数据标签构建系统，包括：至少一个计算装置和可视化装置；所述可视化装置，用于对至少两种标签规则进行可视化展示；针对每一个所述计算装置，均执行：根据用户的触发操作，在所述至少两种标签规则中确定至少两种目标标签规则，根据所述至少两种目标标签规则，生成与当前计算装置对应的标签规则模型；任意一个所述计算装置，用于利用与当前计算装置对应的标签规则模型为业务数据构建标签。本方案能够简化数据标签的构建过程。

Description

一种数据标签构建系统和方法

技术领域

本发明涉及计算技术领域，特别涉及一种数据标签构建系统和方法。

背景技术

随着互联网大数据的发展，标签分类已经成为一种广泛的网络信息分类方式，标签分类使得用户能够给信息定义具有关键字特性的标签，并通过标签来进行网页导航和信息检索。由于标签在信息资源与用户基于关键字搜索上建立了便捷的桥梁，因此研究如何为信息资源定义标签成为必要。

现有技术中，对于标签构建过程中使用的标签规则模型，一般需要专业的技术人员进行开发，当标签规则发生变化时，需要重新开发标签规则模型。因此，该方法比较繁琐。

发明内容

本发明实施例提供了一种数据标签构建系统和方法，能够简化数据标签的构建过程。

第一方面，本发明实施例提供了一种数据标签构建系统，其特征在于，包括：至少一个计算装置和可视化装置；

所述可视化装置，用于对至少两种标签规则进行可视化展示；针对每一个所述计算装置，均执行：根据用户的触发操作，在所述至少两种标签规则中确定至少两种目标标签规则，根据所述至少两种目标标签规则，生成与当前计算装置对应的标签规则模型；

任意一个所述计算装置，用于利用与当前计算装置对应的标签规则模型为业务数据构建标签。

优选地，

所述至少一个计算装置，包括：第一实时计算引擎；

所述第一实时计算引擎，用于接收外部实时发送的第一实时数据，利用与所述第一实时计算引擎对应的标签规则模型为所述第一实时数据构建第一实时标签。

优选地，

所述第一实时计算引擎，包括：总线适配器、至少两个分发节点、至少两个计算节点和处理节点；

所述至少两个计算节点分为n个层级，其中，每一个所述层级包括至少一个所述计算节点，n为整数；

所述总线适配器，用于接收所述第一实时数据，将所述第一实时数据拆分成至少两个分发数据，分别发送给所述至少两个分发节点，其中，所述分发数据与所述分发节点一一对应；

任意一个所述分发节点，用于将得到的所述分发数据拆分成目标数量的计算数据，并分别发送给所述目标数量的第一层级的所述计算节点；

第一层级的所述计算节点，用于利用与所述第一实时计算引擎对应的标签规则模型对所述计算数据进行处理，并将处理后的所述计算数据发送给下一层级的所述计算节点；

下一层级的所述计算节点，用于利用与所述第一实时计算引擎对应的标签规则模型，对上一层级的所述计算节点处理后的所述计算数据进行处理，并将处理后的所述计算数据发送给下一层级的所述计算节点；

所述处理节点，用于将第n层级的所述计算节点处理后的所述计算数据进行整合，生成所述第一实时标签。

优选地，

进一步包括：第一任务调度平台；

所述至少一个计算装置，包括：第一离线计算引擎；

所述第一任务调度平台，用于创建至少一个第一标签任务，其中，每一个所述第一标签任务中包括：第一离线数据标识；

所述第一离线计算引擎，用于针对每一个所述第一标签任务，均执行：根据当前第一标签任务中的第一离线数据标识，确定第一离线数据，利用与所述第一离线计算引擎对应的标签规则模型为所述第一离线数据构建第一离线标签。

优选地，

进一步包括：第二任务调度平台；

所述第二任务调度平台，用于创建至少一个第二标签任务，其中，每一个所述第二标签任务中包括：第二离线数据标识；

所述至少一个计算装置，包括：第二实时计算引擎、第二离线计算引擎和交互计算引擎；

所述第二实时计算引擎，用于接收外部实时发送的第二实时数据，利用与所述第二实时计算引擎对应的标签规则模型对所述第二实时数据进行处理，生成第二实时标签；

所述第二离线计算引擎，用于针对每一个所述第二标签任务，均执行：根据当前第二标签任务中的第二离线数据标识，确定第二离线数据，利用与所述第二离线计算引擎对应的标签规则模型对所述第二离线数据进行处理，生成第二离线标签；

所述交互计算引擎，用于利用与所述交互计算引擎对应的标签规则模型对所述第二实时标签和所述第二离线标签进行处理，为所述第二实时数据和所述第二离线数据构建交互标签。

第二方面，本发明实施例提供了一种数据标签构建方法，包括：

可视化装置对至少两种标签规则进行可视化展示；

针对每一个所述计算装置，均执行：根据用户的触发操作，在所述至少两种标签规则中确定至少两种目标标签规则，根据所述至少两种目标标签规则，生成与当前计算装置对应的标签规则模型；

任意一个所述计算装置利用与当前计算装置对应的标签规则模型为业务数据构建标签。

优选地，

所述任意一个所述计算装置利用与当前计算装置对应的标签规则模型为业务数据构建标签，包括：

第一实时计算引擎接收外部实时发送的第一实时数据，利用与所述第一实时计算引擎对应的标签规则模型为所述第一实时数据构建第一实时标签。

优选地，

所述第一实时计算引擎接收外部实时发送的第一实时数据，利用与所述第一实时计算引擎对应的标签规则模型为所述第一实时数据构建第一实时标签，包括：

总线适配器接收所述第一实时数据，将所述第一实时数据拆分成至少两个分发数据，分别发送给至少两个分发节点，其中，所述分发数据与所述分发节点一一对应；

任意一个所述分发节点将得到的所述分发数据拆分成目标数量的计算数据，并分别发送给所述目标数量的第一层级的所述计算节点；

第一层级的所述计算节点利用与所述第一实时计算引擎对应的标签规则模型对所述计算数据进行处理，并将处理后的所述计算数据发送给下一层级的所述计算节点；

下一层级的所述计算节点利用与所述第一实时计算引擎对应的标签规则模型，对上一层级的所述计算节点处理后的所述计算数据进行处理，并将处理后的所述计算数据发送给下一层级的所述计算节点；

处理节点将第n层级的所述计算节点处理后的所述计算数据进行整合，生成所述第一实时标签。

优选地，

第一任务调度平台创建至少一个第一标签任务，其中，每一个所述第一标签任务中包括：第一离线数据标识；

第一离线计算引擎针对每一个所述第一标签任务，均执行：根据当前第一标签任务中的第一离线数据标识，确定第一离线数据，利用与所述第一离线计算引擎对应的标签规则模型为所述第一离线数据构建第一离线标签。

优选地，

进一步包括：

第二任务调度平台创建至少一个第二标签任务，其中，每一个所述第二标签任务中包括：第二离线数据标识；

第二实时计算引擎接收外部实时发送的第二实时数据，利用与所述第二实时计算引擎对应的标签规则模型对所述第二实时数据进行处理，生成第二实时标签；

第二离线计算引擎针对每一个所述第二标签任务，均执行：根据当前第二标签任务中的第二离线数据标识，确定第二离线数据，利用与所述第二离线计算引擎对应的标签规则模型对所述第二离线数据进行处理，生成第二离线标签；

交互计算引擎利用与所述交互计算引擎对应的标签规则模型对所述第二实时标签和所述第二离线标签进行处理，为所述第二实时数据和所述第二离线数据构建交互标签。

本发明实施例提供了一种数据标签构建系统和方法，其中，该方法向用户展示多种标签规则，用户可以根据点击、拖动等操作，在多种标签规则中选择目标标签规则并构建标签规则模型。该方法将复杂的业务逻辑通过简单的配置实现，即使不懂技术的人通过简单培训也能够上手，提高了其易用性。当标签规则发生变化时，该方法只需要重新选择目标标签规则，无需进行二次开发，能够简化标签构建过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种数据标签构建系统的结构示意图；

图2是本发明一个实施例提供的一种数据标签构建方法的流程图；

图3是本发明另一个实施例提供的一种数据标签构建方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种数据标签构建系统，该系统包括：

至少一个计算装置101和可视化装置102；

可视化装置102，用于对至少两种标签规则进行可视化展示；针对每一个计算装置101，均执行：根据用户的触发操作，在至少两种标签规则中确定至少两种目标标签规则，根据至少两种目标标签规则，生成与当前计算装置对应的标签规则模型；

任意一个计算装置101，用于利用与当前计算装置对应的标签规则模型为业务数据构建标签。

该方法向用户展示多种标签规则，用户可以根据点击、拖动等操作，在多种标签规则中选择目标标签规则并构建标签规则模型。该方法将复杂的业务逻辑通过简单的配置实现，即使不懂技术的人通过简单培训也能够上手，提高了其易用性。当标签规则发生变化时，该方法只需要重新选择目标标签规则，无需进行二次开发，能够简化标签构建过程。

在本发明的一个实施例中，标签构建过程涉及以下三种计算方式：

方式1：实时计算，该方法适用于仅处理实时数据的情况。

至少一个计算装置101，包括：第一实时计算引擎；

第一实时计算引擎，用于接收外部实时发送的第一实时数据，利用与第一实时计算引擎对应的标签规则模型为第一实时数据构建第一实时标签。

在本发明实施例中，实时计算通过第一实时计算引擎实现。为了适应大数据处理，保证数据标签构建的速度，第一实时计算引擎，包括：总线适配器、至少两个分发节点、至少两个计算节点和处理节点；

至少两个计算节点分为n个层级，其中，每一个层级包括至少一个计算节点，n为整数；

总线适配器，用于接收第一实时数据，将第一实时数据拆分成至少两个分发数据，分别发送给至少两个分发节点，其中，分发数据与分发节点一一对应；

任意一个分发节点，用于将得到的分发数据拆分成目标数量的计算数据，并分别发送给目标数量的第一层级的计算节点；

第一层级的计算节点，用于利用与第一实时计算引擎对应的标签规则模型对计算数据进行处理，并将处理后的计算数据发送给下一层级的计算节点；

下一层级的计算节点，用于利用与第一实时计算引擎对应的标签规则模型，对上一层级的计算节点处理后的计算数据进行处理，并将处理后的计算数据发送给下一层级的计算节点；

处理节点，用于将第n层级的计算节点处理后的计算数据进行整合，生成第一实时标签。

实时计算是指数据通过数据总线方式推送到总线适配器中，数据源是实时、不间断的，并且无较复杂逻辑运算的，要求对用户响应时间也是实时响应，其处理速度要求秒级。第一实时计算引擎主要采用分布式处理方式，处理延迟极低。当业务数据通过总线推送到第一实时计算引擎后，由第一实时计算引擎进行消费及处理，最终将处理后的第一实时标签存储到HBase与ES库中。

进一步地，本发明实施例采用的分布式处理方式还可以应用于离线计算和交互式计算，以适应海量数据的处理需求。

方式2：离线计算，该方法适用于仅处理离线数据(历史数据)的情况。

该系统还包括：第一任务调度平台；

至少一个计算装置101，包括：第一离线计算引擎；

第一任务调度平台，用于创建至少一个第一标签任务，其中，每一个第一标签任务中包括：第一离线数据标识；

第一离线计算引擎，用于针对每一个第一标签任务，均执行：根据当前第一标签任务中的第一离线数据标识，确定第一离线数据，利用与第一离线计算引擎对应的标签规则模型为第一离线数据构建第一离线标签。

离线计算是指基于在进行离线计算前已知输入数据，也就是说，对于一个离线算法，在开始时就需要知道问题的所有输入数据。第一离线计算引擎主要依托分布式计算框架：Spark、MR，数据缓存：Redis等技术，实现海量数据的分析计算，快速输出结果，并将结果存入不同介质，如ES、HBASE等。

在执行离线计算之前，可以先通过第一任务调度平台注册第一标签任务，第一标签任务中还可以包括任务执行的时间、执行周期等参数。通过第一离线数据标识，第一离线计算引擎可以确定需要进行离线计算的第一离线数据，第一离线数据可以为整个数据库，也可以是数据库中的部分数据。

方式3：交互计算，该方法适用于同时存在实时数据和离线数据(历史数据)的情况。

该系统还包括：第二任务调度平台；

第二任务调度平台，用于创建至少一个第二标签任务，其中，每一个第二标签任务中包括：第二离线数据标识；

至少一个计算装置101，包括：第二实时计算引擎、第二离线计算引擎和交互计算引擎；

第二实时计算引擎，用于接收外部实时发送的第二实时数据，利用与第二实时计算引擎对应的标签规则模型对第二实时数据进行处理，生成第二实时标签；

第二离线计算引擎，用于针对每一个第二标签任务，均执行：根据当前第二标签任务中的第二离线数据标识，确定第二离线数据，利用与第二离线计算引擎对应的标签规则模型对第二离线数据进行处理，生成第二离线标签；

交互计算引擎，用于利用与交互计算引擎对应的标签规则模型对第二实时标签和第二离线标签进行处理，为第二实时数据和第二离线数据构建交互标签。

交互计算是在实时计算和离线计算的基础上实现。当需要构建标签的数据同时存在实时数据和离线数据时，可以通过交互计算进行处理。交互计算是指标签构建时需依托于多类资源或多个计算引擎，并且计算规则复杂，无法及时响应。

需要说明的是，上述的实时计算、离线计算和交互计算所处理的数据源可以为多种类型，即实时数据和离线数据可以为结构化数据也可以为非结构化数据，可以来源于实时数据库，也可以来自于外部服务接口。并且，该系统可以同时进行多种计算引擎，实现多种方式的计算。例如，该系统包括实时计算引擎、离线计算引擎和交互计算引擎，能够实现实时计算、离线计算和交互计算。需要指出的是，此时，上述提到的第一任务调度平台和第二任务调度平台为同一个任务调度平台，第一实时计算引擎和第二实时计算引擎为同一个实时计算引擎，第一离线计算引擎和第二离线计算引擎为同一个离线计算引擎，即在此系统中，实时计算中使用的实时计算引擎也可以用于交互计算中。

如图2所示，本发明实施例提供了一种数据标签构建方法，包括：

步骤201：可视化装置对至少两种标签规则进行可视化展示；

步骤202：针对每一个计算装置，均执行：根据用户的触发操作，在至少两种标签规则中确定至少两种目标标签规则，根据至少两种目标标签规则，生成与当前计算装置对应的标签规则模型；

步骤203：任意一个计算装置利用与当前计算装置对应的标签规则模型为业务数据构建标签。

在本发明的一个实施例中，任意一个计算装置利用与当前计算装置对应的标签规则模型为业务数据构建标签，包括：

第一实时计算引擎接收外部实时发送的第一实时数据，利用与第一实时计算引擎对应的标签规则模型为第一实时数据构建第一实时标签。

在本发明的一个实施例中，第一实时计算引擎接收外部实时发送的第一实时数据，利用与第一实时计算引擎对应的标签规则模型为第一实时数据构建第一实时标签，包括：

总线适配器接收第一实时数据，将第一实时数据拆分成至少两个分发数据，分别发送给至少两个分发节点，其中，分发数据与分发节点一一对应；

任意一个分发节点将得到的分发数据拆分成目标数量的计算数据，并分别发送给目标数量的第一层级的计算节点；

第一层级的计算节点利用与第一实时计算引擎对应的标签规则模型对计算数据进行处理，并将处理后的计算数据发送给下一层级的计算节点；

下一层级的计算节点利用与第一实时计算引擎对应的标签规则模型，对上一层级的计算节点处理后的计算数据进行处理，并将处理后的计算数据发送给下一层级的计算节点；

处理节点将第n层级的计算节点处理后的计算数据进行整合，生成第一实时标签。

在本发明的一个实施例中，第一任务调度平台创建至少一个第一标签任务，其中，每一个第一标签任务中包括：第一离线数据标识；

任意一个计算装置利用与当前计算装置对应的标签规则模型为业务数据构建标签，包括：

第一离线计算引擎针对每一个第一标签任务，均执行：根据当前第一标签任务中的第一离线数据标识，确定第一离线数据，利用与第一离线计算引擎对应的标签规则模型为第一离线数据构建第一离线标签。

在本发明的一个实施例中，该方法还包括：

第二任务调度平台创建至少一个第二标签任务，其中，每一个第二标签任务中包括：第二离线数据标识；

第二实时计算引擎接收外部实时发送的第二实时数据，利用与第二实时计算引擎对应的标签规则模型对第二实时数据进行处理，生成第二实时标签；

第二离线计算引擎针对每一个第二标签任务，均执行：根据当前第二标签任务中的第二离线数据标识，确定第二离线数据，利用与第二离线计算引擎对应的标签规则模型对第二离线数据进行处理，生成第二离线标签；

交互计算引擎利用与交互计算引擎对应的标签规则模型对第二实时标签和第二离线标签进行处理，为第二实时数据和第二离线数据构建交互标签。

如图3所示，本发明实施例以交互计算为例，对数据标签构建方法进行详细地说明，该方法包括：

步骤301：可视化装置对至少两种标签规则进行可视化展示。

数据标签构建系统包括：第二任务调度平台、可视化装置、第二实时计算引擎、第二离线计算引擎和交互计算引擎。

其中，可视化装置可以包括屏幕，屏幕上显示各个标签规则对应的标识，用户可以通过点击和拖动的方式对各个标识进行操作。

步骤302：第二任务调度平台创建至少一个第二标签任务，其中，每一个第二标签任务中包括：第二离线数据标识。

步骤303：针对每一个计算装置，均执行：根据用户的触发操作，在至少两种标签规则中确定至少两种目标标签规则，根据至少两种目标标签规则，生成与当前计算装置对应的标签规则模型，其中，计算装置包括第二实时计算引擎、第二离线计算引擎和交互计算引擎。

步骤304：第二实时计算引擎接收外部实时发送的第二实时数据，利用与第二实时计算引擎对应的标签规则模型对第二实时数据进行处理，生成第二实时标签。

第二实时计算引擎加载其对应的标签规则模型，并根据标签规则模型对第二实时数据进行处理。

步骤305：第二离线计算引擎针对每一个第二标签任务，均执行：根据当前第二标签任务中的第二离线数据标识，确定第二离线数据，利用与第二离线计算引擎对应的标签规则模型对第二离线数据进行处理，生成第二离线标签。

步骤306：交互计算引擎利用与交互计算引擎对应的标签规则模型对第二实时标签和第二离线标签进行处理，为第二实时数据和第二离线数据构建交互标签。

在实际应用场景中，可以根据实时计算、离线计算和交互计算产生的标签，构建标签数据库，并向用户提供查询接口，以使用户根据标签查询数据。

上述方法中的各步骤之间的信息交互、执行过程等内容，由于与本发明系统实施例基于同一构思，具体内容可参见本发明系统实施例中的叙述，此处不再赘述。

综上，本发明各个实施例至少具有如下效果：

1、在本发明实施例中，该方法向用户展示多种标签规则，用户可以根据点击、拖动等操作，在多种标签规则中选择目标标签规则并构建标签规则模型。该方法将复杂的业务逻辑通过简单的配置实现，即使不懂技术的人通过简单培训也能够上手，提高了其易用性。当标签规则发生变化时，该方法只需要重新选择目标标签规则，无需进行二次开发，能够简化标签构建过程。

2、在本发明实施例中，可以接入不同类型数据源，实现异构数据的实时接收。

3、在本发明实施例中，提供了实时计算、离线计算和交互计算三种计算方式，能够满足用户的不同需求。其中，交互计算，可以对多个异构资源进行比对碰撞分析，完成复杂的业务逻辑；离线计算，可以对海量的历史数据进行分析挖掘，结合机器学习技术实现更为智能的标签推荐和构建体系；实时计算，可以通过流式计算对海量实时数据流进行秒级的处理，以满足对实时数据标签构建的需求。

4、在本发明实施例中，采用分布式计算的方式对实时数据和离线数据进行处理，满足海量数据的处理要求。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据标签构建系统，其特征在于，包括：至少一个计算装置和可视化装置；

2.根据权利要求1所述的数据标签构建系统，其特征在于，

所述至少一个计算装置，包括：第一实时计算引擎；

3.根据权利要求2所述的数据标签构建系统，其特征在于，

4.根据权利要求1所述的数据标签构建系统，其特征在于，进一步包括：第一任务调度平台；

所述至少一个计算装置，包括：第一离线计算引擎；

5.根据权利要求1-4中任一所述的数据标签构建系统，其特征在于，进一步包括：第二任务调度平台；

6.一种数据标签构建方法，其特征在于，包括：

可视化装置对至少两种标签规则进行可视化展示；

7.根据权利要求6所述的数据标签构建方法，其特征在于，

8.根据权利要求7所述的数据标签构建方法，其特征在于，

9.根据权利要求6所述的数据标签构建方法，其特征在于，进一步包括：

10.根据权利要求6-9中任一所述的数据标签构建方法，其特征在于，进一步包括：