CN112434096A

CN112434096A - 基于智能标签的业务分析系统及方法

Info

Publication number: CN112434096A
Application number: CN202011368612.8A
Authority: CN
Inventors: 朱晓峰; 蔡晓华; 杨光辉
Original assignee: Shanghai Netis Technologies Co ltd
Current assignee: Shanghai Netis Technologies Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-02
Anticipated expiration: 2040-11-30
Also published as: CN112434096B

Abstract

本发明提供了一种基于智能标签的业务分析系统及方法，包括：从外部数据库、大数据平台或数据服务获取原始文本数据，并对原始文本数据进行预处理，获得预处理后的原始文本数据；对预处理后的原始文本数据进行ETL处理，得到ETL处理后的数据，并将ETL处理后的数据存储至Hadoop分布式文件系统；将ETL处理后的数据通过领域知识库查询所需的实体和字段信息；使用领域知识库中所查询的实体信息，根据预设标签，判断是否符合预设匹配规则，当匹配时，则对ETL处理后的数据进行标签；使用混合后端和分表方案存储标签数据，通过标签元数据和查询引擎对外通过查询功能。本发明通过领域知识库发现商品和商户等实体的外在属性，通过这些额外信息定义出更加丰富的标签。

Description

基于智能标签的业务分析系统及方法

技术领域

本发明涉及标签系统，具体地，涉及基于智能标签的业务分析系统及方法。

背景技术

推荐系统是利用电子商务网站或者手机App向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。

推荐系统的目的是联系用户的兴趣和物品，这种联系方式需要依赖不同的媒介。其中一种流行的方法是通过一些特征联系用户和物品，给用户推荐那些具有用户喜欢的特征的物品，这里的特征有不同的表现形式，比如可以表现为物品的属性集合，也可以表现为隐语义向量。我们把这种重要的特征表现形式成为——标签。

现有的标签推荐系统中，标签的维护和使用分离的。

标签的维护包括：增加、修改、删除等。一般由业务人提出，由开发人员通过后台开发完成。开发人员通常使用一些基于统计的方法和基于人工智能的方法，运行数据，让后将更新的结果输入到系统。

标签的使用主要指业务人员，使用通过系统，使用标签和标签组合，筛选出对于某项商品或者活动的适合的推荐人群。然后在通过短信等方式将商品或者活动信息推送给候选人群。

显然，这类系统现有系统新增标签周期长。同时，标签定义不可解释，使用者(业务人员)无法了解标签真实的逻辑，也不能按自己的想法灵活的自定义标签。只能根据数据中有限的信息生成标签，无法使用商品或商户等实体的一些外在属性。业务分析操作原始数据，效率较低。

针对上述现有技术中的缺陷，本发明要解决的技术问题体现在以下几点：

1)现有系统新增标签周期长，增加标签时往往需要后台的开发人员开发后才能上线

2)标签定义不可解释，使用者无法了解标签真实的逻辑，也不能按自己的想法灵活的自定义标签

3)只能根据数据中有限的信息生成标签，无法使用行为涉及的商品或商户等实体的一些外在属性

4)能支持的标签数量较少或存在较大限制

5)缺少能够对用户属性，标签和营销结果灵活分析的方法

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于智能标签的业务分析系统及方法。

根据本发明提供的一种基于智能标签的业务分析系统，包括：

模块M1：从外部数据库、大数据平台或数据服务获取原始文本数据，并对原始文本数据进行预处理，获得预处理后的原始文本数据；

模块M2：对预处理后的原始文本数据进行ETL处理，得到ETL处理后的数据，并将ETL处理后的数据存储至Hadoop分布式文件系统；

模块M3：将ETL处理后的数据通过领域知识库查询所需的实体和字段信息；

模块M4：使用领域知识库中所查询的实体信息，根据预设标签，判断是否符合预设匹配规则，当匹配时，则对ETL处理后的数据进行标签；

模块M5：使用混合后端和分表方案存储标签数据，通过标签元数据和查询引擎对外通过查询功能。

优选地，所述模块M1包括：

模块M1.1：通过消息队列、Socket、HTTP请求、SQL查询和/或RPC请求的形式从外部数据库、大数据平台和/或数据服务获取原始文本数据；

模块M1.2：对获取的原始文本数据进行包括清洗、过滤和/或转换预处理，获得预处理后的原始文本数据。

优选地，所述模块M1.2包括对获取的原始文本数据中时间、记录ID和用户ID进行预处理；除时间、记录ID和用户ID外的原始文本数据，根据需要选择原始文本数据进行预处理。

优选地，所述模块M3包括：根据ETL处理后的数据通过领域知识库进行查询，并将查询后的结果和领域知识库中的相关信息进行关联，得到所需的实体和字段信息。

优选地，所述模块M5包括：使用混合后端和分表方案存储标签数据，通过分表的方式存储标签，相同类型的标签分配在同一个表中，通过标签元数据和查询引擎对外提供相应查询。

根据本发明提供的一种基于智能标签的业务分析方法，包括：

步骤M1：从外部数据库、大数据平台或数据服务获取原始文本数据，并对原始文本数据进行预处理，获得预处理后的原始文本数据；

步骤M2：对预处理后的原始文本数据进行ETL处理，得到ETL处理后的数据，并将ETL处理后的数据存储至Hadoop分布式文件系统；

步骤M3：将ETL处理后的数据通过领域知识库查询所需的实体和字段信息；

步骤M4：使用领域知识库中所查询的实体信息，根据预设标签，判断是否符合预设匹配规则，当匹配时，则对ETL处理后的数据进行标签；

步骤M5：使用混合后端和分表方案存储标签数据，通过标签元数据和查询引擎对外通过查询功能。

优选地，所述步骤M1包括：

步骤M1.1：通过消息队列、Socket、HTTP请求、SQL查询和/或RPC请求的形式从外部数据库、大数据平台和/或数据服务获取原始文本数据；

步骤M1.2：对获取的原始文本数据进行包括清洗、过滤和/或转换预处理，获得预处理后的原始文本数据。

优选地，所述步骤M1.2包括对获取的原始文本数据中时间、记录ID和用户ID进行预处理；除时间、记录ID和用户ID外的原始文本数据，根据需要选择原始文本数据进行预处理。

优选地，所述步骤M3包括：根据ETL处理后的数据通过领域知识库进行查询，并将查询后的结果和领域知识库中的相关信息进行关联，得到所需的实体和字段信息。

优选地，所述步骤M5包括：使用混合后端和分表方案存储标签数据，通过分表的方式存储标签，相同类型的标签分配在同一个表中，通过标签元数据和查询引擎对外提供相应查询。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过领域知识库可以发现商品和商户等实体的外在属性，可以通过这些额外信息定义出更加丰富的标签；

2、本发明通过标签定义语言定义的标签可以明确看到标签的生成规则；

3、本发明存储原始数据，标签数据，用户数据等不同级别的数据，可通过不同业务场景加速查询速度；

4、本发明用户可按照自己想要的规则自定义标签；

5、本发明可以存储海量标签，对外提供用户和行为的大宽表结构进行查询，并支持SQL查询，方便接入BI等第三方系统。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于智能标签的业务分析系统实施架构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

根据本发明提供的一种基于智能标签的业务分析系统，如图1所示，包括：

模块M4：使用领域知识库中所查询的实体信息，根据标签的表达式定义，可计算规则标签或模型标签；

具体地，所述模块M1包括：

模块M1.1：通过消息队列(例如Kafka、ZeroMQ、ActiveMQ、RabbitMQ等)、Socket、HTTP请求、SQL查询和/或RPC请求的形式从外部数据库、大数据平台和/或数据服务获取原始文本数据；

具体地，所述模块M1.2包括可自定义预处理步骤，除时间、记录id、用户id等必须的字段外，可按需保留和转换需要计算标签的字段。

具体地，所述模块M3包括：根据ETL处理后的数据经过领域知识库，查询所需的实体和字段信息，领域知识库根据查询返回结果。数据内的信息一般比较模糊，可能包含的信息有限。我们通过这些有限的信息，和领域数据库中相关的信息关联，得到所需的实体和字段信息。

具体地，所述模块M4包括：使用领域知识库中所查询的实体信息，根据预设标签，判断是否符合预设匹配规则，当匹配时，则对ETL处理后的数据进行标签；

在计算标签时，会先分析所有标签的表达式，统计出可以共同计算的部分以及需要查询领域知识库(某一个领域的实体和它的属性信息的集合)的字段。比如：fund.company＝“公司1”的语句会查询基金的领域知识库；

具体地，所述模块M5包括：使用混合后端和分表方案存储标签数据，通过分表的方式存储标签，相同类型的标签分配在同一个表中，通过标签元数据和查询引擎对外提供大宽表的查询结构；

使用混合后端查询引擎进行标签和数据检索和统计，通过查询标签元数据，智能重写和优化查询语句，并行计算优化查询速度；通过标签查询，使用者(业务人员)可以筛选出对于某项商品或者活动的适合的推荐人群。

步骤M4：使用领域知识库中所查询的实体信息，根据标签的表达式定义，可计算规则标签或模型标签；

具体地，所述步骤M1包括：

步骤M1.1：通过消息队列(例如Kafka、ZeroMQ、ActiveMQ、RabbitMQ等)、Socket、HTTP请求、SQL查询和/或RPC请求的形式从外部数据库、大数据平台和/或数据服务获取原始文本数据；

具体地，所述步骤M1.2包括可自定义预处理步骤，除时间、记录id、用户id等必须的字段外，可按需保留和转换需要计算标签的字段。

具体地，所述步骤M3包括：根据ETL处理后的数据经过领域知识库，查询所需的实体和字段信息，领域知识库根据查询返回结果。数据内的信息一般比较模糊，可能包含的信息有限。我们通过这些有限的信息，和领域数据库中相关的信息关联，得到所需的实体和字段信息。

具体地，所述步骤M4包括：使用领域知识库中所查询的实体信息，根据预设标签，判断是否符合预设匹配规则，当匹配时，则对ETL处理后的数据进行标签；

具体地，所述步骤M5包括：使用混合后端和分表方案存储标签数据，通过分表的方式存储标签，相同类型的标签分配在同一个表中，通过标签元数据和查询引擎对外提供大宽表的查询结构；

分析结果(筛选人群)，可以有诸多应用：

1)推荐，通过短信、电话或者App提醒等方式，将商品或者活动信息推送给候选人群，达成促销的目的，或者提高客户满意度。

2)客群激活，通过短信、电话或者App提醒等方式，引导客户登录特定网站或者App，以提高月活跃用户数。

3)客户挽留，对于可能流失的客户，业务人员进行电话联络，以进行沟通和引导，留住客户。

实施例2

实施例2是实施例1的变化例

数据源模块：数据源为数据来源，可以通过消息队列(例如Kafka、ZeroMQ、ActiveMQ、RabbitMQ等)、Socket、HTTP请求、SQL查询、RPC请求等多种形式从外部数据库、大数据平台、数据服务等获取。

ETL模块：接受数据源，经过ETL处理后，发送至标签计算模块。此外，原始数据存储到HDFS系统。

HDFS(分布式文件系统)原始数据。这是一个可选组件，对于需要存原始数据的场景使用。对于海量数据使用HDFS进行存储。

标签计算模块：接受ETL处理后的数据，查询领域知识库查询服务，并最终生成元数据和标签进行混合存储。可概括为：标签解析、规则优化和规则计算。

标签混合存储。存储的内容包括元数据和标签。元数据指标签数据的存储信息，包括标签分组信息，标签列存储表位置，字段信息，用户权限等。混合存储可以使用分表分库的方式，也可以把不同统计层次的数据存在不同的存储后端，有利于查询时选择最优的查询方案；

UI界面。提供UI界面给用户使用，可以是Web方式，可以是GUI，也可以是手机等移动应用。用户的请求发送给组件8。

API服务。提供对于组件9的访问，隔离组件7(前端UI)和组件9(后端具体功能实现)以优化访问结构，有利于软件工程上的各自迭代演化。

混合后端查询引擎。实现步骤6的功能，查询组件6的海量标签，在通过组件8和组件7返回给用户。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于智能标签的业务分析系统，其特征在于，包括：

模块M5：使用混合后端和分表方案存储标签数据，通过标签元数据和查询引擎对外提供查询功能。

2.根据权利要求1所述的基于智能标签的业务分析系统，其特征在于，所述模块M1包括：

3.根据权利要求2所述的基于智能标签的业务分析系统，其特征在于，所述模块M1.2包括对获取的原始文本数据中时间、记录ID和用户ID进行预处理；除时间、记录ID和用户ID外的原始文本数据，根据需要选择原始文本数据进行预处理。

4.根据权利要求1所述的基于智能标签的业务分析系统，其特征在于，所述模块M3包括：根据ETL处理后的数据通过领域知识库进行查询，并将查询后的结果和领域知识库中的相关信息进行关联，得到所需的实体和字段信息。

5.根据权利要求1所述的基于智能标签的业务分析系统，其特征在于，所述模块M5包括：使用混合后端和分表方案存储标签数据，通过分表的方式存储标签，相同类型的标签分配在同一个表中，通过标签元数据和查询引擎对外提供相应查询。

6.一种基于智能标签的业务分析方法，其特征在于，包括：

步骤M5：使用混合后端和分表方案存储标签数据，通过标签元数据和查询引擎对外提供查询功能。

7.根据权利要求6所述的基于智能标签的业务分析方法，其特征在于，所述步骤M1包括：

8.根据权利要求7所述的基于智能标签的业务分析方法，其特征在于，所述步骤M1.2包括对获取的原始文本数据中时间、记录ID和用户ID进行预处理；除时间、记录ID和用户ID外的原始文本数据，根据需要选择原始文本数据进行预处理。

9.根据权利要求6所述的基于智能标签的业务分析方法，其特征在于，所述步骤M3包括：根据ETL处理后的数据通过领域知识库进行查询，并将查询后的结果和领域知识库中的相关信息进行关联，得到所需的实体和字段信息。

10.根据权利要求6所述的基于智能标签的业务分析方法，其特征在于，所述步骤M5包括：使用混合后端和分表方案存储标签数据，通过分表的方式存储标签，相同类型的标签分配在同一个表中，通过标签元数据和查询引擎对外提供相应查询。