CN110555076A - 数据打标方法、处理方法以及装置 - Google Patents

数据打标方法、处理方法以及装置 Download PDF

Info

Publication number
CN110555076A
CN110555076A CN201910777419.0A CN201910777419A CN110555076A CN 110555076 A CN110555076 A CN 110555076A CN 201910777419 A CN201910777419 A CN 201910777419A CN 110555076 A CN110555076 A CN 110555076A
Authority
CN
China
Prior art keywords
data
label
preset
message
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910777419.0A
Other languages
English (en)
Inventor
杨涵冰
吴豪
刘倩
万鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuhe Information Technology Co Ltd
Original Assignee
Shanghai Shuhe Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuhe Information Technology Co Ltd filed Critical Shanghai Shuhe Information Technology Co Ltd
Priority to CN201910777419.0A priority Critical patent/CN110555076A/zh
Publication of CN110555076A publication Critical patent/CN110555076A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据打标方法、处理方法以及装置。该数据打标方法包括将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;从数仓中获取已完成打标作业的离线标签;将所述实时标签和所述离线标签分别存储至HBase分布式数据库。本申请解决了数据打标效果不佳的技术问题。通过本申请能够提供实时标签,同时能够实时向下游反馈标签内容的变化结果。此外,本申请适用于大数据集群架构。

Description

数据打标方法、处理方法以及装置
技术领域
本申请涉及大数据处理领域,具体而言,涉及一种数据打标方法、处理方法以及装置。
背景技术
标签系统,通过人工或机器学习的方式进行数据打标。
发明人发现,标签系统的缺点在于:大多采用的是离线数据实时性差。进一步,如果面向数据集群其大规模数据存储能力不足,不能实时向下游反馈标签内容的变化结果。
针对相关技术中数据打标效果不佳的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种数据打标方法、处理方法以及装置,以解决相关技术中数据打标效果不佳的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据打标方法。
根据本申请的数据打标方法包括:将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;从数仓中获取已完成打标作业的离线标签;将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
进一步地,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第一消息中间件,通过所述第一消息中间件直接输出至应用程序。
进一步地,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第二消息中间件,通过所述第二消息中间件通过流处理后输出至所述HBase分布式数据库存储。
进一步地,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签之前还包括:
将数据集群中预设数据源配置为:
通过MySQL从数据库的变更记录中解析标签增量数据订阅,建立标签数据集群作为预设数据源;
将预设消息队列的消息作为预设数据源;
将预设消息中间件的消息作为预设数据源。
进一步地,从数仓中获取已完成打标作业的离线标签包括:
离线部分的数据源来自数仓。每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBase。
为了实现上述目的,根据本申请的一个方面,提供了一种基于数据标签的数据处理方法,用于消费标签数据,所述方法包括:将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;从数仓中获取已完成打标作业的离线标签;将所述实时标签和所述离线标签分别存储至HBase分布式数据库;通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
进一步地,方法还包括:
通过预设缓存作业,所述HBase分布式数据库中最新更新的标签数据缓存至Hive表,并通过预设数据查询引擎进行标签运算并将结果输出至应用程序。
进一步地,方法还包括:
对已有的标签数据根据用户的需求进行组合后得到组合标签。
为了实现上述目的,根据本申请的又一方面,提供了一种数据打标装置。
根据本申请的数据打标装置包括:实时标签处理模块,用于将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
为了实现上述目的,根据本申请的再一方面,提供了一种基于数据标签的数据处理装置,用于消费标签数据。
根据本申请的基于数据标签的数据处理装置包括:实时标签处理模块,用于将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库;第一消费模块,用于通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;第二消费模块,用于在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
在本申请实施例中数据打标方法、处理方法以及装置,采用将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签的方式,通过从数仓中获取已完成打标作业的离线标签,达到了将所述实时标签和所述离线标签分别存储至HBase分布式数据库的目的,从而实现了灵活性强、实时性高的数据打标的技术效果,进而解决了数据打标效果不佳的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的数据打标方法流程示意图;
图2是根据本申请第二实施例的数据打标方法流程示意图;
图3是根据本申请第三实施例的数据打标方法流程示意图;
图4是根据本申请第四实施例的数据打标方法流程示意图;
图5是根据本申请实施例的基于数据标签的数据处理方法示意图;
图6是根据本申请实施例的数据打标装置结构示意图;
图7是根据本申请实施例的基于数据标签的数据处理装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
步骤S104,从数仓中获取已完成打标作业的离线标签;
步骤S106,将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
将所述数据集群中预设数据源产生的所述预设标签消息数据按照分布式流处理操作然后生成实时标签。优选地,基于Flink分布式流数据流引擎的实时流计算,分布式计算引擎。将数据以流的形式进行操作,灵活性高,实时性强。
从所述数仓中获取已完成打标作业的离线标签,同时还需要判断数仓中的离线标签是否属于完成打标作业的离线标签,只获取已完成打标作业的离线标签。
具体地,在大数据集群中的Flink分布式流数据流引擎实时流作业消费这三大数据源产生标签消息输出至RabbitMQ及Kinesis这两个消息中间件,其中RabbitMQ消息直接输出给下游应用使用。Kinesis消息通过Stream Consumer处理后输出至HBasee分布式数据库存储。
具体地,离线部分的数据源来自在大数据集群数仓。每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。
优选地,基于HBasee的分布式数据存储,支持大规模的数据查询和存储能力。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签的方式,通过从数仓中获取已完成打标作业的离线标签,达到了将所述实时标签和所述离线标签分别存储至HBase分布式数据库的目的,从而实现了灵活性强、实时性高的数据打标的技术效果,进而解决了数据打标效果不佳的技术问题。
根据本申请实施例,作为本实施例中的优选,如图2所示,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
步骤S202,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第一消息中间件,通过所述第一消息中间件直接输出至应用程序。
具体地,在大数据集群中的Flink分布式流数据流引擎实时流作业消费这三大数据源产生标签消息输出至RabbitMQ及Kinesis这两个消息中间件,其中RabbitMQ消息直接输出给下游应用使用。Kinesis消息通过Stream Consumer处理后输出至HBasee分布式数据库存储。
根据本申请实施例,作为本实施例中的优选,如图3所示,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
步骤S204,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第二消息中间件,通过所述第二消息中间件通过流处理后输出至所述HBase分布式数据库存储。
具体地,离线部分的数据源来自在大数据集群数仓。每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。
根据本申请实施例,作为本实施例中的优选,如图4所示,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签之前还包括:
将数据集群中预设数据源配置为:
步骤S302,通过MySQL从数据库的变更记录中解析标签增量数据订阅,建立标签数据集群作为预设数据源;
步骤S304,将预设消息队列的消息作为预设数据源;
步骤S306,将预设消息中间件的消息作为预设数据源。
具体地,产数据部分分为实时流和离线两部分,对于实时流部分,实时流部分为三种数据源:MySQL从库的BinLog通过Canal Server到Canal Client最终到达建立Kafka集群的目的。
数据源还可以是其他Kafka消息。
数据源也可以是RabbitMQ消息。
具体地,RabbitMQ直接输出给下游应用程序使用,HBase保存的标签数据通过后端Java应用程序,以接口的形式输出给下游应用程序。
具体地,实时标签,是由实时流生成的标签。数据来源是数据库binlog,消息队列或者其他数据驱动的方式所产生的数据。标签数据实时性高。同时还会把生成的实时数据发送给订阅者。
根据本申请实施例,作为本实施例中的优选,从数仓中获取已完成打标作业的离线标签包括:
判断每个离线标签的生成作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBase分布式数据库存储。
具体地,每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。
具体地,离线标签是由T-1跑批数据通过运算生成。标签实时性差。但由于是固定数据生成,数据质量可靠。
如图5所示,在本申请的另一实施例中,还提供了基于数据标签的数据处理方法,用于消费标签数据,该方法包括如下的步骤S402至步骤S410:
步骤S402,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
步骤S404,从数仓中获取已完成打标作业的离线标签;
步骤S406,将所述实时标签和所述离线标签分别存储至HBase分布式数据库;
步骤S408,通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;
步骤S410,在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
将所述数据集群中预设数据源产生的所述预设标签消息数据按照分布式流处理操作然后生成实时标签。优选地,基于Flink分布式流数据流引擎的实时流计算,分布式计算引擎。将数据以流的形式进行操作,灵活性高,实时性强。
从所述数仓中获取已完成打标作业的离线标签,同时还需要判断数仓中的离线标签是否属于完成打标作业的离线标签,只获取已完成打标作业的离线标签。
RabbitMQ消息中间件直接输出给下游应用使用,HBase保存的标签数据通过后端Java应用,以接口的形式输出给下游应用。将所述实时标签和所述离线标签分别存储至HBase分布式数据库,通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费,在所述HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
具体地,每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。
根据本申请实施例,作为本实施例中的优选,方法还包括:
通过预设缓存作业,所述HBase分布式数据库中最新更新的标签数据缓存至Hive表,并通过预设数据查询引擎进行标签运算并将结果输出至应用程序。
具体地,比如同时每日8点至24点,每隔20分钟会有一个缓存作业,将HBase中最近的数据缓存至Hive表中,并通过Presto引擎进行标签运算并将结果输出至前端应用。此外,需要注意的是在前端应用程序除了进行标签元数据管理,还额外的提供标签运算、个人画像、客群对比等分析功能。
需要注意的是每日8点至24点或者每隔20分钟仅为本实施例中的举例,并不用于限定本申请的保护范围。
根据本申请实施例,作为本实施例中的优选,方法还包括:
对已有的标签数据根据用户的需求进行组合后得到组合标签。
具体地,组合标签是对已有标签进行组合。比如,获取未婚的上海女性,只需要将未婚标签、上海地址标签和女性标签组合,求出交集。组合标签灵活高,可根据用户的需要进行标签组合。
通过对现有标签再组合的能力,用户可以根据自己需要,对标签进行再组合。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的装置,如图6所示,该数据打标装置包括:实时标签处理模块10,用于将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;离线标签处理模块20,用于从数仓中获取已完成打标作业的离线标签;分布式数据库模块30,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
将所述数据集群中预设数据源产生的所述预设标签消息数据按照分布式流处理操作然后生成实时标签。优选地,基于Flink分布式流数据流引擎的实时流计算,分布式计算引擎。将数据以流的形式进行操作,灵活性高,实时性强。
从所述数仓中获取已完成打标作业的离线标签,同时还需要判断数仓中的离线标签是否属于完成打标作业的离线标签,只获取已完成打标作业的离线标签。
具体地,在大数据集群中的Flink分布式流数据流引擎实时流作业消费这三大数据源产生标签消息输出至RabbitMQ及Kinesis这两个消息中间件,其中RabbitMQ消息直接输出给下游应用使用。Kinesis消息通过Stream Consumer处理后输出至HBasee分布式数据库存储。
具体地,离线部分的数据源来自在大数据集群数仓。每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。
在本申请的另一实施例中,还提供了一种用于实施上述方法的装置,用于消费标签数据,如图7所示,该数据打标装置包括:实时标签处理模块10,用于将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;离线标签处理模块20,用于从数仓中获取已完成打标作业的离线标签;分布式数据库模块30,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库;第一消费模块40,用于通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;第二消费模块50,用于在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
将所述数据集群中预设数据源产生的所述预设标签消息数据按照分布式流处理操作然后生成实时标签。优选地,基于Flink分布式流数据流引擎的实时流计算,分布式计算引擎。将数据以流的形式进行操作,灵活性高,实时性强。
从所述数仓中获取已完成打标作业的离线标签,同时还需要判断数仓中的离线标签是否属于完成打标作业的离线标签,只获取已完成打标作业的离线标签。
RabbitMQ消息中间件直接输出给下游应用使用,HBase保存的标签数据通过后端Java应用,以接口的形式输出给下游应用。将所述实时标签和所述离线标签分别存储至HBase分布式数据库,通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费,在所述HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
具体地,每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。
本申请的实现原理如下:
(1)数据源
产数据部分分为实时流和离线两部分,对于实时流部分,实时流部分为三种数据源:MySQL从库的BinLog通过Canal Server到Canal Client最终到达建立Kafka集群的目的。
数据源还可以是其他Kafka消息。
数据源也可以是RabbitMQ消息。
(2)实时标签
在大数据集群中的Flink分布式流数据流引擎实时流作业消费这三大数据源产生标签消息输出至RabbitMQ及Kinesis这两个消息中间件,其中RabbitMQ消息直接输出给下游应用使用。Kinesis消息通过Stream Consumer处理后输出至HBasee分布式数据库存储。
(3)离线标签
离线部分的数据源来自在大数据集群数仓。每日调度作业会自动判断每个离线标签的上游作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBasee分布式数据库。基于HBasee的分布式数据存储,支持大规模的数据查询和存储能力。
(4)消息消费
RabbitMQ消息中间件直接输出给下游应用使用,HBase保存的标签数据通过后端Java应用,以接口的形式输出给下游应用。将所述实时标签和所述离线标签分别存储至HBase分布式数据库,通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费,在所述HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
上述离线标签是由T-1跑批数据通过运算生成。标签实时性差。但由于是固定数据生成,数据质量可靠。
上述实时标签,是由实时流生成的标签。数据来源是数据库binlog,消息队列或者其他数据驱动的方式所产生的数据。标签数据实时性高。同时还会把生成的实时数据发送给订阅者。
上述组合标签是对已有标签进行组合。通过对现有标签再组合的能力,用户可以根据自己需要,对标签进行再组合。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据打标方法,其特征在于,包括:
将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
从数仓中获取已完成打标作业的离线标签;
将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
2.根据权利要求1所述的数据打标方法,其特征在于,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第一消息中间件,通过所述第一消息中间件直接输出至应用程序。
3.根据权利要求1所述的数据打标方法,其特征在于,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第二消息中间件,通过所述第二消息中间件通过流处理后输出至所述HBase分布式数据库存储。
4.根据权利要求1所述的数据打标方法,其特征在于,将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签之前还包括:
将数据集群中预设数据源配置为:
通过MySQL从数据库的变更记录中解析标签增量数据订阅,建立标签数据集群作为预设数据源;
将预设消息队列的消息作为预设数据源;
将预设消息中间件的消息作为预设数据源。
5.根据权利要求1所述的数据打标方法,其特征在于,从数仓中获取已完成打标作业的离线标签包括:
判断每个离线标签的生成作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBase分布式数据库存储。
6.一种基于数据标签的数据处理方法,其特征在于,用于消费标签数据,所述方法包括:
将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
从数仓中获取已完成打标作业的离线标签;
将所述实时标签和所述离线标签分别存储至HBase分布式数据库;
通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;
在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
7.根据权利要求6所述的基于数据标签的数据消费方法,其特征在于,还包括:
通过预设缓存作业,所述HBase分布式数据库中最新更新的标签数据缓存至Hive表,并通过预设数据查询引擎进行标签运算并将结果输出至应用程序。
8.根据权利要求6所述的基于数据标签的数据消费方法,其特征在于,还包括:
对已有的标签数据根据用户的需求进行组合后得到组合标签。
9.一种数据打标装置,其特征在于,包括:
实时标签处理模块,用于将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;
分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
10.一种基于数据标签的数据处理装置,其特征在于,用于消费标签数据,包括:
实时标签处理模块,用于将数据集群中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;
分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库;
第一消费模块,用于通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;
第二消费模块,用于在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
CN201910777419.0A 2019-08-22 2019-08-22 数据打标方法、处理方法以及装置 Pending CN110555076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910777419.0A CN110555076A (zh) 2019-08-22 2019-08-22 数据打标方法、处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910777419.0A CN110555076A (zh) 2019-08-22 2019-08-22 数据打标方法、处理方法以及装置

Publications (1)

Publication Number Publication Date
CN110555076A true CN110555076A (zh) 2019-12-10

Family

ID=68738038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910777419.0A Pending CN110555076A (zh) 2019-08-22 2019-08-22 数据打标方法、处理方法以及装置

Country Status (1)

Country Link
CN (1) CN110555076A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881221A (zh) * 2020-07-07 2020-11-03 上海中通吉网络技术有限公司 物流服务里客户画像的方法、装置和设备
CN112364047A (zh) * 2020-11-03 2021-02-12 山东亿云信息技术有限公司 基于Presto的动态数据处理方法及跨库查询方法
CN112925947A (zh) * 2021-02-22 2021-06-08 百果园技术(新加坡)有限公司 一种训练样本处理方法、装置、设备及存储介质
CN113010536A (zh) * 2021-04-21 2021-06-22 中国平安人寿保险股份有限公司 基于流式数据处理的用户标签获取方法及装置
CN113220792A (zh) * 2021-06-03 2021-08-06 上海中通吉网络技术有限公司 包裹标签数据处理方法及系统
CN113392113A (zh) * 2021-06-20 2021-09-14 杭州登虹科技有限公司 一种云视频开放平台精细化用户画像实时推荐方法
CN115062676A (zh) * 2022-08-18 2022-09-16 北京大学 数据处理方法、装置及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201955B1 (en) * 2010-04-15 2015-12-01 Google Inc. Unambiguous noun identification
US20170310686A1 (en) * 2016-04-22 2017-10-26 Sophos Limited Labeling network flows according to source applications
CN108776686A (zh) * 2018-06-04 2018-11-09 浪潮软件集团有限公司 一种数据标签构建系统和方法
CN109003027A (zh) * 2018-07-16 2018-12-14 江苏满运软件科技有限公司 一种画像标签的管理方法及系统
CN109408347A (zh) * 2018-09-28 2019-03-01 北京九章云极科技有限公司 一种指标实时分析系统及指标实时计算方法
CN109871470A (zh) * 2019-02-28 2019-06-11 国网浙江省电力公司 一种电网设备数据标签化管理系统及实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201955B1 (en) * 2010-04-15 2015-12-01 Google Inc. Unambiguous noun identification
US20170310686A1 (en) * 2016-04-22 2017-10-26 Sophos Limited Labeling network flows according to source applications
CN108776686A (zh) * 2018-06-04 2018-11-09 浪潮软件集团有限公司 一种数据标签构建系统和方法
CN109003027A (zh) * 2018-07-16 2018-12-14 江苏满运软件科技有限公司 一种画像标签的管理方法及系统
CN109408347A (zh) * 2018-09-28 2019-03-01 北京九章云极科技有限公司 一种指标实时分析系统及指标实时计算方法
CN109871470A (zh) * 2019-02-28 2019-06-11 国网浙江省电力公司 一种电网设备数据标签化管理系统及实现方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881221A (zh) * 2020-07-07 2020-11-03 上海中通吉网络技术有限公司 物流服务里客户画像的方法、装置和设备
CN112364047A (zh) * 2020-11-03 2021-02-12 山东亿云信息技术有限公司 基于Presto的动态数据处理方法及跨库查询方法
CN112364047B (zh) * 2020-11-03 2024-04-09 山东华智人才科技有限公司 基于Presto的动态数据处理方法及跨库查询方法
CN112925947A (zh) * 2021-02-22 2021-06-08 百果园技术(新加坡)有限公司 一种训练样本处理方法、装置、设备及存储介质
CN113010536A (zh) * 2021-04-21 2021-06-22 中国平安人寿保险股份有限公司 基于流式数据处理的用户标签获取方法及装置
CN113010536B (zh) * 2021-04-21 2024-02-06 中国平安人寿保险股份有限公司 基于流式数据处理的用户标签获取方法及装置
CN113220792A (zh) * 2021-06-03 2021-08-06 上海中通吉网络技术有限公司 包裹标签数据处理方法及系统
CN113392113A (zh) * 2021-06-20 2021-09-14 杭州登虹科技有限公司 一种云视频开放平台精细化用户画像实时推荐方法
CN115062676A (zh) * 2022-08-18 2022-09-16 北京大学 数据处理方法、装置及计算机可读存储介质
CN115062676B (zh) * 2022-08-18 2022-11-22 北京大学 数据处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110555076A (zh) 数据打标方法、处理方法以及装置
CN107908690B (zh) 一种基于大数据运营分析的数据处理方法
CN106230922A (zh) 一种消息订阅方法、消息生产单元及消息接收单元
CN104935951B (zh) 一种基于分布式的视频转码方法
CN106156047B (zh) 一种快照信息处理方法及装置
US9723045B2 (en) Communicating tuples in a message
CN108008944A (zh) 规则引擎响应方法及系统、规则引擎、服务终端、存储器
CN105187641A (zh) 一种对应用程序通知进行智能提醒的方法及系统
CN110941251B (zh) 基于数字孪生体的生产控制方法、装置、设备及介质
CN101487694B (zh) 一种处理图像的方法和装置
CN104951509A (zh) 一种大数据在线交互式查询方法及系统
CN103795758B (zh) 内容浏览、生成及交互方法,内容浏览终端、服务器及系统
CN104267974B (zh) 业务接口的调用方法及装置
CN112396462A (zh) 基于Clickhouse的人群圈选方法及装置
CN115599524B (zh) 一种基于流数据和批数据协同调度处理的数据湖系统
CN106599190A (zh) 基于云计算的动态Skyline查询方法
CN114710571B (zh) 数据包处理系统
CN108038169B (zh) 一种页面显示方法及装置
CN106599189A (zh) 基于云计算的动态Skyline查询装置
CN103347079A (zh) 一种日程事件同步的方法和移动设备
CN114296660A (zh) 一种基于Vue框架的标签打印方法
CN107451211B (zh) 一种基于RabbitMQ和MongoDB的下载系统
CN111813529B (zh) 数据处理方法、装置、电子设备及存储介质
CN112231344A (zh) 实时流数据查询方法及装置
CN111324473A (zh) 可实现高并发处理交易信息的拍卖交易引擎

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191210

RJ01 Rejection of invention patent application after publication