CN110825820A - 实时数据标签获取方法、装置、计算机设备和存储介质 - Google Patents
实时数据标签获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110825820A CN110825820A CN201910923962.7A CN201910923962A CN110825820A CN 110825820 A CN110825820 A CN 110825820A CN 201910923962 A CN201910923962 A CN 201910923962A CN 110825820 A CN110825820 A CN 110825820A
- Authority
- CN
- China
- Prior art keywords
- data
- real
- time
- preset
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000006399 behavior Effects 0.000 claims description 53
- 230000009471 action Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013075 data extraction Methods 0.000 claims description 8
- 238000005538 encapsulation Methods 0.000 claims description 8
- 238000004806 packaging method and process Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000007405 data analysis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实时数据标签获取方法、装置、计算机设备和存储介质。所述方法包括:接收服务器后端发送的实时消息,并从实时消息中获取用户行为数据;根据预设分析任务中的预设指标,从用户行为数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的用户行为数据中的字段,作为实时增量数据,其中,预设指标为预设分析任务中的任务分析要求信息;整合实时增量数据和预设的历史全量数据中的共同字段,将整合得到的共同字段,作为实时全量数据,并将实时全量数据存储到预设数据库中。采用本方法实现了对存量较大的数据进行实时标签化处理的目的。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种实时数据标签获取方法、装置、计算机设备和存储介质。
背景技术
随着移动互联网技术的兴起和大数据技术的发展,基于大数据的互联网应用正在逐渐改变我们的日常生活,新闻阅读、网上购物、社交聊天、休闲游戏等等,每种应用的背后都拥有巨大的用户群,而以用户群为中心的相关大数据是数据分析者最关心的部分。数据分析者对大数据中有价值的数据进行标注,以标签的形式对数据进行归类、过滤等操作,将有助于数据分析。
传统技术中在使用Hive作为处理工具的数据仓库管理中,由于Hive底层原理是MapReduce发起的分布式计算,因此,无法做到对大数据进行实时计算,只能应用于离线的批量计算,即,数据仓库中的存量数据只能以一定的时间间隔进行统计,比如每天、每周或者其他预设的时间间隔,这样无法做到实时统计增量数据,从而导致数据分析的相对滞后,给数据分析带来很大的不便。
发明内容
本发明实施例提供一种实时数据标签获取方法、装置、计算机设备和存储介质,以解决现有技术中无法对存量太大的数据进行实时标签处理,导致在对数据分析相对滞后的技术问题。
一种实时数据标签获取方法,所述方法包括:
接收服务器后端发送的实时消息,并从所述实时消息中获取用户行为数据;
根据预设分析任务中的预设指标,从所述用户行为数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户行为数据中的字段,作为实时增量数据,其中,所述预设指标为所述预设分析任务中的任务分析要求信息;
整合所述实时增量数据和预设的历史全量数据中的共同字段,将整合得到的所述共同字段,作为实时全量数据,并将所述实时全量数据存储到预设数据库中。
一种实时数据标签获取装置,所述装置包括:
实时数据接收模块,用于接收服务器后端发送的实时消息,并从所述实时消息中获取用户行为数据;
实时增量数据提取模块,用于根据预设分析任务中的预设指标,从所述用户行为数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户行为数据中的字段,作为实时增量数据,其中,所述预设指标为所述预设分析任务中的任务分析要求信息;
数据整合模块,用于整合所述实时增量数据和预设的历史全量数据中的共同字段,将整合得到的所述共同字段,作为实时全量数据,并将所述实时全量数据存储到预设数据库中。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实时数据标签获取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实时数据标签获取方法的步骤。
上述实时数据标签获取方法、装置、计算机设备和存储介质,通过将用户大数据分成历史数据与实时数据,根据预设的指标获取历史数据和实时数据的字段数据,并将获得的字段数据进行整合,作为历史数据和实时数据的索引标签,即实时全量数据,可以对存量较大数据的进行实时标签化处理的目的,通过实时全量数据进行可以对数量巨大的实时数据或历史数据进行及时处理,大大减少了处理实时数据时的滞后时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中实时数据标签获取方法的应用环境示意图;
图2为一个实施例中实时数据标签获取方法的流程示意图;
图3为另一个实施例中实时数据标签获取方法的流程示意图;
图4为另一个实施例中实时数据标签获取方法中步骤202的流程示意图;
图5为一个实施例中实时数据标签获取装置的示意图;
图6为一个实施例中计算机设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的实时数据标签获取方法,可以应用于如图1所示的应用环境中。其中,用户在客户端106的实时操作,以实时消息的形式发送到服务器后端102,服务器后端102将实时消息发送到服务端104进行处理,服务端104对服务器后端102发送的实时消息进行过滤、字段提取、与历史用户数据的字段进行整合等操作,从历史用户数据和实时用户数据中得到所需要的字段作为实时全量数据,然后将实时全量数据通过网络在客户端106上显示,便于后续的分析和查找操作。其中,客户端106和服务器后端102之间、客户端106和服务端104之间,以及服务器后端102和服务端104之间均通过网络进行连接,该网络可以是有线网络或者无线网络,客户端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器后端102以及服务端104可以用独立的服务器或者多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种实时数据标签获取方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,接收服务器后端发送的实时消息,并从实时消息中获取用户行为数据。
其中,服务器后端,即线上应用的服务器后端与用户客户端相连,用户的实时操作行为以实时消息的形式发送给线上应用的服务器后端,然后服务器后端再将实时消息发送给服务端进行处理,将用户行为数据传送到服务器后端主要是为了减少用户客户端的内存压力,存储到服务器后端也方便服务端拉取数据进行分析处理。
实时消息,是为适用消息通信,对用户行为数据进行适当处理后的数据;而用户行为数据是用户实时操作行为的数据表示,例如,在社交应用中,某用户对某帖子进行点赞、转发等操作,则该用户行为数据可以表示为:用户名+帖子编号+点赞动作/转发动作+其它用户名。
当服务端接收到服务器后端发送的实时消息时,则对接收到的实时消息进行数据处理、数据提取等操作获取实时消息中的用户行为数据。
步骤204,根据预设分析任务中的预设指标,从所述用户行为数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户行为数据中的字段,作为实时增量数据,其中,所述预设指标为所述预设分析任务中的任务分析要求信息。
其中,预设分析任务即与实际具体业务应用相关的数据分析任务,不同的具体业务所对应的预设分析任务也不尽相同。
具体地,根据预设指标获取与预设指标中的字段具有相关性的用户行为数据中的字段,得到用户行为数据中的标签,其中,相关性表示与预设指标中的字段有关联的字段,比如与预设指标中的字段“车型”相关的用户行为数据中的“SUV”或者“小轿车”字段,都是与预设指标中的字段具有相关性的字段,然后再将获得的字段作为实时增量数据。
步骤206,整合实时增量数据和预设的历史全量数据中的共同字段,将整合得到的共同字段,作为实时全量数据,并将实时全量数据存储到预设数据库中。
历史全量数据即为从非实时的用户行为数据中获取的与预设指标中的字段具有相关性的字段。
本实施例中经整合处理后得到的实时全量数据存储到预设数据库中,或者是由服务端推送到用户的客户端上,便于用户查看。本实施例中提到的实时增量数据、历史全量数据以及实时全量数据都是其对应的用户行为数据的索引标签,可以通过以上的实时增量数据、历史全量数据及实时全量数据索引到与之分别对应的用户行为数据。
本实施例通过将用户大数据分成历史数据与实时数据,然后根据预设的指标获取历史数据和实时数据的字段数据,并将获得的字段数据进行整合,作为历史数据和实时数据的索引标签,即实时全量数据,可以对存量较大数据的进行实时标签化处理的目的,通过实时全量数据进行可以对数量巨大的实时数据或历史数据进行及时处理,大大减少了处理实时数据时的滞后时间。
在一个实施例中,步骤206,还包括:
步骤206中提到的预设数据库可以采TiDB,TiDB是PingCAP公司基于GoogleSpanner/F1论文实现的开源分布式NewSQL数据库。
具体的,若历史全量数据与实时增量数据中的有共同字段,则对共同字段进行筛选,只留下一个字段作为两个或两个以上用户行为数据的标签数据;对于历史全量数据与实时增量数据中的不同字段,则将之合并到一个集合中,作为用户行为数据的标签数据,并将获取到的所有用户行为数据的标签数据作为实时全量数据;整合后的不同字段分别对应一条或一条以上用户行为数据,以供用户查看或者数据分析之用。
以车主俱乐部的应用为例,若历史全量数据中包括车主的“车型”字段,以及车主从注册到该预设分析任务之前的前一数据存储周期之间的其他相关数据,如该车型行驶的里程数、保养记录等;而实时增量数据中同样包括“车型”字段,以及从前一数据存储周期到当前时间节点之间的其他相关数据,服务端可以对实时增量数据和历史全量数据这两组数据中的所有“车型”字段合并为一个,而将不同字段作集合并集的运算,得到有关“车型”字段的实时全量数据。
服务端将实时全量数据存储到TiDB中,完成对用户数据的实时标签化处理。
具体地,服务端可以通过TiDB提供的insert写入接口进行写入操作。
进一步地,服务端可以以一定时间间隔,循环执行以上步骤,即,在完成一次将历史全量数据写入TiDB的操作之后,通过TiDB的update更新接口,将实时增量数据更新到TiDB中,使得TiDB中存储着当前最新的数据。
本实施例通过对历史全量数据以及实时增量数据中的共同字段进行整合,使得存储到预设数据库中的数据量大大减少,还通过对历史全量数据以及实时增量数据中不同字段进行并集操作,可以获取更加全面的用户行为数据的标签数据;又将实时全量数据存储到预设的数据库TIDB中,还可以节省服务端的存储空间。
在一个实施例中,如图3所示,在步骤202之前,还包括获取历史全量数据的处理过程,详述如下:
步骤302,若接收到预设分析任务,则从数据仓库中同步历史数据,得到待处理的用户历史数据。
具体地,从数据仓库中同步的历史数据是服务端接收到预设分析任务之前的用户行为数据,当服务端接收到预设分析任务后,服务端根据预设分析任务从数据仓库中同步历史数据,得到待处理的用户历史数据。
步骤304,获取预设分析任务中的预设指标,从用户历史数据中,提取与预设指标中的字段具有相关性的字段,并将提取到的用户历史数据中的字段,作为历史全量数据。
其中,预设分析任务中的预设指标是与预设分析任务中的任务的细化。
例如,若预设分析任务为“车主的车型与车主驾驶习惯的关系”,则预设指标可以为“车主的行驶里程数”、“车保养的时间间隔”、“保险出险率”等与车主驾驶习惯具有相关性的数据字段,这种数据字段即为车主的驾驶习惯标签;这些驾驶习惯标签即为获取到的历史全量数据;用户可以使用根据该历史全量数据进行数据分析,或者通过服务器后端获取历史全量数据,并得到与历史全量数据相应的用户行为数据等。
本实施通过获取预设分析任务中的预设指标,然后根据预设指标从用户历史数据中得到历史全量数据,因预设指标对预设分析任务的具体细化,所以根据预设指标获取的用户行为数据中的标签数据较为准确,避免了通过获取用户行为数据中全部标签数据带来的数据冗余的问题。
在一个实施例中,步骤304还包括:
通过Spark计算引擎创建字段提取任务,并按照字段提取任务从用户历史数据中,提取与预设指标中的字段具有相关性的字段。
其中,字段提取任务为计算引擎根据预设分析任务创建的一个数据处理任务,不同的预设分析任务会有不同的字段提取任务,一般字段提取任务是根据预设分析任务中的业务内容创建的,若业务内容为“车主的车型与驾驶习惯的关系”,则字段提取任务可以是获取用户历史数据中“车主的行驶里程数”、“车保养的时间间隔”、“保险出险率”等与车主驾驶习惯具有相关性的数据字段。
其中,Spark的全称为Apache Spark,它是专为大规模数据处理而设计的快速通用的计算引擎,同时,也是一个开源集群计算环境;Spark是通用的基于内存计算的大数据框架,由于其可以与Hadoop生态系统很好的兼容,因此,可以将Spark作为优选的计算引擎。
本实施例中,服务端是执行用户行为数据分析的服务器或者服务器集群,服务端上部署有Spark、Hadoop、Kafka、Groovy,其中Spark是大数据计算引擎;kafka是一个数据流处理平台;Groovy是一个基于Java的开发语言。通过计算引擎Spark进行指标统计处理,得到历史全量数据,即,利用了Spark的快速计算能力,对数量巨大的历史数据进行快速处理,大大提高了数据处理速率。
在一个实施例中,如图4所示,在步骤202中,还包括接收服务器后端发送的实时消息,并从实时消息中获取用户行为数据,包括:
步骤402,实时监听服务器后端发送的实时消息。
服务器后端,即线上应用的服务器后端,也可称之为线上服务端。
具体地,服务器后端与用户客户端相连,接收用户的实时行为,例如车主俱乐部的用户通过客户端修改了个人资料,则服务器后端将接收用户手机客户端的数据,然后再将获取到的实时消息发送到服务端,服务端时刻监听服务器后端发送的实时消息。
步骤404,根据预设的数据封装格式从实时消息中提取用户实时动作数据。
其中,用户实时动作数据为用户在用户客户端的实时动作数据,该实时动作数据经过数据封装后以实时消息的形式发送给服务端。
具体地,实时消息中包含对用户的实时动作数据进行封装后的数据。
步骤406,筛选与预设分析任务具有相关性的用户实时动作数据,并将筛选到的用户实时动作数据,作为用户行为数据。
具体地,从用户实时动作数据中获取与预设分析任务中的业务具有相关性的用户实时动作数据,剔除与预设分析任务中业务无关的用户实时动作数据,并将获取到的用户实时动作数据作为用户行为数据,详细地,若预设分析任务为“车主的车型与车主驾驶习惯的关系”,则获取与车型、车行驶里数等相关的用户实时动作数据。
在一个实施例中,步骤404具体可以包括:
根据kafka数据封装方式从实时消息中提取用户实时动作数据。
其中,Kafka数据封装格式是通过消息中间件kafka完成的。若消息中间件采用Kafka,则通过kafka对用户实时动作数据进行格式封装,得到实时消息。使用哪种消息中间件对用户实时动作数据进行格式封装可以由服务器后端与服务端之间事先约定。
具体地,若在服务端和服务器后端均部署消息中间件Kafka,则根据Kafka消息通信的模式,可以将服务器后端设为“生产者”,将服务端设为“消费者”,服务端随时监听来自线上服务端发送的实时消息,监听到实时消息后,则根据与线上服务端事先约定的kafka数据封装格式,将用户实时动作数据从实时消息中提取出来。
本实施例中利用了kafka消息中间件的实时通信功能,可以及时获取线上系统服务端的用户实时数据,弥补了在做实时大数据分析时,数据仓库中历史全量数据的不足的缺陷
应该理解的是,虽然图2-图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种实时数据标签获取装置,该实时数据标签获取装置与上述实施例中实时数据标签获取方法一一对应。该实时数据标签获取装置包括实时数据接收模块502、实时增量数据提取模块504和数据整合模块506,各功能模块详细说明如下:
实时数据接收模块502,用于接收服务器后端发送的实时消息,并从实时消息中获取用户行为数据。
实时增量数据提取模块504,用于根据预设分析任务中的预设指标对用户行为数据进行指标统计处理,从用户行为数据中,提取与预设指标中的字段具有相关性的字段,并将提取到的用户行为数据中的字段,作为实时增量数据,其中,预设指标为预设分析任务中的任务分析要求信息。
数据整合模块506,用于整合实时增量数据和预设的历史全量数据中的共同字段,将整合得到的共同字段,作为实时全量数据,并将实时全量数据存储到预设数据库中。
进一步地,所述装置还包括:
历史数据同步模块508,用于若接收到预设分析任务,则从数据仓库中同步历史数据,得到待处理的用户历史数据;
历史全量数据提取模块510,用于获取预设分析任务中的预设指标,从用户历史数据中,提取与预设指标中的字段具有相关性的字段,并将提取到的用户历史数据中的字段,作为历史全量数据。
进一步地,实时数据接收模块502包括:
数据监听子模块5022,用于实时监听所述服务器后端发送的实时消息。
数据封装子模块5024,用于根据预设的数据封装格式从实时消息中提取用户实时动作数据。
数据筛选子模块5026,用于筛选与预设分析任务具有相关性的用户实时动作数据,并将筛选到的用户实时动作数据,作为用户行为数据。
进一步地,数据封装子模块5024,还用于根据Kafka数据封装格式从实时消息提取用户实时动作数据。
进一步地,历史全量数据提取模块510还用于通过Spark计算引擎创建字段提取任务,并按照字段提取任务从用户历史数据中,提取与预设指标中的字段具有相关性的字段。
上述实时数据标签获取装置中通过将用户大数据分成历史数据与实时数据,然后根据预设的指标获取历史数据和实时数据的字段数据,并将获得的字段数据进行整合,作为历史数据和实时数据的索引标签,即实时全量数据,可以对存量较大数据的进行实时标签化处理的目的,通过实时全量数据进行可以对数量巨大的实时数据或历史数据进行及时处理,大大减少了处理实时数据时的滞后时间。
关于实时数据标签获取装置的具体限定可以参见上文中对于实时数据标签获取方法的限定,在此不再赘述。上述实时数据标签获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储获取的用户行为数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实时数据标签获取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中实时数据标签获取方法的步骤,例如图2所示的步骤202至步骤206,或者,处理器执行计算机程序时实现上述实施例中实时数据标签获取装置的各模块/单元的功能,例如图5所示模块502至模块510的功能。为避免重复,此处不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中实时数据标签获取方法的步骤,例如图2所示的步骤202至步骤206,或者,处理器执行计算机程序时实现上述实施例中实时数据标签获取装置的各模块/单元的功能,例如图5所示模块502至模块510的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种实时数据标签获取方法,其特征在于,所述方法包括:
接收服务器后端发送的实时消息,并从所述实时消息中获取用户行为数据;
根据预设分析任务中的预设指标,从所述用户行为数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户行为数据中的字段,作为实时增量数据,其中,所述预设指标为所述预设分析任务中的任务分析要求信息;
整合所述实时增量数据和预设的历史全量数据中的共同字段,将整合得到的所述共同字段,作为实时全量数据,并将所述实时全量数据存储到预设数据库中。
2.根据权利要求1所述的方法,其特征在于,在所述接收服务器后端发送的实时消息,并从所述实时消息中提取用户行为数据之前,所述方法还包括:
若接收到所述预设分析任务,则从数据仓库中同步历史数据,得到待处理的用户历史数据;
获取所述预设分析任务中的所述预设指标,从所述用户历史数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户历史数据中的字段,作为历史全量数据。
3.根据权利要求2所述的方法,其特征在于,所述从所述用户历史数据中,提取与所述预设指标中的字段具有相关性的字段包括:
通过Spark计算引擎创建字段提取任务,并按照所述字段提取任务从所述用户历史数据中,提取与所述预设指标中的字段具有相关性的字段。
4.根据权利要求1所述的方法,其特征在于,所述接收服务器后端发送的实时消息,并从所述实时消息中获取用户行为数据包括:
实时监听所述服务器后端发送的实时消息;
根据预设的数据封装格式从所述实时消息中提取用户实时动作数据;
筛选与所述预设分析任务具有相关性的用户实时动作数据,并将筛选到的用户实时动作数据,作为用户行为数据。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的数据封装格式从所述实时消息中提取用户实时动作数据包括:
根据Kafka数据封装格式从所述实时消息提取用户实时动作数据。
6.一种实时数据标签获取装置,其特征在于,所述装置包括:
实时数据接收模块,用于接收服务器后端发送的实时消息,并从所述实时消息中获取用户行为数据;
实时增量数据提取模块,用于根据预设分析任务中的预设指标对所述用户行为数据进行指标统计处理,从所述用户行为数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户行为数据中的字段,作为实时增量数据,其中,所述预设指标为所述预设分析任务中的任务分析要求信息;
数据整合模块,用于整合所述实时增量数据和预设的历史全量数据中的共同字段,将整合得到的所述共同字段,作为实时全量数据,并将所述实时全量数据存储到预设数据库中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
历史数据同步模块,用于若接收到所述预设分析任务,则从数据仓库中同步历史数据,得到待处理的用户历史数据;
历史全量数据提取模块,用于获取所述预设分析任务中的所述预设指标,从所述用户历史数据中,提取与所述预设指标中的字段具有相关性的字段,并将提取到的所述用户历史数据中的字段,作为历史全量数据。
8.根据权利要求6所述的装置,其特征在于,所述实时数据接收模块包括:
数据监听子模块,用于实时监听所述服务器后端发送的实时消息;
数据封装子模块,用于根据预设的数据封装格式从所述实时消息中提取用户实时动作数据;
数据筛选子模块,用于筛选与所述预设分析任务具有相关性的用户实时动作数据,并将筛选到的用户实时动作数据,作为用户行为数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910923962.7A CN110825820B (zh) | 2019-09-27 | 2019-09-27 | 实时数据标签获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910923962.7A CN110825820B (zh) | 2019-09-27 | 2019-09-27 | 实时数据标签获取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825820A true CN110825820A (zh) | 2020-02-21 |
CN110825820B CN110825820B (zh) | 2024-09-13 |
Family
ID=69548320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910923962.7A Active CN110825820B (zh) | 2019-09-27 | 2019-09-27 | 实时数据标签获取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825820B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256523A (zh) * | 2020-09-23 | 2021-01-22 | 贝壳技术有限公司 | 业务数据处理方法及装置 |
CN112799957A (zh) * | 2021-02-20 | 2021-05-14 | 携程旅游网络技术(上海)有限公司 | 基于用户行为的故障处理方法、系统、设备和介质 |
CN113297288A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 用户的实时标签生成方法、装置及电子设备 |
CN113326439A (zh) * | 2021-06-30 | 2021-08-31 | 武汉虹旭信息技术有限责任公司 | 用户行为数据分析方法及装置 |
CN113535856A (zh) * | 2021-07-29 | 2021-10-22 | 上海哔哩哔哩科技有限公司 | 数据同步方法及系统 |
CN113705903A (zh) * | 2021-08-31 | 2021-11-26 | 重庆市凤筑科技有限公司 | 基于城市公共交通综合模型的od推导方法 |
CN114253951A (zh) * | 2020-09-21 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、系统及第二服务器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090084091A (ko) * | 2008-01-31 | 2009-08-05 | 삼성전자주식회사 | 복수의 데이터 통신장치들 간의 데이터 동기 방법 |
CN104090889A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 数据处理方法及系统 |
WO2018130066A1 (zh) * | 2017-01-11 | 2018-07-19 | 腾讯科技(深圳)有限公司 | 数据的迁移方法、计算机设备和存储介质 |
CN108629029A (zh) * | 2018-05-09 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 一种应用于数据仓库的数据处理方法和装置 |
CN109325036A (zh) * | 2018-07-25 | 2019-02-12 | 浙江精功机器人智能装备有限公司 | 一种实现实时数据同步的系统及方法 |
CN109753531A (zh) * | 2018-12-26 | 2019-05-14 | 深圳市麦谷科技有限公司 | 一种大数据统计方法、系统、计算机设备及存储介质 |
-
2019
- 2019-09-27 CN CN201910923962.7A patent/CN110825820B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090084091A (ko) * | 2008-01-31 | 2009-08-05 | 삼성전자주식회사 | 복수의 데이터 통신장치들 간의 데이터 동기 방법 |
CN104090889A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 数据处理方法及系统 |
WO2018130066A1 (zh) * | 2017-01-11 | 2018-07-19 | 腾讯科技(深圳)有限公司 | 数据的迁移方法、计算机设备和存储介质 |
CN108629029A (zh) * | 2018-05-09 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 一种应用于数据仓库的数据处理方法和装置 |
CN109325036A (zh) * | 2018-07-25 | 2019-02-12 | 浙江精功机器人智能装备有限公司 | 一种实现实时数据同步的系统及方法 |
CN109753531A (zh) * | 2018-12-26 | 2019-05-14 | 深圳市麦谷科技有限公司 | 一种大数据统计方法、系统、计算机设备及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114253951A (zh) * | 2020-09-21 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、系统及第二服务器 |
CN114253951B (zh) * | 2020-09-21 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 数据处理方法、系统及第二服务器 |
CN112256523A (zh) * | 2020-09-23 | 2021-01-22 | 贝壳技术有限公司 | 业务数据处理方法及装置 |
CN112256523B (zh) * | 2020-09-23 | 2023-01-06 | 贝壳技术有限公司 | 业务数据处理方法及装置 |
CN112799957A (zh) * | 2021-02-20 | 2021-05-14 | 携程旅游网络技术(上海)有限公司 | 基于用户行为的故障处理方法、系统、设备和介质 |
CN113297288A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 用户的实时标签生成方法、装置及电子设备 |
CN113326439A (zh) * | 2021-06-30 | 2021-08-31 | 武汉虹旭信息技术有限责任公司 | 用户行为数据分析方法及装置 |
CN113535856A (zh) * | 2021-07-29 | 2021-10-22 | 上海哔哩哔哩科技有限公司 | 数据同步方法及系统 |
CN113535856B (zh) * | 2021-07-29 | 2022-11-04 | 上海哔哩哔哩科技有限公司 | 数据同步方法及系统 |
CN113705903A (zh) * | 2021-08-31 | 2021-11-26 | 重庆市凤筑科技有限公司 | 基于城市公共交通综合模型的od推导方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110825820B (zh) | 2024-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825820B (zh) | 实时数据标签获取方法、装置、计算机设备和存储介质 | |
CN111768008B (zh) | 联邦学习方法、装置、设备和存储介质 | |
CN112910945B (zh) | 请求链路跟踪方法和业务请求处理方法 | |
CN109885624B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN109344170B (zh) | 流数据处理方法、系统、电子设备及可读存储介质 | |
CN111400361B (zh) | 数据实时存储方法、装置、计算机设备和存储介质 | |
US11809406B2 (en) | Event records in a log file | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN108933994B (zh) | 短信分发处理方法、装置、计算机设备和存储介质 | |
CN109325010B (zh) | 日志查看方法、装置、计算机设备和存储介质 | |
CN110750414B (zh) | 移动数据监控分析方法、装置、计算机设备和存储介质 | |
CN110717647A (zh) | 决策流构建方法、装置、计算机设备和存储介质 | |
CN111666298A (zh) | 基于flink的用户服务类别检测方法、装置、计算机设备 | |
CN112182043A (zh) | 日志数据查询方法、装置、设备及存储介质 | |
CN114356692A (zh) | 一种应用监控链路的可视化处理方法、装置及存储介质 | |
CN110275703B (zh) | 键值对数据的赋值方法、装置、计算机设备和存储介质 | |
CN107871055B (zh) | 一种数据分析方法和装置 | |
CN106777265B (zh) | 一种业务数据的处理方法及装置 | |
CN105338107A (zh) | 一种据点运营同步管理系统及方法 | |
CN113468196B (zh) | 用于处理数据的方法、装置、系统、服务器和介质 | |
CN114090589A (zh) | 基于HBase的数据查询方法、装置和计算机设备 | |
CN110716916A (zh) | 资源在线管理方法、装置、计算机设备和存储介质 | |
CN111046077A (zh) | 数据的获取方法及装置、存储介质、终端 | |
CN115409345A (zh) | 业务指标计算方法、装置、计算机设备和存储介质 | |
CN115664992A (zh) | 网络运行数据的处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |