CN111913996B - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111913996B
CN111913996B CN202010672810.7A CN202010672810A CN111913996B CN 111913996 B CN111913996 B CN 111913996B CN 202010672810 A CN202010672810 A CN 202010672810A CN 111913996 B CN111913996 B CN 111913996B
Authority
CN
China
Prior art keywords
user
signaling data
activity
data
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010672810.7A
Other languages
English (en)
Other versions
CN111913996A (zh
Inventor
王志军
翟立柱
王佩佩
戴智
刘鑫
陈执政
李季
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Unicom System Integration Ltd Corp
China Unicom Heilongjiang Industrial Internet Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
China Unicom System Integration Ltd Corp
China Unicom Heilongjiang Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Unicom System Integration Ltd Corp, China Unicom Heilongjiang Industrial Internet Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202010672810.7A priority Critical patent/CN111913996B/zh
Publication of CN111913996A publication Critical patent/CN111913996A/zh
Application granted granted Critical
Publication of CN111913996B publication Critical patent/CN111913996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供一种数据处理方法、装置、设备及存储介质,该方法包括:响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;将所述活动文本内容推送至所述目标用户使用的终端。本申请实施例提供的方法能够克服现有技术无法快速有效地处理数据,进而无法有效地为用户提供更好的服务的问题。

Description

数据处理方法、装置、设备及存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
在大数据时代,数据作为信息的载体蕴含着大量的价值,是最重要的生产资料之一,因此,通过存储数据并挖掘信息的价值就变得越来越重要。
目前,传统的Redis(Redis是一个高性能的key-value数据库)或者Hbase(Hbase是一个分布式的、面向列的开源数据库)都是用于存储数据。Redis支持存储的value类型相对更多,且Redis读写一般是读一条写一条;Hbase是一个适合于非结构化数据存储的数据库,可以在Hbase上运行批处理运算。
但是,针对Redis,对于数据处理比较耗费服务器资源,并且读写会产生延迟;针对Hbase,对于大批量高频次的数据读写入效率比较低,并且不适合大范围扫描查询,因此,现有技术无法快速有效地处理数据,进而无法有效地为用户提供更好的服务。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,以克服现有技术无法快速有效地处理数据,进而无法有效地为用户提供更好的服务的问题。
第一方面,本申请实施例提供一种数据处理方法,包括:
响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;
从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;
针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;
将所述活动文本内容推送至所述目标用户使用的终端。
在一种可能的设计中,所述根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,所述筛选方式包括动态比对方式、静态比对方式或动态与静态结合的比对方式;
根据所述筛选方式,对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户。
在一种可能的设计中,所述活动规则包括:驻留时长判断条件和/或用户属性标签判断条件;所述根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,包括:
若所述活动规则中包括驻留时长判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态比对方式;
若所述活动规则中包括用户属性标签判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为静态比对方式;
若所述活动规则中包括驻留时长判断条件和用户属性标签判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态与静态结合的比对方式。
在一种可能的设计中,若所述筛选方式为动态比对方式,所述通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据;
对所述第一信令数据对应的用户进行免打扰筛选,得到允许推送所述活动文本内容的第一用户;
将所述第一用户与所述驻留时长之后预设时间段的信令数据的用户进行比对,通过对重复的用户进行过滤,得到所述驻留时长之后预设时间段对应的待确定允许推送所述活动文本内容的第二用户;
对所述第二用户进行免打扰筛选,得到第三用户;
将所述第一用户和第三用户作为所述目标用户。
在一种可能的设计中,若所述筛选方式为静态比对方式,所述通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
获取历史信令数据,所述历史信令数据存储在HDFS中;
通过Spark框架从所述至少一个用户的信令数据中确定符合所述用户属性标签判断条件的第二信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项;
将所述第二信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第四用户;
对所述第四用户进行免打扰筛选,得到所述目标用户。
在一种可能的设计中,若所述筛选方式为动态与静态结合的比对方式,所述通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据;
对所述第一信令数据对应的用户进行免打扰筛选,得到待确定允许推送所述活动文本内容的第五用户;
获取历史信令数据,所述历史信令数据存储在HDFS中;
通过Spark框架从所述第五用户的信令数据中确定符合所述用户属性标签判断条件的第三信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项;
将所述第三信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第六用户;
对所述第六用户进行免打扰筛选,得到所述目标用户。
在一种可能的设计中,所述活动文本内容为至少一条业务信息;所述将所述活动文本内容推送至所述目标用户使用的终端,包括:
根据所述目标用户的属性标签,从所述至少一条业务信息中确定与所述目标用户匹配的目标业务信息;
将所述目标业务信息发送至所述目标用户使用的终端。
第二方面,本申请实施例提供一种数据处理装置,包括:
活动信息获取模块,用于响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;
实时流数据获取模块,用于从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;
数据处理模块,用于针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;
信息发送模块,用于将所述活动文本内容推送至所述目标用户使用的终端。
第三方面,本申请实施例提供一种数据处理设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面及第一方面可能的设计所述的数据处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面及第一方面可能的设计所述的数据处理方法。
本实施例提供的数据处理方法、装置、设备及存储介质,首先响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;将所述活动文本内容推送至所述目标用户使用的终端。通过Kafka分布式消息队列组件来实现流式读取文件系统数据与Spark框架实时数据流的可扩展(Scalable)、高吞吐(High-throughput)、容错(Fault-tolerant)的流处理,组合优化使用,提升了处理速度、效率高并且节约资源,实现了快速有效地数据处理过程,进而能够有效地为用户提供更好的服务。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的场景示意图;
图2为本申请实施例提供的数据处理方法的流程示意图;
图3为本申请另一实施例提供的数据处理方法的流程示意图;
图4为本申请又一实施例提供的数据处理方法的流程示意图;
图5为本申请实施例提供的数据处理装置的结构示意图;
图6为本申请实施例提供的数据处理设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,传统的Redis或者Hbase都是用于存储数据。Redis读写般是读一条写一条,这就不可避免造成数据处理延迟,无法线性提升处理能力,存储速度慢、耗费资源大;Hbase对于大批量高频次的数据读写入效率低、耗费资源大。因此,现有技术无法快速有效地处理数据,进而无法有效地为用户提供更好的服务。
为了解决上述问题,本申请的技术构思为:首先把大规模数据存储在HDFS里面,当使用时,使用Spark(Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等)框架设计的spark-streaming模型实时进行原则性读取,从而提升耗资源少速度快、效率高,更节约资源等性能,并通过Kafka(Kafka是一种高吞吐量的分布式发布订阅消息系统)分布式消息队列组件来实现流式读取文件系统数据与spark-streaming实时数据流的可扩展、高吞吐、容错的流处理,组合优化使用,能够快速有效地处理数据,解决了多并发、多进程造成死锁影响断流等问题,进而能够有效地为用户提供更好的服务。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参考图1,图1为本申请实施例提供的数据处理方法的场景示意图。图1中的服务器10可以包括多个模块,比如活动创建模块、位置筛选模块、标签过滤模块以及短信发送模块。其中,活动创建模块主要是前端应用层,用于创建活动,指定活动发送地点、人群及出发条件,规范发送短信话术及发送量等活动信息。位置筛选模块:筛选指定地区的实时流数据,并分析用户的职住居住地、驻留时常,将符合要求的数据推送给标签过滤模块进行下一步筛选。标签过滤模块:接收位置筛选模块筛选来的流数据,对该流数据进行进一步的年龄、性别等进一步的标签信息过滤,根据活动执行周期判断对该用户指定时间内是否已经发过短信,将发过短信的用户过滤,最后将符合活动规则且没有发送过短信的用户数据信息推送给下行短信发送模块。短信发送模块:获取标签过滤模块筛选好的流数据,根据对应活动的话术、发送量,发送短信至对应的用户的终端20,判断活动的发送状态并修改活动状态。
具体地,活动创建模块:由一个java web程序组成,该程序永久启动,用于提供接口创建活动,指定及展示活动详细信息。位置筛选模块:由两个程序组成,地域筛选程序和驻留时长判断程序,两者都是spark-streaming程序,永久运行于yarn上。
在实际应用中,针对地域筛选程序,根据活动地域信息筛选指定地域的数据,如果活动有驻留时常要求,则筛选后的数据推给驻留时长判断程序;如果活动没有驻留时长要求则筛选后的数据直接推给下行标签筛选模块。驻留时常判断程序,判断指定时间窗口内的数据,时间差是否大于指定时长,若大于,则推送给下行标签筛选模块。
标签筛选模块:由标签筛选主程序、调度程序、历史数据整理程序、垃圾数据回收程序四个程序组成。标签筛选主程序是spark-streaming程序,永久启动,对实时流数据进行标签的过滤、黑白名单过滤及历史数据去重。调度程序,java程序,永久启动,用于根据活动状态启动和停止标签筛选主程序。历史数据整理程序,java程序,定时启动,对以往产生的历史数据进行碎文件合并及移动。垃圾数据回收,java程序,定时启动,清除失效的历史发送数据。
短信发送模块:由一个java程序组成,该程序永久运行,发送短信并判断活动下发情况,实时更新活动下发信息及活动状态。
因此,本申请可以通过Kafka分布式消息队列组件来实现流式读取文件系统数据与spark-streaming实时数据流的可扩展、高吞吐、容错的流处理,组合优化使用,可以先把大规模数据存储在HDFS里面,当使用时,我们使用spark-streaming实时进行原则性读取,从而提升耗资源少速度快、效率高,更节约资源等性能,同时解决了多并发、多进程造成死锁影响断流等问题,实现了快速有效地数据处理过程,进而能够有效地为用户提供更好的服务。
具体地,如何实现对数据处理的,参见图2所示,图2为本申请实施例提供的数据处理方法的流程示意图。
参见图2,所述数据处理方法,包括:
S201、响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容。
本实施例中,该方法的执行主体可以是服务器。首先在服务器中配置活动事件,配置完成后,生成用于指示向用户推送消息的触发指令,服务器根据活动事件,生成活动信息。这里的活动信息包括活动规则和活动文本内容。活动文本内容可以表示活动的话术,活动规则可以包括发送地点、发送人群及出发条件(即发送或推送条件)、规范发送短信话术及发送量等。通过活动规则,基于高吞吐量的分布式发布订阅消息系统Kafka(即Kafka分布式消息队列组件)和Spark框架结合使用,对实时流数据进行处理。
S202、从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据。
本实施例中,在处理地址围栏时信令数据时处理过程中,使用Kafka分布式消息队列组件来实现流式读取文件系统数据,这里数据可以是用户的信令数据。实时流数据是分省份的,使用Spark框架独立处理机制与Kafka分布式消息队列来实现流式读取文件系统组合优化使用,每个省都独立处理大规模数据,同时进行,防止全国数据一起处理时某一个省数据出现问题,导致全国数据断流,解决了多并发、多进程造成死锁影响断流等问题。
S203、针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户。
S204、将所述活动文本内容推送至所述目标用户使用的终端。
本实施例中,针对每个省份,可以同步进行相同的数据处理过程。以一个省份A为例,可以根据具体的活动规则,通过Spark框架对该省份的实时流数据进行大量重复数据做滤重处理、数据标签比对环节等处理,最后确定可以被推送活动文本内容的目标用户。
在一种可能的设计中,活动文本内容为至少一条业务信息,为了提高用户体验,为用户提供准确地服务,可以从至少一条业务信息中选取更适合目标用户的业务信息。本实施例在上述实施例的基础上,对如何向目标用户使用的终端推送对应的活动文本内容进行了详细说明,所述将所述活动文本内容推送至所述目标用户使用的终端,可以包括以下步骤实现:
步骤a1、根据所述目标用户的属性标签,从所述至少一条业务信息中确定与所述目标用户匹配的目标业务信息。
步骤a2、将所述目标业务信息发送至所述目标用户使用的终端。
本实施例中,属性标签可以包括年龄、性别、当前使用的业务数据、常用软件等,根据所述目标用户的属性标签,从所述至少一条业务信息中确定符合目标用户的属性标签对应的目标业务信息,即为与所述目标用户匹配的目标业务信息,然后将该目标业务信息发送至所述目标用户使用的终端,能够准确地为用户提供有效地服务,使得用户有较好地体验。
本实施例提供的数据处理方法,通过响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;将所述活动文本内容推送至所述目标用户使用的终端。通过Kafka来实现流式读取文件系统数据与Spark框架实时数据流的可扩展、高吞吐、容错的流处理,组合优化使用,提升了处理速度、效率高并且节约资源,实现了快速有效地数据处理过程,能够挖掘信息的价值,进而准确有效地为用户提供更好的服务。
参见图3,图3为本申请另一实施例提供的数据处理方法的流程示意图,本实施例在上述实施例的基础上,例如,图2所述的实施例的基础上,对S203进行了详细说明。所述根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,可以包括:
S301、根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,所述筛选方式包括动态比对方式、静态比对方式或动态与静态结合的比对方式。
S302、根据所述筛选方式,对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户。
本实施例中,活动规定的不同,对实时流数据的处理方式不同即去重过滤、属性标签过虑等筛选方式不同。其中,这里的筛选方式可以表示为比对方式,比如动态比对方式、静态比对方式或动态与静态结合的比对方式。根据具体的比对方式,对至少一个用户的信令数据进行筛选,查找出允许推送该活动文本内容的目标信令数据以及目标信令数据对应的目标用户。
其中,活动规则可以包括:驻留时长判断条件、用户属性标签判断条件。
具体地,参见图4,图4为本申请又一实施例提供的数据处理方法的流程示意图,本实施例在上述实施例的基础上,对S301进行了详细说明。根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,可以包括:
S401、若所述活动规则中包括驻留时长判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态比对方式。
本实施例中,判断活动规则中是否有驻留时长要求,如果活动规则中有驻留时长要求即存在驻留时长判断条件,则说明对实时流数据的筛选方式为动态比对方式。具体地,首先根据活动地域信息(活动地点)筛选指定地域的数据,将通过筛选后的数据进行驻留时长判断;如果活动规则中没有驻留时长要求,则筛选后的数据直接推给下行标签筛选模块即进行属性标签筛选。
具体地,若所述筛选方式为动态比对方式,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,可以通过以下步骤实现:
步骤b1、根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据。
步骤b2、对所述第一信令数据对应的用户进行免打扰筛选,得到允许推送所述活动文本内容的第一用户。
步骤b3、将所述第一用户与所述驻留时长之后预设时间段的信令数据的用户进行比对,通过对重复的用户进行过滤,得到所述驻留时长之后预设时间段对应的待确定允许推送所述活动文本内容的第二用户。
步骤b4、对所述第二用户进行免打扰筛选,得到第三用户;
步骤b5、将所述第一用户和第三用户作为所述目标用户。
本实施例中,驻留时长判断条件中包括驻留时长即驻留时间达到驻留时长的用户为有效用户,即判断指定时间窗口内的数据,时间差是否大于指定时长,若大于,则对用户进一步免打扰筛查,得到允许推送所述活动文本内容的用户即第一用户。
具体地,继续获取驻留时长之后预设时间段的信令数据,将所述第一用户与所述驻留时长之后预设时间段的信令数据的用户进行比对,将重复的用户进行过滤,得到驻留时长之后预设时间段对应的待确定允许推送所述活动文本内容的用户即第二用户,继续对所述第二用户进行免打扰筛选,得到第三用户。这里的第一用户和第三用户均为允许推送所述活动文本内容的目标用户。
S402、若所述活动规则中包括用户属性标签判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为静态比对方式。
本实施例中,判断活动规则中是否有属性标签筛查要求,如果活动规则中有属性标签筛查要求即存在属性标签判断条件,则说明对实时流数据的筛选方式为静态比对方式。具体地,首先根据活动地域信息(活动地点)筛选指定地域的数据,将通过筛选后的数据进行属性标签判断;如果活动规则中没有属性标签筛查要求,则直接对筛选后的数据进行免打扰筛选。
具体地,若所述筛选方式为静态比对方式,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,可以包括以下步骤:
步骤c1、获取历史信令数据,所述历史信令数据存储在HDFS中。
本实施例中,把大规模数据存储在HDFS里面,当使用历史数据(即历史信令数据)时,通过使用spark-streaming实时进行原则性读取,从而提升耗资源少速度快、效率高,更节约资源等性能。
步骤c2、通过Spark框架从所述至少一个用户的信令数据中确定符合所述用户属性标签判断条件的第二信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项。
步骤c3、将所述第二信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第四用户。
步骤c4、对所述第四用户进行免打扰筛选,得到所述目标用户。
本实施例中,接收通过活动地点筛选来的流数据,对该流数据进行进一步的年龄、性别等进一步的标签信息过滤,根据活动执行周期判断对该流数据对应的用户的终端在指定时间内是否已经发过短信,将发过短信的用户的终端过滤,最后将符合活动规则且没有发送过短信的用户进行短信发送。
S403、若所述活动规则中包括驻留时长判断条件和用户属性标签判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态与静态结合的比对方式。
本实施例中,判断活动规则中是否既有驻留时长要求又有属性标签筛查要求,如果活动规则中既有驻留时长要求又有属性标签筛查要求,则说明对实时流数据的筛选方式为动态与静态结合的比对方式。具体地,首先根据活动地域信息(活动地点)筛选指定地域的数据,将通过筛选后的数据进行驻留时长判断;将筛选后的数据直接推给下行标签筛选模块即进行属性标签筛选。
本实施例中,驻留时长判断条件中包括驻留时长即驻留时间达到驻留时长的用户为有效用户,即判断指定时间窗口内的数据,时间差是否大于指定时长,若大于,则对用户进一步免打扰筛查,得到待允许推送所述活动文本内容的用户即第五用户。具体地,从HDFS中获取历史信令数据,对该第五用户对应的流数据进行进一步的年龄、性别等进一步的标签信息过滤,通过与历史信令数据比对,根据活动执行周期判断对该流数据对应的用户的终端在指定时间内是否已经发过短信,将发过短信的用户的终端过滤,最后将符合活动规则且没有发送过短信的用户进行短信发送,将重复的用户进行过滤,得到驻留时长之后预设时间段对应的待确定允许推送所述活动文本内容的用户即第六用户,继续对所述第六用户进行免打扰筛选,得到允许推送所述活动文本内容的目标用户。
因此,通过上述方法解决了在处理地址围栏时信令数据时处理过程中存在的问题:机器资源耗费较高、大批量数据比对过程中I/O开销严重、数据断流预警和排查不及时等问题。
具体地,针对于Hbase对于频繁的大批量的数据读写入效率比较低、不适合于大范围扫描查询等问题,通过Kafka分布式消息队列组件来实现流式读取文件系统数据与spark-streaming实时数据流的可扩展、高吞吐、容错的流处理,组合优化使用。针对于Redis对于历史数据处理比较耗费服务器资源、读写造成延迟的问题。通过把大规模数据存储在HDFS里面,当使用时,通过使用spark-streaming实时进行原则性读取,从而提升耗资源少速度快、效率高,更节约资源等性能。针对于多进程断流等问题,通过Spark框架独立处理机制与Kafka分布式消息队列来实现流式读取文件系统组合优化使用。例如:每个省都独立处理大规模数据,同时进行,防止全量数据一起处理时某一个省数据出现问题,导致全量数据断流,解决了多并发、多进程造成死锁影响断流等问题,实现了快速有效地数据处理过程,进而能够有效地为用户提供更好的服务。
为了实现所述数据处理方法,本实施例提供了一种数据处理装置。参见图5,图5为本申请实施例提供的数据处理装置的结构示意图;所述数据处理装置50,包括:活动信息获取模块501、实时流数据获取模块502、数据处理模块503以及信息发送模块504;活动信息获取模块501,用于响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;实时流数据获取模块502,用于从Kafka中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;数据处理模块503,用于针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;信息发送模块504,用于将所述活动文本内容推送至所述目标用户使用的终端。
本实施例通过设置活动信息获取模块501、实时流数据获取模块502、数据处理模块503以及信息发送模块504,用于响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;从Kafka中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;将所述活动文本内容推送至所述目标用户使用的终端。通过Kafka来实现流式读取文件系统数据与Spark框架实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理,组合优化使用,提升了处理速度、效率高并且节约资源,实现了快速有效地数据处理过程,进而能够有效地为用户提供更好的服务。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的设计中,所述根据所述活动规则和所述活动文本内容,数据处理模块,具体用于:根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,所述筛选方式包括动态比对方式、静态比对方式或动态与静态结合的比对方式;根据所述筛选方式,对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户。
在一种可能的设计中,所述活动规则包括:驻留时长判断条件和/或用户属性标签判断条件;数据处理模块,具体用于:在所述活动规则中包括驻留时长判断条件时,确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态比对方式;在所述活动规则中包括用户属性标签判断条件时,确定对所述至少一个用户的信令数据进行筛选的筛选方式为静态比对方式;在所述活动规则中包括驻留时长判断条件和用户属性标签判断条件时,确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态与静态结合的比对方式。
在一种可能的设计中,数据处理模块,还具体用于:在所述筛选方式为动态比对方式时,根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据;对所述第一信令数据对应的用户进行免打扰筛选,得到允许推送所述活动文本内容的第一用户;将所述第一用户与所述驻留时长之后预设时间段的信令数据的用户进行比对,通过对重复的用户进行过滤,得到所述驻留时长之后预设时间段对应的待确定允许推送所述活动文本内容的第二用户;对所述第二用户进行免打扰筛选,得到第三用户;将所述第一用户和第三用户作为所述目标用户。
在一种可能的设计中,数据处理模块,还具体用于:在所述筛选方式为静态比对方式时,获取历史信令数据,所述历史信令数据存储在HDFS中;通过Spark框架从所述至少一个用户的信令数据中确定符合所述用户属性标签判断条件的第二信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项;将所述第二信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第四用户;对所述第四用户进行免打扰筛选,得到所述目标用户。
在一种可能的设计中,数据处理模块,还具体用于:在所述筛选方式为动态与静态结合的比对方式时,根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据;对所述第一信令数据对应的用户进行免打扰筛选,得到待确定允许推送所述活动文本内容的第五用户;获取历史信令数据,所述历史信令数据存储在HDFS中;通过Spark框架从所述第五用户的信令数据中确定符合所述用户属性标签判断条件的第三信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项;将所述第三信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第六用户;对所述第六用户进行免打扰筛选,得到所述目标用户。
在一种可能的设计中,所述活动文本内容为至少一条业务信息;信息发送模块,具体用于:根据所述目标用户的属性标签,从所述至少一条业务信息中确定与所述目标用户匹配的目标业务信息;将所述目标业务信息发送至所述目标用户使用的终端。
为了实现所述数据处理方法,本实施例提供了一种数据处理设备。图6为本申请实施例提供的数据处理设备的结构示意图。如图6所示,本实施例的数据处理设备60包括:处理器601以及存储器602;其中,存储器602,用于存储计算机执行指令;处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中所执行的各个步骤。具体可以参见上述方法实施例中的相关描述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上述的数据处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponent,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;
从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;
针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;
将所述活动文本内容推送至所述目标用户使用的终端。
2.根据权利要求1所述的方法,其特征在于,所述根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,所述筛选方式包括动态比对方式、静态比对方式或动态与静态结合的比对方式;
根据所述筛选方式,对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;
所述活动规则包括:驻留时长判断条件和/或用户属性标签判断条件;
所述根据所述活动规则,确定对所述至少一个用户的信令数据进行筛选的筛选方式,包括:
若所述活动规则中包括驻留时长判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态比对方式;
若所述活动规则中包括用户属性标签判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为静态比对方式;
若所述活动规则中包括驻留时长判断条件和用户属性标签判断条件,则确定对所述至少一个用户的信令数据进行筛选的筛选方式为动态与静态结合的比对方式。
3.根据权利要求2所述的方法,其特征在于,若所述筛选方式为动态比对方式,所述通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据;
对所述第一信令数据对应的用户进行免打扰筛选,得到允许推送所述活动文本内容的第一用户;
将所述第一用户与所述驻留时长之后预设时间段的信令数据的用户进行比对,通过对重复的用户进行过滤,得到所述驻留时长之后预设时间段对应的待确定允许推送所述活动文本内容的第二用户;
对所述第二用户进行免打扰筛选,得到第三用户;
将所述第一用户和第三用户作为所述目标用户。
4.根据权利要求2所述的方法,其特征在于,若所述筛选方式为静态比对方式,所述通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
获取历史信令数据,所述历史信令数据存储在HDFS中;
通过Spark框架从所述至少一个用户的信令数据中确定符合所述用户属性标签判断条件的第二信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项;
将所述第二信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第四用户;
对所述第四用户进行免打扰筛选,得到所述目标用户。
5.根据权利要求2所述的方法,其特征在于,若所述筛选方式为动态与静态结合的比对方式,所述通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户,包括:
根据所述动态比对方式对应的驻留时长判断条件中的驻留时长,通过Spark框架从所述至少一个用户的信令数据查找大于或等于所述驻留时长的第一信令数据;
对所述第一信令数据对应的用户进行免打扰筛选,得到待确定允许推送所述活动文本内容的第五用户;
获取历史信令数据,所述历史信令数据存储在HDFS中;
通过Spark框架从所述第五用户的信令数据中确定符合所述用户属性标签判断条件的第三信令数据,所述用户属性标签判断条件包括用户年龄、用户使用业务、用户居住地、用户性别中的至少一项;
将所述第三信令数据对应的用户与所述历史信令数据对应的用户进行比对,通过对重复的用户进行过滤,得到待确定允许推送所述活动文本内容的第六用户;
对所述第六用户进行免打扰筛选,得到所述目标用户。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述活动文本内容为至少一条业务信息;所述将所述活动文本内容推送至所述目标用户使用的终端,包括:
根据所述目标用户的属性标签,从所述至少一条业务信息中确定与所述目标用户匹配的目标业务信息;
将所述目标业务信息发送至所述目标用户使用的终端。
7.一种数据处理装置,其特征在于,包括:
活动信息获取模块,用于响应于用于指示向用户推送消息的触发指令,获取活动信息,所述活动信息包括活动规则和活动文本内容;
实时流数据获取模块,用于从Kafka队列中获取各个省份的实时流数据,所述实时流数据包括至少一个用户的信令数据;
数据处理模块,用于针对各个所述省份,根据所述活动规则和所述活动文本内容,通过Spark框架对所述至少一个用户的信令数据进行筛选,确定允许推送所述活动文本内容的目标信令数据对应的目标用户;
信息发送模块,用于将所述活动文本内容推送至所述目标用户使用的终端。
8.一种数据处理设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-6任一项所述的数据处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-6任一项所述的数据处理方法。
CN202010672810.7A 2020-07-14 2020-07-14 数据处理方法、装置、设备及存储介质 Active CN111913996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010672810.7A CN111913996B (zh) 2020-07-14 2020-07-14 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010672810.7A CN111913996B (zh) 2020-07-14 2020-07-14 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111913996A CN111913996A (zh) 2020-11-10
CN111913996B true CN111913996B (zh) 2023-07-18

Family

ID=73279992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010672810.7A Active CN111913996B (zh) 2020-07-14 2020-07-14 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111913996B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666753B (zh) * 2020-12-04 2023-08-15 中国移动通信集团广东有限公司 信令流数据处理方法、位置信息服务方法及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016160626A1 (en) * 2015-03-27 2016-10-06 Globallogic, Inc. Determining actions based on imputing meaning to sensed information in a distributed computing environment
CN106126641A (zh) * 2016-06-24 2016-11-16 中国科学技术大学 一种基于Spark的实时推荐系统及方法
CN106162688A (zh) * 2015-04-01 2016-11-23 中国移动通信集团湖北有限公司 一种伪基站定位方法及系统
WO2017193897A1 (zh) * 2016-05-12 2017-11-16 腾讯科技(深圳)有限公司 一种数据推荐方法及其设备、存储介质
CN107862553A (zh) * 2017-11-15 2018-03-30 平安科技(深圳)有限公司 广告实时推荐方法、装置、终端设备及存储介质
CN109118296A (zh) * 2018-09-04 2019-01-01 南京星邺汇捷网络科技有限公司 活动推送方法、装置及电子设备
CN110096664A (zh) * 2019-04-03 2019-08-06 北大方正集团有限公司 分布式文本信息处理方法、装置、系统、设备及存储介质
CN110362713A (zh) * 2019-07-12 2019-10-22 四川长虹电子系统有限公司 基于Spark Streaming的视频监控预警方法及系统
CN110717093A (zh) * 2019-08-27 2020-01-21 广东工业大学 一种基于Spark的电影推荐系统及方法
CN111241402A (zh) * 2020-01-14 2020-06-05 恩亿科(北京)数据科技有限公司 一种信息推送方法、装置、电子设备及可读存储介质
CN111258978A (zh) * 2020-01-17 2020-06-09 广东小天才科技有限公司 一种数据存储的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190361697A1 (en) * 2018-05-22 2019-11-28 Pure Storage, Inc. Automatically creating a data analytics pipeline

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016160626A1 (en) * 2015-03-27 2016-10-06 Globallogic, Inc. Determining actions based on imputing meaning to sensed information in a distributed computing environment
CN106162688A (zh) * 2015-04-01 2016-11-23 中国移动通信集团湖北有限公司 一种伪基站定位方法及系统
WO2017193897A1 (zh) * 2016-05-12 2017-11-16 腾讯科技(深圳)有限公司 一种数据推荐方法及其设备、存储介质
CN106126641A (zh) * 2016-06-24 2016-11-16 中国科学技术大学 一种基于Spark的实时推荐系统及方法
CN107862553A (zh) * 2017-11-15 2018-03-30 平安科技(深圳)有限公司 广告实时推荐方法、装置、终端设备及存储介质
CN109118296A (zh) * 2018-09-04 2019-01-01 南京星邺汇捷网络科技有限公司 活动推送方法、装置及电子设备
CN110096664A (zh) * 2019-04-03 2019-08-06 北大方正集团有限公司 分布式文本信息处理方法、装置、系统、设备及存储介质
CN110362713A (zh) * 2019-07-12 2019-10-22 四川长虹电子系统有限公司 基于Spark Streaming的视频监控预警方法及系统
CN110717093A (zh) * 2019-08-27 2020-01-21 广东工业大学 一种基于Spark的电影推荐系统及方法
CN111241402A (zh) * 2020-01-14 2020-06-05 恩亿科(北京)数据科技有限公司 一种信息推送方法、装置、电子设备及可读存储介质
CN111258978A (zh) * 2020-01-17 2020-06-09 广东小天才科技有限公司 一种数据存储的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A scalable spark-based fault diagnosis platform for gearbox fault diagnosis in wind farms;M. B. Imani 等;《2017 IEEE International Conference on Information Reuse and Integration》;100-107 *
流计算大数据技术在运营商实时信令处理中的应用;董斌 等;《电信科学》;第31卷(第10期);172-178 *
运营商大数据技术应用研究;陈涛 等;《电信科学》;第33卷(第1期);130-134 *

Also Published As

Publication number Publication date
CN111913996A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN110515912A (zh) 日志处理方法、装置、计算机装置及计算机可读存储介质
EP2727014B1 (en) Automatic synchronization of most recently used document lists
US9590880B2 (en) Dynamic collection analysis and reporting of telemetry data
JP7230083B2 (ja) 地図サービステスト用の方法及び装置
US11816172B2 (en) Data processing method, server, and computer storage medium
US20150134913A1 (en) Method and apparatus for cleaning files in a mobile terminal and associated mobile terminal
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN111209352A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113111129A (zh) 数据同步方法、装置、设备及存储介质
CN109981715B (zh) 一种会话管理的方法及装置
US11409704B2 (en) Method, device and computer program product for managing storage system
CN111400361A (zh) 数据实时存储方法、装置、计算机设备和存储介质
CN111651595A (zh) 一种异常日志处理方法及装置
CN113420032A (zh) 一种日志的分类存储方法及装置
CN112035534A (zh) 一种实时大数据处理方法、装置及电子设备
CN112100182A (zh) 数据入库处理方法、装置和服务器
CN107357885A (zh) 数据写入方法及装置、电子设备、计算机存储介质
CN115408391A (zh) 一种数据库表变更方法、装置、设备和存储介质
CN111913996B (zh) 数据处理方法、装置、设备及存储介质
CN113746883A (zh) 链路跟踪方法及系统
CN107506293B (zh) 一种软件性能数据采集方法和装置
CN106815223B (zh) 一种海量图片管理方法和装置
CN114422253A (zh) 分布式漏洞扫描系统、方法及存储介质
CN112671878A (zh) 一种区块链的信息订阅方法、装置、服务器和存储介质
CN111078418B (zh) 操作同步方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant