CN113518365A - 一种数据关联方法、装置、服务器及存储介质 - Google Patents
一种数据关联方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN113518365A CN113518365A CN202110473018.3A CN202110473018A CN113518365A CN 113518365 A CN113518365 A CN 113518365A CN 202110473018 A CN202110473018 A CN 202110473018A CN 113518365 A CN113518365 A CN 113518365A
- Authority
- CN
- China
- Prior art keywords
- data
- signaling
- association
- wireless
- wireless data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011664 signaling Effects 0.000 claims abstract description 105
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 230000003111 delayed effect Effects 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001502 supplementing effect Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 12
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000009471 action Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/20—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明实施例公开了一种数据关联方法、装置、服务器及存储介质。该方法包括:采用flume进行日志采集,接入信令数据和无线数据;将信令数据和无线数据存入kafka集群中,同时将信令数据和无线数据分流写入hbase和hive集群中;通过flink关联信令数据和无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。本发明实施例的技术方案,通过实时关联计算,保障两个数据的有效关联,即使其中一条或多条数据延时,在保障数据处理性能及时效性的同时,也能够保障延时到达的数据被有效处理。
Description
技术领域
本发明实施例涉及通讯领域,尤其涉及一种数据关联方法、装置、服务器及存储介质。
背景技术
目前在处理实时流数据中,出现了很多的开源组件,比如storm、flink、sparkstream等,这些组件在处理实时单流数据都各有所长。然而,实际业务开发中,大多是双流数据,包括信令数据和无线数据。信令数据记录了用户侧终端信息,比如用户手机号码msisdn、终端标识imei、用户imsi、终端机型、终端连接基站endbid、cellid、mmecode、mmes1apid、mmegroupid等信息。无线数据记录了用户终端连接基站endbid、cellid、mmecode、mmes1apid、mmegroupid等信息,除此之外还记录了终端位置信息lat、lon,终端工作状态无线信号信息rsrp、rsrq、sinr、ta等。为了得到用户使用终端过程中,其位置信息以及终端工作状态的无线环境信息,所有就有将无线信息和信令数据关联的必要性。
实际业务场景中,由于用户不定期使用手机发生了业务事件(少数情况也会上报信令数据,譬如:终端因开关机离网入网、终端因移动发生基站间的切换等情况)终端就会在发生业务事件的开始上报一条相应的信令数据。在此期间,作为测量报告MRO的无线数据,每隔10s都会上报一条对应终端的无线数据。实际业务开发中,当双流的时间窗口因为某一条流的数据延时而错开后,将会导致数据关联不上的灾难。虽然flink针对此问题提供了解决方案,解决方案就是通过配置拉长双流的时间窗口,让两条流的数据时间窗口足够长,即使一条流有所延迟,也能保障双流的数据能够汇聚关联上。但此解决方案同时也带来了一些问题,比如时间窗口不可能设置无限长,当窗口越长,计算量就越大,会带来严重的性能问题。因此,亟需一种新的双流实时关联方案来解决此问题。
发明内容
本发明实施例提供一种数据关联方法、装置、服务器及存储介质,以实现解决双流数据实时关联的性能问题。
第一方面,本发明实施例提供了一种数据关联方法,包括:
采用flume进行日志采集,接入信令数据和无线数据;
将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
可选的,在通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中之后,还包括:
检测信令数据或无线数据是否有延时,导致数据关联不上,则对延时的信令数据或无线数据进行补录重传,将重传的数据进行重新关联计算,并补充到hbase集群中。
可选的,所述检测信令数据或无线数据是否有延时,包括:
检测两个数据流的时间水准差值是否超出预设阈值。
可选的,所述对延时的信令数据或无线数据进行补录重传,将重传的数据进行重新关联计算,并补充到hbase集群中,包括:
将原始的无线数据和信令数据同时备份到hive集群中并入库,并将flink实时关联后的实时关联数据表也备份到hive集群中并入库;
使用与flink实时关联计算相同的算法,执行原始的无线数据和信令数据的批量离线数据的关联计算,输出一张离线关联数据表;
将所述离线关联数据表与所述实时关联数据表进行对比,以离线关联数据表为准,如果发现实时关联数据表存在遗漏或未关联的数据,进行识别出来;
经过对比后,发现hive集群中实时关联数据表中遗漏和未关联的数据后,根据与离线关联数据表对比找到未关联和遗漏数据的时间戳,回溯找到对应的原始数据,并从hive集群中原始的无线数据和信令数据中找到对应的数据;
将hive集群中原始的无线数据和信令数据中的遗漏和未关联的原始数据以流式数据的形式回传给flink进行二次消费计算,得到关联数据;
将二次消费计算后的数据重新写入到hbase集群中。
可选的,所述信令数据包括用户手机号码msisdn、终端标识imei、用户imsi、终端机型、基站信息endbid、cellid、mmecode、mmes1apid、mmegroupid中的一种或多种。
可选的,所述无线数据包括基站信息endbid、cellid、mmecode、mmes1apid、mmegroupid、终端经纬度lat、lon、终端工作状态无线信号信息rsrp、rsrq、sinr、aoa、dlearfcn、pci、neighcellearfcn、neighpci、neighcellrsrp、neighcellrsrq、ta中的一种或多种。
可选的,在补充到hbase集群中之后,还包括:
将所有数据保存在redis或者mysql用于实时看板展示,或者将所有数据输出到druid用于即席分析查询。
第二方面,本发明实施例还提供了一种数据关联装置,包括:
采集单元,用于采用flume进行日志采集,接入信令数据和无线数据;
存入单元,用于将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
关联单元,用于通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
第三方面,本发明实施例还提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中任一所述的数据关联方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中任一所述的数据关联方法。
本发明实施例的技术方案,通过实时关联计算,保障两个数据的有效关联,即使其中一条或多条数据延时,在保障数据处理性能及时效性的同时,也能够保障延时到达的数据被有效处理。
附图说明
图1是本发明实施例一中的一种数据关联方法的流程示意图;
图2是本发明实施例二中的一种数据关联装置的结构示意图;
图3是本发明实施例三中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一速度差值称为第二速度差值,且类似地,可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值,但其不是同一速度差值。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的一种数据关联方法的流程示意图,本发明实施例可适用于无线数据和信令数据的实时关联的情况。本发明实施例的方法可以由一种数据关联装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可集成于服务器或终端设备中。参照图1,本发明实施例的数据关联方法,具体包括如下步骤:
步骤S110、采用flume进行日志采集,接入信令数据和无线数据。
具体的,信令数据包括但不限于用户信息(用户手机号码msisdn、终端标识imei、用户imsi、终端机型)、基站信息(endbid、cellid、mmecode、mmes1apid、mmegroupid)等等。例如,数据格式可以为时间戳1+基站信息1+用户信息。无线数据包括但不限于基站信息(endbid、cellid、mmecode、mmes1apid、mmegroupid)、位置信息(终端经纬度lat、lon)、无线环境信息(rsrp、rsrq、sinr、aoa、dlearfcn、pci、neighcellearfcn、neighpci、neighcellrsrp、neighcellrsrq、ta)等等。例如,数据格式可以为时间戳1+基站信息1+位置信息+无线环境信息。其中,基站信息为相同的信息。
在本实施例中,数据采集需要保证完整性和有序性。对于完整性保证,采用Flume进行日志采集,Flume使用事务性的方式保证传送Event整个过程的可靠性,events被存储在channel里面,如果flume挂了可以从channel中恢复,保证数据不会丢失。对于有序性保证,由于网络等原因,数据在采集到kafka时可能会出现乱序,如果一个topic放在一个分区会保证分区内数据的有序,但是这样将会降低kafka性能。为了保证数据处理的高吞吐,可将具有相同特征的数据(例如用户的唯一标识)通过自定义分区器划分到相同的分区,这样也保证了单个人的记录的有序性。
步骤S120、将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中。
具体的,Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览、搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。在本实施例中,采集信令数据和无线数据之后,将所述信令数据和所述无线数据存入kafka集群中,同时将信令数据和无线数据分流写入hbase和hive集群中。
步骤S130、通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
具体的,为了让两类数据进行关联,其关联算法逻辑为:当信令数据产生后,寻找对应终端业务持续时间段内所有无线测量数据MRO,通过终端连接基站的相同信息(ndbid、cellid、mmecode、mmes1apid、mmegroupid)将两者数据关联一起,将业务发生持续时间内产生的无线数据,关联回填上信令数据中的用户信息。从而得到完整的用户加位置及无线环境指标信息。此数据不仅能用于用户位置定位上,还能用在分析用户使用无线网络的情况。例如,信令数据为时间戳1+基站信息1+用户信息,无线数据为时间戳1+基站信息1+位置信息+无线环境信息,得到的关联数据为时间戳1+基站信息1+用户信息+位置信息+无线环境信息。其中,持续时间根据业务持续时间判定,一般设置为一个小时内。即信令数据在10:00上报一条数据,那么去无线数据中关联10:00到11:00符合关联字段的数据。考虑到小区切换,关联字段中暂不考虑cellid字段,只使用四元组endbid、mmecode、mmes1apid、mmegroupid进行关联。
进一步的,在通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中之后,还包括:检测信令数据或无线数据是否有延时,导致数据关联不上,则对延时的信令数据或无线数据进行补录重传,将重传的数据进行重新关联计算,并补充到hbase集群中。其中,所述检测信令数据或无线数据是否有延时,包括:检测两个数据流的时间水准差值是否超出预设阈值。
对于如何检测信令数据或无线数据是否有延时,导致数据关联不上,在本实施例中,基于业务要求,以EventTime作为时间标准进行双流join,实时计算指标。理想情况下数据有序,准时到达,两条流中对应时间窗口的数据都正常到达,准时参加其本应参与贡献的计算,数据结果可以达到实时,准确有效的展示。但是实际情况下,可能出现数据延迟,实时性不高,状态后端访问性能低等问题。针对这些问题本架构的计算流程为:在Kafka中的不同topic的数据流到Flink时,两条流按照业务处理需求的时间间隔进行interval join,对于迟到的事件,将准时的流和迟到的副流Union到一起,并将其重定向到一个测流,设置一个定时器,定时触发迟到事件的处理。
对于如何对延时的信令数据或无线数据进行补录重传,在本实施例中,数据补录用于flink发生故障,宕机或其他原因,导致数据未关联计算;或数据源故障,某一条数据流延时未达到,错失关联的时间窗口,其补录机制如下步骤:
将原始的无线数据和信令数据同时备份到hive集群中并入库,并将flink实时关联后的实时关联数据表也备份到hive集群中并入库;
使用与flink实时关联计算相同的算法,执行原始的无线数据和信令数据的批量离线数据的关联计算,输出一张离线关联数据表;
将所述离线关联数据表与所述实时关联数据表进行对比,以离线关联数据表为准,如果发现实时关联数据表存在遗漏或未关联的数据,进行识别出来;
经过对比后,发现hive集群中实时关联数据表中遗漏和未关联的数据后,根据与离线关联数据表对比找到未关联和遗漏数据的时间戳,回溯找到对应的原始数据,并从hive集群中原始的无线数据和信令数据中找到对应的数据;
将hive集群中原始的无线数据和信令数据中的遗漏和未关联的原始数据以流式数据的形式回传给flink进行二次消费计算,得到关联数据;
将二次消费计算后的数据重新写入到hbase集群中。
作为一可选实施例,在补充到hbase集群中之后,还包括:将所有数据保存在redis或者mysql用于实时看板展示,或者将所有数据输出到druid用于即席分析查询。
本发明实施例的技术方案,通过实时关联计算,保障两个数据的有效关联,即使其中一条或多条数据延时,在保障数据处理性能及时效性的同时,也能够保障延时到达的数据被有效处理。
同时当两个数据源其中任何一条数据流出现故障时,能够提供重传后的补录计算,保证数据的可靠性和准确性。
实施例二
本发明实施例所提供的一种数据关联装置可执行本发明任意实施例所提供的数据关联方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件(集成电路)的方式实现,并一般可集成于服务器或终端设备中。图2是本发明实施例二中的一种数据关联装置的结构示意图。参照图2,本发明实施例的数据关联装置200具体可以包括:
采集单元210,用于采用flume进行日志采集,接入信令数据和无线数据;
存入单元220,用于将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
关联单元230,用于通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
可选的,所述装置200,还包括:
重传单元,用于检测信令数据或无线数据是否有延时,导致数据关联不上,则对延时的信令数据或无线数据进行补录重传,将重传的数据进行重新关联计算,并补充到hbase集群中。
可选的,所述重传单元,还用于检测两个数据流的时间水准差值是否超出预设阈值。
可选的,所述重传单元,还用于:
将原始的无线数据和信令数据同时备份到hive集群中并入库,并将flink实时关联后的实时关联数据表也备份到hive集群中并入库;
使用与flink实时关联计算相同的算法,执行原始的无线数据和信令数据的批量离线数据的关联计算,输出一张离线关联数据表;
将所述离线关联数据表与所述实时关联数据表进行对比,以离线关联数据表为准,如果发现实时关联数据表存在遗漏或未关联的数据,进行识别出来;
经过对比后,发现hive集群中实时关联数据表中遗漏和未关联的数据后,根据与离线关联数据表对比找到未关联和遗漏数据的时间戳,回溯找到对应的原始数据,并从hive集群中原始的无线数据和信令数据中找到对应的数据;
将hive集群中原始的无线数据和信令数据中的遗漏和未关联的原始数据以流式数据的形式回传给flink进行二次消费计算,得到关联数据;
将二次消费计算后的数据重新写入到hbase集群中。
可选的,所述信令数据包括用户手机号码msisdn、终端标识imei、用户imsi、终端机型、基站信息endbid、cellid、mmecode、mmes1apid、mmegroupid中的一种或多种。
可选的,所述无线数据包括基站信息endbid、cellid、mmecode、mmes1apid、mmegroupid、终端经纬度lat、lon、终端工作状态无线信号信息rsrp、rsrq、sinr、aoa、dlearfcn、pci、neighcellearfcn、neighpci、neighcellrsrp、neighcellrsrq、ta中的一种或多种。
可选的,在补充到hbase集群中之后,还包括:
将所有数据保存在redis或者mysql用于实时看板展示,或者将所有数据输出到druid用于即席分析查询。
本发明实施例的技术方案,通过实时关联计算,保障两个数据的有效关联,即使其中一条或多条数据延时,在保障数据处理性能及时效性的同时,也能够保障延时到达的数据被有效处理。
同时当两个数据源其中任何一条数据流出现故障时,能够提供重传后的补录计算,保证数据的可靠性和准确性。
实施例三
图3为本发明实施例三提供的一种服务器的结构示意图,如图3所示,该服务器包括处理器310、存储器320、输入装置330和输出装置340;服务器中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;服务器中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据关联方法对应的程序指令/模块(例如,数据关联装置中的采集单元210、存入单元220和关联单元230)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的数据关联方法。
也即:
采用flume进行日志采集,接入信令数据和无线数据;
将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
当然,本发明实施例所提供的服务器,其处理器不限于执行如上所述的方法操作,还可以执行本发明任意实施例所提供的数据关联方法中的相关操作。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
本发明实施例的技术方案,通过实时关联计算,保障两个数据的有效关联,即使其中一条或多条数据延时,在保障数据处理性能及时效性的同时,也能够保障延时到达的数据被有效处理。
同时当两个数据源其中任何一条数据流出现故障时,能够提供重传后的补录计算,保证数据的可靠性和准确性。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据关联方法,该方法包括:
采用flume进行日志采集,接入信令数据和无线数据;
将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据关联方法中的相关操作。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例的技术方案,通过实时关联计算,保障两个数据的有效关联,即使其中一条或多条数据延时,在保障数据处理性能及时效性的同时,也能够保障延时到达的数据被有效处理。
同时当两个数据源其中任何一条数据流出现故障时,能够提供重传后的补录计算,保证数据的可靠性和准确性。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据关联方法,其特征在于,包括:
采用flume进行日志采集,接入信令数据和无线数据;
将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
2.根据权利要求1所述的数据关联方法,其特征在于,在通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中之后,还包括:
检测信令数据或无线数据是否有延时,导致数据关联不上,则对延时的信令数据或无线数据进行补录重传,将重传的数据进行重新关联计算,并补充到hbase集群中。
3.根据权利要求2所述的数据关联方法,其特征在于,所述检测信令数据或无线数据是否有延时,包括:
检测两个数据流的时间水准差值是否超出预设阈值。
4.根据权利要求2所述的数据关联方法,其特征在于,所述对延时的信令数据或无线数据进行补录重传,将重传的数据进行重新关联计算,并补充到hbase集群中,包括:
将原始的无线数据和信令数据同时备份到hive集群中并入库,并将flink实时关联后的实时关联数据表也备份到hive集群中并入库;
使用与flink实时关联计算相同的算法,执行原始的无线数据和信令数据的批量离线数据的关联计算,输出一张离线关联数据表;
将所述离线关联数据表与所述实时关联数据表进行对比,以离线关联数据表为准,如果发现实时关联数据表存在遗漏或未关联的数据,进行识别出来;
经过对比后,发现hive集群中实时关联数据表中遗漏和未关联的数据后,根据与离线关联数据表对比找到未关联和遗漏数据的时间戳,回溯找到对应的原始数据,并从hive集群中原始的无线数据和信令数据中找到对应的数据;
将hive集群中原始的无线数据和信令数据中的遗漏和未关联的原始数据以流式数据的形式回传给flink进行二次消费计算,得到关联数据;
将二次消费计算后的数据重新写入到hbase集群中。
5.根据权利要求1所述的数据关联方法,其特征在于,所述信令数据包括用户手机号码msisdn、终端标识imei、用户imsi、终端机型、基站信息endbid、cellid、mmecode、mmes1apid、mmegroupid中的一种或多种。
6.根据权利要求1所述的数据关联方法,其特征在于,所述无线数据包括基站信息endbid、cellid、mmecode、mmes1apid、mmegroupid、终端经纬度lat、lon、终端工作状态无线信号信息rsrp、rsrq、sinr、aoa、dlearfcn、pci、neighcellearfcn、neighpci、neighcellrsrp、neighcellrsrq、ta中的一种或多种。
7.根据权利要求2所述的数据关联方法,其特征在于,在补充到hbase集群中之后,还包括:
将所有数据保存在redis或者mysql用于实时看板展示,或者将所有数据输出到druid用于即席分析查询。
8.一种数据关联装置,其特征在于,包括:
采集单元,用于采用flume进行日志采集,接入信令数据和无线数据;
存入单元,用于将所述信令数据和所述无线数据存入kafka集群中,同时将所述信令数据和所述无线数据分流写入hbase和hive集群中;
关联单元,用于通过flink关联所述信令数据和所述无线数据,将得到的关联数据分流写入hbase和hive集群中,其中,关联字段是以信令数据和无线数据中相同的基站信息作为关联字段,以信令数据的时间戳作为起始时间点,业务持续时间作为时间段,在无线数据中寻找符合关联条件的数据。
9.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现根据权利要求1-7中任一所述的数据关联方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-7中任一所述的数据关联方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473018.3A CN113518365B (zh) | 2021-04-29 | 2021-04-29 | 一种数据关联方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473018.3A CN113518365B (zh) | 2021-04-29 | 2021-04-29 | 一种数据关联方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113518365A true CN113518365A (zh) | 2021-10-19 |
CN113518365B CN113518365B (zh) | 2023-11-17 |
Family
ID=78063586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110473018.3A Active CN113518365B (zh) | 2021-04-29 | 2021-04-29 | 一种数据关联方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113518365B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599104A (zh) * | 2016-11-29 | 2017-04-26 | 北京锐安科技有限公司 | 一种基于redis集群的海量数据关联方法 |
CN109840253A (zh) * | 2019-01-10 | 2019-06-04 | 北京工业大学 | 企业级大数据平台架构 |
CN110245158A (zh) * | 2019-06-10 | 2019-09-17 | 上海理想信息产业(集团)有限公司 | 一种基于Flink流计算技术的多源异构数据实时处理系统及方法 |
CN110795428A (zh) * | 2019-10-10 | 2020-02-14 | 中盈优创资讯科技有限公司 | 应用于工业物联网的时序数据存储方法和时序数据库 |
CN111382150A (zh) * | 2020-03-19 | 2020-07-07 | 交通银行股份有限公司 | 一种基于Flink的实时计算方法及系统 |
WO2020164740A1 (en) * | 2019-02-15 | 2020-08-20 | Huawei Technologies Co., Ltd. | Methods and systems for automatically selecting a model for time series prediction of a data stream |
CN111858278A (zh) * | 2020-07-08 | 2020-10-30 | 北京国联视讯信息技术股份有限公司 | 基于大数据处理的日志分析方法、系统及可读存储装置 |
CN112069162A (zh) * | 2020-11-10 | 2020-12-11 | 太平金融科技服务(上海)有限公司 | 流计算的数据处理方法、装置、计算机设备和存储介质 |
US20200402058A1 (en) * | 2019-06-20 | 2020-12-24 | Coupang Corp. | Systems and methods for real-time processing of data streams |
CN112463527A (zh) * | 2020-11-13 | 2021-03-09 | 完美世界控股集团有限公司 | 一种数据处理方法、装置、设备、系统及存储介质 |
CN112485396A (zh) * | 2020-11-12 | 2021-03-12 | 电子科技大学中山学院 | 一种基于大数据的水产养殖水质监测系统 |
CN112685394A (zh) * | 2020-12-25 | 2021-04-20 | 北京鼎普科技股份有限公司 | 一种基于Flink的实时威胁情报关联方法、装置、系统 |
-
2021
- 2021-04-29 CN CN202110473018.3A patent/CN113518365B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599104A (zh) * | 2016-11-29 | 2017-04-26 | 北京锐安科技有限公司 | 一种基于redis集群的海量数据关联方法 |
CN109840253A (zh) * | 2019-01-10 | 2019-06-04 | 北京工业大学 | 企业级大数据平台架构 |
WO2020164740A1 (en) * | 2019-02-15 | 2020-08-20 | Huawei Technologies Co., Ltd. | Methods and systems for automatically selecting a model for time series prediction of a data stream |
CN110245158A (zh) * | 2019-06-10 | 2019-09-17 | 上海理想信息产业(集团)有限公司 | 一种基于Flink流计算技术的多源异构数据实时处理系统及方法 |
US20200402058A1 (en) * | 2019-06-20 | 2020-12-24 | Coupang Corp. | Systems and methods for real-time processing of data streams |
CN110795428A (zh) * | 2019-10-10 | 2020-02-14 | 中盈优创资讯科技有限公司 | 应用于工业物联网的时序数据存储方法和时序数据库 |
CN111382150A (zh) * | 2020-03-19 | 2020-07-07 | 交通银行股份有限公司 | 一种基于Flink的实时计算方法及系统 |
CN111858278A (zh) * | 2020-07-08 | 2020-10-30 | 北京国联视讯信息技术股份有限公司 | 基于大数据处理的日志分析方法、系统及可读存储装置 |
CN112069162A (zh) * | 2020-11-10 | 2020-12-11 | 太平金融科技服务(上海)有限公司 | 流计算的数据处理方法、装置、计算机设备和存储介质 |
CN112485396A (zh) * | 2020-11-12 | 2021-03-12 | 电子科技大学中山学院 | 一种基于大数据的水产养殖水质监测系统 |
CN112463527A (zh) * | 2020-11-13 | 2021-03-09 | 完美世界控股集团有限公司 | 一种数据处理方法、装置、设备、系统及存储介质 |
CN112685394A (zh) * | 2020-12-25 | 2021-04-20 | 北京鼎普科技股份有限公司 | 一种基于Flink的实时威胁情报关联方法、装置、系统 |
Non-Patent Citations (2)
Title |
---|
何贞贞;于炯;李梓杨;国冰磊;: "基于Flink的任务调度策略", 计算机工程与设计, no. 05 * |
叶明: "基于Flink的录井实时监控大数据平台关键技术研究", 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113518365B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11614990B2 (en) | Automatic correlation of dynamic system events within computing devices | |
CN104699598B (zh) | 自动化测试方法、装置、设备及系统 | |
US9867011B2 (en) | Identifying proximity history of computer devices | |
CN103178998B (zh) | 一种测控数据传输方法和装置 | |
CN105207826A (zh) | 一种基于Tachyou的Spark大数据平台的安全攻击告警定位系统 | |
JP2018129023A (ja) | インダストリアル・インターネットオペレーションシステムに基づく安全性の検査方法と装置 | |
KR20190020105A (ko) | 스트리밍 데이터의 분배 처리 방법 및 디바이스 | |
CN110769452B (zh) | 基站经纬度异常识别方法、系统、服务器和存储介质 | |
CN103179594A (zh) | 基于路测数据的无线网络优化方法和装置 | |
EP3709186B1 (en) | Telemetry data error detection | |
CN113408812A (zh) | 一种网络优化方法、装置、计算机设备及存储介质 | |
CN106331060B (zh) | 一种基于wifi进行布控的方法和系统 | |
CN111782672A (zh) | 多领域数据管理方法及相关装置 | |
CN114995342A (zh) | 一种基于大数据技术的c3无线通信超时分析方法及系统 | |
CN110933690B (zh) | 一种移动终端室分判别方法、装置、服务器和存储介质 | |
CN112711516B (zh) | 一种数据处理方法和相关装置 | |
CN112711710A (zh) | 多号码终端的追踪方法、系统、服务器和存储介质 | |
CN112055299B (zh) | Tof基站调度方法及其装置 | |
CN111624635B (zh) | 一种移动终端的定位方法、系统、服务器和存储介质 | |
CN113518365B (zh) | 一种数据关联方法、装置、服务器及存储介质 | |
EP4439212A1 (en) | Vehicle state remote monitoring method and system | |
CN114579416B (zh) | 一种指标确定方法、装置、服务器和介质 | |
US20240273132A1 (en) | Data retrieval prediction method, apparatus, electronic device, and readable medium | |
Kruger et al. | State of the art in digital forensics for the internet of things | |
CN104392101A (zh) | 数据共享方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |