CN116390149A

CN116390149A - 一种基于大数据的mr信息回填方法及系统

Info

Publication number: CN116390149A
Application number: CN202310265062.4A
Authority: CN
Inventors: 陈雷; 冉烽正; 杨大才; 李建国; 汤玉龙
Original assignee: Chongqing 9ebang Technology Co ltd
Current assignee: Chongqing 9ebang Technology Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-07-04

Abstract

本发明公开了一种基于大数据的MR信息回填方法及系统，方法步骤包括：获取移动终端的S1‑MME数据和S1UHTTP数据，并根据所述S1‑MME数据和S1UHTTP数据提取关键信息数据；将所述关键信息数据基于时间序列进行分类归一处理，得到关键信息数据的线性关系；获取移动终端的MR原始数据，对所述MR原始数据进行聚合分类，并将聚合分类后的所述MR原始数据进行扁平化处理，得到扁平化MR数据；将所述扁平化MR数据与关键信息数据的线性关系进行融合处理，以将MR数据进行信息回填。本发明解决了亿级数据间数据关联时长较大的问题，通过线性时间队列提高回填率和精准率，从而使MR数据携带关键信息，简化回填处理流程。

Description

一种基于大数据的MR信息回填方法及系统

技术领域

本发明涉及移动通信技术领域，具体涉及一种基于大数据的MR信息回填方法及系统。

背景技术

随着移动互联网5G的发展和4G网络的基本普及，O域数据呈现爆发式增长，而XDR、MR就是网络侧最主要的二类大数据。XDR数据主要采集接口包括S11、S1-MME、S1-U、SGS、S6A、S5/S8、GB、IU_PS、GN、A、IU-CS、C/D等数据，其中，S1-MME、S1-U数据承载了用户信息、业务信息、话单信息等信息；MR数据主要包括MRO、MRS和MRE 3种类型测试报告，MRO、MRE代表周期性的测量报告样本数据文件，包含了用户定位的工参信息及网络评估的覆盖信息等。目前，利用大数据分析方法对S1-MME、S1-U和MR的大量数据进行清洗、关联、算法挖掘后能实际应用用于网络问题挖掘和分析。

但在使用MR数据之前，其中重要一环就是解决数据的回填问题，在如今5G飞速发展，对数据的实时性、准确性又有了更高的要求。传统的方式回填均使用S1-MME、S1UHTTP和MR数据进行关联回填，这样的方式滞后性强、处理时长也随数据的变大而边长，无法满足现在对众多网优业务系统的支撑和支持。

发明内容

针对现有技术中的缺陷，本发明提供一种基于大数据的MR信息回填方法及系统。

第一方面，一种基于大数据的MR信息回填方法，包括：

获取移动终端的S1-MME数据和S1UHTTP数据，并根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

将所述关键信息数据基于时间序列进行分类归一处理，得到关键信息数据的线性关系；

获取移动终端的MR原始数据，对所述MR原始数据进行聚合分类，并将聚合分类后的所述MR原始数据进行扁平化处理，得到扁平化MR数据；

将所述扁平化MR数据与关键信息数据的线性关系进行融合处理，以将MR数据进行信息回填。

进一步地，所述获取移动终端的S1-MME数据和S1UHTTP数据，并根据所述S1-MME数据和S1UHTTP数据提取关键信息数据，具体为：

采集移动终端的XDR数据，从所述XDR数据中获取S1-MME数据和S1UHTTP数据；

根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

所述关键信息数据包括但不限于MME_UE_S1AP_ID数据、ENB_UE_S1AP_ID数据、MSISDN数据、IMEI数据、IMSI数据、STARTTIME数据、ENDTIME数据以及ECI数据。

进一步地，所述将所述关键信息数据基于时间序列进行分类归一处理，得到关键信息数据的线性关系，具体为：

获取预设的时间区间范围，将所述时间区间范围内的关键信息数据进行时间属性处理，以将所述关键信息数据的时间属性值进行统一赋值；

基于时间属性处理后的所述关联信息数据获取历史数据，根据所述历史数据分析S1-MME数据和S1UHTTP数据的ECI分布情况；

根据所述ECI分布情况对S1-MME数据和S1UHTTP数据采用均衡分配算法计算ECI分类序列，得到S1-MME数据和S1UHTTP数据的ECI分类结果；

根据所述ECI分类结果对S1-MME数据和S1UHTTP数据采用数据填补和自动校正算法进行数据处理，得到时间序列排列；

将所述时间序列排列进行归一化处理，以获取关键信息数据的新数据KEY，所述关键信息数据的新数据KEY反映关键信息数据在时间序列上的线性关系。

进一步地，所述获取移动终端的MR原始数据，对所述MR原始数据进行聚合分类，并将聚合分类后的所述MR原始数据进行扁平化处理，得到扁平化MR数据，具体为：

采集移动终端的MR原始数据，并获取所述MR原始数据的ECI关联信息；

根据所述ECI关联信息将所述MR原始数据进行聚合分类处理，得到MR分类数据；

采用权重动态算法将所述MR分类数据进行差异性扁平化，得到扁平化MR数据，并将所述扁平化MR数据存储至待处理队列。

进一步地，所述将所述扁平化MR数据与关键信息数据的线性关系进行融合处理，以将MR数据进行信息回填，具体为：

取出所述待处理队列中的扁平化MR数据，并对所述扁平化MR数据进行解析，得到扁平化MR数据的新数据KEY；

实时获取所述时间序列排列中的关键信息数据；

根据所述扁平化MR数据的新数据KEY，采用二分查找序贯匹配算法将所述扁平化MR数据与所获取的关键信息数据进行KEY值匹配，并根据匹配结果在所述扁平化MR数据中将相匹配的关键信息数据进行信息回填。

第二方面，一种基于大数据的MR信息回填系统，包括：

关键信息提取模块：用于获取移动终端的S1-MME数据和S1UHTTP数据，并根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

数据分类归一模块：用于将所述关键信息数据基于时间序列进行分类归一处理，得到关键信息数据的线性关系；

MR数据获取模块：用于获取移动终端的MR原始数据，对所述MR原始数据进行聚合分类，并将聚合分类后的所述MR原始数据进行扁平化处理，得到扁平化MR数据；

MR信息回填模块：用于将所述扁平化MR数据与关键信息数据的线性关系进行融合处理，以将MR数据进行信息回填。

进一步地，所述关键信息提取模块具体用于：

根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

进一步地，所述数据分类归一模块具体用于：

进一步地，所述MR数据获取模块具体用于：

进一步地，所述MR信息回填模块具体用于：

实时获取所述时间序列排列中的关键信息数据；

本发明的有益效果体现在：通过提取S1-MME数据和S1UHTTP数据的关键信息数据，并进行时间序列排序和归一化处理，得到关键信息数据在时间序列上的线性关系，再将MR原始数据差异性扁平化，最后将扁平化后的MR原始数据与关键信息数据的线性关系进行融合处理，输出最终的结构化MR回填数据，使用大数据实时处理技术，解决了亿级数据间数据关联时长较大的问题，且线性时间队列的应用可使回填率和精准率大幅度提高，从而及时地使MR数据携带关键信息，减少亿级数据与亿级数据的关联，简化回填处理流程，满足对业务系统的支撑和支持。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例一提供的一种基于大数据的MR信息回填方法的流程图；

图2为本发明实施例二提供的一种基于大数据的MR信息回填系统的模块框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例一

如图1所示，一种基于大数据的MR信息回填方法，包括：

S1：获取移动终端的S1-MME数据和S1UHTTP数据，并根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

具体地，从通信基站中采集移动终端的XDR数据，所述XDR数据的主要采集接口包括但不限于S11、S1-MME、S1-U、SGS、S6A、S5/S8、GB、IU_PS、GN、A、IU-CS、C/D等。

从XDR数据中获取S1-MME数据和S1UHTTP数据，根据所述S1-MME数据和S1UHTTP数据提取关键信息数据。其中，根据所述S1-MME数据提取MME_UE_S1AP_ID、ENB_UE_S1AP_ID、MSISDN、IMEI、IMSI、STARTTIME、ENDTIME、ECI等数据；根据所述S1UHTTP数据提取MSISDN、IMEI、IMSI、STARTTIME、ENDTIME、CI等关键信息数据。

优选地，S1-MME数据的关键信息提取需要根据不同的数据类型解析不同的文本文件，进而得到相同的信息，所述不同的数据类型包括但不限于上下文释放、管理、PDN连接、PDN断开、寻呼和业务请求、UE发起承载资源请求、UE发起承载资源修改、网络发起EPS承载上下文激活、网络发起EPS承载上下文去激活、网络发起EPS承载上下文修改、切换、附着、去附着、跟踪区更新等。

S2：将所述关键信息数据基于时间序列进行分类归一处理，得到关键信息数据的线性关系；

具体地，获取预设的时间区间范围，所述时间区间范围可根据实际需求进行设定，本实施例以5为整数倍的分钟级进行区间划分，将5+X和5-X作为时间区间范围值，其中X为5的整数倍。根据关键信息数据中的STARTTIME数据和ENDTIME数据，将时间区间范围内的关键信息数据进行时间属性处理，所述时间属性处理包括将属于同一时间区间范围内关键信息数据的时间属性进行统一赋值。例如，设定X为10s，则时间区间范围为5s～10s,可将属于5s～10s时间区间范围内关键信息数据的时间属性统一赋值为5s。

进一步地，基于时间属性处理后的关联信息数据获取历史数据，所述历史数据包括但不限于S1-MME数据和S1UHTTP数据的数据大小、条目数以及所在服务器等，根据历史数据分析S1-MME数据和S1UHTTP数据的ECI分布情况，以为后续进行ECI分类生成先决条件。

根据ECI分布情况对S1-MME数据和S1UHTTP数据采用均衡分配算法计算ECI分类序列，得到S1-MME数据和S1UHTTP数据的ECI分类结果。所述均衡分配算法公式为：

①当M≤N时：

S_i＝D_j(i＝1,2,...,M；j＝1,2,...,M)

②当M＞N时：

式中，M代表有M条数据，N代表将M条数据分成N个集合，D代表M条数据集，D已按数据大小进行降序排列，S_i代表N个集合集，I代表N个集合平均需分配的数据大小。

均衡分配算法流程包括：

(a1)初始时，数据集D按数据大小降序排列，D'＝D，S_i'＝S_i，其中，D'代表未分配的数据，S_i'代表未最终确定的集合；

(a2)取

依次分配给/>

其中，len(S_i)表示序列S_i的元素个数，

S_i'＝S_i'-S_i”(S_i”＝S_i(S_i＞I,i＝1,2,...,N))；

(a3)如果D'为空，则分配完成，算法终止，否则进入下一步；

(a4)D'按数据大小降序排列，S_i'按I-S_i值降序排列，然后跳转到第(a2)步。

根据均衡分配算法所得到的S_i表示最终的ECI分类序列，即S1-MME数据和S1UHTTP数据的ECI分类结果。

优选地，依据分类序列结果，将集合集S_i中每一个数据集的序列ECI作为一个分区的大类，例如以S₁中所有ECI数据作为1个分区的大类，依次类推，即将ECI分类规则作为数据传输的规则，以将数据尽可能的散列分布，提高关键信息数据的查询效率和写入效率。

以ECI分类结果S_i的数据为集合，对S1-MME数据和S1UHTTP数据采用数据补填和自动校正算法进行数据处理，得到时间排序序列Q_t。本实施例所述时间排序序列Q_t是排列的规则和填充的方法，并非对数据本身的处理。

所述数据补填目的在于：对同一时刻的多条数据，进行适当的取舍，最终仅保留一条数据；对某时刻的数据缺失时，查找上一时刻的数据作为该时刻的数据。所述数据补填的公式为：

Q_t＝Q_t-1

式中，Q_t表示t时刻的数据。

数据填补的工作流程包括：

(b1)当某时刻有多条数据时(假定该时刻为t时刻，上一时刻为t-1时刻；t时刻有多条数据，t-1时刻仅有一条数据)：

(b11)依次取t时刻的一条数据，与t-1时刻的数据采用自动校正算法进行相似度计算，其计算结果记为G_k(k＝1,2,3,...,j)，j为t时刻的数据条数；

(b12)取序列G_k中最大值对应的数据，作为t时刻的最终数据。

(b2)当某时刻数据缺失时(假定该时刻为t时刻，上一时刻为t-1时刻，t时刻数据缺失，t-1时刻仅有一条数据)：t时刻的数据沿用t-1时刻的数据。

其中，所述自动校正算法公式为：

式中，n表示一条数据的字段个数；M_i表示t时刻的某条数据的第i个字段值与t-1时刻数据的对应字段值的比较结果，如果两者相同，则M_i为1，否则为0；G_k表示t时刻的某条数据与t-1时刻数据的相似度。

进一步地，得到时间序列排列Q_t后，将排列后的数据以STARTTIME、ENDTIME、MME_UE_S1AP_ID、ENB_UE_S1AP_ID、ECI等关键信息数据做归一化处理，得到关键信息数据的新数据KEY，并以MSISDN、IMEI、IMSI作为关键信息数据的值进行存储，所述关键信息数据的新数据KEY反映了关键信息数据在时间序列上的线性关系。其中，归一化处理公式为：

依次对时间序列排列中STARTTIME、ENDTIME、MME_UE_S1AP_ID、ENB_UE_S1AP_ID、ECI等关键信息数据按上述归一化处理公式进行计算，得到归一化结果x'作为唯一的新数据KEY。

S3：获取移动终端的MR原始数据，对所述MR原始数据进行聚合分类，并将聚合分类后的所述MR原始数据进行扁平化处理，得到扁平化MR数据；

具体地，采集移动终端的MR原始数据，保留MR原始数据的结构和类型，根据文件名所携带的ECI关联信息获取MR原始数据的关联信息。根据关联信息将MR原始数据进行较小文件打包合并做初步的聚合，并以不同厂家、不同的采集服务器地址、MRE数据以及MRO数据等多维度进行分类处理，得到MR分类数据。

进一步地，将分类后的MR分类数据采用权重动态算法，将MR分类数据大小不一、类型不一的情况进行差异性扁平化，得到扁平化MR数据，并将扁平化MR数据存储至待处理队列，使得在后续的大数据处理过程中减少数据倾斜的可能性，加快MR数据的解析速度。

优选地，所述权重动态算法是一种数据传输投递算法，算法的结果为idx，即扁平化MR数据放入待处理队列的索引具体值，所述权重动态算法公式为：

when max(seq)＝min(seq):

idx＝Rand(0,len(seq))

when max(seq)≠min(seq):

min_val＝min(seq)

min_indices＝seq.index(min_val)

rand_id x＝Rand(0,len(min_indices))

idx＝min_indices[rand_idx]

式中，seq为若干个队列的值所组成的一个值序列，即现有待处理MR分类数据存储程序中，每个程序目前待处理的个数；len(seq)为seq中包含的元素个数；Rand(0,len(seq))为随机生成一个在[0,len(seq))范围内的整数；idx为目标结果，新任务需放入队列的索引，所述新任务即新产生的MR分类数据；max(seq)为seq中的最大值；min(seq)为seq中的最小值；seq.index(min_val)为查找seq中所有值等于min_val元素对应的索引；min_indices[rand_idx]为取min_indices中索引为rand_idx处的值。

权重动态算法的工作流程包括：

(c1)当有新任务来临时，查询每个任务队列的任务数；

(c2)当所有任务队列的任务数的最大值与最小值相同时，将新任务随机加入到所有队列中的某一个队列中；

(c3)当所有任务队列的任务数的最大值与最小值不同时，筛选出任务队列中任务数最小值对应的部分队列，将新任务随机加入到这部分队列中的某一个队列中。

优选地，将MR原始数据进行差异性扁平化后，将扁平化MR数据使用大数据hadoop中hdfs组件进行数据的存储，并输出存储的全路径以便于后续的使用。

将输出的扁平化后的MR原始数据的全路径(例如存储在hadoop中hdfs组件中的数据地址路径)使用权重动态处理算法得到新任务应该数据传输投递的结果值，并将存储的全路径按照该结果值进行数据投递。

S4：将所述扁平化MR数据与关键信息数据的线性关系进行融合处理，以将MR数据进行信息回填；

具体地，取出待处理队列中的扁平化MR数据，并对扁平化MR数据进行解析，根据扁平化MR数据中MRE、MRO按照相应的规范进行文件的解压、XML文件读取、数据的解析等工作，生成扁平化数据MR的新数据KEY。

同时，实时获取时间序列排列中的关键信息数据，获取时间间隔可根据实际运行情况设定，例如，可设定每60s获取依次时间序列中的关键信息数据。

进一步地，根据扁平化数据的新数据KEY，采用二分查找序贯匹配算法将扁平化数据与所获取的关键信息数据进行KEY值匹配，匹配成功则在MR数据中将相匹配的关键信息数据进行信息回填。

所述二分查找序贯匹配算法公式为：

when L≤R:when seq[mid]＞item:

R＝mid-1

when seq[mid]＜item:

L＝mid+1

when seq[mid]＝item:

Y＝mid

式中，L为查找区间左端点坐标(即关键信息数据的新数据KEY中最左/前端的数据)；R为查找区间右端点坐标(即关键信息数据的新数据KEY中最右/后端的数据)；seq为已有数据序列(即关键信息数据的新数据KEY中的数据长度)，已按数据大小升序排列；item为新数据(即扁平化MR数据的新数据KEY)；Y为最终结果(即使用扁平化MR数据的新数据KEY查找到的结果值)，如果在已有数据序列找到新数据，则为已有数据序列对应数据的坐标，否则为空。

二分查找序贯匹配算法的工作流程包括：将SI-MME数据对应关键信息数据的新数据KEY和S1UHTTP数据对应关键信息的新数据KEY作为2组数据，依次对2组数据的每组数据执行以下操作(如果某组数据查找成功，则终止返回)：

(d1)数据预处理：(d11)已有数据预处理：将已有数据按时间升序排列；(d12)新数据预处理：得到新数据的时间。

(d2)在已有数据中按时间查找新数据：每次取待查找区间的中间数据与新数据进行时间比较。

(d3)如果匹配成功，则返回已有数据的当前索引。

(d4)如果没匹配成功，若当前中间数据的时间比新数据大，则将待查找区间的右端点修改为当前中间数据索引-1处；若当前中间数据的时间比新数据小，则将待查找区间的左端点修改为当前中间数据索引+1处。

(d5)如果待查找区间的左端点在待查找区间的右端点的右侧，算法终止。否则，跳转至第(d2)步。

本实施例对扁平化MR数据使用大数据实时处理程序，先行对不同厂家和不同类型的扁平化MR数据的MRE、MEO进行解析，生成扁平化MR数据的新数据KEY，并根据扁平化MR数据的新数据KEY采用上述二分查找序贯匹配算法，与关键信息数据的新数据KEY进行匹配，使用S1-MME做第一次序贯匹配，在第一次序贯匹配未成功匹配的使用存储的S1UHTTP做第二次序贯匹配，并在MR数据中将相匹配的关键信息数据进行信息回填，最后输出结果值，得到新的MR数据，新的MR数据在不经过亿级与亿级数据关联的情况下，有效的进行关键信息回填。

实施例二

如图2所示，一种基于大数据的MR信息回填系统，包括：

进一步地，所述关键信息提取模块具体用于：

根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

进一步地，所述数据分类归一模块具体用于：

进一步地，所述MR数据获取模块具体用于：

进一步地，所述MR信息回填模块具体用于：

实时获取所述时间序列排列中的关键信息数据；

需要说明的是，关于基于大数据的MR信息回填系统更为具体的工作流程，请参考前述方法实施例部分，在此不在赘述。

本发明通过提取S1-MME数据和S1UHTTP数据的关键信息数据，并进行时间序列排序和归一化处理，得到关键信息数据在时间序列上的线性关系，再将MR原始数据差异性扁平化，最后将扁平化后的MR原始数据与关键信息数据的线性关系进行融合处理，输出最终的结构化MR回填数据，使用大数据实时处理技术，解决了亿级数据间数据关联时长较大的问题，且线性时间队列的应用可使回填率和精准率大幅度提高，从而及时地使MR数据携带关键信息，减少亿级数据与亿级数据的关联，简化回填处理流程，满足对业务系统的支撑和支持。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于大数据的MR信息回填方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大数据的MR信息回填方法，其特征在于，所述获取移动终端的S1-MME数据和S1UHTTP数据，并根据所述S1-MME数据和S1UHTTP数据提取关键信息数据，具体为：

根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

3.根据权利要求2所述的一种基于大数据的MR信息回填方法，其特征在于，所述将所述关键信息数据基于时间序列进行分类归一处理，得到关键信息数据的线性关系，具体为：

4.根据权利要求3所述的一种基于大数据的MR信息回填方法，其特征在于，所述获取移动终端的MR原始数据，对所述MR原始数据进行聚合分类，并将聚合分类后的所述MR原始数据进行扁平化处理，得到扁平化MR数据，具体为：

5.根据权利要求4所述的一种基于大数据的MR信息回填方法，其特征在于，所述将所述扁平化MR数据与关键信息数据的线性关系进行融合处理，以将MR数据进行信息回填，具体为：

实时获取所述时间序列排列中的关键信息数据；

6.一种基于大数据的MR信息回填系统，其特征在于，包括：

7.根据权利要求6所述的一种基于大数据的MR信息回填系统，其特征在于，所述关键信息提取模块具体用于：

根据所述S1-MME数据和S1UHTTP数据提取关键信息数据；

8.根据权利要求7所述的一种基于大数据的MR信息回填系统，其特征在于，所述数据分类归一模块具体用于：

9.根据权利要求8所述的一种基于大数据的MR信息回填系统，其特征在于，所述MR数据获取模块具体用于：

10.根据权利要求9所述的一种基于大数据的MR信息回填系统，其特征在于，所述MR信息回填模块具体用于：

实时获取所述时间序列排列中的关键信息数据；