CN115237609B

CN115237609B - 一种用户信息快速关联回填的方法、装置及存储介质

Info

Publication number: CN115237609B
Application number: CN202211157273.8A
Authority: CN
Inventors: 赵文博; 石刚
Original assignee: Shenzhen Uway Technology Co ltd
Current assignee: Shenzhen Uway Technology Co ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-27
Anticipated expiration: 2042-09-22
Also published as: CN115237609A

Abstract

本发明公开了一种用户信息快速关联回填的方法、装置及存储介质，所述方法包括：获取待采集数据源文件；将待采集数据源文件以预设的时间采集单元，在每个单元中划分多个JOB分组并生成JOB任务；领取生成的任务，并开始采集对应的所有文件，提取文件中的有效用户身份信息，生成两个Map映射表；将两个Map再缓存持久化到磁盘中，并合并生成最终的两个Map表；将已合并的内存单元进行提交关联，并加入到内存组；根据关联请求解析每条参数；然后在关联的内存组中，找到Key值相同，时差最小的用户信息批量返回。本发明的方法能够提高采集效率，降低内存冗余数据量，从而克服现有技术中所带来的巨大内存损耗的缺陷。

Description

一种用户信息快速关联回填的方法、装置及存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种用户信息快速关联回填的方法、装置及存储介质。

背景技术

无线网络通信过程中，无线网侧数据(CDR、MR)的用户信息一般因为安全需要，都会用一个临时的号牌（TMSI或MMEUeS1apid）形式存在、随着时间和网络环境变化，这个号码会不断切换变化。所以无线侧的用户业务数据，无法持续追踪到真实用户的业务数据。在网络优化和保障工作中，如需要分析指定用户的网络环境投诉、网络热点、用户轨迹等，都需要无线网业务数据能从核心网或S1mme接口中实时关联到真实的用户身份。因为用户的Tmsi、MmeUeS1apid临时号牌会在不断发生变化的特性，所以从核心网侧的数据回填到无线网不是一对一的，需要找到临时号牌完全相符合、两侧数据时差在允许范围内且最小的一条才正确。

同时，无线网侧和核心网侧数据非常巨大，通常每天都会产生近千亿条之巨。传统的将核心侧用户信息回填到无线网方法，必须要将两类数据全部入到Hadoop大数据集群中，再利用集群分布式运算资源进行匹配。由于Hdfs文件不支持内容修改的特性，无线网CDR、MR匹配前和匹配后必须生成两份冗余数据，同时会极大消耗集群整体IO性能、需要持续浪费几个TB以上的巨大内存损耗。极大影响集群其它业务程序的正常执行，并且由于匹配必须在数据完整后，才能进行，导致无线网数据CDR、MR在业务平台上的展现一般会延时一小时以上。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种用户信息快速关联回填的方法、装置及存储介质，以克服现有技术中所带来的巨大内存损耗的缺陷。

为实现上述目的，第一方面，本发明实施例提供了一种用户信息快速关联回填的方法，所述方法包括：

通过文件扫描线程，以预设的第一时间间隔，获取核心网侧的待采集数据源文件；

将所述待采集数据源文件按时间顺序，以预设的第二时间为一个时间采集单元，并在每个单元中划分多个JOB分组，每个JOB分组按预设的数据总尺寸为单位，分成一组并生成多个JOB任务；

记录每个所述时间采集单元生成的JOB数量；

通过采集线程池的每个子线程，不间断地按时间顺序领取生成的所述JOB任务，并开始采集JOB对应的所有文件，逐条提取文件中的有效用户身份信息，分别生成包含Tmsi、MmeUeS1apid两种组合查询方式的Key主键到两个Map映射表；其中，所述Map映射表包括tmsiMap和s1apMap；并根据记录中的用户身份信息，生成Map映射表Key对应的预定义数据结构UserInfo进行采集；

每个线程采集完成后，将已经生成的两个Map再缓存持久化到磁盘Cache目录中，并记录当前JOB对应的采集单元时间；

当文件持久化完成，更新当前采集单元对应已完成Job数量值；

通过缓存合并线程定时扫描所述磁盘Cache目录中，并判断最新出现的数据时间的上一个时间采集单元是否全部完成；

若完成，则进行二级合并操作，生成该时间采集单元周期最终的tmsiMap和s1apMap；

当合并线程每合并好一个时间采集单元的数据单元后，将已合并的内存单元提交加入到内存组中，当内存组中的存储单元超限时，则释放时间最早的内存单元；并从释放的内存单元中所引的用户信息UserInfo对象整体回收到对象池中；

通过TCP连接获取无线网侧CDR、MR的批量关联请求；

解析每条需要关联数据的参数；

然后在关联的内存组中，分别在预设时间段范围内的多个连续时间采集单元所对应的内存单元中，找到Key值相同，时差最小的用户信息批量返回，将其作为匹配的最优用户信息结果，实现批量关联回填；如果不在时间段范围内或未找到，则返回未找到标识。

优选地，两个Map对应的Key分别由tmsi+mmeGroupID+mmeCode和mmeUeS1apid+mmeGroupID+mmeCode组成，Key采用字节合并位压缩算法将三个字段的值压缩合并到一个64位的长整形变量中；其中，合并方式为：

Tmsi或mmeUeS1apid通过去除符号位后并位左移32位放到32-63位，mmeGroupID通过左移8位存放到8-31位，mmeCode存放在低0-7位；

Map对应的Value存储的是自定义的UserInfo单向链表对象，并将UserInfo单向链表作为所述用户信息数据结构，包含当前Key对应的所有用户信息；其中，UserInfo对象采用对象池方式，当采集下一批文件时，可以重复利用，而不必重复申请和释放；

UserInfo数据结构的实现采用了一个包含NextUserInfo字段指向下一个相同Key的另一个用户UserInfo对象的引用，不使用List容器就可以实现单向链表能力，达到更节省内存目的；如果循环迭代查询到NextUserInfo引用的对象为空时，则代表当前Key下的所有用户遍历完成。

优选地，所述判断最新出现的数据时间的上一个时间采集单元是否全部完成的判断依据是：

根据记录生成的JOB数量和记录的已完成JOB数量，如果相等，则代表上一个时间采集单元周期的文件已全部采集处理完成；

其中，JOB数量，使用一个预定义288个volatile类型二维数组变量，用于分别循环记录一天内每个5分钟单元Job任务生成数量和已完成的Job数量；对变量的读写和判断是否相等采用原子变量操作方法代替线程同步锁，以避免读写线程休眠而达到更高的读写效率。

优选地，所述合并时，所采用的合并方式为：

扫描所有该合并周期的缓存文件，将第二个到最后一个缓存块的内容合并到第一个缓存块中，如果被合并的缓存块Map中有不同的key，则在第一个缓存块对应的Map中插入新的Key主键和UserInfo值，如果有相同的key，则只需要更新一下当前Key对应UserInfo的StartTime和EndTime即可；

更新后的StartTime取合并记录和被合并的记录的时间的最小值，EndTime取合并记录和被合并的记录的时间的最大值，用一个UserInfo对象的两个起始时间字段分别标记该用户核心网侧出现的时间范围，达到同用户的多条数据reduce去重节省内存目的。

优选地，所述的一种用户信息快速关联回填的方法，所述方法还包括：

启动一个TCP监听服务，无线网侧MR、CDR采集入库时，每个采集任务建一个异步TCP连接，通过异步采集和批量回填方式，实现入库前回填好用户信息再入库，实现入库前就关联完成，以节约展现的时间。

第二方面，本发明实施例还提供了一种用户信息快速关联回填的装置，包括文件扫描模块、采集模块、合并模块和用户关联模块；

文件扫描模块，用于：

记录每个所述时间采集单元生成的JOB数量；

采集模块，用于：

合并模块，用于：

通过缓存合并线程定时扫描所述采集模块所记录的磁盘Cache目录中，并判断最新出现的数据时间的上一个时间采集单元是否全部完成；

当合并线程每合并好一个时间采集单元的数据单元后，将已合并的内存单元提交给所述用户关联模块，所述关联模块维护一个最新的多个时间采集单位的数据单元在内存组中，当内存组中的存储单元超限时，则释放时间最早的内存单元；并从释放的内存单元中所引的用户信息UserInfo对象整体回收到对象池中；

用户关联模块，用于：

通过TCP连接获取无线网侧CDR、MR的批量关联请求；

解析每条需要关联数据的参数；

然后在关联的内存组中，分别在预设时间段范围内的多个连续时间采集单元所对应的内存单元中，找到Key值相同，时差最小的用户信息批量返回，将其作为匹配的最优用户信息结果，实现批量关联回填；如果不在时间段范围内或未找到，则返回未找到标识；其中，具体步骤为：

根据关联数据参数的数据时间，在关联服务模组对应预设时间的前后多个内存组中，若从对应Map找到Key相同，且关联数据参数的数据时间在UserInfo对象的StartTime和EndTime这个起止时间范围内，即表示匹配相似度为100%，如果不在这个范围内，则匹配相似度计算公式=100-无线网数据时间与StartTime和EndTime的最小差值*时差分数系数；当最小时差大于5分钟，则相似度为0；

相似度大于预设值时，则代表匹配成功，回填对应UserInfo的用户身份信息，否则代表匹配失败。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中提供的所述方法的步骤。

实施本发明实施例，通过文件扫描线程获取核心网侧的待采集数据源文件，并进行JOB分组，每组生成多个JOB任务，并记录生成的JOB数量；然后通过采集池线程进行数据片段内一级聚合，合并线程进行数据单元的最终二级聚合，合并后的数据直接提交给关联模组进行直接关联，使得扫描、采集、合并和关联之间数据无任何耦合、读写分离，数据集合之间全程无任何线程同步锁、信号量、事件等影响CPU处理性能的同步机制；采用自定义的用户信息数据结构，全部实现对象内存池管理，用于申请、回收和复用，缩减了对资源的依赖和内存的回收和重新申请时间，进一步提高采集效率，降低内存冗余数据量，从而克服了现有技术中所带来的巨大内存损耗的缺陷。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种用户信息快速关联回填的方法的流程图；

图2是本发明实施例提供的一种UserInfo单向链表的结构示意图；

图3是本发明实施例提供的一种关联匹配中时间段范围的选取示意图；

图4是本发明实施例提供的一种用户信息快速关联回填的装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

TMSI：用户身份临时识别码；

MMEUeS1apid：用于MME（网络节点）在S1接口中唯一标识一个UE(用户设备)；

MMEGroupID:mme组ID；

MMECode：mme组内的mme标识；

CDR：Call detail record（用户业务呼叫详情记录）；

MR：Measurement record(网络质量测量记录)。

实施例一：

请参考图1，本发明实施例提供的一种用户信息快速关联回填的方法，需要说明的是，先分别启动文件扫描线程，采集线程池、缓存合并线程和TCP远程用户关联服务线程池；所述方法包括：

S101，通过文件扫描线程，以预设的第一时间间隔，获取核心网侧的待采集数据源文件。

具体地，本实施例中，所述第一时间间隔以1分钟为时间间隔，获取核心侧(核心网或S1mme接口)包含完整用户身份（MSISDN、IMSI）和临时号牌（TMSI、MmeUeS1apid）的待采集数据源文件。

S102，将所述待采集数据源文件按时间顺序，以预设的第二时间为一个时间采集单元，并在每个单元中划分多个JOB分组，每个JOB分组按预设的数据总尺寸为单位，分成一组并生成多个JOB任务；记录每个所述时间采集单元生成的JOB数量。

具体地，本实施例中，所述第二时间为5分钟，以5分钟为一个时间采集单元，即以5分钟粒度为单位，数据总尺寸，如300M为单位。

应用时，可定义288个(24*12=288个，即：24小时,每个小时12个5分钟单元)volatile类型二维数组变量，用于分别循环记录一天内每个5分钟单元Job任务生成数量和已完成的Job数量。

S103，通过采集线程池的每个子线程，不间断地按时间顺序领取生成的所述JOB任务，并开始采集JOB对应的所有文件，逐条提取文件中的有效用户身份信息，分别生成包含Tmsi、MmeUeS1apid两种组合查询方式的Key主键到两个Map映射表；其中，所述Map映射表包括tmsiMap和s1apMap；并根据记录中的用户身份信息，生成Map映射表Key对应的预定义数据结构UserInfo进行采集；

具体地，采集线程池Threads-G1的每个子线程，不间断地循环按时间从小到大，领取上一步骤生成的JOB任务，并开始采集JOB对应的所有文件，逐条提取文件中的有效用户身份信息，分别生成包含Tmsi、MmeUeS1apid两种组合查询方式的Key主键到两个Map映射表；并分别命名为：以“Tmsi”为查询方式的“tmsiMap”和以“MmeUeS1apID”查询方式的“s1apMap”；其中，两个Map为线程内当前的JOB变量，每个正在采集的线程都分别有各自的两个Map，这样在采集时进行插入更新操作时，互不干扰，采集线程之间无须考虑同步而导致被锁线程休眠，从而大幅提高了Cpu的处理效率。

所述两个Map映射表的Key的生成采用字节合并压缩算法，压缩到一个64位的长整形变量中；这是因为无论是以Tmsi或MmeUeS1apId进行用户关联匹配方式的Key，都需要加上mmeGroupID和mmeCode两个完全相等的限定条件，为减少在内存中存放对象个数而导致占用更多的内存和提高匹配效率以及匹配的便捷性目的，将“Tmsi、mmeGroupID、mmeCode”或“mmeUeS1apID、mmeGroupID、mmeCode”三个值，分别通过数字二进制拆位合并算法，压缩到仅一个64位的长整形变量的值中；

两个Map对应的Key分别由“tmsi + mmeGroupID + mmeCode”和“mmeUeS1apid +mmeGroupID + mmeCode”组成，Key采用字节合并位压缩算法将三个字段的值压缩合并到一个64位的长整形变量中；

这样内存更节省，两个Key的包含内容和合并压缩算法如下：

Tmsi或mmeUeS1apid通过去除符号位后并位左移32位放到32-63位，mmeGroupID通过左移8位存放到8-31位，mmeCode存放在低0-7位。

tmsiMap映射表 Key:

((tmsi & 0xFFFFFFFFL) << 32) | (mmeGroupID << 8) | mmeCode

s1apMap映射表 Key:

((mmeUeS1apid & 0xFFFFFFFFL) << 32) | (mmeGroupID << 8) | mmeCode。

同时，Map对应的Value存储的是自定义的UserInfo单向链表对象，并将UserInfo单向链表作为所述用户信息数据结构，包含当前Key对应的所有用户信息；其中，UserInfo对象采用对象池方式，当采集下一批文件时，可以重复利用，而不必重复申请和释放，大幅缩减内存的回收和重新申请时间，进一步提高采集效率。UserInfo数据结构的实现采用了一个包含NextUserInfo字段指向下一个相同Key的另一个用户UserInfo对象的引用，不使用List容器就可以实现单向链表能力，达到更节省内存目的；如果循环迭代查询到NextUserInfo引用的对象为空时，则代表当前Key下的所有用户遍历完成。

其应用的方式，参考图2所示，其中：

UserInfo Pool：预先申请的用户信息缓存池，可以重复使用，避免在采集时，频繁申请和释放用户对象信息UserInfo。

UserInfo: 用户信息对象，包含：

MSISDN：用户手机号；

IMSI：移动用户识别码；

StartTime：用户在核心网侧或S1mme口记录的开始时间；

EndTime：用户在核心网侧或S1mme口记录的结束时间。

Next UserInfo：下一用户信息对象的引用；主要作用是：引用下一个相同Key，但不同用户的UserInfo单向链表对象，通过循环迭代查询，实现遍历该Key下所有用户的能力；作用等同于一种自定义单向链表。

由于同一个用户，在相对连续的活动时间内，被分配的Tmsi、MmeUeS1apid不会变动很频繁。从大量数据中分析发现，正常情况下，5分钟内(我们采集和用户匹配都以5分钟为一个数据单元块)不会出现TMSI或MmeUeS1apid由最初分配给用户A，接着切换分配用户B，然后在5分钟内又重新再分配给用户A的情况。所以在采集的5分钟单元关联缓存中，同一个Key值下的同一用户信息，只需保存一条UserInfo记录，用StartTime、EndTime两个字段分别记录数据在核心网侧出现的起始时间即可实现回填所需业务。通过上述方案优化，可以大幅降低内存冗余数据量，由原来同一个Key和用户下5分钟几百上千条，压缩至成一条数据即可实现业务需求能力。

S104，每个线程采集完成后，将已经生成的两个Map再缓存持久化到磁盘Cache目录中，并记录当前JOB对应的采集单元时间。

具体地，持久化后的文件名格式为：“YYYYMMDDHHMI_JOBID.cache”，其中“YYYY”代表当前采集Job对应的文件数据时间的四位数年份；“MM” 代表当前采集Job对应的文件数据时间的两位数月份；“DD”代表当前采集Job对应的文件数据时间的每月第几号；“HH”代表当前采集Job对应的文件数据时间的小时；“MI” 代表当前采集Job对应的文件数据时间的5分钟粒度分钟数（如：00、05、10、15、…、50、55）；JOBID为当前采集JOB的序号标识，在同一个5分钟采集单元中，JOBID是唯一的。

S105，当文件持久化完成，更新当前采集单元对应已完成Job数量值。

S106，通过缓存合并线程定时扫描所述磁盘Cache目录中，并判断最新出现的数据时间的上一个时间采集单元是否全部完成。

具体地，即，判断最新出现的数据时间的上一个5分钟时间单元是否全部完成；

所述判断最新出现的数据时间的上一个时间采集单元是否全部完成的判断依据是：

根据记录生成的JOB数量和记录的已完成JOB数量，如果相等，则代表上一个时间采集单元周期的文件已全部采集处理完成；其中，对变量的读写和判断是否相等采用原子变量操作方法代替线程同步锁，以避免读写线程休眠而达到更高的读写效率。

S107，若完成，则进行二级合并操作，生成该时间采集单元周期最终的tmsiMap和s1apMap；

当合并线程每合并好一个时间采集单元的数据单元后，将已合并的内存单元提交加入到内存组中，当内存组中的存储单元超限时，则释放时间最早的内存单元；并从释放的内存单元中所引的用户信息UserInfo对象整体回收到对象池中。

具体地，在本实施例中，首先在采集线程中，进行两个Map数据的一级聚合和构建；再利用合并线程对采集线程生成的所有同类型Map进行合并为二级聚合；

当合并线程每合并好一个时间采集单元的数据单元，可理解为：将合并后的5分钟的数据单元作为缓存块，内存组即为对应的动态缓存池；数据单元存放在内存单元中；

合并的数据结构也是和前述的描述一样，生成该5分钟单元周期最终的tmsiMap和s1apMap；

所述合并时，所采用的合并方式为：

扫描所有该合并周期的缓存文件，将第二个到最后一个缓存块的内容合并到第一个缓存块中，如果被合并的缓存块Map中有不同的key，则在第一个缓存块对应的Map中插入新的Key主键和UserInfo值，如果有相同的key，则只需要更新一下当前Key对应UserInfo的StartTime和EndTime即可；所有的采集、合并、及后面的关联线程全部无同步锁；

更新后的StartTime 取合并记录和被合并的记录的时间的最小值，EndTime取合并记录和被合并的记录的时间的最大值，用一个UserInfo对象的两个起始时间字段分别标记该用户核心网侧出现的时间范围，达到同用户的多条数据reduce去重节省内存目的。

本实施例中，可维护一个最新的x个(可设置，如：12个，代表1小时)时间采集单位的数据单元在内存组中，采用多节内存单元管理方式，当内存组中的存储单元超限时，则释放时间最早的内存单元；如，当内存组满时，插入一个“11:00”内存单元，则在原内存组中，先释放掉“10:00”的内存单元；并从释放的内存单元中所引的用户信息UserInfo对象整体回收到对象池中。

S108，通过TCP连接获取无线网侧CDR、MR的批量关联请求；

解析每条需要关联数据的参数。

具体地，TCP远程用户关联服务线程池，通过tcp连接收到无线侧的批量关联请求后，解析每条需要关联数据的参数（tmsi、mmeUes1apid、mmeGroupid、mmeCode和无线网数据时间）。

S109，然后在关联的内存组中，分别在预设时间段范围内的多个连续时间采集单元所对应的内存单元中，找到Key值相同，时差最小的用户信息批量返回，将其作为匹配的最优用户信息结果，实现批量关联回填；如果不在时间段范围内或未找到，则返回未找到标识；其中，具体步骤为：

根据关联数据参数的数据时间，在关联服务模组对应预设时间的前后多个内存组中，若从对应Map找到Key相同，且关联数据参数的数据时间在UserInfo对象的“StartTime”和“EndTime”这个起止时间范围内，即表示匹配相似度为100%，如果不在这个范围内，则匹配相似度计算公式=100 - 无线网数据时间与“StartTime”和“EndTime”的最小差值*时差分数系数；当最小时差大于5分钟，则相似度为0；

具体地，本实施例中，分别在时间范围内的多个连续5分钟内存单元中匹配；参考图3所示，当关联服务线程，收到两条CDR的关联请求，它们的时间戳分别是10:19和10:41；根据预设的时间范围，匹配和无线网时间前后5分钟内最近一条数据，即分别在“10：10至10：20”和“10:35至10:45”的各三个5分钟内存单元块“tmsiMap”、“s1apMap”中匹配Key值相同，且无线网的数据时间在Key对应UserInfo对象的“StartTime”和“EndTime”这个起止时间范围内，即表示匹配相似度为100%，如果不在这个范围内，则匹配相似度计算公式=100 -无线网数据时间与“StartTime”和“EndTime”的最小差值*时差分数系数；当最小时差大于5分钟，则相似度为0；通过上述算法，循环比对UserInfo对象和“Next UserInfo”单向链指向的UserInfo对象，获得满足条件相似度最高的用户信息。

在另一实施例中，在上述技术方案的基础上，所述方法还包括：

上述技术方案，通过文件扫描线程获取核心网侧的待采集数据源文件，并进行JOB分组，每组生成多个JOB任务，并记录生成的JOB数量；然后通过采集池线程进行数据片段内一级聚合，合并线程进行数据单元的最终二级聚合，合并后的数据直接提交给关联模组进行直接关联，使得扫描、采集、合并和关联之间数据无任何耦合、读写分离，数据集合之间全程无任何线程同步锁、信号量、事件等影响CPU处理性能的同步机制；采用自定义的用户信息数据结构，全部实现对象内存池管理，用于申请、回收和复用，缩减了对资源的依赖和内存的回收和重新申请时间，进一步提高采集效率，降低内存冗余数据量，从而克服了现有技术中所带来的巨大内存损耗的缺陷。

实施例二：

基于相同的发明构思，本发明实施例还提供了一种用户信息快速关联回填的装置，如图4所示，包括文件扫描模块、采集模块、合并模块和用户关联模块；

文件扫描模块，用于：

记录每个所述时间采集单元生成的JOB数量；

采集模块，用于：

通过采集线程池的每个子线程，不间断地按时间顺序领取生成的所述JOB任务，并开始采集JOB对应的所有文件，逐条提取文件中的有效用户身份信息，分别生成包含Tmsi、MmeUeS1apid两种组合查询方式的Key主键到两个Map映射表；其中，所述Map映射表包括tmsiMap和s1apMap；并根据记录中的用户身份信息，生成Map映射表Key对应的预定义数据结构UserInfo进行采集；所述两个Map映射表的Key的生成采用字节合并压缩算法，压缩到一个64位的长整形变量中；

应用时，两个Map对应的Key分别由“tmsi + mmeGroupID + mmeCode”和“mmeUeS1apid + mmeGroupID + mmeCode”组成，Key采用字节合并位压缩算法将三个字段的值压缩合并到一个64位的长整形变量中；其中，合并方式为：

合并模块，用于：

具体地，当合并线程每合并好一个时间点的数据单元后，将已合并的内存单元提交给用户关联模块，关联模块维护一个最新的x个(可设置，如：12个，代表1小时)时间采集单位的数据单元在内存组中，采用多节内存单元管理方式，当内存组中的存储单元超限时，则释放时间最早的内存单元。

用户关联模块，用于：

通过TCP连接获取无线网侧CDR、MR的批量关联请求；

解析每条需要关联数据的参数；

相似度大于预设值时，则代表匹配成功，回填对应UserInfo的用户身份信息，否则代表匹配失败；其中，关联服务模组与用户关联模块所表示的含义相同。

实施时，所述用户关联模块，还用于：

需要说明的是，关于装置实施例更为具体的工作流程，请参考前述方法实施例部分，在此不再赘述。

本实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如所述的一种用户信息快速关联回填的方法实施例的步骤。

具体的，计算机可读存储介质可包括缓存（Cache）、高速随机存取存储器（RAM），例如常见的双倍数据率同步动态随机存取内存（DDR SDRAM），并且还可包括非易失性存储器（NVRAM），诸如一个或多个只读存储器（ROM）、磁盘存储设备、闪存（Flash）存储器设备、或其他非易失性固态存储器设备例如光盘（CD-ROM，DVD-ROM），软盘或数据磁带等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种用户信息快速关联回填的方法，其特征在于，所述方法包括：

记录每个所述时间采集单元生成的JOB数量；

通过TCP连接获取无线网侧CDR、MR的批量关联请求；

解析每条需要关联数据的参数；

然后在关联的内存组中，分别在预设时间段范围内的多个连续时间采集单元所对应的内存单元中，找到Key值相同，时差最小的用户信息批量返回，将其作为匹配的最优用户信息结果，实现批量关联回填；如果不在时间段范围内或未找到，则返回未找到标识；具体步骤为：

根据关联数据参数的数据时间，在对应预设时间的前后多个内存组中，若从对应Map找到Key相同，且关联数据参数的数据时间在UserInfo对象的StartTime和EndTime这个起止时间范围内，即表示匹配相似度为100%，如果不在这个范围内，则匹配相似度计算公式=100-无线网数据时间与StartTime和EndTime的最小差值*时差分数系数；当最小时差大于5分钟，则相似度为0；

2.根据权利要求1所述的一种用户信息快速关联回填的方法，其特征在于

两个Map对应的Key分别由tmsi+mmeGroupID+mmeCode和mmeUeS1apid+mmeGroupID+mmeCode组成，Key采用字节合并位压缩算法将三个字段的值压缩合并到一个64位的长整形变量中；其中，合并方式为：

Map对应的Value存储的是自定义的UserInfo单向链表对象，并将UserInfo单向链表作为用户信息数据结构，包含当前Key对应的所有用户信息；其中，UserInfo对象采用对象池方式，当采集下一批文件时，可以重复利用，而不必重复申请和释放；

3.根据权利要求2所述的一种用户信息快速关联回填的方法，其特征在于，所述判断最新出现的数据时间的上一个时间采集单元是否全部完成的判断依据是：

4.根据权利要求3所述的一种用户信息快速关联回填的方法，其特征在于，所述合并时，所采用的合并方式为：

扫描所有合并周期的缓存文件，将第二个到最后一个缓存块的内容合并到第一个缓存块中，如果被合并的缓存块Map中有不同的key，则在第一个缓存块对应的Map中插入新的Key主键和UserInfo值，如果有相同的key，则只需要更新一下当前Key对应UserInfo的StartTime和EndTime即可；

5.根据权利要求1至4中任一所述的一种用户信息快速关联回填的方法，其特征在于，所述方法还包括：

6.一种用户信息快速关联回填的装置，其特征在于，包括文件扫描模块、采集模块、合并模块和用户关联模块；

文件扫描模块，用于：

记录每个所述时间采集单元生成的JOB数量；

采集模块，用于：

合并模块，用于：

用户关联模块，用于：

通过TCP连接获取无线网侧CDR、MR的批量关联请求；

解析每条需要关联数据的参数；

7.根据权利要求6所述的一种用户信息快速关联回填的装置，其特征在于，

8.根据权利要求7所述的一种用户信息快速关联回填的装置，其特征在于，所述合并模块在合并时，所采用的合并方式为：

9.根据权利要求6至8中任一所述的一种用户信息快速关联回填的装置，其特征在于，所述用户关联模块，还用于：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。