CN106599104B

CN106599104B - 一种基于redis集群的海量数据关联方法

Info

Publication number: CN106599104B
Application number: CN201611072241.2A
Authority: CN
Inventors: 王雪松; 肖志东
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2022-01-11
Anticipated expiration: 2036-11-29
Also published as: CN106599104A

Abstract

本发明公开了一种基于redis集群的海量数据关联方法。本方法为：1)创建Redis内存数据库集群，采用内存数据库redis存储基础数据；其中，采用zset对关键字为IP地址、基础数据为IP地址段的数据进行存储，采用json格式以字符串形式对其他基础数据进行存储；2)在关联系统中配置一标准化关联策略文件；3)关联系统根据该标准化关联策略文件，从日志数据中挑选设定的关联字段形成关联key，然后根据该key值从内存数据库redis中关联出匹配的基础数据；4)关联系统根据该标准化关联策略文件中配置的回填字段信息，将关联出的基础数据填入该日志数据的对应字段。本发明方便数据的解析和关联、提升数据处理能力。

Description

一种基于redis集群的海量数据关联方法

技术领域

本发明涉及计算机信息安全技术领域，是一种基于redis的，针对海量实时数据流的、高实时性、高可靠性、高稳定性的关联方法。

背景技术

随着信息技术的发展，尤其是大数据时代的到来,越来越多的行业需要对不同来源的数据进行关联融合，挖掘出数据的最大价值。比如WXXA行业需要用户无线上网日志数据关联，以日志数据中的隧道号为关键字,查询基础认证数据库,将查找到的相关数据(主叫号码，IMSI，设备号)回填到日志数据中，供后续各个业务模块使用。

传统的数据关联方法大致分为两类：

一、将格转后的基础数据存入单节点系统的内存链表中，对链表查询进行业务关联处理。这种方法无法全局使用基础数据，关联率低。尤其是当基础数据量达到一定量的时候，会受限于服务器内存大小，而且数据存储不持久，一旦服务器停机，基础数据会丢失，造成数据的使用率低。

二、采用硬编码的方式在实时数据中进行关联。此种方式能满足时效性的要求，但是当面对种类繁多、类型多变且大批量的的业务规则时，开发人员很难对此作出及时响应，业务人员也无法单独进行业务部署。

综上所述，海量数据实时关联系统需要：

1)实时性：面向实时数据流；规则实时生效。

2)可扩展：能够由业务人员单独进行规则的编写管理。

3)可定制：可支持多个关联业务场景。

4)可靠性：巨量的日志数据和巨量的基础数据就决定了系统必须要有足够的稳定性和健壮性。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种满足上述实时关联系统要求的数据关联方法，保证数据的实时性，保证关联规则可扩展、可定制、并且能够实时更新，保证系统的稳定健壮。

本发明的技术方案为：

一种基于redis集群的海量数据关联方法，其步骤为：

1)创建Redis内存数据库集群，采用内存数据库redis存储基础数据；

2)在关联系统中配置一标准化关联策略文件，其包括协议类型、过滤条件、关联字段和回填字段信息；

3)关联系统根据该标准化关联策略文件，从日志数据中挑选设定的关联字段形成关联key，然后根据该key值从内存数据库redis中关联出匹配的基础数据；

4)关联系统根据该标准化关联策略文件中配置的回填字段信息，将关联出的基础数据填入该日志数据的对应字段。

进一步的，所述标准化策略文件包括redis数据库创建规则和redis数据库关联操作规则；其中，redis数据库创建规则包括关联类型、协议类型、需要回填的字段、关联字段、过滤条件和集群类型；redis数据库关联操作规则包括关联类型、协议类型、关联字段、过滤条件和集群类型。

进一步的，步骤1)中，采用zset对关键字为IP地址、基础数据为IP地址段的数据进行存储，采用json格式以字符串形式对其他基础数据进行存储。

进一步的，所述基础数据为无线基础数据，以隧道号作为key，以截获时间、手机号码、IMSI号和硬件序列号组成的json串作为value，将无线基础数据存储到内存数据库redis中。

进一步的，所述基础数据为IP段基础数据，以IP类型为key，对于每段IP，以IP所在的地市编码分别连接IP段起始值、字符串end作为成员，同时IP段的起始值和终止值分别为其分数，将IP段基础数据存储到内存数据库redis中中的SortedSet集合，Sortedset集合为value。

进一步的，所述Redis内存数据库集群采用cluster和master-slave模式。

与现有技术相比，本发明的积极效果：

1.本发明将关联的规则以xml配置文件的形式表示，清晰可扩展，可定制。

2.关联的基础数据采用json串的形式的存储，方便数据的解析和关联，同时也降低了编码的难度。

3.在处理日志数据的同时可以实时增量加载基础数据，因为采用的redis集群模式，所有的系统节点共享基础数据，这不仅减少了基础数据的拷贝，而且保证关联数据的全局一致性，不会出现某些系统节点由于基础数据的缺失而导致关联失败。

4.根据不同的业务场景采用不同的集群模式(master-slave和cluster)，可以增强关联效果，提升数据处理能力。

附图说明

图1为本发明的数据关联系统图；

图2为redis集群结构图；

图3为本发明的数据关联方法流程图。

具体实施方式：

下面结合附图，进一步详细描述本发明的实施例：

本框架主要包含标准化关联策略配置，redis内存数据库集群，日志数据关联系统。

·标准化关联策略文件的设计和组成

标准化关联策略文件用标准化可扩展xml语言描述，由协议类型，过滤条件，关联字段(即进行关联的关键字)，回填信息等部分组成，如下代码所示。

其中<BuildDbField>标签包含的内容是创建redis数据库的规则：

关联类型(Type)：定义动态关联(String)或者静态关联(IP)。

协议类型(Data_Set)：定义基础数据类型。

回填的字段(<DestElement>标签)：定义需要回填的字段信息。

关联字段(<Expression>标签)：定义进行关联的字段信息。

过滤条件(<condition>标签)：定义基础数据源，支持与、或逻辑表达式。用来控制是否加载当前基础数据，以及是否对此基础数据建立redis内存数据库。

集群类型(SystemType):定义主从模式(master-slave)和集群模式(cluster)。

其中<QueryDbField>标签包含的内容是查询redis基础数据库进行关联操作的规则：

关联类型(Type)：定义动态关联(String)或者静态关联(IP)。

协议类型(SubDataSet)：定义日志数据类型。

关联字段(<Expression>标签)：定义进行关联的字段信息。

过滤条件(<condition>标签)：定义基础数据源，支持与、或逻辑表达式。

标准化关联策略文件由开发人员根据标准提供默认配置，业务人员可单独进行业务部署。

·基础数据在Redis内存数据库中的存储

基础数据在redis库中主要有两种类型：String(字符串)和SortedSet(有序集合)。

对于关键字为IP地址，IP地址段的基础数据采用zset进行存储。其它都采用json格式以sting形式存储，因为json格式的string串，不但表达清晰，而且具体字段解析方便。

例如：

1)无线基础数据

以隧道号(上行/下行)作为key

以截获时间、手机号码、IMSI号和硬件序列号组织成json串作为value。

做关联操作时，如果某条用户上网日志数据中的隧道号在redis库中存在以其作为key的记录，就将key对应的value中的字段值填入日志数据。

2)对于IP段基础数据

以IP类型为key

对于每段IP，以IP所在的地市编码分别连接IP起始值、字符串“end”作为成员，同时IP段的起始值和终止值分别为其分数。存入redis中的SortedSet集合。Sortedset集合为value，Sortedset集合中包含有成员，分数相当于每个成员的权重。

例如北京ip地址段202.108.111.10—202.108.111.255通过以下命令

zadd ipstatic 3396103946 001001_3396103946

zadd ipstatic 3396104191 001001_end

作关联操作时，通过命令：

zrangebyscore ipstaticip_value+inf LIMIT 0 1

从ipstatic集合中找第一个大于ip_value的成员，

a)返回结果非空

1)如果其成员以字符串”_end”结尾(上例中是001001_end)，说明ip_value属于001001地市；

2)否则如果以数字结尾(上例中是001001_3396103946)，将001001_3396103946的后半部分与ip_value进行比较，相等说明ip_value属于001001地市，不相等则不属于任何地市。

b)返回结果为空，关联失败。

·Redis内存数据库集群设计如图2所示。

本发明采用redis3.0支持的cluster和master-slave模式，采用cluster支持动态扩容，减少带宽压力。master-slave模式，使得每个node都有一个或者多个slave节点，当master节点失效后，相应的slave节点被提升为新的master来代替之前的master的功能，提高系统的可用性。

·日志数据关联系统

系统接入海量日志数据，经过归一化、提取等处理后形成海量的结构化数据。

关联系统根据标准化关联策略文件中配置的字段，从海量日志数据中挑选指定字段形成关联key，然后根据key值从redis库中关联出匹配的基础数据，最后依据标准化关联策略文件将关联出的基础数据填入日志数据中的特定字段，即策略文件中的回填字段(由编码指定，如：C050001)。

实施例

如下策略为业务数据根据认证账号回填手机号码的关联策略。

按照流程顺序描述如下：

首先，关联模块会根据BuildDBField标签中的DataSet＝"WA_BASIC_0021"和Conditions标签中的<Condition Element＝""Value＝"124"/>条件对基础数据进行筛选，如果基础数据的大协议为WA_BASIC_0021且数据源为124，则该条数据符合关联存储条件。关联模块会以Expression标签中的B040022编码的值为key，DestElement标签中B050004的值为value存储到cluster模式的redis集群中。

其次，关联模块会根据QueryDBField标签中的SubDataSet＝"WA_SOURCE"和Conditions标签中的<Condition Element＝""Value＝"124"/>条件对业务数据进行筛选，如果业务数据的大协议名前九位为WA_SOURC且数据源为124，则该条数据符合关联查询条件。关联模块会以Expression标签中的B040022编码的值为key，去cluster模式的集群中进行查询。当返回的jason串中存在编码B050004的值时，则关联模块会将此编码的值回填到业务数据B050004的字段上。

至此，关联模块的基础数据存储及业务数据查询回填完成，关联动作完成。

Claims

1.一种基于redis集群的海量数据关联方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，所述标准化关联策略文件包括redis数据库创建规则和redis数据库关联操作规则；其中，redis数据库创建规则包括关联类型、协议类型、需要回填的字段、关联字段、过滤条件和集群类型；redis数据库关联操作规则包括关联类型、协议类型、关联字段、过滤条件和集群类型。

3.如权利要求1或2所述的方法，其特征在于，步骤1)中，采用zset对关键字为IP地址、基础数据为IP地址段的数据进行存储，采用json格式以字符串形式对其他基础数据进行存储。

4.如权利要求1或2所述的方法，其特征在于，所述基础数据为无线基础数据，以隧道号作为key，以截获时间、手机号码、IMSI号和硬件序列号组成的json串作为value，将无线基础数据存储到内存数据库redis中。

5.如权利要求1或2所述的方法，其特征在于，所述基础数据为IP段基础数据，以IP类型为key，对于每段IP，以IP所在的地市编码分别连接IP段起始值、字符串end作为成员，同时IP段的起始值和终止值分别为其分数，将IP段基础数据存储到内存数据库redis中的SortedSet集合，Sortedset集合为value。

6.如权利要求1或2所述的方法，其特征在于，所述Redis内存数据库集群采用cluster和master-slave模式。