CN111813833A

CN111813833A - 一种实时二度通联关系数据挖掘的方法

Info

Publication number: CN111813833A
Application number: CN202010671208.1A
Authority: CN
Inventors: 薛蛟龙; 张文平; 肖飞; 明正莹; 邹君臣
Original assignee: Minbo Technology Wuhan Co ltd
Current assignee: Minbo Technology Wuhan Co ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-10-23
Anticipated expiration: 2040-07-13
Also published as: CN111813833B

Abstract

本发明提出了一种实时二度通联关系数据挖掘的方法，通过实时采集原始话单数据并对所述话单数据预处理从而形成明细数据，将所述明细数据以流式方式写入至满足预设条件的内存数据库中，所述内存数据库根据所述明细数据所处的分区，将计算模式以及所述明细数据调度到相应的分区，在所述内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度通联关系记录数据，从而实现实时二度通联关系数据挖掘。本发明利用内存数据库高吞吐、低延时、算子下沉等特性，实现了增量式的实时二度通联关系的挖掘，解决了传统二度通联关系挖掘的时效性问题，可以实时的获取分析结果，并进行快速决策。

Description

一种实时二度通联关系数据挖掘的方法

技术领域

本发明属于数据挖掘技术领域，特别是涉及一种实时二度通联关系数据挖掘的方法。

背景技术

二度通联关系挖掘是指基于话单数据，以用户与用户的公共的联系人为桥梁，发现他们之间的隐含关系的过程。该技术在电信精准营销、刑侦办案挖掘重点关系人、金融行业的风险监控等场景中有广泛的应用。

传统的二度通联关系的挖掘，用MapReduce的方式，以桥梁联系人为key，把两个通联关系表做join，最终形成二度通联关系表，Join需要传输大量数据，同时MapReduce在shuffle过程中中间结果需要多次排序和落地到HDFS，占用大量的内存和带宽。或者采用分布式图计算的方式，以联系人作为图的定点，以联系人之间之间的通话关系作为边，利用Spark Graphx、Flink Gelly等分布式图计算框架进行二度通联关系的挖掘，这些分布式图计算框架在内存使用效率、任务调度和并发性上面有了显著的优化，但是也只能基于有界数据，每次计算需要加载全部历史数据，内存资源需求大、计算周期长，得出的计算结果的时效性也较差。

发明内容

为解决上述技术问题，本发明提出了一种实时二度通联关系数据挖掘的方法。通过定义共享数据模型，并利用内存数据库高吞吐、低延时、算子下沉等特性，实现了增量式的实时二度通联关系的挖掘，解决了传统二度通联关系挖掘的时效性问题，可以实时的获取分析结果，并进行快速决策。

根据本发明的实施例，本发明提出了一种实时二度通联关系数据挖掘的方法，所述方法包括：

实时采集原始话单数据并对所述话单数据预处理以形成明细数据；

将所述明细数据以流式方式写入至满足预设条件的内存数据库中，所述内存数据库根据所述明细数据所处的分区，将计算模式以及所述明细数据调度到相应的分区，在所述内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度通联关系记录数据，从而实现实时二度通联关系数据挖掘。

在一个实施例中，所述实时采集原始话单数据并对所述话单数据预处理以形成明细数据，具体包括：

实时采集原始话单数据加入到消息队列中，从所述消息队列中提取数据进行预处理，去掉非法数据以及冗余数据，并与维表关联形成明细数据。

在一个实施例中，所述原始话单数据包括发起人ID、接收人ID、发起时间、联系时长。

在一个实施例中，所述从所述消息队列中提取数据进行预处理，去掉非法数据以及冗余数据，并与维表关联形成明细数据，还包括：

对采集的原始话单数据进行逐条数据的合法性检测，若当前数据合法，则进入下一步，否则丢弃当前数据并继续检查下一条数据的合法性；

采用布隆过滤器对经过合法性检查的数据进行冗余性检测，如果是冗余数据则丢弃，并继续检测下一条数据，如果不是冗余数据则进入下一步；

将经过冗余性检测的数据与维表数据关联，从而形成明细数据。

在一个实施例中，合法性检测的步骤包括：

整条记录的长度是否正确，如果正确则判定合法，否则判定为非法；

整条记录中联系发起人字段是否存在，如果存在则判定合法，否则判定为非法；

整条记录中联系接收人字段是否存在，如果存在则判定合法，否则判定为非法；

整条记录中通话时长字段是否存在，如果存在则判定合法，否则判定为非法；

整条记录中通话开始时间是否存在，如果存在则判定合法，否则判定为非法；

通话开始时间的格式是否正确，如果正确则判定合法，否则判定为非法。

在一个实施例中，所述冗余性检测的步骤包括：

读取满足合法性检测的数据；

提取数据中的发起人、接收人、通话开始时间3个字段；

使用布隆过滤器进行计算，并把计算结果与位图进行位与操作；

判断位与结果是否为0，如果为0则判定为不冗余，否则判定为冗余。

在一个实施例中，所述满足预设条件的内存数据库包括，所述内存数据库具有弹性扩展的分布式架构、支持多并发读写、高吞吐且毫秒级的延时、断电重启不会丢失数据的持久化存储以及算子下沉模式功能。

在一个实施例中，在所述内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度关系数据，具体包括：

内存数据库客户端获取数据分桶信息，并根据所述明细数据中发起人、接收人两个字段计算数据所处分桶位置，并定位到对应的服务器；

内存数据库客户端生成明细数据执行聚合任务实例，并与明细数据一起序列化之后，提交到服务器；

所述服务器在接收到所述聚合任务实例后，执行数据聚合逻辑，生成或更新聚合数据记录；

根据更新后的聚合数据记录，生成新的二度关系计算任务，并将其插入二度关系计算任务缓冲区中；

二度关系计算任务缓冲区对计算任务进行合并、调度和执行，最后生成二度通联关系记录。

在一个实施例中，所述服务器在接收到所述聚合任务实例后，执行数据聚合逻辑，生成或更新聚合数据记录，包括：根据任务实例中记录的发起人、接收人两个字段查询本地聚合数据表；查询获得聚合数据记录，如果不存在则创建该记录；如果存在，则进行更新，更新聚合数据记录中的通话次数、最长通话时间、总通话时长字段。

在一个实施例中，所述二度关系计算任务缓冲区对计算任务进行合并、调度和执行，最后生成二度通联关系记录，包括：

查询本地聚合数据表，分别找出该表中发起人ID等于二度关系计算任务中接收人ID的记录、接收人ID等于二度关系计算任务中发起人ID的记录，再分别以二度关系计算任务的发起人和接收人ID的记录的接收人组成二元组、以发起人ID的记录的发起人和二度关系计算任务的接收人组成二元组，将组成的两个二元组插入到二度关系计算任务的结果集中；

迭代结果集中的每一条记录，更新二度关系表，最后生成二度通联关系记录。

本发明为解决传统二度通联关系挖掘的时效性问题，提出了一种实时二度通联关系数据挖掘的方法，通过实时采集原始话单数据并对所述话单数据预处理从而形成明细数据，将所述明细数据以流式方式写入至满足预设条件的内存数据库中，所述内存数据库根据所述明细数据所处的分区，将计算模式以及所述明细数据调度到相应的分区，在所述内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度通联关系记录数据，从而实现实时二度通联关系数据挖掘。本发明通过定义共享数据模型，并利用内存数据库高吞吐、低延时、算子下沉等特性，实现了增量式的实时二度通联关系的挖掘，解决了传统二度通联关系挖掘的时效性问题，可以实时的获取分析结果，并进行快速决策。

附图说明

图1为本发明提出的实时二度通联关系数据挖掘的方法流程图；

图2为本发明提出的实时二度通联关系数据挖掘的方法数据处理过程一实施例图；

图3为本发明提出的实时二度通联关系数据挖掘的方法中形成明细数据的流程图；

图4为本发明提出的实时二度通联关系数据挖掘的方法中得到二度关系数据的流程图；

图5为本发明提出的实时二度通联关系数据挖掘的方法中原始操作数据层数据表字段示意图；

图6为本发明提出的实时二度通联关系数据挖掘的方法中明细数据层数据表字段示意图；

图7为本发明提出的实时二度通联关系数据挖掘的方法中聚合数据层数据表字段示意图；

图8为本发明提出的实时二度通联关系数据挖掘的方法中应用数据层数据表字段示意图示意图；

图9为本发明提出的实时二度通联关系数据挖掘的方法中原始操作数据与维表关联示意图；

图10为本发明提出的实时二度通联关系数据挖掘的方法中生成二度通联关系记录的过程示意图。

具体实施方式

为便于理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1.

如图1所示，本发明提出了一种实时二度通联关系数据挖掘的方法，该方法包括：

步骤S100.实时采集原始话单数据并对所述话单数据预处理以形成明细数据；

步骤S200.将所述明细数据以流式方式写入至满足预设条件的内存数据库中，所述内存数据库根据所述明细数据所处的分区，将计算模式以及所述明细数据调度到相应的分区，在所述内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度通联关系记录数据，从而实现实时二度通联关系数据挖掘。

在本发明中，原始话单数据包括发起人ID、接收人ID、发起时间、联系时长。

根据本发明的实施例，在步骤S101中，如图2所示，101话单采集装置实时采集原始话单数据102(ODS)并加入消息队列103中，实时计算引擎104从消息队列103中消费数据，清洗处理掉非法数据以及冗余数据，并与维表关联形成明细数据105(DWD)，以减少后续计算量，提高资源利用率。处理之后的数据以流式写入提交到内存数据库109中。如图3所示，清洗处理掉非法数据以及冗余数据具体包括：

S101.对采集的原始话单数据进行逐条数据的合法性检测，若当前数据合法，则进入下一步，否则丢弃当前数据并继续检查下一条数据的合法性；

S102.采用布隆过滤器对经过合法性检查的数据进行冗余性检测，如果是冗余数据则丢弃，并继续检测下一条数据，如果不是冗余数据则进入下一步；

S103.将经过冗余性检测的数据与维表数据关联，从而形成明细数据。

根据本发明的实施例，在进行步骤S101中的合法性检测时，包括如下步骤：

在在进行步骤S102中的冗余性检测时，包括如下步骤：

读取满足合法性检测的数据；

提取数据中的发起人、接收人、通话开始时间3个字段；

在步骤S200中，本发明通过设置预设条件来选择内存数据库，在本发明的实施例中，对内存数据的五个特征进行分析，包括系统架构、性能、数据可靠性，自带计算能力，访问接口，得到分析结果，基于该分析结果来判断内存数据库是否满足实时二度通联关系挖掘场景的特点。在二度通联关系挖掘的场景中，内存数据库主要存储三类数据，分别是中间计算结果，保存实时计算过程中状态，用来在发生故障时需要恢复现场；最终结果；维表数据，需要实时关联事实数据。通过分析内存数据库要存储的数据内容，以及数据访问特性，需要内存数据库满足如下特点：分布式架构，可以弹性扩展；需要比较好地支持多并发读写，高吞吐、并且延时需要在毫秒级；具备持久化存储能力，断电重启不会丢失数据；具备算子下沉的能力，并且能够根据数据的分布情况来迁移计算到数据所在节点，降低数据访问延时，提高计算效能；支持多种数据模型接口，既可以通过kv的方式进行简单的数据更新，也支持通过SQL的方式进行复杂数据查询，并且做到接口访问互通。

在本步骤中，如图2所示，内存数据库109采用流式方式接收数据，并将排序、合并等计算操作下沉到内存数据库中，根据数据所处的分区，将计算任务107调度到相关的分区，降低数据访问延时，提高计算速度。最后将计算的结果，聚合数据106(DWS)和二度通联关系108(ADS)再写入内存数据库109中。

在本实施例中，如图4所示，在内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度通联关系记录数据，从而实现实时二度通联关系数据挖掘，具体包括：

S201.内存数据库客户端获取数据分桶信息，并根据所述明细数据中发起人、接收人两个字段计算数据所处分桶位置，并定位到对应的服务器；

S202.内存数据库客户端生成明细数据执行聚合任务实例，并与明细数据一起序列化之后，提交到服务器；

S203.所述服务器在接收到所述聚合任务实例后，执行数据聚合逻辑，生成或更新聚合数据记录；

S204.根据更新后的聚合数据记录，生成新的二度关系计算任务，并将其插入二度关系计算任务缓冲区中；

S205.二度关系计算任务缓冲区对计算任务进行合并、调度和执行，最后生成二度通联关系记录。

在本实施例中，步骤S203中的所述服务器在接收到所述任务实例后，执行数据聚合逻辑，生成或更新聚合数据记录，包括：根据任务实例中记录的发起人、接收人两个字段查询本地聚合数据表；查询获得聚合数据记录，如果不存在则创建该记录；如果存在，则进行更新，更新聚合数据记录中的通话次数、最长通话时间、总通话时长字段。

在本实施例中，步骤S205中的二度关系计算任务缓冲区对计算任务进行合并、调度和执行，最后生成二度通联关系记录，包括：

实施例2.

本发明提出了一种实时二度通联关系数据挖掘的方法，该方法中需要对话单数据进行加工分析，在本实施例中给出了基于该数据加工过程的四个层次结构，具体为：

原始操作数据层(ODS)，明细数据层(DWD)，聚合数据层(DWS)和应用数据层(ADS)。原始操作数据层原始的话单数据，包括主叫，被叫，通话开始时间，通话时长等内容。这些数据因为信号波动、设备故障等原因，导致大量的非法和冗余数据产生，需要进行清洗。另外，为了减少后续关系挖掘过程中的join操作，需要提前将原始操作数据与维表数据进行关联，形成明细数据宽表。明细数据层就是ODS数据经过清洗并与维表关联之后形成的。在二度关系挖掘的过程中，一度联系人之间的通话次数、累积通话时长、最长通话时长等都是比较重要的特征，这些特征是通过多条明细数据聚合而成的，聚合数据层就包含了这些聚合之后的结果。最终挖掘出来的结果数据，也就是二度关系数据存放在ADS层，对应用提供访问。

基于上述步骤中划分的层次结构，分别定义各层次的数据表结构。参看图5，原始操作数据层(ODS)表主要包含发起人ID、接收人ID、发起时间、联系时长。参看图6，明细数据层(DWD)表主要包含发起人ID、发起人姓名、发起人所属区域ID、发起人所属区域、发起人职业ID、发起人职业、接收人ID、接收人姓名、接收人所属区域ID、接收人所属区域、接收人职业ID、接收人职业、发起时间、联系时。参看图7，聚合数据层(DWS)表主要包含发起人ID、发起人姓名、发起人所属区域ID、发起人所属区域、发起人职业ID、发起人职业、接收人ID、接收人姓名、接收人所属区域ID、接收人所属区域、接收人职业ID、接收人职业、联系次数、最长联系时长、权重。参看图8，应用数据层(ADS)表主要包含发起人ID、发起人姓名、发起人所属区域ID、发起人所属区域、发起人职业ID、发起人职业、二度联系人ID、二度联系人姓名、二度联系人所属区域ID、二度联系人所属区域、二度联系人职业ID、二度联系人职业、评分，如图9所示，将经过合法性以及冗余性检测清洗过的数据与维表数据进行关联，从而形成明细数据。。

在本实施例中，如图10所示，内存数据库采用流式方式接收数据，并将排序、合并等计算操作下沉到内存数据库中，根据数据所处的分区，将计算调度到相关的分区，降低数据访问延时，提高计算速度。最后将计算的结果再写入内存数据库中。

(1)内存数据库客户端1201获取数据分桶信息，并根据明细数据1202中发起人、接收人两个字段计算数据所处分桶位置，并定位到对应的服务器1203；

(2)内存数据库客户端生成明细数据执行聚合任务实例1204，并与明细数据一起序列化之后，提交到1203

(3)1203在接收到聚合任务实例1204后，执行数据聚合逻辑，生成或更新聚合数据记录1206，过程如下：

根据1204中记录的发起人、接收人两个字段查询本地聚合数据表1205；

查询获得聚合数据记录1206，如果不存在则创建该记录；

更新聚合数据记录1206中的通话次数、最长通话时间、总通话时长字段；

(4)1203根据更新后的聚合数据记录1206，生成新的二度关系计算任务1207，并将其插入二度关系计算任务缓冲区1208中

(5)二度关系计算任务缓冲区1208对计算任务进行合并、调度和执行，最后生成二度通联关系记录1209，过程如下：

查询本地聚合数据表1205，找出该表中发起人ID等于计算任务1207中接收人ID的记录1210，以1207的发起人和1210的接收人组成二元组，插入到1207的结果集1212中；

查询本地聚合数据表1205，找出该表中接收人ID等于计算任务1207中发起人ID的记录1211，以1211的发起人和1207的接收人组成二元组，插入到1207的结果集1212中；

迭代结果集1212中的每一条记录，更新二度关系表1213。从而实现实时二度通联关系数据挖掘。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种实时二度通联关系数据挖掘的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的实时二度通联关系数据挖掘的方法，其特征在于，所述实时采集原始话单数据并对所述话单数据预处理以形成明细数据，具体包括：

3.根据权利要求2所述的实时二度通联关系数据挖掘的方法，其特征在于，所述原始话单数据包括发起人ID、接收人ID、发起时间、联系时长。

4.根据权利要求3所述的实时二度通联关系数据挖掘的方法，其特征在于，所述从所述消息队列中提取数据进行预处理，去掉非法数据以及冗余数据，并与维表关联形成明细数据，还包括：

5.根据权利要求4所述的实时二度通联关系数据挖掘的方法，其特征在于，合法性检测的步骤包括：

6.根据权利要求4所述的实时二度通联关系数据挖掘的方法，其特征在于，所述冗余性检测的步骤包括：

读取满足合法性检测的数据；

提取数据中的发起人、接收人、通话开始时间3个字段；

7.根据权利要求1所述的实时二度通联关系数据挖掘的方法，其特征在于，在所述满足预设条件的内存数据库包括，所述内存数据库具有弹性扩展的分布式架构、支持多并发读写、高吞吐且毫秒级的延时、断电重启不会丢失数据的持久化存储以及算子下沉模式功能。

8.根据权利要求7所述的实时二度通联关系数据挖掘的方法，其特征在于，所述内存数据库中对所述明细数据执行数据聚合逻辑，并实时计算出二度关系数据，具体包括：

内存数据库客户端生成明细数据聚合执行任务实例，并与明细数据一起序列化之后，提交到服务器；

所述服务器在接收到所述任务实例后，执行数据聚合逻辑，生成或更新聚合数据记录；

9.根据权利要求8所述的实时二度通联关系数据挖掘的方法，其特征在于，所述服务器在接收到所述任务实例后，执行数据聚合逻辑，生成或更新聚合数据记录，包括：根据任务实例中记录的发起人、接收人两个字段查询本地聚合数据表；查询获得聚合数据记录，如果不存在则创建该记录；如果存在，则进行更新，更新聚合数据记录中的通话次数、最长通话时间、总通话时长字段。

10.根据权利要求8所述的实时二度通联关系数据挖掘的方法，其特征在于，所述二度关系计算任务缓冲区对计算任务进行合并、调度和执行，最后生成二度通联关系记录，包括：