CN112446556A

CN112446556A - 基于表示学习和行为特征的通信网用户呼叫对象预测方法

Info

Publication number: CN112446556A
Application number: CN202110106920.1A
Authority: CN
Inventors: 刘峤; 蓝天; 曾义夫; 代婷婷; 宋明慧; 周乐; 孙建强; 曾维智; 吴祖峰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-03-05
Anticipated expiration: 2041-01-27
Also published as: CN112446556B

Abstract

本发明提供基于表示学习和行为特征的通信网用户呼叫对象预测方法，属于通信网络用户行为分析技术领域，包括：随机生成通信网络中各通信节点的初始向量，构造呼叫顺序网络；根据各用户呼叫历史记录提取三元组集合，构造并训练由LSTM循环神经网络和双线性层堆叠而成的图表示学习模型，获得所有通信节点的更新后通信节点向量；构造并训练由并行的通信时长‑位置加权层和双向‑长期短期记忆神经网络，堆叠前馈神经网络和双线性层而成的呼叫对象预测模型；待预测用户历史呼叫记录基于更新后通信节点向量和训练后呼叫对象预测模型，实现预测。本发明基于用户呼叫历史记录分析，根据通信节点拓扑信息、通信顺序信息和用户长短期行为特征实现预测。

Description

基于表示学习和行为特征的通信网用户呼叫对象预测方法

技术领域

本发明属于通信网络用户行为分析技术领域，具体涉及基于表示学习和行为特征的通信网用户呼叫对象预测方法。

背景技术

随着信息技术的更新换代，近年来移动通信工具特别是智能手机得到迅速普及，极大方便了人们的生活，并产生了海量的用户通信行为历史数据。然而，便捷的通信工具也成为了违法犯罪团伙的联系和组织手段，由于犯罪团伙组织的隐蔽性和执法人员侦察的滞后性，针对通信网络中用户的下一次通信对象预测已成为一个十分重要且有价值的问题，可有效辅助相关执法部门准确预测目标用户未来可能的通信对象从而提前开展通信监听与行动部署，可为例如公共安全领域中的维稳反恐等工作提供支持，具有广泛的应用前景。

然而，在大规模的用户呼叫历史行为数据中进行目标用户的下一次通信对象预测存在很多困难：首先，电信运营商多元化的服务与用户数据的迅速增长产生了海量的用户数据，往往一个市级范围内的通信数据中就含有千万级的用户，计算量大导致传统方法很难有效处理；另外，用户在通信网络中并不是独立存在的个体，而是存在关联并形成通信网络，并且用户的呼叫历史记录中蕴含了通信优先顺序等信息，仅考虑用户呼叫历史记录统计特征的通信对象预测方法或者仅针对用户在通信网中节点相似性的通信对象预测方法能力有限；此外，现有的对通信网中用户行为的研究主要聚焦在通信网整体流量变化分析，伪造号码识别，诈骗电话检测等问题上，对用户下一次通信对象的预测问题缺乏现成技术方案和深度研究。

因此，需要提出一种智能有效的通信对象预测方法，能够基于海量数据，将用户所在通信网络中拓扑信息与用户呼叫历史行为中的用户行为特征相结合，基于表示学习和深度学习的用户呼叫对象预测方法，准确高效的预测用户下一次的通信对象，从而满足公共安全等领域相关部门机构针对通信网用户的侦察和监控需求。

发明内容

本发明针对上述现有技术中存在的问题，提出了基于表示学习和行为特征的通信网用户呼叫对象预测方法，通过分析用户呼叫历史行为所产生的海量数据，预测用户的下一次呼叫对象。

本发明所采用的技术方案如下：

基于表示学习和行为特征的通信网用户呼叫对象预测方法，其特征在于，包括以下步骤：

步骤1：随机生成通信网络中各通信节点的初始向量

，得到通信节点初始向量集合

；其中，|V|为通信网络中通信节点的总个数；

步骤2：根据通信网络中各用户呼叫历史记录中的通信节点被呼叫的先后顺序构造呼叫顺序网络G={V,E}；其中，V为通信节点集合

，E为V中各通信节点之间联系的集合，即用户呼叫通信节点

之后，呼叫另一个通信节点

，那么会存在联系

，

，

；

步骤3：定义步骤2所得呼叫顺序网络G={V,E}中的一条由起始通信节点

、其次通信节点

和最终通信节点

组成的通信顺序路径为一个三元组

，

，根据通信网络中各用户呼叫历史记录提取三元组集合

，作为图表示学习模型的训练集；

步骤4：构造并训练由LSTM（Long Short-Term Memory，长短期记忆网络）循环神经网络和双线性（Bi-Linear）层堆叠而成的图表示学习模型，得到各通信节点的更新后通信节点向量，具体步骤如下：

步骤4.1：从步骤3所得三元组集合

中随机抽取N个三元组作为所述图表示学习模型的一次批处理训练的训练数据

，

为起始通信节点的下标，

为其次通信节点的下标，

为最终通信节点的下标，

为训练数据中第j个三元组的起始通信节点，

为训练数据中第j个三元组的其次通信节点，

为训练数据中第j个三元组的最终通信节点；将

中各三元组的起始通信节点和其次通信节点的初始向量组成输入序列

，作为图表示学习模型中LSTM循环神经网络的输入，最终通信节点

作为图表示学习模型的训练目标；

步骤4.2：将输入序列

输入至时间步步长为2的 LSTM循环神经网络，所述LSTM循环神经网络的公式为：

其中，

为sigmoid激活函数；p表示当前时间步；

，为 LSTM循环神经网络当前时间步的输入向量，在第一时间步中

为

，在第二时间步中

为

；

为输入门；

为忘记门；

为输出门；

为LSTM循环神经网络当前时间步的内部记忆单元；

为LSTM循环神经网络上一时间步的内部记忆单元；

为作用于当前时间步输入的输入门权重矩阵；

为作用于上一时间步输出的输入门权重矩阵；

为作用于当前时间步输入的忘记门权重矩阵；

为作用于上一时间步输出的忘记门权重矩阵；

为作用于当前时间步输入的输出门权重矩阵；

为作用于上一时间步输出的输出门权重矩阵；

为作用于当前时间步输入的内部记忆单元权重矩阵；

为作用于上一时间步输出的内部记忆单元权重矩阵；

为当前时间步的输出状态；

为上一时间步的输出状态，在第一时间步中

为0；

得到输入序列

在LSTM循环神经网络第一时间步和第二时间步的输出，分别为

和

；

步骤4.3：将

作为双线性层的输入，得到通信网络中各通信节点的概率分布

，即用户呼叫

、

后接下来呼叫各通信节点的概率；所述双线性层的公式为：

其中，

为图表示学习模型中双线性层的权值矩阵；

为通信节点初始向量集合

的转置；

为输入为训练集中第j个三元组时，第一个通信节点

被预测到的概率；

为输入为训练集中第j个三元组时，第二个通信节点

被预测到的概率；

为输入为训练集中第j个三元组时，第|V|个通信节点

被预测到的概率；

步骤4.4：以最终通信节点

为图表示学习模型的训练目标，使用反向传播算法对图表示学习模型进行训练，得到初次训练后图表示学习模型和更新后通信节点向量

、

，所述反向传播算法所采用的目标损失函数为

与最终通信节点

的平均交叉熵损失

：

其中，

为一次批处理训练的训练数据中第j个三元组的最终通信节点

被预测到的概率；

步骤4.5：基于训练集

中的所有三元组，重复步骤4.1~4.4，依次对步骤4.4所得初次训练后图表示学习模型进行训练，得到训练完成的图表示学习模型和通信网络中所有通信节点的更新后通信节点向量；

步骤5：构造并训练呼叫对象预测模型，所述呼叫对象预测模型由并行的通信时长-位置加权层和双向-长期短期记忆（Bi-LSTM）神经网络，堆叠前馈神经网络和双线性层而成；具体步骤如下：

步骤5.1：基于步骤4所得所有通信节点的更新后通信节点向量，根据随机一条用户呼叫历史记录，获得对应的更新后通信节点向量序列

，将更新后通信节点向量序列

中的向量序列

作为呼叫对象预测模型中通信时长-位置加权层和双向-长期短期记忆神经网络的输入，

作为呼叫对象预测模型的训练目标；其中，T为用户呼叫历史记录的通信节点长度；

步骤5.2：将向量序列

作为通信时长-位置加权层的输入，计算得到用户呼叫历史记录中各通信节点在该用户呼叫历史记录中关于位置和通信时长的长期行为特征

：

其中，

为用户呼叫历史记录中第t个更新后通信节点向量；

为用户呼叫历史记录中第t个通信节点的通信时长；

步骤5.3：将向量序列

作为双向-长期短期记忆神经网络的输入，所述双向-长期短期记忆神经网络的时间步步长为T-1，单向公式为：

其中，

为双向-长期短期记忆神经网络当前时间步的输入向量；

为当前时间步的输出状态；

为上一时间步的输出状态，在第一时间步中

为0；

为双向-长期短期记忆神经网络当前时间步的内部记忆单元；

为双向- 长期短期记忆神经网络上一时间步的内部记忆单元；

所述双向-长期短期记忆神经网络的输出为向量序列

中各通信节点的前向隐状态输出和后向隐状态输出，取用户最后一个通信节点的前向隐状态输出

和用户第一个通信节点的后向隐状态输出

，拼接得到含用户呼叫历史记录中顺序信息的短期行为特征

：

其中，

代表向量拼接；

步骤5.4：通过门控机制合成步骤5.2所得长期行为特征

与步骤5.3所得短期行为特征

，得到门控机制输出权重g，门控机制所采用的前馈神经网络的公式为：

其中，

为饱和非线性激活函数；

为短期行为特征的权重矩阵；

为长期行为特征的权重矩阵；

为偏置向量；

进一步计算得到长短期行为特征

：

其中，

代表哈达玛积；

步骤5.5：将长短期行为特征

作为呼叫对象预测模型中双线性层的输入，计算得到概率预测结果向量

：

其中，

为呼叫对象预测模型中双线性层的权重矩阵；

为第一个通信节点

的概率预测结果；

为第二个通信节点

的概率预测结果；

为第|V|个通信节点

的概率预测结果；

步骤5.6：以

为训练目标，使用反向传播算法对呼叫对象预测模型进行训练，得到初次训练后呼叫对象预测模型，所述反向传播算法所采用的目标损失函数为概率预测结果向量

与

的交叉熵损失：

其中，

为呼叫对象预测模型训练过程中，训练目标

被预测到的概率；

步骤5.7：基于所有用户呼叫历史记录，重复步骤5.1~步骤5.6，依次对步骤5.6所得初次训练后呼叫对象预测模型进行训练，得到训练完成的呼叫对象预测模型；

步骤6：根据图表示学习模型所得通信网络中各通信节点的更新后通信节点向量，获得待预测用户历史呼叫记录对应的待预测更新后通信节点向量序列，再将所得待预测更新后通信节点向量序列输入至步骤5所得训练完成的呼叫对象预测模型中，得到通信网络中所有通信节点的被呼叫概率，被呼叫概率最大的前K个通信节点代表最有可能被呼叫的对象；其中，K为预设值。

本发明的有益效果为：

1、本发明提出了基于表示学习和行为特征的通信网用户呼叫对象预测方法，基于用户呼叫历史记录所产生的海量数据展开分析，根据通信节点在呼叫顺序网络中的拓扑信息以及全网络的通信顺序信息，结合用户呼叫历史记录中的用户长期行为特征与短期行为特征信息，能实现实时有效的预测用户的下一次呼叫对象，该方法可有效辅助相关部门掌握目标用户的通信行为动态以及提前开展通信侦察与行动部署；

2、在图表示学习模型中，本发明创造性的提出基于用户呼叫历史记录构造的呼叫顺序网络，以用户呼叫的通信节点作为呼叫顺序网络图的节点，以通信节点的被呼叫顺序作为呼叫顺序网络图的边，构造呼叫顺序网络图；根据呼叫顺序网络训练图表示学习模型，生成含有网络拓扑信息和全局层面通信顺序信息的更新后通信节点向量，自动高效的完成对通信网络中各个通信节点的特征提取；

3、在呼叫对象预测模型中，本发明基于用户呼叫历史记录，提出用户的两种行为特征建模方法：一是设计通信时长-位置加权层，基于通信节点的被叫顺序和通信时长进行通信节点信息的加权整合，完成用户长期行为特征的计算；二是利用双向-长短期记忆神经网络处理用户呼叫历史对用户短期行为特征进行提取；最后采用基于前馈神经网络的门控机制方法，对用户不同类型的行为特征进行合成，实现基于用户自身呼叫行为特征来预测其下一次呼叫对象，取得了良好的效果；本发明通过在呼叫对象预测模型中使用图表示学习模型得到的更新后通信节点向量，将呼叫顺序网络中的拓扑信息与用户的呼叫历史记录中的行为信息结合在一起；

4、与现有对通信网用户行为分析技术相比，本发明采用端到端的表示学习方式，无需单独针对通信网中每个节点进行统计分析等特征工程，对用户行为的建模考虑到了用户呼叫历史记录中多方面的特点，信息利用更加充分全面；本发明具有过程简单易于实现，对不同特点的通信数据有着良好的泛化性，可在数据稀疏环境下稳定工作的优点。

附图说明

图1为本发明实施例1的基于表示学习和行为特征的通信网用户呼叫对象预测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，结合以下具体实施例，并参照附图，对本发明做进一步的说明。

实施例1：

本实施例提供了基于表示学习和行为特征的通信网用户呼叫对象预测方法，如图1所示，包括以下步骤：

步骤1：通信网络中各通信节点采用N(0,0.05²)的正态分布随机初始化生成各通信节点的初始向量

，得到通信节点初始向量集合

，各通信节点的初始向量维度为100维；其中，|V|为通信网络中通信节点的总个数；

，E为V中各通信节点之间联系的集合，即用户呼叫通信节点

之后，呼叫另一个通信节点

，那么会存在联系

，

，

；

、其次通信节点

和最终通信节点

组成的通信顺序路径为一个三元组

，

，根据通信网络中各用户呼叫历史记录提取三元组集合

，作为图表示学习模型的训练集；

步骤4.1：从步骤3所得三元组集合

，

为起始通信节点的下标，

为其次通信节点的下标，

为最终通信节点的下标，

为训练数据中第j个三元组的起始通信节点，

为训练数据中第j个三元组的其次通信节点，

为训练数据中第j个三元组的最终通信节点；将

作为图表示学习模型的训练目标；

步骤4.2：将输入序列

输入至时间步步长为2的LSTM 循环神经网络，所述LSTM循环神经网络的公式为：

其中，

为sigmoid激活函数；p表示当前时间步；

为

，在第二时间步中

为

；

为输入门；

为忘记门；

为输出门；

为LSTM循环神经网络当前时间步的内部记忆单元；

为LSTM循环神经网络上一时间步的内部记忆单元；

为作用于当前时间步输入的输入门权重矩阵；

为作用于上一时间步输出的输入门权重矩阵；

为作用于当前时间步输入的忘记门权重矩阵；

为作用于上一时间步输出的忘记门权重矩阵；

为作用于当前时间步输入的输出门权重矩阵；

为作用于上一时间步输出的输出门权重矩阵；

为作用于当前时间步输入的内部记忆单元权重矩阵；

为作用于上一时间步输出的内部记忆单元权重矩阵；

为当前时间步的输出状态；

为上一时间步的输出状态，在第一时间步中

为0；

得到输入序列

在LSTM循环神经网络第一时间步和第二时间步的输出，分别为

和

；

步骤4.3：将

，即用户呼叫

、

后接下来呼叫各通信节点的概率；所述双线性层的公式为：

其中，

为图表示学习模型中双线性层的权值矩阵；

为通信节点初始向量集合

的转置；

为输入为训练集中第j个三元组时，第一个通信节点

被预测到的概率；

为输入为训练集中第j个三元组时，第二个通信节点

被预测到的概率；

为输入为训练集中第j个三元组时，第|V|个通信节点

被预测到的概率；

步骤4.4：以最终通信节点

、

，所述反向传播算法所采用的目标损失函数为

与最终通信节点

的平均交叉熵损失

：

其中，

为一次批处理训练的训练数据中第j个三元组的最终通信节点

被预测到的概率；

步骤4.5：基于训练集

，将更新后通信节点向量序列

中的向量序列

步骤5.2：将向量序列

：

其中，

为用户呼叫历史记录中第t个更新后通信节点向量；

为用户呼叫历史记录中第t个通信节点的通信时长；

步骤5.3：将向量序列

其中，

为双向-长期短期记忆神经网络当前时间步的输入向量；

为当前时间步的输出状态；

为上一时间步的输出状态，在第一时间步中

为0；

为双向-长期短期记忆神经网络当前时间步的内部记忆单元；

为双向-长期短期记忆神经网络上一时间步的内部记忆单元；

所述双向-长期短期记忆神经网络的输出为向量序列

和用户第一个通信节点的后向隐状态输出

，拼接得到含用户呼叫历史记录中顺序信息的短期行为特征

：

其中，

代表向量拼接；

步骤5.4：通过门控机制合成步骤5.2所得长期行为特征

与步骤5.3所得短期行为特征

其中，

为饱和非线性激活函数；

为短期行为特征的权重矩阵；

为长期行为特征的权重矩阵；

为偏置向量；

进一步计算得到长短期行为特征

：

其中，

代表哈达玛积；

步骤5.5：将长短期行为特征

：

其中，

为呼叫对象预测模型中双线性层的权重矩阵；

为第一个通信节点

的概率预测结果；

为第二个通信节点

的概率预测结果；

为第|V|个通信节点

的概率预测结果；

步骤5.6：以

与

的交叉熵损失：

其中，

为呼叫对象预测模型训练过程中，训练目标

被预测到的概率；

Claims

1.基于表示学习和行为特征的通信网用户呼叫对象预测方法，其特征在于，包括以下步骤：

步骤1：随机生成通信网络中各通信节点的初始向量

；其中，|V| 为通信网络中通信节点的总个数；

步骤2：根据通信网络中各用户呼叫历史记录中的通信节点被呼叫的先后顺序构造呼叫顺序网络G={V，E}；其中，V为通信节点集合

，E为V中各通信节点之间联系的集合；

步骤3：定义步骤2所得呼叫顺序网络G={V，E}中的一条由起始通信节点

、其次通信节点

和最终通信节点

组成的通信顺序路径为一个三元组

，

，根据各用户呼叫历史记录提取三元组集合，作为图表示学习模型的训练集；

步骤4：构造由LSTM循环神经网络和双线性层堆叠而成的图表示学习模型，基于步骤3所得三元组集合对图表示学习模型进行训练，输入为由各三元组的起始通信节点和其次通信节点的初始向量组成的输入序列，训练目标为最终通信节点，训练完成得到所有通信节点的更新后通信节点向量；

步骤5：构造由并行的通信时长-位置加权层和双向-长期短期记忆神经网络，堆叠前馈神经网络和双线性层而成的呼叫对象预测模型，基于所有通信节点的更新后通信节点向量，根据各用户呼叫历史记录获得对应的更新后通信节点向量序列，以训练呼叫对象预测模型，输入为更新后通信节点向量序列除去最后一个更新后通信节点向量的向量序列，训练目标为最后一个更新后通信节点向量，得到含用户呼叫历史中的长短期行为特征的训练完成的呼叫对象预测模型；

步骤6：根据步骤4所得各通信节点的更新后通信节点向量，获得待预测用户历史呼叫记录对应的待预测更新后通信节点向量序列，输入至步骤5所得训练完成的呼叫对象预测模型中，得到通信网络中所有通信节点的被呼叫概率，被呼叫概率最大的前K个通信节点代表最有可能被呼叫的对象；其中，K为预设值。

2.根据权利要求1所述基于表示学习和行为特征的通信网用户呼叫对象预测方法，其特征在于，步骤4采用批处理训练的方式训练图表示学习模型，一次批处理训练的训练数据为