CN103890758A

CN103890758A - 用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置

Info

Publication number: CN103890758A
Application number: CN201280043804.9A
Authority: CN
Inventors: V·B·门迪拉塔; D·多兰; C·法蒂克; H·乌祖纳利欧格鲁; D·库什尼尔
Original assignee: Alcatel Optical Networks Israel Ltd
Current assignee: Alcatel Optical Networks Israel Ltd
Priority date: 2011-09-08
Filing date: 2012-09-06
Publication date: 2014-06-25
Also published as: WO2013036627A2; JP5993012B2; KR101585404B1; US20130066933A1; KR20140063760A; US9159077B2; EP2754101B1; WO2013036627A3; JP2014533389A; EP2754101A2

Abstract

一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法，包括：接收具有描述性属性的原始值的描述性数据，该描述性属性与由在节点之间的边缘形成的电信呼叫图相关联。每个边缘涉及两个节点。每个原始值涉及边缘和形成相应的原始值的边缘属性对的描述性属性。描述性数据被存储在本地存储设备中。在考虑到相应的描述性属性的原始值的分布和描述性属性的公共基的情况下，确定对于每个描述性属性的缩放因子。确定每个描述性属性的加权因子。基于描述性属性的原始值、缩放因子和加权因子来计算边缘的复合连结度量。

Description

用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置

背景技术

此申请基于2011年9月8日提交的美国临时申请No.61/532,151，并要求其优先权，其全部内容通过引用合并于此。

本公开涉及用于基于在电信呼叫图的节点之间的边缘的多个属性来得到该边缘的复合连结度量的过程。例如，本公开描述了一种用于得到边缘的复合连结度量的方法的示例性实施例，该方法考虑到边缘的多个属性的值、在电信呼叫图中边缘的多个属性的值的分布、多个属性到共同尺度的转换、以及关于复合连结度量对每个属性的相对贡献的灵敏度对多个属性进行加权。本公开还描述了一种装置的示例性实施例，该装置基于经由与电信呼叫图相关联的电信网络通信的历史数据记录来得到边缘的复合连结度量。这里描述的方法和装置的各种实施例可以结合对服务提供商提供关于流失预测的建议来使用。然而，这里描述的方法和装置可以用于其他目的，诸如电信服务采用的预测、定向广告、定向市场营销、异常检测或可以从用户行为的预测获益的其他用途。

社交网络分析（SNA）是用于更好地理解用户的行为和关系的有效方法。通常在在线社交网络（OSN）的背景下应用SNA，在线社交网络诸如Facebook、Flickr和Twitter，其中，用户可以直接建立连结、共享信息以及加入群组以与具有类似兴趣的用户连接。在这些网络中，SNA对直接暗示用户之间的社交连接的属性进行操作。例如，两个用户是OSN上的好友、他们属于相同的群组、或他们彼此共享信息的事实可以各自单独用于推断出社交连结存在。

这样的OSN包含因果关系信息，即暗示存在社交连结的数据属性。然而，存在其他社交网络，其中仅可以观察到一个社交连结的效果。每个效果单独地取出并不直接表明社交连结强度。移动呼叫图是这样的社交网络的示例。在移动呼叫图中，强的社交连结的效果可能包括大量拨出的电话、花长时间的交谈以及在周末和晚上期间的很多电话。然而，没有任何属性本身直接暗示连结强度。例如，用户可能呼叫银行以查询余额并且支付帐单的次数比他们给朋友打电话的次数更多，即使友谊是更强的社交连结。

移动呼叫图表示大量用户彼此通信的方式，并且这些通信的模式涉及人们之间的社交连结。因此，对移动呼叫图应用SNA的研究受到欢迎。然而，这样的研究仅挑选关于在两个用户之间进行的呼叫的单个特征来定义社交关系。结果，由这些研究得到的结论仅基于可能存在的社交关系的单个效果。为了对呼叫图进行更加如实地考虑用户之间的社交关系的观察，需要对连结强度的改进的测量。

关于将SNA应用于移动呼叫图的研究的其他信息，参见例如：Dasgupta等人的“Social Ties and their Relevance to Churn in MobileTelecom Networks,”发表于2008年3月25-30举行的第11次ACMInternational Conference on Extending Database Technology的会刊第668-677页;ii)Onnela等人的“Structure and tie strengths in mobilecommunication networks”,发表于2007年5月1日的the NationalAcademy of Sciences of the United States的会刊,vol.104,no.18,第7332–7336页;iii)Richter等人的“Predicting customer churn in mobilenetworks through analysis of social groups”，发表于2010年4月29到5月1日举行的SIAM International Conference on Data Mining的会刊第732-741页;iv)Seshardi等人的“Mobile Call Graphs:BeyondPower-Law and Lognormal Distributions”，发表于2008年8月24-27举行的14th ACM Conference on Knowledge Discovery and DataMining的会刊第596-604页;以及v)Nanavati等人的“On theStructural Properties of Massive Telecom Call Graphs:Findings andImplications”，发表于2006年11月5-11日举行的15th ACMConference on Information and Knowledge Management的会刊第435-444页。这5个文献的内容通过引入完全并入本文。

对计算社交连结强度的问题的现有解决方案适用于在线社交网络（OSN），其中存在因果关系的信息，即存在暗示社交连结存在的数据属性。例如，两个用户是OSN上的好友、他们属于相同的群组、或他们彼此共享信息的事实可以各自单独被用于推断社交连结存在。然而，对于电话网络，仅有社交连结的效果被观察到。每个效果单独取出并不直接表明关系强度。例如，在移动呼叫图中，强的社交连结的效果可能包括大量拨出的电话、花长时间的交谈以及在周末和晚上期间的很多电话。然而，没有任何属性本身直接暗示连结强度。例如，用户可能呼叫银行以查询余额并且支付帐单的次数比他们给朋友打电话的次数更多，即使友谊是更强的社交连结。

存在将SNA应用于移动呼叫图的大量研究。然而，这样的研究仅挑选关于在两个用户之间进行的呼叫的单个特征来定义社交关系。结果，由这些研究得到的结论仅基于可能存在的社交关系的单个效果。为了对呼叫图进行更加如实地考虑用户之间的社交关系的观察，需要对连结强度的改进的测量。

检测移动呼叫图的异常行为具有若干优点：使用率显著下降的链接可能是由于减少的呼叫活动而导致节点在未来可能流失的早期指示。在另一方面，显著增加的活动可以指示对于影响力传播的新的连结和可能的链接的形成。对呼叫图的异常检测具有用于执法机构的应用。海外通话、在一天中的不寻常时间期间打电话、某些节点之间的增加的呼叫活动以及甚至服务的不充分使用或者过度使用（与“扔掉”电话相关联）可能被检测为执法机构在调查案件时所利用的异常信号。复合连结变化度量的使用通过将多个属性上的异常活动合并成单个度量来促进异常检测。

异常检测还适用于监视在电信网络中的链路上的业务。电信网络由网络节点（即，电信设备）以及连接不同的网络节点和传输业务的链路构成。为了从网络获取最佳性能，有利的是使链路处于特定的活动水平并且能够检测链路是否偏离了其正常的期望行为。例如，过载链路可能降低性能并且使网络瘫痪，而未充分利用的链路表示损失收入的可能。检测链路的异常行为使得运营商能够采取行动，并且纠正该情况。为了准确的异常检测，需要考虑的链路的性能的多个因素；而不仅仅是单个测量。

出于这些和其他原因，需要基于电信呼叫图的节点之间的边缘的多个特性来定义表示该边缘的复合度量。

发明内容

在一个方面中，提供了一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法。在一个实施例中，该方法包括：在计算设备处从远程存储设备接收多个描述性数据，其中多个描述性数据包括针对多个描述性属性j的原始值x_i，j，该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联，其中，每个边缘i涉及多个节点中的两个节点，其中每个原始值x_i，j涉及电信呼叫图中的唯一的边缘i和针对相应的边缘i的唯一的描述性属性j，唯一的边缘i和唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j；至少临时地将多个描述性数据存储在本地存储设备中；以下述方式来确定用于每个描述性属性j的缩放因子：该方式考虑到针对相应的描述性属性j的原始值x_i，j的分布和针对多个描述性属性j的公共基；确定用于每个描述性属性j的加权因子；以及至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：与第一边缘i₁相关联的第一属性j₁的第一原始值

用于第一属性j₁的第一缩放因子、用于第一属性j₁的第一加权因子、与第一边缘i₁相关联的第二属性j₂的第二原始值

用于第二属性j₂的第二缩放因子、以及用于第二属性j₂的第二加权因子，其中，多个描述性属性j包括第一属性j₁和第二属性j₂。可以理解的是，这里描述的用于得到复合连结度量的过程可以用于超过示例性第一属性和第二属性的任何数目的属性。

在另一方面中，提供了一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的装置。在一个实施例中，该装置包括：数据通信模块，被配置为从远程存储设备接收多个描述性数据，其中多个描述性数据包括针对多个描述性属性j的原始值x_i，j，该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联，其中，每个边缘i涉及多个节点中的两个节点，其中每个原始值x_i，j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j，唯一的边缘i和唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j；本地存储设备，被配置成至少临时地存储多个描述性数据；缩放/加权处理器，被配置成以下述方式来确定用于每个描述性属性j的缩放因子：该方式考虑到针对相应的描述性属性j的原始值x_i，j的分布和针对多个描述性属性j的公共基，并且被配置成确定用于每个描述性属性j的加权因子；以及复合连结度量处理器，被配置成至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：针对与第一边缘i₁相关联的第一属性j₁的第一原始值用于第一属性j₁的第一缩放因子、用于第一属性j₁的第一加权因子、针对与第一边缘i₁相关联的第二属性j₂的第二原始值

用于第二属性j₂的第二缩放因子、以及用于第二属性j₂的第二加权因子，其中，多个描述性属性j包括第一属性j₁和第二属性j₂。

在又一个方面中，提供了一种存储程序指令的非瞬时计算机可读介质，当由处理器执行时，该程序指令使得计算设备执行用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法。在一个实施例中，该方法包括：在从远程存储设备接收多个描述性数据之后，其中多个描述性数据包括针对多个描述性属性j的原始值x_i，j，该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联，以下述方式来确定用于每个描述性属性j的缩放因子：该方式考虑到针对相应的描述性属性j的原始值x_i，j的分布和针对多个描述性属性j的公共基，其中，每个边缘i涉及多个节点中的两个节点，其中每个原始值x_i，j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j，唯一的边缘i和唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j；确定用于每个描述性属性j的加权因子；以及至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：针对与第一边缘i₁相关联的第一属性j₁的第一原始值

、用于第一属性j₁的第一缩放因子、用于第一属性j₁的第一加权因子、针对与第一边缘i₁相关联的第二属性j₂的第二原始值

根据下面提供的详细描述，本发明的进一步的适用范围将变得显而易见。然而，应当理解，详细描述和特定示例尽管指示本发明的优选实施例，但是他们仅通过例示的方式被给出，因为在本发明的精神和范围内的各种改变和修改对于本领域技术人员来说将变得显而易见。

附图说明

本发明存在于设备的各部分的构建、布置和组合，以及方法的步骤，由此，所预期的目标被实现，如在下文中被更全面地阐述、在权利要求中被具体指出、并且在附图中被图示的，在附图中：

图1是示出在电信呼叫图中的边缘的若干示例性属性和复合连结度量之间的关联的一组图；

图2是示出在电信呼叫图中的边缘的若干示例性属性的复合连结度量质量的图；

图3是示出在电信呼叫图中的边缘的示例性属性的复合连结度量质量的图；

图4是示出在电信呼叫图中的边缘的另一示例性属性的复合连结度量质量的图；

图5是示出在电信呼叫图中的边缘的又一示例性属性的复合连结度量质量的图；

图6是用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程的示例性实施例的流程图；

与图6相结合的图7是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的另一示例性实施例的流程图；

与图6相结合的图8是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图；

与图6和图8相结合的图9是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图；

与图6相结合的图10是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图；

与图6和图10相结合的图11是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图；

图12是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的计算设备的示例性实施例的框图；以及

图13是由计算设备执行的用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的示例性实施例的流程图，该计算设备具有执行存储在非瞬时计算机可读介质中的程序指令的处理器。

具体实施方式

总体上，本公开描述了用于得到边缘度量的两个过程。第一度量是针对电信图边缘的基于变量的评分的测量，引起多个属性值的组合距离属性平均值的偏差。该过程基于主成分分析（PCA）方法的使用。本实施例可以用于检测异常行为。第二过程包括与社交连结强度有关的度量的计算。第二过程可以用于理解用户对其他用户的行为的社交影响力。

本公开例如使用用于测量用户之间的复合连结度量的方法来检查移动呼叫图。这里公开了用于通过很多呼叫属性的合成来量化合成连结度量的算法的各种实施例，该很多呼叫属性的值是社交连接的效果。关于连结强度的其他信息，参见例如Granovetter于AmericanJournal of Sociology,Vol.78,Issue6,May1973,pp.1360–1380发表的“The Strength of Weak Ties”，其全部内容通过引用合并于此。算法的各种实施例可以应用于由主要移动服务提供商所提供的呼叫图以研究在复合连结度量和呼叫图结构之间的关系。

在算法的一个示例性实施例中，移动呼叫图被定义为简单的有向图G＝(V，E)，其中该组顶点V表示移动电话用户，并且当且仅当a，b∈V并且a对b打电话时，边缘e＝(a，b)∈E。G表示在|V|＝n个用户当中|E|＝m个连结。目标在于定义加权函数S：E→R其将每个有向的边缘映射成一个值，该值以在边缘上附带的用户之间的关系为特征。

在本实施例中，每个边缘被表示为k个属性的向量。k个属性的对应向量可以组成m×k矩阵E，其中E的行对应于G的边缘，并且|E|_tf是针对边缘i的属性j的值。为了将E的行向量映射成以在边缘上附带的用户之间的关系为特征的值，应用由主要成分分析（PCA）所启示的方法，该方法将数据投射到更好地表示在数据内存在的变化的子空间。投影使用向量的正交基集合，该向量指向其中数据的变化最大（称为主要分量（PC））的方向。该集合由E的协方差矩阵Σ的特征向量给出。关于PCA的其他信息，参见例如Jackson于Wiley-Interscience,September,10,2003,592pages发表的“A User’sGuide to Principal Components”,其内容通过引用合并于此。

Σ的特征值的总和等于该数据内的总方差，如果具有零均值和单位方差，则其与数据的维度相同。换言之，Σ的特征值使由投影的数据的每个维度解释的变化量与沿着原始数据的维度的变化相关。投影的数据的每个分量被乘以相应的特征值。这些加权的分量被求和以得到以两个用户之间的关系为特征的值。这给出了其中数据对复合连结度量值呈现出非常大的变化附加影响的维度。

在另一实施例中，该算法可以概括如下：

1）对于所有j，设置

{| E |}_{ij} = {| E |}_{ij} - \frac{1}{m} Σ_{i = 1}^{m} {| E |}_{ij};

2）设置

其中

作为属性j的方差；

3）求E的协方差矩阵Σ；

4）求∧，其为kx1列向量，其中∧_i是Σ的第i个最大特征值；

5）求U，其为kxk的矩阵，其第i列是对应于第i个的右特征向量；以及

6）针对边缘e_i的复合连结度量通过向量S＝EU∧的第i个分量给出。

在另一实施例中，可以使用用于计算针对边缘的复合连结度量的算法的示例性实施例的各个方面来研究电信呼叫图的社交分解。该算法一种方法以量化在两个用户之间的社交连结强度，该方法通过考虑任何数目的观察而提供较高精确度。对于这样的示例的其他信息，参见例如Doran及其他人的2011年9月8日提交的美国临时申请No.61/532,151中的“Examining the Social Decomposition ofMobile Call Graphs”，要求了该申请的优先权，并且其全部内容通过引用合并于此。

这里公开用于计算电话网络的订户之间的复合连结度量的方法的各种实施例。这些实施例建立在社交网络分析（SNA）的原理上，并且将SNA扩展到电话网络的结构的研究。通过开发合成很多呼叫属性的算法解决了得出呼叫图内的社交网络上的复合连结度量的问题，该很多呼叫属性的值是社交连结的效果。

在算法的一个实施例中，初始地，从可以表示社交连结的效果的呼叫数据中提取n个属性的集合，诸如呼叫持续时间、两个用户之间进行的呼叫的次数，以及这两个用户都直接联系（并且对二者是公共的）的其他用户的数目。构建了移动呼叫图，其中节点表示用户，并且在两个节点之间的链接表示直接社交连结。当且仅当A对B至少打一个电话时，存在从A到B的有向社交连结。图中的每个社交连结被表示为n维向量，其分量值对应于从呼叫数据中提取的n个属性中的每一个。这些n维向量中的每一个被使用该算法映射到单个值。

即使在单个特征和社交连结强度之间不存在因果关系，考虑这些社交连结向量在n维空间内变化的方式可以用于示出社交连结的强度，因为很多效果的值一起更强烈地表明社交连结强度。例如，两个人彼此呼叫的次数是社交连结的效果（两个人之间进行更多的呼叫可以示出关系强度）。在将该信息与其他属性组合中，诸如呼叫所花费的总时间和公共邻居，可以做出关于连结强度更强的推断。

然而，出于若干原因，在尝试得到复合连结度量的值时，不应当直接组合多个类型的属性的值。首先，每个属性可以以不同的尺度来测量，使得其直接结合无意义。为了解决该问题，数据可以被中心化，使得其具有零均值，并且然后缩放每个分量使其具有单位方差。另一个原因是，社交连结的强度不同程度地影响每个属性。如果社交连结强度对属性的值具有小的影响，那么在将社交连结向量向一个值映射时，该属性不应当被给予那么多的权重。此外，当一起考虑多个属性时，数据还呈现出不同的变化量。为了解决该问题，在其中数据变化最大的n维空间中n个方向可以被识别并且投影到沿这些方向当中的另一n维空间。该数据变换的结果是其变化沿着每个分量都是最大的替代连结度量向量的集合。沿着这些投影分量的组合变化捕获了在原始数据内存在的变化的主要部分。

上述数据投影是由传统的数据挖掘技术主成分分析（PCA）来推动的。PCA将数据集内的最大方差的方向识别为数据集的协方差矩阵的特征向量。这意味着投影数据的每个分量对应于数据投影中使用的特征向量中的一个。此外，该特征向量的特征值表示在由该分量捕获的原始数据中的方差的比例。因此，该复合连结度量被定义为每个投影分量乘以其相应特征值的线性组合。

在另一实施例中，该算法可以概括如下：

1）将每个社交连结表示为n维向量，其分量对应于呼叫属性的值；

2）缩放向量使得其分量具有零均值和单位方差；

3）求社交连结向量的协方差矩阵；

4）求协方差矩阵的特征向量的集合及其对应的特征值；

5）使用特征向量将数据投影到新的n维空间；以及

6）复合连结度量被给出，作为其投影的每个分量乘以其相应的特征值的总和。

图2中示出了所得到的连结的质量。例如，图2中的三个属性（即，总呼叫持续时间、打电话的次数，和在两个节点之间相同的邻居的比例）可以用于证明该方法。得到的度量值遵循关于连结强度应当如何影响这些属性的值的期望。呼叫长度和打电话的次数与得到的连结量度值正相关，而仅当打电话的次数和呼叫长度都低时强烈地影响公共邻居的数目。

通常，算法的各种实施例提供基于用户之间链接的几个属性来计算网络上的用户之间的复合连结度量。社交链接强度具有对于信息传播如何在社交网络中发生的暗示。例如，对于关于采用新的产品和服务、客户流失的行为的传播等。在计算复合连结度量中的更好的方法将改善这样的解决方案的结果，并且增加他们对服务提供商的商业价值。

该算法开发了用于计算网络的社交复合连结度量的方法，网络例如移动电话网络，其中仅观察到社交连结的效果。用于计算社交连结强度的现有解决方案适用于在线社交网络（OSN），在OSN中存在因果关系信息，即存在暗示社交连结存在的数据属性。此外，这里公开的算法的各种实施例定义了可扩展架构，其中，可以考虑关于社交连结及其效果的任意数目的信息变量。

该算法还可以应用于除呼叫图之外的其他社交网络。此外，在“大数据”时代，对商业情报的分析被部署在包括电信的一系列行业，以随时备用的情报的形式深入了解客户行为。该情报可以用于设计活动以提升客户体验、设计忠诚度活动、设计程序以留住客户（减少客户流失）、注册新用户，并且设计程序以向上销售和交叉销售来提高客户终身价值并优化投资回报（ROI）。

在又一实施例中，呈现了用于得到移动呼叫图中的边缘的复合度量的数学框架。诸如两个用户之间的呼叫频率的单个呼叫特征可能不一定是其社交连结强度的好的指标；然而，该特征的值可能受到相应连结强度的影响。例如，即使用户之间的呼叫的高持续时间或呼叫的频率没有暗示高的社交连结强度，如果两个用户共享强的社交连结，可以期望他们彼此频繁呼叫并且交谈很长一段时间。因此，因为呼叫属性的值受到基本社交关系的强度的影响，所以这是社交连结效果的类型。这些效果一起而不是单独地给出了用户之间的社交连结的更好概括。

移动呼叫图中的两个用户之间的连接的属性（例如，总通话时长和通话的总数）通常是相关的，并且被使用不同的尺度来测量。这使得难以以有意义的方式来组合这些值。为了克服了缩放差异，每个属性x_i通过除以|x_i|来进行归一化，其中

由此重新缩放每个属性以具有单位长度。对于n个属性与之相关联的边缘，对于复合连结度量计算正实数值，其中x＝α₁x₁+α₂x₂+...+α_nx_n是归一化的属性的加权和。具体地，w(x)是由w(x)＝1exp(-x/ε²)给出x的单调增函数。

显然，w(x)被限制在区间[0,1]，其中参数ε控制饱和率。该公式基于下述假设：一旦示出了强社交连接，其中“想法”（诸如流失）很可能将通过边缘从一个订户传输到另一订户。ε的范围可以根据训练数据获悉。在图3-5中示出了所得到的连结度量的质量。

这里描述的实施例允许在得到节点A和B之间的链路（边缘）的复合连结度量时将被考虑的许多链路属性，每个链路属性表示在节点A和B之间连接/关系的某种形式。一些示例性链接属性包括呼叫的次数、呼叫的持续时间、呼叫的方向、呼叫的相互作用、呼叫的时间/日期、花费的量、朋友/邻居的重叠，以及在时间窗内的呼叫频率。这里描述的各种算法组合在对于链接的复合连结度量中感兴趣的属性。例如，该算法使用函数（f）来组合多个（即多于一个）链接属性以生成复合连结度量。

该函数（f）的实际形式可以取决于得到的复合连结度量将被用于的最终问题。例如，该算法可以被定制以提供在流失预测、异常检测、欺诈检测等中使用的复合连结度量。这里描述的实施例包括得到复合连结度量的基于PCA的函数，该复合连结度量可以用于检测异常链路，诸如那些呈现明显不同于正常（即平均）的特征。这里描述其他实施例使用指数函数来反映连结强度，其中所计算的值被归一化为在0和1之间，并且可以用于流失预测。应当理解，许多其他形式的函数（f）可能用于计算复合连结强度。

参考图6，过程900的示例性实施例在902处开始，过程900用于得到在电信呼叫图的节点之间的边缘的复合连结度量，在902处，在计算设备处从远程存储设备接收多个描述性数据。多个描述性数据包括针对多个描述性属性j的原始值x_i，j，该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联。每个边缘i涉及多个节点中的两个节点。每个原始值x_i，j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j。唯一的边缘i和唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j。多个描述性数据至少被临时存储在本地存储设备中（904）。

在906，以下述方式来确定用于每个描述性属性j的缩放因子：该方式考虑到针对相应的描述性属性j的原始值x_i，j的分布和多个描述性属性j的公共基。确定用于每个描述性属性j的加权因子（908）。在910，至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：针对与第一边缘i₁相关联的第一属性j₁的第一原始值用于第一属性j₁的第一缩放因子、用于第一属性j₁的第一加权因子、针对与第一边缘i₁相关联的第二属性j₂的第二原始值用于第二属性j₂的第二缩放因子、以及用于第二属性j₂的第二加权因子。多个描述性属性j包括第一属性j₁和第二属性j₂。

在过程900的另一实施例中，多个边缘i和多个节点形成电信网络，并且描述性数据与在预定时间期间利用电信网络的资源的通信会话相关联。在该实施例中，每个边缘i表示一个连接，在预定时间段期间至少一个通信会话被通过该连接而连接。在另一实施例中，电信网络包括无线网络、移动网络和蜂窝网络中的至少一个。在又一实施例中，第一节点表示与第一用户设备相关联的第一识别号，并且第二节点表示与第二用户设备相关联的第二识别号。在又一实施例中，第一节点和第二节点中的至少一个表示与用户设备的对应的组相关联的一组识别号。在又一实施例中，通信会话包括语音通话、文字消息、多媒体消息、短消息服务（SMS）消息、即时消息（IM）和数据传送中的至少一个。在过程900的又一实施例中，与多个边缘j相关联的多个描述性属性包括下述中的至少一个：通过相应的边缘j的通信回话量、通过相应的边缘j的用于通信会话的积累的持续时间测量、与相应的边缘j相关联的节点的公共邻居的量、以及用于与相应的边缘j相关联的节点的一个或多个人口统计参数。

在过程900的又一实施例中，多个边缘包括有向边缘，其反映每个边缘相对于如下节点是传出还是传入，相应的边缘与该节点相关联。

参考图6和图7中，过程1000的另一示例性实施方式，该过程1000用于得到电信呼叫图的节点之间的边缘的复合连结度量，该过程1000包括图6的过程900并且在906、908和910之上扩展。在过程1000的该实施例中，对于每个描述性属性j所确定的缩放因子至少部分地基于为相应的描述性属性j确定代表性的最大值|x_j|，以建立每个描述性属性j的单位基作为公共基。在1002中，第一原始值

被除以第一属性j₁的代表性最大值

以形成用于相应的第一边缘属性对i₁,j₁的第一缩放的值第二原始值

被除以第二属性j₂的代表性最大值

以形成用于相应的第二边缘属性对i₁，j₂的第二缩放的值

（1004）。

在1006，第一边缘属性对i₁，j₁的第一加权因子

乘以第一缩放的值

以形成第一连结属性分量

第二边缘属性对i₁，j₂的第二加权系数

乘以第二缩放的值

以形成第二连结属性分量

（1008）。在1010中，第一连结属性分量

和第二连结属性分量被求和，以获得第一边缘i₁的原始复合连结度量

至少部分地基于原始复合连结度量

的指数函数来得到针对第一边缘i₁归一化的复合连结度量

（1012）。应当理解，用于得到此处所描述的复合连结度量的过程1000可以用于超过了示例性第一和第二属性的任何数目的属性。

在过程1000的另一实施例中，对于每个描述性属性j的代表性最大值|x_j|至少部分地基于表达式：

| x_{j} | = \sqrt{Σ_{i = 1}^{n} x_{i, j}^{2}} - - - (1)

其中n定义了包括在多个边缘中的边缘的数目。

在过程1000的另一个实施例中，第一缩放的值

至少部分地基于表达式：

{\overset{'}{x}}_{i_{1},} j_{1} = \frac{x_{i_{1},} j_{1}}{| x_{j_{1}} |} - - - (2)

并且第二缩放的值至少部分地基于对于

和

相同的表达式。

在过程1000的又一实施例中，第一边缘i₁的原始复合连结度量

至少部分地基于表达式：

S_{i} = {&Proportional;}_{1} {\overset{'}{x}}_{1} + {&Proportional;}_{2} {\overset{'}{x}}_{2} - - - (3) .

在过程1000的又一实施例中，第一边缘i₁的归一化的复合连结度量

至少部分地基于在表达式：

F (S_{i}) = 1 - \exp (- \frac{S_{i}}{ϵ^{2}}) - - - (4)

其中ε是结合原始连结强度S_i来控制归一化的复合连结度量F(S_i)的饱和度的常量。

参考图6和图8，用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1100的又一示例性实施例包括图6的过程900并且在906和908之上扩展。在本实施例中，过程1100包括计算针对每个描述性属性j的代表性平均值（1102）。在1104中，对每个描述性属性j计算标准差σ_j。确定针对每个描述性属性j的每个原始值x_i，j和代表性平均值

之间的差，以形成针对每个描述性属性j的中间值

的相应集合（1106）。在1108，针对每个描述性属性j的每个中间值

被除以相应的描述性属性j的标准差σ_j，以形成针对每个描述性属性j的缩放的值

的相应集合，其中每个描述性属性j具有由零均值和单位方差表示的公共基。协方差矩阵Σ由该多个描述性属性j的缩放的值

形成（1110）。

在过程1100的另一实施例中，针对每个描述性属性j的代表性平均值

至少部分地基于如下表达式：

{\overset{&OverBar;}{x}}_{j} = \frac{1}{n} Σ_{i = 1}^{n} x_{i, j} - - - (5)

其中n定义了包括在多个边缘中的边缘的数目。

在过程1100的另一实施例中，对于每个描述性属性j，中间值

至少部分地基于如下表达式：

{\overset{\cdot}{x}}_{i, j} = \frac{{\overset{&OverBar;}{x}}_{j}}{σ_{j}} - - - (6)

参考图6、图8和图9，用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1200的另一示例性实施例包括图6和图8的过程900、110，并且在906、908和910之上扩展。在本实施例中，过程1200包括根据协方差矩阵Σ寻找与第一边缘i₁相关并且与第一边缘属性对i₁，j₁相关联的第一属性j₁的第一缩放因子

（1202）。在1204中，根据协方差矩阵Σ寻找与第一边缘i₁相关并且与第二边缘属性对i₁，j₂相关联的第二属性j₂的第二缩放因子

从该协方差矩阵Σ寻找与第一边缘i₁相关并且与第一边缘属性对i₁，j₁相关联的第一属性j₁的第一加权因子

（1206）。在1208，根据该协方差矩阵Σ寻找与第一边缘i₁相关并且与第二边缘属性对i₁，j₂相关联的第二属性j₂的第二加权因子

第一边缘属性对i₁，j₁的原始值

乘以第一缩放因子

和第一加权因子

以形成针对第一边缘i₁的第一连结属性分量

（1210）。在1212，第二边缘属性对i₁，j₂的原始值

乘以第二缩放因子

和第二加权因子

以形成针对第一边缘i₁的第二连结属性分量

第一连结属性分量

和第二连结属性分量

被求和，以获得针对第一边缘i₁的归一化的复合连结度量

（1214）。应当理解，用于得到这里所描述的复合连结度量的过程1200可以用于超过示例性的第一和第二属性的任何数目的属性。

在过程1200的另一实施例中，第一缩放因子

基于来自对应于第一加权因子的协方差矩阵Σ的第一特征向量，并且第二缩放因子

基于来自对应于第二加权因子的协方差矩阵Σ的第二特征向量。在过程1200的另一实施例中，第一加权因子

和第二加权因子

基于来自协方差矩阵Σ的列向量和特征值。

在过程1200的又一实施例中，第一边缘i₁的第一连结属性分量

和第二连结属性分量

至少部分地基于如下表达式：

S_{j_{n}} = x_{i_{1}, jn} * U_{jn} * Λ_{jn}, - - - (7)

其中n标识相应的描述性属性j。

在过程1200的又一实施例中，针对第一边缘i₁的归一化的复合连结度量至少部分地基于表达式：

S_{i_{1}} = S_{j_{1}} + S_{j_{2}} - - - (8) .

参考图6和图10，用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1300的又一示例性实施例包括图6的过程900并且在906和908之上扩展。在过程1300的该实施例中，缩放因子被确定，使得缩放的值

的相应集合根据针对每个描述性属性j的原始值x_i，j形成，从而用于每个描述性属性j的缩放的值

的公共基反映零均值和单位方差。在1302中，协方差矩阵Σ是根据用于多个描述性属性j的缩放的值

形成的。找到协方差矩阵Σ的特征向量的集合和相应的特征值的集合（1304）。

参考图6、图10和图11，用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1400的又一示例性实施例包括图6和图10的过程900和1300并且在910之上扩展。在本实施例中，过程1400包括使用来自协方差矩阵Σ的特征向量在替代空间中处理第一边缘i₁的描述性属性j的原始值x_i，j，以形成针对第一边缘i₁的对应的多个投影矢量（1402）。在1404，第一边缘i₁的多个投影矢量中的每个投影矢量被乘以来自协方差矩阵的相应的特征值，以形成第一边缘i₁的多个连结属性分量

这多个连结属性分量

被求和以获得第一边缘i₁的归一化的复合连结度量

（1406）。

参考图12，用于得到电信呼叫图的节点之间的边缘的复合连结度量的计算设备1500的示例性实施例包括数据通信模块1502、本地存储设备1504、缩放/加权处理器1506以及复合连结度量处理器1508。在各种实施例中，计算设备1500可以包括一个或多个服务器、一个或多个计算机工作站、一个或多个计算机系统、一个或多个计算机、一个或多个处理器、或者一个或多个以任何适当组合的任何其他适当类型的计算设备。

数据通信模块1502被配置为从远程存储设备1510接收多个描述性数据。多个描述性数据包括多个描述性属性j的原始值x_i，j，该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联。每个边缘i涉及多个节点中的两个节点。每个原始值x_i，j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j。唯一的边缘i和唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j。本地存储设备1504被配置成至少临时地存储多个描述性数据。

缩放/加权处理器1506被配置成以下述方式来确定用于每个描述性属性j的缩放因子：该方式考虑到针对相应的描述性属性j的原始值x_i，j的分布和多个描述性属性j的公共基，并且被配置成确定用于每个描述性属性j的加权因子。复合连结度量处理器1508被配置成至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：针对与第一边缘i₁相关联的第一属性j₁的第一原始值

用于第一属性j₁的第一缩放因子、用于第一属性j₁的第一加权因子、针对与第一边缘i₁相关联的第二属性j₂的第二原始值

用于第二属性j₂的第二缩放因子、以及用于第二属性j₂的第二加权因子。多个描述性属性j包括第一属性j₁和第二属性j₂。

在计算设备1500的另一实施例中，缩放/加权处理器1506被配置为至少部分地基于确定针对相应的描述性属性j的代表性的最大值|x_j|来确定用于每个描述性属性j的缩放因子，以建立每个描述性属性j的单位基作为公共基。在又一个实施例中，缩放/加权处理器1506被配置为用第一属性j₁的代表性最大值

除以第一原始值

以形成用于相应的第一边缘属性对i₁,j₁的第一缩放的值

并且被配置为用第二属性j₂的代表性最大值

除以第二原始值

以形成用于相应的第二边缘属性对i₁，j₂的第二缩放的值

在本实施例中，复合连结度量处理器1508被配置成使第一边缘属性对i₁，j₁的第一加权因子

乘以第一缩放的值

以形成第一连结属性分量被配置成使第二边缘属性对i₁，j₂的第二加权系数

乘以第二缩放值

以形成第二连结属性分量

被配置成将第一连结属性分量

和第二连结属性分量

求和，以获得针对第一边缘i₁的原始复合连结度量

并且被配置成至少部分地基于原始复合连结度量

的指数函数来得到针对第一边缘i₁的归一化的复合连结度量

可以理解的是，这里描述的用于得到复合连结度量的计算设备1500可以用于超过了示例性第一和第二属性的任何数目的属性。

在计算设备1500的另一实施例中，缩放/加权处理器1506被配置成计算针对每个描述性属性j的代表性平均值被配置成计算针对每个描述性属性j的标准差σ_j，被配置成确定针对每个描述性属性j的每个原始值x_i，j和代表性平均值

之间的差，以形成针对每个描述性属性j的中间值

的相应集合，被配置为用相应的描述性属性j的标准差σ_j除每个描述性属性j的每个中间值

以形成对于每个描述性属性j的缩放的值

的相应集合，其中每个描述性属性j具有由由零均值和单位方差表示的公共基，并且被配置为根据该多个描述性属性j的缩放的值

形成协方差矩阵Σ。在又一实施例中，缩放/加权处理器1506被配置成根据协方差矩阵Σ寻找与第一边缘i₁相关并且与第一边缘属性对i₁，j₁相关联的第一属性j₁的第一缩放因子

被配置为根据协方差矩阵Σ寻找与第一边缘i₁相关并且与第二边缘属性对i₁，j₂相关联的第二属性j₂的第二缩放因子

被配置为从该协方差矩阵Σ寻找与第一边缘i₁相关并且与第一边缘属性对i₁，j₁相关联的第一属性j₁的第一加权因子并且被配置为根据该协方差矩阵Σ寻找与第一边缘i₁相关并且与第二边缘属性对i₁，j₂相关联的第二属性j₂的第二加权因子

在本实施例中，复合连结度量处理器1508被配置成将第一边缘属性对i₁，j₁的原始值

乘以第一缩放因子

和第一加权因子以形成第一边缘i₁的第一连结属性分量

被配置成将第二边缘属性对i₁，j₂的原始值

乘以第二缩放因子

和第二加权因子

以形成第一边缘i₁的第二连结属性分量并且被配置为将第一连结属性分量

和第二连结属性分量

求和，以获得针对第一边缘i₁的归一化的复合连结度量

可以理解的是，这里所描述的用于得到复合连结度量的设备1500可以用于超过示例性的第一和第二属性的任何数目的属性。

在计算设备1500的另一实施例中，缩放/加权处理器1506被配置为确定缩放因子，使得根据每个描述性属性j的原始值x_i，j形成相应的缩放的值的集合，使得每个描述性属性j的缩放的值

的公共基为反映零均值和单位方差。在又一实施例中，缩放/加权处理器1506被配置成根据用于多个描述性属性j的缩放的值

形成协方差矩阵Σ，并且被配置成找到协方差矩阵Σ的特征向量的集合和相应的特征值的集合。在更进一步的实施例中，所述复合结度量处理器1508被配置成使用来自协方差矩阵Σ的特征向量在替代空间中处理的第一边缘i₁的描述性属性j的原始值x_i，j，以形成第一边缘i₁的对应的多个投影矢量，被配置成用来自协方差矩阵的相应的特征值乘第一边缘i₁的多个投影矢量中的每个投影矢量，以形成第一边缘i₁的多个连结属性分量

并且被配置成对多个连结属性分量求和，以获得第一边缘i₁的归一化的复合连结度量

参考图13，一种存储程序指令的非瞬时计算机可读介质的示例性实施例，当由处理器执行时，该程序指令使得计算设备执行用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1600。在一个实施例中，该过程1600包括：在从远程存储设备接收多个描述性数据之后，以下述方式来确定对于每个描述性属性j的缩放因子：该方式考虑到相应的描述性属性j的原始值x_i，j的分布和多个描述性属性j的公共基，其中多个描述性数据包括多个描述性属性j的原始值x_i，j，该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联（1602）。每个边缘i涉及多个节点中的两个节点。每个原始值x_i，j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j，唯一的边缘i和唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j。在1604中，确定每个描述性属性j的加权因子。至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：与第一边缘i₁相关联的第一属性j₁的第一原始值

在各种其他实施例中，存储在非瞬时计算机可读存储器中的指令在由处理器执行时，可以使得计算设备执行与用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程900、1000、1100、1200、1300、1400相关联的功能的各种组合。换句话说，上面描述的各种特征可以以任何合适的组合通过存储在所述的非瞬时计算机可读介质中的程序指令来实现。如上所述的计算设备1500的任何适当的组件可以包括与相应的程序指令相关联的相应的处理器和非瞬时计算机可读介质。替代的，与相应的程序指令相关联的相应的处理器和非瞬时计算机可读介质可以是与如上所述的计算设备1500的组件的任何适当的组合进行操作通信的独立或组合的组件。

上面的描述仅仅提供了本发明的特定实施例的公开，并且不旨在为了限制于此。因此，本发明不仅限于上述实施例。相反，应当认识到，本领域技术人员可以设想落入本发明范围内的替代实施例。

Claims

1.一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法，包括：

在计算设备处从远程存储设备接收多个描述性数据，其中所述多个描述性数据包括多个描述性属性j的原始值x_i，j，所述多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联，其中，每个边缘i涉及所述多个节点中的两个节点，其中每个原始值x_i，j涉及所述电信呼叫图中的唯一的边缘i和针对相应的边缘i的唯一的描述性属性j，所述唯一的边缘i和所述唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j；

至少临时地将所述多个描述性数据存储在本地存储设备中；

以下述方式来确定用于每个描述性属性j的缩放因子：该方式考虑到相应的描述性属性j的所述原始值x_i，j的分布和所述多个描述性属性j的公共基；

确定用于每个描述性属性j的加权因子；以及

至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：与第一边缘i₁相关联的第一属性j₁的第一原始值

用于第二属性j₂的第二缩放因子、以及用于第二属性j₂的第二加权因子，其中，所述多个描述性属性j包括所述第一属性j₁和所述第二属性j₂。

2.根据权利要求1所述的方法，其中，所确定的用于每个描述性属性j的缩放因子至少部分地基于针对相应的描述性属性j的代表性的最大值|x_j|，以建立每个描述性属性j的单位基作为公共基。

3.根据权利要求2所述的方法，其中，

针对每个描述性属性j的代表性的最大值|x_j|至少部分地基于如下表达式：

| x_{j} | = \sqrt{Σ_{i = 1}^{n} x_{i, j}^{2}}

其中n定义在所述多个边缘中包括的边缘的个数。

4.根据权利要求2所述的方法，进一步包括：

用所述第一属性j₁的所述代表性的最大值

除所述第一原始值

以形成用于相应的第一边缘属性对i₁，j₁的第一缩放的值

用所述第二属性j₂的所述代表性的最大值

除所述第二原始值

以形成用于相应的第二边缘属性对i₁，j₂的第二缩放的值

用所述第一边缘属性对i₁，j₁的所述第一加权因子乘以所述第一缩放的值

以形成第一连结属性分量

用所述第二边缘属性对i₁，j₂的所述第二加权系数

乘以所述第二缩放的值

以形成第二连结属性分量

将所述第一连结属性分量和所述第二连接属性分量

求和，以获得所述第一边缘i₁的原始复合连结度量

以及

至少部分地基于所述原始复合连结度量

的指数函数来得到针对所述第一边缘i₁的归一化的复合连结度量

5.根据权利要求1所述的方法，结合确定所述缩放因子和所述加权因子，所述方法进一步包括：

计算针对每个描述性属性j的代表性平均值

计算针对每个描述性属性j的标准差σ_j；

确定针对每个描述性属性j的每个原始值x_i，j和代表性平均值

之间的差，以形成针对每个描述性属性j的中间值的相应集合；

将每个描述性属性j的每个中间值

除以相应的描述性属性j的所述标准差σ_j，以形成针对每个描述性属性j的缩放的值

的相应集合，其中每个描述性属性j具有由零均值和单位方差表示的公共基；以及

根据所述多个描述性属性j的所述缩放的值形成协方差矩阵Σ。

6.根据权利要求1所述的方法，其中，所述缩放因子被确定为使得缩放的值

的相应集合根据每个描述性属性j的所述原始值x_i，j形成，使得每个描述性属性j的所述缩放的值

的所述公共基反映零均值和单位方差，所述方法进一步包括：

根据用于所述多个描述性属性j的所述缩放的值

形成协方差矩阵Σ；以及

找到所述协方差矩阵Σ的特征向量的集合和特征值的相应集合。

7.一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的装置，包括：

数据通信模块，被配置为从远程存储设备接收多个描述性数据，其中所述多个描述性数据包括多个描述性属性j的原始值x_i，j，所述多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联，其中，每个边缘i涉及所述多个节点中的两个节点，其中每个原始值x_i，j涉及所述电信呼叫图中的唯一的边缘i和针对相应的边缘i的唯一的描述性属性j，所述唯一的边缘i和所述唯一的描述性属性j形成与相应的原始值x_i，j相关的边缘属性对i，j；

本地存储设备，被配置成至少临时地存储所述多个描述性数据；

缩放/加权处理器，被配置成以下述方式来确定用于每个描述性属性j的缩放因子：所述方式考虑到相应的描述性属性j的所述原始值x_i，j的分布和所述多个描述性属性j的公共基，并且所述缩放/加权处理器被配置成确定用于每个描述性属性j的加权因子；以及

复合连结度量处理器，被配置成至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i₁的复合连结度量s：与所述第一边缘i₁相关联的第一属性j₁的第一原始值