CN103890758A - 用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置 - Google Patents

用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置 Download PDF

Info

Publication number
CN103890758A
CN103890758A CN201280043804.9A CN201280043804A CN103890758A CN 103890758 A CN103890758 A CN 103890758A CN 201280043804 A CN201280043804 A CN 201280043804A CN 103890758 A CN103890758 A CN 103890758A
Authority
CN
China
Prior art keywords
edge
value
attribute
descriptive attributes
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280043804.9A
Other languages
English (en)
Inventor
V·B·门迪拉塔
D·多兰
C·法蒂克
H·乌祖纳利欧格鲁
D·库什尼尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Optical Networks Israel Ltd
Original Assignee
Alcatel Optical Networks Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Optical Networks Israel Ltd filed Critical Alcatel Optical Networks Israel Ltd
Publication of CN103890758A publication Critical patent/CN103890758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/14Merging, i.e. combining at least two sets of record carriers each arranged in the same ordered sequence to produce a single set having the same ordered sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/32Merging, i.e. combining data contained in ordered sequence on at least two record carriers to produce a single carrier or set of carriers having all the original data in the ordered sequence merging methods in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)

Abstract

一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法,包括:接收具有描述性属性的原始值的描述性数据,该描述性属性与由在节点之间的边缘形成的电信呼叫图相关联。每个边缘涉及两个节点。每个原始值涉及边缘和形成相应的原始值的边缘属性对的描述性属性。描述性数据被存储在本地存储设备中。在考虑到相应的描述性属性的原始值的分布和描述性属性的公共基的情况下,确定对于每个描述性属性的缩放因子。确定每个描述性属性的加权因子。基于描述性属性的原始值、缩放因子和加权因子来计算边缘的复合连结度量。

Description

用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置
背景技术
此申请基于2011年9月8日提交的美国临时申请No.61/532,151,并要求其优先权,其全部内容通过引用合并于此。
本公开涉及用于基于在电信呼叫图的节点之间的边缘的多个属性来得到该边缘的复合连结度量的过程。例如,本公开描述了一种用于得到边缘的复合连结度量的方法的示例性实施例,该方法考虑到边缘的多个属性的值、在电信呼叫图中边缘的多个属性的值的分布、多个属性到共同尺度的转换、以及关于复合连结度量对每个属性的相对贡献的灵敏度对多个属性进行加权。本公开还描述了一种装置的示例性实施例,该装置基于经由与电信呼叫图相关联的电信网络通信的历史数据记录来得到边缘的复合连结度量。这里描述的方法和装置的各种实施例可以结合对服务提供商提供关于流失预测的建议来使用。然而,这里描述的方法和装置可以用于其他目的,诸如电信服务采用的预测、定向广告、定向市场营销、异常检测或可以从用户行为的预测获益的其他用途。
社交网络分析(SNA)是用于更好地理解用户的行为和关系的有效方法。通常在在线社交网络(OSN)的背景下应用SNA,在线社交网络诸如Facebook、Flickr和Twitter,其中,用户可以直接建立连结、共享信息以及加入群组以与具有类似兴趣的用户连接。在这些网络中,SNA对直接暗示用户之间的社交连接的属性进行操作。例如,两个用户是OSN上的好友、他们属于相同的群组、或他们彼此共享信息的事实可以各自单独用于推断出社交连结存在。
这样的OSN包含因果关系信息,即暗示存在社交连结的数据属性。然而,存在其他社交网络,其中仅可以观察到一个社交连结的效果。每个效果单独地取出并不直接表明社交连结强度。移动呼叫图是这样的社交网络的示例。在移动呼叫图中,强的社交连结的效果可能包括大量拨出的电话、花长时间的交谈以及在周末和晚上期间的很多电话。然而,没有任何属性本身直接暗示连结强度。例如,用户可能呼叫银行以查询余额并且支付帐单的次数比他们给朋友打电话的次数更多,即使友谊是更强的社交连结。
移动呼叫图表示大量用户彼此通信的方式,并且这些通信的模式涉及人们之间的社交连结。因此,对移动呼叫图应用SNA的研究受到欢迎。然而,这样的研究仅挑选关于在两个用户之间进行的呼叫的单个特征来定义社交关系。结果,由这些研究得到的结论仅基于可能存在的社交关系的单个效果。为了对呼叫图进行更加如实地考虑用户之间的社交关系的观察,需要对连结强度的改进的测量。
关于将SNA应用于移动呼叫图的研究的其他信息,参见例如:Dasgupta等人的“Social Ties and their Relevance to Churn in MobileTelecom Networks,”发表于2008年3月25-30举行的第11次ACMInternational Conference on Extending Database Technology的会刊第668-677页;ii)Onnela等人的“Structure and tie strengths in mobilecommunication networks”,发表于2007年5月1日的the NationalAcademy of Sciences of the United States的会刊,vol.104,no.18,第7332–7336页;iii)Richter等人的“Predicting customer churn in mobilenetworks through analysis of social groups”,发表于2010年4月29到5月1日举行的SIAM International Conference on Data Mining的会刊第732-741页;iv)Seshardi等人的“Mobile Call Graphs:BeyondPower-Law and Lognormal Distributions”,发表于2008年8月24-27举行的14th ACM Conference on Knowledge Discovery and DataMining的会刊第596-604页;以及v)Nanavati等人的“On theStructural Properties of Massive Telecom Call Graphs:Findings andImplications”,发表于2006年11月5-11日举行的15th ACMConference on Information and Knowledge Management的会刊第435-444页。这5个文献的内容通过引入完全并入本文。
对计算社交连结强度的问题的现有解决方案适用于在线社交网络(OSN),其中存在因果关系的信息,即存在暗示社交连结存在的数据属性。例如,两个用户是OSN上的好友、他们属于相同的群组、或他们彼此共享信息的事实可以各自单独被用于推断社交连结存在。然而,对于电话网络,仅有社交连结的效果被观察到。每个效果单独取出并不直接表明关系强度。例如,在移动呼叫图中,强的社交连结的效果可能包括大量拨出的电话、花长时间的交谈以及在周末和晚上期间的很多电话。然而,没有任何属性本身直接暗示连结强度。例如,用户可能呼叫银行以查询余额并且支付帐单的次数比他们给朋友打电话的次数更多,即使友谊是更强的社交连结。
存在将SNA应用于移动呼叫图的大量研究。然而,这样的研究仅挑选关于在两个用户之间进行的呼叫的单个特征来定义社交关系。结果,由这些研究得到的结论仅基于可能存在的社交关系的单个效果。为了对呼叫图进行更加如实地考虑用户之间的社交关系的观察,需要对连结强度的改进的测量。
检测移动呼叫图的异常行为具有若干优点:使用率显著下降的链接可能是由于减少的呼叫活动而导致节点在未来可能流失的早期指示。在另一方面,显著增加的活动可以指示对于影响力传播的新的连结和可能的链接的形成。对呼叫图的异常检测具有用于执法机构的应用。海外通话、在一天中的不寻常时间期间打电话、某些节点之间的增加的呼叫活动以及甚至服务的不充分使用或者过度使用(与“扔掉”电话相关联)可能被检测为执法机构在调查案件时所利用的异常信号。复合连结变化度量的使用通过将多个属性上的异常活动合并成单个度量来促进异常检测。
异常检测还适用于监视在电信网络中的链路上的业务。电信网络由网络节点(即,电信设备)以及连接不同的网络节点和传输业务的链路构成。为了从网络获取最佳性能,有利的是使链路处于特定的活动水平并且能够检测链路是否偏离了其正常的期望行为。例如,过载链路可能降低性能并且使网络瘫痪,而未充分利用的链路表示损失收入的可能。检测链路的异常行为使得运营商能够采取行动,并且纠正该情况。为了准确的异常检测,需要考虑的链路的性能的多个因素;而不仅仅是单个测量。
出于这些和其他原因,需要基于电信呼叫图的节点之间的边缘的多个特性来定义表示该边缘的复合度量。
发明内容
在一个方面中,提供了一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法。在一个实施例中,该方法包括:在计算设备处从远程存储设备接收多个描述性数据,其中多个描述性数据包括针对多个描述性属性j的原始值xi,j,该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联,其中,每个边缘i涉及多个节点中的两个节点,其中每个原始值xi,j涉及电信呼叫图中的唯一的边缘i和针对相应的边缘i的唯一的描述性属性j,唯一的边缘i和唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j;至少临时地将多个描述性数据存储在本地存储设备中;以下述方式来确定用于每个描述性属性j的缩放因子:该方式考虑到针对相应的描述性属性j的原始值xi,j的分布和针对多个描述性属性j的公共基;确定用于每个描述性属性j的加权因子;以及至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:与第一边缘i1相关联的第一属性j1的第一原始值
Figure BDA0000474427040000041
用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、与第一边缘i1相关联的第二属性j2的第二原始值
Figure BDA0000474427040000042
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子,其中,多个描述性属性j包括第一属性j1和第二属性j2。可以理解的是,这里描述的用于得到复合连结度量的过程可以用于超过示例性第一属性和第二属性的任何数目的属性。
在另一方面中,提供了一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的装置。在一个实施例中,该装置包括:数据通信模块,被配置为从远程存储设备接收多个描述性数据,其中多个描述性数据包括针对多个描述性属性j的原始值xi,j,该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联,其中,每个边缘i涉及多个节点中的两个节点,其中每个原始值xi,j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j,唯一的边缘i和唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j;本地存储设备,被配置成至少临时地存储多个描述性数据;缩放/加权处理器,被配置成以下述方式来确定用于每个描述性属性j的缩放因子:该方式考虑到针对相应的描述性属性j的原始值xi,j的分布和针对多个描述性属性j的公共基,并且被配置成确定用于每个描述性属性j的加权因子;以及复合连结度量处理器,被配置成至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:针对与第一边缘i1相关联的第一属性j1的第一原始值用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、针对与第一边缘i1相关联的第二属性j2的第二原始值
Figure BDA0000474427040000052
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子,其中,多个描述性属性j包括第一属性j1和第二属性j2
在又一个方面中,提供了一种存储程序指令的非瞬时计算机可读介质,当由处理器执行时,该程序指令使得计算设备执行用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法。在一个实施例中,该方法包括:在从远程存储设备接收多个描述性数据之后,其中多个描述性数据包括针对多个描述性属性j的原始值xi,j,该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联,以下述方式来确定用于每个描述性属性j的缩放因子:该方式考虑到针对相应的描述性属性j的原始值xi,j的分布和针对多个描述性属性j的公共基,其中,每个边缘i涉及多个节点中的两个节点,其中每个原始值xi,j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j,唯一的边缘i和唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j;确定用于每个描述性属性j的加权因子;以及至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:针对与第一边缘i1相关联的第一属性j1的第一原始值
Figure BDA0000474427040000061
、用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、针对与第一边缘i1相关联的第二属性j2的第二原始值
Figure BDA0000474427040000062
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子,其中,多个描述性属性j包括第一属性j1和第二属性j2
根据下面提供的详细描述,本发明的进一步的适用范围将变得显而易见。然而,应当理解,详细描述和特定示例尽管指示本发明的优选实施例,但是他们仅通过例示的方式被给出,因为在本发明的精神和范围内的各种改变和修改对于本领域技术人员来说将变得显而易见。
附图说明
本发明存在于设备的各部分的构建、布置和组合,以及方法的步骤,由此,所预期的目标被实现,如在下文中被更全面地阐述、在权利要求中被具体指出、并且在附图中被图示的,在附图中:
图1是示出在电信呼叫图中的边缘的若干示例性属性和复合连结度量之间的关联的一组图;
图2是示出在电信呼叫图中的边缘的若干示例性属性的复合连结度量质量的图;
图3是示出在电信呼叫图中的边缘的示例性属性的复合连结度量质量的图;
图4是示出在电信呼叫图中的边缘的另一示例性属性的复合连结度量质量的图;
图5是示出在电信呼叫图中的边缘的又一示例性属性的复合连结度量质量的图;
图6是用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程的示例性实施例的流程图;
与图6相结合的图7是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的另一示例性实施例的流程图;
与图6相结合的图8是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图;
与图6和图8相结合的图9是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图;
与图6相结合的图10是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图;
与图6和图10相结合的图11是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的又一示例性实施例的流程图;
图12是用于得到在电信呼叫图的节点之间的边缘的复合连结度量的计算设备的示例性实施例的框图;以及
图13是由计算设备执行的用于得到在电信呼叫图的节点之间的边缘的复合连结度量的过程的示例性实施例的流程图,该计算设备具有执行存储在非瞬时计算机可读介质中的程序指令的处理器。
具体实施方式
总体上,本公开描述了用于得到边缘度量的两个过程。第一度量是针对电信图边缘的基于变量的评分的测量,引起多个属性值的组合距离属性平均值的偏差。该过程基于主成分分析(PCA)方法的使用。本实施例可以用于检测异常行为。第二过程包括与社交连结强度有关的度量的计算。第二过程可以用于理解用户对其他用户的行为的社交影响力。
本公开例如使用用于测量用户之间的复合连结度量的方法来检查移动呼叫图。这里公开了用于通过很多呼叫属性的合成来量化合成连结度量的算法的各种实施例,该很多呼叫属性的值是社交连接的效果。关于连结强度的其他信息,参见例如Granovetter于AmericanJournal of Sociology,Vol.78,Issue6,May1973,pp.1360–1380发表的“The Strength of Weak Ties”,其全部内容通过引用合并于此。算法的各种实施例可以应用于由主要移动服务提供商所提供的呼叫图以研究在复合连结度量和呼叫图结构之间的关系。
在算法的一个示例性实施例中,移动呼叫图被定义为简单的有向图G=(V,E),其中该组顶点V表示移动电话用户,并且当且仅当a,b∈V并且a对b打电话时,边缘e=(a,b)∈E。G表示在|V|=n个用户当中|E|=m个连结。目标在于定义加权函数S:E→R其将每个有向的边缘映射成一个值,该值以在边缘上附带的用户之间的关系为特征。
在本实施例中,每个边缘被表示为k个属性的向量。k个属性的对应向量可以组成m×k矩阵E,其中E的行对应于G的边缘,并且|E|tf是针对边缘i的属性j的值。为了将E的行向量映射成以在边缘上附带的用户之间的关系为特征的值,应用由主要成分分析(PCA)所启示的方法,该方法将数据投射到更好地表示在数据内存在的变化的子空间。投影使用向量的正交基集合,该向量指向其中数据的变化最大(称为主要分量(PC))的方向。该集合由E的协方差矩阵Σ的特征向量给出。关于PCA的其他信息,参见例如Jackson于Wiley-Interscience,September,10,2003,592pages发表的“A User’sGuide to Principal Components”,其内容通过引用合并于此。
Σ的特征值的总和等于该数据内的总方差,如果具有零均值和单位方差,则其与数据的维度相同。换言之,Σ的特征值使由投影的数据的每个维度解释的变化量与沿着原始数据的维度的变化相关。投影的数据的每个分量被乘以相应的特征值。这些加权的分量被求和以得到以两个用户之间的关系为特征的值。这给出了其中数据对复合连结度量值呈现出非常大的变化附加影响的维度。
在另一实施例中,该算法可以概括如下:
1)对于所有j,设置 | E | ij = | E | ij - 1 m Σ i = 1 m | E | ij ;
2)设置
Figure BDA0000474427040000082
其中
Figure BDA0000474427040000083
作为属性j的方差;
3)求E的协方差矩阵Σ;
4)求∧,其为kx1列向量,其中∧i是Σ的第i个最大特征值;
5)求U,其为kxk的矩阵,其第i列是对应于第i个的右特征向量;以及
6)针对边缘ei的复合连结度量通过向量S=EU∧的第i个分量给出。
在另一实施例中,可以使用用于计算针对边缘的复合连结度量的算法的示例性实施例的各个方面来研究电信呼叫图的社交分解。该算法一种方法以量化在两个用户之间的社交连结强度,该方法通过考虑任何数目的观察而提供较高精确度。对于这样的示例的其他信息,参见例如Doran及其他人的2011年9月8日提交的美国临时申请No.61/532,151中的“Examining the Social Decomposition ofMobile Call Graphs”,要求了该申请的优先权,并且其全部内容通过引用合并于此。
这里公开用于计算电话网络的订户之间的复合连结度量的方法的各种实施例。这些实施例建立在社交网络分析(SNA)的原理上,并且将SNA扩展到电话网络的结构的研究。通过开发合成很多呼叫属性的算法解决了得出呼叫图内的社交网络上的复合连结度量的问题,该很多呼叫属性的值是社交连结的效果。
在算法的一个实施例中,初始地,从可以表示社交连结的效果的呼叫数据中提取n个属性的集合,诸如呼叫持续时间、两个用户之间进行的呼叫的次数,以及这两个用户都直接联系(并且对二者是公共的)的其他用户的数目。构建了移动呼叫图,其中节点表示用户,并且在两个节点之间的链接表示直接社交连结。当且仅当A对B至少打一个电话时,存在从A到B的有向社交连结。图中的每个社交连结被表示为n维向量,其分量值对应于从呼叫数据中提取的n个属性中的每一个。这些n维向量中的每一个被使用该算法映射到单个值。
即使在单个特征和社交连结强度之间不存在因果关系,考虑这些社交连结向量在n维空间内变化的方式可以用于示出社交连结的强度,因为很多效果的值一起更强烈地表明社交连结强度。例如,两个人彼此呼叫的次数是社交连结的效果(两个人之间进行更多的呼叫可以示出关系强度)。在将该信息与其他属性组合中,诸如呼叫所花费的总时间和公共邻居,可以做出关于连结强度更强的推断。
然而,出于若干原因,在尝试得到复合连结度量的值时,不应当直接组合多个类型的属性的值。首先,每个属性可以以不同的尺度来测量,使得其直接结合无意义。为了解决该问题,数据可以被中心化,使得其具有零均值,并且然后缩放每个分量使其具有单位方差。另一个原因是,社交连结的强度不同程度地影响每个属性。如果社交连结强度对属性的值具有小的影响,那么在将社交连结向量向一个值映射时,该属性不应当被给予那么多的权重。此外,当一起考虑多个属性时,数据还呈现出不同的变化量。为了解决该问题,在其中数据变化最大的n维空间中n个方向可以被识别并且投影到沿这些方向当中的另一n维空间。该数据变换的结果是其变化沿着每个分量都是最大的替代连结度量向量的集合。沿着这些投影分量的组合变化捕获了在原始数据内存在的变化的主要部分。
上述数据投影是由传统的数据挖掘技术主成分分析(PCA)来推动的。PCA将数据集内的最大方差的方向识别为数据集的协方差矩阵的特征向量。这意味着投影数据的每个分量对应于数据投影中使用的特征向量中的一个。此外,该特征向量的特征值表示在由该分量捕获的原始数据中的方差的比例。因此,该复合连结度量被定义为每个投影分量乘以其相应特征值的线性组合。
在另一实施例中,该算法可以概括如下:
1)将每个社交连结表示为n维向量,其分量对应于呼叫属性的值;
2)缩放向量使得其分量具有零均值和单位方差;
3)求社交连结向量的协方差矩阵;
4)求协方差矩阵的特征向量的集合及其对应的特征值;
5)使用特征向量将数据投影到新的n维空间;以及
6)复合连结度量被给出,作为其投影的每个分量乘以其相应的特征值的总和。
图2中示出了所得到的连结的质量。例如,图2中的三个属性(即,总呼叫持续时间、打电话的次数,和在两个节点之间相同的邻居的比例)可以用于证明该方法。得到的度量值遵循关于连结强度应当如何影响这些属性的值的期望。呼叫长度和打电话的次数与得到的连结量度值正相关,而仅当打电话的次数和呼叫长度都低时强烈地影响公共邻居的数目。
通常,算法的各种实施例提供基于用户之间链接的几个属性来计算网络上的用户之间的复合连结度量。社交链接强度具有对于信息传播如何在社交网络中发生的暗示。例如,对于关于采用新的产品和服务、客户流失的行为的传播等。在计算复合连结度量中的更好的方法将改善这样的解决方案的结果,并且增加他们对服务提供商的商业价值。
该算法开发了用于计算网络的社交复合连结度量的方法,网络例如移动电话网络,其中仅观察到社交连结的效果。用于计算社交连结强度的现有解决方案适用于在线社交网络(OSN),在OSN中存在因果关系信息,即存在暗示社交连结存在的数据属性。此外,这里公开的算法的各种实施例定义了可扩展架构,其中,可以考虑关于社交连结及其效果的任意数目的信息变量。
该算法还可以应用于除呼叫图之外的其他社交网络。此外,在“大数据”时代,对商业情报的分析被部署在包括电信的一系列行业,以随时备用的情报的形式深入了解客户行为。该情报可以用于设计活动以提升客户体验、设计忠诚度活动、设计程序以留住客户(减少客户流失)、注册新用户,并且设计程序以向上销售和交叉销售来提高客户终身价值并优化投资回报(ROI)。
在又一实施例中,呈现了用于得到移动呼叫图中的边缘的复合度量的数学框架。诸如两个用户之间的呼叫频率的单个呼叫特征可能不一定是其社交连结强度的好的指标;然而,该特征的值可能受到相应连结强度的影响。例如,即使用户之间的呼叫的高持续时间或呼叫的频率没有暗示高的社交连结强度,如果两个用户共享强的社交连结,可以期望他们彼此频繁呼叫并且交谈很长一段时间。因此,因为呼叫属性的值受到基本社交关系的强度的影响,所以这是社交连结效果的类型。这些效果一起而不是单独地给出了用户之间的社交连结的更好概括。
移动呼叫图中的两个用户之间的连接的属性(例如,总通话时长和通话的总数)通常是相关的,并且被使用不同的尺度来测量。这使得难以以有意义的方式来组合这些值。为了克服了缩放差异,每个属性xi通过除以|xi|来进行归一化,其中
Figure BDA0000474427040000121
由此重新缩放每个属性以具有单位长度。对于n个属性与之相关联的边缘,对于复合连结度量计算正实数值,其中x=α1x12x2+...+αnxn是归一化的属性的加权和。具体地,w(x)是由w(x)=1exp(-x/ε2)给出x的单调增函数。
显然,w(x)被限制在区间[0,1],其中参数ε控制饱和率。该公式基于下述假设:一旦示出了强社交连接,其中“想法”(诸如流失)很可能将通过边缘从一个订户传输到另一订户。ε的范围可以根据训练数据获悉。在图3-5中示出了所得到的连结度量的质量。
这里描述的实施例允许在得到节点A和B之间的链路(边缘)的复合连结度量时将被考虑的许多链路属性,每个链路属性表示在节点A和B之间连接/关系的某种形式。一些示例性链接属性包括呼叫的次数、呼叫的持续时间、呼叫的方向、呼叫的相互作用、呼叫的时间/日期、花费的量、朋友/邻居的重叠,以及在时间窗内的呼叫频率。这里描述的各种算法组合在对于链接的复合连结度量中感兴趣的属性。例如,该算法使用函数(f)来组合多个(即多于一个)链接属性以生成复合连结度量。
该函数(f)的实际形式可以取决于得到的复合连结度量将被用于的最终问题。例如,该算法可以被定制以提供在流失预测、异常检测、欺诈检测等中使用的复合连结度量。这里描述的实施例包括得到复合连结度量的基于PCA的函数,该复合连结度量可以用于检测异常链路,诸如那些呈现明显不同于正常(即平均)的特征。这里描述其他实施例使用指数函数来反映连结强度,其中所计算的值被归一化为在0和1之间,并且可以用于流失预测。应当理解,许多其他形式的函数(f)可能用于计算复合连结强度。
参考图6,过程900的示例性实施例在902处开始,过程900用于得到在电信呼叫图的节点之间的边缘的复合连结度量,在902处,在计算设备处从远程存储设备接收多个描述性数据。多个描述性数据包括针对多个描述性属性j的原始值xi,j,该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联。每个边缘i涉及多个节点中的两个节点。每个原始值xi,j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j。唯一的边缘i和唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j。多个描述性数据至少被临时存储在本地存储设备中(904)。
在906,以下述方式来确定用于每个描述性属性j的缩放因子:该方式考虑到针对相应的描述性属性j的原始值xi,j的分布和多个描述性属性j的公共基。确定用于每个描述性属性j的加权因子(908)。在910,至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:针对与第一边缘i1相关联的第一属性j1的第一原始值用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、针对与第一边缘i1相关联的第二属性j2的第二原始值用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子。多个描述性属性j包括第一属性j1和第二属性j2
在过程900的另一实施例中,多个边缘i和多个节点形成电信网络,并且描述性数据与在预定时间期间利用电信网络的资源的通信会话相关联。在该实施例中,每个边缘i表示一个连接,在预定时间段期间至少一个通信会话被通过该连接而连接。在另一实施例中,电信网络包括无线网络、移动网络和蜂窝网络中的至少一个。在又一实施例中,第一节点表示与第一用户设备相关联的第一识别号,并且第二节点表示与第二用户设备相关联的第二识别号。在又一实施例中,第一节点和第二节点中的至少一个表示与用户设备的对应的组相关联的一组识别号。在又一实施例中,通信会话包括语音通话、文字消息、多媒体消息、短消息服务(SMS)消息、即时消息(IM)和数据传送中的至少一个。在过程900的又一实施例中,与多个边缘j相关联的多个描述性属性包括下述中的至少一个:通过相应的边缘j的通信回话量、通过相应的边缘j的用于通信会话的积累的持续时间测量、与相应的边缘j相关联的节点的公共邻居的量、以及用于与相应的边缘j相关联的节点的一个或多个人口统计参数。
在过程900的又一实施例中,多个边缘包括有向边缘,其反映每个边缘相对于如下节点是传出还是传入,相应的边缘与该节点相关联。
参考图6和图7中,过程1000的另一示例性实施方式,该过程1000用于得到电信呼叫图的节点之间的边缘的复合连结度量,该过程1000包括图6的过程900并且在906、908和910之上扩展。在过程1000的该实施例中,对于每个描述性属性j所确定的缩放因子至少部分地基于为相应的描述性属性j确定代表性的最大值|xj|,以建立每个描述性属性j的单位基作为公共基。在1002中,第一原始值
Figure BDA00004744270400001411
被除以第一属性j1的代表性最大值
Figure BDA00004744270400001412
以形成用于相应的第一边缘属性对i1,j1的第一缩放的值第二原始值
Figure BDA00004744270400001413
被除以第二属性j2的代表性最大值
Figure BDA00004744270400001414
以形成用于相应的第二边缘属性对i1,j2的第二缩放的值
Figure BDA0000474427040000142
(1004)。
在1006,第一边缘属性对i1,j1的第一加权因子
Figure BDA00004744270400001415
乘以第一缩放的值
Figure BDA0000474427040000143
以形成第一连结属性分量
Figure BDA0000474427040000144
第二边缘属性对i1,j2的第二加权系数
Figure BDA00004744270400001416
乘以第二缩放的值
Figure BDA0000474427040000145
以形成第二连结属性分量
Figure BDA0000474427040000146
(1008)。在1010中,第一连结属性分量
Figure BDA0000474427040000147
和第二连结属性分量被求和,以获得第一边缘i1的原始复合连结度量
Figure BDA0000474427040000149
至少部分地基于原始复合连结度量
Figure BDA00004744270400001410
的指数函数来得到针对第一边缘i1归一化的复合连结度量
Figure BDA00004744270400001512
(1012)。应当理解,用于得到此处所描述的复合连结度量的过程1000可以用于超过了示例性第一和第二属性的任何数目的属性。
在过程1000的另一实施例中,对于每个描述性属性j的代表性最大值|xj|至少部分地基于表达式:
| x j | = Σ i = 1 n x i , j 2 - - - ( 1 )
其中n定义了包括在多个边缘中的边缘的数目。
在过程1000的另一个实施例中,第一缩放的值
Figure BDA0000474427040000152
至少部分地基于表达式:
x ′ i 1 , j 1 = x i 1 , j 1 | x j 1 | - - - ( 2 )
并且第二缩放的值至少部分地基于对于
Figure BDA00004744270400001514
Figure BDA00004744270400001515
相同的表达式。
在过程1000的又一实施例中,第一边缘i1的原始复合连结度量
Figure BDA0000474427040000154
至少部分地基于表达式:
S i = ∝ 1 x ′ 1 + ∝ 2 x ′ 2 - - - ( 3 ) .
在过程1000的又一实施例中,第一边缘i1的归一化的复合连结度量
Figure BDA0000474427040000156
至少部分地基于在表达式:
F ( S i ) = 1 - exp ( - S i ϵ 2 ) - - - ( 4 )
其中ε是结合原始连结强度Si来控制归一化的复合连结度量F(Si)的饱和度的常量。
参考图6和图8,用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1100的又一示例性实施例包括图6的过程900并且在906和908之上扩展。在本实施例中,过程1100包括计算针对每个描述性属性j的代表性平均值(1102)。在1104中,对每个描述性属性j计算标准差σj。确定针对每个描述性属性j的每个原始值xi,j和代表性平均值
Figure BDA0000474427040000159
之间的差,以形成针对每个描述性属性j的中间值
Figure BDA00004744270400001510
的相应集合(1106)。在1108,针对每个描述性属性j的每个中间值
Figure BDA00004744270400001511
被除以相应的描述性属性j的标准差σj,以形成针对每个描述性属性j的缩放的值
Figure BDA0000474427040000161
的相应集合,其中每个描述性属性j具有由零均值和单位方差表示的公共基。协方差矩阵Σ由该多个描述性属性j的缩放的值
Figure BDA0000474427040000162
形成(1110)。
在过程1100的另一实施例中,针对每个描述性属性j的代表性平均值
Figure BDA0000474427040000163
至少部分地基于如下表达式:
x ‾ j = 1 n Σ i = 1 n x i , j - - - ( 5 )
其中n定义了包括在多个边缘中的边缘的数目。
在过程1100的另一实施例中,对于每个描述性属性j,中间值
Figure BDA0000474427040000166
至少部分地基于如下表达式:
x · i , j = x ‾ j σ j - - - ( 6 )
参考图6、图8和图9,用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1200的另一示例性实施例包括图6和图8的过程900、110,并且在906、908和910之上扩展。在本实施例中,过程1200包括根据协方差矩阵Σ寻找与第一边缘i1相关并且与第一边缘属性对i1,j1相关联的第一属性j1的第一缩放因子
Figure BDA0000474427040000167
(1202)。在1204中,根据协方差矩阵Σ寻找与第一边缘i1相关并且与第二边缘属性对i1,j2相关联的第二属性j2的第二缩放因子
Figure BDA0000474427040000168
从该协方差矩阵Σ寻找与第一边缘i1相关并且与第一边缘属性对i1,j1相关联的第一属性j1的第一加权因子
Figure BDA0000474427040000169
(1206)。在1208,根据该协方差矩阵Σ寻找与第一边缘i1相关并且与第二边缘属性对i1,j2相关联的第二属性j2的第二加权因子
Figure BDA00004744270400001610
第一边缘属性对i1,j1的原始值
Figure BDA00004744270400001611
乘以第一缩放因子
Figure BDA00004744270400001612
和第一加权因子
Figure BDA00004744270400001613
以形成针对第一边缘i1的第一连结属性分量
Figure BDA00004744270400001614
(1210)。在1212,第二边缘属性对i1,j2的原始值
Figure BDA00004744270400001615
乘以第二缩放因子
Figure BDA00004744270400001616
和第二加权因子
Figure BDA00004744270400001617
以形成针对第一边缘i1的第二连结属性分量
Figure BDA00004744270400001618
第一连结属性分量
Figure BDA00004744270400001619
和第二连结属性分量
Figure BDA00004744270400001620
被求和,以获得针对第一边缘i1的归一化的复合连结度量
Figure BDA00004744270400001621
(1214)。应当理解,用于得到这里所描述的复合连结度量的过程1200可以用于超过示例性的第一和第二属性的任何数目的属性。
在过程1200的另一实施例中,第一缩放因子
Figure BDA0000474427040000171
基于来自对应于第一加权因子的协方差矩阵Σ的第一特征向量,并且第二缩放因子
Figure BDA0000474427040000173
基于来自对应于第二加权因子的协方差矩阵Σ的第二特征向量。在过程1200的另一实施例中,第一加权因子
Figure BDA0000474427040000175
和第二加权因子
Figure BDA0000474427040000174
基于来自协方差矩阵Σ的列向量和特征值。
在过程1200的又一实施例中,第一边缘i1的第一连结属性分量
Figure BDA0000474427040000176
和第二连结属性分量
Figure BDA0000474427040000177
至少部分地基于如下表达式: S j n = x i 1 , jn * U jn * Λ jn , - - - ( 7 )
其中n标识相应的描述性属性j。
在过程1200的又一实施例中,针对第一边缘i1的归一化的复合连结度量至少部分地基于表达式:
S i 1 = S j 1 + S j 2 - - - ( 8 ) .
参考图6和图10,用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1300的又一示例性实施例包括图6的过程900并且在906和908之上扩展。在过程1300的该实施例中,缩放因子被确定,使得缩放的值
Figure BDA00004744270400001710
的相应集合根据针对每个描述性属性j的原始值xi,j形成,从而用于每个描述性属性j的缩放的值
Figure BDA00004744270400001711
的公共基反映零均值和单位方差。在1302中,协方差矩阵Σ是根据用于多个描述性属性j的缩放的值
Figure BDA00004744270400001712
形成的。找到协方差矩阵Σ的特征向量的集合和相应的特征值的集合(1304)。
参考图6、图10和图11,用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1400的又一示例性实施例包括图6和图10的过程900和1300并且在910之上扩展。在本实施例中,过程1400包括使用来自协方差矩阵Σ的特征向量在替代空间中处理第一边缘i1的描述性属性j的原始值xi,j,以形成针对第一边缘i1的对应的多个投影矢量(1402)。在1404,第一边缘i1的多个投影矢量中的每个投影矢量被乘以来自协方差矩阵的相应的特征值,以形成第一边缘i1的多个连结属性分量
Figure BDA00004744270400001713
这多个连结属性分量
Figure BDA00004744270400001714
被求和以获得第一边缘i1的归一化的复合连结度量
Figure BDA0000474427040000181
(1406)。
参考图12,用于得到电信呼叫图的节点之间的边缘的复合连结度量的计算设备1500的示例性实施例包括数据通信模块1502、本地存储设备1504、缩放/加权处理器1506以及复合连结度量处理器1508。在各种实施例中,计算设备1500可以包括一个或多个服务器、一个或多个计算机工作站、一个或多个计算机系统、一个或多个计算机、一个或多个处理器、或者一个或多个以任何适当组合的任何其他适当类型的计算设备。
数据通信模块1502被配置为从远程存储设备1510接收多个描述性数据。多个描述性数据包括多个描述性属性j的原始值xi,j,该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联。每个边缘i涉及多个节点中的两个节点。每个原始值xi,j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j。唯一的边缘i和唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j。本地存储设备1504被配置成至少临时地存储多个描述性数据。
缩放/加权处理器1506被配置成以下述方式来确定用于每个描述性属性j的缩放因子:该方式考虑到针对相应的描述性属性j的原始值xi,j的分布和多个描述性属性j的公共基,并且被配置成确定用于每个描述性属性j的加权因子。复合连结度量处理器1508被配置成至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:针对与第一边缘i1相关联的第一属性j1的第一原始值
Figure BDA0000474427040000182
用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、针对与第一边缘i1相关联的第二属性j2的第二原始值
Figure BDA0000474427040000183
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子。多个描述性属性j包括第一属性j1和第二属性j2
在计算设备1500的另一实施例中,缩放/加权处理器1506被配置为至少部分地基于确定针对相应的描述性属性j的代表性的最大值|xj|来确定用于每个描述性属性j的缩放因子,以建立每个描述性属性j的单位基作为公共基。在又一个实施例中,缩放/加权处理器1506被配置为用第一属性j1的代表性最大值
Figure BDA00004744270400001920
除以第一原始值
Figure BDA00004744270400001917
以形成用于相应的第一边缘属性对i1,j1的第一缩放的值
Figure BDA0000474427040000191
并且被配置为用第二属性j2的代表性最大值
Figure BDA00004744270400001919
除以第二原始值
Figure BDA00004744270400001918
以形成用于相应的第二边缘属性对i1,j2的第二缩放的值
Figure BDA0000474427040000192
在本实施例中,复合连结度量处理器1508被配置成使第一边缘属性对i1,j1的第一加权因子
Figure BDA00004744270400001921
乘以第一缩放的值
Figure BDA0000474427040000193
以形成第一连结属性分量被配置成使第二边缘属性对i1,j2的第二加权系数
Figure BDA00004744270400001922
乘以第二缩放值
Figure BDA00004744270400001923
以形成第二连结属性分量
Figure BDA0000474427040000195
被配置成将第一连结属性分量
Figure BDA0000474427040000196
和第二连结属性分量
Figure BDA0000474427040000197
求和,以获得针对第一边缘i1的原始复合连结度量
Figure BDA0000474427040000198
并且被配置成至少部分地基于原始复合连结度量
Figure BDA0000474427040000199
的指数函数来得到针对第一边缘i1的归一化的复合连结度量
Figure BDA00004744270400001910
可以理解的是,这里描述的用于得到复合连结度量的计算设备1500可以用于超过了示例性第一和第二属性的任何数目的属性。
在计算设备1500的另一实施例中,缩放/加权处理器1506被配置成计算针对每个描述性属性j的代表性平均值被配置成计算针对每个描述性属性j的标准差σj,被配置成确定针对每个描述性属性j的每个原始值xi,j和代表性平均值
Figure BDA00004744270400001912
之间的差,以形成针对每个描述性属性j的中间值
Figure BDA00004744270400001913
的相应集合,被配置为用相应的描述性属性j的标准差σj除每个描述性属性j的每个中间值
Figure BDA00004744270400001914
以形成对于每个描述性属性j的缩放的值
Figure BDA00004744270400001915
的相应集合,其中每个描述性属性j具有由由零均值和单位方差表示的公共基,并且被配置为根据该多个描述性属性j的缩放的值
Figure BDA00004744270400001916
形成协方差矩阵Σ。在又一实施例中,缩放/加权处理器1506被配置成根据协方差矩阵Σ寻找与第一边缘i1相关并且与第一边缘属性对i1,j1相关联的第一属性j1的第一缩放因子
Figure BDA00004744270400001924
被配置为根据协方差矩阵Σ寻找与第一边缘i1相关并且与第二边缘属性对i1,j2相关联的第二属性j2的第二缩放因子
Figure BDA00004744270400001925
被配置为从该协方差矩阵Σ寻找与第一边缘i1相关并且与第一边缘属性对i1,j1相关联的第一属性j1的第一加权因子并且被配置为根据该协方差矩阵Σ寻找与第一边缘i1相关并且与第二边缘属性对i1,j2相关联的第二属性j2的第二加权因子
Figure BDA0000474427040000205
在本实施例中,复合连结度量处理器1508被配置成将第一边缘属性对i1,j1的原始值
Figure BDA0000474427040000206
乘以第一缩放因子
Figure BDA0000474427040000207
和第一加权因子以形成第一边缘i1的第一连结属性分量
Figure BDA0000474427040000209
被配置成将第二边缘属性对i1,j2的原始值
Figure BDA00004744270400002010
乘以第二缩放因子
Figure BDA00004744270400002011
和第二加权因子
Figure BDA00004744270400002012
以形成第一边缘i1的第二连结属性分量并且被配置为将第一连结属性分量
Figure BDA00004744270400002014
和第二连结属性分量
Figure BDA00004744270400002015
求和,以获得针对第一边缘i1的归一化的复合连结度量
Figure BDA00004744270400002016
可以理解的是,这里所描述的用于得到复合连结度量的设备1500可以用于超过示例性的第一和第二属性的任何数目的属性。
在计算设备1500的另一实施例中,缩放/加权处理器1506被配置为确定缩放因子,使得根据每个描述性属性j的原始值xi,j形成相应的缩放的值的集合,使得每个描述性属性j的缩放的值
Figure BDA0000474427040000202
的公共基为反映零均值和单位方差。在又一实施例中,缩放/加权处理器1506被配置成根据用于多个描述性属性j的缩放的值
Figure BDA0000474427040000203
形成协方差矩阵Σ,并且被配置成找到协方差矩阵Σ的特征向量的集合和相应的特征值的集合。在更进一步的实施例中,所述复合结度量处理器1508被配置成使用来自协方差矩阵Σ的特征向量在替代空间中处理的第一边缘i1的描述性属性j的原始值xi,j,以形成第一边缘i1的对应的多个投影矢量,被配置成用来自协方差矩阵的相应的特征值乘第一边缘i1的多个投影矢量中的每个投影矢量,以形成第一边缘i1的多个连结属性分量
Figure BDA00004744270400002017
并且被配置成对多个连结属性分量求和,以获得第一边缘i1的归一化的复合连结度量
Figure BDA00004744270400002019
参考图13,一种存储程序指令的非瞬时计算机可读介质的示例性实施例,当由处理器执行时,该程序指令使得计算设备执行用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程1600。在一个实施例中,该过程1600包括:在从远程存储设备接收多个描述性数据之后,以下述方式来确定对于每个描述性属性j的缩放因子:该方式考虑到相应的描述性属性j的原始值xi,j的分布和多个描述性属性j的公共基,其中多个描述性数据包括多个描述性属性j的原始值xi,j,该多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联(1602)。每个边缘i涉及多个节点中的两个节点。每个原始值xi,j涉及电信呼叫图中的唯一的边缘i和相应的边缘i的唯一的描述性属性j,唯一的边缘i和唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j。在1604中,确定每个描述性属性j的加权因子。至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:与第一边缘i1相关联的第一属性j1的第一原始值
Figure BDA0000474427040000211
用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、与第一边缘i1相关联的第二属性j2的第二原始值
Figure BDA0000474427040000212
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子。多个描述性属性j包括第一属性j1和第二属性j2
在各种其他实施例中,存储在非瞬时计算机可读存储器中的指令在由处理器执行时,可以使得计算设备执行与用于得到电信呼叫图的节点之间的边缘的复合连结度量的过程900、1000、1100、1200、1300、1400相关联的功能的各种组合。换句话说,上面描述的各种特征可以以任何合适的组合通过存储在所述的非瞬时计算机可读介质中的程序指令来实现。如上所述的计算设备1500的任何适当的组件可以包括与相应的程序指令相关联的相应的处理器和非瞬时计算机可读介质。替代的,与相应的程序指令相关联的相应的处理器和非瞬时计算机可读介质可以是与如上所述的计算设备1500的组件的任何适当的组合进行操作通信的独立或组合的组件。
上面的描述仅仅提供了本发明的特定实施例的公开,并且不旨在为了限制于此。因此,本发明不仅限于上述实施例。相反,应当认识到,本领域技术人员可以设想落入本发明范围内的替代实施例。

Claims (10)

1.一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的方法,包括:
在计算设备处从远程存储设备接收多个描述性数据,其中所述多个描述性数据包括多个描述性属性j的原始值xi,j,所述多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联,其中,每个边缘i涉及所述多个节点中的两个节点,其中每个原始值xi,j涉及所述电信呼叫图中的唯一的边缘i和针对相应的边缘i的唯一的描述性属性j,所述唯一的边缘i和所述唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j;
至少临时地将所述多个描述性数据存储在本地存储设备中;
以下述方式来确定用于每个描述性属性j的缩放因子:该方式考虑到相应的描述性属性j的所述原始值xi,j的分布和所述多个描述性属性j的公共基;
确定用于每个描述性属性j的加权因子;以及
至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:与第一边缘i1相关联的第一属性j1的第一原始值
Figure FDA0000474427030000011
用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、与第一边缘i1相关联的第二属性j2的第二原始值
Figure FDA0000474427030000012
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子,其中,所述多个描述性属性j包括所述第一属性j1和所述第二属性j2
2.根据权利要求1所述的方法,其中,所确定的用于每个描述性属性j的缩放因子至少部分地基于针对相应的描述性属性j的代表性的最大值|xj|,以建立每个描述性属性j的单位基作为公共基。
3.根据权利要求2所述的方法,其中,
针对每个描述性属性j的代表性的最大值|xj|至少部分地基于如下表达式:
| x j | = Σ i = 1 n x i , j 2
其中n定义在所述多个边缘中包括的边缘的个数。
4.根据权利要求2所述的方法,进一步包括:
用所述第一属性j1的所述代表性的最大值
Figure FDA00004744270300000216
除所述第一原始值
Figure FDA00004744270300000217
以形成用于相应的第一边缘属性对i1,j1的第一缩放的值
Figure FDA0000474427030000022
用所述第二属性j2的所述代表性的最大值
Figure FDA00004744270300000218
除所述第二原始值
Figure FDA00004744270300000219
以形成用于相应的第二边缘属性对i1,j2的第二缩放的值
Figure FDA0000474427030000023
用所述第一边缘属性对i1,j1的所述第一加权因子乘以所述第一缩放的值
Figure FDA0000474427030000024
以形成第一连结属性分量
Figure FDA0000474427030000025
用所述第二边缘属性对i1,j2的所述第二加权系数
Figure FDA00004744270300000224
乘以所述第二缩放的值
Figure FDA0000474427030000026
以形成第二连结属性分量
将所述第一连结属性分量和所述第二连接属性分量
Figure FDA0000474427030000029
求和,以获得所述第一边缘i1的原始复合连结度量
Figure FDA00004744270300000220
以及
至少部分地基于所述原始复合连结度量
Figure FDA00004744270300000221
的指数函数来得到针对所述第一边缘i1的归一化的复合连结度量
5.根据权利要求1所述的方法,结合确定所述缩放因子和所述加权因子,所述方法进一步包括:
计算针对每个描述性属性j的代表性平均值
Figure FDA00004744270300000210
计算针对每个描述性属性j的标准差σj
确定针对每个描述性属性j的每个原始值xi,j和代表性平均值
Figure FDA00004744270300000211
之间的差,以形成针对每个描述性属性j的中间值的相应集合;
将每个描述性属性j的每个中间值
Figure FDA00004744270300000213
除以相应的描述性属性j的所述标准差σj,以形成针对每个描述性属性j的缩放的值
Figure FDA00004744270300000214
的相应集合,其中每个描述性属性j具有由零均值和单位方差表示的公共基;以及
根据所述多个描述性属性j的所述缩放的值形成协方差矩阵Σ。
6.根据权利要求1所述的方法,其中,所述缩放因子被确定为使得缩放的值
Figure FDA0000474427030000031
的相应集合根据每个描述性属性j的所述原始值xi,j形成,使得每个描述性属性j的所述缩放的值
Figure FDA0000474427030000032
的所述公共基反映零均值和单位方差,所述方法进一步包括:
根据用于所述多个描述性属性j的所述缩放的值
Figure FDA0000474427030000033
形成协方差矩阵Σ;以及
找到所述协方差矩阵Σ的特征向量的集合和特征值的相应集合。
7.一种用于得到电信呼叫图的节点之间的边缘的复合连结度量的装置,包括:
数据通信模块,被配置为从远程存储设备接收多个描述性数据,其中所述多个描述性数据包括多个描述性属性j的原始值xi,j,所述多个描述性属性j与由在多个节点之间的多个边缘i形成的电信呼叫图相关联,其中,每个边缘i涉及所述多个节点中的两个节点,其中每个原始值xi,j涉及所述电信呼叫图中的唯一的边缘i和针对相应的边缘i的唯一的描述性属性j,所述唯一的边缘i和所述唯一的描述性属性j形成与相应的原始值xi,j相关的边缘属性对i,j;
本地存储设备,被配置成至少临时地存储所述多个描述性数据;
缩放/加权处理器,被配置成以下述方式来确定用于每个描述性属性j的缩放因子:所述方式考虑到相应的描述性属性j的所述原始值xi,j的分布和所述多个描述性属性j的公共基,并且所述缩放/加权处理器被配置成确定用于每个描述性属性j的加权因子;以及
复合连结度量处理器,被配置成至少部分地基于下述来计算在第一节点和第二节点之间的第一边缘i1的复合连结度量s:与所述第一边缘i1相关联的第一属性j1的第一原始值
Figure FDA0000474427030000034
用于第一属性j1的第一缩放因子、用于第一属性j1的第一加权因子、与第一边缘i1相关联的第二属性j2的第二原始值
Figure FDA0000474427030000035
用于第二属性j2的第二缩放因子、以及用于第二属性j2的第二加权因子,其中,所述多个描述性属性j包括所述第一属性j1和第二属性j2
8.根据权利要求7所述的装置,其中,所述缩放/加权处理器被配置成至少部分地基于确定针对相应的描述性属性j的代表性的最大值|xf|来确定用于每个描述性属性j的缩放因子,以建立每个描述性属性j的单位基作为公共基。
9.根据权利要求7所述的装置,其中,所述缩放/加权处理器被配置成计算针对每个描述性属性j的代表性平均值
Figure FDA0000474427030000041
被配置成计算针对每个描述性属性j标准差σj,被配置成确定针对每个描述性属性j的每个原始值xi,j和代表性平均值
Figure FDA0000474427030000042
之间的差,以形成针对每个描述性属性j的中间值
Figure FDA0000474427030000043
的相应集合,被配置为将针对每个描述性属性j的每个中间值
Figure FDA0000474427030000044
除以针对相应的描述性属性j的标准差σj,以形成针对每个描述性属性j的缩放的值
Figure FDA0000474427030000045
的相应集合,其中所述每个描述性属性j具有由零均值和单位方差表示的公共基,并且被配置为根据针对所述多个描述性属性j的所述缩放的值
Figure FDA0000474427030000046
形成协方差矩阵Σ。
10.根据权利要求7所述的装置,其中,所述缩放/加权处理器被配置成确定缩放因子,使得缩放的值
Figure FDA0000474427030000047
的相应集合根据每个描述性属性j的所述原始值xi,j形成,使得针对每个描述性属性j的所述缩放的值
Figure FDA0000474427030000048
的公共基反映零;
其中,所述缩放/加权处理器被配置成根据所述多个描述性属性j的所述缩放的值
Figure FDA0000474427030000049
形成协方差矩阵Σ,并且被配置成找到协方差矩阵Σ的特征向量的集合和特征值的相应集合。
CN201280043804.9A 2011-09-08 2012-09-06 用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置 Pending CN103890758A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161532151P 2011-09-08 2011-09-08
US61/532,151 2011-09-08
US13/557,815 2012-07-25
US13/557,815 US9159077B2 (en) 2011-09-08 2012-07-25 Method and apparatus for deriving composite tie metric for edge between nodes of a telecommunication call graph
PCT/US2012/053946 WO2013036627A2 (en) 2011-09-08 2012-09-06 Method and apparatus for deriving composite tie metric for edge between nodes of telecommunication call graph

Publications (1)

Publication Number Publication Date
CN103890758A true CN103890758A (zh) 2014-06-25

Family

ID=47830786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280043804.9A Pending CN103890758A (zh) 2011-09-08 2012-09-06 用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置

Country Status (6)

Country Link
US (1) US9159077B2 (zh)
EP (1) EP2754101B1 (zh)
JP (1) JP5993012B2 (zh)
KR (1) KR101585404B1 (zh)
CN (1) CN103890758A (zh)
WO (1) WO2013036627A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474756A (zh) * 2018-11-16 2019-03-15 国家计算机网络与信息安全管理中心 一种基于协同网络表示学习的电信异常检测方法
CN109509017A (zh) * 2018-09-27 2019-03-22 中国平安人寿保险股份有限公司 基于大数据分析的用户留存率预测方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8341166B2 (en) * 2008-04-09 2012-12-25 American Express Travel Related Services Company, Inc. Infrastructure and architecture for development and execution of predictive models
US9088886B1 (en) * 2013-03-13 2015-07-21 Sprint Communications Company L.P. User demographics determination based on commonality in call graphs
US10120956B2 (en) * 2014-08-29 2018-11-06 GraphSQL, Inc. Methods and systems for distributed computation of graph data
US10783534B2 (en) 2015-06-09 2020-09-22 Clickagy, LLC Method, system and computer readable medium for creating a profile of a user based on user behavior
US10275235B2 (en) 2017-09-18 2019-04-30 International Business Machines Corporation Adaptable management of web application state in a micro-service architecture
US10365905B1 (en) * 2017-10-26 2019-07-30 Facebook, Inc. Systems and methods for evaluating application performance changes via comparative call graphs

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100146118A1 (en) * 2008-12-05 2010-06-10 Social Communications Company Managing interactions in a network communications environment
US20100332270A1 (en) * 2009-06-30 2010-12-30 International Business Machines Corporation Statistical analysis of data records for automatic determination of social reference groups

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10214629A1 (de) 2002-04-02 2003-10-16 Philips Intellectual Property Verfahren zum Organisieren der Topologie eines Netzwerkes mit einer Vielzahl von Stationen, die in Cluster gruppiert sind
US7318037B2 (en) * 2003-08-27 2008-01-08 International Business Machines Corporation Method, system and program product for calculating relationship strengths between users of a computerized network
JP2008178072A (ja) 2006-12-22 2008-07-31 Toshiba Corp 変調形式判定装置及び変調形式判定方法
JP2010165166A (ja) 2009-01-15 2010-07-29 Nec Corp グラフ構造推定システム、グラフ構造推定方法、およびプログラム
JP2010211287A (ja) 2009-03-06 2010-09-24 Ntt Docomo Inc ユーザ間関連度分析装置、ユーザ間関連度分析システム及びユーザ間関連度分析方法
US8689172B2 (en) * 2009-03-24 2014-04-01 International Business Machines Corporation Mining sequential patterns in weighted directed graphs
US9292545B2 (en) * 2011-02-22 2016-03-22 Thomson Reuters Global Resources Entity fingerprints

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100146118A1 (en) * 2008-12-05 2010-06-10 Social Communications Company Managing interactions in a network communications environment
US20100332270A1 (en) * 2009-06-30 2010-12-30 International Business Machines Corporation Statistical analysis of data records for automatic determination of social reference groups

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509017A (zh) * 2018-09-27 2019-03-22 中国平安人寿保险股份有限公司 基于大数据分析的用户留存率预测方法及装置
CN109509017B (zh) * 2018-09-27 2024-04-05 中国平安人寿保险股份有限公司 基于大数据分析的用户留存率预测方法及装置
CN109474756A (zh) * 2018-11-16 2019-03-15 国家计算机网络与信息安全管理中心 一种基于协同网络表示学习的电信异常检测方法
CN109474756B (zh) * 2018-11-16 2020-09-22 国家计算机网络与信息安全管理中心 一种基于协同网络表示学习的电信异常检测方法

Also Published As

Publication number Publication date
WO2013036627A2 (en) 2013-03-14
JP5993012B2 (ja) 2016-09-14
KR101585404B1 (ko) 2016-01-14
US20130066933A1 (en) 2013-03-14
KR20140063760A (ko) 2014-05-27
US9159077B2 (en) 2015-10-13
EP2754101B1 (en) 2018-12-12
WO2013036627A3 (en) 2013-05-10
JP2014533389A (ja) 2014-12-11
EP2754101A2 (en) 2014-07-16

Similar Documents

Publication Publication Date Title
CN103890758A (zh) 用于得到在电信呼叫图的节点之间的边缘的复合连结度量的方法和装置
Xiao et al. A secure mobile crowdsensing game with deep reinforcement learning
Yang et al. Identifying opinion leader nodes in online social networks with a new closeness evaluation algorithm
US8712952B2 (en) Method and system for selecting a target with respect to a behavior in a population of communicating entities
US20140119522A1 (en) System and method for generating subscriber churn predictions
Hajizadeh et al. A method for trust evaluation in the cloud environments using a behavior graph and services grouping
WO2012078091A1 (en) Method and arrangement for ranking users
CN110796399B (zh) 基于区块链的资源分配方法以及装置
CN108932582A (zh) 风险信息确定方法、装置、计算机设备和存储介质
CN111435482A (zh) 一种外呼模型的构建方法、外呼方法、装置和存储介质
US20130211873A1 (en) Determining a churn risk
Kurdi et al. TrustyFeer: A subjective logic trust model for smart city peer-to-peer federated clouds
CN114301935A (zh) 一种基于声誉的物联网边云协同联邦学习节点选择方法
CN109087124A (zh) 一种应用程序价值预测方法及装置
Mtibaa et al. On the relevance of social information to opportunistic forwarding
Luceri et al. Measurement and control of geo-location privacy on Twitter
Koh et al. Privacy-aware incentive mechanism for mobile crowd sensing
CN110347566A (zh) 用于对注册风控模型进行效能评估的方法及装置
Halabi et al. Reliability-driven task assignment in vehicular crowdsourcing: A matching game
CN113468403A (zh) 基于大数据挖掘的用户信息预测方法及云计算ai服务系统
CN111062422B (zh) 一种套路贷体系化识别方法及装置
CN107306419A (zh) 一种端到端质量评估方法和装置
Zhang et al. Data quality maximization for mobile crowdsensing
Loupos et al. Starting cold: The power of social networks in predicting non-contractual customer behavior
CN115114539A (zh) 用户群体划分方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140625

WD01 Invention patent application deemed withdrawn after publication