一种获取网络主体社交关系类型的方法及装置
技术领域
本发明涉及网络技术,尤其是一种在网络中获取网络主体社交关系类型的方法及装置。
背景技术
随着互联网的发展,互联网已发展成为一个集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息平台。由于功能的多元化,使得在该平台上需要建立用户之间的关系。
现有技术中,在每一个web网站中都会存在其自身的用户群,用户之间的关系可以构成一个网络,而用户之间的动态关系又可以形成一个关系模型。在对该些用户建立用户关系模型时,通常是采用一些算法对用户进行匹配计算,根据匹配计算的结果,对相互关系匹配度高的潜在用户,通过相互推荐的方式建立用户关系,而这种用户关系的建立只有在用户彼此相互认可后,方可建立。例如:好友关系一般是用户添加并取得对方同意后形成好友关系模型。
然而,随着互联网应用的发展,网络用户之间的交互行为愈加频繁并且交互行为方式也愈加多元化,通常一个用户会存在几十个甚至上百个联系人,与各个联系人之间有几种不同的社交关系类型,而在这种情况下,采用现有技术建立用户关系的方式,受限于用户提供相互社交关系信息的自愿程度,不能充分掌握用户之间的实际社交关系;另外,设计过于复杂的关系分类选择供用户确认,会导致网络主体参与度下降,因此,现有技术下对网络主体的社交关系划分都不很丰富,无法体现实际用户关系类型的复杂程度,上述情况,使电子商务厂商不能充分掌握各个网络主体之间复杂的相互关系类型的信息,降低了其进行各种电子商务运作的精确度。现有技术的另外一个主要缺陷是,通过用户自愿选择的方式进行社交关系确认的效率过低。总之,上述情况,不仅影响了基于社交网络的电子商务对目标客户的寻找,也会妨碍用户对网络服务产品的体验。
如何提供一种能够根据用户之间彼此的交互行为,自动建立用户关系的方法成为亟待解决的技术问题。
发明内容
本申请要解决的技术问题是提供一种获取网络主体社交关系类型的方法及装置,该方法对网络用户的社交关系类型提供更为丰富的信息,并且可减少社交关系类型确定过程中的人工参与。
为解决上述技术问题,本申请提供一种获取网络主体社交关系类型的方法,包括:获取需要判断社交关系类型的两个网络主体的网络社交行为数据;所述网络社交关系类型包括M种;所述网络社交行为包括S种;将待判断的两个网络主体的网络社交行为数据以预定的方式离散化,使每个网络社交行为根据数量离散化到规定的N个等级;根据每种网络社交行为的每个等级对应于特定的社交关系类型的条件概率,计算上述两个待判断社交关系类型的网络主体属于每种社交关系类型的融合概率;初步推定融合概率最大的社交关系类型为待判断网络主体彼此的社交关系类型。
优选地,所述每种网络社交行为的每个等级对应于某种社交关系类型的条件概率,采用如下方式获得:获取已知社交关系类型的网络主体的数据以及该些网络主体的网络社交行为数据作为初始样本集合;将所述S种网络社交行为的数量范围以所述预定的方式离散化,使每个社交行为根据发生数量获得N个等级;根据所述初始样本集合的已知数据,计算每种网络社交行为的每个等级对应于某种社交关系类型的条件概率。
优选地,若所述融合概率最大的社交关系类型,其融合概率值大于预设阈值α,则最终推断待判断网络主体彼此之间为该社交关系类型。
优选地,确定社交关系类型推断结果的正确率要求为β;对于所述初始样本集合,计算该初始样本集合中,任意两个网络主体之间的融合概率,并选取某个预设阈值的具体取值α1作为假定预设阈值,以该假定预设阈值为标准,进行社交关系类型的推断,并将该推断结果与初始样本集合中的实际数据比对,获得推断结果的正确率;当使用某个具体取值α1,获得的社交关系类型推断结果的正确率等于或者稍大于β,则取该具体取值α1作为所述预设阈值α的取值。
优选地,将网络主体a的各个网络社交行为权重与对应该网络社交行为的频次相乘,并将上述所有乘积相加,获得该对网络主体中b对a的社交关系强度指数。
优选地,所述网络社交行为权重以下述公式计算:
所述网络社交行为频次以下述公式计算:
其中,以a为网络主体;n代表a、b之间使用过的社交行为类型数;频次指a、b之间进行某种社交行为的次数;网络社交行为权重的计算中,分母代表 a总共与多少位联系人使用过社交行为k;网络社交行为频次的公式中, Num<a,b>[k]代表a、b在社交行为k上的交互次数,分母的真数部分代表a与所有联系人的总交互次数。
优选地,根据计算获得的网络主体a、b彼此的社交关系强度的数值范围,结合具体的网络社交行为种类和数量的情况,以及网络主体a、b各自的相关信息,将其社交关系类型进一步细分为子类型。
本申请还提供一种获取网络主体社交关系类型的装置,包括:获取单元,获取需要判断社交关系类型的两个网络主体的网络社交行为数据;所述网络社交关系类型包括M种;所述网络社交行为包括S种;离散单元,用于将待判断的两个网络主体的网络社交行为数据以预定的方式离散化,使每个网络社交行为根据数量离散化到规定的N个等级;计算单元,用于根据每种网络社交行为的每个等级对应于特定的社交关系类型的条件概率,计算上述两个待判断社交关系类型的网络主体属于每种社交关系类型的融合概率;初步推定单元,根据所述计算单元计算的两个待判断网络主体属于每种社交关系类型的融合概率,从中选取融合概率最大的社交关系类型,作为待判断网络主体彼此的社交关系类型。
优选地,包括:初始样本集合获取单元,获取已知社交关系类型的网络主体的数据和所述网络主体的网络社交行为数据作为初始样本集合;等级划分单元,将所述S种网络社交行为的数量范围以所述预定的方式离散化,使每个社交行为根据发生数量获得N个等级;条件概率计算单元,根据所述初始样本集合的已知数据,计算每种网络社交行为的每个等级对应于某种社交关系类型的条件概率。
优选地,包括:最终推断单元,接收所述初步推定单元推定的待判断网络主体彼此的社交关系类型,并将该社交关系类型对应的最大融合概率与预设阈值α比较,若该融合概率大于α,则最终推断待判断网络主体彼此之间为该社交关系类型。
优选地,包括:预设阈值α确定单元,用于接收社交关系类型推断结果的正确率要求β,并根据该正确率要求β确定所述预设阈值α的取值;具体方法是,读取所述初始样本集合的数据,计算该初始样本集合中,任意两个网络主体之间的融合概率;选取某个预设阈值的具体取值α1作为假定预设阈值,以该假定预设阈值为标准,进行社交关系类型的推断,并将该推断结果与所述初始样本集合中的实际数据比对,获得推断结果的正确率;当使用某个具体取值α1,获得的社交关系类型推断结果的正确率等于或者稍大于β,则取该具体取值α1作为所述预设阈值α的取值。
优选地,包括:强度计算单元,根据最终推断待判定网络主体a、b彼此的社交关系类型后,将网络主体a的各个网络社交行为权重与对应该网络社交行为的频次相乘,并将上述所有乘积相加,获得该对网络主体中b对a的社交关系强度指数。
优选地,包括:权重计算单元,通过下列公式计算:
频次计算单元,通过下列公式计算:
其中,以a为主体;n代表a、b之间使用过的社交行为类型数;频次指a、 b之间进行某种社交行为的次数;网络社交行为权重的计算公式中,分母代表a 总共与多少位联系人使用过社交行为k;网络社交行为频次的计算公式中, Num<a,b>[k]代表a、b在社交行为k上的交互次数,分母的真数部分代表a与所有联系人的总交互次数。
优选地,包括:细分社交关系子类型单元,用于接收所述强度计算单元输出的所述网络主体a、b彼此的社交关系强度的数值范围,并结合具体的网络社交行为种类和数量的情况,以及网络主体a、b各自的相关信息,将其社交关系类型进一步细分为子类型。
本申请是将获取需要判断社交关系类型的两个网络主体的网络社交行为数据已预订的方式离散化,使得每个社交行为获得N个等级,并根据每种网络社交行为的每个等级对应于特定的社交关系类型条件概率,计算所述两个待判断网络主体属于每种社交关系类型的融合概率,选择计算出融合概率最大的为推定社交关系类型。由此可见,本申请在最终确定社交关系类型的过程中,不是根据两个网络主体彼此之间的相互确认,而是根据计算获得最大的某个社交关系类型的融合概率,以确定两个网络主体间的社交关系类型,因此,该技术方案推断出的社交关系类型能够更充分的反映网络用户彼此之间实际存在的复杂关系类型,克服现有技术采用的彼此之间主动确认方式存在的受用户自愿程度限制的问题。由于该方式能够根据每种网络社交行为的每个等级对应于特定的社交关系类型的条件概率,计算社交关系类型的网络主体属于每种社交关系类型的融合概率,进而推断两个网络主体之间的社交关系类型,因此,不需要用户参与,其效率也比较高,并且可以涵盖更丰富的社交关系类型。通过本申请提供的方法,可以有效的利用网络社交行为数据,实现社交关系类型判断,提升用户对网络服务的体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种获取网络主体社交关系类型的方法的流程图;
图2为本申请提供的一种获取网络主体社交关系类型的方法中确定阈值取值的流程图;
图3为本申请提供的一种获取网络主体社交关系类型的装置结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,其为本申请一种获取网络主体社交关系类型的方法的流程图。在本实施例中,包括如下步骤:
步骤110:获取已知社交关系类型的网络主体的网络社交行为数据作为初始样本集合;所述社交关系类型包括M种,所述网络社交行为包括S种。
在该步骤110中所述社交关系类型的网络主体可以是用户;而所述社交关系类型的M个类型可以是诸如朋友关系、同学关系、亲友关系和同事关系等关系类型;所述社交行为可以是诸如:到卡交易、代充代付、代买、代充手机、同机登录等等交互行为,将该些网络主体之间的相互关系和网络社交行为发生的类型和数量等数据作为初始样本进行统计,最终形成初始样本集合。所谓初始样本集合,实际上可以理解为已知的数据;本实施例即利用掌握的已知情况推断未知情况;具体来说,是通过初始样本集合的情况——其中的网络主体之间的社交关系类型已知,网络社交行为已知——推断未知社交关系类型但是存在网络社交行为记录的其它网络主体之间的社交关系类型。
步骤S120:将各个网络社交行为的数量范围离散化,使每个社交行为获得 N个等级。
该步骤中是对已知网络社交行为的数据量进行离散化,并根据离散后的数据对应每个社交关系类型分成多个不同的等级。例如:代充手机行为发生的次数范围大致在0-30之间,超过30的已经非常稀少,则可以将次数范围离散为0、 1-2、2-5,6-15、15-20和21-25、26以上六个等级,也可以将不同等级对应一个描述频率的名词,如无、偶尔、有时、经常、频繁、非常频繁。社交行为不仅仅只是代充手机一种情况,可以根据不同的网络社交行为的统计数据,分别对这些数据进行离散化。即,对于不同的网络社交行为而言,其离散化的标准不相同。
步骤S130:根据上述已知的信息,计算每种网络社交行为的每个等级对应于某类型社交关系类型的条件概率。
在该步骤中,通过已知网络主体之间的社交关系类型,以及各个网络主体之间不同种类的网络社交行为的等级,计算某种具体的社交关系类型下,某种社交行为处于某个等级的条件概率。例如:代充手机行为属于“频繁”这个等级的,相互之间属于亲友、朋友、同学、同事关系的概率,这些概率均可以根据已知的初始样本集合的数据记录获得。例如,初始样本集合中,代充手机行为属于“频繁”的有20对,其中属于亲友关系的为12对,则代充手机行为“频繁”等级下是亲友关系的条件概率为60%。上述条件概率,都是根据初始样本集合中的实际数据记录获得的。
本实施例中,对应四种社交关系类型以及五种网络社交行为以及每个网络社交行为的六个等级,获得的数据可以以一个30*4的矩阵表示,其中30行是从上到小为五种网络社交行为的六个等级依次排列形成30行;其中4列对应每一种社交关系类型。当然,上述只是记载相关数据的方法,完全可以采用其它记录方式。
上述三个步骤的目的是根据已知数据获得每个网络社交行为的每个等级对应于某类型社交关系类型的条件概率;但是,条件概率的获得方法并不仅限于上述方法,例如,可以根据一些经验数据进行人为设定。
步骤S140:获取需要判断社交关系类型的两个网络主体的网络社交行为数据。
在该步骤中,可以假设社交行为分别是上述的五种行为,分别用ABCDE 表示,即:到卡交易A、代充代付B、代买C、代充手机D、同机登录E;通过网络服务记录,可以获取两个待判断网络主体之间发生上述五种社交行为的数据。
步骤S150:将两个待判断网络主体的网络社交行为数据以前述相同的标准离散化。
前述相同的标准,即步骤S130中为每一种网络社交行为提供的离散化标准。采用相同的离散化标准,使后续的计算步骤有了相同的依据。
步骤S160:根据前述获得的每种网络社交行为的每个等级对应于某种社交关系类型的条件概率,计算上述两个待判断网络主体属于每种社交关系类型的融合概率。
在该步骤S160中的融合概率的计算,可以通过贝叶斯公式推导出融合概率计算公式,具体如下:
在上述公式中,ABCDE分别表示五种社交行为,即:到卡交易、代充代付、代买、代充手机、同机登录;P(X/A),P(X/B),P(X/C),P(X/D),P(X/E)分别为依据待判断网络主体之间发生的上述网络社交行为数据的离散化后的等级,在所述步骤S130中获得的相应等级的条件概率。P(X)是相互之间是某种关系的初始概率,该初始概率P(X)指不考虑任何网络社交行为的情况下,任意两个网络主体之间属于某种社交关系类型的概率。
根据已知的信息通过上述公式即可计算得出待判断网络主体属于每个社交关系类型的融合概率,即:根据五种社交行为分别可以计算出待判断网络主体对应同学关系的融合概率,对应于同事关系的融合概率,对应于亲友关系的融合概率以及对应于朋友关系的融合概率。
步骤S170:初步推定融合概率最大的社交关系类型为待判断网络主体彼此的社交关系类型。
经过在步骤S160中计算得出两个待判断社交关系类型的网络主体属于每种社交关系类型的融合概率,对应每个社交关系类型的融合概率计算值不同,因此,其中会有取值最大的融合概率,可以将所有融合概率中最大的初步推定为两个网络主体的社交关系类型。
步骤S180,将所述融合概率的最大值与预设阈值α比较,若该融合概率的最大值大于该预设阈值α,则最终推断该融合概率最大值对应的社交关系类型为待判断主体彼此间的社交关系类型。
在推定融合概率最大的社交关系类型为待判断网络主体彼此的社交关系类型时,可能存在推定的社交关系类型与实际关系类型存在误差的问题,为提高推定社交关系类型的准确度,可以通过为所述融合概率预设阈值α提高判断的准确率。具体方法是,将所述融合概率最大的社交关系类型的融合概率值与该预设阈值比较,若融合概率值大于该预设阈值,则最终判断两个待判断网络主体之间属于该种社交关系类型。由于设定了该预设阈值,在两个待判断网络主体之间最大融合概率非常低的情况下,不会最终判断该两个待判断网络主体属于该融合概率最大值对应的社交类型,这样就避免了前述初步判断造成的问题。
所述预设阈值α可以根据经验设定,但是更佳的方法是利用所述初始样本集合的数据进行推算。
具体实现方式见图2,该图为本申请提供的一种获取网络主体社交关系类型的方法中确定阈值取值的流程图。
步骤S201,首先确定推断结果的正确率要求β。
该正确率要求β表示推断社交关系类型的正确率需要达到的标准,例如,假设β=90%。如果有100对网络主体之间的社交关系类型推定为亲友关系,而其中真正是亲友关系的有91对,则意味着最终推断结果达到了该正确率要求;若100对网络主体之间的社交关系类型推定为亲友关系,而其中真正是亲友关系的有89对,则意味着最终推断结果没有达到该正确率要求。该正确率要求β可以作为衡量所述预设阈值α的指标,即设定所述预设阈值α后,获得的最终推断结果能够超过或者等于该正确率要求β。该正确率要求为人为要求,可以根据要求设定。
步骤S202,设定一个预设阈值α的具体取值α1作为假定的预设阈值。
该具体取值α1仅仅是一个待测试的值,用于试算。
步骤S203,使用初始样本集合中的网络社交行为数据,以前述方法计算融合概率及推断社交关系类型。
在此步骤中,假设初始样本集合中网络主体彼此之间的社交关系类型都是未知的,以他们的网络社交行为推断他们的社交关系类型。推断方法就是前面流程图1提供的方法;在推断过程中,执行到步骤S180时,使用上述具体取值α1作为所述预设阈值α。通过上述过程,可以获得初始样本集合的所有网络主体彼此之间的社交关系类型的推断结果。
步骤S204,使用初始样本集合中的数据,计算采用上述步骤S203获得的社交关系类型的推断结果的准确率。
由于上述步骤S203中获得的网络主体的社交关系类型推断结果是根据初始样本集合的数据获得的,而初始样本集合的数据是已知的,即初始样本集合中各个网络主体彼此之间的社交关系类型实际上是已知的,因此,可以检验上述社交关系类型的推断结果的准确性。
假设上述社交关系类型的推断结果包括100对网络主体彼此之间的社交关系类型,使用初始样本集合中对这些网络主体的彼此关系的数据,发现其中90 对的社交关系类型和推断一致,则正确率为90%。
步骤S205,判断步骤S204中的社交关系类型的推断结果的准确率与所述步骤S201中设定的推断结果的正确率要求β的关系;若两者基本相等,则进入步骤S208;若社交关系类型的推断结果的准确率大于所述正确率要求β,则进入步骤S206;若社交关系类型的推断结果的准确率小于所述正确率要求β,则进入步骤S207。
本步骤中,根据步骤S204获得的社交关系类型的推断结果的准确率与所述步骤S201中设定的推断结果的正确率要求β的关系,分别进行不同的处理。上述比较关系不同,代表了不同的含义。若推断结果的准确率与推断结果的正确率要求β基本相等,则所述具体取值α1是合适的,可以采用这个具体取值作为所述预设阈值。所谓基本相等,是指两者的差异在设定的范围内,例如在1%的范围内,则认为该具体取值α1符合要求;一个具体的例子,如果正确率要求β为90%,而采用某个具体取值α1用于步骤S180的判断后,在上述步骤S204中和初始样本集合中的实际情况比对后,获得的正确率为89.5%,则在±1%内,此时该具体取值已经完全满足要求,为了避免反复循环试算造成的计算资源浪费,可以认定该具体取值α1就是合适的取值。
若推断结果的准确率明显大于所述推断结果的正确率要求β,则说明所述具体取值α1过于保守,这种情况下可能会遗漏一些真实存在的社交关系类型,为此,需要降低所述具体取值α1。在此需要说明,为什么推断结果的准确率过大却不符合要求。原因在于,在不同的应用场合,有不同的获取社交关系类型的目的,对遗漏社交关系类型和错判社交关系类型这两种错误有不同的容忍度,在许多情况下,宁可错判部分社交关系类型,也希望能够尽可能多的找出网络主体之间存在的社交关系类型。因此,并非推断结果的准确率越高越好。而且,根据本方法获得的社交关系类型推断结果也不可能100%正确,必须以接收一部分错判为代价获得更多的推断结果,这样才有应用价值。
若推断结果的准确率明显小于所述推断结果的正确率要求β,则说明所述具体取值α1过小,不符合要求,为了提高正确率,需要提高所述具体取值α1。
步骤S206,降低所述具体取值α1,返回步骤S203。
具体降低多少,可以预设一个合理的步长。
步骤S207,提高所述具体取值α1,返回步骤S203。
具体提高多少,可以预设一个合理的步长。
步骤S208,确定所述具体取值α1作为所述预设阈值α的实际取值。
通过上述步骤确定一个具体取值α1作为预设阈值α后,既可以将其用于上述步骤S180中。
在某些社交关系下,还可能存在更为细致的密切关系类型,例如:当确定两个网络主体为亲友关系后,对亲友关系进一步细化为亲子关系、夫妻恋人关系、闺蜜兄弟姐妹关系等。本申请在确定最终推断待判定两个网络主体彼此的社交关系类型后,可以根据两个网络主体之间的社交关系强度,对已确定的社交关系类型进一步进行细分。社交关系强度可以通过两个网络主体之间的网络社交行为种类和网络社交行为的数量或者频次,并对网络社交行为种类加权设置,以判断社交关系类型的强度指数。
网络社交行为使不同用户建立关联,比如转账,代付,充值等。一个用户通常会在多个网络社交行为种类中和其他用户建立关联,在计算用户间关系强度的时候,对不同的网络社交行为种类进行划分,例如:当一个用户和大量联系人发生过某个种类的网络社交行为,则该网络社交行为种类对于确定该用户与他人的社交关系的作用较弱,应将该种网络社交行的权重适当降低;反之,当该用户和很少的联系人发生过某种网络社交行为,则该网络社交行为对于确定该用户和他人的社交关系的作用较强,相应的,应当将该网络社交行为的权重适当增加。
网络社交行为频次是指一个用户和其他用户进行某种网络社交行为的次数,频次越大,则两个用户在该网络社交行为下建立的联系越紧密,相应的关系强度也就越大。
在一些种类的网络社交行为中,还可以引入其他指标来衡量在该场景中建立起来的用户关系强弱,比如,和资金相关的场景中,除了考虑网络社交行为频次外,还可以考虑涉及到的金额大小以及交互距今的时长等因素。
在计算用户间关系强度的时候,计算的是相对关系,即用户a对用户b的关系强度和用户b对用户a的关系强度是不同的,具体的,通过如下公式计算用户b对用户a的关系强度:
在上述公式中,strength<a ,b>代表b对a的关系强弱指数,以a为主体;n 代表a、b之间使用过的网络社交行为种类,即网络社交行为种类数;频次指a、 b之间进行某种网络社交行为的次数;网络社交行为权重的计算公式中,分母代表a总共与多少位联系人发生过网络社交行为k;网络社交行为频次的计算公式中,Num<a,b>[k]代表a、b在网络社交行为k上的交互次数,分母的真数部分代表a与所有联系人的总交互次数。
经过上述计算之后,可以根据计算获得的网络主体a、b彼此的社交关系强度的数值范围,结合具体的网络社交行为种类和数量的情况,以及网络主体a、 b各自的相关信息,将其社交关系类型进一步细分为子类型。例如,网络主体a、 b的关系属于亲友关系,而年龄相差25岁,并且在网络社交行为中存在频繁的同机登陆的行为,再结合各自性别,则可以判定属于父子、父女、母子、母女等情况
以上为本申请对获取网络主体社交关系类型的方法说明,由上述内容可见,本申请是根据已知的社交关系类型网络主体的网络社交行为数据作为初始样本集合,并将该集合中的网络社交行为数据范围离散化,使得每个社交行为获得N 个等级,并根据所有已知信息计算出每个等级对应某个社交关系类型的条件概率。根据该条件概率,计算待判断网络主体属于每个社交关系类型的融合概率,将融合概率最大的即为推定社交关系类型。由此可见,本申请在最终确定社交关系类型的过程中,不是根据两个网络主体彼此之间的相互确认,而是根据计算获得最大的某个社交关系类型的融合概率,可确定两个网络主体间的社交关系类型,因此,该技术方案推断出的社交关系类型能够更充分的反映网络用户彼此之间实际存在的复杂关系类型,克服现有技术采用的彼此之间主动确认方式存在的受用户自愿程度限制的问题。由于该方式能够根据已有的初始样本集合的数据推断其它网络主体的社交关系类型,不需要用户参与,其效率也比较高,并且可以涵盖更丰富的社交关系类型。通过本申请提供的方法,可以有效的利用网络社交行为数据,实现社交关系类型判断,提升用户对网络服务的体验。
本申请提供的上述方法,可以与其它一些更直观的判断方法相结合,例如,在考虑同学关系时,首先判断用户是否是学生,如果是,接着判断用户是否就读于同一所学校,以及用户的年龄差在5以内,如果全是,则判断用户为同学关系。在考虑同事关系的时候,通过用户的注册邮箱以及收货地址来判断,如果用户的注册邮箱或收货地址是同一个公司,则可以判断用户为同事关系等。
在对网络社交行为离散化的过程中,也可以不仅仅考虑数量,也可以与网络社交行为发生的时间相结合,例如,如果发生同机登陆的时间都在一年以前,则抛弃这些同机登陆的数据。
另外,上述方法中,初始样本集合的数据随着时间会发生变化,例如,搜集到了越来越多的已知数据,因此,根据不断变化的初始样本集合的数据,可以重新计算每个网络社交行为的每个等级对应于某类型社交关系类型的条件概率,以反映新的数据收集情况。当然,随着网络使用的普遍化,以及加入网络的年龄范围越来越大,不断使用新的初始样本集合(即已知的数据)对上述条件概率进行更新,还能够反映网络主体的网络社交行为与社交关系类型之间相关性的变化情况,体现人们的网络行为的进化过程。
本申请提供获取网络主体社交关系类型的方法,在推定两个网络主体之间的社交关系类型后,还能够根据社交行为的种类和发生的次数,来判断两个网络主体之间的关系强度,根据关系强度对推定的社交关系类型进一步细化,获得两个网络主体之间更为准确的社交关系类型。
与前述获取网络主体社交关系类型的方法实施例相对应,本申请还公开了一种获取网络主体社交关系类型的装置实施例,请参看图3,其为本申请提供的一种获取网络主体社交关系类型的装置实施例示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
所述一种获取网络主体社交关系类型的装置包括:
获取单元301,获取需要判断社交关系类型的两个网络主体的网络社交行为数据;所述网络社交关系类型包括M种;所述网络社交行为包括S种。
离散单元302,用于将所述获取单元301输出的待判断的两个网络主体的网络社交行为数据以预定的方式离散化,使每个网络社交行为根据数量离散化到规定的N个等级。
计算单元303,用于根据所述离散单元302获得的每种网络社交行为的每个等级,所对应于特定的社交关系类型的条件概率,计算上述两个待判断社交关系类型的网络主体属于每种社交关系类型的融合概率。
所述条件概率,可以通过初始样本集合获取单元(图未视),获取已知社交关系类型的网络主体的数据和所述网络主体的网络社交行为数据作为初始样本集合。接着通过等级划分单元(图未视),将所述S种网络社交行为的数量范围以所述预定的方式离散化,使每个社交行为根据发生数量获得N个等级。
最后利用条件概率计算单元(图未视),根据所述初始样本集合的已知数据,计算每种网络社交行为的每个等级对应于某种社交关系类型的条件概率。
初步推定单元304,根据接收所述计算单元303计算的两个待判断网络主体对应每种社交关系的类型的融合概率,从中选取融合概率最大的社交关系类型,作为待判断网络主体彼此的社交关系类型。
根据初步推定单元304的结果,还可以包括最终推断单元(图未视),接收所述初步推定单元304推定的待判断网络主体彼此的社交关系类型,并将该社交关系类型对应的最大融合概率与预设阈值α比较,若该融合概率大于α,则最终推断待判断网络主体彼此之间为该社交关系类型。
在最终推断单元(图未视)推断的过程中,还可以通过预设阈值α确定单元,调整预设阈值α的取值,最终确定阈值α的取值;该预设阈值α确定单元的具体工作过程为:接收社交关系类型推断结果的正确率要求β,并根据该正确率要求β确定所述预设阈值α的取值;具体方法是,读取所述初始样本集合的数据,计算该初始样本集合中,任意两个网络主体之间的融合概率;选取某个预设阈值的具体取值α1作为假定预设阈值,以该假定预设阈值为标准,进行社交关系类型的推断,并将该推断结果与所述初始样本集合中的实际数据比对,获得推断结果的正确率;当使用某个具体取值α1,获得的社交关系类型推断结果的正确率等于或者稍大于β,则取该具体取值α1作为所述预设阈值α的取值。
在最终推断单元推断的待判定网络主体a、b之间的社交关系类型后,可以通过强度计算单元(图未视),计算该对网络主体中b对a的社交关系强度指数:
其中,strength<a,b>代表b对a的关系强弱指数,以a为主体。
权重计算单元(图未视),通过下列公式计算:
频次计算单元(图未视),通过下列公式计算:
在上述公式中n代表a、b之间使用过的社交行为类型数;频次指a、b之间进行某种社交行为的次数;网络社交行为权重的计算公式中,分母代表a总共与多少位联系人使用过关系社交行为k;网络社交行为频次计算公式中, Num<a,b>[k]代表a、b在社交行为k上的交互次数,分母的真数部分代表a与所有联系人的总交互次数。
在所述强度计算单元计算出关系强度指数后,通过细分社交关系子类型单元(图未视)可以对社交关系类型进一步细分,具体地:所述细分社交关系子类型单元,用于接收所述强度计算单元输出的所述网络主体a、b彼此的社交关系强度的数值范围,并结合具体的网络社交行为种类和数量的情况,以及网络主体a、b各自的相关信息,将其社交关系类型进一步细分为子类型。
本申请说明书中对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本申请实施例中对所述社交关系类型和社交行为所采用的说明,仅是为了便于理解而举例,实际上社交关系类型和社交行为存在多种情况,并不仅为上述的方式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上对本申请所提供一种获取网络主体社交关系类型的方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。