CN108846767A - 社交群组的特征获取方法及装置 - Google Patents
社交群组的特征获取方法及装置 Download PDFInfo
- Publication number
- CN108846767A CN108846767A CN201710288302.7A CN201710288302A CN108846767A CN 108846767 A CN108846767 A CN 108846767A CN 201710288302 A CN201710288302 A CN 201710288302A CN 108846767 A CN108846767 A CN 108846767A
- Authority
- CN
- China
- Prior art keywords
- group
- feature
- member users
- user
- social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000000694 effects Effects 0.000 claims description 54
- 230000000379 polymerizing effect Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 239000004744 fabric Substances 0.000 claims description 2
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Marketing (AREA)
- Signal Processing (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种社交群组的特征获取方法及装置,属于大数据技术领域。方法包括:获取社交群组的邀请关系记录和好友关系记录;创建群组网络结构;根据群组网络结构的用户分布特征和级联树特征中的至少一项,获取社交群组的指定特征,用户分布特征用于表示成员用户与好友用户的分布情况,级联树特征用于表示邀请方成员用户与被邀请方成员用户的分布情况。本发明通过根据社交群组的用户分布特征和级联树特征中的至少一项,获取社交群组的指定特征,而不仅是根据社交群组的属性特征,扩展了特征,提高了多样性,当应用于预测社交群组的生存时长时可以提高预测精确度。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种社交群组的特征获取方法及装置。
背景技术
近年来,随着终端设备和移动网络的不断发展,社交应用已成为最普遍的应用,如何对社交应用进行研究和改善已成为用户非常关心的问题。而社交群组是社交应用中多人交流的一种常用方式,基于社交群组的特征预测社交群组的生存时长是研究社交应用的重要部分。
社交群组中包括多个成员用户,在获取特征时,可以获取社交群组内各个成员用户的属性特征,例如性别、年龄、职业等,从而根据多个成员用户的属性特征获取社交群组的特征。采用上述获取特征的方式,可以获取到多个样本社交群组的特征。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:获取社交群组的特征时仅采用了成员用户的属性特征,采用的特征较为单一,导致预测的社交群组的生存时长不够精确。
发明内容
为了解决相关技术的问题,本发明实施例提供了一种社交群组的特征获取方法及装置。所述技术方案如下:
第一方面,提供了一种社交群组的特征获取方法,所述方法包括:
获取社交群组的邀请关系记录和好友关系记录,所述邀请关系记录中包括所述社交群组内邀请方成员用户与被邀请方成员用户的对应关系,所述好友关系记录中包括所述社交群组内的各个成员用户与好友用户的对应关系;
根据所述邀请关系记录和所述好友关系记录,创建群组网络结构,所述群组网络结构包括所述各个成员用户、所述各个成员用户的好友用户、由所述各个成员用户和所述各个成员用户的好友用户中任两个好友用户连接构成的边;
根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征,所述用户分布特征用于表示成员用户与好友用户的分布情况,所述级联树特征用于表示邀请方成员用户与被邀请方成员用户的分布情况,所述指定特征用于预测所述社交群组的生存时长。
第二方面,提供了一种社交群组的特征获取装置,所述装置包括:
记录获取模块,用于获取社交群组的邀请关系记录和好友关系记录,所述邀请关系记录中包括所述社交群组内邀请方成员用户与被邀请方成员用户的对应关系,所述好友关系记录中包括所述社交群组内的各个成员用户与好友用户的对应关系;
创建模块,用于根据所述邀请关系记录和所述好友关系记录,创建群组网络结构,所述群组网络结构包括所述各个成员用户、所述各个成员用户的好友用户、由所述各个成员用户和所述各个成员用户的好友用户中的任两个好友用户连接构成的边;
特征获取模块,用于根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征,所述用户分布特征用于表示成员用户与好友用户的分布情况,所述级联树特征用于表示邀请方成员用户与被邀请方成员用户的分布情况,所述指定特征用于预测所述社交群组的生存时长。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法及装置,通过根据社交群组的用户分布特征和级联树特征中的至少一项,获取社交群组的指定特征,而不仅是根据社交群组的属性特征,扩展了特征,提高了多样性,当应用于预测社交群组的生存时长时可以提高预测精确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种社交群组的特征获取方法的流程图;
图2是本发明实施例提供的一种群组网络结构的示意图;
图3是本发明实施例提供的另一种群组网络结构的示意图;
图4是本发明实施例提供的一种级联树的示意图;
图5是本发明实施例提供的一种社交群组的特征获取装置的结构示意图;
图6是本发明实施例提供的一种终端的结构示意图;
图7是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本发明实施例涉及到的一些概念进行如下解释:
1、社交群组:由多个成员用户组成的群组,在社交群组内多个成员用户可以进行交流。该社交群组可以为任一聊天软件、网络论坛、微博网站、游戏社区等应用中的群组。
2、好友关系记录:
好友关系记录中包括任两个用户的对应关系,建立该对应关系表示两个用户互为好友,且该好友关系记录中还可以包括任两个用户之间建立对应关系的时间,即成为好友的时间。
对于社交群组而言,好友关系记录中可以包括社交群组内的各个成员用户与好友用户的对应关系,该好友用户也可以为社交群组内的成员用户,或者也可以不是社交群组内的成员用户。好友关系记录中还可以包括社交群组内的各个成员用户、好友用户以及建立好友关系的时间的对应关系。
3、邀请关系记录:
社交群组内的某一成员用户可以邀请还未加入该社交群组的任一好友用户加入到该社交群组中,当该好友用户加入到该社交群组后,也成为该社交群组的成员用户。此时,发出邀请的成员用户即为邀请方成员用户,接受邀请加入该社交群组的成员用户即为被邀请方成员用户。
而邀请关系记录中包括邀请方成员用户与被邀请方成员用户的对应关系,还可以包括邀请方成员用户、被邀请方成员用户和邀请时间的对应关系。
4、群组网络结构:由邀请关系记录和好友关系记录中的用户连接而成,该群组网络结构中包括社交群组的各个成员用户、各个成员用户的好友用户、由各个成员用户和各个成员用户的好友用户中的任两个好友用户连接构成的边。
进一步地,为了区分好友关系和邀请关系,在该群组网络结构中,每个成员用户作为邀请方成员用户,可以与对应的被邀请方成员用户连接构成第三类型边,那么,每个成员用户也会作为被邀请方成员用户,与对应的邀请方成员连接构成第三类型边。该第三类型边具有方向性,由邀请方成员用户指向被邀请方成员用户,表示两者具有邀请关系(当然也具有好友关系)。另外,每个成员用户与除对应的邀请方成员用户和被邀请方成员用户之外的好友用户连接构成第四类型边,表示两者具有好友关系,但不具有邀请关系。
图1是本发明实施例提供的一种社交群组的特征获取方法的流程图,本发明实施例的执行主体为特征获取装置,可以为服务器、终端等,参见图1,该方法包括:
101、获取社交群组的邀请关系记录和好友关系记录。
其中,该社交群组中可以包括多个成员用户,好友关系记录中包括社交群组内的各个成员用户与好友用户的对应关系,用于确定每个成员用户的好友用户。
例如,该好友关系记录可以如下表1所示,根据该好友关系记录可以确定,用户A、用户B、用户C、用户D、用户E、用户F、用户G为社交群组的成员用户,还可以确定每个成员用户的好友用户,其中用户H、用户I、用户J、用户K、用户L不是社交群组内的成员用户,而是成员用户的好友用户。
表1
进一步地,该好友关系记录中还可以包括成员用户、好友用户、建立对应关系的时间三者的对应关系,根据该好友关系记录可以确定社交群组内的任一成员用户在哪个时间与哪个用户成为了好友。例如,该好友关系记录可以以三元组数据(u,v,t)表示,表示在t时刻,用户u和用户v成为了好友。
该邀请关系记录中包括社交群组内邀请方成员用户与被邀请方成员用户的对应关系。例如,该邀请关系记录可以如下表2所示,根据该邀请关系记录可以确定,用户A邀请了用户B、用户C、用户D、用户E加入社交群组,而用户C又邀请了用户F、用户G加入该社交群组。
表2
邀请方成员用户 | 被邀请方成员用户 |
用户A | 用户B、用户C、用户D、用户E |
用户C | 用户F、用户G |
进一步地,该邀请关系记录还可以包括邀请方成员用户、被邀请方成员用户以及邀请时间的对应关系,根据该邀请关系记录可以确定某一成员用户在哪个时间邀请了另一个成员用户加入到社交群组中。例如,邀请关系记录可以以四元组数据(u,v,c,t)表示,表示在t时刻,用户u邀请用户v加入了社交群组c。
本发明实施例中,该邀请关系记录和该好友关系记录可以存储于服务器中,该服务器用于管理社交群组,可以为社交应用服务器、网络论坛服务器、游戏社区服务器等。该服务器可以根据检测到的任一成员用户邀请另一用户加入社交群组的操作,对该邀请关系记录进行更新,还可以根据检测到的任一成员用户与其他成员用户建立好友关系的操作,对该好友关系记录进行更新。
则特征获取装置可以调用与服务器之间的接口,获取该服务器存储的邀请关系记录和好友关系记录,并且在服务器对该邀请关系记录或者该好友关系记录进行更新后,特征获取装置还可以调用该接口,获取更新后的邀请关系记录或者更新后的好友关系记录。
或者,该邀请关系记录和该好友关系记录也可以由服务器拷贝到优盘、读卡器等存储介质中,则特征获取装置可以从存储介质中读取该邀请关系记录和该好友关系记录。
102、根据邀请关系记录和好友关系记录,创建群组网络结构。
根据该邀请关系记录和该好友关系记录,可以确定该社交群组内的各个成员用户,以及各个成员用户的好友用户,这些用户共同构成一个用户集合,则将该用户集合中互为好友的任两个用户连接构成一条边,即可创建一个群组网络结构,群组网络结构包括社交群组的各个成员用户、各个成员用户的好友用户、由各个成员用户和各个成员用户的好友用户中的任两个好友用户连接构成的边。例如,参见上述表1和表2的记录,可以创建如图2所示的群组网络结构。
进一步地,该用户集合中有些用户是好友关系,而有些用户既是好友关系,也是邀请关系,因此为了便于区分这两种情况,可以将每个成员用户与对应的被邀请方成员用户连接构成第三类型边,第三类型边具有方向性,由邀请方成员用户指向被邀请方成员用户,并且,将每个成员用户与除对应的邀请方成员用户和被邀请方成员用户以外的好友用户连接构成第四类型边。
例如,参见上述表1和表2的记录,可以创建如图3所示的群组网络结构,其中,第三类型边具有箭头,表示第三类型边具有方向性,由邀请方成员用户指向被邀请方成员用户,而第四类型边没有箭头,表示第四类型边没有方向性。
103、获取群组网络结构的用户分布特征。其中,该用户分布特征用于表示成员用户与好友用户的分布情况。
本发明实施例中,获取用户分布特征可以包括以下步骤1031-1037:
1031、根据群组网络结构获取指定用户的数量,作为第一数量。
指定用户为不在社交群组内但至少有一个好友用户在社交群组内的用户,这些指定用户虽然目前不在社交群组内,但由于其具有在社交群组内的好友用户,很可能以后会加入到该社交群组内,因此,指定用户的数量可以表示社交群组的潜力用户的数量。
本发明实施例中,该特征获取装置可以根据该群组网络结构,确定由该社交群组内的各个成员用户以及各个成员用户的好友用户构成的用户集合,则将该用户集合内在该社交群组内的成员用户过滤之后,剩余的用户即为不在社交群组内但至少有一个好友用户在社交群组内的用户,也即是指定用户,特征获取装置可以统计指定用户的数量,作为第一数量。
参见图3,根据该群组网络结构可以确定指定用户为用户H、用户I、用户J、用户K、用户L,指定用户的数量为5。
1032、获取群组网络结构中第一类型边的数量,作为第二数量。
第一类型边一个端点的用户在社交群组内,另一个端点的用户不在社交群组内,则第一类型边的数量可以表示该社交群组与外界用户的连接紧密程度。
本发明实施例中,该特征获取装置可以遍历群组网络结构中任两个用户构成的边,对于遍历到的边,判断构成这条边的两个端点的用户是否在社交群组内,从而能够确定这条边是否为第一类型边,遍历完成后即可获取到第一类型边的数量,作为第二数量。
实际上,群组网络结构由用户集合中的用户连接而成,特征获取装置在存储群组网络结构时,实际上存储用户集合和好友关系记录,而用户集合中任两个用户是否连接可以根据好友关系记录中这两个用户是否互为好友确定。
那么,在统计第二数量时,该特征获取装置可以根据好友关系记录,从用户集合中选取任两个互为好友的用户,组成一个用户组合,从而可以得到多个用户组合。遍历该多个用户组合,对于遍历到的用户组合,可以判断该用户组合中的两个用户是否是其中一个用户在社交群组内而另一个用户不在社交群组内,如果是,则可以确定这两个用户连接构成的边为第一类型边。遍历完成之后即可确定所构成的第一类型边的数量,作为第二数量。
参见图3,该第一类型边为HD、HB、IB、FJ、GJ、GK、GL,该第一类型边的数量为7。
1033、获取群组网络结构中第二类型边的数量,作为第三数量。
第二类型边两个端点的用户均在社交群组内,则第二类型边的数量可以表示该社交群组内部成员用户的连接紧密程度。
本发明实施例中,该特征获取装置可以遍历群组网络结构中任两个用户构成的边,对于遍历到的边,判断构成这条边的两个端点的用户是否在社交群组内,从而能够确定这条边是否为第二类型边,遍历完成后即可获取到第二类型边的数量,作为第三数量。
在统计第二数量时,该特征获取装置可以从用户集合中选取任两个互为好友的用户,组成一个用户组合,从而可以得到多个用户组合。遍历该多个用户组合,对于遍历到的用户组合,可以判断该用户组合中的两个用户是否均在社交群组内,如果是,则可以确定这两个用户连接构成的边为第二类型边。遍历完成之后即可确定所构成的第二类型边的数量,作为第三数量。
参见图3,该第二类型边为DB、DA、BA、AC、AE、CE、CF、CG、EG、FG,该第二类型边的数量为10。
实际应用时,该步骤1033和上述步骤1032可以同时执行,即特征获取装置在遍历过程中可以确定当前遍历的这条边是第一类型边还是第二类型边,遍历完成后即可获取到第一类型边的数量和第二类型边的数量。
1034、获取群组网络结构中闭三角形的数量,作为第四数量。
闭三角形为相互连接的三个成员用户构成的闭合三角形,表示这三个成员用户互为好友。
本发明实施例中,该特征获取装置可以确定该社交群组内的各个成员用户,从中选取任三个成员用户组成一个成员组合,则可以得到多个成员组合。遍历该多个成员组合,对于遍历到的成员组合,可以判断该成员组合中的三个成员用户是否相互连接,即这三个成员用户是否互为好友,如果这三个成员用户互为好友,则确定这三个成员用户相互连接,可以构成一个闭三角形。遍历完成之后即可确定所构成的闭三角形的数量,作为第四数量。
参见图3,闭三角形为ADB、ACE、CEG、CFG,闭三角形的数量为4。
1035、获取群组网络结构中开三角形的数量,作为第五数量。
开三角形为三个成员用户中一个成员用户分别与其他两个成员用户连接但其他两个成员用户之间不连接而形成的三角形,表示这三个成员用户中有一个成员用户与其他两个成员用户互为好友,但该其他两个成员用户互相不是好友。
本发明实施例中,该特征获取装置可以确定该社交群组内的各个成员用户,从中选取任三个成员用户组成一个成员组合,则可以得到多个成员组合。遍历该多个成员组合,对于遍历到的成员组合,可以判断该成员组合中的三个成员用户是否满足以下构成开三角形的条件:其中一个成员用户分别与其他两个成员用户连接但其他两个成员用户之间不连接,即其中一个成员用户分别与其他两个成员用户互为好友,但其他两个成员用户不是好友。如果满足该条件,则确定三个成员用户构成一个开三角形。遍历完成之后即可确定所构成的开三角形的数量,作为第五数量。
参见图3,开三角形为DAC、DAE、BAC、BAE、ACF、ACG、ECF、AEG、EGF,开三角形的数量为9。
实际应用时,该步骤1034和上述步骤1035可以同时执行,即对于遍历到的成员组合,判断该成员组合中的三个成员用户是相互连接还是满足上述构成开三角形的条件,从而能够确定这三个成员用户构成了开三角形还是闭三角形,遍历完成后即可获取到开三角形的数量和闭三角形的数量。
1036、获取群组网络结构的聚合系数,作为第六数量。
聚合系数根据闭三角形和开三角形的数量确定,用于表示闭三角形与开三角形的数量之间的比例。该特征获取装置获取闭三角形的数量和开三角形的数量,即第四数量和第五数量,并根据第四数量和第五数量计算聚合系数。
例如该聚合系数可以为第四数量与第五数量的比例,或者可以为第四数量与第四数量和第五数量之和的比例,则参见图3,闭三角形的数量为4,开三角形的数量为9,聚合系数为4/13。
1037、根据第一数量、第二数量、第三数量、第四数量、第五数量和第六数量中的至少一项,获取用户分布特征。
上述步骤1031-1036获取到的第一数量至第六数量均可在一定程度上表示该社交群组的成员用户的分布情况,或者成员用户与好友用户的分布情况,则可以采用上述第一数量至第六数量中的任一项或者多项组成用户分布特征。
例如,基于图3的举例,将第一数量至第六数量组成用户分布特征,得到的用户分布特征为[5,7,1,4,9,4/13]。
104、获取群组网络结构的级联树特征。该级联树特征用于表示邀请方成员用户与被邀请方成员用户的分布情况。
本发明实施例中,获取级联树特征可以包括以下步骤1041-1047:
1041、根据群组网络结构获取级联树。
其中,该级联树包括社交群组内的成员用户以及由任两个成员用户连接构成的第三类型边,则特征获取装置将原始的群组网络结构中不在社交群组内的用户以及第四类型边均过滤掉,可以得到级联树,级联树中仅包括社交群组内的成员用户,且具有邀请关系的成员用户之间连接,不具有邀请关系的成员用户之间不连接。并且,级联树中成员用户之间具有层级关系,邀请方成员用户位于对应的被邀请方成员用户的上一层。例如,根据图3所示的群组网络结构可以得到如图4所示的级联树。
1042、获取级联树中的成员用户的数量,作为第一特征。
实际上,级联树由社交群组内的成员用户构成,级联树中的成员用户的数量即为社交群组内成员用户的数量。参见图4,该级联树中包括7名成员用户,则第一特征为7。
1043、根据级联树中的每个成员用户在级联树中的深度,获取深度分布特征,作为第二特征。
本发明实施例中,特征获取装置可以预先确定成员用户的顺序以及每个成员用户在级联树中的深度,按照成员用户的顺序,将每个成员用户的深度依次排列,构成深度分布特征,即第二特征。
其中,每个成员用户在级联树中的深度可以根据级联树中各个成员用户之间的层级关系确定。该特征获取装置可以根据级联树中各个成员用户之间的层级关系,先确定位于第一层的成员用户,即没有被其他成员用户邀请的成员用户,该成员用户的深度即为1,之后确定位于第一层的成员用户的下一层的成员用户,即被第一层的成员用户邀请的成员用户,这些成员用户的深度即为2,以此类推,即可确定每个成员用户的深度。
参见图4,在级联树中,用户A的深度为1,用户B、用户C、用户D、用户E的深度为2,用户F、用户G的深度为3,则按照成员用户的顺序将每个成员用户的深度依次排列后,得到的第二特征可以为[1,2,2,2,2,3,3]。
或者,为了减小第二特征的维度数量,按照成员用户的顺序将每个成员用户的深度依次排列后,可以选取位于第一指定顺序的深度组成第二特征,而无需考虑每个成员用户的深度。该第一指定顺序可以为奇数顺序、偶数顺序、10的倍数的顺序,或者为预设的顺序等。
例如,将每个成员用户的深度依次排列,得到特征[1,2,2,2,2,3,3],此时仅选取位于偶数顺序上的深度,组成第二特征,则第二特征为[2,2,3]。
1044、根据级联树中每个子树的大小,获取子树大小的分布特征,作为第三特征。
其中,子树的大小是指子树中包含的用户数量,该特征获取装置可以确定级联树中的一个或多个子树以及子树的顺序,并确定每个子树的大小,按照子树的顺序,将每个子树的大小依次排列,构成第三特征。
参见图4,该级联树包括以用户A为根的子树(即该级联树本身),该子树的大小为7,且该级联树还包括以用户C为根的子树,该子树的大小为3,则第三特征可以为[7,3]。
或者,为了减小第三特征的维度数量,按照子树的顺序将每个子树的大小依次排列后,可以选取位于第二指定顺序的子树大小组成第三特征,而无需考虑每个子树的大小。该第二指定顺序可以为奇数顺序、偶数顺序、10的倍数的顺序,或者为预设的顺序等。
1045、根据级联树中每个深度下的用户数量,获取用户数量的分布特征,作为第四特征。
该特征获取装置可以确定级联树中每个用户的深度,根据每个用户的深度,确定每个深度下的用户数量,按照深度从大到小的顺序或者从小到大的顺序,将每个深度下的用户数量组成第四特征。
参见图4,深度为1的用户数量为1,深度为2的用户数量为4,深度为3的用户数量为2,则第四特征为[1,4,2]。
1046、获取级联树的平均距离,作为第五特征。
其中,任两个成员用户之间的距离可以为其中一个成员用户到达另一个成员用户需经过的跳数,例如用户A与用户B之间的距离为1。该平均距离根据级联树中任两个成员用户之间的距离以及级联树中的成员用户的数量确定。
该平均距离可以为级联树中任两个成员用户之间的距离之和与成员用户的数量的商,即采用以下方式计算得到:
或者,该平均距离也可以采用以下公式计算得到:
其中,n为级联树的成员用户数量,i和j为不小于1且不大于n的正整数,dij为用户i和用户j之间的距离。例如,图4所示的该级联树的平均距离为1。
1047、根据第一特征、第二特征、第三特征、第四特征和第五特征中的至少一项,获取级联树特征。
上述步骤1042-1046获取到的第一特征至第五特征均可在一定程度上表示该社交群组中邀请方成员用户与被邀请方成员用户的分布情况,则可以采用上述第一特征至第五特征中的任一项或者多项组成级联树特征。
例如,基于图4的举例,将第一特征至第五特征组成级联树特征,得到的级联树特征为[7,1,2,2,2,2,3,3,7,3,1,4,2,1]。
105、根据群组网络结构的用户分布特征和级联树特征中的至少一项,获取社交群组的指定特征。
例如,可以将用户分布特征直接作为社交群组的指定特征,或者将级联树特征直接作为社交群组的指定特征,或者将用户分布特征和级联树特征组成社交群组的指定特征,或者也可以将用户分布特征和级联树特征进行加权求和后,作为社交群组的指定特征,其中用户分布特征的权重和级联树特征的权重可以根据好友关系和邀请关系的重要性确定。
需要说明的第一点是,本发明实施例中根据社交群组的群组网络结构获取到了社交群组的指定特征,然而在实际应用中,随着时间的推移,有些新用户可能会加入到该社交群组中,而有些成员用户也可能会退出该社交群组,也即是社交群组的成员用户可能会发生变化。另外,对于一个用户来说,该用户可以与一些新用户建立好友关系,也可以与旧的好友用户解除好友关系,则成员用户的好友用户也可能会发生变化。那么,在不同的时刻,社交群组的群组网络结构可能不同。
为了保证获取到准确的特征,可以根据该社交群组在多个时刻的邀请关系记录和好友关系记录,创建该多个时刻的群组网络结构,根据该多个时刻的群组网络结构的用户分布特征和级联树特征中的至少一项,获取该社交群组的指定特征。其中,该多个时刻至少包括创建该社交群组的时刻和当前获取该社交群组的特征的时刻,也可以包括位于上述两个时刻之间的任一时刻等。
需要说明的第二点是,在获取社交群组的指定特征时,除上述用户分布特征和级联树特征之外,还可以考虑属性特征。即在步骤105之前,该方法还可以包括以下步骤106:
106、获取社交群组内各个成员用户的属性特征,根据社交群组内各个成员用户的属性特征,获取社交群组的属性特征。
则在步骤105中,可以根据用户分布特征、级联树特征和属性特征中的至少一项,获取社交群组的指定特征。
本发明实施例中,获取属性特征可以包括以下步骤1061-1064:
1061、根据社交群组内各个成员用户的地理区域,获取地理区域分布特征以及地理区域数量。其中,地理区域分布特征表示社交群组内的地理区域分布情况,地理区域数量表示社交群组内的成员用户所属的地理区域总数量。
本发明实施例中,可以获取各个成员用户的地理区域,从而统计出地理区域数量,并且,确定每种地理区域对应的成员用户数量,将每种地理区域对应的成员用户数量组成地理区域分布特征,或者计算每种地理区域对应的成员用户数量的信息熵,作为地理区域分布特征。
其中,该地理区域可以包括国籍、指定国家的省份、城市等一种或多种级别的地理区域,例如可以获取社交群组的国籍分布特征和城市分布特征,从而获取到两个地理区域分布特征。
1062、根据社交群组内各个成员用户的性别,获取性别分布特征以及性别数量。其中,性别分布特征表示社交群组内的性别分布情况,性别数量表示社交群组内的成员用户所属的性别总数量,可能为1或者2。
本发明实施例中,可以获取各个成员用户的性别,从而统计出性别数量,并且,确定每种性别对应的成员用户数量,将每种性别对应的成员用户数量组成性别分布特征,或者计算每种性别对应的成员用户数量的信息熵,作为性别分布特征。
1063、根据社交群组内各个成员用户的年龄,获取年龄分布特征以及年龄数量。其中,年龄分布特征表示社交群组内的年龄分布情况,年龄数量表示社交群组内的成员用户所属的年龄总数量。
本发明实施例中,可以获取各个成员用户的年龄,从而统计出年龄数量,并且,确定每种年龄对应的成员用户数量,将每种年龄对应的成员用户数量组成年龄分布特征,或者计算每种年龄对应的成员用户数量的信息熵,作为年龄分布特征。
另外,还可以根据各个成员用户的年龄,确定最大年龄和最小年龄,根据最大年龄和最小年龄确定年龄段。
1064、根据地理区域分布特征以及地理区域数量、性别分布特征以及性别数量、年龄分布特征以及年龄数量中的至少一项,获取社交群组的属性特征。
上述步骤1081-1063获取到的特征均可在一定程度上表示该社交群组中成员用户的属性特征,则可以采用上述特征中的任一项或者多项获取社交群组的属性特征。
需要说明的第三点是,本发明实施例提供的特征获取方法获取到的特征,可以应用于预测社交群组的生存时长。
实际应用中,可以采用本发明实施例的特征获取方法,获取到多个样本社交群组的指定特征,并获取多个样本社交群组已知的生存时长,并根据多个样本社交群组的指定特征和生存时长进行训练,得到生存时长预测模型,并存储生存时长预测模型,生存时长预测模型用于预测任一社交群组的生存时长。后续当预测目标社交群组的生存时长时,采用本发明实施例提供的特征获取方法,获取目标社交群组的指定特征,将该目标社交群组的指定特征输入到该生存时长预测模型时,即可得到该目标社交群组的预测生存时长。
其中,社交群组的生存时长可以以一个时间表示,则该生存时长预测模型可以为用于计算生存时长的计算模型,应用该生存时长预测模型可以得到目标社交群组的预测生存时长,例如社交群组的生存时长为5天。或者,也可以将社交群组分为长期和短期两类,社交群组的生存时长可以以对应的分类表示,则该生存时长预测模型可以为对社交群组进行分类的分类模型,应用该生存时长预测模型可以实现对目标社交群组的分类,确定该目标社交群组为长期群组还是短期群组。在训练生存时长预测模型时可以采用预设算法进行训练,该预设算法可以为支持向量机算法、逻辑回归算法等多种算法。
本发明实施例提供的方法,通过根据社交群组的用户分布特征和级联树特征中的至少一项,获取社交群组的指定特征,而不仅是根据社交群组的属性特征,扩展了特征,提高了多样性,当应用于预测社交群组的生存时长时可以提高预测精确度。
本发明实施例中,考虑了社交群组的以下特征:用户分布特征、级联树特征和属性特征,给出了在不同特征下进行特征获取时的预测准确度:
其中,AUC(Area Under Curve,曲线下面积)、准确度、召回率和F1值是衡量预测准确度的四种指标,AUC表示ROC(Receiver Operating Characteristic Curve,受试者工作特征曲线)下方的面积,用于表示训练的生存时长预测模型将正样本排在负样本之前的概率,AUC越大表示该生存时长预测模型的预测准确度越高。准确度表示生存时长预测模型判定的正样本中真正的正样本所占的比例,召回率表示被正确判定的正样本在所有正样本中所占的比例,F1值是综合考虑准确度和召回率后计算出的值。
其中,所有特征表示综合考虑了上述三种特征后得到的预测准确度,“-”表示去掉某种特征后得到的预测准确度,“+”表示只考虑某种特征后得到的预测准确度。实验表明,用户分布特征和级联树特征对预测社交群组的生存时长非常重要,缺少用户分布特征或者级联树特征,会导致预测结果不够准确。
另外,在不同时刻下可以得到不同的特征,本发明实施例中,考虑了不同时刻的影响,给出了在不同时刻下进行特征获取时得到的准确度:
生存时长 | AUC | 准确度 | 召回率 | F1值 |
创建1小时 | 57.95 | 54.16 | 56.80 | 55.45 |
创建1天 | 65.08 | 61.92 | 54.38 | 57.34 |
创建5天 | 65.46 | 62.52 | 54.11 | 58.01 |
创建10天 | 65.57 | 62.48 | 56.81 | 59.51 |
创建20天 | 65.76 | 62.78 | 56.56 | 59.51 |
创建1个月 | 66.62 | 63.23 | 57.66 | 60.32 |
通过上述实验数据可以看出,在社交群组创建1天时,即可得到较为准确的预测结果。
图5是本发明实施例提供的一种社交群组的特征获取装置的结构示意图。参见图5,该装置包括:记录获取模块501、创建模块502、特征获取模块503。
记录获取模块501,用于执行上述步骤101;
创建模块502,用于执行上述步骤102;
特征获取模块503,用于执行上述步骤105。
可选地,该装置还包括:
第一数量获取模块、第二数量获取模块、第三数量获取模块、第四数量获取模块、第五数量获取模块、第六数量获取模块,分别用于获取上述第一数量至第六数量;
用户分布特征获取模块,用于执行上述步骤103,获取用户分布特征。
可选地,该装置还包括:
级联树获取模块,用于获取级联树;
第一特征获取模块、第二特征获取模块、第三特征获取模块、第四特征获取模块、第五特征获取模块,分别用于获取上述第一特征至第五特征;
级联树特征获取模块,用于执行上述步骤104,获取级联树特征。
可选地,记录获取模块501,用于获取社交群组在多个时刻的邀请关系记录和好友关系记录;
创建模块502,用于创建多个时刻的群组网络结构;
特征获取模块503,用于根据社交群组在多个时刻的用户分布特征和级联树特征中的至少一项,获取社交群组的指定特征。
可选地,该装置还包括:属性特征获取模块,用于获取社交群组的属性特征;
特征获取模块503,用于根据用户分布特征、级联树特征和属性特征中的至少一项,获取指定特征。
可选地,该装置还包括:
样本获取模块,用于获取多个样本社交群组的指定特征和生存时长;
训练模块,用于训练生存时长预测模型;
预测模块,用于获取目标社交群组的指定特征,输入到该生存时长预测模型中,得到预测生存时长。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的社交群组的特征获取装置在获取特征时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将特征获取装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的社交群组的特征获取装置与社交群组的特征获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的一种终端的结构示意图。该终端可以用于实施上述实施例所示出的社交群组的特征获取方法中的特征获取装置所执行的功能。具体来讲:
终端600可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图6中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,如上述示例性实施例所示出的终端所对应的软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理,如实现基于视频的交互等。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端600的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入终端132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的链接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入终端132。具体地,其他输入终端132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端600的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图6中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端600还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端600移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端600还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端600之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端600的通信。
终端600通过传输模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线或有线的宽带互联网访问。虽然图6示出了传输模块170,但是可以理解的是,其并不属于终端600的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端600的控制中心,利用各种接口和线路链接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端600的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端600还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端600还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于实施上述实施例中特征获取装置所执行操作的指令。
图7是本发明实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
该服务器700可以用于执行上述实施例提供的社交群组的特征获取方法中特征获取装置所执行的步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种社交群组的特征获取方法,其特征在于,所述方法包括:
获取社交群组的邀请关系记录和好友关系记录,所述邀请关系记录中包括所述社交群组内邀请方成员用户与被邀请方成员用户的对应关系,所述好友关系记录中包括所述社交群组内的各个成员用户与好友用户的对应关系;
根据所述邀请关系记录和所述好友关系记录,创建群组网络结构,所述群组网络结构包括所述各个成员用户、所述各个成员用户的好友用户、由所述各个成员用户和所述各个成员用户的好友用户中的任两个好友用户连接构成的边;
根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征,所述用户分布特征用于表示成员用户与好友用户的分布情况,所述级联树特征用于表示邀请方成员用户与被邀请方成员用户的分布情况,所述指定特征用于预测所述社交群组的生存时长。
2.根据权利要求1所述的方法,其特征在于,所述根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征之前,所述方法还包括:
根据所述群组网络结构获取指定用户的数量,作为第一数量,所述指定用户为不在所述社交群组内但至少有一个好友用户在所述社交群组内的用户;
获取所述群组网络结构中第一类型边的数量,作为第二数量,所述第一类型边一个端点的用户在所述社交群组内,另一个端点的用户不在所述社交群组内;
获取所述群组网络结构中第二类型边的数量,作为第三数量,所述第二类型边两个端点的用户均在所述社交群组内;
获取所述群组网络结构中闭三角形的数量,作为第四数量,所述闭三角形为相互连接的三个成员用户构成的闭合三角形;
获取所述群组网络结构中开三角形的数量,作为第五数量,所述开三角形为三个成员用户中一个成员用户分别与其他两个成员用户连接但所述其他两个成员用户之间不连接而形成的三角形;
获取所述群组网络结构的聚合系数,作为第六数量,所述聚合系数根据所述闭三角形和所述开三角形的数量确定;
根据所述第一数量、所述第二数量、所述第三数量、所述第四数量、所述第五数量和所述第六数量中的至少一项,获取所述用户分布特征。
3.根据权利要求1所述的方法,其特征在于,所述群组网络结构中,任一邀请方成员用户与对应的被邀请方成员用户连接构成第三类型边,所述第三类型边由所述邀请方成员用户指向所述被邀请方成员用户;任一成员用户与除对应的邀请方成员用户和被邀请方成员用户之外的好友用户连接构成第四类型边;
所述根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征之前,所述方法还包括:
根据所述群组网络结构获取级联树,所述级联树包括所述社交群组内的成员用户以及由任两个成员用户连接构成的第三类型边,所述级联树中邀请方成员用户位于对应的被邀请方成员用户的上一级;
获取所述级联树中的成员用户的数量,作为第一特征;
根据所述级联树中的每个成员用户在所述级联树中的深度,获取深度分布特征,作为第二特征;
根据所述级联树中每个子树的大小,获取子树大小的分布特征,作为第三特征;
根据所述级联树中每个深度下的成员用户数量,获取成员用户数量的分布特征,作为第四特征;
获取所述级联树的平均距离,作为第五特征,所述平均距离根据所述级联树中任两个成员用户之间的距离以及所述级联树中的成员用户的数量确定;
根据所述第一特征、所述第二特征、所述第三特征、所述第四特征和所述第五特征中的至少一项,获取所述级联树特征。
4.根据权利要求1所述的方法,其特征在于,所述获取社交群组的邀请关系记录和好友关系记录,包括:获取所述社交群组在多个时刻的邀请关系记录和好友关系记录,所述多个时刻至少包括创建所述社交群组的时刻和当前获取所述社交群组的特征的时刻;
所述根据所述邀请关系记录和所述好友关系记录,创建群组网络结构,包括:根据所述社交群组在所述多个时刻的邀请关系记录和好友关系记录,创建所述多个时刻的群组网络结构;
所述根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征,包括:根据所述多个时刻的群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
根据所述社交群组内各个成员用户的属性特征,获取所述社交群组的属性特征;
所述根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征,包括:根据所述用户分布特征、所述级联树特征和所述属性特征中的至少一项,获取所述社交群组的指定特征。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取多个样本社交群组的指定特征和生存时长;
根据所述多个样本社交群组的指定特征和生存时长进行训练,得到生存时长预测模型,所述生存时长预测模型用于预测任一社交群组的生存时长;
获取目标社交群组的指定特征,将所述目标社交群组的指定特征输入到所述生存时长预测模型中,得到所述目标社交群组的预测生存时长。
7.一种社交群组的特征获取装置,其特征在于,所述装置包括:
记录获取模块,用于获取社交群组的邀请关系记录和好友关系记录,所述邀请关系记录中包括所述社交群组内邀请方成员用户与被邀请方成员用户的对应关系,所述好友关系记录中包括所述社交群组内的各个成员用户与好友用户的对应关系;
创建模块,用于根据所述邀请关系记录和所述好友关系记录,创建群组网络结构,所述群组网络结构包括所述各个成员用户、所述各个成员用户的好友用户、由所述各个成员用户和所述各个成员用户的好友用户中的任两个好友用户连接构成的边;
特征获取模块,用于根据所述群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征,所述用户分布特征用于表示成员用户与好友用户的分布情况,所述级联树特征用于表示邀请方成员用户与被邀请方成员用户的分布情况,所述指定特征用于预测所述社交群组的生存时长。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一数量获取模块,用于根据所述群组网络结构获取指定用户的数量,作为第一数量,所述指定用户为不在所述社交群组内但至少有一个好友用户在所述社交群组内的用户;
第二数量获取模块,用于获取所述群组网络结构中第一类型边的数量,作为第二数量,所述第一类型边一个端点的用户在所述社交群组内,另一个端点的用户不在所述社交群组内;
第三数量获取模块,用于获取所述群组网络结构中第二类型边的数量,作为第三数量,所述第二类型边两个端点的用户均在所述社交群组内;
第四数量获取模块,用于获取所述群组网络结构中闭三角形的数量,作为第四数量,所述闭三角形为相互连接的三个成员用户构成的闭合三角形;
第五数量获取模块,用于获取所述群组网络结构中开三角形的数量,作为第五数量,所述开三角形为三个成员用户中一个成员用户分别与其他两个成员用户连接但所述其他两个成员用户之间不连接而形成的三角形;
第六数量获取模块,用于获取所述群组网络结构的聚合系数,作为第六数量,所述聚合系数根据所述闭三角形和所述开三角形的数量确定;
用户分布特征获取模块,用于根据所述第一数量、所述第二数量、所述第三数量、所述第四数量、所述第五数量和所述第六数量中的至少一项,获取所述用户分布特征。
9.根据权利要求7所述的装置,其特征在于,所述群组网络结构中,任一邀请方成员用户与对应的被邀请方成员用户连接构成第三类型边,所述第三类型边由所述邀请方成员用户指向所述被邀请方成员用户;任一成员用户与除对应的邀请方成员用户和被邀请方成员用户之外的好友用户连接构成第四类型边;
所述装置还包括:
级联树获取模块,用于根据所述群组网络结构获取级联树,所述级联树包括所述社交群组内的成员用户以及由任两个成员用户连接构成的第三类型边,所述级联树中邀请方成员用户位于对应的被邀请方成员用户的上一级;
第一特征获取模块,用于获取所述级联树中的成员用户的数量,作为第一特征;
第二特征获取模块,用于根据所述级联树中的每个成员用户在所述级联树中的深度,获取深度分布特征,作为第二特征;
第三特征获取模块,用于根据所述级联树中每个子树的大小,获取子树大小的分布特征,作为第三特征;
第四特征获取模块,用于根据所述级联树中每个深度下的成员用户数量,获取成员用户数量的分布特征,作为第四特征;
第五特征获取模块,用于获取所述级联树的平均距离,作为第五特征,所述平均距离根据所述级联树中任两个成员用户之间的距离以及所述级联树中的成员用户的数量确定;
级联树特征获取模块,用于根据所述第一特征、所述第二特征、所述第三特征、所述第四特征和所述第五特征中的至少一项,获取所述级联树特征。
10.根据权利要求7所述的装置,其特征在于,
所述记录获取模块,用于获取所述社交群组在多个时刻的邀请关系记录和好友关系记录,所述多个时刻至少包括创建所述社交群组的时刻和当前获取所述社交群组的特征的时刻;
所述创建模块,用于根据所述社交群组在所述多个时刻的邀请关系记录和好友关系记录,创建所述多个时刻的群组网络结构;
所述特征获取模块,用于根据所述多个时刻的群组网络结构的用户分布特征和级联树特征中的至少一项,获取所述社交群组的指定特征。
11.根据权利要求7-10任一项所述的装置,其特征在于,所述装置还包括:
属性特征获取模块,用于根据所述社交群组内各个成员用户的属性特征,获取所述社交群组的属性特征;
所述特征获取模块,用于根据所述用户分布特征、所述级联树特征和所述属性特征中的至少一项,获取所述社交群组的指定特征。
12.根据权利要求7-10任一项所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取多个样本社交群组的指定特征和生存时长;
训练模块,用于根据所述多个样本社交群组的指定特征和生存时长进行训练,得到生存时长预测模型,所述生存时长预测模型用于预测任一社交群组的生存时长;
预测模块,用于获取目标社交群组的指定特征,将所述目标社交群组的指定特征输入到所述生存时长预测模型中,得到所述目标社交群组的预测生存时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710288302.7A CN108846767B (zh) | 2017-04-27 | 2017-04-27 | 社交群组的特征获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710288302.7A CN108846767B (zh) | 2017-04-27 | 2017-04-27 | 社交群组的特征获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846767A true CN108846767A (zh) | 2018-11-20 |
CN108846767B CN108846767B (zh) | 2022-03-11 |
Family
ID=64211716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710288302.7A Active CN108846767B (zh) | 2017-04-27 | 2017-04-27 | 社交群组的特征获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846767B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335164A (zh) * | 2019-06-26 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 人际关系信息生成方法和装置 |
CN111182474A (zh) * | 2019-08-08 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种确定社交关系的方法以及相关装置 |
CN111400616A (zh) * | 2020-03-31 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 账户的推荐方法及装置 |
CN111401980A (zh) * | 2020-02-19 | 2020-07-10 | 北京值得买科技股份有限公司 | 一种提升样本排序多样性方法以及装置 |
CN113205129A (zh) * | 2021-04-28 | 2021-08-03 | 五八有限公司 | 一种作弊团伙识别方法、装置、电子设备及存储介质 |
CN113542103A (zh) * | 2021-06-22 | 2021-10-22 | 青岛海信移动通信技术股份有限公司 | 社交通信群组中账号的邀请监测方法、装置及移动终端 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102739558A (zh) * | 2011-04-01 | 2012-10-17 | 北京千橡网景科技发展有限公司 | 用于识别干扰消息的方法及装置 |
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103136303A (zh) * | 2011-11-24 | 2013-06-05 | 北京千橡网景科技发展有限公司 | 在社交网络服务网站中划分用户群组的方法和设备 |
CN103166988A (zh) * | 2011-12-13 | 2013-06-19 | 深圳市腾讯计算机系统有限公司 | 一种sns社区中用户群划分的方法及装置 |
CN104052651A (zh) * | 2014-06-03 | 2014-09-17 | 西安交通大学 | 一种建立社交组的方法和装置 |
CN104408108A (zh) * | 2014-11-18 | 2015-03-11 | 重庆邮电大学 | 基于灰色系统理论的热点话题群体影响力分析系统及方法 |
CN104780191A (zh) * | 2014-01-13 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 群组信息的获取、共享方法和群组信息的获取、共享装置 |
CN105634930A (zh) * | 2016-03-01 | 2016-06-01 | 腾讯科技(深圳)有限公司 | 一种邀请用户加入会话群组的方法和装置 |
CN105681406A (zh) * | 2016-01-04 | 2016-06-15 | 北京众享比特科技有限公司 | 去中心化的即时通讯群组信息存储方法和系统 |
CN106101194A (zh) * | 2016-05-31 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种加入群组的方法及服务器 |
CN106131296A (zh) * | 2016-06-07 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 信息展示方法及装置 |
CN106126521A (zh) * | 2016-06-06 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 目标对象的社交账号挖掘方法及服务器 |
-
2017
- 2017-04-27 CN CN201710288302.7A patent/CN108846767B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102739558A (zh) * | 2011-04-01 | 2012-10-17 | 北京千橡网景科技发展有限公司 | 用于识别干扰消息的方法及装置 |
CN103136303A (zh) * | 2011-11-24 | 2013-06-05 | 北京千橡网景科技发展有限公司 | 在社交网络服务网站中划分用户群组的方法和设备 |
CN103166988A (zh) * | 2011-12-13 | 2013-06-19 | 深圳市腾讯计算机系统有限公司 | 一种sns社区中用户群划分的方法及装置 |
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN104780191A (zh) * | 2014-01-13 | 2015-07-15 | 腾讯科技(深圳)有限公司 | 群组信息的获取、共享方法和群组信息的获取、共享装置 |
CN104052651A (zh) * | 2014-06-03 | 2014-09-17 | 西安交通大学 | 一种建立社交组的方法和装置 |
CN104408108A (zh) * | 2014-11-18 | 2015-03-11 | 重庆邮电大学 | 基于灰色系统理论的热点话题群体影响力分析系统及方法 |
CN105681406A (zh) * | 2016-01-04 | 2016-06-15 | 北京众享比特科技有限公司 | 去中心化的即时通讯群组信息存储方法和系统 |
CN105634930A (zh) * | 2016-03-01 | 2016-06-01 | 腾讯科技(深圳)有限公司 | 一种邀请用户加入会话群组的方法和装置 |
CN106101194A (zh) * | 2016-05-31 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种加入群组的方法及服务器 |
CN106126521A (zh) * | 2016-06-06 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 目标对象的社交账号挖掘方法及服务器 |
CN106131296A (zh) * | 2016-06-07 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 信息展示方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335164A (zh) * | 2019-06-26 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 人际关系信息生成方法和装置 |
CN111182474A (zh) * | 2019-08-08 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种确定社交关系的方法以及相关装置 |
CN111401980A (zh) * | 2020-02-19 | 2020-07-10 | 北京值得买科技股份有限公司 | 一种提升样本排序多样性方法以及装置 |
CN111400616A (zh) * | 2020-03-31 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 账户的推荐方法及装置 |
CN111400616B (zh) * | 2020-03-31 | 2023-05-30 | 北京达佳互联信息技术有限公司 | 账户的推荐方法及装置 |
CN113205129A (zh) * | 2021-04-28 | 2021-08-03 | 五八有限公司 | 一种作弊团伙识别方法、装置、电子设备及存储介质 |
CN113205129B (zh) * | 2021-04-28 | 2023-04-07 | 五八有限公司 | 一种作弊团伙识别方法、装置、电子设备及存储介质 |
CN113542103A (zh) * | 2021-06-22 | 2021-10-22 | 青岛海信移动通信技术股份有限公司 | 社交通信群组中账号的邀请监测方法、装置及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN108846767B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846767A (zh) | 社交群组的特征获取方法及装置 | |
CN104618222B (zh) | 一种匹配表情图像的方法及装置 | |
CN108197224B (zh) | 用户群分类方法、存储介质以及终端 | |
CN105005457B (zh) | 地理位置展示方法及装置 | |
CN106446797B (zh) | 图像聚类方法及装置 | |
CN105207896B (zh) | 网络通话方法和装置 | |
CN104468463B (zh) | 验证方法、装置和系统 | |
CN108304758A (zh) | 人脸特征点跟踪方法及装置 | |
CN104618873B (zh) | 接入点信息分享方法和装置 | |
CN104679969A (zh) | 防止用户流失的方法及装置 | |
CN104951971B (zh) | 信息展示系统、方法及装置 | |
CN110222212A (zh) | 一种显示控制方法及终端设备 | |
CN109739757A (zh) | 一种ab测试方法及装置 | |
CN108702318A (zh) | 一种rcs通信方法及设备 | |
CN106453030B (zh) | 一种获取社交关系链的方法及装置 | |
CN108255382A (zh) | 一种悬浮菜单内容推荐方法及装置 | |
CN104424211B (zh) | 一种基于微博的业务数据的发布方法、装置和系统 | |
CN108159688A (zh) | 游戏界面共享方法、移动终端及计算机可读存储介质 | |
CN108121803A (zh) | 一种确定页面布局的方法和服务器 | |
CN107545404A (zh) | 账单提醒方法及装置 | |
CN104699501B (zh) | 一种运行应用程序的方法及装置 | |
CN109857297A (zh) | 信息处理方法及终端设备 | |
CN104978353B (zh) | 一种桌面应用的生成控制方法、装置及系统 | |
CN108829444A (zh) | 一种自动关闭后台应用的方法、终端和计算机存储介质 | |
CN105550316B (zh) | 音频列表的推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |