CN109348456B - 基于短距无线通信数据的关系挖掘方法 - Google Patents

基于短距无线通信数据的关系挖掘方法 Download PDF

Info

Publication number
CN109348456B
CN109348456B CN201811209363.0A CN201811209363A CN109348456B CN 109348456 B CN109348456 B CN 109348456B CN 201811209363 A CN201811209363 A CN 201811209363A CN 109348456 B CN109348456 B CN 109348456B
Authority
CN
China
Prior art keywords
mapping
index
node
direct
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811209363.0A
Other languages
English (en)
Other versions
CN109348456A (zh
Inventor
蔺智挺
项雅琴
李文娜
孙李兵
吴秀龙
彭春雨
黎轩
陈军宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201811209363.0A priority Critical patent/CN109348456B/zh
Publication of CN109348456A publication Critical patent/CN109348456A/zh
Application granted granted Critical
Publication of CN109348456B publication Critical patent/CN109348456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了一种基于短距无线通信数据的关系挖掘方法,包括:收集短距离无线通信数据和相应的辅助数据;对短距离无线通信数据进行预处理,从而获得关系集;根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效,从而筛选出有效的映射方法;利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘。通过该方法可以找出短距离无线网络中隐含的社会关系,使得短距离无线网络与社交网络关系进行映射,并验证映射方法的合理性。

Description

基于短距无线通信数据的关系挖掘方法
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种基于短距无线通信数据的关系挖掘及验证方法。
背景技术
近年来,随着网络的发展,人与人之间的交流方式也逐渐多样化,不再是局限于传统的面对面交流,甚至不再局限于电话交流的方式。社交媒体软件——一种新兴的交流方式已经受到人们的青睐。人们在使用这些社交媒体软件的过程中,软件会产生大量的数据,通过对这些数据集的收集和研究,我们可以更加清楚地了解社交网络的演变过程。由于有线通信网络技术的优先普及,在线社交网络,如Facebook,Twitter和新浪微博等,已经成为人们在全球范围内获取和分享信息的主要场所,我们发现人们在现实生活中的交友习惯、生活方式等会影响人们在网络中的一些行为习惯,例如现实生活中关系亲密的两个人在网络中的关系可能也很亲密,他们在网络中的交互时间、交互次数(评论、转发等行为都是一次交互)都高于其他人。
随着Internet技术、计算机技术、通信技术和电子技术的飞速发展,更因为人们对信息随时随地获取和交换的迫切需要,无线通信开始在人们的生活中扮演着越来越重要的角色,显示出巨大的发展潜力。而在这其中,作为无线通信技术的一个重要分支——短距离无线通信技术因其在技术、成本、可靠性及可实用性方面的突出优势,正逐渐引起人们越来越广泛的关注,目前常见的短距无线通信包括蓝牙,WiFi,ZigBee等等。由此而产生的短距离无线网络也逐渐成为研究热点。短距离无线网络指,网络中节点通信距离较短,但可以通过节点移动来建立通信的网络,所以用户的位置信息隐含在无线连接中。如果我们能够找到短距离无线网络中的隐含社会关系,它可以被用来进行更加精准的推荐服务、信息搜索等方面。对社交网络和短距无线网络的综合分析研究已经是大势所趋,但是目前在研究领域中这种跨类型网络的综合分析还很匮乏,很多研究都聚焦在单一种类型的网络中,在单一类型网络探索用户关系、用户关系强度等,而对于短距离无线网络于其他网络之间的用户关系是否存在一定的联系并没有人提出具体合理的研究方法。
以如下现有技术为例来进行说明,如图1所示,此技术提出了一种基于新浪微博微博位置注册数据的个人社会关系研究方法。设计了一个挖掘框架,通过使用其轨迹的空间和时间特征来分析用户之间的相似性,这些特征由新浪微博位置注册数据表示,充分考虑并利用具有大量和离散特征的微博位置登记数据,并从空间和时间维度中筛选数据。从微博位置注册数据中提取“用户活动区域”,以便为每个用建立空间矢量,在此基础上,用户之间的社交关系可以通过用户空间矢量的相似性来挖掘。然而,该方法是一种在线网络的关系挖掘方法,由于短距离无线网络本身的高度动态性,短距离特性,其他网络的挖掘方法不能充分挖掘其关系;同时,现在很多用户在注册时填写的位置信息不准确,与实际位置相差很大,从而导致分析结果与实际结果存在一定差异。
发明内容
本发明的目的是提供一种基于短距无线通信数据的关系挖掘方法,可以准确挖掘出短距离无线网络中的隐含社会关系。
本发明的目的是通过以下技术方案实现的:
一种基于短距无线通信数据的关系挖掘方法,包括:
收集短距离无线通信数据和相应的辅助数据;
对短距离无线通信数据进行预处理,从而获得关系集;
根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效,从而筛选出有效的映射方法;
利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘。
由上述本发明提供的技术方案可以看出,通过处理短距离无线网络通信信息,可以找出短距离无线网络中隐含的社会关系,使得短距离无线网络与社交网络关系进行映射,并验证映射方法的合理性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的现有技术提供的关系挖掘流程图;
图2为本发明实施例提供的一种基于短距无线通信数据的关系挖掘方法的流程图
图3为本发明实施例提供的计算共有兴趣率的示意图;
图4为本发明实施例提供的归一化降序处理结果示意图;
图5为本发明实施例提供的映射类型与映射策略示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于短距无线通信数据的关系挖掘方法,如图2所示,其主要包括:
步骤S1、收集短距离无线通信数据和相应的辅助数据。
本发明实施例中,所述短距离无线通信数据中包括:网络中的各节点、存在连接关系的节点对以及节点对连接起始时间和终止时间;
为了提高映射的精确性,还可以收集辅助数据,辅助数据就是其他网络类型的数据,例如从在线社交网络中收集的用户兴趣类型、地理位置等等。
如背景技术所记载的,短距离无线通信可以是蓝牙、WiFi、ZigBee等。
步骤S2、对短距离无线通信数据进行预处理,从而获得关系集。
预处理主要包括如下三个过程:
1)合并重复数据并删除不可验证数据。
短距离无线通信数据中含有大量冗余信息,将重复节点对的相关数据合并,并删除不可验证数据,形成可验证节点数据集;所述不可验证数据是指某一节点仅在短距无线通信网络中出现,并未在社交网络中出现。
2)计算个体特征值。
所计算的个体特征值包括:直接指标、间接指标与辅助指标;其中:
直接指标包括:根据短距离无线通信数据统计出的节点对的连接总次数、连接总时间与平均连接时间。短距离无线通信数据中包含每次节点对的连接起始时间和终止时间,所以就可以先计算出用户每次连接的时间,然后将重复节点对合并,节点对每出现一次就表明连接了一次,因此可以据此统计出用户的连接总次数、连接总时间,平均连接时间。
间接指标包括:两个节点的共有邻居率、共有地理位置率等;所述两个节点在社交网络中存在关系,短距无线通信网络中没有连接关系,两个节点各自计算它们在短距无线通信网络中共同存在连接关系的节点数量占具有连接关系的节点总数的比例,其较大值作为两个节点的共有邻居率。如图3所示,假设两个节点A,B,在短距离无线网络中没有之间的联系(没有直接的无线通信),但是在在线社交网络中存在关系。在短距离无线网络中A与C,D,E,F,G,H,J有过连接,B与C,D,E,F,G,K,L,Z,X有过连接,由此产生间接映射指标共有邻居率,对A而言共有邻居率=5/7≈71.5%;,同理对B而言共有邻居率=5/9≈55.6%,为了方便,本发明实施例定义规定对两个节点AB来说共有邻居率均为71.5%(取两者最大值,但须提出,这种处理方法不唯一)。
两个节点共有地理位置率,也即两个节点共有地理位置占每个节点总地理位置的比例,其较大值作为两个节点的共有地理位置率。
实际上,间接指标种类很多,发明实施例仅以上述两种间接指标为例进行了说明,其他的间接指标可以根据实际情况来选择。
辅助指标包括:每个节点对的共有兴趣率;也即节点对中两个节点共有兴趣占每个节点总兴趣的比例,其较大值作为相应节点对的共有兴趣率。
3)归一化降序处理。
对个体特征进行归一化降序处理。因为需要对数据作图处理,所以要将步骤2)整理出来的数据进行归一化降序处理,从而获得关系集,如图4所示,假设与节点Y相连接的节点共有个,YQ连接次数为800次、YC为100次、YV为60次、YR为0次,则与B相连的节点连接总次数为1000次,归一化后所占比例如图4所示,无论选取哪个指标,在使用前我们都需要对相同源节点数据进行归一化降序处理,在使用前我们都需要进行归一化降序处理,也即后文在介绍映射方法时所提到各种指标集都进行了归一化降序处理。
步骤S3、根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效,从而筛选出有效的映射方法。
由于并非每个映射方法都适用于各个关系集,因此,对于关系集而言,需要对各个映射方法进行验证,以筛选出有效的映射方法,从而准确的实现关系挖掘。
如图5所示,定义四种映射类型:直接映射、间接映射、基于单指标映射与基于多指标映射;定义四种映射策略:基于阈值筛选的映射、基于特征值累加的映射、基于信道对称的映射与基于辅助数据映射;四种映射类型与四种映射策略之间两两组合构成成十六种映射方法。
下面针对各种映射类型、映射策略以及结合后的映射方法进行详细的介绍。
一、映射类型
1)直接映射是指,一部分节点对既在无线短距离网络中存在,也在社交网络中存在,根据不同直接指标将这部分节点对映射回社交网络中。
2)所述间接映射是指,一部分节点对在无线短距离网络中不存在,但在社交网络中存在,则根据这两个节点的间接指标映射回社交网络中。
3)所述基于单指标映射是指,从无线短距离网络提取的各种指标中选取一种指标为基准计算出每个节点对的相应指标,并设定阈值,将指标大于阈值所对应的节点对筛选出来,并映射到社交网络中。
4)所述基于多指标映射是指,从无线短距离网络提取的各种指标中选取至少两种指标T1与T2,并设定相应的阈值M1与M2;将在指标T1下大于阈值M1的节点对筛选出来,记为集合TM1,同时将在指标T2下大于阈值M2的节点对筛选出来,记为集合TM2;之后,从集合TM1与TM2中筛选出相同的节点对,将其映射到社交网络中。
本发明实施例中,所述社交网络为在线社交网络(即Facebook,Twitter和新浪微博等)或传统社交网络(即,传统的面对面交流、电话交流方式等)。
二、映射策略。
1)基于阈值筛选的映射:针对短距无线通信网络中存在连接关系的节点对使用相同的标准来推断这些节点对是否存在于社交网络中,这个方法简单而快速,适用于数据集中节点对的特征值两极分化较大情况下的研究,如图4中对节点Y的相关节点对的筛选适合此方法。
2)基于特征值累加的映射:不同数据集的特征值分布特征不同,当特征值分布较为均匀的时候选择此方法更为合适。使用这种映射方法时,将归一化降序的特征值逐步累加,直到累加值超过阈值,则认为这部分累加值对应的关系存在于社交网络中。还参见图4,假设在无线网络中包含节点X的节点对共有六对,Y有四对,并根据某一指标进行归一化降序。A、当根据基于特征值累加的映射来进行筛选时,假设设定的阈值为0.7,则对节点X来说则会筛选出节点对XA、XC、XD,因为两对节点比例之和为0.95大于0.7,对节点Y来说只会筛选出节点对YQ,因为这一对节点的比例就大于0.7了;B、当根据基于阈值筛选方法筛选时,当阈值0.7,对节点X来说则一个节点对都不符合条件,因为没有一对节点的比例大于0.7,但是对于节点X而言,XA、XC、XD的特征值所占比例在所有与X相连接的节点对中是较大的,即节点X与这三个节点间存在社交关系的可能性最大;对节点Y来说还是只会筛选出节点对YQ,这就是基于阈值筛选的映射和基于特征值累加的映射方法在数据筛选时的不同,根据不同的数据特征值分布选取合适的方法。
3)基于信道对称的映射:由于通信信道的不对称性造成了短距离无线网络数据的不对称性,但是这种不对称并不能表示存在的社会关系的不对称,因此,提出了一种信道对称策略,其中一些关系在短距离无线网络中是相反的。具体而言,对数据选取某个指标进行预处理后得到关系集Y,Y中节点间的关系分为两个级别,比例大于等于r的关系属于大比例层,此部分关系集为Ysub,小于r的关系属于小比例层。将大比例层的数据进行翻转,即源节点和目的节点互换得到新的关系集,删除新关系集中不可验证数据得到关系集Ysub’,再将这个关系集与原关系集合并,从而确定最终的关系集L=Y∪Ysub’,并在映射时使用确定的最终的关系集L;这种方法可以将部分因为通信信道不对称而缺失的数据补全。
4)基于辅助数据映射:该方法并不适用于每个数据集,除非该数据集中包含一种或多种辅助数据,再结合数据中的一些特征值指标来进行映射。我们所用的数据集中的辅助数据可以从在线社交网络中收集到的用户兴趣类型数据,计算出无线数据中每个节点对的两个节点之间共有兴趣率为多少,与计算共有邻居率类似,两个节点的共有兴趣的个数分别除以每个节点的兴趣总数,同样的取出最大值,这就是这两个节点的共有兴趣率。利用节点对的共有兴趣率来进行映射,若短距无线通信网络中某些节点对没有共有兴趣率,则节点对的共有兴趣率默认为0,这种处理方法并不是唯一的,共有兴趣率默认值可根据实际情况进行设定,或者可根据实际情况进行一些其他处理。
三、将映射策略和映射类型两两组合,构成多种映射方法,通过与随机映射比例相比较,来验证相应映射方法对关系集是否有效。
假设设短距无线通信网络中关系集为Y={y1,y2,y3,…,yn};其中的yi表示一个节点对,i=1,2,3,...,n;使用预设的映射方法来计算相应的映射比例包括:利用预设的映射方法确定需要映射的节点对数量Q,再计算Q个节点对在社交网络中也存在连接关系的节点对数量q与Q的比例:p=q/Q。
所述随机映射比例计算方式如下:随机从无线数据中筛选出S个节点对,这S个节点对在社交网络也存在连接关系的节点对数量为s,则随机映射比例为:p0=s/S。
所述预设的映射方法包括:
1)基于阈值筛选的单指标直接映射:选取一种直接指标T,并计算每一节点对的相应指标,得到指标集X={X1,X2,X3,…,Xn},其中Xi所对应的节点对为yi;若指标集X中,存在Q个Xi大于预设阈值M,则相应的Q个节点对映射到社交网络中,并计算映射比例p,若p>U*p0,则说明基于阈值筛选的单指标直接映射方法有效;其中,U为设定的系数,可以根据实际情况来设定。阈值M的设定很重要,当M→0时,直接指标T没有达到筛选的作用,且当M=0时,映射比例等于随机映射比例p0;当M→max(Xi)(1≤i≤n)时,筛选的条件过于苛刻。
2)基于阈值筛选的多指标直接映射:选取至少两种直接指标,并设定相应的阈值,计算每一节点对的两种指标,得到两个指标集R={R1,R2,R3,…,Rn},Z={Z1,Z2,Z3,…,Zn};其中Ri与Zi所对应的节点对为yi;若在不同指标下,存在Ri>M1且Zi>M2,则节点对yi满足要求;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于阈值筛选的多指标直接映射方法有效。
3)基于阈值筛选的单指标间接映射:与基于阈值筛选的单指标直接映射相同,区别仅在于将直接指标换成间接指标。
4)基于阈值筛选的多指标间接映射:与基于阈值筛选的多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。
5)基于特征值累加的单指标直接映射:选取一种直接指标T,并计算每一节点对的相应指标,得到指标集Xf={Xf1,Xf2,Xf3,…,Xfn},设定阈值M’;将某个节点所在的节点对的前k个节点对的指标累加得到Sh,且使得Sh>M’时k最小,则所述前k个节点对满足要求;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于特征值累加的单指标直接映射方法有效。
例如,假设节点H所对应的节点对(H,B1),(H,B2),(H,B3)的指标分别为X1、X2、X3,且X1>X2>X3,当X1+X2>=M’,此时节点对(H,B1),(H,B2)满足要求。
6)基于特征值累加的多指标直接映射,选取至少两种直接指标T1'与T2',并设定相应的阈值M1'与M2',计算每一节点对的两种直接指标,得到两个指标集R={R1',R2',R3',…,Rn'},Z={Z1',Z2',Z3',…,Zn'};对于指标集R,将某个节点H所在的节点对的前k1个节点对的指标累加得到Sh1,且使得Sh1>M1'时k1最小,对于指标集Z,将某个节点H所在的节点对的前k2个节点对的指标累加得到Sh2,且使得Sh2>M2'时k2最小;筛选出所述k1个节点对与所述前k2个节点对中相同的节点对作为满足要求的节点对;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于特征值累加的多指标直接映射方法有效。
7)基于特征值累加的单指标间接映射:与基于特征值累加的单指标直接映射相同,区别仅在于将直接指标换成间接指标。
8)基于特征值累加的多指标间接映射:与基于特征值累加的多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。
9)基于辅助数据单指标直接映射:选取一种直接指标T,计算每一节点对的相应指标,同时,计算每一节点对的辅助指标得到指标集Xt={Xt1,Xt2,Xt3,…,Xtn}和Xr={Xr1,Xr2,Xr3,…,Xrn};若存在Xti>Mt且Xri>Mr,则节点对yi满足要求,其中Mt与Mr均为设定的阈值;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于辅助数据单指标直接映射方法有效。
10)基于辅助数据多指标直接映射:与基于辅助数据单指标直接映射相同,区别在于采用至少两个直接指标;即,选取至少两个直接指标后,要求一个节点对的相应直接指标与辅助指标都大于相与的阈值才认为相应的节点对满足要求。
11)基于辅助数据单指标间接映射:与基于辅助数据单指标直接映射相同,区别仅在于将直接指标换成间接指标。
12)基于辅助数据多指标间接映射:与基于辅助数据多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标;
13)基于信道对称单指标直接映射:与基于阈值筛选的单指标直接映射原理同时,区别在于将关系集改为关系集L。
14)基于信道对称多指标直接映射:与基于阈值筛选的多指标直接映射原理同时,区别在于将关系集改为关系集L。
15)基于信道对称单指标间接映射:与基于信道对称单指标直接映射相同,区别仅在于将直接指标换成间接指标。
16)基于信道对称多指标间接映射:与基于信道对称多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。
步骤S4、利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘。
本发明实施例中,利用所筛选出的有效的映射方法各自进行短距离无线通信节点到社交网络的映射,再综合所有的映射结果,从而得到最终的关系挖掘结果。
举例来说,假设通过上述方式,筛选出五种有效的映射方法,则利用这五种有效的映射方法各自进行短距离无线通信节点到社交网络的映射,每一种有效的映射方法都将获得一个映射结果,再综合所有的映射结果,也即最终的关系挖掘结果。
本发明实施例上述方案中,将多种类型的社交综合在一起研究,而不是仅仅局限于某一种类型的网络,探索短距离无线网络中可能存在的社交关系,并用传统社交网络或在线社交网络数据来验证方法的有效性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于短距无线通信数据的关系挖掘方法,其特征在于,包括:
收集短距离无线通信数据和相应的辅助数据;
对短距离无线通信数据进行预处理,从而获得关系集;
根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效,从而筛选出有效的映射方法;
利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘;
所述短距离无线通信数据中包括:网络中的各节点、存在连接关系的节点对以及节点对连接起始时间和终止时间;所述辅助数据包括:各节点的兴趣类型及地理位置;
所述对短距离无线通信数据进行预处理包括:首先,合并重复数据并删除不可验证数据;然后,计算个体特征值;再对计算的个体特征值进行归一化降序处理,从而获得关系集;所述合并重复数据并删除不可验证数据包括:将重复节点对的相关数据合并,并删除不可验证数据;所述不可验证数据是指某一节点仅在短距无线通信网络中出现,并未在社交网络中出现;
所述根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效包括:
假设设短距无线通信网络中关系集为Y={y1,y2,y3,…,yn};其中的yi表示一个节点对,i=1,2,3,...,n;使用预设的映射方法来计算相应的映射比例包括:利用预设的映射方法确定需要映射的节点对数量Q,再计算Q个节点对在社交网络中也存在连接关系的节点对数量q与Q的比例:p=q/Q;
所述预设的映射方法包括:
基于阈值筛选的单指标直接映射:选取一种直接指标T,并计算每一节点对的相应指标,得到指标集X={X1,X2,X3,…,Xn},其中Xi所对应的节点对为yi;若指标集X中,存在Q个Xi大于预设阈值M,则相应的Q个节点对映射到社交网络中,并计算映射比例p,若p>U*p0,则说明基于阈值筛选的单指标直接映射方法有效;其中,p0表示随机映射比例,U为设定的系数;
基于阈值筛选的多指标直接映射:选取至少两种直接指标,并设定相应的阈值,计算每一节点对的两种指标,得到两个指标集R={R1,R2,R3,…,Rn},Z={Z1,Z2,Z3,…,Zn};其中Ri与Zi所对应的节点对为yi;若在不同指标下,存在Ri>M1且Zi>M2,则节点对yi满足要求;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于阈值筛选的多指标直接映射方法有效;
基于阈值筛选的单指标间接映射:与基于阈值筛选的单指标直接映射相同,区别仅在于将直接指标换成间接指标;
基于阈值筛选的多指标间接映射:与基于阈值筛选的多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标;
基于特征值累加的单指标直接映射:选取一种直接指标T,并计算每一节点对的相应指标,得到指标集Xf={Xf1,Xf2,Xf3,…,Xfn},设定阈值M’;将某个节点所在的节点对的前k个节点对的指标累加得到Sh,且使得Sh>M’时k最小,则所述前k个节点对满足要求;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于特征值累加的单指标直接映射方法有效;
基于特征值累加的多指标直接映射:选取至少两种直接指标T1'与T2',并设定相应的阈值M1'与M2',计算每一节点对的两种直接指标,得到两个指标集R={R1',R2',R3',…,Rn'},Z={Z1',Z2',Z3',…,Zn'};对于指标集R,将某个节点H所在的节点对的前k1个节点对的指标累加得到Sh1,且使得Sh1>M1'时k1最小,对于指标集Z,将某个节点H所在的节点对的前k2个节点对的指标累加得到Sh2,且使得Sh2>M2'时k2最小;筛选出所述k1个节点对与所述前k2个节点对中相同的节点对作为满足要求的节点对;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于特征值累加的多指标直接映射方法有效;
基于特征值累加的单指标间接映射:与基于特征值累加的单指标直接映射相同,区别仅在于将直接指标换成间接指标;
基于特征值累加的多指标间接映射:与基于特征值累加的多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标;
基于辅助数据单指标直接映射:选取一种直接指标T,计算每一节点对的相应指标,同时,计算每一节点对的辅助指标得到指标集Xt={Xt1,Xt2,Xt3,…,Xtn}和Xr={Xr1,Xr2,Xr3,…,Xrn};若存在Xti>Mt且Xri>Mr,则节点对yi满足要求,其中Mt与Mr均为设定的阈值;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>U*p0,则说明基于辅助数据单指标直接映射方法有效;
基于辅助数据多指标直接映射:与基于辅助数据单指标直接映射相同,区别在于采用至少两个直接指标;
基于辅助数据单指标间接映射:与基于辅助数据单指标直接映射相同,区别仅在于将直接指标换成间接指标;
基于辅助数据多指标间接映射:与基于辅助数据多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标;
基于信道对称单指标直接映射:与基于阈值筛选的单指标直接映射原理同时,区别在于将关系集改为关系集L;
基于信道对称多指标直接映射:与基于阈值筛选的多指标直接映射原理同时,区别在于将关系集改为关系集L;
基于信道对称单指标间接映射:与基于信道对称单指标直接映射相同,区别仅在于将直接指标换成间接指标;
基于信道对称多指标间接映射:与基于信道对称多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。
2.根据权利要求1所述的一种基于短距无线通信数据的关系挖掘方法,其特征在于,所计算的个体特征值包括:直接指标、间接指标与辅助指标;其中:
直接指标包括:根据短距离无线通信数据统计出的节点对的连接总次数、连接总时间与平均连接时间;
间接指标包括:两个节点的共有邻居率与共有地理位置率;其中,所述两个节点在社交网络中存在关系,短距无线通信网络中没有连接关系,两个节点各自计算它们在短距无线通信网络中共同存在连接关系的节点数量占具有连接关系的节点总数的比例,其较大值作为两个节点的共有邻居率;两个节点共有地理位置率,也即两个节点共有地理位置占每个节点总地理位置的比例,其较大值作为两个节点的共有地理位置率;
辅助指标包括:每个节点对的共有兴趣率;也即节点对中两个节点共有兴趣占每个节点总兴趣的比例,其较大值作为相应节点对的共有兴趣率。
3.根据权利要求2所述的一种基于短距无线通信数据的关系挖掘方法,其特征在于,该方法还包括:定义四种映射类型:直接映射、间接映射、基于单指标映射与基于多指标映射;定义四种映射策略:基于阈值筛选的映射、基于特征值累加的映射、基于信道对称的映射与基于辅助数据映射;
四种映射类型与四种映射策略之间两两组合构成成十六种映射方法。
4.根据权利要求3所述的一种基于短距无线通信数据的关系挖掘方法,其特征在于,
所述直接映射是指,一部分节点对既在无线短距离网络中存在,也在社交网络中存在,根据不同直接指标将这部分节点对映射回社交网络中;
所述间接映射是指,一部分节点对在无线短距离网络中不存在,但在社交网络中存在,则根据这两个节点的间接指标映射回社交网络中;
所述基于单指标映射是指,从无线短距离网络提取的各种指标中选取一种指标为基准计算出每个节点对的相应指标,并设定阈值,将指标大于阈值所对应的节点对筛选出来,并映射到社交网络中;
所述基于多指标映射是指,从无线短距离网络提取的各种指标中选取至少两种指标T1与T2,并设定相应的阈值M1与M2;将在指标T1下大于阈值M1的节点对筛选出来,记为集合TM1,同时将在指标T2下大于阈值M2的节点对筛选出来,记为集合TM2;之后,从集合TM1与TM2中筛选出相同的节点对,将其映射到社交网络中。
5.根据权利要求4所述的一种基于短距无线通信数据的关系挖掘方法,其特征在于,
基于阈值筛选的映射:针对短距无线通信网络中存在连接关系的节点对使用相同的标准来推断这些节点对是否存在于社交网络中;
基于特征值累加的映射:将归一化降序的特征值逐步累加,直到累加值超过阈值,则认为这部分累加值对应的关系存在于社交网络中;
基于信道对称的映射:对于关系集Y,将其节点间的关系分为两个级别,比例大于等于r的关系属于大比例层,小于r的关系属于小比例层;将大比例层的数据进行翻转,即源节点和目的节点互换得到新的关系集,删除新关系集中不可验证数据得到关系集Ysub’,再将这个关系集Ysub’与关系集Y合并,从而确定最终的关系集L=Y∪Ysub’并在映射时使用确定的最终的关系集L;
基于辅助数据映射:利用节点对的共有兴趣率来进行映射,若短距无线通信网络中某些节点对没有共有兴趣率,则节点对的共有兴趣率默认为0。
6.根据权利要求1所述的一种基于短距无线通信数据的关系挖掘方法,其特征在于,所述随机映射比例计算方式如下:
随机从无线数据中筛选出S个节点对,这S个节点对在社交网络也存在连接关系的节点对数量为s,则随机映射比例为:p0=s/S。
7.根据权利要求1所述的一种基于短距无线通信数据的关系挖掘方法,其特征在于,所述利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘包括:
利用所筛选出的有效的映射方法各自进行短距离无线通信节点到社交网络的映射,然后,再综合所有的映射结果,从而得到最终的关系挖掘结果。
CN201811209363.0A 2018-10-17 2018-10-17 基于短距无线通信数据的关系挖掘方法 Active CN109348456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811209363.0A CN109348456B (zh) 2018-10-17 2018-10-17 基于短距无线通信数据的关系挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811209363.0A CN109348456B (zh) 2018-10-17 2018-10-17 基于短距无线通信数据的关系挖掘方法

Publications (2)

Publication Number Publication Date
CN109348456A CN109348456A (zh) 2019-02-15
CN109348456B true CN109348456B (zh) 2021-07-27

Family

ID=65308943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811209363.0A Active CN109348456B (zh) 2018-10-17 2018-10-17 基于短距无线通信数据的关系挖掘方法

Country Status (1)

Country Link
CN (1) CN109348456B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN107066393A (zh) * 2017-01-12 2017-08-18 安徽大学 提高地址映射表中映射信息密度的方法
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN108038700A (zh) * 2017-12-22 2018-05-15 上海前隆信息科技有限公司 一种反欺诈数据分析方法与系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102369690B (zh) * 2009-02-02 2015-10-21 第三雷沃通讯有限责任公司 网络流量的分析
US20170308606A1 (en) * 2016-04-22 2017-10-26 Quest Software Inc. Systems and methods for using a structured query dialect to access document databases and merging with other sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844482A (zh) * 2016-09-17 2018-03-27 复旦大学 基于全局本体的多数据源模式匹配方法
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN107066393A (zh) * 2017-01-12 2017-08-18 安徽大学 提高地址映射表中映射信息密度的方法
CN108038700A (zh) * 2017-12-22 2018-05-15 上海前隆信息科技有限公司 一种反欺诈数据分析方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据集中相关关系的评估与发掘;李明;《硕士学位论文全文数据库》;20150415;全文 *

Also Published As

Publication number Publication date
CN109348456A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
Li et al. On social event organization
Duan et al. Motivating smartphone collaboration in data acquisition and distributed computing
Xu et al. Integrated collaborative filtering recommendation in social cyber-physical systems
Xu et al. How friends share urban space: An exploratory spatiotemporal analysis using mobile phone data
Wang et al. Infedge: A blockchain-based incentive mechanism in hierarchical federated learning for end-edge-cloud communications
CN105849763A (zh) 使用加权分析动态确定社交数据网络中影响者的系统和方法
CN106709037B (zh) 一种基于异构信息网络的电影推荐方法
CN104077723A (zh) 一种社交网络推荐系统及方法
Farber et al. Social interaction potential and the spatial distribution of face-to-face social interactions
Guo et al. GroupMe: Supporting group formation with mobile sensing and social graph mining
Krugell et al. Local municipalities and progress with the delivery of basic services in South Africa
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
Creamer et al. Segmentation and automated social hierarchy detection through email network analysis
CN106779608B (zh) 一种基于微信平台的信息处理方法及信息处理系统
CN112231750B (zh) 多模态隐私保护方法
CN110851485B (zh) 社交关系的挖掘方法及装置、计算机设备与可读介质
Ju et al. Relationship strength estimation based on Wechat Friends Circle
CN114398669A (zh) 基于隐私保护计算和跨组织的联合信用评分方法及装置
Liao et al. GRBMC: An effective crowdsourcing recommendation for workers groups
Chao Construction model of E-commerce agricultural product online marketing system based on blockchain and improved genetic algorithm
CN106961441B (zh) 一种用于Hadoop云平台的用户动态访问控制方法
Huang et al. Does “Internet Plus” promote new export space for firms? Evidence from China
Bok et al. User reputation computation method based on implicit ratings on social media
Pan et al. Analysis of fusing online and co-presence social networks
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant