CN111382278A - 一种基于时空轨迹的社交网络构建方法及构建系统 - Google Patents
一种基于时空轨迹的社交网络构建方法及构建系统 Download PDFInfo
- Publication number
- CN111382278A CN111382278A CN202010143011.0A CN202010143011A CN111382278A CN 111382278 A CN111382278 A CN 111382278A CN 202010143011 A CN202010143011 A CN 202010143011A CN 111382278 A CN111382278 A CN 111382278A
- Authority
- CN
- China
- Prior art keywords
- detected
- data
- different targets
- social
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 38
- 206010000117 Abnormal behaviour Diseases 0.000 claims abstract description 37
- 238000003012 network analysis Methods 0.000 claims abstract description 15
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 230000002159 abnormal effect Effects 0.000 claims description 31
- 238000002372 labelling Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 claims description 10
- 102100026983 Protein FAM107B Human genes 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 230000006855 networking Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012252 genetic analysis Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明属于网络信息分析技术领域,公开了一种基于时空轨迹的社交网络构建方法及构建系统,通过定位系统检测不同待测目标在某些时段是否在一起出现,如果一起出现,则为不同待测目标有一次同现;对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度,不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现。与虚拟的互联网社交网络不同,本发明基于时空轨迹数据构造现实生活的社交网络,辅助了异常行为的分析。
Description
技术领域
本发明属于网络信息分析技术领域,尤其涉及一种基于时空轨迹的社交网络构建方法及构建系统。
背景技术
目前,社交网站的社交网络系统能够使其用户(诸如,个人或组织)与其交互并且通过其彼此交互。随着用户输入,社交网络系统可以在社交网络系统中创建和储存与用户相关的用户配置文件。用户配置文件可包括用户的人口统计信息、通信信道信息以及个人兴趣信息。随着用户输入,社交网络系统还可以创建和储存该用户与社交网络系统的其他用户之间的关系记录,并且为促进两个用户或多个用户之间的社交提供服务(例如,墙发布(wall post)、照片共享、活动组织、发消息、游戏或广告)。社交网络系统可以通过一个或多个网络将与其服务相关的内容或消息传输至用户的手机或其他计算设备。用户还可以在用户的手机或其他计算设备上安装软件应用程序,用于访问用户的用户配置文件以及社交网络系统内的其他数据。
移动计算设备—诸如,智能电话、平板电脑或便携式计算机—可包括用于确定其位置、方向或方位的功能,诸如,GPS接收器、罗盘或陀螺仪。该设备还可包括用于无线通信的功能,诸如,蓝牙通信、近场通信(NFC)或红外线(IR)通信或者利用无线局域网(WLAN)或蜂窝电话网络的通信。该设备还可包括一个或多个照相机、扫描器、触摸屏、麦克风或扬声器。移动计算设备还可以执行软件应用程序,诸如,游戏、网络浏览器或社交网络应用程序。利用社交网络应用程序,用户可以与他们的社交网络中的其他用户连接、通信并且共享信息。
检测两人是否同现时会使用wifi定位系统进行检测,wifi定位系统运用的算法是基于RSSI信号强度的三角定位算法。相较于位置指纹算法基于RSSI信号强度的三角定位算法精度更高,但其也有明显的缺陷。其主要缺陷有:1.根据点对点之间的RSSI转换成距离时会有略微的误差;2.测量的RSSI值的波动性较大。
缺陷1难于解决的原因在于,本系统采用的测距模型为RSSI=-(10nlgd+A),其中频射参数A被定义为用dBm距离发射节点1m处的接收信号强度,n为信号传输常数,d为距离发射节点的距离,由于A、n的值易受环境影响,所以计算出来的d也会产生相应的误差。缺陷2难于解决的原因在于,频射信号在传播过程中由于反射、折射、衍射会产生多径传播现象,从而造成信号幅度的衰落以及相位或延时的变化,所以RSSI值的波动性较大。
综上所述,现有技术存在的问题是:(1)社交类网站的出现使得社交网络、社会计算成为了可能。现有技术的虚拟的互联网社交网络,没有基于时空轨迹数据构造现实生活的社交网络,造成不能辅助进行异常行为信息的分析。
(2)本系统基于时空轨迹大数据可对个体异常和群体异常进行分析,从而可对异常行为进行自动检测与预警。
(3)本系统还可以对异常个体社交网络和用户画像分析,从而可以探索其深层次的行为和性格倾向。
解决上述技术问题的难度:时空轨迹数据由于受RSSI信号强度的影响,它有数据噪声大、数据质量差、时间序列性等特征。这些特征导致原始的时空轨迹数据需要通过数据清洗、轨迹压缩、轨迹分段等预处理方式完成轨迹数据的去噪、去冗和校准。获取到时空轨迹数据后,本发明可以对其进行分类,从而可以识别出可以人物、异常轨迹等等,但轨迹分类时,如在一些场合下,一条轨迹中存在多段不同类型的轨迹,对其进行预处理可能存在一定难度。
解决上述技术问题的意义:在硬件系统方面,本发明设计了基于WiFi探针和监控摄像头结合的定位系统,其综合了WiFi探针和监控摄像头的优势,具有更强大的安全防护能力。
在系统应用方面,本发明针对校园特有的语义场所和学生特有的异常行为特征,提出了基于校园语义场所的异常行为检测模型,及学生社交网络构建和用户画像分析等,实现了校园异常行为的自动检测与预警,保障了校园安全。
在经济效益方面,该硬件和软件系统可以在其他局部区域(如社区、厂区等)进行推广和应用,在提供无线上网功能的同时,强化区域安全,具有广泛的应用前景和客观的经济效益。
在智慧校园研究方面,该项目探索了智慧校园的研究和应用前景。智慧校园将以校园智能化为目标,通过获取、整合和分析校园里多种异构大数据来解决校园生活中所面临的挑战和问题,优化校园生活,提升校园品质。
发明内容
针对现有技术存在的问题,本发明提供了一种基于时空轨迹的社交网络构建方法及构建系统。
本发明是这样实现的,一种基于时空轨迹的社交网络构建方法,所述基于时空轨迹的社交网络构建方法包括:
步骤一,通过定位系统检测不同待测目标在某些时段是否一起出现,如果一起出现,则为不同待测目标有一次同现;
步骤二,对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度;
步骤三,不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现。
进一步,所述步骤二中,点互信息方法包括:如下公式,其中,p(x,y)表示待测目标x和y在某场所一起出现的概率,p(x)表示待测目标x单独出现的概率;
PMI值代表两人关系的紧密程度,PMI越大则表示其联系越紧密,场所的语义信息则代表联系的类型;
进一步,步骤一中,确定学生的社交网络后,会对异常的个体或者群体进行异常分析。异常行为检测将以EGADS平台(Extendible Generic Anomaly Detection System,Nikolay Laptev et al.KDD2015)为基础,该平台是Yahoo公司创建的一个开源大规模时间序列异常检测项目,具有较强的可扩展性和通用性,其框架主要由两个模块构成,一个是时间序列构造模块,另一个是异常检测模块,两个模块均可由用户自定义其相应的算法或模型。
在异常行为检测功能方面,本发明将主要开展基于序列标注的个体异常行为检测和基于One-Class的群体异常行为检测两类智能化检测模块。除此之外,系统还将实现基于自定义规则的异常行为检测功能,相关功能模块将在系统运行过程中迭代更新以提高智能化检测的性能。
①基于序列标注的个体异常行为检测包括:
在个体行为的数据预处理方面,本发明将以部分典型的正常学生和需要重点关注的学生作为参考对象,跟踪记录其时空轨迹数据,然后再开展兴趣点检测,将定位数据转换成对应的兴趣点及停留时间,从而将时空轨迹数据转换成基于兴趣点的序列数据,这样校园环境兴趣点的语义信息将融入到序列数据中,然后作为序列标注模型的输入来辅助异常行为检测,其数据示意图如图2所示,其中,序列4属于典型的异常行为。
在个体异常行为分析方面,本发明拟采用BiLSTM-CRF的序列标注算法,如图3所示。该算法综合了双向LSTM和CRF序列标注的优点,是目前主流的序列数据标注算法。由于在数据输入部分融合了双向LSTM,因此,该算法继承了深度学习的自动特征抽取优点,不需要人工构造特征集。目前的实验结果表明BiLSTM-CRF已经达到或者超过了基于丰富特征的CRF模型。
②基于One-Class的群体异常行为检测
群体异常行为检测主要以校园区域的兴趣点为单位,按一定的时间单位统计特定兴趣点的人流密度,从而形成该兴趣点的时间序列数据。
相对于传统的异常检测算法,深度异常检测凭借其自动特征学习能力逐渐成为了目前研究和应用的热点。由于群体异常样本数据难以获取,本系统拟采用基于单类(One-Class)的异常检测方法,该方法主要特点是训练数据只需要标注一个正常类别即可,比较适合于异常行为数据非常难以获取的应用环境,其异常检测原理如图4所示。
本发明采用基于One-Class的Deep SVDD(Deep Support Vector DataDescription)模型进行个体序列异常检测。该方法的主要优点在于模型训练不需要异常样本数据,适用于大规模、高纬度数据集的异常检测。
该模型的主要原理是首先构造一个深度神经网络模型φ,该模型将大多数数据网络表示映射到以最小体积的球心c和半径R为特征的超球面,正常的映射属于内部,而异常的映射属于超球面外部;然后最小化包含网络中数据特征的超球体积,提取数据分布变化的共同因素,以获取神经网络的参数W,即最终的训练模型参数W应该使得包含数据的超球半径R最小;最后针对个体的时间序列数据x,模型采用如下公式计算其异常分数值。
s(x)=||φ(x;W*)-c||2-R*
其中R*表示训练模型中超球的半径,W*表示训练模型的参数,φ表示神经网络模型。当数据x落在超球之内,则表示该数据是正常的,即s为负数,而当s为正数时,则表示数据x在超球之外,属于异常数据。模型的设计原理如图5所示。
其中,X表示原始的序列数据空间(输入数据),F表示经过深度神经网络映射后的特征空间,实心点表示正常数据,空心点表示异常数据,c表示特征空间里超球的球心,R表示超球的半径。
进一步,所述步骤二中,点互信息方法包括:如下公式,其中,p(x,y)表示待测目标x和y在某场所一起出现的概率,p(x)表示待测目标x单独出现的概率;
PMI值代表两人关系的紧密程度,PMI越大则表示其联系越紧密,场所的语义信息则代表联系的类型;
进一步,所述步骤三中,对不同待测目标间不同类型的社交网络进行进一步的网络分析中,LPA算法,该算法简单高效,但也存在明显问题。由于标签传播算法在社区发现中存在不稳定性,针对这一问题,本发明提出一种基于自适应H-index的标签传播算法(AHLPA)。该算法基于改进的H-index来衡量网络中节点的影响力,并依据节点影响力和拓展的多层邻居节点给出节点重要性的定义,对节点进行更加细粒度的刻画。算法利用节点重要性对节点更新序列进行排序,并重新优化节点选择标签的策略,进一步减少随机性。
传统的PageRank、HITS易发生主题漂移、计算效率低等问题。针对这些问题提出了一种基于PageRank和HITS算法的改进算法PHIA。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub值和Authority值的初始迭代值,以避免“主题漂移”现象的发生;其次,改进算法放弃了HITS算法中的Hub值和Authority值相互迭代方式,而是通过求马尔可夫矩阵及其特征向量的方式来获取网页排名的静态分布,以避免其相互迭代所产生的增强值误差。
本发明另一目的提供一种基于时空轨迹的社交网络构建系统包括:
定位系统,用于检测不同待测目标在某些时段是否在一起出现,如果一起出现,则为不同待测目标有一次同现;
不同待测目标关联程度获取模块,与定位系统连接,用于对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度;
不同类型社交网络分析模块,用于不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现。
本发明另一目的提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于时空轨迹的社交网络构建方法。
本发明另一目的提供一种一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述基于时空轨迹的社交网络构建方法。
本发明另一目的提供一种实施所述基于时空轨迹的社交网络构建方法的移动计算设备。
综上所述,本发明的优点及积极效果为:与虚拟的互联网社交网络不同,本发明基于时空轨迹数据构造现实生活的社交网络,辅助了异常行为的分析。
为了测试定位系统的精度,本发明在无遮挡环境下进行了定位精度测试实验。取该环境左上角为坐标原点建立直角坐标系,在该环境放置了三个探针分别为AP1、AP2、AP3,其坐标分别为(3.92,2.55)、(1.10,9.39)和(7.68,7.35)。测量结果如下表
对上表数据可做T检验,检验如下:
首先建立两个假设分别为:原假设H0:u>=3和备选假设H1:u<3。
当u=3时,由上表可知标准差为0.824、自由度为9,从而算出t=-3.2927115.通过查询t分位数表可知,当自由度为9时,t统计量小于-3.25的概率为0.5%,所以p<0.5%。
通过以上检验本发明可以知道,假设H0不成立,从而可知本系统的平均误差应在3米以下。
由T检验可知,本系统的平均误差小于3米,并且由标准差为0.824,方差0.75444可知,本系统测量误差波动范围较小。而传统的GPS定位由于受信号影响,其误差会比较大,其平均精度只有10米左右。由此可见,本系统的定位精度是要远远优于GPS定位的。
为了验证社交关系的准确率,本发明开展了相关的定位测试实验,共有一百人参与本次实验。本发明在参与实验的人员平常可能出现的地方,如教学楼、食堂和操场等地部署探针,用来探测其相关的信息并对其进行定位。为了评估不同待测目标之间的关联程度,本次实验采用点互信息(PMI)来评估两人之间的关联程度,如下公式所示,其中,p(x,y)表示人员x和y在某场所一起出现的概率,p(x)表示人员x单独出现的概率。
为了划分学生的社交圈子,本发明采用社区发现算法分析出学生的社交圈子,并生成了社交关系图。
实验过后生成的社交关系图如图6实验社交关系图所示。
实际关系图如图7实际社交关系图所示。
由如上的社交关系图可知,本次实验的准确率在85%以上,基于时空轨迹的社交网络构建方法可以对学生的社交网络进行精准的分类。
附图说明
图1是本发明实施例提供的基于时空轨迹的社交网络构建方法流程图。
图2是本发明实施例提供的个体行为的兴趣点序列数据示意图。
图3是本发明实施例提供的基于序列的异常行为检测算法示意图。
图4是本发明实施例提供的群体行为的时间序列数据示意图。
图5是本发明实施例提供的Deep SVDD模型原理示意图。
图6是本发明实施例提供的实验社交关系图。
图7是本发明实施例提供的实际社交关系图。
图8是本发明实施例提供的现实社交网络示意图。
图9是本发明实施例提供的基于时空轨迹的社交网络构建系统流程图。
图中:1、定位系统;2、不同待测目标关联程度获取模块;3、不同类型社交网络分析模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
社交类网站的出现使得社交网络、社会计算成为了可能。现有技术的虚拟的互联网社交网络,没有基于时空轨迹数据构造现实生活的社交网络,造成不能辅助进行异常行为信息的分析。
针对现有技术存在的问题,本发明提供了一种基于时空轨迹的社交网络构建方法及构建系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于时空轨迹的社交网络构建方法,包括:
S101,通过定位系统检测不同待测目标在某些时段是否在一起出现,如果一起出现,则为不同待测目标有一次同现。
S102,对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度,如下公式所示,其中,p(x,y)表示人员x和y在某场所一起出现的概率,p(x)表示人员x单独出现的概率。
PMI值代表两人关系的紧密程度,PMI越大则表示其联系越紧密,场所的语义信息则代表联系的类型。
S103,不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子(社区)、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现
步骤S101中,确定学生的社交网络后,会对异常的个体或者群体进行异常分析。异常行为检测将以EGADS平台(Extendible Generic Anomaly Detection System,NikolayLaptev et al.KDD2015)为基础,该平台是Yahoo公司创建的一个开源大规模时间序列异常检测项目,具有较强的可扩展性和通用性,其框架主要由两个模块构成,一个是时间序列构造模块,另一个是异常检测模块,两个模块均可由用户自定义其相应的算法或模型。
在异常行为检测功能方面,本发明将主要开展基于序列标注的个体异常行为检测和基于One-Class的群体异常行为检测两类智能化检测模块。除此之外,系统还将实现基于自定义规则的异常行为检测功能,相关功能模块将在系统运行过程中迭代更新以提高智能化检测的性能。
①基于序列标注的个体异常行为检测包括:
在个体行为的数据预处理方面,本发明将以部分典型的正常学生和需要重点关注的学生作为参考对象,跟踪记录其时空轨迹数据,然后再开展兴趣点检测,将定位数据转换成对应的兴趣点及停留时间,从而将时空轨迹数据转换成基于兴趣点的序列数据,这样校园环境兴趣点的语义信息将融入到序列数据中,然后作为序列标注模型的输入来辅助异常行为检测,其数据示意图如图2所示,其中,序列4属于典型的异常行为。
在个体异常行为分析方面,本发明拟采用BiLSTM-CRF的序列标注算法,如图3所示。该算法综合了双向LSTM和CRF序列标注的优点,是目前主流的序列数据标注算法。由于在数据输入部分融合了双向LSTM,因此,该算法继承了深度学习的自动特征抽取优点,不需要人工构造特征集。目前的实验结果表明BiLSTM-CRF已经达到或者超过了基于丰富特征的CRF模型。
②基于One-Class的群体异常行为检测
群体异常行为检测主要以校园区域的兴趣点为单位,按一定的时间单位统计特定兴趣点的人流密度,从而形成该兴趣点的时间序列数据。
相对于传统的异常检测算法,深度异常检测凭借其自动特征学习能力逐渐成为了目前研究和应用的热点。由于群体异常样本数据难以获取,本系统拟采用基于单类(One-Class)的异常检测方法,该方法主要特点是训练数据只需要标注一个正常类别即可,比较适合于异常行为数据非常难以获取的应用环境,其异常检测原理如图4所示。
本发明采用基于One-Class的Deep SVDD(Deep Support Vector DataDescription)模型进行个体序列异常检测。该方法的主要优点在于模型训练不需要异常样本数据,适用于大规模、高纬度数据集的异常检测。
该模型的主要原理是首先构造一个深度神经网络模型φ,该模型将大多数数据网络表示映射到以最小体积的球心c和半径R为特征的超球面,正常的映射属于内部,而异常的映射属于超球面外部;然后最小化包含网络中数据特征的超球体积,提取数据分布变化的共同因素,以获取神经网络的参数W,即最终的训练模型参数W应该使得包含数据的超球半径R最小;最后针对个体的时间序列数据x,模型采用如下公式计算其异常分数值。
s(x)=||φ(x;W*)-c||2-R*
其中R*表示训练模型中超球的半径,W*表示训练模型的参数,φ表示神经网络模型。当数据x落在超球之内,则表示该数据是正常的,即s为负数,而当s为正数时,则表示数据x在超球之外,属于异常数据。模型的设计原理如图5所示。其中,X表示原始的序列数据空间(输入数据),F表示经过深度神经网络映射后的特征空间,实心点表示正常数据,空心点表示异常数据,c表示特征空间里超球的球心,R表示超球的半径。
步骤S103,对不同待测目标间不同类型的社交网络进行进一步的网络分析中,LPA算法,该算法简单高效,但也存在明显问题。由于标签传播算法在社区发现中存在不稳定性,针对这一问题,本发明提出一种基于自适应H-index的标签传播算法(AHLPA)。该算法基于改进的H-index来衡量网络中节点的影响力,并依据节点影响力和拓展的多层邻居节点给出节点重要性的定义,对节点进行更加细粒度的刻画。算法利用节点重要性对节点更新序列进行排序,并重新优化节点选择标签的策略,进一步减少随机性。
传统的PageRank、HITS易发生主题漂移、计算效率低等问题。针对这些问题提出了一种基于PageRank和HITS算法的改进算法PHIA。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub值和Authority值的初始迭代值,以避免“主题漂移”现象的发生;其次,改进算法放弃了HITS算法中的Hub值和Authority值相互迭代方式,而是通过求马尔可夫矩阵及其特征向量的方式来获取网页排名的静态分布,以避免其相互迭代所产生的增强值误差。
图8是本发明实施例提供的现实社交网络示意图。
如图9,本发明提供一种基于时空轨迹的社交网络构建系统包括:
定位系统1,用于检测不同待测目标在某些时段是否在一起出现,如果一起出现,则为不同待测目标有一次同现。
不同待测目标关联程度获取模块2,与定位系统连接,用于对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度。
不同类型社交网络分析模块3,用于不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现。
下面结合具体实施例对本发明作进一步描述。
实施例
本发明基于时空轨迹大数据的社交网络构建方法包括:
步骤一,通过定位系统检测两个人在某些时段是否在一起出现,如果在一起出现,则认为两人是有一次同现。
步骤二,采用点互信息(PMI)来评估两人之间的关联程度,如下公式所示,其中,p(x,y)表示人员x和y在某场所一起出现的概率,p(x)表示人员x单独出现的概率。
PMI值代表了两人关系的紧密程度,PMI越大则表示其联系越紧密,场所的语义信息则代表了联系的类型,例如学习方面的朋友可能经常一起在教室、图书馆等兴趣点同时出现,运动方面的朋友可能经常一起在体育馆、运动场等兴趣点同时出现。因此,系统可以计算出两人之间不同类型(如学习、娱乐、运动等)的社交网络,如图2所示。
步骤三,将对人员间不同类型的社交网络进行进一步的网络分析,以挖掘其内在特点,包括社区发现、PageRank、HITS等算法,这些算法能够帮助进一步挖掘出社交圈子(社区)、关键人员、孤僻人员等,并以可视化的方式展现。
下面结合具体实验对本发明作进一步描述。
为了测试定位系统的精度,本发明在无遮挡环境下进行了定位精度测试实验。取该环境左上角为坐标原点建立直角坐标系,在该环境放置了三个探针分别为AP1、AP2、AP3,其坐标分别为(3.92,2.55)、(1.10,9.39)和(7.68,7.35)。测量结果如下表
对上表数据可做T检验,检验如下:
首先建立两个假设分别为:原假设H0:u>=3和备选假设H1:u<3。
当u=3时,由上表可知标准差为0.824、自由度为9,从而算出t=-3.2927115.通过查询t分位数表可知,当自由度为9时,t统计量小于-3.25的概率为0.5%,所以p<0.5%。
通过以上检验可以知道,假设H0不成立,从而可知本系统的平均误差应在3米以下。
由T检验可知,本系统的平均误差小于3米,并且由标准差为0.824,方差0.75444可知,本系统测量误差波动范围较小。而传统的GPS定位由于受信号影响,其误差会比较大,其平均精度只有10米左右。由此可见,本系统的定位精度是要远远优于GPS定位的。
为了验证社交关系的准确率,本发明开展了相关的定位测试实验,共有一百余人参与本次实验。本发明在参与实验的人员平常可能出现的地方,如教学楼、食堂和操场等地部署探针,用来探测其相关的信息并对其进行定位。为了评估不同待测目标之间的关联程度,本次实验采用点互信息(PMI)来评估两人之间的关联程度,如下公式所示,其中,p(x,y)表示人员x和y在某场所一起出现的概率,p(x)表示人员x单独出现的概率。
为了划分学生的社交圈子,本发明采用社区发现算法分析出学生的社交圈子,并生成了社交关系图。
实验过后生成的社交关系图如图6实验社交关系图所示。
实际关系图如图7实际社交关系图所示。
由如上的社交关系图可知,本次实验的准确率在85%以上,基于时空轨迹的社交网络构建方法可以对学生的社交网络进行精准的分类。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于时空轨迹的社交网络构建方法,其特征在于,所述基于时空轨迹的社交网络构建方法包括:
步骤一,通过定位系统检测不同待测目标在某些时段是否一起出现,如果一起出现,则为不同待测目标有一次同现;
步骤二,对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度;
步骤三,不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现。
2.如权利要求1所述的基于时空轨迹的社交网络构建方法,其特征在于,所述步骤一中,通过定位系统检测不同待测目标在某些时段是否一起出现的方法包括基于序列标注的个体异常行为检测,以正常目标和需要重点关注的待测目标作为参考对象,跟踪记录待测目标时空轨迹数据;再开展兴趣点检测,将定位数据转换成对应的兴趣点及停留时间,将时空轨迹数据转换成基于兴趣点的序列数据,环境兴趣点的语义信息将融入到序列数据中,然后再作为序列标注模型的输入辅助异常行为检测。
3.如权利要求2所述的基于时空轨迹的社交网络构建方法,其特征在于,所述基于序列标注的方法采用BiLSTM-CRF的序列标注算法,在数据输入部分融合双向LSTM。
4.如权利要求1所述的基于时空轨迹的社交网络构建方法,其特征在于,所述步骤一中,通过定位系统检测不同待测目标在某些时段是否一起出现的方法进一步包括基于One-Class的群体异常行为检测,以检测区域的兴趣点为单位,按一定的时间单位统计特定兴趣点的人流密度,形成该兴趣点的时间序列数据。
5.如权利要求4所述的基于时空轨迹的社交网络构建方法,其特征在于,所述基于One-Class的群体异常行为检测中,采用基于One-Class的Deep SVDD模型进行个体序列异常检测,包括:
(1)构造一个深度神经网络模型φ;将数据网络表示映射到以最小体积的球心c和半径R为特征的超球面,正常的映射属于内部,异常的映射属于超球面外部;
(2)然后最小化包含网络中数据特征的超球体积,提取数据分布变化的共同因素,以获取神经网络的参数W,即最终的训练模型参数W应该使得包含数据的超球半径R最小;
(3)针对个体的时间序列数据x,模型采用下公式计算异常分数值;
s(x)=||φ(x;W*)-c||2-R*
其中R*表示训练模型中超球的半径,W*表示训练模型的参数,φ表示神经网络模型;当数据x落在超球之内,则表示该数据是正常的,即s为负数,而当s为正数时,则表示数据x在超球之外,属于异常数据;其中,X表示原始的序列数据空间,F表示经过深度神经网络映射后的特征空间,实心点表示正常数据,空心点表示异常数据,c表示特征空间里超球的球心,R表示超球的半径。
7.如权利要求1所述的基于时空轨迹的社交网络构建方法,其特征在于,所述步骤三对不同待测目标间不同类型的社交网络进行进一步的网络分析中采用基于自适应H-index的标签传播算法AHLPA、基于PageRank和HITS算法进行网络分析。
8.一种实施权利要求1~7任意一项所述基于时空轨迹的社交网络构建方法的基于时空轨迹的社交网络构建系统,其特征在于,所述基于时空轨迹的社交网络构建系统包括:
定位系统,用于检测不同待测目标在某些时段是否在一起出现,如果一起出现,则为不同待测目标有一次同现;
不同待测目标关联程度获取模块,与定位系统连接,用于对于一起出现的不同待测目标,采用点互信息方法评估不同待测目标之间的关联程度;
不同类型社交网络分析模块,用于不同待测目标之间的关联程度评估后,对不同待测目标间不同类型的社交网络进行进一步的网络分析,获取社交圈子、关键待测目标、孤僻待测目标的信息,并以可视化的方式展现。
9.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1~7任意一项所述基于时空轨迹的社交网络构建方法。
10.一种实施权利要求1~7任意一项所述基于时空轨迹的社交网络构建方法的移动计算设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143011.0A CN111382278B (zh) | 2020-03-04 | 2020-03-04 | 一种基于时空轨迹的社交网络构建方法及构建系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010143011.0A CN111382278B (zh) | 2020-03-04 | 2020-03-04 | 一种基于时空轨迹的社交网络构建方法及构建系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382278A true CN111382278A (zh) | 2020-07-07 |
CN111382278B CN111382278B (zh) | 2023-08-08 |
Family
ID=71215235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010143011.0A Active CN111382278B (zh) | 2020-03-04 | 2020-03-04 | 一种基于时空轨迹的社交网络构建方法及构建系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382278B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093014A (zh) * | 2022-01-20 | 2022-02-25 | 深圳前海中电慧安科技有限公司 | 一种图码关联强度计算方法、装置、设备及存储介质 |
CN116611022A (zh) * | 2023-04-21 | 2023-08-18 | 深圳乐行智慧产业有限公司 | 智慧校园教育大数据融合方法及平台 |
CN116823511A (zh) * | 2023-08-30 | 2023-09-29 | 北京中科心研科技有限公司 | 一种识别用户社交孤立状态的方法、装置及可穿戴设备 |
CN116611022B (zh) * | 2023-04-21 | 2024-04-26 | 深圳乐行智慧产业有限公司 | 智慧校园教育大数据融合方法及平台 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080109730A1 (en) * | 2006-11-08 | 2008-05-08 | Thayne Richard Coffman | Sna-based anomaly detection |
KR20130103213A (ko) * | 2012-03-09 | 2013-09-23 | 고려대학교 산학협력단 | H.264 압축영역에서의 비정상 군중행동 탐지 및 분석 방법 |
US20160132754A1 (en) * | 2012-05-25 | 2016-05-12 | The Johns Hopkins University | Integrated real-time tracking system for normal and anomaly tracking and the methods therefor |
CN106600052A (zh) * | 2016-12-12 | 2017-04-26 | 西安交通大学 | 一种基于时空轨迹的用户属性与社会网络检测系统 |
US20170126822A1 (en) * | 2015-11-02 | 2017-05-04 | International Business Machines Corporation | Determining Seeds for Targeted Notifications Through Online Social Networks in Conjunction with User Mobility Data |
CN109597944A (zh) * | 2018-10-30 | 2019-04-09 | 四川大学 | 一种基于深度信念网络的单分类微博谣言检测模型 |
CN109815566A (zh) * | 2019-01-09 | 2019-05-28 | 同济大学 | 一种sgf格式的围棋ai棋谱文件的异常检测方法 |
CN109977132A (zh) * | 2019-02-01 | 2019-07-05 | 北京工业大学 | 一种基于无监督聚类模式的学生异常行为模式分析方法 |
CN110059919A (zh) * | 2019-03-07 | 2019-07-26 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口异常信息检测方法和系统 |
CN110072191A (zh) * | 2019-04-23 | 2019-07-30 | 安徽致远慧联电子科技有限公司 | 基于无线技术的学生校内轨迹分析系统及分析方法 |
CN110209835A (zh) * | 2019-05-09 | 2019-09-06 | 四川九洲电器集团有限责任公司 | 一种异常检测方法及装置、计算机存储介质及电子设备 |
-
2020
- 2020-03-04 CN CN202010143011.0A patent/CN111382278B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080109730A1 (en) * | 2006-11-08 | 2008-05-08 | Thayne Richard Coffman | Sna-based anomaly detection |
KR20130103213A (ko) * | 2012-03-09 | 2013-09-23 | 고려대학교 산학협력단 | H.264 압축영역에서의 비정상 군중행동 탐지 및 분석 방법 |
US20160132754A1 (en) * | 2012-05-25 | 2016-05-12 | The Johns Hopkins University | Integrated real-time tracking system for normal and anomaly tracking and the methods therefor |
US20170126822A1 (en) * | 2015-11-02 | 2017-05-04 | International Business Machines Corporation | Determining Seeds for Targeted Notifications Through Online Social Networks in Conjunction with User Mobility Data |
CN106600052A (zh) * | 2016-12-12 | 2017-04-26 | 西安交通大学 | 一种基于时空轨迹的用户属性与社会网络检测系统 |
CN109597944A (zh) * | 2018-10-30 | 2019-04-09 | 四川大学 | 一种基于深度信念网络的单分类微博谣言检测模型 |
CN109815566A (zh) * | 2019-01-09 | 2019-05-28 | 同济大学 | 一种sgf格式的围棋ai棋谱文件的异常检测方法 |
CN109977132A (zh) * | 2019-02-01 | 2019-07-05 | 北京工业大学 | 一种基于无监督聚类模式的学生异常行为模式分析方法 |
CN110059919A (zh) * | 2019-03-07 | 2019-07-26 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口异常信息检测方法和系统 |
CN110072191A (zh) * | 2019-04-23 | 2019-07-30 | 安徽致远慧联电子科技有限公司 | 基于无线技术的学生校内轨迹分析系统及分析方法 |
CN110209835A (zh) * | 2019-05-09 | 2019-09-06 | 四川九洲电器集团有限责任公司 | 一种异常检测方法及装置、计算机存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
TING PI等: "Inferring implicit social ties in mobile social networks", IEEE * |
宾晟;孙更新;: "基于多子网复合复杂网络模型的多关系社交网络重要节点发现算法", 南京大学学报(自然科学), no. 02 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093014A (zh) * | 2022-01-20 | 2022-02-25 | 深圳前海中电慧安科技有限公司 | 一种图码关联强度计算方法、装置、设备及存储介质 |
CN116611022A (zh) * | 2023-04-21 | 2023-08-18 | 深圳乐行智慧产业有限公司 | 智慧校园教育大数据融合方法及平台 |
CN116611022B (zh) * | 2023-04-21 | 2024-04-26 | 深圳乐行智慧产业有限公司 | 智慧校园教育大数据融合方法及平台 |
CN116823511A (zh) * | 2023-08-30 | 2023-09-29 | 北京中科心研科技有限公司 | 一种识别用户社交孤立状态的方法、装置及可穿戴设备 |
CN116823511B (zh) * | 2023-08-30 | 2024-01-09 | 北京中科心研科技有限公司 | 一种识别用户社交孤立状态的方法、装置及可穿戴设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111382278B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Indoor mobile localization based on Wi-Fi fingerprint's important access point | |
Buntain et al. | Identifying social roles in reddit using network structure | |
CN104335564B (zh) | 用于标识和分析用户的个人情景的系统和方法 | |
CN109800325A (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
Wang et al. | Confidence-aware truth estimation in social sensing applications | |
CN107085616B (zh) | Lbsn中一种基于多维属性挖掘的虚假评论可疑地点检测方法 | |
US10679054B2 (en) | Object cognitive identification solution | |
US20180189597A1 (en) | Training an Image Classifier | |
US9529822B2 (en) | Media or content tagging determined by user credibility signals | |
US20120084226A1 (en) | Measuring or estimating user credibility | |
Wang et al. | Extracting target detection knowledge based on spatiotemporal information in wireless sensor networks | |
CN111382278B (zh) | 一种基于时空轨迹的社交网络构建方法及构建系统 | |
CN109492076A (zh) | 一种基于网络的社区问答网站答案可信评估方法 | |
Wang | An improved machine learning and artificial intelligence algorithm for classroom management of English distance education | |
Yao et al. | A RSSI-based distributed weighted search localization algorithm for WSNs | |
Bi et al. | A novel method of adaptive weighted K-nearest neighbor fingerprint indoor positioning considering user’s orientation | |
Buchel et al. | Geospatial analysis | |
CN116244513A (zh) | 随机群组poi推荐方法、系统、设备及存储介质 | |
Wei et al. | A probabilistic approach to address data uncertainty in regionalization | |
CN109313541A (zh) | 用于显示和比较攻击遥测资源的用户界面 | |
CN110929171B (zh) | 一种基于场景和社交网络位置的兴趣点推荐方法 | |
Zhang et al. | Particle swarm optimization–based minimum residual algorithm for mobile robot localization in indoor environment | |
Jiang et al. | Characterizing dissimilarity of weighted networks | |
Shen et al. | Developer cooperation relationship and attribute similarity based community detection in software ecosystem | |
Bai | RETRACTED ARTICLE: Data cleansing method of talent management data in wireless sensor network based on data mining technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |