CN112256982B - 基于稀疏采样时空数据的目标同行关系分析方法及电子装置 - Google Patents

基于稀疏采样时空数据的目标同行关系分析方法及电子装置 Download PDF

Info

Publication number
CN112256982B
CN112256982B CN202010967453.7A CN202010967453A CN112256982B CN 112256982 B CN112256982 B CN 112256982B CN 202010967453 A CN202010967453 A CN 202010967453A CN 112256982 B CN112256982 B CN 112256982B
Authority
CN
China
Prior art keywords
same
user
row
equipment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010967453.7A
Other languages
English (en)
Other versions
CN112256982A (zh
Inventor
钟进文
霍亚宁
尉雁磊
赵岩
马灿
王伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010967453.7A priority Critical patent/CN112256982B/zh
Publication of CN112256982A publication Critical patent/CN112256982A/zh
Application granted granted Critical
Publication of CN112256982B publication Critical patent/CN112256982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于稀疏采样时空数据的目标同行关系分析方法及电子装置,包括采集目标用户E0各关联设备Uk的时空数据,依据各关联设备Uk出现记录,计算与其他设备Vj的两两同行组合集合,选取符合设定的其他设备Vj组成关联设备Uk的候选设备集合Sk;通过候选设备集合Sk中各其他设备Vj时空数据获取的出现记录,计算与相应设备Ul的两两同行组合集合,选取符合设定的相应设备Vl组成若干设备集合S′k,j;若设备集合S′k,j包含关联设备Uk,则目标用户E0与用户Ej存在同行行为,得到关联设备Uk同行设备列表Qk;依据各同行设备列表Qk,得到同行用户列表Y。本发明通过多种过滤与排序机制,可以挖掘出有效的目标同行关系,同时支持不同类型数据之间的融合使用。

Description

基于稀疏采样时空数据的目标同行关系分析方法及电子装置
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于稀疏采样时空数据的目标同行关系分析方法及电子装置。
背景技术
目前,社交关系分析的相关研究主要集中在线社交网络分析(Online SocialNetwork Analysis),即对互联网内的Facebook、微博、微信、QQ等社交平台内的产生的数据进行研究。随着物联网技术的发展迅猛,通过物联网传感器采集的数据规模愈来愈大,基于物联网数据的分析与应用研究受到很多的关注。大量的物联网传感器不断地采集带有时间和空间属性的各类数据,受限于成本和物理因素限制,物联网设备采集的数据很大一部分属于稀疏采样的时空数据。这些时空数据对于社交网络、商业服务、公共安全等多个行业领域的业务产生了极大的助益。但目前基于稀疏采样时空数据的社交关系分析的研究较少。
稀疏采样时空数据最重要的两个特点就是数据的隐含性和稀疏性。隐含性即稀疏采样时空数据仅包含对象的时空信息,没有其他的文本、图像等等其他辅助性的信息帮助来更多的了解用户的行为背景和意图,但是很多的信息如社交关系都隐藏在时空信息里面。稀疏性是指针对单个用户来说,稀疏采样时空数据相对于手机基站数据、GPS数据是非常稀疏的采样方式,其数量级为上述数据的相差一个甚至多个数量级。基于稀疏采样时空数据的同行关系分析的挑战就是如何从相对稀疏的数据中挖掘出隐含的同行行为。
类似的研究中,中国专利申请CN111246375A提出一种基于卡口等信息的人车伴随技术,但是该方法仅能筛选出所有可能的人车关联,其范围广、准确率低。中国专利申请CN111125279A和CN109299198A面向轨迹数据,基于时间和地理距离阈值匹配共现位置,挖掘轨迹伴随和社交关系分析方法。但是该方法主要面向的是密集采样的轨迹数据,而且由于目标活动存在偶然性原因,分析结果很大一部分属于噪音数据。
发明内容
本发明的目的是提供一种基于稀疏采样时空数据的目标同行关系分析方法及电子装置,利用该方法正向分析目标的时空共现候选集,以及反向对候选集对象与目标的共现频率排序验证,同时结合常驻白名单过滤机制和参与度加权机制,挖掘目标的有效同行关系并进行权重排序,可以用于进社交网络分析、商业推荐服务、公共安全等多个行业领域。
为达到上述目的,本发明的技术方案如下:
一种基于稀疏采样时空数据的目标同行关系分析方法,其步骤包括:
1)采集目标用户E0各关联设备Uk的时空数据,依据得到的各关联设备Uk出现记录,计算各关联设备Uk与其他设备Vj的两两同行组合集合,选取符合设定的其他设备Vj组成关联设备Uk的候选设备集合Sk
2)通过候选设备集合Sk中各其他设备Vj时空数据获取的出现记录,计算与相应设备Vl的两两同行组合集合,选取符合设定的相应设备Vl组成若干设备集合S′k,j
3)若一设备集合S′k,j包含关联设备Uk,则目标用户E0与用户Ej存在同行行为,得到关联设备Uk的同行设备列表Qk={Vk,1,…Vk,b,…Vk,B};
4)依据各同行设备列表Qk,得到同行用户列表Y={E1,…Ea,…EA}。
进一步地,所述时空数据包括互联网日志数据、车辆联网数据和/或安防监测数据。
进一步地,所述关联设备Uk出现记录包括用户名E0、兴趣点Pi和出现在该兴趣点的相应时间T0,i,i为时间点序号。
进一步地,通过以下步骤组成关联设备Uk的候选设备集合Sk
1)根据地点Pi和出现在该地点的相应时间T0,i,获取在时间区间Wi内的出现在该地点的其他设备Vj记录集合
Figure BDA0002682853310000021
其中
Figure BDA0002682853310000022
Figure BDA0002682853310000023
2)将各时间区间内的其他设备记录集合Ri进行并集,并对并集结果进行分组,得到若干设备Vt
3)依据关联设备Uk与各分组结果的两两同行组合次数,对两两同行组合排序,提取前若干个两两同行组合的相应分组结果,得到关联设备Uk的候选设备集合Sk
进一步地,分组的依据包括目标或兴趣点。
进一步地,采集候选设备集合Sk中各其他设备Vj时空数据的时空数据前,去除候选设备集合Sk中的白名单设备。
进一步地,通过定期对一候选设备出现的地点、时间及频率进行统计,判断该候选设备是否为白名单设备。
进一步地,目标用户E0与同行用户列表内各用户Ea的社交权重
Figure BDA0002682853310000024
Figure BDA0002682853310000031
其中m为用户Ea在各同行设备列表Qk中关联设备Va,p的数量,γa,p为设定设备类型权重,count′为关联设备Uk与设备Va,p的总同行次数,关联设备Uk与设备Va,p的参与度系数Dk,ap=count′/countall,countall为同行用户Ea的总出现记录数或地点数量。一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明的优点在于:
1.本方法面向稀疏的采样时空数据,通过多种过滤与排序机制,可以挖掘出有效的目标同行关系;
2.本方法可以用于多种场景采集的时空数据,包括互联网日志数据、车辆联网数据、安防监测数据等等,同时支持不同类型数据之间的融合使用。
3.本方法可以用由于社交网络、商业服务、公共安全等多个行业领域。
附图说明
图1为同行关系分析方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明对基于情感对象识别和情感规则的微博倾向性分析方法和步骤进一步详细说明。
本发明提供一种基于稀疏采样时空数据的目标同行关系分析方法,通过两个大的步骤分析同行行为,即首先正向分析目标的时空共现候选集,然后对候选集对象计算同行结果,反向验证目标是否在同行结果中,相比于传统单次计算方法,该方法可以过滤大部分噪音信息。
如图1所示,本发明的步骤如下:
步骤(1):查询目标用户E0的关联设备列表{Uk|k∈[1,K]},对每一个关联设备Uk,进行如下(2)-(6)计算:
步骤(2):根据分析的起止时间条件查询Uk的出现记录集合Rk={Rk,i},记录Rk,i包括:关联设备Uk、兴趣点(地点)Pi和时间Tk,i等信息,其中i为时间点序号;
步骤(3):遍历所有出现记录Rk,i(Uk,Pi,Tk,i),查询在Tk,i所对应的各时间区间Wi及地点Pi出现的其他目标设备出现记录集合
Figure BDA0002682853310000041
Vj为符合条件的其他设备,
Figure BDA0002682853310000042
步骤(4):根据目标、兴趣点等,对步骤(3)所得的所有记录集合Ri进行分组统计,计算两两同行组合(Uk,Vj,count)集合,筛选出阈值次数H(典型值为2)以上共现分组,取若干Top集合为两两同行设备组合候选结果集Sk,count为候选同行设备分组(Uk,Vj)的计数;
步骤(5):遍历集合Sk,对于候选结果集的每一个同行目标Vj,依次根据步骤(2)-(4)计算与Vj两两同行的组合候选结果集S′k,j
步骤(6):判断目标设备Uk是否在结果集S′k,j中,若是则认为目标关联设备Uk与S′k,j中对应设备Vj的持有人存在同行行为,得到目标设备Uk的同行设备列表Qk={Vk,1,…Vk,b,…Vk,B};
步骤(7):通过各同行设备Vk,b,获取同行用户,得到同行用户列表Y={E1,…Ea,…EA};
步骤(8):获取与同行用户Ea关联的各设备Vk,b,并分别表示为设备Va,p,1≥p≥m,m为设备Va,p的数量;
步骤(9):计算目标用户E0与同行用户列表Y内各用户Ea的社交权重
Figure BDA0002682853310000043
Figure BDA0002682853310000044
其中γa,p为设备类型权重,不同的类型的设备权重不同,权重值预先设定,count′为关联设备Uk与设备Va,p的总同行次数,Dk,ap为关联设备Uk与设备Va,p的参与度系数。
最终获得目标同行用户列表以及社交权重结果列表(Ea,βa)。
3.特别地,本发明提出常驻设备过滤机制,用以过滤在计算结果中经常出现但是没有实际业务意义的目标。如某一个报亭售货员长时间固定出现某个地点,那么他有较大概率出现在其他人的同行结果列表中。在白名单通过定期对稀疏采样时空采集数据进行统计得到,根据出现的地点、时间、频率设定阈值规则,进行定期进行排序统计并更新白名单。
4.特别地,本发明提出参与度系数主要为了排除频繁出现的噪音候选对象,其思想是:相对于其同行次数,对象出现频率或地点数越高,其主观同行概率越低、偶然性越高,其在同行结果中所占的权重越低。例如稀疏采样时空每天会对一个公交车司机在若干固定点位采集数据,那么与其同行的集合非常庞大,但是对于公共安全业务来说该司机在同行结果里面不具备很强的显著性,不是重点关注对象。
参与度系数具体计算方式为:
Dk,ap=count′/countall
其中,countall为同行用户Ea总出现记录数或地点数量。
5.本计算方法的参数设定包括:
(1)滑动窗口的时长W。一般设置为3-5分钟,根据设备时效与场景的不同可以进行调整。
(2)同行次数最小阈值H。一般设置2,也可以根据场景的不同可以进行调整。
6.本发明的计算方法可以用于多种场景采集的时空数据,包括互联网日志数据、车辆联网数据、安防监测数据等等,同时支持不同类型数据之间的融合使用。
在真实数据场景下,挑选了部分目标作为研究对象,目标对象的时空数据非常稀疏,平均出现记录为150条/月。计算的时间跨度为一个月,分别利用现有的单次时间阈值过滤方法以及本文所提出方法进行对比,基于目标时空数据计算同行结果,然后将两种方法所得出的结果列表与最终通过人工核实的真实情况进行比对,得到准确率与提升比率如表1所示:
方法 top5平均准确率
方法1:单次时间阈值过滤(已有方法) 58.33%
方法2:本方法 71.67%
准确率提升比率 22.86%
表1
在实际应用场景表明该方法至少比已有方法至少提高20%的准确率。
应该注意到并理解,在不脱离权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (9)

1.一种基于稀疏采样时空数据的目标同行关系分析方法,其步骤包括:
1)采集目标用户E0各关联设备Uk的时空数据,依据得到的各关联设备Uk出现记录,计算各关联设备Uk与其他设备Vj的两两同行组合集合,选取符合设定的其他设备Vj组成关联设备Uk的候选设备集合Sk
2)通过候选设备集合Sk中各其他设备Vj时空数据获取的出现记录,计算与相应设备Vl的两两同行组合集合,选取符合设定的相应设备Vl组成若干设备集合S′k,j
3)若一设备集合S′k,j包含关联设备Uk,则目标用户E0与用户Ej存在同行行为,得到关联设备Uk的同行设备列表Qk={Vk,1,...Vk,b,...Vk,B};
4)通过各同行设备Vk,b,获取同行用户,得到同行用户列表Y={E1,...Ea,...EA};
5)获取与同行用户Ea关联的各设备Vk,b,并分别表示为设备Va,p,其中1≥p≥m,m为设备Va,p的数量;
6)计算目标用户E0与同行用户列表Y内各用户Ea的社交权重
Figure FDA0003610036270000011
Figure FDA0003610036270000012
其中,γa,p为设定设备类型权重,counL′为关联设备Uk与设备Va,p的总同行次数,关联设备Uk与设备Va,p的参与度系数Dk,ap=count′/countall,countall为同行用户Ea的总出现记录数或地点数量;
7)将所述同行用户列表Y与社交权重列表作为分析结果。
2.如权利要求1所述的方法,其特征在于,所述时空数据包括互联网日志数据、车辆联网数据和/或安防监测数据。
3.如权利要求1所述的方法,其特征在于,所述关联设备Uk出现记录包括用户名E0、兴趣点Pi和出现在该地点的相应时间T0,i,i为时间点序号。
4.如权利要求3所述的方法,其特征在于,通过以下步骤组成关联设备Uk的候选设备集合Sk
1)根据地点Pi和出现在该地点的相应时间T0,i,获取在时间区间Wi内的出现在该地点的其他设备Vj记录集合
Figure FDA0003610036270000013
其中
Figure FDA0003610036270000014
Figure FDA0003610036270000015
2)将各时间区间内的其他设备记录集合Ri进行并集,并对并集结果进行分组,得到若干设备Vt
3)依据关联设备Uk与各分组结果的两两同行组合次数,对两两同行组合排序,提取前若干个两两同行组合的相应分组结果,得到关联设备Uk的候选设备集合Sk
5.如权利要求4所述的方法,其特征在于,分组的依据包括目标或兴趣点。
6.如权利要求1所述的方法,其特征在于,采集候选设备集合Sk中各其他设备Vj时空数据的时空数据前,去除候选设备集合Sk中的白名单设备。
7.如权利要求6所述的方法,其特征在于,通过定期对一候选设备出现的地点、时间及频率进行统计,判断该候选设备是否为白名单设备。
8.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。
9.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述方法。
CN202010967453.7A 2020-09-15 2020-09-15 基于稀疏采样时空数据的目标同行关系分析方法及电子装置 Active CN112256982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010967453.7A CN112256982B (zh) 2020-09-15 2020-09-15 基于稀疏采样时空数据的目标同行关系分析方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010967453.7A CN112256982B (zh) 2020-09-15 2020-09-15 基于稀疏采样时空数据的目标同行关系分析方法及电子装置

Publications (2)

Publication Number Publication Date
CN112256982A CN112256982A (zh) 2021-01-22
CN112256982B true CN112256982B (zh) 2022-08-16

Family

ID=74232364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010967453.7A Active CN112256982B (zh) 2020-09-15 2020-09-15 基于稀疏采样时空数据的目标同行关系分析方法及电子装置

Country Status (1)

Country Link
CN (1) CN112256982B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165237A (zh) * 2018-08-28 2019-01-08 新华三大数据技术有限公司 伴随对象确定方法、装置以及电子设备
CN109299198A (zh) * 2018-10-12 2019-02-01 元力云网络有限公司 一种基于多维数据的社交关系分析方法
CN110674236A (zh) * 2019-09-23 2020-01-10 浙江省北大信息技术高等研究院 基于时空轨迹匹配的移动目标关联方法、装置、设备及存储介质
CN111209776A (zh) * 2018-11-21 2020-05-29 杭州海康威视系统技术有限公司 同行人识别方法、装置、处理服务器、存储介质及系统
CN111294728A (zh) * 2018-12-06 2020-06-16 西安光启未来技术研究院 同行分析方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069083B (zh) * 2015-07-31 2019-03-08 小米科技有限责任公司 关联用户的确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165237A (zh) * 2018-08-28 2019-01-08 新华三大数据技术有限公司 伴随对象确定方法、装置以及电子设备
CN109299198A (zh) * 2018-10-12 2019-02-01 元力云网络有限公司 一种基于多维数据的社交关系分析方法
CN111209776A (zh) * 2018-11-21 2020-05-29 杭州海康威视系统技术有限公司 同行人识别方法、装置、处理服务器、存储介质及系统
CN111294728A (zh) * 2018-12-06 2020-06-16 西安光启未来技术研究院 同行分析方法及装置
CN110674236A (zh) * 2019-09-23 2020-01-10 浙江省北大信息技术高等研究院 基于时空轨迹匹配的移动目标关联方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112256982A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN108595655B (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
CN106682108A (zh) 一种基于多模态卷积神经网络的视频检索方法
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN110222592B (zh) 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法
CN111294742B (zh) 基于信令cdr数据识别伴随手机号码的方法与系统
CN103812872A (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和系统
CN111831706A (zh) 一种应用之间关联规则的挖掘方法、装置及存储介质
CN104834739A (zh) 互联网信息存储系统
Barozzi et al. Filtering images extracted from social media in the response phase of emergency events
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN105589916B (zh) 显式和隐式兴趣知识的提取方法
CN112256982B (zh) 基于稀疏采样时空数据的目标同行关系分析方法及电子装置
CN113010884B (zh) 一种入侵检测系统中的实时特征过滤方法
CN106933880A (zh) 一种标签数据泄漏渠道检测方法及装置
CN112765313A (zh) 一种基于原文和评论信息分析算法的虚假信息检测方法
CN104123723A (zh) 基于结构补偿的图像质量评价方法
CN108763289B (zh) 一种海量异构传感器格式数据的解析方法
CN117675230A (zh) 基于知识图谱的油井数据完整性识别方法
CN111832348A (zh) 基于像素和通道注意力机制的行人重识别方法
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN111163053B (zh) 一种恶意url检测方法及系统
CN113962335A (zh) 一种可灵活配置的数据全过程处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant