CN117171452A - 确定时空共现区、非公共场所及用户社会行为关系的方法 - Google Patents
确定时空共现区、非公共场所及用户社会行为关系的方法 Download PDFInfo
- Publication number
- CN117171452A CN117171452A CN202310787706.6A CN202310787706A CN117171452A CN 117171452 A CN117171452 A CN 117171452A CN 202310787706 A CN202310787706 A CN 202310787706A CN 117171452 A CN117171452 A CN 117171452A
- Authority
- CN
- China
- Prior art keywords
- position data
- users
- interest point
- data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000011273 social behavior Effects 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000000295 complement effect Effects 0.000 abstract description 7
- 238000012216 screening Methods 0.000 abstract 1
- 238000002372 labelling Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Remote Sensing (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开确定时空共现区、非公共场所及用户社会行为关系的方法,属于数据处理技术领域。所述方法首先利用位置数据兴趣点实现时空共现区的划分,然后,依次计算每个兴趣点的位置熵,完成非公共场所的识别;最后,根据非公共场所对时空共现区进行筛选,确定时空共现区用户存在的社会行为关系。本发明的方案解决了时空共现区划分不准确、公共场所兴趣点污染整体数据使得社会关系推断准确率不高、导致网络空间社会行为关系数据补全质量较低的问题。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及确定时空共现区、非公共场所及用户社会行为关系的方法。
背景技术
网络空间测绘通过网络空间设施、服务和资源属性及关系进行探测、采集、识别、分析和处理,基于地理信息和逻辑关系进行地图绘制,全面描述和展示网络空间资产、属性、状态、关系及趋势等,为各类信息安全应用提供数据和技术支撑。
网络空间由多个不同的但相互关联的层组成(物理网络层、逻辑网络层、社会角色层),每个层都捕获了该域上的重要特征和行为。其中社会角色层描述了社会网络的组成和特征,包括社会行为体属性及其关系。社会行为体是管理、操作、使用各类网络设备、应用服务的用户角色,而社会行为体之间的边则表示用户之间的社会关系。
社会角色层数据主要通过社交媒体、社会工程、开源情报等手段获取,但目前社会角色层数据主要以离散的节点为主,缺少社会行为体关系(用户社会关系)。随着LBS技术的发展,部分社会行为体属性也增加了位置信息。基于位置数据开展挖掘和分析成为网络空间测绘中社会角色层关系数据补全的一条可行途径。
目前基于位置数据进行社会关系推断主要通过两种方法:(1)通过建立用户到访时空共现(Spatio-Temporal Co-occurrences)区,并根据时空共现区的频次等相关特征,结合机器学习方法(如随机森林)进行推断;(2)根据用户之间轨迹的相似性,对社会关系进行判断。由于第二种方法对数据的连续性要求较高,故多采用时空共现区法。
所谓“时空共现”,即两个用户u1,u2在同一时间均出现在同一区域/>时空共现区提取即以两种表示形式数据集D作为输入(第一种形式:坐标式数据集第二种形式:区域ID数据集D={(ui,ti,li)|i=1,2,…,W}),通过划分/>及/>提取相关用户的过程。
然而,目前基于时空共现区的推断方法推断准确率及效率不够高,主要存在两个问题:(1)经典的时空共现区未考虑到用户到访地点位置呈圆形区域分布特征,以固定网格进行划分,导致原本属于同一地点的用户误划分至其他区域;(2)时空共现区中存在公共场所(如商场、车站),所有用户均可到访,利用该类数据进行社会关系推断可能会导致准确率降低。上述两方面问题最终导致社会角色层数据补全质量较低。
发明内容
针对上述技术问题,本发明提出确定时空共现区、非公共场所及用户社会行为关系的方案。
本发明第一方面公开了一种确定时空共现区的方法。所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。
根据本发明第一方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第一方面的方法,在所述步骤S2中:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第一方面的方法,在所述步骤S3中:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
本发明第二方面公开了一种确定非公共场所的方法,所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
根据本发明第二方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第二方面的方法,在所述步骤S2中:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
本发明第三方面公开了一种基于时空共现区确定用户社会行为关系的方法,所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;
步骤S4、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
步骤S5、提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。
根据本发明第三方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第三方面的方法,在所述步骤S2中:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第三方面的方法,在所述步骤S3中:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
本发明第四方面公开了一种确定时空共现区的系统,所述系统包括,
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。
根据本发明第四方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第四方面的系统,所述第二处理单元具体被配置为:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第四方面的系统,所述第三处理单元具体被配置为:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
本发明第五方面公开了一种确定非公共场所的系统,所述系统包括:
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
根据本发明第五方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第五方面的系统,所述第二处理单元具体被配置为:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
本发明第六方面公开了一种基于时空共现区确定用户社会行为关系的系统,所述系统包括:
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;
第四处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
第五处理单元,被配置为:提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。
根据本发明第六方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第六方面的系统,所述第二处理单元具体被配置为:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第六方面的系统,所述第三处理单元具体被配置为:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
本发明第七方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。
本发明第八方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。
综上,本发明提供的技术方案提供了一种时空共现区划分方法,用以解决现有技术中网格区域划分时空共现区的方式不够准确的问题;提供了一种利用位置熵进行对公共场所进行识别的方法;提供了一种基于位置数据的社会行为关系数据补全方法,实现社会行为提关系数据高精度补全。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例1确定时空共现区的流程图;
图2a和2b为时空共现区提取方法的对比图;
图3为根据本发明实施例2确定非公共场所的流程图;
图4为根据本发明实施例3确定社会行为关系的流程图;
图5为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种确定时空共现区的方法。所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。
注意,在判定存在时空共现区后,对于时空共现区的范围的确定,除了步骤S3中的“将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区”之外,还可以采用本领域的其他划定方式。例如,以当前兴趣点的中心坐标为圆心,以预设值(500米、1000米等)为半径,画圆形区域作为时空共现区。
在一些实施例中,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
在一些实施例中,在所述步骤S2中:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
在一些实施例中,在所述步骤S3中:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
具体实施例1(如图1所示):
S01:输入坐标位置数据集或区域ID位置数据集;
S02:判断数据集类型,若数据集类型为坐标数据,则执行S03,若数据集类型为区域ID数据,则执行S07;
S03:根据所有用户位置集范围,查询地理数据库中在该位置范围的POI(Point ofInterest,兴趣点即语义化地点),依次提取POI对应的中心坐标;
S04:设定时空共现区判别阈值λ,依次计算每个POI中心坐标与用户坐标的距离;
S05:判断POI中心坐标与用户坐标的距离是否小于该阈值,若小于阈值执行S06,否则执行S03依次提取POI对应的中心坐标;
S06:则将数据点按POI标识加入候选集合,执行S09;
S07:若数据集类型为区域ID数据,根据用户区域ID集合,遍历查询地理数据库中与该区域ID集对应的兴趣点POI集合,依次选择提取POI对应区域ID;
S08:判断POI对应区域ID与用户区域ID是否一致,若一致则执行S09,否则执行S07依次选择提取POI对应区域ID;
S09:将数据点按POI标识加入位置候选集合;
S10:依次选定按POI标识排列的位置数据候选集;
S11:划定为间隔为τ的时间段,判断候选集合中各数据点在间隔时间τ内是否存在2个以上位置数据点,若是则执行S12,否则执行S10;
S12:判断满足S11中条件的候选集合中是否存在2个以上用户,若有则该候选集为时空共现区,否则执行S11;
S13:输出时空共现区标识及用户ID。
如图2a和2b所示,原时空共现区识别方法以区域为λ×λ的方格,假设用户u1与u2在/>均出现在区域/>则/>为时空共现区,新时空共现区提取则以λ为半径的圆形区域进行划分和识别。对比可发现,新的时空共现区识别方法更为精准。
本发明第二方面公开了一种确定非公共场所的方法,所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
根据本发明第二方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第二方面的方法,在所述步骤S2中:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
具体实施例2(如图3所示):
由于公共场所到访的用户数目较多,用户随机性强,利用该部分时空数据进行关系推断时准确率较低。为避免整体数据集被污染,需要剔除该部分数据。因此需要对非公共场所数据进行识别。
为解决该问题,利用位置熵指标对公共场所及非公共场所进行分离。位置熵值越大,信息增益越大,可预测性越差,用户活动越活跃,表明该地点为公共场所的概率越大。反之,位置熵值越小,信息增益越小,可预测性越好,用户活动活跃度越小,表明该地点为非公共场所的概率越大。
具体方法流程包括:
S01:输入坐标位置数据集或区域ID位置数据集;
S02:判断数据集类型,若数据集类型为坐标数据,则执行S03,若数据集类型为区域ID数据,则执行S07;
S03:根据所有用户位置集范围,查询地理数据库中在该位置范围的POI(Point ofInterest,兴趣点即语义化地点),依次提取POI对应的中心坐标;
S04:设定时空共现区判别阈值λ,依次计算每个POI中心坐标与用户坐标的距离;
S05:判断POI中心坐标与用户坐标的距离是否小于该阈值,若小于阈值执行S06,否则执行S03依次提取POI对应的中心坐标;
S06:则将数据点按POI标识加入候选集合,执行S09;
S07:若数据集类型为区域ID数据,根据用户区域ID集合,遍历查询地理数据库中与该区域ID集对应的兴趣点POI集合,依次选择提取POI对应区域ID;
S08:判断POI对应区域ID与用户区域ID是否一致,若一致则执行S09,否则执行S07依次选择提取POI对应区域ID;
S09:将数据点按POI标识加入候选集合;
S10:依次选定按POI标识排列的位置数据候选集;
S11:设定位置熵阈值α,以每一个POI对应位置候选集为输入,按照下式计算POI对应区域的位置熵(用于评价用户在区域的可预测程度)。
其中,为用户uj到访区域zi的次数,/>为到访位置zi的总数量,/>为用户uj到访区域zi的占到访该位置总用户数的比例。
S12:判断是否小于α,若/>小于α,则执行S13,否则执行S10;
S13:识别为非公共场所,记录POI标识并输出。
本发明第三方面公开了一种基于时空共现区确定用户社会行为关系的方法,所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;
步骤S4、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
步骤S5、提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。
根据本发明第三方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第三方面的方法,在所述步骤S2中:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第三方面的方法,在所述步骤S3中:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
具体实施例3(如图4所示):
S01:输入坐标位置数据集或区域ID位置数据集;
S02:按照本发明第一方面步骤提取时空共现区及用户ID;
S03:按照本发明第二方面步骤提取非公共场所POI标识,生成非公共场所POI标识库;
S04:依次选定某一时空共现区;
S05:判断时空共现区所属POI是否包含于S03步骤生成的POI库,若包含则执行S06,否则执行S04;
S06:判定该时空共现区的用户之间存在社会关系,完成社会行为体关系数据补全。
在一些实施例中,时空共现区中提取到兴趣点A及其关联用户u1和用户u2,如果该兴趣点A为非公共场所,则可判断u1和用户u2存在社会关系;时空共现区中提取到兴趣点B及其关联用户u3和用户u4,如果该兴趣点B为非公共场所,则可判断u3和用户u4存在社会关系。
具体地,以提取到的兴趣点A作为非公共场所的社会属性来建立用户u1和用户u2之间的社会行为关系;例如A为某办公楼,则可以推断用户u1和用户u2属于同一办公区,为同事或存在工作交集的关系。
具体地,以提取到的兴趣点B作为非公共场所的社会属性来建立用户u3和用户u4之间的社会行为关系。例如B为某高校校园宿舍楼,则可以推断用户u3和用户u4为住在同一宿舍区,为同学关系或同一宿舍楼中的学生与管理员的关系。
本发明第四方面公开了一种确定时空共现区的系统,所述系统包括,
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。
根据本发明第四方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第四方面的系统,所述第二处理单元具体被配置为:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第四方面的系统,所述第三处理单元具体被配置为:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
本发明第五方面公开了一种确定非公共场所的系统,所述系统包括:
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
根据本发明第五方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第五方面的系统,所述第二处理单元具体被配置为:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
本发明第六方面公开了一种基于时空共现区确定用户社会行为关系的系统,所述系统包括:
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;
第四处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为所述用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
第五处理单元,被配置为:提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。
根据本发明第六方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。
根据本发明第六方面的系统,所述第二处理单元具体被配置为:
当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;
当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。
根据本发明第六方面的系统,所述第三处理单元具体被配置为:
对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;
对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。
本发明第七方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。
本发明第八方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。
图5为根据本发明实施例的一种电子设备的结构图,如图5所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
综上,本发明提供的技术方案提供了一种时空共现区划分方法,用以解决现有技术中网格区域划分时空共现区的方式不够准确的问题;提供了一种利用位置熵进行对公共场所进行识别的方法;提供了一种基于位置数据的社会行为关系数据补全方法,实现社会行为提关系数据高精度补全。
根据本发明的上述方案,获得以下技术效果:(1)利用新的时空共现区的划分方式实现时空共现区的准确划分,为后续社会关系推断判别奠定数据基础;(2)利用基于位置熵的非公共场所识别方法实现对工作地点、居住地点等非公共场所的识别,从而实现与制约社会关系推断准确率的公共场所位置数据的分离;(3)利用提出的一种基于位置数据的社会行为体关系数据补全方法,实现社会关系的高精度推断,从而最终实现网络空间社会角色层的社会行为体关系数据补全。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种确定非公共场所的方法,其特征在于,所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为非公共场所;其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
2.一种基于时空共现区确定用户社会行为关系的方法,其特征在于,所述方法包括:
步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;
步骤S4、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为非公共场所;其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例;
步骤S5、提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为所述非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。
3.一种确定非公共场所的系统,其特征在于,所述系统包括:
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例。
4.一种基于时空共现区确定用户社会行为关系的系统,其特征在于,所述系统包括:
第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;
其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;
第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;
第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;
第四处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为非公共场所;
其中,利用如下公式计算所述位置熵:
其中,为用户uj到访所述当前兴趣点zi的次数,/>为用户集合U中所有用户到访所述当前兴趣点zi的总次数,/>为所述用户uj到访所述当前兴趣点zi的占到访该位置总用户数的比例;
第五处理单元,被配置为:提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为所述非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310787706.6A CN117171452A (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210514078.XA CN114817774B (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
CN202310787706.6A CN117171452A (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210514078.XA Division CN114817774B (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117171452A true CN117171452A (zh) | 2023-12-05 |
Family
ID=82514013
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210514078.XA Active CN114817774B (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
CN202310787706.6A Pending CN117171452A (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210514078.XA Active CN114817774B (zh) | 2022-05-12 | 2022-05-12 | 确定时空共现区、非公共场所及用户社会行为关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114817774B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2984067A1 (fr) * | 2011-12-12 | 2013-06-14 | France Telecom | Adaptation d'information contextuelle. |
US20140052718A1 (en) * | 2012-08-20 | 2014-02-20 | Microsoft Corporation | Social relevance to infer information about points of interest |
JP6230442B2 (ja) * | 2014-02-20 | 2017-11-15 | 株式会社東芝 | 算出装置、方法及びプログラム |
JP6342678B2 (ja) * | 2014-03-07 | 2018-06-13 | クラリオン株式会社 | 関連データ生成装置、関連データ生成方法およびプログラム |
CN106339502A (zh) * | 2016-09-18 | 2017-01-18 | 电子科技大学 | 一种基于用户行为数据分片聚类的建模推荐方法 |
CN106600052B (zh) * | 2016-12-12 | 2020-04-10 | 西安交通大学 | 一种基于时空轨迹的用户属性与社会网络检测系统 |
CN107220312B (zh) * | 2017-05-12 | 2020-08-14 | 华中科技大学 | 一种基于共现图的兴趣点推荐方法及系统 |
CN109460520B (zh) * | 2019-01-21 | 2021-03-23 | 宿州学院 | 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法 |
CN110929171B (zh) * | 2019-11-26 | 2022-10-25 | 湖南科技职业学院 | 一种基于场景和社交网络位置的兴趣点推荐方法 |
CN112184467A (zh) * | 2020-08-28 | 2021-01-05 | 菏泽学院 | 基于历史行为和兴趣度对网民进行团体划分的方法和系统 |
CN112000763B (zh) * | 2020-09-25 | 2023-08-29 | 北京百度网讯科技有限公司 | 兴趣点竞争关系确定方法、装置、设备和介质 |
-
2022
- 2022-05-12 CN CN202210514078.XA patent/CN114817774B/zh active Active
- 2022-05-12 CN CN202310787706.6A patent/CN117171452A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN114817774A (zh) | 2022-07-29 |
CN114817774B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Senaratne et al. | Urban mobility analysis with mobile network data: A visual analytics approach | |
Jurgens et al. | Geolocation prediction in twitter using social networks: A critical analysis and review of current practice | |
Guo et al. | A graph-based approach to vehicle trajectory analysis | |
Wise et al. | Regionalisation tools for the exploratory spatial analysis of health data | |
Shi et al. | Human mobility patterns in different communities: a mobile phone data-based social network approach | |
CN110738577B (zh) | 社区发现方法、装置、计算机设备和存储介质 | |
CN113272798B (zh) | 地图获取方法、装置、计算机设备和存储介质 | |
Liu et al. | An adaptive detection of multilevel co-location patterns based on natural neighborhoods | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
Telang et al. | Detecting localized homogeneous anomalies over spatio-temporal data | |
Huang et al. | Modeling herds and their evolvements from trajectory data | |
CN111597279B (zh) | 基于深度学习的信息预测方法及相关设备 | |
CN113282799A (zh) | 节点的操作方法、装置、计算机设备和存储介质 | |
Cai et al. | Discovering regions of anomalous spatial co-locations | |
CN111611500A (zh) | 一种基于聚类的常去地识别方法及装置、存储介质 | |
Wei et al. | A probabilistic approach to address data uncertainty in regionalization | |
CN114817774B (zh) | 确定时空共现区、非公共场所及用户社会行为关系的方法 | |
Liu et al. | A network-constrained clustering method for bivariate origin-destination movement data | |
CN110895543A (zh) | 人口迁徙跟踪展示方法、装置及存储介质 | |
Hao | Spatial analysis | |
CN111951351B (zh) | 一种位置热力图的生成方法、装置、电子设备及存储介质 | |
Shams et al. | GraphLoc: A graph based approach for automatic detection of significant locations from GPS trajectory data | |
CN114511125A (zh) | 一种空间划分方法、装置、设备及介质 | |
Zingaro et al. | Exploring Map App Usage Behaviour Through Touchscreen Interactions (Short Paper) | |
Sacramento Gutierres et al. | Responsive geographical information systems for spatio-temporal analysis of mobile networks in barcelona |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |