CN109408550A - 一种基于st-dbscan的职位时空数据分析方法 - Google Patents
一种基于st-dbscan的职位时空数据分析方法 Download PDFInfo
- Publication number
- CN109408550A CN109408550A CN201810876755.6A CN201810876755A CN109408550A CN 109408550 A CN109408550 A CN 109408550A CN 201810876755 A CN201810876755 A CN 201810876755A CN 109408550 A CN109408550 A CN 109408550A
- Authority
- CN
- China
- Prior art keywords
- space
- time
- cluster
- point
- dbscan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000007405 data analysis Methods 0.000 title claims abstract description 15
- 230000007115 recruitment Effects 0.000 claims description 11
- 239000003086 colorant Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 241000238097 Callinectes sapidus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于ST‑DBSCAN的职位时空数据分析方法,属于时空数据聚类技术领域。先建立一个职位数据库,每一条数据作为一个对象点。然后将数据进行算法的计算,大致步骤如下:1.从库中选取一个不在任何簇中的时空核心对象pi;2.搜寻与pi时空直接密度可达对象qi,将qi加入新建的簇中;3.判断簇中的各对象是否为时空核心对象,是则重复上一步操作;4.重复上述所有步骤,直到数据库中所有对象都属于某个簇,或为时空孤立点。本发明与现有技术相比,主要提供了ST‑DBSCAN算法对挖掘时空职位数据时起到聚类分析作用,从而通过聚类得到的簇和孤立点,可以明显地展示出某个职位在某个时间段及地域的发展趋势。
Description
技术领域
本发明涉及一种基于ST-DBSCAN的职位时空数据分析方法,属于时空数据聚类技术领域。
背景技术
现代社会中,职位的种类多种多样,某一职位的需求量随着时间与地域的变化也有着相应的发展趋势,这是社会衍变与进步的基石。然而,各种职位的千变万化也给社会带来了一定的影响:人才分布不合理、社会与人才的供给矛盾、岗位与人才的技能需求矛盾等问题随之产生。
ST-DBSCAN算法是扩展了DBSCAN的扫描维度,采用时空邻近域的概念去评估时空邻近域内的时空实体的密度。因此,ST-DBSCAN与DBSCAN一样,也是基于密度的时空聚类分析方法,与一些聚类算法相比,它不需要预先决定簇的数量,并可以发现任何形状的簇。时空数据的挖掘随着科技的进步变得尤其重要,时空聚类算法也已广泛应用于道路交通、犯罪统计、降雨规律等多个领域,但还没用应用到职位发展趋势的分析领域中。
发明内容
本发明要解决的技术问题是提供一种基于ST-DBSCAN的职位时空数据分析方法,将ST-DBSCAN算法应用到职位的发展趋势研究中来进一步分析各个职位随着时间与区域的不同而发生怎样的变化,从而优化市场的人力资源配置,也使求职者得到更加准确的就业热点信息,使他们可以更加清晰的看清未来的就业形势。
本发明的技术方案是:一种基于ST-DBSCAN的职位时空数据分析方法,包括如下步骤:
Step1、建立一个三维的职位招聘数据库,库中就业地址的经度为x,纬度为y,职位发布时间为z,一条职位数据为一个对象点pi(x,y,z),i为职位序号,所有对象的集合为D;
Step2、从D依次选取一个对象点pi(x,y,z),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;
Step3、判断对象点pi(x,y,z)是否为时空核心对象,是则进行下一步,否则回到Step2中重新选取下一个对象点;
Step4、搜寻时空核心对象点pi(x,y,z)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;
Step5、判断簇A中的各对象是否为时空核心对象,若非时空核心对象则将其标为边缘时空对象不进行进一步操作,是则对该时空核心对象重复Step4的操作;
Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点。
Step7、将上述得到的簇标签赋值给职位数据库新建的字段“簇标签”中。
Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上。
具体地,所述步骤Step1中,三维的职位招聘数据库中每条职位信息都包含职位发布时间及就业地址的地理经度和纬度这三个字段,对象点pi(x,y,z)中的i为正整数。
具体地,所述步骤Step2中,簇为聚类后点的集合,不属于任何一个簇的点为时空孤立点,即噪声。
具体地,所述步骤Step3中,给出以下几个定义:
时空相邻点:首先人为设定空间阈值为spatial_threshold,时间阈值为temporal_threshold。对于时空对象pt(xt,yt,zt)来讲,若pw(xw,yw,zw)到pt的空间距离ΔS满足公式(1),时间距离ΔT满足公式(2),则pw为pt的时空相邻点;
ΔS=|Distance((xw,yw)-(xt,yt))|≤spatial_threshold (1)
ΔT=|zt-zw|≤temporal_threshold (2)
时空邻域:给定一个时空对象p,p的所有时空相邻点围成的时空领域即为对象p的时空邻域;
时空核心对象:首先人为设定一个最小相邻点阈值MinPts,若在p的时空邻域内,p的时空相邻点数量ΔN满足公式(3),则称p为时空核心对象;
ΔN≥MinPts (3)
具体地,所述步骤Step4中,簇A中的A为簇的标签,不同的簇拥有不同的标签,标签可以为字母或数字。
具体地,所述步骤Step8中,不同的簇标签则对应不同的点颜色,没有簇标签的点即为噪声,其颜色可设为黑色。
本发明的有益效果是:提供了ST-DBSCAN算法对挖掘时空职位数据时起到聚类分析作用,从而通过聚类得到的簇和孤立点,可以明显地展示出某个职位在某个时间段及地域的发展趋势。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤Step3流程图;
图3是本发明具体实施方式中所举例子中Step8的可视化三维散点图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于ST-DBSCAN的职位时空数据分析方法,先建立一个职位数据库,每一条数据作为一个对象点。然后将数据进行算法的计算,大致步骤如下:1.从库中选取一个不在任何簇中的时空核心对象pi;2.搜寻与pi时空直接密度可达对象qi,将qi加入新建的簇中;3.判断簇中的各对象是否为时空核心对象,是则重复上一步操作;4.重复上述所有步骤,直到数据库中所有对象都属于某个簇,或为时空孤立点。
具体步骤为:
Step1、建立一个三维的职位招聘数据库,库中就业地址的经度为x,纬度为y,职位发布时间为z,一条职位数据为一个对象点pi(x,y,z),i为职位序号,所有对象的集合为D;
Step2、从D依次选取一个对象点pi(x,y,z),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;
Step3、判断对象点pi(x,y,z)是否为时空核心对象,是则进行下一步,否则回到Step2中重新选取下一个对象点;
Step4、搜寻时空核心对象点pi(x,y,z)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;
Step5、判断簇A中的各对象是否为时空核心对象,若非时空核心对象则将其标为边缘时空对象不进行进一步操作,是则对该时空核心对象重复Step4的操作;
Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点。
Step7、将上述得到的簇标签赋值给职位数据库新建的字段“簇标签”中。
Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上。
进一步地,所述步骤Step1中,三维的职位招聘数据库中每条职位信息都包含职位发布时间及就业地址的地理经度和纬度这三个字段,对象点pi(x,y,z)中的i为正整数。
进一步地,所述步骤Step2中,簇为聚类后点的集合,不属于任何一个簇的点为时空孤立点,即噪声。
进一步地,所述步骤Step3中,给出以下几个定义:
时空相邻点:首先人为设定空间阈值为spatial_threshold,时间阈值为temporal_threshold。对于时空对象pt(xt,yt,zt)来讲,若pw(xw,yw,zw)到pt的空间距离ΔS满足公式(1),时间距离ΔT满足公式(2),则pw为pt的时空相邻点;
ΔS=|Distance((xw,yw)-(xt,yt))|≤spatial_threshold (1)
ΔT=|zt-zw|≤temporal_threshold (2)
时空邻域:给定一个时空对象p,p的所有时空相邻点围成的时空领域即为对象p的时空邻域;
时空核心对象:首先人为设定一个最小相邻点阈值MinPts,若在p的时空邻域内,p的时空相邻点数量ΔN满足公式(3),则称p为时空核心对象;
ΔN≥MinPts (3)
进一步地,所述步骤Step4中,簇A中的A为簇的标签,不同的簇拥有不同的标签,标签可以为字母或数字。
进一步地,所述步骤Step8中,不同的簇标签则对应不同的点颜色,没有簇标签的点即为噪声,其颜色可设为黑色。
举例说明:下面结合举例的例子,详细说明本发明的方案:
一种基于ST-DBSCAN的职位时空数据分析方法,所述方法的具体步骤如下:
Step1、建立一个三维的职位招聘数据库,库中就业地址的经度为x,纬度为y,职位发布时间为z,一条职位数据为一个对象点pi(x,y,z),i为职位序号,所有对象的集合为D;具体地:
为方便阐述本发明,获取了某招聘网站中1655条北京市的计算机职位数据,部分职位数据如下:
选取上述表格中所需数据并将工作地址转化为经纬度数值形式,如下表所示:
Step2、从D依次选取一个对象点pi(x,y,z),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;具体地:先选取对象点p1,若其不在现有簇中则进行下一步操作,否则选取下一个对象点p2,继续判断其是否在现有簇中,直到判断到最后一个对象点pn为止。
Step3、判断对象点pi(x,y,z)是否为时空核心对象,是则进行下一步,否则回到Step2中重新选取下一个对象点;具体地:
在本案例中,人为设定空间阈值spatial_threshold=10(公里),时间阈值temporal_threshold=1(天),最小相邻点阈值MinPts=15(个)。以点p1(116.41826,40.00499,2017/12/4)、p2(116.34876,39.737637,2017/11/23)、p3(116.449274,39.979348,2017/12/5)为例:其中p1和p2的ΔT=11>temporal_threshold=1,所以p2不是p1的时空相邻点。p1和p3的ΔT=temporal_threshold=1,ΔS=3.8916<spatial_threshold=10,所以p3是p1的时空相邻点;依此方式一直判断到pn是否为p1的时空相邻点。此案例中,p1的时空相邻点数量ΔN=20>MinPts=15,所以p1是时空核心对象;
Step4、搜寻时空核心对象点pi(x,y,z)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;具体地:
由Step3计算结果得p3和其余的19个对象点是p1的时空相邻点,且p3不属于任何已有的簇,所以将p3和其余的19个对象点放入新建的第一个簇簇1中。以此方式,后续计算得到的簇则为簇2、簇3……簇n。
Step5、判断簇A中的各对象是否为时空核心对象,若非时空核心对象则将其标为边缘时空对象不进行进一步操作,是则对该时空核心对象重复Step4的操作;具体地:
在本案例中,计算得到p2不为时空核心对象,簇1中的p3为时空核心对象,所以将p3重新放入到新建的第二个簇簇2中;簇1中p268不为时空核心对象,所以将其标为边缘时空对象不进行进一步处理,即p268依然在簇1中。
Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点。具体地:
继续选取对象点p2(116.34876,39.737637,2017/11/23)进行Step2到Step5的操作,直到对象点pn为止。
Step7、将上述得到的簇标签赋值给职位数据库新建的字段“簇标签”中。具体地:
将上述所有步骤得到的时空对象点的簇标签赋值给职位数据库新建的字段“簇标签”中。结果如下表所示:
Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上。具体地:
在本案例中,选用的python的pyecharts库来对数据做三维散点图,如图3所示,图中竖坐标为2017年的12个月份,分层显示了1月份到12月份的职位数据,横纵坐标为地理经纬度,散点中黑点为噪声,粉点为簇1,紫点为簇2,灰点为簇3,绿点为簇4,红点为簇5,蓝点为簇6,黄点为簇7,橙点为簇8。从图中我们可以很大致得出以下几个结论:
A.从时间轴上看,在2017年中北京对计算机相关职位的需求量呈不断递增趋势,同时需求区域也成扩张形势。一种原因是公司招聘季变化,秋冬人才市场的招聘需求量要高于春夏季节;另一种原因是行业市场对计算机人才的需求量越来越多。
B.从经纬度来看,计算机职位的需求主要集中于北京市的朝阳区、大兴区、丰台区和海淀区的中关村、昌平区的回龙观等区域。
C.在B所述地区中,从10月份到12月份,开始集中式招聘计算机相关职位,并随时间增长而扩展招聘区域。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种基于ST-DBSCAN的职位时空数据分析方法,其特征在于:
Step1、建立一个三维的职位招聘数据库,库中就业地址的经度为x,纬度为y,职位发布时间为z,一条职位数据为一个对象点pi(x,y,z),i为职位序号,所有对象的集合为D;
Step2、从D依次选取一个对象点pi(x,y,z),判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;
Step3、判断对象点pi(x,y,z)是否为时空核心对象,是则进行下一步,否则回到Step2中重新选取下一个对象点;
Step4、搜寻时空核心对象点pi(x,y,z)的所有时空相邻点qi,若qi不属于任何已有的簇,则将qi放入新建的簇A中,若qi属于已有的簇则不进行操作;
Step5、判断簇A中的各对象是否为时空核心对象,若非时空核心对象则将其标为边缘时空对象不进行进一步操作,是则对该时空核心对象重复Step4的操作;
Step6、重复上述步骤Step2到Step5的工作,直到D中所有对象都属于某个簇,或为时空孤立点;
Step7、将上述得到的簇标签赋值给职位数据库新建的字段簇标签中;
Step8、将数据库中所有对象的经度x、纬度y、时间z、簇标签分别展现到三维散点图对应点的横轴、纵轴、竖轴和点的颜色上。
2.根据权利要求1所述的基于ST-DBSCAN的职位时空数据分析方法,其特征在于:所述步骤Step1中,三维的职位招聘数据库中每条职位信息都包含职位发布时间及就业地址的地理经度和纬度这三个字段,对象点pi(x,y,z)中的i为正整数。
3.根据权利要求1所述的基于ST-DBSCAN的职位时空数据分析方法,其特征在于:所述步骤Step2中,簇为聚类后点的集合,不属于任何一个簇的点为时空孤立点,即噪声。
4.根据权利要求1所述的基于ST-DBSCAN的职位时空数据分析方法,其特征在于:所述步骤Step3中:
时空相邻点:首先设定空间阈值为spatial_threshold,时间阈值为temporal_threshold,对于时空对象pt(xt,yt,zt),若pw(xw,yw,zw)到pt的空间距离ΔS满足公式(1),时间距离ΔT满足公式(2),则pw为pt的时空相邻点;
ΔS=|Distance((xw,yw)-(xt,yt))|≤spatial_threshold (1)
ΔT=|zt-zw|≤temporal_threshold (2)
时空邻域:给定一个时空对象p,p的所有时空相邻点围成的时空领域即为对象p的时空邻域;
时空核心对象:首先设定一个最小相邻点阈值MinPts,若在p的时空邻域内,p的时空相邻点数量ΔN满足公式(3),则称p为时空核心对象;
ΔN≥MinPts (3)。
5.根据权利要求1所述的基于ST-DBSCAN的职位时空数据分析方法,其特征在于:所述步骤Step4中,簇A中的A为簇的标签,不同的簇拥有不同的标签,标签可以为字母或数字。
6.根据权利要求1所述的基于ST-DBSCAN的职位时空数据分析方法,其特征在于:所述步骤Step8中,不同的簇标签则对应不同的点颜色,没有簇标签的点即为噪声,其颜色可设为黑色。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810876755.6A CN109408550A (zh) | 2018-08-03 | 2018-08-03 | 一种基于st-dbscan的职位时空数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810876755.6A CN109408550A (zh) | 2018-08-03 | 2018-08-03 | 一种基于st-dbscan的职位时空数据分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408550A true CN109408550A (zh) | 2019-03-01 |
Family
ID=65464229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810876755.6A Pending CN109408550A (zh) | 2018-08-03 | 2018-08-03 | 一种基于st-dbscan的职位时空数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408550A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481511A (zh) * | 2017-08-16 | 2017-12-15 | 深圳先进技术研究院 | 一种计算候选公交站点的方法及系统 |
CN108242149A (zh) * | 2018-03-16 | 2018-07-03 | 成都智达万应科技有限公司 | 一种基于交通数据的大数据分析方法 |
-
2018
- 2018-08-03 CN CN201810876755.6A patent/CN109408550A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481511A (zh) * | 2017-08-16 | 2017-12-15 | 深圳先进技术研究院 | 一种计算候选公交站点的方法及系统 |
CN108242149A (zh) * | 2018-03-16 | 2018-07-03 | 成都智达万应科技有限公司 | 一种基于交通数据的大数据分析方法 |
Non-Patent Citations (1)
Title |
---|
李晶莹: "基于WebGIS的城市交通路况特征分析方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325085B (zh) | 一种城市用地功能识别与变化检测方法 | |
CN108596202B (zh) | 基于移动终端gps定位数据计算个人通勤时间的方法 | |
Wu et al. | Cultivating historical heritage area vitality using urban morphology approach based on big data and machine learning | |
CN103196368B (zh) | 基于车载激光扫描数据的单株树三维绿量自动估算方法 | |
CN110471957B (zh) | 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法 | |
CN103793788B (zh) | 一种有序用电管理方法 | |
CN110716935A (zh) | 基于网约车出行的轨迹数据分析与可视化方法及系统 | |
CN110991885A (zh) | 一种区域顺层岩质边坡易发性评价方法 | |
CN106951453A (zh) | 一种快速更新和数据共享的地理实体编码方法 | |
CN110232421B (zh) | 一种逐级合并od流向时空联合聚类方法 | |
CN115239281A (zh) | 一种基于bim+gis的公路征迁管理系统、方法及存储介质 | |
CN105279317A (zh) | 一种基于dem的平地河网水流方向估算方法 | |
Zhang et al. | Efficiency measurement and influencing factors of ecological compensation: a case study from Wuqi and Zhidan on the Loess Plateau | |
Runze | A study on the spatial distribution and historical evolution of grotto heritage: a case study of Gansu Province, China | |
CN102141587A (zh) | 一种雷电定位数据成图方法 | |
CN116167193A (zh) | 一种基于swat模型的土地利用变化对径流过程影响分析方法 | |
CN109408550A (zh) | 一种基于st-dbscan的职位时空数据分析方法 | |
CN109726937A (zh) | 基于形状测度的土地利用规划调整数据质量退化评价方法 | |
CN104331424A (zh) | 一种用户移动轨迹中敏感轨迹模式的净化方法 | |
CN116776403A (zh) | 一种国土空间规划三维仿真模拟系统、设备及终端 | |
Atiencia et al. | Spatio-temporal analysis: Using instagram posts to characterize urban point-of-interest | |
CN105828434B (zh) | 一种子网划分式DV-hop无线传感器网络定位方法 | |
Ewadh et al. | Development of Pavement Condition Index Model Using PAVER 6.5. 7 for Flexible Pavement Urban Roads in Kerbala City | |
Seipel et al. | Role of multiple high-capacity irrigation wells on a surficial sand and gravel aquifer | |
Jia | Neural Network Model of Urban Landscape Design Based on Multi‐Target Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |