CN110046174B - 一种基于大数据的人口迁移分析方法和系统 - Google Patents
一种基于大数据的人口迁移分析方法和系统 Download PDFInfo
- Publication number
- CN110046174B CN110046174B CN201910172651.1A CN201910172651A CN110046174B CN 110046174 B CN110046174 B CN 110046174B CN 201910172651 A CN201910172651 A CN 201910172651A CN 110046174 B CN110046174 B CN 110046174B
- Authority
- CN
- China
- Prior art keywords
- population
- information
- sign
- big data
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013508 migration Methods 0.000 title claims abstract description 48
- 230000005012 migration Effects 0.000 title claims abstract description 48
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/282—Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种基于大数据的人口迁移分析方法和系统。该方法包括:通过社交网站公开API函数获取社交网站中带有地理位置签到信息,构建人口迁移大数据仓库;基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。本申请实施例的一种基于大数据的人口迁移分析方法和系统,通过结合人口迁移理论和大数据挖掘特点,提高了人口管理效率,降低了人口管理人员的劳动量。
Description
技术领域
本申请涉及人口管理领域,尤其涉及一种基于大数据的人口迁移分析方法和系统。
背景技术
人口管理是智慧城市建设的重要组成部分,旨在提升人口管理服务质量,提高都市人员引导,为城市的发展提供更好的支撑。人口迁移分析以人口移动为研究对象,通过统计学、数据挖掘、地理信息学等技术得到人口迁徙的规律,为城市规划、人口引导、政策指定提供决策依据。但是,目前人口迁徙的人工干预率高,识别能力弱,需要耗费大量的人力、物力进行琐碎的整理,而且随着大数据时代的到来,人口迁徙数据呈指数级增长,如何高效利用这些数据成为了当前研究的热点和难点。因此,需要一种基于大数据的人口迁移分析方法。
发明内容
有鉴于此,本申请的目的在于提出一种基于大数据的人口迁移分析方法和系统,提高人口迁移分析水平,解决目前人口迁移分析过程中,效率低、花销大的技术问题。
基于上述目的,本申请提出了一种基于大数据的人口迁移分析方法,包括:
通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库;
基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;
从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。
在一些实施例中,所述构建人口迁移基础大数据仓库,包括:
设置分布式数据节点,采用间歇式随机访问算法访问所述社交网站公开API,并行抽取发帖数据后,剔除语义与空间位置不一致的噪声点,经过去重、清洗、规范化后,存入大数据仓库中。
在一些实施例中,所述结合地理信息系统数据推算出所述地址信息的地理信息,包括:
通过模拟人工点击方法,获取所述签到信息的兴趣点,通过地理信息系统查询得到兴趣点的经纬度坐标及标准地址。
在一些实施例中,所述以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,包括:
测算每小时各兴趣点的签到数量,结合在该兴趣点签到的每个用户的属性进行加权叠加,得到每个兴趣点的热度指数。
在一些实施例中,所述统计叠加包括:
通过公式
H=∑∑ωi·Pj
计算所述兴趣点的热度指数,其中Pj为第j个签到用户属性的量化值,ωi为签到用户的第i个属性的加权系数。
基于上述目的,本申请还提出了一种基于大数据的人口迁移分析系统,包括:
基础数据构建模块,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库;
签到信息统计模块,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;
迁移规律发现模块,用于从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。
在一些实施例中,所述基础数据构建模块,包括:
API访问单元,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖;
数据准备单元,用于采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充;
数据入库单元,用于将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库。
在一些实施例中,所述签到信息统计模块,包括:
描点单元,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点;
统计单元,用于进行统计叠加,得到各时间段人口聚集热点。
在一些实施例中,所述基于大数据的人口迁移分析系统,还包括:
任务调度模块,用于控制任务的分发、资源分配;
效率监控模块,用于监督任务执行效率,并向所述任务调度模块发送监督结果。
本发明实施例还提供了一种计算机可读存储介质,用于存储分布式训练装置所用的计算机软件指令,其包括用于执行上述基于大数据的人口迁移分析方法所涉及的程序。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的基于大数据的人口迁移分析方法的流程图。
图2示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。
图3示出根据本发明实施例的基础数据构建模块的构成图。
图4示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。
图5示出根据本发明实施例的信息统计模块的构成图。
图6示出根据本发明实施例的基于大数据的人口迁移分析系统的结构框架图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出根据本发明实施例的基于大数据的人口迁移分析方法的流程图。如图1所示,该基于大数据的人口迁移分析方法包括:
步骤S11、通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库。
在一种实施方式中,构建人口迁移基础大数据仓库,包括:
设置分布式数据节点,采用间歇式随机访问算法访问所述社交网站公开API,并行抽取发帖数据后,剔除语义与空间位置不一致的噪声点,经过去重、清洗、规范化后,存入大数据仓库中。
举例来说,有的社交网站用户自行进行修改,将故宫所在位置标注在美国,这明显成为语义与空间位置不一致的噪声点,此时需要将其剔除。
在一种实施方式中,间歇式随机访问算法可以通过以下步骤实现:
1.在时间范围(0,t)之间随机选取一个随机数t0作为访问时间间隔,其中t为预先设定的时间间隔最大值;
2.在服务器集群{s1,s2…sn}中随机抽取若干台服务器对社交网站API进行访问;
在一种实施方式中,结合地理信息系统数据推算出所述地址信息的地理信息,包括:
通过模拟人工点击方法,获取所述签到信息的兴趣点,通过地理信息系统查询得到兴趣点的经纬度坐标及标准地址。
在一种实施方式中,模拟人工点击方法可以通过Selenium实现网页的自动加载,根据指令点击带有链接的签到信息;当点击带有链接的签到信息进入具体页面后,可以通过正则表达式匹配方法或DOM(Docum entO bjectM odel,网页对象模型)方法,获取到签到信息的兴趣点。其中,兴趣点即POI(Pointoflnterest),包含了名称、类别、坐标、分类四个方面的信息。举例来说,在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
步骤S12、基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点。
在一种实施方式中,所述以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,包括:
测算每小时各兴趣点的签到数量,结合在该兴趣点签到的每个用户的属性进行加权叠加,得到每个兴趣点的热度指数。
在一种实施方式中,所述统计叠加包括:通过公式
H=∑∑ωi·Pj
计算所述兴趣点的热度指数,其中Pj为第j个签到用户属性的量化值,ωi为签到用户的第i个属性的加权系数。
举例来说,在一次人口迁移计算过程中,可以以每小时为单位,将社交网站中每个用户的签到信息进行描点,通过叠加统计每个兴趣点的用户储量,统计出每个小时的地理位置热度。
在一种实施方式中,签到用户的加权系数根据实际分析目的进行配置。例如,当分析过程中更加侧重于考虑高学历人群的聚集情况,在加权的过程中,可以给学历属性赋予更大的权重。
步骤S13、从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。
在一种实施方式中,设置一个反推截止时间,从人口聚集热点按照人口移动时间顺序进行位置反推过程中,抵达反推截止时间后,便不再反推,此时用户所在的位置即可判定为用户的初始位置。例如,设定早晨8点为反推截止时间,发现IT从业人群在下午3点中都集中在人口聚集热点“北京市海淀区西二旗地区”,从对处于人口聚集热点“北京市海淀区西二旗地区”的人群,以时间顺序进行位置反推,反推至早晨8点时,即可得出IT从业人群大概的居住地区或出行迁移起点。区别于传统的定点分析人口迁移方法,反推式回溯人口迁移轨迹使得人口迁移分析更加动态化,准确度更高。
图2示出图2示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。如图2所示,该基于大数据的人口迁移分析系统整体可以分为:
基础数据构建模块21,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移大数据仓库;
签到信息统计模块22,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;
迁移规律发现模块23,用于从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律。
图3示出根据本发明实施例的基础数据构建模块的构成图。
从图3中可以看出,基础数据构建模块21,包括:
API访问单元21a,用于通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖;
数据准备单元21b,用于采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理信息,对发帖签到时间进行时间规范化填充;
数据入库单元21c,用于将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库。
图4示出根据本发明实施例的基于大数据的人口迁移分析系统的构成图。从图4可以看出,该基于大数据的人口迁移分析系统还包括:
任务调度模块24,用于控制任务的分发、资源分配;
效率监控模块25,用于监督任务执行效率,并向所述任务调度模块发送监督结果。
图5示出根据本发明实施例的签到信息统计模块的构成图。
描点单元22a,用于基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点;
统计单元22b,用于进行统计叠加,得到各时间段人口聚集热点。
图6示出根据本发明实施例的基于大数据的人口迁移分析系统的结构框架图。如图6所示,该装置包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的事务提交方法。所述存储器910和处理器920的数量可以为一个或多个。
该装置还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
在一种实时例中,来自于各人口迁移分析的数据,根据人口迁移分析的规模和数据量大小,可以通过分布式存储、本地集中化存储、云存储、边缘存储等多种存储方式进行存储,从而提升深度学习网络数据存储效率,减少数据传输时延。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.一种基于大数据的人口迁移分析方法,其特征在于,包括:
通过社交网站公开API函数获取社交网站中带有地理位置签到信息的发帖,采用规则匹配算法提取出所述签到信息中的地址信息,结合地理信息系统推算出所述地址信息的地理坐标,对发帖签到时间进行时间规范化填充,将所述发帖、所述地址信息、所述地理坐标、所述发帖签到时间导入数据仓库,构建人口迁移基础大数据仓库;
基于所述人口迁移基础大数据仓库中的数据,以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,得到各时间段人口聚集热点;
从所述人口聚集热点按照人口移动时间顺序进行位置反推,得出每个用户的初始出发位置,运用关联规则算法推算出各人口聚集热点人口住址规律;
所述以时间为单位,将社交网站中每个用户的签到信息进行描点,并进行统计叠加,包括:
测算每小时各兴趣点的签到数量,结合在该兴趣点签到的每个用户的属性进行加权叠加,得到每个兴趣点的热度指数。
2.根据权利要求1所述的方法,其特征在于,构建人口迁移基础大数据仓库,包括:
设置分布式数据节点,采用间歇式随机访问算法访问所述社交网站公开API,并行抽取发帖数据后,剔除语义与空间位置不一致的噪声点,经过去重、清洗、规范化后,存入大数据仓库中。
3.根据权利要求1所述的方法,其特征在于,所述结合地理信息系统数据推算出所述地址信息的地理坐标,包括:
通过模拟人工点击方法,获取所述签到信息的兴趣点,通过地理信息系统查询得到兴趣点的经纬度坐标及标准地址。
4.根据权利要求1所述的方法,其特征在于,所述统计叠加包括:
通过公式
H=∑∑ωi·Pj
计算所述兴趣点的热度指数,其中Pj为第j个签到用户属性的量化值,ωi为签到用户的第i个属性的加权系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172651.1A CN110046174B (zh) | 2019-03-07 | 2019-03-07 | 一种基于大数据的人口迁移分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910172651.1A CN110046174B (zh) | 2019-03-07 | 2019-03-07 | 一种基于大数据的人口迁移分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046174A CN110046174A (zh) | 2019-07-23 |
CN110046174B true CN110046174B (zh) | 2020-01-31 |
Family
ID=67274525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910172651.1A Active CN110046174B (zh) | 2019-03-07 | 2019-03-07 | 一种基于大数据的人口迁移分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046174B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610267B (zh) * | 2019-09-10 | 2021-06-29 | 北京京东智能城市大数据研究院 | 人才信息的处理方法及装置、计算机存储介质、电子设备 |
CN111078816B (zh) * | 2019-12-16 | 2023-08-25 | 秒针信息技术有限公司 | 基于位置的分析方法、装置、终端及存储介质 |
CN112115185A (zh) * | 2020-09-29 | 2020-12-22 | 广州瀚信通信科技股份有限公司 | 面向政务执法的人口大数据分析方法、系统、设备及介质 |
CN112418508B (zh) * | 2020-11-19 | 2021-10-08 | 中国科学院地理科学与资源研究所 | 基于物理空间与社交网络空间交互的人口分布预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118639A (zh) * | 2007-09-03 | 2008-02-06 | 北京派瑞根科技开发有限公司 | 安全电子人口普查系统 |
CN108345662A (zh) * | 2018-02-01 | 2018-07-31 | 福建师范大学 | 一种考虑用户分布区域差异的签到微博数据加权统计方法 |
CN108829744A (zh) * | 2018-05-24 | 2018-11-16 | 湖北文理学院 | 一种基于情境要素和用户偏好的旅行方式推荐方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067154A (zh) * | 2016-05-30 | 2016-11-02 | 上海华企软件有限公司 | 一种基于手机大数据的城市间迁移客流分析方法 |
US10009390B1 (en) * | 2016-12-20 | 2018-06-26 | Hashington GCV | System and method for location-based sharing of information and location-based response to the shared information |
CN107908636A (zh) * | 2017-09-26 | 2018-04-13 | 武汉大学 | 一种利用社交媒体挖掘人类活动时空模式的方法 |
CN107818534B (zh) * | 2017-10-31 | 2022-04-01 | 武汉大学 | 一种具有空间约束的人类活动网络区域划分方法 |
-
2019
- 2019-03-07 CN CN201910172651.1A patent/CN110046174B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118639A (zh) * | 2007-09-03 | 2008-02-06 | 北京派瑞根科技开发有限公司 | 安全电子人口普查系统 |
CN108345662A (zh) * | 2018-02-01 | 2018-07-31 | 福建师范大学 | 一种考虑用户分布区域差异的签到微博数据加权统计方法 |
CN108829744A (zh) * | 2018-05-24 | 2018-11-16 | 湖北文理学院 | 一种基于情境要素和用户偏好的旅行方式推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110046174A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046174B (zh) | 一种基于大数据的人口迁移分析方法和系统 | |
KR102047150B1 (ko) | 실증적 전문가 결정 및 질문 라우팅 시스템 및 방법 | |
US11252534B2 (en) | Method and apparatus for identifying types of user geographical locations | |
US10176194B2 (en) | Enhanced crowdsourced search and locate platform | |
US11816727B2 (en) | Credit scoring method and server | |
CN105608179B (zh) | 确定用户标识的关联性的方法和装置 | |
Perera et al. | Twitter analytics: Architecture, tools and analysis | |
CN103647800A (zh) | 推荐应用资源的方法及系统 | |
WO2016110121A1 (zh) | 数据栅格化、用户行为分析的方法和装置 | |
CN108846911A (zh) | 一种考勤方法及装置 | |
US20140237386A1 (en) | Crowdsourced image analysis platform | |
CN110300084B (zh) | 基于ip地址的画像方法和装置,电子设备,可读介质 | |
JP2019533842A (ja) | 電子装置、小売店舗評価モデルを構築する方法、システム及び記憶媒体 | |
CN111311193B (zh) | 公共服务资源的配置方法和装置 | |
CN109325657A (zh) | 一种信贷业务的审批方法、存储介质和服务器 | |
Akingbesote et al. | Performance modeling of proposed guiset middleware for mobile healthcare services in e‐marketplaces | |
CN111444440A (zh) | 一种身份信息识别方法、装置、电子设备和存储介质 | |
CN110619090B (zh) | 一种区域吸引力评估方法及设备 | |
CN112052399A (zh) | 一种数据处理方法、装置和计算机可读存储介质 | |
CN103365900A (zh) | 线上素材投放方法及装置 | |
CN111611337B (zh) | 终端数据处理系统 | |
CN114581130A (zh) | 基于客户画像的银行网点派号方法及装置、存储介质 | |
CN113034157B (zh) | 集团成员识别方法、装置及计算设备 | |
CN110348422A (zh) | 图像处理方法、装置、计算机可读存储介质和电子设备 | |
CN111125272A (zh) | 一种区域特征获取方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |