CN112738729A - 一种用手机信令数据判别探亲返乡游客的方法及系统 - Google Patents
一种用手机信令数据判别探亲返乡游客的方法及系统 Download PDFInfo
- Publication number
- CN112738729A CN112738729A CN202011621461.2A CN202011621461A CN112738729A CN 112738729 A CN112738729 A CN 112738729A CN 202011621461 A CN202011621461 A CN 202011621461A CN 112738729 A CN112738729 A CN 112738729A
- Authority
- CN
- China
- Prior art keywords
- mobile phone
- user
- target area
- tourist
- returning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011664 signaling Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000007619 statistical method Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012356 Product development Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 102000018059 CS domains Human genes 0.000 description 1
- 108050007176 CS domains Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种用手机信令数据判别探亲返乡游客的方法及系统,获取目标区域内手机用户的手机信令数据,判断所述手机用户是否为目标区域内常住用户和过路用户,当判断手机用户既不是常住用户也不是过路用户时,根据手机用户在目标区域预设时间段内每日驻留时间判断手机用户是否为游客,当判断手机用户为游客时,建立探亲返乡游客待定数据集并计算判决系数,根据判决系数进一步确定游客是否为探亲返乡游客。可见,本发明能够准确的判定出手机用户是否为探亲返乡游客,实现了对游客类型的进一步细分,将探亲返乡游客与其他类型游客区分开,有助于更加准确的进行游客量统计和游客特征分析。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种用手机信令数据判别探亲返乡游客的方法及系统。
背景技术
在旅游统计中,游客规模与旅游收入是最为核心的两个指标,而旅游收入又与游客规模紧密相连,因此及时准确地了解游客的规模就成了旅游统计最为重要的问题。传统的人工统计方法基于统计学的填报和抽样调查,存在着游客规模估计不准、统计效率低下等问题。旅游企业和管理部门对新的统计方法,特别是大数据等新技术应用热盼和渴望。由于互联网的普及,网络传输能力,特别是移动通讯网络性能的大幅度提高,基于分布式的计算机存储能力和计算能力不断取得突破,现在具备了从游客直接获取海量的数据,以及存储和处理这些数据的能力。大数据具有客观性的特点,可信度大大高于调查问卷,将之纳入旅游统计是发展的必然趋势。大数据的统计方法与传统的统计学方法有本质的不同:传统的统计学方法受限于数据采集、存储和处理的能力有限,只能采取抽样的方式,用小的数据样本推算事物之间的联系和规律;基于大数据的方法采取尽可能多地搜集数据的方式,从大量的、不同来源的、冗余的数据当中去发现和挖掘事物之间的联系和规律。无限增大的多维度样本空间可以大大弥补样本不足带来的信息损失和估计精度问题。基于大数据的统计方法从数据采集、数据存储到数据处理都是由机器和算法来执行,大大减少了人工干预,能够确保统计结果的客观性。充分利用大数据开展旅游统计,有利于提高统计数据时效性、客观性、科学性和公平性,能够从更多的维度、按照更细的颗粒度解析数据,是技术进步导致的必然趋势和旅游统计变革的必然要求。
采用大数据统计方法时,如何确保样本和数据的有效性、代表性并没有得到深入的研究和很好地解决。数据源直接提供的数据,并不一定能有效地代表完整的研究目标群体。例如,来自于三大电信运营商的数据一方面没有覆盖所有的游客,另一方面还包含大量非游客和重复的数据。如果不经过认真地筛选和清洗,或者采用的模型不恰当,往往会得出错误的统计结果。因此有必要对不同类型、不同特点的手机用户进行区分,采用不同的方法和模型进行统计。
探亲返乡游客是一种特殊类型的游客,其活动方式和消费行为与一般游客有很大的区别。目前旅游统计并未对此类游客作区分,而是与其他游客一视同仁,对此类游客的活动规律和消费特征了解得不够。特别是在节假日,大量的探亲返乡游客一方面会使得旅游统计数据出现明显异常;另一方面会给政府相关部门的管理带来很大的压力。无论是地方政府还是企业迫切需要掌握探亲返乡游客的情况,以便准确地掌握旅游人数的变化情况,分析旅游对经济的贡献和旅游产业的发展状况,开发旅游产品,制定旅游产品营销策略。而现有技术中的方法实现了基于手机及其信令数据进行游客量统计和对游客特征进行分析,但是并未对游客类型进行进一步细分,没有实现对返乡探亲游客的区分或判别。因此,如何准确的判断出探亲返乡游客是一项亟需解决的问题。
针对上述问题,本发明提供了用手机信令数据判别探亲返乡游客的方法及系统。
发明内容
本发明的目的是提供一种用手机信令数据判别探亲返乡游客的方法及系统,能够用大数据的分析方法准确判别手机用户是否属于探亲返乡游客,为进一步统计、研究和分析此类游客的行为特征、消费习惯提供基础,能够广泛应用于旅游统计、旅游管理、旅游产品开发和精准营销。
为实现上述目的,本发明提供了如下方案:
一种用手机信令数据判别探亲返乡游客的方法,包括:
步骤1:获取目标区域内用户在预设时间段内的手机信令数据以及所述用户在所述预设时间段之前的历史手机信令数据;
步骤2:基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,得到第一判断结果;
若所述第一判断结果为是,则将所述手机用户标注为所述常住用户,根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置,通过空间聚类确定所述目标区域内所述常住用户的聚类居住区域;确定所述目标区域内所述常住用户的聚类居住区域后,返回步骤1;
步骤3:若所述第一判断结果为否,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述预设时间段内的手机信令数据判断所述手机用户是否为过路用户,得到第二判断结果;
若所述第二判断结果为是,则将所述手机用户标注为所述过路用户,返回步骤1;
步骤4:若所述第二判断结果为否,根据所述手机用户在所述目标区域所述预设时间段内每日驻留时间判断所述手机用户是否为游客,得到第三判断结果;
若所述第三判断结果为否,则返回步骤1;
步骤5:若所述第三判断结果为是,则将所述手机用户标注为所述游客,建立探亲返乡游客待定数据集;
步骤6:根据所述探亲返乡游客待定数据集,计算判决系数;
步骤7:根据所述判决系数,判断所述游客是否为探亲返乡游客,得到第四判断结果;
若所述第四判断结果为否,则返回步骤1;
若所述第四判断结果为是,则标注所述游客为所述探亲返乡游客。
本发明还提供了一种用手机信令数据判别探亲返乡游客的系统,包括:数据获取模块,用于获取目标区域内用户预设时间段内的手机信令数据以及所述用户预设时间段之前的历史手机信令数据;
常住用户判断模块,用于基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,得到第一判断结果;
常住用户标注模块,用于若所述第一判断结果为是,则将所述手机用户标注为所述常住用户;
居住区域聚类模块,用于根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置,通过空间聚类确定所述目标区域内所述常住用户的聚类居住区域;确定所述目标区域内所述常住用户的聚类居住区域后,返回数据获取模块;
过路用户判断模块,用于若所述第一判断结果为否,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述手机信令数据判断所述手机用户是否为过路用户,得到第二判断结果;
过路用户标注模块,用于若所述第二判断结果为是,则将所述手机用户标注为所述过路用户,返回数据获取模块;
游客判断模块,用于若所述第二判断结果为否,根据所述手机用户在目标区域预设时间段内停留的时间判断所述手机用户是否为游客,得到第三判断结果;若所述第三判断结果为否,则返回数据获取模块;
游客标注及探亲返乡游客待定数据集建立模块,用于若所述第三判断结果为是,则将所述手机用户标注为所述游客,并建立探亲返乡游客待定数据集;
判决系数计算模块,用于根据所述探亲返乡游客待定数据集,计算判决系数;
探亲返乡游客判断模块,用于根据所述判决系数,判断所述游客是否为探亲返乡游客,得到第四判断结果;若所述第四判断结果为否,则返回数据获取模块;
探亲返乡游客标注模块,用于若所述第四判断结果为是,则标注所述游客为所述探亲返乡游客。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提出了一种用手机信令数据判别探亲返乡游客的方法及系统,获取目标区域内用户在预设时间段内的手机信令数据以及所述用户在所述预设时间段之前的历史手机信令数据;基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述手机信令数据判断所述手机用户是否为过路用户,当判断手机用户既不是常住用户也不是过路用户时,根据手机用户在目标区域预设时间段内每日驻留时间判断手机用户是否为游客,当判断手机用户为游客时,基于所有被判断为游客的手机用户,建立探亲返乡游客待定数据集并计算判决系数,根据判决系数进一步确定游客是否为探亲返乡游客。可见,本发明基于用户手机信令数据,分析该信令数据判断该用户是否是目标区域的常用用户和过路用户,从而判别出该用户是否属于游客,该用户判定为游客后,通过建立探亲返乡游客待定数据集和计算判决系数进一步判断该用户是否是探亲返乡游客,准确的判定出用户是否为探亲返乡游客,实现了对游客类型的进一步细分,将探亲返乡游客与其他类型游客区分开,有助于更加准确的进行游客量统计和游客特征分析。
另外,本发明确定目标区域常住用户的居住区域时,采用了二次聚类方法,首先利用K-Means聚类算法,得到每个常住用户的居住区域,然后再利用DBSCAN算法对全部常住用户的居住区域进行聚类,从而得到了常住用户的聚类居住区域。由于信令数据量过于庞大,采用二次聚类可以提高计算的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种用手机信令数据判别探亲返乡游客的方法流程图;
图2为本发明实施例2提供的一种用手机信令数据判别探亲返乡游客的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种用手机信令数据判别探亲返乡游客的方法及系统,能够用大数据的分析方法准确判别手机用户是否属于探亲返乡游客,为进一步统计、研究和分析此类游客的行为特征、消费习惯提供基础,能够广泛应用于旅游统计、旅游管理、旅游产品开发和精准营销。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种用手机信令数据判别探亲返乡游客的方法,包括:
步骤S1:获取目标区域内手机用户在预设时间段内的手机信令数据以及所述手机用户在所述预设时间段之前的历史手机信令数据;
采集用户手机的LTE信令S1-MME、S1-U接口数据,2/3G的CS域信令数据,并根据手机号码归属地回填号码归属地市后,把用户手机号码、IMEI码、IMSI码、接口类型、信令时间、基站工参等保存到分布式文件系统HDFS(Hadoop Distributed File System)上,用于在Spark集群下进行后续运算。
为了更清楚的了解小范围内探亲返乡的游客,可以以行政县区为目标区域的最小单位;预设时间段可以是法定节假日,也可以是人为规定的时间段。
步骤S2:基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,得到第一判断结果;
其中,历史手机信令数据可以是预设时间段以前三个月累积的信令数据,获取预设时间段以前多长时间的历史手机信令数据可以根据需要自行设置过去时间长度;
若所述第一判断结果为是,则将所述手机用户标注为所述常住用户,根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置,利用空间聚类算法确定所述目标区域内所述常住用户的聚类居住区域;确定所述目标区域内所述常住用户的聚类居住区域后,返回步骤S1;
其中,所述基于历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,具体包括:
基于所述历史手机信令数据,结合所述目标区域内基站工参,对所述手机用户在所述目标区域内的每月停留时间和每日停留时间进行累计;
当所述手机用户在所述目标区域内每月停留时间累计值超过第一预设值,且每日停留时间累计值超过第二预设值,则判定所述手机用户为所述常住用户。例如,手机用户在目标区域每月停留时间超过20日,且每日停留时间超过6小时,则将该手机用户标记为常住用户。
根据所述常住用户的工作时段(周一至周五的8:00-18:00或者根据目标区域惯常的上班时间和下班时间之间的时间段)和休息日(周六和周日),结合所述常住用户的地理位置确定所述目标区域内所述常住用户的聚类居住区域,具体包括:
在被标注为所述常住用户的所述手机用户中,以所述工作时段和休息日为时间尺度,结合所述目标区域内基站工参,分别依据所述工作时段和休息日对所述常住用户的地理位置使用K-Means、DBSCAN聚类算法进行空间聚类,得到所述常住用户的聚类居住区域。
由于信令数据量过于庞大,如果直接使用全量数据进行空间聚类,对计算资源要求非常高,计算效率也低,为了能够提高计算效率同时在计算资源要求低的情况下也能准确聚类,本发明采用了二次聚类方法:利用K-Means聚类算法对单个所述常住用户的地理位置进行空间聚类,得到每个所述常住用户的居住区域;
利用DBSCAN聚类算法对所有所述常住用户的居住区域进行空间聚类,得到所述目标区域内所述常住用户的聚类居住区域。
本发明采用了二次聚类的方法,相比现有技术中使用全量数据进行DBSCAN等空间聚类算法,对计算资源的要求降低,计算效率更高。
步骤S3:若所述第一判断结果为否,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述预设时间段内的手机信令数据判断所述手机用户是否为过路用户,得到第二判断结果;
其中,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述预设时间段内的手机信令数据判断所述手机用户是否为过路用户,具体包括:
将所述目标区域内基站工参中的基站经纬度与所述目标区域的路网线路的地理位置坐标进行匹配,得到覆盖路网线路的所述路网基站数据集;所述路网基站数据集包括所述目标区域的省份、地市、县区、道路、基站编号、基站经纬度;
在所述预设时间段内,所述手机用户在所述目标区域内活动的过程中,持续在所述路网基站数据集中的基站之间切换(基站切换次数超过预设值),且在目标区域内的基于手机信令数据得到的每日逗留时间总计值小于第三预设值,则判定所述手机用户为所述过路用户。第三预设值可以设为6小时,也可以根据需要任意设置。
若所述第二判断结果为是,则将所述手机用户标注为所述过路用户,返回步骤S1;
步骤S4:若所述第二判断结果为否,根据所述手机用户在所述目标区域所述预设时间段内每日驻留时间判断所述手机用户是否为游客,得到第三判断结果;
其中,根据所述手机用户在所述目标区域所述预设时间段内每日驻留时间判断所述手机用户是否为游客,具体包括:
在所述预设时间段内,所述手机用户在所述目标区域内每日驻留时间超过第四预设值,则判定所述手机用户为所述游客。第四预设值也可以设为6小时,也可以根据需要任意设置。
若所述第三判断结果为否,则返回步骤S1;
步骤S5:若所述第三判断结果为是,则将所述手机用户标注为所述游客,建立探亲返乡游客待定数据集;
其中,建立探亲返乡游客待定数据集,具体包括:
在预设年度内,将目标区域内多个不同预设时间段内所有游客的数据汇集,建立基本游客数据集;基本游客数据集包括:所述游客的手机IMEI码、IMSI码、所述预设时间段和目标区域停留时间;例如,可以以1年为期,统计本年度各个预设时间段内被标注为游客的用户,将其数据归集到一起,建立基本游客数据集;
在基本游客数据集中,过滤掉未曾在常住用户的聚类居住区域内出现过的游客,得到过滤游客数据集;过滤游客数据集包括所述游客的手机IMEI码、IMSI码、所述预设时间段、目标区域停留时间和聚类居住区域停留时间;
在过滤游客数据集的基础上,将游客在对应预设时间段前后的活动轨迹与目标区域内交通枢纽位置坐标和路网线路的地理位置进行匹配,得到游客的交通出行方式及漫入漫出时间;匹配游客的交通出行方式和漫入漫出时间生成所述探亲返乡游客待定数据集;探亲返乡游客待定数据集包括所述游客的手机IMEI码、IMSI码、所述预设时间段、目标区域停留时间、聚类居住区域停留时间和交通出行方式与漫入漫出时间。
步骤S6:根据所述探亲返乡游客待定数据集,对每一个被标注为游客的手机用户进行判定,计算判决系数;
需要说明的是,判决系数的计算公式为:
其中,R为所述游客是否为探亲返乡游客的判决系数,n为所述探亲返乡游客待定数据集中所述游客的数量,Ji、Ti、Ui、Li分别为第i个所述游客对应的预设时间段权重系数、目标区域停留时间指标系数、聚类居住区域停留时间指标系数和交通出行方式与漫入漫出时间指标系数;
对于不同的所述预设时间段,依据上一年度在所述预设时间段内探亲返乡游客的数量占总游客数量的比例设置所述预设时间段权重系数Ji;(权重大小依次为春节>国庆>五一>清明>中秋>其他),例如在一年中,预设时间段为春节、国庆和五一,存在多个不同预设时间段,要想知道第i个游客的春节权重系数,则根据上一年度春节期间探亲返乡游客数量占总游客数量的比例设置春节权重系数。
交通出行方式与漫入漫出时间指标系数Li=区间值×交通出行方式权重×Ji;区间值为所述预设时间段±X天内所述游客漫入漫出目标区域的次数,X根据所述预设时间段的天数以及所述预设时间段权重系数Ji推算得出。
步骤S7:根据所述判决系数,判断所述游客是否为探亲返乡游客,得到第四判断结果;
所述根据所述判决系数,判断所述游客是否为探亲返乡游客,具体包括:
当所述判决系数的值大于1时,则判定所述游客为探亲返乡游客;否则判定所述游客为其他类型的游客。
若所述第四判断结果为否,则返回步骤S1;
若所述第四判断结果为是,则标注所述游客为所述探亲返乡游客。
在计算判决系数R时综合考虑了节假日、停留时间、停留区域和交通及漫入漫出等多个维度的信息,能够更准确地区分探亲返乡游客和其他游客。
本实施例中,针对目标区域,以通信运营商信令数据为数据源,结合基站工参,配合路网数据,进行手机用户是否为游客的判定,判定为游客后根据游客在各预设时间段(法定节假日或人为设定时段),在目标区域出现的轨迹来判断手机用户是否是到达该目标区域的探亲返乡游客。可见,本实施例的方法能够准确的判断出预设时间段内进入目标区域的用户是否为探亲返乡的游客,该方法为进一步统计、研究和分析此类游客的行为特征、消费习惯提供基础,能够广泛应用于旅游统计、旅游管理、旅游产品开发和精准营销。
实施例2
请参阅图2,本实施例提供了一种用手机信令数据判别探亲返乡游客的系统,包括:
数据获取模块M1,用于获取目标区域内手机用户预设时间段内的手机信令数据以及所手机用户预设时间段之前的历史手机信令数据;
常住用户判断模块M2,用于基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,得到第一判断结果;
常住用户标注模块M3,用于若所述第一判断结果为是,则将所述手机用户标注为所述常住用户;
居住区域聚类模块M4,用于根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置,通过空间聚类算法确定所述目标区域内所述常住用户的聚类居住区域;确定所述目标区域内所述常住用户的聚类居住区域后,返回数据获取模块;
过路用户判断模块M5,用于若所述第一判断结果为否,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述手机信令数据判断所述手机用户是否为过路用户,得到第二判断结果;
过路用户标注模块M6,用于若所述第二判断结果为是,则将所述手机用户标注为所述过路用户,返回数据获取模块;
游客判断模块M7,用于若所述第二判断结果为否,根据所述手机用户在目标区域预设时间段内停留的时间判断所述手机用户是否为游客,得到第三判断结果;若所述第三判断结果为否,则返回数据获取模块;
游客标注及探亲返乡游客待定数据集建立模块M8,用于若所述第三判断结果为是,则将所述手机用户标注为所述游客,并建立探亲返乡游客待定数据集;
判决系数计算模块M9,用于根据所述探亲返乡游客待定数据集,计算判决系数;
探亲返乡游客判断模块M10,用于根据所述判决系数,判断所述游客是否为探亲返乡游客,得到第四判断结果;若所述第四判断结果为否,则返回数据获取模块;
探亲返乡游客标注模块M11,用于若所述第四判断结果为是,则标注所述游客为所述探亲返乡游客。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种用手机信令数据判别探亲返乡游客的方法,其特征在于,包括:
步骤1:获取目标区域内手机用户在预设时间段内的手机信令数据以及所述手机用户在所述预设时间段之前的历史手机信令数据;
步骤2:基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,得到第一判断结果;
若所述第一判断结果为是,则将所述手机用户标注为所述常住用户,根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置,通过空间聚类确定所述目标区域内所述常住用户的聚类居住区域;确定所述目标区域内所述常住用户的聚类居住区域后,返回步骤1;
步骤3:若所述第一判断结果为否,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述预设时间段内的手机信令数据判断所述手机用户是否为过路用户,得到第二判断结果;
若所述第二判断结果为是,则将所述手机用户标注为所述过路用户,返回步骤1;
步骤4:若所述第二判断结果为否,根据所述手机用户在所述目标区域所述预设时间段内每日驻留时间判断所述手机用户是否为游客,得到第三判断结果;
若所述第三判断结果为否,则返回步骤1;
步骤5:若所述第三判断结果为是,则将所述手机用户标注为所述游客,建立探亲返乡游客待定数据集;
步骤6:根据所述探亲返乡游客待定数据集,计算判决系数;
步骤7:根据所述判决系数,判断所述游客是否为探亲返乡游客,得到第四判断结果;
若所述第四判断结果为否,则返回步骤1;
若所述第四判断结果为是,则标注所述游客为所述探亲返乡游客。
2.根据权利要求1所述的方法,其特征在于,所述基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,具体包括:
基于所述历史手机信令数据,结合所述目标区域内基站工参,对所述手机用户在所述目标区域内的每月停留时间和每日停留时间进行累计;
当所述手机用户在所述目标区域内每月停留时间累计值超过第一预设值,且每日停留时间累计值超过第二预设值,则判定所述手机用户为所述常住用户。
3.根据权利要求1所述的方法,其特征在于,所述根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置确定所述目标区域内所述常住用户的聚类居住区域,具体包括:
在被标注为所述常住用户的所述手机用户中,以所述工作时段和休息日为时间尺度,结合所述目标区域内基站工参,分别依据所述工作时段和休息日对所述常住用户的地理位置使用K-Means、DBSCAN聚类算法进行空间聚类,得到所述常住用户的聚类居住区域。
4.根据权利要求3所述的方法,其特征在于,所述依据所述工作时段和休息日对所述常住用户的地理位置使用K-Means、DBSCAN聚类算法进行空间聚类,得到所述常住用户的居住区域,具体包括:
利用K-Means聚类算法对单个所述常住用户的地理位置进行空间聚类,得到每个所述常住用户的居住区域;
利用DBSCAN聚类算法对所有所述常住用户的居住区域进行空间聚类,得到所述目标区域内所述常住用户的聚类居住区域。
5.根据权利要求1所述的方法,其特征在于,所述建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述预设时间段内的手机信令数据判断所述手机用户是否为过路用户,具体包括:
将所述目标区域内基站工参中的基站经纬度与所述目标区域的路网线路的地理位置坐标进行匹配,得到覆盖路网线路的所述路网基站数据集;所述路网基站数据集包括所述目标区域的省份、地市、县区、道路、基站编号、基站经纬度;
在所述预设时间段内,所述手机用户在所述目标区域内活动的过程中,持续在所述路网基站数据集中的基站之间切换,且在所述目标区域内的基于所述手机信令数据得到的每日逗留时间总计值小于第三预设值,则判定所述手机用户为所述过路用户。
6.根据权利要求1所述的方法,其特征在于,所述根据所述手机用户在所述目标区域所述预设时间段内每日驻留时间判断所述手机用户是否为游客,具体包括:
在所述预设时间段内,所述手机用户在所述目标区域内每日驻留时间超过第四预设值,则判定所述手机用户为所述游客。
7.根据权利要求1所述的方法,其特征在于,所述建立探亲返乡游客待定数据集,具体包括:
在预设年度内,将所述目标区域内多个不同所述预设时间段内所有所述游客的数据汇集,建立基本游客数据集;所述基本游客数据集包括:所述游客的手机IMEI码、IMSI码、所述预设时间段和目标区域停留时间;
在所述基本游客数据集中,过滤掉未曾在所述常住用户的聚类居住区域内出现过的所述游客,得到过滤游客数据集;所述过滤游客数据集包括所述基本游客数据集内容以及聚类居住区域停留时间;
在所述过滤游客数据集的基础上,将所述游客在对应所述预设时间段前后的活动轨迹与所述目标区域内交通枢纽位置坐标和路网线路的地理位置进行匹配,得到所述游客的交通出行方式及漫入漫出时间;匹配所述游客的交通出行方式和漫入漫出时间生成所述探亲返乡游客待定数据集;所述探亲返乡游客待定数据集包括所述过滤游客数据集的内容和交通出行方式与漫入漫出时间。
8.根据权利要求1所述的方法,其特征在于,所述判决系数的计算公式为:
其中,R为所述游客是否为探亲返乡游客的判决系数,n为所述探亲返乡游客待定数据集中所述游客的数量,Ji、Ti、Ui、Li分别为第i个所述游客对应的预设时间段权重系数、目标区域停留时间指标系数、聚类居住区域停留时间指标系数和交通出行方式与漫入漫出时间指标系数;
对于不同的所述预设时间段,依据上一年度在所述预设时间段内探亲返乡游客的数据占总游客数量的比例设置所述预设时间段权重系数Ji;
所述交通出行方式与漫入漫出时间指标系数Li=区间值×交通出行方式权重×Ji;区间值为所述预设时间段±X天内所述游客漫入漫出目标区域的次数,X根据所述预设时间段的天数以及所述预设时间段权重系数Ji推算得出。
9.根据权利要求1所述的方法,其特征在于,所述根据所述判决系数,判断所述游客是否为探亲返乡游客,具体包括:
当所述判决系数的值大于1时,则判定所述游客为探亲返乡游客;否则判定所述游客为其他类型的游客。
10.一种基于权利要求1至9任一项所述的方法的用手机信令数据判别探亲返乡游客的系统,其特征在于,包括:
数据获取模块,用于获取目标区域内手机用户预设时间段内的手机信令数据以及所述手机用户预设时间段之前的历史手机信令数据;
常住用户判断模块,用于基于所述历史手机信令数据,判断手机用户是否为所述目标区域内常住用户,得到第一判断结果;
常住用户标注模块,用于若所述第一判断结果为是,则将所述手机用户标注为所述常住用户;
居住区域聚类模块,用于根据所述常住用户的工作时段和休息日,结合所述常住用户的地理位置,通过空间聚类确定所述目标区域内所述常住用户的聚类居住区域;确定所述目标区域内所述常住用户的聚类居住区域后,返回数据获取模块;
过路用户判断模块,用于若所述第一判断结果为否,建立所述目标区域内路网基站数据集,基于所述路网基站数据集和所述手机信令数据判断所述手机用户是否为过路用户,得到第二判断结果;
过路用户标注模块,用于若所述第二判断结果为是,则将所述手机用户标注为所述过路用户,返回数据获取模块;
游客判断模块,用于若所述第二判断结果为否,根据所述手机用户在目标区域预设时间段内停留的时间判断所述手机用户是否为游客,得到第三判断结果;若所述第三判断结果为否,则返回数据获取模块;
游客标注及探亲返乡游客待定数据集建立模块,用于若所述第三判断结果为是,则将所述手机用户标注为所述游客,并建立探亲返乡游客待定数据集;
判决系数计算模块,用于根据所述探亲返乡游客待定数据集,计算判决系数;
探亲返乡游客判断模块,用于根据所述判决系数,判断所述游客是否为探亲返乡游客,得到第四判断结果;若所述第四判断结果为否,则返回数据获取模块;
探亲返乡游客标注模块,用于若所述第四判断结果为是,则标注所述游客为所述探亲返乡游客。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011621461.2A CN112738729B (zh) | 2020-12-31 | 2020-12-31 | 一种用手机信令数据判别探亲返乡游客的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011621461.2A CN112738729B (zh) | 2020-12-31 | 2020-12-31 | 一种用手机信令数据判别探亲返乡游客的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112738729A true CN112738729A (zh) | 2021-04-30 |
CN112738729B CN112738729B (zh) | 2023-06-16 |
Family
ID=75609706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011621461.2A Active CN112738729B (zh) | 2020-12-31 | 2020-12-31 | 一种用手机信令数据判别探亲返乡游客的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112738729B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733112A (zh) * | 2020-12-31 | 2021-04-30 | 恒安嘉新(北京)科技股份公司 | 一种用户出行方式的确定方法、装置、电子设备和存储介质 |
CN115209351A (zh) * | 2022-09-16 | 2022-10-18 | 智慧足迹数据科技有限公司 | 基于信令数据的空心村识别方法、装置、设备及存储介质 |
CN115866547A (zh) * | 2023-03-01 | 2023-03-28 | 北京融信数联科技有限公司 | 基于信令数据的固定区域游客统计方法、系统和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288106A (zh) * | 2017-10-30 | 2018-07-17 | 江苏鸿信系统集成有限公司 | 一种基于大数据的旅游客流预测方法 |
CN108648453A (zh) * | 2018-05-15 | 2018-10-12 | 北京百益高科信息技术有限公司 | 一种基于手机位置更新信息进行交通出行数据画像的方法 |
CN110958571A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种在差补前提下基于移动信令数据的人口细分方法 |
-
2020
- 2020-12-31 CN CN202011621461.2A patent/CN112738729B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288106A (zh) * | 2017-10-30 | 2018-07-17 | 江苏鸿信系统集成有限公司 | 一种基于大数据的旅游客流预测方法 |
CN108648453A (zh) * | 2018-05-15 | 2018-10-12 | 北京百益高科信息技术有限公司 | 一种基于手机位置更新信息进行交通出行数据画像的方法 |
CN110958571A (zh) * | 2018-09-26 | 2020-04-03 | 北京融信数联科技有限公司 | 一种在差补前提下基于移动信令数据的人口细分方法 |
Non-Patent Citations (2)
Title |
---|
保继刚等: "大数据视角下的游客人数统计问题研究" * |
杨东;韩继国;武平;赵昕;: "基于手机信令数据的游客识别与出行轨迹匹配方法" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733112A (zh) * | 2020-12-31 | 2021-04-30 | 恒安嘉新(北京)科技股份公司 | 一种用户出行方式的确定方法、装置、电子设备和存储介质 |
CN112733112B (zh) * | 2020-12-31 | 2024-05-03 | 恒安嘉新(北京)科技股份公司 | 一种用户出行方式的确定方法、装置、电子设备和存储介质 |
CN115209351A (zh) * | 2022-09-16 | 2022-10-18 | 智慧足迹数据科技有限公司 | 基于信令数据的空心村识别方法、装置、设备及存储介质 |
CN115209351B (zh) * | 2022-09-16 | 2022-12-27 | 智慧足迹数据科技有限公司 | 基于信令数据的空心村识别方法、装置、设备及存储介质 |
CN115866547A (zh) * | 2023-03-01 | 2023-03-28 | 北京融信数联科技有限公司 | 基于信令数据的固定区域游客统计方法、系统和存储介质 |
CN115866547B (zh) * | 2023-03-01 | 2023-06-30 | 北京融信数联科技有限公司 | 基于信令数据的固定区域游客统计方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112738729B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Widhalm et al. | Discovering urban activity patterns in cell phone data | |
Zhao et al. | Understanding the bias of call detail records in human mobility research | |
Zhong et al. | Detecting the dynamics of urban structure through spatial network analysis | |
CN112738729A (zh) | 一种用手机信令数据判别探亲返乡游客的方法及系统 | |
KR20190139130A (ko) | 피셀 알고리즘을 이용하여 실시간 유동 인구 데이터의 제공이 가능한 유동인구 정보 분석 방법 | |
Zheng et al. | Exploring both home-based and work-based jobs-housing balance by distance decay effect | |
Demissie et al. | Analysis of the pattern and intensity of urban activities through aggregate cellphone usage | |
CN109041218B (zh) | 一种预测用户位置的方法和智能硬件 | |
Bergroth et al. | A 24-hour population distribution dataset based on mobile phone data from Helsinki Metropolitan Area, Finland | |
CN104778231A (zh) | 一种地理区域的特征识别方法和装置 | |
Lenormand et al. | Towards a better understanding of cities using mobility data | |
Sun et al. | Identifying tourists and locals by K-means clustering method from mobile phone signaling data | |
CN116437291A (zh) | 一种基于手机信令的文化圈规划方法和系统 | |
CN114219379B (zh) | 一种适用于社区服务圈的资源配套评估方法、及系统 | |
US20230297903A1 (en) | Method for Allocating Resources in a Geographic Area | |
Alhazzani et al. | Urban Attractors: Discovering patterns in regions of attraction in cities | |
Woods et al. | Exploring methods for mapping seasonal population changes using mobile phone data | |
CN116233759B (zh) | 一种居民出行轨迹调查方法及系统 | |
Shen et al. | Novel model for predicting individuals’ movements in dynamic regions of interest | |
Cui et al. | Usage demand forecast and quantity recommendation for urban shared bicycles | |
Ayesha et al. | User localization based on call detail record | |
Yan et al. | A new approach for identifying urban employment centers using mobile phone data: A case study of Shanghai | |
Tsumura et al. | Examining potentials and practical constraints of mobile phone data for improving transport planning in developing countries | |
CN110515961B (zh) | 一种基于时空大数据的基础地理信息更新需求评价方法 | |
CN113408867A (zh) | 基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 541006 No.26 Liangfeng Road, Yanshan District, Guilin City, Guangxi Zhuang Autonomous Region Applicant after: GUILIN TOURISM University Applicant after: Guangxi Daye Intelligent Data Co.,Ltd. Address before: 541006 No.26 Liangfeng Road, Yanshan District, Guilin City, Guangxi Zhuang Autonomous Region Applicant before: GUILIN TOURISM University Applicant before: Shenzhen Daye Intelligent Data Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |