CN115329904A - 一种判别人口数据的离群点检测方法、系统和存储介质 - Google Patents

一种判别人口数据的离群点检测方法、系统和存储介质 Download PDF

Info

Publication number
CN115329904A
CN115329904A CN202211250229.1A CN202211250229A CN115329904A CN 115329904 A CN115329904 A CN 115329904A CN 202211250229 A CN202211250229 A CN 202211250229A CN 115329904 A CN115329904 A CN 115329904A
Authority
CN
China
Prior art keywords
outlier
data
population
population data
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211250229.1A
Other languages
English (en)
Other versions
CN115329904B (zh
Inventor
杨占军
于笑博
成立立
李玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiling Rongxin Datalnfo Science and Technology Ltd
Original Assignee
Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiling Rongxin Datalnfo Science and Technology Ltd filed Critical Beiling Rongxin Datalnfo Science and Technology Ltd
Priority to CN202211250229.1A priority Critical patent/CN115329904B/zh
Publication of CN115329904A publication Critical patent/CN115329904A/zh
Application granted granted Critical
Publication of CN115329904B publication Critical patent/CN115329904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开的一种判别人口数据的离群点检测方法、系统和存储介质,其中方法包括:获取预设区域的人口数据集;基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;获取离群点对应时间内的净流入人口数据信息;将离群点对应的人口数据和离群点对应相邻人口数据进行差值计算,得到离群点人口差值;判断离群点人口差值和净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;将人口数据集中的真离群点进行删除,假离群点保留。本申请通过预设离群点算法和净流入人口数据进行结合,判别离群点并分出真假,保留由偶然非正常因素影响而引起的假离群点,保证了离群点的准确性。

Description

一种判别人口数据的离群点检测方法、系统和存储介质
技术领域
本申请涉及统计检验领域,更具体的,涉及一种判别人口数据的离群点检测方法、系统和存储介质。
背景技术
人是社会发展的主体,统计人口数据是认识社会的重要手段之一。通过统计,得到区域内的人口数据变化,从而反应该区域内的经济发展、能源消耗等状况。传统的人口数据统计为相关人员上门登记,需要消耗大量的人力、物力和财力,并且在登记中容易出现人口漏报、错报等情况,给人口数据统计的准确性带来了挑战。
因此,现有技术存在缺陷,亟待改进。
发明内容
鉴于上述问题,本发明的目的是提供一种判别人口数据的离群点检测方法、系统和存储介质,能够更加有效的检测人口数据中的离群点,从而保证人口数据的准确性。
本发明第一方面提供了一种判别人口数据的离群点检测方法,包括:
获取预设区域的人口数据集;
基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;
获取数据点对应时间内的净流入人口数据信息;
将离群点对应的人口数据和对应相邻人口数据进行差值计算,得到离群点人口差值;
判断离群点人口差值和对应净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;
将人口数据集中的真离群点进行删除,假离群点保留。
本方案中,所述预设离群点算法,具体为:
将预设区域的人口数据集A进行差值计算,得到人口数据差值集B;
基于预设截断差值参数i,将人口数据差值集B中位于i%的差值作为截断差值
Figure 831389DEST_PATH_IMAGE001
根据人口数据差值和截断差值,得到所有数据点的局部密度
Figure 283142DEST_PATH_IMAGE002
基于预设的聚类数目k,根据数据点的局部密度,得到离群点度量指标S,其中:当
Figure 506313DEST_PATH_IMAGE003
,则对应点不是离群点;
Figure 430276DEST_PATH_IMAGE004
,对应点为离群点。
本方案中,所述人口数据差值集B,具体为:
Figure 688082DEST_PATH_IMAGE005
,其中
Figure 524451DEST_PATH_IMAGE006
,n和m为数集A中人口 数据的编号。
本方案中,所述所有数据点的局部密度
Figure 749765DEST_PATH_IMAGE007
,具体为:
Figure 962571DEST_PATH_IMAGE008
,其中:
Figure 809304DEST_PATH_IMAGE009
表示数据点n的局部密度,是距离数据点n的差值小于
Figure 393738DEST_PATH_IMAGE010
的 数据点的个数;x为计数变量,x的初始值为0,当公式1:
Figure 529185DEST_PATH_IMAGE011
时,公式2:
Figure 607999DEST_PATH_IMAGE012
,重复公式1和2,遍历整个集合B。所述
Figure 27348DEST_PATH_IMAGE013
表示集合A中编号为n和m的数据点 之间的差值;数据点n的局部密度,则表示
Figure 267836DEST_PATH_IMAGE014
不变,
Figure 671005DEST_PATH_IMAGE015
为变量且
Figure 225614DEST_PATH_IMAGE016
本方案中,所述离群点度量指标S,具体为:
Figure 312519DEST_PATH_IMAGE017
,其中
Figure 707597DEST_PATH_IMAGE018
, 其中
Figure 817635DEST_PATH_IMAGE019
为数据点n的k邻域集合。
本方案中,所述净流入人口数据,具体为:
净流入人口数据=流入人口数据-流出人口数据。
本发明第二方面提供了一种判别人口数据的离群点检测系统,包括存储器和处理器,所述存储器中存储有判别人口数据的离群点检测方法程序,所述判别人口数据的离群点检测方法程序被所述处理器执行时实现如下步骤:
获取预设区域的人口数据集;
基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;
获取离群点对应时间内的净流入人口数据信息;
将离群点对应的人口数据和离群点对应相邻人口数据进行差值计算,得到离群点人口差值;
判断离群点人口差值和净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;
将人口数据集中的真离群点进行删除,假离群点保留。
本方案中,所述预设离群点算法,具体为:
将预设区域的人口数据集A进行差值计算,得到人口数据差值集B;
基于预设截断差值参数i,将人口数据差值集B中位于i%的差值作为截断差值
Figure 238252DEST_PATH_IMAGE020
根据人口数据差值和截断差值,得到所有数据点的局部密度
Figure 366614DEST_PATH_IMAGE021
基于预设的聚类数目k,根据数据点的局部密度,得到离群点度量指标S,其中:当
Figure 214485DEST_PATH_IMAGE022
,则对应点不是离群点;
Figure 78665DEST_PATH_IMAGE023
,对应点为离群点。
本方案中,所述人口数据差值集B,具体为:
Figure 37394DEST_PATH_IMAGE024
,其中
Figure 36574DEST_PATH_IMAGE025
,n和m为数集A中人口 数据的编号。
本方案中,所述所有数据点的局部密度
Figure 507875DEST_PATH_IMAGE026
,具体为:
Figure 592506DEST_PATH_IMAGE027
,其中:
Figure 338614DEST_PATH_IMAGE028
表示数据点n的局部密度,是距离数据点n的差值小于
Figure 989038DEST_PATH_IMAGE029
的 数据点的个数;x为计数变量,x的初始值为0,当公式1:
Figure 178711DEST_PATH_IMAGE030
时,公式2:
Figure 547375DEST_PATH_IMAGE031
,重复公式1和2,遍历整个集合B。所述
Figure 831595DEST_PATH_IMAGE032
表示集合A中编号为n和m的数据点 之间的差值;数据点n的局部密度,则表示
Figure 805367DEST_PATH_IMAGE033
不变,
Figure 900362DEST_PATH_IMAGE034
为变量且
Figure 943273DEST_PATH_IMAGE035
本方案中,所述离群点度量指标S,具体为:
Figure 250758DEST_PATH_IMAGE036
,其中
Figure 390621DEST_PATH_IMAGE037
,其 中
Figure 859780DEST_PATH_IMAGE038
为数据点n的k邻域集合。
本方案中,所述净流入人口数据,具体为:
净流入人口数据=流入人口数据-流出人口数据。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有一种判别人口数据的离群点检测方法程序,所述一种判别人口数据的离群点检测方法程序被处理器执行时,实现如上述中任一项所述的一种判别人口数据的离群点检测方法的步骤。
本发明公开的一种判别人口数据的离群点检测方法、系统和存储介质,通过预设离群点算法和净流入人口数据进行结合,判别离群点并分出真假,保留由偶然非正常因素影响而引起的假离群点,保证了离群点的准确性。
附图说明
图1示出了本发明一种判别人口数据的离群点检测方法的流程图;
图2示出了本发明预设离群点算法的流程图;
图3示出了本发明一种判别人口数据的离群点检测系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种判别人口数据的离群点检测方法的流程图。
如图1所示,本发明公开了一种判别人口数据的离群点检测方法,包括:
S102,获取预设区域的人口数据集;
S104,基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;
S106,获取数据点对应时间内的净流入人口数据信息;
S108,将离群点对应的人口数据和对应相邻人口数据进行差值计算,得到离群点人口差值;
S110,判断离群点人口差值和对应净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;
S112,将人口数据集中的真离群点进行删除,假离群点保留。
需要说明的是,所示预设离群点算法为一种基于密度峰值聚类的离群点检测算 法,通过预设区域的人口数据集,比如:CS市区的每个月人口数据,将CS市区的每个月入口 数据输入至预设离群点算法,得到对应区域的人口数据离群点,所述离群点为远离人口数 据的一般水平的极大值或极小值。将人口数据集按照时间顺序进行排列并编号,若离群点 对应的人口数据不是最后一个,则和相邻后一个人口数据值进行差值计算,离群点人口差 值等于离群点相邻后一个人口数据值减去离群点对应人口数据值,对应净流入人口数据为 离群点对应时间内的净流入人口数据;若离群点对应的人口数据为最后一个,则和相邻前 一个人口数据值进行差值计算,离群点人口差值等于离群点对应人口数据值减去相邻前一 个人口数据值,对应净流入人口数据为离群点相邻前一个周期内的净流入人口数据。若预 设范围在
Figure 203036DEST_PATH_IMAGE039
,则说明离群点人口差值和对应净流入人口数据的比值再95%至105% 之间为假离群点,对应离群点由于受到某种偶然非正常因素影响而引起的,比如:春节期 间,北上广等一线城市人口流出量突增,且当月人口数量出现急剧减少的现象;若否,则说 明对应离群点为真离群点。
图2示出了本发明预设离群点算法的流程图。
如图2所示,本发明实施例中,所述预设离群点算法,具体为:
S202,将预设区域的人口数据集A进行差值计算,得到人口数据差值集B;
S204,基于预设截断差值参数i,将人口数据差值集B中位于i%的差值作为截断差 值
Figure 32321DEST_PATH_IMAGE040
S206,根据人口数据差值和截断差值,得到所有数据点的局部密度
Figure 980685DEST_PATH_IMAGE041
S208,基于预设的聚类数目k,根据数据点的局部密度,得到离群点度量指标S,其 中:当
Figure 932330DEST_PATH_IMAGE042
,则对应点不是离群点;
Figure 700566DEST_PATH_IMAGE043
,对应点为离群点。
需要说明的是,所示预设离群点算法为一种基于密度峰值聚类的离群点检测算法,通过选取点的局部密度值和选取点的k近邻的平均局部密度的比值作为离群点度量指标,若选取点的离群点度量指标大于或等于1,说明选取点的局部密度大于对应点近邻的平均局部密度,对选取点处于数据集中的密集区域,选取点不是离群点;反之,选取点为离群点。
根据本发明实施例,所述人口数据差值集B,具体为:
Figure 146590DEST_PATH_IMAGE044
,其中
Figure 204588DEST_PATH_IMAGE045
,n和m为数集A中人口 数据的编号。
需要说明的是,人口数据差值集
Figure 77866DEST_PATH_IMAGE046
,其中
Figure 864557DEST_PATH_IMAGE047
, n和m为数集A中人口数据的编号。若:人口数据集
Figure 301223DEST_PATH_IMAGE048
,则
Figure 20918DEST_PATH_IMAGE049
Figure 252048DEST_PATH_IMAGE050
,其 中
Figure 526034DEST_PATH_IMAGE051
Figure 48282DEST_PATH_IMAGE052
,n和m为数集A中人口数据的编号。
根据本发明实施例,所述所有数据点的局部密度
Figure 75013DEST_PATH_IMAGE053
,具体为:
Figure 290094DEST_PATH_IMAGE054
,其中:
Figure 520218DEST_PATH_IMAGE055
表示数据点n的局部密度,是距离数据点n的差值小于
Figure 298687DEST_PATH_IMAGE056
的 数据点的个数;x为计数变量,x的初始值为0,当公式1:
Figure 992974DEST_PATH_IMAGE057
时,公式2:
Figure 565906DEST_PATH_IMAGE058
,重复公式1和2,遍历整个集合B。所述
Figure 80064DEST_PATH_IMAGE059
表示集合A中编号为n和m的数据点之 间的差值;数据点n的局部密度,则表示
Figure 147377DEST_PATH_IMAGE060
不变,
Figure 945438DEST_PATH_IMAGE061
为变量且
Figure 705583DEST_PATH_IMAGE062
需要说明的是,将所有数据点的局部密度设为
Figure 893988DEST_PATH_IMAGE063
,则对应数据点n的局部密度为
Figure 827309DEST_PATH_IMAGE064
,其公式为:
Figure 168292DEST_PATH_IMAGE065
Figure 139485DEST_PATH_IMAGE066
的初始值为0,当公式1:
Figure 362655DEST_PATH_IMAGE067
时,公式2:
Figure 37350DEST_PATH_IMAGE068
,重复公式 1和2,遍历整个集合B。比如:
Figure 544424DEST_PATH_IMAGE069
Figure 380793DEST_PATH_IMAGE070
Figure 91260DEST_PATH_IMAGE071
Figure 615651DEST_PATH_IMAGE072
Figure 931226DEST_PATH_IMAGE073
,当n
Figure 453343DEST_PATH_IMAGE074
时,则存在
Figure 651106DEST_PATH_IMAGE075
的取值有
Figure 667604DEST_PATH_IMAGE076
,其中小于
Figure 883690DEST_PATH_IMAGE077
的值有2个,则公式2重复两次,则:
Figure 327441DEST_PATH_IMAGE078
Figure 12500DEST_PATH_IMAGE079
,得到
Figure 613115DEST_PATH_IMAGE080
根据本发明实施例,所述离群点度量指标S,具体为:
Figure 903282DEST_PATH_IMAGE081
,其中
Figure 32781DEST_PATH_IMAGE082
, 其中
Figure 142819DEST_PATH_IMAGE083
为数据点n的k邻域集合。
需要说明的是,
Figure 563436DEST_PATH_IMAGE084
为数据点n的k邻域集合,k表示为预设的聚类数目,m为 待检测数据集A中数值的编号且
Figure 691798DEST_PATH_IMAGE085
,其中
Figure 539668DEST_PATH_IMAGE086
根据本发明实施例,所述净流入人口数据,具体为:
净流入人口数据=流入人口数据-流出人口数据。
需要说明的是,流入人口数据包含:从其他的地方迁移过来的人口和预设区域的 新生人口;流出人口数据包含:从预设区域迁出的人口和预设区域已故的人口。比如:流入 人口数据为12300,流出人口数据为8300,则对应的净流入人口数据为:
Figure 657709DEST_PATH_IMAGE087
(人)。
根据本发明实施例,还包括:
获取预设区域的流入车次、流出车次、历史流入车次、历史流出车次以及对应的人口数据信息;
将预设区域的历史流入车次以及对应的人口数据信息发送至第一预设神经网络模型中训练,将预设区域的历史流出车次以及对应的人口数据信息发送至第二预设神经网络模型中训练;得到输出结果的准确率;
判断所述准确率是否大于预设准确率阈值,若是,则停止训练,得到基于流入车次的流入人口数据神经网络模型和基于流出车次的流出人口数据神经网络模型。
需要说明的是,将预设区域的历史流入车次、流出车次和对应的人口数据信息进行预处理,得的数据样本,将数据样本分为y份,以y-1份为训练样本,1份为检验样本,其中y大于或等于2。若预设准确率阈值为95%,则当检验样本输入至基于流入车次的流入人口数据神经网络模型或基于流出车次的流出人口数据神经网络模型得到的流入人口数据或流出人口数据的准确率大于95%时,停止训练。通过预设区域的流入车次和流出车次分别得到对应区域的流入人口和流出人口。
根据本发明实施例,还包括:
获取预设真离群点感应信息;
将对应真离群点对应的人口数据值发送至预设管理端以进行提示。
需要说明的是,当检测数据集中出现真离群点时,触发预设管理端的提示装置,并将对应真离群点发送至预设管理端进行显示。预设管理端对真离群点进行分析,确定错误位置,避免同类错误的发生。
根据本发明实施例,还包括:
获取真离群点的个数信息;
判断所述真离群点的个数和人口数据集的总个数比值是否大于预设检测阈值,若是,则对应人口数据集不合格,若否,则对应人口数据集合格。
需要说明的是, 当真离群点的个数和人口数据集的总个数比值大于预设检测阈值时,说明对应人口数据集中的真离群点过多,对应人口数据集不合格。比如:人口数据集中数据的总个数为10个,对应人口数据集中的真离群点为2个,而预设检测阈值为10%,真离群点的个数和人口数据集的总个数比值为20%,大于预设检测阈值,则说明对应人口数据集不合格。
图3示出了本发明一种判别人口数据的离群点检测系统的框图。
如图3所示,本发明第二方面提供了一种判别人口数据的离群点检测系统3,包括存储器31和处理器32,所述存储器中存储有判别人口数据的离群点检测方法程序,所述判别人口数据的离群点检测方法程序被所述处理器执行时实现如下步骤:
获取预设区域的人口数据集;
基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;
获取数据点对应时间内的净流入人口数据信息;
将离群点对应的人口数据和对应相邻人口数据进行差值计算,得到离群点人口差值;
判断离群点人口差值和对应净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;
将人口数据集中的真离群点进行删除,假离群点保留。
需要说明的是,所示预设离群点算法为一种基于密度峰值聚类的离群点检测算 法,通过预设区域的人口数据集,比如:CS市区的每个月人口数据,将CS市区的每个月入口 数据输入至预设离群点算法,得到对应区域的人口数据离群点,所述离群点为远离人口数 据的一般水平的极大值或极小值。将人口数据集按照时间顺序进行排列并编号,若离群点 对应的人口数据不是最后一个,则和相邻后一个人口数据值进行差值计算,离群点人口差 值等于离群点相邻后一个人口数据值减去离群点对应人口数据值,对应净流入人口数据为 离群点对应时间内的净流入人口数据;若离群点对应的人口数据为最后一个,则和相邻前 一个人口数据值进行差值计算,离群点人口差值等于离群点对应人口数据值减去相邻前一 个人口数据值,对应净流入人口数据为离群点相邻前一个周期内的净流入人口数据。若预 设范围在
Figure 554121DEST_PATH_IMAGE088
,则说明离群点人口差值和对应净流入人口数据的比值再95%至105% 之间为假离群点,对应离群点由于受到某种偶然非正常因素影响而引起的,比如:春节期 间,北上广等一线城市人口流出量突增,且当月人口数量出现急剧减少的现象;若否,则说 明对应离群点为真离群点。
根据本发明实施例,所述预设离群点算法,具体为:
将预设区域的人口数据集A进行差值计算,得到人口数据差值集B;
基于预设截断差值参数i,将人口数据差值集B中位于i%的差值作为截断差值
Figure 615618DEST_PATH_IMAGE089
根据人口数据差值和截断差值,得到所有数据点的局部密度
Figure 352499DEST_PATH_IMAGE090
基于预设的聚类数目k,根据数据点的局部密度,得到离群点度量指标S,其中:当
Figure 437129DEST_PATH_IMAGE091
,则对应点不是离群点;
Figure 386500DEST_PATH_IMAGE092
,对应点为离群点。
需要说明的是,所示预设离群点算法为一种基于密度峰值聚类的离群点检测算法,通过选取点的局部密度值和选取点的k近邻的平均局部密度的比值作为离群点度量指标,若选取点的离群点度量指标大于或等于1,说明选取点的局部密度大于对应点近邻的平均局部密度,对选取点处于数据集中的密集区域,选取点不是离群点;反之,选取点为离群点。
根据本发明实施例,所述人口数据差值集B,具体为:
Figure 240186DEST_PATH_IMAGE093
,其中
Figure 679127DEST_PATH_IMAGE094
,n和m为数集A中人口 数据的编号。
需要说明的是,人口数据差值集
Figure 782212DEST_PATH_IMAGE095
,其中
Figure 817164DEST_PATH_IMAGE096
, n和m为数集A中人口数据的编号。若:人口数据集
Figure 40204DEST_PATH_IMAGE097
,则
Figure 135199DEST_PATH_IMAGE098
Figure 991159DEST_PATH_IMAGE099
,其 中
Figure 829802DEST_PATH_IMAGE100
Figure 704086DEST_PATH_IMAGE101
,n和m为数集A中人口数据的编 号。
根据本发明实施例,所述所有数据点的局部密度
Figure 173245DEST_PATH_IMAGE102
,具体为:
Figure 250922DEST_PATH_IMAGE103
,其中:
Figure 142524DEST_PATH_IMAGE104
表示数据点n的局部密度,是距离数据点n的差值小于
Figure 622047DEST_PATH_IMAGE105
的 数据点的个数;x为计数变量,x的初始值为0,当公式1:
Figure 262107DEST_PATH_IMAGE106
时,公式2:
Figure 76348DEST_PATH_IMAGE107
,重复公式1和2,遍历整个集合B。所述
Figure 522372DEST_PATH_IMAGE108
表示集合A中编号为n和m的数据点 之间的差值;数据点n的局部密度,则表示
Figure 856402DEST_PATH_IMAGE109
不变,
Figure 934209DEST_PATH_IMAGE110
为变量且
Figure 986478DEST_PATH_IMAGE111
需要说明的是,将所有数据点的局部密度设为
Figure 970615DEST_PATH_IMAGE112
,则对应数据点n的局部密度为
Figure 159151DEST_PATH_IMAGE113
,其公式为:
Figure 452598DEST_PATH_IMAGE114
Figure 195426DEST_PATH_IMAGE115
的初始值为0,当公式1:
Figure 717674DEST_PATH_IMAGE116
时,公式2:
Figure 541142DEST_PATH_IMAGE117
,重复 公式1和2,遍历整个集合B。比如:
Figure 490644DEST_PATH_IMAGE118
Figure 720768DEST_PATH_IMAGE070
Figure 30396DEST_PATH_IMAGE071
Figure 459103DEST_PATH_IMAGE072
Figure 845085DEST_PATH_IMAGE073
, 当n
Figure 93664DEST_PATH_IMAGE119
时,则存在
Figure 410244DEST_PATH_IMAGE120
的取值有:
Figure 959037DEST_PATH_IMAGE121
,其中小于
Figure 250341DEST_PATH_IMAGE122
的值有2 个,则公式2重复两次,则:
Figure 438746DEST_PATH_IMAGE123
Figure 106488DEST_PATH_IMAGE124
,得到
Figure 509787DEST_PATH_IMAGE125
根据本发明实施例,所述离群点度量指标S,具体为:
Figure 221260DEST_PATH_IMAGE126
,其中
Figure 444431DEST_PATH_IMAGE127
, 其中
Figure 853547DEST_PATH_IMAGE128
为数据点n的k邻域集合。
需要说明的是,
Figure 360620DEST_PATH_IMAGE129
为数据点n的k邻域集合,k表示为预设的聚类数目,m为待 检测数据集A中数值的编号且
Figure 622755DEST_PATH_IMAGE130
,其中
Figure 598802DEST_PATH_IMAGE131
根据本发明实施例,所述净流入人口数据,具体为:
净流入人口数据=流入人口数据-流出人口数据。
需要说明的是,流入人口数据包含:从其他的地方迁移过来的人口和预设区域的 新生人口;流出人口数据包含:从预设区域迁出的人口和预设区域已故的人口。比如:流入 人口数据为12300,流出人口数据为8300,则对应的净流入人口数据为:
Figure 60876DEST_PATH_IMAGE132
(人)。
根据本发明实施例,还包括:
获取预设区域的流入车次、流出车次、历史流入车次、历史流出车次以及对应的人口数据信息;
将预设区域的历史流入车次以及对应的人口数据信息发送至第一预设神经网络模型中训练,将预设区域的历史流出车次以及对应的人口数据信息发送至第二预设神经网络模型中训练;得到输出结果的准确率;
判断所述准确率是否大于预设准确率阈值,若是,则停止训练,得到基于流入车次的流入人口数据神经网络模型和基于流出车次的流出人口数据神经网络模型。
需要说明的是,将预设区域的历史流入车次、流出车次和对应的人口数据信息进行预处理,得的数据样本,将数据样本分为y份,以y-1份为训练样本,1份为检验样本,其中y大于或等于2。若预设准确率阈值为95%,则当检验样本输入至基于流入车次的流入人口数据神经网络模型或基于流出车次的流出人口数据神经网络模型得到的流入人口数据或流出人口数据的准确率大于95%时,停止训练。通过预设区域的流入车次和流出车次分别得到对应区域的流入人口和流出人口。
根据本发明实施例,还包括:
获取预设真离群点感应信息;
将对应真离群点对应的人口数据值发送至预设管理端以进行提示。
需要说明的是,当检测数据集中出现真离群点时,触发预设管理端的提示装置,并将对应真离群点发送至预设管理端进行显示。预设管理端对真离群点进行分析,确定错误位置,避免同类错误的发生。
根据本发明实施例,还包括:
获取真离群点的个数信息;
判断所述真离群点的个数和人口数据集的总个数比值是否大于预设检测阈值,若是,则对应人口数据集不合格,若否,则对应人口数据集合格。
需要说明的是, 当真离群点的个数和人口数据集的总个数比值大于预设检测阈值时,说明对应人口数据集中的真离群点过多,对应人口数据集不合格。比如:人口数据集中数据的总个数为10个,对应人口数据集中的真离群点为2个,而预设检测阈值为10%,真离群点的个数和人口数据集的总个数比值为20%,大于预设检测阈值,则说明对应人口数据集不合格。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有一种判别人口数据的离群点检测方法程序,所述一种判别人口数据的离群点检测方法程序被处理器执行时,实现如上述中任一项所述的一种判别人口数据的离群点检测方法的步骤。
本发明公开的一种判别人口数据的离群点检测方法、系统和存储介质,其中方法包括:获取预设区域的人口数据集;基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;获取离群点对应时间内的净流入人口数据信息;将离群点对应的人口数据和离群点对应相邻人口数据进行差值计算,得到离群点人口差值;判断离群点人口差值和净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;将人口数据集中的真离群点进行删除,假离群点保留。本申请通过预设离群点算法和净流入人口数据进行结合,判别离群点并分出真假,保留由偶然非正常因素影响而引起的假离群点,保证了离群点的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种判别人口数据的离群点检测方法,其特征在于,包括:
获取预设区域的人口数据集;
基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;
获取数据点对应时间内的净流入人口数据信息;
将离群点对应的人口数据和对应相邻人口数据进行差值计算,得到离群点人口差值;
判断离群点人口差值和对应净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;
将人口数据集中的真离群点进行删除,假离群点保留。
2.根据权利要求1所述的一种判别人口数据的离群点检测方法,其特征在于,所述预设离群点算法,具体为:
将预设区域的人口数据集A进行差值计算,得到人口数据差值集B;
基于预设截断差值参数i,将人口数据差值集B中位于i%的差值作为截断差值
Figure 312100DEST_PATH_IMAGE001
根据人口数据差值和截断差值,得到所有数据点的局部密度
Figure 432502DEST_PATH_IMAGE002
基于预设的聚类数目k,根据数据点的局部密度,得到离群点度量指标S,其中:当
Figure 805715DEST_PATH_IMAGE003
,则对应点不是离群点;
Figure 279553DEST_PATH_IMAGE004
,对应点为离群点。
3.根据权利要求2所述的一种判别人口数据的离群点检测方法,其特征在于,所述人口数据差值集B,具体为:
Figure 562766DEST_PATH_IMAGE005
,其中
Figure 713125DEST_PATH_IMAGE006
,n和m为数集A中人口数据的 编号。
4.根据权利要求2所述的一种判别人口数据的离群点检测方法,其特征在于,所述所有 数据点的局部密度
Figure 58787DEST_PATH_IMAGE007
,具体为:
Figure 726529DEST_PATH_IMAGE008
,其中:
Figure 723303DEST_PATH_IMAGE009
表示数据点n的局部密度,是距离数据点n的差值小于
Figure 789436DEST_PATH_IMAGE010
的数据点 的个数;x为计数变量,x的初始值为0,当公式1:
Figure 747028DEST_PATH_IMAGE011
时,公式2:
Figure 811936DEST_PATH_IMAGE012
, 重复公式1和2,遍历整个集合B;所述
Figure 413950DEST_PATH_IMAGE013
表示集合A中编号为n和m的数据点之间的差值; 数据点n的局部密度,则表示
Figure 312636DEST_PATH_IMAGE014
不变,
Figure 882157DEST_PATH_IMAGE015
为变量且
Figure 235909DEST_PATH_IMAGE016
5.根据权利要求2所述的一种判别人口数据的离群点检测方法,其特征在于,所述离群点度量指标S,具体为:
Figure 348222DEST_PATH_IMAGE017
,其中
Figure 276864DEST_PATH_IMAGE018
,其中
Figure DEST_PATH_IMAGE019
为数据点n的k邻域集合。
6.根据权利要求1所述的一种判别人口数据的离群点检测方法,其特征在于,所述净流入人口数据,具体为:
净流入人口数据=流入人口数据-流出人口数据。
7.一种判别人口数据的离群点检测系统,其特征在于,包括存储器和处理器,所述存储器中存储有判别人口数据的离群点检测方法程序,所述判别人口数据的离群点检测方法程序被所述处理器执行时实现如下步骤:
获取预设区域的人口数据集;
基于预设离群点算法,根据预设区域的人口数据集,得到离群点数据;
获取数据点对应时间内的净流入人口数据信息;
将离群点对应的人口数据和对应相邻人口数据进行差值计算,得到离群点人口差值;
判断离群点人口差值和对应净流入人口数据的比值是否在预设范围,若是,则得到对应离群点是假离群点;若否,则对应离群点为真离群点;
将人口数据集中的真离群点进行删除,假离群点保留。
8.根据权利要求7所述的一种判别人口数据的离群点检测系统,其特征在于,所述预设离群点算法,具体为:
将预设区域的人口数据集A进行差值计算,得到人口数据差值集B;
基于预设截断差值参数i,将人口数据差值集B中位于i%的差值作为截断差值
Figure 553255DEST_PATH_IMAGE020
根据人口数据差值和截断差值,得到所有数据点的局部密度
Figure DEST_PATH_IMAGE021
基于预设的聚类数目k,根据数据点的局部密度,得到离群点度量指标S,其中:当
Figure 428807DEST_PATH_IMAGE022
,则对应点不是离群点;
Figure DEST_PATH_IMAGE023
,对应点为离群点。
9.根据权利要求8所述的一种判别人口数据的离群点检测系统,其特征在于,所述所有 数据点的局部密度
Figure 598889DEST_PATH_IMAGE024
,具体为:
Figure DEST_PATH_IMAGE025
,其中:
Figure 652427DEST_PATH_IMAGE026
表示数据点n的局部密度,是距离数据点n的差值小于
Figure DEST_PATH_IMAGE027
的数据点 的个数;x为计数变量,x的初始值为0,当公式1:
Figure 399803DEST_PATH_IMAGE028
时,公式2:
Figure DEST_PATH_IMAGE029
, 重复公式1和2,遍历整个集合B;所述
Figure 954412DEST_PATH_IMAGE030
表示集合A中编号为n和m的数据点之间的差值; 数据点n的局部密度,则表示
Figure DEST_PATH_IMAGE031
不变,
Figure 854366DEST_PATH_IMAGE032
为变量且
Figure DEST_PATH_IMAGE033
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有一种判别人口数据的离群点检测方法程序,所述一种判别人口数据的离群点检测方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种判别人口数据的离群点检测方法的步骤。
CN202211250229.1A 2022-10-13 2022-10-13 一种判别人口数据的离群点检测方法、系统和存储介质 Active CN115329904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250229.1A CN115329904B (zh) 2022-10-13 2022-10-13 一种判别人口数据的离群点检测方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250229.1A CN115329904B (zh) 2022-10-13 2022-10-13 一种判别人口数据的离群点检测方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN115329904A true CN115329904A (zh) 2022-11-11
CN115329904B CN115329904B (zh) 2023-04-28

Family

ID=83914350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250229.1A Active CN115329904B (zh) 2022-10-13 2022-10-13 一种判别人口数据的离群点检测方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN115329904B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561508A (zh) * 2023-07-10 2023-08-08 北京融信数联科技有限公司 基于大数据的人口数据的离群点检测方法、系统和介质
CN116861197A (zh) * 2023-09-01 2023-10-10 北京融信数联科技有限公司 一种基于大数据的流动人口监测方法、系统和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156596A1 (en) * 2001-02-26 2002-10-24 Joe Caruso Method for improving robustness of weighted estimates in a statistical survey analysis
CN104462819A (zh) * 2014-12-09 2015-03-25 国网四川省电力公司信息通信公司 一种基于密度聚类的局部离群点检测方法
CN109753991A (zh) * 2018-12-06 2019-05-14 中科恒运股份有限公司 异常数据检测方法及装置
CN110059919A (zh) * 2019-03-07 2019-07-26 特斯联(北京)科技有限公司 一种基于大数据的人口异常信息检测方法和系统
CN114662602A (zh) * 2022-03-25 2022-06-24 中国银联股份有限公司 一种离群点检测方法、装置、电子设备及存储介质
CN115080555A (zh) * 2022-08-18 2022-09-20 北京融信数联科技有限公司 一种基于信令获取人口数据判别离群点的方法、系统和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156596A1 (en) * 2001-02-26 2002-10-24 Joe Caruso Method for improving robustness of weighted estimates in a statistical survey analysis
CN104462819A (zh) * 2014-12-09 2015-03-25 国网四川省电力公司信息通信公司 一种基于密度聚类的局部离群点检测方法
CN109753991A (zh) * 2018-12-06 2019-05-14 中科恒运股份有限公司 异常数据检测方法及装置
CN110059919A (zh) * 2019-03-07 2019-07-26 特斯联(北京)科技有限公司 一种基于大数据的人口异常信息检测方法和系统
CN114662602A (zh) * 2022-03-25 2022-06-24 中国银联股份有限公司 一种离群点检测方法、装置、电子设备及存储介质
CN115080555A (zh) * 2022-08-18 2022-09-20 北京融信数联科技有限公司 一种基于信令获取人口数据判别离群点的方法、系统和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛安荣: "空间离群点挖掘技术的研究", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561508A (zh) * 2023-07-10 2023-08-08 北京融信数联科技有限公司 基于大数据的人口数据的离群点检测方法、系统和介质
CN116561508B (zh) * 2023-07-10 2023-11-03 北京融信数联科技有限公司 基于大数据的人口数据的离群点检测方法、系统和介质
CN116861197A (zh) * 2023-09-01 2023-10-10 北京融信数联科技有限公司 一种基于大数据的流动人口监测方法、系统和存储介质
CN116861197B (zh) * 2023-09-01 2024-04-05 北京融信数联科技有限公司 一种基于大数据的流动人口监测方法、系统和存储介质

Also Published As

Publication number Publication date
CN115329904B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN115329904A (zh) 一种判别人口数据的离群点检测方法、系统和存储介质
CN111128399A (zh) 一种基于人流密度的流行病疫情风险等级评估方法
CN104408547A (zh) 一种基于数据挖掘的医保欺诈行为的检测方法
CN111614690A (zh) 一种异常行为检测方法及装置
CN102572744B (zh) 识别特征库获取方法、装置及短消息识别方法、装置
CN110443120A (zh) 一种人脸识别方法及设备
CN106919957A (zh) 处理数据的方法及装置
CN110471821A (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN115660262B (zh) 一种基于数据库应用的工程智慧质检方法、系统及介质
CN115659985B (zh) 电力知识图谱实体对齐方法、装置和计算机设备
CN107944761A (zh) 基于人工智能消费维权指数企业投诉预警监测分析方法
CN113837323A (zh) 满意度预测模型的训练方法、装置、电子设备及存储介质
CN111626360A (zh) 用于检测锅炉故障类型的方法、装置、设备和存储介质
CN116610821A (zh) 一种基于知识图谱的企业风险分析方法、系统和存储介质
CN107563402A (zh) 一种社交关系推断方法及系统
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN114172856B (zh) 消息自动回复方法、装置、设备及存储介质
CN112561260B (zh) 城区安全隐患的智慧管理方法、系统、终端及存储介质
CN114648683A (zh) 基于不确定性分析的神经网络性能提升方法和设备
CN115239215A (zh) 一种基于深度异常检测的企业风险识别方法和系统
CN108446739A (zh) 一种数据录入监测方法及装置
CN114037993A (zh) 变电站指针仪表读数方法、装置、存储介质以及电子设备
CN114240924A (zh) 一种基于数字化技术的电网设备质量评估方法
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN112288550B (zh) 区域订单分析方法、系统和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant