CN113094448B - 住宅空置状态的分析方法及分析装置、电子设备 - Google Patents
住宅空置状态的分析方法及分析装置、电子设备 Download PDFInfo
- Publication number
- CN113094448B CN113094448B CN202110368060.9A CN202110368060A CN113094448B CN 113094448 B CN113094448 B CN 113094448B CN 202110368060 A CN202110368060 A CN 202110368060A CN 113094448 B CN113094448 B CN 113094448B
- Authority
- CN
- China
- Prior art keywords
- data
- electricity
- determining
- residence
- residents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 230000005611 electricity Effects 0.000 claims abstract description 166
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000006399 behavior Effects 0.000 claims description 66
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Probability & Statistics with Applications (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种住宅空置状态的分析方法及分析装置、电子设备。其中,该方法包括:获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;基于用电数据,采用均值漂移聚类算法确定用电行为特征;基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;采用居民住宅空置率模型,分析各分布区域的住宅空置状态。本发明解决了相关技术中通过用电量分析居民住房空置率,准确性低的技术问题。
Description
技术领域
本发明涉及信息处理领域,具体而言,涉及一种住宅空置状态的分析方法及分析装置、电子设备。
背景技术
在房地产业迅猛发展的同时,住房空置问题也日益凸显,房屋大量空置会扭曲住房供求关系,从而导致住房(尤其是租赁住房)的供给不足。它不仅使房价居高不下,也推动了房租的上涨。与房价上涨相比,房租上涨会对租房居住群体的生活产生更大的负面影响,甚至会进一步扩大贫富差距,造成更为严重的社会不公平,因此,需要实时分析当前住宅空置率。
相关技术中,都是通过用电量分析居民住房空置率,以“电量”为核心,作为居民空置的判定规则,非纸质或抽样统计数据,但以电量作为居民住房空置判定,其准确性以及实效性较低;有些通过用电量分析居民住房空置率的分析方法,自动关联居民用户所属的楼盘、线路、区域,有利于简单分析以及改变分析对象,可通过调整阀值马上分析出居民空置率情况,由于居民住房种类各不相同,但参照阈值相同,分析出的空置率准确性极低,无法适用于分析不同类型居民的住宅空置率。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种住宅空置状态的分析方法及分析装置、电子设备,以至少解决相关技术中通过用电量分析居民住房空置率,准确性低的技术问题。
根据本发明实施例的一个方面,提供了一种住宅空置状态的分析方法,包括:获取第一类居民的用电数据,其中,所述第一类居民为用电电压低于预设电压阈值的居民;基于所述用电数据,采用均值漂移聚类算法确定用电行为特征;基于所述用电行为特征,采用预设分类树算法构建居民住宅空置率模型;采用所述居民住宅空置率模型,分析各分布区域的住宅空置状态。
可选地,获取第一类居民的用电数据的步骤,包括:获取第一类居民的在用电时的电压数据、电流数据、功率数据、功率因数和异常事件信息,得到所述用电数据。
可选地,在获取第一类居民的用电数据之后,所述分析方法还包括:对所述用电数据进行预处理操作,其中,所述预处理操作包括:删除缺失数据、删除冗余数据、删除异常数据,所述缺失数据指示与预设字段对应的字段数据为空的数据,所述预设字段包括下述至少之一:台区名称、台区编号、停电时间、用户名称、用户编号,所述冗余数据为字段重复的数据;对预处理操作后的所述用电数据进行归一化处理。
可选地,基于所述用电数据,采用均值漂移聚类算法确定用电行为特征的步骤,包括:在特征空间中随机选择一个点作为初始搜索区域圆的圆心,并确定初始搜索区域圆的半径;根据第一预设公式搜索初始搜索区域圆中所有样本点的均值,其中,所述样本点与每份用电数据对应;计算圆心与均值之差,得到均值漂移向量,其中,所述均值漂移向量的方向指向样本点密度增加的方向;若所述均值漂移向量的模值小于预设阈值,则停止迭代搜索,得到所述用电行为特征。
可选地,所述用电行为特征包括:用户月用电量、月平均功率、月平均电压、月平均电流、异常事件标签。
可选地,基于所述用电行为特征,采用预设分类树算法构建居民住宅空置率模型的步骤,包括:输入数据集和特征集,其中,所述数据集为多个用户的用电数据对应的集合,所述特征集为多个所述用电行为特征的集合;计算所述特征集中每个用电行为特征关联的特征取值对所述数据集的基尼系数,得到基尼系数集合;确定所述基尼系数集合中最小的基尼系数值以及与所述最小的基尼系数值对应的特征最优二值切分点;基于所述最小的基尼系数值和特征最优二值切分点,确定目标分类树;基于所述目标分类树,确定居民住宅空置率模型。
可选地,在采用均值漂移聚类算法确定用电行为特征之后,所述分析方法还包括:基于所述用电行为特征,确定居民住宅使用状态,其中,所述居民住宅使用状态包括下述之一:长期居住用户、邻近区域用户、外地输入用户。
根据本发明实施例的另一方面,还提供了一种住宅空置状态的分析装置,包括:获取单元,用于获取第一类居民的用电数据,其中,所述第一类居民为用电电压低于预设电压阈值的居民;第一确定单元,用于基于所述用电数据,采用均值漂移聚类算法确定用电行为特征;构建单元,用于基于所述用电行为特征,采用预设分类树算法构建居民住宅空置率模型;分析单元,用于采用所述居民住宅空置率模型,分析各分布区域的住宅空置状态。
可选地,所述获取单元包括:第一获取模块,用于获取第一类居民的在用电时的电压数据、电流数据、功率数据、功率因数和异常事件信息,得到所述用电数据。
可选地,所述住宅空置状态的分析装置还包括:预处理单元,用于在获取第一类居民的用电数据之后,对所述用电数据进行预处理操作,其中,所述预处理操作包括:删除缺失数据、删除冗余数据、删除异常数据,所述缺失数据指示与预设字段对应的字段数据为空的数据,所述预设字段包括下述至少之一:台区名称、台区编号、停电时间、用户名称、用户编号,所述冗余数据为字段重复的数据;归一化单元,用于对预处理操作后的所述用电数据进行归一化处理。
可选地,所述第一确定单元包括:第一确定模块,用于在特征空间中随机选择一个点作为初始搜索区域圆的圆心,并确定初始搜索区域圆的半径;第一搜索模块,用于根据第一预设公式搜索初始搜索区域圆中所有样本点的均值,其中,所述样本点与每份用电数据对应;第一计算模块,用于计算圆心与均值之差,得到均值漂移向量,其中,所述均值漂移向量的方向指向样本点密度增加的方向;停止模块,用于在所述均值漂移向量的模值小于预设阈值,则停止迭代搜索,得到所述用电行为特征。
可选地,所述用电行为特征包括:用户月用电量、月平均功率、月平均电压、月平均电流、异常事件标签。
可选地,所述构建单元包括:第一输入模块,用于输入数据集和特征集,其中,所述数据集为多个用户的用电数据对应的集合,所述特征集为多个所述用电行为特征的集合;第二计算模块,用于计算所述特征集中每个用电行为特征关联的特征取值对所述数据集的基尼系数,得到基尼系数集合;第二确定模块,用于确定所述基尼系数集合中最小的基尼系数值以及与所述最小的基尼系数值对应的特征最优二值切分点;第三确定模块,用于基于所述最小的基尼系数值和特征最优二值切分点,确定目标分类树;第四确定模块,用于基于所述目标分类树,确定居民住宅空置率模型。
可选地,所述住宅空置状态的分析装置还包括:第五确定模块,用于在采用均值漂移聚类算法确定用电行为特征之后,基于所述用电行为特征,确定居民住宅使用状态,其中,所述居民住宅使用状态包括下述之一:长期居住用户、邻近区域用户、外地输入用户。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的住宅空置状态的分析方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的住宅空置状态的分析方法。
本发明实施例中,采用获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;基于用电数据,采用均值漂移聚类算法确定用电行为特征;基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;采用居民住宅空置率模型,分析各分布区域的住宅空置状态。在该实施例中,可以获取到用户的用电数据,能够基本判断居民是否在家活动或外出离家,根据各区域用电行为数据得出各区域住宅空置率,掌握各分布区域的人口流动情况,精准锁定用户范围,大幅提升查找效率,从而解决相关技术中通过用电量分析居民住房空置率,准确性低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的住宅空置状态的分析方法的流程图;
图2是根据本发明实施例的一种可选的采用居民住宅空置率模型实现特征分类的示意图;
图3是根据本发明实施例的一种可选的住宅空置状态的分析装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种住宅空置状态的分析方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的住宅空置状态的分析方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;
步骤S104,基于用电数据,采用均值漂移聚类算法确定用电行为特征;
步骤S106,基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;
步骤S108,采用居民住宅空置率模型,分析各分布区域的住宅空置状态。
通过上述步骤,可以获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;基于用电数据,采用均值漂移聚类算法确定用电行为特征;基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;采用居民住宅空置率模型,分析各分布区域的住宅空置状态。在该实施例中,可以获取到用户的用电数据,能够基本判断居民是否在家活动或外出离家,根据各区域用电行为数据得出各区域住宅空置率,掌握各分布区域的人口流动情况,精准锁定用户范围,大幅提升查找效率,从而解决相关技术中通过用电量分析居民住房空置率,准确性低的技术问题。
下面结合上述各实施步骤来详细说明本发明。
步骤S102,获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民。
第一类居民可理解为低压用电居民。可选的,获取第一类居民的用电数据的步骤,包括:获取第一类居民的在用电时的电压数据、电流数据、功率数据、功率因数和异常事件信息,得到用电数据。
数据来源为用采系统、营销系统、PMS系统等电网内部系统,具体获取方式为借助HPLC(宽带电力线载波)获取高频采集用电数据,包括电压、电流、功率、功率因数和异常事件信息,存储于电网内部系统,通过数据接口每隔预设时长(例如,间隔15分钟)从电网内部系统中获取实时数据。
本发明实施例中,在获取第一类居民的用电数据之后,分析方法还包括:对用电数据进行预处理操作,其中,预处理操作包括:删除缺失数据、删除冗余数据、删除异常数据,缺失数据指示与预设字段对应的字段数据为空的数据,预设字段包括下述至少之一:台区名称、台区编号、停电时间、用户名称、用户编号,冗余数据为字段重复的数据;对预处理操作后的用电数据进行归一化处理。
数据收集:提取低压居民用电的日电量数据、电压数据、电流数据、功率数据、异常事件信息数据。
数据预处理是指:剔除数据中的缺失数据、异常数据,对处理后的数据进行Z-Scroe归一化预处理,以消除量纲的影响,使得从所有样本提取的特征可以在同一量纲下作比对。数据处理的规则如下:
①各字段任意数据缺失即定义为数据缺失,如台区名称、台区编号、停电时间、用户名称、用户编号等为空。
②明细条目重复出现即定义为数据冗余,如台区名称、台区编号、停电时间等数据重复、冲突。
③业务数据出现明显的常识性错误,即定义为数据不准确,如停电起始时间等与常识不符。
步骤S104,基于用电数据,采用均值漂移聚类算法确定用电行为特征。
可选的,基于用电数据,采用均值漂移聚类算法确定用电行为特征的步骤,包括:在特征空间中随机选择一个点作为初始搜索区域圆的圆心,并确定初始搜索区域圆的半径;根据第一预设公式搜索初始搜索区域圆中所有样本点的均值,其中,样本点与每份用电数据对应;计算圆心与均值之差,得到均值漂移向量,其中,均值漂移向量的方向指向样本点密度增加的方向;若均值漂移向量的模值小于预设阈值,则停止迭代搜索,得到用电行为特征。
均值漂移聚类是基于滑动窗口的算法,来找到数据点的密集区域。这是一个基于质心的算法,首先在样本中随机选择一个搜索区域圆,圆心为O,半径为h,通过迭代公式计算出这个搜索区域中所有样本点的平均值,新得到的均值点密度必然是大于初始圆心点处的密度,重复以上步骤,直到密度变化小于一定值,则收敛到密度极大值点。
具体算法步骤为:
1),在特征空间中随机选择一个点作为初始搜索区域圆的圆心O,并给定圆的半径h。
2),根据第一预设公式计算初始搜索区域圆中所有样本点的均值mh(x)。
3),圆心O处的密度一定小于mh(x)的密度,计算圆心O与均值mh(x)之差,也就是均值漂移向量Mh(x),向量的方向是指向密度增加的方向。
4),如果均值漂移向量的模小于一定的阈值,||Mh(x)||<ε,则迭代算法结束,否则执行步骤5。
5),将均值mh(x)赋给圆心O,执行步骤2)。
可选的,用电行为特征包括:用户月用电量、月平均功率、月平均电压、月平均电流、异常事件标签。
另一种可选的,在采用均值漂移聚类算法确定用电行为特征之后,分析方法还包括:基于用电行为特征,确定居民住宅使用状态,其中,居民住宅使用状态包括下述之一:长期居住用户、邻近区域用户、外地输入用户。
步骤S106,基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型。
可选的,基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型的步骤,包括:输入数据集和特征集,其中,数据集为多个用户的用电数据对应的集合,特征集为多个用电行为特征的集合;计算特征集中每个用电行为特征关联的特征取值对数据集的基尼系数,得到基尼系数集合;确定基尼系数集合中最小的基尼系数值以及与最小的基尼系数值对应的特征最优二值切分点;基于最小的基尼系数值和特征最优二值切分点,确定目标分类树;基于目标分类树,确定居民住宅空置率模型。
本发明实施例涉及的预设分类树算法可以为CART分类树算法。
CART分类树预测分类离散型数据,采用基尼指数选择最优特征,同时决定该特征的最优二值切分点。分类过程中,假设有K个类,样本点属于第k个类的概率为pk,则概率分布的基尼指数定义为根据基尼指数定义,可以得到样本集合D的基尼系数/>其中Ck表示数据集D中属于第k类的样本子集。如果数据集D根据特征A在某一取值a上进行分割,得到D1,D2两部分后,那么在特征A下集合D的基尼系数/>其中基尼指数Gini(D)表示集合D的不确定性,基尼系数Gini(D,A)表示A=a分割后集合D的不确定性。基尼指数越大,样本集合的不确定性越大。对于属性A,分别计算任意属性值将数据集划分为两部分之后的Gain_Gini,选取其中的最小值/>作为属性A得到的最优二分方案。然后对于训练集S,计算所有属性的最优二分方案,选取其中的最小值/>作为样本及S的最优二分方案。
分类树生成算法如下:
(1)输入:给定数据集D,特征集A;
(2)计算特征集A中所有特征和这些特征所有可能的取值a对数据集D的基尼数;
(3)Abest=由计算得到的基尼系数中最小的基尼指数值所对应的特征最优切分点abest=选取的最优特征中所有取值a对应的最小基尼指数。
(4)递归地迭代步骤(1)和步骤(2),直到满足其他停止标准的条件则算法终止。
(5)输出:分类树。
根据分类结果将特征数据按照每个特征状态进行分类,最终训练出分类的模型。
步骤S108,采用居民住宅空置率模型,分析各分布区域的住宅空置状态。
图2是根据本发明实施例的一种可选的采用居民住宅空置率模型实现特征分类的示意图,如图2所示,在得到用电行为特征数据后,根据电压波动情况,分为电压平稳和电压波动两类,对于电压平稳的,分析用电量峰值情况,若是用电量高,则判断为入住状态,用电量低,则进行异常事件信息判断,若是异常事件,则确定为入住状态,若非异常事件,则确定为空置装置;对于电压波动的,分析用电量峰值情况,若是用电量高,则分析用电功率,若是功率高,则确定为入住状态,若是功率低,则分析日用电量,若是日用电量平稳,则确定为入住状态,若是日用电量波动,则确定为空置状态,对于用电量峰值低的情况,分析用电功率,若是功率高,则确定为入住状态,若是功率低,则确定为空置状态。
本发明实施例,可使用HPLC获取到用户的用电数据,其用户画像的准确度以及实效性极高,对住宅空置率的判断更加精准。基于HPLC获取到的用户高频采集用电数据一定程度上反映了客户的作息行为规律,能够基本判断居民是否在家活动或外出离家,从而掌握居民人口的流动情况,用于协助公共安全、疫情防范等特定条件下的人口流动性排查,精准锁定用户范围,大幅提升查找效率。
本发明实施例,使用的是均值漂移聚类算法,此算法不需要提前预估簇数量,可自动识别统计直方图的中心数量,由于其自适应于自然数据驱动,其聚类结果分布相对稳定,并且受均值影响较小,使得算法比较稳定,相比其他聚类算法其聚类结果准确性有显著提升。另外该算法对数据分布的类型没有要求,它是统计每个样本点周围的元素来估计其密度值。
本发明实施例,使用的是CART分类树算法,相比于相同类型ID3和C4.5两种决策树算法只能用于离散型数据,CART算法的适用面要广得多,既可用于离散型数据,又可以处理连续型数据。并且ID3和C4.5两种决策树算法主要通过信息增益、信息增益比作为特征选择,其中都涉及大量的对数运算,计算开销自然要比普通的乘除操作要大。而CART分类树算法使用基尼系数可以减少计算量,起到简化模型的作用,并且也不会完全丢失熵模型的优点。该算法能够很好的处理高维数据,能够筛选出重要的变量,产生的结果是易于理解和掌握,运算过程中也是非常迅速的,并且拥有极高的预测准确率。
本发明技术考虑了住户不在家居住家庭电器处于低功率待机状态现象,通过HPLC获取居民住宅用电数据,通过均值漂移聚类算法分析居民住宅用电行为,构建居民住宅用户画像,通过CART分类树算法训练出居民住宅空置分析模型,根据各区域用电行为数据得出各区域住宅空置率。
实施例二
图3是根据本发明实施例的一种可选的住宅空置状态的分析装置的示意图,如图3所示,该分析装置可以包括:获取单元31,第一确定单元33,构建单元35,分析单元37,其中,
获取单元31,用于获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;
第一确定单元33,用于基于用电数据,采用均值漂移聚类算法确定用电行为特征;
构建单元35,用于基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;
分析单元37,用于采用居民住宅空置率模型,分析各分布区域的住宅空置状态。
上述住宅空置状态的分析装置,可以通过获取单元31获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;通过第一确定单元33基于用电数据,采用均值漂移聚类算法确定用电行为特征;通过构建单元35基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;通过分析单元37采用居民住宅空置率模型,分析各分布区域的住宅空置状态。在该实施例中,可以获取到用户的用电数据,能够基本判断居民是否在家活动或外出离家,根据各区域用电行为数据得出各区域住宅空置率,掌握各分布区域的人口流动情况,精准锁定用户范围,大幅提升查找效率,从而解决相关技术中通过用电量分析居民住房空置率,准确性低的技术问题。
可选的,获取单元包括:第一获取模块,用于获取第一类居民的在用电时的电压数据、电流数据、功率数据、功率因数和异常事件信息,得到用电数据。
可选的,住宅空置状态的分析装置还包括:预处理单元,用于在获取第一类居民的用电数据之后,对用电数据进行预处理操作,其中,预处理操作包括:删除缺失数据、删除冗余数据、删除异常数据,缺失数据指示与预设字段对应的字段数据为空的数据,预设字段包括下述至少之一:台区名称、台区编号、停电时间、用户名称、用户编号,冗余数据为字段重复的数据;归一化单元,用于对预处理操作后的用电数据进行归一化处理。
可选的,第一确定单元包括:第一确定模块,用于在特征空间中随机选择一个点作为初始搜索区域圆的圆心,并确定初始搜索区域圆的半径;第一搜索模块,用于根据第一预设公式搜索初始搜索区域圆中所有样本点的均值,其中,样本点与每份用电数据对应;第一计算模块,用于计算圆心与均值之差,得到均值漂移向量,其中,均值漂移向量的方向指向样本点密度增加的方向;停止模块,用于在均值漂移向量的模值小于预设阈值,则停止迭代搜索,得到用电行为特征。
可选的,用电行为特征包括:用户月用电量、月平均功率、月平均电压、月平均电流、异常事件标签。
可选的,构建单元包括:第一输入模块,用于输入数据集和特征集,其中,数据集为多个用户的用电数据对应的集合,特征集为多个用电行为特征的集合;第二计算模块,用于计算特征集中每个用电行为特征关联的特征取值对数据集的基尼系数,得到基尼系数集合;第二确定模块,用于确定基尼系数集合中最小的基尼系数值以及与最小的基尼系数值对应的特征最优二值切分点;第三确定模块,用于基于最小的基尼系数值和特征最优二值切分点,确定目标分类树;第四确定模块,用于基于目标分类树,确定居民住宅空置率模型。
可选的,住宅空置状态的分析装置还包括:第五确定模块,用于在采用均值漂移聚类算法确定用电行为特征之后,基于用电行为特征,确定居民住宅使用状态,其中,居民住宅使用状态包括下述之一:长期居住用户、邻近区域用户、外地输入用户。
上述的住宅空置状态的分析装置还可以包括处理器和存储器,上述获取单元31,第一确定单元33,构建单元35,分析单元37等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来采用居民住宅空置率模型,分析各分布区域的住宅空置状态。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的住宅空置状态的分析方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的住宅空置状态的分析方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取第一类居民的用电数据,其中,第一类居民为用电电压低于预设电压阈值的居民;基于用电数据,采用均值漂移聚类算法确定用电行为特征;基于用电行为特征,采用预设分类树算法构建居民住宅空置率模型;采用居民住宅空置率模型,分析各分布区域的住宅空置状态。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种住宅空置状态的分析方法,其特征在于,包括:
获取第一类居民的用电数据,其中,所述第一类居民为用电电压低于预设电压阈值的居民;
基于所述用电数据,采用均值漂移聚类算法确定用电行为特征,包括:在特征空间中随机选择一个点作为初始搜索区域圆的圆心,并确定初始搜索区域圆的半径;根据第一预设公式搜索初始搜索区域圆中所有样本点的均值,其中,所述样本点与每份用电数据对应;计算圆心与均值之差,得到均值漂移向量,其中,所述均值漂移向量的方向指向样本点密度增加的方向;若所述均值漂移向量的模值小于预设阈值,则停止迭代搜索,得到所述用电行为特征;
基于所述用电行为特征,采用预设分类树算法构建居民住宅空置率模型,包括:输入数据集和特征集,其中,所述数据集为多个用户的用电数据对应的集合,所述特征集为多个所述用电行为特征的集合;计算所述特征集中每个用电行为特征关联的特征取值对所述数据集的基尼系数,得到基尼系数集合;确定所述基尼系数集合中最小的基尼系数值以及与所述最小的基尼系数值对应的特征最优二值切分点;基于所述最小的基尼系数值和特征最优二值切分点,确定目标分类树;基于所述目标分类树,确定居民住宅空置率模型;
采用所述居民住宅空置率模型,分析各分布区域的住宅空置状态。
2.根据权利要求1所述的分析方法,其特征在于,获取第一类居民的用电数据的步骤,包括:
获取第一类居民的在用电时的电压数据、电流数据、功率数据、功率因数和异常事件信息,得到所述用电数据。
3.根据权利要求1所述的分析方法,其特征在于,在获取第一类居民的用电数据之后,所述分析方法还包括:
对所述用电数据进行预处理操作,其中,所述预处理操作包括:删除缺失数据、删除冗余数据、删除异常数据,所述缺失数据指示与预设字段对应的字段数据为空的数据,所述预设字段包括下述至少之一:台区名称、台区编号、停电时间、用户名称、用户编号,所述冗余数据为字段重复的数据;
对预处理操作后的所述用电数据进行归一化处理。
4.根据权利要求1所述的分析方法,其特征在于,所述用电行为特征包括:
用户月用电量、月平均功率、月平均电压、月平均电流、异常事件标签。
5.根据权利要求1所述的分析方法,其特征在于,在采用均值漂移聚类算法确定用电行为特征之后,所述分析方法还包括:
基于所述用电行为特征,确定居民住宅使用状态,其中,所述居民住宅使用状态包括下述之一:长期居住用户、邻近区域用户、外地输入用户。
6.一种住宅空置状态的分析装置,其特征在于,包括:
获取单元,用于获取第一类居民的用电数据,其中,所述第一类居民为用电电压低于预设电压阈值的居民;
第一确定单元,用于基于所述用电数据,采用均值漂移聚类算法确定用电行为特征,所述第一确定单元包括:第一确定模块,用于在特征空间中随机选择一个点作为初始搜索区域圆的圆心,并确定初始搜索区域圆的半径;第一搜索模块,用于根据第一预设公式搜索初始搜索区域圆中所有样本点的均值,其中,所述样本点与每份用电数据对应;第一计算模块,用于计算圆心与均值之差,得到均值漂移向量,其中,所述均值漂移向量的方向指向样本点密度增加的方向;停止模块,用于在所述均值漂移向量的模值小于预设阈值,则停止迭代搜索,得到所述用电行为特征;
构建单元,用于基于所述用电行为特征,采用预设分类树算法构建居民住宅空置率模型,所述构建单元包括:第一输入模块,用于输入数据集和特征集,其中,所述数据集为多个用户的用电数据对应的集合,所述特征集为多个所述用电行为特征的集合;第二计算模块,用于计算所述特征集中每个用电行为特征关联的特征取值对所述数据集的基尼系数,得到基尼系数集合;第二确定模块,用于确定所述基尼系数集合中最小的基尼系数值以及与所述最小的基尼系数值对应的特征最优二值切分点;第三确定模块,用于基于所述最小的基尼系数值和特征最优二值切分点,确定目标分类树;第四确定模块,用于基于所述目标分类树,确定居民住宅空置率模型;
分析单元,用于采用所述居民住宅空置率模型,分析各分布区域的住宅空置状态。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至5中任意一项所述的住宅空置状态的分析方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至5中任意一项所述的住宅空置状态的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368060.9A CN113094448B (zh) | 2021-04-06 | 2021-04-06 | 住宅空置状态的分析方法及分析装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368060.9A CN113094448B (zh) | 2021-04-06 | 2021-04-06 | 住宅空置状态的分析方法及分析装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113094448A CN113094448A (zh) | 2021-07-09 |
CN113094448B true CN113094448B (zh) | 2023-10-27 |
Family
ID=76674007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110368060.9A Active CN113094448B (zh) | 2021-04-06 | 2021-04-06 | 住宅空置状态的分析方法及分析装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094448B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113991844B (zh) * | 2021-10-23 | 2023-12-26 | 珠海格力电器股份有限公司 | 一种基于负荷用电态势感知的控制方法及系统 |
CN115689290B (zh) * | 2022-11-07 | 2023-05-30 | 重庆市规划和自然资源信息中心 | 房地产市场地块开发空置监测预警分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852370A (zh) * | 2019-11-06 | 2020-02-28 | 国网湖南省电力有限公司 | 基于聚类算法的大工业用户细分方法 |
CN111160401A (zh) * | 2019-12-09 | 2020-05-15 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
CN112200209A (zh) * | 2020-06-28 | 2021-01-08 | 国网浙江省电力有限公司金华供电公司 | 一种基于日差分用电量的贫困用户识别方法 |
CN112465378A (zh) * | 2020-12-09 | 2021-03-09 | 国网四川省电力公司电力科学研究院 | 基于电力大数据挖掘的住房空置自适应研判方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417575B2 (en) * | 2012-12-14 | 2019-09-17 | Microsoft Technology Licensing, Llc | Resource allocation for machine learning |
US20200311559A1 (en) * | 2017-06-20 | 2020-10-01 | Rita Chattopadhyay | Optimized decision tree machine learning for resource-constrained devices |
US20210097449A1 (en) * | 2020-12-11 | 2021-04-01 | Intel Corporation | Memory-efficient system for decision tree machine learning |
-
2021
- 2021-04-06 CN CN202110368060.9A patent/CN113094448B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852370A (zh) * | 2019-11-06 | 2020-02-28 | 国网湖南省电力有限公司 | 基于聚类算法的大工业用户细分方法 |
CN111160401A (zh) * | 2019-12-09 | 2020-05-15 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
CN112200209A (zh) * | 2020-06-28 | 2021-01-08 | 国网浙江省电力有限公司金华供电公司 | 一种基于日差分用电量的贫困用户识别方法 |
CN112465378A (zh) * | 2020-12-09 | 2021-03-09 | 国网四川省电力公司电力科学研究院 | 基于电力大数据挖掘的住房空置自适应研判方法及装置 |
Non-Patent Citations (2)
Title |
---|
住宅空置的电力大数据分析;胡洋;《中国高新技术企业》(第33期);191-192 * |
用电采集系统电力大数据应用探究——电力数据看居民房屋空置率;崔凤山 等;《农电管理》(第02期);28-29 * |
Also Published As
Publication number | Publication date |
---|---|
CN113094448A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | VDBSCAN: varied density based spatial clustering of applications with noise | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN110781332A (zh) | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 | |
CN111724278A (zh) | 一种面向电力多元负荷用户的精细分类方法及系统 | |
CN103812872A (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
CN113094448B (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN114048870A (zh) | 一种基于日志特征智能挖掘的电力系统异常监测方法 | |
Padulano et al. | A mixed strategy based on self-organizing map for water demand pattern profiling of large-size smart water grid data | |
CN110598065A (zh) | 一种数据挖掘方法、装置和计算机可读存储介质 | |
Ahmadi et al. | A new false data injection attack detection model for cyberattack resilient energy forecasting | |
CN105786711A (zh) | 一种数据分析的方法及装置 | |
CN111177216A (zh) | 综合能源消费者行为特征的关联规则生成方法及装置 | |
CN112308341A (zh) | 电力数据的处理方法和装置 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
Li et al. | Topic modeling for sequential documents based on hybrid inter-document topic dependency | |
CN116596574A (zh) | 电网用户画像构建方法及系统 | |
Wang et al. | A Novel Multi‐Input AlexNet Prediction Model for Oil and Gas Production | |
Majidpour | Time series prediction for electric vehicle charging load and solar power generation in the context of smart grid | |
Rodríguez-Gómez et al. | A novel clustering based method for characterizing household electricity consumption profiles | |
Tomazzoli et al. | Machine learning for energy efficiency: Automatic detection of electric loads from power consumption | |
CN109493249B (zh) | 一种用电数据在多时间尺度上的分析方法 | |
CN113962508A (zh) | 用电对象的识别方法及识别装置、电子设备 | |
Jiang et al. | Anomaly detection of Argo data using variational autoencoder and k-means clustering | |
Liu et al. | [Retracted] An Accurate Method of Determining Attribute Weights in Distance‐Based Classification Algorithms | |
Yao et al. | A practical building energy consumption anomaly detection method based on parameter adaptive setting DBSCAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |