CN113688870A - 一种采用混合算法的基于用户用电行为的群租房识别方法 - Google Patents

一种采用混合算法的基于用户用电行为的群租房识别方法 Download PDF

Info

Publication number
CN113688870A
CN113688870A CN202110830702.2A CN202110830702A CN113688870A CN 113688870 A CN113688870 A CN 113688870A CN 202110830702 A CN202110830702 A CN 202110830702A CN 113688870 A CN113688870 A CN 113688870A
Authority
CN
China
Prior art keywords
users
group
user
renting
house
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110830702.2A
Other languages
English (en)
Other versions
CN113688870B (zh
Inventor
崔高颖
李悦
张腾
徐孝琳
邵雪松
周玉
蔡奇新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202110830702.2A priority Critical patent/CN113688870B/zh
Publication of CN113688870A publication Critical patent/CN113688870A/zh
Application granted granted Critical
Publication of CN113688870B publication Critical patent/CN113688870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本申请公开了一种采用混合算法的基于用户用电行为的群租房识别方法,包括:获取具备用电信息的群租房黑样本用户;获取电力系统中所有待识别用户和群租房黑样本用户的电力数据和用电特征;增加用户租房数据特征,加大判别用户的群租嫌疑;融合特征后,以存量黑样本用户为黑核,通过孤立森林算法,建立具有群租房用户和非群租用户的标签样本库;采用混合算法建立时间同比的群租房用户识别模型,并输出疑似群租房用户名单及群租概率得分,上报相关部门进行预警和现场排查。本发明实现了基于用户电力特征的群租房有效识别,可有效助力群租房排查治理工作,节约了群租房核查的时间、人力和物力。

Description

一种采用混合算法的基于用户用电行为的群租房识别方法
技术领域
本发明属于电力信息管理技术领域,涉及一种采用混合算法的基于用户用电行为的群租房识别方法。
背景技术
当前社会由传统型社会向现代型社会转换过程中,发达城市的外来求学、就业及务工人口逐年攀升,租客的住房问题也日趋凸显,为了降低租住成本,群租房数量逐年增加。群租房一般是指将住宅通过改变房屋结构和平面布局,把房间分割改建成若干小间分别按间出租或按床位出租。因其存在安全隐患、经济纠纷、财产损失、社会矛盾等负面影响,严重影响城市公共安全,迫切需要加强群租房安全管理工作,摸清群租房和居住人员底数和情况,对群租房用户进行登记造册,对存在重大安全隐患的群租房进行整改,切实维护群众切身利益和社会平安稳定,其中床位数10个以上或租住人数10人以上的群租房为重点排查对象。
以往群租房用户皆是由人工排查和群众举报等人工手段获取,存在耗时长、难度大等问题,迫切需要一种快速识别群租房用户手段,全面开展群租房排查治理工作。以电力数据为抓手,挖掘群租用户用电行为特征,通过构建判别模型从海量用户中识别出疑似群租房用户,能有效辅助相关部门深入解决群租房问题。
发明内容
为解决现有技术中的不足,本申请提供一种采用混合算法的基于用户用电行为的群租房识别方法,采用时间同比的思想,通过对群租房用户用电数据的探索和分析,挖掘出群租用户的最大谷电量等用电特征,并引入单位租金等外部特征,建立了基于混合算法的群租房用户识别模型,实现对群租房用户的有效识别,助力相关部门群租房排查工作的有效开展,并最终将固化模型部署在数据平台上,对模型进行封装和上线,打造了群租房识别模型产品。
为了实现上述目标,本发明采用如下技术方案:
一种采用混合算法的基于用户用电行为的群租房识别方法,包括以下步骤:
步骤1:获取具备用电信息的群租房用户,记为黑样本用户;
步骤2:获取所有待识别用户和黑样本用户的电力数据,并结合群租房用电特点,提取所有用户的电力特征;
步骤3:获取待识别用户和黑样本用户的租房数据和租房特征,通过层次聚类,融合用户的电力特征和租房特征并进行特征筛选,得到能区分群租用户和非群组用户的有效特征,作为最终建模的用户数据特征;
步骤4:根据步骤3得到的用户数据特征,以存量黑样本用户的数据特征矩阵为黑核,通过孤立森林算法,计算所有待识别用户距离黑核的群租房异常得分,设置阈值,筛选出非群租房用户,建立具有群租房用户和非群租用户的标签样本库;
步骤5:基于步骤4建立的标签样本库,采用混合算法建立时间同比的群租房用户识别模型,输出疑似群租房用户名单及群租概率得分,上报相关部门进行预警和现场排查。
优选地,步骤1中,获取已知群租房用户名单,通过地址、姓名和身份证号匹配,得到群租房用户相应的电力系统户号和用电信息,最终确认具备用电信息的群租房用户,并记为黑样本用户。
优选地,步骤2中,获取所有待识别用户和黑样本用户的电力数据,包括来自用采系统和营销系统的电力数据;
结合群租房用电特点,分别从所述电力数据中提取电力特征,包括基础数据特征、电量加工特征和用户画像特征;
所述基础数据特征包括用电类别、用户类型、综合倍率、合同容量;
所述电量加工特征包括以年、月、日、星期、节假日和工作日为单位的电量特征;
所述用户画像特征包括用户缴费渠道、缴费方式、梯度用电等级、房屋状态。
优选地,步骤2中,采用时间同比的思想选取电力数据,确保待识别用户和群租用户日电量数据的时间月份一致,年份推迟一年。
优选地,步骤3中,具体包括以下步骤:
S301:获取待识别用户和黑样本用户的租房数据和租房特征:
从租房网站上爬取所有待识别用户和黑样本用户所在区域的租房数据,并从小区维度提取租房特征;
S302:通过层次聚类,融合用户的电力特征和租房特征:
通过地图解析技术标准化用户的用电地址和租房地址,使每个地址对应唯一的经纬度坐标,再基于经纬度特征的层次聚类,设置距离阈值,根据距离阈值筛选并将距离较近的地址归为一类,并取这一类地址的租房指标均值作为新的类租房指标,从而以地址为主键,实现用户租房特征和电力特征的融合;
S303:有效特征筛选:
融合用户的电力特征和租房特征后,计算特征相关系数并设置阈值,再根据阈值筛选并删除高重复性的特征,并进一步通过非群租用户和群租用户特征密度分布对比,剔除密度分布面积高度重合的特征,保留能有效区分群租房和非群租用户的特征,作为最终建模的用户数据特征。
优选地,步骤4具体包括以下步骤:
S401:构建特征矩阵:
基于步骤3筛选后的用户数据特征,构建待识别用户和黑样本用户的数据特征矩阵;
S402:计算异常得分:
以黑样本用户的特征矩阵为黑核,混合所有待识别用户,使用孤立森林算法,每次随机选取n1个子样本,最大选择m1个特征,建立t棵孤立树;
记总样本数为N,则n1<N;记用户总特征数为M,则
Figure RE-GDA0003299621950000031
计算每个样本点x从孤立树的根节点到叶子节点所经过的边的数量h(x)和在每棵树上的平均路径c(n),得到每个用户的异常值得分为:
Figure RE-GDA0003299621950000032
c(n)为给定样本数n时,路径长度的平均值,用来标准化样本点x的路径长度h(x):c(n)=2h(n-1)-2(n-1)/n;
E(h(x))为样本x在一批孤立树中的路径长度的期望值,
当E(h(x))→c(n)时,S→0.5,即样本x的路径平均长度与树的平均路径长度相近时,则不能区分是不是异常;
当E(h(x))→0时,S→1,即x的异常分数接近1时,被判定为异常;
当E(h(x))→n-1时,S→0,被判定为正常;
S403:构建标签样本库:
选择黑样本用户的异常得分最小值作为阈值C,以此切割待识别用户;
提取异常值得分低于C的待识别用户,将其标记为严格反样本用户;
建立具备黑样本用户和严格反样本用户的标签样本库,记黑样本用户标记为 1,严格反样本用户标记为0,黑样本用户即为群租房用户,严格反样本用户即为非群租用户。
优选地,步骤5具体包括以下步骤:
S501:记步骤4建立的标签样本库为第一阶段标签样本库L1,基于第一阶段标签样本库L1,采用逻辑回归算法,建立第一监督学习模型ME1,通过第一监督学习模型ME1对步骤4剩余未标记用户进行判别标记,将判别为疑似非群租用户标记为0,并记为增量反样本,增加至标签样本库L1中,得到第二阶段标签样本库L2;
S502:基于第二阶段标签样本库L2,采用随机森林算法,建立第二监督学习模型ME2,对第一阶段判别疑似群租房的用户进行二次判别;
S503:将第一监督学习模型ME1、第二监督学习模型ME2的判别结果均为疑似群租房的用户进行校验,输出最终疑似群租房名单。
优选地,步骤S501具体包括以下步骤:
S5011:基于标签样本库L1中数据寻找拟合曲线:z=f(x)=WT×X;
其中W是权重,X是特征值,f(X)为预测拟合值,
Figure RE-GDA0003299621950000041
n2代表样本数,m2代表特征数;
拟合曲线使得L1中群租房用户和非群租用户能被正确分成两类;
S5012:使用跳跃函数
Figure RE-GDA0003299621950000042
使得f(X)可根据其正负性为每个样本获取类标号;
S5013:构建代价函数
Figure RE-GDA0003299621950000043
其中n2为样本总数,zi=WTXi+w0,yi为Xi的真实类标号,w0为算法训练开始的初始权重;
最后再利用梯度下降的方法,求出所述代价函数的最小值,此时权重向量W 即为第一监督学习模型ME1的最终解。
S5014:当标签样本库L1中标记为1的已知群租房用户能被第一监督学习模型ME1正确判别,则运用第一监督学习模型ME1为剩余所有待识别用户赋予预测的类标签,其中1为疑似群租房用户,0为疑似非群租用户。
优选地,步骤S502,具体包括以下步骤:
S5021:基于标签样本库L2中数据,利用bootstrap自助抽样法有放回随机抽取n3个样本,再从中构建单棵决策树;
S5022:假设每个样本一共有M个属性,M为总特征数,通过信息增益最大或者Gini系数指标,再从m3个属性(m3<<M)中选择决策树的每层分节点,其中信息熵表达式为:
Figure RE-GDA0003299621950000051
Gini系数为:
Figure RE-GDA0003299621950000052
pi为x取i值的概率;
S5023:直至所有的节点下所属类别为同一类,则单棵决策树建立完毕,重复步骤S5021-S5022,最终建立的所有决策树构成随机森林,即第二监督学习模型ME2,每棵决策树对待识别用户都有一个预测类别,1是疑似群租房,0是疑似非群租用户,则第二监督学习模型ME2对所有待识别用户的判断结果值为
Figure RE-GDA0003299621950000053
其中,K为决策树个数,I为每个决策树的判断结果;
Figure RE-GDA0003299621950000054
时,被判别为疑似群租房用户,
Figure RE-GDA0003299621950000055
时,被判别为疑似非群租房用户;
S5024:当标签样本库L2中标记为1的已知群租房用户能被第二监督学习模型ME2正确判别,则运用第二监督学习模型ME2二次识别第一监督学习模型ME1 判别为1的疑似群租房用户,将两次模型判别结果均为1的用户,导出相关档案数据,并编制成疑似群租房用户名单。
优选地,步骤S503中,根据疑似群租房用户的营销档案缴费欠费信息、24 点电量数据以及地址信息,校验所述判别结果的正确性,并输出最终疑似群租房名单及群租概率得分,上报相关部门进行预警和现场排查。
优选地,步骤S503还包括:根据最终疑似群租房用户及现场排查结果,反向优化群租房用户识别模型。
优选地,所述步骤5还包括:
步骤S505:识别结果展示与相关数据存储,具体为:
在固化群租房用户识别模型之后,将其部署在数据平台上,并设计前端展示界面和功能,将群租房识别模型进行封装和上线,实现群租房识别模型的产品化,前端实现业务人员直接操作产生分析结果,后台支撑数据分析人员持续优化模型。
本申请所达到的有益效果:
1、本发明获取群租房用户的群租房数据、电力数据和外部租房数据,通过地址匹配、层次聚类、地图解析技术等方式,实现了群租房用户多源数据特征的融合。
2、本发明针对群租房单样本识别问题,以群租房黑样本为黑核,通过孤立森林算法,设置合理的阈值,建立了具有群租房用户和非群租用户的标签样本库,从而将无监督学习问题变成了半监督学习问题,大大提高了最终模型的准确率。
3、本发明采用群租房用户和待识别用户时间同比的思想,有效保留了群租房用户群租时段的用电特征,又提取了待识别用户最新时段的用电特征用于模型判别,保证了判别结果的时效性。
4、本发明将固化模型部署在数据平台上,设计前端展示界面和功能,将群租房识别模型进行封装和上线,实现群租房识别模型的产品化,降低了群租房识别分析的门槛和难度,提高了模型的适用价值。
附图说明
图1是本发明一种采用混合算法的基于用户用电行为的群租房识别方法的流程步骤图;
图2是本发明的群租房数据和电力数据融合示意图;
图3是本发明的电力特征提取示意图;
图4是本发明一种采用混合算法的基于用户用电行为的群租房识别方法实施原理图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1和4所示,本发明的一种采用混合算法的基于用户用电行为的群租房识别方法,包括以下步骤:
步骤1:获取具备用电信息的群租房用户,记为存量黑样本用户;
本发明具体实施时,如图2所示,获取南京市已知群租房名单后,分析群租房高发地段,主要集中在南京栖霞区、雨花台区等,并根据地址模糊匹配、身份证、姓名精准匹配,获取群租房用户对应的电力系统户号和用电信息,最终确认具备用电信息的群租房用户,即获取了具备用电信息的群租房黑样本用户。
步骤2:获取所有待识别用户(即全量待识别用户)和黑样本用户的电力数据,并结合群租房用电特点,提取所有用户的电力特征;
根据电力户号,从用采系统和营销系统中获取群租房黑样本用户和所有待识别用户的电力信息并进行数据清洗,电力信息包括:电表数据(分为日用电数据、 24点数据)、用户档案数据、用户系统画像;
所述数据清洗包括:对错误数据、干扰数据(如0电量干扰用户数据)进行删除、对缺失数据进行填补。
提取数据特征如图3所示,分别从用户档案数据、用户电量数据和用户系统画像提取群租房相关的电力特征:基础数据特征、电量加工特征和用户画像特征;
基础数据特征包括用电类别、用户类型、综合倍率、合同容量,具体含义见表1;
表1
Figure RE-GDA0003299621950000071
一般居民用户的合同容量在8-12KVA左右,该条限制可以剔除合户表、店铺等干扰用户。
所述电量加工特征包括以年、月、日、星期、节假日和工作日为单位的电量特征,如每周总电量方差、月度最大谷电量等;
其中群租房用电波动较大,其每周总用电的方差明显高于非群租用户;
且群租房用户的月度最大谷电量比较集中在11度左右,而大部分非群租用户集中在5度左右。
所述用户画像特征包括用户缴费渠道、缴费方式、梯度用电等级、房屋状态等。
其中群租房用户的缴费渠道多为委托代扣,缴费方式多为转账,梯度用电等级多为三级,房屋状态一般为常住房,而非群租用户的这些属性都相对比较分散。
具体实施时,采用时间同比的思想选取电力数据,确保待识别用户和群租用户日电量数据的时间月份一致,年份推迟一年。
所谓的时间同比在一开始选取用户日电量时间段的时候就要加以控制,这样后期计算的电力特征也会相对更有效,更有助于后面步骤5模型的建立。
步骤3:获取待识别用户和黑样本用户的租房数据和租房特征,通过层次聚类,融合用户的电力特征和租房特征并进行特征筛选,得到能区分群租用户和非群组用户的有效特征,作为最终建模的用户数据特征,具体包括以下步骤:
S301:获取待识别用户和黑样本用户的租房数据和租房特征:
通过爬虫软件爬取南京10万条租房网站的租房信息,并从小区维度提取出房屋分布、结构化地址、租住人口、交通情况、单位租金等租房特征;
S302:通过层次聚类,融合用户的电力特征和租房特征:
通过地图解析技术标准化用户用电地址和租房地址,使每个地址对应唯一的经纬度坐标,再基于经纬度特征的层次聚类,设置距离阈值,根据距离阈值筛选并将距离较近的地址归为一类,并取这一类地址的租房指标均值作为新的类租房指标,从而以地址为主键,实现用户租房特征和电力特征的融合,为用户增加外部特征判别群租房的嫌疑,一般群租房多发在交通便利,单位租金较高的小区。
S303:有效特征筛选:
融合用户的电力特征和租房特征后,计算特征相关系数并设置阈值,再根据阈值筛选并删除高重复性的特征,降低数据特征冗余性,并进一步通过非群租用户和群租用户特征密度分布对比,剔除掉密度分布面积高度重合的特征,保留能区分群租房和非群租用户的有效特征,如用电类型、综合倍率、最大谷电量、季节最小用电量等,作为最终建模的用户数据特征,方便后续建模。
密度分布是衡量一组数据集中趋势和分布趋势的有效手段,两组数据密度分布面积重合越多,说明这两组数据相似性越高,区分度越小。
步骤4:根据步骤3得到的用户数据特征,以存量黑样本用户的数据特征矩阵为黑核,通过孤立森林算法,计算所有待识别用户距离黑核的群租房异常得分,设置阈值,筛选出非群租房用户,记为严格反样本,标记为0,存量黑样本用户标记为1,建立具有群租房用户和非群租用户的标签样本库,具体包括以下步骤:
S401:构建特征矩阵:
基于步骤3筛选后的用户数据特征,构建全量待识别用户和黑样本用户的数据特征矩阵;
S402:计算异常得分:
以黑样本用户的特征矩阵为黑核,混合所有待识别用户,使用孤立森林算法,每次随机选取n1个子样本,最大选择m1个特征,建立t棵孤立树;
记总样本数为N,则n1<N,一般n1默认选择256;记用户总特征数为M则
Figure RE-GDA0003299621950000091
t一般选择100-200的整数,既能保证数据收敛,又不至于计算时间太长;
计算每个样本点x从孤立树的根节点到叶子节点所经过的边的数量h(x)和在每棵树上的平均路径c(n),得到每个用户的异常值得分为:
Figure RE-GDA0003299621950000092
c(n)为给定样本数n时,路径长度的平均值,用来标准化样本点x的路径长度h(x),c(n)=2h(n-1)-2(n-1)/n;
E(h(x))为样本x在一批孤立树中的路径长度的期望值,
当E(h(x))→c(n)时,S→0.5,即样本x的路径平均长度与树的平均路径长度相近时,则不能区分是不是异常;
当E(h(x))→0时,S→1,即x的异常分数接近1时,被判定为异常;
当E(h(x))→n-1时,S→0,被判定为正常;
S403:构建标签样本库:
选择黑样本用户的异常得分最小值作为阈值C,以此切割全量待识别用户;
提取异常值得分低于C的待识别用户,将其标记为严格反样本用户;
建立具备存量黑样本用户和严格反样本用户的标签样本库,记存量黑样本用户标记为1,严格反样本用户标记为0,存量黑样本用户即为群租房用户,严格反样本用户即为非群租用户。
步骤5:基于步骤4建立的标签样本库,采用混合算法建立时间同比的群租房用户识别模型,输出疑似群租房用户名单及群租概率得分,上报相关部门进行预警和现场排查,具体包括以下步骤:
S501:记步骤4建立的标签样本库为第一阶段标签样本库L1,基于第一阶段标签样本库L1,采用逻辑回归算法,建立第一监督学习模型ME1,通过第一监督学习模型ME1对步骤4剩余未标记用户进行判别标记,将判别为疑似非群租用户标记为0,并记为增量反样本,增加至标签样本库L1中,得到第二阶段标签样本库L2;
S5011:基于标签样本库L1中数据寻找拟合曲线:z=f(x)=WT×X;
其中W是权重,X是特征值,f(X)为预测拟合值,
Figure RE-GDA0003299621950000101
n2代表样本数,m2代表特征数;
拟合曲线使得L1中群租房用户和非群租用户能被正确分成两类;
S5012:使用跳跃函数
Figure RE-GDA0003299621950000102
使得f(X)可根据其正负性为每个样本获取类标号;
S5013:构建代价函数
Figure RE-GDA0003299621950000103
其中n2为样本总数,zi=WTXi+w0,yi为Xi的真实类标号,w0为算法训练开始的初始权重,一般选择[-0.01,0.01]之间的数;
最后再利用梯度下降的方法,求出所述代价函数的最小值,此时权重向量W 即为第一监督学习模型ME1的最终解。
S5014:模型建立后要通过前面预留出的已知群租房能用模型正确判别,说明模型准确率很好,才能再运用该模型对剩余待识别用户进行预测,即当标签样本库L1中标记为1的已知群租房用户能被第一监督学习模型ME1正确判别,则运用第一监督学习模型ME1为剩余所有待识别用户赋予预测的类标签,其中1 为疑似群租房用户,0为疑似非群租用户。
S502:基于第二阶段标签样本库L2,采用随机森林算法,建立第二监督学习模型ME2,对第一阶段判别疑似群租房的用户进行二次判别;
S5021:基于标签样本库L2中数据,利用bootstrap自助抽样法有放回随机抽取n3个样本,再从中构建单棵决策树;
S5022:假设每个样本一共有M个属性,M为总特征数,通过信息增益最大或者Gini系数指标,再从m3个属性(m3<<M)中选择决策树的每层分节点,其中信息熵表达式为:
Figure RE-GDA0003299621950000111
Gini系数为:
Figure RE-GDA0003299621950000112
pi为x取i值的概率,如x可取值1或0,总次数为10次,其中1出现4次,则
Figure RE-GDA0003299621950000113
S5023:直至所有的节点下所属类别为同一类,则单棵决策树建立完毕,重复步骤S5021-S5022,最终建立的所有决策树构成随机森林,即第二监督学习模型ME2,每棵决策树对待识别用户都有一个预测类别,1是疑似群租房,0是疑似非群租用户,则第二监督学习模型ME2对所有待识别用户的判断结果值为
Figure RE-GDA0003299621950000114
其中,K为决策树个数,I为每个决策树的判断结果;
Figure RE-GDA0003299621950000115
时,被判别为疑似群租房用户,
Figure RE-GDA0003299621950000116
时,被判别为疑似非群租房用户;
S5024:当标签样本库L2中标记为1的已知群租房用户能被第二监督学习模型ME2正确判别(即自我验证该模型识别效果尚佳之后才能再继续判别待识别用户),则运用第二监督学习模型ME2二次识别第一监督学习模型ME1判别为1 的疑似群租房用户,将两次模型判别结果均为1的用户,导出相关档案数据,并编制成疑似群租房用户名单。
S503:将第一监督学习模型ME1、第二监督学习模型ME2的判别结果均为疑似群租房的用户进行校验,输出最终疑似群租房名单,具体如下:
根据疑似群租房用户的营销档案缴费欠费信息、24点电量数据以及地址信息,校验所述判别结果的正确性,并输出最终疑似群租房名单及群租概率得分,上报相关部门进行预警和现场排查。
其中通过营销档案缴费欠费信息,确认该用户是否经常发生缴费延迟、欠费未交等行为,可进一步加大该用户的群租嫌疑,在现场核查时优先核查该用户。
其中通过24点电量数据,可进一步细化该用户的用电颗粒度,发现用户在晚上9点以后的集中高频用电行为,加大用户的群租房嫌疑。
其中用户群租概率得分由模型ME直接输出,由于模型ME2建立了多棵决策树,同一用户会被多棵决策树同时预测,当所有决策树均预测该用户为疑似群租房用户,则该用户的群租房概率得分为100%。
步骤S503还包括:根据最终疑似群租房用户及现场排查结果,反向优化群租房用户识别模型。
使用识别模型判别的疑似群租房用户名单多次在南京建邺区、雨花区等地区开展试点验证,并根据验证结果反复修正识别模型。
根据最新的时间同比混合识别算法,最新从41户疑似名单中,现场确认出群租房用户29户,准确率达70%。其后又分别在整个南京市区、苏州市区、泰州小区开展试点验证,筛选出疑似群租房用户4321户、2100户和82户。
所述步骤5还包括:
本发明具体实施时,还可进行识别结果展示与相关数据存储,具体为:
在固化群租房用户识别模型之后,将其部署在数据平台上,并设计前端展示界面和功能,将群租房识别模型进行封装和上线,实现群租房识别模型的产品化,前端实现业务人员直接操作产生分析结果,后台支撑数据分析人员持续优化模型。
综上所述,本申请提供了一种采用时间同比混合算法的基于用户用电行为的群租房识别方法,通过对群租房用户用电数据的探索和分析,挖掘出群租用户的最大谷电量等用电特征,并引入单位租金等外部特征,建立了基于混合算法的群租房用户识别模型,实现对群租房用户的有效识别,筛选出疑似群租房用户名单,助力相关部门群租房排查工作的有效开展,并最终将固化模型部署在数据平台上,对模型进行封装和上线,打造了群租房识别模型产品。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (12)

1.一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
所述方法包括以下步骤:
步骤1:获取具备用电信息的群租房用户,记为黑样本用户;
步骤2:获取所有待识别用户和黑样本用户的电力数据,并结合群租房用电特点,提取所有用户的电力特征;
步骤3:获取待识别用户和黑样本用户的租房数据和租房特征,通过层次聚类,融合用户的电力特征和租房特征并进行特征筛选,得到能区分群租用户和非群组用户的有效特征,作为最终建模的用户数据特征;
步骤4:根据步骤3得到的用户数据特征,以存量黑样本用户的数据特征矩阵为黑核,通过孤立森林算法,计算所有待识别用户距离黑核的群租房异常得分,设置阈值,筛选出非群租房用户,建立具有群租房用户和非群租用户的标签样本库;
步骤5:基于步骤4建立的标签样本库,采用混合算法建立时间同比的群租房用户识别模型,输出疑似群租房用户名单及群租概率得分,上报相关部门进行预警和现场排查。
2.根据权利要求1所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤1中,获取已知群租房用户名单,通过地址、姓名和身份证号匹配,得到群租房用户相应的电力系统户号和用电信息,最终确认具备用电信息的群租房用户,并记为黑样本用户。
3.根据权利要求1所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤2中,获取所有待识别用户和黑样本用户的电力数据,包括来自用采系统和营销系统的电力数据;
结合群租房用电特点,分别从所述电力数据中提取电力特征,包括基础数据特征、电量加工特征和用户画像特征;
所述基础数据特征包括用电类别、用户类型、综合倍率、合同容量;
所述电量加工特征包括以年、月、日、星期、节假日和工作日为单位的电量特征;
所述用户画像特征包括用户缴费渠道、缴费方式、梯度用电等级、房屋状态。
4.根据权利要求1所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤2中,采用时间同比的思想选取电力数据,确保待识别用户和群租用户日电量数据的时间月份一致,年份推迟一年。
5.根据权利要求1所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤3中,具体包括以下步骤:
S301:获取待识别用户和黑样本用户的租房数据和租房特征:
从租房网站上爬取所有待识别用户和黑样本用户所在区域的租房数据,并从小区维度提取租房特征;
S302:通过层次聚类,融合用户的电力特征和租房特征:
通过地图解析技术标准化用户的用电地址和租房地址,使每个地址对应唯一的经纬度坐标,再基于经纬度特征的层次聚类,设置距离阈值,根据距离阈值筛选并将距离较近的地址归为一类,并取这一类地址的租房指标均值作为新的类租房指标,从而以地址为主键,实现用户租房特征和电力特征的融合;
S303:有效特征筛选:
融合用户的电力特征和租房特征后,计算特征相关系数并设置阈值,再根据阈值筛选并删除高重复性的特征,并进一步通过非群租用户和群租用户特征密度分布对比,剔除密度分布面积高度重合的特征,保留能区分群租房和非群租用户的有效特征,作为最终建模的用户数据特征。
6.根据权利要求1所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤4具体包括以下步骤:
S401:构建特征矩阵:
基于步骤3筛选后的用户数据特征,构建待识别用户和黑样本用户的数据特征矩阵;
S402:计算异常得分:
以黑样本用户的特征矩阵为黑核,混合所有待识别用户,使用孤立森林算法,每次随机选取n1个子样本,最大选择m1个特征,建立t棵孤立树;
记总样本数为N,则n1<N;记用户总特征数为M,则
Figure RE-FDA0003299621940000031
计算每个样本点x从孤立树的根节点到叶子节点所经过的边的数量h(x)和在每棵树上的平均路径c(n),得到每个用户的异常值得分为:
Figure RE-FDA0003299621940000032
其中c(n)为给定样本数n时,路径长度的平均值,用来标准化样本点x的路径长度h(x):c(n)=2h(n-1)-2(n-1)/n;
E(h(x))为样本x在一批孤立树中的路径长度的期望值,
当E(h(x))→c(n)时,S→0.5,即样本x的路径平均长度与树的平均路径长度相近时,则不能区分是不是异常;
当E(h(x))→0时,S→1,即x的异常分数接近1时,被判定为异常;
当E(h(x))→n-1时,S→0,被判定为正常;
S403:构建标签样本库:
选择黑样本用户的异常得分最小值作为阈值C,以此切割待识别用户;
提取异常值得分低于C的待识别用户,将其标记为严格反样本用户;
建立具备黑样本用户和严格反样本用户的标签样本库,记黑样本用户标记为1,严格反样本用户标记为0,黑样本用户即为群租房用户,严格反样本用户即为非群租用户。
7.根据权利要求1所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤5具体包括以下步骤:
S501:记步骤4建立的标签样本库为第一阶段标签样本库L1,基于第一阶段标签样本库L1,采用逻辑回归算法,建立第一监督学习模型ME1,通过第一监督学习模型ME1对步骤4剩余未标记用户进行判别标记,将判别为疑似非群租用户标记为0,并记为增量反样本,增加至标签样本库L1中,得到第二阶段标签样本库L2;
S502:基于第二阶段标签样本库L2,采用随机森林算法,建立第二监督学习模型ME2,对第一阶段判别疑似群租房的用户进行二次判别;
S503:将第一监督学习模型ME1、第二监督学习模型ME2的判别结果均为疑似群租房的用户进行校验,输出最终疑似群租房名单。
8.根据权利要求7所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤S501具体包括以下步骤:
S5011:基于标签样本库L1中数据寻找拟合曲线:z=f(x)=WT×X;
其中W是权重,X是特征值,f(X)为预测拟合值,
Figure RE-FDA0003299621940000041
n2代表样本数,m2代表特征数;
拟合曲线使得L1中群租房用户和非群租用户能被正确分成两类;
S5012:使用跳跃函数
Figure RE-FDA0003299621940000042
使得f(X)可根据其正负性为每个样本获取类标号;
S5013:构建代价函数
Figure RE-FDA0003299621940000043
其中n2为样本总数,zi=WTXi+w0,yi为Xi的真实类标号,w0为算法训练开始的初始权重;
最后再利用梯度下降的方法,求出所述代价函数的最小值,此时权重向量W即为第一监督学习模型ME1的最终解;
S5014:当标签样本库L1中标记为1的已知群租房用户能被第一监督学习模型ME1正确判别,则运用第一监督学习模型ME1为剩余所有待识别用户赋予预测的类标签,其中1为疑似群租房用户,0为疑似非群租用户。
9.根据权利要求7所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤S502,具体包括以下步骤:
S5021:基于标签样本库L2中数据,利用bootstrap自助抽样法有放回随机抽取n3个样本,再从中构建单棵决策树;
S5022:假设每个样本一共有M个属性,M为总特征数,通过信息增益最大或者Gini系数指标,再从m3个属性(m3<<M)中选择决策树的每层分节点,其中信息熵表达式为:
Figure RE-FDA0003299621940000051
Gini系数为:
Figure RE-FDA0003299621940000052
pi为x取i值的概率;
S5023:直至所有的节点下所属类别为同一类,则单棵决策树建立完毕,重复步骤S5021-S5022,最终建立的所有决策树构成随机森林,即第二监督学习模型ME2,每棵决策树对待识别用户都有一个预测类别,1是疑似群租房,0是疑似非群租用户,则第二监督学习模型ME2对所有待识别用户的判断结果值为
Figure RE-FDA0003299621940000053
其中,K为决策树个数,I为每个决策树的判断结果;
Figure RE-FDA0003299621940000054
时,被判别为疑似群租房用户,
Figure RE-FDA0003299621940000055
时,被判别为疑似非群租房用户;
S5024:当标签样本库L2中标记为1的已知群租房用户能被第二监督学习模型ME2正确判别,则运用第二监督学习模型ME2二次识别第一监督学习模型ME1判别为1的疑似群租房用户,将两次模型判别结果均为1的用户,导出相关档案数据,并编制成疑似群租房用户名单。
10.根据权利要求7所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤S503中,根据疑似群租房用户的营销档案缴费欠费信息、24点电量数据以及地址信息,校验所述判别结果的正确性,并输出最终疑似群租房名单及群租概率得分,上报相关部门进行预警和现场排查。
11.根据权利要求8所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
步骤S503还包括:根据最终疑似群租房用户及现场排查结果,反向优化群租房用户识别模型。
12.根据权利要求1-11任一项所述的一种采用混合算法的基于用户用电行为的群租房识别方法,其特征在于:
所述步骤5还包括:
步骤S505:识别结果展示与相关数据存储,具体为:
在固化群租房用户识别模型之后,将其部署在数据平台上,并设计前端展示界面和功能,将群租房识别模型进行封装和上线,实现群租房识别模型的产品化,前端实现业务人员直接操作产生分析结果,后台支撑数据分析人员持续优化模型。
CN202110830702.2A 2021-07-22 2021-07-22 一种采用混合算法的基于用户用电行为的群租房识别方法 Active CN113688870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110830702.2A CN113688870B (zh) 2021-07-22 2021-07-22 一种采用混合算法的基于用户用电行为的群租房识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110830702.2A CN113688870B (zh) 2021-07-22 2021-07-22 一种采用混合算法的基于用户用电行为的群租房识别方法

Publications (2)

Publication Number Publication Date
CN113688870A true CN113688870A (zh) 2021-11-23
CN113688870B CN113688870B (zh) 2023-09-26

Family

ID=78577663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110830702.2A Active CN113688870B (zh) 2021-07-22 2021-07-22 一种采用混合算法的基于用户用电行为的群租房识别方法

Country Status (1)

Country Link
CN (1) CN113688870B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553496A (zh) * 2022-01-28 2022-05-27 中国科学院信息工程研究所 基于半监督学习的恶意域名检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325550A (zh) * 2018-12-13 2020-06-23 中国移动通信集团广东有限公司 一种欺诈交易行为识别方法和装置
CN111401431A (zh) * 2020-03-12 2020-07-10 成都小步创想慧联科技有限公司 群租房识别方法及系统及存储介质
US20200334744A1 (en) * 2018-12-28 2020-10-22 The Beekin Company Limited Predicting real estate tenant occupancy
CN112381610A (zh) * 2020-11-16 2021-02-19 国网上海市电力公司 一种群租风险指数的预测方法及计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325550A (zh) * 2018-12-13 2020-06-23 中国移动通信集团广东有限公司 一种欺诈交易行为识别方法和装置
US20200334744A1 (en) * 2018-12-28 2020-10-22 The Beekin Company Limited Predicting real estate tenant occupancy
CN111401431A (zh) * 2020-03-12 2020-07-10 成都小步创想慧联科技有限公司 群租房识别方法及系统及存储介质
CN112381610A (zh) * 2020-11-16 2021-02-19 国网上海市电力公司 一种群租风险指数的预测方法及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢子萌;陈佳怡;李璟;谢岳;蒋欣利;韩蕾;郭倩;: "基于加权随机森林算法的空巢电力用户识别方法", 电信科学, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553496A (zh) * 2022-01-28 2022-05-27 中国科学院信息工程研究所 基于半监督学习的恶意域名检测方法及装置
CN114553496B (zh) * 2022-01-28 2022-11-15 中国科学院信息工程研究所 基于半监督学习的恶意域名检测方法及装置

Also Published As

Publication number Publication date
CN113688870B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN111639237B (zh) 一种基于聚类和关联规则挖掘的电力通信网风险评估系统
CN101819573B (zh) 一种自适应的网络舆情识别方法
CN106651424A (zh) 基于大数据技术的电力用户画像建立与分析方法
Lai et al. Topic modeling to discover the thematic structure and spatial-temporal patterns of building renovation and adaptive reuse in cities
CN106570778A (zh) 一种基于大数据的数据集成与线损分析计算的方法
CN109214863B (zh) 一种基于快递数据预测城市房屋需求的方法
Wang et al. Power system network topology identification based on knowledge graph and graph neural network
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN113010578B (zh) 社区数据分析方法、装置、社区智能交互平台及存储介质
CN114417802B (zh) 一种智能化报表生成系统
CN108874911A (zh) 基于区域环境与犯罪事件数据的疑犯位置预测方法
CN109934469A (zh) 基于异源交叉回归分析的停电敏感度预警方法及装置
CN111461521A (zh) 一种基于电力大数据的居民住房空置率分析方法
CN107729939A (zh) 一种面向新增电网资源的cim模型扩展方法及装置
CN114169933A (zh) 基于多维数据的门店智能选址推荐方法及系统
Sandeep Kumar et al. Location identification for real estate investment using data analytics
CN112381610A (zh) 一种群租风险指数的预测方法及计算机设备
CN113688870A (zh) 一种采用混合算法的基于用户用电行为的群租房识别方法
CN110222180A (zh) 一种文本数据分类与信息挖掘方法
CN113888210A (zh) 一种工程造价估计方法
CN112232722B (zh) 一种基于建筑信息模型技术的建筑设备管理系统
CN113723782A (zh) 一种基于能源消耗碳排放的精细尺度确定方法及装置
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法
CN116611785A (zh) 一种基于大数据的输变电工程造价模型构建方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant