CN112561580B - 一种用电行为审计方法、装置、设备和介质 - Google Patents
一种用电行为审计方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112561580B CN112561580B CN202011473671.1A CN202011473671A CN112561580B CN 112561580 B CN112561580 B CN 112561580B CN 202011473671 A CN202011473671 A CN 202011473671A CN 112561580 B CN112561580 B CN 112561580B
- Authority
- CN
- China
- Prior art keywords
- user
- electricity
- model
- users
- user portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012550 audit Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000006399 behavior Effects 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 15
- 238000007405 data analysis Methods 0.000 abstract description 7
- 238000013138 pruning Methods 0.000 description 7
- 238000011985 exploratory data analysis Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013474 audit trail Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种用电行为审计方法、装置、设备和介质,方法包括:获取若干第一用电用户的历史数据信息;将各第一用电用户的历史数据信息输入到预置用户画像模型,得到各第一用电用户的用户画像;基于所有第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;对疑点用电用户清单中的第一用电用户进行用电异常审计。本申请解决了在审计数据分析中,现有技术通常采用数据统计分析方法对所有用电用户进行用电行为分析,存在效率低和准确率低的技术问题。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种用电行为审计方法、装置、设备和介质。
背景技术
用户画像是根据用户的社会属性、生活习惯和消费行为等信息抽象出一个标签化用户模型。构建用户画像的核心为给用户贴“标签”,而标签是通过对用户信息分析得到的高度精炼的特征标识。
在审计数据分析中,通常是通过审计人员采用数据统计分析方法对所有用电用户进行用电行为分析,存在效率低和准确率低的技术问题。
发明内容
本申请提供了一种用电行为审计方法、装置和设备,用于解决在审计数据分析中,现有技术通常采用数据统计分析方法对所有用电用户进行用电行为分析,存在效率低和准确率低的技术问题。
有鉴于此,本申请第一方面提供了一种用电行为审计方法,包括:
获取若干第一用电用户的历史数据信息;
将各所述第一用电用户的历史数据信息输入到预置用户画像模型,得到各所述第一用电用户的用户画像;
基于所有所述第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;
对所述疑点用电用户清单中的所述第一用电用户进行用电异常审计。
可选的,所述预置用户画像模型的配置过程为:
获取第二用电用户的历史数据信息,并基于所述第二用电用户的历史数据信息对所述第二用电用户打标签,得到训练数据;
通过所述训练数据对用户画像模型进行训练,得到所述预置用户画像模型。
可选的,所述通过所述训练数据对用户画像模型进行训练,得到所述预置用户画像模型,包括:
将所述训练数据输入到用户画像模型进行训练,输出所述第二用电用户的用户画像;
基于所述第二用电用户对应的标签和输出的所述第二用电用户的用户画像,计算所述用户画像模型的模型查全率;
获取所述模型查全率大于预置阈值的所述用户画像模型,得到所述预置用户画像模型。
可选的,所述获取第二用电用户的历史数据信息,并基于所述第二用电用户的历史数据信息对所述第二用电用户打标签,得到训练数据,包括:
获取第二用电用户的历史数据信息;
基于所述第二用电用户的历史数据信息提取所述第二用电用户的属性信息和行为信息;
基于所述第二用电用户的属性信息和行为信息对所述第二用电用户打标签,得到训练数据。
可选的,所述获取第二用电用户的历史数据信息,之后还包括:
对所述第二用电用户的历史数据信息进行预处理。
可选的,所述基于所述第二用电用户对应的标签和输出的所述第二用电用户的用户画像,计算所述用户画像模型的模型查全率,包括:
基于所述第二用电用户对应的标签确定实际的第二疑点用电用户数量;
基于输出的所述第二用电用户的用户画像确定预测的第二疑点用电用户数量;
基于所述实际的第二疑点用电用户数量和所述预测的第二疑点用电用户数量计算所述用户画像模型的模型查全率。
本申请第二方面提供了一种用电行为审计装置,包括:
获取单元,用于获取若干第一用电用户的历史数据信息;
输入单元,用于将各所述第一用电用户的历史数据信息输入到预置用户画像模型,得到各所述第一用电用户的用户画像;
筛选单元,用于基于所有所述第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;
审计单元,用于对所述疑点用电用户清单中的所述第一用电用户进行用电异常审计。
可选的,还包括:配置单元,用于配置所述预置用户画像模型,其中,所述配置单元具体包括:
获取子单元,用于获取第二用电用户的历史数据信息,并基于所述第二用电用户的历史数据信息对所述第二用电用户打标签,得到训练数据;
训练子单元,用于通过所述训练数据对用户画像模型进行训练,得到所述预置用户画像模型。
本申请第三方面提供了一种用电行为审计设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的用电行为审计方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的用电行为审计方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种用电行为审计方法,包括:获取若干第一用电用户的历史数据信息;将各第一用电用户的历史数据信息分别输入到预置用户画像模型,得到各第一用电用户的用户画像;基于所有第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;对疑点用电用户清单中的第一用电用户进行用电异常审计。
本申请中,将获取的第一用电用户的历史数据信息输入到预置用户画像模型进行用户画像,进而基于第一用电用户的用户画像进行疑点用户筛选,得到疑点用电用户清单,对疑点用电用户清单中的第一用电用户进行用电异常审计,提高了审计准确性;并且不需要对所有的用电用户进行用电行为审计,提高了审计效率,从而解决了在审计数据分析中,现有技术通常采用数据统计分析方法对所有用电用户进行用电行为分析,存在效率低和准确率低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种用电行为审计方法的一个流程示意图;
图2为本申请实施例提供的一种预置用户画像模型的配置过程的一个流程示意图;
图3为本申请实施例提供的一种用电行为审计装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种用电行为审计方法的一个实施例,包括:
步骤101、获取若干第一用电用户的历史数据信息。
在本申请实施例中,获取的历史数据信息可以为税务局信息、消费信息、历史月份气候特征信息、第一用电用户所在地位置信息等。
步骤102、将各第一用电用户的历史数据信息输入到预置用户画像模型,得到各第一用电用户的用户画像。
预置用户画像模型用于对用电用户进行用户画像,即对用电用户打标签。通过预置用户画像模型对各第一用电用户的历史数据信息进行处理,来对各第一用电用户进行用户画像。
进一步,将第一用电用户的历史数据信息输入到预置用户画像模型之前还可以对历史数据信息进行数据清洗等预处理,来提高预置用户画像模型的预测准确性。
进一步,请参考图2,预置用户画像模型的配置过程为:
A1021、获取第二用电用户的历史数据信息,并基于第二用电用户的历史数据信息对第二用电用户打标签,得到训练数据。
获取的第二用电用户的历史数据信息可以为税务局信息、消费信息、历史月份气候特征信息、第一用电用户所在地位置信息等。
在获取到历史数据信息后,可以对其进行归集梳理和分类,历史数据信息主要可以分为两类:属性信息和行为信息。
(1)属性信息:
人口属性:包括性别、年龄等用电用户的基本信息,通过性别、年龄区别是否用电较多的用户,例如年轻人喜欢在家长期开空调,老年人喜欢用风扇等等,可以用于数据分析。
兴趣特征:包括用电用户的浏览内容、收藏内容、阅读咨询以及购买物品偏好等,通过互联网购物信息判断用电用户是否经常在家,如果经常在家网上购物,在后续分析中,可以将这类用电用户归集为耗电用户。
位置特征:包括用电用户所处城市、所处居住区域、用电用户移动轨迹等,通过位置特征分析用电用户是高收入还是低收入。
设备属性:包括用电用户使用的终端特征等,通过使用的终端特征来识别用电用户是使用何种电器,进而分析用电用户居住环境和收入情况。
气候数据:判断外部气温高低,从而分析用电用户是否长期开启空调。
(2)行为信息:
消费特征:与消费相关的特征,通过消费特征判断用电用户收入是偏高还是偏低,通过消费行为分析用电用户是否为高收入人群。
行为数据:访问时间、浏览路径等用电用户在网站的行为日志数据,通过互联网行为数据分析用电用户是否长时间在家。
社交数据:用电用户社交相关数据,用于分析用电用户是否长时间在家或经常外出活动。
用电电量:根据每个用电用户连续的电量计算用电电量的平均值、最大值、最小值、同比以及环比等进行分析。
用电电费、根据每个用电用户连续的电费计算用电电费的平均值、最大值、最小值、同比以及环比等进行分析。
基于第二用电用户的历史数据信息提取上述属性信息和行为信息,进而可以根据用电用户的属性信息和行为信息对第二用电用户进行各个维度(收入情况、居住环境、耗电等)打标签,得到包含第二用电用户的历史数据信息和第二用电用户的各维度的标签的训练数据。还可以建立宽表来区分存放属性信息和行为信息,对宽表的每个对象进行离散对象和连续对象转义等,用于探索性分析。
进一步,还可以对历史信息数据进行数据抽取,抽取业务数据、外部数据和非结构化数据等,将抽取后的数据作为训练数据。
(1)业务数据:
结合用电行为审计所需业务数据,对用电用户信息表、用电用户收费记录表、用电用户电量记录表等进行增量抽取;单位维度表、各类业务维度表进行全量抽取,并对业务数据进行调度规则设置。
(2)外部数据:
外部数据是指政府性的数据,例如社保数据、税务数据、银行数据,以及互联网的淘宝数据,例如京东数据、微信数据等。这些数据与运营商协调,定期推送数据,推送数据包括个人信息、参保信息、税务信息、购物信息等。
(3)非结构化数据:
对于非结构化数据,通过设定相应数据文本模板,定期批量导入。
进一步,还可以对抽取的数据进行预处理,具体的,可以对抽取的数据进行数据补缺,即对空数据、缺失数据进行数据补缺操作,无法处理的数据可以做标记。例如,某用电用户电费收入为空值,则用0代替,用电用户当月电量为空,用0代替,用电用户银行流水金额存在空值,则用0代替;用电用户信息表,性别字段缺失,可以通过身份证号来识别该用电用户相别;用电用户年龄信息也可以通过身份证号来填充空值;社保提取的个人信息存在学历缺失的,统一采用最低学历填充。
还可以对抽取的数据进行数据替换处理,即对抽取的数据中的无效数据进行数据替换。例如,对于用电用户电费收入值,处于极值的,进行数据去除或者用平均值替换;对用电用户用电量严重不符合的,用平均值替换;对于一些不符合标准的数据进行批量处理,比如性别字段,在不同系统中用不同值显示的,同一规范标准,可以用1表示男,用0表示女。
还可以将抽取的业务数据、外部数据以及非结构化数据的格式转换为用于用电行为审计的目标数据格式,目标数据格式根据实际情况进行设置,在此不做具体限定。还可以对抽取的数据中的非法数据进行替换或导出到错误文件重新处理。
进一步,还可以对上述数据进行探索性分析,具体包括:
1.离散型变量探索性分析,离散型变量,可以分解为名义型离散变量和有序型离散变量。
(1)名义型离散变量,即是那些取值之间无法比较大小、没有好坏优劣之分的离散型变量比如性别,只有男女之分,没有大小好坏的说法。比如用电用户类别、用电类型、性别等是名义型离散变量。
名义型离散变量探索性分析方法:对于名义型离散变量,关注的是该变量的取值有哪些,各个取值的占比是多少。在使用中,如果离散型变量取值较多,则使用条形图比较清晰。
(2)有序型离散变量,即是可以进行大小比较,可以有优劣好坏之分的离散型变量称为有序型离散变量。有序型离散变量取值之间不是等距的,它们只能做大小比较,但是不能做减法计算。
2.连续型变量的探索性分析。
用电用户行为审计连续型变量,可以通过描述统计量和图形两种方法来进行探索性分析。
(1)使用描述统计量:对于连续型变量,常见的描述统计量包括反应变量集中趋势的均值、中位数等;反应分散趋势的最小值、最大值、全距、标准差、变异系数等;反应分布形态的偏度和峰度。
(2)使用图形:对于连续型变量,主要通过直方图和箱线图的方式来对数据的分布状况进行考察。
3.变量之间探索性分析
用电用户行为审计,还需要关注变量与变量之间的关系。比如本本申请实施例中,各个变量与目标变量“是否是疑点”之间的关系。同时,变量之间的关系可以分为:离散变量与离散变量,离散变量与连续变量,连续变量与连续变量。
(1)离散变量与离散变量
离散变量与离散变量之间的关系可以使用条形图进行查看,将其中一个变量在图形中用不同的颜色显示来直观的观察出变量之间的关系。
(2)离散变量与连续变量
离散变量与连续变量之间的关系可以使用直方图来查看,将其中的离散变量在图形中用不同的颜色显示来直观地观察变量之间的关系。
(3)连续变量与连续变量
连续变量与连续变量之间的关系可以用散点图来进行直观的展示。
A1022、通过训练数据对用户画像模型进行训练,得到预置用户画像模型。
将训练数据输入到用户画像模型进行训练,得到预置用户画像模型的具体过程可以为:
1、将训练数据输入到用户画像模型进行训练,输出第二用电用户的用户画像。
将训练数据输入到用户画像模型进行训练,输出第二用电用户的用户画像,画像第二用电用户的相别、用电偏好、居住地区、是否为居家一族、收入情况等。具体的,可以通过统计建模、数据挖掘、机器学习的思想,对历史数据信息进行分析利用,从而得到描述用电用户更为深刻的信息。如通过建模分析,可以对用户的性别、偏好进行预测,从而能对没有收集到性别数据的新用户进行预测。还可以通过建模与数据挖掘,使用聚类、关联思想,发现人群的聚集特征。也可以通过建模与数据发掘,使用聚类、关联思想,逻辑回归等信息分析该用电用户是否是高耗电用户。从而通过机器学习把高耗电用户筛查出来,供后期用户画像模型的使用奠定事实依据。
本申请实施例中的用户画像模型可以为通过K-近邻算法构建的KNN模型、决策树模型、或逻辑回归模型。
其中,K-近邻是一种分类算法,其思想为:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。K-近邻算法中,所选择的邻居都是已经正确分类的对象。该方法在另类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
通过K-近邻算法的进行预测分类时的具体步骤为:
(1)计算测试数据与各个训练数据之间的距离;
(2)按照距离的递增关系进行排序;
(3)选取距离最小的K个点;
(4)确定前K个点所在类别的出现频率;
(5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
决策树为另一种常见的分类方法,决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
不同于贝叶斯算法,决策树的构造过程不依赖领域知识,它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。
那么如何划分数据呢?各个特征的优先级是怎么排的?常用的划分数据集方法有ID3和C4.5,通过ID3和C4.5划分数据集属于现有技术,在此不再对其具体过程进行赘述。
在实际构造决策树时,通常要进行剪枝,这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种:先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造;后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。剪枝PEP算法是一种常见的事后剪枝策略。
线性回归就是根据已知数据集求一线性函数,使其尽可能拟合数据,让损失函数最小,常用的线性回归最优法有最小二乘法和梯度下降法。而逻辑回归是一种非线性回归模型,相比于线性回归,它多了一个sigmoid函数(或称为Logistic函数)。逻辑回归是一种分类算法,主要用于二分类问题。
2、基于第二用电用户对应的标签和输出的第二用电用户的用户画像,计算用户画像模型的模型查全率。
基于第二用电用户对应的标签确定实际的第二疑点用电用户数量;基于输出的第二用电用户的用户画像确定预测的第二疑点用电用户数量;基于实际的第二疑点用电用户数量和预测的第二疑点用电用户数量计算用户画像模型的模型查全率。
具体的,利用用户画像模型输出的用户画像,对不同用电用户群体,相同用电行为的用电用户打标签,从而分析用电用户的是否是高耗电用户,长期居家用电用户,高收入群体用电用户等,可以用来进一步判别第二用电用户是否为高耗电用电用户,进而得到第二用电用户的疑点用电用户清单。根据第二用电用户的疑点用电用户清单可以确定预测的第二疑点用电用户数量。基于第二用电用户对应的标签可以确定实际的第二疑点用电用户数量,进而可以基于实际的第二疑点用电用户数量和预测的第二疑点用电用户数量计算用户画像模型的模型查全率,通过计算预测的第二疑点用电用户数量与实际的第二疑点用电用户数量的比值,得到用户画像模型的模型查全率。
3、获取模型查全率大于预置阈值的用户画像模型,得到预置用户画像模型。
假设通过第二用电用户的标签给出了一个100多人的实际的疑点用电用户名单,结果根据用户画像模型预测的结果得到85个人为疑点用电用户,这个模型的查全率为85%,相当不错,可是问题是最终有1000疑点用电用户,而模型只发现了其中的100个疑点用电用户,显然不能采用该模型。据此引入了模型查全率,该指标也称为模型覆盖率,它主要反应模型的覆盖程度。
通过计算用户画像模型的模型查全率,当该用户画像模型的模型查全率低于或等于预置阈值时,进行对该用户画像模型进行训练,直至该用户画像模型的模型查全率大于预置阈值,才判定该模型收敛,停止训练,得到训练好的用户画像模型,将训练好的用户画像模型作为预置用户画像模型。
步骤103、基于所有第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单。
利用用户画像模型的预测结果,对不同用电用户群体,相同用电行为的用电用户打标签,从而分析用电用户的是否是高耗电用户,长期居家用电用户,高收入群体用电用户等,可以用来进一步判别是否为高耗电用电用户,进而得到疑点用电用户清单。
步骤104、对疑点用电用户清单中的第一用电用户进行用电异常审计。
通过训练好的用户画像模型对用电用户进行分析,基于分析结果可以进一步对该用电用户进行打标签,进而建立审计标签,例如高消耗人群、长期居家、高收入人群,有房一族等,进而可以有区别的对这些用电用户进行审计。对疑点用电用户清单中的第一用电用户进行用电异常审计,具体的,可以结合该第一用电用户的用电量和电费信息进行用电异常审计,具体的审计过程属于现有技术,在此不再对其进行赘述。
本申请实施例中,将获取的第一用电用户的历史数据信息输入到预置用户画像模型进行用户画像,进而基于第一用电用户的用户画像进行疑点用户筛选,得到疑点用电用户清单,对疑点用电用户清单中的第一用电用户进行用电异常审计,提高了审计准确性;并且不需要对所有的用电用户进行用电行为审计,提高了审计效率,从而解决了在审计数据分析中,现有技术通常采用数据统计分析方法对所有用电用户进行用电行为分析,存在效率低和准确率低的技术问题。
本申请实施例中的用电行为审计方法具有以下优点:
1、提高了智能化,减少对行业知识过度依赖。通过对用电用户行为信息的大数据检索和挖掘分析,有助于减少盲目的扫寻市场营销用电用户窃电表征数据信息,有助于减少现场查证审计的审计作业时间,符合电网企业数字化转型审计的要求;
2、审计数据的智能挖掘,易于发现审计数据中更深层的隐藏信息。通过用户画像分析用户用电行为,可以更全面、更准确地发现审计数据中用电用户行为中隐藏的异常信息,有助于用电行为审计。
3、有效地发现审计线索,提高审计效率。相对于现有的就审计人员经验进行数据库查询统计分析的审计方法,采用智能化审计用户画像分析对用电用户进行画像,进一步筛选出疑点用电用户,再进行用电行为审计,减少了审计数据量,提高了审计效率。
以上为本申请提供的一种用电行为审计方法的一个实施例,以下为本申请提供的一种用电行为审计装置的一个实施例。
请参考图3,本申请实施例提供的一种用电行为审计装置,包括:
获取单元301,用于获取若干第一用电用户的历史数据信息;
输入单元302,用于将各第一用电用户的历史数据信息输入到预置用户画像模型,得到各第一用电用户的用户画像;
筛选单元303,用于基于所有第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;
审计单元304,用于对疑点用电用户清单中的第一用电用户进行用电异常审计。
作为进一步地改进,还包括:配置单元305,用于配置预置用户画像模型,其中,配置单元305具体包括:
获取子单元,用于获取第二用电用户的历史数据信息,并基于第二用电用户的历史数据信息对第二用电用户打标签,得到训练数据;
训练子单元,用于通过训练数据对用户画像模型进行训练,得到预置用户画像模型。
作为进一步地改进,训练子单元具体用于:
将训练数据输入到用户画像模型进行训练,输出第二用电用户的用户画像;
基于第二用电用户对应的标签和输出的第二用电用户的用户画像,计算用户画像模型的模型查全率;
获取模型查全率大于预置阈值的用户画像模型,得到预置用户画像模型。
作为进一步地改进,获取子单元具体用于:
获取第二用电用户的历史数据信息;
基于第二用电用户的历史数据信息提取第二用电用户的属性信息和行为信息;
基于第二用电用户的属性信息和行为信息对第二用电用户打标签,得到训练数据。
作为进一步地改进,还包括:
预处理子单元,用于对第二用电用户的历史数据信息进行预处理。
本申请实施例中,用电行为审计装置将获取的第一用电用户的历史数据信息输入到预置用户画像模型进行用户画像,进而基于第一用电用户的用户画像进行疑点用户筛选,得到疑点用电用户清单,对疑点用电用户清单中的第一用电用户进行用电异常审计,提高了审计准确性;并且不需要对所有的用电用户进行用电行为审计,提高了审计效率,从而解决了在审计数据分析中,现有技术通常采用数据统计分析方法对所有用电用户进行用电行为分析,存在效率低和准确率低的技术问题。
本申请实施例还提供了一种用电行为审计设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的用电行为审计方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述方法实施例中的用电行为审计方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (7)
1.一种用电行为审计方法,其特征在于,包括:
获取若干第一用电用户的历史数据信息;
将各所述第一用电用户的历史数据信息输入到预置用户画像模型,得到各所述第一用电用户的用户画像,其中,所述预置用户画像模型的配置过程为:获取第二用电用户的历史数据信息,并基于所述第二用电用户的历史数据信息对所述第二用电用户打标签,得到训练数据;将所述训练数据输入到用户画像模型进行训练,输出所述第二用电用户的用户画像;基于所述第二用电用户对应的标签和输出的所述第二用电用户的用户画像,计算所述用户画像模型的模型查全率;获取所述模型查全率大于预置阈值的所述用户画像模型,得到所述预置用户画像模型;
所述用户画像模型为KNN模型、决策树模型或逻辑回归模型;
基于所有所述第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;
对所述疑点用电用户清单中的所述第一用电用户进行用电异常审计。
2.根据权利要求1所述的用电行为审计方法,其特征在于,所述获取第二用电用户的历史数据信息,并基于所述第二用电用户的历史数据信息对所述第二用电用户打标签,得到训练数据,包括:
获取第二用电用户的历史数据信息;
基于所述第二用电用户的历史数据信息提取所述第二用电用户的属性信息和行为信息;
基于所述第二用电用户的属性信息和行为信息对所述第二用电用户打标签,得到训练数据。
3.根据权利要求1所述的用电行为审计方法,其特征在于,所述获取第二用电用户的历史数据信息,之后还包括:
对所述第二用电用户的历史数据信息进行预处理。
4.根据权利要求1所述的用电行为审计方法,其特征在于,所述基于所述第二用电用户对应的标签和输出的所述第二用电用户的用户画像,计算所述用户画像模型的模型查全率,包括:
基于所述第二用电用户对应的标签确定实际的第二疑点用电用户数量;
基于输出的所述第二用电用户的用户画像确定预测的第二疑点用电用户数量;
基于所述实际的第二疑点用电用户数量和所述预测的第二疑点用电用户数量计算所述用户画像模型的模型查全率。
5.一种用电行为审计装置,其特征在于,包括:
获取单元,用于获取若干第一用电用户的历史数据信息;
输入单元,用于将各所述第一用电用户的历史数据信息输入到预置用户画像模型,得到各所述第一用电用户的用户画像;
筛选单元,用于基于所有所述第一用电用户的用户画像进行疑点用电用户筛选,生成疑点用电用户清单;
审计单元,用于对所述疑点用电用户清单中的所述第一用电用户进行用电异常审计;
配置单元,用于配置所述预置用户画像模型,其中,所述配置单元具体包括:
获取子单元,用于获取第二用电用户的历史数据信息,并基于所述第二用电用户的历史数据信息对所述第二用电用户打标签,得到训练数据;
训练子单元,用于通过所述训练数据对用户画像模型进行训练,得到所述预置用户画像模型,具体包括:将所述训练数据输入到用户画像模型进行训练,输出所述第二用电用户的用户画像;基于所述第二用电用户对应的标签和输出的所述第二用电用户的用户画像,计算所述用户画像模型的模型查全率;获取所述模型查全率大于预置阈值的所述用户画像模型,得到所述预置用户画像模型;所述用户画像模型为KNN模型、决策树模型或逻辑回归模型。
6.一种用电行为审计设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的用电行为审计方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的用电行为审计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473671.1A CN112561580B (zh) | 2020-12-15 | 2020-12-15 | 一种用电行为审计方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473671.1A CN112561580B (zh) | 2020-12-15 | 2020-12-15 | 一种用电行为审计方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112561580A CN112561580A (zh) | 2021-03-26 |
CN112561580B true CN112561580B (zh) | 2023-02-17 |
Family
ID=75064761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011473671.1A Active CN112561580B (zh) | 2020-12-15 | 2020-12-15 | 一种用电行为审计方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112561580B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299879A (zh) * | 2018-09-30 | 2019-02-01 | 广东电网有限责任公司 | 一种电网审计问题的统计方法、装置及设备 |
CN109754221A (zh) * | 2018-12-28 | 2019-05-14 | 广东电网有限责任公司 | 一种提高电网企业审计覆盖率的方法及装置 |
CN110119755A (zh) * | 2019-03-22 | 2019-08-13 | 国网浙江省电力有限公司信息通信分公司 | 基于Ensemble学习模型的电量异常检测方法 |
CN111062590A (zh) * | 2019-12-02 | 2020-04-24 | 深圳供电局有限公司 | 用电异常行为检测方法、装置、计算机设备和存储介质 |
CN111178672A (zh) * | 2019-12-02 | 2020-05-19 | 广东电网有限责任公司 | 一种基于平衡性的智能稽查方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006024201A (ja) * | 2005-06-06 | 2006-01-26 | Nec Corp | 監査システム、監査方法及び監査プログラムを記録した記録媒体 |
-
2020
- 2020-12-15 CN CN202011473671.1A patent/CN112561580B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299879A (zh) * | 2018-09-30 | 2019-02-01 | 广东电网有限责任公司 | 一种电网审计问题的统计方法、装置及设备 |
CN109754221A (zh) * | 2018-12-28 | 2019-05-14 | 广东电网有限责任公司 | 一种提高电网企业审计覆盖率的方法及装置 |
CN110119755A (zh) * | 2019-03-22 | 2019-08-13 | 国网浙江省电力有限公司信息通信分公司 | 基于Ensemble学习模型的电量异常检测方法 |
CN111062590A (zh) * | 2019-12-02 | 2020-04-24 | 深圳供电局有限公司 | 用电异常行为检测方法、装置、计算机设备和存储介质 |
CN111178672A (zh) * | 2019-12-02 | 2020-05-19 | 广东电网有限责任公司 | 一种基于平衡性的智能稽查方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112561580A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US7062477B2 (en) | Information-processing apparatus, information-processing method and storage medium | |
CN111475680A (zh) | 检测异常高密子图的方法、装置、设备及存储介质 | |
CN110147389B (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN112348519A (zh) | 一种欺诈用户识别方法、装置和电子设备 | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN110008977B (zh) | 聚类模型构建方法以及装置 | |
CN110046889A (zh) | 一种异常行为主体的检测方法、装置及服务器 | |
CN113469730A (zh) | 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置 | |
Markovič et al. | Data-driven classification of residential energy consumption patterns by means of functional connectivity networks | |
CN117670066B (zh) | 基于智能决策的司库管理方法、系统、设备及存储介质 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN108076032B (zh) | 一种异常行为用户识别方法及装置 | |
CN114692978A (zh) | 一种基于大数据的社交媒体用户行为预测方法及系统 | |
CN113094448B (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN114139725A (zh) | 业务对象的预测方法、设备及存储介质 | |
CN114202179A (zh) | 目标企业的识别方法以及装置 | |
CN112561580B (zh) | 一种用电行为审计方法、装置、设备和介质 | |
CN117254587A (zh) | 配电网的监测方法及其装置、电子设备及存储介质 | |
Pham et al. | Predictive analysis of the supply chain management using machine learning approaches: Review and taxonomy | |
CN115619539A (zh) | 贷前风险评价方法以及装置 | |
CN113962508A (zh) | 用电对象的识别方法及识别装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |