CN116304673A - 用电量异常识别模型训练方法、装置和计算机设备 - Google Patents
用电量异常识别模型训练方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN116304673A CN116304673A CN202310011316.XA CN202310011316A CN116304673A CN 116304673 A CN116304673 A CN 116304673A CN 202310011316 A CN202310011316 A CN 202310011316A CN 116304673 A CN116304673 A CN 116304673A
- Authority
- CN
- China
- Prior art keywords
- data
- power consumption
- abnormal
- cluster
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 193
- 230000005856 abnormality Effects 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002159 abnormal effect Effects 0.000 claims abstract description 329
- 230000005611 electricity Effects 0.000 claims abstract description 179
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 28
- 238000012795 verification Methods 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013502 data validation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请涉及一种用电量异常识别模型训练方法、装置、计算机设备。所述方法包括:将各个历史用电量数据进行聚类得到聚类异常数据簇和聚类正常数据簇;基于各个历史用电量数据的数据分布进行异常数据识别得到识别异常数据簇和识别正常数据簇;基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;基于目标异常数据簇和目标正常数据簇得到训练数据集和训练标签;将训练数据集输入到初始用电量异常识别模型进行模型训练,直到达到训练完成条件时,得到目标用电量异常识别模型。采用本方法能够用电量异常识别模型的训练效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种用电量异常识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在核抄系统中,比如,用电量核抄系统,表示用于抄表(电表)并核对用电量和电费的系统,由于用户群体的数量巨大,用户的用电量数据体量不断增大,需要核查的用电量数据也不断增加,因此需要对待核查的用电量数据进行异常数据识别。现有的异常数据识别方法是使用训练好的用电量异常识别模型对待识别的用电量数据进行检测。然而,在用电量异常识别模型的训练过程中,由于训练数据的准确性无法保证,导致用电量异常识别模型的训练准确性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用电量异常识别模型的训练准确性的用电量异常识别模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种用电量异常识别模型训练方法。所述方法包括:
获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;
将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;
基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
第二方面,本申请还提供了一种用电量异常识别模型训练装置。所述装置包括:
聚类模块,用于获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
异常识别模块,用于基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
数据确认模块,用于基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
训练数据模块,用于基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;
训练输入模块,用于将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;
训练完成模块,用于基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;
将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;
基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;
将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;
基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;
将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;
基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
上述用电量异常识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品,通过对各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;然后根据各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇。通过根据聚类异常数据簇和识别异常数据簇确定目标异常数据簇,根据聚类正常数据簇和识别正常数据簇确定目标正常数据簇,能够提高目标正常数据簇和目标异常数据簇的准确性。然后使用目标正常数据簇和目标异常数据簇对初始用电量异常识别模型进行训练,得到目标用电量异常识别模型,从而提高了用电量异常识别模型的训练准确性。
附图说明
图1为一个实施例中用电量异常识别模型训练方法的应用环境图;
图2为一个实施例中用电量异常识别模型训练方法的流程示意图;
图3为一个实施例中模型选择的流程示意图;
图4为一个实施例中用电量异常识别系统的结构示意图;
图5为一个实施例中用电量异常识别模型训练装置的结构框图;
图6为一个实施例中计算机设备的内部结构图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的用电量异常识别模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以通过终端102获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;服务器104基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;服务器104基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;服务器104基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;服务器104将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;服务器104基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用电量异常识别模型训练方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇。
其中,历史用电量数据是指历史时间段内采集的各个用户的用电量数据。用电量是指用户在预设时间段内的用电量,预设时间段可以是月、周等。聚类异常数据簇是指各个历史用电量数据经过聚类后得到的异常数据集。聚类正常数据簇是指各个历史用电量数据经过聚类后得到的正常数据集。
具体地,服务器可以通过终端获取各个历史用电量数据,服务器获取预先设置的各个历史用电量数据中的正常数据的聚类中心和异常数据的聚类中心。服务器根据正常数据的聚类中心对各个历史用电量数据进行聚类,得到聚类正常数据簇,并根据异常数据的聚类中心对各个历史用电量数据进行聚类,得到聚类异常数据簇。
步骤204,基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇。
其中,数据分布是指各个历史用电量数据中用电量的分布情况。识别异常数据簇是指各个历史用电量数据通过数据分布识别得到的异常数据集。识别异常数据簇是指各个历史用电量数据通过数据分布识别得到的异常数据集。
具体地,服务器中预先设置至少两个异常数据识别算法,服务器根据各个历史用电量数据的数据分布使用各个异常数据识别算法进行异常数据识别,得到各个异常数据识别算法对应的识别异常数据簇和识别正常数据簇。
步骤206,基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇。
其中,目标异常数据簇是指确定为异常的数据集。目标正常数据簇是指确认为正常的数据集。
具体地,服务器在聚类异常数据簇和各个异常数据识别算法对应的识别异常数据簇中筛选相似的异常数据作为目标异常数据簇。然后服务器在聚类正常数据簇和各个异常数据识别算法对应的识别正常数据簇中筛选相似的正常数据作为目标正常数据簇。
步骤208,基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签。
具体地,服务器根据目标异常数据簇中的各个历史用电量数据生成对应的异常数据训练标签,根据目标正常数据簇中的各个历史用电量数据生对应的正常数据训练标签。服务器将目标异常数据簇和目标正常数据簇作为训练数据集,将异常数据训练标签和正常数据训练标签作为训练数据集对应的训练标签。
步骤210,将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度。
其中,初始用电量异常识别模型是指未进行模型训练的用电量异常识别模型。异常程度是指用电量数据是异常数据的程度。
具体地,服务器获取初始用电量异常识别模型,将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型,通过初始用电量异常数据模型对各个历史用电量数据进行用电量异常识别,得到训练数据集中各历史用电量数据对应的异常程度。
步骤212,基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
其中,模型损失信息是指训练数据集对应的异常程度与训练标签之间的差异信息。
具体地,服务器根据训练数据集中各个历史用电量数据对应的异常程度与训练标签进行损失计算,得到初始用电量异常识别模型对应的模型损失信息。服务器根据模型损失信息对应初始用电量异常识别模型中的模型参数进行更新,得到更新用电量异常识别模型。服务器将更新用电量异常识别模型作为初始用电量异常识别模型,并返回到将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行。当检测到模型损失信息小于预设阈值时,确定初始用电量异常识别模型训练完成,得到目标用电量异常识别模型。
上述用电量异常识别模型训练方法中,通过对各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;然后根据各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇。通过根据聚类异常数据簇和识别异常数据簇确定目标异常数据簇,根据聚类正常数据簇和识别正常数据簇确定目标正常数据簇,能够提高目标正常数据簇和目标异常数据簇的准确性。进一步地,通过对各个历史用电量数据分别进行聚类和异常数据识别。然后使用模板正常数据簇和目标异常数据对初始用电量异常识别模型进行训练,得到目标用电量异常识别模型,从而提高了用电量异常识别模型的训练准确性。
在一个实施例中,如图3所示,提供一种模型选择的流程示意图。初始用电量异常识别模型包括至少两个,用电量异常识别模型训练方法,还包括:
步骤302,将训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别,得到各个初始用电量异常识别模型对应的异常程度,至少两个初始用电量异常识别模型是使用不同的模型结构建立的;
步骤304,基于各个初始用电量异常识别模型对应的异常程度和训练数据标签分别进行损失计算,得到各个初始用电量异常识别模型对应的模型损失信息;
步骤306,基于各个初始用电量异常识别模型对应的模型损失信息分别更新对应的初始用电量异常识别模型,得到各个更新异常数据检测模型;
步骤308,分别将各个更新异常数据检测模型作为初始异常数据识别模型,并返回将训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别的步骤迭代执行,直到达到训练完成条件时,得到各个已训练异常数据识别模型;
步骤310,获取验证数据集,使用验证数据集对各个已训练异常数据识别模型进行验证,得到各个已训练异常数据识别模型对应的验证结果,基于验证结果在各个已训练异常数据识别模型中确定目标异常数据识别模型。
其中,验证数据集用于对训练完成的模型进行验证的数据集。已训练异常数据识别模型是指训练完成后待进行数据验证的用电量异常识别模型。
具体地,服务器获取训练数据集,服务器也可以按照预设比例将目标正常数据簇和目标异常数据簇划分为训练数据集和验证数据集,划分比例可以是7:3。服务器使用训练数据集分别对各个初始用电量异常识别模型进行模型训练,通过将验证数据集中的各个历史用电量数据输入到各个初始用电量异常识别模型进行用电量异常识别,得到各个初始用电量异常识别模型对应的异常程度。
然后服务器分别计算各个初始用电量异常识别模型对应的异常程度和训练标签之间的差异信息,得到各个初始用电量异常识别模型对应的模型损失信息。服务器根据各个初始用电量异常识别模型对应的模型损失信息对各个初始用电量异常识别模型的模型参数进行更新,得到各个更新异常数据检测模型。
服务器分别将各个更新异常数据检测模型作为初始异常数据识别模型,并返回将训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别的步骤迭代执行,直到达到训练完成条件时,得到各个已训练异常数据识别模型。各个已训练异常数据识别模型可以是随机森林模型、决策树模型、辑回归与最大熵模型、支持向量机模型和隐马尔可夫模型等。
然后服务器获取验证数据集和验证数据集对应的验证标签。服务器将使用验证数据集对各个已训练异常数据识别模型进行验证,得到各个已训练异常数据识别模型对应的异常程度,服务器将各个已训练异常数据识别模型对应的异常程度作为验证结果。然后服务器计算各个已训练异常数据识别模型对应的验证结果和验证标签之间的验证差异,将验证差异最小的已训练异常数据识别模型作为目标异常数据识别模型。
本实施例中,通过使用验证数据集对各个已训练用电量异常识别模型进行验证,根据验证结果确定目标用电量异常识别模型,提高了目标用电量异常识别模型的异常识别准确性。
在一个实施例中,步骤204,基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇,包括:
基于各个历史用电量数据进行极值计算,得到极值结果,基于极值结果确定第一识别异常数据簇和第一识别正常数据簇;
基于各个历史用电量数据进行分布偏离计算,得到各个历史用电量数据对应的分布偏离程度,基于分布偏离程度得到第二识别异常数据簇和第二识别正常数据簇;
基于各个历史用电量数据进行密度偏离计算,得到各个历史用电量数据对应的密度偏离程度,基于密度偏离程度得到第三识别异常数据簇和第三识别正常数据簇;
基于第一识别异常数据簇、第二识别异常数据簇和第三识别异常数据簇得到识别异常数据簇,并基于第一识别正常数据簇、第二识别正常数据簇和第三识别正常数据簇得到识别正常数据簇。
其中,第一识别异常数据簇是指各个历史用电量数据通过极值计算得到的异常数据集。第一识别正常数据簇是指各个历史用电量数据通过极值计算得到的正常数据集。分布偏离程度是指各个历史用电量数据中的用电量的分布偏离平均分布范围的程度。第二识别异常数据簇是指各个历史用电量数据通过分布偏离计算得到的异常数据集。第二识别正常数据簇是指各个历史用电量数据通过分布偏离计算得到的正常数据集。密度偏离程度是指各个历史用电量数据中的用电量偏离平均密度的程度。第三识别异常数据簇是指各个历史用电量数据通过密度偏离计算得到的异常数据集。第三识别正常数据簇是指各个历史用电量数据通过密度偏离计算得到的正常数据集。
具体地,服务器对各个历史用电量数据进行极值计算,得到最大极值点和最小极值点,根据最大极值点和最小极值点将各个历史用电量数据进行排序,将接近最大极值点或最小极值点的预设范围内的历史用电量数据作为第一识别异常数据簇,然后将剩余的历史用电量数据作为第二识别正常数据簇。
服务器将各个历史用电量数据进行分布偏离计算,得到各个历史用电量数据对应的分布偏离程度,将分布偏离程度超过预设分离程度阈值的历史用电量数据作为第二识别异常数据簇中的历史用电量数据;将分布偏离程度未超过预设分离程度阈值的历史用电量数据作为第二识别正常数据簇中的历史用电量数据,得到第二识别正常数据簇和第二识别异常数据簇。
服务器将各个历史用电量数据进行密度偏离计算,得到各个历史用电量数据对应的密度偏离程度,将密度偏离程度超过预设分离程度阈值的历史用电量数据作为第三识别异常数据簇中的历史用电量数据;将密度偏离程度未超过预设分离程度阈值的历史用电量数据作为第三识别正常数据簇中的历史用电量数据,得到第三识别正常数据簇和第三识别异常数据簇。
服务器将第一识别正常数据簇、第二识别正常数据簇和第三识别正常数据簇进行数据合并,得到识别正常数据簇。并将第一识别异常数据簇、第二识别异常数据簇和第三识别异常数据簇进行数据合并,得到识别异常数据簇。
本实施例中,通过对各个历史用电量数据分别进行极值计算、分布偏离计算和密度偏离计算来进行正常数据和异常数据的筛选,得到识别异常数据簇和识别正常数据簇,提高了各个历史用电量数据中正常数据和异常数据的准确性,以使后续使用异常数据和正常数据进行模型训练,得到目标用电量异常数据模型,从而提高了用电量异常识别模型的训练准确性。
在一个实施例中,步骤206,基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇,包括:
获取聚类异常数据簇中的各个聚类异常数据、识别异常数据簇中的各个识别异常数据、聚类正常数据簇中的各个聚类正常数据和识别正常数据簇中的各个识别正常数据;
计算各个聚类异常数据和各个识别异常数据之间的相似程度,将相似程度满足预设相似程度阈值的聚类异常数据和识别异常数据作为目标异常数据簇中的目标异常数据;
计算各个聚类正常数据和各个识别正常数据之间的相似程度,将相似程度满足预设相似程度阈值的聚类正常数据和识别正常数据作为目标正常数据簇中的目标正常数据。
具体地,服务器获取聚类异常数据簇中的各个聚类异常数据、识别异常数据簇中的各个识别异常数据、聚类正常数据簇中的各个聚类正常数据和识别正常数据簇中的各个识别正常数据。
然后服务器将各个聚类异常数据和各个识别异常数据进行相似度计算,服务器可以使用皮尔森相关性的相似度、余弦相似度等算法进行相似度计算,得到各个聚类异常数据和各个识别异常数据之间的相似程度。服务器将相似程度满足预设相似程度阈值的聚类异常数据和识别异常数据作为目标异常数据簇中的目标异常数据。
服务器将各个聚类正常数据和各个识别正常数据进行相似度计算,服务器可以使用皮尔森相关性的相似度、余弦相似度等算法进行相似度计算,得到各个聚类正常数据和各个识别正常数据之间的相似程度。服务器将相似程度满足预设相似程度阈值的聚类正常数据和识别正常数据作为目标正常数据簇中的目标正常数据。
本实施例中,通过将相似程度满足预设相似程度阈值的聚类异常数据和识别异常数据作为目标异常数据簇中的目标异常数据,并将相似程度满足预设相似程度阈值的聚类正常数据和识别正常数据作为目标正常数据簇中的目标正常数据,从而能够得到准确的正常数据和异常数据,以使后续使用异常数据和正常数据进行模型训练,得到目标用电量异常数据模型,从而提高了用电量异常识别的训练准确性。
在一个实施例中,在步骤202,获取各个历史用电量数据之前,还包括:
获取各个初始历史用电量数据,基于各个初始历史用电量数据对应的数据来源进行数据划分,得到各个初始历史用电量数据集;
在各个初始历史用电量数据集中确定目标初始历史用电量数据集,基于预设特征标签对目标初始用电量数据集进行特征筛选,得到目标历史用电量数据集;
获取目标历史用电量数据集中的各个历史用电量数据。
其中,初始历史用电量数据是指未进过数据处理的历史用电量数据。目标初始历史用电量数据是指用于进行模型训练的历史用电量数据。
具体地,服务器可以通过终端获取各个初始历史用电量数据,终端可以是数据采集传感器设备。服务器根据各个初始历史用电量数据对应的数据来源进行数据划分,得到各个初始历史用电量数据。数据来源比如是住户区域用电、商企区域用电、市政区域用电。
在一个具体实施例中,数据采集传感器中设置有各个区域对应的区域地址,服务器通过数据采集传感器获取各个初始历史用电量数据,各个初始历史用电量数据包括对应的区域地址。服务器根据区域地址将各个初始历史用电量数据对应的数据来源进行数据划分,得到各个初始历史用电量数据集,各个初始历史用电量数据集中包括各个用户对应的历史用电量数据。
然后服务器可以统计各个初始历史用电量数据集对应的用户数量,将用户数量最多的初始历史用电量数据集确定为目标初始历史用电量数据集。服务器也可以统计各个初始历史用电量数据集对应的平均用电量,将平均用电量最大的初始历史用电量数据集确定为目标初始历史用电量数据集。
服务器根据预设特征标对目标初始历史用电量数据集进行特征筛选,得到目标历史用电量数据集。获取目标历史用电量数据集中的各个历史用电量数据。历史用电量数据包括计量点、用户编号、量费数据与核查结果。计量点表示统计用电量的时间段。量费数据是指该条数据中的用电量相较于上个时间段的用电量差异。核查结果是指量费数据的核查是否有误的结果。历史用电量数据比如是:用户编号-(20221201-20221230)-(+300)-核查突增。
本实施例中,通过根据各个初始历史用电量数据对应的数据来源进行数据划分,得到各个初始历史用电量数据集,在各个初始历史用电量数据集中确定目标初始历史用电量数据集,能够快速锁定存在异常数据的初始历史用电量数据集,以使后续通过目标初始历史用电量数据集经过数据处理后得到更有效的训练数据集,提高了初始用电量异常识别模型的训练效率。
在一个实施例中,在步骤210,得到目标用电量异常识别模型之后,还包括:
获取待检测用电量数据集,将待检测用电量数据集进行初始用电量异常识别,得到初始用电量异常数据集;
将初始用电量异常数据集输入到目标用电量异常识别模型进行用电量异常识别,得到初始用电量异常数据集中各个用电量数据对应的异常程度。
其中,待检测用电量数据集是指待进行用电量异常识别的用电量数据集。初始用电量异常数据集是指经过初始用电量异常识别得到的疑似异常的用电量数据。
具体地,服务器获取待检测用电量数据集,将待检测用电量数据集进行初始用电量异常识别,得到初始用电量异常数据集。服务器可以使用无监督学习算法对待检测用电量数据集进行初始用电量异常识别,无监督学习算法可以是EM算法(期望最大化算法)、K-Means(聚类算法)算法等。
然后服务器将初始用电量异常数据集输入到目标用电量异常识别模型进行用电量异常识别,得到初始用电量异常数据集中各个用电量数据对应的异常程度。
然后服务器将异常程度超过预设异常程度阈值的初始用电量数据作为异常用电量数据。服务器提取各个异常用电量数据,根据各个异常用电量数据中的用户编号生成异常用户清单,将异常用电清单发送到管理终端。
在一个具体实施例中,如图4所示,提供一种用电量异常识别系统的结构示意图。用电量异常识别系统包括采集模块、识别模块和核查模块。
采集模块包括数据集成单元、用电群体识别单元和电量分群建模与结果管理单元。
数据集成单元用于基础用户历史用电量数据,包括电量数据的标准化、缺失数据处理和数据转换等。通过配置数据源、数据库对象、资源更新方式、资源更新频率等,抽取营销历史量费数据、营销量费核查结果等相关数据,包括初始化档案集成及后续增量档案集成。配置数据源表示初始化连接资源,就是将月用电量数据进行连接,获取月用电量;数据库对象是指设置获取月用电量的数据库,是配置数据源的前提。资源更新方式、资源更新频率用于更新用户用电量数据。营销历史量费数据是指用电量产生的费用。营销量费核查结果是指用电量突增或突减的核查结果。初始化档案集成表示用户月初的用电量数据集,后续增量档案集成表示用户月末的用电量数据集。服务器计算初始化档案集成及后续增量档案集成的差值,得到初始历史用电量数据集。
用电群体识别单元基于集成的营销历史量费数据、营销量费核查结果等行为数据,利用分布式计算能力和并行机器学习算法,对用户进行群体划分,可以将用户划分为住户群体、商企群体、市政群体等。
电量分群建模与结果管理单元,用于在用户群体识别划分后,系统进行最终的群体结构划分,生成群体结构模型,并将群体结构模型以及每个群体的构成、统计信息等进行统计分析,并形成可视化展示。
识别模块可以作为异常识别模块,包括异常数据整理单元、模型参数管理单元、组合模型训练单元和模型评价与发布单元。
异常数据整理单元用于在用电行为的群体结构模型的基础上,对每一个群体的异常数据和正常数据进行收集整理。收集整理的数据信息包括计量点、用户编号、量费数据与核查结果(突增、突减、正常等)。
模型参数管理单元用于对各个历史用电量数据进行聚类,得到聚类正常数据簇和聚类异常数据簇。
组合模型训练单元用于利用极值、分布偏离、密度偏离等无监督学习方法对各个历史用电量数据进行异常识别。将各个无监督学习方法的识别结果中的异常数据作为嫌疑异常数据,将各个嫌疑异常数据进行合并,得到识别异常数据簇,根据识别异常数据簇得到识别正常数据簇。
然后对聚类异常数据簇和识别异常数据簇中的各个异常数据分配不同权重,根据不同权重进行相似度计算,根据相似度结果得到目标异常数据簇。并对聚类正常数据簇和识别正常数据簇中的各个正常数据进行相似度计算,根据相似度结果得到目标正常数据簇。
模型评价与发布单元用于将目标正常数据簇和目标异常数据簇划分成训练数据集和验证数据集。利用测试数据集对模型进行验证、并计算其准确性。组合模型最后给出一个基于准确度的最终预测权重。模型的评价需要经过多轮的迭代测试、算法模型的不同组合和权重调整等,最终选择精度和性能综合评分最好的模型予以采纳发布。
核查模块包括数据抽取单元、异常核查单元和异常处理单元。
数据抽取单元用于在核查开始前,从营销系统抽取本次需要核查的月用电量数据,加载到对应的已生效的目标用电量异常识别模型中。
异常核查单元用于调用大数据计算集群的资源,在已生效的目标用电量异常识别模型中对待核查的用户月电量数据进行核查,生成异常用户清单。
异常处理单元用于建立月电量异常核查数据服务,提供给业务系统与应用进行查询与异常处理。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用电量异常识别模型训练方法的用电量异常识别模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用电量异常识别模型训练装置实施例中的具体限定可以参见上文中对于用电量异常识别模型训练方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种用电量异常识别模型训练装置500,包括:聚类模块502、异常识别模块504、数据确认模块506、训练数据模块508、训练输入模块510和训练完成模块512,其中:
聚类模块502,用于获取各个历史用电量数据,将各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
异常识别模块504,用于基于各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
数据确认模块506,用于基于聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
训练数据模块508,用于基于目标异常数据簇和目标正常数据簇得到训练数据集和训练数据集中各个历史用电量数据对应的训练标签;
训练输入模块510,用于将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度;
训练完成模块512,用于基于异常程度和训练标签进行损失计算,得到模型损失信息,并返回将训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
在一个实施例中,用电量异常识别模型训练装置500,还包括:
模型选择单元,用于将训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别,得到各个初始用电量异常识别模型对应的异常程度,至少两个初始用电量异常识别模型是使用不同的模型结构建立的;基于各个初始用电量异常识别模型对应的异常程度和训练数据标签分别进行损失计算,得到各个初始用电量异常识别模型对应的模型损失信息;基于各个初始用电量异常识别模型对应的模型损失信息分别更新对应的初始用电量异常识别模型,得到各个更新异常数据检测模型;分别将各个更新异常数据检测模型作为初始异常数据检测模型,并返回将训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别的步骤迭代执行,直到达到训练完成条件时,得到各个已训练异常数据检测模型;获取验证数据集,使用验证数据集对各个已训练异常数据检测模型进行验证,得到各个已训练异常数据检测模型对应的验证结果,基于验证结果在各个已训练异常数据检测模型中确定目标异常数据检测模型。
在一个实施例中,异常识别模块504,包括:
识别计算单元,用于基于各个历史用电量数据进行极值计算,得到极值结果,基于极值结果确定第一识别异常数据簇和第一识别正常数据簇;基于各个历史用电量数据进行分布偏离计算,得到各个历史用电量数据对应的分布偏离程度,基于分布偏离程度得到第二识别异常数据簇和第二识别正常数据簇;基于各个历史用电量数据进行密度偏离计算,得到各个历史用电量数据对应的密度偏离程度,基于密度偏离程度得到第三识别异常数据簇和第三识别正常数据簇;基于第一识别异常数据簇、第二识别异常数据簇和第三识别异常数据簇得到识别异常数据簇,并基于第一识别正常数据簇、第二识别正常数据簇和第三识别正常数据簇得到识别正常数据簇。
在一个实施例中,数据确认模块506,包括:
相似计算单元,用于获取聚类异常数据簇中的各个聚类异常数据、识别异常数据簇中的各个识别异常数据、聚类正常数据簇中的各个聚类正常数据和识别正常数据簇中的各个识别正常数据;计算各个聚类异常数据和各个识别异常数据之间的相似程度,将相似程度满足预设相似程度阈值的聚类异常数据和识别异常数据作为目标异常数据簇中的目标异常数据;计算各个聚类正常数据和各个识别正常数据之间的相似程度,将相似程度满足预设相似程度阈值的聚类正常数据和识别正常数据作为目标正常数据簇中的目标正常数据。
在一个实施例中,用电量异常识别模型训练装置500,还包括:
预处理单元,用于获取各个初始历史用电量数据,基于各个初始历史用电量数据对应的数据来源进行数据划分,得到各个初始历史用电量数据集;在各个初始历史用电量数据集中确定目标初始历史用电量数据集,基于预设特征标签对目标初始用电量数据集进行特征筛选,得到目标历史用电量数据集;获取目标历史用电量数据集中的各个历史用电量数据。
在一个实施例中,用电量异常识别模型训练装置500,还包括:
使用单元,用于获取待检测用电量数据集,将待检测用电量数据集进行初始用电量异常识别,得到初始用电量异常数据集;将初始用电量异常数据集输入到目标用电量异常识别模型进行用电量异常识别,得到初始用电量异常数据集中各个用电量数据对应的异常程度。
上述用电量异常识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史用电量数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用电量异常识别模型训练方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用电量异常识别模型训练方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6-7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种用电量异常识别模型训练方法,其特征在于,所述方法包括:
获取各个历史用电量数据,将所述各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
基于所述各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
基于所述聚类异常数据簇和所述识别异常数据簇确定目标异常数据簇,并基于所述聚类正常数据簇和所述识别正常数据簇确定目标正常数据簇;
基于所述目标异常数据簇和所述目标正常数据簇得到训练数据集和所述训练数据集中各个历史用电量数据对应的训练标签;
将所述训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到所述训练数据集中各个历史用电量数据对应的异常程度;
基于所述异常程度和所述训练标签进行损失计算,得到模型损失信息,并返回将所述训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到所述训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
2.根据权利要求1所述的方法,其特征在于,所述初始用电量异常识别模型包括至少两个;所述方法,还包括:
将所述训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别,得到所述各个初始用电量异常识别模型对应的异常程度,所述至少两个初始用电量异常识别模型是使用不同的模型结构建立的;
基于所述各个初始用电量异常识别模型对应的异常程度和所述训练数据标签分别进行损失计算,得到所述各个初始用电量异常识别模型对应的模型损失信息;
基于所述各个初始用电量异常识别模型对应的模型损失信息分别更新对应的初始用电量异常识别模型,得到各个更新异常数据检测模型;
分别将所述各个更新异常数据检测模型作为初始异常数据检测模型,并返回所述将所述训练数据集中历史用电量数据分别输入到各个初始用电量异常识别模型中进行用电量异常识别的步骤迭代执行,直到达到训练完成条件时,得到各个已训练异常数据检测模型;
获取验证数据集,使用所述验证数据集对所述各个已训练异常数据检测模型进行验证,得到所述各个已训练异常数据检测模型对应的验证结果,基于所述验证结果在所述各个已训练异常数据检测模型中确定所述目标异常数据检测模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇,包括:
基于所述各个历史用电量数据进行极值计算,得到极值结果,基于所述极值结果确定第一识别异常数据簇和第一识别正常数据簇;
基于所述各个历史用电量数据进行分布偏离计算,得到所述各个历史用电量数据对应的分布偏离程度,基于所述分布偏离程度得到第二识别异常数据簇和第二识别正常数据簇;
基于所述各个历史用电量数据进行密度偏离计算,得到所述各个历史用电量数据对应的密度偏离程度,基于所述密度偏离程度得到第三识别异常数据簇和第三识别正常数据簇;
基于所述第一识别异常数据簇、所述第二识别异常数据簇和所述第三识别异常数据簇得到所述识别异常数据簇,并基于所述第一识别正常数据簇、所述第二识别正常数据簇和所述第三识别正常数据簇得到所述识别正常数据簇。
4.根据权利要求1所述的方法,其特征在于,所述基于所述聚类异常数据簇和所述识别异常数据簇确定目标异常数据簇,并基于所述聚类正常数据簇和所述识别正常数据簇确定目标正常数据簇,包括:
获取所述聚类异常数据簇中的各个聚类异常数据、所述识别异常数据簇中的各个识别异常数据、所述聚类正常数据簇中的各个聚类正常数据和所述识别正常数据簇中的各个识别正常数据;
计算所述各个聚类异常数据和所述各个识别异常数据之间的相似程度,将所述相似程度满足预设相似程度阈值的聚类异常数据和识别异常数据作为所述目标异常数据簇中的目标异常数据;
计算所述各个聚类正常数据和所述各个识别正常数据之间的相似程度,将所述相似程度满足预设相似程度阈值的聚类正常数据和识别正常数据作为所述目标正常数据簇中的目标正常数据。
5.根据权利要求1所述的方法,其特征在于,在所述获取各个历史用电量数据之前,还包括:
获取各个初始历史用电量数据,基于所述各个初始历史用电量数据对应的数据来源进行数据划分,得到各个初始历史用电量数据集;
在所述各个初始历史用电量数据集中确定目标初始历史用电量数据集,基于预设特征标签对所述目标初始用电量数据集进行特征筛选,得到目标历史用电量数据集;
获取所述目标历史用电量数据集中的所述各个历史用电量数据。
6.根据权利要求1所述的方法,其特征在于,在所述得到目标用电量异常识别模型之后,还包括:
获取待检测用电量数据集,将所述待检测用电量数据集进行初始用电量异常识别,得到初始用电量异常数据集;
将所述初始用电量异常数据集输入到所述目标用电量异常识别模型进行用电量异常识别,得到所述初始用电量异常数据集中各个用电量数据对应的异常程度。
7.一种用电量异常识别模型训练装置,其特征在于,所述装置包括:
聚类模块,用于获取各个历史用电量数据,将所述各个历史用电量数据进行聚类,得到聚类异常数据簇和聚类正常数据簇;
异常识别模块,用于基于所述各个历史用电量数据的数据分布进行异常数据识别,得到识别异常数据簇和识别正常数据簇;
数据确认模块,用于基于所述聚类异常数据簇和识别异常数据簇确定目标异常数据簇,并基于所述聚类正常数据簇和识别正常数据簇确定目标正常数据簇;
训练数据模块,用于基于所述目标异常数据簇和所述目标正常数据簇得到训练数据集和所述训练数据集中各个历史用电量数据对应的训练标签;
训练输入模块,用于将所述训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到所述训练数据集中各个历史用电量数据对应的异常程度;
训练完成模块,用于基于所述异常程度和所述训练标签进行损失计算,得到模型损失信息,并返回将所述训练数据集中各个历史用电量数据输入到初始用电量异常识别模型进行用电量异常识别,得到所述训练数据集中各个历史用电量数据对应的异常程度的步骤执行,直到达到训练完成条件时,得到目标用电量异常识别模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310011316.XA CN116304673A (zh) | 2023-01-05 | 2023-01-05 | 用电量异常识别模型训练方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310011316.XA CN116304673A (zh) | 2023-01-05 | 2023-01-05 | 用电量异常识别模型训练方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116304673A true CN116304673A (zh) | 2023-06-23 |
Family
ID=86833100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310011316.XA Pending CN116304673A (zh) | 2023-01-05 | 2023-01-05 | 用电量异常识别模型训练方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304673A (zh) |
-
2023
- 2023-01-05 CN CN202310011316.XA patent/CN116304673A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522435B (zh) | 一种图像检索方法及装置 | |
US20230004979A1 (en) | Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium | |
CN114638633A (zh) | 异常流量检测的方法和装置、电子设备和存储介质 | |
CN115081613A (zh) | 生成深度学习模型的方法、装置、电子设备及存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
CN112258238A (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN111489262A (zh) | 保单信息检测方法、装置、计算机设备和存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN112069269B (zh) | 基于大数据和多维特征的数据溯源方法及大数据云服务器 | |
CN105488061B (zh) | 一种验证数据有效性的方法及装置 | |
CN110619564B (zh) | 一种反欺诈特征生成方法和装置 | |
CN113065911A (zh) | 推荐信息生成方法、装置、存储介质及电子设备 | |
CN116304673A (zh) | 用电量异常识别模型训练方法、装置和计算机设备 | |
CN114998001A (zh) | 业务类别识别方法、装置、设备、存储介质和程序产品 | |
CN115063143A (zh) | 账户数据处理方法、装置、计算机设备和存储介质 | |
CN113705920A (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN116595389B (zh) | 识别异常客户端的方法、装置、计算机设备和存储介质 | |
CN116451067A (zh) | 数据核查模型生成方法、装置、计算机设备和存储介质 | |
CN113495969B (zh) | 数字指纹生成、媒体数据推荐方法、装置和计算机设备 | |
CN115659022A (zh) | 资源推送数据处理方法、装置、计算机设备和存储介质 | |
CN116611507A (zh) | 异常交易识别模型的构建方法、异常交易识别方法及装置 | |
CN115098686A (zh) | 分级信息确定方法、装置、计算机设备 | |
CN117312892A (zh) | 用户聚类方法、装置、计算机设备和存储介质 | |
CN118690053A (zh) | 数据处理方法、装置、计算机设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |