CN113591899A - 电力客户画像识别方法、装置及终端设备 - Google Patents
电力客户画像识别方法、装置及终端设备 Download PDFInfo
- Publication number
- CN113591899A CN113591899A CN202110648320.8A CN202110648320A CN113591899A CN 113591899 A CN113591899 A CN 113591899A CN 202110648320 A CN202110648320 A CN 202110648320A CN 113591899 A CN113591899 A CN 113591899A
- Authority
- CN
- China
- Prior art keywords
- semi
- customer
- power
- identified
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 8
- 238000010411 cooking Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于电力技术领域,公开了一种电力客户画像识别方法、装置及终端设备,上述方法包括:获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量。本发明通过半监督学习,只需要少量的有标签样本,即可实现对电力客户画像标签的准确识别。
Description
技术领域
本发明属于电力技术领域,尤其涉及一种电力客户画像识别方法、装置及终端设备。
背景技术
客户画像是涵盖客户在人口统计学、地理位置、心理特征、购买历史及其他个性化维度的一类信息描述。深入了解客户画像是电力公司创新服务内容、增强公司竞争力的关键。
目前,通常使用有监督学习方法对客户画像进行识别,但是这种方法只能在有标签样本充足的情况下才能获得良好的识别性能,然而,电力客户的有标签样本获取困难、成本高且耗时耗力,无法获取到充足的有标签样本,导致电力客户画像的识别准确率较低。
发明内容
鉴于此,本发明实施例提供了一种电力客户画像识别方法、装置及终端设备,以解决现有技术所需的有标签样本获取困难、标记成本高且耗时耗力,无法获取到充足的有标签样本,导致电力客户画像的识别准确率较低的问题。
本发明实施例的第一方面提供了一种电力客户画像识别方法,包括:
获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;
将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;
其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量。
在一种可能的实现方式中,对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征,包括:
提取待识别客户的历史负荷数据的时域特征;
基于最大互信息法,对时域特征进行降维,得到待识别电力客户的负荷特征。
在一种可能的实现方式中,时域特征包括用电功率的消耗特征、比值特征、实时特征和统计特征。
在一种可能的实现方式中,在将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签之前,还包括:
获取各个样本电力客户的历史负荷数据,并对各个样本电力客户的历史负荷数据进行特征提取,得到负荷特征集;负荷特征集包括各个样本电力客户的负荷特征;
获取各个样本电力客户的客户画像数据,并根据各个样本电力客户的客户画像数据确定各个样本电力客户的画像标签;
根据负荷特征集和各个样本电力客户的画像标签构建有标签样本和无标签样本,得到半监督训练集;其中,有标签样本包括样本电力客户的负荷特征和对应的画像标签;无标签样本包括样本电力客户的负荷特征;
基于半监督训练集,对预设的客户画像识别模型进行半监督训练得到预先训练好的半监督学习客户画像识别模型。
在一种可能的实现方式中,基于半监督训练集,对预设的客户画像识别模型进行半监督训练得到预先训练好的半监督学习客户画像识别模型,包括:
基于有标签样本和无标签样本,对预设的客户画像识别模型进行半监督训练,得到半监督学习客户画像识别模型;
基于分类准确率、F1-Score分数和受试者工作特性曲线下的面积,对半监督学习客户画像识别模型进行性能评估;
若半监督学习客户画像识别模型的性能评估结果满足预设要求,则将半监督学习客户画像识别模型作为训练好的半监督学习客户画像识别模型;否则,重新对预设的客户画像识别模型进行半监督训练,直至半监督学习客户画像识别模型的性能评估结果满足预设要求。
在一种可能的实现方式中,获取待识别电力客户的历史负荷数据,包括:
获取待识别电力客户在第一预设时间段内的每个采集日的日负荷数据,作为待识别电力客户的历史负荷数据;
其中,采集日的日负荷数据包括当日每隔第二预设时间段的平均负荷数据。
在一种可能的实现方式中,半监督学习客户画像识别模型为半监督支持向量机模型。
本发明实施例的第二方面提供了一种电力客户画像识别装置,包括:
特征提取模块,用于获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;
识别模块,用于将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;
其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如第一方面或第一方面的任一种可能的实现方式所述的电力客户画像识别方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被一个或多个处理器执行时实现如第一方面或第一方面的任一种可能的实现方式所述的电力客户画像识别方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量,通过半监督学习,只需要少量的有标签样本,即可实现对电力客户画像标签的准确识别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的电力客户画像识别方法的实现流程示意图;
图2是本发明一实施例提供的电力客户画像识别装置的示意框图;
图3是本发明一实施例提供的终端设备的示意框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1是本发明一实施例提供的电力客户画像识别方法的实现流程示意图,为了便于说明,仅示出了与本发明实施例相关的部分。本发明实施例的执行主体可以是终端设备。
如图1所示,上述电力客户画像识别方法可以包括以下步骤:
S101:获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征。
在本发明实施例中,电力客户的历史负荷数据可以通过各个电力客户的智能电表进行采集。智能电表可以理解为是一种智能电网的智能终端,智能电表具备传统电能表基本用电量的计量功能,每个电力客户对应一个智能电表,可以对该电力客户的用电情况(即负荷数据)进行采集。上述的电力客户可以是家庭客户,上述家庭客户可以理解为以家庭为用电单位的电力客户;上述每个电力客户所对应的智能电表具有唯一的客户ID。上述负荷数据可以是智能电表所采集到的用电功率。
上述历史负荷数据可以是根据需要进行确定的,比如,可以是一年的历史负荷数据,也可以是半年的历史负荷数据,还可以是一个月的历史负荷数据等。在一种可能的实施例中,可以根据当地流动人口所占比例,来确定历史负荷数据的时间段。
在本发明的一些实施例中,获取待识别电力客户的历史负荷数据,包括:
获取待识别电力客户在第一预设时间段内的每个采集日的日负荷数据,作为待识别电力客户的历史负荷数据;
其中,采集日的日负荷数据包括当日每隔第二预设时间段的平均负荷数据。
第一预设时间段大于一个采集日,第二预设时间段小于一个采集日。
第一预设时间段和第二预设时间段可以根据实际需求进行设置。示例性地,第一预设时间段可以是一年、半年、一个月等较长的时间段;第二预设时间段可以是一小时、半小时、十分钟等较短的时间段。
采集日可以为智能电表征程工作情况下所对应的日期。每个采集日的日负荷数据可以包括该采集日每隔第二预设时间段的平均负荷数据,每个平均负荷数据对应一个第二预设时间段内采集的负荷数据的平均值
示例性地,可以对待识别电力客户半年的日负荷数据(日用电功率)进行采集,采集的时间间隔为30分钟,每个采集日记录48个平均用电功率点。
在本发明的一些实施例中,对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征,包括:
提取待识别客户的历史负荷数据的时域特征;
基于最大互信息法,对时域特征进行降维,得到待识别电力客户的负荷特征。
在本发明实施例中,可以从时域提取待识别电力客户的历史负荷数据的时域特征,利用最大互信息法对时域特征进行选择,得到待识别电力客户的负荷特征。上述负荷特征为对历史负荷数据进行特征提取和特征选择得到的。
示例性地,在历史负荷数据中提取54个时域特征得到一个54维度的特征集合,利用最大互信息法对特征集合进行降维,得到20维度的特征集合,则可以对应得到20个负荷特征。具体地,可以计算提取出的每个负荷特征和输出客户画像标签之间的最大相关系数,根据最大相关系数的大小对负荷特征进行排序。最终,可以选择相关系数排名靠前的样本负荷特征作为最终的负荷特征,比如,可以选择相关系数排名前20的样本负荷特征作为负荷特征。
在得到电力客户的负荷特征后,可以通过智能电表的客户ID将各个电力客户与对应的负荷特征进行关联。
在本发明的一些实施例中,时域特征包括用电功率的消耗特征、比值特征、实时特征和统计特征。
上述消耗特征可以包括所有日用电负荷数据的平均值和工作日用电负荷数据的平均值等。上述比值特征可以包括所有日用电负荷数据的平均值与最大值的比值以及下午时间段用电负荷数据的平均值与中午时间段用电负荷数据的平均值的比值等。上述实时特征可以包括所有日用电功率平均值大于0.5kW时间比率和工作日用电功率平均值大于0.5kW时间比率等。上述统计特征可以包括所有日用电功率平均值的方差和工作日用电功率平均值的方差等。
S102:将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;
其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量。
在本发明实施例中,可以基于半监督训练集对预设的客户画像识别模型进行半监督训练得到预先训练好的半监督学习客户画像识别模型。半监督训练集中有标签样本的数量远小于无标签样本的数量,也就是说,半监督训练集中包括少量的有标签样本和大量的无标签样本。其中,标签为与电力客户智能电表数据匹配的客户画像类别信息。
预先训练好的半监督学习客户画像识别模型的输入为电力客户的负荷特征,输出为电力客户的画像标签。
由上述描述可知,本发明实施例通过获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量,通过半监督学习,只需要少量的有标签样本,即可实现对电力客户画像标签的准确识别,有利于电力公司用更少的标记成本向客户提供更加高效、更加个性化的用能服务,同时也可以极大促进客户本身的自主节能响应程度。
在本发明的一些实施例中,在上述S102之前,还可以包括:
获取各个样本电力客户的历史负荷数据,并对各个样本电力客户的历史负荷数据进行特征提取,得到负荷特征集;负荷特征集包括各个样本电力客户的负荷特征;
获取各个样本电力客户的客户画像数据,并根据各个样本电力客户的客户画像数据确定各个样本电力客户的画像标签;
根据负荷特征集和各个样本电力客户的画像标签构建有标签样本和无标签样本,得到半监督训练集;其中,有标签样本包括样本电力客户的负荷特征和对应的画像标签;无标签样本包括样本电力客户的负荷特征;
基于半监督训练集,对预设的客户画像识别模型进行半监督训练得到预先训练好的半监督学习客户画像识别模型。
其中,样本电力客户为作为训练样本以及用于性能评估的电力客户。
样本电力客户的特征提取过程与上述待识别电力客户的特征提取过程相同,不再赘述。
在本发明实施例中,可以通过对样本电力客户进行问卷调查,统计分析问卷调查结果,整理得到样本电力客户对应的客户画像数据,通过相应领域专家对客户画像数据进行整理归类,得到样本电力客户的客户画像。然后将客户画像与对应的样本电力客户进行关联,从而可以给每个样本电力客户标定对应的客户画像标签。
其中,上述问卷调查的内容可以涵盖四个方面:房屋类型、居民统计学特性、家庭电器及热能特性、居民用能态度。上述整理出的用于识别的客户画像可以包括:家庭人口数量、房屋占用率和烹饪方式。
上述家庭人口数量可以是常住家庭人口数量,比如在外地工作的子女不属于常住家庭人口;上述房屋占用率可以根据房屋中居室的占用进行确定,比如一个三室两厅的房屋,三个卧室中有两个卧室被占用,则房屋占用率可以为80%(客厅与餐厅默认为占用);上述烹饪方式可以是燃气烹饪、电力烹饪等。需要说明的是,上述所举例子不应当视为是对本发明实施例的限定。
问卷调查通过调查问卷为载体进行,上述调查问卷的每个问题记录可以与智能电表的客户ID进行关联,进而可以将一个样本电力客户对应的问卷调查结果通过智能电表的客户ID与样本电力客户的历史负荷数据进行绑定,更具体来说,可以通过智能电表的客户ID将样本电力客户的客户画像与历史负荷数据进行绑定。当然,没有用户画像的样本电力客户的历史负荷数据也会与各自的智能电表的客户ID进行关联。
在本发明实施例中,选取少量的样本电力客户的画像标签及对应的负荷特征构建少量的有标签样本,将剩余的大量样本电力客户的负荷特征作为无标签样本。其中,剩余的大量样本电力客户的画像标签作为真实标签用于后续对模型的性能评估。
上述有标签样本和无标签样本共同组成半监督训练集。基于半监督训练集,对预设的客户画像识别模型进行半监督训练可以得到预先训练好的半监督学习客户画像识别模型。
在本发明的一些实施例中,半监督学习客户画像识别模型为半监督支持向量机模型(Transductive Support Vector Machine,TSVM)。
在本发明实施例中,TSVM模型主要针对二分类问题,采用局部搜索的方式,利用有标签样本为无标签样本打上标签,不断迭代使得超平面划分后的间隔最大化,应当理解的是,无标签样本被打上的标签为有标签样本对应的标签类型。上述的标签为客户画像,上述TSVM模型的输出为客户画像。上述的客户画像包括:家庭人口数量、房屋占用率、烹饪方式。
进一步来说,TSVM半监督学习模型利用有标签样本寻找初始标签分类超平面,使得初始两侧支持向量之间间隔最大,构建初始SVM,以使该SVM模型对无标签样本打第一轮标签,此时的第一轮标签准确率不高,设置初始有标签样本的权重大于初始无标签权重,不断重复此步骤,不断调整原始无标签样本的标签指派,直到求解出最优的分类超平面,即为所有无标签样本进行最优的标签指派,获得最终的TSVM半监督学习模型。
在本发明的一些实施例中,基于半监督训练集,对预设的客户画像识别模型进行半监督训练得到预先训练好的半监督学习客户画像识别模型,包括:
基于有标签样本和无标签样本,对预设的客户画像识别模型进行半监督训练,得到半监督学习客户画像识别模型;
基于分类准确率、F1-Score分数和受试者工作特性曲线下的面积(Area Underthe Receiver Operating Characteristic,AUC),对半监督学习客户画像识别模型进行性能评估;
若半监督学习客户画像识别模型的性能评估结果满足预设要求,则将半监督学习客户画像识别模型作为训练好的半监督学习客户画像识别模型;否则,重新对预设的客户画像识别模型进行半监督训练,直至半监督学习客户画像识别模型的性能评估结果满足预设要求。
其中,预设要求可以包括对分类准确率、F1-Score分数和受试者工作特性曲线下的面积三者分别对应的要求,具体要求可以根据实际需求确定。示例性地,当分类准确率、F1-Score分数和受试者工作特性曲线下的面积分别达到对应的预设值时,确定半监督学习客户画像识别模型的性能评估结果满足预设要求。
若半监督学习客户画像识别模型的性能评估结果不满足预设要求,则重新对预设的客户画像识别模型进行半监督训练,直至半监督学习客户画像识别模型的性能评估结果满足预设要求。其中,重新对预设的客户画像识别模型进行半监督训练,可以是重新选取有标签样本和无标签样本,得到重新确定的半监督训练集,基于重新确定的半监督训练集重新对预设的客户画像识别模型进行半监督训练。
其中,对于具有Q个类别的问题,进行分类预测后可得到Q×Q的混淆矩阵C,分类准确率通过如下公式计算:
式中,Cq,n代表类别为q的样本被错分为n类的个数。如果q=n,则Cq,n,即Cq,n代表类别为q的样本被正确分类的个数。
F1-Score分数是统计学中用来衡量二分类模型精确度的一种指标。在二元分类问题中,数据集样本中存在正例和负例,分类模型对样本做出阳性(判断样本属于正例类别)或阴性(判断记录属于负例类别)两种判断,精准率表示被分为阳性(正例)的样本中,实际为阳性(正例)的样本所占的比例。召回率表示在所有真实为阳性(正例)的样本中,被正确分类为阳性的样本所占的比例。F1-Score分数是一个反映精准率和召回率的综合指标,其值介于0到1之间。F1-Score分数的值越接近于1,表明模型的识别性能越好。
受试者工作特征(Receiver Operating Characteristic,ROC)曲线,简称ROC曲线,是综合衡量模型灵敏性(真阳性率)和特异性(假阳性率)的指标。ROC曲线的横坐标为真阳性率,纵坐标为假阳性率。AUC为ROC曲线下的面积,其值介于0至1之间,AUC的值越大,识别模型的性能越好。
本发明实施例以客户画像为家庭人口数量、房屋占用率、烹饪方式作为例子进行识别,有标签样本的比例设置为总样本数的5%,此过程重复100次后求各评估指标的平均值,半监督学习客户画像识别模型TSVM的识别结果如下表1所示。
从表1可以看出,本发明实施例提供的方法效果理想,识别准确率、F1-Score及AUC的值均处于较高水平。半监督学习客户画像识别模型不仅利用了有标签样本的标签信息,同时还抓取到了无标签样本的潜在标签分布规律,这在一定程度解决了现实生活中因有标签训练样本数目不足导致的有监督学习模型识别准确率下降,同时显著节约无标签样本的标记成本。
表1半监督学习客户画像识别模型TSVM的识别结果
本发明实施例能够在有少量有标签样本,大量无标签样本的情况下,可基于无标签样本与有标签样本之间的相似度、无标签样本的潜在分布,对大量无标签样本进行标记识别,进而实现在实施行为需求响应项目的背景下,用半监督学习方法对客户画像进行准确识别,有利于电力公司用更少的标记成本向客户提供更加高效、更加个性化的用能服务,同时也极大促进客户本身的自主节能响应程度。
在本发明实施例中,房屋类型、居民个数、用能态度等与负荷模式之间具有较强的相关性,了解居民客户画像,有助于精准识别适合参加峰值负荷削减的客户、制定符合居民生活方式的新的分时电价政策等。此外,精准的负荷预测对电力系统进行负荷调度、机组组合、维护计划、能源转换具有重要意义,融入居民客户画像可显著提升负荷预测或基线负荷估计精度。同时,居民客户也可从个性化的服务中受益,主动摆脱不良用电习惯,减少电能开支,主动参与到电网的能效计划和需求侧响应项目。这对整个社会实现节能减排具有重要意义。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上述电力客户画像识别方法,本发明一实施例还提供了一种电力客户画像识别装置,具有与上述电力客户画像识别方法同样的有益效果。图2是本发明一实施例提供的电力客户画像识别装置的示意框图,为了便于说明,仅示出与本发明实施例相关的部分。
在本发明实施例中,电力客户画像识别装置30可以包括特征提取模块301和识别模块302。
其中,特征提取模块301,用于获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;
识别模块302,用于将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;
其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量。
在一种可能的实现方式中,特征提取模块301还用于:
提取待识别客户的历史负荷数据的时域特征;
基于最大互信息法,对时域特征进行降维,得到待识别电力客户的负荷特征。
在一种可能的实现方式中,时域特征包括用电功率的消耗特征、比值特征、实时特征和统计特征。
在一种可能的实现方式中,电力客户画像识别装置30还包括训练模块。
训练模块用于:
获取各个样本电力客户的历史负荷数据,并对各个样本电力客户的历史负荷数据进行特征提取,得到负荷特征集;负荷特征集包括各个样本电力客户的负荷特征;
获取各个样本电力客户的客户画像数据,并根据各个样本电力客户的客户画像数据确定各个样本电力客户的画像标签;
根据负荷特征集和各个样本电力客户的画像标签构建有标签样本和无标签样本,得到半监督训练集;其中,有标签样本包括样本电力客户的负荷特征和对应的画像标签;无标签样本包括样本电力客户的负荷特征;
基于半监督训练集,对预设的客户画像识别模型进行半监督训练得到预先训练好的半监督学习客户画像识别模型。
在一种可能的实现方式中,训练模块还用于:
基于有标签样本和无标签样本,对预设的客户画像识别模型进行半监督训练,得到半监督学习客户画像识别模型;
基于分类准确率、F1-Score分数和受试者工作特性曲线下的面积,对半监督学习客户画像识别模型进行性能评估;
若半监督学习客户画像识别模型的性能评估结果满足预设要求,则将半监督学习客户画像识别模型作为训练好的半监督学习客户画像识别模型;否则,重新对预设的客户画像识别模型进行半监督训练,直至半监督学习客户画像识别模型的性能评估结果满足预设要求。
在一种可能的实现方式中,特征提取模块301还用于:
获取待识别电力客户在第一预设时间段内的每个采集日的日负荷数据,作为待识别电力客户的历史负荷数据;
其中,采集日的日负荷数据包括当日每隔第二预设时间段的平均负荷数据。
在一种可能的实现方式中,半监督学习客户画像识别模型为半监督支持向量机模型。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述电力客户画像识别装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图3是本发明一实施例提供的终端设备的示意框图。如图3所示,该实施例的终端设备40包括:一个或多个处理器401、存储器402以及存储在所述存储器402中并可在所述处理器401上运行的计算机程序403。所述处理器401执行所述计算机程序403时实现上述各个电力客户画像识别方法实施例中的步骤,例如图1所示的步骤S101至S102。或者,所述处理器401执行所述计算机程序403时实现上述电力客户画像识别装置实施例中各模块/单元的功能,例如图2所示模块301至302的功能。
示例性地,所述计算机程序403可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器402中,并由所述处理器401执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序403在所述终端设备40中的执行过程。例如,所述计算机程序403可以被分割成特征提取模块和识别模块,各模块具体功能如下:
特征提取模块,用于获取待识别电力客户的历史负荷数据,并对待识别电力客户的历史负荷数据进行时域特征提取,得到待识别电力客户的负荷特征;
识别模块,用于将待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到待识别电力客户的画像标签;
其中,预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;半监督训练集包括有标签样本和无标签样本,且有标签样本的数量小于无标签样本的数量。
其它模块或者单元可参照图2所示的实施例中的描述,在此不再赘述。
所述终端设备40可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备40包括但不仅限于处理器401、存储器402。本领域技术人员可以理解,图3仅仅是终端设备40的一个示例,并不构成对终端设备40的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备40还可以包括输入设备、输出设备、网络接入设备、总线等。
所述处理器401可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器402可以是所述终端设备40的内部存储单元,例如终端设备40的硬盘或内存。所述存储器402也可以是所述终端设备40的外部存储设备,例如所述终端设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器402还可以既包括终端设备40的内部存储单元也包括外部存储设备。所述存储器402用于存储所述计算机程序403以及所述终端设备40所需的其他程序和数据。所述存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的电力客户画像识别装置和方法,可以通过其它的方式实现。例如,以上所描述的电力客户画像识别装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种电力客户画像识别方法,其特征在于,包括:
获取待识别电力客户的历史负荷数据,并对所述待识别电力客户的历史负荷数据进行时域特征提取,得到所述待识别电力客户的负荷特征;
将所述待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到所述待识别电力客户的画像标签;
其中,所述预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;所述半监督训练集包括有标签样本和无标签样本,且所述有标签样本的数量小于所述无标签样本的数量。
2.根据权利要求1所述的电力客户画像识别方法,其特征在于,所述对所述待识别电力客户的历史负荷数据进行时域特征提取,得到所述待识别电力客户的负荷特征,包括:
提取所述待识别客户的历史负荷数据的时域特征;
基于最大互信息法,对所述时域特征进行降维,得到所述待识别电力客户的负荷特征。
3.根据权利要求2所述的电力客户画像识别方法,其特征在于,所述时域特征包括用电功率的消耗特征、比值特征、实时特征和统计特征。
4.根据权利要求1所述的电力客户画像识别方法,其特征在于,在所述将所述待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到所述待识别电力客户的画像标签之前,还包括:
获取各个样本电力客户的历史负荷数据,并对各个样本电力客户的历史负荷数据进行特征提取,得到负荷特征集;所述负荷特征集包括各个样本电力客户的负荷特征;
获取各个样本电力客户的客户画像数据,并根据各个样本电力客户的客户画像数据确定各个样本电力客户的画像标签;
根据所述负荷特征集和所述各个样本电力客户的画像标签构建有标签样本和无标签样本,得到所述半监督训练集;其中,所述有标签样本包括样本电力客户的负荷特征和对应的画像标签;所述无标签样本包括样本电力客户的负荷特征;
基于所述半监督训练集,对预设的客户画像识别模型进行半监督训练得到所述预先训练好的半监督学习客户画像识别模型。
5.根据权利要求4所述的电力客户画像识别方法,其特征在于,所述基于所述半监督训练集,对预设的客户画像识别模型进行半监督训练得到所述预先训练好的半监督学习客户画像识别模型,包括:
基于所述有标签样本和所述无标签样本,对所述预设的客户画像识别模型进行半监督训练,得到半监督学习客户画像识别模型;
基于分类准确率、F1-Score分数和受试者工作特性曲线下的面积,对所述半监督学习客户画像识别模型进行性能评估;
若所述半监督学习客户画像识别模型的性能评估结果满足预设要求,则将所述半监督学习客户画像识别模型作为所述训练好的半监督学习客户画像识别模型;否则,重新对所述预设的客户画像识别模型进行半监督训练,直至所述半监督学习客户画像识别模型的性能评估结果满足所述预设要求。
6.根据权利要求1至5任一项所述的电力客户画像识别方法,其特征在于,所述获取待识别电力客户的历史负荷数据,包括:
获取所述待识别电力客户在第一预设时间段内的每个采集日的日负荷数据,作为所述待识别电力客户的历史负荷数据;
其中,采集日的日负荷数据包括当日每隔第二预设时间段的平均负荷数据。
7.根据权利要求1至5任一项所述的电力客户画像识别方法,其特征在于,所述半监督学习客户画像识别模型为半监督支持向量机模型。
8.一种电力客户画像识别装置,其特征在于,包括:
特征提取模块,用于获取待识别电力客户的历史负荷数据,并对所述待识别电力客户的历史负荷数据进行时域特征提取,得到所述待识别电力客户的负荷特征;
识别模块,用于将所述待识别电力客户的负荷特征输入到预先训练好的半监督学习客户画像识别模型中,得到所述待识别电力客户的画像标签;
其中,所述预先训练好的半监督学习客户画像识别模型是基于半监督训练集对预设的客户画像识别模型进行半监督训练得到的;所述半监督训练集包括有标签样本和无标签样本,且所述有标签样本的数量小于所述无标签样本的数量。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述电力客户画像识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如权利要求1至7任一项所述电力客户画像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648320.8A CN113591899A (zh) | 2021-06-10 | 2021-06-10 | 电力客户画像识别方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648320.8A CN113591899A (zh) | 2021-06-10 | 2021-06-10 | 电力客户画像识别方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591899A true CN113591899A (zh) | 2021-11-02 |
Family
ID=78243638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648320.8A Pending CN113591899A (zh) | 2021-06-10 | 2021-06-10 | 电力客户画像识别方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591899A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168817A (zh) * | 2021-11-05 | 2022-03-11 | 合肥湛达智能科技有限公司 | 一种半监督学习目标识别方法 |
CN114372835A (zh) * | 2022-03-22 | 2022-04-19 | 佰聆数据股份有限公司 | 综合能源服务潜力客户识别方法、系统及计算机设备 |
CN115049423A (zh) * | 2022-05-27 | 2022-09-13 | 平安银行股份有限公司 | 客户画像生成方法、装置、设备及存储介质 |
CN115600014A (zh) * | 2022-12-14 | 2023-01-13 | 浙江万胜智能科技股份有限公司(Cn) | 一种基于用电特征的个性化配电配置方法及系统 |
CN116881687A (zh) * | 2023-06-25 | 2023-10-13 | 国网冀北电力有限公司信息通信分公司 | 一种基于特征提取的电网敏感数据识别方法及装置 |
-
2021
- 2021-06-10 CN CN202110648320.8A patent/CN113591899A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168817A (zh) * | 2021-11-05 | 2022-03-11 | 合肥湛达智能科技有限公司 | 一种半监督学习目标识别方法 |
CN114372835A (zh) * | 2022-03-22 | 2022-04-19 | 佰聆数据股份有限公司 | 综合能源服务潜力客户识别方法、系统及计算机设备 |
CN115049423A (zh) * | 2022-05-27 | 2022-09-13 | 平安银行股份有限公司 | 客户画像生成方法、装置、设备及存储介质 |
CN115600014A (zh) * | 2022-12-14 | 2023-01-13 | 浙江万胜智能科技股份有限公司(Cn) | 一种基于用电特征的个性化配电配置方法及系统 |
CN115600014B (zh) * | 2022-12-14 | 2024-02-20 | 浙江万胜智能科技股份有限公司 | 一种基于用电特征的个性化配电配置方法及系统 |
CN116881687A (zh) * | 2023-06-25 | 2023-10-13 | 国网冀北电力有限公司信息通信分公司 | 一种基于特征提取的电网敏感数据识别方法及装置 |
CN116881687B (zh) * | 2023-06-25 | 2024-04-05 | 国网冀北电力有限公司信息通信分公司 | 一种基于特征提取的电网敏感数据识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113591899A (zh) | 电力客户画像识别方法、装置及终端设备 | |
CN111144468B (zh) | 电力用户信息标签化方法和装置、电子设备以及存储介质 | |
Fiot et al. | Electricity demand forecasting by multi-task learning | |
CN111062757B (zh) | 基于多路径寻优匹配的信息推荐方法及系统 | |
CN109063945B (zh) | 一种基于价值评估体系的售电公司360度客户画像构建方法 | |
CN107067283B (zh) | 基于历史商家记录及用户行为的电商消费客流量预测方法 | |
Beckel et al. | Automatic socio-economic classification of households using electricity consumption data | |
Albert et al. | Smart meter driven segmentation: What your consumption says about you | |
Bicego et al. | On the distinctiveness of the electricity load profile | |
CN111932069A (zh) | 家庭电力用户用电能效分析方法、计算机设备、存储介质 | |
CN107092592A (zh) | 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 | |
Kojury-Naftchali et al. | Identifying susceptible consumers for demand response and energy efficiency policies by time-series analysis and supplementary approaches | |
CN112614004A (zh) | 用电信息的处理方法及装置 | |
CN113591900A (zh) | 一种高需求响应潜力用户的识别方法、装置及终端设备 | |
CN114611738A (zh) | 一种基于用户用电行为分析的负荷预测方法 | |
CN106022578A (zh) | 基于数据高维化和K-means聚类的居民用电峰谷平时段划分方法 | |
CN111798333A (zh) | 一种用能评估与用电安全分析方法和系统 | |
CN110851502B (zh) | 一种基于数据挖掘技术的负荷特征场景分类方法 | |
Fitzpatrick et al. | Creating and characterising electricity load profiles of residential buildings | |
Sodenkamp et al. | Supervised classification with interdependent variables to support targeted energy efficiency measures in the residential sector | |
Tang et al. | Leveraging socioeconomic information and deep learning for residential load pattern prediction | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、系统及计算机设备 | |
CN115358797A (zh) | 基于聚类分析法的综合能源用户用能行为分析方法、系统及存储介质 | |
CN115081893A (zh) | 用户用电数据分析方法、装置、电子设备及可读存储介质 | |
Kojury-Naftchali et al. | AMI Data Analytics: customer charactrization by relief algorithm and supplementary tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |