CN107180392A - 一种电力企业电费回收数据模拟方法 - Google Patents
一种电力企业电费回收数据模拟方法 Download PDFInfo
- Publication number
- CN107180392A CN107180392A CN201710352570.0A CN201710352570A CN107180392A CN 107180392 A CN107180392 A CN 107180392A CN 201710352570 A CN201710352570 A CN 201710352570A CN 107180392 A CN107180392 A CN 107180392A
- Authority
- CN
- China
- Prior art keywords
- data
- arbiter
- maker
- arrearage
- true
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004088 simulation Methods 0.000 title claims abstract description 31
- 238000011084 recovery Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 73
- 230000004069 differentiation Effects 0.000 claims description 26
- 230000005611 electricity Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提供一种电力企业电费回收数据模拟方法,能够生成与所述真实数据特征一致的模拟数据。所述方法包括:确定基于深度卷积的对抗生成网络,所述对抗生成网络包括:生成器和判别器;将获取的真实数据输入判别器,判别器学习真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练;利用训练后的生成器生成与所述真实数据特征一致的模拟数据。本发明涉及电力系统技术领域。
Description
技术领域
本发明涉及电力系统技术领域,特别是指一种电力企业电费回收数据模拟方法。
背景技术
电力企业(例如,供电公司)电费回收管理工作是保证电力企业电费正常回收、实现企业可持续发展的一项重要任务。随着电力客户用电量快速增加和外部坏境的不断变化,电力企业面临的电费回收风险和不确定性也在逐年加大。
现有技术中,由于欠费数据不准确以及欠费数据稀缺,难以准确进行欠费预测。
发明内容
本发明要解决的技术问题是提供一种电力企业电费回收数据模拟方法,以解决现有技术所存在的欠费数据不准确以及欠费数据稀缺,难以准确进行欠费预测的问题。
为解决上述技术问题,本发明实施例提供一种电力企业电费回收数据模拟方法,包括:
获取已有的电力用户欠费数据作为真实数据;
确定基于深度卷积的对抗生成网络,所述对抗生成网络包括:生成器和判别器;其中,所述判别器是一种卷积神经网络,所述生成器是一种反卷积神经网络;
将获取的所述真实数据输入判别器,判别器学习所述真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练;
利用训练后的生成器生成与所述真实数据特征一致的模拟数据。
进一步地,所述获取已有的电力用户欠费数据作为真实数据包括:
确定欠费度量指标体系;
根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据。
进一步地,所述欠费度量指标体系包括:非目标指标和目标指标;
所述非目标指标包括:供电单位、行业类别、用电类别、电压等级、负荷重要等级、运行容量、停电标识、是否三方协议、1月用电量、2月用电量、3月用电量、4月用电量、5月用电量、6月用电量、7月用电量、8月用电量、9月用电量、10月用电量、11月用电量、12月用电量、1月欠费金额、2月欠费金额、3月欠费金额、4月欠费金额、5月欠费金额、6月欠费金额、7月欠费金额、8月欠费金额、9月欠费金额、10月欠费金额、11月欠费金额、12月欠费金额;
所述目标指标包括:欠费月个数。
进一步地,所述根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据包括:
根据确定的欠费度量指标体系中的指标,从预设的数据系统中抽取相应的电力用户欠费数据,得到每个指标对应的指标值;
判断每个指标值是否有错误,若某个指标值有错误,则删除有错误的指标值;
判断每个指标值是否空缺,若某个指标值空缺,则以当前指标对应的所有指标值的平均数补足。
进一步地,在通过生成器生成模拟数据,将生成的模拟数据和所述真实数据输入所述判别器来训练所述判别器之前,所述方法还包括:
对所述真实数据进行预处理;
所述对所述真实数据进行预处理包括:
将所述真实数据中的NA值替换成0;
将所述真实数据的数据类型转换为num/int类型;
剔除所述真实数据中的inf值;
对所述真实数据进行归一化处理。
进一步地,所述确定基于深度卷积的对抗生成网络包括:
确定生成器和判别器的网络结构,所述网络结构包括:输入层、卷积层和输出层;
确定生成器和判别器的卷积层卷集核大小、卷积核的滑动步长;
确定生成器和判别器的损失函数。
进一步地,所述卷积层卷集核大小为2*2。
进一步地,所述非目标指标的数目可以表示为非1的两个数的乘积形式;
若所述非目标指标的数目不可以表示为非1的两个数的乘积形式,则添加1个或多个噪声指标,使所述非目标指标的数目可以表示为非1的两个数的乘积形式。
进一步地,所述判别器的损失函数表示为:
d_loss=L(D)=-Ex~Pr[D(x)]+Ex~Pg[D(x)]
d_loss_real=-Ex~Pr[D(x)];
d_loss_fake=Ex~Pg[D(x)]
其中,d_loss、L(D)为判别器的损失函数;Pr表示真实数据;Pg表示由生成器生成的模拟数据;x~Pr中的x表示真实数据,x~Pg中的x表示模拟数据,D(x)表示将x输入判别器的判别结果;d_loss_real表示真实数据输入到判别器中的判别结果和预设的第一预期结果之间的交叉熵;d_loss_fake表示生成器生成的模拟数据输入到判别器中的判别结果与预设的第二预期结果之间的交叉熵;
所述生成器的损失函数表示为:
g_loss=L(G)=-Ex~Pg[D(x)]
其中,g_loss、L(G)为生成器的损失函数,表示生成器生成的模拟数据输入到判别器中的判别结果与预设的第三预期结果之间的交叉熵;Pg表示由生成器生成的模拟数据;x~Pg中的x表示模拟数据,D(x)表示将x输入判别器的判别结果。
进一步地,所述将获取的所述真实数据输入判别器,判别器学习所述真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练包括:
S1,将所述真实数据输入到所述判别器中,所述判别器学习真实数据的特征,判别真实数据真假,根据判别结果与预设的第一预期结果计算交叉熵d_loss_real;
S2,将随机噪声输入到所述生成器中生成模拟数据,将生成器生成的模拟数据输入到所述判别器中,所述判别器学习模拟数据的特征,判别模拟数据真假,根据判别结果与预设的第三预期结果计算生成器的损失函数值;
S3,根据S2的判别结果与预设的第二预期结果计算交叉熵d_loss_fake,对d_loss_fake和d_loss_real求和,得到判别器的损失函数值,基于生成器的损失函数值和判别器的损失函数值利用自适应估计优化方法调节生成器和判别器的网络结构的神经元的权重和偏置来降低生成器的损失函数值和判别器的损失函数值;
S4,S2和S3交替进行,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练。
本发明的上述技术方案的有益效果如下:
上述方案中;其中,所述判别器是一种卷积神经网络,所述生成器是一种反卷积神经网络,依据这两种卷积神经网络搭建对抗学习模式,将获取的真实数据输入判别器来训练判别器判别真实数据和模拟数据的能力;通过生成器生成模拟数据然后输入到判别器判别真假,并进行自学习训练使生成器生成与所述真实数据特征一致的模拟数据,然后,利用生成与所述真实数据特征一致的模拟数据进行欠费预测,能够解决欠费数据不准确以及欠费数据稀缺,难以准确进行欠费预测的问题,从而有效辅助电力企业制定用电和电费预警策略,且DCGAN作为有监督学习的特征提取器,生成的模拟数据有助于提高欠费预测的准确率。
附图说明
图1为本发明实施例提供的电力企业电费回收数据模拟方法的流程示意图;
图2为本发明实施例提供的对抗生成网络中生成器和判别器的对抗学习的原理示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的欠费数据不准确以及欠费数据稀缺,难以准确进行欠费预测的问题,提供一种电力企业电费回收数据模拟方法。
如图1所示,本发明实施例提供的电力企业电费回收数据模拟方法,包括:
S101,获取已有的电力用户欠费数据作为真实数据;
S102,确定基于深度卷积的对抗生成网络(Deep Convolutional GenerativeAdversarial Nerworks,DCGAN),所述对抗生成网络包括:生成器和判别器;其中,所述判别器是一种卷积神经网络,所述生成器是一种反卷积神经网络;
S103,将获取的所述真实数据输入判别器,判别器学习所述真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练;
S104,利用训练后的生成器生成与所述真实数据特征一致的模拟数据。
本发明实施例所述的电力企业电费回收数据模拟方法;其中,所述判别器是一种卷积神经网络,所述生成器是一种反卷积神经网络,依据这两种卷积神经网络搭建对抗学习模式,将获取的真实数据输入判别器来训练判别器判别真实数据和模拟数据的能力;通过生成器生成模拟数据然后输入到判别器判别真假,并进行自学习训练使生成器生成与所述真实数据特征一致的模拟数据,然后,利用生成与所述真实数据特征一致的模拟数据进行欠费预测,能够解决欠费数据不准确以及欠费数据稀缺,难以准确进行欠费预测的问题,从而有效辅助电力企业制定用电和电费预警策略,且DCGAN作为有监督学习的特征提取器,生成的模拟数据有助于提高欠费预测的准确率。
在前述电力企业电费回收数据模拟方法的具体实施方式中,进一步地,所述获取已有的电力用户欠费数据作为真实数据包括:
确定欠费度量指标体系;
根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据。
本实施例中,为了获取已有的电力用户欠费数据作为真实数据,需先确定欠费度量指标体系,然后根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据(Real_data)。
本实施例中,在预设的数据系统中,通过对82472个大工业用户的电费数据进行分析,发现在2015年1月至2015年12月这12个月的735522万条电费记录中仅有12471条有欠费记录,所述12471条有欠费记录包含了有残缺的欠费记录。本发明实施例的目的就是增加欠费数据,平衡欠费数据和非欠费数据的比例,让欠费预测模型能更好的学习到欠费数据的特征。
本实施例中,所述预设的数据系统可以为某省国家电网电力用户营销数据库系统。
本实施例中,获取到的735522电费记录包含了1-12个月的用电特征,而其中只有12471条欠费记录,那么同为预测和影响因子的欠费数据成为稀缺数据。在利用监督学习时为了有效预测用户欠费情况,可以确定每个月的每个用户的欠费度量指标;所述欠费度量指标可以分别非目标指标和目标指标;由所述非目标指标和目标指标构成欠费度量指标体系。
本实施例中,所述非目标指标可以包括:供电单位、行业类别、用电类别、电压等级、负荷重要等级、运行容量、停电标识、是否三方协议、1月用电量、2月用电量、3月用电量、4月用电量、5月用电量、6月用电量、7月用电量、8月用电量、9月用电量、10月用电量、11月用电量、12月用电量、1月欠费金额、2月欠费金额、3月欠费金额、4月欠费金额、5月欠费金额、6月欠费金额、7月欠费金额、8月欠费金额、9月欠费金额、10月欠费金额、11月欠费金额、12月欠费金额。本实施例中,所述目标指标包括:欠费月个数,在实际操作中,可以根据实际情况来决定目标指标的选择。本实施例中欠费数据是研究重点,且欠费指标1-12月可以推出欠费月个数,所以将欠费月个数确定为目标指标。
本实施例中,根据确定的欠费度量指标体系中的33个指标,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据,即:Real_data包括:12471条欠费数据,Real_data的维度为12471*33。对Real_data作初步分析,发现每次欠费金额分布在0-100万,为便于欠费预测模型的收敛,将欠费金额以千元计,并保留一位小数。
在前述电力企业电费回收数据模拟方法的具体实施方式中,进一步地,所述根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据包括:
根据确定的欠费度量指标体系中的指标,从预设的数据系统中抽取相应的电力用户欠费数据,得到每个指标对应的指标值;
判断每个指标值是否有错误,若某个指标值有错误,则删除有错误的指标值;
判断每个指标值是否空缺,若某个指标值空缺,则以当前指标对应的所有指标值的平均数补足。
本实施例中,由于所述12471条有欠费记录包含了有残缺的欠费记录,在根据确定的欠费度量指标体系中的指标,从预设的数据系统中抽取相应的电力用户欠费数据,得到每个指标对应的指标值后,需判断每个指标值是否有错误,若某个指标值有错误,则删除有错误的指标值;判断每个指标值是否空缺,若某个指标值空缺,则以当前指标对应的所有指标值的平均数补足,这样,可以得到完整的真实数据Real_data,该过程并不改变Real_data的维度,所述Real_data的维度依然是12471*33。
在前述电力企业电费回收数据模拟方法的具体实施方式中,进一步地,在通过生成器生成模拟数据,将生成的模拟数据和所述真实数据输入所述判别器来训练所述判别器之前,所述方法还包括:
对所述真实数据进行预处理;
所述对所述真实数据进行预处理包括:
将所述真实数据中的NA值替换成0;
将所述真实数据的数据类型转换为num/int类型;
剔除所述真实数据中的inf值;
对所述真实数据进行归一化处理。
本实施例中,将所述真实数据中的NA值替换成0;将所述真实数据的数据类型转换为num/int类型,例如,对于文字型指标,如行业类别、供电单位等,转换成相应的数值(num)指标;剔除所述真实数据中的无限大值(inf)值。
本实施例中,接着对真实数据进行归一化处理,归一化就是要把真实数据(通过某种算法)限制在需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。对真实数据做归一化处理,消除不同数据量级的影响。具体的,对真实数据进行归一化处理,将各个指标值压缩到[0,100]之间。
本实施例中,可以利用公式:yi=(xi-xmin)/(xmax-xmin)对各指标值做归一化处理,免去量级的影响;其中,xi、yi分别表示处理前后的指标值,xmin表示该项指标的最小值,xmax表示该项指标的最大值。
本实施例中,目标指标“欠费月个数”的数据经过统计在1-7,不需做处理。
在前述电力企业电费回收数据模拟方法的具体实施方式中,进一步地,所述确定基于深度卷积的对抗生成网络包括:
确定生成器和判别器的网络结构,所述网络结构包括:输入层、卷积层和输出层;
确定生成器和判别器的卷积层卷集核大小、卷积核的滑动步长;
确定生成器和判别器的损失函数。
本实施例中,为了适应电力数据的维度,设计了独特的对抗生成网络参数,例如:
1)去除激活层输出,生成器和判别器的损失函数不取对数处理,可以有效加速模型收敛;
2)将欠费度量指标体系中的32个非目标指标的维度转换成4*8,方便对抗生成网络的判别器和生成器输入数据到卷积层;
3)将判别器和生成器的卷积层卷积核设置成2*2,以突出每个指标的重要性;
4)所述非目标指标的数目尽量可以表示为非1的两个数的乘积形式;若所述非目标指标的数目不可以表示为非1的两个数的乘积形式,则添加1个或多个噪声指标,使所述非目标指标的数目可以表示为非1的两个数的乘积形式;例如,如果非目标指标的数目为37这种质数,就不能运用生成器和判别器的卷积训练模式,所以这时需要增加无意义的噪声指标以方便训练,增加无意义噪声指标转换之后才能形成一个n*m的形式,才可以使用卷积神经网络,例如,增加1个无意义噪声指标,得到的指标数为38,38可以表示为2*19。
接着,描述判别器的参数设置,具体的:
所述判别器的网络结构包括:输入层、卷积层和输出层,具体包括:1层输入层、3层卷积层和1层输出层,卷积层卷集核大小为2*2,,以突出每个指标的重要性,卷积核的滑动步长为[1 2 2 1],通过卷积核的滑动步长可以替代层池化层进行降维,边界处理方式为越过边缘取样,每一批数据大小为64条数据。由于目标指标的维度为1-7,设置输出层的维度为[64,1,1,7]方便与卷积层进行全连接操作,输出层的输出为64*1*1*7个值。
生成器的输入为维度7的随机噪声,卷积层卷集核大小为2*2,以突出每个指标的重要性,卷集核的滑动步长为[1 2 2 1],每一批数据大小为64数据,使用反卷积网络进行增加维度。
所述判别器的损失函数d_loss为L(D)=-Ex~Pr[D(x)]+Ex~Pg[D(x)]
其中,Pr表示真实数据,Pg表示由生成器产生的模拟数据,对于x~Pg/x~Pr,x有不同的含义,例如,x~Pr中的x表示真实数据,x~Pg中的x表示模拟数据,D(x)表示将x输入判别器的判别结果;d_loss_real=-Ex~Pr[D(x)]表示是真实数据输入到判别器中的判别结果和第一预期结果(例如,预期的为1的结果)之间的交叉熵,d_loss_fake=Ex~Pg[D(x)]是生成器生成的模拟数据输入到判别器中的判别结果和第二预期结果(例如,预期为0的结果)之间的交叉熵,判别器的损失函数d_loss是d_loss_fake和d_loss_real之和。判别器的目的是经过不断的训练自学习来最小化判别器的损失函数值。
然后,描述生成器的参数设置,具体的:
所述生成器的网络结构包括:输入层、卷积层和输出层,具体包括:1层输入层、3层反卷积层和1层输出层,卷积层卷集核大小为2*2,以突出每个指标的重要性,卷集核的滑动步长为[1 2 2 1],边界处理方式为越过边缘取样,每一批数据大小为64条数据。由于目标指标的维度为1-7,设置的输入的随机噪声z的维度为[64,1,1,7]。
所述生成器的损失函数g_loss为L(G)=-Ex~Pg[D(x)];
其中,g_loss表示生成器生成的模拟数据输入到判别器中的判别结果与预设的第三预期结果(例如,预期为1的结果)之间的交叉熵;Pg表示由生成器生成的模拟数据;x~Pg中的x表示模拟数据,D(x)表示将x输入判别器的判别结果。
基于生成器的损失函数值和判别器的损失函数值利用自适应估计优化方法调节生成器和判别器的网络结构的神经元的权重和偏置来降低生成器的损失函数值和判别器的损失函数值,最终目标是要最小化d_loss和g_loss。
在前述电力企业电费回收数据模拟方法的具体实施方式中,进一步地,所述将获取的所述真实数据输入判别器,判别器学习所述真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练包括:
S1,将所述真实数据输入到所述判别器中,所述判别器学习真实数据的特征,判别真实数据真假,根据判别结果与预设的第一预期结果计算交叉熵d_loss_real;
S2,将随机噪声输入到所述生成器中生成模拟数据,将生成器生成的模拟数据输入到所述判别器中,所述判别器学习模拟数据的特征,判别模拟数据真假,根据判别结果与预设的第三预期结果计算生成器的损失函数值;
S3,根据S2的判别结果与预设的第二预期结果计算交叉熵d_loss_fake,对d_loss_fake和d_loss_real求和,得到判别器的损失函数值,基于生成器的损失函数值和判别器的损失函数值利用自适应估计优化方法调节生成器和判别器的网络结构的神经元的权重和偏置来降低生成器的损失函数值和判别器的损失函数值;
S4,S2和S3交替进行,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练。
本实施例中,除了上述设置的参数,还需设置最大训练次数,每次训练都会有d_loss和g_loss产生,当判别器和生成器的损失函数值达到预设值(例如,0.4)或者训练轮数大于1000时结束训练,并用训练好的生成器输入随机噪声z(生成器的输入数据)生成与所述真实数据特征一致的模拟数据。生成器生成的模拟数据的数量一般不超过真实数据的数量,如果想要生成更多的模拟数据可以重新训练DCGAN,完成另一套对抗学习模型(即:对抗生成网络)然后生成模拟数据。
本实施例中,生成器的损失函数值和判别器的损失函数值越小,表示判别器和生成器能力越强,但是实际上这两个是互相矛盾的,生成器能力强了,判别器就会判别不出真假,他的损失函数就会升高,所以最终需要的是一个平衡值,不能一方偏高另一方偏低这样,因为,预设值可以设为0.4,在实际应用中,预设值可以根据实际情况决定,二者的预设值可以相同也可以不同。
本实施例中,对抗生成网络对抗学习之后生成的模拟数据需进行逆向归一化,将其恢复到原来的数据值域中,供使用者做监督学习模型训练。
如图2所示,本实施例中,对抗生成网络中生成器和判别器的对抗学习(训练)的具体步骤可以包括:
A11,将真实数据Real_data输入到判别器中,判别器学习真实数据的特征,判别其真假,根据判别结果与预设的第一预期结果计算d_loss_real;
A12,将随机噪声Z输入到生成器中,生成器生成模拟数据Analog_data,模拟数据Analog_data进入判别器中,判别器学习模拟数据Analog_data的特征,并判别其真假,根据判别结果与预设的第三预期结果计算g_loss;
A13,根据A12的判别结果与预设的第二预期结果计算d_loss_fake,判别器的d_loss=d_loss_fake+d_loss_real,利用自适应估计优化方法调节生成器和判别器的网络结构的神经元的权重和偏置来降低d_loss和g_loss;
A14,A12和A13交替进行,生成器的目的是生成与所述真实数据特征一致的模拟数据Analog_data,让判别器辨别不出来提高他的d_loss_fake;判别器的目的是能够辨别模拟数据Analog_data的真假,降低判别器的d_loss;
A15,当判别器的损失函数值和生成器的的损失函数值达到0.4,或训练次数达到预设的最大训练次数1000,结束训练。
A16,利用训练后的生成器生成所述真实数据特征一致的模拟数据Analog_data。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种电力企业电费回收数据模拟方法,其特征在于,包括:
获取已有的电力用户欠费数据作为真实数据;
确定基于深度卷积的对抗生成网络,所述对抗生成网络包括:生成器和判别器;其中,所述判别器是一种卷积神经网络,所述生成器是一种反卷积神经网络;
将获取的所述真实数据输入判别器,判别器学习所述真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练;
利用训练后的生成器生成与所述真实数据特征一致的模拟数据。
2.根据权利要求1所述的电力企业电费回收数据模拟方法,其特征在于,所述获取已有的电力用户欠费数据作为真实数据包括:
确定欠费度量指标体系;
根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据。
3.根据权利要求2所述的电力企业电费回收数据模拟方法,其特征在于,所述欠费度量指标体系包括:非目标指标和目标指标;
所述非目标指标包括:供电单位、行业类别、用电类别、电压等级、负荷重要等级、运行容量、停电标识、是否三方协议、1月用电量、2月用电量、3月用电量、4月用电量、5月用电量、6月用电量、7月用电量、8月用电量、9月用电量、10月用电量、11月用电量、12月用电量、1月欠费金额、2月欠费金额、3月欠费金额、4月欠费金额、5月欠费金额、6月欠费金额、7月欠费金额、8月欠费金额、9月欠费金额、10月欠费金额、11月欠费金额、12月欠费金额;
所述目标指标包括:欠费月个数。
4.根据权利要求2所述的电力企业电费回收数据模拟方法,其特征在于,所述根据确定的欠费度量指标体系,从预设的数据系统中抽取相应的电力用户欠费数据作为真实数据包括:
根据确定的欠费度量指标体系中的指标,从预设的数据系统中抽取相应的电力用户欠费数据,得到每个指标对应的指标值;
判断每个指标值是否有错误,若某个指标值有错误,则删除有错误的指标值;
判断每个指标值是否空缺,若某个指标值空缺,则以当前指标对应的所有指标值的平均数补足。
5.根据权利要求1所述的电力企业电费回收数据模拟方法,其特征在于,在通过生成器生成模拟数据,将生成的模拟数据和所述真实数据输入所述判别器来训练所述判别器之前,所述方法还包括:
对所述真实数据进行预处理;
所述对所述真实数据进行预处理包括:
将所述真实数据中的NA值替换成0;
将所述真实数据的数据类型转换为num/int类型;
剔除所述真实数据中的inf值;
对所述真实数据进行归一化处理。
6.根据权利要求1所述的电力企业电费回收数据模拟方法,其特征在于,所述确定基于深度卷积的对抗生成网络包括:
确定生成器和判别器的网络结构,所述网络结构包括:输入层、卷积层和输出层;
确定生成器和判别器的卷积层卷集核大小、卷积核的滑动步长;
确定生成器和判别器的损失函数。
7.根据权利要求6所述的电力企业电费回收数据模拟方法,其特征在于,所述卷积层卷集核大小为2*2。
8.根据权利要求3所述的电力企业电费回收数据模拟方法,其特征在于,所述非目标指标的数目可以表示为非1的两个数的乘积形式;
若所述非目标指标的数目不可以表示为非1的两个数的乘积形式,则添加1个或多个噪声指标,使所述非目标指标的数目可以表示为非1的两个数的乘积形式。
9.根据权利要求6所述的电力企业电费回收数据模拟方法,其特征在于,所述判别器的损失函数表示为:
d_loss=L(D)=-Ex~Pr[D(x)]+Ex~Pg[D(x)]
d_loss_real=-Ex~Pr[D(x)];
d_loss_fake=Ex~Pg[D(x)]
其中,d_loss、L(D)为判别器的损失函数;Pr表示真实数据;Pg表示由生成器生成的模拟数据;x~Pr中的x表示真实数据,x~Pg中的x表示模拟数据,D(x)表示将x输入判别器的判别结果;d_loss_real表示真实数据输入到判别器中的判别结果和预设的第一预期结果之间的交叉熵;d_loss_fake表示生成器生成的模拟数据输入到判别器中的判别结果与预设的第二预期结果之间的交叉熵;
所述生成器的损失函数表示为:
g_loss=L(G)=-Ex~Pg[D(x)]
其中,g_loss、L(G)为生成器的损失函数,表示生成器生成的模拟数据输入到判别器中的判别结果与预设的第三预期结果之间的交叉熵;Pg表示由生成器生成的模拟数据;x~Pg中的x表示模拟数据,D(x)表示将x输入判别器的判别结果。
10.根据权利要求1所述的电力企业电费回收数据模拟方法,其特征在于,所述将获取的所述真实数据输入判别器,判别器学习所述真实数据的特征以训练其判别真实数据和模拟数据的能力,通过生成器生成模拟数据,将生成的模拟数据输入到判别器判别真假,并根据判别结果计算生成器的损失函数值和判别器的损失函数值,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练包括:
S1,将所述真实数据输入到所述判别器中,所述判别器学习真实数据的特征,判别真实数据真假,根据判别结果与预设的第一预期结果计算交叉熵d_loss_real;
S2,将随机噪声输入到所述生成器中生成模拟数据,将生成器生成的模拟数据输入到所述判别器中,所述判别器学习模拟数据的特征,判别模拟数据真假,根据判别结果与预设的第三预期结果计算生成器的损失函数值;
S3,根据S2的判别结果与预设的第二预期结果计算交叉熵d_loss_fake,对d_loss_fake和d_loss_real求和,得到判别器的损失函数值,基于生成器的损失函数值和判别器的损失函数值利用自适应估计优化方法调节生成器和判别器的网络结构的神经元的权重和偏置来降低生成器的损失函数值和判别器的损失函数值;
S4,S2和S3交替进行,直至生成器的损失函数值和判别器的损失函数值达到预设值,或训练次数达到预设的最大训练次数,结束训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710352570.0A CN107180392A (zh) | 2017-05-18 | 2017-05-18 | 一种电力企业电费回收数据模拟方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710352570.0A CN107180392A (zh) | 2017-05-18 | 2017-05-18 | 一种电力企业电费回收数据模拟方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107180392A true CN107180392A (zh) | 2017-09-19 |
Family
ID=59831227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710352570.0A Pending CN107180392A (zh) | 2017-05-18 | 2017-05-18 | 一种电力企业电费回收数据模拟方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107180392A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107991876A (zh) * | 2017-12-14 | 2018-05-04 | 南京航空航天大学 | 基于生成式对抗网络的航空发动机状态监测数据生成方法 |
CN108009058A (zh) * | 2017-11-17 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 异常设备识别方法及装置和电子设备 |
CN108090905A (zh) * | 2018-01-05 | 2018-05-29 | 清华大学 | 产线异常的判断方法及系统 |
CN108333183A (zh) * | 2018-01-31 | 2018-07-27 | 西安工程大学 | 一种基于dcgan和dcnn的色织衬衫裁片缺陷检测方法 |
CN108596261A (zh) * | 2018-04-28 | 2018-09-28 | 重庆青山工业有限责任公司 | 基于生成对抗网络模型的齿轮参数过采样方法 |
CN109271483A (zh) * | 2018-09-06 | 2019-01-25 | 中山大学 | 基于递进式多判别器的问题生成方法 |
CN109754416A (zh) * | 2017-11-03 | 2019-05-14 | 富士通株式会社 | 图像处理装置和方法 |
CN109918905A (zh) * | 2017-12-12 | 2019-06-21 | 财团法人资讯工业策进会 | 行为推论模型生成装置及其行为推论模型生成方法 |
WO2019237240A1 (zh) * | 2018-06-12 | 2019-12-19 | 中国科学院深圳先进技术研究院 | 一种增强型生成式对抗网络以及目标样本识别方法 |
CN110633989A (zh) * | 2019-08-16 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 一种风险行为生成模型的确定方法及装置 |
CN111198907A (zh) * | 2019-12-24 | 2020-05-26 | 深圳供电局有限公司 | 潜在欠费用户识别方法、装置、计算机设备和存储介质 |
CN111340375A (zh) * | 2020-02-28 | 2020-06-26 | 创新奇智(上海)科技有限公司 | 一种电费回收风险预测方法、装置、电子设备及存储介质 |
CN111563034A (zh) * | 2020-04-14 | 2020-08-21 | 北京明略软件系统有限公司 | 一种模拟数据的生成方法和装置 |
CN111794741A (zh) * | 2020-08-11 | 2020-10-20 | 中国石油天然气集团有限公司 | 滑动定向钻井模拟机实现方法 |
WO2021174935A1 (zh) * | 2020-03-03 | 2021-09-10 | 平安科技(深圳)有限公司 | 对抗生成神经网络的训练方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372775A (zh) * | 2016-08-19 | 2017-02-01 | 国网冀北电力有限公司电力科学研究院 | 一种电网客户综合价值评估方法及系统 |
CN106373026A (zh) * | 2016-08-24 | 2017-02-01 | 国网冀北电力有限公司电力科学研究院 | 一种电力行业的用户画像构建方法 |
CN106651024A (zh) * | 2016-12-19 | 2017-05-10 | 国网冀北电力有限公司运营监测(控)中心 | 一种电费回收预测模型的构建方法 |
-
2017
- 2017-05-18 CN CN201710352570.0A patent/CN107180392A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372775A (zh) * | 2016-08-19 | 2017-02-01 | 国网冀北电力有限公司电力科学研究院 | 一种电网客户综合价值评估方法及系统 |
CN106373026A (zh) * | 2016-08-24 | 2017-02-01 | 国网冀北电力有限公司电力科学研究院 | 一种电力行业的用户画像构建方法 |
CN106651024A (zh) * | 2016-12-19 | 2017-05-10 | 国网冀北电力有限公司运营监测(控)中心 | 一种电费回收预测模型的构建方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754416B (zh) * | 2017-11-03 | 2023-08-04 | 富士通株式会社 | 图像处理装置和方法 |
CN109754416A (zh) * | 2017-11-03 | 2019-05-14 | 富士通株式会社 | 图像处理装置和方法 |
CN108009058A (zh) * | 2017-11-17 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 异常设备识别方法及装置和电子设备 |
CN109918905A (zh) * | 2017-12-12 | 2019-06-21 | 财团法人资讯工业策进会 | 行为推论模型生成装置及其行为推论模型生成方法 |
CN109918905B (zh) * | 2017-12-12 | 2022-05-10 | 财团法人资讯工业策进会 | 行为推论模型生成装置及其行为推论模型生成方法 |
CN107991876A (zh) * | 2017-12-14 | 2018-05-04 | 南京航空航天大学 | 基于生成式对抗网络的航空发动机状态监测数据生成方法 |
CN108090905A (zh) * | 2018-01-05 | 2018-05-29 | 清华大学 | 产线异常的判断方法及系统 |
CN108333183A (zh) * | 2018-01-31 | 2018-07-27 | 西安工程大学 | 一种基于dcgan和dcnn的色织衬衫裁片缺陷检测方法 |
CN108333183B (zh) * | 2018-01-31 | 2021-03-16 | 西安工程大学 | 一种基于dcgan和dcnn的色织衬衫裁片缺陷检测方法 |
CN108596261A (zh) * | 2018-04-28 | 2018-09-28 | 重庆青山工业有限责任公司 | 基于生成对抗网络模型的齿轮参数过采样方法 |
WO2019237240A1 (zh) * | 2018-06-12 | 2019-12-19 | 中国科学院深圳先进技术研究院 | 一种增强型生成式对抗网络以及目标样本识别方法 |
CN109271483A (zh) * | 2018-09-06 | 2019-01-25 | 中山大学 | 基于递进式多判别器的问题生成方法 |
CN110633989A (zh) * | 2019-08-16 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 一种风险行为生成模型的确定方法及装置 |
CN110633989B (zh) * | 2019-08-16 | 2023-08-29 | 创新先进技术有限公司 | 一种风险行为生成模型的确定方法及装置 |
CN111198907A (zh) * | 2019-12-24 | 2020-05-26 | 深圳供电局有限公司 | 潜在欠费用户识别方法、装置、计算机设备和存储介质 |
CN111340375A (zh) * | 2020-02-28 | 2020-06-26 | 创新奇智(上海)科技有限公司 | 一种电费回收风险预测方法、装置、电子设备及存储介质 |
WO2021174935A1 (zh) * | 2020-03-03 | 2021-09-10 | 平安科技(深圳)有限公司 | 对抗生成神经网络的训练方法及系统 |
CN111563034A (zh) * | 2020-04-14 | 2020-08-21 | 北京明略软件系统有限公司 | 一种模拟数据的生成方法和装置 |
CN111794741A (zh) * | 2020-08-11 | 2020-10-20 | 中国石油天然气集团有限公司 | 滑动定向钻井模拟机实现方法 |
CN111794741B (zh) * | 2020-08-11 | 2023-08-18 | 中国石油天然气集团有限公司 | 滑动定向钻井模拟机实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107180392A (zh) | 一种电力企业电费回收数据模拟方法 | |
CN106886846A (zh) | 一种基于长短期记忆循环神经网络的银行网点备付金预测方法 | |
CN103106535B (zh) | 一种基于神经网络解决协同过滤推荐数据稀疏性的方法 | |
CN106485262A (zh) | 一种母线负荷预测方法 | |
CN104537433A (zh) | 基于存量容量与业扩报装特征的售电量预测方法 | |
CN106446478A (zh) | 一种切削加工工艺优选系统及方法 | |
CN115131131A (zh) | 面向不平衡数据集多阶段集成模型的信用风险评估方法 | |
CN107563451A (zh) | 一种泵站稳态工况下运行状态识别方法 | |
CN107966600A (zh) | 一种基于深度学习算法的防窃电系统及其防窃电方法 | |
CN105654175A (zh) | 一种面向轴承制造企业的零件供应商多目标优选方法 | |
CN111783516A (zh) | 一种基于深度学习的耕地质量自然等级评价方法 | |
CN107871183A (zh) | 基于不确定性云理论的多年冻土区公路病害预测方法 | |
CN110135634A (zh) | 中长期电力负荷预测装置 | |
CN106548285A (zh) | 计及小水电出力的趸售电量预测方法 | |
CN116245227A (zh) | 逐日气象干旱预测方法、装置、存储介质和设备 | |
CN113392877B (zh) | 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法 | |
CN112818525A (zh) | 一种水电机组状态评价方法及其系统 | |
He et al. | Investigation of inflation forecasting | |
CN105225015A (zh) | 基于经济发展情况的城市电力系统电网饱和负荷预测方法 | |
CN110750572A (zh) | 一种科技成果启发式评价的自适应方法和装置 | |
CN113592563A (zh) | 一种基于ai算法的基金组合最优化智能决策方法 | |
CN113111588A (zh) | 一种燃气轮机nox排放浓度预测方法及装置 | |
CN113866562A (zh) | 一种电力系统台区线损识别方法 | |
Yan et al. | Water demand forecast model of least squares support vector machine based on particle swarm optimization | |
Huang | Research on Influencing Factors of Regional Taxation Based on ANN-RBF Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170919 |