CN114372835A - 综合能源服务潜力客户识别方法、系统及计算机设备 - Google Patents
综合能源服务潜力客户识别方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN114372835A CN114372835A CN202210279216.0A CN202210279216A CN114372835A CN 114372835 A CN114372835 A CN 114372835A CN 202210279216 A CN202210279216 A CN 202210279216A CN 114372835 A CN114372835 A CN 114372835A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- potential
- characteristic
- energy service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000005611 electricity Effects 0.000 claims abstract description 63
- 238000006243 chemical reaction Methods 0.000 claims abstract description 29
- 230000009467 reduction Effects 0.000 claims abstract description 21
- 238000010276 construction Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 28
- 238000000513 principal component analysis Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 239000006185 dispersion Substances 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000009960 carding Methods 0.000 claims description 2
- 238000011835 investigation Methods 0.000 claims description 2
- 230000001932 seasonal effect Effects 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000004134 energy conservation Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P80/00—Climate change mitigation technologies for sector-wide applications
- Y02P80/10—Efficient use of energy, e.g. using compressed air or pressurized fluid as energy carrier
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明属于电力技术领域,为综合能源服务潜力客户识别方法、系统及计算机设备,解决了现有技术无法快速定位、有效识别高潜力客户的问题。其方法为:通过客户属性特征和用电特征对高压用电客户初步筛选,对每个行业小类单独建立模型以识别潜力客户,对高压用电客户范围筛选细分;利用特征工程技术对原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;构建并训练潜力客户识别模型,评估各应用场景的潜力客户;构建潜力客户特征标签,形成客户画像;采用主分量分析方法构建模型,对每个客户的特征指标进行特征转换,对高压用电客户的综合能源服务潜力进行评价以对潜力客户进行识别。
Description
技术领域
本发明属于电力技术领域,具体涉及综合能源服务潜力客户识别方法、系统及计算机设备。
背景技术
近年来,大数据分析技术在国民经济生活中得到了广泛应用,而电力数据时效性强、连续性好、完整性好、覆盖范围广,且具有较强的客观性、真实性,被社会广泛认可,也在推动国家各项建设工作中起到了良好的支撑作用。数据作为新的生产要素,被喻为新时代的石油,必将在风险有效防控、电网智慧运营、客户优质服务、企业精益管理、新兴业务发展等领域发挥越来越重要的作用。
在综合能源服务领域,随着国家电网公司数据中台、营销2.0、绿色国网及省级智慧能源服务平台的建设与发展,利用大数据技术深入开展分析应用及辅助决策,成为一项重要而迫切的课题。其中,综合能源潜力的客户包含大型商业体、工业企业、高校、医院等多种市场客户主体,主要分析范围是高压用电量较大的客户,即高压用电客户。目前,还无法对综合能源潜力客户进行快速筛选和有效识别。
发明内容
一方面,本发明提供综合能源服务潜力客户识别方法,以解决现有技术无法快速定位、有效识别高潜力客户的问题。
相应地,本发明还提供综合能源服务潜力客户识别系统、计算机设备。
本发明所采用的方法,其技术方案如下:综合能源服务潜力客户识别方法,包括以下步骤:
S1、获取高压用电客户的相关数据;
S2、数据处理:根据所获取的相关数据,通过客户属性特征和用电特征对高压用电客户进行初步筛选;再依据构建潜力客户识别模型所需指标,对每个行业小类单独建立模型,在相同行业小类范围内识别综合能源服务潜力客户,对高压用电客户的范围进一步筛选细分;
S3、利用特征工程技术,对步骤S2处理后的高压用电客户的原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;利用机器学习算法构建并训练潜力客户识别模型,评估各应用场景的潜力客户;
S4、基于综合能源服务潜力客户的实际应用场景,结合数据情况,构建综合能源服务潜力客户特征标签,并形成客户画像;
S5、结合当前可获取数据情况,采用PCA主分量分析方法构建潜力客户识别模型,对每个高压用电客户的特征指标进行特征转换,利用特征转换后的综合得分对高压用电客户的综合能源服务潜力进行评价,对综合得分进行加权计算,根据加权计算后的总体评分排名对潜力客户进行识别;
所述PCA主分量分析方法通过非线性映射将数据转换到一个高维空间中,在高维空间中将数据再映射到另一个低维空间中,并通过线性分类器对样本进行划分;还通过核函数变换协方差矩阵,对非线性关系的原始数据进行特征转换降维。
本发明识别系统,所采用的技术方案如下:综合能源服务潜力客户识别系统,包括:
数据获取模块,用于获取高压用电客户的相关数据;
数据处理模块,用于根据所获取的相关数据,通过客户属性特征和用电特征对高压用电客户进行初步筛选;再依据构建潜力客户识别模型所需指标,对每个行业小类单独建立模型,在相同行业小类范围内识别综合能源服务潜力客户,对高压用电客户的范围进一步筛选细分;
特征工程模块,利用特征工程技术对数据处理模块处理后的高压用电客户的原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;利用机器学习算法构建并训练潜力客户识别模型,评估各应用场景的潜力客户;
特征标签构建模块,基于综合能源服务潜力客户的实际应用场景,结合数据情况,构建综合能源服务潜力客户特征标签,并形成客户画像;
识别模型构建模块,结合当前可获取数据情况,采用PCA主分量分析方法构建潜力客户识别模型,对每个高压用电客户的特征指标进行特征转换,利用特征转换后的综合得分对高压用电客户的综合能源服务潜力进行评价,对综合得分进行加权计算,根据加权计算后的总体评分排名对潜力客户进行识别;
所述PCA主分量分析方法通过非线性映射将数据转换到一个高维空间中,在高维空间中将数据再映射到另一个低维空间中,并通过线性分类器对样本进行划分;还通过核函数变换协方差矩阵,对非线性关系的原始数据进行特征转换降维。
本发明的计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本发明潜力客户识别方法的各步骤。
与现有技术相比,本发明取得的有益效果包括:
1、本发明从多维度、具体应用场景对综合能源潜力客户进行识别,通过特征工程技术对高压用电客户进行特征指标构建、特征选择和特征缩放,并进一步构建潜力客户特征标签,根据改进型PCA算法构建潜力客户识别模型,确保综合能源潜力客户识别实际效果的专业性和客观性。
2、本发明通过大数据分析应用,帮助企业加强节能降耗工作,深度挖掘节能潜力,积极探索节能减排与能源清洁高效利用之道;提高了能源利用效率,可以不断满足客户多元化、个性化能源需求,降低客户用能成本,助力推进加快构建以电为中心,清洁高效、智能互动、开放共享的现代能源消费体系,促进新能源发展,实现节能减排约束性目标,致力于为全社会提供优质高效的综合能源服务。
附图说明
图1是本发明实施例中综合能源服务潜力客户识别方法的流程示意图;
图2是本发明实施例中通过标签识别和通过模型识别的潜力客户验证示意图。
具体实施方式
本发明以电力行业多类业务应用系统为基础,使用改进特征工程技术和KernelPCA算法对综合能源服务潜力客户进行识别。
下面结合实施例及附图对本发明的技术方案做详细的描述,但本发明的实施方式并不限于此。
实施例1
本实施例为综合能源服务潜力客户识别方法,基于用电客户档案、用电特征、用能情况、运行负荷等电力数据,基于维度指标或者事实标签,运用特征工程和无监督算法,构建电力综合能源服务潜在客户识别模型,对综合能源服务业务场景的潜在客户进行识别,促进了智慧用能、清洁能源利用、综合能效水平提升等综合能源服务开展,助力企业节能降耗,实现社会、企业及国网公司多方互利共赢。
如图1所示,本实施例的潜力客户识别方法,主要包括数据获取、数据预处理、改进特征工程、特征标签创建、Kernel PCA模型构建、识别结果评估及验证等步骤,具体过程如下:
S1. 高压用电客户相关数据获取
从国网总部数据中台共享层、绿色国网四库、省级智慧能源平台及其他渠道收集、获取数据,以营销业务系统及用电信息采集数据为依托,所获取的数据主要包括高压用电客户基础档案信息、应收量费数据、代码分类映射关系、欠缴费信息、日/月冻结电量、电量负荷曲线数据等。
S2. 数据处理,具体包括:
(1)筛选高压用电客户
根据所获取的相关数据,通过客户属性特征和用电特征对高压用电客户进行初步筛选,客户属性特征包括用电属性、社会属性、地理属性等,用电特征包括用电规模特征、用电行为特征、用电趋势特征、用电负荷特征等;再依据构建潜力客户识别模型所需指标,对每个行业小类单独建立模型,在相同行业小类范围内识别综合能源服务潜力客户,对高压用电客户的范围进一步筛选细分。其中,每个行业小类单独建立的模型,可称为区隔化模型。
本步骤在筛选的过程中,剔除行业细分小类包含高压用电客户数量过少(例如5户以下)的行业,还剔除立户日期距今小于12个月的新高压用电客户,以及剔除近12个月用电月份缺失较多(例如6个月及以上)的高压用电客户。
(2)预处理
对所获取的数据质量进行初步的探索性分析,查看数据的完整性、一致性,并判断其可用性;结合所获取数据的外部特征,对数据进行清洗、加工、汇总处理,针对每个分析应用场景构建业务标签,创建分析指标。
在对数据进行预处理的过程中,根据数据类型对数据中的缺失值进行补全:对于类别型字段,缺失值统一填入“其他”,成为一个新的类别;对于数值型字段,利用字段特征分群方式,将分群后非缺失值的平均值填入;对于高缺失率字段,将整个字段换成指示变量,1表示非缺失值、0表示缺失值。
(3)文本字段清洗
对高压用电客户企业名称、企业地址进行文本清洗,去掉特殊字符、空格类字符。
S3. 利用特征工程技术,对步骤S2处理后的高压用电客户的原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;利用有监督、无监督、半监督等机器学习算法构建并训练潜力客户识别模型,评估各应用场景的潜力客户。
(1)衍生特征指标构建
基于本发明潜力客户挖掘目的,通过电力数据描述统计分析,结合业务调研梳理结果及国网总部数据中台实际情况,运用数据探索的特征指标构建方法,从综合能源服务潜力待识别客户的用电规模、生产习惯、用电管理等方面进行特征提取汇总,构建如表一所示的衍生特征指标。衍生特征指标包括月均用电量、月用电量离散系数、季节用电差异、峰谷电量比、峰电量离散系数、峰电量占比、峰谷电量差异比、负荷差异比和平均负荷离散系数等。
表一
各衍生特征指标计算公式如下:
(2)特征选择
综合能源服务潜力客户各方面特征所包含的不同时间维度指标均为数值型指标;而判断数值型指标的相关性,传统方法是采用皮尔森相关系数计算指标间的相关性,但该方法易受到极值和异常值的影响,并且要满足数值指标间是线性关系。本实施例引入非参数统计中秩的概念方法对皮尔森相关系数计算方法进行改进。
传统皮尔森相关系数计算公式为:
本实施例改进后的相关系数计算公式为:
其中d i 表示特征指标X的第i个元素值与特征指标Y的第i个元素值排名位数的差值;N表示特征指标X、特征指标Y的元素数量。
本实施例经过改进后的相关系数计算公式,有效规避了原始数据的极值、分布等问题。本实施例利用改进后的相关系数计算公式,得到各指标不同时间范围最有代表性的特征指标作为模型识别指标,如表二所示。
也就是说,本实施例根据改进后的相关系数计算公式,由于综合能源服务潜力客户所包括的具有不同时间维度的特征指标均为数值型指标,对每一个特征指标,将该特征指标在每个时间维度的数据和其他多个时间维度(例如其他三个时间维度)的数据分别计算相关系数,保留相关系数求和最大的时间维度数据,作为用于模型识别的特征指标。
表二
根据表二,选择近1个月的月均用电量作为用于模型识别的特征指标。
(3)特征缩放
经过特征选择后保留下来的特征指标,会存在量纲不一致,特征指标量级差距较大等问题,将导致无法进行直接计算,计算距离相似度时会失去准确性,因此要对特征指标进行缩放,以实现高维特征的降维转换。
传统的特征缩放技术包括数据归一化、数据标准化,计算公式分别是:
数据归一化的公式为:
其中X i 是特征指标X的第i个元素值,min(X)表示特征指标X的最小值,max(X)表示特征指标X的最大值。
数据标准化的公式为:
上述传统的特征缩放技术易受到异常值影响,导致全距值、平均值和方差结果有偏差,缩放对结果失去意义。本实施例采用分位数方式对传统特征缩放技术进行改进。
改进后的数据归一化公式为:
其中X i 是特征指标X的第i个元素值,Q 0.01表示特征指标X的0.01%分位数,Q 99.99表示特征指标X的99.99%分位数。
改进后的数据标准化公式为:
通过改进后的数据归一化、数据标准化公式对选中的原始特征指标进行特征缩放。
S4. 构建特征标签
标签画像构建是大数据分析应用的基础性工作,也是“个体洞察—>群体分析—>宏观决策”分析体系建设的首要环节,具有重要的基础作用。标签画像的生成,将有力支撑未来综合能源精准服务策略推送、服务风险预警、增值服务等多业务应用。
本步骤基于综合能源服务潜力客户的实际应用场景,结合数据情况,构建综合能源服务潜力客户特征标签,并形成客户画像。
其中,所构建的企业信息类标签如表三所示:
表三
所构建的电量特征类标签如表四所示:
表四
所构建的负荷特征类标签如表五所示:
表五
S5.构建Kernel PCA模型
本实施例综合能源服务潜力客户挖掘的分析对象是高压用电客户,结合当前可获取数据情况,采用主分量分析方法构建潜力客户识别模型,对每个高压用电客户的特征指标进行特征转换,利用特征转换后的综合得分对高压用电客户的综合能源服务潜力进行评价,对综合得分进行加权计算,根据加权计算后的总体评分排名对潜力客户进行识别,对待测用电客户进行综合评判。
传统的主分量分析方法有PCA主分量分析方法,具体算法如下:
(1)计算分析指标协方差矩阵:
其中:
作为m个主分量各自对应的方差。
(4) 计算总贡献率G(M),公式为:
当G(M)大于所设定的贡献率(例如设定为90%),可以认为选取的主成分能够代表原始数据。传统主分量分析PCA受限于原始指标是否可线性转换,需对其进行改进。
KernelPCA是PCA的一个改进版,可以通过非线性映射将数据转换到一个高维空间中,在高维空间中使用PCA将数据再映射到另一个低维空间中,并通过线性分类器对样本进行划分。在KernelPCA中,通过核函数变换协方差矩阵,使其能对非线性关系的原始数据进行特征转换降维,即:
本步骤通过改进后的Kernel PCA主分量分析算法构建潜力客户识别模型,并迭代优化模型,对模型进行训练、评估和检验,获得最优的潜力客户识别模型。对综合能源服务潜力待预测客户进行特征变换,计算待预测客户的综合评价得分。
S6.通过标签识别和模型识别两种方式,分别对高压用电客户进行分析识别,并对识别结果进行验证与评估。
(1)通过标签进行识别
基于业务合理化判断,根据所构建的标签应用场景,从高压用电客户的标签体系框架中选择有代表性的标签(例如高耗能类别、企业规模、行业内电量规模、行业内电量波动、峰谷电量差异、用电负荷高峰),赋予主观标签权重与标签实例分数,对每个高压用电客户满足分析目的标签实例特征进行标注并计算得分,通过标签画像初筛来判断高压用电客户的综合能源服务潜力等级。
(2)通过所构建的潜力客户识别模型进行识别
首先通过行业小类对高压用电客户进行划分,目的是针对一个行业建立一个潜力客户识别模型,避免不同行业之间客户特征指标差异过大,导致模型准确性降低;然后通过改进的Kernel PCA主分量分析的特征变换技术对高压用电客户数据进行特征变换,得到主分量特征向量和转换后的各个特征得分,通过主分量权重计算出原始指标权重;最后对行业内待识别客户计算综合评价得分,将得分降序排名,根据动态调整的排名分位数比例划分客户综合能源服务潜力档次。
(3)识别结果评估
对通过标签识别出的综合能源服务高潜力客户与通过模型识别出的综合能源服务潜力客户取交集,相互评估标签识别结果与模型预测结果的一致性,如图2所示。
(4)识别结果验证
针对上述高潜力客户,将进一步开展线下核对验证,考察其是否真实具备开展综合能源服务的必要性,并核查其是否在综合能源服务的客户名单中。
通过本步骤,对于模型识别、评估出来的结果,在没有实际做过综合能源服务的客户做参照对比验证时,可选择通过标签识别辅助判断,标签识别与模型识别的交集客户可信度更高;而有实际做过综合能源服务的参照客户进行比对验证时,开展线下对比校验。
实施例2
本实施例与实施例1基于相同的发明构思,提供的是综合能源服务潜力客户识别系统,具体包括以下模块:
数据获取模块,用于获取高压用电客户的相关数据;
数据处理模块,用于根据所获取的相关数据,通过客户属性特征和用电特征对高压用电客户进行初步筛选;再依据构建潜力客户识别模型所需指标,对每个行业小类单独建立模型,在相同行业小类范围内识别综合能源服务潜力客户,对高压用电客户的范围进一步筛选细分;
特征工程模块,利用特征工程技术对数据处理模块处理后的高压用电客户的原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;利用机器学习算法构建并训练潜力客户识别模型,评估各应用场景的潜力客户;
特征标签构建模块,基于综合能源服务潜力客户的实际应用场景,结合数据情况,构建综合能源服务潜力客户特征标签,并形成客户画像;
识别模型构建模块,结合当前可获取数据情况,采用PCA主分量分析方法构建潜力客户识别模型,对每个高压用电客户的特征指标进行特征转换,利用特征转换后的综合得分对高压用电客户的综合能源服务潜力进行评价,对综合得分进行加权计算,根据加权计算后的总体评分排名对潜力客户进行识别;
所述PCA主分量分析方法通过非线性映射将数据转换到一个高维空间中,在高维空间中将数据再映射到另一个低维空间中,并通过线性分类器对样本进行划分;还通过核函数变换协方差矩阵,对非线性关系的原始数据进行特征转换降维。
在本实施例中,特征工程模块中特征选择的过程为:
对综合能源服务潜力客户所包括的每一个具有不同时间维度的特征指标,将该特征指标在每个时间维度的数据和其他多个时间维度的数据分别计算相关系数,保留相关系数求和最大的时间维度数据,作为用于模型识别的特征指标;
其中,采用改进后的相关系数计算公式计算相关系数p,改进后的相关系数计算公式为:
其中d i 表示特征指标X的第i个元素值与特征指标Y的第i个元素值排名位数的差值;N表示特征指标X、特征指标Y的元素数量。
特征工程模块通过特征缩放实现高维特征的降维转换,通过数据归一化和数据标准化实现特征缩放;
所采用的数据归一化公式为:
其中X i 是特征指标X的第i个元素值,Q 0.01表示特征指标X的0.01%分位数,Q 99.99表示特征指标X的99.99%分位数;
所采用的数据标准化公式为:
在本实施例中,识别模型构建模块通过核函数变换的协方差矩阵为:
本实施例中识别系统的各模块分别用于实现实施例1的各步骤,其详细过程参见实施例1,不赘述。
本实施例还提供计算机设备,包括存储器和处理器,存储器存储有计算机程序,当处理器执行计算机程序时实现实施例1所述潜力客户识别方法的各步骤。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.综合能源服务潜力客户识别方法,其特征在于,包括以下步骤:
S1、获取高压用电客户的相关数据;
S2、数据处理:根据所获取的相关数据,通过客户属性特征和用电特征对高压用电客户进行初步筛选;再依据构建潜力客户识别模型所需指标,对每个行业小类单独建立模型,在相同行业小类范围内识别综合能源服务潜力客户,对高压用电客户的范围进一步筛选细分;
S3、利用特征工程技术,对步骤S2处理后的高压用电客户的原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;利用机器学习算法构建并训练潜力客户识别模型,评估各应用场景的潜力客户;
S4、基于综合能源服务潜力客户的实际应用场景,结合数据情况,构建综合能源服务潜力客户特征标签,并形成客户画像;
S5、结合当前可获取数据情况,采用PCA主分量分析方法构建潜力客户识别模型,对每个高压用电客户的特征指标进行特征转换,利用特征转换后的综合得分对高压用电客户的综合能源服务潜力进行评价,对综合得分进行加权计算,根据加权计算后的总体评分排名对潜力客户进行识别;
所述PCA主分量分析方法通过非线性映射将数据转换到一个高维空间中,在高维空间中将数据再映射到另一个低维空间中,并通过线性分类器对样本进行划分;还通过核函数变换协方差矩阵,对非线性关系的原始数据进行特征转换降维。
2.根据权利要求1所述的综合能源服务潜力客户识别方法,其特征在于,步骤S3中衍生特征指标构建方式为:
通过电力数据描述统计分析,结合业务调研梳理结果及国网总部数据中台实际情况,运用数据探索的特征指标构建方法,从综合能源服务潜力待识别客户的用电规模、生产习惯、用电管理方面进行特征提取汇总,构建衍生特征指标。
6.根据权利要求2所述的综合能源服务潜力客户识别方法,其特征在于,衍生特征指标包括月均用电量、月用电量离散系数、季节用电差异、峰谷电量比、峰电量离散系数、峰电量占比、峰谷电量差异比、负荷差异比和平均负荷离散系数。
7.综合能源服务潜力客户识别系统,其特征在于,包括:
数据获取模块,用于获取高压用电客户的相关数据;
数据处理模块,用于根据所获取的相关数据,通过客户属性特征和用电特征对高压用电客户进行初步筛选;再依据构建潜力客户识别模型所需指标,对每个行业小类单独建立模型,在相同行业小类范围内识别综合能源服务潜力客户,对高压用电客户的范围进一步筛选细分;
特征工程模块,利用特征工程技术对数据处理模块处理后的高压用电客户的原始特征指标进行衍生特征指标构建,对重要指标进行特征选择,对高维特征进行降维转换,对潜在特征进行特征学习;利用机器学习算法构建并训练潜力客户识别模型,评估各应用场景的潜力客户;
特征标签构建模块,基于综合能源服务潜力客户的实际应用场景,结合数据情况,构建综合能源服务潜力客户特征标签,并形成客户画像;
识别模型构建模块,结合当前可获取数据情况,采用PCA主分量分析方法构建潜力客户识别模型,对每个高压用电客户的特征指标进行特征转换,利用特征转换后的综合得分对高压用电客户的综合能源服务潜力进行评价,对综合得分进行加权计算,根据加权计算后的总体评分排名对潜力客户进行识别;
所述PCA主分量分析方法通过非线性映射将数据转换到一个高维空间中,在高维空间中将数据再映射到另一个低维空间中,并通过线性分类器对样本进行划分;还通过核函数变换协方差矩阵,对非线性关系的原始数据进行特征转换降维。
8.根据权利要求7所述的综合能源服务潜力客户识别系统,其特征在于,特征工程模块中特征选择的过程为:
对综合能源服务潜力客户所包括的每一个具有不同时间维度的特征指标,将该特征指标在每个时间维度的数据和其他多个时间维度的数据分别计算相关系数,保留相关系数求和最大的时间维度数据,作为用于模型识别的特征指标;
其中,采用改进后的相关系数计算公式计算相关系数p,改进后的相关系数计算公式为:
其中d i 表示特征指标X的第i个元素值与特征指标Y的第i个元素值排名位数的差值;N表示特征指标X、特征指标Y的元素数量;
特征工程模块通过特征缩放实现高维特征的降维转换,通过数据归一化和数据标准化实现特征缩放;
所采用的数据归一化公式为:
其中X i 是特征指标X的第i个元素值,Q 0.01表示特征指标X的0.01%分位数,Q 99.99表示特征指标X的99.99%分位数;
所采用的数据标准化公式为:
10.计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述潜力客户识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279216.0A CN114372835B (zh) | 2022-03-22 | 2022-03-22 | 综合能源服务潜力客户识别方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279216.0A CN114372835B (zh) | 2022-03-22 | 2022-03-22 | 综合能源服务潜力客户识别方法、系统及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114372835A true CN114372835A (zh) | 2022-04-19 |
CN114372835B CN114372835B (zh) | 2022-06-24 |
Family
ID=81146685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210279216.0A Active CN114372835B (zh) | 2022-03-22 | 2022-03-22 | 综合能源服务潜力客户识别方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372835B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817511A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 基于核主成分分析的问答交互方法、装置及计算机设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682091A (zh) * | 2012-04-25 | 2012-09-19 | 腾讯科技(深圳)有限公司 | 基于云服务的视觉搜索方法和系统 |
CN108616545A (zh) * | 2018-06-26 | 2018-10-02 | 中国科学院信息工程研究所 | 一种网络内部威胁的检测方法、系统及电子设备 |
CN110264015A (zh) * | 2019-06-28 | 2019-09-20 | 国网河南省电力公司电力科学研究院 | 反窃电稽查监控方法及平台 |
CN110766438A (zh) * | 2019-08-22 | 2020-02-07 | 深圳供电局有限公司 | 一种通过人工智能对电网用户的用户行为进行分析的方法 |
CN111159243A (zh) * | 2019-12-30 | 2020-05-15 | 中国移动通信集团江苏有限公司 | 用户类型识别方法、装置、设备及存储介质 |
CN112184484A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种电力用户差异化服务方法及系统 |
CN112766550A (zh) * | 2021-01-08 | 2021-05-07 | 佰聆数据股份有限公司 | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 |
CN113139868A (zh) * | 2021-05-14 | 2021-07-20 | 南方电网科学研究院有限责任公司 | 一种基于用电大数据的客户信用评价及贷款潜力分析方法 |
WO2021164382A1 (zh) * | 2020-02-17 | 2021-08-26 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
CN113312531A (zh) * | 2021-04-22 | 2021-08-27 | 广州丰石科技有限公司 | 一种基于dpi解析与决策树模型的用户画像识别方法 |
CN113591899A (zh) * | 2021-06-10 | 2021-11-02 | 国网河北省电力有限公司营销服务中心 | 电力客户画像识别方法、装置及终端设备 |
CN113886372A (zh) * | 2021-09-08 | 2022-01-04 | 天元大数据信用管理有限公司 | 一种基于改进层次分析法的用户画像构建方法 |
-
2022
- 2022-03-22 CN CN202210279216.0A patent/CN114372835B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682091A (zh) * | 2012-04-25 | 2012-09-19 | 腾讯科技(深圳)有限公司 | 基于云服务的视觉搜索方法和系统 |
CN108616545A (zh) * | 2018-06-26 | 2018-10-02 | 中国科学院信息工程研究所 | 一种网络内部威胁的检测方法、系统及电子设备 |
CN110264015A (zh) * | 2019-06-28 | 2019-09-20 | 国网河南省电力公司电力科学研究院 | 反窃电稽查监控方法及平台 |
CN110766438A (zh) * | 2019-08-22 | 2020-02-07 | 深圳供电局有限公司 | 一种通过人工智能对电网用户的用户行为进行分析的方法 |
CN111159243A (zh) * | 2019-12-30 | 2020-05-15 | 中国移动通信集团江苏有限公司 | 用户类型识别方法、装置、设备及存储介质 |
WO2021164382A1 (zh) * | 2020-02-17 | 2021-08-26 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
CN112184484A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种电力用户差异化服务方法及系统 |
CN112766550A (zh) * | 2021-01-08 | 2021-05-07 | 佰聆数据股份有限公司 | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 |
CN113312531A (zh) * | 2021-04-22 | 2021-08-27 | 广州丰石科技有限公司 | 一种基于dpi解析与决策树模型的用户画像识别方法 |
CN113139868A (zh) * | 2021-05-14 | 2021-07-20 | 南方电网科学研究院有限责任公司 | 一种基于用电大数据的客户信用评价及贷款潜力分析方法 |
CN113591899A (zh) * | 2021-06-10 | 2021-11-02 | 国网河北省电力有限公司营销服务中心 | 电力客户画像识别方法、装置及终端设备 |
CN113886372A (zh) * | 2021-09-08 | 2022-01-04 | 天元大数据信用管理有限公司 | 一种基于改进层次分析法的用户画像构建方法 |
Non-Patent Citations (8)
Title |
---|
冯娟娟等: "基于客户画像和GBDT算法的客户价值预测方法", 《洛阳理工学院学报》 * |
冯娟娟等: "基于客户画像和GBDT算法的客户价值预测方法", 《洛阳理工学院学报》, vol. 28, no. 3, 30 September 2018 (2018-09-30) * |
李彦兆: "低压配电网拓扑模型构建及用户用电行为分析", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 * |
李彦兆: "低压配电网拓扑模型构建及用户用电行为分析", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》, no. 1, 15 January 2022 (2022-01-15) * |
林晓静等: "基于卷积神经网络与多维度电力大数据的信用评估系统", 《电测与仪表》 * |
林晓静等: "基于卷积神经网络与多维度电力大数据的信用评估系统", 《电测与仪表》, vol. 58, no. 11, 15 November 2021 (2021-11-15) * |
陈明等: "智慧用电管理系统中电力客户立体画像的构建与应用", 《计算技术与自动化》 * |
陈明等: "智慧用电管理系统中电力客户立体画像的构建与应用", 《计算技术与自动化》, vol. 39, no. 4, 31 December 2020 (2020-12-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817511A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 基于核主成分分析的问答交互方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114372835B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rajabi et al. | A comparative study of clustering techniques for electrical load pattern segmentation | |
CN110363387B (zh) | 基于大数据的画像分析方法、装置、计算机设备及存储介质 | |
Alzate et al. | Improved electricity load forecasting via kernel spectral clustering of smart meters | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
Benitez et al. | Dynamic clustering of residential electricity consumption time series data based on Hausdorff distance | |
CN111724278A (zh) | 一种面向电力多元负荷用户的精细分类方法及系统 | |
CN110782153A (zh) | 一种企业园区综合能效评估体系建模方法及系统 | |
Gajowniczek et al. | Electricity peak demand classification with artificial neural networks | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN113112090B (zh) | 基于综合互信息度的主成分分析的空间负荷预测方法 | |
CN116187640A (zh) | 一种基于网格多属性画像体系的配电网规划方法及装置 | |
CN104820942A (zh) | 一种基于层次聚类的电力市场交易评价标准测算方法 | |
Yiping et al. | An improved multi-view collaborative fuzzy C-means clustering algorithm and its application in overseas oil and gas exploration | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、系统及计算机设备 | |
WO2022137664A1 (ja) | データ分析システムおよび方法 | |
CN110851502B (zh) | 一种基于数据挖掘技术的负荷特征场景分类方法 | |
CN112508254A (zh) | 变电站工程项目投资预测数据的确定方法 | |
CN111798152A (zh) | 一种门店智能管理方法和装置 | |
Rodríguez-Gómez et al. | A novel clustering based method for characterizing household electricity consumption profiles | |
CN110852628A (zh) | 考虑发展模式影响的农村中长期负荷预测方法 | |
CN111797924B (zh) | 一种基于聚类算法的三维度园区画像方法及系统 | |
CN114581263A (zh) | 一种电网负荷分析方法、装置、电子设备及存储介质 | |
CN115358797A (zh) | 基于聚类分析法的综合能源用户用能行为分析方法、系统及存储介质 | |
CN114266593A (zh) | 一种基于kpca和线性回归的电力消费预测方法 | |
CN114091904A (zh) | 一种基于人工智能算法的企业迁移园区招商分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |