CN115587230B - 结合行业文本和用电负荷的高耗能企业识别方法及系统 - Google Patents
结合行业文本和用电负荷的高耗能企业识别方法及系统 Download PDFInfo
- Publication number
- CN115587230B CN115587230B CN202211164123.XA CN202211164123A CN115587230B CN 115587230 B CN115587230 B CN 115587230B CN 202211164123 A CN202211164123 A CN 202211164123A CN 115587230 B CN115587230 B CN 115587230B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- industry
- consumption
- electricity
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 113
- 238000005265 energy consumption Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000003860 storage Methods 0.000 claims description 17
- 238000009499 grossing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 description 8
- 239000004568 cement Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003723 Smelting Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- CWYNVVGOOAEACU-UHFFFAOYSA-N Fe2+ Chemical compound [Fe+2] CWYNVVGOOAEACU-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004939 coking Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003758 nuclear fuel Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
结合行业文本和用电负荷的高耗能企业识别方法及系统,首先通过已确定为高耗能行业的清单,进行高耗能行业标准库的建立。该行业标准库包括企业名称标准矩阵、企业产品标准库、企业用电曲线标准矩阵和企业用电特征标准库。完成标准库的建立后,获取待识别企业文本信息和用电信息,计算与标准库的相似度,获得四大类特征向量。将四大类特征向量加权求和,得到企业与各个行业之间的相似度总体得分。将该得分与阈值比较,判断企业是否从属于某个高耗能行业。该方法结合文本信息和用电信息,提供了更加可靠精准的企业识别判定结果。
Description
技术领域
本发明属于智能电网技术领域,具体涉及到一种结合文本信息和企业用电负荷对高耗能企业进行识别的技术。
背景技术
随着电力市场化改革的进一步推进,市场交易电价的浮动范围进一步扩大,尤其是高耗能企业的交易电价不受限,高价低接问题将愈演愈烈,如何识别隐蔽的高耗能企业并对其用电行为展开监管成为供电公司面临的一大难题。
目前针对行业识别的方法主要有基于文本信息和基于用电数据两大类,其中中国专利CN202111372067.4《一种基于文本相似度的企业行业识别系统及识别方法》通过一种基于文本相似度的方法对企业行业进行识别,扩充企业社会信用代码后和国民经济行业分类数据进行相似度对比。然而仅通过文本信息判断,对于一些只负责同类产品中的一个子环节的企业容易误识别。中国专利CN201610855290.7《关键用电行业识别方法和系统》通过获取预设时间段内待测区域中的各个行业的用电量统计数据,根据各个行业的用电量统计数据,运用聚类分析对各个行业进行用电分类,得到各个行业所属的用电行业类别。然而仅通过电量判断,对于运用相似的设备生产不同产品的企业易出现识别偏差。
发明内容
为解决现有技术中的不足,本发明提供了一种结合行业文本和用电负荷的企业识别方法,该方法通过已确定为高耗能行业的清单,建立企业产品标准库和企业用电标准库,然后对一个待辨识的企业通过文本和用电特征与标准库的对比进行识别,判断该企业是否属于某个高耗能行业。
本发明采用如下的技术方案。
一种结合行业文本和用电负荷的高耗能企业识别方法,如图1所示,包括以下步骤:
步骤1,获取明确行业类型的企业清单;
步骤2,建立企业产品标准库;
步骤3,建立企业用电标准库;
步骤4,获取企业名称、产品、用电信息;
步骤5,计算该企业名称与标准信息中的余弦相似,得到名称相似度矩阵;
步骤6,计算该企业涉及的产品与标准库中产品向量乘积,得到产品重合度矩阵;
步骤7,计算该企业的用电负荷曲线与标准库中负荷曲线的动态时间规整值,得到曲线相似度矩阵;
步骤8,计算该企业用电特征和标准库中各行业用电特征的最近距离,得到特征相似矩阵;
步骤9,通过赋予不同特征权重,将上述结果融合,结合判别规则,对该企业进行是否为高耗能企业进行识别。
优选地,步骤2包括以下步骤:
步骤2.1,针对六大高耗能行业分别选取出具有代表性的企业名称,形成企业名称标准;
步骤2.2,针对六大高耗能行业涉及的产品,构建各个行业的产品频度字典;
步骤2.1中,获取该行业下的所有企业名;针对其中每个企业名称计算其与剩余企业名称之间的文本相似度;分别计算每个企业名称与其他企业名称的文本相似度之和,将其作为衡量该企业名称与整体的关联性指标;
其中,Ri表示企业i与整体关联度;M是该行业下企业总数量-1;sij表示企业i与企业j之前的名称相似度;
将各个企业的R值排序,选取前N个相似度最大的企业名称作为该行业下的具有代表性的企业名称;对每个行业重复以上步骤,最终得到分别对应每个行业的字典,该字典存储了对应行业涉及的产品及其概率值。
步骤2.2中,获取该行业下,各个企业所涉及的产品信息;遍历该行业下,每个企业涉及的每个产品,对应产品的数量加1,形成该行业所涉及的所有产品,以及产品出现的次数的一个对应关系;将上述得到的每个产品出现的次数除以所有产品出现的次数和,得到各个产品对应的概率;对每个行业重复以上步骤,最终得到分别对应每个行业的字典,该字典存储了对应行业涉及的产品及其概率值。
优选地,步骤3包括以下步骤:
步骤3.1,建立企业用电负荷曲线标准库;
步骤3.2,建立企业的用电特征标准库。对每个行业的每家企业计算尖峰个数、大波动率个数、峰谷占比、日负荷率、日最小负荷率。然后将同一个行业的各家企业的特征值求平均,作为用电特征库的元素。该用电特征库是一个6*5的矩阵,行对应6个行业,列对应5个特征值。
步骤3.1中,对每个行业下所有企业的用电负荷曲线进行平滑和归一化处理;计算每个处理后的负荷曲线与剩余其他负荷曲线之间的动态时间规整值;将每个负荷曲线与其他负荷曲线的动态时间规整值求和,作为衡量负荷曲线的典型性值,选取前N个典型值最大的作为该行业下的代表。
优选地,步骤4包括以下步骤:
步骤4.1根据企业名称搜索企业网站、上市公司发布的主营业务构成信息获取该企业相关产品信息;
步骤4.2获取企业的用电负荷曲线,然后进行平滑处理和归一化处理;
步骤4.3根据企业的用电信息分别计算企业用电五大特征值。
优选地,步骤5包括以下步骤:
步骤5.1将该企业名称与6*N的企业名称标准矩阵逐一计算两两之间的相似度值,得到下面的相似度矩阵;
步骤5.2将每个行业的相似度向量Si中取其最大值作为该行业名称相似度得分,如下公式。
优选地,步骤6包括以下步骤:
步骤6.1,对于该企业的产品信息,对比各个行业的产品标准字典,得到匹配向量C,其中ci的值为0或者1,1代表着字典中第i个产品存在在该企业中,0代表着字典中第i个产品不在该企业涉及的范围内;
步骤6.2,每个行业都有一个产品字典P,代表着该行业涉及的K种产品及其概率值,计算P乘以C后,求和就得到该行业的产品相似度得到Mj,公式如下:
步骤6.3,对于6个行业分别进行上述的计算,得到各个行业下的产品相似度得分。
优选地,步骤7中,
分别计算该企业负荷曲线与矩阵中对应的每个代表企业的负荷曲线的动态时间规整值,然后取N个中的最大值作为该行业的得分,得到负荷曲线得分;
其中该企业负荷曲线是一个向量E=[e1,e2,e3...et],分别代表t个时刻的负荷值。用电标准矩阵其中每个元素Q都代表这一个向量,和E形式一致计算用电标准中的每个Q与E的动态时间规整值,得到/>然后计算各个行业中的最大值
优选地,步骤9包括以下步骤:
步骤9.1,根据上述四大类特征得分,分别赋予不同的权重,分别为w1,w2,w3,w4,权重值代表四类特征对于衡量分类结果的重要度,四类特征分别为名称、产品、用电曲线和用电特征;根据当前数据判断,四个因素的重要度排序分别为名称、用电曲线、用电特征和产品,故权重值可定义为[1,0.4,0.8,0.6],最终得到T1,T2,T3,T4,T5,T6分别代表着该企业和六大行业之间的相似度总体得分;
步骤9.2,设定阈值T,取六大行业最终得分中的最大值,如果该最大值大于阈值T,则识别该企业从属于对应的行业;若不满足,则该企业不属于六大高耗能行业中的任意一个。
一种结合行业文本和用电负荷的高耗能企业识别系统,包含高耗能行业标准库建立模块和高耗能企业识别模块,其特征在于:
高耗能行业标准库建立模块完成建立企业产品标准库和企业用电标准库的功能;其中企业产品标准库包括企业名称和企业产品,企业用电标准库包括企业用电负荷曲线和用电特征,具体来说,用电特征又包括:尖峰个数、大波动率个数、峰谷占比、日负荷率和日最小负荷率;
高耗能企业识别模块基于标准库建立模块的结果,计算与已建立的标准库的相似度,包括名称、产品、用电负荷曲线和用电特征,分别赋予不同特征权重并加权求和,最终结合判别规则,对企业进行高耗能识别;
所述高耗能行业标准库建立模块和高耗能企业识别模块是前后时序连接关系。高耗能行业标准库中的企业产品标准和企业用电标准是并列关系;企业识别模块中的四大类识别之间也是并列关系。
与现有技术相比,本发明的有益效果在于:
1、通过文本信息明确该企业涉及的产品类型,再结合其用电信息,进一步明确该企业是这类产品的主要生产环节,最终给出更加精准的识别结果;
2、通过已有高耗能企业清单,建立高耗能企业的行业标准库,标准库包括企业产品标准库和用电标准库。通过建立标准库,提供更加可靠的识别依据。
3、在识别方法中,通过动态时间规整(DTW)方法对比用电负荷曲线,能够有效避免时间周期不对齐引起的误差。
附图说明
图1是高耗能企业标准库指标示意图;
图2是本发明结合行业文本和用电负荷的高耗能企业识别方法流程图;
图3是平滑处理前后对比图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例,而不是全部实施例。基于本发明精神,本领域普通技术人员在没有作出创造性劳动前提下所获得的有所其它实施例,都属于本发明的保护范围。
本发明的实施例1提供了一种结合行业文本和用电负荷的高耗能企业识别方法,包括以下步骤:
本发明利用企业文本信息和用电负荷对高耗能行业进行识别,主要包含两部分,首先通过已确定为高耗能行业的清单,进行高耗能行业标准库的建立;然后对一个待识别的企业通过文本和用电特征与标准库的对比进行识别。所述高耗能行业标准库的建立,主要包括以下步骤:
步骤1,获取明确行业类型的企业清单。
目前根据国家现行政策规定,高耗能行业包括《国民经济行业用电分类标准》中的化学原料及化学制品制造业、非金属矿物制品业、黑色金属冶炼及压延加工业、有色金属冶炼及压延加工业、石油加工炼焦及核燃料加工业、电力热力的生产和供应业共计六大高耗能行业及其子类。
步骤2,建立企业产品标准库。
如图1所示,企业产品标准库,主要涉及行业文本信息,具体包括企业名称和企业产品信息,其中产品信息主要来源于企业网站、上市公司发布的主营业务构成信息。
步骤2.1,针对六大高耗能行业分别选取出具有代表性的企业名称,形成企业名称标准,具体包括以下步骤:
步骤2.1.1,获取该行业下的所有企业名称;
步骤2.1.2,针对其中每个企业名称计算其与剩余企业名称之间的文本相似度,值得注意的是,这里的文本相似度可以以多种形式实现,包括用基于词向量的余弦距离,欧式距离等,也可以是基于字符的编辑距离等。本发明给出的优选实施例以欧式距离为实施方式。然而,这仅是一种优选但非限制性的实施方式,本领域的技术人员在本发明的精神之下,可以以其他任意形式得到文本相似度,均属于本发明的保护范围之内。
其中A,B分别代表两个文本的向量表示,ai是向量A中的第i个值。
例如,计算文本“水泥产品制造”和“水泥制造厂”之间的相似度。首先对文本进行分词处理【水泥,产品,制造】和【水泥,制造,厂】涉及的词库为【水泥,产品,制造,厂】,那么这里的N=4。
向量A=[1,1,1,0],向量B=[1,0,1,1]
步骤2.1.3,分别计算每个企业名称与其他企业名称的文本相似度之和,将其作为衡量该企业名称与整体的关联性指标;
其中,Ri表示企业i与整体关联度;M是该行业下企业总数量-1;sij表示企业i与企业j之前的名称相似度。
步骤2.1.4,将各个企业的R值排序,选取前N个相似度最大的企业名称作为该行业下的具有代表性的企业名称。
步骤2.1.5,对每个行业实施后,将获得一个6*N的企业名称标准矩阵,代表着6个行业,每个行业有N个代表企业。
步骤2.2针对六大高耗能行业涉及的产品,构建各个行业的产品频度字典,具体包括以下步骤:
步骤2.2.1,获取该行业下,各个企业所涉及的产品信息;
步骤2.2.2,遍历该行业下,每个企业涉及的每个产品,对应产品的数量加1,形成该行业所涉及的所有产品,以及产品出现的次数的一个对应关系;
步骤2.2.3,将上述得到的每个产品出现的次数除以所有产品出现的次数和,得到各个产品对应的概率;
步骤2.2.4,对每个行业重复以上步骤,最终得到分别对应每个行业的字典,该字典存储了对应行业涉及的产品及其概率值。
步骤3建立企业用电标准库
行业用电标准库,主要包括用电负荷曲线和用电特征,其中用电特征包括尖峰个数、大波动率个数、峰谷占比、日负荷率和日最小负荷率。下面详述各个特征的含义。
步骤3.1,建立企业用电负荷曲线标准库
由于各个企业的用电负荷曲线的数量级差异较大,为了更好的反映其用电特征的对比,将对其负荷曲线进行归一化和滑动平均,减少波动带来的影响,并且周期性的负荷曲线易出现分析对比时间窗口的差异,即存在对比的两个序列之间的长度差异,故采用DTW(Dynamic Time Warping,动态时间规整)方法衡量负荷曲线之间的相似度。
步骤3.1.1,对每个行业下所有企业的用电负荷曲线进行数据处理,例如但不限于平滑处理和归一化处理
1)序列的平滑处理
时序数据中通常有很明显的随机或误差成分,为了辨明数据中的规律性,画出一条平滑的曲线,该曲线消除或减弱时序中不规则和其他变动,呈现现象的长期趋势,简单移动平均是一种常见的平滑方法,图3展示了窗口大小为3的平均移动前后的效果对比。
2)归一化处理
为了减少不同数量级用电负荷的影响,故需要对用电负荷按照下面的公式进行标准化,其中xi是标准化之前的负荷大小,xi′是归一化之后的负荷大小,xmin是该负荷曲线中的最小负荷,xmax是负荷曲线中的最大负荷。
步骤3.1.2,计算每个处理后的负荷曲线与剩余其他负荷曲线之间的DTW值;
步骤3.1.3,将每个负荷曲线与其他负荷曲线的DTW值求和,作为衡量负荷曲线的典型性值,选取前N个典型值最大的作为该行业下的代表。
步骤3.1.4,对每个行业重复上述步骤,得到一个6*N的企业负荷曲线标准矩阵。行数表明是6个行业,列数表明是每个行业的N个企业负荷曲线代表。
步骤3.2,建立企业的用电特征标准库。对每个行业的每家企业计算尖峰个数、大波动率个数、峰谷占比、日负荷率、日最小负荷率。然后将同一个行业的各家企业的特征值求平均,作为用电特征库的元素。该用电特征库是一个6*5的矩阵,行对应6个行业,列对应5个特征值。
所述的五个特征值的计算方法定义为:
1)尖峰个数
波峰的判断可以依据如下的公式,如果t时刻的电流值大于其左右两边的数值,则认为t时刻为一个峰值,并且可以通过m,n控制峰值的大小。因为电流曲线并不是完全的直线,有一定范围内的小幅度变化,如果变化没有同时大于阈值,则不认为是一个峰值。这里的阈值就是mpt-1和npt+1,即m倍的左值和n倍的右值。假设m和n均取值3,则代表t时刻的电流值必须同时大于左右两边电流值的3倍,才认为t时刻是一个尖峰时刻。否则就是一个波动。
mpt-1<pt>npt+1
2)大波动率个数
波动率的定义为前后电流的变化差值的绝对值与最大最小电流差值的比值。这里的大波动个数一般指大于指定阈值的波动率。
3)峰谷占比
峰谷用电是一个企业用电行为十分重要的特征,通过峰谷用电占比,可以知道企业的经营习惯等。
4)负荷指标
负荷特性指标主要有日负荷率γ、日最小负荷率β等。
其中pa是日负荷曲线的平均值,pmin是日负荷曲线的最小负荷,pmax是日负荷曲线的最大负荷。
上述所有步骤完成后,就建立好了代表高耗能企业的标准库,包括四大部分,分别是企业名称标准矩阵、企业产品标准库,企业用电负荷曲线标准矩阵和企业用电特征标准库。
建立完企业用电负荷标准库后,下面详述高耗能企业的识别过程,主要有以下几个步骤:
步骤4获取待识别企业信息,包括企业名称、企业产品信息和企业用电信息;
步骤4.1根据企业名称搜索企业网站、上市公司发布的主营业务构成信息获取该企业相关产品信息;
步骤4.2获取企业的用电负荷曲线,然后进行平滑处理和归一化处理;
步骤4.3根据企业的用电信息分别计算企业用电五大特征值;
步骤5计算该企业名称与企业名称标准矩阵的余弦相似,得到名称相似度得分;
步骤5.1将该企业名称与6*N的企业名称标准矩阵逐一计算两两之间的相似度值,得到下面的相似度矩阵;
步骤5.2将每个行业的相似度向量Si中取其最大值作为该行业名称相似度得分,如下公式。
步骤6计算该企业涉及的产品与企业产品标准库的向量乘积,得到产品重合度得分;
步骤6.1对于该企业的产品信息,对比各个行业的产品标准字典,得到匹配向量C,其中ci的值为0或者1,1代表着字典中第i个产品存在在该企业中,0代表着字典中第i个产品不在该企业涉及的范围内;
步骤6.2每个行业都有一个产品字典P,代表着该行业涉及的K种产品及其概率值,计算P乘以C后,求和就得到该行业的产品相似度得到Mj,公式如下。
步骤6.3对于6个行业分别进行上述的计算,得到各个行业下的产品相似度得分。
步骤7计算该企业的用电负荷曲线与企业用电曲线标准矩阵的DTW值,得到曲线相似度得分;
企业用电曲线标准矩阵与名称标准矩阵一样是6*N的矩阵,分别计算该企业负荷曲线与矩阵中对应的每个代表企业的负荷曲线的DTW值,然后取N个中的最大值作为该行业的得分,最终得到如下的负荷曲线得分;
其中该企业负荷曲线是一个向量E=[e1,e2,e3...et],分别代表t个时刻的负荷值。用电标准矩阵其中每个元素Q都代表这一个向量,和E形式一致计算用电标准中的每个Q与E的DTW值,得到/>然后计算各个行业中的最大值
步骤8计算该企业用电特征和企业用电特征标准库中各行业用电特征的最近距离,得到特征相似度得分。该步骤与步骤4相似,区别是上面的负荷曲线变成特征向量,计算相似度方式由DTW变成距离度量,可以是余弦距离、欧式距离等,值得注意的是,这里的相似度计算方式可以以多种形式实现,包括余弦距离,欧式距离等,本发明给出的优选实施例以余弦相似度为实施方式。然而,这仅是一种优选但非限制性的实施方式,本领域的技术人员在本发明的精神之下,可以以其他任意形式得到文本相似度,均属于本发明的保护范围之内。
余弦相似度公式如下:
企业用电特征标准库是一个6*5的矩阵,代表6个行业的5个特征值。5个特征值分别为尖峰个数、大波动率个数、峰谷占比、日负荷率和日最小负荷率。
其中以行业1为例,假设其标准特征库的值如下a=[3,1,0.7,0.3,0.1]
待分类企业的标准特征库值为b=[3,2,0.6,0.4,0.2]
对6个行业,分别进行该计算,就可以得到最终得分。
最终得到的特征得分如下。
步骤9通过赋予不同特征权重,将上述结果融合,结合判别规则,对该企业进行是否为高耗能企业进行识别。
步骤9.1根据上述四大类特征的最终得分,分别赋予不同的权重,分别为w1,w2,w3,w4,权重值代表四类特征对于衡量分类结果的重要度,四类特征分别为名称、产品、用电曲线和用电特征。根据当前数据判断,四个因素的重要度排序分别为名称、用电曲线、用电特征和产品,故权重值可定义为[1,0.4,0.8,0.6],最终得到T1,T2,T3,T4,T5,T6分别代表着该企业和六大行业之间的相似度总体得分。
步骤9.2,设定阈值T,取六大行业最终得分中的最大值,如果该最大值大于阈值T,则识别该企业从属于对应的行业;若不满足,则该企业不属于六大高耗能行业中的任意一个。阈值T是通过选取一定量的非六大类高耗能行业的企业,对其进行该方法的识别得到的得分,取其平均值作为阈值。
本发明的实施例2提供了一种结合行业文本和用电负荷的高耗能企业识别系统,包含高耗能行业标准库建立模块和高耗能企业识别模块。
高耗能行业标准库建立模块完成建立企业产品标准库和企业用电标准库的功能;其中企业产品标准库包括企业名称和企业产品,企业用电标准库包括企业用电负荷曲线和用电特征,具体来说,用电特征又包括:尖峰个数、大波动率个数、峰谷占比、日负荷率和日最小负荷率。
高耗能企业识别模块基于标准库建立模块的结果,计算与已建立的标准库的相似度,包括上述的四大类,名称、产品、用电负荷曲线和用电特征,分别赋予不同特征权重并加权求和,最终结合判别规则,对企业进行高耗能识别。所述高耗能行业标准库建立模块和高耗能企业识别模块是前后时序连接关系。高耗能行业标准库中的企业产品标准和企业用电标准是并列关系;企业识别模块中的四大类识别之间也是并列关系。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (11)
1.结合行业文本和用电负荷的高耗能企业识别方法,其特征在于,包括以下步骤:
步骤1,获取明确高耗能行业类型的企业清单;
步骤2,建立企业产品标准库,企业产品标准库包括企业名称标准矩阵和各高耗能行业的产品频度字典;
步骤2.1,针对六大高耗能行业的各个企业的关联性指标排序,选取一定数量关联性指标最大的企业名称作为该行业下具有代表性的企业名称,形成企业名称标准矩阵;获取该行业下的所有企业名;针对其中每个企业名称计算其与剩余企业名称之间的文本相似度;分别计算每个企业名称与其他企业名称的文本相似度之和,将其作为衡量该企业名称与整体的关联性指标;
其中,Ri表示企业i与整体关联度;M表示该行业下的企业总数量;sij表示企业i与企业j之前的名称相似度;
将各个企业的R值排序,选取前N个相似度最大的企业名称作为该行业下的具有代表性的企业名称;
对每个行业实施后,将获得一个6*N的企业名称标准矩阵,代表着6个行业,每个行业有N个代表企业;
步骤2.2,针对六大高耗能行业涉及的产品,构建各个行业的产品频度字典;
步骤3,建立企业用电标准库,企业用电标准库包括企业用电负荷曲线标准矩阵和企业用电特征标准库;
步骤3包括以下步骤:
步骤3.1,建立企业用电负荷曲线标准矩阵;
步骤3.2,建立企业的用电特征标准库;对每个行业的每家企业计算5个特征值,包括尖峰个数、大波动率个数、峰谷占比、日负荷率和日最小负荷率,然后将同一个行业的各家企业的特征值求平均,作为用电特征库的元素,该用电特征标准库是一个6*5的矩阵,行对应6个行业,列对应5个特征值;
步骤4,获取企业名称、产品、用电信息;
步骤5,计算该企业名称与企业名称标准矩阵中的余弦相似度,得到名称相似度矩阵;
步骤6,计算该企业涉及的产品与各高耗能行业的产品频度字典中产品向量乘积,得到产品重合度矩阵;
步骤7,计算该企业的用电负荷曲线与企业用电负荷曲线标准矩阵中负荷曲线的动态时间规整值,得到曲线相似度矩阵;
步骤8,计算该企业用电特征和企业用电特征标准库中各高耗能行业用电特征的最近距离,得到特征相似矩阵;
步骤9,通过赋予不同特征权重,将名称、产品、用电曲线和用电特征融合,计算该企业与各高耗能行业之间的相似度总分中的最大值,并与阈值T进行比较,对该企业进行是否为高耗能企业进行识别。
2.根据权利要求1所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤2.2中,获取该行业下,各个企业所涉及的产品信息;遍历该行业下,每个企业涉及的每个产品,对应产品的数量加1,形成该行业所涉及的所有产品,以及产品出现的次数的一个对应关系;将上述得到的每个产品出现的次数除以所有产品出现的次数和,得到各个产品对应的概率;对每个行业重复以上步骤,最终得到分别对应每个行业的字典,该字典存储了对应行业涉及的产品及其概率值。
3.根据权利要求2所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤3.1中,对每个行业下所有企业的用电负荷曲线进行平滑和归一化处理;计算每个处理后的负荷曲线与剩余其他负荷曲线之间的动态时间规整值;将每个负荷曲线与其他负荷曲线的动态时间规整值求和,作为衡量负荷曲线的典型性值,选取前N个典型值最大的作为该行业下的代表。
4.根据权利要求1所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤4包括以下步骤:
步骤4.1根据企业名称搜索企业网站、上市公司发布的主营业务构成信息获取该企业相关产品信息;
步骤4.2获取企业的用电负荷曲线,然后进行平滑处理和归一化处理;
步骤4.3根据企业的用电信息分别计算企业用电五大特征值。
5.根据权利要求1所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤5包括以下步骤:
步骤5.1将该企业名称与6*N的企业名称标准矩阵逐一计算两两之间的相似度值,得到下面的相似度矩阵;
步骤5.2将每个行业的相似度向量Si中取其最大值作为该行业名称相似度得分,如下公式:
6.根据权利要求1所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤6包括以下步骤:
步骤6.1,对于该企业的产品信息,对比各个行业的产品标准字典,得到匹配向量C,其中ci的值为0或者1,1代表着字典中第i个产品存在在该企业中,0代表着字典中第i个产品不在该企业涉及的范围内;
步骤6.2,每个行业都有一个产品字典P,代表着该行业涉及的K种产品及其概率值,计算P乘以C后,求和就得到该行业的产品相似度得到Mj,公式如下:
步骤6.3,对于6个行业分别进行上述的计算,得到各个行业下的产品相似度得分,如下公式:
7.根据权利要求1所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤7中,
分别计算该企业负荷曲线与矩阵中对应的每个代表企业的负荷曲线的动态时间规整值,然后取N个中的最大值作为该行业的得分,得到负荷曲线得分;
其中该企业负荷曲线是一个向量E=[e1,e2,e3...et],分别代表t个时刻的负荷值,用电标准矩阵其中每个元素Q都代表这一个向量,和E形式一致计算用电标准中的每个Q与E的动态时间规整值,得到/>
然后计算各个行业中的最大值
8.根据权利要求1所述的结合行业文本和用电负荷的高耗能企业识别方法,其特征在于:
步骤9包括以下步骤:
步骤9.1,根据上述四大类特征得分,分别赋予不同的权重,分别为w1,w2,w3,w4,权重值代表四类特征对于衡量分类结果的重要度,四类特征分别为名称、产品、用电曲线和用电特征;根据当前数据判断,四个因素的重要度排序分别为名称、用电曲线、用电特征和产品,故权重值可定义为[1,0.4,0.8,0.6],最终得到T1,T2,T3,T4,T5,T6分别代表着该企业和六大行业之间的相似度总体得分;
步骤9.2,设定阈值T,取六大行业最终得分中的最大值,如果该最大值大于阈值T,则识别该企业从属于对应的行业;若不满足,则该企业不属于六大高耗能行业中的任意一个。
9.结合行业文本和用电负荷的高耗能企业识别系统,包含高耗能行业标准库建立模块和高耗能企业识别模块,其特征在于:
高耗能行业标准库建立模块完成建立企业产品标准库和企业用电标准库的功能;其中企业产品标准库包括企业名称和企业产品,企业用电标准库包括企业用电负荷曲线和用电特征,具体来说,用电特征又包括:尖峰个数、大波动率个数、峰谷占比、日负荷率和日最小负荷率;
高耗能企业识别模块基于标准库建立模块的结果,计算与已建立的标准库的相似度,包括名称、产品、用电负荷曲线和用电特征,通过赋予不同特征权重,将名称、产品、用电曲线和用电特征融合,计算该企业与各高耗能行业之间的相似度总分中的最大值,并与阈值T进行比较,对该企业进行是否为高耗能企业进行识别;
所述高耗能行业标准库建立模块和高耗能企业识别模块是前后时序连接关系;高耗能行业标准库中的企业产品标准和企业用电标准是并列关系;企业识别模块中的四大类识别之间也是并列关系。
10.一种终端,包括处理器及存储介质;其特征在于:
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-8任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211164123.XA CN115587230B (zh) | 2022-09-23 | 2022-09-23 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211164123.XA CN115587230B (zh) | 2022-09-23 | 2022-09-23 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115587230A CN115587230A (zh) | 2023-01-10 |
CN115587230B true CN115587230B (zh) | 2024-04-12 |
Family
ID=84778018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211164123.XA Active CN115587230B (zh) | 2022-09-23 | 2022-09-23 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587230B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651630A (zh) * | 2016-09-27 | 2017-05-10 | 中国南方电网有限责任公司电网技术研究中心 | 关键用电行业识别方法和系统 |
JP6346367B1 (ja) * | 2017-11-07 | 2018-06-20 | 株式会社Fronteoヘルスケア | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
CN112950405A (zh) * | 2021-02-05 | 2021-06-11 | 国网浙江省电力有限公司杭州供电公司 | 基于电力数据的企业用电情况的监测方法及装置 |
CN113222339A (zh) * | 2021-04-07 | 2021-08-06 | 国网江苏省电力有限公司营销服务中心 | 基于计量全景数据的同类型企业用能差异分析方法及系统 |
CN113705229A (zh) * | 2021-08-24 | 2021-11-26 | 国网江苏省电力有限公司营销服务中心 | 基于电力大数据的高危企业违规生产识别方法 |
CN114090736A (zh) * | 2021-11-18 | 2022-02-25 | 西南科技大学 | 一种基于文本相似度的企业行业识别系统及识别方法 |
KR102428448B1 (ko) * | 2022-05-10 | 2022-08-01 | 이상현 | 인공지능 기반 전기 사용 시설의 계약 전력 최적화 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914090B (zh) * | 2020-08-18 | 2021-05-04 | 生态环境部环境规划院 | 一种企业行业分类识别及其特征污染物识别的方法及装置 |
-
2022
- 2022-09-23 CN CN202211164123.XA patent/CN115587230B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651630A (zh) * | 2016-09-27 | 2017-05-10 | 中国南方电网有限责任公司电网技术研究中心 | 关键用电行业识别方法和系统 |
JP6346367B1 (ja) * | 2017-11-07 | 2018-06-20 | 株式会社Fronteoヘルスケア | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
CN112950405A (zh) * | 2021-02-05 | 2021-06-11 | 国网浙江省电力有限公司杭州供电公司 | 基于电力数据的企业用电情况的监测方法及装置 |
CN113222339A (zh) * | 2021-04-07 | 2021-08-06 | 国网江苏省电力有限公司营销服务中心 | 基于计量全景数据的同类型企业用能差异分析方法及系统 |
CN113705229A (zh) * | 2021-08-24 | 2021-11-26 | 国网江苏省电力有限公司营销服务中心 | 基于电力大数据的高危企业违规生产识别方法 |
CN114090736A (zh) * | 2021-11-18 | 2022-02-25 | 西南科技大学 | 一种基于文本相似度的企业行业识别系统及识别方法 |
KR102428448B1 (ko) * | 2022-05-10 | 2022-08-01 | 이상현 | 인공지능 기반 전기 사용 시설의 계약 전력 최적화 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN115587230A (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shah et al. | A comprehensive review on multiple hybrid deep learning approaches for stock prediction | |
CN107578149B (zh) | 一种电网企业关键数据分析方法 | |
WO2021139278A1 (zh) | 一种智能面试方法、装置及终端设备 | |
CN112785377B (zh) | 基于数据分布的订单完工期预测模型构建方法及预测方法 | |
CN111652667A (zh) | 一种企业主要相关自然人实体数据对齐方法 | |
CN111242387A (zh) | 一种人才离职预测方法、装置、电子设备及存储介质 | |
CN111191825A (zh) | 用户违约预测方法、装置及电子设备 | |
CN115587230B (zh) | 结合行业文本和用电负荷的高耗能企业识别方法及系统 | |
CN115422933B (zh) | 一种成本数据提取方法、装置、电子设备及存储介质 | |
Gu | Research on prediction of investment fund’s performance before and after investment based on improved neural network algorithm | |
Veall et al. | Performance measures from prediction-realization tables | |
Tao et al. | K‐Line Patterns’ Predictive Power Analysis Using the Methods of Similarity Match and Clustering | |
Yu et al. | Forecasting digital economy of China using an Adaptive Lasso and grey model optimized by particle swarm optimization algorithm | |
Wen | Application of Clustering Algorithm in Corporate Strategy and Risk | |
Chen | [Retracted] BP Neural Network Based on Simulated Annealing Algorithm Optimization for Financial Crisis Dynamic Early Warning Model | |
Lefort et al. | Can ChatGPT Compute Trustworthy Sentiment Scores from Bloomberg Market Wraps? | |
CN113190679A (zh) | 关系确定方法、装置、电子设备和存储介质 | |
Li et al. | A shape‐based clustering algorithm and its application to load data | |
Lin et al. | Can web news media sentiments improve stock trading signal prediction? | |
Chunlei et al. | The Workload Assessment of National Grid Big Data Projects Based on Content Recommendations and Text Classification | |
Liu et al. | The trading strategy of inflection point futures analysis based on AFS theory | |
Zhang et al. | Enterprise event risk detection based on supply chain contagion | |
CN116468271B (zh) | 一种基于大数据的企业风险分析方法、系统及介质 | |
CN112818031B (zh) | 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质 | |
CN114037057B (zh) | 预训练模型的生成方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |