CN111324642A - 一种面向电网大数据分析的模型算法选型与评价方法 - Google Patents

一种面向电网大数据分析的模型算法选型与评价方法 Download PDF

Info

Publication number
CN111324642A
CN111324642A CN202010194935.3A CN202010194935A CN111324642A CN 111324642 A CN111324642 A CN 111324642A CN 202010194935 A CN202010194935 A CN 202010194935A CN 111324642 A CN111324642 A CN 111324642A
Authority
CN
China
Prior art keywords
model
data
models
evaluation index
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010194935.3A
Other languages
English (en)
Inventor
王宏刚
纪鑫
刘识
赵晓龙
余婷
刘�文
李君婷
赵宇亮
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
Original Assignee
Big Data Center Of State Grid Corp Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China filed Critical Big Data Center Of State Grid Corp Of China
Publication of CN111324642A publication Critical patent/CN111324642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种面向电网大数据分析的模型算法选型与评价方法。该方法包括:获取电网业务数据;采用选型模型确定用于分析电网业务数据的模型的类别;采用同一类别中的不同模型分别处理电网业务数据,得到同一类别中不同模型的数据处理结果;根据数据处理结果,采用与当前模型类别对应的评价策略确定同一类别中各个模型的至少两个评价指标值;根据至少两个评价指标值由同一类别对应的至少两个模型中选择推荐模型;采用推荐模型进行数据分析。本发明实现根据电网业务数据快速确定数据分析需使用的模型的类别,并通过评价策略对所确定的类别中至少两个模型进行定量化评估,从至少两个模型中选择出推荐模型,提高模型推荐的准确性和科学性。

Description

一种面向电网大数据分析的模型算法选型与评价方法
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种面向电网大数据分析的模型算法选型与评价方法。
背景技术
大数据技术是目前国内外各行各业都在研究的一个热点项目。随着全球范围内大数据改变带来的技术挑战,我国也越来越重视大数据技术的实际运用。近年来,随着国家电网管理重点从集中、统一向精细、高效的转变,结合“互联网+”时代背景下信息技术的高速发展和各种数字化技术的广泛应用,国家电网与数字化技术的发展融合以成为趋势。大数据实现了对数据的集成、分析和处理,支持着国网企业相关业务的海量数据检索。大数据技术基于大量高维多变数据的视角,直接鲜明地展现出国网的统筹设计,将会更好的支撑电网的规划和发展。
大数据在电网中的应用蕴藏着巨大的商业价值和社会价值,挖掘电力大数据的价值面临巨大的机遇。智能电网基于数据和能源的同步传输,促进能源与信息技术的深度融合,逐渐形成以能源、数据为运行体系支撑下的坚强可靠、清洁环保、友好互动的能源管理网络。大数据电网的挖掘很好地实现了智能用电管理,大幅度提升能源效率。用户因此得以实时掌握用电性能、耗电数据、即时电价等,由此实现能源的二次循环和高效使用。电网统筹量大面广,资产管理难度较大,同时需要大量基础数据,这正是大数据的优势,利用大数据技术可实现配电网在资产管理体系、模型方法、信息交互等多方面的提升,以根本提高配电资产管理水平。另外,在数据来源方面,大部分数据的开放程度比较低,其获取存在一定难度。在数据质量方面,电力行业数据可获取的颗粒程度,数据获取的及时性、完整性和一致性等方面尚未达到理想水平,应继续完善和提升。
模型和算法是大数据分析中的两个核心问题。大数据分析模型的研究可以分为3个层次,即描述分析、预测分析和规范分析。描述分析探索历史数据,并描述发生了什么,这一层次包括发现数据规律的聚类、相关规则挖掘、模式发现和描述数据规律的可视化分析;预测分析用于预测未来的概率和趋势,例如基于逻辑回归的预测、基于分类器的预测等;规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议,例如基于模拟的复杂系统分析和基于给定约束的优化解生成。大数据分析算法的研究则针对特定的分析模型设计高效的算法,并研究如何提高算法的可扩展性、实时性等。电网大数据除了具有大数据的5V(即volume、velocity、variety、value、 veracity)特征,还具有诸多与电力生产特性密切相关的特征,如数据来源多样、数据质量低、数据蕴含信息复杂、耦合不确定、数据实时性高等,这使得电网大数据分析的模型更加复杂多样,对算法的实时性要求更高。
目前针对各种模型和算法都有一系列参数和指标可以进行算法评价和对比。但是在实际应用中,由于分析人员的技术背景参差不齐,若依赖分析人员进行模型选型、模型使用、参数配置及模型评价等,不能很好的保证模型选型的准确性和科学性,增加了模型在电网场景下的应用难度。
发明内容
本发明实施例提供一种面向电网大数据分析的模型算法选型与评价方法,可以提供自动化的模型选型及评价方案,简化了模型选型工作。
本发明实施例提供了一种面向电网大数据分析的模型算法选型与评价方法,包括:
获取电网业务数据;
采用选型模型确定用于分析所述电网业务数据的模型的类别,根据所述类别查询预先构建的模型算法库,得到与所述类别对应的至少两个采用不同算法构建的模型;
采用所述不同算法构建的模型分别处理所述电网业务数据,得到所述类别包含的至少两个模型的数据处理结果;
根据所述数据处理结果,采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值;
根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型,采用所述推荐模型进行数据分析。
可选的,采用选型模型确定用于分析所述电网业务数据的模型的类别,包括:
输入所述电网业务数据到选型模型,其中,所述选型模型通过带有模型类别标签的样本数据、经过监督式训练的方式构建;
获取所述选型模型输出的用于分析所述电网业务数据的模型的类别,其中,所述类别包括关联规则类、分类模型类、回归模型类和聚类模型类。
其中,在训练选型模型之前,还包括:
获取样本数据,将所述样本数据输入采用关联规则类、分类模型类、回归模型类和聚类模型类算法构建的选型模型,得到输出结果;
根据所述输出结果计算各个算法构建的选型模型的评价指标值,根据所述评价指标值为所述样本数据添加模型类别标签。
其中,所述评价策略包括:采用支持度和置信度作为评价指标,评价所述关联规则类的模型;采用查准率、查全率、F-score、正确率和ROC曲线作为评价指标,评价所述分类模型类的模型;采用误差平方和决定系数作为评价指标,评价所述回归模型类的模型;采用聚类趋势估计、数据集中的簇数和聚类质量作为评价指标,评价所述聚类模型类的模型。
可选的,所述根据所述数据处理结果,采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值,包括:
根据所述数据处理结果和所述类别对应的评价策略的评价指标的公式,计算所述类别包含的各个模型的评价指标值。
其中,采用如下公式计算支持度和置信度:
支持度=(X,Y).count/T.count;
置信度=(X,Y).count/X.count;
其中,(X,Y).count表示I同时包含X和Y的事务的个数,X.count表示I 中包含X的事务的个数,X,Y是I的真子集,并且X和Y的交集为空集。
采用如下公式计算查准率、查全率、F-score和正确率:
查准率
Figure RE-GDA0002473258450000041
查全率
Figure RE-GDA0002473258450000042
Figure RE-GDA0002473258450000043
正确率
Figure RE-GDA0002473258450000051
其中,TP表示所述数据处理结果中真实标签为1,预测标签为1的数量, FP表示所述数据处理结果中真实标签为0,预测标签为1的数量;FN表示所述数据处理结果中真实标签为1,预测标签为0的数量;TN表示所述数据处理结果中真实标签为0,预测标签为0的数量。
采用如下公式计算误差平方和决定系数:
Figure RE-GDA0002473258450000052
Figure RE-GDA0002473258450000053
聚类趋势估计评价。对于给定的数据集,评估该数据集是否存在非随机结构。盲目地在数据集上使用聚类方法将返回一些簇,所挖掘的簇可能是误导。数据集上的聚类分析是有意义的,仅当数据中存在非随机结构。聚类趋势评估确定给定的数据集是否具有可以导致有意义的聚类的非随机结构。一个没有任何非随机结构的数据集,如数据空间中均匀分布的点,尽管聚类算法可以为该数据集返回簇,但这些簇是随机的,没有任何意义。聚类要求数据的非均匀分布。常用的评价指标是霍普金斯统计量(Hopkins Statistic),属于一种空间统计量,用于检验空间分布的变量的空间随机性。计算步骤如下:
(1)均匀地从D的空间中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出 pi在D中的最近邻,并令xi为pi与它在D中的最近邻之间的距离,即
Figure RE-GDA0002473258450000054
(2)均匀地从D的空间中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出 qi在D-{qi}中的最近邻,并令yi为qi与它在D-{qi}中的最近邻之间的距离,即
Figure RE-GDA0002473258450000055
(3)计算霍普金斯统计量H:
Figure RE-GDA0002473258450000061
如果D是均匀分布的,则
Figure RE-GDA0002473258450000062
Figure RE-GDA0002473258450000063
将会很接近,H大约为0.5.而如果D是高度倾斜的,则
Figure RE-GDA0002473258450000064
将会显著小于
Figure RE-GDA0002473258450000065
因而H将会接近与0。
聚类簇数估计评价。K-均值这样的算法需要数据集的簇数作为参数,簇数也可以看作是数据集的有趣并且重要的概括统计量。因此,在使用聚类算法导出详细的簇之前,对簇数进行估计是可取的。常用的方法有肘方法和交叉验证法。
肘方法(elbow method)。给定k>0,使用像K-均值这样的算法对数据集聚类,并计算簇内方差和var(k)。然后,绘制var关于k的曲线。曲线的第一个(或最显著的)拐点暗示“正确的”簇数。
交叉验证法。将数据分为m部分;用m-1部分获得聚类模型,余下部分评估聚类质量(测试样本与类中心的距离和);对k>0重复m次,比较总体质量,选择能获得最好聚类质量的k。
聚类质量评估评价。在数据集上使用聚类方法之后,需要评估结果簇的质量。常用的两类方法为外在方法和内在方法。
外在方法。有监督的方法,需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。通常使用多种指标进行衡量。
(1)指标衡量法:
Jaccard系数(Jaccard Coefficient,JC):
Figure RE-GDA0002473258450000066
FM指数(Fowlkes and Mallows Index,FMI):
Figure RE-GDA0002473258450000071
Rand指数(Rand Index,RI):
Figure RE-GDA0002473258450000072
其中,a+b+c+d=m(m-1)/2。
上述性能度量的结果值均在[0,1]区间,值越大越好。
(2)质量度量法:用Q(C,Cg)表示聚类C在给定基准数据Cg条件下的质量度量。
Q的好坏取决于四个条件:
簇的同质性:簇内越纯越好。
簇的完整性:能够将基准数据中属于相同类的样本聚类为相同的类。
碎布袋:把一个异种数据加入纯类应该比放入碎布袋受到更大的“处罚”。
小簇的保持性:把小簇划分成更小簇比把大簇划分为小簇的危害更大。
BCubed精度和召回率:一个对象的精度指示同一个簇中有多少个其他对象与该对象同属一个类别。一个对象的召回率反映有多少同一类别的对象被分配在相同的簇中。
设D={o1,o2,...on}是对象的集合,C是D中的一个聚类。设L(oi)(1≤i≤n) 是基准确定的oi的类别,C(oi)是C中oi的cluster_ID,对于两个对象oi和oj(1 ≤i,j≤n,i≠j),它们之间在聚类C中的关系的正确性由
Figure RE-GDA0002473258450000073
Figure RE-GDA0002473258450000074
给出。
BCubed精度定义为:
Figure RE-GDA0002473258450000081
BCubed召回率定义为:
Figure RE-GDA0002473258450000082
对于无监督的方法,无需基准数据。直接评价类内聚集程度和类间离散程度。
考虑聚类结果的簇划分C={C1,C2,...,Ck},定义簇C内样本间的平均距离:
Figure RE-GDA0002473258450000083
簇C内样本间的最远距离:
diam(C)=max1≤i≤j≤|c|dist(xi,xj)
簇Ci与簇Cj最近样本间的距离:
Figure RE-GDA0002473258450000084
簇Ci与簇Cj中心点间的距离:
dcen(C)=dist(μij)
DB指数(Davies-Bouldin Index,DBI):
Figure RE-GDA0002473258450000085
Dunn指数(Dunn Index,DI):
Figure RE-GDA0002473258450000086
DBI值越小越好,而DI则相反,值越大越好。
轮廓系数(silhouette coefficient),对于D中的每个对象o,计算o与o所属的簇内其他对象之间的平均距离a(o):
Figure RE-GDA0002473258450000091
b(o)是o到不包含o的所有簇的最小平均距离:
Figure RE-GDA0002473258450000092
轮廓系数定义为:
Figure RE-GDA0002473258450000093
轮廓系数的值在-1和1之间。
a(o)的值反映o所属的簇的紧凑性。该值越小,簇越紧凑。
b(o)的值捕获o与其他簇的分离程度。b(o)的值越大,o与其他簇越分离。
当o的轮廓系数值接近1时,包含o的簇是紧凑的,并且o远离其他簇,这是一种可取的情况。当轮廓系数的值为负时,这意味在期望情况下,o距离其他簇的对象比距离与自己同在簇的对象更近,许多情况下,这很糟糕,表示聚类结果非常不好。
可选的,所述采用所述不同算法构建的模型分别处理所述电网业务数据,得到所述类别包含的至少两个模型的数据处理结果,包括:
将所述电网业务数据分别输入采用所述不同算法构建的模型,分别获取各个模型输出的数据处理结果。
可选的,根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型,包括:
在所述评价指标值均满足设定条件时,比较所述类别中不同模型的评价指标值,判断是否存在所述至少两个评价指标值均较高的模型;
若是,则将所述至少两个评价指标值均较高的模型作为推荐模型;
否则,根据评价指标的权重获取所述类别对应的评价策略中高权重评价指标值,比较所述类别中不同模型的所述高权重评价指标值,将所述高权重评价指标值最大的模型作为推荐模型。
本发明实施例的技术方案,通过获取电网业务数据;采用选型模型确定用于分析电网业务数据的模型的类别;采用同一类别中的不同模型分别处理电网业务数据,得到同一类别中不同模型的数据处理结果;根据数据处理结果,采用与当前模型类别对应的评价策略确定同一类别中各个模型的至少两个评价指标值;根据至少两个评价指标值由同一类别对应的至少两个模型中选择推荐模型;采用推荐模型进行数据分析。通过本发明实施例的技术方案,实现根据电网业务数据快速确定数据分析需使用的模型的类别,并通过评价策略对所确定的类别中至少两个模型进行定量化评估,进而从至少两个模型中选择出推荐模型,提高模型推荐的准确性和科学性。
附图说明
图1为本发明实施例提供的一种面向电网大数据分析的模型算法选型与评价方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的一种面向电网大数据分析的模型算法选型与评价方法的流程图。如图1所示,该方法包括:
步骤110、获取电网业务数据。
示例性的,获取特定时间长度内的电网业务数据作为检测数据,以通过选型模型根据所获取的该检测数据确定采用何种类别的模型处理该电网业务数据。需要说明的是,特定时间长度可以根据技术人员的选择缩短或延长,本发明实施例并不作具体限定。例如,特定时间长度可以是1周、2周或1个月等。
步骤120、采用选型模型确定用于分析所述电网业务数据的模型的类别,根据所述类别查询预先构建的模型算法库,得到与所述类别对应的至少两个采用不同算法构建的模型。
需要说明的是,通过调研和整理目前主流的大数据分析模型算法,根据不同的业务场景和应用需求,将不同的模型和算法划分不同的类别,构建模型算法库,服务于公司数据分析应用工作,为公司大数据价值挖掘提供算法服务支撑。其中,模型算法库中,同一类别的模型包含至少两个采用不同算法构建的模型。
例如,对于关联规则类,主要的算法是Apriori算法和FP-Growth算法。可以分别基于Apriori算法和FP-Growth算法构建关联规则类模型。对于分类模型类和回归模型类,主要的算法是决策树算法和神经网络算法,可以分别基于决策树算法和神经网络算法构建分类模型类的模型或回归模型类的模型。对于聚类模型类,主要的算法是层次聚类算法,例如BIRCH算法、CURE算法以及 ROCK算法,可以分别基于BIRCH算法、CURE算法以及ROCK算法构建聚类模型类的模型。
本发明实施例中,在获取电网业务数据之后,输入电网业务数据到选型模型,获取选型模型输出的用于分析电网业务数据的模型的类别。其中,选型模型可以是机器学习模型,所采用的算法可以包括循环神经网络(Recurrent neural networks,RNN)、长短期记忆(Long Short-Term Memory,LSTM)网络、门限循环单元、简单循环单元、自动编码器、决策树、随机森林、特征均值分类、分类回归树、隐马尔科夫、K最近邻(k-NearestNeighbor,KNN)算法、逻辑回归模型、贝叶斯模型、高斯模型以及KL散度(Kullback–Leibler divergence)等等。
可以将标记了模型类别标签的历史电网业务数据作为训练样本,采用监督式训练的方式对机器学习模型进行训练,得到选型模型。
其中,基于如下策略进行数据标记:
通过对电网大数据分析常用的模型进行归类整理之后,发现常用模型的类别包括关联规则类、分类模型类、回归模型类和聚类模型类等。不同类别的模型用于解决的大数据分析方面的问题也有所差别。例如,窃电用户肖像描写、季节性用电高峰分析和关联因素用电分析等问题往往属于关联规则分析问题,窃电用户分类测试、用电量曲线预测和迎峰度夏阈值预测等问题往往属于分类预测问题,用电用户等级划分、潜在用户挖掘和电力物资特性划分等问题往往属于聚类分析问题等。因此,在对数据进行标记时,遵循如下原则:采用关联规则类的模型分析挖掘无标签的电网业务数据;采用分类模型类或回归模型类的模型处理具有标签的电网业务数据以及监督场景;采用聚类模型类的模型处理没有标签但需要类别划分的电网业务数据。依据上述原则将分析后的历史电网业务数据标记上对应的模型类别标签。
步骤130、采用所述不同算法构建的模型分别处理所述电网业务数据,得到所述类别包含的至少两个模型的数据处理结果。
示例性的,将所获取的电网业务数据分别输入所述类别下的至少两个采用不同算法构建的模型,得到不同模型输出的数据处理结果。例如,通过分类模型类分析电网业务数据,可以决策树算法和神经网络算法分别构建不同的分类模型,以处理电网业务数据。可选的,由于常用的决策树算法包括ID3算法、 C4.5算法和CART算法,则可以采用不同的算法构建至少4个分类模型。将电网业务数据分别输入上述不同算法构建的分类模型,得到不同模型输出的数据处理结果。
步骤140、根据所述数据处理结果,采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值。
其中,评价策略包括:采用支持度和置信度作为评价指标,评价所述关联规则类的模型;采用查准率、查全率、F-score、正确率和ROC曲线作为评价指标,评价所述分类模型类的模型;采用误差平方和决定系数作为评价指标,评价所述回归模型类的模型;采用估计聚类趋势、数据集中的簇数和聚类质量作为评价指标,评价所述聚类模型类的模型。
评价指标值是根据评价策略计算数据处理结果得到的不同模型的用于定量评价的数值。
示例性的,根据数据处理结果和所类别对应的评价策略的评价指标的公式,计算所述类别包含的各个模型的评价指标值。需要说明的是,计算评价指标值的公式有很多,本发明实施例并不作具体限定。
步骤150、根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型,采用所述推荐模型进行数据分析。
示例性的,在确定了所述类别中不同模型的评价指标值之后,判断各模型得到评价指标值是否满足设定条件,若是,则比较所述类别中不同模型的评价指标值。其中,设定条件可以是根据经验值设置数值阈值,若评价指标值均小于数值阈值,则认为当前模型类别下所有模型的分析结果均不好,调整模型参数或调整样本数据后,重新进行数据分析,得到数据处理结果。基于数据处理结果重新计算各个模型的评价指标值,再判断新确定的评价指标值是否满足设定条件。按照上述方式进行多次的反复迭代,直至所有评价指标值均满足设定条件。
若评价指标均满足设定条件,则判断是否存在所述至少两个评价指标值均较高的模型;若是,则将所述至少两个评价指标值均较高的模型作为推荐模型;否则,根据评价指标的权重获取所述类别对应的评价策略中高权重评价指标值,比较所述类别中不同模型的所述高权重评价指标值,将所述高权重评价指标值最大的模型作为推荐模型。
由于评价指标值不唯一,在通过评价指标值进行评价时,若比较所述类型中不同模型的相同评价指标值,得出某一个模型的各项评价指标值均高于其它模型,则将该模型作为推荐模型。
如果没有一个模型的各项评价指标均高于其它模型,则要确定评价指标权重较高的一个评价指标。评价指标的权重是根据经验预先设定的。比较所述类别中不同模型的较高权重的评价指标对应的高权重评价指标值,得出某一个模型的高权重评价指标值高于其它模型,则将该模型作为推荐模型。
例如,采用分类模型类中的A1、A2、A3、A4和A5这5个模型处理电网业务数据,并基于数据处理结果对各个模型进行评价,比较各个模型的查准率、查全率、F-score和正确率。假设A3的查准率、查全率、F-score和正确率的数值均高于其余4个模型的查准率、查全率、F-score和正确率,则确定模型A3 为推荐模型。
如果不存在某个模型的查准率、查全率、F-score和正确率均高于其余模型,则获取查准率、查全率、F-score和正确率中权重最高的评价指标的评价指标值用于比较。由于F-score是查准率和查全率的调和平均值,可以设置该评价指标具有高于其它评价指标的权重。因此,获取各个模型对应的F-score进行比较,确定F-score高于其它模型的一个作为推荐模型。
示例性的,在确定推荐模型之后,根据预设的分析周期获取电网业务数据,将所获取的电网业务数据输入该推荐模型进行数据分析。需要说明的是,分析周期可以根据电网分析业务的需求设置,可以是1周、1个月、3个月或半年等,本发明实施例对分析周期并不作具体限定。
本实施例的技术方案,通过采用选型模型自动确定用于分析所述电网业务数据的模型的类别;并采用该类别下不同算法构建的模型分别处理电网业务数据,得到该类别下不同模型的数据处理结果;根据数据处理结果,采用与该类别对应的评价策略确定该类别下各个模型的至少两个评价指标值;根据至少两个评价指标值由该类别对应的至少两个模型中选择推荐模型,进而,采用所述推荐模型进行数据分析。通过本发明实施例的技术方案,实现根据电网业务数据快速确定数据分析需使用的模型的类别,并通过评价策略对所确定的类别中至少两个模型进行定量化评估,进而从至少两个模型中选择出推荐模型,提高模型推荐的准确性和科学性。
本发明实施例中,可选的,可以采用无监督的方式训练选型模型。例如,将一定时间段的样本数据分别输入关联规则类的算法构建的选型模型、分类模型类的算法构建的选型模型、回归模型类的算法构建的选型模型和聚类模型类的算法构建的选型模型,得到多个数据输出结果。可以采用每个类别对应的评价策略结合采用不同类型的算法构建的选型模型的数据输出结果,对各个类别包含的算法构建的选型模型进行评价,确定该类别下最优的选型模型。例如,对于关联规则类的算法构建的选型模型,采用支持度和置信度作为评价指标,根据评价指标确定关联规则类的最优选型模型。对于分类模型类的算法构建的选型模型,采用查准率、查全率、F-score和正确率作为评价指标,根据评价指标确定分类模型类的最优选型模型。对于回归模型类的算法构建的选型模型,采用误差平方和决定系数最为评价指标,根据评价指标确定回归模型类的最优选型模型。对于聚类模型类的算法构建的选型模型,采用估计聚类趋势、数据集中的簇数和聚类质量作为评价指标,根据评价指标确定聚类模型类的最优选型模型。
以关联规则类、分类模型类、回归模型类和聚类模型类作为评价对象,综合比较四类算法模型,以确定最优算法模型。假设上述已确定的各个类别的最优选型模型对应的算法分别是A、B、C和D,每一类算法对应的评价指标值分别是A1和A2,B1、B2、B3和B4,C1和C2,D1、D2和D3,即得到评价对象的一级评价指标。采用
Figure RE-GDA0002473258450000161
的方式计算每个评价指标值的权重,其中,x表示上述评价指标值,∑x表示上述所有评价指标值得总和。例如,评价指标值A1得权重
Figure RE-GDA0002473258450000162
采用相同方法分别计算出其余评价指标值的权重。假设采用a1和a2,b1、b2、b3和b4,c1和c2,d1、d2和d3表示各个评价指标值的权重,则可以采用加权的方式计算每个类别的模型算法的加权评价指标值,即得到评价对象的二级评价指标。例如,对于关联规则类模型算法,加权评价指标值A′=A1×a1+A2×a2,同样地,对于分类模型类模型算法,加权评价指标值B′=B1×b1+B2×b2+B3×b3+B4×b4,对于回归模型类模型算法,加权评价指标值C′=C1×c1+C2×c2,对于聚类模型类模型算法,加权评价指标值D′=D1×d1+D2×d2+D3×d3。采用
Figure RE-GDA0002473258450000171
的方式计算每个加权评价指标值的权重。例如,对于关联规则类模型算法,A′的权重
Figure RE-GDA0002473258450000172
对于分类模型类模型算法,B′的权重
Figure RE-GDA0002473258450000173
对于回归模型类模型算法,C′的权重
Figure RE-GDA0002473258450000174
对于聚类模型类模型算法,D′的权重
Figure RE-GDA0002473258450000175
可以采用加权的方式对每个类别的模型算法的加权评价指标值与权重进行计算,得到评价对象的三级评价指标。比较关联规则类、分类模型类、回归模型类和聚类模型类对应的三级评价指标,根据比较结果确定最优算法模型。可以为输入选型模型的样本数据添加最优算法模型对应的类别的标签。假设最优算法模型是分类模型,则为输入选型模型的样本数据添加模型类别标签。
表1为算法模型综合评价表。
Figure RE-GDA0002473258450000176
Figure RE-GDA0002473258450000181
本发明实施例提供一个具体的示例如下:
本方法能够对关联规则分析问题、分类回归分析问题、聚类分析问题等问题进行分析,基本覆盖了国网主流的大数据分析挖掘问题,可以满足国网多种模型选型和数据分析需求。下面以窃电用户分析问题为例,展示本发明实施例的实现过程。
由于窃电用户分析问题的原始数据为特定用户在一定时期内的用电量数据,以及用户自身信息,个人用户包括姓名、性别、年龄、职业、籍贯、工资收入等,企业用户包括企业行业、近年产值、企业规模、用电类型等。此外,还有一部分来自银行、工商局、气象局的外部数据,例如个人及企业的信用信息,企业财务状况、特定时间内的气象信息等。形式表现为具有多个维度的多套数据表。其中,有些用户在之前的业务中已经确定存在窃电行为,所以可以标注为窃电用户。因此,窃电用户分析问题的数据是具有标签的复合型数据。
将原始数据输入选型模型,该选型模型输出该原始数据适用的模型的类别,实现基于对窃电用户分析问题涉及的原始数据进行场景抽象,进而确定适用于该场景的模型的类别。由于窃电用户往往会表现出一定的反常行为,例如个人用户缴费间隔特别久、长时间极低用电量等,企业用户表现为财务状况不佳、企业现金流减少、夏季用电高峰期耗电量依旧维持在较低水平等,具有这些特征的数据往往被标记成使用关联规则类的标签,进而用于训练选型模型。因此,将原始数据输入选型模型,可能准确快速地确定原始数据适用关联规则类模型。
在确定使用关联规则类模型分析原始数据之后,可以使用Apriori算法和 FP-Growth算法分别对输入的原始数据进行分析,确定原始数据中各特征的特征关联度,然后,使用支持度指标计算公式和置信度指标计算公式,基于模型输出的特征关联度对Apriori算法和FP-Growth算法进行评价。比较Apriori算法和FP-Growth算法对应的支持度指标值和置信度指标值,假设Apriori算法具有较大的支持度指标值和置信度指标值,则推荐使用Apriori算法构建的关联规则类模型对原始数据进行分析。预先设置支持度具有较高的权重。假设使用 Apriori算法构建的关联规则类模型处理原始数据的数据处理结果具有较高的置信度,较低的支持度;使用FP-Growth算法构建的关联规则类模型处理原始数据的数据处理结果具有较高的支持度,较低的置信度,由于支持度具有较高的权重,因此,推荐使用FP-Growth算法构建的关联规则类模型对原始数据进行分析。
在通过关联规则类模型对原始数据进行分析后,得到具有较高关联度的特征,可以基于高关联度的特征和用户在特定时期内的用电量数据进行窃电用户预测。由于用户在特定时期内的用电量数据,由于部分用户已经确定为窃电用户,因此存在窃电标签,这类场景属于有标签或者监督场景,为用电量数据添加模型类别标签。例如,可以结合高关联度的特征和用户在特定时期内的用电量数据,形成标注窃电用户的具有标签的数据。其中,上述特征是与窃电用户具有较高关联度的特征,通过高关联度的特征分析用户特定时期内的用电量数据,筛选出其中符合窃电用户特征的用电量数据,并标注上窃电用户标签。
例如,将用户特定时期内的用电量数据输入采用ID3、C4.5、CART以及卷积神经网络训练的分类模型后,采用上述不同算法的分类模型分析特定时期内的用电量数据,得到数据处理结果。根据不同算法构建的分类模型的数据处理结果,使用查准率、查全率、调和平均值F-score和准确率四个参数对进行各模型进行评价,选择各项指标值均较高的模型作为待推荐模型,使用待推荐模型处理特定时期内的用电量数据。若无法确定各项指标均较高的模型,则选择调和平均值F-score最高的模型作为待推荐模型。
本方法提供了一套完整的面向电网大数据分析的模型算法选型与评价方法,利用该方法,对于国网常用的电网大数据分析场景,都可以快速确定场景特点和数据类型,从而简化问题分析难度。针对确定的场景,可以直接选择本方法集成的算法和模型进行分析,从而快速确定需使用的模型类别,提高大数据分析的效率。针对对应的算法和模型,由于本方法已经集成了模型类别相应的评价策略,因此可以直接使用评价策略对算法模型进行定量化评估,从而提高模型评价的准确性和科学性。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种面向电网大数据分析的模型算法选型与评价方法,其特征在于,包括:
获取电网业务数据;
采用选型模型确定用于分析所述电网业务数据的模型的类别,根据所述类别查询预先构建的模型算法库,得到与所述类别对应的至少两个采用不同算法构建的模型;
采用所述不同算法构建的模型分别处理所述电网业务数据,得到所述类别包含的至少两个模型的数据处理结果;
根据所述数据处理结果,采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值;
根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型,采用所述推荐模型进行数据分析。
2.根据权利要求1所述的方法,其特征在于,采用选型模型确定用于分析所述电网业务数据的模型的类别,包括:
输入所述电网业务数据到选型模型,其中,所述选型模型通过带有模型类别标签的样本数据、经过监督式训练的方式构建;
获取所述选型模型输出的用于分析所述电网业务数据的模型的类别,其中,所述类别包括关联规则类、分类模型类、回归模型类和聚类模型类。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取样本数据,将所述样本数据输入采用关联规则类、分类模型类、回归模型类和聚类模型类算法构建的选型模型,得到输出结果;
根据所述输出结果计算各个算法构建的选型模型的评价指标值,根据所述评价指标值为所述样本数据添加模型类别标签。
4.根据权利要求2所述的方法,其特征在于,所述评价策略包括:
采用支持度和置信度作为评价指标,评价所述关联规则类的模型;
采用查准率、查全率、F-score、正确率和ROC曲线作为评价指标,评价所述分类模型类的模型;
采用误差平方和决定系数作为评价指标,评价所述回归模型类的模型;
采用估计聚类趋势、数据集中的簇数和聚类质量作为评价指标,评价所述聚类模型类的模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述数据处理结果,采用与所述类别对应的评价策略确定所述类别包含的各个模型的至少两个评价指标值,包括:
根据所述数据处理结果和所述类别对应的评价策略的评价指标的公式,计算所述类别包含的各个模型的评价指标值。
6.根据权利要求1所述的方法,其特征在于,所述采用所述不同算法构建的模型分别处理所述电网业务数据,得到所述类别包含的至少两个模型的数据处理结果,包括:
将所述电网业务数据分别输入采用所述不同算法构建的模型,分别获取各个模型输出的数据处理结果。
7.根据权利要求1所述的方法,其特征在于,根据所述至少两个评价指标值由所述类别包含的至少两个模型中选择推荐模型,包括:
在所述评价指标值均满足设定条件时,比较所述类别中不同模型的评价指标值,判断是否存在所述至少两个评价指标值均较高的模型;
若是,则将所述至少两个评价指标值均较高的模型作为推荐模型;
否则,根据评价指标的权重获取所述类别对应的评价策略中高权重评价指标值,比较所述类别中不同模型的所述高权重评价指标值,将所述高权重评价指标值最大的模型作为推荐模型。
CN202010194935.3A 2019-12-12 2020-03-19 一种面向电网大数据分析的模型算法选型与评价方法 Pending CN111324642A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911292789.1A CN110990461A (zh) 2019-12-12 2019-12-12 大数据分析模型算法选型方法、装置、电子设备及介质
CN2019112927891 2019-12-12

Publications (1)

Publication Number Publication Date
CN111324642A true CN111324642A (zh) 2020-06-23

Family

ID=70093961

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201911292789.1A Withdrawn CN110990461A (zh) 2019-12-12 2019-12-12 大数据分析模型算法选型方法、装置、电子设备及介质
CN202010194935.3A Pending CN111324642A (zh) 2019-12-12 2020-03-19 一种面向电网大数据分析的模型算法选型与评价方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201911292789.1A Withdrawn CN110990461A (zh) 2019-12-12 2019-12-12 大数据分析模型算法选型方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (2) CN110990461A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985815A (zh) * 2020-08-21 2020-11-24 国网能源研究院有限公司 一种能源电力运营评价指标的筛选方法及装置
CN113642850A (zh) * 2021-07-20 2021-11-12 国网江苏省电力有限公司南通供电分公司 一种面向配电网规划的数据融合方法及终端
CN113822327A (zh) * 2021-07-31 2021-12-21 云南电网有限责任公司信息中心 一种基于数据特征及层次分析法的算法推荐方法
CN114139621A (zh) * 2021-11-29 2022-03-04 国家电网有限公司大数据中心 确定模型分类性能标识的方法、装置、设备及存储介质
CN116703165A (zh) * 2023-08-03 2023-09-05 国网山西省电力公司营销服务中心 一种电力计量数据安全风险评估方法及装置
TWI821641B (zh) * 2021-03-12 2023-11-11 殷祐科技股份有限公司 人工智慧生產製造節能管理系統及其方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591884B (zh) * 2020-04-30 2023-11-14 上海高德威智能交通系统有限公司 字符识别模型的确定方法、装置、设备及存储介质
CN113705849B (zh) * 2020-05-21 2024-05-17 富士通株式会社 信息处理装置和信息处理方法
CN112257418A (zh) * 2020-10-30 2021-01-22 北京青丝科技有限公司 一种问卷数据处理方法、装置及存储介质
CN112487720B (zh) * 2020-11-30 2022-11-22 重庆大学 基于K-means三维聚类算法的风压系数快速分区方法及系统和存储介质
CN112632000B (zh) * 2020-12-30 2023-11-10 北京天融信网络安全技术有限公司 日志文件聚类方法、装置、电子设备和可读存储介质
CN112506913B (zh) * 2021-02-02 2021-07-09 广东工业大学 一种面向制造业数据空间的大数据体系结构构建方法
CN113048807B (zh) * 2021-03-15 2022-07-26 太原理工大学 一种空冷机组背压异常检测方法
CN112948687B (zh) * 2021-03-25 2023-05-02 重庆高开清芯智联网络科技有限公司 一种基于名片文件特征的节点消息推荐方法
CN112966778B (zh) * 2021-03-29 2024-03-15 上海冰鉴信息科技有限公司 针对不平衡样本数据的数据处理方法及装置
CN113159220B (zh) * 2021-05-14 2022-02-15 中国人民解放军军事科学院国防工程研究院工程防护研究所 基于随机森林的混凝土侵彻深度经验算法评价方法和装置
CN113282686B (zh) * 2021-06-03 2023-11-07 光大科技有限公司 一种不平衡样本的关联规则确定方法及装置
CN113408601A (zh) * 2021-06-10 2021-09-17 共达地创新技术(深圳)有限公司 模型生成方法、电子设备及存储介质
CN114116428A (zh) * 2021-12-01 2022-03-01 中国建设银行股份有限公司 调度系统的故障诊断方法及设备
CN115987372A (zh) * 2022-12-05 2023-04-18 中国联合网络通信集团有限公司 一种信号源筛选输出方法、装置、处理器系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249779A1 (en) * 2001-09-27 2004-12-09 Nauck Detlef D Method and apparatus for data analysis
CN105654196A (zh) * 2015-12-29 2016-06-08 中国电力科学研究院 一种基于电力大数据的自适应负荷预测选择方法
CN109165249A (zh) * 2018-08-07 2019-01-08 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
CN109726749A (zh) * 2018-12-21 2019-05-07 齐鲁工业大学 一种基于多属性决策的最优聚类算法选择方法和装置
CN110457360A (zh) * 2019-06-18 2019-11-15 北京易莱信科技有限公司 一种基于数据挖掘的建模方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249779A1 (en) * 2001-09-27 2004-12-09 Nauck Detlef D Method and apparatus for data analysis
CN105654196A (zh) * 2015-12-29 2016-06-08 中国电力科学研究院 一种基于电力大数据的自适应负荷预测选择方法
CN109165249A (zh) * 2018-08-07 2019-01-08 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
CN109726749A (zh) * 2018-12-21 2019-05-07 齐鲁工业大学 一种基于多属性决策的最优聚类算法选择方法和装置
CN110457360A (zh) * 2019-06-18 2019-11-15 北京易莱信科技有限公司 一种基于数据挖掘的建模方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985815A (zh) * 2020-08-21 2020-11-24 国网能源研究院有限公司 一种能源电力运营评价指标的筛选方法及装置
TWI821641B (zh) * 2021-03-12 2023-11-11 殷祐科技股份有限公司 人工智慧生產製造節能管理系統及其方法
CN113642850A (zh) * 2021-07-20 2021-11-12 国网江苏省电力有限公司南通供电分公司 一种面向配电网规划的数据融合方法及终端
CN113822327A (zh) * 2021-07-31 2021-12-21 云南电网有限责任公司信息中心 一种基于数据特征及层次分析法的算法推荐方法
CN114139621A (zh) * 2021-11-29 2022-03-04 国家电网有限公司大数据中心 确定模型分类性能标识的方法、装置、设备及存储介质
CN116703165A (zh) * 2023-08-03 2023-09-05 国网山西省电力公司营销服务中心 一种电力计量数据安全风险评估方法及装置
CN116703165B (zh) * 2023-08-03 2024-01-19 国网山西省电力公司营销服务中心 一种电力计量数据安全风险评估方法及装置

Also Published As

Publication number Publication date
CN110990461A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
Fong et al. Accelerated PSO swarm search feature selection for data stream mining big data
CN110930198A (zh) 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备
Gupta et al. Clustering-Classification based prediction of stock market future prediction
Vilaysouk et al. Semisupervised machine learning classification framework for material intensity parameters of residential buildings
CN117057852B (zh) 一种基于人工智能技术的互联网营销系统及方法
CN112418987A (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
Chen et al. Solar power station site selection: A model based on data analysis and MCGDM considering expert consensus
CN116523301A (zh) 基于电商大数据进行风险评级预测的系统
Shahoud et al. Descriptive statistics time-based meta features (DSTMF) constructing a better set of meta features for model selection in energy time series forecasting
Zhou et al. Pre-clustering active learning method for automatic classification of building structures in urban areas
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN114091961A (zh) 一种基于半监督svm的电力企业供应商评价方法
CN112258235A (zh) 一种电力营销稽核新业务发现方法及系统
Xu et al. The unordered time series fuzzy clustering algorithm based on the adaptive incremental learning
Kulkarni et al. Survey on Opinion Mining Algorithms and Applications
Mangalampalli et al. FACISME: Fuzzy associative classification using iterative scaling and maximum entropy
CN113723835B (zh) 火电厂用水评估方法和终端设备
WO2022227213A1 (zh) 行业推荐方法、装置、计算机设备及存储介质
Richard et al. A spatial-temporal comparison of ev charging station clusters leveraging multiple validity indices
Cruz Behavioral Analysis and Pattern Validation
Li A Method to Process Images Data and Prediction Models for Some Mapreduce Applications
Li A data mining-based approach to integrating multimedia English teaching resources
Liu et al. Web data mining algorithm based on cloud computing environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination