CN113986970A - 一种基于基线库数据的量费计算结果检测方法 - Google Patents
一种基于基线库数据的量费计算结果检测方法 Download PDFInfo
- Publication number
- CN113986970A CN113986970A CN202111242314.9A CN202111242314A CN113986970A CN 113986970 A CN113986970 A CN 113986970A CN 202111242314 A CN202111242314 A CN 202111242314A CN 113986970 A CN113986970 A CN 113986970A
- Authority
- CN
- China
- Prior art keywords
- calculation
- detection
- data
- indexes
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 238
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000005259 measurement Methods 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 claims abstract description 168
- 238000004519 manufacturing process Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000009434 installation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 abstract description 11
- 230000006872 improvement Effects 0.000 abstract description 6
- 238000010606 normalization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于基线库数据的量费计算结果检测方法,包括:构建不同量费计算检测场景与指标的量费计算检测策略;根据量费计算检测对象特征,确定量费计算检测场景与指标,匹配相应的量费计算检测策略;根据匹配的量费计算检测策略,获取相应的基线库标准数据;基于获取的基线库标准数据,按照量费计算检测策略进行模拟计算;将计算结果和基线库标准数据进行分类比对;比对结果,结合指标权重和关联性,对量费计算检测对象进行综合评价,生成量费计算结果检测报告。本发明为是否具备投产条件提供科学依据,同时精准定位异常场景,智能分析异常原因,为后续改进完善提供数据及技术支撑。
Description
技术领域
本发明属于能源行业信息感知与识别技术领域,涉及一种基于基线库数据的量费计算结果检测方法。
背景技术
量费计算是能源营销系统的核心业务,它主要的内容是准确的统计出各个用户的量费信息。通过相关的收取标准来进行统计计算,并作出账务处理,记录管理资料。
随着社会建设的迅速发展,我国对于能源的需求日益提升,导致能源消耗日渐庞大。在当前迅速发展的营销市场下,存在算法规则复杂、客户体量大、用能情况多样、各地计费差异性等问题,核算过程中相关因素的变动缺乏一套科学的、体系化的量费计算结果检测技术,无法为后续的计算提供稳定支撑。
在这种情况下,为保证能源企业的经济效益得到有效提升,对能源企业管理中的量费计算提出了更高要求,不仅要保证量费计算数据的准确性、真实性和完整性,也要根据各网省差异和政策情况,灵活支撑各地计费差异,并支持动态和静态的业务规则扩展。
大量的算法程序、规则改动、政策调整,对量费计算的稳定性、准确性、实时性提出了更高的要求,如何在做出快速响应的同时,保障核心业务的稳定,对每一次变更调整都能够进行具有科学依据的快速量费计算结果检测,使其具备投产的能力以及应对突发情况的应急处置能力,是目前迫切需要解决的问题。
综合考虑能源行业数字化与智慧化转型需求,亟需一种基于基线库的量费计算结果检测体系技术,促进量费管理工作更加科学合理的稳定发展。
发明内容
为解决现有技术中的不足,本申请提供一种基于基线库数据的量费计算结果检测方法。
为了实现上述目标,本发明采用如下技术方案:
一种基于基线库数据的量费计算结果检测方法,其特征在于:
所述方法包括以下步骤:
步骤1:构建不同量费计算检测场景与指标的量费计算检测策略;
步骤2:根据量费计算检测对象特征,确定量费计算检测场景与指标,匹配相应的量费计算检测策略;
步骤3:根据步骤2匹配的量费计算检测策略,获取相应的基线库标准数据;
步骤4:基于步骤3获取的基线库标准数据,按照步骤2匹配的量费计算检测策略进行模拟计算;
步骤5:将步骤4计算结果和基线库标准数据进行分类比对;
步骤6:步骤5的比对结果,结合指标权重和关联性,对量费计算检测对象进行综合评价,生成量费计算结果检测报告。
本发明进一步包括以下优选方案:
优选地,步骤1的具体步骤为:
步骤1.1:按照不同的量费计算检测场景,加载基线库相关指标;
步骤1.2:根据量费计算检测场景和加载的指标,动态匹配量费计算检测所需的各项配置,生成预量费计算检测方案,得到不同量费计算检测场景与指标的量费计算检测策略。
优选地,所述动态匹配量费计算检测所需的各项配置包括样本标准数据、示数数据、计算参数版本、计算参数明细、校验规则信息;
所述预量费计算检测方案包括量费计算检测场景配置、参与计算的用户类型、计算用户数、系统环境相关配置。
优选地,步骤2中,根据量费计算检测对象的需求及侧重点,形成不同的量费计算检测场景,不同的量费计算检测场景配置不同的指标内容及数量,配置得到不同的量费计算检测策略;
所述量费计算检测对象包括量费计算中涉及的算法程序、规则变动和参数调整。
优选地,步骤3中,根据步骤2匹配的量费计算检测策略,从基线库中提取标准数据、参数、示数、规则相关的标准数据,包括表数据和计算数据;
所述表数据包括样本标准数据、安装点标准数据、服务位置信息、功率因数数据;
所述计算数据包括样本标准数据、示数数据、计算参数版本、计算参数明细、校验规则数据。
优选地,步骤4中,基于步骤3获取的基线库标准数据,按照步骤2匹配的量费计算检测策略,动态加载自动化计算引擎进行批量计算,并保存记录计算过程数据和计算结果信息。
优选地,步骤5中,将各类指标的计算结果和基线库标准结果数据进行比对,并保存记录比对过程和比对结果信息,具体包括:
步骤5.1:通过联合假设检验,对检测策略的算费结果准确性进行对比分析;
步骤5.2:通过格鲁布斯检验,对检测策略的规则的匹配与适用指标进行比对分析。
优选地,步骤5.1的具体步骤为:
步骤5.1.1:建立假设:假设两个独立样本分别来自正态总体1(σ1 2)和正态总体2(σ2 2),其样本方差分别为S1 2和S2 2;
通过样本方差S1 2和S2 2来检验两个正态分布总体的方差是否存在显著差异,即:原假设:σ1 2=σ2 2;备择假设:σ1 2≠σ2 2;
步骤5.1.2:计算F统计值,基于原假设,即σ1 2=σ2 2,则S1 2/S2 2的抽样分布服从F分布,分子自由度为n1-1,分母自由度为n2-1;
步骤5.1.3:确定F临界值,F的临界值取决于分子自由度为n1-1,分母自由度为n2-1和σ值,σ值为设定的显著性水平,通过查F分布值表获取F临界值;
步骤5.1.4:比较F临界值与F统计值,得出结论:
将F临界值与F=S1 2/S2 2进行比较,若F统计值>F临界值,得出方差存在显著差异,接受原假设;反之,方差不存在显著差异,拒绝原假设,接受备择假设。
优选地,步骤5.2的具体步骤为:
步骤5.2.1:将一组相关数据从小到大按顺序排列:x1、x2、x3、……xn,其中x1、x2、x3、……xn可能为离散值;
步骤5.2.2:计算出这组数据的平均值x及标准偏差S,然后求统计量T;
检验最小值x1时,采用公式:T=(x-x1)/s
检验最大值xn时,采用公式:T=(xn-x)/s
步骤5.2.3:所得结果T与格鲁布斯检验值表所得临界值Ta值比较,如果T≥Ta,说明是离散值,必须舍去;反之,予以保留。
优选地,步骤6具体包括以下步骤:
步骤6.1:根据各指标的量费计算检测计算情况,为各指标配置权重信息:
将步骤2中加载的指标,构建判断矩阵,即建立一个表格,表格里面表述了分析项的相对重要性大小,结合数据波动性或相关性,为各类指标进行权重分配;
步骤6.2:结合关键性指标和权重分配信息,计算精确率;
步骤6.3:利用查全率算法计算查全率;
步骤6.4:基于精确率和查全率,综合各项指标评估结果,生成最终量费计算结果检测报告。
优选地,步骤6.1的具体步骤为:
步骤6.1.1:利用熵值法对计算结果指标进行权重分配;
步骤6.1.2:利用CRITIC权重法对具有波动性和关联性的指标进行权重分配。
优选地,步骤6.2具体步骤为:
步骤6.2.1:量费计算检测场景准确率分析:
通过准确率公式根据正类别与负类别按如下方式计算:
其中:TP=真正例,TN=真负例,FP=假正例,FN=假负例;
以P和N表示预测结果的正负,T和F表示对预测结果正确与否的判断,具体的:
TP是判断为正例(P),判断是正确的(T);
TN是判断为负例(N),判断是正确的(T);
FP是判断为正例(N),判断是错误的(T);
FN是判断为负例(N),判断是错误的(T);
步骤6.2.2:计算结果精准率分析:
精确率的公式定义如下
优选地,步骤6.4的具体步骤为:
步骤6.4.1:利用综合指标评价F-Measure进行综合评估;
F-Measure数学公式为:
根据步骤6.2的精确率和步骤6.3查全率,得出F1值,用于评价检测策略的好坏;
步骤6.4.2:根据量费计算检测场景和指标,加载评估报告模板:
所述模板包括场景、量费计算检测项、量费计算检测结果、量费计算检测结论、算法版本信息;
步骤6.4.3:根据报告模板,将量费计算检测评估结果,生成量费计算结果检测报告,以评价经过量费计算检测体系技术比对分析后是否具备投产标准,并针对出现结果偏差的指标给出后续调优及修正的建议。
本申请所达到的有益效果:
本发明结合数据缓存、指标加权、内存计算、数据分析等技术,进行基于基线库的量费计算检测,对于量费计算中涉及的算法程序、规则变动、参数调整等各环节进行全面检测,与基线库标准数据进行比对分析,利用评价体系生成量费计算结果检测报告,直观展示评估情况,为是否具备投产条件提供科学依据,同时精准定位异常场景,智能分析异常原因,为后续改进完善提供数据及技术支撑。
进一步的,本发明基于指标权重实现量费计算检测,在指标权重分配时,同时采用熵值法和CRITIC法,二者之间存在完美的互补性,将二者结合,则可以在客观赋权过重中既充分考虑各指标数据已有的特征,也可以兼顾数据的变异性。
附图说明
图1为本发明一种基于基线库数据的量费计算结果检测方法的核心流程图;
图2为本发明量费计算检测策略制定流程图;
图3为本发明量费计算检测计算和比对过程流程图;
图4为本发明实施例中的F分布值表;
图5为本发明实施例中的格鲁布斯检验临界值T表;
图6为本发明量费计算检测结果分析评估流程图;
图7为本发明预测样例结果正确性的判断依据。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
本发明的一种基于基线库数据的量费计算结果检测方法,根据目前能源市场复杂,量费计算业务稳步提升,能源企业管理提质增效的需求,提供了一套具有动态匹配检测策略、科学比对计算结果、综合生成分析报告的检测体系,确保量费计算结果的完整性和准确性,如图1所示,本发明包括以下步骤:
步骤1:构建不同量费计算检测场景与指标的量费计算检测策略,具体步骤为:
步骤1.1:加载基线库量费计算检测指标:按照不同的量费计算检测场景,加载基线库相关指标,并可支持根据量费计算检测需求及侧重点的不同,灵活调配场景匹配的指标内容及数量;
步骤1.2:配置基线库量费计算检测策略:根据量费计算检测场景和加载的指标,动态匹配量费计算检测所需的各项配置,生成预量费计算检测方案,得到不同量费计算检测场景与指标的量费计算检测策略,可供参考及调整,以适应不同的量费计算检测需求,达到最终的量费计算检测目的。
所述动态匹配量费计算检测所需的各项配置包括样本标准数据、示数数据、计算参数版本、计算参数明细、校验规则信息;
所述预量费计算检测方案包括量费计算检测场景配置、参与计算的用户类型、计算用户数、系统环境相关配置。
步骤2:根据量费计算检测对象特征,确定量费计算检测场景与指标,匹配相应的量费计算检测策略,如图2所示;
根据量费计算检测对象的需求及侧重点,形成不同的量费计算检测场景,不同的量费计算检测场景配置不同的指标内容及数量,配置得到不同的量费计算检测策略。
所述量费计算检测对象包括量费计算中涉及的算法程序、规则变动和参数调整。
步骤3-5如图3所示,具体的:
步骤3:根据步骤2匹配的量费计算检测策略,根据步骤2匹配的量费计算检测策略,从基线库中提取标准数据、参数、示数、规则相关的标准数据,包括表数据和计算数据;
所述表数据包括样本标准数据、安装点标准数据、服务位置信息、功率因数数据;
所述计算数据包括样本标准数据、示数数据、计算参数版本、计算参数明细、校验规则数据。
例如,步骤2:当修改了居民一户一表变更为合表的计算规则时,需对规则准确性进行检测(量费计算检测对象特征),选择“一户一表变更为合表”检测场景并匹配检测策略;
步骤3:获取基线库中有变更传票且变更类型为一户一表变更为合表的低压居民标准数据。
步骤3完成了模拟计算前的策略和数据准备工作。
步骤4:基于步骤3获取的基线库标准数据,按照步骤2匹配的量费计算检测策略进行模拟计算;
进一步的,基于步骤3获取的基线库标准数据,按照步骤2匹配的量费计算检测策略,进行批量计算,并保存记录计算过程数据和计算结果信息。
以修改了母计量点参与功率因素计算方式的算法为例,基于检测场景获取基线库标准数据,包括样本数据、示数数据、计算参数版本、计算参数明细、校验规则数据,加载检测策略,包括抄见扣减、力调退补、规则校验、异常判断等,进行批量计算,并保存记录计算过程数据和计算结果信息。
步骤5:将步骤4计算结果和基线库标准数据进行分类比对;
将各类指标的计算结果和基线库标准结果数据进行比对,并保存记录比对过程和比对结果信息,具体包括:
步骤5.1:通过联合假设检验(F检验),对检测策略的算费结果准确性进行对比分析;
一组数据的标准偏差可以反映出该组数据的精密度,精密度决定于随机误差,不同组数据,有不同的精密度,两组数据的精密度之间有无显著性差异即两组数据的随机误差是否一致,目的在于比较两个样本的精密度有无显著性差异。
以修改了母计量点参与功率因素计算方式的算法为例,检测算法修改后,对其相关联场景的计算结果是否存在影响。
具体步骤为:
步骤5.1.1:建立假设
假设两个独立样本分别来自正态总体1(σ1 2)和正态总体2(σ2 2),其样本方差分别为S1 2和S2 2。需通过样本方差S1 2和S2 2来检验两个正态分布总体的方差是否存在显著差异。即:
原假设:σ1 2=σ2 2
备择假设:σ1 2≠σ2 2
在本例中,检测母计量点参与功率因素计算方式的算法,选取2个对应场景,分别为“低压非居民功率因数标准考核”(场景A)和“低压非居民功率因数只罚不奖、无子计量点”(场景B),每个场景各10个样本案例进行测试计算,则σ1 2和σ2 2分别代表2个正态总体,即2个场景的计算结果,S1 2和S2 2表示方差。
步骤5.1.2:计算F统计值,基于原假设,即σ1 2=σ2 2,则S1 2/S2 2的抽样分布服从F分布,分子自由度为n1-1,分母自由度为n2-1;
在本例中,每个场景各10个样本案例,分子自由度为n1-1=9,分母自由度为n2-1=9;
步骤5.1.3:确定F临界值,F的临界值取决于分子自由度为n1-1,分母自由度为n2-1和σ值(设定的显著性水平),通过查F分布值表获取。
在本例中,根据图4所示,设定显著性水平σ=0.05,f大为分子自由度n1-1,f小为分母自由度n2-1,如n1-1=9,n2-1=9,则F临界值为F(0.05,,9,9)=3.18;
步骤5.1.4:比较F临界值与F统计值,得出结论:
将F临界值与F=S1 2/S2 2进行比较,若F统计值>F临界值,得出方差存在显著差异(有统计学意义),接受原假设;反之,方差不存在显著差异(无统计学意义),拒绝原假设,接受备择假设。
在本例中,计算2个场景的F统计值,F=S1 2/S2 2,最后将F统计值与F临界值F(0.05,9,9)=3.18进行比较,其中场景A为对标场景,通过计算2个场景的F统计值,检测场景B的计算结果是否正确。若F统计值>F临界值,得出方差存在显著差异,接受原假设;反之,方差不存在显著差异,拒绝原假设,接受备择假设。
步骤5.2:通过格鲁布斯(Grubbs)检验,对检测策略的规则的匹配与适用指标进行比对分析,格鲁布斯检验是离散值检验的一种,主要目的是剔除异常数据,这种异常数据不是系统误差,也不是随机误差,而是由过失误差引起的,这种数据应一律舍去。对任何一组数据进行处理,首先要检验其是否存在有过失误差带来的异常数据,即进行离散值检验。
以修改了居民一户一表变更为合表的计算规则为例,检测规则修改后,对其相关联场景的规则校验情况是否存在影响。
步骤5.2具体步骤为:
步骤5.2.1:将一组数据从小到大按顺序排列:x1、x2、x3、……xn,其中x1、x2、x3、……xn可能为离散值;
在本例中,选取业务上有关联性的场景,共计7个,每个场景抽取50个用户案例,其中包含高压用户、低压非居民用户、低压居民用户,分别将每个场景的用户案例进行规则校验,得出各场景规则命中次数,将其按从小到大顺序排列:5、40、42、45、46、48、50;
步骤5.2.2:计算出这组数据的平均值x及标准偏差S,然后求统计量T;
检验最小值x1时,可采用公式:T=(x-x1)/s
检验最大值xn时,可采用公式:T=(xn-x)/s
在本例中,计算这组数据的平均值为39.4286,标准偏差为15.5548,分辨计算统计量T:
Tmin=(39.4286-5)/15.5548=2.2133
Tmax=(50-39.4286)/15.5548=0.6796
步骤5.2.3:所得结果T与格鲁布斯检验值表所得临界值Ta值比较,如果T≥Ta,说明是离散值,必须舍去;反之,予以保留。a为显著性水平,即把正常值判为异常值之类错误的概率,n为样本量。
在本例中,根据图5所示,通过查格鲁布斯检验值表(通常把置信水平定为95%)T(0.95,7)=1.94,n代表检测次数,置信水平一般定为95%,如检测了7次,则T表值选择1.94,即T(0.95,7),将T(0.95,7)=1.94分别与步骤5.2.2计算得出的T值进行比较。可知Tmax小于T(0.95,7),不属于离散值,应予保留,而Tmin大于T(0.95,7),属于离散值,需要舍去。
步骤6:将步骤5的比对结果,结合指标权重和关联性,对量费计算检测对象进行综合评价,生成量费计算结果检测报告,如图6所示,具体包括以下步骤:
以修改了居民一户一表变更为合表的计算规则为例:
步骤6.1:根据各指标的量费计算检测计算情况,为各指标配置权重信息:
将提取出的关键指标构建判断矩阵,即建立一个表格,表格里面表述了分析项的相对重要性大小,结合数据波动性或相关性,利用相关算法,为各类指标进行权重分配,具体步骤为:
步骤6.1.1:利用熵值法对计算结果指标进行权重分配;
利用熵值携带的信息进行权重计算,结合各项指标的变异程度,使用熵值法计算出各项指标的权重,为多指标综合评价提供依据。
在本例中,所有评价指标的重要性指数集合即为重要性指数矩阵M,其中mij标识第j个场景中第i个指标制定的重要性指数。
首先对各指标的重要性数据进行归一化处理,消除各个指标之间含义、度量方式及量级的差别。归一化公式为:
对于正向指标:
对于负向指标:
其中,正向指标是指取值越大,重要性越高的指标;负向指标是指取值越大,重要性越低的指标。从而得到归一化矩阵为:
基于归一化矩阵,计算第j个场景的熵值为:
其中,k=1/ln(n)。n表示样本总数,在本文中为场景数据的组数;Pij为m’ij出现的概率。
根据信息论中对信息熵性质的描述,Pij的值与m’ij取值的大小无关,而是衡量m’ij出现特定取值的概率,因而不能用m’ij的取值与第i项指标所有场景数据之和的比值计算。本文中,为了便于实施,将第i(i=1、2、3…,m)项指标的取值范围Maxm’ij-Minm’ij平分为n等份,则Pij等于与m’ij处于同一取值区间的场景数据的个数与n的比值,并规定,当Pij=0时,Pij ln(Pij)=0。
基于第i项指标的熵值,可以计算出第i项指标的权重为:
步骤6.1.2:利用CRITIC权重法(独立性权重法)对具有波动性和关联性的指标进行权重分配。
熵值法侧重某项指标的变异性,对于计算结果相关指标能够结合计算数据,更深刻反映出指标的区分能力,进而确定权重,但同时对于指标与指标之间横向的影响缺乏考虑,忽视了指标本身的重要程度。相比之下,CRITIC算法考虑了各指标自身的对比强度及指标间的冲突性,能够较全面的衡量各指标重要性,因而被作为一种相对完善的赋权算法。
从对熵值法和CRITIC法的原理进行比对可以发现,二者之间存在完美的互补性,将二者结合,则可以在客观赋权过重中既充分考虑各指标数据已有的特征,也可以兼顾数据的变异性。
进一步的,波动性和关联性分别采用对比强度和冲突性表示。
波动性:对比强度使用标准差进行表示,如果数据标准差越大说明波动越大,权重会越高;
关联性:冲突性使用相关系数进行表示,如果指标之间的相关系数值越大,说明冲突性越小,那么其权重也就越低。
因此CRITIC权重法可利用数据的波动性,对比强度与冲突性指标相乘,进行归一化处理,得到最终的权重。
在本例中,在CRITIC客观权重计算过程中,针对归一化矩阵:
对矩阵中的每一列分别进行标准差运算:
δy是第y组重要性指数的标准差,其代表了各个评价指标重要性指数取值差距的大小。
接下来计算第i组和第j组重要性指数数据之间的相关系数σij:
则各权重向量所包含的信息量可由公式表示:
第j个权重向量Kj所对应的CRITIC权重为:
各场景数据的客观权重为:Wj=wj×Tj,(j=1、2、3…,m),将Wj进行归一化处理可得到各场景数据的客观权重向量Wo。
步骤6.2:结合关键性指标和权重分配信息,计算精确率,对检测策略的算费结果准确性进行分析评估,具体步骤为:
以修改了居民一户一表变更为合表的计算规则为例:
步骤6.2.1:量费计算检测场景准确率分析:
准确率(Accuracy)是一个用于评估分类检测策略的指标,通过检测策略预测正确数量所占总量的比例,评估是否符合既定场景的需求。
在本例中,将参与检测的100个用户案例进行规则校验分为未命中(正类别)或命中(负类别):
采用图7对预测样例结果正确性进行判断。
其中:TP=真正例,TN=真负例,FP=假正例,FN=假负例。
P/N是预测结果的正负,T/F是对预测结果正确与否的判断。也就是说:
TP是判断为正例(P),判断是正确的(T)(也就是实际就是正例);
TN是判断为负例(N),判断是正确的(T)(也就是实际就是负例);
FP是判断为正例(N),判断是错误的(T)(也就是实际是负例);
FN是判断为负例(N),判断是错误的(T)(也就是实际是正例);
通过准确率公式根据正类别与负类别按如下方式计算:
本次规则检测的准确率为0.91,也就是91%,(100个样本中有91个预测正确)。
步骤6.2.2:计算结果精准率分析:
为解决在被识别为正类别的样本中,为正类别的比例。
精确率的公式定义如下
如果检测策略预测结果中没有假正例,则检测策略的精确率为1。
本发明实施例中的检测策略的精确率计算结果:
在本例中,可以看到该规则检测的精确率为0.5,即本次检测在预测规则命中方面的正确率是50%。
步骤6.3:利用查全率算法计算查全率,对检测策略的规则命中准确性进行分析评估;
为解决在所有正类别样本中,被正确识别为正类别的比例。
进一步的,查全率的公式定义如下:
查全率的计算结果(即本发明实施例中的检测策略中被正确识别为正类别的比例)如下:
以修改了居民一户一表变更为合表的计算规则为例,由以上结果可以看出,本次检测的召回率为0.11,那么,就可以说,该规则经过本次检测能够正确识别出所有无需命中规则户的百分比是11%。
步骤6.4:综合各项指标评估结果,生成最终量费计算结果检测报告,具体步骤为:
以修改了居民一户一表变更为合表的计算规则为例:
步骤6.4.1:利用综合指标评价F-Measure进行综合评估;
F-Measure是一种统计量,又称F-Score,也是精确率(Presicion)和查全率(Recall)的加权调和平均,用于评价分类检测策略的好坏。
F-Measure数学公式为:
其中,P为Precision,R为Recall,a为权重因子。
当a=1时,F值变为最常见的F1了,代表精确率和召回率的权重一样,是最常见的一种评价指标,因此,F1的数学公式为:
在本例中,根据步骤6.2精确率计算结果,P=0.5,,根据步骤6.3查全率计算结果,R=0.11,可得出其F1值:
F1综合了精确率和召回率的结果,当F1较高时,则说明检测策略或算法的效果比较理想。
步骤6.4.2:根据量费计算检测场景和指标,加载评估报告模板:
所述模板包括场景、量费计算检测项、量费计算检测结果、量费计算检测结论、算法版本信息;
步骤6.4.3:根据报告模板,将量费计算检测评估结果,生成量费计算结果检测报告,以评价经过量费计算检测体系技术比对分析后是否具备投产标准,并针对出现结果偏差的指标给出后续调优及修正的建议。
具体实施时,将检测结果,与对应的检测指标,如抄见能源量、有功结算量、度数费用、总加收费、命中规则等进行差异比对,并根据指标配置的权重信息,综合计算得出评估结果,生成检测报告。
实施例
以校验居民一户一表变更为合表的计算规则为例:
当修改了居民一户一表变更为合表的计算规则时,需对规则准确性进行检测。选择“一户一表变更为合表”检测场景并匹配检测策略,获取基线库中有变更传票且变更类型为一户一表变更为合表的低压居民标准数据。
根据该场景的计算检测策略,利用后台自动计算引擎,对这部分抽取的用户案例进行批量自动计算,并记录计算结果。
基于该场景检测指标,如抄见能源量、有功结算量、度数费用、总加收费、命中规则等,将计算结果与基线库中的标准数据进行比对。
通过每项指标的比对结果,定位结果出现偏差的指标项并记录参与计算的用户数据,如阶梯量指标有4户计算结果出现偏差,可根据这4个用户案例的标准数据、计算参数、抄表示数、往期量费计算结果等分析错误原因。
最终结合各项指标权重比例及比对结果,得出最终检测结论,为该检测是否达标并符合投产条件提供判断依据。
本发明结合数据缓存、指标加权、内存计算、数据分析等技术,进行基于基线库的量费计算检测,对于量费计算中涉及的算法程序、规则变动、参数调整等各环节进行全面检测,与基线库标准数据进行比对分析,利用评价体系生成量费计算结果检测报告,直观展示评估情况,为是否具备投产条件提供科学依据,同时精准定位异常场景,智能分析异常原因,为后续改进完善提供数据及技术支撑。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (13)
1.一种基于基线库数据的量费计算结果检测方法,其特征在于:
所述方法包括以下步骤:
步骤1:构建不同量费计算检测场景与指标的量费计算检测策略;
步骤2:根据量费计算检测对象特征,确定量费计算检测场景与指标,匹配相应的量费计算检测策略;
步骤3:根据步骤2匹配的量费计算检测策略,获取相应的基线库标准数据;
步骤4:基于步骤3获取的基线库标准数据,按照步骤2匹配的量费计算检测策略进行模拟计算;
步骤5:将步骤4计算结果和基线库标准数据进行分类比对;
步骤6:步骤5的比对结果,结合指标权重和关联性,对量费计算检测对象进行综合评价,生成量费计算结果检测报告。
2.根据权利要求1所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤1的具体步骤为:
步骤1.1:按照不同的量费计算检测场景,加载基线库相关指标;
步骤1.2:根据量费计算检测场景和加载的指标,动态匹配量费计算检测所需的各项配置,生成预量费计算检测方案,得到不同量费计算检测场景与指标的量费计算检测策略。
3.根据权利要求2所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
所述动态匹配量费计算检测所需的各项配置包括样本标准数据、示数数据、计算参数版本、计算参数明细、校验规则信息;
所述预量费计算检测方案包括量费计算检测场景配置、参与计算的用户类型、计算用户数、系统环境相关配置。
4.根据权利要求1所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤2中,根据量费计算检测对象的需求及侧重点,形成不同的量费计算检测场景,不同的量费计算检测场景配置不同的指标内容及数量,配置得到不同的量费计算检测策略;
所述量费计算检测对象包括量费计算中涉及的算法程序、规则变动和参数调整。
5.根据权利要求1所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤3中,根据步骤2匹配的量费计算检测策略,从基线库中提取标准数据、参数、示数、规则相关的标准数据,包括表数据和计算数据;
所述表数据包括样本标准数据、安装点标准数据、服务位置信息、功率因数数据;
所述计算数据包括样本标准数据、示数数据、计算参数版本、计算参数明细、校验规则数据。
6.根据权利要求1所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤4中,基于步骤3获取的基线库标准数据,按照步骤2匹配的量费计算检测策略,动态加载自动化计算引擎进行批量计算,并保存记录计算过程数据和计算结果信息。
7.根据权利要求1所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤5中,将各类指标的计算结果和基线库标准结果数据进行比对,并保存记录比对过程和比对结果信息,具体包括:
步骤5.1:通过联合假设检验,对检测策略的算费结果准确性进行对比分析;
步骤5.2:通过格鲁布斯检验,对检测策略的规则的匹配与适用指标进行比对分析。
8.根据权利要求7所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤5.1的具体步骤为:
步骤5.1.1:建立假设:假设两个独立样本分别来自正态总体1(σ1 2)和正态总体2(σ2 2),其样本方差分别为S1 2和S2 2;
通过样本方差S1 2和S2 2来检验两个正态分布总体的方差是否存在显著差异,即:原假设:σ1 2=σ2 2;备择假设:σ1 2≠σ2 2;
步骤5.1.2:计算F统计值,基于原假设,即σ1 2=σ2 2,则S1 2/S2 2的抽样分布服从F分布,分子自由度为n1-1,分母自由度为n2-1;
步骤5.1.3:确定F临界值,F的临界值取决于分子自由度为n1-1,分母自由度为n2-1和σ值,σ值为设定的显著性水平,通过查F分布值表获取F临界值;
步骤5.1.4:比较F临界值与F统计值,得出结论:
将F临界值与F=S1 2/S2 2进行比较,若F统计值>F临界值,得出方差存在显著差异,接受原假设;反之,方差不存在显著差异,拒绝原假设,接受备择假设。
9.根据权利要求8所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤5.2的具体步骤为:
步骤5.2.1:将一组相关数据从小到大按顺序排列:x1、x2、x3、……xn,其中x1、x2、x3、……xn可能为离散值;
步骤5.2.2:计算出这组数据的平均值x及标准偏差S,然后求统计量T;
检验最小值x1时,采用公式:T=(x-x1)/s
检验最大值xn时,采用公式:T=(xn-x)/s
步骤5.2.3:所得结果T与格鲁布斯检验值表所得临界值Ta值比较,如果T≥Ta,说明是离散值,必须舍去;反之,予以保留。
10.根据权利要求1所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤6具体包括以下步骤:
步骤6.1:根据各指标的量费计算检测计算情况,为各指标配置权重信息:
将步骤2中加载的指标,构建判断矩阵,即建立一个表格,表格里面表述了分析项的相对重要性大小,结合数据波动性或相关性,为各类指标进行权重分配;
步骤6.2:结合关键性指标和权重分配信息,计算精确率;
步骤6.3:利用查全率算法计算查全率;
步骤6.4:基于精确率和查全率,综合各项指标评估结果,生成最终量费计算结果检测报告。
11.根据权利要求10所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤6.1的具体步骤为:
步骤6.1.1:利用熵值法对计算结果指标进行权重分配;
步骤6.1.2:利用CRITIC权重法对具有波动性和关联性的指标进行权重分配。
13.根据权利要求10所述的一种基于基线库数据的量费计算结果检测方法,其特征在于:
步骤6.4的具体步骤为:
步骤6.4.1:利用综合指标评价F-Measure进行综合评估;
F-Measure数学公式为:
根据步骤6.2的精确率和步骤6.3查全率,得出F1值,用于评价检测策略的好坏;
步骤6.4.2:根据量费计算检测场景和指标,加载评估报告模板:
所述模板包括场景、量费计算检测项、量费计算检测结果、量费计算检测结论、算法版本信息;
步骤6.4.3:根据报告模板,将量费计算检测评估结果,生成量费计算结果检测报告,以评价经过量费计算检测体系技术比对分析后是否具备投产标准,并针对出现结果偏差的指标给出后续调优及修正的建议。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111242314.9A CN113986970A (zh) | 2021-10-25 | 2021-10-25 | 一种基于基线库数据的量费计算结果检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111242314.9A CN113986970A (zh) | 2021-10-25 | 2021-10-25 | 一种基于基线库数据的量费计算结果检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113986970A true CN113986970A (zh) | 2022-01-28 |
Family
ID=79741125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111242314.9A Pending CN113986970A (zh) | 2021-10-25 | 2021-10-25 | 一种基于基线库数据的量费计算结果检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113986970A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862269A (zh) * | 2023-09-04 | 2023-10-10 | 中国标准化研究院 | 一种利用大数据评估快速检测方法精密度的方法 |
-
2021
- 2021-10-25 CN CN202111242314.9A patent/CN113986970A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862269A (zh) * | 2023-09-04 | 2023-10-10 | 中国标准化研究院 | 一种利用大数据评估快速检测方法精密度的方法 |
CN116862269B (zh) * | 2023-09-04 | 2023-11-03 | 中国标准化研究院 | 一种利用大数据评估快速检测方法精密度的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6574585B2 (en) | Method for improving robustness of weighted estimates in a statistical survey analysis | |
CN110046789B (zh) | 一种学生信息素养测评试卷的自动生成方法及系统 | |
CN115409395B (zh) | 一种水利施工工程的质量验收检查方法及系统 | |
CN112231621A (zh) | 基于BP-adaboost降低元素检出限的方法 | |
CN113626335A (zh) | 一种面向公安交通管理应用软件的质量评价方法及系统 | |
CN113986970A (zh) | 一种基于基线库数据的量费计算结果检测方法 | |
CN111860698A (zh) | 确定学习模型的稳定性的方法和装置 | |
CN113742248A (zh) | 一种基于项目测量数据进行组织过程预测的方法及系统 | |
CN108446213A (zh) | 一种静态代码质量分析方法和装置 | |
JP2008242595A (ja) | プログラム検査項目生成システムと方法およびプログラムテストシステムと方法ならびにプログラム | |
KR102159574B1 (ko) | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 작업 결과의 정확도 추정 및 관리 방법 | |
CN113935819A (zh) | 核算异常特征提取方法 | |
CN115034580A (zh) | 融合数据集的质量评估方法和装置 | |
CN111882289B (zh) | 一种项目数据审核指标区间测算的装置和方法 | |
CN111737247B (zh) | 用于数据质量管控的实现方法 | |
CN114022045A (zh) | 一种区域经济发展水平确定方法、装置及终端设备 | |
CN114912739A (zh) | 环境与变电站运维费用关联模型的构建及应用方法 | |
CN111062003A (zh) | 样本总体协方差判定方法、装置、设备及存储介质 | |
CN116187299B (zh) | 一种科技项目文本数据检定评价方法、系统及介质 | |
CN115563489B (zh) | 超差表检出方法、装置及计算机存储介质 | |
CN116342300B (zh) | 一种保险理赔人员特征分析方法、装置和设备 | |
Wu et al. | Estimate the Precision of Defects Based on Reports Duplication in Crowdsourced Testing | |
CN115712805A (zh) | 耐受度评估方法、装置、设备及存储介质 | |
CN107807972B (zh) | 一种试验数据一致性检测方法 | |
CN116628526A (zh) | 一种基于采样算法优化与无监督聚类的软件缺陷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |