CN113935819A - 核算异常特征提取方法 - Google Patents

核算异常特征提取方法 Download PDF

Info

Publication number
CN113935819A
CN113935819A CN202111242327.6A CN202111242327A CN113935819A CN 113935819 A CN113935819 A CN 113935819A CN 202111242327 A CN202111242327 A CN 202111242327A CN 113935819 A CN113935819 A CN 113935819A
Authority
CN
China
Prior art keywords
abnormal
feature
data
accounting
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111242327.6A
Other languages
English (en)
Inventor
祝宇楠
邹云峰
范环宇
黄茜
蔡明明
朱峰
单超
刘云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202111242327.6A priority Critical patent/CN113935819A/zh
Publication of CN113935819A publication Critical patent/CN113935819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种核算异常特征提取方法,包括:对异常数据进行整合和标准化处理;构建核算异常典型库;提取异常维度和异常指标因子,构建异常特征关联图;将异常特征关联图与数据融合,得到异常信息关联分析模型;训练异常信息关联分析模型,并通过实际的核算业务场景匹配异常实体,验证异常实体与业务场景的关系。本发明可以从核算异常中,通过分析用户不同的业务场景,提取核算异常特征,从多维度围绕多个业务指标,大幅减少核算过程中产生的异常情况,减少人员检查判别的工作量,提升工作效率。

Description

核算异常特征提取方法
技术领域
本发明属于电力行业信息感知与识别技术领域,涉及一种核算异常特征提取方法。
背景技术
核算是营销系统的核心业务,它主要的内容是准确的统计出各个用户的电费以及其所用电量。通过相关的收取标准来进行统计计算,并作出账务处理,记录管理资料。
随着社会建设的迅速发展,对于电力能源的需求日益提升,导致了电力能源的消耗日渐庞大。在这种情况下,为保证电力企业的经济效益得到有效提升,对电力企业管理中的核算提出了更高要求,不仅要保证核算数据的准确性、真实性和完整性,也要根据各网省差异和政策情况,灵活支撑各地计费差异,并支持动态和静态的业务规则扩展。
大量的算法程序、规则改动、电价调整,对核算的稳定性、准确性、实时性提出了更高的要求,如何在做出快速响应的同时,保障核心业务的稳定,对每一次变更调整都能够进行具有科学依据的快速检测,使其具备投产的能力以及应对突发情况的应急处置能力,是目前迫切需要解决的问题。
发明内容
为解决现有技术中的不足,本申请提供一种核算异常特征提取方法,综合考虑电力行业数字化与智慧化转型需求,针对核算中产生的异常数据,通过多维度多指标分析建模,形成异常库,以支撑不同的业务场景核算功能,减少因业务变更导致核算过程中出现的异常情况。
为了实现上述目标,本发明采用如下技术方案:
一种核算异常特征提取方法,包括以下步骤:
步骤1:依据核算业务场景,提炼用户的异常数据信息,并对异常数据进行整合和标准化处理;
步骤2:对异常数据进行整合和标准化处理后,构建核算异常典型库;
步骤3:依据核算异常典型库,多维度多指标分析异常影响因数,提取异常维度和异常指标因子,构建异常特征关联图;
步骤4:将异常特征关联图与数据融合,从异常特征关联图中求解特征之间的关联关系,对多视图下的特征数据进行融合形成完整的关联图结构,通过分析异常特征要素之间的关系推导异常实体之间的关联关系,得到异常信息关联分析模型;
步骤5:训练异常信息关联分析模型,并通过实际的核算业务场景匹配异常实体,验证异常实体与业务场景的关系。
本发明进一步包括以下优选方案:
优选地,步骤1的具体步骤为:
步骤1.1:梳理异常数据来源并获取异常数据信息;
步骤1.2:对异常数据信息进行整合;
步骤1.3:数据标准化处理:包括指标一致化处理和无量纲化处理。
优选地,步骤1.1中,所述数据来源包括核算规则、量费退补流程、业务稽查,对应的异常数据信息具体为:
依据核算规则产生的异常数据,经分析研判成明确异常数据的信息;
依据量费退补流程产生的数据,结合退补原因和客户档案信息,经分析为明确异常数据的信息;
依据日常业务稽查工作梳理总结的数据,经分析为明确异常数据的信息。
优选地,步骤1.2中,通过服务接口、调度任务和ETL技术将异常数据整合到一个数据库中。
优选地,步骤1.3中,使用Z-score和Min-Max方法对数据进行标准化。
优选地,步骤3的具体步骤为:
步骤3.1:根据异常典型库中的异常数据信息,梳理并提取异常维度和异常指标因子;
步骤3.2:将异常实体描述为多个异常维度和异常指标因子的集合,对异常实体进行特征提取映射,构建异常实体的异常特征关联图。
优选地,所述异常维度包括用户分类、用电容量、用电类别、电压等级、行业分类、分时标志;
所述异常指标因子包括总结算电量、总结算电费、功率因数调整电费、基本电费。
优选地,步骤3.2中,异常实体描述为异常维度和异常指标因子信息的集合:
Figure BDA0003319644820000031
其中,Ai表示异常实体,D表示异常实体集合,fu表示异常特征集合,f表示异常特征,mt表示t类型下异常实体Ai的异常特征数量;
对于任意的异常实体Ai∈D,设Fi为该实体的特征集合,经过特征提取映射后,异常实体被添加到特征关联图中,异常特征映射到对应的特征关联图内,表示为MAP(Ai)={Ai,Fi}。
优选地,特征节点具有为以下2种关联关系:
(1):相关性关联关系,指同一视图或者不同视图异常特征之间存在的隐含的关系;
(2):间接性关联关系,指同一视图或者不同视图异常特征之间存在的不同于相关性关联,需要通过特征关联图路径拓扑关系推导出的关联关系。
优选地,针对相关性关联关系,两个特征之间的相关关联关系采用熵与互信息进行度量;
对于任意节点vi,vj的特征f1,f2∈R,R表示异常特征集合,I表示(f1,f2)的互信息,
Figure BDA0003319644820000032
x,y表示随机变量,p(x,y)表示同时对于x和y的概率分布,p(x)表示对于x的概率分布,p(y)表示对于y的概率分布;
给定阈值δ,当I(f1,f2)>δ时,认为特征f1,f2之间存在相关关系,即节点vi,vj之间存在相关性关联关系。
优选地,针对间接性关联关系,假设f1,f2,f3∈R,若
Figure BDA0003319644820000033
则有
Figure BDA0003319644820000034
即对于属于同一个集合R的特征f1,f2,f3,如果f1与f2互为充分必要条件,且f2与f3互为充分必要条件,那么f1与f3之间也互为充分必要条件;
给定路径e可包含ei的阈值δ,当e<δ时,所属路径经过不相邻的节点之间存在间接性关联关系。
优选地,步骤4中,假设异常数据集中包含F种类型的特征要素,令异常特征要素fi所属的视图为φ(i),N表示特征元素数量,M表示特征要素视图数量;
对异常特征空间中的两个特征fi,fj,构造两者在完整特征空间中的关联关系Rij
任意两个异常特征之间的关联关系可以分为同视图关联关系φ(i)=φ(j)和不同视图关联关系φ(i)≠φ(j);
sij表示异常特征要素fi与fj的关联强度,αφ(i)φ(j)表示视图φ(i)φ(j)在异常信息关联分析模型空间中的相对权重;
wi=[wi,1,wi,2,wi,3,…,wi,n],代表特征元素fi在档案信息关联模型空间中的关联关系表达,则有wi=∑1<=j<=Nαφ(i)φ(j),其中∑1<=j<=Maij=1;
对每一个特征元素fi,1≤j≤N,w=[w1,w2,w3,…,wn]T,有w=R·w;
Figure BDA0003319644820000041
经此转换将分视图的特征元素转化为异常数据集合空间中的特征要素,每个异常表示为空间中多个特征的组合;
S(Ai,Aj)表示异常实体Ai,Ai之间的关联关系,则有
Figure BDA0003319644820000042
通过求解异常实体之间的关联强度构建完整的关联图结构,得到异常信息关联分析模型。
优选地,步骤5中,匹配核算业务场景,根据用户的业务场景,加载用户档案数据,通过异常信息关联分析模型模拟出用户在该场景下可能会引发的异常,验证异常实体与业务场景的关系,进而减少因业务变更导致核算过程中出现的异常情况。
本申请所达到的有益效果:
本发明将数据缓存、内存计算、集群服务等技术进行融合,运用智能分析开展对核算异常的深度挖掘分析,可对电力行业核算业务不同场景下产生的异常进行分析,提取异常特征,精准锁定异常用户,减少因业务变更导致核算过程中出现的异常情况,提升核算的管理效率,支撑电力行业相关业务的提质增效。
附图说明
图1是本发明一种核算异常特征提取方法流程图;
图2是本发明实施例中数据处理与核算异常典型库构建流程;
图3是本发明实施例中异常特征提取示意图;
图4是本发明实施例中多个视图下相互联系的特征关联图;
图5是本发明实施例中模型训练流程图;
图6是本发明实施例中异常特征提取与应用流程图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明的一种核算异常特征提取方法,包括以下步骤:
步骤1:依据核算业务场景,提炼用户的异常数据信息,并对异常数据进行整合和标准化处理,具体步骤为:
步骤1.1:梳理异常数据来源并获取异常数据信息;
具体实施时,所述数据来源包括核算规则、量费退补流程、业务稽查,对应的异常数据信息具体为:
依据核算规则产生的异常数据,经分析研判成明确异常数据的信息;
依据量费退补流程产生的数据,结合退补原因和客户档案信息,经分析为明确异常数据的信息;
依据日常业务稽查工作梳理总结的数据,经分析为明确异常数据的信息。
步骤1.2:对异常数据信息进行整合:通过服务接口、调度任务、ETL等技术将异常数据整合到一个数据库中。
步骤1.3:数据标准化处理:包括指标一致化处理和无量纲化处理;
所述指标一致化处理解决数据之间不同性质的问题;
所述无量纲化处理解决数据之间可比性的问题。
为生成不同的特征,有选择地使用Z-score和Min-Max方法对数据进行标准化和归一化,具体的:
零-均值规范化(z-score标准化)
零-均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1。
转化公式为:
Figure BDA0003319644820000061
其中,
Figure BDA0003319644820000062
为原始数据的均值,σ为原始数据的标准差,是当前用得最多的数据标准化方式。标准差分数可以回答这样一个问题:"给定数据距离其均值多少个标准差"的问题,在均值之上的数据会得到一个正的标准化分数,反之会得到一个负的标准化分数。
最小-最大规范化(Min-Max标准化)
最小-最大规范化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0,1]之间。
转换公式如下:
Figure BDA0003319644820000063
离差标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。这种处理方法的缺点是若数值集中且某个数值很大,则规范化后各值接近于0,并且将会相差不大。
如1,1.2,1.3,1.4,1.5,1.6,8.4这组数据。若将来遇到超过目前属性[min,max]取值范围的时候,会引起系统报错,需要重新确定min和max。
步骤2:对异常数据进行整合和标准化处理后,构建核算异常典型库,用于提取异常特征,步骤1-2如图2所示。
步骤3:依据核算异常典型库,多维度多指标分析异常影响因数,提取异常维度和异常指标因子,构建异常特征关联图,具体步骤为:
步骤3.1:根据异常典型库中的异常数据信息,梳理并提取异常维度和异常指标因子,异常特征提取示意图如图3所示。
进一步的,异常特征提取主要包含标准化、归一化、特征选择、卡方选择四个步骤。
标准化是指:对于训练集中的样本,基于列统计信息将数据除以方差或(且)者将数据减去其均值(结果是方差等于1,数据在0附近)。
例如,当所有的特征具有值为1的方差且/或值为0的均值时,SVM的径向基函数(RBF)核或者L1和L2正则化线性模型通常有更好的效果。
标准化可以提升模型优化阶段的收敛速度,还可以避免方差很大的特征对模型训练产生过大的影响。
归一化是指:将每个独立样本做尺度变换从而是该样本具有单位Lp范数。这是文本分类和聚类中的常用操作。例如,两个做了L2归一化的TF-IDF向量的点积是这两个向量的cosine(余弦)相似度。
特征选择是指:为建模过程选择最相关的特征。特征选择降低了向量空间的大小,从而降低了后续向量操作的时间复杂度。选择的特征的数量可以通过验证集来调节。
卡方选择是指:使用卡方(Chi-Squared)做特征选择。该方法操作的是有标签的类别型数据。卡方选择基于卡方检验来排序数据,然后选出卡方值较大(也就是跟标签最相关)的特征。
提取异常维度和异常指标因子,为了用RDF三元组格式化表示异常实体A与特征关系f之间的关系,经过异常维度和异常指标因子提取后异常实体表达为多个异常维度和异常指标因子的集合。
所述异常维度包括用户分类、用电容量、用电类别、电压等级、行业分类、分时标志;
所述异常指标因子包括总结算电量、总结算电费、功率因数调整电费、基本电费等。
例如:针对“功率因数考核但无力调电费”异常,存在某高压用户,该用户定价策略功率因数考核方式为标准考核,母计量点参与功率因数计算方式为电量参与电费参与,子计量点参与功率因数计算方式为电量参与电费参与,但无力调电费,系统提示“功率因数考核但无力调电费”异常。
在此案例中异常维度为:客户分类、定价策略功率因数考核方式、母计量点参与功率因数计算方式、子计量点参与功率因数计算方式;
异常指标因子为:力调电费,即功率因数调整电费。
由客户分类、定价策略功率因数考核方式、母计量点参与功率因数计算方式、子计量点参与功率因数计算方式维度以及力调电费指标因子共同组成“功率因数考核但无力调电费”异常实体。
步骤3.2:将异常实体描述为多个异常维度和异常指标因子的集合,对异常实体进行特征提取映射,构建异常实体的异常特征关联图。
例如:针对“功率因数考核但无力调电费”异常,在上述步骤3.1中,异常实体“功率因数考核但无力调电费”;
异常维度为:客户分类、定价策略功率因数考核方式、母计量点参与功率因数计算方式、子计量点参与功率因数计算方式;
异常指标因子为:力调电费,即功率因数调整电费。
对异常实体“功率因数考核但无力调电费”进行特征提取后,其异常特征为:客户分类为高压用户、定价策略功率因数考核方式为“标准考核”、母计量点参与功率因数计算方式为电量参与电费参与、子计量点参与功率因数计算方式为电量参与电费参与、力调电费为0。从而通过此五个异常特征构建异常实体的异常特征关联图。
对于任意的异常实体,经过异常特征提取映射步骤后,异常实体被添加到异常特征关联图中。
异常实体描述为异常维度和异常指标因子信息的集合:
Figure BDA0003319644820000081
其中,Ai表示异常实体,D表示异常实体集合,fu表示异常特征集合,f表示异常特征,mt表示t类型下异常实体Ai的异常特征数量;
对于任意的异常实体Ai∈D,设Fi为该实体的特征集合,经过特征提取映射后,异常实体被添加到特征关联图中,异常特征映射到对应的特征关联图内,表示为MAP(Ai)={Ai,Fi}。
因为异常特征多样性,同一视图中的特征节点vi,vj∈Gi可以划分为以下2种关联关系:
(1):相关性关联关系,指同一视图或者不同视图异常特征之间存在的依存、制约、因果等隐含的关系。
构建相关性关联关系是指通过分析已有的异常相关关系,基于统计分析寻找异常特征同时出现的规律和模式的过程。
两个特征之间的相关关联关系多采用熵与互信息进行度量;
对于任意节点vi,vj的特征f1,f2∈R,R表示异常特征集合,I表示(f1,f2)的互信息,
Figure BDA0003319644820000091
x,y表示随机变量,p(x,y)表示同时对于x和y的概率分布,p(x)表示对于x的概率分布,p(y)表示对于y的概率分布;
给定阈值δ,当I(f1,f2)>δ时,认为特征f1,f2之间存在相关关系,即节点vi,vj之间存在相关性关联关系。
(2):间接性关联关系,指同一视图或者不同视图异常特征之间存在的不同于相关性关联,需要通过特征关联图路径拓扑关系推导出的关联关系。
不失一般性地假设f1,f2,f3∈R,若
Figure BDA0003319644820000092
则有
Figure BDA0003319644820000093
Figure BDA0003319644820000094
即对于属于同一个集合R的特征f1,f2,f3,如果f1与f2互为充分必要条件,且f2与f3互为充分必要条件,那么f1与f3之间也互为充分必要条件;
给定路径e可包含ei的阈值δ,当e<δ时,所属路径经过不相邻的节点之间存在间接性关联关系。
以上2种关系将不同类型不同属性的异常数据特征聚合在一起,构建成多个视图下相互联系的特征关联图,如图4所示。
例如:针对“功率因数考核但无力调电费”异常,在上述步骤3.2中,异常实体“功率因数考核但无力调电费”包含五个异常特征:
客户分类为高压用户、定价策略功率因数考核方式为“标准考核”、母计量点参与功率因数计算方式为电量参与电费参与、子计量点参与功率因数计算方式为电量参与电费参与、力调电费为0。
在此五个特征中,子计量点参与功率因数计算方式与母计量点参与功率因数计算方式存在相关性关联关系,如果母计量点参与功率因数计算方式为电量参与电费参与,则子计量点参与功率因数计算方式必须为电量参与电费参与或电量参与电费不参与;反之若子计量点参与功率因数计算方式为电量参与电费参与,则母计量点参与功率因数计算方式必须为电量参与电费参与或电量参与电费不参与。而定价策略功率因数考核方式与力调电费之间存在间接性关联关系,定价策略功率因数考核方式为“标准考核”时,与其相关的计量点必然存在至少一个计量点参与功率因数计算方式为电量参与电费参与,当存在计量点参与功率因数计算方式为电量参与电费参与时,才能计算出力调电费,故定价策略功率因数考核方式与力调电费存在间接性关联关系。
步骤4:将异常特征关联图与数据融合,从异常特征关联图中求解特征之间的关联关系,对多视图下的特征数据进行融合形成完整的关联图结构,由于每个异常实体可以分解映射为多种类型的异常特征,通过分析异常特征要素之间的关系可以推导异常实体之间的关联关系,得到异常信息关联分析模型;
例如:某高压用户,定价策略类型为单一制,基本电费计算方式为按容量,无备用电源,系统提示“单一制用户基本电费计算方式不相符”异常。定价策略类型与基本电费计算方式之间存在相关性关联关系,当定价策略类型为单一制时,基本电费计算方式只能选择不计算,否则会产生“单一制用户基本电费计算方式不相符”异常。
假设异常数据集中包含F种类型的特征要素,令异常特征要素fi所属的视图为φ(i),N表示特征元素数量,M表示特征要素视图数量;
对异常特征空间中的两个特征fi,fj,构造两者在完整特征空间中的关联关系Rij
任意两个异常特征之间的关联关系可以分为同视图关联关系φ(i)=φ(j)和不同视图关联关系φ(i)≠φ(j);
sij表示异常特征要素fi与fj的关联强度,αφ(i)φ(j)表示视图φ(i)φ(j)在异常信息关联分析模型空间中的相对权重;
wi=[wi,1,wi,2,wi,3,…,wi,n],代表特征元素fi在档案信息关联模型空间中的关联关系表达,则有wi=∑1<=j<=Nαφ(i)φ(j),其中∑1<=j<=Maij=1;
对每一个特征元素fi,1≤j≤N,w=[w1,w2,w3,…,wn]T,有w=R·w;
Figure BDA0003319644820000111
经此转换将分视图的特征元素转化为异常数据集合空间中的特征要素,每个异常表示为空间中多个特征的组合;
S(Ai,Aj)表示异常实体Ai,Ai之间的关联关系,则有
Figure BDA0003319644820000112
通过求解异常实体之间的关联强度构建完整的关联图结构,得到异常信息关联分析模型。
例如:针对“功率因数考核但无力调电费”、“执行居民电价计量点误执行功率因数考核”两个异常实体,在某种条件下具有相关性。
存在某高压用户,子计量点执行城镇居民合表电价,用户定价策略功率因数考核方式为标准考核,母计量点参与功率因数计算方式为电量参与电费参与,子计量点参与功率因数计算方式为电量参与电费参与,系统提示“执行居民电价计量点误执行功率因数考核”异常。
与上述步骤3.2中的高压用户,存在相同的异常特征:客户分类为高压用户、定价策略功率因数考核方式为“标准考核”、母计量点参与功率因数计算方式为电量参与电费参与、子计量点参与功率因数计算方式为电量参与电费参与。
说明“执行居民电价计量点误执行功率因数考核”、“功率因数考核但无力调电费”两个异常实体在某种条件下具有相关性,此时“执行居民电价计量点误执行功率因数考核”、“功率因数考核但无力调电费”就可以构建异常实体之间的关联图,从而可以建立针对定价策略功率因数考核用户的异常信息关联分析模型。
步骤5:训练异常信息关联分析模型,并通过实际的核算业务场景匹配异常实体,验证异常实体与业务场景的关系。
机器学习中训练模型表示通过有标签样本来学习(确定)所有权重Weights和偏差Bias的理想值。机器学习算法在训练过程中,做的就是:检查多个样本并尝试找出可最大限度地减少损失的模型;目标就是将损失(Loss)最小化。
进一步的,模型训练流程如图5所示,模型训练流程主要包含模型、计算损失、计算参数更新三个环节。
模型:将一个或多个特征作为输入,然后返回一个预测(y’)作为输出。为了进行简化,不妨考虑一种采用一个特征并返回一个预测的模型,如下公式(其中b为bias,w为weight)
y′=b+w1x1
计算损失:通过损失函数,计算该次参数(bias、weight)下的loss。在样本空间
Figure BDA0003319644820000121
内有可测状态θ∈Θ和随机变量X根据法则
Figure BDA0003319644820000122
所做的决策
Figure BDA0003319644820000123
此时若在乘积空间
Figure BDA0003319644820000124
上有函数L(θ,d)满足:
Figure BDA0003319644820000125
即对任意的
Figure BDA0003319644820000126
L(θ,d),是非负可测函数,则L(θ,d)被称为损失函数,表示状态θ下采取决策d所对应的损失或风险。
计算参数更新:检测损失函数的值,并为参数如bias、weight生成新值,以降低损失为最小。
例如:针对“功率因数考核但无力调电费”异常,将上述步骤4中的高压用户的异常特征:客户分类为高压用户、定价策略功率因数考核方式为“标准考核”、母计量点参与功率因数计算方式为电量参与电费参与、子计量点参与功率因数计算方式为电量参与电费参与,作为输入,返回“功率因数考核但无力调电费”作为输出,通过损失函数计算本次输入的异常特征的损失。
检测损失函数的值,并对输入的异常特征的权重和偏差重新赋值,再次计算损失,直至损失函数的值降到最低。
模型训练完成后与实际的核算业务场景如“高压用户功率因数标准考核、母计量点电量参与电费参与、子计量点电量参与电费参与”,即通过母计量点与子计量点有功、无功电量之和算出实际功率因数,每个计量点的目录电费分别乘以功率因数得出力调电费相匹配,从而验证“功率因数考核但无力调电费”异常实体与核算业务场景“高压用户功率因数标准考核、母计量点电量参与电费参与、子计量点电量参与电费参与”的关系。
步骤3-5流程如图6所示。
最终与核算业务场景匹配,根据用户的业务场景,加载用户档案数据,通过异常信息关联分析模型模拟出用户在该场景下可能会引发的异常,进而减少因业务变更导致核算过程中出现的异常情况。
本发明可以从核算异常中,通过分析用户不同的业务场景,提取电费等多各电力业务场景核算异常特征,从多维度围绕多个业务指标,大幅减少核算过程中产生的异常情况,减少人员检查判别的工作量,提升工作效率。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (14)

1.一种核算异常特征提取方法,其特征在于:
所述方法包括以下步骤:
步骤1:依据核算业务场景,提炼用户的异常数据信息,并对异常数据进行整合和标准化处理;
步骤2:对异常数据进行整合和标准化处理后,构建核算异常典型库;
步骤3:依据核算异常典型库,多维度多指标分析异常影响因数,提取异常维度和异常指标因子,构建异常特征关联图;
步骤4:将异常特征关联图与数据融合,得到异常信息关联分析模型;
步骤5:训练异常信息关联分析模型,并通过实际的核算业务场景匹配异常实体,验证异常实体与业务场景的关系。
2.根据权利要求1所述的一种核算异常特征提取方法,其特征在于:
步骤1的具体步骤为:
步骤1.1:梳理异常数据来源并获取异常数据信息;
步骤1.2:对异常数据信息进行整合;
步骤1.3:数据标准化处理:包括指标一致化处理和无量纲化处理。
3.根据权利要求2所述的一种核算异常特征提取方法,其特征在于:
步骤1.1中,所述数据来源包括核算规则、量费退补流程、业务稽查,对应的异常数据信息具体为:
依据核算规则产生的异常数据,经分析研判成明确异常数据的信息;
依据量费退补流程产生的数据,结合退补原因和客户档案信息,经分析为明确异常数据的信息;
依据日常业务稽查工作梳理总结的数据,经分析为明确异常数据的信息。
4.根据权利要求2所述的一种核算异常特征提取方法,其特征在于:
步骤1.2中,通过服务接口、调度任务和ETL技术将异常数据整合到一个数据库中。
5.根据权利要求2所述的一种核算异常特征提取方法,其特征在于:
步骤1.3中,使用Z-score和Min-Max方法对数据进行标准化。
6.根据权利要求1所述的一种核算异常特征提取方法,其特征在于:
步骤3的具体步骤为:
步骤3.1:根据异常典型库中的异常数据信息,梳理并提取异常维度和异常指标因子;
步骤3.2:将异常实体描述为多个异常维度和异常指标因子的集合,对异常实体进行特征提取映射,构建异常实体的异常特征关联图。
7.根据权利要求6所述的一种核算异常特征提取方法,其特征在于:
所述异常维度包括用户分类、用电容量、用电类别、电压等级、行业分类、分时标志;
所述异常指标因子包括总结算电量、总结算电费、功率因数调整电费、基本电费。
8.根据权利要求6所述的一种核算异常特征提取方法,其特征在于:
步骤3.2中,异常实体描述为异常维度和异常指标因子信息的集合:
Figure FDA0003319644810000021
其中,Ai表示异常实体,D表示异常实体集合,fu表示异常特征集合,f表示异常特征,mt表示t类型下异常实体Ai的异常特征数量;
对于任意的异常实体Ai∈D,设Fi为该实体的特征集合,经过特征提取映射后,异常实体被添加到特征关联图中,异常特征映射到对应的特征关联图内,表示为MAP(Ai)={Ai,Fi}。
9.根据权利要求8所述的一种核算异常特征提取方法,其特征在于:
特征节点具有为以下2种关联关系:
(1):相关性关联关系,指同一视图或者不同视图异常特征之间存在的隐含的关系;
(2):间接性关联关系,指同一视图或者不同视图异常特征之间存在的不同于相关性关联,需要通过特征关联图路径拓扑关系推导出的关联关系。
10.根据权利要求9所述的一种核算异常特征提取方法,其特征在于:
针对相关性关联关系,两个特征之间的相关关联关系采用熵与互信息进行度量;
对于任意节点vi,vj的特征f1,f2∈R,R表示异常特征集合,I表示(f1,f2)的互信息,
Figure FDA0003319644810000031
x,y表示随机变量,p(x,y)表示同时对于x和y的概率分布,p(x)表示对于x的概率分布,p(y)表示对于y的概率分布;
给定阈值δ,当I(f1,f2)>δ时,认为特征f1,f2之间存在相关关系,即节点vi,vj之间存在相关性关联关系。
11.根据权利要求9所述的一种核算异常特征提取方法,其特征在于:
针对间接性关联关系,假设f1,f2,f3∈R,若
Figure FDA0003319644810000032
则有e=e1°
Figure FDA0003319644810000033
即对于属于同一个集合R的特征f1,f2,f3,如果f1与f2互为充分必要条件,且f2与f3互为充分必要条件,那么f1与f3之间也互为充分必要条件;
给定路径e可包含ei的阈值δ,当e<δ时,所属路径经过不相邻的节点之间存在间接性关联关系。
12.根据权利要求1所述的一种核算异常特征提取方法,其特征在于:
步骤4中,将异常特征关联图与数据融合,从异常特征关联图中求解特征之间的关联关系,对多视图下的特征数据进行融合形成完整的关联图结构,通过分析异常特征要素之间的关系推导异常实体之间的关联关系,得到异常信息关联分析模型。
13.根据权利要求12所述的一种核算异常特征提取方法,其特征在于:
步骤4中,假设异常数据集中包含F种类型的特征要素,令异常特征要素fi所属的视图为φ(i),N表示特征元素数量,M表示特征要素视图数量;
对异常特征空间中的两个特征fi,fj,构造两者在完整特征空间中的关联关系Rij
任意两个异常特征之间的关联关系可以分为同视图关联关系φ(i)=φ(j)和不同视图关联关系φ(i)≠φ(j);
sij表示异常特征要素fi与fj的关联强度,αφ(i)φ(j)表示视图φ(i)φ(j)在异常信息关联分析模型空间中的相对权重;
wi=[wi,1,wi,2,wi,3,…,wi,n],代表特征元素fi在档案信息关联模型空间中的关联关系表达,则有wi=∑1<=j<=Nαφ(i)φ(j),其中∑1<=j<=Maij=1;
对每一个特征元素fi,1≤j≤N,w=[w1,w2,w3,…,wn]T,有w=R·w;
Figure FDA0003319644810000041
经此转换将分视图的特征元素转化为异常数据集合空间中的特征要素,每个异常表示为空间中多个特征的组合;
S(Ai,Aj)表示异常实体Ai,Ai之间的关联关系,则有
Figure FDA0003319644810000042
通过求解异常实体之间的关联强度构建完整的关联图结构,得到异常信息关联分析模型。
14.根据权利要求1所述的一种核算异常特征提取方法,其特征在于:
步骤5中,匹配核算业务场景,根据用户的业务场景,加载用户档案数据,通过异常信息关联分析模型模拟出用户在该场景下可能会引发的异常,验证异常实体与业务场景的关系,进而减少因业务变更导致核算过程中出现的异常情况。
CN202111242327.6A 2021-10-25 2021-10-25 核算异常特征提取方法 Pending CN113935819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111242327.6A CN113935819A (zh) 2021-10-25 2021-10-25 核算异常特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111242327.6A CN113935819A (zh) 2021-10-25 2021-10-25 核算异常特征提取方法

Publications (1)

Publication Number Publication Date
CN113935819A true CN113935819A (zh) 2022-01-14

Family

ID=79284200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111242327.6A Pending CN113935819A (zh) 2021-10-25 2021-10-25 核算异常特征提取方法

Country Status (1)

Country Link
CN (1) CN113935819A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807406A (zh) * 2024-03-01 2024-04-02 深圳市拜特科技股份有限公司 支付平台的企业账户管理方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807406A (zh) * 2024-03-01 2024-04-02 深圳市拜特科技股份有限公司 支付平台的企业账户管理方法、系统、设备及存储介质
CN117807406B (zh) * 2024-03-01 2024-04-30 深圳市拜特科技股份有限公司 支付平台的企业账户管理方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
Bussmann et al. Explainable AI in fintech risk management
Sun et al. An objective-based scenario selection method for transmission network expansion planning with multivariate stochasticity in load and renewable energy sources
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
WO2007106786A2 (en) Methods and systems for multi-credit reporting agency data modeling
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
Li et al. Risk dependence between energy corporations: A text-based measurement approach
CN112632765B (zh) 一种加权和法与sem法结合的作战能力评估方法
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN113177643A (zh) 一种基于大数据的自动建模系统
CN116933010A (zh) 一种基于多源数据融合与深度学习的负载率分析评价方法和系统
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
CN113935819A (zh) 核算异常特征提取方法
CN114118793A (zh) 一种地方交易所风险预警方法、装置及设备
CN115689407A (zh) 账户异常检测方法、装置以及终端设备
CN112950359A (zh) 一种用户识别方法和装置
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
Jianyuan et al. Anomaly electricity detection method based on entropy weight method and isolated forest algorithm
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
CN116468273A (zh) 客户风险识别方法及装置
CN110781959A (zh) 基于birch算法和随机森林算法的电力客户分群方法
CN114372835B (zh) 综合能源服务潜力客户识别方法、系统及计算机设备
CN116091206A (zh) 信用评价方法、装置、电子设备及存储介质
CN115147242A (zh) 一种基于数据挖掘的电网数据管理系统
Peng Research on credit risk identification of Internet financial enterprises based on big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination