CN110268409B - 用于电力欺诈检测的新型非参数统计行为识别生态系统 - Google Patents

用于电力欺诈检测的新型非参数统计行为识别生态系统 Download PDF

Info

Publication number
CN110268409B
CN110268409B CN201880010436.5A CN201880010436A CN110268409B CN 110268409 B CN110268409 B CN 110268409B CN 201880010436 A CN201880010436 A CN 201880010436A CN 110268409 B CN110268409 B CN 110268409B
Authority
CN
China
Prior art keywords
cases
unknown
demand
data
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880010436.5A
Other languages
English (en)
Other versions
CN110268409A (zh
Inventor
H·阿巴斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oracle International Corp filed Critical Oracle International Corp
Publication of CN110268409A publication Critical patent/CN110268409A/zh
Application granted granted Critical
Publication of CN110268409B publication Critical patent/CN110268409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R22/00Arrangements for measuring time integral of electric power or current, e.g. electricity meters
    • G01R22/06Arrangements for measuring time integral of electric power or current, e.g. electricity meters by electronic methods
    • G01R22/061Details of electronic electricity meters
    • G01R22/066Arrangements for avoiding or indicating fraudulent use
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R22/00Arrangements for measuring time integral of electric power or current, e.g. electricity meters
    • G01R22/06Arrangements for measuring time integral of electric power or current, e.g. electricity meters by electronic methods
    • G01R22/061Details of electronic electricity meters
    • G01R22/063Details of electronic electricity meters related to remote communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/20Information technology specific aspects, e.g. CAD, simulation, modelling, system security

Abstract

本公开的实施例针对电力欺诈检测系统,该电力欺诈检测系统涉及提高电力欺诈的检测率同时降低假肯定率的行为检测生态系统。更具体而言,避开机器学习算法有利于顺序地应用的两个单独模型。第一模型旨在通过使用检测器基于参与可疑行为的客户的需求简档来识别这些客户,从而提高电力欺诈的检测率。第二模型旨在通过识别任何可疑行为的潜在合理解释来降低假肯定率。减去具有合理解释的可疑行为只留下识别出的、无法解释的很可能与欺诈活动相关联的可疑行为。

Description

用于电力欺诈检测的新型非参数统计行为识别生态系统
相关申请的交叉引用
本申请要求标题为“NOVEL NON-PARAMETRIC STATISTICAL BEHAVIORALIDENTIFICATION ECOSYSTEM FOR ELECTRICITY FRAUD DETECTION”的于2017年4月13日提交的美国临时申请62/485,319和于2017年11月21日提交的美国非临时申请15/820,326的权益和优先权,上述每个申请出于所有目的通过引用整体并入本文。
背景技术
电力公用事业公司(electric utility company)的客户有时通过窃取电力而不付费来进行欺诈。这对于电力公用事业公司来说是严重的问题,因为难以检测到广泛的欺诈行为。
传统上,电力公用事业公司依赖于三种方法中的一种来检测欺诈:(1)具有资深主题专业知识的人类分析员以及对诸如住房许可之类的各种数据源集合的访问;(2)由电气计量技术的制造商提供的基于规则的系统;或者(3)基于运气(luck-based)的系统,其中其它客户向电力公用事业公司告知明显的欺诈案例(例如,他们的邻居显然在窃电)。这些方法是不可靠的,这由通过基于运气的系统识别出的大多数欺诈案例所证实。
这些方法的不可靠性源于低检测率和高假肯定(false-positive)率的组合。一些估计认为这些传统方法的假肯定率为80%,因此绝大多数所检测的欺诈案例实际上并没有发生欺诈。这导致电力公用事业公司花费巨大,从成本/收益的角度来看,抓住欺诈行为不再有利。抓住欺诈行为的这种经济不可行性使现有的欺诈者有胆量并鼓励潜在的欺诈者进行欺诈而进一步加剧了这一问题。
因此,需要可靠的电力欺诈检测系统,该电力欺诈检测系统能够在没有低检测率和高假肯定率的情况下检测欺诈,并且足够稳健以应用于住宅和工业电力欺诈检测二者。本公开的实施例旨在至少解决这些需求。
发明内容
在一些实施例中,公开了一种计算系统,该计算系统包括一个或多个数据存储库,存储已知数据集和未知数据集,已知数据集包括与已知电欺诈案例相关联的第一数据项,未知数据集包括与多个服务点处的未知电欺诈案例相关联的第二数据项,其中多个服务点中的每个服务点对应于电表,并且其中第二数据项包括与对应于每个服务点的电表相关联的电力需求。
计算系统还可以包括计算机处理器和存储程序指令的计算机可读存储介质,该程序指令被配置为由计算机处理器执行,以便使计算机处理器访问已知数据集并通过至少将模型的检测器行为应用于第一数据项来确定可疑已知案例集合。在一些实施例中,指令可以使计算机处理器通过针对模型的一个或多个假肯定解释来分析可疑已知案例集合中的每个已知案例,从可疑已知案例集合中确定已解释的已知案例集合,其中已解释的已知案例集合是可疑已知案例集合的子集。在一些实施例中,指令可以使计算机处理器基于所确定的可疑已知案例集合来验证模型、访问未知数据集,和/或通过至少将检测器行为应用于第二数据项来确定可疑未知案例集合。在一些实施例中,指令可以使计算机处理器通过针对一个或多个假肯定解释来分析可疑未知案例集合中的每个未知案例来从可疑未知案例集合中确定已解释的未知案例集合,其中已解释的未知案例集合是可疑未知案例集合的子集。在一些实施例中,指令可以使计算机处理器通过从可疑未知案例集合中减去已解释的未知案例集合来确定无法解释的未知案例集合,其中无法解释的未知案例集合是不与已解释的未知案例集合重叠的可疑未知案例集合的子集。
附图说明
图1图示了根据本公开的实施例的用于电力欺诈检测的系统图。
图2A图示了根据本公开的实施例的针对检测电力欺诈的算法的框图。
图2B图示了根据本公开的实施例的针对检测电力欺诈的算法的框图。
图3A图示了根据本公开的实施例的可用于电力欺诈检测的需求数据的示例。
图3B图示了根据本公开的实施例的可用于电力欺诈检测的欺诈数据的示例。
图4A图示了根据本公开的实施例的可用于电力欺诈检测的示例分布表。
图4B图示了根据本公开的实施例的可用于电力欺诈检测的示例分布图。
图5图示了根据本公开的实施例的可用于电力欺诈检测的示例分布表。
图6A图示了根据本公开的实施例的客户的示例需求简档。
图6B图示了根据本公开的实施例的客户的需求的示例曲线图(graph)。
图7图示了根据本公开的实施例的示例结果表。
图8A图示了根据本公开的实施例的在欺诈案例中检测到的低中位数需求(mediandemand)的示例曲线图。
图8B图示了根据本公开的实施例的在欺诈案例中检测到的低中位数需求的示例曲线图。
图9A图示了根据本公开的实施例的在欺诈案例中检测到的零中位数需求的示例曲线图。
图9B图示了根据本公开的实施例的在欺诈案例中检测到的零中位数需求的示例曲线图。
图10图示了根据本公开的实施例的对应于可疑行为的合理(legitimate)解释的示例字段活动标记。
图11图示了根据本公开的实施例的用于实现电力欺诈检测的框图。
图12图示了根据本公开的实施例的用于电力欺诈检测的混合系统图。
图13图示了根据本公开的实施例的用于需求突然减少,随后需求保持低位的示例行为模式。
图14图示了根据本公开的实施例的用于需求缓慢减少,随后需求保持低位的示例行为模式。
图15图示了根据本公开的实施例的用于在延长的时段内需求缓慢减少的示例行为模式。
图16图示了根据本公开的实施例的用于非常低需求的示例行为模式。
图17图示了根据本公开的实施例的当预期需求上升而需求未上升时的示例行为模式。
图18图示了根据本公开的实施例的需求过于异常稳定的示例行为模式。
图19描绘了用于实现实施例之一的分布式系统的简化图。
图20是根据本公开的实施例的系统环境的组件的简化框图,通过该系统环境,可以将由实施例系统的组件提供的服务作为云服务供应。
图21图示了其中可以实现本发明的各种实施例的示例性计算机系统。
具体实施方式
在以下描述中,出于解释的目的,阐述了具体细节以便提供对本发明的实施例的透彻理解。但是,显而易见的是,可以在没有这些具体细节的情况下实践各种实施例。附图和描述不旨在是限制性的。
可以以各种配置提供一些图中描绘的系统。在某些实施例中,系统可以被配置为分布式系统,其中系统的一个或多个组件分布在云计算系统中的一个或多个网络上。在某些实施例中,系统可以被配置为在虚拟或非虚拟环境中操作。
简介
如前所述,电力公用事业公司的客户有时通过窃取电力而不付费来进行欺诈。由于低检测率和高假肯定率的组合,电力公用事业公司难以用现有系统检测这种欺诈。换句话说,系统无法检测到欺诈,并且有在系统确实检测到欺诈的几次,实际上并没有发生任何欺诈。
应用于欺诈检测的机器学习算法的使用由于各种原因不太可能解决这些缺点。首先,机器学习算法(诸如被配置为将客户行为分类为欺诈或非欺诈的监督学习方法(例如,分类-SVM)),倾向于从过去的观察记忆模式以便应用于未来预测。不幸的是,过去对实际欺诈的观察数量有限,这为机器学习算法带来了冷启动问题;没有足够的欺诈案例数据来从机器学习算法中产生可靠的预测。因为算法只能检测到与用于训练算法的有限数量的案例类似的案例,因此可能存在许多未被算法检测到的欺诈案例,因为它们在训练集中未被首先识别。机器学习算法受限于它们所能检测到的,因为它们只能检测到过去已经发生的事情。低检测率的问题将持续存在。
此外,机器学习算法通常在解释因果推断方面受到限制。理解因果关系和模型的输入之间的关系有助于构建稳健的模型。更复杂的模型(例如,做出更多假设的模型)带来更大的风险,并且随着风险的增加,应该在性能上带来可测量的统计上显著的提升,以确保复杂性和稳健性之间的适当平衡。
另外,电力欺诈的进行者在他们正在被调查或怀疑他们正在被调查时经常改变他们的行为。因此,训练机器学习算法基于过去的模式来识别欺诈行为可能是有缺陷的,因为这些行为模式可能随时间而改变。
为了避免这些缺点,可以从头开始设计电力欺诈检测系统,该电力欺诈检测系统单独处理低检测率和高假肯定率的问题,而不是以连接的方式处理它们。换句话说,电力欺诈检测的问题可以被分解为两个单独的子问题,这两个子问题使用可以顺序应用的两个单独的模型来解决;一个模型可以针对检测具有高检测率的欺诈,而另一个模型可以针对减少假肯定以便过滤由第一模型产生的结果。
从概念上讲,检测欺诈行为的子问题可以首先被优先考虑,因为具有低检测率使得许多欺诈案例未被识别(“未知的未知情况(unknown unknowns)”),这给电力公用事业公司增加了显著的成本。因此,第一模型(例如,检测器模型)可以被配置用于使用各种欺诈活动的检测器来检测欺诈行为。但是,为了检测先前未识别出的欺诈案例,这种模型不应使用利用先前识别出的欺诈的训练集构建的检测器(因为它们不考虑未识别出的欺诈)。在一些实施例中,该模型的检测器可以直接基于客户的需求或电力使用量(usage)而不是观察到的过往欺诈案例。检测器可以被配置为检测需求简档内导致公司的收入减少的各种形式的可疑行为。
然后可以存在第二模型(例如,假肯定模型),第二模型通过试图找到与由第一模型检测到的案例相关联的可疑行为的合理的、非欺诈的解释来集中于降低假肯定。该第二模型用于排除任何合理解释的可疑行为,留下极有可能是欺诈的案例。
换句话说,可能存在“管道(pipeline)”,其中指定了导致公司的收入损失的模式(例如,检测器)。这种模式可以被称为“异常行为”,或简称为“行为”。可以进行搜索以识别行为的实例。针对这些搜索结果运行假肯定规则引擎以便排除假肯定。保留的案例(例如,搜索结果未作为假肯定被排除)是具有更高欺诈可能性的案例。这种管道可以应用于(1)已知欺诈案例集合;(2)未知的未知情况集合(其它一切的集合)二者。
当管道应用于(1)已知欺诈案例集合时,所获得的结果包括:(A)检测器检测到的已知欺诈案例的数量;(B)检测器未检测到的已知欺诈案例的数量;(C)在检测到的行为集合中,用假肯定规则引擎解释清楚(explain away)的案例的数量,以及为什么它们被解释清楚的数字细分;(D)在检测到的行为集合中,没有用假肯定规则引擎解释清楚的案例的数量。
当管道应用于(2)未知的未知情况集合时,所获得的结果包括(A)其中检测器检测到行为的案例的数量;(B)检测器未检测到任何行为的案例的数量;(C)在检测到的行为集合中,用假肯定规则引擎解释清楚的案例的数量,以及为什么它们被解释清楚的数字细分;(D)在检测到的行为集合中,没有用假肯定规则引擎解释清楚的案例的数量。
通过将管道应用于(1)已知欺诈案例集合;以及(2)未知的未知情况集合(其它一切的集合)并且分析这些结果中的信息,获得对关于检测器执行的情况和现有检测器的质量的理解。这还提供了对可能需要被构建以增加检测能力的附加检测器的数量的理解。例如,搜索1000个案例可以识别20个检测到的行为,但在剩余的980个案例中可能仍然存在这20个检测器未被设计为捕捉的其它行为。这可以告知需要构建附加的检测器。
此外,将管道应用于(1)已知欺诈案例集合;以及(2)未知的未知情况集合(其它一切的集合)两者还提供了对假肯定规则引擎如何执行的理解,以及对是否需要构建附加的假肯定规则来减少假肯定的数量的理解。这是重要的,因为可能存在可以被构建并基于来自各种各样来源的信息的大量不同的假肯定规则。
例如,可以从内部数据源获得假肯定规则,以便识别“小公寓尺寸”、“客户是太阳能客户吗”等;假肯定规则也可以由外部数据源(诸如Facebook、Twitter、LinkedIn、Glassdoor、或者甚至是新闻媒体)确定。例如,LinkedIn简档可以指示客户X具有进行电力欺诈的必要工程知识,因此如果正检测到异常行为,那么相对于预期不具有该知识的人,该行为是欺诈的可能性可能增加。类似地,可以监控Twitter跟随、YouTube/Facebook评论和群组关联并且可以捕获关于人参与的主题(分享、喜欢或评论)的信息。这种技术可以通过将各种开源工具和API串在一起或者通过诸如Oracle市场云(Oracle Marketing Cloud)之类的软件获得。
此外,来自用于创建假肯定规则的这些各种数据源(例如,内部源(内部客户数据)和外部源(社交媒体))的数据可以被馈送到图形数据库中,以便自动且快速地识别社区和复杂的关系。例如,图形数据库可以通知参与欺诈的人喜欢“X、Y、Z”并且谈论“A、B、C”。然后,图形数据库将返回具有类似特征但尚未参与欺诈的所有人。因此,可以使用由图形数据库产生的推断和知识来构建假肯定规则引擎。图形数据库的类似用途允许世界各地的警察部门跟踪对重要政治人物的负面情绪和抗议团体的活动(例如,以计划人群控制、路障等),并且还允许信用卡欺诈的检测。
这允许假肯定规则引擎演变成个性化欺诈系统,使得来自需求简档的数据与来自社交媒体的指示在数学和物理地理空间方面与已知欺诈者的关系/关系程度的数据结合。这些数据点可以用于构建客户简档的360视图。例如,客户对与绿色能源相关的事物(或关于该影响的社交媒体帖子)的兴趣可能直接指示需求的突然减少是由于变化和偏好的转变(例如,客户正在变得环保以保护环境)而不是想要进行欺诈。在没有社交媒体监听方法的情况下,这些数据将不会被捕获并被假肯定规则引擎考虑在内来解释清楚合理的需求减少。
因此,本文描述的电力欺诈检测系统可以基于欺诈预防而不是欺诈反应的范例,该电力欺诈检测系统允许首先防止欺诈发生。尚未参与欺诈但是图形数据库已经识别出的人可以被劝阻或阻止参与欺诈,这是简单地通过利用有针对性的邮件活动或短信针对他们、突出显示公司检测欺诈的能力来实现的。换句话说,一旦预测模型识别出谁可能参与欺诈,就可以采用某种类型的外展活动(outreach campaign)来防止事件发生。这些活动的成功可以通过简单地监控谁接收到外展处理并且最终仍然进行欺诈来跟踪。这种外展活动的目的是执行某种类型的行为修改-例如,防止某人做某事(不进行欺诈)。这在意识形态上与营销中的“转换漏斗(conversion funnel)”类似,其中客户在进行购买时经历了一系列阶段:意识、意图、然后最终决定购买。同时,本申请中的电力欺诈检测系统的反应版本将处理通过“转换漏斗”中的所有阶段并实现“转换”的客户(例如,他们实际上参与了欺诈)的识别。
因此,系统的预防性、欺诈前版本将识别并处理已进入转换漏斗但尚未转换(例如,欺诈尚未发生)的每个人,并且欺诈检测系统的反应版本将处理转换后的每个人(例如,犯有欺诈行为的人)。这些系统可以连接在一起,以在欺诈预防和欺诈反应领域创建真正的联合备战(arms)方法。因此,无论客户在转换漏斗中的哪个位置,都会有一种数学上具体/严谨的方式来处理他们。
关于在电力欺诈检测系统中使用的检测器,通过设计有意地将检测器与假肯定规则引擎分离,因为假肯定规则引擎可以适用于多个检测器,或仅专用于一个检测器。可以通过存储输出来核实检测器和假肯定规则引擎的这些组合的数值精度。这使得我们可以不断改进检测器和假肯定规则引擎。此外,该框架允许快速且高效地执行根本原因分析。关于检测器如何得出其结论(检测器是预先定义的)或导致假肯定的原因(这是未包含在假肯定规则引擎中的规则),不存在猜测工作。因此,可以快速地识别和修复检测器/假肯定规则引擎中的任何缺陷。
检测器和假肯定规则可以由人类专家、AI或两者构建。例如,可以通过应用机器学习关联规则/无监督学习来构建自动假肯定规则。在另一种方法中,可以使用先前描述的图的遍历以利用社交媒体和内部数据来识别假肯定。这两种不同的方法甚至可以组合成单个双管齐下(two-pronged)的方法,该方法具有人类专家所知但通过机器学习算法来实现(例如,使用依赖于未在数据中捕获的业务知识的推断)的假肯定规则。这个生态系统性能监控框架通过允许用户在不影响工作内容的情况下更改不工作的内容来允许电力欺诈检测系统的持续改进,并使得用户获得对为什么某些参数可能最初能很好工作有更好的理解。
示例实施例
图1图示了根据本公开的实施例的用于电力欺诈检测的系统图。
在一些实施例中,可以存在一个或多个客户102-1至102-n,诸如电力公用事业公司的具有输送到其住宅的电力的客户。当每个客户使用电力时,可以在相应的仪表104-1至104-n处测量它们的电力使用量。在一些实施例中,仪表可以与区别标识符(例如,服务点id)相关联,并且每个客户的住宅/房产可以与仪表相关联。因此,仪表的区别标识符也可以用于识别相关联的客户。
仪表104-1至104-n可以将电力使用统计信息以及其它信息报告给电力欺诈检测(EFD)系统110。各种客户102-1至102-n的电力使用量可以存储在需求数据库112中。在一些实施例中,可能存在观察到的欺诈数据库114,该欺诈数据库114包含与先前观察到的欺诈活动的案例(诸如客户窃取电力而没有为电力付费)相关联的数据项。在一些实施例中,这些观察到的欺诈案例可以用于帮助提供反馈并核实电力欺诈检测系统110的结果。
在一些实施例中,电力欺诈检测系统110可以能够检测到一个或多个客户102-1至102-n的欺诈活动。这可以通过各种方法来完成,包括基于每个客户102-1至102-n的电力使用量来确定其行为简档,如本文将讨论的。在一些实施例中,一旦电力欺诈检测系统110识别或检测到正在由一个或多个客户102-1至102-n执行的欺诈活动,电力欺诈检测系统110就可以通过计算设备120告知调查员122。然后,调查员122可以对客户执行的任何欺诈活动进行调查,以便核实欺诈正在发生。
图2A图示了根据本公开的实施例的针对检测电力欺诈的算法的框图。图2B也图示了根据本公开的实施例的针对检测电力欺诈的算法的框图。图2A和图2B一起描述。
在方框202处,可以使用包含客户的需求数据和欺诈数据的数据集(例如,图3A和图3B中所示的数据表的组合)来确定已知案例集合(先前观察到的实际欺诈)以及这些已知案例的对应数据项(例如,进行该欺诈的客户的需求数据)。该数据集还可以用于确定未知案例集合以及这些未知案例的对应数据项(例如,未涉及先前观察到的实际欺诈的客户的所有数据项)。作为更具体的示例,可以将所有案例220的数据集分成已知案例222的数据集和未知案例224的数据集。已知案例集合可以用于验证电力欺诈检测系统中使用的模型中的一个或两个的准确性。
在方框204处,行为集合在第一模型中被指定为用于检测可疑行为的检测器(例如,检测器226),第一模型被设计为过度包含可疑行为以便提高欺诈检测率。如前所述,检测器可以基于与每个客户的需求简档相关联的行为或与每个客户的随时间的电力使用量相关联的度量。可以基于需求数据来计算这些需求简档,该需求数据可以通过图1中所示的仪表104-1至104-n为所有客户收集。例如,客户在一年中的每日电力需求可以用于计算该时间段的最大需求、最小需求和中位数需求;这些度量可以被视为该时间段客户的需求简档的一部分。关于图2A、图2B和图6更详细地描述了需求简档。与需求简档相关联的图的示例在图8A、图8B、图9A和图9B中示出。
可以将检测器视为与可能导致收入损失的需求简档相关联的预定义行为模式。第一模型可以配置有多个检测器,因此能够识别属于这些预定义模式的集合中的任何模式的任何客户需求简档。检测器的示例将是客户的需求简档的低中位数需求,其可以以各种方式定义。例如,它可以被定义为中位数需求始终为零并且最大需求始终为零、中位数需求为零但最大需求大于零、在所有客户的中位数需求的最低百分之10内的中位数需求(例如,至少90%的客户群体具有更大需求)等。基于百分位的检测器的实现关于图4A、图4B和图5进一步详细描述。应该注意的是,中位数可以有助于绕过潜在的偏斜(skew)问题,因为客户的日常需求可能是可以具有异常值的高度易变的过程(例如,日常变化很大)。因此,可以容易地将附加的检测器添加到模型,该模型可以被称为既稳健又严格的“生态系统”,因为它可以包括许多高度专业化的独立检测器,每个检测器关注与需求简档相关联的特定行为。此外,以这种方式使用检测器避免了对过去行为(例如,先前观察到的欺诈)中的模式的依赖并且不涉及训练。由于不涉及检测器的训练并且检测器关注于行为,因此可以使用相同的检测器来检测工业欺诈以及住宅欺诈(因为没有应用特定于任何一种案例的模式)。
在一些实施例中,可以结合到检测器中的潜在可疑行为模式的其它示例包括:
(1)需求突然减少,随后需求保持低位(如图13所示);
(2)需求缓慢减少,随后需求保持低位(如图14所示);
(3)在延长的时段需求缓慢减少(如图15所示);
(4)需求非常低(如图16所示);
(5)预期需求上升时但需求没有上升(如图17所示);
(6)需求异常地过于稳定(如图18所示)。
应当注意的是,在图13-图18及其对应的描述中,尤其是在图16中,低需求或非常低的需求可以通过在给定时间点从感兴趣的群体的ECDF的分布来定义。例如,在图16中,感兴趣的群体的ECDF用于获得需求分布(例如,包括中位数需求)。低需求将被定义为该分布(例如,分布的分布)的左下尾而不是任意选择的需求阈值(例如,10kwh)。符合低需求的确切需求量将取决于当时的时间和群体行为。例如,低需求可以是10kwh或100kwh,取决于整个群体的典型需求。图13-图18提供了可以被分类为行为模式的客户需求简档的可视化。这些可视化中的数据可以使用时间相关的度量被量化,诸如中位数、最大值、最小值等。这些将被输入到行为检测器中,以相对于由其它每个人表现的度量来检测跨时间这些类型的模式。
在方框206处,通过确定具有可疑行为的已知案例,针对已知案例集合(例如,先前观察到的欺诈案例)来验证第一模型的检测器。例如,如果在一年时段存在38个欺诈案例,则可以生成这38个欺诈案例中涉及的每个客户的需求简档,并且可以将第一模型的检测器应用于这些需求简档。作为更具体的示例,假设第一模型包括基于低中位数需求(例如,中位数需求为零并且最大需求为零、中位数需求为零但最大需求大于零、中位数需求在所有客户的中位数需求的最低百分之10内)的检测器集合,并且38个需求简档中的15个被第一模型识别为可疑。这意味着该有限的检测器集合捕捉了大约40%的已知欺诈案例。通过向模型添加附加的独立检测器,可以进一步提高这个准确度。
在方框208处,第一模型的检测器可以应用于未知案例(例如,不在已知欺诈案例集合中的所有其它客户-可能存在许多,表示绝大多数客户)以便确定具有可疑行为的未知案例。这可以涉及确定每个客户的需求简档并针对每个需求简档应用检测器集合以查看是否存在任何需求简档被标记为可疑行为。例如,根据与表示未知案例的400,000多名客户对应的数据,可能会识别超过34,000个可疑行为案例。这些案例与之前已知的和经核实的欺诈案例集合互斥,并且相对大量的这些案例表明,很有可能发生使用传统方法未检测到的欺诈行为(即使这些可疑案例中只有一小部分是欺诈性的)。
因此,如图2B所示,检测器226可以单独应用于已知案例222和未知案例224两者。检测器226可以应用于已知案例222进行模型验证目的,以便确定具有可疑行为228的已知案例。换句话说,已知案例222可以用于检查检测器226是否正在正确地将大多数或所有已知案例222识别为可疑行为。检测器226也可以投入使用并应用于未知案例224,以便识别与可疑行为230相关联的客户账户或未知案例。
在方框210处,可以在第二模型中指定对可疑行为的合理解释,第二模型可替代地被称为假肯定规则引擎。第二模型的工作是通过使用对可疑行为发生原因的合理解释以便将其排除在可疑之外来解决电力欺诈检测中的高假肯定率问题。对可疑行为的可能合理解释可以包括:(1)客户是减少其需求的太阳能面板的用户;(2)存在装备故障;(3)存在风暴;(4)存在没有风暴情况下的电网过载;(5)电力公用事业公司关闭电力公用事业或用户请求关闭电力公用事业;(6)客户的需求存在品味和偏好的变化;(7)居住群体存在变化;(8)记账时段存在营销活动或变化;或者(8)客户在高峰时段期间使用了发电机来省钱。
在方框212处,可以将第二模型应用于具有可疑行为的未知案例,以便查看是否可以使用在方框210处指定的任何合理解释来解释这些未知案例中的任何案例。如果找不到对服务点的可疑行为的可能合理解释,则该服务点可能是潜在欺诈活动的候选者。在一些情况下,假肯定解释232可以应用于具有可疑行为228的已知案例和具有可疑行为230的未知案例两者。这将导致具有无法解释的可疑行为234(其还可以用于验证第二模型错误地将实际的、经核实的欺诈确定为合理行为)的已知案例集合和具有无法解释的可疑行为236的未知案例集合以进一步调查。因此,在方框214处,可以从具有可疑行为的未知案例的总列表(在方框208处确定)减去被识别为对其可疑行为具有合理解释的未知案例。剩余未知案例是具有可疑行为的无法通过任何合理解释进行解释的案例,因此极有可能是欺诈性的。在方框216处,可以进一步调查具有无法解释的可疑行为的任何剩余未知案例以核实欺诈。在一些情况下,这可能涉及告知调查员外出确认欺诈正在发生,诸如通过让电力欺诈检测系统110向计算设备120发送通知以通知调查员122出去往哪些服务点并进行调查。
图3A图示了根据本公开的实施例的可用于电力欺诈检测的需求数据的示例。图3B图示了根据本公开的实施例的可用于电力欺诈检测的欺诈数据的示例。
两个图仅示出了数据表实际上看起来那样的有限部分。实践中,数据表可能包含数十万甚至数百万个条目。随着客户数量的增加,数据表的大小可以几何增加,并且可以在越来越长的时间段内跟踪他们的日常需求。在一些情况下,数据的总大小可能超过千兆字节或太字节数据,并且人类不可能利用所有数据进行心理计算或纸笔计算。因此,本公开的系统和方法使得能够对大量数据进行数据驱动分析,以便识别使用传统方法无法识别出的许多潜在的欺诈案例。
两个图都以科学记数法显示值。这仅用于示例目的,并且在实践中,数据表可以以任何类型的格式存储值。在一些实施例中,处理数据表中的数据可涉及读取数据和清理数据。清理数据可能涉及将值转换为不同的格式,诸如将值转换为以科学记数法显示,或将服务日期转换为月/日/年格式。
关于图3A,该图图示了原始形式的数据表,该数据表包含与多个电力公用事业客户相关联的需求数据。在一些实施例中,可能存在每个客户的每日需求数据,使得客户每天使用的电力需求是已知的。在一些实施例中,数据表可以包括按列(诸如列302、304、306、308、310、312、314和316)排序的数据项行。与图中未示出的电力公用事业客户有关的其它数据也可以包括在数据表中。
在一些实施例中,列302(以标题“sp_id”示出)可以是服务点id,该服务点id对应于服务点的不同识别号。服务点可以是特定客户的电表。因此,服务点id可以用于识别特定客户。例如,在包含400,000个客户的数据表中,可能存在400,000个唯一服务点id。但是,应该注意的是,数据表中可能有超过400,000行,因为每个客户可能针对跟踪的每个服务日期可以具有一行数据。例如,拥有100个服务日期的数据的客户将与数据表中的100行数据相关联,这些行都具有该客户的服务点id。此外,如果客户有多个地址接收电力服务,则可能存在属于该客户的多个服务点。这是有用的,因为具有多个地址的在一个房产上进行欺诈的客户很可能会在该客户的其它房产上进行欺诈。
在一些实施例中,列304(以标题“需求”示出)可以是客户特定服务日期的需求或电力使用量。可以以任何合适的单位或度量来测量该需求。在一些这样的实施例中,该需求可以以千瓦时(kWh)来测量。例如,一行数据中为“4.1”的需求值可以表示该行的特定客户在该特定服务日期使用了4.1kWh(在列306中表示)。因此,数据表中示出的需求值可以对应于每日使用量。但是,在其它实施例中,需求值不一定具有逐日分辨率。例如,可以逐小时、逐分钟、逐周等跟踪需求值。
在一些实施例中,列306(以标题“服务_日期(service_date)”示出)可以是以日、月、年格式的服务日期。例如,值“01032017”可以对应于2017年1月3日。但是,可以使用任何其它合适的格式来表示特定服务日期,包括但不限于年/月/日格式、月/日/年格式等。在前面的示例中,具有需求值为“4.1”且服务日期为“01032017”的一行数据将指示与该行的服务点id相关联的客户在2017年1月3日使用了4.1kWh。
在一些实施例中,可以将服务日期进一步解析或分解为特定季度、月份、周数和一周中的特定日期。例如,在数据清理过程期间,可以确定服务日期的年份并在列308中显示(以标题“年(yr)”显示)。可以确定服务日期的季度并在列310中显示(以标题“季度(qt)”显示)。可以确定服务日期的月份并在列312中显示(以标题“月(mn)”显示)。可以确定服务日期的周数并在列314中显示(用标题“周(wd)”表示)。可以确定服务日期是星期几并在列316中显示(以标题“日(day)”显示);例如,如果服务日期是星期日,则列316中的值可以是“1”,或者如果服务日期是星期六,则列316中的值可以是“7”。
关于图3B,该图图示了原始形式的数据表,该数据表包含与多个电力公用事业客户相关联的欺诈数据。在一些实施例中,数据表可以包括按列(诸如列320、322和324)排序的数据项行。因此,该数据表中的每行数据可能与欺诈案例(例如,电力窃取)有关。与图中未示出的欺诈发生有关的其它数据也可以包括在该数据表中。
在一些实施例中,列320(以标题“欺诈_日期(fraud_rate)”示出)可以是检测到欺诈发生的服务日期。在一些实施例中,列320中的值的格式可以与列306中所示的服务日期值的格式相同(例如,日、月、年格式)。例如,值“01032017”可以对应于2017年1月3日,作为针对数据行中所指示的特定客户检测到欺诈的服务日期。但是,如前所述,可以使用任何其它合适的格式来表示特定服务日期。
在一些实施例中,列322(以标题“总数”示出)可以是与欺诈相关联的总美元金额。换句话说,列322可以基于被盗的电量指示欺诈花费了电力公用事业公司多少钱。
在一些实施例中,列324(以标题“sp_id”示出)可以是检测到欺诈的服务点的服务点id。换句话说,该服务点id可以对应于特定客户。列324中的这些值可以用于将欺诈数据(例如,图3B的表)与也具有服务点id(例如,列302)的客户需求数据(例如,图3A的表)联接。例如,对于图3B的数据表中对应于检测到的欺诈的发生的数据行,存在指示的服务点id(例如‘1234567’)。可以在对应的需求数据(例如,图3A)中查找该服务点id,以便针对任何可用的服务日期找到该服务点id的所有每日需求数据。例如,可以进一步缩窄该查询,以找到该服务点id在2015年的每日需求数据;将有多达365行的需求数据符合该准则。
图4A图示了根据本公开的实施例的可以用于电力欺诈检测的示例分布表。
如前所述,各种检测器可以用于从客户需求简档中识别可疑行为。提到的检测器的一个示例涉及行为模式,该行为模型中在一段时间内客户的中位数需求在所有客户的中位数需求的最低百分之十之内(例如,至少90%的客户群体具有更高的中位数需求)。使用分位数(quantile)代替静态值来定义检测器可能关联若干优点。例如,与第10百分位数、中位数、第90百分位数等相关联的值可能随时间而变化。整个客户群体可能在冬季(用于加热)或夏季(用于冷却)等使用额外的电力。因此,在群体水平的需求可能存在季节性和趋势。取决于群体中其它客户的需求变化,需求中位数为10kWh的客户可以被视为低需求或高需求。但是,任何分布的第10百分位可能是罕见的事件(rare event),因为这是它的数学定义(例如,它发生的时间少于10%)。因此,无论总体需求如何在群体水平上发生变化,表现出低于群体需求第10百分位的需求的客户将始终被视为具有低需求,因为90%的群体具有更大的需求。
换句话说,定义具有阈值“10kWh”的检测器可以影响特定客户是否具有低于该阈值的需求,该需求取决于日子、季节或指定的时间段。替代地,基于百分位数的检测器使用意味着必须将客户的需求简档针对所有其它客户的需求简档进行比较,并且可以将每个客户的行为确定为低需求或相对于其它每个人罕见。例如,如果每个人的使用量在增加,但是一个特定客户没有增加的需求,其账户未被关闭,那么该客户可能通过具有使其报告的电力使用量持平的调节器来窃电。
在先前的示例中,选择第10百分位数作为在群体中将被认为是罕见的行为的阈值。但是,可以使用任何其它阈值(例如,在第15百分位数下的中位数需求可以被认为是低的)。阈值越低,在群体中可以表现出的行为越罕见。例如,具有在第5百分位数下的中位数需求的客户少于具有在第10百分位数下的中位数需求的客户,而具有在第5百分位数下的中位数需求的客户可能更有可能进行欺诈。但是,将阈值设置得太低可能导致仅在该阈值内找到具有行为的少量客户(或没有找到客户)。例如,如果阈值设置在1百分位数,则没有客户具有低于1百分位数的中位数需求。将阈值设置得更高,诸如在第10百分位数处,确保模型识别出足够的客户。因此,在设置阈值时可能存在权衡;在识别较少数量的潜在欺诈客户(并且潜在地识别太少客户)或以假肯定率增加为代价识别更多潜在欺诈客户之间进行权衡。
在一些实施例中,可能存在被配置为自动设置阈值并平衡这些各种考虑因素的算法。在一些实施例中,算法可以被配置为基于使用检测器识别为具有可疑行为的最小客户数来设置阈值。换句话说,算法可以选择将产生所选择的具有可疑行为的最小数量的客户的百分位数。例如,可以指定应该最少有20个客户基于其中位数需求低于阈值而被识别为具有可疑行为。基于整个客户群体的需求简档的分布,算法可以设置阈值,使得至少20个客户被识别为具有低于该阈值的中位数需求。从欺诈调查的角度来看,这可能是有用的,因为关于可以对多少识别出的潜在欺诈客户进行调查可能存在限制。例如,图1中的调查员122可能只有可用于访问12个客户的资源。对算法进行配置来设置阈值以识别具有可疑行为的20个客户可能导致甚至更小的具有无法解释的可疑行为的客户列表(例如,如果这些识别出的客户中的8个是太阳能用户,则将有12个客户仍然具有无法解释的可疑行为)。但是,这个较小的具有无法解释的可疑行为的客户列表都可能潜在地被调查员122调查。因此,该算法可以用于根据调查员122的资源或可用性来裁剪识别出的具有可疑行为的客户的数量和识别出的具有无法解释的可疑行为的客户的数量。
应当注意的是,为了实现使用百分位数定义的检测器,必须确定客户需求简档的分布,以便允许客户的行为相对于其它每个人进行排名。这可以通过计算和绘制集合中所有客户的需求简档的分位数分布和经验累积分布函数(ECDF)来完成。
例如,参考图4A,示出了在一段时间内(例如,在一年的时间段内)38个欺诈客户的集合中的每个客户的中位数需求的分布表(图示了分位数分布)。图中所示的分布表描绘了如何将每个顾客的中位数需求(或需求简档的任何其它方面)划分为不同的百分位数范围。
这38个欺诈案例的对应数据将存储在类似于图3B中所示的数据表中。这38个欺诈案例的服务点id可以用于查询在该年度期间与这些服务点相关联的需求数据(例如,2015年的需求数据)。因此,将为这38个服务点id中的每一个识别2015年每天的每日需求。对于每个服务点id,还可以使用该时间段上的每日需求,以便计算与该服务点id相关联的行为简档。例如,每个服务点id将与账户曾活动的天数、该时间段的中位数需求、该时间段的最大需求、该时间段的最小需求等相关联。换句话说,对于服务点id为“1234567”,可以确定该账户已经活动了500天、在该年度的中位数需求为4kWh、在该年度的最小需求为0kWh,以及在该年度的最大需求为20kWh。
返回参考图4A,可以基于欺诈案例的需求简档的度量来对这些欺诈案例进行分类和排序。例如,基于与对应的38个服务点id中的每一个相关联的中位数需求,可以从最小到最大来排序所有38个欺诈案例。可以使用任何度量,诸如最小需求或最大需求,但该图基于示例性目的的中位数需求。对应于所有欺诈案例的中位数需求构成分布,该分布可以用于基于每个欺诈案例的中位需求位于该分布中的位置将欺诈案例放入各种桶(bucket)中。然后在图4A中所示的数据表中报告欺诈案例到各个桶中的得到的放置,图4A被示出为具有按列402、404和406排序的多个行。
在一些实施例中,列402(以标题“分位数”示出)可以用于指示分布的某个桶,该桶在一些情况下可以是分布的分位数。例如,数据表的行‘a’在列402下具有值‘0’,并且数据表的行‘b’在列402下具有值“1”。因此,数据表的行‘b’可能与具有在中位数需求的百分位数在‘0’和‘1’之间的中位数需求的欺诈案例有关。在列402下具有值“100”的最后一行将指示具有中位数需求的百分位数在‘75’(前一行的值)和‘100’之间的中位数需求的欺诈案例的数量。
在一些实施例中,列404(以标题“中位数_需求(med_demand)”示出)可以显示与特定分位数相关联的中位数需求。例如,数据表的行‘f’在列404下具有零值,这将指示在第20百分位桶中欺诈案例的中位数需求为零。如前所述,可以使用行为简档中的任何合适的度量来代替中位数需求,包括最小需求、最大需求等。
在一些实施例中,列406(以标题“数量(num)”示出)可以显示由表的行指示的桶中的观察的数量。因此,在示例数据表中,存在19个观察在中位数需求的第20百分位桶内,该中位数需求被确定为零。38个欺诈观察中有9个落在中位数需求的第75百分位桶内,该中位数需求被确定为具有值34.5145。
图4B图示了根据本公开的实施例的可用于电力欺诈检测的示例分布图。更具体而言,该图示出了与图4A中的38个欺诈客户的中位数需求对应的经验累积分布函数(ECDF)的示例图。图4B的ECDF和图4A的分布表二者都在0%至100%的范围内,其中100%表示所有观察。
图4B的ECDF基于自动计算欺诈案例的累积分布函数,并且它显示每个数据点(例如,客户的中位数需求)如何相对于所有其它数据点下降(例如,该中位数需求与所有其它观察的中位数需求相比如何)。这对于对观察进行排名是有用的。应该注意的是,每个客户的分布随时间而变化,并且需求是季节性的,这意味着它在冬季、夏季等可能变化。
因此,仅使用ECDF,可以在单个视图中将客户的需求简档与其余群体的需求简档进行比较。如前所述,这是有用的,因为罕见事件的定义可能随时间而改变(例如,夏季的罕见事件可能是冬季的常见事件,反之亦然)。相比之下,机器学习算法无法将这些变化考虑在内,因为它只能记住过去的模式以将它们投射到未来。此外,人们在被监控时改变他们的行为,这导致机器学习算法不能解释的分布变化。
ECDF还可以用于对客户的电力使用特性进行排名。根据ECDF可以确定客户的需求简档如何相对于彼此排名以及这些分布如何随时间变化。例如,可以查看ECDF中客户需求简档的各种度量的变化,以看到整个客户群体的行为从12月到1月如何变化。跟踪整个客户群体的行为并针对群体的典型行为考虑每个客户的行为可以允许由于可以进行欺诈的各种方式而增加对欺诈的检测。并非所有欺诈案例都涉及其中客户规避或关闭其电力使用计量使得其报告的使用量为零的场景。替代地,客户可以使用调节器以便防止报告的需求减少,但客户实际上可能使用比所报告的电力更多的电力。在这种情况下,仅仅通过查看该客户的需求简档来检测欺诈是困难的。该客户的需求简档必须与其它客户的需求简档进行比较,以便确定该客户的需求本应该增加,但由于欺诈活动而没有增加。以这种方式,本公开的实施例能够考虑客户的行为变化(例如,在先前示例中的客户开始使用调节器)并检测到这些行为变化。这些行为变化在欺诈中非常常见,这就是为什么机器学习模型在开始时并不准确,并且经常需要更新其模型。
总而言之,基于百分位数定义检测器意味着不预先指定罕见事件,而是从群体中的需求简档来推导罕见事件。例如,可以确定低于第10百分位数的中位数需求对应于低于10kWh的中位数需求,其将低于群体的90%。
图5图示了根据本公开的实施例的可用于电力欺诈检测的示例分布表。
更具体而言,示出了针对406,388个客户的集合(例如,未知情况集合)的示例分布表500,其中,使用小于群体的第10个百分位数的中位数需求的检测器(在这种情况下对应于小于10kWh的中位数需求)识别出34,719个需求简档具有与已知欺诈案例相同的行为特性。应该注意的是,将表500中的所有数字相加产生大约~38,000个简档(与~34,000个简档不同),这可以解释为一些账户处于非活动状态且检测器无法区分活动账户和非活动账户-区分是FP规则引擎的工作。
在这种场景中,在行‘c’中可以看到有18,982个需求简档具有低于群体的98%的中位数需求。从行‘b’还可以看出,在群体的第1百分位数中没有需求简档,因为该桶已被完全跳过。
图6A图示了根据本公开的实施例的客户的示例需求简档。图6B图示了根据本公开的实施例的客户需求的示例图。
如图6B所示,曲线图600基于客户的需求数据并且以千瓦时(kWh)为单位显示客户在超过500天的时段内在逐天的基础上的需求或电力使用量。由于客户的需求每天变化很大,因此可以在该曲线图中看到这种变化性。
该需求数据可以用于计算客户需求简档中包括的许多度量。例如,该特定客户的需求简档可以通过该时间段内的最小需求为0kWh、在该时间段内的中位数需求为1kWh、在该时间段内的最大需求为54kWh、在该时间段内的平均需求为6.704kWh、在该时间段内的第一个四分位数需求为0kWh、在该时间段内的第三个四分位数需求为5kWh来定义。这些值反映在图6A中所示的客户需求简档中。可以看出,客户需求简档中的大尖峰(spike)可能使平均需求偏斜,因此在实践中,使用像中位数这样的度量可能有助于绕过潜在的偏斜问题。
因此,可以使用该客户的需求数据为集合中的每个客户循环并执行这种需求简档的生成。在指定的时间段内,可以计算每个客户活动的天数,以及他们的中位数需求、最大需求、最小需求等。
图7图示了根据本公开的实施例的示例结果表。
结果表700可以用于验证用于检测电力欺诈的模型,诸如通过将检测器应用于已知欺诈案例,以便确定哪些已知欺诈案例被检测器识别。例如,考虑其中三个检测器的集合(中位数需求和最大需求始终为零、中位数需求为零但最大需求大于零,以及中位数需求在零到第10个百分位数之间)用于识别与低需求相关联的需求简档的情景。这些检测器可以应用于123个已知欺诈案例的集合,以便查看这些已知案例中有多少对于检测器表现出可疑行为。检测器还可以应用于406,388个客户的集合,以便看到这些未知案例中有多少对于检测器表现出可疑行为;在前面的示例中,提到有34,719个需求简档表现出与已知欺诈案例相同的行为特性。因此,在结果表700中,列702、704和706可以对应于使用三个检测器中的一个检测到的123个已知欺诈案例的数量。列708、712和712可以对应于来自使用三个检测器中的一个识别出的未知情况的34,719个需求简档的数量。结果表700的行724和726可以对应于检测到的由于客户的地尺寸(lot size)小于500平方英尺或者客户是太阳能用户而可以解释清楚其可疑行为的案例的数量。作为太阳能用户的客户将与低需求相关联,因为该客户将从太阳获得其电力-而不是窃取电力。具有小于500平方英尺的地尺寸的客户也将与低需求相关联,因为该客户的小住宅对可能的需求有上限。
列702(标题为“fraud_always_zero”)可以指定123个已知欺诈案例中有多少被识别为具有始终为零的中位数需求和最大需求。例如,在结果表700中,示出了123个已知欺诈案例中的2个被识别为具有始终为零的中位数需求和最大需求。这两个识别出的已知欺诈案例都不能基于客户具有低于500平方英尺的地尺寸或作为太阳能用户进行解释。
列704(标题为“fraud_med_zero”)可以指定123个已知欺诈案例中有多少被识别为具有零中位数需求和大于零的最大需求。例如,在结果表700中,示出了123个已知欺诈案例中的7个被识别为具有零中位数需求和大于零的最大需求。这7个识别出的已知欺诈案例都不能基于客户具有低于500平方英尺的地尺寸或作为太阳能用户进行解释。
列706(标题为“fraud_near_zero”)可以指定123个已知欺诈案例中有多少被识别为具有在零和第10百分位数之间的中位数需求(这里为10kWh)。例如,在结果表700中,示出了123个已知欺诈案例中的6个被识别为具有在0和第10百分位数之间的中位数需求。这6个识别出的已知欺诈案例都不能基于客户具有低于500平方英尺的地尺寸或作为太阳能用户进行解释。
列708(标题为“u_always_zero”)可以指定来自未知情况集合的34,719个检测到的案例中有多少被识别为具有始终为零的中位数需求和最大需求。例如,在结果表700中,示出了34,719个检测到的欺诈案例中的6556个被识别为具有始终为零的中位数需求和最大需求。这些检测到的欺诈案例中的六个基于客户具有低于500平方英尺的地尺寸而具有合理的解释。
列710(标题为“u_med_zero”)可以指定来自未知情况集合的34,719个检测到的案例中有多少被识别为具有为零的中位数需求和大于零的最大需求。例如,在结果表700中,示出了34,719个检测到的欺诈案例中的6375个被识别为具有零的中位数需求和大于零的最大需求。这些检测到的欺诈案例中的两个基于客户具有低于500平方英尺的地尺寸而具有合理的解释。
列712(标题为“u_near_zero”)可以指定来自未知情况集合的34,719个检测到的案例中有多少被识别为具有在零和第10百分位数之间的中位数需求。例如,在结果表700中,示出了34,719个检测到的欺诈案例中的21788个被识别为具有在零和第10百分位数之间的中位数需求。这些检测到的欺诈案例中的九个基于客户具有低于500平方英尺的地尺寸而具有合理的解释,并且检测到的欺诈案例中10个是由于客户是太阳能用户。
图8A图示了根据本公开的实施例的在未知欺诈案例中检测到的低中位数需求的示例曲线图。
更具体而言,该图描绘了服务点处的需求的曲线图,需求使用基于在超过300天的时间段内中位数需求非常低的行为模式的检测器被标记。虽然该曲线图包括最大需求的尖峰,但中位数需求对于大多数部分可以被视为相对低。这是在未知案例集合中被标记的欺诈的案例(例如,客户之前未被识别为欺诈),该案例涉及与已知欺诈事件(如图8B所示)类似的行为,并且它表示原本使用基于传统方法的训练数据集将不会被识别出的欺诈案例的示例。
图8B图示了根据本公开的实施例的在已知欺诈案例中检测到的低中位数需求的示例曲线图。
该图类似地描绘了服务点处的需求的曲线图,需求使用基于在超过300天的时间段内中位数需求非常低的行为模式的检测器被标记。该图最初具有较大的需求水平,但是在对应于账龄(account age)的大约100天的欺诈日期,需求急剧下降并且对于该曲线图的其余部分的需求仍然非常低。这是在已知案例集合中被标记的欺诈案例(例如,客户已经被核实为欺诈),因此与这个欺诈案例相关联的总收入损失是已知的。标记这种已知欺诈案例的检测器是令人放心的,因为它表明检测器正在正确地标记从传统方法识别出的经核实的欺诈案例。
图9A图示了根据本公开的实施例的在未知欺诈案例中检测到的零中位数需求的示例曲线图。
更具体而言,该图描绘了服务点处的需求的曲线图,需求使用基于在超过300天的时间段内的中位数需求为零并且最大需求大于零的行为模式的检测器被标记。该图最初以相对高的需求开始,但需求迅速降至零并在该曲线图的其余部分保持为零。这是在未知案例集合中被标记的欺诈案例(例如,客户之前未被识别为欺诈),该案例涉及与已知欺诈事件(如图9B所示)类似的行为,并且它表示原本使用基于传统方法的训练数据集将不会被识别出的欺诈案例的示例。
图9B图示了根据本公开的实施例的在已知欺诈情况下检测到的零中位数需求的示例曲线图。
该图类似地描绘了服务点处的需求的曲线图,需求使用基于在超过300天的时间段内中位数需求为零并且最大需求大于零的行为模式的检测器被标记。该曲线图最初具有较大的需求水平,但需求急剧下降。这是由已知案例集合中的检测器标记的欺诈案例(例如,实际的、经核实的已知欺诈案例),该检测器是令人放心的,因为它表明检测器正在正确地标记从传统方法识别出的经核实的欺诈案例。对于这种已知欺诈案例,使用传统方法进行欺诈的实际检测从可疑行为开始之日起花费超过200天。相比之下,被配置为检测这种类型的行为的检测器可以能够在可疑行为开始之后快得多地识别欺诈。
图10图示了根据本公开的实施例的对应于可疑行为的合理解释的示例字段活动标记。
更具体而言,该图示出了具有可以由系统每当在服务点上执行活动时生成的字段活动标记的表。这些活动可以因电力公用事业公司、客户或环境而生成。与这些活动对应的活动标志可以在欺诈活动发生之前、期间和/或之后发生,并提供可以用于确定排除可疑行为的合理解释的有用信息。因此,结合活动标志可以改进检测框架并帮助识别假肯定。例如,可能在欺诈日期发生的一个活动标志是“电表切断-无支付(Meter Cut-Non Pay)”,这表明相关联的服务点由于客户未能支付而切断了服务。在该图中可以看到字段活动标志的其它示例。
除了字段活动标记之外的其它信息也可以用于帮助识别假肯定(例如,对可疑行为的合理解释的来源)。在一些实施例中,电力欺诈检测系统可以能够使用调查和/或普查信息。例如,可以将调查发出给客户并且从调查中,可以确定居住在特定社区中的特定收入阶层的人倾向于更有环保意识(例如,环境友好)。此外,该数据还可以以连续、实时的方式从客户的社交媒体中搜集。在一些情况下,可以确定对于具有环保意识的人来说典型的需求简档并将其用于比较目的(例如,这是具有环保意识的人的行为)。在一些实施例中,可以使用机器学习算法来完成该确定。因此,可以将任何识别出的具有可疑行为的客户的行为与已知具有环保意识的客户的行为进行比较,以便确定对可疑行为的合理解释之一是否是客户具有环保意识。因此,系统用于识别假肯定的信息可以来自调查、社交媒体、从需求简档收集的假设和/或来自计量技术本身的组合。
在一些实施例中,本文公开的电力欺诈检测系统的输出可以用于使得能够开发全新的系统。由于这些系统固有的依赖性,现有的方法(例如,机器学习或基于专家的系统)阻止这样的系统被开发,因为它们不能以数据驱动的数学严格的方式准确地获得概率、它们不能扩展,并且它们实际上可能是不可能的(例如,需要人类太长时间才能及时得到答案以产生有意义的影响)。
在一些实施例中,电力欺诈检测系统可以被配置为允许自动假设生成,使得可以生成和测试假设,而无需来自系统的用户(例如,定义检测器或假肯定解释的人)的领域知识。如前所述,用户可以指定他们希望在需求简档中检测的行为模式(例如,检测器)。或者用户可以在假肯定规则引擎中指定对可疑行为的合理解释。在配置用于自动假设生成的系统的实施例中,用户可以继续指定检测器和/或假肯定规则,或者它们可以允许系统自动提出用于检测的假设并且端到端自主地执行整个过程(例如,系统将自动执行对具有可疑行为的客户的检测,然后使用假肯定规则引擎来解释清楚任何合理行为,然后产生具有无法解释的可疑行为的客户的结果)。
图11图示了根据本公开的实施例的用于实现电力欺诈检测的框图。
在一些实施例中,用于电力欺诈检测系统的实现解决方案可以涉及大数据云平台1110。在一些实施例中,大数据云平台1110可以在标准格式1122下将所有电力使用数据存储在对象存储库1120中。
在一些实施例中,可以通过大数据云服务1140维护和提供对象存储库1120。在一些实施例中,大数据云服务1140可以包括Cloudera 1142,即,开源Apache Hadoop分布(distribution)。因此,可以使用Apache Hadoop来存储对象存储库1120中所包含的数据,Apache Hadoop是用于分布式存储和处理大型数据集的开源软件框架。包含在对象存储库1120中的数据可以被分割并存储在跨计算集群中的节点分布的大块中。在一些实施例中,大数据云服务1140还可以包括企业R(Enterprise R)1144,企业R提供在对象存储库1120内包含的大量数据上使用R,R是开源统计编程语言和环境。企业R 1144可以允许自动数据分析的开发和部署,自动数据分析可以在这种情况下用于检测客户的电力使用模式中的欺诈行为的存在。
如图所示,大数据云平台1110可以接收批量(bulk)源数据1150和流传输源数据1152。通常,批量源数据1150可以包括历史数据,诸如客户的电力使用量和需求简档,以及与先前观察到的欺诈活动的案例相关联的数据项。在一些实施例中,批量源数据1150可以存储在对象存储库1120中,对象存储库1120可以被称为“数据湖”。存储在对象存储库1120中的所有数据可以统一地以标准格式1122存储。在一些实施例中,标准格式112可以是(Hadoop分布式文件系统)HDFS,它是用于提供可缩放且可靠的数据存储的基于Java的文件系统。
流传输源数据1152可以包括实时(例如,从表)接收到的客户的实际电力使用量。对于每个客户,他们的实时电力使用量可以流传输到大数据云平台1110。在一些实施例中,可以在通信接口(诸如Kafka 1130)处接收流传输源数据1152。作为通信接口,Kafka 1130可以接收流传输源数据1152并解析出该数据中的各个消息。这些消息可以被转换成可以存储在对象存储库1120中的数据(例如,以标准格式1122)。因此,对象存储库1120可以以相同的统一格式包含来自批量源数据1150的数据(例如,客户的历史电力使用量)和流传输源数据1152(例如,客户的实时电力使用量)。
在一些实施例中,Spark 1134和/或Hive LLAP 1136进一步用于分析和处理对象存储库1120内包含的所有数据(例如,以便检测欺诈行为)。Spark 1134(例如,ApacheSpark)可以提供集群计算框架,该集群计算框架用作经由用于流传输数据和机器学习的内置模块进行大数据处理的快速且通用的引擎。换句话说,Spark 1134可以提供使用跨计算机集群的大型数据集的分布式处理来执行大数据分析的特征,并且可以改进用于大量数据的分布式处理的基本Hadoop Map/Reduce技术。Spark 1134可以通过持久存储在存储器中来增强本机Hadoop Map/Reduce功能,而Map/Reduce保留于盘中。结果是Spark 1134在存储器操作方面可以比Map/Reduce快100倍,在盘操作方面可以比Map/Reduce快10倍。
在一些实施例中,Spark 1134可以包括用于Hadoop的Oracle R高级分析(ORAAH),ORAAH可以用作提供用于使用跨计算机集群的大型数据集的分布式处理来执行大数据分析的特征的Spark的“增压(supercharged)”版本。ORAAH可以提供优于传统Spark包的许多优势。例如,ORAAH可以提供比Spark快32倍的机器学习模型(例如,用于分类、聚类、回归、特征提取等的机器学习算法)。ORAAH还可以提供将R&D中开发的机器学习模型部署到生产中的能力。ORAAH还可以提供直接在数据湖中执行R脚本的能力。ORAAH也可以用作单个包,该单个包允许从多种数据格式(包括HDFS和/或HIVE)读取/写入数据。ORAAH也可以能够处理R中存在的任何公式,而Spark只可以能够处理具有有限变换子集的简单属性。
在一些实施例中,Hive LLAP 1136可以包括Apache Hive,Apache Hive是建立在Apache Hadoop平台顶部的用于提供用于数据汇总、查询和分析的类似SQL的界面的数据仓库软件项目。Hive LLAP(低延迟分析处理)1136可以通过提供更快的SQL分析来构建Hive体系架构。因此,Kafka 1130用于解析并从流传输数据获得消息,然后流传输数据被添加到对象存储库1120中的历史数据中。使用Spark 1134和Hive LLAP 1136处理包含在对象存储库1120中的该“数据湖”,以便执行本文先前描述的用于检测电力欺诈的步骤。
在一些实施例中,对象存储库1120可以以提供解耦存储的方式实现,该解耦存储是与计算效率的提高以及必要计算资源的减少相关联的特征。Hadoop通常由HDFS和MapReduce的组合组成。但是,HDFS的问题在于计算是在每个节点上(例如,分布式计算系统的集群),并且需要添加更多节点以便获得附加的计算。每个节点包含计算和存储,这意味着通过添加更多节点,对于不正在使用的存储可以有效地进行付费。作为替代方案,可以使用除HDFS之外的存储机制,诸如Amazon S3或Oracle对象存储(Oracle Object Storage)。例如,可以交换HDFS,使得系统在对象存储和MapReduce的组合上实现。在此实现下,存储被解耦,并且节点可以用最小的存储来添加,从而减少与该存储相关联的附加成本。换句话说,诸如Oracle的大数据云服务-计算版之类的服务可以用于按需供给附加的Hadoop或Spark集群,但数据本身保存在Amazon S3或Oracle对象存储内,并在需要时通过集群来检索。
图12图示了根据本公开的实施例的用于电力欺诈检测的混合系统图。
如图所示,电力欺诈检测系统1220接收与各种客户相关联的实时电力使用数据1232和历史电力使用数据1234。在一些实施例中,直接从一个或多个电表1230接收实时电力使用数据1232,其中每个仪表提供与客户相关联的实时使用数据。
在方框1242处,电力欺诈检测系统1220可以获取所有这些数据。这可以涉及被配置用于与一个或多个电表1230通信并从其接收数据的专用通信接口(例如,编程接口或API)。还可以存在被配置用于与存储历史电力使用数据1234的任何计算机系统或设备进行通信并从其接收数据的通信接口。例如,如果历史电力使用数据1234存储在云计算网络上,则电力欺诈检测系统1220可以具有用于从云计算网络检索所有该数据的通信接口。
一旦所有数据已经集成在电力欺诈检测系统1220内,则在方框1244处,电力欺诈检测系统1220可以将所有数据转换为单一的统一格式(例如,确保所有日期/时间遵循相同的格式),使得任何客户的历史和实时电力使用数据可以组合在一起使用。
在方框1246处,电力欺诈检测系统1220可以将所有数据(例如,所有客户的历史和实时电使用数据)存储在存储装置(诸如图11中所示的对象存储库1120)中。在方框1248处,电力欺诈检测系统1220可以对存储装置中的所有数据执行R分析。对于每个客户,电力欺诈检测系统1220可以基于其历史和实时电力使用来确定使用需求简档。在方框1250处,电力欺诈检测系统1220可以分析每个客户的使用量,以便检测一个或多个客户的欺诈活动。
一旦电力欺诈检测系统1220已经识别出潜在的欺诈活动,执行团队1290的成员就可以能够通过设备1280上的界面1282查看关于被识别为潜在地进行欺诈活动的客户的报告。设备1280可以接收从电力欺诈检测系统1220生成的这些报告。此外,执行团队1290的成员可以能够提取并查看任何客户的使用需求简档(例如,基于与客户住宅相关联的服务点id或地址)。这允许人类通过查看客户的使用需求简档来感知任何异常,从而对任何识别出的潜在欺诈活动进行附加确认。一旦执行团队1290的成员进一步确认与客户相关联的任何识别出的潜在欺诈活动,他们就可以在界面1282内直接指示,以指挥现场工作人员1210物理地去往客户的位置检查仪表并确认存在正在进行的欺诈活动。
然后,设备1280将指令发送到电力欺诈检测系统1220,电力欺诈检测系统1220然后将确定(例如,地理上)到客户的地址最接近的现场工作人员1210。如果在多个欺诈活动案例的情况下存在多个客户,则还可以基于邻近度在现场工作人员之间进行客户划分(例如,现场工作人员1210可以接收位于其地理位置的客户池)。然后,电力欺诈检测系统1220可以将指令转发到与现场工作人员1210相关联的设备1212。现场工作人员1210可以能够通过设备1212上的界面1214查看指令和客户的地址。此后,现场工作人员1210然后可以物理地去往客户的地址以检查仪表并且对客户正在执行的任何欺诈活动进行调查以便核实欺诈正在发生。现场工作人员1210可以能够通过设备1212上的界面1214指示欺诈活动是否实际正在发生。该信息可以被报告回执行团队1290,或者该信息可以被添加到现有数据(例如,由电力欺诈检测系统1220存储),以便更新或改进用于检测欺诈的任何现有行为模型。
图13图示了根据本公开的实施例的用于需求突然减少,随后需求保持低位的示例行为模式。
如图所示,需求的突然减少(例如,从约25降至5)在约第150天发生并且需求继续保持低位(例如,平均约为5)。虽然需求的趋势已经略微下降,但需求的突然减少仍然可以被视为异常,并且可能是发起持续进行的(ongoing)电力欺诈的特性。该行为模式可以用作检测器以便识别潜在的可疑活动。
图14图示了根据本公开的实施例的用于需求缓慢减少,随后需求保持低位的示例行为模式。
如图所示,需求简档表现出轻微向下的趋势,直到其达到永久低位(例如,平均为约5)为止。虽然电力需求可能随时间而减少的原因有很多(例如,用户的电力消费习惯可能改变),但这些原因必然会多少与需求简档中的逐渐缓慢下降以及随后持续的低需求对应。缓慢下降可能是持续进行的电力欺诈的特性,并且该行为模式可以用作检测器以便识别潜在的可疑活动。
图15图示了根据本公开的实施例的用于在延长的时段内需求缓慢减少的示例行为模式。
如图所示,需求简档在整个时间段内表现出下降趋势。如图14所示,虽然电力需求可能随时间而减少的原因有很多(例如,用户的电力消耗习惯可能改变),但需求简档中延长的下降可能是持续进行的电力欺诈的特性,并且该行为模式可以用作检测器以便识别潜在的可疑活动。
图16图示了根据本公开的实施例的用于非常低需求的示例行为模式。
如图所示,需求简档在整个持续时间内保持非常低位(例如,平均为2.5)。虽然用户可能在该时间段内具有非常低的电力消耗(例如,用户已经离开国家并且电力消耗是由于任何插电的电器汲取电力),但是延长的时间段的低需求可能是持续进行的电力欺诈的特性并且真实需求简档被隐藏。该行为模式可以用作检测器以便识别潜在的可疑活动。
图17图示了根据本公开的实施例的当预期需求上升而需求未上升时的示例行为模式。
如图所示,可以绘制出整个用户群体的需求(例如,ECDF),以便观察总体群体正在做什么。在第150天,整个群体的需求突然存在尖峰(例如,突然从55增加到70)。这种升高的需求持续直到第250天为止,之后整个群体的需求突然下降(例如,从70突然下降回55)。可能存在许多原因导致整个用户群体的需求暂时升高。例如,升高的需求可能表示夏季的典型需求行为。在第150天和第250天之间的温度可能较高,这导致由于整个用户群体开启和运行他们的空调而产生的使用尖峰。
同时,可以绘制出单个用户的需求简档,并将该需求简档与同一时间段内的整个群体的需求进行比较。该比较可以用于揭示用户的需求简档“应该”表现(例如,如果用户表现得像整个群体那样)但是没有表现的内容。例如,用户的需求简档没有表现出在跨整个群体的需求中看到的从第150天到第250天升高的需求。用户的需求简档与群体显著不同。这可能存在很多原因。例如,如果群体中升高的需求是由于更高的温度,那么该用户可能没有使用空调并且只是简单地忍受了热。但是,另一种解释可以是由于持续进行的电力欺诈(例如,用户的需求被误报)而导致用户的需求简档不正确。因此,该行为模式可以用作检测器,以便识别潜在的可疑活动,尤其是如果用户未与其它人进行比较时将不会以其它方式被观察到的可疑活动。
图18图示了根据本公开的实施例的需求过于异常稳定的示例行为模式。
如图所示,需求简档在一段时间内异常稳定。在第150天到第200天的时间段之间,用户的需求保持在恒定的50。与该时间段之外具有一些变化性(例如,类似瞬态信号)的正常电力使用相比,这是非常不寻常的。对需求简档中的异常稳定性的一种解释是由于持续进行的电力欺诈(例如,用户在异常稳定性的那段时间内的需求被误报)而导致用户的需求简档不正确。因此,该行为模式可以用作检测器,以便识别潜在的可疑活动。
附加实现细节
图19描绘了用于实现本文公开的实施例之一的分布式系统1900的简化图。如先前所讨论的,分布式系统1900可以实现电力欺诈检测系统的实施例。在所示实施例中,分布式系统1900包括一个或多个客户端计算设备1902、1904、1906和1908,客户端计算设备被配置为通过一个或多个网络1910执行和操作客户端应用,诸如web浏览器、专有客户端(例如,Oracle Forms)等。服务器1912可以经由网络1910与远程客户端计算设备1902、1904、1906和1908通信地耦合。
在各种实施例中,服务器1912可以适于运行由系统的一个或多个组件提供的一个或多个服务或软件应用。服务或软件应用可以包括非虚拟和虚拟环境。虚拟环境可以包括用于虚拟事件、商业展览、模拟器、教室、购物交换和企业的虚拟环境,无论是二维或三维(3D)表示、基于页面的逻辑环境还是其它。在一些实施例中,这些服务可以作为基于web的服务或云服务供应或者在软件即服务(SaaS)模型下供应给客户端计算设备1902、1904、1906和/或1908的用户。操作客户端计算设备1902、1904、1906和/或1908的用户进而可以利用一个或多个客户端应用来与服务器1912进行交互以利用由这些组件提供的服务。
在图19中描绘的配置中,系统1900的软件组件1918、1920和1922被示出为在服务器1912上实现。在其它实施例中,系统1900的一个或多个组件和/或由这些组件提供的服务也可以由客户端计算设备1902、1904、1906和/或1908中的一个或多个来实现。然后,操作客户端计算设备的用户可以利用一个或多个客户端应用来使用由这些组件提供的服务。这些组件可以用硬件、固件、软件或其组合来实现。应该认识到的是,各种不同的系统配置是可能的,这些配置可以与分布式系统1900不同。因此,图19中所示的实施例是用于实现实施例系统的分布式系统的一个示例,而不旨在是限制性的。
客户端计算设备1902、1904、1906和/或1908可以是便携式手持设备(例如,
Figure BDA0002157241430000351
蜂窝电话、
Figure BDA0002157241430000352
计算平板电脑、个人数字助理(PDA))或可穿戴设备(例如,Google眼镜(Google
Figure BDA0002157241430000353
)头戴式显示器),运行诸如Microsoft Windows
Figure BDA0002157241430000354
和/或各种移动操作系统(诸如iOS、Windows Phone、Android、BlackBerry 10、Palm OS等)的软件,并且启用互联网、电子邮件、短消息服务(SMS)、
Figure BDA0002157241430000361
或其它通信协议。客户端计算设备可以是通用个人计算机,例如运行各种版本的Microsoft
Figure BDA0002157241430000362
Apple
Figure BDA0002157241430000363
和/或Linux操作系统的个人计算机和/或膝上型计算机。客户端计算设备可以是运行各种商业可用的
Figure BDA0002157241430000364
或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统,诸如例如Google Chrome OS)中的任何操作系统的工作站计算机。替代地或附加地,客户端计算设备1902、1904、1906和1908可以是能够通过(一个或多个)网络1910进行通信的任何其它电子设备,诸如瘦客户端计算机、启用互联网的游戏系统(例如,具有或不具有
Figure BDA0002157241430000365
手势输入设备的Microsoft Xbox游戏控制台)和/或个人消息传送设备。
虽然示出了具有四个客户端计算设备的示例性分布式系统1900,但是可以支持任何数量的客户端计算设备。其它设备(诸如具有传感器等的设备等)可以与服务器1912交互。
分布式系统1900中的(一个或多个)网络1910可以是本领域技术人员熟悉的、可以使用各种商业可用的协议中的任何协议来支持数据通信的任何类型的网络,其中协议包括但不限于TCP/IP(传输控制协议/互联网协议)、SNA(系统网络体系架构)、IPX(互联网分组交换)、AppleTalk等。仅仅作为示例,(一个或多个)网络1910可以是局域网(LAN),诸如基于以太网、令牌环等的LAN。(一个或多个)网络1910可以是广域网和互联网。它可以包括虚拟网络,包括但不限于虚拟专用网络(VPN)、内联网、外联网、公共交换电话网(PSTN)、红外网络、无线网络(例如,依据电气和电子协会(IEEE)802.11协议套件、
Figure BDA0002157241430000368
和/或任何其它无线协议的任何协议而操作的网络);和/或这些网络和/或其它网络的任何组合。
服务器1912可以由一个或多个通用计算机、专用服务器计算机(作为示例,包括PC(个人计算机)服务器、
Figure BDA0002157241430000367
服务器、中档服务器、大型计算机、机架安装的服务器等)、服务器场、服务器集群或任何其它适当的布置和/或组合组成。服务器1912可以包括运行虚拟操作系统的一个或多个虚拟机,或涉及虚拟化的其它计算体系架构。可以虚拟化一个或多个灵活的逻辑存储池设备以维护用于服务器的虚拟存储设备。虚拟网络可以由服务器1912使用软件定义的网络来控制。在各种实施例中,服务器1912可以适于运行在前述公开中描述的一个或多个服务或软件应用。例如,服务器1912可以与用于执行以上根据本公开的实施例描述的处理的服务器对应。
服务器1912可以运行包括以上讨论的任何操作系统中的操作系统,以及任何商业可用的服务器操作系统。服务器1912还可以运行各种附加的服务器应用和/或中间层应用中的任何应用,服务器1912包括HTTP服务器、FTP服务器、CGI(公共网关接口)服务器、
Figure BDA0002157241430000373
服务器、数据库服务器等。示例性数据库服务器包括但不限于可从Oracle、Microsoft、Sybase、IBM(国际商业机器)等商业获得的那些数据库服务器。
在一些实现中,服务器1912可以包括一个或多个应用,以分析和整合从客户端计算设备1902、1904、1906和1908的用户接收到的数据馈送和/或事件更新。作为示例,数据馈送和/或事件更新可以包括但不限于:
Figure BDA0002157241430000371
馈送、
Figure BDA0002157241430000372
更新或者从一个或多个第三方信息源和连续数据流接收到的实时更新,实时更新可以包括与传感器数据应用、金融价格收报机(financial ticker)、网络性能测量工具(例如,网络监控和流量管理应用)、点击流分析工具、汽车交通监控等相关的实时事件。服务器1912还可以包括一个或多个应用,以经由客户端计算设备1902、1904、1906和1908的一个或多个显示设备来显示数据馈送和/或实时事件。
分布式系统1900还可以包括一个或多个数据库1914和1916。数据库1914和1916可以驻留在各种位置。作为示例,数据库1914和1916中的一个或多个可以驻留在服务器1912本地(和/或驻留在服务器1912中)的非瞬态存储介质上。替代地,数据库1914和1916可以远离服务器1912并且经由基于网络的连接或专用的连接与服务器1912进行通信。在一组实施例中,数据库1914和1916可以驻留在存储区域网络(SAN)中。类似地,用于执行归属于服务器1912的功能的任何必要文件可以适当地本地存储在服务器1912上和/或远程存储。在一组实施例中,数据库1914和1916可以包括适于响应于SQL格式的命令而存储、更新和检索数据的关系数据库,诸如由Oracle提供的数据库。
图20是根据本公开的实施例的系统环境2000的一个或多个组件的简化框图,通过该系统环境2000,由实施例系统的一个或多个组件提供的服务可以被供应为云服务。系统环境2000可以包括或实现如前所述的电力欺诈检测系统的实施例。在所示实施例中,系统环境2000包括一个或多个客户端计算设备2004、2006和2008,客户端计算设备可以由用户用于与提供云服务的云基础设施系统2002进行交互。客户端计算设备可以被配置为操作客户端应用,诸如web浏览器、专有客户端应用(例如,Oracle Forms)或者某种其它应用,这些应用可以由客户端计算设备的用户用来与云基础设施系统2002进行交互以使用由云基础设施系统2002提供的服务。
应该认识到的是,图20中描绘的云基础设施系统2002可以具有除了所描绘的那些组件之外的其它组件。另外,图20中所示的实施例仅是可以结合本发明的实施例的云基础设施系统的一个示例。例如,云基础设施系统2002可以包括或实现如前所述的电力欺诈检测系统的一个或多个元件。在一些其它实施例中,云基础设施系统2002可以具有比图20中所示更多或更少的组件、可以组合两个或更多个组件、或者可以具有不同的组件配置或布置。
客户端计算设备2004、2006和2008可以是与上面针对1902、1904、1906和1908描述的设备类似的设备。
虽然示例性系统环境2000被示出具有三个客户端计算设备,但是可以支持任何数量的客户端计算设备。其它设备(诸如具有传感器的设备)等可以与云基础设施系统2002进行交互。
(一个或多个)网络2010可以促进客户端2004、2006和2008与云基础设施系统2002之间的数据交换和通信。每个网络可以是本领域技术人员所熟悉的可以使用各种商业可用的协议(包括上面针对(一个或多个)网络1910所描述的那些协议)中的任何协议支持数据通信的任何类型的网络。
云基础设施系统2002可以包括一个或多个计算机和/或服务器,一个或多个计算机和/或服务器可以包括上面针对服务器1912描述的那些计算机和/或服务器。
在某些实施例中,由云基础设施系统提供的服务可以包括按需对云基础设施系统的用户可用的许多服务,诸如在线数据存储和备份解决方案、基于Web的电子邮件服务、被托管的办公室(office)套件和文档协作服务、数据库处理、受管理的技术支持服务等。由云基础设施系统提供的服务可以动态扩展以满足云基础设施系统的用户的需要。由云基础设施系统提供的服务的具体实例化在本文中被称为“服务实例”。一般而言,从云服务提供商的系统经由通信网络(诸如互联网)对用户可用的任何服务被称为“云服务”。通常,在公共云环境中,构成云服务提供商的系统的服务器和系统与客户自己的室内(on-premise)服务器和系统不同。例如,云服务提供商的系统可以托管应用,并且用户可以经由诸如互联网的通信网络按需订购和使用应用。
在一些示例中,计算机网络云基础设施中的服务可以包括对存储装置、被托管的数据库、被托管的web服务器、软件应用或由云供应商向用户提供的其它服务的受保护的计算机网络访问,或者如本领域中另外已知的。例如,服务可以包括通过互联网对云上的远程存储装置进行密码保护的访问。作为另一个示例,服务可以包括基于web服务的被托管的关系数据库和脚本语言中间件引擎,以供联网的开发人员私有使用。作为另一个示例,服务可以包括对在云供应商的网站上托管的电子邮件软件应用的访问。
在某些实施例中,云基础设施系统2002可以包括以自助服务、基于订阅、弹性可扩展、可靠、高度可用和安全的方式递送给客户的应用、中间件和数据库服务供应的套件。这种云基础设施系统的示例是由本受让方(assignee)提供的Oracle公共云。
基础设施系统可以在许多级别上和以不同规模托管和/或操纵大量数据(有时被称为大数据)。这样的数据可以包括如此大且复杂的数据集,该数据集可能难以使用典型的数据库管理工具或传统的数据处理应用进行处理。例如,太字节(terabytes)的数据可能难以使用个人计算机或其基于机架的对应物进行存储、检索和处理。这样大小的数据可能难以使用大多数当前的关系数据库管理系统和桌面统计以及可视化软件包一起工作。它们可能要求运行数千台服务器计算机的大规模并行处理软件,这超出常用软件工具的结构以在可容忍的时间内捕获、策划(curate)、管理和处理数据。
分析人员和研究人员可以存储和操纵极大的数据集,以可视化大量数据、检测趋势和/或以其它方式与数据交互。并行链接的数十、数百或数千个处理器可以对这些数据起作用,以便呈现数据或模拟数据上的外力或数据表示的内容。这些数据集可以涉及诸如在数据库中或者以其它方式根据结构化模型组织的结构化数据,和/或非结构化数据(例如,电子邮件、图像、数据blob(二进制大对象)、网页、复杂事件处理)。通过利用相对快速地将更多(或更少)计算资源集中在目标上的实施例的能力,云基础设施系统可以更好地用于基于来自企业、政府机关、研究组织、私有个人、志同道合的个人团体或组织、或其它实体的需求对大型数据集执行任务。
在各种实施例中,云基础设施系统2002可以适于自动供给、管理和跟踪客户对云基础设施系统2002供应的服务的订阅。云基础设施系统2002可以经由不同的部署模型来提供云服务。例如,可以依据公共云模型提供服务,其中云基础设施系统2002被销售云服务的组织所拥有(例如,被Oracle所拥有),并且服务对一般公众或不同行业的企业可用。作为另一个示例,可以依据私有云模型来提供服务,其中云基础设施系统2002仅针对单个组织操作,并且可以为该组织内的一个或多个实体提供服务。还可以依据社区云模型来提供云服务,其中云基础设施系统2002和由云基础设施系统2002提供的服务由相关社区中的若干组织共享。还可以依据混合云模型来提供云服务,该混合云模型是两个或更多个不同模型的组合。
在一些实施例中,由云基础设施系统2002提供的服务可以包括在软件即服务(SaaS)类别、平台即服务(PaaS)类别、基础设施即服务(IaaS)类别或包括混合服务的其它服务类别下提供的一个或多个服务。客户经由订阅订单可以订购由云基础设施系统2002提供的一个或多个服务。云基础设施系统2002然后执行处理以提供客户的订阅订单中的服务。
在一些实施例中,由云基础设施系统2002提供的服务可以包括但不限于应用服务、平台服务和基础设施服务。在一些示例中,应用服务可以由云基础设施系统经由SaaS平台提供。SaaS平台可以被配置为提供落入SaaS类别的云服务。例如,SaaS平台可以提供在集成开发和部署平台上构建和递送按需应用套件的能力。SaaS平台可以管理和控制用于提供SaaS服务的底层软件和基础设施。通过利用由SaaS平台提供的服务,客户可以利用在云基础设施系统上执行的应用。客户可以获取应用服务,而无需客户购买单独许可证和支持。可以提供各种不同的SaaS服务。示例包括但不限于为大型组织提供销售绩效管理、企业集成和商务灵活性的解决方案的服务。
在一些实施例中,平台服务可以由云基础设施系统经由PaaS平台提供。PaaS平台可以被配置为提供落入PaaS类别的云服务。平台服务的示例可以包括但不限于使组织(诸如Oracle)能够在共享的公共体系架构上整合现有应用以及充分利用平台提供的共享服务来构建新应用的能力的服务。PaaS平台可以管理和控制用于提供PaaS服务的底层软件和基础设施。客户可以获取由云基础架构系统提供的PaaS服务,而无需客户购买单独的许可证和支持。平台服务的示例包括但不限于Oracle Java云服务(JCS)、Oracle数据库云服务(DBCS)等。
通过利用由PaaS平台提供的服务,客户可以采用由云基础设施系统支持的编程语言和工具,并且还控制所部署的服务。在一些实施例中,由云基础设施系统提供的平台服务可以包括数据库云服务、中间件云服务(例如,Oracle融合中间件服务)和Java云服务。在一个实施例中,数据库云服务可以支持共享服务部署模型,该模型使得组织能够汇集数据库资源并且以数据库云的形式向客户供应数据库即服务。中间件云服务可以为客户提供开发和部署各种商务应用的平台,并且Java云服务可以为客户提供在云基础设施系统中部署Java应用的平台。
各种不同的基础设施服务可以由云基础设施系统中的IaaS平台提供。基础设施服务促进底层计算资源(诸如存储装置、网络和其它基础计算资源)的管理和控制,以供客户利用由SaaS平台和PaaS平台提供的服务。
在某些实施例中,云基础设施系统2002还可以包括基础设施资源2030,用于向云基础设施系统的客户提供用于提供各种服务的资源。在一个实施例中,基础设施资源2030可以包括预先集成和优化的硬件(诸如服务器、存储装置和联网资源)的组合,以执行由PaaS平台和SaaS平台提供的服务。
在一些实施例中,云基础设施系统2002中的资源可以由多个用户共享并且根据需要动态重新分配。此外,可以将资源分配给在不同时区的用户。例如,云基础设施系统2030可以使在第一时区中的第一组用户能够在指定的小时数内利用云基础设施系统的资源,并且然后使相同资源能够被重新分配给位于不同时区的另一组用户,从而使资源的利用率最大化。
在某些实施例中,可以提供由云基础设施系统2002的不同组件或模块以及由云基础设施系统2002提供的服务共享的多个内部共享服务2032。这些内部共享服务可以包括但不限于:安全和身份服务、集成服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高可用性、备份和恢复服务、启用云支持的服务、电子邮件服务、通知服务、文件传输服务等。
在某些实施例中,云基础设施系统2002可以提供云基础设施系统中的云服务(例如,SaaS、PaaS和IaaS服务)的综合管理。在一个实施例中,云管理功能可以包括用于供给、管理和跟踪由云基础设施系统2002接收到的客户订阅的能力等。
在一个实施例中,如图20中所绘出的,云管理功能可以由一个或多个模块提供,其中模块诸如订单管理模块2020、订单编排模块2022、订单供给模块2024、订单管理和监控模块2026,以及身份管理模块2028。这些模块可以包括一个或多个计算机和/或服务器或者使用一个或多个计算机和/或服务器来提供,这些计算机和/或服务器可以是通用计算机、专用服务器计算机、服务器场、服务器集群或任何其它适当的布置/或组合。
在示例性操作2034中,使用客户端设备(诸如客户端设备2004、2006或2008)的客户可以通过请求由云基础设施系统2002提供的一个或多个服务并且针对订阅由云基础设施系统2002供应的一个或多个服务的订单来与云基础设施系统2002进行交互。在某些实施例中,客户可以访问云用户界面(UI)、云UI 2012、云UI 2014和/或云UI 2016并经由这些UI下订阅订单。云基础设施系统2002响应于客户下订单而接收到的订单信息可以包括识别客户以及客户想要订阅的云基础设施系统2002供应的一个或多个服务的信息。
在客户已经下订单之后,经由云UI 2012、2014和/或2016接收订单信息。
在操作2036处,订单存储在订单数据库2018中。订单数据库2018可以是由云基础设施系统2018操作和与其它系统元件一起操作的若干数据库之一。
在操作2038处,订单信息被转发到订单管理模块2020。在一些情况下,订单管理模块2020可以被配置为执行与订单相关的计费和记账功能,诸如核实订单,并且在核实后预订订单。
在操作2040处,将关于订单的信息传送到订单编排模块2022。订单编排模块2022可以利用订单信息为客户下的订单编排服务和资源的供给。在一些情况下,订单编排模块2022可以使用订单供给模块2024的服务来编排资源的供给以支持订阅的服务。
在某些实施例中,订单编排模块2022使得能够管理与每个订单相关联的业务流程并应用业务逻辑来确定订单是否应该进行到供给。在操作2042处,在接收到对新订阅的订单后,订单编排模块2022向订单供给模块2024发送请求以分配资源并配置履行订阅订单所需的这些资源。订单供给模块2024使得能够为客户订购的服务分配资源。订单供给模块2024提供由云基础设施系统2000提供的云服务和用于供给用于提供所请求的服务的资源的物理实现层之间的抽象层级(level of abstraction)。因此,订单编排模块2022可以与实现细节隔离,诸如是否实际上即时供给或预先供给服务和资源并仅在请求后分配/指派服务和资源。
在操作2044处,一旦供应了服务和资源,就可以通过云基础设施系统2002的订单供给模块2024向客户端设备2004、2006和/或2008上的客户发送所提供服务的通知。
在操作2046处,订单管理和监控模块2026可以管理和跟踪客户的订阅订单。在一些情况下,订单管理和监控模块2026可以被配置为收集订阅订单中的服务的使用统计,诸如所使用的存储量、所传输的数据量、用户的数量、以及系统运行时间和系统停机时间量。
在某些实施例中,云基础设施系统2000可以包括身份管理模块2028。身份管理模块2028可以被配置为提供身份服务,诸如云基础设施系统2000中的访问管理和授权服务。在一些实施例中,身份管理模块2028可以控制关于希望利用由云基础设施系统2002提供的服务的客户的信息。这样的信息可以包括认证这些客户的身份的信息以及描述这些客户被授权相对于各种系统资源(例如,文件、目录、应用、通信端口、存储器段等)执行哪些动作的信息。身份管理模块2028还可以包括对关于每个客户的描述性信息以及关于如何和由谁来访问和修改这些描述性信息的管理。
图21图示了其中可以实现本发明的各种实施例的示例性计算机系统2100。系统2100可以用于实现上述任何计算机系统。例如,图1中所示的电力欺诈检测系统的所有或一些元件可以包括在系统2100中或在系统2100中实现。如图21所示,计算机系统2100包括经由总线子系统2102与多个外围子系统通信的处理单元2104。这些外围子系统可以包括处理加速单元2106、I/O子系统2108、存储子系统2118和通信子系统2124。存储子系统2118包括有形计算机可读存储介质2122和系统存储器2110。
总线子系统2102提供用于让计算机系统2100的各种组件和子系统按意图彼此进行通信的机制。虽然总线子系统2102被示意性地示出为单条总线,但是总线子系统的替代实施例可以利用多条总线。总线子系统2102可以是若干种类型的总线结构中的任何类型,这些总线类型包括存储器总线或存储器控制器、外围总线、以及使用各种总线体系架构中的任何体系架构的局部总线。例如,这种体系架构可以包括工业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线,这些总线可以被实现为按IEEE P1386.1标准制造的夹层(Mezzanine)总线。
可以被实现为一个或多个集成电路(例如,常规微处理器或微控制器)的处理单元2104控制计算机系统2100的操作。一个或多个处理器可以被包括在处理单元2104中。这些处理器可以包括单核处理器或多核处理器。在某些实施例中,处理单元2104可以被实现为一个或多个独立的处理单元2132和/或2134,其中在每个处理单元中包括单核处理器或多核处理器。在其它实施例中,处理单元2104也可以被实现为通过将两个双核处理器集成到单个芯片中形成的四核处理单元。
在各种实施例中,处理单元2104可以响应于程序代码执行各种程序并且可以维护多个并发执行的程序或进程。在任何给定的时间,要被执行的程序代码中的一些或全部代码可以驻留在(一个或多个)处理器2104中和/或存储子系统2118中。通过适当的编程,(一个或多个)处理器2104可以提供上述各种功能。计算机系统2100可以附加地包括处理加速单元2106,该处理加速单元2106可以包括数字信号处理器(DSP)、专用处理器等。
I/O子系统2108可以包括用户接口输入设备和用户接口输出设备。用户接口输入设备可以包括键盘、诸如鼠标或轨迹球的指向设备、结合到显示器中的触摸板或触摸屏、滚动轮、点击轮、拨盘、按钮、开关、小键盘、具有语音命令辨识(recognition)系统的音频输入设备、麦克风以及其它类型的输入设备。用户接口输入设备可以包括,例如,运动感测和/或手势辨识设备(诸如Microsoft
Figure BDA0002157241430000461
运动传感器),该运动传感器使得用户能够通过使用手势和语音命令的自然用户接口来控制诸如Microsoft
Figure BDA0002157241430000462
360游戏控制器的输入设备并与输入设备进行交互。用户接口输入设备也可以包括眼睛姿势辨识设备,诸如从用户检测眼睛活动(例如,当拍摄照片和/或进行菜单选择时的“眨眼”)并且将眼睛姿势变换为进入输入设备(例如,Google
Figure BDA0002157241430000463
)中的输入的Google
Figure BDA0002157241430000464
眨眼检测器。此外,用户接口输入设备可以包括使得用户能够通过语音命令与语音辨识系统(例如,
Figure BDA0002157241430000465
导航器)进行交互的语音辨识感测设备。
用户接口输入设备也可以包括但不限于:三维(3D)鼠标、操纵杆或指向棒(pointing stick)、游戏面板和绘图板、以及音频/视觉设备,诸如扬声器、数码相机、数码摄录机、便携式媒体播放器、网络摄像头(webcam)、图像扫描仪、指纹扫描仪、条形码阅读器3D扫描仪、3D打印机、激光测距仪和视线跟踪设备。此外,用户接口输入设备可以包括,例如,医学成像输入设备,诸如计算机断层扫描、磁共振成像、正电子发射断层显像、医疗超声设备。用户接口输入设备也可以包括例如诸如MIDI键盘、数字乐器等的音频输入设备。
用户接口输出设备可以包括显示子系统、指示灯、或者诸如音频输出设备的非可视显示器等。显示子系统可以是阴极射线管(CRT)、诸如使用液晶显示器(LCD)或等离子显示器的平板设备、投影设备、触摸屏等。一般而言,术语“输出设备”的使用旨在包括用于从计算机系统2100向用户或其它计算机输出信息的所有可能类型的设备和机制。例如,用户接口输出设备可以包括但不限于:可视地传达文本、图形和音频/视频信息的各种显示设备,诸如监视器、打印机、扬声器、耳机、汽车导航系统、绘图仪、语音输出设备以及调制解调器。
计算机系统2100可以包括包含软件元件的被示出为当前位于系统存储器2110内的存储子系统2118。系统存储器2110可以存储可加载并且可在处理单元2104上执行的程序指令,以及在这些程序的执行期间所生成的数据。
取决于计算机系统2100的配置和类型,系统存储器2110可以是易失性的(诸如随机存取存储器(RAM))和/或非易失性的(诸如只读存储器(ROM)、闪存存储器等)。RAM通常包含可被处理单元2104立即访问和/或目前正在被处理单元2104操作和执行的数据和/或程序模块。在一些实现中,系统存储器2110可以包括多种不同类型的存储器,诸如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM)。在一些实现中,诸如在启动期间,包含有助于在计算机系统2100内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)通常可以被存储在ROM中。作为示例而非限制,系统存储器2110也示出了可以包括客户端应用、Web浏览器、中间层应用、关系数据库管理系统(RDBMS)等的应用程序2112,程序数据2114、以及操作系统2116。作为示例,操作系统2116可以包括各种版本的Microsoft
Figure BDA0002157241430000471
Apple
Figure BDA0002157241430000472
和/或Linux操作系统、各种商业可用的
Figure BDA0002157241430000473
或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、Google
Figure BDA0002157241430000474
OS等)和/或诸如iOS、
Figure BDA0002157241430000475
Phone、
Figure BDA0002157241430000476
OS、
Figure BDA0002157241430000477
10OS和
Figure BDA0002157241430000478
OS操作系统的移动操作系统。
存储子系统2118也可以提供用于存储提供一些实施例的功能的基本编程和数据构造的有形计算机可读存储介质。当被处理器执行时提供上述功能的软件(程序、代码模块、指令)可以被存储在存储子系统2118中。这些软件模块或指令可以被处理单元2104执行。存储子系统2118也可以提供用于存储根据本发明被使用的数据的储存库。
存储子系统2100也可以包括可以被进一步连接到计算机可读存储介质2122的计算机可读存储介质读取器2120。与系统存储器2110一起并且可选地与系统存储器2110相结合,计算机可读存储介质2122可以全面地表示用于临时和/或更持久地包含、存储、发送和检索计算机可读信息的远程、本地、固定和/或可移动的存储设备加存储介质。
包含代码或代码的一部分的计算机可读存储介质2122也可以包括本领域已知或使用的任何适当的介质,包括存储介质和通信介质,诸如但不限于:以用于信息的存储和/或传输的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。这可以包括有形的、非瞬态计算机可读存储介质,诸如RAM、ROM、电可擦除可编程ROM(EEPROM)、闪存存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学储存装置、磁带盒、磁带、磁盘储存装置或其它磁存储设备、或者其它有形计算机可读介质。当指定时,这也可以包括非有形的、瞬态的计算机可读介质,诸如数据信号、数据传输,或者可以用于发送期望信息并且可以被计算系统400访问的任何其它介质。
作为示例,计算机可读存储介质2122可以包括从不可移动的非易失性磁介质读取或写入到不可移动的非易失性磁介质的硬盘驱动器、从可移动的非易失性磁盘读取或写入到可移动的非易失性磁盘的磁盘驱动器、以及从可移动的非易失性光盘(诸如CD ROM、DVD和
Figure BDA0002157241430000481
(蓝光)盘)读取或写入到可移动的非易失性光盘的光盘驱动器或其它光学介质。计算机可读存储介质2122可以包括但不限于:
Figure BDA0002157241430000482
驱动器、闪存卡、通用串行总线(USB)闪存驱动器、安全数字(SD)卡、DVD盘、数字音频带等。计算机可读存储介质2122也可以包括:基于非易失性存储器的固态驱动器(SSD)(诸如基于闪存存储器的SSD、企业闪存驱动器、固态ROM等)、基于易失性存储器的SSD(诸如固态RAM、动态RAM、静态RAM,基于DRAM的SSD、磁阻RAM(MRAM)SSD)、以及使用基于DRAM和闪存存储器的SSD的组合的混合SSD。盘驱动器及其关联的计算机可读介质可以为计算机系统2100提供计算机可读指令、数据结构、程序模块以及其它数据的非易失性存储。
通信子系统2124提供到其它计算机系统和网络的接口。通信子系统2124用作用于从其它系统接收数据和从计算机系统2100向其它系统发送数据的接口。例如,通信子系统2124可以使计算机系统2100能够经由互联网连接到一个或多个设备。在一些实施例中,通信子系统2124可以包括用于(例如使用蜂窝电话技术、先进数据网络技术,诸如3G、4G或EDGE(用于全球演进的增强型数据速率)、WiFi(IEEE 802.11系列标准)或其它移动通信技术、或者其任何组合)访问无线语音和/或数据网络的射频(RF)收发器组件、全球定位系统(GPS)接收器组件和/或其它组件。在一些实施例中,作为无线接口的附加或者替代,通信子系统2124可以提供有线网络连接(例如,以太网)。
在一些实施例中,通信子系统2124也可以代表可以使用计算机系统2100的一个或多个用户来接收以结构化和/或非结构化数据馈送2126、事件流2128、事件更新2130等形式的输入通信。
作为示例,通信子系统2124可以被配置为实时地从社交网络和/或其它通信服务的用户接收数据馈送2126,诸如
Figure BDA0002157241430000491
馈送、
Figure BDA0002157241430000492
更新、诸如丰富站点摘要(RSS)馈送的web馈送和/或来自一个或多个第三方信息源的实时更新。
此外,通信子系统2124也可以被配置为接收以连续数据流形式的数据,该数据可以包括本质上可以是连续的或无界的没有明确终止的实时事件的事件流2128和/或事件更新2130。生成连续数据的应用的示例可以包括例如传感器数据应用、金融价格收报机、网络性能测量工具(例如,网络监控和流量管理应用)、点击流分析工具、汽车流量监控等。
通信子系统2124也可以被配置为向一个或多个数据库输出结构化和/或非结构化的数据馈送2126、事件流2128、事件更新2130等,这一个或多个数据库可以与耦合到计算机系统2100的一个或多个流传输数据源计算机进行通信。
计算机系统2100可以是各种类型中的一种类型,包括手持便携式设备(例如,
Figure BDA0002157241430000501
蜂窝电话、
Figure BDA0002157241430000502
计算平板电脑、PDA)、可穿戴设备(例如,Google
Figure BDA0002157241430000503
头戴式显示器)、PC、工作站、大型机、信息站(kiosk)、服务器机架、或任何其它数据处理系统。
由于计算机和网络的不断变化的本质,在图21中绘出的计算机系统2100的描述仅旨在作为具体的示例。具有比图21中绘出的系统更多或更少组件的许多其它配置是可能的。例如,定制的硬件也可以被使用和/或特定的元素可以在硬件、固件、软件(包括小应用程序(applet))或组合中实现。另外,可以采用到诸如网络输入/输出设备的其它计算设备的连接。基于本文提供的公开内容和教导,本领域普通技术人员将认识到实现各种实施例的其它方式和/或方法。
在前述说明书中,参考本发明的各方面的具体实施例对本发明的各方面进行了描述,但是本领域技术人员将认识到的是,本发明不限于此。上述发明的各个特征和方面可以被单独使用或联合使用。另外,在不脱离本说明书的更广泛精神和范围的情况下,实施例可以在除本文所述的那些环境和应用之外的任何数目的环境和应用中被使用。相应地,本说明书和附图应当被认为是说明性的而不是限制性的。

Claims (21)

1.一种用于检测电力欺诈的计算机实现的方法,所述方法包括:
访问已知数据集,所述已知数据集包括与已知电力欺诈案例相关联的第一数据项;
通过至少将模型的检测器行为应用于第一数据项来确定可疑已知案例集合;
通过针对所述模型的一个或多个假肯定解释来分析可疑已知案例集合中的每个已知案例,从可疑已知案例集合中确定已解释的已知案例集合,其中已解释的已知案例集合是可疑已知案例集合的子集;
基于所确定的可疑已知案例集合来验证所述模型;
访问未知数据集,未知数据集包括与多个服务点处的未知电力欺诈案例相关联的第二数据项,其中所述多个服务点中的每个服务点对应于电表,并且其中第二数据项包括与对应于每个服务点的电表相关联的电力需求;
通过至少将所述检测器行为应用于第二数据项来确定可疑未知案例集合;
通过针对所述一个或多个假肯定解释来分析可疑未知案例集合中的每个未知案例,从可疑未知案例集合确定已解释的未知案例集合,其中已解释的未知案例集合是可疑未知案例集合的子集;以及
通过从可疑未知案例集合中减去已解释的未知案例集合来确定无法解释的未知案例集合,其中无法解释的未知案例集合是与已解释的未知案例集合不重叠的可疑未知案例集合的子集。
2.如权利要求1所述的计算机实现的方法,其中所述检测器行为包括电力需求的突然增加,随后电力需求保持低位。
3.如权利要求1所述的计算机实现的方法,其中所述检测器行为包括电力需求的缓慢减少,随后电力需求保持低位。
4.如权利要求1所述的计算机实现的方法,其中所述检测器行为包括在延长的时间段内电力需求的缓慢减少。
5.如权利要求1所述的计算机实现的方法,其中所述检测器行为包括非常低的电力需求。
6.如权利要求1所述的计算机实现的方法,其中所述检测器行为包括电力需求未按预期那样上升。
7.如权利要求1所述的计算机实现的方法,其中所述检测器行为包括异常稳定的电力需求。
8.一种计算系统,包括:
一个或多个数据存储库,存储:
已知数据集,包括与已知电力欺诈案例相关联的第一数据项;
未知数据集,包括与多个服务点处的未知电力欺诈案例相关联的第二数据项,其中所述多个服务点中的每个服务点对应于电表,并且其中第二数据项包括与对应于每个服务点的电表相关联的电力需求;
计算机处理器;以及
存储器,存储程序指令,所述程序指令被配置为由计算机处理器执行,以使得所述计算机处理器执行以下操作:
访问已知数据集;
通过至少将模型的检测器行为应用于第一数据项来确定可疑已知案例集合;
通过针对所述模型的一个或多个假肯定解释来分析可疑已知案例集合中的每个已知案例,从可疑已知案例集合中确定已解释的已知案例集合,其中已解释的已知案例集合是可疑已知案例集合的子集;
基于所确定的可疑已知案例集合来验证所述模型;
访问未知数据集;
通过至少将所述检测器行为应用于第二数据项来确定可疑未知案例集合;
通过针对所述一个或多个假肯定解释来分析可疑未知案例集中的每个未知案例,从可疑未知案例集合确定已解释的未知案例集合,其中已解释的未知案例集合是可疑未知案例集合的子集;以及
通过从可疑未知案例集合中减去已解释的未知案例集合来确定无法解释的未知案例集合,其中无法解释的未知案例集合是与已解释的未知案例集合不重叠的可疑未知案例集合的子集。
9.如权利要求8所述的计算系统,其中所述检测器行为包括电力需求的突然增加,随后电力需求保持低位。
10.如权利要求8所述的计算系统,其中所述检测器行为包括电力需求的缓慢减少,随后电力需求保持低位。
11.如权利要求8所述的计算系统,其中所述检测器行为包括在延长的时间段内电力需求的缓慢减少。
12.如权利要求8所述的计算系统,其中所述检测器行为包括非常低的电力需求。
13.如权利要求8所述的计算系统,其中所述检测器行为包括电力需求未按预期那样上升。
14.如权利要求8所述的计算系统,其中所述检测器行为包括异常稳定的电力需求。
15.一种包含程序指令的非瞬态计算机可读介质,所述程序指令被配置为由计算机处理器执行以使得所述计算机处理器执行以下操作:
访问已知数据集,所述已知数据集包括与已知电力欺诈案例相关联的第一数据项;
通过至少将模型的检测器行为应用于第一数据项来确定可疑已知案例集合;
通过针对所述模型的一个或多个假肯定解释来分析可疑已知案例集合中的每个已知案例,从可疑已知案例集合中确定已解释的已知案例集合,其中已解释的已知案例集合是可疑已知案例集合的子集;
基于所确定的可疑已知案例集合来验证所述模型;
访问未知数据集,所述未知数据集包括与多个服务点处的未知电力欺诈案例相关联的第二数据项,其中所述多个服务点中的每个服务点对应于电表,并且其中第二数据项包括与对应于每个服务点的电表相关联的电力需求;
通过至少将所述检测器行为应用于第二数据项来确定可疑未知案例集合;
通过针对所述一个或多个假肯定解释来分析可疑未知案例集合中的每个未知案例,从可疑未知案例集合确定已解释的未知案例集合,其中已解释的未知案例集合是可疑未知案例集合的子集;以及
通过从可疑未知案例集合中减去已解释的未知案例集合来确定无法解释的未知案例集合,其中无法解释的未知案例集合是与已解释的未知案例集合不重叠的可疑未知案例集合的子集。
16.如权利要求15所述的非瞬态计算机可读介质,其中所述检测器行为包括电力需求的突然增加,随后电力需求保持低位。
17.如权利要求15所述的非瞬态计算机可读介质,其中所述检测器行为包括电力需求的缓慢减少,随后电力需求保持低位。
18.如权利要求15所述的非瞬态计算机可读介质,其中所述检测器行为包括在延长的时间段内电力需求的缓慢减少。
19.如权利要求15所述的非瞬态计算机可读介质,其中所述检测器行为包括非常低的电力需求。
20.如权利要求15所述的非瞬态计算机可读介质,其中所述检测器行为包括电力需求未按预期那样上升。
21.一种包括用于执行如权利要求1-7中任一项所述的计算机实现的方法的部件的装置。
CN201880010436.5A 2017-04-13 2018-03-15 用于电力欺诈检测的新型非参数统计行为识别生态系统 Active CN110268409B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762485319P 2017-04-13 2017-04-13
US62/485,319 2017-04-13
US15/820,326 2017-11-21
US15/820,326 US10656190B2 (en) 2017-04-13 2017-11-21 Non-parametric statistical behavioral identification ecosystem for electricity fraud detection
PCT/US2018/022718 WO2018190984A1 (en) 2017-04-13 2018-03-15 Novel non-parametric statistical behavioral identification ecosystem for electricity fraud detection

Publications (2)

Publication Number Publication Date
CN110268409A CN110268409A (zh) 2019-09-20
CN110268409B true CN110268409B (zh) 2023-04-04

Family

ID=63790337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880010436.5A Active CN110268409B (zh) 2017-04-13 2018-03-15 用于电力欺诈检测的新型非参数统计行为识别生态系统

Country Status (5)

Country Link
US (2) US10656190B2 (zh)
EP (1) EP3610402B1 (zh)
JP (2) JP7191837B2 (zh)
CN (1) CN110268409B (zh)
WO (1) WO2018190984A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130232074A1 (en) * 2012-03-05 2013-09-05 Mark Carlson System and Method for Providing Alert Messages with Modified Message Elements
WO2019075431A1 (en) * 2017-10-13 2019-04-18 Honeywell International, Inc. DEVICE FOR DETECTING ENERGY FLIGHT
WO2019075434A1 (en) 2017-10-13 2019-04-18 Honeywell International, Inc. DEVICE, SYSTEM AND METHOD FOR MONITORING UTILITY NETWORK
US11477667B2 (en) * 2018-06-14 2022-10-18 Mark Cummings Using orchestrators for false positive detection and root cause analysis
KR102302631B1 (ko) * 2018-10-30 2021-09-16 제노테크 주식회사 인공지능 서비스를 위한 연결된 데이터 아키텍처 시스템 및 이에 대한 제어방법
US20200265119A1 (en) * 2019-02-14 2020-08-20 Accenture Global Solutions Limited Site-specific anomaly detection
CN110738415A (zh) * 2019-10-15 2020-01-31 国网山西省电力公司晋中供电公司 基于用电采集系统和离群点算法的窃电用户分析方法
US11611576B2 (en) * 2019-12-11 2023-03-21 GE Precision Healthcare LLC Methods and systems for securing an imaging system
RU2762241C2 (ru) * 2020-02-26 2021-12-16 Акционерное общество "Лаборатория Касперского" Система и способ выявления мошеннических активностей при взаимодействии пользователя с банковскими сервисами
CN111539843B (zh) * 2020-04-17 2022-07-12 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) 基于数据驱动的反窃电智能预警方法
KR102408152B1 (ko) * 2020-04-20 2022-06-15 (주)제타미디어 인공지능 기반의 히스토리 데이터 관리 방법
TWI747334B (zh) * 2020-06-17 2021-11-21 王其宏 檢測數據詐欺裝置、方法、程式產品及電腦可讀取媒體
RU2758359C1 (ru) * 2020-06-19 2021-10-28 Акционерное общество "Лаборатория Касперского" Система и способ выявления массовых мошеннических активностей при взаимодействии пользователей с банковскими сервисами
CN112215721A (zh) * 2020-09-04 2021-01-12 国网青海省电力公司信息通信公司 基于大数据的电力窃电精准识别及窃电反馈数据分析模型
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7991689B1 (en) * 2008-07-23 2011-08-02 Experian Information Solutions, Inc. Systems and methods for detecting bust out fraud using credit data
JP2013105497A (ja) * 2011-11-15 2013-05-30 Fujitsu Ltd エネルギー消費のプロファイリング
WO2013112639A1 (en) * 2012-01-23 2013-08-01 Itron, Inc. Analytics in a utility infrastructure
CN103635920A (zh) * 2011-02-22 2014-03-12 维萨国际服务协会 通用电子付款装置、方法与系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR863001A0 (en) 2001-11-01 2001-11-29 Inovatech Limited Wavelet based fraud detection
JP4261389B2 (ja) * 2004-03-03 2009-04-30 東芝ソリューション株式会社 不正アクセス検出装置及び不正アクセス検出プログラム
US20080283593A1 (en) * 2007-05-18 2008-11-20 Bank Of America Corporation Compromised Account Detection
JP5084591B2 (ja) * 2008-04-17 2012-11-28 Jx日鉱日石エネルギー株式会社 異常検知装置
US7936163B2 (en) * 2008-06-20 2011-05-03 General Electric Company Method and system for detecting electricity theft
JP5219783B2 (ja) * 2008-12-24 2013-06-26 三菱電機株式会社 不正アクセス検知装置及び不正アクセス検知プログラム及び記録媒体及び不正アクセス検知方法
CN102472773A (zh) * 2010-04-23 2012-05-23 松下电器产业株式会社 检测装置以及检测系统
US9305028B2 (en) * 2012-04-11 2016-04-05 Zynga Inc. Gaming platform utilizing a fraud detection platform
CN102967735A (zh) 2012-12-04 2013-03-13 辽宁省电力有限公司抚顺供电公司 反窃电异常分析系统
US9098553B2 (en) 2013-03-15 2015-08-04 Gridglo Llc System and method for remote activity detection
US9595006B2 (en) * 2013-06-04 2017-03-14 International Business Machines Corporation Detecting electricity theft via meter tampering using statistical methods
US20160161539A1 (en) 2014-12-09 2016-06-09 Powerhive, Inc. Electricity theft detection system
CN205193128U (zh) 2015-12-10 2016-04-27 丁泽术 一种三相电表防窃电检测模块

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7991689B1 (en) * 2008-07-23 2011-08-02 Experian Information Solutions, Inc. Systems and methods for detecting bust out fraud using credit data
CN103635920A (zh) * 2011-02-22 2014-03-12 维萨国际服务协会 通用电子付款装置、方法与系统
JP2013105497A (ja) * 2011-11-15 2013-05-30 Fujitsu Ltd エネルギー消費のプロファイリング
WO2013112639A1 (en) * 2012-01-23 2013-08-01 Itron, Inc. Analytics in a utility infrastructure

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spotting Suspicious Behaviors in Multimodal Data: A General Metric and Algorithms;Meng Jiang等;《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7454738》;20160420;第1-14页 *
一种基于相似度计算的无线传感器网络入侵检测方法;钟敦昊等;《技术研究》;20160427(第2期);第22-27页 *

Also Published As

Publication number Publication date
JP7191837B2 (ja) 2022-12-19
JP2020516979A (ja) 2020-06-11
EP3610402B1 (en) 2022-04-13
US10656190B2 (en) 2020-05-19
US10948526B2 (en) 2021-03-16
WO2018190984A1 (en) 2018-10-18
JP7465939B2 (ja) 2024-04-11
US20180299495A1 (en) 2018-10-18
CN110268409A (zh) 2019-09-20
EP3610402A1 (en) 2020-02-19
JP2023029983A (ja) 2023-03-07
US20200241057A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
CN110268409B (zh) 用于电力欺诈检测的新型非参数统计行为识别生态系统
CN110383308B (zh) 预测管道泄漏的新型自动人工智能系统
US11263241B2 (en) Systems and methods for predicting actionable tasks using contextual models
CN109844781B (zh) 用于从日志文件识别处理流并使流可视化的系统和方法
US11915195B2 (en) Systems and methods for intelligent field matching and anomaly detection
US20170011418A1 (en) System and method for account ingestion
JP2022508106A (ja) マネーロンダリング防止分析のためのシステムおよび方法
US10069891B2 (en) Channel accessible single function micro service data collection process for light analytics
US11397873B2 (en) Enhanced processing for communication workflows using machine-learning techniques
US10636086B2 (en) XBRL comparative reporting
US11570214B2 (en) Crowdsourced innovation laboratory and process implementation system
US20170091666A1 (en) System framework processor for channel contacts
CN110717597A (zh) 利用机器学习模型获取时序特征的方法和装置
US20210264251A1 (en) Enhanced processing for communication workflows using machine-learning techniques
US20210201237A1 (en) Enhanced user selection for communication workflows using machine-learning techniques
US11397614B2 (en) Enhanced processing for communication workflows using machine-learning techniques
US11983639B2 (en) Systems and methods for identifying process flows from log files and visualizing the flow
CN113807957A (zh) 基于机器学习确定数据对象的类别

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant