CN112733897A - 确定多维样本数据的异常原因的方法和设备 - Google Patents

确定多维样本数据的异常原因的方法和设备 Download PDF

Info

Publication number
CN112733897A
CN112733897A CN202011609696.XA CN202011609696A CN112733897A CN 112733897 A CN112733897 A CN 112733897A CN 202011609696 A CN202011609696 A CN 202011609696A CN 112733897 A CN112733897 A CN 112733897A
Authority
CN
China
Prior art keywords
sample data
dimensional sample
dimension
isolated
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011609696.XA
Other languages
English (en)
Inventor
胡旻皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengdoushi Shanghai Science and Technology Development Co Ltd
Original Assignee
Shengdoushi Shanghai Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengdoushi Shanghai Technology Development Co Ltd filed Critical Shengdoushi Shanghai Technology Development Co Ltd
Priority to CN202011609696.XA priority Critical patent/CN112733897A/zh
Publication of CN112733897A publication Critical patent/CN112733897A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本申请提出一种用于确定多维样本数据的异常原因的方法,包括获取多维样本数据,生成孤立森林模型,将多维样本数据输入孤立森林模型以检测异常,其中记录最后维度以及对应的统计次数,确定最后维度的最终出现几率并评估最后维度对异常的贡献级别。还提出用于确定多维样本数据的异常原因的设备以及计算机可读存储介质。上述方法和设备可以完成复杂分布的多维样本数据的异常值检测后的自动异常原因分析。

Description

确定多维样本数据的异常原因的方法和设备
技术领域
本申请涉及风险控制,特别涉及在餐饮业中应用的确定多维样本数据的异常原因的方法和设备。
背景技术
在诸如餐饮业的行业中,需要对所涉及人员的交易数据进行风险控制。风险控制的前提是需要准确检测到餐厅人员的交易数据中存在的异常行为。
餐厅人员的交易数据通常具有高维、多峰和联合分布形态复杂的特点,样本数据集合中的异常的样本数据与大多数样本数据都不一样,并且在整体数据中的占比较小。因此,基于监督学习的传统分类方法,例如SVM和逻辑回归等分类算法使用大量正向样本数据和负向样本数据,并不适用这种情况。
无监督异常值检测方法主要分为单维度方法和多维度方法两类。无监督的异常值检测方法在训练模型和基于特征对样本数据进行分类时不存在监督。单维度方法对多维数据采用每个维度独立检测的方法,例如使用样本数据在每个维度中的分位数进行异常程度评价。而以孤立森林模型算法为代表的高维度方法将数据的所有维度同时纳入异常程度评价的范围。但是,单维度异常值检测算法虽然具备良好的可解释性,但是只能应对分布形态良好的样本数据并且不能将各维度间的联合分布特征纳入评估范围,因此无法评估各个维度之间的相关性特征。以孤立森林模型算法为代表的高维度异常值检测算法虽然可以很好地检测高维度样本数据的复杂联合分布形态,但是目前的主流应用方案仅提供代表综合异常程度的异常评分。异常评分无法表征造成多维度异常值点的异常原因,无法识别在异常值点表现异常的主要维度及其对异常原因的占比,即异常检测结果不具备可解释性。
因此,存在对现有的多维度异常检测方案进行改进的需求。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
为克服上述异常检测方案的至少一部分的缺点,本申请的至少一个实施例提出用于确定多维样本数据的异常原因的方法和设备。
根据本申请的一方面,提出一种用于确定多维样本数据的异常原因的方法,包括:获取多维样本数据;生成孤立森林模型,所述孤立森林模型包括至少一个孤立树;将所述多维样本数据输入所述孤立森林模型中的每个孤立树以检测异常,其中记录所述多维样本数据被检测为异常时的所述多维样本数据的最后维度以及与所述最后维度对应的统计次数;确定在检测异常的多维样本数据期间每个所述最后维度的最终出现几率;以及评估所述最后维度对于异常的贡献级别。
根据本申请的另一方面,提出一种用于确定多维样本数据的异常原因的设备,包括处理器;以及用于存储所述处理器的可执行指令的存储器,其中,所述处理器被配置为执行所述可执行指令以实施如上所述的方法。
根据本申请的又一方面,提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序包括可执行指令,当该可执行指令被处理器执行时,实施如上所述的方法。
通过采用本申请的实施例所述的多维样本数据的异常原因检测方法和设备,基于孤立森林模型的树形结构进行统计分析,与经典的孤立森林模型算法的综合异常评分的计算口径一致,保证了异常综合评价与异常原因分析结论的一致性。同时异常原因分析过程具有非参数、不受量纲影响的优良性能,可以完成复杂分布的多维样本数据的异常值检测后的自动异常原因分析,方便管理人员进行快速调查。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请的保护范围。
附图说明
通过参照附图详细描述的本申请的示例性实施例,本申请的上述和其它特征及优点将变得更加明显。
图1为根据本申请的实施例的用于生成多维样本数据的异常报告的过程的流程图;
图2为根据本申请的实施例的用于确定多维样本数据的异常原因的方法的流程图;以及
图3为根据本申请的实施例的用于确定多维样本数据的异常原因的设备的基本框图。
具体实施方式
现在将参考附图更全面地描述本申请的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本申请内容更加全面和完整,并将示例性实施例的构思全面地传达给本领域的技术人员。在图中,为了清晰,可能会夸大部分元件的尺寸或加以变形。在图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、元件等。在其它情况下,不详细示出或描述公知结构、方法或者操作以避免模糊本申请的关键内容。
在孤立森林(isolation forest)算法中,异常被定义为容易被孤立的离群样本数据,也可以理解为分布稀疏并且离密度高的群体较远的样本数据。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的样本数据是异常的。孤立森林算法是一种适用于连续数据的无监督的异常检测方法,不需要有标记的样本数据来训练,但是特征是连续的。
在查找哪些样本数据容易被孤立方面,孤立森林算法使用了一套非常高效的策略。在孤立森林中,递归地随机分割样本数据集合,直到所有的样本数据都被分割为孤立的样本数据,此时对于孤立森林的每个孤立树,样本数据集中的每个样本数据都位于该孤立树的唯一叶子节点上。在这种随机分割的策略下,异常的样本数据通常具有在从孤立树的根节点到叶子节点的行进路径中的路径深度较小的路径上。孤立树中最深层的叶子节点所对应的行进路径具有最大的路径深度,该叶子节点中被分割为孤立的样本数据通常是那些最不异常的样本数据。一个样本数据在孤立树中的分割过程(即从根节点到相应叶子节点的行进过程)的停止条件为:1)到达某个节点的样本数据的数量和/或比例不满足该节点的对应条件特征的数量/比例阈值(例如,样本数据的数量和/或比例低于在该节点处预先设置的数量阈值和/或比例阈值),使得该节点停止分裂或者说这个(些)样本数据在该节点不再被进一步分割,则样本数据在该节点处基于相应的条件特征被“孤立”。例如,预设的数量阈值为2,则到达节点的样本数据为1或2个时该样本数据直接被“孤立”;当样本数据为3个时,满足条件特征的样本数据为1个而不满足条件特征的样本数据为2个则它们也被“孤立”,而满足条件特征的样本数据为3个而不满足条件特征的样本数据为0个则满足条件的3个样本数据被分割到下一层节点;以此类推,当样本数据为7个时,满足和不满足条件特征的样本数据分别为4个和3个(均大于2)则这两种样本数据都被分割到两个分支上的下一层节点。2)样本数据的行进路径深度达到该孤立树的预先设置的最大路径深度时仍然没有被“孤立”,此时样本数据被分割到最深层的叶子节点,表示在有限次的特征分割过程中都没有将该样本数据筛选为异常的样本数据。位于最深层的叶子节点的样本数据包括两种情况:一种是在该最深层的叶子节点处,该样本数据刚好被“孤立”,这时才被孤立的样本数据相对经过较小路径深度就被孤立的样本数据是异常数据中异常程度不高的样本数据。另一种是直到该最深层的叶子节点处,该样本数据也没有被“孤立”但是已经达到孤立树的最深层节点处而使得分割停止。可以将到最深层的节点处还没有被“孤立”的样本数据看作与其它已经被孤立的样本数据属于不同的类别,从这点出发,也可以将这种样本节点视为相对不那么异常或最不异常的样本数据。最大路径深度可以预先设置。直观上来讲,那些密度很高的簇需要被切割很多次才能被孤立,但是那些密度很低的样本数据很容易就可以被孤立。对于孤立森林中所包括的多个不同的孤立树,其从根节点到最深的叶子节点出的条件特征均从相同的条件特征集合中选取,但是次序是随机或预先设定的,因此不同的孤立树扮演着基于不同规则识别异常的样本数据的角色。因此,孤立森林算法的结果输出为被孤立的异常的样本数据及其异常评分。
对于多维样本数据,与之对应的孤立森林算法所采用的孤立森林模型中,每个孤立树的条件特征可以选择具有与该多维样本数据的维数相同数量的条件特征组成的特征集合,即孤立树的最大路径深度等于多维样本数据的维数。在维度复用的情况下,最大路径深度也可以高于样本数据的维度。这样,每个孤立树都可以在与多维样本数据的每个维度对应的各层节点处,基于不同的条件特征次序和相应条件特征阈值,限定在不同分割/分类规则或异常值检测规则下将多维样本数据从每个维度角度进行异常检测的分割或分叉规则。
本申请以餐饮业为例介绍确定多维样本数据的异常原因的方案,但是本领域技术人员应当理解,该方案不仅适用于餐饮行业的异常样本数据的风险评估,还可以适用于其它领域对多维样本数据进行异常检测和由异常导致的风险评估,特别是可以进一步分析多维样本数据中的具体维度对该异常的贡献级别和程度。
在餐饮业中,顾客和员工属于两种不同类别的相关参与人员。对于每种相关人员,可以用其关键绩效指标(KPI)数据作为多维样本数据来检测和评估该样本数据的异常情况。一般来说,需要为顾客和员工生成不同的孤立森林模型并进行相应的异常分析。
顾客KPI作为多维样本数据,其各个维度可以是与该顾客的餐饮活动相关的行为,例如包括消费、使用或获取积分、使用或获取优惠券/消费券、会员操作等。各个维度的数据可以是该相关行为的次数与对应行为发生的金额的统计汇总。维度数据可以是在一段时间(日,周,月,季度,半年,一年或任何指定的时间段)内的顾客行为的次数和发生金额的汇总,例如通过统计、加权等方式获取。通过上述定义,多维样本数据顾客KPI包括与多种餐饮相关的活动对应的维度,以及指示该相关活动情况的维度数据/数值。对于餐厅的员工,也可以使用员工KPI作为多维样本数据。员工KPI的维度可以包括如上所述一段时间内的员工行为,例如收银、销售、办理会员卡等。对于每种员工行为,可以将行为的次数和发生金额的数值汇总作为该维度的数据。每个维度的数据也可以是由多个数据项组成的数据组,例如采用{发生次数,发生金额,…}的形式。因此,也可以将多维样本数据视为多维向量,向量的每个维度的数据进一步为多维子向量。
下面以顾客KPI为例描述根据本申请的实施例的方案。
图1示出根据本申请的实施例的基于餐饮业相关人员的多维KPI样本数据来生成多维样本数据的异常报告的过程的流程图。
首先在步骤S110获取作为多维样本数据的顾客KPI样本数据。关于顾客KPI样本数据的获取已经在上文中给出,在此不再详述。然后,过程在步骤S120生成用于对顾客KPI样本数据进行异常检测和异常原因分析的孤立森林模型。孤立森林模型可以在使用前通过包含顾客KPI样本数据的训练数据集合进行训练以确定孤立森林中的每个孤立树的结构和参数。孤立树的结构可以包括孤立树中从根节点到所有叶子节点的行进路径和孤立树中的节点层次。孤立树的参数可以包括由每个节点处进行分割/分类操作的条件特征(例如字段或阈值等)组成的条件特征集合。每个孤立树中的节点所在层对应于顾客KPI的一个维度。
在生成孤立森林模型后,可以分别在步骤S130中基于经典的孤立森林模型算法检测顾客KPI是否异常,以及计算并输出每个被判定为异常的顾客KPI的异常评分,从而筛选异常的顾客KPI;以及在步骤S140中构造假设检验评估异常的顾客KPI的每个维度对于该异常的贡献级别,从而确定该顾客KPI被判定为异常的原因,例如该异常是由顾客KPI的哪个或哪些维度的数据造成的,并且这些维度对该异常的贡献有多大。根据本申请的实施例,步骤S130和S140可以顺序地执行,也可以并行地执行。由于二者基于相同的孤立森林模型并且进行异常检测和评分的计算口径一致,因此两个步骤相互的先后执行顺序并不会影响另一步骤的结果。在某些情况下,并行执行可以显著提高异常检测和评估的效率。
在步骤S150,可以将步骤S130中的孤立森林模型输出的异常顾客KPI的筛选结果和异常顾客KPI的异常评分,以及步骤S140中的孤立森林模型输出的例如以异常顾客KPI的最后维度对于该异常的贡献级别形式的异常原因中的至少一项构成异常顾客KPI的异常报告,提供给餐饮企业的管理者以便进行调查。
图2则进一步示出根据本申请的实施例的用于确定多维样本数据的异常原因的方法的示意性流程。
首先在步骤S210中,获取顾客KPI样本数据作为多维样本数据。与图1类似,步骤S220用于生成孤立森林模型。
在步骤S230中,将顾客KPI数据输入孤立森林模型中以检测异常。将顾客KPI数据在孤立森林模型的每个孤立树上进行从根节点开始的行进并记录行进路径。在孤立树的每层上的节点(中间节点)上应用该节点的分割/分叉条件规则进行孤立类别的分割判定。分割条件规则采用分割条件特征字段或阈值的形式。当与该节点对应的维度上的数据或数值满足该节点的分割条件特征字段或阈值的顾客KPI的数量(即满足该分割条件特征的样本数据的数量)和/或不满足该节点的分割条件特征字段或阈值的顾客KPI的数量(即不满足该分割条件特征的样本数据的数量)足够多(即超过预先设定的分割条件特征的数量阈值,例如1个,2个,…)时,这两种顾客KPI在该节点都不被认为是异常数据,该顾客KPI被分割到该节点下一层的节点所在的分支上继续进行孤立类别的分割判定。例如,如果分割条件特征为a>10,则如果满足条件a>10的顾客KPI的数量大于预先设置的分割条件特征的数量阈值,或者满足条件a<=10的顾客KPI的数量大于该分割条件特征的数量阈值,这两种顾客KPI都不认为在该节点对应的维度上异常,即它们在该节点处都没有被“孤立”。两种顾客KPI可以行进到下一层节点上,例如a>10的客户KPI在左边分支的下一层节点继续进行分割判定,a<=10的客户KPI在右边分支的下一层节点继续进行分割判定。当与该节点对应的维度上的数据或数值满足该节点的分割条件特征字段或阈值的顾客KPI数据的数量(即满足该分割条件特征的样本数据的数量)和/或不满足该节点的分割条件特征字段或阈值的顾客KPI数据的数量(即不满足该分割条件特征的样本数据的数量)不够多(低于预先设定的分割条件特征的数量阈值,例如1个,2个,…)时,这种数量不足的顾客KPI在该节点都被认为是异常数据,即该顾客KPI在该节点被分割为孤立类别。
在每个孤立树上的具有最大路径深度的行进路径的顾客KPI位于最深层的叶子节点处,其包括在深层的叶子节点处才被“孤立”的顾客KPI和由于行进路径深度达到预先设置的最大路径深度而停止分割的那些顾客KPI。在由于达到最大路径深度而停止分割的情况下,该顾客KPI不会被检测为异常。在顾客KPI刚好到最深层节点处才被孤立(此时该顾客KPI在孤立树上的行进路径也具有最大路径深度)的情况下,该顾客KPI被检测为异常。不论顾客KPI在最深层的叶子节点处是否被检测为异常,都可以将该顾客KPI最终所在的叶子节点前的最后一个节点所对应的维度称为最后维度,以及将该叶子节点前的最后一个节点所对应的分割条件特征称为最后特征。方法记录该最后维度,并将该最后维度对应的统计次数累加1。
在行进路径的深度小于最大路径深度的情况下,顾客KPI被分割到叶子节点,即被分割为孤立类别时,表明该顾客KPI在该叶子节点前的最后一个节点处被分割条件特征判定为属于不同于其它顾客KPI的孤立类别,即异常的顾客KPI。在这里,执行分割判定的节点,即到达该顾客KPI最终所位于的叶子节点前的最后一个节点所对应的顾客KPI的维度被称为最后维度,该最后一个节点的分割条件特征被称为最后特征。最后特征与最后维度的数据特征对应,因此也可以说该最后一个节点的分割条件特征与最后维度对应。方法同样记录该最后维度,并将该最后维度对应的统计次数累加1。
因此,不论行进路径的深度是否小于最大路径深度,只要顾客KPI被“孤立”或被判定为异常的顾客KPI,或者其行进路径的深度达到最大路径深度仍然没有被“孤立”的顾客KPI,都可以找到对应的最后维度并将最后维度对应的统计次数累加。最后维度和最后特征可以理解为该“异常”(此时,“异常”可以理解为被孤立而被确定为异常,或者基于所有节点上的分割条件特征分割后都没有被孤立的那些与其它顾客KPI不同的“异常”)顾客KPI是由于最终所在的叶子节点前的最后一个节点处的分割操作造成的,该分割操作的节点所对应的客户KPI的维度就是造成该异常的最后一个维度(即,最后维度),该节点所对应的分割条件特征就是最后一次分割的分割条件特征(即,最后特征)。也就是说,无论是否被判定为异常,只要顾客KPI位于叶子节点处,都应对最后的维度进行计数,只是未达到最深路径深度就被孤立的顾客KPI位于非最深的叶子节点处,达到最深路径深度的顾客KPI(不论是否被孤立)位于最深的叶子节点处。
所有最后维度的计数总和等于孤立树的棵树,最后维度的出现概率总和等于1。如果顾客KPI没有被分割为异常类别,则最后维度的出现概率应当符合随机分布。如果顾客KPI在某个(些)维度上存在异常,则该维度出现在最后维度中的概率将大于随机分布的概率水平。出现概率与随机分布的概率水平的比较判断可以通过下文所述的二项检验完成。
当顾客KPI在孤立森林模型中的所有孤立树上完成行进并被分割到某一个叶子节点后,可以从所记录的信息中获得所有造成顾客KPI被检测为异常的最后维度以及该最后维度造成顾客KPI异常的统计次数。在步骤S240中,可以确定最后维度的最终出现几率。根据本申请的实施例,最终出现几率可以通过将最后维度对应的统计次数与孤立森林模型中的孤立树的数量的比值来计算。也可以通过其它方式计算最后维度的最终出现几率。
接下来,在步骤S250中构造假设检验来评估每个最后维度对于顾客KPI的异常的贡献级别,从而确定异常原因。下文中参考假设检验的示例性伪码详述构造假设检验的过程。
伪码:
for每个顾客KPI:
for顾客KPI的第i个维度KPI[i],i选自[1,2,3,……,n]:
KPI[i]的统计次数=0
for孤立森林模型中的每个孤立树:
for顾客KPI的第i个维度KPI[i],i选自[1,2,3,……,n]:
如果最后节点特征对应于KPI[i]:
最后维度KPI[i]的统计次数+=1
for顾客KPI的第i个维度KPI[i],i选自[1,2,3,……,n]:
KPI[i]的最终出现几率=KPI[i]的统计次数/孤立森林模型中的孤立树的数量m
for顾客KPI的第i个维度KPI[i],i选自[1,2,3,……,n]:
原始假设:KPI[i]的最终出现几率==1/n
备择假设:KPI[i]的最终出现几率>1/n
KPI[i]的P值=二项检验(KPI[i]的最终出现几率)
if KPI[i]的P值<0.05:
KPI[i]对于异常具有显著贡献=TRUE
对于具有m个孤立树的孤立森林模型,将每个顾客KPI引入孤立树中进行异常检测,其中顾客KPI具有n个维度。首先,将顾客KPI的每个维度的对应统计次数置零。然后在每个孤立树上从根节点开始,基于行进路径上的节点的分割条件特征对顾客KPI进行分割判定。当顾客KPI在叶子节点处被“孤立”或者行进路径的路径深度等于最大路径深度时,确定该顾客KPI被检测为异常,并将最后节点特征所对应的顾客KPI的维度KPI[i]记为最后维度并将该最后维度KPI[i]的统计次数加1。在对所有孤立树执行完异常检测后,对于每个被认定为最后维度的维度,分别计算该最后维度的最终出现几率为统计次数/孤立树的总数。
然后对于每个最后维度,构造假设检验。二项检验(binomial test)是一种概率统计函数,根据其检验标准(即置信度阈值),原始假设成立的概率,即原始假设的置信度>设定的置信度阈值的概率为1-α,其中α为显著性水平,表示条件为是否明显错误的判断标准,相应地置信度阈值1-α表示非明显错误的判断标准。在上文的伪码中,原始假设在最后维度KPI[i]的最终出现几率为1/n,n为顾客KPI的数据维数。1/n的最终出现几率表示如果客户KPI无异常,则顾客KPI在所有树上达到最大路径深度(位于最深层的叶子节点上),此时最终维度为随机选择而符合随机分布,及每个维度的出现几率都等于1/n。备择假设为最终出现几率>1/n,表示如果顾客KPI在某个维度上被判定为异常,则该顾客KPI因为该维度被“孤立”的概率高于其它维度,即该维度作为“最后维度”的概率高于其它维度,则其最终出现几率>1/n。P值为二项检验(KPI(i)的最终出现几率)的结果,表示该维度i不显著贡献异常的概率,则1-P为顾客KPI的维度KPI[i]更显著贡献异常的概率。如果P<0.05(一般取较小的值,例如0.005,0.01,0.05,0.1),则第i个维度KPI[i]显著贡献异常的概率为1-P>0.95,指示其确实显著贡献了异常,也就是说比其它最后维度的对于异常的贡献级别更高。
通过对客户KPI中的每个最后维度计算出的对于异常具有显著贡献的概率对该最后维度进行排序,可以清楚地获知这些最后维度中的哪个或哪些维度对客户KPI被检测为异常提供了更大贡献,即该异常是由客户KPI中的哪个或哪些维度造成的。
通过采用上述的确定多维样本数据的异常原因的方法,可以基于孤立森林模型的树形结构进行统计分析,与经典的孤立森林模型算法的综合异常评分的计算口径一致,保证了异常综合评价与异常原因分析结论的一致性。同时异常原因分析过程具有非参数、不受量纲影响的优良性能,可以完成复杂分布的多维样本数据的异常值检测后的自动异常原因分析,方便管理人员进行快速调查。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序包括可执行指令,该可执行指令被例如处理器执行时可以实现上述任意一个实施例中所述用于确定多维样本数据的异常原因的方法的步骤。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书中用于确定多维样本数据的异常原因的方法中描述的根据本申请各种示例性实施例的步骤。
根据本申请的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本申请的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中的用于确定多维样本数据的异常原因的方法的步骤。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图3来描述根据本申请的这种实施方式的电子设备100。图3显示的电子设备100仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,电子设备100以通用计算设备的形式表现。电子设备100的组件可以包括但不限于:至少一个处理单元110、至少一个存储单元120、连接不同系统组件(包括存储单元120和处理单元110)的总线130、显示单元140等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元110执行,使得所述处理单元110执行本说明书用于确定多维样本数据的异常原因的方法中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元110可以执行如图1和图2中所示的步骤。
所述存储单元120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1201和/或高速缓存存储单元1202,还可以进一步包括只读存储单元(ROM)1203。
所述存储单元120还可以包括具有一组(至少一个)程序模块1205的程序/实用工具1204,这样的程序模块1205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备100也可以与一个或多个外部设备200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备100交互的设备通信,和/或与使得该电子设备100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口150进行。并且,电子设备100还可以通过网络适配器160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器160可以通过总线130与电子设备100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的用于确定多维样本数据的异常原因的方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。

Claims (14)

1.一种用于确定多维样本数据的异常原因的方法,其特征在于,包括:
获取多维样本数据;
生成孤立森林模型,所述孤立森林模型包括至少一个孤立树;
将所述多维样本数据输入所述孤立森林模型中的每个孤立树以检测异常,其中记录所述多维样本数据被检测为异常时的所述多维样本数据的最后维度以及与所述最后维度对应的统计次数;
确定在检测异常的多维样本数据期间每个所述最后维度的最终出现几率;以及
评估所述最后维度对于异常的贡献级别。
2.根据权利要求1所述的方法,其特征在于,所述孤立树具有最大路径深度,在所述多维样本数据在所述孤立树中的行进路径的路径深度小于所述最大路径深度的情况下被分割为孤立类别或者所述多维样本数据在所述孤立树中的行进路径的路径深度等于所述最大路径深度时,所述多维样本数据被确定为异常。
3.根据权利要求2所述的方法,其特征在于,记录所述多维样本数据被检测为异常时的所述多维样本数据的最后维度以及与所述最后维度对应的统计次数还包括:
将所述多维样本数据被确定为异常时所位于的所述孤立树的叶子节点之前的最后一个节点的分割条件特征所对应的所述多维样本数据的维度记录为最后维度,以及将与所述最后维度对应的统计次数累加1。
4.根据权利要求1所述的方法,其特征在于,每个所述最后维度的所述最终出现几率为每个所述最后维度的统计次数与所述孤立树的数量的比值。
5.根据权利要求1所述的方法,其特征在于,评估所述最后维度对于异常的贡献级别进一步包括构造假设检验评估每个所述最后维度对于异常的贡献级别。
6.根据权利要求5所述的方法,其特征在于,构造假设检验进一步包括:
设定每个所述最后维度的最终出现几率的原始假设以及备择假设;以及
通过二项检验确定每个所述最后维度对于异常具有显著贡献的概率。
7.根据权利要求6所述的方法,其特征在于,还包括基于每个所述最后维度对于异常具有显著贡献的概率对所述最后维度进行排序。
8.根据权利要求1所述的方法,其特征在于,还包括在使用所述孤立森林模型之前对其进行训练。
9.根据权利要求1所述的方法,其特征在于,还包括使用所述孤立森林模型筛选异常的多维样本数据以及计算所述异常的多维样本数据的异常评分。
10.根据权利要求9所述的方法,其特征在于,筛选异常的多维样本数据以及计算所述异常的多维样本数据的异常评分与评估所述最后维度对于异常的贡献级别被并行地或顺序地执行。
11.根据权利要求9所述的方法,其特征在于,基于所述筛选、所述异常评分和所述最后维度的贡献级别中的至少一项生成异常报告。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述多维样本数据为与餐饮业相关的人员的关键绩效指标(KPI)数据,所述多维样本数据的维度对应于所述人员的与餐饮相关的行为。
13.一种用于确定多维样本数据的异常原因的设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为执行所述可执行指令以实施如权利要求1至12中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序包括可执行指令,当该可执行指令被处理器执行时,实施如权利要求1至12中任一项所述的方法。
CN202011609696.XA 2020-12-30 2020-12-30 确定多维样本数据的异常原因的方法和设备 Pending CN112733897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011609696.XA CN112733897A (zh) 2020-12-30 2020-12-30 确定多维样本数据的异常原因的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011609696.XA CN112733897A (zh) 2020-12-30 2020-12-30 确定多维样本数据的异常原因的方法和设备

Publications (1)

Publication Number Publication Date
CN112733897A true CN112733897A (zh) 2021-04-30

Family

ID=75610289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011609696.XA Pending CN112733897A (zh) 2020-12-30 2020-12-30 确定多维样本数据的异常原因的方法和设备

Country Status (1)

Country Link
CN (1) CN112733897A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547133A (zh) * 2022-01-17 2022-05-27 北京元年科技股份有限公司 基于多维数据集的对话式归因分析方法、装置及设备
WO2024036709A1 (zh) * 2022-08-18 2024-02-22 深圳前海微众银行股份有限公司 一种异常数据检测方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101202A1 (en) * 2001-11-15 2003-05-29 International Business Machines Corporation Systems, methods, and computer program products to interpret, explain, and manipulate exceptions in multidimensional data
US20030101176A1 (en) * 2001-11-15 2003-05-29 International Business Machines Corporation Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data
WO2020010701A1 (zh) * 2018-07-11 2020-01-16 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
CN111026925A (zh) * 2019-11-29 2020-04-17 中电福富信息科技有限公司 一种基于Flink的孤立森林算法并行化的异常检测方法及装置
WO2020140678A1 (zh) * 2019-01-04 2020-07-09 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备和存储介质
WO2020155752A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN111565171A (zh) * 2020-03-31 2020-08-21 北京三快在线科技有限公司 异常数据的检测方法、装置、电子设备及存储介质
CN111651767A (zh) * 2020-06-05 2020-09-11 腾讯科技(深圳)有限公司 一种异常行为检测方法、装置、设备及存储介质
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
US20200374720A1 (en) * 2018-06-04 2020-11-26 Jiangnan University Method for Detecting Abnormal Data in Sensor Network
WO2020248291A1 (en) * 2019-06-11 2020-12-17 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for anomaly detection
CN112418355A (zh) * 2020-12-16 2021-02-26 上海观安信息技术股份有限公司 基于孤立森林算法对异常点进行特征分析的方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101202A1 (en) * 2001-11-15 2003-05-29 International Business Machines Corporation Systems, methods, and computer program products to interpret, explain, and manipulate exceptions in multidimensional data
US20030101176A1 (en) * 2001-11-15 2003-05-29 International Business Machines Corporation Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data
US20200374720A1 (en) * 2018-06-04 2020-11-26 Jiangnan University Method for Detecting Abnormal Data in Sensor Network
WO2020010701A1 (zh) * 2018-07-11 2020-01-16 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
WO2020140678A1 (zh) * 2019-01-04 2020-07-09 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备和存储介质
WO2020155752A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
WO2020248291A1 (en) * 2019-06-11 2020-12-17 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for anomaly detection
CN111026925A (zh) * 2019-11-29 2020-04-17 中电福富信息科技有限公司 一种基于Flink的孤立森林算法并行化的异常检测方法及装置
CN111565171A (zh) * 2020-03-31 2020-08-21 北京三快在线科技有限公司 异常数据的检测方法、装置、电子设备及存储介质
CN111651767A (zh) * 2020-06-05 2020-09-11 腾讯科技(深圳)有限公司 一种异常行为检测方法、装置、设备及存储介质
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
CN112418355A (zh) * 2020-12-16 2021-02-26 上海观安信息技术股份有限公司 基于孤立森林算法对异常点进行特征分析的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BERGÞÓRSDÓTTIR, K.B.: "Local Explanation Methods for Isolation Forest: Explainable Outlier Detection in Anti-Money Laundering" *
MATTIA CARLETTI ET AL.: "Explainable Machine Learning in Industry 4.0: Evaluating Feature Importance in Anomaly Detection to Enable Root Cause Analysis", 2019 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS (SMC) *
MATTIA CARLETTI ET AL.: "Interpretable Anomaly Detection with DIFFI: Depth-based Feature Importance for the Isolation Forest", ARXIV:2007.11117V1 *
赵臣啸;薛惠锋;王磊;万毅;: "基于孤立森林算法的取用水量异常数据检测方法", 中国水利水电科学研究院学报, no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547133A (zh) * 2022-01-17 2022-05-27 北京元年科技股份有限公司 基于多维数据集的对话式归因分析方法、装置及设备
CN114547133B (zh) * 2022-01-17 2023-03-28 北京元年科技股份有限公司 基于多维数据集的对话式归因分析方法、装置及设备
WO2024036709A1 (zh) * 2022-08-18 2024-02-22 深圳前海微众银行股份有限公司 一种异常数据检测方法及装置

Similar Documents

Publication Publication Date Title
Friedler et al. A comparative study of fairness-enhancing interventions in machine learning
US11631032B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
US20190080253A1 (en) Analytic system for graphical interpretability of and improvement of machine learning models
Yeh et al. Going-concern prediction using hybrid random forests and rough set approach
US20210133490A1 (en) System and method for unsupervised abstraction of sensitive data for detection model sharing across entities
US20150310358A1 (en) Modeling consumer activity
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
US11928634B2 (en) Multivariate risk assessment via poisson shelves
US11928857B2 (en) Unsupervised anomaly detection by self-prediction
US10832262B2 (en) Modeling consumer activity
CN112733897A (zh) 确定多维样本数据的异常原因的方法和设备
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
Pérez-Pons et al. Evaluation metrics and dimensional reduction for binary classification algorithms: a case study on bankruptcy prediction
US11544600B2 (en) Prediction rationale analysis apparatus and prediction rationale analysis method
US11556734B2 (en) System and method for unsupervised abstraction of sensitive data for realistic modeling
US11488185B2 (en) System and method for unsupervised abstraction of sensitive data for consortium sharing
US11475467B2 (en) System and method for unsupervised abstraction of sensitive data for realistic modeling
US11475468B2 (en) System and method for unsupervised abstraction of sensitive data for detection model sharing across entities
KR102499182B1 (ko) 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템
EP3975074A1 (en) Method of determining an improved machine learning model, and use of such a model to determine attrition level
US11461728B2 (en) System and method for unsupervised abstraction of sensitive data for consortium sharing
CN112950392A (zh) 信息展示方法、后验信息确定方法及装置及相关设备
Sharma Credit Card Fraud Detection Predictive Modeling
Falessi et al. On the need of preserving order of data when validating within-project defect classifiers
Wang et al. Fast, Robust and Interpretable Participant Contribution Estimation for Federated Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210430

Assignee: Baisheng Consultation (Shanghai) Co.,Ltd.

Assignor: Shengdoushi (Shanghai) Technology Development Co.,Ltd.

Contract record no.: X2023310000138

Denomination of invention: Method and equipment for determining the cause of anomalies in multidimensional sample data

License type: Common License

Record date: 20230714

EE01 Entry into force of recordation of patent licensing contract