CN109815042A - 异常因素的定位方法、装置、服务器和存储介质 - Google Patents
异常因素的定位方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN109815042A CN109815042A CN201910054446.5A CN201910054446A CN109815042A CN 109815042 A CN109815042 A CN 109815042A CN 201910054446 A CN201910054446 A CN 201910054446A CN 109815042 A CN109815042 A CN 109815042A
- Authority
- CN
- China
- Prior art keywords
- attribute
- attributes
- combinations
- abnormal factors
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明实施例涉及一种异常因素的定位方法、装置、服务器和存储介质。该异常因素的定位方法包括:获取包括多个属性的数据集;在所述数据集中确定满足预设条件的属性组合;在所述属性组合中确定与异常因素关联的目标属性组合。本发明实施例所提供的技术方案,实现对数据量大、特征分布不均匀以及数据较为稀疏的系统进行异常因素定位。
Description
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种异常因素的定位方法、装置、服务器和存储介质。
背景技术
在复杂系统中,异常检测和异常原因定位是保障系统稳定运行的重要手段。由于复杂系统涉及的因素众多,算法主要用于前期的筛选,比如:找出在某种模型下最显著的若干异常。
现有的常用技术包括关联分析、决策树、因子分解机等方法。
关联分析是用于查找项集之间关系的一类算法。在关联分析里,每条数据由一些离散的特征组成,通过一些感兴趣的量度可以查找这些数据中出现的一些感兴趣的规则。例如,从销售数据中发现的规则“若顾客购买了洋葱和土豆,则也有可能购买做汉堡需要的肉”。该方法的算法成熟,效率较高,而且结果统计意义明显,易于解释。但是,由于关联分析只查找数据集中存在的特征之间的关系,因此只能用于异常原因定位而不能进行异常检测。此外,标准的关联分析算法使用记录条数作为衡量一条规则支持度的量度,在特征分布高度不均匀的数据集中容易偏信某些记录特别多的个体。
决策树是一种树状的模型,其中每个节点对输入数据的一个属性进行比较,根据比较结果选择下一个节点,叶子节点则表示预测结果,在异常检测中一般取值为{异常,正常},常用的决策树算法包括ID3,C4.5等。另外,还可以通过在随机的子空间上训练独立的决策树来形成随机森林。但是,该方法作为有监督学习算法,需要提前标注训练数据是否正常。此外,决策树使用贪心算法来进行构建,因此只能检测最为显著的异常。例如一个决策树以条件A作为根节点,则从这棵树上得到的所有规则都包含A,也即不包含A的规则无法从这棵树中获得。随机森林或者Boost算法可以部分避免这个问题,但是仍然存在显著规则掩盖其它规则的现象。
因子分解机是广泛用于推荐系统的机器学习模型,它将每个特征投射为一个k维向量,通过向量的内积来作为特征之间的交叉项,然后再使用这些项训练广义线性模型进行回归或者分类。因子分解机在稀疏的数据集上效果较传统算法好,而且运算效率高。但是,因子分解机也是有监督学习算法,需要提前对训练数据进行标注。此外由于该模型将特征投射为隐向量,其对应的实际意义难以解释,不便进行进一步分析。
现有方法在针对特征分布不均匀、数据较为稀疏、数据量大的系统,存在一定的弊端,即不能找出所有可能异常的数据,用以后期进一步分析,也就是说,现有算法的适用性比较窄,不能为后期人工判断提供全面可靠的数据。
发明内容
本发明实施例提供一种异常因素的定位方法、装置、服务器和存储介质,实现对数据量大、特征分布不均匀以及数据较为稀疏的系统进行异常因素定位。
第一方面,本发明实施例提供了一种异常因素的定位方法,该方法包括:
获取包括多个属性的数据集;
在所述数据集中确定满足预设条件的属性组合;
在所述属性组合中确定与异常因素关联的目标属性组合。
第二方面,本发明实施例还提供一种异常因素的定位装置,该装置包括:
数据集获取模块,用于获取包括多个属性的数据集;
属性组合确定模块,用于在所述数据集中确定满足预设条件的属性组合;
目标属性组合确定模块,用于在所述属性组合中确定与异常因素关联的目标属性组合。
第三方面,本发明实施例还提供一种服务器,包括存储器、处理装置及存储在存储器上并可在处理装置上运行的计算机程序,所述处理装置执行所述计算机程序时实现本发明第一方面实施例所提供的异常因素的定位方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理装置执行时实现本发明第一方面实施例所提供的异常因素的定位方法。
与现有技术相比,本发明实施例通过提供一种异常因素的定位方法、装置、服务器和存储介质,通过获取包括多个属性的数据集,在数据集中确定满足预设条件的属性组合,在属性组合中确定与异常因素关联的目标属性组合。解决了现有复杂系统由于数据特征分布不均匀,数据较为稀疏,数据量大,不能从中找出所有可能异常数据的技术问题,实现对数据量大、特征分布不均匀以及数据较为稀疏的系统进行异常因素定位。
附图说明
图1为本发明第一实施例提供的异常因素的定位方法的流程示意图;
图2为本发明第一实施例提供的在目标属性组合中确定所有的备选第二异常因素的流程示意图;
图3为本发明第一实施例提供的在备选第二异常因素中确定第二异常因素的流程示意图;
图4为本发明提供的异常因素的定位装置的模块结构示意图;
图5为本发明提供的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一速度差值称为第二速度差值,且类似地,可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值,但其不是同一速度差值。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
请参阅图1,本发明第一实施例提供了一种异常因素的定位方法,该异常因素的定位方法可由异常因素的定位装置来执行,该装置可通过硬件和/或软件的方式来实现,并通常集成于服务器中,例如支撑某应用软件的业务平台服务器中,用于对数据量大、特征分布不均匀以及数据较为稀疏的系统进行异常因素定位。该异常因素的定位方法包括:
S110:获取包括多个属性的数据集;
本发明处理的数据是系统运行监测的数据,或者测量记录的数据。每条记录由若干特征和一个关键性能指标组成,其中每个特征可以取离散的值,称为属性,而关键性能指标则是反映系统运行状况的一个连续值。例如:在移动网络中,用户使用的连接技术(2G,4G),提供服务的运营商等可以作为特征,而网络延迟则作为性能指标;在水果种植中,平均日照强度、使用的农药品牌可以作为特征,而水果产量即为性能指标。此外,本发明处理的数据从包括多个属性的数据集中获取。
本实施例中介绍组成本发明的三个步骤,为了保持简洁性和准确性,本实施例中出现的符号对应的含义如下所示:
x表示包含若干属性的数据集合;f(y)表示属性y所属的特征;F(x)表示x所属的特征构成的集合;Dx表示包含x中所有属性的数据;Rx表示Dx中性能指标构成的向量;|*|表示集合或向量的元素的个数。具体的,当x为不同符号时,对应的含义依次类推。
S120:在数据集中确定满足预设条件的属性组合;
本实施例中,将满足预设条件的属性组合称之为频繁项集,步骤S120可以理解为是频繁项集挖掘。频繁项集是满足支持度要求的属性集合,支持度的通常定义为包含若干属性的记录条数。但是,在不平衡的数据下,仅仅通过记录条数认定一条规则是否可靠很容易得出具有偏向性的结论。例如:在水果种植中,在使用A品牌农药的果树里,绝大多数果树可能都来自于同一个专业果农,而其它农户只有少量种植。此时如果仅按照记录条数来衡量支持度,则该组数据的异常可能出自该专业果农的某些未被测量的特质(如个人种植技能等),而非观测到的A品牌农药。因此,本发明在传统的频繁项集挖掘所要求的记录条数阈值上,增加了对某些重要特征(如果农)的多样性要求,也就是说,在挖掘频繁项集时,要将果农这一特征考虑进去。需要说明的是,对每个频繁项集,有多样性要求的特征必须包含Cp个不同的属性,而且每个属性最多出现在50%的数据里。Cp可根据实际情况进行调整,且具体数值需要根据数据的具体分布以及特征的实际意义来进行选择。以上述水果种植为例说明,若Cp为3,步骤S110获取的数据记录条数为100条,则对于每个频繁项集,需要包括3个果农的数据,且各个果农的数据记录条数不超过50条。替代实施例中,对每个频繁项集,有多样性要求的特征包含Cp个不同的属性,而且每个属性最多出现在20%-50%的数据里。
现如今,Apriori算法是常用的用于查找在数据集中出现至少n次的属性组合的算法,本实施例中通过扩展Apriori算法来挖掘频繁项集,本实施例中的挖掘算法是一个迭代过程,具体步骤原理为S121~S125。
步骤S120包括如下子步骤:
S121:对数据集中的多个属性进行排列组合以得到多个属性组合x;
S122:以空集为初始候选属性组合C0,逐个遍历各个属性组合x以及不在属性组合x中的属性y,以迭代生成新的候选属性组合Ck,其中,
其中,k为大于等于1的整数,f(y)表示属性y所属的特征,F(x)表示x中的各个属性所属的特征构成的特征集合,∣Dx∪{y}∣表示包括x∪{y}中所有属性的数据记录条数,n为满足预设条件的属性组合数,Ux∪{y}表示具有多样性要求的特征在x∪{y}中不同属性取值的数量,Cp为具有多样性要求的特征包括的不同属性取值数量;
S123:在检测到候选属性组合Ck为空集时,迭代结束;
S124:逐个遍历各个不为空集的候选属性组合Ck,筛选出其中各个属性出现的次数小于或等于预设阈值的目标候选属性组合,其中,预设阈值为候选属性组合总数量的二分之一;
S125:将目标候选属性组合作为满足预设条件的属性组合。
本实施例中,在迭代结束后,统计不为空集的候选属性组合总数量,然后逐个遍历各个不为空集的候选属性组合,从中筛选出各个属性出现的次数小于或等于该候选属性组合总数量二分之一的属性组合,将筛选得到的属性组合作为目标候选属性组合,该目标候选属性组合即为本实施例的频繁项集。需要说明的是,本实施例中的预设条件是根据实际目的设定的条件,比如,以水果种植为例,一预设条件可以为水果产量低于2000万吨。本实施例中可以确定所有满足预设条件的频繁项集。
S130:在属性组合中确定与异常因素关联的目标属性组合。
步骤S130包括如下子步骤:
S131:在属性组合中任选一个属性组合作为检测属性组合;
S132:在除检测属性组合之外的任一属性组合中任选一个属性项;其中,属性项所属特征不在检测属性组合的特征集合内;
S133:计算包括检测属性组合和属性项中所有属性的第一数据记录条数;
S134:获取第一数据记录条数中的第一性能指标,并根据第一性能指标构建对应的第一向量;
S135:计算第一向量的中位数,并将计算结果存储为第一结果;
S136:计算包括检测属性组合中所有属性的第二数据记录条数;
S137:获取第二数据记录条数中的第二性能指标,并根据第二性能指标构建对应的第二向量;
S138:计算第二向量的中位数和中位绝对偏差值之和,并将计算结果存储为第二结果;
S139:比较第一结果和第二结果的大小;
S1310:在第一结果大于第二结果时,将检测属性组合和属性项构成的组合作为与异常因素关联的目标属性组合,其中,该属性项定义为目标属性项。
步骤S130是在频繁项集中检测可能包含异常因素的属性组合。首先,定义与异常因素关联的异常情况是一个频繁项x和一个属性y,其中,使得x∪{y}仍为频繁项,且median(Rx∪{y})>median(Rx)+MAD(Rx),其中median为中位数,而MAD为中位绝对偏差。本实施例中,x为检测属性组合,y为属性项,第一向量为Rx∪{y},第二向量为Rx。满足上述条件的(x,y)就是一个包含异常情况的属性组合,也就是本实施例中的目标属性组合,本实施例中得到多个(x,y),即目标属性组合为多个。进一步的,y为该目标属性组合中的第一异常因素,即各个目标属性组合中有一个异常因素y。
进一步的,由于本发明处理的数据具有不平衡的特点,上述得到的特征y不一定是其所在目标属性组合中最有可能的异常因素。例如:在手机网络的测量中,发现某种型号的手机4G网速较低,推断可能是该型号硬件(比如上述得到的y)问题。但是,进一步观察数据后发现,该型号的手机用户大多数都使用预装的某一版本安卓系统,而使用该系统版本的其它手机也出现网速较低的情况。因此,更加有可能的异常因素是该系统版本,而非手机型号。
基于上述情况,为了区分出最有可能的异常因素,还需要分析存在异常因素的目标属性组合里所有的特征分布,并使用预设的一些指标和统计假设检验的方法来查找属性之间的相关程度。可以理解为,找出该目标属性组合中的所有备选第二异常因素,参见图2,对应的步骤如下所示:
S210:在目标属性组合中,计算各个属性的边缘频率;
S220:对任一目标属性组合,选取不在该目标属性组合中的任一属性,计算属性的置信度;
S230:根据置信度和边缘频率计算属性的提升度;
S240:比较属性的置信度是否大于预设置信度阈值;
S250:比较属性的提升度是否大于预设提升度阈值;
S260:在属性的置信度大于预设置信度阈值,以及提升度大于预设提升度阈值时,将属性作为目标属性组合中的备选第二异常因素。
示例性的,选定一个目标属性组合,首先,计算该目标属性组合中各个属性的边缘频率其中,z表示任一属性,|D{z}|表示包括z的数据记录条数,表示整个数据集的数据记录条数。然后,对每一组目标属性组合x∪{y}和不在其中的属性z计算置信度和提升度,z满足其中,对应的置信度计算公式为:confidence=Pz∣x∪{y}=|Dx∪{y,z}|/|Dx∪{y}|,提升度计算公式为:lift=confidence/Pz。若对于某个属性z,置信度和提升度都相对较高,即都大于预设阈值,则z有可能是除y之外的另一个可以解释该异常的属性,即z是备选第二异常因素,因为它在这个异常中出现的频率明显比在整体数据集中要高,此外,置信度和提升度的预设阈值通常需要根据数据的分布和实际意义来确定。需要说明的是,由于本实施例中是逐个计算属性的置信度和提升度,故一个目标属性组合中的备选第二异常因素可以为一个或多个,且备选第二异常因素与第一异常因素可以为同一个属性,或者为不相同的属性。比如:z和y可能为同一个属性,也可能为不同的属性。
进一步的,本发明中还需在多个备选第二异常因素中确定一个备选第二因素,将其作为该目标属性组合的第二异常因素。本发明采用Mann–Whitney U检验方法来检查属性z是否确实对这组数据的性能指标有显著影响,参见图3,具体步骤如下所示:
S310:将目标属性组合拆分为包括备选第二异常因素的第一数据,和不包括备选第二异常因素的第二数据;
S320:将第一数据和第二数据作为预设检验方法的输入参数,得到备选第二异常因素的校验值,其中,预设检验方法为Mann–Whitney U检验;
S330:比较多个备选第二异常因素的校验值的大小;
S340:将其中最小校验值对应的备选第二异常因素作为目标属性组合的第二异常因素,其中,最小校验值作为第二异常因素的校验值。
示例性的,将Dx∪{y}分为Dx∪{y,z}(包括z的数据)和Dx∪{y}\Dx∪{y,z}(不包括z的数据)两部分,对其进行Mann–Whitney U检验。即:将这两部分数据作为输入参数,输入Mann–Whitney U检验对应的方法模型,得到的输出结果为校验值,此处用p值表示校验值,由于各个目标属性组合有多个备选第二异常因素,故得到多个p值,由于检验得到的p值越高,意味着z越不可能对性能指标存在影响。故对多个p值进行从小到大排序,选出其中最小的p值,该最小p值对应的备选第二异常因素即为该目标属性组合的第二异常因素,并将该最小p值作为该第二异常因素的校验值。
进一步的,各个目标属性组合均得到了第二异常因素,且对应的有校验值,比如,有3个目标属性组合C1、C2和C3,对应的第二异常因素的校验值分别为10,20,30,则将这3个目标属性组合C1、C2和C3按照其第二异常因素的校验值从小到大进行排序显示,即3个目标属性组合的排序是C1、C2、C3,其目的是为了让实际验证结果的工作人员先取C1、然后取C2、最后取C3进行验证,以减少实验的验证次数。
此外,本发明通过并行处理以快速处理大量数据。本发明将集群中的计算机划分为一个调度节点和若干个工作节点,每个节点都可以访问全部数据,每个节点可以保存一份完整的数据拷贝,也可以通过网络来获取分布式存储的数据。调度节点维护一个任务队列,将任务分派到工作节点并且收集结果。
以频繁项集挖掘为例,调度节点首先从空集C0开始,对其中的每个元素,调度节点生成一个满足的属性y,然后将其分派到一个空闲的工作节点,工作节点扫描数据库,然后判断并向调度节点汇报x∪{y}是否满足对应条件。调度节点在收到结果后,如果满足条件,就将其加入到候选属性组合中。
进一步的,本发明在具体调度方法上也进行了优化。例如:工作节点检查一个属性y是否会造成Dx的性能指标下降MAD(Rx)。在本发明中,每个工作节点在任务开始时首先将相关的数据Dx读入内存,并记录每次的任务(x,y)。若新的任务(x',y')满足则在读取时不再访问磁盘,而是直接在上次的数据里切分。如此,若调度器在调度时尽量满足上述条件,工作节点可以节省很多磁盘读写时间,从而提升总体速度。
本发明第一实施例提供的异常因素的定位方法,获取包括多个属性的数据集,在数据集中确定满足预设条件的属性组合,在属性组合中确定与异常因素关联的目标属性组合。解决了现有复杂系统由于数据特征分布不均匀,数据较为稀疏,数据量大,不能从中找出所有可能异常数据的技术问题,实现对数据量大、特征分布不均匀以及数据较为稀疏的系统进行异常因素定位。
请参阅图4,本发明提供了一种异常因素的定位装置,该异常因素的定位装置可实现上述实施例的异常因素的定位方法,该异常因素的定位装置包括:数据集获取模块410,属性组合确定模块420,目标属性组合确定模块430。
数据集获取模块410,用于获取包括多个属性的数据集;
属性组合确定模块420,用于在所述数据集中确定满足预设条件的属性组合;
目标属性组合确定模块430,用于在所述属性组合中确定与异常因素关联的目标属性组合。
本发明提供的异常因素的定位装置,获取包括多个属性的数据集,在数据集中确定满足预设条件的属性组合,在属性组合中确定与异常因素关联的目标属性组合。解决了现有复杂系统由于数据特征分布不均匀,数据较为稀疏,数据量大,不能从中找出所有可能异常数据的技术问题,实现对数据量大、特征分布不均匀以及数据较为稀疏的系统进行异常因素定位。
在上述实施例的基础上,属性组合确定模块420包括:
对所述数据集中的所述多个属性进行排列组合以得到多个属性组合x;
以空集为初始候选属性组合C0,逐个遍历各个属性组合x以及不在所述属性组合x中的属性y,以迭代生成新的候选属性组合Ck,其中,
其中,k为大于等于1的整数,f(y)表示属性y所属的特征,F(x)表示x中的各个属性所属的特征构成的特征集合,∣Dx∪{y}∣表示包括x∪{y}中所有属性的数据记录条数,n为满足预设条件的属性组合数,Ux∪{y}表示具有多样性要求的特征在x∪{y}中不同属性取值的数量,Cp为具有多样性要求的特征包括的不同属性取值数量;
在检测到所述候选属性组合Ck为空集时,迭代结束;
逐个遍历各个不为空集的所述候选属性组合Ck,筛选出其中各个属性出现的次数小于或等于预设阈值的目标候选属性组合;
将所述目标候选属性组合作为满足预设条件的属性组合。
在上述实施例的基础上,目标属性组合确定模块430包括:
在所述属性组合中任选一个属性组合作为检测属性组合;
在除所述检测属性组合之外的任一属性组合中任选一个属性项;其中,所述属性项所属特征不在所述检测属性组合的特征集合内;
计算包括所述检测属性组合和属性项中所有属性的第一数据记录条数;
获取所述第一数据记录条数中的第一性能指标,并根据所述第一性能指标构建对应的第一向量;
计算所述第一向量的中位数,并将计算结果存储为第一结果;
计算包括所述检测属性组合中所有属性的第二数据记录条数;
获取所述第二数据记录条数中的第二性能指标,并根据所述第二性能指标构建对应的第二向量;
计算所述第二向量的中位数和中位绝对偏差值之和,并将计算结果存储为第二结果;
比较所述第一结果和第二结果的大小;
在所述第一结果大于第二结果时,将所述检测属性组合和属性项构成的组合作为与异常因素关联的目标属性组合,其中,所述属性项定义为目标属性项。
在上述实施例的基础上,还包括:
将所述目标属性项定义为所述目标属性组合中的第一异常因素。
在上述实施例的基础上,还包括:
在所述目标属性组合中,计算各个属性的边缘频率;
对任一所述目标属性组合,选取不在该目标属性组合中的任一属性,计算所述属性的置信度;
根据所述置信度和边缘频率计算所述属性的提升度;
比较所述属性的置信度是否大于预设置信度阈值;
比较所述属性的提升度是否大于预设提升度阈值;
在所述属性的置信度大于预设置信度阈值,以及提升度大于预设提升度阈值时,将所述属性作为所述目标属性组合中的备选第二异常因素。
在上述实施例的基础上,还包括:
将所述目标属性组合拆分为包括所述备选第二异常因素的第一数据,和不包括所述备选第二异常因素的第二数据;
将所述第一数据和第二数据作为预设检验方法的输入参数,得到所述备选第二异常因素的校验值;
比较多个所述备选第二异常因素的校验值的大小;
将其中最小所述校验值对应的备选第二异常因素作为所述目标属性组合的第二异常因素,其中,所述最小校验值作为所述第二异常因素的校验值。
在上述实施例的基础上,还包括:
根据所述第二异常因素的校验值大小将对应的各个所述目标属性组合进行排序显示。
请参阅图5,其示出了适于用来实现本发明实施例异常因素的定位方法和/或异常因素的定位装置的服务器800的结构示意图。本发明实施例中的服务器可以为任意有数据处理能力的计算设备,典型的如服务器或服务器集群。图5示出的服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有服务器800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许服务器800与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的服务器800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理装置执行时实现如本发明前述任一实施例所提供的异常因素的定位方法。
特别地,根据本发明的实施例,上文参考流程图描述的异常因素的定位方法的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行上述流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本发明实施例的异常因素的定位方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:获取至少两个网际协议地址;向节点评价设备发送包括至少两个网际协议地址的节点评价请求,其中,节点评价设备从至少两个网际协议地址中,选取网际协议地址并返回;接收节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:接收包括至少两个网际协议地址的节点评价请求;从至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种异常因素的定位方法,其特征在于,包括:
获取包括多个属性的数据集;
在所述数据集中确定满足预设条件的属性组合;
在所述属性组合中确定与异常因素关联的目标属性组合。
2.根据权利要求1所述的异常因素的定位方法,其特征在于,所述在所述数据集中确定满足预设条件的属性组合的步骤,包括:
对所述数据集中的所述多个属性进行排列组合以得到多个属性组合x;
以空集为初始候选属性组合C0,逐个遍历各个属性组合x以及不在所述属性组合x中的属性y,以迭代生成新的候选属性组合Ck,其中,
其中,k为大于等于1的整数,f(y)表示属性y所属的特征,F(x)表示x中的各个属性所属的特征构成的特征集合,∣Dx∪{y}∣表示包括x∪{y}中所有属性的数据记录条数,n为满足预设条件的属性组合数,Ux∪{y}表示具有多样性要求的特征在x∪{y}中不同属性取值的数量,Cp为具有多样性要求的特征包括的不同属性取值数量;
在检测到所述候选属性组合Ck为空集时,迭代结束;
逐个遍历各个不为空集的所述候选属性组合Ck,筛选出其中各个属性出现的次数小于或等于预设阈值的目标候选属性组合;
将所述目标候选属性组合作为满足预设条件的属性组合。
3.根据权利要求1所述的异常因素的定位方法,其特征在于,所述在所述属性组合中确定与异常因素关联的目标属性组合的步骤,包括:
在所述属性组合中任选一个属性组合作为检测属性组合;
在除所述检测属性组合之外的任一属性组合中任选一个属性项;其中,所述属性项所属特征不在所述检测属性组合的特征集合内;
计算包括所述检测属性组合和属性项中所有属性的第一数据记录条数;
获取所述第一数据记录条数中的第一性能指标,并根据所述第一性能指标构建对应的第一向量;
计算所述第一向量的中位数,并将计算结果存储为第一结果;
计算包括所述检测属性组合中所有属性的第二数据记录条数;
获取所述第二数据记录条数中的第二性能指标,并根据所述第二性能指标构建对应的第二向量;
计算所述第二向量的中位数和中位绝对偏差值之和,并将计算结果存储为第二结果;
比较所述第一结果和第二结果的大小;
在所述第一结果大于第二结果时,将所述检测属性组合和属性项构成的组合作为与异常因素关联的目标属性组合,其中,所述属性项定义为目标属性项。
4.根据权利要求3所述的异常因素的定位方法,其特征在于,所述异常因素的定位方法还包括:
将所述目标属性项定义为所述目标属性组合中的第一异常因素。
5.根据权利要求3所述的异常因素的定位方法,其特征在于,所述异常因素的定位方法还包括:
在所述目标属性组合中,计算各个属性的边缘频率;
对任一所述目标属性组合,选取不在该目标属性组合中的任一属性,计算所述属性的置信度;
根据所述置信度和边缘频率计算所述属性的提升度;
比较所述属性的置信度是否大于预设置信度阈值;
比较所述属性的提升度是否大于预设提升度阈值;
在所述属性的置信度大于预设置信度阈值,以及提升度大于预设提升度阈值时,将所述属性作为所述目标属性组合中的备选第二异常因素。
6.根据权利要求5所述的异常因素的定位方法,其特征在于,所述在所述属性的置信度大于预设置信度阈值,以及提升度大于预设提升度阈值时,将所述属性作为所述目标属性组合中的备选第二异常因素的步骤之后,还包括:
将所述目标属性组合拆分为包括所述备选第二异常因素的第一数据,和不包括所述备选第二异常因素的第二数据;
将所述第一数据和第二数据作为预设检验方法的输入参数,得到所述备选第二异常因素的校验值;
比较多个所述备选第二异常因素的校验值的大小;
将其中最小所述校验值对应的备选第二异常因素作为所述目标属性组合的第二异常因素,其中,所述最小校验值作为所述第二异常因素的校验值。
7.根据权利要求6所述的异常因素的定位方法,其特征在于,所述异常因素的定位方法还包括:
根据所述第二异常因素的校验值大小将对应的各个所述目标属性组合进行排序显示。
8.一种异常因素的定位装置,其特征在于,所述异常因素的定位装置包括:
数据集获取模块,用于获取包括多个属性的数据集;
属性组合确定模块,用于在所述数据集中确定满足预设条件的属性组合;
目标属性组合确定模块,用于在所述属性组合中确定与异常因素关联的目标属性组合。
9.一种服务器,包括存储器、处理装置及存储在存储器上并可在处理装置上运行的计算机程序,其特征在于:所述处理装置执行所述计算机程序时实现如权利要求1至7中任一所述的异常因素的定位方法。
10.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理装置执行时实现如权利要求1至7中任一所述的异常因素的定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910054446.5A CN109815042B (zh) | 2019-01-21 | 2019-01-21 | 异常因素的定位方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910054446.5A CN109815042B (zh) | 2019-01-21 | 2019-01-21 | 异常因素的定位方法、装置、服务器和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815042A true CN109815042A (zh) | 2019-05-28 |
CN109815042B CN109815042B (zh) | 2022-05-27 |
Family
ID=66604833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910054446.5A Active CN109815042B (zh) | 2019-01-21 | 2019-01-21 | 异常因素的定位方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815042B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457373A (zh) * | 2019-08-19 | 2019-11-15 | 东软睿驰汽车技术(沈阳)有限公司 | 一种隐性因素的确定方法、装置、存储介质及电子设备 |
CN110852573A (zh) * | 2019-10-21 | 2020-02-28 | 中国银联股份有限公司 | 数据处理方法、装置、设备及介质 |
CN112953737A (zh) * | 2019-11-26 | 2021-06-11 | 中兴通讯股份有限公司 | 配置异常检测方法、服务器以及存储介质 |
CN113572683A (zh) * | 2020-04-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087090B1 (en) * | 2014-07-31 | 2015-07-21 | Splunk Inc. | Facilitating execution of conceptual queries containing qualitative search terms |
CN106502815A (zh) * | 2016-10-20 | 2017-03-15 | 北京蓝海讯通科技股份有限公司 | 一种异常原因定位方法、装置和计算设备 |
CN108055281A (zh) * | 2017-12-27 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 账户异常检测方法、装置、服务器及存储介质 |
CN108446184A (zh) * | 2018-02-23 | 2018-08-24 | 北京天元创新科技有限公司 | 分析故障根原因的方法和系统 |
CN108463973A (zh) * | 2016-01-08 | 2018-08-28 | 华为技术有限公司 | 蜂窝系统中指纹识别根本原因分析 |
-
2019
- 2019-01-21 CN CN201910054446.5A patent/CN109815042B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087090B1 (en) * | 2014-07-31 | 2015-07-21 | Splunk Inc. | Facilitating execution of conceptual queries containing qualitative search terms |
CN108463973A (zh) * | 2016-01-08 | 2018-08-28 | 华为技术有限公司 | 蜂窝系统中指纹识别根本原因分析 |
CN106502815A (zh) * | 2016-10-20 | 2017-03-15 | 北京蓝海讯通科技股份有限公司 | 一种异常原因定位方法、装置和计算设备 |
CN108055281A (zh) * | 2017-12-27 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 账户异常检测方法、装置、服务器及存储介质 |
CN108446184A (zh) * | 2018-02-23 | 2018-08-24 | 北京天元创新科技有限公司 | 分析故障根原因的方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457373A (zh) * | 2019-08-19 | 2019-11-15 | 东软睿驰汽车技术(沈阳)有限公司 | 一种隐性因素的确定方法、装置、存储介质及电子设备 |
CN110852573A (zh) * | 2019-10-21 | 2020-02-28 | 中国银联股份有限公司 | 数据处理方法、装置、设备及介质 |
CN112953737A (zh) * | 2019-11-26 | 2021-06-11 | 中兴通讯股份有限公司 | 配置异常检测方法、服务器以及存储介质 |
CN113572683A (zh) * | 2020-04-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN113572683B (zh) * | 2020-04-29 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109815042B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815042A (zh) | 异常因素的定位方法、装置、服务器和存储介质 | |
JP5705307B2 (ja) | 動的適応型プロセス発見及び遵守 | |
CN108463973A (zh) | 蜂窝系统中指纹识别根本原因分析 | |
KR100961783B1 (ko) | 인공지능에 기반한 제품 및 제품 벤더 추천 장치 및 방법, 그 기록 매체 | |
WO2016053183A1 (en) | Systems and methods for automated data analysis and customer relationship management | |
US20090234782A1 (en) | Method and apparatus for location evaluation and site selection | |
CN110111156A (zh) | 一种客户流失预警方法、系统、介质和电子设备 | |
US9053170B2 (en) | Relationship discovery in business analytics | |
CN110163647A (zh) | 一种数据处理方法及装置 | |
US20150248630A1 (en) | Space planning and optimization | |
CN110490625A (zh) | 用户偏好确定方法及装置、电子设备、存储介质 | |
CN110363604A (zh) | 页面生成方法和装置 | |
CN108960912A (zh) | 用于确定目标位置的方法和装置 | |
CN109214730A (zh) | 信息推送方法和装置 | |
CN108932625A (zh) | 用户行为数据的分析方法、装置、介质和电子设备 | |
CN110263255A (zh) | 用户属性信息的获取方法、系统、服务器及存储介质 | |
CN110443265A (zh) | 一种基于社团的行为检测方法和装置 | |
Zhou et al. | An advanced inventory data mining system for business intelligence | |
US9201968B2 (en) | System and method for finding mood-dependent top selling/rated lists | |
CN110245684A (zh) | 数据处理方法、电子设备和介质 | |
US20210090105A1 (en) | Technology opportunity mapping | |
CN109426998A (zh) | 信息推送方法和装置 | |
CN113760521A (zh) | 一种虚拟资源的分配方法和装置 | |
CN110490682B (zh) | 分析商品属性的方法和装置 | |
US10296928B1 (en) | System and methods for measuring and influencing customer trajectory within a product space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |