CN109753372A - 多维数据异常检测方法、装置、可读存储介质及电子设备 - Google Patents

多维数据异常检测方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN109753372A
CN109753372A CN201811564904.1A CN201811564904A CN109753372A CN 109753372 A CN109753372 A CN 109753372A CN 201811564904 A CN201811564904 A CN 201811564904A CN 109753372 A CN109753372 A CN 109753372A
Authority
CN
China
Prior art keywords
sample data
data
sample
abnormal
accounting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811564904.1A
Other languages
English (en)
Inventor
崔宝卫
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811564904.1A priority Critical patent/CN109753372A/zh
Publication of CN109753372A publication Critical patent/CN109753372A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种多维数据异常检测方法、装置、可读存储介质及电子设备。包括:获取用户在表单内输入的目标数据,所述目标数据为多维数据;确定第一样本数据集中与所述目标数据相似的K个第一样本数据,所述目标数据与所述第一样本数据集中的第一样本数据具有相同的维度空间;根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常。这样,该表单设计器可自动检测目标数据是否异常,无需人工检测,减少人工参与度,提高多维数据异常情况检测的智能化。此外,可以利用不同的第一样本数据来适应不同的业务场景,避免现有技术中通过硬编码方式来满足不同业务场景需求时而导致的适用性较差,以及降低系统处理性能的弊端。

Description

多维数据异常检测方法、装置、可读存储介质及电子设备
技术领域
本公开涉及数据处理技术领域,具体地,涉及一种多维数据异常检测方法、装置、可读存储介质及电子设备。
背景技术
表单是Web页面上常用的一种数据采集工具,在业务审批流程中,可以通过表单收集用户输入的数据。而表单设计器则是用来设计表单。现有的表单设计器不能对其设计的表单中的业务数据进行自动匹配或检测,尤其是对复杂多变的多维业务数更是难以智能诊断,需要依靠人工检测用户输入在表单内的数据异常情况,使得表单设计器的智能化程度较低。或者,只能根据具体业务场景,通过硬编码的方式进行检测,导致功能适用性较差,在检测不同的业务场景下,需要重新编写具体代码,费时费力,降低系统处理性能。
发明内容
为了克服现有技术中存在的问题,本公开实施例提供一种多维数据异常检测方法、装置、可读存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种多维数据异常检测方法,应用于表单设计器,包括:
获取用户在表单内输入的目标数据,所述目标数据为多维数据;
确定第一样本数据集中与所述目标数据相似的K个第一样本数据,其中,K为大于零的整数,且K小于所述第一样本数据集中的样本总数,所述目标数据与所述第一样本数据集中的第一样本数据具有相同的维度空间;
根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常。
可选地,所述确定第一样本数据集中与所述目标数据相似的K个第一样本数据,包括:
根据由所述第一样本数据集中的第一样本数据构建的二叉树网络,确定与所述目标数据距离最近的K个第一样本数据为与所述目标数据相似的K个第一样本数据。
可选地,所述维度空间的每一维度具有对应的维度权值,所述维度权值用于计算所述维度空间中数据之间的距离,以确定数据之间的相似性。
可选地,所述根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常,包括:
统计所述K个第一样本数据中属于异常数据的第一占比;
若所述第一占比大于或等于第一预设阈值,则确定所述目标数据异常。
可选地,所述K值通过以下方式确定:
设置K的初始值;
针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果,其中,所述第二样本数据集中的第二样本数据与所述第一样本数据集中的第一样本数据具有相同的维度空间,并且,所述第二样本数据集中的每个第二样本数据的实际异常情况已知;
统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比;
若所述第二占比大于或等于第二预设阈值,则减小所述K值,之后重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的步骤,以及所述统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的步骤,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止;
若所述第二占比小于所述第二预设阈值,则增大所述K值,之后重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的步骤,以及所述统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的步骤,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
本公开的第二方面提供一种多维数据异常检测装置,应用于表单设计器,包括:
获取模块,用于获取用户在表单内输入的目标数据,所述目标数据为多维数据;
第一确定模块,用于确定第一样本数据集中与所述目标数据相似的K个第一样本数据,其中,K为大于零的整数,且K小于所述第一样本数据集中的样本总数,所述目标数据与所述第一样本数据集中的第一样本数据具有相同的维度空间;
第二确定模块,用于根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常。
可选地,所述第一确定模块用于根据由所述第一样本数据集中的第一样本数据构建的二叉树网络,确定与所述目标数据距离最近的K个第一样本数据为与所述目标数据相似的K个第一样本数据。
可选地,所述维度空间的每一维度具有对应的维度权值,所述维度权值用于计算所述维度空间中数据之间的距离,以确定数据之间的相似性。
可选地,所述第二确定模块包括:
第二统计子模块,用于统计所述K个第一样本数据中属于异常数据的第一占比;
确定子模块,用于若所述第一占比大于或等于第一预设阈值,则确定所述目标数据异常。
可选地,所述K值通过数值设置模块来确定,其中,所述数值设置模块包括:
初值设置子模块,用于设置K的初始值;
异常检测子模块,用于针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果,其中,所述第二样本数据集中的第二样本数据与所述第一样本数据集中的第一样本数据具有相同的维度空间,并且,所述第二样本数据集中的每个第二样本数据的实际异常情况已知;
第一统计子模块,用于统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比;
第一触发子模块,用于若所述第二占比大于或等于第二预设阈值,则减小所述K值,之后触发所述异常检测子模块重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的操作,以及触发所述第一统计子模块统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的操作,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止;
第二触发子模块,用于若所述第二占比小于所述第二预设阈值,则增大所述K值,之后触发所述异常检测子模块重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的操作,以及触发所述第一统计子模块统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的操作,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。
本公开第四方面提供一种电子设备,包括:存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的所述方法的步骤。
通过上述技术方案,表单设计器可以自动检测目标数据是否异常,无需人工检测,减少人工参与度,提高了对多维数据异常情况检测的智能化。此外,可以利用不同的第一样本数据来适应不同的业务场景,避免现有技术中通过硬编码方式来满足不同业务场景需求时而导致的适用性较差,以及降低系统处理性能的弊端。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种应用于表单设计器的多维数据异常检测方法的流程图。
图2是根据另一示例性实施例示出的一种应用于表单设计器的多维数据异常检测方法的流程图。
图3是根据一示例性实施例示出的一种通过分割线分割空间的示意图。
图4是根据一示例性实施例示出的一种二叉树网络的示意图。
图5A是根据一示例性实施例示出的一种确定与目标数据最近的第一样本数据的第一状态的示意图。
图5B是根据一示例性实施例示出的一种确定与目标数据最近的第一样本数据的第二状态的示意图。
图6是根据一示例性实施例示出的一种应用于表单设计器的多维数据异常检测装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
请参考图1,图1是根据一示例性实施例示出的一种应用于表单设计器的多维数据异常检测方法的流程图。如图1所示,该多维数据异常检测方法可以包括以下步骤。
在步骤11中,获取用户在表单内输入的目标数据,该目标数据为多维数据。
在本公开中,用户可根据自身需求,利用表单设计器生成满足用户需求的表单,进而在该表单中填写与其需求相关的数据。具体地,表单设计器生成表单控件,并将该表单控件与业务场景相关的信息进行绑定,之后,将生成的表单显示出来。这样,用户可按照表单中每个控件表征的信息填写相应的数据,以使表单设计器从该表单内获取到数据。示例地,若业务场景为用户向电脑厂商订购电脑,电脑信息可以包括网卡信息、功率信息、显示器信息、处理器主频信息以及价格信息等。这样,表单设计器分别生成表征网卡信息、功率信息、显示器信息、处理器主频信息以及价格信息的表单控件,并将所生成的多个表单控件显示在表单中,以使用户可以在相应的控件处输入网卡数据、功率数据、显示器数据、处理器主频数据以及价格数据等。其中,上述网卡数据、功率数据、显示器数据、处理器主频数据以及价格数据组成了一个多维数据,该多维数据称为目标数据。
在步骤12中,确定第一样本数据集中与目标数据相似的K个第一样本数据。
第一样本数据集中的第一样本数据为用户预先输入到表单设计器中的样本数据,且该第一样本数据集包括多个第一样本数据。这样,在表单设计器获取到目标数据之后,可根据该目标数据和第一样本数据,确定出与该目标数据相似的K个第一样本数据。其中,K为大于零的整数,且K小于第一样本数据集中的样本总数,目标数据与第一样本数据集中的第一样本数据具有相同的维度空间。示例地,若第一样本数据为3维数据,相应地,目标数据也应为3维数据,且每一维数据的物理含义是相同的。
在步骤13中,根据K个第一样本数据中每个第一样本数据的异常情况,确定目标数据是否异常。
如上文所述,由于第一样本数据集中的第一样本数据为用户预先输入到表单设计器中的样本数据,该样本数据的异常情况已知。示例地,在用户将第一样本数据输入到表单设计器中时,可根据该第一样本数据的异常情况,对第一样本数据标定不同标签。例如,对异常的第一样本数据标定标签0,对正常的第一样本数据标定标签1。这样,表单设计器在确定出与目标数据相似的K个第一样本数据时,可进一步根据该K个第一样本数据的标签,确定该目标数据是否异常。
需要说明的是,本公开中属于异常情况的目标数据可以是指该目标数据中每维数据组合后导致目标数据本身的异常的数据,例如,若该目标数据为体积为100L和厚度为0.1mm的二维数据,显然,任何一个容器制造商都无法制造出满足该目标数据的容积,因此,可认为该目标数据本身就是异常的。此外,属于异常情况的目标数据也可以指目标数据本身可能是合理的,但是该目标数据并不符合该表单对应的商家所提供的数据,即相对于该表单对应的商家而言是异常的。例如,该目标数据为体积为100L和厚度为10cm的二维数据,该目标数据本身是合理的,但可能由于商家技术水平较低,或者设备较为落后,导致无法制造满足该目标数据的容积。因此,也可认为在该商家对应的表单中,该目标数据是异常的。
无论是上述哪一种异常情况,均可以通过预先输入不同的第一样本数据,并根据该目标数据与第一样本数据的相似情况,来确定出该目标数据是否异常。
采用上述技术方案,表单设计器可以根据与目标数据相似的K个第一样本数据的异常情况,自动检测目标数据是否异常,无需人工检测,减少人工参与度,提高了对多维数据异常情况检测的智能化。此外,可以利用不同的第一样本数据来适应不同的业务场景,避免现有技术中通过硬编码方式来满足不同业务场景需求时而导致的适用性较差,以及降低系统处理性能的弊端。
考虑到两个数据的距离越近,数据的相似度就越高,距离越远,数据的相似度越低。因此,在本公开中,可以根据第一样本数据与目标数据的空间距离来确定第一样本数据与目标数据的相似程度。具体地,第一样本数据与目标数据的空间距离越近,表明目标数据与第一样本数据的相似度越高,否则相似度越低。
在上述步骤12的一种实施方式中,确定与目标数据相似的K个第一样本数据可以为:依次计算目标数据与第一样本数据集中每个第一样本数据的空间距离,该空间距离可以为欧式距离;按照所计算的欧氏距离由小到大的顺序,选取前K个欧式距离所对应的前K个第一样本数据;并将该前K个第一样本数据确定为与目标数据相似的K个第一样本数据。
但是,在利用上述方法确定与目标数据相似的K个第一样本数据时,表单设计器需要计算出该第一样本数据集中的每个第一样本数据与目标数据的欧式距离,导致计算工作量较多,效率较低。
因此,如图2所示,上述步骤12的一种优选的实施方式可以包括以下步骤。
在步骤121中,根据由第一样本数据集中的第一样本数据构建的二叉树网络,确定与目标数据距离最近的K个第一样本数据为与目标数据相似的K个第一样本数据。
需要说明的是,在此种方式中需首先根据第一样本数据集中的第一样本数据构建二叉树网络。其中,该二叉树网络可以为k-d树。示例地,假设第一样本数据集中的第一样本数据为二维数据,且该第一样本数据集为{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}。
如图3所示,首先,在二维坐标系统分别标出上述第一样本数据。接着,分别计算x轴方向的值2,5,9,4,8,7和y轴方向的值3,4,6,7,1,2的方差,可知x轴方向上的方差较大,因此分割阈值选取x轴方向。然后,对x轴方向的值进行排序选出中值,由于第一样本数据的数量为偶数,因此,可以选择x=5作为中值,也可以选择x=7作为中值,其中,在图3中将x=7作为中值进行示例。所以,如图4所示,根节点为(7,2)。这样,该节点的分割超平面就是通过(7,2)并垂直与x轴的直线x=7。然后,根据该分割超平面x=7,将空间分为两部分,如图3所示,x<=7的部分为左子空间,包含3个节点{(2,3),(5,4),(4,7)};另一部分为右子空间,包含2个节点{(9,6),(8,1)}。然后,对左子空间和右子空间内的数据重复根节点的过程就可以得到下一级子节点(5,4)和(9,6)(也就是左右子空间的“根”节点),同时将空间和数据集进一步细分。如此反复直到空间中只包含一个数据点,如图3所示。相应地,构建的二叉树网络如图4所示。
在表单设计器获取到目标数据时,可根据该目标数据和二叉树网络,确定与该目标数据距离最近的K个第一样本数据。示例地,若目标数据为(2,4.5),首先进行二叉查找,由于2小于7,则进入根节点(7,2)的左子空间进行查找,即从(7,2)查找到节点(5,4)。在查找到节点(5,4)时,由于分割超平面为y=4,而4.5大于4,则在节点(5,4)的右子空间进行查找,并查找到节点(4,7),形成搜索路径<(7,2),(5,4),(4,7)>。
取(4,7)为当前最近邻点,计算其与目标数据(2,4.5)的距离为3.202,然后回溯到(5,4),计算其与查找点之间的距离为3.041。这样,以(2,4.5)为圆心,以3.041为半径作圆,如图5A所示,可见该圆和y=4超平面交割,所以需要进入(5,4)左子空间进行查找。此时,将(2,3)节点添加到搜索路径中形成新的搜索路径<(7,2),(2,3)>。回溯至(2,3)叶子节点,(2,3)与(2,4.5)的距离小于(5,4)与(2,4.5)的距离,所以最近邻点更新为(2,3),最近距离更新为1.5。回溯至(7,2),以(2,4.5)为圆心1.5为半径作圆,如图5B所示,该圆不与分割超平面x=7交割,至此,搜索路径回溯完。返回最近邻点(2,3),最近距离1.5。这样,即可确定与该目标数据(2,4.5)距离最近的一个第一样本数据为(2,3)。
若K大于1,在查找出距离该目标数据最近的一个第一样本数据之后,可将该第一样本数据从上述创建的二叉树网络中去除得到更新后的二叉树网络。并按照上述方式,在更新后的二叉树网络中继续查找与目标数据相距最近的其他的第一样本数据。需要说明的是,在第一次查找与目标数据最近的第一样本数据的过程中,可能也计算了其他节点与目标数据的距离,此时,可以将该距离记录下来,这样,查找第二或第三……第K个与目标数据相距最近的第一样本数据时,无需再次计算已经计算过的其他节点。这样,可以减少不必要的计算工作量。
采用上述技术方案,利用二叉树网络来确定与目标数据距离最近的K个第一样本数据,只需要计算少量的第一样本数据与目标数据的距离即可得与目标数据相似的前K个第一样本数据,提高了计算效率。
在根据上述方式中的任一方式确定出与目标数据相似的K个第一样本数据之后,可根据该K个第一样本数据的异常情况,确定目标数据是否异常。具体地,如图2所示,上述步骤13可以具体包括以下步骤。
在步骤131中,统计K个第一样本数据中属于异常数据的第一占比。
如上文所述,在输入第一样本数据时可根据该数据的异常情况设定不同的标签,这样,在表单设计器确定出K个第一样本数据之后,可根据K个第一样本数据中每个第一样本数据的标签,统计属于异常的第一样本数据的第一占比。示例地,若对异常的第一样本数据标定标签0,对正常的第一样本数据标定标签1,在表单设计器确定出K个第一样本数据之后,统计标签为0的第一样本数据的数量,根据该数量和K值即可确定第一占比。
在步骤132中,若第一占比大于或等于第一预设阈值,则确定目标数据异常。
其中,该第一预设阈值可以是用户自行设置的数值,第一预设阈值越大,对目标数据异常检测结果的准确率越高,然而表单设计器所要计算的工作量越大。优选地,为了使目标数据异常检测结果较为准确,该第一预设阈值至少应大于或等于50%。在本公开中,若第一占比大于或等于第一阈值,则表明与该目标数据相似的K个第一样本数据中属于异常情况的第一样本数据的数量较多,即,可确定该目标数据异常。若第一占比小于第一阈值,则表明该K个第一样本数据中属于异常情况的第一样本数据的数量较少,属于正常情况的第一样本数据的数量较多,因此,可确定该目标样本正常。
这样,在属于异常情况的第一样本数据的第一占比大于或等于第一预设阈值时,确定该目标数据为异常,使得表单设计器可以实现智能检测目标数据是否异常的目的。
此外,考虑到在实际应用中,针对包含有多维数据的样本数据,用户可能会根据自身需求在不同维度空间中设定不同的权重。因此,在本公开中,数据的维度空间的每一维度具有对应的维度权重,该维度权值可以用于计算维度空间中数据之间的距离,以确定该数据之间的相似性。
示例地,若数据的维度为二维,分别对应的权值为k1和k2,则可以根据以下公式计算数据之间的距离:
其中,L表征数据(x1,y1)和(x2,y2)之间的距离,k1表征x维度的权值,k2表征y维度的权值,且k1+k2=1。
需要说明的是,若用户需要在数据的维度空间的每一维度设置对应的维度权值,则在上文生成表单过程中的时候,需要在维度对应的控件上设置维度权值。这样,表单设计器在获取用户在表单上输入的目标数据时,相应地,即可获取到带有权值的目标数据,进而可计算数据之间带有权值的距离。
此外,上述所涉及到的K值可以是用户随机设置的,但是若随机设置的K值不准确,则会导致不能准确地检测目标数据是否异常的弊端。因此,在本公开中,表单设计器对目标数据进行异常检测之前,可以对设置的K值进行校验,以确定出适合该表单设计器的K值。
具体地,可以通过以下方式确定K值:
首先,设置K的初始值。该初始值可以为用户随机设置的数值,其可以例如为20、30等。
接着,针对第二样本数据集中的每个第二样本数据,确定第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,并获得该第二样本数据的异常检测结果。其中,该第二样本数据集中的第二样本数据与第一样本数据集中的第一样本数据具有相同的维度空间,并且,第二样本数据集中的每个第二样本数据的实际异常情况已知。
该第二样本数据集包括多个第二样本数据,针对每个第二样本数据,可以按照上文所述的确定相似数据的两种方式中的任一方式确定第一样本数据集中与该第二样本数据相似的K个第一样本数据,并根据该K个第一样本数据中的每个第一样本数据的异常情况,确定该第二样本数据是否异常。需要说明的是,根据该K个第一样本数据中的每个第一样本数据的异常情况,确定该第二样本数据是否异常的实现方式如前面所描述的根据该K个第一样本数据的异常情况,确定目标数据是否异常的实现方式可以相同,本公开在此不再赘述。
然后,统计该第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比。
由于该第二样本数据的实际异常情况已知,因此,在根据上述K个第一样本数据的异常情况确定出该第二样本数据是否异常之后,表单设计器还可进一步确定出利用上述方式所得的第二样本数据的异常检测结果是否与实际异常情况一致。若一致,则认为利用上述方式所得的第二样本数据的异常检测结果是准确的,若不一致,则可认为利用上述方式所得的第二样本数据的异常检测结果是不准确的。为了确定数据异常检测结果的准确率,需确定第二样本数据集中的每个第二样本数据的异常检测结果与其实际异常情况是否一致。因此,在本公开中,统计在第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比。
最后,若第二占比大于或等于第二预设阈值,则减小K值。若第二占比大于或等于第二预设阈值,则表明数据异常检测结果的准确率可满足用户需求,此时为了减少在检测数据异常情况过程中所确定的与目标数据相似的第一样本数据的数量,即,为了减少表单设计器的计算工作量,则可减小K值,从而减少表单设计器的计算工作量。具体地,若第二占比大于或等于第二预设阈值,可以按照第一预设步长减小K值,该第一预设步长可以例如为1。
在减小K值之后,还需重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的步骤,以及所述统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的步骤,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
若第二占比小于第二预设阈值,则增大K值。若第二占比小于第二预设阈值,则表明数据异常检测结果的准确率无法满足用户需求,此时,为了提高对数据异常检测结果的准确率,可增大K值。具体地,若第二占比小于第二预设阈值,可以按照第二预设步长增大K值,该第二预设步长例如也可以为1。
在增大K值之后,还需重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的步骤,以及所述统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的步骤,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
采用上述技术方案,对用户设置的K值进行校验,以得到满足用户需求准确率的最小的K值,这样,既可以使数据异常检测结果的准确率满足用户需求,还可以减少表单设计器的计算工作量。
基于同一发明构思,本公开还提供一种多维数据异常检测装置,应用于表单设计器。请参考图6,图6是根据一示例性实施例示出的一种应用于表单设计器的多维数据异常检测装置的框图。如图6所示,该多维数据异常检测装置可以包括:
获取模块61,用于获取用户在表单内输入的目标数据,所述目标数据为多维数据;
第一确定模块62,用于确定第一样本数据集中与所述目标数据相似的K个第一样本数据,其中,K为大于零的整数,且K小于所述第一样本数据集中的样本总数,所述目标数据与所述第一样本数据集中的第一样本数据具有相同的维度空间;
第二确定模块63,用于根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常。
可选地,所述第一确定模块用于根据由所述第一样本数据集中的第一样本数据构建的二叉树网络,确定与所述目标数据距离最近的K个第一样本数据为与所述目标数据相似的K个第一样本数据。
可选地,所述维度空间的每一维度具有对应的维度权值,所述维度权值用于计算所述维度空间中数据之间的距离,以确定数据之间的相似性。
可选地,所述第二确定模块包括:
第二统计子模块,用于统计所述K个第一样本数据中属于异常数据的第一占比;
确定子模块,用于若所述第一占比大于或等于第一预设阈值,则确定所述目标数据异常。
可选地,所述K值通过数值设置模块来确定,其中,所述数值设置模块包括:
初值设置子模块,用于设置K的初始值;
异常检测子模块,用于针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果,其中,所述第二样本数据集中的第二样本数据与所述第一样本数据集中的第一样本数据具有相同的维度空间,并且,所述第二样本数据集中的每个第二样本数据的实际异常情况已知;
第一统计子模块,用于统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比;
第一触发子模块,用于若所述第二占比大于或等于第二预设阈值,则减小所述K值,之后触发所述异常检测子模块重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的操作,以及触发所述第一统计子模块统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的操作,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止;
第二触发子模块,用于若所述第二占比小于所述第二预设阈值,则增大所述K值,之后触发所述异常检测子模块重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的操作,以及触发所述第一统计子模块统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的操作,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的多维数据异常检测方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的多维数据异常检测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的多维数据异常检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的多维数据异常检测方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种多维数据异常检测方法,其特征在于,应用于表单设计器,包括:
获取用户在表单内输入的目标数据,所述目标数据为多维数据;
确定第一样本数据集中与所述目标数据相似的K个第一样本数据,其中,K为大于零的整数,且K小于所述第一样本数据集中的样本总数,所述目标数据与所述第一样本数据集中的第一样本数据具有相同的维度空间;
根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常。
2.根据权利要求1所述的方法,其特征在于,所述确定第一样本数据集中与所述目标数据相似的K个第一样本数据,包括:
根据由所述第一样本数据集中的第一样本数据构建的二叉树网络,确定与所述目标数据距离最近的K个第一样本数据为与所述目标数据相似的K个第一样本数据。
3.根据权利要求1所述的方法,其特征在于,所述维度空间的每一维度具有对应的维度权值,所述维度权值用于计算所述维度空间中数据之间的距离,以确定数据之间的相似性。
4.根据权利要求1所述的方法,其特征在于,所述根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常,包括:
统计所述K个第一样本数据中属于异常数据的第一占比;
若所述第一占比大于或等于第一预设阈值,则确定所述目标数据异常。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述K值通过以下方式确定:
设置K的初始值;
针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果,其中,所述第二样本数据集中的第二样本数据与所述第一样本数据集中的第一样本数据具有相同的维度空间,并且,所述第二样本数据集中的每个第二样本数据的实际异常情况已知;
统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比;
若所述第二占比大于或等于第二预设阈值,则减小所述K值,之后重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的步骤,以及所述统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的步骤,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止;
若所述第二占比小于所述第二预设阈值,则增大所述K值,之后重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的步骤,以及所述统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的步骤,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
6.一种多维数据异常检测装置,其特征在于,应用于表单设计器,包括:
获取模块,用于获取用户在表单内输入的目标数据,所述目标数据为多维数据;
第一确定模块,用于确定第一样本数据集中与所述目标数据相似的K个第一样本数据,其中,K为大于零的整数,且K小于所述第一样本数据集中的样本总数,所述目标数据与所述第一样本数据集中的第一样本数据具有相同的维度空间;
第二确定模块,用于根据所述K个第一样本数据中每个第一样本数据的异常情况,确定所述目标数据是否异常。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块用于根据由所述第一样本数据集中的第一样本数据构建的二叉树网络,确定与所述目标数据距离最近的K个第一样本数据为与所述目标数据相似的K个第一样本数据。
8.根据权利要求6所述的装置,其特征在于,所述K值通过数值设置模块来确定,其中,所述数值设置模块包括:
初值设置子模块,用于设置K的初始值;
异常检测子模块,用于针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果,其中,所述第二样本数据集中的第二样本数据与所述第一样本数据集中的第一样本数据具有相同的维度空间,并且,所述第二样本数据集中的每个第二样本数据的实际异常情况已知;
第一统计子模块,用于统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比;
第一触发子模块,用于若所述第二占比大于或等于第二预设阈值,则减小所述K值,之后触发所述异常检测子模块重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的操作,以及触发所述第一统计子模块统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的操作,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止;
第二触发子模块,用于若所述第二占比小于所述第二预设阈值,则增大所述K值,之后触发所述异常检测子模块重新执行所述针对第二样本数据集中的每个第二样本数据,确定所述第一样本数据集中与该第二样本数据相似的K个第一样本数据;根据与该第二样本数据相似的K个第一样本数据中每个第一样本数据的异常情况,确定该第二样本数据是否异常,获得该第二样本数据的异常检测结果的操作,以及触发所述第一统计子模块统计所述第二样本数据集中,其异常检测结果与其实际异常情况相一致的第二样本数据的第二占比的操作,直到获得满足所述第二占比大于或等于所述第二预设阈值的最小K值为止。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN201811564904.1A 2018-12-20 2018-12-20 多维数据异常检测方法、装置、可读存储介质及电子设备 Pending CN109753372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811564904.1A CN109753372A (zh) 2018-12-20 2018-12-20 多维数据异常检测方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811564904.1A CN109753372A (zh) 2018-12-20 2018-12-20 多维数据异常检测方法、装置、可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN109753372A true CN109753372A (zh) 2019-05-14

Family

ID=66403808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811564904.1A Pending CN109753372A (zh) 2018-12-20 2018-12-20 多维数据异常检测方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109753372A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708687A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 一种设备异常指标确定方法、装置、设备和存储介质
CN112558923A (zh) * 2020-12-04 2021-03-26 航天信息股份有限公司 用于测试随机数产生器中的错误注入参数的方法、装置、存储介质及设备
CN113590605A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
WO2022160675A1 (zh) * 2021-01-29 2022-08-04 北京达佳互联信息技术有限公司 根因确定方法及装置
WO2022193827A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 异常检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110072308A1 (en) * 2009-09-18 2011-03-24 Hon Hai Precision Industry Co., Ltd. Electronic device and method for testing serial signals
CN107786368A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 异常节点检测方法以及相关装置
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN108830306A (zh) * 2018-05-30 2018-11-16 东软集团股份有限公司 业务数据的工作流故障诊断方法与装置、介质和电子设备
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110072308A1 (en) * 2009-09-18 2011-03-24 Hon Hai Precision Industry Co., Ltd. Electronic device and method for testing serial signals
CN107786368A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 异常节点检测方法以及相关装置
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN108830306A (zh) * 2018-05-30 2018-11-16 东软集团股份有限公司 业务数据的工作流故障诊断方法与装置、介质和电子设备
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708687A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 一种设备异常指标确定方法、装置、设备和存储介质
CN111708687B (zh) * 2020-06-15 2021-07-27 北京优特捷信息技术有限公司 一种设备异常指标确定方法、装置、设备和存储介质
CN112558923A (zh) * 2020-12-04 2021-03-26 航天信息股份有限公司 用于测试随机数产生器中的错误注入参数的方法、装置、存储介质及设备
CN112558923B (zh) * 2020-12-04 2023-07-04 航天信息股份有限公司 用于测试随机数产生器中的错误注入参数的方法、装置、存储介质及设备
WO2022160675A1 (zh) * 2021-01-29 2022-08-04 北京达佳互联信息技术有限公司 根因确定方法及装置
WO2022193827A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 异常检测方法及装置
CN113590605A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN113590605B (zh) * 2021-08-09 2024-01-05 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109753372A (zh) 多维数据异常检测方法、装置、可读存储介质及电子设备
WO2020147488A1 (zh) 异常群体识别方法及装置
CN102915347B (zh) 一种分布式数据流聚类方法及系统
CN110348460A (zh) 一种基于角度的目标检测训练方法、目标检测方法及装置
CN104517052B (zh) 一种入侵检测方法及装置
Fei et al. An improved BPNN method based on probability density for indoor location
CN109582886A (zh) 页面内容提取方法、模板的生成方法及装置、介质及设备
CN109688535A (zh) 确定无线热点地理位置的方法、装置、电子设备及介质
CN109165657A (zh) 一种基于改进sift的图像特征检测方法及装置
CN109766913A (zh) 用户分群方法、装置、计算机可读存储介质及电子设备
CN109615171A (zh) 特征阈值确定方法及装置、问题对象确定方法及装置
CN108562867B (zh) 一种基于聚类的指纹定位方法及装置
CN105975486A (zh) 信息推荐方法及装置
CN115292344A (zh) 数据字典构建方法、装置、电子设备及存储介质
CN106056350A (zh) 一种电子邮件的信息抽离方法、装置和系统
JP5810792B2 (ja) 情報処理装置及び情報処理プログラム
CN106251364A (zh) 目标跟踪方法及装置
CN113905066B (zh) 物联网的组网方法、物联网的组网装置及电子设备
CN111340539B (zh) 家装设计中的台面设计方法、装置及电子设备
CN104113910A (zh) 无线通信网络中的定位系统
CN112464988A (zh) 一种针对k-nn算法临近点查找的优化方法及装置
CN102215138A (zh) 一种网络异常的检测方法和装置
CN109710927A (zh) 命名实体的识别方法、装置、可读存储介质及电子设备
CN108332779A (zh) 一种液柱型仪表的读数方法及相关装置
CN109726338A (zh) 页面体裁划分方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514