CN114417090A - 一种数据筛选方法、装置、电子设备及存储介质 - Google Patents

一种数据筛选方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114417090A
CN114417090A CN202210101382.1A CN202210101382A CN114417090A CN 114417090 A CN114417090 A CN 114417090A CN 202210101382 A CN202210101382 A CN 202210101382A CN 114417090 A CN114417090 A CN 114417090A
Authority
CN
China
Prior art keywords
data
index data
index
local
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210101382.1A
Other languages
English (en)
Inventor
李勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202210101382.1A priority Critical patent/CN114417090A/zh
Publication of CN114417090A publication Critical patent/CN114417090A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据筛选方法、装置、电子设备及存储介质,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。

Description

一种数据筛选方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,更具体的说,涉及一种数据筛选方法、装置、电子设备及存储介质。
背景技术
目前,很多场景下需要对监控服务器采集的指标数据进行多维度的集中分析。但是,在指标数据的实时采集过程中,特别是监控服务器整体数量较多时,往往会有部分监控服务器,因系统环境异常等原因,造成采集到的指标数据和真实数据存在较大差异。当这些异常数据应用到多维度的集中分析时,会使分析结果有较大误差,从而影响后续的分析决策。
发明内容
有鉴于此,本发明公开一种数据筛选方法、装置、电子设备及存储介质,以实现通过指标数据取值范围边界和异常检测策略,从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
一种数据筛选方法,包括:
接收用户侧发送的数据查询请求;
从外部数据库获取与所述数据查询请求对应的原始指标数据;
从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,其中,所述异常检测策略能够筛选出局部离群因子。
可选的,所述从外部数据库获取与所述数据查询请求对应的原始指标数据,包括:
解析所述数据查询请求,得到待查询数据内容;
将所述待查询数据内容转换为相应的查询语句;
将所述查询语句发送至所述外部数据库,并获取所述外部数据库返回的所述原始指标数据。
可选的,所述基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,包括:
对所述中间指标数据中每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子;
将每个所述局部离群因子与对应指标预定义的离群因子阈值进行大小比较;
将大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为异常数据进行剔除;
将不大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为所述目标指标数据。
可选的,所述对所述中间指标数据中的每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子,包括:
将所述中间指标数据中的每个指标对应的每个指标数据作为一个数据点,并计算所述数据点的局部可达密度以及所述数据点的邻域点的局部可达密度;
计算所述数据点的邻域点的局部可达密度与所述数据点的局部可达密度之比的平均数,并将所述平均数确定为所述局部离群因子。
可选的,所述计算所述数据点的邻域点的局部可达密度与所述数据点的局部可达密度之比的平均数的表达式如下:
Figure BDA0003492386770000021
式中,LOFk(p)为局部离群因子,表示数据点p的邻域点Nk(p)的局部可达密度与数据点p的局部可达密度之比的平均数,数据点o为数据点p的邻域点Nk(p)中的任意一点,lrdk(o)为数据点o的局部可达密度,lrdk(p)为数据点p的局部可达密度,|Nk(p)|为第k距离邻域内数据点的个数。
可选的,还包括:
当所述原始指标数据基于所述指标数据取值范围边界和所述异常检测策略的双重异常筛选的结果为空时,返回空数据至所述用户侧。
一种数据筛选装置,包括:
接收单元,用于接收用户侧发送的数据查询请求;
获取单元,用于从外部数据库获取与所述数据查询请求对应的原始指标数据;
第一剔除单元,用于从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
第二剔除单元,用于基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,其中,所述异常检测策略能够筛选出局部离群因子。
可选的,所述第二剔除单元包括:
计算子单元,用于对所述中间指标数据中每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子;
比较子单元,用于将每个所述局部离群因子与对应指标预定义的离群因子阈值进行大小比较;
剔除子单元,用于将大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为异常数据进行剔除;
确定子单元,用于将不大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为所述目标指标数据。
一种电子设备,所述电子设备包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现上述所述的数据筛选方法。
一种计算机可读存储介质,所述计算机可读存储介质存储至少一个指令,所述至少一个指令被处理器执行时实现上述所述的数据筛选方法。
从上述的技术方案可知,本发明公开了一种数据筛选方法、装置、电子设备及存储介质,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种数据筛选方法流程图;
图2为本发明实施例公开的一种从数据库获取与数据查询请求对应的原始指标数据的方法流程图;
图3为本发明实施例公开的一种基于异常检测策略,从中间指标数据中剔除异常数据得到目标指标数据的方法流程图;
图4为本发明实施例公开的一种数据筛选过程示意图;
图5为本发明实施例公开的一种数据筛选装置的结构示意图;
图6为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种数据筛选方法、装置、电子设备及存储介质,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
参见图1,本发明实施例公开的一种数据筛选方法流程图,该方法应用于服务器,该方法包括:
步骤S101、接收用户侧发送的数据查询请求;
本实施例中的用户侧指的是需要请求指标数据的业务端。
在实际应用中,用户侧通过域名解析请求代理服务器IP,然后发送请求代理服务器IP所需的预设时间段内的指标数据对应的数据查询请求。
步骤S102、从外部数据库获取与所述数据查询请求对应的原始指标数据;
本实施例中的外部服务器用于存储监控服务器采集的原始指标数据。在实际应用中,外部服务器可以为时序服务器,时序服务器指的是将数据按照采集的先后顺序进行存储的服务器,本实施例并不做具体限制。
步骤S103、从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
在实际应用中,指标数据取值范围边界包括:指标数据上边界和指标数据下边界,本实施例将原始指标数据中超出指标数据上边界(即最大指标数据阈值)和下边界(即最小指标数据阈值)的数据确定为异常数据,并将该异常数据进行剔除。
举例说明,如下:
假设原始指标数据为:[1.54,0,2.12,1.87,1.54,1000.84,15.8],
指标数据取值范围边界为:(0,100],其中,0为指标数据下边界,100为指标数据上边界;
则原始指标数据中的[0,1000.84]将被确定为异常数据被剔除;
最终得到的中间指标数据为:[1.54,2.12,1.87,1.54,15.8]。
步骤S104、基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据。
基于上述论述可知,中间指标数据为原始指标数据剔除指标数据取值范围边界外的异常数据得到的,因此,中间指标数据实际为原始指标数据在指标数据取值范围边界内的指标数据,相应的,基于异常检测策略剔除中间指标数据中的异常数据,实际是剔除原始指标数据在指标数据取值范围边界内的异常数据,从而实现了对原始指标数据在指标数据取值范围边界内外的异常数据的剔除,达到了还原真实数据的目的。
其中,所述异常检测策略能够筛选出局部离群因子(LocalOutlier Factor,LOF)。在实际应用中,异常检测策略采用LOF算法筛选出LOF,LOF算法是一种无监督的离群检测方法,是基于密度的离群点检测方法中一个具有代表性的算法,能够检测出数据集中的异常指标数据。
举例说明,如下:
中间指标数据为:[1.54,2.12,1.87,1.54,15.8];
基于异常检测策略确定中间指标数据中的15.8为异常数据并剔除,该过程具体为:对中间指标数据采用LOF算法,得到每个指标数据的局部离群因子为:[1.04,1.02,1.07,1.04,4.58],假设离群因子阈值为1.1,因此局部离群因子大于1.1的对应指标数据应予以剔除,本实施例中为将局部离群因子4.58对应的指标数据15.8剔除。
最终得到的目标指标数据为:[1.54,2.12,1.87,1.54]。
综上可知,本发明公开了一种数据筛选方法,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
为进一步优化上述实施例,参见图2,本发明实施例公开的一种从外部数据库获取与数据查询请求对应的原始指标数据的方法流程图,也即步骤S102具体可以包括:
步骤S201、解析数据查询请求,得到待查询数据内容;
步骤S202、将所述待查询数据内容转换为相应的查询语句;
步骤S203、将所述查询语句发送至外部数据库,并获取所述外部数据库返回的原始指标数据。
在实际应用中,服务器通过查询语句从外部数据库中查询所需的数据,因此,本实施例中,服务器在接收到用户端发送的数据查询请求后,首先解析该数据查询请求得到待查询数据内容,然后再将待查询数据内容转换为相应的查询语句并发送至外部数据库,从而获取到与数据查询请求对应的原始指标数据。
综上可知,本发明通过解析数据查询请求得到待查询数据内容,并将待查询数据内容转换为相应的查询语句,发送至外部数据库来获取原始指标数据,实现了数据查询封装,从而简化了查询接口,使得用户仅需要通过数据查询请求提交关键必要字段,并转换为外部数据库所需字段,即可实现数据查询。
为进一步优化上述实施例,参见图3,本发明实施例公开的一种基于异常检测策略,从中间指标数据中剔除异常数据得到目标指标数据的方法流程图,该方法包括:
步骤S301、对所述中间指标数据中每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子;
指标用于衡量目标参数的规格等,指标数据指的是指标的具体数值,比如,指标为身高,指标数据为165cm。
步骤S302、将每个局部离群因子与对应指标预定义的离群因子阈值进行大小比较;
本发明中,策略配置数据库中存储有每一种指标类型的特征数据,特征数据包含:各个指标预定义的离群因子阈值。
需要说明的是,异常检测策略除了包括:局部离群因子计算策略,还包括离群因子阈值。
本发明通过对指标多个数据样本研究分析后发现,不同指标数据的指标属性不同,指标属性比如,业务属性、技术属性和管理属性等,因此,若针对所有的指标数据采用相同的离群因子阈值会导致数据筛选结果存在一定的误差,因此,本发明在进行数据筛选时,针对每个指标均定义了离群因子阈值,采用将每个指标数据对应的局部离群因子与对应指标预定义的离群因子阈值进行大小比较的方式进行数据筛选,从而提高筛选结果的准确性。
步骤S303、将大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为异常数据进行剔除;
步骤S304、将不大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为所述目标指标数据。
综上可知,本发明基于异常检测策略包含的局部离群因子计算策略得到得到各个指标数据对应的局部离群因子后,通过将每个局部离群因子与对应指标预定义的离群因子阈值进行比较,来确定局部离群因子对应的指标数据是否为异常数据,也即,本发明采用离群因子阈值实现对中间指标数据中异常数据的筛选,通过对筛选出的异常数据进行剔除,可以达到还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
为进一步优化上述实施例,步骤S301具体可以包括:
将中间指标数据中的每个指标对应的每个指标数据作为一个数据点,并计算所述数据点的局部可达密度以及所述数据点的邻域点的局部可达密度;
计算所述数据点的邻域点的局部可达密度与所述数据点的局部可达密度之比的平均数,并将所述平均数确定为所述局部离群因子。
其中,计算所述数据点的邻域点的局部可达密度与所述数据点的局部可达密度之比的平均数的表达式如下:
Figure BDA0003492386770000091
式中,LOFk(p)为局部离群因子,表示数据点p的邻域点Nk(p)的局部可达密度与数据点p的局部可达密度之比的平均数,数据点o为数据点p的邻域点Nk(p)中的任意一点,lrdk(o)为数据点o的局部可达密度,lrdk(p)为数据点p的局部可达密度,|Nk(p)|为第k距离邻域内数据点的个数。
为便于理解本发明公开的数据筛选方法,下面举例说明:
表1
Counter Range Ratio
cpu.busy (0,100] 1.0
mem.memfree.percent [0,100] 1.3
表1中,Counter为指标名称,cpu.busy和mem.memfree.percent是举例的两个指标,服务器CPU(Central Processing Unit,中央处理器)使用率指标,mem.memfree.percent指服务器内存剩余可用率指标。
Range为正常数据范围,在边界清洗模块中使用,用于确定对应指标数据的上下正常数据边界(包括:上边界和下边界),其中,指标cpu.busy的上下正常数据边界为(0,100],指标mem.memfree.percent的上下正常数据边界为[0,100]。
Ratio为每个指标的离群因子阈值,在LOF清洗模块中使用,每个指标数据通过异常检测策略得到的局部离群因子,将局部离群因子与离群因子阈值进行对比,若局部离群因子大于离群因子阈值,则将该局部离群因子对应的指标数据确定为异常数据并剔除。
假设,服务器中具有边界清洗模块、LOF清洗模块和请求代理模块三个功能模块;详见图4所示的数据筛选过程示意图。
如表1所示,(1)用户侧向请求代理模块发送查询指标cpu.busy在预设时间段内数据的数据查询请求;
(2)请求代理模块根据数据查询请求,向外部数据库发送请求原始指标数据,外部数据库向请求代理模块返回原始指标数据,请求代理模块将原始指标数据发送至边界清洗模块,请求边界清洗模块对原始指标数据进行清洗;
原始指标数据为:[1.54,0,2.12,1.87,1.54,1000.84,15.8]。
(3)边界清洗模块从表1中确定cpu.busy的边界为(0,100],则原始指标数据中的[0,1000.84]将被确定为异常数据被剔除,最终得到的中间指标数据为:[1.54,2.12,1.87,1.54,15.8]。
(4)边界清洗模块将中间指标数据返回至请求代理模块,请求代理模块将中间指标数据再发送至LOF清洗模块,请求LOF清洗模块对中间指标数据进行清洗。
(5)LOF清洗模块基于异常检测策略确定中间指标数据中的15.8为异常数据并剔除,最终得到的目标指标数据为:[1.54,2.12,1.87,1.54]。
(6)LOF清洗模块将目标指标数据返回至请求代理模块,请求代理模块将目标指标数据返回给用户侧。若原始指标数据经过边界清洗模块(对应指标数据边界)和LOF清洗模块(对应异常检测策略)的双重异常筛选的结果为空,则返回空数据至用户侧。
需要说明的是,策略配置数据库分别与边界清洗模块和LOF清洗模块连接,策略配置数据库中存储有边界清洗模块清洗原始指标数据所需要的指标数据取值范围边界,以及LOF清洗模块清洗中间指标数据所需的离群因子阈值等。其中,边界清洗模块在对原始指标数据进行清洗前从策略配置数据库初始化配置加载指标数据取值范围边界,LOF清洗模块在对中间指标数据进行清洗前从策略配置数据库初始化配置加载离群因子阈值等。
综上可知,本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
与上述方法实施例相对应,本发明还公开了一种数据筛选装置。
参见图5,本发明实施例公开的一种数据筛选装置的结构示意图,该装置应用于服务器,该装置包括:
接收单元401,用于接收用户侧发送的数据查询请求;
本实施例中的用户侧指的是需要请求指标数据的业务端。
在实际应用中,用户侧通过域名解析请求代理服务器IP,然后发送请求代理服务器IP所需的预设时间段内的指标数据对应的数据查询请求。
获取单元402,用于从外部数据库获取与所述数据查询请求对应的原始指标数据;
本实施例中的外部服务器用于存储监控服务器采集的原始指标数据。在实际应用中,外部服务器可以为时序服务器,时序服务器指的是将数据按照采集的先后顺序进行存储的服务器,本实施例并不做具体限制。
第一剔除单元403,用于从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
在实际应用中,指标数据取值范围边界包括:指标数据上边界和指标数据下边界,本实施例将原始指标数据中超出指标数据上边界(即最大指标数据阈值)和下边界(即最小指标数据阈值)的数据确定为异常数据,并将该异常数据进行剔除。
举例说明,如下:
假设原始指标数据为:[1.54,0,2.12,1.87,1.54,1000.84,15.8],
指标数据取值范围边界为:(0,100],其中,0为指标数据下边界,100为指标数据上边界;
则原始指标数据中的[0,1000.84]将被确定为异常数据被剔除;
最终得到的中间指标数据为:[1.54,2.12,1.87,1.54,15.8]。
第二剔除单元404,用于基于异常检测策略,从所述中间指标数据中剔除指标数据取值范围边界内的异常数据,得到目标指标数据,其中,所述异常检测策略策略能够筛选出局部离群因子。
其中,其中,所述异常检测策略能够筛选出局部离群因子(LocalOutlier Factor,LOF)。在实际应用中,异常检测策略采用LOF算法筛选出LOF,LOF算法是一种无监督的离群检测方法,是基于密度的离群点检测方法中一个具有代表性的算法,能够检测出数据集中的异常指标数据。
举例说明,如下:
中间指标数据为:[1.54,2.12,1.87,1.54,15.8];
基于异常检测策略确定中间指标数据中的15.8为异常数据并剔除,该过程具体为:对中间指标数据采用LOF算法,得到每个指标数据的局部离群因子为:[1.04,1.02,1.07,1.04,4.58],假设离群因子阈值为1.1,因此局部离群因子大于1.1的对应指标数据应予以剔除,本实施例中为将局部离群因子4.58对应的指标数据15.8剔除。
最终得到的目标指标数据为:[1.54,2.12,1.87,1.54]。
综上可知,本发明公开了一种数据筛选装置,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
为进一步优化上述实施例,获取单元402具体包括:
解析子单元,用于解析所述数据查询请求,得到待查询数据内容;
转化子单元,用于将所述待查询数据内容转换为相应的查询语句;
获取子单元,用于将所述查询语句发送至外部数据库,并获取外部数据库返回的所述原始指标数据。
综上可知,本发明通过解析数据查询请求得到待查询数据内容,并将待查询数据内容转换为相应的查询语句,发送至外部数据库来获取原始指标数据,实现了数据查询封装,从而简化了查询接口,使得用户仅需要通过数据查询请求提交关键必要字段,并转换为外部数据库所需字段,即可实现数据查询。
为进一步优化上述实施例,第二剔除单元具体包括:
计算子单元,用于对所述中间指标数据中每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子;
比较子单元,用于将每个所述局部离群因子与对应指标预定义的离群因子阈值进行大小比较;
剔除子单元,用于将大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为异常数据进行剔除;
确定子单元,用于将不大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为所述目标指标数据;
其中,所述异常检测策略包括:所述局部离群因子计算公式和所述离群因子阈值。
综上可知,本发明基于异常检测策略包含的局部离群因子计算策略得到得到各个指标数据对应的局部离群因子后,通过将每个局部离群因子与对应指标预定义的离群因子阈值进行比较,来确定局部离群因子对应的指标数据是否为异常数据,也即,本发明采用离群因子阈值实现对中间指标数据中异常数据的筛选,通过对筛选出的异常数据进行剔除,可以达到还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
为进一步优化上述实施例,数据筛选装置还可以包括:
第一返回单元,用于将目标指标数据返回至用户侧。
数据筛选装置还可以包括:
第二返回单元,用于当所述原始指标数据基于所述指标数据取值范围边界和所述异常检测策略的双重异常筛选的结果为空时,返回空数据至用户侧。
需要说明的是,装置实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
与上述实施例相对应,如图6所示,本发明还提供了一种电子设备,电子设备可以包括:处理器1和存储器2;
其中,处理器1和存储器2通过通信总线3完成相互间的通信;
处理器1,用于执行至少一个指令;
存储器2,用于存储至少一个指令;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器2可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器执行至少一个指令实现如下功能:
接收用户侧发送的数据查询请求;
从外部数据库获取与所述数据查询请求对应的原始指标数据;
从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,其中,所述异常检测策略能够筛选出局部离群因子。
综上可知,本发明公开了一种电子设备,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
与上述实施例相对应,本发明还公开了一种计算机可读存储介质,计算机可读存储介质存储至少一个指令,所述至少一个指令被处理器执行时实现如下功能:
接收用户侧发送的数据查询请求;
从外部数据库获取与所述数据查询请求对应的原始指标数据;
从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,其中,所述异常检测策略能够筛选出局部离群因子。
综上可知,本发明公开了一种计算机可读存储介质,接收用户侧发送的数据查询请求,从外部数据库获取与数据查询请求对应的原始指标数据,根据指标数据取值范围边界,从原始指标数据中剔除指标数据取值范围边界外的异常数据得到中间指标数据,然后基于异常检测策略剔除中间指标数据中的异常数据,得到最终的目标指标数据,异常检测策略能够筛选出局部离群因子。本发明通过指标数据取值范围边界和异常检测策略实现从原始指标数据中筛选出异常数据并剔除,达到了还原真实数据的目的,从而可以将对目标指标数据的多维度集中分析结果,精准的应用到后续的分析决策中。
需要说明的是,电子设备及计算机可读存储介质进行数据筛选的过程可参见方法实施例对应部分,此处不再赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据筛选方法,其特征在于,包括:
接收用户侧发送的数据查询请求;
从外部数据库获取与所述数据查询请求对应的原始指标数据;
从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,其中,所述异常检测策略能够筛选出局部离群因子。
2.根据权利要求1所述的数据筛选方法,其特征在于,所述从外部数据库获取与所述数据查询请求对应的原始指标数据,包括:
解析所述数据查询请求,得到待查询数据内容;
将所述待查询数据内容转换为相应的查询语句;
将所述查询语句发送至所述外部数据库,并获取所述外部数据库返回的所述原始指标数据。
3.根据权利要求1所述的数据筛选方法,其特征在于,所述基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,包括:
对所述中间指标数据中每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子;
将每个所述局部离群因子与对应指标预定义的离群因子阈值进行大小比较;
将大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为异常数据进行剔除;
将不大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为所述目标指标数据。
4.根据权利要求3所述的数据筛选方法,其特征在于,所述对所述中间指标数据中的每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子,包括:
将所述中间指标数据中的每个指标对应的每个指标数据作为一个数据点,并计算所述数据点的局部可达密度以及所述数据点的邻域点的局部可达密度;
计算所述数据点的邻域点的局部可达密度与所述数据点的局部可达密度之比的平均数,并将所述平均数确定为所述局部离群因子。
5.根据权利要求4所述的数据筛选方法,其特征在于,所述计算所述数据点的邻域点的局部可达密度与所述数据点的局部可达密度之比的平均数的表达式如下:
Figure FDA0003492386760000021
式中,LOFk(p)为局部离群因子,表示数据点p的邻域点Nk(p)的局部可达密度与数据点p的局部可达密度之比的平均数,数据点o为数据点p的邻域点Nk(p)中的任意一点,lrdk(o)为数据点o的局部可达密度,lrdk(p)为数据点p的局部可达密度,|Nk(p)|为第k距离邻域内数据点的个数。
6.根据权利要求1所述的数据筛选方法,其特征在于,还包括:
当所述原始指标数据基于所述指标数据取值范围边界和所述异常检测策略的双重异常筛选的结果为空时,返回空数据至所述用户侧。
7.一种数据筛选装置,其特征在于,包括:
接收单元,用于接收用户侧发送的数据查询请求;
获取单元,用于从外部数据库获取与所述数据查询请求对应的原始指标数据;
第一剔除单元,用于从所述原始指标数据中剔除指标数据取值范围边界外的异常数据,得到中间指标数据;
第二剔除单元,用于基于异常检测策略,从所述中间指标数据中剔除异常数据,得到目标指标数据,其中,所述异常检测策略能够筛选出局部离群因子。
8.根据权利要求6所述的数据筛选装置,其特征在于,所述第二剔除单元包括:
计算子单元,用于对所述中间指标数据中每个指标对应的每个指标数据,按照局部离群因子计算策略,分别计算得到每个所述指标数据对应的局部离群因子;
比较子单元,用于将每个所述局部离群因子与对应指标预定义的离群因子阈值进行大小比较;
剔除子单元,用于将大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为异常数据进行剔除;
确定子单元,用于将不大于所述离群因子阈值的所述局部离群因子对应的指标数据确定为所述目标指标数据。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现如权利要求1~6任意一项所述的数据筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1~6任意一项所述的数据筛选方法。
CN202210101382.1A 2022-01-27 2022-01-27 一种数据筛选方法、装置、电子设备及存储介质 Pending CN114417090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210101382.1A CN114417090A (zh) 2022-01-27 2022-01-27 一种数据筛选方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210101382.1A CN114417090A (zh) 2022-01-27 2022-01-27 一种数据筛选方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114417090A true CN114417090A (zh) 2022-04-29

Family

ID=81279589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210101382.1A Pending CN114417090A (zh) 2022-01-27 2022-01-27 一种数据筛选方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114417090A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634985A (zh) * 2023-12-28 2024-03-01 中国汽车工程研究院股份有限公司 一种新能源汽车健康度评价方法及系统
WO2024066784A1 (zh) * 2022-09-27 2024-04-04 中兴通讯股份有限公司 测试设备稳定性的监控方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024066784A1 (zh) * 2022-09-27 2024-04-04 中兴通讯股份有限公司 测试设备稳定性的监控方法、装置、电子设备和存储介质
CN117634985A (zh) * 2023-12-28 2024-03-01 中国汽车工程研究院股份有限公司 一种新能源汽车健康度评价方法及系统

Similar Documents

Publication Publication Date Title
CN110839016B (zh) 异常流量监测方法、装置、设备及存储介质
CN114417090A (zh) 一种数据筛选方法、装置、电子设备及存储介质
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
CN110830450A (zh) 基于统计的异常流量监测方法、装置、设备及存储介质
US20200409781A1 (en) Identifying root causes of performance issues
CN108173670A (zh) 检测网络的方法和装置
CN109240876B (zh) 实例监控方法、计算机可读存储介质和终端设备
CN108491861A (zh) 基于多源多参量融合的输变电设备状态异常模式识别方法及装置
CN112307619B (zh) 预警模型的构建方法、装备故障预警方法及装置
CN110083475B (zh) 一种异常数据的检测方法及装置
US20140096146A1 (en) Translating time-stamped events to performance indicators
CN109460775B (zh) 一种基于信息熵的数据填充方法及装置
CN107071788B (zh) 一种认知无线网络中的频谱感知方法及装置
CN112463543A (zh) 业务数据的监控方法、规则数据生成方法、装置及系统
CN111800389A (zh) 基于贝叶斯网络的港口网络入侵检测方法
CN111783696A (zh) 一种基于pv关系的低压分支拓扑实时分析的边缘计算方法
CN110348717B (zh) 基于栅格粒度的基站价值评分方法和装置
US9397921B2 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
CN117371861B (zh) 基于数字化的家政服务质量智能分析方法及系统
CN114625554A (zh) 故障修复方法、装置、电子设备及存储介质
CN117130851B (zh) 一种高性能计算集群运行效率评价方法及系统
CN114186420A (zh) 一种配电网台区拓扑校验方法、装置、设备和介质
CN111414582B (zh) 一种光伏理论功率计算方法、装置、设备和存储介质
CN111695829B (zh) 一种指标波动周期计算方法、装置、存储介质及电子设备
CN114398228A (zh) 一种设备资源使用情况的预测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination