CN113656391A - 数据检测方法及装置、存储介质及电子设备 - Google Patents
数据检测方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113656391A CN113656391A CN202110949022.2A CN202110949022A CN113656391A CN 113656391 A CN113656391 A CN 113656391A CN 202110949022 A CN202110949022 A CN 202110949022A CN 113656391 A CN113656391 A CN 113656391A
- Authority
- CN
- China
- Prior art keywords
- data
- detected
- sample
- characteristic
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种数据检测方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:获取待检测数据,从待检测数据中采集待检测样本,进而提取待检测样本的实际特征向量;调取预测模型,根据预测模型确定与待检测样本对应的预测结果范围;根据实际特征向量和预测结果范围确定待检测数据的检测结果;其中,检测结果包括:异常或正常。该方法可以针对海量数据的接入,通过样本采集、回归模型进行分析,在资源占用较少的情况下实现对整体数据质量快速并准确的质量检测。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据检测方法及装置、存储介质及电子设备。
背景技术
随着大数据技术发展,海量数据大量参与到实际生产,受网络、资源等限制,大数据主要通过流处理技术(如:Storm)进行采集。而在万亿级数据记录的应用场景中,需要在数据入库前,通过有效的管理方式提前发现质量问题以及时管控。
相关技术中,对于大数据的质量管控,通常是通过在采集过程中设置完整性、合规性等规则开展质量管控。该方式仅局限于传统模式下文件形式采集、稽核规则单一的数据;对于流处理等技术所采集的记录级海量数据,存在着方案执行难度大、资源占用高等问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据检测方法、装置、电子设备及存储介质,可以在采集过程中利用样本检测实现对整体数据质量的管控,以解决现有技术中对于记录级海量数据的数据管控难以实现的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种数据检测方法,包括:
获取待检测数据,从待检测数据中采集待检测样本,进而提取待检测样本的实际特征向量;调取预测模型,根据预测模型确定与待检测样本对应的预测结果范围;根据实际特征向量和预测结果范围确定待检测数据的检测结果;其中,检测结果包括:异常或正常。
在本公开一个实施例中,从待检测数据中采集待检测样本,包括:获取抽样标准,根据抽样标准确定采样数量;从待检测数据中,采用流处理技术采集满足采样数量的一批数据文件,以作为待检测样本。
在本公开一个实施例中,提取待检测样本的实际特征向量,包括:获取指标特征以及指标特征序列,确定待检测样本在指标特征下的特征值;基于指标特征序列,根据特征值确定待检测样本的实际特征向量。
在本公开一个实施例中,确定待检测样本在指标特征下的特征值,包括:判断待检测样本中的数据文件是否具备特征描述字段;若是,则根据特征描述字段获取数据文件的特性描述信息,并基于特征描述字段与指标特征的对应关系,确定指标特征与特性描述信息的对应关系;若否,则基于指标特征对数据文件进行统计分析,得到数据文件的特性描述信息;根据待检测样本中的数据文件的特性描述信息,确定待检测样本在指标特征下的特征值;其中,指标特征包括:数据数量信息、占用空间信息、字段数信息、关键字信息、变化趋势信息、震荡幅度信息中的至少一个。
在本公开一个实施例中,基于指标特征序列,根据特征值确定待检测样本的实际特征向量,包括:对指标特征下的特征值进行标准化处理,生成指标特征下的标准化特征值;基于指标特征序列对标准化特征值进行排序,生成实际特征向量。
在本公开一个实施例中,预测模型是采用以下方式得到的:获取历史数据和抽样标准,以从历史数据中确定预设数量个建模样本;其中,建模样本中的数据文件数量是根据抽样标准确定的;提取各建模样本的标准化特征向量,并根据历史数据确定均值特征向量,进而根据均值特征向量和各建模样本的标准化特征向量确定预测模型中的回归系数;以及,根据各建模样本的标准化特征向量中的震荡幅度信息确定波动系数阈值;利用波动系数阈值和回归系数搭建预测模型。
在本公开一个实施例中,根据实际特征向量和预测结果范围确定待检测数据的检测结果,包括:判断实际特征向量是否在预测结果范围内;若是,则检测结果为正常;若否,则检测结果为异常;以及,在根据实际特征向量和预测结果范围确定待检测数据的检测结果之后,还包括:在检测结果为异常的情况下,根据实际特征向量和预测结果范围之间的偏差值进行告警或中断数据传输。
根据本公开的另一个方面,提供一种数据检测装置,包括:
采集模块,用于获取待检测数据,从待检测数据中采集待检测样本,进而提取待检测样本的实际特征向量;预测模块,用于调取预测模型,根据预测模型确定与待检测样本对应的预测结果范围;检测模块,用于根据实际特征向量和预测结果范围确定待检测数据的检测结果;其中,检测结果包括:异常或正常。
在本公开一个实施例中,采集模块从待检测数据中采集待检测样本,包括:获取抽样标准,根据抽样标准确定采样数量;从待检测数据中,采用流处理技术采集满足采样数量的一批数据文件,以作为待检测样本。
在本公开一个实施例中,采集模块提取待检测样本的实际特征向量,包括:获取指标特征以及指标特征序列,确定待检测样本在指标特征下的特征值;基于指标特征序列,根据特征值确定待检测样本的实际特征向量。
在本公开一个实施例中,采集模块确定待检测样本在指标特征下的特征值,包括:判断待检测样本中的数据文件是否具备特征描述字段;若是,则根据特征描述字段获取数据文件的特性描述信息,并基于特征描述字段与指标特征的对应关系,确定指标特征与特性描述信息的对应关系;若否,则基于指标特征对数据文件进行统计分析,得到数据文件的特性描述信息;根据待检测样本中的数据文件的特性描述信息,确定待检测样本在指标特征下的特征值;其中,指标特征包括:数据数量信息、占用空间信息、字段数信息、关键字信息、变化趋势信息、震荡幅度信息中的至少一个。
在本公开一个实施例中,采集模块基于指标特征序列,根据特征值确定待检测样本的实际特征向量,包括:对指标特征下的特征值进行标准化处理,生成指标特征下的标准化特征值;基于指标特征序列对标准化特征值进行排序,生成实际特征向量。
在本公开一个实施例中,预测模型是采用以下方式得到的:获取历史数据和抽样标准,以从历史数据中确定预设数量个建模样本;其中,建模样本中的数据文件数量是根据抽样标准确定的;提取各建模样本的标准化特征向量,并根据历史数据确定均值特征向量,进而根据均值特征向量和各建模样本的标准化特征向量确定预测模型中的回归系数;以及,根据各建模样本的标准化特征向量中的震荡幅度信息确定波动系数阈值;利用波动系数阈值和回归系数搭建预测模型。
在本公开一个实施例中,检测模块根据实际特征向量和预测结果范围确定待检测数据的检测结果,包括:判断实际特征向量是否在预测结果范围内;若是,则检测结果为正常;若否,则检测结果为异常;以及,在根据实际特征向量和预测结果范围确定待检测数据的检测结果之后,还包括:在检测结果为异常的情况下,根据实际特征向量和预测结果范围之间的偏差值进行告警或中断数据传输。
根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据检测方法。
根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的数据检测方法。
本公开的实施例所提供的数据检测方法,能够针对海量数据的接入,通过样本采集、回归模型分析,实现对整体数据质量的质量检测。
进一步,本公开实施例提供的数据检测方法还可以在质量检测结果异常的情况下进行告警或中断数据传输,保证了入库数据的高质量,同时还可以减少因质量问题导致的数据重传、数据重新入库现象,从而大量节省了系统资源和计算资源,提高了数据运营的工作效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的数据检测方法的示例性系统架构的示意图;
图2示出了本公开一个实施例的数据检测方法的流程图;
图3示出了本公开一个实施例的数据检测方法中确定待检测样本实际特征向量方法的流程图;
图4示出了本公开一个实施例的数据检测方法的流程图;
图5示出了本公开一个实施例的数据检测装置的框图;和
图6示出了本公开实施例中一种数据检测计算机设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
针对上述相关技术中存在的技术问题,本公开实施例提供了一种数据检测方法,以用于至少解决上述技术问题中的一个或者全部。
图1示出了可以应用本公开实施例的数据检测方法的示例性系统架构的示意图;如图1所示:
该系统架构可以包括服务器101、网络102和客户端103。网络102用以在客户端103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器101可以是提供各种服务的服务器,例如获取待检测数据、调用预测模型对该待检测数据进行预测最终确定待检测数据的检测结果的后台管理服务器。具体地,后台管理服务器可以获取待检测数据、提取待检测样本的实际特征向量、调用预测模型对该待检测数据进行预测以得到预测结果范围、根据待检测样本的实际特征向量预测结果范围确定待检测数据的检测结果,并将检测结果反馈给客户端103。
客户端103可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、智能家居设备、AR(Augmented Reality,增强现实)设备、VR(Virtual Reality,虚拟现实)设备等移动终端,或者,客户端103也可以是个人计算机,比如膝上型便携计算机和台式计算机等等。
在一些可选的实施例中,可以通过操作人员在客户端103的界面下达的检测指令,或者基于预设频率触发的任务使得服务器101获取待检测数据、再调用预测模型对该待检测数据进行预测并最终确定待检测数据的检测结果,并将检测结果通过客户端103的界面展示给操作人员;服务器101还可以在检测结果为异常的情况下进行告警或中断数据传输,进而保证入库数据的高质量,同时还可以减少因质量问题导致的数据重传、数据重新入库现象,从而大量节省了系统资源和计算资源,提高了数据运营的工作效率。
客户端103可以为操作人员提供下达检测指令的功能和查看检测结果的功能。操作人员可以通过客户端103将检测指令发送至服务器101以使服务器101向客户端103反馈相应的检测结果,以及可以在客户端103的界面中查看具体的检测结果,为操作人员进一步的数据分析和数据处理提供数据基础。
应该理解,图1中的客户端、网络和服务器的数目仅仅是示意性的,服务器101可以是一个实体的服务器,还可以为多个服务器组成的服务器集群,还可以是云端服务器,根据实际需要,可以具有任意数目的客户端、网络和服务器。
下面,将结合附图及实施例对本公开示例实施例中的数据检测方法的各个步骤进行更详细的说明。
图2示出了本公开一个实施例的数据检测方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器或客户端中执行,但本公开并不限定于此。
在下面的举例说明中,以服务器集群101为执行主体进行示例说明。
如图2所示,本公开实施例提供的数据检测方法可以包括以下步骤:
步骤S201,获取待检测数据,从待检测数据中采集待检测样本,进而提取待检测样本的实际特征向量。可以先确定待检测数据质量的业务场景,获取该场景下从数据源端发出的一段时间内的传输数据,以作为上述待检测数据。在本申请中,可以先从海量数据流中获取待检测数据,再从待检测数据中确定样本数据以用于数据质量的检测,将对海量数据的质量检测转化为对数量更少的相应样本数据的质量检测,减轻了检测压力,缓解了资源占用较大的问题。对于样本数据可以提取其实际特征向量,实际特征向量可以认为是从各个维度描述了当前待检测数据的数据特征,可以用于评估当前待检测数据的数据质量。
步骤S203,调取预测模型,根据预测模型确定与待检测样本对应的预测结果范围。预测模型可以是对应于不同业务场景预先训练好的或即时训练的,预测模型可以用于提供出与待检测样本数据质量中各数值(即后续步骤中的特征值)的范围,该范围可以认为是待检测样本数据质量中各数值(即后续步骤中的特征值)在正常情况下的波动范围。
步骤S205,根据实际特征向量和预测结果范围确定待检测数据的检测结果;其中,检测结果包括:异常或正常。将预测结果范围与待检测样本的实际特征向量进行比较,可以得到样本数据的检测结果,进而以样本数据的检测结果作为待检测数据的检测结果,判断出待检测数据当前的数据质量是否正常,实现海量大数据的数据检测。
根据本申请提供的数据检测方法,能够针对海量数据的接入,通过样本采集、回归模型进行分析,在资源占用较少的情况下实现对整体数据质量快速并准确的质量检测。
在一些实施例中,从待检测数据中采集待检测样本,包括:获取抽样标准,根据抽样标准确定采样数量;从待检测数据中,采用流处理技术采集满足采样数量的一批数据文件,以作为待检测样本。
抽样标准可以参照国际抽样标准,在数据传输过程中随机抽取定量样本,也可以基于国际抽样标准调整样本的采样数量,例如:若在上一次检测中被认为效果未达到预期,则可以在这一次检测中提高样本的采样数量。也可以根据质量需求,进行抽样规则的加严、标准、放宽以进行调整。
在一些实施例中,提取待检测样本的实际特征向量,包括:获取指标特征以及指标特征序列,确定待检测样本在指标特征下的特征值;基于指标特征序列,根据特征值确定待检测样本的实际特征向量。其中,指标特征可以用于描述数据在不同维度下的特征,不同维度如:数据的数量个数维度、所占空间维度、变化趋势维度等等。指标特征序列可以指示着各特征的排列顺序,统一的排列顺序更方便进行后续步骤中的比较和检测。
进一步地,在一些实施例中,确定待检测样本在指标特征下的特征值,包括:判断待检测样本中的数据文件是否具备特征描述字段;若是,则根据特征描述字段获取数据文件的特性描述信息,并基于特征描述字段与指标特征的对应关系,确定指标特征与特性描述信息的对应关系;若否,则基于指标特征对数据文件进行统计分析,得到数据文件的特性描述信息;根据待检测样本中的数据文件的特性描述信息,确定待检测样本在指标特征下的特征值;其中,指标特征包括:数据数量信息、占用空间信息、字段数信息、关键字信息、变化趋势信息、震荡幅度信息中的至少一个。
可以先判断待检测样本中的数据文件是否具备特征描述字段,若有则可以根据特征描述字段直接获取数据文件的特性描述信息,若没有则可以通过统计分析得到特性描述信息,再将特性描述信息转化为具有预设格式的特征值。如:针对check文件、log日志等本身具备特征描述字段的数据,可以直接采集特性描述信息;对于没有描述的,可以通过统计得到,如:接收到待检测样本后,分析其数量(如:一秒内传输的文件数)、所占用的存储空间大小、字段数、记录数(如:所有数据文件中的所有数据记录数)、关键字(如:正常,异常,关键属性等),以作为待检测样本的特性描述信息,还可以同时通过计算得到变化趋势和振荡幅度,其中变化趋势可以是增、减、平稳,震荡幅度可以是具体的变化情况(如:变化值、变化百分比等)。
在一些实施例中,基于指标特征序列,根据特征值确定待检测样本的实际特征向量,包括:对指标特征下的特征值进行标准化处理,生成指标特征下的标准化特征值;基于指标特征序列对标准化特征值进行排序,生成实际特征向量。
将特征值进行标准化处理可以在不影响数据携带信息的情况下使数据规范化,不仅方便后续步骤中的检测,也可以使不同业务场景下的数据质量具有更直观的对比,有助于相关技术人员对数据传输进行分析和改善。
图3示出了本公开一个实施例的数据检测方法中确定待检测样本实际特征向量方法的流程图,如图3所示,包括:
步骤S301,获取抽样标准,根据抽样标准确定采样数量;
步骤S303,从待检测数据中采用流处理技术采集满足采样数量的一批数据文件,以作为待检测样本;
步骤S305,判断待检测样本中的数据文件是否具备特征描述字段;若是,则执行步骤步骤S307;若否,则执行步骤步骤S309;
步骤S307,根据特征描述字段获取数据文件的特性描述信息,并基于特征描述字段与指标特征的对应关系,确定指标特征与特性描述信息的对应关系,进而根据待检测样本中的数据文件的特性描述信息,确定待检测样本在指标特征下的特征值;
步骤S309,基于指标特征对数据文件进行统计分析,得到数据文件的特性描述信息,进而待检测样本中的数据文件的特性描述信息,确定待检测样本在指标特征下的特征值;
在一些实际应用中,对于一批待检测样本的多个指标特征下的特征值,对于一些指标特征可以使用步骤S307确定其特征值,同时对于另一些指标特征可以使用步骤S309确定其特征值;
步骤S311,对指标特征下的特征值进行标准化处理,生成指标特征下的标准化特征值;
步骤S313,基于指标特征序列对标准化特征值进行排序,生成实际特征向量。
在一些实施例中,预测模型是采用以下方式得到的:获取历史数据和抽样标准,以从历史数据中确定预设数量个建模样本;其中,建模样本中的数据文件数量是根据抽样标准确定的;提取各建模样本的标准化特征向量,并根据历史数据确定均值特征向量,进而根据均值特征向量和各建模样本的标准化特征向量确定预测模型中的回归系数;以及,根据各建模样本的标准化特征向量中的震荡幅度信息确定波动系数阈值;利用波动系数阈值和回归系数搭建预测模型。其中,标准化特征向量的初始值可以是均值为0,方差为1的数据集。
可以预先按时存储历史数据,用于预测模型的构建或定时更新。在一些实际应用中,可以按如下方式构建预测模型以得到预测结果(即预测结果范围):
1)获取历史数据,从历史数据中确定采集数据(即建模样本),以及获取采集数据的数据质量检查参数(即数据的指标特征),包括至少一种且不限于以下参数:采集数据文件的数量、大小、字段数、记录数、记录的统计值等,标准化为均值为0,方差为1的数据集(ti1,ti2,ti3,……tid)。
2)计算采集数据的均值μ和方差p,使用标准化后的ti′=(ti-u)/p,i=1,2,……n,计算其特征向量Vi。
3)通过特征向量,搭建自回归预测模型V′x=a0+a1·V1+a2·V2+…+an·Vn,其中,V1、V2、……、Vn是参数的历史数据,V′x为预测的参数的当前数据,而a0、a1、……、an是回归系数,n是自变量数目。
4)基于设置好的参数取值上限的波动系数K1和取值下线波动系数K2,乘以数据预测结果V′x,得到向量中各个值的范围集合,以作为预测结果范围。其中波动系数K1和K2可以是一个数值,也可以是一个向量,当为向量时,可以对预测结果V′x中的每一个向量值分别设置范围,得到各个向量值的范围,共同作为预测结果范围。
在一些实施例中,根据实际特征向量和预测结果范围确定待检测数据的检测结果,包括:判断实际特征向量是否在预测结果范围内;若是,则检测结果为正常;若否,则检测结果为异常;以及,在根据实际特征向量和预测结果范围确定待检测数据的检测结果之后,还包括:在检测结果为异常的情况下,根据实际特征向量和预测结果范围之间的偏差值进行告警或中断数据传输。
本申请还可以在质量检测结果异常的情况下进行告警或中断数据传输,保证了入库数据的高质量,同时还可以减少因质量问题导致的数据重传、数据重新入库现象,从而大量节省了系统资源和计算资源,提高了数据运营的工作效率。
图4示出了本公开一个实施例的数据检测方法的流程图,如图4所示,包括:
利用样本采集模块从数据源段抽取数据样本,将样本信息传输至质量控制模块;
在质量控制模块中进行特征计算、数据存储、参数预测和特征检查;
判断数据样本是否符合质量控制要求;若是,则可以认为数据质量合规,并使数据入库;若否,则可以按照预设规则根据不符合的程度进行数据告警然后数据入库,或中断传输阻止数据入库;如:当不符合的程度为“低”,则进行数据告警然后数据入库;当不符合的程度为“高”,则中断传输阻止数据入库。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图5示出了本公开一个实施例的数据检测装置500的框图;如图5所示,包括:
采集模块501,用于获取待检测数据,从待检测数据中采集待检测样本,进而提取待检测样本的实际特征向量;
预测模块502,用于调取预测模型,根据预测模型确定与待检测样本对应的预测结果范围;
检测模块503,用于根据实际特征向量和预测结果范围确定待检测数据的检测结果;其中,检测结果包括:异常或正常。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
图6示出本公开实施例中一种数据检测计算机设备的结构框图。需要说明的是,图示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图2中所示的步骤S201,获取待检测数据,从待检测数据中采集待检测样本,进而提取待检测样本的实际特征向量;步骤S203,调取预测模型,根据预测模型确定与待检测样本对应的预测结果范围;步骤S205,根据实际特征向量和预测结果范围确定待检测数据的检测结果;其中,检测结果包括:异常或正常。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备数据检测装置500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种数据检测方法,其特征在于,包括:
获取待检测数据,从所述待检测数据中采集待检测样本,进而提取所述待检测样本的实际特征向量;
调取预测模型,根据所述预测模型确定与所述待检测样本对应的预测结果范围;
根据所述实际特征向量和所述预测结果范围确定所述待检测数据的检测结果;其中,所述检测结果包括:异常或正常。
2.根据权利要求1所述的方法,其特征在于,从所述待检测数据中采集待检测样本,包括:
获取抽样标准,根据所述抽样标准确定采样数量;
从所述待检测数据中,采用流处理技术采集满足所述采样数量的一批数据文件,以作为所述待检测样本。
3.根据权利要求1所述的方法,其特征在于,提取所述待检测样本的实际特征向量,包括:
获取指标特征以及指标特征序列,确定所述待检测样本在所述指标特征下的特征值;
基于所述指标特征序列,根据所述特征值确定所述待检测样本的实际特征向量。
4.根据权利要求3所述的方法,其特征在于,确定所述待检测样本在所述指标特征下的特征值,包括:
判断所述待检测样本中的数据文件是否具备特征描述字段;
若是,则根据所述特征描述字段获取数据文件的特性描述信息,并基于所述特征描述字段与所述指标特征的对应关系,确定所述指标特征与所述特性描述信息的对应关系;若否,则基于所述指标特征对数据文件进行统计分析,得到数据文件的特性描述信息;
根据所述待检测样本中的数据文件的特性描述信息,确定所述待检测样本在所述指标特征下的特征值;
其中,所述指标特征包括:数据数量信息、占用空间信息、字段数信息、关键字信息、变化趋势信息、震荡幅度信息中的至少一个。
5.根据权利要求3所述的方法,其特征在于,基于所述指标特征序列,根据所述特征值确定所述待检测样本的实际特征向量,包括:
对所述指标特征下的特征值进行标准化处理,生成所述指标特征下的标准化特征值;
基于所述指标特征序列对所述标准化特征值进行排序,生成所述实际特征向量。
6.根据权利要求1所述的方法,其特征在于,所述预测模型是采用以下方式得到的:
获取历史数据和抽样标准,以从所述历史数据中确定预设数量个建模样本;其中,建模样本中的数据文件数量是根据所述抽样标准确定的;
提取各建模样本的标准化特征向量,并根据所述历史数据确定均值特征向量,进而根据所述均值特征向量和所述各建模样本的标准化特征向量确定所述预测模型中的回归系数;以及,根据各建模样本的标准化特征向量中的震荡幅度信息确定波动系数阈值;
利用所述波动系数阈值和所述回归系数搭建所述预测模型。
7.根据权利要求1所述的方法,其特征在于,根据所述实际特征向量和所述预测结果范围确定所述待检测数据的检测结果,包括:
判断所述实际特征向量是否在所述预测结果范围内;若是,则所述检测结果为正常;若否,则所述检测结果为异常;以及,
在根据所述实际特征向量和所述预测结果范围确定所述待检测数据的检测结果之后,还包括:
在所述检测结果为异常的情况下,根据所述实际特征向量和所述预测结果范围之间的偏差值进行告警或中断数据传输。
8.一种数据检测装置,其特征在于,包括:
采集模块,用于获取待检测数据,从所述待检测数据中采集待检测样本,进而提取所述待检测样本的实际特征向量;
预测模块,用于调取预测模型,根据所述预测模型确定与所述待检测样本对应的预测结果范围;
检测模块,用于根据所述实际特征向量和所述预测结果范围确定所述待检测数据的检测结果;其中,所述检测结果包括:异常或正常。
9.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至7任一项所述的数据检测方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7任一项所述的数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949022.2A CN113656391A (zh) | 2021-08-18 | 2021-08-18 | 数据检测方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949022.2A CN113656391A (zh) | 2021-08-18 | 2021-08-18 | 数据检测方法及装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113656391A true CN113656391A (zh) | 2021-11-16 |
Family
ID=78480978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110949022.2A Pending CN113656391A (zh) | 2021-08-18 | 2021-08-18 | 数据检测方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656391A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114236276A (zh) * | 2021-12-07 | 2022-03-25 | 安徽中家智锐科技有限公司 | 一种电器远程测试的方法和系统 |
CN114596066A (zh) * | 2022-03-09 | 2022-06-07 | 北京京东振世信息技术有限公司 | 数据异常检测方法及装置、介质和电子设备 |
-
2021
- 2021-08-18 CN CN202110949022.2A patent/CN113656391A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114236276A (zh) * | 2021-12-07 | 2022-03-25 | 安徽中家智锐科技有限公司 | 一种电器远程测试的方法和系统 |
CN114596066A (zh) * | 2022-03-09 | 2022-06-07 | 北京京东振世信息技术有限公司 | 数据异常检测方法及装置、介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341098B (zh) | 软件性能测试方法、平台、设备及存储介质 | |
EP4099170B1 (en) | Method and apparatus of auditing log, electronic device, and medium | |
US20150143180A1 (en) | Validating software characteristics | |
CN110826071A (zh) | 软件漏洞风险预测方法、装置、设备及存储介质 | |
CN109543891B (zh) | 容量预测模型的建立方法、设备及计算机可读存储介质 | |
CN107704387B (zh) | 用于系统预警的方法、装置、电子设备及计算机可读介质 | |
CN109582906B (zh) | 数据可靠度的确定方法、装置、设备和存储介质 | |
CN109614318A (zh) | 自动化测试方法、装置、电子设备及计算机可读介质 | |
CN113656391A (zh) | 数据检测方法及装置、存储介质及电子设备 | |
CN110348471B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN110727437A (zh) | 代码优化项获取方法、装置、存储介质及电子设备 | |
CN115034596A (zh) | 一种风险传导预测方法、装置、设备和介质 | |
US11449408B2 (en) | Method, device, and computer program product for obtaining diagnostic information | |
US20220179764A1 (en) | Multi-source data correlation extraction for anomaly detection | |
KR101830936B1 (ko) | 데이터베이스와 애플리케이션을 위한 웹기반 성능개선 시스템 | |
CN110704614A (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
US11627193B2 (en) | Method and system for tracking application activity data from remote devices and generating a corrective action data structure for the remote devices | |
CN110716859A (zh) | 自动为修改的代码推送测试用例的方法及相关装置 | |
CN115952098A (zh) | 一种性能测试调优方案推荐方法及系统 | |
CN106897387B (zh) | 基于动作模拟的业务探测方法 | |
CN115269315A (zh) | 一种异常检测方法、装置、设备、介质 | |
CN111741046B (zh) | 数据上报方法、获取方法、装置、设备及介质 | |
CN111416744B (zh) | 互联网线上监控报警的方法及装置 | |
CN113360182A (zh) | 系统性能诊断的方法和装置 | |
CN113934595A (zh) | 数据分析方法及系统、存储介质及电子终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |