CN112395280B - 一种数据质量检测方法及其系统 - Google Patents

一种数据质量检测方法及其系统 Download PDF

Info

Publication number
CN112395280B
CN112395280B CN202110066092.3A CN202110066092A CN112395280B CN 112395280 B CN112395280 B CN 112395280B CN 202110066092 A CN202110066092 A CN 202110066092A CN 112395280 B CN112395280 B CN 112395280B
Authority
CN
China
Prior art keywords
data
sample data
initial
fault
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110066092.3A
Other languages
English (en)
Other versions
CN112395280A (zh
Inventor
宋成平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruizhi Technology Group Co ltd
Original Assignee
Ruizhi Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruizhi Technology Group Co ltd filed Critical Ruizhi Technology Group Co ltd
Priority to CN202110066092.3A priority Critical patent/CN112395280B/zh
Publication of CN112395280A publication Critical patent/CN112395280A/zh
Application granted granted Critical
Publication of CN112395280B publication Critical patent/CN112395280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据质量检测方法及其系统,其中,数据质量检测系统包括:获取装置:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器;处理器:用于执行如下方法:接收模型选取指令,根据模型选取指令选择初始预测算模型;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型并保存;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告并保存。本申请具有提高数据质量的技术效果。

Description

一种数据质量检测方法及其系统
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据质量检测方法及其系统。
背景技术
在对数据进行分析和管理的过程中,异常数据的出现会直接导致分析结果发生显著的变化,造成得到的结果超出预期,从而使管理者对整个项目过程的推断、控制和预测不准确,出现错误的判断将给整个项目带来巨大的风险,因此有效的检测、排查、防治数据异常有着很重要的作用。
目前通常采用传统的描述性分析(描述性分析:主要用于对已经发生的事实用数据做出准确的描述,熟悉数据集并识别数据问题。)和探索性分析(探索性分析:用于诊断性分析数据元素之间的关系,一般侧重于变量之间的相关性。)对数据进行分析,但传统的描述性分析以及探索性分析不能满足对导致结果的特征定量的分析,以及对新样本预测结果的高精准度要求。
发明内容
本申请的目的在于提供一种数据质量检测方法及其系统,具有提前识别数据质量波动情况,从而事先采取措施调整,提高数据质量的技术效果。
为达到上述目的,本申请提供一种数据质量检测系统,包括获取装置和处理器;其中,获取装置:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器进行处理;处理器:用于执行如下方法:接收模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。
如上的,其中,处理器包括:数据接收单元、数据处理单元和模型单元;其中,数据接收单元:用于接收初始样本数据或新样本数据,并将初始样本数据或新样本数据发送至数据处理单元;数据处理单元:对初始样本数据或新样本数据进行处理,获得测试集数据,并将测试集数据发送至模型单元;模型单元:用于设置数据特征,并根据数据特征选择初始预测算模型;对初始预测算模型进行优化获得优化后测算模型。
如上的,其中,数据处理单元包括:损伤分析单元、完整性分析单元、故障分析单元和贴标单元;其中,损伤分析单元:对初始样本数据进行损伤检测,获得无损样本数据,并将无损样本数据发送至完整性分析单元;完整性分析单元:对无损样本数据进行完整性检测,获得完整样本数据,并将完整样本数据发送至故障分析单元;故障分析单元:对完整样本数据进行故障分析,获得预测数据,并将预测数据发送至贴标单元;贴标单元:对预测数据贴标签,获得测试集数据。
本申请还提供一种数据质量检测方法,包括如下步骤:接收模型选取指令,根据数据特征选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;将测试集数据传入至初始预测算模型,获得预判断结果;判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。
如上的,其中,获取多个初始样本数据,对每个初始样本数据进行处理,获得测试集数据的子步骤如下:对接收到的每个初始样本数据进行损伤检测,获得无损样本数据;对无损样本数据进行完整性检测,获得完整样本数据;对完整样本数据进行故障分析,获得预测数据;对预测数据贴标签,获得测试集数据。
如上的,其中,对无损样本数据进行完整性检测,获得完整样本数据的子步骤如下:对无损样本数据进行完整性检测,并生成完整性结果;对完整性结果进行分析,获得完整样本数据。
如上的,其中,完整性分析单元根据预先设定的个数据特征生成用于判断无损样本数据完整性的完整样本数据结构,完整性分析单元接收到无损样本数据后,对无损样本数据进行分析,生成无损样本数据的数据结构,利用完整样本数据结构对无损样本数据的数据结构进行比对,若无损样本数据的数据结构与完整样本数据结构相同,则生成的完整性结果为完整;若无损样本数据的数据结构与完整样本数据结构不相同,则生成的完整性结果为不完整。
如上的,其中,完整样本数据结构具体如下:
Figure 846421DEST_PATH_IMAGE001
;其中,
Figure 129634DEST_PATH_IMAGE002
为完整样本数据结构;
Figure 952097DEST_PATH_IMAGE003
为第
Figure 953551DEST_PATH_IMAGE004
个数据特征的第
Figure 621293DEST_PATH_IMAGE005
个特征值;完整样本数据结构中的每一行元素表示一个数据特征;每一列元素代表一个特征属性。
如上的,其中,对完整样本数据进行故障分析,获得预测数据的子步骤如下:对完整样本数据进行故障分析,获得故障结果;分析故障结果,获得预测数据。
如上的,其中,对完整样本数据进行故障分析,获得故障结果的子步骤如下:对完整样本数据的特征值进行计算,确定特征值概率分布;根据预先设置的阈值对完整样本数据的特征值概率分布进行故障判断,并生成故障结果。
本申请的数据质量检测方法及其系统根据原有整合历史数据建立数据模型,同时对新样本数据进行预测识别获得数据质量波动情况,从而能够事先采取调整措施以及针对性的进行数据质量治理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为数据质量检测系统一种实施例的结构示意图;
图2为数据质量检测方法一种实施例的结构流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本申请提供一种数据质量检测系统,包括获取装置和处理器。
其中,获取装置110:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器进行处理。
处理器120:用于执行如下方法:
获取模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;
获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;
将测试集数据传入至初始预测算模型,获得预判断结果;
判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;
调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。
进一步的,处理器120包括:数据接收单元、数据处理单元和模型单元;
其中,数据接收单元:用于接收初始样本数据或新样本数据,并将初始样本数据或新样本数据发送至数据处理单元。
数据处理单元:对初始样本数据或新样本数据进行处理,获得测试集数据,并将测试集数据发送至模型单元。
模型单元:用于设置数据特征,并根据数据特征选择初始预测算模型;对初始预测算模型进行优化获得优化后测算模型。
进一步的,数据处理单元包括:损伤分析单元、完整性分析单元、故障分析单元和贴标单元。
其中,损伤分析单元:对初始样本数据进行损伤检测,获得无损样本数据,并将无损样本数据发送至完整性分析单元。
完整性分析单元:对无损样本数据进行完整性检测,获得完整样本数据,并将完整样本数据发送至故障分析单元。
故障分析单元:对完整样本数据进行故障分析,获得预测数据,并将预测数据发送至贴标单元。
贴标单元:对预测数据贴标签,获得测试集数据。
如图2所示,本申请提供一种数据质量检测方法,包括如下步骤:
S210:接收模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征。
具体的,处理器接收到获取装置发送的模型选取指令后,根据模型选取指令中的数据特征选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征。
作为一个实施例,数据特征至少包括:satisfaction_level/数据达标、ast_evaluation/最新数据标准、number_project/数据来源数、average_montly_hours/业务系统无异常工作时长、time_spend_company/业务重要度、Work_accident/是否发生过工作差错、sales/业务部门、promotion_last_5years/5年内是否异常和salary/数据治理程度。
其中,初始预测算模型包括:随机森林、神经网络等模型。本申请优选随机森林作为初始预测算模型。
S220:获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据。
进一步的,获取多个初始样本数据,对每个初始样本数据进行处理,获得测试集数据的子步骤如下:
S2201:对接收到的每个初始样本数据进行损伤检测,获得无损样本数据。
进一步的,通过损伤分析单元对接收到的每个初始样本数据进行损伤检测,获得无损样本数据的子步骤如下:
S22011:对每个初始样本数据进行损伤检测,并生成损伤结果。
具体的,损伤结果包括:无损伤和有损伤。一个初始样本数据对应一个损伤结果。当初始样本数据在获取或传输过程中无损伤,则生成的损伤结果为无损伤;当初始样本数据在获取或传输过程中有损伤,则生成的损伤结果为有损伤。
S22012:对所有的损伤结果进行分析,获得无损样本数据。
具体的,损伤分析单元对所有的损伤结果进行分析,当所有的损伤结果中存在有损伤时,则剔除有损伤的初始样本数据,并生成第一获取指令,其中,第一获取指令至少包括:损伤初始样本数据的个数。生成第一获取指令后,将第一获取指令发送至获取装置,获取装置接收到第一获取指令后,重新获取新的初始样本数据,并将新的初始样本数据发送至数据处理单元。其中,获取的新的初始样本数据的个数等于损伤初始样本数据的个数。
当所有的损伤结果中不存在有损伤时,则将所有的初始样本数据作为无损样本数据发送至完整性分析单元。
S2202:对无损样本数据进行完整性检测,获得完整样本数据。
进一步的,对无损样本数据进行完整性检测,获得完整样本数据的子步骤如下:
S22021:对无损样本数据进行完整性检测,并生成完整性结果。
具体的,完整性结果包括:完整和不完整。
进一步的,完整性分析单元根据预先设定的
Figure 759013DEST_PATH_IMAGE006
个数据特征生成用于判断无损样本数据完整性的完整样本数据结构。完整样本数据结构具体如下:
Figure 1644DEST_PATH_IMAGE007
其中,
Figure 490394DEST_PATH_IMAGE008
为完整样本数据结构;
Figure 696248DEST_PATH_IMAGE009
为第
Figure 954054DEST_PATH_IMAGE006
个数据特征的第
Figure 118319DEST_PATH_IMAGE010
个特征值;完整样本数据结构中的每一行元素表示一个数据特征;每一列元素代表一个特征属性。
其中,特征值表示描述数据特征的数据值。
完整性分析单元接收到无损样本数据后,对无损样本数据进行分析,生成无损样本数据的数据结构,利用完整样本数据结构对无损样本数据的数据结构进行比对,若无损样本数据的数据结构与完整样本数据结构相同,则表示无损样本数据中的数据特征个数和特征值个数与预先设置的数据特征个数和特征值个数相同,无损样本数据的数据结构完整,则生成的完整性结果为完整。
若无损样本数据的数据结构与完整样本数据结构不相同,则表示无损样本数据中的数据特征个数和特征值个数与预先设置的数据特征个数和特征值个数不相同,无损样本数据的数据结构不完整,则生成的完整性结果为不完整。
S22022:对完整性结果进行分析,获得完整样本数据。
具体的,完整性分析单元对所有的完整性结果进行分析,当所有的完整性结果中存在不完整时,则剔除不完整的无损样本数据,并生成第二获取指令,其中,第二获取指令至少包括:不完整无损样本数据的个数。生成第二获取指令后,将第二获取指令发送至获取装置,获取装置接收到第二获取指令后,重新获取新的初始样本数据,并将新的初始样本数据发送至数据处理单元。其中,获取的新的初始样本数据的个数等于不完整无损样本数据的个数。
当所有的完整性结果中不存在不完整时,则将所有的无损样本数据作为完整样本数据发送至故障分析单元。
S2203:对完整样本数据进行故障分析,获得预测数据。
进一步的,对完整样本数据进行故障分析,获得预测数据的子步骤如下:
S22031:对完整样本数据进行故障分析,获得故障结果。
具体的,故障结果包括:异常和正常。
进一步的,对完整样本数据进行故障分析,获得故障结果的子步骤如下:
S220311:对完整样本数据的特征值进行计算,确定特征值概率分布。
进一步的,特征值概率分布表达式如下:
Figure 828786DEST_PATH_IMAGE011
Figure 103909DEST_PATH_IMAGE012
Figure 485997DEST_PATH_IMAGE013
其中,
Figure 555585DEST_PATH_IMAGE014
其中,
Figure 18927DEST_PATH_IMAGE015
为特征值概率分布;
Figure 832162DEST_PATH_IMAGE016
Figure 798981DEST_PATH_IMAGE017
个分布律,
Figure 39470DEST_PATH_IMAGE018
Figure 239376DEST_PATH_IMAGE019
为自然数,表示分布律个数;
Figure 856302DEST_PATH_IMAGE020
Figure 943206DEST_PATH_IMAGE021
为特征值个数;
Figure 354596DEST_PATH_IMAGE022
为数据特征个数;
Figure 526952DEST_PATH_IMAGE023
为比例系数;
Figure 681989DEST_PATH_IMAGE024
表示第
Figure 888980DEST_PATH_IMAGE025
个数据特征的第
Figure 454959DEST_PATH_IMAGE026
个特征值,
Figure 114611DEST_PATH_IMAGE027
Figure 73339DEST_PATH_IMAGE028
S220312:根据预先设置的阈值对完整样本数据的特征值概率分布进行故障判断,并生成故障结果。
进一步的,利用预先设置的阈值生成判断条件,判断条件包括:第一判断条件和第二判断条件,当完整样本数据的特征值概率分布的最大值和最小值同时满足第一判断条件和第二判断条件时,判断该完整样本数据为故障数据,则生成的故障结果为异常。当完整样本数据的特征值概率分布的最大值和最小值不能同时满足第一判断条件和第二判断条件时,则生成的故障结果为正常。
判断条件的表达式如下:
第一判断条件:
Figure 134836DEST_PATH_IMAGE029
第二判断条件:
Figure 888029DEST_PATH_IMAGE030
其中,
Figure 34976DEST_PATH_IMAGE031
为特征值概率分布;
Figure 515505DEST_PATH_IMAGE032
为预设的阈值;
Figure 431508DEST_PATH_IMAGE033
为预先设定的数据特征个数;
Figure 621181DEST_PATH_IMAGE034
为完整样本数据的特征值的最大值;
Figure 255425DEST_PATH_IMAGE035
为完整样本数据的特征值的最小值。
S22032:分析故障结果,获得预测数据。
具体的,故障分析单元对所有的故障结果进行分析,当所有的故障结果中存在异常时,则剔除异常的完整样本数据,并生成第三获取指令,其中,第三获取指令至少包括:异常完整样本数据的个数。生成第三获取指令后,将第三获取指令发送至获取装置,获取装置接收到第三获取指令后,重新获取新的初始样本数据,并将新的初始样本数据发送至数据处理单元。其中,获取的新的初始样本数据的个数等于异常完整样本数据的个数。
当所有的故障结果中不存在异常时,则将所有的完整样本数据作为预测数据。
S2204:对预测数据贴标签,获得测试集数据。
具体的,对预测数据贴标签(即目标值贴标签),便于对维度进行抽取。
S230:将测试集数据传入至初始预测算模型,获得预判断结果。
具体的,通过java和shell将测试集数据传给python文件,pyhon文件接受测试集数据后,将测试集数据传入至初始预测算模型,初始预测算模型对测试集数据进行处理,生成预判断结果。
进一步的,作为一个实施例,当初始预测算模型为随机森林时,将测试集数据(测试集数据为N个)传入至随机森林,获得预判断结果的子步骤如下:
S2301:放回的随机选择N个测试集数据,并利用选择好的N个测试集数据训练获得一个决策树。
具体的,测试集数据为N个,每次随机选择一个测试集数据,然后返回继续选择。完成选择后,利用选择好的N个测试集数据训练获得一个决策树,每个测试集数据均作为决策树根节点处的一个样本。
S2302:每个样本包括
Figure 555956DEST_PATH_IMAGE036
个数据特征,当决策树的每个节点需要分裂时,随机从
Figure 60887DEST_PATH_IMAGE036
个数据特征中选取出a个数据特征,a<< M,并从a个数据特征中采用预设的策略(比如:信息增益)选择1个数据特征作为该节点的分裂特征。
S2303:重复执行S2302获得多个决策树,利用多个决策树构建随机森林,并通过随机森林生成预判断结果。
具体的,决策树形成过程中每个节点均按照S2302进行分裂,到不能够再分裂为止(即如果下一次该节点选出来的数据特征是上次父节点分裂时用过的数据特征,则该节点已经达到了叶子节点,无须继续分裂了),获得多个决策树,利用多个决策树构建随机森林,并通过随机森林生成预判断结果。进一步的,整个决策树形成过程中不进行剪枝。
S240:判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效。
具体的,作为一个实施例,随机森林通过网格搜索方法进行优化,获得优化后测算模型,优化方法如下:
S2401:确定数据特征选择标准。
具体的,数据特征选择标准为gini指数、决策树的深度,以及随机森林的深度。
S2402:输入测试集数据,利用数据特征选择标准对初始预测算模型进行优化,得到优化后测算模型。
具体的,输入测试集数据:param_grid需要最优化的测试集数据的取值,值为字典或者列表。数据特征选择标准:scoring=None模型评价标准,默认None。根据所选模型不同,评价准则不同。比如scoring=”accuracy”。如果是None,则使用estimator的误差估计函数。refit=True默认为True,程序以交叉验证训练集得到的最佳测试集数据重新对所有可用的训练集与开发集进行处理,作为最终用于性能评估的最佳测试集数据,即在搜索测试集数据结束后,用最佳测试集数据结果再次fit一遍全部测试集数据。cv=None交叉验证参数,默认None,使用三折交叉验证,完整验证后,获得优化后测算模型。
S250:调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存。
本申请的数据质量检测方法及其系统根据原有整合历史数据建立数据模型,同时对新样本数据进行预测识别获得数据质量波动情况,从而能够事先采取调整措施以及针对性的进行数据质量治理。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (7)

1.一种数据质量检测系统,其特征在于,包括获取装置和处理器;
其中,获取装置:向处理器发送模型选取指令;用于获取多个初始样本数据或多个新样本数据,并将初始样本数据或新样本数据传入处理器进行处理;
处理器:用于执行如下方法:
接收模型选取指令,根据模型选取指令选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;
获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;
将测试集数据传入至初始预测算模型,获得预判断结果;
判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;
调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存;
其中,获取多个初始样本数据,对每个初始样本数据进行处理,获得测试集数据的子步骤如下:
对接收到的每个初始样本数据进行损伤检测,获得无损样本数据;
对无损样本数据进行完整性检测,获得完整样本数据;
对完整样本数据进行故障分析,获得预测数据;
对预测数据贴标签,获得测试集数据;
其中,对完整样本数据进行故障分析,获得预测数据的子步骤如下:
对完整样本数据进行故障分析,获得故障结果;
分析故障结果,获得预测数据;
其中,对完整样本数据进行故障分析,获得故障结果的子步骤如下:
对完整样本数据的特征值进行计算,确定特征值概率分布;
根据预先设置的阈值对完整样本数据的特征值概率分布进行故障判断,并生成故障结果;
其中,利用预先设置的阈值生成判断条件,判断条件包括:第一判断条件和第二判断条件,当完整样本数据的特征值概率分布的最大值和最小值同时满足第一判断条件和第二判断条件时,判断该完整样本数据为故障数据,则生成的故障结果为异常;当完整样本数据的特征值概率分布的最大值和最小值不能同时满足第一判断条件和第二判断条件时,则生成的故障结果为正常;
判断条件的表达式如下:
第一判断条件:
Figure 558894DEST_PATH_IMAGE001
第二判断条件:
Figure 261271DEST_PATH_IMAGE002
其中,
Figure 91824DEST_PATH_IMAGE003
为特征值概率分布;
Figure 537849DEST_PATH_IMAGE004
为预设的阈值;
Figure 386725DEST_PATH_IMAGE005
为预先设定的数据特征个数;
Figure 260003DEST_PATH_IMAGE006
为完整样本数据的特征值的最大值;
Figure 577852DEST_PATH_IMAGE007
为完整样本数据的特征值的最小值。
2.根据权利要求1所述的数据质量检测系统,其特征在于,所述处理器包括:数据接收单元、数据处理单元和模型单元;
其中,数据接收单元:用于接收初始样本数据或新样本数据,并将初始样本数据或新样本数据发送至数据处理单元;
数据处理单元:对初始样本数据或新样本数据进行处理,获得测试集数据,并将测试集数据发送至模型单元;
模型单元:用于设置数据特征,并根据数据特征选择初始预测算模型;对初始预测算模型进行优化获得优化后测算模型。
3.根据权利要求2所述的数据质量检测系统,其特征在于,所述数据处理单元包括:损伤分析单元、完整性分析单元、故障分析单元和贴标单元;
其中,损伤分析单元:对初始样本数据进行损伤检测,获得无损样本数据,并将无损样本数据发送至完整性分析单元;
完整性分析单元:对无损样本数据进行完整性检测,获得完整样本数据,并将完整样本数据发送至故障分析单元;
故障分析单元:对完整样本数据进行故障分析,获得预测数据,并将预测数据发送至贴标单元;
贴标单元:对预测数据贴标签,获得测试集数据。
4.一种数据质量检测方法,其特征在于,包括如下步骤:
接收模型选取指令,根据数据特征选择初始预测算模型;其中,模型选取指令包括:至少一个数据特征;
获取多个初始样本数据,并对每个初始样本数据进行处理,获得测试集数据;
将测试集数据传入至初始预测算模型,获得预判断结果;
判断预判断结果是否符合预先设定的判断标准;若符合,则对初始预测算模型进行优化,得到优化后测算模型,并保存;若不符合,则输入特征无效;
调用优化后测算模型对需要识别的新样本数据进行处理,生成数据波动报告,并保存;
其中,获取多个初始样本数据,对每个初始样本数据进行处理,获得测试集数据的子步骤如下:
对接收到的每个初始样本数据进行损伤检测,获得无损样本数据;
对无损样本数据进行完整性检测,获得完整样本数据;
对完整样本数据进行故障分析,获得预测数据;
对预测数据贴标签,获得测试集数据;
其中,对完整样本数据进行故障分析,获得预测数据的子步骤如下:
对完整样本数据进行故障分析,获得故障结果;
分析故障结果,获得预测数据;
其中,对完整样本数据进行故障分析,获得故障结果的子步骤如下:
对完整样本数据的特征值进行计算,确定特征值概率分布;
根据预先设置的阈值对完整样本数据的特征值概率分布进行故障判断,并生成故障结果;
其中,利用预先设置的阈值生成判断条件,判断条件包括:第一判断条件和第二判断条件,当完整样本数据的特征值概率分布的最大值和最小值同时满足第一判断条件和第二判断条件时,判断该完整样本数据为故障数据,则生成的故障结果为异常;当完整样本数据的特征值概率分布的最大值和最小值不能同时满足第一判断条件和第二判断条件时,则生成的故障结果为正常;
判断条件的表达式如下:
第一判断条件:
Figure 296409DEST_PATH_IMAGE008
第二判断条件:
Figure 281683DEST_PATH_IMAGE009
其中,
Figure 60283DEST_PATH_IMAGE010
为特征值概率分布;
Figure 131007DEST_PATH_IMAGE011
为预设的阈值;
Figure 902523DEST_PATH_IMAGE012
为预先设定的数据特征个数
Figure 476724DEST_PATH_IMAGE013
为完整样本数据的特征值的最大值;
Figure 691804DEST_PATH_IMAGE014
为完整样本数据的特征值的最小值。
5.根据权利要求4所述的数据质量检测方法,其特征在于,对无损样本数据进行完整性检测,获得完整样本数据的子步骤如下:
对无损样本数据进行完整性检测,并生成完整性结果;
对完整性结果进行分析,获得完整样本数据。
6.根据权利要求5所述的数据质量检测方法,其特征在于,完整性分析单元根据预先设定的个数据特征生成用于判断无损样本数据完整性的完整样本数据结构,完整性分析单元接收到无损样本数据后,对无损样本数据进行分析,生成无损样本数据的数据结构,利用完整样本数据结构对无损样本数据的数据结构进行比对,若无损样本数据的数据结构与完整样本数据结构相同,则生成的完整性结果为完整;若无损样本数据的数据结构与完整样本数据结构不相同,则生成的完整性结果为不完整。
7.根据权利要求6所述的数据质量检测方法,其特征在于,完整样本数据结构具体如下:
Figure 718666DEST_PATH_IMAGE015
其中,
Figure 310184DEST_PATH_IMAGE016
为完整样本数据结构;
Figure 738892DEST_PATH_IMAGE017
为第
Figure 124874DEST_PATH_IMAGE018
个数据特征的第
Figure 904611DEST_PATH_IMAGE019
个特征值;完整样本数据结构中的每一行元素表示一个数据特征;每一列元素代表一个特征属性。
CN202110066092.3A 2021-01-19 2021-01-19 一种数据质量检测方法及其系统 Active CN112395280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110066092.3A CN112395280B (zh) 2021-01-19 2021-01-19 一种数据质量检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110066092.3A CN112395280B (zh) 2021-01-19 2021-01-19 一种数据质量检测方法及其系统

Publications (2)

Publication Number Publication Date
CN112395280A CN112395280A (zh) 2021-02-23
CN112395280B true CN112395280B (zh) 2021-04-23

Family

ID=74625323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110066092.3A Active CN112395280B (zh) 2021-01-19 2021-01-19 一种数据质量检测方法及其系统

Country Status (1)

Country Link
CN (1) CN112395280B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010508A (zh) * 2021-03-23 2021-06-22 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种电力计量数据质量监控方法、装置及大数据计算平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224984B (zh) * 2014-05-31 2018-03-13 华为技术有限公司 一种基于深度神经网络的数据类别识别方法及装置
CN109584020B (zh) * 2018-12-04 2023-07-21 联想(北京)有限公司 一种信息处理方法和电子设备
CN111427928A (zh) * 2020-03-26 2020-07-17 京东数字科技控股有限公司 一种数据质量检测方法及装置

Also Published As

Publication number Publication date
CN112395280A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN110688288B (zh) 基于人工智能的自动化测试方法、装置、设备及存储介质
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
US20070061144A1 (en) Batch statistics process model method and system
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN107168995B (zh) 一种数据处理方法及服务器
CN111177655B (zh) 一种数据处理方法、装置及电子设备
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
US20190087248A1 (en) Anomaly detection and automated analysis using weighted directed graphs
CN112685324A (zh) 一种生成测试方案的方法及系统
CN112395280B (zh) 一种数据质量检测方法及其系统
CN115357764A (zh) 一种异常数据检测方法及装置
CN105306252A (zh) 一种自动判别服务器故障的方法
CN117666546B (zh) 一种分布式控制系统故障诊断方法及装置
CN113487223B (zh) 一种基于信息融合的风险评估方法和评估系统
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测系统及介质
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质
KR102226536B1 (ko) 인공지능모델을 이용하여 보안 데이터를 적용할 차트를 추천하는 방법, 장치 및 프로그램
CN110808947A (zh) 一种自动化的脆弱性量化评估方法及系统
CN116126807A (zh) 一种日志分析方法及相关装置
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN113836826A (zh) 关键参数确定方法、装置、电子装置及存储介质
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
CN113268419A (zh) 测试用例优化信息的生成方法、装置、设备和存储介质
CN113742216B (zh) 一种检测机器学习引擎的效率的方法、装置和存储介质
CN116661954B (zh) 虚拟机异常预测方法、装置、通信设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant