CN117056576B - 一种基于大数据平台的数据质量灵活验证方法 - Google Patents
一种基于大数据平台的数据质量灵活验证方法 Download PDFInfo
- Publication number
- CN117056576B CN117056576B CN202311324713.9A CN202311324713A CN117056576B CN 117056576 B CN117056576 B CN 117056576B CN 202311324713 A CN202311324713 A CN 202311324713A CN 117056576 B CN117056576 B CN 117056576B
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- screening
- analysis
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012216 screening Methods 0.000 claims abstract description 168
- 238000013441 quality evaluation Methods 0.000 claims abstract description 146
- 238000004458 analytical method Methods 0.000 claims abstract description 87
- 238000007405 data analysis Methods 0.000 claims abstract description 77
- 238000011156 evaluation Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000010835 comparative analysis Methods 0.000 claims abstract description 6
- 238000007689 inspection Methods 0.000 claims description 41
- 238000001303 quality assessment method Methods 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 14
- 230000000153 supplemental effect Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000013589 supplement Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006735 deficit Effects 0.000 claims description 3
- 238000013524 data verification Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明提供了一种基于大数据平台的数据质量灵活验证方法,属于数据处理技术领域,其方法包括:根据输入的初始数据在函数数据库中匹配相应的数据解析函数进行初步解析,提取数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,根据同一初始数据下的数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,对同一解析内容下的第一解析评价结果与第二解析评价结果进行对比分析,得到初始数据的数据质量验证结果,保证数据验证的可靠性。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于大数据平台的数据质量灵活验证方法。
背景技术
计算机在处理大量的数据时,首先应保证有良好的数据质量,较高的数据质量不仅能够准确反映客观事实,而且经过数据分析得出的分析结果具有可信度,可靠度和真实度。如果数据质量达不到标准值,不管数据分析的工具如何先进,模型如何合理,算法如何优良,都达不到预期目标。
在这些不满足质量要求的“垃圾”数据中,所能获得的只是一些无用的信息,对于接下来的决策和执行,都会产生巨大的负面影响,所以数据质量的管理就变得非常重要。目前,大数据平台广泛引用到数据的质量管理中,都是采用固定策略进行数据质量验证,其固定策略的不灵活性,导致质量验证的效率低下。
因此,本发明提供一种基于大数据平台的数据质量灵活验证方法。
发明内容
本发明提供一种基于大数据平台的数据质量灵活验证方法,用以自动向数据匹配函数以及解析,来提取数据特征,且后续通过两种策略的筛选验证,提高验证的灵活性,且有效保证数据验证的可靠性。
本发明提供一种基于大数据平台的数据质量灵活验证方法,包括:
步骤1:根据输入的初始数据在函数数据库中匹配相应的数据解析函数;
步骤2:基于所述数据解析函数对初始数据进行初步解析,得到与所述初始数据相应的解析内容,并提取数据特征;
步骤3:基于所述数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,并基于所述第一质量评估策略对同一初始数据下的所有解析内容进行质量评估,得到与每一解析内容匹配的第一评价结果;
步骤4:根据同一初始数据下的所述数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,同时,根据所述第二质量评估策略对与每一所述第一评价结果对应的解析内容进行二次质量评估,生成第二评价结果,并对同一解析内容下的第一评价结果与第二评价结果进行对比分析,得到初始数据的数据质量验证结果。
优选的,步骤1中,包括:
接收数据平台中待处理的初始数据,确定所述初始数据中包含的至少一个字段的数据类型;
根据预设类型-函数映射关系,在函数数据库中筛选与所述至少一个字段的数据类型匹配的数据解析函数,并将所述数据解析函数调用至相应的初始数据。
优选的,步骤2中,包括:
将初始数据传递至与相应的所述数据解析函数中执行,对所述初始数据进行初步解析,得到与初始数据对应的解析内容;
获取与所述解析内容一一对应的数据解析包;
通过预设数据特征提取策略对每一数据解析包中的数据特征进行提取,得到数据特征。
优选的,步骤3中,包括:
将初始数据下的所有数据特征输入预先训练的质量评估策略匹配模型,输出与所述解析内容中每一数据解析包匹配的第一筛选参数,并对同一初始数据下的所有数据解析包对应的第一筛选参数进行综合分析,生成与所述初始数据对应的第一筛选因子;
基于所述第一筛选因子,在策略数据库中对所述初始数据的解析内容进行因子-质量策略匹配,并将匹配度大于第一匹配度的质量评估策略标定为第一质量评估策略。
优选的,步骤3中,还包括:
根据第一质量评估策略,且结合同一初始数据下的每一数据解析包对应的数据特征,向每一数据解析包分配相应的质量评估方法以及质量评估函数;
基于质量评估方法以及质量评估函数,对每一数据解析包进行质量评估,产生与每一数据解析包对应的第一结果;
利用预设综合评估函数对同一初始数据下的所有所述第一结果进行综合计算,得到第一评价结果。
优选的,步骤4中,包括:
获取与所述第一评价结果匹配的同一初始数据下的所有数据特征,并将所有所述数据特征输入质量评估策略匹配模型中,输出同一初始数据下与所述第一筛选参数对应的第二筛选参数,所述第一筛选参数、第二筛选参数至少有一项不同;
基于对同一初始数据下的所有所述第二筛选参数进行综合分析,得到第二筛选因子;
基于所述第二筛选因子在策略数据库中对同一初始数据下的解析内容进行数据-质量策略二次匹配,并将匹配度小于第一匹配度、大于第二匹配度的质量评估策略标定为第二质量评估策略;
基于所述第二质量评估策略,向每一数据解析包分配相应的质量评估方法以及质量评估函数,对同一初始数据下的与每一所述第一评价结果对应的解析内容进行二次质量评估,生成与每一数据解析包对应的第二结果;
通过预设综合评估函数对同一初始数据下的所有所述第二结果进行综合计算,得到第二评价结果;
将所述第一质量评估策略、第二质量评估策略输入预设结果分析模型中,分别对所述第一质量评估策略和第二质量评估策略中的质量评估方法进行第一验证,并生成第一验证结果;
同时,对所述第一质量评估策略、第二质量评估策略中与同一数据解析包对应的质量评估函数进行第二验证,并生成第二验证结果;
基于所述第一验证结果、第二验证结果,对所述第一质量评估策略、第二质量评估策略进行第一差异分析,并生成第一差异结果;
将所述第一评价结果、第二评价结果输入预设结果分析模型中进行第二差异分析,生成第二差异结果;
基于对同一初始数据下的所述第一差异结果、第二差异结果的综合分析,产生与初始数据匹配的数据质量验证结果。
优选的,步骤4中,还包括:
获取输入的初始数据的使用目的、业务需求以及使用场景,并在质检数据库中筛选得到数据质量标准,其中,所述数据质量标准包含不同质量指标下所对应第一数据的最大允许有损系数;
基于所述业务需求、使用场景,在预设场景-需求-规则映射表中匹配相应的数据质检规则,且结合数据质量标准对输入的初始数据进行再次质量验证;
基于初始数据的数据质量验证结果以及再次质量验证结果,生成质量验证报告,并传输至人工终端。
优选的,在预设场景-需求-规则映射表中匹配相应的数据质检规则,且结合数据质量标准对输入的初始数据进行再次质量验证,包括:
按照所述数据质检规则的质检格式对所述输入的初始数据进行格式转换,得到格式数据;
根据所述数据质量标准所包含的质量指标对所述格式数据进行数据分割,并筛选每个分割数据中的第一中心数据以及第一剩余数据;
确定每个分割数据的数据长度,并从中筛选最大长度作为整长处理标准;
基于所述整长处理标准分别获取基于每个分割数据的长度变量,并基于所述长度变量确定基于对应分割数据的第一中心数据的第一筛选量以及基于对应分割数据的第一剩余数据的第二筛选量;
基于所述第一筛选量以及第二筛选量对相应分割数据进行整长处理;
当第一筛选量不为0且第二筛选量也不为0时,确定基于第一筛选量的第一执行性以及基于第二筛选量的第二执行性;
;其中,/>为对应质量指标下的第一执行性;Dz2为对应质量指标下的第二执行性;sz1为对应质量指标下的第一中心数据的数据总量;sz2为对应质量指标下的第一剩余数据的数据总量;
若第一执行性与第二执行性的和小于并行执行性,则控制第一筛选量以及第二筛选量对相应分割数据进行并行补充;
否则,优先控制执行性大的筛选数据进行补充,后控制执行性小的筛选数据进行补充;
当存在一个筛选量为0,另一个筛选量不为0时,控制筛选量不为0的筛选数据进行补充;
分别统计每个质量指标下的变动集合,其中,所述变动集合包括:第一筛选量、第二筛选量;
根据所述数据质检规则对每个质量指标所对应变动后的数据的第二中心数据进行全局检测以及对第二剩余数据进行局部检测,且结合变动集合,确定对应变动后的数据的当下有损系数;
;其中,n01表示对应质量指标下的第二中心数据的数据总量;/>表示对应质量指标下的对第二剩余数据进行局部检测的数据总量;/>表示对应质量指标下的全局检测有损因子;Q2表示对应质量指标下的局部检测有损因子;ln表示对数函数符号;/>表示第一筛选量;/>表示第二筛选量;/>表示对相应质量指标下的第一筛选量的数据进行补充的补充损失系数;表示对相应质量指标下的第二筛选量的数据进行补充的补充损失系数;/>表示对应质量指标下变动后的数据的数据总量;
基于所有当下有损系数与对应最大允许有损系数,确定计算值;
;其中,表示基于所有有损系数的计算值;m1表示质量指标的总个数;/>表示第i个质量指标下的当下有损系数;/>表示第i个质量指标下的最大允许有损系数;/>表示第i个质量指标下/>的比较函数,当/>时,/>取值为1,否则,取值为0;/>表示满足/>的总个数;/>表示满足/>下的第j个质量指标下的当下有损系数;/>表示满足/>下的第j个质量指标下的最大允许有损系数;表示满足/>下的第j个质量指标下的理论有损系数;/>表示基于m2个/>中的最大值;/>表示有损比值;
将所述计算值与值-质量映射表进行匹配,得到输入的初始数据的再次质量验证结果。
本发明的有益效果:本发明可以自动识别和适应不同的数据质量验证场景,采用灵活的规则和方法对不同场景下的数据质量进行质检,使不同场景下的数据质检过程更加高效和准确,减少误判和漏判的情况发生,同时,本发明还可以根据不同的数据使用场景和业务需求进行定制,而不是一成不变的规则和方法,从而可以更好地适应不同的数据质量验证需求,以确保数据质量的稳定和可靠。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于大数据平台的数据质量灵活验证方法的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
参照图1,本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,包括:
步骤1:根据输入的初始数据在函数数据库中匹配相应的数据解析函数;
步骤2:基于数据解析函数对初始数据进行初步解析,得到与初始数据相应的解析内容,并提取数据特征;
步骤3:基于数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,并基于第一质量评估策略对同一初始数据下的所有解析内容进行质量评估,得到与每一解析内容匹配的第一评价结果;
步骤4:根据同一初始数据下的数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,同时,根据第二质量评估策略对与每一第一评价结果对应的解析内容进行二次质量评估,生成第二评价结果,并对同一解析内容下的第一评价结果与第二评价结果进行对比分析,得到初始数据的数据质量验证结果。
该实施例中,初始数据:未经压缩、格式转换等处理过程的待进行数据质检的原始数据;
该实施例中,函数数据库:包含有大量用于数据处理的函数的数据库;
该实施例中,数据解析函数:经过函数数据库的筛选得到的用于对初始数据进行内容解析的函数;
该实施例中,解析内容:初始数据经过数据解析函数的初步解析后得到的内容;
该实施例中,数据特征:用于表征数据内容中内容各项指标数据的特征信息,例如,数据种类、数据来源等;
该实施例中,策略数据库:包含有大量用于对不同的数据进行数据处理的方法和策略的数据库;
该实施例中,第一匹配度:用于判定匹配的数据质量评估策略是否满足对应数据的数据特征的阈值条件;
该实施例中,第一质量评估策略:经过策略数据库的筛选得到适用于对当前初始数据进行质检的质量评估策略;
该实施例中,第一评价结果:通过第一质量评估策略对初始数据进行质量评估后产生的,且与每一解析内容一一对应的质量评估结果;
该实施例中,第二匹配度:与第一匹配度对应,且用于在策略数据库中筛选与第一质量评估策略不同的其他质量评估策略的阈值条件;
该实施例中,第二质量评估策略:在策略数据库中筛选得到且与第一质量评估策略不同的用于对初始数据进行二次质量评估的评估策略;
该实施例中,第二评价结果:通过第二质量评估策略对初始数据进行二次质量评估后生成的质量评估结果;
该实施例中,数据质量验证结果:通过将第一评价结果与第二评价结果的对比分析后,得到的用于验证初始数据的数据质量的结果。
上述技术方案的工作原理及有益效果是:自动向数据匹配函数以及解析,来提取数据特征,且后续通过两种策略的筛选验证,提高验证的灵活性,且有效保证数据验证的可靠性。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,步骤1中,包括:
接收数据平台中待处理的初始数据,确定初始数据中包含的至少一个字段的数据类型;
根据预设类型-函数映射关系,在函数数据库中筛选与至少一个字段的数据类型匹配的数据解析函数,并将数据解析函数调用至相应的初始数据。
该实施例中,数据类型:初始数据所属得数据种类,例如整数数据、小数数据、字符数据等;
该实施例中,预设类型-函数映射表:包含有数据类型与数据处理所需函数之间的映射关系的表格,是预先设定好的,用于对不同数据类型的数据匹配相应的函数对其进行数据处理;
上述技术方案的工作原理及有益效果是:本发明首先通过对初始数据的数据类型进行识别,进而通过预设类型-函数映射关系获取与数据类型匹配的,且用于对初始数据进行数据处理的函数信息,进一步通过函数数据库筛选出相应的数据解析函数对初始数据进行内容解析,从而不仅大幅提升了对初始数据的识别精度,而且可以对初始数据进行深层次的数据解析,提高数据的处理精度。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,步骤2中,包括:
将初始数据传递至与相应的数据解析函数中执行,对初始数据进行初步解析,得到与初始数据对应的解析内容;
获取与解析内容一一对应的数据解析包;
通过预设数据特征提取策略对每一数据解析包中的数据特征进行提取,得到数据特征。
该实施例中,数据解析包:通过数据解析函数对初始数据的内容解析,得到的与初始数据的解析内容一一对应的数据解析包;
该实施例中,预设数据特征提取策略:用于对初始数据对应的每一数据解析包中的数据特征进行提取的策略,可以根据数据解析包中的信息提取出至少一个数据特征,是预先设定好的;
上述技术方案的工作原理及有益效果是:本发明通过数据解析函数对初始数据的初步解析,得到初始数据中包含的大量内容信息,且对初始数据的解析内容进行处理打包,生成相应的数据解析包,随后通过预设数据特征提取策略对同一初始数据下的数据解析包中的数据特征进行提取,从而方便后续匹配与初始数据相适配的质检规则和方法。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,步骤3中,包括:
将初始数据下的所有数据特征输入预先训练的质量评估策略匹配模型,输出与解析内容中每一数据解析包匹配的第一筛选参数,并对同一初始数据下的所有数据解析包对应的第一筛选参数进行综合分析,生成与初始数据对应的第一筛选因子;
基于第一筛选因子,在策略数据库中对初始数据的解析内容进行因子-质量策略匹配,并将匹配度大于第一匹配度的质量评估策略标定为第一质量评估策略。
该实施例中,质量评估策略匹配模型:经过大数据训练生成的用于对输入的数据特征进行解析,得到用于匹配相应的质量评估策略的匹配参数的匹配模型,随着使用次数的增多,匹配模型的匹配精度更加精确,匹配质量更高;
该实施例中,第一筛选参数:将同一初始数据下的所有数据特征输入质量评估策略匹配模型后生成的,且与每一数据解析包一一对应的子参数;
该实施例中,第一筛选因子:通过对同一初始数据下的所有数据解析包对应的第一筛选参数进行综合分析后得到的,用于在策略数据库中筛选相应质量评估策略的参数,是由每个第一筛选参数综合计算得出的结果;
该实施例中,因子-质量策略匹配:基于第一筛选因子与数据质量评估策略的映射关系,在策略数据库中筛选出与初始数据匹配的质量评估策略的操作;
上述技术方案的工作原理及有益效果是:本发明通过大数据预先训练好的质量评估策略匹配模型可以对输入的同一初始数据下的所有数据特征进行处理分析,从而得到与初始数据下的每一数据解析包一一对应的第一筛选参数,提高了对初始数据的解析深度以及精度,进而通过对每一第一筛选参数进行综合分析得到第一筛选因子,进一步基于第一筛选因子在策略数据库中筛选出与初始数据匹配的第一质量评估策略,减少了误匹配的可能性,从而提高了质量评估策略与初始数据的匹配精度。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,步骤3中,还包括:
根据第一质量评估策略,且结合同一初始数据下的每一数据解析包对应的数据特征,向每一数据解析包分配相应的质量评估方法以及质量评估函数;
基于质量评估方法以及质量评估函数,对每一数据解析包进行质量评估,产生与每一数据解析包对应的第一结果;
利用预设综合评估函数对同一初始数据下的所有第一结果进行综合计算,得到第一评价结果。
该实施例中,质量评估方法以及质量评估函数:经过筛选得到的第一质量评估策略中包含的用于评估当前初始数据的数据质量的评估方法以及用于对当前初始数据下的每一数据解析包进行质量分析的评估函数;
该实施例中,第一结果:通过质量评估方法以及质量评估函数,对同一初始数据下的每一数据解析包进行质量评估后生成的,且与每一数据解析包一一对应的质量评估结果;
该实施例中,预设综合评估函数:用于对与每一数据解析包对应的第一结果进行综合分析的函数,是预先设定好的;
该实施例中,第一评价结果:通过预设综合评估函数对同一初始数据下的所有第一结果进行综合计算,得到的用于评价初始数据的数据质量的质检结果。
上述技术方案的工作原理及有益效果是:本发明通过匹配的第一质量评估策略向同一初始数据下的每一数据解析分配相应的质量评估方法以及质量评估函数,从而可以对初始数据的每一数据解析包的数据质量进行判定,进而通过对所有第一结果的综合处理分析得到用于评估初始数据的数据质量的第一评价结果,大幅提升了对初始数据的进行质量分析的分析精度,减少了因数据误差导致数据质量发生误判的可能性,从而提高了数据质量结果的精确性。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,步骤4中,包括:
获取与第一评价结果匹配的同一初始数据下的所有数据特征,并将所有数据特征输入质量评估策略匹配模型中,输出同一初始数据下与第一筛选参数对应的第二筛选参数,第一筛选参数、第二筛选参数至少有一项不同;
基于对同一初始数据下的所有第二筛选参数进行综合分析,得到第二筛选因子;
基于第二筛选因子在策略数据库中对同一初始数据下的解析内容进行数据-质量策略二次匹配,并将匹配度小于第一匹配度、大于第二匹配度的质量评估策略标定为第二质量评估策略;
基于第二质量评估策略,向每一数据解析包分配相应的质量评估方法以及质量评估函数,对同一初始数据下的与每一第一评价结果对应的解析内容进行二次质量评估,生成与每一数据解析包对应的第二结果;
通过预设综合评估函数对同一初始数据下的所有第二结果进行综合计算,得到第二评价结果;
将第一质量评估策略、第二质量评估策略输入预设结果分析模型中,分别对第一质量评估策略和第二质量评估策略中的质量评估方法进行第一验证,并生成第一验证结果;
同时,对第一质量评估策略、第二质量评估策略中与同一数据解析包对应的质量评估函数进行第二验证,并生成第二验证结果;
基于第一验证结果、第二验证结果,对第一质量评估策略、第二质量评估策略进行第一差异分析,并生成第一差异结果;
将第一评价结果、第二评价结果输入预设结果分析模型中进行第二差异分析,生成第二差异结果;
基于对同一初始数据下的第一差异结果、第二差异结果的综合分析,产生与初始数据匹配的数据质量验证结果。
该实施例中,第二筛选参数:与第一筛选参数对应,将同一初始数据下的所有数据特征输入质量评估策略匹配模型中输出的,且用于在策略数据库中筛选出与第一质量评估策略不同的其他质量评估策略的参数,且第一筛选参数、第二筛选参数至少有一项不同;
该实施例中,第二筛选因子:通过对同一初始数据下的所有第二筛选参数进行综合分析后生成的,且用于在策略数据库中筛选与初始数据匹配的质量评估策略的因子,第一筛选因子与第二筛选因子至少一部分不同;
该实施例中,二次匹配:与通过第一筛选因子在策略数据库中筛选第一质量评估策略相对应,通过第二筛选因子在策略数据库中筛选出与初始数据匹配的,且不同于第一质量评估策略的其他质量评估策略的质检过程;
该实施例中,第二结果:通过对同一初始数据下的每一解析内容对应的数据解析包进行二次质量评估后得到的质量评估结果,与第一结果对应;
该实施例中,第二评价结果:经过二次质量评估,且通过对每一第二结果的综合计算得到的用于评价初始数据的数据质量的质量评估结果,与第一评价结果对应;
该实施例中,预设结果分析模型:用于对第一质量评估策略、第二质量评估策略下的对同一数据解析包的质量评估方法进行对比分析的模型;
该实施例中,第一验证:对第一质量评估策略、第二质量评估策略向同一数据解析包分配的质量评估方法进行对比分析的验证过程;
该实施例中,第一验证结果:对同一数据解析包对应的第一质量评估策略、第二质量评估策略分别分配的质量评估方法进行对比分析后生成的验证结果;
该实施例中,第二验证:对第一质量评估策略、第二质量评估策略向同一数据解析包分配的质量评估函数进行对比分析的验证过程;
该实施例中,第二验证结果:对同一数据解析包对应的第一质量评估策略、第二质量评估策略分别分配的质量评估函数进行对比分析后生成的验证结果;
该实施例中,第一差异分析:对第一质量评估策略、第二质量评估策略中相应的第一验证结果、第二验证结果进行对比分析的分析过程;
该实施例中,第一差异结果:通过对第一质量评估策略、第二质量评估策略进行对比分析后分别产生的第一验证结果、第二验证结果进行差异分析后产生的分析结果;
该实施例中,第二差异分析:将第一评价结果、第二评价结果输入预设结果分析模型中进行对比分析的分析过程;
该实施例中,第二差异结果:将第一评价结果、第二评价结果进行第二差异分析后生成的分析结果。
上述技术方案的工作原理及有益效果是:本发明通过对同一初始数据下的所有数据特征进行二次匹配,进而得到与第一质量评估策略不同的第二质量评估策略,从而从不同的分析角度对初始数据进行二次质量评估,并产生第二评价结果,提升了初始数据数据质量的质检结果的精确性,同时,分别对第一质量评估策略、第二质量评估策略向每一同一数据解析包分配的质量评估方法以及质量评估函数的对比分析,且结合第一评价结果和第二评价结果的对比分析,对初始数据的数据质量进行综合评估,减少了因数据误差导致质检结果出错的可能性,从而降低了误判和漏判等情况的发生,进而提高了初始数据的数据质量评估过程的精确性。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,步骤4中,还包括:
获取输入的初始数据的使用目的、业务需求以及使用场景,并在质检数据库中筛选得到数据质量标准,其中,数据质量标准包含不同质量指标下所对应第一数据的最大允许有损系数;
基于业务需求、使用场景,在预设场景-需求-规则映射表中匹配相应的数据质检规则,且结合数据质量标准对输入的初始数据进行再次质量验证;
基于初始数据的数据质量验证结果以及再次质量验证结果,生成质量验证报告,并传输至人工终端。
该实施例中,使用目的:通过初始数据要达成或实现的目的;
该实施例中,业务需求:初始数据涉及的业务类型以及与业务类型匹配的需求;
该实施例中,使用场景:例如数据挖掘、报表生成等使用场景;
该实施例中,数据质量标准:例如,数据的准确性、完整性、一致性、时效性等标准,且数据质量标准与数据的使用目的和业务需求紧密相关;
该实施例中,质量指标:数据质量标准下的各种用于评估数据质量的指标,例如,与数据的准确性相关的百分比、与完整性相关的缺失值的数量和比例等指标;
该实施例中,第一数据:不同质量指标下的数据,例如,数据的准确性的百分数、缺失值的数量和占比、数据的偏差值等;
该实施例中,最大允许有损系数:与第一数据对应的用于标定允许相关数据受损的严重程度低于预设阈值条件的系数,例如,数据的准确性的最大允许有损系数为0.5%,则初始数据中受损系数大于0.5%的数据不可以被采集使用;
该实施例中,预设场景-需求-规则映射表:包含有关于数据的使用场景、业务需求和数据质检规则质检映射关系的表格,用于业务需求和使用场景向初始数据分配相应的数据质检规则;
该实施例中,再次质量验证:通过匹配的数据质检规则和数据质量标准对输入的初始数据重新进行质量验证的过程;
该实施例中,再次质量验证结果:经过对初始数据的再次质量验证产生的质量验证结果;
该实施例中,人工终端:将生成的质量验证报告向相关工作人员进行传输的终端设备;
上述技术方案的工作原理及有益效果是:本发明通过根据初始数据的使用目的、业务需求以及使用场景,可以在质检数据库中筛选得到用于评价初始数据质量的数据质量标准,进而与数据质量标准下的不同质量指标对应第一数据的最大允许有损系数进行对比分析,获取初始数据的数据受损情况;同时,通过预设场景-需求-规则映射表匹配相应的数据质检规则对初始数据进行二次质量验证,并基于数据质量验证结果和再次质量验证结果生成质量验证报告,进一步降低了误判和漏判的可能性,提升了质量评估验证结果的准确性;同时,将质量验证报告通过人工终端发送至相关人员,从而方便相关人员对初始数据进行后续的纠错操作。
本发明实施例提供一种基于大数据平台的数据质量灵活验证方法,在预设场景-需求-规则映射表中匹配相应的数据质检规则,且结合数据质量标准对输入的初始数据进行再次质量验证,包括:
按照数据质检规则的质检格式对输入的初始数据进行格式转换,得到格式数据;
根据数据质量标准所包含的质量指标对格式数据进行数据分割,并筛选每个分割数据中的第一中心数据以及第一剩余数据;
确定每个分割数据的数据长度,并从中筛选最大长度作为整长处理标准;
基于整长处理标准分别获取基于每个分割数据的长度变量,并基于长度变量确定基于对应分割数据的第一中心数据的第一筛选量以及基于对应分割数据的第一剩余数据的第二筛选量;
基于第一筛选量以及第二筛选量对相应分割数据进行整长处理;
当第一筛选量不为0且第二筛选量也不为0时,确定基于第一筛选量的第一执行性以及基于第二筛选量的第二执行性;
;其中,/>为对应质量指标下的第一执行性;Dz2为对应质量指标下的第二执行性;sz1为对应质量指标下的第一中心数据的数据总量;sz2为对应质量指标下的第一剩余数据的数据总量;
若第一执行性与第二执行性的和小于并行执行性,则控制第一筛选量以及第二筛选量对相应分割数据进行并行补充;
否则,优先控制执行性大的筛选数据进行补充,后控制执行性小的筛选数据进行补充;
当存在一个筛选量为0,另一个筛选量不为0时,控制筛选量不为0的筛选数据进行补充;
分别统计每个质量指标下的变动集合,其中,所述变动集合包括:第一筛选量、第二筛选量;
根据所述数据质检规则对每个质量指标所对应变动后的数据的第二中心数据进行全局检测以及对第二剩余数据进行局部检测,且结合变动集合,确定对应变动后的数据的当下有损系数;
;其中,n01表示对应质量指标下的第二中心数据的数据总量;/>表示对应质量指标下的对第二剩余数据进行局部检测的数据总量;/>表示对应质量指标下的全局检测有损因子;Q2表示对应质量指标下的局部检测有损因子;ln表示对数函数符号;/>表示第一筛选量;/>表示第二筛选量;/>表示对相应质量指标下的第一筛选量的数据进行补充的补充损失系数;/>表示对相应质量指标下的第二筛选量的数据进行补充的补充损失系数;/>表示对应质量指标下变动后的数据的数据总量;
基于所有当下有损系数与对应最大允许有损系数,确定计算值;
;其中,表示基于所有有损系数的计算值;m1表示质量指标的总个数;/>表示第i个质量指标下的当下有损系数;/>表示第i个质量指标下的最大允许有损系数;/>表示第i个质量指标下/>的比较函数,当/>时,/>取值为1,否则,取值为0;/>表示满足/>的总个数;/>表示满足/>下的第j个质量指标下的当下有损系数;/>表示满足/>下的第j个质量指标下的最大允许有损系数;/>表示满足/>下的第j个质量指标下的理论有损系数;/>表示基于m2个/>中的最大值;/>表示有损比值;
将所述计算值与值-质量映射表进行匹配,得到输入的初始数据的再次质量验证结果。
该实施例中,质检格式:根据数据质检规则将初始数据转换成便于进行质检处理的数据格式;
该实施例中,格式数据:将初始数据进行格式转换后生成的数据;
该实施例中,数据分割:根据质量指标对格式数据中包含的数据信息进行切割,划分为多个不同数据长度的分割数据的操作,且每个质量指标所对应的数据是不一样的,比如存在数据01、02、03、04,此时,指标1对应数据01,指标2对应数据02,指标3对应数据03、04,且对应的最大程度即为指标3所对应的数据长度,且数据长度与数据量一致。
该实施例中,第一中心数据:每个分割数据中的关键数据,且关键数据是基于指标确定出来的,比如,数据01中的具体数据为001122322,此时,第一中心数据为22322,第一剩余数据为0011。
该实施例中,第一剩余数据:分割数据除第一中心数据外的剩余数据;
该实施例中,数据长度:经过数据切割后的每个分割数据的长度,例如字长;
该实施例中,整长处理标准:作为每个分割数据的数据长度调整标准;
该实施例中,长度变量:将每一分割数据的数据长度与整长处理标准比对后的差值;
该实施例中,第一筛选量:从第一中心数据所筛选数据的数据量;
该实施例中,第二筛选量:从第一剩余数据中所筛选数据的数据量;
其中,长度差值所对应的需要补充数据量/第一中心数据的数据量,如果正好为整数,则得到整数倍的第一中心数据作为数据量,如果是0到1之间的,则从第一中心数据中随机筛选满足对应倍数的数据量即可,如果是正数小数倍,则从第一中心数据筛选正数整数倍的第一中心数据,则从第一剩余数据中随机筛选剩余小数倍的数据,并确定最后所筛选的数据的数据量,比如,正数小数倍为2.3,则将所提取2倍的第一中心数据的数据量作为第一筛选量,则将所提取的0.3倍的第一剩余数据的数据量作为第二筛选量。
该实施例中,整长处理:基于第一筛选量和第二筛选量对相应的分割数据的数据长度进行调整的操作,使得每个分割数据得数据长度与整长处理标准的数据长度相同;
该实施例中,第一执行性:当第一筛选量和第二筛选量都不为0时,确定的关于第一筛选量的可执行的系数;
该实施例中,第二执行性:当第一筛选量和第二筛选量都不为0时,确定的关于第二筛选量的可执行的系数;
该实施例中,并行执行性:通过将第一执行性与第二执行性的和与其进行大小比较,确定是否应该控制第一筛选量以及第二筛选量对相应的分割数据进行并行补充的阈值条件;
该实施例中,并行补充:将第一筛选量以及第二筛选量同时填充至相应分割数据中的操作;
该实施例中,变动集合:每个质量指标下的第一筛选量和第二筛选量构成的数据集合;
该实施例中,第二中心数据:变动后的数据中的关键数据,与第一中心数据对应,第二剩余数据:变动后的分割数据中除第二中心数据的剩余数据,与第一剩余数据对应;第二中心数据、第二剩余数据与第一中心数据、第一剩余数据的原理类似。
该实施例中,全局检测:对第二中心数据中的所有数据进行全部检测的方式;
该实施例中,局部检测:对第二剩余数据中的部分数据进行检测的方式;
该实施例中,当下有损系数:通过预设有损系数计算公式计算得到的用于评价当前变动后的数据受损情况的系数;
该实施例中,计算值:通过对当下有损系数和对应的最大允许有损系数进行计算得到的数值;
该实施例中,值-质量映射表:包含有计算值与数据质量之间映射关系的表格,是预先设定好的。
上述技术方案的工作原理及有益效果是:本发明根据数据的使用场景和业务需求匹配的数据质检规则,将初始数据转换为可以进行数据质检的质检格式,从而方便了对初始数据进行质检操作,同时,将转换后的格式数据进行数据分割,并利用预设公式对每个分割后不同长度的分割数据进行分析处理,得到初始数据的当下有损系数,进而与对应最大允许有损系数进行计算得到计算值,并在值-质量映射表中进行数据质量匹配,从而实现了对初始数据的再次质量验证,大幅提高了初始数据数据质量的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种基于大数据平台的数据质量灵活验证方法,其特征在于,包括:
步骤1:根据输入的初始数据在函数数据库中匹配相应的数据解析函数;
步骤2:基于所述数据解析函数对初始数据进行初步解析,得到与所述初始数据相应的解析内容,并提取数据特征;
步骤3:基于所述数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,并基于所述第一质量评估策略对同一初始数据下的所有解析内容进行质量评估,得到与每一解析内容匹配的第一评价结果;
步骤4:根据同一初始数据下的所述数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,同时,根据所述第二质量评估策略对与每一所述第一评价结果对应的解析内容进行二次质量评估,生成第二评价结果,并对同一解析内容下的第一评价结果与第二评价结果进行对比分析,得到初始数据的数据质量验证结果;
其中,步骤4中,包括:
获取与所述第一评价结果匹配的同一初始数据下的所有数据特征,并将所有所述数据特征输入质量评估策略匹配模型中,输出同一初始数据下与第一筛选参数对应的第二筛选参数,所述第一筛选参数、第二筛选参数至少有一项不同;
基于对同一初始数据下的所有所述第二筛选参数进行综合分析,得到第二筛选因子;
基于所述第二筛选因子在策略数据库中对同一初始数据下的解析内容进行数据-质量策略二次匹配,并将匹配度小于第一匹配度、大于第二匹配度的质量评估策略标定为第二质量评估策略;
基于所述第二质量评估策略,向每一数据解析包分配相应的质量评估方法以及质量评估函数,对同一初始数据下的与每一所述第一评价结果对应的解析内容进行二次质量评估,生成与每一数据解析包对应的第二结果;
通过预设综合评估函数对同一初始数据下的所有所述第二结果进行综合计算,得到第二评价结果;
将所述第一质量评估策略、第二质量评估策略输入预设结果分析模型中,分别对所述第一质量评估策略和第二质量评估策略中的质量评估方法进行第一验证,并生成第一验证结果;
同时,对所述第一质量评估策略、第二质量评估策略中与同一数据解析包对应的质量评估函数进行第二验证,并生成第二验证结果;
基于所述第一验证结果、第二验证结果,对所述第一质量评估策略、第二质量评估策略进行第一差异分析,并生成第一差异结果;
将所述第一评价结果、第二评价结果输入预设结果分析模型中进行第二差异分析,生成第二差异结果;
基于对同一初始数据下的所述第一差异结果、第二差异结果的综合分析,产生与初始数据匹配的数据质量验证结果。
2.根据权利要求1所述的一种基于大数据平台的数据质量灵活验证方法,其特征在于,步骤1中,包括:
接收数据平台中待处理的初始数据,确定所述初始数据中包含的至少一个字段的数据类型;
根据预设类型-函数映射关系,在函数数据库中筛选与所述至少一个字段的数据类型匹配的数据解析函数,并将所述数据解析函数调用至相应的初始数据。
3.根据权利要求1所述的一种基于大数据平台的数据质量灵活验证方法,其特征在于,步骤2中,包括:
将初始数据传递至与相应的所述数据解析函数中执行,对所述初始数据进行初步解析,得到与初始数据对应的解析内容;
获取与所述解析内容一一对应的数据解析包;
通过预设数据特征提取策略对每一数据解析包中的数据特征进行提取,得到数据特征。
4.根据权利要求3所述的一种基于大数据平台的数据质量灵活验证方法,其特征在于,步骤3中,包括:
将初始数据下的所有数据特征输入预先训练的质量评估策略匹配模型,输出与所述解析内容中每一数据解析包匹配的第一筛选参数,并对同一初始数据下的所有数据解析包对应的第一筛选参数进行综合分析,生成与所述初始数据对应的第一筛选因子;
基于所述第一筛选因子,在策略数据库中对所述初始数据的解析内容进行因子-质量策略匹配,并将匹配度大于第一匹配度的质量评估策略标定为第一质量评估策略。
5.根据权利要求4所述的一种基于大数据平台的数据质量灵活验证方法,其特征在于,步骤3中,还包括:
根据第一质量评估策略,且结合同一初始数据下的每一数据解析包对应的数据特征,向每一数据解析包分配相应的质量评估方法以及质量评估函数;
基于质量评估方法以及质量评估函数,对每一数据解析包进行质量评估,产生与每一数据解析包对应的第一结果;
利用预设综合评估函数对同一初始数据下的所有所述第一结果进行综合计算,得到第一评价结果。
6.根据权利要求1所述的一种基于大数据平台的数据质量灵活验证方法,其特征在于,步骤4中,还包括:
获取输入的初始数据的使用目的、业务需求以及使用场景,并在质检数据库中筛选得到数据质量标准,其中,所述数据质量标准包含不同质量指标下所对应第一数据的最大允许有损系数;
基于所述业务需求、使用场景,在预设场景-需求-规则映射表中匹配相应的数据质检规则,且结合数据质量标准对输入的初始数据进行再次质量验证;
基于初始数据的数据质量验证结果以及再次质量验证结果,生成质量验证报告,并传输至人工终端。
7.根据权利要求6所述的一种基于大数据平台的数据质量灵活验证方法,其特征在于,在预设场景-需求-规则映射表中匹配相应的数据质检规则,且结合数据质量标准对输入的初始数据进行再次质量验证,包括:
按照所述数据质检规则的质检格式对所述输入的初始数据进行格式转换,得到格式数据;
根据所述数据质量标准所包含的质量指标对所述格式数据进行数据分割,并筛选每个分割数据中的第一中心数据以及第一剩余数据;
确定每个分割数据的数据长度,并从中筛选最大长度作为整长处理标准;
基于所述整长处理标准分别获取基于每个分割数据的长度变量,并基于所述长度变量确定基于对应分割数据的第一中心数据的第一筛选量以及基于对应分割数据的第一剩余数据的第二筛选量;
基于所述第一筛选量以及第二筛选量对相应分割数据进行整长处理;
当第一筛选量不为0且第二筛选量也不为0时,确定基于第一筛选量的第一执行性以及基于第二筛选量的第二执行性;
;其中,/>为对应质量指标下的第一执行性;Dz2为对应质量指标下的第二执行性;sz1为对应质量指标下的第一中心数据的数据总量;sz2为对应质量指标下的第一剩余数据的数据总量;
若第一执行性与第二执行性的和小于并行执行性,则控制第一筛选量以及第二筛选量对相应分割数据进行并行补充;
否则,优先控制执行性大的筛选数据进行补充,后控制执行性小的筛选数据进行补充;
当存在一个筛选量为0,另一个筛选量不为0时,控制筛选量不为0的筛选数据进行补充;
分别统计每个质量指标下的变动集合,其中,所述变动集合包括:第一筛选量、第二筛选量;
根据所述数据质检规则对每个质量指标所对应变动后的数据的第二中心数据进行全局检测以及对第二剩余数据进行局部检测,且结合变动集合,确定对应变动后的数据的当下有损系数;
;其中,n01表示对应质量指标下的第二中心数据的数据总量;/>表示对应质量指标下的对第二剩余数据进行局部检测的数据总量;/>表示对应质量指标下的全局检测有损因子;Q2表示对应质量指标下的局部检测有损因子;ln表示对数函数符号;/>表示第一筛选量;/>表示第二筛选量;/>表示对相应质量指标下的第一筛选量的数据进行补充的补充损失系数;表示对相应质量指标下的第二筛选量的数据进行补充的补充损失系数;/>表示对应质量指标下变动后的数据的数据总量;
基于所有当下有损系数与对应最大允许有损系数,确定计算值;
;其中,/>表示基于所有有损系数的计算值;m1表示质量指标的总个数;/>表示第i个质量指标下的当下有损系数;/>表示第i个质量指标下的最大允许有损系数;/>表示第i个质量指标下/>的比较函数,当/>时,/>取值为1,否则,取值为0;/>表示满足/>的总个数;/>表示满足/>下的第j个质量指标下的当下有损系数;/>表示满足/>下的第j个质量指标下的最大允许有损系数;/>表示满足下的第j个质量指标下的理论有损系数;/>表示基于m2个中的最大值;/>表示有损比值;
将所述计算值与值-质量映射表进行匹配,得到输入的初始数据的再次质量验证结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311324713.9A CN117056576B (zh) | 2023-10-13 | 2023-10-13 | 一种基于大数据平台的数据质量灵活验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311324713.9A CN117056576B (zh) | 2023-10-13 | 2023-10-13 | 一种基于大数据平台的数据质量灵活验证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117056576A CN117056576A (zh) | 2023-11-14 |
CN117056576B true CN117056576B (zh) | 2024-04-05 |
Family
ID=88654021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311324713.9A Active CN117056576B (zh) | 2023-10-13 | 2023-10-13 | 一种基于大数据平台的数据质量灵活验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117056576B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN111597510A (zh) * | 2020-05-20 | 2020-08-28 | 国网山东省电力公司电力科学研究院 | 一种输变电运检数据质量评估方法及系统 |
CN112380190A (zh) * | 2020-11-27 | 2021-02-19 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230107733A1 (en) * | 2021-09-30 | 2023-04-06 | Walter LLC | Systems and methods for providing quality assurance for validation of calibration data |
-
2023
- 2023-10-13 CN CN202311324713.9A patent/CN117056576B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN111597510A (zh) * | 2020-05-20 | 2020-08-28 | 国网山东省电力公司电力科学研究院 | 一种输变电运检数据质量评估方法及系统 |
CN112380190A (zh) * | 2020-11-27 | 2021-02-19 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN113434485A (zh) * | 2020-11-27 | 2021-09-24 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117056576A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915327B (zh) | 一种文本信息的处理方法及装置 | |
CN112711757B (zh) | 一种基于大数据平台的数据安全集中管控方法及系统 | |
CN115222303B (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN111177360A (zh) | 一种基于云上用户日志的自适应过滤方法及装置 | |
CN116245112A (zh) | 一种物流信息的识别方法、装置和计算机设备 | |
CN115357572A (zh) | 一种数据质量检查规则构建方法、存储介质及系统 | |
CN113657747B (zh) | 一种企业安全生产标准化级别智能评定系统 | |
CN117056576B (zh) | 一种基于大数据平台的数据质量灵活验证方法 | |
CN111126627A (zh) | 基于分离度指数的模型训练系统 | |
CN111753516A (zh) | 文本查重处理方法、装置、计算机设备及计算机存储介质 | |
CN116383742B (zh) | 基于特征分类的规则链设置处理方法、系统及介质 | |
CN116319081B (zh) | 一种基于大数据云平台的电子签章安全管理系统 | |
CN112800232A (zh) | 基于大数据的案件自动分类、优化方法及训练集修正方法 | |
CN112732655A (zh) | 针对无格式日志的在线解析方法及系统 | |
CN111770053A (zh) | 一种基于改进的聚类与自相似性的恶意程序检测方法 | |
CN116452054A (zh) | 一种电力系统物资抽检管理方法和装置 | |
CN115016929A (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
CN113592216A (zh) | 一种应用于智能工厂的生产管理方法和系统 | |
CN111680286A (zh) | 物联网设备指纹库的精细化方法 | |
CN111027296A (zh) | 基于知识库的报表生成方法及系统 | |
CN111488327A (zh) | 一种数据标准管理方法和系统 | |
CN112766785B (zh) | 用于保险数据的质量评价方法、系统、设备及存储介质 | |
CN113676457B (zh) | 一种基于状态机的流式多层安全检测方法及系统 | |
CN115660819B (zh) | 一种用于信贷决策的数据源对接平台 | |
CN116308170B (zh) | 一种应用于数字孵化服务平台的管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |