CN111737247B - 用于数据质量管控的实现方法 - Google Patents

用于数据质量管控的实现方法 Download PDF

Info

Publication number
CN111737247B
CN111737247B CN202010700618.4A CN202010700618A CN111737247B CN 111737247 B CN111737247 B CN 111737247B CN 202010700618 A CN202010700618 A CN 202010700618A CN 111737247 B CN111737247 B CN 111737247B
Authority
CN
China
Prior art keywords
data
sequence
quality
determining
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010700618.4A
Other languages
English (en)
Other versions
CN111737247A (zh
Inventor
张春林
李利军
李春青
常江波
尚雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfang tongwangxin Technology Co.,Ltd.
Beijing dongfangtong Software Co.,Ltd.
BEIJING TESTOR TECHNOLOGY Co.,Ltd.
Beijing Tongtech Co Ltd
Original Assignee
Beijing Dongfangtong Software Co ltd
Beijing Microvision Technology Co ltd
Beijing Testor Technology Co ltd
Beijing Tongtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongfangtong Software Co ltd, Beijing Microvision Technology Co ltd, Beijing Testor Technology Co ltd, Beijing Tongtech Co Ltd filed Critical Beijing Dongfangtong Software Co ltd
Priority to CN202010700618.4A priority Critical patent/CN111737247B/zh
Publication of CN111737247A publication Critical patent/CN111737247A/zh
Application granted granted Critical
Publication of CN111737247B publication Critical patent/CN111737247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种用于数据质量管控的实现方法,包括获取目标数据的目标属性,根据所述目标属性对所述目标数据进行序列提取,获取序列数据;确定所述序列数据之间的关联关系,并基于质量管控算法和所述关联关系对所述序列数据进行质量监督测量,确定低质量序列;根据预设的优化序列库对所述低质量序列进行优化,获取优化序列;验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示。本发明的有益效果在于:本发明实现了目标数据的有效分析和属性划分。通过目标数据的质量管控,确定数据质量高低,从而实现对数据的优化处理,获得更好的优化序列。而通过对序列数据的管控控制和报警警示,使得获得的目标数据都为高质量数据。

Description

用于数据质量管控的实现方法
技术领域
本发明涉及数据管理技术领域,特别涉及一种用于数据质量管控的实现方法。
背景技术
目前,在数据管控处理过程中,会经历很多环节。每个环节由于过滤方式、清洗方式、原始数据的抽取规则是否符合规范要求、转换过程是否执行成功、加载过程类型是否正确等因素,造成数据记录丢失、数据不准确、转换过程失败、超时等情况。而在定位这些问题的环节时,由于环节较多、使用技术较多、造成问题的原因较多,导致维护人员定位问题无从下手,或是会发大量的时间来做数据核查工作,费力且不一定能准确定位问题。存在一系列问题,如关键字段填充率低、解析机制不合理、业务识别率低、识别不准确等问题,严重影响了上层分析的准确性。
因此现有技术对数据的管理能力低,导致数据质量不合格,因此,需要专门的数据管理技术来做处理,而且对于低质量或者优化后不合格,也无法做出数据报警警示。
发明内容
本发明提供一种用于数据质量管控的实现方法,用以解决数据质量管控过程中,存在低质量序列,不能进行数据优化,无法进行数据报警警示的情况。
一种用于数据质量管控的实现方法,其特征在于,包括:
获取目标数据的目标属性,根据所述目标属性对所述目标数据进行序列提取,获取序列数据;
确定所述序列数据之间的关联关系,并基于质量管控算法和关联关系对所述序列数据进行质量监督测量,确定低质量序列;
根据预设的优化序列库对所述低质量序列进行优化,获取优化序列;
验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示。
作为本发明的一种实施例:所述获取目标数据的目标属性包括:
确定所述目标数据中各类数据的空间复杂度,并基于所述空间复杂度,确定所述目标数据的空间属性;
确定所述目标数据总各类数据的信息熵,对所述信息熵的熵值进行梯度划分,基于所述熵值的梯度确定所述目标数据的熵值属性;
确定所述目标数据中各类数据的相关程度,并基于所述相关程度,确性所述目标数据的关系属性;
基于柯里化函数,通过所述空间属性、熵值属性和关系属性的确定所述目标数据的目标属性。
作为本发明的一种实施例:所述根据所述目标属性对所述目标数据进行序列提取,获取序列数据,包括:
基于所述目标属性在所述目标数据中生成对应的序列编码;
统计所述序列编码,并通过键值化函数生成所述序列编码的键值序列;
根据所述键值序列,确定所述目标数据中与所述键值序列对应的数据,生成序列数据。
作为本发明的一种实施例:所述确定所述序列数据之间的关联关系,包括:
步骤1:获取所述序列数据的键值序列
Figure 919613DEST_PATH_IMAGE001
,属性参数
Figure 538551DEST_PATH_IMAGE002
和所述序列数据的特征参数
Figure 787130DEST_PATH_IMAGE003
,确定序列数据的全局特征
Figure 447918DEST_PATH_IMAGE004
Figure 731132DEST_PATH_IMAGE005
其中,所述
Figure 756857DEST_PATH_IMAGE006
表示序列数据的数量;所述
Figure 289469DEST_PATH_IMAGE007
表示第
Figure 957211DEST_PATH_IMAGE008
个序列数据的属性参数;所述
Figure 829352DEST_PATH_IMAGE009
表示第
Figure 291557DEST_PATH_IMAGE008
个序列数据的第
Figure 311466DEST_PATH_IMAGE010
个特征的特征参数;所述
Figure 251740DEST_PATH_IMAGE011
表示特征参数的均值;
Figure 742502DEST_PATH_IMAGE012
;所述
Figure 437926DEST_PATH_IMAGE013
步骤2:根据所述序列数据的全局特征
Figure 882814DEST_PATH_IMAGE004
,确定所述序列数据的关联系数
Figure 626779DEST_PATH_IMAGE014
Figure 535829DEST_PATH_IMAGE015
其中,所述
Figure 339837DEST_PATH_IMAGE016
表示第
Figure 272021DEST_PATH_IMAGE017
个序列数据的全局特征;
Figure 819677DEST_PATH_IMAGE018
表示序列数据的数量的 变化量;
Figure 583233DEST_PATH_IMAGE019
步骤3:在确定所述序列数据的关联系数
Figure 558143DEST_PATH_IMAGE020
后,构建所述序列数据的关联关系模型
Figure 977623DEST_PATH_IMAGE021
Figure 125707DEST_PATH_IMAGE022
步骤4:将所述关联关系模型的百分值化得到
Figure 439708DEST_PATH_IMAGE023
,根据百分值确定序列数 据之间的关联关系,百分值越高表示关联关系越深,百分值越小,表示关联关系越低。
作为本发明的一种实施例:所述基于质量管控算法和所述关联关系对所述序列数据进行质量监督测量,确定低质量序列,包括:
基于质量管控算法分别制定序列数据的质量管控规则;其中
所述质量管控规则包括:完整性规则、有效性规则、及时性规则和正确性规则;
基于所述质量管控规则确定所述序列数据的第一质量值;
基于所述关联关系分别确定任意序列数据与其它序列数据的关联关系的关联均值;
根据所述关联均值的大小,确定所述序列数据的第二质量值;
根据所述第一质量值和第二质量值,设定质量阈值;
根据质量阀值,监督测量所述序列数据的第一质量值和第二质量值,
当所述第一质量值和第二质量值均不小于所述质量阈值时,所述序列数据为高质量序列;
当所述序列数据的第一质量值和第二质量值均小于所述质量阈值时,所述序列数据为低质量序列。
作为本发明的一种实施例:所述根据预设的优化序列库对所述低质量序列进行优化,获取优化序列,包括:
获取所述低质量序列的特征参数,根据所述特征参数构建回归方程,并得到预测数据;
根据所述预测数据,通过迭代计算构建精度优化模型;
根据所述精度优化模型,整合高质量的序列数据,并确定优化序列库;
将所述低质量序列通过所述优化序列库进行优化,将所述优化后的低质量序列作为优化序列。
作为本发明的一种实施例:所述验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示,包括:
预设管控标准,并根据所述管控标准对所述优化序列进行对比验证,获得验证结果;
根据所述验证结果,判断所述序列数据是否符合管控标准;
当所述序列数据符合管控标准时,存储所述序列数据的验证结果;
当所述序列数据不符合管控标准时,根据所述验证结果生成报警信号,并发出报警警示;
作为本发明的一种实施例:所述管控标准包括:
关联管控,用于确定所述优化序列的关联关系;
时间管控,用于确定所述优化序列的时间差关系;
属性管控,用于确定所述优化序列的属性相近关系;
数据源管控,用于确定所述优化序列的数据源信息。
作为本发明的一种实施例:所述管控标准还包括:
根据所述管控标准;
将所述优化序列中低于设定阈值的数据以及单位时间内数据变化率超过设定阈值或无变化的优化序列认定警示数据;
对警示数据的文件命名、数据文件、数据分层、要素表达、数据格式、数据组织、数据存储介质、原始数据的完整性与正确性进行检查,当完整性不足时,完善缺失数据。
作为本发明的一种实施例:所述进行报警警示包括步骤:
获取所述报警信号;
根据所述报警信号,确定所述优化序列的管控参数;其中,
所述管控参数包括:关联管控的参数、时间管控的参数、属性管控的参数和数据源管控的参数;
根据所述关联管控的参数,判断所述优化序列的关联关系偏差度,发出第一报警警示;
根据所述时间管控的参数,判断所述优化序列的时间差关系,发出第二报警警示;
根据所述属性管控的参数,判断所述优化序列的属性相近关系,发出第三报警警示;
根据所述数据源管控的参数,判断所述优化序列的数据源信息,发出第四报警警示。
本发明的有益效果在于:本发明基于目标数据的目标属性,实现了目标数据的有效分析和属性划分。通过将划分为序列数据后的目标数据进行质量管控,确定数据质量高低,从而实现对数据的优化处理,获得更好的优化序列。而通过对序列数据的管控控制和报警警示,使得获得的目标数据都为高质量数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于数据质量管控的实现方法的方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
实施例1:
如附图1所示的本发明的一种用于数据质量管控的实现方法的方法流程图,包括:
步骤100:获取目标数据的目标属性,根据所述目标属性对所述目标数据进行序列提取,获取序列数据;
步骤101:确定所述序列数据之间的关联关系,并基于质量管控算法和关联关系对所述序列数据进行质量监督测量,确定低质量序列;
步骤102:根据预设的优化序列库对所述低质量序列进行优化,获取优化序列;
步骤103:验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示。
上述技术方案的原理为:在数据质量管控的过程中,首先,基于已经确定的目标数据,通过数据分析,获取数据的目标属性,然后通过目标属性对目标数据进行序列提取,得到最终的序列数据。本发明中,通过计算序列数据之间的关联关系,并通过本发明中的质量管控算法确定数据质量,将需要获取的目标数据分为高质量数据和低质量数据。对于低质量数据,本发明要通过预先设置优化序列库对低质量的序列数据进行优化,得到优化后的序列数据。最后通过将优化后的序列数据进行管控标准的验证,判断优化后的序列数据是否符合管控标准,最终通过对不符合管控标准的序列数据进行报警警示。
上述技术方案的有益效果在于:本发明基于目标数据的目标属性,实现了目标数据的有效分析和属性划分。通过将划分为序列数据后的目标数据进行质量管控,确定数据质量高低,从而实现对数据的优化处理,获得更好的优化序列。而通过对序列数据的管控控制和报警警示,使得获得的目标数据都为高质量数据。
实施例2:
作为本发明的一种实施例,所述获取目标数据的目标属性包括:
确定所述目标数据中各类数据的空间复杂度(即目标数据中的各类数据占用储存空间的量度),并基于所述空间复杂度,确定所述目标数据的空间属性;
确定所述目标数据总各类数据的信息熵(即目标数据中的各类数据的量化度量),对所述信息熵的熵值进行梯度划分,基于所述熵值的梯度确定所述目标数据的熵值属性;
确定所述目标数据中各类数据的相关程度(即目标数据中的各类数据之间的马氏距离),并基于所述相关程度,确性所述目标数据的关系属性;
基于柯里化函数,通过所述空间属性、熵值属性和关系属性的确定所述目标数据的目标属性。
上述技术方案的原理为:本发明获取目标数据的目标属性至少包括四种属性,即:空间属性、熵值属性、关系属性和目标属性。因此,本发明通过目标数据中各类数据的空间复杂度确定空间属性;通过目标数据总各类数据的信息熵以梯度划分的形式,确定目标数据的熵值属性;通过目标数据中各类数据的相关程度,确定目标数据中各类数据的相关属性;最后基于柯里化函数,整合所述空间属性、熵值属性和关系属性得到最终的目标属性。
上述技术方案的有益效果为:将目标数据进行属性化之后,目标数据可以转化为属性值,以数值的形式表现出来,最后基于目标数据的属性值,将目标数据进行计算,确定目标属性,柯里化函数为高级属性,以封装的形式将所述目标数据的空间属性、熵值属性和关系属性进行属性封装,进而实现目标数据的属性简化计算,从而使得复杂的目标数据实现自由度计算。
实施例3:
作为本发明的一种实施例:所述根据所述目标属性对所述目标数据进行序列提取,获取序列数据,包括:
基于所述目标属性在所述目标数据中生成对应的序列编码;
统计所述序列编码,并通过键值化函数生成所述序列编码的键值序列;
根据所述键值序列,确定所述目标数据中与所述键值序列对应的数据,生成序列数据。
上述技术方案的原理为:本发明在确定序列数据之后,因为目标属性已经确定,从而可以将目标数据数值化,而数值化之后的目标数据可以通过序列编码,将序列编码以计算机语言的形式进行数值化,最终通过数值化之后的目标数据,确定序列数据的键值,最终通过键值和序列数据相对应,生成序列数据。
上述技术方案的有益效果为:本发明通过数据序列的编码化和数值化,确定了序列数据的数值编码;进而实现了通过计算机语言进行控制,实现了序列数据的程序化管控。
实施例4:
作为本发明的一种实施例:所述确定所述序列数据之间的关联关系,包括:
步骤1:获取所述序列数据的键值序列
Figure 585519DEST_PATH_IMAGE024
,属性参数
Figure 289033DEST_PATH_IMAGE025
和所述序列数据的特征参数
Figure 178491DEST_PATH_IMAGE026
, 确定序列数据的全局特征
Figure 854323DEST_PATH_IMAGE027
Figure 233352DEST_PATH_IMAGE028
其中,所述
Figure 361845DEST_PATH_IMAGE029
表示序列数据的数量;所述
Figure 54995DEST_PATH_IMAGE030
表示第
Figure 585333DEST_PATH_IMAGE008
个序列数据的属性参数;所述
Figure 135263DEST_PATH_IMAGE009
表示第
Figure 751052DEST_PATH_IMAGE008
个序列数据的第
Figure 746428DEST_PATH_IMAGE010
个特征的特征参数;所述
Figure 193590DEST_PATH_IMAGE031
表示特征参数的均值;
Figure 586525DEST_PATH_IMAGE032
;所述
Figure 220769DEST_PATH_IMAGE013
步骤2:根据所述序列数据的全局特征
Figure 990141DEST_PATH_IMAGE027
,确定所述序列数据的关联系数
Figure 760651DEST_PATH_IMAGE033
Figure 386805DEST_PATH_IMAGE034
其中,所述
Figure 977186DEST_PATH_IMAGE016
表示第
Figure 815829DEST_PATH_IMAGE035
个序列数据的全局特征;
Figure 972004DEST_PATH_IMAGE036
表示序列数据的数量的变 化量;
Figure 972321DEST_PATH_IMAGE037
步骤3:在确定所述序列数据的关联系数
Figure 548533DEST_PATH_IMAGE020
后,构建所述序列数据的关联关系模型
Figure 987605DEST_PATH_IMAGE021
Figure 467128DEST_PATH_IMAGE038
步骤4:将所述关联关系模型的百分值化得到
Figure 638346DEST_PATH_IMAGE023
,根据百分值确定序列数据 之间的关联关系,百分值越高表示关联关系越深,百分值越小,表示关联关系越低。
上述技术方案首先通过序列数据进行计算键值序列、属性参数和特征参数,确定序列数据的全局特征,根据序列数据的全局特征,最终通过计算序列数据的关联系数,根据关联系数,构建序列数据之间的关联关系模型,通过关联关系模型,代入序列数据的全局特征的特征值,最终通过特征值,确定序列数据之间的关联关系。通过数据之间的关联关系更加简单的实现数据的精确分类和数据储存管理。
实施例5:
作为本发明的一种实施例:所述基于质量管控算法和所述关联关系对所述序列数据进行质量监督测量,确定低质量序列,包括:
基于质量管控算法分别制定序列数据的质量管控规则;其中
所述质量管控规则包括:完整性规则、有效性规则、及时性规则和正确性规则;
基于所述质量管控规则确定所述序列数据的第一质量值;
基于所述关联关系分别确定任意序列数据与其它序列数据的关联关系的关联均值;
根据所述关联均值的大小,确定所述序列数据的第二质量值;
根据所述第一质量值和第二质量值,设定质量阈值;
根据所述第一质量值和第二质量值,设定质量阈值;
根据质量阀值,监督测量所述序列数据的第一质量值和第二质量值;
当所述第一质量值和第二质量值均不小于所述质量阈值时,所述序列数据为高质量序列;
当所述序列数据的第一质量值和第二质量值均小于所述质量阈值时,所述序列数据为低质量序列。
上述技术方案的原理为:本发明通过质量管控算法,得到序列数据的质量管控规则,进而确定序列数据的完整性、有效性、及时性和正确性。通过质量管控规则,通过计算得到序列数据的第一质量值,第一质量值在四种规则下序列数据的综合性指标参数,即质量标准管控的质量值。通过关联关系的关联均值,确定第二序列数据的第二质量值,即数据关联的质量值。通过第一质量值和第二质量值,将序列数据划分为低质量序列数据和高质量序列数据。
上述技术方案的有益效果为:本发明基于质量管控,使得数据以数值化的形式确定每个序列数据的质量值,基于序列数据的关联关系,确定每个序列数据和其它序列数据的关联质量值,进而通过序列数据的第一质量值和第二质量值,对序列数据进行质量划分,方便对不良的低质量的进行控制优化。
实施例6:
作为本发明的一种实施例:所述根据预设的优化序列库对所述低质量序列进行优化,获取优化序列,包括:
获取所述低质量序列的特征参数,根据所述特征参数构建回归方程,并得到预测数据;
根据所述预测数据,通过迭代计算构建精度优化模型;
根据所述精度优化模型,整合高质量的序列数据确定优化序列库;
将所述低质量序列通过所述优化序列库进行优化,将所述优化后的低质量序列作为优化序列。
上述技术方案的原理为:本发明通过对低质量序列数据进行特征参数的计算,构建低质量序列的回归方程;回归方程可以得到序列数据的预测数据,通过对序列数据的处理,构建了序列数据的精度优化模型,本发明通过构建的精度优化模型,将所有的序列数据都通过精度优化模型,得到序列数据的优化序列库,通过优化序列库对所述低质量序列依次进行处理,得到优化后的序列数据。
上述技术方案的有益效果为:本发明通过对序列数据的处理,至于质量回归方程,得到了低质量序列数据的预测数据,通过对序列数据进行处理,确定了序列数据的精度化优化模型,通过对低质量序列数据进行优化,从而使得低质量序列的序列数据转换为优化后的数据。
实施例7:
作为本发明的一种实施例:所述验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示,包括:
预设管控标准,并根据所述管控标准对所述优化序列进行对比验证,获得验证结果;
根据所述验证结果,判断所述序列数据是否符合管控标准;
当所述序列数据符合管控标准时,存储所述序列数据的验证结果;
当所述序列数据不符合管控标准时,根据所述验证结果生成报警信号,并发出报警警示;
上述技术方案的原理为:本发明在将低质量序列数据优化后,基于数据管控的标准,通过对优化序列进行对比验证,得到序列数据的验证结果。基于验证结果判断所述优化后的序列数据是否符合管控标准,对于不符合管控标准的序列数据进行报警,得到报警警示。
上述技术方案的有益效果为:通过对优化后的序列数据再次通过管控标准进行验证,对验证后的序列数据再次进行对比验证判断,确定低质量序列数据是否符合管控标准,对于不符合管控标准的序列数据进行报警警示。
实施例8:
作为本发明的一种实施例:所述管控标准包括:
关联管控,用于确定所述优化序列的关联关系;
时间管控,用于确定所述优化序列的时间差关系;
属性管控,用于确定所述优化序列的属性相近关系;
数据源管控,用于确定所述优化序列的数据源信息。
上述技术方案的原理为:本发明的管控标准包括关联管控,进而确定了优化序列的关联关系,关联管控,是对优化后的序列数据和优化序列关联性进行判断,基于关联管控,可以防止序列数据和优化序列关联度相差较大,进而数据异常。基于时间管控,通过时间差关系,判断序列数据获取时间的异常。基于属性管控,本发明通过优化序列的属性相近关系,并基于属性相近关系,使得低质量序列数据具有属性相关性。最后通过数据源管控,通过对优化的数据源信息和其它序列数据的数据源进行判断,防止序列数据数据源不符合其它数据源序列的数据。
上述技术方案的有益效果为:本发明通过管控标准对优化序列,即:优化后的序列数据通过关联管控、时间管控、属性管控和数据源管控,使得防止优化后的序列数据还不符合数据管控的标准。
实施例9:
作为本发明的一种实施例:所述管控标准还包括:
根据所述管控标准;
将所述优化序列中低于设定阈值的数据以及单位时间内数据变化率超过设定阈值或无变化的优化序列认定警示数据;
对警示数据的文件命名(文件命名)、数据文件位置、数据分层、数据要素(数据中主要要数据点)、数据格式、数据组织(数据之间的组织构架,即数据之间关联关系构架)、数据存储介质、原始数据的完整性与正确性进行检查,当完整性不足时,完善缺失数据。
上述技术方案的原理为:本发明的优化序列通过设定阀值,数据变化率阀值和优化序列的警示,最终通过优化序列的完整性、正确性的检查,防止优化序列缺失。
上述技术方案的有益效果为:本发明的优化序列在管控标准检查判定之后,可以防止数据的缺失。加快数据的完善。
实施例10:
作为本发明的一种实施例:所述报警警示包括:
获取所述报警信号;
获取所述报警信号;
根据所述报警信号,确定所述优化序列的管控参数;其中,
所述管控参数包括:关联管控的参数、时间管控的参数、属性管控的参数和数据源管控的参数;
根据所述关联管控的参数,判断所述优化序列的关联关系偏差度,发出第一报警警示;
根据所述时间管控的参数,判断所述优化序列的时间差关系,发出第二报警警示;
根据所述属性管控的参数,判断所述优化序列的属性相近关系,发出第三报警警示;
根据所述数据源管控的参数,判断所述优化序列的数据源信息,发出第四报警警示。
上述技术方案的原理为:本发明通过管控参数,分别根据关联关系偏差度、时间差关系、属性相近关系和数据源信息,分别通过不同的报警警示信号进行报警。
上述技术方案的有益效果为:本发明通过管控参数能够对优化序列的进行溯源管控,直达数据管控节点,实现数据的优化管控。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种用于数据质量管控的实现方法,其特征在于,包括:
获取目标数据的目标属性,根据所述目标属性对所述目标数据进行序列提取,获取序列数据;
确定所述序列数据之间的关联关系,并基于质量管控算法和关联关系对所述序列数据进行质量监督测量,确定低质量序列;
根据预设的优化序列库对所述低质量序列进行优化,获取优化序列;
验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示;
所述获取目标数据的目标属性包括:
确定所述目标数据中各类数据的空间复杂度,并基于所述空间复杂度,确定所述目标数据的空间属性;
确定所述目标数据总各类数据的信息熵,对所述信息熵的熵值进行梯度划分,基于所述熵值的梯度确定所述目标数据的熵值属性;
确定所述目标数据中各类数据的相关程度,并基于所述相关程度,确定所述目标数据的关系属性;
基于柯里化函数,通过所述空间属性、熵值属性和关系属性的确定所述目标数据的目标属性;
所述根据预设的优化序列库对所述低质量序列进行优化,获取优化序列,包括:
获取所述低质量序列的特征参数,根据所述特征参数构建回归方程,并得到预测数据;
根据所述预测数据,通过迭代计算构建精度优化模型;
根据所述精度优化模型,整合高质量的序列数据,并确定优化序列库;
将所述低质量序列通过所述优化序列库进行优化,将所述优化后的低质量序列作为优化序列。
2.根据权利要求1所述的一种用于数据质量管控的实现方法,其特征在于,所述根据所述目标属性对所述目标数据进行序列提取,获取序列数据,包括:
基于所述目标属性在目标数据中生成对应的序列编码;
统计所述序列编码,并通过键值化函数生成所述序列编码的键值序列;
根据所述键值序列,确定所述目标数据中与所述键值序列对应的数据,生成序列数据。
3.根据权利要求2所述的一种用于数据质量管控的实现方法,其特征在于,所述确定所述序列数据之间的关联关系,包括:
步骤1:获取所述序列数据的键值序列
Figure 484921DEST_PATH_IMAGE001
,属性参数
Figure 729957DEST_PATH_IMAGE002
和所述序列数据的特征参数
Figure 775274DEST_PATH_IMAGE003
,确定序列数据的全局特征
Figure 639324DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中,所述
Figure 548637DEST_PATH_IMAGE006
表示序列数据的数量;所述
Figure 839941DEST_PATH_IMAGE007
表示第
Figure 434870DEST_PATH_IMAGE008
个序列数据的属性参数;所述
Figure 102612DEST_PATH_IMAGE009
表示第
Figure 37070DEST_PATH_IMAGE008
个序列数据的第
Figure 358330DEST_PATH_IMAGE010
个特征的特征参数;所述
Figure DEST_PATH_IMAGE011
表示特征参数的均值;
Figure 847080DEST_PATH_IMAGE012
;所述
Figure 911988DEST_PATH_IMAGE013
步骤2:根据所述序列数据的全局特征
Figure 904215DEST_PATH_IMAGE004
,确定所述序列数据的关联系数
Figure 599638DEST_PATH_IMAGE014
Figure 670625DEST_PATH_IMAGE015
其中,所述
Figure 211328DEST_PATH_IMAGE016
表示第
Figure DEST_PATH_IMAGE017
个序列数据的全局特征;
Figure 651536DEST_PATH_IMAGE018
表示序列数据的数量的变化量;
Figure 252282DEST_PATH_IMAGE019
步骤3:在确定所述序列数据的关联系数
Figure 450045DEST_PATH_IMAGE020
后,构建所述序列数据的关联关系模型
Figure 856755DEST_PATH_IMAGE021
Figure 620312DEST_PATH_IMAGE022
步骤4:将所述关联关系模型的百分值化得到
Figure 860801DEST_PATH_IMAGE023
,根据百分值确定序列数据之间的关联关系,百分值越高表示关联关系越深,百分值越小,表示关联关系越低。
4.根据权利要求1所述的一种用于数据质量管控的实现方法,其特征在于,所述基于质量管控算法和关联关系对所述序列数据进行质量监督测量,确定低质量序列,包括:
基于质量管控算法制定所述序列数据的质量管控规则;其中,
所述质量管控规则包括:完整性规则、有效性规则、及时性规则和正确性规则;
基于所述质量管控规则确定所述序列数据的第一质量值;
基于所述关联关系分别确定任一序列数据与其它序列数据的关联关系的关联均值;
根据所述关联均值的大小,确定所述序列数据的第二质量值;
根据所述第一质量值和第二质量值,设定质量阈值;
根据质量阀值,监督测量所述序列数据的第一质量值和第二质量值,
当所述第一质量值和第二质量值均不小于所述质量阈值时,所述序列数据为高质量序列;
当所述序列数据的第一质量值和第二质量值均小于所述质量阈值时,所述序列数据为低质量序列。
5.根据权利要求1所述的一种用于数据质量管控的实现方法,其特征在于,所述验证所述优化序列是否符合管控标准,并对不符合管控标准的优化序列进行报警警示,包括:
预设管控标准,并根据所述管控标准对所述优化序列进行对比验证,获得验证结果;
根据所述验证结果,判断所述序列数据是否符合管控标准;
当所述序列数据符合管控标准时,存储所述序列数据的验证结果;
当所述序列数据不符合管控标准时,根据所述验证结果生成报警信号,并发出报警警示。
6.根据权利要求1所述的一种用于数据质量管控的实现方法,其特征在于,所述管控标准包括:
关联管控,用于确定所述优化序列的关联关系;
时间管控,用于确定所述优化序列的时间差关系;
属性管控,用于确定所述优化序列的属性相近关系;
数据源管控,用于确定所述优化序列的数据源信息。
7.根据权利要求1所述的一种用于数据质量管控的实现方法,其特征在于,所述管控标准还包括:
根据所述管控标准;
将所述优化序列中低于设定阈值的数据以及单位时间内数据变化率超过设定阈值或无变化的优化序列认定为警示数据;
对所述警示数据的文件命名、数据文件、数据分层、数据要素、数据格式、数据组织、数据存储介质、原始数据的完整性与正确性进行检查,当完整性不足时,完善缺失数据。
8.根据权利要求5所述的一种用于数据质量管控的实现方法,其特征在于,所述进行报警警示包括步骤:
获取所述报警信号;
根据所述报警信号,确定所述优化序列的管控参数;其中,
所述管控参数包括:关联管控的参数、时间管控的参数、属性管控的参数和数据源管控的参数;
根据所述关联管控的参数,判断所述优化序列的关联关系偏差度,发出第一报警警示;
根据所述时间管控的参数,判断所述优化序列的时间差关系,发出第二报警警示;
根据所述属性管控的参数,判断所述优化序列的属性相近关系,发出第三报警警示;
根据所述数据源管控的参数,判断所述优化序列的数据源信息,发出第四报警警示。
CN202010700618.4A 2020-07-21 2020-07-21 用于数据质量管控的实现方法 Active CN111737247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010700618.4A CN111737247B (zh) 2020-07-21 2020-07-21 用于数据质量管控的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010700618.4A CN111737247B (zh) 2020-07-21 2020-07-21 用于数据质量管控的实现方法

Publications (2)

Publication Number Publication Date
CN111737247A CN111737247A (zh) 2020-10-02
CN111737247B true CN111737247B (zh) 2020-12-18

Family

ID=72655140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010700618.4A Active CN111737247B (zh) 2020-07-21 2020-07-21 用于数据质量管控的实现方法

Country Status (1)

Country Link
CN (1) CN111737247B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100823A (zh) * 2015-09-01 2015-11-25 京东方科技集团股份有限公司 一种自适应媒体业务的处理方法、装置、编码器及解码器
CN107679676A (zh) * 2017-10-27 2018-02-09 河海大学 一种基于数值模拟的城市低影响开发优化配置方法
CN110083910A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于nsga-ⅱ的混沌时间序列预测样本获取方法
US10429843B1 (en) * 2012-04-24 2019-10-01 Thales Parametrizable automatic piloting system intended for an aircraft

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10429843B1 (en) * 2012-04-24 2019-10-01 Thales Parametrizable automatic piloting system intended for an aircraft
CN105100823A (zh) * 2015-09-01 2015-11-25 京东方科技集团股份有限公司 一种自适应媒体业务的处理方法、装置、编码器及解码器
CN107679676A (zh) * 2017-10-27 2018-02-09 河海大学 一种基于数值模拟的城市低影响开发优化配置方法
CN110083910A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于nsga-ⅱ的混沌时间序列预测样本获取方法

Also Published As

Publication number Publication date
CN111737247A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN110751371B (zh) 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
CN111209274B (zh) 一种数据质量检核方法、系统、设备及可读存储介质
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
CN110941648A (zh) 基于聚类分析的异常数据识别方法、系统和存储介质
CN110728422A (zh) 用于施工项目的建筑信息模型、方法、装置和结算系统
US20180137218A1 (en) Systems and methods for similarity-based information augmentation
CN116932523B (zh) 一种整合和监管第三方环境检测机构的平台
CN113962320A (zh) 地下水监测数据处理方法及装置
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN111767192A (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
CN113806343B (zh) 一种车联网数据质量的评估方法和系统
CN117275644B (zh) 基于深度学习的检测结果互认方法、系统及存储介质
CN111737247B (zh) 用于数据质量管控的实现方法
CN116663978A (zh) 一种用于审计数据的质量评估方法和系统
CN112015792A (zh) 一种物料重码分析方法、装置及计算机存储介质
CN114416686B (zh) 一种车辆设备指纹carid识别系统及识别方法
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN114266483B (zh) 一种基于物联网的危险废物监管系统
CN115494431A (zh) 一种变压器故障告警方法、终端设备和计算机可读存储介质
CN115034580A (zh) 融合数据集的质量评估方法和装置
CN115274121A (zh) 健康医疗数据的管理方法、系统、电子设备及存储介质
Bradley et al. The philosophy of climate science
CN113986970A (zh) 一种基于基线库数据的量费计算结果检测方法
CN113361730A (zh) 一种检修计划的风险预警方法、装置、设备和介质
CN116028648B (zh) 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 311, main building, 139 Fengtai Road crossing, Fengtai District, Beijing

Patentee after: BEIJING TONGTECH Co.,Ltd.

Patentee after: Beijing dongfangtong Software Co.,Ltd.

Patentee after: Beijing Dongfang tongwangxin Technology Co.,Ltd.

Patentee after: BEIJING TESTOR TECHNOLOGY Co.,Ltd.

Address before: Room 311, main building, 139 Fengtai Road crossing, Fengtai District, Beijing

Patentee before: BEIJING TONGTECH Co.,Ltd.

Patentee before: Beijing dongfangtong Software Co.,Ltd.

Patentee before: BEIJING MICROVISION TECHNOLOGY Co.,Ltd.

Patentee before: BEIJING TESTOR TECHNOLOGY Co.,Ltd.