CN116701383A - 一种数据实时质量监测方法、电子设备及存储介质 - Google Patents
一种数据实时质量监测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116701383A CN116701383A CN202310970332.1A CN202310970332A CN116701383A CN 116701383 A CN116701383 A CN 116701383A CN 202310970332 A CN202310970332 A CN 202310970332A CN 116701383 A CN116701383 A CN 116701383A
- Authority
- CN
- China
- Prior art keywords
- field
- data
- type
- preset
- ztk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012544 monitoring process Methods 0.000 title claims abstract description 57
- 230000002159 abnormal effect Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- General Factory Administration (AREA)
Abstract
本发明提供了一种数据实时质量监测方法、电子设备及存储介质,方法包括:获取数据源对应的目标数据表;根据目标数据表,获取字段内容列表集T=(T1,T2,…,Ti,…,Tm);根据Ti,获取第i个字段对应的字段类型Zi;若Zi为第一预设字段类型,则对Ti中的各字段内容进行相同聚类,以得到第一聚类结果ZT;若相同聚类后得到的字段内容组的数量小于枚举项数量阈值,则获取枚举项集MZ;根据MZ生成第i个字段对应的第一数据监测规则Gi,Gi规定来自所述数据源的待监测数据的第i个字段内容需要属于MZ。本发明提供的方法能够自动生成数据监测规则,及时发现异常数据,对数据质量监测的准确性比较高。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种数据实时质量监测方法、电子设备及存储介质。
背景技术
随着民航业的迅速发展,民航智能化运行成为民用航空的现代化发展趋势,其中,对民航数据合理化研究和应用是实现民航智能化运行的重要基础。民航数据来源不同,种类繁多,数据量比较大,运用数据化推动民航高质量发展需要确保民航数据质量。目前对民航数据质量的监测通常是对历史数据进行抽样分析,对于不符合规范的数据处理速度比较慢,准确性比较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:提供一种数据实时质量监测方法、电子设备及存储介质,方法应用于数据处理平台,数据处理平台与数据源连接。
数据实时质量监测方法包括以下步骤:
S100,获取数据源对应的目标数据表;目标数据表中包含n条历史数据,目标数据表包含m个字段。
S200,根据目标数据表,获取字段内容列表集T=(T1,T2,…,Ti,…,Tm);Ti=(Ti,1,Ti,2,…,Ti,j,…,Ti,n);其中,i=1,2,…,m;j=1,2,…,n;Ti为目标数据表的第i个字段对应的字段内容列表;Ti,j为目标数据表中第j条历史数据的第i个字段的字段内容。
S300,根据Ti,获取第i个字段对应的字段类型Zi。
S400,若Zi为第一预设字段类型,则对Ti中的各字段内容进行相同聚类,以得到第一聚类结果ZT=(ZT1,ZT2,…,ZTk,…,ZTs);ZTk=(ZTk1,ZTk2,…,ZTkc,…,ZTkf(k))其中,k=1,2,…,s;c=1,2,…,f(k);ZTk为对Ti进行相同聚类后得到的第k个字段内容组;s为对Ti进行相同聚类得到的字段内容组的数量;ZTkc为ZTk中第c个字段内容,f(k)为ZTk中字段内容的数量;f(k)≥1,s≤n;第一预设字段类型为数值类型或字符类型。
S410,若s<Y,则获取枚举项集MZ=(MZ1,MZ2,…,MZk,…,MZs);其中,Y为枚举项数量阈值;MZk为ZTk对应的枚举项,且MZk与ZTk中任意字段内容相同。
S420,根据MZ生成第i个字段对应的第一数据监测规则Gi;Gi规定来自数据源的待监测数据的第i个字段内容需要属于MZ。
本发明的第二方面,提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的数据实时质量监测方法。
本发明的第三方面,提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质;存储介质用于存储计算机程序,处理器用于执行所述计算机程序,以执行前述的数据实时质量监测方法。
本发明的第二方面,提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的数据实时质量监测方法。
本发明的第三方面,提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质;存储介质用于存储计算机程序,处理器用于执行所述计算机程序,以执行前述的数据实时质量监测方法。
本发明至少具有以下有益效果:
本发明提供的数据实时质量监测方法,基于来自数据源的目标数据表中包含字段的字段类型进行判断,若为第一预设字段类型,则根据每一字段中的字段内容进行相同聚类,获取枚举项集,从而生成每一字段对应的第一数据监测规则。本发明提供的数据实时质量监测方法能够根据历史数据自动生成数据监测规则,以实现对数据的实时监测,能够及时发现异常数据,处理速度比较快,根据每一字段的字段类型和字段内容结合生成规则,对数据质量监测的准确性比较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据实时质量监测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“民航数据”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本发明的实施例提供了一种数据实时质量监测方法,所述数据实时质量监测方法应用于数据处理平台,所述数据处理平台与数据源连接。
在本发明实施例中,所述数据处理平台主要功能是对传输的数据进行监测和校验,可通过可视化页面对监测和校验结果进行展示,并通过报警机制提示数据质量变化情况。
具体的,所述数据源可以为任意提供航空相关数据的数据源。
数据实时质量监测方法包括以下步骤,如图1所示:
S100,获取所述数据源对应的目标数据表;所述目标数据表中包含n条历史数据,所述目标数据表包含m个字段。
S200,根据所述目标数据表,获取字段内容列表集T=(T1,T2,…,Ti,…,Tm);Ti=(Ti,1,Ti,2,…,Ti,j,…,Ti,n);其中,i=1,2,…,m;j=1,2,…,n;Ti为目标数据表的第i个字段对应的字段内容列表;Ti,j为目标数据表中第j条历史数据的第i个字段的字段内容。
在本发明实施例中,所述目标数据表中包含m*n个字段内容,将所述目标数据表划分为m个字段内容列表,每一字段内容列表都包含n个字段内容,目标数据表中一个历史数据可以为一条航空相关数据,如航班数据。一个航班数据中可以包括航班班次、起飞时间、起飞城市、航班状态、飞行时长、飞行里程等数据对应的字段和字段内容。
S300,根据Ti,获取第i个字段对应的字段类型Zi。
具体的,所述步骤S300包括:
S310,根据Ti,获取Ti中的字段内容对应的数据类型Si。
S320,根据Si和预设的字段类型映射表,获取第i个字段对应的字段类型Zi。
在本发明实施例中,数据类型为数据在数据库或计算内部存储时的数据类型,如整型数据类型(int、smallint、tinyint、bigint等)、浮点型数据类型(float、double、decimal、money等)、字符数据类型(char、string、nchar、varchar等)、日期和时间数据类型(date、datetime、smalldatetime、time、year等)。
具体的,所述预设的字段类型映射表包括映射规则:
第一映射规则:整型数据类型(int、smallint、tinyint、bigint等)和浮点型数据类型(float、double、decimal、money等)映射为数值类型。
第二映射规则:字符数据类型(char、string、nchar、varchar等)映射为字符类型。
第三映射规则:日期和时间数据类型(date、datetime、smalldatetime、time、year等)映射为日期时间类型。
S400,若Zi为第一预设字段类型,则对Ti中的各字段内容进行相同聚类,以得到第一聚类结果ZT=(ZT1,ZT2,…,ZTk,…,ZTs);ZTk=(ZTk1,ZTk2,…,ZTkc,…,ZTkf(k))其中,k=1,2,…,s;c=1,2,…,f(k);ZTk为对Ti进行相同聚类后得到的第k个字段内容组;s为对Ti进行相同聚类得到的字段内容组的数量;ZTkc为ZTk中第c个字段内容,f(k)为ZTk中字段内容的数量;f(k)≥1,s≤n;所述第一预设字段类型为数值类型或字符类型。
S410,若s<Y,则获取枚举项集MZ=(MZ1,MZ2,…,MZk,…,MZs);其中,Y为枚举项数量阈值;MZk为ZTk对应的枚举项,且MZk与ZTk中任意字段内容相同。
S420,根据MZ生成第i个字段对应的第一数据监测规则Gi;Gi规定来自所述数据源的待监测数据的第i个字段内容需要属于MZ。
在本发明实施例中,对第i个字段数值类型或字符类型的字段内容进行相同聚类,得到若干类别,每一类别的字段内容相同,若类别数量小于枚举项数量阈值,就可得到对应的枚举项集,从而生成第i个字段对应的第一数据监测规则Gi。
具体的,在本申请一种实施例中,所述枚举项数量阈值Y=α*n,其中0.01≤α≤0.25,优选的,α=0.1。
具体的,在另一种实施例中,枚举项数量阈值Y∈[3,8],优选的,Y=5。
进一步的,本领域技术人员知晓,现有技术中任一能够将相同的内容聚类为一类的聚类方法,均落入本发明的保护范围,在此不再赘述。
进一步的,在所述步骤S400后,所述方法还包括:
S430,若s≥Y,且Zi为数值类型,则执行步骤S431。
在本发明实施例中,若类别数量不小于预设枚举项数量阈值,无法生成枚举项。
S431,根据v个依次连接的时间窗口对Ti进行处理,得到第一中间字段内容列表集Hi=(Hi,1,Hi,2,…,Hi,x,…,Hi,v),Hi,x=(Hi,x 1,Hi,x 2,…,Hi,x b,…,Hi,x w(x));其中,若干时间窗口的窗口长度相同,Hi,x为第x个时间窗口对应的第一中间字段内容组,Hi,x b为对应的数据产生时间处于第x个时间窗口内的第b个第一中间字段内容;w(x)为对应的数据产生时间处于第x个时间窗口内第一中间字段内容的数量。
在本发明实施例中,Ti中的各字段内容按对应的历史数据的数据产生时间依次排列,根据v个依次连接的时间窗口对Ti进行处理,每一时间窗口内包含若干字段内容。
具体地,本领域技术人员可根据实际需求设置所述依次连接的时间窗口的窗口长度以及数量,在此不再赘述。
S432,根据Hi,获取特征列表集L=(L1,L2,…,Lz,…,L5);Lz=(Lz1,Lz2,…,Lzx,…,Lzv);其中,Lz为第z预设特征对应的特征值列表;Lzx为根据Hi,x获取的第x个时间窗口对应的第z特征值。
在本发明实施例中,以五种预设特征表示数据,获取v个预设特征列表,每一时间窗口均获取五种预设特征;v为依次连接的时间窗口的数量,也就是第z预设特征对应的特征列表中第z特征值的数量。
S433,基于IQR方法对Lz中异常数据进行异常数据滤除处理,得到Lz’=(Lz’1,Lz’2,…,Lz’c,…,Lz’e(z));其中,e(z)为进行异常数据滤除处理后第z特征值的数量,Lzc为Lz’中的第c个第z特征值;c=1,2,…,e(z),e(z)<v。
在本发明实施例中,所述目标数据表中数值类型的民航数据符合正态分布,根据IQR方法,将Lz中的数据按照从小到大的顺序进行排列,并等分为四份,IQR为上四分位数Q3与下四分位数Q1之差,期间包含了全部观察值的一半,即IQR=Q3-Q1,在特征值范围[Q1-γ*IQR,Q3+γ*IQR]以外的数据判断为异常数据被滤除,得到Lz’;其中,γ的取值范围为[1,5],优选的,γ=3,γ可在实际操作过程中进行调整。
S434,根据Lz’获取数值监测阈值范围Ez=[ES(z),EB(z)],生成第i个字段对应的第三数据监测规则Viz;其中,ES(z)=min(Lz’),EB(z)=max(Lz’);min()为预设的最小值确定函数;Viz规定来自所述数据源的待监测数据的第i个字段的第z特征值需要属于所述数值监测阈值范围Ez。
在本发明实施例中,滤除异常值后的数据均符合实际要求,可得到数值监测阈值上下限,获取数值监测阈值范围,从而生成第i个字段对应的第三数据监测规则Viz。
具体的,在所述步骤S400后,所述方法还包括:
S440,若s≥Y,且Zi为字符类型,则执行步骤S441。
S441,根据Ti,获取目标数据表中第i个字段的字段长度列表Ai=(Ai,1,Ai,2,…,Ai,j,…,Ai,n);其中,Ai,j目标数据表中第j条历史数据的第i个字段的字段内容的字段长度。
S442,基于IQR方法,对Ai中异常数据进行异常数据滤除处理,得到Ai’。
在本发明实施例中,所述目标数据表中字符类型数据的字段长度符合正态分布,将Ai中的字段长度按照从小到大的顺序进行排列,根据所述IQR方法,在字段长度范围[Q1-ε*IQR,Q3+ε*IQR]以外的数据判断为异常数据被滤除;其中,ε的取值范围为[1,5],优选的,ε=3,ε可在实际操作过程中进行调整。
S443,根据Ai’,获取关键字段内容列表Ti’;Ti’中包含Ai’中每一字段长度对应的字段内容。
S444,基于预设字符类型集对Ti’中的字段内容进行聚类,以得到第三聚类结果WT=(WT1,WT2,…,WTa,…,WTu);WTa=(WTa1,WTa2,…,WTat,…,WTay(a))其中,a=1,2,…,u;t=1,2,…,y(a);预设字符类型集中包括u个预设字符类型;WTa为对Ti’进行聚类后得到的第a个预设字符类型对应的第a个第二中间字段内容组;WTat为WTa中第t个第二中间字段内容,y(a)为WTa中第二中间字段内容的数量;y(a)≥0;同一第二中间字段内容组内的任意两个字段内容对应的字符类型均相同。
在本发明实施例中,所述预设字符类型包括包含纯数字(0-9)、包含纯字母(A-Z/a-z)、包含数字和字母(0-9/A-Z/a-z)、只包含特殊字符,除此之外的均为其他类型。
S445,根据WT,将目标第二中间字段内容的数量p对应的第二中间字段内容组WTG确定为目标第二中间字段内容组;其中,p=max(y(1),y(2),…,y(a),…,y(u))。
S446,若p>P,将WTG中字段内容的字符类型表达式与目标字符结合生成正则表达式R,其中,P为预设阈值。
S447,根据R生成第i个字段对应的第四数据监测规则Yi;Yi规定来自所述数据源的待监测数据的第i个字段内容包含字符类型与R相符合。
在本发明实施例中,目标字符为所述目标数据表中第i个字段中出现次数最多的特殊字符。
具体的,预设阈值P的取值范围为[0.8,1],优选的,P=0.9。
进一步的,在所述步骤S300后,所述方法还包括:
S500,若Zi为第二预设字段类型,获取日期格式列表Fi=(Fi,1,Fi,2,…,Fi,j,…,Fi,n);其中,Fi,j为数据表中第j条历史数据的第i个字段的字段内容的日期格式;所述第二预设字段类型为日期时间类型。
S510,对Fi中的各日期格式进行相同聚类,以得到第二聚类结果LT=(LT1,LT2,…,LTg,…,LTr);LTg=(LTg1,LTg2,…,LTgd,…,LTgh(g));其中,g=1,2,…,r;d=1,2,…,h(g);LTg为对Fi进行相同聚类后得到的第g个日期格式组;r为对Fi进行相同聚类后得到的日期格式组的数量;LTgd为LTg中第d个日期格式,h(g)为LTg中日期格式的数量;h(g)≥1,r≤n;同一日期格式组内的任意两个日期格式均相同。
S520,根据LT,将目标日期格式数量q对应的日期格式组确定为目标日期格式组LTG;其中q=max(h(1),h(2),…,h(g),…,h(r));max()为预设的最大值确定函数。
S530,若q>Q,则根据LTG中日期格式生成第i个字段对应的第二数据监测规则Di;其中,Q为第一预设数量阈值;Di规定来自所述数据源的待监测数据的第i个字段内字段内容对应的日期格式需要与LTG中日期格式相同。
在本发明实施例中,对日期时间类型的字段内容对应的日期格式进行相同聚类,得到若干类别,每一类别的字段内容对应的日期格式均相同,例如:年/月、年/月/日、年/月/日/时/分等格式,若相同聚类后目标日期格式数量大于预设数量阈值,则生成第i个字段对应的第二数据监测规则Di。
具体的,所述预设数量阈值Q=β*n,其中0.8≤β≤1,优选的,β=0.99。
本发明提供的数据实时质量监测方法,会基于来自数据源的目标数据表中包含字段的字段类型进行判断,若为数值类型或者字符类型,则根据每一字段中的字段内容进行相同聚类,获取枚举项集,从而生成每一字段对应的数据监测规则。本发明提供的数据实时质量监测方法能够根据历史数据自动生成数据监测规则,以实现对数据进行实时监测,能够及时发现异常数据,处理速度比较快,根据每一字段的字段类型和字段内容结合生成规则,对数据质量监测的准确性比较高。
在本发明实施例中,本领域技术人员知晓,所述方法的执行步骤可以自然地根据说明顺序按照时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或者彼此独立地执行,例如,S400、S500两个步骤分别为S300之后的两个独立的判断条件,S410、S430及S440三个步骤分别为S400之后的三个独立的判断条件,其在实际应用中并无前后顺序限定,可以分别独立执行,并并行执行。对本领域技术人员而言,能够理解本发明的全部或者任何步骤,可以在任何电子设备(包括处理器、存储介质等)中,以任何形式加以实现,这是本领域技术人员在阅读本发明的说明情况下运用他们的基本编程技能就能实现的。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供数据实时质量监测方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的数据实时质量监测方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种数据实时质量监测方法,其特征在于,所述数据实时质量监测方法应用于数据处理平台,所述数据处理平台与数据源连接;所述方法包括以下步骤:
S100,获取所述数据源对应的目标数据表;所述目标数据表中包含n条历史数据,所述目标数据表包含m个字段;
S200,根据所述目标数据表,获取字段内容列表集T=(T1,T2,…,Ti,…,Tm);Ti=(Ti,1,Ti,2,…,Ti,j,…,Ti,n);其中,i=1,2,…,m;j=1,2,…,n;Ti为目标数据表的第i个字段对应的字段内容列表;Ti,j为目标数据表中第j条历史数据的第i个字段的字段内容;
S300,根据Ti,获取第i个字段对应的字段类型Zi;
S400,若Zi为第一预设字段类型,则对Ti中的各字段内容进行相同聚类,以得到第一聚类结果ZT=(ZT1,ZT2,…,ZTk,…,ZTs);ZTk=(ZTk1,ZTk2,…,ZTkc,…,ZTkf(k))其中,k=1,2,…,s;c=1,2,…,f(k);ZTk为对Ti进行相同聚类后得到的第k个字段内容组;s为对Ti进行相同聚类得到的字段内容组的数量;ZTkc为ZTk中第c个字段内容,f(k)为ZTk中字段内容的数量;f(k)≥1,s≤n;所述第一预设字段类型为数值类型或字符类型;
S410,若s<Y,则获取枚举项集MZ=(MZ1,MZ2,…,MZk,…,MZs);其中,Y为枚举项数量阈值;MZk为ZTk对应的枚举项,且MZk与ZTk中任意字段内容相同;
S420,根据MZ生成第i个字段对应的第一数据监测规则Gi;Gi规定来自所述数据源的待监测数据的第i个字段对应的字段内容需要属于MZ。
2.根据权利要求1所述的数据实时质量监测方法,其特征在于,所述步骤S300具体包括:
S310,根据Ti,获取Ti中的字段内容对应的数据类型Si;
S320,根据Si和预设的字段类型映射表,获取第i个字段对应的字段类型Zi。
3.根据权利要求1所述的数据实时质量监测方法,其特征在于,在所述步骤S300后,所述方法还包括:
S500,若Zi为第二预设字段类型,获取日期格式列表Fi=(Fi,1,Fi,2,…,Fi,j,…,Fi,n);其中,Fi,j为数据表中第j条历史数据的第i个字段的字段内容的日期格式;所述第二预设字段类型为日期时间类型;
S510,对Fi中的各日期格式进行相同聚类,以得到第二聚类结果LT=(LT1,LT2,…,LTg,…,LTr);LTg=(LTg1,LTg2,…,LTgd,…,LTgh(g));其中,g=1,2,…,r;d=1,2,…,h(g);LTg为对Fi进行相同聚类后得到的第g个日期格式组;r为对Fi进行相同聚类后得到的日期格式组的数量;LTgd为LTg中第d个日期格式,h(g)为LTg中日期格式的数量;h(g)≥1,r≤n;同一日期格式组内的任意两个日期格式均相同;
S520,根据LT,将目标日期格式数量q对应的日期格式组确定为目标日期格式组LTG;其中,q=max(h(1),h(2),…,h(g),…,h(r));max()为预设的最大值确定函数;
S530,若q>Q,则根据LTG中日期格式生成第i个字段对应的第二数据监测规则Di;其中,Q为第一预设数量阈值;Di规定来自所述数据源的待监测数据的第i个字段内字段内容对应的日期格式需要与LTG中日期格式相同。
4.根据权利要求1所述的数据实时质量监测方法,其特征在于,Ti中的各字段内容按对应的历史数据的数据产生时间依次排列;
在所述步骤S400后,所述方法还包括:
S430,若s≥Y,且Zi为数值类型,则执行步骤S431;
S431,根据v个依次连接的时间窗口对Ti进行处理,得到第一中间字段内容列表集Hi=(Hi,1,Hi,2,…,Hi,x,…,Hi,v),Hi,x=(Hi,x 1,Hi,x 2,…,Hi,x b,…,Hi,x w(x));其中,x=1,2,…v;b=1,2,…,w(x);若干时间窗口的窗口长度相同,Hi,x为第x个时间窗口对应的第一中间字段内容列表,x=1,2,…,v;Hi,x b为对应的数据产生时间处于第x个时间窗口内的第b个第一中间字段内容,b=1,2,…,w(x),w(x)为对应的数据产生时间处于第x个时间窗口内第一中间字段内容的数量;
S432,根据Hi,获取特征列表集L=(L1,L2,…,Lz,…,L5);Lz=(Lz1,Lz2,…,Lzx,…,Lzv);其中,Lz为第z预设特征对应的特征值列表;Lzx为根据Hi,x获取的第x个时间窗口对应的第z特征值;z=1,2,…,5;
S433,基于IQR方法对Lz中异常数据进行异常数据滤除处理,得到Lz’=(Lz’1,Lz’2,…,Lz’c,…,Lz’e(z));其中,e(z)为进行异常数据滤除处理后第z特征值的数量,Lzc为Lz’中的第c个第z特征值;c=1,2,…,e(z),e(z)<v;
S434,根据Lz’获取数值监测阈值范围Ez=[ES(z),EB(z)],生成第i个字段对应的第三数据监测规则Viz;其中,ES(z)=min(Lz’),EB(z)=max(Lz’);min()为预设的最小值确定函数;Viz规定来自所述数据源的待监测数据第i个字段的第z特征值需要属于所述数值监测阈值范围Ez。
5.根据权利要求1所述的数据实时质量监测方法,其特征在于,在所述步骤S400后,所述方法还包括:
S440,若s≥Y,且Zi为字符类型,则执行步骤S441;
S441,根据Ti,获取目标数据表中第i个字段的字段长度列表Ai=(Ai,1,Ai,2,…,Ai,j,…,Ai,n);其中,Ai,j目标数据表中第j条历史数据的第i个字段的字段内容的字段长度;
S442,基于IQR方法对Ai中异常数据进行异常数据滤除处理,得到Ai’;
S443,根据Ai’,获取关键字段内容列表Ti’;Ti’中包含Ai’中每一字段长度对应的字段内容;
S444,基于预设字符类型集对Ti’中的字段内容进行聚类,以得到第三聚类结果WT=(WT1,WT2,…,WTa,…,WTu);WTa=(WTa1,WTa2,…,WTat,…,WTay(a))其中,a=1,2,…,u;t=1,2,…,y(a);预设字符类型集中包括u个预设字符类型;WTa为对Ti’进行聚类后得到的第a个预设字符类型对应的第a个第二中间字段内容组;WTat为WTa中第t个第二中间字段内容,y(a)为WTa中第二中间字段内容的数量;y(a)≥0;同一第二中间字段内容组内的任意两个字段内容对应的字符类型均相同;
S445,根据WT,将目标第二中间字段内容的数量p对应的第二中间字段内容组WTG确定为目标第二中间字段内容组;其中,p=max(y(1),y(2),…,y(a),…,y(u));
S446,若p>P,将WTG中字段内容的字符表达式与目标字符结合生成正则表达式R;其中,P为第二预设数量阈值;
S447,根据R生成第i个字段对应的第四数据监测规则Yi;其中,Yi规定来自所述数据源的待监测数据的第i个字段内容包含字符的字符类型与R相符合。
6.根据权利要求4所述的数据实时质量监测方法,其特征在于,第一预设特征为最大值;第二预设特征为最小值;第三预设特征为平均值;第四预设特征为数据量;第五预设特征为空值率。
7.根据权利要求5所述的数据实时质量监测方法,其特征在于,所述预设字符类型包括包含纯数字类型、包含纯字母类型、包含数字和字母类型、只包含特殊字符类型、其他类型。
8.根据权利要求5所述的数据实时质量监测方法,其特征在于,所述目标字符为所述目标数据表中第i个字段中出现次数最多的特殊字符。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述数据实时质量监测方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质;所述存储介质用于存储计算机程序,所述处理器用于执行所述计算机程序,以执行权利要求1-8中任一项所述的数据实时质量监测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310970332.1A CN116701383B (zh) | 2023-08-03 | 2023-08-03 | 一种数据实时质量监测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310970332.1A CN116701383B (zh) | 2023-08-03 | 2023-08-03 | 一种数据实时质量监测方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701383A true CN116701383A (zh) | 2023-09-05 |
CN116701383B CN116701383B (zh) | 2023-10-27 |
Family
ID=87832482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310970332.1A Active CN116701383B (zh) | 2023-08-03 | 2023-08-03 | 一种数据实时质量监测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701383B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118069660A (zh) * | 2024-04-22 | 2024-05-24 | 中航信移动科技有限公司 | 一种多数据源的数据归一化方法、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248641A1 (en) * | 2008-03-25 | 2009-10-01 | Ning Duan | Method and apparatus for detecting anomalistic data record |
CN102339288A (zh) * | 2010-07-21 | 2012-02-01 | 中国移动通信集团辽宁有限公司 | 数据仓库异常数据的检测方法及装置 |
CN108320810A (zh) * | 2018-04-11 | 2018-07-24 | 平安科技(深圳)有限公司 | 疾病异常数据检测方法及装置、计算机装置及存储介质 |
CN109656812A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 数据质量检测方法、装置及存储介质 |
CN112052138A (zh) * | 2020-08-31 | 2020-12-08 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN112650762A (zh) * | 2021-03-15 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 数据质量监控的方法、装置、电子设备以及存储介质 |
CN113657548A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 医保异常检测方法、装置、计算机设备及存储介质 |
CN115237712A (zh) * | 2022-07-21 | 2022-10-25 | 江苏银承网络科技股份有限公司 | 一种数据质量监控方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-03 CN CN202310970332.1A patent/CN116701383B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090248641A1 (en) * | 2008-03-25 | 2009-10-01 | Ning Duan | Method and apparatus for detecting anomalistic data record |
CN102339288A (zh) * | 2010-07-21 | 2012-02-01 | 中国移动通信集团辽宁有限公司 | 数据仓库异常数据的检测方法及装置 |
CN108320810A (zh) * | 2018-04-11 | 2018-07-24 | 平安科技(深圳)有限公司 | 疾病异常数据检测方法及装置、计算机装置及存储介质 |
CN109656812A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 数据质量检测方法、装置及存储介质 |
CN112052138A (zh) * | 2020-08-31 | 2020-12-08 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN112650762A (zh) * | 2021-03-15 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 数据质量监控的方法、装置、电子设备以及存储介质 |
CN113657548A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 医保异常检测方法、装置、计算机设备及存储介质 |
CN115237712A (zh) * | 2022-07-21 | 2022-10-25 | 江苏银承网络科技股份有限公司 | 一种数据质量监控方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118069660A (zh) * | 2024-04-22 | 2024-05-24 | 中航信移动科技有限公司 | 一种多数据源的数据归一化方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116701383B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Scrucca | qcc: an R package for quality control charting and statistical process control | |
CN116701383B (zh) | 一种数据实时质量监测方法、电子设备及存储介质 | |
Li et al. | Semantic integration in heterogeneous databases using neural networks | |
JP2003529814A (ja) | データ整理のための方法及びシステム | |
CN109840671A (zh) | 运行改进效果计算设备、运行改进效果计算方法和记录介质 | |
Anstey et al. | Biometric procedures in taxonomic studies of Paleozoic bryozoans | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN115865777A (zh) | 一种基于rpa技术的招聘订单智能分发路由方法 | |
CN116578612A (zh) | 锂电池成品检测数据资产构建方法 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
US7627597B2 (en) | Usage-based optimization of network traffic and data warehouse size | |
Liu et al. | Application of master data classification model in enterprises | |
CN114021644A (zh) | 一种基于K-means和去丛聚法的区域代表性地下水位计算方法 | |
CN113159419A (zh) | 一种群体特征画像分析方法、装置、设备及可读存储介质 | |
JP2954949B2 (ja) | 文書検索装置 | |
CN115952853B (zh) | 矿浆密度检测模型构建方法、装置及矿浆密度检测系统 | |
Singh | Coding, Ranking and Optimum selection of Nanomaterials | |
WO2007126320B1 (en) | Content management system | |
Al Junaibi et al. | Evaluating skills dimensions: Case study on occupational changes in the UAE | |
WO2021059460A1 (ja) | エンジニアリングツール、学習装置、およびデータ収集システム | |
CN117271784A (zh) | 一种结构化数据的建模方法、建模系统及管理方法 | |
Tri Basuki et al. | Classification Algorithms to Determine Students’ Specialization in a Higher Education Institution | |
CN117807997A (zh) | 人名消岐方法、装置、设备及介质 | |
CN113256939A (zh) | 一种作业人员疲劳检测模型和疲劳检测方法 | |
CN102930074B (zh) | 特征二元约束关系的自动挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |