CN116910496B - 数据质量监测规则的配置方法、设备及可读存储介质 - Google Patents
数据质量监测规则的配置方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116910496B CN116910496B CN202311183338.0A CN202311183338A CN116910496B CN 116910496 B CN116910496 B CN 116910496B CN 202311183338 A CN202311183338 A CN 202311183338A CN 116910496 B CN116910496 B CN 116910496B
- Authority
- CN
- China
- Prior art keywords
- field
- candidate
- data
- quality monitoring
- frequency vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 86
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据质量监测规则的配置方法、设备及可读存储介质,属于数据处理技术领域。本申请通过当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表;基于所述数据表中各个输入字段的数据值类型和数据长度,召回候选字段,所述候选字段具有匹配的历史数据质量监测规则;计算所述输入字段与对应的所述候选字段的相似指数;确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合。实现了在大量表和字段的监测需求下,能够减少用户手工配置规则的时间,提高监测效率,并减少人工干预和错误,提高匹配的准确性和效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及数据质量监测规则的配置方法、设备及可读存储介质。
背景技术
现有的数据质量监测平台,质量监测规则配置的实施路线主要有2种:(1)对于具有数据标准的字段:系统对已定义数据标准的字段自动生成质量作业与质量监测规则,监测运行,得到监测结果。(2)对于大部分未有数据标准的字段:人工根据业务经验定义表/字段的质量监测规则,人工创建质量作业,选取表/字段的规则模板,监测运行,得到监测结果。以上两种实施路线都需要人工事先制定数据标准,或基于业务需求梳理质量监测规则。
在大量表和大量字段的质量监测需求下,配置质量监测规则会耗费较多时间,导致数据质量监测不及时。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种数据质量监测规则的配置方法、设备及可读存储介质,旨在解决在大量表和大量字段的质量监测需求下,当前配置质量监测规则的实施方式会耗费较多时间,导致数据质量监测不及时的技术问题。
为实现上述目的,本申请提供一种数据质量监测规则的配置方法,所述数据质量监测规则的配置方法包括以下步骤:
当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表;
基于所述数据表中各个输入字段的数据值类型和数据长度,召回候选字段,所述候选字段具有匹配的历史数据质量监测规则;
计算所述输入字段与对应的所述候选字段的相似指数;
确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合。
可选地,所述计算所述输入字段与对应的所述候选字段的相似指数的步骤包括:
获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量;
基于所述输入字段名词频向量、所述输入字段中文名词频向量、所述输入字段数据值词频向量、所述候选字段名词频向量、所述候选字段中文名词频向量和所述候选字段数据值词频向量,确定所述输入字段与对应的所述候选字段的字段名余弦相似度、字段中文名余弦相似度和数据值余弦相似度;
基于所述字段名余弦相似度、所述字段中文名余弦相似度和所述数据值余弦相似度,得到所述输入字段与对应的所述候选字段的相似指数。
可选地,所述获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量的步骤之前包括:
对输入字段名、输入字段中文名、候选字段名和候选字段中文名进行分词,得到输入字段名分词、输入字段中文名分词、候选字段名分词和候选字段中文分词;
基于所述输入字段名分词和所述候选字段名分词确定字段名总类;以及
基于所述输入字段中文名分词和所述候选字段中文分词确定字段中文名总类;
基于所述字段名总类,确定输入字段名词频和候选字段名词频;以及
基于所述字段中文名总类,确定输入字段中文名词频和候选字段中文名词频;
基于所述输入字段名词频、所述候选字段名词频、所述输入字段中文名词频和所述候选字段中文名词频,确定所述输入字段名词频向量、所述输入字段中文名词频向量、所述候选字段名词频向量和所述候选字段中文名词频向量。
可选地,所述获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量的步骤之前还包括:
分别判断所述输入字段和对应的所述候选字段的数据值数量是否小于预设数量;
若所述输入字段的所述数据值数量小于所述预设数量,则对出现频率顺序所述预设数量的输入字段数据值进行分词;
若所述候选字段的所述数据值数量小于所述预设数量,则对出现频率顺序所述预设数量的候选字段数据值进行分词。
可选地,所述基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合的步骤包括:
若所述匹配字段的数量等于一,则基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合;
若所述匹配字段大于一,则确定各个所述匹配字段关联的所述历史数据质量监测规则的交集;
基于所述交集,输出推荐数据质量监测规则集合。
可选地,所述当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表的步骤之后还包括:
将所述数据表中各个输入字段中文名与规则库的规则模板名进行模糊匹配,确定第一推荐规则集合;以及
将所述数据表中各个数据值类型与规则库的数据格式校验规则模板进行匹配,确定第二推荐规则集合;
基于所述第一推荐规则集合和所述第二推荐规则集合,确定初始数据质量监测规则集合。
可选地,所述基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合的步骤包括:
基于所述匹配字段关联的所述历史数据质量监测规则,确定推荐数据质量监测规则集合;
确定所述初始数据质量监测规则集合和所述推荐数据质量监测规则集合的并集;
基于所述并集,输出综合数据质量监测规则集合。
此外,为实现上述目的,本申请还提供一种数据质量监测规则的配置设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量监测规则的配置程序,所述数据质量监测规则的配置程序配置为实现上述的数据质量监测规则的配置方法的步骤。
此外,为实现上述目的,本申请还提供一种可读存储介质,所述可读存储介质上存储有数据质量监测规则的配置程序,所述数据质量监测规则的配置程序被处理器执行时实现上述的数据质量监测规则的配置方法的步骤。
在本申请中,为了解决在大量表和大量字段的质量监测需求下,当前配置质量监测规则的实施方式会耗费较多时间,导致数据质量监测不及时的技术问题,本申请通过当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表;基于所述数据表中各个输入字段的数据值类型和数据长度,召回候选字段,所述候选字段具有匹配的历史数据质量监测规则;计算所述输入字段与对应的所述候选字段的相似指数;确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合。实现了在大量表和字段的监测需求下,能够减少用户手工配置规则的时间,提高监测效率,并减少人工干预和错误,提高匹配的准确性和效率。
附图说明
图1为现有技术中的数据质量监测规则的配置方法的流程图;
图2为本申请数据质量监测规则的配置方法第一实施例的流程示意图;
图3为本申请数据质量监测规则的配置方法第一实施例中推荐数据质量监测规则集合的功能界面示意图;
图4为本申请数据质量监测规则的配置方法第二实施例的流程示意图;
图5为本申请实施例方案涉及的硬件运行环境的数据质量监测规则的配置设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
现有的数据质量监测平台,质量监测规则配置的实施路线主要有2种,参照图1,图1为现有技术中的数据质量监测规则的配置方法的流程图。分别是:(1)对于具有数据标准的字段:系统对已定义数据标准的字段自动生成质量作业与质量监测规则,监测运行,得到监测结果。(2)对于大部分未有数据标准的字段:人工根据业务经验定义表/字段的质量监测规则,人工创建质量作业,选取表/字段的规则模板,监测运行,得到监测结果。以上两种实施路线都需要人工事先制定数据标准,或基于业务需求梳理质量监测规则。
在大量表和大量字段的质量监测需求下,配置质量监测规则会耗费较多时间,导致数据质量监测不及时。为了解决上述问题,本申请通过当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表;基于所述数据表中各个输入字段的数据值类型和数据长度,召回候选字段,所述候选字段具有匹配的历史数据质量监测规则;计算所述输入字段与对应的所述候选字段的相似指数;确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合。实现了在大量表和字段的监测需求下,能够减少用户手工配置规则的时间,提高监测效率,并减少人工干预和错误,提高匹配的准确性和效率。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种数据质量监测规则的配置方法,参照图2,图2为本申请一种数据质量监测规则的配置方法第一实施例的流程示意图。
本实施例中,所述数据质量监测规则的配置方法包括:
步骤S10:当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表;
步骤S20:基于所述数据表中各个输入字段的数据值类型和数据长度,召回候选字段,所述候选字段具有匹配的历史数据质量监测规则;
在本实施例中,当用户对新接入的数据表创建质量作业时,数据质量检测平台根据数据表中各个输入字段的数据值类型和数据长度等规则召回候选字段,其中,所述候选字段具有匹配的历史数据质量监测规则。
可选地,数据值类型规则包括:输入字段与候选字段的数据值类型相同,所述数据值类型包括文本、整数和小数等。
可选地,数据长度类型规则包括:输入字段与候选字段的数据长度均固定且相等或数据长度均不固定。
可选地,作为一种召回候选字段的实施方式是采用ES(Elasticsearch)——一个分布式、高扩展、高实时的搜索与数据分析引擎,支持大量数据搜索、分析和探索。
可选地,作为另一种召回候选字段的实施方式是在开发层面,通过代码的方式实现。
步骤S30:计算所述输入字段与对应的所述候选字段的相似指数;
进一步地,所述步骤S30包括:
步骤S31:获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量;
可选地,对输入字段名、输入字段中文名、候选字段名和候选字段中文名进行分词,得到输入字段名分词、输入字段中文名分词、候选字段名分词和候选字段中文分词。
例如,输入字段名与字段中文名分别tf_num、突发事件数量,候选字段为yj_num,预警事件数量。则输入字段名分词为:t,f,_,num;候选字段名分词为:y,j,_,num;输入字段中文名分词为:突发,事件,数量;候选字段中文名分词为:预警,事件,数量。
进一步地,基于所述输入字段名分词和所述候选字段名分词确定字段名总类;以及基于所述输入字段中文名分词和所述候选字段中文分词确定字段中文名总类。
例如,字段名总类包括:t,f,y,j,_,num;字段中文名总类包括:突发,预警,事件,数量。
进一步地,基于所述字段名总类,确定输入字段名词频和候选字段名词频;以及基于所述字段中文名总类,确定输入字段中文名词频和候选字段中文名词频。
例如,输入字段名词频为:t1,f1,y0,j0,_1,num1。
候选字段名词频为:t0,f0,y1,j1,_1,num1。
输入字段中文名词频为:突发1,预警0,事件1,数量1。
候选字段中文名词频为:突发0,预警1,事件1,数量1。
进一步地,基于所述输入字段名词频、所述候选字段名词频、所述输入字段中文名词频和所述候选字段中文名词频,确定所述输入字段名词频向量、所述输入字段中文名词频向量、所述候选字段名词频向量和所述候选字段中文名词频向量。
例如:输入字段名词频向量为:(1,1,0,0,1,1);候选字段名词频向量为:(0,0,1,1,1,1);输入字段中文名词频向量为:(1,0,1,1);候选字段中文名词频向量为:(0,1,1,1)。
可选地,分别判断所述输入字段和对应的所述候选字段的数据值数量是否小于预设数量;当字段的数据值可以有穷枚举,且小于预设数量,例如30条,直接对字段进行分词。当数据值枚举值在预设数量及以上,例如30条以上,则取出现频率最高的30个数据值进行分词。分词后参照上述过程汇总分词,计算词频,最终获取到词频向量输入字段数据值词频向量和候选字段数据值词频向量。
步骤S32:基于所述输入字段名词频向量、所述输入字段中文名词频向量、所述输入字段数据值词频向量、所述候选字段名词频向量、所述候选字段中文名词频向量和所述候选字段数据值词频向量,确定所述输入字段与对应的所述候选字段的字段名余弦相似度、字段中文名余弦相似度和数据值余弦相似度;
步骤S33:基于所述字段名余弦相似度、所述字段中文名余弦相似度和所述数据值余弦相似度,得到所述输入字段与对应的所述候选字段的相似指数。
可选地,假设q为输入字段的向量,v为候选字段的向量。依次计算字段名、字段中文名、数据值的余弦相似度,并求和平均得到字段的最终相似指数。
具体地,字段名余弦相似度:
字段中文名余弦相似度:
数据值余弦相似度:
其中,i表示输入字段和候选字段的字段名的词频向量,j表示输入字段和候选字段的字段中文名的词频向量,m表示输入字段和候选字段的数据值的词频向量。
可选地,作为另一种相似指数的计算方式包括:欧几里得距离,衡量的是多维空间中两个点之间的绝对距离,公式如下:
可选地,作为另一种相似指数的计算方式还包括:皮尔顿相关系数,一般用于计算两个定距变量间联系的紧密程度,公式如下:
在高维的情况下,如果两个文本的相似度的长度差距很大,但内容相近,如果使用词频或词向量作为特征,他们在特征空间中的欧式距离通常很大;如果使用余弦相似度,他们的夹角可能很小,因而相似度高。而皮尔逊相关系数适用于两个变量之间是线性关系且为连续数据等情况。相比之下,用余弦值计算字段相似度,更多的是从方向上区分差异,而对绝对的数值不敏感,更适用本文的应用场景。
步骤S40:确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合。
可选地,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。按照从大到小降序排列,截取大于预设阈值的候选字段作为匹配字段。若所述匹配字段的数量等于一,则基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合,若所述匹配字段大于一,则确定各个所述匹配字段关联的所述历史数据质量监测规则的交集,并基于所述交集,输出推荐数据质量监测规则集合。参照图3,图3为本申请数据质量监测规则的配置方法第一实施例中推荐数据质量监测规则集合的功能界面示意图。在此界面中,用户只需浏览确认应用,即可一键完成质量监测规则的配置。
在本实施例中,通过当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表;基于所述数据表中各个输入字段的数据值类型和数据长度,召回候选字段,所述候选字段具有匹配的历史数据质量监测规则;计算所述输入字段与对应的所述候选字段的相似指数;确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合。实现了在大量表和字段的监测需求下,能够减少用户手工配置规则的时间,提高监测效率,并减少人工干预和错误,提高匹配的准确性和效率。
进一步地,参照图4,图4为本申请数据质量监测规则的配置方法第二实施例的流程示意图,提供本申请的第二实施例,所述步骤S10之后还包括:
步骤S11:将所述数据表中各个输入字段中文名与规则库的规则模板名进行模糊匹配,确定第一推荐规则集合;以及
步骤S12:将所述数据表中各个数据值类型与规则库的数据格式校验规则模板进行匹配,确定第二推荐规则集合;
步骤S13:基于所述第一推荐规则集合和所述第二推荐规则集合,确定初始数据质量监测规则集合。
在本实施例中,由于数据表中输入字段并不都是标准的字段格式,可能会缺少一些必要的特征,为了给尽可能多的推荐数据质量监测规则,本申请通过输入字段的中文名与规则库的规则模板名进行模糊匹配,如字段名为身份证件号,规则模板为身份证格式校验。以及通过字段数据类型与规则库的数据格式校验规则模板进行匹配,如数据类型为时间戳,则匹配时间戳规则模板。
本实施例的技术方案能够适应不同的数据表和规则库,满足不同业务需求和数据质量管理要求。
进一步地,在本实施例中,所述步骤S40包括:
步骤S41:基于所述匹配字段关联的所述历史数据质量监测规则,确定推荐数据质量监测规则集合;
步骤S42:确定所述初始数据质量监测规则集合和所述推荐数据质量监测规则集合的并集;
步骤S43:基于所述并集,输出综合数据质量监测规则集合。
在本实施例中,对所述初始数据质量监测规则集合和所述推荐数据质量监测规则集合取并集,重复部分去重后,作为输入字段最终推荐的综合数据质量监测规则集合。
在本实施例中,通过将初始数据质量监测规则集合和推荐数据质量监测规则集合的并集作为综合数据质量监测规则集合,可以确保包含了所有可能的数据质量监测规则。这样可以提高数据质量管理的全面性,涵盖更多的数据质量问题和异常情况。为用户提供更准确、更全面的数据质量监测规则,帮助用户更好地管理和控制数据质量。
此外,本申请实施例还提出一种数据质量监测规则的配置设备。
参照图5,图5为本申请实施例方案涉及的硬件运行环境的数据质量监测规则的配置设备结构示意图。
如图5所示,该数据质量监测规则的配置设备可以包括:处理器1001,例如中央处理器(CentralProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccessMemory,RAM)存储器,也可以是稳定的非易失性存储器(Non-VolatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图5中示出的结构并不构成对数据质量监测规则的配置设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种可读存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及数据质量监测规则的配置程序。
在图5所示的数据质量监测规则的配置设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请数据质量监测规则的配置设备中的处理器1001、存储器1005可以设置在数据质量监测规则的配置设备中,所述数据质量监测规则的配置设备通过处理器1001调用存储器1005中存储的数据质量监测规则的配置程序,并执行本申请实施例提供的数据质量监测规则的配置方法。
此外,本申请实施例还提出一种可读存储介质。
本申请可读存储介质上存储有数据质量监测规则的配置程序,所述数据质量监测规则的配置程序被处理器执行时实现如上所述的数据质量监测规则的配置方法的步骤。
其中,本申请可读存储介质中存储的数据质量监测规则的配置程序被处理器执行的具体实施例与上述数据质量监测规则的配置方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个数据质量监测规则的配置”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (7)
1.一种数据质量监测规则的配置方法,其特征在于,所述数据质量监测规则的配置方法包括以下步骤:
当接收到质量作业创建指令,确定所述质量作业创建指令对应的数据表,所述数据表中包括不符合标准字段格式的输入字段;
将所述数据表中各个输入字段中文名与规则库的规则模板名进行模糊匹配,确定第一推荐规则集合;以及
将所述数据表中各个数据值类型与规则库的数据格式校验规则模板进行匹配,确定第二推荐规则集合;
基于所述第一推荐规则集合和所述第二推荐规则集合,确定初始数据质量监测规则集合;
基于所述数据表中各个输入字段的数据值类型和数据长度,通过ES搜索引擎召回候选字段,其中,所述输入字段与所述候选字段的数据值类型相同,所述输入字段与所述候选字段的数据长度固定且相等,或者数据长度均不固定,所述候选字段具有匹配的历史数据质量监测规则;
计算所述输入字段与对应的所述候选字段的相似指数,所述相似指数包括字段名余弦相似度、字段中文名余弦相似度和数据值余弦相似度;
确定所述相似指数大于预设阈值的所述候选字段为匹配字段,并基于所述匹配字段关联的所述历史数据质量监测规则,确定推荐数据质量监测规则集合;
确定所述初始数据质量监测规则集合和所述推荐数据质量监测规则集合的并集;
基于所述并集,输出综合数据质量监测规则集合,以使用户只需浏览确认应用,即可一键完成质量检测规则的配置。
2.如权利要求1所述的数据质量监测规则的配置方法,其特征在于,所述计算所述输入字段与对应的所述候选字段的相似指数的步骤包括:
获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量;
基于所述输入字段名词频向量、所述输入字段中文名词频向量、所述输入字段数据值词频向量、所述候选字段名词频向量、所述候选字段中文名词频向量和所述候选字段数据值词频向量,确定所述输入字段与对应的所述候选字段的字段名余弦相似度、字段中文名余弦相似度和数据值余弦相似度;
基于所述字段名余弦相似度、所述字段中文名余弦相似度和所述数据值余弦相似度,得到所述输入字段与对应的所述候选字段的相似指数。
3.如权利要求2所述的数据质量监测规则的配置方法,其特征在于,所述获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量的步骤之前包括:
对输入字段名、输入字段中文名、候选字段名和候选字段中文名进行分词,得到输入字段名分词、输入字段中文名分词、候选字段名分词和候选字段中文分词;
基于所述输入字段名分词和所述候选字段名分词确定字段名总类;以及
基于所述输入字段中文名分词和所述候选字段中文分词确定字段中文名总类;
基于所述字段名总类,确定输入字段名词频和候选字段名词频;以及
基于所述字段中文名总类,确定输入字段中文名词频和候选字段中文名词频;
基于所述输入字段名词频、所述候选字段名词频、所述输入字段中文名词频和所述候选字段中文名词频,确定所述输入字段名词频向量、所述输入字段中文名词频向量、所述候选字段名词频向量和所述候选字段中文名词频向量。
4.如权利要求2所述的数据质量监测规则的配置方法,其特征在于,所述获取输入字段名词频向量、输入字段中文名词频向量、输入字段数据值词频向量、候选字段名词频向量、候选字段中文名词频向量和候选字段数据值词频向量的步骤之前还包括:
分别判断所述输入字段和对应的所述候选字段的数据值数量是否小于预设数量;
若所述输入字段的所述数据值数量小于所述预设数量,则对出现频率顺序所述预设数量的输入字段数据值进行分词;
若所述候选字段的所述数据值数量小于所述预设数量,则对出现频率顺序所述预设数量的候选字段数据值进行分词。
5.如权利要求1所述的数据质量监测规则的配置方法,其特征在于,所述基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合的步骤包括:
若所述匹配字段的数量等于一,则基于所述匹配字段关联的所述历史数据质量监测规则,输出推荐数据质量监测规则集合;
若所述匹配字段大于一,则确定各个所述匹配字段关联的所述历史数据质量监测规则的交集;
基于所述交集,输出推荐数据质量监测规则集合。
6.一种数据质量监测规则的配置设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量监测规则的配置程序,所述数据质量监测规则的配置程序配置为实现如权利要求1至5中任一项所述的数据质量监测规则的配置方法的步骤。
7.一种可读存储介质,其特征在于,所述可读存储介质上存储有数据质量监测规则的配置程序,所述数据质量监测规则的配置程序被处理器执行时实现如权利要求1至5任一项所述的数据质量监测规则的配置方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311183338.0A CN116910496B (zh) | 2023-09-14 | 2023-09-14 | 数据质量监测规则的配置方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311183338.0A CN116910496B (zh) | 2023-09-14 | 2023-09-14 | 数据质量监测规则的配置方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910496A CN116910496A (zh) | 2023-10-20 |
CN116910496B true CN116910496B (zh) | 2024-01-23 |
Family
ID=88360704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311183338.0A Active CN116910496B (zh) | 2023-09-14 | 2023-09-14 | 数据质量监测规则的配置方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910496B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127264B1 (en) * | 2015-09-17 | 2018-11-13 | Ab Initio Technology Llc | Techniques for automated data analysis |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN112650762A (zh) * | 2021-03-15 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 数据质量监控的方法、装置、电子设备以及存储介质 |
CN113836897A (zh) * | 2021-09-22 | 2021-12-24 | 北京计算机技术及应用研究所 | 一种多源异构数据字典对齐的方法 |
CN114238381A (zh) * | 2021-12-21 | 2022-03-25 | 深圳前海微众银行股份有限公司 | 数据质量校验方法、设备及计算机可读存储介质 |
CN114817209A (zh) * | 2022-04-28 | 2022-07-29 | 中国工商银行股份有限公司 | 监控规则的处理方法和装置、处理器及电子设备 |
CN114840388A (zh) * | 2022-05-25 | 2022-08-02 | 中国平安财产保险股份有限公司 | 数据监控方法、装置、电子设备及存储介质 |
CN115146610A (zh) * | 2022-07-01 | 2022-10-04 | 中国银行股份有限公司 | 一种银行字符串相似比较方法、装置、系统和介质 |
CN115328902A (zh) * | 2022-08-30 | 2022-11-11 | 云南电网有限责任公司信息中心 | 一种数据质量检查规则匹配方法、存储介质及系统 |
CN116414815A (zh) * | 2023-03-06 | 2023-07-11 | 中国工商银行股份有限公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
CN116522872A (zh) * | 2023-04-06 | 2023-08-01 | 云南电网有限责任公司信息中心 | 一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10657120B2 (en) * | 2016-10-03 | 2020-05-19 | Bank Of America Corporation | Cross-platform digital data movement control utility and method of use thereof |
RU2760471C1 (ru) * | 2020-12-17 | 2021-11-25 | АБИ Девелопмент Инк. | Способы и системы идентификации полей в документе |
-
2023
- 2023-09-14 CN CN202311183338.0A patent/CN116910496B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127264B1 (en) * | 2015-09-17 | 2018-11-13 | Ab Initio Technology Llc | Techniques for automated data analysis |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN112650762A (zh) * | 2021-03-15 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 数据质量监控的方法、装置、电子设备以及存储介质 |
CN113836897A (zh) * | 2021-09-22 | 2021-12-24 | 北京计算机技术及应用研究所 | 一种多源异构数据字典对齐的方法 |
CN114238381A (zh) * | 2021-12-21 | 2022-03-25 | 深圳前海微众银行股份有限公司 | 数据质量校验方法、设备及计算机可读存储介质 |
CN114817209A (zh) * | 2022-04-28 | 2022-07-29 | 中国工商银行股份有限公司 | 监控规则的处理方法和装置、处理器及电子设备 |
CN114840388A (zh) * | 2022-05-25 | 2022-08-02 | 中国平安财产保险股份有限公司 | 数据监控方法、装置、电子设备及存储介质 |
CN115146610A (zh) * | 2022-07-01 | 2022-10-04 | 中国银行股份有限公司 | 一种银行字符串相似比较方法、装置、系统和介质 |
CN115328902A (zh) * | 2022-08-30 | 2022-11-11 | 云南电网有限责任公司信息中心 | 一种数据质量检查规则匹配方法、存储介质及系统 |
CN116414815A (zh) * | 2023-03-06 | 2023-07-11 | 中国工商银行股份有限公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
CN116522872A (zh) * | 2023-04-06 | 2023-08-01 | 云南电网有限责任公司信息中心 | 一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116910496A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
US20160275148A1 (en) | Database query method and device | |
US20210319039A1 (en) | Extraction of a nested hierarchical structure from text data in an unstructured version of a document | |
CN111881183B (zh) | 企业名称匹配方法和装置、以及存储介质和电子设备 | |
CN112433874A (zh) | 一种故障定位方法、系统、电子设备及存储介质 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN111949550B (zh) | 自动生成测试数据的方法、装置、设备及存储介质 | |
CN112163409A (zh) | 一种相似文档检测方法、系统、终端设备及计算机可读存储介质 | |
CN110502513B (zh) | 数据采集方法、装置、设备及计算机可读存储介质 | |
CN114676133A (zh) | 索引创建方法、装置、设备及存储介质 | |
CN110263121B (zh) | 表格数据处理方法、装置、电子装置及计算机可读存储介质 | |
CN110598123A (zh) | 基于画像相似性的信息检索推荐方法、装置及存储介质 | |
CN113687825B (zh) | 一种软件模块的构建方法、装置、设备及存储介质 | |
CN111178025A (zh) | 核电站运行导则的编辑方法、装置、计算机设备及存储介质 | |
CN116910496B (zh) | 数据质量监测规则的配置方法、设备及可读存储介质 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
US8577861B2 (en) | Apparatus and method for searching information | |
US11709856B2 (en) | Data mapper tool | |
CN115858742A (zh) | 问题文本扩充方法、装置、设备及存储介质 | |
CN110866406A (zh) | 用于翻译集成服务优化方法、电子装置及储存介质 | |
CN113703759B (zh) | 一种代码生成方法、装置、介质及设备 | |
US20240311353A1 (en) | Data Governance Method and Apparatus, and Storage Medium | |
CN112328218A (zh) | 一种脚本的执行方法、执行装置、计算机设备和介质 | |
CN116756269A (zh) | 一种数据确定方法、装置、电子设备及存储介质 | |
CN115292370A (zh) | 一种业务单据数据处理方法、装置、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |