CN111813837B - 一种智能检测数据质量的方法 - Google Patents
一种智能检测数据质量的方法 Download PDFInfo
- Publication number
- CN111813837B CN111813837B CN202010955190.8A CN202010955190A CN111813837B CN 111813837 B CN111813837 B CN 111813837B CN 202010955190 A CN202010955190 A CN 202010955190A CN 111813837 B CN111813837 B CN 111813837B
- Authority
- CN
- China
- Prior art keywords
- detection
- field
- data
- user
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种智能检测数据质量的方法,包括如下步骤:步骤一,构建检测方案数据库;步骤二,对输入字段M通过特征抽取方法,对检测数据提取n个维度的数据特征F;步骤三,对待检测Z字段执行智能检测;步骤四,用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测。通过本发明,把人工智能技术与数据检测相结合,大大减少人工的干预,提高了数据检测的效率与准确性。
Description
技术领域
本发明涉及数据处理领域,具体是一种智能检测数据质量的方法。
背景技术
在当前信息化高度发达的社会,很多企业、政府单位都有多套的业务系统,一些大型企业甚至会有上千套的业务系统。这些业务在不同时期由不同的团队开发完成,使用技术不同,使用部门不同,数据存储不统一,数据规范不完善。因此,这些业务系统各自产生的数据由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位等问题,导致部分脏数据的产生。这种脏数据可能对业务系统并没有灾难性影响,但是如果需要把各个业务数据源之间的数据联通起来,数据汇聚,做大数据挖掘决策分析,就会产生大量的问题。
常见的数据检测逻辑是在每一个数据产生点的数据输出点(如数据来源,数据清洗,数据转换)做数据质量的检测,严格控制数据质量。但是各种数据的业务含义不同,数据标准不同,根据每个数据字段的各异性特征,需要针对每种数据的配置定制化的检测策略,并且数据字段越多,配置检测策略的工作量越大。所以在海量数据情况下,只能通过抽样检测的方式来检测数据质量,并不能完全检测出所有的数据质量问题。
本发明就是通过机器学习的技术手段,根据数据本身的特征,实现智能推荐数据检测方案,自动汇报数据检测结果,解决必须要自定义繁琐复杂的数据检测规则的问题,提高生产效率、减少工作量。
发明内容
本发明的目的在于克服现有技术的不足,提供一种智能检测数据质量的方法,包括如下步骤:
步骤一,构建检测方案数据库;
步骤二,对输入字段M通过特征抽取方法,提取n个维度的数据特征F;
步骤三,对待检测Z字段执行智能检测,根据检测结果推荐检测方案;
步骤四,用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;根据用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测,得到数据质量的质量等级。
进一步的,所述的构建检测方案数据库包括如下步骤:
数据检测方案的检测指标J包括数据通用检测指标Jt和个性化检测指标Jg,所述的数据通用检测指标Jt包括空值率、重复度、数据类型等数据特征;所述的个性化检测指标Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据特征;
按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A。
进一步的,所述的对输入字段M通过特征抽取方法,提取n个维度的数据特征F包括如下步骤:
对输入字段M通过特征抽取方法,提取n个维度的数据特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法如下:
S1字段名统一,得到字段名表B1,fbi表示字段名,i∈1,2,...,B;B为B1表里字段总数;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离,编辑距离采用如下公式:
令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度:
leva,b(i,j)为a中前i个字符和b中前j个字符之间的距离;
当min(i,j)=0,此时的i,j中有一个值为0,表示字符串a和b有一个为空字符串,则编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
① 删除ai,leva,b(i-1,j)+1
② 插入bj,leva,b(i,j-1)+1
③ 替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0;
S2,提取字段备注的特征,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值,包括如下过程:
S2.1,采用词向量Vj表示j字段的备注;
S2.2,对采用双层双向的GRU循环神经网络结构的深度神经网络Net(Wz,Wr,W),进行
多轮学习训练,用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj;
S2.3特征组合:特征一为取编辑距离前三小的类别对应的值,其他类别值为0、特征二为选取数据类型的值1,其他类型为0;特征三为备注识别字段类别的概率值Gj;特征一和特征三值相乘,即Xm=levm,j × Gm,j , 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最终的特征Xm;把Xm输入softmax模型,所属字段名作为目标值,训练softmax模型的参数Ws,得到模型softmax(Ws);
进一步的,所述的对待检测Z字段执行智能检测包括如下步骤:
S3.1通过特征抽取方法,对Z字段进行特征转换;
S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离,得到向量化处理后的Z字段;
S3.3将向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.4再将向量化处理后的Z字段输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B;
S3.5根据fbi,在检测方案库里查找检测方案。
进一步的,所述的用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,优化预测模型,通过训练后的预测模型,进行数据质量检测,包括如下步骤:
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别;对用户直接采取推荐检测方案的样本,训练权重为2;对用户修改检测方案中推荐的字段所属类别,训练权重为5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
本发明的有益效果是:把人工智能技术与数据检测相结合,大大减少人工的干预,提高了数据检测的效率与准确性。
附图说明
图1为一种智能检测数据质量的方法的流程图;
图2为一种智能检测数据质量的方法的实施示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种智能检测数据质量的方法,包括如下步骤:
步骤一,构建检测方案数据库;
步骤二,对输入字段M通过特征抽取方法,提取n个维度的数据特征F;
步骤三,对待检测Z字段执行智能检测,根据检测结果推荐检测方案;
步骤四,用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;根据用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测,得到数据质量的质量等级。
所述的构建检测方案数据库包括如下步骤:
数据检测方案的检测指标J包括数据通用检测指标Jt和个性化检测指标Jg,所述的数据通用检测指标Jt包括空值率、重复度、数据类型等数据特征;所述的个性化检测指标Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据特征;
按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A。
所述的对输入字段M通过特征抽取方法,提取n个维度的数据特征F包括如下步骤:
对输入字段M通过特征抽取方法,提取n个维度的数据特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法如下:
S1字段名统一,得到字段名表B1,fbi表示字段名,i∈1,2,...,B;B为B1表里字段总数;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离,编辑距离采用如下公式:
令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度:
leva,b(i,j)为a中前i个字符和b中前j个字符之间的距离;
当min(i,j)=0,此时的i,j中有一个值为0,表示字符串a和b有一个为空字符串,则编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
④ 删除ai,leva,b(i-1,j)+1
⑤ 插入bj,leva,b(i,j-1)+1
⑥ 替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0;
S2,提取字段备注的特征,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值,包括如下过程:
S2.1,采用词向量Vj表示j字段的备注;
S2.2,对采用双层双向的GRU循环神经网络结构的深度神经网络Net(Wz,Wr,W),进行
多轮学习训练,用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj;
S2.3特征组合:特征一为取编辑距离前三小的类别对应的值,其他类别值为0、特征二为选取数据类型的值1,其他类型为0;特征三为备注识别字段类别的概率值Gj;特征一和特征三值相乘,即Xm=levm,j × Gm,j , 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最终的特征Xm;把Xm输入softmax模型,所属字段名作为目标值,训练softmax模型的参数Ws,得到模型softmax(Ws)。
所述的对待检测Z字段执行智能检测包括如下步骤:
S3.1通过特征抽取方法,对Z字段进行特征转换;
S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离,得到向量化处理后的Z字段;
S3.3将向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.4再将向量化处理后的Z字段输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B;
S3.5根据fbi,在检测方案库里查找检测方案。
用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,优化预测模型,通过训练后的预测模型,进行数据质量检测,包括如下步骤:
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别;对用户直接采取推荐检测方案的样本,训练权重为2;对用户修改检测方案中推荐的字段所属类别,训练权重为5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
具体的,如图2所示,智能检测数据质量的方法具体步骤如下:
S1.总结检测方案初始知识库,包括:
S1.1数据检测方案的检测指标J由数据通用检测指标Jt和个性化检测指标Jg组成。Jt包括空值率、重复度、数据类型等数据通用特征,Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据个性化数据特征;
S1.2按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A;每个检测方案包括不同的空值率、重复度、数据类型、最大值、最小值、字符串长度、字符串开头、字符串结束等数据。
S2.对输入字段M,通过特征抽取方法TF,对检测数据提取n个维度的数据特征F,即特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法TF如下:
S2.1.特征一,表字段的实体统一,即把含义相同的但是字段名不一样的字段统一为同一字段名,如name和NAME都表示姓名。先总结出业务系统高频出现的字段名表B1即原型表,B1表里字段名一般为英文单词,如name、age、classname等,用fbi,i∈1,2,...,B表示,B表示B1表里字段总数,B≧A,即不同的字段名有可能因为业务和值而采用相同的检测策略;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离(即从fsj转化为fbi需要的编辑次数)levfsj,fbi(|fsj|,|fbi|)。
S2.1.2.编辑距离levfsj,fbi(|fsj|,|fbi|)计算公式如下,令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度,定义:
leva,b(i,j)指的是a中前i个字符和b中前j个字符之间的距离。字符串从索引1开始,因此最后的编辑距离便是i=|fbi|,j=|fsj|时的距离:leva,b(|fbi|,|fsj|);
当min(i,j)=0,此时的i,j有一个值是0,表示字符串a和b有一个为空字符串,那么从a转换到b只需要进行max(i,j)次单子符编辑操作即可,所以他们之间的编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
⑦ 删除ai,leva,b(i-1,j)+1
⑧ 插入bj,leva,b(i,j-1)+1
⑨ 替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0
S2.2.特征二,每个字段存储数据的类型,如字符串类型、整数类型、浮点数类型、时间类型等,通过独热编码表示特征;
S2.3.特征三,提取字段备注的特征,因为备注多为中文,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值。具体技术如下:
①通过词向量Vj表示j字段的备注;深度神经网络为一个双层双向的GRU循环神经网络结构,模型记为Net(Wz,Wr,W),其中Wz,Wr,W为模型待学习的参数;人工标注j字段所属原型库中字段名fbj,j∈1,2,...,B;
②通过多轮学习训练出模型Net(Wz,Wr,W)的参数Wz,Wr,W
③用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj
S2.4.特征组合:特征一(取编辑距离前三小的类别对应的值,其他类别值为0)、特征二(选取数据类型的值1,其他类型为0)、特征三(备注识别各类别的概率值Gj);
S2.4.2.特征一和特征三值相乘,即Xm=levm,j × Gm,j , 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最总的特征Xm;
S2.4.3.把Xm输入softmax模型,人工标记的所属字段名作为目标值,训练softmax模型的参数Ws,记模型softmax(Ws)
S3.对待检测Z字段执行智能检测
S3.1.通过方法TF(即步骤S2),对Z字段进行特征转换;
S3.1.1通过编辑距离公式,计算与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离;
S3.1.2识别该字段下数据的类型;
S3.1.3把向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.1.4再按照S1.3.5处理特征,输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B
S3.1.5根据fbi,在检测方案库里查找检测方案;
S4.优化智能推荐
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;
S4.2.1.用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别,选择了其他类别;
S4.2.2.对用户直接采取推荐检测方案的样本,给一个训练权重2;对用户修改检测方案中推荐的字段所属类别,给一个训练权重5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;
S4.3.1.对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;
S4.3.2.对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,定期进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (2)
1.一种智能检测数据质量的方法,其特征在于,包括如下步骤:
步骤一,构建检测方案数据库;
步骤二,对输入字段M通过特征抽取方法,提取n个维度的数据特征F;
步骤三,对待检测Z字段执行智能检测,根据检测结果推荐检测方案;
步骤四,用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;根据用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测,得到数据质量的质量等级;
所述的构建检测方案数据库包括如下步骤:数据检测方案的检测指标J包括数据通用检测指标Jt和个性化检测指标Jg,所述的数据通用检测指标Jt包括空值率、重复度、数据类型数;所述的个性化检测指标Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束;
按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A;
所述的对输入字段M通过特征抽取方法,提取n个维度的数据特征F包括如下步骤:对输入字段M通过特征抽取方法,提取n个维度的数据特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法如下:
S1字段名统一,得到字段名表B1,fbi表示字段名,i∈1,2,...,B;B为B1表里字段总数;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离,编辑距离采用如下公式:
令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度:
leva,b(i,j)为a中前i个字符和b中前j个字符之间的距离;
当min(i,j)=0,此时的i,j中有一个值为0,表示字符串a和b有一个为空字符串,则编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
删除ai,leva,b(i-1,j)+1
插入bj,leva,b(i,j-1)+1
替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0;
S2,提取字段备注的特征,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值,包括如下过程:
S2.1,采用词向量Vj表示j字段的备注;
S2.2,对采用双层双向的GRU循环神经网络结构的深度神经网络Net(Wz,Wr,W),进行
多轮学习训练,用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj;
S2.3特征组合:特征一为取编辑距离前三小的类别对应的值,其他类别值为0、特征二为选取数据类型的值1,其他类型为0;特征三为备注识别字段类别的概率值Gj;特征一和特征三值相乘,即Xm=levm,j × Gm,j, 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最终的特征Xm;把Xm输入softmax模型,所属字段名作为目标值,训练softmax模型的参数Ws,得到模型softmax(Ws);
所述的对待检测Z字段执行智能检测包括如下步骤:
S3.1通过特征抽取方法,对Z字段进行特征转换;
S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离,得到向量化处理后的Z字段;
S3.3将向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.4再将向量化处理后的Z字段输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B;
S3.5根据fbi,在检测方案库里查找检测方案。
2.根据权利要求1所述的一种智能检测数据质量的方法,其特征在于,所述的用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,优化预测模型,通过训练后的预测模型,进行数据质量检测,包括如下步骤:
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别;对用户直接采取推荐检测方案的样本,训练权重为2;对用户修改检测方案中推荐的字段所属类别,训练权重为5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010955190.8A CN111813837B (zh) | 2020-09-11 | 2020-09-11 | 一种智能检测数据质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010955190.8A CN111813837B (zh) | 2020-09-11 | 2020-09-11 | 一种智能检测数据质量的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111813837A CN111813837A (zh) | 2020-10-23 |
CN111813837B true CN111813837B (zh) | 2020-12-11 |
Family
ID=72860786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010955190.8A Active CN111813837B (zh) | 2020-09-11 | 2020-09-11 | 一种智能检测数据质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813837B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610225A (zh) * | 2021-07-14 | 2021-11-05 | 中国银行股份有限公司 | 质量评估模型训练方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760520A (zh) * | 2016-02-26 | 2016-07-13 | 广州品唯软件有限公司 | 一种数据管控平台及架构 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9727640B2 (en) * | 2012-05-25 | 2017-08-08 | Erin C. DeSpain | Asymmetrical multilateral decision support system |
CN108170707A (zh) * | 2017-11-22 | 2018-06-15 | 国政通科技股份有限公司 | 一种数据质量检测的方法和系统 |
CN109344394B (zh) * | 2018-08-30 | 2023-06-06 | 广发证券股份有限公司 | 一种文本类数据质量监控系统 |
CN109491990A (zh) * | 2018-09-17 | 2019-03-19 | 武汉达梦数据库有限公司 | 一种检测数据质量的方法以及检测数据质量的装置 |
CN110647523B (zh) * | 2019-09-09 | 2023-10-03 | 平安证券股份有限公司 | 数据质量的分析方法及装置、存储介质、电子设备 |
CN111209538A (zh) * | 2020-01-03 | 2020-05-29 | 北京明略软件系统有限公司 | 一种表数据质量探查方法及装置 |
-
2020
- 2020-09-11 CN CN202010955190.8A patent/CN111813837B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760520A (zh) * | 2016-02-26 | 2016-07-13 | 广州品唯软件有限公司 | 一种数据管控平台及架构 |
Also Published As
Publication number | Publication date |
---|---|
CN111813837A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN108647251B (zh) | 基于宽深度门循环联合模型的推荐排序方法 | |
CN112507699B (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN109614614A (zh) | 一种基于自注意力的bilstm-crf产品名称识别方法 | |
CN110175628A (zh) | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN108717433A (zh) | 一种面向程序设计领域问答系统的知识库构建方法及装置 | |
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
US20220100772A1 (en) | Context-sensitive linking of entities to private databases | |
CN109299270A (zh) | 一种基于卷积神经网络的文本数据无监督聚类方法 | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
Lai et al. | Transconv: Relationship embedding in social networks | |
CN116431919A (zh) | 基于用户意图特征的智能新闻推荐方法和系统 | |
CN111813837B (zh) | 一种智能检测数据质量的方法 | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
WO2022072237A1 (en) | Lifecycle management for customized natural language processing | |
Han et al. | A-BPS: automatic business process discovery service using ordered neurons LSTM | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN115982373A (zh) | 结合多级交互式对比学习的知识图谱推荐方法 | |
CN105871630B (zh) | 一种确定网络用户的上网行为类别的方法 | |
CN114896391A (zh) | 基于任务提示的小样本句型分类方法、系统、设备及介质 | |
CN114860952A (zh) | 一种基于数据统计和知识指导的图拓扑学习方法及系统 | |
Shi et al. | Learning from crowds with sparse and imbalanced annotations | |
Lv et al. | CEP rule extraction framework based on evolutionary algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |