CN111813837B - 一种智能检测数据质量的方法 - Google Patents

一种智能检测数据质量的方法 Download PDF

Info

Publication number
CN111813837B
CN111813837B CN202010955190.8A CN202010955190A CN111813837B CN 111813837 B CN111813837 B CN 111813837B CN 202010955190 A CN202010955190 A CN 202010955190A CN 111813837 B CN111813837 B CN 111813837B
Authority
CN
China
Prior art keywords
detection
field
data
user
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010955190.8A
Other languages
English (en)
Other versions
CN111813837A (zh
Inventor
聂敏
唐弋钧
杨磊
李春
邓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xundao Technology Co ltd
Original Assignee
Chengdu Xundao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xundao Technology Co ltd filed Critical Chengdu Xundao Technology Co ltd
Priority to CN202010955190.8A priority Critical patent/CN111813837B/zh
Publication of CN111813837A publication Critical patent/CN111813837A/zh
Application granted granted Critical
Publication of CN111813837B publication Critical patent/CN111813837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种智能检测数据质量的方法,包括如下步骤:步骤一,构建检测方案数据库;步骤二,对输入字段M通过特征抽取方法,对检测数据提取n个维度的数据特征F;步骤三,对待检测Z字段执行智能检测;步骤四,用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测。通过本发明,把人工智能技术与数据检测相结合,大大减少人工的干预,提高了数据检测的效率与准确性。

Description

一种智能检测数据质量的方法
技术领域
本发明涉及数据处理领域,具体是一种智能检测数据质量的方法。
背景技术
在当前信息化高度发达的社会,很多企业、政府单位都有多套的业务系统,一些大型企业甚至会有上千套的业务系统。这些业务在不同时期由不同的团队开发完成,使用技术不同,使用部门不同,数据存储不统一,数据规范不完善。因此,这些业务系统各自产生的数据由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位等问题,导致部分脏数据的产生。这种脏数据可能对业务系统并没有灾难性影响,但是如果需要把各个业务数据源之间的数据联通起来,数据汇聚,做大数据挖掘决策分析,就会产生大量的问题。
常见的数据检测逻辑是在每一个数据产生点的数据输出点(如数据来源,数据清洗,数据转换)做数据质量的检测,严格控制数据质量。但是各种数据的业务含义不同,数据标准不同,根据每个数据字段的各异性特征,需要针对每种数据的配置定制化的检测策略,并且数据字段越多,配置检测策略的工作量越大。所以在海量数据情况下,只能通过抽样检测的方式来检测数据质量,并不能完全检测出所有的数据质量问题。
本发明就是通过机器学习的技术手段,根据数据本身的特征,实现智能推荐数据检测方案,自动汇报数据检测结果,解决必须要自定义繁琐复杂的数据检测规则的问题,提高生产效率、减少工作量。
发明内容
本发明的目的在于克服现有技术的不足,提供一种智能检测数据质量的方法,包括如下步骤:
步骤一,构建检测方案数据库;
步骤二,对输入字段M通过特征抽取方法,提取n个维度的数据特征F;
步骤三,对待检测Z字段执行智能检测,根据检测结果推荐检测方案;
步骤四,用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;根据用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测,得到数据质量的质量等级。
进一步的,所述的构建检测方案数据库包括如下步骤:
数据检测方案的检测指标J包括数据通用检测指标Jt和个性化检测指标Jg,所述的数据通用检测指标Jt包括空值率、重复度、数据类型等数据特征;所述的个性化检测指标Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据特征;
按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A。
进一步的,所述的对输入字段M通过特征抽取方法,提取n个维度的数据特征F包括如下步骤:
对输入字段M通过特征抽取方法,提取n个维度的数据特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法如下:
S1字段名统一,得到字段名表B1,fbi表示字段名,i∈1,2,...,B;B为B1表里字段总数;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离,编辑距离采用如下公式:
令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度:
Figure DEST_PATH_IMAGE002
leva,b(i,j)为a中前i个字符和b中前j个字符之间的距离;
当min(i,j)=0,此时的i,j中有一个值为0,表示字符串a和b有一个为空字符串,则编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
① 删除ai,leva,b(i-1,j)+1
② 插入bj,leva,b(i,j-1)+1
③ 替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0;
S2,提取字段备注的特征,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值,包括如下过程:
S2.1,采用词向量Vj表示j字段的备注;
S2.2,对采用双层双向的GRU循环神经网络结构的深度神经网络Net(Wz,Wr,W),进行
多轮学习训练,用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj;
S2.3特征组合:特征一为取编辑距离前三小的类别对应的值,其他类别值为0、特征二为选取数据类型的值1,其他类型为0;特征三为备注识别字段类别的概率值Gj;特征一和特征三值相乘,即Xm=levm,j × Gm,j , 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最终的特征Xm;把Xm输入softmax模型,所属字段名作为目标值,训练softmax模型的参数Ws,得到模型softmax(Ws);
进一步的,所述的对待检测Z字段执行智能检测包括如下步骤:
S3.1通过特征抽取方法,对Z字段进行特征转换;
S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离,得到向量化处理后的Z字段;
S3.3将向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.4再将向量化处理后的Z字段输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B;
S3.5根据fbi,在检测方案库里查找检测方案。
进一步的,所述的用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,优化预测模型,通过训练后的预测模型,进行数据质量检测,包括如下步骤:
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别;对用户直接采取推荐检测方案的样本,训练权重为2;对用户修改检测方案中推荐的字段所属类别,训练权重为5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
本发明的有益效果是:把人工智能技术与数据检测相结合,大大减少人工的干预,提高了数据检测的效率与准确性。
附图说明
图1为一种智能检测数据质量的方法的流程图;
图2为一种智能检测数据质量的方法的实施示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种智能检测数据质量的方法,包括如下步骤:
步骤一,构建检测方案数据库;
步骤二,对输入字段M通过特征抽取方法,提取n个维度的数据特征F;
步骤三,对待检测Z字段执行智能检测,根据检测结果推荐检测方案;
步骤四,用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;根据用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测,得到数据质量的质量等级。
所述的构建检测方案数据库包括如下步骤:
数据检测方案的检测指标J包括数据通用检测指标Jt和个性化检测指标Jg,所述的数据通用检测指标Jt包括空值率、重复度、数据类型等数据特征;所述的个性化检测指标Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据特征;
按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A。
所述的对输入字段M通过特征抽取方法,提取n个维度的数据特征F包括如下步骤:
对输入字段M通过特征抽取方法,提取n个维度的数据特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法如下:
S1字段名统一,得到字段名表B1,fbi表示字段名,i∈1,2,...,B;B为B1表里字段总数;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离,编辑距离采用如下公式:
令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度:
Figure 875317DEST_PATH_IMAGE004
leva,b(i,j)为a中前i个字符和b中前j个字符之间的距离;
当min(i,j)=0,此时的i,j中有一个值为0,表示字符串a和b有一个为空字符串,则编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
④ 删除ai,leva,b(i-1,j)+1
⑤ 插入bj,leva,b(i,j-1)+1
⑥ 替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0;
S2,提取字段备注的特征,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值,包括如下过程:
S2.1,采用词向量Vj表示j字段的备注;
S2.2,对采用双层双向的GRU循环神经网络结构的深度神经网络Net(Wz,Wr,W),进行
多轮学习训练,用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj;
S2.3特征组合:特征一为取编辑距离前三小的类别对应的值,其他类别值为0、特征二为选取数据类型的值1,其他类型为0;特征三为备注识别字段类别的概率值Gj;特征一和特征三值相乘,即Xm=levm,j × Gm,j , 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最终的特征Xm;把Xm输入softmax模型,所属字段名作为目标值,训练softmax模型的参数Ws,得到模型softmax(Ws)。
所述的对待检测Z字段执行智能检测包括如下步骤:
S3.1通过特征抽取方法,对Z字段进行特征转换;
S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离,得到向量化处理后的Z字段;
S3.3将向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.4再将向量化处理后的Z字段输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B;
S3.5根据fbi,在检测方案库里查找检测方案。
用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,优化预测模型,通过训练后的预测模型,进行数据质量检测,包括如下步骤:
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别;对用户直接采取推荐检测方案的样本,训练权重为2;对用户修改检测方案中推荐的字段所属类别,训练权重为5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
具体的,如图2所示,智能检测数据质量的方法具体步骤如下:
S1.总结检测方案初始知识库,包括:
S1.1数据检测方案的检测指标J由数据通用检测指标Jt和个性化检测指标Jg组成。Jt包括空值率、重复度、数据类型等数据通用特征,Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据个性化数据特征;
S1.2按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A;每个检测方案包括不同的空值率、重复度、数据类型、最大值、最小值、字符串长度、字符串开头、字符串结束等数据。
S2.对输入字段M,通过特征抽取方法TF,对检测数据提取n个维度的数据特征F,即特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法TF如下:
S2.1.特征一,表字段的实体统一,即把含义相同的但是字段名不一样的字段统一为同一字段名,如name和NAME都表示姓名。先总结出业务系统高频出现的字段名表B1即原型表,B1表里字段名一般为英文单词,如name、age、classname等,用fbi,i∈1,2,...,B表示,B表示B1表里字段总数,B≧A,即不同的字段名有可能因为业务和值而采用相同的检测策略;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离(即从fsj转化为fbi需要的编辑次数)levfsj,fbi(|fsj|,|fbi|)。
S2.1.2.编辑距离levfsj,fbi(|fsj|,|fbi|)计算公式如下,令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度,定义:
Figure 589195DEST_PATH_IMAGE006
leva,b(i,j)指的是a中前i个字符和b中前j个字符之间的距离。字符串从索引1开始,因此最后的编辑距离便是i=|fbi|,j=|fsj|时的距离:leva,b(|fbi|,|fsj|);
当min(i,j)=0,此时的i,j有一个值是0,表示字符串a和b有一个为空字符串,那么从a转换到b只需要进行max(i,j)次单子符编辑操作即可,所以他们之间的编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
⑦ 删除ai,leva,b(i-1,j)+1
⑧ 插入bj,leva,b(i,j-1)+1
⑨ 替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0
S2.2.特征二,每个字段存储数据的类型,如字符串类型、整数类型、浮点数类型、时间类型等,通过独热编码表示特征;
S2.3.特征三,提取字段备注的特征,因为备注多为中文,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值。具体技术如下:
①通过词向量Vj表示j字段的备注;深度神经网络为一个双层双向的GRU循环神经网络结构,模型记为Net(Wz,Wr,W),其中Wz,Wr,W为模型待学习的参数;人工标注j字段所属原型库中字段名fbj,j∈1,2,...,B;
②通过多轮学习训练出模型Net(Wz,Wr,W)的参数Wz,Wr,W
③用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj
S2.4.特征组合:特征一(取编辑距离前三小的类别对应的值,其他类别值为0)、特征二(选取数据类型的值1,其他类型为0)、特征三(备注识别各类别的概率值Gj);
S2.4.2.特征一和特征三值相乘,即Xm=levm,j × Gm,j , 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最总的特征Xm;
S2.4.3.把Xm输入softmax模型,人工标记的所属字段名作为目标值,训练softmax模型的参数Ws,记模型softmax(Ws)
S3.对待检测Z字段执行智能检测
S3.1.通过方法TF(即步骤S2),对Z字段进行特征转换;
S3.1.1通过编辑距离公式,计算与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离;
S3.1.2识别该字段下数据的类型;
S3.1.3把向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.1.4再按照S1.3.5处理特征,输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B
S3.1.5根据fbi,在检测方案库里查找检测方案;
S4.优化智能推荐
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;
S4.2.1.用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别,选择了其他类别;
S4.2.2.对用户直接采取推荐检测方案的样本,给一个训练权重2;对用户修改检测方案中推荐的字段所属类别,给一个训练权重5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg
S4.3.1.对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;
S4.3.2.对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,定期进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (2)

1.一种智能检测数据质量的方法,其特征在于,包括如下步骤:
步骤一,构建检测方案数据库;
步骤二,对输入字段M通过特征抽取方法,提取n个维度的数据特征F;
步骤三,对待检测Z字段执行智能检测,根据检测结果推荐检测方案;
步骤四,用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;根据用户的使用和修改记录,调整机器学习的参数,训练预测模型,通过训练后的预测模型,进行数据质量检测,得到数据质量的质量等级;
所述的构建检测方案数据库包括如下步骤:数据检测方案的检测指标J包括数据通用检测指标Jt和个性化检测指标Jg,所述的数据通用检测指标Jt包括空值率、重复度、数据类型数;所述的个性化检测指标Jg包括最大值、最小值、字符串长度、字符串开头、字符串结束;
按检测方案根据采用检测指标J一样,将数据分为A个的类别Ci,i∈1,2,...,A;则对应A个检测方案,有A套检测指标,Ji,i∈1,2,...,A;
所述的对输入字段M通过特征抽取方法,提取n个维度的数据特征F包括如下步骤:对输入字段M通过特征抽取方法,提取n个维度的数据特征FMj,j∈1,2,...,n;M字段的类别CM∈Ci;特征抽取方法如下:
S1字段名统一,得到字段名表B1,fbi表示字段名,i∈1,2,...,B;B为B1表里字段总数;fsj表示待检测字段j原本的字段名,计算出fsj与fbi的编辑距离,编辑距离采用如下公式:
令b=fbi,a=fsj,|fbi|和|fsj|分别对应fbi和fsj的字符长度:
Figure 921398DEST_PATH_IMAGE002
leva,b(i,j)为a中前i个字符和b中前j个字符之间的距离;
当min(i,j)=0,此时的i,j中有一个值为0,表示字符串a和b有一个为空字符串,则编辑距离为max(i,j);
当min(i,j)≠0时,leva,b(|fbi|,|fsj|)为如下三种情况:
删除ai,leva,b(i-1,j)+1
插入bj,leva,b(i,j-1)+1
替换bj,leva,b(i-1,j-1)+L(ai≠bj); L(ai≠bj)表示,当ai≠bj时值为1,当ai=bj时值为0;
S2,提取字段备注的特征,通过深度神经网络的技术,识别备注对应的字段类别fbi,i∈1,2,...,B,的概率值,包括如下过程:
S2.1,采用词向量Vj表示j字段的备注;
S2.2,对采用双层双向的GRU循环神经网络结构的深度神经网络Net(Wz,Wr,W),进行
多轮学习训练,用训练好的模型计算出J字段的所属字段名fbj,j∈1,2,...,B;和对应的概率值Gj;
S2.3特征组合:特征一为取编辑距离前三小的类别对应的值,其他类别值为0、特征二为选取数据类型的值1,其他类型为0;特征三为备注识别字段类别的概率值Gj;特征一和特征三值相乘,即Xm=levm,j × Gm,j, 其中m为字段的编号,j为字段名类别,j∈1,2,...,B;再拼接上特征二,组成最终的特征Xm;把Xm输入softmax模型,所属字段名作为目标值,训练softmax模型的参数Ws,得到模型softmax(Ws);
所述的对待检测Z字段执行智能检测包括如下步骤:
S3.1通过特征抽取方法,对Z字段进行特征转换;
S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fbi,i∈1,2,...,B的距离,得到向量化处理后的Z字段;
S3.3将向量化处理后的Z字段的备注放入Net(Wz,Wr,W)模型中,输出每种类别fbi,i∈1,2,...,B的概率值;
S3.4再将向量化处理后的Z字段输入softmax(Ws)模型,输出字段所属字段名类别fbi,i∈1,2,...,B;
S3.5根据fbi,在检测方案库里查找检测方案。
2.根据权利要求1所述的一种智能检测数据质量的方法,其特征在于,所述的用户根据推荐的检测方案,选择直接执行或修改检测参数后执行,记录用户的使用和修改记录;分析用户的使用和修改记录,调整机器学习的参数,优化预测模型,通过训练后的预测模型,进行数据质量检测,包括如下步骤:
S4.1.用户根据推荐的检测方案,选择直接执行与修改检测参数后执行,记录用户的使用和修改记录;
S4.2.分析用户的使用和修改记录,调整机器学习的参数,优化预测模型;用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别;对用户直接采取推荐检测方案的样本,训练权重为2;对用户修改检测方案中推荐的字段所属类别,训练权重为5;重新训练softmax(Ws)模型的参数;
S4.3.分析用户的使用和修改记录,细化类别Ci,优化个性化检测指标Jg;对用户在使用过程中,采用了推荐的类别,但是对个性化检测指标Jg进行了调整,系统会记录下调整记录,定期进行离线分析和调整;对用户在使用过程中,新增了类别,设置了个性化检测指标Jg,系统会记录下调整记录,进行离线分析和重新训练Net(Wz,Wr,W)、softmax(Ws)模型。
CN202010955190.8A 2020-09-11 2020-09-11 一种智能检测数据质量的方法 Active CN111813837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010955190.8A CN111813837B (zh) 2020-09-11 2020-09-11 一种智能检测数据质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010955190.8A CN111813837B (zh) 2020-09-11 2020-09-11 一种智能检测数据质量的方法

Publications (2)

Publication Number Publication Date
CN111813837A CN111813837A (zh) 2020-10-23
CN111813837B true CN111813837B (zh) 2020-12-11

Family

ID=72860786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010955190.8A Active CN111813837B (zh) 2020-09-11 2020-09-11 一种智能检测数据质量的方法

Country Status (1)

Country Link
CN (1) CN111813837B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610225A (zh) * 2021-07-14 2021-11-05 中国银行股份有限公司 质量评估模型训练方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760520A (zh) * 2016-02-26 2016-07-13 广州品唯软件有限公司 一种数据管控平台及架构

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727640B2 (en) * 2012-05-25 2017-08-08 Erin C. DeSpain Asymmetrical multilateral decision support system
CN108170707A (zh) * 2017-11-22 2018-06-15 国政通科技股份有限公司 一种数据质量检测的方法和系统
CN109344394B (zh) * 2018-08-30 2023-06-06 广发证券股份有限公司 一种文本类数据质量监控系统
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN110647523B (zh) * 2019-09-09 2023-10-03 平安证券股份有限公司 数据质量的分析方法及装置、存储介质、电子设备
CN111209538A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种表数据质量探查方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760520A (zh) * 2016-02-26 2016-07-13 广州品唯软件有限公司 一种数据管控平台及架构

Also Published As

Publication number Publication date
CN111813837A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN108647251B (zh) 基于宽深度门循环联合模型的推荐排序方法
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN109614614A (zh) 一种基于自注意力的bilstm-crf产品名称识别方法
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
CN108717433A (zh) 一种面向程序设计领域问答系统的知识库构建方法及装置
CN110909125B (zh) 推文级社会媒体谣言检测方法
US20220100772A1 (en) Context-sensitive linking of entities to private databases
CN109299270A (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
Lai et al. Transconv: Relationship embedding in social networks
CN116431919A (zh) 基于用户意图特征的智能新闻推荐方法和系统
CN111813837B (zh) 一种智能检测数据质量的方法
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
WO2022072237A1 (en) Lifecycle management for customized natural language processing
Han et al. A-BPS: automatic business process discovery service using ordered neurons LSTM
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN115982373A (zh) 结合多级交互式对比学习的知识图谱推荐方法
CN105871630B (zh) 一种确定网络用户的上网行为类别的方法
CN114896391A (zh) 基于任务提示的小样本句型分类方法、系统、设备及介质
CN114860952A (zh) 一种基于数据统计和知识指导的图拓扑学习方法及系统
Shi et al. Learning from crowds with sparse and imbalanced annotations
Lv et al. CEP rule extraction framework based on evolutionary algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant