CN111506731B - 一种训练字段分类模型的方法、装置及设备 - Google Patents
一种训练字段分类模型的方法、装置及设备 Download PDFInfo
- Publication number
- CN111506731B CN111506731B CN202010307964.6A CN202010307964A CN111506731B CN 111506731 B CN111506731 B CN 111506731B CN 202010307964 A CN202010307964 A CN 202010307964A CN 111506731 B CN111506731 B CN 111506731B
- Authority
- CN
- China
- Prior art keywords
- field
- data table
- service
- type
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013145 classification model Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000012544 monitoring process Methods 0.000 claims abstract description 30
- 230000000875 corresponding effect Effects 0.000 claims description 68
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 8
- 239000008280 blood Substances 0.000 claims description 6
- 210000004369 blood Anatomy 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开了一种训练字段分类模型的方法、装置及设备。采用机器学习的方法,训练字段分类模型以便实现对字段进行分类,然后基于字段的字段类型来自动匹配监控规则。其中,可以考虑以下维度中的至少一个来为字段确定特征向量:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型。
Description
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种训练字段分类模型的方法、装置及设备。
背景技术
目前,企业可以基于其在业务运营中积淀的数据(主要形式是数据表)进行数据分析,而数据分析效果主要取决于数据质量。数据质量主要是指数据表中的每个字段的字段值的质量。例如,对于记录时间的字段,其字段值具有达到一定的精度要求(如精确到秒),如果未达到精度要求,则该字段的字段值存在质量问题,需要数据管理人员进行修正。
在实践中,企业往往需要对数据质量进行监控,以便发现不满足监控规则的字段进行修正。而不同类型的字段往往需要不同的监控规则,这就要求企业遍历其存储的每个数据表中的每个字段,根据每个字段的类型匹配相应的监控规则。
基于现有技术,需要一种更为高效的方法来实现为字段匹配监控规则。
发明内容
为了解决现有的字段监控规则匹配方法存在的低效问题,本说明书实施例提供一种训练字段分类模型的方法、装置及设备,技术方案如下:
根据本说明书实施例的第1方面,提供
一种训练字段分类模型的方法,确定字段类型集合,所述字段类型集合包括日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型,所述方法包括:
获取字段样本集合;
针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量;其中,所述N个指定维度为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型;
基于所述字段样本集合,训练字段分类模型;其中,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
根据本说明书实施例的第2方面,提供一种应用权利要求第1方面所述的分类模型进行监控规则匹配的方法,包括:
确定目标字段;
基于所述目标字段的N个指定维度的特征确定该字段样本的特征向量;
将所述目标字段的特征向量输入到所述分类模型,输出得到所述目标字段对应的字段类型;
基于所述目标字段对应的字段类型,为所述目标字段匹配监控规则,以便对所述目标字段进行数据质量监控。
根据本说明书实施例的第3方面,提供一种训练字段分类模型的装置,确定字段类型集合,所述字段类型集合包括日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型,所述装置包括:
获取模块,获取字段样本集合;
确定模块,针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量;其中,所述N个指定维度为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型;
训练模块,基于所述字段样本集合,训练字段分类模型;其中,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
根据本说明书实施例的第4方面,提供一种应用第1方面所述的分类模型进行监控规则匹配的装置,包括:
第一确定模块,确定目标字段;
第二确定模块,基于所述目标字段的N个指定维度的特征确定该字段样本的特征向量;
分类模块,将所述目标字段的特征向量输入到所述分类模型,输出得到所述目标字段对应的字段类型;
匹配模块,基于所述目标字段对应的字段类型,为所述目标字段匹配监控规则,以便对所述目标字段进行数据质量监控。
本说明书实施例所提供的技术方案,采用机器学习的方法,训练字段分类模型以便实现对字段进行分类,然后基于字段的字段类型来自动匹配监控规则。其中,可以考虑以下维度中的至少一个来为字段确定特征向量:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型。
通过本说明书实施例,可以提升为字段匹配监控规则的效率与准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种计算链路的示意图;
图2是本说明书实施例提供的一种训练字段分类模型的方法的流程示意图;
图3是本说明书实施例提供的一种用于确定字段所属类型的决策树模型的示意图;
图4是本说明书实施例提供的一种监控规则匹配的方法的流程示意图;
图5是本说明书实施例提供一种训练字段分类模型的装置的结构示意图;
图6是本说明书实施例提供的一种监控规则匹配装置的结构示意图;
图7是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
此处对本方案的应用场景进行介绍。
目前的大数据计算服务,如阿里巴巴的大数据计算服务(OpenDataProcessingService,ODPS),可以服务于批量结构化数据(主要是数据表)的存储与计算,并提供海量数据仓库的解决方案以及针对大数据的分析建模服务。
对于大数据计算服务而言,数据质量(DQC)至关重要。为此,一般需要为数据表中的每个字段配置相应的监控规则,监控该字段的字段值是否符合监控规则,如果不符合,就认定该字段存在数据质量问题,发出预警通知,需要数据修正。
在大数据计算服务中,通过将一种业务视为一个基线,每个基线实际上是一条或多条计算链路,每条计算链路可以视为一个有向无环图(DAG)的拓扑结构。图1是本说明书提供的一种计算链路的示意图。
目前业内针对字段进行监控规则的匹配方法主要似乎基于人工,由人工便利所有数据表的每个字段进行监控规则匹配,工作量巨大。并且,由人工进行监控规则匹配,也经常会出现由于疏忽大意导致的匹配错误。
而在本说明书提供的一个或多个实施例中,采用机器学习的方法,训练字段分类模型以便实现对字段进行分类,然后基于字段的字段类型来自动匹配监控规则。其中,可以考虑以下维度中的至少一个来为字段确定特征向量:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图2是本说明书实施例提供的一种训练字段分类模型的方法的流程示意图,包括以下步骤:
S200:获取字段样本集合。
在本说明书实施例中,考虑到实际业务需求,一般对数据表中的字段划分为以下类型:日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型。
进一步的,还可以具体将金额类型划分为额类型(如余额)、费类型(如手续费)、率类型(如利率)、息类型(如利息),如此,实际上是将字段划分为:日期类型、枚举类型、标识类型、额类型、费类型、率类型、息类型、非金额类型、大字段类型。
在本说明书实施例中,可以从大数据服务存储的数据表中获取一定数量的字段,作为字段样本,形成字段样本集合。字段样本集合用于训练字段分类模型。
具体而言,可以指定若干业务基线;针对指定的每个业务基线,获取该业务基线的计算链路上每个计算节点输出的数据表,作为该业务基线对应的数据表;从各业务基线对应的数据表中确定多个重要数据表;将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合。
进一步地,可以通过如下方式确定重要数据表:针对各业务基线对应的数据表中的每个数据表,根据每个业务等级的业务基线的数量、每个等级的业务基线中关联于该数据表的业务基线的数量、该数据表的热度表征值、最高热度表征值、与该数据表有血缘关系的链路下游数据表的数量、最高下游数量,计算该数据表的重要度;将重要度大于指定阈值的数据表作为重要数据表;
其中,该数据表的重要度与每个业务等级的业务基线的数量负相关,与最高热度表征值负相关,与最高下游数量负相关,与每个等级的业务基线中关联于该数据表的业务基线的数量正相关,与该数据表的热度表征值正相关,与与该数据表有血缘关系的链路下游数据表的数量正相关;该数据表的热度表征值与输出该数据表的计算节点的数量正相关,所述最高热度表征值是各业务基线对应的数据表的热度表征值的最大值,所述最高下游数量是与各业务基线对应的每个数据表有血缘关系的链路下游数据表的数量的最大值。
例如,假设存在4个基线等级,依次为8、7、5、3,那么可以采用如下公式计算数据表的重要度:
数据表的重要度=0.5*[8*(表所在8级基线数量)+7*(表所在7级基线数量)+5*(表所在5级基线数量)+3*(表所在3级基线数量)]/[8*(所有8级基线数量)+7*(所有7级基线数量)+5*(所有5级基线数量)+3*(所有3级基线数量)]+0.25*表热度表征值/最高热度表征值+0.25*表的链路下游数据表数量/最高下游数量。
当然,在筛选重要数据表的过程中,可以有人工干预。
此外,可以通过以下方式将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合:
针对每个重要数据表,从最近产生的M个该重要数据表的存储分区中获取多个数据记录;针对该重要数据表的每个字段,从获取的对应于该重要数据表的多个数据记录中,提取该字段的所有字段值,并将该字段及其所有字段值添加到字段样本集合。
其中,在大数据计算服务平台中,由于每个数据表中的记录是逐渐累积的,因此每个数据表一般采用分区存储的方法。一个数据表的不同分区可以对应不同日期,也可以对应不同机构编码、业务类型等。M例如可以取30。
在本说明书实施例中,由于数据表通常有很多条记录,因此,同一字段通常有很多字段值。将重要数据表筛选出来,对重要数据表中每个字段的很多字段值进行采样,最终得到字段样本集合。针对同一重要数据表的每个存储分区,可以从该存储分区中提取一定比例(如10%)的记录即可。
具体而言,可以基于MapReduce技术实现对字段样本及其样本值的采样。
S202:针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量。
在本说明书实施例中,可以由人工对每个字段样本所属的字段类型进行标注,也可以由机器基于图3所示的决策树模型确定每个字段样本所属的字段类型。如果还需要对属于金额类型的字段进行进一步区分(费、息、率、额),则可以由人工介入。
在本说明书实施例中,N个指定维度可以为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型。
此处示例性的给出一种根据上述所有维度确定字段的特征向量的方法:
维度1:字段的字段值是否为数值,如果是数值,则将维度1对应的向量置为(1,0),如果不是数值,则将维度1对应的向量置为(0,0)。
维度2:字段的字段名,对字段名进行分词,比如,某个字段的字段名为bal_fee_pen,切割为bal(余额)、fee(费)、pen(笔),前两个分词属于数值,第3个分词不是数值,可以将维度2对应的向量置为(1,1,0)。
维度3:字段的描述文本,类似的原理,进行分词,对于每个分词,属于数值取1,不属于数值取0,得到维度3对应的向量。
维度4:字段的字段的变量类别是否为指定变量类别。数据库中的变量类别主要有float,int,bigint,double,对于float和int,维度4对应的向量为(0,0,0),对于bigint和double,维度4对应的向量为(1,0,0)。
维度5:与字段具有血缘关系的其他字段对应的字段类型是否为金额类型,具体可以是与字段具有血缘关系的链路上游其他字段对应的字段类型是否为金额类型。如果是金额类型,则维度5对应的向量为(1,0),如果不是,则维度5对应的向量为(0,0)。
最终将维度1-5分别对应的向量进行拼接,得到字段的特征向量。
S204:基于所述字段样本集合,训练字段分类模型。
在进行模型训练时,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
需要说明的是,本说明书对训练模型时采用的机器学习算法不做限定,例如可以是Adaboost算法。
图4是本说明书实施例提供的一种监控规则匹配的方法的流程示意图,包括如下步骤:
S400:确定目标字段。
S402:基于所述目标字段的N个指定维度的特征确定该字段样本的特征向量。
确定目标字段的特征向量的方法与训练模型阶段确定字段样本的特征向量的方法一致,此处不再赘述。
S404:将所述目标字段的特征向量输入到所述分类模型,输出得到所述目标字段对应的字段类型。
S406:基于所述目标字段对应的字段类型,为所述目标字段匹配监控规则。
匹配监控规则后,就可以对所述目标字段进行数据质量监控。
图5是本说明书实施例提供一种训练字段分类模型的装置的结构示意图,确定字段类型集合,所述字段类型集合包括日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型,所述装置包括:
获取模块501,获取字段样本集合;
确定模块502,针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量;其中,所述N个指定维度为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型;
训练模块503,基于所述字段样本集合,训练字段分类模型;其中,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
所述获取模块501,指定若干业务基线;针对指定的每个业务基线,获取该业务基线的计算链路上每个计算节点输出的数据表,作为该业务基线对应的数据表;从各业务基线对应的数据表中确定多个重要数据表;将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合。
所述获取模块501,针对各业务基线对应的数据表中的每个数据表,根据每个业务等级的业务基线的数量、每个等级的业务基线中关联于该数据表的业务基线的数量、该数据表的热度表征值、最高热度表征值、与该数据表有血缘关系的链路下游数据表的数量、最高下游数量,计算该数据表的重要度;将重要度大于指定阈值的数据表作为重要数据表;
其中,该数据表的重要度与每个业务等级的业务基线的数量负相关,与最高热度表征值负相关,与最高下游数量负相关,与每个等级的业务基线中关联于该数据表的业务基线的数量正相关,与该数据表的热度表征值正相关,与与该数据表有血缘关系的链路下游数据表的数量正相关;该数据表的热度表征值与输出该数据表的计算节点的数量正相关,所述最高热度表征值是各业务基线对应的数据表的热度表征值的最大值,所述最高下游数量是与各业务基线对应的每个数据表有血缘关系的链路下游数据表的数量的最大值。
所述获取模块501,针对每个重要数据表,从最近产生的M个该重要数据表的存储分区中获取多个数据记录;针对该重要数据表的每个字段,从获取的对应于该重要数据表的多个数据记录中,提取该字段的所有字段值,并将该字段及其所有字段值添加到字段样本集合。
所述金额类型具体包括:额类型、费类型、率类型与息类型。
图6是本说明书实施例提供的一种监控规则匹配装置的结构示意图,包括:
第一确定模块601,确定目标字段;
第二确定模块602,基于所述目标字段的N个指定维度的特征确定该字段样本的特征向量;
分类模块603,将所述目标字段的特征向量输入到所述分类模型,输出得到所述目标字段对应的字段类型;
匹配模块604,基于所述目标字段对应的字段类型,为所述目标字段匹配监控规则,以便对所述目标字段进行数据质量监控。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现本说明书中的服务端或目标类型节点的方法。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本说明书中的服务端或目标类型节点的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务设备,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。
Claims (9)
1.一种训练字段分类模型的方法,确定字段类型集合,所述字段类型集合包括日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型,所述方法包括:
指定若干业务基线;针对指定的每个业务基线,获取该业务基线的计算链路上每个计算节点输出的数据表,作为该业务基线对应的数据表;
针对各业务基线对应的数据表中的每个数据表,根据每个业务等级的业务基线的数量、每个等级的业务基线中关联于该数据表的业务基线的数量、该数据表的热度表征值、最高热度表征值、与该数据表有血缘关系的链路下游数据表的数量、最高下游数量,计算该数据表的重要度;将重要度大于指定阈值的数据表作为重要数据表;其中,该数据表的重要度与每个业务等级的业务基线的数量负相关,与最高热度表征值负相关,与最高下游数量负相关,与每个等级的业务基线中关联于该数据表的业务基线的数量正相关,与该数据表的热度表征值正相关,与该数据表有血缘关系的链路下游数据表的数量正相关;该数据表的热度表征值与输出该数据表的计算节点的数量正相关,所述最高热度表征值是各业务基线对应的数据表的热度表征值的最大值,所述最高下游数量是与各业务基线对应的每个数据表有血缘关系的链路下游数据表的数量的最大值;
将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合;
针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量;其中,所述N个指定维度为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型;
基于所述字段样本集合,训练字段分类模型;其中,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
2.如权利要求1所述的方法,将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合,具体包括:
针对每个重要数据表,从最近产生的M个该重要数据表的存储分区中获取多个数据记录;
针对该重要数据表的每个字段,从获取的对应于该重要数据表的多个数据记录中,提取该字段的所有字段值,并将该字段及其所有字段值添加到字段样本集合。
3.如权利要求1所述的方法,所述金额类型具体包括:额类型、费类型、率类型与息类型。
4.一种应用权利要求1-3任一项所述的分类模型进行监控规则匹配的方法,包括:
确定目标字段;
基于所述目标字段的N个指定维度的特征确定该字段样本的特征向量;
将所述目标字段的特征向量输入到所述分类模型,输出得到所述目标字段对应的字段类型;
基于所述目标字段对应的字段类型,为所述目标字段匹配监控规则,以便对所述目标字段进行数据质量监控。
5.一种训练字段分类模型的装置,确定字段类型集合,所述字段类型集合包括日期类型、枚举类型、标识类型、金额类型、非金额类型、大字段类型,所述装置包括:
获取模块,指定若干业务基线;针对指定的每个业务基线,获取该业务基线的计算链路上每个计算节点输出的数据表,作为该业务基线对应的数据表;针对各业务基线对应的数据表中的每个数据表,根据每个业务等级的业务基线的数量、每个等级的业务基线中关联于该数据表的业务基线的数量、该数据表的热度表征值、最高热度表征值、与该数据表有血缘关系的链路下游数据表的数量、最高下游数量,计算该数据表的重要度;将重要度大于指定阈值的数据表作为重要数据表;其中,该数据表的重要度与每个业务等级的业务基线的数量负相关,与最高热度表征值负相关,与最高下游数量负相关,与每个等级的业务基线中关联于该数据表的业务基线的数量正相关,与该数据表的热度表征值正相关,与该数据表有血缘关系的链路下游数据表的数量正相关;该数据表的热度表征值与输出该数据表的计算节点的数量正相关,所述最高热度表征值是各业务基线对应的数据表的热度表征值的最大值,所述最高下游数量是与各业务基线对应的每个数据表有血缘关系的链路下游数据表的数量的最大值;将所述多个重要数据表的每个字段作为字段样本添加到字段样本集合;
确定模块,针对所述字段样本集合中的每个字段样本,从所述字段类型集合中确定对应于该字段样本的字段类型,并基于该字段样本的N个指定维度的特征确定该字段样本的特征向量;其中,所述N个指定维度为以下至少一个:字段的字段值是否为数值、字段的字段名、字段的描述文本、字段的字段值的变量类别是否为指定变量类别、与字段具有血缘关系的其他字段对应的字段类型是否为金额类型;
训练模块,基于所述字段样本集合,训练字段分类模型;其中,以字段样本的特征向量为模型输入,以字段样本对应的字段类型为模型输出。
6.如权利要求5所述的装置,所述获取模块,针对每个重要数据表,从最近产生的M个该重要数据表的存储分区中获取多个数据记录;针对该重要数据表的每个字段,从获取的对应于该重要数据表的多个数据记录中,提取该字段的所有字段值,并将该字段及其所有字段值添加到字段样本集合。
7.如权利要求5所述的装置,所述金额类型具体包括:额类型、费类型、率类型与息类型。
8.一种应用权利要求1-3任一项所述的分类模型进行监控规则匹配的装置,包括:
第一确定模块,确定目标字段;
第二确定模块,基于所述目标字段的N个指定维度的特征确定该字段样本的特征向量;
分类模块,将所述目标字段的特征向量输入到所述分类模型,输出得到所述目标字段对应的字段类型;
匹配模块,基于所述目标字段对应的字段类型,为所述目标字段匹配监控规则,以便对所述目标字段进行数据质量监控。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010307964.6A CN111506731B (zh) | 2020-04-17 | 2020-04-17 | 一种训练字段分类模型的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010307964.6A CN111506731B (zh) | 2020-04-17 | 2020-04-17 | 一种训练字段分类模型的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506731A CN111506731A (zh) | 2020-08-07 |
CN111506731B true CN111506731B (zh) | 2023-10-20 |
Family
ID=71864696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010307964.6A Active CN111506731B (zh) | 2020-04-17 | 2020-04-17 | 一种训练字段分类模型的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506731B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530597A (zh) * | 2020-11-26 | 2021-03-19 | 山东健康医疗大数据有限公司 | 基于Bert字模型的数据表分类方法、装置及介质 |
CN112950372B (zh) * | 2021-03-03 | 2022-11-22 | 上海天旦网络科技发展有限公司 | 自动交易关联的方法及系统 |
CN113095064A (zh) * | 2021-03-18 | 2021-07-09 | 杭州数梦工场科技有限公司 | 代码字段识别方法、装置、电子设备及存储介质 |
CN113569005B (zh) * | 2021-06-17 | 2024-02-20 | 国家电网有限公司 | 一种基于数据内容的大规模数据特征智能化提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929876A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种搜索方法、装置和系统 |
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10817755B2 (en) * | 2018-06-22 | 2020-10-27 | Cnh Industrial Canada, Ltd. | Measuring crop residue from imagery using a machine-learned classification model in combination with principal components analysis |
-
2020
- 2020-04-17 CN CN202010307964.6A patent/CN111506731B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929876A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种搜索方法、装置和系统 |
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111506731A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506731B (zh) | 一种训练字段分类模型的方法、装置及设备 | |
WO2020147488A1 (zh) | 异常群体识别方法及装置 | |
CN109542789B (zh) | 一种代码覆盖率统计方法及装置 | |
CN108734304B (zh) | 一种数据模型的训练方法、装置、及计算机设备 | |
JP6869347B2 (ja) | リスク制御イベント自動処理の方法および装置 | |
CN108021931A (zh) | 一种数据样本标签处理方法及装置 | |
TW201905733A (zh) | 多源資料融合方法和裝置 | |
CN108650684A (zh) | 一种关联规则确定方法及装置 | |
WO2021120845A1 (zh) | 一种同质风险单位特征集合生成方法、装置、设备及介质 | |
CN114764768A (zh) | 缺陷检测分类方法、装置、电子设备及存储介质 | |
CN110222936B (zh) | 一种业务场景的根因定位方法、系统及电子设备 | |
CN108229564B (zh) | 一种数据的处理方法、装置及设备 | |
CN105868956A (zh) | 一种数据处理方法及装置 | |
CN115563268A (zh) | 一种文本摘要的生成方法及装置、电子设备、存储介质 | |
CN114611850A (zh) | 业务分析方法、装置及电子设备 | |
CN108304868A (zh) | 模型训练方法、数据类型识别方法和计算机设备 | |
CN116560968A (zh) | 一种基于机器学习的仿真计算时间预测方法、系统及设备 | |
CN112506800B (zh) | 测试代码的方法、装置、设备、介质和程序产品 | |
CN110264333B (zh) | 一种风险规则确定方法和装置 | |
CN114817209A (zh) | 监控规则的处理方法和装置、处理器及电子设备 | |
CN110032624B (zh) | 一种样本筛选方法及装置 | |
CN109145996B (zh) | 异常环境下的指标数据生成方法、装置及电子设备 | |
CN109656805B (zh) | 用于业务分析的代码链路的生成方法、装置及业务服务器 | |
CN108762959B (zh) | 一种选取系统参数的方法、装置及设备 | |
CN107229487A (zh) | 代码处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |