CN117407750A - 基于元数据的数据质量监控方法、装置、设备及存储介质 - Google Patents
基于元数据的数据质量监控方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117407750A CN117407750A CN202311311900.3A CN202311311900A CN117407750A CN 117407750 A CN117407750 A CN 117407750A CN 202311311900 A CN202311311900 A CN 202311311900A CN 117407750 A CN117407750 A CN 117407750A
- Authority
- CN
- China
- Prior art keywords
- data
- data quality
- model
- quality evaluation
- evaluated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013441 quality evaluation Methods 0.000 claims abstract description 205
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000013145 classification model Methods 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims description 63
- 238000011156 evaluation Methods 0.000 claims description 46
- 238000012795 verification Methods 0.000 claims description 39
- 238000001303 quality assessment method Methods 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000004138 cluster model Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005065 mining Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012806 monitoring device Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种基于元数据的数据质量监控方法、装置、设备及存储介质,属于人工智能技术领域和金融科技领域。本申请通过获取待评估数据对应的元数据,将待评估数据对应的元数据输入分类模型,得到第一数据质量评估结果,将待评估数据输入聚类模型,得到第二数据质量评估结果,数据质量评估结果进行加权组合,并将数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则,基于数据质量评估结果和匹配处理规则生成数据质量监控报告。本申请还涉及区块链技术领域,待评估数据存储在区块链节点上。本申请结合了分类模型和聚类模型,通过元数据和数据本身实现数据质量评估,可以更全面地了解数据的质量状况。
Description
技术领域
本申请属于人工智能技术领域和金融科技领域,具体涉及一种基于元数据的数据质量监控方法、装置、设备及存储介质。
背景技术
在日益数字化和信息化的时代,数据质量监控对于保险业务等领域的可靠运营和决策至关重要,尽管目前存在各种元数据质量监控方案,但这些方案仍然存在一些明显的缺陷,限制了其在保障数据质量方面的有效应用。
首先,许多现有方案过于依赖手动处理和人工干预,无法满足大规模数据的高效监控需求,也难以保证数据质量的持续稳定。例如,在保险业务中,数据源众多且复杂,如保险合同、索赔数据、客户信息等,手动处理不仅耗时费力,还容易引入人为错误。
其次,现有的大部分元数据质量监控方案只采用了单一的模型或方法来评估数据质量,无法全面捕捉数据的复杂特征。例如,某分类模型可能能够识别出高质量的保险索赔数据,但却可能忽视了数据之间的潜在关联和异常。
此外,现有方案在时效性和实时性方面存在挑战,无法实现对实时数据的快速监控和处理,导致问题的滞后性。例如,保险业务中需要对即时的数据变化做出响应,对异常索赔进行及时处理,但当前方案无法实现对数据进行实施监控,存在滞后性。
发明内容
本申请实施例的目的在于提出一种基于元数据的数据质量监控方法、装置、计算机设备及存储介质,以解决现有数据质量监控方案存在的耗时费力,容易引入人为错误,无法全面捕捉数据的复杂特征,以及无法实现对数据进行实施监控,存在滞后性的技术问题。
为了解决上述技术问题,本申请实施例提供一种基于元数据的数据质量监控方法,采用了如下所述的技术方案:
一种基于元数据的数据质量监控方法,包括:
接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据;
将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型;
将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型;
按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果;
将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则;
基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。
进一步地,在将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果之前,还包括:
获取历史数据,并获取历史数据对应的历史元数据;
基于历史数据的数据质量等级对历史数据进行标注,得到标注数据;
组合历史元数据和标注数据,构建第一数据集;
将第一数据集导入预设的初始分类模型,并使用第一数据集对初始分类模型进行训练,得到第一数据质量评估模型。
进一步地,第一数据集包括第一训练集和第一验证集,将第一数据集导入预设的初始分类模型,并使用第一数据集对初始分类模型进行训练,得到第一数据质量评估模型,具体包括:
对第一训练集中的组合数据进行特征提取,得到第一训练数据特征;
初始化初始分类模型,并使用初始化的初始分类模型根据第一训练数据特征进行数据分类,输出数据分类预测结果;
将数据分类预测结果与标注数据进行比对,并使用反向传播算法对初始分类模型进行迭代更新,得到第一数据质量评估模型;
利用第一验证集对第一数据质量评估模型进行性能验证,并输出通过性能验证的第一数据质量评估模型。
进一步地,在将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果之前,还包括:
基于历史数据构建第二数据集;
基于预设的聚类算法构建初始聚类模型;
将第二数据集导入初始聚类模型,并基于第二数据集对初始聚类模型进行训练,得到第二数据质量评估模型。
进一步地,第二数据集包括第二训练集和第二验证集,将第二数据集导入初始聚类模型,并基于第二数据集对初始聚类模型进行训练,得到第二数据质量评估模型,具体包括:
对第二训练集中的组合数据进行特征提取,得到第二训练数据特征;
确定初始聚类模型中聚类簇的数量,并初始化初始聚类模型中聚类簇;
使用初始化后的聚类簇根据第二训练数据特征进行聚类操作,得到数据聚类结果;
基于数据聚类结果对初始聚类模型中聚类簇进行迭代更新,得到第二数据质量评估模型;
使用第二验证集对第二数据质量评估模型进行性能验证,并输出通过性能验证的第二数据质量评估模型。
进一步地,确定初始聚类模型中聚类簇的数量,具体包括:
随机生成预设数量的初始聚类簇;
使用初始聚类簇根据第二训练数据特征进行初步聚类操作,得到初步聚类数据;
基于初步聚类数据绘制聚类簇曲线;
基于聚类簇曲线确定初始聚类模型中聚类簇的数量。
进一步地,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,具体包括:
获取第一数据质量评估模型的性能评估参数,得到第一性能评估参数;
获取第二数据质量评估模型的性能评估参数,得到第二性能评估参数;
对第一性能评估参数和第二性能评估参数进行归一化;
参照预设的赋权表和归一化后的第一性能评估参数对第一数据质量评估结果进行赋权,得到第一权值;
参照赋权表和归一化后的第二性能评估参数对第二数据质量评估结果进行赋权,得到第二权值;
对赋权后的第一数据质量评估结果核赋权后的第二数据质量评估结果进行组合,生成待评估数据的数据质量评估结果。
为了解决上述技术问题,本申请实施例还提供一种基于元数据的数据质量监控装置,采用了如下所述的技术方案:
一种基于元数据的数据质量监控装置,包括:
数据获取模块,用于接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据;
第一评估模块,用于将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型;
第二评估模块,用于将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型;
加权组合模块,用于按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果;
规则匹配模块,用于将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则;
监控报告模块,用于基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述任一项所述的基于元数据的数据质量监控方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述中任一项所述的基于元数据的数据质量监控方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请公开一种基于元数据的数据质量监控方法、装置、设备及存储介质,属于人工智能技术领域和金融科技领域。本申请通过接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据,将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型,将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则,基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。本申请结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请可以应用于其中的示例性系统架构图;
图2示出了根据本申请的基于元数据的数据质量监控方法的一个实施例的流程图;
图3示出了根据本申请的基于元数据的数据质量监控装置的一个实施例的结构示意图;
图4示出了根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例所提供的基于元数据的数据质量监控方法一般由服务器执行,相应地,基于元数据的数据质量监控装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于元数据的数据质量监控方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在保险业务中,数据源众多且复杂,如保险合同、索赔数据、客户信息等,手动处理不仅耗时费力,还容易引入人为错误,而目前有一些基于元数据质量监控方案只采用了单一的模型或方法来评估数据质量,无法全面捕捉数据的复杂特征,导致无法全面地了解数据的质量状况以及挖掘应对的数据处理手段。
为了解决上述技术问题,本申请公开一种基于元数据的数据质量监控方法、装置、设备及存储介质,属于人工智能技术领域和金融科技领域,本申请通过结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
所述的基于元数据的数据质量监控方法,包括以下步骤:
S201,接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据。
在上述实施例中,接收数据质量监控指令,获取待评估的数据,并获取与这些数据相关联的元数据,元数据是描述数据的数据,元数据包括数据的结构、类型、来源等信息。
例如,在评估保险业务数据质量时,待评估数据应该是保险业务数据,例如保险合同信息、索赔数据、客户信息等,元数据是关于这些保险业务数据的描述性信息,通过可以了解数据的特征和属性。
假设需要评估一家保险公司的索赔数据的质量,待评估数据是这些索赔数据,每个索赔包含各种信息,如索赔号、保单号、索赔日期、索赔金额、事故描述等,而元数据则提供关于这些索赔数据的描述性信息,例如:
数据源:索赔数据可能来自不同的渠道,如在线申请、电话申报等。
字段信息:每个索赔可能包含的字段,如索赔号、保单号、索赔日期等。
数据类型:每个字段的数据类型,如索赔号可能是文本型,索赔金额可能是数值型。
数据范围:每个字段可能的取值范围,例如索赔金额的范围可能是100到1000000。
数据格式:日期字段的日期格式,金额字段的货币格式等。
数据来源:数据的来源系统或部门,例如是哪个部门记录的索赔数据。
数据负责人:负责维护和管理数据的人员。
数据更新频率:数据的更新频率,例如每天、每周等。
数据质量规则:关于数据质量的规则,例如索赔金额不应该为负数,索赔日期应该在合理的范围内等。
数据关系:索赔数据与其他数据(如客户信息、保单信息)之间的关系。
在上述实施例中,通过收集和管理这些元数据,可以更好地了解索赔数据的特征和属性,从而更有效地进行质量评估,可以使用这些元数据来建立分类模型和聚类模型,进而综合评估数据质量并提供相应的处理建议。
S202,将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型。
在上述实施例中,使用第一数据质量评估模型对待评估数据的元数据进行输入,并得到第一数据质量评估结果,这里的第一数据质量评估模型是一个分类模型,可以根据输入的元数据对数据进行分类评估,判断数据的质量。分类模型的任务是根据元数据特征来预测数据的质量级别,例如高、中、低等。
S203,将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型。
在上述实施例中,除了使用分类模型以外,还使用第二数据质量评估模型对待评估数据本身进行聚类,并得到第二数据质量评估结果,这里的第二数据质量评估模型是一个聚类模型,可以根据数据的相似性将数据聚类,进而评估数据的质量。聚类模型将待评估数据分成不同的簇,每个簇代表一类相似的数据特征。
将分类模型和聚类模型结合在元数据的数据质量监控中可以提供更全面的信息,从不同角度评估数据的质量,并有助于识别潜在的问题,分类模型用于确定数据的质量级别(如高、中、低),而聚类模型将数据归入簇可以揭示数据的相似性和异常,以便全面地了解数据的质量状况以及挖掘应对的数据处理手段。
例如,假设有一个保险公司想要监控保险索赔数据的质量,分类模型用于判断索赔是否高质量,聚类模型用于将索赔数据分成不同的簇,以揭示数据的相似性和异常。
S204,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果。
在上述实施例中,使用预设的加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,不同的评估模型对数据质量的评估结果会以不同的权重进行组合,从而得到综合的数据质量评估结果。
进一步地,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,具体包括:
获取第一数据质量评估模型的性能评估参数,得到第一性能评估参数;
获取第二数据质量评估模型的性能评估参数,得到第二性能评估参数;
对第一性能评估参数和第二性能评估参数进行归一化;
参照预设的赋权表和归一化后的第一性能评估参数对第一数据质量评估结果进行赋权,得到第一权值;
参照赋权表和归一化后的第二性能评估参数对第二数据质量评估结果进行赋权,得到第二权值;
对赋权后的第一数据质量评估结果核赋权后的第二数据质量评估结果进行组合,生成待评估数据的数据质量评估结果。
在本申请一种具体的实施例中,可以通过模型性能进行加权,例如使用各自的验证集对分类模型和聚类模型的性能进行评估,计算各自的准确率、F1分数等性能指标,通过这些性能指标来实现加权。
具体来说,获取第一性能评估参数和第二性能评估参数,对第一性能评估参数和第二性能评估参数进行归一化,将第一性能评估参数和第二性能评估参数转换为在相同尺度上的值,以便进行比较和加权。根据分类模型的性能,计算分类模型的权重。例如,可以将分类模型的准确率映射到一个权重范围(或赋权表),如0.1到1之间,根据聚类模型的性能,计算聚类模型的权重,同样地,将聚类模型的评估指标映射到权重范围(或赋权表)。对赋权后的第一数据质量评估结果核赋权后的第二数据质量评估结果进行组合,生成待评估数据的数据质量评估结果。
在上述实施例中,通过这种加权组合的方法,可以综合考虑不同数据质量评估模型的性能评估参数和赋权表,得到对待评估数据的综合数据质量评估结果,这样可以更全面地评估数据的质量,并根据具体需求进行决策或采取相应的措施。
在本申请另外的实施例中,也可以采用基于数据特点加权或者基于领域知识加权方案来对第一数据质量评估结果和第二数据质量评估结果进行加权组合。在实际应用中,可以尝试不同的加权方案,并根据验证结果来选择最适合的方案。
S205,将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则。
在上述实施例中,将综合的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,数据处理规则是预设的规则,可以根据数据质量评估结果来选择相应的处理规则。
S206,基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。
在上述实施例中,基于待评估数据的数据质量评估结果和匹配处理规则,生成数据质量监控报告,并将其输出,数据质量监控报告提供了关于数据质量评估结果和相应处理规则的详细信息,可以帮助用户了解数据的质量状况和采取相应的处理措施。
在上述实施例中,本申请结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
进一步地,在将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果之前,还包括:
获取历史数据,并获取历史数据对应的历史元数据;
基于历史数据的数据质量等级对历史数据进行标注,得到标注数据;
组合历史元数据和标注数据,构建第一数据集;
将第一数据集导入预设的初始分类模型,并使用第一数据集对初始分类模型进行训练,得到第一数据质量评估模型。
在上述实施例中,获取历史数据,这些数据可能是已经存在的数据集,同时还需要获取与这些历史数据相关的元数据,元数据可以包括数据的来源、格式、字段信息等。
根据预先定义的数据质量等级标准,对历史数据进行评估,并为每个数据样本分配相应的数据质量等级标签,这个过程可以通过人工标注或自动化算法来完成。
将历史元数据和标注数据合并,构建第一数据集,这个数据集包含了历史数据的特征信息和对应的数据质量等级标签。
将第一数据集作为训练集,导入预设的初始分类模型,对模型进行训练,训练的目标是根据历史数据的特征信息,学习到一个分类模型,该模型可以对新的数据进行质量评估,并预测其对应的数据质量等级。
进一步地,第一数据集包括第一训练集和第一验证集,将第一数据集导入预设的初始分类模型,并使用第一数据集对初始分类模型进行训练,得到第一数据质量评估模型,具体包括:
对第一训练集中的组合数据进行特征提取,得到第一训练数据特征;
初始化初始分类模型,并使用初始化的初始分类模型根据第一训练数据特征进行数据分类,输出数据分类预测结果;
将数据分类预测结果与标注数据进行比对,并使用反向传播算法对初始分类模型进行迭代更新,得到第一数据质量评估模型;
利用第一验证集对第一数据质量评估模型进行性能验证,并输出通过性能验证的第一数据质量评估模型。
在上述实施例中,从第一训练集中提取出有意义的特征,这些特征可以是与数据质量相关的统计指标、属性值分布等,特征提取的目的是将原始数据转化为可供分类模型使用的特征表示。
根据提取的特征,初始化一个分类模型,使用这个初始分类模型对第一训练数据特征进行分类,模型将学习特征与标签之间的关系,得到数据分类预测结果。可以选择适合分类任务的模型,例如决策树、随机森林、支持向量机、逻辑回归等。
将数据分类预测结果与标注数据进行比对,计算分类模型的预测误差,然后使用反向传播算法,根据误差信息对初始分类模型的参数进行更新,这个过程会迭代多次,直到模型的性能达到一定的要求,得到第一数据质量评估模型。
使用第一验证集作为测试集,对第一数据质量评估模型进行性能验证,通过对比模型的预测结果与标注数据,计算模型的性能指标,如准确率、召回率等,如果模型的性能达到预先设定的要求,那么该模型通过了性能验证,可以用于对新数据进行质量评估。
在上述实施例中,本申请通过使用一个分类模型,如随机森林或支持向量机,来训练一个元数据质量分类器,使用标记的训练数据,让模型能够预测元数据的质量级别。
进一步地,在将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果之前,还包括:
基于历史数据构建第二数据集;
基于预设的聚类算法构建初始聚类模型;
将第二数据集导入初始聚类模型,并基于第二数据集对初始聚类模型进行训练,得到第二数据质量评估模型。
在上述实施例中,根据历史数据,选择合适的数据样本,并组成第二数据集,需要说明的是,在聚类任务中,不需要预先对历史数据进行标注。选择一个预设的聚类算法,如K-means或层次聚类等,构建一个初始的聚类模型,这个聚类模型可以用于将数据集中的样本进行聚类,将相似的样本归为一类。
将第二数据集导入初始聚类模型,根据模型的聚类结果将样本分为不同的类别,然后使用这些类别信息对初始聚类模型进行训练。使用聚类分析,例如K均值聚类,将历史数据分成不同的簇。然后可以对每个簇进行质量评估,以识别是否有某个簇中的数据具有较低的质量,并采取适当的措施。
经过训练后,得到第二数据质量评估模型,这个模型可以根据数据的特征信息,将新的数据样本归类为不同的质量级别,从而对数据的质量进行评估。
进一步地,第二数据集包括第二训练集和第二验证集,将第二数据集导入初始聚类模型,并基于第二数据集对初始聚类模型进行训练,得到第二数据质量评估模型,具体包括:
对第二训练集中的组合数据进行特征提取,得到第二训练数据特征;
确定初始聚类模型中聚类簇的数量,并初始化初始聚类模型中聚类簇;
使用初始化后的聚类簇根据第二训练数据特征进行聚类操作,得到数据聚类结果;
基于数据聚类结果对初始聚类模型中聚类簇进行迭代更新,得到第二数据质量评估模型;
使用第二验证集对第二数据质量评估模型进行性能验证,并输出通过性能验证的第二数据质量评估模型。
在上述实施例中,根据第二训练集中的组合数据,提取出适当的特征表示,这些特征可以反映数据的属性、结构、关联等信息,用于后续的聚类操作。根据经验或领域知识,确定初始聚类模型中聚类簇的数量,然后初始化聚类簇,将每个簇代表一个数据质量级别。将第二训练数据特征输入初始聚类模型,根据聚类算法(如K均值聚类)对数据进行聚类操作,将数据样本划分到不同的聚类簇中,得到数据的聚类结果。根据数据聚类结果,对初始聚类模型中的聚类簇进行迭代更新,可以根据每个簇中的数据质量情况,调整簇的质量级别,以提高模型的准确性和可靠性。根据数据聚类结果,对初始聚类模型中的聚类簇进行迭代更新,可以根据每个簇中的数据质量情况,调整簇的质量级别,以提高模型的准确性和可靠性。
进一步地,确定初始聚类模型中聚类簇的数量,具体包括:
随机生成预设数量的初始聚类簇;
使用初始聚类簇根据第二训练数据特征进行初步聚类操作,得到初步聚类数据;
基于初步聚类数据绘制聚类簇曲线;
基于聚类簇曲线确定初始聚类模型中聚类簇的数量。
在上述实施例中,可以通过“肘部法则”来确定聚类簇数量。具体来说,确定一个合理的簇数量范围,例如从2到某个上限,例如,在保险业务数据质量监控中,可以根据业务需求和数据特点选择上限范围。对于每个选择的簇数量,运行聚类算法(如K均值),然后计算每个样本与其所属簇中心的距离之和,也就是SSE(簇内平方和,Sum of Squared Errors),将计算得到的SSE值与对应的簇数量进行绘制,得到一个SSE随簇数量增加而减小的曲线,在绘制的曲线上,通常会出现一个明显的弯曲点,有时形状像手肘的弯曲,因此被称为“肘部”点,这个点通常是SSE开始减缓的地方,找到“肘部”点对应的簇数量,这个数量就可以作为聚类簇的最终数量。
通过利用聚类簇曲线来确定初始聚类模型中聚类簇的数量,这样可以避免主观设定聚类簇数量,而是通过客观的聚类性能指标来选择最佳的聚类簇数量,这种方法可以提高聚类模型的准确性和可靠性,从而更好地对数据进行聚类分析。
聚类分析可以将数据分成不同的簇,然后对每个簇进行质量评估,以识别低质量数据并采取适当的措施,这种方法可以帮助发现数据集中的异常或低质量数据,提高数据的质量和可用性。
在上述实施例中,本申请公开一种基于元数据的数据质量监控方法,属于人工智能技术领域和金融科技领域。本申请通过接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据,将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型,将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则,基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。本申请结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
在本实施例中,基于元数据的数据质量监控方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收指令或者获取数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
需要强调的是,为进一步保证上述待评估数据的私密和安全性,上述待评估数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于元数据的数据质量监控装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于元数据的数据质量监控装置300,包括:
数据获取模块301,用于接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据;
第一评估模块302,用于将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型;
第二评估模块303,用于将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型;
加权组合模块304,用于按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果;
规则匹配模块305,用于将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则;
监控报告模块306,用于基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。
进一步地,基于元数据的数据质量监控装置300还包括:
历史数据模块,用于获取历史数据,并获取历史数据对应的历史元数据;
数据标注模块,用于基于历史数据的数据质量等级对历史数据进行标注,得到标注数据;
数据组合模块,用于组合历史元数据和标注数据,构建第一数据集;
分类训练模块,用于将第一数据集导入预设的初始分类模型,并使用第一数据集对初始分类模型进行训练,得到第一数据质量评估模型。
进一步地,第一数据集包括第一训练集和第一验证集,分类训练模块具体包括:
第一特征单元,用于对第一训练集中的组合数据进行特征提取,得到第一训练数据特征;
数据分类单元,用于初始化初始分类模型,并使用初始化的初始分类模型根据第一训练数据特征进行数据分类,输出数据分类预测结果;
分类迭代单元,用于将数据分类预测结果与标注数据进行比对,并使用反向传播算法对初始分类模型进行迭代更新,得到第一数据质量评估模型;
第一验证单元,用于利用第一验证集对第一数据质量评估模型进行性能验证,并输出通过性能验证的第一数据质量评估模型。
进一步地,基于元数据的数据质量监控装置300还包括:
数据集构建模块,用于基于历史数据构建第二数据集;
聚类模型构建模块,用于基于预设的聚类算法构建初始聚类模型;
聚类训练模块,用于将第二数据集导入初始聚类模型,并基于第二数据集对初始聚类模型进行训练,得到第二数据质量评估模型。
进一步地,第二数据集包括第二训练集和第二验证集,聚类训练模块具体包括:
第二特征单元,用于对第二训练集中的组合数据进行特征提取,得到第二训练数据特征;
聚类簇配置单元,用于确定初始聚类模型中聚类簇的数量,并初始化初始聚类模型中聚类簇;
聚类操作单元,用于使用初始化后的聚类簇根据第二训练数据特征进行聚类操作,得到数据聚类结果;
聚类迭代单元,用于基于数据聚类结果对初始聚类模型中聚类簇进行迭代更新,得到第二数据质量评估模型;
第二验证单元,用于使用第二验证集对第二数据质量评估模型进行性能验证,并输出通过性能验证的第二数据质量评估模型。
进一步地,聚类簇配置单元具体包括:
聚类簇生成子单元,用于随机生成预设数量的初始聚类簇;
初步聚类操作子单元,用于使用初始聚类簇根据第二训练数据特征进行初步聚类操作,得到初步聚类数据;
曲线绘制子单元,用于基于初步聚类数据绘制聚类簇曲线;
聚类簇确定子单元,用于基于聚类簇曲线确定初始聚类模型中聚类簇的数量。
进一步地,加权组合模块304具体包括:
第一评估参数单元,用于获取第一数据质量评估模型的性能评估参数,得到第一性能评估参数;
第二评估参数单元,用于获取第二数据质量评估模型的性能评估参数,得到第二性能评估参数;
参数归一化单元,用于对第一性能评估参数和第二性能评估参数进行归一化;
第一赋权单元,用于参照预设的赋权表和归一化后的第一性能评估参数对第一数据质量评估结果进行赋权,得到第一权值;
第二赋权单元,用于参照赋权表和归一化后的第二性能评估参数对第二数据质量评估结果进行赋权,得到第二权值;
加权组合单元,用于对赋权后的第一数据质量评估结果核赋权后的第二数据质量评估结果进行组合,生成待评估数据的数据质量评估结果。
在上述实施例中,本申请公开一种基于元数据的数据质量监控装置,属于人工智能技术领域和金融科技领域。本申请通过接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据,将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型,将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则,基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。本申请结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于元数据的数据质量监控方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于元数据的数据质量监控方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
在上述实施例中,本申请公开一种计算机设备,属于人工智能技术领域和金融科技领域。本申请通过接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据,将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型,将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则,基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。本申请结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于元数据的数据质量监控方法的步骤。
在上述实施例中,本申请公开一种计算机可读存储介质,属于人工智能技术领域和金融科技领域。本申请通过接收数据质量监控指令,获取待评估数据,并获取待评估数据对应的元数据,将待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,第一数据质量评估模型为分类模型,将待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,第二数据质量评估模型为聚类模型,按照预设加权算法对第一数据质量评估结果和第二数据质量评估结果进行加权组合,得到待评估数据的数据质量评估结果,将待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则,基于待评估数据的数据质量评估结果和匹配处理规则生成数据质量监控报告,并输出数据质量监控报告。本申请结合了分类模型和聚类模型的结果,通过元数据和数据本身从不同角度综合评估数据质量,同时使用规则引擎根据评估结果提供具体的处理建议,可以更全面地了解数据的质量状况以及挖掘应对的数据处理手段。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于元数据的数据质量监控方法,其特征在于,包括:
接收数据质量监控指令,获取待评估数据,并获取所述待评估数据对应的元数据;
将所述待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,所述第一数据质量评估模型为分类模型;
将所述待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,所述第二数据质量评估模型为聚类模型;
按照预设加权算法对所述第一数据质量评估结果和所述第二数据质量评估结果进行加权组合,得到所述待评估数据的数据质量评估结果;
将所述待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则;
基于所述待评估数据的数据质量评估结果和所述匹配处理规则生成数据质量监控报告,并输出所述数据质量监控报告。
2.如权利要求1所述的基于元数据的数据质量监控方法,其特征在于,在所述将所述待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果之前,还包括:
获取历史数据,并获取所述历史数据对应的历史元数据;
基于所述历史数据的数据质量等级对所述历史数据进行标注,得到标注数据;
组合所述历史元数据和所述标注数据,构建第一数据集;
将所述第一数据集导入预设的初始分类模型,并使用所述第一数据集对所述初始分类模型进行训练,得到所述第一数据质量评估模型。
3.如权利要求2所述的基于元数据的数据质量监控方法,其特征在于,所述第一数据集包括第一训练集和第一验证集,所述将所述第一数据集导入预设的初始分类模型,并使用所述第一数据集对所述初始分类模型进行训练,得到所述第一数据质量评估模型,具体包括:
对所述第一训练集中的组合数据进行特征提取,得到第一训练数据特征;
初始化所述初始分类模型,并使用初始化的所述初始分类模型根据所述第一训练数据特征进行数据分类,输出数据分类预测结果;
将所述数据分类预测结果与所述标注数据进行比对,并使用反向传播算法对所述初始分类模型进行迭代更新,得到所述第一数据质量评估模型;
利用所述第一验证集对所述第一数据质量评估模型进行性能验证,并输出通过性能验证的所述第一数据质量评估模型。
4.如权利要求2所述的基于元数据的数据质量监控方法,其特征在于,在所述将所述待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果之前,还包括:
基于所述历史数据构建第二数据集;
基于预设的聚类算法构建初始聚类模型;
将所述第二数据集导入所述初始聚类模型,并基于所述第二数据集对所述初始聚类模型进行训练,得到所述第二数据质量评估模型。
5.如权利要求4所述的基于元数据的数据质量监控方法,其特征在于,所述第二数据集包括第二训练集和第二验证集,所述将所述第二数据集导入所述初始聚类模型,并基于所述第二数据集对所述初始聚类模型进行训练,得到所述第二数据质量评估模型,具体包括:
对所述第二训练集中的组合数据进行特征提取,得到第二训练数据特征;
确定所述初始聚类模型中聚类簇的数量,并初始化所述初始聚类模型中聚类簇;
使用初始化后的聚类簇根据所述第二训练数据特征进行聚类操作,得到数据聚类结果;
基于所述数据聚类结果对所述初始聚类模型中聚类簇进行迭代更新,得到所述第二数据质量评估模型;
使用所述第二验证集对所述第二数据质量评估模型进行性能验证,并输出通过性能验证的所述第二数据质量评估模型。
6.如权利要求5所述的基于元数据的数据质量监控方法,其特征在于,所述确定所述初始聚类模型中聚类簇的数量,具体包括:
随机生成预设数量的初始聚类簇;
使用所述初始聚类簇根据所述第二训练数据特征进行初步聚类操作,得到初步聚类数据;
基于所述初步聚类数据绘制聚类簇曲线;
基于所述聚类簇曲线确定所述初始聚类模型中聚类簇的数量。
7.如权利要求1所述的基于元数据的数据质量监控方法,其特征在于,所述按照预设加权算法对所述第一数据质量评估结果和所述第二数据质量评估结果进行加权组合,得到所述待评估数据的数据质量评估结果,具体包括:
获取所述第一数据质量评估模型的性能评估参数,得到第一性能评估参数;
获取所述第二数据质量评估模型的性能评估参数,得到第二性能评估参数;
对所述第一性能评估参数和所述第二性能评估参数进行归一化;
参照预设的赋权表和归一化后的第一性能评估参数对所述第一数据质量评估结果进行赋权,得到第一权值;
参照所述赋权表和归一化后的第二性能评估参数对所述第二数据质量评估结果进行赋权,得到第二权值;
对赋权后的所述第一数据质量评估结果核赋权后的所述第二数据质量评估结果进行组合,生成所述待评估数据的数据质量评估结果。
8.一种基于元数据的数据质量监控装置,其特征在于,包括:
数据获取模块,用于接收数据质量监控指令,获取待评估数据,并获取所述待评估数据对应的元数据;
第一评估模块,用于将所述待评估数据对应的元数据输入第一数据质量评估模型,得到第一数据质量评估结果,其中,所述第一数据质量评估模型为分类模型;
第二评估模块,用于将所述待评估数据输入第二数据质量评估模型,得到第二数据质量评估结果,其中,所述第二数据质量评估模型为聚类模型;
加权组合模块,用于按照预设加权算法对所述第一数据质量评估结果和所述第二数据质量评估结果进行加权组合,得到所述待评估数据的数据质量评估结果;
规则匹配模块,用于将所述待评估数据的数据质量评估结果与预设规则引擎中的数据处理规则进行匹配,得到匹配处理规则;
监控报告模块,用于基于所述待评估数据的数据质量评估结果和所述匹配处理规则生成数据质量监控报告,并输出所述数据质量监控报告。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于元数据的数据质量监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于元数据的数据质量监控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311311900.3A CN117407750A (zh) | 2023-10-11 | 2023-10-11 | 基于元数据的数据质量监控方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311311900.3A CN117407750A (zh) | 2023-10-11 | 2023-10-11 | 基于元数据的数据质量监控方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117407750A true CN117407750A (zh) | 2024-01-16 |
Family
ID=89495453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311311900.3A Pending CN117407750A (zh) | 2023-10-11 | 2023-10-11 | 基于元数据的数据质量监控方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407750A (zh) |
-
2023
- 2023-10-11 CN CN202311311900.3A patent/CN117407750A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148987A (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN116977095A (zh) | 一种动态风控预警方法、装置、计算机设备及存储介质 | |
CN117522538A (zh) | 招投标信息处理方法、装置、计算机设备及存储介质 | |
CN117093477A (zh) | 一种软件质量评估方法、装置、计算机设备及存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN117875320A (zh) | 基于人工智能的数据处理方法、装置、设备及存储介质 | |
CN117217812A (zh) | 一种用户行为预测方法、装置、计算机设备及存储介质 | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
CN117314586A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN116843395A (zh) | 一种业务系统的告警分级方法、装置、设备及存储介质 | |
CN116777646A (zh) | 基于人工智能的风险识别方法、装置、设备及存储介质 | |
CN115238009A (zh) | 基于血缘分析的元数据管理方法、装置、设备及存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN117407750A (zh) | 基于元数据的数据质量监控方法、装置、设备及存储介质 | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 | |
CN112084408A (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
CN117312991B (zh) | 一种分类识别系统的构建方法及其相关设备 | |
CN117078406A (zh) | 一种客户流失预警方法、装置、计算机设备及存储介质 | |
CN117251799A (zh) | 一种财务凭证处理方法、装置、计算机设备及存储介质 | |
CN115829763A (zh) | 数据报送方法、装置、计算机设备及存储介质 | |
CN116756147A (zh) | 一种数据归类方法、装置、计算机设备及存储介质 | |
CN116756539A (zh) | 项目推荐方法、装置、计算机设备及存储介质 | |
CN116934506A (zh) | 一种用户行为预测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |