CN117609393B - 一种元数据一致性测试方法 - Google Patents
一种元数据一致性测试方法 Download PDFInfo
- Publication number
- CN117609393B CN117609393B CN202311558241.3A CN202311558241A CN117609393B CN 117609393 B CN117609393 B CN 117609393B CN 202311558241 A CN202311558241 A CN 202311558241A CN 117609393 B CN117609393 B CN 117609393B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- consistency
- test
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 230000001364 causal effect Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000010998 test method Methods 0.000 abstract description 11
- 238000004590 computer program Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Abstract
本发明公开了一种元数据一致性测试方法,包括获取元数据和待测试元数据,对所述元数据进行预处理,对所述元数据进行第一特征提取和第二特征提取,获得第一特征数据和第二特征数据,根据所述第一特征数据构建第一测试模型,根据所述第二特征数据构造第二测试模型,根据所述第一特征数据和第二特征数据获取测试差异系数,若所述差异系数小于阈值,则选择第一测试模型进行一致性测试,反之选择第二测试模型进行一致性测试,输出测试结果。该方法不仅可以提高元数据一致性测试方法的精度,同时具有较好的可解释性,可以直接应用于元数据一致性测试系统中。
Description
技术领域
本发明涉及测试领域,尤其涉及一种元数据一致性测试方法。
背景技术
元数据一致性技术在测试领域的应用越来越广泛,可以帮助元数据一致性测试的管理者及时、高效地获取元数据一致性测试结果,实现元数据一致性测试结果的智能获取。目前,元数据一致性测试具有用户信息量庞大、数据种类多样、信息密度大等特点,一致性测试方法存在较多的不确定因素,导致元数据的一致性测试方法存在较大的不确定性。虽然已经发明了一些元数据一致性测试方法,但是仍不能有效解决元数据的一致性测试方法的不确定问题。
发明内容
本发明的目的是要提供一种元数据一致性测试方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:
获取元数据和待测试元数据,对所述元数据进行预处理;
对所述元数据进行第一特征提取和第二特征提取,获得第一特征数据和第二特征数据;
根据所述第一特征数据构建第一测试模型,根据所述第二特征数据构造第二测试模型;
根据所述第一特征数据和第二特征数据获取测试差异系数,若所述差异系数小于阈值,则选择第一测试模型进行一致性测试;所述测试差异系数的计算公式为:
其中类别s的测试差异系数为第一特征数据V的一致性关联系数为γ1,第二特征数据Q的一致性关联系数为γ2,第一特征数据V的一致性数量为e,第二特征数据Q的一致性数量为c,第一特征数据V的一致性数据第s个类别的数量为Vs,第二特征数据的一致性数据第s个类别的数量为Qs,一致性变化系数为ρ;
反之选择第二测试模型进行一致性测试,输出测试结果。
进一步,所述预处理的方法,包括去除重复数据、删除缺失值和异常值、数据集成、数据转换和数据规约。
进一步,获得所述第一特征数据的方法,包括:
从预处理后的元数据中采样得到序列,对序列进行数据增强,数据增强的表达式为:
其中序列x(i)等价于第一增强数据为c(x),第二增强数据为b(x),第i个序列为x(i),序列x(i)的导数为
将第一增强数据分别经过特征提取器、投影头和预测头得到特征向量一,
第二增强数据分别经过特征提取器和投影头得到特征向量,计算向量之间的损失函数,损失函数的计算公式为:
其中特征向量一为kγ,特征向量二为sρ,特征向量一kγ和特征向量二sρ的损失函数为Lγ,ρ,采用梯度下降和动量法更新特征提取器、投影头或预测头的参数,参数更新的计算公式为:
θ=τρ+(1-τ)γ
其中更新后的参数为θ,超参数为τ,得到参数更新后的特征提取器,将预处理后的元数据输入特征提取器,输出第一数据特征。
进一步,获得所述第二特征数据的方法,包括:
第二特征提取的原理为:
fd(e)=wα(qσ(e))
其中特征提取器的特征参数为σ,分类头的特征参数为α,特征提取器为qσ,分类头为wα,样本集数据为e,模型样本集数据e的特征结果为fd(e);
对预处理后的元数据进行分类采样,获得样本集,采用提取任务对特征提取器进行自监督预训练,生成预训练集;
给定预训练阶段的优化目标,优化目标的表达式为:
其中第i个提取任务的损失权重为ηi,提取任务头网络的参数集为Φ,第i个提取任务的损失函数为Vi(·),第i个提取任务的提取标签为yi,第i个提取任务的分类头为提取任务的数量为g,预训练的特征提取器特征参数为/>微调使用损失函数的表达式为:
其中模型对样本集数据特征属于该类别的预测概率为类别数为s,样本集是否属于第i个类别为yi,若样本集数据属于类别i则为1,反之为0;
不断调整参数,直到损失函数函数值小于0.23,将模型预测的数据特征输出为第二特征数据。
进一步,根据所述第一特征数据构建第一测试模型的方法,包括:
第一测试模型采用基于深度学习算法的状态迁移图算法,还包括随机森林算法和特征融合算法;
采用随机森林算法将第一特征数据按照3:1的比例分成训练集和测试集,根据元数据创建状态迁移图,将训练集输入状态迁移图算法中,根据状态迁移图和输入的第一特征数据进行一致性测试;
构建目标函数:
其中类别为i,第i个类别的权重为ωi,类别的数量为r,特征a与特征b在类别i上相同的数量为类别i的一致性得分为g(i),给定损失函数:
其中第i个第一特征的目标类为k,目标类的数量为e,第k个目标类的实际一致性得分为第k个目标类的预测一致性得分为/>按照损失函数结果对类别的第一特征数据进行特征融合,引入优化算法调整模型参数,直到损失函数的值小于0.17,获得第一测试模型。
进一步,根据所述第二特征数据构造第二测试模型的方法,包括:
第二测试模型基于决策树算法的因果图算法,包括分类算法和交叉验证法;
根据特征数据的因果关系构建因果图,输入特征数据,使用分类算法对特征数据进行分类,采用交叉验证法将分类数据分为测试集和训练集,应用因果图算法的进行结构和训练集的学习和推理,训练第二测试模型,将测试集输入训练好的第二测试模型获得一致性得分:
其中第r个类别中最大可能一致性的特征数量为ur,第r个类别中实际一致性的特征数量为kr,第r个类别的一致性得分为e(r),给定损失函数:
其中损失函数为一致性得分的实际值为g(r),一致性得分的预测值为p(r),一致性误差常数为σ,直到损失函数值低于0.19时停止训练,获得第二测试模型。
第二方面,本申请实施例还提供一种电子设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序。
本发明的有益效果是:
本发明是一种元数据一致性测试方法,与现有技术相比,本发明具有以下技术效果:
本发明通过预处理、特征提取、模型构建和获取一致性得分步骤,可以提元数据一致性测试的准确性,从而提高元数据的一致性测试的精度,将元数据一致性测试智能化,可以大大节省资源和人力成本,提高工作效率,可以实现元数据的一致性测试,实时对元数据进行一致性测试,对元数据的一致性测试具有重要意义,可以适应不同元数据一致性测试系统、不同用户的元数据一致性测试需求,具有一定的普适性。
附图说明
图1为本发明一种元数据一致性测试方法的步骤流程图;
图2为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明一种元数据一致性测试方法包括以下步骤:
如图1所示,在本实施例中,包括以下步骤:
获取元数据和待测试元数据,对所述元数据进行预处理;
在实际评估中,将某网页的5组元数据作为研究对象,进行元数据一致性测试方法测试,5组数据分别为:
1组28岁已婚男工程师月收入5w;
2组下午3点多云温度25°湿度60%风速10km/h;
3组电子产品001价格99.99元评分4.5星库存50件;
4组中国北京经度116.40°E维度39.90°E海拔45米;
5组用户0001使用手机浏览商品详情页在2023年7月19日10点17分购买电脑;
对所述元数据进行第一特征提取和第二特征提取,获得第一特征数据和第二特征数据;
在实际评估中,第一特征数据分别为:1组工程师、28岁;2组下午3点、湿度60%;3组电子产品、评分4.5星;4组北京、海拔45米;5组手机、购买电脑;
第二特征数据分别为1组已婚、男;2组多云、风速10km/h;3组价格99.99元、库存50件;4组经度116.40°E、维度39.90°E;5组浏览商品详情页、2023年7月19日10点17分;
根据所述第一特征数据构建第一测试模型,根据所述第二特征数据构造第二测试模型;
根据所述第一特征数据和第二特征数据获取测试差异系数,若所述差异系数小于阈值,则选择第一测试模型进行一致性测试;所述测试差异系数的计算公式为:
其中类别s的测试差异系数为第一特征数据V的一致性关联系数为γ1,第二特征数据Q的一致性关联系数为γ2,第一特征数据V的一致性数量为e,第二特征数据Q的一致性数量为c,第一特征数据V的一致性数据第s个类别的数量为Vs,第二特征数据的一致性数据第s个类别的数量为Qs,一致性变化系数为ρ;
反之选择第二测试模型进行一致性测试,输出测试结果;
在实际评估中,测试差异系数可以确保数据准确性、增加决策信息、降低决策风险、提供明确的评估标准,在实验中都采用第二测试模型1组和4组的误差率为0.37,在实验中都采用第一测试模型2组、3组和5组误差率为0.43,增加测试差异系数后一致性评估的误差率为0.09,测试差异系数降低了一致性测试的误差率,测试差异系数的阈值为0.52,1组、2组、3组、4组、5组的测试差异系数分别为0.51、0.64、0.59、0.47、0.71,1组和4组采用第一测试模型进行一致性测试,2组、3组、5组采用第二测试模型进行一致性测试,1组、2组、3组、4组、5组的一致性得分别分为82%、100%、78%、100%、93%。
在本实施例中,所述预处理的方法,包括去除重复数据、删除缺失值和异常值、数据集成、数据转换和数据规约。
在本实施例中,获得所述第一特征数据的方法,包括:
从预处理后的元数据中采样得到序列,对序列进行数据增强,数据增强的表达式为:
其中序列x(i)等价于第一增强数据为c(x),第二增强数据为b(x),第i个序列为x(i),序列x(i)的导数为
将第一增强数据分别经过特征提取器、投影头和预测头得到特征向量一,
第二增强数据分别经过特征提取器和投影头得到特征向量,计算向量之间的损失函数,损失函数的计算公式为:
其中特征向量一为kγ,特征向量二为sρ,特征向量一kγ和特征向量二sρ的损失函数为Lγ,ρ,采用梯度下降和动量法更新特征提取器、投影头或预测头的参数,参数更新的计算公式为:
θ=τp+(1-τ)γ
其中更新后的参数为θ,超参数为τ,得到参数更新后的特征提取器,将预处理后的元数据输入特征提取器,输出第一数据特征。
在本实施例中,获得所述第二特征数据的方法,包括:
第二特征提取的原理为:
fd(e)=wα(qσ(e))
其中特征提取器的特征参数为σ,分类头的特征参数为α,特征提取器为qσ,分类头为wα,样本集数据为e,模型样本集数据e的特征结果为fd(e);
对预处理后的元数据进行分类采样,获得样本集,采用提取任务对特征提取器进行自监督预训练,生成预训练集;
给定预训练阶段的优化目标,优化目标的表达式为:
其中第i个提取任务的损失权重为ηi,提取任务头网络的参数集为Φ,第i个提取任务的损失函数为Vi(·),第i个提取任务的提取标签为yi,第i个提取任务的分类头为提取任务的数量为g,预训练的特征提取器特征参数为/>微调使用损失函数的表达式为:
其中模型对样本集数据特征属于该类别的预测概率为类别数为s,样本集是否属于第i个类别为yi,若样本集数据属于类别i则为1,反之为0;
不断调整参数,直到损失函数函数值小于0.23,将模型预测的数据特征输出为第二特征数据。
在本实施例中,根据所述第一特征数据构建第一测试模型的方法,包括:
第一测试模型采用基于深度学习算法的状态迁移图算法,还包括随机森林算法和特征融合算法;
采用随机森林算法将第一特征数据按照3:1的比例分成训练集和测试集,根据元数据创建状态迁移图,将训练集输入状态迁移图算法中,根据状态迁移图和输入的第一特征数据进行一致性测试;
构建目标函数:
其中类别为i,第i个类别的权重为ωi,类别的数量为r,特征a与特征b在类别i上相同的数量为类别i的一致性得分为g(i),给定损失函数:
其中第i个第一特征的目标类为k,目标类的数量为e,第k个目标类的实际一致性得分为第k个目标类的预测一致性得分为/>按照损失函数结果对类别的第一特征数据进行特征融合,引入优化算法调整模型参数,直到损失函数的值小于0.17,获得第一测试模型。
在本实施例中,根据所述第二特征数据构造第二测试模型的方法,包括:
第二测试模型基于决策树算法的因果图算法,包括分类算法和交叉验证法;
根据特征数据的因果关系构建因果图,输入特征数据,使用分类算法对特征数据进行分类,采用交叉验证法将分类数据分为测试集和训练集,应用因果图算法的进行结构和训练集的学习和推理,训练第二测试模型,将测试集输入训练好的第二测试模型获得一致性得分:
其中第r个类别中最大可能一致性的特征数量为ur,第r个类别中实际一致性的特征数量为kr,第r个类别的一致性得分为e(r),给定损失函数:
其中损失函数为一致性得分的实际值为g(r),一致性得分的预测值为p(r),一致性误差常数为σ,直到损失函数值低于0.19时停止训练,获得第二测试模型。
在本实施例中,测试差异系数的计算公式为:
其中类别s的测试差异系数为第一特征数据V的一致性关联系数为γ1,第二特征数据Q的一致性关联系数为γ2,第一特征数据V的一致性数量为e,第二特征数据Q的一致性数量为c,第一特征数据V的一致性数据第s个类别的数量为Vs,第二特征数据的一致性数据第s个类别的数量为Qs,一致性变化系数为ρ。
图2是本申请的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种元数据一致性测试装置。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种元数据一致性测试方法。
上述如本申请图1所示实施例揭示的一种元数据一致性测试方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中一种元数据一致性测试方法,并实现图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,执行前述的任意一种元数据一致性测试方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种元数据一致性测试方法,其特征在于,包括以下步骤:
获取元数据和待测试元数据,对所述元数据进行预处理;
对所述元数据进行第一特征提取和第二特征提取,获得第一特征数据和第二特征数据;
根据所述第一特征数据构建第一测试模型,根据所述第二特征数据构造第二测试模型;
根据所述第一特征数据和第二特征数据获取测试差异系数,若所述差异系数小于阈值,则选择第一测试模型进行一致性测试;所述测试差异系数的计算公式为:
其中类别s的测试差异系数为第一特征数据V的一致性关联系数为γ1,第二特征数据Q的一致性关联系数为γ2,第一特征数据V的一致性数量为e,第二特征数据Q的一致性数量为c,第一特征数据V的一致性数据第s个类别的数量为Vs,第二特征数据的一致性数据第s个类别的数量为Qs,一致性变化系数为ρ;
反之选择第二测试模型进行一致性测试,输出测试结果。
2.根据权利要求1所述的一种元数据一致性测试方法,其特征在于,所述预处理的方法,包括去除重复数据、删除缺失值和异常值、数据集成、数据转换和数据规约。
3.根据权利要求1所述的一种元数据一致性测试方法,其特征在于,获得所述第一特征数据的方法,包括:
从预处理后的元数据中采样得到序列,对序列进行数据增强,数据增强的表达式为:
其中序列x(i)等价于第一增强数据为c(x),第二增强数据为b(x),第i个序列为x(i),序列x(i)的导数为
将第一增强数据分别经过特征提取器、投影头和预测头得到特征向量一,
第二增强数据分别经过特征提取器和投影头得到特征向量,计算向量之间的损失函数,损失函数的计算公式为:
其中特征向量一为kγ,特征向量二为sρ,特征向量一kγ和特征向量二sρ的损失函数为Lγ,ρ,采用梯度下降和动量法更新特征提取器、投影头或预测头的参数,参数更新的计算公式为:
θ=τρ+(1-τ)γ
其中更新后的参数为θ,超参数为τ,得到参数更新后的特征提取器,将预处理后的元数据输入特征提取器,输出第一数据特征。
4.根据权利要求1所述的一种元数据一致性测试方法,其特征在于,获得所述第二特征数据的方法,包括:
第二特征提取的原理为:
fd(e)=wα(qσ(e))
其中特征提取器的特征参数为σ,分类头的特征参数为α,特征提取器为qσ,分类头为wα,样本集数据为e,模型样本集数据e的特征结果为fd(e);
对预处理后的元数据进行分类采样,获得样本集,采用提取任务对特征提取器进行自监督预训练,生成预训练集;
给定预训练阶段的优化目标,优化目标的表达式为:
其中第i个提取任务的损失权重为ηi,提取任务头网络的参数集为Φ,第i个提取任务的损失函数为Vi(·),第i个提取任务的提取标签为yi,第i个提取任务的分类头为提取任务的数量为g,预训练的特征提取器特征参数为/>微调使用损失函数的表达式为:
其中模型对样本集数据特征属于该类别的预测概率为类别数为s,样本集是否属于第i个类别为yi,若样本集数据属于类别i则为1,反之为0;
不断调整参数,直到损失函数函数值小于0.23,将模型预测的数据特征输出为第二特征数据。
5.根据权利要求1所述的一种元数据一致性测试方法,其特征在于,根据所述第一特征数据构建第一测试模型的方法,包括:
第一测试模型采用基于深度学习算法的状态迁移图算法,还包括随机森林算法和特征融合算法;
采用随机森林算法将第一特征数据按照3:1的比例分成训练集和测试集,根据元数据创建状态迁移图,将训练集输入状态迁移图算法中,根据状态迁移图和输入的第一特征数据进行一致性测试;
构建目标函数:
其中类别为i,第i个类别的权重为ωi,类别的数量为r,特征a与特征b在类别i上相同的数量为类别i的一致性得分为g(i),给定损失函数:
其中第i个第一特征的目标类为k,目标类的数量为e,第k个目标类的实际一致性得分为第k个目标类的预测一致性得分为/>按照损失函数结果对类别的第一特征数据进行特征融合,引入优化算法调整模型参数,直到损失函数的值小于0.17,获得第一测试模型。
6.根据权利要求1所述的一种元数据一致性测试方法,其特征在于,根据所述第二特征数据构造第二测试模型的方法,包括:
第二测试模型基于决策树算法的因果图算法,包括分类算法和交叉验证法;
根据特征数据的因果关系构建因果图,输入特征数据,使用分类算法对特征数据进行分类,采用交叉验证法将分类数据分为测试集和训练集,应用因果图算法的进行结构和训练集的学习和推理,训练第二测试模型,将测试集输入训练好的第二测试模型获得一致性得分:
其中第r个类别中最大可能一致性的特征数量为ur,第r个类别中实际一致性的特征数量为kr,第r个类别的一致性得分为e(r),给定损失函数:
其中损失函数为一致性得分的实际值为g(r),一致性得分的预测值为p(r),一致性误差常数为σ,直到损失函数值低于0.19时停止训练,获得第二测试模型。
7.一种电子设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~6之任一所述方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~6之任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558241.3A CN117609393B (zh) | 2023-11-21 | 2023-11-21 | 一种元数据一致性测试方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558241.3A CN117609393B (zh) | 2023-11-21 | 2023-11-21 | 一种元数据一致性测试方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117609393A CN117609393A (zh) | 2024-02-27 |
CN117609393B true CN117609393B (zh) | 2024-04-26 |
Family
ID=89958962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311558241.3A Active CN117609393B (zh) | 2023-11-21 | 2023-11-21 | 一种元数据一致性测试方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609393B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413465A (zh) * | 2019-07-18 | 2019-11-05 | 国电南瑞科技股份有限公司 | 一种基于信息交互总线的信息一致性测试方法、系统和验证服务器 |
CN114356848A (zh) * | 2022-03-11 | 2022-04-15 | 中国信息通信研究院 | 元数据管理方法、计算机存储介质及电子设备 |
CN117056467A (zh) * | 2023-10-11 | 2023-11-14 | 中国标准化研究院 | 一种产品循环性数据表模型构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9921930B2 (en) * | 2015-03-04 | 2018-03-20 | International Business Machines Corporation | Using values of multiple metadata parameters for a target data record set population to generate a corresponding test data record set population |
-
2023
- 2023-11-21 CN CN202311558241.3A patent/CN117609393B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413465A (zh) * | 2019-07-18 | 2019-11-05 | 国电南瑞科技股份有限公司 | 一种基于信息交互总线的信息一致性测试方法、系统和验证服务器 |
CN114356848A (zh) * | 2022-03-11 | 2022-04-15 | 中国信息通信研究院 | 元数据管理方法、计算机存储介质及电子设备 |
CN117056467A (zh) * | 2023-10-11 | 2023-11-14 | 中国标准化研究院 | 一种产品循环性数据表模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117609393A (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108418825B (zh) | 风险模型训练、垃圾账号检测方法、装置以及设备 | |
CN108305158B (zh) | 一种训练风控模型和风控的方法、装置及设备 | |
CN109657696B (zh) | 多任务监督学习模型训练、预测方法和装置 | |
CN110686633B (zh) | 一种滑坡位移预测方法、装置及电子设备 | |
TW201833851A (zh) | 風控事件自動處理方法及裝置 | |
CN110472802B (zh) | 一种数据特征评估方法、装置及设备 | |
CN111767957B (zh) | 一种日志异常的检测方法、装置、存储介质及电子设备 | |
CN111143578A (zh) | 基于神经网络抽取事件关系的方法、装置和处理器 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN111753878A (zh) | 一种网络模型部署方法、设备及介质 | |
CN111401062A (zh) | 文本的风险识别方法、装置及设备 | |
CN114490786B (zh) | 数据排序方法及装置 | |
CN114860941A (zh) | 一种基于数据大脑的行业数据治理方法及系统 | |
CN113837635A (zh) | 风险检测处理方法、装置及设备 | |
CN113743618A (zh) | 时间序列数据处理方法、装置、可读介质及电子设备 | |
CN117609393B (zh) | 一种元数据一致性测试方法 | |
CN110163470B (zh) | 事件评估方法及装置 | |
CN112243247B (zh) | 基站优化优先级确定方法、装置及计算设备 | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN114254588B (zh) | 数据标签处理方法和装置 | |
CN110019295B (zh) | 数据库检索方法、装置、系统以及存储介质 | |
CN115131679A (zh) | 检测方法、装置及计算机存储介质 | |
CN114565196A (zh) | 基于政务热线的多事件趋势预判方法、装置、设备及介质 | |
CN112949882A (zh) | 一种负荷预测的方法、装置及电子设备 | |
CN112464970A (zh) | 区域价值评估模型处理方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |