CN117609393B

CN117609393B - 一种元数据一致性测试方法

Info

Publication number: CN117609393B
Application number: CN202311558241.3A
Authority: CN
Inventors: 高亮; 岳高峰; 王志强; 温娜
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-04-26
Anticipated expiration: 2043-11-21
Also published as: CN117609393A

Abstract

本发明公开了一种元数据一致性测试方法，包括获取元数据和待测试元数据，对所述元数据进行预处理，对所述元数据进行第一特征提取和第二特征提取，获得第一特征数据和第二特征数据，根据所述第一特征数据构建第一测试模型，根据所述第二特征数据构造第二测试模型，根据所述第一特征数据和第二特征数据获取测试差异系数，若所述差异系数小于阈值，则选择第一测试模型进行一致性测试，反之选择第二测试模型进行一致性测试，输出测试结果。该方法不仅可以提高元数据一致性测试方法的精度，同时具有较好的可解释性，可以直接应用于元数据一致性测试系统中。

Description

一种元数据一致性测试方法

技术领域

本发明涉及测试领域，尤其涉及一种元数据一致性测试方法。

背景技术

元数据一致性技术在测试领域的应用越来越广泛，可以帮助元数据一致性测试的管理者及时、高效地获取元数据一致性测试结果，实现元数据一致性测试结果的智能获取。目前，元数据一致性测试具有用户信息量庞大、数据种类多样、信息密度大等特点，一致性测试方法存在较多的不确定因素，导致元数据的一致性测试方法存在较大的不确定性。虽然已经发明了一些元数据一致性测试方法，但是仍不能有效解决元数据的一致性测试方法的不确定问题。

发明内容

本发明的目的是要提供一种元数据一致性测试方法。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

获取元数据和待测试元数据，对所述元数据进行预处理；

对所述元数据进行第一特征提取和第二特征提取，获得第一特征数据和第二特征数据；

根据所述第一特征数据构建第一测试模型，根据所述第二特征数据构造第二测试模型；

根据所述第一特征数据和第二特征数据获取测试差异系数，若所述差异系数小于阈值，则选择第一测试模型进行一致性测试；所述测试差异系数的计算公式为：

其中类别s的测试差异系数为第一特征数据V的一致性关联系数为γ₁，第二特征数据Q的一致性关联系数为γ₂，第一特征数据V的一致性数量为e，第二特征数据Q的一致性数量为c，第一特征数据V的一致性数据第s个类别的数量为V_s，第二特征数据的一致性数据第s个类别的数量为Q_s，一致性变化系数为ρ；

反之选择第二测试模型进行一致性测试，输出测试结果。

进一步，所述预处理的方法，包括去除重复数据、删除缺失值和异常值、数据集成、数据转换和数据规约。

进一步，获得所述第一特征数据的方法，包括：

从预处理后的元数据中采样得到序列，对序列进行数据增强，数据增强的表达式为：

其中序列x(i)等价于第一增强数据为c(x)，第二增强数据为b(x)，第i个序列为x(i)，序列x(i)的导数为

将第一增强数据分别经过特征提取器、投影头和预测头得到特征向量一，

第二增强数据分别经过特征提取器和投影头得到特征向量，计算向量之间的损失函数，损失函数的计算公式为：

其中特征向量一为k_γ，特征向量二为s_ρ，特征向量一k_γ和特征向量二s_ρ的损失函数为L_γ，ρ，采用梯度下降和动量法更新特征提取器、投影头或预测头的参数，参数更新的计算公式为：

θ＝τρ+(1-τ)γ

其中更新后的参数为θ，超参数为τ，得到参数更新后的特征提取器，将预处理后的元数据输入特征提取器，输出第一数据特征。

进一步，获得所述第二特征数据的方法，包括：

第二特征提取的原理为：

f_d(e)＝w_α(q_σ(e))

其中特征提取器的特征参数为σ，分类头的特征参数为α，特征提取器为q_σ，分类头为w_α，样本集数据为e，模型样本集数据e的特征结果为f_d(e)；

对预处理后的元数据进行分类采样，获得样本集，采用提取任务对特征提取器进行自监督预训练，生成预训练集；

给定预训练阶段的优化目标，优化目标的表达式为：

其中第i个提取任务的损失权重为η_i，提取任务头网络的参数集为Φ，第i个提取任务的损失函数为V_i(·)，第i个提取任务的提取标签为yⁱ，第i个提取任务的分类头为提取任务的数量为g，预训练的特征提取器特征参数为/>微调使用损失函数的表达式为：

其中模型对样本集数据特征属于该类别的预测概率为类别数为s，样本集是否属于第i个类别为y_i，若样本集数据属于类别i则为1，反之为0；

不断调整参数,直到损失函数函数值小于0.23，将模型预测的数据特征输出为第二特征数据。

进一步，根据所述第一特征数据构建第一测试模型的方法，包括：

第一测试模型采用基于深度学习算法的状态迁移图算法，还包括随机森林算法和特征融合算法；

采用随机森林算法将第一特征数据按照3:1的比例分成训练集和测试集，根据元数据创建状态迁移图，将训练集输入状态迁移图算法中，根据状态迁移图和输入的第一特征数据进行一致性测试；

构建目标函数：

其中类别为i，第i个类别的权重为ω_i，类别的数量为r，特征a与特征b在类别i上相同的数量为类别i的一致性得分为g(i)，给定损失函数：

其中第i个第一特征的目标类为k，目标类的数量为e，第k个目标类的实际一致性得分为第k个目标类的预测一致性得分为/>按照损失函数结果对类别的第一特征数据进行特征融合，引入优化算法调整模型参数，直到损失函数的值小于0.17，获得第一测试模型。

进一步，根据所述第二特征数据构造第二测试模型的方法，包括：

第二测试模型基于决策树算法的因果图算法，包括分类算法和交叉验证法；

根据特征数据的因果关系构建因果图，输入特征数据，使用分类算法对特征数据进行分类，采用交叉验证法将分类数据分为测试集和训练集，应用因果图算法的进行结构和训练集的学习和推理，训练第二测试模型，将测试集输入训练好的第二测试模型获得一致性得分：

其中第r个类别中最大可能一致性的特征数量为u_r，第r个类别中实际一致性的特征数量为k_r，第r个类别的一致性得分为e(r)，给定损失函数：

其中损失函数为一致性得分的实际值为g(r)，一致性得分的预测值为p(r)，一致性误差常数为σ，直到损失函数值低于0.19时停止训练，获得第二测试模型。

第二方面，本申请实施例还提供一种电子设备，包括：

处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序。

本发明的有益效果是：

本发明是一种元数据一致性测试方法，与现有技术相比，本发明具有以下技术效果：

本发明通过预处理、特征提取、模型构建和获取一致性得分步骤，可以提元数据一致性测试的准确性，从而提高元数据的一致性测试的精度，将元数据一致性测试智能化，可以大大节省资源和人力成本，提高工作效率，可以实现元数据的一致性测试，实时对元数据进行一致性测试，对元数据的一致性测试具有重要意义，可以适应不同元数据一致性测试系统、不同用户的元数据一致性测试需求，具有一定的普适性。

附图说明

图1为本发明一种元数据一致性测试方法的步骤流程图；

图2为本说明书实施例中一种电子设备的结构示意图。

具体实施方式

下面通过具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明一种元数据一致性测试方法包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

获取元数据和待测试元数据，对所述元数据进行预处理；

在实际评估中，将某网页的5组元数据作为研究对象，进行元数据一致性测试方法测试，5组数据分别为：

1组28岁已婚男工程师月收入5w；

2组下午3点多云温度25°湿度60％风速10km/h；

3组电子产品001价格99.99元评分4.5星库存50件；

4组中国北京经度116.40°E维度39.90°E海拔45米；

5组用户0001使用手机浏览商品详情页在2023年7月19日10点17分购买电脑；

在实际评估中，第一特征数据分别为：1组工程师、28岁；2组下午3点、湿度60％；3组电子产品、评分4.5星；4组北京、海拔45米；5组手机、购买电脑；

第二特征数据分别为1组已婚、男；2组多云、风速10km/h；3组价格99.99元、库存50件；4组经度116.40°E、维度39.90°E；5组浏览商品详情页、2023年7月19日10点17分；

反之选择第二测试模型进行一致性测试，输出测试结果；

在实际评估中，测试差异系数可以确保数据准确性、增加决策信息、降低决策风险、提供明确的评估标准，在实验中都采用第二测试模型1组和4组的误差率为0.37，在实验中都采用第一测试模型2组、3组和5组误差率为0.43，增加测试差异系数后一致性评估的误差率为0.09，测试差异系数降低了一致性测试的误差率，测试差异系数的阈值为0.52，1组、2组、3组、4组、5组的测试差异系数分别为0.51、0.64、0.59、0.47、0.71，1组和4组采用第一测试模型进行一致性测试，2组、3组、5组采用第二测试模型进行一致性测试，1组、2组、3组、4组、5组的一致性得分别分为82％、100％、78％、100％、93％。

在本实施例中，所述预处理的方法，包括去除重复数据、删除缺失值和异常值、数据集成、数据转换和数据规约。

在本实施例中，获得所述第一特征数据的方法，包括：

θ＝τp+(1-τ)γ

在本实施例中，获得所述第二特征数据的方法，包括：

第二特征提取的原理为：

f_d(e)＝w_α(q_σ(e))

给定预训练阶段的优化目标，优化目标的表达式为：

在本实施例中，根据所述第一特征数据构建第一测试模型的方法，包括：

构建目标函数：

在本实施例中，根据所述第二特征数据构造第二测试模型的方法，包括：

在本实施例中，测试差异系数的计算公式为：

其中类别s的测试差异系数为第一特征数据V的一致性关联系数为γ₁，第二特征数据Q的一致性关联系数为γ₂，第一特征数据V的一致性数量为e，第二特征数据Q的一致性数量为c，第一特征数据V的一致性数据第s个类别的数量为V_s，第二特征数据的一致性数据第s个类别的数量为Q_s，一致性变化系数为ρ。

图2是本申请的一个实施例电子设备的结构示意图。请参考图2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成一种元数据一致性测试装置。处理器，执行存储器所存放的程序，并具体用于执行前述任意一种元数据一致性测试方法。

上述如本申请图1所示实施例揭示的一种元数据一致性测试方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中一种元数据一致性测试方法，并实现图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，执行前述的任意一种元数据一致性测试方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种元数据一致性测试方法，其特征在于，包括以下步骤：

获取元数据和待测试元数据，对所述元数据进行预处理；

反之选择第二测试模型进行一致性测试，输出测试结果。

2.根据权利要求1所述的一种元数据一致性测试方法，其特征在于，所述预处理的方法，包括去除重复数据、删除缺失值和异常值、数据集成、数据转换和数据规约。

3.根据权利要求1所述的一种元数据一致性测试方法，其特征在于，获得所述第一特征数据的方法，包括：

θ＝τρ+(1-τ)γ

4.根据权利要求1所述的一种元数据一致性测试方法，其特征在于，获得所述第二特征数据的方法，包括：

第二特征提取的原理为：

f_d(e)＝w_α(q_σ(e))

给定预训练阶段的优化目标，优化目标的表达式为：

5.根据权利要求1所述的一种元数据一致性测试方法，其特征在于，根据所述第一特征数据构建第一测试模型的方法，包括：

构建目标函数：

6.根据权利要求1所述的一种元数据一致性测试方法，其特征在于，根据所述第二特征数据构造第二测试模型的方法，包括：

7.一种电子设备，包括：

处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1～6之任一所述方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行所述权利要求1～6之任一所述方法。