CN117150232B - 一种大模型非时序训练数据质量评价方法 - Google Patents
一种大模型非时序训练数据质量评价方法 Download PDFInfo
- Publication number
- CN117150232B CN117150232B CN202311405741.3A CN202311405741A CN117150232B CN 117150232 B CN117150232 B CN 117150232B CN 202311405741 A CN202311405741 A CN 202311405741A CN 117150232 B CN117150232 B CN 117150232B
- Authority
- CN
- China
- Prior art keywords
- data set
- data
- tag
- quality
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 41
- 230000008707 rearrangement Effects 0.000 claims abstract description 35
- 238000005070 sampling Methods 0.000 claims abstract description 29
- 238000012854 evaluation process Methods 0.000 claims abstract description 3
- 230000009467 reduction Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000011056 performance test Methods 0.000 claims description 6
- 238000007431 microscopic evaluation Methods 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 230000000630 rising effect Effects 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000007433 macroscopic evaluation Methods 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract 1
- 238000006073 displacement reaction Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种大模型非时序训练数据质量评价方法,从宏观与微观两个角度出发对大模型预训练数据集的质量做出评价。宏观层面:对数据集总量、数据类分布情况进行检查,考虑到数据的特殊性,还对数据集时效性进行检查,对数据集质量进行初步评价。微观层面:将数据集特征与标签的关联强度作为数据集质量评价标准,对数据集进行评价时为了降低大规模数据集背景下的工作量,预先采用分层抽样的方法对原始数据集进行样本抽取;评价过程包括特征重排列测试、标签重排列测试,并通过置换检测进行辅助,对数据集的质量作出评价。该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估,降低数据集质量对模型训练结果的影响,减少模型迭代成本。
Description
技术领域
本发明属于数据集的质量评价领域,主要涉及一种大模型非时序训练数据质量评价方法。
背景技术
随着人工智能技术的发展,大模型(如GPT、BERT等)在各个领域都展现出了强大的能力和潜力。这些大模型的训练依赖于大量的数据,数据的质量直接影响了模型的性能和效果。然而,大模型预训练数据集的来源多样,包括网页、社交媒体、新闻、百科等,这些数据往往存在噪声、偏差、重复、错误等问题,导致数据集的质量难以保证。目前,对于大模型训练数据集的质量评价还缺乏足够的关注和研究,很多数据集没有公开或者没有经过充分的验证。这对于大模型训练带来了很大的挑战,因为大模型训练难度大,训练周期长,低质量的数据集会影响大模型的性能进而造成时间和金钱的浪费。因此,开展大模型训练数据集评价是很有必要的,它可以筛选出高质量的数据集,提高大模型训练的效率和效果,促进人工智能技术的发展和应用。
现有技术中,主流的数据质量评价的方法可分为两大类:1)定量方法;2)定性方法。常用的定量方法有统计分析、实验研究和实证评价,大多仅仅聚焦于数据的完整性和准确性,以确定它们是否达到质量标准,缺乏对数据集内部结构的深刻评价。定性方法常见的有审查数据源头,采访主要采集者和考察数据采集环境等,然而机器学习所需的数据集相当庞大,使用定性方法评估质量通常是不现实的。故而目前仍然缺少一种全面且实用的流量数据集评价方法。
发明内容
本发明所要解决的问题是:提供一种大模型非时序训练数据质量评价方法,用于解决大模型预训练数据规模大、来源多样,数据质量难以评价的问题。
本发明采用如下技术方案:一种大模型非时序训练数据质量评价方法,包括以下步骤:
步骤1、收集原始数据集,根据原始数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价;
步骤2、对原始数据集进行进行标签重排列,形成实验数据集:将原始数据集按照标签进行分组,并将分组后各组的数据样本标签进行随机交换,与其他组的样本特征组合得到新的实验数据集,所述标签为需要进行分类的具体类别;
步骤3、进行相关系数测试:计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数,对特征与标签的关联强度进行评价,并观察随着标签重排列比例的上升,斯皮尔曼相关系数的变化趋势;
步骤4、采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取,形成所需的训练集与测试集;
步骤5、进行性能表现测试:通过上述分层抽样所形成的训练集与测试集在由K近邻、支持向量机、决策树、随机森林四种ML分类算法分类器池上的性能表现,对特征与标签之间的关联性进行验证;
步骤6、若观察到随着标签重排列比例的上升,性能指标随之下降后,计算各个特征对模型性能下降贡献度,得出数据集质量评价结果。
具体的,步骤1中,宏观评价包括:
S1.1、对数据集的数据总量进行统计,确保数据集包含的样本总数达到需要的规模;
S1.2、对数据集的类分布情况进行检查,确保数据类别分布平衡,使样本数据量最少的类的数据量和样本数据量最多的类的数据量相比,数据量差值不高于预设;
S1.3、对数据进行实时性进行分析,基于数据的时效性,数据集上传时间与数据集采集时间的间隔在预设时间内。
步骤2中,标签重排列方法包括:通过标签重排列打乱原始数据集,将各个组别的标签与其他组别的特征值进行组合,按照标签的具体类别,将得到的数据集分为Group 1、Group 2、Group3 ......Group n,设定评估过程中的排列比例,从各组数据样本中依次抽取所述排列比例的标签进行随机交换,与其他组的样本特征组合得到新的实验数据集。
步骤3在相关系数测试时,使用斯皮尔曼相关系数作为相关系数测试的评价指标,计算过程如下:
假设待评估数据集包含n个样本,特征变量X和标签变量Y的观测值分别为:
;
在特征变量X和标签变量Y的观测值中,xi为样本i的特征变量,yi为样本i的标签变量,i=1,2...n;
则对应的秩为:
;
在特征变量X和标签变量Y对应秩中,和/>表示样本xi和yi的秩;
特征与标签之间的斯皮尔曼相关系数的计算公式为:
;
其中,n表示的是样本量,表示第i个样本特征变量X的秩与标签变量Y的秩之间的差值,/>表示每个样本的秩差的平方和。
步骤3相关系数测试,方法包括如下子步骤:
S3.1、假设数据集由m个特征,计算原数据集各特征与标签的斯皮尔曼相关系数Pj;
S3.2、按照标签重排列过程,对待评价数据集进行标签打乱;
S3.3、对于每个标签重排列比例下特征与标签的相关系数进行多次计算,每次计算所使用的数据集的标签重排列百分比相同,但排列次序各不相同,在该排列比例下形成了t个排列次序不同的数据集即进行了t次计算,得到对应的斯皮尔曼相关系数;
S3.4、对得到的斯皮尔曼相关系数取平均值作为该排列比例最终的相关系数,表示特征j和标签Y之间的斯皮尔曼相关系数,公式如下:
。
步骤4通过分层抽样的方法形成微观评价时所需要的测试集和训练集,分层抽样的过程包括如下子步骤:
S4.1、通过步骤1得到数据集总量为Q,通过数据集的标签即需要进行分类的具体类别对原数据集进行分组;
S4.2、确定测试集的样本数量为Q1,训练集的样本数量为Q2,且Q2>>Q1;
S4.3、确定测试集的抽样比例为k1,训练集的抽样比例为k2,抽样比例的计算公式为:
;
S4.4、按照上述测试集抽样比例k1从各组独立地抽取数据样本将其组合作为测试集,按照训练集抽样比例k2从各组独立地抽取数据样本将其组合作为训练集。
步骤5在性能表现测试时,基于宏观评价中已经排除了数据集出现类别不均衡的情况,将准确率作为此处性能表现评价的统一性能指标,仅将整体分类任务的准确率作为评判标准,不比较具体各个类别的准确率:
;
其中,TP为所有类别将正类预测为正类的样本总数,TN为所有类别将负类预测为负类的样本总数,FP为所有类别将负类预测为正类的样本总数,FN为所有类别将正类预测为负类的样本总数。
进一步的,步骤5性能表现测试包括如下子步骤:
S5.1、在进行标签重排列测试前,使用原始数据集在KNN、SVM、DT、RF四个经典分类器上得出准确率记为M,作为性能系数;
S5.2、使用在每个标签重排列比例下形成的t个排列次序不同的数据集进行准确率测试,得到对应的性能系数;
S5.3、对得到的性能系数取平均值作为该排列比例最终的性能系数Mf,公式如下:
。
步骤6中计算模型性能下降贡献度时,方法包括:在观察到性能指标下降后,计算各个特征对模型性能下降贡献度,模型性能下降可以近似看成每个特征的权重与其相关度下降的乘积之和,反推得出各个特征对模型性能下降贡献度D的计算公式:
;
其中,Wj为各个特征在分类器池中各个分类器上的权重;
为原始数据集各个特征的相关系数与标签重排列后特征相关系数之差;
Dj为各个特征j对模型性能下降贡献度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明公开的大模型非时序训练数据质量评价方法,从宏观与微观两个角度出发对数据集的质量做出评价,通过该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估,降低数据集质量对模型训练结果的影响,减少模型迭代成本。
附图说明
图1 是本发明训练数据质量评价方法流程图;
图2 是本发明的分层抽样示意图;
图3 是本发明的数据集标签重排列示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对申请的技术方案做进一步地详尽阐述,所描述的实施例,也只是本发明所涉及实施例的一部分。本领域其他研究人员在该实施例上的所有非创新型实施例,都属于本发明的保护范围。同时对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明一种大模型非时序训练数据质量评价方法,如图1所示,包括以下步骤:
步骤1、在收集到数据集后,先从数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价。
具体的评价方法如下:1.对数据集的数据总量进行统计,需要确保数据集包含的样本总数必须达到一定规模。2.对数据集的类分布情况进行检查,数据集各类别所包含的样本数量应该大致相同,确保数据类别分布平衡。3.由于大部分数据具有时效性,间隔时间过长的历史数据可能导致模型在现实场景中失效,所以对数据集进行时效性分析。
通常,样本数量最大的类别与最小的类别之比超过10:1时认定为严重的类别不平衡,当类别比例超过4:1时,则已存在类别不均衡问题。
本实施例中,为了更好的应对不同的机器学习算法,样本数据量最少的类的数据量也应该大于等于样本数据量最多的类百分之四十的数据量,假设数据量最多的类为,数据量最少的类为/>,一个类别平衡的数据集的应该满足条件:
;
实时性的具体量化为数据集上传时间Ts与数据集的采集时间Tc的间隔应该在31天内,通过计算两者时间戳之差来实现:
;
步骤2、在对数据集进行微观评价前,先通过标签重排列打乱原始数据集即将各个组别的标签与其他组别的特征值进行组合,将待评估数据集按照标签即需要进行分类的具体类别将数据集分为Group 1、Group 2、Group3 ......Group n,数据集标签重排列过程如图3所示。
标签为需要进行分类的具体类别,本实施例中,设定评估过程中要排列的标签百分比为1%,5%,10%,25%,50%。
各组的数据样本依次抽取上述排列比例的标签进行随机交换,与其他组的样本特征组合得到新的数据集。
步骤3、进行相关系数测试,以斯皮尔曼相关系数作为评价指标,斯皮尔曼相关系数完整的计算过程如下:
假设待评估数据集包含n个样本,特征变量X和标签变量Y的观测值分别为:
;
则对应的秩为:
;
特征与标签之间的斯皮尔曼相关系数的计算公式为:
;
其中,n表示的是样本量,表示第i个样本,特征变量X的秩与标签变量Y的秩之间的差值,/> 表示每个样本的秩差的平方和。
假设数据集由m个特征,在进行标签重排列测试前,先计算原数据集各特征与标签的斯皮尔曼相关系数Pj。
对于每个标签重排列比例下特征与标签的相关系数进行多次计算,保证每次计算所使用的数据集的标签重排列百分比相同,但排列次序各不相同。在该排列比例下形成了10个排列次序不同的数据集即进行了10次计算,得到对应的斯皮尔曼相关系数,对得到的斯皮尔曼相关系数取平均值作为该排列比例最终的相关系数。
表示特征j和标签Y之间的斯皮尔曼相关系数:
;
本实施例中,依次得到标签排列百分比为1%,5%,10%,25%,50%的数据集各个特征与标签的相关系数,若是高质量数据集,原始标签与特征之间应该存在正确的对应关系,那么随着标签打乱比例的不断增加,再次计算特征与被交换后的标签的相关系数,可以发现大多数特征的相关度应该随着打乱比例的上升而持续下降或直接不再相关,具体量化应为:
。
步骤4、通过分层抽样的方法来形成微观评价时所需要的测试集和训练集。
分层抽样的具体过程如图2所示:通过步骤1可以得到数据集总量为Q通过数据集的标签即需要进行分类的具体类别对原数据集进行分组,确定测试集的样本数量为Q1,训练集的样本数量为Q2,并确保Q2>>Q1。确定测试集的抽样比例为k1,训练集的抽样比例为k2,抽样比例的计算公式如下:
;
按照测试集抽样比例k1从各组独立地抽取数据样本将其组合作为测试集,按照训练集抽样比例k2从各组独立地抽取数据样本将其组合作为训练集。
步骤5、性能表现测试:为了体现性能表现测试的客观性,本实施例中选取了实践中常用四种ML分类算法,即:K近邻(KNN)、支持向量机(SVM)、决策树(DT)、随机森林(RF)构成了分类器池来进行性能表现测试。
在宏观评价中已经排除了数据集可能会出现类别不均衡的情况,所以将准确率作为接下来评价的统一性能指标,本实施例中仅将整体分类任务的准确率作为评判标准,不去比较具体各个类别的准确率:
;
其中,TP为所有类别将正类预测为正类的样本总数,TN为所有类别将负类预测为负类的样本总数,FP为所有类别将负类预测为正类的样本总数,FN为所有类别将正类预测为负类的样本总数。
在进行标签重排列测试前,先使用原始数据集在KNN、SVM、DT、RF三个经典分类器上得出准确率记为M,作为性能系数。
本实施例中,使用在每个标签重排列比例下形成的10个排列次序不同的数据集进行准确率测试,得到对应的性能系数 ,对得到的性能系数取平均值作为该排列比例最终的性能系数Mf:
;
依次得到标签排列百分比为1%,5%,10%,25%,50%的性能指标,若是高质量的数据集即特征与标签之间存在不错的关联性,随着标签打乱比例的不断增加,数据集特征与标签的关联度也会持续下降,性能指标也会随之下降,具体量化应为:
。
步骤6、在观察到性能指标下降后,计算各个特征对模型性能下降贡献度,模型性能下降可以近似看成每个特征的权重与其相关度下降的乘积之和,反推得出各个特征对模型性能下降贡献度D的计算公式:
;
其中,W为各个特征在分类器池中各个分类器上的权重,对于支持向量机(SVM)、决策树(DT)、随机森林(RF)直接使用权重系数或feature importance作为权重,由于KNN算法是一个非参数模型,它不会显式地学习特征权重,采用Permutation Importance法计算特征权重。
其中,为原始数据集各个特征的相关系数与标签重排列后特征相关系数之差,倘若发现相关度下降幅度H越大的特征,其对模型性能下降的贡献度D也越大,则证明了特征与标签相关性下降即数据集质量变差的根本原因是由于特征与随机标签失去了对应关系,反推出原始数据集标签特征之间存在强关联性,即为高质量数据集。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种大模型非时序训练数据质量评价方法,其特征在于,包括以下步骤:
步骤1、收集原始大模型预训练流量数据集,根据原始数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价;所述原始大模型预训练流量数据集,包括网页、社交媒体、新闻、百科数据集;
步骤2、对数据集进行微观评价前,对原始数据集进行标签重排列,形成实验数据集:将原始数据集按照标签进行分组,并将分组后各组的数据样本标签进行随机交换,与其他组的样本特征组合得到新的实验数据集,所述标签为需要进行分类的具体类别;
步骤3、进行相关系数测试:计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数,对特征与标签的关联强度进行评价,并观察随着标签重排列比例的上升,斯皮尔曼相关系数的变化趋势;
步骤4、性能表现测试前,采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取,形成所需的训练集与测试集;
步骤5、进行性能表现测试:通过上述分层抽样所形成的训练集与测试集在由K近邻、支持向量机、决策树、随机森林四种ML分类算法分类器池上的性能表现,对特征与标签之间的关联性进行验证;
步骤S6、若观察到随着标签重排列比例的上升,性能指标随之下降后,计算各个特征对模型性能下降贡献度,得出数据集质量评价结果,获取原始大模型预训练流量数据集中标签特征之间存在强关联性的高质量数据集。
2.根据权利要求1所述的大模型非时序训练数据质量评价方法,其特征在于,步骤1中,所述宏观评价包括:
S1.1、对数据集的数据总量进行统计,确保数据集包含的样本总数达到需要的规模;
S1.2、对数据集的类分布情况进行检查,确保数据类别分布平衡,使样本数据量最少的类的数据量和样本数据量最多的类的数据量相比,数据量差值不高于预设;
S1.3、对数据进行实时性进行分析,基于数据的时效性,使数据集上传时间与数据集采集时间的间隔在预设时间内。
3.根据权利要求2所述的大模型非时序训练数据质量评价方法,其特征在于,步骤2中标签重排列方法包括:通过标签重排列打乱原始数据集,将各个组别的标签与其他组别的特征值进行组合,按照标签的具体类别将得到的数据集分为Group 1、Group 2、Group 3......Group n,设定评估过程中的排列比例,从各组数据样本中依次抽取所述排列比例的标签进行随机交换,与其他组的样本特征组合得到新的实验数据集。
4.根据权利要求3所述的大模型非时序训练数据质量评价方法,其特征在于,步骤3在相关系数测试时,使用斯皮尔曼相关系数作为相关系数测试的评价指标,计算过程如下:
假设待评估实验数据集包含n个样本,特征变量X和标签变量Y的观测值分别为:
;
在特征变量X和标签变量Y的观测值中,xi为样本i的特征变量,yi为样本i的标签变量,i=1,2...n;
则对应的秩为:
;
在特征变量X和标签变量Y对应秩中,和/>表示样本xi和yi的秩;
特征与标签之间的斯皮尔曼相关系数的计算公式为:
;
其中,n表示的是样本量,表示第i个样本特征变量X的秩与标签变量Y的秩之间的差值,/>表示每个样本的秩差的平方和。
5.根据权利要求4所述的大模型非时序训练数据质量评价方法,其特征在于,步骤3所述相关系数测试,方法包括如下子步骤:
S3.1、假设实验数据集特征数量为有m个,计算实验数据集各特征与标签的斯皮尔曼相关系数Pj;
S3.2、按照标签重排列过程,对待评价实验数据集进行标签打乱;
S3.3、对于每个标签重排列比例下特征与标签的相关系数进行多次计算,每次计算所使用的数据集的标签重排列百分比相同,但排列次序各不相同,在该排列比例下形成了t个排列次序不同的数据集即进行了t次计算,得到对应的斯皮尔曼相关系数;
S3.4、对得到的斯皮尔曼相关系数取平均值作为该排列比例最终的相关系数,表示特征j和标签Y之间的斯皮尔曼相关系数,公式如下:
。
6.根据权利要求5所述的大模型非时序训练数据质量评价方法,其特征在于,步骤4通过分层抽样的方法形成微观评价时所需要的测试集和训练集,分层抽样的过程包括如下子步骤:
S4.1、通过步骤1得到数据集总量为Q,通过数据集的标签即需要进行分类的具体类别对原数据集进行分组;
S4.2、确定测试集的样本数量为Q1,训练集的样本数量为Q2,且Q2 >>Q1;
S4.3、确定测试集的抽样比例为k1,训练集的抽样比例为k2,抽样比例的计算公式为:
;
S4.4、按照上述测试集抽样比例k1从各组独立地抽取数据样本将其组合作为测试集,按照训练集抽样比例k2从各组独立地抽取数据样本将其组合作为训练集。
7.根据权利要求6所述的大模型非时序训练数据质量评价方法,其特征在于,步骤5在性能表现测试时,仅将整体分类任务的准确率Accuracy作为评判标准,公式如下:
;
其中,TP为所有类别将正类预测为正类的样本总数,TN为所有类别将负类预测为负类的样本总数,FP为所有类别将负类预测为正类的样本总数,FN为所有类别将正类预测为负类的样本总数。
8.根据权利要求7所述的大模型非时序训练数据质量评价方法,其特征在于,步骤5性能表现测试包括如下子步骤:
S5.1、在进行标签重排列测试前,使用原始数据集在KNN、SVM、DT、RF四个分类器上得出准确率M,作为性能系数;
S5.2、使用在每个标签重排列比例下形成的t个排列次序不同的数据集进行准确率测试,得到对应的性能系数;
S5.3、对得到的性能系数取平均值作为该排列比例最终的性能系数Mf,公式如下:
。
9.根据权利要求7或8所述的大模型非时序训练数据质量评价方法,其特征在于,步骤6中计算模型性能下降贡献度时,方法包括:在观察到性能指标下降后,计算各个特征对模型性能下降贡献度,模型性能下降是每个特征的权重与其相关度下降的乘积之和,反推得出各个特征对模型性能下降贡献度D的计算公式:
;
其中,Wj为特征j在分类器池中分类器上的权重,为原始数据集特征j的相关系数与标签重排列后特征相关系数之差,Dj为特征j对模型性能下降贡献度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311405741.3A CN117150232B (zh) | 2023-10-27 | 2023-10-27 | 一种大模型非时序训练数据质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311405741.3A CN117150232B (zh) | 2023-10-27 | 2023-10-27 | 一种大模型非时序训练数据质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150232A CN117150232A (zh) | 2023-12-01 |
CN117150232B true CN117150232B (zh) | 2024-02-06 |
Family
ID=88902927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311405741.3A Active CN117150232B (zh) | 2023-10-27 | 2023-10-27 | 一种大模型非时序训练数据质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150232B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893100B (zh) * | 2024-03-15 | 2024-05-28 | 中国标准化研究院 | 基于卷积神经网络的质量评价数据更新模型的构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598292A (zh) * | 2018-11-23 | 2019-04-09 | 华南理工大学 | 一种不同辅助样本正负比例的迁移学习方法 |
CN114707571A (zh) * | 2022-02-24 | 2022-07-05 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN116304941A (zh) * | 2023-03-09 | 2023-06-23 | 上海海洋大学 | 一种基于多模型组合的海洋数据质量控制方法及装置 |
CN116342946A (zh) * | 2023-03-27 | 2023-06-27 | 浙江大学 | 一种面向图像分类的互联网数据集标签噪声比例评估方法 |
-
2023
- 2023-10-27 CN CN202311405741.3A patent/CN117150232B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598292A (zh) * | 2018-11-23 | 2019-04-09 | 华南理工大学 | 一种不同辅助样本正负比例的迁移学习方法 |
CN114707571A (zh) * | 2022-02-24 | 2022-07-05 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN116304941A (zh) * | 2023-03-09 | 2023-06-23 | 上海海洋大学 | 一种基于多模型组合的海洋数据质量控制方法及装置 |
CN116342946A (zh) * | 2023-03-27 | 2023-06-27 | 浙江大学 | 一种面向图像分类的互联网数据集标签噪声比例评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117150232A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089900A1 (en) | Transformer dga data prediction method based on multi-dimensional time sequence frame convolution lstm | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN103745273B (zh) | 一种半导体制造过程的多性能预测方法 | |
CN117150232B (zh) | 一种大模型非时序训练数据质量评价方法 | |
CN110852856A (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
CN111681022A (zh) | 一种网络平台数据资源价值评估方法 | |
Su | Analysis of optimisation method for online education data mining based on big data assessment technology | |
CN112668822A (zh) | 科技成果转化平台共享系统、方法、存储介质、手机app | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN116739541A (zh) | 一种基于ai技术的智能人才匹配方法及系统 | |
CN115310752A (zh) | 面向能源大数据的数据资产价值评价方法及系统 | |
CN117273422B (zh) | 用于数字化生产的供应链协同管控方法及系统 | |
CN114548494A (zh) | 一种可视化造价数据预测智能分析系统 | |
CN109947946A (zh) | 一种预测文章传播热度的方法及装置 | |
CN113159441A (zh) | 银行业务项目实施情况的预测方法及装置 | |
Yang et al. | MOOC Learner's Final Grade Prediction Based on an Improved Random Forests Method. | |
CN116108963A (zh) | 一种基于集成学习模块的电力碳排放预测方法及设备 | |
CN115239502A (zh) | 一种分析师模拟方法、系统、电子设备及存储介质 | |
He et al. | A credible predictive model for employment of college graduates based on LightGBM | |
Yanhong | Listed company financial risk prediction based on BP neural work | |
Geng et al. | Study on index model of tropical cyclone intensity change based on projection pursuit and evolution strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |