CN108171335A - 建模数据的选取方法、装置、存储介质及电子设备 - Google Patents
建模数据的选取方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN108171335A CN108171335A CN201711279229.3A CN201711279229A CN108171335A CN 108171335 A CN108171335 A CN 108171335A CN 201711279229 A CN201711279229 A CN 201711279229A CN 108171335 A CN108171335 A CN 108171335A
- Authority
- CN
- China
- Prior art keywords
- primary data
- data
- model
- label
- tag along
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及一种建模数据的选取方法、装置、存储介质及电子设备,用以解决现有技术中建模数据选取不准确而导致分类模型准确率低的问题。该方法包括:将带数据标签的初始数据作为训练集多次建立数学模型;每次建立数学模型后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,模型输出结果包括每一初始数据的分类标签;判断每次得到的分类标签与数据标签是否相符合,得到判断结果;根据判断结果从初始数据中筛选得到最终用于建立模型的目标初始数据。
Description
技术领域
本公开涉及数据处理技术领域,具体地,涉及一种建模数据的选取方法、装置、存储介质及电子设备。
背景技术
机器学习(Machine Learning,简称ML)是使计算机具有智能的根本途径,是一种计算机利用已有的数据,训练出某种模型,并利用此模型预测未来的方法。机器学习作为人工智能的核心研究领域之一,其应用遍及人工智能的各个领域,尤其在数据挖掘方面具有重要的地位。
在相关技术中,机器学习领域主要分为监督学习及无监督学习。其中,监督学习中的分类算法,是指通过在数据上标注特定的类别标签,计算机通过学习各个类别的“特征”,对新数据完成分类计算。然而,在实际的工作场景中,海量数据的标注过程主要依靠人工完成,由于数据标注者对业务理解深度的不同,或者过于急功近利而懈怠数据标注工作,会导致部分数据附带的类别标签不准确,不仅对分类建模过程毫无帮助,还会影响到分类模型的准确率。
发明内容
本公开的主要目的是提供一种建模数据的选取方法、装置、存储介质及电子设备,用以解决现有技术中建模数据选取不准确而导致分类模型准确率低的问题。
为了实现上述目的,本公开第一方面提供一种建模数据的选取方法,所述方法包括:
将带数据标签的初始数据作为训练集多次建立数学模型;
每次建立数学模型后,将所述初始数据作为测试集通过已建立的所述数学模型进行分类计算,得到模型输出结果,所述模型输出结果包括每一所述初始数据的分类标签;
判断每次得到的所述分类标签与所述数据标签是否相符合,得到判断结果;
根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据。
可选地,所述根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据,包括:
根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
确定所述单样本合格比例大于第一阈值的初始数据为标注无误的初始数据;
将标注无误的初始数据作为所述目标初始数据。
可选地,所述根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据,包括:
根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
确定每次建模后所述初始数据中分类标签与数据标签相符的初始数据所占的比例,得到多个样本合格比例;
确定所述单样本合格比例大于所述多个样本合格比例的均值的初始数据为标注无误的初始数据;
将标注无误的初始数据作为所述目标初始数据。
可选地,每次将所述带数据标签的初始数据作为训练集建立的数学模型为不同类型的分类模型,所述不同类型的分类模型包括:神经网络分类模型,支持向量机模型,决策树模型。
可选地,每次将所述带数据标签的初始数据作为训练集建立的数学模型为不同类型的分类模型,所述根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据,包括:
通过如下公式计算任一所述初始数据的单样本合格度Pitem:
其中,item为任一所述初始数据,label(item)为所述初始数据实际的数据标签,calculate(item)为所述初始数据的分类标签,N为建立分类模型的次数,ki为建立的第i分类模型的权值,其中,等于1;
确定所述单样本合格度大于第二阈值的初始数据为标注无误的初始数据;
将标注无误的初始数据作为所述目标初始数据。
本公开第二方面提供一种建模数据的选取装置,所述装置包括:
训练模块,用于将带数据标签的初始数据作为训练集多次建立数学模型;
分类模块,用于每次建立数学模型后,将所述初始数据作为测试集通过已建立的所述数学模型进行分类计算,得到模型输出结果,所述模型输出结果包括每一所述初始数据的分类标签;
判断模块,用于判断每次得到的所述分类标签与所述数据标签是否相符合,得到判断结果;
筛选模块,用于根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据。
可选地,所述筛选模块包括:
单样本合格比例确定模块,用于根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
初始数据确定模块,用于确定所述单样本合格比例大于第一阈值的初始数据为标注无误的初始数据;
所述初始数据确定模块还用于,将标注无误的初始数据作为所述目标初始数据。
可选地,所述筛选模块包括:
单样本合格比例确定模块,用于根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
样本合格比例确定模块,用于确定每次建模后所述初始数据中分类标签与数据标签相符的初始数据所占的比例,得到多个样本合格比例;
初始数据确定模块,用于确定所述单样本合格比例大于所述多个样本合格比例的均值的初始数据为标注无误的初始数据;
所述初始数据确定模块还用于,将标注无误的初始数据作为所述目标初始数据。
可选地,所述训练模块每次建立的数学模型为不同类型的分类模型,所述不同类型的分类模型包括:神经网络分类模型,支持向量机模型,决策树模型。
可选地,每次将所述带数据标签的初始数据作为训练集建立的数学模型为不同类型的分类模型,所述筛选模块包括:
单样本合格度计算模块,用于通过如下公式计算任一所述初始数据的单样本合格度Pitem:
其中,item为任一所述初始数据,label(item)为所述初始数据实际的数据标签,calculate(item)为所述初始数据的分类标签,N为建立分类模型的次数,ki为建立的第i分类模型的权值,其中,等于1;
初始数据确定模块,用于确定所述单样本合格度大于第二阈值的初始数据为标注无误的初始数据;
初始数据确定模块还用于,将标注无误的初始数据作为所述目标初始数据。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所提供的建模数据的选取方法的步骤。
本公开第四方面提供一种电子设备,包括:
本公开第三方面所提供的计算机可读存储介质;以及
一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
在上述技术方案中,通过将带数据标签的初始数据作为训练集多次建立数学模型,在每次建立数学模型之后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,该模型输出结果包括每一初始数据的分类标签。然后,判断每次得到的分类标签与数据标签是否相符合,得到判断结果,并根据此判断结果从初始数据中筛选得到最终用于建立模型的目标初始数据。这样一来,在实际建立分类模型的过程中,可以根据分类标签与数据标签是否相符对初始数据进行筛选,并清洗因数据标注人员工作失误而产生的脏数据,提高用于训练模型的初始数据的标签质量,从而提高分类模型的准确率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种建模数据的选取方法的流程图。
图2是本公开实施例提供的一种建模数据的选取方法的流程图。
图3是本公开实施例提供的一种建模数据的选取方法的流程图。
图4是本公开实施例提供的一种建模数据的选取方法的流程图。
图5是本公开实施例提供的一种建模数据的选取装置的框图。
图6是本公开实施例提供的一种建模数据的选取装置的框图。
图7是本公开实施例提供的一种建模数据的选取装置的框图。
图8是本公开实施例提供的一种建模数据的选取装置的框图。
图9是本公开实施例提供的一种建模数据的选取装置的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
为了使本领域的技术人员更容易理解本公开实施例提供的技术方案,首先对本公开实施例的应用场景进行说明。
面对海量的数据标注工作,由于分类标准不统一、个人理解能力的差异或者工作人员对于标注工作的懈怠,通常会导致大量数据的附带类别标签不准确的情况,在建立分类模型时,这部分数据会成为噪声样本,影响着分类模型的准确性。本公开可以应用在分类模型的开发过程中,用以解决现有技术中由于建模数据选取不准确而导致分类模型准确率低的问题。
以下对本公开的具体实施方式进行详细说明。
图1是本公开实施例提供的一种建模数据的选取方法的流程图,如图1所示,该方法包括以下步骤:
步骤S11,将带数据标签的初始数据作为训练集多次建立数学模型。
在机器学习中,一般将样本分成独立的三部分,即训练集、验证集和测试集。其中,训练集用于建立模型,监督学习中的训练集是训练机器学习算法的数据样本集合,每个训练样本包括多个特征和一个目标变量,该目标变量采用人工的方式进行数据标注,通常每个训练样本附带有一个或者多个数据标签。示例地,对于本公开实施例,部分或者所有带有数据标签的样本集合作为用于建模数据的初始数据。在实际建立数学模型的过程中,根据要解决的实际问题确定依赖初始数据所要进行的计算,为了保证模型具有较高的准确率,可以将附带数据标签的初始数据作为训练集输入到既定算法中进行多次建模,以调整模型参数至最优值。
可选地,每次将带数据标签的初始数据作为训练集所建立的数学模型可以是相同类型的分类模型,也可以是为不同类型的分类模型,其中,不同类型的分类模型包括:神经网络分类模型,支持向量机模型,决策树模型。
步骤S12,每次建立数学模型后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,该模型输出结果包括每一初始数据的分类标签。
其中,测试集用于测试每次已建立的数学模型的分类计算的准确率,在将测试集中的所有初始数据输入到已建立的数学模型中之后,通过该数学模型得到的输出结果包括每一初始数据的分类标签。
步骤S13,判断每次得到的分类标签与数据标签是否相符合,得到判断结果。
根据步骤S11和S12可知,每一初始数据包括自身已标注的数据标签以及每一初始数据通过已建立的数学模型所输出的分类标签。在步骤S13中,判断每一初始数据上的数据标签与分类标签是否相符,并得到判断结果。
具体地,判断结果的数学表达式如下:
其中,item为任一初始数据,label(item)为初始数据实际的数据标签,calculate(item)为初始数据的分类标签。
示例地,为了方便人工标注,数据标签可以是文字标签,而分类标签可以是数字标签,例如,数据标签分为A类、B类,数据经由数学模型分类得到的分类标签0表示该数据为A类,分类标签1表示该数据属于B类,在此种情况下,若初始数据A标注有A类数据标签,通过已建立的数学模型所输出的分类标签为0,则判断结果f(item)=1,表示初始数据的数据标签与分类标签相符,若初始数据A标注有A类数据标签,通过已建立的数学模型所输出的分类标签为1,则判断结果f(item)=0,表示初始数据的数据标签与分类标签不相符。
步骤S14,根据判断结果从初始数据中筛选得到最终用于建立模型的目标初始数据。
每次建立一数据模型后,若一初始数据判断结果为f(item)=1,则表明该初始数据在该数据模型下,标注无误;若该初始数据判断结果为f(item)=0,则表明在该数据模型下,该初始数据标注有误。由此,基于每一数据模型下初始数据分类标签与数据标签是否相符合的判断结果,可以从初始数据中筛选出数据标签标注可信的初始数据,形成目标初始数据,用于建立模型。
采用上述方法,将带数据标签的初始数据作为训练集多次建立模型,并将测试集多次输入到已建立的数学模型中,判断每一初始数据所输出的分类标签与附带的数据标签是否相符,最终可以根据判断结果筛选出用于建立模型的目标初始数据,执行上述方法可以清洗标注有误的脏数据,提高用于训练模型的初始数据的标签质量,从而提高分类模型的准确率。
图2是本公开实施例提供的一种建模数据的选取方法的流程图,如图2所示,该方法包括以下步骤:
步骤S21,将带数据标签的初始数据作为训练集多次建立数学模型。
步骤S22,每次建立数学模型后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,模型输出结果包括每一初始数据的分类标签。
步骤S23,判断每次得到的分类标签与数据标签是否相符合,得到判断结果。
步骤S24,根据每一初始数据的每一分类标签与其数据标签是否相符的判断结果,确定每一初始数据分类标签与数据标签相符的比例,得到单样本合格比例。
在一种可能的实施方式中,每一初始数据在多次建立数学模型的过程中可以得到多个分类标签与数据标签是否相符合的判断结果,根据多个判断结果可以统计得出该初始数据的单样本合格比例,具体计算公式如下:
其中,item为任一初始数据,score(item)为该初始数据的单样本合格比例,f(item)为该初始数据的数据标签与分类标签是否相符的判断结果的函数表示,N为建立分类模型的次数。
通过以上公式可以计算任一初始数据的单样本合格比例。示例地,初始数据A作为训练数据建立分类模型,并作为测试数据测试已建立的分类模型,以上过程重复5次,初始数据A作为测试数据测试已建立的分类模型可以得到5次输出结果。判断结果显示,初始数据A的5次输出结果中的分类标签与初始数据A的数据标签相符的次数为4次,则说明,初始数据A的单样本合格比例为4/5。
步骤S25,确定单样本合格比例大于第一阈值的初始数据为标注无误的初始数据。
具体地,根据步骤S24可以得到任一初始数据的单样本合格比例,若该初始数据的单样本合格比例大于第一阈值,可以认定该初始数据标注无误,即数据标签标注准确,此初始数据可以用于分类模型建模过程。示例地,第一阈值可以根据模型准确率要求进行设定,例如第一阈值为4/5,则单样本合格比例大于4/5的初始数据认定为标注无误,单样本合格比例小于4/5的初始数据认定为标注有误的脏数据,应予以清洗。
步骤S26,将标注无误的初始数据作为目标初始数据。
将所有单样本合格比例大于第一阈值的初始数据的集合作为目标初始数据,用于建立数学模型,其余单样本合格比例小于或者等于第一阈值的初始数据则不允许作为输入数据,对分类模型进行训练。
采用以上方法步骤,通过统计用于建立分类模型的初始数据的单样本合格比例,并设定相应的单样本合格比例阈值,可以有效地清洗标注有误的初始数据,提高训练集的标签质量,以提高分类模型的准确率。
图3是本公开实施例提供的一种建模数据的选取方法的流程图,如图3所示,该方法包括以下步骤:
步骤S31,将带数据标签的初始数据作为训练集多次建立数学模型。
步骤S32,每次建立数学模型后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,模型输出结果包括每一初始数据的分类标签。
步骤S33,判断每次得到的分类标签与数据标签是否相符合,得到判断结果。
步骤S34,根据每一初始数据的每一分类标签与其数据标签是否相符的判断结果,确定每一初始数据分类标签与数据标签相符的比例,得到单样本合格比例。
步骤S35,确定每次建模后所有初始数据中分类标签与数据标签相符的初始数据所占的比例,得到多个样本合格比例。
在另一种实施方式中,每次建立模型之后,统计用于建立模型的初始数据的样本合格比例,样本合格比例可以通过如下公式进行计算:
其中,P为用于建立模型的所有初始数据的样本合格比例,item为任一初始数据,f(item)为任一初始数据的数据标签与分类标签是否相符的判断结果的函数表示,dataset为所有用于建立模型的初始数据的集合。
通过以上公式可以得到用于建立模型的所有初始数据的样本合格比例,例如,初始数据的数目|dataset|为100,第一次建立数据模型后,数据标签与分类标签相符的初始数据的数目∑item∈datasetf(item)为80(初始数据item数据标签与分类标签相符时,f(item)等于1,不相符时,f(item)等于0),则第一次建立数据模型后的样本合格比例可以为8/10,同理,可以计算得到第二次建立数据模型后的样本合格比例,也就是说,每次建模后,可以计算得到一样本合格比例。
步骤S36,确定单样本合格比例大于多个样本合格比例的均值的初始数据为标注无误的初始数据。
具体地,重复建模过程N次,可以得到N个样本合格比例,N个样本合格比例的均值计算公式如下:
其中,为多个样本合格比例的均值,Pi为第i次建立分类模型后计算得到的样本合格比例,N为建立分类模型的次数。
比较单样本合格比例与计算得到的多个样本合格比例的均值,若初始数据的单样本合格比例大于多个样本合格比例的均值,可以确定该初始数据为标注无误的合格初始数据,否则该初始数据为标注有误的不合格初始数据。例如,初始数据数目为100,在10次建立模型的过程中,初始数据A有8次分类标签与数据标签相符,两次分类标签与数据标签不相符,则初始数据A单样本合格比例8/10,初始数据B有6次分类标签与数据标签相符,4次分类标签与数据标签不相符,则初始数据A单样本合格比例6/10,并且,每次建立模型后的样本合格比例分别为60/100,70/100,85/100,85/100,70/100,80/100,60/100,90/100,80/100,70/100,则该多个样本合格比例的均值即为75/100,由于8/10大于75/100,则可以确定初始数据A是标注无误的合格初始数据;由于6/10小于75/100,则可以确定初始数据B是标注有误的不合格初始数据,应予以清洗。
步骤S37,将标注无误的初始数据作为目标初始数据。
将所有单样本合格比例大于多个样本合格比例的均值的初始数据作为目标初始数据,用于建立数学模型,其余的单样本合格比例小于或者等于多个样本合格比例的均值的初始数据则不允许作为输入数据,对分类模型进行训练。
采用以上方法,通过比较初始数据的单样本合格比例与多个样本合格比例的均值的大小关系,来筛选出标注无误的初始数据作为目标初始数据,可以有效控制用于建模的初始数据的标签质量,提高分类模型的准确率。
图4是本公开实施例提供的一种建模数据的选取方法的流程图,如图4所示,该方法包括以下步骤:
步骤S41,将带数据标签的初始数据作为训练集多次建立数学模型,其中,每次将带数据标签的初始数据作为训练集建立的数学模型为不同类型的分类模型。
步骤S42,每次建立数学模型后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,模型输出结果包括每一初始数据的分类标签。
步骤S43,判断每次得到的分类标签与数据标签是否相符合,得到判断结果。
步骤S44,计算任一初始数据的单样本合格度。
具体地,任一初始数据的单样本合格度Pitem可以通过如下公式进行计算:
其中,item为任一初始数据,label(item)为初始数据实际的数据标签,calculate(item)为初始数据的分类标签,N为建立分类模型的次数,ki为建立的第i分类模型的权值,其中,等于1。
值得说明的是,权值表示了每一种分类模型的可信任度,可信任度越高,对应的权值越高,可信任度越低,对应的权值越低。其中,分类模型的可信任度可以由用户预先设定,例如,根据初始数据的相关属性以及要解决的实际问题,确定建立神经网络分类模型是更优选的选择,则可以将神经网络分类模型的权值设定得较高,其他分类模型权值较小。
步骤S45,确定单样本合格度大于第二阈值的初始数据为标注无误的初始数据。
比较每一初始数据的单样本合格度与第二阈值的大小关系,若初始数据的单样本合格度大于第二阈值,可以确定该初始数据为标注无误的合格初始数据,否则该初始数据为标注有误的不合格初始数据。
步骤S46,将标注无误的初始数据作为目标初始数据。
将所有单样本合格度大于第二阈值的初始数据作为目标初始数据,用于建立数学模型,其余单样本合格度小于或者等于第二阈值的初始数据则不允许作为输入数据,对分类模型进行训练。
采用上述方法,在计算每一初始数据的单样本合格度时,考虑了每次建立的模型的可信任度,由此来筛选出标注无误的合格初始数据作为目标初始数据,有利于选取出适合最终需要建立的数学模型的初始数据,例如,最终需要建立的数学模型为神经网络分类模型,则可以将神经网络分类模型的权值设定得较高,进一步提高分类模型的准确率。
图5是本公开实施例提供的一种建模数据的选取装置500的框图,该装置500可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。如图5所示,该装置500包括:训练模块501,用于将带数据标签的初始数据作为训练集多次建立数学模型;分类模块502,用于每次建立数学模型后,将初始数据作为测试集通过已建立的数学模型进行分类计算,得到模型输出结果,模型输出结果包括每一初始数据的分类标签;判断模块503,用于判断每次得到的分类标签与数据标签是否相符合,得到判断结果;筛选模块504,用于根据判断结果从初始数据中筛选得到最终用于建立模型的目标初始数据。
可选地,训练模块501每次建立的数学模型可以是相同类型的分类模型,也可以是不同类型的分类模型,其中,不同类型的分类模型包括:神经网络分类模型,支持向量机模型,决策树模型。
采用上述装置,在多次建立模型的过程中,利用判断模块503对训练模块501输入的初始数据附带的数据标签,以及分类模块502输出的分类标签进行判断,然后通过筛选模块504对分类标签与数据标签不相符的脏数据进行清洗,最终得到用于建立模型的目标初始数据。装置500可以有效控制用于建立模型的初始数据的标签质量,提高分类模型的准确率。
图6是本公开实施例提供的一种建模数据的选取装置500的框图,该装置500可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。如图6所示,在一种可能的实施方式中,筛选模块504包括:单样本合格比例确定模块5041,用于根据每一初始数据的每一分类标签与其数据标签是否相符的判断结果,确定每一初始数据分类标签与数据标签相符的比例,得到单样本合格比例;初始数据确定模块5042,用于确定单样本合格比例大于第一阈值的初始数据为标注无误的初始数据;该初始数据确定模块5042还用于初始数据确定模块还用于,将标注无误的初始数据作为目标初始数据。
采用上述装置,通过单样本合格比例确定模块5041统计用于建立分类模型的初始数据的单样本合格比例,初始数据确定模块5042根据设定的单样本合格比例阈值对初始数据进行筛选,可以有效地清洗标注有误的不合格初始数据,提高训练数据的标签质量,以提高分类模型的准确率。
图7是本公开实施例提供的一种建模数据的选取装置500的框图,该装置500可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。如图7所示,在另一种可能的实施方式中,筛选模块504包括:单样本合格比例确定模块5041,用于根据每一初始数据的每一分类标签与其数据标签是否相符的判断结果,确定每一初始数据分类标签与数据标签相符的比例,得到单样本合格比例;样本合格比例确定模块5043,用于确定每次建模后初始数据中分类标签与数据标签相符的初始数据所占的比例,得到多个样本合格比例。初始数据确定模块5042,用于确定单样本合格比例大于多个样本合格比例的均值的初始数据为标注无误的初始数据;初始数据确定模块5042还用于,将标注无误的初始数据作为目标初始数据。
采用上述装置,通过单样本合格比例确定模块5041计算用于建立分类模型的初始数据的单样本合格比例,利用样本合格比例确定模块5043统计用于建立模型的初始数据的样本合格比例,继而计算得到多次建立模型的多个样本合格比例的均值,初始数据确定模块5042根据初始数据的单样本合格比例和多个样本合格比例的均值的大小关系,对初始数据进行筛选,可以有效地清洗标注有误的初始数据,提高训练数据的标签质量,以提高分类模型的准确率。
图8是本公开实施例提供的一种建模数据的选取装置500的框图,该装置500可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。如图8所示,在另一种可能的实施方式中,筛选模块504包括:单样本合格度计算模块5044,用于通过如下公式计算任一初始数据的单样本合格度Pitem:
其中,item为任一初始数据,label(item)为初始数据实际的数据标签,calculate(item)为初始数据的分类标签,N为建立分类模型的次数,ki为建立的第i分类模型的权值,其中,等于1;
初始数据确定模块5042,用于确定单样本合格度大于第二阈值的初始数据为标注无误的初始数据;初始数据确定模块5042还用于,将标注无误的初始数据作为目标初始数据。
采用上述装置,该装置在计算每一初始数据的单样本合格度时,考虑了每次建立的模型的可信任度,由此来筛选出标注无误的合格初始数据作为目标初始数据,有利于选取出适合最终需要建立的数学模型的初始数据,例如,最终需要建立的数学模型为神经网络分类模型,则可以将神经网络分类模型的权值设定得较高,进一步提高分类模型的准确率。
图9是本公开实施例提供的一种建模数据的选取装置900的框图。如图9所示,该建模数据的选取装置900可以包括:处理器901,存储器902,多媒体组件903,输入/输出(I/O)接口904,以及通信组件905。
其中,处理器901用于控制该建模数据的选取装置900的整体操作,以完成上述建模数据的选取方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该建模数据的选取装置900的操作,这些数据例如可以包括用于在该建模数据的选取装置900上操作的任何应用程序或方法的指令,以及应用程序相关的数据。
存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件903可以包括屏幕和音频组件,其中,屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口904为处理器901和其他接口模块之间提供接口,上述其他接口模块可以为键盘,按钮等。这些按钮可以为虚拟按钮或者实体按钮。
通信组件905用于该建模数据的选取装置900与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件905可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,建模数据的选取装置900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述建模数据的选取方法。
本公开实施例提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器902,其上存储有一个或者多个计算机程序,上述计算机程序可由建模数据的选取装置900的处理器901执行以完成本公开实施例提供的建模数据的选取方法。
本公开实施例还提供一种电子设备,该电子设备包括上述公开实施例所提供的计算机可读存储介质,以及一个或者多个处理器,用于执行计算机可读存储介质中的程序。具体参照上述对应的描述,此处不再赘述。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种建模数据的选取方法,其特征在于,所述方法包括:
将带数据标签的初始数据作为训练集多次建立数学模型;
每次建立数学模型后,将所述初始数据作为测试集通过已建立的所述数学模型进行分类计算,得到模型输出结果,所述模型输出结果包括每一所述初始数据的分类标签;
判断每次得到的所述分类标签与所述数据标签是否相符合,得到判断结果;
根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据,包括:
根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
确定所述单样本合格比例大于第一阈值的初始数据为标注无误的初始数据;
将标注无误的初始数据作为所述目标初始数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据,包括:
根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
确定每次建模后所述初始数据中分类标签与数据标签相符的初始数据所占的比例,得到多个样本合格比例;
确定所述单样本合格比例大于所述多个样本合格比例的均值的初始数据为标注无误的初始数据;
将标注无误的初始数据作为所述目标初始数据。
4.根据权利要求1至3中任一项所述的方法,其特征在于,每次将所述带数据标签的初始数据作为训练集建立的数学模型为不同类型的分类模型,所述不同类型的分类模型包括:神经网络分类模型,支持向量机模型,决策树模型。
5.根据权利要求1所述的方法,其特征在于,每次将所述带数据标签的初始数据作为训练集建立的数学模型为不同类型的分类模型,所述根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据,包括:
通过如下公式计算任一所述初始数据的单样本合格度Pitem:
其中,item为任一所述初始数据,label(item)为所述初始数据实际的数据标签,calculate(item)为所述初始数据的分类标签,N为建立分类模型的次数,ki为建立的第i分类模型的权值,其中,等于1;
确定所述单样本合格度大于第二阈值的初始数据为标注无误的初始数据;
将标注无误的初始数据作为所述目标初始数据。
6.一种建模数据的选取装置,其特征在于,所述装置包括:
训练模块,用于将带数据标签的初始数据作为训练集多次建立数学模型;
分类模块,用于每次建立数学模型后,将所述初始数据作为测试集通过已建立的所述数学模型进行分类计算,得到模型输出结果,所述模型输出结果包括每一所述初始数据的分类标签;
判断模块,用于判断每次得到的所述分类标签与所述数据标签是否相符合,得到判断结果;
筛选模块,用于根据所述判断结果从所述初始数据中筛选得到最终用于建立模型的目标初始数据。
7.根据权利要求6所述的装置,其特征在于,所述筛选模块包括:
单样本合格比例确定模块,用于根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
初始数据确定模块,用于确定所述单样本合格比例大于第一阈值的初始数据为标注无误的初始数据;
所述初始数据确定模块还用于,将标注无误的初始数据作为所述目标初始数据。
8.根据权利要求6所述的装置,其特征在于,所述筛选模块包括:
单样本合格比例确定模块,用于根据每一所述初始数据的每一所述分类标签与其数据标签是否相符的判断结果,确定每一所述初始数据分类标签与数据标签相符的比例,得到单样本合格比例;
样本合格比例确定模块,用于确定每次建模后所述初始数据中分类标签与数据标签相符的初始数据所占的比例,得到多个样本合格比例;
初始数据确定模块,用于确定所述单样本合格比例大于所述多个样本合格比例的均值的初始数据为标注无误的初始数据;
所述初始数据确定模块还用于,将标注无误的初始数据作为所述目标初始数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
权利要求9中所述的计算机可读存储介质;以及
一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279229.3A CN108171335A (zh) | 2017-12-06 | 2017-12-06 | 建模数据的选取方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279229.3A CN108171335A (zh) | 2017-12-06 | 2017-12-06 | 建模数据的选取方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108171335A true CN108171335A (zh) | 2018-06-15 |
Family
ID=62525399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711279229.3A Pending CN108171335A (zh) | 2017-12-06 | 2017-12-06 | 建模数据的选取方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108171335A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897829A (zh) * | 2018-06-22 | 2018-11-27 | 广州多益网络股份有限公司 | 数据标签的修正方法、装置和存储介质 |
CN109190674A (zh) * | 2018-08-03 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 训练数据的生成方法及装置 |
CN109199604A (zh) * | 2018-08-31 | 2019-01-15 | 浙江大学宁波理工学院 | 一种基于多特征的椎弓根螺钉最佳入点定位方法 |
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN109710793A (zh) * | 2018-12-25 | 2019-05-03 | 科大讯飞股份有限公司 | 一种哈希参数确定方法、装置、设备及存储介质 |
CN109886211A (zh) * | 2019-02-25 | 2019-06-14 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN109961094A (zh) * | 2019-03-07 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN110060247A (zh) * | 2019-04-18 | 2019-07-26 | 深圳市深视创新科技有限公司 | 应对样本标注错误的鲁棒深度神经网络学习方法 |
CN110399933A (zh) * | 2019-07-31 | 2019-11-01 | 北京字节跳动网络技术有限公司 | 数据标注修正方法、装置、计算机可读介质及电子设备 |
CN110738264A (zh) * | 2019-10-18 | 2020-01-31 | 上海眼控科技股份有限公司 | 异常样本筛选、清洗、训练方法、装置、设备和存储介质 |
CN110786847A (zh) * | 2018-08-02 | 2020-02-14 | 深圳市理邦精密仪器股份有限公司 | 心电信号的建库方法和分析方法 |
CN111079809A (zh) * | 2019-12-06 | 2020-04-28 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN112749150A (zh) * | 2019-10-31 | 2021-05-04 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
-
2017
- 2017-12-06 CN CN201711279229.3A patent/CN108171335A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897829A (zh) * | 2018-06-22 | 2018-11-27 | 广州多益网络股份有限公司 | 数据标签的修正方法、装置和存储介质 |
CN108897829B (zh) * | 2018-06-22 | 2020-08-04 | 广州多益网络股份有限公司 | 数据标签的修正方法、装置和存储介质 |
CN110786847A (zh) * | 2018-08-02 | 2020-02-14 | 深圳市理邦精密仪器股份有限公司 | 心电信号的建库方法和分析方法 |
CN109190674A (zh) * | 2018-08-03 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 训练数据的生成方法及装置 |
CN109199604A (zh) * | 2018-08-31 | 2019-01-15 | 浙江大学宁波理工学院 | 一种基于多特征的椎弓根螺钉最佳入点定位方法 |
CN109199604B (zh) * | 2018-08-31 | 2020-12-01 | 浙江大学宁波理工学院 | 一种基于多特征的椎弓根螺钉最佳入点定位方法 |
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN109710793A (zh) * | 2018-12-25 | 2019-05-03 | 科大讯飞股份有限公司 | 一种哈希参数确定方法、装置、设备及存储介质 |
CN109886211A (zh) * | 2019-02-25 | 2019-06-14 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN109886211B (zh) * | 2019-02-25 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN109961094A (zh) * | 2019-03-07 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN109961094B (zh) * | 2019-03-07 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 样本获取方法、装置、电子设备及可读存储介质 |
CN110060247A (zh) * | 2019-04-18 | 2019-07-26 | 深圳市深视创新科技有限公司 | 应对样本标注错误的鲁棒深度神经网络学习方法 |
CN110399933A (zh) * | 2019-07-31 | 2019-11-01 | 北京字节跳动网络技术有限公司 | 数据标注修正方法、装置、计算机可读介质及电子设备 |
CN110399933B (zh) * | 2019-07-31 | 2021-05-07 | 北京字节跳动网络技术有限公司 | 数据标注修正方法、装置、计算机可读介质及电子设备 |
CN110738264A (zh) * | 2019-10-18 | 2020-01-31 | 上海眼控科技股份有限公司 | 异常样本筛选、清洗、训练方法、装置、设备和存储介质 |
CN112749150A (zh) * | 2019-10-31 | 2021-05-04 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN112749150B (zh) * | 2019-10-31 | 2023-11-03 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN111079809A (zh) * | 2019-12-06 | 2020-04-28 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN111079809B (zh) * | 2019-12-06 | 2023-08-29 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171335A (zh) | 建模数据的选取方法、装置、存储介质及电子设备 | |
CN106290378B (zh) | 缺陷分类方法和缺陷检查系统 | |
CN108009600A (zh) | 模型优化、质量检测方法、装置、设备及存储介质 | |
Suryadevara | Predictive modeling for student performance: harnessing machine learning to forecast academic marks | |
US10068176B2 (en) | Defect prediction method and apparatus | |
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
US20180374098A1 (en) | Modeling method and device for machine learning model | |
CN110298415A (zh) | 一种半监督学习的训练方法、系统和计算机可读存储介质 | |
CN108256555A (zh) | 图像内容识别方法、装置及终端 | |
CN111932269B (zh) | 设备信息处理方法及装置 | |
CN107710249A (zh) | 个性化预测模型 | |
CN107766418A (zh) | 一种基于融合模型的信用评估方法、电子设备和存储介质 | |
CN108009477A (zh) | 图像的人流数量检测方法、装置、存储介质及电子设备 | |
CN109345553A (zh) | 一种手掌及其关键点检测方法、装置和终端设备 | |
Ali et al. | The application of data mining for predicting academic performance using k-means clustering and naïve bayes classification | |
CN107885545A (zh) | 应用管理方法、装置、存储介质及电子设备 | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
CN110070452A (zh) | 模型训练方法、装置、计算设备及计算机可读存储介质 | |
CN109598285A (zh) | 一种模型的处理方法、装置及设备 | |
CN105335379A (zh) | 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备 | |
CN115081613A (zh) | 生成深度学习模型的方法、装置、电子设备及存储介质 | |
CN110288468A (zh) | 数据特征挖掘方法、装置、电子设备及存储介质 | |
CN107729947A (zh) | 一种人脸检测模型训练方法、装置和介质 | |
CN105608460A (zh) | 多分类器融合方法和系统 | |
CN108764290A (zh) | 模型异动的原因确定方法及装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |