CN112000808B - 一种数据处理方法及装置、可读存储介质 - Google Patents

一种数据处理方法及装置、可读存储介质 Download PDF

Info

Publication number
CN112000808B
CN112000808B CN202011051021.8A CN202011051021A CN112000808B CN 112000808 B CN112000808 B CN 112000808B CN 202011051021 A CN202011051021 A CN 202011051021A CN 112000808 B CN112000808 B CN 112000808B
Authority
CN
China
Prior art keywords
category
sample
labeling
text
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011051021.8A
Other languages
English (en)
Other versions
CN112000808A (zh
Inventor
杜渂
王聚全
邱祥平
雷霆
彭明喜
苏永煜
邱雷
索涛
刘冉东
杨博
陈健
孙骞
张利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ds Information Technology Co ltd
Original Assignee
Ds Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ds Information Technology Co ltd filed Critical Ds Information Technology Co ltd
Priority to CN202011051021.8A priority Critical patent/CN112000808B/zh
Publication of CN112000808A publication Critical patent/CN112000808A/zh
Application granted granted Critical
Publication of CN112000808B publication Critical patent/CN112000808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据处理方法及装置、可读存储介质,包括:通过对样本数据的交叉验证,获得每个样本的预测类别;根据所有样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的预测准确度;若一标注类别的预测准确度小于第二阈值,则对所述标注类别的样本数据进行相应的处理,所述处理包括重组、删除。本发明可以解决因标注错误导致的训练数据质量不高的问题,提升用于分类模型的训练数据的质量,从而提高分类模型的分类准确度。

Description

一种数据处理方法及装置、可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤指一种数据处理方法及装置、可读存储介质。
背景技术
文本分类问题是自然语言处理领域关键的任务之一,程序通过理解文本中的自然语言,可以为文本选择最匹配的类别。文本分类任务被广泛应用于推荐算法、数据分析、垃圾信息过滤等诸多领域。然而,在实际应用中文本分类器的效果由于训练数据质量不稳定的原因,效果难以把控。
在警情分类任务中,面临着以下问题:(1)警情类别众多,类别划分详细,且某些类之间的边界不明确,有时人都无法区分,因此会出现部分标注错误的噪音数据;(2)每个类别的数据不均衡,部分类别的样本很少,使得现有分类模型的分类效果差。
一般的数据处理方法对数据质量高和数量较高的类别分类效果较好,反之则显得乏善可陈。
发明内容
本发明的目的是提供一种数据处理方法及装置、可读存储介质,用于解决现有训练数据中因标注错误导致的数据噪音问题。
本发明提供的技术方案如下:
一种数据处理方法,包括:通过对样本数据的交叉验证,获得每个样本的预测类别;根据所有样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的预测准确度;若一标注类别的预测准确度小于第二阈值,则对所述标注类别的样本数据进行相应的处理,所述处理包括重组、删除。
进一步地,所述标注类别的统计信息包括所述标注类别的样本数据被预测为各个类别的统计信息;
所述的对所述标注类别的样本数据进行相应的处理,包括:根据所述标注类别的统计信息,获取其中预测占比最大的两类类别的统计信息;若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注类别的样本数据的标注类别更新为预测占比最大值对应的预测类别。
进一步地,所述标注类别的统计信息包括所述标注类别的样本数据被预测为各个类别的统计信息;所述的对所述标注类别的样本数据进行相应的处理,包括:若所述标注类别的统计信息中,存在一个不小于2的N值,使得预测占比最大的N个值组成样本的样本方差小于第四阈值,则删除所述标注类别的样本数据。
进一步地,若一标注类别的预测准确度大于第一阈值,则保留所述标注类别的样本数据;所述第一阈值不小于所述第二阈值。
进一步地,所述的通过对样本数据的交叉验证,获得每个样本的预测类别,包括:通过对样本数据的K折交叉验证,获得每个样本在分类模型中每一类别下的概率信息;将每个样本的最大概率信息所对应的类别,作为所述样本的预测类别。
进一步地,在得到每个样本的预测类别之后,还包括:根据所有样本在同一类别下的概率信息,得到所述类别的概率阈值;当一样本的预测类别的概率信息小于与所述预测类别相同的类别的概率阈值,则所述样本为无效预测样本,并删除所述无效预测样本。
进一步地,在获得每一类别的概率阈值之后,还包括:当一样本的预测类别的概率信息大于与所述预测类别相同的类别的概率阈值,则所述样本为有效预测样本;所述的根据所有样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,包括:根据所有有效预测样本的标注类别和预测类别,对每一标注类别的预测结果进行统计。
本发明还提供一种数据处理装置,包括:交叉验证模块,用于通过对样本数据的交叉验证,获得每个样本的预测类别;信息统计模块,用于根据所有样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的预测准确度;数据处理模块,用于若一标注类别的预测准确度小于第二阈值,则对所述标注类别的样本数据进行相应的处理,所述处理包括重组、删除。
进一步地,所述标注类别的统计信息包括所述标注类别的样本数据被预测为各个类别的统计信息;所述信息统计模块,进一步用于根据所述标注类别的统计信息,获取其中预测占比最大的两类类别的统计信息,并判断所述预测占比最大的两类类别的统计信息的差值是否大于第三阈值;所述数据处理模块,进一步用于若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注类别的样本数据的标注类别更新为预测占比最大值对应的预测类别。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的数据处理方法的步骤。
通过本发明提供的一种数据处理方法及装置、可读存储介质,至少能够带来以下有益效果:
1、本发明通过识别不同类别间的相关程度,并根据该相关程度对训练数据进行保留、重组、删除等处理,提升了训练数据质量,从而让模型可以更好地学习到类别的特征,提高了分类模型的分类准确度,解决了现有训练数据中因标注错误导致的数据噪音问题。
2、本发明通过剔除无效预测样本,进一步提升了训练数据的质量,提高了分类模型的分类准确度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种数据处理方法及装置、可读存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种数据处理方法的一个实施例的流程图;
图2是本发明的一种数据处理方法的另一个实施例的流程图;
图3是本发明的一种数据处理装置的一个实施例的结构示意图;
图4是10折交叉验证的一种示意图。
附图标号说明:
100.交叉验证模块,200.信息统计模块,300.数据处理模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘制了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种数据处理方法,包括:
步骤S100通过对样本数据的交叉验证,获得每个样本的预测类别。
通常训练后的模型对于训练集的拟合程度还是挺好的,但是对于训练集之外的数据的拟合程度就不那么令人满意。因此通常会对所有的数据集进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类模型进行训练,再利用验证集测试训练得到的模型,以此来评价分类模型的性能。这种思想称为交叉验证。
具体地,通过对样本数据的交叉验证,获得每个样本在每一类别下的概率信息;将每个样本的最大概率信息所对应的类别,作为所述样本的预测类别。
可选地,采用K折交叉验证。定义好分类器模型,将整个样本数据等比例划分为K份,选取其中一份作为测试数据,另外K-1份作为训练数据,这样一共可以得到K个分类器。每个分类器在训练完毕后,可以对测试数据中的每个样本在每个类别上的概率做出预测,根据K组测试数据的预测结果,就可以得到整个样本数据中每个样本在每一类别下的概率信息。
如图4所示,以常用的10折交叉验证为例,将全样本数据集分成十份,轮流将其中9份做训练1份做验证。测试结果1包括D10中每个样本在每一类别下的概率;测试结果2包括D9中每个样本在每一类别下的概率,依次类推,根据10次的测试结果,就可以得到全样本数据集中每个样本在每一类别下的概率。
从一个样本在所有类别下的概率信息中选取最大概率信息所对应的类别,作为所述样本的预测类别。
步骤S200根据所有样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的预测准确度。
具体地,在对分类模型训练前需要对样本数据中的每个样本进行类别标注,通常由人工标注,该类别称为标注类别。若无标注错误,该类别相当于真实类别。
根据所有样本的标注类别和预测类别,对每一标注类别的样本数据的预测结果进行统计,得到每一标注类别的统计信息。
标注类别的统计信息包括对应标注类别的预测准确度。标注类别的预测准确度是指标注类别的样本数据被预测为自身类别的统计信息,该统计信息可以是被预测为自身类别的样本数,也可以是被预测为自身类别的样本数相对该标注类别样本总数的比例。
比如,整个样本数据存在3种类别,分别为类别1-3;对每个样本进行标注,标注类别也对应有3种,且标注类别1对应类别1,其他依次类推;预测类别也对应3种,且预测类别1对应类别1,其他依次类推。按标注类别划分,整个样本数据可分为标注类别1-3的样本数据。
以标注类别1的样本数据为例,其中有的样本的预测类别等于标注类别1,即被预测为自身类别的样本;有的样本的预测类别不等于标注类别1,即被预测为其他类别的样本。其中被预测为自身类别的样本,说明分类模型对该样本预测准确。所以预测类别等于标注类别1的样本数,或预测类别等于标注类别1的样本数相对标注类别1的样本总数的比例,可以作为标注类别1的预测准确度。
可选地,标注类别的统计信息包括所述标注类别的样本数据被预测为各个类别的统计信息。
承接上述例子,标注类别1的统计信息除了包括标注类别1的样本数据中被预测为类别1的统计信息,还包括被预测为类别2、3的统计信息。
步骤S300若一标注类别的预测准确度小于第二阈值,则对所述标注类别的样本数据进行相应的处理,所述处理包括重组、删除。
若一标注类别的预测准确度小于第二阈值,说明该标注类别的样本数据存在较大标注错误,影响了分类模型的预测准确度,所以需要对该标注类别的样本数据进行重组或删除等处理,以提高样本数据的质量。
对一标注类别的样本数据进行重组,是指将该标注类别的样本数据中每个样本的标注类别改为另一标注类别,比如,标注类别1的样本数据大部分实际上为类别2的数据,则需要将其中每个样本的标注类别改为标注类别2。
对一标注类别的样本数据进行删除,是指从样本数据中删除该标注类别的样本数据。比如,标注类别1的样本数据很杂,有的为类别1的数据,有的为类别2的数据,有的为类别3的数据,标注错误分布较均匀,在分类中带来白色噪音的干扰效果,所以将标注类别1的样本数据全部删除。
可选地,根据标注类别的统计信息,获取其中预测占比最大的两类类别的统计信息;若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注类别的样本数据的标注类别更新为预测占比最大值对应的预测类别。
可选地,若所述标注类别的统计信息中,存在一个不小于2的N值,使得预测占比最大的N个值组成样本的样本方差小于第四阈值,则删除所述标注类别的样本数据。
步骤S400若一标注类别的预测准确度大于第一阈值,则保留所述标注类别的样本数据;所述第一阈值不小于所述第二阈值。
第一阈值与第二阈值可相等,也可不等,取决于分类模型的精度要求。
若一标注类别的预测准确度大于第一阈值,比如第一阈值为90%,说明该标注类别的样本数据大部分都预测准确,标注类别全部正确或大部分正确,对这类样本数据需要全部保留。
对样本数据进行上述处理后,训练数据质量得到提升,再将处理后的样本数据用于分类模型的训练,可提高分类模型的预测准确度。
本实施例,通过交叉验证获取每个样本的预测类别,根据所有样本的标注类别和预测类别,得到每一标注类别的预测准确度;根据每一标注类别的预测准确度对该标注类别的样本数据进行保留、重组、删除等处理,实现了根据类别间的相关程度对数据进行合并或删除,提升了训练数据质量,从而让模型可以更好地学习到类别的特征,提高了分类模型的分类准确度。
本发明的另一个实施例,如图2所示,一种数据处理方法,包括:
步骤S110通过对样本数据的K折交叉验证,获得每个样本在每一类别下的概率信息。
步骤S120将每个样本的最大概率信息所对应的类别,作为所述样本的预测类别。
步骤S130根据所有样本在同一类别下的概率信息,得到所述类别的概率阈值。
比如,对所有样本在同一类别下的概率信息取平均值,得到所述类别的概率阈值。
可选地,根据每个样本在每一类别下的概率信息,得到一个样本概率矩阵,该矩阵的每一行代表一个样本,每一列表示该样本出现在该类别下的概率。通过对每一列取平均值,得到每一类别下的概率阈值。
步骤S140当一样本的预测类别的概率信息小于与所述预测类别相同的类别的概率阈值,则所述样本为无效预测样本,并删除所述无效预测样本。
步骤S150当一样本的预测类别的概率信息大于与所述预测类别相同的类别的概率阈值,则所述样本为有效预测样本。
步骤S210根据所有有效预测样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的样本数据被预测为各个类别的统计信息。
可选地,将所有标注类别的统计信息通过混淆矩阵的形式呈现。比如,通常以标注类别为行特征、预测类别为列特征,构建混淆矩阵。当然理论上也可以标注类别为列特征、预测类别为行特征,构建混淆矩阵。
以标注类别为行特征、预测类别为列特征为例,混淆矩阵的每一行代表了数据的真实类别(即标注类别),矩阵的每一列代表模型的预测类别,每一个单元则代表某一标注类别与某一预测类别出现重叠的样本数量。每一行之和表示标注类别为该类别的样本数量。每一列之和表示预测类别为该类别的样本数量。
示例,假设有150个样本数据,预测为1,2,3类各为50个,得到如下混淆矩阵,每个元素采用满足要求的样本数量:
混淆矩阵中每个元素可以是满足要求的样本数量,也可以是满足要求的样本数量占对应标注类别的样本数据的总数的比例。对角线元素是标注类别与预测类别一致的样本数量或占对应标注类别的样本数据的总数的比例,其值反映了该标注类别的预测准确度。
为了后续描述方便,在本实施例中将每个元素的取值统一定义为满足要求的样本数量占对应标注类别的样本数据的总数的比例;将混淆矩阵的行特征定义为标注类别。不过本申请并不限定将元素的取值定义为满足要求的样本数量,对应的各种阈值做相应调整即可;也不限定将混淆矩阵的列特征定义为标注类别,只要对应的判断措施做相应的调整即可。
将元素取值定义为比例,则相当于对混淆矩阵的每一行进行归一化处理,即使每一行所有单元内的数据之和为1。
步骤S310若一标注类别的预测准确度小于第二阈值,则根据所述标注类别的统计信息,获取其中预测占比最大的两类类别的统计信息;
步骤S320若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注类别的样本数据的标注类别更新为预测占比最大值对应的预测类别。
具体地,若某行对角线元素的值小于规定概率阈值P0,且该行内元素值最大的两个元素的差值的绝对值大于规定概率差值P1(0<P1<1),则表明该行所代表类别的判定受另一个类别数据的影响较大,该类类别记为情况C。
对于情况C的类别,因为该类类别受另一个类别ci数据的影响较大,会将该类类别数据并入类别ci。
步骤S330若一标注类别的预测准确度小于第二阈值,且所述标注类别的统计信息中,存在一个不小于2的N值,使得预测占比最大的N个值组成样本的样本方差小于第四阈值,则删除所述标注类别的样本数据。
若某行对角线元素的值小于规定概率阈值P0,且该行内元素值最大的N个值组成样本的样本方差小于规定方差阈值P2,则判断该行所代表类别受其他多个类别数据的影响较大,该类类别记为情况D。
对于情况D的类别,因为该类类别受其他多个类别数据ci,ci+1,…,cj的影响较大,会将该类类别数据视为噪音数据进行删除。
步骤S400若一标注类别的预测准确度大于第一阈值,则保留所述标注类别的样本数据;所述第一阈值不小于所述第二阈值。
具体地,若混淆矩阵某行对角线元素的值大于规定概率阈值P0(0<P0<1),则判断该行所代表类别受其他类别数据的影响较小,该类类别记为情况S。
对于情况S的类别,因为该类类别受其他类别数据影响的程度较小,对此类类别数据会进行完整的保留。
本实施例,通过对样本数据进行K折交叉验证,获取每一个样本在不同类别下的概率信息以及每个类别的阈值,根据每个类别的阈值识别有效预测样本,剔除无效预测样本;根据有效预测样本组建混淆矩阵;如果混淆矩阵对角线上的元素的值大于规定的阈值,判断该类判定受其他类别数据的影响小,则保留对该类别数据;如果混淆矩阵对角线上元素的值小于规定阈值但本行最大两个元素的差值大于规定阈值,判断该类别判定受另外一个类别数据的影响比较大,则将该类别数据并入另外一个类别中;如果混淆矩阵对角元素的值小于规定阈值且该行值最大的N个值组成样本的样本方差小于规定阈值,判断该类别受其他多个类别数据影响很大,则将该类别数据作为整体的噪音数据进行删除。因此,即使训练数据中存在人为的标注错误和/或相关的类别交叠情况,本实施例都能有效地减少模型训练数据中的噪声,能够明显地提高模型的拟合程度以及预测数据的准确率。因为该方法实际上将类别进行了重组,根据类别间的相关程度进行合并或删除,从而让模型可以更好地学习到类别的特征。
本发明的一个实施例,如图3所示,一种数据处理装置,包括:
交叉验证模块100,用于通过对样本数据的交叉验证,获得每个样本的预测类别。
通常训练后的模型对于训练集的拟合程度还是挺好的,但是对于训练集之外的数据的拟合程度就不那么令人满意。因此通常会对所有的数据集进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类模型进行训练,再利用验证集测试训练得到的模型,以此来评价分类模型的性能。这种思想称为交叉验证。
具体地,通过对样本数据的交叉验证,获得每个样本在每一类别下的概率信息;将每个样本的最大概率信息所对应的类别,作为所述样本的预测类别。
可选地,采用K折交叉验证。定义好分类器模型,将整个样本数据等比例划分为K份,选取其中一份作为测试数据,另外K-1份作为训练数据,这样一共可以得到K个分类器。每个分类器在训练完毕后,可以对测试数据中的每个样本在每个类别上的概率做出预测,根据K组测试数据的预测结果,就可以得到整个样本数据中每个样本在每一类别下的概率信息。
如图4所示,以常用的10折交叉验证为例,将全样本数据集分成十份,轮流将其中9份做训练1份做验证。测试结果1包括D10中每个样本在每一类别下的概率;测试结果2包括D9中每个样本在每一类别下的概率,依次类推,根据10次的测试结果,就可以得到全样本数据集中每个样本在每一类别下的概率。
从一个样本在所有类别下的概率信息中选取最大概率信息所对应的类别,作为所述样本的预测类别。
信息统计模块200,用于根据所有样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的预测准确度。
具体地,在对分类模型训练前需要对样本数据中的每个样本进行类别标注,通常由人工标注,该类别称为标注类别。若无标注错误,该类别相当于真实类别。
根据所有样本的标注类别和预测类别,对每一标注类别的样本数据的预测结果进行统计,得到每一标注类别的统计信息。
标注类别的统计信息包括对应标注类别的预测准确度。标注类别的预测准确度是指标注类别的样本数据被预测为自身类别的统计信息,该统计信息可以是被预测为自身类别的样本数,也可以是被预测为自身类别的样本数相对该标注类别样本总数的比例。
比如,整个样本数据存在3种类别,分别为类别1-3;对每个样本进行标注,标注类别也对应有3种,且标注类别1对应类别1,其他依次类推;预测类别也对应3种,且预测类别1对应类别1,其他依次类推。按标注类别划分,整个样本数据可分为标注类别1-3的样本数据。
以标注类别1的样本数据为例,其中有的样本的预测类别等于标注类别1,即被预测为自身类别的样本;有的样本的预测类别不等于标注类别1,即被预测为其他类别的样本。其中被预测为自身类别的样本,说明分类模型对该样本预测准确。所以预测类别等于标注类别1的样本数,或预测类别等于标注类别1的样本数相对标注类别1的样本总数的比例,可以作为标注类别1的预测准确度。
可选地,标注类别的统计信息包括所述标注类别的样本数据被预测为各个类别的统计信息。
承接上述例子,标注类别1的统计信息除了包括标注类别1的样本数据中被预测为类别1的统计信息,还包括被预测为类别2、3的统计信息。
数据处理模块300,用于若一标注类别的预测准确度小于第二阈值,则对所述标注类别的样本数据进行相应的处理,所述处理包括重组、删除。
若一标注类别的预测准确度小于第二阈值,说明该标注类别的样本数据存在较大标注错误,影响了分类模型的预测准确度,所以需要对该标注类别的样本数据进行重组或删除等处理,以提高样本数据的质量。
对一标注类别的样本数据进行重组,是指将该标注类别的样本数据中每个样本的标注类别改为另一标注类别,比如,标注类别1的样本数据大部分实际上为类别2的数据,则需要将其中每个样本的标注类别改为标注类别2。
对一标注类别的样本数据进行删除,是指从样本数据中删除该标注类别的样本数据。比如,标注类别1的样本数据很杂,有的为类别1的数据,有的为类别2的数据,有的为类别3的数据,标注错误分布较均匀,在分类中带来白色噪音的干扰效果,所以将标注类别1的样本数据全部删除。
可选地,根据标注类别的统计信息,获取其中预测占比最大的两类类别的统计信息;若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注类别的样本数据的标注类别更新为预测占比最大值对应的预测类别。
可选地,若所述标注类别的统计信息中,存在一个不小于2的N值,使得预测占比最大的N个值组成样本的样本方差小于第四阈值,则删除所述标注类别的样本数据。
数据处理模块300,进一步用于若一标注类别的预测准确度大于第一阈值,则保留所述标注类别的样本数据;所述第一阈值不小于所述第二阈值。
第一阈值与第二阈值可相等,也可不等,取决于分类模型的精度要求。
若一标注类别的预测准确度大于第一阈值,比如第一阈值为90%,说明该标注类别的样本数据大部分都预测准确,标注类别全部正确或大部分正确,对这类样本数据需要全部保留。
对样本数据进行上述处理后,训练数据质量得到提升,再将处理后的样本数据用于分类模型的训练,可提高分类模型的预测准确度。
本实施例,通过交叉验证获取每个样本的预测类别,根据所有样本的标注类别和预测类别,得到每一标注类别的预测准确度;根据每一标注类别的预测准确度对该标注类别的样本数据进行保留、重组、删除等处理,实现了根据类别间的相关程度对数据进行合并或删除,提升了训练数据质量,从而让模型可以更好地学习到类别的特征,提高了分类模型的分类准确度。
本发明的另一个实施例,如图3所示,一种数据处理装置,包括:
交叉验证模块100,用于通过对样本数据的K折交叉验证,获得每个样本在每一类别下的概率信息;将每个样本的最大概率信息所对应的类别,作为所述样本的预测类别;根据所有样本在同一类别下的概率信息,得到所述类别的概率阈值;当一样本的预测类别的概率信息小于与所述预测类别相同的类别的概率阈值,则所述样本为无效预测样本;当一样本的预测类别的概率信息大于与所述预测类别相同的类别的概率阈值,则所述样本为有效预测样本。
比如,对所有样本在同一类别下的概率信息取平均值,得到所述类别的概率阈值。
可选地,根据每个样本在每一类别下的概率信息,得到一个样本概率矩阵,该矩阵的每一行代表一个样本,每一列表示该样本出现在该类别下的概率。通过对每一列取平均值,得到每一类别下的概率阈值。
信息统计模块200,用于根据所有有效预测样本的标注类别和预测类别,对每一标注类别的预测结果进行统计,得到每一标注类别的统计信息,其中包括所述标注类别的样本数据被预测为各个类别的统计信息。
可选地,将所有标注类别的统计信息通过混淆矩阵的形式呈现。比如,通常以标注类别为行特征、预测类别为列特征,构建混淆矩阵。当然理论上也可以标注类别为列特征、预测类别为行特征,构建混淆矩阵。
以标注类别为行特征、预测类别为列特征为例,混淆矩阵的每一行代表了数据的真实类别(即标注类别),矩阵的每一列代表模型的预测类别,每一个单元则代表某一标注类别与某一预测类别出现重叠的样本数量。每一行之和表示标注类别为该类别的样本数量。每一列之和表示预测类别为该类别的样本数量。
混淆矩阵中每个元素可以是满足要求的样本数量,也可以是满足要求的样本数量占对应标注类别的样本数据的总数的比例。对角线元素是标注类别与预测类别一致的样本数量或占对应标注类别的样本数据的总数的比例,其值反映了该标注类别的预测准确度。
为了后续描述方便,在本实施例中将每个元素的取值统一定义为满足要求的样本数量占对应标注类别的样本数据的总数的比例;将混淆矩阵的行特征定义为标注类别。不过本申请并不限定将元素的取值定义为满足要求的样本数量,对应的各种阈值做相应调整即可;也不限定将混淆矩阵的列特征定义为标注类别,只要对应的判断措施做相应的调整即可。
将元素取值定义为比例,则相当于对混淆矩阵的每一行进行归一化处理,即使每一行所有单元内的数据之和为1。
数据处理模块300,用于删除所述无效预测样本;若一标注类别的预测准确度小于第二阈值,则根据所述标注类别的统计信息,获取其中预测占比最大的两类类别的统计信息;若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注类别的样本数据的标注类别更新为预测占比最大值对应的预测类别。
具体地,若某行对角线元素的值小于规定概率阈值P0,且该行内元素值最大的两个元素的差值的绝对值大于规定概率差值P1(0<P1<1),则表明该行所代表类别的判定受另一个类别数据的影响较大,该类类别记为情况C。
对于情况C的类别,因为该类类别受另一个类别ci数据的影响较大,会将该类类别数据并入类别ci。
数据处理模块300,进一步用于若一标注类别的预测准确度小于第二阈值,且所述标注类别的统计信息中,存在一个不小于2的N值,使得预测占比最大的N个值组成样本的样本方差小于第四阈值,则删除所述标注类别的样本数据。
若某行对角线元素的值小于规定概率阈值P0,且该行内元素值最大的N个值组成样本的样本方差小于规定方差阈值P2,则判断该行所代表类别受其他多个类别数据的影响较大,该类类别记为情况D。
对于情况D的类别,因为该类类别受其他多个类别数据ci,ci+1,…,cj的影响较大,会将该类类别数据视为噪音数据进行删除。
数据处理模块300,进一步用于若一标注类别的预测准确度大于第一阈值,则保留所述标注类别的样本数据;所述第一阈值不小于所述第二阈值。
具体地,若混淆矩阵某行对角线元素的值大于规定概率阈值P0(0<P0<1),则判断该行所代表类别受其他类别数据的影响较小,该类类别记为情况S。
对于情况S的类别,因为该类类别受其他类别数据影响的程度较小,对此类类别数据会进行完整的保留。
本实施例,通过对样本数据进行K折交叉验证,获取每一个样本在不同类别下的概率信息以及每个类别的阈值,根据每个类别的阈值识别有效预测样本,剔除无效预测样本;根据有效预测样本组建混淆矩阵;如果混淆矩阵对角线上的元素的值大于规定的阈值,判断该类判定受其他类别数据的影响小,则保留对该类别数据;如果混淆矩阵对角线上元素的值小于规定阈值但本行最大两个元素的差值大于规定阈值,判断该类别判定受另外一个类别数据的影响比较大,则将该类别数据并入另外一个类别中;如果混淆矩阵对角元素的值小于规定阈值且该行值最大的N个值组成样本的样本方差小于规定阈值,判断该类别受其他多个类别数据影响很大,则将该类别数据作为整体的噪音数据进行删除。因此,即使训练数据中存在人为的标注错误和/或相关的类别交叠情况,本实施例都能有效地减少模型训练数据中的噪声,能够明显地提高模型的拟合程度以及预测数据的准确率。因为该方法实际上将类别进行了重组,根据类别间的相关程度进行合并或删除,从而让模型可以更好地学习到类别的特征。
需要说明的是,本发明提供的数据处理装置的实施例与前述提供的数据处理方法的实施例均基于同一发明构思,能够取得相同的技术效果。因而,所述数据处理装置的实施例的其它具体内容可以参照前述数据处理方法的实施例内容的记载。
在本发明的一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现如前述实施例记载的数据处理方法。也即是,当前述本发明实施例对现有技术做出贡献的技术方案的部分或全部通过计算机软件产品的方式得以体现时,前述计算机软件产品存储在一个计算机可读存储介质中。所述计算机可读存储介质可以为任意可携带计算机程序代码实体装置或设备。譬如,所述计算机可读存储介质可以是U盘、移动磁盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器等。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种用于文本分类的数据处理方法,其特征在于,包括:
通过对样本数据的交叉验证,获得每个样本在每一类别下的概率信息;将每个样本的最大概率信息所对应的类别,作为所述样本的预测文本类别;所述样本数据为文本数据;
根据所有样本在同一类别下的概率信息,得到所述类别的概率阈值;
当一样本的预测文本类别的概率信息大于与所述预测文本类别相同的类别的概率阈值,则所述样本为有效预测样本;
根据所有有效预测样本的标注文本类别和预测文本类别,对每一标注文本类别的预测结果进行统计,得到每一标注文本类别的统计信息,所述标注文本类别的统计信息包括所述标注文本类别的样本数据被预测为各个类别的统计信息,其中所述标注文本类别的样本数据被预测为自身类别的统计信息记为所述标注文本类别的预测准确度;
若一标注文本类别的预测准确度小于第二阈值,则根据所述标注文本类别的统计信息对所述标注文本类别的样本数据进行相应的处理,所述处理包括重组、删除。
2.根据权利要求1所述的数据处理方法,其特征在于:
所述的根据所述标注文本类别的统计信息对所述标注文本类别的样本数据进行相应的处理,包括:
根据所述标注文本类别的统计信息,获取其中预测占比最大的两类类别的统计信息;
若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注文本类别的样本数据的标注文本类别更新为预测占比最大值对应的预测文本类别。
3.根据权利要求1所述的数据处理方法,其特征在于:
所述的根据所述标注文本类别的统计信息对所述标注文本类别的样本数据进行相应的处理,包括:
若所述标注文本类别的统计信息中,存在一个不小于2的N值,使得预测占比最大的N个值组成样本的样本方差小于第四阈值,则删除所述标注文本类别的样本数据。
4.根据权利要求1所述的数据处理方法,其特征在于,包括:
若一标注文本类别的预测准确度大于第一阈值,则保留所述标注文本类别的样本数据;所述第一阈值不小于所述第二阈值。
5.根据权利要求1所述的数据处理方法,其特征在于,根据所有有效预测样本的标注文本类别和预测文本类别,对每一标注文本类别的预测结果进行统计,得到每一标注文本类别的统计信息,包括:
根据所有有效预测样本构建混淆矩阵,其中,标注文本类别和预测文本类别分别为所述混淆矩阵的行列特征,每个元素为满足所述混淆矩阵的行列特征要求的样本数量或满足所述混淆矩阵的行列特征要求的样本数量占对应标注文本类别的样本总数的比例;
根据所述混淆矩阵得到每一标注文本类别的样本数据被预测为各个类别的统计信息。
6.根据权利要求5所述的数据处理方法,其特征在于,若一标注文本类别的预测准确度小于第二阈值,则根据所述标注文本类别的统计信息对所述标注文本类别的样本数据进行相应的处理,包括:
若所述混淆矩阵的行特征为标注文本类别,且一行对角线元素的值小于第二阈值,且该行最大两个元素的差值的绝对值大于第三阈值,则将该行所代表的标注文本类别的样本数据的标注文本类别更新为该行最大元素值对应的预测文本类别;或,
若所述混淆矩阵的列特征为标注文本类别,且一列对角线元素的值小于第二阈值,且该列最大两个元素的差值的绝对值大于第三阈值,则将该列所代表的标注文本类别的样本数据的标注文本类别更新为该列最大元素值对应的预测文本类别。
7.根据权利要求6所述的数据处理方法,其特征在于,还包括:
若所述混淆矩阵的行特征为标注文本类别,且一行对角线元素的值小于第二阈值,且该行最大的N个值组成样本的样本方差小于第四阈值,N不小于2,则删除该行所代表的标注文本类别的样本数据;或,
若所述混淆矩阵的列特征为标注文本类别,且一列对角线元素的值小于第二阈值,且该列最大的N个值组成样本的样本方差小于第四阈值,N不小于2,则删除该列所代表的标注文本类别的样本数据。
8.一种用于文本分类的数据处理装置,其特征在于,包括:
交叉验证模块,用于通过对样本数据的交叉验证,获得每个样本在每一类别下的概率信息;将每个样本的最大概率信息所对应的类别,作为所述样本的预测文本类别;所述样本数据为文本数据;根据所有样本在同一类别下的概率信息,得到所述类别的概率阈值;当一样本的预测文本类别的概率信息大于与所述预测文本类别相同的类别的概率阈值,则所述样本为有效预测样本;
信息统计模块,用于根据所有有效预测样本的标注文本类别和预测文本类别,对每一标注文本类别的预测结果进行统计,得到每一标注文本类别的统计信息,所述标注文本类别的统计信息包括所述标注文本类别的样本数据被预测为各个类别的统计信息,其中所述标注文本类别的样本数据被预测为自身类别的统计信息记为所述标注文本类别的预测准确度;
数据处理模块,用于若一标注文本类别的预测准确度小于第二阈值,则根据所述标注文本类别的统计信息对所述标注文本类别的样本数据进行相应的处理,所述处理包括重组、删除。
9.根据权利要求8所述的数据处理装置,其特征在于:
所述信息统计模块,进一步用于根据所述标注文本类别的统计信息,获取其中预测占比最大的两类类别的统计信息,并判断所述预测占比最大的两类类别的统计信息的差值是否大于第三阈值;
所述数据处理模块,进一步用于若所述预测占比最大的两类类别的统计信息的差值大于第三阈值,则将所述标注文本类别的样本数据的标注文本类别更新为预测占比最大值对应的预测文本类别。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的用于文本分类的数据处理方法的步骤。
CN202011051021.8A 2020-09-29 2020-09-29 一种数据处理方法及装置、可读存储介质 Active CN112000808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011051021.8A CN112000808B (zh) 2020-09-29 2020-09-29 一种数据处理方法及装置、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011051021.8A CN112000808B (zh) 2020-09-29 2020-09-29 一种数据处理方法及装置、可读存储介质

Publications (2)

Publication Number Publication Date
CN112000808A CN112000808A (zh) 2020-11-27
CN112000808B true CN112000808B (zh) 2024-04-16

Family

ID=73475025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011051021.8A Active CN112000808B (zh) 2020-09-29 2020-09-29 一种数据处理方法及装置、可读存储介质

Country Status (1)

Country Link
CN (1) CN112000808B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507093B (zh) * 2020-12-10 2023-08-11 亿企赢网络科技有限公司 一种语料混淆处理方法、装置及介质
CN112527790B (zh) * 2020-12-24 2023-06-02 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
CN113407719B (zh) * 2021-06-10 2023-06-30 平安科技(深圳)有限公司 文本数据的检测方法、装置、电子设备及存储介质
CN117114103A (zh) * 2023-10-20 2023-11-24 国家电网有限公司 一种语料库的重构方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402713A (zh) * 2010-09-09 2012-04-04 富士通株式会社 机器学习方法和装置
WO2014149972A1 (en) * 2013-03-15 2014-09-25 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
WO2019233297A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 数据集的构建方法、移动终端、可读存储介质
CN110610193A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 标注数据的处理方法及装置
CN110826494A (zh) * 2019-11-07 2020-02-21 达而观信息科技(上海)有限公司 标注数据质量评价方法、装置、计算机设备及存储介质
CN111144475A (zh) * 2019-12-22 2020-05-12 上海眼控科技股份有限公司 车厢座位的确定方法、装置、电子设备及可读存储介质
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111444945A (zh) * 2020-03-20 2020-07-24 北京每日优鲜电子商务有限公司 样本信息过滤方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671069B2 (en) * 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402713A (zh) * 2010-09-09 2012-04-04 富士通株式会社 机器学习方法和装置
WO2014149972A1 (en) * 2013-03-15 2014-09-25 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
WO2019233297A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 数据集的构建方法、移动终端、可读存储介质
CN110457675A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 预测模型训练方法、装置、存储介质及计算机设备
CN110610193A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 标注数据的处理方法及装置
CN110826494A (zh) * 2019-11-07 2020-02-21 达而观信息科技(上海)有限公司 标注数据质量评价方法、装置、计算机设备及存储介质
CN111144475A (zh) * 2019-12-22 2020-05-12 上海眼控科技股份有限公司 车厢座位的确定方法、装置、电子设备及可读存储介质
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111444945A (zh) * 2020-03-20 2020-07-24 北京每日优鲜电子商务有限公司 样本信息过滤方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112000808A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112000808B (zh) 一种数据处理方法及装置、可读存储介质
CN112232407B (zh) 病理图像样本的神经网络模型训练方法、装置
CN106919957B (zh) 处理数据的方法及装置
CN115394358A (zh) 基于深度学习的单细胞测序基因表达数据插补方法和系统
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN112084330A (zh) 一种基于课程规划元学习的增量关系抽取方法
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
US10867255B2 (en) Efficient annotation of large sample group
CN113780365B (zh) 样本生成方法和装置
US20210326475A1 (en) Systems and method for evaluating identity disclosure risks in synthetic personal data
CN112732690B (zh) 一种用于慢病检测及风险评估的稳定系统及方法
CN115204322B (zh) 行为链路异常识别方法和装置
CN116502705A (zh) 兼用域内外数据集的知识蒸馏方法和计算机设备
CN112598082B (zh) 基于非校验集预测图像识别模型泛化误差的方法及系统
CN113298160B (zh) 三元组的校验方法、装置、设备和介质
CN116956171A (zh) 基于ai模型的分类方法、装置、设备及存储介质
CN112446428B (zh) 一种图像数据处理方法及装置
CN113239236B (zh) 视频处理方法、装置、电子设备及存储介质
CN117290610B (zh) 一种高校招生信息推荐方法和系统
CN117312971B (zh) 一种孤独症谱系障碍个体识别装置
CN113537290B (zh) 一种基于超高维数据元聚类的图像匹配方法
CN115329316B (zh) 权限处理方法、装置、存储介质和电子设备
CN114708460B (zh) 一种图像分类方法、系统、电子设备及存储介质
CN112968705B (zh) 一种号码分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant