CN110738264A - 异常样本筛选、清洗、训练方法、装置、设备和存储介质 - Google Patents

异常样本筛选、清洗、训练方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110738264A
CN110738264A CN201910993878.2A CN201910993878A CN110738264A CN 110738264 A CN110738264 A CN 110738264A CN 201910993878 A CN201910993878 A CN 201910993878A CN 110738264 A CN110738264 A CN 110738264A
Authority
CN
China
Prior art keywords
sample
sample image
forgetting
image
predicted text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910993878.2A
Other languages
English (en)
Inventor
周康明
冯晓锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN201910993878.2A priority Critical patent/CN110738264A/zh
Publication of CN110738264A publication Critical patent/CN110738264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种样本清洗方法、装置、计算机设备和存储介质。所述方法包括:从样本集中获取样本图像;将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;对所述遗忘次数大于所述预设阈值的样本图像进行二次学习训练,得到第二训练文本,并根据所述第二训练文本确定所述样本图像的审核结果;根据审核结果对所述样本集的所述样本图像进行清洗,得到清洗后的所述样本集。采用本方法能够快速对样本图片进行筛选清洗。

Description

异常样本筛选、清洗、训练方法、装置、设备和存储介质
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种异常样本筛选方法、样本集清洗方法、模型训练方法、异常样本筛选装置、计算机设备和存储介质。
背景技术
目前,在文本识别训练中,为了提高模型的准确率,最常用的方法是增加训练集中样本图片的数量,通过对大量的样本图片进行分析,提高模型的准确性。可是训练集数据量过大会使得模型训练速度变慢,也容易存在样本出错的情况,反而降低了模型的准确率;另外一方面,如果随机从训练集中筛选部分样本图片,则由于无法保证被筛选图片具有代表性,同样也降低模型的识别效果。因而,现在缺少一种可以快速对样本图片进行筛选清洗的方法。
发明内容
基于此,有必要针对上述技术问题,提供一种能够快速对样本图片进行筛选清洗的异常样本筛选方法、样本集清洗方法、模型训练方法、异常样本筛选装置、计算机设备和存储介质。
一种异常样本筛选方法,所述方法包括:
从样本集中获取样本图像;
将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
将所述遗忘次数大于预设阈值的样本图像发送给审核终端并接收所述审核终端反馈的所述样本图像的审核结果;
根据审核结果对所述样本图像进行筛选,得到异常样本。
在其中一个实施例中,所述将所述样本图像输入第一训练模型,得到与所述第一样本图像对应的预测文本,包括:
采用残差网络识别对所述样本图像进行特征提取,得到特征图;
通过长短期记忆网络对所述特征图进行特征分析,输出预测文本。
在其中一个实施例中,所述通过长短期记忆网络对所述特征图进行特征分析,输出预测文本,包括:
提取所述特征图的图像像素特征、图像时序特征和字符连接特征;
将所述图像像素特征、所述图像时序特征和所述字符连接特征输入长短期记忆网络,得到与所述特征图对应的预测文本。
在其中一个实施例中,所述根据所述预测文本确定所述样本图像的遗忘次数,包括:
获取所述样本图像的图片标识和图片标签;
通过所述预测文本和所述图片标签比对,确定所述样本图像的遗忘次数。
在其中一个实施例中,所述通过所述预测文本和所述图片标签比对,确定所述样本图像的遗忘次数,包括:
将所述预测文本和所述图片标签进行比对,确定准确率,将图片标识和所述准确率进行对应存储;
计算所述准确率的变化差值;
统计变化差值,得到所述样本图像的遗忘次数。
一种样本集清洗方法,所述方法包括:
从样本集中获取样本图像;
将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
将所述遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;
根据审核结果从所述样本图像中筛选异常样本;
比对所述异常样本的异常样本标签和异常训练文本,并根据比对结果对异常样本进行清洗,得到清洗后的所述样本集。
一种模型训练方法,所述方法包括:
获取样本集,所述样本集是根据遗忘次数清洗得到的;
采用机器学习算法对所述样本集进行学习训练,构建深度学习模型。
一种异常样本筛选装置,其特征在于,所述装置包括:
样本图像获取模块,用于从样本集中获取样本图像;
遗忘次数获取模块,用于将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
审核结果获取模块,用于对所述遗忘次数大于预设阈值的样本图像将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;
筛选模块,用于根据审核结果对所述样本图像进行筛选,得到异常样本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述样本清洗方法、装置、计算机设备和存储介质,对样本图像进行学习训练,得到与第一样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;并对遗忘次数大于预设阈值的样本图像进行二次学习训练,并确定样本图像的审核结果;根据审核结果对所述样本集的所述样本图像进行清洗,得到清洗后的所述样本集,通过将样本遗忘统计运用在数据清洗领域,通过清洗数据集,不仅提高数据集的质量,而且可以对未被遗忘的样本分不同批次,有放回取出来,减少数据集的数量。另外,通过样本遗忘统计信息可以合理的找到了标签错误的样本和存在噪音的样本,加快训练速度,有选择的减少样本集数量,进而提高了训练速度,最终改善了模型的泛化性能。
附图说明
图1为一个实施例中样本清洗方法的应用场景图;
图2为一个实施例中样本清洗方法的流程示意图;
图3为一个实施例中训练文本识别步骤的流程示意图;
图4为一个实施例中遗忘次数确定步骤的流程示意图;
图5为另一个实施例中遗忘次数确定步骤的流程示意图;
图6为一个实施例中样本清洗装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的样本清洗方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以将待分析图片上传给服务器104进行分析,终端102也可以将样本图像上传给服务器104,服务器104可以对样本图像进行分析,确定是否在样本集中存储。服务器104从样本集中获取样本图像;服务器104将样本图像输入第一训练模型,得到与第一样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;服务器104获取预设阈值;服务器104对遗忘次数大于预设阈值的样本图像将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;服务器104根据审核结果对样本图像进行筛选,得到异常样本。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种异常样本筛选方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,从样本集中获取样本图像。
样本集存储有大量样本图像,样本图像携带有图片标识和图片标签。图片标签可以是样本图像对应的文本内容,也可以是样本图像对应的文本内容的概括。样本集可以存储有正例样本图片和反例样本图片。正例样本图片的种类和反例样本图片的种类并非有数量限制,还可以根据实际情况进行相应的调整。服务器从样本集中获取样本图像。在一个实施例中,样本图像的尺寸可以为特定尺寸,例如可以为宽320像素点、高32像素点的长条图片。服务器在将图片存储在样本集之前,对图片进行调整,例如,将图片宽3200像素点、高32像素点的长条图片根据特定尺寸,调整为宽320像素点、高32像素点的长条图片。服务器也可以识别长条图片中内容的出现位置,根据图片需求将图片内容从某一位置平移到另一位置。服务器也可以将宽32像素点、高320像素点的长条图片进行旋转,将长条图片的尺寸调整为宽320像素点、高32像素点的长条图片。
步骤204,将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数。
遗忘是指在训练过程中,同一个样本在连续学习过程中,准确率由1变为0,则该样本被遗忘。服务器将样本图像输入第一训练模型,得到与样本图像对应的预测文本。服务器可以根据预测文本确定样本图像的准确率,并根据准确率的变化情况确定遗忘次数。当预测文本与图片标签一致时,确定其准确率为第一数值;当预测文本与图片标签不一致时,确定其准确率为第二数值。第一数值取值可以为100%,第二数值取值可以为0%。
步骤206,将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果。
服务器获取预设阈值。预设阈值用于提取样本图像的最大数值。当样本图像的遗忘次数大于预设阈值时,样本图像可能是标签错误的训练图片,或者可能是对模型的泛化能力影响较小的图片,或者是存在噪音的图片,或者可能是因模型过拟合而被错误识别的训练图片。服务器将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果。审核终端可以通过人工识别确定样本图像的审核结果,也可以通过第二学习训练模型确定样本图像的审核结果。审核终端通过人工识别确定样本图像的审核结果,当预测文本与样本图像一致时,审核结果为第一数值;当预测文本与样本图像不一致时,审核结果为第二数值。服务器可以设定第一数值为100%,第二数值为0%;服务器可以设定第一数值为0%,第二数值为100%;服务器也可以根据情况设定第一数值和第二数值。审核终端也可以返回修正后的样本图像作为审核结果。修正后的样本图像是指通过审核终端对样本图像错误的图片标签进行修正。服务器也可以对质量差的样本图像进行删除,并将删除结果作为审核结果发送给服务器。质量差的样本图像可以是分辨率不符合要求的样本图像等。
第二学习训练模型和第一训练模型的训练原理可以是完全不同的,也可以是相同的。当第二学习训练模型和第一训练模型的训练原理相同时,第二学习训练模型和第一训练模型的训练集是不同,因而得到的训练模型会存在差异。服务器对遗忘次数大于预设阈值的样本图像进行二次学习训练,得到第二训练文本,服务器可以根据第二训练文本确定待训练图片的准确率,根据准确率确定审核结果。
步骤208,根据审核结果对样本图像进行筛选,得到异常样本。
服务器根据审核结果对样本图像进行筛选,得到异常样本。服务器可以将审核结果为0的样本图像全部存储在样本集中;服务器也可以将有放回取出样本集中审核结果为0的样本图像,其中,有放回取出是指本次训练被取出的图片,在下一次训练时,放回训练集。审核结果大于0的样本图像可能是标签错误的训练图片,或者可能是对模型的泛化能力影响较小的图片,或者是存在噪音的图片。
在其中一个实施例中,服务器从样本集中删除审核结果不为0的样本图像,并将审核结果为0的样本图像在样本集中存储。
另外,为了提高图片清洗的准确率,在另一个实施例中,服务器可以多次重复步骤204~步骤208,直至最终得到的训练集几乎不发生变化。几乎不发生变化是指重复步骤204~步骤208后,训练集中的图片变动数量不大于1%。
上述异常样本筛选方法中,通过将样本遗忘统计运用在数据清洗领域,通过清洗数据集,不仅提高数据集的质量,而且可以对未被遗忘的样本分不同批次,有放回取出来,减少数据集的数量。另外,通过样本遗忘统计信息可以合理的找到了标签错误的样本和存在噪音的样本,加快训练速度,有选择的减少样本集数量,进而提高了训练速度,最终改善了模型的泛化性能。
在一个实施例中,如图3所示,将样本图像输入第一训练模型,得到与第一样本图像对应的预测文本,包括以下步骤:
步骤302,采用残差网络识别对样本图像进行特征提取,得到特征图。
服务器采用残差网络(resnet)识别对样本图像进行特征提取,得到特征图。残差网络由多个残差块组成,每个残差块的形式为H(x)=F(x,Wi)+x,x为残差块的输入,H(x)为残差块的输出,网络主要学习的是权重Wi,理想状态下,期望的变换为恒等变换,所以拟合F(x,Wi)=0,网络更容易被优化,加深网络也不会出现退化问题。在一个实施例中,服务器使用两个resnet模块提取特征,最终输出的为80*8的特征图。
步骤304,通过长短期记忆网络对特征图进行特征分析,输出预测文本。
服务器通过长短期记忆网络(lstm)对特征图进行特征分析,输出预测文本。服务器可以采用lstm、也可以采用双向lstm对特征进行分析。服务器通过对特征图进行特征提取,而后将提取的特征输入lstm中,Lstm通过遗忘门、输入门和输出门得到最终的输出结果[h1,h2,...,hn],遗忘门决定通过循环网络单元的信息,输入门决定加入到循环网络单元中的信息,输出门决定输出结果,计算公式如下:
ft=σ(Wf·[ht-1,xt]+bf),其中,遗忘门得到一个数值在[0,1]之间的向量。
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002239147390000071
Figure BDA0002239147390000072
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)。
其中,it,ot,ft分别表示输入门、遗忘门以及输出门,W表示权重矩阵,b是偏置向量,输入层上一时刻的输出ht-1以及当前时刻的输入xt得到被选用来更新的内容,结合上一时刻的状态Ct-1来更新Ct,将tanh层的结果和sigmoid层的结果相乘(σ是sigmoid函数的缩写),得到最终的输出结果。输出结果[h1,h2,...,hn]表现为维度为200的全连接层,最终送入softmax层进行分类。
服务器根据resnet得到的特征图,进行reshape操作,原本特征图的表现形式为batch_size x channel x height x width,batch_size表示一次送网络的训练样本数量,channel表示图片的通道数,彩色图片的通道数为3.灰度图片的通道数为1,height表示图片的高,width表示图片的宽,经过reshape操作之后,得到的width x batch_size xchannel x height,以宽中每个像素为单位,将特征图划分为若干条,将每条特征图送入lstm网络,lstm网络中包含全连接层和softmax层,经过这两层,最终得到每条特征图对应的类别。
输入层上一时刻的输出ht-1以及当前时刻的输入xt得到被选用来更新的内容,结合上一时刻的状态Ct-1来更新Ct,将tanh层的结果和sigmoid层的结果相乘,得到最终的输出结果。同一层的前面循环网络单元的输出作为后一个循环网络单元的输入,上一层的输出作为后一层的输入,直至到达输出门,输出预测文本。服务器将长短时记忆网络的输出结果送入CTC(全称:Connectionist temporal classification)损失函数中,将‘-’和‘-’之间重复的元素,只保留一个,并且去掉‘-’分隔符,得到网络最终预测值。
上述异常样本筛选方法中,通过resnet和lstm网络,不仅可以准确地提取出图片特征,而且减少了网络发生退化的情况,提高了模型的识别效果,从而提高了样本清洗的准确率。
在另一个实施例中,通过长短期记忆网络对特征图进行特征分析,输出预测文本,包括以下步骤:提取特征图的图像像素特征、图像时序特征和字符连接特征;将图像像素特征、图像时序特征和字符连接特征输入长短期记忆网络,得到与特征图对应的预测文本。
服务器可以通过卷积神经网络(CNN)提取特征图的图像像素特征,并采用循环神经网络(RNN)提取特征图的图像时序特征,而后采用连接时序分类(CTC)归纳特征图的字符连接特征。服务器将提取的各特征输出为向量,并将各向量对应的输入长短期记忆网络,得到与特征图对应的预测文本。
上述异常样本筛选方法中,服务器综合了CNN、RNN和CTC的优势,使得预测文本的准确率得到了提升,进而可以准确地确定遗忘次数。
在一个实施例中,如图4所示,根据预测文本确定样本图像的遗忘次数,包括以下步骤:
步骤402,获取样本图像的图片标识和图片标签。
图片标识是识别并在训练集查找到样本图像的识别码,可以是数字或字符串。图片标签是样本图像中的内容,例如数字、字符、汉字和/或符号等。服务器获取样本图像的图片标识和图片标签。
步骤404,通过预测文本和图片标签比对,确定样本图像的遗忘次数。
服务器通过将预测文本和图片标签进行比对,确定样本图像的遗忘次数。当预测文本和图片标签判定为一致时,服务器可以确定预测文本的准确率为1,当预测文本和图片标签判定为不一致时,服务器可以确定预测文本的准确率为0。服务器再根据确定的准确率确定样本图像的遗忘次数。
在上一个实施例中,如图5所示,通过预测文本和图片标签比对,确定样本图像的遗忘次数,包括以下步骤:
步骤502,将预测文本和图片标签进行比对,确定准确率,将图片标识和准确率进行对应存储。
当预测文本和图片标签判定为一致时,服务器可以确定预测文本的准确率为1,当预测文本和图片标签判定为不一致时,服务器可以确定预测文本的准确率为0。服务器将图片标识和准确率进行对应存储。每个样本图像均与多个准确率对应,例如,针对图片标识为“0001”的样本图像,准确率可以是“0,1,0,0,0,1,0,0”。
步骤504,计算准确率的变化差值。
服务器可以从数据库中获取样本图像的所有准确率,从而计算准确率的变化差值。例如,针对图片标识为“0001”的样本图像,数据库中存储的准确率可以是“0,1,0,0,0,1,0,0”,因而准确率的变化差值为“-1,1,0,0,-1,1,0”。
步骤506,统计变化差值,得到样本图像的遗忘次数。
服务器统计变化差值,得到样本图像的遗忘次数。服务器可以统计绝对值为1的变化差值的出现频次,并将变化差值的出现频次作为遗忘次数;服务器也可以统计变化差值-1的出现频次,并将变化差值的出现频次作为遗忘次数。如果样本的准确率一直为0,服务器则将遗忘次数设置为最大值,并保存。
在上述异常样本筛选方法中,服务器通过预测文本和图片标签统计了样本图像的遗忘次数,以便根据遗忘次数对样本图像进行清洗,合理地利用训练过程中样本的遗忘统计信息,找到了标签错误的样本和存在噪音的样本等。
在又一个实施例中,还提供了一种样本清洗方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:从样本集中获取样本图像;将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;根据审核结果从样本图像中筛选异常样本;比对异常样本的异常样本标签和异常训练文本,并根据比对结果对异常样本进行清洗,得到清洗后的样本集。
在本实施例中,服务器从样本集中获取样本图像;将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;根据审核结果从样本图像中筛选异常样本。在本实施例中,关于异常样本筛选的具体限定可以参见上文中对于异常样本筛选方法的限定,在此不再赘述。
服务器可以比对异常样本的异常样本标签和异常训练文本。异常样本标签是与异常样本对应的图片标签。异常训练文本是通过第一训练模型得到的与异常样本对应的训练文本。服务器可以获取异常样本的样本图像,判断异常样本图像的图像是否符合模型训练的标准,例如,图像的分辨率是否符合预设的分辨率要求等。当服务器判定异常样本图像不符合模型训练的标准时,服务器将异常样本从样本集中删除;当务器判定异常样本图像符合模型训练的标准时,服务器可以判断异常样本标签和异常训练文本是否一致,当判定一致时,服务器在样本集中保留异常样本;当判定一致时,服务器根据异常训练文本对异常样本标签进行修改,并在样本集中将修改后的异常样本标签与异常样本进行对应存储。
上述样本清洗方法中,通过将样本遗忘统计运用在数据清洗领域,通过清洗数据集,不仅提高数据集的质量,而且可以对未被遗忘的样本分不同批次,有放回取出来,减少数据集的数量。另外,通过样本遗忘统计信息可以合理的找到了标签错误的样本和存在噪音的样本,加快训练速度,有选择的减少样本集数量,进而提高了训练速度,最终改善了模型的泛化性能。
在另一个实施例中,还提供了一种模型训练方法,方法包括:获取样本集,样本集是根据遗忘次数清洗得到的;采用机器学习算法对样本集进行学习训练,构建深度学习模型。
服务器可以获取样本集,样本集是根据上述样本集清洗方法清洗得到的,样本集清洗方法可以根据遗忘次数清洗得到。服务器用机器学习算法对样本集进行学习训练,构建深度学习模型。机器学习算法可以是常用的深度学习算法,例如,机器学习算法可以是无监督预训练网络算法、卷积神经网络算法、循环神经网络算法以及递归神经网络算法等。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种异常样本筛选装置,包括:样本图像获取模块602、遗忘次数获取模块604、审核结果获取模块606和筛选模块608,其中:
样本图像获取模块602,用于从样本集中获取样本图像。
遗忘次数获取模块604,用于将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数。
审核结果获取模块606,用于对遗忘次数大于预设阈值的样本图像将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果。
筛选模块608,用于根据审核结果对样本图像进行筛选,得到异常样本。
在一个实施例中,遗忘次数获取模块包括特征图提取单元和文本分析单元,其中:
特征图提取单元,用于采用残差网络识别对样本图像进行特征提取,得到特征图。
文本分析单元,用于通过长短期记忆网络对特征图进行特征分析,输出预测文本。
在一些实施例中,遗忘次数获取模块包括特征提取单元和文本训练单元,其中:
特征提取单元,用于提取特征图的图像像素特征、图像时序特征和字符连接特征。
文本训练单元,用于将图像像素特征、图像时序特征和字符连接特征输入长短期记忆网络,得到与特征图对应的预测文本。
在另一实施例中,遗忘次数获取模块包括图片信息获取单元和遗忘次数确定单元,其中:
图片信息获取单元,用于获取样本图像的图片标识和图片标签。
遗忘次数确定单元,用于通过预测文本和图片标签比对,确定样本图像的遗忘次数。
在一个实施例中,遗忘次数获取模块包括比对单元、差值计算单元和次数统计单元,其中:
比对单元,用于将预测文本和图片标签进行比对,确定准确率,将图片标识和准确率进行对应存储。
差值计算单元,用于样本图像计算准确率的变化差值。
次数统计单元,用于统计变化差值,得到样本图像的遗忘次数。
在一个实施例中,筛选模块包括筛选单元,其中:
筛选单元,用于从样本集中删除审核结果不为0的样本图像,并将审核结果为0的样本图像在样本集中存储。
关于样本清洗装置的具体限定可以参见上文中对于样本清洗方法的限定,在此不再赘述。上述样本清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本清洗数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本清洗方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:从样本集中获取样本图像;将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;根据审核结果对样本图像进行筛选,得到异常样本。
在一个实施例中,处理器执行计算机程序时实现的将样本图像输入第一训练模型,得到与第一样本图像对应的预测文本,包括:采用残差网络识别对样本图像进行特征提取,得到特征图;通过长短期记忆网络对特征图进行特征分析,输出预测文本。
在一个实施例中,处理器执行计算机程序时实现的通过长短期记忆网络对特征图进行特征分析,输出预测文本,包括:提取特征图的图像像素特征、图像时序特征和字符连接特征;将图像像素特征、图像时序特征和字符连接特征输入长短期记忆网络,得到与特征图对应的预测文本。
在一个实施例中,处理器执行计算机程序时实现的根据预测文本确定样本图像的遗忘次数,包括:获取样本图像的图片标识和图片标签;通过预测文本和图片标签比对,确定样本图像的遗忘次数。
在一个实施例中,处理器执行计算机程序时实现的通过预测文本和图片标签比对,确定样本图像的遗忘次数,包括:将预测文本和图片标签进行比对,确定准确率,将图片标识和准确率进行对应存储;样本图像计算准确率的变化差值;统计变化差值,得到样本图像的遗忘次数。
在一个实施例中,处理器执行计算机程序时还实现的根据审核结果对样本图像进行清洗,得到清洗后的样本集,包括:从样本集中删除审核结果不为0的样本图像,并将审核结果为0的样本图像在样本集中存储。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:从样本集中获取样本图像;将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;根据审核结果从样本图像中筛选异常样本;比对异常样本的异常样本标签和异常训练文本,并根据比对结果对异常样本进行清洗,得到清洗后的样本集。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取样本集,样本集是根据遗忘次数清洗得到的;采用机器学习算法对样本集进行学习训练,构建深度学习模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:从样本集中获取样本图像;将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;根据审核结果对样本图像进行筛选,得到异常样本。
在一个实施例中,计算机程序被处理器执行时实现的将样本图像输入第一训练模型,得到与第一样本图像对应的预测文本,包括:采用残差网络识别对样本图像进行特征提取,得到特征图;通过长短期记忆网络对特征图进行特征分析,输出预测文本。
在一个实施例中,计算机程序被处理器执行时实现的通过长短期记忆网络对特征图进行特征分析,输出预测文本,包括:提取特征图的图像像素特征、图像时序特征和字符连接特征;将图像像素特征、图像时序特征和字符连接特征输入长短期记忆网络,得到与特征图对应的预测文本。
在一个实施例中,计算机程序被处理器执行时实现的根据预测文本确定样本图像的遗忘次数,包括:获取样本图像的图片标识和图片标签;通过预测文本和图片标签比对,确定样本图像的遗忘次数。
在一个实施例中,计算机程序被处理器执行时实现的通过预测文本和图片标签比对,确定样本图像的遗忘次数,包括:将预测文本和图片标签进行比对,确定准确率,将图片标识和准确率进行对应存储;样本图像计算准确率的变化差值;统计变化差值,得到样本图像的遗忘次数。
在一个实施例中,计算机程序被处理器执行时实现的根据审核结果对样本图像进行清洗,得到清洗后的样本集,包括:从样本集中删除审核结果不为0的样本图像,并将审核结果为0的样本图像在样本集中存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:从样本集中获取样本图像;将样本图像输入第一训练模型,得到与样本图像对应的预测文本,并根据预测文本确定样本图像的遗忘次数;将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收审核终端反馈的样本图像的审核结果;根据审核结果从样本图像中筛选异常样本;比对异常样本的异常样本标签和异常训练文本,并根据比对结果对异常样本进行清洗,得到清洗后的样本集。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取样本集,样本集是根据遗忘次数清洗得到的;采用机器学习算法对样本集进行学习训练,构建深度学习模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种异常样本筛选方法,所述方法包括:
从样本集中获取样本图像;
将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
将所述遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;
根据审核结果对所述样本图像进行筛选,得到异常样本。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本图像输入第一训练模型,得到与所述第一样本图像对应的预测文本,包括:
采用残差网络识别对所述样本图像进行特征提取,得到特征图;
通过长短期记忆网络对所述特征图进行特征分析,输出预测文本。
3.根据权利要求2所述的方法,其特征在于,所述通过长短期记忆网络对所述特征图进行特征分析,输出预测文本,包括:
提取所述特征图的图像像素特征、图像时序特征和字符连接特征;
将所述图像像素特征、所述图像时序特征和所述字符连接特征输入长短期记忆网络,得到与所述特征图对应的预测文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述预测文本确定所述样本图像的遗忘次数,包括:
获取所述样本图像的图片标识和图片标签;
通过所述预测文本和所述图片标签比对,确定所述样本图像的遗忘次数。
5.根据权利要求4所述的方法,其特征在于,所述通过所述预测文本和所述图片标签比对,确定所述样本图像的遗忘次数,包括:
将所述预测文本和所述图片标签进行比对,确定准确率,将图片标识和所述准确率进行对应存储;
计算所述准确率的变化差值;
统计变化差值,得到所述样本图像的遗忘次数。
6.一种样本集清洗方法,所述方法包括:
从样本集中获取样本图像;
将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
将所述遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;
根据审核结果从所述样本图像中筛选异常样本;
比对所述异常样本的异常样本标签和异常训练文本,并根据比对结果对异常样本进行清洗,得到清洗后的所述样本集。
7.一种模型训练方法,所述方法包括:
获取样本集,所述样本集是根据遗忘次数清洗得到的;
采用机器学习算法对所述样本集进行学习训练,构建深度学习模型。
8.一种异常样本筛选装置,其特征在于,所述装置包括:
样本图像获取模块,用于从样本集中获取样本图像;
遗忘次数获取模块,用于将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
审核结果获取模块,用于对所述遗忘次数大于预设阈值的样本图像将遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;
筛选模块,用于根据审核结果对所述样本图像进行筛选,得到异常样本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910993878.2A 2019-10-18 2019-10-18 异常样本筛选、清洗、训练方法、装置、设备和存储介质 Pending CN110738264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910993878.2A CN110738264A (zh) 2019-10-18 2019-10-18 异常样本筛选、清洗、训练方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910993878.2A CN110738264A (zh) 2019-10-18 2019-10-18 异常样本筛选、清洗、训练方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110738264A true CN110738264A (zh) 2020-01-31

Family

ID=69269316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910993878.2A Pending CN110738264A (zh) 2019-10-18 2019-10-18 异常样本筛选、清洗、训练方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110738264A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401387A (zh) * 2020-03-10 2020-07-10 腾讯科技(深圳)有限公司 异常样本构建方法、装置、计算机设备和存储介质
CN112098714A (zh) * 2020-08-12 2020-12-18 国网江苏省电力有限公司南京供电分公司 一种基于ResNet-LSTM的窃电检测方法及系统
CN112418362A (zh) * 2021-01-25 2021-02-26 浙江啄云智能科技有限公司 一种目标检测训练样本筛选方法
CN113204542A (zh) * 2021-04-22 2021-08-03 武汉大学 一种异常用电样本清洗及行为识别方法
CN114116688A (zh) * 2021-10-14 2022-03-01 北京百度网讯科技有限公司 数据处理与数据质检方法、装置及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508907A (zh) * 2011-11-11 2012-06-20 北京航空航天大学 一种基于训练集优化的推荐系统的动态推荐方法
US20140247978A1 (en) * 2013-03-04 2014-09-04 Xerox Corporation Pre-screening training data for classifiers
CN107463953A (zh) * 2017-07-21 2017-12-12 上海交通大学 在标签含噪情况下基于质量嵌入的图像分类方法及系统
CN108171335A (zh) * 2017-12-06 2018-06-15 东软集团股份有限公司 建模数据的选取方法、装置、存储介质及电子设备
CN109034248A (zh) * 2018-07-27 2018-12-18 电子科技大学 一种基于深度学习的含噪声标签图像的分类方法
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN110163236A (zh) * 2018-10-15 2019-08-23 腾讯科技(深圳)有限公司 模型的训练方法和装置、存储介质、电子装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508907A (zh) * 2011-11-11 2012-06-20 北京航空航天大学 一种基于训练集优化的推荐系统的动态推荐方法
US20140247978A1 (en) * 2013-03-04 2014-09-04 Xerox Corporation Pre-screening training data for classifiers
CN107463953A (zh) * 2017-07-21 2017-12-12 上海交通大学 在标签含噪情况下基于质量嵌入的图像分类方法及系统
CN108171335A (zh) * 2017-12-06 2018-06-15 东软集团股份有限公司 建模数据的选取方法、装置、存储介质及电子设备
CN109034248A (zh) * 2018-07-27 2018-12-18 电子科技大学 一种基于深度学习的含噪声标签图像的分类方法
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN110163236A (zh) * 2018-10-15 2019-08-23 腾讯科技(深圳)有限公司 模型的训练方法和装置、存储介质、电子装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI 等: "An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition", 《ARXIV》 *
HANGMING ZHANG 等: "License Plate Recognition Model Based on CNN+LSTM+CTC", 《SPRINGER》 *
JAMES KIRKPATRICK 等: "Overcoming catastrophic forgetting in neural networks", 《ARXIV》 *
李天琦: "基于机器学习的网络流量分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
汪东升 等: "电信大数据文本挖掘算法及应用", 《计算机科学》 *
秦晓明: "基于深度学习的含噪声标签图像的分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401387A (zh) * 2020-03-10 2020-07-10 腾讯科技(深圳)有限公司 异常样本构建方法、装置、计算机设备和存储介质
CN111401387B (zh) * 2020-03-10 2023-09-19 腾讯科技(深圳)有限公司 异常样本构建方法、装置、计算机设备和存储介质
CN112098714A (zh) * 2020-08-12 2020-12-18 国网江苏省电力有限公司南京供电分公司 一种基于ResNet-LSTM的窃电检测方法及系统
CN112098714B (zh) * 2020-08-12 2023-04-18 国网江苏省电力有限公司南京供电分公司 一种基于ResNet-LSTM的窃电检测方法及系统
CN112418362A (zh) * 2021-01-25 2021-02-26 浙江啄云智能科技有限公司 一种目标检测训练样本筛选方法
CN112418362B (zh) * 2021-01-25 2021-04-30 浙江啄云智能科技有限公司 一种目标检测训练样本筛选方法
CN113204542A (zh) * 2021-04-22 2021-08-03 武汉大学 一种异常用电样本清洗及行为识别方法
CN113204542B (zh) * 2021-04-22 2023-08-22 武汉大学 一种异常用电样本清洗及行为识别方法
CN114116688A (zh) * 2021-10-14 2022-03-01 北京百度网讯科技有限公司 数据处理与数据质检方法、装置及可读存储介质
CN114116688B (zh) * 2021-10-14 2024-05-28 北京百度网讯科技有限公司 数据处理与数据质检方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN110738264A (zh) 异常样本筛选、清洗、训练方法、装置、设备和存储介质
CN108885699B (zh) 字符识别方法、装置、存储介质及电子设备
CN109086873B (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
JP6994588B2 (ja) 顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体
CN112839034B (zh) 一种基于cnn-gru分层神经网络的网络入侵检测方法
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
CN111814902A (zh) 目标检测模型训练方法、目标识别方法、装置和介质
CN110856037B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
WO2023284465A1 (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN111245667A (zh) 网络业务识别方法及装置
CN111126347B (zh) 人眼状态识别方法、装置、终端及可读存储介质
CN113822116A (zh) 文本识别方法、装置、计算机设备和存储介质
CN115810135A (zh) 样本分析的方法、电子设备、存储介质和程序产品
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN112581355A (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN112182269A (zh) 图像分类模型的训练、图像分类方法、装置、设备及介质
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN114170484A (zh) 图片属性预测方法、装置、电子设备和存储介质
US20210056364A1 (en) Image classification system, image classification method, and image classification program
CN107077617B (zh) 指纹提取方法及装置
CN110390041B (zh) 在线学习方法及装置、计算机可读存储介质
CN111126420A (zh) 一种建立识别模型的方法及装置
WO2023173546A1 (zh) 文本识别模型的训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230113

AD01 Patent right deemed abandoned