CN117009328A - 一种基于噪声过滤的模型训练方法、装置以及存储介质 - Google Patents

一种基于噪声过滤的模型训练方法、装置以及存储介质 Download PDF

Info

Publication number
CN117009328A
CN117009328A CN202211202983.8A CN202211202983A CN117009328A CN 117009328 A CN117009328 A CN 117009328A CN 202211202983 A CN202211202983 A CN 202211202983A CN 117009328 A CN117009328 A CN 117009328A
Authority
CN
China
Prior art keywords
sample
training
noise
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211202983.8A
Other languages
English (en)
Inventor
吴秉哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211202983.8A priority Critical patent/CN117009328A/zh
Publication of CN117009328A publication Critical patent/CN117009328A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请公开了一种基于噪声过滤的模型训练方法、装置以及存储介质,可应用于地图、车联网领域。通过获取噪声样本集合中的第一异常数据样本,并确定标签不同的第二异常数据样本;然后对第一异常数据样本进行数据增强得到增强样本;并确定各样本之间的对比误差;然后基于对比误差进行样本过滤,以进行异常检测模型的训练。由于噪声过滤过程采用自监督模型,通过计算对比误差来衡量样本是否为噪声,而对比误差结合了相似样本与标注不同样本的误差,保证异常检测模型训练有效性,进而提高异常检测模型识别的准确性,以提高数据的安全性。

Description

一种基于噪声过滤的模型训练方法、装置以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于噪声过滤的模型训练方法、装置以及存储介质。
背景技术
随着机器学习计算的发展,机器学习的应用场景涉及到大量基于神经网络的决策系统;例如公益风控场景,图像分类场景等等。这些系统往往基于大规模标注数据训练。庞大的业务数据以及数据复杂性导致大量人工标注错误,因此真实业务场景中的数据标签往往包含大量噪声。
一般,可以通过训练误差过滤疑似的含噪声样本,即当前训练批次中某样本误差高于某个阈值,则在训练中过滤掉该样本。
但是,只凭借训练误差过滤含标签噪声的样本,导致训练中往往会丢弃一些不含噪声的困难样本,而这些困难样本往往对模型性能和训练收敛速度提升较大,从而影响模型训练的准确性,从而影响模型的识别过程的准确性,对业务数据的安全产生影响。
发明内容
有鉴于此,本申请提供一种基于噪声过滤的模型训练方法,可以提高噪声过滤的准确性,并提高模型训练的准确性,从而提高异常检测模型识别的准确性以提高数据的安全性。
本申请第一方面提供一种基于噪声过滤的模型训练方法,可以应用于终端设备中包含基于噪声过滤的模型训练功能的系统或程序中,具体包括:
获取噪声样本集合中的第一异常数据样本,并从所述噪声样本集合中采集与所述第一异常数据样本的标签不同的第二异常数据样本;
对所述第一异常数据样本进行数据增强,以得到增强样本;
将所述第一异常数据样本、所述第二异常数据样本和所述增强样本输入噪声过滤模型,以得到对比误差,所述对比误差基于所述第一异常数据样本与所述第二异常数据样本的差异,以及所述第一异常数据样本与所述增强样本的差异确定;
基于所述对比误差与预设阈值之间的数值大小关系对所述第一异常数据样本进行过滤,以对所述噪声样本集合进行更新;
基于更新后的所述噪声样本集合对异常检测模型进行训练。
可选的,在本申请一些可能的实现方式中,所述噪声过滤模型采用如下步骤训练所得,包括:
获取噪声样本训练集中的第一训练样本,并从所述噪声样本训练集中采集与所述第一训练样本的标签不同的第二训练样本;
对所述第一训练样本进行数据增强,以得到第三训练样本;
将所述第一训练样本、所述第二训练样本和所述第三训练样本输入噪声过滤模型,以得到所述第一训练样本对应的第一隐藏特征、所述第二训练样本对应的第二隐藏特征和所述第三训练样本对应的第三隐藏特征;
通过将所述第一隐藏特征和所述第三隐藏特征靠近,并将所述第一隐藏特征和所述第二隐藏特征远离,以对所述噪声过滤模型进行训练。
可选的,在本申请一些可能的实现方式中,所述通过将所述第一隐藏特征和所述第三隐藏特征靠近,并将所述第一隐藏特征和所述第二隐藏特征远离,以对所述噪声过滤模型进行训练,包括:
确定所述第一隐藏特征与所述第三隐藏特征的均方误差,以得到第一误差参数;
确定所述第一隐藏特征与所述第二隐藏特征的均方误差,以得到第二误差参数;
通过随机梯度下降使得所述第一误差参数与所述第二误差参数的差值最小,以对所述噪声过滤模型进行训练。
可选的,在本申请一些可能的实现方式中,所述噪声样本集合为噪声样本训练集中的训练批次数据,所述基于更新后的所述噪声样本集合对异常检测模型进行训练,包括:
基于异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
基于所述梯度参数对所述异常检测模型进行参数更新;
基于所述噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对所述异常检测模型进行训练。
可选的,在本申请一些可能的实现方式中,所述基于所述噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对所述异常检测模型进行训练,包括:
基于所述噪声样本集合进行随机采样,并生成对应的采样随机数;
若所述采样随机数大于预设采样值,则基于所述异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
若所述采样随机数小于所述预设采样值,则基于所述异常检测模型按照所述噪声样本集合计算所述训练批次数据对应的主任务误差;
通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练得到训练后的目标异常检测模型。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
响应于多个业务数据源中标注数据的发送,调用所述噪声过滤模型对所述标注数据进行过滤,以得到过滤数据;
对所述过滤数据进行上传,以对所述过滤数据进行审核得到审核数据;
基于所述审核数据对所述标注数据的标注进行更新。
本申请第二方面提供一种基于噪声过滤的模型训练装置,包括:
获取单元,用于获取噪声样本集合中的第一异常数据样本,并从所述噪声样本集合中采集与所述第一异常数据样本的标签不同的第二异常数据样本,其中,所述第一异常数据样本和所述第二异常数据样本均包含对应的标签;
处理单元,用于对所述第一异常数据样本进行数据增强,以得到增强样本;
所述处理单元,还用于将所述第一异常数据样本、所述第二异常数据样本和所述增强样本输入噪声过滤模型,以得到对比误差,所述对比误差基于所述第一异常数据样本与所述第二异常数据样本的差异,以及所述第一异常数据样本与所述增强样本的差异确定;
所述处理单元,还用于基于所述对比误差与预设阈值之间的数值大小关系对所述第一异常数据样本进行过滤,以对所述噪声样本集合进行更新;
训练单元,用于基于更新后的所述噪声样本集合对异常检测模型进行训练,得到训练后的目标异常检测模型,其中,所述目标异常检测模型用于检测数据异常情况。
可选的,在本申请一些可能的实现方式中,所述噪声过滤模型采用如下步骤训练所得,所述训练单元,具体用于获取噪声样本训练集中的第一训练样本,并从所述噪声样本训练集中采集与所述第一训练样本的标签不同的第二训练样本;
所述训练单元,具体用于对所述第一训练样本进行数据增强,以得到第三训练样本;
所述训练单元,具体用于将所述第一训练样本、所述第二训练样本和所述第三训练样本输入噪声过滤模型,以得到所述第一训练样本对应的第一隐藏特征、所述第二训练样本对应的第二隐藏特征和所述第三训练样本对应的第三隐藏特征;
所述训练单元,具体用于通过将所述第一隐藏特征和所述第三隐藏特征靠近,并将所述第一隐藏特征和所述第二隐藏特征远离,以对所述噪声过滤模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于确定所述第一隐藏特征与所述第三隐藏特征的均方误差,以得到第一误差参数;
所述训练单元,具体用于确定所述第一隐藏特征与所述第二隐藏特征的均方误差,以得到第二误差参数;
所述训练单元,具体用于通过随机梯度下降使得所述第一误差参数与所述第二误差参数的差值最小,以对所述噪声过滤模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于基于所述异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
所述训练单元,具体用于通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
所述训练单元,具体用于基于所述梯度参数对所述异常检测模型进行参数更新;
所述训练单元,具体用于基于所述噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对所述异常检测模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于基于所述噪声样本集合进行随机采样,并生成对应的采样随机数;
所述训练单元,具体用于若所述采样随机数大于预设采样值,则基于所述异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
所述训练单元,具体用于通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
所述训练单元,具体用于基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于若所述采样随机数小于所述预设采样值,则基于所述异常检测模型按照所述噪声样本集合计算所述训练批次数据对应的主任务误差;
所述训练单元,具体用于通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
所述训练单元,具体用于基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练得到训练后的目标异常检测模型。
可选的,在本申请一些可能的实现方式中,所述训练单元,具体用于响应于多个业务数据源中标注数据的发送,调用所述噪声过滤模型对所述标注数据进行过滤,以得到过滤数据;
所述训练单元,具体用于对所述过滤数据进行上传,以对所述过滤数据进行审核得到审核数据;
所述训练单元,具体用于基于所述审核数据对所述标注数据的标注进行更新。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的基于噪声过滤的模型训练方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的基于噪声过滤的模型训练方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的基于噪声过滤的模型训练方法。
从以上技术实施例可以看出,本申请实施例具有以下优点:
通过获取噪声样本集合中的第一异常数据样本,并从噪声样本训练集中采集与第一异常数据样本的标签不同的第二异常数据样本;然后对第一异常数据样本进行数据增强,以得到增强样本;并将第一异常数据样本、第二异常数据样本和增强样本输入噪声过滤模型,以得到对比误差,对比误差基于第一异常数据样本与第二异常数据样本的差异,以及第一异常数据样本与增强样本的差异确定;然后基于对比误差与预设阈值之间的数值大小关系对第一异常数据样本进行过滤,以对噪声样本训练集进行更新;进而基于更新后的噪声样本集合对异常检测模型进行训练。从而实现基于噪声过滤的模型训练过程,由于噪声过滤过程采用自监督模型,并通过计算对比误差来衡量样本是否为噪声,而对比误差结合了相似样本与标注不同样本的误差,提高了噪声过滤的准确性,保证异常检测模型训练有效性,进而提高异常检测模型识别的准确性,以提高数据的安全性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术实施例,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为基于噪声过滤的模型训练系统运行的网络架构图;
图2为本申请实施例提供的一种基于噪声过滤的模型训练的流程架构图;
图3为本申请实施例提供的一种基于噪声过滤的模型训练方法的流程图;
图4为本申请实施例提供的一种基于噪声过滤的模型训练方法的场景示意图;
图5为本申请实施例提供的另一种基于噪声过滤的模型训练方法的场景示意图;
图6为本申请实施例提供的另一种基于噪声过滤的模型训练方法的场景示意图;
图7为本申请实施例提供的另一种基于噪声过滤的模型训练方法的场景示意图;
图8为本申请实施例提供的一种基于噪声过滤的模型训练装置的结构示意图;
图9为本申请实施例提供的一种终端设备的结构示意图;
图10为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种基于噪声过滤的模型训练方法以及相关装置,可以应用于终端设备中包含基于噪声过滤的模型训练功能的系统或程序中,通过获取噪声样本集合中的第一异常数据样本,并从噪声样本训练集中采集与第一异常数据样本的标签不同的第二异常数据样本;然后对第一异常数据样本进行数据增强,以得到增强样本;并将第一异常数据样本、第二异常数据样本和增强样本输入噪声过滤模型,以得到对比误差,对比误差基于第一异常数据样本与第二异常数据样本的差异,以及第一异常数据样本与增强样本的差异确定;然后基于对比误差与预设阈值之间的数值大小关系对第一异常数据样本进行过滤,以对噪声样本训练集进行更新;进而基于更新后的噪声样本集合对异常检测模型进行训练。从而实现基于噪声过滤的模型训练过程,由于噪声过滤过程采用自监督模型,并通过计算对比误差来衡量样本是否为噪声,而对比误差结合了相似样本与标注不同样本的误差,提高了噪声过滤的准确性,保证异常检测模型训练有效性,进而提高异常检测模型识别的准确性,以提高数据的安全性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
标签噪声(Labelnoise):用于训练的目标标签与相应实例本身的真实标签之间的偏差,例如设定标签时错误设置标签所属类别。
自监督学习(self-supervised learning):模型直接从无标签数据中自行学习,无需标注数据。
应理解,本申请提供的基于噪声过滤的模型训练方法可以应用于终端设备中包含基于噪声过滤的模型训练功能的系统或程序中,例如风险管理,具体的,基于噪声过滤的模型训练系统可以运行于如图1所示的网络架构中,如图1所示,是基于噪声过滤的模型训练系统运行的网络架构图,如图可知,基于噪声过滤的模型训练系统可以提供与多个信息源的基于噪声过滤的模型训练过程,即通过终端侧的标注操作触发服务器对相应的标注数据进行噪声过滤,以对异常检测模型进行训练;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到基于噪声过滤的模型训练的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述基于噪声过滤的模型训练系统可以运行于个人移动终端,例如:作为风险管理这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供基于噪声过滤的模型训练,以得到信息源的基于噪声过滤的模型训练处理结果;具体的基于噪声过滤的模型训练系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
随着机器学习计算的发展,机器学习的应用场景涉及到大量基于神经网络的决策系统;例如公益风控场景,图像分类场景等等。这些系统往往基于大规模标注数据训练。庞大的业务数据以及数据复杂性导致大量人工标注错误,因此真实业务场景中的数据标签往往包含大量噪声。
一般,可以通过训练误差过滤疑似的含噪声样本,即当前训练批次中某样本误差高于某个阈值,则在训练中过滤掉该样本。
但是,只凭借训练误差过滤含标签噪声的样本,导致训练中往往会丢弃一些不含噪声的困难样本,而这些困难样本往往对模型性能和训练收敛速度提升较大,从而影响模型训练的准确性。
为了解决上述问题,本申请提出了一种基于噪声过滤的模型训练方法,该方法应用于图2所示的基于噪声过滤的模型训练的流程框架中,如图2所示,为本申请实施例提供的一种基于噪声过滤的模型训练的流程架构图,通过终端的标注操作,触发服务器获取对应的业务数据,并对业务数据进行噪声过滤,然后基于过滤后的数据进行梯度计算,并对异常检测模型参数进行更新,从而使得业务方在含标签噪声的数据集上训练高质量的神经网络模型。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种基于噪声过滤的模型训练装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该基于噪声过滤的模型训练装置通过获取噪声样本集合中的第一异常数据样本,并从噪声样本训练集中采集与第一异常数据样本的标签不同的第二异常数据样本;然后对第一异常数据样本进行数据增强,以得到增强样本;并将第一异常数据样本、第二异常数据样本和增强样本输入噪声过滤模型,以得到对比误差,对比误差基于第一异常数据样本与第二异常数据样本的差异,以及第一异常数据样本与增强样本的差异确定;然后基于对比误差与预设阈值之间的数值大小关系对第一异常数据样本进行过滤,以对噪声样本训练集进行更新;进而基于更新后的噪声样本集合对异常检测模型进行训练。从而实现基于噪声过滤的模型训练过程,由于噪声过滤过程采用自监督模型,并通过计算对比误差来衡量样本是否为噪声,而对比误差结合了相似样本与标注不同样本的误差,提高了噪声过滤的准确性,保证异常检测模型训练有效性,进而提高异常检测模型识别的准确性,以提高数据的安全性。
本申请实施例提供的实施例涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中基于噪声过滤的模型训练方法进行介绍,请参阅图3,图3为本申请实施例提供的一种基于噪声过滤的模型训练方法的流程图,该管理方法可以是由终端或服务器执行的,本申请实施例至少包括以下步骤:
301、获取噪声样本集合中的第一异常数据样本,并从噪声样本集合中采集与第一异常数据样本的标签不同的第二异常数据样本。
本实施例中,即在提出消除标签噪声的基础上使得业务方在含标签噪声的数据集上训练高质量的神经网络模型;在一种可能的场景中,本实施例为基于一个双模型的结构进行风控数据的学习。假设噪声样本训练集D由多个带标签数据构成。其中一个网络负责过滤标签噪声,一个网络负责主任务(即判断给定用户是否为风险用户)的学习。其中,噪声过滤模块用于辅助主任务模块过滤训练样本中含噪样本。
具体的,第一异常数据样本与第二异常数据样本的获取即为噪声过滤模块执行的过程,第一异常数据样本和第二异常数据样本均包含对应的标签,且第一异常数据样本与第二异常数据样本为标签不同的样本,从而使两者的差异大。
本实施例可以应用于公益风控场景,还可被用于图像识别,自然语言处理等多种业务场景,在真实数据集上提升模型性能。对应的,在图像识别场景中,异常数据样本即为标记为异常的图像,例如不符合规则的图像,而噪声样本即为设定标签时错误设置标签所属类别,即匹配的规则不同;在自然语言处理场景中,异常数据样本即为标记为异常的词条,例如包含敏感词汇的语句,而噪声样本即为设定标签时错误设置标签所属类别,即对于敏感词汇的语句标记为语病词汇。
302、对第一异常数据样本进行数据增强,以得到增强样本。
本实施例中,增强样本即为与第一异常数据样本相似的样本,对于增强的过程。即对图像中的信息有选择地加强和抑制,以改善图像的视觉效果,或将图像转变为更适合于机器处理的形式,以便于数据抽取或识别。
具体的数据增强方式包括旋转、翻转、加高斯噪声等,具体的方式因实际场景而定,此处不作限定。例如在异常图像识别的场景中,第一异常数据样本即为异常图像,可以将异常图像通过高通滤波器添加来高斯噪声来突出图像的轮廓线,从而使得测量轮廓线的形状和周长更为便利,使得模型学习的过程中图像的轮廓线信息更为准确。
另外,图像增强技术有多种方法,还可以是数据维度的转换,例如反差展宽、对数变换、密度分层和直方图均衡等都可用于改变图像灰调和突出细节。实际应用时往往要用不同的方法,反复进行试验才能达到满意的效果。因此,数据增强的过程可以执行单次增强操作,也可以重复多次增强操作,还可以进行不同增强操作的叠加,具体的方式以及组合形式因实际场景而定,此处不作限定。
303、将第一异常数据样本、第二异常数据样本和增强样本输入噪声过滤模型,以得到对比误差。
本实施例中,对比误差基于第一异常数据样本与第二异常数据样本的差异,以及第一异常数据样本与增强样本的差异确定;即使得两个标签相同的样本通过神经网络得到的隐藏特征尽可能地相近,而两个标签不同的样本得到的隐藏特征尽可能地远离,即对比误差越小则说明第一异常数据样本为噪声的可能性越小。
具体的,对于对比误差的计算过程,如图4所示,图4为本申请实施例提供的一种基于噪声过滤的模型训练方法的场景示意图;即首先选择样本,然后进行数据增强,进而选择标签不同的样本,从而计算对比误差,并进行阈值比较判断的过程。
具体的,对比误差通过噪声过滤模型计算所得,该模型为基于自监督学习任务训练的一个神经网络,首先获取噪声样本训练集中的第一训练样本,并从噪声样本训练集中采集与第一训练样本的标签不同的第二训练样本;然后对第一训练样本进行数据增强,以得到第三训练样本;并将第一训练样本、第二训练样本和第三训练样本输入噪声过滤模型,以得到第一训练样本对应的第一隐藏特征、第二训练样本对应的第二隐藏特征和第三训练样本对应的第三隐藏特征;进而通过将第一隐藏特征和第三隐藏特征靠近,并将第一隐藏特征和第二隐藏特征远离,以对噪声过滤模型进行训练。
其中,第一训练样本即为标记为异常数据的样本,第二训练样本即为与第一训练样本的标签不同的异常数据样本,第三训练样本即为对第一训练样本进行数据增强后得到的异常数据样本。
需要说明的是,第一训练样本与第二训练样本均包含对应的标签。
具体的,噪声过滤模型基于一个对比学习的误差构建自监督任务S进行。具体来说,对于样本(x1,y1),即第一异常数据样本;可以在训练中对于该样本做数据增强(旋转,翻转,加高斯噪声等)得到增强样本即增强样本;接着,可以随机从噪声样本训练集D中采样一个与x1标签不一致的样本(x2,y2),即第二异常数据样本获得上述样本过后,可以进一步计算如下的对比误差:
其中,SIM表示向量相似度计算。
具体的,可以选择均方误差计算向量的相似度,即确定第一隐藏特征与第三隐藏特征的均方误差,以得到第一误差参数;然后确定第一隐藏特征与第二隐藏特征的均方误差,以得到第二误差参数;并通过随机梯度下降使得第一误差参数与第二误差参数的差值最小,以对噪声过滤模型进行训练,均方误差计算公式如下:
SIM(m1,m2)=||m1-m2||2
其中,fS表示任务S对应的神经网络的计算,θS表示该神经网络的参数,在第一误差参数的计算中,m1表示第一隐藏特征,m2表示第三隐藏特征;而在第二误差参数的计算中,m1表示第一隐藏特征,m2表示第二隐藏特征。该计算将一个原始特征映射到隐藏特征。直观地来说,最小化上述误差函数,使得两个标签相同的样本通过神经网络得到的隐藏特征尽可能地相近,而两个标签不同的样本得到的隐藏特征尽可能地远离。正式的表示,本实施例通过随机梯度下降找到使得对比误差最小的参数:
其中,fS表示任务S对应的神经网络的计算,θS表示该神经网络的参数。
进一步的,完成该神经网络的训练过后,本实施例即可通过该噪声过滤网络过滤含噪样本。
304、基于对比误差与预设阈值之间的数值大小关系对第一异常数据样本进行过滤,以对噪声样本集合进行更新。
本实施例中,参照图4所示的描述,对于给定样本x,通过噪声过滤网络计算对比误差L(x;θS),如果L(x;θS)>th,则x为噪声样本。
其中,预设阈值即为设定的衡量对比误差大小的阈值,可以表示为th,其为提前设定的阈值,其值大小可以为相关人员即时输入的,也可以是历史数据中的记录,具体数值因实际场景而定。
305、基于更新后的噪声样本集合对异常检测模型进行训练,得到训练后的目标异常检测模型。
本实施例中,目标异常检测模型用于检测数据异常情况,目标异常检测模型即为基于更新后的噪声样本集合对异常检测模型进行训练所得,具体的训练的过程可以是通过主任务模块进行的,主任务模块主要用于构建用于线上决策的神经网络模型;该异常检测模型用于对主任务的执行过程进行风险控制,其中,主任务可以是金融交易任务,则风险控制过程即为对交易过程中可能的不合规的交易进行识别,例如超额交易、异常交易等;另外,主任务还可以是图像分类任务,则风险控制过程即为对图像集中可能的不合规的图像进行识别,例如敏感图像、异常图像等;具体的主任务形式因实际场景而定,此处不作限定。
具体的,主任务模块的执行过程首先基于异常检测模型按照更新后的噪声样本集合计算训练批次数据对应的主任务误差,其中,训练批次数据(batch)即为训练的数据单元,对于异常检测模型的训练过程即按照不同的训练批次数据依次进行训练,从而减小训练过程中的计算压力;在确定主任务误差后通过在主任务误差上进行反向传播计算,以获取训练批次数据对应的梯度参数;并基于梯度参数对异常检测模型进行参数更新;进而基于噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对异常检测模型进行训练。
在一种可能的场景中,如图5所示,图5为本申请实施例提供的另一种基于噪声过滤的模型训练方法的场景示意图;图中的主任务模块包含神经网络fM以及其对应的参数θM。该网络用于输出样本x的具体的业务决策结果:fM(x;θM)。本实施例通过噪声过滤模块改良传统的神经网络训练流程,即首先对于第t次迭代,按照均匀分布随机从噪声样本训练集D抽样小训练批次数据Bt,即噪声样本集合;然后按照如下公式计算该批次中样本的主任务误差,此处以单个样本为例子,即:
LM(x;θM)=-yi log fM(x;θM)
然后通过步骤303中的噪声过滤模型计算对比误差Lcontrasitive(x;θS)如果Lcontrasitive(x;θS)>th,则过滤该样本,否则保留该样本;进一步的,遍历Bt中所有样本,按照上述规则过滤疑似的噪声样本,得到最后噪声样本集合(过滤掉噪声过后的样本,即更新后的噪声样本集合)。
然后在噪声样本集合上,计算主任务误差/>通过在L上运行反向传播算法计算参数梯度/>然后更新参数/>(其中∈为学习率,可以提前设置),并重复运行上述流程至第T步,得到最后的主任务的神经网络模型。
上述的训练流程初步地解决了标注噪声的问题,但是通过实践发现,对比误差在某些时候也容易误判,因此,为了进一步增加训练模型的鲁棒性,本实施例进一步引入随机过滤机制,即每一轮迭代有一定概率不运行噪声过滤模块。整体流程如图6所示,图6为本申请实施例提供的另一种基于噪声过滤的模型训练方法的场景示意图;即将采样随机数与预设采样值进行比较;首先基于噪声样本集合进行随机采样,并生成对应的采样随机数;若采样随机数大于预设采样值(a>a0),则基于异常检测模型按照更新后的噪声样本集合计算训练批次数据对应的主任务误差;然后通过在主任务误差上进行反向传播计算,以获取训练批次数据对应的梯度参数;进而基于梯度参数对异常检测模型进行参数更新,以对异常检测模型进行训练。
另外,若采样随机数小于预设采样值(a<a0),则基于异常检测模型按照噪声样本集合计算训练批次数据对应的主任务误差;然后通过在主任务误差上进行反向传播计算,以获取训练批次数据对应的梯度参数;并基于梯度参数对异常检测模型进行参数更新,以对异常检测模型进行训练,即不进行噪声过滤的流程。通过随机过滤机制的引入,模型的鲁棒性进一步增强。
在一种可能的场景中,本实施例应用于公益风控场景中,由于现有的风险样本都是经过特定的专家规则挑选风险样本。而这些样本数据形式通常非常复杂,从而导致专家标注的风险样本出现标注错误。这些标注错误会进一步影响现有的基于神经网络的智能风控决策系统的性能。本实施例可以在不影响模型性能的前提下消除标注噪声的影响,从而使得业务方在含噪声的数据集上也能训练相应的高质量模型。该实施例目前已初步在公益风控业务部署,在含标注噪声的场景下,该实施例相较于传统流程提升识别精度15%以上。
下面对公益风控场景进行介绍,如图7所示,图7为本申请实施例提供的另一种基于噪声过滤的模型训练方法的场景示意图;图中示出了主任务业务的风控数据往往来自于多个层面,其中业务规则、图风险扩散、树模型获取的风险样本都具有大量的随机噪声,要在这样的含噪声的风险黑库上训练神经网络极具挑战,因此本实施例提出一种创新性地噪声过滤模块过滤其中的样本噪声,从而减小标注噪声对于训练的影响;具体的,对于业务规则的风险控制,即将业务规则中不符合预设规则逻辑的条目进行识别;而对于图风险扩散的风险控制,即将与风险用户相类似的对象进行识别,避免类型风险的扩散;对于树模型的风险控制,即对于树模型中可能的风险节点进行识别,从而避免风险节点向子节点的传播。
另外,除开改良模型进度的作用,本实施例还能被用于检测错误标注的样本。以公益风控为例,可以将概率过滤模块在业务规则得出的风险用户上运行(绿色部分),得到了其中疑似标注错误的样本。这些样本可以进一步被运营人员重新审核,改善相关的审核机制。即响应于多个业务数据源中标注数据的发送,调用噪声过滤模型对标注数据进行过滤,以得到过滤数据;然后对过滤数据进行上传,以对过滤数据进行审核得到审核数据;从而基于审核数据对标注数据的标注进行更新,提高数据的有效性。
结合上述实施例可知,通过获取噪声样本集合中的第一异常数据样本,并从噪声样本训练集中采集与第一异常数据样本的标签不同的第二异常数据样本;然后对第一异常数据样本进行数据增强,以得到增强样本;并将第一异常数据样本、第二异常数据样本和增强样本输入噪声过滤模型,以得到对比误差,对比误差基于第一异常数据样本与第二异常数据样本的差异,以及第一异常数据样本与增强样本的差异确定;然后基于对比误差与预设阈值之间的数值大小关系对第一异常数据样本进行过滤,以对噪声样本训练集进行更新;进而基于更新后的噪声样本集合对异常检测模型进行训练。从而实现基于噪声过滤的模型训练过程,由于噪声过滤过程采用自监督模型,并通过计算对比误差来衡量样本是否为噪声,而对比误差结合了相似样本与标注不同样本的误差,提高了噪声过滤的准确性,保证异常检测模型训练有效性,进而提高异常检测模型识别的准确性,以提高数据的安全性。
为了更好的实施本申请实施例的上述实施例,下面还提供用于实施上述实施例的相关装置。请参阅图8,图8为本申请实施例提供的一种基于噪声过滤的模型训练装置的结构示意图,训练装置800包括:
获取单元801,用于获取噪声样本集合中的第一异常数据样本,并从所述噪声样本集合中采集与所述第一异常数据样本的标签不同的第二异常数据样本,其中,所述第一异常数据样本和所述第二异常数据样本均包含对应的标签;
处理单元802,用于对所述第一异常数据样本进行数据增强,以得到增强样本;
所述处理单元802,还用于将所述第一异常数据样本、所述第二异常数据样本和所述增强样本输入噪声过滤模型,以得到对比误差,所述对比误差基于所述第一异常数据样本与所述第二异常数据样本的差异,以及所述第一异常数据样本与所述增强样本的差异确定;
所述处理单元802,还用于基于所述对比误差与预设阈值之间的数值大小关系对所述第一异常数据样本进行过滤,以对所述噪声样本集合进行更新;
训练单元803,用于基于更新后的所述噪声样本集合对异常检测模型进行训练,得到训练后的目标异常检测模型,其中,所述目标异常检测模型用于检测数据异常情况。
可选的,在本申请一些可能的实现方式中,所述噪声过滤模型采用如下步骤训练所得,所述训练单元803,具体用于获取噪声样本训练集中的第一训练样本,并从所述噪声样本训练集中采集与所述第一训练样本的标签不同的第二训练样本;
所述训练单元803,具体用于对所述第一训练样本进行数据增强,以得到第三训练样本;
所述训练单元803,具体用于将所述第一训练样本、所述第二训练样本和所述第三训练样本输入噪声过滤模型,以得到所述第一训练样本对应的第一隐藏特征、所述第二训练样本对应的第二隐藏特征和所述第三训练样本对应的第三隐藏特征;
所述训练单元803,具体用于通过将所述第一隐藏特征和所述第三隐藏特征靠近,并将所述第一隐藏特征和所述第二隐藏特征远离,以对所述噪声过滤模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元803,具体用于确定所述第一隐藏特征与所述第三隐藏特征的均方误差,以得到第一误差参数;
所述训练单元803,具体用于确定所述第一隐藏特征与所述第二隐藏特征的均方误差,以得到第二误差参数;
所述训练单元803,具体用于通过随机梯度下降使得所述第一误差参数与所述第二误差参数的差值最小,以对所述噪声过滤模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元803,具体用于基于所述异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
所述训练单元803,具体用于通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
所述训练单元803,具体用于基于所述梯度参数对所述异常检测模型进行参数更新;
所述训练单元803,具体用于基于所述噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对所述异常检测模型进行训练得到训练后的目标异常检测模型。
可选的,在本申请一些可能的实现方式中,所述训练单元803,具体用于基于所述噪声样本集合进行随机采样,并生成对应的采样随机数;
所述训练单元803,具体用于若所述采样随机数大于预设采样值,则基于所述异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
所述训练单元803,具体用于通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
所述训练单元803,具体用于基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练得到训练后的目标异常检测模型。
可选的,在本申请一些可能的实现方式中,所述训练单元803,具体用于若所述采样随机数小于所述预设采样值,则基于所述异常检测模型按照所述噪声样本集合计算所述训练批次数据对应的主任务误差;
所述训练单元803,具体用于通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
所述训练单元803,具体用于基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练。
可选的,在本申请一些可能的实现方式中,所述训练单元803,具体用于响应于多个业务数据源中标注数据的发送,调用所述噪声过滤模型对所述标注数据进行过滤,以得到过滤数据;
所述训练单元803,具体用于对所述过滤数据进行上传,以对所述过滤数据进行审核得到审核数据;
所述训练单元803,具体用于基于所述审核数据对所述标注数据的标注进行更新。
通过获取噪声样本集合中的第一异常数据样本,并从噪声样本训练集中采集与第一异常数据样本的标签不同的第二异常数据样本;然后对第一异常数据样本进行数据增强,以得到增强样本;并将第一异常数据样本、第二异常数据样本和增强样本输入噪声过滤模型,以得到对比误差,对比误差基于第一异常数据样本与第二异常数据样本的差异,以及第一异常数据样本与增强样本的差异确定;然后基于对比误差与预设阈值之间的数值大小关系对第一异常数据样本进行过滤,以对噪声样本训练集进行更新;进而基于更新后的噪声样本集合对异常检测模型进行训练。从而实现基于噪声过滤的模型训练过程,由于噪声过滤过程采用自监督模型,并通过计算对比误差来衡量样本是否为噪声,而对比误差结合了相似样本与标注不同样本的误差,提高了噪声过滤的准确性,保证异常检测模型训练有效性,进而提高异常检测模型识别的准确性,以提高数据的安全性。
本申请实施例还提供了一种终端设备,如图9所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图9示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图9,手机包括:射频(radio frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity,WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对手机的各个构成部件进行具体的介绍:
RF电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器980处理;另外,将设计上行的数据发送给基站。通常,RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元930可包括触控面板931以及其他输入设备932。触控面板931,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作,以及在触控面板931上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941,可选的,可以采用液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板941。进一步的,触控面板931可覆盖显示面板941,当触控面板931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中,触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在手机移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路910以发送给比如另一手机,或者将音频数据输出至存储器920以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监测。可选的,处理器980可包括一个或多个处理单元;可选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
手机还包括给各个部件供电的电源990(比如电池),可选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器980还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图10,图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图10所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有基于噪声过滤的模型训练指令,当其在计算机上运行时,使得计算机执行如前述图3至图7所示实施例描述的方法中基于噪声过滤的模型训练装置所执行的步骤。
本申请实施例中还提供一种包括基于噪声过滤的模型训练指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图7所示实施例描述的方法中基于噪声过滤的模型训练装置所执行的步骤。
本申请实施例还提供了一种基于噪声过滤的模型训练系统,所述基于噪声过滤的模型训练系统可以包含图8所描述实施例中的基于噪声过滤的模型训练装置,或图9所描述实施例中的终端设备,或者图10所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例实施例的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术实施例本质上或者说对现有技术做出贡献的部分或者该技术实施例的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,基于噪声过滤的模型训练装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术实施例,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术实施例进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术实施例的本质脱离本申请各实施例技术实施例的精神和范围。

Claims (10)

1.一种基于噪声过滤的模型训练方法,其特征在于,包括:
获取噪声样本集合中的第一异常数据样本,并从所述噪声样本集合中采集与所述第一异常数据样本的标签不同的第二异常数据样本,其中,所述第一异常数据样本和所述第二异常数据样本均包含对应的标签;
对所述第一异常数据样本进行数据增强,以得到增强样本;
将所述第一异常数据样本、所述第二异常数据样本和所述增强样本输入噪声过滤模型,以得到对比误差,所述对比误差基于所述第一异常数据样本与所述第二异常数据样本的差异,以及所述第一异常数据样本与所述增强样本的差异确定;
基于所述对比误差与预设阈值之间的数值大小关系对所述第一异常数据样本进行过滤,以对所述噪声样本集合进行更新;
基于更新后的所述噪声样本集合对异常检测模型进行训练,得到训练后的目标异常检测模型,其中,所述目标异常检测模型用于检测数据异常情况。
2.根据权利要求1所述的方法,其特征在于,所述噪声过滤模型采用如下步骤训练所得,包括:
获取噪声样本训练集中的第一训练样本,并从所述噪声样本训练集中采集与所述第一训练样本的标签不同的第二训练样本;
对所述第一训练样本进行数据增强,以得到第三训练样本;
将所述第一训练样本、所述第二训练样本和所述第三训练样本输入噪声过滤模型,以得到所述第一训练样本对应的第一隐藏特征、所述第二训练样本对应的第二隐藏特征和所述第三训练样本对应的第三隐藏特征;
通过将所述第一隐藏特征和所述第三隐藏特征靠近,并将所述第一隐藏特征和所述第二隐藏特征远离,以对所述噪声过滤模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述通过将所述第一隐藏特征和所述第三隐藏特征靠近,并将所述第一隐藏特征和所述第二隐藏特征远离,以对所述噪声过滤模型进行训练,包括:
确定所述第一隐藏特征与所述第三隐藏特征的均方误差,以得到第一误差参数;
确定所述第一隐藏特征与所述第二隐藏特征的均方误差,以得到第二误差参数;
通过随机梯度下降使得所述第一误差参数与所述第二误差参数的差值最小,以对所述噪声过滤模型进行训练。
4.根据权利要求1所述的方法,其特征在于,所述噪声样本集合为噪声样本训练集中的训练批次数据,所述基于更新后的所述噪声样本集合对异常检测模型进行训练,得到训练后的目标异常检测模型,包括:
基于异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
基于所述梯度参数对所述异常检测模型进行参数更新;
基于所述噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对所述异常检测模型进行训练得到训练后的目标异常检测模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述噪声样本集合重复进行训练批次数据的采集,并进行多次参数更新,以对所述异常检测模型进行训练,包括:
基于所述噪声样本集合进行随机采样,并生成对应的采样随机数;
若所述采样随机数大于预设采样值,则基于所述异常检测模型按照更新后的所述噪声样本集合计算所述训练批次数据对应的主任务误差;
通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述采样随机数小于所述预设采样值,则基于所述异常检测模型按照所述噪声样本集合计算所述训练批次数据对应的主任务误差;
通过在主任务误差上进行反向传播计算,以获取所述训练批次数据对应的梯度参数;
基于所述梯度参数对所述异常检测模型进行参数更新,以对所述异常检测模型进行训练。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
响应于多个业务数据源中标注数据的发送,调用所述噪声过滤模型对所述标注数据进行过滤,以得到过滤数据;
对所述过滤数据进行上传,以对所述过滤数据进行审核得到审核数据;
基于所述审核数据对所述标注数据的标注进行更新。
8.一种基于噪声过滤的模型训练装置,其特征在于,包括:
获取单元,用于获取噪声样本集合中的第一异常数据样本,并从所述噪声样本集合中采集与所述第一异常数据样本的标签不同的第二异常数据样本,其中,所述第一异常数据样本和所述第二异常数据样本均包含对应的标签;
处理单元,用于对所述第一异常数据样本进行数据增强,以得到增强样本;
所述处理单元,还用于将所述第一异常数据样本、所述第二异常数据样本和所述增强样本输入噪声过滤模型,以得到对比误差,所述对比误差基于所述第一异常数据样本与所述第二异常数据样本的差异,以及所述第一异常数据样本与所述增强样本的差异确定;
所述处理单元,还用于基于所述对比误差与预设阈值之间的数值大小关系对所述第一异常数据样本进行过滤,以对所述噪声样本集合进行更新;
训练单元,用于基于更新后的所述噪声样本集合对异常检测模型进行训练,得到训练后的目标异常检测模型,其中,所述目标异常检测模型用于检测数据异常情况。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的基于噪声过滤的模型训练方法。
10.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的基于噪声过滤的模型训练方法的步骤。
CN202211202983.8A 2022-09-29 2022-09-29 一种基于噪声过滤的模型训练方法、装置以及存储介质 Pending CN117009328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211202983.8A CN117009328A (zh) 2022-09-29 2022-09-29 一种基于噪声过滤的模型训练方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211202983.8A CN117009328A (zh) 2022-09-29 2022-09-29 一种基于噪声过滤的模型训练方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN117009328A true CN117009328A (zh) 2023-11-07

Family

ID=88569768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211202983.8A Pending CN117009328A (zh) 2022-09-29 2022-09-29 一种基于噪声过滤的模型训练方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN117009328A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808816A (zh) * 2024-03-01 2024-04-02 腾讯科技(深圳)有限公司 图像异常检测方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808816A (zh) * 2024-03-01 2024-04-02 腾讯科技(深圳)有限公司 图像异常检测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109919251B (zh) 一种基于图像的目标检测方法、模型训练的方法及装置
CN109346061B (zh) 音频检测方法、装置及存储介质
CN110704661B (zh) 一种图像分类方法和装置
CN112364439A (zh) 自动驾驶系统的仿真测试方法、装置以及存储介质
CN111368290A (zh) 一种数据异常检测方法、装置及终端设备
CN112751648B (zh) 丢包数据恢复方法和相关装置、设备及存储介质
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN111222563B (zh) 一种模型训练方法、数据获取方法以及相关装置
CN113190646B (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN111046742B (zh) 一种眼部行为检测方法、装置以及存储介质
CN117009328A (zh) 一种基于噪声过滤的模型训练方法、装置以及存储介质
CN112232048B (zh) 一种基于神经网络的表格处理方法以及相关装置
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN117115596B (zh) 对象动作分类模型的训练方法、装置、设备及介质
CN117115590A (zh) 基于自监督学习的内容审核模型训练方法、装置及介质
CN115294648A (zh) 一种人机手势交互方法、装置、移动终端及存储介质
CN109709561A (zh) 测距方法、终端和计算机可读存储介质
CN116259083A (zh) 一种图像质量识别模型的确定方法和相关装置
CN115145910A (zh) 一种协议数据的管理方法以及相关装置
CN114971635A (zh) 一种交易风险的管理方法以及相关装置
CN111062198A (zh) 一种基于大数据的企业类别分析方法及相关设备
CN114582332B (zh) 一种音频的处理方法、装置以及存储介质
CN117292384B (zh) 文字识别方法、相关装置及存储介质
CN114743081B (zh) 模型训练方法、相关装置及存储介质
CN117520835A (zh) 一种分类树模型的训练方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination