CN111950647A - 分类模型训练方法和设备 - Google Patents

分类模型训练方法和设备 Download PDF

Info

Publication number
CN111950647A
CN111950647A CN202010842659.7A CN202010842659A CN111950647A CN 111950647 A CN111950647 A CN 111950647A CN 202010842659 A CN202010842659 A CN 202010842659A CN 111950647 A CN111950647 A CN 111950647A
Authority
CN
China
Prior art keywords
sample information
loss
sample
information
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010842659.7A
Other languages
English (en)
Inventor
侯永杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianshang Xinchang Network Technology Co Ltd
Original Assignee
Lianshang Xinchang Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianshang Xinchang Network Technology Co Ltd filed Critical Lianshang Xinchang Network Technology Co Ltd
Priority to CN202010842659.7A priority Critical patent/CN111950647A/zh
Publication of CN111950647A publication Critical patent/CN111950647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了分类模型训练方法和设备。分类模型训练方法的一具体实施方式包括:将样本信息输入至初始模型,得到样本信息的预测类别标签;将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失;对样本信息的损失进行动态加权,得到样本信息的加权损失;基于加权损失调整初始模型的参数,得到分类模型。该实施方式在模型训练阶段对样本信息的损失进行动态加权,以调整模型对不同样本信息的学习程度,使得模型优化的方向更符合实际需求,进而提高模型的分类准确度。

Description

分类模型训练方法和设备
技术领域
本申请实施例涉及计算机技术领域,具体涉及分类模型训练方法和设备。
背景技术
在社交媒体中进行高效准确的色情图像识别对于为用户营造安全的网络空间具有十分重要的意义。目前,色情图像识别技术除了基于肤色检测等传统方法外,更主流的方案是采用基于深度学习的图像分类方法。然而,传统的深度学习模型只关注图像是否正确分类以及分类的置信度。
发明内容
本申请实施例提出了分类模型训练方法和设备。
第一方面,本申请实施例提供了一种分类模型训练方法,包括:将样本信息输入至初始模型,得到样本信息的预测类别标签;将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失;对样本信息的损失进行动态加权,得到样本信息的加权损失;基于加权损失调整初始模型的参数,得到分类模型。
在一些实施例中,对样本信息的损失进行动态加权,得到样本信息的加权损失,包括:基于样本信息的损失,确定样本信息的损失权重;基于样本信息的损失权重对样本信息的损失加权,得到加权损失。
在一些实施例中,样本信息的损失权重与样本信息的损失正相关。
在一些实施例中,样本信息是样本文本、样本图像、样本语音和样本视频之一。
在一些实施例中,损失函数是交叉熵损失函数。
在一些实施例中,交叉熵损失函数定义为:
Figure BDA0002642000920000011
Figure BDA0002642000920000021
其中,1≤i≤n,1≤j≤n,且i,j,n均为正整数,y是样本信息的真实类别标签的独热编码,样本信息属于n类,yi是样本信息属于第i个类别的真实概率的独热编码,z为初始模型的输出,p为z的归一化,代表样本信息的预测类别标签,pi为样本信息属于第i个类别的预测概率。
在一些实施例中,样本信息只属于一个类别,交叉墒损失函数定义为:CEL=-lnpt;其中,样本信息只属于第t个类别,1≤t≤n,且t为正整数,yt=1。
在一些实施例中,加权损失定义为:REL=-αlnpt
Figure BDA0002642000920000022
Figure BDA0002642000920000023
其中,α为损失权重,
Figure BDA0002642000920000024
是样本信息的预测类别标签,若样本信息正确分类为第t个类别,则
Figure BDA0002642000920000025
且正确分类标签为yt时的损失权重为λ1,若样本信息错误分类为第j个类别,则
Figure BDA0002642000920000026
则错误分类标签为yj时的损失权重为λ2,若样本信息错误分类为第k个类别,则
Figure BDA0002642000920000027
则错误分类标签为yk时的损失权重为λ3
在一些实施例中,该方法还包括:获取待识别信息;将待识别信息输入至分类模型,得到待识别信息的类别。
在一些实施例中,样本信息是样本图像;以及该方法还包括:获取待识别图像;利用分类模型检测待识别图像中是否存在违规信息。
在一些实施例中,利用分类模型检测待识别图像中是否存在违规信息,包括:对待识别图像进行预处理,得到预处理图像;将预处理图像输入至分类模型,得到预处理图像的类别;基于预处理图像的类别,确定待识别图像中是否存在违规信息。
第二方面,本申请实施例提供了一种分类模型训练装置,包括:初始分类单元,被配置成将样本信息输入至初始模型,得到样本信息的预测类别标签;损失计算单元,被配置成将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失;动态加权单元,被配置成对样本信息的损失进行动态加权,得到样本信息的加权损失;参数调整单元,被配置成基于加权损失调整初始模型的参数,得到分类模型。
在一些实施例中,动态加权单元进一步被配置成:基于样本信息的损失,确定样本信息的损失权重;基于样本信息的损失权重对样本信息的损失加权,得到加权损失。
在一些实施例中,样本信息的损失权重与样本信息的损失正相关。
在一些实施例中,样本信息是样本文本、样本图像、样本语音和样本视频之一。
在一些实施例中,损失函数是交叉熵损失函数。
在一些实施例中,交叉熵损失函数定义为:
Figure BDA0002642000920000031
Figure BDA0002642000920000032
其中,1≤i≤n,1≤j≤n,且i,j,n均为正整数,y是样本信息的真实类别标签的独热编码,样本信息属于n类,yi是样本信息属于第i个类别的真实概率的独热编码,z为初始模型的输出,p为z的归一化,代表样本信息的预测类别标签,pi为样本信息属于第i个类别的预测概率。
在一些实施例中,样本信息只属于一个类别,交叉墒损失函数定义为:CEL=-lnpt;其中,样本信息只属于第t个类别,1≤t≤n,且t为正整数,yt=1。
在一些实施例中,加权损失定义为:=-,
Figure BDA0002642000920000033
Figure BDA0002642000920000034
其中,α为损失权重,
Figure BDA0002642000920000035
是样本信息的预测类别标签,若样本信息正确分类为第t个类别,则
Figure BDA0002642000920000036
且正确分类标签为yt时的损失权重为λ1,若样本信息错误分类为第j个类别,则
Figure BDA0002642000920000037
则错误分类标签为yj时的损失权重为λ2,若样本信息错误分类为第k个类别,则
Figure BDA0002642000920000038
则错误分类标签为yk时的损失权重为λ3
在一些实施例中,该装置还包括:信息获取单元,被配置成获取待识别信息;信息分类单元,被配置成将待识别信息输入至分类模型,得到待识别信息的类别。
在一些实施例中,样本信息是样本图像;以及该装置还包括:图像获取单元,被配置成获取待识别图像;违规检测单元,被配置成利用分类模型检测待识别图像中是否存在违规信息。
在一些实施例中,违规检测单元进一步被配置成:对待识别图像进行预处理,得到预处理图像;将预处理图像输入至分类模型,得到预处理图像的类别;基于预处理图像的类别,确定待识别图像中是否存在违规信息。
第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的分类模型训练方法和设备,首先将样本信息输入至初始模型,得到样本信息的预测类别标签;之后将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失;然后对样本信息的损失进行动态加权,得到样本信息的加权损失;最后基于加权损失调整初始模型的参数,得到分类模型。在模型训练阶段对样本信息的损失进行动态加权,以调整模型对不同样本信息的学习程度,不仅关注样本信息是否正确分类以及分类的置信度,还关注错误分类时不同样本信息之间的关联性,使得模型优化的方向更符合实际需求,进而提高模型的分类准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构;
图2是根据本申请的分类模型训练方法的一个实施例的流程图;
图3是根据本申请的分类模型训练方法的又一个实施例的流程图;
图4是根据本申请的分类模型训练方法的另一个实施例的流程图;
图5是适于用来实现本申请实施例的计算机设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的分类模型训练方法的实施例的示例性系统架构100。
如图1所示,系统架构100中可以包括设备101、102和网络103。网络103用以在设备101、102之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
设备101、102可以是支持网络连接从而提供各种网络服务的硬件设备或软件。当设备为硬件时,其可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。这时,作为硬件设备,其可以实现成多个设备组成的分布式设备群,也可以实现成单个设备。当设备为软件时,可以安装在上述所列举的电子设备中。这时,作为软件,其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
在实践中,设备可以通过安装相应的客户端应用或服务端应用来提供相应的网络服务。设备在安装了客户端应用之后,其可以在网络通信中体现为客户端。相应地,在安装了服务端应用之后,其可以在网络通信中体现为服务端。
作为示例,在图1中,设备101体现为客户端,而设备102体现为服务端。例如,设备101可以是图像识别应用的客户端,设备102可以是图像识别应用的服务端。
需要说明的是,本申请实施例所提供的分类模型训练方法可以由设备102执行。
应该理解,图1中的网络和设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的网络和设备。
继续参考图2,其示出了根据本申请的分类模型训练方法的一个实施例的流程200。该分类模型训练方法包括以下步骤:
步骤201,将样本信息输入至初始模型,得到样本信息的预测类别标签。
在本实施例中,分类模型训练方法的执行主体(例如图1所示的设备102)可以首先获取大量样本信息和初始模型;然后将每个样本信息输入至初始模型,预测每个样本信息的类别以及类别的置信度。
其中,样本信息可以是样本文本、样本图像、样本语音和样本视频中的一种。初始模型可以是各种用于分类的深度学习模型,包括但不限于SVM(Support Vector Machine,支持向量机)、RCNN(Region-based Convolutional Neural Network,基于区域的卷积神经网络)、ResNet(Residual Network,残差网络)、VGG(Visual Geometry Group Network,超分辨率测试序列网络)等等。初始模型可以是未经训练的、初始化参数的模型,也可以是经过训练需要优化的模型。预测类别标签可以用于记录初始模型预测的样本信息的类别以及类别的置信度,例如样本信息的类别是动物图像,其置信度是0.8。
步骤202,将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失。
在本实施例中,上述执行主体可以将样本信息的预测类别标签和真实类别标签输入至损失函数,计算样本信息的损失。
其中,真实类别标签可以用于记录样本信息的真实类别。损失函数可以用来估计样本信息的预测类别标签与真实类别标签的背离程度,是一个非负实值函数。损失越小,说明模型将样本信息错误分类的程度越小;损失越大,说明模型将样本信息错误分类的程度越大。损失函数有助于优化初始模型的参数,其目标是通过优化初始模型的参数来最大程度地减少初始模型的损失。
步骤203,对样本信息的损失进行动态加权,得到样本信息的加权损失。
在本实施例中,上述执行主体可以对样本信息的损失进行动态加权,得到样本信息的加权损失。
通常,对于不同的样本信息,模型将样本信息错误分类的程度不同,得到的样本信息的损失也不同。通过对样本信息的损失动态加权,能够动态地调高或降低每个样本信息的损失,以调整模型对不同样本信息的学习程度。
步骤204,基于加权损失调整初始模型的参数,得到分类模型。
在本实施例中,上述执行主体可以基于加权损失调整初始模型的参数,使用如梯度下降法来优化初始模型的参数,使得加权损失最小化,即可得到分类模型。
通常,损失函数有助于优化初始模型的参数,其目标是通过优化初始模型的参数来最大程度地减少初始模型的损失。因此,对样本信息的损失加权,加权越大,模型对该样本信息的学习程度就越高,进而提高模型对该样本信息的分类准确度。
在一些实施例中,本申请实施例训练的分类模型可以用于对待识别信息进行分类。具体地,上述执行主体可以获取待识别信息,并将待识别信息输入至分类模型,得到待识别信息的类别。由于本申请实施例训练分类模型时关注错误分类时不同样本信息之间的关联性,其分类准确度更高,因此利用本申请实施例训练的分类模型对信息进行分类,能够提高信息分类准确度。
应当理解的是,若模型利用样本文本训练,得到的分类模型可用于对文本进行分类。此时,待识别信息可以是待识别文本,分类模型可以预测待识别文本的类别。若模型利用样本图像训练,得到的分类模型可用于对图像进行分类。此时,待识别信息可以是待识别图像,分类模型可以预测待识别图像的类别。若分类模型利用样本语音训练,得到的分类模型可用于对语音进行分类。此时,待识别信息可以是待识别语音,分类模型可以预测待识别语音的类别。若分类模型利用样本视频训练,得到的分类模型可用于对视频进行分类。此时,待识别信息可以是待识别视频,分类模型可以预测待识别视频的类别。
本申请实施例提供的分类模型训练方法,首先将样本信息输入至初始模型,得到样本信息的预测类别标签;之后将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失;然后对样本信息的损失进行动态加权,得到样本信息的加权损失;最后基于加权损失调整初始模型的参数,得到分类模型。在模型训练阶段对样本信息的损失进行动态加权,以调整模型对不同样本信息的学习程度,不仅关注样本信息是否正确分类以及分类的置信度,还关注错误分类时不同样本信息之间的关联性,使得模型优化的方向更符合实际需求,进而提高模型的分类准确度。
进一步参考图3,其示出了是根据本申请的分类模型训练方法的又一个实施例的流程300。该分类模型训练方法包括以下步骤:
步骤301,将样本信息输入至初始模型,得到样本信息的预测类别标签。
在本实施例中,分类模型训练方法的执行主体(例如图1所示的设备102)可以首先获取大量样本信息和初始模型,然后将每个样本信息输入至初始模型,预测每个样本信息的类别以及类别的置信度。其中,预测类别标签可以用于记录初始模型预测的样本信息的类别以及类别的置信度。
步骤302,将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失。
在本实施例中,上述执行主体可以将样本信息的预测类别标签和真实类别标签输入至损失函数,计算样本信息的损失。
通常,各种损失函数均可以应用于本申请,分类问题中常用的损失函数可以是交叉熵损失函数。交叉熵是香农信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。交叉熵可在机器学习中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用Sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
对于多分类问题,样本信息可以属于多个类别。交叉墒损失函数定义为:
Figure BDA0002642000920000081
其中,1≤i≤n,1≤j≤n,且i,j,n均为正整数,y是样本信息的真实类别标签的one-hot(独热)编码,样本信息属于n类,yi是样本信息属于第i个类别的真实概率的one-hot编码。z为初始模型的输出,p为z的归一化,代表样本信息的预测类别标签,pi为样本信息属于第i个类别的预测概率。
对于单分类问题,样本信息只属于一个类别,交叉墒损失函数定义为:
CEL=-lnpt
其中,样本信息只属于第t个类别,1≤t≤n,且t为正整数,yt=1。
步骤303,基于样本信息的损失,确定样本信息的损失权重。
在本实施例中,上述执行主体可以基于样本信息的损失,确定样本信息的损失权重。
通常,样本信息的损失权重与样本信息的损失正相关。样本信息的损失越大,说明模型将该样本信息错误分类的程度越大,进而需要模型对该样本信息的学习程度越高,以提高对该样本信息的分类准确度。因此,对于损失越大的样本信息,调高该样本信息的损失权重,可以调高模型对该样本信息的学习程度。具体地,在每次最优化迭代前,计算样本信息的损失,对于不同的错误分类情况赋以动态损失权重。损失权重公式为:
Figure BDA0002642000920000091
其中,
Figure BDA0002642000920000092
是样本信息的预测类别标签,若样本信息正确分类为第t个类别,则
Figure BDA0002642000920000093
且正确分类标签为yt时的损失权重为λ1,若样本信息错误分类为第j个类别,则
Figure BDA0002642000920000094
则错误分类标签为yj时的损失权重为λ2,若样本信息错误分类为第k个类别,则
Figure BDA0002642000920000095
则错误分类标签为yk时的损失权重为λ3。样本信息的损失权重与样本信息的损失正相关。例如,如果错误分类为yj比错误分类为yk的错误程度更轻,则λ23
步骤304,基于样本信息的损失权重对样本信息的损失加权,得到加权损失。
在本实施例中,上述执行主体可以基于样本信息的损失权重对样本信息的损失加权,得到加权损失。加权损失定义为:
REL=-αlnpt
步骤305,基于加权损失调整初始模型的参数,得到分类模型。
在本实施例中,上述执行主体可以基于加权损失调整初始模型的参数,使用如梯度下降法来优化初始模型的参数,使得加权损失最小化,即可得到分类模型。
从图3中可以看出,与图2对应的实施例相比,本实施例中的分类模型训练方法的流程300突出了动态加权的步骤。由此,本实施例描述的方案基于样本信息的损失,确定对应的损失权重,对于损失越大的样本信息,调高该样本信息的损失权重,可以调高模型对该样本信息的学习程度,进而提高模型对该样本信息的分类准确度。
进一步参考图4,其示出了是根据本申请的分类模型训练方法的另一个实施例的流程400。该分类模型训练方法包括以下步骤:
步骤401,将样本信息输入至初始模型,得到样本信息的预测类别标签。
步骤402,将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失。
步骤403,基于样本信息的损失,确定样本信息的损失权重。
步骤404,基于样本信息的损失权重对样本信息的损失加权,得到加权损失。
步骤405,基于加权损失调整初始模型的参数,得到分类模型。
在本实施例中,步骤401-405的具体操作已在图3所示的实施例中步骤301-305中进行了详细的介绍,在此不再赘述。
步骤406,获取待识别图像。
在本实施例中,若模型利用样本图像训练,得到的分类模型可用于对图像进行分类。此时,分类模型训练方法的执行主体(例如图1所示的设备102)可以获取待识别图像。
步骤407,利用分类模型检测待识别图像中是否存在违规信息。
在本实施例中,上述执行主体可以利用分类模型检测待识别图像中是否存在违规信息。
通常,分类模型可以对待识别图像进行分类,确定待识别图像的类别。基于待识别图像的类别,能够确定待识别图像中是否存在违规信息。具体地,若待识别图像的类别属于违规类别,确定待识别图像中存在违规信息。例如,待识别图像的类别属于色情类别,则说明待识别图像中存在色情信息。
此外,为了进一步提高分类准确度,上述执行主体可以首先对待识别图像进行预处理,得到预处理图像;然后将预处理图像输入至分类模型,得到预处理图像的类别;最后基于预处理图像的类别,确定待识别图像中是否存在违规信息。
从图4中可以看出,与图3对应的实施例相比,本实施例中的分类模型训练方法的流程400增加了分类模型检测违规信息的步骤。由此,本实施例描述的方案利用图3所示的实施例训练的分类模型检测图像中是否存在违规信息,在保证违规图像漏检率的同时,大幅降低误检率,进而提高了违规图像识别的可靠性。
下面参考图5,其示出了适于用来实现本申请实施例的计算机设备(例如图1所示的设备102)的计算机系统500的结构示意图。图5示出的计算机设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向目标的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或电子设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括初始分类单元、损失计算单元、动态加权单元和参数调整单元。其中,这些单元的名称在种情况下并不构成对该单元本身的限定,例如,初始分类单元还可以被描述为“将样本信息输入至初始模型,得到样本信息的预测类别标签的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的计算机设备中所包含的;也可以是单独存在,而未装配入该计算机设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算机设备执行时,使得该计算机设备:将样本信息输入至初始模型,得到样本信息的预测类别标签;将样本信息的预测类别标签和真实类别标签输入至损失函数,得到样本信息的损失;对样本信息的损失进行动态加权,得到样本信息的加权损失;基于加权损失调整初始模型的参数,得到分类模型。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种分类模型训练方法,包括:
将样本信息输入至初始模型,得到所述样本信息的预测类别标签;
将所述样本信息的预测类别标签和真实类别标签输入至损失函数,得到所述样本信息的损失;
对所述样本信息的损失进行动态加权,得到所述样本信息的加权损失;
基于所述加权损失调整所述初始模型的参数,得到分类模型。
2.根据权利要求1所述的方法,其中,所述对所述样本信息的损失进行动态加权,得到所述样本信息的加权损失,包括:
基于所述样本信息的损失,确定所述样本信息的损失权重;
基于所述样本信息的损失权重对所述样本信息的损失加权,得到所述加权损失。
3.根据权利要求2所述的方法,其中,所述样本信息的损失权重与所述样本信息的损失正相关。
4.根据权利要求1-3之一所述的方法,其中,所述样本信息是样本文本、样本图像、样本语音和样本视频之一。
5.根据权利要求1-3之一所述的方法,其中,所述损失函数是交叉熵损失函数。
6.根据权利要求5所述的方法,其中,所述交叉熵损失函数定义为:
Figure FDA0002642000910000011
其中,1≤i≤n,1≤j≤n,且i,j,n均为正整数,y是所述样本信息的真实类别标签的独热编码,所述样本信息属于n类,yi是所述样本信息属于第i个类别的真实概率的独热编码,z为所述初始模型的输出,p为z的归一化,代表所述样本信息的预测类别标签,pi为所述样本信息属于第i个类别的预测概率。
7.根据权利要求6所述的方法,其中,所述样本信息只属于一个类别,交叉墒损失函数定义为:
CEL=-lnpt
其中,所述样本信息只属于第t个类别,1≤t≤n,且t为正整数,yt=1。
8.根据权利要求7所述的方法,其中,所述加权损失定义为:
REL=-αlnpt
Figure FDA0002642000910000021
其中,α为损失权重,
Figure FDA0002642000910000022
是所述样本信息的预测类别标签,若所述样本信息正确分类为第t个类别,则
Figure FDA0002642000910000023
且正确分类标签为yt时的损失权重为λ1,若所述样本信息错误分类为第j个类别,则
Figure FDA0002642000910000024
则错误分类标签为yj时的损失权重为λ2,若所述样本信息错误分类为第k个类别,则
Figure FDA0002642000910000025
则错误分类标签为yk时的损失权重为λ3
9.根据权利要求1-8之一所述的方法,其中,所述方法还包括:
获取待识别信息;
将所述待识别信息输入至所述分类模型,得到所述待识别信息的类别。
10.根据权利要求9所述的方法,其中,所述样本信息是样本图像;以及
所述方法还包括:
获取待识别图像;
利用所述分类模型检测所述待识别图像中是否存在违规信息。
11.根据权利要求10所述的方法,其中,所述利用所述分类模型检测所述待识别图像中是否存在违规信息,包括:
对所述待识别图像进行预处理,得到预处理图像;
将所述预处理图像输入至所述分类模型,得到所述预处理图像的类别;
基于所述预处理图像的类别,确定所述待识别图像中是否存在违规信息。
12.一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-11中任一所述的方法。
CN202010842659.7A 2020-08-20 2020-08-20 分类模型训练方法和设备 Pending CN111950647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010842659.7A CN111950647A (zh) 2020-08-20 2020-08-20 分类模型训练方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010842659.7A CN111950647A (zh) 2020-08-20 2020-08-20 分类模型训练方法和设备

Publications (1)

Publication Number Publication Date
CN111950647A true CN111950647A (zh) 2020-11-17

Family

ID=73358617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010842659.7A Pending CN111950647A (zh) 2020-08-20 2020-08-20 分类模型训练方法和设备

Country Status (1)

Country Link
CN (1) CN111950647A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178189A (zh) * 2021-04-27 2021-07-27 科大讯飞股份有限公司 一种信息分类方法及装置、信息分类模型训练方法及装置
CN113284142A (zh) * 2021-07-16 2021-08-20 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机可读存储介质及计算机设备
CN113673588A (zh) * 2021-08-12 2021-11-19 连尚(北京)网络科技有限公司 一种用于视频分类的方法、设备、介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN110163143A (zh) * 2019-05-17 2019-08-23 国网河北省电力有限公司沧州供电分公司 违规行为识别方法、装置及终端设备
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
CN111178410A (zh) * 2019-12-19 2020-05-19 腾讯科技(深圳)有限公司 违规图片的识别方法及装置
CN111340105A (zh) * 2020-02-25 2020-06-26 腾讯科技(深圳)有限公司 一种图像分类模型训练方法、图像分类方法、装置及计算设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN110163143A (zh) * 2019-05-17 2019-08-23 国网河北省电力有限公司沧州供电分公司 违规行为识别方法、装置及终端设备
CN111178410A (zh) * 2019-12-19 2020-05-19 腾讯科技(深圳)有限公司 违规图片的识别方法及装置
CN111340105A (zh) * 2020-02-25 2020-06-26 腾讯科技(深圳)有限公司 一种图像分类模型训练方法、图像分类方法、装置及计算设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178189A (zh) * 2021-04-27 2021-07-27 科大讯飞股份有限公司 一种信息分类方法及装置、信息分类模型训练方法及装置
CN113178189B (zh) * 2021-04-27 2023-10-27 科大讯飞股份有限公司 一种信息分类方法及装置、信息分类模型训练方法及装置
CN113284142A (zh) * 2021-07-16 2021-08-20 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机可读存储介质及计算机设备
CN113673588A (zh) * 2021-08-12 2021-11-19 连尚(北京)网络科技有限公司 一种用于视频分类的方法、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
CN109241418B (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
US11586988B2 (en) Method of knowledge transferring, information processing apparatus and storage medium
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
WO2021143396A1 (zh) 利用文本分类模型进行分类预测的方法及装置
CN108197652B (zh) 用于生成信息的方法和装置
US20130254153A1 (en) Techniques for evaluation, building and/or retraining of a classification model
CN111950647A (zh) 分类模型训练方法和设备
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
US20220309292A1 (en) Growing labels from semi-supervised learning
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
WO2021001517A1 (en) Question answering systems
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN115034315A (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
CN113312907A (zh) 基于混合神经网络的远程监督关系抽取方法及装置
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
CN111582647A (zh) 用户数据处理方法、装置及电子设备
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN116109907A (zh) 目标检测方法、装置、电子设备及存储介质
US20240020531A1 (en) System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
WO2020167156A1 (ru) Способ отладки обученной рекуррентной нейронной сети
CN114648021A (zh) 问答模型的训练方法、问答方法及装置、设备和存储介质
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
CN114067196A (zh) 生成图像场景信息的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination