CN110781919A - 分类模型训练方法、分类方法、装置及设备 - Google Patents
分类模型训练方法、分类方法、装置及设备 Download PDFInfo
- Publication number
- CN110781919A CN110781919A CN201910901232.7A CN201910901232A CN110781919A CN 110781919 A CN110781919 A CN 110781919A CN 201910901232 A CN201910901232 A CN 201910901232A CN 110781919 A CN110781919 A CN 110781919A
- Authority
- CN
- China
- Prior art keywords
- classification
- total
- sub
- model
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种分类模型训练方法、分类方法、装置及设备;方法包括:采用子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;采用总分类样本持续对原始总分类模型训练,直至预测的总类别的概率值与总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;采用多分类样本持续对原始多分类模型训练,直至预测的子类别的概率值与多分类样本中子分类结果的差异,以及预测的总类别的概率值与多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型。通过本发明实施例,能够提高待分类信息分类的准确度。
Description
技术领域
本发明涉及人工智能领域中的分类技术,尤其涉及一种分类模型训练方法、分类方法、装置及设备。
背景技术
信息分类包括单标签分类和多标签分类,其中,单标签分类指待分类信息仅对应于一个类别标签的分类,而多标签分类指待分类信息同时对应于多个不同的类别标签的分类。由于一般情况下待分类信息是具有多种语义的,因此,对待分类信息进行多标签分类,能够挖掘出待分类信息对应的更多语义信息,并且,分类粒度细,分类效果好。
在对待分类信息进行多标签分类时,通常先对待分类信息进行特征提取,然后基于提取到的特征和训练好的多分类模型确定该待分类信息属于各类别的概率值,最后将各概率值与对应的各预设概率值比较来确定待分类信息所属的类别;然而,在上述的多标签分类过程中,如果训练好的多分类模型在训练过程中多标签类别不全或者样本标注错误时,会导致训练出的多分类模型的分类不准确,因此,待分类信息分类的准确度低。
发明内容
本发明实施例提供一种分类模型训练方法、分类方法、装置及设备,能够提高待分类信息分类的准确度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种分类模型训练方法,包括:
获取子分类样本、总分类样本和多分类样本;所述子分类样本为分类信息和子分类结果的样本对,所述总分类样本为子分类结果和总分类结果的样本对,所述多分类样本为分类信息、子分类结果和总分类结果的样本对;
采用所述子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与所述子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;所述子分类模型用于确定分类信息的所述子类别的概率值;
采用所述总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与所述总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;所述总分类模型用于确定子分类结果的所述总类别的概率值;所述子类别属于所述总类别;
采用所述多分类样本,持续对原始多分类模型训练,直至预测的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测的所述总类别的概率值与所述多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型;所述原始多分类模型由所述子分类模型和所述总分类模型连接构建成的;所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值。
在上述方案中,所述得到多分类模型之后,所述方法还包括:
当获取到新的多分类样本时,基于所述新的多分类样本,优化所述多分类模型,以利用优化后的多分类模型进行分类。
本发明实施例提供一种基于分类模型的分类方法,所述方法包括:
当获取到待分类信息时,利用多分类模型对所述待分类信息进行分类,得到子分类概率值和总分类概率值;
其中,所述多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值,所述子类别属于所述总类别;
当所述总分类概率值大于第一总分类概率阈值时,确定所述待分类信息属于所述总类别的目标总分类结果,根据所述目标总分类结果和所述子分类概率值,确定目标分类结果;
当所述总分类概率值不大于所述第一总分类概率阈值时,得到所述待分类信息不属于所述总类别的目标总分类结果,将所述目标总分类结果作为目标分类结果。
在上述方案中,所述目标分类结果,得到目标分类结果之后,或者所述将所述目标总分类结果作为目标分类结果之后,所述方法还包括:
通过显示终端显示所述目标分类结果。
在上述方案中,所述当获取到待分类信息时,所述方法还包括:
利用优化后的多分类模型对所述待分类信息进行分类,得到所述子分类概率值和所述总分类概率值;所述优化后的多分类模型为对所述多分类模型进行优化后获得的模型。
本发明实施例提供一种分类模型的分类装置,包括:
样本获取模块,用于获取子分类样本、总分类样本和多分类样本;所述子分类样本为分类信息和子分类结果的样本对,所述总分类样本为子分类结果和总分类结果的样本对,所述多分类样本为分类信息、子分类结果和总分类结果的样本对;
子分类模型训练模块,用于采用所述子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与所述子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;所述子分类模型用于确定分类信息的所述子类别的概率值;
总分类模型训练模块,用于采用所述总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与所述总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;所述总分类模型用于确定子分类结果的所述总类别的概率值;所述子类别属于所述总类别;
多分类模型训练模块,用于采用所述多分类样本,持续对原始多分类模型训练,直至预测的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测的所述总类别的概率值与所述多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型;所述原始多分类模型由所述子分类模型和所述总分类模型连接构建成的;所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值。
本发明实施例提供一种基于分类模型的分类装置,包括:
分类模块,用于当获取到待分类信息时,利用多分类模型对所述待分类信息进行分类,得到子分类概率值和总分类概率值;其中,所述多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值,所述子类别属于所述总类别;
结果确定模块,用于当所述总分类概率值大于第一总分类概率阈值时,确定所述待分类信息属于所述总类别的目标总分类结果,根据所述目标总分类结果和所述子分类概率值,确定目标分类结果;
结果确定模块,还用于当所述总分类概率值不大于所述第一总分类概率阈值时,得到所述待分类信息不属于所述总类别的目标总分类结果,将所述目标总分类结果作为目标分类结果。
本发明实施例提供一种分类模型训练设备,包括:
第一存储器,用于存储可执行指令;
第一处理器,用于执行所述第一存储器中存储的可执行指令时,实现本发明实施例提供的分类模型训练方法。
本发明实施例提供一种基于分类模型的分类设备,包括:
第二存储器,用于存储可执行指令;
第二处理器,用于执行所述第二存储器中存储的可执行指令时,实现本发明实施例提供的基于分类模型的分类方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的分类模型训练方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于分类模型的分类方法。
本发明实施例具有以下有益效果:通过采用预测的子类别的概率值与多分类样本中子分类结果的差异,以及预测的总类别的概率值与多分类样本中总分类结果的差异,共同训练多分类模型,即使训练过程中子类别不全或者样本标注错误,由于仅是采用了子类别或者样本对应的差异的部分信息来训练多分类模型;因此,能够降低子类别不全或者样本标注错误等噪声对训练出的多分类模型的影响,从而,当利用多分类模型对待分类信息进行分类时,能够准确地对待分类信息进行分类,提高了待分类信息分类的准确度。
附图说明
图1是本发明实施例提供的分类系统100的一个可选的架构示意图;
图2a是本发明实施例提供的训练服务器200的结构示意图;
图2b是本发明实施例提供的分类服务器500的结构示意图;
图3是本发明实施例提供的分类模型训练方法的一个可选的流程示意图;
图4是本发明实施例提供的一种示例性的子分类模型结构示意图;
图5是本发明实施例提供的一种示例性的总分类模型结构示意图;
图6是本发明实施例提供的一种训练多分类模型的流程示意图;
图7是本发明实施例提供的一种示例性的多分类模型结构示意图;
图8是本发明实施例提供的基于分类模型的分类方法的另一个可选的流程示意图;
图9是本发明实施例提供的一种示例性的利用多分类模型进行分类的流程示意图;
图10是本发明实施例提供的基于分类模型的分类方法的又一个可选的流程示意图;
图11是本发明实施例提供的一种示例性的分类流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”和“本发明实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”和“本发明实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
2)人工神经网络,是一种模仿生物神经网络结构和功能的数学模型,本文中人工神经网络的示例性结构包括前馈(BP,Back Propagation)神经网络和循环神经网络(RNN,Recurrent Neural Networks),前者采用可以误差反向传播算法进行训练,人工神经网络用于函数估计或近似,包括输入层、中间层和输出层,每个层由大量处理单元相互联结构成,每个节点使用激励函数对输入的数据进行处理并输出给其他节点,激励函数的示例性的类型包括阈值型、线性型和S生长曲线(Sigmoid)型等。
2)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
3)深度学习(Deep Learning,DL),是机器学习领域中一个新的研究方向;深度学习是学习样本数据的内在规律和表示层次,最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据;深度学习是一个复杂的机器学习算法。
4)损失函数,又称代价函数,是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
5)噪声数据,指数据中存在的异常或错误的数据,其中,这些异常或错误的数据会对人或模型理解整体的数据造成干扰或其他负面影响。
6)多标签分类,是相对于单标签分类而言的,假设一个模型的输入是待分类信息,输出是该待分类信息所属的类别;那么单标签分类就是该待分类信息只属于某一个类别(假设共有N类),而多标签分类指待分类信息可以属于N类中的任何K(K=0,1,2,3,…,N)类;在本发明实施例中,多标签分类又称为子分类,单标签分类又称为总分类;也就是说,总分类指确定待分类信息是否属于一个类别(即总类别,比如,暴恐类别)的分类过程;当一个类别包括多个细分类(即子类别,比如,暴恐类别中包括血腥类别、暴力类别和恐怖)时,确定待分类信息属于上述一个类别中的多个细分类中的哪些类别的分类过程称为子分类。在本发明实施例中,分类指待分类信息通过进行子分类,得到子分类结果后,针对子分类的结果再进行总分类的判定,进而得到总分类的分类结果的过程。
7)残差,在人工智能中,是指实际值与模型输入结果值(拟合值)之间的差。
8)分类器,是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法;指在已有数据的基础上确定的一个分类函数或构造的一个分类模型,该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个。
随着人工智能技术的研究和进步,人工智能技术在多个领域展开了研究和应用;例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等;随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值;比如,还可以将人工智能应用在信息分类领域。
这里,需要说明的是,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
另外,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
一般来说,在对待分类信息进行多标签分类时,通常采用人工的方式提取待分类信息的特征,并基于机器学习的分类方法对提取的特征进行分类。比如,当待分类信息为待分类图像时,对待分类图像进行多标签分类的过程为:人工提取待分类图像的图像特征,比如,梯度直方图、SIFT特征和HOG特征等;并将提取到的图像特征在高维空间中进行特征拼接和特征相加等合并处理;然后,采用支持向量机、随机森林和朴素贝叶斯等机器学习的分类方法对处理后的图像特征进行分类,以得到图像分类结果。然而,在上述分类的过程中,由于人工提取的特征不一定是有益于进行多标签分类的特征,即人工提取的特征与分类任务的关联度低;因此,人工提取的特征的表达能力有限,无法适用于所有的情况,鲁棒性差;并且,将机器学习应用于大规模训练数据时,算法运行时间较长,性能较差。
另外,在对待分类信息进行多标签分类时,还可基于深度学习提取待分类信息的特征,并基于深度学习构成的分类器对提取的特征进行分类。比如,当待分类信息为待分类图像时,对待分类图像进行多标签分类的过程为:通过基于深度学习训练好的特征提取模型(比如,可自适应学习的卷积神经网络)提取待分类图像的图像特征,并对提取到的图像特征在空间上进行降维处理;然后,采用前馈神经网络等深度学习方法组成的分类器对处理后的图像特征进行分类,以得到图像分类结果。然而,在上述多标签分类的过程中,虽然基于深度学习提取到的特征在特征表达能力上得到了提升,但是在样本中存在噪声数据的情况下,依据特征进行待分类信息的多分类模型的训练时,得到的多分类模型的分类结果的准确性低;并且,多标签图像分类对应着N个类别和N个类别对应的N个阈值,设置或调整该N个阈值的开销较大。
基于此,本发明实施例提供一种分类模型训练方法、分类方法、装置及设备,能够在人工智能的基础上实现待分类信息的分类,提升待分类信息分类的准确度。另外,本发明实施例提供的方案涉及人工智能的分类决策技术,比如,用于分类的模型训练和使用训练好的模型进行分类等;具体将在下文进行说明。
下面说明本发明实施例提供的分类模型训练设备和基于分类模型的分类设备(以下简称分类设备)的示例性应用,本发明实施例提供的分类模型训练设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,也可以实施为服务器;另外,本发明实施例提供的分类设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,也可以实施为服务器。下面,将说明分类模型训练设备实施为服务器时,以及分类设备实施为服务器时的示例性应用。
参见图1,图1是本发明实施例提供的分类系统100的一个可选的架构示意图,为实现支撑一个分类应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接训练服务器200(分类模型训练设备所实施的服务器)和分类服务器500(分类设备所实施的服务器),分类服务器500与训练服务器200连接,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于通过网络300向训练服务器200发送分类样本(比如,本发明实施例中的分类样本、总分类样本和多分类样本),以及通过网络300向分类服务器500发送待分类信息;还用于通过网络300接收分类服务器500发送的目标分类结果,并在图形界面410(示例性示出了图形界面410-1和图形界面410-2)中显示目标分类结果。训练服务器200用于通过网络300接收终端400发送的分类样本,并采用分类样本训练多分类模型;分类服务器500用于通过网络300接收终端400发送的待分类信息,以及利用从训练服务器200中的多分类模型对待分类信息进行分类,得到目标分类结果,最后将目标分类结果通过网络300发送至终端400。
参见图2a,图2a是本发明实施例提供的训练服务器200的结构示意图,图2所示的训练服务器200包括:至少一个第一处理器210、第一存储器250、至少一个第一网络接口220和第一用户接口230。训练服务器200中的各个组件通过第一总线系统240耦合在一起。可理解,第一总线系统240用于实现这些组件之间的连接通信。第一总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2a中将各种总线都标为第一总线系统240。
第一处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
第一用户接口230包括使得能够呈现媒体内容的一个或多个第一输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。第一用户接口230还包括一个或多个第一输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
第一存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Rea d Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Acc ess Memory)。本发明实施例描述的第一存储器250旨在包括任意适合类型的存储器。第一存储器250可选地包括在物理位置上远离第一处理器210的一个或多个存储设备。
在一些实施例中,第一存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
第一操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
第一网络通信模块252,用于经由一个或多个(有线或无线)第一网络接口220到达其他计算设备,示例性的第一网络接口220包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
第一显示模块253,用于经由一个或多个与第一用户接口230相关联的第一输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
第一输入处理模块254,用于对一个或多个来自一个或多个第一输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的分类模型训练装置可以采用软件方式实现,图2a示出了存储在第一存储器250中的分类模型训练装置255,其可以是程序和插件等形式的软件,包括以下软件模块:样本获取模块2551、子分类模型训练模块2552、总分类模型训练模块2553和多分类模型训练模块2554,将在下文中说明各个模块的功能。
参见图2b,图2b是本发明实施例提供的分类服务器500的结构示意图,图2b所示的分类服务器500包括:至少一个第二处理器510、第二存储器550、至少一个第二网络接口520和第二用户接口530。分类服务器500中的各个组件通过第二总线系统540耦合在一起。可理解,第二总线系统540用于实现这些组件之间的连接通信。第二总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2b中将各种总线都标为第二总线系统540。
第二处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
第二用户接口530包括使得能够呈现媒体内容的一个或多个第二输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。第二用户接口530还包括一个或多个第二输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
第二存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的第二存储器550旨在包括任意适合类型的存储器。第二存储器550可选地包括在物理位置上远离第二处理器510的一个或多个存储设备。
在一些实施例中,第二存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
第二操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
第二网络通信模块552,用于经由一个或多个(有线或无线)第二网络接口220到达其他计算设备,示例性的第二网络接口520包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
第二显示模块553,用于经由一个或多个与第二用户接口230相关联的第二输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
第二输入处理模块554,用于对一个或多个来自一个或多个第二输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的分类装置可以采用软件方式实现,图2b示出了存储在第二存储器550中的基于分类模型训练的分类装置(以下简称分类装置)555,其可以是程序和插件等形式的软件,包括以下软件模块:分类模块5551和结果确定模块5552,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的分类模型训练装置和分类装置可以采用硬件方式实现,作为示例,本发明实施例提供的分类模型训练装置和分类装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的分类方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,将结合本发明实施例提供的分类模型训练设备实施为训练服务器的示例性应用,说明本发明实施例提供的分类模型训练方法。
参见图3,图3是本发明实施例提供的分类模型训练方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
S101、获取子分类样本、总分类样本和多分类样本;子分类样本为分类信息和子分类结果的样本对,总分类样本为子分类结果和总分类结果的样本对,多分类样本为分类信息、子分类结果和总分类结果的样本对。
需要说明的是,本发明实施例最终训练的用于分类的模型,需要通过三个阶段的模型训练获得,在这三个阶段中,每个阶段采用各阶段对应的样本进行模型训练;因此,分类模型训练设备需要获取与三个阶段对应的三种样本,即子分类样本、总分类样本和多分类样本;其中,子分类样本为第一阶段的模型的训练样本,总分类样本为第二阶段的模型的训练样本,多分类样本为第三阶段的训练样本。并且,子分类样本为分类信息和子分类结果的样本对,总分类样本为子分类结果和总分类结果的样本对,多分类样本为分类信息、子分类结果和总分类结果的样本对;其中,分类信息指利用模型确定分类结果的信息,子分类结果指标注的分类信息的子类别的分类结果,总分类结果指标注的分类信息的总类别的分类结果;而子类别的数量为至少一个,且子类别属于总类别。
这里,分类模型训练设备获取子分类样本、总分类样本和多分类样本时,可以是通过与其他设备交互从其他设备中获取,还可以从自身数据存储模块中获取,又可以是其他获取方式,本发明实施例对此不作具体限定。另外,子分类样本中的分类信息和多分类样本中的分类信息可以相同也可以不相同;并且,子分类样本中的子分类结果和总分类样本中的子分类结果可以相同也可以不相同;以及总分类样本中的总分类结果和多分类样本中的总分类结果可以相同也可以不相同。
S102、采用子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;子分类模型用于确定分类信息的子类别的概率值;子类别属于总类别。
在本发明实施例中,分类模型训练设备获得了子分类样本之后,搭建要训练的用于确定分类信息的子类别的概率值的模型,即原始子分类模型;此后,采用子分类样本对原始子分类模型训练,开始第一阶段的模型训练。训练的过程是迭代的,开始是对原始子分类模型进行训练,第二次是对第一次训练后的原始子分类模型进行训练,第三次是对第二次训练后的原始子分类模型进行训练……,依次持续对原始子分类模型进行训练,直至当前训练出的模型对子分类样本中的样本信息进行预测时,所预测出的子类别的概率值与子分类样本中子分类结果相比,得到的差异小于等于第一训练截止阈值时,即满足第一训练截止条件时,停止训练,此时训练出的模型即子分类模型。
需要说明的是,子分类样本为第一阶段的模型训练中的样本;子分类模型为采用子分类样本对原始子分类模型迭代训练获得的模型,用于确定分类信息的子类别的概率值。
S103、采用总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;总分类模型用于确定子分类结果的总类别的概率值。
在本发明实施例中,分类模型训练设备获得了总分类样本之后,搭建要训练的用于确定分类信息的总类别的概率值的模型,即原始总分类模型;此后,采用总分类样本对原始总分类模型训练,开始第二阶段的模型训练。训练的过程是迭代的,开始是对原始总分类模型进行训练,第二次是对第一次训练后的原始总分类模型进行训练,第三次是对第二次训练后的原始总分类模型进行训练……,依次持续对原始总分类模型进行训练,直至当前训练出的模型对总分类样本中的子分类结果进行预测时,所预测出的总类别的概率值与总分类样本中总分类结果相比,得到的差异小于等于第二训练截止阈值时,即满足第二训练截止条件时,停止训练,此时训练出的模型即总分类模型。
需要说明的是,总分类样本为第二阶段的模型训练中的样本;总分类模型为采用总分类样本对原始总分类模型迭代训练获得的模型,用于确定分类信息的总类别的概率值。
还需要说明的是,S102与S103在执行顺序上没有先后;也就是说,S102可以作为第一阶段的模型训练过程,也可以作为第二阶段的模型训练过程,只是当S102作为第一阶段的模型训练过程时,S103为第二阶段的模型训练过程,如上述所述;而当S103作为第一阶段的模型训练过程时,S102为第二阶段的模型训练过程;其中,训练获得子分类模型的过程和训练获得总分类模型的过程不变。
S104、采用多分类样本,持续对原始多分类模型训练,直至预测的子类别的概率值与多分类样本中子分类结果的差异,以及预测的总类别的概率值与多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型;原始多分类模型由子分类模型和总分类模型连接构建成的;多分类模型用于确定分类信息的子类别的概率值和总类别的概率值。
在本发明实施例中,当完成了子分类模型和总分类模型的训练之后,将子分类模型和总分类模型连接,构建成原始多分类模型,也就完成了用于确定分类信息的子类别的概率值和总类别的概率值的模型的搭建。此后,采用多分类样本对原始多分类模型训练,开始第三阶段的模型训练。训练的过程是迭代的,开始是对原始多分类模型进行训练,第二次是对第一次训练后的原始多分类模型进行训练,第三次是对第二次训练后的原始多分类模型进行训练……,依次持续对原始多分类模型进行训练,直至当前训练出的模型对多分类样本中的分类信息进行预测时,所预测出的子类别的概率值与多分类样本中子分类结果相比,以及预测出的总类别的概率值与多分类样本中总分类结果相比,得到的差异小于等于第三训练截止阈值时,即满足第三训练截止条件时,停止训练,此时训练出的模型即多分类模型。
需要说明的是,多分类样本为第三阶段的模型训练中的样本;多分类模型为采用多分类样本对原始多分类模型迭代训练获得的模型,用于确定分类信息的子类别的概率值和总类别的概率值。
这里,原始多分类模型的搭建还可以是将原始子分类模型和原始总分类模型连接而构建成的,本发明实施例对此不作具体限定。
可以理解的是,通过将子分类模型和总分类模型连接搭建原始多分类模型,由于子分类模型和总分类模型是训练完成的模型,因此,搭建的原始多分类模型中的参数信息就得到了合适的初始化,更有利于多分类模型的训练,快速使模型达到收敛平衡。
还需要说明的是,本发明实施例中的原始子分类模型、原始总分类模型和原始多分类模型均属于深度学习模型。
可以理解的是,一方面,由于本发明实施例训练出的多分类模型是基于两种差异(子类别的概率值与多分类样本中子分类结果的差异,以及预测的总类别的概率值与多分类样本中总分类结果的差异)训练得到的,减少了子类别不全或样本的标注信息(多分类样本中子分类结果和总分类结果)错误等噪声数据的影响;因此,多分类模型输出的分类结果的准确度高。
进一步地,在本发明实施例中,102中分类模型训练设备采用子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型,包括S1021-S1024:
S1021、基于原始子分类模型,对子分类样本中分类信息进行子分类,预测出第一子分类预测概率值。
在本发明实施例中,分类模型训练设备训练获得子分类模型的过程是迭代的,第一次训练过程中,利用原始子分类模型对子分类样本中分类信息进行子分类,预测得到的子分类的概率值即第一子分类预测概率值。
需要说明的是,子分类指确定分类信息的子类别的概率值的处理操作。
S1022、获取第一子分类预测概率值与子分类样本中子分类结果的第一子分类差异。
在本发明实施例中,分类模型训练设备获得第一子分类预测概率值之后,将第一子分类预测概率值与标注信息进行比较,即将第一子分类预测概率值与子分类样本中子分类结果进行比较,所得到的比较结果即第一子分类差异。
需要说明的是,由于子类别的数量为至少一个,从而第一子分类差异为各子类别对应的差异所构成的集合。另外,第一子分类差异表征了当前训练出的模型的子分类效果。
示例性地,对于第一子分类差异中每个子类别所对应的差异,可采用式(1)计算获得,式(1)如下:
BCELoss(fx,fy)=-fylog(fx)-(1-fy)log(1-fx) (1)
其中,BCELoss(fx,fy)为第一子分类差异中一个子类别所对应的差异,fx为第一子分类预测概率值中一个子类别的概率值,fy为子分类样本的子分类结果中一子类别的所属结果(1或者0)。
S1023、利用第一子分类差异和子分类样本,训练原始子分类模型。
在本发明实施例中,当第一子分类差异不小于等于第一训练截止阈值,即不满足第一训练截止条件时,利用第一子分类差异调整原始子分类模型的参数信息;再用调整后的原始子分类模型对子分类样本中分类信息进行子分类,获取该子分类的结果与子分类样本中子分类结果的差异,类似利用第一子分类差异训练原始子分类模型的过程,迭代训练;即利用第一子分类差异和子分类样本,训练原始子分类模型。
S1024、直至训练的原始子分类模型预测出的子分类样本的子类别的概率值,与子分类样本中子分类结果的差异,满足第一训练截止条件时为止,得到子分类模型。
在本发明实施例中,分类模型训练设备对原始子分类模型的迭代训练过程中,如果训练的原始子分类模型所预测出的子分类样本的子类别的概率值,与子分类样本中子分类结果的相比,得到的差异小于等于第一训练截止阈值时,即满足第一训练截止条件时,表明模型的训练已达到收敛平衡,停止训练,此时训练出的模型即子分类模型。
参加图4,图4是本发明实施例提供的一种示例性的子分类模型结构示意图,如图4所示,该子分类模型4-1包括特征提取模型4-11(比如,“ResNet”)和多标签分类模型4-12;其中,特征提取模型4-11用于获取待分类信息的特征,并将提取到的特征输入至多标签分类模型4-12;而多标签分类模型4-12用于依据特征计算得到各子类别对应的概率值,4-12中的一个圆圈为一个子类别。
进一步地,在本发明实施例中,103中分类模型训练设备采用总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型,包括S1031-S1034:
S1031、基于原始总分类模型,对总分类样本中子分类结果进行总分类,预测出第一总分类预测概率值。
在本发明实施例中,分类模型训练设备训练获得总分类模型的过程是迭代的,第一次训练过程中,利用原始总分类模型对总分类样本中子分类结果进行总分类,预测得到的总分类的概率值即第一总分类预测概率值。
需要说明的是,总分类指确定分类信息的总类别的概率值的处理操作。
S1032、获取第一总分类预测概率值与总分类样本中总分类结果的第一总分类差异。
在本发明实施例中,分类模型训练设备获得第一总分类预测概率值之后,将第一总分类预测概率值与标注信息进行比较,即将第一总分类预测概率值与总分类样本中总分类结果进行比较,所得到的比较结果即第一总分类差异。这里,第一总分类差异表征了当前训练出的模型的总分类效果。
示例性地,对于第一总分类差异,可采用式(2)计算获得,式(2)如下:
Loss(cx,cy)=-cylogcx (2)
其中,Loss(cx,cy)为第一总分类差异,cx为第一总分类预测概率值,cy为子分类样本的总分类结果(1或者0)。
S1033、利用第一总分类差异和总分类样本,训练原始总分类模型。
在本发明实施例中,当第一总分类差异不小于等于第二训练截止阈值,即不满足第二训练截止条件时,利用第一总分类差异调整原始总分类模型的参数信息;再用调整后的原始总分类模型对总分类样本中子分类结果进行总分类,获取该总分类的结果与总分类样本中总分类结果的差异,类似利用第一总分类差异训练原始总分类模型的过程,迭代训练;即利用第一总分类差异和总分类样本,训练原始总分类模型。
S1034、直至训练的原始总分类模型预测出的子分类样本的总类别的概率值,与总分类样本中总分类结果的差异,满足第二训练截止条件时为止,得到总分类模型。
在本发明实施例中,分类模型训练设备对原始总分类模型的迭代训练过程中,如果训练的原始总分类模型所预测出的总分类样本的总类别的概率值,与总分类样本中总分类结果的相比,得到的差异小于等于第二训练截止阈值时,即满足第二训练截止条件时,表明模型的训练已达到收敛平衡,停止训练,此时训练出的模型即总分类模型。
参加图5,图5是本发明实施例提供的一种示例性的总分类模型结构示意图,如图5所示,该总分类模型5-1为依据子分类结果计算得到总类别对应的概率值的模型,其中,5-11为子类别,5-12为总类别和非总类别。
进一步地,参见图6,图6是本发明实施例提供的一种训练多分类模型的流程示意图,如图6所示,多分类模型的训练步骤包括:S1041-S1042、S10431-S10432和S1044;另外,在本发明实施例中,103中分类模型训练设备采用多分类样本,持续对原始多分类模型训练,直至预测的子类别的概率值与多分类样本中子分类结果的差异,以及预测的总类别的概率值与多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型,包括S1041-S1044:
S1041、基于原始多分类模型,对多分类样本中分类信息进行分类,预测出第二子分类预测概率值和第二总分类预测概率值。
在本发明实施例中,分类模型训练设备训练获得多分类模型的过程是迭代的,第一次训练过程中,利用原始多分类模型对多分类样本中分类信息进行分类,预测得到的子分类的概率值即第二子分类预测概率值,以及预测得到的总分类的概率值即第二总分类预测概率值。
需要说明的是,分类指确定分类信息的子类别的概率值和总类别的概率值的处理操作。
S1042、获取第二子分类预测概率值与多分类样本中子分类结果的第二子分类差异,以及第二总分类预测概率值与多分类样本中总分类结果的第二总分类差异。
在本发明实施例中,分类模型训练设备获得第二子分类预测概率值和第二总分类预测概率值之后,将第二子分类预测概率值和第二总分类预测概率值分别与标注信息进行比较,即将第二子分类预测概率值与多分类样本中子分类结果进行比较,以及将第二总分类预测概率值与多分类样本中总分类结果进行比较;其中,第二子分类预测概率值与多分类样本中子分类结果的比较结果为第二子分类差异,第二总分类预测概率值与多分类样本中总分类结果的比较结果为第二总分类差异。
需要说明的是,第二子分类差异和第二总分类差异表征了当前训练出的模型的分类效果。
S1043、利用第二子分类差异、第二总分类差异和多分类样本,训练原始多分类模型。
在本发明实施例中,当第二子分类差异和第二总分类差异所组合的差异不小于等于第三训练截止阈值,即不满足第三训练截止条件时,利用第二子分类差异和第二总分类差异调整原始多分类模型的参数信息;再用调整后的原始多分类模型对多分类样本中分类信息进行分类,获取该分类的结果与多分类样本中子分类结果和总分类结果的差异,类似利用第二子分类差异和第二总分类差异训练原始多分类模型的过程,迭代训练;即利用第二子分类差异、第二总分类差异和多分类样本,训练原始多分类模型。
S1044、直至训练的原始多分类模型预测出的多分类样本的子类别的概率值与多分类样本中子分类结果的差异,以及预测出的多分类样本的总类别的概率值与总分类样本中总分类结果的差异,满足第三训练截止条件时为止,得到多分类模型。
在本发明实施例中,分类模型训练设备对原始多分类模型的迭代训练过程中,如果训练的原始多分类模型所预测出的多分类样本的子类别的概率值与多分类样本的子类别的概率值相比,以及预测出的总类别的概率值与多分类样本中总分类结果的相比,得到的差异小于等于第三训练截止阈值时,即满足第三训练截止条件时,表明模型的训练已达到收敛平衡,停止训练,此时训练出的模型即多分类模型。
参加图7,图7是本发明实施例提供的一种示例性的多分类模型结构示意图,如图7所示,该多分类模型7-1包括“ResNet”7-11、多标签分类模型7-12和二分类模型7-13;其中,“ResNet”7-11用于获取待分类信息的特征,并将提取到的特征输入至多标签分类模型7-12;多标签分类模型7-12用于依据特征计算得到各子类别对应的概率值,并将各子类别对应的概率值输入至二分类模型7-13,多标签分类模型7-12中的一个圆圈为一个子类别;二分类模型7-13用于依据各子类别对应的概率值计算得到总类别对应的概率值,二分类模型7-13中的圆圈为总类别和非总类别。
进一步地,在本发明实施例中,S1043中分类模型训练设备利用第二子分类差异、第二总分类差异和多分类样本,训练原始多分类模型,包括S10431-S10432:
S10431、将第二子分类差异与子分类差异权重的乘积,加上第二总分类差异与总分类差异权重的乘积所得到的和,作为第一损失函数。
在本发明实施例中,分类模型训练设备能够预先获取到子分类差异权重和总分类差异权重,或者,分类模型训练设备中预先设置有子分类差异权重和总分类差异权重,用于组合第二子分类差异和第二总分类差异;组合的过程为将第二子分类差异与子分类差异权重的乘积,加上第二总分类差异与总分类差异权重的乘积;组合的结果即第一损失函数。
需要说明的是,子分类差异权重小于总分类差异权重。比如,子分类差异权重为0.01,总分类差异权重位0.99,此时,第一损失函数如式(3)所示:
Loss3=0.01*Loss1+0.99*Loss2 (3)
其中,Loss3为第一损失函数,Loss1为第二字分类差异,Loss2为第二总分类差异;并且,Loss1中与一个子类别对应的差异的获取方式与BCELoss(fx,fy)的获取方式相同,可通过式(1)获得,Loss2的获取方式与Loss(cx,cy)的获取方式相同,可通过上式(2)获得。
可以理解的是,通过设置子分类差异权重小于总分类差异权重,更大程度地降低了子类别不全或样本的标注信息错误等噪声数据的影响,进一步提高了多分类模型的分类准确性。
S10432、利用第一损失函数和多分类样本,训练原始多分类模型。
在本发明实施例中,当第一损失函数不小于等于第三训练截止阈值,即不满足第三训练截止条件时,利用第一损失函数和多分类样本,迭代训练原始多分类模型。
进一步地,在本发明实施例中,S10432中分类模型训练设备利用第一损失函数和多分类样本,训练原始多分类模型,包括:分类模型训练设备依据第一损失函数,调整原始多分类模型的参数信息;基于调整后的原始多分类模型,对多分类样本中分类信息进行分类,预测出第三子分类预测概率值和第三总分类预测概率值;获取第三子分类预测概率值与多分类样本中子分类结果的第三子分类差异,以及第三总分类预测概率值与多分类样本中总分类结果的第三总分类差异,得到第二损失函数;利用第二损失函数和多分类样本,训练调整后的原始多分类模型。
也就是说,分类模型训练设备利用获取第一损失函数的获取方式以及利用第一损失函数调整原始多模型的参数信息实现模型训练的过程,迭代训练得到多分类模型。
进一步地,在本发明实施例中,S104中分类模型训练设备得到多分类模型之后,该分类模型训练方法还包括S105:当获取到新的多分类样本时,基于新的多分类样本,优化多分类模型,以利用优化后的多分类模型进行分类。
在本发明实施例中,当分类模型训练设备完成对多分类模型的训练之后,还可以通过获取新的多分类样本,基于新的多分类样本,优化多分类模型。
需要说明的是,分类模型训练设备采用新的多分类样本优化多分类模型得到优化后的多分类模型的过程,与上述采用多分类样本训练原始多分类模型得到多分类模型的过程类似,本发明实施例在此不再赘述。
另外,在本发明实施例中,当分类模型训练设备获得了优化后的多分类模型之后,就可以利用优化后的多分类模型进行分类。
进一步地,在本发明实施例中,第一损失函数和第二损失函数等损失函数还用于获取用于针对性训练模型的样本。这里,以第一损失函数进行说明:S10431中分类模型训练设备将第二子分类差异与子分类差异权重的乘积,加上第二总分类差异与总分类差异权重的乘积所得到的和,作为第一损失函数之后,该分类方法还包括:分类模型训练设备基于第一损失函数,获取目标多分类样本;目标多分类样本与多分类样本间的特征差异低于特征差异阈值;基于目标多分类样本,训练原始多分类模型。如此,能够加速多分类模型的收敛。
也就是说,分类模型训练设备获得第一损失函数之后,如果第一损失函数与第三训练截止阈值之间的差值较大(大于差值阈值),则表明此时训练的原始多分类模型对当前的样本(多分类样本)的分类效果差;此时,分类模型训练设备可以获取更多与当前的样本相似的目标样本(目标多分类样本)进行针对性训练,提升多分类模型的训练效率。
下面,将结合本发明实施例提供的分类模型训练设备实施为分类模型训练服务器的示例性应用,说明本发明实施例提供的基于分类模型的分类方法。
参见图8,图8是本发明实施例提供的基于分类模型的分类方法的一个可选的流程示意图,将结合图8示出的步骤进行说明。
S106、当获取到待分类信息时,利用多分类模型对待分类信息进行分类,得到子分类概率值和总分类概率值;其中,多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,多分类模型用于确定分类信息的子类别的概率值和总类别的概率值,子类别属于总类别。
在本发明实施例中,当分类设备完成了多分类模型的训练之后,如果获取到了待分类信息,就能够利用多分类模型对待分类信息进行分类,所获得的分类的结果包括子分类概率值和总分类概率值。这里,子分类概率值为与待分类信息对应的子类别的概率值,总分类概率值为与待分类信息对应的总类别的概率值。
需要说明的是,多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,多分类模型用于确定分类信息的子类别的概率值和总类别的概率值,子类别属于总类别。
S107、当总分类概率值大于第一总分类概率阈值时,确定待分类信息属于总类别的目标总分类结果,根据目标总分类结果和子分类概率值,确定目标分类结果。
在本发明实施例中,分类设备能够预先获取到第一总分类概率阈值,或者,分类设备中预先设置有第一总分类概率阈值,用于判断待分类信息是否属于总类别;判断的过程为将总分类概率值和第一总分类概率阈值进行比较。
这里,一种情况为,当总分类概率值和第一总分类概率阈值的比较结果为总分类概率值大于第一总分类概率阈值时,表明待分类信息属于总类别,从而分类设备确定待分类信息属于总类别的目标总分类结果;此时,分类设备进一步确定待分类信息所属的目标子类别,即根据目标总分类结果和子分类概率值,确定目标分类结果。
S108、当总分类概率值不大于第一总分类概率阈值时,得到待分类信息不属于总类别的目标总分类结果,将目标总分类结果作为目标分类结果。
在本发明实施例中,总分类概率值和第一总分类概率阈值的比较结果还存在另一种情况,当总分类概率值和第一总分类概率阈值的比较结果为总分类概率值不大于第一总分类概率阈值时,表明待分类信息不属于总类别,从而分类设备确定待分类信息不属于总类别的目标总分类结果;此时,目标总分类结果即目标分类结果。
可以理解的是,采用本发明实施例提供的分类方法,仅需设置一个总类别对应的概率阈值即第一总分类概率阈值,就能获得待分类信息的分类结果,减少了设置至少一个与子类别对应的概率阈值所带来的资源消耗和时间,极大地节省了手工设置阈值的成本。
进一步地,在本发明实施例中,多分类模型包括特征提取模型、特征子分类模型和总分类模型;此时,S106中分类设备利用多分类模型,对待分类信息进行分类,得到子分类概率值和总分类概率值,包括S1061-S1063:
S1061、依据特征提取模型,提取待分类信息的特征,得到待分类特征。
在本发明实施例中,多分类模型包括三个子模型,依次分别是特征提取模型、特征子分类模型和总分类模型。其中,特征提取模型用于从待分类信息中提取出用于分类的特征,即待分类特征;这里,待分类特征为特征子分类模型的输入数据。
需要说明的是,特征提取模型和特征子分类模型即上文提及的子分类模型。
S1062、依据特征子分类模型,对待分类特征进行子分类,得到子分类概率值。
在本发明实施例中,分类设备获得了待分类特征之后,将待分类特征输入至特征子分类模型进行子分类,也就能够获得与待分类信息对应的子分类的概率值,即子分类概率值;这里,子分类概率值为总分类模型的输入数据。
S1063、依据总分类模型,对子分类概率值进行总分类,得到总分类概率值。
在本发明实施例中,分类设备获得了子分类概率值之后,根据多分类模型中子分类概率值与总分类概率值之间的映射关系,通过将子分类概率值输入至总分类模型进行总分类,也就能够获得与待分类信息对应的总分类的概率值,即总分类概率值。此时,分类设备将子分类概率值和总分类概率值作为与待分类信息对应的多分类模型的输出结果。
参见图9,图9是本发明实施例提供的一种示例性的利用多分类模型进行分类的流程示意图,如图9所示,待分类信息为图片9-1,多分类模型9-2包括特征提取模型9-21、特征子分类模型9-22和总分类模型9-23;图片9-1通过多分类模型9-2得到输出结果9-3,过程为:图片9-1通过特征提取模型9-21后向特征子分类模型9-22输入提取到的待分类特征,特征子分类模型9-22将待分类特征作为输入数据而输出子分类概率值;此时,子分类概率值一方面输入至总分类模型,一方面作为输出结果9-3的部分信息;接着,总分类模型9-23将子分类概率值作为输入数据而输出总分类概率值,并将总分类概率值也作为输出结果9-3的部分信息。
进一步地,在本发明实施例中,S1061中分类设备依据特征提取模型,提取待分类信息的特征,得到待分类特征,包括S10611-S10612:
S10611、获取与待分类信息对应的当前层的当前映射信息,以及上一层与当前层的当前残差信息;当前层为特征提取模型的任一层。
在本发明实施例中,特征提取模型的表达方式采用残差学习技术,即每层的输出结果不仅包含当前层的映射表达即当前映射信息,还包括上一层的残差函数即当前残差信息。
S10612、将当前映射信息和当前残差信息,作为当前层的输出结果,直至获得特征提取模型的最后一层的输出结果时为止,得到待分类特征。
在本发明实施例中,分类设备获得了当前层的当前映射信息和当前残差信息之后,能够确定当前层的输出结果为当前映射信息和当前残差信息。比如,当前层的映射表达为f(x),上一层的残差函数为g(x),则当前层的输出结果为f(x)+g(x)。
这里,分类设备对特征提取模型的每一层的输出进行表示时,均采用当前层的映射表达和上一层的残差函数结合的方式获得。
可以理解的是,特征提取模型的每层采用映射表达和参数函数两部分确定输出结果,避免了陷于局部最优解,降低了特征提取模型的表达难度,提高了输出结果的准确性。
进一步地,在本发明实施例中,总类别包括疑似总类别和确定总类别;此时,S107中,当总分类概率值大于第一总分类概率阈值时,分类设备确定待分类信息属于总类别的目标总分类结果,包括S1071-S1073:
S1071、当总分类概率值大于第一总分类概率阈值时,比较总分类概率值与第二总分类概率阈值;第二总分类概率阈值大于第一总分类概率阈值。
在本发明实施例中,分类设备能够预先获取到第二总分类概率阈值,或者,分类设备中预先设置有第二总分类概率阈值,用于判断待分类信息属于总类别中的目标类别,即属于疑似总类别还是属于确定总类别。因此,分类设备在确定总分类概率值大于第一总分类概率阈值,即确定待分类信息属于总类别的分类结果时,进一步将总分类概率值与第二总分类概率值阈值比较。
这里,第二总分类概率阈值大于第一总分类概率阈值;比如,第一总分类概率阈值为0.5,第二总分类概率阈值为0.8。
S1072、当总分类概率值小于等于第二总分类概率阈值时,将待分类信息属于疑似总类别的结果,作为目标总分类结果。
在本发明实施例中,当分类设备确定总分类概率值小于等于第二总分类概率阈值时,确定待分类信息属于总类别中的疑似总类别,也就获得了表征待分类信息属于总类别中的疑似总类别的目标总分类结果。
S1073、当总分类概率值大于第二总分类概率阈值时,将待分类信息属于确定总类别的结果,作为目标总分类结果。
在本发明实施例中,当分类设备确定总分类概率值大于第二总分类概率阈值时,确定待分类信息属于总类别中的确定总类别,也就获得了表征待分类信息属于总类别中的确定总类别的目标总分类结果。
易知,由于第二总分类概率阈值大于第一总分类概率阈值,因此,总分类概率阈值越大,确定待分类信息属于确定总类别的结果的可能性越大。
进一步地,在本发明实施例中,S107中分类设备根据目标总分类结果和子分类概率值,确定目标分类结果,包括S1074-S1076:
S1074、获取子分类概率值的均值,得到子分类概率阈值。
在本发明实施例中,当分类设备确定了待分类信息属于总类别,或者确定了待分类信息属于总类别中具体的类别(疑似总类别和确定总类别)之后,进一步确定待分类信息所属的子类别中具体的类别。因此,信息设备需设置子分类概率阈值来确定待分类信息对应的子类别中各类别的所属结果。这里,分类设备将子分类概率值的均值作为子分类概率阈值。
S1075、将子分类概率值中大于子分类概率阈值的概率值所对应的类别,作为目标子类别。
在本发明实施例中,当分类设备获得了子分类概率阈值,将子分类概率值中的每个概率值与子分类概率阈值进行比较,获取子分类概率值中大于子分类概率阈值的概率值所对应的类别,此时,也就获得了目标子类别。也就是说,目标子类别指子类别中待分类信息所属的类别。
S1076、将目标总分类结果和目标子类别,作为目标分类结果。
在本发明实施例中,当分类设备获得了待分类信息属于总类别的分类结果即目标总分类结果,以及子类别中待分类信息所属的类别的结果即目标子类别之后,将目标总分类结果和目标子类别共同作为目标分类结果。
可以理解的是,分类设备首先根据获得的总类别的概率值(总分类概率值)与预先设置的一个概率阈值(第一总分类概率阈值),确定待分类信息属于总类别的分类结果;然后,分类设备基于待分类信息属于总类别的分类结果这一信息进一步确定子类别中待分类信息所属的目标子类别。减少了概率阈值的设置,降低了分类的复杂度;同时,分类设备通过学习子类别与总类别的相互关系并进行建模,实现了将分类任务从复杂的子类别对应的分类结果,转移至简单的先确定总类别对应的分类结果再确定子类别对应的分类结果,即实现了复杂任务的简单化的优化目标转移。
进一步地,参见图10,基于图8,图10是本发明实施例提供的基于分类模型的分类方法的又一个可选的流程示意图,将结合图10示出的步骤进行说明,其中,S106-S108参见上述描述。
S109、通过显示终端显示目标分类结果。
在本发明实施例中,当分类设备获得了目标分类结果之后,通过显示终端显示该目标分类结果,以通过显示的目标分类结果对待分类信息进行处理。
需要说明的是,显示终端可以为分类设备,也可以为其他设备。比如,当对待分类信息进行分类的请求从终端(其他设备)获得时,则将目标分类结果发送至终端进行显示。
在本发明实施例中,当获得待分类信息之后,分类设备所获得的用于分类的模型为优化后的多分类模型时,分类设备利用优化后的多分类模型对待分类信息进行分类,得到子分类概率值和总分类概率值;优化后的多分类模型为对多分类模型进行优化后获得的模型。
可以理解的是,分类设备通过不断的采用新的多分类样本优化训练多分类模型,一方面提高了优化后的多分类模型的泛化能力;另一方面,当采用优化的多分类模型进行分类时,进一步提升了分类结果的准确度。下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
参见图11,图11是本发明实施例提供的一种示例性的分类流程示意图,如图11所示,其中,子类别包括血腥11-11、枪击11-12、暴力11-13、恐怖11-14和武力11-5五个类别;总类别包括暴恐11-21一个类别,并且,与暴恐11-21相对的类别为非暴恐11-22,以及暴恐11-21包括疑似包括11-211(疑似总类别)和确定暴恐11-212(确定总类别)两个类别;多分类模型11-3包括“R esNet”11-31、特征子分类模型11-32和总分类模型11-33;待分类信息为图片11-4。
首先,对图片11-4进行分类时,通过“ResNet”11-31提取图片特征(待分类特征);并通过特征子分类模型11-32对图片特征进行分类,得到子类别对应的子类别概率值:血腥11-11:0.1、枪击11-12:0、暴力11-13:0.9、恐怖11-14:0.8和武力11-5:0.9;以及通过总分类模型11-33对子类别概率值进行分类,得到总类别11-3对应的总类别概率值:暴恐11-21:0.6,相应地,非暴恐11-22对应的概率值为0.4。
然后,将暴恐11-21:0.6与第一总分类概率阈值0.5比较,由于0.6大于0.5,因此,确定图片属于暴恐11-21;进一步将暴恐11-21:0.6与第二总分类概率阈值0.8比较,由于0.6小于0.8,因此,确定图片属于疑似暴恐11-211。
再后,计算子类别概率值:血腥11-11:0.1、枪击11-12:0、暴力11-13:0.9、恐怖11-14:0.8和武力11-5:0.9的均值,即(0.1+0+0.9+0.8+0.9)/5,得到子分类概率阈值0.54;并将子类别概率值:血腥11-11:0.1、枪击11-12:0、暴力11-13:0.9、恐怖11-14:0.8和武力11-5:0.9,分别与子分类概率阈值0.54比较:由于0.1小于0.54,0小于0.54,0.9大于0.54,0.8大于0.54,以及0.9大于0.54,从而,确定目标子类别为暴力11-13、恐怖11-14和武力11-5。此时,也就获得了图片11-4的目标分类结果:图片11-4属于疑似暴恐,且属于暴力、恐怖和武力。
最后,通过显示设备显示目标分类结果,以通过显示的目标分类结果对图片11-4进行处理。由于这里分类设备确定图片11-4为疑似暴恐,从而对图片11-4的处理操作为通知审核人员进行人工审核。
综上,可以理解的是,当将本发明实施例提供的分类方法应用于电视、直播或地区监控等场景中时,将电视、直播或地区监控等场景中提取到的图片作为待分类信息,采用多分类模型进行分类,能够快速确定是否属于暴恐的分类结果,且分类结果的准确度能够提升15%。另外,在分类设备确定待分类信息为疑似暴恐时交由人工进行审核,使得审核人员仅需对疑似暴恐的待分类信息进行进一步处理,减少了审核工作量。
下面继续说明本发明实施例提供的分类模型训练装置255的实施为软件模块的示例性结构,在一些实施例中,如图2a所示,存储在第一存储器250的分类模型训练装置255中的软件模块可以包括:
样本获取模块2551,用于获取子分类样本、总分类样本和多分类样本;所述子分类样本为分类信息和子分类结果的样本对,所述总分类样本为子分类结果和总分类结果的样本对,所述多分类样本为分类信息、子分类结果和总分类结果的样本对;
子分类模型训练模块2552,用于采用所述子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与所述子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;所述子分类模型用于确定分类信息的所述子类别的概率值;
总分类模型训练模块2553,用于采用所述总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与所述总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;所述总分类模型用于确定子分类结果的所述总类别的概率值;所述子类别属于所述总类别;
多分类模型训练模块2554,用于采用所述多分类样本,持续对原始多分类模型训练,直至预测的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测的所述总类别的概率值与所述多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型;所述原始多分类模型由所述子分类模型和所述总分类模型连接构建成的;所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值。
进一步地,所述子分类模型训练模块2552,还用于基于所述原始子分类模型,对所述子分类样本中分类信息进行子分类,预测出第一子分类预测概率值;获取所述第一子分类预测概率值与所述子分类样本中子分类结果的第一子分类差异;利用所述第一子分类差异和所述子分类样本,训练所述原始子分类模型;直至训练的原始子分类模型预测出的所述子分类样本的所述子类别的概率值,与所述子分类样本中子分类结果的差异,满足所述第一训练截止条件时为止,得到所述子分类模型。
进一步地,所述总分类模型训练模块2553,还用于基于所述原始总分类模型,对所述总分类样本中子分类结果进行总分类,预测出第一总分类预测概率值;获取所述第一总分类预测概率值与所述总分类样本中总分类结果的第一总分类差异;利用所述第一总分类差异和所述总分类样本,训练所述原始总分类模型;直至训练的原始总分类模型预测出的所述子分类样本的所述总类别的概率值,与所述总分类样本中总分类结果的差异,满足所述第二训练截止条件时为止,得到所述总分类模型。
进一步地,所述多分类模型训练模块2554,还用于基于所述原始多分类模型,对所述多分类样本中分类信息进行分类,预测出第二子分类预测概率值和第二总分类预测概率值;获取所述第二子分类预测概率值与所述多分类样本中子分类结果的第二子分类差异,以及所述第二总分类预测概率值与所述多分类样本中总分类结果的第二总分类差异;利用所述第二子分类差异、所述第二总分类差异和所述多分类样本,训练所述原始多分类模型;直至训练的原始多分类模型预测出的所述多分类样本的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测出的所述多分类样本的所述总类别的概率值与所述总分类样本中总分类结果的差异,满足所述第三训练截止条件时为止,得到所述多分类模型。
进一步地,所述多分类模型训练模块2554,还用于将所述第二子分类差异与子分类差异权重的乘积,加上所述第二总分类差异与总分类差异权重的乘积所得到的和,作为第一损失函数;利用所述第一损失函数和所述多分类样本,训练所述原始多分类模型。
进一步地,所述多分类模型训练模块2554,还用于依据所述第一损失函数,调整所述原始多分类模型的参数信息;基于调整后的原始多分类模型,对所述多分类样本中分类信息进行分类,预测出第三子分类预测概率值和第三总分类预测概率值;获取所述第三子分类预测概率值与所述多分类样本中子分类结果的第三子分类差异,以及所述第三总分类预测概率值与所述多分类样本中总分类结果的第三总分类差异,得到第二损失函数;利用所述第二损失函数和所述多分类样本,训练调整后的原始多分类模型。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被第一处理器执行时,将引起第一处理器执行本发明实施例提供的分类模型训练方法,例如,如图3示出的分类模型训练方法。
下面继续说明本发明实施例提供的分类装置555的实施为软件模块的示例性结构,在一些实施例中,如图2b所示,存储在第二存储器550的分类装置555中的软件模块可以包括:
分类模块5551,用于当获取到待分类信息时,利用多分类模型对所述待分类信息进行分类,得到子分类概率值和总分类概率值;其中,所述多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值,所述子类别属于所述总类别;
结果确定模块5552,用于当所述总分类概率值大于第一总分类概率阈值时,确定所述待分类信息属于所述总类别的目标总分类结果,根据所述目标总分类结果和所述子分类概率值,确定目标分类结果;
所述结果确定模块5552,还用于当所述总分类概率值不大于所述第一总分类概率阈值时,得到所述待分类信息不属于所述总类别的目标总分类结果,将所述目标总分类结果作为目标分类结果。
进一步地,所述多分类模型包括特征提取模型、特征子分类模型和总分类模型,所述分类模块5551,还用于依据所述特征提取模型,提取所述待分类信息的特征,得到待分类特征;依据所述特征子分类模型,对所述待分类特征进行子分类,得到所述子分类概率值;依据所述总分类模型,对所述子分类概率值进行总分类,得到所述总分类概率值。
进一步地,所述分类模块5551,还用于获取与所述待分类信息对应的当前层的当前映射信息,以及上一层与所述当前层的当前残差信息;所述当前层为所述特征提取模型的任一层;将所述当前映射信息和所述当前残差信息,作为所述当前层的输出结果,直至获得所述特征提取模型的最后一层的输出结果时为止,得到所述待分类特征。
进一步地,所述总类别包括疑似总类别和确定总类别,所述分类模块5551,还用于当所述总分类概率值大于所述第一总分类概率阈值时,比较所述总分类概率值与第二总分类概率阈值;所述第二总分类概率阈值大于所述第一总分类概率阈值;当所述总分类概率值小于等于所述第二总分类概率阈值时,将所述待分类信息属于所述疑似总类别的结果,作为所述目标总分类结果;当所述总分类概率值大于所述第二总分类概率阈值时,将所述待分类信息属于所述确定总类别的结果,作为所述目标总分类结果。
进一步地,所述结果确定模块5552,还用于获取所述子分类概率值的均值,得到子分类概率阈值;将所述子分类概率值中大于所述子分类概率阈值的概率值所对应的类别,作为目标子类别;将所述目标总分类结果和所述目标子类别,作为所述目标分类结果。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被第二处理器执行时,将引起第二处理器执行本发明实施例提供的基于分类模型的训练方法,例如,如图8示出的基于分类模型的分类方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本发明实施例通过采用预测的子类别的概率值与多分类样本中子分类结果的差异,以及预测的总类别的概率值与多分类样本中总分类结果的差异,共同训练多分类模型,即使训练过程中子类别不全或者样本标注错误,由于仅是采用了子类别或者样本对应的差异的部分信息来训练多分类模型;因此,能够降低子类别不全或者样本标注错误等噪声对训练出的多分类模型的影响,从而,当利用多分类模型对待分类信息进行分类时,能够准确地对待分类信息进行分类,提高了待分类信息分类的准确度。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (15)
1.一种分类模型训练方法,其特征在于,包括:
获取子分类样本、总分类样本和多分类样本;所述子分类样本为分类信息和子分类结果的样本对,所述总分类样本为子分类结果和总分类结果的样本对,所述多分类样本为分类信息、子分类结果和总分类结果的样本对;
采用所述子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与所述子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;所述子分类模型用于确定分类信息的所述子类别的概率值;
采用所述总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与所述总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;所述总分类模型用于确定子分类结果的所述总类别的概率值;所述子类别属于所述总类别;
采用所述多分类样本,持续对原始多分类模型训练,直至预测的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测的所述总类别的概率值与所述多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型;所述原始多分类模型由所述子分类模型和所述总分类模型连接构建成的;所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值。
2.根据权利要求1所述的方法,其特征在于,所述采用所述子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与所述子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型,包括:
基于所述原始子分类模型,对所述子分类样本中分类信息进行子分类,预测出第一子分类预测概率值;
获取所述第一子分类预测概率值与所述子分类样本中子分类结果的第一子分类差异;
利用所述第一子分类差异和所述子分类样本,训练所述原始子分类模型;
直至训练的原始子分类模型预测出的所述子分类样本的所述子类别的概率值,与所述子分类样本中子分类结果的差异,满足所述第一训练截止条件时为止,得到所述子分类模型。
3.根据权利要求1所述的方法,其特征在于,所述采用所述总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与所述总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型,包括:
基于所述原始总分类模型,对所述总分类样本中子分类结果进行总分类,预测出第一总分类预测概率值;
获取所述第一总分类预测概率值与所述总分类样本中总分类结果的第一总分类差异;
利用所述第一总分类差异和所述总分类样本,训练所述原始总分类模型;
直至训练的原始总分类模型预测出的所述子分类样本的所述总类别的概率值,与所述总分类样本中总分类结果的差异,满足所述第二训练截止条件时为止,得到所述总分类模型。
4.根据权利要求1所述的方法,其特征在于,所述采用所述多分类样本,持续对原始多分类模型训练,直至预测的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测的所述总类别的概率值与所述多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型,包括:
基于所述原始多分类模型,对所述多分类样本中分类信息进行分类,预测出第二子分类预测概率值和第二总分类预测概率值;
获取所述第二子分类预测概率值与所述多分类样本中子分类结果的第二子分类差异,以及所述第二总分类预测概率值与所述多分类样本中总分类结果的第二总分类差异;
利用所述第二子分类差异、所述第二总分类差异和所述多分类样本,训练所述原始多分类模型;
直至训练的原始多分类模型预测出的所述多分类样本的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测出的所述多分类样本的所述总类别的概率值与所述总分类样本中总分类结果的差异,满足所述第三训练截止条件时为止,得到所述多分类模型。
5.根据权利要求4所述的方法,其特征在于,所述利用所述第二子分类差异、所述第二总分类差异和所述多分类样本,训练所述原始多分类模型,包括:
将所述第二子分类差异与子分类差异权重的乘积,加上所述第二总分类差异与总分类差异权重的乘积所得到的和,作为第一损失函数;
利用所述第一损失函数和所述多分类样本,训练所述原始多分类模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第一损失函数和所述多分类样本,训练所述原始多分类模型,包括:
依据所述第一损失函数,调整所述原始多分类模型的参数信息;
基于调整后的原始多分类模型,对所述多分类样本中分类信息进行分类,预测出第三子分类预测概率值和第三总分类预测概率值;
获取所述第三子分类预测概率值与所述多分类样本中子分类结果的第三子分类差异,以及所述第三总分类预测概率值与所述多分类样本中总分类结果的第三总分类差异,得到第二损失函数;
利用所述第二损失函数和所述多分类样本,训练调整后的原始多分类模型。
7.一种基于分类模型的分类方法,其特征在于,所述方法包括:
当获取到待分类信息时,利用多分类模型对所述待分类信息进行分类,得到子分类概率值和总分类概率值;
其中,所述多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值,所述子类别属于所述总类别;
当所述总分类概率值大于第一总分类概率阈值时,确定所述待分类信息属于所述总类别的目标总分类结果,根据所述目标总分类结果和所述子分类概率值,确定目标分类结果;
当所述总分类概率值不大于所述第一总分类概率阈值时,得到所述待分类信息不属于所述总类别的目标总分类结果,将所述目标总分类结果作为目标分类结果。
8.根据权利要求7所述的方法,其特征在于,所述多分类模型包括特征提取模型、特征子分类模型和总分类模型,所述利用所述多分类模型,对所述待分类信息进行分类,得到子分类概率值和总分类概率值,包括:
依据所述特征提取模型,提取所述待分类信息的特征,得到待分类特征;
依据所述特征子分类模型,对所述待分类特征进行子分类,得到所述子分类概率值;
依据所述总分类模型,对所述子分类概率值进行总分类,得到所述总分类概率值。
9.根据权利要求8所述的方法,其特征在于,所述依据所述特征提取模型,提取所述待分类信息的特征,得到待分类特征,包括:
获取与所述待分类信息对应的当前层的当前映射信息,以及上一层与所述当前层的当前残差信息;所述当前层为所述特征提取模型的任一层;
将所述当前映射信息和所述当前残差信息,作为所述当前层的输出结果,直至获得所述特征提取模型的最后一层的输出结果时为止,得到所述待分类特征。
10.根据权利要求7所述的方法,其特征在于,所述总类别包括疑似总类别和确定总类别,所述当所述总分类概率值大于第一总分类概率阈值时,确定所述待分类信息属于所述总类别的目标总分类结果,包括:
当所述总分类概率值大于所述第一总分类概率阈值时,比较所述总分类概率值与第二总分类概率阈值;所述第二总分类概率阈值大于所述第一总分类概率阈值;
当所述总分类概率值小于等于所述第二总分类概率阈值时,将所述待分类信息属于所述疑似总类别的结果,作为所述目标总分类结果;
当所述总分类概率值大于所述第二总分类概率阈值时,将所述待分类信息属于所述确定总类别的结果,作为所述目标总分类结果。
11.根据权利要求7或10所述的方法,其特征在于,所述根据所述目标总分类结果和所述子分类概率值,确定目标分类结果,包括:
获取所述子分类概率值的均值,得到子分类概率阈值;
将所述子分类概率值中大于所述子分类概率阈值的概率值所对应的类别,作为目标子类别;
将所述目标总分类结果和所述目标子类别,作为所述目标分类结果。
12.一种分类模型训练装置,其特征在于,包括:
样本获取模块,用于获取子分类样本、总分类样本和多分类样本;所述子分类样本为分类信息和子分类结果的样本对,所述总分类样本为子分类结果和总分类结果的样本对,所述多分类样本为分类信息、子分类结果和总分类结果的样本对;
子分类模型训练模块,用于采用所述子分类样本,持续对原始子分类模型训练,直至预测的子类别的概率值与所述子分类样本中子分类结果的差异满足第一训练截止条件时为止,得到子分类模型;所述子分类模型用于确定分类信息的所述子类别的概率值;
总分类模型训练模块,用于采用所述总分类样本,持续对原始总分类模型训练,直至预测的总类别的概率值与所述总分类样本中总分类结果的差异满足第二训练截止条件时为止,得到总分类模型;所述总分类模型用于确定子分类结果的所述总类别的概率值;所述子类别属于所述总类别;
多分类模型训练模块,用于采用所述多分类样本,持续对原始多分类模型训练,直至预测的所述子类别的概率值与所述多分类样本中子分类结果的差异,以及预测的所述总类别的概率值与所述多分类样本中总分类结果的差异,满足训练第三训练截止条件时,得到多分类模型;所述原始多分类模型由所述子分类模型和所述总分类模型连接构建成的;所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值。
13.一种基于分类模型的分类装置,其特征在于,包括:
分类模块,用于当获取到待分类信息时,利用多分类模型对所述待分类信息进行分类,得到子分类概率值和总分类概率值;其中,所述多分类模型是基于用于确定子类别的概率值的模型和用于确定总类别的概率值的模型训练得到的,且,所述多分类模型用于确定分类信息的所述子类别的概率值和所述总类别的概率值,所述子类别属于所述总类别;
结果确定模块,用于当所述总分类概率值大于第一总分类概率阈值时,确定所述待分类信息属于所述总类别的目标总分类结果,根据所述目标总分类结果和所述子分类概率值,确定目标分类结果;
结果确定模块,还用于当所述总分类概率值不大于所述第一总分类概率阈值时,得到所述待分类信息不属于所述总类别的目标总分类结果,将所述目标总分类结果作为目标分类结果。
14.一种分类模型训练设备,其特征在于,包括:
第一存储器,用于存储可执行指令;
第一处理器,用于执行所述第一存储器中存储的可执行指令时,实现权利要求1至6任一项所述的方法。
15.一种基于分类模型的分类设备,其特征在于,包括:
第二存储器,用于存储可执行指令;
第二处理器,用于执行所述第二存储器中存储的可执行指令时,实现权利要求7至11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901232.7A CN110781919A (zh) | 2019-09-23 | 2019-09-23 | 分类模型训练方法、分类方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901232.7A CN110781919A (zh) | 2019-09-23 | 2019-09-23 | 分类模型训练方法、分类方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781919A true CN110781919A (zh) | 2020-02-11 |
Family
ID=69383679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910901232.7A Pending CN110781919A (zh) | 2019-09-23 | 2019-09-23 | 分类模型训练方法、分类方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781919A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340148A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN112016622A (zh) * | 2020-08-28 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 模型训练的方法、电子设备和计算机可读存储介质 |
CN112070138A (zh) * | 2020-08-31 | 2020-12-11 | 新华智云科技有限公司 | 多标签混合分类模型的构建方法、新闻分类方法及系统 |
CN113312445A (zh) * | 2021-07-29 | 2021-08-27 | 阿里云计算有限公司 | 数据处理方法、模型构建方法、分类方法及计算设备 |
CN113349792A (zh) * | 2021-05-31 | 2021-09-07 | 平安科技(深圳)有限公司 | 基于多导联心电信号的分类方法、装置、设备及介质 |
CN113408482A (zh) * | 2021-07-13 | 2021-09-17 | 杭州联吉技术有限公司 | 一种训练样本的生成方法及生成装置 |
CN113449700A (zh) * | 2021-08-30 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 视频分类模型的训练、视频分类方法、装置、设备及介质 |
CN114118114A (zh) * | 2020-08-26 | 2022-03-01 | 顺丰科技有限公司 | 一种图像检测方法、装置及其存储介质 |
CN114140637A (zh) * | 2021-10-21 | 2022-03-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
-
2019
- 2019-09-23 CN CN201910901232.7A patent/CN110781919A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340148B (zh) * | 2020-05-22 | 2020-09-22 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN111340148A (zh) * | 2020-05-22 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种业务分类模型的训练方法、业务分类方法以及终端 |
CN114118114A (zh) * | 2020-08-26 | 2022-03-01 | 顺丰科技有限公司 | 一种图像检测方法、装置及其存储介质 |
CN112016622A (zh) * | 2020-08-28 | 2020-12-01 | 中移(杭州)信息技术有限公司 | 模型训练的方法、电子设备和计算机可读存储介质 |
CN112070138A (zh) * | 2020-08-31 | 2020-12-11 | 新华智云科技有限公司 | 多标签混合分类模型的构建方法、新闻分类方法及系统 |
CN112070138B (zh) * | 2020-08-31 | 2023-09-05 | 新华智云科技有限公司 | 多标签混合分类模型的构建方法、新闻分类方法及系统 |
CN113349792A (zh) * | 2021-05-31 | 2021-09-07 | 平安科技(深圳)有限公司 | 基于多导联心电信号的分类方法、装置、设备及介质 |
CN113349792B (zh) * | 2021-05-31 | 2022-10-11 | 平安科技(深圳)有限公司 | 基于多导联心电信号的分类方法、装置、设备及介质 |
CN113408482A (zh) * | 2021-07-13 | 2021-09-17 | 杭州联吉技术有限公司 | 一种训练样本的生成方法及生成装置 |
CN113408482B (zh) * | 2021-07-13 | 2023-10-10 | 杭州联吉技术有限公司 | 一种训练样本的生成方法及生成装置 |
CN113312445A (zh) * | 2021-07-29 | 2021-08-27 | 阿里云计算有限公司 | 数据处理方法、模型构建方法、分类方法及计算设备 |
CN113312445B (zh) * | 2021-07-29 | 2022-02-11 | 阿里云计算有限公司 | 数据处理方法、模型构建方法、分类方法及计算设备 |
CN113449700B (zh) * | 2021-08-30 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 视频分类模型的训练、视频分类方法、装置、设备及介质 |
CN113449700A (zh) * | 2021-08-30 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 视频分类模型的训练、视频分类方法、装置、设备及介质 |
CN114140637A (zh) * | 2021-10-21 | 2022-03-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
CN114140637B (zh) * | 2021-10-21 | 2023-09-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781919A (zh) | 分类模型训练方法、分类方法、装置及设备 | |
CN111626350B (zh) | 目标检测模型训练方法、目标检测方法及装置 | |
US11741361B2 (en) | Machine learning-based network model building method and apparatus | |
EP3905126A2 (en) | Image clustering method and apparatus | |
WO2023179429A1 (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN110705255B (zh) | 检测语句之间的关联关系的方法和装置 | |
CN113590863A (zh) | 图像聚类方法、装置及计算机可读存储介质 | |
EP3620982A1 (en) | Sample processing method and device | |
CN110852881A (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN111062036A (zh) | 恶意软件识别模型构建、识别方法及介质和设备 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN113449012A (zh) | 基于大数据预测的互联网服务挖掘方法及大数据预测系统 | |
CN114511023B (zh) | 分类模型训练方法以及分类方法 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113343123A (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN117216537A (zh) | 集成模型的训练方法、装置、设备、存储介质及程序产品 | |
CN114462526B (zh) | 一种分类模型训练方法、装置、计算机设备及存储介质 | |
CN115579069A (zh) | scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备 | |
CN116956102A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
CN114022698A (zh) | 一种基于二叉树结构的多标签行为识别方法及装置 | |
CN115840813A (zh) | 扩展事件展示方法、装置、设备及计算机可读存储介质 | |
CN111523598A (zh) | 一种基于神经网络和视觉分析的图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018621 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |