CN114330499A - 分类模型的训练方法、装置、设备、存储介质及程序产品 - Google Patents
分类模型的训练方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN114330499A CN114330499A CN202111441458.7A CN202111441458A CN114330499A CN 114330499 A CN114330499 A CN 114330499A CN 202111441458 A CN202111441458 A CN 202111441458A CN 114330499 A CN114330499 A CN 114330499A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- classification model
- label
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 272
- 238000000034 method Methods 0.000 title claims abstract description 153
- 238000012549 training Methods 0.000 title claims abstract description 100
- 238000003860 storage Methods 0.000 title claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims description 70
- 230000004044 response Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 24
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 abstract description 7
- 230000003902 lesion Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 22
- 230000001575 pathological effect Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000010412 perfusion Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 238000010186 staining Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 210000004204 blood vessel Anatomy 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 210000003855 cell nucleus Anatomy 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 230000006496 vascular abnormality Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- 238000002583 angiography Methods 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000030533 eye disease Diseases 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000001990 intravenous administration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 210000001210 retinal vessel Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种分类模型的训练方法、装置、设备、存储介质及程序产品,涉及机器学习领域。该方法包括:获取样本数据,样本数据所属数据集合中的数据对应标注有数据标签;基于数据标签的标签取值分布情况,确定调整参数;通过分类模型对样本数据进行分类预测,得到样本预测概率;以调整参数对样本预测概率的损失确定过程进行均衡性调整,得到损失值;通过损失值对分类模型进行训练,得到数据分类模型,用于对目标数据在数据标签范围内进行分类。通过上述方法,以数据集合中的数据以及数据标签确定调整参数,并对样本数据进行分析,避免因为数据特征属性不均衡导致分类结果不准确的问题。本申请可应用于云技术、人工智能、智慧交通等各种场景。
Description
技术领域
本申请实施例涉及机器学习领域,特别涉及一种分类模型的训练方法、装置、设备、存储介质及程序产品。
背景技术
数据分类是通过数据的属性或特征对数据进行级别划分的过程。识别不同级别数据的价值,从而对数据进行正确地分析,是得到正确分析结果的基础。
相关技术中,通常将待分类数据输入通用的分类模型中,由分类模型基于待分类数据的特征,对数据进行多标签分类。
然而,通过上述方法进行多标签分类时,当多个待分类数据中存在特征失衡的情况,例如:在判断医学图像的病灶种类时,当待分类的数据大部分为非医学图像,只有少部分为有病灶的医学图像,分类模型常常会倾向于判断待分类数据属于特征比例较大的分类结果对应的情况——即判断待分类数据属于自然图像,因此无法在对数据进行分类时得到较为准确的分类结果。
发明内容
本申请实施例提供了一种分类模型的训练方法、装置、设备、存储介质及程序产品,能够避免因为待检测数据的特征属性不均衡而导致分类结果不准确问题,提高分类的准确性。所述技术方案如下。
一方面,提供了一种分类模型的训练方法,所述方法包括:
获取样本数据,所述样本数据为数据集合中的数据,所述数据集合中的数据对应标注有数据标签,所述数据标签用于以标签取值指示数据的参考分类;
基于所述数据标签在所述数据集合中的标签取值分布情况,确定调整参数,所述调整参数为损失计算过程中应用的辅助参数;
通过分类模型对所述样本数据进行分类预测,得到所述样本数据对应所述数据标签的样本预测概率;
以所述调整参数对所述样本预测概率的损失确定过程进行均衡性调整,得到损失值;
通过所述损失值对所述分类模型进行训练,得到数据分类模型,所述数据分类模型用于对目标数据在所述数据标签范围内进行分类。
另一方面,提供了一种分类模型的训练装置,所述装置包括:
获取模块,用于获取样本数据,所述样本数据为数据集合中的数据,所述数据集合中的数据对应标注有数据标签,所述数据标签用于以标签取值指示数据的参考分类;
确定模块,用于基于所述数据标签在所述数据集合中的标签取值分布情况,确定调整参数,所述调整参数为损失计算过程中应用的辅助参数;
预测模块,用于通过分类模型对所述样本数据进行分类预测,得到所述样本数据对应所述数据标签的样本预测概率;
调整模块,用于以所述调整参数对所述样本预测概率的损失确定过程进行均衡性调整,得到损失值;
训练模块,用于通过所述损失值对所述分类模型进行训练,得到数据分类模型,所述数据分类模型用于对目标数据在所述数据标签范围内进行分类。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述分类模型的训练方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的分类模型的训练方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的分类模型的训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
根据数据集合中数据标签的标签取值分布情况,确定调整参数,通过调整参数对样本预测概率的损失确定过程进行均衡性调整后得到损失值,以损失值对分类模型进行训练,实现对分类模型的训练过程,得到数据分类模型。在应用时,将待分类的目标数据输入上述数据分类模型中,得到分类结果。通过上述方法,以数据集合中的数据以及数据对应的数据标签为基础确定调整参数,对或获取得到的样本数据进行分析,可以避免因为数据集合中数据特征属性不均衡而导致分类结果不准确的问题,提高分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的分类模型的训练方法的流程图;
图3是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;
图4是本申请另一个示例性实施例提供的分类模型的训练方法的流程图;
图5是本申请一个示例性实施例提供的分类模型的训练方法的流程图;
图6是本申请一个示例性实施例提供的应用分类模型的训练方法的网络模型部分的示意图;
图7是本申请一个示例性实施例提供的分类模型的训练装置的结构框图;
图8是本申请另一个示例性实施例提供的分类模型的训练装置的结构框图;
图9是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
相关技术中,通常将待分类数据输入通用的分类模型中,由分类模型基于待分类数据的特征,对数据进行多标签分类。然而,通过上述方法进行多标签分类时,当多个待检测数据中存在特征失衡的情况,例如:在判断医学图像的病灶种类时,当待分类的数据大部分为非医学图像,只有少部分为有病灶的医学图像,分类模型常常会倾向于判断待分类数据属于特征比例较大的分类结果对应的情况——即判断待分类数据属于自然图像,因此无法在多标签分类时得到较为准确的分类结果。
本申请实施例中,提供了一种分类模型的训练方法,避免因为数据集合中数据特征属性不均衡而导致分类结果不准确的问题,提高分类的准确性。针对本申请训练得到的分类模型的训练方法,在应用时包括如下场景中的至少一种。
一、应用于医学领域中
在医学领域中,医学数据库存储有大部分有病灶的病历、病理图像以及少部分无病灶的病历、病理图像,当对就诊患者的医学数据(病理、病理图像等)进行病情分析时,将该医学数据作为待分类数据输入分类模型中,得到该医学数据对应的病灶情况。然而,该就诊患者可能存在指标略有异常但并不具有相关病灶的情况。示意性的,采用本申请中提供的分类模型的训练方法,对数据集合(病历库、病理图像库等)中数据对应的数据标签进行分析,确定调整参数,通过调整参数对样本预测概率进行调整得到损失值,以损失值对分类模型进行训练,使得训练得到的数据分类模型可以更好地识别该待分类的医学数据是否存在病灶。在应用时,将待分类医学数据输入该数据分类模型中,可以更准确地得到该待分类医学数据对应的病灶情况。避免因为数据集合中存储的有病灶的病历、病理图像占比较大,而导致数据分类模型倾向于判断该待分类的医学数据存在病灶的问题,对病灶情况更准确的判断也有助于医生更好地分析患者的病情。
二、应用于信息滤除场景下
骚扰电话已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象。基于用户标记而过滤骚扰电话的效果有限,很多骚扰“逃脱”过滤,继续到达手机终端。同时,一些被恶意标记或者因为号码类似而被标记为“骚扰电话”的情况也时有发生。示意性的,采用本申请中提供的分类模型的训练方法,对数据集合(骚扰电话标记库)中数据对应的数据标签进行分析,确定调整参数,通过调整参数对样本预测概率进行调整得到损失值,以损失值对分类模型进行训练,使得训练得到的数据分类模型可以更好地识别该待分类数据是否为骚扰电话。在应用时,将待分类数据输入该数据分类模型中,可以更准确地得到该待分类数据对应的标记情况。
值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的分类模型的训练方法还可以应用于其他场景中,本申请实施例对此不加以限定。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。
在一些实施例中,终端110中安装有具有数据获取功能的应用程序。在一些实施例中,终端110用于向服务器120发送目标数据。服务器120可通过数据分类模型对目标数据进行分类输出分类结果,并将分类结果反馈至终端110进行显示。
其中,数据分类模型采用如下方法训练得到的:根据数据标签对应的标签取值确定调整参数,基于样本数据对应的样本预测概率和调整参数得到损失值,以损失值训练分类模型,从而得到数据分类模型。示意性的,数据集合中存储n个数据,n个数据对应标注有数据标签,数据标签通过标签取值的方式指示,例如:数据标签对应的标签取值为“0”,用于指示该数据标签对应的数据“无病灶”;或者,数据标签对应的标签取值为“1”,用于指示该数据标签对应的数据“有病灶”。基于获取得到样本数据,将样本数据对应的样本标签与样本数据所属数据集合中数据对应的n个数据标签进行匹配,预测得到样本预测概率;基于样本预测概率与调整参数确定损失值,通过损失值对分类模型进行训练,得到数据分类模型。上述过程是数据分类模型训练过程的不唯一情形的举例。
值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
结合上述名词简介和应用场景,对本申请提供的分类模型的训练方法进行说明,以该方法应用于终端为例,如图2所示,该方法包括如下步骤。
步骤210,获取样本数据。
其中,样本数据为数据集合中的数据。数据集合为多个数据组成的集合,既可以是数据库、数据集、存储空间内的数据组成的集合,也可以将任意一个数据库、数据集、存储空间内的全部或者部分数据作为一个数据集合。示意性的,数据集合中包括图像数据、文本数据、音频数据中的至少一种。数据集合中既可以存储一种类型的数据(如:文本数据或者图像数据),也可以存储多种类型的数据(如:文本数据和图像数据)。可选地,基于数据集合中存储数据类型的不同,数据集合可以包括多个种类。例如医学数据集合、新闻数据集合等。
可选地,样本数据为从数据集合中任意选择的至少一个数据。例如:在数据集合中存储有多个数据,从多个数据中以随机选择的方式,任意选择至少一个数据作为样本数据,即,以等概率选择的方式从数据集合中随机选择至少一个数据作为样本数据。
示意性的,以医学数据集合为例,在从数据集合中获取样本数据时包括以下至少一种方法。
1、从已有数据集合中获取样本数据。
示意性的,已有数据集合既包括可以为公众所知悉并获取数据的开放数据集合,例如:视网膜结构分析(STARE,Structured Analysis of the Retinal)数据库、用于宽度估计的视网膜血管图像集Review(Retinal vessel image set for estimation ofwidths)数据库等常见的眼底图像数据库,也包括基于至少两个数据组成的合成数据集合,例如:将公开或未公开的医学数据进行汇总,得到合成数据集合,合成数据集合中的数据可以全部是公开数据或未公开数据,也可以由部分公开数据和部分未公开数据汇总得到。基于上述开放数据集合或合成数据集合,获取一个或多个数据作为样本数据,完成获取样本数据的过程。
2、从预处理后得到的数据集合中获取样本数据。
可选地,考虑到在对数据进行分析时,根据不同数据对应的不同特点,可以首先对已有数据集合进行预处理,从处理后的数据集合中获取样本数据。
在一个可选的实施例中,对初始数据进行数据增强操作,得到候选数据;对候选数据进行归一化操作后,得到数据集合。
初始数据是指未经过预处理之前的数据。可选地,初始数据具有数量少、曝光差异大等特点,为了减小初始数据中不利影响,对初始数据进行预处理。
其中,数据增强操作又称为数据扩增操作,是指在不实质性增加数据的情况下,让有限的数据产生更多的数据价值,使得数据能够获得更好的多样性。示意性的,以对图像数据进行数据扩增操作为例进行说明,对图像的数据扩增操作包括:(1)几何变换操作,即对图像数据进行几何变换,例如:翻转操作、旋转操作、裁剪操作、变形操作、缩放操作等,以上几何变换操作既可以采用随机方式(例如:随机旋转、随机裁剪等),也可以采用固定方式(例如:固定角度旋转、固定比例缩放等);(2)颜色变换操作,即对图像数据的部分内容进行调整,例如:噪音操作、颜色变换等。将初始数据经过上述数据集合增强操作后,得到候选数据,候选数据与初始数据相比,在对数据的广度存在明显的提升。
其中,归一化操作是将数据映射到同一尺度中。示意性的,以对图像数据进行归一化操作为例进行说明,首先确定数据图像中的每个像素,之后计算数据图像中像素的均值,基于均值确定数据图像对应的标准差(即:每个像素与像素均值的差的平方和,除以像素的个数),将图像数据中的每个像素减去像素的均值后除以上述标准差,实现数据图像的归一化操作。
以上仅为示意性的举例,本申请实施例对此不加以限定。
数据集合中的数据对应标注有数据标签,用于指示该数据对应的数据特征。示意性的,样本数据是从数据集合中获取得到的数据,样本数据对应标注的数据标签为样本标签。
可选地,数据标签在指示数据对应的数据特征时,采用标签取值的方式指示数据的参考分类,即:数据标签用于以标签取值指示数据的参考分类。
其中,标签取值是指数据标签以数值的方式进行区别。示意性的,采用二进制的表示方式对数据标签进行表示,例如:当标签取值为“0”时表示“否”,当标签取值为“1”时表示“是”;或者,当标签取值为“01”时表示第一种数据标签,当标签取值为“10”时表示第二种数据标签,当标签取值为“11”时表示第三种数据标签,当标签取值为“00”时表示第四种数据标签。
可选地,当数据标签以文本形式区别时(例如:中文词汇或者英文单词等),基于不同数据对应的数据标签之间的差异,将文本形式转换成标签取值的方式进行表示。示意性的,A数据对应的数据标签为“病灶A”、B数据对应的数据标签为“病灶B”,将上述不同的数据标签采用不同的标签取值进行区别。例如:将A数据对应的数据标签“病灶A”转换成标签取值“10”,将B数据对应的数据标签“病灶B”转换为“11”。可选地,当C数据对应的数据标签为“病灶A”时,由于C数据对应的数据标签与A数据对应的数据标签相同,故C数据对应的数据标签进行转换后得到的标签取值为“01”。以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤220,基于数据标签在数据集合中的标签取值分布情况,确定调整参数。
其中,调整参数为损失计算过程中应用的辅助参数。
标签取值分布情况用于指示对不同数据标签对应的标签取值进行分析得到的情况。
示意性的,当数据标签对应的标签取值为二进制或者数据标签被转换为二进制时,对每一个数据标签对应的标签取值进行分析,根据预先设定的第一取值,可以确定标签取值分布情况。例如:预先设定的第一取值为“1”,多个数据标签对应的标签取值分别为“001”、“010”、“100”、“101”以及“110”,对多个数据标签对应的标签取值进行分析,首先确定每一个数据标签对应的标签取值中第一取值的数量,分别为“1个、1个、1个、2个、2个”,之后,基于每个数据标签对应的第一取值的数量,综合分析全部数据标签,确定标签取值分布情况,例如:标签取值分布情况为第一取值之和除以数据标签数量,即:标签取值为1.4(7÷5=1.4)。以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤230,通过分类模型对样本数据进行分类预测,得到样本数据对应数据标签的样本预测概率。
分类是通过数据的属性或者特征对已有数据进行分类的过程,分类模型是为了实现分类过程而采用的模型,又称作分类器。通过分类模型,可以根据数据的属性和特征等对数据进行划分,常见的分类模型包括:卷积神经网络图像分类模型(CNN,ConvolutionalNeural Networks)、逻辑回归模型、决策树模型等。
为了提高分类模型的分类精确度,通常会在该分类模型的基础上,基于样本数据对分类模型进行训练,例如:将分类模型作为待训练模型,对该分类模型在一个或者多个样本数据下进行训练,使得该分类模型能够较好地识别数据的分类类别,提高分类模型的分类精确度。
在一个可选的实施例中,样本数据是从数据集合中随机获取得到的数据,将该样本数据输入分类模型中,该分类模型可以将样本数据与数据集合中的数据进行匹配,输出得到样本预测概率。其中,样本预测概率是分类模型输出的样本数据与多个数据标签分别对应的预测结果。
示意性的,将样本数据输入分类模型中,分类模型将样本数据与数据集合中数据对应的数据标签进行匹配,根据样本数据与每一个数据标签进行匹配得到的结果,确定样本预测概率。例如:数据集合M中存储有多个数据,多个数据对应的数据标签包括数据标签a、数据标签b以及数据标签c,从数据集合M中获取得到样本数据为m,将样本数据m与数据标签a、数据标签b以及数据标签c分别进行匹配,得到的样本预测概率分别为0.1、0.2、0.7。
步骤240,以调整参数对样本预测概率的损失确定过程进行均衡性调整,得到损失值。
样本预测概率为样本数据和数据集合中的数据进行匹配后得到的结果,样本预测标签用于指示分类模型预测的样本数据与其匹配的数据之间的差异程度,可以反映分类模型预测的样本数据对应的预测标签与样本数据对应的真实标签(真实标签从属于数据标签)之间的差异程度。
在根据样本预测概率求解损失值的过程中,可能存在数据集合中数据的特征分布不均衡的问题。示意性的,数据集合为任意一个网站上获取到的1000张图像,图像中包括风景图像、人物图像、建筑图像、医学图像等,当对图像进行分类的目标是从1000张图像中确定病灶(用于指示机体上发生病变的部位)的类别,由于病灶属于医学用语,更多地适用于医学图片的分析过程中,而任意获取的图像中存在病灶的概率较小,故分类模型倾向于判断图像不具有病灶,当某一张图像为具有病灶的图像时,分类模型也倾向于判断该图像不具有病灶,即判断失误。
考虑到数据存在的上述特征不均衡问题,将调解参数纳入损失值确定过程中,以调整参数对样本预测概率进行调整,可以辅助调节不同数据对应的不同特征对分类模型的影响力,从而确定损失值。
在一个可选的实施例中,可选地,损失值是通过损失函数计算得到的,损失函数为预先设定好的函数,将样本预测概率和调整参数代入损失函数中,计算得到损失值。
示意性的,获取分类模型输出的样本预测概率,样本预测概率中包括样本数据与数据集合中每个数据分别对应的预测概率;将样本预测概率与调整参数输入损失函数,得到样本数据对应的损失值。
示意性的,数据集合为M,数据集合中存储的数据包括数据m1、数据m2和数据m3,样本数据为N,样本数据N与数据m1、数据m2和数据m3分别对应的样本预测概率为0.7、0.1、0.2,将样本预测概率与调整参数代入损失函数,确定样本数据N对应的损失值。另外,上述样本预测概率以分类模型输出软标签为例进行说明,在一些实施例中,分类模型所输出的样本预测概率也可以实现为硬标签,也即,将样本数据N输入分类模型中,分类模型输出与三个数据标签a,b,c分别对应的样本预测概率为“1、0、0”,本实施例对此不加以限定。
步骤250,通过损失值对分类模型进行训练,得到数据分类模型。
其中,数据分类模型用于对目标数据在数据标签范围内进行分类。
在一个可选的实施例中,基于损失值,对分类模型的模型参数进行调整,得到候选分类模型;响应于基于损失值对候选分类模型的训练达到训练目标,获取所述数据分类模型。
示意性的,以降低损失值为目标对分类模型的模型参数进行调整,如:采用梯度下降法降低损失值;或者,采用反向传播算法降低损失值等。
可选地,基于一个样本数据对应的损失值,可以对分类模型的模型参数进行至少一次调整,当存在多个样本数据时,需要对分类模型的模型参数进行多次调整。对分类模型的模型参数进行调整的目的在于得到训练好的数据分类模型,示意性的,在对分类模型的模型参数进行调整从而得到数据分类模型的过程中,模型参数被调整但尚未达到数据分类模型条件的模型可以称为候选分类模型,即:候选分类模型为对分类模型的模型参数进行调整后得到的模型,因为尚未训练完毕,故候选分类模型为中间状态的模型。
示意性的,从数据集合中随机获取多个样本数据,以每个样本数据对分类模型进行一次训练为前提,对分类模型进行训练模型。例如:确定调整参数,并对每一个样本数据进行概率预测以及损失计算后,确定每一个样本数据对应的损失值;之后,以第一样本数据对应的第一损失值对分类模型进行初次调整后,得到候选分类模型;之后,以第二个样本数据对应的第二损失值对候选分类模型进行训练等。可选地,同一个样本数据也可以对分类模型进行一次或者多次训练,以上仅为示意性的举例,本申请实施例对此不加以限定。
可选地,在损失值对候选分类模型进行训练的过程中,会因为对候选分类模型的训练达到训练目标而得到数据分类模型,示意性的,训练目标至少包括如下一种情况。
1、响应于损失值达到收敛状态,将最近一次迭代训练得到的候选分类模型作为数据分类模型。
示意性的,损失值达到收敛状态用于指示通过损失函数得到的损失值的数值不再变化或者变化幅度小于预设阈值。例如:第n个样本数据对应的损失值为0.1,第n+1个样本数据对应的损失值也为0.1,可以视为该损失值达到收敛状态,将第n个样本数据或者第n+1个样本数据对应的损失值调整的候选分类模型作为数据分类模型,实现对分类模型的训练过程。
2、响应于损失值的获取次数达到次数阈值,将最近一次迭代训练得到的候选分类模型作为数据分类模型。
示意性的,一次获取可以得到一个损失值,预先设定用于训练分类模型的损失值的获取次数,当一个样本数据对应一个损失值时,损失值的获取次数即为样本数据个数;或者,当一个样本数据对应多个损失值时,损失的获取次数即为损失值的个数。例如:预先设定一次获取可以得到一个损失值,损失值获取的次数阈值为10次,即当达到获取次数阈值时,将最近一次损失值调整的候选分类模型作为数据分类模型,或者将损失值10次调整过程中最小损失值调整的候选分类模型作为数据分类模型,实现对分类模型的训练过程。
在一个可选的实施例中,将目标数据输入数据分类模型中,确定目标数据对应的分类结果。
其中,分类结果用于指示目标数据所属的标签类别。
目标数据为待分类的数据。示意性的,在得到数据分类模型后,对该数据分类模型进行应用,将目标数据通过数据分类模型,由数据分类模型对目标数据进行分类,确定目标数据与数据分类模型对应的每个数据的匹配情况,确定标签种类。
其中,标签种类用于指示目标数据的类别情况。示意性的,目标数据为一张细胞核病理图像,将该细胞核病理图像输入分类模型中进行分类后,确定该细胞核病理图像对应分类结果。示意性的,根据该细胞核病理图像与多个预先设定的数据标签进行匹配,当匹配的概率超过预设阈值时,将该数据标签确定为该细胞核病理图像对应的分类结果,该分类结果即可指示该目标数据对应的标签类别(数据标签对应的类别)。可选地,数据标签根据对应的标签取值,可能存在多种指示情况,例如:被匹配成功的数据标签中的标签取值指示了该细胞核病理图像具有A病灶、G病灶以及I病灶。以上仅为示意性的举例,本申请实施例对此不加以限定。
综上所述,获取样本数据,样本数据所属数据集合中的数据分别对应标注有数据标签,数据标签通过标签取值的方式指示数据的参考分类,根据数据集合中多个数据标签对应的标签取值,确定数据集合中数据标签的标签取值分布情况,通过标签取值情况确定进行分类模型损失值计算过程中的调整参数,分类模型对样本数据进行分类预测后,得到样本预测概率,用于表示样本数据和数据标签进行匹配的结果。通过调整参数对样本预测概率的损失确定过程进行均衡性调整后得到损失值,以损失值对分类模型进行训练,实现对分类模型的训练过程,得到数据分类模型。在应用时,将待分类的目标数据输入上述数据分类模型中,对目标数据进行分类。通过上述方法,以数据集合中的数据以及数据对应的数据标签为基础确定调整参数,对样本数据进行分析,可以避免因为数据集合中数据特征属性不均衡而导致分类结果不准确的问题,提高分类的准确性。
在一个可选的实施例中,数据标签基于标签取值包括第一类标签和第二类标签,确定调整参数的过程是基于第一类标签和第二类标签分别对应的取值分布情况确定的。示意性的,如图3所示,上述图2所示出的实施例还可以实现为如下步骤310至步骤360。
步骤310,获取样本数据。
样本数据为数据集合中的数据,数据集合中的数据对应标注有数据标签,用于指示该数据对应的数据特征。可选地,数据标签在指示数据对应的数据特征时,采用标签取值的方式指示数据的参考分类,即:数据标签用于以标签取值指示数据的参考分类。标签取值是指数据标签以数值的方式进行区别。
步骤320,基于数据标签对应的标签取值和数据集合中数据的数量,确定第一类标签的第一取值分布情况和第二类标签的第二取值分布情况。
示意性的,数据集合中数据的数量是固定的,例如:在一次分析过程中,数据集合中数据的数量为100,则在一次分析过程中,以100个数据为基础确定第一类标签的第一取值分布情况和第二类标签的第二取值分布情况。
其中,数据标签的标签取值包括第一取值或第二取值。可选地,第一取值和第二取值是根据预先设定的取值规则而确定的数值,例如:标签取值采用二进制方式,设定第一取值为“1”、第二取值为“0”;或者,设定第一取值为“0”、第二取值为“1”。
其中,第一类标签和第二类标签是基于标签取值的差异而划分得到的。在一个可选的实施例中,基于标签取值划分第一类标签和第二类标签根据第一取值或第二取值确定。响应于数据标签对应的标签取值中存在至少一个第一取值,将该数据标签确定为第一类标签;响应于数据标签对应的标签取值中皆为第二取值,将该数据标签确定为第二类标签。
可选地,确定第一类标签和第二类标签是基于第一取值或第二取值的个数确定的。示意性的,数据标签对应的标签取值以二进制形式表示,预先设定的取值规则为第一取值为“1”、第二取值为“0”,通过预先设定的数量阈值条件,根据标签取值中第一取值或第二取值与数量阈值条件的关系,确定第一类标签和第二类标签,其中,数量阈值条件包括以下至少一种情形。
1、数量阈值条件为:当第一取值的数量不小于数量阈值时,该标签取值对应的数据标签为第一类标签。
其中,数量阈值为正整数。示意性的,预先设定的数量阈值为3,当第一取值的数量不小于3时(即:第一取值的数量大于等于3),该标签取值对应的数据标签为第一类标签,例如:数据标签对应的标签取值为“0011110”,其中,第一取值“1”的数量为4,大于预先设定的数量阈值3,故该数据标签确定为第一类标签;或者,数据标签对应的标签取值为“0010100”,其中,第一取值“1”的数量为2,小于预先设定的数量阈值3,故该数据标签不是第一类标签。
可选地,预先设定的数量阈值为1,当第一取值的数量不小于1(即:第一取值的数量大于等于1),该标签取值对应的数据标签为第一类标签,例如:当标签取值为“01”时表示数据标签a1,当标签取值为“10”时表示数据标签a2,当标签取值为“11”时表示数据标签a3,当标签取值为“00”时表示数据标签a4。其中,标签取值“01”、标签取值为“10”、标签取值为“11”时,符合标签取值中第一取值的数量不小于1的情况,故将标签取值“01”对应的数据标签a1、标签取值为“10”对应的数据标签a2以及标签取值为“11”对应的数据标签a3作为第一类标签。
2、数量阈值条件为:当第二取值的数量小于数量阈值,该标签取值对应的数据标签为第二类标签。
其中,数量阈值为正整数。示意性的,预先设定的数量阈值为2,当第二取值的数量小于2时,该标签取值对应的数据标签为第二类标签,例如:数据标签对应的标签取值为“0011110”,其中,第二取值“0”的数量为3,大于预先设定的数量阈值2,故该数据标签不是第二类标签;或者,数据标签对应的标签取值为“0111”,其中,第二取值“0”的数量为1,小于预先设定的数量阈值2,故该数据标签为第二类标签。
可选地,预先设定的数量阈值为1,当第二取值的数量小于1(即:第二取值的数量为0),该标签取值对应的数据标签为第二类标签,例如:当标签取值为“01”,其中,第二取值“0”的数量为1,等于(不小于)预先设定的数量阈值1,故该数据标签不是第二类标签;或者,数据标签对应的标签取值为“000”,其中,第二取值“0”的数量为0,小于预先设定的数量阈值1,故该数据标签为第二类标签。
可选地,当数据标签的种类为第一类标签或第二类标签时,在某个数据标签的种类不满足第一类标签的情况下,确定该数据标签为第二类标签,以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,对数据标签对应的标签取值进行分析,确定每个数据标签对应的标签取值中第一取值的数量;确定第一取值的数量对应数据集合中数据数量的平均值,作为第一取值分布情况;确定第二类标签的数量;确定第二类标签的数量对应数据集合中数据数量的平均值,作为第二取值分布情况。
可选地,标签取值根据数据标签的种类进行预先确定。以标签取值为二进制情况进行分析,示意性的,当需要表示的数据标签的种类为四种时,可以采用“00”、“01”、“10”和“11”四种标签取值的方式进行表示;当需要表示的数据标签的种类为八种时,可以采用“000”、“001”、“010”、“011”、“100”、“101”、“110”和“111”八种标签取值的方式表示;可选地,当需要表示的数据标签的种类为六种时,从上述八种标签取值的方式中以预先设定的方式确定标签取值的方式,例如:预先设定“000”、“001”、“010”、“011”、“100”以及“101”为数据标签对应的六种标签取值。
对上述数据标签的种类为八种时标签取值的情况进行分析,若第一取值为“1”,确定上述八种标签取值“000”、“001”、“010”、“011”、“100”、“101”、“110”和“111”中第一取值的数量,得到的第一取值的数量分别为:0、1、1、2、1、2、2、3。示意性的,在确定第一取值的数量后,根据数据集合中的数据数量(例如:数据集合中数据的数量为20),将第一取值的数量之和作为被除数(0+1+1+2+1+2+2+3=10),将数据集合中数据的数量作为除数,将求解得到的平均数(商)确定为第一取值分布情况,即:第一取值分布情况为10/20=0.2。示意性的,第二类标签为不存在第一取值的标签,确定上述八种标签取值中第二类标签为“000”,第二类标签的数量为1,将第二类标签的数量作为被除数,将数据集合中数据的数量作为除数,将求解得到的平均数(商)确定为第二取值分布情况,即:第二取值分布情况为1/20=0.05。
步骤330,基于第一取值分布情况和第二取值分布情况,确定调整参数。
在一个可选的实施例中,调整参数中包括与第一取值分布情况对应的第一参数,以及与第二取值分布情况对应的第二参数。基于第一类标签、第一取值分布情况以及数据标签的数量,确定第一类标签对应的第一参数;基于第二类标签、第二取值分布情况以及数据标签的数量,确定第二类标签对应的第二参数。
可选地,第一参数和第二参数的包括如下至少一种确定方法。
1、通过公式计算得到。
可选地,调整参数的计算公式如下所示。
其中,r用于指示调整参数;l用于指示标签分布情况;c用于指示数据标签的数量。
示意性的,第一参数和第二参数可以通过上述公式计算得到。当计算第一参数时,第一参数采用r1表示;第一参数对应的标签分布情况为第一取值分布情况l1;数据标签的数量为c,则第一参数基于第一取值分布情况对应的数值l1和数据标签的数量c即可确定。当计算第二参数时,第二参数采用r2表示;第一参数对应的标签分布情况为第一取值分布情况对应的数值l2;数据标签的数量为c,则第一参数基于第一取值分布情况对应的数值l2和数据标签的数量c即可确定。
2、根据计算得到的第一参数,调节得到第二参数。
可选地,使用上述调整参数公式计算得到第一参数后,基于第一取值分布情况和第二取值分布情况,根据第一参数确定第二参数。示意性的,第一取值分布情况为2.9,第二取值分布情况为0.3,数据标签的数量为80,使用上述调整参数公式计算得到的第一参数r1约为0.038(2.9/80-2.9);比较第一取值分布情况对应的数值和第二取值分布情况对应的数值,因为2.9大于0.3,代表数据中第一取值分布情况对应的第一类标签的数量大于第二取值分布情况对应的第二类标签的数量,因此第一取值分布情况对分类模型的影响力更大,相应地,使第一取值分布情况对应的第一参数的数值大于第二取值分布情况对应的第二参数的数值,即:调节第二参数的数值小于第一参数的数值。基于第一参数r1的数值为0.038,此时对第二参数的数值进行调节,例如,调节第二参数的数值为0.01或者0.008等。以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤340,通过分类模型对样本数据进行分类预测,得到样本数据对应数据标签的样本预测概率。
样本预测概率是分类模型输出的样本数据与多个数据标签分别对应的预测结果。示意性的,将样本数据X输入分类模型后,分类模型将样本数据X与数据标签分别进行匹配,其中,数据标签有四个,分别对应的标签取值分别为“00”、“01”、“10”和“11”,已知样本数据X与上述四个数据标签进行匹配后得到的样本匹配概率分别为0.1、0.2、0.2、0.5。当第一取值为1时,基于第一类标签与第二类标签之间的划分标准(第一类标签对应的标签取值中存在至少一个第一取值;第二类标签对应的标签取值中不存在第一取值),确定第一类标签为“01”、“10”和“11”;第二类标签为“00”。可选地,将第一类标签对应的样本预测概率参与损失值计算。
步骤350,以调整参数对样本预测概率的损失确定过程进行均衡性调整,得到损失值。
在一个可选的实施例中,以第一参数对样本预测概率的第一损失确定过程进行均衡性调整,确定第一损失;以第二参数对样本预测概率的第二损失确定过程进行均衡性调整,确定第二损失;将第一损失和第二损失之和作为损失值。
可选地,为了调节不同类标签(第一类标签和第二类标签)对样本预测概率的影响,对样本预测概率采用对应的不同参数(第一参数和第二参数)分别进行均衡性调整。示意性的,以第一类标签对应的样本预测概率参与损失值计算过程为例进行说明,在确定第一参数后,第一参数对样本预测概率的第一损失确定过程进行调整的过程采用第一损失公式进行确定。
其中,L+用于指示第一损失确定过程中第一类标签的第一损失;p为样本预测概率;r+为第一类标签对应的第一参数。
示意性的,在确定第二参数后,第二参数对样本预测概率的第二损失确定过程进行调整的过程采用第二损失公式进行确定。
其中,L-用于指示第二损失确定过程中第二类标签的第二损失;p为样本预测概率;r-为第二类标签对应的第二参数。
可选地,在得到第一损失确定过程中第一类标签的第一损失L+以及第二损失确定过程中第二类标签的第二损失L-后,将第一类标签的第一损失L+与第二类标签的第二损失L-相加,即:
L=L++L-
其中,L用于指示损失值,为样本预测概率p对应的损失值。
在一个可选的实施例中,将上述损失值确定过程应用于二进制情况下,其中,第一类标签为“1”;第二类标签为“0”,上述第一损失公式和第二损失公式为下列公式的变形。
其中,L+′用于指示二进制下的第一损失;y为第一类标签;p为样本预测概率;r+为第一类标签对应的第一参数。
L-′用于指示二进制下的第二损失;1-y为第二类标签(由于是二进制下,第一类标签y为1,故采用1-y代表第二类标签);r-为第二类标签对应的第二参数。
步骤360,通过损失值对分类模型进行训练,得到数据分类模型。
基于上述计算公式,确定分类模型的损失值后,基于损失值,对分类模型进行训练。
在一个可选的实施例中,基于损失值,对分类模型的模型参数进行调整,得到候选分类模型;响应于基于损失值对候选分类模型的训练达到训练目标,获取所述数据分类模型。示意性的,以降低损失值为目标对分类模型的模型参数进行调整,如:采用梯度下降法降低损失值;或者,采用反向传播算法降低损失值等。
可选地,采用随机梯度下降法(SGD,Stochastic Gradient Descent)对上述分类模型进行训练,每次随机选择一个样本数据求梯度,训练速度较快、计算效率更高。示意性的,设置分类模型的初始学习率为0.001,并采用0.9的动量以及0.0001的缩减速率逐步降低学习。可选地,将数据集合中每一个数据均作为样本数据,参与上述对分类模型的训练过程,每一个数据集合中包括多个数据(例如:一个数据集合中包括16张图像数据),将数据集合中的数据多次经过分类模型。例如:训练400个时期(epoch),其中,一个epoch用于指示将数据集合中所有数据作为样本数据完整地经过一次分类模型。
在一个可选的实施例中,将目标数据输入数据分类模型中,确定目标数据对应的分类结果。
其中,分类结果用于指示目标数据所属的标签类别。
目标数据为待分类的数据。示意性的,在得到数据分类模型后,对该数据分类模型进行应用,将目标数据通过数据分类模型,由数据分类模型对目标数据进行分类,确定目标数据与数据分类模型对应的每个数据的匹配情况,确定标签种类。
综上所述,根据数据集合中数据分别对应的数据标签,确定数据集合中数据标签的标签取值分布情况,通过标签取值情况确定调整参数,在分类模型对样本数据进行分类预测后得到样本预测概率。通过调整参数对样本预测概率进行均衡性调整后得到损失值,以损失值对分类模型进行训练得到数据分类模型。通过上述方法,可以避免因为数据集合中数据特征属性不均衡而导致分类结果不准确的问题,提高分类的准确性。
在本申请实施例中,对根据标签取值确定调整参数的过程进行阐述,数据标签根据标签取值的差异包括第一类标签和第二类标签(例如:根据标签取值中第一取值的个数差异),基于数据标签对应的标签取值以及数据集合中数据的数量,确定第一类标签的第一取值分布情况和第二类标签的第二取值分布情况,基于第一取值分布情况和第二取值分布情况,确定用于调整样本预测概率对分类模型影响程度的调整参数。以调整参数对分类模型预测过程中得到的样本预测概率进行调整,可以有效避免因为数据集合中第一类标签和第二类标签数量不均衡而导致分类效果不准确的问题。
在一个可选的实施例中,通过分类模型对样本数据进行分类预测是通过样本数据对应的特征向量进行确定的。示意性的,如图4所示,上述图2所示出的实施例中的步骤230还可以实现为如下步骤410至步骤430。
步骤410,通过分类模型对样本数据进行卷积操作,得到样本数据对应的至少两个特征向量。
示意性的,样本数据为一幅样本图像,分类模型采用分类卷积神经网络,例如:残差网络(ResNet,Residual Network)、拆分注意力网络(ResNest,Split-AttentionNetworks)、二维物体识别网络(VGG,Visual Geometry Group Network)等。
在一个可选的实施例中,根据至少两种信息特征的差异,对信息特征进行划分;通过分类模型中的卷积模块对至少两个信息特征分别进行卷积操作,得到样本数据对应的特征向量。
可选地,将样本图像输入分类模型中,分类模型基于样本图像中信息特征之间的差异,自发关注不同的信息,并对信息特征进行划分。基于划分结果,分类模型通过卷积模块对至少两个信息特征分别进行至少一次卷积操作。示意性的,卷积模块为分类卷积神经网络中的卷积层,输入的样本图像为RGB格式(Red;Green;Blue),由卷积层中的卷积核与输入的样本图像进行卷积操作,得到样本数据对应的特征向量。其中,卷积核在分类卷积神经网络中代表权重的含义,将卷积核与输入的样本图像进行卷积操作,即代表:将卷积核所对应的权重与样本图像中对应位置的像素进行点乘,基于点乘结果,得到样本数据对应的特征向量。
步骤420,通过分类模型对至少两个特征向量进行权重分析,确定至少两个特征向量对应的权重结果。
示意性的,在根据分类模型得到样本图像对应的至少两个特征向量后,为了提高分类模型的学习能力,对特征向量进行权重分析,确定至少两个特征向量各自对应的权重结果,基于权重结果,可以确定不同的特征向量对分类模型的影响。
步骤430,基于权重结果,对样本数据进行分类预测,确定样本数据对应数据标签的样本预测概率。
在一个可选的实施例中,基于权重结果,对至少两个特征向量进行融合,确定样本数据对应的样本向量;将样本向量与数据标签集合进行匹配,确定样本数据对应数据标签的样本预测概率。
可选地,在确定样本图像对应的多个特征向量以及每个特征向量对应的权重结果后,基于至少两个特征向量以及每个特征向量对应的权重结果,对至少两个特征向量进行融合,确定至少两个特征向量的表征结果。
示意性的,从样本图像中提取得到4个特征向量,并确定了4个特征向量分别对应的权重结果,将4个特征向量与对应的权重结果进行加权操作(加权平均操作或者加权求和操作),完成对4个特征向量非线性的结合操作。
可选地,对至少两个特征向量对应的表征结果进行拼接,确定样本数据对应的样本向量。示意性的,对采用向量拼接的方式,对至少两个特征向量对应的表征结果进行拼接,由此确定至少两个特征向量对应的样本数据的样本向量。
其中,数据标签集合为数据标签的集合,即:数据标签集合中包括至少一个数据标签。
可选地,每一个数据集合对应有一个数据标签集合,数据标签集合中包括至少一个数据标签,用于指示该数据集合中部分数据或全部数据的相同特征。示意性的,A数据集合中包括数据A1、数据A2、数据A3、数据A4和数据A5,A数据集合对应a数据标签集合,在a数据标签集中存在数据标签a1和a2,其中数据A1、数据A2和数据A3对应标注有数据标签a1,即:数据A1、数据A2和数据A3具有相同特征,可以通过数据标签a1体现;同理,数据A4和数据A5对应标注有数据标签a2,即:数据A4和数据A5具有相同特征,可以通过数据标签a2体现。可选地,数据集合中的数据有其对应的数据标签,不同的数据可能对应相同的数据标签,当数据集合中的某个或者某几个数据与其他数据不存在相同特征时,可以采用其他标签的标识方式对该数据进行划分。
综上所述,根据数据集合中数据分别对应的数据标签,确定数据集合中数据标签的标签取值分布情况,通过标签取值情况确定调整参数,在分类模型对样本数据进行分类预测后得到样本预测概率。通过调整参数对样本预测概率进行均衡性调整后得到损失值,以损失值对分类模型进行训练得到数据分类模型。通过上述方法,可以避免因为数据集合中数据特征属性不均衡而导致分类结果不准确的问题,提高分类的准确性。
在本申请实施例中,对样本数据进行分类的过程进行阐述。分类模型通过卷积模块对获取得到的样本数据进行卷积操作,得到样本数据对应的至少两个特征向量,之后对至少两个特征向量进行权重分析,确定至少两个特征向量对应的权重结果,基于权重结果,对样本数据进行分类预测,确定样本数据对应数据标签的样本预测概率。通过上述方法,对样本数据从全局到部分进行了更全面的分析,有助于对分类模型的训练过程。
在一个可选的实施例中,通过上述数据分类模型,可以对数据进行多标签分类,即每一个目标数据可以对应预测一个或者多个分类标签,从而实现对数据进行多标签分类的过程。示意性的,如图5所示,将上述分类模型的训练方法应用于眼底荧光造影图像数据的分类中,采用上述分类模型的训练方法对数据分类模型训练的过程包括:(1)数据处理部分510;(2)网络模型部分520;(3)损失函数部分530。
(1)数据处理部分510
荧光素眼底血管造影术(FFA,Fluorescein Fundus Angiography)是当前眼科诊断眼底疾病常用的检查方法之一,可以利用静脉注射的荧光素在眼内血液流动所发出的荧光记录眼底动态变化的情况。
示意性的,针对眼底图像数量少,曝光差异大的特点,对眼底图像针对性的进行了数据增强操作以及数据归一化操作。示意性的,将眼底图像作为样本图像,对样本图像进行随机的旋转、缩放和镜像操作,用于扩充样本图像的广度。之后,将样本图像对应的每个像素减去图像的均值,除以样本图像的标准差,实现归一化操作,以降低不同操作仪器对样本图像进行分析时引起的图像属性变化。
(2)网络模型部分520
如图6所示,分类模型为CNN网络,可选地,以CNN网络为ResNest模型为例,对样本数据进行分类的过程进行说明。
示意性的,样本数据为样本图像。首先,将样本图像610以(h,w,c)的格式输入ResNest模型中,其中,h代表样本图像610的高;w代表样本图像610的宽;c代表样本图像610的通道数(一般指RGB三通道)。
之后,将样本图像610分别输入到不同的基数模块620中(Cardinal1至Cardinalk)。可选地,不同的基数模块具有相同的参数,用于对样本图像610进行多角度的全面分析。不同的基数模块620包括m个小组630(split1至splitm),不同的小组630关注样本图像610中不同的信息。例如:样本图像为一幅病理图像,小组1关注该病理图像中与A病灶相关的信息,小组2关注该病理图像中与B病灶相关的信息。示意性的,不同的小组630关注病灶信息的方式既可以是预先设定的,也可以是由不同的小组630自发进行的(自发的过程:不同的小组进行不同的初始化,随着不同小组对不同样本图像进行的分析,分类模型的性能相应提高,小组可以自发关注到更多的不同信息),其中,不同小组630之间关注的信息可以存在重复关系,例如:小组i和小组j关注相同的信息,或者,小组i和小组j之间关注的信息存在重叠。此外,不同的小组630具有各自的变换方式,例如:在小组1中,有独立的卷积模块640(例如:1×1卷积模块以及3×3卷积模块)。可选地,当样本图像610经过1×1卷积模块得到特征向量后,将特征向量再经过3×3卷积模块进行进一步卷积,从而增加小组1的非线性拟合能力。
以基数模块1为例,在基数模块1中,样本图像610经过m个小组630(split1至splitm)中各自的卷积模块640进行卷积操作后,得到多个特征向量,多个特征向量通过小组注意力模块650(Split Attention)后,得到基数模块1对应的表征(representation)。示意性的,小组1关注上述病理图像中与A病灶相关的信息,小组2关注该病理图像中与B病灶相关的信息,小组m关注该病理图像中与M病灶相关的信息,上述小组1至小组m关注的病灶信息构成样本图像的信息,将m个小组630关注的病灶信息对应的特征向量经过小组注意力模块650,充分融合不同信息,得到基数模块1对应的表征。与基数模块1相似,基数模块2至基数模块k通过上述小组630、卷积模块640以及小组注意力模块650,得到基数模块2至基数模块k各自对应的表征。
其中,在将样本图像610输入各个基数模块中,样本图像的通道数发生变化,即:在将样本图像610通过基数模块后的格式为(h,w,c’/k),c’是预先设定的,通常大于c,1×1卷积模块中的c’/k/r的操作中,r代表收缩因子,用于将特征信息将降维再升维,以维持样本图像中最有价值的信息。
最后,对基数模块1至基数模块k各自输出的表征经过拼接模块660进行拼接后,结合样本图像的全局信息经过1×1卷积模块670,得到样本图像对应的样本向量。样本向量是不同基数模块对同一样本图像进行分析得到的,不同基数模块之间通过1×1卷积模块670,实现了跨通道交互和信息整合。
在一个可选的实施例中,每一个卷积模块对应得到至少一个特征向量,将上述每一个卷积模块作为一个通道,例如:上述ResNest模型中共有k个基数模块,每个基数模块中有m个小组,每个小组中有1×1卷积模块和3×3卷积模块(即:两个卷积模块),则ResNest模型中存在2×k×m个通道。可选地,使用通道注意力机制,确定每个通道对应的权重,并对重要的通道赋予更高的权值进行强调。
在一个可选的实施例中,将上述ResNest模型在对样本图像进行分析过程中运用多次,当对样本图像进行向量提取后得到特征向量后,为了避免特征向量分类不均衡的问题,对至少两个特征向量进行特征选择操作。示意性的,对至少两个特征向量下采样操作。例如,样本图像的尺寸为1,将样本图像经过上述ResNest模型后,经过一个下采样模块,使得样本图像的尺寸变为1/4,将1/4尺寸的样本图像再次经过上述ResNest模型后,经过一个下采样模块,使得样本图像的尺寸变为原样本图像的1/8,重复上述过程。当将尺寸为1的样本图像经过上述重复下采样过程至1/32尺寸时,即为:将样本图像在[1/4,1/8,1/16,1/32]四个层级上多次进行运算的过程。
以上仅为示意性的举例,本申请实施例对此不加以限定。
经过ResNest模型后,输出得到样本图像对应的分类结果(分类1至分类n)。
(3)损失函数部分530
示意性的,为了针对复杂的多标签任务,将网络的输出尺度与数据的病灶种类匹配,输出的每一项对应一类病灶。眼底荧光造影图像数据的七种主流病灶类型包括:渗漏、透见、积存、着染、遮蔽、无灌注与血管异常,一张样本图像包括以上其中主流病灶类型中的一种或者几种。
若一张眼底荧光造影图像中对应有多个病灶,例如:输出向量为[0,1,0,1,1,1,0],对应的病灶顺序为渗漏,透见,积存,着染,遮蔽,无灌注与血管异常,那么这张图像有四种病灶,分别为:透见,着染,遮蔽和无灌注。然而,多标签分类容易遇到严重的类别失衡问题,例如,大多数使用荧光造影术得到的眼底图像都有渗漏,透见,积存和着染问题,而约一半左右的有遮蔽,关注和血管异常问题。这说明前四种病灶有严重的正负样本不均衡问题,会让网络更倾向于判定有该病灶。因此,为了解决正负样本不均衡问题,采用非对称损失函数(ASL,Asymmetric Loss)优化分类模型,得到数据分类模型。
可选地,样本图像对应标注有数据标签,数据标签包括正标签或负标签,例如:正标签用于指示样本图像有病灶,负标签用于指示样本图像无病灶;或者,正标签用于指示样本图像无病灶,负标签用于指示样本图像有病灶。示意性的,当样本图像有病灶时,样本图像为正样本,当样本图像无病灶时,样本图像为负样本,即:正样本和负样本用于指示具有相反属性的两种样本,正样本为有病灶的样本图像,负样本为无病灶的样本图像。
可选地,当正标签用于指示样本图像有病灶时,病灶的类型可以通过数据标签对应的标签取值进行表示。示意性的,病灶顺序已在制作数据集时预先设定,病灶顺序为:渗漏,透见,积存,着染,遮蔽,无灌注与血管异常,一张样本图像对应的数据标签为“0100100”,数据标签中每一个数字对应的取值构成数据标签对应的标签取值,根据该数据标签“0100100”以及预先设定的病灶顺序,可以确定该样本图像为正样本(标签取值中存在“1”),该样本图像的病灶包括透见和遮蔽。
通常,采用基于二分类交叉熵损失函数(BCE,Binary Cross Entropy)的方案会遇到严重的正负样本不平衡问题。ASL损失函数可以有效解决正负样本不平衡问题,对分类模型进行优化。示意性的,ASL损失函数的表达式如下所示。
LASL=L++L-
其中,LASL用于指示ASL损失函数对应的损失值;L+用于指示正样本损失;L-用于指示负样本损失,即:ASL损失函数由正样本损失和负样本损失两部分组成。正样本损失用于指示正样本经过分类模型后的损失值,负样本损失用于指示负样本经过分类模型后的损失值。基于正样本损失和负样本损失之和,即可确定损失函数对应的损失值。
示意性的,正样本损失L+和负样本损失L-基于样本图像对应的数据标签确定,示意性的,正样本损失L+和负样本损失L-通过如下公式计算得到。
其中,L+为正样本损失;p为样本预测概率;r+为正样本对应的调整参数;L-为负样本损失;r-为负样本对应的调整参数。可选地,在确定损失值的过程中,存在将样本图像对应标注的标签(标签1至标签n)与分类结果(分类1至分类n)进行匹配的过程,当样本图像对应的标签以二进制形式(0和1)表示时,即:标签1至标签n以0或1指示时,上述损失值公式中标签1至标签n的表示已被省略。
样本预测概率是分类模型对样本图像进行预测得到的概率。可选地,当样本图像为正样本时,分类模型仍然可能判断正样本对应数据标签中存在负标签,例如:正样本为有病灶的样本图像,负标签用于指示该样本图像无病灶,将该正样本输入分类模型中,分类模型输出正标签对应的概率以及负标签对应的概率,其中,正标签对应的概率中为该正样本中包括每一种病灶的概率之和(样本图像中包括渗漏、透见、积存、着染、遮蔽、无灌注或血管异常病灶的概率之和)。
可选地,调整参数r(r+和r-)与正样本对应的病灶数量相关,样本预测概率为正标签对应的预测概率。例如:将样本图像输入分类模型后,样本图像具有渗漏、透见、积存、着染、遮蔽、无灌注或血管异常病灶的概率分别为,则正标签对应的预测概率为0.96(0.2+0.03+0.4+0.01+0.05+0.03+0.04+0.2=0.96)。其中,负标签为分类模型判断的该样本图像不具有病灶的概率,为0.04,对分类模型的训练过程,即:尽可能使得分类模型对正标签、负标签以及正标签中每个病灶的判断过程变得更准确的过程。
通过调节r+和r-的值,可以有效的调节正样本与负样本对网络的影响力。对于自然图像(非病灶图像),一张图像中正标签极少,大部分为负标签,则调节r+<r-。当将上述分类模型的训练方法应用于医学领域中(例如:荧光造影数据往往来自于给患者诊断),每张样本图像中大多有至少一种病灶,病灶的正样本要显著多于负样本,则调节r+>r-。通过使用上述ASL损失函数优化分类模型,使得分类模型能更平衡地学习正负样本的知识,减少数量失衡带来的影响。
综上所述,根据数据集合中数据标签的标签取值分布情况,确定调整参数,通过调整参数对样本预测概率的损失确定过程进行均衡性调整后得到损失值,以损失值对分类模型进行训练,实现对分类模型的训练过程,得到数据分类模型。在应用时,将待分类的目标数据输入上述数据分类模型中,得到分类结果。通过上述方法,可以避免因为数据集合中数据特征属性不均衡而导致分类结果不准确的问题,提高分类的准确性。
在本申请实施例中,将上述分类模型的训练方法应用于医学领域的病灶识别场景下,可以有效处理荧光造影数据的类别不平衡问题,自动分类眼底的多种病灶,病灶类型的有效识别可以供给医生进行后续的诊断工作,为眼部疾病诊断打下良好的基础,辅助提高医生的诊断正确率。
图7是本申请一个示例性实施例提供的分类模型的训练装置的结构框图,如图7所示,该装置包括如下部分:
获取模块710,用于获取样本数据,所述样本数据为数据集合中的数据,所述数据集合中的数据对应标注有数据标签,所述数据标签用于以标签取值指示数据的参考分类;
确定模块720,用于基于所述数据标签在所述数据集合中的标签取值分布情况,确定调整参数,所述调整参数为损失计算过程中应用的辅助参数;
预测模块730,用于通过分类模型对所述样本数据进行分类预测,得到所述样本数据对应所述数据标签的样本预测概率;
调整模块740,用于以所述调整参数对所述样本预测概率的损失确定过程进行均衡性调整,得到损失值;
训练模块750,用于通过所述损失值对所述分类模型进行训练,得到数据分类模型,所述数据分类模型用于对目标数据在所述数据标签范围内进行分类。
如图8所示,在一个可选的实施例中,所述数据标签基于所述标签取值包括第一类标签和第二类标签;
所述确定模块720还用于基于所述数据标签对应的标签取值和所述数据集合中数据的数量,确定所述第一类标签的第一取值分布情况和所述第二类标签的第二取值分布情况;基于所述第一取值分布情况和所述第二取值分布情况,确定所述调整参数。
在一个可选的实施例中,所述数据标签的标签取值包括第一取值或第二取值;
所述确定模块720还用于对所述数据标签对应的标签取值进行分析,确定每个数据标签对应的标签取值中所述第一取值的数量;确定所述第一取值的数量对应所述数据集合中数据数量的平均值,作为所述第一取值分布情况;确定所述第二类标签的数量;确定所述第二类标签的数量对应所述数据集合中数据数量的平均值,作为所述第二取值分布情况。
在一个可选的实施例中,所述调整参数中包括与所述第一取值分布情况对应的第一参数,以及与所述第二取值分布情况对应的第二参数;
所述确定模块720还用于基于所述第一类标签、所述第一取值分布情况以及所述数据标签的数量,确定所述第一类标签对应的所述第一参数;基于所述第二类标签、所述第二取值分布情况以及所述数据标签的数量,确定所述第二类标签对应的所述第二参数。
在一个可选的实施例中,所述调整模块740还用于以所述第一参数对所述样本预测概率的第一损失确定过程进行均衡性调整,确定第一损失;以所述第二参数对所述样本预测概率的第二损失确定过程进行均衡性调整,确定第二损失;将所述第一损失和所述第二损失之和作为所述损失值。
在一个可选的实施例中,所述预测模块730包括:
卷积单元731,用于通过所述分类模型对所述样本数据进行卷积操作,得到所述样本数据对应的至少两个特征向量;
分析单元732,用于通过所述分类模型对所述至少两个特征向量进行权重分析,确定所述至少两个特征向量对应的权重结果;
预测单元733,用于基于所述权重结果,对所述样本数据进行分类预测,确定所述样本数据对应所述数据标签的样本预测概率。
在一个可选的实施例中,所述预测单元733还用于基于所述权重结果,对所述至少两个特征向量进行融合,确定所述样本数据对应的样本向量;将所述样本向量与数据标签集合进行匹配,确定所述样本数据对应所述数据标签的所述样本预测概率,所述数据标签集合为所述数据标签的集合。
在一个可选的实施例中,所述预测单元还用于基于所述权重结果,对所述至少两个特征向量进行融合,确定所述至少两个特征向量的表征结果;对所述表征结果进行拼接,确定所述样本数据对应的样本向量。
在一个可选的实施例中,所述样本数据中包括至少两种信息特征;
所述卷积单元731还用于根据所述至少两种信息特征的差异,对所述信息特征进行划分;通过所述分类模型中的卷积模块对所述至少两个信息特征分别进行卷积操作,得到所述样本数据对应的特征向量。
在一个可选的实施例中,所述装置还用于响应于所述数据标签对应的标签取值中存在至少一个所述第一取值,将所述数据标签确定为第一类标签;响应于所述数据标签对应的标签取值中皆为所述第二取值,将所述数据标签确定为第二类标签。
在一个可选的实施例中,所述训练模块750还用于基于所述损失值,对所述分类模型的模型参数进行调整,得到候选分类模型;响应于基于所述损失值对所述候选分类模型的训练达到训练目标,获取所述数据分类模型。
在一个可选的实施例中,所述训练模块750还用于响应于所述损失值达到收敛状态,将最近一次迭代训练得到的所述候选分类模型作为所述数据分类模型;或者,响应于所述损失值的获取次数达到次数阈值,将最近一次迭代训练得到的候选分类模型作为所述数据分类模型。
在一个可选的实施例中,所述装置还用于对初始数据进行广度提升操作,得到候选数据;对所述候选数据进行归一化操作后,得到所述数据集合。
在一个可选的实施例中,所述装置还用于将所述目标数据输入所述数据分类模型中,确定所述目标数据对应的分类结果,所述分类结果用于指示所述目标数据所属的标签类别。
需要说明的是:上述实施例提供的分类模型的训练装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分类模型的训练装置与分类模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器900包括中央处理单元(Central Processing Unit,CPU)901、包括随机存取存储器(RandomAccess Memory,RAM)902和只读存储器(Read Only Memory,ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。服务器900还包括用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备906。
大容量存储设备906通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备906及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,大容量存储设备906可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备906可以统称为存储器。
根据本申请的各种实施例,服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的分类模型的训练方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的分类模型的训练方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的分类模型的训练方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种分类模型的训练方法,其特征在于,所述方法包括:
获取样本数据,所述样本数据为数据集合中的数据,所述数据集合中的数据对应标注有数据标签,所述数据标签用于以标签取值指示数据的参考分类;
基于所述数据标签在所述数据集合中的标签取值分布情况,确定调整参数,所述调整参数为损失计算过程中应用的辅助参数;
通过分类模型对所述样本数据进行分类预测,得到所述样本数据对应所述数据标签的样本预测概率;
以所述调整参数对所述样本预测概率的损失确定过程进行均衡性调整,得到损失值;
通过所述损失值对所述分类模型进行训练,得到数据分类模型,所述数据分类模型用于对目标数据在所述数据标签范围内进行分类。
2.根据权利要求1所述的方法,其特征在于,所述数据标签基于所述标签取值包括第一类标签和第二类标签;
所述基于所述数据标签在所述数据集合中的标签取值分布情况,确定调整参数,包括:
基于所述数据标签对应的标签取值和所述数据集合中数据的数量,确定所述第一类标签的第一取值分布情况和所述第二类标签的第二取值分布情况;
基于所述第一取值分布情况和所述第二取值分布情况,确定所述调整参数。
3.根据权利要求2所述的方法,其特征在于,所述数据标签的标签取值包括第一取值或第二取值;
所述基于所述数据标签对应的标签取值和所述数据集合中数据的数量,确定所述第一类标签的第一取值分布情况和所述第二类标签的第二取值分布情况,包括:
对所述数据标签对应的标签取值进行分析,确定每个数据标签对应的标签取值中所述第一取值的数量;确定所述第一取值的数量对应所述数据集合中数据数量的平均值,作为所述第一取值分布情况;
确定所述第二类标签的数量;确定所述第二类标签的数量对应所述数据集合中数据数量的平均值,作为所述第二取值分布情况。
4.根据权利要求3所述的方法,其特征在于,所述调整参数中包括与所述第一取值分布情况对应的第一参数,以及与所述第二取值分布情况对应的第二参数;
所述基于所述第一取值分布情况和所述第二取值分布情况,确定所述调整参数,包括:
基于所述第一类标签、所述第一取值分布情况以及所述数据标签的数量,确定所述第一类标签对应的所述第一参数;
基于所述第二类标签、所述第二取值分布情况以及所述数据标签的数量,确定所述第二类标签对应的所述第二参数。
5.根据权利要求4所述的方法,其特征在于,所述以所述调整参数对所述样本预测概率的损失确定过程进行均衡性调整,得到损失值,包括:
以所述第一参数对所述样本预测概率的第一损失确定过程进行均衡性调整,确定第一损失;
以所述第二参数对所述样本预测概率的第二损失确定过程进行均衡性调整,确定第二损失;
将所述第一损失和所述第二损失之和作为所述损失值。
6.根据权利要求1至5任一所述的方法,其特征在于,所述通过分类模型对所述样本数据进行分类预测,得到所述样本数据对应所述数据标签的样本预测概率,包括:
通过所述分类模型对所述样本数据进行卷积操作,得到所述样本数据对应的至少两个特征向量;
通过所述分类模型对所述至少两个特征向量进行权重分析,确定所述至少两个特征向量对应的权重结果;
基于所述权重结果,对所述样本数据进行分类预测,确定所述样本数据对应所述数据标签的样本预测概率。
7.根据权利要求6所述的方法,其特征在于,所述基于所述权重结果,对所述样本数据进行分类预测,确定所述样本数据对应所述数据标签的样本预测概率,包括:
基于所述权重结果,对所述至少两个特征向量进行融合,确定所述样本数据对应的样本向量;
将所述样本向量与数据标签集合进行匹配,确定所述样本数据对应所述数据标签的所述样本预测概率,所述数据标签集合为所述数据标签的集合。
8.根据权利要求7所述的方法,其特征在于,所述基于所述权重结果,对所述至少两个特征向量进行融合,确定所述样本数据对应的样本向量,包括:
基于所述权重结果,对所述至少两个特征向量进行融合,确定所述至少两个特征向量的表征结果;
对所述表征结果进行拼接,确定所述样本数据对应的样本向量。
9.根据权利要求6所述的方法,其特征在于,所述样本数据中包括至少两种信息特征;
所述通过所述分类模型对所述样本数据进行卷积操作,得到所述样本数据对应的至少两个特征向量,包括:
根据所述至少两种信息特征的差异,对所述信息特征进行划分;
通过所述分类模型中的卷积模块对所述至少两个信息特征分别进行卷积操作,得到所述样本数据对应的特征向量。
10.根据权利要求3至5任一所述的方法,其特征在于,所述方法还包括:
响应于所述数据标签对应的标签取值中存在至少一个所述第一取值,将所述数据标签确定为第一类标签;
响应于所述数据标签对应的标签取值中皆为所述第二取值,将所述数据标签确定为第二类标签。
11.根据权利要求1至5任一所述的方法,其特征在于,所述通过所述损失值对所述分类模型进行训练,得到数据分类模型,包括:
基于所述损失值,对所述分类模型的模型参数进行调整,得到候选分类模型;
响应于基于所述损失值对所述候选分类模型的训练达到训练目标,获取所述数据分类模型。
12.根据权利要求11所述的方法,其特征在于,所述响应于基于所述损失值对所述候选分类模型的训练达到训练目标,获取所述数据分类模型,包括:
响应于所述损失值达到收敛状态,将最近一次迭代训练得到的所述候选分类模型作为所述数据分类模型;
或者,
响应于所述损失值的获取次数达到次数阈值,将最近一次迭代训练得到的候选分类模型作为所述数据分类模型。
13.根据权利要求1至5任一所述的方法,其特征在于,所述获取样本数据之前,还包括:
对初始数据进行广度提升操作,得到候选数据;
对所述候选数据进行归一化操作后,得到所述数据集合。
14.根据权利要求1至5任一所述的方法,其特征在于,所述通过所述损失值对所述分类模型进行训练,得到数据分类模型之后,还包括:
将所述目标数据输入所述数据分类模型中,确定所述目标数据对应的分类结果,所述分类结果用于指示所述目标数据所属的标签类别。
15.一种分类模型的训练的装置,其特征在于,所述装置包括:
获取模块,用于获取样本数据,所述样本数据为数据集合中的数据,所述数据集合中的数据对应标注有数据标签,所述数据标签用于以标签取值指示数据的参考分类;
确定模块,用于基于所述数据标签在所述数据集合中的标签取值分布情况,确定调整参数,所述调整参数为损失计算过程中应用的辅助参数;
预测模块,用于通过分类模型对所述样本数据进行分类预测,得到所述样本数据对应所述数据标签的样本预测概率;
调整模块,用于以所述调整参数对所述样本预测概率的损失确定过程进行均衡性调整,得到损失值;
训练模块,用于通过所述损失值对所述分类模型进行训练,得到数据分类模型,所述数据分类模型用于对目标数据在所述数据标签范围内进行分类。
16.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至14任一所述的分类模型的训练方法。
17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至14任一所述的分类模型的训练方法。
18.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至14任一所述的分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441458.7A CN114330499A (zh) | 2021-11-30 | 2021-11-30 | 分类模型的训练方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111441458.7A CN114330499A (zh) | 2021-11-30 | 2021-11-30 | 分类模型的训练方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330499A true CN114330499A (zh) | 2022-04-12 |
Family
ID=81048241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111441458.7A Pending CN114330499A (zh) | 2021-11-30 | 2021-11-30 | 分类模型的训练方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330499A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625340A (zh) * | 2022-05-11 | 2022-06-14 | 深圳市商用管理软件有限公司 | 基于需求分析的商用软件研发方法、装置、设备及介质 |
CN114792173A (zh) * | 2022-06-20 | 2022-07-26 | 支付宝(杭州)信息技术有限公司 | 预测模型训练方法和装置 |
CN115130539A (zh) * | 2022-04-21 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 分类模型训练、数据分类方法、装置和计算机设备 |
CN117115596A (zh) * | 2023-10-25 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 对象动作分类模型的训练方法、装置、设备及介质 |
CN118262181A (zh) * | 2024-05-29 | 2024-06-28 | 山东鲁能控制工程有限公司 | 一种基于大数据的自动化数据处理系统 |
-
2021
- 2021-11-30 CN CN202111441458.7A patent/CN114330499A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115130539A (zh) * | 2022-04-21 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 分类模型训练、数据分类方法、装置和计算机设备 |
CN114625340A (zh) * | 2022-05-11 | 2022-06-14 | 深圳市商用管理软件有限公司 | 基于需求分析的商用软件研发方法、装置、设备及介质 |
CN114625340B (zh) * | 2022-05-11 | 2022-08-02 | 深圳市商用管理软件有限公司 | 基于需求分析的商用软件研发方法、装置、设备及介质 |
CN114792173A (zh) * | 2022-06-20 | 2022-07-26 | 支付宝(杭州)信息技术有限公司 | 预测模型训练方法和装置 |
CN117115596A (zh) * | 2023-10-25 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 对象动作分类模型的训练方法、装置、设备及介质 |
CN117115596B (zh) * | 2023-10-25 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 对象动作分类模型的训练方法、装置、设备及介质 |
CN118262181A (zh) * | 2024-05-29 | 2024-06-28 | 山东鲁能控制工程有限公司 | 一种基于大数据的自动化数据处理系统 |
CN118262181B (zh) * | 2024-05-29 | 2024-08-13 | 山东鲁能控制工程有限公司 | 一种基于大数据的自动化数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949786B (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
EP3779774B1 (en) | Training method for image semantic segmentation model and server | |
Wells et al. | Artificial intelligence in dermatopathology: Diagnosis, education, and research | |
CN111191791B (zh) | 基于机器学习模型的图片分类方法、装置及设备 | |
CN114330499A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
CN111581966B (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN111368672A (zh) | 一种用于遗传病面部识别模型的构建方法及装置 | |
CN112330684B (zh) | 对象分割方法、装置、计算机设备及存储介质 | |
CN114445670B (zh) | 图像处理模型的训练方法、装置、设备及存储介质 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN112818995B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN114693624B (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
Gao et al. | A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective | |
KR102329546B1 (ko) | 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법 | |
Chen et al. | Learning to rank retargeted images | |
CN111651626B (zh) | 图像分类方法、装置及可读存储介质 | |
CN113822846A (zh) | 医学图像中确定感兴趣区域的方法、装置、设备及介质 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN116541507A (zh) | 一种基于动态语义图神经网络的视觉问答方法及系统 | |
CN116805522A (zh) | 诊断报告输出方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |