CN109886143A

CN109886143A - 多标签分类模型训练方法和设备

Info

Publication number: CN109886143A
Application number: CN201910084518.0A
Authority: CN
Inventors: 马永培; 熊健皓; 赵昕; 和超; 张大磊
Original assignee: Shanghai Eaglevision Medical Technology Co Ltd
Current assignee: Shanghai Eaglevision Medical Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-06-14

Abstract

本发明提供一种多标签分类模型训练方法，包括：利用多标签分类模型对样本进行分类得到输出向量，所述输出向量用于表示各种具体类别，所述样本具有第一标签和第二标签，所述第一标签用于表示所述样本的各种具体类别，所述第二标签用于表示所述样本的各种合并类别，其中所述合并类别是根据部分所述具体类别确定的；对所述输出向量进行处理得到合并向量，所述合并向量用于表示至少一种合并类别；根据所述输出向量和所述第一标签确定第一损失值，以及根据所述合并向量和所述第二标签确定第二损失值；根据所述第一损失值和所述第二损失值确定第三损失值；向所述多标签分类模型反馈所述第三损失值以使其调整自身参数。

Description

多标签分类模型训练方法和设备

技术领域

本发明涉及人工智能领域，具体涉及一种多标签分类模型训练方法和设备。

背景技术

利用机器学习算法和模型对目标进行识别是一种高效的智能识别方式，也是诸如自动驾驶、智能摄像、机器人等众多领域的底层技术。

多标签，即MultiLabel，指的是一个样本可能同时属于多个类，即有多个标签。比如一件L尺寸的棉服，则该样本就有至少两个标签——型号：L，类型：冬装。利用多标签样本对机器学习模型进行训练可以得到多标签分类模型，这种模型可以对一个目标进行识别，输出的识别结果可以是一个向量，用于表达该目标所属的类别。

在很多现实应用场景中，被识别的目标本身具有多种具体的类别，而这些具体类别中又有一部分同属于一个大类。例如对于眼底图像而言，其本身可以属于糖网轻度、糖网中度、糖网重度、糖网增殖期、静脉阻塞、动脉阻塞、青光眼、豹纹样病变这8种具体类别，而其中糖网轻度、糖网中度、糖网重度、糖网增殖期这4种具体类别都属于糖网疾病这一个大类。利用多标签分类模型对这种眼底图像进行识别时，如果模型输出的结果表示该图像属于糖网轻度，但实际上该图像属于糖网重度，这种错误的分类结果是可以被接收的结果；但若模型输出的结果表示该图像属于青光眼，则这种错误不可被接受。

在现有的多标签分类模型训练方案中，当模型对样本的识别结果与标签不一致时，将根据二者的差别确定一个损失值，然后模型会根据该损失值调整自身的参数以提高性能。但是这种训练方案没有考虑到可接受的错误与不可接受的错误的差别，根据对所有具体类别的识别结果调整参数，会使模型输出类别缩小，由此降低了模型的性能。

发明内容

有鉴于此，本发明提供一种多标签分类模型训练方法，包括：

利用多标签分类模型对样本进行分类得到输出向量，所述输出向量用于表示各种具体类别，所述样本具有第一标签和第二标签，所述第一标签用于表示所述样本的各种具体类别，所述第二标签用于表示所述样本的各种合并类别，其中所述合并类别是根据部分所述具体类别确定的；

对所述输出向量进行处理得到合并向量，所述合并向量用于表示至少一种合并类别；

根据所述输出向量和所述第一标签确定第一损失值，以及根据所述合并向量和所述第二标签确定第二损失值；

根据所述第一损失值和所述第二损失值确定第三损失值；

向所述多标签分类模型反馈所述第三损失值以使其调整自身参数。

可选地，所述输出向量中包括多个数值，每一个数值分别用于表示所述样本属于一种具体类别的置信度。

可选地，对所述输出向量进行处理得到合并向量，包括：

在所述多个数值中提取设定的部分数值合并为一个数值；

利用合并后的数值和未被提取的数值形成所述合并向量。

可选地，所述第一标签为第一目标向量，所述第一目标向量中包括多个数值，每一个数值分别用于表示所述样本属于一种具体类别；

所述第二标签为第二目标向量，所述第二目标向量中包括至少一个利用所述第一目标向量中的部分数值得到的合并数值，其中每一个合并数值分别用于表示所述样本属于一种合并类别。

可选地，根据所述第一损失值和所述第二损失值确定第三损失值，包括：

对所述第二损失值进行非线性变换处理；

将非线性变换后的第二损失值和所述第一损失值相加得到所述第三损失值。

可选地，所述方法用于训练医学图像多分类模型。

可选地，所述方法用于训练眼底图像多分类模型。

可选地，所述具体类别为眼底疾病类别，所述合并类别为至少部分所述眼底疾病类别同属的疾病大类。

可选地，所述具体类别至少包括多种糖尿病视网膜病变，所述合并类别用于表示所述多种糖尿病视网膜病变的合并类别。

相应地，本发明提供一种多标签分类模型训练设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述多标签分类模型训练方法。

根据本发明实施例提供的多标签分类模型训练方法和设备，使用具有两个标签的样本作为训练数据，其中一个标签表示样本所属的具体类别，另一个标签表示样本所属的合并类别，一个合并类别对应于多个具体类别，在计算模型损失时，在计算具体类别损失的基础上融合了对应于合并类别的损失，当模型训练的过程中对合并类别识别出现错误时，通过这种损失值计算方式加入更大的惩罚，本方案对模型出现的可接受错误和不可接受错误区别对待，由此可以提高多分类模型的性能。

将本发明提供的方案应用于训练医学图像多分类模型，特别是对于眼底图像多分类模型，可以提高模型对各种具体疾病类别的召回率和精确性，并可以抑制假阳性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种多标签分类模型训练方法的流程图；

图2为本发明实施例中的眼底图像多标签分类模型训练方法的流程图；

图3为本发明实施例中的多标签分类模型训练装置的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在一个实施例中，提供一种用于识别文字数据的多标签分类模型，用于训练该模型的样本为文字样本。文字样本具有两个标签，第一标签用于表示该文字样本所属的各种具体类别，第二标签用于表示文字样本所属的各种合并类别，合并类别是根据部分具体类别确定的。

在另一个实施例中，提供一种用于识别声音数据的多标签分类模型，用于训练该模型的样本为声音样本。声音样本具有两个标签，第一标签用于表示该声音样本所属的各种具体类别，第二标签用于表示声音样本所属的各种合并类别，合并类别是根据部分具体类别确定的。

在第三个实施例中，提供一种用于识别图像数据的多标签分类模型，用于训练该模型的样本为图像样本。图像样本具有两个标签，第一标签用于表示该图像样本所属的各种具体类别，第二标签用于表示图像样本所属的各种合并类别，合并类别是根据部分具体类别确定的。

样本的具体类别和合并类别需要提前被标注，假设一个样本同时可能属于1……i……n这n种具体类别，而类别1……i属于第一种大类，则第一种大类是根据1……i这i种具体类别确定的。对于本发明提供的方案而言，具体类别必须有多种，而合并类别可以只有一种也可以有多种，不同的合并类别分别根据不同的具体类别而定。

本发明提供一种多标签分类模型训练方法，可以用于训练上述各种多标签分类模型，该方法可以由计算机和服务器等电子设备执行。本方法中的多标签分类模型可以是多种类型和结构的神经网络。如图1所示该方法包括如下步骤：

S1A，利用多标签分类模型对样本进行分类得到输出向量，输出向量用于表示各种具体类别。

作为一个具体举例，医学图像通常可以反应出多种疾病，多标签分类模型可以针对样本医学图像输出一个向量[x1,……，xi，xj，……，xn]，其中x1是用于表示该图像属于第1种疾病的数值……xi是用于表示该眼底图像属于第i种疾病的数值……xj是用于表示该眼底图像属于第j种疾病的数值……xn是用于表示该眼底图像属于第n种疾病的数值,这些数值可以是置信度或者概率值，数值范围在0-1之间。

假设一个样本的第一标签为[y1,……，yi，yj，……，yn]，其中y1是用于表示该图像属于第1种疾病的数值……yi是用于表示该眼底图像属于第i种疾病的数值……yj是用于表示该眼底图像属于第j种疾病的数值……yn是用于表示该眼底图像属于第n种疾病的数值。如果这些数值是置信度或者概率值，那么第一标签中的数值为0或者1,0可以表示该样本不属于该具体类别，1可以表示该样本属于该具体类别。

假设该样本的第二标签为[y1i,yjn]，表示该样本同时属于两个合并类别，其中y1i是用于表示该图像属于第1种大类的数值，第1种大类是第1……i种具体类别的合并类别；yjn是用于表示该图像属于第2种大类的数值，第2种大类是第j……n种具体类别的合并类别。如果这些数值是置信度或者概率值，那么第二标签中的数值为0或者1,0可以表示该样本不属于该合并类别，1可以表示该样本属于该合并类别。

假设该样本的第二标签为[y1i,yj，……，yn]，表示该样本同时属于一个合并类别和多个具体类别，其中y1i是用于表示该图像属于大类的数值，该大类是第1……i种具体类别的合并类别；yj……yn不属于合并类别，则yj是用于表示该眼底图像属于第j种具体类别的数值……yn是用于表示该眼底图像属于第n种具体类别的数值。

标注第二标签时，可以对相应具体类别的数值进行或运算，例如当第1……i种具体类别对应的数值中有任一个数值为1时，则标注第1种大类对应的数值y1i为1，如果均为0则标注第1种大类对应的数值y1i为0。

S2A，对输出向量进行处理得到合并向量，合并向量用于表示至少一种合并类别。与第二标签相应地合并输出向量，例如有多个合并类别时，则根据[x1,……，xi,……，xj，……，xn]可得到合并向量[x1i,xjn]，其中xli是根据x1……xi合并得到的、xjn是根据xj……xn合并得到的；例如只有一个合并类别时，则根据[x1,……，xi,……，xj，……，xn]可得到合并向量[x1i，xj，……，xn]。具体合并处理方式有多种，例如可以将选定的各个数值直接相加，即x1i＝x1+……+xi。也可以采用更复杂的合并处理方式，例如对每个选定的数值赋予一个权值，根据权值计算得到合并的数值等等。

S3A，根据输出向量和第一标签确定第一损失值，以及根据合并向量和第二标签确定第二损失值。

损失值在本领域中有明确的定义，在本领域中通常将样本的标签[y1,y2,……yn]称为目标向量，模型根据样本生成输出向量[x1,x2,……xn]，由于训练阶段中的模型的准确率不为100％，所以输出向量与目标向量不相等，因此需要根据输出向量与目标向量差异得到损失值(loss)，此损失值越小表示模型的识别准确率越高，该数值通常作为模型性能的指标。并且在训练阶段，模型将根据损失值调整自身参数以优化性能，例如模型根据对当前的一个或多个样本的识别结果和相应的标签确定一损失值，随后调整参数，在对下一个样本进行识别时，将根据调整后的参数进行识别。

损失值的算法有多种，本发明可以利用现有的损失值计算方式计算第一损失值和第二损失值，例如采用如下公式；

loss＝-z×log(sigmoid(x))-(1-z)×log(1-sigmoid(x))，这只是为了清楚地说明损失值的含义所作的举例，而并非对计算方式的限定。无论利用任何现有的损失值计算方法，在计算第一损失值时，必须相应地使用输出向量和第一标签进行计算；在计算第二损失值时，必须相应地使用合并向量和第二标签进行计算。

本领域技术人员应当理解，在模型训练阶段计算损失值时通常是对多个样本进行识别后计算一次损失值，上述举例中虽然只以一个样本进行说明，但实际上可以针对多个样本分别执行步骤S1A和S2A，得到多个输出向量和合并向量后，再执行步骤S3A计算对应这多个样本的第一损失值和第二损失值。当然也可以针对每一个样本计算一次第一损失值和第二损失值，具体可根据实际需求进行选择。

实际上现有的模型训练方案也会计算第一损失值，可以将第一损失值的意义理解为评价模型对具体类别的识别性能，而本发明方案计算的第二损失值的意义可以理解为评价模型对合并类别的识别性能。

S4A，根据第一损失值和第二损失值确定第三损失值。具体计算方式有多种，例如可以简单相加、可以赋予权值并相加、先对其中某一损失值进行映射变换后再相加等等。例如按照现有的计算方式得到的第一损失值和第二损失值为正数，并且数值越大表示模型的性能越差，此情况下的第三损失值应当更大。此步骤是为了在模型对合并类别识别错误时，加大对模型的惩罚。

S5A，向多标签分类模型反馈第三损失值以使其调整自身参数。在对下一个或一批样本进行识别时，模型将根据调整后的参数进行识别，可以反复迭代执行本方法，直至模型达到设定的性能指标为止。

根据本发明实施例提供的多标签分类模型训练方法，使用具有两个标签的样本作为训练数据，其中一个标签表示样本所属的具体类别，另一个标签表示样本所属的合并类别，一个合并类别对应于多个具体类别，在计算模型损失时，在计算具体类别损失的基础上融合了对应于合并类别的损失，当模型训练的过程中对合并类别识别出现错误时，通过这种损失值计算方式加入更大的惩罚，本方案对模型出现的可接受错误和不可接受错误区别对待，由此可以提高多分类模型的性能。

在一个具体的实施例中，利用上述实施例提供的多标签分类模型训练方法训练眼底图像多分类模型。训练使用的样本眼底图像具有两个标签，第一标签用于表示该眼底图像所属的各种具体疾病类别，在本发明实施例中具体类别为8种，分别为糖网轻度、糖网中度、糖网重度、糖网增殖期、静脉阻塞、动脉阻塞、青光眼、豹纹样病变；第二标签用于表示该眼底图像所属的各种合并类别，在本发明实施例中有两种合并类别，第一种合并类别对应于糖网轻度、糖网中度、糖网重度这4个具体类别，称之为糖网疾病，第二种合并类别对应于静脉阻塞和动脉阻塞这两个具体类别，称之为血管疾病。

青光眼属于视盘疾病，在本实施例中由于只有这一种视盘疾病，因此未做合并。在其它实施例中，例如还存在与青光眼同属于视盘疾病的其它具体疾病类别，则可以产生第三种合并类别。豹纹样病变属于轻度疾病，与青光眼类别情况类似。

如图2所示，眼底图像多分类模型训练方法包括如下步骤：

S1B，利用多标签分类模型对样本眼底图像进行分类得到输出向量，例如输出向量为[0.1,0.3,0.1,0,0,0,0.1,0.4],其中包含8个概率值，此向量用于表示样本所属的具体类别。

具体地，第1个数值表示该眼底图像属于糖网轻度的概率为10％、第2个数值表示该眼底图像属于糖网中度的概率为30％、第3个数值表示该眼底图像属于糖网重度的概率为10％、第4、5、6个数值表示该眼底图像属于糖网增殖期、静脉阻塞、动脉阻塞这三种类别的概率均为0、第7个数值表示该眼底图像属于青光眼的概率为10％、第8个数值表示该眼底图像属于豹纹样病变的概率为40％。

S2B，在输出向量中的多个数值中提取设定的部分数值合并为一个数值；

S3B，利用合并后的数值和未被提取的数值形成合并向量。与第二标签相应地提取数值并直接相加的方式计算合并向量，则提取输出向量中的前4个数值0.1、0.3、0.1、0相加得到0.5，提取第5个和第6个数值0和0相加仍为0，结合后2个未被合并的数值得到合并向量为[0.5,0,0.1,0.4]，合并向量表示该眼底图像属于糖网疾病这一合并类别的概率为50％、该眼底图像属于血管疾病这一合并类别的概率为0、该眼底图像属于青光眼这一具体类别的概率为10％、该眼底图像属于豹纹样病变这一具体类别的概率为40％。

S4B，根据输出向量和第一标签确定第一损失值，以及根据合并向量和第二标签确定第二损失值。假设样本眼底图像的第一标签为[0,0,1,0,0,0,0,0],则表示该样本眼底图像只属于糖网重度这一个具体类别，第二标签为[1,0,0,0]，则表示该样本眼底图像只属于糖网疾病这一个合并类别。其中第二标签中的第1个数值1是根据第一标签中的前4个数值得到的，第2个数值0是根据第一标签中的第5和第6个数值得到的，后两个数值0是第一标签中的第7和第8个数值。

具体则是计算[0,0,1,0,0,0,0,0]与[0.1,0.3,0.1,0,0,0,0.1,0.4]的距离(第一损失值loss1)，以及计算[1,0,0,0]与[0.5,0,0.1,0.4]的距离(第二损失值loss2)。

S5B，对第二损失值进行非线性变换处理，得到loss2’；

S6B，将非线性变换后的第二损失值和第一损失值相加得到第三损失值。最终确定损失值loss3＝loss1+loss2’。

S7B，向多标签分类模型反馈第三损失值以使其调整自身参数。

根据本发明实施例提供的眼底图像多标签分类模型训练方法，使用具有两个标签的样本眼底图像作为训练数据，其中一个标签表示样本图像所属的具体疾病类别，另一个标签表示样本图像所属的合并疾病大类，一个合并疾病大类对应于多个具体疾病类别，在计算模型损失时，在计算具体疾病类别损失的基础上融合了对应于合并疾病大类的损失，当模型训练的过程中对合并疾病大类识别出现错误时，通过这种损失值计算方式加入更大的惩罚，本方案对模型出现的可接受错误和不可接受错误区别对待，由此可以提高模型对各种具体疾病类别的召回率和精确性，并可以抑制假阳性。

特别是对于糖尿病视网膜病变，根据上述方法训练得到的模型，输出结果可能会错误地表达糖网病变的具体程度，但可以尽量避免得到其它疾病结果，同时可以减少假阳性结果。对于用户而言，作为一种辅助手段，机器对糖网病变的程度识别错误是可以被接受的，根据本发明方案训练用于识别眼底疾病的多分类模型，可以提高模型的实用性。

本发明实施例还提供了一种多标签分类模型训练装置，如图3所示该装置包括：

获取单元31，用于获取多标签分类模型对样本进行分类得到的输出向量，所述输出向量用于表示各种具体类别，所述样本具有第一标签和第二标签，所述第一标签用于表示所述样本的各种具体类别，所述第二标签用于表示所述样本的各种合并类别，其中所述合并类别是根据部分所述具体类别确定的；

合并单元32，用于对所述输出向量进行处理得到合并向量，所述合并向量用于表示至少一种合并类别；

损失值计算单元33，用于根据所述输出向量和所述第一标签确定第一损失值，以及根据所述合并向量和所述第二标签确定第二损失值；

损失值融合单元34，用于根据所述第一损失值和所述第二损失值确定第三损失值；

反馈单元35，用于向所述多标签分类模型反馈所述第三损失值以使其调整自身参数。

本发明实施例还提供了一种多标签分类模型训练设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行上述实施例中的多标签分类模型训练方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种多标签分类模型训练方法，其特征在于，包括：

根据所述第一损失值和所述第二损失值确定第三损失值；

2.根据权利要求1所述的方法，其特征在于，所述输出向量中包括多个数值，每一个数值分别用于表示所述样本属于一种具体类别的置信度。

3.根据权利要求2所述的方法，其特征在于，对所述输出向量进行处理得到合并向量，包括：

在所述多个数值中提取设定的部分数值合并为一个数值；

利用合并后的数值和未被提取的数值形成所述合并向量。

4.根据权利要求2所述的方法，其特征在于，所述第一标签为第一目标向量，所述第一目标向量中包括多个数值，每一个数值分别用于表示所述样本属于一种具体类别；

5.根据权利要求1所述的方法，其特征在于，根据所述第一损失值和所述第二损失值确定第三损失值，包括：

对所述第二损失值进行非线性变换处理；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法用于训练医学图像多分类模型。

7.根据权利要求6所述的方法，其特征在于，所述方法用于训练眼底图像多分类模型。

8.根据权利要求7所述的方法，其特征在于，所述具体类别为眼底疾病类别，所述合并类别为至少部分所述眼底疾病类别同属的疾病大类。

9.根据权利要求8所述的方法，其特征在于，所述具体类别至少包括多种糖尿病视网膜病变，所述合并类别用于表示所述多种糖尿病视网膜病变的合并类别。

10.一种多标签分类模型训练设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-9中任意一项所述的多标签分类模型训练方法。