CN109063743B - 基于半监督多任务学习的医疗数据分类模型的构建方法 - Google Patents

基于半监督多任务学习的医疗数据分类模型的构建方法 Download PDF

Info

Publication number
CN109063743B
CN109063743B CN201810737538.9A CN201810737538A CN109063743B CN 109063743 B CN109063743 B CN 109063743B CN 201810737538 A CN201810737538 A CN 201810737538A CN 109063743 B CN109063743 B CN 109063743B
Authority
CN
China
Prior art keywords
data
classification task
task
classification
unlabeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810737538.9A
Other languages
English (en)
Other versions
CN109063743A (zh
Inventor
杨云
贾雪阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haijinger Pharmaceutical Technology Co ltd
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201810737538.9A priority Critical patent/CN109063743B/zh
Publication of CN109063743A publication Critical patent/CN109063743A/zh
Application granted granted Critical
Publication of CN109063743B publication Critical patent/CN109063743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明公开了一种基于半监督多任务学习的医疗数据分类模型的构建方法,基于多任务最小二乘成支持向量机,对有标签数据和无标签数据进行训练。本发明具有以下优势:(1)通过使用混合的数据,来帮助模型更好的学习无标签数据;(2)通过引入多任务学习方法,使得模型能够利用相关任务的共享表示提高所有任务的效率;(3)由于最小二乘支持向量机把求解二次规划问题转化为了求解线性方程问题,有效降低了计算复杂度,减少了训练时间;(4)达到与单任务学习同等的性能,多任务学习需要更少的迭代次数和数据量。

Description

基于半监督多任务学习的医疗数据分类模型的构建方法
技术领域
本发明属于半监督学习技术领域,特别是涉及一种基于半监督多任务学习的医疗数据分类模型的构建方法。
背景技术
半监督学习是监督学习与无监督学习相结合的一种学习方法,可以同时使用大量无标签数据和少量有标签数据来进行模式识别工作。由于真实应用中收集到的观测数据大多数是没有类别标记的,如果对这些样本进行人工标记,会造成人力物力的极大浪费。如果使用监督学习方法只对少量的有标签数据进行训练,这样训练出来的模型往往泛化能力很差,而且也是对无标签数据资源的极大浪费。因此,在有标签数据较少的情况下,如何利用大量无标签的数据来提高模型的学习性能已经引起越来越多的关注,半监督学习正是为了解决这一问题而提出的。多任务学习是和单任务学习相对的一种机器学习方法。在机器学习领域,标准的算法理论是一次学习一个任务。对于复杂的问题,也可以分解为简单且相互独立的子问题来单独解决,然后再合并结果,得到最初复杂问题的结果。这样做看似合理,其实是不正确的,因为现实世界中很多问题不能分解为一个一个独立的子问题,即使可以分解,各个子问题之间也是相互关联的,通过一些共享表示联系在一起。把现实问题当做一个个独立的单任务处理,忽略了问题之间所富含的丰富的关联信息。使用多任务学习不仅可以学到多个任务的共享表示,这个共享表示具有较强的抽象能力,能够适应多个不同但相关的目标,通常可以使训练获得的模型具有更好的泛化能力。此外,由于使用共享表示,多个任务同时进行预测时,减少了数据来源的数量以及整体模型参数的规模,使预测更加高效。因此,在多个应用领域中,可以利用多任务学习来提高效果或性能,比如垃圾邮件过滤、网页检索、自然语言处理、图像识别、语音识别、医疗预测等。现在90%的多任务学习算法都属于监督学习领域,随着研究的深入,半监督多任务学习领域引起了人们极大的关注。
由于此项研究领域具有较高的理论研究与实际应用价值,因此根据实际需求研究人员提出了半监督支持向量机,比较经典的是直推式支持向量机,但是该算法的一个主要的缺陷在于,在训练开始前必须人为的指定训练样本中无标签样本中的正标签样本数,一种简单的方法是根据有标签样本中正负样本的比例来估计无标签样本中正标签样本数,无标签样本中的正标签样本错误的估计值将导致模型的性能下降。廖东平等人在成对标注法和标签重置法的基础上提出了快速的渐进直推式支持向量机方法,在训练开始前,不对无标签样本的分布情况做任何估计,而是在训练过程中,选择在指定大小的边界区域内的无标签样本,赋予它们当下最可能的标签值并把他们加入到有标签样本中,进行新一轮的训练。在这个过程中,如果发现先前标注的无标签样本的标签值与当前的训练输出值不一致,将取消这些不合适的无标签样本的标注并加入到无标签样本中,进行下一次训练。重复上述过程,直到边界区域内不存在满足条件的无标签样本,得到最终的分类模型。
与一般的半监督支持向量机相比,半监督多任务学习具有四大优势:(1)通过使用相关任务混合的数据,来帮助模型更好的学习无标签数据;(2)学习相关任务的共享表示,提高模型的性能和泛化能力;(3)由于最小二乘支持向量机把求解二次规划问题转化为了求解线性方程问题,有效降低了计算复杂度,减少了训练时间;(4)达到同等的性能,多任务学习需要更少的迭代次数和数据量。
现有半监督支持向量机方法的具体缺点如下:
(1)泛化能力差
现在的半监督支持向量机都属于单任务学习,在训练过程中只涉及一个任务的数据样本,通常数据量比较少,这样训练出来的分类器可能效果不错,但是泛化能力差,对相关任务的数据利用不充分。
(2)忽略相关任务之间的关系
把相关任务作为一个一个的独立任务,利用半监督支持向量机进行训练,忽略了相关任务之间的关系,没有利用有标签数据和无标签数据共享参数的特点,导致每个独立任务学习到的参数不能被其他任务利用。
(3)训练需要的时间和数据量大
由于在训练过程中可能出现多次迭代的情况,而半监督支持向量机每次迭代都是转化为二次规划问题求解,训练时间代价大,本发明采用最小二乘支持向量机,把求解二次规划问题转化为了求解线性方程问题,有效降低了计算复杂度,减少了训练时间。与多任务学习相比,若达到同等的性能,半监督支持向量机需要大量的训练数据,但现实中的数据量往往达不到要求。
在医疗方面,有时候不同的疾病所具有的症状相似,反映在数据层面上就是属性相似,如果使用半监督学习算法进行学习,把学习每一种疾病的数据看成一个单任务,忽略了相关任务的有标签和无标签数据的共享表示,所以引入多任务最小二乘支持向量机方法,充分利用混合数据的共享表示,提高模型的效率。现有的医疗数据分类模型大多是针对一种疾病(即单任务的分类模型),只能够判断患者是否患有此疾病;如果患者未患此疾病,并不能够判断患者是否患有与此疾病症状相似的其他疾病。如果要达到以上两种目的,现有的医疗数据分类模型针对具有相似症状的每一种疾病构建单任务分类模型,训练过程中需要的数据量大,时间效率低,而且要将患者的数据信息放入所有的单任务医疗数据分类模型中,才能够作出准确的判断。
发明内容
本发明的目的在于提供一种基于半监督多任务学习的医疗数据分类模型的构建方法,解决了现有的医疗数据分类模型针对具有相似症状的每一种疾病构建单任务分类模型,训练过程中需要的数据量大,时间效率低的问题。
本发明所采用的技术方案是,基于半监督多任务学习的医疗数据分类模型的构建方法,具体按照以下步骤进行:
步骤一、指定参数γ,λ,使用多任务最小二乘支持向量机(MTLS-SVM)对有标签数据进行训练,得到初始分类器SVM0,其中λ,γ是正则化参数;
步骤二、指定参数γ12,用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习,计算每一个无标签样本的判别函数输出
Figure GDA0003226223820000036
用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注;
在每次训练中,对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注,并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中,加入到新一轮的训练中,每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度;
Figure GDA0003226223820000031
约束条件:
Figure GDA0003226223820000032
Figure GDA0003226223820000033
约束条件:
Figure GDA0003226223820000034
Figure GDA0003226223820000035
是初始分类器SVM0对每个分类任务i中所有无标签样本的数据的判别函数输出,γ12是决定标注区域的参数,其中0<γ1<max,0<γ2<min;
Figure GDA0003226223820000041
是每个分类任务i中所有无标签样本的数据;
步骤三、重置每个分类任务i中所有无标签样本的数据,对每个分类任务i中所有有标签的数据和步骤二加入的新标注的每个分类任务i中所有无标签样本的数据按照步骤一进行重新训练,得到分类器SVM1,对每个分类任务i中的每一个医疗数据样本进行分类,判断某一个早期标注的分类任务i中所有无标签样本的数据的标签值和分类器SVM1的判别函数输出的一致性,依据标签重置的法则确定每个分类任务i中的每一个医疗数据样本的标注;
在每一轮训练中,将已标注的分类任务i中所有无标签样本的数据与本轮该数据的标注值进行比较,如果不一致,在早期迭代中出现误标情况,随后把不一致的分类任务i的样本标签重置为分类任务i的无标签样本,加入到后一轮的训练中,重置的分类任务i的无标签样本在未来某次训练中得到更为可靠的标注;
步骤四、用区域标注法寻找当前边界区域内符合新加标注条件的未加标注的分类任务i的无标签样本,如果存在符合新加标注条件的未加标注的分类任务i的无标签样本,则对其加以标注并返回步骤三;如果不存在,则用当前的分类器SVM1对分类任务i中剩下的全部无标签样本做分类并加标签,计算过程结束,并输出结果,初始分类器SVM0和分类器SVM1为最终得到医疗数据分类模型。
进一步的,所述步骤一为学习每一种疾病的数据为一个单任务,有N个相关的医疗数据分类任务,每个分类任务i的分类超平面由一个公共函数ω0 Tφ0(x)+b0和一个私有函数vi Tφi(x)+bi构成,其中φ0(x)是医疗数据从输入空间到特征空间公共的非线性映射,φi(x)是医疗数据从输入空间到特征空间私有的非线性映射,νi是包含了任务i的信息的私有法向量,其中b0为所有分类任务的常数向量,bi为分类任务i的常数向量;每个分类任务的分类超平面的法向量ω表示为ω0+ν,其中ω0为公共法向量,ν为包含每个任务信息的私有法向量;对每一个分类任务i,有ni个医疗数据:
Figure GDA0003226223820000042
其中
Figure GDA0003226223820000043
其中
Figure GDA0003226223820000044
表示d维实数向量空间,d表示实数向量空间的维数,yim∈{+1,-1},m=1,2,…,ni,xim表示第i个任务的第m条数据,yim表示第i个任务的第m条数据的类别标签;N个相关分类任务总共拥有的数据量为
Figure GDA0003226223820000045
每个分类任务i的分类决策函数为:ω0 Tφ0(x)+vi Tφi(x)+bi+b0
多任务最小二乘支持向量机的目标函数是:
Figure GDA0003226223820000051
其中,
Figure GDA00032262238200000514
λ,γ是正则化参数,ξi的含义是每个分类任务i的松弛变量,
Figure GDA0003226223820000052
约束条件:
Figure GDA0003226223820000053
ξi≥0,i=1,2,...,N;(2)
其中,yi是每个分类任务i中所有数据的类别标签向量,
Figure GDA0003226223820000054
φ0(xi)的含义是每一个分类任务i的医疗数据从输入空间到特征空间公共的非线性映射,φi(xi)是每一个分类任务i的医疗数据从输入空间到特征空间私有的非线性映射,
Figure GDA0003226223820000055
构造多任务最小二乘支持向量机目标函数的拉格朗日函数为:
Figure GDA0003226223820000056
其中
Figure GDA0003226223820000057
其中
Figure GDA0003226223820000058
表示ni维实数向量空间,ni表示每一个分类任务i包含的数据量,
Figure GDA0003226223820000059
其中
Figure GDA00032262238200000510
表示N维自然数向量空间,N表示相关的医疗数据分类任务,
Figure GDA00032262238200000511
αi表示拉格朗日乘子;
根据约束优化问题的Karush-Kuhn-Tucker条件,对w0,vi,bi,b0ii求偏导等于0:
Figure GDA00032262238200000512
Figure GDA00032262238200000513
将式(4)带入到式(3)可得:
Figure GDA0003226223820000061
其中,对分类任务j,有nj个医疗数据:
Figure GDA0003226223820000062
其中,h=1,2,…,nj,xjh是第j个分类任务的第h条数据,αim是第i个分类任务中第m条数据的拉格朗日乘子,αjh是第j个分类任务中第h条数据的拉格朗日乘子,yim是第i个分类任务中第m条数据的类别标签,yjh是第j个分类任务中第h条数据的类别标签,K0(xim,xjh)和Kk(xim,xjh)为不同的核函数,对第i个分类任务中第m条数据和第j个分类任务中第h条数据进行相应的非线性映射计算,其中K0(xim,xjh)=xim·xjh,表示线性核函数,
Figure GDA0003226223820000063
表示高斯径向核函数,其中exp,σ分别代表以自然常数e为底的指数函数和核函数的宽度参数;
约束条件:
Figure GDA0003226223820000064
式(5)的解为
Figure GDA0003226223820000065
和b*=((b0+b1)*,(b0+b2)*,...,(b0+bN)*)T,得到了初始分类器SVM0
每个分类任务i的决策函数表示为:
Figure GDA0003226223820000066
其中,
Figure GDA0003226223820000067
Figure GDA0003226223820000068
为初始分类器SVM0的解,yim是第i个分类任务中第m条数据的类别标签,
K0(xim,x)和Kk(xim,x)是对第i个分类任务中第m条数据和所有分类任务的数据进行相应的非线性映射计算,其中K0(xim,x)=xim·x,
Figure GDA0003226223820000069
本发明的有益效果是,(1)通过使用相关任务混合的数据,来帮助模型更好的学习无标签数据,本发明的基于半监督多任务学习的医疗数据分类模型的构建方法,能够充分利用相关医疗任务的混合数据,因为在训练过程,通过区域标注法不断地往有标签训练集中添加每个相关任务中已标注的无标签数据,相比半监督支持向量机的单任务学习方法而言,增加了训练的数据量,能够帮助模型更好的学习无标签数据;
(2)学习相关任务的共享表示,提高模型的性能和泛化能力,本发明的基于半监督多任务学习的医疗数据分类模型的构建方法,通过学习相关医疗任务的共享表示(参数共享),包括相关任务中有标签数据之间的共享表示和无标签数据之间的共享表示,每一个相关任务学习到的参数都可以帮助其他任务提高效率,多个相关任务放在一起学习,有相关的部分,但也有不相关的部分,当学习一个任务时,与该任务不相关的部分,在学习过程中相当于是噪声,因此,引入噪声可以提高学习的泛化能力;
(3)降低了计算复杂度,减少了训练时间,本发明的基于半监督多任务学习的医疗数据分类模型的构建方法,训练过程可能涉及多次迭代,利用最小二乘支持向量机把求解二次规划问题转化为了求解线性方程问题,相较于半监督最小二乘支持向量机,有效降低了计算复杂度和数据量,减少了训练时间;在标注过程中采用区域标注法,在精度允许范围内,也大大减少了训练时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于半监督多任务学习的医疗数据分类模型流程图;
图2是实施例两种方法的性能随着标签数据的变化图;
图3是实施例的训练时间随边界区域的变化图;
图4是实施例的性能随着边界区域的变化图;
图5是实施例的不同核函数组合对方法性能的影响。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于半监督多任务学习的医疗数据分类模型的构建方法,具体按照以下步骤进行:
步骤一、指定参数γ,λ,使用多任务最小二乘支持向量机(MTLS-SVM)对有标签数据进行训练,得到初始分类器SVM0,其中λ,γ是正则化参数;
学习每一种疾病的数据为一个单任务,有N个相关的医疗数据分类任务,每个分类任务i的分类超平面由一个公共函数ω0 Tφ0(x)+b0和一个私有函数vi Tφi(x)+bi构成,其中φ0(x)是医疗数据从输入空间到特征空间公共的非线性映射,φi(x)是医疗数据从输入空间到特征空间私有的非线性映射,νi是包含了任务i的信息的私有法向量,其中b0为所有分类任务的常数向量,bi为分类任务i的常数向量;每个分类任务的分类超平面的法向量ω表示为ω0+ν,其中ω0为公共法向量,ν为包含每个任务信息的私有法向量;对每一个分类任务i,有ni个医疗数据:
Figure GDA0003226223820000081
其中
Figure GDA0003226223820000082
其中
Figure GDA0003226223820000083
表示d维实数向量空间,d表示实数向量空间的维数,yim∈{+1,-1},m=1,2,…,ni,xim表示第i个任务的第m条数据,yim表示第i个任务的第m条数据的类别标签;N个相关分类任务总共拥有的数据量为
Figure GDA0003226223820000084
每个分类任务i的分类决策函数为:ω0 Tφ0(x)+vi Tφi(x)+bi+b0
多任务最小二乘支持向量机的目标函数是:
Figure GDA0003226223820000085
其中,
Figure GDA0003226223820000086
λ,γ是正则化参数,ξi的含义是每个分类任务i的松弛变量,
Figure GDA0003226223820000087
约束条件:
Figure GDA0003226223820000088
ξi≥0,i=1,2,...,N;(2)
其中,yi是每个分类任务i中所有数据的类别标签向量,
Figure GDA0003226223820000089
φ0(xi)的含义是每一个分类任务i的医疗数据从输入空间到特征空间公共的非线性映射,φi(xi)是每一个分类任务i的医疗数据从输入空间到特征空间私有的非线性映射,
Figure GDA00032262238200000810
φ0(xi)实现了相关分类任务的参数共享,φi(xi)实现了将每个相关分类任务的信息加入到模型以调整最终的分类器;
构造多任务最小二乘支持向量机目标函数的拉格朗日函数为:
Figure GDA0003226223820000091
其中
Figure GDA0003226223820000092
其中
Figure GDA0003226223820000093
表示ni维实数向量空间,ni表示每一个分类任务i包含的数据量,
Figure GDA0003226223820000094
其中
Figure GDA0003226223820000095
表示N维自然数向量空间,N表示相关的医疗数据分类任务,
Figure GDA0003226223820000096
αi表示拉格朗日乘子;
根据约束优化问题的Karush-Kuhn-Tucker(KKT)条件,对w0,vi,bi,b0ii求偏导等于0:
Figure GDA0003226223820000097
Figure GDA0003226223820000098
将式(4)带入到式(3)可得:
Figure GDA0003226223820000099
其中,对分类任务j,有nj个医疗数据:
Figure GDA00032262238200000910
其中,h=1,2,…,nj,xjh是第j个分类任务的第h条数据,αim是第i个分类任务中第m条数据的拉格朗日乘子,αjh是第j个分类任务中第h条数据的拉格朗日乘子,yim是第i个分类任务中第m条数据的类别标签,yjh是第j个分类任务中第h条数据的类别标签,K0(xim,xjh)和Kk(xim,xjh)为不同的核函数,对第i个分类任务中第m条数据和第j个分类任务中第h条数据进行相应的非线性映射计算,其中K0(xim,xjh)=xim·xjh,表示线性核函数,用于线性可分的情况,特征空间到输入空间的维度是一样的,其参数少速度快;
Figure GDA00032262238200000911
表示高斯径向核函数,它是一种局部性强的核函数,将输入空间映射到一个更高维的空间内,无论大样本还是小样本都有比较好的性能,而且其相对于多项式核函数参数要少,其中exp,σ分别代表以自然常数e为底的指数函数和核函数的宽度参数,控制了核函数的径向作用范围;
约束条件:
Figure GDA0003226223820000101
式(5)的解为
Figure GDA0003226223820000102
和b*=((b0+b1)*,(b0+b2)*,...,(b0+bN)*)T,得到了初始分类器SVM0
每个分类任务i的决策函数表示为:
Figure GDA0003226223820000103
其中,
Figure GDA0003226223820000104
Figure GDA0003226223820000105
为初始分类器SVM0的解,yim是第i个分类任务中第m条数据的类别标签,
K0(xim,x)和Kk(xim,x)是对第i个分类任务中第m条数据和所有分类任务的数据进行相应的非线性映射计算,其中K0(xim,x)=xim·x,
Figure GDA0003226223820000106
步骤二、指定参数γ12,用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习,计算每一个无标签样本的判别函数输出
Figure GDA00032262238200001013
用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注;
在每次训练中,对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注,并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中,加入到新一轮的训练中,结合支持向量机的特点可知,每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度;
Figure GDA0003226223820000107
约束条件:
Figure GDA0003226223820000108
Figure GDA0003226223820000109
约束条件:
Figure GDA00032262238200001010
Figure GDA00032262238200001011
是初始分类器SVM0对每个分类任务i中所有无标签样本的数据的判别函数输出,γ12是决定标注区域的参数,其中0<γ1<max,0<γ2<min;
Figure GDA00032262238200001012
是每个分类任务i中所有无标签样本的数据;
步骤三、重置每个分类任务i中所有无标签样本的数据,对每个分类任务i中所有有标签的数据和步骤二加入的新标注的每个分类任务i中所有无标签样本的数据按照步骤一进行重新训练,得到分类器SVM1,对每个分类任务i中的每一个医疗数据样本进行分类,判断某一个早期标注的分类任务i中所有无标签样本的数据的标签值和分类器SVM1的判别函数输出的一致性,依据标签重置的法则确定每个分类任务i中的每一个医疗数据样本的标注;
在每一轮训练中,将已标注的分类任务i中所有无标签样本的数据与本轮该数据的标注值进行比较,如果不一致,在早期迭代中出现误标情况,随后把不一致的分类任务i的样本标签重置为分类任务i的无标签样本,加入到后一轮的训练中,重置的分类任务i的无标签样本在未来某次训练中得到更为可靠的标注;
步骤四、用区域标注法寻找当前边界区域内符合新加标注条件的未加标注的分类任务i的无标签样本,如果存在符合新加标注条件的未加标注的分类任务i的无标签样本,则对其加以标注并返回步骤三;如果不存在,则用当前的分类器SVM1对分类任务i中剩下的全部无标签样本做分类并加标签,计算过程结束,并输出结果,初始分类器SVM0和分类器SVM1为最终得到医疗数据分类模型。
实施例
在实际的医疗分类数据集上,运用本发明的基于半监督多任务学习医疗数据分类模型的构建方法,实验设置如表1、2、3所示,分别在皮肤病学(Dermatology)数据集的6个相关任务上,设定有标签数据比例为10%、20%和40%,随机选择训练数据集的70%作为测试集,将本发明提出的方法与半监督最小二乘支持向量机(LS-SVM)进行对比。从表1-3中可以看出1)本发明提出的方法在应用到Dermatology数据集后,可以显著提高预测的准确性;2)在本实验的数据集上,多任务学习可以有效地利用任务间的共享信息,从而提高标注的准确性;3)本文的方法还可以充分利用无标记数据之间的共享信息来提高半监督分类器的性能。在训练数据集的集合中有标记的数据的比例为:{5%,10%,20%,40%,60%,80%},两种方法的精确度比较如图2所示,可以看出随着比例的增大,精度得到了提高,本文提出的方法优于基于半监督的最小二乘支持向量机。由于本发明在训练过程采用区域标注的方法,区域大小的选择对方法的训练时间和精度有一定的影响。如图3和图4所示,方法的训练时间随着边界区域的增加而减小;随着边界区域的增加,方法的平均精度降低。虽然精度有波动区域,但总体上呈下降趋势。本发明提出的方法可以使用不同的核函数,在图5中,比较了不同核函数对6个相关任务的影响。L+G方法的整体性能优于其他两种方法(L-线性核函数,G-高斯核函数,P-多项式核函数)。
表1有标记数据比例为10%时,两种方法对比
Related tasks LS-SVM with Semi-Supervised MTLS-SVM with Semi-Supervised
Task1 63.01% 66.30%
Task2 68.12% 68.25%
Task3 67.20% 69.33%
Task4 66.17% 68.56%
Task5 64.50% 67.76%
Task6 69.20% 70.07%
Average Accuracy 66.37% 68.38%
表2有标记数据比例为20%时,两种方法对比
Related tasks LS-SVM with Semi-Supervised MTLS-SVM with Semi-Supervised
Task1 73.13% 76.37%
Task2 78.24% 78.30%
Task3 77.20% 79.65%
Task4 76.17% 78.51%
Task5 74.55% 77.45%
Task6 79.28% 80.13%
Average Accuracy 76.43% 78.40%
表3有标记数据比例为40%时,两种方法对比
Related tasks LS-SVM with Semi-Supervised MTLS-SVM with Semi-Supervised
Task1 75.83% 78.96%
Task2 80.05% 82.75%
Task3 79.43% 81.06%
Task4 78.47% 80.20%
Task5 76.46% 78.85%
Task6 82.19% 84.24%
Average Accuracy 78.74% 81.01%
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (1)

1.基于半监督多任务学习的医疗数据分类模型的构建方法,其特征在于,具体按照以下步骤进行:
步骤一、指定参数γ,λ,使用多任务最小二乘支持向量机(MTLS-SVM)对有标签数据进行训练,得到初始分类器SVM0,其中λ,γ是正则化参数;
步骤二、指定参数γ12,用初始分类器SVM0对每个分类任务i中所有无标签样本的数据进行学习,计算每一个无标签样本的判别函数输出
Figure FDA0003226223810000017
用区域标注法对处于边界区域内的每个分类任务i中所有无标签样本的数据进行标注;
在每次训练中,对满足式(8)(9)(10)(11)的每个分类任务i中所有无标签样本的数据进行正负标注,并把已经正负标注过的无标签样本加入到每个分类任务i中有标签的数据中,加入到新一轮的训练中,每个分类任务i中所有无标签样本的当前判别函数输出的绝对值大小反映了标注的可信度;
Figure FDA0003226223810000012
约束条件:
Figure FDA0003226223810000011
Figure FDA0003226223810000013
约束条件:
Figure FDA0003226223810000014
Figure FDA0003226223810000015
是初始分类器SVM0对每个分类任务i中所有无标签样本的数据的判别函数输出,γ12是决定标注区域的参数,其中0<γ1<max,0<γ2<min;
Figure FDA0003226223810000016
是每个分类任务i中所有无标签样本的数据;
步骤三、重置每个分类任务i中所有无标签样本的数据,对每个分类任务i中所有有标签的数据和步骤二加入的新标注的每个分类任务i中所有无标签样本的数据按照步骤一进行重新训练,得到分类器SVM1,对每个分类任务i中的每一个医疗数据样本进行分类,判断某一个早期标注的分类任务i中所有无标签样本的数据的标签值和分类器SVM1的判别函数输出的一致性,依据标签重置的法则确定每个分类任务i中的每一个医疗数据样本的标注;
在每一轮训练中,将已标注的分类任务i中所有无标签样本的数据与本轮该数据的标注值进行比较,如果不一致,在早期迭代中出现误标情况,随后把不一致的分类任务i的样本标签重置为分类任务i的无标签样本,加入到后一轮的训练中,重置的分类任务i的无标签样本在未来某次训练中得到更为可靠的标注;
步骤四、用区域标注法寻找当前边界区域内符合新加标注条件的未加标注的分类任务i的无标签样本,如果存在符合新加标注条件的未加标注的分类任务i的无标签样本,则对其加以标注并返回步骤三;如果不存在,则用当前的分类器SVM1对分类任务i中剩下的全部无标签样本做分类并加标签,计算过程结束,并输出结果,初始分类器SVM0和分类器SVM1为最终得到医疗数据分类模型;
所述步骤一为学习每一种疾病的数据为一个单任务,有N个相关的医疗数据分类任务,每个分类任务i的分类超平面由一个公共函数ω0 Tφ0(x)+b0和一个私有函数vi Tφi(x)+bi构成,其中φ0(x)是医疗数据从输入空间到特征空间公共的非线性映射,φi(x)是医疗数据从输入空间到特征空间私有的非线性映射,νi是包含了任务i的信息的私有法向量,其中b0为所有分类任务的常数向量,bi为分类任务i的常数向量;每个分类任务的分类超平面的法向量ω表示为ω0+ν,其中ω0为公共法向量,ν为包含每个任务信息的私有法向量;对每一个分类任务i,有ni个医疗数据:
Figure FDA0003226223810000021
其中
Figure FDA0003226223810000022
其中
Figure FDA0003226223810000023
表示d维实数向量空间,d表示实数向量空间的维数,yim∈{+1,-1},m=1,2,…,ni,xim表示第i个任务的第m条数据,yim表示第i个任务的第m条数据的类别标签;N个相关分类任务总共拥有的数据量为
Figure FDA0003226223810000024
每个分类任务i的分类决策函数为:
Figure FDA0003226223810000025
多任务最小二乘支持向量机的目标函数是:
Figure FDA0003226223810000026
其中,
Figure FDA0003226223810000029
λ,γ是正则化参数,ξi的含义是每个分类任务i的松弛变量,
Figure FDA0003226223810000027
约束条件:
Figure FDA0003226223810000028
ξi≥0,i=1,2,...,N;(2)
其中,yi是每个分类任务i中所有数据的类别标签向量,
Figure FDA00032262238100000210
φ0(xi)的含义是每一个分类任务i的医疗数据从输入空间到特征空间公共的非线性映射,φi(xi)是每一个分类任务i的医疗数据从输入空间到特征空间私有的非线性映射,
Figure FDA00032262238100000211
构造多任务最小二乘支持向量机目标函数的拉格朗日函数为:
Figure FDA0003226223810000031
其中
Figure FDA0003226223810000032
其中
Figure FDA0003226223810000033
表示ni维实数向量空间,ni表示每一个分类任务i包含的数据量,
Figure FDA0003226223810000034
其中
Figure FDA0003226223810000035
表示N维自然数向量空间,N表示相关的医疗数据分类任务,
Figure FDA00032262238100000313
αi表示拉格朗日乘子;
根据约束优化问题的Karush-Kuhn-Tucker条件,对w0,vi,bi,b0ii求偏导等于0:
Figure FDA0003226223810000036
Figure FDA0003226223810000037
将式(4)带入到式(3)可得:
Figure FDA0003226223810000038
其中,对分类任务j,有nj个医疗数据:
Figure FDA0003226223810000039
其中,h=1,2,…,nj,xjh是第j个分类任务的第h条数据,αim是第i个分类任务中第m条数据的拉格朗日乘子,αjh是第j个分类任务中第h条数据的拉格朗日乘子,yim是第i个分类任务中第m条数据的类别标签,yjh是第j个分类任务中第h条数据的类别标签,K0(xim,xjh)和Kk(xim,xjh)为不同的核函数,对第i个分类任务中第m条数据和第j个分类任务中第h条数据进行相应的非线性映射计算,其中K0(xim,xjh)=xim·xjh,表示线性核函数
Figure FDA00032262238100000310
表示高斯径向核函数,其中exp,σ分别代表以自然常数e为底的指数函数和核函数的宽度参数;
约束条件:
Figure FDA00032262238100000311
式(5)的解为
Figure FDA00032262238100000312
和b*=((b0+b1)*,(b0+b2)*,...,(b0+bN)*)T,得到了初始分类器SVM0
每个分类任务i的决策函数表示为:
Figure FDA0003226223810000041
其中,
Figure FDA0003226223810000042
Figure FDA0003226223810000043
为初始分类器SVM0的解,yim是第i个分类任务中第m条数据的类别标签,
K0(xim,x)和Kk(xim,x)是对第i个分类任务中第m条数据和所有分类任务的数据进行相应的非线性映射计算,其中K0(xim,x)=xim·x,
Figure FDA0003226223810000044
CN201810737538.9A 2018-07-06 2018-07-06 基于半监督多任务学习的医疗数据分类模型的构建方法 Active CN109063743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810737538.9A CN109063743B (zh) 2018-07-06 2018-07-06 基于半监督多任务学习的医疗数据分类模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810737538.9A CN109063743B (zh) 2018-07-06 2018-07-06 基于半监督多任务学习的医疗数据分类模型的构建方法

Publications (2)

Publication Number Publication Date
CN109063743A CN109063743A (zh) 2018-12-21
CN109063743B true CN109063743B (zh) 2021-11-05

Family

ID=64818967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810737538.9A Active CN109063743B (zh) 2018-07-06 2018-07-06 基于半监督多任务学习的医疗数据分类模型的构建方法

Country Status (1)

Country Link
CN (1) CN109063743B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522973A (zh) * 2019-01-17 2019-03-26 云南大学 基于生成式对抗网络与半监督学习的医疗大数据分类方法及系统
CN110414624A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于多任务学习的分类模型构建方法及装置
CN110633758A (zh) * 2019-09-20 2019-12-31 四川长虹电器股份有限公司 针对小样本或样本不平衡的癌症区域检测定位的方法
CN110738270B (zh) * 2019-10-22 2022-03-11 中国人民解放军国防科技大学 基于均值迭代的多任务学习模型训练以及预测方法
CN111488840A (zh) * 2020-04-15 2020-08-04 桂林电子科技大学 一种基于多任务学习模型的人体行为分类方法
CN111881979B (zh) * 2020-07-28 2022-05-13 复旦大学 多模态数据标注装置及包含程序的计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376308A (zh) * 2014-11-24 2015-02-25 天津大学 一种基于多任务学习的人体动作识别方法
CN105279523A (zh) * 2015-10-22 2016-01-27 中国科学院遥感与数字地球研究所 一种结合混合象元分解与主动学习的半监督分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102706573A (zh) * 2012-03-15 2012-10-03 宁波大学 一种设备的故障分类诊断方法
US9497204B2 (en) * 2013-08-30 2016-11-15 Ut-Battelle, Llc In-situ trainable intrusion detection system
CN105740917B (zh) * 2016-03-21 2019-02-19 哈尔滨工业大学 带有标签学习的遥感图像的半监督多视图特征选择方法
JP2018014059A (ja) * 2016-07-22 2018-01-25 株式会社トプコン 医療情報処理システム及び医療情報処理方法
CN106601235A (zh) * 2016-12-02 2017-04-26 厦门理工学院 一种半监督多任务特征选择的语音识别方法
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376308A (zh) * 2014-11-24 2015-02-25 天津大学 一种基于多任务学习的人体动作识别方法
CN105279523A (zh) * 2015-10-22 2016-01-27 中国科学院遥感与数字地球研究所 一种结合混合象元分解与主动学习的半监督分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Multi-task least-squares support vector machines;Shuo Xu等;《Multimedia Tools and Applications》;20130530;第1-2页摘要、第1节,第12-13页第4节 *
Multi-task support vector machines for feature selection with shared knowledge discovery;Sen Wang等;《Signal Processing》;20161231;第120卷;第746-753页 *
SVM在多类问题中的应用及推广;赵文嵩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115(第01期);第I140-81页 *
一种快速的渐进直推式支持向量机分类学习算法;廖东平等;《系统工程与电子技术》;20070131;第29卷(第1期);第87-91页 *
最小二乘支持向量机的半监督学习算法;张健沛等;《哈尔滨工程大学学报》;20081031;第29卷(第10期);第1090-1091页第3节 *

Also Published As

Publication number Publication date
CN109063743A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063743B (zh) 基于半监督多任务学习的医疗数据分类模型的构建方法
Tang et al. Supervised deep hashing for scalable face image retrieval
Bdiri et al. Variational bayesian inference for infinite generalized inverted dirichlet mixtures with feature selection and its application to clustering
US20150063713A1 (en) Generating a hierarchy of visual pattern classes
Zhao et al. Deep image clustering with category-style representation
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
Ju et al. Fish species recognition using an improved AlexNet model
CN113139664B (zh) 一种跨模态的迁移学习方法
Wang et al. Energy based competitive learning
Wang et al. MMatch: Semi-supervised discriminative representation learning for multi-view classification
Tang et al. Zero-shot learning by mutual information estimation and maximization
KR20220024990A (ko) L2TL(Learning to Transfer Learn)을 위한 프레임워크
WO2023088174A1 (zh) 目标检测方法及装置
Zomchak et al. Macroeconomic determinants of economic development and growth in Ukraine: logistic regression analysis
CN111178533A (zh) 实现自动半监督机器学习的方法及装置
Peng et al. Leaf disease image retrieval with object detection and deep metric learning
Calò et al. A hierarchical modeling approach for clustering probability density functions
Xu et al. Sample selection-based hierarchical extreme learning machine
Wu Application of improved boosting algorithm for art image classification
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
Liu Art painting image classification based on neural network
CN114529063A (zh) 一种基于机器学习的金融领域数据预测方法、设备及介质
CN115115923A (zh) 模型训练方法、实例分割方法、装置、设备及介质
Xiaohui An adaptive genetic algorithm-based background elimination model for English text
Wu et al. A unified framework for age invariant face recognition and age estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231011

Address after: Room 802, Building C, Qingwang Science and Technology Park, Baohe Economic Development Zone, Hefei City, Anhui Province, 230041

Patentee after: Hefei xingzhicheng Information Technology Co.,Ltd.

Address before: 650091 Yunnan Province, Kunming city Wuhua District Lake Road No. 2

Patentee before: YUNNAN University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231116

Address after: 100071 room 03, 9 / F, 101, building 1-11, zone 3, No. 186, South Fourth Ring West Road, Fengtai District, Beijing

Patentee after: Beijing haijinger Pharmaceutical Technology Co.,Ltd.

Address before: Room 802, Building C, Qingwang Science and Technology Park, Baohe Economic Development Zone, Hefei City, Anhui Province, 230041

Patentee before: Hefei xingzhicheng Information Technology Co.,Ltd.