CN108520780A - 一种基于迁移学习的医学数据处理和系统 - Google Patents

一种基于迁移学习的医学数据处理和系统 Download PDF

Info

Publication number
CN108520780A
CN108520780A CN201810186122.2A CN201810186122A CN108520780A CN 108520780 A CN108520780 A CN 108520780A CN 201810186122 A CN201810186122 A CN 201810186122A CN 108520780 A CN108520780 A CN 108520780A
Authority
CN
China
Prior art keywords
label
model
symptom
tag
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810186122.2A
Other languages
English (en)
Other versions
CN108520780B (zh
Inventor
陈旭
胡满满
商显震
孙毓忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Flux Technology Co ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201810186122.2A priority Critical patent/CN108520780B/zh
Publication of CN108520780A publication Critical patent/CN108520780A/zh
Application granted granted Critical
Publication of CN108520780B publication Critical patent/CN108520780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于迁移学习的医学数据处理和系统,包括:获取医学领域外的本文数据,训练得到文本分类模型;获取医学领域内的病例集合,其中病例集合包含症状和标签,标签为症状对应的病症;使用文本分类模型提取症状的特征向量作为症状向量,并根据症状对应的病症类型,将标签转化为标签向量;通过集合症状向量及其对应的标签向量,构建多标签训练样本集,根据多标签训练样本集,训练得到多标签分类模型;将待分析的医学样本输入至多标签分类模型,判断医学样本属于每一种标签的概率值,并根据概率值得到分析标签集合,作为医学样本的分析结果。由此本发明通过迁移学习避免了人工选择特征的缺点,提高了基于门诊病例的医学疾病预测准确率。

Description

一种基于迁移学习的医学数据处理和系统
技术领域
本发明涉及医学疾病分析及机器学习领域,特别涉及一种基于迁移学习的医学数据处理和系统。
背景技术
随着人工智能和机器学习的不断发展和广泛应用,临床辅助决策支持系统被提出用于,根据患者信息,依靠机器学习分析模型对病情进行预测分析,可以帮助医生在临床分析决策过程中更高效、更快捷地运用复杂医学知识处理各种医学问题。
医学疾病预测模型是智能辅助分析系统的核心挑战之一,可分为基于规则的专家模型、基于统计知识的统计分析模型和基于机器学习的预测模型。
论文(Shortliffe E.H.Computer-based medical consultations:MYCIN.Elsevier.1976,85(6):iii.)提出了基于规则的辅助医疗分析系统MYCIN,总结了400多种体现专家分析疾病的规则,用于鉴别细菌感染并提供治疗方案,虽然具有一定的效果,但是基于规则的专家模型需要大量的专家构建规则库,维护成本高且拓展性不好。
IBM Watson医疗辅助分析系统通过对医学文献进行统计分析以帮助医生进行决策,统计学习知识被运用到医学数据处理中,从而解决专家系统存在的问题。但是基于统计知识的统计分析模型依赖大量的数据支持,导致模型在某些数据量小的疾病上效果不理想。
基于机器学习的预测模型将疾病分析看作是分类预测问题,提高了医学疾病分析模型的准确度,另一方面,基于大量样本的深度神经网络(Deep Neural Networks,DNN)的提出更加提高了某些疾病的预测准确率。然而,一些医学疾病具有样本数量少的特点,即疾病的病例数量相对很少,或者收集非常困难,以至于很难训练出理想的机器学习模型。
某些医学疾病具有收集困难和发病率小的问题,导致很难有大量的样本用于深度神经网络训练,从而很难训练得到本领域内具有很强分析性能的模型。近些年,深度卷积神经网络模型(Deep Convolutional Neural Network,DCNN)在图像分类、人脸识别取得了十分高的精确度,其中一个重要的手段就是迁移学习,目的是将在源领域数据集上训练的模型运用到新的目标领域中,从而提高目标领域任务的准确度。迁移学习通过将源领域训练过程中产生的知识(模型,参数等)保存下来,从而将源领域知识运用到目标领域任务中。
发明内容
本发明针对目前医学疾病分析模型存在的样本不足特点,设计了一种基于迁移学习的医学数据处理和系统,包括构建基于迁移学习的医学疾病分析模型,首先在大规模源数据集上训练具有多标签的文本分类模型,将模型作为特征提取器用于医学病例的文本语义特征提取,从而构建具有源领域语义特征的训练集,进而根据训练集训练多标签分类器,实现目标领域的医学疾病分析预测。
具体地说,本发明公开了一种基于迁移学习的医学数据处理,其中包括:
步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;
步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
该迁移学习的医学数据处理,其中该步骤4具体包括:
将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。
该迁移学习的医学数据处理,其中该步骤4还包括:
针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。
该迁移学习的医学数据处理,其中该步骤4还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该步骤5包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。
该迁移学习的医学数据处理,其中该单标签分类模型为二分类模型。
本发明还提出了一种基于迁移学习的医学分析系统,其中包括:
第一训练模块,用于获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
病例获取模块,用于获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
特征向量提取模块,使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
第二训练模块,用于通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;
分析模块,用于将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
该迁移学习的医学分析系统,其中该第二训练模块具体包括:
将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。
该迁移学习的医学分析系统,其中该第二训练模块还包括:
针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。
该迁移学习的医学分析系统,其中该第二训练模块还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该分析模块包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。
该迁移学习的医学分析系统,其中该单标签分类模型为二分类模型。
由此本发明针对医学疾病预测问题,提出基于迁移学习的医学数据处理与系统,目标是提取医学门诊病例的语义特征表示,以避免人工选择特征的缺点,提高基于门诊病例的医学疾病预测准确率。
附图说明
图1为本发明抽取门诊病例语义特征表示示意图。
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提出的医学数据处理方法和系统可应用于医学教育领域,输入医学病例或者症状,便可知其对应的病症,本发明具体包括:
步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;
步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
其中步骤2还包括获取医学门诊病例的语义特征表示,构造样本数据集,其实现方法如下:
步骤21.给定真实医学门诊病例集合Case={(S1,L1),(S2,L2),…,(SN,LN)},Si是第i个门诊病例(症状),Li是第i个门诊病例具有的标签(病症)集合,N为该语义特征集合包含的门诊病例总数,T表示向量转置符号,Len(i)表示第i个门诊病例的词语个数,是第i个门诊病例的第j个词语序列的词嵌入(word embedding)表示,其中表示第k维的值,R为整体实数;li为样本对应的每一个标签,即li是样本标签集合{l1,l2,...,lC}的一个子集。
步骤22.按照下述方式获取每一个门诊病例的语义特征表示,从而构建训练样本集。此处以深度学习模型为例阐述思想,但不局限于此模型。
xi=Transfer(Fsource(Si))
其中Fsource表示预先在大规模源数据集上训练得到的深度学习分类模型,其中源数据集为除医学领域以外的其他领域的分类数据集,该分类数据集包括大量属于医学领域以外的文本数据,如新闻类别分类数据集,代表数据集有全网新闻数据集SogouCA等,Fsource(Si)表示将Si作为模型Fsource的输入,从而获取到一系列特征图(Feature Map),Transfer函数将特征图转化为固定维度的特征向量xi,转化方式可以采用先卷积后全连接的方式实现,这样就完成了门诊病例中症状的词语序列Si到训练样本xi的转化。具体来说,为一个m维的向量,其中是第i个样本的第j个特征,vjk是第j个特征可能取的第k个值,j=1,2,...,m,k=1,2,...,aj。此外,通过下述公式将样本标签Li转化为标签向量其中如果lj是Li的一个元素,表示如下:
对于每一个门诊病例Si,利用深度学习分类模型,采用上述方式实现Si到训练样本xi的转化,而每一个门诊病例Si的标签Li转化为向量xi的标签向量yi,从而获取到多标签训练样本集Tr={(x1,y1),(x2,y2),...,(xN,yN)}。
步骤4中训练多标签分类模型的具体步骤如下:
步骤41.给定多标签训练样本集Tr,训练每次采样的数据集所采用的基础模型Model,基础模型指的是下文提出的在每次采样的数据集上训练的分类器。本文阐述的多标签分类模型是一种集成分类模型,由很多基础模型加权组合而来,因此基础指的是底层分类模型之意。基础模型可以是常见的分类模型(分类器),如决策树、支持向量机等;
步骤42.将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。
医学数据集存在不均衡特点,直接在Tr上难以训练高效模型,将多标签样本集拆分为多个单标签样本集进行训练,采用采样方法集成多个基础模型,从而获取更优分类模型。其中拆分的优势在于在不均衡条件下,可以训练更好的分类模型。对于拆分获取的每一个标签对应的训练样本集合,可以采用多次采样方法训练多个基础模型,并加权组合为强分类器。如果不拆分为多个数据集,则可以采用ML-KNN、深度学习等直接训练多标签分类模型,但是无法保证不常见类别的召回率,模型的高效性难以保证。
步骤421.依次将多标签样本根据其标签向量yi的每一维的取值拆分为多个样本具体方式如下:
采用上述方式,可以获取到C个不同的训练集合{Tr1,Tr2,…,TrC}, 其中Tri为样本标签li代表的训练样本集合。
步骤422.针对每一个标签li的训练样本集合Tri,采用多次采样的方式训练多个基础模型其中为第k次采样训练的分类器(分类模型),最终标签li对应的强分类器Fi可以表示为上述多个基础模型的加权集成,的权重,由在Tri上的分类精确度进行确定。
步骤423.依次得到每一个标签li的二分类模型Fi,从而得到多标签分类模型{F1,F2,…,FC},并且根据验证集上的效果获取每一个二分类模型Fi对应的最佳分类性能时的阈值
步骤5具体包括样本预测,给定一个未知标签集合的医学样本(待分析的医学样本),预测其可能的标签集合,实现方法如下:
步骤51.给定待预测样本x。
步骤52.根据多标签分类模型{F1,F2,…,FC},预测样本x属于每一个标签的概率值{P1,P2,…,PC},Pi为Fi计算得到的样本x属于标签li的概率,计算如下,其中表示给出的样本x属于标签li的概率值。
对于待预测样本x,每一个基础模型均会给出一个概率值 R0-1表示0到1之间的概率值,采用加权投票的方式就可以确定出最终分类器Fi给出的概率值Pi
步骤53.待预测样本的标签集合的确定,方法如下:
步骤531.按照步骤52得到样本x属于每一个标签的概率值{P1,P2,…,PC},并按照从大到小进行排序。
步骤532.判断各个标签的概率是否大于等于对应标签阈值,若成立,则将该标签加入待预测样本的标签集合中,否则,则不考虑,例如,对于标签li的预测概率值Pi,若则认为样本x属于类别li,否则不属于。
步骤533.将步骤步骤52生成的预测标签集合输出,作为原始待预测多标签样本的预测结果。
下面将更具体地描述本发明提出的基于迁移学习的医学疾病分析模型的实施步骤:
步骤2.获取医学门诊病例的语义特征表示,构造样本数据集,其实现方法如下:
步骤21.给定真实医学门诊病例集合Case={(S1,L1),(S2,L2),...,(SN,LN)},T表示向量转置符号,Len(i)表示第i个门诊病例的词语个数,是第i个门诊病例的第j个词语序列的词嵌入(word embedding)表示,其中表示第k维的值,R为整体实数; li为样本对应的每一个标签,即Li是样本标签集合{l1,l2,…,lc}的一个子集。
如在医学门诊病例中,有很多电子门诊病例Case,其中一个样本序列可以表示为由多种症状构成的病例集合Si=(为阵咳,有痰。逐渐加重。伴发热1天,体温最高38.3摄氏度。伴流涕,无呕吐及腹泻。),每一个词均对应一个词嵌入(word embedding)表示,词嵌入表示为预先在源领域内训练的词嵌入结果,可以如下表所示为大小为1的词序列,每一个词序列表示为一个固定维度的向量。
词嵌入表示
(0.101,0.893,0.293,0.623,…,0.485)
(0.902,0.205,0.830,0.103,…,0.903)
…… ……
(0.789,0.402,0.705,0.633,…,0.358)
Si可以表示为词序列的词嵌入表示的组合,如下所示。
Si=(阵,…,吐)T→((0.101,0.893,…,0.485),…,(0.789,0.402,…,0.358))T
步骤22.此处以深度学习模型阐述如何获取每一个门诊病例的语义特征表示,从而构建训练样本集,但不局限于此模型。
xi=Transfer(Fsource(Si))
其中Fsource表示预先在大规模源数据集(如全网新闻数据SogouCA)上训练的深度学习分类模型,Fsource(Si)表示将Si作为模型Fsource的输入,从而获取到一系列特征图(FeatureMap),Transfer函数将特征图转化为固定维度的特征向量xi,转化方式Transfer可以采用先卷积后全连接的方式实现,这样就完成了门诊病例词语序列Si到训练样本Xi的转化,如图1所示。
此外,通过下述公式将样本标签Li转化为标签向量其中lj是Li的一个元素,表示如下:
对于每一个门诊病例Si,利用深度学习分类模型,采用上述方式实现Si到训练样本xi的转化,而每一个门诊病例Si的标签Li转化为向量xi的标签向量yi,从而获取到多标签训练样本集Tr={(x1,y1),(x2,y2),...,(xN,yN)}。
步骤4.训练多标签分类模型,本专利以决策树模型为例,但不局限于决策树模型:
步骤41.给定多标签训练样本集Tr,决策树基础模型D;
步骤42.训练每一个标签预测分类器,步骤如下:
步骤421.依次将多标签样本根据其标签向量yi的每一维的取值拆分为多个样本具体方式如下:
采用上述方式,可以获取到C个不同的训练集合{Tr1,Tr2,…,TrC}, 其中Tri为样本标签li代表的训练样本集合。
对于医学门诊病例来说,分析结果通常是多个疾病的集合,如:病例(Si,Li),其中症状Si为“阵咳,有痰。逐渐加重。伴发热1天,体温最高38.3摄氏度。伴流涕,呕吐”,病症的标签集合Li={“呼吸道感染”,“胃肠炎”},假设Si经过A2步被转化为了xi,若lk为“呼吸道感染”,lj为“胃肠炎”,则将样本(xi,1)加入到标签lk对应的训练集合Trk中,同时将样本(xi,1)加入到标签lj对应的训练集合Trj中,相应地将(xi,0)加入到除了Trk和Trj之外的其他标签对应的训练集合中。
步骤422.针对每一个标签li的训练样本集合Tri,采用多次采样的方式训练多个基础决策树模型其中为第k次采样训练的分类器,最终标签li对应的分类器Fi可以表示为上述多个基础模型的加权集成,的权重,由在Tri上的分类精确度进行确定。
假设总共训练三个分类器其中对应的分类精确度分别为则采用如下公式计算基础分类器的权重为:
计算得到 因此Fi可以表示为
步骤423.依次得到每一个标签li的二分类模型Fi,从而得到多标签分类模型{F1,F2,…,FC},并且根据验证集上的效果获取每一个二分类模型Fi对应的最佳分类性能时的阈值
对于标签li的训练集Tri,将数据集Tri分为训练集验证集和测试集首先在训练集上训练二分类模型Fi,对于任意待测样本采用下述公式计算分类器Fi判断其为正样本的概率:
最终的预测结果表示为:
根据以下公式计算模型Fi在验证集上的分类性能:
采用网格搜索法,选取初值为0.3,未值为0.8,步长为0.05共11个值,分别计算不同阈值下的分类性能,选取最好分类性能下的阈值作为标签li最终的选取阈值
步骤5.样本预测,给定一未知标签集合的多标签样本,预测其可能的标签集合,实现方法如下:
步骤51.给定待预测样本x。
步骤52.根据多标签分类模型{F1,F2,…,FC},预测样本x属于每一个标签的概率值{P1,P2,…,PC},Pi为Fi计算得到的样本x属于标签li的概率,计算如下,其中表示给出的样本x属于标签li的概率值。
步骤53.待预测样本的标签集合的确定,方法如下:
步骤531.按照步骤52得到样本x属于每一个标签的概率值{P1,P2,…,PC},并按照从大到小进行排序。
步骤532.判断各个标签的概率是否大于等于对应标签阈值,若成立,则将该标签加入待预测样本的标签集合中,否则,则不考虑,例如,对于标签li的预测概率值Pi,若则认为样本x属于类别li,否则不属于类别li
在医学门诊病例预测中,对于一个真实的门诊病例待测样本x,假如标签“呼吸道感染”对应的分类器预测待测样本x属于“呼吸道感染”的概率为0.75,“呼吸道感染”对应的选取阈值为0.55,由于0.75>0.55,则将标签“呼吸道感染”加入到样本x的标签集合中,其他标签的预测类似。
步骤533.将步骤52生成的预测标签集合输出,作为原始待预测样本x的标签集合。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于迁移学习的医学分析系统,其中包括:
第一训练模块,用于获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
病例获取模块,用于获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
特征向量提取模块,使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
第二训练模块,用于通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;
分析模块,用于将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
该迁移学习的医学分析系统,其中该第二训练模块具体包括:
将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。
该迁移学习的医学分析系统,其中该第二训练模块还包括:
针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。
该迁移学习的医学分析系统,其中该第二训练模块还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该分析模块包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。
该迁移学习的医学分析系统,其中该单标签分类模型为二分类模型。
由此本发明针对医学疾病预测问题,提出基于迁移学习的医学数据处理与系统,目标是提取医学门诊病例的语义特征表示,以避免人工选择特征的缺点,提高基于门诊病例的医学疾病预测准确率。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。

Claims (10)

1.一种基于迁移学习的医学数据处理,其特征在于,包括:
步骤1、获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
步骤2、获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
步骤3、使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
步骤4、通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;
步骤5、将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
2.如权利要求1所述的迁移学习的医学数据处理,其特征在于,该步骤4具体包括:
将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。
3.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该步骤4还包括:
针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。
4.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该步骤4还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该步骤5包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。
5.如权利要求2所述的迁移学习的医学数据处理,其特征在于,该单标签分类模型为二分类模型。
6.一种基于迁移学习的医学分析系统,其特征在于,包括:
第一训练模块,用于获取医学领域外的本文数据,根据该本文数据,训练得到文本分类模型;
病例获取模块,用于获取医学领域内的病例集合,其中该病例集合包含症状和标签,该标签为该症状对应的病症;
特征向量提取模块,使用该文本分类模型提取该症状的特征向量作为症状向量,并根据该症状对应的病症类型,将该标签转化为标签向量;
第二训练模块,用于通过集合该症状向量及其对应的标签向量,构建多标签训练样本集,根据该多标签训练样本集,训练得到多标签分类模型;
分析模块,用于将待分析的医学样本输入至该多标签分类模型,判断该医学样本属于每一种标签的概率值,并根据该概率值得到分析标签集合,作为该医学样本的分析结果。
7.如权利要求6所述的迁移学习的医学分析系统,其特征在于,该第二训练模块具体包括:
将该多标签训练样本集拆分为多个单标签样本集,针对该单标签样本集采用多次采样的方式训练得到每一个标签的单标签分类模型,并集合每一个该单标签分类模型得到该多标签分类模型。
8.如权利要求7所述的迁移学习的医学分析系统,其特征在于,该第二训练模块还包括:
针对该单标签样本集,采用多次采样的方式训练多个分类模型,多个分类模型加权集成得到该单标签分类模型,其中加权的权重由分类模型的分类精度决定。
9.如权利要求7所述的迁移学习的医学分析系统,其特征在于,该第二训练模块还包括:根据验证集上的效果获取该单标签分类模型最佳分类性能时的阈值;该分析模块包括:判断该概率值是否大于等于该阈值,若是,则将该概率值对应的标签加入该预测标签集合。
10.如权利要求7所述的迁移学习的医学分析系统,其特征在于,该单标签分类模型为二分类模型。
CN201810186122.2A 2018-03-07 2018-03-07 一种基于迁移学习的医学数据处理和系统 Active CN108520780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810186122.2A CN108520780B (zh) 2018-03-07 2018-03-07 一种基于迁移学习的医学数据处理和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810186122.2A CN108520780B (zh) 2018-03-07 2018-03-07 一种基于迁移学习的医学数据处理和系统

Publications (2)

Publication Number Publication Date
CN108520780A true CN108520780A (zh) 2018-09-11
CN108520780B CN108520780B (zh) 2021-08-06

Family

ID=63433553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810186122.2A Active CN108520780B (zh) 2018-03-07 2018-03-07 一种基于迁移学习的医学数据处理和系统

Country Status (1)

Country Link
CN (1) CN108520780B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257670A (zh) * 2018-01-22 2018-07-06 北京颐圣智能科技有限公司 医学解释模型的建立方法和装置
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN109431463A (zh) * 2018-10-23 2019-03-08 南开大学 基于中西医样本标记的深度学习中医智能诊疗系统
CN109447183A (zh) * 2018-11-27 2019-03-08 东软集团股份有限公司 模型训练方法、装置、设备以及介质
CN109460473A (zh) * 2018-11-21 2019-03-12 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
CN109871866A (zh) * 2019-01-08 2019-06-11 深圳市南山区人民医院 用于医院内感染预测的模型训练方法、装置、设备及介质
CN110119849A (zh) * 2019-05-21 2019-08-13 山东大学 一种基于网络行为的人格特质预测方法及系统
CN110263168A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 症状词分类方法、装置以及终端
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110797121A (zh) * 2019-10-29 2020-02-14 浪潮天元通信信息系统有限公司 一种基于物联网的远程智能健康分析系统及方法
CN111242793A (zh) * 2020-01-16 2020-06-05 上海金仕达卫宁软件科技有限公司 医保数据异常的检测方法和装置
CN111312401A (zh) * 2020-01-14 2020-06-19 之江实验室 一种基于多标签学习的体检后慢性疾病预后系统
CN111477321A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 具有自学习能力的治疗效果预测系统及治疗效果预测终端
CN111513702A (zh) * 2020-04-30 2020-08-11 何中煜 心电数据的检测方法及存储介质
CN111582366A (zh) * 2020-05-07 2020-08-25 清华大学 图像处理方法、装置及设备
CN111613299A (zh) * 2020-06-15 2020-09-01 山东搜搜中医信息科技有限公司 中医数据的多标签分析技术
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN111931854A (zh) * 2020-08-12 2020-11-13 北京建筑大学 一种提高图像识别模型可移植性能的方法
CN112117009A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 用于构建标签预测模型的方法、装置、电子设备及介质
CN112420187A (zh) * 2020-10-15 2021-02-26 南京邮电大学 一种基于迁移联邦学习的医疗疾病分析方法
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112926609A (zh) * 2019-12-05 2021-06-08 上海高德威智能交通系统有限公司 图像处理方法及装置
WO2021143781A1 (zh) * 2020-01-14 2021-07-22 之江实验室 基于多源迁移学习的多中心协同癌症预后预测系统
CN113421643A (zh) * 2021-07-09 2021-09-21 浙江大学 一种ai模型可靠性判断方法、装置、设备及存储介质
CN113555110A (zh) * 2021-07-15 2021-10-26 北京鹰瞳科技发展股份有限公司 一种训练多疾病转诊模型的方法及设备
CN118098623A (zh) * 2024-04-26 2024-05-28 菏泽医学专科学校 基于大数据的医疗信息数据智能化管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012052876A1 (en) * 2010-10-19 2012-04-26 Koninklijke Philips Electronics N.V. System and method for dynamic growing of a patient database with cases demonstrating special characteristics
CN106934235A (zh) * 2017-03-09 2017-07-07 中国科学院软件研究所 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN107644057A (zh) * 2017-08-09 2018-01-30 天津大学 一种基于迁移学习的绝对不平衡文本分类方法
CN107735804A (zh) * 2015-07-06 2018-02-23 微软技术许可有限责任公司 不同标记集合的转移学习技术

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012052876A1 (en) * 2010-10-19 2012-04-26 Koninklijke Philips Electronics N.V. System and method for dynamic growing of a patient database with cases demonstrating special characteristics
CN107735804A (zh) * 2015-07-06 2018-02-23 微软技术许可有限责任公司 不同标记集合的转移学习技术
CN106934235A (zh) * 2017-03-09 2017-07-07 中国科学院软件研究所 一种基于迁移学习的疾病领域间病人相似性度量迁移系统
CN107644057A (zh) * 2017-08-09 2018-01-30 天津大学 一种基于迁移学习的绝对不平衡文本分类方法

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257670A (zh) * 2018-01-22 2018-07-06 北京颐圣智能科技有限公司 医学解释模型的建立方法和装置
CN108257670B (zh) * 2018-01-22 2021-06-22 北京颐圣智能科技有限公司 医学解释模型的建立方法和装置
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN109431463A (zh) * 2018-10-23 2019-03-08 南开大学 基于中西医样本标记的深度学习中医智能诊疗系统
CN109460473A (zh) * 2018-11-21 2019-03-12 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
CN109447183A (zh) * 2018-11-27 2019-03-08 东软集团股份有限公司 模型训练方法、装置、设备以及介质
CN109447183B (zh) * 2018-11-27 2020-10-16 东软集团股份有限公司 预测模型训练方法、装置、设备以及介质
CN109871866B (zh) * 2019-01-08 2023-04-07 深圳市南山区人民医院 用于医院内感染预测的模型训练方法、装置、设备及介质
CN109871866A (zh) * 2019-01-08 2019-06-11 深圳市南山区人民医院 用于医院内感染预测的模型训练方法、装置、设备及介质
CN110119849A (zh) * 2019-05-21 2019-08-13 山东大学 一种基于网络行为的人格特质预测方法及系统
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110263168A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 症状词分类方法、装置以及终端
CN110797121A (zh) * 2019-10-29 2020-02-14 浪潮天元通信信息系统有限公司 一种基于物联网的远程智能健康分析系统及方法
CN112926609B (zh) * 2019-12-05 2023-01-24 上海高德威智能交通系统有限公司 图像处理方法及装置
CN112926609A (zh) * 2019-12-05 2021-06-08 上海高德威智能交通系统有限公司 图像处理方法及装置
US11735321B2 (en) 2020-01-14 2023-08-22 Zhejiang Lab System for the prognostics of the chronic diseases after the medical examination based on the multi-label learning
US11456078B2 (en) 2020-01-14 2022-09-27 Zhejiang Lab Multi-center synergetic cancer prognosis prediction system based on multi-source migration learning
CN111312401A (zh) * 2020-01-14 2020-06-19 之江实验室 一种基于多标签学习的体检后慢性疾病预后系统
WO2021143781A1 (zh) * 2020-01-14 2021-07-22 之江实验室 基于多源迁移学习的多中心协同癌症预后预测系统
WO2021143780A1 (zh) * 2020-01-14 2021-07-22 之江实验室 一种基于多标签学习的体检后慢性疾病预后系统
CN111242793B (zh) * 2020-01-16 2024-02-06 上海金仕达卫宁软件科技有限公司 医保数据异常的检测方法和装置
CN111242793A (zh) * 2020-01-16 2020-06-05 上海金仕达卫宁软件科技有限公司 医保数据异常的检测方法和装置
CN111477321B (zh) * 2020-03-11 2023-06-09 北京大学第三医院(北京大学第三临床医学院) 具有自学习能力的治疗效果预测系统及治疗效果预测终端
CN111477321A (zh) * 2020-03-11 2020-07-31 北京大学第三医院(北京大学第三临床医学院) 具有自学习能力的治疗效果预测系统及治疗效果预测终端
CN111513702A (zh) * 2020-04-30 2020-08-11 何中煜 心电数据的检测方法及存储介质
CN111582366B (zh) * 2020-05-07 2023-10-31 清华大学 图像处理方法、装置及设备
CN111582366A (zh) * 2020-05-07 2020-08-25 清华大学 图像处理方法、装置及设备
CN111651605A (zh) * 2020-06-04 2020-09-11 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN111651605B (zh) * 2020-06-04 2022-07-05 电子科技大学 基于多标签分类的肺癌前沿趋势预测方法
CN111613299A (zh) * 2020-06-15 2020-09-01 山东搜搜中医信息科技有限公司 中医数据的多标签分析技术
CN111931854A (zh) * 2020-08-12 2020-11-13 北京建筑大学 一种提高图像识别模型可移植性能的方法
CN111931854B (zh) * 2020-08-12 2021-03-23 北京建筑大学 一种提高图像识别模型可移植性能的方法
CN112117009A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 用于构建标签预测模型的方法、装置、电子设备及介质
CN112420187A (zh) * 2020-10-15 2021-02-26 南京邮电大学 一种基于迁移联邦学习的医疗疾病分析方法
CN112599211B (zh) * 2020-12-25 2023-03-21 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN112599211A (zh) * 2020-12-25 2021-04-02 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN113421643A (zh) * 2021-07-09 2021-09-21 浙江大学 一种ai模型可靠性判断方法、装置、设备及存储介质
CN113555110A (zh) * 2021-07-15 2021-10-26 北京鹰瞳科技发展股份有限公司 一种训练多疾病转诊模型的方法及设备
CN118098623A (zh) * 2024-04-26 2024-05-28 菏泽医学专科学校 基于大数据的医疗信息数据智能化管理方法及系统

Also Published As

Publication number Publication date
CN108520780B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN108520780A (zh) 一种基于迁移学习的医学数据处理和系统
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN108830209B (zh) 基于生成对抗网络的遥感图像道路提取方法
CN109213999A (zh) 一种主观题评分方法
CN109670177A (zh) 一种基于lstm实现医学语义归一化的控制方法及控制装置
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN107066934A (zh) 胃部肿瘤细胞图像识别判定装置、方法及胃部肿瘤切片识别判定设备
CN110335668A (zh) 基于深度学习的甲状腺癌细胞病理图辅助分析方法及系统
CN111599462B (zh) 基于认知学习的身体异常气味智能筛查系统
CN109009102A (zh) 一种基于脑电图深度学习的辅助诊断方法及系统
CN102982343B (zh) 手写数字识别的增量式模糊支持向量机方法
CN107180283A (zh) 一种基于最优特征组合的再住院行为预测系统及方法
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN117789971B (zh) 基于文本情感分析的心理健康智能评测系统及方法
CN117315380B (zh) 一种基于深度学习的肺炎ct图像分类方法及系统
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
CN110288028A (zh) 心电检测方法、系统、设备及计算机可读存储介质
CN107220663A (zh) 一种基于语义场景分类的图像自动标注方法
CN101706876B (zh) 基于混合子空间学习选择性集成的微钙化簇检测方法
CN114511759A (zh) 一种皮肤状态图像的类别识别和特征确定方法及系统
Banerjee et al. Predicting Tulip Leaf Diseases: A Integrated CNN and Random Forest Approach
CN117010971B (zh) 一种基于人像识别的智能健康险提供方法及系统
CN109471941A (zh) 一种应对类别不平衡的罪名分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240320

Address after: Room 711C, Floor 7, Building A, Yard 19, Ronghua Middle Road, Daxing District, Beijing Economic-Technological Development Area, 100176

Patentee after: Beijing Zhongke Flux Technology Co.,Ltd.

Country or region after: China

Address before: 100190 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

Country or region before: China

TR01 Transfer of patent right