CN110738263B - 一种图像识别模型训练的方法、图像识别的方法及装置 - Google Patents

一种图像识别模型训练的方法、图像识别的方法及装置 Download PDF

Info

Publication number
CN110738263B
CN110738263B CN201910989262.8A CN201910989262A CN110738263B CN 110738263 B CN110738263 B CN 110738263B CN 201910989262 A CN201910989262 A CN 201910989262A CN 110738263 B CN110738263 B CN 110738263B
Authority
CN
China
Prior art keywords
image
prediction probability
loss function
recognition model
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910989262.8A
Other languages
English (en)
Other versions
CN110738263A (zh
Inventor
尚鸿
郑瀚
孙钟前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910989262.8A priority Critical patent/CN110738263B/zh
Publication of CN110738263A publication Critical patent/CN110738263A/zh
Priority to EP20877797.9A priority patent/EP3982292B1/en
Priority to JP2022515569A priority patent/JP7355924B2/ja
Priority to PCT/CN2020/116998 priority patent/WO2021073380A1/zh
Application granted granted Critical
Publication of CN110738263B publication Critical patent/CN110738263B/zh
Priority to US17/515,312 priority patent/US11960571B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请公开了一种图像识别模型训练的方法,包括:获取待训练图像集合;基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率;根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数;基于目标损失函数训练待训练图像识别模型,得到图像识别模型。本申请还公开了一种图像识别的方法和装置。本申请采用有标注的,且针对不同任务的医学图像和未标注的医学图像共同对模型进行训练,有效利用了已标注图像和未标注图像,不但降低了对图像标注的需求,还增加了训练的数据量,从而在节省标注资源的同时还能提升模型的预测效果。

Description

一种图像识别模型训练的方法、图像识别的方法及装置
技术领域
本申请涉及人工智能领域,尤其涉及一种图像识别模型训练的方法、图像识别的方法及装置。
背景技术
随着人口的不断增加,医疗系统的负荷与日俱增,对于医疗资源的需求度也越来越大。在实际应用中,医护人员可通过医学图像对患者的病情进行分析。为了能够帮助医护人员更快且更准确地诊断病情,还可以借助自动诊断设备对医学图像进行识别。
目前,在自动诊断的过程中需要采用大量的医学图像进行训练,其中,这些医学图像需要经过医护人员的标注,即医护人员可按照临床习惯对每个医学图像做出判断,例如,标注该医学图像是否存在疾病,以及标注该医学图像中病灶所在的位置等。
然而,随着医学图像的数量不断累积,病灶的复杂度越来越高,标注的难度也越来越大。而标注资源有限,导致模型训练过程中仅能够使用少部分已标注的医学图像。而且由于模型训练通常需要结合具体的任务来实现,针对不同的任务需要采用与该任务对应的训练集,导致已经标注好的医学图像并未得到有效的利用以及部分任务的训练集的数据不足,导致模型预测效果的准确度较低。
发明内容
本申请实施例提供了一种图像识别模型训练的方法、图像识别的方法及装置,采用有标注的,且针对不同任务的医学图像和未标注的医学图像共同对模型进行训练,有效利用了已标注图像和未标注图像,不但降低了对图像标注的需求,还增加了训练的数据量,从而在节省标注资源的同时还能提升模型的预测效果。
有鉴于此,本申请第一方面提供一种图像识别模型训练的方法,包括:
获取待训练图像集合,其中,所述待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,所述第一图像集合包括至少一个第一图像,所述第二图像集合包括至少一个第二图像以及至少一个干扰图像,所述第三图像集合包括至少一个第三图像,所述第一图像为第一任务所对应的已标注图像,所述第二图像为第一任务所对应的未标注图像,所述第三图像为第二任务所对应的已标注图像,所述第一任务与所述第二任务属于不同的任务;
基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,所述第一预测概率为基于所述第一图像集合输出的一个预测结果,所述第二预测概率和所述第三预测概率为基于所述第二图像集合输出的一个预测结果,所述第四预测概率为基于所述第三图像集合输出的一个预测结果;
根据所述第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,所述目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,所述第一损失函数为根据所述第一预测概率确定的,所述第二损失函数为根据所述第二预测概率和所述第三预测概率确定的,所述第三损失函数为根据所述第四预测概率确定的;
基于所述目标损失函数训练所述待训练图像识别模型,得到图像识别模型。
本申请第二方面提供一种图像识别的方法,包括:
获取待识别图像;
通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述第一方面提供的图像识别模型;
展示所述图像识别结果。
本申请第三方面提供一种图像识别模型训练装置,包括:
获取模块,用于获取待训练图像集合,其中,所述待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,所述第一图像集合包括至少一个第一图像,所述第二图像集合包括至少一个第二图像以及至少一个干扰图像,所述第三图像集合包括至少一个第三图像,所述第一图像为第一任务所对应的已标注图像,所述第二图像为第一任务所对应的未标注图像,所述第三图像为第二任务所对应的已标注图像,所述第一任务与所述第二任务属于不同的任务;
所述获取模块,还用于基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,所述第一预测概率为基于所述第一图像集合输出的一个预测结果,所述第二预测概率和所述第三预测概率为基于所述第二图像集合输出的一个预测结果,所述第四预测概率为基于所述第三图像集合输出的一个预测结果;
所述获取模块,还用于通过所述待训练图像识别模型获取所述第二图像集合所对应的第二预测结果集合,其中,所述第二预测结果集合包括至少一个第二预测概率以及至少一个第三预测概率,所述至少一个第二预测概率为所述待训练图像识别模型输出的一个预测结果,所述至少一个第三预测概率为所述待训练图像识别模型输出的另一个预测结果;
所述获取模块,还用于通过所述待训练图像识别模型获取所述第三图像集合所对应的第三预测结果集合,其中,所述第三预测结果集合包括至少一个第四预测概率,每个第四预测概率对应一个第三图像;
确定模块,用于根据所述第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,所述目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,所述第一损失函数为根据所述第一预测概率确定的,所述第二损失函数为根据所述第二预测概率和所述第三预测概率确定的,所述第三损失函数为根据所述第四预测概率确定的;
训练模块,用于根据所述确定模块确定的所述目标损失函数训练所述待训练图像识别模型,得到图像识别模型。
在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,
所述获取模块,具体用于基于所述第一图像集合,通过所述待训练图像识别模型获取所述第一预测概率;
基于所述第二图像集合,通过所述待训练图像识别模型获取所述第二预测概率和所述第三预测概率;
基于所述第三图像集合,通过所述待训练图像识别模型获取所述第四预测概率。
在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,
所述获取模块,具体用于基于所述至少一个第一图像,通过所述待训练图像识别模型所包括的全连接层获取第一预测值;
对所述第一预测值进行归一化处理,得到所述第一预测概率。
在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,
所述获取模块,具体用于根据所述至少一个第二图像生成第一干扰图像集合,其中,所述第一干扰图像集合包括至少一个第一干扰图像,所述第一干扰图像与所述第二图像具有对应关系,所述第一干扰图像属于所述干扰图像;
根据所述至少一个第二图像生成第二干扰图像集合,其中,所述第二干扰图像集合包括至少一个第二干扰图像,所述第二干扰图像与所述第二图像具有对应关系,所述第二干扰图像属于所述干扰图像;
基于所述至少一个第二图像以及所述第一干扰图像集合,通过所述待训练图像识别模型获取所述第二预测概率;
基于所述至少一个第二图像以及所述第二干扰图像集合,通过所述待训练图像识别模型获取所述第三预测概率。
在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,
所述获取模块,具体用于基于所述至少一个第三图像,通过所述待训练图像识别模型所包括的全连接层获取所述第四预测值;
对所述第四预测值进行归一化处理,得到所述第四预测概率。
在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,
所述确定模块,具体用于根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数;
根据所述第二预测概率以及所述第三预测概率,计算所述第二损失函数;
根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数;
获取熵损失函数以及正则化损失函数;
根据所述第一损失函数、所述第二损失函数、所述第三损失函数、所述熵损失函数以及所述正则化损失函数,计算得到所述目标损失函数。
在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,
所述确定模块,具体用于根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数;
具体地,采用如下方式计算所述第一损失函数:
LCE(p0,y0)=-log(p0[y0]);
其中,所述LCE表示所述第一损失函数,所述p0表示第一预测概率,所述y0表示所述第一图像集合所对应的标注信息。
在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,
所述确定模块,具体用于根据所述第二预测概率以及所述第三预测概率,计算所述第二损失函数;
具体地,采用如下方式计算所述第二损失函数:
Figure BDA0002237712010000041
或,采用如下方式计算所述第二损失函数:
Figure BDA0002237712010000042
其中,所述LCon表示所述第二损失函数,所述C表示类型总数,所述k表示第k个类型,所述ps表示所述第二预测概率,所述pr表示所述第三预测概率。
在一种可能的设计中,在本申请实施例的第三方面的第八种实现方式中,
所述确定模块,具体用于根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数;
可选地,采用如下方式计算所述第三损失函数:
LMTL(p1,y1)=-log(p1[y1]);
其中,所述LMTL表示所述第三损失函数,所述p1表示所述第四预测概率,所述y1表示所述第三图像集合所对应的标注信息。
本申请第四方面提供一种图像识别装置,包括:
获取待识别图像;
通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述第一方面提供的图像识别模型;
展示所述图像识别结果。
本申请第五方面提供一种电子设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括执行如上述第一方面或第二方面中任意一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第六方面提供一种内窥镜医疗诊断系统,包括:探头、电路、处理器以及显示器;
所述电路,用于激励所述探头获取待识别图像;
所述处理器,用于处理所述待识别图像;
所述显示器,用于显示所述图像识别结果;
其中,所述处理器还执行如下步骤:
通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述第一方面中任一项所述的图像识别模型;
展示所述图像识别结果。
本申请的第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种图像识别模型训练的方法,首先获取待训练图像集合,然后基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,再根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,最后基于目标损失函数训练待训练图像识别模型,得到图像识别模型。通过上述方式,采用有标注的针对不同任务的医学图像和未标注的医学图像共同对模型进行训练,有效利用了已标注图像和未标注图像,不但降低了对图像标注的需求,还增加了训练的数据量,从而在节省标注资源的同时还能提升模型的预测效果。
附图说明
图1为本申请实施例中图像识别系统的一个架构示意图;
图2为本申请实施例中训练图像识别模型的一个整体结构示意图;
图3为本申请实施例中图像识别模型训练的方法一个实施例示意图;
图4为本申请实施例中基于半监督学习的一个实施例示意图;
图5为本申请实施例中基于多任务学习的一个实施例示意图;
图6为本申请实施例中图像识别的方法一个实施例示意图;
图7为本申请实施例中展示图像识别结果的一个界面示意图;
图8为本申请实施例中图像识别模型训练装置的一个实施例示意图;
图9为本申请实施例中图像识别装置的一个实施例示意图;
图10为本申请实施例中服务器的一个结构示意图;
图11为本申请实施例中终端设备的一个结构示意图;
图12为本申请实施例中内窥镜医疗诊断系统的一个结构示意图。
具体实施方式
本申请实施例提供了一种图像识别模型训练的方法、图像识别的方法及装置,采用有标注的针对不同任务的医学图像和未标注的医学图像共同对模型进行训练,有效利用了已标注图像和未标注图像,不但降低了对图像标注的需求,还增加了训练的数据量,从而在节省标注资源的同时还能提升模型的预测效果。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的图像识别模型训练的方法以及图像识别的方法,应用于人工智能(Artificial Intelligence,AI)的医学领域,具体可以应用于基于计算机视觉技术(Computer Vision,CV)的医学图像识别领域。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
CV计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着科技的快速发展,AI在医疗行业的应用也越来越广泛,在医学领域中最常见的医学图像包含但不仅限于内窥镜图像、血管摄影图像、心血管造影图像、电子计算机断层扫描(computerized tomography,CT)图像、B超图像以及病理图像。由于医学图像直接反映出组织内部所发生的病变,是医生进行疾病诊断的重要依据,甚至是进行某些疾病诊断的最终依据,例如在癌症诊断中,通过对病灶的放射影像学图像进行观察,包括观察是否有阴影、斑块或者血管扩张情况等。本申请可以针对内窥镜图像进行识别,应用在内窥镜图像的自动诊断,以辅助医生提高诊断效率和准确率,并在此基础上,进一步利用可获得的其他形式的数据辅助模型训练,提高模型准确率。
医学图像是医生对病人病情进行了解的重要信息入口,虽然目前高质量的医疗成像设备已经普及,但是对医学图像的准确解读往往需要医生具有专业的知识背景和长期的经验积累。考虑到人口数量大,医疗系统负荷重,有经验的医生数量不足,且主要集中在一线城市的大型三甲医院,从而导致医疗资源非常稀缺。本申请提供的方法能够在利用目标任务的有标数据的基础上,进一步利用该目标任务的无标数据(即半监督学习),和其他相关任务的有标数据(即多任务学习),最大化利用已有各种类型的数据中的信息辅助模型训练,从而提升模型效果。
为了便于理解,本申请提出了一种图像识别的方法,该方法应用于图1所示的图像识别系统,请参阅图1,图1为本申请实施例中图像识别系统的一个架构示意图,如图所示,图像识别系统可以包括医疗设备,医疗设备具体可以是内窥镜设备或者电子显微镜等,医疗设备在采集到待识别的医学图像之后,可以按照任务类型采用训练好的图像识别模型对医学图像进行识别,以内窥镜图像的自动诊断为例,可以按照不同的部位(如食管、胃、十二指肠或者结直肠)进行识别,也可以按照不同的目的(如区分良恶性,区分部位,区分图片是否合格)等任务进行识别,最后可得到一个可视化的结果,给医生提供一个重点关注的区域。可选地,医疗设备在采集到待识别的医学图像之后,可以将该医学图像发送至终端设备,由终端设备采用训练好的图像识别模型对该医学图像进行识别,可得到一个可视化的结果,给医生提供一个重点关注的区域,并展示在界面上。可选地,医疗设备在采集到待识别的医学图像之后,可以将该医学图像发送至服务器,由服务器采用训练好的图像识别模型对该医学图像进行识别,服务器在得到识别结果之后可以将该结果反馈给终端设备或者医疗设备,由终端设备或者医疗设备进行展示。
需要说明的是,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。
本申请中所使用的图像识别模型可采用如图2所示的架构进行训练,请参阅图2,图2为本申请实施例中训练图像识别模型的一个整体结构示意图,如图所示,本申请的图像识别模型可以采用深度学习模型结构,例如残差网络(Residual Network,ResNet)结构或者密集卷积网络(Dense Net)结构。在训练的过程中可以对训练数据进行数据增强(dataaugmentation)以及数据预处理(preprocessing),训练采用端到端的基于随机梯度下降方法。可以选择每个任务交替训练,对于交替训练而言,即依次输入目标任务的有标数据、多任务学习中辅助任务数据以及半监督学习中无标数据,调用对应的优化器降低对应的损失值,以此更新重叠部分的参数和该目标任务独有的参数。也可以选择混合训练,对于混合训练而言,即每次输入混合后目标任务的有标数据、多任务学习中辅助任务数据以及半监督学习中无标数据,将相应的损失值相加后调用优化器,从而降低总的损失值。
训练得到图像识别模型之后,使用如图2所示的在线推断(inference)部分既可以进行预测,在线推断部分包括数据预处理、网络模型以及全连接层,在实际应用中,还可以包括其他的网络层,此次仅为一个示意,不应理解为对本申请的限定。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。结合上述介绍,本申请实施例提供的方案涉及人工智能的图像识别等技术,具体通过如下实施例进行说明,请参阅图3,本申请实施例中图像识别模型训练的方法一个实施例包括:
101、获取待训练图像集合,其中,待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,第一图像集合包括至少一个第一图像,第二图像集合包括至少一个第二图像以及至少一个干扰图像,第三图像集合包括至少一个第三图像,第一图像为第一任务所对应的已标注图像,第二图像为未标注图像,第三图像为第二任务所对应的已标注图像,第一任务与第二任务属于不同的任务;
在本实施例中,图像识别模型训练装置获取待训练图像集合,可以理解的是,图像识别训练装置可以部署于终端设备上,也可以部署于服务器上,由于训练的数据量往往比较大,因此可以采用服务器进行模型训练,然而这不应理解为对本申请的限定。
待训练图像集合中至少包括第一图像集合、第二图像集合和第三图像集合,第一图像集合、第二图像集合和第三图像集合均属于训练样本,第一图像集合包括至少一个第一图像(可以表示为x0),第二图像集合包括至少一个第二图像(可以表示为xUL)以及多个干扰图像(可以表示为xpert),第三图像集合包括至少一个第三图像(可以表示为x1),第一图像是第一任务所对应的携带标注信息的已标注图像,第二图像是第一任务所对应的未携带标注信息的未标注图像,第三图像为第二任务所对应的已标注图像,第一任务与第二任务属于不同的任务。干扰图像是第二图像经过随机加扰后得到的,因此,干扰图像的尺寸与第二图像的尺寸相同。随机加扰包含但不仅限于翻转、旋转以及平移。可以理解的是,一个第二图像需要进行两次随机加扰,即一个第二图像对应于两个干扰图像。此外,干扰图像通常是在训练过程中生成的。
102、基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,第一预测概率为基于第一图像集合输出的一个预测结果,第二预测概率和第三预测概率为基于第二图像集合输出的一个预测结果,第四预测概率为基于第三图像集合输出的一个预测结果;
在本实施例中,采用了两种训练过程,分别是半监督学习(Semi-Supervisedlearning)和多任务学习(Multitask learning,MTL),其中,第一图像集合以及第二图像集合用于半监督学习,第二预测概率和第三预测概率为半监督学习的输出结果,第三图像集合用于多任务学习,第四预测概率为多任务学习的输出结果。
半监督学习利用同一任务的无标数据来辅助训练提升模型效果。标注的意义在于判断当前模型预测的结果是否正确,从而作为评判模型好坏的指标,即设立一个目标损失函数,当前待训练图像识别模型越准确,目标损失函数的值越小,模型训练的过程是使得目标损失函数获得最小值的优化过程。需要说明的是,对于已标注的图像数据可以采用交叉熵损失函数(cross entropy loss),而对于未标注的图像数据无法采用标签来评价模型好坏,因此,可以使同一图片经过两次随机扰动输入网络,采用一致性约束损失函数(consistency loss)来判断两次预测结果之间的差异,模型训练的目的就是减少两次预测结果之间的差异。
多任务学习利用其它相关已标注的数据集辅助训练,从而提升模型效果,传统的机器学习方法对每个任务独立训练一个模型,而多任务学习的方法可以用一个网络模型同时训练多个相关任务,网络模型的一部分参数为各个任务共享,网络模型的另一部分参数为每个任务独有。
103、根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,第一损失函数为根据第一预测概率确定的,第二损失函数为根据第二预测概率和第三预测概率确定的,第三损失函数为根据第四预测概率确定的;
本实施例中,图像识别模型训练装置根据第一预测概率与第一图像集合所对应的标注信息确定第一损失函数,其中,第一预测概率集合属于预测值,而第一图像集合所对应的标注信息属于真实值,基于预测值和真实值计算出第一损失函数。图像识别模型训练装置根据第二预测概率以及第三预测概率确定第二损失函数,其中,第二预测概率以及第三预测概率均为预测值。图像识别模型训练装置根据第四预测结果集合与第三图像集合所对应的标注信息确定第三损失函数,第四预测结果集合属于预测值,而第三图像集合所对应的标注信息属于真实值,基于预测值和真实值计算出第三损失函数。结合第一损失函数、第二损失函数和第三损失函数,可以得到目标损失函数。
104、基于目标损失函数训练待训练图像识别模型,得到图像识别模型。
本实施例中,当目标损失函数收敛时,表示待训练图像识别模型已训练完成,此时,该待训练图像识别模型即为图像识别模型。可以理解的是,在实际应用中,当训练达到次数门限时也可以认为目标损失函数已收敛。
本申请实施例提供了一种图像识别模型训练的方法,首先获取待训练图像集合,然后基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,再根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,最后基于目标损失函数训练待训练图像识别模型,得到图像识别模型。通过上述方式,采用有标注的针对不同任务的医学图像和未标注的医学图像共同对模型进行训练,有效利用了已标注图像和未标注图像,不但降低了对图像标注的需求,还增加了训练的数据量,从而在节省标注资源的同时还能提升模型的预测效果。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第一个可选实施例中,基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,可以包括:
基于第一图像集合,通过待训练图像识别模型获取第一预测概率;
基于第二图像集合,通过待训练图像识别模型获取第二预测概率以及第三预测概率;
基于第三图像集合,通过待训练图像识别模型获取第四预测概率。
本实施例中,图像识别模型训练装置将第二图像集合输入至待训练图像识别模型,具体地,第二图像集合包括第二图像以及干扰图像。假设第二图像A经过第一次随机加扰得到干扰图像A,第二图像A经过第二次随机加扰得到干扰图像B,于是,图像识别模型训练装置先将第二图像A和干扰图像A输入至待训练图像识别模型,由该待训练图像识别模型输出第二预测概率,然后,图像识别模型训练装置再将第二图像A和干扰图像B输入至待训练图像识别模型,由该待训练图像识别模型输出第三预测概率,经过两次预测分别得到两个预测概率。在实际应用中,可以对每个第二图像均进行两次随机加扰处理。
为了便于理解,请参阅图4,图4为本申请实施例中基于无标注样本进行训练的一个实施例示意图,如图所示,第二图像的样本集包括至少一个第二图像,先对第二图像的样本集中的各个第二图像进行一次随机加扰,得到干扰图像A的样本集。再对第二图像的样本集中的各个第二图像进行一次随机加扰,得到干扰图像B的样本集。将第一图像的样本集、第二图像的样本集和干扰图像A的样本集都输入至待训练图像识别模型,从而得到每个样本所对应的第一预测概率。再将第一图像的样本集、第二图像的样本集和干扰图像B的样本集都输入至待训练图像识别模型,从而得到各个样本所对应的第二预测概率。
在本实施例中,图像识别模训练装置还将第一图像集合输入至待训练图像识别模型,具体地,第一图像集合包括第一图像,第一图像是已标注图像,类似地,图像识别模训练装置还将第三图像集合输入至待训练图像识别模型,具体地,第三图像集合包括第三图像,而且第三图像和第一图像类似,也是已标注图像,不同的是,第一图像所在的第一图像集合和第三图像所在的第三图像集合对应于不同的学习任务。例如,第一图像集合是针对病灶定位任务进行标注的,即第一图像标注的内容是病灶所在的位置,如病灶位置在食管、胃部、十二指肠或者结直肠等。而第三图像集合是针对肿瘤性质任务进行标注的,即第三图像标注的内容是肿瘤性质,如恶性肿瘤或者良性肿瘤。可以理解的是,在实际应用中,还可以根据需求设置其他不同的任务,此处仅为一个示意,不应理解为对本申请的限定。
为了便于介绍,请参阅图5,图5为本申请实施例中基于多任务学习的一个实施例示意图,如图所示,多任务学习(Multitask learning,MTL)利用其它相关已标注的数据集辅助训练,从而提升模型效果,传统的机器学习方法对每个任务独立训练一个模型,而多任务学习的方法可以用一个网络模型同时训练多个相关任务,网络模型的一部分参数为各个任务共享,网络模型的另一部分参数为每个任务独有。如图5所示,对于输入的训练数据而言,通过待训练图像识别模型输出4个不同任务下的预测结果,且不同任务之间共享参数,且利用所有任务的全部数据集,因此增大了训练的数据量。
多任务学习有多种形式,包含但不仅限于联合学习(joint learning)、自主学习(learning to learn)和带有辅助任务的学习(learning with auxiliary task)。通常情况下,优化多个损失函数就等同于进行多任务学习。即使只优化一个损失函数也有可能借助辅助任务来改善原任务模型。本申请提供的多任务学习可以是基于参数硬共享来实现,也可以是基于参数软共享实现。参数硬共享通常通过在所有任务之间共享隐藏层,同时保留几个特定任务的输出层来实现。在软参数共享中,每个任务都有单独的模型,每个模型包含各自的参数。
其次,本申请实施例中,提供了一种获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率的方法,利用半监督学习基于第二图像集合获得第二预测概率和第三预测概率,并且利用多任务学习获基于第三图像集合获得第四预测概率。通过上述方式,有效地利用了无标注数据进行训练,从而提升模型效果,在获得更好效果的同时,降低了对已标注数据的需求,从而降低了产品开发的成本,加快了产品开发周期。同时,还能够用一个图像识别模型同时训练多个相关任务,图像识别模型一部分参数为各个任务共享,另一部分参数为每个任务独有。而共享参数利用所有任务的全部数据集,不但增大了训练的数据量,同时还抵消了每个训练集独有的噪声,从而提高了模型泛化能力,降低模型过拟合。而独立的输出层可以在共享部分中选择对于该任务最相关的特征,学习每个任务特有的分类界限,使得模型有足够大的灵活度,在图像识别任务中可以获取较高准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第二个可选实施例中,基于第一图像集合,通过待训练图像识别模型获取第一预测概率,可以包括:
基于至少一个第一图像,通过待训练图像识别模型所包括的全连接层获取第一预测值;
对第一预测值进行归一化处理,得到第一预测概率。
本实施例中,介绍了一种生成第一预测概率的方法,为了便于说明,下面将以第一图像集合中的一个第一图像为例进行说明,可以理解的是,第一图像集合中其他的第一图像也采用相似的方式进行处理,此处不做赘述。
具体地,假设第一图像表示为x0,第一图像的标注信息为y0,标注信息用于表示分类任务下的分类标签,比如,分类任务为病灶定位的任务,那么分类标签可以是不同的部位,如标签1表示食管部位,标签2表示胃部,标签3表示十二指肠部位,标签4表示结直肠部位,标签5表示无类型。又比如,分类任务为区分肿瘤性质的任务,那么分类标签可以是不同的肿瘤恶化程度,如标签1表示良性肿瘤,标签2表示恶性肿瘤,标签3表示无肿瘤。又比如,分类任务为区分图片合格情况的任务,那么分类标签可以是不同的图片合成情况,如标签1表示图片合格,标签2表示图片不合格。
属于第二任务的第一图像x0通过全连接(fully connection,FC)层后,输出第一预测值,第一预测值表示为z0,第一预测值z0经过softmax之后即实现归一化处理,从而得到第一图像的第一预测概率p0。采用如下方式算得到第一预测概率:
Figure BDA0002237712010000111
其中,p0表示第一预测概率,p0[i]表示第一预测概率中的第i个单元,C表示类型总数,k表示第k个类型,i的取值为大于或等于0,且小于或等于C-1的整数。
待训练图像识别模型的最后一层可以是全连接层+Softmax层,全连接层将权重矩阵与输入向量相乘再加上偏置,将N个的实数映射为K个分数,Softmax层将K个实数映射为K个(0,1)范围内的概率,同时保证K个实数之和为1。
其次,本申请实施例中,提供了一种生成第一预测概率的方法,即首先通过待训练图像识别模型所包括的全连接层获取第一图像的第一预测值,然后对第一图像的第一预测值进行归一化处理,得到第一图像的第一预测概率。通过上述方式,对预测值进行归一化处理后能够更直观地体现样本的预测类别,从而有利于提升训练样本分类的准确性,提升模型训练的效率和准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第三个可选实施例中,基于第一图像集合以及第二图像集合,通过待训练图像识别模型获取第二预测概率,可以包括:
根据至少一个第二图像生成第一干扰图像集合,其中,第一干扰图像集合包括至少一个第一干扰图像,第一干扰图像与第二图像具有对应关系,第一干扰图像属于干扰图像;
根据至少一个第二图像生成第二干扰图像集合,其中,第二干扰图像集合包括至少一个第二干扰图像,第二干扰图像与第二图像具有对应关系,第二干扰图像属于干扰图像;
基于至少一个第二图像以及第一干扰图像集合,通过待训练图像识别模型获取第二预测概率;
基于至少一个第二图像以及第二干扰图像集合,通过待训练图像识别模型获取第三预测概率。
本实施例中,介绍了一种基于半监督学习的数据处理方式,首先图像识别模型训练装置获取至少一个第二图像,这里的第二图像是未标注图像。然后对每个第二图像进行两次随机加扰处理,第一次加扰后得到第一干扰图像集合,第一干扰图像集合包括至少一个第一干扰图像,即每个第一干扰图像对应一个第二图像。类似地,第二次加扰后得到第二干扰图像集合,第二干扰图像集合包括至少一个第二干扰图像,即每个第二干扰图像对应一个第二图像,且第二干扰图像的数量通常与第一干扰图像的数量相同。将至少一个第二图像以及第一干扰图像集合输入至待训练图像识别模型,从而得到第二预测概率。例如,可以将1000个第二图像以及1000个第一干扰图像输入至待训练图像识别模型,也可以将100个第二图像以及100个第一干扰图像输入至待训练图像识别模型,此次不对第二图像的数量进行限定。类似地,将至少一个第二图像以及第二干扰图像集合输入至待训练图像识别模型,从而得到第三预测概率。第二预测概率与第三预测概率可能相同,也可能不同。
可以理解的是,在实际应用中,待训练图像识别模型输出的结果可以是一个预测值,将该预测值进行归一化处理后即可得到预测概率。
需要说明的是,随机加扰的过程中需要对第二图像进行数据增强处理,除了可以对第二图像进行翻转、旋转以及平移处理,还可以更改第二图像的方向、位置、比例和亮度等。在可以在待训练图像识别模型中增加随机失活(dropout)等随机因素,dropout是对具有深度结构的人工神经网络进行优化的方法,在学习过程中通过将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性从而实现神经网络的正则化。若干扰图像为随机噪音时,则随机加扰的过程可以称为Pi模型(Pi-Model)。若干扰图像为对抗干扰(adversarial perturbation),则随机加扰的过程可以称为虚拟对抗训练(VirtualAdversarial Training,VAT)。
其次,本申请实施例中,提供了一种基于半监督学习的数据处理方式,即需要对第二图像进行两次随机加扰的处理,得到第一干扰图像和第二干扰图像,然后再将第二图像分别和第一干扰图像以及第二干扰图像组成模型输入的两个训练样本,由此得到两个预测概率。通过上述方式,能够有效地无标注图像进行随机加扰处理,得到具有不同干扰度的图像作为模型训练的样本,随机加扰的过程无需人为干预,提升了模型训练的效率,同时,随机化的处理能够提升样本的泛化能力,从而提升模型的训练效果。半监督学习避免了数据和资源的浪费,同时解决了全监督学习的模型泛化能力不强和无监督学习的模型不精确问题。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第四个可选实施例中,基于第三图像集合,通过待训练图像识别模型获取第四预测概率,可以包括:
基于至少一个第三图像,通过待训练图像识别模型所包括的全连接层获取第四预测值;
对第四预测值进行归一化处理,得到第四预测概率。
本实施例中,介绍了一种生成第四预测概率的方法,为了便于说明,下面将以第三图像集合中的一个第三图像为例进行说明,可以理解的是,第三图像集合中其他的第三图像也采用相似的方式进行处理,此处不做赘述。
具体地,假设第三图像表示为x1,第三图像的标注信息为y1,标注信息用于表示分类任务下的分类标签,比如,分类任务为病灶定位的任务,那么分类标签可以是不同的部位,如标签1表示食管部位,标签2表示胃部,标签3表示十二指肠部位,标签4表示结直肠部位,标签5表示无类型。又比如,分类任务为区分肿瘤性质的任务,那么分类标签可以是不同的肿瘤恶化程度,如标签1表示良性肿瘤,标签2表示恶性肿瘤,标签3表示无肿瘤。又比如,分类任务为区分图片合格情况的任务,那么分类标签可以是不同的图片合成情况,如标签1表示图片合格,标签2表示图片不合格。需要说明的是,第三图像的标注信息属于第一任务,而第一图像的标注信息属于第二任务,两个任务是不同的。
属于第一任务的第三图像x1通过全连接层后,输出第二预测值,第二预测值表示为z1,第二预测值z1经过softmax之后即实现归一化处理,从而得到第三图像的第四预测概率p1。采用如下方式算得到第四预测概率:
Figure BDA0002237712010000131
其中,p1表示第四预测概率,p1[i]表示第四预测概率中的第i个单元,C表示类型总数,k表示第k个类型,i的取值为大于或等于0,且小于或等于C-1的整数。
待训练图像识别模型的最后一层可以是全连接层+Softmax层,全连接层将权重矩阵与输入向量相乘再加上偏置,将N个的实数映射为K个分数,Softmax层将K个实数映射为K个(0,1)范围内的概率,同时保证K个实数之和为1。
再次,本申请实施例中,提供了一种生成第四预测概率的方法,即首先通过待训练图像识别模型所包括的全连接层获取第三图像的第二预测值,然后对第三图像的第二预测值进行归一化处理,得到第三图像的第四预测概率。通过上述方式,对预测值进行归一化处理后能够更直观地体现样本的预测类别,从而有利于提升训练样本分类的准确性,提升模型训练的效率和准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第五个可选实施例中,根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,可以包括:
根据第一预测概率与第一图像集合所对应的标注信息,计算第一损失函数;
根据第二预测概率以及第三预测概率,计算第二损失函数;
根据第四预测概率与第三图像集合所对应的标注信息,计算第三损失函数;
获取熵损失函数以及正则化损失函数;
根据第一损失函数、第二损失函数、第三损失函数、熵损失函数以及正则化损失函数,计算得到目标损失函数。
本实施例中,介绍了目标损失函数具体内容,图像识别模型训练装置通过根据第一预测结果集合与第一图像集合所对应的标注信息,计算第一损失函数LCE。图像识别模型训练装置根据至少一个第二预测概率以及至少一个第三预测概率,计算第二损失函数LCon。图像识别模型训练装置根据第三预测结果集合与第三图像集合所对应的标注信息,计算第三损失函数LMTL。此外,目标损失函数还包括熵损失函数LEnt以及正则化损失函数LReg
下面将介绍熵损失函数LEnt以及正则化损失函数LReg
最小化熵损失函数可以使得模型更加确定地预测为某一个任务下的具体类别,而不是认为几种类别都有可能,熵表示对各分类的信息量期望。
熵损失函数的计算方式如下:
Figure BDA0002237712010000141
其中,LEnt表示熵损失函数,C表示类型总数,k表示第k个类型,p表示预测概率。
为防止模型过拟合,提高模型的泛化能力,可以在目标损失函数中添加一个正则化损失函数,可以理解的是,正则化损失函数包含但不仅限于L1正则化损失函数和L2正则化损失函数。正则化损失函数可以作为目标损失函数的惩罚项。
基于上述介绍,本申请中的目标损失函数可以表示为:
Ltotal=w0·LCE+w1·LMTL+w2·LCon+w3·LEnt+w4·LReg
其中,Ltotal表示目标损失函数,LCE表示第一损失函数,LCon表示第二损失函数,LMTL表示第三损失函数,LEnt表示熵损失函数,LReg表示正则化损失函数,w0表示第一权重,w1表示第二权重,w2表示第三权重,w3表示第四权重,w4表示第五权重。叠加时每一项可以有不同权重(即权重可以恒定值或者动态变化的),通常情况下,依据不同任务以及不同数据集,需要调节各个权重。
再次,本申请实施例中,提供了目标损失函数具体内容,即目标损失函数包括第一损失函数、第二损失函数、第三损失函数、熵损失函数以及正则化损失函数。通过上述方式,利用不同类型的损失函数在不同维度上对模型进行训练,从而提升模型训练的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第六个可选实施例中,根据第一预测概率与第一图像集合所对应的标注信息,计算第一损失函数,可以包括:
根据第一预测概率与第一图像集合所对应的标注信息,计算第一损失函数;
根据第一预测概率与第一图像集合所对应的标注信息,计算第一损失函数,可以包括:
采用如下方式计算第一损失函数:
LCE(p0,y0)=-log(p0[y0]);
其中,LCE表示第一损失函数,p0表示第一预测概率,y0表示第一图像集合所对应的标注信息。
本实施例中,介绍了一种第一损失函数的计算方式,图像识别模型训练装置根据预测得到的第一预测概率与真实的标注信息,可以计算出第一损失函数,该第一损失函数可以是交叉熵损失函数,可以理解的是,在实际应用中,还可以是其他类型的损失函数,这里以交叉熵损失函数为例进行说明。
采用如下方式计算第一损失函数:
LCE(p0,y0)=-log(p0[y0]);
p0表示第一预测概率,假设第一预测概率是针对肿瘤恶化程度标注任务生成的概率,标签1表示良性肿瘤,标签2表示恶性肿瘤,标签3表示无肿瘤。假设第一图像的第一预测概率为(0.1,0.2,0.7),即得到第一图像的预测标签为标签3,即为无肿瘤的标签。而对于第一图像而言已经进行标注处理,从而可以得到标注信息y0,即真实标签。假设真实标签为标签3,那么该标签3对应的概率为(0,0,1)。利用交叉熵损失函数描述了两个概率分布之间的距离,交叉熵越小说明两者之间越接近。模型训练的目标就是希望预测概率与真实概率的分布更接近。
其次,本申请实施例中,提供了一种第一损失函数的计算方式,通过上述方式,为第一损失函数的生成提供了具体的实现依据,从而提升模型训练的可行性和可操作性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法的第七个可选实施例中,根据第二预测概率以及第三预测概率,计算第二损失函数,可以包括:
根据第二预测概率以及第三预测概率,计算第二损失函数;
根据第二预测概率以及第三预测概率,计算第二损失函数,可以包括:
采用如下方式计算第二损失函数:
Figure BDA0002237712010000151
或,采用如下方式计算第二损失函数:
Figure BDA0002237712010000152
其中,LCon表示第二损失函数,C表示类型总数,k表示第k个类型,ps表示第二预测概率,pr表示第三预测概率。
本实施例中,介绍了一种第二损失函数的计算方式,图像识别模型训练装置根据预测得到的第二预测概率与第三预测概率,可以计算出第二损失函数。该第二损失函数可以是均方误差(mean-square error,MSE)损失函数,也可以是KL散度(Kullback-LeiblerDivergence)损失函数,可以理解的是,在实际应用中,还可以是其他类型的损失函数,这里以MSE损失函数以及KL散度损失函数为例进行说明。
当第二损失函数为MSE损失函数时,采用如下方式计算第二损失函数:
Figure BDA0002237712010000153
当第二损失函数为KL散度损失函数时,采用如下方式计算第二损失函数:
Figure BDA0002237712010000161
第二预测概率ps的计算方式如下:
Figure BDA0002237712010000162
其中,ps表示第二预测概率,ps[i]表示第二预测概率中的第i个单元,C表示类型总数,k表示第k个类型,i的取值为大于或等于0,且小于或等于C-1的整数。
第三预测概率pr的计算方式如下:
Figure BDA0002237712010000163
其中,pr表示第三预测概率,pr[i]表示第三预测概率中的第i个单元,C表示类型总数,k表示第k个类型,i的取值为大于或等于0,且小于或等于C-1的整数。
可以理解的是,第二预测概率与第一预测概率可以在同一次训练中输出,因此,第二预测概率也可以表示为p0,pr表示第三预测概率,类似地,第三预测概率pr是预测值zr经过归一化处理之后得到的。第二预测概率与第三预测概率是在不同次的训练中输出的。第二损失函数具体可以是一致性损失函数(Consistency Loss),第二损失函数越小,表示两次预测的结果越接近,即模型训练的效果也越好,最小化该第二损失函数即使得两次预测值一致。
其次,本申请实施例中,提供了一种第二损失函数的计算方式,通过上述方式,为第二损失函数的生成提供了具体的实现依据,从而提升模型训练的可行性和可操作性。此外,还可以根据需求选择合适的第二损失函数进行计算,进而提升了方案的灵活性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的图像识别模型训练的方法第八个可选实施例中,根据第四预测概率第三图像集合所对应的标注信息,计第三损失函数,包括:
根据第四预测概率与第三图像集合所对应的标注信息,计算第三损失函数;
根据第四预测概率与第三图像集合所对应的标注信息,计算第三损失函数,可以包括:
采用如下方式计算第三损失函数:
LMTL(p1,y1)=-log(p1[y1]);
其中,LMTL表示第三损失函数,p1表示第四预测概率,y1表示第三图像集合所对应的标注信息。
本实施例中,介绍了一种第三损失函数的计算方式,图像识别模型训练装置根据预测得到的第三预测概率与真实的标注信息,可以计算出第三损失函数,该第三损失函数可以是交叉熵损失函数,可以理解的是,在实际应用中,还可以是其他类型的损失函数,这里以交叉熵损失函数为例进行说明。
采用如下方式计算第三损失函数:
LMTL(p1,y1)=-log(p1[y1]);
p1表示第四预测概率,假设第四预测概率是针对图片合格情况标注任务生成的概率,标签1表示图片合格,标签2表示图片不合格。假设第三图像的第四预测概率为(0.2,0.8),即得到第三图像的预测标签为标签2,即为图片不合格的标签。而对于第三图像而言已经进行标注处理,从而可以得到标注信息y1,即真实标签。假设真实标签为标签1,那么该标签1对应的概率为(1,0)。利用交叉熵损失函数描述了两个概率分布之间的距离,交叉熵越小说明两者之间越接近。模型训练的目标就是希望预测概率与真实概率的分布更接近。
再次,本申请实施例中,提供了一种第三损失函数的计算方式,通过上述方式,为第三损失函数的生成提供了具体的实现依据,从而提升模型训练的可行性和可操作性。
结合上述介绍,本申请还提供了一种图像识别的方法,请参阅图6,本申请实施例中图像识别的方法一个实施例包括:
201、获取待识别图像;
本实施例中,图像识别装置获取待识别图像,该待识别图像可以是内窥镜图像,也可以是其他类型的医学图像,此处不做限定。其中,图像识别装置可以部署于服务器,也可以部署于终端设备,这里以部署在终端设备为例进行说明,但不应理解为对本申请的限定。
202、通过图像识别模型获取待识别图像所对应的图像识别结果,其中,图像识别模型为上述实施例所描述的图像识别模型;
本实施例中,图像识别装置将待识别图像输入至上述实施例所描述的图像识别模型中,由该图像识别模型输出对应的图像识别结果。
203、展示图像识别结果。
本实施例中,图像识别装置可以展示该图像识别结果。为了便于理解,请参阅图7,图7为本申请实施例中展示图像识别结果的一个界面示意图,如图所示,以输入的一张医学图像为例,医生可以根据需求选择相应的任务。假设选择任务A,即定位病灶部位的任务,基于医生选择的任务A输出相应的结果,例如定位的病灶部位为“胃部”。假设选择任务B,即检测肿瘤性质的任务,基于医生选择的任务B输出相应的结果,例如检测肿瘤性质为“良性”。假设选择任务C,即图像合格请求的任务,基于医生选择的任务C输出相应的结果,例如图像合格情况为“合格”。
本申请实施例中,提供了一种图像识别的方法,即先获取待识别图像,然后将该输入至已经训练好的图像识别模型,由图像识别模型输出图像识别结果,最后展示该图像识别结果。通过上述方式,当使用本申请提供的图像识别模型进行自动诊断时,可以根据需求展示相应任务下的识别结果,辅助医生进行诊断,从而更有效的帮助医生减少检查中的误诊和漏诊,尤其是对于缺乏相关临床经验的医生。
下面对本申请中的图像识别模型训练装置进行详细描述,请参阅图8,图8为本申请实施例中图像识别模型训练装置一个实施例示意图,图像识别模型训练装置30包括:
获取模块301,用于获取待训练图像集合,其中,所述待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,所述第一图像集合包括至少一个第一图像,所述第二图像集合包括至少一个第二图像以及至少一个干扰图像,所述第三图像集合包括至少一个第三图像,所述第一图像为第一任务所对应的已标注图像,所述第二图像为第一任务所对应的未标注图像,所述第三图像为第二任务所对应的已标注图像,所述第一任务与所述第二任务属于不同的任务;
所述获取模块301,还用于基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,所述第一预测概率为基于所述第一图像集合输出的一个预测结果,所述第二预测概率和所述第三预测概率为基于所述第二图像集合输出的一个预测结果,所述第四预测概率为基于所述第三图像集合输出的一个预测结果;
所述获取模块301,还用于通过所述待训练图像识别模型获取所述第二图像集合所对应的第二预测结果集合,其中,所述第二预测结果集合包括至少一个第二预测概率以及至少一个第三预测概率,所述至少一个第二预测概率为所述待训练图像识别模型输出的一个预测结果,所述至少一个第三预测概率为所述待训练图像识别模型输出的另一个预测结果;
所述获取模块301,还用于通过所述待训练图像识别模型获取所述第三图像集合所对应的第三预测结果集合,其中,所述第三预测结果集合包括至少一个第四预测概率,每个第四预测概率对应一个第三图像;
确定模块302,用于根据所述获取模块301获取的所述第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,所述目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,所述第一损失函数为根据所述第一预测概率确定的,所述第二损失函数为根据所述第二预测概率和所述第三预测概率确定的,所述第三损失函数为根据所述第四预测概率确定的;
训练模块303,用于根据所述确定模块302确定的所述目标损失函数训练所述待训练图像识别模型,得到图像识别模型。
本申请实施例提供了一种图像识别模型训练装置,首先获取待训练图像集合,然后基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,再根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,最后基于目标损失函数训练待训练图像识别模型,得到图像识别模型。通过上述方式,采用有标注的针对不同任务的医学图像和未标注的医学图像共同对模型进行训练,有效利用了已标注图像和未标注图像,不但降低了对图像标注的需求,还增加了训练的数据量,从而在节省标注资源的同时还能提升模型的预测效果。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述获取模块301,具体用于基于所述第一图像集合,通过所述待训练图像识别模型获取所述第一预测概率;
基于所述第二图像集合,通过所述待训练图像识别模型获取所述第二预测概率和所述第三预测概率;
基于所述第三图像集合,通过所述待训练图像识别模型获取所述第四预测概率。
其次,本申请实施例中,提供了一种获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率的方法,利用半监督学习基于第二图像集合获得第二预测概率和第三预测概率,并且利用多任务学习获基于第三图像集合获得第四预测概率。通过上述方式,有效地利用了无标注数据进行训练,从而提升模型效果,在获得更好效果的同时,降低了对已标注数据的需求,从而降低了产品开发的成本,加快了产品开发周期。同时,还能够用一个图像识别模型同时训练多个相关任务,图像识别模型一部分参数为各个任务共享,另一部分参数为每个任务独有。而共享参数利用所有任务的全部数据集,不但增大了训练的数据量,同时还抵消了每个训练集独有的噪声,从而提高了模型泛化能力,降低模型过拟合。而独立的输出层可以在共享部分中选择对于该任务最相关的特征,学习每个任务特有的分类界限,使得模型有足够大的灵活度,在图像识别任务中可以获取较高准确度。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述获取模块301,具体用于基于所述至少一个第一图像,通过所述待训练图像识别模型所包括的全连接层获取第一预测值;
对所述第一预测值进行归一化处理,得到所述第一预测概率。
其次,本申请实施例中,提供了一种生成第一预测概率的方法,即首先通过待训练图像识别模型所包括的全连接层第一图像的第一预测值,然后对第一图像的第一预测值进行归一化处理,得到第一图像的第一预测概率。通过上述方式,对预测值进行归一化处理后能够更直观地体现样本的预测类别,从而有利于提升训练样本分类的准确性,提升模型训练的效率和准确度。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述获取模块301,具体用于根据所述至少一个第二图像生成第一干扰图像集合,其中,所述第一干扰图像集合包括至少一个第一干扰图像,所述第一干扰图像与所述第二图像具有对应关系,所述第一干扰图像属于所述干扰图像;
根据所述至少一个第二图像生成第二干扰图像集合,其中,所述第二干扰图像集合包括至少一个第二干扰图像,所述第二干扰图像与所述第二图像具有对应关系,所述第二干扰图像属于所述干扰图像;
基于所述至少一个第二图像以及所述第一干扰图像集合,通过所述待训练图像识别模型获取所述第二预测概率;
基于所述至少一个第二图像以及所述第二干扰图像集合,通过所述待训练图像识别模型获取所述第三预测概率。
其次,本申请实施例中,提供了一种基于半监督学习的数据处理方式,即需要对第二图像进行两次随机加扰的处理,得到第一干扰图像和第二干扰图像,然后再将第二图像分别和第一干扰图像以及第二干扰图像组成模型输入的两个训练样本,由此得到两个预测概率。通过上述方式,能够有效地无标注图像进行随机加扰处理,得到具有不同干扰度的图像作为模型训练的样本,随机加扰的过程无需人为干预,提升了模型训练的效率,同时,随机化的处理能够提升样本的泛化能力,从而提升模型的训练效果。半监督学习避免了数据和资源的浪费,同时解决了全监督学习的模型泛化能力不强和无监督学习的模型不精确问题。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述获取模块301,具体用于基于所述至少一个第三图像,通过所述待训练图像识别模型所包括的全连接层获取所述第四预测值;
对所述第四预测值进行归一化处理,得到所述第四预测概率。
再次,本申请实施例中,提供了一种生成第四预测概率的方法,即首先通过待训练图像识别模型所包括的全连接层第三图像的第二预测值,然后对第三图像的第二预测值进行归一化处理,得到第三图像的第四预测概率。通过上述方式,对预测值进行归一化处理后能够更直观地体现样本的预测类别,从而有利于提升训练样本分类的准确性,提升模型训练的效率和准确度。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述确定模块302,具体用于根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数;
根据所述第二预测概率以及所述第三预测概率,计算所述第二损失函数;
根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数;
获取熵损失函数以及正则化损失函数;
根据所述第一损失函数、所述第二损失函数、所述第三损失函数、所述熵损失函数以及所述正则化损失函数,计算得到所述目标损失函数。
再次,本申请实施例中,提供了目标损失函数具体内容,即目标损失函数包括第一损失函数、第二损失函数、第三损失函数、熵损失函数以及正则化损失函数。通过上述方式,利用不同类型的损失函数在不同维度上对模型进行训练,从而提升模型训练的准确度。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述确定模块302,具体用于根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数;
具体地,采用如下方式计算所述第一损失函数:
LCE(p0,y0)=-log(p0[y0]);
其中,所述LCE表示所述第一损失函数,所述p0表示第一预测概率,所述y0表示所述第一图像集合所对应的标注信息。
其次,本申请实施例中,提供了一种第一损失函数的计算方式,通过上述方式,为第一损失函数的生成提供了具体的实现依据,从而提升模型训练的可行性和可操作性。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述确定模块302,具体用于根据所述第二预测概率以及所述第三预测概率,计算所述第二损失函数;
具体地,采用如下方式计算所述第二损失函数:
Figure BDA0002237712010000211
或,采用如下方式计算所述第二损失函数:
Figure BDA0002237712010000212
其中,所述LCon表示所述第二损失函数,所述C表示类型总数,所述k表示第k个类型,所述ps表示所述第二预测概率,所述pr表示所述第三预测概率。
其次,本申请实施例中,提供了一种第二损失函数的计算方式,通过上述方式,为第二损失函数的生成提供了具体的实现依据,从而提升模型训练的可行性和可操作性。此外,还可以根据需求选择合适的第二损失函数进行计算,进而提升了方案的灵活性。
可选地,在上述图8所对应的实施例的基础上,本申请实施例提供的图像识别模型训练装置30的另一实施例中,
所述确定模块302,具体用于根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数;
可选地,采用如下方式计算所述第三损失函数:
LMTL(p1,y1)=-log(p1[y1]);
其中,所述LMTL表示所述第三损失函数,所述p1表示所述第四预测概率,所述y1表示所述第三图像集合所对应的标注信息。
再次,本申请实施例中,提供了一种第三损失函数的计算方式,通过上述方式,为第三损失函数的生成提供了具体的实现依据,从而提升模型训练的可行性和可操作性。
下面对本申请中的图像识别装置进行详细描述,请参阅图9,图9为本申请实施例中图像识别装置一个实施例示意图,图像识别装置40包括:
获取模块401,用于获取待识别图像;
所述获取模块401,还用于通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述图3对应的各个实施例中所提供的图像识别模型;
展示模块402,用于展示所述获取模块401获取的所述图像识别结果。
本申请实施例中,提供了一种图像识别装置,即先获取待识别图像,然后将该输入至已经训练好的图像识别模型,由图像识别模型输出图像识别结果,最后展示该图像识别结果。通过上述方式,当使用本申请提供的图像识别模型进行自动诊断时,可以根据需求展示相应任务下的识别结果,辅助医生进行诊断,从而更有效的帮助医生减少检查中的误诊和漏诊,尤其是对于缺乏相关临床经验的医生。
本申请提供的图像识别模型训练装置以及图像识别装置可以部署于电子设备,该电子设备可以是服务器,也可以是终端设备。本申请实施例还提供了另一种图像识别模型训练装置以及图像识别装置,请参阅图10,图10是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。
在本申请实施例中,该服务器所包括的CPU 522还具有以下功能:
获取待训练图像集合,其中,待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,第一图像集合包括至少一个第一图像,第二图像集合包括至少一个第二图像以及至少一个干扰图像,第三图像集合包括至少一个第三图像,第一图像为第一任务所对应的已标注图像,第二图像为第一任务所对应的未标注图像,第三图像为第二任务所对应的已标注图像,第一任务与第二任务属于不同的任务;
基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,第一预测概率为基于第一图像集合输出的一个预测结果,第二预测概率和第三预测概率为基于第二图像集合输出的一个预测结果,第四预测概率为基于第三图像集合输出的一个预测结果;
根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,第一损失函数为根据第一预测概率确定的,第二损失函数为根据第二预测概率和第三预测概率确定的,第三损失函数为根据第四预测概率确定的;
基于目标损失函数训练待训练图像识别模型,得到图像识别模型。
在本申请实施例中,该服务器所包括的CPU 522还具有以下功能:
获取待识别图像;
通过图像识别模型获取待识别图像所对应的图像识别结果,其中,图像识别模型为上述图3所对应各个实施例中的图像识别模型;
展示图像识别结果。
本申请提供的图像识别模型训练装置以及图像识别装置可以部署于电子设备,该电子设备可以是服务器,也可以是终端设备。本申请实施例还提供了另一种图像识别模型训练装置以及图像识别装置,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(PointofSales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图11示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图11,手机包括:射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(GeneralPacketRadio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(LongTermEvolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图11中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;可选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
手机还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器680还具有以下功能:
获取待训练图像集合,其中,待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,第一图像集合包括至少一个第一图像,第二图像集合包括至少一个第二图像以及至少一个干扰图像,第三图像集合包括至少一个第三图像,第一图像为第一任务所对应的已标注图像,第二图像为第一任务所对应的未标注图像,第三图像为第二任务所对应的已标注图像,第一任务与第二任务属于不同的任务;
基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,第一预测概率为基于第一图像集合输出的一个预测结果,第二预测概率和第三预测概率为基于第二图像集合输出的一个预测结果,第四预测概率为基于第三图像集合输出的一个预测结果;
根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,第一损失函数为根据第一预测概率确定的,第二损失函数为根据第二预测概率和第三预测概率确定的,第三损失函数为根据第四预测概率确定的;
基于目标损失函数训练待训练图像识别模型,得到图像识别模型。
在本申请实施例中,该终端设备所包括的处理器680还具有以下功能:
获取待识别图像;
通过图像识别模型获取待识别图像所对应的图像识别结果,其中,图像识别模型为上述图3所对应各个实施例中的图像识别模型;
展示图像识别结果。
图12是示出本申请的实施方式的内窥镜医疗诊断系统70的结构图。本实施方式的内窥镜医疗诊断系统80是用于支援内窥镜业务的系统。内窥镜医疗诊断系统70具有探头701、处理器702、显示器703、电路704以及接口705。内窥镜医疗诊断系统70能够与终端设备80协同工作。探头701具体可以是内窥镜探头,可以插入入食道、胃肠、支气管等,进行实时扫描成像。通过使用内窥镜探头,医生能清楚地鉴别肿瘤生长层次、浸润深度。此外,内窥镜探头还可应用于肠道附近的脏器成像,在胰腺、胆管、胆囊的病变诊断中发挥作用。
处理器702用于对探头701拍摄到的内窥镜图像进行识别,生成识别结果。显示器703根据处理器702输入的影像信号显示病灶识别结果,该病灶识别结果具体是影像结果,可实时显示由探头701进行摄像而得到的影像。电路704用于连接内窥镜医疗诊断系统70中的各个模块,并且提供电信号,以使内窥镜医疗诊断系统70内部能够正常工作,并且能够与终端设备80建立通信连接。
内窥镜医疗诊断系统70可以直接将采集到的内窥镜图像进行识别和处理,也可以通过接口705向终端设备80发送采集到的内窥镜图像,由终端设备80对内窥镜图像进行识别和处理。终端设备80能够基于内窥镜医疗诊断系统70发送的病灶识别结果,制作电子病历、药方或者直接打印出来等。
在本申请实施例中,该内窥镜医疗诊断系统所包括的处理器702还具有以下功能:
获取待训练图像集合,其中,待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,第一图像集合包括至少一个第一图像,第二图像集合包括至少一个第二图像以及至少一个干扰图像,第三图像集合包括至少一个第三图像,第一图像为第一任务所对应的已标注图像,第二图像为第一任务所对应的未标注图像,第三图像为第二任务所对应的已标注图像,第一任务与第二任务属于不同的任务;
基于待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,其中,第一预测概率为基于第一图像集合输出的一个预测结果,第二预测概率和第三预测概率为基于第二图像集合输出的一个预测结果,第四预测概率为基于第三图像集合输出的一个预测结果;
根据第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,第一损失函数为根据第一预测概率确定的,第二损失函数为根据第二预测概率和第三预测概率确定的,第三损失函数为根据第四预测概率确定的;
基于目标损失函数训练待训练图像识别模型,得到图像识别模型。
可选地,该内窥镜医疗诊断系统所包括的处理器702具体用于执行如下步骤:
基于第一图像集合,通过待训练图像识别模型获取第一预测概率;
基于第二图像集合,通过待训练图像识别模型获取第二预测概率和第三预测概率;
基于第三图像集合,通过待训练图像识别模型获取第四预测概率。
可选地,该内窥镜医疗诊断系统所包括的处理器702具体用于执行如下步骤:
基于至少一个第一图像,通过待训练图像识别模型所包括的全连接层第一预测值;
对第一预测值进行归一化处理,得到第一预测概率。
可选地,该内窥镜医疗诊断系统所包括的处理器702具体用于执行如下步骤:
根据至少一个第二图像生成第一干扰图像集合,其中,第一干扰图像集合包括至少一个第一干扰图像,第一干扰图像与第二图像具有对应关系,第一干扰图像属于干扰图像;
根据至少一个第二图像生成第二干扰图像集合,其中,第二干扰图像集合包括至少一个第二干扰图像,第二干扰图像与第二图像具有对应关系,第二干扰图像属于干扰图像;
基于至少一个第二图像以及第一干扰图像集合,通过待训练图像识别模型获取第二预测概率;
基于至少一个第二图像以及第二干扰图像集合,通过待训练图像识别模型获取第三预测概率。
可选地,该内窥镜医疗诊断系统所包括的处理器702具体用于执行如下步骤:
基于至少一个第三图像,通过待训练图像识别模型所包括的全连接层获取第四预测值;
对第四预测值进行归一化处理,得到第四预测概率。
可选地,该内窥镜医疗诊断系统所包括的处理器702具体用于执行如下步骤:
根据第一预测概率与第一图像集合所对应的标注信息,计算第一损失函数;
根据第二预测概率以及第三预测概率,计算第二损失函数;
根据第四预测概率与第三图像集合所对应的标注信息,计算第三损失函数;
获取熵损失函数以及正则化损失函数;
根据第一损失函数、第二损失函数、第三损失函数、熵损失函数以及正则化损失函数,计算得到目标损失函数。
在本申请实施例中,该内窥镜医疗诊断系统所包括的处理器702还具有以下功能:
获取待识别图像;
通过图像识别模型获取待识别图像所对应的图像识别结果,其中,图像识别模型为上述图3所对应各个实施例中的图像识别模型;
展示图像识别结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (13)

1.一种图像识别模型训练的方法,其特征在于,包括:
获取待训练图像集合,其中,所述待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,所述第一图像集合包括至少一个第一图像,所述第二图像集合包括至少一个第二图像以及至少一个干扰图像,所述第三图像集合包括至少一个第三图像,所述第一图像为第一任务所对应的已标注图像,所述第二图像为第一任务所对应的未标注图像,所述第三图像为第二任务所对应的已标注图像,所述第一任务与所述第二任务属于不同的任务;
基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率;
根据所述第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,所述目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,所述第一损失函数为根据所述第一预测概率确定的,所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的差值确定的,或,所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的比值确定的,所述第三损失函数为根据所述第四预测概率确定的;
所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的差值确定的,包括:
采用如下方式计算所述第二损失函数:
Figure FDA0002767443310000011
所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的比值确定的,包括:
采用如下方式计算所述第二损失函数:
Figure FDA0002767443310000012
其中,所述LCon表示所述第二损失函数,所述C表示类型总数,所述k表示第k个类型,所述ps表示所述第二预测概率,所述pr表示所述第三预测概率;
基于所述目标损失函数训练所述待训练图像识别模型,得到图像识别模型;
所述基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,包括:
基于所述第一图像集合,通过所述待训练图像识别模型获取所述第一预测概率;
基于所述第二图像集合,通过所述待训练图像识别模型获取所述第二预测概率和所述第三预测概率,其中,所述第二图像集合包括第二图像以及干扰图像,所述干扰图像包括第一干扰图像以及第二干扰图像,所述第一干扰图像为所述第二图像经过一次随机加扰后得到的,所述第二干扰图像为所述第二图像经过两次随机加扰后得到的,所述第二预测概率为基于所述第二图像以及所述第一干扰图像确定的,所述第三预测概率为基于所述第二图像以及所述第二干扰图像确定的;
基于所述第三图像集合,通过所述待训练图像识别模型获取所述第四预测概率。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一图像集合,通过所述待训练图像识别模型获取所述第一预测概率,包括:
基于所述至少一个第一图像,通过所述待训练图像识别模型所包括的全连接层获取第一预测值;
对所述第一预测值进行归一化处理,得到所述第一预测概率。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二图像集合,通过所述待训练图像识别模型获取所述第二预测概率和所述第三预测概率,包括:
根据所述至少一个第二图像生成第一干扰图像集合,其中,所述第一干扰图像集合包括至少一个第一干扰图像,所述第一干扰图像与所述第二图像具有对应关系,所述第一干扰图像属于所述干扰图像;
根据所述至少一个第二图像生成第二干扰图像集合,其中,所述第二干扰图像集合包括至少一个第二干扰图像,所述第二干扰图像与所述第二图像具有对应关系,所述第二干扰图像属于所述干扰图像;
基于所述至少一个第二图像以及所述第一干扰图像集合,通过所述待训练图像识别模型获取所述第二预测概率;
基于所述至少一个第二图像以及所述第二干扰图像集合,通过所述待训练图像识别模型获取所述第三预测概率。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第三图像集合,通过所述待训练图像识别模型获取所述第四预测概率,包括:
基于所述至少一个第三图像,通过所述待训练图像识别模型所包括的全连接层获取所述第四预测值;
对所述第四预测值进行归一化处理,得到所述第四预测概率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,包括:
根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数;
根据所述第二预测概率以及所述第三预测概率,计算所述第二损失函数;
根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数;
获取熵损失函数以及正则化损失函数;
根据所述第一损失函数、所述第二损失函数、所述第三损失函数、所述熵损失函数以及所述正则化损失函数,计算得到所述目标损失函数。
6.根据权利要求5所述的方法,所述根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数,包括:
根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数;
所述根据所述第一预测概率与所述第一图像集合所对应的标注信息,计算所述第一损失函数,包括:
采用如下方式计算所述第一损失函数:
LCE(p0,y0)=-log(p0[y0]);
其中,所述LCE表示所述第一损失函数,所述p0表示第一预测概率,所述y0表示所述第一图像集合所对应的标注信息。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数,包括:
根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数;
所述根据所述第四预测概率与所述第三图像集合所对应的标注信息,计算所述第三损失函数,包括:
采用如下方式计算所述第三损失函数:
LMTL(p1,y1)=-log(p1[y1]);
其中,所述LMTL表示所述第三损失函数,所述p1表示所述第四预测概率,所述y1表示所述第三图像集合所对应的标注信息。
8.一种图像识别的方法,其特征在于,包括:
获取待识别图像;
通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述权利要求1至7中任一项所述的图像识别模型;
展示所述图像识别结果。
9.一种图像识别模型训练装置,其特征在于,包括:
获取模块,用于获取待训练图像集合,其中,所述待训练图像集合至少包括第一图像集合、第二图像集合和第三图像集合,所述第一图像集合包括至少一个第一图像,所述第二图像集合包括至少一个第二图像以及至少一个干扰图像,所述第三图像集合包括至少一个第三图像,所述第一图像为第一任务所对应的已标注图像,所述第二图像为第一任务所对应的未标注图像,所述第三图像为第二任务所对应的已标注图像,所述第一任务与所述第二任务属于不同的任务;
所述获取模块,还用于基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率;
所述获取模块,还用于通过所述待训练图像识别模型获取所述第二图像集合所对应的第二预测结果集合,其中,所述第二预测结果集合包括至少一个第二预测概率以及至少一个第三预测概率,所述至少一个第二预测概率为所述待训练图像识别模型输出的一个预测结果,所述至少一个第三预测概率为所述待训练图像识别模型输出的另一个预测结果;
所述获取模块,还用于通过所述待训练图像识别模型获取所述第三图像集合所对应的第三预测结果集合,其中,所述第三预测结果集合包括至少一个第四预测概率,每个第四预测概率对应一个第三图像;
确定模块,用于根据所述第一预测概率、第二预测概率、第三预测概率以及第四预测概率,确定目标损失函数,其中,所述目标损失函数至少包括第一损失函数、第二损失函数以及第三损失函数,所述第一损失函数为根据所述第一预测概率确定的,所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的差值确定的,或,所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的比值确定的,所述第三损失函数为根据所述第四预测概率确定的;
所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的差值确定的,包括:
采用如下方式计算所述第二损失函数:
Figure FDA0002767443310000041
所述第二损失函数为根据所述第二预测概率和所述第三预测概率之间的比值确定的,包括:
采用如下方式计算所述第二损失函数:
Figure FDA0002767443310000042
其中,所述LCon表示所述第二损失函数,所述C表示类型总数,所述k表示第k个类型,所述ps表示所述第二预测概率,所述pr表示所述第三预测概率;
训练模块,用于根据所述确定模块确定的所述目标损失函数训练所述待训练图像识别模型,得到图像识别模型;
所述确定模块,具体用于所述基于所述待训练图像集合,通过待训练图像识别模型获取第一预测概率、第二预测概率、第三预测概率以及第四预测概率,包括:
基于所述第一图像集合,通过所述待训练图像识别模型获取所述第一预测概率;
基于所述第二图像集合,通过所述待训练图像识别模型获取所述第二预测概率和所述第三预测概率,其中,所述第二图像集合包括第二图像以及干扰图像,所述干扰图像包括第一干扰图像以及第二干扰图像,所述第一干扰图像为所述第二图像经过一次随机加扰后得到的,所述第二干扰图像为所述第二图像经过两次随机加扰后得到的,所述第二预测概率为基于所述第二图像以及所述第一干扰图像确定的,所述第三预测概率为基于所述第二图像以及所述第二干扰图像确定的;
基于所述第三图像集合,通过所述待训练图像识别模型获取所述第四预测概率。
10.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别图像;
所述获取模块,还用于通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述权利要求1至7中任一项所述的图像识别模型;
展示模块,用于展示所述获取模块获取的所述图像识别结果。
11.一种电子设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括执行如上述权利要求1至7中任一项所述的方法,或,执行如上述权利要求8所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
12.一种内窥镜医疗诊断系统,其特征在于,包括:探头、电路、处理器以及显示器;
所述电路,用于激励所述探头获取待识别图像;
所述处理器,用于处理所述待识别图像;
所述显示器,用于显示所述图像识别结果;
其中,所述处理器还执行如下步骤:
通过图像识别模型获取所述待识别图像所对应的图像识别结果,其中,所述图像识别模型为上述权利要求1至7中任一项所述的图像识别模型;
展示所述图像识别结果。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的方法,或,执行如权利要求8所述的方法。
CN201910989262.8A 2019-10-17 2019-10-17 一种图像识别模型训练的方法、图像识别的方法及装置 Active CN110738263B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910989262.8A CN110738263B (zh) 2019-10-17 2019-10-17 一种图像识别模型训练的方法、图像识别的方法及装置
EP20877797.9A EP3982292B1 (en) 2019-10-17 2020-09-23 Method for training image recognition model, and method and apparatus for image recognition
JP2022515569A JP7355924B2 (ja) 2019-10-17 2020-09-23 画像認識モデルのトレーニング方法、画像認識方法及び装置
PCT/CN2020/116998 WO2021073380A1 (zh) 2019-10-17 2020-09-23 一种图像识别模型训练的方法、图像识别的方法及装置
US17/515,312 US11960571B2 (en) 2019-10-17 2021-10-29 Method and apparatus for training image recognition model, and image recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989262.8A CN110738263B (zh) 2019-10-17 2019-10-17 一种图像识别模型训练的方法、图像识别的方法及装置

Publications (2)

Publication Number Publication Date
CN110738263A CN110738263A (zh) 2020-01-31
CN110738263B true CN110738263B (zh) 2020-12-29

Family

ID=69270074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989262.8A Active CN110738263B (zh) 2019-10-17 2019-10-17 一种图像识别模型训练的方法、图像识别的方法及装置

Country Status (5)

Country Link
US (1) US11960571B2 (zh)
EP (1) EP3982292B1 (zh)
JP (1) JP7355924B2 (zh)
CN (1) CN110738263B (zh)
WO (1) WO2021073380A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738263B (zh) * 2019-10-17 2020-12-29 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置
JP7359969B2 (ja) * 2020-03-04 2023-10-11 グーグル エルエルシー ストリーミングシーケンスモデルの一貫性予測
CN111401445B (zh) * 2020-03-16 2023-03-10 腾讯科技(深圳)有限公司 一种图像识别模型的训练方法、图像识别的方法及装置
CN113469205B (zh) * 2020-03-31 2023-01-17 阿里巴巴集团控股有限公司 数据处理方法及系统、网络模型及其训练方法、电子设备
CN111523597B (zh) * 2020-04-23 2023-08-25 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
CN111582342B (zh) * 2020-04-29 2022-08-26 腾讯科技(深圳)有限公司 一种图像识别方法、装置、设备以及可读存储介质
CN111598169B (zh) * 2020-05-18 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN111738365B (zh) * 2020-08-06 2020-12-18 腾讯科技(深圳)有限公司 图像分类模型训练方法、装置、计算机设备及存储介质
CN111898696B (zh) * 2020-08-10 2023-10-27 腾讯云计算(长沙)有限责任公司 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112001366A (zh) * 2020-09-25 2020-11-27 北京百度网讯科技有限公司 模型训练方法、人脸识别方法、装置、设备和介质
CN112562069B (zh) * 2020-12-24 2023-10-27 北京百度网讯科技有限公司 三维模型的构造方法、装置、设备和存储介质
CN112579808B (zh) * 2020-12-29 2023-07-18 上海赛图默飞医疗科技有限公司 数据标注处理方法及装置、系统
CN113255427B (zh) * 2021-02-09 2022-05-27 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备和存储介质
CN113011490B (zh) * 2021-03-16 2024-03-08 北京百度网讯科技有限公司 模型训练方法、装置及电子设备
CN113255445A (zh) * 2021-04-20 2021-08-13 杭州飞步科技有限公司 多任务模型训练及图像处理方法、装置、设备及存储介质
CN113762585B (zh) * 2021-05-17 2023-08-01 腾讯科技(深圳)有限公司 数据的处理方法、账号类型的识别方法及装置
CN113642671B (zh) * 2021-08-27 2024-03-05 京东科技信息技术有限公司 基于任务分布变化的半监督元学习方法及装置
CN114359904B (zh) * 2022-01-06 2023-04-07 北京百度网讯科技有限公司 图像识别方法、装置、电子设备以及存储介质
CN115471717B (zh) * 2022-09-20 2023-06-20 北京百度网讯科技有限公司 模型的半监督训练、分类方法装置、设备、介质及产品
CN116051486A (zh) * 2022-12-29 2023-05-02 抖音视界有限公司 内窥镜图像识别模型的训练方法、图像识别方法及装置
CN116403074A (zh) * 2023-04-03 2023-07-07 上海锡鼎智能科技有限公司 基于主动标注的半自动图像标注方法及标注装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015066297A1 (en) * 2013-10-30 2015-05-07 Worcester Polytechnic Institute System and method for assessing wound
CN107122375A (zh) * 2016-12-12 2017-09-01 南京理工大学 基于图像特征的图像主体的识别方法
CN108830300A (zh) * 2018-05-28 2018-11-16 深圳市唯特视科技有限公司 一种基于混合监督检测的目标传输方法
CN109949309A (zh) * 2019-03-18 2019-06-28 安徽紫薇帝星数字科技有限公司 一种基于深度学习的肝脏ct图像分割方法
CN110009623A (zh) * 2019-04-10 2019-07-12 腾讯科技(深圳)有限公司 一种图像识别模型训练及图像识别方法、装置及系统
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
CN110276741A (zh) * 2019-03-08 2019-09-24 腾讯科技(深圳)有限公司 结节检测及其模型训练的方法和装置以及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592779B2 (en) * 2017-12-21 2020-03-17 International Business Machines Corporation Generative adversarial network medical image generation for training of a classifier
CN108986067B (zh) * 2018-05-25 2020-08-14 上海交通大学 基于跨模态的肺结节检测方法
US11487997B2 (en) * 2018-10-04 2022-11-01 Visa International Service Association Method, system, and computer program product for local approximation of a predictive model
CN109447065B (zh) * 2018-10-16 2020-10-16 杭州依图医疗技术有限公司 一种乳腺影像识别的方法及装置
CN110738263B (zh) * 2019-10-17 2020-12-29 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置
CN110909780B (zh) 2019-11-14 2020-11-03 腾讯科技(深圳)有限公司 一种图像识别模型训练和图像识别方法、装置及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015066297A1 (en) * 2013-10-30 2015-05-07 Worcester Polytechnic Institute System and method for assessing wound
CN107122375A (zh) * 2016-12-12 2017-09-01 南京理工大学 基于图像特征的图像主体的识别方法
CN108830300A (zh) * 2018-05-28 2018-11-16 深圳市唯特视科技有限公司 一种基于混合监督检测的目标传输方法
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
CN110276741A (zh) * 2019-03-08 2019-09-24 腾讯科技(深圳)有限公司 结节检测及其模型训练的方法和装置以及电子设备
CN109949309A (zh) * 2019-03-18 2019-06-28 安徽紫薇帝星数字科技有限公司 一种基于深度学习的肝脏ct图像分割方法
CN110009623A (zh) * 2019-04-10 2019-07-12 腾讯科技(深圳)有限公司 一种图像识别模型训练及图像识别方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《顾及区域信息的卷积神经网络在影像语义分割中的应用》;伍佳 等;;《科学技术与工程》;20180731;第18卷(第21期);第1671—1815页; *

Also Published As

Publication number Publication date
US20220051059A1 (en) 2022-02-17
JP7355924B2 (ja) 2023-10-03
JP2022547184A (ja) 2022-11-10
EP3982292A1 (en) 2022-04-13
EP3982292A4 (en) 2022-08-17
EP3982292B1 (en) 2023-08-09
CN110738263A (zh) 2020-01-31
US11960571B2 (en) 2024-04-16
WO2021073380A1 (zh) 2021-04-22

Similar Documents

Publication Publication Date Title
CN110738263B (zh) 一种图像识别模型训练的方法、图像识别的方法及装置
CN110504029B (zh) 一种医学图像处理方法、医学图像识别方法及装置
WO2021036695A1 (zh) 一种待标注图像确定的方法、模型训练的方法及装置
CN110348543B (zh) 眼底图像识别方法、装置、计算机设备及存储介质
CN110414631B (zh) 基于医学图像的病灶检测方法、模型训练的方法及装置
CN111598900B (zh) 一种图像区域分割模型训练方法、分割方法和装置
CN110377779B (zh) 图像标注的方法、基于病理图像的标注展示方法及装置
CN110473186B (zh) 一种基于医学图像的检测方法、模型训练的方法及装置
CN111462036A (zh) 基于深度学习的病理图像处理方法、模型训练方法及装置
CN109934220B (zh) 一种影像兴趣点的展示方法、装置及终端
CN110443794B (zh) 一种基于病理图像的图像状态确定方法、装置以及系统
CN111091127A (zh) 一种图像检测方法、网络模型训练方法以及相关装置
CN107895369B (zh) 图像分类方法、装置、存储介质及设备
CN110610181A (zh) 医学影像识别方法及装置、电子设备及存储介质
CN102753078A (zh) 图像显示装置以及胶囊型内窥镜系统
CN110517771B (zh) 一种医学图像处理方法、医学图像识别方法及装置
TW202347180A (zh) 影像處理模型的訓練方法
CN111598896B (zh) 图像检测方法、装置、设备及存储介质
CN113724188A (zh) 一种病灶图像的处理方法以及相关装置
CN113257412A (zh) 信息处理方法、装置、计算机设备及存储介质
CN114333997A (zh) 数据处理、数据处理模型的训练方法、装置、设备及介质
WO2020093987A1 (zh) 医学图像处理方法、系统、计算机设备以及可读存储介质
Poslončec-Petrić¹ et al. Check for updates Use of Augmented Reality to Present Archaeological Contents
CN116978549A (zh) 一种器官疾病预测方法、装置、设备及存储介质
Abida et al. Artificial Intelligence in Check for updates Urology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020857

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant