CN111291755B - 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 - Google Patents

对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111291755B
CN111291755B CN202010090909.6A CN202010090909A CN111291755B CN 111291755 B CN111291755 B CN 111291755B CN 202010090909 A CN202010090909 A CN 202010090909A CN 111291755 B CN111291755 B CN 111291755B
Authority
CN
China
Prior art keywords
sample
prediction
detection model
target object
loss value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010090909.6A
Other languages
English (en)
Other versions
CN111291755A (zh
Inventor
卓嘉璇
尚鸿
孙钟前
郑瀚
付星辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010090909.6A priority Critical patent/CN111291755B/zh
Publication of CN111291755A publication Critical patent/CN111291755A/zh
Priority to PCT/CN2020/126430 priority patent/WO2021159774A1/zh
Priority to US17/682,353 priority patent/US20220189147A1/en
Application granted granted Critical
Publication of CN111291755B publication Critical patent/CN111291755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000094Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope extracting biological structures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000096Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/31Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the rectum, e.g. proctoscopes, sigmoidoscopes, colonoscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • G06T2207/30032Colon polyp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种对象检测模型训练及对象检测方法、装置、计算机设备和存储介质。该对象检测模型训练方法包括:将未标注的第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果;将第二样本图输入初始检测模型,输出目标对象的第二预测结果;根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;根据损失值,调整初始检测模型的模型参数,并将下一轮作为本轮,返回将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。本申请方案能够节省成本。

Description

对象检测模型训练及对象检测方法、装置、计算机设备和存储 介质
技术领域
本发明涉及人工智能技术领域及机器学习技术领域,特别是涉及一种对象检测模型训练及对象检测方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的飞速发展,人工智能技术越来越受到重视。尤其是人工智能技术中的机器学习技术的应用甚为广泛。通常可以使用机器学习技术训练能够定位识别目标对象的机器学习模型。比如,将医学影像作为样本,用机器学习技术训练对象检测模型,以对医学影像中的目标对象进行识别。
监督学习是一种传统的模型训练方法。然而,对于监督学习方法来说,需要人工针对样本添加大量的标注数据,这样一来,导致模型训练成本比较高。
发明内容
基于此,有必要针对传统方法模型训练成本比较高的问题,提供一种对象检测模型训练方法、装置、计算机设备和存储介质。此外,还提供一种对象检测方法、装置、计算机设备和存储介质。
一种对象检测模型训练方法,方法包括:
将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;第一样本图未携带目标对象的位置标注信息;
对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果;
将第二样本图输入初始检测模型,输出目标对象的第二预测结果;
根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;
根据损失值,调整初始检测模型的模型参数,并将下一轮作为本轮,返回将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
在一个实施例中,第一预测结果包括目标对象的第一预测位置区域和第一预测位置区域对应的第一类别概率;
对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果包括:
对第一样本图和第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域;
根据变换后位置区域和相对应的第一类别概率,得到第二样本图中目标对象的预测变换结果;变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应。
在一个实施例中,对第一样本图和第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域包括:
获取第一预测位置区域的置信度;
根据置信度,从第一预测位置区域中筛选目标预测位置区域;目标预测位置区域的置信度,大于第一预测位置区域中非预测位置区域的置信度;
对第一样本图和目标预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域。
在一个实施例中,变换后位置区域为变换后预测框;
对第一样本图和目标预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域包括:
解码目标预测位置区域,生成用于标识目标对象的预测框;
对第一样本图和第一样本图中预测框进行变换,得到第二样本图和第二样本图中的变换后预测框。
在一个实施例中,损失值为第一损失值;方法还包括:
根据第三样本图对初始检测模型进行监督学习,得到本轮监督学习的第二损失值;第三样本图携带目标对象的位置标注信息;
根据损失值,调整初始检测模型的模型参数包括:
根据第一损失值和第二损失值,调整初始检测模型的模型参数。
在一个实施例中,初始检测模型的模型训练框架中,包括特征提取主干、预测主干和无监督学习分支;
将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果包括:
将第一样本图输入特征提取主干,提取第一样本图的图像特征;
将第一样本图的图像特征输入预测主干,预测出针对目标对象的第一预测结果;
对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换包括:
在无监督学习分支中,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换。
在一个实施例中,模型训练框架检测模型还包括监督学习分支;
根据第三样本图对初始检测模型进行监督学习,得到本轮监督学习的第二损失值包括:
将第三样本图输入特征提取主干中,得到第三样本图的图像特征;
将第三样本图的图像特征输入预测主干,得到第三样本图中目标对象的预测结果;
在监督学习分支中,根据预测结果和目标对象的位置标注信息之间的差异,确定本轮监督学习的第二损失值。
在一个实施例中,根据第一损失值和第二损失值,调整初始检测模型的模型参数包括:
获取无监督学习的第一损失权重和监督学习的第二损失权重;
将第一损失值按照第一损失权重、以及将第二损失值按照第二损失权重进行加权平均处理,得到初始检测模型的本轮的总损失值;
根据总损失值,调整初始检测模型的模型参数。
在一个实施例中,第二预测结果中包括目标对象的第二预测位置区域和相应第二类别概率;预测变换结果中包括目标对象的变换后位置区域和对应的第一类别概率;
根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值包括:
根据第二类别概率,识别属于前景区域的第二预测位置区域、以及属于背景区域的第二预测位置区域;
针对属于前景区域的第二预测位置区域,根据第二预测位置区域相应的第二类别概率和变换后位置区域对应的第一类别概率之间的差异,得到前景损失值;
针对属于背景区域的第二预测位置区域,对第二预测位置区域相应的第二类别概率求交叉熵损失,得到背景损失值;
将前景损失值按前景权重、以及将背景损失值按背景权重进行加权平均处理,得到无监督学习的损失值;前景权重大于背景权重。
在一个实施例中,第一样本图为初始的结直肠息肉样本图;目标对象为结直肠息肉;第二样本图,由对结直肠息肉样本图进行变换得到的;对象检测模型为结直肠息肉检测模型。
在一个实施例中,方法还包括:
获取待处理的结直肠息肉医学图像;
将结直肠息肉医学图像,输入结直肠息肉检测模型,预测出结直肠息肉的定位结果;
按照定位结果,在结直肠息肉医学图像中标识出结直肠息肉区域。
一种对象检测方法,该方法包括:
将待处理的结直肠息肉医学图像,输入预先训练的结直肠息肉检测模型,预测出结直肠息肉的定位结果;
其中,结直肠息肉检测模型的训练步骤包括:
将未标注的第一结直肠息肉样本医学图像输入本轮的初始检测模型,输出针对结直肠息肉的第一预测结果;
对第一结直肠息肉样本医学图像和第一预测结果中结直肠息肉的第一预测位置区域进行变换,得到第二结直肠息肉样本医学图像和第二结直肠息肉样本医学图像中结直肠息肉的预测变换结果;
将第二结直肠息肉样本医学图像输入初始检测模型,输出结直肠息肉的第二预测结果;
根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;
根据损失值,调整初始检测模型的模型参数,并将下一轮作为本轮,返回将第一结直肠息肉样本医学图像输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到结直肠息肉检测模型。
一种对象检测模型训练装置,包括:
预测模块,用于将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;第一样本图未携带目标对象的位置标注信息;
变换模块,用于对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果;
预测模块还用于将第二样本图输入初始检测模型,输出目标对象的第二预测结果;
无监督损失确定模块,用于根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;
参数调整模块,用于根据损失值,调整初始检测模型的模型参数,并通知预测模块将下一轮作为本轮,继续执行将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的对象检测模型训练方法或对象检测方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的对象检测模型训练方法或对象检测方法中的步骤。
上述对象检测模型训练方法、装置、计算机设备和存储介质,将未标注的第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;进而,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果。将第二样本图输入初始检测模型,输出目标对象的第二预测结果。将预测变换结果作为监督信息,对第二预测结果进行监督,以确定第二预测结果和预测变换结果的差异,从而得到无监督学习的损失值;根据损失值,调整初始检测模型的模型参数以进行迭代训练。即,对变换后的图像进行再次预测,并基于变换后的预测变换结果作为监督信息,对再次预测得到的第二预测结果进行监督,能够实现无监督损失的计算,从而实现根据无标记的样本数据训练对象检测模型,相较于传统需要大量标注数据而言,节省了成本。
此外,对象检测方法、装置、计算机设备和存储介质中,根据按照本申请实施例中的对象检测模型训练方法所训练出的结直肠息肉检测模型,来定位检测结直肠息肉,能够在保证准确检测结直肠息肉的情况下,节省了成本。
附图说明
图1为一个实施例中对象检测模型训练方法的应用场景图;
图2为一个实施例中对象检测模型训练方法的流程示意图;
图3为一个实施例中数据扩增示意图;
图4为一个实施例中对象检测模型训练方法的原理示意图;
图5为一个实施例中位置一致性的统计结果示意图;
图6为一个实施例中分类一致性的统计结果示意图;
图7为一个实施例中对象检测模型训练装置的框图;
图8为另一个实施例中对象检测模型训练装置的框图;
图9为一个实施例中对象检测装置的框图;
图10为一个实施例中计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中对象检测模型训练方法的应用场景图。参照图1,该应用场景中包括网络连接的服务器110和终端120。终端120可以是医疗设备、台式计算机或移动终端。医疗设备,是能够采集医学图像的终端设备。移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器110可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。可以理解,在其他实施例中,服务器110也可以用具备执行本申请各实施例中的对象检测模型训练方法能力的终端替换。
终端120可以进行图像采集,并将采集的图像作为样本图发送至服务器110,以为服务器110提供能够进行模型训练的样本图。比如,在医学场景中,医疗设备则可以采集医学图像提供给服务器110,服务器110可以将医学图像作为样本图进行机器学习训练,以训练出能够识别医学图像中的目标对象的对象检测模型。可以理解,服务器110也可以直接获取已存储的由终端120发送的样本图。
可以理解,服务器110需要通过多轮迭代训练对象检测模型。所以,在每轮迭代训练过程中,服务器110可以将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;第一样本图未携带目标对象的位置标注信息。即,第一样本图是无标注的样本数据。服务器110可以对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果。服务器110可以将第二样本图输入初始检测模型,输出目标对象的第二预测结果;根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;根据损失值,调整初始检测模型的模型参数,并将下一轮作为本轮,返回将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
可以理解,本申请各实施例中的对象检测模型训练方法,相当于使用人工智能技术来训练出能够自动定位目标对象的机器学习模型。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可以理解,本申请各实施例中的对象检测模型训练方法相当于使用了机器学习技术。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图2为一个实施例中对象检测模型训练方法的流程示意图。本实施例中的该对象检测模型训练方法可以应用于计算机设备,现主要以计算机设备为图1中的服务器110进行举例说明。参照图2,该方法具体包括如下步骤:
S202,将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;第一样本图未携带目标对象的位置标注信息。
其中,样本图,是用于作为模型训练样本数据的图像。目标对象,是需要定位识别的目标对象。可以理解,第一样本图中可以包括该目标对象的图像内容。位置标注信息,是用于标注目标对象在样本图中的位置的信息。由于第一样本图未携带目标对象的位置标注信息,说明第一样本图是未标注的样本数据,因此,采用第一样本图进行模型训练属于无监督学习。
可以理解,目标对象,可以是需要从图像中定位识别出的人物、动物、植物、物品、部位、器官和增生组织等中的任意类型和任意粒度的对象。
增生组织,是指不属于原生的、在后期额外增长出的组织。
在一个实施例中,增生组织可以是人体中的增生组织。在一个实施例中,增生组织可以包括结直肠息肉。可以理解,息肉(polyp),是指人体组织表面长出的赘生物,现代医学通常把生长在人体黏膜表面上的赘生物统称为息肉。结直肠息肉,即为在结直肠表面长出的赘生物。
需要说明的是,本申请各实施例中用于训练对象检测模型的方法,并不是直接作用于现实世界中活体目标对象本身,而是通过采集包括目标对象的图像作为样本图进行模型训练,属于结合图像处理技术来进行机器学习训练。
可以理解,计算机设备需要通过多轮迭代训练对象检测模型,所以,本轮,是进行机器学习训练的当前轮次。可以理解,每轮迭代训练是通过调整本轮的初始检测模型的模型参数,来使得模型逐步收敛,得到最终的对象检测模型,所以,初始检测模型,是本轮的训练中未调整模型参数之前的检测模型。
具体地,计算机设备可以直接获取第一样本图。计算机设备也可以获取视频流,从视频流中分离出一帧一帧包括图像,并将各图像作为第一样本图。计算机设备可以将第一样本图输入本轮的初始检测模型,通过初始检测模型对第一样本图中的目标对象进行预测,得到针对目标对象的第一预测结果。
第一预测结果,是对第一样本图中的目标对象进行预测的结果。第一预测结果可以包括对目标对象的位置预测结果。即,第一预测结果中包括目标对象的第一预测位置区域。第一预测位置区域,是预测出的第一样本图中目标对象所处的位置区域。
可以理解,每个第一样本图中的第一预测位置区域可以为多个。当第一预测位置区域为多个时,则表明初始检测模型输出的是多个可能存在目标对象的位置区域,即第一预测位置区域。在其他实施例中,第一预测位置区域也可以为一个,即,初始检测模型会从预测的多个可能存在目标对象的位置区域中,根据各位置区域所对应的第一类别概率,从中选取最可能为目标对象的位置区域,即为第一预测位置区域。对此不作限定。
在一个实施例中,第一预测结果除了包括目标对象的第一预测位置区域以外,还可以包括各第一预测位置区域对应的第一类别概率。第一类别概率,即分类概率,用于表征位于第一预测位置区域的对象分别属于各个预设类别的概率。
S204,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果。
可以理解,第二样本图,是由第一样本图进行变换得到的样本图。预测变换结果,由第一预测位置区域进行变换得到、且用于表征第二样本图中的目标对象。即,预测变换结果,可以在第二样本图中定位出目标对象。
在一个实施例中,预测变换结果可以包括变换后位置区域。变换后位置区域,是对第一预测位置区域进行变换后得到的位置区域。
需要说明的是,对第一预测位置区域做变换后,得到的变换后位置区域,仍然能够用于标识变换前在第一样本图中所标识的图像内容。
具体地,对第一样本图和第一预测位置区域做变换时,可以将第一预测位置区域当作第一样本图的所属部分,进行整体变换。比如,如果需要对第一样本图的图像内容进行水平翻转,那么,第一样本图中的第一预测位置区域也需要作为第一样本图的所属部分,一起进行水平翻转。即,不能将第一样本图和第一预测位置区域做完全不相关甚至背道而驰的变换,因为这样变换后的预测变换结果就没有参考性。比如,如果对第一样本图的图像内容进行水平翻转,但不水平翻转第一预测位置区域或者垂直翻转第一预测位置区域,就会导致变换后第一预测位置区域完全不能够标识变换前所标识的内容。
在一个实施例中,针对每个第一样本图,计算机设备可以对第一样本图中全部的第一预测位置区域进行变换。在其他实施例中,计算机设备也可以从第一预测位置区域中筛选部分第一预测位置区域,并对第一样本图和所筛选的第一预测位置区域进行整体变换。
可以理解,计算机设备可以通过对第一样本图和第一预测位置区域进行数据扩增处理,以对第一样本图和第一预测位置区域进行变换。
在一个实施例中,计算机设备可以通过包括颜色扰动、水平翻转、图片拉伸和平移、仿射变化等至少一种数据扩增处理对第一样本图和第一预测位置区域进行变换。
图3为一个实施例中数据扩增示意图。参照图3(a)~(d)中任意一个,左图即为变换前的第一样本图,右图即为经过所采用的数据增强处理,变换得到的第二样本图。比如,对于(a)来说,对左图(即第一样本图)进行颜色扰动,即得到右图(即为第二样本图)。左图中的框,即用于表示第一预测位置区域,右图中的框,即为变换后位置区域,根据变换后位置区域能够得到预测变换结果。从图3可知,(a)~(d)中任意一种数据扩增处理结果,变换后位置区域,仍然能够对变换前在第一样本图中所标识的图像内容进行标识。
在一个实施例中,当第一预测结果包括第一类别概率时,预测变换结果中也可以包括第一类别概率。可以理解,由于第一预测位置区域做变换后,仍然能够用于标识变换前在第一样本图中所标识的图像内容,所以,在变换后位置区域所对应的类别概率并不会发生变换,仍然是变换前的第一预测位置区域所对应的第一类别概率。
S206,将第二样本图输入初始检测模型,输出目标对象的第二预测结果。
具体地,计算机设备可以将变换得到的第二样本图,再次输入该初始检测模型中,以对第二样本图中的目标对象进行预测,得到目标对象的第二预测结果。
第二预测结果,是对第二样本图中的目标对象进行预测的结果。第二预测结果可以包括对目标对象的位置预测结果。即,第二预测结果中包括目标对象的第二预测位置区域。第二预测位置区域,是预测出的第二样本图中目标对象所处的位置区域。
在一个实施例中,第二预测结果除了包括目标对象的第二预测位置区域以外,还可以包括各第二预测位置区域对应的第二类别概率。第二类别概率,即分类概率,用于表征位于第二预测位置区域的对象分别属于各个预设类别的概率。
S208,根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值。
具体地,计算机设备可以将预测变换结果作为监督信息,对第二预测结果进行监督,并计算损失,得到无监督学习的损失。
可以理解,由于第一样本图未携带目标对象的位置标注信息,所以属于无标注样本数据。而第二样本图虽然有对应的预测变换结果,但是,也并非是由人工标注的,所以,将预测变换结果作为监督信息,对第二预测结果进行监督,并计算损失,属于无监督学习的过程,因此,得到的是无监督学习的损失。
需要说明的是,假若第一样本图能够在初始检测模型的前向预测中得到目标对象的定位,即目标对象的第一预测位置区域。那么,当对这张第一样本图和第一预测位置区域进行了变换,并将变换后得到的第二样本图,再次经过初始检测模型,进行二次前向预测基本上也能得到目标对象的位置。这种情况下,之前对第一预测位置区域进行变换所得到的预测变换结果,就属于进行二次前向预测前已知的结果,则可以作为监督信息(即真值),对二次前向预测的结果(即第二预测结果)进行监督,计算差异,得到无监督学习的损失值。即,通过约束两次预测结果的一致性,来得到无监督学习的损失值。
在一个实施例中,第二预测结果中包括目标对象的第二预测位置区域和相应第二类别概率;预测变换结果中包括目标对象的变换后位置区域和对应的第一类别概率。可以理解,第二预测结果和预测变换结果的差异,可以从位置一致性和分类一致性中的至少一种维度来计算差异,从而计算一致性约束损失,得到无监督学习的损失值。
S210,根据损失值,调整初始检测模型的模型参数。
可以理解,当未满足训练结束条件时,则将下一轮作为本轮,返回步骤S202将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练。当满足训练结束条件时,则停止迭代训练,得到对象检测模型。
其中,训练结束条件,是结束训练的条件。
在一个实施例中,训练结束条件可以包括模型达到收敛状态。在其他实施例中,训练结束条件还可以包括迭代次数达到预设次数阈值。
在一个实施例中,计算机设备可以仅根据无监督学习的损失值,调整初始检测模型的模型参数。即,计算机设备可以仅通过无监督学习,来训练对象检测模型。具体地,计算机设备可以根据无监督学习的损失值,来判断调整模型参数后的检测模型是否收敛,若是,则将该检测模型作为对象检测模型。可以理解,在其他实施例中,当根据损失值判定并未达到模型收敛状态、但迭代次数达到预设次数阈值时,也可以将本轮调整模型参数后的检测模型作为最终的对象检测模型。
可以理解,计算机设备也可以将无监督学习作为一个训练分支,结合监督学习分支,实现半监督学习,得到对象检测模型。那么,计算机设备可以再根据一部分携带目标对象的位置标注信息的样本图,对初始检测模型进行监督学习训练,得到监督学习的损失值。进而根据无监督学习的损失值和监督学习的损失值,调整初始检测模型的模型参数。
其中,半监督学习(Semi-Supervised Learning,SSL):使用大量的无标记数据,以及同时使用有标记数据进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性。
上述对象检测模型训练方法,将未标注的第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;进而,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果。将第二样本图输入初始检测模型,输出目标对象的第二预测结果。将预测变换结果作为监督信息,对第二预测结果进行监督,以确定第二预测结果和预测变换结果的差异,从而得到无监督学习的损失值;根据损失值,调整初始检测模型的模型参数以进行迭代训练。即,对变换后的图像进行再次预测,并基于变换后的预测变换结果作为监督信息,对再次预测得到的第二预测结果进行监督,能够实现无监督损失的计算,从而实现根据无标记的样本数据训练对象检测模型,相较于传统需要大量标注数据而言,节省了成本。
在一个实施例中,第一预测结果包括目标对象的第一预测位置区域和第一预测位置区域对应的第一类别概率。本实施例中,步骤S204包括:对第一样本图和第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域;根据变换后位置区域和相对应的第一类别概率,得到第二样本图中目标对象的预测变换结果;变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应。
其中,变换后位置区域,是对第一预测位置区域进行变换后,得到的位置区域。可以理解,由于是将第一样本图和第一样本图中的第一预测位置区域作为一个整体进行变换的,而第二样本图是由第一样本图变换得到,所以,变换后位置区域能够标识第二样本图中目标对象。
可以理解,由于第一预测位置区域做变换后,仍然能够用于标识变换前在第一样本图中所标识的图像内容,所以,在变换后位置区域所对应的类别概率并不会发生变换,仍然是变换前的第一预测位置区域所对应的第一类别概率。因此,变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应。进一步地,计算机设备可以将变换后位置区域和相对应的第一类别概率,作为第二样本图中目标对象的预测变换结果。
在一个实施例中,针对每个第一样本图,计算机设备可以筛选该第一样本图中的部分第一预测位置区域进行变换,得到变换后位置区域。比如,计算机设备可以根据各第一预测位置区域的置信度,从中筛选部分第一预测位置区域进行变换。筛选出的第一预测位置区域比未筛选的第一预测位置区域的置信度要大。
在一个实施例中,对第一样本图和第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域包括:获取第一预测位置区域的置信度;根据置信度,从第一预测位置区域中筛选目标预测位置区域;目标预测位置区域的置信度,大于第一预测位置区域中非预测位置区域的置信度;对第一样本图和目标预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域。
其中,置信度,用于表示第一预测位置区域中的对象属于目标对象的可信程度。目标预测位置区域,是指置信度高的、且用于进行变换的第一预测位置区域。
在一个实施例中,计算机设备可以从第一预测位置区域中选取置信度排名在前预设数量的第一预测位置区域,作为目标预测位置区域。预设数量为一个或多个。
为了便于理解,现举例说明。假设第一样本图A中预测出了4个第一预测位置区域,那么,可以根据各第一预测位置区域的置信度,从中选取置信度排名在前2名的第一预测位置区域,作为目标预测位置区域,进而,可以将第一样本图A和这2个目标预测位置区域进行整体变换,得到第二样本图a和第二样本图a中2个变换后位置区域。
在一个实施例中,变换后位置区域为变换后预测框。本实施例中,对第一样本图和目标预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域包括:解码目标预测位置区域,生成用于标识目标对象的预测框;对第一样本图和第一样本图中预测框进行变换,得到第二样本图和第二样本图中的变换后预测框。
其中,变换后预测框,是指对预测框进行变换后得到的框。预测框,是预测出来的用于标识目标对象的框。解码,是指将位置区域呈现为框的处理过程。
可以理解,通过解码,可以将预测结果转换为框级别,从而对框级别预测结果进行变换处理更加便捷。
比如,假设第一样本图A中预测出了4个第一预测位置区域,那么,可以根据各第一预测位置区域的置信度,从中选取置信度排名在前2名的第一预测位置区域,作为目标预测位置区域。进而,可以将这2个目标预测位置区域进行解码,得到2个预测框。接着,可以将第一样本图A和2个预测框进行整体变换,得到第二样本图a和第二样本图a中2个变换后预测框。
可以理解,上述实施例中,是先对预测的第一预测位置区域进行筛选,再对筛选的目标预测位置区域进行解码,形成框级别的预测变换结果。预测变换结果中包括的是相对可信的预测框。可以理解,当第一预测结果中包括第一类别概率时,则预测变换结果中可以包括相对可信的预测框(即置信度高的预测框)和对应的第一类别概率。
需要说明的是,在其他实施例中,也可以先将第一预测位置区域解码成预测框,再根据预测框的置信度,从预测框中选取置信度高的目标预测框,进而,对第一样本图和第一样本图中目标预测框进行变换,得到第二样本图和第二样本图中的变换后预测框。
具体地,在一个实施例中,对第一样本图和第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域可以包括:解码目标对象的第一预测位置区域,生成用于标识目标对象的预测框;获取预测框的置信度,并根据置信度从预测框中选取目标预测框;目标预测框的置信度,大于预测框中非目标预测框的置信度;对第一样本图和第一样本图中目标预测框进行变换,得到第二样本图和第二样本图中的变换后预测框。
其中,变换后预测框,是指对预测框进行变换后得到的框。预测框,是预测出来的用于标识目标对象的框。预测框的置信度,用于表示预测框中的对象属于目标对象的可信程度。
具体地,计算机设备对预测出的目标对象的第一预测位置区域进行解码,生成用于标识目标对象的预测框。可以理解,每个预测框具有对应的置信度。计算机设备可以根据预测框的置信度,从预测框中选取目标预测框;目标预测框的置信度,大于预测框中非目标预测框的置信度。
在一个实施例中,计算机设备可以从预测框中选取置信度排名在前预设数量的预测框,作为目标预测框。预设数量为一个或多个。
进一步地,计算机设备可以对第一样本图和第一样本图中目标预测框进行变换,得到第二样本图和第二样本图中的变换后预测框。
为了便于理解,现举例说明。假设第一样本图A中预测出了4个预测框,那么,可以根据各预测框的置信度,从中选取置信度排名在前2名的预测框,作为目标预测框,进而,可以将第一样本图A和这2个目标预测框进行整体变换,得到第二样本图a和第二样本图a中2个变换后预测框。
在一个实施例中,损失值为第一损失值。该方法还包括:根据第三样本图对初始检测模型进行监督学习,得到本轮监督学习的第二损失值。本申请实施例中,步骤S210根据损失值,调整初始检测模型的模型参数包括:根据第一损失值和第二损失值,调整初始检测模型的模型参数。
其中,第三样本图携带目标对象的位置标注信息。即,第三样本图是有标注的样本数据。
其中,监督学习,即全监督学习(Full-Supervised learning,FSL):仅使用有标记数据进行模式识别工作。由于第三样本图携带目标对象的位置标注信息,因此可以根据携带目标对象的位置标注信息的第三样本图对本轮的初始检测模型进行监督学习训练,得到本轮监督学习的第二损失值。
计算机设备可以根据第一损失值和第二损失值,确定本轮的初始检测模型的总损失值。进一步地,计算机设备可以根据总损失值,按照梯度下降算法,调整初始检测模型的模型参数。
在一个实施例中,根据第一损失值和第二损失值,调整初始检测模型的模型参数包括:获取无监督学习的第一损失权重和监督学习的第二损失权重;将第一损失值按照第一损失权重、以及将第二损失值按照第二损失权重进行加权平均处理,得到初始检测模型的本轮的总损失值;根据总损失值,调整初始检测模型的模型参数。
可以理解,第一损失权重和第二损失权重的大小,决定无监督学习结果与监督学习结果,对初始检测模型的训练影响程度。第一损失权重可以大于、小于或等于第二损失权重,对此不作限定。
上述实施例中,将无监督损失和监督损失结合,实现半监督学习训练,能够提高模型训练准确性。
在一个实施例中,初始检测模型的模型训练框架中,包括特征提取主干、预测主干和无监督学习分支。将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果包括:将第一样本图输入特征提取主干,提取第一样本图的图像特征;将第一样本图的图像特征输入预测主干,预测出针对目标对象的第一预测结果。本实施例中,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换包括:在无监督学习分支中,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换。
模型训练框架,是用于训练对象检测模型的神经网络架构。可以理解,不同轮次的初始检测模型所对应的模型训练框架不变。
特征提取主干,是指用于对图像进行特征提取处理的主干结构。预测主干,是基于提取的图像特征进行目标对象预测的主干结构。无监督学习分支,是指进行无监督学习训练的分支结构。
可以理解,主干结构,是共享处理功能的结构。即,主干结构除了可以能够帮无监督学习分支完成所共享的处理以外,还可以帮助其他分支完成所共享的处理。比如,特征提取主干,除了能够无监督学习分支完成特征提取处理以外,还可以帮其他分支完成特征提取相关处理。分支,是不进行共享的、用于专项处理的结构。比如,无监督学习分支,即为专项处理无监督学习的结构。
具体地,初始检测模型的模型训练框架中包括特征提取主干、预测主干和无监督分支。在本轮的无监督学习训练过程中,计算机设备可以将第一样本图输入特征提取主干,提取第一样本图的图像特征;将第一样本图的图像特征输入预测主干,预测出针对目标对象的第一预测结果。本实施例中,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换包括:在无监督学习分支中,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换。
需要说明的是,无监督分支是在模型训练时才会存在,所以,当模型训练完毕后,得到的最终的对象检测模型中会保留训练好的特征提取主干和预测主干,从而对待处理的图像进行目标对象的定位识别。
在一个实施例中,初始检测模型还包括监督学习分支。本实施例中,根据第三样本图对初始检测模型进行监督学习,得到本轮监督学习的第二损失值包括:将第三样本图输入特征提取主干中,得到第三样本图的图像特征;将第三样本图的图像特征输入预测主干,得到第三样本图中目标对象的预测结果;在监督学习分支中,根据预测结果和目标对象的位置标注信息之间的差异,确定本轮监督学习的第二损失值。
其中,监督学习分支,是指进行监督(全监督)学习训练的分支结构。
可以理解,监督学习分支和无监督学习分支,共用特征提取主干和预测主干,来实现对图像特征的提取以及对目标对象的预测。
具体地,计算机设备可以将第三样本图输入特征提取主干中,得到第三样本图的图像特征。计算机设备可以将特征提取主干所提取的第三样本图的图像特征输入预测主干,得到第三样本图中目标对象的预测结果;在监督学习分支中,根据预测结果和第三样本图所携带的目标对象的位置标注信息之间的差异,确定本轮监督学习的第二损失值。
为了便于理解,现结合图4对模型训练原理进行解释说明。图4是以目标对象为结直肠息肉为例。参照图4,初始的样本数据为有标数据(即携带目标对象的位置标注信息的第三样本图)和无标数据(即未携带目标对象的位置标注信息的第一样本图)。图4中为了加大无标数据的样本数量,对无标数据进行了数据增强。可以理解,在其他实施例中,如果无标数据足够多也可省略对无标数据进行数据增强的处理步骤。可以理解,由无标数据形成的支路,即为无监督学习分支(见虚线框402),由有标数据形成的支路,即为监督学习分支(见虚线框404)。从图4可知,无监督学习分支402和监督学习分支404共享特征提取主干和预测主干。
对于无监督学习分支402来说,通过特征提取主干和预测主干,预测得到第一样本图中目标对象的第一预测结果。第一预测结果中包括第一预测位置区域和相应第一类别概率。然后对第一预测位置区域进行筛选和解码,显示成框级别的预测结果,即解码成预测框。然后对第一样本图和预测框进行数据增强,得到第二样本图和变换后预测框。图4中候选框406a即为预测框,对第一样本图406和候选框406a进行水平翻转,即得到第二样本图408和变换后预测框408a(即图中所标识的数据增强后的候选框信息)。进而根据变换后预测框和相应第一类别概率,得到第二样本图中目标对象的预测变换结果。箭头406的输出数据即为预测变换结果。接着,再对数据增强后的第二样本图再次输入初始检测模型(即特征提取主干和预测主干),输出目标对象的第二预测结果,箭头408的输出数据即为第二预测结果。接着,将预测变换结果作为监督信息,对第二预测结果进行监督并计算损失,得到无监督损失(即,无监督学习的第一损失值)。
对于监督学习分支404来说,通过特征提取主干和预测主干,预测得到第三样本图中目标对象的预测结果。根据该预测结果与第三样本图携带的目标对象的位置标注信息(即图4中的标注框信息)之间的差异,得到全监督损失(即,全监督学习的第二损失值)。进而可以根据第一损失值和第二损失值,优化更新网络。即,优化更新本轮的初始检测模型的模型参数。
上述实施例中,通过共用特征提取主干和预测主干,能够简化模型训练框架,节省了系统资源。此外,也能将无监督学习和监督学习的特征提取和预测部分的训练统一起来进行训练,而并非用各自独立的分支来进行训练,而是进行联合训练,能够提高模型训练准确性。
在一个实施例中,第二预测结果中包括目标对象的第二预测位置区域和相应第二类别概率;预测变换结果中包括目标对象的变换后位置区域和对应的第一类别概率。本实施例中,根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值包括:根据第二类别概率,识别属于前景区域的第二预测位置区域、以及属于背景区域的第二预测位置区域;针对属于前景区域的第二预测位置区域,根据第二预测位置区域相应的第二类别概率和变换后位置区域对应的第一类别概率之间的差异,得到前景损失值;针对属于背景区域的第二预测位置区域,对第二预测位置区域相应的第二类别概率求交叉熵损失,得到背景损失值;将前景损失值按前景权重、以及将背景损失值按背景权重进行加权平均处理,得到无监督学习的损失值;前景权重大于背景权重。
其中,前景损失值,是指第二预测结果中针对前景区域的预测结果与预测变换结果之间的差异损失。背景损失值,是指第二预测结果中针对背景区域的预测结果与预测变换结果之间的差异损失。前景权重,是指前景损失值的权重,用于表征前景损失值对模型训练的影响程度。背景权重,是指背景损失值的权重,用于表征背景损失值对模型训练的影响程度
本实施例中,第二预测结果和预测变换结果的差异,可以分类一致性的维度来计算差异,从而计算一致性约束损失,得到无监督学习的损失值。
可以理解,第二预测结果中所包括的第二预测位置区域中,可能包括前景区域和背景区域。前景区域,即为目标对象所处区域。背景区域,是指图像中除前景区域以外的区域。
那么,计算机设备可以根据第二类别概率,识别属于前景区域的第二预测位置区域、以及属于背景区域的第二预测位置区域。针对属于前景区域的第二预测位置区域,计算机设备可以根据该第二预测位置区域相应的第二类别概率和变换后位置区域对应的第一类别概率之间的差异,得到前景损失值。
此外,针对属于背景区域的第二预测位置区域,由于其没有可以起到监督作用的信息,所以,计算机设备可以对该属于背景区域的第二预测位置区域相应的第二类别概率求交叉熵损失,得到背景损失值。
进一步地,计算机设备可以获取前景权重和背景权重。计算机设备可以将前景损失值按前景权重、以及将背景损失值按背景权重进行加权平均处理,得到无监督学习的损失值;前景权重大于背景权重。
在一个实施例中,计算机设备可以按照以下公式确定无监督学习的损失值:
Figure BDA0002383679620000211
其中,上述公式表示无监督学习的一致性约束损失函数;Lcl为无监督学习的损失;Lcl中的下标cl表示从分类一致性维度进行一致性损失计算;λ+为前景权重;a∈A+是指属于前景区域集合A+的第a个前景区域(即,第a个属于前景区域的第二预测位置区域);
Figure BDA0002383679620000212
为前景损失;
Figure BDA0002383679620000213
为预测的第a个前景区域的第二类别概率;
Figure BDA0002383679620000214
为变换后位置区域对应的第一类别概率(即作为监督信息,相当于真值);λ-为背景权重;
Figure BDA0002383679620000215
为背景损失;a∈A-指属于背景区域集合A-的第a个背景区域(即,第a个属于背景区域的第二预测位置区域);
Figure BDA0002383679620000216
中的
Figure BDA0002383679620000217
表示预测的第a个背景区域的第二类别概率。
可以理解,当第二预测位置区域表示为预测框,即框级别的形式时,则上述公式中的前景区域即为前景框,背景区域即为背景框。前景框,是指标识的对象为目标对象的框。背景框,是指标识的对象属于非目标对象的框。
具体地,计算机设备可以直接获取预设的前景权重和背景权重,也可以结合前景区域和背景区域的数量,确定前景权重和背景权重。
可以理解,对于一般图像而言,其背景区域往往远大于前景区域,而前景区域包含着检测目标对象大部分的有用信息。所以,为了使得一致性约束更好地对前景区域进行关注,前景权重可以大于背景权重。
在一个实施例中,前景权重可以为属于背景区域的第二预测位置区域的数量和第二预测位置区域的总数量之间的比值。背景权重可以为属于前景区域的第二预测位置区域的数量和第二预测位置区域的总数量之间的比值。
在一个实施例中,可以按照以下公式确定前景权重和背景权重:
Figure BDA0002383679620000221
其中,λ+为前景权重,λ-为背景权重,N-,为背景区域的数量,N+为前景区域的数量,N为第二预测位置区域的总数量。
由于背景区域的数量比较多,所以,交换对应的比例,即用背景区域的占比作为前景权重,将前景区域的占比作为背景权重,这样一来,既能够使得前景权重大于背景权重,又能够根据实际情况动态确定前景权重和背景权重,相较于预设固定权重而言,提高了准确性。
可以理解,在物体检测算法中,分类维度负责对各个预测框的类标进行判断,包括背景以及所包含物体的类标,而位置回归维度负责对预测框位置进行微调。同理,一致性约束中分类维度负责约束相同位置预测框的类别判断一致,而位置回归维度负责相同位置预测框微调方向一致。利用物体检测算法对大量成对的变换前后的数据进行测试,得到如图5和图6对样本在不同mAP(mean Average Precision,是衡量深度学习中对象检测算法准确率的一个重要指标,mAP约高说明检测性能越好,范围0-100%)检测器下实验的统计结果。图5和图6中,不同的曲线表示的是不同mAP程度下检测器的测试结果,比如,图5中标识出的mAP30%、mAP25%和mAP20%的曲线,则为分别在mAP30%、mAP25%和mAP20%程度的检测器下的测试统计结果。又比如,图6中标识出的mAP30%和mAP15%的曲线,则为分别在mAP30%和mAP15%程度的检测器下的测试统计结果。需要说明的是,并未对图5和图6中所有mAP程度下的曲线进行标识,仅标识出部分进行示意。图5表示位置一致性的统计结果(即从位置一致性维度,统计一致性损失)。参照图5,横轴表示的是一致性程度(0~1),纵轴表示统计的样本数量。从图5可知,不管是在哪种mAP程度下,绝大多数样本的一致性程度都达到80%甚至90%以上,在肉眼上基本区别不出位置的差异。比如,就mAP30%、mAP25%而言,两种mAP程度下,都是有大多数样本的一致性程度在90%以上。所以,位置一致性损失通常都比较小,对模型收敛训练起不到重要的约束作用。参照图6,表示分类一致性的统计结果(即从分类一致性维度,统计一致性损失),横轴表示的是一致性程度(0~1),纵轴表示的是统计的样本数量。从图6可知,分类一致性分布各异,大部分样本的一致性程度集中在0.5,即没有到达较高一致的较多。因此,当模型未收敛时,分类一致性损失比较大,将一致性约束建立在分类一致性维度上更有意义,对模型收敛具有较为重要的影响。因此,本申请上述实施例中,是从分类一致性维度上进行一致性约束损失计算,得到无监督学习的损失值。
在一个实施例中,第一样本图为初始的结直肠息肉样本图;目标对象为结直肠息肉;第二样本图,由对结直肠息肉样本图进行变换得到的;对象检测模型为结直肠息肉检测模型。
可以理解,内窥镜视频流中结直肠息肉性质识别是AI(人工智能)医疗辅助的一个重要应用,旨在帮助医生做内窥镜检查时及时发现息肉并指导医生进行下一步的判断和操作。其中,结直肠息肉定位检测是内窥镜视频流中结直肠息肉性质识别整个流程中极为重要和关键的部分。
本申请实施例中,可以将初始的未标注的结直肠息肉样本图,作为本申请各实施例中的第一样本图,将结直肠息肉作为本申请各实施例中的目标对象,进行无监督训练,以训练得到结直肠息肉检测模型。从而根据无标注数据实现对结直肠息肉定位检测,节省了人工标注成本。
可以理解,在其他实施例中,也可以用部分标注了的结直肠息肉样本图进行有监督学习,将有监督学习的损失和无监督学习的损失结合起来,实现半监督学习,从而能够在使用较少标注数据的情况下,训练出准确地结直肠息肉检测模型。
在一个实施例中,该方法还包括:获取待处理的结直肠息肉医学图像;将结直肠息肉医学图像,输入结直肠息肉检测模型,预测出结直肠息肉的定位结果;按照定位结果,在结直肠息肉医学图像中标识出结直肠息肉区域。
具体地,计算机设备可以将待处理的结直肠息肉医学图像,输入按照本申请各实施例中的方法训练好的结直肠息肉检测模型,预测出结直肠息肉的定位结果。进一步地,计算机设备可以按照定位结果,在结直肠息肉医学图像中标识出结直肠息肉区域,以提示医务人员息肉的具体位置。可以理解,识别的结直肠息肉区域可以为下一步息肉性质识别提供输入数据。
在一个实施例中,计算机设备可以从医学图像视频流(比如,内窥镜视频流)中,获取待处理的结直肠息肉医学图像,每个结直肠息肉医学图像即为一个视频帧。计算机设备可以针对每帧结直肠息肉医学图像,都定位并标识出结直肠息肉区域。
上述实施例中,采用本申请各实施例训练的结直肠息肉检测模型,能够准确定位检测出结直肠息肉,为后续医疗处理提供了准确地、重要地参考依据。
可以理解,在其他实施例中,也可以用医疗领域中的其他需要定位检测的对象,比如,子宫息肉、或者肿瘤的定位检测,都可以将待检测对象作为本申请各实施例中的目标对象,并将包括该对象的医学图像作为样本图,采用本申请各实施例中的模型训练方法,得到用于检测该对象的对象检测模型。即,本申请各实施例中的对象检测模型的训练方法,可以适用于较多医疗检测场景,而不限定于结直肠息肉的定位检测。
此外,本申请各实施例中的对象检测模型训练方法,还可以适用于除了医疗检测场景以外的其他场景中,比如,人脸识别场景、游戏对象检测场景和车辆识别场景等。
可以理解,在其他实施例中,计算机设备也可以根据部分具有标注的样本图进行有监督训练,得到初步的检测模型,再用初步的检测模型对未标注的样本图进行预测,按照预测的位置区域对样本图进行自动标注。然后,计算机设备再把有标注的样本图和经初步的检测模型标注的样本图放一起,作为整体的有标注的样本图进行模型训练,直至模型收敛,得到最终的对象检测模型。这属于另一种半监督训练的实现方式。
在一个实施例中,提供了一种对象检测方法,该方法包括:将待处理的结直肠息肉医学图像,输入预先训练的结直肠息肉检测模型,预测出结直肠息肉的定位结果。
本实施例中,结直肠息肉检测模型的训练步骤包括:将未标注的第一结直肠息肉样本医学图像输入本轮的初始检测模型,输出针对结直肠息肉的第一预测结果;对第一结直肠息肉样本医学图像和第一预测结果中结直肠息肉的第一预测位置区域进行变换,得到第二结直肠息肉样本医学图像和第二结直肠息肉样本医学图像中结直肠息肉的预测变换结果;将第二结直肠息肉样本医学图像输入初始检测模型,输出结直肠息肉的第二预测结果;根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;根据损失值,调整初始检测模型的模型参数,并将下一轮作为本轮,返回将第一结直肠息肉样本医学图像输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到结直肠息肉检测模型。
上述实施例中,能够在无标注数据的情况下,也能够训练出准确度较高的结直肠息肉检测模型,既节省了人工标注成本,又能够准确定位检测出结直肠息肉,为后续医疗处理提供了准确地、重要地参考依据。
如图7所示,在一个实施例中,提供了一种对象检测模型训练装置700,该装置700包括:预测模块702、变换模块704、无监督损失确定模块706以及参数调整模块708;其中:
预测模块702,用于将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;第一样本图未携带目标对象的位置标注信息。
变换模块704,用于对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果。
预测模块702还用于将第二样本图输入初始检测模型,输出目标对象的第二预测结果。
无监督损失确定模块706,用于根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值。
参数调整模块708,用于根据损失值,调整初始检测模型的模型参数,并通知预测模块702将下一轮作为本轮,继续执行将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
在一个实施例中,第一预测结果包括目标对象的第一预测位置区域和第一预测位置区域对应的第一类别概率;变换模块704还用于对第一样本图和第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域;根据变换后位置区域和相对应的第一类别概率,得到第二样本图中目标对象的预测变换结果;变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应。
在一个实施例中,变换模块704还用于获取第一预测位置区域的置信度;根据置信度,从第一预测位置区域中筛选目标预测位置区域;目标预测位置区域的置信度,大于第一预测位置区域中非预测位置区域的置信度;对第一样本图和目标预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的变换后位置区域。
在一个实施例中,变换后位置区域为变换后预测框;变换模块704还用于解码目标预测位置区域,生成用于标识目标对象的预测框;对第一样本图和第一样本图中预测框进行变换,得到第二样本图和第二样本图中的变换后预测框。
在一个实施例中,损失值为第一损失值。该装置700还包括:
监督损失确定模块707,用于根据第三样本图对初始检测模型进行监督学习,得到本轮监督学习的第二损失值;第三样本图携带目标对象的位置标注信息。
参数调整模块708还用于根据第一损失值和第二损失值,调整初始检测模型的模型参数。
在一个实施例中,初始检测模型的模型训练框架中,包括特征提取主干、预测主干和无监督学习分支。
预测模块702还用于将第一样本图输入特征提取主干,提取第一样本图的图像特征;将第一样本图的图像特征输入预测主干,预测出针对目标对象的第一预测结果;
变换模块704还用于在无监督学习分支中,对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换。
在一个实施例中,模型训练框架检测模型还包括监督学习分支;
预测模块702还用于将第三样本图输入特征提取主干中,得到第三样本图的图像特征;将第三样本图的图像特征输入预测主干,得到第三样本图中目标对象的预测结果;
监督损失确定模块707还用于在监督学习分支中,根据预测结果和目标对象的位置标注信息之间的差异,确定本轮监督学习的第二损失值。
在一个实施例中,参数调整模块708还用于获取无监督学习的第一损失权重和监督学习的第二损失权重;将第一损失值按照第一损失权重、以及将第二损失值按照第二损失权重进行加权平均处理,得到初始检测模型的本轮的总损失值;根据总损失值,调整初始检测模型的模型参数。
在一个实施例中,第二预测结果中包括目标对象的第二预测位置区域和相应第二类别概率;预测变换结果中包括目标对象的变换后位置区域和对应的第一类别概率。无监督损失确定模块706还用于根据第二类别概率,识别属于前景区域的第二预测位置区域、以及属于背景区域的第二预测位置区域;针对属于前景区域的第二预测位置区域,根据第二预测位置区域相应的第二类别概率和变换后位置区域对应的第一类别概率之间的差异,得到前景损失值;针对属于背景区域的第二预测位置区域,对第二预测位置区域相应的第二类别概率求交叉熵损失,得到背景损失值;将前景损失值按前景权重、以及将背景损失值按背景权重进行加权平均处理,得到无监督学习的损失值;前景权重大于背景权重。
在一个实施例中,第一样本图为初始的结直肠息肉样本图;目标对象为结直肠息肉;第二样本图,由对结直肠息肉样本图进行变换得到的;对象检测模型为结直肠息肉检测模型。
如图8所示,在一个实施例中,该装置700还包括:监督损失确定模块707以及定位检测模块710:其中:
定位检测模块710,用于获取待处理的结直肠息肉医学图像;将结直肠息肉医学图像,输入结直肠息肉检测模型,预测出结直肠息肉的定位结果;按照定位结果,在结直肠息肉医学图像中标识出结直肠息肉区域。
如图9所示,在一个实施例中,提供了一种对象检测装置900,该装置900包括:模型训练模块902和定位检测模块904;其中:
模型训练模块902,用于将未标注的第一结直肠息肉样本医学图像输入本轮的初始检测模型,输出针对结直肠息肉的第一预测结果;对第一结直肠息肉样本医学图像和第一预测结果中结直肠息肉的第一预测位置区域进行变换,得到第二结直肠息肉样本医学图像和第二结直肠息肉样本医学图像中结直肠息肉的预测变换结果;将第二结直肠息肉样本医学图像输入初始检测模型,输出结直肠息肉的第二预测结果;根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;根据损失值,调整初始检测模型的模型参数,并将下一轮作为本轮,返回将第一结直肠息肉样本医学图像输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到结直肠息肉检测模型。
定位检测模块904将待处理的结直肠息肉医学图像,输入预先训练的结直肠息肉检测模型,预测出结直肠息肉的定位结果。
图10为一个实施例中计算机设备的框图。参照图10,该计算机设备可以为终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种对象检测模型训练方法或对象检测方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种对象检测模型训练方法或对象检测方法。计算机设备的网络接口用于进行网络通信。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的对象检测模型训练装置或对象检测装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该对象检测模型训练装置或对象检测装置的各个程序模块。比如,图7所示的预测模块702、变换模块704、无监督损失确定模块706以及参数调整模块708。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的对象检测模型训练方法或对象检测方法中的步骤。
例如,计算机设备可以通过如图7所示的对象检测模型训练装置700中的预测模块702将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;第一样本图未携带目标对象的位置标注信息。计算机设备可以通过变换模块704对第一样本图和第一预测结果中目标对象的第一预测位置区域进行变换,得到第二样本图和第二样本图中目标对象的预测变换结果。计算机设备可以通过预测模块702将第二样本图输入初始检测模型,输出目标对象的第二预测结果。计算机设备可以通过无监督损失确定模块706根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值。计算机设备可以通过参数调整模块708根据损失值,调整初始检测模型的模型参数,并通知预测模块702将下一轮作为本轮,继续执行将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述对象检测模型训练方法的步骤。此处对象检测模型训练方法的步骤可以是上述各个实施例的对象检测模型训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述对象检测模型训练方法的步骤。此处对象检测模型训练方法的步骤可以是上述各个实施例的对象检测模型训练方法中的步骤。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种对象检测模型训练方法,所述方法包括:
将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;所述第一样本图未携带所述目标对象的位置标注信息;所述第一预测结果包括所述目标对象的第一预测位置区域和第一预测位置区域对应的第一类别概率;所述第一预测位置区域,是预测出的第一样本图中目标对象所处的位置区域;
对所述第一样本图和所述第一预测位置区域进行变换,得到第二样本图和第二样本图中所述目标对象的变换后位置区域;所述变换后位置区域用于标识所述第一预测位置区域变换前在所述第一样本图中所标识的图像内容;
根据所述变换后位置区域和相对应的所述第一类别概率,得到第二样本图中所述目标对象的预测变换结果;所述变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应;
将所述第二样本图输入所述初始检测模型,输出目标对象的第二预测结果;
根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;
根据所述损失值,调整所述初始检测模型的模型参数,并将下一轮作为本轮,返回所述将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
2.根据权利要求1所述的方法,其特征在于,所述预测变换结果,由第一预测位置区域进行变换得到、且用于表征第二样本图中的目标对象。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一样本图和所述第一预测位置区域进行变换,得到第二样本图和第二样本图中所述目标对象的变换后位置区域包括:
获取所述第一预测位置区域的置信度;
根据所述置信度,从所述第一预测位置区域中筛选目标预测位置区域;所述目标预测位置区域的置信度,大于所述第一预测位置区域中非预测位置区域的置信度;
对所述第一样本图和所述目标预测位置区域进行变换,得到第二样本图和第二样本图中所述目标对象的变换后位置区域。
4.根据权利要求3所述的方法,其特征在于,所述变换后位置区域为变换后预测框;
所述对所述第一样本图和所述目标预测位置区域进行变换,得到第二样本图和第二样本图中所述目标对象的变换后位置区域包括:
解码所述目标预测位置区域,生成用于标识所述目标对象的预测框;
对所述第一样本图和所述第一样本图中所述预测框进行变换,得到第二样本图和所述第二样本图中的变换后预测框。
5.根据权利要求1所述的方法,其特征在于,所述损失值为第一损失值;所述方法还包括:
根据第三样本图对所述初始检测模型进行监督学习,得到本轮监督学习的第二损失值;所述第三样本图携带所述目标对象的位置标注信息;
所述根据所述损失值,调整所述初始检测模型的模型参数包括:
根据所述第一损失值和所述第二损失值,调整所述初始检测模型的模型参数。
6.根据权利要求5所述的方法,其特征在于,所述初始检测模型的模型训练框架中,包括特征提取主干、预测主干和无监督学习分支;
所述将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果包括:
将第一样本图输入所述特征提取主干,提取所述第一样本图的图像特征;
将所述第一样本图的图像特征输入所述预测主干,预测出针对所述目标对象的第一预测结果;
所述对所述第一样本图和所述第一预测结果中所述目标对象的第一预测位置区域进行变换包括:
在所述无监督学习分支中,对所述第一样本图和所述第一预测结果中所述目标对象的第一预测位置区域进行变换。
7.根据权利要求6所述的方法,其特征在于,所述模型训练框架检测模型还包括监督学习分支;
所述根据第三样本图对所述初始检测模型进行监督学习,得到本轮监督学习的第二损失值包括:
将第三样本图输入所述特征提取主干中,得到所述第三样本图的图像特征;
将所述第三样本图的图像特征输入所述预测主干,得到所述第三样本图中所述目标对象的预测结果;
在所述监督学习分支中,根据所述预测结果和所述目标对象的位置标注信息之间的差异,确定本轮监督学习的第二损失值。
8.根据权利要求5所述的方法,其特征在于,所述根据所述第一损失值和所述第二损失值,调整所述初始检测模型的模型参数包括:
获取无监督学习的第一损失权重和监督学习的第二损失权重;
将所述第一损失值按照所述第一损失权重、以及将所述第二损失值按照所述第二损失权重进行加权平均处理,得到所述初始检测模型的本轮的总损失值;
根据所述总损失值,调整所述初始检测模型的模型参数。
9.根据权利要求1所述的方法,其特征在于,所述第二预测结果中包括所述目标对象的第二预测位置区域和相应第二类别概率;所述预测变换结果中包括所述目标对象的变换后位置区域和对应的第一类别概率;
所述根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值包括:
根据所述第二类别概率,识别属于前景区域的所述第二预测位置区域、以及属于背景区域的所述第二预测位置区域;
针对属于前景区域的所述第二预测位置区域,根据所述第二预测位置区域相应的所述第二类别概率和所述变换后位置区域对应的所述第一类别概率之间的差异,得到前景损失值;
针对属于背景区域的所述第二预测位置区域,对所述第二预测位置区域相应的所述第二类别概率求交叉熵损失,得到背景损失值;
将所述前景损失值按前景权重、以及将所述背景损失值按背景权重进行加权平均处理,得到无监督学习的损失值;所述前景权重大于所述背景权重。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述第一样本图为初始的结直肠息肉样本图;所述目标对象为结直肠息肉;所述第二样本图,由对所述结直肠息肉样本图进行变换得到的;所述对象检测模型为结直肠息肉检测模型。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取待处理的结直肠息肉医学图像;
将所述结直肠息肉医学图像,输入所述结直肠息肉检测模型,预测出所述结直肠息肉的定位结果;
按照所述定位结果,在所述结直肠息肉医学图像中标识出结直肠息肉区域。
12.一种对象检测方法,所述方法包括:
将待处理的结直肠息肉医学图像,输入预先训练的结直肠息肉检测模型,预测出所述结直肠息肉的定位结果;
其中,所述结直肠息肉检测模型的训练步骤包括:
将未标注的第一结直肠息肉样本医学图像输入本轮的初始检测模型,输出针对结直肠息肉的第一预测结果;所述第一预测结果包括所述结直肠息肉的第一预测位置区域和第一预测位置区域对应的第一类别概率;所述第一预测位置区域,是预测出的第一结直肠息肉样本医学图中结直肠息肉所处的位置区域;
对所述第一结直肠息肉样本医学图像和所述第一预测位置区域进行变换,得到第二结直肠息肉样本医学图像和第二结直肠息肉样本医学图像中所述结直肠息肉的变换后位置区域;所述变换后位置区域用于标识所述第一预测位置区域变换前在所述第一结直肠息肉样本医学图像中所标识的图像内容;
根据所述变换后位置区域和相对应的所述第一类别概率,得到第二结直肠息肉样本医学图像中所述结直肠息肉的预测变换结果;所述变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应;
将所述第二结直肠息肉样本医学图像输入所述初始检测模型,输出所述结直肠息肉的第二预测结果;
根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;
根据所述损失值,调整所述初始检测模型的模型参数,并将下一轮作为本轮,返回所述将第一结直肠息肉样本医学图像输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到结直肠息肉检测模型。
13.一种对象检测模型训练装置,其特征在于,所述装置包括:
预测模块,用于将第一样本图输入本轮的初始检测模型,输出针对目标对象的第一预测结果;所述第一样本图未携带所述目标对象的位置标注信息;所述第一预测结果包括所述目标对象的第一预测位置区域和第一预测位置区域对应的第一类别概率;所述第一预测位置区域,是预测出的第一样本图中目标对象所处的位置区域;
变换模块,用于对所述第一样本图和所述第一预测位置区域进行变换,得到第二样本图和第二样本图中所述目标对象的变换后位置区域;根据所述变换后位置区域和相对应的所述第一类别概率,得到第二样本图中所述目标对象的预测变换结果;所述变换后位置区域,与变换前的第一预测位置区域对应的第一类别概率相对应;所述变换后位置区域用于标识所述第一预测位置区域变换前在所述第一样本图中所标识的图像内容;
所述预测模块还用于将所述第二样本图输入所述初始检测模型,输出目标对象的第二预测结果;
无监督损失确定模块,用于根据第二预测结果和预测变换结果的差异,得到无监督学习的损失值;
参数调整模块,用于根据所述损失值,调整所述初始检测模型的模型参数,并通知所述预测模块将下一轮作为本轮,继续执行将第一样本图输入本轮的初始检测模型的步骤以进行迭代训练,直至满足训练结束条件,得到对象检测模型。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至12中任一项所述方法的步骤。
CN202010090909.6A 2020-02-13 2020-02-13 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质 Active CN111291755B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010090909.6A CN111291755B (zh) 2020-02-13 2020-02-13 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质
PCT/CN2020/126430 WO2021159774A1 (zh) 2020-02-13 2020-11-04 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质
US17/682,353 US20220189147A1 (en) 2020-02-13 2022-02-28 Object detection model training method and apparatus, object detection method and apparatus, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090909.6A CN111291755B (zh) 2020-02-13 2020-02-13 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111291755A CN111291755A (zh) 2020-06-16
CN111291755B true CN111291755B (zh) 2022-11-15

Family

ID=71024445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090909.6A Active CN111291755B (zh) 2020-02-13 2020-02-13 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质

Country Status (3)

Country Link
US (1) US20220189147A1 (zh)
CN (1) CN111291755B (zh)
WO (1) WO2021159774A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291755B (zh) * 2020-02-13 2022-11-15 腾讯科技(深圳)有限公司 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质
CN111767946B (zh) * 2020-06-19 2024-03-22 北京康夫子健康技术有限公司 医学影像分级模型训练及预测方法、装置、设备及介质
CN111744187B (zh) * 2020-08-10 2022-04-15 腾讯科技(深圳)有限公司 一种游戏数据处理方法、装置、计算机及可读存储介质
CN112100375B (zh) * 2020-09-10 2024-10-18 清华大学 文本信息生成方法、装置、存储介质及设备
CN112101550B (zh) * 2020-09-25 2024-05-03 平安科技(深圳)有限公司 分诊融合模型训练方法、分诊方法、装置、设备及介质
CN112085219B (zh) * 2020-10-13 2024-02-13 北京百度网讯科技有限公司 模型训练方法、短信审核方法、装置、设备以及存储介质
CN112200274B (zh) * 2020-12-09 2021-03-30 湖南索莱智能科技有限公司 一种目标检测方法、装置、电子设备和存储介质
CN112966607A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 模型训练方法、人脸视频生成方法、装置、设备和介质
CN113706450A (zh) * 2021-05-18 2021-11-26 腾讯科技(深圳)有限公司 图像配准方法、装置、设备及可读存储介质
CN113486853B (zh) * 2021-07-29 2024-02-27 北京百度网讯科技有限公司 视频检测方法及装置、电子设备和介质
CN115718869A (zh) * 2021-08-24 2023-02-28 华为云计算技术有限公司 模型训练方法、系统、集群及介质
CN113901998A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质以及检测方法
CN113850207B (zh) * 2021-09-29 2024-05-03 中国平安财产保险股份有限公司 基于人工智能的微表情分类方法、装置、电子设备及介质
CN114118259A (zh) * 2021-11-19 2022-03-01 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN114612702B (zh) * 2022-01-24 2024-09-24 传申弘安智能(深圳)有限公司 基于深度学习的图像数据标注系统及其方法
CN114550244A (zh) * 2022-02-11 2022-05-27 支付宝(杭州)信息技术有限公司 一种活体检测方法、装置及设备
CN114638288A (zh) * 2022-03-02 2022-06-17 云从科技集团股份有限公司 样本标注方法、装置及计算机存储介质
CN114399005B (zh) * 2022-03-10 2022-07-12 深圳市声扬科技有限公司 一种活体检测模型的训练方法、装置、设备及存储介质
CN114821597A (zh) * 2022-04-29 2022-07-29 北京智通东方软件科技有限公司 文本识别的方法、装置、存储介质和电子设备
CN115115969A (zh) * 2022-05-19 2022-09-27 腾讯科技(深圳)有限公司 视频检测方法、装置、设备、存储介质和程序产品
CN114882243B (zh) * 2022-07-11 2022-11-22 浙江大华技术股份有限公司 目标检测方法、电子设备及计算机可读存储介质
CN115272896A (zh) * 2022-08-04 2022-11-01 上海扩博智能技术有限公司 识别模型的自动迭代训练方法、系统、设备和存储介质
CN115170455B (zh) * 2022-08-17 2023-02-07 荣耀终端有限公司 图像处理方法及相关装置
CN116109991B (zh) * 2022-12-07 2024-01-09 北京百度网讯科技有限公司 模型的约束参数确定方法、装置及电子设备
CN116798132B (zh) * 2023-07-28 2024-02-27 智慧眼科技股份有限公司 一种闪光活体检测模型的构建方法、系统和检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256552A (zh) * 2017-06-14 2017-10-17 成都康托医疗设备有限公司 息肉图像识别系统及方法
CN108292366A (zh) * 2015-09-10 2018-07-17 美基蒂克艾尔有限公司 在内窥镜手术中检测可疑组织区域的系统和方法
CN109858563A (zh) * 2019-02-22 2019-06-07 清华大学 基于变换识别的自监督表征学习方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133220A (zh) * 2016-11-30 2018-06-08 北京市商汤科技开发有限公司 模型训练、关键点定位及图像处理方法、系统及电子设备
CN108229276B (zh) * 2017-03-31 2020-08-11 北京市商汤科技开发有限公司 神经网络训练及图像处理方法、装置和电子设备
CN109657615B (zh) * 2018-12-19 2021-11-02 腾讯科技(深圳)有限公司 一种目标检测的训练方法、装置及终端设备
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
CN110322438B (zh) * 2019-06-26 2021-09-14 杭州上池科技有限公司 结核分枝杆菌自动检测模型的训练方法及自动检测系统
CN111291755B (zh) * 2020-02-13 2022-11-15 腾讯科技(深圳)有限公司 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292366A (zh) * 2015-09-10 2018-07-17 美基蒂克艾尔有限公司 在内窥镜手术中检测可疑组织区域的系统和方法
CN107256552A (zh) * 2017-06-14 2017-10-17 成都康托医疗设备有限公司 息肉图像识别系统及方法
CN109858563A (zh) * 2019-02-22 2019-06-07 清华大学 基于变换识别的自监督表征学习方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence;Kihyuk Sohn等;《arxiv.org》;20200121;摘要、1介绍、2 FixMatch、3 相关工作,附图1 *
Kihyuk Sohn等.FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence.《arxiv.org》.2020, *

Also Published As

Publication number Publication date
CN111291755A (zh) 2020-06-16
WO2021159774A1 (zh) 2021-08-19
US20220189147A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
CN111291755B (zh) 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质
US10535141B2 (en) Differentiable jaccard loss approximation for training an artificial neural network
CN112446302B (zh) 一种人体姿态检测方法、系统、电子设备和存储介质
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN111260055A (zh) 基于三维图像识别的模型训练方法、存储介质和设备
CN113313169B (zh) 基于深度学习的训练素材智能识别方法、装置和设备
CN110263801B (zh) 图像处理模型生成方法及装置、电子设备
CN110807437B (zh) 视频粒度特征确定方法、装置和计算机可读存储介质
CN114140478B (zh) 面向医疗图像分割的联邦学习方法及系统、设备和介质
CN113469958B (zh) 一种胚胎发育潜能预测方法、系统、设备及存储介质
CN112686898B (zh) 一种基于自监督学习的放疗靶区自动分割方法
CN114693624B (zh) 一种图像检测方法、装置、设备及可读存储介质
Wazir et al. HistoSeg: Quick attention with multi-loss function for multi-structure segmentation in digital histology images
CN113505797B (zh) 模型训练方法、装置、计算机设备和存储介质
CN114663426B (zh) 一种基于关键骨区定位的骨龄评估方法
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
CN112464172A (zh) 生长参数主被动遥感反演方法及装置
CN111598144A (zh) 图像识别模型的训练方法和装置
CN114283301A (zh) 一种基于Transformer的自适应医学影像分类方法及系统
Chen et al. Research on identification algorithm of crop pests and diseases based on improved DenseNet model
Jia et al. Adjacent age classification algorithm of yellow-feathered chickens based on multi-scale feature fusion
CN111553412A (zh) 对性早熟分类模型进行训练的方法、装置和设备
CN113011555B (zh) 一种数据处理方法、装置、设备及存储介质
CN113516140A (zh) 图像处理、模型训练方法、系统及设备
CN115565051B (zh) 轻量级人脸属性识别模型训练方法、识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024086

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant