CN117593768A - 咽喉定位模型训练方法、装置、电子设备及存储介质 - Google Patents
咽喉定位模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117593768A CN117593768A CN202410083984.8A CN202410083984A CN117593768A CN 117593768 A CN117593768 A CN 117593768A CN 202410083984 A CN202410083984 A CN 202410083984A CN 117593768 A CN117593768 A CN 117593768A
- Authority
- CN
- China
- Prior art keywords
- data set
- throat
- laryngeal
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000000152 swallowing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0033—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0077—Devices for viewing the surface of the body, e.g. camera, magnifying lens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Pathology (AREA)
- Veterinary Medicine (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Human Computer Interaction (AREA)
- Heart & Thoracic Surgery (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,具体公开了一种咽喉定位模型训练方法、装置、电子设备及存储介质,其中,咽喉定位模型训练方法包括步骤:S1、基于公共数据集获取人脸数据集;S2、基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集;S3、基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;S4、获取修正处理后的输出数据集以作为新的人脸数据集;S5、重复执行步骤S2‑步骤S4以获取训练后的咽喉定位模型;该咽喉定位模型训练方法有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率,且训练获取的咽喉定位模型能准确地进行咽喉定位。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种咽喉定位模型训练方法、装置、电子设备及存储介质。
背景技术
当前面部特征点检测技术以及数据库已经比较完善,对于面部不同特征点的定位已经发展了很长时间并且有较好的效果,但现有的定位技术缺少针对咽喉位置定位的处理手段,而咽喉定位有利于监视检测对象是否存在吞咽动作等;若采用传统的人脸特征点定位方法来训练一个咽喉定位模型,则需要人工进行大量的标签标注,且喉结的存在与否也影响了咽喉定位模型的训练效果。
针对上述问题,目前尚未有有效的技术解决方案。
发明内容
本申请的目的在于提供一种咽喉定位模型训练方法、装置、电子设备及存储介质,以训练出能进行咽喉准确定位的咽喉定位模型,并减少人工标注标签的时间。
第一方面,本申请提供了一种咽喉定位模型训练方法,用于获取咽喉定位模型,所述方法包括以下步骤:
S1、基于公共数据集获取人脸数据集;
S2、基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集,所述喉结识别模型用于分析图像中是否存在喉结;
S3、基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;
S4、获取修正处理后的输出数据集以作为新的人脸数据集;
S5、重复执行步骤S2-步骤S4以获取训练后的咽喉定位模型。
本申请的咽喉定位模型训练方法基于公共数据集获取了足够多的训练数据来对咽喉定位模型进行训练,同时,训练过程先基于喉结识别模型对人脸数据集进行分类,以训练两个分别用于针对有喉结的人脸图像和无喉结的人脸图像进行咽喉定位的咽喉定位模型,有效提高了咽喉定位的准确率;另外,本申请的咽喉定位模型训练方法基于修正处理后的、源自咽喉定位模型的输出数据集制作的新的人脸数据集来继续对咽喉定位模型进行训练,有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率。
所述的咽喉定位模型训练方法,其中,所述公共数据集为FADID数据集。
该数据集中的视频或图像均包含下至肩膀、上至完全人脸的部分,其内具有众多有效数据(即具有外露咽喉和完整人脸的图像),故尤其适用于本申请的咽喉定位模型训练方法训练咽喉定位模型使用。
所述的咽喉定位模型训练方法,其中,所述人脸数据集中元素基于FADID的人脸关键点和咽喉特征点作为训练标签。
本申请的咽喉定位模型训练方法结合人脸关键点和咽喉特征点作为训练标签来对咽喉定位模型进行训练,以使咽喉定位模型能利用特征点之间的关系来进行咽喉定位训练,使得咽喉定位模型能考虑人脸五官和咽喉之间的几何关系来进行咽喉定位,进而提高咽喉定位模型的定位精度并减少训练轮次。
所述的咽喉定位模型训练方法,其中,所述喉结识别模型为二分类模型,且具有一个用于输出存在喉结的概率的全连接层,所述人脸数据集中元素基于比较所述存在喉结的概率和预设阈值的大小进行分类。
所述的咽喉定位模型训练方法,其中,所述咽喉定位模型为HRNet V2模型。
所述的咽喉定位模型训练方法,其中,所述HRNet V2模型的输入层分辨率为384*512。
所述的咽喉定位模型训练方法,其中,所述咽喉定位模型基于热力图进行输出。
第二方面,本申请还提供了一种咽喉定位模型训练装置,用于获取咽喉定位模型,所述装置包括:
第一获取模块,用于基于公共数据集获取人脸数据集;
分类模块,用于基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集,所述喉结识别模型用于分析图像中是否存在喉结;
训练模块,用于基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;
第二获取模块,用于获取修正处理后的输出数据集以作为新的人脸数据集;
循环模块,用于重复触发控制分类模块、训练模块及第二获取模块运行以获取训练后的咽喉定位模型。
本申请的咽喉定位模型训练装置基于公共数据集获取了足够多的训练数据来对咽喉定位模型进行训练,同时,训练过程先基于喉结识别模型对人脸数据集进行分类,以训练两个分别用于针对有喉结的人脸图像和无喉结的人脸图像进行咽喉定位的咽喉定位模型,有效提高了咽喉定位的准确率;另外,本申请的咽喉定位模型训练装置基于修正处理后的、源自咽喉定位模型的输出数据集制作的新的人脸数据集来继续对咽喉定位模型进行训练,有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率。
第三方面,本申请还提供了一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
由上可知,本申请提供了一种咽喉定位模型训练方法、装置、电子设备及存储介质,其中,本申请的咽喉定位模型训练方法基于公共数据集获取了足够多的训练数据来对咽喉定位模型进行训练,同时,训练过程先基于喉结识别模型对人脸数据集进行分类,以训练两个分别用于针对有喉结的人脸图像和无喉结的人脸图像进行咽喉定位的咽喉定位模型,有效提高了咽喉定位的准确率;另外,本申请的咽喉定位模型训练方法基于修正处理后的、源自咽喉定位模型的输出数据集制作的新的人脸数据集来继续对咽喉定位模型进行训练,有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率。
附图说明
图1为本申请实施例提供的咽喉定位模型训练方法的流程图。
图2为本申请实施例提供的咽喉定位模型训练装置的结构示意图。
图3为本申请实施例提供的电子设备的结构示意图。
附图标记:201、第一获取模块;202、分类模块;203、训练模块;204、第二获取模块;205、循环模块;301、处理器;302、存储器;303、通信总线。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一方面,请参照图1,本申请一些实施例提供了一种咽喉定位模型训练方法,用于获取咽喉定位模型,方法包括以下步骤:
S1、基于公共数据集获取人脸数据集;
S2、基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集,喉结识别模型用于分析图像中是否存在喉结;
S3、基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;
S4、获取修正处理后的输出数据集以作为新的人脸数据集;
S5、重复执行步骤S2-步骤S4以获取训练后的咽喉定位模型。
具体地,公共数据集为公共的图像数据集,在本申请实施例中,优选为可从互联网直接获取的数据集;本申请实施例的咽喉定位模型训练方法基于公共数据集训练咽喉定位模型具有足够的训练数据来进行训练。
更具体地,人脸数据集为合适的适用于咽喉定位模型进行训练的图像所组成的数据集,人脸数据集中的元素优选为包含完整人脸和脖子的图像。
更具体地,喉结识别模型为预先训练好的或初步完成训练的识别模型,其能用于区分人脸数据集中的元素(图像)中是否存在喉结,以根据分类结果将元素归入至有喉结数据集或无喉结数据集中;由于不同人的喉结的明显程度不同,尤其是女性或肥胖人群的图像中可以认为是没有喉结,而咽喉的位置位于喉结中心,考虑到神经网络的特征识别特性,若仅训练一个咽喉定位模型来针对上述这些不同类型的图像进行识别,存在训练量大、识别精度不高的问题,因此,本申请实施例的咽喉定位模型训练方法基于喉结识别模型对人脸数据集进行分类,以获取有喉结数据集和无喉结数据集,然后分别基于两种数据集训练咽喉定位模型,使得最终训练完成获取的两个咽喉定位模型分别能针对具有喉结的人脸图像和不具有喉结的人脸图像进行咽喉定位,该训练方式可有效降低咽喉定位模型训练所需的数据量,并提高咽喉定位模型的定位准确性。
需要说明的是,本申请实施例的咽喉定位模型训练方法训练获取的两个咽喉定位模型应当结合喉结识别模型进行使用,即在实际使用过程中,咽喉定位模型需先利用喉结识别模型对采集到的图像进行分类再选择合适的咽喉定位模型进行咽喉定位。
更具体地,咽喉定位模型为神经网络模型,在本申请实施例中,属于根据输入图像而在图像上生成咽喉定位信息的学习模型,该咽喉定位信息可以是特征点或者热力图等,该咽喉定位模型可以采用常用的学习模型的训练方法进行训练,如在有喉结数据集和无喉结数据集中的元素中的咽喉位置增加咽喉特征点作为标签来训练咽喉定位模型;其中,有喉结数据集中的图像以喉结处最突起的地方作为咽喉特征点,无喉结数据集中的图像则以咽喉位置的中心点作为咽喉特征点。
更具体地,步骤S3为基于有喉结数据集和无喉结数据集对两个咽喉定位模型进行的一次训练过程或者是一次咽喉定位过程,为了提咽喉定位模型的定位精度,还需进行多次训练或咽喉定位以进行参数微调,故需要执行步骤S4确定下一阶段训练所需的人脸数据集,并基于步骤S5执行下一阶段的训练。
更具体地,在本申请实施中,步骤S3的训练过程中,咽喉定位模型对对应数据集中图像进行咽喉定位而在对应图像上生成咽喉定位信息,这些具有咽喉定位信息的图像为咽喉定位模型的输出数据,这些输出数据组成了输出数据集;本申请实施例的咽喉定位模型训练方法旨在利用这些输出数据集中的咽喉定位信息作为新的标签来重复训练咽喉定位模型,但尚未训练好的咽喉定位模型的定位精度略有欠缺,若步骤S5直接利用这些输出数据集对咽喉定位模型进行重复训练以微调咽喉定位模型的网络参数,则不利于咽喉定位模型的收敛,故本申请实施例的咽喉定位模型训练方法以修正处理后的输出数据集作为新的人脸数据集,其中,新的人脸数据集的标签为步骤S3中咽喉定位模型输出的咽喉定位信息。
更具体地,输出数据集的修正处理为去除咽喉定位信息偏差较大的图像或修正咽喉定位信息偏差较大的图像中的咽喉定位信息,优选为采用去除的方式进行;上述修正处理过程可以人工执行或基于软件比对原标签和咽喉定位信息之间关系执行。
更具体地,步骤S2基于步骤S4产生的新的人脸数据集进行识别前,还可以基于步骤S1引入新的图像以扩充对应的人脸数据集,从而确保人脸数据集的数据量充足;在本申请实施例中,公共数据集获取的人脸数据集中的图像均已基于标签工具在咽喉位置上标注标签;该处理方式中,新的人脸数据集中的图像无需人工进行标签标注,且对咽喉定位模型而言,相当于新的已进行标签标注的图像,故基于步骤S4产生的新的人脸数据集以对咽喉定位模型进行重复训练的处理的方式能极大地减少图像标注时间,进而大大地提高了咽喉定位模型的训练效率。
本申请实施例的咽喉定位模型训练方法基于公共数据集获取了足够多的训练数据来对咽喉定位模型进行训练,同时,训练过程先基于喉结识别模型对人脸数据集进行分类,以训练两个分别用于针对有喉结的人脸图像和无喉结的人脸图像进行咽喉定位的咽喉定位模型,有效提高了咽喉定位的准确率;另外,本申请实施例的咽喉定位模型训练方法基于修正处理后的、源自咽喉定位模型的输出数据集制作的新的人脸数据集来继续对咽喉定位模型进行训练,有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率。
更具体地,一般情况下,本申请实施例的咽喉定位模型训练方法一般执行一次步骤S5,即以新的人脸数据集对咽喉定位模型进而一轮二次训练,便能完成咽喉定位模型的训练。
在一些优选的实施方式中,公共数据集为FADID数据集。
具体地,FADID(Face Alignment Dataset used In Driving)即为车内人脸关键点数据集,该数据集为在FLD(日光荧光灯)环境且真实驾驶情况下建立的一个基准数据集,包括姿势的变化(最大俯仰45度,横滚和横摆30度)、照明的各种变化(前、左、右和后)以及使用近红外相机的头发或太阳镜引起的部分遮挡,该数据集中的视频或图像均包含下至肩膀、上至完全人脸的部分,其内具有众多有效数据(即具有外露咽喉和完整人脸的图像),故尤其适用于本申请实施例的咽喉定位模型训练方法训练咽喉定位模型使用。
需要说明的是,在别的实施方式中,公共数据集还可以是300W、300VW等包含人脸关键点的数据集。
在一些优选的实施方式中,人脸数据集中元素基于FADID的人脸关键点和咽喉特征点作为训练标签。
具体地,人脸数据集中元素即为基于咽喉位置进行标签标注(即标注有咽喉特征点)的图像,FADID中的图像本身包含19个人脸关键点,本申请实施例的咽喉定位模型训练方法结合人脸关键点和咽喉特征点共20个特征点作为训练标签来对咽喉定位模型进行训练,以使咽喉定位模型能利用特征点之间的关系来进行咽喉定位训练,使得咽喉定位模型能考虑人脸五官和咽喉之间的几何关系来进行咽喉定位,进而提高咽喉定位模型的定位精度并减少训练轮次。
在一些优选的实施方式中,喉结识别模型为二分类模型,且具有一个用于输出存在喉结的概率的全连接层,人脸数据集中元素基于比较存在喉结的概率和预设阈值的大小进行分类。
具体地,喉结识别模型只需简单判断图像中人物是否存在喉结,采用轻量化的神经网络即可,故采用二分类模型,在本申请实施例中优选为采用MobileNetV3模型,MobileNetV3模型为常用的图像分类模型,可基于图像进行训练。
更具体地,在本申请实施例中,喉结识别模型的最后一层输出层设计为:只有一个全连接层,该全连接层用于输出存在喉结的概率,即去除了输出不存在喉结的概率的全连接层,简化了模型的结构。
更具体地,步骤S2基于比较存在喉结的概率和预设阈值的大小来对图像进行分类,其中,存在喉结的概率大于或等于预设阈值的图像归入有喉结数据集;预设阈值为人工预先输入的判断值,在本申请实施例中,优选为0.7。
在一些优选的实施方式中,咽喉定位模型为HRNet V2模型。
具体地,HRNet是一种高分辨率神经网络,其特点是在神经网络传播过程中保持特征图的分辨率,根据场景在最终输出的时候采用不同的特征图融合方式来进行输出,其中,现有的HRNet V2模型自身的最后的输出层与前面的backbone层的四个分支输出的不同分辨率的特征图(低分辨率的特征图上采样到高分辨率)拼接连接,故其输出结果结合了四个分支的空间信息,所以在特征点检测的应用中有更好的效果,故应用在本申请实施例的咽喉定位模型训练方法中能准确地进行咽喉特征点的分析、定位。
在一些优选的实施方式中,HRNet V2模型的输入层分辨率为384*512。
具体地,现有的HRNet V2模型直接应用在本申请实施例的咽喉定位模型训练方法中进行咽喉定位存在一定缺陷,普遍表现为定位位置不准确,其主要原因有两点:一是HRNet V2模型输出分辨率较低,单位像素对于人脸上的特征点来说,在相应的现实生活中的物理距离较大,导致HRNet V2模型难以准确定位特征点,二是现有的HRNet V2模型输入的图像需要处理成分辨率为256*256的正方形图像,而包含咽喉的人脸ROI(感兴趣区域)一般为3:4宽高比区域,将输入图像处理成正方形图像时可能会导致咽喉位置的局部图像丢失;因此,本申请实施例的咽喉定位模型训练方法修改HRNet V2模型的输入层,使其输入层能输入分辨率为384*512的图像,使得HRNet V2模型能对分辨率为384*512的图像进行咽喉定位处理,解决了原分辨率过低及ROI形状不匹配引起的特征点定位不准确的缺陷,进而提高了咽喉定位模型对咽喉的定位精度。
需要说明的是,人脸数据集的元素或实际需要识别的图像在输入咽喉定位模型前应当处理为384*512的图像。
更具体地,原本HRNet V2模型一般需要对输入的图像进行两次卷积操作使输入的图像下采样至原来尺寸的1/4,会引起图像信息的损失,一定程度上也会影响咽喉定位模型的咽喉定位精度或咽喉定位模型的训练效率,故本申请实施例的咽喉定位模型训练方法去除了HRNet V2模型中的一个conv2d层和batchnorm层以减少一次卷积操作,使得输入的图像仅进行一次下采样处理便传输到HRNet V2模型backbone层中,该网络层结构能有效减少图像信息的损失,使得输入的图像保留了更多面部特征的信息,使得训练后的咽喉定位模型的定位精度更高;需要说明的是,减少了一次卷积操作一定程度上也弥补了分辨率提高带来的时间损失,故修改前后的HRNet V2模型的识别定位效率差异不大。
在一些优选的实施方式中,咽喉定位模型基于热力图进行输出。
具体地,由于咽喉属于一个人体器官,其占据图像中一定范围,故采用热力图进行输出能准确表达出咽喉所在区域。
更具体地,相对于原本输入的图像的尺寸为256*256的HRNet V2模型,本申请实施例的咽喉定位模型训练方法训练的咽喉定位模型的backbone层中的高分辨率通道的特征图由原来的64*64调整为192*256,尺寸越大的特征图越能提供准确的热力图输出。
在一些优选的实施方式中,由于HRNet V2模型去除了一个conv2d层和batchnorm层以减少了一次卷积操作,其余下的一个conv2d层优选为将原来的卷积核大小由3*3调整为6*6,以增大一倍卷积核大小来保证具有足够大的感受野,以使得其连接的backbone层里的stage4里低分辨率的卷积层的感受野能覆盖整个输入的图片,同时,靠近输入端的conv2d层采用更大的卷积核也能降低卷积层的计算量,提高卷积效率。
在一些优选的实施方式中,步骤S3在第一轮训练过程中(即基于步骤S1获取的人脸数据集进行训练的过程中),采用1e-2的学习率进行60次迭代训练,然后再使用1e-3的学习率进行30次迭代训练;该采用不同学习率分阶段进行训练的处理方式能使咽喉定位模型快速收敛以完成训练。
第二方面,请参照图2,本申请一些实施例还提供了一种咽喉定位模型训练装置,用于获取咽喉定位模型,装置包括:
第一获取模块201,用于基于公共数据集获取人脸数据集;
分类模块202,用于基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集,喉结识别模型用于分析图像中是否存在喉结;
训练模块203,用于基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;
第二获取模块204,用于获取修正处理后的输出数据集以作为新的人脸数据集;
循环模块205,用于重复触发控制分类模块202、训练模块203及第二获取模块204运行以获取训练后的咽喉定位模型。
本申请实施例的咽喉定位模型训练装置基于公共数据集获取了足够多的训练数据来对咽喉定位模型进行训练,同时,训练过程先基于喉结识别模型对人脸数据集进行分类,以训练两个分别用于针对有喉结的人脸图像和无喉结的人脸图像进行咽喉定位的咽喉定位模型,有效提高了咽喉定位的准确率;另外,本申请实施例的咽喉定位模型训练装置基于修正处理后的、源自咽喉定位模型的输出数据集制作的新的人脸数据集来继续对咽喉定位模型进行训练,有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率。
在一些优选的实施方式中,本申请实施例的咽喉定位模型训练装置用于执行上述第一方面提供的咽喉定位模型训练方法。
第三方面,请参照图3,本申请一些实施例还提供了一种电子设备的结构示意图,本申请提供一种电子设备,包括:处理器301和存储器302,处理器301和存储器302通过通信总线303和/或其他形式的连接机构(未标出)互连并相互通讯,存储器302存储有处理器301可执行的计算机可读取指令,当电子设备运行时,处理器301执行该计算机可读取指令,以执行时执行上述实施例的任一可选的实现方式中的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行上述实施例的任一可选的实现方式中的方法。其中,计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory, 简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory, 简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory, 简称EPROM),可编程只读存储器(Programmable Red-Only Memory, 简称PROM),只读存储器(Read-OnlyMemory, 简称ROM),磁存储器,快闪存储器,磁盘或光盘。
综上,本申请实施例提供了一种咽喉定位模型训练方法、装置、电子设备及存储介质,其中,本申请实施例的咽喉定位模型训练方法基于公共数据集获取了足够多的训练数据来对咽喉定位模型进行训练,同时,训练过程先基于喉结识别模型对人脸数据集进行分类,以训练两个分别用于针对有喉结的人脸图像和无喉结的人脸图像进行咽喉定位的咽喉定位模型,有效提高了咽喉定位的准确率;另外,本申请实施例的咽喉定位模型训练方法基于修正处理后的、源自咽喉定位模型的输出数据集制作的新的人脸数据集来继续对咽喉定位模型进行训练,有效减少了人工标注标签的时间,提高了咽喉定位模型的训练效率。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种咽喉定位模型训练方法,其特征在于,用于获取咽喉定位模型,所述方法包括以下步骤:
S1、基于公共数据集获取人脸数据集;
S2、基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集,所述喉结识别模型用于分析图像中是否存在喉结;
S3、基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;
S4、获取修正处理后的输出数据集以作为新的人脸数据集;
S5、重复执行步骤S2-步骤S4以获取训练后的咽喉定位模型。
2.根据权利要求1所述的咽喉定位模型训练方法,其特征在于,所述公共数据集为FADID数据集。
3.根据权利要求2所述的咽喉定位模型训练方法,其特征在于,所述人脸数据集中元素基于FADID的人脸关键点和咽喉特征点作为训练标签。
4.根据权利要求1所述的咽喉定位模型训练方法,其特征在于,所述喉结识别模型为二分类模型,且具有一个用于输出存在喉结的概率的全连接层,所述人脸数据集中元素基于比较所述存在喉结的概率和预设阈值的大小进行分类。
5.根据权利要求1所述的咽喉定位模型训练方法,其特征在于,所述咽喉定位模型为HRNet V2模型。
6.根据权利要求5所述的咽喉定位模型训练方法,其特征在于,所述HRNet V2模型的输入层分辨率为384*512。
7.根据权利要求1所述的咽喉定位模型训练方法,其特征在于,所述咽喉定位模型基于热力图进行输出。
8.一种咽喉定位模型训练装置,其特征在于,用于获取咽喉定位模型,所述装置包括:
第一获取模块,用于基于公共数据集获取人脸数据集;
分类模块,用于基于喉结识别模型对人脸数据集进行分类以获取有喉结数据集和无喉结数据集,所述喉结识别模型用于分析图像中是否存在喉结;
训练模块,用于基于有喉结数据集和无喉结数据集分别训练两个咽喉定位模型,并获取两个咽喉定位模型的输出数据集;
第二获取模块,用于获取修正处理后的输出数据集以作为新的人脸数据集;
循环模块,用于重复触发控制分类模块、训练模块及第二获取模块运行以获取训练后的咽喉定位模型。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410083984.8A CN117593768B (zh) | 2024-01-19 | 2024-01-19 | 咽喉定位模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410083984.8A CN117593768B (zh) | 2024-01-19 | 2024-01-19 | 咽喉定位模型训练方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593768A true CN117593768A (zh) | 2024-02-23 |
CN117593768B CN117593768B (zh) | 2024-05-07 |
Family
ID=89912066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410083984.8A Active CN117593768B (zh) | 2024-01-19 | 2024-01-19 | 咽喉定位模型训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593768B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451894A (zh) * | 2017-08-03 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN107862263A (zh) * | 2017-10-27 | 2018-03-30 | 苏州三星电子电脑有限公司 | 智能设备的性别识别方法与性别识别装置 |
CN109582774A (zh) * | 2018-11-30 | 2019-04-05 | 北京羽扇智信息科技有限公司 | 自然语言分类方法、装置、设备及存储介质 |
CN110148124A (zh) * | 2019-05-21 | 2019-08-20 | 中山大学 | 喉咙识别方法、装置、系统、存储介质以及设备 |
CN111476300A (zh) * | 2020-04-07 | 2020-07-31 | 屈璠 | 咽喉反流识别模型建立方法、指标获取方法及电子系统 |
CN113450121A (zh) * | 2021-06-30 | 2021-09-28 | 湖南校智付网络科技有限公司 | 用于校园支付的人脸识别方法 |
US11197645B1 (en) * | 2020-09-04 | 2021-12-14 | Kaohsiung Chang Gung Memorial Hospital | System and method of throat abnormal object recognition |
-
2024
- 2024-01-19 CN CN202410083984.8A patent/CN117593768B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451894A (zh) * | 2017-08-03 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN107862263A (zh) * | 2017-10-27 | 2018-03-30 | 苏州三星电子电脑有限公司 | 智能设备的性别识别方法与性别识别装置 |
CN109582774A (zh) * | 2018-11-30 | 2019-04-05 | 北京羽扇智信息科技有限公司 | 自然语言分类方法、装置、设备及存储介质 |
CN110148124A (zh) * | 2019-05-21 | 2019-08-20 | 中山大学 | 喉咙识别方法、装置、系统、存储介质以及设备 |
CN111476300A (zh) * | 2020-04-07 | 2020-07-31 | 屈璠 | 咽喉反流识别模型建立方法、指标获取方法及电子系统 |
US11197645B1 (en) * | 2020-09-04 | 2021-12-14 | Kaohsiung Chang Gung Memorial Hospital | System and method of throat abnormal object recognition |
CN113450121A (zh) * | 2021-06-30 | 2021-09-28 | 湖南校智付网络科技有限公司 | 用于校园支付的人脸识别方法 |
Non-Patent Citations (1)
Title |
---|
王纯杰等: "基于Logistic回归和神经网络比较的咽喉反流疾病的精准预测", 吉林师范大学学报(自然科学版), vol. 41, no. 3, 31 August 2020 (2020-08-31), pages 36 - 43 * |
Also Published As
Publication number | Publication date |
---|---|
CN117593768B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tabernik et al. | Deep learning for large-scale traffic-sign detection and recognition | |
US12051275B2 (en) | Video processing method and apparatus for action recognition | |
CN108520229B (zh) | 图像检测方法、装置、电子设备和计算机可读介质 | |
Bansal et al. | Recycle-gan: Unsupervised video retargeting | |
CN107480178B (zh) | 一种基于图像与视频跨模态比对的行人重识别方法 | |
CN110532970B (zh) | 人脸2d图像的年龄性别属性分析方法、系统、设备和介质 | |
US7702596B2 (en) | Probabilistic boosting tree framework for learning discriminative models | |
JP2012160178A (ja) | オブジェクト認識デバイス、オブジェクト認識を実施する方法および動的アピアランスモデルを実施する方法 | |
TW202042181A (zh) | 深度模型訓練方法及裝置、電子設備及儲存介質 | |
CN111160134A (zh) | 一种以人为主体的视频景别分析方法和装置 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
WO2021169642A1 (zh) | 基于视频的眼球转向确定方法与系统 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN112417947B (zh) | 关键点检测模型的优化及面部关键点的检测方法及装置 | |
Shah et al. | Efficient portable camera based text to speech converter for blind person | |
CN111723852B (zh) | 针对目标检测网络的鲁棒训练方法 | |
CN116311279A (zh) | 样本图像的生成、模型训练、字符识别方法、设备及介质 | |
CN112085534A (zh) | 一种关注度分析方法、系统及存储介质 | |
CN113591758A (zh) | 一种人体行为识别模型训练方法、装置及计算机设备 | |
CN111666976A (zh) | 基于属性信息的特征融合方法、装置和存储介质 | |
US8144976B1 (en) | Cascaded face model | |
CN117593768B (zh) | 咽喉定位模型训练方法、装置、电子设备及存储介质 | |
CN114581911B (zh) | 一种钢卷标号识别方法及系统 | |
CN111753618A (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |