CN113762393B - 模型训练方法、注视点检测方法、介质、装置和计算设备 - Google Patents
模型训练方法、注视点检测方法、介质、装置和计算设备 Download PDFInfo
- Publication number
- CN113762393B CN113762393B CN202111052485.5A CN202111052485A CN113762393B CN 113762393 B CN113762393 B CN 113762393B CN 202111052485 A CN202111052485 A CN 202111052485A CN 113762393 B CN113762393 B CN 113762393B
- Authority
- CN
- China
- Prior art keywords
- gaze point
- point detection
- detection model
- picture
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 351
- 238000012549 training Methods 0.000 title claims abstract description 292
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000010586 diagram Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 61
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施方式提供了一种模型训练方法、注视点检测方法、介质、装置和计算设备。该模型训练方法包括:将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图,对第一训练输出特征图进行编码处理,得到对应的编码图片,对编码图片进行解码处理,得到对应的解码图片,根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。通过第一训练输出特征图和解码图片的结构相似性监督第一注视点检测模型的训练,因此,能够大大提升注视点检测模型的泛化能力。
Description
技术领域
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及一种模型训练方法、注视点检测方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
注视点检测即模拟视觉系统的原理,快速地过滤掉图像中不重要的信息,找到图像中最感兴趣的区域。利用训练好的注视点检测模型可以进行目标识别、视频编解码、图像分割等复杂任务的预处理。
目前,在基于深度学习的方法获得注视点检测模型时,通常利用标记有注视点的训练数据集进行有监督的训练。但是,标记有注视点的训练数据集有限,从而导致获得的注视点检测模型泛化能力差。
发明内容
本公开实施例提供一种模型训练方法、注视点检测方法、介质、装置和计算设备,以解决由于标记有注视点的训练数据集有限,导致获得的注视点检测模型泛化能力差的问题。
第一方面,本公开实施例提供一种模型训练方法,包括:
将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图,第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一样本图片为业务场景对应的图片;
对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片;
对编码图片进行解码处理,得到对应的解码图片;
根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,包括:将第一样本图片输入第二注视点检测模型,得到第一样本图片对应的第二训练输出特征图,第二注视点检测模型与第一注视点检测模型相同;根据第一训练输出特征图和第二训练输出特征图,确定第一训练输出特征图相对第二训练输出特征图的第一损失函数值;根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,包括:确定结构相似性和第一损失函数值之和为目标损失函数值;根据目标损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,还包括:根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数;获得满足预设迭代条件的第三注视点检测模型;将第三样本图片输入至第三注视点检测模型,得到第三样本图片对应的第三训练输出特征图,第三样本图片为标记有注视点的图片;根据第三训练输出特征图相对第三样本图片所标记的注视点的第二损失函数值,对第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片,包括:确定第一训练输出特征图中大于显著值阈值的第一显著值;在第一显著值对应的第一样本图片的预设大小的区域中,获取大于显著值阈值的像素点个数;若像素点个数大于像素点个数阈值,则确定对预设大小的区域进行编码,得到第一训练输出特征图对应的编码图片。
在一种可能的实施方式中,该模型训练方法还包括:通过以下方式获取第一注视点检测模型:获取有监督训练集,有监督训练集包含第二样本图片;通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型;将第四注视点检测模型进行迁移,获得第一注视点检测模型,第一注视点检测模型比第四注视点检测模型的模型层数少。
在一种可能的实施方式中,通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型,包括:对第二样本图片进行预处理,得到预处理后的图片,预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种;通过预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
第二方面,本公开实施例提供一种注视点检测方法,包括:
获取待检测注视点的图片;
根据待检测注视点的图片和注视点检测模型,确定待检测注视点的图片中包含的目标注视点,注视点检测模型为采用如本公开第一方面所述的模型训练方法得到的第一注视点检测模型。
第三方面,本公开实施例提供一种模型训练装置,包括:
获取模块,用于将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图,第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一样本图片为业务场景对应的图片;
编码模块,用于对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片;
解码模块,用于对编码图片进行解码处理,得到对应的解码图片;
处理模块,用于根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,处理模块具体用于:将第一样本图片输入第二注视点检测模型,得到第一样本图片对应的第二训练输出特征图,第二注视点检测模型与第一注视点检测模型相同;根据第一训练输出特征图和第二训练输出特征图,确定第一训练输出特征图相对第二训练输出特征图的第一损失函数值;根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,处理模块在用于根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型时,具体用于:确定结构相似性和第一损失函数值之和为目标损失函数值;根据目标损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,处理模块还用于:根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数;获得满足预设迭代条件的第三注视点检测模型;将第三样本图片输入至第三注视点检测模型,得到第三样本图片对应的第三训练输出特征图,第三样本图片为标记有注视点的图片;根据第三训练输出特征图相对第三样本图片所标记的注视点的第二损失函数值,对第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,编码模块具体用于:确定第一训练输出特征图中大于显著值阈值的第一显著值;在第一显著值对应的第一样本图片的预设大小的区域中,获取大于显著值阈值的像素点个数;若像素点个数大于像素点个数阈值,则确定对预设大小的区域进行编码,得到第一训练输出特征图对应的编码图片。
在一种可能的实施方式中,获取模块还用于:通过以下方式获取第一注视点检测模型:获取有监督训练集,有监督训练集包含第二样本图片;通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型;将第四注视点检测模型进行迁移,获得第一注视点检测模型,第一注视点检测模型比第四注视点检测模型的模型层数少。
在一种可能的实施方式中,获取模块在用于通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型,具体用于:对第二样本图片进行预处理,得到预处理后的图片,预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种;通过预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
第四方面,本公开实施例提供一种注视点检测装置,包括:
获取模块,用于获取待检测注视点的图片;
检测模块,用于根据待检测注视点的图片和注视点检测模型,确定待检测注视点的图片中包含的目标注视点,注视点检测模型为采用如本公开第一方面所述的模型训练方法得到的第一注视点检测模型。
第五方面,本公开实施例提供一种计算设备,包括:处理器,以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现如本公开第一方面所述的模型训练方法。
第六方面,本公开实施例提供一种计算设备,包括:处理器,以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现如本公开第二方面所述的注视点检测方法。
第七方面,本公开实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,实现如本公开第一方面所述的模型训练方法。
第八方面,本公开实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,实现如本公开第二方面所述的注视点检测方法。
第九方面,本公开实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本公开第一方面所述的模型训练方法。
第十方面,本公开实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本公开第二方面所述的注视点检测方法。
本公开实施例提供的模型训练方法、注视点检测方法、介质、装置和计算设备,通过将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图,对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片,对编码图片进行解码处理,得到对应的解码图片,根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。由于本公开实施例利用无监督数据集训练第一注视点检测模型,以第一训练输出特征图和解码图片的结构相似性作为第一注视点检测模型训练的监督损失函数值,因此,能够大大提升注视点检测模型的泛化能力,进而提升编解码效率,节省码率。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1为本公开实施例提供的一种应用场景示意图;
图2为本公开一实施例提供的模型训练方法的流程图;
图3为本公开一实施例提供的小型网络结构的示意图;
图4为本公开另一实施例提供的模型训练方法的流程图;
图5为本公开一实施例提供的第一样本图片和第一训练输出特征图的示意图;
图6为本公开一实施例提供的原始图片中一个8*8区域的示意图;
图7为本公开又一实施例提供的模型训练方法的流程图;
图8为本公开一实施例提供的注视点检测方法的流程图;
图9为本公开一实施例提供的模型训练装置的结构示意图;
图10为本公开一实施例提供的注视点检测装置的结构示意图;
图11为公开一实施例提供的程序产品示意图;
图12为公开一实施例提供的计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种模型训练方法、注视点检测方法、介质、装置和计算设备。
在本文中,需要理解的是,所涉及的术语:半监督,表示一种将有监督学习和无监督学习结合的学习方法,半监督学习使用大量未标记数据,以及同时使用标记数据,来进行识别工作,半监督学习是模式识别和机器学习领域研究的重点问题;人眼注视点检测,即模拟人类视觉系统的原理,找到图像中人眼最感兴趣的区域,该区域可以是任意形状,得到的是一幅灰度图,该图上每个像素点的取值可以是0至255之间的任意一个数值,表示该像素点的显著性大小;人眼注视点检测是显著性检测中的一种,显著性检测还包括显著性目标检测,显著性目标检测即检测图像上显著性的目标,这种检测相对简单,得到的是一幅二值图,即每个像素点是否是感兴趣区域;编解码信息,上述显著性检测得到一副图片的显著性图,显著性图中标记了人眼重点关注的区域,即人看一副图片最先看到的最感兴趣的区域,在编码时重点编码显著性区域而忽略非显著性区域。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
本发明人发现,注视点检测大多采用传统方法,而利用深度学习进行注视点检测的较少。传统方法得到的注视点大多不准,而且很难具有通用性,只会对特定场景下的图像上具有较好的效果。目前,在基于深度学习的方法获得注视点检测模型时,通常利用标记有注视点的训练数据集进行有监督的训练。比如利用眼动仪标记的人眼注视点数据集作为标签对人眼注视点进行有监督的训练。有监督的训练方式最大的难点就是训练数据的获取,而利用眼动仪获得的人眼注视点数据集标记成本极其昂贵。因此,标记有注视点的训练数据集有限,从而导致获得的注视点检测模型泛化能力差。
基于上述问题,本公开提供一种模型训练方法、注视点检测方法、介质、装置和计算设备,通过在已有数据集上采用有监督训练,然后在各种场景、各种尺度的数据上做半监督训练,其中,半监督训练采用两种策略,一种是有监督训练和无监督训练循环交替的过程,另一种是利用编解码信息监督训练的过程。因此,能够提升编解码效率,节省码率。
应用场景总览
首先参考图1对本公开提供的方案的应用场景进行示例说明。图1为本公开实施例提供的一种应用场景示意图,如图1所示,本应用场景中,通过客户端101进行视频点播,服务器102接收客户端发送的视频点播请求,服务器102通过训练好的注视点检测模型对视频图像进行编码,将编码后的视频图像通过网络传输给客户端101,客户端101对视频图像进行解码并显示。根据服务器102通过训练好的注视点检测模型对视频图像进行编码的具体实现过程可以参见下述各实施例的方案。
需要说明的是,图1仅是本公开实施例提供的一种应用场景的示意图,本公开实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定。例如,在图1所示的应用场景中,还可以包括数据存储设备,该数据存储设备相对客户端101或服务器102可以是外部存储器,也可以是集成在客户端101或服务器102中的内部存储器。
示例性方法
下面结合图1的应用场景,参考图1来描述根据本公开示例性实施方式的模型训练方法、注视点检测方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
首先,通过具体实施例介绍模型训练方法。
图2为本公开一实施例提供的模型训练方法的流程图。本公开实施例的方法可以应用于计算设备中,该计算设备可以是服务器或服务器集群等。如图2所示,本公开实施例的方法包括:
S201、将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图。
其中,第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一样本图片为业务场景对应的图片。
本公开实施例中,第一样本图片为业务场景对应的图片,即没有标签(可以理解为未标记有注视点)的现实场景图片,也可以称为无监督图片。第一样本图片应当覆盖尽可能多的业务场景,例如视频直播点播中的各种业务场景,从而获得第一样本图片集,也可以称为无监督数据集。可选的,可以对获得的各种业务场景对应的图片进行预处理,获得第一样本图片。示例性地,可以通过如下三个步骤进行预处理:
(1)对图片进行数据增强处理,数据增强包括对图片随机增加掩码(即把图片上不同区域随机置成黑色区域,通过这种随机遮挡区域像素的方式增加模型的泛化能力,以使模型遇到有遮挡的图片仍然能达到较好的效果)、随机裁减(即在图片上随机裁剪出大小不同的区域作为第一样本图片)等操作;
(2)对图片进行归一化处理,即将每张图片每个像素点减去像素均值并除以像素方差,以使数据更容易训练;
(3)对图片进行多分辨率扩展,即将每张图片扩展出多个分辨率,并把每个分辨率都作为模型的输入,以提高模型对不同分辨率的泛化能力。
第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一注视点检测模型的训练可以理解为利用标记有注视点的训练数据集进行的有监督的训练,对于如何获得第一注视点检测模型,可参考后续实施例,此处不再赘述。
在获得第一样本图片和第一注视点检测模型后,将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图。第一训练输出特征图也可以称为第一训练输出显著性图。
S202、对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片。
该步骤中,在获得第一训练输出特征图后,可以对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片。对于如何对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片,可参考后续实施例,此处不再赘述。
S203、对编码图片进行解码处理,得到对应的解码图片。
示例性,在获得第一训练输出特征图对应的编码图片后,可以对编码图片进行解码处理,得到对应的解码图片。对于如何对编码图片进行解码处理,得到对应的解码图片,可参考目前的相关技术,此处不再赘述。
S204、根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在对第一训练输出特征图对应的编码图片进行解码处理,获得了对应的解码图片后,可以根据第一训练输出特征图和解码图片的结构相似性(Structural Similarity,SSIM),调整第一注视点检测模型的参数(比如调整第一注视点检测模型的权重),得到训练完成的第一注视点检测模型。可以理解,第一训练输出特征图和解码图片的SSIM用于作为第一注视点检测模型训练的监督损失函数值,具体获得第一训练输出特征图和解码图片的SSIM的方法,可以可参考目前的相关技术,此处不再赘述。对于如何根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,可参考后续实施例,此处不再赘述。
本公开实施例提供的模型训练方法,通过将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图,对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片,对编码图片进行解码处理,得到对应的解码图片,根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。由于本公开实施例利用无监督数据集训练第一注视点检测模型,以第一训练输出特征图和解码图片的结构相似性作为第一注视点检测模型训练的监督损失函数值,因此,能够大大提升注视点检测模型的泛化能力,进而提升编解码效率,节省码率。
在上述实施例的基础上,可选的,可以通过以下方式获取第一注视点检测模型:获取有监督训练集,有监督训练集包含第二样本图片;通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型;将第四注视点检测模型进行迁移,获得第一注视点检测模型,第一注视点检测模型比第四注视点检测模型的模型层数少。
示例性地,可以通过已有的有监督数据集作为有监督训练集,其中,有监督数据集可以采用比如salicon数据集等,有监督训练集大约包含1万张标记有注视点的第二样本图片。第四注视点检测模型为预设的注视点检测初始模型,比如为卷积神经网络模型,用于通过有监督训练的方式得到一个效果较好的第一注视点检测模型。将有监督训练集输入至第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。为了提高第四注视点检测模型的性能,本公开实施例首先训练一个大型的网络,即第四注视点检测模型,在大型的网络上达到较好的结果(比如损失函数值趋于预设损失阈值)后再迁移到小型网络,即将第四注视点检测模型进行迁移,获得第一注视点检测模型,第一注视点检测模型比第四注视点检测模型的模型层数少,或者,第一注视点检测模型比第四注视点检测模型耗时少。其中,迁移方式比如采用网络裁减和知识蒸馏相结合的方式。示例性地,图3为本公开一实施例提供的小型网络结构的示意图,如图3所示,示出了通过卷积层与最大池化层交叉构建多层卷积神经网络,其中,包括下采样和上采样处理,最后一步上采样是直接上采样的4倍。示例性地,在下采样过程中,比如将一张分辨率为500*500的图片输入至图3所示的卷积神经网络,通过第一个卷积层(按照从上到下的顺序)对该图片进行特征提取,然后将获得的对应的特征图通过第一个最大池化层进行特征降维,获得分辨率为250*250的图片,依此类推,经过多个卷积层和最大池化层,最终获得分辨率比如为100*100的图片。然后在上采样过程中,将下采样过程获得的分辨率比如为100*100的图片进行上采样处理,比如经过第一个上采样处理后,获得分辨率比如为200*200的图片,依次经过多个上采样的处理,最终获得期望分辨率大小的图片。对于卷积层、最大池化层以及上采样的处理方法,可参考目前的相关技术,此处不再赘述。
通过上述方式,能够基于有监督训练集,通过有监督训练的方式得到一个效果较好的第一注视点检测模型。
进一步地,通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型,可以包括:对第二样本图片进行预处理,得到预处理后的图片,预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种;通过预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
示例性地,在获得了第二样本图片后,可以对第二样本图片进行预处理,得到预处理后的图片,其中,预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种,比如对第二样本图片依次进行数据增强处理、归一化处理和多分辨率扩展,具体预处理的方法可以参见S201步骤中对获得的各种业务场景对应的图片进行预处理的相关描述,此处不再赘述。在对第二样本图片进行预处理,获得了预处理后的图片后,可以通过预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
图4为本公开另一实施例提供的模型训练方法的流程图。在上述实施例的基础上,本公开实施例对如何进行模型训练进行进一步说明。如图4所示,本公开实施例的方法可以包括:
S401、将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图。
其中,第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一样本图片为业务场景对应的图片。
该步骤的具体描述可以参见图2所示实施例中S201的相关描述,此处不再赘述。
本公开实施例中,图2中S202步骤可以进一步包括如下的S402至S404三个步骤:
S402、确定第一训练输出特征图中大于显著值阈值的第一显著值。
S403、在第一显著值对应的第一样本图片的预设大小的区域中,获取大于显著值阈值的像素点个数。
S404、若像素点个数大于像素点个数阈值,则确定对预设大小的区域进行编码,得到第一训练输出特征图对应的编码图片。
示例性地,图5为本公开一实施例提供的第一样本图片和第一训练输出特征图的示意图,如图5所示,将第一样本图片501(也称为原始图片501)输入第一注视点检测模型后,得到第一样本图片对应的第一训练输出特征图502(也称为显著性图502),显著性图502中越亮的区域表示人眼的关注性越强,例如图5中人比较关注两个人的脸部区域以及食物区域5011。示例性地,根据显著性图对原始图片进行编码时,由于原始图片大小是显著性图的8倍,因此,显著性图上的一个显著性值编码原始图片中一个8*8的区域。示例性地,显著值阈值比如为140,像素点个数阈值比如为50%。示例性地,图6为本公开一实施例提供的原始图片中一个8*8区域的示意图,如图6所示,通过原始图片对应的显著性图中的一个显著性值编码原始图片中相应的8*8区域601。具体地,首先判断显著性图中的显著性值是否大于显著值阈值140,如果显著性值大于显著值阈值140,则获得第一显著值;统计该第一显著值对应的原始图片的8*8区域内大于显著值阈值140的像素点个数,如果大于显著值阈值140的像素点数超过像素点个数阈值50%,则确定该第一显著值对应的原始图片的8*8区域为显著性区域块,并对该区域重点编码。通过上述方式,可以得到第一训练输出特征图对应的编码图片。基于显著值阈值和像素点个数阈值,能够更加准确地确定图片中要编码的区域,以提升编码效率。
S405、对编码图片进行解码处理,得到对应的解码图片。
该步骤的具体描述可以参见图2所示实施例中S203的相关描述,此处不再赘述。
本公开实施例中,图2中S204步骤可以进一步包括如下的S406至S408三个步骤:
S406、将第一样本图片输入第二注视点检测模型,得到第一样本图片对应的第二训练输出特征图,第二注视点检测模型与第一注视点检测模型相同。
S407、根据第一训练输出特征图和第二训练输出特征图,确定第一训练输出特征图相对第二训练输出特征图的第一损失函数值。
S408、根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在上述实施例的基础上,示例性地,第二注视点检测模型用于生成第一样本图片(即无监督图片)的标签,第二注视点检测模型与第一注视点检测模型相同。其中,在将第一样本图片输入第二注视点检测模型,得到第一样本图片对应的第二训练输出特征图的过程中,第二注视点检测模型的权重保持不变。具体地,基于第一样本图片集(即无监督数据集),在第二注视点检测模型的每一次迭代中,将无监督图片输入至第二注视点检测模型生成预测结果,即获得第一样本图片对应的第二训练输出特征图,并以该预测结果作为无监督图片的标签,对第一注视点检测模型进行监督训练,得到第一训练输出特征图。根据第一训练输出特征图和第二训练输出特征图,确定第一训练输出特征图相对第二训练输出特征图的第一损失函数值。第一损失函数比如为第一训练输出特征图相对第二训练输出特征图的交叉熵。根据第一训练输出特征图和解码图片的结构相似性以及第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。通过将第一训练输出特征图和解码图片的结构相似性、第一训练输出特征图相对第二训练输出特征图的第一损失函数值一起作为第一注视点检测模型训练的监督损失值,能够更加有效地对第一注视点检测模型进行训练,获得效果更好的第一注视点检测模型。
进一步地,根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,可以包括:确定结构相似性和第一损失函数值之和为目标损失函数值;根据目标损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
示例性地,通过如下公式获得目标损失函数值:
Loss=lossce(Ib,Ia)+lossssim(Ib,Is)
其中,Loss表示目标损失函数值;lossce表示第一损失函数值,比如为交叉熵损失值(loss);lossssim表示结构相似性;Ib表示第一注视点检测模型的输出;Ia表示第二注视点检测模型的输出;Is表示利用显著性编解码后的图片。
在获得了目标损失函数值后,可以根据目标损失函数值,调整第一注视点检测模型的参数。示例性地,基于第一样本图片集(即无监督数据集),对第一注视点检测模型进行迭代训练,根据迭代训练的结果,调整第一注视点检测模型的权重,在下一轮迭代时将第一注视点检测模型调整后的权重复制给第二注视点检测模型,第二注视点检测模型基于第一注视点检测模型调整后的权重生成预测结果,以该预测结果作为无监督图片的标签,对调整权重后的第一注视点检测模型进行监督训练。依此对第一注视点检测模型进行迭代训练,直至目标损失函数值趋于目标损失阈值,得到训练完成的第一注视点检测模型。
本公开实施例提供的模型训练方法,由于基于显著值阈值、像素点个数阈值获得第一训练输出特征图对应的编码图片,根据第一训练输出特征图和解码图片的结构相似性以及第一训练输出特征图相对第二训练输出特征图的第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。因此,能够大大提升注视点检测模型的泛化能力,以更加准确地重点编码图片中的显著性区域,进而提升编解码效率,节省码率。
图7为本公开又一实施例提供的模型训练方法的流程图。在上述实施例的基础上,本公开实施例对如何进行无监督训练和有监督训练的交替模型训练进行进一步说明。如图7所示,本公开实施例的方法可以包括:
S701、将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图。
其中,第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一样本图片为业务场景对应的图片。
该步骤的具体描述可以参见图2所示实施例中S201的相关描述,此处不再赘述。
S702、对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片。
该步骤的具体描述可以参见图2所示实施例中S202的相关描述,此处不再赘述。
S703、对编码图片进行解码处理,得到对应的解码图片。
该步骤的具体描述可以参见图2所示实施例中S203的相关描述,此处不再赘述。
本公开实施例中,图2中S204步骤可以进一步包括如下的S704至S707四个步骤:
S704、根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数。
该步骤的具体描述可以参见图4所示实施例中S406至S408三个步骤的相关描述,此处不再赘述。
S705、获得满足预设迭代条件的第三注视点检测模型。
示例性地,预设迭代条件比如为迭代5次,在对第一注视点检测模型进行5次迭代训练后,获得第三注视点检测模型。
S706、将第三样本图片输入至第三注视点检测模型,得到第三样本图片对应的第三训练输出特征图,第三样本图片为标记有注视点的图片。
该步骤中,第三样本图片为标记有注视点的图片,即有监督图片。第三样本图片集也可以称为有监督数据集。在获得了第三注视点检测模型后,可以将第三样本图片输入至第三注视点检测模型,得到第三样本图片对应的第三训练输出特征图。
S707、根据第三训练输出特征图相对第三样本图片所标记的注视点的第二损失函数值,对第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。
示例性地,在获得了第三样本图片对应的第三训练输出特征图后,可以基于上述S407步骤的方法获得第三训练输出特征图相对第三样本图片所标记的注视点的第二损失函数值,进而基于该第二损失函数值,对第三注视点检测模型进行微调训练,并把微调训练后的第三注视点检测模型的权重复制给第二注视点检测模型,在各种尺度的无监督数据集和有监督数据集上重复执行S701至S707步骤,不断地把第一注视点检测模型往正确的方向上引导,直至得到训练完成的第一注视点检测模型。
上述S701至S705步骤可以理解为无监督训练,S706和S707步骤可以理解为有监督训练,通过无监督训练和有监督训练的交替训练,得到训练完成的第一注视点检测模型。
本公开实施例提供的模型训练方法,由于对第一注视点检测模型进行迭代训练,获得满足预设迭代条件的第三注视点检测模型后,基于有监督数据集对第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。因此,能够大大提升注视点检测模型的泛化能力,进而提升编解码效率,节省码率。
图8为本公开一实施例提供的注视点检测方法的流程图,如图8所示,本公开实施例的方法包括:
S801、获取待检测注视点的图片。
示例性地,待检测注视点的图片比如为业务场景对应的图片,即没有标签的现实场景图片。待检测注视点的图片可以是用户向执行本方法实施例的计算设备输入的,或者,是其它设备向执行本方法实施例的计算设备发送的。
S802、根据待检测注视点的图片和注视点检测模型,确定待检测注视点的图片中包含的目标注标记视点。
其中,注视点检测模型为采用如上述任一方法实施例获得的第一注视点检测模型。
该步骤中,在获得了待检测注视点的图片后,将待检测注视点的图片输入至注视点检测模型,可以确定待检测注视点的图片中包含的目标注视点。
本公开实施例提供的注视点检测方法,通过获取待检测注视点的图片,根据待检测注视点的图片和注视点检测模型,确定待检测注视点的图片中包含的目标注视点。因此,能够更加准确地待检测注视点的图片中包含的目标注视点。将本公开实施例提供的注视点检测方法应用在窄带高清项目中,能够节省码率。
示例性装置
在介绍了本公开示例性实施方式的方法之后,接下来,参考图9对本公开示例性实施方式的装置进行说明。本公开示例性实施方式的装置,可以实现前述模型训练方法实施例中的各个过程,并达到相同的功能和效果。
图9为本公开一实施例提供的模型训练装置的结构示意图,如图9所示,本公开实施例的模型训练装置900包括:获取模块901、编码模块902、解码模块903和处理模块904。其中:
获取模块901,用于将第一样本图片输入第一注视点检测模型,得到第一样本图片对应的第一训练输出特征图,第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,第一样本图片为业务场景对应的图片。
编码模块902,用于对第一训练输出特征图进行编码处理,得到第一训练输出特征图对应的编码图片。
解码模块903,用于对编码图片进行解码处理,得到对应的解码图片。
处理模块904,用于根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,处理模块904可以具体用于:将第一样本图片输入第二注视点检测模型,得到第一样本图片对应的第二训练输出特征图,第二注视点检测模型与第一注视点检测模型相同;根据第一训练输出特征图和第二训练输出特征图,确定第一训练输出特征图相对第二训练输出特征图的第一损失函数值;根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,处理模块904在用于根据结构相似性和第一损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型时,可以具体用于:确定结构相似性和第一损失函数值之和为目标损失函数值;根据目标损失函数值,调整第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,处理模块904还可以用于:根据第一训练输出特征图和解码图片的结构相似性,调整第一注视点检测模型的参数;获得满足预设迭代条件的第三注视点检测模型;将第三样本图片输入至第三注视点检测模型,得到第三样本图片对应的第三训练输出特征图,第三样本图片为标记有注视点的图片;根据第三训练输出特征图相对第三样本图片所标记的注视点的第二损失函数值,对第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。
在一种可能的实施方式中,编码模块902可以具体用于:确定第一训练输出特征图中大于显著值阈值的第一显著值;在第一显著值对应的第一样本图片的预设大小的区域中,获取大于显著值阈值的像素点个数;若像素点个数大于像素点个数阈值,则确定对预设大小的区域进行编码,得到第一训练输出特征图对应的编码图片。
在一种可能的实施方式中,获取模块901还可以用于:通过以下方式获取第一注视点检测模型:获取有监督训练集,有监督训练集包含第二样本图片;通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型;将第四注视点检测模型进行迁移,获得第一注视点检测模型,第一注视点检测模型比第四注视点检测模型的模型层数少。
在一种可能的实施方式中,获取模块901在用于通过第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型,可以具体用于:对第二样本图片进行预处理,得到预处理后的图片,预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种;通过预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
本公开实施例提供的模型训练装置,可以用于执行上述任一方法实施例中模型训练方法的方案,其实现原理和技术效果类似,此处不再赘述。
图10为本公开一实施例提供的注视点检测装置的结构示意图,如图10所示,本公开实施例的注视点检测装置1000包括:获取模块1001和检测模块1002。其中:
获取模块1001,用于获取待检测注视点的图片。
检测模块1002,用于根据待检测注视点的图片和注视点检测模型,确定待检测注视点的图片中包含的目标注视点,注视点检测模型为采用如上述任一模型训练方法实施例得到的第一注视点检测模型。
本公开实施例的装置,可以用于执行上述任一方法实施例中注视点检测方法的方案,其实现原理和技术效果类似,此处不再赘述。
示例性介质
在介绍了本公开示例性实施方式的方法和装置之后,接下来,参考图11对本公开示例性实施方式的存储介质进行说明。
图11为本公开一实施例提供的程序产品示意图,参考图11所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品1100,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图12对本公开示例性实施方式的计算设备进行说明。
图12显示的计算设备1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图12为本公开一实施例提供的计算设备的结构示意图,如图12所示,计算设备1200以通用计算设备的形式表现。计算设备1200的组件可以包括但不限于:上述至少一个处理单元1201、上述至少一个存储单元1202,连接不同系统组件(包括处理单元1201和存储单元1202)的总线1203。
总线1203包括数据总线、控制总线和地址总线。
存储单元1202可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)12021和/或高速缓存存储器12022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)12023。
存储单元1202还可以包括具有一组(至少一个)程序模块12024的程序/实用工具12025,这样的程序模块12024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1200也可以与一个或多个外部设备1204(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1205进行。并且,计算设备1200还可以通过网络适配器1206与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图12所示,网络适配器1206通过总线1203与计算设备1200的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了模型训练装置和注视点检测装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (19)
1.一种模型训练方法,其特征在于,包括:
将第一样本图片输入第一注视点检测模型,得到所述第一样本图片对应的第一训练输出特征图,所述第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,所述第一样本图片为业务场景对应的图片;
对所述第一训练输出特征图进行编码处理,得到所述第一训练输出特征图对应的编码图片;
对所述编码图片进行解码处理,得到对应的解码图片;
根据所述第一训练输出特征图和所述解码图片的结构相似性,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述第一训练输出特征图和所述解码图片的结构相似性,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,包括:
将所述第一样本图片输入第二注视点检测模型,得到所述第一样本图片对应的第二训练输出特征图,所述第二注视点检测模型与所述第一注视点检测模型相同;
根据所述第一训练输出特征图和所述第二训练输出特征图,确定所述第一训练输出特征图相对所述第二训练输出特征图的第一损失函数值;
根据所述结构相似性和所述第一损失函数值,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型;
其中,在将所述第一样本图片输入第二注视点检测模型,得到所述第一样本图片对应的第二训练输出特征图的过程中,所述第二注视点检测模型的权重保持不变;在所述第二注视点检测模型的每一次迭代中,将所述第一样本图片输入所述第二注视点检测模型得到的所述第二训练输出特征图作为所述第一样本图片的标签,对所述第一注视点检测模型进行监督训练,得到所述第一训练输出特征图。
3.根据权利要求2所述的模型训练方法,其特征在于,所述根据所述结构相似性和所述第一损失函数值,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,包括:
确定所述结构相似性和所述第一损失函数值之和为目标损失函数值;
根据所述目标损失函数值,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
4.根据权利要求2或3所述的模型训练方法,其特征在于,所述根据所述第一训练输出特征图和所述解码图片的结构相似性,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型,还包括:
根据所述第一训练输出特征图和所述解码图片的结构相似性,调整所述第一注视点检测模型的参数;
获得满足预设迭代条件的第三注视点检测模型;
将第三样本图片输入至所述第三注视点检测模型,得到所述第三样本图片对应的第三训练输出特征图,所述第三样本图片为标记有注视点的图片;
根据所述第三训练输出特征图相对所述第三样本图片所标记的注视点的第二损失函数值,对所述第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。
5.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述对所述第一训练输出特征图进行编码处理,得到所述第一训练输出特征图对应的编码图片,包括:
确定所述第一训练输出特征图中大于显著值阈值的第一显著值;
在所述第一显著值对应的所述第一样本图片的预设大小的区域中,获取大于所述显著值阈值的像素点个数;
若所述像素点个数大于像素点个数阈值,则确定对所述预设大小的区域进行编码,得到所述第一训练输出特征图对应的编码图片。
6.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,还包括:
通过以下方式获取所述第一注视点检测模型:
获取有监督训练集,所述有监督训练集包含所述第二样本图片;
通过所述第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型;
将所述第四注视点检测模型进行迁移,获得所述第一注视点检测模型,所述第一注视点检测模型比所述第四注视点检测模型的模型层数少。
7.根据权利要求6所述的模型训练方法,其特征在于,所述通过所述第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型,包括:
对所述第二样本图片进行预处理,得到预处理后的图片,所述预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种;
通过所述预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
8.一种注视点检测方法,其特征在于,包括:
获取待检测注视点的图片;
根据所述待检测注视点的图片和注视点检测模型,确定所述待检测注视点的图片中包含的目标注视点,所述注视点检测模型为采用如权利要求1至7中任一项所述的模型训练方法得到的所述第一注视点检测模型。
9.一种模型训练装置,其特征在于,包括:
获取模块,用于将第一样本图片输入第一注视点检测模型,得到所述第一样本图片对应的第一训练输出特征图,所述第一注视点检测模型为基于多个标记有注视点的第二样本图片训练得到的,所述第一样本图片为业务场景对应的图片;
编码模块,用于对所述第一训练输出特征图进行编码处理,得到所述第一训练输出特征图对应的编码图片;
解码模块,用于对所述编码图片进行解码处理,得到对应的解码图片;
处理模块,用于根据所述第一训练输出特征图和所述解码图片的结构相似性,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
10.根据权利要求9所述的模型训练装置,其特征在于,所述处理模块,具体用于:
将所述第一样本图片输入第二注视点检测模型,得到所述第一样本图片对应的第二训练输出特征图,所述第二注视点检测模型与所述第一注视点检测模型相同;
根据所述第一训练输出特征图和所述第二训练输出特征图,确定所述第一训练输出特征图相对所述第二训练输出特征图的第一损失函数值;
根据所述结构相似性和所述第一损失函数值,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型;
其中,在将所述第一样本图片输入第二注视点检测模型,得到所述第一样本图片对应的第二训练输出特征图的过程中,所述第二注视点检测模型的权重保持不变;在所述第二注视点检测模型的每一次迭代中,将所述第一样本图片输入所述第二注视点检测模型得到的所述第二训练输出特征图作为所述第一样本图片的标签,对所述第一注视点检测模型进行监督训练,得到所述第一训练输出特征图。
11.根据权利要求10所述的模型训练装置,其特征在于,所述处理模块在用于根据所述结构相似性和所述第一损失函数值,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型时,具体用于:
确定所述结构相似性和所述第一损失函数值之和为目标损失函数值;
根据所述目标损失函数值,调整所述第一注视点检测模型的参数,得到训练完成的第一注视点检测模型。
12.根据权利要求10或11所述的模型训练装置,其特征在于,所述处理模块,还用于:
根据所述第一训练输出特征图和所述解码图片的结构相似性,调整所述第一注视点检测模型的参数;
获得满足预设迭代条件的第三注视点检测模型;
将第三样本图片输入至所述第三注视点检测模型,得到所述第三样本图片对应的第三训练输出特征图,所述第三样本图片为标记有注视点的图片;
根据所述第三训练输出特征图相对所述第三样本图片所标记的注视点的第二损失函数值,对所述第三注视点检测模型进行微调训练,得到训练完成的第一注视点检测模型。
13.根据权利要求9至11中任一项所述的模型训练装置,其特征在于,所述编码模块,具体用于:
确定所述第一训练输出特征图中大于显著值阈值的第一显著值;
在所述第一显著值对应的所述第一样本图片的预设大小的区域中,获取大于所述显著值阈值的像素点个数;
若所述像素点个数大于像素点个数阈值,则确定对所述预设大小的区域进行编码,得到所述第一训练输出特征图对应的编码图片。
14.根据权利要求9至11中任一项所述的模型训练装置,其特征在于,获取模块还用于:
通过以下方式获取所述第一注视点检测模型:
获取有监督训练集,所述有监督训练集包含所述第二样本图片;
通过所述第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型;
将所述第四注视点检测模型进行迁移,获得所述第一注视点检测模型,所述第一注视点检测模型比所述第四注视点检测模型的模型层数少。
15.根据权利要求14所述的模型训练装置,其特征在于,所述获取模块在用于通过所述第二样本图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型,具体用于:
对所述第二样本图片进行预处理,得到预处理后的图片,所述预处理包括数据增强处理、归一化处理和多分辨率扩展中的至少一种;
通过所述预处理后的图片对第四注视点检测模型进行迭代训练,得到训练完成的第四注视点检测模型。
16.一种注视点检测装置,其特征在于,包括:
获取模块,用于获取待检测注视点的图片;
检测模块,用于根据所述待检测注视点的图片和注视点检测模型,确定所述待检测注视点的图片中包含的目标注视点,所述注视点检测模型为采用如权利要求1至7中任一项所述的模型训练方法得到的所述第一注视点检测模型。
17.一种计算设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,实现如权利要求1至8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052485.5A CN113762393B (zh) | 2021-09-08 | 2021-09-08 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052485.5A CN113762393B (zh) | 2021-09-08 | 2021-09-08 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762393A CN113762393A (zh) | 2021-12-07 |
CN113762393B true CN113762393B (zh) | 2024-04-30 |
Family
ID=78794044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111052485.5A Active CN113762393B (zh) | 2021-09-08 | 2021-09-08 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762393B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197594A (zh) * | 2018-01-23 | 2018-06-22 | 北京七鑫易维信息技术有限公司 | 确定瞳孔位置的方法和装置 |
CN108986166A (zh) * | 2018-07-20 | 2018-12-11 | 山东大学 | 一种基于半监督学习的单目视觉里程预测方法及里程计 |
CN109685847A (zh) * | 2018-12-26 | 2019-04-26 | 北京因时机器人科技有限公司 | 一种视觉目标检测模型的训练方法和装置 |
CN109902564A (zh) * | 2019-01-17 | 2019-06-18 | 杭州电子科技大学 | 一种基于结构相似性稀疏自编码网络的异常事件检测方法 |
CN110210492A (zh) * | 2019-04-28 | 2019-09-06 | 浙江科技学院 | 一种基于深度学习的立体图像视觉显著性检测方法 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
KR20200079170A (ko) * | 2018-12-24 | 2020-07-02 | 삼성전자주식회사 | 시선 추정 방법 및 시선 추정 장치 |
WO2020155828A1 (zh) * | 2019-02-01 | 2020-08-06 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111814816A (zh) * | 2019-04-12 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 一种目标检测方法、装置及其存储介质 |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN112308006A (zh) * | 2020-11-10 | 2021-02-02 | 深圳地平线机器人科技有限公司 | 视线区域预测模型生成方法、装置、存储介质及电子设备 |
CN112883216A (zh) * | 2021-03-01 | 2021-06-01 | 中国科学院信息工程研究所 | 基于扰动一致性自集成的半监督图像检索方法及装置 |
WO2021135499A1 (zh) * | 2020-06-08 | 2021-07-08 | 平安科技(深圳)有限公司 | 损伤检测模型训练、车损检测方法、装置、设备及介质 |
WO2021164306A1 (zh) * | 2020-09-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 图像分类模型的训练方法、装置、计算机设备及存储介质 |
CN113313123A (zh) * | 2021-06-11 | 2021-08-27 | 西北工业大学 | 一种基于语义推断的扫视路径预测方法 |
-
2021
- 2021-09-08 CN CN202111052485.5A patent/CN113762393B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144710A1 (zh) * | 2018-01-23 | 2019-08-01 | 北京七鑫易维信息技术有限公司 | 确定瞳孔位置的方法和装置 |
CN108197594A (zh) * | 2018-01-23 | 2018-06-22 | 北京七鑫易维信息技术有限公司 | 确定瞳孔位置的方法和装置 |
CN108986166A (zh) * | 2018-07-20 | 2018-12-11 | 山东大学 | 一种基于半监督学习的单目视觉里程预测方法及里程计 |
KR20200079170A (ko) * | 2018-12-24 | 2020-07-02 | 삼성전자주식회사 | 시선 추정 방법 및 시선 추정 장치 |
CN109685847A (zh) * | 2018-12-26 | 2019-04-26 | 北京因时机器人科技有限公司 | 一种视觉目标检测模型的训练方法和装置 |
CN109902564A (zh) * | 2019-01-17 | 2019-06-18 | 杭州电子科技大学 | 一种基于结构相似性稀疏自编码网络的异常事件检测方法 |
WO2020155828A1 (zh) * | 2019-02-01 | 2020-08-06 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111814816A (zh) * | 2019-04-12 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 一种目标检测方法、装置及其存储介质 |
CN110210492A (zh) * | 2019-04-28 | 2019-09-06 | 浙江科技学院 | 一种基于深度学习的立体图像视觉显著性检测方法 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
WO2021135499A1 (zh) * | 2020-06-08 | 2021-07-08 | 平安科技(深圳)有限公司 | 损伤检测模型训练、车损检测方法、装置、设备及介质 |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
WO2021164306A1 (zh) * | 2020-09-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 图像分类模型的训练方法、装置、计算机设备及存储介质 |
CN112308006A (zh) * | 2020-11-10 | 2021-02-02 | 深圳地平线机器人科技有限公司 | 视线区域预测模型生成方法、装置、存储介质及电子设备 |
CN112883216A (zh) * | 2021-03-01 | 2021-06-01 | 中国科学院信息工程研究所 | 基于扰动一致性自集成的半监督图像检索方法及装置 |
CN113313123A (zh) * | 2021-06-11 | 2021-08-27 | 西北工业大学 | 一种基于语义推断的扫视路径预测方法 |
Non-Patent Citations (4)
Title |
---|
A Top-down Attention Model Based on the Semi-supervised Learning;Jiawei Xu;2012 5th International Conference on BioMedical Engineering and Informatics (BMEI 2012);全文 * |
基于无监督栈式降噪自编码网络的显著性检测算法;李庆武;马云鹏;周亚琴;邢俊;;电子学报(第04期);全文 * |
基于深度学习的显著性检测方法模型――SCS;张洪涛;路红英;刘腾飞;张玲玉;张晓明;;计算机与现代化(第04期);全文 * |
基于视觉感知与注意机制的图像显著目标检测;霍丽娜;博士电子期刊(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113762393A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200117906A1 (en) | Space-time memory network for locating target object in video content | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
US20210358170A1 (en) | Determining camera parameters from a single digital image | |
CN113159056B (zh) | 图像分割方法、装置、设备及存储介质 | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
CN111932546A (zh) | 图像分割模型训练方法、图像分割方法、装置、设备及介质 | |
EP3740912A1 (en) | Data compression by local entropy encoding | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
Zhou et al. | BCINet: Bilateral cross-modal interaction network for indoor scene understanding in RGB-D images | |
CN111242952B (zh) | 图像分割模型训练方法、图像分割方法、装置及计算设备 | |
CN114936605A (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
Zhang et al. | Attention-guided image compression by deep reconstruction of compressive sensed saliency skeleton | |
CN113221983B (zh) | 迁移学习模型的训练方法及装置、图像处理方法及装置 | |
CN114445420A (zh) | 编解码结构结合注意力机制的图像分割模型及其训练方法 | |
CN114445904A (zh) | 基于全卷积神经网络的虹膜分割方法和装置、介质和设备 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
Yun et al. | Panoramic vision transformer for saliency detection in 360∘ videos | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
Zhou et al. | RISTRA: Recursive Image Super-resolution Transformer with Relativistic Assessment | |
Wu et al. | Assessor360: Multi-sequence network for blind omnidirectional image quality assessment | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN113762393B (zh) | 模型训练方法、注视点检测方法、介质、装置和计算设备 | |
CN114708143A (zh) | 一种hdr图像生成方法、设备、产品及介质 | |
CN113537359A (zh) | 训练数据的生成方法及装置、计算机可读介质和电子设备 | |
Li et al. | An image watermark removal method for secure internet of things applications based on federated learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |