CN115223002B - 模型训练方法、开门动作检测方法、装置以及计算机设备 - Google Patents
模型训练方法、开门动作检测方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN115223002B CN115223002B CN202210503300.6A CN202210503300A CN115223002B CN 115223002 B CN115223002 B CN 115223002B CN 202210503300 A CN202210503300 A CN 202210503300A CN 115223002 B CN115223002 B CN 115223002B
- Authority
- CN
- China
- Prior art keywords
- image
- detection model
- real
- feature point
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 172
- 238000012549 training Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000009466 transformation Effects 0.000 claims abstract description 66
- 230000009471 action Effects 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 85
- 230000003287 optical effect Effects 0.000 claims description 80
- 238000002372 labelling Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000006073 displacement reaction Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种模型训练方法、开门动作检测方法、装置以及计算机设备,该方法通过获取虚拟图像集以及真实图像集,虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;基于虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。本方法中,利用训练得到的特征点检测模型能够实现检测开门动作时对拍摄图像中的图像特征点的准确识别。
Description
技术领域
本申请涉及车辆技术领域,更具体地,涉及一种模型训练方法、开门动作检测方法、装置以及计算机设备。
背景技术
随着生活水平的提高,车辆逐渐成为已经成为人们日常生活中的必备之一。并且,随着科技水平的进步,越来越多的车辆可以实现检测用户的开门动作,并根据开门动作控制车门开启。相关技术中,通常通过电容传感器对可感应范围内做出的开门动作进行检测,但是这样的方式容易受到环境因素的影响,导致无法准确检测到用户的开门动作;当然,也有部分通过检测检测图像中的特征点的方式识别开门动作,但由于检测特征点的准确性不足,影响了识别开门动作的准确性。
发明内容
鉴于上述问题,本申请提出了一种模型训练方法、开门动作检测方法、装置以及计算机设备,以实现准确地检测用户的开门动作。
第一方面,本申请实施例提供一种模型训练方法,所述方法包括:获取虚拟图像集以及真实图像集,所述虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,所述真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;基于所述虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;基于所述真实图像集中的真实样本图像对,对所述初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。
第二方面,本申请实施例提供了一种开门动作检测方法,所述方法包括:获取针对预设区域拍摄得到的连续多帧拍摄图像;基于预先训练的特征点检测模型,获取所述多帧拍摄图像中每帧拍摄图像的图像特征点,所述特征点检测模型根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到;获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对前一帧拍摄图像的所述图像特征点之间的光流矢量,得到多个光流矢量;若所述多个光流矢量之和满足预设矢量条件,则确定所述预设区域内存在开门动作。
第三方面,本申请实施例提供一种模型训练装置,所述装置包括:样本获取模块、第一训练模块以及第二训练模块,其中,所述样本获取模块用于获取虚拟图像集以及真实图像集,所述虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,所述真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;所述第一训练模块用于基于所述虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;所述第二训练模块用于基于所述真实图像集中的真实样本图像对,对所述初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。
第四方面,本申请实施例提供了一种开门动作检测装置,所述装置包括:图像获取模块、特征点获取模块、矢量获取模块以及动作检测模块。其中,所述图像获取模块用于获取针对预设区域拍摄得到的连续多帧拍摄图像;所述特征点获取模块用于基于预先训练的特征点检测模型,获取所述多帧拍摄图像中每帧拍摄图像的图像特征点,所述特征点检测模型根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到;所述矢量获取模块用于获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对前一帧拍摄图像的所述图像特征点之间的光流矢量,得到多个光流矢量;所述动作检测模块用于若所述多个光流矢量之和满足预设矢量条件,则确定所述预设区域内存在开门动作。
第五方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的开门动作检测方法。
第六方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的开门动作检测方法。
本申请提供的方案,通过获取虚拟图像集以及真实图像集,虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;基于虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。由于特征点检测模型通过非监督学习的方式训练后,再通过标注有图像特征点之间的变换关系的样本图像对训练得到,因此利用训练得到的特征点检测模型能够实现检测开门动作时对拍摄图像中的图像特征点的准确识别,进而能够准确识别用户的开门动作。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个实施例提供的模型训练方法的流程示意图。
图2示出了本申请一个实施例中步骤S110的具体流程示意图。
图3示出了本申请一个实施例中步骤S130的具体流程示意图。
图4示出了本申请一个实施例中步骤S132的具体流程示意图。
图5示出了本申请另一个实施例提供的开门动作检测方法的流程示意图。
图6示出了本申请另一个实施例中步骤S230的具体流程示意图。
图7示出了本申请实施例提供的模型训练装置的结构框图。
图8示出了本申请实施例提供的开门动作检测装置的结构框图。
图9示出了本申请实施例提供的计算机设备的一种结构框图。
图10示出了本申请实施例提供的计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
发明人提出了本申请实施例提供的模型训练方法、开门动作检测方法、装置以及计算机设备,通过对预设区域内拍摄图像的特征点的准确检测,实现对开门动作的准确判断。其中,具体的开门动作检测方法在后续的实施例中进行详细的说明。
下面将结合附图具体描述本申请实施例提供的模型训练方法。
请参阅图1,图1示出了本申请实施例提供的模型训练方法的流程示意图,该模型训练方法可以应用于服务器,下面将针对图1所示流程进行详细阐述,所述模型训练方法具体可以包括以下步骤:
步骤S110:获取虚拟图像集以及真实图像集,所述虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,所述真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对。
在本申请实施例中,可以基于虚拟图像集以及真实图像集对初始神经网络进行训练,得到特征点检测模型。其中虚拟图像集可以包括多张虚拟样本图像,每张虚拟样本图像由至少一种类型的线条构成,线条类型可以为直线、曲线等基本类型的线条,所构成的虚拟样本图像中可以包括三角形、矩形、立方体或椭圆形等基本图形。真实图像集可以包括多个真实样本图像对,每个真实样本图像对包括两张被标注有图像特征点之间的变换关系的真实图像,也就是说,在任意一对真实样本图像对中,若已知一张真实图像中的图像特征点的位置坐标,则可以通过对应的变换关系获得在另一张真实图像中相同图像特征点对应的位置坐标。
其中,每对真实样本图像对中标注的图像特征点之间的变换关系,是准确的变换关系,服务器可以基于该准确的变换关系,以及根据检测模型检测得到图像特征点之间的变换关系,对检测模型的参数进行调整优化,即对其进行监督学习的训练。
在一些实施方式中,可以从开源的图像库中获取大量的虚拟样本图像以及真实样本图像对,从而构建出虚拟图像集以及真实图像集;当然,也可以通过摄像头采集大量的真实图像,进而将每帧真实图像通过特定的算法变换得到具有图像特征点转换关系的另一张真实图像,将这两张真实图像作为一个真实样本图像对放入真实图像集中。
在一些实施方式中,如图2所示,真实图像集可以通过以下方式获得:
步骤S111:获取多张真实样本图像。
在本申请实施例中,服务器可以通过获取真实样本图像,用以对其进行单应变换处理,将变换后的图像及其对应的原图作为一个真实样本图像对,放入真实图像集中对模型进行训练。其中,获取真实样本图像的方法可以是在开源图像库中获取,也可以通过摄像头获取,在此不做限定。
步骤S112:对每张真实样本图像进行单应变换,得到所述每张真实样本图像及其对应的单应变换后的图像所构成的真实样本图像对。
在本申请实施例中,可以通过单应变换的方式得到具有图像特征点转换关系的真实样本图像及其对应的转换后的图像,其中,单应变换是指两个平面上点的映射关系,即描述真实样本图像中的物体在世界坐标系和像素坐标系之间的位置映射关系。对真实样本图像进行单应变换可以得到一个单应矩阵以及变换后的图像,将真实样本图像以及变换后的图像作为一个真实样本图像对,其中单应矩阵就是一个从一张真实样本图像到另一张图像映射关系的转换矩阵,用于表征两张真实样本图像中图像特征点之间的变换关系。
步骤S113:基于所述每张真实样本图像与对应的单应变换后的图像之间的变换关系,针对所述真实样本图像对,标注图像特征点之间的变换关系。
在本申请实施例中,在将一张真实样本图像进行单应变换后,可以得到对应的另一张图像,可以将真实样本图像与变换后的图像作为一个真实样本图像对,同时,基于单应变换时得到的单应矩阵,标注真实样本图像对中相同图像特征点之间的变换关系。
步骤S120:基于所述虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型。
在本申请实施例中,服务器在获取虚拟图像集以及真实图像集后,可以先基于虚拟图像集,对初始神经网络进行训练,得到初始检测模型,用以服务器进一步基于真实图像集对初始检测模型进行训练,以提高最终得到的特征点检测模型的准确率。其中,虚拟图像集中包括多张由至少一种类型的线条所构成的虚拟样本图像,所有虚拟样本图像均未被添加标签,将虚拟样本图像输入至初始神经网络中,初始神经网络可以基于虚拟样本图像对应的灰度图像,将虚拟样本图像进行分类,即为通过非监督学习的方式对初始神经网络进行训练。
在一些实施方式中,初始神经网络可以是全卷积神经网络,也就是将卷积神经网络末尾的全连接层转化为卷积层,实现了能够接收任意大小的输入图像,但由于全卷积神经网络对图像的分类结果并不能很精细,网络对于细节不太敏感,因此,仍需要对初始检测模型进行进一步的训练。
步骤S130:基于所述真实图像集中的真实样本图像对,对所述初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。
在本申请实施例中,服务器在基于虚拟图像集对初始神经网络进行训练后,得到的初始检测模型对输入的拍摄图像所检测到的特征点仍不够精确,因此,还需要基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练。其中,真实图像集中的真实样本图像对包括两张被标注有图像特征点之间的变换关系的真实样本图像,也就是说,可以根据其中一张真实样本图像中的图像特征点,基于标注的变换关系得到该真实样本图像的图像特征点在另一张真实样本图像中对应的图像特征点,并且,初始检测模型也可以检测到另一张真实样本图像的图像特征点,因此,基于检测到的真实样本图像的图像特征点,与通过转换关系转换得到的图像特征点之间的差异,可以对初始检测模型进行监督学习的训练。当然,也可以根据初始检测模型检测到的真实样本图像对中两张真实样本图像的图像特征点,确定图像特征点之间的转换关系,然后根据确定出的转换关系,与标注的转换关系之间的差异,对初始检测模型进行监督学习的训练。
在一些实施方式中,如图3所示,步骤S130中基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练,可以通过以下步骤实现:
步骤S131:基于所述初始检测模型,获取所述真实样本图像对中第一真实样本图像的图像特征点及其对应的描述子,并获取所述真实样本图像对中第二真实样本图像的图像特征点及其对应的描述子。
在本申请实施例中,初始检测模型可以针对真实图像集中的任意一个真实样本图像对,分别获取两张真实样本图像中的图像特征点及其对应的描述子,用以基于图像特征点及其对应的描述子,确定初始检测模型的损失值。其中,每个图像特征点均对应有一个描述子,用于对该图像特征点进行描述的一种二进制编码。
具体来说,获取图像特征点的描述子,可以先对图像进行高斯滤波(方差为2,高斯窗口为9*9),以减少噪声干扰;再以图像特征点为中心,取一个S*S的领域窗口,在窗口内随机选取一对像素点(x,y),比较这二者像素值的大小,进行二进制赋值,例如若x点的像素值小于y点的像素值,则赋值为1,反之则赋值为0;在窗口内随机选取N对像素点,重复进行比较赋值的步骤,可以形成一个二进制编码,这个编码就是对图像特征点的描述,即图像特征点对应的描述子。
步骤S132:基于所述真实样本图像对所标注的变换关系,所述第一真实样本图像的第一图像特征点及其对应的第一描述子,以及所述第二真实样本图像的第二图像特征点及其对应的第二描述子,获取损失值。
在本申请实施例中,初始检测模型可以得到真实样本图像对中两张真实样本图像中的特征点及其对应的描述子,进而基于第一图像特征点及其对应的描述子,以及第二图像特征点及其对应的描述子,得到第一真实样本图像中的第一图像特征点在第二真实样本图像中对应的第二图像特征点。而由于初始检测模型对特征点的检测并不能完全准确,因此,服务器还可以基于真实样本图像对所标注的图像特征点之间的转换关系,对第一真实样本图像中的第一图像特征点进行变换,得到变换后的第一图像特征点。基于变换后的第一图像特征点,以及初始检测模型得到的与第一图像特征点对应的第二图像特征点,可以确定初始检测模型的损失值。
在一些实施方式中,如图4所示,步骤S132中获取损失值可以通过以下方式:
步骤S1321:基于所述第一图像特征点对应的第一描述子,以及所述第二图像特征点对应的第二描述子,确定所述第一图像特征点所匹配的第二图像特征点。
在本申请实施例中,在一个真实样本图像对中,初始检测模型可以获得第一真实样本图像的图像特征点及其对应的描述子,以及第二真实样本图像的图像特征点及其对应的描述子。其中第一真实样本图像可以是由第二真实样本图像通过单应变换得到的图像,因此,第一真实样本图像中的所有图像特征点,必定可以在第二真实样本图像中获得一个对应的图像特征点。由此,服务器可以基于对每个图像特征点进行描述的描述子,确定第一真实样本图像与第二真实样本图像之间图像特征点的对应关系,即确定与第一图像特征点所匹配的第二图像特征点。值得注意的是,此时确定的与第一图像特征点匹配的第二图像特征点,是基于初始检测模型得到的描述子确定的,而由于初始检测模型的结果尚不具有十分的准确度,因此服务器可以通过真实样本图像对所标注的图像特征点之间的转换关系,得到一个准确的图像特征点之间的匹配关系,用以确定初始检测模型的损失值。
步骤S1322:基于所述变换关系,对所述第一图像特征点进行变换,得到变换后的所述第一图像特征点。
在本申请实施例中,服务器在基于第一图像特征点对应的描述子,以及第二图像特征点对应的描述子,确定了通过初始检测模型得到的,第一图像特征点所匹配的第二图像特征点后,可以通过真实样本图像对所标注的图像特征点之间的变换关系,得到变换后的第一图像特征点。其中,变换后的第一图像特征点可以与第二真实样本图像中的一个图像特征点重合,表明第二真实样本图像中的第二图像特征点可以通过变换关系基于第一真实样本图像中的第一图像特征点变换得到。值得注意的是,第二真实样本图像是第一真实样本图像通过单应变换后得到的图像,在单应变换的过程中,还可以得到第一真实样本图像中的第一图像特征点与第二真实样本图像中的第二图像特征点之间变换关系的变换关系,即单应矩阵。此时,服务器基于变换关系,对第一图像特征点进行变换,所得到的变换后的第一图像特征点,是第一图像特征点在第二真实样本图像中的准确对应点,不存在基于检测模型出现误差等情况。
步骤S1323:基于变换后的所述第一图像特征点,与所述第一图像特征点所匹配的第二图像特征点之间的距离,确定损失值。
在本申请实施例中,由上述分析可知,基于变换关系得到的变换后的第一图像特征点,是准确的第一图像特征点在第二真实样本图像中对应的图像特征点,而第一图像特征点所匹配的第二图像特征点,是基于初始检测模型得到的第一图像特征点在第二真实样本图像中对应的图像特征点,有一定的存在误差的可能性。因此,服务器可以基于变换后的第一图像特征点,与第一图像特征点所匹配的第二图像特征点之间的距离,确定初始检测模型的损失值。
在另一些实施方式中,也可以基于所述第一图像特征点对应的第一描述子,以及所述第二图像特征点对应的第二描述子,确定所述第一图像特征点所匹配的第二图像特征点;然后基于第一图像特征点,以及第一图像特征点所匹配的第二图像特征点,建立图像特征点之间的转换关系;再根据建立的转换关系,与真实样本图像对所标注的转换关系之间的差异,确定损失值。
步骤S133:基于所述损失值,对所述初始检测模型进行迭代训练,得到训练后的特征点检测模型。
在本申请实施例中,损失值可以在一定程度上表示初始检测模型获得输入拍摄图像的图像特征点的准确性,而最终确定结束训练,将训练后的模型作为特征点检测模型的判断标准,可以是最终的损失值小于预设值,可以是损失值逐渐趋近于一个固定值不再发生变化,也可以是对初始检测模型的训练次数达到一定的数值,认为初始检测模型已经收敛。
在一些实施方式中,服务器在获得训练后的特征点检测模型后,可以将特征点检测模型发送至车辆,由此,车辆可以在检测开门动作时,利用特征点检测模型进行图像特征点的检测,由于特征点检测模型通过非监督学习的方式训练后,再通过标注有图像特征点之间的变换关系的样本图像对训练得到,因此利用特征点检测模型能够实现检测开门动作时对拍摄图像中的图像特征点的准确识别。
本申请实施例提供的模型训练方法,通过获取的虚拟图像集以及真实图像集,基于虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。由此,通过虚拟图像集对初始神经网络进行非监督的训练,以及基于真实图像集进一步进行监督训练,使训练后的模型对输入图像的特征点的检测更加准确,由此使基于训练后的特征点检测模型进行特征点追踪结果更加准确。下面将结合附图具体描述本申请实施例提供的开门动作检测方法。
请参阅图5,图5示出了本申请一个实施例提供的开门动作检测方法的流程示意图,下面将针对图5所示流程进行详细阐述,所述开门动作检测方法具体可以包括以下步骤:
步骤S210:获取针对预设区域拍摄得到的连续多帧拍摄图像。
在本申请实施例中,计算机设备可以通过获取在相同的预设区域内的连续多帧的拍摄图像,以基于多帧拍摄图像中的相同特征点,判断预设区域内是否存在开门动作。可以理解地,在一个连续时间段内,计算机设备可以针对预设区域获取多帧连续的拍摄图像。因此,为准确地识别和追踪这个时间段内的物体的位移大小,计算机设备可以获取针对预设区域拍摄得到的连续多帧拍摄图像,用以基于多帧拍摄图像中的相同特征点,判断物体的位移大小是否符合预设条件。其中,计算机设备可以通过其自身设置的摄像头获取预设区域内的连续多帧拍摄图像,也可以通过设置有摄像头的外部设备获取预设区域内的连续多帧拍摄图像其中,摄像头可以是鱼眼摄像头等,在此不做限定。
在一些实施方式中,所述连续多帧拍摄图像,可以是计算机设备获取的时间连续的多帧拍摄图像,即相邻帧的拍摄图像对应的时间点是连续的;连续多帧拍摄图像还可以是在外部硬件设备获取多帧时间连续的拍摄图像后,按照相同的时间间隔抽取出来的部分拍摄图像,将其按照时间顺序排列并作为最终计算机设备判断开门动作的所述连续多帧拍摄图像。如在5秒的时间段内,外部硬件设备能够获取连续的500帧拍摄图像,但为减少计算量,计算机设备可以每5帧抽取1帧拍摄图像作为最终判断是否存在开门动作的连续多帧拍摄图像。此时计算机设备获取的连续100帧拍摄图像中,虽然相邻帧的拍摄图像对应的时间点实际并不连续,但由于相邻帧的拍摄图像中相同特征点的位移矢量较小,因此仍能够通过本申请实施例提供的方法进行检测。步骤S220:基于预先训练的特征点检测模型,获取所述多帧拍摄图像中每帧拍摄图像的图像特征点,所述特征点检测模型根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到。
在本申请实施例中,计算机设备可以通过预先训练的特征点检测模型,获取连续多帧拍摄图像中每帧拍摄图像中的图像特征点,用以在多帧拍摄图像之中得到相同的图像特征点的位移矢量,判断预设区域中是否存在开门动作。可以理解地,预先训练的特征点检测模型用于获取输入拍摄图像中的图像特征点的位置坐标。
具体来说,特征点检测模型是基于样本图像对,对初始检测模型进行监督学习的方式训练得到的,即通过已知转换关系的样本图像对,对初始检测模型训练得到最优的特征点检测模型。其中,对特征点检测模型进行训练的样本图像对是指被标注有图像特征点之间的变换关系的一对样本图像,也就是说,若已知样本图像对中的其中一张样本图像上的特征点的位置坐标,就可以通过相应的转换关系得到样本图像对中另一张样本图像上相同特征点的对应位置坐标。
其中,初始检测模型可以是对初始神经网络进行训练得到的,而初始检测模型是通过非监督学习的方式训练得到,也就是说,对初始神经网络进行训练的输入样本图像没有被标记确定的特征点,初始神经网络需要根据输入样本图像之间的相似性对其进行聚类,以使类内差距最小化,类间差距最大化。
在一些实施方式中,计算机设备在获取多帧拍摄图像中每帧拍摄图像的图像特征点之前,还可以接收服务器发送的预先训练的特征点检测模型,并基于特征点检测模型获取每帧拍摄图像的图像特征点,由此使计算机设备得到的图像特征点更加准确,进而使对拍摄图像中的动作检测更加精准。
在一些实施方式中,初始检测模型可以识别得到样本图像对的两张样本图像中的图像特征点,并且由于样本图像对被标注了图像特征点之间的对应关系,因此可以基于该对应关系,以及初始检测模型对样本图像对的识别结果,确定损失值,并基于该损失值对初始检测模型的模型参数进行更新。由于样本图像对被标注的转换关系为准确的标签,因此基于此计算的损失值能够约束模型训练过程中能够准确地更新模型参数,即进行有效的监督学习训练。
在一些实施方式中,特征点检测模型获取的拍摄图像中的图像特征点可以是图像的角点,即二维图像亮度变化剧烈的点或图像边缘曲线上曲率极大值点,这些点在保留图像图形重要特征的同时,可以有效地减少信息的数据量,提高计算速度,减少占用资源。在特征点检测模型中,角点检测算法可以是基于灰度图像的角点检测、基于二值图像的角点检测,也可以是基于轮廓曲线的角点检测,在此不做限定。其中,可以通过FAST角点检测算子提取输入图像中的角点作为特征点,即以中心像素点p为圆心,在半径为3.4pixel的圆上获取12个像素点的像素值,比较这12个像素点的像素值与中心像素点p的像素值,若满足预设数值条件,则判断中心像素点p为输入图像的一个特征点。
一些实施方式中,特征点检测模型获取的拍摄图像中的图像特征点还可以是图像中的边缘点、交叉点或闭区域的中心点等。其中对边缘点的提取算法可以是基于小波变换的算法,其适应性和抗噪性强,提取的特征点能有效实现匹配,还可以基于金字塔结构的方法逐层提取和映射,减少计算量。
步骤S230:获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对前一帧拍摄图像的所述图像特征点之间的光流矢量,得到多个光流矢量。
在本申请实施例中,计算机设备在通过预先训练的特征点检测模型,获取每帧拍摄图像中的所有特征点后,可以基于当前帧拍摄图像中的图像特征点,查找下一帧拍摄图像中与之相对应的图像特征点,获取在相邻两帧拍摄图像中相同图像特征点之间的光流矢量,进而得到多个拍摄图像中所有相邻拍摄图像之间的多个光流矢量,用以基于多个光流矢量之和,判断预设区域内是否存在开门动作。其中,光流是图像亮度的运动信息描述,是指在一个相同的视角下,一个物体、表面、边缘和背景之间形成的明显移动,用以评估两幅图像之间的变形。
可以理解地,每帧拍摄图像对应有一个时间点,多帧拍摄图像中的第一帧拍摄图像对应的时间可以为起始时间,最后一帧拍摄图像对应的时间可以为终止时间,多个光流矢量之和可以表征在第一帧拍摄图像到最后一帧拍摄图像之间的时间段内,相同图像特征点的位移矢量。
在一些实施方式中,计算机设备得到的每相邻两帧拍摄图像之间相同特征点的光流矢量,可以将前一帧拍摄图像中的任一图像特征点的位置坐标为起点,将相邻下一帧拍摄图像中相同图像特征点的位置坐标作为光流矢量的终点,将从起点指向终点的光流矢量作为该图像特征点在后一帧拍摄图像中相对于前一阵拍摄图像中的光流矢量。
在一些实施方式中,计算机设备可以获取每相邻拍摄图像中所有像素点对应的光流矢量,即在下一帧拍摄图像中找到前一帧拍摄图中每个像素点对应的相同像素点的位置坐标。显然,为减少获取光流矢量的计算量,计算机设备也可以获取每相邻拍摄图像中具有代表性的角点对应的光流矢量。
在一些实施方式中,如图6所示,步骤S230中获得多个光流矢量可以通过如下方式:
步骤S231:获取多帧拍摄图像分别对应的图像金字塔;
在本申请实施例中,通过稀疏光流法获取相同图像特征点在相邻两帧拍摄图像之间的光流矢量,需要预先设定环境条件:一是亮度恒定。即拍摄图像中的图像特征点在帧间运行时像素值保持不变。二是时间连续或者运动是小运动。即拍摄图像中的图像特征点随时间的变化比较缓慢。三是邻域内光流一致。在图像特征点的邻域内,所有像素点的运动是一致的。满足上述三个前提,才可以利用稀疏光流法获得相邻两帧拍摄图像中相同图像特征点的光流矢量。但通常情况下,若相邻两帧拍摄图像中图像特征点的运动位移较大(运动快速)时,算法可能会出现较大误差,因此,可以通过获取多帧拍摄图像对应的图像金字塔的方式,缩小拍摄图像的尺寸,以减少图像特征点的运动位移,用以使其符合上述设定条件,进而能够使用稀疏光流法计算相同图像特征点之间的光流矢量,避免出现因图像特征点的移动速度过快导致无法对其进行追踪,提高对图像特征点的跟踪准确性。
具体来说,将获取的原始尺寸的拍摄图像作为图像金字塔的底层,将该拍摄图像进行下采样,分别得到图像尺寸为原始尺寸的1/4、1/16、1/64的多张新的图像,并按照图像尺寸的大小依次确定为图像金字塔的上层。图像金字塔可以为3层,可以理解地,最上层的图像尺寸最小,其中图像特征点的位移也会相应变小,越往下层的图像尺寸变大,图像特征点的位移也相应变大。分解下采样的标准,金字塔中的上层图像(低分辨率)中的一个像素可以代表下层图像中的两个像素。对于每一帧拍摄图像都可以建立一个图像金字塔,用以基于相邻两帧拍摄图像分别对应的图像金字塔,得到后一帧拍摄图像的图像特征点相对于前一帧拍摄图像的图像特征点之间的光流矢量。
步骤S232:基于所述图像金字塔的稀疏光流法,获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对于前一帧拍摄图像的所述图像特征点之间的光流矢量。
在本申请实施例中,计算机设备在建立多帧拍摄图像分别对应的图像金字塔后,可以基于相邻两帧拍摄图像分别对应的图像金字塔,获取后一帧拍摄图像中的图像特征点相对于前一帧拍摄图像中的图像特征点之间的光流矢量,进而获得多帧拍摄图像中每相邻两帧拍摄图像之间的多个光流矢量,用以基于多个光流矢量之和判断预设区域内是否存在开门动作。
具体来说,在相邻两帧拍摄图像分别对应的图像金字塔中,可以从顶层开始计算该层对应的光流矢量,假设图像金字塔有4层,底层图像即原始尺寸的拍摄图像处于L4层,往上每层均是基于底层进行下采样得到的图像,顶层图像为L1层:预先设定顶层图像L1层的光流初始值gL1=[0 0]T,并计算得到相邻两帧拍摄图像分别对应的图像金字塔中的两个顶层图像之间的光流计算值dL1。其中,图像金字塔中的每层图像对应的光流初始值gL与光流计算值dL之和为该层图像对应的光流精确值d,即d=gL+dL。也就是说,顶层的光流精确值d=gL1+dL1,将顶层图像的光流精确值d的两倍作为相邻下一层图像对应的光流初始值gL2,即gL2=2*(gL1+dL1)。再次计算得到该层图像的光流计算值dL2以及光流精确值d,依次进行迭代计算,最终可以得到图像金字塔的底层图像对应的光流精确值d=gL3+dL3,即后一帧拍摄图像中的图像特征点相对于前一帧拍摄图像中的图像特征点之间的光流矢量。最终计算结果也可以表示为:d=gL3+dL3,即图像金字塔各层得到的光流计算值之和。例如,通过特征点检测模型得到前一帧拍摄图像中的图像特征点u,以及相邻两帧拍摄图像中图像特征点u的光流矢量d,则下一帧拍摄图像中u对应的图像特征点v=u+d。
其中,由于图像金字塔的缩放减小了光流值,图像金字塔中的顶层图像的光流初始值可以为0,相邻两帧拍摄图像分别对应的图像金字塔的各层图像之间的光流计算值,可以通过利用最小二乘法,求邻域内匹配误差和的导数,在最优解处,导数为0,即匹配误差和最小,此时图像特征点之间的相似度最高,可以得到图像金字塔对应的每层图像中每个图像特征点的光流计算值。
步骤S240:若所述多个光流矢量之和满足预设矢量条件,则确定所述预设区域内存在开门动作。
在本申请实施例中,在获取每相邻两帧拍摄图像分别对应的图像特征点之间的多个光流矢量后,可以将多个光流矢量相加,得到在一个时间段内,从第一帧拍摄图像到最后一帧拍摄图像中,相同特征点的完整位移矢量,此时计算机设备可以根据这个完整位移矢量,判断在第一帧拍摄图像到最后一帧拍摄图像对应的时间段内,预设区域内是否存在开门动作。可以理解地,计算机设备可以根据多帧拍摄图像得到多个光流矢量之和,同时在多帧拍摄图像中,每帧拍摄图像必然对应一个时间点,所述多个光流矢量之和,也正对应着多帧拍摄图像中第一帧拍摄图像至最后一帧拍摄图像之间时间段。多个光流矢量之和,也就是将第一帧拍摄图像中图像特征点的位置坐标作为起点,将最后一帧拍摄图像中相同图像特征点的位置坐标作为终点,形成的矢量。
在一些实施方式中,预设矢量条件可以是多个光流矢量之和在预设方向的位移分量大于预设数值,具体来说,可以以多个光流矢量之和的起点作为坐标原点建立坐标系,得到该矢量在X轴方向的分量大小或者在Y轴方向的分量大小,若大于预设数值,则判断多个光流矢量之和满足预设矢量条件,进而确定预设区域内存在开门动作。
在一些实施方式中,预设矢量条件还可以是多个不同图像特征点分别对应的光流矢量之和,在预设方向的位移分量大于预设数值,由此可以避免对单一图像特征点的光流矢量之和计算出错导致动作识别出现错误的情况。可选地,多个不同图像特征点的数量可以大于预设数量,预设数量的具体数值可以不做限定。
步骤S250:调整所述预设区域对应的车门的开闭状态,所述开闭状态包括开启状态以及关闭状态。
在本申请实施例中,计算机设备在确定预设区域内存在开门动作后,可以确定预设区域对应的车门的开闭状态,若当前车门为开启状态,则可以基于预设区域内的开门动作,改变车门的当前状态,即控制车门关闭,若当前车门为关闭状态,则可以基于预设区域内的开门动作,控制车门关闭。
本申请实施例提供的开门动作检测方法,通过获取针对预设区域拍摄得到的连续多帧拍摄图像;基于预先训练的特征点检测模型,获取多帧拍摄图像中每帧拍摄图像的图像特征点;获取每相邻两帧拍摄图像中后一帧拍摄图像的图像特征点相对前一帧拍摄图像的图像特征点之间的光流矢量,得到多个光流矢量;若多个光流矢量之和满足预设矢量条件,则确定预设区域内存在开门动作。由于特征点检测模型通过非监督学习的方式训练后,再通过标注有图像特征点之间的变换关系的样本图像对训练得到,因此利用特征点检测模型能够实现对拍摄图像中的图像特征点的准确识别,并通过对识别出的图像特征点进行追踪,判断预设区域内是否存在有效的开门动作,进而能够准确识别用户的开门动作。
请参阅图7,其示出了本申请实施例提供的一种模型训练装置100的结构框图,该装置包括:样本获取模块110、第一训练模块120以及第二训练模块130。其中,样本获取模块110用于获取虚拟图像集以及真实图像集,虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;第一训练模块120用于基于虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;第二训练模块130用于基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。
作为一种可能的实施方式,第二训练模块130包括:图像检测单元、损失值确定单元以及训练单元。其中,图像检测单元用于基于所述初始检测模型,获取所述真实样本图像对中第一真实样本图像的图像特征点及其对应的描述子,并获取所述真实样本图像对中第二真实样本图像的图像特征点及其对应的描述子;损失值确定单元用于基于所述真实样本图像对所标注的变换关系,所述第一真实样本图像的第一图像特征点及其对应的第一描述子,以及所述第二真实样本图像的第二图像特征点及其对应的第二描述子,获取损失值;训练单元用于基于所述损失值,对所述初始检测模型进行迭代训练,得到训练后的特征点检测模型。
作为一种可能的实施方式,损失值确定单元还用于基于所述第一图像特征点对应的第一描述子,以及所述第二图像特征点对应的第二描述子,确定所述第一图像特征点所匹配的第二图像特征点;基于所述变换关系,对所述第一图像特征点进行变换,得到变换后的所述第一图像特征点;基于变换后的所述第一图像特征点,与所述第一图像特征点所匹配的第二图像特征点之间的距离,确定损失值。
作为一种可能的实施方式,数据集获取模块还用于获取多张真实样本图像;对每张真实样本图像进行单应变换,得到所述每张真实样本图像及其对应的单应变换后的图像所构成的真实样本图像对;基于所述每张真实样本图像与对应的单应变换后的图像之间的变换关系,针对所述真实样本图像对,标注图像特征点之间的变换关系。请参阅图8,其示出了本申请实施例提供的一种开门动作检测装置300的结构框图,该装置包括:图像获取模块310、特征点获取模块320、矢量获取模块330以及动作检测模块340,其中,图像获取模块310用于获取针对预设区域拍摄得到的连续多帧拍摄图像;特征点获取模块320用于基于预先训练的特征点检测模型,获取多帧拍摄图像中每帧拍摄图像的图像特征点,特征点检测模型根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,初始检测模型通过非监督学习的方式训练得到;矢量获取模块330用于获取每相邻两帧拍摄图像中后一帧拍摄图像的图像特征点相对前一帧拍摄图像的图像特征点之间的光流矢量,得到多个光流矢量;动作检测模块340用于若多个光流矢量之和满足预设矢量条件,则确定预设区域内存在开门动作。
作为一种可能的实施方式,矢量获取模块330还用于获取多帧拍摄图像分别对应的图像金字塔;基于所述图像金字塔的稀疏光流法,获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对于前一帧拍摄图像的所述图像特征点之间的光流矢量。
作为一种可能的实施方式,开门动作检测装置300还可以包括模型接收模块,用于接收服务器发送的预先训练的特征点检测模型,所述特征点检测模型由所述服务器根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到。
作为一种可能的实施方式,开门动作检测装置300还可以包括状态调整模块,用于调整所述预设区域对应的车门的开闭状态,所述开闭状态包括开启状态以及关闭状态。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请提供的模型训练方法中,通过获取虚拟图像集以及真实图像集,虚拟数据集包括多张由至少一种类型的线条所构成的虚拟样本图像,真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;基于虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;基于真实图像集中的真实样本图像对,对初始检测模型进行监督学习的训练,得到训练后的特征点检测模型。由于特征点检测模型通过非监督学习的方式训练后,再通过标注有图像特征点之间的变换关系的样本图像对训练得到,因此利用训练得到的特征点检测模型能够实现检测开门动作时对拍摄图像中的图像特征点的准确识别,进而能够准确识别用户的开门动作。
请参考图9,其示出了本申请实施例提供的一种计算机设备200的结构框图。计算机设备200可以为上述服务器、车辆等,本申请中的计算机设备200可以包括一个或多个如下部件:处理器210、存储器220、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器220中并被配置为由一个或多个处理器210执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器210可以包括一个或者多个处理核。处理器210利用各种接口和线路连接整个计算机设备内的各个部分,通过运行或执行存储在存储器220内的指令、程序、代码集或指令集,以及调用存储在存储器220内的数据,执行计算机设备的各种功能和处理数据。可选地,处理器210可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器210可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器210中,单独通过一块通信芯片进行实现。
存储器220可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器220可用于存储指令、程序、代码、代码集或指令集。存储器220可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图10,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种模型训练方法,其特征在于,所述方法包括:
获取虚拟图像集以及真实图像集,所述虚拟图像集包括多张由至少一种类型的线条所构成的虚拟样本图像,所述真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;
基于所述虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;
基于所述真实图像集中的真实样本图像对,对所述初始检测模型进行监督学习的训练,得到训练后的特征点检测模型;
所述真实图像集通过以下方式获得:
获取多张真实样本图像;
对每张真实样本图像进行单应变换,得到所述每张真实样本图像及其对应的单应变换后的图像所构成的真实样本图像对;
基于所述每张真实样本图像与对应的单应变换后的图像之间的变换关系,针对所述真实样本图像对,标注图像特征点之间的变换关系。
2.根据权利要求1所述的方法,其特征在于,所述基于所述真实图像集中的真实样本图像对,对所述初始检测模型进行监督学习的训练,包括:
基于所述初始检测模型,获取所述真实样本图像对中第一真实样本图像的图像特征点及其对应的描述子,并获取所述真实样本图像对中第二真实样本图像的图像特征点及其对应的描述子;
基于所述真实样本图像对所标注的变换关系,所述第一真实样本图像的第一图像特征点及其对应的第一描述子,以及所述第二真实样本图像的第二图像特征点及其对应的第二描述子,获取损失值;
基于所述损失值,对所述初始检测模型进行迭代训练,得到训练后的特征点检测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述真实样本图像对所标注的变换关系,所述第一真实样本图像的第一图像特征点及其对应的第一描述子,以及所述第二真实样本图像的第二图像特征点及其对应的第二描述子,获取损失值,包括:
基于所述第一图像特征点对应的第一描述子,以及所述第二图像特征点对应的第二描述子,确定所述第一图像特征点所匹配的第二图像特征点;
基于所述变换关系,对所述第一图像特征点进行变换,得到变换后的所述第一图像特征点;
基于变换后的所述第一图像特征点,与所述第一图像特征点所匹配的第二图像特征点之间的距离,确定损失值。
4.一种开门动作检测方法,其特征在于,所述方法包括:
获取针对预设区域拍摄得到的连续多帧拍摄图像;
基于预先训练的特征点检测模型,获取所述多帧拍摄图像中每帧拍摄图像的图像特征点,所述特征点检测模型根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到;
获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对前一帧拍摄图像的所述图像特征点之间的光流矢量,得到多个光流矢量;
若所述多个光流矢量之和满足预设矢量条件,则确定所述预设区域内存在开门动作。
5.根据权利要求4所述的方法,其特征在于,所述获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对前一帧拍摄图像的所述图像特征点之间的光流矢量,得到多个光流矢量,包括:
获取多帧拍摄图像分别对应的图像金字塔;
基于所述图像金字塔的稀疏光流法,获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对于前一帧拍摄图像的所述图像特征点之间的光流矢量。
6.根据权利要求4所述的方法,其特征在于,在所述基于预先训练的特征点检测模型,获取所述多帧拍摄图像中每帧拍摄图像的图像特征点之前,所述方法还包括:
接收服务器发送的预先训练的特征点检测模型,所述特征点检测模型由所述服务器根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到。
7.根据权利要求4-6任一项所述的方法,其特征在于,在所述若所述多个光流矢量之和满足预设矢量条件,则确定所述预设区域内存在开门动作之后,所述方法还包括:
调整所述预设区域对应的车门的开闭状态,所述开闭状态包括开启状态以及关闭状态。
8.一种模型训练装置,其特征在于,所述装置包括:样本获取模块、第一训练模块、第二训练模块以及图像获取模块,其中,
所述样本获取模块用于获取虚拟图像集以及真实图像集,所述虚拟图像集包括多张由至少一种类型的线条所构成的虚拟样本图像,所述真实图像集包括多个被标注有图像特征点之间的变换关系的真实样本图像对;
所述第一训练模块用于基于所述虚拟图像集中的虚拟样本图像,对初始神经网络进行非监督学习的训练,得到初始检测模型;
所述第二训练模块用于基于所述真实图像集中的真实样本图像对,对所述初始检测模型进行监督学习的训练,得到训练后的特征点检测模型;
所述图像获取模块用于获取多张真实样本图像;对每张真实样本图像进行单应变换,得到所述每张真实样本图像及其对应的单应变换后的图像所构成的真实样本图像对;基于所述每张真实样本图像与对应的单应变换后的图像之间的变换关系,针对所述真实样本图像对,标注图像特征点之间的变换关系。
9.一种开门动作检测装置,其特征在于,所述装置包括:图像获取模块、特征点获取模块、矢量获取模块以及动作检测模块,其中,
所述图像获取模块用于获取针对预设区域拍摄得到的连续多帧拍摄图像;
所述特征点获取模块用于基于预先训练的特征点检测模型,获取所述多帧拍摄图像中每帧拍摄图像的图像特征点,所述特征点检测模型根据被标注有图像特征点之间的变换关系的样本图像对,对初始检测模型训练得到,所述初始检测模型通过非监督学习的方式训练得到;
所述矢量获取模块用于获取每相邻两帧拍摄图像中后一帧拍摄图像的所述图像特征点相对前一帧拍摄图像的所述图像特征点之间的光流矢量,得到多个光流矢量;
所述动作检测模块用于若所述多个光流矢量之和满足预设矢量条件,则确定所述预设区域内存在开门动作。
10.一种计算机设备,其特征在于,所述计算机设备包括,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210503300.6A CN115223002B (zh) | 2022-05-09 | 2022-05-09 | 模型训练方法、开门动作检测方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210503300.6A CN115223002B (zh) | 2022-05-09 | 2022-05-09 | 模型训练方法、开门动作检测方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115223002A CN115223002A (zh) | 2022-10-21 |
CN115223002B true CN115223002B (zh) | 2024-01-09 |
Family
ID=83607805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210503300.6A Active CN115223002B (zh) | 2022-05-09 | 2022-05-09 | 模型训练方法、开门动作检测方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115223002B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160290A (zh) * | 2015-07-03 | 2015-12-16 | 东南大学 | 一种基于改进型稠密轨迹的移动边界采样的行为识别方法 |
CN110428522A (zh) * | 2019-07-24 | 2019-11-08 | 青岛联合创智科技有限公司 | 一种智慧新城的智能安防系统 |
WO2020145605A1 (ko) * | 2019-01-07 | 2020-07-16 | 기초과학연구원 | 인공신경망을 이용한 특수 현미경 영상 생성 방법 및 영상 처리 장치 |
CN111723708A (zh) * | 2020-06-09 | 2020-09-29 | 杭州古德微机器人有限公司 | 一种基于深度学习的厢式货车厢门状态识别装置与系统 |
CN112329735A (zh) * | 2020-11-30 | 2021-02-05 | 姜培生 | 人脸识别模型的训练方法及在线教育系统 |
CN112639846A (zh) * | 2021-02-07 | 2021-04-09 | 华为技术有限公司 | 一种训练深度学习模型的方法和装置 |
CN113177566A (zh) * | 2021-05-26 | 2021-07-27 | 全球能源互联网研究院有限公司 | 一种特征提取模型训练方法、装置及计算机设备 |
CN113435431A (zh) * | 2021-08-27 | 2021-09-24 | 北京市商汤科技开发有限公司 | 姿态检测方法、神经网络模型的训练方法、装置及设备 |
CN114049496A (zh) * | 2021-11-10 | 2022-02-15 | 浙江商汤科技开发有限公司 | 一种特征检测方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784751A (zh) * | 2021-01-22 | 2021-05-11 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、设备以及介质 |
-
2022
- 2022-05-09 CN CN202210503300.6A patent/CN115223002B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160290A (zh) * | 2015-07-03 | 2015-12-16 | 东南大学 | 一种基于改进型稠密轨迹的移动边界采样的行为识别方法 |
WO2020145605A1 (ko) * | 2019-01-07 | 2020-07-16 | 기초과학연구원 | 인공신경망을 이용한 특수 현미경 영상 생성 방법 및 영상 처리 장치 |
CN110428522A (zh) * | 2019-07-24 | 2019-11-08 | 青岛联合创智科技有限公司 | 一种智慧新城的智能安防系统 |
CN111723708A (zh) * | 2020-06-09 | 2020-09-29 | 杭州古德微机器人有限公司 | 一种基于深度学习的厢式货车厢门状态识别装置与系统 |
CN112329735A (zh) * | 2020-11-30 | 2021-02-05 | 姜培生 | 人脸识别模型的训练方法及在线教育系统 |
CN112639846A (zh) * | 2021-02-07 | 2021-04-09 | 华为技术有限公司 | 一种训练深度学习模型的方法和装置 |
CN113177566A (zh) * | 2021-05-26 | 2021-07-27 | 全球能源互联网研究院有限公司 | 一种特征提取模型训练方法、装置及计算机设备 |
CN113435431A (zh) * | 2021-08-27 | 2021-09-24 | 北京市商汤科技开发有限公司 | 姿态检测方法、神经网络模型的训练方法、装置及设备 |
CN114049496A (zh) * | 2021-11-10 | 2022-02-15 | 浙江商汤科技开发有限公司 | 一种特征检测方法、装置、计算机设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
Deep learning Based Car Damage classification;Kalpesh Patil;《IEEE》;第1-7页 * |
一种汽车驾驶行为的数据分析方法;张志德;《科技视界》(第第2017年01期期);第173-174页 * |
基于YOLOv2-Tiny的环视实时车位线识别算法;何俏君;《汽车电器》(第第2020年09期期);第1-5页 * |
基于改进梯形网络的半监督图像分类研究;贾鹏;《中国优秀硕士学位论文全文数据库》(第第2021年04期期);I138-767 * |
基于生成对口网络的精准图像检索方法研究;杨照宇;《中国优秀硕士学位论文全文数据库》(第第2019年09期期);I138-1142 * |
Also Published As
Publication number | Publication date |
---|---|
CN115223002A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427905B (zh) | 行人跟踪方法、装置以及终端 | |
EP3274921B1 (en) | Multi-layer skin detection and fused hand pose matching | |
CN108388879B (zh) | 目标的检测方法、装置和存储介质 | |
US8989455B2 (en) | Enhanced face detection using depth information | |
US10445602B2 (en) | Apparatus and method for recognizing traffic signs | |
CN109118473B (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
CN109684959B (zh) | 基于肤色检测和深度学习的视频手势的识别方法及装置 | |
CN110807491A (zh) | 车牌图像清晰度模型训练方法、清晰度检测方法及装置 | |
CN107480585B (zh) | 基于dpm算法的目标检测方法 | |
WO2012139241A1 (en) | Hand gesture recognition system | |
CN104049754A (zh) | 实时手跟踪、姿态分类和界面控制 | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
WO2019171628A1 (en) | Image processing system and image processing method | |
CN110097050B (zh) | 行人检测方法、装置、计算机设备及存储介质 | |
CN112784712B (zh) | 一种基于实时监控的失踪儿童预警实现方法、装置 | |
CN111435436B (zh) | 一种基于目标位置的周界防入侵方法和装置 | |
CN108647597B (zh) | 一种手腕识别方法、手势识别方法、装置和电子设备 | |
CN114693661A (zh) | 一种基于深度学习的快速分拣方法 | |
CN112364873A (zh) | 弯曲文本图像的文字识别方法、装置及计算机设备 | |
CN112164115A (zh) | 物体位姿识别的方法、装置及计算机存储介质 | |
CN109325539B (zh) | 绝缘子掉串检测方法及装置 | |
CN110610123A (zh) | 一种多目标车辆检测方法、装置、电子设备及存储介质 | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN107886093B (zh) | 一种字符检测方法、系统、设备及计算机存储介质 | |
CN116994049A (zh) | 全自动针织横机及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |