CN110909625A

CN110909625A - 一种计算机视觉基础网络训练识别构建方法及装置

Info

Publication number: CN110909625A
Application number: CN201911064381.9A
Authority: CN
Inventors: 向仲宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-03-24

Abstract

一种计算机视觉基础网络训练识别构建方法，包括如下步骤：收集样本：采集摄像头采集的视频信息，并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应；训练：截取一定时间长度内的视频帧及对应的角度和轨迹信息作为样本信息，构建深度学习网络并输入样本信息进行训练；进行识别。本发明还公开了一种计算机视觉基础网络训练识别样本采集装置，包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。本发明不再需要手动对数据标注，可以快速低成本生成大规模数据集，模型可以根据采集图像的轨迹和角度变化自动预测后续时间的图像，并合成三维空间，可以广泛用于自动驾驶，空间生成等需要生成、感知三维空间的应用情形上。

Description

一种计算机视觉基础网络训练识别构建方法及装置

技术领域

本发明属于图像识别领域，涉及人工智能图像识别技术，具体涉及一种计算机视觉基础网络训练识别构建方法及装置。

背景技术

近年来随前深度学习技术兴起，计算机视觉利用深度学习技术也取得了长足的进步。在图像分类方面，计算机视觉的深度学习神经网络的学习能力已经在部分数据集中超过了人类；深度学习在计算机视觉的语义分割、关键节点检测、目标检测定位、人脸识别、自动驾驶等多个计算机视觉任务中都取得了非凡的成绩。同时我们也可以看出，取得的这些成绩主要来源于三个方面；第一、来源于算法和网络的改进，我们可以设计更精巧、更有效、更大、更深的网络，如：RESNET，FASTER-RCNN等，包含数千万的参数；第二、源自计算能力的大幅提升，现在的GPU，TPU服务器大大的提升了运算速度，使训练更大的网络成来可能；第三、来源于更多的训练数据，如IMAGENET,COCO，MINIST等数据集，其中IMAGENET包括上千万标注数据，但是标注数据需要花费非常多的人力物力。

现有技术中，需要花费巨大精力进行数据集的标注，可能在某一数据集中训练取得很好成绩的模型在另一数据集上并不能取得好的成绩，即模型只能在一定范围内适用即限入了局部最优。数据集最多也就可包括上千万张图像，然而人一天眼睛看到的图像以每秒30帧，16小时为例，就会有170万张，也就是最大的数据集相当于人看6天的图像量，可见采用标注方式的图像数据集的数量有限。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种计算机视觉基础网络训练识别构建方法及装置。

本发明所述计算机视觉基础网络训练识别构建方法，其特征在于，包括如下步骤：

收集样本：采集摄像头采集的视频信息，并对摄像头的拍摄角度和移动轨迹信息进行实时纪录并与视频信息中的各帧画面对应；

训练：截取某一时间点前或后一定时间长度内的视频帧及对应的角度和轨迹信息作为网络输入，选取这一时间点后或前一定时间内的某一视频帧作为网络输出参照图像，构建深度学习网络并输入样本信息进行训练；

识别：根据训练得到的深度学习网络，输入视频信息及对应的拍摄角度和移动轨迹信息，进行识别构建。

优选的，所述深度学习网络为卷积层、循环层、激活函数、归一化层、全联接层中的一种或多种结合组成。

优选的，所述训练的具体方式为：设置损失函数为根据样本信息训练得到的输出信息与相同时间的实际图像的差值；所述输出信息的时间点不在样本信息的时间范围内；

输入样本训练目标为损失函数最小。

优选的，还包括训练中的优化步骤，所述优化函数包括但不限于SGD,Adagrad,Adadelta,Adam。

优选的，所述训练和识别步骤中，输入信息时一并输入待输出图像的位移信息。

优选的，所述损失函数为以下任意一种：

网络输出图像与对应真实图像总体像素差值绝对值之和；

网络输出图像与对应真实图像特定区域的像素差值绝对值之和，所述特定区域为图像中容易识别的部分，如颜色与轮廓突出部分;

将图像分块，计算每个方块内的像素平均值，然后求网络输出图像与对应真实图像的每个对应块的平均值差的绝对值和。

优选的，所述识别步骤中，根据输入的视频信息，采用如下方式进行输出图形的构建：

记录输入视频信息中各个位置点的坐标及角度变化；

通过连续视频帧中关键位置点的坐标及角度变化规律，得出输出图形的对应位置点的坐标。

本发明还公开了一种计算机视觉基础网络训练识别装置，其特征在于，包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。

优选的，所述设备为陀螺仪、速度仪等能读取物体位移、角度变化的设备。

优选的，所述摄像头为多个，所述设备数量少于摄像头数量，还包括计算器，所述计算器可根据设备直接采集的某些摄像头拍摄角度和轨迹计算出未直接采集的摄像头拍摄角度和轨迹信息。

本发明还公开了一种计算机视觉基础网络训练识别装置，包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。

优选的，所述设备为陀螺仪。

采用本发明所述计算机视觉基础网络训练识别构建方法及装置，不需要手动对数据标注，只需要记录录入设备的数据，可以快速低成本生成大规模数据集，从而为深度学习生成海量训练样本。同时因为移动轨迹和拍摄角度可以使模型学习到摄像头角度和轨迹变化的图像变化规律，方便模型可以根据轨迹和角度变化预测出后续图像并进行判断，可以广泛用于自动驾驶，空间生成等对识别速度有一定要求的应用情形上。

附图说明

图1为本发明采集样本的一种具体实施方式示意图；

图2为根据采集样本进行训练后的输出信息的一个具体实例。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

识别：根据训练得到的深度学习网络，输入视频信息及对应的拍摄角度和移动轨迹信息，进行识别。

进行图像的样本采集时，可以基于这样一种计算机视觉基础网络训练识别装置，包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备，所述设备可以为陀螺仪或其它设备。

设备上可以设置一个摄像头与一个陀螺仪相配合，也可以采用多个摄像头和一个陀螺仪配合，如可以采用保持固定间距的双摄像头或更多摄像头，但只有一个或部分摄像头具有配合的陀螺仪，也就是摄像头数与陀螺仪数不相等，此时可以通过设置在所述计算机视觉基础网络训练识别装置的计算器，根据设备直接采集的某些摄像头拍摄角度和轨迹，计算出未直接采集的摄像头拍摄角度和轨迹信息；得到全部摄像头的轨迹和拍摄角度信息。

采集中，拍摄的图像由多个帧画面组成，每一帧都应对应纪录相同时刻的地理坐标和拍摄角度。

收集样本完成后得到的数据集可以不再进行数据标注；

建立深度学习网络，深度学习网络的输入可以为前T1时间段里用于采集的多个摄像头视频数据及相应的轨迹角度信息；也可以选取拍摄过程中间T1时间段里的摄像头视频数据及相应的轨迹角度信息，可以只输入一个摄像头拍摄的信息，也可以输入多个摄像头拍摄的信息。

视频数据可以取时间上连续的若干帧，也可以间隔选择若干帧，例如每一秒只选择3帧。

构建的深度学习网络采用现有技术构建，例如可以包括卷积层、循环层、激活函数、归一化层、全联接层中的一种或多种组合而成。

以RNN神经网络模型训练为例，典型训练过程如下式所示：

输入向量x 为向量矩阵X（t）,输出向量为O，s表示隐藏层输出，U表示输入样本的权重，W表示前面时刻的输出对当前样本的影响权重、V表示输出的样本权重，t-1, t, t+1表示时间序列。

在t=1时刻，一般初始化输入S0=0, 随机初始化W,U,V，然后进行如下计算：

f和g均为激活函数. 其中f可以是tanh,relu,sigmoid等激活函数，g通常是softmax函数或其他函数。

然后进入下一时刻的预测，上一时刻的隐藏层输出S1将作为下一层的记忆状态，用于预测O2的计算。当t=2时：

以此类推，直到得到所有的输出值O。

训练方式可以是构建一个损失函数，损失函数反映训练结果与真实结果的误差。

损失函数可设定多种，但总的规则为不再需要额外进行标注。

例如设置损失函数为根据样本信息训练得到的输出信息与相同时间的实际图像的差值；所述输出信息的时间点不在样本信息的时间范围内；即输入样本和训练输出信息的时间段没有交集。输入样本训练目标为损失函数最小。

例如预测拍摄过程中T1 时间段之后的T2时间段内选取的多帧图像作为输出结果，将训练得到的图像像素值与同样时间点对应图像的真实图像像素的差值累加求和作为损失函数。

如图1所示，按照箭头方向为随时间推移的采集画面，图2为训练得到的图像，可以看出训练图像与真实样本之间存在的差距，但对于很多信息，训练样本上也有所体现，例如图案的整体布局，人物的位置，静止物体或姿势未显著变化的人体图案的图样，训练样本与真实图案并非完全迥异的图像，如果继续增大训练样本和训练时间，可以得到与真实图案更接近的输出信息。

也可以对选取的多帧图像，对其中的特定区域的图像像素值与同样时间点对应图像的真实图像像素的差值累加求和作为损失函数，所述特定区域为图像中容易识别的部分；如对比度最大的部分，如一张图中某个区域为红色，其他区域为黑色，则可选该红色区域作为特定区域进行训练和比对。损失函数也可以是并且可以把图像分成N乘N的小方块，计算每个方块内的像素平均值，然后求预测图和实际图像每个块内的平均值差的绝对值和。

在确定了深度学习网络的输入信息、输出信息和损失函数后，即可通过优化函数进行优化，优化目的是使训练得到的图像和真实图像差异不断缩小，具体的优化方法可为：SGD（随机梯度下降法，Stochastic gradient descent）、Adagrad、Adadelta、Adam等；优化到网络收敛后即得到更好的深度学习网络模型。

深度学习网络模型训练完成后，即可给定一个图像或视频输入和一个陀螺仪记录的位移信息，即可得到后面一定时间段内的若干图像，及输出图像图像对应的位移信息，从而可以方便的用来做行为预测或自动驾驶的预判。

在所述识别步骤中，根据输入的视频信息，可以采用如下方式进行输出图形的构建：

记录输入视频信息中各个位置点的坐标；

通过连续视频帧中关键位置点的坐标变化规律，得出输出图形的对应位置点的坐标。

例如连续输入十帧画面，通过这十帧画面的坐标变化，可以判断出拍摄者是在匀速直线前进，对这十帧画面中的各个位置点构建坐标系，如在第一帧图像对应的位置A中红色点位置为(x1,y1),在第二帧图像对应的位置B红色点位置为(x2,y2)，在第三帧图像对应的位置C中红色点位置为(x2,y2) (x3,y3)；则可通过A,B,C的位置关系和时间间隔，结合各帧图像显示是拍摄者匀速运动的同时，推导出后续画面中红色点在三张图中的位置计算出红色点的位置；并可通过这种方法计算出图中每个点的位置，从而生成整个画面，输入的样本画面越多，对图像的位置变化关系预测越精确。

本发明应用在自动驾驶情形时，通过输入图像和训练好的模型不断对后续时间行驶路线上的图像进行预测，可以预先识别出根据训练得到的可能的障碍物、路口等特征，加快自动驾驶的判断速度，相对于传统自动驾驶即时采集识别，提高了预判性。

采用本发明所述计算机视觉基础网络训练识别构建方法及装置，不需要手动对数据标注，只需要记录录入设备的数据，可以快速低成本生成大规模数据集，从而为深度学习生成海量训练样本。同时因为移动轨迹和拍摄角度可以使模型学习到摄像头角度和轨迹变化的图像变化规律，方便模型可以根据轨迹和角度变化提高识别速度而不再依赖于标注，可以广泛用于自动驾驶，空间生成等对识别速度有一定要求的应用情形上。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种计算机视觉基础网络训练识别构建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的计算机视觉基础网络训练识别构建方法，其特征在于，所述深度学习网络为卷积层、循环层、激活函数、归一化层、全联接层中的一种或多种结合组成。

3.如权利要求1所述的计算机视觉基础网络训练识别构建方法，其特征在于，所述训练的具体方式为：设置损失函数为根据样本信息训练得到的输出信息与相同时间的实际图像的差值；所述输出信息的时间点不在样本信息的时间范围内；

输入样本训练目标为损失函数最小。

4.如权利要求1所述的计算机视觉基础网络训练识别构建方法，其特征在于，还包括训练中的优化步骤，所述优化函数包括但不限于SGD,Adagrad,Adadelta,Adam。

5.如权利要求1所述的计算机视觉基础网络训练识别构建方法，其特征在于，所述训练和识别步骤中，输入信息时一并输入待输出图像的位移信息。

6.如权利要求1所述的计算机视觉基础网络训练识别构建方法，其特征在于，所述损失函数为以下任意一种：

网络输出图像与对应真实图像总体像素差值绝对值之和；

7.如权利要求1所述的计算机视觉基础网络训练识别构建方法，其特征在于，所述识别步骤中，根据输入的视频信息，采用如下方式进行输出图形的构建：

记录输入视频信息中各个位置点的坐标及角度变化；

8.一种计算机视觉基础网络训练识别装置，其特征在于，包括至少一个摄像头和可纪录摄像头拍摄角度和轨迹的设备。

9.如权利要求8所述的计算机视觉基础网络训练识别装置，其特征在于，所述设备为陀螺仪、速度仪等能读取物体位移、角度变化的设备。

10.如权利要求8所述的计算机视觉基础网络训练识别装置，其特征在于，所述摄像头为多个，所述设备数量少于摄像头数量，还包括计算器，所述计算器可根据设备直接采集的某些摄像头拍摄角度和轨迹计算出未直接采集的摄像头拍摄角度和轨迹信息。