CN113936340A

CN113936340A - 一种基于训练数据采集的ai模型训练方法及装置

Info

Publication number: CN113936340A
Application number: CN202111540818.9A
Authority: CN
Inventors: 谢维思; 郑海霖
Original assignee: Foshan Linyun Aisi Technology Co ltd
Current assignee: Xie Weisi
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-01-14
Anticipated expiration: 2041-12-16
Also published as: CN113936340B

Abstract

本发明公开了一种基于训练数据采集的AI模型训练方法及装置，属于AI模型训练领域，能够自动生成训练数据，可以同时进行数据采集和标注，提高了训练数据的生成效率，节省了人力成本和时间成本。本发明能够进行物体跟踪，并且将包含跟踪结果的区域图像及其对应的空间定位坐标和名称一起作为训练数据，能够用于各种AI模型的训练。本发明流程简单，学习成本低，并且能够提高训练数据的效率，能够广泛适用于AI模型的训练过程。

Description

一种基于训练数据采集的AI模型训练方法及装置

技术领域

本发明属于AI模型训练领域，具体涉及一种基于训练数据采集的AI模型训练方法及装置。

背景技术

机器学习模型存储的大量数据库，使AI模型能够在各种场景情况下识别、理解和预测的功能更加全面和敏捷。其中，用于图像识别的AI模型应用极其广泛，作为计算机视觉的一部分，图像识别是一种通过检测和分析图像来识别自然环境中可见的物体以及物体位置的方式。人类使用自然神经网络识别图像，这有助于从过去的经验中学到的图像中的对象。同样，人工神经网络可帮助机器识别图像。

为了使AI模型能够准确地识别图像中物体以及物体位置，常常需要大量的训练数据对AI模型进行训练。在现有技术，采用手工标注的方式对训练图像进行标注，从而获取训练数据。但是，采用手工标注的方式耗时耗力，并且容易出错，从而导致AI模型训练困难以及训练周期长的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于训练数据采集的AI模型训练方法及装置解决了现有技术中采用手工标注的方式耗时耗力，并且容易出错，从而导致AI模型训练困难以及训练周期长的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于训练数据采集的AI模型训练方法，该方法包括：

采集视频帧、语音数据以及传感数据；所述视频帧包括手势以及手势中的目标物体，所述语音数据包括目标物体名称对应的语音数据；

将视频帧、语音数据以及传感数据传输至运算终端；

通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像；

根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标；

根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储；

根据训练数据，训练AI模型，并将训练完成的AI模型部署至运算终端或移动设备，完成训练数据采集。

进一步地，所述采集视频帧、语音数据以及传感数据，包括：通过摄像头、麦克风和惯性传感器分别采集视频帧、语音数据和传感数据。

进一步地，所述手势包括双手的手势。

进一步地，所述通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像，包括：

通过运算终端对视频帧中的手势进行识别，得到双手的手势坐标；

根据双手的手势坐标，在视频帧中框选位于双手的手势坐标内的最大矩形区域，得到目标物体范围；

在视频帧中裁剪出目标物体范围所包含的图像，得到裁剪图像；

采用Opencv物体追踪算法追踪裁剪图像中的目标物体，获取包含目标物体的区域图像。

进一步地，所述根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标，包括：

根据视频帧和传感数据，采用SLAM算法，并通过运算终端获取目标物体的空间定位坐标。

进一步地，所述根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储，包括：

对语音数据进行识别，得到目标物体的名称；

将区域图像、空间定位坐标、传感数据和语音数据作为训练数据并存储。

进一步地，所述训练数据的格式为XML格式。

进一步地，每个所述训练数据对应一个编号。

进一步地，所述根据训练数据，训练AI模型，包括：

将区域图像和传感数据作为训练样本，将空间定位坐标和目标物体的名称作为训练标签，对AI模型进行训练，直至AI模型对目标物体的空间定位坐标和名称识别率达到设定阈值，完成训练。

一种基于训练数据采集的AI模型训练装置，包括采集模块、传输模块、处理模块、第一获取模块、第二获取模块以及训练模块；

采集模块用于，采集视频帧、语音数据以及传感数据；所述视频帧包括手势以及手势中的目标物体，所述语音数据包括目标物体名称对应的语音数据；

传输模块用于，将视频帧、语音数据以及传感数据传输至运算终端；

处理模块用于，通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像；

第一获取模块用于，根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标；

第二获取模块用于，根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储；

训练模块用于，根据训练数据，训练AI模型，并将训练完成的AI模型部署至运算终端或移动设备，完成训练数据采集。

本发明的有益效果为：

（1）本发明提供一种基于训练数据采集的AI模型训练方法，能够自动生成训练数据，可以同时进行数据采集和标注，提高了训练数据的生成效率，节省了人力成本和时间成本。

（2）本发明能够进行物体跟踪，并且将包含跟踪结果的区域图像及其对应的空间定位坐标和名称一起作为训练数据，能够用于各种AI模型的训练。

（3）本发明流程简单，学习成本低，并且能够提高训练数据的效率，能够广泛适用于AI模型的训练过程。

附图说明

图1为本申请实施例提供的一种基于训练数据采集的AI模型训练方法流程图。

图2为本申请实施例提供的一种基于训练数据采集的AI模型训练系统的框图。

其中，1-采集模块、2-传输模块、3-处理模块、4-第一获取模块、5-第二获取模块、6-训练模块。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于训练数据采集的AI模型训练方法，通过移动摄像头采集视频帧，通过麦克风采集语音数据，通过惯性传感器采集传感数据，所述视频帧、语音数据和传感数据均传输至控制模块，所述控制模块上设置有无线通信模块，所述控制模块通过无线通信模块通信连接至运算终端；运算终端可以为手机、台式电脑、笔记本电脑或者服务器。

该方法包括：

S1、采集视频帧、语音数据以及传感数据；所述视频帧包括手势以及手势中的目标物体，所述语音数据包括目标物体名称对应的语音数据。

例如，当目标物体为苹果时，手势可以是双手手势，苹果位于双手之间，名称语音包括苹果，传感数据包括采集每张视频帧时，通过惯性传感器采集的传感数据。

在本实施例中，传感数据可以包括三轴姿态角、三轴加速度、三轴角速度以及惯性传感器的移动速度。

S2、将视频帧、语音数据以及传感数据均通过无线通信模块传输至运算终端。

采集视频帧、语音数据以及传感数据后，将视频帧、语音数据以及传感数据发送至运算终端进行运算，减少了移动端的计算负荷，并且利用运算终端强大的计算能力，使手势识别和空间定位更加准确。

S3、通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像。

视频帧中除了目标物体以外，可能包括其他物体，而训练数据只需要包含目标物体的区域，因此采用手势识别的方式，获取手势之间的区域图像，从而得到只包含目标物体的区域图像。通过获取包含目标物体的区域图像，减少训练数据中影响训练结果的因素，使训练数据更适用于AI模型的训练过程。

S4、根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标。

S5、根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储。

可以将目标物体的区域图像作为训练图像，将目标物体的空间定位坐标和语音数据包含的目标物体的名称作为训练标签，然后将目标物体的训练图像和训练标签关联，即可得到训练数据。

S6、根据训练数据，训练AI模型，并将训练完成的AI模型部署至运算终端或移动设备，完成训练数据采集。

在本实施例中，视频帧可以是目标物体不同方向上的拍摄图片，从而使获得的训练数据更加完整。

在一种可能的实施方式中，所述采集视频帧、语音数据以及传感数据，包括：通过摄像头、麦克风和惯性传感器分别采集视频帧、语音数据和传感数据。

在一种可能的实施方式中，所述手势包括双手的手势。

在一种可能的实施方式中，所述通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像，包括：

在本实施例中，采用深度学习网络训练成手掌关节点坐标识别模型，通过手掌关节点坐标识别模型对视频帧进行识别，从而获取双手的手势坐标（即手掌关节点坐标）。

可选的，通过手掌关节点坐标识别模型对视频帧进行识别，包括：采集若干包含手势的视频帧作为训练样本；采用人工标记的方式对训练样本中的关节坐标进行标记，并将标记后的视频帧作为标签图像；根据训练样本及其标签图像，以损失函数最小为目标，并采用梯度下降法对深度学习神经网络进行训练，获取训练完成的深度学习神经网络，并将训练完成的深度学习神经网络作为手掌关节点坐标识别模型；通过手掌关节点坐标识别模型检测每张视频帧中的手掌关节位置的坐标，得到手掌关节点坐标。

在本实施例中，Opencv物体追踪算法可以为KCF（Kernel Correlation Filter，核相关滤波器）算法、CSRT（classification and regression tree，分类与回归树）算法、MedianFlow（光流跟踪器）算法以及MOSSE（Minimum Output Sum of Squared Errorfilter，相关滤波跟踪）算法。

在一种可能的实施方式中，所述根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标，包括：

根据视频帧和传感数据，采用SLAM（Simultaneous localization and mapping，同步定位与建图）算法，并通过运算终端获取目标物体的空间定位坐标。

在一种可能的实施方式中，所述根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储，包括：对语音数据进行识别，得到目标物体的名称；将区域图像、空间定位坐标、传感数据和语音数据作为训练数据并存储。

在一种可能的实施方式中，所述训练数据的格式为XML（eXtensible MarkupLanguage，可扩展标记语言）格式。

在一种可能的实施方式中，每个所述训练数据对应一个编号。

每个训练数据对应一个编号，在训练时可以根据编号，一一取出训练数据进行训练，保证了训练数据的准确性。

在一种可能的实施方式中，所述根据训练数据，训练AI模型，包括：将区域图像和传感数据作为训练样本，将空间定位坐标和目标物体的名称作为训练标签，对AI模型进行训练，直至AI模型对目标物体的空间定位坐标和名称识别率达到设定阈值，完成训练。

在本实施例中，AI模型可以为线性回归模型、逻辑回归模型、线性判别分析模型、决策树模型、K-最近邻居模型、学习矢量量化模型、支持向量机模型或者深度神经网络。

本发明提供一种基于训练数据采集的AI模型训练方法，能够自动生成训练数据，可以同时进行数据采集和标注，提高了训练数据的生成效率，节省了人力成本和时间成本。本发明能够进行物体跟踪，并且将包含跟踪结果的区域图像及其对应的空间定位坐标和名称一起作为训练数据，能够用于各种AI模型的训练。本发明流程简单，学习成本低，并且能够提高训练数据的效率，能够广泛适用于AI模型的训练过程。

如图2所示，本申请实施例提供一种基于训练数据采集的AI模型训练装置，包括采集模块1、传输模块2、处理模块3、第一获取模块4、第二获取模块5以及训练模块6。

采集模块1用于，采集视频帧、语音数据以及传感数据；所述视频帧包括手势以及手势中的目标物体，所述语音数据包括目标物体名称对应的语音数据。

传输模块2用于，将视频帧、语音数据以及传感数据均依次通过控制模块和无线通信模块传输至运算终端。

处理模块3用于，通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像。

第一获取模块4用于，根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标。

第二获取模块5用于，根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储。

训练模块6用于，根据训练数据，训练AI模型，并将训练完成的AI模型部署至运算终端或移动设备，完成训练数据采集。

在一种可能的实施方式中，采集模块1具体用于，通过移动摄像头、麦克风和惯性传感器分别采集视频帧、语音数据和传感数据。所述手势包括双手的手势。

在一种可能的实施方式中，处理模块3具体用于，通过运算终端对视频帧中的手势进行识别，得到双手的手势坐标；根据双手的手势坐标，在视频帧中框选位于双手的手势坐标内的最大矩形区域，得到目标物体范围；在视频帧中裁剪出目标物体范围所包含的图像，得到裁剪图像；采用Opencv物体追踪算法追踪裁剪图像中的目标物体，获取包含目标物体的区域图像。

在一种可能的实施方式中，第一获取模块4具体用于，根据视频帧和传感数据，采用SLAM算法，并通过运算终端获取目标物体的空间定位坐标。

在一种可能的实施方式中，第二获取模块5具体用于，对语音数据进行识别，得到目标物体的名称；将区域图像、空间定位坐标、传感数据和语音数据作为训练数据并存储。所述训练数据的格式为XML格式，每个所述训练数据对应一个编号。

在一种可能的实施方式中，训练模块6具体用于，将区域图像和传感数据作为训练样本，将空间定位坐标和目标物体的名称作为训练标签，对AI模型进行训练，直至AI模型对目标物体的空间定位坐标和名称识别率达到设定阈值，完成训练。

本申请实施例提供一种基于训练数据采集的AI模型训练设备，包括存储器和处理器。示例性地，存储器、处理器，各部分之间通过总线相互连接。

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行上述任一所示的基于训练数据采集的AI模型训练方法。

一种基于训练数据采集的AI模型训练设备可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现上述任一所示的基于训练数据采集的AI模型训练方法。

本申请实施例还可以提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一所示的基于训练数据采集的AI模型训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种基于训练数据采集的AI模型训练方法，其特征在于，该方法包括：

将视频帧、语音数据以及传感数据传输至运算终端；

2.根据权利要求1所述的基于训练数据采集的AI模型训练方法，其特征在于，所述采集视频帧、语音数据以及传感数据，包括：通过摄像头、麦克风和惯性传感器分别采集视频帧、语音数据和传感数据。

3.根据权利要求1所述的基于训练数据采集的AI模型训练方法，其特征在于，所述手势包括双手的手势。

4.根据权利要求3所述的基于训练数据采集的AI模型训练方法，其特征在于，所述通过运算终端对视频帧中的手势进行识别，获取包含目标物体的区域图像，包括：

5.根据权利要求1所述的基于训练数据采集的AI模型训练方法，其特征在于，所述根据视频帧和传感数据，通过运算终端获取目标物体的空间定位坐标，包括：

6.根据权利要求1所述的基于训练数据采集的AI模型训练方法，其特征在于，所述根据区域图像、空间定位坐标、传感数据和语音数据，获取训练数据并存储，包括：

对语音数据进行识别，得到目标物体的名称；

7.根据权利要求6所述的基于训练数据采集的AI模型训练方法，其特征在于，所述训练数据的格式为XML格式。

8.根据权利要求6所述的基于训练数据采集的AI模型训练方法，其特征在于，每个所述训练数据对应一个编号。

9.根据权利要求6所述的基于训练数据采集的AI模型训练方法，其特征在于，所述根据训练数据，训练AI模型，包括：

10.一种基于训练数据采集的AI模型训练装置，其特征在于，包括采集模块、传输模块、处理模块、第一获取模块、第二获取模块以及训练模块；