CN114155606A

CN114155606A - 基于人体动作分析的语义识别方法及相关装置

Info

Publication number: CN114155606A
Application number: CN202111478146.3A
Authority: CN
Inventors: 陈海波; 李连峰; 李新
Original assignee: Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Current assignee: Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-08

Abstract

本发明提供了一种基于人体动作分析的语义识别方法，包括：采集能够反映出目标用户的动作的视频数据；追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量；将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义，以及将预测出的语义进行输出。此外，还提供了基于人体动作分析的语义识别装置、电子设备及存储介质。根据本发明，能够简单、高效且准确地识别出目标用户的动作的语义信息。

Description

基于人体动作分析的语义识别方法及相关装置

技术领域

本申请涉及一种基于人体动作分析的语义识别方法、装置、电子设备及存储介质，涉及人工智能，计算机视觉，动作行为识别，深度学习技术。

背景技术

信息的接收与传递是人类和整个世界基本的沟通方式。通常而言，这种沟通方式是通过语言的交流来实现的。然而，对于一些特殊的场景或人群，例如，环境非常嘈杂无法获取语音信息的场景，或者听障人士群体，难以通过语言的交流来实现信息的接受与传递，因此，人们通常使用肢体语言或唇语等来表示其想传达的信息。因此，如何能够将识别人体的动作的语义是迫切需要研究的方向。

目前，存在这样一种技术，其运用采集人体唇语的摄像头和采集人体声音的语音识别模块将图像数据和音频数据合成视频信号，再将视频信号转化为手语动作从而实现了基于动作识别及语音识别技术的唇语翻译。然而，将音频信息与视频中的唇语动作对齐就是很难突破的壁垒，更何况通过录音设备进行录制，再通过降噪获得语音信息，这种录音设备在非常嘈杂的环境下如商场、车间等很难剥离单一目标的语音，特别是在目标移动的情况下，效率低下还可能达不到预期效果。

为了解决传统技术中存在的技术问题，本发明利用计算机视觉技术，开发了一种基于动作行为识别模型来学习各种肢体语言、表情和唇语的组合以及他们对应的语义，而无需将图像数据和音频数据合成视频信号。

发明内容

本申请的目的在于提供一种基于人体动作分析的语义识别方法、装置、电子设备及存储介质，其可以通过拍摄装置例如高清摄像头追踪拍摄场景内的目标用户，并且能够随时捕捉目标用户的肢体语言、脸部表情和发声时的唇语，经过一系列的处理和计算，实时还原目标用户的语义信息，并且由输出装置如显示器或音响等输入。本发明的方法不会局限目标用户在场景中的位置，可以广泛应用于在医院、商场等场景，目标用户特别可以是后天失声人群或因处在嘈杂场景中无法获取语音信息的人群，这类特定人群懂得说话时口语，但很大可能不像先天失声人群那样懂得手语，所以普通人与他们交流可能会出现问题，目标用户可能是在呼救或者尝试与人交流，而这些语义信息无法通过传统的录音设备而获得。本发明由于不需要合成音频数据，因此解决了传统技术中的问题。本发明亦可被应用于配合语音识别设备补全缺失信息，这些缺失信息可以是没有声音视频的信息。

更具体地，本发明第一方面提供了一种基于人体动作分析的语义识别方法，其特征在于，包括：

采集能够反映出目标用户的动作的视频数据；

追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量；

将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义，以及；

将预测出的语义进行输出。

一般而言，用户的动作包括肢体语言、面部表情和唇语，因此，能够由肢体和面部的特征来表征用户的当前的动作。根据上述方法，能够简单地通过对视频数据中的目标用户的肢体和面部的关键点进行一系列的处理和计算，预测出该目标用户的动作的语义，并且进行输出。即，根据本发明第一方面的方法，能够有效地将用户的肢体语言、面部表情和发音时唇语的输入转换为对应语义的输出。本发明的方法仅需要采集表征动作的肢体和面部特征(包括面部表情和发音时的唇语)，识别出肢体语言、面部表情和唇语的语义，而不需要采集音频数据，因此，语义识别的难易程度和准确率都能够大幅提升。

优选地，在第一方面的语义识别方法中，所述追踪和提取关键点包括：对于每一帧的图像，利用目标追踪算法将目标用户捕捉并画框，然后对框内的目标用户的肢体和面部进行关键点检测算法，从而将每一帧的肢体关键点和脸部关键点保留，以将一段视频的图像信息转化为目标关键点的数字信息。

根据上述的方法，通过成熟的目标追踪算法和关键点检测算法，可以更快捷、更准确的获取肢体语言、脸部表情和唇语动作的组合信息。另外，通过将目标用户的肢体和面部的关键点信息转化为数字信息，能够获得优异的计算能力。

优选地，在第一方面的语义识别方法，还包括：对所述数字信息按照依据所述关键点检测算法而定义的预置模板进行处理，使得每一帧的数字信息按照统一的格式进行排列，得到模板化处理信息；以及将所述模板化处理信息转化为所述一维的数字向量。

根据上述的方法，能够有效地应对关键点的漏检、误检等情况。更具体而言，由于目标用户的肢体或头部的转向而导致算法无法抓取到部分关键点，以及由于目标人物被遮挡或者图片模糊等原因而导致检测到的结果出现漏检、误检等误差。在本发明中，通过按照预定模板进行处理，能够将收集到的每一帧的数字信息按照统一的格式进行排列，而且能够处理被检测到的肢体和脸部关键点的顺序不定、被重复检测、未被检测到等问题。

优选地，在第一方面的语义识别方法中，所采集的所述视频数据为单一一句话的样本，在通过所述目标追踪算法、所述关键点检测算法以及模板统一化对视频数据进行了处理之后，将数字向量中的数字信息的数据集打乱顺序，并按照预定比例分成训练数据池和验证数据池，通过分别对所对应的数据池进行重复抽样，然后拼接视频，创建出训练数据集和验证数据集，该训练数据集和验证数据集中的每个数据为组合了多句话的视频拼接，从而使得fr变长并且得到fr变长的四维张量作为所述输入数据。

根据上述的方法，达成了数据增广的目的，从而增加了算法的泛化能力。

优选地，在第一方面的语义识别方法中，预置的所述训练模型采用CTC损失函数、Adam优化器以及正则项。

根据上述的方法，CTC损失函数能够非常有效的处理不定长问题，Adam优化器能够进行优化，正则化能够应对过拟合问题

优选地，在第一方面的语义识别方法中，所述语义识别模型包括：CBL模块，其至少由二维卷积、批标准化以及激活函数构成；LSTM模块，其调用双向长短期记忆网络；FA模块与剪枝层的组合，FA模块至少是由全连接层和激活函数构成，剪枝层附加在多个FA模块之间以增强模型的泛化能力；以及输出层，其包含全连接层和激活函数，其中，所述输入数据依次经由CBL模块，LSTM模块，FA模块与剪枝层的组合以及输出层的处理和计算，作为能够预测出与所述目标用户的动作对应的语义的输出数据被输出。

根据上述的方法，通过各个模块之间的数据处理，能够实现高效且准确的语义识别。

优选地，在第一方面的语义识别方法中，所述语义识别模型预测的类包括：按照语义真值的词来定义的类，词包括表示停顿的词或者表示感叹疑问的语气词；以及表示“无”的类，“无”定义没有发出任何语音的真值。

根据上述的方法，能够有效地甄别肢体动作、面部表情和发声时唇语的组合动作对应的语义信息。

本发明第二方面提供了一种基于人体动作分析的语义识别装置，其特征在于，包括：

采集单元，该采集单元采集能够反映出目标用户的动作的视频数据；

数据转换单元，该数据转换单元追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量；

预测单元，该预测单元将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义，以及；

输出单元，该输出单元将预测出的语义进行输出。

根据本发明第二方面的语义识别装置，能够实现第一方面的语义识别方法所对应的各种技术效果。

本申请第三方面提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法的步骤。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种基于人体动作分析的语义识别方法的流程示意图；

图2是图1中的步骤S102中的具体的流程示意图；

图3是图1中的步骤S102中的另一具体的流程示意图；

图4是图1中的步骤S102中的又一具体的流程示意图；

图5是图1中的步骤S103中的语义识别模型的示意性框图；

图6是本申请实施例提供的一种基于人体动作分析的语义识别装置的示意性框图；

图7是本申请实施例提供的一种基于人体动作分析的语义识别装置所能够应用的智能摄像设备的示意性框图；

图8是视频中的某一帧的图像数据的实例；

图9是目标追踪处理锁定目标人物后的实例；

图10是进行了肢体与脸部关键点检测处理后的实例；

图11是脸部关键点编号模板化处理的实例；

图12是肢体关键点编号模板化处理的实例；

图13是手部关键点编号模板化处理的实例；

图14是本申请实施例提供的一种电子设备的结构示意图；

图15是本申请实施例提供的一种用于基于人体动作分析的语义识别方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本发明实施例的一种基于人体动作分析的语义识别方法包括步骤S101～S104。在步骤S101中，采集能够反映出目标用户的动作的视频数据。在步骤S102中，追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量。在步骤S103中，将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义。在步骤S104中，将预测出的语义进行输出。

一般而言，用户的动作包括肢体语言、面部表情和唇语，因此，能够由肢体和面部的特征来表征用户的当前的动作。根据上述方法，能够简单地通过对视频数据中的目标用户的肢体和面部的关键点进行一系列的处理和计算，预测出该目标用户的动作的语义，并且进行输出。本发明的方法仅需要采集表征动作的肢体和面部特征，识别出肢体语言、面部表情和唇语的语义，而不需要采集音频数据，因此，语义识别的难易程度和准确率都能够大幅提升。

对于上面的步骤S102，图2示出了优选的实现方式。如图2所示，在图1的语义识别方法中，追踪和提取关键点包括：步骤S1021，对于每一帧的图像，利用目标追踪算法将目标用户捕捉并画框；步骤S1022，对框内的目标用户的肢体和面部进行关键点检测算法；以及步骤S1023，将每一帧的肢体关键点和脸部关键点保留，以将一段视频的图像信息转化为目标关键点的数字信息。

在本实施中，在图2的步骤S1023之后，还可以更优选地执行图3所示的步骤S1024，对所述数字信息按照依据所述关键点检测算法而定义的预置模板进行处理，使得每一帧的数字信息按照统一的格式进行排列，得到模板化处理信息；以及将所述模板化处理信息转化为所述一维的数字向量。

另外，考虑到所采集的所述视频数据为单一一句话的样本，为了增大数据量以提升准确率，本实施例还优选地在图3的步骤S1024之后进行步骤S1025，将数字向量中的数字信息的数据集打乱顺序，并按照预定比例分成训练数据池和验证数据池，通过分别对所对应的数据池进行重复抽样，然后拼接视频，创建出训练数据集和验证数据集，该训练数据集和验证数据集中的每个数据为组合了多句话的视频拼接，从而使得fr变长并且得到fr变长的四维张量作为所述输入数据。根据上述的方法，达成了数据增广的目的，从而增加了算法的泛化能力。

另外，在本实施的的语义识别方法中，对于图1的步骤S103中的预置的所述训练模型，本实施例可以采用CTC损失函数、Adam优化器以及正则项。CTC损失函数能够非常有效的处理不定长问题，Adam优化器能够进行优化，正则化能够应对过拟合问题。

另外，在本实施的的语义识别方法中，对于图1的步骤S103中的所述语义识别模型，本实施例可以包括：CBL模块，其至少由二维卷积、批标准化以及激活函数构成；LSTM模块，其调用双向长短期记忆网络；FA模块与剪枝层的组合，FA模块至少是由全连接层和激活函数构成，剪枝层附加在多个FA模块之间以增强模型的泛化能力；以及输出层，其包含全连接层和激活函数，其中，所述输入数据依次经由CBL模块，LSTM模块，FA模块与剪枝层的组合以及输出层的处理和计算，作为能够预测出与所述目标用户的动作对应的语义的输出数据被输出。通过各个模块之间的数据处理，能够实现高效且准确的语义识别。

另外，根据本实施例的语义识别方法中，所述语义识别模型预测的类包括：按照语义真值的词来定义的类，词包括表示停顿的词或者表示感叹疑问的语气词；以及表示“无”的类，“无”定义没有发出任何语音的真值。因此，能够有效地甄别肢体动作、面部表情和发声时唇语的组合动作对应的语义信息。

图6是本申请实施例提供的一种基于人体动作分析的语义识别装置100的示意性框图。如图所示，语义识别装置100可以包括：采集单元110，该采集单元采集能够反映出目标用户的动作的视频数据；数据转换单元120，该数据转换单元追踪并检测目标用户在所采集到的视频数据的每一帧图像中的预定区域内的肢体和面部的关键点，按照预置模板将其转换为一维的数字向量，从而得到对应于所述视频数据的四维张量[1,1,fr,info]，其中，fr表示视频帧数，info表示所述数字向量；预测单元130，该预测单元将所述视频数据的所述四维张量作为输入数据输入到预置的训练模型，经由预置的语义识别模型预测出与所述目标用户的动作对应的语义，以及输出单元140，该输出单元将预测出的语义进行输出。

由于语义识别装置100能够执行上述语义识别方法，因此，相应地也能够实现其各种技术效果。

以下，将更加清楚地具体介绍本发明实施例的语义识别方法和装置的实例。

本发明实施例的语义识别装置可以应用于图7所示的智能摄像设备，该设备的摄像头能够追踪拍摄场景内的目标人物，并且能够随时捕捉目标人物的肢体语言、脸部表情和发声时的唇语，即捕捉目标人物的动作。针对于拍摄到的影像，设备将进行图像的初步处理使得图像颜色空间符合预置算法要求，进而得到视频数据。基于视频数据和部署的核心算法，设备的输出装置如显示器或音响等，将会实时还原目标人物的语义信息。本实施例的语义识别方法所采用的算法不会局限目标人物在场景中的位置，可以广泛应用于在医院、商场等场景，目标人物可以是后天失声人群或因处在嘈杂场景中无法获取语音信息的人群。这类特定人群懂得说话时口语，但很大可能不像先天失声人群那样懂得手语，所以普通人与他们交流可能会出现问题。目标人物可能是在呼救或者尝试与人交流，而这些语义信息无法通过传统的录音设备而获得。本发明的语义识别方法亦可被应用于配合语音识别设备补全缺失信息，这些缺失信息可以是没有声音视频的信息。

图7是例示了智能摄像设备的使用步骤的实例，可以依次包括：安装摄像头，让其能拍摄到场景内的目标人物；通过摄像头录制视频，视频包含目标人物的肢体语言、表情信息和发音时的唇语；对录制的视频进行初步图像处理，如重映射变换、颜色空间转换、形态学处理等，使得图像颜色空间符合预置算法要求；调取预置的算法模型对处理过的视频进行分析、输出预测结果；将预测的结果通过输出设备(显示器或音响)反馈给后台人员。

利用上面提到的调取预置的算法模型，可以实现图1中的步骤S103。本实施例的这种算法框架应用了深度学习理论、输入的数据应用了先进的提取有效信息的方法、模型的训练与评估考虑了视频时长不定的问题。以下，将做具体的说明。

<算法模型>

被调取的算法模型是通过深度学习理论开发的，其模型可被编写在计算机编程语言Python中的PyTorch框架下，其部署被编写在计算机编程语言C++中的TensorRT框架下。本发明实施例将重点讲述算法在Python下的开发，因为在C++下的部署也是在复现这套算法，因此不再赘述。本发明实施例命名本算法为基于动作行为识别的肢体语言、面部表情和发音时唇语的语义识别模型，模型的非限制实例可以参考图5。

通过深度学习，建立语义与肢体语言、面部表情和发音时唇语的对应关系，生成相关的所述语义识别模型。该模型以用户的肢体语言、面部表情和发音时唇语作为输入，以语义作为输出，经过对样本数据的训练，可以获得输入和输出关系。因此，能够将肢体语言、面部表情和发音时唇语的输入转换为对应语义的输出。

如图5所示，每个模块数量和中转数据维度的大小要根据项目的要求而调节。CBL模块是由二维卷积(2D Convolutional Neural Network)、批标准化(BatchNormalization)以及激活函数如Leaky ReLU等构成。LSTM模块调用了双向长短期记忆网络(Bi-directional Long Short-Term Memory)。FA模块是由全连接层(Fully ConnectedLayers)和激活函数如Leaky ReLU等构成。剪枝层dropout会加在多个FA模块之间来增强模型的泛化能力。输出层包含全连接层和激活函数如LogSoftmax等。模型预测输出的类按照语义真值的词来定义，词包括如嗯、呀、啊等表示停顿的词或者表示感叹疑问等的语气词。除此之外，另加一类来定义没有发出任何语音的真值。比如视频中的语音真值为“嘿，你好呀！”，因此，模型将预测5类：为4个词外加一个无。本计算模型不考虑被错误标注的视频。输入数据为被处理后的视频信息，是四维张量。计算模型的输入数据和输出数据将在下面具体描述。

<输入数据>

本发明实施例旨在将一段视频数据转化为一个二维矩阵，矩阵的横向维度表示每一帧的信息(info)、纵向维度表示视频长度(fr)。对于视频长度，由于拍摄的视频时长不定，算法的开发与部署都要应对不定长而导致的动态维度的问题。按照传统视觉分析而用到的四维张量来看，本发明将视频时长放在第三个维度上，因此一段视频的四维张量为[1,1,fr,info]。

对于每一帧的信息，本发明实施例通过成熟的目标追踪算法(如Deep SORT等)将目标人物捕捉并画框，再对框内人物的肢体和面部进行关键点检测算法(如OpenPose等)。将每一帧的肢体关键点和脸部关键点保留从而将一段视频的图像信息转化为目标关键点的数字信息，因此本算法可以更快捷、更准确的获取肢体语言、脸部表情和唇语动作的组合信息。举例来说，本发明将输入的视频的图像信息定义为x，如图8所示；将对通过目标追踪算法找到目标人物的过程定义为h(x)，如图9所示；将对追踪到的目标人物进行关键点检测算法的过程定义为f[h(x)]，如图10所示。

由于目标人物的肢体或头部的转向而导致算法无法抓取到部分关键点，以及由于目标人物被遮挡或者图片模糊等原因而导致检测器检测到的结果出现漏检、误检等误差，因此被转化的数字信息将被按照预先定义的模板进行处理，本模板能够将收集到的每一帧信息按照统一的格式进行排列，而且能够处理被检测到的肢体和脸部关键点的顺序不定、被重复检测、未被检测到等问题。例如，本发明实施例将此模板处理定义为图11～图13的g{f[h(x)]}。然而，本领域技术人员应当明白的是，该模板仅仅是实例而已，可以采用已知的任意其他模板，只要能够完成将每一帧信息按照统一的格式进行排列即可。

模板的设计针对于关键点检测算法而定义，本实施例中，如图11～13所示，比如使用OpenPose算法，模板将被设计为包含135个被检测目标的关键点，关键点包含身体、手部、脸部以及脚部的所有关键点的合集。比如图11的脸部关键点、图12的肢体关键点、图13的手部关键点的定义，每个点都有其编号。如果因身体转向等而导致的某些关键点未被检测到，那么这些关键点的横向坐标x和纵向坐标y都为-999，坐标原点被定义在眉心的位置，因此模板数据的矩阵大小为135x2。本算法将模板化处理信息转成一维，就变成了1x270的一行数字。这行数字代表一帧视频的信息，大小270就是之前定义的info。假设一段视频包含100帧，之前定义的fr就是100，输入模型的视频大小就变为100x270的数字矩阵。通过升维，模型的输入数据将被转化为四维信息，其大小为[1,1,100,270]。

被采集到的视频数据为单一一句话的样本，比如一段几十帧的视频的真值为“嘿，你好呀！”。将所有视频的真值文字集合到一起在去重转成数字，因此整个数据集的视频真值都转化成了数字，比如假设“嘿，你好呀！”转换成1234，那么“嘿，你好呀你！”的真值为12342。此外，本算法还将真值0定义为没有发出任何语音，从而应和在训练时所调用的CTC损失函数。通过以上提及的目标追踪算法(如Deep SORT等)、肢体与脸部关键点检测算法(如OpenPose等)和模板统一化等视频处理后，将获得的数字信息的数据集打乱顺序，在按预定的比例例如8：2分成训练数据池和验证数据池。训练数据集和验证数据集的创建是通过分别对其所对应的数据池进行重复抽样，再拼接视频从而达成数据增广的目的，从而增加了算法的泛化能力。本发明实施例中，例如将数据增广的步骤定义为p{g{f[h(x)]}}。举个例子，训练数据集创建了4000个数据，验证数据集创建了800个数据。数据集中的每个数据为组合多了句子的视频，拼接的实际意义就是加长了视频时长，播放完一个单一一句话视频样本再播放下一个，因此模型输入的四维信息会因拼接而导致fr维度变大但info维度还是固定的，比如拼接三个帧长为100的单一一句话的视频样本，拼成的四维张量大小就为[1,1,300,270]，这个数据包含了三句话的信息，本模型将会预测三个句话，连同他们的动作真值被送入CTC损失函数来进行训练。因此输入数据d可被表示为公式[1]。

d＝p{g{f[h(x)]}} [1]

<预测结果评估>

在本实施例中，训练模型的训练采用了CTC损失函数、Adam优化器以及加入了正则项。CTC损失函数能够非常有效的处理不定长问题，正则化能够应对过拟合问题。预测的结果会包含真值为0的没有发出任何语音，为的是甄别肢体动作、面部表情和发声时唇语的组合动作对应的语义信息，所以在评估方法中进行了去0处理，本发明将此去0处理被定义为α。此外，评估方法还同时对预测的结果

和真值(y)进行了去重处理，这样就能更直观的看出两者间的区别去以及算出准确率，本发明将此去重处理被定义为β，因此精确度(accuracy)的计算方法被展示为公式[2]。比如预测的结果为[1,0,0,1,1,2,2,]，真值为[1,1,2,2]，被处理后的为[1,2]与[1,2]，因此准确率为100％。

如上，利用本发明的应用人工智能的深度学习算法取代传统通过录音手段而获得语音信息，开发的算法模型可以处理因视频时长不等而导致的不定长问题。本发明实施例将数字有效信息在图片中提取进而分析，因此大大减少了运算成本。

参见图14，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中基于人体动作分析的语义识别方法的步骤，其具体实现方式与上述基于人体动作分析的语义识别方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中基于人体动作分析的语义识别方法的步骤，其具体实现方式与上述基于人体动作分析的语义识别方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图7示出了本实施例提供的用于实现上述基于人体动作分析的语义识别方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本申请中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种基于人体动作分析的语义识别方法，其特征在于，包括：

采集能够反映出目标用户的动作的视频数据；

将预测出的语义进行输出。

2.根据权利要求1所述的语义识别方法，其特征在于，

所述追踪和提取关键点包括：对于每一帧的图像，利用目标追踪算法将目标用户捕捉并画框，然后对框内的目标用户的肢体和面部进行关键点检测算法，从而将每一帧的肢体关键点和脸部关键点保留，以将一段视频的图像信息转化为目标关键点的数字信息。

3.根据权利要求2所述的语义识别方法，其特征在于，还包括：

对所述数字信息按照依据所述关键点检测算法而定义的预置模板进行处理，使得每一帧的数字信息按照统一的格式进行排列，得到模板化处理信息；以及

将所述模板化处理信息转化为所述一维的数字向量。

4.根据权利要求3所述的语义识别方法，其特征在于，

所采集的所述视频数据为单一一句话的样本，

在通过所述目标追踪算法、所述关键点检测算法以及模板统一化对视频数据进行了处理之后，将数字向量中的数字信息的数据集打乱顺序，并按照预定比例分成训练数据池和验证数据池，通过分别对所对应的数据池进行重复抽样，然后拼接视频，创建出训练数据集和验证数据集，该训练数据集和验证数据集中的每个数据为组合了多句话的视频拼接，从而使得fr变长并且得到fr变长的四维张量作为所述输入数据。

5.根据权利要求4所述的语义识别方法，其特征在于，

预置的所述训练模型采用CTC损失函数、Adam优化器以及正则项。

6.根据权利要求5所述的语义识别方法，其特征在于，

所述语义识别模型包括：

CBL模块，其至少由二维卷积、批标准化以及激活函数构成；

LSTM模块，其调用双向长短期记忆网络；

FA模块与剪枝层的组合，FA模块至少是由全连接层和激活函数构成，剪枝层附加在多个FA模块之间以增强模型的泛化能力；以及

输出层，其包含全连接层和激活函数，

其中，所述输入数据依次经由CBL模块，LSTM模块，FA模块与剪枝层的组合以及输出层的处理和计算，作为能够预测出与所述目标用户的动作对应的语义的输出数据被输出。

7.根据权利要求6的语义识别方法，其特征在于，

所述语义识别模型预测的类包括：按照语义真值的词来定义的类，词包括表示停顿的词或者表示感叹疑问的语气词；以及表示“无”的类，“无”定义没有发出任何语音的真值。

8.一种基于人体动作分析的语义识别装置，其特征在于，包括：

输出单元，该输出单元将预测出的语义进行输出。

9.一种电子设备，其特征在于，所述电子设备存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。