CN110874554B

CN110874554B - 动作识别方法、终端设备、服务器、系统及存储介质

Info

Publication number: CN110874554B
Application number: CN201811021286.6A
Authority: CN
Inventors: 张洁; 武元琪
Original assignee: Alibaba Group Holding Ltd
Current assignee: Wuzhou Online E Commerce Beijing Co ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2023-05-26
Anticipated expiration: 2038-09-03
Also published as: CN110874554A

Abstract

本申请实施例提供一种动作识别方法、终端设备、服务器、系统及存储介质。在本实施例中，对动作视频进行特征提取，提取到动作特征序列；接着，识别动作边界，以确定有效动作单元对应的动作特征片段，并基于有效动作单元对应的动作特征片段进行语义识别。在这种实施方式中，通过识别动作边界，能够准确地从动作视频中确定有效动作单元对应的动作特征片段，有利于提升动作识别的准确性。

Description

动作识别方法、终端设备、服务器、系统及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种动作识别方法、终端设备、服务器、系统及存储介质。

背景技术

手语是用手势比量动作，根据手势的变化模拟形象或者音节以构成一定意思或词语，它是听力障碍的人相互交流的一种语言。在现实环境中，存在听觉障碍或者语言障碍的人士通常使用手语与彼此进行交流，但是当他们与不懂手语的人进行交流时，往往会存在交流障碍。

现有技术中，手语识别的方法主要是基于数据手套和基于计算机视觉。基于数据手套的方法要求用户佩戴特殊的手套，设备昂贵，很难在现实生活中推广使用。基于计算机视觉的方法主要是对摄像机拍摄到的手语视频进行分析，然后提取特征进行分类识别。目前，这些算法的识别精度较低，有待提供一种新的解决方案。

发明内容

本申请实施例的多个方面提供一种动作识别方法、终端设备、服务器、系统及存储介质，用于提升动作识别的精度。

本申请实施例提供一种动作识别方法，包括：接收终端设备发送的需要进行语义识别的动作视频；对所述动作视频进行特征提取，以获得动作特征序列；对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果。

本申请实施例还提供一种动作识别方法，所述方法包括：响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频；将所述动作视频发送至服务器，以使服务器对所述动作视频进行语义识别；接收所述服务器返回的语义识别结果，并输出所述语义识别结果。

本申请实施例还提供一种终端设备，包括：摄像头、存储器以及处理器；所述存储器，用于存储一条或多条计算机指令；所述处理器，用于执行一条或多条计算机指令，以用于：响应于视频拍摄请求，通过所述摄像头针对动作发出对象进行拍摄以获得动作视频；将所述动作视频发送至服务器，以使服务器对所述动作视频进行语义识别；接收所述服务器返回的语义识别结果，并输出所述语义识别结果。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被执行时能够实现由终端设备侧执行的动作识别方法中的步骤。

本申请实施例还提供一种服务器，包括：存储器以及处理器；所述存储器，用于存储一条或多条计算机指令；所述处理器，用于执行一条或多条计算机指令，以用于：接收终端设备发送的需要进行语义识别的动作视频；对所述动作视频进行特征提取，以获得动作特征序列；对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被执行时能够实现由服务器侧执行的动作识别方法中的步骤。

本申请实施例还提供一种动作识别系统，包括：终端设备和服务器；其中，所述终端设备，用于响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频；将所述动作视频发送至所述服务器，以使所述服务器对所述动作视频进行语义识别；接收所述服务器返回的语义识别结果，并输出所述语义识别结果；所述服务器，用于接收终端设备发送的需要进行语义识别的动作视频；对所述动作视频进行特征提取，以获得动作特征序列；对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果。

在本申请实施例中，对动作视频进行特征提取，提取到动作特征序列；接着，识别动作边界，以确定有效动作单元对应的动作特征片段，并基于有效动作单元对应的动作特征片段进行语义识别。在这种实施方式中，通过识别动作边界，能够准确地从动作视频中确定有效动作单元对应的动作特征片段，有利于提升动作识别的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请一示例性实施例提供的一种动作识别系统的结构示意图；

图1b为本申请另一示例性实施例提供的实施方式A的原理示意图；

图1c为本申请另一示例性实施例提供的实施方式A的原理示意图；

图1d为本申请另一示例性实施例提供的实施方式B的原理示意图；

图2为本申请又一示例性实施例提供的一种动作识别方法的流程示意图；

图3为本申请又一示例性实施例提供的一种动作识别方法的流程示意图；

图4为本申请又一示例性实施例提供的服务器的设备结构图；

图5为本申请又一示例性实施例提供的终端设备的设备结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一些现有的基于计算机视觉的动作识别方法中，通常采用模板匹配算法、隐马尔可夫模型算法(Hidden Markov Model，HMM)、动态时间归整算法(Dynamic TimeWarping，DTW)等建立手语识别模型，并基于手语识别模型对手语动作进行识别。但是，上述算法的识别精度较低。在本申请的一些实施例中，提供一种动作识别方法，首先对动作视频进行特征提取，提取到动作特征序列；接着，识别动作边界，以确定有效动作单元对应的动作特征片段，并基于有效动作单元对应的动作特征片段进行语义识别。在这种实施方式中，通过识别动作边界，能够准确地确定有效动作单元对应的动作特征片段，有利于提升动作识别的准确性。以下将结合附图进行具体说明。

图1a为本申请一示例性实施例提供的一种动作识别系统的结构示意图，如图1a所示，该动作识别系统100包括：服务器10和终端设备20。

其中，服务器10可以是任何可提供计算服务，能够响应服务请求并进行处理的设备，例如可以是常规服务器、云服务器、云主机、虚拟中心等。服务器的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。终端设备20可以是包含有摄像头的智能手机、平板电脑等，也可以是便携式摄像头，本实施例不做作限制。其中，终端设备20可以是一台或多台。

终端设备20与服务器10之间可以是无线或有线网络连接。在本实施例中，若终端设备20通过移动网络与服务器10通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。

在动作识别系统100中，终端设备20主要用于：响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频，并将该动作视频发送至服务器10，以使服务器10对该动作视频进行语义识别。

服务器10主要面向终端设备20提供动作识别服务，接收终端设备20发送的动作视频，并向终端设备20提供该动作视频对应的语义。其中，服务器10接收到终端设备20发送的需要进行语义识别的动作视频之后，可对该动作视频进行特征提取，以获得动作特征序列；接着，对该动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；其中，有效动作单元，指的是具有独立意义的完整动作单元，可被识别为具体的语义。一个动作视频中可包含一个或多个有效动作单元。例如，在手语识别场景下，终端设备20获取到的包含手语动作的视频可包含多个有效动作单元，每个有效动作单元对应一个完整的手语单字或者手语词汇，多个有效动作单元可对应一句完整的手语句子。

在获取到该至少一个有效动作单元对应的动作特征片段之后，服务器10可基于该至少一个有效动作单元对应的动作特征片段进行语义识别，以获得该动作视频的语义识别结果。接着，将该动作视频的语义识别结果发送至终端设备20。终端设备20接收到服务器10返回的语义识别结果之后，输出该语义识别结果。

本实施例的动作识别系统100中，服务器10获取到终端设备20发送的动作视频之后，首先对动作视频进行特征提取，提取到动作特征序列；接着，识别动作边界，以确定有效动作单元对应的动作特征片段，并基于有效动作单元对应的动作特征片段进行语义识别。在这种实施方式中，通过识别动作边界，能够准确地从动作视频中确定有效动作单元对应的动作特征片段，有利于提升动作识别的准确性。

在一些示例性的实施方式中，服务器10对动作视频进行特征提取，以获得动作特征序列的方式可包括：提取动作视频对应的运动能量分布作为动作特征序列、提取动作视频对应的色彩特征作为动作特征序列、提取动作视频对应的深度数据和轮廓数据作为动作特征序列等等。在另一些示例性实施例中，服务器10对动作视频进行特征提取时，还可采用基于双流(two-stream)模型和特征融合的方式实现。以下将以双流模型和特征融合的方式为例详细说明服务器10对动作视频进行特征提取的过程。

可选的，服务器10可从动作视频中提取图像流数据和动作流数据；其中，图像数据流，是动作视频对应的空间分量。图像数据流由静止图像帧组成，可表示动作视频包含的形状信息。动作数据流，是动作视频对应的时间分量，也称为图像帧之间的光流，可表示动作视频包含的运动信息。

接着，服务器10可分别对提取到的图像流数据和动作流数据进行特征提取，得到动作视频在时间维度和空间维度上的特征序列。可选的，服务器10可采用基于卷积神经网络(Convolutional Neural Network,CNN)的特征提取方法，例如Alex-Net、VGG-Net、ResNet模型等，分别对图像流数据和动作流数据进行特征提取，本实施例不做限制。

在获取到动作视频在时间维度和空间维度上的特征序列之后，服务器10可按照图像流数据和动作流数据的时间对应关系，对动作视频在时间维度和空间维度上的特征序列进行融合，以获得动作特征序列。可选的，在一些可选的实施例中，可采用ActionVLAD算法对动作视频在时间维度和空间维度上的特征序列进行融合。ActionVLAD是一种特征融合的方式，其核心思想是对对原有的特征计算残差并聚类，对不同时刻的图像帧进行融合，以得到表达更全面的特征，提升动作识别的准确性。

在一些示例性实施方式中，获取到动作视频对应的动作特征序列之后，服务器10可将上述动作特征序列送入动作识别模型，以识别到动作特征序列包含的动作边界，该动作边界包含动作的起始点和动作结束点。其中，识别得到的动作边界可以是一个也可以是多个，与动作视频包含的有效动作单元的数量相关。可选的，实际中，可以采用动作视频的时间信息来表示动作起始点和动作结束点。例如，动作视频中的第一个有效动作单元的动作起始点为00:20，动作结束点为00:25；第二个有效动作单元的动作起始点为00:27，动作结束点为00:30。

接着，基于动作边界包含的动作起始点和动作结束点，可对动作特征序列进行切分，以获得至少一个有效动作单元对应的动作特征片段。例如，将动作特征序列中，位于00:20～00:25之间的动作特征切分为第一个有效动作单元对应的动作特征片段，将00:27～00:30之间的动作特征切分为第二个有效动作单元对应的动作特征片段。

需要说明的是，上述实施例中，动作识别模型由预先训练得到，具体的训练过程将在后续实施例详细介绍。服务器10将动作特征序列送入动作识别模型之后，动作识别模型内部的具体运行逻辑可如下所述：

首先，动作识别模型可按照时间顺序，在动作特征序列中选取至少一个候选动作起始点和至少一个候选动作结束点；其中，按照时间顺序，可以按照时间的正向顺序，也可以是按照时间的逆向顺序，此处不做限制。接着，将该至少一个候选动作起始点和至少一个候选动作结束点进行组合，以得到至少一个候选动作边界；其中，将该至少一个候选动作起始点和至少一个候选动作结束点进行组合，可包括：将每个候选动作起始点分别与每个候选动作结束点进行组合。例如，按照时间正向顺序选取到的候选动作起始点为[Bt1、Bt2、Bt3]，候选动作结束点为[Et1、Et2]，则组合得到的候选动作边界可包括[Bt1、Et1]、[Bt1、Et2]、[Bt2、Et1]、[Bt2、Et2]、[Bt3、Et1]、[Bt3、Et2]。

接着，动作识别模型可根据模型参数，计算该至少一个候选动作边界为实际动作边界的置信度，并基于该置信度，从该至少一个候选动作边界中识别到该动作特征序列包含的动作边界。例如，可将至少一个候选动作边界中，置信度最高的动作边界作为特征序列包含的动作边界。再例如，可将至少一个候选动作边界中，置信度大于设定阈值的动作边界作为特征序列包含的动作边界。需要说明的是，当动作视频包含多个有效动作单元时，动作识别模型可逐个识别有效动作单元的动作边界，也可同时对多个有效动作单元的动作边界进行识别，不再赘述。

在确定动作视频中至少一个有效动作单元对应的动作特征片段之后，服务器10可进一步基于上述动作特征片段进行语义识别，以获得动作视频的语义识别结果。

在一些示例性的实施方式中，服务器10对至少一个有效动作单元对应的动作特征片段进行语义识别的方式可包括：基于分类器的识别方式以及基于特征匹配的识别方式，本实施例包含但不仅限于此。以下实施例将以基于特征匹配的识别方式为例进行说明。

在基于特征匹配的识别方式中，存在一动作信息库，该动作信息库中保存有有效动作单元的特征描述和语义的对应关系。例如，特征描述{a1、a2、23}对应语义A、特征描述{B1、B2}对应语义B。基于此，在对动作视频包含的至少一个有效动作单元进行语义识别时，可预先获取该至少一个有效动作单元对应的特征描述，再基于该特征描述查询动作信息库。

在一些可选的实施方式中，可根据该至少一个有效动作单元对应的动作特征片段进行聚类，得到聚类特征，并将该至少一个有效动作单元对应的聚类特征作为其特征描述。可选的，本实施例中可采用K-means算法、相似性度量算法、层次聚类算法和/或ActionVLAD算法等，对该至少一个有效动作单元对应的动作特征片段分别进行聚类，以获得该至少一个有效动作单元对应的聚类特征。应当理解，实际中，也可以采用其他类型的聚类算法得到有效动作单元对应的特征描述，此处不赘述。

接着，服务器10在获取到动作视频包含的至少一个有效动作单元对应的语义结果后，对上述语义结果进行整合，即可获得动作视频的语义识别结果。

在一些示例性实施例中，服务器10可将动作视频的语义识别结果发送至终端设备20；终端设备20接收到动作视频的语义识别结果之后，可直接输出该语义识别结果。可选的，在另一些示例性实施例中，为了便于用户获取语义识别结果，若服务器10识别到的动作视频的语义识别结果是文本格式，则可将该语义识别结果转换成语音内容并发送至终端设备20，以便于终端设备20直接播放语义识别结果对应的语音内容。或者，当终端设备20接收到的语义识别结果是文本格式时，也可将该语义识别结果转换成语音内容，并播放该语音内容。

在上述实施例中，记载了根据动作识别模型识别动作特征序列包含的动作边界的实施方式以及根据动作信息库进行动作匹配的实施方式，以下部分将详细介绍服务器10训练动作识别模型的过程以及获取动作信息库的过程。

为确保动作识别模型和动作信息库的可靠性以及识别结果的准确性，本实施例对用于训练动作识别模型和生成动作信息库的动作样本进行了扩充；其中，动作样本，指的是包含有效动作单元的样本，一个动作样本中，可能包含一个有效动作单元，也可能包含连续的有效动作单元。可选的，一部分动作样本来自动作样本库，例如Kinetics、Moments intime、HMDB51、UCF101、开源中国手语(CSL)数据集、DEVISIGN中国手语数据库等。可选的，一部分动作样本来自各个视频网站；可选的，一部分动作样本可从动作发出者发出的动作视频中提取。当然，上述列举的动作样本获取渠道仅用于示例性说明，本申请实施例包含但不仅限于此。接着，基于获取到的动作样本训练动作识别模型，并获取动作信息库。以下将以实施方式A和实施方式B为例，对训练动作识别模型和获取动作信息库的具体方式进行说明。

在实施方式A中，服务器10可执行如图1b所示的步骤：首先，对动作样本进行特征提取，以获得动作样本的特征序列。可选的，对动作样本进行特征提取的过程，可参考对终端设备20发送的动作视频进行特征提取的过程。例如，可如图1c所示，一种特征提取方式包括：从动作样本中分解出图像流数据和动作流数据；分别对动作样本对应的图像流数据和动作流数据进行特征提取，得到动作样本在时间维度和空间维度上的特征序列；接着，按照动作样本对应的图像流数据和动作流数据的时间对应关系，对动作样本在时间维度和空间维度上的特征序列进行融合，以获得动作样本的特征序列。

接着，如图1b所示，将动作样本的特征序列送入动作识别模型。动作识别模型可根据动作识别模型的当前模型参数，在动作样本的特征序列上选取候选动作边界位置，并计算每个候选动作边界位置上动作开始的概率和动作结束的概率。需要说明的是，在第一次执行本步骤时，动作识别模型的当前模型参数可以是初始化参数，后续每一次执行本步骤时，动作模型的当前模型参数可以是根据实际识别结果进行调整得到的模型参数。上述每个候选动作边界位置上动作开始的概率和动作结束的概率是在当前模型参数下，由动作识别模型计算得到的，当前模型参数可能并非动作识别模型的最优模型参数，因此，可进行一步执行以下的步骤，对每个候选动作边界位置上动作开始的概率和动作结束的概率进行置信度判断。

在一可选的实施方式中，如图1b所示，服务器10可根据每个候选动作边界位置，生成预估动作，并根据预估动作对应的特征描述，确定每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度。

可选的，在本步骤中，每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度，可通过计算预估动作与动作样本中的实际动作之间的相似度确定。例如，第一个候选动作边界位置上动作开始的概率和动作结束的概率的置信度，可通过计算根据第一候选动作边界生成的预估动作与第一候选动作边界在动作样本中对应的实际动作的相似度得到。其中，计算相似度的方法可采用余弦相似度法、欧式距离法等等，此处不限制。

可选的，若置信度不满足设定的置信度要求，则对动作识别模型的当前模型参数进行调整，并返回选取候选动作边界位置的步骤；若置信度满足设定的置信度要求，则将当前模型参数作为动作识别模型的模型参数，并将预估动作对应的特征描述与动作样本的语义对应存储至动作信息库中。至此，在训练动作识别模型的过程中，生成了动作信息库。

可选的，预估动作对应的特征描述，可以是预估动作对应的聚类特征，动作信息库中建立的对应关系为预估动作对应的聚类特征和语义的对应关系，以供后续动作识别的过程进行特征匹配。其中，获取预估动作对应的聚类特征的方式可参考获取有效动作单元对应的聚类特征的方式，例如可采用ActionVLAD算法对预估动作包含的特征进行聚类，以获得预估动作对应的聚类特征作为特征描述，不再赘述。

在实施方式B中：在获取动作样本之后，如图1d所示，可对有效动作单元、动作起始点和动作结束点进行标注，以生成有效动作单元样本、动作起始点样本和动作结束点样本。

在生成动作信息库的过程中，可对每个有效动作单元样本进行语义标注，以得到有效动作单元样本和语义的对应关系，如图1d所示；接着，获取每个有效动作单元样本对应的图像流样本数据和动作流样本数据，并进行特征提取，以得到每个有效动作单元样本在时间维度和空间维度上的特征；接着，按照图像流样本数据和动作流样本数据的时间对应关系，对每个有效动作单元样本在时间维度和空间维度上的特征进行融合以及聚类，以得到每个有效动作单元样本对应的聚类特征；接着，根据有效动作单元样本和语义的对应关系，在动作信息库中，建立有效动作单元样本的聚类特征和语义的对应关系，以供后续动作识别的过程中进行特征匹配。

如图1d所示，在训练动作识别模型的过程中，可获取动作起始点样本和动作结束点样本对应的图像流样本数据和动作流样本数据，并进行特征提取，以得到动作起始点样本以及动作结束点样本在时间维度和空间维度上的特征；接着，按照动作起始点样本和动作结束点样本对应的图像流样本数据和动作流样本数据的时间对应关系，对动作起始点样本以及动作结束点样本在时间维度和空间维度上的特征进行融合，得到融合的样本特征；根据融合的样本特征，采用多层感知机模型(Multi-Layer Perceptron，MLP)训练得到动作识别模型的输入层、隐藏层以及输出层之间的映射参数，作为动作识别模型的模型参数。

本申请的上述实施例提供的动作识别系统，可应用于多种不同的应用场景，例如目标跟踪场景、运动检测场景、手语识别场景等，当然实际中，也可以应用在除上述场景之外的其他需要动作识别的应用场景。

在一种手语识别场景下，当动作识别系统应用于手语识别场景时，终端设备20可表现为手语使用者携带的便携式摄像头。例如，手语使用者可在日常生活中佩戴该便携式摄像头，在需要与其他人进行交流时，可触发该便携式摄像头上的物理按键发出手语视频拍摄请求；或者，便携式摄像头上可设有一显示屏，手语使用者可以特定手势触摸显示屏来发出手语视频拍摄请求。便携式摄像头可响应于用户的手语视频拍摄请求，对手语者发出的手语动作进行拍摄以获得手语动作视频，并将该手语动作视频发送至服务器10。服务器10可基于上述实施例记载的动作识别原理，对手语视频进行语义识别，并将语义识别结果发送至便携式摄像头。若接收到服务器10发送的语义识别结果为文本格式，便携式摄像头可在其显示屏上显示语义识别结果；或者，便携式摄像头上可设有一扬声器，若接收到服务器10发送的语义识别结果为音频格式，便携式摄像头可通过扬声器播放语义识别结果。

在另一种手语识别场景下，终端设备20可表现为用户的手机。例如，当聋哑人问路时，会发出问路的手语动作；被问路者可通过自己的手机摄像头拍摄该聋哑人发出的手语动作，形成动作视频上传至服务器10；服务器10可基于上述实施例记载的动作识别原理，对手语视频进行语义识别，并将语义识别结果发送至用户的手机。若接收到服务器10发送的语义识别结果为文本格式，用户的手机可在其显示屏上显示语义识别结果；若接收到服务器10发送的语义识别结果为音频格式，用户的手机可播放语义识别结果；或者，若接收到服务器10发送的语义识别结果为文本格式，用户的手机也可将该文本格式的语义识别结果转化为音频格式的语义识别结果，并播放，例如“到北京南站怎么走”。进而，被问路者可在不懂手语的情况下，确定聋哑人问路的内容，并可以通过手机上的地图给聋哑人指路，或者，通过手机上的文本输入功能，将路线写成文字形式并通过手机显示给聋哑人。

在一种运动检测场景下，终端设备20可表现为比赛场上的监控设备。在比赛的过程中，监控设备可拍摄运动员的比赛动作，并形成比赛动作视频发送至服务器10。服务器10可基于上述实施例记载的动作识别原理，对比赛动作视频进行语义识别，并将语义识别结果发送至终端设备20。例如，服务器10识别到的语义识别结果可以包括：运动员的动作是否犯规。终端设备20上可设有一显示屏和一麦克风装置。在接收到服务器10发送的语义识别结果后，若语义识别结果为文本格式，则可直接在显示屏上显示语义识别结果，或则将文本格式的语义识别结果转化为音频格式的语义识别结果，并通过扬声器播放，例如通过语音播放：8号队员在3分15秒时犯规。

上述各实施例描述了本申请提供的动作识别系统的系统架构以及系统功能，以下部分将结合附图对本申请实施例提供的动作识别方法进行具体说明。

图2是本发明一示例性实施例提供的动作识别方法的流程示意图，该方法可由动作识别系统中的服务器10执行，可包括：

步骤201、接收终端设备发送的需要进行语义识别的动作视频。

步骤202、对动作视频进行特征提取，以获得动作特征序列。

步骤203、对动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段。

步骤204、对至少一个有效动作单元对应的动作特征片段进行语义识别，以获得动作视频的语义识别结果。

在一些示例性实施例中，对所述动作视频进行特征提取，以获得动作特征序列的一种方式，包括：从所述动作视频中提取图像流数据和动作流数据；分别对所述图像流数据和所述动作流数据进行特征提取，得到所述动作视频在时间维度和空间维度上的特征序列；按照所述图像流数据和所述动作流数据的时间对应关系，对所述动作视频在时间维度和空间维度上的特征序列进行融合，以获得所述动作特征序列。

在一些示例性实施例中，对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果的一种方式，包括：对所述至少一个有效动作单元对应的动作特征片段分别进行聚类，以获得所述至少一个有效动作单元对应的聚类特征；将所述至少一个有效动作单元对应的聚类特征在动作信息库中进行匹配，以获得所述至少一个有效动作单元对应的语义结果；将所述至少一个有效动作单元对应的语义结果进行整合，以获得所述动作视频的语义识别结果。

在一些示例性实施例中，对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段的一种方式，包括：将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界；根据所述动作边界包含的动作起始点和动作结束点对所述动作特征序列进行切分，以获得至少一个有效动作单元对应的动作特征片段。

在一些示例性实施例中，将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界的一种方式，包括：按照时间顺序，在所述动作特征序列中选取至少一个候选动作起始点和至少一个候选动作结束点；将所述至少一个候选动作起始点和至少一个候选动作结束点进行组合，以得到至少一个候选动作边界；根据所述动作识别模型的模型参数，计算所述至少一个候选动作边界为实际动作边界的置信度；所述至少一个候选动作边界为实际动作边界的置信度，识别到所述动作特征序列包含的动作边界。

在一些示例性实施例中，将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界之前，所述方法还包括：对动作样本进行特征提取，以获得所述动作样本的特征序列；根据所述动作识别模型的当前模型参数，在所述动作样本的特征序列上选取候选动作边界位置，并计算每个候选动作边界位置上动作开始的概率和动作结束的概率；根据每个候选动作边界位置，生成预估动作；根据所述预估动作对应的特征描述，确定所述每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度；若所述置信度不满足设定的置信度要求，则对所述动作识别模型的当前模型参数进行调整，并返回选取所述候选动作边界位置的步骤；若所述置信度满足设定的置信度要求，则将所述当前模型参数作为所述动作识别模型的模型参数，并将所述预估动作对应的特征描述与所述动作样本的语义对应存储至动作信息库中。

在一些示例性实施例中，将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界，在在根据所述预估动作对应的特征描述，确定所述每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度之前，所述方法还包括：采用ActionVLAD算法对所述预估动作包含的特征进行聚类，以获得所述预估动作对应的特征描述。

在一些示例性实施例中，对所述动作样本进行特征提取，以获得所述动作样本的特征序列的一种方式，包括：从所述动作样本中提取图像流数据和动作流数据；分别对所述动作样本对应的图像流数据和动作流数据进行特征提取，得到所述动作样本在时间维度和空间维度上的特征序列；按照所述动作样本对应的图像流数据和动作流数据的时间对应关系，对所述动作样本在时间维度和空间维度上的特征序列进行融合，以获得所述动作样本的特征序列。

在一些示例性实施例中，在对所述动作样本进行特征提取，以获得所述动作样本的特征序列之前，还包括以下至少一种操作：从动作样本库中，获取所述动作样本；从视频网站上，获取所述动作样本；从动作发出者发出的动作视频中，提取所述动作样本。

在一些示例性实施例中，获得所述动作视频的语义识别结果之后，所述方法还包括：将所述动作视频的语义识别结果发送至所述终端设备；或者，若所述动作视频的语义识别结果是文本格式，将所述语义识别结果转换成语音内容并发送至所述终端设备。

本实施例中，对动作视频进行特征提取，提取到动作特征序列；接着，识别动作边界，以确定有效动作单元对应的动作特征片段，并基于有效动作单元对应的动作特征片段进行语义识别。在这种实施方式中，通过识别动作边界，能够准确地从动作视频中确定有效动作单元对应的动作特征片段，有利于提升动作识别的准确性。

图3是本发明另一示例性实施例提供的动作识别方法的流程示意图，该方法可由动作识别系统中的终端设备20执行，可包括：

步骤301、响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频。

步骤302、将动作视频发送至服务器，以使服务器对动作视频进行语义识别。

步骤303、接收服务器返回的语义识别结果，并输出语义识别结果。

在一些示例性实施例中，输出所述语义识别结果的一种方式，包括：若所述语义识别结果是文本格式，则将所述语义识别结果转换成语音内容，并播放所述语音内容。

在一些示例性实施例中，响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频的一种方式，包括：响应于视频拍摄请求，对手语者发出的手语动作进行拍摄以获得手语动作视频。

本实施例中，对动作发出对象进行拍摄以获得动作视频，将该动作视频发送至服务器并接收服务器发送的与动作视频对应的语义识别结果，进而动作发出对象发出的动作可以转化为易于识别的语义，十分便捷。

需要说明的是，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如301、302等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

以上描述了动作识别方法适用于服务器10侧的可选实施例，相应地，本申请实施例还提供一种服务器10，如图4所示，服务器10可包括：存储器11、处理器12和通信组件13。

存储器11可被配置为存储其它各种数据以支持在服务器10上的操作。这些数据的示例包括用于在服务器10上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本实施例中，存储器11用于存储一条或多条计算机指令。

处理器12，耦合至存储器11，用于执行存储器11中的一条或多条计算机指令，以用于：通过通信组件13接收终端设备发送的需要进行语义识别的动作视频；对所述动作视频进行特征提取，以获得动作特征序列；对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果。

在一可选实施例中，处理器12在对所述动作视频进行特征提取，以获得动作特征序列时，具体用于：从所述动作视频中提取图像流数据和动作流数据；分别对所述图像流数据和所述动作流数据进行特征提取，得到所述动作视频在时间维度和空间维度上的特征序列；按照所述图像流数据和所述动作流数据的时间对应关系，对所述动作视频在时间维度和空间维度上的特征序列进行融合，以获得所述动作特征序列。

在一可选实施例中，处理器12在对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果时，具体用于：对所述至少一个有效动作单元对应的动作特征片段分别进行聚类，以获得所述至少一个有效动作单元对应的聚类特征；将所述至少一个有效动作单元对应的聚类特征在动作信息库中进行匹配，以获得所述至少一个有效动作单元对应的语义结果；将所述至少一个有效动作单元对应的语义结果进行整合，以获得所述动作视频的语义识别结果。

在一可选实施例中，处理器12在对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段时，具体用于：将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界；根据所述动作边界包含的动作起始点和动作结束点对所述动作特征序列进行切分，以获得至少一个有效动作单元对应的动作特征片段。

在一可选实施例中，处理器12在将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界时，具体用于：按照时间顺序，在所述动作特征序列中选取至少一个候选动作起始点和至少一个候选动作结束点；将所述至少一个候选动作起始点和至少一个候选动作结束点进行组合，以得到至少一个候选动作边界；根据所述动作识别模型的模型参数，计算所述至少一个候选动作边界为实际动作边界的置信度；所述至少一个候选动作边界为实际动作边界的置信度，识别到所述动作特征序列包含的动作边界。

在一可选实施例中，处理器12在将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界之前，还用于执行以下步骤：步骤S1、对动作样本进行特征提取，以获得所述动作样本的特征序列；步骤S2、根据所述动作识别模型的当前模型参数，在所述动作样本的特征序列上选取候选动作边界位置，并计算每个候选动作边界位置上动作开始的概率和动作结束的概率；步骤S3、根据每个候选动作边界位置，生成预估动作；步骤S4、根据所述预估动作对应的特征描述，确定所述每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度；步骤S5、若所述置信度不满足设定的置信度要求，则对所述动作识别模型的当前模型参数进行调整，并执行步骤S2；若所述置信度满足设定的置信度要求，则将所述当前模型参数作为所述动作识别模型的模型参数，并将所述预估动作对应的特征描述与所述动作样本的语义对应存储至动作信息库中。

在一可选实施例中，在步骤S4之前，处理器12还用于：采用ActionVLAD算法对所述预估动作包含的特征进行聚类，以获得所述预估动作对应的特征描述。

在一可选实施例中，处理器12在对所述动作样本进行特征提取，以获得所述动作样本的特征序列时，具体用于：从所述动作样本中提取图像流数据和动作流数据；分别对所述动作样本对应的图像流数据和动作流数据进行特征提取，得到所述动作样本在时间维度和空间维度上的特征序列；按照所述动作样本对应的图像流数据和动作流数据的时间对应关系，对所述动作样本在时间维度和空间维度上的特征序列进行融合，以获得所述动作样本的特征序列。

在一可选实施例中，处理器12在对所述动作样本进行特征提取，以获得所述动作样本的特征序列之前，还用于执行以下至少一种操作：从动作样本库中，获取所述动作样本；从视频网站上，获取所述动作样本；从动作发出者发出的动作视频中，提取所述动作样本。

在一可选实施例中，处理器12在获得所述动作视频的语义识别结果之后，还用于：将所述动作视频的语义识别结果发送至所述终端设备；或者，若所述动作视频的语义识别结果是文本格式，将所述语义识别结果转换成语音内容并发送至所述终端设备。

在一可选实施例中，如图4所示，服务器10还包括电源组件14。电源组件14，用于为服务器10的各种组件提供电力。电源组件14可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本实施例中，服务器10对动作视频进行特征提取，提取到动作特征序列；接着，识别动作边界，以确定有效动作单元对应的动作特征片段，并基于有效动作单元对应的动作特征片段进行语义识别。在这种实施方式中，通过识别动作边界，能够准确地从动作视频中确定有效动作单元对应的动作特征片段，有利于提升动作识别的准确性。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由终端设备20执行的方法实施例中各步骤。

以上描述了动作识别方法适用于终端设备20侧的可选实施例，相应地，本申请实施例还提供一种终端设备20，如图5所示，终端设备20可包括：存储器21、处理器22以及通信组件23、以及摄像头27。

存储器21可被配置为存储其它各种数据以支持在终端设备20上的操作。这些数据的示例包括用于在终端设备20上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本实施例中，存储器21用于存储一条或多条计算机指令。

处理器22，耦合至存储器21，用于执行存储器21中的一条或多条计算机指令，以用于：响应于视频拍摄请求，通过摄像头27针对动作发出对象进行拍摄以获得动作视频；通过通信组件23将所述动作视频发送至服务器，以使服务器对所述动作视频进行语义识别；通过通信组件23接收所述服务器返回的语义识别结果，并输出所述语义识别结果。

在一可选实施例中，处理器22在输出所述语义识别结果时，具体用于：若所述语义识别结果是文本格式，则将所述语义识别结果转换成语音内容，并播放所述语音内容。

在一可选实施例中，处理器22在响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频时，具体用于：响应于视频拍摄请求，对手语者发出的手语动作进行拍摄以获得手语动作视频。

在一可选实施方式中，如图5所示，终端设备20还包括电子显示屏24。电子显示屏24，用于显示语义识别结果。其中，电子显示屏24包括液晶显示器(LCD)和触摸面板(TP)。如果电子显示屏24包括触摸面板，电子显示屏24可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。例如，用户可通过电子显示屏24发出视频拍摄请求。

在一可选实施方式中，如图5所示，终端设备20还包括音频组件25和电源组件26。

其中，音频组件25被存储为输出和/或输入音频信号。例如，音频组件25包括一个扬声器，当处理器22将语义识别结果转换成语音内容时，可通过该扬声器播放所述语音内容。

其中，电源组件26用于为终端设备20的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为终端设备20生成、管理和分配电力相关联的组件。本实施例中，对动作发出对象进行拍摄以获得动作视频，将该动作视频发送至服务器并接收服务器发送的与动作视频对应的语义识别结果，进而动作发出对象发出的动作可以转化为易于识别的语义，十分便捷。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种动作识别方法，其特征在于，包括：

接收终端设备发送的需要进行语义识别的动作视频；

对所述动作视频进行特征提取，以获得动作特征序列；

对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；

对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果；

其中，对所述动作视频进行特征提取，以获得动作特征序列，包括：

从所述动作视频中提取图像流数据和动作流数据；

分别对所述图像流数据和所述动作流数据进行特征提取，得到所述动作视频在时间维度和空间维度上的特征序列；

按照所述图像流数据和所述动作流数据的时间对应关系，对所述动作视频在时间维度和空间维度上的特征序列进行融合，以获得所述动作特征序列。

2.根据权利要求1所述的方法，其特征在于，对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果，包括：

对所述至少一个有效动作单元对应的动作特征片段分别进行聚类，以获得所述至少一个有效动作单元对应的聚类特征；

将所述至少一个有效动作单元对应的聚类特征在动作信息库中进行匹配，以获得所述至少一个有效动作单元对应的语义结果；

将所述至少一个有效动作单元对应的语义结果进行整合，以获得所述动作视频的语义识别结果。

3.根据权利要求1或2所述的方法，其特征在于，对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段，包括：

将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界；

根据所述动作边界包含的动作起始点和动作结束点对所述动作特征序列进行切分，以获得至少一个有效动作单元对应的动作特征片段。

4.根据权利要求3所述的方法，其特征在于，将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界，包括：

按照时间顺序，在所述动作特征序列中选取至少一个候选动作起始点和至少一个候选动作结束点；

将所述至少一个候选动作起始点和至少一个候选动作结束点进行组合，以得到至少一个候选动作边界；

根据所述动作识别模型的模型参数，计算所述至少一个候选动作边界为实际动作边界的置信度；

根据所述至少一个候选动作边界为实际动作边界的置信度，识别到所述动作特征序列包含的动作边界。

5.根据权利要求4所述的方法，其特征在于，将所述动作特征序列送入动作识别模型，以识别到所述动作特征序列包含的动作边界之前，还包括：

对动作样本进行特征提取，以获得所述动作样本的特征序列；

根据所述动作识别模型的当前模型参数，在所述动作样本的特征序列上选取候选动作边界位置，并计算每个候选动作边界位置上动作开始的概率和动作结束的概率；

根据每个候选动作边界位置，生成预估动作；

根据所述预估动作对应的特征描述，确定所述每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度；

若所述置信度不满足设定的置信度要求，则对所述动作识别模型的当前模型参数进行调整，并返回选取所述候选动作边界位置的步骤；若所述置信度满足设定的置信度要求，则将所述当前模型参数作为所述动作识别模型的模型参数，并将所述预估动作对应的特征描述与所述动作样本的语义对应存储至动作信息库中。

6.根据权利要求5所述的方法，其特征在于，在根据所述预估动作对应的特征描述，确定所述每个候选动作边界位置上动作开始的概率和动作结束的概率的置信度之前，还包括：

采用ActionVLAD算法对所述预估动作包含的特征进行聚类，以获得所述预估动作对应的特征描述。

7.根据权利要求5所述的方法，其特征在于，对所述动作样本进行特征提取，以获得所述动作样本的特征序列，包括：

从所述动作样本中提取图像流数据和动作流数据；

分别对所述动作样本对应的图像流数据和动作流数据进行特征提取，得到所述动作样本在时间维度和空间维度上的特征序列；

按照所述动作样本对应的图像流数据和动作流数据的时间对应关系，对所述动作样本在时间维度和空间维度上的特征序列进行融合，以获得所述动作样本的特征序列。

8.根据权利要求5所述的方法，其特征在于，在对所述动作样本进行特征提取，以获得所述动作样本的特征序列之前，还包括以下至少一种操作：

从动作样本库中，获取所述动作样本；

从视频网站上，获取所述动作样本；

从动作发出者发出的动作视频中，提取所述动作样本。

9.根据权利要求1或2所述的方法，其特征在于，还包括：

将所述动作视频的语义识别结果发送至所述终端设备；或者，

若所述动作视频的语义识别结果是文本格式，将所述语义识别结果转换成语音内容并发送至所述终端设备。

10.一种动作识别方法，其特征在于，所述方法包括：

响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频；

将所述动作视频发送至服务器，以使服务器对所述动作视频进行特征提取以获得动作特征序列，对所述动作特征序列进行动作边界识别以获得至少一个有效动作单元对应的动作特征片段，并对所述至少一个有效动作单元对应的动作特征片段进行语义识别以获得所述动作视频的语义识别结果，所述服务器对所述动作视频进行特征提取以获得动作特征序列的方式包括：从所述动作视频中提取图像流数据和动作流数据，分别对所述图像流数据和所述动作流数据进行特征提取得到所述动作视频在时间维度和空间维度上的特征序列，以及按照所述图像流数据和所述动作流数据的时间对应关系，对所述动作视频在时间维度和空间维度上的特征序列进行融合以获得所述动作特征序列；

接收所述服务器返回的语义识别结果，并输出所述语义识别结果。

11.根据权利要求10所述的方法，其特征在于，输出所述语义识别结果，包括：

若所述语义识别结果是文本格式，则将所述语义识别结果转换成语音内容，并播放所述语音内容。

12.根据权利要求10或11所述的方法，其特征在于，响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频，包括：

响应于视频拍摄请求，对手语者发出的手语动作进行拍摄以获得手语动作视频。

13.一种终端设备，其特征在于，包括：摄像头、存储器以及处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行一条或多条计算机指令，以用于：响应于视频拍摄请求，通过所述摄像头针对动作发出对象进行拍摄以获得动作视频；将所述动作视频发送至服务器，以使服务器对所述动作视频进行特征提取以获得动作特征序列，对所述动作特征序列进行动作边界识别以获得至少一个有效动作单元对应的动作特征片段，并对所述至少一个有效动作单元对应的动作特征片段进行语义识别以获得所述动作视频的语义识别结果，所述服务器对所述动作视频进行特征提取以获得动作特征序列的方式包括：从所述动作视频中提取图像流数据和动作流数据，分别对所述图像流数据和所述动作流数据进行特征提取得到所述动作视频在时间维度和空间维度上的特征序列，以及按照所述图像流数据和所述动作流数据的时间对应关系，对所述动作视频在时间维度和空间维度上的特征序列进行融合以获得所述动作特征序列；接收所述服务器返回的语义识别结果，并输出所述语义识别结果。

14.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被执行时能够实现权利要求1-9中任一项所述方法中的步骤。

15.一种服务器，其特征在于，包括：存储器以及处理器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行一条或多条计算机指令，以用于：接收终端设备发送的需要进行语义识别的动作视频；对所述动作视频进行特征提取，以获得动作特征序列；对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果；

从所述动作视频中提取图像流数据和动作流数据；

16.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被执行时能够实现权利要求10-12中任一项所述方法中的步骤。

17.一种动作识别系统，其特征在于，包括：终端设备和服务器；

其中，所述终端设备，用于响应于视频拍摄请求，针对动作发出对象进行拍摄以获得动作视频；将所述动作视频发送至所述服务器，以使所述服务器对所述动作视频进行语义识别；接收所述服务器返回的语义识别结果，并输出所述语义识别结果；

所述服务器，用于接收终端设备发送的需要进行语义识别的动作视频；对所述动作视频进行特征提取，以获得动作特征序列；对所述动作特征序列进行动作边界识别，以获得至少一个有效动作单元对应的动作特征片段；对所述至少一个有效动作单元对应的动作特征片段进行语义识别，以获得所述动作视频的语义识别结果；

从所述动作视频中提取图像流数据和动作流数据；