CN118115905A

CN118115905A - 一种视频中的特定行为识别方法、装置

Info

Publication number: CN118115905A
Application number: CN202211520968.8A
Authority: CN
Inventors: 吕方惠; 王琳; 袁昌龙; 夏敏
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2024-05-31

Abstract

本发明实施例提供了一种视频中的特定行为识别方法、装置，获取目标视频后，从目标视频中提取：人物对象全身形态信息、面部形态信息、音频信息以及音频信息对应的文本信息；首先根据全身形态信息，对人物对象进行动作识别，确定人物对象是否存在目标动作；初步判断人物对象是否存在特定行为，若可能存在特定行为，进一步判断人物对象的面部形态信息、音频信息以及文本信息是否符合各自对应的预设条件；在面部形态信息、音频信息以及文本信息中至少一种信息符合对应的预设条件的情况下，确定目标视频中的人物对象存在特定行为，通过多个维度对目标视频中人物对象的特定行为进行实时识别，解决了只由单一维度信息进行特定行为识别的可靠性问题。

Description

一种视频中的特定行为识别方法、装置

技术领域

本发明涉及图像处理领域，特别是涉及一种视频中的特定行为识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着科技的迅速发展，智能设备广泛的被运用到各个领域。工作人员在处理社会事件时，通常会佩戴记录仪，以将处理过程记录，以备在发生冲突事件时，通过记录的视频对处理过程研判。

目前，记录仪记录的视频通常在记录完成后，人工对视频进行识别判断，确定冲突事件发生的当事人，以及冲突事件的始末，或者通过对记录仪记录的视频进行动作识别，判断是否发生了肢体冲突事件。

但是，人工研判的方式由于发生在事件已经结束，无法实时的确定是否发生了冲突事件，不能对冲突事件及时处理，且带有较大的主观性，研判结果不够准确。通过动作识别的方式，识别信息较为单一，仅通过肢体形态难以可靠的得到是否发生了肢体冲突事件。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频中的特定行为识别方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例公开了一种视频中的特定行为识别方法，所述方法包括：

获取目标视频；

根据所述目标视频，从所述目标视频中提取：人物对象的全身形态信息、面部形态信息、音频信息以及所述音频信息对应的文本信息；

根据所述全身形态信息，对所述人物对象进行动作识别，确定所述人物对象是否存在目标动作；

在所述人物对象存在目标动作的情况下，判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件；

在所述面部形态信息、音频信息以及所述文本信息中至少一种信息符合对应的预设条件的情况下，确定所述目标视频中的人物对象存在特定行为。

第二方面，本申请实施例公开了一种视频中的特定行为识别装置，所述装置包括：

第一获取模块。用于获取目标视频；

第二获取模块，用于根据所述目标视频，从所述目标视频中提取：人物对象的全身形态信息、面部形态信息、音频信息以及所述音频信息对应的文本信息；

第一判断模块，用于根据所述全身形态信息，对所述人物对象进行动作识别，确定所述人物对象是否存在目标动作；

第二判断模块，用于在所述人物对象存在目标动作的情况下，判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件；

第一确定模块，用于在所述面部形态信息、音频信息以及所述文本信息中至少一种信息符合对应的预设条件的情况下，确定所述目标视频中的人物对象存在特定行为。

第三方面，本申请实施例还公开了一种电子设备，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的方法。

第四方面，本申请实施例还公开了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的方法。

本申请实施例中，获取目标视频后，从目标视频中提取：人物对象全身形态信息、面部形态信息、音频信息以及音频信息对应的文本信息；首先根据全身形态信息，对人物对象进行动作识别，确定人物对象是否存在目标动作；初步判断目标视频中的人物对象是否存在特定行为，在初步判断可能存在特定行为之后，进一步判断人物对象的面部形态信息、音频信息以及文本信息是否符合各自对应的预设条件；在面部形态信息、音频信息以及文本信息中至少一种信息符合对应的预设条件的情况下，确定目标视频中的人物对象存在特定行为，通过多个维度对目标视频中人物对象的特定行为进行实时识别，解决了只由单一维度信息进行特定行为识别的可靠性问题，提升了通过视频识别特定行为的可靠性与准确性。

附图说明

图1是本发明实施例提供的一种视频中的特定行为识别方法的步骤流程图；

图2是本发明实施例提供的又一种视频中的特定行为识别方法的步骤流程图；

图3是本发明实施例提供的一种特定行为处理的全流程图；

图4是本本发明实施例提供的一种视频中的特定行为识别装置框图；

图5是本发明实施例提供的一种电子设备的框图；

图6是本发明另一个实施例的另一种电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

参考图1，其示出了本申请实施例提供的一种视频中的特定行为识别方法的步骤流程图，包括：

步骤101，获取目标视频。

在本发明实施例中，目标视频指包含有声音的视频，目标视频是指通过采集终端采集的未处理的视频数据。目标视频数据可以是由一组连续的图像构成的连续的图像序列，视频数据可以是avi(Audio Video Interleaved，音频视频交错格式)、mp4(MovingPicture Experts Group 4，动态图像专家组)等格式。

进一步地，对于处理一些特殊事件的执行者来说，为了留存处理事件的过程，在处理事件时，可以随身配置记录仪，对事件的处理过程进行采集记录，在执行者的随行车辆也可以配置摄像记录仪，对整个处理场景进行记录，多个摄像设备采集的多路视频即为目标视频，目标视频可以通过无线局域网等方式实时的传输至数据数据处理中心，由数据处理中心实时的对获取的目标视频进行分析研判，判断当前是否存在特定行为，数据处理中心可以为单独设置的，用于对目标视频进行分析研判的平台或设备，特定行为例如：肢体冲突等。

步骤102，根据所述目标视频，从所述目标视频中提取：人物对象全身的形态信息、面部形态信息、音频信息以及所述音频信息对应的文本信息。

在本发明实施例中，音频信息可以是数字化的声音数据，音频信息可以是wav(波形声音文件)、cda(cda音轨索引格式)和mp3(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)等格式，本实施例中仅对音频信息、视频信息、文本信息的格式不进行限定。

在获取到目标视频后，数据处理中心可以对目标视频的数据进行分析，进一步根据目标视频，得到目标视频中包含的人物对象的全身形态信息，全身形态信息可以用于对人物对象的行为动作进行判断，确定是否出现了不当的或不友好的行为，还可以得到人物对象的面部形态信息，人物对象的面部形态信息通常可以放映出人物的情绪状态，例如：对于肢体冲突事件的当事人，其面部一般会呈现出生气或愤怒的信息，并伴有蹙眉等细微面部动作，通过面部形态信息可进一步确定，人物对象是否处于愤怒的情绪状态，进一步确定是否发生了特定的行为，进一步地，音频信息以语音的方式记录了事件处理过程，若人物对象处于愤怒的情绪，那么在说话时一般伴随着语速加快、音调升高等语音特征，通过获取的音频信息，可以进一步佐证是否发生了冲突行为，文本信息可以为根据音频信息得到的文本内容，冲突行为的发生过程中，经常出现带有情绪的词汇或句子，通过获取的文本信息，可以判断是否出现了不友好的词汇，以辅助判断是否发生了特定行为。

步骤103，根据所述全身形态信息，对所述人物对象进行动作识别，确定所述人物对象是否存在目标动作。

在本发明实施例中，可以首先根据全身形态信息，对人物对象的动作进行识别，判断是否出现了目标动作，目标动作例如：挥拳、肢体摆动幅度较大、踢打、碰撞等动作行为，若初步判断出现了目标动作，说明目标视频中可能存在冲突行为。例如：可以通过全身形态信息判断人物的肢体高度以及不同人物之间的距离确定是否是在冲突行为，也可以通过训练特定动作识别模型，将全身形态信息中的动作与识别模型进行匹配对比，确定视频数据中的全身形态信息是否包含特定动作。本实施例对此不做限定。

步骤104，在所述人物对象存在目标动作的情况下，判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件。

在本发明实施例中，在人物对象存在目标动作的情况下，初步判断人物对象存在冲突的行为，此时，可以进一步通过，判断面部形态信息、音频信息以及文本信息是否符合各自对应的预设条件，来进一步地确定是否存在特定的行为，以提高特定行为的识别准确率。

进一步，可以通过训练特定面部形态信息识别模型、音频信息识别模型、文本信息识别模型，来分别对面部形态信息、音频信息以及文本信息进行识别判断，例如，对于面部形态信息，通过可以将面部形态信息与面部形态信息识别模型进行匹配对比，确定人物对象是否实现了特定的表情特征，对于音频信息，可以将音频信息与音频信息识别模型进行匹配对比，确定人物对象是否实现了特定的语音特征，对于文本信息，通过可以将文本信息与文本信息识别模型进行匹配对比，确定人物对象是否实现了特定的关键词，以在存在特定行为的基础上，进一步佐证是否发生了特定的行为事件，提高特定行为识别的准确性与可靠性。

步骤105，在所述面部形态信息、音频信息以及所述文本信息中至少一种信息符合对应的预设条件的情况下，确定所述目标视频中的人物对象存在特定行为。

在本发明实施例中，在面部形态信息、音频信息以及文本信息中至少一个维度的信息符合对应的预设条件的情况下，可以确定目标视频中的人物对象存在特定行为，若存在特定行为，但面部形态信息、音频信息以及文本信息中均不符合对应的预设条件，那么认为目标视频中不存在特定行为。

进一步地，还可以对面部形态信息、文本信息、音频信息设置不同的权重信息，在进行判断时，通过权重信息确定特定行为发生的严重程度，进而执行不同的事件处理策略。

综上，本申请实施例中，获取目标视频后，从目标视频中提取：人物对象全身形态信息、面部形态信息、音频信息以及音频信息对应的文本信息；首先根据全身形态信息，对人物对象进行动作识别，确定人物对象是否存在目标动作；初步判断目标视频中的人物对象是否存在特定行为，在初步判断可能存在特定行为之后，进一步判断人物对象的面部形态信息、音频信息以及文本信息是否符合各自对应的预设条件；在面部形态信息、音频信息以及文本信息中至少一种信息符合对应的预设条件的情况下，确定目标视频中的人物对象存在特定行为，通过多个维度对目标视频中人物对象的特定行为进行实时识别，解决了只由单一维度信息进行特定行为识别的可靠性问题，提升了通过视频识别特定行为的可靠性与准确性。

参考图2，其示出了本申请实施例提供的另一种视频中的特定行为识别方法的步骤流程图，包括：

步骤201，获取目标视频。

此步骤参考步骤101，此处不再赘述。

步骤202，根据所述目标视频，从所述目标视频中提取：人物对象的全身形态信息、面部形态信息、音频信息以及所述音频信息对应的文本信息。

此步骤参考步骤102，此处不再赘述。

可选地，步骤202具体包括：

子步骤2021，从所述目标视频中识别人物的轮廓，保留所述人物轮廓所在区域，并将所述人物轮廓所在区域之外的区域删除，得到所述人物对象全身形态信息。

在本发明实施例中，人物对象全身形态信息为人物对象完整的整个身体的形态信息，在获得目标视频之后，为了精确的识别人物对象的动作，可以将视频中无关的内容进行删减，例如：人物对象所处的背景，避免干扰动作识别的结果，在提取人物对象的全身信息时，可以先对目标视频的图像中的人物轮廓进行识别，识别人物轮廓可以通过人物特征点识别的方式，在获取到人物轮廓后，保留图像中人物轮廓所在的区域，同时对人物轮廓所在区域之外的其他区域进行删减，即可得到仅包含人物对象的全身形态信息的视频，用于后续进行人物对象的动作识别。

子步骤2022，从所述人物形态信息中确定人脸区域，对所述人脸区域进行人脸特征点标定，并将所述人脸区域的画面裁剪，得到面部形态信息。

在本发明实施例中，在获得人物全身形态信息后，可以从人物全身形态信息中，进一步提取到仅包含人物对象的面部形态信息。

进一步地，从人物形态信息中确定人脸区域后，可以通过可以使用Dlib算法检测人脸区域的面部特征点(比如眼睛、嘴巴、鼻子等等)，通过对面部特征点的位置的分析，可以识别人物对象的面部肌肉的收缩状态，进而分析出人物对象的情绪状态(例如：愤怒、厌恶、恐惧、喜悦、悲伤和惊诧)，根据人物的面部形态信息可以推测人物对象的情绪状态、精神状态等信息，进而辅助判断人物对象是否存在特定行为。

子步骤2023，通过对所述目标视频进行音频提取，得到所述音频信息。

在本发明实施例中，通过对目标视频进行音频提取，可以得到与事件处理过程相关的音频信息，例如：利用moviepy包(一种用于视频编辑的库文件)对目标视频进行音频提取，并删除无声部分，得到对应的音频信息。不同人物具有不同的音色特征等语音特征，通过音频信息，可以确定目标视频中不同的人物对象对应的音频的一一对应关系，通过音频信息可以对人物对象的语音特征的分析，可以确定不同人物对象的情绪状态，进而辅助判断人物对象是否存在特定行为。。

子步骤2024，通过对所述音频信息进行文本识别，得到所述文本信息。

在本发明实施例中，通过对音频信息进行文本识别，可以得到与事件处理过程相关的音频信息对应的文本内容，例如：可以利用speech_recognition(语音识别)函数从音频信息中提取出语言文本信息，然后对语言文本信息进行预处理(移除标点、去掉停用词等)得到清洗的文本。通过对文本内容中包含的词汇的分析，可以辅助判断人物对象是否存在特定行为，例如：冲突行为的发生，通常伴随着攻击性的词汇。

步骤203，根据所述全身形态信息，对所述人物对象进行动作识别，确定所述人物对象是否存在目标动作。

可选地，步骤203具体包括：

子步骤2031，将包含所述全身形态信息的视频分帧，得到第一目标帧序列；

子步骤2032，将所述第一目标帧序列输入预设的第一模型，进行动作识别，所述第一模型为预先训练的，用于对所述第一目标帧序列中的人物对象进行动作识别，判断所述人物对象是否存在目标动作的模型。

在本发明实施例中，首先可以将预处理好的包含全身形态信息的视频分帧得到第一目标帧序列，将所述第一目标帧序列输入预设的第一模型，进行动作识别，第一模型可以为CNN(Convolutional Neural Networks，卷积神经网络)+LSTM(Short-Term Memory，长短期记忆网络)搭建的网络模型，并且已经通过预设的包含目标动作的图像或视频的数据训练集，训练完成的模型。将第一目标帧序列输入第一模型进行动作识别匹配，确定人物对象是否存在目标动作，判断是否发生了特定行为。第一目标帧序列同样可以作为训练数据继续对第一模型训练，优化第一模型的参数，使得第一模型对全身形态信息的动作识别更加的准确。

步骤204，在所述人物对象存在目标动作的情况下，判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件。

可选地，步骤204具体包括：

子步骤2041，将包含所述面部形态信息的视频分帧，得到第二目标帧序列；

子步骤2042，从所述第二目标帧序列的各帧中提取符合表情特征的关键帧；

在本发明实施例中，首先可以将预处理好的包含面部形态信息的视频分帧得到第二目标帧序列，从所述第二目标帧序列的各帧中提取符合表情特征的关键帧可以关键帧提取算法(K-means聚类法(一种迭代求解的聚类分析算法)、帧差最大值帧间差法)进行提取，提取后的关键帧可以统一尺寸后，再输入第二模型进行识别判断。

子步骤2043，将具有预设尺寸的所述关键帧输入预设的第二模型，判断是否符合对应的预设条件，所述第二模型为预先训练的，用于对所述关键帧进行识别，判断所述表情特征是否符合所述预设条件的的模型，所述预设条件为所述表情特征与预设的目标表情特征的相似度大于预设阈值。

在本发明实施例中，将所述关键帧输入预设的第二模型，进行面部特征识别，第二模型可以为卷积神经网络模型，第二模型已经通过包含目标表情特征的图像或视频的数据训练集，训练完成的模型。将第二目标帧序列输入第二模型进行面部表情特征匹配，确定人物对象是否存在预设的目标表情特征，进而辅助判断是否发生了特定行为。第二目标帧序列同样可以作为训练数据继续对第二模型训练，优化第二模型的参数，使得第二模型对面部形态信息的识别更加的准确。

可选地，步骤204具体包括：

子步骤2044，对所述音频信息进行特征提取，得到所述音频信息对应的语音特征，所述语音特征包括：韵律特征与谱特征。

在本发明实施例中，可以对音频信心利用音频特征提取算法(librosa算法(语音信号处理库)、scipy算法(优化算法))提取对应的语音特征，语音特征包括：韵律特征与谱特征。“韵律特征”是语言的一种音系结构，与句法和语篇结构、信息结构等其他语言学结构密切相关。韵律特征可以分为三个主要方面：语调、时域分布和重音，通过超音段特征实现。超音段特征包括音高，强度以及时间特性，由音位或音位群负载。韵律是人物对象的语音的一个典型特征，比如：音高下倾、重读、停顿等，谱特征包含了人物对象的情感信息、音频的能量等信息，通提取的语音特征可以对将音频与人物对象对应，并对人物对象的情绪进行分析。

子步骤2045，将所述语音特征输入预设的第三模型，判断所述音频信息是否符合对应的预设条件，所述第三模型为预先训练的，用于对所述语音特征进行识别，判断所述语音特征是否符合所述预设条件的模型，所述预设条件为所述语音特征与预设的目标语音特征的相似度大于预设阈值。

在本发明实施例中，将所述语音特征输入预设的第三模型，进行语音特征识别，第三模型可以为卷积神经网络模型，第二模型为已经通过包含目标语音特征的音频或视频的数据训练集，训练完成的模型。将语音特征输入第三模型进行语音特征匹配，确定人物对象是否存在与预设的目标语音特征相似度大于预设阈值的语音特征，进而辅助判断是否发生了特定行为。语音特征同样可以作为训练数据继续对第三模型训练，优化第三模型的参数，使得第三模型对语音特征的识别更加的准确。

可选地，步骤204具体包括：

子步骤2046，将所述文本信息转换为词向量，将所述词向量作为文本特征。

在本发明实施例中，由于文本信息无法被计算机直接分析的，因此文本信息并不能直接被输入第四模型，需转换为计算机可处理的0,1语言。利用word2vec(用来产生词向量的相关模型)词向量编码对文本信息进行处理，然后转换为数组的形式，再利用第四模型进行识别判断

子步骤2047，将所述文本特征输入预设的第四模型，判断所述文本信息是否符合对应的预设条件，所述第四模型为预先训练的，用于对所述文本特征进行关键词识别，判断所述文本特征是否符合所述预设条件的模型，所述预设条件为所述文本信息中包括预设的目标关键词。

在本发明实施例中，通过构造随机森林分类器，定义明显冲突词句，并将包含预设的目标关键词的训练数据集输入第四模型进行训练，得到训练好的第四模型，第四模型可以为卷积神经网络模型，将文本特征输入预设的第四模型，通过识别文本特征是否包含预设的目标关键词，辅助判断是否发生了特定行为。文本特征同样可以作为训练数据继续对第四模型训练，优化第四模型的参数，使得第四模型对语音特征的识别更加的准确。

步骤205，在所述面部形态信息、音频信息以及所述文本信息中至少一种信息符合对应的预设条件的情况下，确定所述目标视频中的人物对象存在特定行为。

此步骤可参考步骤105，此处不再赘述。

步骤206，向处理特定行为的执行者发出告警信号，所述告警信号包括：警报提示或语音提示。

在本发明实施例中，在确定目标视频中存在特定行为后，数据处理中心，可以向处理特定行为的执行者发出告警信号。处理特定行为的执行者除佩戴记录仪之外，还佩戴对讲机或其他通讯工具，在确定目标视频中存在特定行为后，数据处理中心，可以向处理特定行为的执行者发出告警信号，对执行者进行提示，同时，数据处理中心还可以将存在特定行为的状况向不在事件处理现场的执行者提示，以及时的增派人员以及装备赶赴事件处理现场进行支援，使得特定行为可以被及时的发现并处理，提高事件的处理效率。

可选地，在步骤205之后，所述方法还包括：

步骤207，对所述目标视频中的人物对象进行人脸识别，确定存在特定行为的人物对象的身份信息。

在本发明实施例中，处理特定行为的执行者的人脸信息可以预先采集并存储在数据处理中心，在确定目标视频存在特定行为之后，数据处理中心可以对目标视频的图像进行人脸识别，以确定存在特定行为的人物对象的身份信息是执行者还是被执行者。

步骤208，若所述人物对象人脸识别成功，则确定存在特定行为的人物对象的身份信息为执行者。

在本发明实施例中，若人物对象人脸识别成功，表明目标视频中的人物对象的身份信息已经采集并保存在数据处理中心，人物对象是执行者。

步骤209，若所述人物对象人脸识别失败，则确定存在特定行为的人物对象的身份信息为被执行者。

在本发明实施例中，若人物对象人脸识别失败，表明目标视频中的人物对象的身份信息未采集，人物对象是被执行者。通过确定人物对象的身份信息，可以对事件性质进行确定，方便后续基于目标视频对人物对象做进一步处理。

可选地，在步骤207之后，所述方法还包括：

步骤210，若存在特定行为的人物对象的身份信息为执行者，则将所述目标视频分类为第一类型视频存储。

在本发明实施例中，若存在特定行为的人物对象的身份信息为执行者，则将所述目标视频分类为第一类型视频存储，作为后续对人物对象的处罚依据。

步骤211，若存在特定行为的人物对象的身份信息为被执行者，则将所述目标视频分类为第二类型视频存储。

在本发明实施例中，若存在特定行为的人物对象的身份信息为被执行者，则将所述目标视频分类为第二类型视频存储，同样，作为后续对人物对象的处罚依据。

通过将不同性质类型的视频数据分类存储，使得后续对目标视频的事件进一步调查更加方便，使得视频的存储更加规范。

可选地，所述方法还包括：

步骤212，在所述人物对象不存在目标动作的情况下，确定所述目标视频中的人物对象不存在特定行为，停止判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件。

在本发明实施例中，在所述人物对象不存在目标动作的情况下，确定所述目标视频中的人物对象不存在特定行为，此时，无需继续判断面部形态信息、音频信息以及所述文本信息，节约处理性能。

参考图3，图3是一种特定行为处理的全流程图，包括步骤S1-S5，S1：首先由记录仪或其他摄像设备进行数据采集，步骤S2，数据处理中心可以获取采集的数据，获取采集的数据后，进行数据处理，通过目标视频获得得到全身形态信息、面部形态信息、音频信息、文本信息四个维度的信息，步骤S3，之后就对四个维度的信息进行数据分析研判，确定是否存在特定行为，步骤S4，在存在特定行为后，确定发生目标行为的人物对象是执行者还是被执行者；步骤S5，将目标视频分类，并按照不同的分类将视频存储留证。通过数据处理、数据分析、目标视频分类以及数据留证等全流程的监管，使得数据处理中心从源头对数据进行了治理并有效利用了目标视频所提供的全量特征信息，利用数据处理中心对特定行为实时识别更加方便快捷且可靠。

参考图4，其示出了本申请实施例提供的一种视频中的特定行为识别装置，包括：

第一获取模块301。用于获取目标视频；

第二获取模块302，用于根据所述目标视频，从所述目标视频中提取：人物对象的全身形态信息、面部形态信息、音频信息以及所述音频信息对应的文本信息；

第一判断模块303，用于根据所述全身形态信息，对所述人物对象进行动作识别，确定所述人物对象是否存在目标动作；

第二判断模块304，用于在所述人物对象存在目标动作的情况下，判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件；

第一确定模块305，用于在所述面部形态信息、音频信息以及所述文本信息中至少一种信息符合对应的预设条件的情况下，确定所述目标视频中的人物对象存在特定行为。

可选地，所述装置还包括：

人脸识别模块，用于对所述目标视频中的人物对象进行人脸识别，确定存在特定行为的人物对象的身份信息；

第一识别结果确定模块，用于若所述人物对象人脸识别成功，则确定存在特定行为的人物对象的身份信息为执行者；

第二识别结果确定模块，若所述人物对象人脸识别失败，则确定存在特定行为的人物对象的身份信息为被执行者。

可选地，所述装置还包括：

第一存储模块，用于若存在特定行为的人物对象的身份信息为执行者，则将所述目标视频分类为第一类型视频存储；

第二存储模块，用于若存在特定行为的人物对象的身份信息为被执行者，则将所述目标视频分类为第二类型视频存储。

可选地，所述第二获取模块302，包括：

全身形态信息提取子模块，用于从所述目标视频中识别人物的轮廓，保留所述人物轮廓所在区域，并将所述人物轮廓所在区域之外的区域删除，得到所述人物对象全身形态信息；

面部形态信息提取子模块，用于从所述人物形态信息中确定人脸区域，对所述人脸区域进行人脸特征点标定，并将所述人脸区域的画面裁剪，得到面部形态信息；

音频信息提取子模块，通过对所述目标视频进行音频提取，得到所述音频信息；

文本信息提取子模块，用于通过对所述音频信息进行文本识别，得到所述文本信息。

可选地，所述第一判断模块303，包括：

第一视频处理子模块，用于将包含所述全身形态信息的视频分帧，得到第一目标帧序列；

第一识别子模块，用于将所述第一目标帧序列输入预设的第一模型，进行动作识别，所述第一模型为预先训练的，用于对所述第一目标帧序列中的人物对象进行动作识别，判断所述人物对象是否存在目标动作的模型。

可选地，所述第一判断模块303，包括：

第二视频处理子模块，用于将包含所述面部形态信息的视频分帧，得到第二目标帧序列；

关键帧提取子模块，用于从所述第二目标帧序列的各帧中提取符合表情特征的关键帧；

第二识别子模块，用于将具有预设尺寸的所述关键帧输入预设的第二模型，判断是否符合对应的预设条件，所述第二模型为预先训练的，用于对所述关键帧进行识别，判断所述表情特征是否符合所述预设条件的模型，所述预设条件为所述表情特征与预设的目标表情特征的相似度大于预设阈值。

可选地，所述第一判断模块303，包括：

音频处理子模块，用于对所述音频信息进行特征提取，得到所述音频信息对应的语音特征，所述语音特征包括：韵律特征与谱特征；

第三识别子模块，用于将所述语音特征输入预设的第三模型，判断所述音频信息是否符合对应的预设条件，所述第三模型为预先训练的，用于对所述语音特征进行识别，判断所述语音特征是否符合所述预设条件的模型，所述预设条件为所述语音特征与预设的目标语音特征的相似度大于预设阈值。

可选地，所述第一判断模块303，包括：

文本处理子模块，将所述文本信息转换为词向量，将所述词向量作为文本特征；

第四识别模块，用于将所述文本特征输入预设的第四模型，判断所述文本信息是否符合对应的预设条件，所述第四模型为预先训练的，用于对所述文本特征进行关键词识别，判断所述文本特征是否符合所述预设条件的的模型，所述预设条件为所述文本信息中包括预设的目标关键词。

可选地，所述装置还包括：

告警模块，用于向处理特定行为的执行者发出告警信号，所述告警信号包括：警报提示或语音提示。

可选地，所述装置还包括：

第二确定模块，用于在所述人物对象不存在目标动作的情况下，确定所述目标视频中的人物对象不存在特定行为，停止判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件。

图5据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610用于输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于实现本申请实施例提供的一种视频中的特定行为识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图6，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行本申请实施例提供的一种视频中的特定行为识别方法。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频中的特定行为识别方法，其特征在于，所述方法包括：

获取目标视频；

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频中的人物对象存在特定行为之后，所述方法还包括：

对所述目标视频中的人物对象进行人脸识别，确定存在特定行为的人物对象的身份信息；

若所述人物对象人脸识别成功，则确定存在特定行为的人物对象的身份信息为执行者；

若所述人物对象人脸识别失败，则确定存在特定行为的人物对象的身份信息为被执行者。

3.根据权利要求2所述的方法，其特征在于，所述确定存在特定行为的人物对象的身份信息之后，所述方法还包括：

若存在特定行为的人物对象的身份信息为执行者，则将所述目标视频分类为第一类型视频存储；

若存在特定行为的人物对象的身份信息为被执行者，则将所述目标视频分类为第二类型视频存储。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频，从所述目标视频中提取：人物对象全身形态信息、面部形态信息、音频信息以及所述音频信息对应的文本信息，包括：

从所述目标视频中识别人物的轮廓，保留所述人物轮廓所在区域，并将所述人物轮廓所在区域之外的区域删除，得到所述人物对象全身形态信息；

从所述人物形态信息中确定人脸区域，对所述人脸区域进行人脸特征点标定，并将所述人脸区域的画面裁剪，得到面部形态信息；

通过对所述目标视频进行音频提取，得到所述音频信息；

通过对所述音频信息进行文本识别，得到所述文本信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述全身形态信息，对所述人物对象进行动作识别，包括：

将包含所述全身形态信息的视频分帧，得到第一目标帧序列；

将所述第一目标帧序列输入预设的第一模型，进行动作识别，所述第一模型为预先训练的，用于对所述第一目标帧序列中的人物对象进行动作识别，判断所述人物对象是否存在目标动作的模型。

6.根据权利要求1所述的方法，其特征在于，所述判断所述面部形态信息，是否符合对应的预设条件，包括：

将包含所述面部形态信息的视频分帧，得到第二目标帧序列；

从所述第二目标帧序列的各帧中提取符合表情特征的关键帧；

将具有预设尺寸的所述关键帧输入预设的第二模型，判断是否符合对应的预设条件，所述第二模型为预先训练的，用于对所述关键帧进行识别，判断所述表情特征是否符合所述预设条件的模型，所述预设条件为所述表情特征与预设的目标表情特征的相似度大于预设阈值。

7.根据权利要求1所述的方法，其特征在于，所述判断所述音频信息是否符合对应的预设条件，包括：

对所述音频信息进行特征提取，得到所述音频信息对应的语音特征，所述语音特征包括：韵律特征与谱特征；

将所述语音特征输入预设的第三模型，判断所述音频信息是否符合对应的预设条件，所述第三模型为预先训练的，用于对所述语音特征进行识别，判断所述语音特征是否符合所述预设条件的模型，所述预设条件为所述语音特征与预设的目标语音特征的相似度大于预设阈值。

8.根据权利要求1所述的方法，其特征在于，所述判断所述文本信息是否符合对应的预设条件，包括：

将所述文本信息转换为词向量，将所述词向量作为文本特征；

将所述文本特征输入预设的第四模型，判断所述文本信息是否符合对应的预设条件，所述第四模型为预先训练的，用于对所述文本特征进行关键词识别，判断所述文本特征是否符合所述预设条件的模型，所述预设条件为所述文本信息中包括预设的目标关键词。

9.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频中的人物对象存在特定行为之后，所述方法还包括：

向处理特定行为的执行者发出告警信号，所述告警信号包括：警报提示或语音提示。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述人物对象不存在目标动作的情况下，确定所述目标视频中的人物对象不存在特定行为，停止判断所述面部形态信息、音频信息以及所述文本信息是否符合各自对应的预设条件。

11.一种视频中的特定行为识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标视频；

12.一种电子设备，其特征在于，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至10中任一项所述的方法。