CN112580557A

CN112580557A - 行为识别方法、装置、终端设备和可读存储介质

Info

Publication number: CN112580557A
Application number: CN202011560430.0A
Authority: CN
Inventors: 林灿然; 程骏; 郭渺辰; 邵池; 庞建新
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30
Also published as: WO2022134983A1

Abstract

本申请实施例提供一种行为识别方法、装置、终端设备和可读存储介质，该方法包括：获取目标视频；按照自适应抽帧策略对目标视频进行抽帧以获得多个视频帧，并将多个视频帧进行组合以获得若干数量的视频片段；基于三维卷积模型提取每一视频片段的特征向量，并基于注意力模块计算每一特征向量的权重，对每一特征向量分别进行权重加权以获得相同数量的加权特征向量；根据每一视频片段的加权特征向量进行行为识别以获得每一视频片段的行为，并基于所有视频片段的行为确定目标视频的最终行为。本申请的技术方案基于自适应抽帧策略及注意力机制进行行为识别，可以提升行为识别的准确率等。

Description

行为识别方法、装置、终端设备和可读存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种行为识别方法、装置、终端设备和可读存储介质。

背景技术

行为在人类日常生活中发挥着巨大的作用，通过识别人类的各种行为，可以为许多应用的落地提供重要的技术支持，如医学场景下检测病人行为是否规范来进行康复训练；教育场景下识别老师和学生的行为来改善教学质量；视频监控场景下检测打架斗殴行为及时发现突发事件；商场通过预测顾客的行为来改变营销策略等。

用于行为识别的模型的输入为视频，比传统的二维图像多了一个时序的维度，可以理解为一个视频是由许多帧的图像叠加而成。很多行为都是有强烈的时序信息，即先后顺序，例如开门和关门，如果没有时序信息，这两个行为是极其相似的。

然而，对于时序的行为识别，传统的方法普遍使用3D卷积，即在图像识别任务中使用2D卷积的基础上，增加一个维度，扩展到3D卷积。但是直接使用3D卷积会存在问题，3D卷积参数量较大，网络训练起来复杂，难以收敛，如果没有辅助的信息帮助学习，3D卷积很难学习到时序维度上的关键信息来对行为进行准确的识别。

发明内容

有鉴于此，本申请的目的是为了克服现有技术中的不足，提供一种行为识别方法、装置、终端设备和可读存储介质。

本申请的实施例提供一种行为识别方法，包括：

获取目标视频；

按照自适应抽帧策略对所述目标视频进行抽帧以获得多个视频帧，并将所述多个视频帧进行组合以获得若干数量的视频片段；

基于三维卷积模型提取每一所述视频片段的特征向量，并基于注意力模块计算每一所述特征向量的权重，对每一所述特征向量分别进行权重加权以获得相同数量的加权特征向量；

根据每一所述视频片段的所述加权特征向量进行行为识别以获得每一所述视频片段的行为，并基于所有视频片段的所述行为确定所述目标视频的最终行为。

在一种实施例中，所述自适应抽帧策略通过以下步骤预先获取：

利用包含多个视频样本的训练集进行视频抽帧训练，得到不同视频的帧数与抽帧间隔之间的选取关系，所述选取关系如下：

其中，l表示抽帧间隔；T_i表示第i个视频样本的帧数，i取值为1,…,C，C为该训练集中视频样本的数目；T_a表示该训练集中所有视频的平均帧数。

在一种实施例中，所述按照自适应抽帧策略对所述目标视频进行抽帧以获得多个视频帧，包括：

判断所述目标视频的视频类型，其中，所述视频类型包括离线视频和在线视频；

若所述目标视频为离线视频，则根据所述目标视频和基于所述训练集得到的所述选取关系确定所述目标视频的抽帧间隔；

若所述目标视频为在线视频，则将所述训练集中占比最高的抽帧间隔作为所述目标视频的抽帧间隔；

按照得到的所述抽帧间隔对所述目标视频进行抽帧以获得多个视频帧。

在一种实施例中，所述根据每一所述视频片段的所述加权特征向量进行行为识别以获得每一所述视频片段的行为，包括：

按照预设通道维度对所有的加权特征向量进行特征向量拼接，得到所述目标视频的特征向量矩阵；

将所述特征向量矩阵输入预设全连接层中，输出降维特征向量矩阵，所述降维特征向量矩阵中的每个特征向量的维度等于预设的行为类型数量；

通过预设激活函数计算所述降维特征向量矩阵中的每个特征向量中的各个行为类型的概率，得到每一所述视频片段的行为结果。

在一种实施例中，所述基于所有视频片段的所述行为确定所述目标视频的最终行为，包括：

将每一所述视频片段中概率最大的一类行为作为对应视频片段的行为；

通过投票选取出所有的视频片段中识别次数最多的一类行为作为所述目标视频最终的行为识别。

在一种实施例中，所述注意力模块包括依次连接的第一全连接层、修正线性单元和第二全连接层，所述基于注意力模块计算每一所述特征向量的权重，包括：

将对应特征向量输入所述第一全连接层，输出降维特征向量；

利用所述修正线性单元对所述降维特征向量进行激活；

将激活后的降维特征向量输入所述第二全连接层，输出升维特征向量；

利用归一化函数对所述升维特征向量进行归一化，得到所述对应特征向量的权重。

本申请的实施例还提供一种行为识别装置，包括：

获取模块，用于获取目标视频；

抽帧模块，用于按照自适应抽帧策略对所述目标视频进行抽帧以获得多个视频帧，并将所述多个视频帧进行组合以获得若干数量的视频片段；

权重计算模块，用于基于三维卷积模型提取每一所述视频片段的特征向量，并基于注意力模块计算每一所述特征向量的权重，对每一所述特征向量分别进行权重加权以获得相同数量的加权特征向量；

行为识别模块，用于根据每一所述视频片段的所述加权特征向量进行行为识别以获得每一所述视频片段的行为，并基于所有视频片段的所述行为确定所述目标视频的最终行为。

本申请的实施例还提供一种终端设备，所述终端设备包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施上述的行为识别方法。

在一种实施例中，所述终端设备为机器人。

本申请的实施例还提供一种可读存储介质，其存储有计算机程序，所述计算机程序被执行时，实施上述的行为识别方法。

本申请的实施例具有如下有益效果：

本申请实施例的行为识别方法通过先对目标视频进行自适应抽帧处理，可以去除该目标视频中的冗余信息，使得进行三维特征提取时可以大大减少计算量，还可以提高识别准确率等；进而，利用组合得到的包含时序维度的多个视频片段基于注意力模块进行各自的权重计算，并利用加权的特征向量进行行为识别时，利用了视频的时序维度等信息，提高了网络对有效特征的利用和识别能力，最终提高了行为识别的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例的行为识别方法的第一流程示意图；

图2示出了本申请实施例的行为识别方法的抽帧流程示意图；

图3示出了本申请实施例的行为识别方法的应用示意图；

图4示出了本申请实施例的行为识别方法的注意力模块的结构示意图；

图5示出了本申请实施例的行为识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下文中，可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

实施例1

请参照图1，本实施例提出一种行为识别方法，可用于各种需要识别行为的场景，该方法基于自适应抽帧策略及注意力机制进行行为识别，可以提升行为识别的准确率等。下面对该行为识别方法进行详细说明。

示范性地，如图1所示，该行为识别方法包括：

步骤S110，获取目标视频。

其中，该目标视频通常是指需要进行行为识别的视频。示范性地，如机器人、视频监控装置等终端设备可通过相应的拍摄装置来拍摄得到上述的目标视频，也可以是接收输入的目标视频等。可以理解，该目标视频的获取方式并不作限定。

步骤S120，按照自适应抽帧策略对目标视频进行抽帧以获得多个视频帧，并将该多个视频帧进行组合以获得若干数量的视频片段。

通常地，视频中的相邻视频帧之间由于包含的图像信息十分相似，故导致各视频帧之间会存在大量冗余信息。在行为识别模型的学习进程中，如果包含无用信息的视频帧(即背景帧)数量太多，将较大程度地干扰网络模型的学习，导致学习的效果不够好。为此，考虑到不同的视频所包含的冗余信息不同，本实施例提出了先对视频进行抽帧处理，从而降低视频自身的冗余程度，以便得到更准确的学习模型。优选地，通过自适应抽帧可以考虑到不同视频的不同冗余程度，使得该方法能够具有较好的适用性等。

其中，上述的自适应抽帧策略可预先通过对相关视频样本进行训练和测试得到。示范性地，可利用包含多个视频样本的训练集进行视频抽帧训练，得到不同视频的帧数与抽帧间隔之间的选取关系。其中，该抽帧间隔是指对视频每间隔相应帧数抽取一帧。进而，利用包含多个视频样本的测试集进行视频抽帧测试，从而验证上述的选取关系的合理性等。

在一种实施方式中，在训练过程中，通过计算训练集中每个视频样本的帧数，并根据训练集的视频总数计算出该训练集中视频的平均帧数。对于每个视频样本的帧数T_i，和所有视频的平均帧数T_a，可按照如下公式计算：

T_i＝f_i*s_i；

其中，C为该训练集中视频样本的数目；f_i为第i个视频样本的视频帧率；s_i为第i个视频样本的视频时长。

于是，基于对训练集中的各个视频进行抽帧训练，可得到不同视频的帧数T_i与抽帧间隔l之间的选取关系如下：

可以理解，对于第i个视频，若其帧数大于等于1.5倍的平均帧数，则每隔4帧抽取一视频帧；若其帧数大于0.5倍且小于1.5倍的平均帧数，则每隔2帧抽取一视频帧；若其帧数小于等于0.5倍的平均帧数，则每隔1帧抽取一视频帧。

在测试过程中，可根据视频的类型来进行不同类型的测试，例如，若为离线测试，由于提前知道对应视频的帧数，因此，可按照与训练的过程一样进行抽帧即可。若为在线测试，则可选取在训练阶段中占比最高的抽帧间隔作为最终的抽帧间隔，即选取出现次数最多的抽帧间隔数值。例如，若在训练阶段，抽帧间隔为4的情况出现60次，抽帧间隔为2的情况出现30，抽帧间隔为1的情况出现10，则选取抽帧间隔等于4进行测试。

示范性地，对于上述的步骤S120，获取到待识别的目标视频后，可按照预先获取的自适应策略进行抽帧处理，从而得到该目标视频的多个视频帧。如图2所示，按照自适应抽帧策略对目标视频进行抽帧的步骤，包括：

步骤S121，判断目标视频的视频类型，其中，视频类型包括离线视频和在线视频。若为离线视频，则执行步骤S122和S124，若为在线视频，则执行步骤S123和S124。

步骤S122，若为离线视频，则根据目标视频和基于训练集得到的选取关系确定目标视频的抽帧间隔。

对于离线的目标视频，可提前获取该目标视频的帧数，此时可按照上述的选取关系来确定其抽帧间隔。

步骤S123，若为在线视频，则将训练集中占比最高的抽帧间隔作为目标视频的抽帧间隔。

步骤S124，按照得到的抽帧间隔对目标视频进行抽帧获得多个视频帧。

对于在线的目标视频，由于其时长未知，因此，可通过在训练阶段的抽帧间隔的占比情况来确定抽帧间隔。值得注意的是，该目标视频通常与训练集中的这些视频样本通常为同一应用场景，例如，可以是相同条件下拍摄到的不同时刻的视频，这样可利用训练集的抽帧间隔来选取该目标视频的抽帧间隔，则具有较高的可信度。

进而，将这些抽取的视频帧按照相应的配比进行组合，得到若干个视频片段，如图3所示。优选地，可通过等比例方式进行组合，得到帧数均匀的多个视频片段，即每个视频片段的视频帧数量相等。

可以理解，上述步骤S120得到的每个视片段中的各视频帧之间存在相应的时序关系，每个视频帧除了包括二维平面图像特征外，还包括一维时序特征。

步骤S130，基于三维卷积模型提取每一视频片段的特征向量，并基于注意力模块计算每一特征向量的权重，对每一特征向量分别进行权重加权以获得相同数量的加权特征向量。

示范性地，可通过三维卷积模型提取每个视频片段的三维特征向量，例如，可采用通用的I3D卷积模型等。进而，基于注意力机制对各个视频片段的三维特征向量进行权重计算，通过该权重可以知晓每个视频片段相对于整个目标视频的重要程度，其中，每个权重的取值范围为[0，1]。

在一种实施方式中，如图4所示，该注意力模块包括依次连接的第一全连接层、修正线性单元和第二全连接层，其中，该修正线性单元也称ReLU激活函数。其中，第一全连接层主要用于对输入的特征向量进行降维，其输出一个降维特征向量。接着，利用修正线性单元对降维特征向量进行激活处理。第二全连接层则用于对激活后的降维特征向量进行升维，其输出一个升维特征向量，使得该特性向量重新变成降维前的维度。

最后，利用归一化函数对注意力模块输出的该升维特征向量进行归一化处理，即将其映射到[0,1]之间，得到当前特征向量的权重。示范性地，该归一化函数可采用sigmoid激活函数等。

于是，在得到每个特征向量的权重后，利用这些权重加权到原来的这些三维特征向量，即进行点乘运算，得到对应的三维加权特征向量。可知，利用含权重信息的视频片段的特征向量进行行为识别，可以提高行为识别网络模型对行为的识别能力。

步骤S140，根据每一视频片段的加权特征向量进行行为识别以获得每一视频片段的行为，并基于所有视频片段的行为确定目标视频的最终行为。

示范性地，如图3所示，可按照预设通道维度对所有的加权特征向量进行特征向量拼接，即按照channel通道的维度将这些三维加权特征向量按顺序拼接起来，从而得到该目标视频的特征向量矩阵。例如，若上述的加权特征向量的数量为N，channel通道的维度为1024，则该特征向量矩阵的维度即为N*1024。

于是，将上述的特征向量矩阵输入一预设的全连接层中以进行降维，最后输出一个降维特征向量矩阵，其中，该降维特征向量矩阵中的每个特征向量的维度等于预设的行为类型数量。例如，通过一全连接层将上述的N*1024的特征向量矩阵转换为N*k的特征向量矩阵，其中，k即需要识别的行为类型数量。接着，通过一预设激活函数计算上述的降维特征向量矩阵中的每个特征向量中的各个行为类型的概率，得到每一视频片段的行为结果。

在一种实施方式中，该预设激活函数为sigmoid激活函数。对于每个特征向量，可通过sigmoid激活函数将对应特征向量中各个行为类型进行阈值映射，得到每个行为的概率P，其中，P的取值范围为[0，1]。

为确定该目标视频的最终行为，示范性地，可将每一视频片段中概率最大的一类行为作为对应视频片段的行为，然后通过投票机制，从所有的视频片段中选取出识别次数最多的一类行为作为该目标视频最终的行为识别。

例如，对于N个特征向量，对于每一特征向量，其维度k对应于k个行为类型，每一个行为类型具有一个概率P，此时将概率最大的那个行为类型作为该当前视频片段的行为输出；进而，得到N个行为类型，通过投票，将这些N个行为类型中出现次数最多的行为作为该目标视频的最终行为。

本实施例的行为识别方法通过先对目标视频进行自适应抽帧处理，可以去除该目标视频中的冗余信息，使得利用三维卷积模型进行特征提取时可以大大减少计算量，还可以提高识别准确率等；进而，利用组合得到的包含时序维度的多个视频片段基于注意力模块进行各自的权重计算，并利用加权的特征向量进行行为识别时，可利用了视频的时序维度等来提高网络对有效特征的利用和识别能力，最终提高行为识别的准确率。

实施例2

请参照图5，基于上述实施例1的方法，本实施例提出一种行为识别装置，示范性地，该行为识别装置100包括：

获取模块110，用于获取目标视频。

抽帧模块120，用于按照自适应抽帧策略对所述目标视频进行抽帧以获得多个视频帧，并将所述多个视频帧进行组合以获得若干数量的视频片段。

在一种实施方式中，该抽帧模块120包括自适应抽帧子模块和组合子模块，自适应抽帧子模块用于按照自适应抽帧策略对所述目标视频进行抽帧以获得多个视频帧；组合子模块用于将所述多个视频帧进行组合以获得若干数量的视频片段。

其中，自适应抽帧子模块包括视频判断单元、抽取间隔确定单元和抽取单元，视频判断单元用于判断目标视频的视频类型，所述视频类型包括离线视频和在线视频。抽取间隔确定单元用于判断出目标视频为离线视频时，则根据目标视频和基于训练集得到的选取关系确定目标视频的抽帧间隔，还用于判断出目标视频为在线视频，则将训练集中占比最高的抽帧间隔作为目标视频的抽帧间隔。抽取单元则用于按照抽取间隔确定单元输出的抽帧间隔对目标视频进行抽帧以获得多个视频帧。

权重计算模块130，用于基于三维卷积模型提取每一所述视频片段的特征向量，并基于注意力模块计算每一所述特征向量的权重，对每一所述特征向量分别进行权重加权以获得相同数量的加权特征向量。

在一种实施方式中，上述的注意力模块可包括依次连接的第一全连接层、修正线性单元和第二全连接层。

行为识别模块140，用于根据每一视频片段的所述加权特征向量进行行为识别以获得每一视频片段的行为，并基于所有视频片段的所述行为确定所述目标视频的最终行为。

在一种实施方式中，行为识别模块140包括片段行为识别子模块和视频行为识别子模块。其中，片段行为识别子模块包括拼接单元、降维单元和概率计算单元，拼接单元用于按照预设通道维度对所有的加权特征向量进行特征向量拼接，得到所述目标视频的特征向量矩阵。降维单元用于将所述特征向量矩阵输入预设全连接层中，输出降维特征向量矩阵，其中，降维特征向量矩阵中的每个特征向量的维度等于预设的行为类型数量。概率计算单元用于通过预设激活函数计算所述降维特征向量矩阵中的每个特征向量中的各个行为类型的概率，得到每一所述视频片段的行为结果。

而视频行为识别子模块在目标视频的最终行为时，通过将每一视频片段中概率最大的一类行为作为对应视频片段的行为；通过投票选取出所有的视频片段中识别次数最多的一类行为作为所述目标视频最终的行为识别。

可以理解，本实施例的装置对应于上述实施例1的方法，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

本申请还提供了一种终端设备，例如，该终端设备可以包括机器人、视频监控装置等，示范性地，该终端设备包括处理器和存储器，其中，存储器存储有计算机程序，处理器通过运行所述计算机程序，从而使移动终端执行上述的行为识别方法或者上述行为识别装置中的各个模块的功能。

本申请还提供了一种计算机存储介质，用于储存上述终端设备中使用的所述计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

获取目标视频；

2.根据权利要求1所述的行为识别方法，其特征在于，所述自适应抽帧策略通过以下步骤预先获取：

3.根据权利要求2所述的行为识别方法，其特征在于，所述按照自适应抽帧策略对所述目标视频进行抽帧以获得多个视频帧，包括：

4.根据权利要求1所述的行为识别方法，其特征在于，所述根据每一所述视频片段的所述加权特征向量进行行为识别以获得每一所述视频片段的行为，包括：

5.根据权利要求4所述的行为识别方法，其特征在于，所述基于所有视频片段的所述行为确定所述目标视频的最终行为，包括：

6.根据权利要求1至5中任一项所述的行为识别方法，其特征在于，所述注意力模块包括依次连接的第一全连接层、修正线性单元和第二全连接层，所述基于注意力模块计算每一所述特征向量的权重，包括：

利用所述修正线性单元对所述降维特征向量进行激活；

7.一种行为识别装置，其特征在于，包括：

获取模块，用于获取目标视频；

8.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施权利要求1-6中任一项所述的行为识别方法。

9.根据权利要求8所述的终端设备，其特征在于，所述终端设备为机器人。

10.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被执行时，实施根据权利要求1-6中任一项所述的行为识别方法。