CN111460889A

CN111460889A - 一种基于语音及图像特征的异常行为识别方法、装置及设备

Info

Publication number: CN111460889A
Application number: CN202010123166.8A
Authority: CN
Inventors: 雷宇泽; 陈远旭; 周宝; 骆加维; 廖智
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-28
Anticipated expiration: 2040-02-27
Also published as: WO2021169209A1; CN111460889B

Abstract

本申请属于人工智能领域，公开了一种基于语音及图像特征的异常行为识别方法、装置及设备，利用经过学习训练后得到的人体特征提取模型对用户的图像进行特征提取得到待识别的图像特征向量，然后对用户的语音进行特征提取得到待识别的语音特征向量，再将待识别的图像特征向量和待识别的语音特征向量进行交叉融合后得到待识别的融合特征向量，利用卷积神经网络经过学习训练得到的异常行为识别模型对待识别的融合特征向量进行处理判断用户的动作是否属于异常行为，如果是证明该用户属于危险人员，启动对应的拦截功能对该用户进行拦截。这样能够更加快捷准确的识别行为异常的用户，有效提高了企业的安全系数，对企业的用户的安全提供了有效的保障。

Description

一种基于语音及图像特征的异常行为识别方法、装置及设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于语音及图像特征的异常行为识别方法、装置及设备。

背景技术

服务业的安防系统关系到社会稳定和人民的财产安全，一直以来都是安全防范发展的重点。例如，银行网点现有的安防系统已无法可靠保障银行网点营业和网点内人员的安全。

一些服务业的安防系统，都是采用触发报警或者视频监控的方式，这种方式只能在危险人员进入后，通知相关人员及时进行处理。

现有的安防系统对于人员的行为识别都只是根据视频或者图片中的人体姿态进行识别的，对于危险的基于语音及图像特征的异常行为识别的准确率较低，这样就会出现将安全人员误认为危险人员，或者将危险人员安全放行危害公共安全的情况。

发明内容

有鉴于此，本申请提供了一种基于语音及图像特征的异常行为识别方法、装置及设备。主要目的在于解决目前的基于语音及图像特征的异常行为识别的准确率较低的技术问题。

依据本申请的第一方面，提供了一种基于语音及图像特征的异常行为识别方法，所述方法的步骤包括：

当检测到用户进入识别区域后，控制摄像头获取用户的待识别的动作图像，同时启动录音结构，录制预定时间的待识别的语音；

对所述待识别的动作图像进行特征提取，得到待识别的特征矩阵；

利用人体特征提取模型对所述待识别的特征矩阵进行处理，得到对应的待识别的图像特征向量；

对所述待识别的语音进行文本特征提取，得到待识别的语音特征向量；

将所述待识别的图像特征向量和所述待识别的语音特征向量进行交叉融合得到待识别的融合特征向量；

将待识别的融合特征向量输入至异常行为识别模型中进行处理，输出对应的人体动作类别，以及所述人体动作类别是否属于异常行为。

依据本申请的第二方面，提供了一种基于语音及图像特征的异常行为识别装置，所述装置包括：

获取模块，当检测到用户进入识别区域后，控制摄像头获取用户的待识别的动作图像，同时启动录音结构，录制预定时间的待识别的语音；

图像特征提取模块，用于对所述待识别的动作图像进行特征提取，得到待识别的特征矩阵；

特征处理模块，用于利用人体特征提取模型对所述待识别的特征矩阵进行处理，得到对应的待识别的图像特征向量；

语音特征提取模块，用于对所述待识别的语音进行文本特征提取，得到待识别的语音特征向量；

融合特征模块，用于将所述待识别的图像特征向量和所述待识别的语音特征向量进行交叉融合得到待识别的融合特征向量；

基于语音及图像特征的异常行为识别模块，用于将待识别的融合特征向量输入至异常行为识别模型中进行处理，输出对应的人体动作类别，以及所述人体动作类别是否属于异常行为。

依据本申请的第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述基于语音及图像特征的异常行为识别方法的步骤。

依据本申请的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述基于语音及图像特征的异常行为识别的步骤。

借由上述技术方案，本申请提供的一种基于语音及图像特征的异常行为识别方法、装置及设备，利用经过学习训练后得到的人体特征提取模型对用户的图像进行特征提取得到待识别的图像特征向量，然后对用户的语音进行特征提取得到待识别的语音特征向量，再将待识别的图像特征向量和待识别的语音特征向量进行交叉融合后得到待识别的融合特征向量，利用卷积神经网络经过学习训练得到的异常行为识别模型对待识别的融合特征向量进行处理判断用户的动作是否属于异常行为，如果是证明该用户属于危险人员，启动对应的拦截功能对该用户进行拦截，防止该用户对其他人的人身财产造成伤害。这种根据用户的图像和声音共同来确定用户的动作对应的动作类别，并判断该动作类别是否属于异常动作，以便根据判断结果采取相应的措施，能够更加快捷准确的识别行为异常的用户，有效提高了企业的安全系数，对企业的用户的安全提供了有效的保障。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的基于语音及图像特征的异常行为识别方法的一个实施例的流程图；

图2为本申请的室内布置示意图；

图3为本申请的时空卷积网络的训练流程图；

图4为本申请的语音特征提取的流程图；

图5为本申请的异常行为识别模型的训练流程图；

图6为基于语音及图像特征的异常行为识别装置的一个实施例的结构框图；

图7为本申请的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种基于语音及图像特征的异常行为识别方法，能够根据用户的图像和声音共同来确定用户的动作对应的动作类别，并判断该动作类别是否属于异常动作，以便根据判断结果采取相应的措施，这种基于语音及图像特征的异常行为识别方法更加快捷准确。

如图1所示，本申请实施例提供了一种基于语音及图像特征的异常行为识别方法，包括如下步骤：

步骤101，当检测到用户进入识别区域后，控制摄像头获取用户的待识别的动作图像，同时启动录音结构，录制预定时间的待识别的语音。

在该步骤中，该基于语音及图像特征的异常行为识别方法的执行者可以是机器人，可以是企业的安防系统，在该机器人或者安防系统中保存有该基于语音及图像特征的异常行为识别方法的执行程序。并且为机器人或者安防系统的设定一个识别区域，区域的大小和范围可以根据需要进行设定。当摄像头扫描到用户进入识别区域后，则将摄像头对准用户拍摄用户的动作图像，同时录制用户的语音。

步骤102，对待识别的动作图像进行特征提取，得到待识别的特征矩阵。

在该步骤中，将得到的待识别的动作图像进行数字转换，并将用户周围的环境图像删除，对用户的图像进行抓取，然后再将用户图像中用户的面部表情、肢体动作、手持物体等信息特征进行提取，并转换成维度为D的待识别的特征矩阵。

步骤103，利用人体特征提取模型对待识别的特征矩阵进行处理，得到对应的待识别的图像特征向量。

在该步骤中，人体特征提取模型是时空卷积网络利用大量的代表各种人体行为的图像进行学习训练得到的。该人体特征提取模型训练完成后，就将对应的代码程序写入机器人或者安防系统中。且人体特征提取模型的输入口的维度为D保证待识别的特征矩阵能够顺利进入人体特征提取模型进行处理，无需再进行转换，这样经过处理后得到的待识别的图像特征向量的维度也为D。

步骤104，对待识别的语音进行文本特征提取，得到待识别的语音特征向量。

在该步骤中，将待识别的语音中的文本信息提取出来，并转换成相应的数字，将数字进行矩阵排列，排列成维度为D的待识别的语音特征向量。

步骤105，将待识别的图像特征向量和待识别的语音特征向量进行交叉融合得到待识别的融合特征向量。

在该步骤中，由于待识别的图像特征向量和待识别的语音特征向量的维度相同，因此，直接将二者的直接交叉融合后得到的待识别的融合特征向量的维度也为D。

步骤106，将待识别的融合特征向量输入至异常行为识别模型中进行处理，输出对应的人体动作类别，以及人体动作类别是否属于异常行为。

在该步骤中，将大量的人体行为图像和录制的大量语音，并将人体行为图像和录制的语音同理上述步骤102-105得到能够用来训练卷积神经网络的融合特征向量，并将该融合特征向量输入卷积神经网络进行训练完成后得到能够识别人体行为的异常行为识别模型，将异常行为识别模型对应的代码程序写入机器人或者安防系统中。这样机器人或者安防系统就可以利用人体特征提取模型和异常行为识别模型按照上述相互配合使用来对进入企业的人员进行检测，若检测出该人员的行为属于异常行为，则控制机器人对该人员进行拦截，或者启动安防系统的拦截功能，对该人员进行拦截，同时启动报警装置，通知工作人员前来进行处理。这种基于语音及图像特征的异常行为识别方法有效保护企业、员工以及用户的人身财产的安全。

通过上述技术方案，利用经过学习训练后得到的人体特征提取模型对用户的图像进行特征提取得到待识别的图像特征向量，然后对用户的语音进行特征提取得到待识别的语音特征向量，再将待识别的图像特征向量和待识别的语音特征向量进行交叉融合后得到待识别的融合特征向量，利用卷积神经网络经过学习训练得到的异常行为识别模型对待识别的融合特征向量进行处理判断用户的动作是否属于异常行为，如果是证明该用户属于危险人员，启动对应的拦截功能对该用户进行拦截，防止该用户对其他人的人身财产造成伤害。这种根据用户的图像和声音共同来确定用户的动作对应的动作类别，并判断该动作类别是否属于异常动作，以便根据判断结果采取相应的措施，能够更加快捷准确的识别行为异常的用户，有效提高了企业的安全系数，对企业的用户的安全提供了有效的保障。

在具体实施例中，在步骤103之前，方法还包括：

步骤1031，获取多个表示各种人体动作的样本图像，对每个样本图像标注对应的人体动作标签。

在该步骤中，人体的各种动作包括：奔跑、行走、鼓掌、手持枪具、手持刀具、挥拳、脚踢等，将每个样本图像对应的人体动作进行标注，以供后续进行训练时，判断识别结果是否正确。其中，每个样本图像中包括多张人体动作图片，优选为4张。

步骤1032，对多个样本图像中的每个样本图像分别进行特征提取，得到多个样本特征矩阵。

在该步骤中，将多个样本图像进行数字转换，并将人物周围的环境图像删除，对人物的图像进行抓取，然后再将人物图像中面部表情、肢体动作、手持物体等信息特征进行提取，并转换成维度为D的样本特征矩阵。

步骤1033，构建五层时空卷积网络，将多个样本特征矩阵依次输入时空卷积网络的前三层进行处理，将得到多个一维特征向量传送给时空卷积网络的后两层进行识别处理，输出与每个样本图像对应的样本人体动作类别。

步骤1034，将样本人体动作类别与对应的人体动作标签进行比对确定样本损失函数，根据样本损失函数对时空卷积网络的参数进行调整得到时空卷积网络模型。

在上述步骤中，利用维度为D的样本特征矩阵对时空卷积网络进行训练，时空卷积网络会对样本特征矩阵进行处理并输出对应的样本人体动作类别，这样就可以将该样本人体动作类别与正确的人体动作标签进行比对，每比对一次计算一次样本损失函数，并根据样本损失函数调整一次时空卷积网络，然后将调整好的时空卷积网络对下一个样本特征矩阵进行训练，并不断重复该过程直至所有的样本特征矩阵全部训练完成为止，得到能够根据图像识别人体动作类型的时空卷积网络模型。

另外，每种人体动作可以获取多个样本图像，这样经过多次同类的样本图像训练得到的时空卷积网络模型能够更好的对对该人体类别进行识别。

步骤1035，将时空卷积网络模型的最后两层删除，得到人体特征提取模型。

在该步骤中，本申请并不是单纯的根据图像进行识别，而是将图像与声音进行结合后进行识别，因此需要将时空卷积网络模型的最后两层删除，这样该模型就能够直接得出人体特征矩阵了。

在具体实施例中，步骤1033具体包括：

步骤10331，构建的时空卷积网络的五层结构分别是，第一层接收层、第二层空间特征分析层、第三层时间特征分析层、第四层全连接层、第五层分类层。

步骤10332，第一层将接收到的样本特征矩阵传送至第二层。

步骤10333，第二层将样本特征矩阵的空间特征进行提取，将提取后的空间特征和样本特征矩阵一起发送至第三层。

步骤10334，第三层将对样本特征矩阵中的时间特征进行提取，并将时间特征和空间特征进行组合形成一维特征向量，发送至第四层。

步骤10335，第四层对一维特征向量进行全连接处理，将处理后的一维特征向量发送至第五层。

步骤10336，第五层对处理后的一维特征向量进行分析，确定出对应的样本人体动作类别后输出。

在上述方案中，第一层有D个输入口，这样可以将维度为D的样本特征矩阵按照矩阵的方式直接输入，输入完成后，进入第二层将样本特征矩阵中的人体动作的图像作为空间特征进行提取，然后第三层将多张图像得到的每个人体动作按照时间顺序进行分析，进而将时间特征和空间特征组合在一起，成为一维特征向量，第四层和第五层直接根据该一维特征向量得出对应的样本动作类别。这样就可以在空间和时间两个维度确定样本特征矩阵的一维特征向量，使得根据该一维特征向量确定的赝本动作类别更加准确快捷。

在具体实施例中，步骤106之前具体包括：

步骤1061，针对M个人分别获取每个人的动作图像作为训练图像，同时对每个人录制预定时间的训练语音，得到M个训练图像和M个训练语音。

在该步骤中，将每个人得到的训练图像和训练语音进行组合，这样使得得到的训练融合特征向量均出自同一个人，能够更好的根据训练融合特征向量进行训练。

步骤1062，对每个训练图像和每个训练语音均对应标注训练人体动作标签。

在该步骤中，将同一个人对应的训练图像和训练语音标注的训练人体动作标签相同。

步骤1063，对每个训练图像分别进行特征提取，得到M个训练特征矩阵。

在该步骤中，将每个训练图像进行数字转换，并将人体周围的环境图像删除，对人体的图像进行抓取，然后再将人体的面部表情、肢体动作、手持物体等信息特征进行提取，并转换成维度为D的训练特征矩阵。

步骤1064，将M个训练特征矩阵依次输入至人体特征提取模型中进行处理，输出M个训练图像特征向量。

在该步骤中，该训练特征矩阵经过人体特征提取模型的三层进行处理后，得到对应的训练图像特征向量。

步骤1065，对M个训练语音进行文本特征提取，得到M个训练语音特征向量。

在该步骤中，利用自动语音识别系统(Automatic Speech Recognition)对每个训练语音进行语音识别，转换成相应的文字，将文字进行特征提取得到维度为D的训练语音特征矩阵。

步骤1066，将属于同一个人体动作标签的训练图像特征向量和训练语音特征向量进行交叉融合得到训练融合特征向量，M个训练图像特征向量和M个训练语音特征向量对应融合成M个训练融合特征向量。

在该步骤中，将属于同一个人体动作标签的的训练图像特征向量和训练语音特征向量进行融合，这样得到的训练融合特征向量的人体动作标签的唯一性。

步骤1067，将M个训练融合特征向量依次输入卷积神经网络中进行训练处理，并将输出的训练人体动作类别与对应的训练人体动作标签进行比对，确定出相应的训练损失函数。

步骤1068，根据训练损失函数对卷积神经网络进行调整得到卷积神经网络模型。

在该步骤中，训练融合特征向量每输入一次获得一个训练损失函数，根据该训练损失函数对卷积神经网络的参数进行调整后，再输入下一个训练融合特征向量，并不断重复该过程，直至所有的训练融合特征向量全部训练完成为止，这样就可以得到能够根据人物的图像和语音进行结合后的融合特征向量进行人体动作识别的卷积神经网络模型。

步骤1069，在卷积神经网络的输出层之前，添加能够根据得到的训练人体动作类别判断是否属于异常行为行为的判断层，得到异常行为识别模型。

在该步骤中，在判断层中加入属于异常行为的人体动作类别的名称。这样，当卷积神经网络模型得出人体动作类别之后，从加入的异常性行为的人体动作类别中搜寻该人体动作类别。若存在，证明该人体动作类别属于异常行为，则直接将该人体动作类别以及判断结果从输出层输出。若不存在，证明该人体动作类别不属于异常行为，则将该人体动作类别以及判断结果从输出层输出。

在具体实施例中，方法还包括：

步骤101’，当检测到用户进入识别区域后，控制摄像头获取用户的多张待识别的动作图像，同时启动录音结构，录制预定时间的待识别的语音。

则步骤102具体包括：

步骤1021，将多张待识别的动作图像输入编码处理器，利用编码处理器中的自注意力机制层对每一张待识别的动作图像进行可视化分析，提取每一张待识别的动作图像的可视化特征，则多张待识别的动作图像对应得到多个可视化特征。

在该步骤中，预先在编码处理器中添加自注意力机制层，利用自注意力机制层能够将每张待识别的动作图像进行可视化分析，将其他干扰环境因素删除，同时将人体轮廓或姿态特征(即可视化特征)提取出来，则多张待识别的动作图像对应得到多个可视化特征。

步骤1022，将多个可视化特征输入编码处理器的叠加层进行叠加处理，得到多个叠加处理结果。

步骤1023，将多个叠加处理的结果输入残差层进行残差处理强化多个叠加处理结果。

在该步骤中，将每个叠加处理结果输入残差层，与残差层中的预估数值进行比对，判断叠加处理结果的可靠性，并对叠加处理结果进行强化处理。避免在特征提取过程中图像中的特征产生梯度消失。

步骤1024，将强化后的多个叠加处理结果进行拼接后，利用线性处理进行线性处理，得到待识别的特征矩阵。

在该步骤中，将强化后的多个叠加处理结果按照维度D进行线性拼接，这样得到维度为D的待识别的特征矩阵。

通过上述技术方案，能够将得到的多张待识别的动作图像进行处理形成维度为D的待识别的特征矩阵，经过上述处理，使得得到的待识别的特征矩阵中的特征更加突出，能够快速准确的进行识别。

另外，在步骤1032中，也是按照上述方式对样本图像进行特征提取的。同理，在步骤1063中，也是按照上述方式对训练图像进行特征提取的。

在具体实施例中，步骤104具体包括：

步骤1041，利用自动语音识别算法对待识别的语音进行文本特征提取。

步骤1042，利用自注意力机制对提取到的文本特征进行文本特征分析，提取词特征向量。

在该步骤中，在对语音进行特征提取时，同样利用自注意力机制，这样使得得到的图像特征向量和词特征向量比较相似，方便后期进行图像和语音特征融合。

步骤1043，将词特征向量进行线性变换，得到待识别的语音特征向量。

在该步骤中，将词特征向量按照维度D进行线性变换，这样得到维度为D的待识别的语音特征向量。

另外，步骤1065中，也是按照上述方式对训练语音进行特征提取的。

在具体实施例中，步骤105具体包括：

步骤1051，利用加性注意力机制将待识别的图像特征向量和待识别的语音特征向量交叉相加，得到相加后的特征向量。

在该步骤中，利用加性注意力机制(additive attention)待识别的图像特征向量和待识别的语音特征向量交叉相加。

具体公式如下：其中，Q＝词向量，K＝V＝图像矩阵。

Head_i＝Attention(Q_i，K，V)。

步骤1052，利用数量积方法将相加后的特征向量进行点积运算，得到待识别的融合特征向量。

使用了scaled-dot product方法(数量积(dot product；scalar product，也称为点积)是接受在实数R上的两个向量并返回一个实数值标量的二元运算方法)，具体公式如下：

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O。

将上述得到的融合特征MultiHead(Q，K，V)进行归一化处理。作用是降低后续进行异常行为分类的复杂度。

通过本发明的上述技术方案，利用经过学习训练后得到的人体特征提取模型对用户的图像进行特征提取得到待识别的图像特征向量，然后对用户的语音进行特征提取得到待识别的语音特征向量，再将待识别的图像特征向量和待识别的语音特征向量进行交叉融合后得到待识别的融合特征向量，利用卷积神经网络经过学习训练得到的异常行为识别模型对待识别的融合特征向量进行处理判断用户的动作是否属于异常行为，如果是证明该用户属于危险人员，启动对应的拦截功能对该用户进行拦截，防止该用户对其他人的人身财产造成伤害。这种根据用户的图像和声音共同来确定用户的动作对应的动作类别，并判断该动作类别是否属于异常动作，以便根据判断结果采取相应的措施，能够更加快捷准确的识别行为异常的用户，有效提高了企业的安全系数，对企业的用户的安全提供了有效的保障。

在本申请的另一个实施例的基于语音及图像特征的异常行为识别方法中，包括如下步骤：

将多个机器人投放在下图2中的Alde投放区域，进行异常行为的识别和判断。

异常行为的识别和判断的具体过程如下：

一、获取图像样本对时空图卷积网络(STGCN)进行训练，得到相应的人体特征提取模型

如图3所示：

1、获取N个人中的每个人进行各种动作时的连续多张图像(例如四张)组成图像组，得到N个图像组，并对每个图像组的动作种类(例如殴打、持枪、行走、拿取等动作)进行标识。

2.将每个图像组中的每一张图像首先会经过6层的编码结构(encoder layer)完成对图像中人体轮廓以及姿态的强特征提取，得到多组特征矩阵(每组特征矩阵对应一张图像，矩阵维度为D)。

具体为：

数据在每一层的先经过自注意力机制层(multihead-self-attention)后叠加residual残差层与归一化层层。自注意力机制能够提取出更好的提取图片中的重点特征(包括人体轮廓与姿态)。再通过残差层避免在特征提取过程中图像中的特征产生梯度消失。

3、将多组特征矩阵进行拼接，然后输入linear-layer完成多图的线性变换，得到多图转一图的融合矩阵D×4(维度为D)。

4、构建初始时空卷积网络，将时空卷积网络中的dropout_rate默认设置＜0.3提升训练样本的差异性。

其中，随机失活(dropout)是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性从而实现神经网络的正则化，降低其结构风险。

5、将步骤3得到的融合矩阵输入5层时空图卷积网络(STGCN)，进行学习训练。

其中，第一层STGCN用于接收融合矩阵，第二层分析融合矩阵中多个方位图像的空间特征，第三层分析融合矩阵前后帧的时间特征得到一维特征向量，第四层对一维特征向量进行全连接处理，第五层softmax层，用于多第四层的输出结果进行人体行为分类，并输出人体行为分类结果。

根据输出的人体行为分类结果与上述的标识进行对比，得出相应的损失函数。根据损失函数对时空图卷积网络进行调整，直至步骤3得到的融合矩阵全部学习训练完成，得到相应的时空图卷积网络模型。

6、由于本方案此处需要的是经过时空图卷积网络模型的中间层次得到的表征人体行为的一维特征向量，因此需要将上述得到的时空图卷积网络模型的第四层和第五层删除，得到能够获取人体行为的一维特征向量(维度为D)的人体特征提取模型。

二、获取语音训练样本，并进行强特征提取

如图4所示：

1、将收集到的语音通过现有ASR(自动语音识别Automatic Speech Recognition)基础转换成为文本。

2、采用传统自注意力(transformer)机制对文本进行特征提取，得到相应的词向量特征(与图像的强特征提取都使用transformer机制，这样使得提取的信息特征会比较相近，便于后期进行融合)。

3、对词向量特征进行线性变换，使得输出矩阵维度为D的词向量特征(与人体行为的一维特征向量的维度相等)。

三、将人体行为的一维特征向量与词向量特征进行融合后，利用DNN进行学习训练。

如图5所示：

1、使用两层交叉注意力机制将一维特征向量与词向量特征进行融合，具体为：

首层使用的是additive attention，加性注意力机制(Q＝词向量，K＝V＝图像矩阵)

Head_i＝Attention(Q_i，K，V)。

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O。

第二层使用了scaled-dot product方法(数量积(dot product；scalar product，也称为点积)是接受在实数R上的两个向量并返回一个实数值标量的二元运算方法)，将上述得到的融合特征MultiHead(Q，K，V)进行归一化处理。作用是降低后续进行异常行为分类的复杂度。

对该融合特征的行为类别添加对应的标签，并标注该行为类别是否属于异常行为。

2、构建DNN网络结构，并将上述融合特征输入至DNN网络中进行训练处理，DNN网络输出该融合特征的行为类别，以及该行为类别是否属于异常行为。将输出结果与对应的标签进行比对，计算损失函数，根据损失函数对DNN网络结构进行调整，并重复此过程，直至所有的融合特征全部训练完成，得到能够对用户的行为进行分类，并判断是否属于异常行为的异常行为识别模型。

四、应用

将上述得到的人体特征提取模型和异常行为识别模型输入至机器人的系统中，利用机器人完成对用户的人体行为识别检测。

具体过程如下：

1、当用户进入Alde投放区域后，Alde机器人就会利用摄像头获取用户的一组动作图像(例如四张)，并录制用户的一段语音。

2、利用步骤一中的2-3，得到对应的融合矩阵。

3、强得到的融合矩阵输入至人体特征提取模型进行处理，第一层用于接收融合矩阵，第二层分析融合矩阵中多个方位图像的空间特征，第三层分析融合矩阵前后帧的时间特征得到对应的待识别的图像特征向量。

4、按照步骤二中的1-3对获取的用户的语音进行处理，得到相应的待识别的语音特征向量。

5、按照步骤三中的1的处理过程将待识别的图像特征向量和待识别的语音特征向量进行融合，得到待识别的融合特征向量。

6、将待识别的融合特征输入至异常行为识别模型中，进行处理，输出该待识别的融合特征对应的人体行为类别，以及该人体行为类别是否属于异常行为。

7、若属于异常行为则控制一个或多个Alde机器人对用户进行拦截组织用户进入银行的业务处理区域，避免用户对其他用户、公共设施、银行工作人员或者财物，造成伤害或者损失。同时启动报警装置，提醒工作人员对该异常用户进行拦截处理。

若不属于异常行为，则允许用户进入业务办理区域进行业务办理。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种基于语音及图像特征的异常行为识别装置，如图6所示，装置包括：依次连接的获取模块61、图像特征提取模块62、特征处理模块63、语音特征提取模块64、融合特征模块65和基于语音及图像特征的异常行为识别模块66。

获取模块61，当检测到用户进入识别区域后，控制摄像头获取用户的待识别的动作图像，同时启动录音结构，录制预定时间的待识别的语音；

图像特征提取模块62，用于对待识别的动作图像进行特征提取，得到待识别的特征矩阵；

特征处理模块63，用于利用人体特征提取模型对待识别的特征矩阵进行处理，得到对应的待识别的图像特征向量；

语音特征提取模块64，用于对待识别的语音进行文本特征提取，得到待识别的语音特征向量；

融合特征模块65，用于将待识别的图像特征向量和待识别的语音特征向量进行交叉融合得到待识别的融合特征向量；

基于语音及图像特征的异常行为识别模块66，用于将待识别的融合特征向量输入至异常行为识别模型中进行处理，输出对应的人体动作类别，以及人体动作类别是否属于异常行为。

在具体实施例中，获取模块61，还用于获取多个表示各种人体动作的样本图像，对每个样本图像标注对应的人体动作标签；

图像特征提取模块62，还用于对多个样本图像中的每个样本图像分别进行特征提取，得到多个样本特征矩阵；

装置还包括：

构建模块，用于构建五层时空卷积网络，将多个样本特征矩阵依次输入时空卷积网络的前三层进行处理，将得到多个一维特征向量传送给时空卷积网络的后两层进行识别处理，输出与每个样本图像对应的样本人体动作类别；

特征提取训练模块，用于将样本人体动作类别与对应的人体动作标签进行比对确定样本损失函数，根据样本损失函数对时空卷积网络的参数进行调整得到时空卷积网络模型；

删除模块，用于将时空卷积网络模型的最后两层删除，得到人体特征提取模型。

在具体实施例中，构建模块具体包括：

构建单元，用于构建的时空卷积网络的五层结构分别是，第一层接收层、第二层空间特征分析层、第三层时间特征分析层、第四层全连接层、第五层分类层；

传送单元，用于第一层将接收到的样本特征矩阵传送至第二层；

空间特征处理单元，用于第二层将样本特征矩阵的空间特征进行提取，将提取后的空间特征和样本特征矩阵一起发送至第三层；

时间特征处理单元，用于第三层将对样本特征矩阵中的时间特征进行提取，并将时间特征和空间特征进行组合形成一维特征向量，发送至第四层；

全连接处理单元，用于第四层对一维特征向量进行全连接处理，将处理后的一维特征向量发送至第五层；

分析单元，用于第五层对处理后的一维特征向量进行分析，确定出对应的样本人体动作类别后输出。

在具体实施例中，获取模块61，还用于针对M个人分别获取每个人的动作图像作为训练图像，同时对每个人录制预定时间的训练语音，得到M个训练图像和M个训练语音；

装置还包括：

标注模块，用于对每个训练图像和每个训练语音均对应标注训练人体动作标签；

图像特征提取模块62，还用于对每个训练图像分别进行特征提取，得到M个训练特征矩阵；

特征处理模块63，还用于将M个训练特征矩阵依次输入至人体特征提取模型中进行处理，输出M个训练图像特征向量；

语音特征提取模块64，还用于对M个训练语音进行文本特征提取，得到M个训练语音特征向量；

装置还包括：

异常行为训练模块，用于将属于同一个人体动作标签的训练图像特征向量和训练语音特征向量进行交叉融合得到训练融合特征向量，M个训练图像特征向量和M个训练语音特征向量对应融合成M个训练融合特征向量；将M个训练融合特征向量依次输入卷积神经网络中进行训练处理，并将输出的训练人体动作类别与对应的训练人体动作标签进行比对，确定出相应的训练损失函数；根据训练损失函数对卷积神经网络进行调整得到卷积神经网络模型；在卷积神经网络的输出层之前，添加能够根据得到的训练人体动作类别判断是否属于异常行为行为的判断层，得到异常行为识别模型。

在具体实施例中，当获取模块61检测到用户进入识别区域后，控制摄像头获取用户的多张待识别的动作图像；

图像特征提取模块62，具体用于：

将多张待识别的动作图像输入编码处理器，利用编码处理器中的自注意力机制层对每一张待识别的动作图像进行可视化分析，提取每一张待识别的动作图像的可视化特征，则多张待识别的动作图像对应得到多个可视化特征；将多个可视化特征输入编码处理器的叠加层进行叠加处理，得到多个叠加处理结果；将多个叠加处理的结果输入残差层进行残差处理强化多个叠加处理结果；将强化后的多个叠加处理结果进行拼接后，利用线性处理进行线性处理，得到待识别的特征矩阵。

在具体实施例中，语音特征提取模块64，具体用于：利用自动语音识别算法对待识别的语音进行文本特征提取；利用自注意力机制对提取到的文本特征进行文本特征分析，提取词特征向量；将词特征向量进行线性变换，得到待识别的语音特征向量。

在具体实施例中，融合特征模块65，具体用于：利用加性注意力机制将待识别的图像特征向量和待识别的语音特征向量交叉相加，得到相加后的特征向量；利用数量积方法将相加后的特征向量进行点积运算，得到待识别的融合特征向量。

基于上述图1所示方法和图2-6所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，如图7所示，包括存储器72和处理器71，其中存储器72和处理器71均设置在总线73上存储器72存储有计算机程序，处理器71执行计算机程序时实现图1所示的基于语音及图像特征的异常行为识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述如图1所示方法和图6所示装置的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的基于语音及图像特征的异常行为识别方法。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与计算机设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，利用经过学习训练后得到的人体特征提取模型对用户的图像进行特征提取得到待识别的图像特征向量，然后对用户的语音进行特征提取得到待识别的语音特征向量，再将待识别的图像特征向量和待识别的语音特征向量进行交叉融合后得到待识别的融合特征向量，利用卷积神经网络经过学习训练得到的异常行为识别模型对待识别的融合特征向量进行处理判断用户的动作是否属于异常行为，如果是证明该用户属于危险人员，启动对应的拦截功能对该用户进行拦截，防止该用户对其他人的人身财产造成伤害。这种根据用户的图像和声音共同来确定用户的动作对应的动作类别，并判断该动作类别是否属于异常动作，以便根据判断结果采取相应的措施，能够更加快捷准确的识别行为异常的用户，有效提高了企业的安全系数，对企业的用户的安全提供了有效的保障。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于语音及图像特征的异常行为识别方法，其特征在于，所述方法的步骤包括：

2.根据权利要求1所述的方法，其特征在于，在所述利用人体特征提取模型对所述待识别的特征矩阵进行处理，得到对应的待识别的图像特征向量之前，所述方法还包括：

获取多个表示各种人体动作的样本图像，对每个样本图像标注对应的人体动作标签；

对多个样本图像中的每个样本图像分别进行特征提取，得到多个样本特征矩阵；

构建五层时空卷积网络，将所述多个样本特征矩阵依次输入所述时空卷积网络的前三层进行处理，将得到多个一维特征向量传送给所述时空卷积网络的后两层进行识别处理，输出与每个样本图像对应的样本人体动作类别；

将所述样本人体动作类别与对应的人体动作标签进行比对确定样本损失函数，根据所述样本损失函数对所述时空卷积网络的参数进行调整得到时空卷积网络模型；

将所述时空卷积网络模型的最后两层删除，得到人体特征提取模型。

3.根据权利要求2所述的方法，其特征在于，所述构建五层时空卷积网络，将所述多个样本特征矩阵依次输入所述时空卷积网络的前三层进行处理，将得到多个一维特征向量传送给所述时空卷积网络的后两层进行识别处理，输出与每个样本图像对应的样本人体动作类别，具体包括：

构建的时空卷积网络的五层结构分别是，第一层接收层、第二层空间特征分析层、第三层时间特征分析层、第四层全连接层、第五层分类层；

所述第一层将接收到的所述样本特征矩阵传送至所述第二层；

所述第二层将所述样本特征矩阵的空间特征进行提取，将提取后的空间特征和所述样本特征矩阵一起发送至所述第三层；

所述第三层将对所述样本特征矩阵中的时间特征进行提取，并将所述时间特征和所述空间特征进行组合形成一维特征向量，发送至所述第四层；

所述第四层对所述一维特征向量进行全连接处理，将处理后的一维特征向量发送至所述第五层；

所述第五层对所述处理后的一维特征向量进行分析，确定出对应的样本人体动作类别后输出。

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述将待识别的融合特征向量输入至异常行为识别模型中进行处理，输出对应的人体动作类别，以及所述人体动作类别是否属于异常行为之前，具体包括：

针对M个人分别获取每个人的动作图像作为训练图像，同时对每个人录制预定时间的训练语音，得到M个训练图像和M个训练语音；

对每个训练图像和每个训练语音均对应标注训练人体动作标签；

对每个训练图像分别进行特征提取，得到M个训练特征矩阵；

将所述M个训练特征矩阵依次输入至所述人体特征提取模型中进行处理，输出M个训练图像特征向量；

对所述M个训练语音进行文本特征提取，得到M个训练语音特征向量；

将属于同一个人体动作标签的训练图像特征向量和训练语音特征向量进行交叉融合得到训练融合特征向量，M个训练图像特征向量和M个训练语音特征向量对应融合成M个训练融合特征向量；

将M个训练融合特征向量依次输入卷积神经网络中进行训练处理，并将输出的训练人体动作类别与对应的训练人体动作标签进行比对，确定出相应的训练损失函数；

根据所述训练损失函数对所述卷积神经网络进行调整得到卷积神经网络模型；

在所述卷积神经网络的输出层之前，添加能够根据得到的所述训练人体动作类别判断是否属于异常行为行为的判断层，得到异常行为识别模型。

5.根据权利要求1所述的方法，其特征在于，当检测到用户进入识别区域后，控制摄像头获取用户的多张待识别的动作图像；

所述对所述待识别的动作图像进行特征提取，得到待识别的特征矩阵，具体包括：

将所述多张待识别的动作图像输入编码处理器，利用所述编码处理器中的自注意力机制层对每一张待识别的动作图像进行可视化分析，提取每一张待识别的动作图像的可视化特征，则所述多张待识别的动作图像对应得到多个可视化特征；

将所述多个可视化特征输入编码处理器的叠加层进行叠加处理，得到多个叠加处理结果；

将所述多个叠加处理的结果输入残差层进行残差处理强化所述多个叠加处理结果；

将强化后的多个叠加处理结果进行拼接后，利用线性处理进行线性处理，得到待识别的特征矩阵。

6.根据权利要求1所述的方法，其特征在于，对所述待识别的语音进行文本特征提取，得到待识别的语音特征向量，具体包括：

利用自动语音识别算法对所述待识别的语音进行文本特征提取；

利用自注意力机制对提取到的文本特征进行文本特征分析，提取词特征向量；

将所述词特征向量进行线性变换，得到待识别的语音特征向量。

7.根据权利要求1所述的方法，其特征在于，将所述待识别的图像特征向量和所述待识别的语音特征向量进行交叉融合得到待识别的融合特征向量，具体包括：

利用加性注意力机制将所述待识别的图像特征向量和所述待识别的语音特征向量交叉相加，得到相加后的特征向量；

利用数量积方法将所述相加后的特征向量进行点积运算，得到待识别的融合特征向量。

8.一种基于语音及图像特征的异常行为识别装置，其特征在于，所述装置包括：

获取模块，用于当检测到用户进入识别区域后，控制摄像头获取用户的待识别的动作图像，同时启动录音结构，录制预定时间的待识别的语音；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于语音及图像特征的异常行为识别方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于语音及图像特征的异常行为识别方法的步骤。