CN111310605A

CN111310605A - 一种图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN111310605A
Application number: CN202010072550.XA
Authority: CN
Inventors: 周舒畅; 孙培钦
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-19
Anticipated expiration: 2040-01-21
Also published as: CN111310605B

Abstract

本发明公开一种图像处理方法、装置、电子设备及存储介质，该方法包括：在接收到目标视频流后，将目标视频流划分为R个待处理视频片段{P₁,…,P_R}，目标视频流的图像成像模糊不清晰，P_i为第i个待处理视频片段；提取每个P_i的各视频帧中人体骨骼关节点的坐标，并基于P_i的各视频帧中人体骨骼关节点的坐标，构造P_i的特征向量T_i；将T_i输入至目标网络模型进行处理，得到P_i的图像分类结果；基于至少一个P_i的图像分类结果，确定目标视频流中的人物行为。实施上述方法，可以基于目标网络模型对成像模糊不清晰的监控视频流进行处理，实现从不完全信息视频流中分析用户行为，从而避免监控场景中用户隐私泄露，实现对用户隐私的保护。

Description

一种图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着科学技术的不断发展和人们安全意识的不断提高，监控摄像机在不同领域和不同场合得到了广泛的应用，例如，基于场景分类的消防报警监控摄像机和基于人群行为(如大规模游行、斗殴等)的自动报警监控摄像机可以在安防领域起到快速判断危险信号并进行报警的作用。

现有技术中，监控摄像机处于工作状态时，会对监控范围内的场景进行持续地高清图像采集，虽然采集到的高清图像能够提高监控效果，但同时也会造成用户隐私的泄露。

发明内容

本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质，以解决现有技术中存在的监控场景中用户隐私泄露的技术问题。

根据本发明的第一方面，公开了一种图像处理方法，应用于电子设备，所述方法包括：

在接收到目标视频流后，将所述目标视频流划分为R个待处理视频片段{P₁,…,P_R}，其中，所述目标视频流的图像成像模糊不清晰，P_i为第i个待处理视频片段，1≤i≤R，R为正整数；

针对每个P_i，提取所述P_i的各视频帧中人体骨骼关节点的坐标，并基于所述P_i的各视频帧中人体骨骼关节点的坐标，构造所述P_i的特征向量T_i；

将所述T_i输入至目标网络模型进行处理，得到所述P_i的图像分类结果；

基于至少一个P_i的图像分类结果，确定所述目标视频流中的人物行为。

可选地，作为一个实施例，所述将所述目标视频流划分为N个待处理视频片段{P₁,…,P_N}，包括：

检测所述目标视频流中各视频帧的人体矩形框，并提取；

按照各视频帧在所述目标视频流中的时间先后顺序，将所述目标视频流中各视频帧的人体矩形框存储至所述电子设备的缓存中；

当所述缓存中人体矩形框的个数达到预设数量时，将所述缓存中的人体矩形框对应的视频帧所构成的视频片段，确定为一个待处理视频片段P_i。

可选地，作为一个实施例，所述目标网络模型为基于卷积神经网络算法训练得到的模型；

所述针对每个P_i，提取所述P_i的各视频帧中人体骨骼关节点的坐标，并基于所述P_i的各视频帧中人体骨骼关节点的坐标，构造所述P_i的特征向量T_i，包括：

针对每个P_i，提取所述P_i中的N*M个人体骨骼关节点的二维坐标(x₁₁,y₁₁),(x₁₂,y₁₂),…,(x_NM,y_NM)，其中，N为所述P_i中视频帧的个数，M为每个视频帧中人体骨骼关节点的个数，(x_jk,y_jk)为第j个视频帧中第k个人体骨骼关节点的坐标，1≤j≤N，1≤k≤M，N和M均为大于1的整数；

针对所述P_i中的每个视频帧，将所述视频帧中人体骨骼关节点的二维坐标(x_j1,y_j1),(x_j2,y_j2),…,(x_jM,y_jM)进行x和y分离，得到向量X_j＝(x_j1,x_j2,…,x_jM)和向量Y_j＝(y_j1,y_j2,…,y_jM)；

基于所有X_j构造第一矩阵A，以及基于所有Y_j构造第二矩阵B；

其中，

将所述A和B进行Z轴方向排列得到三维向量C，将所述三维向量C确定为所述P_i的特征向量T_i。

可选地，作为一个实施例，所述目标网络模型为基于循环神经网络算法构造的模型；

针对所述P_i中的每个视频帧，基于所述视频帧中人体骨骼关节点的二维坐标(x_j1,y_j1),(x_j2,y_j2),…,(x_jM,y_jM)，生成向量Z_j＝(x_j1,x_j2,…,x_jM,y_j1,y_j2,…,y_jM)；

基于所有Z_j构造一维向量D，并将所述一维向量D确定为所述P_i的特征向量T_i，其中，D＝(Z₁,Z₂,…,Z_N)。

可选地，作为一个实施例，所述目标视频流来自目标监控摄像机，其中，所述目标监控摄像机包括镜头组件和成像传感器；

当所述成像传感器为可见光成像传感器时，所述镜头组件中包括目标镜片，所述目标镜片为用于使所述监控摄像机采集到的图像成像模糊不清晰的镜片；或者，

当所述镜头组件中不包括所述目标镜片时，所述成像传感器为目标传感器，所述目标传感器为用于使所述监控摄像机采集到的图像成像模糊不清晰的传感器。

可选地，作为一个实施例，所述目标传感器包括：红外热成像传感器、或者深度传感器。

根据本发明的第二方面，还公开了一种图像处理装置，应用于电子设备，所述装置包括：

划分模块，用于在接收到目标视频流后，将所述目标视频流划分为R个待处理视频片段{P₁,…,P_R}，其中，所述目标视频流的图像成像模糊不清晰，P_i为第i个待处理视频片段，1≤i≤R，R为正整数；

提取模块，用于针对每个P_i，提取所述P_i的各视频帧中人体骨骼关节点的坐标，并基于所述P_i的各视频帧中人体骨骼关节点的坐标，构造所述P_i的特征向量T_i；

处理模块，用于将所述T_i输入至目标网络模型进行处理，得到所述P_i的图像分类结果；

确定模块，用于基于至少一个P_i的图像分类结果，确定所述目标视频流中的人物行为。

可选地，作为一个实施例，所述划分模块包括：

检测子模块，用于在接收到目标视频流后，检测所述目标视频流中各视频帧的人体矩形框，并提取；

存储子模块，用于按照各视频帧在所述目标视频流中的时间先后顺序，将所述目标视频流中各视频帧的人体矩形框存储至所述电子设备的缓存中；

划分子模块，用于当所述缓存中人体矩形框的个数达到预设数量时，将所述缓存中的人体矩形框对应的视频帧所构成的视频片段，确定为一个待处理视频片段P_i。

所述提取模块包括：

第一提取子模块，用于针对每个P_i，提取所述P_i中的N*M个人体骨骼关节点的二维坐标(x₁₁,y₁₁),(x₁₂,y₁₂),…,(x_NM,y_NM)，其中，N为所述P_i中视频帧的个数，M为每个视频帧中人体骨骼关节点的个数，(x_jk,y_jk)为第j个视频帧中第k个人体骨骼关节点的坐标，1≤j≤N，1≤k≤M，N和M均为大于1的整数；

坐标分离子模块，用于针对所述P_i中的每个视频帧，将所述视频帧中人体骨骼关节点的二维坐标(x_j1,y_j1),(x_j2,y_j2),…,(x_jM,y_jM)进行x和y分离，得到向量X_j＝(x_j1,x_j2,…,x_jM)和向量Y_j＝(y_j1,y_j2,…,y_jM)；

第一生成子模块，用于基于所有X_j构造第一矩阵A，以及基于所有Y_j构造第二矩阵B；

其中，

第一确定子模块，用于将所述A和B进行Z轴方向排列得到三维向量C，将所述三维向量C确定为所述P_i的特征向量T_i。

所述提取模块包括：

第二提取子模块，用于针对每个P_i，提取所述P_i中的N*M个人体骨骼关节点的二维坐标(x₁₁,y₁₁),(x₁₂,y₁₂),…,(x_NM,y_NM)，其中，N为所述P_i中视频帧的个数，M为每个视频帧中人体骨骼关节点的个数，(x_jk,y_jk)为第j个视频帧中第k个人体骨骼关节点的坐标，1≤j≤N，1≤k≤M，N和M均为大于1的整数；

第二生成子模块，用于针对所述P_i中的每个视频帧，基于所述视频帧中人体骨骼关节点的二维坐标(x_j1,y_j1),(x_j2,y_j2),…,(x_jM,y_jM)，生成向量Z_j＝(x_j1,x_j2,…,x_jM,y_j1,y_j2,…,y_jM)；

第二确定子模块，用于基于所有Z_j构造一维向量D，并将所述一维向量D确定为所述P_i的特征向量T_i，其中，D＝(Z₁,Z₂,…,Z_N)。

根据本发明的第三方面，还公开了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面中图像处理方法中的步骤。

根据本发明的第四方面，还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中图像处理方法中的步骤。

本发明实施例中，可以基于目标网络模型对成像模糊不清晰的监控视频流进行处理，实现从不完全信息视频流中分析用户行为，从而避免监控场景中用户隐私泄露，实现对用户隐私的保护。

附图说明

图1是本发明的一个实施例的图像处理方法的流程图；

图2是本发明的一个实施例的人体骨骼关节点的示例图；

图3是本发明的一个实施例的步骤102的一种实施方式的流程图；

图4是本发明的一个实施例的步骤102的另一种实施方式的流程图；

图5是本发明的一个实施例的模型训练方法的流程图；

图6是本发明的另一个实施例的图像处理方法的流程图；

图7是本发明的一个实施例的图像处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

本发明实施例提供了一种图像处理方法、装置、电子设备及存储介质。

下面首先对本发明实施例提供的图像处理方法进行介绍。

需要说明的是，本发明实施例提供的图像处理方法适用于电子设备，在实际应用中，该电子设备可以包括：智能手机、平板电脑、个人数字助理等移动终端，也可以包括：笔记本/台式电脑、桌面机、服务器等计算机设备，本发明实施例对此不作限定。

图1是本发明的一个实施例的图像处理方法的流程图，如图1所示，该方法可以包括以下步骤：步骤101、步骤102、步骤103和步骤104，其中，

在步骤101中，在接收到目标视频流后，将目标视频流划分为R个待处理视频片段{P₁,…,P_R}；其中，目标视频流的图像成像模糊不清晰，P_i为第i个待处理视频片段，1≤i≤R，R为正整数。

本发明实施例中，目标视频流可以为基于普通监控摄像机采集到的普通清晰度/高清晰度视频流进行模糊处理得到的视频流，或者目标视频流可以为目标监控摄像机采集到的成像模糊不清晰的视频流。

本发明实施例中，目标监控摄像机包括镜头组件和成像传感器；其中，当目标监控摄像机的成像传感器为可见光成像传感器时，目标监控摄像机的镜头组件中包括目标镜片，该目标镜片为用于使监控摄像机采集到的图像成像模糊不清晰的镜片；或者，当目标监控摄像机的镜头组件中不包括目标镜片时，目标监控摄像机的成像传感器为目标传感器，该目标传感器为用于使监控摄像机采集到的图像成像模糊不清晰的传感器。

本发明实施例中，目标镜片可以为各种类似毛玻璃材质的镜片。

本发明实施例中，目标传感器可以包括红外热成像传感器、或者深度传感器等。

本发明实施例中，可以在现有技术中普通监控摄像机的基础上，对普通监控摄像机的镜头组件进行改进得到目标监控摄像机，具体的，通过在镜头组件中加置特殊材料的镜片，使得成像模糊不清晰。或者，可以在普通监控摄像机的基础上，使用特殊成像传感器(例如，红外热成像传感器、或者深度传感器)替换普通监控摄像机的普通成像传感器，使得成像模糊不清晰，在相机成像的层面上杜绝用户隐私的泄露，有效地改善用户对隐私内容被软件后门获取的担忧。

在实际应用中，可以将本发明实施例中的目标监控摄像机扩展到人群行为识别、校园霸凌行为识别等场景中，例如，将目标监控摄像机布置在一些隐密地段(类似校园霸凌经常发生在卫生间处)。

可见，本发明实施例中，可以通过在监控摄像机的镜头组件中加置可以造成成像模糊不清晰的特殊镜片，或者使用可以造成成像模糊不清晰的特殊成像传感器替换普通成像传感器，使得监控摄像机的成像效果在人眼看来已经失去辨别具体细节的能力(成像效果大概是知道其是个人，但无法辨别人物具体信息：性别、年龄，只有模糊的形态信息)，在相机成像层面上杜绝用户隐私的泄露，使得监控摄像机的应用区域和场景不再受限，扩展了监控摄像机的应用区域和场景。

本发明实施例中，考虑到目标视频流的视频帧数量较多，为了保证图像处理结果的准确度，可以将目标视频流划分为多个视频片段，将划分得到的每个视频片段作为一个待处理视频片段，以单个待处理视频片段为处理单位，进行后续图像处理。

本发明实施例中，在对目标视频流进行划分时，可以每间隔固定数量的视频帧进行一次划分，也就是，每个待处理视频片段中包括相同数量的视频帧。

在步骤102中，针对每个P_i，提取P_i的各视频帧中人体骨骼关节点的坐标，并基于P_i的各视频帧中人体骨骼关节点的坐标，构造P_i的特征向量T_i。

考虑到用户行为主要通过用户的肢体动作反映，而肢体动作对应到图像处理领域，可以用一系列人体骨骼关节点的坐标进行表征，因此，本发明实施例中，可以提取每个待处理视频片段的各视频帧中人体骨骼关节点的坐标，基于每个待处理视频片段的各视频帧中人体骨骼关节点的坐标，构造每个待处理视频片段的特征向量，基于待处理视频片段的特征向量和目标网络模型对待处理视频片段中用户行为进行分析，其中，目标网络模型用于表征待处理视频片段的特征向量与该待处理视频片段的图像分类结果之间的映射关系。

本发明实施例中，在提取每个待处理视频片段的各视频帧中人体骨骼关节点的坐标时，以一个视频帧为例，可以首先检测出该视频帧中的人体矩形框(也称为“humanbbox”)，之后将检测出的人体矩形框裁剪出来，得到人体图像，再之后从人体图像中提取人体骨骼关节点的坐标。

在实际应用中，可以采用微软的软件开发工具包，对每个待处理视频片段的每个视频帧中的人体图像进行骨骼分割，如图2所示，最高可识别20个人体模型的关键骨骼关节点，将各骨骼关节点的位置用(x,y)坐标表示。

考虑到基于不同训练算法训练得到目标网络模型，在进行图像处理时其对输入数据的格式要求也不相同，例如，基于卷积神经网络算法(Convolutional Neural Networks，CNN)训练得到的目标网络网络和基于循环神经网络算法(Recurrent Neural Network，RNN)训练得到的目标网络模型对输入数据的格式要求是不相同的。

针对这种情况，在本发明提供的一个实施方式中，当目标网络模型为基于卷积神经网络算法训练得到的模型时，如图3所示，上述步骤102具体可以包括以下步骤：步骤1021、步骤1022、步骤1023和步骤1024，其中，

在步骤1021中，针对每个P_i，提取P_i中的N*M个人体骨骼关节点的二维坐标(x₁₁,y₁₁),(x₁₂,y₁₂),…,(x_NM,y_NM)；其中，N为P_i中视频帧的个数，M为每个视频帧中人体骨骼关节点的个数，(x_jk,y_jk)为第j个视频帧中第k个人体骨骼关节点的坐标，1≤j≤N，1≤k≤M，N和M均为大于1的整数。

在一个例子中，一个待处理视频片段中包括4个视频帧，分别为：视频帧1、视频帧2、视频帧3和视频帧4，每个视频帧中包括5个人体骨骼关节点，也就是，N＝4，M＝5。

通过步骤1021，可以提取到视频帧1中的5个人体骨骼关节点的坐标(x₁₁,y₁₁),(x₁₂,y₁₂),(x₁₃,y₁₃),(x₁₄,y₁₄),(x₁₅,y₁₅)，视频帧2中的5个人体骨骼关节点的坐标(x₂₁,y₂₁),(x₂₂,y₂₂),(x₂₃,y₂₃),(x₂₄,y₂₄),(x₂₅,y₂₅)，视频帧3中的5个人体骨骼关节点的坐标(x₃₁,y₃₁),(x₃₂,y₃₂),(x₃₃,y₃₃),(x₃₄,y₃₄),(x₃₅,y₃₅)，视频帧4中的5个人体骨骼关节点的坐标(x₄₁,y₄₁),(x₄₂,y₄₂),(x₄₃,y₄₃),(x₄₄,y₄₄),(x₄₅,y₄₅)，也就是，最终提取该待处理视频片段的共计4*5＝20个人体骨骼关节点坐标。

在步骤1022中，针对P_i中的每个视频帧，将视频帧中人体骨骼关节点的二维坐标(x_j1,y_j1),(x_j2,y_j2),…,(x_jM,y_jM)进行x和y分离，得到向量X_j＝(x_j1,x_j2,…,x_jM)和向量Y_j＝(y_j1,y_j2,…,y_jM)。

在一个例子中，接步骤1021中的例子，将视频帧1中人体骨骼关节点的坐标(x₁₁,y₁₁),(x₁₂,y₁₂),(x₁₃,y₁₃),(x₁₄,y₁₄),(x₁₅,y₁₅)进行x和y分离，得到向量X₁＝(x₁₁,x₁₂,x₁₃,x₁₄,x₁₅)和向量Y₁＝(y₁₁,y₁₂,y₁₃,y₁₄,y₁₅)；将视频帧2中人体骨骼关节点的坐标(x₂₁,y₂₁),(x₂₂,y₂₂),(x₂₃,y₂₃),(x₂₄,y₂₄),(x₂₅,y₂₅)进行x和y分离，得到向量X₂＝(x₂₁,x₂₂,x₂₃,x₂₄,x₂₅)和向量Y₂＝(y₂₁,y₂₂,y₂₃,y₂₄,y₂₅)；将视频帧3中人体骨骼关节点的坐标(x₃₁,y₃₁),(x₃₂,y₃₂),(x₃₃,y₃₃),(x₃₄,y₃₄),(x₃₅,y₃₅)进行x和y分离，得到向量X₃＝(x₃₁,x₃₂,x₃₃,x₃₄,x₃₅)和向量Y₃＝(y₃₁,y₃₂,y₃₃,y₃₄,y₃₅)；将视频帧4中人体骨骼关节点的坐标(x₄₁,y₄₁),(x₄₂,y₄₂),(x₄₃,y₄₃),(x₄₄,y₄₄),(x₄₅,y₄₅)进行x和y分离，得到向量X₄＝(x₄₁,x₄₂,x₄₃,x₄₄,x₄₅)和向量Y₄＝(y₄₁,y₄₂,y₄₃,y₄₄,y₄₅)。

在步骤1023中，基于所有X_j构造第一矩阵A，以及基于所有Y_j构造第二矩阵B；

其中，

在一个例子中，接步骤1022中的例子，基于X₁＝(x₁₁,x₁₂,x₁₃,x₁₄,x₁₅)、X₂＝(x₂₁,x₂₂,x₂₃,x₂₄,x₂₅)、X₃＝(x₃₁,x₃₂,x₃₃,x₃₄,x₃₅)和X₄＝(x₄₁,x₄₂,x₄₃,x₄₄,x₄₅)，构造第一矩阵A；基于Y₁＝(y₁₁,y₁₂,y₁₃,y₁₄,y₁₅)、Y₂＝(y₂₁,y₂₂,y₂₃,y₂₄,y₂₅)、Y₃＝(y₃₁,y₃₂,y₃₃,y₃₄,y₃₅)和Y₄＝(y₄₁,y₄₂,y₄₃,y₄₄,y₄₅)，构造第二矩阵B；

其中，

在步骤1024中，将第一矩阵A和第二矩阵B进行Z轴方向排列得到三维向量C，将三维向量C确定为P_i的特征向量T_i。

本发明实施例中，三维向量C为一个三维张量。

可见，本发明实施例中，当目标网络模型为基于卷积神经网络算法训练得到的模型时，可以将图像处理的输入数据转换为与该目标网络模型匹配的数据格式。

在本发明提供的另一个实施方式中，当目标网络模型为基于循环神经网络算法训练得到的模型时，如图4所示，上述步骤102具体可以包括以下步骤：步骤1025、步骤1026和步骤1027，其中，

在步骤1025中，针对每个P_i，提取P_i中的N*M个人体骨骼关节点的二维坐标(x₁₁,y₁₁),(x₁₂,y₁₂),…,(x_NM,y_NM)；其中，N为P_i中视频帧的个数，M为每个视频帧中人体骨骼关节点的个数，(x_jk,y_jk)为第j个视频帧中第k个人体骨骼关节点的坐标，1≤j≤N，1≤k≤M，N和M均为大于1的整数。

通过步骤1025，可以提取到视频帧1中的5个人体骨骼关节点的坐标(x₁₁,y₁₁),(x₁₂,y₁₂),(x₁₃,y₁₃),(x₁₄,y₁₄),(x₁₅,y₁₅)，视频帧2中的5个人体骨骼关节点的坐标(x₂₁,y₂₁),(x₂₂,y₂₂),(x₂₃,y₂₃),(x₂₄,y₂₄),(x₂₅,y₂₅)，视频帧3中的5个人体骨骼关节点的坐标(x₃₁,y₃₁),(x₃₂,y₃₂),(x₃₃,y₃₃),(x₃₄,y₃₄),(x₃₅,y₃₅)，视频帧4中的5个人体骨骼关节点的坐标(x₄₁,y₄₁),(x₄₂,y₄₂),(x₄₃,y₄₃),(x₄₄,y₄₄),(x₄₅,y₄₅)，也就是，最终提取该待处理视频片段的共计4*5＝20个人体骨骼关节点坐标。

在步骤1026中，针对P_i中的每个视频帧，基于视频帧中人体骨骼关节点的坐标(x_j1,y_j1),(x_j2,y_j2),…,(x_jM,y_jM)，生成向量Z_j＝(x_j1,x_j2,…,x_jM,y_j1,y_j2,…,y_jM)。

在一个例子中，接步骤1025中的例子，基于视频帧1中人体骨骼关节点的坐标(x₁₁,y₁₁),(x₁₂,y₁₂),(x₁₃,y₁₃),(x₁₄,y₁₄),(x₁₅,y₁₅)，生成向量Z₁＝(x₁₁,x₁₂,x₁₃,x₁₄,x₁₅,y₁₁,y₁₂,y₁₃,y₁₄,y₁₅)；基于视频帧2中人体骨骼关节点的坐标(x₂₁,y₂₁),(x₂₂,y₂₂),(x₂₃,y₂₃),(x₂₄,y₂₄),(x₂₅,y₂₅)，生成向量Z₂＝(x₂₁,x₂₂,x₂₃,x₂₄,x₂₅,y₂₁,y₂₂,y₂₃,y₂₄,y₂₅)；基于视频帧3中人体骨骼关节点的坐标(x₃₁,y₃₁),(x₃₂,y₃₂),(x₃₃,y₃₃),(x₃₄,y₃₄),(x₃₅,y₃₅)，生成向量Z₃＝(x₃₁,x₃₂,x₃₃,x₃₄,x₃₅,y₃₁,y₃₂,y₃₃,y₃₄,y₃₅)；基于视频帧4中人体骨骼关节点的坐标(x₄₁,y₄₁),(x₄₂,y₄₂),(x₄₃,y₄₃),(x₄₄,y₄₄),(x₄₅,y₄₅)，生成向量Z₄＝(x₄₁,x₄₂,x₄₃,x₄₄,x₄₅,y₄₁,y₄₂,y₄₃,y₄₄,y₄₅)。

在步骤1027中，基于所有Z_j构造一维向量D，并将一维向量D确定为P_i的特征向量T_i，其中，D＝(Z₁,Z₂,…,Z_N)。

在一个例子中，接步骤1026中的例子，基于Z₁、Z₂、Z₃和Z₄，构造一维向量D，其中，

D＝(x₁₁,x₁₂,x₁₃,x₁₄,x₁₅,y₁₁,y₁₂,y₁₃,y₁₄,y₁₅,x₂₁,x₂₂,x₂₃,x₂₄,x₂₅,y₂₁,y₂₂,y₂₃,y₂₄,y₂₅,x₃₁,x₃₂,x₃₃,x₃₄,x₃₅,y₃₁,y₃₂,y₃₃,y₃₄,y₃₅,x₄₁,x₄₂,x₄₃,x₄₄,x₄₅,y₄₁,y₄₂,y₄₃,y₄₄,y₄₅)。

可见，本发明实施例中，当目标网络模型为基于循环神经网络算法训练得到的模型时，可以将图像处理的输入数据转换为与该目标网络模型匹配的数据格式。

为了便于理解，对本发明实施例中的目标网络模型进行介绍。

图5是本发明的一个实施例的模型训练方法的流程图，如图5所示，该方法可以包括以下步骤：步骤501、步骤502、步骤503和步骤504，其中，

在步骤501中，获取训练集，其中，该训练集中包括多个样本视频片段，样本视频片段为成像模糊不清晰的视频片段。

考虑到不同用途的网络模型，其所需要的样本视频片段的类型也是不相同的，例如，用于安全看护独居老人的网络模型，其所需的样本视频片段中通常包括与老人相关的画面内容；又例如，用于预警恶性事件的网络模型，其所需的样本视频片段中通常包括与恶性事件相关的画面内容。针对这种情况，本发明实施例中，可以依据网络模型的用途类型，获取对应的训练集。

本发明实施例中，考虑到样本数量越多，训练出的模型的检测结果越准确，优选地，训练集中可以包括海量样本视频片段。此外，考虑到训练效果，每个样本视频片段可以包含相同数量的视频帧。

在步骤502中，对每个样本视频片段的类别进行标注，得到每个样本视频片段的类别标注数据。

本发明实施例中，在对样本视频片段的类别进行标注时，可以采用二分类的标注方式，也就是，样本视频片段只有两个类别：正常和异常。或者为了使得所训练得到的网络模型的处理结果更为精细化，可以将样本视频片段标注为多个类别，本发明实施例对此不作限定。

在步骤503中，提取每个样本视频片段的各视频帧中人体骨骼关节点的坐标，并针对每个样本视频片段，基于样本视频片段的各视频帧中人体骨骼关节点的坐标，构造样本视频片段对应的特征向量。

本发明实施例中，当目标网络模型为基于卷积神经网络算法训练得到的模型时，可以采用图3所示实施例中的特征向量构造方式，来构造每个样本视频片段对应的特征向量；当目标网络模型为基于循环神经网络算法训练得到的模型时，可以采用图4所示实施例中的特征向量构造方式，来构造每个样本视频片段对应的特征向量，在此不再赘述。

在步骤504中，将各样本视频片段对应的特征向量作为输入，将各样本视频片段的类别标注数据作为输出目标，对预设初始网络模型进行训练直至模型收敛，将训练得到的模型确定为目标网络模型。

本发明实施例中，当目标网络模型为基于卷积神经网络算法训练得到的模型时，预设初始网络模型为基于卷积神经网络算法构造的初始网络模型；当目标网络模型为基于循环神经网络算法训练得到的模型时，预设初始网络模型为基于循环神经网络算法构造的初始网络模型。

本发明实施例中，在进行模型训练时，将样本视频片段对应的特征向量输入到预设初始网络模型中，输出预测结果，将预测结果与样本视频片段的类别标注数据进行比较，得到比较结果，通过比较结果和损失函数对预设初始网络模型中的各参数进行调整，在完成参数调整后，再次将样本视频片段对应的特征向量输入到参数调整后的模型中，重复上述过程，直至模型收敛(即预测结果与类别标注数据的差异不再随着训练而降低)，此时，将该训练得到的模型确定为目标网络模型。

本发明实施例中，在使用目标网络模型进行图像处理时，该目标网络模型的输入为待处理视频片段的特征向量，该目标网络模型的输出为待处理视频片段的类别。

可见，本发明实施例中，可以基于成像模糊不清的样本视频片段进行模型训练，利用训练得到的模型对成像模糊不清晰的视频流进行处理，可以实现从不完全信息视频流中分析用户行为，从而保证用户隐私不被泄露。

在步骤103中，将T_i输入至目标网络模型进行处理，得到P_i的图像分类结果。

本发明实施例中，待处理视频片段的图像分类结果为待处理视频片段的类别，例如，当目标网络模型为用于安全看护独居老人的模型时，待处理视频片段的图像分类结果为：监控区域内老人是否安全；例如，当目标网络模型为用于监控恶性事件的模型时，待处理视频片段的图像分类结果为：监控区域内是否存在恶性事件。

在步骤104中，基于至少一个P_i的图像分类结果，确定目标视频流中的人物行为。

本发明实施例中，考虑到待处理视频片段为目标视频流的一个局部缩影，通常不能完全反应完整的信息，因此可以结合多个待处理视频片段的图像分类结果，来确定目标视频流中的人物行为，从而提高监控效果。

由上述实施例可见，该实施例中，可以基于目标网络模型对成像模糊不清晰的监控视频流进行处理，实现从不完全信息视频流中分析用户行为，从而避免监控场景中用户隐私泄露，实现对用户隐私的保护。

图6是本发明的另一个实施例的图像处理方法的流程图，本发明实施例中，可以借助于电子设备的缓存，对目标视频流进行待处理视频片段的划分，如图6所示，该方法可以包括以下步骤：步骤601、步骤602、步骤603、步骤604、步骤605和步骤606，其中，

在步骤601中，在接收到目标视频流后，检测目标视频流中各视频帧的人体矩形框，并提取。

本发明实施例中，可以采用相关技术中的任一种人体矩形框检测技术，来检测目标视频流中各视频帧的人体矩形框，之后，将各视频帧的人体矩形框裁剪出来，存储至电子设备的缓存中。

在步骤602中，按照各视频帧在目标视频流中的时间先后顺序，将目标视频流中各视频帧的人体矩形框存储至电子设备的缓存中。

在步骤603中，当缓存中人体矩形框的个数达到预设数量时，将缓存中的人体矩形框对应的视频帧所构成的视频片段，确定为一个待处理视频片段P_i。

在步骤604中，针对每个P_i，提取P_i的各视频帧中人体骨骼关节点的坐标，并基于P_i的各视频帧中人体骨骼关节点的坐标，构造P_i的特征向量T_i。

在步骤605中，将T_i输入至目标网络模型进行处理，得到P_i的图像分类结果。

本发明实施例中，当目标网络模型为基于循环神经网络算法训练得到的模型时，若循环神经网络的长度为S，则待处理视频片段的长度也为S，将目标视频流的帧1～帧S的向量Z₁～Z_S输入到目标网络模型，得到最终该视频片段(1帧～S帧)的分类结果，下一次识别动作从S+1帧开始，将帧S+1～帧2S的向量Z_S+1～Z_2S输入到目标网络模型，依次类推。

在步骤606中，基于至少一个P_i的图像分类结果，确定目标视频流中的人物行为。

本发明实施例中，在确定目标视频流中的人物行为为风险行为时，还可以触发报警，以便及时对风险行为采取对应的应对措施，降低风险行为带来的影响。

由上述实施例可见，该实施例中，可以借助于电子设备的缓存，对目标视频流进行待处理视频片段的划分，基于目标网络模型对成像模糊不清晰的待处理视频片段进行处理，实现从不完全信息视频流中分析用户行为，从而避免监控场景中用户隐私泄露，实现对用户隐私的保护。

图7是本发明的一个实施例的图像处理装置的结构框图，该装置应用于电子设备，如图7所示，图像处理装置700，可以包括：划分模块701、提取模块702、处理模块703和确定模块704，其中，

划分模块701，用于在接收到目标视频流后，将所述目标视频流划分为R个待处理视频片段{P₁,…,P_R}，其中，所述目标视频流的图像成像模糊不清晰，P_i为第i个待处理视频片段，1≤i≤R，R为正整数；

提取模块702，用于针对每个P_i，提取所述P_i的各视频帧中人体骨骼关节点的坐标，并基于所述P_i的各视频帧中人体骨骼关节点的坐标，构造所述P_i的特征向量T_i；

处理模块703，用于将所述T_i输入至目标网络模型进行处理，得到所述P_i的图像分类结果；

确定模块704，用于基于至少一个P_i的图像分类结果，确定所述目标视频流中的人物行为。

可选地，作为一个实施例，所述划分模块701，可以包括：

所述提取模块702，可以包括：

其中，

所述提取模块702，可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据本发明的又一个实施例，本发明还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一个实施例所述的图像处理方法中的步骤。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一个实施例所述的图像处理方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图像处理方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理方法，应用于电子设备，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标视频流划分为N个待处理视频片段{P₁,…,P_N}，包括：

检测所述目标视频流中各视频帧的人体矩形框，并提取；

3.根据权利要求1所述的方法，其特征在于，所述目标网络模型为基于卷积神经网络算法训练得到的模型；

其中，

4.根据权利要求1所述的方法，其特征在于，所述目标网络模型为基于循环神经网络算法构造的模型；

5.根据权利要求1所述的方法，其特征在于，所述目标视频流来自目标监控摄像机，其中，所述目标监控摄像机包括镜头组件和成像传感器；

6.根据权利要求5所述的方法，其特征在于，所述目标传感器包括：红外热成像传感器、或者深度传感器。

7.一种图像处理装置，应用于电子设备，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述划分模块包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6任一项所述的图像处理方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像处理方法中的步骤。