CN111861275A

CN111861275A - 家政工作模式的识别方法和装置

Info

Publication number: CN111861275A
Application number: CN202010769532.7A
Authority: CN
Inventors: 吴晓军
Original assignee: Hebei Jilian Human Resources Service Group Co ltd
Current assignee: Hebei Jilian Human Resources Service Group Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-30
Anticipated expiration: 2040-08-03
Also published as: CN111861275B

Abstract

本公开提供了一种家政工作模式的识别方法，包括：获取由用户佩戴的可移动摄像头捕获的图像数据，图像数据包括视频帧的序列；提取图像数据的空间特征和时间特征，其中空间特征包括针对每个视频帧的多尺度特征，时间特征基于一段时间内的视频帧的空间特征而形成；获取由用户佩戴的一个或多个运动传感器采集到的运动数据，运动数据包括三维空间的加速度、角加速度和地磁数据的序列；提取运动数据的运动模式特征；提取一个或多个运动传感器相对于可移动摄像头的空间关系特征；基于图像数据的空间特征和时间特征、运动模式特征和空间关系特征，确定用户当前的家政模式和工作强度。

Description

家政工作模式的识别方法和装置

技术领域

本发明涉及人力资源管理和传感器技术领域，具体涉及一种家政工作模式的识别方法和装置。

背景技术

家政服务是一种综合性的劳动，例如，包括做饭、拖地、擦窗户、看小孩等，每种工作模式需要的技能要求不同，单位时间的薪酬也有差异。常常有家政人员抱怨在业主家中的工作太辛苦，得不到合理的报酬，类似地，有的业主则会抱怨家政人员工作懈怠不主动，认为不值得拿那么多薪水。

现有技术通常是根据固定位置摄像头采集视频数据，从视频中的动作判断家政人员正在从事的工作。例如，CN111008616A公开了一种基于卷积神经网络和深度核网络的视频行为识别方法，包括以下步骤：步骤1：采集视频并按行为类别进行分类；步骤2：对筛选后的视频进行预处理；步骤3：用经过预处理后的数据训练模型；步骤4：采集待检测视频并进行预处理；步骤5：根据步骤3得到的训练好的模型用步骤4得到的预处理后的数据作为输入进行行为识别；步骤6：根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。该方法仅提取了视频图像的图像特征，基于图像特征进行行为分类。

这种方法只能很粗略地判断出大运动家务的类型，而且在视频信息受障碍物和光线影响的情况下，无法判断出家务类型。因此，需要一种能够自动判断家政人员工作类别和强度的方法，其能够在无人监督的情况下，估算出家政人员在家都做了哪些家务、每种家务分别工作了多长时间。

发明内容

有鉴于此，本发明实施例公开了一种家政工作模式的识别方法、装置、电子设备和计算机可读介质，其综合视频识别、传感器模式识别技术来精确识别出家政人员的工作模式和强度，从而可以更为准确地评估家政人员的工作量，作为支付报酬的参考。

根据本发明的第一方面，提供了一种家政工作模式的识别方法，包括：获取由用户佩戴的可移动摄像头捕获的图像数据，所述图像数据包括视频帧的序列；提取所述图像数据的空间特征和时间特征，其中所述空间特征包括针对每个视频帧的多尺度特征，所述时间特征基于一段时间内的视频帧的空间特征而形成；获取由用户佩戴的一个或多个运动传感器采集到的运动数据，所述运动数据包括三维空间的加速度、角加速度和地磁数据的序列；提取所述运动数据的运动模式特征；提取所述一个或多个运动传感器相对于所述可移动摄像头的空间关系特征；基于所述图像数据的空间特征和时间特征、所述运动模式特征和所述空间关系特征，确定用户当前的家政模式和工作强度。

在一个可能的实施例中，提取所述图像数据的空间特征包括使用卷积神经网络提取所述图像数据中视频帧的8倍下采样特征、16倍下采样特征和32倍下采样特征，并组合形成所述多尺度特征。多尺度特征的优点在于，能够从图像中提取到大运动和精细运动家务劳动产生的图像特征，例如，拖地、擦窗户属于典型的大运动家务，伴随着视频图像的大幅度变化，诸如32倍下采样的高阶特征更能够体现大运动相关的家务模式；相反，做饭、带小孩等属于典型的精细运动家务模式，伴随着视频图像的精细变化或较少变化，诸如8倍下采样的低阶特征更能够体现精细运动的家务模式。

在一个可能的实施例中，提取所述图像数据的时间特征可以包括:从当前帧之前一段时间内的多个视频帧中随机选择一部分视频帧，组合所选择的一部分视频帧的空间特征，形成所述时间特征。为了提取视频数据的时间特征，在一段时间的视频，即移动时间窗的多个帧中随机选择其中的一部分帧进行池化，可以减轻过拟合的问题。

在一个可能的实施例中，组合所选择的一部分视频帧的空间特征包括：池化所述空间特征为最大值、平均值、乘积中的一个。池化可以提取到视频数据的时间特征。

在一个可能的实施例中，所述运动模式包括类别和强度，类别包括大运动平移、大运动转动、大运动振动、精细运动平移、精细运动转动、精细运动振动，强度包括距离、振幅、频率。根据本发明实施例，提取运动传感器的运动模式，而不是将运动传感器的输入直接输入到神经网络，其优点是能够减少神经网络的参数量、训练量及运行性能。

在一个可能的实施例中，提取所述运动数据的运动模式特征可以包括使用支持向量机提取所述运动模式。这里，支持向量机可形成为多分类的支持向量机集合，例如，对于n分类，可以使用n(n-1)/2个二分类支持向量机组合形成。

在一个可能的实施例中，所述一个或多个运动传感器包括用于检测头部运动的头部运动传感器和用于检测四肢运动的手环运动传感器。硬件上，家政人员可以佩戴一个头部运动传感器和至少一个手环运动传感器(例如，左右手都佩戴)，以便获取家政人员的头部运动数据和手臂运动数据。

在一个可能的实施例中，提取所述空间关系特征包括：基于头部运动传感器的感测数据、手环运动传感器的感测数据，通过惯性导航的方式计算出手环运动传感器相对于头部运动传感器的空间关系向量，得到所述空间关系向量的时间序列，作为所述空间关系特征。空间关系特征体现为四肢相对于头部的空间关系，利用这种空间关系可以感知手在身体附近的位置，这有助于确定家政模式。

在一个可能的实施例中，所述确定用户当前的家政模式和工作强度可以包括：将所述空间特征和时间特征、所述运动模式特征和所述空间关系特征组合输入到神经网络模型，以输出用户的行为模式和工作强度。空间特征、时间特征、运动模式特征、空间关系特征的组合被输入到神经网络，从而可以自主获取家政模式相关的特征，更为准确地确定家政模式和工作强度。

根据本发明的第二方面，提供了一种家政工作模式的识别装置，包括：图像数据获取单元，用于获取由用户佩戴的可移动摄像头捕获的图像数据，所述图像数据包括视频帧的序列；图像特征提取单元，提取所述图像数据的空间特征和时间特征，其中所述空间特征包括针对每个视频帧的多尺度特征，所述时间特征基于一段时间内的视频帧的空间特征而形成；运动数据获取单元，用于获取由用户佩戴的一个或多个运动传感器采集到的运动数据，所述运动数据包括三维空间的加速度、角加速度和地磁数据的序列；运动特征提取单元，用于提取所述运动数据的运动模式特征；空间关系特征提取单元，用于提取所述一个或多个运动传感器相对于所述可移动摄像头的空间关系特征；模式确定单元，用于基于所述图像数据的空间特征和时间特征、所述运动模式特征和所述空间关系特征，确定用户当前的家政模式和工作强度。

根据本发明的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上述第一方面所述的方法。

根据本发明的第四方面，提供了一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上述第一方面所述的方法。

本发明提供了一种多模态图像识别技术，其使用配置在家政人员身上的可移动摄像头和运动传感器来识别家政人员的工作类别和强度，能够在无人监督的情况下，估算出家政人员在家都做了哪些家务和工作强度。

本公开的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开实施例而了解。本公开的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本发明实施例的多模态行为模式识别的示意框图。

图2示出了根据本发明实施例的视频数据空间特征提取的示意图。

图3示出了根据本发明实施例的视频数据时间特征提取的示意图。

图4示出了根据本发明实施例的运动传感器的示意框图。

图5示出了根据本发明实施例的提取空间关系特征的方法的示意流程图。

图6示出了根据本发明实施例的一种家政工作模式的识别方法的示意流程图。

图7示出了根据本发明实施例的一种家政工作模式的识别装置的示意框图。

图8示出了用于实现本发明实施例的电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1示出了根据本发明实施例的多模态行为模式识别的示意框图。这里多模态指的是基于可移动摄像头采集到的视频数据、至少一个运动传感器检测到的运动感测数据、以及传感器之间的空间关系来确定家政人员的工作模块和工作强度。相比于现有技术的仅依赖于视频数据的行为判断方法，本发明具有更高的准确率和精度。

如图1所示，摄像头110用于采集用户(即家政人员)的第一视角视频数据。在一个实施例中，摄像头110可以被佩戴在用户头部，例如帽子、头盔、眼镜等可穿戴设备上，该可穿戴设备可以具有无线通信接口，例如WiFi、蓝牙等，以便将采集到的视频数据上传到服务器(未示出)用于处理。服务器上部署有计算机程序，用于从视频数据提取空间特征和时间特征。

在一个实施例中，服务器上部署有卷积网络111，卷积网络111针对视频数据的视频帧提取空间特征112，该空间特征112可以是多尺度特征，下文参考图2详细描述。进一步地，可以从相邻的多个视频帧提取视频数据的时间特征113，下文参考图3详细描述。视频数据的空间特征112和时间特征113可以一起输入到神经网络140。

如图1所示，提供了包括手环运动传感器120-1和头部运动传感器120-2在内的多个运动传感器，运动传感器被佩戴在用户的不同身体部分以检测相应的运动感测数据。具体地，手环运动传感器120-1可以被佩戴在用户腕部，用于检测用户动作时手腕的加速度、角加速度和地磁数据；头部运动传感器120-2可以被佩戴在用户头部，例如帽子、头盔、眼镜等可穿戴设备上，用于检测用户动作时头部的加速度、角加速度和地磁数据。加速度包括三维空间坐标系的X、Y、Z轴方向上的平移加速度，角加速度包括围绕三维空间坐标系的三个坐标轴的加速度，包括俯仰、横滚、旋转的角加速度。地磁数据包括检测到的关于地磁方向的数据，即运动传感器的方位取向。

运动传感器120-1和120-2的运动感测数据可以被输入到支持向量机121，通过支持向量机121产生运动特征。在一个实施例中，支持向量机121可以被预先训练，从而适于产生关于预设运动模式的运动特征122-1和122-2。运动特征122可以是运动模式向量，其中每个分量代表运动感测数据属于相应运动类别的概率和强度。在一个实施例中，运动类别包括大运动平移、大运动转动、大运动振动、精细运动平移、精细运动转动、精细运动振动，强度包括位移距离、振幅、频率。根据本发明实施例，使用支持向量机121提取运动传感器的运动模式，而不是将运动传感器的输出直接输入到神经网络，其优点是能够减少神经网络的参数量、训练量及提高运行性能。

这里，支持向量机121形成为多分类的支持向量机集合。例如，对于n分类，可以使用n(n-1)/2个二分类支持向量机组合形成，其中针对n分类中任意两个分类形成一个支持向量机进行二分类，然后通过投票方式确定运动感测数据对应的运动特征。

假设有A，B，C，D，E，F六类。在训练的时候选择(A，B)，(A，C),(A，D)…(E，F)对应的向量作为训练集，然后得到15个训练结果，在测试的时候，把对应的向量分别对15个结果进行测试，然后采取投票形式，最后得到一组结果。投票是这样的：

A＝B＝C＝D＝E＝F＝0；

(A,B)分类器，如果是A win，则A＝A+1；否则，B＝B+1；

(A,C)分类器，如果是A win,则A＝A+1；否则，C＝C+1；

……

(E，F)分类器,如果是E win,则E＝E+1；否则，F＝F+1；

最终，得到运动模式向量的类别分量(A,B,C,D,E,F)。

在一个实施例中，还可以根据运动感测数据中的加速度、角加速度计算运动强度。例如，可以通过惯性导航的方式计算出运动传感器的位移距离、振幅、频率。将上述类别分量和位移距离、振幅、频率组合形成运动特征。

如图1所示，根据手环运动传感器120-1和头部运动传感器120-2的运动感测数据产生空间关系特征130。

在一个实施例中，由头部运动传感器120-2的感测数据、手环运动传感器120-1的感测数据，通过惯性导航的方式计算出手环运动传感器相对于头部运动传感器的空间关系向量，由此得到空间关系向量的时间序列，作为空间关系特征130，下文将参考图5详细描述。

以上得到的视频数据的空间特征112和时间特征113、运动传感器的运动特征122-1和122-2、空间关系特征130可以通过拼接组合，一起输入到神经网络140。在一个实施例中，神经网络140可以包括长短期记忆(LSTM)层、循环神经网络(RNN)、全连接(FC)和归一化层(SOFTMAX)。神经网络140可以输出关于行为模式和工作强度的向量，在一个实施例中，将概率最大的行为模式作为用户的行为模式。

图2示出了根据本发明实施例的视频数据空间特征提取的示意图。根据本发明实施例，深度卷积网络提供了输入层、3个卷积层CNN(均含池化层)和输出层。针对视频数据中的每个视频帧(例如224x224)：

输入层：固定大小的224x224的RGB图像。

卷积层：卷积步长均为1。填充方式：填充卷积层的输入，使得卷积前后保持同样的空间分辨率。3x3卷积：same填充，即：输入的上下左右各填充1个像素。1x1卷积：不需要填充。

卷积核尺寸：有3x3和1x1两种。3x3卷积核：这是捕获视频帧左右、上下、中心等概念的最小尺寸。1x1卷积核：用于输入通道的线性变换。在它之后接一个ReLU激活函数，使得输入通道执行了非线性变换。

池化层：采用最大池化。池化窗口为2x2，步长为2。

通过图2所示的三个卷积层，分别从图像帧提取出8倍下采样、16倍下采样、32倍下采样的多尺度特征。上述多尺度特征在输出层被拼接，形成视频图像帧的空间特征。

多尺度特征的优点在于，能够从图像中提取到大运动和精细运动家务劳动产生的图像特征，例如，拖地、擦窗户属于典型的大运动家务，伴随着视频图像的大幅度变化，诸如32倍下采样的高阶特征更能够体现大运动相关的家务模式；相反，做饭、带小孩等属于典型的精细运动家务模式，伴随着视频图像的精细变化或较少变化，诸如8倍下采样的低阶特征更能够体现精细运动的家务模式。

图3示出了根据本发明实施例的视频数据时间特征提取的示意图。在提取出每个视频帧的空间特征的基础上，提取视频数据的时间特征。

在一个实施例中，为了提取视频的时间特征，在一段时间的视频(移动时间窗)的i个帧(图3中的视频帧1，视频帧2，…，视频帧i)中随机选择其中的m个帧进行池化，这可以减轻过拟合的问题。随机选择的确定可以基于随机数据发生器。池化操作可以包括所选择的视频帧与当前视频帧(视频帧0)的空间特征的平均值、最大值、乘积等(优选乘积)。

需要注意的是，对于这m个视频帧中每个视频帧以及当前视频帧，通过上述卷积神经网络(CNN)提取到空间特征，这m+1个视频帧是权值共享的，然后根据这m+1个视频帧的CNN特征首先使用融合操作形成一个特征，然后对融合的特征进行编码得到视频表示，作为视频数据的时间特征。

图4示出了根据本发明实施例的运动传感器的示意框图。运动传感器400包括加速度感测模块410、角加速度感测模块420、地磁感测模块430和通信模块440。

加速度感测模块410、角加速度感测模块420、地磁感测模块430可以包括但不限于惯性测量单元(IMU)、加速度计、陀螺仪、磁力计、全球定位(GPS)传感器、RFID传感器或其他传感器。通过加速度感测模块410、角加速度感测模块420、地磁感测模块430可以感测到用户各个身体部位的运动数据，运动数据包括三维空间的加速度、角加速度和地磁数据的序列。通信模块440与加速度感测模块410、角加速度感测模块420、地磁感测模块430可通信连接，用于接收它们的感测数据。通信模块440可以涉及多种协议，包括ANT、ANT+、蓝牙、BlueRobin和/或其他协议中的任何一种。

在一个实施例中，运动传感器400包括用于检测头部运动的头部运动传感器(如图1的运动传感器120-1)和用于检测四肢运动的手环运动传感器(如图1的运动传感器120-2)。家政人员可以佩戴一个头部运动传感器和至少一个手环运动传感器(例如，左右手都佩戴)，以便获取家政人员的头部运动数据和手臂运动数据。

如上所述，头部运动数据和手臂运动数据可以被输入到诸如支持向量机，以提取运动传感器的运动特征。运动特征可以是运动模式向量，其中每个分量代表运动感测数据属于相应运动类别的概率和强度。在一个实施例中，运动类别包括大运动平移、大运动转动、大运动振动、精细运动平移、精细运动转动、精细运动振动，强度包括位移距离、振幅、频率。

图5示出了根据本发明实施例的提取空间关系特征的方法的示意流程图。当运动传感器被配置为头部运动传感器和手环运动传感器时，空间关系特征体现为四肢相对于头部的空间关系，利用这种空间关系可以感知手在身体附近的位置，这有助于确定家政模式。

方法500包括：在步骤510，校准头部传感器和手环传感器的空间关系，产生第一向量。在一个实施例中，用户在校准阶段可以放松站立，手臂自然下垂在身体两侧，将此时的相对位置作为基准向量。

然后，在步骤520，计算头部运动传感器的第一位移。在一个实施例中，通过惯性导航的方式计算出头部传感器在三维空间中的当前位置，产生第一位移。

在步骤530，计算手环运动传感器的第二位移。在一个实施例中，通过惯性导航的方式计算出手环运动传感器在三维空间中的当前位置，产生第二位移。

在步骤540，基于基准向量、第一位移、第二位移产生当前空间关系。当前空间关系可以直接通过三维向量的运算法则计算得到，其具有三维向量的形式。随着时间推移，可以得到空间关系的时间序列，作为空间关系特征。

图6示出了根据本发明实施例的一种家政工作模式的识别方法的示意流程图。方法600包括：

在步骤610，获取由用户佩戴的可移动摄像头捕获的图像数据，所述图像数据包括视频帧的序列；

在步骤620，提取所述图像数据的空间特征和时间特征，其中所述空间特征包括针对每个视频帧的多尺度特征，所述时间特征基于一段时间内的视频帧的空间特征而形成；

在步骤630，获取由用户佩戴的一个或多个运动传感器采集到的运动数据，所述运动数据包括三维空间的加速度、角加速度和地磁数据的序列；

在步骤640，提取所述运动数据的运动模式特征；

在步骤650，提取所述一个或多个运动传感器相对于所述可移动摄像头的空间关系特征；

在步骤660，基于所述图像数据的空间特征和时间特征、所述运动模式特征和所述空间关系特征，确定用户当前的家政模式和工作强度。

在一个可能的实施例中，所述运动模式包括类别和强度，类别包括大运动平移、大运动转动、大运动振动、精细运动平移、精细运动转动、精细运动振动，强度包括距离、振幅、频率。根据本发明实施例，提取运动传感器的运动模式，而不是将运动传感器的输出直接输入到神经网络，其优点是能够减少神经网络的参数量、训练量及提高运行性能。

图7示出了根据本发明实施例的一种家政工作模式的识别装置的示意框图。识别装置700包括：

图像数据获取单元710，用于获取由用户佩戴的可移动摄像头捕获的图像数据，所述图像数据包括视频帧的序列；

图像特征提取单元720，提取所述图像数据的空间特征和时间特征，其中所述空间特征包括针对每个视频帧的多尺度特征，所述时间特征基于一段时间内的视频帧的空间特征而形成；

运动数据获取单元730，用于获取由用户佩戴的一个或多个运动传感器采集到的运动数据，所述运动数据包括三维空间的加速度、角加速度和地磁数据的序列；

运动特征提取单元740，用于提取所述运动数据的运动模式特征；

空间关系特征提取单元750，用于提取所述一个或多个运动传感器相对于所述可移动摄像头的空间关系特征；

模式确定单元760，用于基于所述图像数据的空间特征和时间特征、所述运动模式特征和所述空间关系特征，确定用户当前的家政模式和工作强度。

图8示出了用于实现本发明实施例的电子设备的结构示意图。如图8所示，电子设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。CPU801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该指令被中央处理单元(CPU)801执行时，执行本公开中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本公开构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种家政工作模式的识别方法，包括：

获取由用户佩戴的可移动摄像头捕获的图像数据，所述图像数据包括视频帧的序列；

提取所述图像数据的空间特征和时间特征，其中所述空间特征包括针对每个视频帧的多尺度特征，所述时间特征基于一段时间内的视频帧的空间特征而形成；

获取由用户佩戴的一个或多个运动传感器采集到的运动数据，所述运动数据包括三维空间的加速度、角加速度和地磁数据的序列；

提取所述运动数据的运动模式特征；

提取所述一个或多个运动传感器相对于所述可移动摄像头的空间关系特征；

基于所述图像数据的空间特征和时间特征、所述运动模式特征和所述空间关系特征，确定用户当前的家政模式和工作强度。

2.如权利要求1所述的识别方法，其中，提取所述图像数据的空间特征包括使用卷积神经网络提取所述图像数据中视频帧的8倍下采样特征、16倍下采样特征和32倍下采样特征，并组合形成所述多尺度特征。

3.如权利要求1所述的识别方法，其中，提取所述图像数据的时间特征包括:从当前帧之前一段时间内的多个视频帧中随机选择一部分视频帧，组合所选择的一部分视频帧的空间特征，形成所述时间特征。

4.如权利要求3所述的识别方法，其中，组合所选择的一部分视频帧的空间特征包括：池化所述空间特征为最大值、平均值、乘积中的一个。

5.如权利要求1所述的识别方法，所述运动模式包括类别和强度，类别包括大运动平移、大运动转动、大运动振动、精细运动平移、精细运动转动、精细运动振动，强度包括距离、振幅、频率。

6.如权利要求1所述的识别方法，其中，提取所述运动数据的运动模式特征包括使用支持向量机提取所述运动模式。

7.如权利要求1所述的识别方法，其中，所述一个或多个运动传感器包括用于检测头部运动的头部运动传感器和用于检测四肢运动的手环运动传感器。

8.如权利要求1所述的识别方法，其中，提取所述空间关系特征包括：基于头部运动传感器的感测数据、手环运动传感器的感测数据，通过惯性导航的方式计算出手环运动传感器相对于头部运动传感器的空间关系向量，得到所述空间关系向量的时间序列，作为所述空间关系特征。

9.如权利要求1所述的识别方法，其中，所述确定用户当前的家政模式和工作强度包括：将所述空间特征和时间特征、所述运动模式特征和所述空间关系特征组合输入到神经网络模型，以输出用户的行为模式和工作强度。

10.一种家政工作模式的识别装置，包括：

图像数据获取单元，用于获取由用户佩戴的可移动摄像头捕获的图像数据，所述图像数据包括视频帧的序列；

图像特征提取单元，提取所述图像数据的空间特征和时间特征，其中所述空间特征包括针对每个视频帧的多尺度特征，所述时间特征基于一段时间内的视频帧的空间特征而形成；

运动数据获取单元，用于获取由用户佩戴的一个或多个运动传感器采集到的运动数据，所述运动数据包括三维空间的加速度、角加速度和地磁数据的序列；

运动特征提取单元，用于提取所述运动数据的运动模式特征；

空间关系特征提取单元，用于提取所述一个或多个运动传感器相对于所述可移动摄像头的空间关系特征；

模式确定单元，用于基于所述图像数据的空间特征和时间特征、所述运动模式特征和所述空间关系特征，确定用户当前的家政模式和工作强度。