CN109829691B

CN109829691B - 基于位置和深度学习多重生物特征的c/s打卡方法和装置

Info

Publication number: CN109829691B
Application number: CN201910041016.XA
Authority: CN
Inventors: 秦浩达
Original assignee: Beijing Moviebook Science And Technology Co ltd
Current assignee: Beijing Moviebook Science And Technology Co ltd
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2021-11-23
Anticipated expiration: 2039-01-16
Also published as: CN113947376B; CN109829691A; CN113947376A

Abstract

本申请公开了一种基于位置和深度学习多重生物特征的C/S打卡方法和装置。其中，应用于服务器的打卡方法包括：在获得用户视频中的用户特征的情况下，接收用户特征和第一识别码；对视频的活体特征进行检测，基于人脸识别模型计算人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取对应的第二识别码；基于语音识别模型计算语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的第三识别码；在第一识别码与第二识别码、第三识别码一致的情况下，打卡成功。采用该方法，能够综合活体、人脸和语音信息等综合信息进行打卡，大大提高了打卡的效率，减少了系统硬件设备的开销，提升了用户体验。

Description

基于位置和深度学习多重生物特征的C/S打卡方法和装置

技术领域

本申请涉及智能识别技术领域，特别是涉及一种打卡方法和装置，更具体地，涉及一种基于位置和深度学习多重生物特征的C/S打卡方法和装置。

背景技术

随着企业规模的扩大，员工数量的增加，企业对员工管理日益艰难，对高可靠的身份验证的需求也日益增长。在考勤方面，现已普及的基于磁卡技术的考勤机以及基于指纹的考勤机已远远不能满足要求，基于磁卡技术容易造成代刷，效率低下，不易统计，管理和使用维护成本高，而且容易丢失，消磁导致不能按时打卡等弊端；基于指纹的识别技术则易受干扰，据统计全世界有超过5％左右的人群天生指纹很浅，无法用指纹识别，指纹考勤产品在天气干燥或者换季的时候，识别困难，由于必须接触，就给细菌的传播提供了一个便利的载体，而且考勤人数也有一定的限制；新兴的基于人脸识别打卡系统的出现确实帮公司在考勤方面提高了效率，弥补了传统打卡系统存在的技术缺陷。做人脸系统的公司有很多，但是真正做的好的寥寥无几，特制的软硬件往往会导致产品价格和后期维护费用昂贵。一些价格便宜的识别效果差，也容易被一些别有用心的人利用，用照片，视频的方式盗刷，也可能因为网速的原因，让本来可以正常打卡的员工不能正常打卡；公司的格局让摄像头摆放十分困难，每一个订单都要让专门的技术员去调试，容易造成不必要的人力浪费，还可能因为光照，环境等因素影响识别精度；现在高层建筑不断增多，一些企业搬到了里面，上班高峰期，低层的员工在用上述打卡系统影响不大，但是高层的员工为打卡十分头疼，往往因为等待电梯或者排队等候打卡的时间让员工错过最后的打卡机会；这些不利因素会给公司考勤和员工带来很多不必要的麻烦。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的第一个方面，提供了一种打卡方法，应用于服务器，包括：

用户特征接收步骤：在用户通过用户终端的视频获取功能采集该用户的视频，并且基于所述视频获得用户特征的情况下，接收所述用户终端发送的所述用户特征和该用户终端的第一用户终端识别码，其中所述用户特征包括：活体特征、人脸特征和语音特征；

活体检测步骤：基于活体检测模型对所述活体特征进行检测，在检测结果为活体的情况下，执行下一步；

人脸识别步骤：基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；

语音识别步骤：基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；

打卡步骤：在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，将打卡结果设置为成功，并将该打卡结果发送给所述用户终端。

根据本申请的第二个方面，提供了一种打卡方法，应用于用户终端，包括：

用户特征采集步骤：通过视频获取功能采集该用户的视频，并且基于所述视频获得用户特征，所述用户特征包括：活体特征、人脸特征和语音特征；

特征发送步骤：将所述用户特征和该用户终端的第一用户终端识别码发送给服务器；

打卡结果接收步骤：在服务器基于活体检测模型对所述活体特征进行检测，检测结果为活体的情况下；基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，接收服务器发送的打卡成功的打卡结果。

根据本申请的第三个方面，提供了一种打卡装置，打卡装置，应用于服务器，包括：

用户特征接收模块，其配置成用于在用户通过用户终端的视频获取功能采集该用户的视频，并且基于所述视频获得用户特征的情况下，接收所述用户终端发送的所述用户特征和该用户终端的第一用户终端识别码，其中所述用户特征包括：活体特征、人脸特征和语音特征；

活体检测模块，其配置成用于基于活体检测模型对所述活体特征进行检测，在检测结果为活体的情况下，执行下一模块；

人脸识别模块，其配置成用于基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；

语音识别模块，其配置成用于在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，将打卡结果设置为成功，并将该打卡结果发送给所述用户终端。

根据本申请的第四个方面，提供了一种打卡装置，应用于用户终端，包括：

用户特征采集模块，其配置成用于通过视频获取功能采集该用户的视频，并且基于所述视频获得用户特征，所述用户特征包括：活体特征、人脸特征和语音特征；

特征发送模块，其配置成用于将所述用户特征和该用户终端的第一用户终端识别码发送给服务器；

将所述用户特征和该用户终端的第一用户终端识别码发送给服务器模块，其配置成用于在服务器基于活体检测模型对所述活体特征进行检测，检测结果为活体的情况下；基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，接收服务器发送的打卡成功的打卡结果。

采用该方法和装置，能够综合活体、人脸和语音信息等综合信息进行打卡，与现有的指纹打卡技术相比，大大提高了打卡的效率，也能够有效防止作弊行为。通过调用用户终端自带的摄像头、录音设备、GPU进行数据处理和收发，而不用设置专用的打卡设备，减少了系统硬件设备的开销，也便于用户打卡操作，提升了用户体验。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是，这些附图未必是按比例绘制的。在附图中：

图1是根据本申请一个实施例的应用于服务器的打卡方法的示意性流程图；

图2是根据本申请一个实施例的应用于用户终端的打卡方法的示意性流程图；

图3是根据本申请一个实施例的应用于服务器的打卡装置的示意性框图；

图4是根据本申请一个实施例的应用于用户终端的打卡装置的示意性框图；

图5是本申请的计算设备的一个实施例的框图；

图6是本申请的计算机可读存储介质的一个实施例的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请的一个实施例公开了一种打卡方法，该方法可以应用于服务器。图1是根据本申请一个实施例的应用于服务器的打卡方法的示意性流程图。该方法可以包括以下步骤中的一个或多个：

S130用户特征接收步骤：在用户通过用户终端的视频获取功能采集该用户的视频，并且基于所述视频获得用户特征的情况下，接收所述用户终端发送的所述用户特征和该用户终端的第一用户终端识别码，其中所述用户特征包括：活体特征、人脸特征和语音特征。其中，用户可以是公司员工。

S140活体检测步骤：基于活体检测模型对所述活体特征进行检测，在检测结果为活体的情况下，执行下一步。

S150人脸识别步骤：基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码。

S160语音识别步骤：基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码。

S170打卡步骤：在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，将打卡结果设置为成功，并将该打卡结果发送给所述用户终端。

采用该方法，能够综合活体、人脸和语音信息等综合信息进行打卡，与现有的指纹打卡技术相比，大大提高了打卡的效率，也能够有效防止作弊行为。

在所述S130用户特征接收步骤前，该方法还可以包括：

S110定位信息接收步骤：接收用户终端发送的定位信息；

S120位置判断步骤：在定位信息与目标地点之间的距离小于或等于第一阈值的情况下，激活所述用户终端的视频获取功能。

该方法结合将用户特征与定位信息相结合，避免了用户因为电梯等原因不能及时打卡，同时也能够保证用户打开时已经到达公司指定范围内。

可选地，在所述S140活体检测步骤中，在检测结果为非活体的情况下，将重新采集视频的指示发送给所述用户终端。

可选地，所述S170打卡步骤还包括：在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码不一致的情况下，接收所述用户终端发送的所述视频。

根据本申请的另一实施例还公开了一种打卡方法，应用于用户终端。图2是根据本申请一个实施例的应用于用户终端的打卡方法的示意性流程图。该方法可以包括：

S230用户特征采集步骤：通过视频获取功能采集该用户的视频，并且基于所述视频获得用户特征，所述用户特征包括：活体特征、人脸特征和语音特征。

S240特征发送步骤：将所述用户特征和该用户终端的第一用户终端识别码发送给服务器；

S250打卡结果接收步骤：在服务器基于活体检测模型对所述活体特征进行检测，检测结果为活体；基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，接收服务器发送的打卡成功的打卡结果。

采用该方法，用户能够利用用户终端通过录音方式进行打卡，用户仅需要花费短暂时间进行录音，该方法就能够综合活体、人脸和语音信息等综合信息实现打卡判断，与现有的打卡技术相比，大大提高了打卡的效率，也能够有效防止作弊行为。

在所述S230特征发送步骤前，该方法还可以包括：

S210定位步骤：将用户的定位信息发送给服务器；

S220视频获取功能激活步骤：在服务器判读用户的定位信息与目标地点之间的距离小于或等于第一阈值的情况下，视频获取功能被激活。

可选地，在所述S230用户特征采集步骤中，提取所述视频的生命体征信号，将所有生命体征信号进行相关运算，得到活体特征；选择所述视频中的一个视频帧，基于所述视频帧进行人脸识别、关键点定位和特征信息提取，得到所述人脸特征；对所述视频音频段进行去燥、分帧、数字化处理和特征参数提取，得到所述语音特征。

本申请公开的方法可以包括以下几个阶段：

阶段一：数据准备以及模型训练阶段：

对所述活体检测模型采用如下方式进行训练：将训练集中所有特征向量与其对应的数据标定送入活体检测模型，所述训练集包含：照片人脸、3D面具人脸、真实人脸等。根据非活体对象并无生命体征信号区分待检测对象是否为活体，训练并生成活体检测模型。可选地，活体检测模型为支撑向量机。

对所述人脸识别模型采用如下方式进行训练：利用人脸识别模型对用户的照片进行人脸检测、关键点定位和特征信息提取，得到该用户的人脸特征，将该人脸特征和该用户的用户身份信息关联，以训练该人脸识别模型。

用户可以提供10张至20张本人的生活照片作为训练样本，最好包括正脸、不同程度侧脸、戴眼镜等多维度照片，女性用户最好有化妆照片。训练样本供人脸识别模型训练使用。人脸识别模型对用户的照片进行人脸检测、关键点定位、提取特征参数，和员工身份信息关联起来，利用机器学习去训练人脸识别模型，将用户信息和手机设备号关联存储在数据库中以供查询。

人脸检测、关键点定位和特征信息提取可以使用dlib机器学习开源库中人脸关键点检测器模型库shape_predictor_68_face_landmarks.dat和人脸识别模型库dlib_face_recognition_resnet_model_v1.dat实现。

对所述语音识别模型采用如下方式进行训练：对用户的录音进行预处理后提取语音特征，将所述语音特征与所述用户的用户身份信息关联，训练所述语音识别模型，其中，所述语音特征能够表征该用户的声音特点。

公司相关部门可以提供一些语料让用户进行录音，用于作为语音识别模型的训练样本。其中，预处理包括对录音进行数字化处理、静音切除、滤波和声音分帧预处理；提取语音特征包括利用线性预测倒谱系数(LPCC)或Mel倒谱系数(MFCC)对预处理后的录音进行语音特征提取。

将语音特征与用户终端设备号、身份信息关联起来，利用机器学习去训练语音识别模型，该模型并不注意语音信号中的语义内容，不是为了将语音转换为文字，而是从录音中提取出用于特指某人录音者的语音特征，以便使用该识别模型时能够从通过声音的语音特征的对比，判断出该声音与哪个用户的声音更加相似。其中，语音识别模型可以是SphinxTrain声学模型训练器。

将用户终端设备号和用户身份信息存放在数据库中，以供查询。

阶段二：打卡操作阶段：

1、员工通过用户终端，例如手机中的APP将设备号和地理位置发送给服务器，让服务器确定员工所在地与公司之间的距离，如果在允许打卡距离之内，允许员工通过APP调用手机摄像头进行录像，进行下一步；如果不在打卡距离之内，则提醒员工在更近的距离内打卡；

2、在视频录制过程中，APP通过自身绑定的提取人活体特征信息的算法和手机自带的GPU处理视频，提取视频图像的生命体征信号，将提取到的所有生命体征信号进行相关运算，计算得到活体特征向量；随机挑选视频中间的一帧，进行人脸识别，关键点定位，提取特征信息，通过相关运算得到人脸特征向量；对语音进行首尾端的静音切除，降低对后续步骤造成的干扰。

可选地，可以对录音进行分离处理。在多人说话的情况下，如果不对输入信号做分离处理，而进行语音识别的话，会影响识别效。对于该问题，在多个说话人距离较远的情况下，可以采用波束形成方法对多人的语音进行分离处理。在多个说话人距离很近的情况下，在单通道下采用computational auditory scene analysis、非负矩阵分解、deepclustering等方法对多人的语音进行分离处理，这些方法只有当噪声信号(除声源外的其他信号)与声音源信号有明显不同的特征时有较好效果。

对录音进行分帧处理，然后利用线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)进行数字化处理，提取特征参数，通过相关计算得到语音特征向量；将以上数据，以及终端设备号、保存时间发送给服务器。利用用户终端自带的GPU可以节省服务器在打卡集中时间段对数据的处理时间，也能节省成本，让用户的体验更好。

3、将活体特征向量放入活体检测模型中，判断其是否是活体，如果是活体则进行下一步，不是，提醒员工请按正常流程录像上传；

4、将人脸特征向量放入人脸识别模型中，计算欧氏距离，取出距离，例如欧氏距离最小的员工身份信息，并在数据库中查询该员工对应的手机设备号；

5、将语音特征向量放入语音识别模型中，计算欧氏距离，取出欧式距离最小的员工身份信息，并在数据库中查询该员工对应的手机设备号；

6、将第4、5步骤提取到的手机设备号与APP发送过来的手机设备号对比，如果一致，则通知员工打卡成功，如果不一致，服务器让APP主动将当时员工录制的视频上传到服务器，以供以后调整算法。该APP具有缓存视频的功能，打卡成功则APP自行删除缓存视频，打卡不成功则APP主动上传缓存视频。

该方法是基于GPS定位和深度学习多重生物特征的C/S打卡方法。语言是人的自然属性之一，每个人的语言都带有强烈的个人色彩，将其和人脸识别结合起来能够在很大程度上提高识别模型的准确度。通过定位系统能够让一些位于高层建筑上的公司员工或者打卡高峰期时排队等候的员工按时打卡，提高效率；服务器上带有人脸识别模型，语言识别模型，活体检测模型以及模型算法，能够对用户终端的数据进行判断和处理；用户利用移动终端内的APP，通过调用移动终端自带的摄像头、录音设备、GPU进行数据处理和收发，公司不用设置专用的打卡设备，减少了系统硬件设备的开销，也便于用户打卡操作，提升了用户体验。

根据本申请的再一个实施例还公开了一种打卡装置，该装置可以应用于服务器。图3是根据本申请一个实施例的应用于服务器的打卡装置的示意性框图。该装置可以包括以下模块中的一个或多个：

用户特征接收模块130，其配置为用于在用户通过用户终端的视频获取功能采集该用户的视频，并且基于所述视频获得用户特征的情况下，接收所述用户终端发送的所述用户特征和该用户终端的第一用户终端识别码，其中所述用户特征包括：活体特征、人脸特征和语音特征。其中，用户可以是公司员工。

活体检测模块140，其配置为用于基于活体检测模型对所述活体特征进行检测，在检测结果为活体的情况下，执行下一步。

人脸识别模块150，其配置为用于基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码。

语音识别模块160，其配置为用于基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码。

打卡模块170，其配置为用于在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，将打卡结果设置为成功，并将该打卡结果发送给所述用户终端。

该装置能够综合活体、人脸和语音信息等综合信息进行打卡，与现有的指纹打卡技术相比，大大提高了打卡的效率，也能够有效防止作弊行为。

该装置还可以包括：

定位信息接收模块，其配置为用于接收用户终端发送的定位信息；

位置判断模块，其配置为用于在定位信息与目标地点之间的距离小于或等于第一阈值的情况下，激活所述用户终端的视频获取功能。

该装置结合将用户特征与定位信息相结合，避免了用户因为电梯等原因不能及时打卡，同时也能够保证用户打开时已经到达公司指定范围内。

可选地，在所述活体检测模块140中，在检测结果为非活体的情况下，将重新采集视频的指示发送给所述用户终端。

可选地，所述打卡模块170中：在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码不一致的情况下，接收所述用户终端发送的所述视频。

根据本申请的再一个实施例还公开了一种打卡装置，应用于用户终端。图4是根据本申请一个实施例的应用于用户终端的打卡装置的示意性框图。该装置可以包括以下模块中的一个或多个：

用户特征采集模块230，其配置为用于通过视频获取功能采集该用户的视频，并且基于所述视频获得用户特征，所述用户特征包括：活体特征、人脸特征和语音特征。

特征发送模块240，其配置为用于将所述用户特征和该用户终端的第一用户终端识别码发送给服务器；

打卡结果接收模块250，其配置为用于在服务器基于活体检测模型对所述活体特征进行检测，检测结果为活体的情况下；基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，接收服务器发送的打卡成功的打卡结果。

采用该装置，用户能够利用用户终端通过录音方式进行打卡，用户仅需要花费短暂时间进行录音，该方法就能够综合活体、人脸和语音信息等综合信息实现打卡判断，与现有的打卡技术相比，大大提高了打卡的效率，也能够有效防止作弊行为。

该装置还可以包括：

定位模块，其配置为用于将用户的定位信息发送给服务器；

视频获取功能激活模块，其配置为用于在服务器判读用户的定位信息与目标地点之间的距离小于或等于第一阈值的情况下，视频获取功能被激活。

可选地，在所述用户特征采集模块230中，提取所述视频的生命体征信号，将所有生命体征信号进行相关运算，得到活体特征；选择所述视频中的一个视频帧，基于所述视频帧进行人脸识别、关键点定位和特征信息提取，得到所述人脸特征；对所述视频音频段进行去燥、分帧、数字化处理和特征参数提取，得到所述语音特征。

本申请的再一个实施例还提供了一种计算设备，参照图5，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本申请的方法步骤1131。

本申请的实施例的一个方面还提供了一种计算机可读存储介质。参照图6，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本申请的方法步骤的程序1131’，该程序被处理器执行。

本申请实施例的一个方面还提供了一种包含指令的计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算设备执行时，导致所述计算设备执行如上所述的方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种打卡方法，应用于服务器，包括：

用户特征接收步骤：在用户通过用户终端的视频获取功能采集该用户的视频，并且基于所述视频获得用户特征的情况下，接收所述用户终端发送的所述用户特征和该用户终端的第一用户终端识别码，其中所述用户特征包括：活体特征、人脸特征和语音特征；活体检测步骤：基于活体检测模型对所述活体特征进行检测，在检测结果为活体的情况下，执行下一步；人脸识别步骤：基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；语音识别步骤：基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；和打卡步骤：在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，将打卡结果设置为成功，并将该打卡结果发送给所述用户终端；所述打卡步骤还包括：在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码不一致的情况下，接收所述用户终端发送的所述视频，以供调整算法。

2.根据权利要求1 所述的方法，其特征在于，在所述用户特征接收步骤前，该方法还包括：定位信息接收步骤：接收用户终端发送的定位信息；和位置判断步骤：在定位信息与目标地点之间的距离小于或等于第一阈值的情况下，激活所述用户终端的视频获取功能。

3.根据权利要求1 所述的方法，其特征在于，对所述人脸识别模型采用如下方式进行训练：利用人脸识别模型对用户的照片进行人脸检测、关键点定位和特征信息提取，得到该用户的人脸特征，将该人脸特征和该用户的用户身份信息关联，以训练该人脸识别模型。

4.根据权利要求1 至3 中任一项所述的方法，其特征在于，对所述语音识别模型采用如下方式进行训练：对用户的录音进行预处理后提取语音特征，将所述语音特征与所述用户的用户身份信息关联，训练所述语音识别模型，其中，所述语音特征能够表征该用户的声音特点。

5.根据权利要求1 所述的方法，其特征在于，在所述活体检测步骤中，在检测结果为非活体的情况下，将重新采集视频的指示发送给所述用户终端。

6.一种打卡方法，应用于用户终端，包括：用户特征采集步骤：通过视频获取功能采集该用户的视频，并且基于所述视频获得用户特征，所述用户特征包括：活体特征、人脸特征和语音特征；特征发送步骤：将所述用户特征和该用户终端的第一用户终端识别码发送给服务器；和打卡结果接收步骤：在服务器基于活体检测模型对所述活体特征进行检测，检测结果为活体；基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，接收服务器发送的打卡成功的打卡结果；在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码不一致的情况下，根据服务器的指示上传录制的视频，以供调整算法。

7.根据权利要求6 所述的方法，其特征在于，在所述用户特征采集步骤中，提取所述视频的生命体征信号，将所有生命体征信号进行相关运算，得到活体特征；选择所述视频中的一个视频帧，基于所述视频帧进行人脸识别、关键点定位和特征信息提取，得到所述人脸特征；对所述视频音频段进行去燥、分帧、数字化处理和特征参数提取，得到所述语音特征。

8.一种打卡装置，应用于服务器，包括：用户特征接收模块，其配置成用于在用户通过用户终端的视频获取功能采集该用户的视频，并且基于所述视频获得用户特征的情况下，接收所述用户终端发送的所述用户特征和该用户终端的第一用户终端识别码，其中所述用户特征包括：活体特征、人脸特征和语音特征；活体检测模块，其配置成用于基于活体检测模型对所述活体特征进行检测，在检测结果为活体的情况下，执行下一模块；人脸识别模块，其配置成用于基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；和语音识别模块，其配置成用于在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，将打卡结果设置为成功，并将该打卡结果发送给所述用户终端；还配置成用于在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码不一致的情况下，接收所述用户终端发送的所述视频，以供调整算法。

9.一种打卡装置，应用于用户终端，包括：用户特征采集模块，其配置成用于通过视频获取功能采集该用户的视频，并且基于所述视频获得用户特征，所述用户特征包括：活体特征、人脸特征和语音特征；特征发送模块，其配置成用于将所述用户特征和该用户终端的第一用户终端识别码发送给服务器；和将所述用户特征和该用户终端的第一用户终端识别码发送给服务器模块，其配置成用于在服务器基于活体检测模型对所述活体特征进行检测，检测结果为活体的情况下；基于人脸识别模型计算所述人脸特征与预存的人脸特征之间的距离，获取距离最小的人脸特征所对应的用户身份信息，获取该用户身份信息对应的第二用户终端识别码；基于语音识别模型计算所述语音特征与预存的语音特征之间的距离，获取距离最小的语音特征所对应的用户身份信息，并获取该用户身份信息对应的第三用户终端识别码；第一用户终端识别码与第二用户终端识别码、第三用户终端识别码一致的情况下，接收服务器发送的打卡成功的打卡结果；还配置成用于在第一用户终端识别码与第二用户终端识别码、第三用户终端识别码不一致的情况下，根据服务器的指示上传录制的视频，以供调整算法。