CN111339806A

CN111339806A - 唇语识别模型的训练方法、活体识别方法及装置

Info

Publication number: CN111339806A
Application number: CN201811557601.7A
Authority: CN
Inventors: 赵幸福; 孔志飞; 赵立军
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-06-26
Anticipated expiration: 2038-12-19
Also published as: CN111339806B

Abstract

本申请公开了一种唇语识别模型的训练方法、活体识别方法及装置，活体识别方法包括：获取到待检测的视频数据；对视频数据进行预处理，得到视频数据对应的唇部区域图片；将唇部区域图片输入到训练好的基于深度学习的唇语识别模型中，通过唇语识别模型输出视频数据的读取内容；其中，唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC损失函数；根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据。通过上述方式，能够快速准确的进行活体识别。

Description

唇语识别模型的训练方法、活体识别方法及装置

技术领域

本申请涉及到活体识别技术领域，特别是涉及一种唇语识别模型的训练方法、活体识别方法及装置。

背景技术

随着互联网以及生物技术的快速发展，通过生物特征进行身份验证已经应用于各行各业。比如移动支付、门禁身份验证等等。而在生物特征识别中，常用的有指纹识别如手机解锁、虹膜识别以及人脸特征识别以及更为先进的活体检测等技术。

活体检测一般是通过眨眼、张嘴、摇头、点头等组合动作结合人脸关键点定位、人脸追踪等技术来验证是否为真实活体本人。然而，由于这些检测技术并没有标准，很容易被破解或通过预先录制好的视频冒充。

如何自动地、高效地辨别视频真伪即提供更为可靠的活体检测技术，以抵抗欺骗攻击，确保系统安全已成为一个迫切需要解决的问题。

发明内容

本申请主要解决的技术问题是提供一种基于深度学习的唇语识别模型的训练方法，能够快速准确的进行活体识别。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种基于深度学习的唇语识别模型的训练方法，所述唇语识别模型用于活体识别，所述唇语识别模型包括依次级联的两3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构，所述训练方法包括：

获取到用户读取指定内容的视频数据；

对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片；

将所述唇部区域图片输入到基于深度学习的初始模型中，得到预测读取内容；

通过所述CTC算法结构利用所述指定内容以及所述预测读取内容构建损失函数，通过所述损失函数确定是否对所述初始模型进行再训练，并将训练完成的模型确定为所述唇语识别模型。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种活体识别方法，所述活体识别方法包括：

获取到待检测的视频数据；

将所述唇部区域图片输入到训练好的基于深度学习的唇语识别模型中，通过所述唇语识别模型输出所述视频数据的读取内容；其中，所述唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构；

根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种基于深度学习的唇语识别模型的训练装置，所述唇语识别模型用于活体识别，所述唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构，包括视频数据获取模块、预处理模块、预测模块以及训练模块，

所述视频数据获取模块用于获取到用户读取指定内容的视频数据；

所述预处理模块用于对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片；

所述预测模块用于将所述唇部区域图片输入到基于深度学习的初始模型中，得到预测读取内容；

所述训练模块用于通过所述CTC算法结构利用所述指定内容以及所述预测读取内容构建损失函数，通过所述损失函数确定是否对所述初始模型进行再训练，并将训练完成的模型确定为所述唇语识别模型。

为解决上述技术问题，本申请采用的第四个技术方案是：提供一种智能装置，智能装置包括视频获取模块、预处理模块、读取内容预测模块以及活体确定模块，

所述视频获取模块用于获取到待检测的视频数据；

所述读取内容预测模块用于将所述唇部区域图片输入到训练好的基于深度学习的唇语识别模型中，通过所述唇语识别模型输出所述视频数据的读取内容；其中，所述唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构；

所述活体确定模块用于根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据。

为解决上述技术问题，本申请采用的第五个技术方案是：提供一种智能终端，智能终端包括相互耦接的人机交互控制电路、处理器及可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于深度学习的唇语识别模型的训练方法或或上述任一实施方式的活体识别方法的步骤。

为解决上述技术问题，本申请采用的第六个技术方案是：提供一种存储装置，存储装置上存储有程序数据，程序数据被处理器执行时实现上述基于深度学习的唇语识别模型的训练方法或或上述任一实施方式的活体识别方法。

本申请的有益效果是：本实施方式中，获取到待检测的视频数据后，对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片，以消除无关脸部信息干扰，提升识别准确率。通过训练好的唇语识别模型来实现活体识别的方式，能够直接通过唇语识别模型从视频数据中采集到用户的读取内容，通过计算相同格式的读取内容与指定内容的编辑距离的方式使活体识别结果更加准确，降低成本。且相对于现有技术中通过查询每一条唇语图像序列的特征向量以确定读取内容的方式，本实施方式通过模型直接得出读取内容的方式更加简单方便，指定内容的随机范围也更加广泛。另外，本实施方式中将复杂的活体识别技术简化为指定内容与唇语识别模型输出的读取内容的差值判断，过程相对简单，便于部署，降低了活体识别商用化的门槛以及成本。

附图说明

图1是本申请基于深度学习的唇语识别模型的训练方法一实施方式的流程示意图；

图2是活体识别方法一实施方式的流程示意图；

图3是本申请基于深度学习的唇语识别模型的训练装置一实施方式的结构示意图；

图4是本申请智能装置一实施方式的结构示意图；

图5是本申请智能终端一实施方式的结构示意图；

图6是本申请存储装置一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

本申请是将唇语识别技术应用于活体识别中，通过基于深度学习的唇语识别模型来实现活体识别。

如图1所示，图1为本申请基于深度学习的唇语识别模型的训练方法一实施方式的流程示意图。包括如下步骤：

步骤101：获取到用户读取指定内容的视频数据。

为了方便对模型的训练，减少计算量，也为了保证数据的真实性，本实施方式中，在对模型进行训练时，采集用户读取指定内容的视频数据。其中，该指定内容可以为数字、字母以及文字中的至少一种或多种的组合，在此不做限定。

该视频数据可通过训练装置如电脑或智能终端的前置摄像头、外接摄像头来采集。

步骤102：对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片。

具体地，由于用户在读取上述指定内容时，可能会出现间断、停歇，因此，可能存在并没有发声的情况。在本实施方式中，将没有发声或没有采集到声音的部分视频进行剪切，能够减少视频数据的大小，节省数据处理的计算量以及处理时间。本实施方式中，利用视频数据的声音起止时间剔除视频数据中的无声部分。

在一个优选的时候方式中，是将该视频数据的设定时段的无声部分剔除，该设定时段包括该视频数据的起始时段以及结束时段，该起始时段以及结束时段的时长可根据用户读取的语速或实际情况来确定，在此不做限定。

在剔除无声部分的视频后，将有声部分的视频数据拆分成具有排列顺序的帧图片。

进一步地，为了减小对图片处理时的计算量，提高唇语识别精度，在另一个实施方式中，在得到有声部分视频的帧图片后，通过人脸检测技术以及唇部特征提取技术提取该帧图片中的唇部图片，即将唇部图片从帧图片中剪切出来，构成训练唇语识别模型的按时间顺序排列的唇部图片样本数据。以消除其他无关的脸部信息干扰，提升识别准确率。

步骤103：将所述唇部区域图片输入到基于深度学习的初始模型中，得到预测读取内容。

具体地，将按时间顺序排列的唇部图片输入到初始模型中，其中，该初始模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构。优选地，该3D卷积网络结构为2层3D卷积结构。该2D卷积网络结构优选为2D神经网络结构，在具体的应用中，也可以根据实际需要设定3D卷积网络结构的层数以及2D卷积网络结构的具体结构，在此不做限定。该GRU结构优选的为双向GRU结构，在其他实施方式中也可以通过单向GRU结构或其他GRU结构，在此不做限定。

具体地，将该唇语区域图片输入到3D卷积网络结构中，通过所述3D卷积网络结构提取到所述唇部区域图片的第一特征矩阵。在一个可选的实施方式中，该第一特征矩阵包括识别任务的个数batch，即输入的视频数据的个数。该唇语区域图片的深度信息即时间序列长度depth，即单个视频数据的图片帧数，还包括图片对应的数据信息的矩阵高度height、矩阵宽度width以及矩阵通道数channels等，得到的第一矩阵信息(batch,depth,height,width,channels)。如(1*30*12*24*64)，表示输入的视频数据为1个，该视频数据对应的图片帧数为30幅，矩阵高度为12，矩阵宽度为24，矩阵通道数为64。

进一步地，为了减少参数，降低计算量和计算的复杂度，通过reshape函数改变该第一特征矩阵的维度信息。其中，reshape函数是一种可以重新调整矩阵的行数、列数、维数的函数。具体地，本实施方式中，通过该reshape函数从该第一特征矩阵中提取到唇语区域图片的不包括时间序列信息的部分特征矩阵。即将包括时间顺序的一组唇语区域图片转换成一张一张的图片进行处理。比如两个视频视频数据，每个视频数据包括30幅帧图像，将该2个视频数据转变成60幅单独的图片进行处理。例如，第一特征矩阵为(2*30*12*24*64)时，上述部分特征矩阵为(60*12*24*64)。

需要说明的是，在本实施方式中，从第一特征矩阵中提取不包括时间序列信息的部分特征矩阵，并没有删除或者去掉该时间特征向量。唇部区域图片之间的排列顺序是依然存在的，并且提取过程也并未打乱原始唇部区域图片的排列顺序，reshape函数依然能够获取到唇语区域图片的排列顺序。

得到上述不包括时间序列信息的部分特征矩阵后，将该部分特征矩阵输入到2D卷积网络结构中，通过所述2D卷积网络结构对该部分特征矩阵的特征提取能力进行增强，得到第二特征矩阵。再通过reshape函数对第二特征矩阵还原时间序列信息，具体地，reshape函数根据其获取到的唇部区域图片的排列顺序对第二特征矩阵进行时间序列信息的还原，得到第三特征矩阵。并将该第三特征矩阵输入到GRU结构中。通过该GRU结构对第三特征矩阵中的时间序列信息的特征提取能力进行增强，得到第四特征矩阵。并将第四特征矩阵输入到全连接层，通过该全连接层将第四特征矩阵转换为唇部区域图片对应的预测读取内容的唇语特征序列。最后通过该全连接层将该唇语特征序列输入到CTC算法结构中。

步骤104：通过所述CTC算法结构利用所述指定内容以及所述预测读取内容构建损失函数，通过所述损失函数确定是否对所述初始模型进行再训练，并将训练完成的模型确定为所述唇语识别模型。

具体地，在本实施方式中，该CTC算法结构接收到上述处于特征系列后，对该唇语特征序列进行去重，并利用该去重后的唇语特征序列与指定内容的字符标签构建损失函数，再通过该损失函数反向传播，对该初始模型进行训练。

在一个可选的实施方式中，该指定内容的字符是在随机确定指定内容时一并获取到的。具体地，首先获取到该指定内容每个字符的字符标签，并根据每个字符的字符标签构成该指定内容的字符串标签。

具体地，该CTC算法结构将当前损失值为最小损失值所对应的损失函数的参数确定为所述损失函数的当前优化参数，并对该初始模型进行再训练。至当前损失值的变化小于预设范围时，将当前的损失函数参数确定为前述初始模型的模型参数，并将该参数下训练完成的初始模型确定为唇语识别模型。

在得到唇语识别模型后，就可以将该唇语识别模型应用到活体识别中，以提高活体识别的准确率。

参阅图2，图2为本申请活体识别方法一实施方式的流程示意图。其中，本实施方式的活体识别方法是基于深度学习的唇语识别模型。通过唇语识别来实现活体识别。其中，该唇语识别模型是通过上述任一实施方式的唇语识别模型的训练方法训练得到的。

如图2所示，本实施方式的活体识别方法包括：

步骤201：获取到待检测的视频数据。

在进行活体识别时，一般是要求用户读取指定内容，并获取到读取过程的视频。为了防止用户通过提前录制好的视频来代替活体用户当场采集，本实施方式中，会对采集到的视频数据进行活体识别。

其中，该指定内容可以为数字、字母以及文字中的至少一种或多种的组合，在此不做限定。该待检测的视频数据可通过智能装置如智能手机或电脑的前置摄像头、外接摄像头来采集。

步骤202：对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片。

具体地，在采集上述视频数据后，为了节省数据处理的计算量以及处理时间，对视频数据进行压缩，在本实施方式中，是将视频数据中的间断、停歇等无声的部分进行剔除来压缩该视频数据。在一个可选的实施方式中，通过采集视频中声音的起止时间，剔除视频数据中的无声部分，保留视频数据中的有声部分，以减小视频数据的大小，方便后续处理。

进一步地，为了减少对图片处理时的计算量，提高唇语识别精度，在另一个实施方式中，在得到有声部分视频的帧图片后，通过人脸检测技术以及唇部特征提取技术采集该帧图片中的唇部图片，即将唇部图片从帧图片中剪切出来，以消除其他无关的脸部信息干扰，提升识别准确率。

步骤203：将所述唇部区域图片输入到训练好的基于深度学习的唇语识别模型中，通过所述唇语识别模型输出所述视频数据的读取内容。

具体地，将按时间顺序排列的唇部图片输入到基于深度学习的唇语识别模型中。其中，该唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构。优选地，该3D卷积网络结构为2层3D卷积结构。该2D卷积网络结构优选为2D神经网络结构，在具体的应用中，也可以根据实际需要设定3D卷积网络结构的层数以及2D卷积网络结构的具体结构，在此不做限定。该GRU结构优选的为双向GRU结构，在其他实施方式中也可以通过单向GRU结构或其他GRU结构，在此不做限定。

进一步地，为了减少参数，降低计算量和计算的复杂度，通过reshape函数改变该第一特征矩阵的维度信息。其中，reshape函数是一种可以重新调整矩阵的行数、列数、维数的函数。具体地，本实施方式中，通过该reshape函数从该第一特征矩阵中提取到唇语区域图片的不包括时间序列信息的部分特征矩阵。即将包括时间顺序的一组唇语区域图片转换成一张一张的图片进行处理。比如两个视频视频数据，每个视频数据包括30幅帧图像，将该2个视频数据转变成60幅单独的图片进行处理。例如，第一特征矩阵为(2*30*12*24*64)时，第二特征矩阵为(60*12*24*64)。

需要说明的是，在本实施方式中，从第一特征矩阵中提取不包括时间序列信息的部分特征矩阵，并没有删除或者去掉该时间特征向量。唇部区域图片之间的排列顺序是依然存在的，并且提取过程也并未打乱原始唇部区域图片的排列顺序，reshape函数能够保存并获取到唇语区域图片的排列顺序。

得到上述不包括时间序列信息的部分特征矩阵后，将该部分特征矩阵输入到2D卷积网络结构中，通过所述2D卷积网络结构对该部分特征矩阵的特征提取能力进行增强，得到第二特征矩阵。再通过reshape函数对第二特征矩阵还原时间序列信息，具体地，reshape函数根据其获取到的唇部区域图片的排列顺序对第二特征矩阵进行时间序列信息的还原，得到第三特征矩阵。并将该第三特征矩阵输入到GRU结构中。通过该GRU结构对第三特征矩阵中的时间序列信息的特征提取能力进行增强，得到第四特征矩阵。并将第四特征矩阵输入到全连接层，通过该全连接层将第四特征矩阵转换为唇部区域图片对应的唇语特征序列。最后通过该全连接层将该唇语特征序列输入到CTC算法结构中。

进一步地，该CTC算法结构先对该唇语特征序列进行去重，然后输出唇语特征序列对应的所述读取内容。具体地，通过连续时序分类算法使用前后向推导从而对重复的概率标签进行整合，最终得到可能性最大的字符标签序列，即得到唇语特征序列对应的读取内容。

步骤204：根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据。

在得到唇语识别模型输出的读取内容后，进一步地获取该读取内容与指定内容之间的编辑距离。其中，编辑距离为两个字符串的差异程度，编辑距离越小，读取内容与指定内容越接近。

在一个可选的实施方式中，在确定指定内容时一并获取到该指定内容每个字符的字符标签，并根据每个字符的字符标签构成该指定内容的字符串标签。在得到读取内容后，获取该预测读取内容的每个字符的字符标签，并根据每个字符的字符标签构成该读取内容的字符串标签。通过计算该读取内容与指定内容的字符串标签的差异程度得到二者的编辑距离。

通过上述方式，可随机任意设定指定内容，而无需数据库对每一种指定内容对应的唇语特征向量或者字符串标签进行存储，指定内容的设定范围更加广泛。

由于唇语识别模型的准确率一般情况下很难达到100％，因此，在实际应用中，不会直接将编辑距离为0确定为指定内容与预测读取内容相同，而是确定一个阈值，如只有一个或2个字符不同。比如，指定内容为1,2,3,4,5,6,a,b,c,d，而预测读取内容为1,2,3,5,5,6,a,b,c,d，可以认为该预测读取内容是活体用户读取该指定内容而得到的。

因此，在本实施方式中，设定一个编辑距离设定值，如果读取内容与指定内容的编辑距离小于该设定值，确定视频数据为活体用户读取指定内容得到的视频数据，本次活体识别成功；如果读取内容与所述指定内容的编辑距离不小于设定值，确定视频数据为翻拍视频，本次活体识别失败。

区别于现有技术，本实施方式中，获取到待检测的视频数据后，对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片，以消除无关脸部信息干扰，提升识别准确率。通过训练好的唇语识别模型来实现活体识别的方式，能够直接通过唇语识别模型从视频数据中采集到用户的读取内容，通过计算相同格式的读取内容与指定内容的编辑距离的方式使活体识别结果更加准确，降低成本。且相对于现有技术中通过查询每一条唇语图像序列的特征向量以确定读取内容的方式，本实施方式通过模型直接得出读取内容的方式更加简单方便，指定内容的随机范围也更加广泛。另外，本实施方式中将复杂的活体识别技术简化为指定内容与唇语识别模型输出的读取内容的差值判断，过程相对简单，便于部署，降低了活体识别商用化的门槛以及成本。

参阅图3，图3是本申请基于深度学习的唇语识别模型的训练装置一实施方式的结构示意图。本实施方式的训练模型包括视频数据获取模块301、预处理模块302、预测模块303以及训练模块304。

视频数据获取模块301用于获取到用户读取指定内容的视频数据。

为了方便对模型的训练，减少计算量，也为了保证数据的真实性，本实施方式中，在对模型进行训练时，视频数据获取模块301采集用户读取指定内容的视频数据。其中，该指定内容可以为数字、字母以及文字中的至少一种或多种的组合，在此不做限定。该视频数据可通过训练装置如电脑或智能终端的前置摄像头、外接摄像头来采集。

预处理模块302用于对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片。

具体地，由于用户在读取上述指定内容时，可能会出现间断、停歇，因此，可能存在并没有发声的情况。在本实施方式中，预处理模块302将没有发声或没有采集到声音的部分视频进行剪切，能够减少视频数据的大小，节省数据处理的计算量以及处理时间。本实施方式中，预处理模块302利用视频数据的声音起止时间剔除视频数据中的无声部分。

在一个优选的时候方式中，预处理模块302是将该视频数据的设定时段的无声部分剔除，该设定时段包括该视频数据的起始时段以及结束时段，该起始时段以及结束时段的时长可根据用户读取的语速或实际情况来确定，在此不做限定。

预处理模块302在剔除无声部分的视频后，将有声部分的音频数据拆分成具有排列顺序的帧图片。

进一步地，为了对减小对图片处理时的计算量，提高唇语识别精度，在另一个实施方式中，预处理模块302在得到有声部分视频的帧图片后，通过人脸检测技术以及唇部特征提取技术采集该帧图片中的唇部图片，即将唇部图片从帧图片中剪切出来，构成训练唇语识别模型的一组组按时间顺序排列的唇部图片样本数据。以消除其他无关的脸部信息干扰，提升识别准确率。

预测模块303用于将所述唇部区域图片输入到基于深度学习的初始模型中，得到预测读取内容。

具体地，预测模块303将按时间顺序排列的唇部图片输入到初始模型中。其中，该初始模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC损失函数。优选地，该3D卷积网络结构为2层卷积结构。该2D卷积网络结构优选为2D神经网络结构，在具体的应用中，也可以根据实际需要设定3D卷积网络结构的层数以及2D卷积网络结构的具体结构，在此不做限定。该GRU结构优选的为双向GRU结构，在其他实施方式中也可以通过单向GRU结构或其他GRU结构，在此不做限定。

具体地，预测模块303将该唇语区域图片输入到3D卷积网络结构中，通过所述3D卷积网络结构提取到所述唇部区域图片的第一特征矩阵。在一个可选的实施方式中，该第一特征矩阵包括识别任务的个数batch，即输入的视频数据的个数。该唇语区域图片的深度信息即时间序列长度depth，即单个视频数据的图片帧数，还包括图片对应的数据信息的矩阵高度height、矩阵宽度width以及矩阵通道数channels等，得到的第一矩阵信息(batch,depth,height,width,channels)。如(1*30*12*24*64)，表示输入的视频数据为1个，该视频数据对应的图片帧数为30幅，矩阵高度为12，矩阵宽度为24，矩阵通道数为64。

进一步地，并且为了减少参数，降低计算量和计算的复杂度，预测模块303通过reshape函数改变该第一特征矩阵的维度信息。其中，reshape函数是一种可以重新调整矩阵的行数、列数、维数的函数。具体地，本实施方式中，通过该reshape函数从该第一特征矩阵中提取到唇语区域图片的不包括时间序列信息的部分特征矩阵。即将包括时间顺序的一组唇语区域图片转换成一张一张的图片进行处理。比如两个视频视频数据，每个视频数据包括30幅帧图像，将该2个视频数据转变成60幅单独的图片进行处理。例如，第一特征矩阵为(1*30*12*24*64)时，第二特征矩阵为(60*12*24*64)。

预测模块303得到不包括时间序列信息的部分特征矩阵后，将第二特征矩阵输入到2D卷积网络结构中，通过所述2D卷积网络结构对上述部分特征矩阵的特征提取能力进行增强，得到第二特征矩阵。再通过reshape函数对第二特征矩阵还原时间序列信息，具体地，reshape函数根据其获取到的唇部区域图片的排列顺序对第二特征矩阵进行时间序列信息的还原，得到第三特征矩阵。并将该第三特征矩阵输入到GRU结构中。通过该GRU结构对第三特征矩阵中的时间序列信息的特征提取能力进行增强，得到第四特征矩阵。并将第四特征矩阵输入到全连接层，通过该全连接层将第四特征矩阵转换为唇部区域图片对应的预测读取内容的唇语特征序列。最后通过该全连接层将该唇语特征序列输入到CTC算法结构中。

训练模块304用于通过所述CTC算法结构利用所述指定内容以及所述预测读取内容构建损失函数，通过所述损失函数确定是否对所述初始模型进行再训练，并将训练完成的模型确定为所述唇语识别模型。

具体地，在本实施方式中，训练模块304通过该CTC算法结构对该唇语特征序列进行去重，并利用该去重后的唇语特征序列与指定内容的字符标签构建损失函数，再通过该损失函数反向传播，对该初始模型进行训练，具体地，包括对该3D卷积网络结构进行训练。

具体地，训练模块304将当前损失值为最小损失值所对应的第一损失函数的参数确定为所述损失函数的当前优化参数，并对该初始模型进行再训练。至当前损失值的变化小于预设范围时，将当前的第一损失函数参数确定为当前述初始模型的模型参数，并将该参数下的训练完成的初始模型确定为唇语识别模型。

参阅图4，图4是本申请智能装置一实施方式的结构示意图，本实施方式的智能装置包括视频获取模块401、预处理模块402、读取内容预测模块403以及活体确定模块404。

其中，本实施方式的智能装置是基于深度学习的唇语识别模型。通过唇语识别来实现活体识别。其中，该唇语识别模型是通过上述任一实施方式的唇语识别模型的训练方法训练得到的。

视频获取模块401用于获取到待检测的视频数据。

在进行活体识别时，一般是要求用户读取指定内容，通过视频获取模块401并获取到读取过程的视频。为了防止用户通过提前录制好的视频来代替活体用户当场采集，本实施方式中，会对采集到的视频数据进行活体识别。

其中，该指定内容可以为数字、字母以及文字中的至少一种或多种的组合，在此不做限定。视频获取模块401可通过智能装置如电脑或智能手机的前置摄像头、外接摄像头来采集待检测的视频数据。

预处理模块402用于对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片。

具体地，在采集上述视频数据后，为了节省数据处理的计算量以及处理时间，对视频数据进行压缩，预处理模块402将视频数据中的间断、停歇等无声的部分进行剔除，以压缩该视频数据。在一个可选的实施方式中，预处理模块402通过采集视频中声音的起止时间，剔除视频数据中的无声部分，保留视频数据中的有声部分，以减小视频数据的大小，方便后续处理。

在一个优选的时候方式中，预处理模块402是将该视频数据的设定时段的无声部分剔除，该设定时段包括该视频数据的起始时段以及结束时段，该起始时段以及结束时段的时长可根据用户读取的语速或实际情况来确定，在此不做限定。

预处理模块402在剔除无声部分的视频后，将有声部分的视频数据拆分成具有排列顺序的帧图片。

进一步地，为了减少对图片处理时的计算量，提高唇语识别精度，在另一个实施方式中，预处理模块402在得到有声部分视频的帧图片后，通过人脸检测技术以及唇部特征提取技术采集该帧图片中的唇部图片，即将唇部图片从帧图片中剪切出来，以消除其他无关的脸部信息干扰，提升识别准确率。

读取内容预测模块403用于将所述唇部区域图片输入到训练好的基于深度学习的唇语识别模型中，通过所述唇语识别模型输出所述视频数据的读取内容。

具体地，读取内容预测模块403将按时间顺序排列的唇部图片输入到基于深度学习的唇语识别模型中。

该唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构。优选地，该3D卷积网络结构为2层卷积结构。该2D卷积网络结构优选为2D神经网络结构，在具体的应用中，也可以根据实际需要设定3D卷积网络结构的层数以及2D卷积网络结构的具体结构，在此不做限定。该GRU结构优选的为双向GRU结构，在其他实施方式中也可以通过单向GRU结构或其他GRU结构，在此不做限定。

具体地，读取内容预测模块403将该唇语区域图片输入到3D卷积网络结构中，通过所述3D卷积网络结构提取到所述唇部区域图片的第一特征矩阵。在一个可选的实施方式中，该第一特征矩阵包括识别任务的个数batch，即输入的视频数据的个数。该唇语区域图片的深度信息即时间序列长度depth，即单个视频数据的图片帧数，还包括图片对应的数据信息的矩阵高度height、矩阵宽度width以及矩阵通道数channels等，得到的第一矩阵信息(batch,depth,height,width,channels)。如(1*30*12*24*64)，表示输入的视频数据为1个，该视频数据对应的图片帧数为30幅，矩阵高度为12，矩阵宽度为24，矩阵通道数为64。

进一步地，为了减少参数，降低计算量和计算的复杂度，读取内容预测模块403通过reshape函数改变该第一特征矩阵的维度信息。其中，reshape函数是一种可以重新调整矩阵的行数、列数、维数的函数。具体地，本实施方式中，通过该reshape函数从该第一特征矩阵中提取到唇语区域图片的不包括时间序列信息的部分特征矩阵。即将包括时间顺序的一组唇语区域图片转换成一张一张的图片进行处理。比如两个视频视频数据，每个视频数据包括30幅帧图像，将该2个视频数据转变成60幅单独的图片进行处理。例如，第一特征矩阵为(2*30*12*24*64)时，第二特征矩阵为(60*12*24*64)。

预测模块403得到不包括时间序列信息的部分特征矩阵后，将该部分特征矩阵输入到2D卷积网络结构中，通过所述2D卷积网络结构对该部分特征矩阵的特征提取能力进行增强，得到第二特征矩阵。再通过reshape函数对第二特征矩阵还原时间序列信息，具体地，reshape函数根据其获取到的唇部区域图片的排列顺序第二特征矩阵进行时间序列信息的还原，得到第三特征矩阵。并将该第三特征矩阵输入到GRU结构中。通过该GRU结构对第三特征矩阵中的时间序列信息的特征提取能力进行增强，得到第四特征矩阵。并将第四特征矩阵输入到全连接层，通过该全连接层将第四特征矩阵转换为唇部区域图片对应的唇语特征序列。最后通过该全连接层将该唇语特征序列输入到CTC算法结构中。

读取内容预测模块403在得到读取内容的时间序列后，在得到读取内容的时间序列后，该CTC算法结构先对该唇语特征序列进行去重，然后输出唇语特征序列对应的所述读取内容。具体地，通过连续时序分类算法使用前后向推导从而对重复的概率标签进行整合，最终得到可能性最大的标签序列，即得到唇语特征序列对应的所述读取内容。

活体确定模块404用于根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取指定内容得到的视频数据。

活体确定模块404在得到唇语识别模型输出的读取内容后，进一步地获取该读取内容与指定内容之间的编辑距离。其中，编辑距离为两个字符串的差异程度，编辑距离越小，读取内容与指定内容越接近。

在一个可选的实施方式中，活体确定模块404在确定指定内容时一并获取到该指定内容每个字符的字符标签，并根据每个字符的字符标签构成该指定内容的字符串标签。在得到读取内容后，获取该预测读取内容的每个字符的字符标签，并根据每个字符的字符标签构成该读取内容的字符串标签。通过计算该读取内容与指定内容的字符串标签的差异程度得到二者的编辑距离。

因此，在本实施方式中，设定一个编辑距离设定值，如果读取内容与指定内容的编辑距离小于该设定值，确定视频数据为活体用户读取读取指定内容得到的视频数据，本次活体识别成功；如果读取内容与所述指定内容的编辑距离不小于设定值，确定视频数据为翻拍视频，本次活体识别失败。

区别于现有技术，通过训练好的唇语识别模型来实现活体识别的方式，能够直接通过唇语识别模型从视频数据中采集到用户的读取读取内容，通过计算相同格式的读取内容与指定内容的编辑距离的方式使活体识别结果更加准确，降低成本。且相对于现有技术中通过查询每一条唇语图像序列的特征向量以确定读取内容的方式，本实施方式通过模型直接得出读取内容的方式更加简单方便，指定内容的随机范围也更加广泛。另外，本实施方式中将复杂的活体识别技术简化为指定内容与唇语识别模型输出的读取内容的差值判断，过程相对简单，便于部署，降低了活体识别商用化的门槛以及成本。

参阅图5，图5是本申请智能终端一实施方式的结构示意图。其中，本实施方式的智能终端50包括人机交互控制电路502以及与该人机交互控制电路502耦接的处理器501。该处理器501上可运行的计算机程序。处理器501在执行计算机程序时能够实现图1及其相关文字描述的任一实施方式的唇语识别模型的训练方法，或者执行图及其相关文字描述的任一实施方式的活体识别方法的步骤。

请参与图6，本申请还提供一种存储装置的实施例的结构示意图。本实施例中，该存储装置60存储有处理器可运行的计算机指令61，该计算机指令61用于执行图1及其相关文字描述的任一实施方式的图片翻拍检测模型的训练方法的步骤，或者执行图2～图3及其相关文字描述的任一实施方式的唇语识别方法或图2及其文字描述的活体识别方法。

该存储装置60具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory，)、磁碟或者光盘等可以存储计算机指令61的介质，或者也可以为存储有该计算机指令61的服务器，该服务器可将存储的计算机指令61发送给其他设备运行，或者也可以自运行该存储的计算机指令61。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于深度学习的唇语识别模型的训练方法，其特征在于，所述唇语识别模型用于活体识别，所述唇语识别模型包括依次级联的3D卷积网络结构、2D卷积网络结构、GRU结构以及CTC算法结构，所述训练方法包括：

获取到用户读取指定内容的视频数据；

2.一种活体识别方法，其特征在于，所述活体识别方法包括：

获取到待检测的视频数据；

3.根据权利要求2所述的活体识别方法，其特征在于，所述对所述视频数据进行预处理，得到所述视频数据对应的唇部区域图片的步骤具体包括：

利用所述视频数据的声音起止时间剔除所述视频数据中设定时段的无声部分；

将剔除后的剩余部分视频数据拆分成帧图片，并从所述帧图片中得到唇部区域图片。

4.根据权利要求2所述的活体识别方法，其特征在于，所述将所述唇部区域图片输入到训练好的基于深度学习的唇语识别模型中，通过所述唇语识别模型输出读取内容的步骤包括：

将所述唇部区域图片输入到所述3D卷积网络结构中，通过所述3D卷积网络结构提取到所述唇部区域图片的第一特征矩阵；

通过reshape函数从所述第一特征矩阵中提取到所述唇语区域图片的不包括时间序列信息的部分特征矩阵；并将所述部分特征矩阵输入到所述2D卷积网络结构中，通过所述2D卷积网络结构对所述部分特征矩阵的特征提取能力进行增强，得到第二特征矩阵；

通过所述reshape函数对所述第二特征矩阵还原时间序列信息，得到第三特征矩阵；

将所述第三特征矩阵输入到所述GRU结构，通过所述GRU结构对所述第三特征矩阵中的时间序列信息的特征提取能力进行增强，得到第四特征矩阵；并将所述第四特征矩阵输入到全连接层进行处理，得到所述唇部区域图片对应的唇语特征序列；

通过所述CTC算法结构对所述唇语特征序列去重后输出所述唇语特征序列对应的所述读取内容。

5.根据权利要求2-4任一项所述的活体识别方法，其特征在于，所述指定内容包括数字、字母以及文字中的至少一种。

6.根据权利要求2所述的活体识别方法，其特征在于，所述根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据的步骤具体包括：

如果所述读取内容与所述指定内容的编辑距离小于设定值，确定所述视频数据为活体用户读取所述指定内容的视频数据；如果所述读取内容与所述指定内容的编辑距离不小于设定值，确定所述视频数据为翻拍视频。

7.根据权利要求2所述的活体识别方法，其特征在于，所述根据所述读取内容与指定内容的编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据的步骤具体包括：

分别获取到所述读取内容与所述指定内容的每个字符的字符标签，构成所述读取内容以及所述指定内容的字符串标签；

计算得到所述读取内容与所述指定内容的字符串标签的编辑距离，并根据所述编辑距离确定所述视频数据是否是活体用户读取所述指定内容得到的视频数据。

8.一种智能装置，其特征在于，所述智能装置包括视频获取模块、预处理模块、读取内容预测模块以及活体确定模块，

所述视频获取模块用于获取到待检测的视频数据；

9.一种智能终端，其特征在于，所述智能终端包括相互耦接的人机交互控制电路、处理器及可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1所述的基于深度学习的唇语识别模型的训练方法或权利要求2～7任一项所述的活体识别方法的步骤。

10.一种存储装置，其特征在于，所述存储装置上存储有程序数据，所述程序数据被处理器执行时实现如权利要求1所述的基于深度学习的唇语识别模型的训练方法或权利要求2～7任一项所述的活体识别方法。