CN111125437B

CN111125437B - 对视频中唇语图片识别的方法

Info

Publication number: CN111125437B
Application number: CN201911345728.7A
Authority: CN
Inventors: 程林涛; 卫浩; 刘嵩
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-06-09
Anticipated expiration: 2039-12-24
Also published as: CN111125437A

Abstract

本发明涉及对视频中唇语图片识别的方法，包括：A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断，并设置结构相似度差异的阈值，当两张不同帧的图片的结构相似度达到所述阈值后，提取出这两张图片；所有提取出的图片按帧序号形成图片序列；B.通过人脸识别模型对提取的所有图片中的人脸进行定位，获取人脸坐标，再通过人脸坐标提取人脸图片，按照帧序号得到人脸序列图片；C.通过YOLOV3算法对人脸序列图片中的每个人脸进行嘴唇定位，获取用于唇语识别的嘴唇图片序列。本发明能够大幅度提高模型的识别表现和模型预测的准确性，并明显降低了模型的训练和预测的计算量，以及降低了外界拍摄角度、拍摄远近等因素对模型训练的影响。

Description

对视频中唇语图片识别的方法

技术领域

本发明涉及对图像的处理方法，具体讲是对视频中唇语图片识别的方法。

背景技术

唇语识别是指利用说话人嘴唇运动的序列图片建立深度学习模型来识别说话内容，是目前人工智能领域研究的热点问题。

人工智能的三要素分别为数据、算力和算法。在人工智能领域中，大量高质量的数据是学习模型取得优异成绩的前提，因此如何从视频中精准捕捉高质量的嘴唇运动序列图片对后续唇语建模至关重要。

对于唇语序列图片的提取，目前常见的做法是：

已知视频是由一帧一帧的图片构成的，普通视频大概1秒有24帧～25帧图片，常见的提取流程为，第一步从视频中每隔n帧(n是一个经验值)提取一张图片，最终从视频中提取一份序列图片。第二步对该序列图片进行人脸检测，获取人脸的坐标，从而得到人脸的序列图片。第三步在人脸的的序列图片的基础上进行裁剪得到嘴唇序列图片，具体流程和效果如图1所示。

上述方法存在的问题如下：

问题1：第一步中，间隔帧数n的阈值是一个经验值，如果设置的过大，从视频中提取的图片数会很少，时序信息将会大量丢失。如果阈值设置的过小，那么将会从视频中提取大量相似的图片，冗余信息将会干扰模型训练造成计算资源的浪费。

问题2：由于每个人说话的速度都不一样，用一个统一的阈值对所有的视频样本进行图片提取，将会导致同一个词语在不同视频中对应提取的图片数不统一，这也会干扰后续的模型训练。另一方面，模型在预测的时候也需要进行嘴唇序列图片提取，由于视频样本的随机性，同一阈值下提取的嘴唇图片数或高或低也会大幅降低模型预测的精度。

问题3：开放场景下每个人都是在不同环境下录制的视频，唇语序列图片如果单纯只提取鼻子以下部分的人脸图片(如图1中以鼻子为基准进行识别和提取)进行模型训练，仍然会受到各种外界因素的影响，如：拍摄角度、拍摄远近、背景等因素，从而降低模型的预测精度。

发明内容

本发明提供了一种对视频中唇语图片识别的方法，以提高模型的识别表现，并降低模型的训练和预测的计算量。

对视频中唇语图片识别的方法，包括：

A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断，并设置结构相似度差异的阈值，当两张不同帧的图片的结构相似度达到所述阈值后，提取出这两张图片；所有提取出的图片按帧序号形成图片序列；

B.通过人脸识别模型对提取的所有图片中的人脸进行定位，获取人脸坐标，再通过人脸坐标提取人脸图片，按照帧序号得到人脸序列图片；

C.通过YOLOV3算法(一种目标检测算法)对人脸序列图片中的每个人脸进行嘴唇定位，获取用于唇语识别的嘴唇图片序列。

在本发明的方法中，人脸识别模型和YOLOV3算法都采用现有技术实现。对于同样文本内容的不同视频，通过本发明的方法后会得到数量大致相同的唇语序列图片。这样不仅可以降低不同的图像采集尺度对模型参数收敛速度的影响，还可以将训练和测试的样本统一在相同尺度下采集，这样可以提高模型预测的准确性。同时，通过人脸识别和YOLOV3算法对嘴唇定位的双保险，能够剔除大量的不合格人脸、不合格嘴唇图片，从而大幅度提高最终样本的质量。并且，通过YOLOV3算法还能够提取到更聚焦的嘴唇图片，得到的图片尺寸更小、信息更加集中，小尺寸的图片会大幅降低模型的训练及预测的计算量，信息更加集中则会降低外界拍摄角度、拍摄远近等因素对模型训练的影响。

具体的，步骤A中，在对视频文件的每一帧图片进行结构相似度的判断时，从第i帧图片(通过人脸识别模型识别出的第一张具有人脸的图片)开始，将j＝i+1帧图片与第i帧图片进行结构相似度的判断，如果结构相似度达到所述阈值，则提取出这两张图片，反之，则将j＝j+1帧图片与第i帧图片再进行结构相似度的判断，直到第i帧图片和第j帧图片结构相似度达到阈值，提取出这第i帧图片和第j帧图片，设置i＝j后，循环进行所述的结构相似度的判断，直到j值为最后一帧图片。

具体的，步骤A中对两帧图片的结构相似度判断的公式为：

其中，每帧的图片分别由矩阵数据构成，x和y分别代表进行结构相似度判断的两张图片，u_x是x的均值，u_y是y的均值，σ_x是x的方差，σ_y是y的方差,σ_xy是x和y的协方差，c₁和c₂分别是避免公式的分母为0维稳系数，c₁＝(k₁·L)²，c₂＝(k₂·L)²，通常情况下的一种取值可以是，L＝255,k₁＝0.01,k₂＝0.03。结构相似度SSMI∈[-1,1]，如果SSMI为1，表示两张图片一样，SSMI的值越接近-1，表示两张图片的结构相似度差异越大。

进一步的，每帧图片分别由值为[0～255]的像素矩阵构成，所述的均值为一张图片中所有像素值的均值。

优选的，所述结构相似度差异的阈值范围为0.78～0.85。经多次试验得知，当结构相似度差异的阈值范围在0.78～0.85时，唇语模型(如：3D+Resnet50)的唇语识别表现稳定，没有出现大的波动，进一步证明本发明的稳定可靠。

本发明对视频中唇语图片识别的方法，能够大幅度提高模型的识别表现和模型预测的准确性，并明显降低了模型的训练和预测的计算量，以及降低了外界拍摄角度、拍摄远近等因素对模型训练的影响。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为现有技术中对视屏中唇语图片识别的流程及效果图。

图2为本发明对视频中唇语图片识别的方法的流程图。

图3为图2所述方法中对唇语图片的识别过程效果图。

具体实施方式

如图2和图3所示本发明对视频中唇语图片识别的方法，包括：

A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断，并设置结构相似度差异的阈值0.78～0.85，根据不同的实际环境在该范围内设置适当的值。当两张不同帧的图片的结构相似度达到所述阈值后，提取出这两张图片。具体的判断方式为：

对两帧图片的结构相似度判断的公式为：

其中，每帧的图片分别由矩阵数据构成，x和y分别代表进行结构相似度判断的两张图片，u_x是x的均值(x图片中所有像素值的均值)，u_y是y的均值(y图片中所有像素值的均值)，σ_x是x的方差，σ_y是y的方差,σ_xy是x和y的协方差，c₁和c₂分别是避免公式的分母为0维稳系数，c₁＝(k₁·L)²，c₂＝(k₂·L)²，本实施例中，L＝255,k₁＝0.01,k₂＝0.03。结构相似度SSMI∈[-1,1]，如果SSMI为1，表示两张图片一样，SSMI的值越接近-1，表示两张图片的结构相似度差异越大。

从视频文件的第i帧图片(通过人脸识别模型识别出的第一张具有人脸的图片)开始，将j＝i+1帧图片与第i帧图片进行结构相似度的判断，如果结构相似度达到所述阈值，则提取出这两张图片，反之，则将j＝j+1帧图片与第i帧图片再进行结构相似度的判断，直到第i帧图片和第j帧图片结构相似度达到阈值。提取出这第i帧图片和第j帧图片，设置i＝j后，循环进行所述的结构相似度的判断，直到j值为最后一帧图片。所有提取出的图片按帧序号形成图片序列。

B.通过人脸识别模型对提取的所有图片中的人脸进行定位，获取人脸坐标，再通过人脸坐标提取人脸图片，按照帧序号得到人脸序列图片。

在实时过程中，人脸识别模型和YOLOV3算法都采用现有技术实现。在结构相似度差异的阈值范围0.78～0.85时，唇语模型(如：3D+Resnet50)的唇语识别表现稳定，没有出现大的波动，证明了本发明的稳定可靠。对于同样文本内容的不同视频，通过本发明的方法后会得到数量大致相同的唇语序列图片。这样不仅可以降低不同的图像采集尺度对模型参数收敛速度的影响，还可以将训练和测试的样本统一在相同尺度下采集，这样可以提高模型预测的准确性。

通过本发明对视频图像的唇语图片识别如图3所示，将图3和现有技术识别效果的图1对比后，可以明显看出图3最终获取的嘴唇图片尺寸更小、采集更准确、信息更集中。同时，通过人脸识别和YOLOV3算法对嘴唇定位的双保险，能够剔除大量的不合格人脸、不合格嘴唇图片，从而大幅度提高最终样本的质量。并且，通过YOLOV3算法还能够提取到更聚焦的嘴唇图片，得到的图片尺寸更小、信息更加集中，小尺寸的图片会大幅降低模型的训练及预测的计算量，信息更加集中则会降低外界拍摄角度、拍摄远近等因素对模型训练的影响。

Claims

1.对视频中唇语图片识别的方法，其特征包括：

C.通过YOLOV3算法对人脸序列图片中的每个人脸进行嘴唇定位，获取用于唇语识别的嘴唇图片序列；

步骤A中对两帧图片的结构相似度判断的公式为：

其中，每帧的图片分别由矩阵数据构成，x和y分别代表进行结构相似度判断的两张图片，u_x是x的均值，u_y是y的均值，σ_x是x的方差，σ_y是y的方差,σ_xy是x和y的协方差，c₁和c₂分别是避免公式的分母为0维稳系数，结构相似度SSMI∈[-1,1]，如果SSMI为1，表示两张图片一样，SSMI的值越接近-1，表示两张图片的结构相似度差异越大。

2.如权利要求1所述的对视频中唇语图片识别的方法，其特征为：步骤A中，在对视频文件的每一帧图片进行结构相似度的判断时，从第i帧图片开始，将j＝i+1帧图片与第i帧图片进行结构相似度的判断，如果结构相似度达到所述阈值，则提取出这两张图片，反之，则将j＝j+1帧图片与第i帧图片再进行结构相似度的判断，直到第i帧图片和第j帧图片结构相似度达到阈值，提取出这第i帧图片和第j帧图片，设置i＝j后，循环进行所述的结构相似度的判断，直到j值为最后一帧图片。

3.如权利要求1所述的对视频中唇语图片识别的方法，其特征为：每帧图片分别由值为[0～255]的像素矩阵构成，所述的均值为一张图片中所有像素值的均值。

4.如权利要求1至3之一所述的对视频中唇语图片识别的方法，其特征为：所述结构相似度差异的阈值范围为0.78～0.85。