CN106570461A

CN106570461A - 基于唇动认证的视频帧图片提取方法及系统

Info

Publication number: CN106570461A
Application number: CN201610921243.8A
Authority: CN
Inventors: 马新军; 仲乾元; 张宏军; 吴晨晨
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-04-19

Abstract

本发明提供了一种基于唇动认证的视频帧图片提取方法及系统，本发明不仅可以有效地减少计算量，同时可以增强整个系统对于说话人语速变化和尺度变化的鲁棒性。

Description

基于唇动认证的视频帧图片提取方法及系统

技术领域

本发明涉及图片处理技术领域，尤其涉及基于唇动认证的视频帧图片提取方法及系统。

背景技术

在动态唇动视频中，一般录像的帧率为30fps，如果直接将所产生的所有帧图片都作为下一步特征提取的数据库，不仅会有大量的噪声干扰在其中，还会有大量的数据冗余。从而显然会加大系统的计算量并影响其鲁棒性与运算的实时性，最终降低系统认证结果的准确性。在目前所存在的文献中，几乎很少见到有关视频所产生的帧图片提取算法。

发明内容

本发明提供了一种基于唇动认证的视频帧图片提取方法，包括如下步骤：

令唇动视频所产生的帧图片的数量为X；

第一判断步骤：如果X的数量小于第一设定值，说明说话者说话的时间小于1s，作为认证而言，说话长度明显过短，提示唇动视频所提供的帧图片数量过少，无法进行认证；

第二判断步骤：如果X满足第一取值范围，选取第3张图片作为所提取的第1张帧图片，选取倒数第3张图片作为第12张帧图片，和将依次作为选取图片的数量间隔，令每一幅帧图片的大小为M*N，在每个间隔中，用下面的公式选取所要的帧图片：

其中：

I^t(i,j)：是t时刻的帧图片I在点(i,j)处的灰度值的大小；

Pic：是所选取的，在A或B的间隔内，和相邻的帧图片比较，灰度值变化最大的图片；

第三判断步骤：如果X满足第二取值范围，选取第10张图片作为所提取的第1张帧图片，选取倒数第10张图片作为第12张帧图片，和将依次作为选取图片的数量间隔，令每一幅帧图片的大小为M*N，在每个间隔中，用下面的公式选取所要的帧图片：

第四判断步骤：如果X大于第二设定值，说明说话者说话的时间长于16s，作为认证而言，说话长度明显过长，提示唇动视频所提供的帧图片数量过多，无法进行认证。

作为本发明的进一步改进，所述第一设定值是20。

作为本发明的进一步改进，所述第一取值范围是：20≤X≤60。

作为本发明的进一步改进，所述第二取值范围是：60<X≤480。

作为本发明的进一步改进，所述第二设定值是480。

本发明还提供了一种基于唇动认证的视频帧图片提取系统，包括：

令唇动视频所产生的帧图片的数量为X；

第一判断模块：如果X的数量小于第一设定值，说明说话者说话的时间小于1s，作为认证而言，说话长度明显过短，提示唇动视频所提供的帧图片数量过少，无法进行认证；

第二判断模块：如果X满足第一取值范围，选取第3张图片作为所提取的第1张帧图片，选取倒数第3张图片作为第12张帧图片，和将依次作为选取图片的数量间隔，令每一幅帧图片的大小为M*N，在每个间隔中，用下面的公式选取所要的帧图片：

其中：

I^t(i,j)：是t时刻的帧图片I在点(i,j)处的灰度值的大小；

第三判断模块：如果X满足第二取值范围，选取第10张图片作为所提取的第1张帧图片，选取倒数第10张图片作为第12张帧图片，和将依次作为选取图片的数量间隔，令每一幅帧图片的大小为M*N，在每个间隔中，用下面的公式选取所要的帧图片：

第四判断模块：如果X大于第二设定值，说明说话者说话的时间长于16s，作为认证而言，说话长度明显过长，提示唇动视频所提供的帧图片数量过多，无法进行认证。

作为本发明的进一步改进，所述第一设定值是20。

作为本发明的进一步改进，所述第二取值范围是：60<X≤480。

作为本发明的进一步改进，所述第二设定值是480。

本发明的有益效果是：本发明不仅可以有效地减少计算量，同时可以增强整个系统对于说话人语速变化和尺度变化的鲁棒性。

具体实施方式

本发明公开了一种基于唇动认证的视频帧图片提取方法，包括如下步骤：

令唇动视频所产生的帧图片的数量为X；

其中：

I^t(i,j)：是t时刻的帧图片I在点(i,j)处的灰度值的大小；

所述第一设定值是20，所述第一取值范围是：20≤X≤60，所述第二取值范围是：60<X≤480，所述第二设定值是480。

通过本发明的方法，我们可以在很短的时间内将唇动视频所产生的帧图片变成12幅具有代表性的图片。

本发明还公开了一种基于唇动认证的视频帧图片提取系统，包括：

令唇动视频所产生的帧图片的数量为X；

其中：

I^t(i,j)：是t时刻的帧图片I在点(i,j)处的灰度值的大小；

视频帧图片提取方法实验结果：被测试者要求用两种方式说汉语“我很成熟冷酷”两遍，第一遍用正常的方式描述，第二遍长大口型并且语速比第一遍要慢两倍左右。通过实验结果可以看出在语速和不同口型的情况下，所提取的12图片，其对应的序列及口型都有很强的相似性与代表性。从所得到结果来看，本发明对于说话者语速的变化和口型大小的改变都有很强的鲁棒性，并能够为后面特征的提取打下良好的基础。

本发明给出了一种基于时间序列的动态图片提取方法，在相邻的时间段里找到帧间灰度变化最大的图片作为具有代表性的图片提取出来，本发明不仅可以有效地减少计算量，同时可以增强整个系统对于说话人语速变化和尺度变化的鲁棒性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于唇动认证的视频帧图片提取方法，其特征在于，包括如下步骤：令唇动视频所产生的帧图片的数量为X；

P i c = {Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t - 1} (i, j) | + Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t + 1} (i, j) |)}_{m a x}

其中：

I^t(i,j)：是t时刻的帧图片I在点(i,j)处的灰度值的大小；

P i c = {Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t - 1} (i, j) | + Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t + 1} (i, j) |)}_{m a x}

2.根据权利要求1所述的视频帧图片提取方法，其特征在于，所述第一设定值是20。

3.根据权利要求1所述的视频帧图片提取方法，其特征在于，所述第一取值范围是：20≤X≤60。

4.根据权利要求1所述的视频帧图片提取方法，其特征在于，所述第二取值范围是：60<X≤480。

5.根据权利要求1所述的视频帧图片提取方法，其特征在于，所述第二设定值是480。

6.一种基于唇动认证的视频帧图片提取系统，其特征在于，包括：

令唇动视频所产生的帧图片的数量为X；

P i c = {Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t - 1} (i, j) | + Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t + 1} (i, j) |)}_{m a x}

其中：

I^t(i,j)：是t时刻的帧图片I在点(i,j)处的灰度值的大小；

P i c = {Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t - 1} (i, j) | + Σ_{i = 1}^{M} Σ_{j = 1}^{N} | I^{t} (i, j) - I^{t + 1} (i, j) |)}_{m a x}

7.根据权利要求6所述的视频帧图片提取系统，其特征在于，所述第一设定值是20。

8.根据权利要求6所述的视频帧图片提取系统，其特征在于，所述第一取值范围是：20≤X≤60。

9.根据权利要求6所述的视频帧图片提取系统，其特征在于，所述第二取值范围是：60<X≤480。

10.根据权利要求6所述的视频帧图片提取系统，其特征在于，所述第二设定值是480。