CN106570461A - 基于唇动认证的视频帧图片提取方法及系统 - Google Patents

基于唇动认证的视频帧图片提取方法及系统 Download PDF

Info

Publication number
CN106570461A
CN106570461A CN201610921243.8A CN201610921243A CN106570461A CN 106570461 A CN106570461 A CN 106570461A CN 201610921243 A CN201610921243 A CN 201610921243A CN 106570461 A CN106570461 A CN 106570461A
Authority
CN
China
Prior art keywords
picture
frame
sigma
frame picture
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610921243.8A
Other languages
English (en)
Inventor
马新军
仲乾元
张宏军
吴晨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201610921243.8A priority Critical patent/CN106570461A/zh
Publication of CN106570461A publication Critical patent/CN106570461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)

Abstract

本发明提供了一种基于唇动认证的视频帧图片提取方法及系统,本发明不仅可以有效地减少计算量,同时可以增强整个系统对于说话人语速变化和尺度变化的鲁棒性。

Description

基于唇动认证的视频帧图片提取方法及系统
技术领域
本发明涉及图片处理技术领域,尤其涉及基于唇动认证的视频帧图片提取方法及系统。
背景技术
在动态唇动视频中,一般录像的帧率为30fps,如果直接将所产生的所有帧图片都作为下一步特征提取的数据库,不仅会有大量的噪声干扰在其中,还会有大量的数据冗余。从而显然会加大系统的计算量并影响其鲁棒性与运算的实时性,最终降低系统认证结果的准确性。在目前所存在的文献中,几乎很少见到有关视频所产生的帧图片提取算法。
发明内容
本发明提供了一种基于唇动认证的视频帧图片提取方法,包括如下步骤:
令唇动视频所产生的帧图片的数量为X;
第一判断步骤:如果X的数量小于第一设定值,说明说话者说话的时间小于1s,作为认证而言,说话长度明显过短,提示唇动视频所提供的帧图片数量过少,无法进行认证;
第二判断步骤:如果X满足第一取值范围,选取第3张图片作为所提取的第1张帧图片,选取倒数第3张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
其中:
It(i,j):是t时刻的帧图片I在点(i,j)处的灰度值的大小;
Pic:是所选取的,在A或B的间隔内,和相邻的帧图片比较,灰度值变化最大的图片;
第三判断步骤:如果X满足第二取值范围,选取第10张图片作为所提取的第1张帧图片,选取倒数第10张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
第四判断步骤:如果X大于第二设定值,说明说话者说话的时间长于16s,作为认证而言,说话长度明显过长,提示唇动视频所提供的帧图片数量过多,无法进行认证。
作为本发明的进一步改进,所述第一设定值是20。
作为本发明的进一步改进,所述第一取值范围是:20≤X≤60。
作为本发明的进一步改进,所述第二取值范围是:60<X≤480。
作为本发明的进一步改进,所述第二设定值是480。
本发明还提供了一种基于唇动认证的视频帧图片提取系统,包括:
令唇动视频所产生的帧图片的数量为X;
第一判断模块:如果X的数量小于第一设定值,说明说话者说话的时间小于1s,作为认证而言,说话长度明显过短,提示唇动视频所提供的帧图片数量过少,无法进行认证;
第二判断模块:如果X满足第一取值范围,选取第3张图片作为所提取的第1张帧图片,选取倒数第3张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
其中:
It(i,j):是t时刻的帧图片I在点(i,j)处的灰度值的大小;
Pic:是所选取的,在A或B的间隔内,和相邻的帧图片比较,灰度值变化最大的图片;
第三判断模块:如果X满足第二取值范围,选取第10张图片作为所提取的第1张帧图片,选取倒数第10张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
第四判断模块:如果X大于第二设定值,说明说话者说话的时间长于16s,作为认证而言,说话长度明显过长,提示唇动视频所提供的帧图片数量过多,无法进行认证。
作为本发明的进一步改进,所述第一设定值是20。
作为本发明的进一步改进,所述第一取值范围是:20≤X≤60。
作为本发明的进一步改进,所述第二取值范围是:60<X≤480。
作为本发明的进一步改进,所述第二设定值是480。
本发明的有益效果是:本发明不仅可以有效地减少计算量,同时可以增强整个系统对于说话人语速变化和尺度变化的鲁棒性。
具体实施方式
本发明公开了一种基于唇动认证的视频帧图片提取方法,包括如下步骤:
令唇动视频所产生的帧图片的数量为X;
第一判断步骤:如果X的数量小于第一设定值,说明说话者说话的时间小于1s,作为认证而言,说话长度明显过短,提示唇动视频所提供的帧图片数量过少,无法进行认证;
第二判断步骤:如果X满足第一取值范围,选取第3张图片作为所提取的第1张帧图片,选取倒数第3张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
其中:
It(i,j):是t时刻的帧图片I在点(i,j)处的灰度值的大小;
Pic:是所选取的,在A或B的间隔内,和相邻的帧图片比较,灰度值变化最大的图片;
第三判断步骤:如果X满足第二取值范围,选取第10张图片作为所提取的第1张帧图片,选取倒数第10张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
第四判断步骤:如果X大于第二设定值,说明说话者说话的时间长于16s,作为认证而言,说话长度明显过长,提示唇动视频所提供的帧图片数量过多,无法进行认证。
所述第一设定值是20,所述第一取值范围是:20≤X≤60,所述第二取值范围是:60<X≤480,所述第二设定值是480。
通过本发明的方法,我们可以在很短的时间内将唇动视频所产生的帧图片变成12幅具有代表性的图片。
本发明还公开了一种基于唇动认证的视频帧图片提取系统,包括:
令唇动视频所产生的帧图片的数量为X;
第一判断模块:如果X的数量小于第一设定值,说明说话者说话的时间小于1s,作为认证而言,说话长度明显过短,提示唇动视频所提供的帧图片数量过少,无法进行认证;
第二判断模块:如果X满足第一取值范围,选取第3张图片作为所提取的第1张帧图片,选取倒数第3张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
其中:
It(i,j):是t时刻的帧图片I在点(i,j)处的灰度值的大小;
Pic:是所选取的,在A或B的间隔内,和相邻的帧图片比较,灰度值变化最大的图片;
第三判断模块:如果X满足第二取值范围,选取第10张图片作为所提取的第1张帧图片,选取倒数第10张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
第四判断模块:如果X大于第二设定值,说明说话者说话的时间长于16s,作为认证而言,说话长度明显过长,提示唇动视频所提供的帧图片数量过多,无法进行认证。
所述第一设定值是20,所述第一取值范围是:20≤X≤60,所述第二取值范围是:60<X≤480,所述第二设定值是480。
视频帧图片提取方法实验结果:被测试者要求用两种方式说汉语“我很成熟冷酷”两遍,第一遍用正常的方式描述,第二遍长大口型并且语速比第一遍要慢两倍左右。通过实验结果可以看出在语速和不同口型的情况下,所提取的12图片,其对应的序列及口型都有很强的相似性与代表性。从所得到结果来看,本发明对于说话者语速的变化和口型大小的改变都有很强的鲁棒性,并能够为后面特征的提取打下良好的基础。
本发明给出了一种基于时间序列的动态图片提取方法,在相邻的时间段里找到帧间灰度变化最大的图片作为具有代表性的图片提取出来,本发明不仅可以有效地减少计算量,同时可以增强整个系统对于说话人语速变化和尺度变化的鲁棒性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于唇动认证的视频帧图片提取方法,其特征在于,包括如下步骤:令唇动视频所产生的帧图片的数量为X;
第一判断步骤:如果X的数量小于第一设定值,说明说话者说话的时间小于1s,作为认证而言,说话长度明显过短,提示唇动视频所提供的帧图片数量过少,无法进行认证;
第二判断步骤:如果X满足第一取值范围,选取第3张图片作为所提取的第1张帧图片,选取倒数第3张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
P i c = { &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t - 1 ( i , j ) | + &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t + 1 ( i , j ) | ) } m a x
其中:
It(i,j):是t时刻的帧图片I在点(i,j)处的灰度值的大小;
Pic:是所选取的,在A或B的间隔内,和相邻的帧图片比较,灰度值变化最大的图片;
第三判断步骤:如果X满足第二取值范围,选取第10张图片作为所提取的第1张帧图片,选取倒数第10张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
P i c = { &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t - 1 ( i , j ) | + &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t + 1 ( i , j ) | ) } m a x
第四判断步骤:如果X大于第二设定值,说明说话者说话的时间长于16s,作为认证而言,说话长度明显过长,提示唇动视频所提供的帧图片数量过多,无法进行认证。
2.根据权利要求1所述的视频帧图片提取方法,其特征在于,所述第一设定值是20。
3.根据权利要求1所述的视频帧图片提取方法,其特征在于,所述第一取值范围是:20≤X≤60。
4.根据权利要求1所述的视频帧图片提取方法,其特征在于,所述第二取值范围是:60<X≤480。
5.根据权利要求1所述的视频帧图片提取方法,其特征在于,所述第二设定值是480。
6.一种基于唇动认证的视频帧图片提取系统,其特征在于,包括:
令唇动视频所产生的帧图片的数量为X;
第一判断模块:如果X的数量小于第一设定值,说明说话者说话的时间小于1s,作为认证而言,说话长度明显过短,提示唇动视频所提供的帧图片数量过少,无法进行认证;
第二判断模块:如果X满足第一取值范围,选取第3张图片作为所提取的第1张帧图片,选取倒数第3张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
P i c = { &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t - 1 ( i , j ) | + &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t + 1 ( i , j ) | ) } m a x
其中:
It(i,j):是t时刻的帧图片I在点(i,j)处的灰度值的大小;
Pic:是所选取的,在A或B的间隔内,和相邻的帧图片比较,灰度值变化最大的图片;
第三判断模块:如果X满足第二取值范围,选取第10张图片作为所提取的第1张帧图片,选取倒数第10张图片作为第12张帧图片,将依次作为选取图片的数量间隔,令每一幅帧图片的大小为M*N,在每个间隔中,用下面的公式选取所要的帧图片:
P i c = { &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t - 1 ( i , j ) | + &Sigma; i = 1 M &Sigma; j = 1 N | I t ( i , j ) - I t + 1 ( i , j ) | ) } m a x
第四判断模块:如果X大于第二设定值,说明说话者说话的时间长于16s,作为认证而言,说话长度明显过长,提示唇动视频所提供的帧图片数量过多,无法进行认证。
7.根据权利要求6所述的视频帧图片提取系统,其特征在于,所述第一设定值是20。
8.根据权利要求6所述的视频帧图片提取系统,其特征在于,所述第一取值范围是:20≤X≤60。
9.根据权利要求6所述的视频帧图片提取系统,其特征在于,所述第二取值范围是:60<X≤480。
10.根据权利要求6所述的视频帧图片提取系统,其特征在于,所述第二设定值是480。
CN201610921243.8A 2016-10-21 2016-10-21 基于唇动认证的视频帧图片提取方法及系统 Pending CN106570461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610921243.8A CN106570461A (zh) 2016-10-21 2016-10-21 基于唇动认证的视频帧图片提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610921243.8A CN106570461A (zh) 2016-10-21 2016-10-21 基于唇动认证的视频帧图片提取方法及系统

Publications (1)

Publication Number Publication Date
CN106570461A true CN106570461A (zh) 2017-04-19

Family

ID=58533254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610921243.8A Pending CN106570461A (zh) 2016-10-21 2016-10-21 基于唇动认证的视频帧图片提取方法及系统

Country Status (1)

Country Link
CN (1) CN106570461A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960066A (zh) * 2018-06-04 2018-12-07 珠海格力电器股份有限公司 一种进行动态面部表情识别的方法及装置
CN110929239A (zh) * 2019-10-30 2020-03-27 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于唇语指令的终端解锁方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026485A (ja) * 2006-07-19 2008-02-07 Advanced Telecommunication Research Institute International 遠隔操作アンドロイドの発話動作制御システム
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
CN104780341A (zh) * 2014-01-10 2015-07-15 华为技术有限公司 一种信息处理方法以及信息处理装置
CN105022981A (zh) * 2014-04-18 2015-11-04 中兴通讯股份有限公司 一种检测人眼健康状态的方法、装置及移动终端
CN105869624A (zh) * 2016-03-29 2016-08-17 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026485A (ja) * 2006-07-19 2008-02-07 Advanced Telecommunication Research Institute International 遠隔操作アンドロイドの発話動作制御システム
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
CN104780341A (zh) * 2014-01-10 2015-07-15 华为技术有限公司 一种信息处理方法以及信息处理装置
CN105022981A (zh) * 2014-04-18 2015-11-04 中兴通讯股份有限公司 一种检测人眼健康状态的方法、装置及移动终端
CN105869624A (zh) * 2016-03-29 2016-08-17 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960066A (zh) * 2018-06-04 2018-12-07 珠海格力电器股份有限公司 一种进行动态面部表情识别的方法及装置
CN108960066B (zh) * 2018-06-04 2021-02-12 珠海格力电器股份有限公司 一种进行动态面部表情识别的方法及装置
CN110929239A (zh) * 2019-10-30 2020-03-27 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于唇语指令的终端解锁方法
CN110929239B (zh) * 2019-10-30 2021-11-19 中科南京人工智能创新研究院 一种基于唇语指令的终端解锁方法

Similar Documents

Publication Publication Date Title
CN109726657B (zh) 一种深度学习场景文本序列识别方法
CN102413328B (zh) Jpeg图像双重压缩检测方法及系统
CN102682287B (zh) 基于显著度信息的行人检测方法
CN104063706B (zh) 一种基于surf算法的视频指纹提取方法
CN105957030A (zh) 一种应用于红外热像仪图像细节增强和噪声抑制方法
CN101267493A (zh) 透视变形文档图像的校正装置和校正方法
CN106897671B (zh) 一种基于光流和Fisher Vector编码的微表情识别方法
CN105095857B (zh) 基于关键点扰动技术的人脸数据增强方法
CN104008401A (zh) 一种图像文字识别的方法及装置
CN106550244A (zh) 视频图像的画质增强方法及装置
CN112001429A (zh) 一种基于纹理特征的深度伪造视频检测方法
CN103186790A (zh) 对象检测系统和方法
CN109242796A (zh) 文字图像处理方法、装置、电子设备和计算机存储介质
CN105117740A (zh) 字体识别方法及装置
CN105138983A (zh) 基于加权部件模型和选择性搜索分割的行人检测方法
CN107506769A (zh) 一种城市水体信息的提取方法及系统
CN101470802A (zh) 物体检测装置和方法
CN106570461A (zh) 基于唇动认证的视频帧图片提取方法及系统
CN103106412B (zh) 薄片类介质识别方法和识别装置
CN104992176B (zh) 一种面向碑文的汉字提取方法
Scuderi The fingerprint of linear dunes
CN104063855B (zh) 一种基于分类字典库的超分辨率图像重构方法及装置
CN102982307A (zh) 识别设备和方法、程序及记录介质
Vo et al. Distorted music score recognition without staffline removal
CN103310217A (zh) 基于图像协方差特征的手写体数字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20200228