CN111125437B - 对视频中唇语图片识别的方法 - Google Patents

对视频中唇语图片识别的方法 Download PDF

Info

Publication number
CN111125437B
CN111125437B CN201911345728.7A CN201911345728A CN111125437B CN 111125437 B CN111125437 B CN 111125437B CN 201911345728 A CN201911345728 A CN 201911345728A CN 111125437 B CN111125437 B CN 111125437B
Authority
CN
China
Prior art keywords
picture
pictures
frame
structural similarity
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911345728.7A
Other languages
English (en)
Other versions
CN111125437A (zh
Inventor
程林涛
卫浩
刘嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN201911345728.7A priority Critical patent/CN111125437B/zh
Publication of CN111125437A publication Critical patent/CN111125437A/zh
Application granted granted Critical
Publication of CN111125437B publication Critical patent/CN111125437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及对视频中唇语图片识别的方法,包括:A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断,并设置结构相似度差异的阈值,当两张不同帧的图片的结构相似度达到所述阈值后,提取出这两张图片;所有提取出的图片按帧序号形成图片序列;B.通过人脸识别模型对提取的所有图片中的人脸进行定位,获取人脸坐标,再通过人脸坐标提取人脸图片,按照帧序号得到人脸序列图片;C.通过YOLOV3算法对人脸序列图片中的每个人脸进行嘴唇定位,获取用于唇语识别的嘴唇图片序列。本发明能够大幅度提高模型的识别表现和模型预测的准确性,并明显降低了模型的训练和预测的计算量,以及降低了外界拍摄角度、拍摄远近等因素对模型训练的影响。

Description

对视频中唇语图片识别的方法
技术领域
本发明涉及对图像的处理方法,具体讲是对视频中唇语图片识别的方法。
背景技术
唇语识别是指利用说话人嘴唇运动的序列图片建立深度学习模型来识别说话内容,是目前人工智能领域研究的热点问题。
人工智能的三要素分别为数据、算力和算法。在人工智能领域中,大量高质量的数据是学习模型取得优异成绩的前提,因此如何从视频中精准捕捉高质量的嘴唇运动序列图片对后续唇语建模至关重要。
对于唇语序列图片的提取,目前常见的做法是:
已知视频是由一帧一帧的图片构成的,普通视频大概1秒有24帧~25帧图片,常见的提取流程为,第一步从视频中每隔n帧(n是一个经验值)提取一张图片,最终从视频中提取一份序列图片。第二步对该序列图片进行人脸检测,获取人脸的坐标,从而得到人脸的序列图片。第三步在人脸的的序列图片的基础上进行裁剪得到嘴唇序列图片,具体流程和效果如图1所示。
上述方法存在的问题如下:
问题1:第一步中,间隔帧数n的阈值是一个经验值,如果设置的过大,从视频中提取的图片数会很少,时序信息将会大量丢失。如果阈值设置的过小,那么将会从视频中提取大量相似的图片,冗余信息将会干扰模型训练造成计算资源的浪费。
问题2:由于每个人说话的速度都不一样,用一个统一的阈值对所有的视频样本进行图片提取,将会导致同一个词语在不同视频中对应提取的图片数不统一,这也会干扰后续的模型训练。另一方面,模型在预测的时候也需要进行嘴唇序列图片提取,由于视频样本的随机性,同一阈值下提取的嘴唇图片数或高或低也会大幅降低模型预测的精度。
问题3:开放场景下每个人都是在不同环境下录制的视频,唇语序列图片如果单纯只提取鼻子以下部分的人脸图片(如图1中以鼻子为基准进行识别和提取)进行模型训练,仍然会受到各种外界因素的影响,如:拍摄角度、拍摄远近、背景等因素,从而降低模型的预测精度。
发明内容
本发明提供了一种对视频中唇语图片识别的方法,以提高模型的识别表现,并降低模型的训练和预测的计算量。
对视频中唇语图片识别的方法,包括:
A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断,并设置结构相似度差异的阈值,当两张不同帧的图片的结构相似度达到所述阈值后,提取出这两张图片;所有提取出的图片按帧序号形成图片序列;
B.通过人脸识别模型对提取的所有图片中的人脸进行定位,获取人脸坐标,再通过人脸坐标提取人脸图片,按照帧序号得到人脸序列图片;
C.通过YOLOV3算法(一种目标检测算法)对人脸序列图片中的每个人脸进行嘴唇定位,获取用于唇语识别的嘴唇图片序列。
在本发明的方法中,人脸识别模型和YOLOV3算法都采用现有技术实现。对于同样文本内容的不同视频,通过本发明的方法后会得到数量大致相同的唇语序列图片。这样不仅可以降低不同的图像采集尺度对模型参数收敛速度的影响,还可以将训练和测试的样本统一在相同尺度下采集,这样可以提高模型预测的准确性。同时,通过人脸识别和YOLOV3算法对嘴唇定位的双保险,能够剔除大量的不合格人脸、不合格嘴唇图片,从而大幅度提高最终样本的质量。并且,通过YOLOV3算法还能够提取到更聚焦的嘴唇图片,得到的图片尺寸更小、信息更加集中,小尺寸的图片会大幅降低模型的训练及预测的计算量,信息更加集中则会降低外界拍摄角度、拍摄远近等因素对模型训练的影响。
具体的,步骤A中,在对视频文件的每一帧图片进行结构相似度的判断时,从第i帧图片(通过人脸识别模型识别出的第一张具有人脸的图片)开始,将j=i+1帧图片与第i帧图片进行结构相似度的判断,如果结构相似度达到所述阈值,则提取出这两张图片,反之,则将j=j+1帧图片与第i帧图片再进行结构相似度的判断,直到第i帧图片和第j帧图片结构相似度达到阈值,提取出这第i帧图片和第j帧图片,设置i=j后,循环进行所述的结构相似度的判断,直到j值为最后一帧图片。
具体的,步骤A中对两帧图片的结构相似度判断的公式为:
Figure SMS_1
其中,每帧的图片分别由矩阵数据构成,x和y分别代表进行结构相似度判断的两张图片,ux是x的均值,uy是y的均值,σx是x的方差,σy是y的方差,σxy是x和y的协方差,c1和c2分别是避免公式的分母为0维稳系数,c1=(k1·L)2,c2=(k2·L)2,通常情况下的一种取值可以是,L=255,k1=0.01,k2=0.03。结构相似度SSMI∈[-1,1],如果SSMI为1,表示两张图片一样,SSMI的值越接近-1,表示两张图片的结构相似度差异越大。
进一步的,每帧图片分别由值为[0~255]的像素矩阵构成,所述的均值为一张图片中所有像素值的均值。
优选的,所述结构相似度差异的阈值范围为0.78~0.85。经多次试验得知,当结构相似度差异的阈值范围在0.78~0.85时,唇语模型(如:3D+Resnet50)的唇语识别表现稳定,没有出现大的波动,进一步证明本发明的稳定可靠。
本发明对视频中唇语图片识别的方法,能够大幅度提高模型的识别表现和模型预测的准确性,并明显降低了模型的训练和预测的计算量,以及降低了外界拍摄角度、拍摄远近等因素对模型训练的影响。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为现有技术中对视屏中唇语图片识别的流程及效果图。
图2为本发明对视频中唇语图片识别的方法的流程图。
图3为图2所述方法中对唇语图片的识别过程效果图。
具体实施方式
如图2和图3所示本发明对视频中唇语图片识别的方法,包括:
A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断,并设置结构相似度差异的阈值0.78~0.85,根据不同的实际环境在该范围内设置适当的值。当两张不同帧的图片的结构相似度达到所述阈值后,提取出这两张图片。具体的判断方式为:
对两帧图片的结构相似度判断的公式为:
Figure SMS_2
其中,每帧的图片分别由矩阵数据构成,x和y分别代表进行结构相似度判断的两张图片,ux是x的均值(x图片中所有像素值的均值),uy是y的均值(y图片中所有像素值的均值),σx是x的方差,σy是y的方差,σxy是x和y的协方差,c1和c2分别是避免公式的分母为0维稳系数,c1=(k1·L)2,c2=(k2·L)2,本实施例中,L=255,k1=0.01,k2=0.03。结构相似度SSMI∈[-1,1],如果SSMI为1,表示两张图片一样,SSMI的值越接近-1,表示两张图片的结构相似度差异越大。
从视频文件的第i帧图片(通过人脸识别模型识别出的第一张具有人脸的图片)开始,将j=i+1帧图片与第i帧图片进行结构相似度的判断,如果结构相似度达到所述阈值,则提取出这两张图片,反之,则将j=j+1帧图片与第i帧图片再进行结构相似度的判断,直到第i帧图片和第j帧图片结构相似度达到阈值。提取出这第i帧图片和第j帧图片,设置i=j后,循环进行所述的结构相似度的判断,直到j值为最后一帧图片。所有提取出的图片按帧序号形成图片序列。
B.通过人脸识别模型对提取的所有图片中的人脸进行定位,获取人脸坐标,再通过人脸坐标提取人脸图片,按照帧序号得到人脸序列图片。
C.通过YOLOV3算法(一种目标检测算法)对人脸序列图片中的每个人脸进行嘴唇定位,获取用于唇语识别的嘴唇图片序列。
在实时过程中,人脸识别模型和YOLOV3算法都采用现有技术实现。在结构相似度差异的阈值范围0.78~0.85时,唇语模型(如:3D+Resnet50)的唇语识别表现稳定,没有出现大的波动,证明了本发明的稳定可靠。对于同样文本内容的不同视频,通过本发明的方法后会得到数量大致相同的唇语序列图片。这样不仅可以降低不同的图像采集尺度对模型参数收敛速度的影响,还可以将训练和测试的样本统一在相同尺度下采集,这样可以提高模型预测的准确性。
通过本发明对视频图像的唇语图片识别如图3所示,将图3和现有技术识别效果的图1对比后,可以明显看出图3最终获取的嘴唇图片尺寸更小、采集更准确、信息更集中。同时,通过人脸识别和YOLOV3算法对嘴唇定位的双保险,能够剔除大量的不合格人脸、不合格嘴唇图片,从而大幅度提高最终样本的质量。并且,通过YOLOV3算法还能够提取到更聚焦的嘴唇图片,得到的图片尺寸更小、信息更加集中,小尺寸的图片会大幅降低模型的训练及预测的计算量,信息更加集中则会降低外界拍摄角度、拍摄远近等因素对模型训练的影响。

Claims (4)

1.对视频中唇语图片识别的方法,其特征包括:
A.对具有人脸图像的视频文件的每一帧图片进行结构相似度的判断,并设置结构相似度差异的阈值,当两张不同帧的图片的结构相似度达到所述阈值后,提取出这两张图片;所有提取出的图片按帧序号形成图片序列;
B.通过人脸识别模型对提取的所有图片中的人脸进行定位,获取人脸坐标,再通过人脸坐标提取人脸图片,按照帧序号得到人脸序列图片;
C.通过YOLOV3算法对人脸序列图片中的每个人脸进行嘴唇定位,获取用于唇语识别的嘴唇图片序列;
步骤A中对两帧图片的结构相似度判断的公式为:
Figure QLYQS_1
其中,每帧的图片分别由矩阵数据构成,x和y分别代表进行结构相似度判断的两张图片,ux是x的均值,uy是y的均值,σx是x的方差,σy是y的方差,σxy是x和y的协方差,c1和c2分别是避免公式的分母为0维稳系数,结构相似度SSMI∈[-1,1],如果SSMI为1,表示两张图片一样,SSMI的值越接近-1,表示两张图片的结构相似度差异越大。
2.如权利要求1所述的对视频中唇语图片识别的方法,其特征为:步骤A中,在对视频文件的每一帧图片进行结构相似度的判断时,从第i帧图片开始,将j=i+1帧图片与第i帧图片进行结构相似度的判断,如果结构相似度达到所述阈值,则提取出这两张图片,反之,则将j=j+1帧图片与第i帧图片再进行结构相似度的判断,直到第i帧图片和第j帧图片结构相似度达到阈值,提取出这第i帧图片和第j帧图片,设置i=j后,循环进行所述的结构相似度的判断,直到j值为最后一帧图片。
3.如权利要求1所述的对视频中唇语图片识别的方法,其特征为:每帧图片分别由值为[0~255]的像素矩阵构成,所述的均值为一张图片中所有像素值的均值。
4.如权利要求1至3之一所述的对视频中唇语图片识别的方法,其特征为:所述结构相似度差异的阈值范围为0.78~0.85。
CN201911345728.7A 2019-12-24 2019-12-24 对视频中唇语图片识别的方法 Active CN111125437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345728.7A CN111125437B (zh) 2019-12-24 2019-12-24 对视频中唇语图片识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911345728.7A CN111125437B (zh) 2019-12-24 2019-12-24 对视频中唇语图片识别的方法

Publications (2)

Publication Number Publication Date
CN111125437A CN111125437A (zh) 2020-05-08
CN111125437B true CN111125437B (zh) 2023-06-09

Family

ID=70501865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911345728.7A Active CN111125437B (zh) 2019-12-24 2019-12-24 对视频中唇语图片识别的方法

Country Status (1)

Country Link
CN (1) CN111125437B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231252A (ja) * 1993-02-04 1994-08-19 Toshiba Corp 監視画像の移動物体追跡方法
WO1999019788A1 (en) * 1997-10-15 1999-04-22 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
WO2014001610A1 (en) * 2012-06-25 2014-01-03 Nokia Corporation Method, apparatus and computer program product for human-face features extraction
KR20140035109A (ko) * 2012-09-13 2014-03-21 한국생산기술연구원 음성 인식 시스템 및 방법
CN105550671A (zh) * 2016-01-28 2016-05-04 北京麦芯科技有限公司 一种人脸识别的方法及装置
CN106228121A (zh) * 2016-07-15 2016-12-14 华中科技大学 手势特征识别方法和装置
CN110276259A (zh) * 2019-05-21 2019-09-24 平安科技(深圳)有限公司 唇语识别方法、装置、计算机设备及存储介质
WO2019206186A1 (zh) * 2018-04-26 2019-10-31 京东方科技集团股份有限公司 唇语识别方法及其装置、增强现实设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8884982B2 (en) * 2009-12-15 2014-11-11 Deutsche Telekom Ag Method and apparatus for identifying speakers and emphasizing selected objects in picture and video messages

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231252A (ja) * 1993-02-04 1994-08-19 Toshiba Corp 監視画像の移動物体追跡方法
WO1999019788A1 (en) * 1997-10-15 1999-04-22 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
WO2014001610A1 (en) * 2012-06-25 2014-01-03 Nokia Corporation Method, apparatus and computer program product for human-face features extraction
KR20140035109A (ko) * 2012-09-13 2014-03-21 한국생산기술연구원 음성 인식 시스템 및 방법
CN105550671A (zh) * 2016-01-28 2016-05-04 北京麦芯科技有限公司 一种人脸识别的方法及装置
CN106228121A (zh) * 2016-07-15 2016-12-14 华中科技大学 手势特征识别方法和装置
WO2019206186A1 (zh) * 2018-04-26 2019-10-31 京东方科技集团股份有限公司 唇语识别方法及其装置、增强现实设备以及存储介质
CN110276259A (zh) * 2019-05-21 2019-09-24 平安科技(深圳)有限公司 唇语识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任玉强 等.高安全性人脸识别系统中的唇语识别算法研究.《计算机应用研究》.2017,第34卷(第04期),全文. *

Also Published As

Publication number Publication date
CN111125437A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109919977B (zh) 一种基于时间特征的视频运动人物跟踪与身份识别方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN108446601B (zh) 一种基于动静特征融合的人脸识别方法
CN105069434B (zh) 一种视频中人体动作行为识别方法
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN111241975B (zh) 一种基于移动端边缘计算的人脸识别检测方法及系统
CN109725721B (zh) 用于裸眼3d显示系统的人眼定位方法及系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
US9323989B2 (en) Tracking device
WO2020258978A1 (zh) 对象检测方法和装置
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN112784712B (zh) 一种基于实时监控的失踪儿童预警实现方法、装置
CN110956082A (zh) 基于深度学习的人脸关键点检测方法和检测系统
WO2013075295A1 (zh) 低分辨率视频的服装识别方法及系统
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN114550268A (zh) 一种利用时空特征的深度伪造视频检测方法
CN110969101A (zh) 一种基于hog和特征描述子的人脸检测与跟踪方法
CN111125437B (zh) 对视频中唇语图片识别的方法
CN109325472B (zh) 一种基于深度信息的人脸活体检测方法
CN104751144B (zh) 一种面向视频监控的正面人脸快速评价方法
CN113420608A (zh) 一种基于密集时空图卷积网络的人体异常行为识别方法
CN113378917A (zh) 一种基于自注意力机制的事件相机目标识别的方法
WO2021056531A1 (zh) 人脸性别识别方法、人脸性别分类器的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant