CN112651310A - 一种视频人物唇形检测生成的方法及装置 - Google Patents

一种视频人物唇形检测生成的方法及装置 Download PDF

Info

Publication number
CN112651310A
CN112651310A CN202011474640.8A CN202011474640A CN112651310A CN 112651310 A CN112651310 A CN 112651310A CN 202011474640 A CN202011474640 A CN 202011474640A CN 112651310 A CN112651310 A CN 112651310A
Authority
CN
China
Prior art keywords
lip
video
video frame
difference
generated image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011474640.8A
Other languages
English (en)
Inventor
李欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moviebook Technology Corp ltd
Original Assignee
Beijing Moviebook Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moviebook Technology Corp ltd filed Critical Beijing Moviebook Technology Corp ltd
Priority to CN202011474640.8A priority Critical patent/CN112651310A/zh
Publication of CN112651310A publication Critical patent/CN112651310A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频人物唇形检测生成的方法及装置,包括:提取输入视频中的视频帧图像;基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;对经过滤波处理的唇形生成图像进行视频生成处理。本申请将加入阈值处理后的均值滤波平滑处理与基于深度学习的唇形特征点提取的方法相结合,基于视频的前景人物的唇形检测与生成,可广泛应用于语音识别、多媒体系统、人物识别等领域。

Description

一种视频人物唇形检测生成的方法及装置
技术领域
本申请涉及计算机视觉特征检测技术领域,特别是涉及一种视频人物唇形检测生成的方法及装置。
背景技术
唇形检测(Lip detection)技术是指输入为图片或视频,通过提取唇形特征信息,确认唇形特征点轨迹的检测,从而从图片或视频中将任务唇形检测的过程。唇形检测在语音识别、身份识别、多媒体系统等多个领域具有较高的应用价值。基于视频的唇形检测与基于图片的唇形检测不同,除了提取唇形特征外,还需要将唇形边缘重新生成视频。而这个过程,由于视频中不同帧间的差距会影响整体唇形生成的效果,如,容易出现抖动和不自然的现象。因此,如何减少帧间的相互影响,是基于视频的前景人物唇形生成中非常重要的部分。
针对视频中前景人物的唇形边缘检测的核心问题是如何在有效提取唇形关键点、唇形边缘以及唇形运动轨迹的前提下,能够减少相邻帧之间的相互影响,从而减少生成唇形边缘的视频中的抖动问题。
传统的唇形边缘提取并重新生成的方式是,对视频中的每一帧图像进行特征提取,从而获取特征点,依据特征点完成唇形边缘的再塑。这样处理的问题在于,当帧间像素点对应差距值过大时,生成的唇形轨迹视频会出现明显的抖动现象,尤其是在前景人物在不断地讲话过程。而如果对每一帧都进行平滑处理,会直接影响特征提取的效率。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种视频人物唇形检测生成的方法,包括:
提取输入视频中的视频帧图像;
基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
对经过滤波处理的唇形生成图像进行视频生成处理。
优选地,对经过滤波处理的唇形生成图像进行视频生成处理包括:
调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
优选地,对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
优选地,采用均值滤波处理包括:
利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
优选地,获取预设时序数据网络模型包括:
利用深度学习技术,训练得到基于特征点的时序数据网络模型。
第二方面,本发明还提供一种视频人物唇形检测生成的装置,包括:
视频图像模块,设置为提取输入视频中的视频帧图像;
面部提取模块,设置为基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
唇形生成模块,设置为利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
滤波模块,设置为对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
合成模块,设置为对经过滤波处理的唇形生成图像进行视频生成处理。
优选地,所述合成模块对经过滤波处理的唇形生成图像进行视频生成处理包括:
调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
优选地,所述滤波模块对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
优选地,所述滤波模块采用均值滤波处理包括:
利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
优选地,所述唇形生成模块获取预设时序数据网络模型包括:
利用深度学习技术,训练得到基于特征点的时序数据网络模型。
本申请的视频人物唇形检测生成的方法及装置,将加入阈值处理后的均值滤波平滑处理与基于深度学习的唇形特征点提取的方法相结合,基于视频的前景人物的唇形检测与生成,可广泛应用于语音识别、多媒体系统、人物识别等领域。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的视频人物唇形检测生成的方法的示意性流程图;
图2是根据本申请一个实施例的时序数据网络模型的结构示意图;
图3是根据本申请一个实施例的视频人物唇形检测生成的装置的结构示意图;
图4是根据本申请一个实施例的视频中提取的视频帧图像的示意图;
图5是根据本申请一个实施例的平滑处理的唇形边缘的示意图;
图6是根据本申请一个实施例的平滑处理的唇形边缘的帧间差距的示意图;其中,图6(a)为图5前面两幅图的唇形边缘的帧间差距示意图;图6(b)为图5后面两幅图的唇形边缘的帧间差距示意图;
图7是根据本申请一个实施例的视频人物唇形检测生成的流程图;
图8是根据本申请实施例的第一种计算机可读存储介质的的示意性结构框图;
图9是根据本申请实施例的第二种计算机可读存储介质的的示意性结构框图。
具体实施方式
图1是根据本申请一个实施例的视频人物唇形检测生成的方法的流程图,所述方法可以包括如下步骤:
S101、提取输入视频中的视频帧图像;
S102、基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
S103、利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
S104、对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
S105、对经过滤波处理的唇形生成图像进行视频生成处理。
本发明实施例,利用深度学习技术,训练得到基于特征点的时序数据网络模型,该模型的输入是视频中的每一帧图像,而输出是该图像对应的唇形生成图像。其次,针对唇形生成图像,利用连续帧相减法计算彼此之间的差距,当差距大于阈值时,采用均值滤波处理,进而利用卷积核处理输出最终差距。如果差距小于阈值,则不进行滤波处理。最后,对滤波平滑处理后的图像进行视频生成。相对于传统的视频帧直接生成方法,本发明实施例中的视频人物唇形检测生成的方法在精度和效率均有所提升。
本发明实施例中,步骤S103中提取特征是唇形的关键点,利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取可以量化评估唇形特征。
本发明实施例中,步骤S105中,对经过滤波处理的唇形生成图像进行视频生成处理包括:
调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
本发明实施例中,生成唇形的视频可用于虚拟主播的全脸生成,准确地唇形生成对于主播的全脸生成起着至关重要的作用。
本发明实施例中,步骤S104中,对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
本发明实施例中,提取的唇形图像的像素大小在预定的范围内时,像素点阈值可以为80000像素点。
本发明实施例中,采用均值滤波处理包括:
利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
本发明实施例中,TCN能够完整记录时序数据信息,即:利用TCN时序时间模型能够准确记录唇形边缘的运动轨迹,但边界信息对TCN有比较大的影响,如若唇部运动幅度较大,可能会出现唇形抖动严重的现象。因此,本发明实施例中利用均值滤波的平滑处理对视频中的帧图像进行处理,将时序数据网络模型特征学习的每一帧输出进行平滑处理,改进了唇形抖动严重的问题,从实验验证了该方案提高了唇形波动的稳定性与平滑性。
本发明实施例中,步骤S103,获取预设时序数据网络模型包括:
利用深度学习技术,训练得到基于特征点的时序数据网络模型。
本发明实施例中,利用时序数据网络模型(TCN,Temporal ConvolutionalNetwork),如图2所示,TCN的Conv层与层之间是有因果关系的,即:对于历史信息或未来帧的变化,不会出现遗失的情况。因此,将TCN时序网络模型应用于前景人物视频唇形边缘的生成可以提高准确性以及生产效率。
如图3所示,本发明实施例还提供一种视频人物唇形检测生成的装置,包括:
视频图像模块100,设置为提取输入视频中的视频帧图像;
面部提取模块200,设置为基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
唇形生成模块300,设置为利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
滤波模块400,设置为对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
合成模块500,设置为对经过滤波处理的唇形生成图像进行视频生成处理。
本发明实施例中,所述合成模块500对经过滤波处理的唇形生成图像进行视频生成处理包括:
调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
本发明实施例中,所述滤波模块400对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
本发明实施例中,所述滤波模块400采用均值滤波处理包括:
利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
本发明实施例中,所述唇形生成模块300获取预设时序数据网络模型包括:
利用深度学习技术,训练得到基于特征点的时序数据网络模型。
如图4至图7所示,本发明实施例的方法基于深度学习进行唇形检测并生成,实现了视频中前景人物的唇形提取并生成新的唇形视频,具体过程如下:
1.提取输入视频为音频和图像两种格式,其中音频保留原格式。
2.基于全局特征和局部特征,将视频的每一帧图像进行处理,提取面部区域及背景。
3.根据训练得到的针对唇形特征点的时序数据网络模型,基于特征点,还原唇形的边缘,生成唇形边缘图像。
4.将第3步生成的唇形边缘图像,进行视频合成处理,在此,可以进行时间平滑处理,利用连续帧相减法,计算前后帧的误差,设定了像素点差的阈值为80000,如果帧间像素点误差小于80000,则直接进行视频合成处理;否则,进行均值滤波处理,减小帧间误差后再进行视频合成。
5.利用视频合成技术,将第1步的音频数据与生成的唇形边缘视频进行合成,得到最终的结果,即,生成唇形视频。
本申请实施例还提供了一种计算设备,参照图8,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图9,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种视频人物唇形检测生成的方法,包括:
提取输入视频中的视频帧图像;
基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
对经过滤波处理的唇形生成图像进行视频生成处理。
2.根据权利要求1所述的方法,其特征在于,对经过滤波处理的唇形生成图像进行视频生成处理包括:
调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
3.根据权利要求1或2所述的方法,其特征在于,对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
4.根据权利要求3所述的方法,其特征在于,采用均值滤波处理包括:
利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
5.根据权利要求1所述的方法,其特征在于,获取预设时序数据网络模型包括:
利用深度学习技术,训练得到基于特征点的时序数据网络模型。
6.一种视频人物唇形检测生成的装置,包括:
视频图像模块,设置为提取输入视频中的视频帧图像;
面部提取模块,设置为基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
唇形生成模块,设置为利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
滤波模块,设置为对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
合成模块,设置为对经过滤波处理的唇形生成图像进行视频生成处理。
7.根据权利要求6所述的装置,其特征在于,所述合成模块对经过滤波处理的唇形生成图像进行视频生成处理包括:
调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
8.根据权利要求6或7所述的装置,其特征在于,所述滤波模块对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
9.根据权利要求8所述的装置,其特征在于,所述滤波模块采用均值滤波处理包括:
利用N×N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
10.根据权利要求6所述的装置,其特征在于,所述唇形生成模块获取预设时序数据网络模型包括:
利用深度学习技术,训练得到基于特征点的时序数据网络模型。
CN202011474640.8A 2020-12-14 2020-12-14 一种视频人物唇形检测生成的方法及装置 Pending CN112651310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011474640.8A CN112651310A (zh) 2020-12-14 2020-12-14 一种视频人物唇形检测生成的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011474640.8A CN112651310A (zh) 2020-12-14 2020-12-14 一种视频人物唇形检测生成的方法及装置

Publications (1)

Publication Number Publication Date
CN112651310A true CN112651310A (zh) 2021-04-13

Family

ID=75354833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011474640.8A Pending CN112651310A (zh) 2020-12-14 2020-12-14 一种视频人物唇形检测生成的方法及装置

Country Status (1)

Country Link
CN (1) CN112651310A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161072A (ja) * 1995-12-13 1997-06-20 Tsushin Hoso Kiko 映像信号の構造情報を抽出する映像処理装置
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN101179713A (zh) * 2007-11-02 2008-05-14 北京工业大学 复杂背景下单个运动目标的检测方法
CN101621615A (zh) * 2009-07-24 2010-01-06 南京邮电大学 一种自适应背景建模及运动目标检测方法
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN102799885A (zh) * 2012-07-16 2012-11-28 上海大学 嘴唇外轮廓提取方法
CN104065854A (zh) * 2014-06-18 2014-09-24 联想(北京)有限公司 一种图像处理方法及一种电子设备
CN106846359A (zh) * 2017-01-17 2017-06-13 湖南优象科技有限公司 基于视频序列的运动目标快速检测方法
CN109389098A (zh) * 2018-11-01 2019-02-26 重庆中科云丛科技有限公司 一种基于唇语识别的验证方法以及系统
CN109714501A (zh) * 2019-01-15 2019-05-03 武汉鸿瑞达信息技术有限公司 一种帧平均降噪方法和装置
CN110324617A (zh) * 2019-05-16 2019-10-11 西安万像电子科技有限公司 图像处理方法及装置
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
WO2020062671A1 (zh) * 2018-09-26 2020-04-02 深圳壹账通智能科技有限公司 身份识别方法、计算机可读存储介质、终端设备及装置
US20200342234A1 (en) * 2019-04-25 2020-10-29 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
CN111931662A (zh) * 2020-08-12 2020-11-13 中国工商银行股份有限公司 唇读识别系统、方法及自助终端

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09161072A (ja) * 1995-12-13 1997-06-20 Tsushin Hoso Kiko 映像信号の構造情報を抽出する映像処理装置
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
CN101179713A (zh) * 2007-11-02 2008-05-14 北京工业大学 复杂背景下单个运动目标的检测方法
CN101621615A (zh) * 2009-07-24 2010-01-06 南京邮电大学 一种自适应背景建模及运动目标检测方法
CN101751692A (zh) * 2009-12-24 2010-06-23 四川大学 语音驱动唇形动画的方法
CN102799885A (zh) * 2012-07-16 2012-11-28 上海大学 嘴唇外轮廓提取方法
CN104065854A (zh) * 2014-06-18 2014-09-24 联想(北京)有限公司 一种图像处理方法及一种电子设备
CN106846359A (zh) * 2017-01-17 2017-06-13 湖南优象科技有限公司 基于视频序列的运动目标快速检测方法
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
WO2020062671A1 (zh) * 2018-09-26 2020-04-02 深圳壹账通智能科技有限公司 身份识别方法、计算机可读存储介质、终端设备及装置
CN109389098A (zh) * 2018-11-01 2019-02-26 重庆中科云丛科技有限公司 一种基于唇语识别的验证方法以及系统
CN109714501A (zh) * 2019-01-15 2019-05-03 武汉鸿瑞达信息技术有限公司 一种帧平均降噪方法和装置
US20200342234A1 (en) * 2019-04-25 2020-10-29 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
CN110324617A (zh) * 2019-05-16 2019-10-11 西安万像电子科技有限公司 图像处理方法及装置
CN111931662A (zh) * 2020-08-12 2020-11-13 中国工商银行股份有限公司 唇读识别系统、方法及自助终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
T. R. ALMAEV 等: "Local Gabor Binary Patterns from Three Orthogonal Planes for Automatic Facial Expression Recognition", 《2013 HUMAINE ASSOCIATION CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION, GENEVA, SWITZERLAND, 2013》, 31 December 2013 (2013-12-31), pages 356 - 361 *
Y. LI 等: "The Integration Adjacent Frame Difference of Improved ViBe for Foreground Object Detection", 《2011 7TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, NETWORKING AND MOBILE COMPUTING, WUHAN, CHINA, 2011》, 31 December 2011 (2011-12-31), pages 1 - 4 *
张建明 等: "基于SVD的唇动视觉语音特征提取技术", 《江苏大学学报(自然科学版)》, vol. 2004, no. 5, 31 December 2004 (2004-12-31), pages 426 - 429 *

Similar Documents

Publication Publication Date Title
US11861816B2 (en) System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same
US11967089B2 (en) Object tracking method, tracking processing method, corresponding apparatus, and electronic device
EP2591460A1 (en) Method, apparatus and computer program product for providing object tracking using template switching and feature adaptation
CN113627306B (zh) 关键点处理方法及装置、可读存储介质、终端
JP7333520B2 (ja) 学習プログラム、学習方法、及び情報処理装置
CN111488779B (zh) 视频图像超分辨率重建方法、装置、服务器及存储介质
Liu et al. A novel video forgery detection algorithm for blue screen compositing based on 3-stage foreground analysis and tracking
CN115761826A (zh) 掌静脉有效区域提取方法、系统、介质及电子设备
Shi et al. Tracing vocal fold vibrations using level set segmentation method
US8532393B2 (en) Method and system for line segment extraction
CN112669244A (zh) 人脸图像增强方法、装置、计算机设备以及可读存储介质
CN112651310A (zh) 一种视频人物唇形检测生成的方法及装置
CN116012418A (zh) 多目标跟踪方法及装置
KR20200046182A (ko) 딥러닝 기반 이미지 보정 탐지 시스템 및 이를 이용하여 무보정 탐지 서비스를 제공하는 방법
CN115018734A (zh) 视频修复方法和视频修复模型的训练方法、装置
CN115188039A (zh) 一种基于图像频域信息的深度伪造视频技术溯源方法
Koumparoulis et al. Audio-assisted image inpainting for talking faces
CN114827567A (zh) 视频质量分析方法、设备和可读介质
CN113657219A (zh) 一种视频对象检测跟踪方法、装置及计算设备
CN110443244B (zh) 一种图形处理的方法以及相关装置
CN113657218A (zh) 一种能够减少冗余数据的视频对象检测方法及装置
CN111147954A (zh) 一种缩略图抽取方法及装置
CN116129502B (zh) 人脸伪造视频检测模型的训练方法、装置及计算设备
CN115330834B (zh) 一种运动目标检测方法、系统、装置及存储介质
CN117176979B (zh) 多源异构视频的内容帧提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination