CN117176998A - 基于通道注意力的双流网络跨模态嘴型同步方法和系统 - Google Patents
基于通道注意力的双流网络跨模态嘴型同步方法和系统 Download PDFInfo
- Publication number
- CN117176998A CN117176998A CN202311157800.XA CN202311157800A CN117176998A CN 117176998 A CN117176998 A CN 117176998A CN 202311157800 A CN202311157800 A CN 202311157800A CN 117176998 A CN117176998 A CN 117176998A
- Authority
- CN
- China
- Prior art keywords
- audio
- dimensional convolution
- block
- visual
- synchronization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000000007 visual effect Effects 0.000 claims abstract description 82
- 230000001360 synchronised effect Effects 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 230000005284 excitation Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 16
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种基于通道注意力的双流网络跨模态嘴型同步方法和系统,方法包括:获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集并进行预处理;建立基于通道注意力的双流网络,双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;将预处理后的数据集输入双流网络并计算视听同步概率;利用二分类交叉熵损失函数进行训练;最后获取待同步视频并输入最优的双流网络中进行视听同步;本发明通过双流网络来更好地提取图像和音频两个不同模态中具有鲁棒性和辨别性的同步特征,保留了一定的时空信息,能够有效提高识别嘴型同步的精确度。
Description
技术领域
本发明涉及计算机视觉和视听同步技术领域,更具体地,涉及一种基于通道注意力的双流网络跨模态嘴型同步方法和系统。
背景技术
嘴型同步是利用计算机视觉技术判断视频中说话人嘴型和音频是否同步一致的问题,其研究目标是学习视频中说话人嘴型和音频之间的跨模态映射,确定视频中嘴部运动和语音之间的视听同步。音频视频的不同步对于制作人和观众来说是一个比较严重但又常见的问题,在电视中,由于音频和视频是同时录制的,高达数百毫秒的口型同步错误并不少见。如果错误的原因是在传输过程中,则视频通常会滞后于音频。这些错误通常很明显,普通观看者可检测到的阈值约为-125毫秒(音频滞后于视频)到+45毫秒(音频领先于视频)。在电影制作中,音频到视频的同步是一项常规任务,因为音频和视频通常是使用不同的设备录制的。由于在视频编辑过程中缺乏适当的注意,大量的电影片段会出现音频流和视频流之间的错位,由于这种错位,视频观众注意到嘴唇的动作与音频中的声音并不完全同步;此时可以通过补偿音频和视觉模态之间的偏移来纠正,从而实现唇语同步。
如今,随着视听内容消费的指数级增长,快速创建视频内容已成为一种典型的需求,创建新视频时的一个关键方面是纠正口型同步,以匹配所需的目标语音。例如,深度学习系列讲座、著名电影或国家公共演讲,如果翻译成所需的目标语言,就可以为数百万新观众所接受。因此,研究视频嘴型与音频同步具有一定的应用价值。
目前的嘴型同步算法主要存在两个难点,一个是视频、音频输入时间维度内一些视觉特征不包含判别信息,例如音频中仅有后几秒存在人声、说话之间存在停顿等;另一个是时间序列问题,对唇形的判断是一个时间依赖的动态过程,需要在一定时间窗口内比较说话人发出的声音和其嘴唇的变化,这两个难点是阻碍视听同步的关键所在。如今解决嘴型同步算法难点的方法主要有三种,分别是基于表征学习、跨模态检索和基于模态转换的方法。基于表征学习的方法通过直接学习视觉特征,不会将声音和口型中间分类为元音或音素,与其开发的体系结构相关的是双流孪生网络,其中在没有显式类标签的情况下为人脸分类学习相似性度量。基于跨模态检索的方法是通过多路匹配任务学习强大的跨模态嵌入,其目标是在给定短视频剪辑的情况下找到最相关的音频片段。基于模态互转的方法是利用强大的跨模态AV(音频-视频)转换器,它可以使用在其跨模态注意力模块中学习的AV表示来推断同步语音和嘴唇运动对中固有的AV对应关系。
如图1所示为现有的嘴型同步网络架构,采用VGG-M作为骨干模型,提取视觉特征和将音频转为MFCC(梅尔倒谱系数)后提取音频特征,这样可以将视觉和音频特征共同映射到同一特征空间中,通过对比损失、L2(欧氏距离)和相关损失函数优化模型,以提取出更具有辨别性和鲁棒性的视听特征。但这种仅使用二维卷积特征信息的方法使得模型没有保留视觉特征的时序信息,对音频特征提取不够充分,可能导致影响模型判断嘴型同步的准确性。
现有技术中公开了一种视频合成方法、装置、计算机设备及计算机可读存储介质,方法包括:获取待合成音频,待合成音频是基于语音合成模型对待合成文本进行转换得到的;在训练视频中截取至少一个图像帧,依据至少一个图像帧,生成脸源视频,脸源视频用于合成目标视频;基于嘴型同步模型,对脸源视频进行识别,确定目标对象的嘴部特征信息,以及按照待合成音频,驱动改变脸源视频中每个图像帧的嘴型,得到多个待合成图像帧;基于多媒体视频处理工具,合并多个待合成图像帧和待合成音频,得到目标视频;该现有技术中的嘴型同步模型用于执行嘴型驱动的操作,并采用Wav2lip模型作为嘴型同步模型,然而,嘴型图像和音频不仅模态间有区别,而且可能视频、音频输入时间维度内其中一些特征不包含判别信息,该模型无法分辨哪些特征更加重要从而影响精度;另外,对唇形的判断是一个时间依赖的动态过程,需要在一定时间窗口内比较说话人发出的声音和其嘴唇的变化,但是Wav2lip模型并没有保留视频的时间序列性,对图像和音频的信息提取不够充分,可能导致无法学到真正确定结果的特征,影响模型性能。
发明内容
本发明为克服上述现有技术中的嘴型识别模型疏忽了时序运动信息和全局信息从而导致的模型精度较低的缺陷,提供一种基于通道注意力的双流网络跨模态嘴型同步方法和系统,保留了一定的时空信息,并且使用全局信息强化有用的特征、淡化无用的特征,能够有效提高嘴型与音频同步的准确率。
为解决上述技术问题,本发明的技术方案如下:
一种基于通道注意力的双流网络跨模态嘴型同步方法,包括以下步骤:
S1:获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
S2:建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
S3:将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
S4:计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
S5:根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
S6:重复步骤S3~S5对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
S7:获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步。
优选地,所述步骤S1中,提取训练视频中的音频的具体方法为:
利用预设的音频编码器提取训练视频中的音频,所述音频编码器为若干个依次连接的梅尔滤波器,音频为梅尔频谱图。
优选地,对人脸图像数据集和音频数据集进行预处理的具体方法为:
将所述人脸图像数据集中的每张人脸图像进行裁剪,仅保留嘴巴周围特定大小的区域,完成人脸图像数据集的预处理;
将所述音频数据集中的所有梅尔频谱图转化为对应的梅尔光谱图,完成音频数据集的预处理。
优选地,所述步骤S2中,视觉特征提取模块包括依次连接的:三维卷积块1、三维卷积块2、三维卷积块3、三维卷积块4、三维卷积块5、三维卷积块6、三维卷积块7、三维卷积块8、三维卷积块9、三维卷积块10、三维卷积块11、三维卷积块12、三维卷积块13、三维卷积块14、三维卷积块15、三维卷积块16和三维卷积块17;
所有三维卷积块结构相同,均包括依次连接的:3D卷积层、3D批归一化层和第一ReLU激活层;
对于以下的每个三维卷积块,其输入和输出之间还构成残差加和连接:
三维卷积块3、三维卷积块4、三维卷积块6、三维卷积块7、三维卷积块8、三维卷积块10、三维卷积块11、三维卷积块13和三维卷积块14。
优选地,所述步骤S2中,音频特征提取模块包括依次连接的:二维卷积-激励块1、二维卷积-激励块2、二维卷积-激励块3、二维卷积-激励块4、二维卷积-激励块5、二维卷积-激励块6、二维卷积-激励块7、二维卷积-激励块8、二维卷积-激励块9、二维卷积-激励块10、二维卷积-激励块11、二维卷积-激励块12、二维卷积-激励块13和二维卷积-激励块14;
所有二维卷积-激励块结构相同,均包括依次连接的:2D卷积层、2D批归一化层、SE激励单元和第二ReLU激活层;
对于以下的每个二维卷积-激励块,其输入和输出之间还构成残差加和连接:
二维卷积-激励块2、二维卷积-激励块3、二维卷积-激励块5、二维卷积-激励块6、二维卷积-激励块8、二维卷积-激励块9、二维卷积-激励块11和二维卷积-激励块12。
优选地,所述SE激励单元包括依次连接的:特征映射层、全局平均池化层、全连接层1、第三ReLU激活层、全连接层2和Sigmoid激活层;
所述全局平均池化层的输入还与Sigmoid激活层的输出进行加权相乘操作,将加权相乘结果与特征映射层的输入进行残差加和,将残差加和结果作为SE激励单元的输出。
优选地,所述步骤S4中,计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率的具体方法为:
根据以下公式计算视听同步概率:
其中,为视觉特征,s为音频特征,/>为预设的随机值。
优选地,所述步骤S5中,预设的二分类交叉熵损失函数具体为:
其中,为二分类交叉损失值,/>为第n对视觉特征和音频特征的真实标签,/>表示第n对视觉特征和音频特征的视听同步概率/>等于/>的概率。
优选地,所述步骤S6中,经过最优的双流网络嘴型同步后的视频,其图像和音频的偏移误差范围为±1帧视频图像。
本发明还提供一种基于通道注意力的双流网络跨模态嘴型同步系统,应用上述的一种基于通道注意力的双流网络跨模态嘴型同步方法,包括:
数据获取单元:用于获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
网络构建单元:用于建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
特征提取单元:用于将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
同步概率计算单元:用于计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
损失计算单元:用于根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
迭代优化单元:用于重复上述步骤,对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
嘴型同步单元:用于获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供一种基于通道注意力的双流网络跨模态嘴型同步方法和系统,首先获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;重复上述步骤对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步;
本发明通过双流网络来更好地提取图像和音频两个不同模态中具有鲁棒性和辨别性的同步特征,在二维卷积后引入基于通道注意力的压缩和激励网络(Squeeze-and-Excitation Networks,SENet)提取音频模态特征,建模音频特征中通道之间的关系来矫正通道之间的关系,使用全局信息强化有用的特征、淡化无用的特征;使用三维卷积提取视觉特征,保留特征图中的时间序列性,本发明保留了一定的时空信息,能够有效提高识别嘴型同步的精确度;另外,在模型训练时,音频和视频特征在时间序列性的一致性也有利于模型学习分布在时间维度上的同步。
附图说明
图1为背景技术中现有的嘴型同步网络架构。
图2为实施例1所提供的一种基于通道注意力的双流网络跨模态嘴型同步方法流程图。
图3为实施例2所提供的基于通道注意力的双流网络结构图。
图4为实施例2所提供的SE激励单元结构图。
图5为实施例2所提供的SE激励单元计算流程示意图。
图6为实施例3所提供的一种基于通道注意力的双流网络跨模态嘴型同步系统结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图2所示,本实施例提供一种基于通道注意力的双流网络跨模态嘴型同步方法,包括以下步骤:
S1:获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
S2:建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
S3:将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
S4:计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
S5:根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
S6:重复步骤S3~S5对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
S7:获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步。
在具体实施过程中,首先获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;重复上述步骤对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步;
本方法通过双流网络来更好地提取图像和音频两个不同模态中具有鲁棒性和辨别性的同步特征,在二维卷积后引入基于通道注意力的压缩和激励网络提取音频模态特征,建模音频特征中通道之间的关系来矫正通道之间的关系,使用全局信息强化有用的特征、淡化无用的特征;使用三维卷积提取视觉特征,保留特征图中的时间序列性,保留了一定的时空信息,能够有效提高识别嘴型同步的精确度。
实施例2
本实施例提供一种基于通道注意力的双流网络跨模态嘴型同步方法,包括以下步骤:
S1:获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
S2:建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
S3:将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
S4:计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
S5:根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
S6:重复步骤S3~S5对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
S7:获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步;
所述步骤S1中,提取训练视频中的音频的具体方法为:
利用预设的音频编码器提取训练视频中的音频,所述音频编码器为若干个依次连接的梅尔滤波器,音频为梅尔频谱图;
对人脸图像数据集和音频数据集进行预处理的具体方法为:
将所述人脸图像数据集中的每张人脸图像进行裁剪,仅保留嘴巴周围特定大小的区域,完成人脸图像数据集的预处理;
将所述音频数据集中的所有梅尔频谱图转化为对应的梅尔光谱图,完成音频数据集的预处理;
如图3所示,所述步骤S2中,视觉特征提取模块包括依次连接的:三维卷积块1、三维卷积块2、三维卷积块3、三维卷积块4、三维卷积块5、三维卷积块6、三维卷积块7、三维卷积块8、三维卷积块9、三维卷积块10、三维卷积块11、三维卷积块12、三维卷积块13、三维卷积块14、三维卷积块15、三维卷积块16和三维卷积块17;
所有三维卷积块结构相同,均包括依次连接的:3D卷积层、3D批归一化层和第一ReLU激活层;
对于以下的每个三维卷积块,其输入和输出之间还构成残差加和连接:
三维卷积块3、三维卷积块4、三维卷积块6、三维卷积块7、三维卷积块8、三维卷积块10、三维卷积块11、三维卷积块13和三维卷积块14;
所述步骤S2中,音频特征提取模块包括依次连接的:二维卷积-激励块1、二维卷积-激励块2、二维卷积-激励块3、二维卷积-激励块4、二维卷积-激励块5、二维卷积-激励块6、二维卷积-激励块7、二维卷积-激励块8、二维卷积-激励块9、二维卷积-激励块10、二维卷积-激励块11、二维卷积-激励块12、二维卷积-激励块13和二维卷积-激励块14;
所有二维卷积-激励块结构相同,均包括依次连接的:2D卷积层、2D批归一化层、SE激励单元和第二ReLU激活层;
对于以下的每个二维卷积-激励块,其输入和输出之间还构成残差加和连接:
二维卷积-激励块2、二维卷积-激励块3、二维卷积-激励块5、二维卷积-激励块6、二维卷积-激励块8、二维卷积-激励块9、二维卷积-激励块11和二维卷积-激励块12;
如图4所示,所述SE激励单元包括依次连接的:特征映射层、全局平均池化层、全连接层1、第三ReLU激活层、全连接层2和Sigmoid激活层;
所述全局平均池化层的输入还与Sigmoid激活层的输出进行加权相乘操作,将加权相乘结果与特征映射层的输入进行残差加和,将残差加和结果作为SE激励单元的输出;
所述步骤S4中,计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率的具体方法为:
根据以下公式计算视听同步概率:
其中,为视觉特征,s为音频特征,/>为预设的随机值;
所述步骤S5中,预设的二分类交叉熵损失函数具体为:
其中,为二分类交叉损失值,/>为第n对视觉特征和音频特征的真实标签,/>表示第n对视觉特征和音频特征的视听同步概率/>等于/>的概率;
所述步骤S6中,经过最优的双流网络嘴型同步后的视频,其图像和音频的偏移误差范围为±1帧视频图像。
在具体实施过程中,首先获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集;
在提取人脸图像时,使用预设的视频编码器进行提取,视频编码器的输入为裁剪后的人脸视频,其分辨率为48×96,帧率为25fps;
在提取音频数据时,利用预设的音频编码器提取训练视频中的音频,所述音频编码器为80个依次连接的梅尔滤波器,梅尔滤波器的跳跃大小为 200、窗口大小为 800,音频的采样率为16kHz;音频编码器保存输入音频的时间分辨率;采集到的音频为梅尔频谱图;
对人脸图像数据集和音频数据集进行预处理,将所述人脸图像数据集中的每张人脸图像进行裁剪,仅保留嘴巴周围特定大小的区域,完成人脸图像数据集的预处理;将所述音频数据集中的所有梅尔频谱图转化为对应的梅尔光谱图,完成音频数据集的预处理;
建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
视觉特征提取模块每一次输入5帧RGB图像,其中包含0.2秒的视觉信息,用来输入空间流数据,本实施例使用的视觉特征提取模块,由一组带有残差连接的3D卷积块组成,保留了视觉特征当中的时间分辨率,音频和视觉特征中时间分辨率的守恒有助于网络学习分布在时间维度上的两种模态之间的同步模式;
音频特征提取模块的输入为音频转化得到的梅尔光谱图,用来输入时间流数据,在每一层带有残差连接的二维卷积后加入压缩和激励(SE激励单元),通过建模通道之间的关系来矫正通道之间的关系,使用全局信息去强化信息丰富的特征,并淡化无用的特征;
如图5所示的SE激励单元,其主要由压缩(squeeze)、激励(excitation)部分组成,本方法的SE模块主要建立在2D卷积操作Ftr之后,将输入映射到特征图;/>为梅尔滤波器中获得不同频率的能量值,/>为音频的时间分辨率,/>为通道数量;使用/>表示每个通道卷积核的集合,其中/>指的是第/>个卷积核的参数,/>表示输出的集合,最后Ftr操作可以写为:
其中,*表示卷积操作,,/>,/>;/>是一个2D卷积核,表示作用于/>相对应通道的/>的单个通道;由于输出是所有通道的总和生成的,因此通道的相互依赖性隐含地嵌入到/>当中,但与卷积核捕获的局部空间相关性交织在一起,所以卷积建模的通道关系本质上是隐式和局部的;对此,在卷积操作后加入SE模块,通过显式建模通道相互依赖性来增强卷积特征的学习,以便网络能够提高其对信息特征的敏感性,这些信息特征可以被后续操作利用;
压缩操作:由于每个卷积核都在一个局部特征图进行操作,无法利用该区域之外的上下文信息;为了缓解这个问题,利用全局平均池化,将每个通道的二维特征()压缩为一个实数/>,那么/>的第/>个元素如下得出:
激励操作;激励操作是利用压缩操作中聚合的全局信息,捕获音频中更为重要的信息,完全捕获通道依赖性;为了学习到多通道中的非线性关系,激励操作使用了Relu函数进行了和利用Sigmod函数进行归一化,得到每个输入通道特征的权重s,s可表示为:
其中,代表Relu函数,利用两个全连接层(/>,/>)来限制防止模型的复杂化,/>用来降低维度,/>用于维度递增;最后将激励的输出的权重通过乘法逐通道加权到输入特征上得到特征图/>,/>可表示为:
其中,表示权重s c与特征图/>之间的逐通道乘法;SE激励单元通过对不同通道特征赋予不同大小的权值来引入通道注意力机制;
将预处理后的数据集进行随机批量采样,输入相应网络分支:将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征,视觉特征和音频特征根据原视频的图像帧进行一一对应,构成n对音频-视频对;
计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率,具体为:
根据以下公式计算视听同步概率:
其中,为视觉特征,s为音频特征,/>为预设的随机值,在本实施例中,/>为趋于0的极小值,用于保证分母不为0;
根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
预设的二分类交叉熵损失函数具体为:
其中,为二分类交叉损失值,/>为第n对视觉特征和音频特征的真实标签,/>表示第n对视觉特征和音频特征的视听同步概率/>等于/>的概率;
重复上述步骤对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
当视频的视听偏移在±1帧范围内,普通观众无法察觉出语音和视频的偏移,因此,对于一组同步的音频和嘴唇运动帧,如果预测结果在±1帧范围之内,则是同步的;本方法通过找到5帧视觉特征和其±15帧内的所有音频特征集(每次匹配5帧)之间的具有最小二分类交叉损失的音频特征集的索引值,确定其偏移是否在±1帧内,判断音视频是否同步;
经过最优的双流网络嘴型同步后的视频,其图像和音频的偏移误差范围为±1帧视频图像;
最后获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步;
为了验证本方法的有效性,将本方法与近几年嘴型同步检测领域的主流算法进行比较;虽然模型在5帧长度的训练窗口上进行训练,但是可以在更大长度的输入上进行测试;本实施例进行了5、7、9帧窗口的对比实验,实验结果如表1所示,在LRS2(Lip ReadingSentences 2)数据集上进行上下文窗口大小为5、7、9帧进行检测准确性的比较;
表1 在LRS2数据集上不同嘴型同步模型的准确率对比
由表1可知,本实施例中的方法嘴型同步的效果都是最好的;
本实施例中的方法还可用于一些跨模态人脸识别,跨模态目标检索等领域;
本方法通过双流网络来更好地提取图像和音频两个不同模态中具有鲁棒性和辨别性的同步特征,在二维卷积后引入基于通道注意力的压缩和激励网络提取音频模态特征,建模音频特征中通道之间的关系来矫正通道之间的关系,使用全局信息强化有用的特征、淡化无用的特征;使用三维卷积提取视觉特征,保留特征图中的时间序列性,保留了一定的时空信息,能够有效提高识别嘴型同步的精确度。
实施例3
如图6所示,本实施例提供一种基于通道注意力的双流网络跨模态嘴型同步系统,应用实施例1或2中所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,包括:
数据获取单元301:用于获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
网络构建单元302:用于建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
特征提取单元303:用于将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
同步概率计算单元304:用于计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
损失计算单元305:用于根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
迭代优化单元306:用于重复上述步骤,对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
嘴型同步单元307:用于获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步。
在具体实施过程中,首先数据获取单元301获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;网络构建单元302建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;特征提取单元303将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;同步概率计算单元304计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;损失计算单元305根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;迭代优化单元306重复上述步骤对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;最后嘴型同步单元307获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步;
本系统通过双流网络来更好地提取图像和音频两个不同模态中具有鲁棒性和辨别性的同步特征,在二维卷积后引入基于通道注意力的压缩和激励网络提取音频模态特征,建模音频特征中通道之间的关系来矫正通道之间的关系,使用全局信息强化有用的特征、淡化无用的特征;使用三维卷积提取视觉特征,保留特征图中的时间序列性,保留了一定的时空信息,能够有效提高识别嘴型同步的精确度。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,包括以下步骤:
S1:获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
S2:建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
S3:将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
S4:计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
S5:根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
S6:重复步骤S3~S5对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
S7:获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步。
2.根据权利要求1所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述步骤S1中,提取训练视频中的音频的具体方法为:
利用预设的音频编码器提取训练视频中的音频,所述音频编码器为若干个依次连接的梅尔滤波器,音频为梅尔频谱图。
3.根据权利要求2所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,对人脸图像数据集和音频数据集进行预处理的具体方法为:
将所述人脸图像数据集中的每张人脸图像进行裁剪,仅保留嘴巴周围特定大小的区域,完成人脸图像数据集的预处理;
将所述音频数据集中的所有梅尔频谱图转化为对应的梅尔光谱图,完成音频数据集的预处理。
4.根据权利要求3所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述步骤S2中,视觉特征提取模块包括依次连接的:三维卷积块1、三维卷积块2、三维卷积块3、三维卷积块4、三维卷积块5、三维卷积块6、三维卷积块7、三维卷积块8、三维卷积块9、三维卷积块10、三维卷积块11、三维卷积块12、三维卷积块13、三维卷积块14、三维卷积块15、三维卷积块16和三维卷积块17;
所有三维卷积块结构相同,均包括依次连接的:3D卷积层、3D批归一化层和第一ReLU激活层;
对于以下的每个三维卷积块,其输入和输出之间还构成残差加和连接:
三维卷积块3、三维卷积块4、三维卷积块6、三维卷积块7、三维卷积块8、三维卷积块10、三维卷积块11、三维卷积块13和三维卷积块14。
5.根据权利要求4所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述步骤S2中,音频特征提取模块包括依次连接的:二维卷积-激励块1、二维卷积-激励块2、二维卷积-激励块3、二维卷积-激励块4、二维卷积-激励块5、二维卷积-激励块6、二维卷积-激励块7、二维卷积-激励块8、二维卷积-激励块9、二维卷积-激励块10、二维卷积-激励块11、二维卷积-激励块12、二维卷积-激励块13和二维卷积-激励块14;
所有二维卷积-激励块结构相同,均包括依次连接的:2D卷积层、2D批归一化层、SE激励单元和第二ReLU激活层;
对于以下的每个二维卷积-激励块,其输入和输出之间还构成残差加和连接:
二维卷积-激励块2、二维卷积-激励块3、二维卷积-激励块5、二维卷积-激励块6、二维卷积-激励块8、二维卷积-激励块9、二维卷积-激励块11和二维卷积-激励块12。
6.根据权利要求5所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述SE激励单元包括依次连接的:特征映射层、全局平均池化层、全连接层1、第三ReLU激活层、全连接层2和Sigmoid激活层;
所述全局平均池化层的输入还与Sigmoid激活层的输出进行加权相乘操作,将加权相乘结果与特征映射层的输入进行残差加和,将残差加和结果作为SE激励单元的输出。
7.根据权利要求6所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述步骤S4中,计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率的具体方法为:
根据以下公式计算视听同步概率:
其中,为视觉特征,s为音频特征,/>为预设的随机值。
8.根据权利要求7所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述步骤S5中,预设的二分类交叉熵损失函数具体为:
其中,为二分类交叉损失值,/>为第n对视觉特征和音频特征的真实标签,/>表示第n对视觉特征和音频特征的视听同步概率/>等于/>的概率。
9.根据权利要求8所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,所述步骤S6中,经过最优的双流网络嘴型同步后的视频,其图像和音频的偏移误差范围为±1帧视频图像。
10.一种基于通道注意力的双流网络跨模态嘴型同步系统,应用权利要求1~9任一项中所述的一种基于通道注意力的双流网络跨模态嘴型同步方法,其特征在于,包括:
数据获取单元:用于获取训练视频,提取训练视频中的人脸图像和音频,分别获取人脸图像数据集和音频数据集,并对人脸图像数据集和音频数据集进行预处理;
网络构建单元:用于建立基于通道注意力的双流网络,所述双流网络包括并列设置的视觉特征提取模块和音频特征提取模块;
特征提取单元:用于将预处理后的人脸图像数据集输入视觉特征提取模块中提取视觉特征;将预处理后的音频数据集输入音频特征提取模块中提取音频特征;
同步概率计算单元:用于计算每个视觉特征及其对应的音频特征之间的余弦相似度,获取视听同步概率;
损失计算单元:用于根据获取到的视听同步概率,利用预设的二分类交叉熵损失函数计算双流网络的二分类交叉损失值;
迭代优化单元:用于重复上述步骤,对双流网络进行迭代优化,将二分类交叉损失值最小的双流网络作为最优的双流网络;
嘴型同步单元:用于获取待同步视频,提取待同步视频中的人脸图像和音频并输入最优的双流网络中进行视听同步,获取嘴型同步后的视频,完成嘴型同步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311157800.XA CN117176998A (zh) | 2023-09-08 | 2023-09-08 | 基于通道注意力的双流网络跨模态嘴型同步方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311157800.XA CN117176998A (zh) | 2023-09-08 | 2023-09-08 | 基于通道注意力的双流网络跨模态嘴型同步方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117176998A true CN117176998A (zh) | 2023-12-05 |
Family
ID=88939178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311157800.XA Pending CN117176998A (zh) | 2023-09-08 | 2023-09-08 | 基于通道注意力的双流网络跨模态嘴型同步方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117176998A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877504A (zh) * | 2024-03-11 | 2024-04-12 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
-
2023
- 2023-09-08 CN CN202311157800.XA patent/CN117176998A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877504A (zh) * | 2024-03-11 | 2024-04-12 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
CN117877504B (zh) * | 2024-03-11 | 2024-05-24 | 中国海洋大学 | 一种联合语音增强方法及其模型搭建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
Katsaggelos et al. | Audiovisual fusion: Challenges and new approaches | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
US7209883B2 (en) | Factorial hidden markov model for audiovisual speech recognition | |
CN112088402A (zh) | 用于说话者识别的联合神经网络 | |
Chetty | Biometric liveness checking using multimodal fuzzy fusion | |
KR20010039771A (ko) | 시청각적 발성자 인식 및 발성 검증 방법 및 장치 | |
CN114422825A (zh) | 音视频同步方法、装置、介质、设备及程序产品 | |
Marcheret et al. | Detecting audio-visual synchrony using deep neural networks. | |
CN114298170A (zh) | 一种多模态会议数据结构化方法、装置及计算机设备 | |
Bredin et al. | Audiovisual speech synchrony measure: application to biometrics | |
CN117176998A (zh) | 基于通道注意力的双流网络跨模态嘴型同步方法和系统 | |
CN110970056A (zh) | 一种从视频中分离音源的方法 | |
Liu et al. | MSDWild: Multi-modal Speaker Diarization Dataset in the Wild. | |
Argones Rua et al. | Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
Chen et al. | Automatic Lip-Reading with Hierarchical Pyramidal Convolution and Self-Attention for Image Sequences with No Word Boundaries. | |
Ahmad et al. | Speech enhancement for multimodal speaker diarization system | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN112653916B (zh) | 一种音视频同步优化的方法及设备 | |
Hoover et al. | Using audio-visual information to understand speaker activity: Tracking active speakers on and off screen | |
CN116883900A (zh) | 一种基于多维生物特征的视频真伪鉴别方法和系统 | |
CN110674337A (zh) | 一种音像图文识别系统 | |
CN114783049B (zh) | 一种基于深度神经网络视觉识别的口语学习方法及系统 | |
ElMaghraby et al. | Noise-robust speech recognition system based on multimodal audio-visual approach using different deep learning classification techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |