CN113450824A - 一种基于多尺度视频特征融合的语音唇读方法及系统 - Google Patents

一种基于多尺度视频特征融合的语音唇读方法及系统 Download PDF

Info

Publication number
CN113450824A
CN113450824A CN202110716761.7A CN202110716761A CN113450824A CN 113450824 A CN113450824 A CN 113450824A CN 202110716761 A CN202110716761 A CN 202110716761A CN 113450824 A CN113450824 A CN 113450824A
Authority
CN
China
Prior art keywords
voice
video
lip reading
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110716761.7A
Other languages
English (en)
Other versions
CN113450824B (zh
Inventor
熊盛武
曾瑞
陈燚雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Wurong Technology Co ltd
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110716761.7A priority Critical patent/CN113450824B/zh
Publication of CN113450824A publication Critical patent/CN113450824A/zh
Application granted granted Critical
Publication of CN113450824B publication Critical patent/CN113450824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统,其中,基于多尺度视频特征融合的语音唇读方法,步骤如下:首先将输入视频的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量,然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读,大大改善了语音合成的效果。

Description

一种基于多尺度视频特征融合的语音唇读方法及系统
技术领域
本发明涉及多媒体和人工智能领域,尤其涉及一种基于多尺度视频特征融合的语音唇读方法及系统。
背景技术
语音唇读任务由唇读任务衍生而来,因为人们发现,语音往往比文字更具表现力。所以语音唇读领域在前端进行特征提取时所存在的问题也有一部分和唇读任务是相同的,但又因为语音唇读这一任务有合成语音的需要,那么在后端进行语音合成时,也会遇到一些语音合成领域会遇到的问题。
Heiga Zen等人将用于唇读任务和Text-To-Speech任务(文字到语音)的模型相结合的方法来生成语音。虽然对语言感知任务来说,音频信息包含的信息量更为丰富,但研究表明,利用视觉信息能够增强语音识别的精确度和鲁棒性,所以声音和视觉之间是有很强大的相关性的,因此,Abe Davis等人提出了利用视频来重建语音信号的方法。Ephrat等人将语音重建视为一个使用神经网络的回归问题,首次提出了音素和视素语义对应的问题。Akbari等人试图利用神经网络重建自然的语音,该网络以说话者的脸部区域为输入,并由一个预训练好的自动编码器绘制谱图,最后将谱图转化为语音。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
现有技术中的上述方法都有一个主要的限制:音谱图和人工设计的特征中都不包含语音信号的所有信息。Vougioukas等人为了解决了这个问题,提出了一种端到端模型,该模型可以使用生成对抗网络直接合成视频中的音频波形。然而由于他们对时域信号进行的直接估计,重建的语音难免会存在比较明显的人工合成痕迹。
由此可知,现有技术中的方法存在语音合成效果不佳的技术问题。
发明内容
本发明提出一种基于多尺度视频特征融合的语音唇读方法及系统,用于解决或者至少部分解决现有技术中的方法存在语音合成效果不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于多尺度视频特征融合的语音唇读方法,包括:
S1:获取大量的说话人说话视频数据集;
S2:从获取的视频数据集中提取出视频帧和语音数据;
S3:从语音数据中提取出Mel谱;
S4:构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
S5:将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练,将解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,得到训练好的语音唇读模型;
S6:利用训练好的语音唇读模型对输入的视频进行语音识别。
在一种实施方式中,在将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练之前,所述方法还包括:
采用人脸对齐工具,检测视频帧中的人脸特征点,并剪裁成预设大小。
在一种实施方式中,步骤S2中位置编码模块的处理过程包括:
学习一个函数Gspe(·),将每一个位置索引映射到具有相同长度的片段特征向量中,带有位置信息的特征向量表示为
Figure BDA0003135127370000021
Figure BDA0003135127370000022
其中,Gspe(·)为一个正余弦函数,两个位置之间的关系可以通过他们位置编码间的仿射变换来建模获得,
Figure BDA0003135127370000023
表示不带位置信息的特征向量,k表示每一帧在序列中的位置。
在一种实施方式中,步骤S2中多尺度特征融合模块采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,包括:
首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合,再利用自注意力将各时间金字塔的特征进行融合;
其中,点乘注意力使中间隐向量考虑到局部信息,自注意力使得中间隐向量考虑非局部的上下文信息的影响,点乘注意力公式如公式(1)~(4)所示、自注意力公式如下(5)~(6)所示:
Figure BDA0003135127370000031
Figure BDA0003135127370000032
Figure BDA0003135127370000033
Figure BDA0003135127370000034
e=Gattn(Weh,Weh,Weh),We∈RD”×D......(5)
h=[h0,h1,...,hL-1],hk∈RD......(6)
公式(1)为一个时间金字塔在共享特征空间中的向量表示,Wg为线性映射函数,z0...zp-1表示构成时间金字塔的各视频片段;公式(2)为一个时间金字塔的构造,其中,
Figure BDA0003135127370000035
Figure BDA0003135127370000036
分别表示带有各自位置编码的
Figure BDA0003135127370000037
片段和ψ片段的向量表示,
Figure BDA0003135127370000038
表示一个以
Figure BDA0003135127370000039
为主片段的时间金字塔,M为片段所包含的视频帧数;公式(3)中,ck是通过点乘注意力计算出来的注意力分数,Wg为线性映射函数,Wg∈RD'×D将向量映射到共享特征空间RD',
Figure BDA00031351273700000310
代表视频的k+1个主片段特征;公式(4)将计算出来的注意力用Softmax函数进行归一化,得到符合概率分布取值区间的注意力分配概率分布数值,d为Q和K向量的维度,其中,公式(3)中的
Figure BDA00031351273700000311
Zk、Zk分别对应公式(4)中的Q、K、V;公式(5)为自注意力计算出来的注意力分数,其中,We为权重,通过网络训练得到的,h为所有时间金字塔表示集合的矩阵;为得到更具表现力的特征,添加两个线性层W1和W2,两个线性层中间加入GELU激活函数,公式(6)中hk=W2·GELU(W1ck+b1)+b2,b1∈RD,b2∈RD,其中,b1和b2分别代表线性层W1和W2的偏差,hk表示第k个时间金字塔的表示。
在一种实施方式中,步骤S2解码器包括一个前处理网络、两层LSTM和一个位置敏感的注意力层。
在一种实施方式中,步骤S5中以解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,构建MSE损失函数,公式为:
Figure BDA0003135127370000041
式中,
Figure BDA0003135127370000042
代表模型重建出的语音Mel谱,yi代表真实语音Mel谱,n代表样本对的个数。
基于同样的发明构思,本发明第二方面提供了一种基于多尺度视频特征融合的语音唇读系统,包括:
视频数据获取模块,用于获取大量的说话人说话视频数据集;
语音分离模块,用于从获取的视频数据集中提取出视频帧和语音数据;
语音特征提取模块,用于从语音数据中提取出Mel谱;
语音唇读模型构建模块,用于构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
模型训练模块,用于将语音分离模块中提取出的视频帧作为训练数据,将解码器重建出的语音Mel谱和语音特征提取模块中提取出的Mel谱之间的MSE损失最小化为目标,对语音唇读模型进行训练,得到训练好的语音唇读模型;
语音识别模块,用于利用训练好的语音唇读模型对输入的视频进行语音识别。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于多尺度视频特征融合的语音唇读方法,构建了语音唇读模型,其包括编码器、解码器以及声码器,通过编码器可以提取视频中的时空信息,得到能够表示该说话视频的时空特征向量,解码器能够从编码器得到的时空特征向量中,得到静默说话视频所对应的语音特征,即语音的中间特征—Mel谱,将后端语音合成的声码器(Griffin-Lim算法)网络,可以基于解码器得到的Mel谱重建出相应的语音。由于编码器采用了多时间尺度视频划分、位置编码以及多尺度特征融合,可以提取视频中的动态信息,生成更丰富的语音特征,因此大大改善了语音合成的效果。
进一步地,本发明在深度学习的序列到序列编解码器模型基础上,融入了时间金字塔和注意力机制在捕捉时间特征方面的优良特性,通过挖掘视频信号中的动态信息,在语音重建清晰度和表现力方面有较大的提升。也填补了语音唇读技术缺乏考虑利用视频数据中动态信息的方案空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于多尺度视频特征融合的语音唇读的方法流程图;
图2为本发明实施例中构建的基于多尺度视频特征融合的语音唇读模型的总体架构图;
图3为本发明实施例中对于时间金字塔的构造示意图;
图4为本发明实施例中基于多尺度视频特征融合的局部特征融合过程示意图;
图5为本发明实施例中本发明基于多尺度视频特征融合的全局特征融合过程示意图。
具体实施方式
相较于传统的唇读任务,语音唇读不需要将口型(视素)和文本(音素)做映射,数据集中不需要标签,所以对于数据集的收集与整理比较方便。也不像文本到语音任务(text-to-speech)和传统文本唇读任务,语音唇读还属于一个比较新兴的待探索的领域,就目前来看还有很大的创新和发展空间。
本发明的目的在于,提供一种基于多尺度视频特征融合的语音唇读方法,在时间尺度上挖掘视频中动态信息(时间和空间信息),并充分利用视频数据提供的信息对视频帧的语音进行识别,以提高语音识别的效果。
本发明的主要构思如下:
本发明利用序列到序列的模型来学习说话视频的高维表示,同时完成其对应说话内容的语音重建任务。利用编码器的多尺度特征融合模块来生成更丰富的语音特征。首先将输入视频数据的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量(融合后的时空向量),然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。其中,所述编码器包含三个部分,多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块。本发明主要应用于语音唇读。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于多尺度视频特征融合的语音唇读方法,包括:
S1:获取大量的说话人说话视频数据集;
S2:从获取的视频数据集中提取出视频帧和语音数据;
S3:从语音数据中提取出Mel谱;
S4:构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
S5:将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练,将解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,得到训练好的语音唇读模型;
S6:利用训练好的语音唇读模型对输入的视频进行语音识别。
具体实施过程中,S1中说话人说话视频数据集的数量可以根据实际情况设置,S2可以采用现有的工具对视频帧和语音数据进行分离,例如ffmpeg工具,提取的视频帧为静音的视频帧。S3中从语音数据中提取出Mel谱作为真实的语音Mel谱,用于后续训练过程中计算损失。
S4中构建的基于多尺度视频特征融合的语音唇读模型包括编码器、解码器以及声码器,编码器得到能够表示该说话视频的时空特征向量,将提取出的时空特征输入解码器中,得到该静音说话视频所对应的语音特征,即语音的中间特征—Mel谱;再将Mel谱输入后端语音合成的声码器(Griffin-Lim算法)网络,重建出相应的语音。
编码器包含三个部分,多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块。其中多时间尺度视频划分模块在进行多时间尺度视频划分:通过不同窗口大小的滑动窗口来构造时间金字塔。为了更好地获取视频数据在时间尺度上的特征,使用具有不同窗口大小来捕获时间维度的特征,窗口大小w可取8、12、16等,不同的w值代表不同的时间尺度。
图1为本发明实施例中基于多尺度视频特征融合的语音唇读的方法流程图,其中,提取源语音和视频分段即为语音和视频分离。
图2为本发明实施例中构建的基于多尺度视频特征融合的语音唇读模型的总体架构图,图3为本发明实施例中对于时间金字塔的构造示意图。
在一种实施方式中,在将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练之前,所述方法还包括:
采用人脸对齐工具,检测视频帧中的人脸特征点,并剪裁成预设大小。
具体实施过程中,可以利用face_alignment提供的人脸对齐工具来检测人脸特征点。剪裁成N*N的大小,N代表图片长和宽的取值,以像素为单位。例如当N取64时,表示将图片剪裁成一张长、宽都为64像素的图片,根据实际情况取值,N可以取64、128、256等值。
在一种实施方式中,步骤S2中位置编码模块的处理过程包括:
学习一个函数Gspe(·),将每一个位置索引映射到具有相同长度的片段特征向量中,带有位置信息的特征向量表示为
Figure BDA0003135127370000081
其中,Gspe(·)为一个正余弦函数,两个位置之间的关系可以通过他们位置编码间的仿射变换来建模获得,
Figure BDA0003135127370000082
表示不带位置信息的特征向量,k表示每一帧在序列中的位置。
具体来说,为了使模型能够利用序列的顺序,将每个视频片段的位置信息注入到特征向量中,例如第一帧中,k=0。
在一种实施方式中,步骤S2中多尺度特征融合模块采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,包括:
首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合,再利用自注意力将各时间金字塔的特征进行融合;
其中,点乘注意力使中间隐向量考虑到局部信息,自注意力使得中间隐向量考虑非局部的上下文信息的影响,点乘注意力公式如公式(1)~(4)所示、自注意力公式如下(5)~(6)所示:
Figure BDA0003135127370000083
Figure BDA0003135127370000084
Figure BDA0003135127370000085
Figure BDA0003135127370000086
e=Gattn(Weh,Weh,Weh),We∈RD”×D......(5)
h=[h0,h1,...,hL-1],hk∈RD......(6)
公式(1)为一个时间金字塔在共享特征空间中的向量表示,Wg为线性映射函数,z0...zp-1表示构成时间金字塔的各视频片段;公式(2)为一个时间金字塔的构造,其中,
Figure BDA0003135127370000091
Figure BDA0003135127370000092
分别表示带有各自位置编码的
Figure BDA0003135127370000093
片段和ψ片段的向量表示,
Figure BDA0003135127370000094
表示一个以
Figure BDA0003135127370000095
为主片段的时间金字塔,M为片段所包含的视频帧数;公式(3)中,ck是通过点乘注意力计算出来的注意力分数,Wg为线性映射函数,Wg∈RD'×D将向量映射到共享特征空间RD',
Figure BDA0003135127370000096
代表视频的k+1个主片段特征;公式(4)将计算出来的注意力用Softmax函数进行归一化,得到符合概率分布取值区间的注意力分配概率分布数值,d为Q和K向量的维度,其中,公式(3)中的
Figure BDA0003135127370000097
Zk、Zk分别对应公式(4)中的Q、K、V;公式(5)为自注意力计算出来的注意力分数,其中,We为权重,通过网络训练得到的,h为所有时间金字塔表示集合的矩阵;为得到更具表现力的特征,添加两个线性层W1和W2,两个线性层中间加入GELU激活函数,公式(6)中hk=W2·GELU(W1ck+b1)+b2,b1∈RD,b2∈RD,其中,b1和b2分别代表线性层W1和W2的偏差,hk表示第k个时间金字塔的表示。
具体来说,在通过多时间尺度视频划分模块进行多尺度卷积之后,得到三种不同尺度的的特征向量,分别表示为不同尺度的特征信息,首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合,再利用自注意力将各时间金字塔的特征进行融合。其中,点乘注意力令中间隐向量考虑到局部信息,自注意力可以令中间隐向量考虑非局部的上下文信息的影响,两者结合可以使特征向量具有更好的表达能力。点乘注意力和自注意力为两种不同的计算相似度的方式。
具体实施过程中,利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合,为局部特征融合过程,结合图4,其实现步骤如下:
步骤一:准备输入:带有位置信息的特征向量
Figure BDA0003135127370000101
步骤二:初始化权重:每个输入必须具有三个表示形式。这些表示形式称为键(K),查询(Q)和值(V)。为了获得这些表示形式,每个输入都将与一组键的权重、一组查询的权重和一组值的权重相乘。向量矩阵Wg就代表这些权重;
步骤三:派生键、查询和值:得到权重之后就可以获取每个输入的键、查询和值表示形式,即公式(3)中的
Figure BDA0003135127370000102
Zk、Zk分别对应公式(4)中的Q、K、V;
步骤四:用公式(3)计算输入的注意力得分ck
步骤五:计算softmax;
步骤六:将分数与值相乘并相加得到hn
利用自注意力将各时间金字塔的特征进行融合,为全局特征融合的过程,结合图5,其实现步骤如下:
步骤一:准备输入:局部特征融合后的注意力向量;
步骤二:初始化权重:每个输入必须具有三个表示形式。这些表示形式称为键(K),查询(Q)和值(V)。为了获得这些表示形式,每个输入都将与一组键的权重,一组查询的权重和一组值的权重相乘。公式(5)中的向量矩阵We就代表这些权重;
步骤三:派生键、查询和值:有了权重就可以获取每个输入的键、查询和值表示形式,即公式(5)中的Weh、Weh、Weh分别对应Q、K、V;
步骤四:计算输入的注意力得分,即公式(5);
步骤五:计算softmax;
步骤六:将分数与值相乘并相加得到An
在一种实施方式中,步骤S2解码器包括一个前处理网络、两层LSTM和一个位置敏感的注意力层。
具体实施过程中,将编码器得到的融合后的特征向量输入前处理网络(两层全连接层)将特征映射到一个隐空间,接着取一帧输入两层LSTM之后输入位置敏感的注意层,从而可以得到代表语音的Mel谱。
再通过声码器(Griffin-Lim算法)将Mel谱转化为语音。
在一种实施方式中,步骤S5中以解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,构建MSE损失函数,公式为:
Figure BDA0003135127370000111
式中,
Figure BDA0003135127370000112
代表模型重建出的语音Mel谱,yi代表真实语音Mel谱,n代表样本对的个数。
相对于现有技术,本发明的有益效果是:
在深度学习的序列到序列编解码器模型基础上,融入了时间金字塔和注意力机制在捕捉时间特征方面的优良特性,提出了基于多尺度视频特征融合的语音唇读方法。通过挖掘视频信号中的动态信息,在语音重建清晰度和表现力方面有较大的提升,填补了语音唇读技术缺乏考虑利用视频数据中动态信息的方案空白。
实施例二
基于同样的发明构思,本实施例提供了一种基于多尺度视频特征融合的语音唇读系统,包括:
视频数据获取模块,用于获取大量的说话人说话视频数据集;
语音分离模块,用于从获取的视频数据集中提取出视频帧和语音数据;
语音特征提取模块,用于从语音数据中提取出Mel谱;
语音唇读模型构建模块,用于构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
模型训练模块,用于将语音分离模块中提取出的视频帧作为训练数据,将解码器重建出的语音Mel谱和语音特征提取模块中提取出的Mel谱之间的MSE损失最小化为目标,对语音唇读模型进行训练,得到训练好的语音唇读模型;
语音识别模块,用于利用训练好的语音唇读模型对输入的视频进行语音识别。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于多尺度视频特征融合的语音唇读所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于多尺度视频特征融合的语音唇读方法,其特征在于,包括:
S1:获取大量的说话人说话视频数据集;
S2:从获取的视频数据集中提取出视频帧和语音数据;
S3:从语音数据中提取出Mel谱;
S4:构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
S5:将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练,将解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,得到训练好的语音唇读模型;
S6:利用训练好的语音唇读模型对输入的视频进行语音识别。
2.如权利要求1所述的语音唇读方法,其特征在于,在将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练之前,所述方法还包括:
采用人脸对齐工具,检测视频帧中的人脸特征点,并剪裁成预设大小。
3.如权利要求1所述的语音唇读方法,其特征在于,步骤S2中位置编码模块的处理过程包括:
学习一个函数Gspe(·),将每一个位置索引映射到具有相同长度的片段特征向量中,带有位置信息的特征向量表示为
Figure FDA0003135127360000011
其中,Gspe(·)为一个正余弦函数,两个位置之间的关系可以通过他们位置编码间的仿射变换来建模获得,
Figure FDA0003135127360000012
表示不带位置信息的特征向量,k表示每一帧在序列中的位置。
4.如权利要求1所述的语音唇读方法,其特征在于,步骤S2中多尺度特征融合模块采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,包括:
首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合,再利用自注意力将各时间金字塔的特征进行融合;
其中,点乘注意力使中间隐向量考虑到局部信息,自注意力使得中间隐向量考虑非局部的上下文信息的影响,点乘注意力公式如公式(1)~(4)所示、自注意力公式如下(5)~(6)所示:
Figure FDA0003135127360000021
Figure FDA0003135127360000022
Figure FDA0003135127360000023
Figure FDA0003135127360000024
Figure FDA0003135127360000025
h=[h0,h1,...,hL-1],hk∈RD......(6)
公式(1)为一个时间金字塔在共享特征空间中的向量表示,Wg为线性映射函数,z0...zp-1表示构成时间金字塔的各视频片段;公式(2)为一个时间金字塔的构造,其中,
Figure FDA0003135127360000026
Figure FDA0003135127360000027
分别表示带有各自位置编码的
Figure FDA0003135127360000028
片段和ψ片段的向量表示,
Figure FDA0003135127360000029
表示一个以
Figure FDA00031351273600000210
为主片段的时间金字塔,M为片段所包含的视频帧数;公式(3)中,ck是通过点乘注意力计算出来的注意力分数,Wg为线性映射函数,Wg∈RD'×D将向量映射到共享特征空间RD'
Figure FDA00031351273600000211
代表视频的k+1个主片段特征;公式(4)将计算出来的注意力用Softmax函数进行归一化,得到符合概率分布取值区间的注意力分配概率分布数值,d为Q和K向量的维度,其中,公式(3)中的
Figure FDA00031351273600000212
Zk、Zk分别对应公式(4)中的Q、K、V;公式(5)为自注意力计算出来的注意力分数,其中,We为权重,通过网络训练得到的,h为所有时间金字塔表示集合的矩阵;为得到更具表现力的特征,添加两个线性层W1和W2,两个线性层中间加入GELU激活函数,公式(6)中hk=W2·GELU(W1ck+b1)+b2,b1∈RD,b2∈RD,其中,b1和b2分别代表线性层W1和W2的偏差,hk表示第k个时间金字塔的表示。
5.如权利要1所述的语音唇读方法,其特征在于,步骤S2解码器包括一个前处理网络、两层LSTM和一个位置敏感的注意力层。
6.如权利要1所述的语音唇读方法,其特征在于,步骤S5中以解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,构建MSE损失函数,公式为:
Figure FDA0003135127360000031
式中,
Figure FDA0003135127360000032
代表模型重建出的语音Mel谱,yi代表真实语音Mel谱,n代表样本对的个数。
7.一种基于多尺度视频特征融合的语音唇读系统,其特征在于,包括:
视频数据获取模块,用于获取大量的说话人说话视频数据集;
语音分离模块,用于从获取的视频数据集中提取出视频帧和语音数据;
语音特征提取模块,用于从语音数据中提取出Mel谱;
语音唇读模型构建模块,用于构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
模型训练模块,用于将语音分离模块中提取出的视频帧作为训练数据,将解码器重建出的语音Mel谱和语音特征提取模块中提取出的Mel谱之间的MSE损失最小化为目标,对语音唇读模型进行训练,得到训练好的语音唇读模型;
语音识别模块,用于利用训练好的语音唇读模型对输入的视频进行语音识别。
CN202110716761.7A 2021-06-28 2021-06-28 一种基于多尺度视频特征融合的语音唇读方法及系统 Active CN113450824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110716761.7A CN113450824B (zh) 2021-06-28 2021-06-28 一种基于多尺度视频特征融合的语音唇读方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110716761.7A CN113450824B (zh) 2021-06-28 2021-06-28 一种基于多尺度视频特征融合的语音唇读方法及系统

Publications (2)

Publication Number Publication Date
CN113450824A true CN113450824A (zh) 2021-09-28
CN113450824B CN113450824B (zh) 2022-08-16

Family

ID=77813343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110716761.7A Active CN113450824B (zh) 2021-06-28 2021-06-28 一种基于多尺度视频特征融合的语音唇读方法及系统

Country Status (1)

Country Link
CN (1) CN113450824B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581812A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 视觉语言识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
CN108664877A (zh) * 2018-03-09 2018-10-16 北京理工大学 一种基于三维深度数据的动态手势识别方法
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
CN108664877A (zh) * 2018-03-09 2018-10-16 北京理工大学 一种基于三维深度数据的动态手势识别方法
CN109524006A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN112330713A (zh) * 2020-11-26 2021-02-05 南京工程学院 基于唇语识别的重度听障患者言语理解度的改进方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑红娜等: "基于发音轨迹的可视语音合成", 《计算机应用与软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581812A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 视觉语言识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113450824B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN113192161B (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN109308731B (zh) 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN113378697B (zh) 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
CN112381040B (zh) 一种基于语音和人脸图像的跨模态生成方法
CN111666831A (zh) 一种基于解耦表示学习的说话人脸视频生成方法
CN108648745B (zh) 一种由唇部图像序列到语音编码参数的转换方法
CN113838174A (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
CN115376482A (zh) 面部动作视频生成方法及装置、可读介质和电子设备
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Kumar et al. Robust one shot audio to video generation
CN111488486B (zh) 一种基于多音源分离的电子音乐分类方法及系统
CN116233567B (zh) 一种基于音频情感感知的说话人脸视频生成方法及系统
CN113628635B (zh) 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN117237521A (zh) 语音驱动人脸生成模型构建方法、目标人说话视频生成方法
CN116958343A (zh) 面部动画生成方法、装置、设备、介质及程序产品
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Maniyar et al. Persons facial image synthesis from audio with Generative Adversarial Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231123

Address after: 401135 No. 618 Liangjiang Avenue, Longxing Town, Yubei District, Chongqing

Patentee after: Chongqing Research Institute of Wuhan University of Technology

Address before: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee before: WUHAN University OF TECHNOLOGY

TR01 Transfer of patent right

Effective date of registration: 20240511

Address after: No. 19 Zhuoyue Road, Longxing Town, Yubei District, Chongqing, 404100 (cluster registration)

Patentee after: Chongqing Wurong Technology Co.,Ltd.

Country or region after: China

Address before: 401135 No. 618 Liangjiang Avenue, Longxing Town, Yubei District, Chongqing

Patentee before: Chongqing Research Institute of Wuhan University of Technology

Country or region before: China