CN111931736A - 利用非自回归模型与整合放电技术的唇语识别方法、系统 - Google Patents
利用非自回归模型与整合放电技术的唇语识别方法、系统 Download PDFInfo
- Publication number
- CN111931736A CN111931736A CN202011030959.1A CN202011030959A CN111931736A CN 111931736 A CN111931736 A CN 111931736A CN 202011030959 A CN202011030959 A CN 202011030959A CN 111931736 A CN111931736 A CN 111931736A
- Authority
- CN
- China
- Prior art keywords
- sequence
- autoregressive
- lip
- model
- lip language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005516 engineering process Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000003062 neural network model Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000007599 discharging Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000002789 length control Methods 0.000 claims description 2
- 238000010408 sweeping Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000002536 laser-induced breakdown spectroscopy Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用非自回归模型与整合放电技术的唇语识别方法、系统,属于唇语识别领域。主要包括如下步骤:1)获取唇语识别训练样本集;2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块,并在训练过程中引入两个辅助解码器。3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的模型生成唇语识别结果。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系,采用辅助连接时序分类解码器及辅助自回归解码器强化编码器的图像特征表示能力,采用噪声并行解码技术与字节对编码技术减轻唇语识别固有的歧义性问题,实现了良好的并行性,有效提升了唇语识别的性能。
Description
技术领域
本发明涉及唇语识别,尤其涉及一种利用非自回归模型与整合放电技术的唇语识别方法、系统。
背景技术
唇语识别是计算机视觉领域中的一个难点,也是语音识别领域一个重要的发展方向,其目标是针对于给定的包含发言者嘴型的一段视频或者一组连续的图片,预测发言者正在说的话。
近年来唇语识别技术的准确度有了明显的提高。但是,现有的唇语识别技术主要建立在自回归模型的基础上,在识别过程中需要逐一生成目标词条,具有较高的推测延迟。而现有的非自回归模型面临着如下的一系列挑战。
(1)输入视频帧和目标文本词条之间的序列长度存在很大差异,因此在推断阶段很难估计输出序列的长度或定义正确的解码器输入。
(2)真实的目标序列分布在整个时间上显示出很强的相关性,但是非自回归模型通常会在条件上彼此独立地生成目标标记,因而会产生重复的单词。
(3)模型缺乏有效的对齐机制,因此若仅训练原始非自回归模型,编码器的特征表示能力很弱,更难以解决唇语识别中固有的歧义问题。
综上,现有的基于非自回归模型的唇语识别技术还不能有效地解决上述问题,导致了在文本复杂的情况下性能有限,难以满足高要求场景下的使用。
发明内容
本发明的目的在于解决现有技术中利用自回归模型进行唇语识别存在延迟性较高的问题,且目前针对唇语识别领域的非自回归模型技术还不成熟,依旧存在上述中的技术问题。因此,本发明提出一种利用非自回归模型与整合放电技术的唇语识别方法、系统。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系,采用一个辅助连接时序分类(CTC)解码器及一个辅助自回归解码器强化编码器的图像特征表示能力,采用NPD技术与BPE技术减轻唇语识别固有的歧义性问题,实现了良好的并行性,有效提升了唇语识别的性能。
为了实现上述目的,本发明具体采用如下技术方案:
一种利用非自回归模型与整合放电技术的唇语识别系统,包括如下步骤:
1)获取唇语识别训练样本集。
2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器。
具体为:
2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失。
2.2)将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对齐后的嵌入序列。
2.3)采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失;结合两个辅助损失和主损失,更新编码网络和解码网络的参数,得到最终的非自回归神经网络模型。
3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
本发明的另一目的在于提供一种利用非自回归模型与整合放电技术的唇语识别系统,用于实现上述的唇语识别方法,所述的唇语识别系统包括:
数据采集模块:用于获取源视频和对应的对齐文本。
数据预处理模块:其用于接收数据采集模块中的数据,并将源视频预处理为源图像序列,将对应的对齐文本预处理得到目标文本序列。
非自回归神经网络模块:其用于提取源图像序列的图像特征和位置编码,并进一步编码和解码,得到预测文本序列。
辅助解码模块:其用于对非自回归神经网络模块进行辅助训练。
训练模块:其用于在系统处于训练阶段时,根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练,训练结束后保存模型参数文件。
唇语识别任务执行模块:当接收到唇语识别任务信号时,读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
相对于传统方法,本发明有效提升了唇语识别的性能,具体体现在:
(1)针对传统方法无法很好处理输入帧和目标文本词条之间的序列长度差异问题以及目标序列分布的时间相关性问题,本发明对由编码网络得到的一系列权重嵌入序列进行缩放,在训练阶段,使缩放后的权重嵌入序列总和等于目标文本序列的长度,并利用整合放电模块对缩放后的权重嵌入序列进行扫描求和,通过定位声边界将连续视频信号编码为离散的词条嵌入,保留时序信息的同时直接对应于目标词条,有效地提高了模型估计输出序列的长度的能力,并减轻目标序列中时间相关性对模型并行识别正确率带来的影响。
(2)针对传统方法的编码器特征表示能力不强的问题,本发明在对编码网络进行训练时引入了辅助CTC解码器以及辅助自回归模型解码器,并通过额外的损失函数进行优化,有效提高了编码器的特征提取能力。
(3)针对传统方法无法很好处理唇语识别固有的歧义性问题以及拼写错误,本发明在整合放电模型中使用了NPD技术,确定一个集束尺寸来生成多个在预设区间内的整数偏移量,对生成的权重嵌入序列进行缩放,产生多个候选的权重嵌入序列。通过集束生成多组结果,再通过训练有素的自回归模型进行打分,保证了预测的准确性。
此外,本发明还将BPE应用于文本数据预处理中,压缩目标序列并使每个词条包含更多的语言信息,与传统字符级编码相比,减少了词条之间的依赖性,有效地减少了歧义和拼写带来的错误。
附图说明
图1是本发明所使用的带整合放电技术的非自回归神经网络的整体模型在训练阶段的示意图。
图2是本发明所使用的整合放电模块的处理流程。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明用带整合放电技术的非自回归神经网络进行唇语识别包括如下步骤:
步骤一、获取唇语识别训练样本集。
步骤二、建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器,得到训练好的非自回归神经网络模型。
步骤三、采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
在本发明的一项具体实施中,对步骤一的实施过程进行了介绍。
所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的,具体为:将一段源视频裁剪得到以嘴唇为中心的一组固定大小的唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列;每一个训练样本由一组唇形图像数据与真实的目标文本序列构成,唇形图像数据和真实的目标文本序列构成了唇语识别训练样本集。
在本发明的一项具体实施中,对步骤二的实施过程进行了介绍。
2.1)建立非自回归神经网络模型。
建立由特征提取网络、编码网络、解码网络和整合放电模块组成的网络模型。
所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层;特征提取网络是一个可以与编码-解码网络同时训练的时空卷积神经网络。
所述非自回归神经网络模型中的编码网络是由自注意力层与前馈层堆叠而成的,在本实施例中采用Transformer模型中的编码器,由N个编码子块堆叠构成。
所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成,解码子块的结构与编码子块的结构相同。在本实施例中采用的解码网络是将传统的Transformer解码网络删除相互注意力层后得到的,仅由自注意力层与前馈层堆叠而成。
2.2)对模型进行训练。
a. 编码网络处理流程:
采用唇语识别训练样本集对建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器,在本实施例中,所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器。
对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,经由编码网络输出编码结果,得到编码网络输出序列。
所述编码网络的输出有三个分支:
第一分支将编码网络输出序列传递至辅助连接时序分类解码器,结合真实的目标文本序列,得到CTC损失。
第二分支将编码网络输出序列传递至辅助自回归解码器,得到第一预测文本序列;将第一预测文本序列与真实的目标文本序列进行比较,得到辅助自回归损失。
第三分支将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对齐后的嵌入序列;对整合放电模块输出的对齐后的嵌入序列进行解码,得到第二预测文本序列;将第二预测文本序列与真实的目标文本序列进行比较,得到主损失。
在进行位置编码时,使用固定的位置嵌入公式提取其位置信息,所述位置嵌入公式具体为:
其中,pos表示所计算图像特征向量在整个图像特征序列中的位置,d model 表示模型图像特征向量的维度,其偶数维度与奇数维度的计算公式不同,i即图像特征向量的具体维度,其取值受限于d model 。
b. 辅助训练处理流程:
将编码网络输出序列传递到辅助CTC解码器与辅助自回归解码器中,用于辅助编码网络的训练,得到两个辅助损失。
在本发明实施例中,所述的辅助CTC解码器可以促使源图像特征序列与目标文本
序列的单调对齐,其具体为:引入一组中间表示路径φ(y),称为一个目标文本序列y的CTC
路径;每个CTC路径均由分散的目标文本词条和空格组成,可以通过删除重复的单词和空格
来归化为最终的目标文本序列y;y的似然可以计算为与其对应的所有CTC路径的概率之和:,其中,x为源序列;c为一组中间表示路径φ(y)中的其中一个CTC
路径,为源图像特征序列x对应CTC路径c的概率,为源图像特征序列x对应目标文本序列y的概率。
所述的辅助自回归解码器使用Teacher Forcing学习策略,其输入为训练样本集中的真实的目标文本序列,而非上一个状态的输出,以加快非自回归编码器的学习效率。
本发明使用额外的损失函数对辅助CTC解码器进
行优化,使用交叉熵来对辅助自回归解码器进行优化;其中,x
为源图像特征序列,y为目标文本序列,(X,Y)表示一批中的源视频帧和目标文本序列对的
集合,P(y|x)为基于源图像特征序列x预测出序列y的概率。
c. 解码网络阶段处理流程:
在辅助训练的同时,将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网
络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对齐后
的嵌入序列。在本实施例中,所述的预处理为对编码网络输出序列进行一维卷积与全连接,
得到权重嵌入序列。
在训练过程中,所述权重嵌入序列在经整合放电模块处理
前,会进行倍数的缩放,生成新的权重嵌入序列,其中,
是第i个缩放后的权重,是缩放前的权重嵌入序列中第i个权重,为目标标签的长
度;如此,序列总和等于,这将使整合放电模块使用正确的长度来预测序列f,有利于
交叉熵的训练。
如图2所示,自左向右遍历扫描并累加求和,当和达到预设阈值时(本实施例中
取1.0),意味着模块检测到了一个声学边界,此时,将最后一个扫描到的拆分成和,其中,将用于当前轮次的整合放电,将用于下一轮次的整合放电。
重置累加求和结果并继续扫描,生成新的权重嵌入序列,k=1,2,…K;K>m,
且对于拆分后的,;对于第k轮整合放电,计算,为第k轮整合放电对应的下标集合;按照整合放电轮次进行整合,最终生成对齐后的嵌入序列。
采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失。
在本发明的一项具体实施中,所述解码网络接收整合放电模块生成的对齐后的嵌
入序列作为输入,生成对应的文本词条;对
于生成对应的文本词条,使用交叉熵损失函数进行评估;至此,本发明一共涉及三个损失函数,在编码-解
码网络训练过程中,结合两个辅助损失和主损失,使用总损失函数更新网络的参数,得到最终的非自回归神经网络模型;其中,为三个控制损失函数的超参数,在训练的不同阶段有着不同的设置,为辅助
连接时序分类解码器的损失,为辅助自回归解码器的损失,为主解码器的损失。
在本发明的一项具体实施中,对步骤三的实施过程进行了介绍。
采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
具体为:
3.2)整合放电模块会采用NPD技术,确定一个集束尺寸B,通过长度控制生成2B+1
个[-B,B]之间的整数偏移量,对待预测权重嵌入序列进行缩
放,具体为:,Z表示整数集合;生成2B+1个候选权重
嵌入序列;在本实施中,B取值为4。
3.3)对于2B+1个候选权重嵌入序列,与编码网络输出序列共同传递至整合放电模块并行处理,再经解码网络生成2B+1个预测文本序列;采用训练成熟的AR模型对2B+1个预测文本序列进行评分,选择得分最高的预测文本作为最终的唇语识别结果。
在本实施例中,采用一个训练成熟的自回归模型中进行打分,并按照选择最优者输出;其中,为序列A被自
回归模型生成的概率,表示给定源语句x和权重嵌入序列w时FastLR模型可以生
成的最优解,θ为模型参数。
在本发明的一项具体实施中,还提出了一种利用非自回归模型与整合放电技术的唇语识别系统,包括:
数据采集模块:用于获取源视频和对应的对齐文本。
数据预处理模块:其用于接收数据采集模块中的数据,并将源视频预处理为源图像序列,将对应的对齐文本预处理得到目标文本序列。具体的预处理流程为:将一段源视频裁剪得到以嘴唇为中心的一组唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列。
非自回归神经网络模块:其用于提取源图像序列的图像特征和位置编码,并进一步编码和解码,得到预测文本序列。
辅助解码模块:其用于对非自回归神经网络模块进行辅助训练。
训练模块:其用于在系统处于训练阶段时,根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练,训练结束后保存模型参数文件。
唇语识别任务执行模块:当接收到唇语识别任务信号时,读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
其中,所述的非自回归神经网络模块中配置有非自回归神经网络模型,具体包括:
特征提取网络子模块,由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层构成,其用于提取源图像序列的图像特征和位置编码。
编码网络子模块,其用于对源图像特征序列进一步编码。
整合放电模块,其用于对编码网络输出序列和经过预处理后得到的权重嵌入序列进行对齐处理,生成对齐后的嵌入序列。
解码网络子模块,其用于对对齐后的嵌入序列进行解码。
所述的预处理后得到的权重嵌入序列由一个编码后处理模块执行,具体执行过程如下:
将编码网络输出序列依次经过一维卷积层和全连接层处理,得到权重嵌入序列w。
在系统处于训练阶段时,对权重嵌入序列w进行缩放,得到缩放后的权重嵌入序列,缩放倍数为,为目标文本序列的长度。然后自左向右遍历扫描并累加求
和,当和达到预设阈值时,将当前时刻扫描的拆分成和,其中,将用于当前
轮次的整合放电,将用于下一轮次的整合放电。
在系统处于识别阶段时,引入NPD技术,确定一个集束尺寸来生成多个在预设区间内的整数偏移量,对生成的权重嵌入序列进行缩放,产生多个候选的权重嵌入序列。
其中,所述的唇语识别任务执行模块包括:
模型文件执行模块:用于读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
评判模块:其用于对多个候选识别结果进行打分,选择得分最高的预测文本作为最终的唇语识别结果。所述打分的方式不限,在本实施中,采用训练成熟的AR模型进行评判。
在本申请所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述非自回归神经网络模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在GRID以及LRS2数据集上面进行实验验证,下面是两个数据集的基本情况介绍。
表1 数据集
数据集 | 句子数 | 词数 | 词汇表大小 | 时长(小时) |
GRID | 33k | 165k | 51 | 27.5 |
LRS2(仅训练与验证集) | 47k | 337k | 18k | 29 |
本发明对两个数据集有着不同的处理方法:
对于GRID数据集,本发明采用与Assael等人相同的分割方法,从每个说话者中选择255个随机句子进行评估;在图像预处理方面,将图像先转换为灰度图,然后使用Dlib面部检测器将视频图像裁剪为包含嘴巴区域的100×50固定大小;在本文预处理方面,由于GRID数据集的词汇量很小,且大多数单词都很简单,因此本发明不在GRID上应用字节对编码,只在字符级别编码目标序列;在神经网络方面,使用本发明所述的时空卷积神经网络提取图像特征,并与编码-解码神经网络共同训练。
对于LRS2数据集,本发明将数据集划分成三部分,训练集、验证集和测试集分别包含46k个、1082个、1243个句子,在图像预处理方面,将图像转为灰度图,并在中央裁剪为114×114固定大小的图像;在文本预处理方面,使用BPE技术将词划分为子词,并将词汇表尺寸缩小为1k;在神经网络方面,使用Afouras等人在非公开数据集MV-LRS上预训练的视觉前端捕捉视觉特征,并不与编码-解码网络一起训练。
本发明将去掉整合放电模块并在解码网络中加入相互注意力层的非自回归网络
模型NAR-LR作为基准线,采用字错误率和字符错误率进行准确率评分,计算方式均可使用计算,其中,S, D, I分别为替换,删除,插入的字或字符
数量,N为替换、删除、正确的字或字符数量之和。
下面是在两个数据集上的测试准确率:
表2 在GRID数据集上的对比效果
表3 在LRS2数据集上的对比效果
如表2和表3所示,不同于自回归算法逐个识别单词,非自回归模型在预测阶段并行生成所有单词,这对非自回归模型的序列对齐能力是一个很大的挑战,也导致了非自回归模型对上下文信息的利用远不如自回归模型,使得唇语识别的歧义性更加严重。故而非自回归模型在提高翻译速度的同时,牺牲了一定的翻译准确率。然而,从上述数据结果可以见得,本发明在识别准确率方面已经超过了一部分传统的自回归算法,如WAS以及BLSTM+CTC,且与经典自回归算法LipNet及LIBS有着相当的性能,并比非自回归模型的基准线高出了一大截。
本发明以时下热门的自回归TM-seq2seq模型为基准,在LRS2数据集的测试阶段加速情况。
表4 在LRS2数据集的测试阶段加速效果
从表4结果可知,本发明通过非自回归的方式,极大地提高了唇语识别的速率,与TM-seq2seq算法相比提高了5.81倍,且只损失了5.5%的精确度。
本发明通过消融实验验证本发明所采用技术的合理性与必要性。
表5 消融实验结果
通过表5的结果可知,本发明在识别速度方面较自回归模型有了极大的提升,体现出非自回归模型的高效并行性,且在准确率方面也接近了一些自回归模型。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于包括如下步骤:
1)获取唇语识别训练样本集;
2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器;所述的步骤2)具体包括如下步骤:
2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失;
2.2)将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理,生成对齐后的嵌入序列;
2.3)采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失;结合两个辅助损失和主损失,更新编码网络和解码网络的参数,得到最终的非自回归神经网络模型;
3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
2.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的,具体为:将一段源视频裁剪得到以嘴唇为中心的一组唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列;每一个训练样本由一组唇形图像数据与真实的目标文本序列构成。
3.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层;
所述非自回归神经网络模型中的编码网络采用Transformer模型中的编码器,由N个编码子块堆叠构成;
所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成,解码子块的结构与编码子块的结构相同。
4.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器。
5.根据权利要求4所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述编码网络的输出有三个分支:
第一分支将编码网络输出序列传递至辅助连接时序分类解码器,结合真实的目标文本序列,得到CTC损失;
第二分支将编码网络输出序列传递至辅助自回归解码器,得到第一预测文本序列;将第一预测文本序列与真实的目标文本序列进行比较,得到辅助自回归损失;
第三分支将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理,生成对齐后的嵌入序列;对整合放电模块输出的对齐后的嵌入序列进行解码,得到第二预测文本序列;将第二预测文本序列与真实的目标文本序列进行比较,得到主损失;
用于训练非自回归神经网络模型的总损失函数如下:
L=λ 1 L ctc +λ 2 L AR +λ 3 L FLR
其中,λ 1,λ 2,λ 3是超参数,L ctc 为辅助连接时序分类解码器的损失,L AR 为辅助自回归解码器的损失,L FLR 为主解码器的损失。
6.根据权利要求4所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的辅助自回归解码器采用Transformer模型中的解码器,并使用TeacherForcing学习策略,将真实的目标文本序列作为输入,以交叉熵作为损失函数进行训练。
7.根据权利要求4所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的辅助连接时序分类解码器用于将编码网络输出序列映射到目标文本序列,具体为:
引入一组中间表示路径φ(y),y是目标文本序列,所述的中间表示路径为目标文本序列的CTC路径,每个CTC路径均由分散的目标文本序列中的单词和空格组成;
采用CTC损失来优化CTC路径,CTC损失函数为:
其中,(X,Y)表示唇形图像数据与真实的目标文本序列对的集合,即唇语识别训练样本集;(x,y)表示一组唇形图像数据与真实的目标文本序列,即一个样本对。
8.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,步骤2.2)具体为:
9.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,步骤3)具体为:
3.3)对于2B+1个候选权重嵌入序列,与编码网络输出序列共同传递至整合放电模块并行处理,再经解码网络生成2B+1个预测文本序列;采用训练成熟的AR模型对2B+1个预测文本序列进行评分,选择得分最高的预测文本作为最终的唇语识别结果。
10.一种利用非自回归模型与整合放电技术的唇语识别系统,其特征在于,用于实现权利要求1所述的唇语识别方法,所述的唇语识别系统包括:
数据采集模块:用于获取源视频和对应的对齐文本;
数据预处理模块:其用于接收数据采集模块中的数据,并将源视频预处理为源图像序列,将对应的对齐文本预处理得到目标文本序列;
非自回归神经网络模块:其用于提取源图像序列的图像特征和位置编码,并进一步编码和解码,得到预测文本序列;
辅助解码模块:其用于对非自回归神经网络模块进行辅助训练;
训练模块:其用于在系统处于训练阶段时,根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练,训练结束后保存模型参数文件;
唇语识别任务执行模块:当接收到唇语识别任务信号时,读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030959.1A CN111931736B (zh) | 2020-09-27 | 2020-09-27 | 利用非自回归模型与整合放电技术的唇语识别方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030959.1A CN111931736B (zh) | 2020-09-27 | 2020-09-27 | 利用非自回归模型与整合放电技术的唇语识别方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931736A true CN111931736A (zh) | 2020-11-13 |
CN111931736B CN111931736B (zh) | 2021-01-19 |
Family
ID=73334275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011030959.1A Active CN111931736B (zh) | 2020-09-27 | 2020-09-27 | 利用非自回归模型与整合放电技术的唇语识别方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931736B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488063A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多阶段聚合Transformer模型的视频语句定位方法 |
CN113313064A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 字符识别方法、装置、可读介质及电子设备 |
CN113435421A (zh) * | 2021-08-26 | 2021-09-24 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN113657253A (zh) * | 2021-08-16 | 2021-11-16 | 浙江大学 | 使用注意力引导自适应记忆的实时唇语识别方法和系统 |
CN113920362A (zh) * | 2021-10-01 | 2022-01-11 | 上海梦象智能科技有限公司 | 一种基于注意力的非侵入式负荷分解方法 |
CN114065784A (zh) * | 2021-11-16 | 2022-02-18 | 北京百度网讯科技有限公司 | 训练方法、译文方法、装置、电子设备以及存储介质 |
CN114203170A (zh) * | 2021-12-16 | 2022-03-18 | 董立波 | 基于非自回归模型的流式语音识别系统及方法 |
CN114819079A (zh) * | 2022-04-25 | 2022-07-29 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
WO2022257454A1 (zh) * | 2021-06-09 | 2022-12-15 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN116959060A (zh) * | 2023-04-20 | 2023-10-27 | 湘潭大学 | 一种面向医院环境下语言障碍患者的唇语识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300788A1 (en) * | 2014-01-30 | 2017-10-19 | Hrl Laboratories, Llc | Method for object detection in digital image and video using spiking neural networks |
CN111178157A (zh) * | 2019-12-10 | 2020-05-19 | 浙江大学 | 一种基于音调的级联序列到序列模型的中文唇语识别方法 |
CN111310816A (zh) * | 2020-02-07 | 2020-06-19 | 天津大学 | 基于无监督匹配追踪编码的仿脑架构图像识别方法 |
-
2020
- 2020-09-27 CN CN202011030959.1A patent/CN111931736B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300788A1 (en) * | 2014-01-30 | 2017-10-19 | Hrl Laboratories, Llc | Method for object detection in digital image and video using spiking neural networks |
CN111178157A (zh) * | 2019-12-10 | 2020-05-19 | 浙江大学 | 一种基于音调的级联序列到序列模型的中文唇语识别方法 |
CN111310816A (zh) * | 2020-02-07 | 2020-06-19 | 天津大学 | 基于无监督匹配追踪编码的仿脑架构图像识别方法 |
Non-Patent Citations (1)
Title |
---|
JINGLIN LIU等: "FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire", 《ARXIV》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488063B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于多阶段聚合Transformer模型的视频语句定位方法 |
CN112488063A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多阶段聚合Transformer模型的视频语句定位方法 |
WO2022257454A1 (zh) * | 2021-06-09 | 2022-12-15 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN113313064A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 字符识别方法、装置、可读介质及电子设备 |
CN113657253A (zh) * | 2021-08-16 | 2021-11-16 | 浙江大学 | 使用注意力引导自适应记忆的实时唇语识别方法和系统 |
CN113657253B (zh) * | 2021-08-16 | 2023-12-05 | 浙江大学 | 使用注意力引导自适应记忆的实时唇语识别方法和系统 |
CN113435421A (zh) * | 2021-08-26 | 2021-09-24 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN113920362A (zh) * | 2021-10-01 | 2022-01-11 | 上海梦象智能科技有限公司 | 一种基于注意力的非侵入式负荷分解方法 |
CN114065784A (zh) * | 2021-11-16 | 2022-02-18 | 北京百度网讯科技有限公司 | 训练方法、译文方法、装置、电子设备以及存储介质 |
CN114065784B (zh) * | 2021-11-16 | 2023-03-10 | 北京百度网讯科技有限公司 | 训练方法、译文方法、装置、电子设备以及存储介质 |
CN114203170A (zh) * | 2021-12-16 | 2022-03-18 | 董立波 | 基于非自回归模型的流式语音识别系统及方法 |
CN114819079A (zh) * | 2022-04-25 | 2022-07-29 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN116959060A (zh) * | 2023-04-20 | 2023-10-27 | 湘潭大学 | 一种面向医院环境下语言障碍患者的唇语识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111931736B (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931736B (zh) | 利用非自回归模型与整合放电技术的唇语识别方法、系统 | |
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN110164476A (zh) | 一种基于多输出特征融合的blstm的语音情感识别方法 | |
CN112037798A (zh) | 基于触发式非自回归模型的语音识别方法及系统 | |
CN113257248B (zh) | 一种流式和非流式混合语音识别系统及流式语音识别方法 | |
CN112257437B (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
Liu et al. | Unsupervised end-to-end learning of discrete linguistic units for voice conversion | |
CN110570845A (zh) | 一种基于域不变特征的语音识别方法 | |
CN115471851A (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN111861945A (zh) | 一种文本引导的图像修复方法和系统 | |
CN114092930B (zh) | 一种文字识别方法及系统 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
CN117789699B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN112489651B (zh) | 语音识别方法和电子设备、存储装置 | |
CN118038052A (zh) | 一种基于多模态扩散模型的抗差异医学图像分割方法 | |
CN116226357B (zh) | 一种输入中包含错误信息场景下的文档检索方法 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
CN111339782B (zh) | 一种基于多层次语义解析的手语翻译系统及方法 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |