CN111931736B - 利用非自回归模型与整合放电技术的唇语识别方法、系统 - Google Patents

利用非自回归模型与整合放电技术的唇语识别方法、系统 Download PDF

Info

Publication number
CN111931736B
CN111931736B CN202011030959.1A CN202011030959A CN111931736B CN 111931736 B CN111931736 B CN 111931736B CN 202011030959 A CN202011030959 A CN 202011030959A CN 111931736 B CN111931736 B CN 111931736B
Authority
CN
China
Prior art keywords
sequence
autoregressive
lip
model
lip language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011030959.1A
Other languages
English (en)
Other versions
CN111931736A (zh
Inventor
赵洲
童鑫远
肖俊
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011030959.1A priority Critical patent/CN111931736B/zh
Publication of CN111931736A publication Critical patent/CN111931736A/zh
Application granted granted Critical
Publication of CN111931736B publication Critical patent/CN111931736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用非自回归模型与整合放电技术的唇语识别方法、系统,属于唇语识别领域。主要包括如下步骤:1)获取唇语识别训练样本集;2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块,并在训练过程中引入两个辅助解码器。3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的模型生成唇语识别结果。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系,采用辅助连接时序分类解码器及辅助自回归解码器强化编码器的图像特征表示能力,采用噪声并行解码技术与字节对编码技术减轻唇语识别固有的歧义性问题,实现了良好的并行性,有效提升了唇语识别的性能。

Description

利用非自回归模型与整合放电技术的唇语识别方法、系统
技术领域
本发明涉及唇语识别,尤其涉及一种利用非自回归模型与整合放电技术的唇语识别方法、系统。
背景技术
唇语识别是计算机视觉领域中的一个难点,也是语音识别领域一个重要的发展方向,其目标是针对于给定的包含发言者嘴型的一段视频或者一组连续的图片,预测发言者正在说的话。
近年来唇语识别技术的准确度有了明显的提高。但是,现有的唇语识别技术主要建立在自回归模型的基础上,在识别过程中需要逐一生成目标词条,具有较高的推测延迟。而现有的非自回归模型面临着如下的一系列挑战。
(1)输入视频帧和目标文本词条之间的序列长度存在很大差异,因此在推断阶段很难估计输出序列的长度或定义正确的解码器输入。
(2)真实的目标序列分布在整个时间上显示出很强的相关性,但是非自回归模型通常会在条件上彼此独立地生成目标标记,因而会产生重复的单词。
(3)模型缺乏有效的对齐机制,因此若仅训练原始非自回归模型,编码器的特征表示能力很弱,更难以解决唇语识别中固有的歧义问题。
综上,现有的基于非自回归模型的唇语识别技术还不能有效地解决上述问题,导致了在文本复杂的情况下性能有限,难以满足高要求场景下的使用。
发明内容
本发明的目的在于解决现有技术中利用自回归模型进行唇语识别存在延迟性较高的问题,且目前针对唇语识别领域的非自回归模型技术还不成熟,依旧存在上述中的技术问题。因此,本发明提出一种利用非自回归模型与整合放电技术的唇语识别方法、系统。本发明采用整合放电技术模拟源视频帧与输出文本序列之间的对应关系,采用一个辅助连接时序分类(CTC)解码器及一个辅助自回归解码器强化编码器的图像特征表示能力,采用NPD技术与BPE技术减轻唇语识别固有的歧义性问题,实现了良好的并行性,有效提升了唇语识别的性能。
为了实现上述目的,本发明具体采用如下技术方案:
一种利用非自回归模型与整合放电技术的唇语识别系统,包括如下步骤:
1)获取唇语识别训练样本集。
2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器。
具体为:
2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失。
2.2)将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对齐后的嵌入序列。
2.3)采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失;结合两个辅助损失和主损失,更新编码网络和解码网络的参数,得到最终的非自回归神经网络模型。
3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
本发明的另一目的在于提供一种利用非自回归模型与整合放电技术的唇语识别系统,用于实现上述的唇语识别方法,所述的唇语识别系统包括:
数据采集模块:用于获取源视频和对应的对齐文本。
数据预处理模块:其用于接收数据采集模块中的数据,并将源视频预处理为源图像序列,将对应的对齐文本预处理得到目标文本序列。
非自回归神经网络模块:其用于提取源图像序列的图像特征和位置编码,并进一步编码和解码,得到预测文本序列。
辅助解码模块:其用于对非自回归神经网络模块进行辅助训练。
训练模块:其用于在系统处于训练阶段时,根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练,训练结束后保存模型参数文件。
唇语识别任务执行模块:当接收到唇语识别任务信号时,读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
相对于传统方法,本发明有效提升了唇语识别的性能,具体体现在:
(1)针对传统方法无法很好处理输入帧和目标文本词条之间的序列长度差异问题以及目标序列分布的时间相关性问题,本发明对由编码网络得到的一系列权重嵌入序列进行缩放,在训练阶段,使缩放后的权重嵌入序列总和等于目标文本序列的长度,并利用整合放电模块对缩放后的权重嵌入序列进行扫描求和,通过定位声边界将连续视频信号编码为离散的词条嵌入,保留时序信息的同时直接对应于目标词条,有效地提高了模型估计输出序列的长度的能力,并减轻目标序列中时间相关性对模型并行识别正确率带来的影响。
(2)针对传统方法的编码器特征表示能力不强的问题,本发明在对编码网络进行训练时引入了辅助CTC解码器以及辅助自回归模型解码器,并通过额外的损失函数进行优化,有效提高了编码器的特征提取能力。
(3)针对传统方法无法很好处理唇语识别固有的歧义性问题以及拼写错误,本发明在整合放电模型中使用了NPD技术,确定一个集束尺寸来生成多个在预设区间内的整数偏移量,对生成的权重嵌入序列进行缩放,产生多个候选的权重嵌入序列。通过集束生成多组结果,再通过训练有素的自回归模型进行打分,保证了预测的准确性。
此外,本发明还将BPE应用于文本数据预处理中,压缩目标序列并使每个词条包含更多的语言信息,与传统字符级编码相比,减少了词条之间的依赖性,有效地减少了歧义和拼写带来的错误。
附图说明
图1是本发明所使用的带整合放电技术的非自回归神经网络的整体模型在训练阶段的示意图。
图2是本发明所使用的整合放电模块的处理流程。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明用带整合放电技术的非自回归神经网络进行唇语识别包括如下步骤:
步骤一、获取唇语识别训练样本集。
步骤二、建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器,得到训练好的非自回归神经网络模型。
步骤三、采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
在本发明的一项具体实施中,对步骤一的实施过程进行了介绍。
所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的,具体为:将一段源视频裁剪得到以嘴唇为中心的一组固定大小的唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列;每一个训练样本由一组唇形图像数据与真实的目标文本序列构成,唇形图像数据和真实的目标文本序列构成了唇语识别训练样本集。
在本发明的一项具体实施中,对步骤二的实施过程进行了介绍。
2.1)建立非自回归神经网络模型。
建立由特征提取网络、编码网络、解码网络和整合放电模块组成的网络模型。
所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层;特征提取网络是一个可以与编码-解码网络同时训练的时空卷积神经网络。
所述非自回归神经网络模型中的编码网络是由自注意力层与前馈层堆叠而成的,在本实施例中采用Transformer模型中的编码器,由N个编码子块堆叠构成。
所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成,解码子块的结构与编码子块的结构相同。在本实施例中采用的解码网络是将传统的Transformer解码网络删除相互注意力层后得到的,仅由自注意力层与前馈层堆叠而成。
2.2)对模型进行训练。
a. 编码网络处理流程:
采用唇语识别训练样本集对建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器,在本实施例中,所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器。
对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,经由编码网络输出编码结果,得到编码网络输出序列。
所述编码网络的输出有三个分支:
第一分支将编码网络输出序列传递至辅助连接时序分类解码器,结合真实的目标文本序列,得到CTC损失。
第二分支将编码网络输出序列传递至辅助自回归解码器,得到第一预测文本序列;将第一预测文本序列与真实的目标文本序列进行比较,得到辅助自回归损失。
第三分支将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对齐后的嵌入序列;对整合放电模块输出的对齐后的嵌入序列进行解码,得到第二预测文本序列;将第二预测文本序列与真实的目标文本序列进行比较,得到主损失。
在进行位置编码时,使用固定的位置嵌入公式提取其位置信息,所述位置嵌入公式具体为:
Figure 570934DEST_PATH_IMAGE001
其中,pos表示所计算图像特征向量在整个图像特征序列中的位置,d model 表示模型图像特征向量的维度,其偶数维度与奇数维度的计算公式不同,i即图像特征向量的具体维度,其取值受限于d model
b. 辅助训练处理流程:
将编码网络输出序列传递到辅助CTC解码器与辅助自回归解码器中,用于辅助编码网络的训练,得到两个辅助损失。
在本发明实施例中,所述的辅助CTC解码器可以促使源图像特征序列与目标文本 序列的单调对齐,其具体为:引入一组中间表示路径φ(y),称为一个目标文本序列y的CTC 路径;每个CTC路径均由分散的目标文本词条和空格组成,可以通过删除重复的单词和空格 来归化为最终的目标文本序列y;y的似然可以计算为与其对应的所有CTC路径的概率之和:
Figure 956916DEST_PATH_IMAGE002
,其中,x为源序列;c为一组中间表示路径φ(y)中的其中一个CTC路 径,
Figure 330129DEST_PATH_IMAGE003
为源图像特征序列x对应CTC路径c的概率,
Figure 459759DEST_PATH_IMAGE004
为源图像特征序列x对应目 标文本序列y的概率。
所述的辅助自回归解码器使用Teacher Forcing学习策略,其输入为训练样本集中的真实的目标文本序列,而非上一个状态的输出,以加快非自回归编码器的学习效率。
本发明使用额外的损失函数
Figure 8552DEST_PATH_IMAGE005
对辅助CTC解码器进行 优化,使用
Figure 175222DEST_PATH_IMAGE006
交叉熵来对辅助自回归解码器进行优化;其中,x为源图 像特征序列,y为目标文本序列,(X,Y)表示一批中的源视频帧和目标文本序列对的集合,P (y|x)为基于源图像特征序列x预测出序列y的概率。
c. 解码网络阶段处理流程:
在辅助训练的同时,将编码网络输出序列进行预处理,得到权重嵌入序列,并将编 码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块进一步处理,生成对 齐后的嵌入序列。在本实施例中,所述的预处理为对编码网络输出序列进行一维卷积与全 连接,得到权重嵌入序列
Figure 176676DEST_PATH_IMAGE007
在训练过程中,所述权重嵌入序列
Figure 969052DEST_PATH_IMAGE008
在经整合放电模块处理前,会 进行
Figure 106772DEST_PATH_IMAGE009
倍数的缩放,生成新的权重嵌入序列
Figure 834557DEST_PATH_IMAGE010
,其中,
Figure 933094DEST_PATH_IMAGE011
是第i个缩 放后的权重,
Figure 404526DEST_PATH_IMAGE012
是缩放前的权重嵌入序列中第i个权重,
Figure 521387DEST_PATH_IMAGE013
为目标标签
Figure 685652DEST_PATH_IMAGE014
的长度;如此,序列
Figure 396119DEST_PATH_IMAGE015
总和等于
Figure 12521DEST_PATH_IMAGE016
,这将使整合放电模块使用正确的长度来预测序列f,有利于交叉熵的训练。
如图2所示,自左向右遍历扫描
Figure 390413DEST_PATH_IMAGE011
并累加求和,当和达到预设阈值时(本实施例中 取1.0),意味着模块检测到了一个声学边界,此时,将最后一个扫描到的
Figure 460000DEST_PATH_IMAGE011
拆分成
Figure 782397DEST_PATH_IMAGE017
Figure 595632DEST_PATH_IMAGE018
,其中,
Figure 437817DEST_PATH_IMAGE017
将用于当前轮次的整合放电,
Figure 943885DEST_PATH_IMAGE018
将用于下一轮次的整合放电。
重置累加求和结果并继续扫描,生成新的权重嵌入序列
Figure 363365DEST_PATH_IMAGE019
k=1,2,…K;K>m,且 对于拆分后的
Figure 104925DEST_PATH_IMAGE020
Figure 926250DEST_PATH_IMAGE021
;对于第k轮整合放电,计算
Figure 603219DEST_PATH_IMAGE022
Figure 385361DEST_PATH_IMAGE023
为第k轮整 合放电对应的下标集合;按照整合放电轮次进行整合,最终生成对齐后的嵌入序列
Figure 540399DEST_PATH_IMAGE024
采用解码器网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失。
在本发明的一项具体实施中,所述解码网络接收整合放电模块生成的对齐后的嵌 入序列
Figure 747390DEST_PATH_IMAGE024
作为输入,生成对应的文本词条
Figure 454315DEST_PATH_IMAGE025
;对于生成对 应的文本词条
Figure 848387DEST_PATH_IMAGE025
,使用交叉熵损失函数
Figure 682482DEST_PATH_IMAGE026
进行 评估;至此,本发明一共涉及三个损失函数,在编码-解码网络训练过程中,结合两个辅助损 失和主损失,使用总损失函数
Figure 478399DEST_PATH_IMAGE027
更新网络的参数,得到最终的非自 回归神经网络模型;其中,
Figure 231592DEST_PATH_IMAGE028
为三个控制损失函数的超参数,在训练的不同阶段有着 不同的设置,
Figure 503173DEST_PATH_IMAGE029
为辅助连接时序分类解码器的损失,
Figure 14DEST_PATH_IMAGE030
为辅助自回归解码器的损失,
Figure 916017DEST_PATH_IMAGE031
为主解码器的损失。
在本发明的一项具体实施中,对步骤三的实施过程进行了介绍。
采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
具体为:
3.1)采集待预测语言的唇语视频并处理为连续的唇形图像数据,将训练好的非自 回归神经网络模型以连续的唇形图像作为输入,将编码网络输出序列进行预处理,得到待 预测权重嵌入序列
Figure 452827DEST_PATH_IMAGE032
3.2)整合放电模块会采用NPD技术,确定一个集束尺寸B,通过长度控制生成2B+1 个[-B,B]之间的整数偏移量
Figure 87071DEST_PATH_IMAGE033
,对待预测权重嵌入序列
Figure 246657DEST_PATH_IMAGE032
进行缩放,具 体为:
Figure 282746DEST_PATH_IMAGE034
,Z表示整数集合;生成2B+1个
Figure 112162DEST_PATH_IMAGE035
候选权重嵌 入序列;在本实施中,B取值为4。
3.3)对于2B+1个候选权重嵌入序列,与编码网络输出序列共同传递至整合放电模块并行处理,再经解码网络生成2B+1个预测文本序列;采用训练成熟的AR模型对2B+1个预测文本序列进行评分,选择得分最高的预测文本作为最终的唇语识别结果。
在本实施例中,采用一个训练成熟的自回归模型中进行打分,并按照
Figure 109068DEST_PATH_IMAGE036
选择最优者输出;其中,
Figure 947711DEST_PATH_IMAGE037
为序列A被自回归模 型生成的概率,
Figure 572727DEST_PATH_IMAGE038
表示给定源语句x和权重嵌入序列w时FastLR模型可以生成的最优 解,θ为模型参数。
在本发明的一项具体实施中,还提出了一种利用非自回归模型与整合放电技术的唇语识别系统,包括:
数据采集模块:用于获取源视频和对应的对齐文本。
数据预处理模块:其用于接收数据采集模块中的数据,并将源视频预处理为源图像序列,将对应的对齐文本预处理得到目标文本序列。具体的预处理流程为:将一段源视频裁剪得到以嘴唇为中心的一组唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列。
非自回归神经网络模块:其用于提取源图像序列的图像特征和位置编码,并进一步编码和解码,得到预测文本序列。
辅助解码模块:其用于对非自回归神经网络模块进行辅助训练。
训练模块:其用于在系统处于训练阶段时,根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练,训练结束后保存模型参数文件。
唇语识别任务执行模块:当接收到唇语识别任务信号时,读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
其中,所述的非自回归神经网络模块中配置有非自回归神经网络模型,具体包括:
特征提取网络子模块,由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层构成,其用于提取源图像序列的图像特征和位置编码。
编码网络子模块,其用于对源图像特征序列进一步编码。
整合放电模块,其用于对编码网络输出序列和经过预处理后得到的权重嵌入序列进行对齐处理,生成对齐后的嵌入序列。
解码网络子模块,其用于对对齐后的嵌入序列进行解码。
所述的预处理后得到的权重嵌入序列由一个编码后处理模块执行,具体执行过程如下:
将编码网络输出序列依次经过一维卷积层和全连接层处理,得到权重嵌入序列w
在系统处于训练阶段时,对权重嵌入序列w进行缩放,得到缩放后的权重嵌入序列
Figure 963257DEST_PATH_IMAGE039
,缩放倍数为
Figure 306514DEST_PATH_IMAGE040
Figure 824214DEST_PATH_IMAGE041
为目标文本序列的长度。然后自左向右遍历扫描
Figure 569316DEST_PATH_IMAGE042
并累加求和, 当和达到预设阈值时,将当前时刻扫描的
Figure 271693DEST_PATH_IMAGE042
拆分成
Figure 961300DEST_PATH_IMAGE017
Figure 407325DEST_PATH_IMAGE018
,其中,
Figure 741354DEST_PATH_IMAGE017
将用于当前轮次的整 合放电,
Figure 489999DEST_PATH_IMAGE018
将用于下一轮次的整合放电。
重置累加求和结果并继续扫描,生成新的权重嵌入序列
Figure 807848DEST_PATH_IMAGE043
,对于第k轮整合放 电,计算
Figure 526405DEST_PATH_IMAGE044
Figure 370733DEST_PATH_IMAGE045
为第k轮整合放电对应的下标集合;按照整合放电轮次进行整合, 最终生成对齐后的嵌入序列。
在系统处于识别阶段时,引入NPD技术,确定一个集束尺寸来生成多个在预设区间内的整数偏移量,对生成的权重嵌入序列进行缩放,产生多个候选的权重嵌入序列。
其中,所述的唇语识别任务执行模块包括:
模型文件执行模块:用于读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
评判模块:其用于对多个候选识别结果进行打分,选择得分最高的预测文本作为最终的唇语识别结果。所述打分的方式不限,在本实施中,采用训练成熟的AR模型进行评判。
在本申请所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述非自回归神经网络模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在GRID以及LRS2数据集上面进行实验验证,下面是两个数据集的基本情况介绍。
表1 数据集
数据集 句子数 词数 词汇表大小 时长(小时)
GRID 33k 165k 51 27.5
LRS2(仅训练与验证集) 47k 337k 18k 29
本发明对两个数据集有着不同的处理方法:
对于GRID数据集,本发明采用与Assael等人相同的分割方法,从每个说话者中选择255个随机句子进行评估;在图像预处理方面,将图像先转换为灰度图,然后使用Dlib面部检测器将视频图像裁剪为包含嘴巴区域的100×50固定大小;在本文预处理方面,由于GRID数据集的词汇量很小,且大多数单词都很简单,因此本发明不在GRID上应用字节对编码,只在字符级别编码目标序列;在神经网络方面,使用本发明所述的时空卷积神经网络提取图像特征,并与编码-解码神经网络共同训练。
对于LRS2数据集,本发明将数据集划分成三部分,训练集、验证集和测试集分别包含46k个、1082个、1243个句子,在图像预处理方面,将图像转为灰度图,并在中央裁剪为114×114固定大小的图像;在文本预处理方面,使用BPE技术将词划分为子词,并将词汇表尺寸缩小为1k;在神经网络方面,使用Afouras等人在非公开数据集MV-LRS上预训练的视觉前端捕捉视觉特征,并不与编码-解码网络一起训练。
本发明将去掉整合放电模块并在解码网络中加入相互注意力层的非自回归网络 模型NAR-LR作为基准线,采用字错误率和字符错误率进行准确率评分,计算方式均可使用
Figure 149333DEST_PATH_IMAGE046
计算,其中,S, D, I分别为替换,删除,插入的字或字符数量,N 为替换、删除、正确的字或字符数量之和。
下面是在两个数据集上的测试准确率:
表2 在GRID数据集上的对比效果
Figure 954478DEST_PATH_IMAGE047
表3 在LRS2数据集上的对比效果
Figure 349163DEST_PATH_IMAGE048
如表2和表3所示,不同于自回归算法逐个识别单词,非自回归模型在预测阶段并行生成所有单词,这对非自回归模型的序列对齐能力是一个很大的挑战,也导致了非自回归模型对上下文信息的利用远不如自回归模型,使得唇语识别的歧义性更加严重。故而非自回归模型在提高翻译速度的同时,牺牲了一定的翻译准确率。然而,从上述数据结果可以见得,本发明在识别准确率方面已经超过了一部分传统的自回归算法,如WAS以及BLSTM+CTC,且与经典自回归算法LipNet及LIBS有着相当的性能,并比非自回归模型的基准线高出了一大截。
本发明以时下热门的自回归TM-seq2seq模型为基准,在LRS2数据集的测试阶段加速情况。
表4 在LRS2数据集的测试阶段加速效果
Figure 923364DEST_PATH_IMAGE049
从表4结果可知,本发明通过非自回归的方式,极大地提高了唇语识别的速率,与TM-seq2seq算法相比提高了5.81倍,且只损失了5.5%的精确度。
本发明通过消融实验验证本发明所采用技术的合理性与必要性。
表5 消融实验结果
Figure 138444DEST_PATH_IMAGE050
通过表5的结果可知,本发明在识别速度方面较自回归模型有了极大的提升,体现出非自回归模型的高效并行性,且在准确率方面也接近了一些自回归模型。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (9)

1.一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于包括如下步骤:
1)获取唇语识别训练样本集;
2)建立非自回归神经网络模型,包括特征提取网络、编码网络、解码网络和整合放电模块;采用唇语识别训练样本集对步骤2)建立的非自回归神经网络模型进行训练,并在训练过程中引入两个辅助解码器;所述的两个辅助解码器分别为辅助连接时序分类解码器和辅助自回归解码器;所述的步骤2)具体包括如下步骤:
2.1)对一组唇形图像数据进行位置编码,然后采用特征提取网络获得唇形图像的图像特征,将位置编码信息和图像特征信息作为编码网络的输入,得到编码网络输出序列;将编码网络输出序列分别作为两个辅助解码器的输入,得到两个辅助损失;
2.2)将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理,生成对齐后的嵌入序列;
2.3)采用解码网络对整合放电模块输出的对齐后的嵌入序列进行解码,得到预测文本序列及其主损失;结合两个辅助损失和主损失,更新编码网络和解码网络的参数,得到最终的非自回归神经网络模型;
3)采集要预测语言的唇语视频并处理为连续的唇形图像数据,由训练好的非自回归神经网络模型生成唇语识别结果。
2.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的唇语识别训练样本集是由源视频和对应的对齐文本经预处理后得到的,具体为:将一段源视频裁剪得到以嘴唇为中心的一组唇形图像,每一帧对应一幅唇形图像,得到源图像序列,对文本数据采用BPE算法进行分词处理,得到对应该组唇形图像数据的目标文本序列;每一个训练样本由一组唇形图像数据与真实的目标文本序列构成。
3.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述非自回归神经网络模型中的特征提取网络由一个时空卷积神经网络构成,包含四层三维卷积层、三维池化层、RELU激活层和两层全连接层;
所述非自回归神经网络模型中的编码网络采用Transformer模型中的编码器,由N个编码子块堆叠构成;
所述非自回归神经网络模型中的解码网络由N个解码子块堆叠构成,解码子块的结构与编码子块的结构相同。
4.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述编码网络的输出有三个分支:
第一分支将编码网络输出序列传递至辅助连接时序分类解码器,结合真实的目标文本序列,得到辅助连接时序分类解码器的损失;
第二分支将编码网络输出序列传递至辅助自回归解码器,得到第一预测文本序列;将第一预测文本序列与真实的目标文本序列进行比较,得到辅助自回归解码器的损失;
第三分支将编码网络输出序列进行预处理,得到权重嵌入序列,并将编码网络输出序列和经缩放处理后的权重嵌入序列传递至整合放电模块处理,生成对齐后的嵌入序列;对整合放电模块输出的对齐后的嵌入序列进行解码,得到第二预测文本序列;将第二预测文本序列与真实的目标文本序列进行比较,得到主解码器的损失;
用于训练非自回归神经网络模型的总损失函数如下:
L=λ1Lctc2LAR3LFLR
其中,λ123是超参数,Lctc为辅助连接时序分类解码器的损失,LAR为辅助自回归解码器的损失,LFLR为主解码器的损失。
5.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的辅助自回归解码器采用Transformer模型中的解码器,并使用TeacherForcing学习策略,将真实的目标文本序列作为输入,以交叉熵作为损失函数进行训练。
6.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,所述的辅助连接时序分类解码器用于将编码网络输出序列映射到目标文本序列,具体为:
引入一组中间表示路径φ(y),y是目标文本序列,所述的中间表示路径为目标文本序列的CTC路径,每个CTC路径均由分散的目标文本序列中的单词和空格组成;
计算目标文本序列的似然:
Figure FDA0002812908710000031
其中,x为源图像特征序列,c为CTC路径,Pctc(c|x)为源图像特征序列x对应CTC路径c的概率,Pctc(y|x)为源图像特征序列x对应目标文本序列y的概率;
采用CTC损失来优化CTC路径,CTC损失函数为:
Figure FDA0002812908710000032
其中,(X,Y)表示唇形图像数据与真实的目标文本序列对的集合,即唇语识别训练样本集;(x,y)表示一组唇形图像数据与真实的目标文本序列,即一个样本对。
7.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,步骤2.2)具体为:
2.2.1)将编码网络输出序列h=(h1,h2,...,hm)依次经过一维卷积层和全连接层处理,得到权重嵌入序列w=(w1,w2,...,wm);
2.2.2)对权重嵌入序列进行缩放,得到缩放后的权重嵌入序列,表示为w′=(w′1,w′2,...,w′m),w′i是第i个缩放后的权重,缩放倍数为
Figure FDA0002812908710000033
Figure FDA0002812908710000034
为目标文本序列的长度,wi是缩放前的权重嵌入序列中第i个权重;
2.2.3)自左向右遍历扫描w′i并累加求和,当和达到预设阈值时,将当前时刻扫描的w′i拆分成w′i,1和w′i,2,其中,w′i,1将用于当前轮次的整合放电,w′i,2将用于下一轮次的整合放电;
2.2.4)重置累加求和结果并继续扫描,生成新的权重嵌入序列{w′k};对于第k轮整合放电,计算
Figure FDA0002812908710000035
Ak为第k轮整合放电对应的下标集合;按照整合放电轮次进行整合,最终生成对齐后的嵌入序列f=(f1,f2,...,fn)。
8.根据权利要求1所述的一种利用非自回归模型与整合放电技术的唇语识别方法,其特征在于,步骤3)具体为:
3.1)采集待预测语言的唇语视频并处理为连续的唇形图像数据,将训练好的非自回归神经网络模型以连续的唇形图像作为输入,将编码网络输出序列进行预处理,得到待预测权重嵌入序列
Figure FDA0002812908710000041
3.2)确定一个集束尺寸B,通过长度控制生成2B+1个[-B,B]之间的整数偏移量
Figure FDA0002812908710000042
对待预测权重嵌入序列
Figure FDA0002812908710000043
进行缩放,具体为:
Figure FDA0002812908710000044
Z表示整数集合;生成2B+1个
Figure FDA0002812908710000045
候选权重嵌入序列;
3.3)对于2B+1个候选权重嵌入序列,与编码网络输出序列共同传递至整合放电模块并行处理,再经解码网络生成2B+1个预测文本序列;采用训练成熟的AR模型对2B+1个预测文本序列进行评分,选择得分最高的预测文本作为最终的唇语识别结果。
9.一种利用非自回归模型与整合放电技术的唇语识别系统,其特征在于,用于实现权利要求1所述的唇语识别方法,所述的唇语识别系统包括:
数据采集模块:用于获取源视频和对应的对齐文本;
数据预处理模块:其用于接收数据采集模块中的数据,并将源视频预处理为源图像序列,将对应的对齐文本预处理得到目标文本序列;
非自回归神经网络模块:其用于提取源图像序列的图像特征和位置编码,并进一步编码和解码,得到预测文本序列;
辅助解码模块:其用于对非自回归神经网络模块进行辅助训练;
训练模块:其用于在系统处于训练阶段时,根据多任务损失函数对非自回归神经网络模块和辅助解码模块进行训练,训练结束后保存模型参数文件;
唇语识别任务执行模块:当接收到唇语识别任务信号时,读取数据预处理模块生成的待识别的源图像序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待识别的源图像序列作为模型输入,生成识别结果。
CN202011030959.1A 2020-09-27 2020-09-27 利用非自回归模型与整合放电技术的唇语识别方法、系统 Active CN111931736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030959.1A CN111931736B (zh) 2020-09-27 2020-09-27 利用非自回归模型与整合放电技术的唇语识别方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030959.1A CN111931736B (zh) 2020-09-27 2020-09-27 利用非自回归模型与整合放电技术的唇语识别方法、系统

Publications (2)

Publication Number Publication Date
CN111931736A CN111931736A (zh) 2020-11-13
CN111931736B true CN111931736B (zh) 2021-01-19

Family

ID=73334275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030959.1A Active CN111931736B (zh) 2020-09-27 2020-09-27 利用非自回归模型与整合放电技术的唇语识别方法、系统

Country Status (1)

Country Link
CN (1) CN111931736B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488063B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN113362804B (zh) * 2021-06-09 2024-03-19 平安科技(深圳)有限公司 一种合成语音的方法、装置、终端及存储介质
CN113313064A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 字符识别方法、装置、可读介质及电子设备
CN113657253B (zh) * 2021-08-16 2023-12-05 浙江大学 使用注意力引导自适应记忆的实时唇语识别方法和系统
CN113435421B (zh) * 2021-08-26 2021-11-05 湖南大学 一种基于跨模态注意力增强的唇语识别方法及系统
CN113920362A (zh) * 2021-10-01 2022-01-11 上海梦象智能科技有限公司 一种基于注意力的非侵入式负荷分解方法
CN114065784B (zh) * 2021-11-16 2023-03-10 北京百度网讯科技有限公司 训练方法、译文方法、装置、电子设备以及存储介质
CN114819079A (zh) * 2022-04-25 2022-07-29 北京百度网讯科技有限公司 模型训练方法、装置、电子设备及可读存储介质
CN116959060A (zh) * 2023-04-20 2023-10-27 湘潭大学 一种面向医院环境下语言障碍患者的唇语识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198689B2 (en) * 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
CN111178157A (zh) * 2019-12-10 2020-05-19 浙江大学 一种基于音调的级联序列到序列模型的中文唇语识别方法
CN111310816B (zh) * 2020-02-07 2023-04-07 天津大学 基于无监督匹配追踪编码的仿脑架构图像识别方法

Also Published As

Publication number Publication date
CN111931736A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931736B (zh) 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
Liu et al. Unsupervised end-to-end learning of discrete linguistic units for voice conversion
CN111653275B (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN110570845A (zh) 一种基于域不变特征的语音识别方法
CN113257248B (zh) 一种流式和非流式混合语音识别系统及流式语音识别方法
CN114092930B (zh) 一种文字识别方法及系统
CN111861945A (zh) 一种文本引导的图像修复方法和系统
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
CN112270344A (zh) 一种基于cbam的图像描述生成模型方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质
CN113505611B (zh) 在生成对抗中获得更好的语音翻译模型的训练方法和系统
CN112489651B (zh) 语音识别方法和电子设备、存储装置
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN109918484B (zh) 对话生成方法和装置
CN115577720A (zh) 一种基于深度残差收缩网络和seq2seq的蒙汉机器翻译方法
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
JPH01204099A (ja) 音声認識装置
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant