CN114882590B

CN114882590B - 一种基于事件相机的多粒度时空特征感知的唇读方法

Info

Publication number: CN114882590B
Application number: CN202210484754.3A
Authority: CN
Inventors: 查正军; 曹洋; 王洋; 吴枫; 谭赣超
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2024-04-02
Anticipated expiration: 2042-05-06
Also published as: CN114882590A

Abstract

本发明公开了一种基于事件相机的多粒度时空特征感知的唇读方法,包括：1、首次提出了基于事件相机的唇读技术方案；2、根据事件流信号的特性，将原始异步信号流数据转换成了多时间分辨率事件帧；3.构建了一个双流网络来提取不同粒度的时空特征，其中高时间分辨率分支提取精细的时间特征，低时间分辨率提取完整的空间特征；4.构建序列模型进行特征序列解码，将特征提取网络提取到的多粒度时空特征解码为事件流信号对应的单词的概率。本发明所提出的基于事件相机的唇读方案能够解决传统相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

Description

一种基于事件相机的多粒度时空特征感知的唇读方法

技术领域

本发明属于唇读领域，具体的说是一种基于事件相机的多粒度时空特征感知的唇读方法。

背景技术

唇读技术旨在从说话者唇部运动的视觉信息中解码出其所说的文本内容。在健康医疗、嘈杂环境下辅助语音识别、公共安防、人机交互等领域有着重要的应用，唇读技术在近40年来引起来学术界与工业界的极大关注。唇读任务是一个非常具有挑战性的任务，具体体现在以下五方面：1.基于传统RGB拍摄的视频时间分辨率低且包含大量背景等视觉冗余信息；2.不同讲话者发音习惯和面部表情等差异大；3.发音相似单词在视觉上具有歧义性；4.视频光照条件相差大，尤其在极端光照条件下更难以进行唇语识别，5.在实际应用中，传统RGB相机的功耗较大，部署需要长期开启的设备运行成本高。

事件相机是一种新型的生物启发式的神经形态相机，与传统相机以固定频率捕捉场景亮度不同，事件相机逐像素的异步的捕捉场景中的亮度变化。相对于传统相机，事件相机具有高时间分辨率(微妙级)、高动态范围(140dB)、低功耗和高像素带宽(kHz级别)等优点。因此，事件相机在机器人和计算机视觉领域具有解决一些富有挑战性的场景的潜力，比如低延迟、高速运动和高动态范围场景。

基于事件相机的唇读技术的关键是要从异步的事件流信号中提取出精确的时空特征。现有的事件流时空特征提取方法主要是应用在步态识别、手势识别等不需要十分精细的时空特征感知的任务中。其中，基于点云和图网络的方法将事件流当做点云或者图的节点来处理，由于事件流向点云和图的转换过程中存在下采样过程，所以这些方法会丢失事件流中所包含的细粒度的时空信息。基于脉冲神经网络的方法使用脉冲神经网络逐个的处理事件流中的事件，虽然不会导致信号的丢失，但是由于目前脉冲神经网络缺乏有效的训练手段，导致这一类方法的准确率相对不高。基于卷积神经网络的方法先将异步事件流信号转换成固定帧率的事件帧，然后使用标准卷积神经网络进行时空特征提取，然而由于转换成固定帧率的事件帧之后会丢失事件信号的高时间分辨率特性，导致所提取到的时空特征不够精细。以上的方法对于唇读这种需要感知非常精细的时空特征的任务来说都是不尽如人意的。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于事件相机的多粒度时空特征感知的唇读方法，以期能能够更精确的通过事件流信号进行唇语识别，从而能解决基于传统RGB相机进行唇读时存在的视频时间分辨率低、视觉冗余信息多、极端光照条件下性能差以及实际部署时设备功耗大的问题。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于事件相机的多粒度时空特征感知的唇读方法的特点在于，包括如下步骤：

步骤一、基于事件相机的唇读数据收集和预处理：

利用事件相机采集唇读数据，并将所述唇读数据分割为单词级别的样本，将每个样本的空间分辨率裁剪为H×W的维度，H和W分别为高度和宽度；令第i个样本包含的异步事件流为其中，x_ik,y_ik,t_ik,p_ik分别表示第i个样本中第k个事件的横坐标、纵坐标、产生的时间戳和极性，n_i表示第i个样本包含的事件总数；对第i个样本重复拍摄多次，并将拍摄到的所有样本记为单词集合w_i；且单词集合w_i中的单词属于单词表；令单词表中包含的单词总数为V；令m_v表示所述单词表中任意一个单词的序号；从而构建基于事件相机的唇读数据集/>其中，N表示数据集的样本数量；

步骤二、将异步事件流信号转换成多时间分辨率的事件帧：

将第i个样本中的异步事件流E_i中的时间戳t_ik缩放到[0,T-1]范围内，再利用式(1)将所述异步事件流E_i转换成同步事件帧V_i：

式(1)中，t∈{0,1,...,T-1}表示第t个事件帧，T表示转换之后的事件帧数，y∈{0,1,...,H-1}表示同步事件帧V_i的像素纵坐标，x∈{0,1,...,W-1}表示同步事件帧V_i的像素横坐标，表示第i个样本中的第k个事件进行时间缩放之后的时间戳，并由式(2)得到：

式(2)中，t_i1表示第i个样本的第一个事件的时间戳，表示第i个样本最后一个事件的时间戳，通过选取不同的T，得到两种不同的时间分辨率/>其中，T^high表示高时间分辨率，T^low表示低时间分辨率；从而将第i个样本的异步事件流Ei转换成两个事件帧序列/>并作为一个事件样本，其中，/>表示高时间分辨率事件帧序列，/>表示低时间分辨率事件帧序列；进而由N个样本的异步事件转换成两个事件帧序列构成训练数据集；

步骤三、多粒度时空特征感知：

步骤3.1、每次从所述训练数据集中选取b个事件样本，分别转换成多分辨率事件帧之后得到一个批处理数据其中，/>表示批处理数据中第j个事件样本对应的高时间分辨率事件帧序列，/>表示批处理数据中第j个事件样本对应的低时间分辨率事件帧序列，w_j表示批处理数据中第j个事件样本对应的单词类别；

步骤3.2、构建双流网络提取细粒度时空特征；

所述双流网络包含一个低时间分辨率分支、一个高时间分辨率分支以及一个信息流动模块；

所述低时间分辨率分支和高时间分辨率分支均是由一层卷积核为n₁×n₂×n₂的3D卷积层和一个ResNet-18深度学习网络构成；

所述ResNet-18深度学习网络包括4个各阶段，每个阶段包含2个残差块，每个残差块均由两层卷积核为n₃×n₃的卷积层组成；

令低时间分辨率分支中卷积的通道数为高时间分辨率分支中卷积的通道数的n倍；

在所述ResNet-18的每个阶段之后级联一个信息流动模块；每个信息流动模块由一层卷积核为n₄×1×1的卷积层、一层卷积核为n₃×n₃的卷积层、一个注意力计算模块组成；

所述注意力计算模块包含一个局部注意力计算模块和一个全局注意力计算模块；

所述局部注意力计算模块由两层卷积核为n₃×n₃的卷积层组成，全局注意力计算模块由一个平均池化模块和两层卷积核为n₃×n₃的卷积层组成，将全局计算注意力和局部计算注意力的输出结构相加后再经过一个Sigmoid函数并得到最终的注意力图；

步骤3.3、将所述批处理数据输入所述双流网络中，其中，低时间分辨率事件帧序列/>输入到低时间分辨率分支，高时间分辨率事件帧序列/>输入到高时间分辨率分支；并在经过ResNet-18的每个阶段之后通过信息流动模块进行特征融合，高时间分辨率的特征先通过一层卷积核为n₄×1×1的卷积层进行降维，得到降维之后的高时间分辨率特征再与低时间分辨率的特征进行拼接，得到的拼接特征并经过一层卷积核为n₃×n₃的卷积层后得到初步融合的特征，所述初步融合的特征输入所述注意力计算模块进行计算后得到注意力图，将所述注意力图与所述初步融合的特征进行逐元素相乘之后再与所述低时间分辨率的特征相加，得到的结果再与所述降维之后的高时间分辨率特征拼接作为最终的融合特征；最终的融合特征作为低时间分辨率分支下一阶段的输入，高时间分辨率分支当前阶段的输出特征作为下一阶段的输入特征，从而由所述双流网络输出细粒度时空特征为/>其中/>C_o表示输出特征的维度；

步骤四、序列模型：

步骤4.1、构建时空特征序列解码网络；

所述时空特征序列解码网络由3层双向GRU网络、一个平均池化层、一个全连接层、一个Softmax函数组成；

步骤4.2、将双流网络提取到的细粒度时空特征输入所述时空特征序列解码网络，并输出b个事件样本所对应的单词的概率/>其中，P_j表示第j个样本对应输出概率，且P_j＝p_j,1,pj_,2,...p_j,mv,...,p_j,V)，/>表示批处理数据中第j个事件样本被分类为第m_v个单词的概率；

步骤五、网络训练：

基于梯度下降法对所述双流网络进行训练，并计算如式(3)所示的损失函数L，用于更新网络参数，直到网络的损失达到收敛为止，从而得到最优识别精度的唇读网络：

式(3)中，表示第j个事件样本被预测为正确标签的概率。

与现有技术相比，本发明的有益效果在于：

1、本发明首次提出基于事件相机的唇读方案，在唇读任务中，事件相机相对于传统RGB相机具有以下几点优势：1)事件相机可以以一个很高的时间分辨率捕捉说话者的唇部微小运动，对于发音相似的单词具有更好的辨识能力；2)由于只捕捉场景亮度的变化信息，事件相机的输出信号不会包含大量无关视觉信息，如背景、说着者外貌表情等，有利于后续方法从信号中提取到唇部运动特征；3)事件相机的高动态范围特性使得在极端光照条件下也可以很好地工作；4)事件相机低功耗的特性使得设备部署之后运行成本降低，在一些可穿戴医疗设备(如智能助听器)中可以显著提升设备续航能力。

2、本发明提出将异步事件流信号转换成不同时间分辨率的同步事件帧，其中高时间分辨率的事件帧可以尽可能多的保留原始事件流信号中的精细的时间信息，低时间分辨率的事件帧可以保持完整的空间结构信息。并且采用了一个双流网络来同时提取到精细的时间特征和完整的空间特征，避免了现有方法中事件流信号时空信息的丢失。

3、本发明提出一个信息流动模块来融合从不同时间分辨率的事件帧中提取到的时空特征，从而提取到更加精细的时空特征，进而提高了唇读的准确率。

4、本发明提出了一个多粒度时空特征感知方法来有效的从事件流信号中提取出细粒度的时空特征，进而识别单词，所提出的多粒度时空特征感知方法能够解决现有基于点云网络、图网络、卷积神经网络的方法存在的时空信息丢失问题，以及现有基于脉冲神经网络的方法中存在的难以训练的问题，从而能够更精确的通过事件流信号进行唇语识别。

附图说明

图1为本发明总体流程图。

图2为本发明中提出来的信息流动模块图。

具体实施方式

本实施例中，一种基于事件相机的多粒度时空特征感知的唇读方法的流程参照图1，具体的说，是按如下步骤进行：

步骤一、基于事件相机的唇读数据收集和预处理：

招募志愿者，利用事件相机采集唇读数据，并将所采集的数据分割为单词级别的样本，每个样本的空间范围被裁剪为H×W的大小，H和W分别为高度和宽度。第i个样本包含的事件数据为其中，x_ik,y_ik,t_ik,p_ik分别表示第i个样本中第k个事件的横坐标、纵坐标、产生的时间戳和极性，n_i表示第i个样本包含的事件总数；对第i个样本重复拍摄多次，并将拍摄到的所有样本记为单词集合w_i；其中，w_i∈{1,2,...,m_v,...,V}，V是单词表中包含的单词数量，m_v表示任意一个单词的序号，从而构建出基于事件相机的唇读数据集/>其中，N表示数据集的样本数量。本实施例中共招募40名志愿者，其中男女各20名，每名志愿者将词汇表中的单词读五遍，利用型号为DAVIS346事件相机进行录制，录制场景为室内。本实施例中H＝W＝96，V＝100，N＝19871。

步骤二、将异步事件流信号转换成多时间分辨率的事件帧：

对于第i个样本中的异步事件流先将时间戳缩放到[0,T-1]范围内，再将事件流按式(1)转换成同步事件帧V_i：

式(1)中，T表示转换之后的事件帧数，t∈{0,1,...,T-1}表示第t个事件帧，y∈{0,1,...,H-1}表示像素纵坐标，x∈{0,1,...,W-1}表示像素横坐标；表示第i个样本中的第k个事件进行时间缩放之后的时间戳，并由式(2)得到：

通过选取不同的T，可以得到不同时间分辨率的事件帧，这里选取两种不同的时间分辨率{T^high,T^low}，其中，T^high表示高时间分辨率，T^low表示低时间分辨率，最终第i个样本被转换成两个事件帧序列其中，/>表示高时间分辨率事件帧序列，/>表示低时间分辨率事件帧序列，进而由N个样本的异步事件转换成两个事件帧序列构成训练数据集；本实施例中T^low＝30，T^high＝210。

步骤三、多粒度时空特征感知：

步骤3.1、每次从训练数据集中选取b个事件样本，分别转换成多分辨率事件帧之后得到一个批处理数据其中，/>表示批处理数据中第j个事件样本对应的高时间分辨率事件帧序列，/>表示批处理数据中第j个事件样本对应的低时间分辨率事件帧序列,w_j表示批处理数据中第j个事件样本对应的单词序号；本实施例中，b＝32。

步骤3.2、构建双流网络提取细粒度时空特征；

双流网络包含一个低时间分辨率分支、一个高时间分辨率分支以及一个信息流动模块。其中，低时间分辨率分支和高时间分辨率分支都是由一层卷积核为n₁×n₂×n₂的3D卷积层加上一个ResNet-18深度学习网络构成。

ResNet-18深度学习网络包括4个各阶段，每个阶段包含2个残差块，每个残差块都由两层卷积核为n₃×n₃的卷积层组成。

低时间分辨率分支和高时间分辨率分支的区别在于低时间分辨率分支中卷积的通道数为高时间分辨率的n倍。

在ResNet-18的每个阶段之后级联一个信息流动模块，信息流动模块详细构成参照图2。每个信息流动模块由一层卷积核为n₄×1×1的卷积层、一层卷积核为n₃×n₃的卷积层、一个注意力计算模块组成。

注意力计算模块包含一个局部注意力计算模块和一个全局注意力计算模块，局部注意力计算模块由两层卷积核为n₃×n₃的卷积层组成，全局注意力计算模块由一个平均池化模块和两层卷积核为n₃×n₃的卷积层组成，最终的注意力由全局注意力和局部注意力相加再经过一个Sigmoid函数得到。本实施例中，n₁＝5，n₂＝7,n₃＝3,n₄＝13。

步骤3.3、将批处理数据输入细粒度时空特征提取网络中，其中输入到低时间分辨率分支，/>输入到高时间分辨率分支。在经过ResNet-18的每个阶段之后通过信息流动模块进行特征融合，高时间分辨率的特征先通过一层卷积核为n₄×1×1的卷积层进行降维，然后与低时间分辨率的特征进行拼接，拼接得到的特征经过一层卷积核为n₃×n₃的卷积层得到初步融合的特征，该特征输入到注意力计算模块计算得到注意力图，将注意力图与该特征进行逐元素相乘之后与低时间分辨率特征相加再与降维之后的高时间分辨率特征拼接作为最终的融合特征。最终的融合特征作为低时间分辨率分支下一阶段的输入，高时间分辨率分支当前阶段的输出特征作为下一阶段的输入特征，从而由双流网络输出细粒度时空特征为/>其中/>C_o表示输出特征的维度；本实施例中C_o＝768。

步骤四、序列模型：

步骤4.1、构建时空特征序列解码网络；

时空特征序列解码网络由3层双向GRU网络、一个平均池化层、一个全连接层、一个Softmax函数组成；

步骤4.2、将双流网络提取到的细粒度时空特征输入时空特征序列解码网络，输出事件流信号所对应的单词的概率/>其中，P_j＝(p_j,1,p_j,2,...p_j,mv,...,p_j,V)，表示批处理数据中第j个样本被分类为单词m_v的概率；

步骤五、网络训练：

根据最终网络预测的对应的单词的概率与输入事件流信号对应的单词标签/>计算如式(3)所示的损失函数L：

式(3)中，表示第j个事件样本被预测为正确标签的概率。

基于梯度下降法对双流网络进行训练，并计算损失函数L，用于更新网络参数，直到网络的损失达到收敛为止，从而得到最优识别精度的唇读网络。

综上所述，本发明提出使用事件相机来取代传统相机应用在唇读任务中。在唇读任务中，事件相机相对于传统RGB相机具有以下几点优势：1.事件相机可以以一个很高的时间分辨率捕捉说话者的唇部微小运动，对于发音相似的单词具有更好的辨识能力；2.由于只捕捉场景亮度的变化信息，事件相机的输出信号不会包含大量无关视觉信息，如背景、说着者外貌表情等，有利于后续方法从信号中提取到唇部运动特征；3.事件相机的高动态范围特性使得在极端光照条件下也可以很好地工作；4.事件相机低功耗的特性使得设备部署之后运行成本降低，在一些可穿戴医疗设备(如智能助听器)中可以显著提升设备续航能力。

Claims

1.一种基于事件相机的多粒度时空特征感知的唇读方法，其特征在于，包括如下步骤：

步骤一、基于事件相机的唇读数据收集和预处理：

步骤二、将异步事件流信号转换成多时间分辨率的事件帧：

式(2)中，t_i1表示第i个样本的第一个事件的时间戳，表示第i个样本最后一个事件的时间戳，通过选取不同的T，得到两种不同的时间分辨率{T^high,T^low}，其中，T^high表示高时间分辨率，T^low表示低时间分辨率；从而将第i个样本的异步事件流E_i转换成两个事件帧序列并作为一个事件样本，其中，/>表示高时间分辨率事件帧序列，表示低时间分辨率事件帧序列；进而由N个样本的异步事件转换成两个事件帧序列构成训练数据集；

步骤三、多粒度时空特征感知：

步骤3.2、构建双流网络提取细粒度时空特征；

步骤四、序列模型：

步骤4.1、构建时空特征序列解码网络；

步骤4.2、将双流网络提取到的细粒度时空特征输入所述时空特征序列解码网络，并输出b个事件样本所对应的单词的概率/>其中，P_j表示第j个样本对应输出概率，且/> 表示批处理数据中第j个事件样本被分类为第m_v个单词的概率；

步骤五、网络训练：

式(3)中，表示第j个事件样本被预测为正确标签的概率。