CN112151030B

CN112151030B - 一种基于多模态的复杂场景语音识别方法和装置

Info

Publication number: CN112151030B
Application number: CN202010928961.4A
Authority: CN
Inventors: 印二威; 吴竞寒; 闫慧炯; 谢良; 邓宝松; 范晓丽; 罗治国; 闫野
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2023-11-21
Anticipated expiration: 2040-09-07
Also published as: CN112151030A

Abstract

本发明公开了一种基于多模态的复杂场景语音识别方法，其步骤包括：若监测到所采集的用户唇部图像发生变化，则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，得到多模态语音信息，使用语言模型，合成文本。本发明还公开了基于多模态的复杂场景语音识别装置，包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别，为复杂人机交互场景提供了更可靠的语音交互技术和系统。

Description

一种基于多模态的复杂场景语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种复杂场景下基于多模态融合的协同交互语音识别方法和装置。

背景技术

语音交互是人与人之间最常用和最直接的沟通交流方式之一。基于声音介质的语音识别技术萌芽于50年代的机器翻译研究时期。近年来，随着人工神经网络和机器学习算法的发展，语音识别中逐渐采用基于深度学习的声学模型。语音识别技术近年来取得了显著的进步，在工业、通信、医疗等领域都有广泛应用，并开启了智能语音识别与交互的新时代。

对于传统依赖于声音介质的语音识别技术，无法在声带受损、高噪声、高封闭、高隐私性要求等场景下应用，因此缄默通讯技术也逐渐得到发展，并在人机交互场景中得到更广泛的应用。基于表面肌电信号的无声语音识别技术早在20世纪80年代便已开展相关研究，相应的无声通信方式虽然为高噪声环境的人机交互提供了新途径，但是在高机动场景下，无法满足复杂环境条件对人机交互准确性的要求。基于唇部图像的语音识别是通过唇部动作来解析说话者所说的内容，也是较为流行的缄默通讯技术之一。虽然唇语识别技术在识别性能方面取得了较大突破，但其识别准确率受光线、角度、训练模型等因素的影响较大。

上述基于音频信号、唇部图像、面部肌电等单通道、单模态的语音文本识别技术虽然研究较为广泛，但在实际应用中仍存在诸多不足，无法满足工程应用的实际需求。目前单模态语音识别技术成果颇多，对基于多模态融合的协同交互识别技术还缺乏相关研究。面向多源协同的深度融合和交互应用需求，建立多模态信息的同步协调表征和决策机制是提升交互效果和准确性的关键要素。

发明内容

为解决复杂场景下单模态语音识别技术应用受限的问题，本发明提出了一种基于多模态的复杂场景语音识别方法和装置。

一方面，本发明提出一种基于多模态的复杂场景语音识别方法，包括：

S1，以图像传感器所采集的唇部图像的变化作为多模态数据输入的标志，即唇部图像数据采集装置监测用户唇部图像是否发生变化，若监测到所采集的用户唇部图像发生变化，则认为用户发出语音输入，同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号；

S2，根据所述音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征；

S3，根据所述空间和时间域的多源数据特征，构建序列层面的连续感知，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息；

S4，根据所述不同模态表达内容的共性信息和基于跨模态注意力机制的多模态建模筛选结果，使用语音识别模型解码，得到多模态语音信息；

S5，根据所述多模态语音信息，使用语言模型，合成文本。

步骤S2中，根据所述音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，包括：

对音频信号进行加窗分帧、短时傅里叶变换(Short-time Fourier Transform,STFT)和提取梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)；

对面部肌电信号进行短时傅里叶变换(STFT)和线性判别式分析(LinearDiscriminant Analysis,LDA)；

将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络。所述的VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成。卷积层内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，卷积核在工作时，有规律地扫过输入特征，对输入特征做矩阵元素乘法求和并叠加偏差量，计算公式为：

L_l+1＝(L_l+2p-f)/s₀+1，

其中，b为偏差量，Z^l和Z^l+1分别表示第(l+1)层的二维卷积特征图(feature map)输入和输出，L_l+1为Z_l+1的尺寸。Z^l+1(i,j)表示二维卷积特征图中第i行、第j列的像素，(i,j)表示图中第i行、第j列的像素，表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素，K_l为第l层特征图的通道数，w^l+1表示第(l+1)层的二维卷积特征图的权重系数，表示第k个通道、第(l+1)层的二维卷积特征图的权重系数，f、s₀和p分别表示卷积核大小、卷积步长(stride)和填充(padding)层数。

第k个通道、第l层的池化层中元素的表示形式为：

其中，步长s₀、像素(i,j)的含义与卷积层相同，p是预指定参数。Softmax分类器将输入映射为0至1之间的实数，并且通过归一化使分类器的输出和为1。在含有j个元素的数组V中，V_i表示其中的第i个元素，则这个元素的softmax函数输出值为：

S_i＝eⁱ/∑_je^j,1≤i≤j，

其中，

上述三种数据特征提取结果是多源数据特征。

步骤S3中，根据所述的多源数据特征，构建序列层面的连续感知，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，包括：

对空间和时间域的多源数据特征进行基于Transformer网络的编码，其对应的编码部分包含6个相同的注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)。每个子层(sub-layer)都加了残差连接(residualconnection)和归一化模块(normalization)，其子层的输出表示为：

sublayer_output＝LayerNorm(x+(SubLayer(x)))，

其中LayerNorm表示归一化；SubLayer表示子层，x+SubLayer(x)表示残差连接；注意力层中所实现的多头注意力(multi-head attention)算法是通过h个不同的线性变换对查询向量Q，Q的数据维度为d_k，键向量K，值向量V进行投影，最后将不同的注意力机制建模结果用softmax函数拼接起来，其过程表示为：

其中/>

根据面部在发音过程中所涉及的肌肉运动引起语音、视觉与肌电通道的同步变化特性，通过该同步变化特性来约束三种模态数据的特征在对应于同一语音过程时的一致性，实现各模态通道对同一语音过程的各自建模；

获得不同模态表达内容的共性信息模型。

步骤S4中，根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果，得到多模态语音信息，包括：

将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层(multi-head attention sub-layer)连接和输出，得到多模态模型筛选结果；

将多模态模型筛选结果输入至Transformer网络解码部分(Decoder)，得到多模态语音信息。解码部分由注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)组成，其输入包括两部分，一部分是基于跨模态注意力机制(Cross-modal Multi-head Attention Model)连接和输出的多模态模型筛选结果，二部分是对应前序位置解码部分的输出。解码部分的输出通过线性层连接后输入至softmax函数，得到对应于当前位置的识别词概率分布。根据softmax函数的特征，在多分类和输出词概率计算任务中常用交叉熵作为损失函数：

其中t_i为线性层输出的真实值，S_i为t_i对应的softmax函数值。

步骤S5中，根据所述多模态语音信息，使用语言模型合成文本，包括：

使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。

第二方面，本发明提出一种基于多模态的复杂场景语音识别装置，包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块；

所述数据采集模块，用于采集语音输入时同步获取的音频信号、唇部图像信号和面部肌电信号数据，发送至特征提取模块；

所述特征提取模块，用于对接收到的所述音频信号、唇部图像信号和面部肌电信号数据分别进行数据处理和特征提取，得到空间和时间域的多源数据特征，发送至编解码模块；

所述编解码模块，用于对接收到的空间和时间域的多源数据特征进行基于Transformer和跨模态注意力机制的编码、多模态建模结果筛选和解码，得到多模态语音信息，发送至文本合成模块；

所述文本合成模块，用于根据所述多模态语音信息，使用语言模型，合成文本，发送至交互模块；

所述交互模块，用于将文本合成结果进行显示，并发送至与其相连接的接收设备。

具体的，所述特征提取模块，根据所述音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，包括：

L_l+1＝(L_l+2p-f)/s₀+1，

第k个通道、第l层的池化层中元素的表示形式为：

S_i＝eⁱ/Σ_je^j,1≤i≤j，

其中，

上述三种数据特征提取结果是多源数据特征。

所述编解码模块，其根据所述的多源数据特征，构建序列层面的连续感知，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，包括：

sublayer_output＝LayerNorm(x+(SubLayer(x)))，

其中/>

获得不同模态表达内容的共性信息模型。

所述编解码模块，其根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果，得到多模态语音信息，包括：

其中t_i为线性层输出的真实值，S_i为t_i对应的softmax函数值；

所述文本合成模块，其根据所述多模态语音信息，使用语言模型，合成文本，具体包括：

本发明的优点在于：

(一)针对音频信号、唇部图像信号和面部肌电信号的多源异质特性，通过多源协同建模方法与融合人体发音机理先验的多源协同感知方法相结合，得到多源信息协同感知。通过基于跨模态注意力的模态特征融合增强技术，对多源建模质量进行评估和建模结果筛选，从而得到多模态语音信息的协同语义表征方法。

(二)通过基于多源协同语义表征和多源数据信息协同决策，实现在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别，为复杂人机交互场景提供了更可靠的语音交互技术和系统。

附图说明

图1为基于多模态的复杂场景语音识别装置的总体示意图；

图2为基于多模态的复杂场景语音识别方法的实现示意图；

图3为基于多模态的复杂场景语音识别方法的步骤示意图；

图4为基于多模态的复杂场景语音识别方法的数据处理示意图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

一方面，本发明提出一种基于多模态的复杂场景语音识别方法，图1为基于多模态的复杂场景语音识别装置的总体示意图。该方法包括：

S5，根据所述多模态语音信息，使用语言模型，合成文本。

图2为基于多模态的复杂场景语音识别方法的实现示意图。

将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络。VGG是一种用以提取图像特征和信息的卷积神经网络模型。根据卷积核的大小和卷积层数目的不同，VGG共有6种网络结构配置，其中VGG16较为常用。VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成。卷积层内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，卷积核在工作时，有规律地扫过输入特征，对输入特征做矩阵元素乘法求和并叠加偏差量，计算公式为：

L_l+1＝(L_l+2p-f)/s₀+1，

其中，b为偏差量，Z^l和Z^l+1分别表示第(l+1)层的二维卷积特征图(feature map)输入和输出，L_l+1为Z_l+1的尺寸。Z^l+1(i,j)表示二维卷积特征图中第i行、第j列的像素，(i,j)表示图中第i行、第j列的像素，表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素，K_l为第l层特征图的通道数，w^l+1表示第(l+1)层的二维卷积特征图的权重系数，/>表示第k个通道、第(l+1)层的二维卷积特征图的权重系数，f、s₀和p分别表示卷积核大小、卷积步长(stride)和填充(padding)层数。

第k个通道、第l层的池化层中元素的表示形式为：

其中，步长s₀、像素(i,j)的含义与卷积层相同，p是预指定参数。当p＝1时，被称为均值池化(average pooling)；当p→∞时，被称为极大池化(max pooling)。Softmax分类器将输入映射为0至1之间的实数，并且通过归一化使分类器的输出和为1，因此用在多分类任务中的输出概率之和也为1。在含有j个元素的数组V中，V_i表示其中的第i个元素，则这个元素的softmax函数输出值为：

S_i＝eⁱ/Σ_je^j,1≤i≤j，

其中，

上述三种数据特征提取结果是多源数据特征。具体来说，音频信号进行加窗分帧、短时傅里叶变换(Short-time Fourier Transform,STFT)和提取梅尔倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)；面部肌电信号进行短时傅里叶变换(STFT)和线性判别式分析(Linear Discriminant Analysis,LDA)；唇部图像数据输入预训练好的ResNet-50网络或VGG16网络，这三种数据特征提取结果是多源数据特征。

sublayer_output＝LayerNorm(x+(SubLayer(x)))，

其中LayerNorm表示归一化；SubLayer表示子层，x+SubLayer(x)表示残差连接；注意力层中所实现的多头注意力(multi-head attention)算法是通过h个不同的线性变换对查询向量Q，Q的数据维度为d_k，键向量K，值向量V进行投影，最后将不同的注意力机制建模结果用softmax函数拼接起来得到：

其中/>

获得不同模态表达内容的共性信息模型。

将多模态模型筛选结果输入至Transformer网络解码部分(Decoder)，得到多模态语音信息。解码部分由注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)组成，其输入包括两部分，一是基于跨模态注意力机制(Cross-modal Multi-head Attention Model)连接和输出的多模态模型筛选结果，二是对应前序位置解码部分的输出。解码部分的输出通过线性层连接后输入至softmax函数，得到对应于当前位置的识别词概率分布。根据softmax函数的特征，在多分类和输出词概率计算任务中常用交叉熵作为损失函数：

其中t_i为线性层输出的真实值，S_i为t_i对应的softmax函数值。

使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。对于一个由n个词组成的句子S＝(m₁,m₂,m₃,…,m_n),每一个单词m_i出现的概率都依赖于从第一个单词到它之前一个单词，用p(m_i|m_i-1,…,m₂,m₁)表示单词m_i-1,…,m₂,m₁出现后，单词m_i出现的概率，则句子S出现的概率为：

p(S)＝p(m₁,m₂,m₃,…,m_n)＝p(m₁)p(m₂|m₁)…p(m_n|m_n-1,…,m₂,m₁)。

图3为基于多模态的复杂场景语音识别方法的步骤示意图，图4为基于多模态的复杂场景语音识别方法的数据处理示意图。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于多模态的复杂场景语音识别方法，其特征在于，包括：

S5，根据所述多模态语音信息，使用语言模型，合成文本；

将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层连接和输出，得到多模态模型筛选结果；

将多模态模型筛选结果输入至Transformer网络解码部分，得到多模态语音信息；解码部分由注意力层和全连接层组成，其输入包括两部分，一部分是基于跨模态注意力机制连接和输出的多模态模型筛选结果，二部分是对应前序位置解码部分的输出；解码部分的输出通过线性层连接后输入至softmax函数，得到对应于当前位置的识别词概率分布；根据softmax函数的特征，在多分类和输出词概率计算任务中常用交叉熵作为损失函数：

其中t_i为线性层输出的真实值，S_i为t_i对应的softmax函数值。

2.如权利要求1所述的一种基于多模态的复杂场景语音识别方法，其特征在于，步骤S2中，根据所述音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，包括：

对音频信号进行加窗分帧、短时傅里叶变换和提取梅尔倒谱系数；

对面部肌电信号进行短时傅里叶变换和线性判别式分析；

将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络；

上述三种数据特征提取结果是多源数据特征。

3.如权利要求2所述的一种基于多模态的复杂场景语音识别方法，其特征在于，所述的VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成；卷积层内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，卷积核在工作时，有规律地扫过输入特征，对输入特征做矩阵元素乘法求和并叠加偏差量，计算公式为：

L_l+1＝(L_l+2p-f)/s₀+1，

其中，b为偏差量，Z^l和Z^l+1分别表示第(l+1)层的二维卷积特征图输入和输出，L_l+1为Z_l+1的尺寸；Z^l+1(i,j)表示二维卷积特征图中第i行、第j列的像素，(i,j)表示图中第i行、第j列的像素，表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素，K_l为第l层特征图的通道数，w^l+1表示第(l+1)层的二维卷积特征图的权重系数，/>表示第k个通道、第(l+1)层的二维卷积特征图的权重系数，f、s₀和p分别表示卷积核大小、卷积步长和填充层数；

第k个通道、第l层的池化层中元素的表示形式为：

其中，步长s₀、像素(i,j)的含义与卷积层相同，p是预指定参数；

Softmax分类器将输入映射为0至1之间的实数，并且通过归一化使分类器的输出和为1；在含有j个元素的数组V中，V_i表示其中的第i个元素，则这个元素的softmax函数输出值为：

S_i＝eⁱ/∑_je^j,1≤i≤j，

其中，

4.如权利要求1所述的一种基于多模态的复杂场景语音识别方法，其特征在于，步骤S3中，根据所述的多源数据特征，构建序列层面的连续感知，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，包括：

对空间和时间域的多源数据特征进行基于Transformer网络的编码，其对应的编码部分包含6个相同的注意力层和全连接层；每个子层都加了残差连接和归一化模块，其子层的输出表示为：

sublayer_output＝LayerNorm(x+(SubLayer(x)))，

其中LayerNorm表示归一化；SubLayer表示子层，x+SubLayer(x)表示残差连接；注意力层中所实现的多头注意力算法是通过h个不同的线性变换对查询向量Q，Q的数据维度为d_k，键向量K，值向量V进行投影，最后将不同的注意力机制建模结果用softmax函数拼接起来，其过程表示为：

其中/>

获得不同模态表达内容的共性信息模型。

5.如权利要求1所述的一种基于多模态的复杂场景语音识别方法，其特征在于，步骤S5中，根据所述多模态语音信息，使用语言模型合成文本，包括：

6.一种基于多模态的复杂场景语音识别装置，其特征在于，包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块；

所述编解码模块，用于根据所述空间和时间域的多源数据特征，构建序列层面的连续感知，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息；根据所述不同模态表达内容的共性信息和基于跨模态注意力机制的多模态建模筛选结果，使用语音识别模型解码，得到多模态语音信息；将所述多模态语音信息，发送至文本合成模块；

所述交互模块，用于将文本合成结果进行显示，并发送至与其相连接的接收设备；

所述编解码模块，根据所述不同模态表达内容的共性信息和基于跨模态注意力机制的多模态建模筛选结果，使用语音识别模型解码，得到多模态语音信息，包括：

其中t_i为线性层输出的真实值，S_i为t_i对应的softmax函数值；

使用基于集束搜索算法的n-gram语言模型，得到多源协同的语音信息，合成文本。

7.如权利要求6所述的一种基于多模态的复杂场景语音识别装置，其特征在于，所述的数据提取模块，根据所述音频信号、唇部图像信号和面部肌电信号，确定信号在空间和时间域的多源数据特征，包括：

对面部肌电信号进行短时傅里叶变换和线性判别式分析；

将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络；

上述三种数据特征提取结果是多源数据特征。

8.如权利要求6所述的一种基于多模态的复杂场景语音识别装置，其特征在于，所述的编解码模块，其根据所述的多源数据特征，构建序列层面的连续感知，使用语音识别模型对多源数据特征进行编码和建模，获得不同模态表达内容的共性信息，包括：

sublayer_output＝LayerNorm(x+(SubLayer(x)))，

其中/>

获得不同模态表达内容的共性信息模型。