CN112151030A - 一种基于多模态的复杂场景语音识别方法和装置 - Google Patents

一种基于多模态的复杂场景语音识别方法和装置 Download PDF

Info

Publication number
CN112151030A
CN112151030A CN202010928961.4A CN202010928961A CN112151030A CN 112151030 A CN112151030 A CN 112151030A CN 202010928961 A CN202010928961 A CN 202010928961A CN 112151030 A CN112151030 A CN 112151030A
Authority
CN
China
Prior art keywords
modal
layer
module
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010928961.4A
Other languages
English (en)
Other versions
CN112151030B (zh
Inventor
印二威
吴竞寒
闫慧炯
谢良
邓宝松
范晓丽
罗治国
闫野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center, National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
Priority to CN202010928961.4A priority Critical patent/CN112151030B/zh
Publication of CN112151030A publication Critical patent/CN112151030A/zh
Application granted granted Critical
Publication of CN112151030B publication Critical patent/CN112151030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于多模态的复杂场景语音识别方法,其步骤包括:若监测到所采集的用户唇部图像发生变化,则同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,得到多模态语音信息,使用语言模型,合成文本。本发明还公开了基于多模态的复杂场景语音识别装置,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块。本发明实现了在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别,为复杂人机交互场景提供了更可靠的语音交互技术和系统。

Description

一种基于多模态的复杂场景语音识别方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种复杂场景下基于多模态融合的协同交互语音识别方法和装置。
背景技术
语音交互是人与人之间最常用和最直接的沟通交流方式之一。基于声音介质的语音识别技术萌芽于50年代的机器翻译研究时期。近年来,随着人工神经网络和机器学习算法的发展,语音识别中逐渐采用基于深度学习的声学模型。语音识别技术近年来取得了显著的进步,在工业、通信、医疗等领域都有广泛应用,并开启了智能语音识别与交互的新时代。
对于传统依赖于声音介质的语音识别技术,无法在声带受损、高噪声、高封闭、高隐私性要求等场景下应用,因此缄默通讯技术也逐渐得到发展,并在人机交互场景中得到更广泛的应用。基于表面肌电信号的无声语音识别技术早在20世纪80年代便已开展相关研究,相应的无声通信方式虽然为高噪声环境的人机交互提供了新途径,但是在高机动场景下,无法满足复杂环境条件对人机交互准确性的要求。基于唇部图像的语音识别是通过唇部动作来解析说话者所说的内容,也是较为流行的缄默通讯技术之一。虽然唇语识别技术在识别性能方面取得了较大突破,但其识别准确率受光线、角度、训练模型等因素的影响较大。
上述基于音频信号、唇部图像、面部肌电等单通道、单模态的语音文本识别技术虽然研究较为广泛,但在实际应用中仍存在诸多不足,无法满足工程应用的实际需求。目前单模态语音识别技术成果颇多,对基于多模态融合的协同交互识别技术还缺乏相关研究。面向多源协同的深度融合和交互应用需求,建立多模态信息的同步协调表征和决策机制是提升交互效果和准确性的关键要素。
发明内容
为解决复杂场景下单模态语音识别技术应用受限的问题,本发明提出了一种基于多模态的复杂场景语音识别方法和装置。
一方面,本发明提出一种基于多模态的复杂场景语音识别方法,包括:
S1,以图像传感器所采集的唇部图像的变化作为多模态数据输入的标志,即唇部图像数据采集装置监测用户唇部图像是否发生变化,若监测到所采集的用户唇部图像发生变化,则认为用户发出语音输入,同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号;
S2,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征;
S3,根据所述空间和时间域的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息;
S4,根据所述不同模态表达内容的共性信息和基于跨模态注意力机制的多模态建模筛选结果,使用语音识别模型解码,得到多模态语音信息;
S5,根据所述多模态语音信息,使用语言模型,合成文本。
步骤S2中,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,包括:
对音频信号进行加窗分帧、短时傅里叶变换(Short-time Fourier Transform,STFT)和提取梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC);
对面部肌电信号进行短时傅里叶变换(STFT)和线性判别式分析(LinearDiscriminant Analysis,LDA);
将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络。所述的VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成。卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),卷积核在工作时,有规律地扫过输入特征,对输入特征做矩阵元素乘法求和并叠加偏差量,计算公式为:
Figure BDA0002669504020000031
Ll+1=(Ll+2p-f)/s0+1,
其中,b为偏差量,Zl和Zl+1分别表示第(l+1)层的二维卷积特征图(feature map)输入和输出,Ll+1为Zl+1的尺寸。Zl+1(i,j)表示二维卷积特征图中第i行、第j列的像素,(i,j)表示图中第i行、第j列的像素,
Figure BDA0002669504020000032
表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素,Kl为第l层特征图的通道数,wl+1表示第(l+1)层的二维卷积特征图的权重系数,
Figure BDA0002669504020000033
表示第k个通道、第(l+1)层的二维卷积特征图的权重系数,f、s0和p分别表示卷积核大小、卷积步长(stride)和填充(padding)层数。
第k个通道、第l层的池化层中元素
Figure BDA0002669504020000034
的表示形式为:
Figure BDA0002669504020000035
其中,步长s0、像素(i,j)的含义与卷积层相同,p是预指定参数。Softmax分类器将输入映射为0至1之间的实数,并且通过归一化使分类器的输出和为1。在含有j个元素的数组V中,Vi表示其中的第i个元素,则这个元素的softmax函数输出值为:
Si=ei/∑jej,1≤i≤j,
其中,
Figure BDA0002669504020000036
上述三种数据特征提取结果是多源数据特征。
步骤S3中,根据所述的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,包括:
对空间和时间域的多源数据特征进行基于Transformer网络的编码,其对应的编码部分包含6个相同的注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)。每个子层(sub-layer)都加了残差连接(residualconnection)和归一化模块(normalization),其子层的输出表示为:
sublayeroutput=LayerNorm(x+(SubLayer(x))),
其中LayerNorm表示归一化;SubLayer表示子层,x+SubLayer(x)表示残差连接;注意力层中所实现的多头注意力(multi-head attention)算法是通过h个不同的线性变换对查询向量Q,Q的数据维度为dk,键向量K,值向量V进行投影,最后将不同的注意力机制建模结果用softmax函数拼接起来,其过程表示为:
Figure BDA0002669504020000041
其中
Figure BDA0002669504020000042
根据面部在发音过程中所涉及的肌肉运动引起语音、视觉与肌电通道的同步变化特性,通过该同步变化特性来约束三种模态数据的特征在对应于同一语音过程时的一致性,实现各模态通道对同一语音过程的各自建模;
获得不同模态表达内容的共性信息模型。
步骤S4中,根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果,得到多模态语音信息,包括:
将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层(multi-head attention sub-layer)连接和输出,得到多模态模型筛选结果;
将多模态模型筛选结果输入至Transformer网络解码部分(Decoder),得到多模态语音信息。解码部分由注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)组成,其输入包括两部分,一部分是基于跨模态注意力机制(Cross-modal Multi-head Attention Model)连接和输出的多模态模型筛选结果,二部分是对应前序位置解码部分的输出。解码部分的输出通过线性层连接后输入至softmax函数,得到对应于当前位置的识别词概率分布。根据softmax函数的特征,在多分类和输出词概率计算任务中常用交叉熵作为损失函数:
Figure BDA0002669504020000043
其中ti为线性层输出的真实值,Si为ti对应的softmax函数值。
步骤S5中,根据所述多模态语音信息,使用语言模型合成文本,包括:
使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。
第二方面,本发明提出一种基于多模态的复杂场景语音识别装置,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块;
所述数据采集模块,用于采集语音输入时同步获取的音频信号、唇部图像信号和面部肌电信号数据,发送至特征提取模块;
所述特征提取模块,用于对接收到的所述音频信号、唇部图像信号和面部肌电信号数据分别进行数据处理和特征提取,得到空间和时间域的多源数据特征,发送至编解码模块;
所述编解码模块,用于对接收到的空间和时间域的多源数据特征进行基于Transformer和跨模态注意力机制的编码、多模态建模结果筛选和解码,得到多模态语音信息,发送至文本合成模块;
所述文本合成模块,用于根据所述多模态语音信息,使用语言模型,合成文本,发送至交互模块;
所述交互模块,用于将文本合成结果进行显示,并发送至与其相连接的接收设备。
具体的,所述特征提取模块,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,包括:
对音频信号进行加窗分帧、短时傅里叶变换(Short-time Fourier Transform,STFT)和提取梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC);
对面部肌电信号进行短时傅里叶变换(STFT)和线性判别式分析(LinearDiscriminant Analysis,LDA);
将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络。所述的VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成。卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),卷积核在工作时,有规律地扫过输入特征,对输入特征做矩阵元素乘法求和并叠加偏差量,计算公式为:
Figure BDA0002669504020000061
Ll+1=(Ll+2p-f)/s0+1,
其中,b为偏差量,Zl和Zl+1分别表示第(l+1)层的二维卷积特征图(feature map)输入和输出,Ll+1为Zl+1的尺寸。Zl+1(i,j)表示二维卷积特征图中第i行、第j列的像素,(i,j)表示图中第i行、第j列的像素,
Figure BDA0002669504020000062
表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素,Kl为第l层特征图的通道数,wl+1表示第(l+1)层的二维卷积特征图的权重系数,
Figure BDA0002669504020000063
表示第k个通道、第(l+1)层的二维卷积特征图的权重系数,f、s0和p分别表示卷积核大小、卷积步长(stride)和填充(padding)层数。
第k个通道、第l层的池化层中元素
Figure BDA0002669504020000064
的表示形式为:
Figure BDA0002669504020000065
其中,步长s0、像素(i,j)的含义与卷积层相同,p是预指定参数。Softmax分类器将输入映射为0至1之间的实数,并且通过归一化使分类器的输出和为1。在含有j个元素的数组V中,Vi表示其中的第i个元素,则这个元素的softmax函数输出值为:
Si=eijej,1≤i≤j,
其中,
Figure BDA0002669504020000066
上述三种数据特征提取结果是多源数据特征。
所述编解码模块,其根据所述的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,包括:
对空间和时间域的多源数据特征进行基于Transformer网络的编码,其对应的编码部分包含6个相同的注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)。每个子层(sub-layer)都加了残差连接(residualconnection)和归一化模块(normalization),其子层的输出表示为:
sublayeroutput=LayerNorm(x+(SubLayer(x))),
其中LayerNorm表示归一化;SubLayer表示子层,x+SubLayer(x)表示残差连接;注意力层中所实现的多头注意力(multi-head attention)算法是通过h个不同的线性变换对查询向量Q,Q的数据维度为dk,键向量K,值向量V进行投影,最后将不同的注意力机制建模结果用softmax函数拼接起来,其过程表示为:
Figure BDA0002669504020000071
其中
Figure BDA0002669504020000072
根据面部在发音过程中所涉及的肌肉运动引起语音、视觉与肌电通道的同步变化特性,通过该同步变化特性来约束三种模态数据的特征在对应于同一语音过程时的一致性,实现各模态通道对同一语音过程的各自建模;
获得不同模态表达内容的共性信息模型。
所述编解码模块,其根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果,得到多模态语音信息,包括:
将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层(multi-head attention sub-layer)连接和输出,得到多模态模型筛选结果;
将多模态模型筛选结果输入至Transformer网络解码部分(Decoder),得到多模态语音信息。解码部分由注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)组成,其输入包括两部分,一部分是基于跨模态注意力机制(Cross-modal Multi-head Attention Model)连接和输出的多模态模型筛选结果,二部分是对应前序位置解码部分的输出。解码部分的输出通过线性层连接后输入至softmax函数,得到对应于当前位置的识别词概率分布。根据softmax函数的特征,在多分类和输出词概率计算任务中常用交叉熵作为损失函数:
Figure BDA0002669504020000081
其中ti为线性层输出的真实值,Si为ti对应的softmax函数值;
所述文本合成模块,其根据所述多模态语音信息,使用语言模型,合成文本,具体包括:
使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。
本发明的优点在于:
(一)针对音频信号、唇部图像信号和面部肌电信号的多源异质特性,通过多源协同建模方法与融合人体发音机理先验的多源协同感知方法相结合,得到多源信息协同感知。通过基于跨模态注意力的模态特征融合增强技术,对多源建模质量进行评估和建模结果筛选,从而得到多模态语音信息的协同语义表征方法。
(二)通过基于多源协同语义表征和多源数据信息协同决策,实现在声带受损、高噪声、高封闭、高隐私性要求等复杂场景环境下的高效、准确、鲁棒的语音识别,为复杂人机交互场景提供了更可靠的语音交互技术和系统。
附图说明
图1为基于多模态的复杂场景语音识别装置的总体示意图;
图2为基于多模态的复杂场景语音识别方法的实现示意图;
图3为基于多模态的复杂场景语音识别方法的步骤示意图;
图4为基于多模态的复杂场景语音识别方法的数据处理示意图。
具体实施方式
为了更好的了解本发明内容,这里给出一个实施例。
一方面,本发明提出一种基于多模态的复杂场景语音识别方法,图1为基于多模态的复杂场景语音识别装置的总体示意图。该方法包括:
S1,以图像传感器所采集的唇部图像的变化作为多模态数据输入的标志,即唇部图像数据采集装置监测用户唇部图像是否发生变化,若监测到所采集的用户唇部图像发生变化,则认为用户发出语音输入,同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号;
S2,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征;
S3,根据所述空间和时间域的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息;
S4,根据所述不同模态表达内容的共性信息和基于跨模态注意力机制的多模态建模筛选结果,使用语音识别模型解码,得到多模态语音信息;
S5,根据所述多模态语音信息,使用语言模型,合成文本。
图2为基于多模态的复杂场景语音识别方法的实现示意图。
步骤S2中,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,包括:
对音频信号进行加窗分帧、短时傅里叶变换(Short-time Fourier Transform,STFT)和提取梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC);
对面部肌电信号进行短时傅里叶变换(STFT)和线性判别式分析(LinearDiscriminant Analysis,LDA);
将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络。VGG是一种用以提取图像特征和信息的卷积神经网络模型。根据卷积核的大小和卷积层数目的不同,VGG共有6种网络结构配置,其中VGG16较为常用。VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成。卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),卷积核在工作时,有规律地扫过输入特征,对输入特征做矩阵元素乘法求和并叠加偏差量,计算公式为:
Figure BDA0002669504020000091
Ll+1=(Ll+2p-f)/s0+1,
其中,b为偏差量,Zl和Zl+1分别表示第(l+1)层的二维卷积特征图(feature map)输入和输出,Ll+1为Zl+1的尺寸。Zl+1(i,j)表示二维卷积特征图中第i行、第j列的像素,(i,j)表示图中第i行、第j列的像素,
Figure BDA0002669504020000101
表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素,Kl为第l层特征图的通道数,wl+1表示第(l+1)层的二维卷积特征图的权重系数,
Figure BDA0002669504020000102
表示第k个通道、第(l+1)层的二维卷积特征图的权重系数,f、s0和p分别表示卷积核大小、卷积步长(stride)和填充(padding)层数。
第k个通道、第l层的池化层中元素
Figure BDA0002669504020000103
的表示形式为:
Figure BDA0002669504020000104
其中,步长s0、像素(i,j)的含义与卷积层相同,p是预指定参数。当p=1时,被称为均值池化(average pooling);当p→∞时,被称为极大池化(max pooling)。Softmax分类器将输入映射为0至1之间的实数,并且通过归一化使分类器的输出和为1,因此用在多分类任务中的输出概率之和也为1。在含有j个元素的数组V中,Vi表示其中的第i个元素,则这个元素的softmax函数输出值为:
Si=eijej,1≤i≤j,
其中,
Figure BDA0002669504020000105
上述三种数据特征提取结果是多源数据特征。具体来说,音频信号进行加窗分帧、短时傅里叶变换(Short-time Fourier Transform,STFT)和提取梅尔倒谱系数(MelFrequency Cepstrum Coefficient,MFCC);面部肌电信号进行短时傅里叶变换(STFT)和线性判别式分析(Linear Discriminant Analysis,LDA);唇部图像数据输入预训练好的ResNet-50网络或VGG16网络,这三种数据特征提取结果是多源数据特征。
步骤S3中,根据所述的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,包括:
对空间和时间域的多源数据特征进行基于Transformer网络的编码,其对应的编码部分包含6个相同的注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)。每个子层(sub-layer)都加了残差连接(residualconnection)和归一化模块(normalization),其子层的输出表示为:
sublayeroutput=LayerNorm(x+(SubLayer(x))),
其中LayerNorm表示归一化;SubLayer表示子层,x+SubLayer(x)表示残差连接;注意力层中所实现的多头注意力(multi-head attention)算法是通过h个不同的线性变换对查询向量Q,Q的数据维度为dk,键向量K,值向量V进行投影,最后将不同的注意力机制建模结果用softmax函数拼接起来得到:
Figure BDA0002669504020000111
其中
Figure BDA0002669504020000112
根据面部在发音过程中所涉及的肌肉运动引起语音、视觉与肌电通道的同步变化特性,通过该同步变化特性来约束三种模态数据的特征在对应于同一语音过程时的一致性,实现各模态通道对同一语音过程的各自建模;
获得不同模态表达内容的共性信息模型。
步骤S4中,根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果,得到多模态语音信息,包括:
将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层(multi-head attention sub-layer)连接和输出,得到多模态模型筛选结果;
将多模态模型筛选结果输入至Transformer网络解码部分(Decoder),得到多模态语音信息。解码部分由注意力层(multi-head attention sub-layer)和全连接层(fullyconnected feed-forward sub-layer)组成,其输入包括两部分,一是基于跨模态注意力机制(Cross-modal Multi-head Attention Model)连接和输出的多模态模型筛选结果,二是对应前序位置解码部分的输出。解码部分的输出通过线性层连接后输入至softmax函数,得到对应于当前位置的识别词概率分布。根据softmax函数的特征,在多分类和输出词概率计算任务中常用交叉熵作为损失函数:
Figure BDA0002669504020000121
其中ti为线性层输出的真实值,Si为ti对应的softmax函数值。
步骤S5中,根据所述多模态语音信息,使用语言模型合成文本,包括:
使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。对于一个由n个词组成的句子S=(m1,m2,m3,…,mn),每一个单词mi出现的概率都依赖于从第一个单词到它之前一个单词,用p(mi|mi-1,…,m2,m1)表示单词mi-1,…,m2,m1出现后,单词mi出现的概率,则句子S出现的概率为:
p(S)=p(m1,m2,m3,…,mn)=p(m1)p(m2|m1)…p(mn|mn-1,…,m2,m1)。
图3为基于多模态的复杂场景语音识别方法的步骤示意图,图4为基于多模态的复杂场景语音识别方法的数据处理示意图。
第二方面,本发明提出一种基于多模态的复杂场景语音识别装置,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块;
所述数据采集模块,用于采集语音输入时同步获取的音频信号、唇部图像信号和面部肌电信号数据,发送至特征提取模块;
所述特征提取模块,用于对接收到的所述音频信号、唇部图像信号和面部肌电信号数据分别进行数据处理和特征提取,得到空间和时间域的多源数据特征,发送至编解码模块;
所述编解码模块,用于对接收到的空间和时间域的多源数据特征进行基于Transformer和跨模态注意力机制的编码、多模态建模结果筛选和解码,得到多模态语音信息,发送至文本合成模块;
所述文本合成模块,用于根据所述多模态语音信息,使用语言模型,合成文本,发送至交互模块;
所述交互模块,用于将文本合成结果进行显示,并发送至与其相连接的接收设备。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于多模态的复杂场景语音识别方法,其特征在于,包括:
S1,以图像传感器所采集的唇部图像的变化作为多模态数据输入的标志,即唇部图像数据采集装置监测用户唇部图像是否发生变化,若监测到所采集的用户唇部图像发生变化,则认为用户发出语音输入,同步采集语音输入对应的音频信号、唇部图像信号和面部肌电信号;
S2,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征;
S3,根据所述空间和时间域的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息;
S4,根据所述不同模态表达内容的共性信息和基于跨模态注意力机制的多模态建模筛选结果,使用语音识别模型解码,得到多模态语音信息;
S5,根据所述多模态语音信息,使用语言模型,合成文本。
2.如权利要求1所述的一种基于多模态的复杂场景语音识别方法,其特征在于,步骤S2中,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,包括:
对音频信号进行加窗分帧、短时傅里叶变换和提取梅尔倒谱系数;
对面部肌电信号进行短时傅里叶变换和线性判别式分析;
将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络;
上述三种数据特征提取结果是多源数据特征。
3.如权利要求2所述的一种基于多模态的复杂场景语音识别方法,其特征在于,所述的VGG16网络由13个卷积层、5个池化层、3个全连接层和softmax分类器组成;卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量,卷积核在工作时,有规律地扫过输入特征,对输入特征做矩阵元素乘法求和并叠加偏差量,计算公式为:
Figure FDA0002669504010000011
Ll+1=(Ll+2p-f)/s0+1,
其中,b为偏差量,Zl和Zl+1分别表示第(l+1)层的二维卷积特征图输入和输出,Ll+1为Zl+1的尺寸;Zl+1(i,j)表示二维卷积特征图中第i行、第j列的像素,(i,j)表示图中第i行、第j列的像素,
Figure FDA0002669504010000021
表示第k个通道、第l层二维卷积特征图中第i行、第j列的像素,Kl为第l层特征图的通道数,wl+1表示第(l+1)层的二维卷积特征图的权重系数,
Figure FDA0002669504010000022
表示第k个通道、第(l+1)层的二维卷积特征图的权重系数,f、s0和p分别表示卷积核大小、卷积步长和填充层数;
第k个通道、第l层的池化层中元素
Figure FDA0002669504010000023
的表示形式为:
Figure FDA0002669504010000024
其中,步长s0、像素(i,j)的含义与卷积层相同,p是预指定参数;
Softmax分类器将输入映射为0至1之间的实数,并且通过归一化使分类器的输出和为1;在含有j个元素的数组V中,Vi表示其中的第i个元素,则这个元素的softmax函数输出值为:
Si=ei/∑jej,1≤i≤j,
其中,
Figure FDA0002669504010000025
4.如权利要求1所述的一种基于多模态的复杂场景语音识别方法,其特征在于,步骤S3中,根据所述的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,包括:
对空间和时间域的多源数据特征进行基于Transformer网络的编码,其对应的编码部分包含6个相同的注意力层和全连接层;每个子层都加了残差连接和归一化模块,其子层的输出表示为:
sublayeroutput=LayerNorm(x+(SubLayer(x))),
其中LayerNorm表示归一化;SubLayer表示子层,x+SubLayer(x)表示残差连接;注意力层中所实现的多头注意力算法是通过h个不同的线性变换对查询向量Q,Q的数据维度为dk,键向量K,值向量V进行投影,最后将不同的注意力机制建模结果用softmax函数拼接起来,其过程表示为:
Figure FDA0002669504010000026
其中
Figure FDA0002669504010000027
根据面部在发音过程中所涉及的肌肉运动引起语音、视觉与肌电通道的同步变化特性,通过该同步变化特性来约束三种模态数据的特征在对应于同一语音过程时的一致性,实现各模态通道对同一语音过程的各自建模;
获得不同模态表达内容的共性信息模型。
5.如权利要求1所述的一种基于多模态的复杂场景语音识别方法,其特征在于,步骤S4中,根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果,得到多模态语音信息,包括:
将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层连接和输出,得到多模态模型筛选结果;
将多模态模型筛选结果输入至Transformer网络解码部分,得到多模态语音信息;解码部分由注意力层和全连接层组成,其输入包括两部分,一部分是基于跨模态注意力机制连接和输出的多模态模型筛选结果,二部分是对应前序位置解码部分的输出;解码部分的输出通过线性层连接后输入至softmax函数,得到对应于当前位置的识别词概率分布;根据softmax函数的特征,在多分类和输出词概率计算任务中常用交叉熵作为损失函数:
Figure FDA0002669504010000031
其中ti为线性层输出的真实值,Si为ti对应的softmax函数值。
6.如权利要求1所述的一种基于多模态的复杂场景语音识别方法,其特征在于,步骤S5中,根据所述多模态语音信息,使用语言模型合成文本,包括:
使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。
7.一种基于多模态的复杂场景语音识别装置,其特征在于,包括数据采集模块、特征提取模块、编解码模块、文本合成模块和交互模块;
所述数据采集模块,用于采集语音输入时同步获取的音频信号、唇部图像信号和面部肌电信号数据,发送至特征提取模块;
所述特征提取模块,用于对接收到的所述音频信号、唇部图像信号和面部肌电信号数据分别进行数据处理和特征提取,得到空间和时间域的多源数据特征,发送至编解码模块;
所述编解码模块,用于对接收到的空间和时间域的多源数据特征进行基于Transformer和跨模态注意力机制的编码、多模态建模结果筛选和解码,得到多模态语音信息,发送至文本合成模块;
所述文本合成模块,用于根据所述多模态语音信息,使用语言模型,合成文本,发送至交互模块;
所述交互模块,用于将文本合成结果进行显示,并发送至与其相连接的接收设备。
8.如权利要求7所述的一种基于多模态的复杂场景语音识别装置,其特征在于,所述的数据提取模块,根据所述音频信号、唇部图像信号和面部肌电信号,确定信号在空间和时间域的多源数据特征,包括:
对音频信号进行加窗分帧、短时傅里叶变换和提取梅尔倒谱系数;
对面部肌电信号进行短时傅里叶变换和线性判别式分析;
将唇部图像数据输入预训练好的ResNet-50网络或VGG16网络;
上述三种数据特征提取结果是多源数据特征。
9.如权利要求7所述的一种基于多模态的复杂场景语音识别装置,其特征在于,所述的编解码模块,其根据所述的多源数据特征,构建序列层面的连续感知,使用语音识别模型对多源数据特征进行编码和建模,获得不同模态表达内容的共性信息,包括:
对空间和时间域的多源数据特征进行基于Transformer网络的编码,其对应的编码部分包含6个相同的注意力层和全连接层;每个子层都加了残差连接和归一化模块,其子层的输出表示为:
sublayeroutput=LayerNorm(x+(SubLayer(x))),
其中LayerNorm表示归一化;SubLayer表示子层,x+SubLayer(x)表示残差连接;注意力层中所实现的多头注意力算法是通过h个不同的线性变换对查询向量Q,Q的数据维度为dk,键向量K,值向量V进行投影,最后将不同的注意力机制建模结果用softmax函数拼接起来,其过程表示为:
Figure FDA0002669504010000041
其中
Figure FDA0002669504010000042
根据面部在发音过程中所涉及的肌肉运动引起语音、视觉与肌电通道的同步变化特性,通过该同步变化特性来约束三种模态数据的特征在对应于同一语音过程时的一致性,实现各模态通道对同一语音过程的各自建模;
获得不同模态表达内容的共性信息模型。
10.如权利要求7所述的一种基于多模态的复杂场景语音识别装置,其特征在于,所述编解码模块,其根据所述不同模态表达内容的共性信息模型和基于跨模态注意力机制的多模态模型筛选结果,得到多模态语音信息,包括:
将基于Transformer建模的不同模态表达内容的共性信息模型通过6个相同的跨模态注意力层连接和输出,得到多模态模型筛选结果;
将多模态模型筛选结果输入至Transformer网络解码部分,得到多模态语音信息;解码部分由注意力层和全连接层组成,其输入包括两部分,一部分是基于跨模态注意力机制连接和输出的多模态模型筛选结果,二部分是对应前序位置解码部分的输出;解码部分的输出通过线性层连接后输入至softmax函数,得到对应于当前位置的识别词概率分布;根据softmax函数的特征,在多分类和输出词概率计算任务中常用交叉熵作为损失函数:
Figure FDA0002669504010000051
其中ti为线性层输出的真实值,Si为ti对应的softmax函数值;
所述文本合成模块,其根据所述多模态语音信息,使用语言模型,合成文本,具体包括:
使用基于集束搜索算法的n-gram语言模型,得到多源协同的语音信息,合成文本。
CN202010928961.4A 2020-09-07 2020-09-07 一种基于多模态的复杂场景语音识别方法和装置 Active CN112151030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010928961.4A CN112151030B (zh) 2020-09-07 2020-09-07 一种基于多模态的复杂场景语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010928961.4A CN112151030B (zh) 2020-09-07 2020-09-07 一种基于多模态的复杂场景语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN112151030A true CN112151030A (zh) 2020-12-29
CN112151030B CN112151030B (zh) 2023-11-21

Family

ID=73889249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010928961.4A Active CN112151030B (zh) 2020-09-07 2020-09-07 一种基于多模态的复杂场景语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN112151030B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967713A (zh) * 2021-01-23 2021-06-15 西安交通大学 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
CN113034500A (zh) * 2021-05-25 2021-06-25 紫东信息科技(苏州)有限公司 基于多通道结构的消化道内窥镜图片病灶识别系统
CN113869212A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 多模态活体检测方法、装置、计算机设备及存储介质
CN114464182A (zh) * 2022-03-03 2022-05-10 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114821781A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统
CN114999461A (zh) * 2022-05-30 2022-09-02 中国科学技术大学 一种基于面颈部表面肌电的无声语音解码方法
CN115170638A (zh) * 2022-07-13 2022-10-11 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN114821781B (zh) * 2022-04-25 2024-06-07 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2887351A1 (en) * 2013-12-18 2015-06-24 Karlsruher Institut für Technologie Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
WO2018213841A1 (en) * 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2887351A1 (en) * 2013-12-18 2015-06-24 Karlsruher Institut für Technologie Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
WO2018213841A1 (en) * 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MING LYU ET AL.: "Electromyography (EMG)-based Chinese voice command recognition", 2014 IEEE INTERNATIONAL CONFERENCE ON INFORMATION AND AUTOMATION(ICIA), pages 926 - 931 *
SAITOH ET AL.: "research on multi-modal silent speech recognition technology", IMPACT, pages 47 - 49 *
TAUHEED KHAN MOHD ET AL.: "Multi-modal data fusion of Voice and EMG data for robotic control", 2017 IEEE 8TH ANNUAL UBIQUITOUS COMPUTING, ELECTRONICS AND MOBILE COMMUNICATION CONFERENCE, pages 329 - 333 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967713A (zh) * 2021-01-23 2021-06-15 西安交通大学 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
CN112967713B (zh) * 2021-01-23 2023-08-22 西安交通大学 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
CN113034500A (zh) * 2021-05-25 2021-06-25 紫东信息科技(苏州)有限公司 基于多通道结构的消化道内窥镜图片病灶识别系统
CN113869212A (zh) * 2021-09-28 2021-12-31 平安科技(深圳)有限公司 多模态活体检测方法、装置、计算机设备及存储介质
CN114464182A (zh) * 2022-03-03 2022-05-10 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114464182B (zh) * 2022-03-03 2022-10-21 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114821781A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统
CN114821781B (zh) * 2022-04-25 2024-06-07 中国人民解放军军事科学院国防科技创新研究院 一种基于红外微光望远镜的多源融合唇语识别方法和系统
CN114999461A (zh) * 2022-05-30 2022-09-02 中国科学技术大学 一种基于面颈部表面肌电的无声语音解码方法
CN114999461B (zh) * 2022-05-30 2024-05-07 中国科学技术大学 一种基于面颈部表面肌电的无声语音解码方法
CN115170638A (zh) * 2022-07-13 2022-10-11 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法
CN115170638B (zh) * 2022-07-13 2023-04-18 东北林业大学 一种双目视觉立体匹配网络系统及其构建方法

Also Published As

Publication number Publication date
CN112151030B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN110992987B (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN112489635B (zh) 一种基于增强注意力机制的多模态情感识别方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN112053690B (zh) 一种跨模态多特征融合的音视频语音识别方法及系统
CN107452379B (zh) 一种方言语言的识别方法及虚拟现实教学方法和系统
CN107972028B (zh) 人机交互方法、装置及电子设备
CN115329779B (zh) 一种多人对话情感识别方法
Chen et al. A novel dual attention-based BLSTM with hybrid features in speech emotion recognition
CN113378806B (zh) 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN115641543B (zh) 一种多模态抑郁情绪识别方法及装置
CN112466326A (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN109147763A (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112418166A (zh) 一种基于多模态信息的情感分布学习方法
CN115937369A (zh) 一种表情动画生成方法、系统、电子设备及存储介质
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN116524898A (zh) 有声视频生成方法、装置、电子设备及存储介质
Paleček Experimenting with lipreading for large vocabulary continuous speech recognition
Wei et al. Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant