CN113744731B

CN113744731B - 多模态语音识别方法、系统及计算机可读存储介质

Info

Publication number: CN113744731B
Application number: CN202110913351.1A
Authority: CN
Inventors: 林峰; 刘天天; 高铭; 王超; 巴钟杰; 韩劲松; 许文曜; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-07-21
Anticipated expiration: 2041-08-10
Also published as: US20230047666A1; CN113744731A

Abstract

本发明公开了一种多模态语音识别方法、系统及计算机可读存储介质，该方法包括：当目标毫米波信号和目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数，并将第一对数梅尔频谱系数和第二对数梅尔频谱系数输入到融合网络中，以确定目标融合特征；融合网络至少包括校准模块和映射模块；校准模块用于目标音频信号和目标毫米波信号进行相互特征校准；映射模块用于对校准后的毫米波特征和所述校准后的音频特征进行融合处理；将目标融合特征输入到语义特征网络中，以确定目标用户对应的语音识别结果。本发明能够达到高准确率语音识别的目的。

Description

多模态语音识别方法、系统及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种多模态语音识别方法、系统及计算机可读存储介质。

背景技术

语音交互在智能交互场景中起着至关重要的作用，例如智能家居。语音交互提供了人与物联网设备之间的非接触式的人机交互。受益于深度学习和自然语言处理的发展，自动语音识别技术使语音交互的设备能准确获取用户说话内容。近年来，商用语音交互产品越来越受欢迎，例如智能扬声器(例如Amazon Echo和Google Home)、智能手机中的语音助手(例如Siri)以及车载语音控制交互(例如，特斯拉Model S/X/3/Y中的语音交互)。

然而，除了家庭场景以外，现如今的语音交互也需要解决公共场所(如街道、车站、大厅或聚会等)中更多样化的环境噪声(如交通噪声、商业噪声和附近的声音)。然而，基于麦克风阵列和音频的语音识别技术，要求音频信号是高信噪比且清晰的音频信号。因此，在噪音环境中，淹没在不可预测的噪音中的音频信号变得难以识别。此外，随着识别距离增长，语音质量也会逐渐衰减，从而影响识别准确率。为了解决上述这些困难，研究人员现利用多传感器信息融合进行语音增强和识别。比如，视听方法，将摄像机捕捉到的嘴唇运动与嘈杂的声音相结合，但受到照明条件、视线要求或遮挡的限制。超声辅助语音增强技术的工作距离虽然极短(20cm以内)，但是要求特定的姿势。

发明内容

本发明的目的是提供一种多模态语音识别方法、系统及计算机可读存储介质，以达到高准确率语音识别的目的。

为实现上述目的，本发明提供了如下方案：

一种多模态语音识别方法，包括：

获取目标毫米波信号和目标音频信号；

当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数；所述第一对数梅尔频谱系数是根据所述目标毫米波信号确定的，所述第二对数梅尔频谱系数是根据所述目标音频信号确定的；

将所述第一对数梅尔频谱系数和所述第二对数梅尔频谱系数输入到融合网络中，以确定目标融合特征；所述融合网络至少包括校准模块和映射模块；所述校准模块用于根据所述目标音频信号对所述目标毫米波信号进行特征校准处理，根据所述目标毫米波信号对所述目标音频信号进行特征校准处理，以获取校准后的毫米波特征和校准后的音频特征；所述映射模块用于对所述校准后的毫米波特征和所述校准后的音频特征进行融合处理，以得到目标融合特征；

将所述目标融合特征输入到语义特征网络中，以确定所述目标用户对应的语音识别结果。

可选的，所述获取目标毫米波信号和目标音频信号，具体包括：

获取毫米波雷达采集的目标毫米波信号；

获取麦克风采集的目标音频信号。

可选的，所述当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数，具体包括：

判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果；

若所述第一判断结果表示所述目标毫米波信号和所述目标音频信号均包括人声信息，则判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户，得到第二判断结果；

若所述第二判断结果表示所述目标毫米波信号和所述目标音频信号均来自目标用户，则对所述目标毫米波信号和所述目标音频信号分别进行短时傅里叶变换处理，以确定第一对数梅尔频谱系数和第二对数梅尔频谱系数。

可选的，所述判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果，具体包括：

对所述所述目标毫米波信号和所述目标音频信号分别进行预处理；

对预处理后的目标毫米波信号进行快速傅里叶变换处理以提取毫米波相位信号；

对所述毫米波相位信号进行差分处理以提取毫米波相位差信号；

将预处理后的目标音频信号与所述毫米波相位差信号相乘，以获得目标乘积分量；

计算所述目标乘积分量的谱熵；

判断所述谱熵是否大于设定阈值；

其中，当所述谱熵大于设定阈值时，表明所述目标毫米波信号和所述目标音频信号均包括人声信息。

可选的，所述判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户，具体包括：

对所述目标乘积分量进行处理以提取目标线性预测编码分量；

将所述目标线性预测编码分量输入到训练好的一类支持向量机中，以判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户；

其中，所述训练好的一类支持向量机是根据训练数据和一类支持向量机确定的；所述训练数据包括多个标定乘积分量以及每个所述标定乘积分量对应的标签；所述标签为标定用户；所述标定乘积分量是根据所述标定用户对应的毫米波信号和音频信号确定的乘积分量。

可选的，所述融合网络还包括两个相同的分支网络络，分别为第一分支网络和第二分支网络；所述分支网络包括第一ResECA块、第二ResECA块、第三ResECA块、第四ResECA块和第五ResECA块；

其中，所述校准模块的输入端分别连接所述第一分支网络的第三ResECA块的输出端和所述第二分支网络的第三ResECA块的输出端；所述校准模块的输出端分别连接所述第一分支网络的第四ResECA块的输入端和所述第二分支网络的第四ResECA块的输入端；

所述第一分支网络的第一ResECA块的输入端用于输入所述第一对数梅尔频谱系数；所述第一分支网络的第一ResECA块的输出端与所述第一分支网络的第二ResECA块的输入端连接，所述第一分支网络的第二ResECA块的输出端与所述第一分支网络的第三ResECA块的输入端，所述第一分支网络的第四ResECA块的输出端与所述第一分支网络的第五ResECA块的输入端连接；

所述第二分支网络的第一ResECA块的输入端用于输入所述第二对数梅尔频谱系数；所述第二分支网络的第一ResECA块的输出端与所述第二分支网络的第二ResECA块的输入端连接，所述第二分支网络的第二ResECA块的输出端与所述第二分支网络的第三ResECA块的输入端，所述第二分支网络的第四ResECA块的输出端与所述第二分支网络的第五ResECA块的输入端连接；

所述映射模块的输入端分别连接所述第一分支网络的第五ResECA块的输出端和所述第二分支网络的第五ResECA块的输出端。

可选的，所述校准模块的处理过程为：

根据第一中间特征，计算第一通道特征分布；所述第一中间特征是所述第一分支网络的第三ResECA块的输出端输出的信号；

根据所述第二中间特征，计算第二通道特征分布；所述第二中间特征是所述第二分支网络的第三ResECA块的输出端输出的信号；

根据所述第二通道特征分布，校准所述第一中间特征；

根据所述第一通道特征分布，校准所述第二中间特征。

可选的，所述映射模块的处理过程为：

根据所述校准后的毫米波特征，计算第一相似矩阵；

根据所述校准后的音频特征，计算第二相似矩阵；

对所述第一相似矩阵和所述第二相似矩阵分别进行归一化处理；

根据归一化处理后的第一相似矩阵，计算第一注意力特征；

根据归一化处理后的第二相似矩阵，计算第二注意力特征；

根据所述第一注意力特征和所述第二注意力特征，计算目标融合特征。

一种多模态语音识别系统，包括：

信号获取模块，用于获取目标毫米波信号和目标音频信号；

对数梅尔频谱系数计算模块，用于当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数；所述第一对数梅尔频谱系数是根据所述目标毫米波信号确定的，所述第二对数梅尔频谱系数是根据所述目标音频信号确定的；

目标融合特征确定模块，用于将所述第一对数梅尔频谱系数和所述第二对数梅尔频谱系数输入到融合网络中，以确定目标融合特征；所述融合网络至少包括校准模块和映射模块；所述校准模块用于根据所述目标音频信号对所述目标毫米波信号进行特征校准处理，根据所述目标毫米波信号对所述目标音频信号进行特征校准处理，以获取校准后的毫米波特征和校准后的音频特征；所述映射模块用于对所述校准后的毫米波特征和所述校准后的音频特征进行融合处理，以得到目标融合特征；

语音识别结果提取模块，用于将所述目标融合特征输入到语义特征网络中，以确定所述目标用户对应的语音识别结果。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现多模态语音识别方法的步骤

根据本发明提供的具体实施例，本发明公开了以下技术效果：

由于毫米波信号不受噪音影响，可以感知用户发声时的喉咙振动信息，因此当音频信号遭受到噪音污染时，本发明借助融合网络对毫米波信号和音频信号进行互相特征校准融合，即两者的特征互相校准，毫米波信号中的振动信息融入音频特征中，以得到目标融合特征，并且引导语义特征网络高精度的捕捉目标融合特征中语义信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多模态语音识别方法的流程示意图；

图2为本发明一种融合毫米波信号和音频信号的多模态语音识别方法的流程示意图；

图3为本发明多模态语音识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

英文缩写、中文译文和英文原词。

FFT：快速傅里叶变换，Fast Fourier Transform。

LPC：线性预测编码，LinearPrediction Coding。

OC-SVM：一类支持向量机，One-Class SupportVectorMachine。

STFT：短时傅里叶变换，Short-Time Fourier Transform。

ResECA：有效注意力机制的残差模块，Residual Block with Efficient ChannelAttention。

ReLU：线性整流函数，Rectified LinearUnit。

LAS：听，注意和拼写，Listen，Attend，and Spell。

pBLSTM：金字塔双向长短期记忆，pyramidal Bidirectional Long Short TermMemory。

LSTM：长短期记忆，Long Short Term Memory。

已经有研究证明，毫米波信号有助于语音信息恢复，具有出色的抗环境噪声和穿透性能。基于背景技术提出的问题，本发明采用毫米波雷达，作为语音识别的补充。毫米波雷达可以通过感知到远程目标用户，即使该用户在嘈杂的环境中戴着口罩，该毫米波雷达接收到的反射信号依旧包含了喉咙振动信息。然而，毫米波雷达的性能并不总是令人满意，由于波长很小(约4毫米)，毫米波信号对人声振动和运动振动都很敏感，所以在实践中，毫米波信号也会受到用户身体运动的影响。幸运的是，基于麦克风的语音采集，可以在一定程度上弥补信息的损失。因此，本发明考虑了毫米波雷达和麦克风之间的互补协作，将两种不同模态的信号融合以用于语音识别，即毫米波信号支持抗噪人声感知，麦克风收集的音频信号可作为在运动干扰下校准毫米波特征的指南。

鉴于此，本发明提供了一种融合毫米波信号和音频信号的多模态语音识别方法及系统。首先，基于毫米波信号与音频信号的相关性来执行语音活动检测和用户锁定这两项功能，以获得用户的毫米波信号和音频信号。然后将毫米波信号和音频信号输入至融合网络进行充分融合以获得融合特征。最后将融合特征输入至语义提取网络中以获得语义文本，即语音识别结果。本发明融合并增强了毫米波信号与音频信号的优势，在高噪音、远距离、多角度等恶劣条件下实现高准确率的语音识别。

实施例一

请参见图1，本实施例提供的一种多模态语音识别方法，具体包括如下步骤。

步骤10：获取目标毫米波信号和目标音频信号。

步骤20：当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数；所述第一对数梅尔频谱系数是根据所述目标毫米波信号确定的，所述第二对数梅尔频谱系数是根据所述目标音频信号确定的。

步骤30：将所述第一对数梅尔频谱系数和所述第二对数梅尔频谱系数输入到融合网络中，以确定目标融合特征；所述融合网络至少包括校准模块和映射模块；所述校准模块用于根据所述目标音频信号对所述目标毫米波信号进行特征校准处理，根据所述目标毫米波信号对所述目标音频信号进行特征校准处理，以获取校准后的毫米波特征和校准后的音频特征；所述映射模块用于对所述校准后的毫米波特征和所述校准后的音频特征进行融合处理，以得到目标融合特征。

步骤40：将所述目标融合特征输入到语义特征网络中，以确定所述目标用户对应的语音识别结果。

作为一种优选的实施方式，该步骤10具体包括：

获取毫米波雷达采集的目标毫米波信号。

获取麦克风采集的目标音频信号。

作为一种优选的实施方式，该步骤20具体包括：

判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果。

若所述第一判断结果表示所述目标毫米波信号和所述目标音频信号均包括人声信息，则判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户，得到第二判断结果。

其中，所述判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果，具体包括：

对所述所述目标毫米波信号和所述目标音频信号分别进行预处理。

对预处理后的目标毫米波信号进行快速傅里叶变换处理以提取毫米波相位信号。

对所述毫米波相位信号进行差分处理以提取毫米波相位差信号。

将预处理后的目标音频信号与所述毫米波相位差信号相乘，以获得目标乘积分量。

计算所述目标乘积分量的谱熵。

判断所述谱熵是否大于设定阈值。

进一步地，所述判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户，具体包括：

对所述目标乘积分量进行处理以提取目标线性预测编码分量。

将所述目标线性预测编码分量输入到训练好的一类支持向量机中，以判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户。

作为一种优选的实施方式，所述融合网络还包括两个相同的分支网络络，分别为第一分支网络和第二分支网络；所述分支网络包括第一ResECA块、第二ResECA块、第三ResECA块、第四ResECA块和第五ResECA块。

其中，所述校准模块的输入端分别连接所述第一分支网络的第三ResECA块的输出端和所述第二分支网络的第三ResECA块的输出端；所述校准模块的输出端分别连接所述第一分支网络的第四ResECA块的输入端和所述第二分支网络的第四ResECA块的输入端。

所述第一分支网络的第一ResECA块的输入端用于输入所述第一对数梅尔频谱系数；所述第一分支网络的第一ResECA块的输出端与所述第一分支网络的第二ResECA块的输入端连接，所述第一分支网络的第二ResECA块的输出端与所述第一分支网络的第三ResECA块的输入端，所述第一分支网络的第四ResECA块的输出端与所述第一分支网络的第五ResECA块的输入端连接。

进一步地，所述校准模块的处理过程为：

根据第一中间特征，计算第一通道特征分布；所述第一中间特征是所述第一分支网络的第三ResECA块的输出端输出的信号。

根据所述第二中间特征，计算第二通道特征分布；所述第二中间特征是所述第二分支网络的第三ResECA块的输出端输出的信号。

根据所述第二通道特征分布，校准所述第一中间特征。

根据所述第一通道特征分布，校准所述第二中间特征。

进一步地，所述映射模块的处理过程为：

根据所述校准后的毫米波特征，计算第一相似矩阵。

根据所述校准后的音频特征，计算第二相似矩阵。

对所述第一相似矩阵和所述第二相似矩阵分别进行归一化处理。

根据归一化处理后的第一相似矩阵，计算第一注意力特征。

根据归一化处理后的第二相似矩阵，计算第二注意力特征。

实施例二

如图2所示，本实施例提供了一种融合毫米波信号和音频信号的多模态语音识别方法，包括以下步骤：

步骤1：目标用户站在距离毫米波雷达与麦克风大概7米处，说出唤醒词和语音命令，同时毫米波雷达收集到毫米波信号，麦克风也采集到音频信号。

首先将这两种信号均切分成3秒长度，然后归一化处理并降采样至16kHz。接着对降采样后的毫米波信号进行快速傅里叶变换FFT处理以提取毫米波相位信号，随后对毫米波相位信号进行差分处理以提取毫米波相位差信号。将降采样后的音频信号与毫米波相位差信号相乘后，获得乘积分量，进而来判断该毫米波信号或者音频信号是否包含人声信息。

计算乘积分量的谱熵，如果谱熵大于设定的阈值，即大于0.83，则说明毫米波信号与音频信号都包含了人声信息；否则，说明毫米波信号或者音频信号没有感知到人声信息。将感知到人声信息的毫米波信号与音频信号进行步骤2，以判断毫米波信号与音频信号是否来自目标用户，而不是其他人的干扰。

步骤2：对乘积分量提取线性预测编码LPC分量，并将该LPC分量输入至训练好的一类支持向量机OC-SVM中以判断毫米波信号与音频信号是否来自目标用户。如果LPC分量来自目标用户，则进行步骤3，否则继续步骤1和步骤2。该训练好的OC-SVM已预先基于标定用户的毫米波信号与音频信号训练完善。

训练过程为：标定用户对着毫米波雷达与麦克风说唤醒词30遍，将收集的毫米波信号与音频信号均做步骤1中的预处理以获得标定乘积分量，利用从标定乘积分量提取的标定LPC分量和前述的标定用户来训练OC-SVM以使其能判断LPC分量是否来自目标用户。

步骤3：对包含用户人声的毫米波信号与音频信号进行短时傅里叶变换STFT处理，STFT处理后，分别计算STFT处理后的毫米波信号与音频信号的对数梅尔频谱系数。将对数梅尔频谱系数输入至融合网络中以获得融合特征。

该融合网络由两个分支网络组成，每个分支网络各自分别接收来自毫米波信号和音频信号的对数梅尔频谱系数，每个分支网络由5个ResECA块构成。该融合网络中有两个模块，一个为校准模块，用以再校准输入的两种特征，校准模块位于第3个ResECA后，来自第3个ResECA块的输出经过校准模块再重新流入第4个ResECA。另外一个为映射模块，该映射模块是将两种特征映射到同一个特征空间中以获得最终的融合特征，映射模块位于第5个ResECA块之后，接收分别来自两个分支网络的毫米波信号和音频信号。

在这里，介绍下校准模块的数学原理。X_W∈R^H×W×C和X_S∈R^H×W×C分别是来自各自分支网络的两个中间特征，R指实数域，H，W和C分别是宽度，长度和通道维度大小，下标W和S分别表示毫米波信号和音频信号。计算两者的通道特征分布Y_W和Y_S：

Y_W＝σ(W_WReLU(GAP(X_W))),Y_W∈R^1×1×C (1)；

Y_S＝σ(W_SReLU(GAP(X_S))),Y_S∈R^1×1×C (2)；

其中，ReLU为ReLU函数，W_W和W_S均是学习参数矩阵，σ为Sigmoid函数，GAP为全局池化函数。通道特征分布Y_W和Y_S可看作是特征检测器和滤波器。通过公式(3)和(4)来实现相互特征校准：

和/>分别是最终经过校准的毫米波特征和音频特征。基于两者的相关性，即两者都蕴含了用户人声信息，通过互相校准可以加强各自特征图中重要信息，并抑制无关干扰信息。

为了将两种来自不同特征空间的特征，即毫米波特征和音频特征映射到同一特征空间，设计了映射模块，并插入在融合网路的末尾以生成最终的融合特征。假设M∈R^H×W×C和V∈R^H×W×C分别是来自分支网络的毫米波特征和音频特征，将M和V展平成大小为R^C×HW的二维变量。计算M和V的相似矩阵：

S＝M^TW_MVV,S∈R^HW×HW (5)；

其中，W_MV是学习参数矩阵，S的每个元素都揭示了M和V的相应列之间的相关性。分别对相似矩阵进行Softmax归一化和列归一化：

S^M＝softmax(S),S^M∈R^HW×HW (6)；

S^V＝softmax(S^T),S^V∈R^HW×HW (7)；

S^M相似矩阵可以将毫米波特征空间转换到音频特征空间，同理，S^V可以将音频特征空间转换为毫米波特征空间。计算对应的注意力特征：

表示矩阵乘法。最终，基于两者的注意力特征，可以获得最终的融合特征Z：

Z＝W_Z{σ(C^M)⊙M+σ(C^V)⊙V},Z∈R^C×HW (10)；

W_Z是学习参数矩阵，代表了两种模态特征的Z选择性地整合了信息。Z中与人声振动和声学特性相关的细粒度元素占据了主导地位。将最终的融合网络输出的融合特征输入至语义提取网络中以进行语音识别。

步骤4：将最终的融合特征输入至语义特征网络以获得语义文本即语音识别结果。该方法中的语义特征网络为经典的LAS。LAS由两个组件组成：一个称为Listener的编码器和一个称为Speller的解码器。Listener通过pBLSTM将融合特征映射为隐藏特征。Speller则是一个叠加的递归神经网络，计算输出字符序列的概率，它采用多头注意机制生成上下文向量。在LAS中，两个连续的pBLSTM层作为Listener，Speller包含两层LSTM和一个输出Softmax层。LAS接收来自步骤3中的融合特征后，输出语音识别结果。

实施例三

请参见图3，本实施例提供的一种多模态语音识别系统，包括：

信号获取模块50，用于获取目标毫米波信号和目标音频信号。

对数梅尔频谱系数计算模块60，用于当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数；所述第一对数梅尔频谱系数是根据所述目标毫米波信号确定的，所述第二对数梅尔频谱系数是根据所述目标音频信号确定的。

目标融合特征确定模块70，用于将所述第一对数梅尔频谱系数和所述第二对数梅尔频谱系数输入到融合网络中，以确定目标融合特征；所述融合网络至少包括校准模块和映射模块；所述校准模块用于根据所述目标音频信号对所述目标毫米波信号进行特征校准处理，根据所述目标毫米波信号对所述目标音频信号进行特征校准处理，以获取校准后的毫米波特征和校准后的音频特征；所述映射模块用于对所述校准后的毫米波特征和所述校准后的音频特征进行融合处理，以得到目标融合特征。

语音识别结果提取模块80，用于将所述目标融合特征输入到语义特征网络中，以确定所述目标用户对应的语音识别结果。

实施例四

本实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序。

所述计算机程序被处理器执行时实现实施例一或者实施例二所述的多模态语音识别方法的步骤。

与现有技术相比，本发明具有以下效果：

1、抗噪音：毫米波信号不受噪音影响，可以感知用户发声时的喉咙振动信息。当音频信号遭受到噪音污染时，借助于融合网络，可以对来自毫米波特征和音频特征进行互相校准融合，即毫米波特征中的振动信息可以融入音频特征，并且引导网络捕捉音频特征中的语义信息，而不是噪音干扰。

2、识别距离远，角度广：毫米波雷达感知距离远，但是感知角度受限。麦克风雷达可以捕捉到全方位的声音，但是感知距离近。将这两种不同模态的特征输入至融合网络中，这种特征互相有选择地校准，互相增强特征，最终生成结合两者优势的融合特征。该融合特征结合了两类模态信息，即来自毫米波雷达远距离的喉咙振动信息和麦克风雷达的全方位语音信息。

3、适用于多人场景：毫米波雷达和麦克风雷达不一定采集到包含人声的信号，也不一定该信号来自用户。因此，设计的语音活动检测和用户检测均基于毫米波信号与音频信号的相关性，即两者信号均与人声信息有关，可以检测信号是否源自人声信息，并进一步判断是否来自用户，这使得该方法适用于人多嘈杂的场景。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多模态语音识别方法，其特征在于，包括：

获取目标毫米波信号和目标音频信号；所述目标毫米波信号为毫米波雷达接收到的反射信号，其中，包含喉咙振动信息；

2.根据权利要求1所述的一种多模态语音识别方法，其特征在于，所述获取目标毫米波信号和目标音频信号，具体包括：

获取毫米波雷达采集的目标毫米波信号；

获取麦克风采集的目标音频信号。

3.根据权利要求1所述的一种多模态语音识别方法，其特征在于，所述当所述目标毫米波信号和所述目标音频信号均包含目标用户对应的人声信息时，计算第一对数梅尔频谱系数和第二对数梅尔频谱系数，具体包括：

4.根据权利要求3所述的一种多模态语音识别方法，其特征在于，所述判断所述目标毫米波信号和所述目标音频信号是否均包括人声信息，得到第一判断结果，具体包括：

计算所述目标乘积分量的谱熵；

判断所述谱熵是否大于设定阈值；

5.根据权利要求4所述的一种多模态语音识别方法，其特征在于，所述判断所述目标毫米波信号和所述目标音频信号是否均来自目标用户，具体包括：

6.根据权利要求1所述的一种多模态语音识别方法，其特征在于，所述融合网络还包括两个相同的分支网络络，分别为第一分支网络和第二分支网络；所述分支网络包括第一ResECA块、第二ResECA块、第三ResECA块、第四ResECA块和第五ResECA块；

7.根据权利要求6所述的一种多模态语音识别方法，其特征在于，所述校准模块的处理过程为：

根据第二中间特征，计算第二通道特征分布；所述第二中间特征是所述第二分支网络的第三ResECA块的输出端输出的信号；

根据所述第二通道特征分布，校准所述第一中间特征；

根据所述第一通道特征分布，校准所述第二中间特征。

8.根据权利要求1所述的一种多模态语音识别方法，其特征在于，所述映射模块的处理过程为：

根据所述校准后的毫米波特征，计算第一相似矩阵；

根据所述校准后的音频特征，计算第二相似矩阵；

根据归一化处理后的第一相似矩阵，计算第一注意力特征；

根据归一化处理后的第二相似矩阵，计算第二注意力特征；

9.一种多模态语音识别系统，其特征在于，包括：

信号获取模块，用于获取目标毫米波信号和目标音频信号；所述目标毫米波信号为毫米波雷达接收到的反射信号，其中，包含喉咙振动信息；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8项中任一项所述多模态语音识别方法的步骤。