CN111028833B

CN111028833B - 一种交互、车辆的交互方法、装置

Info

Publication number: CN111028833B
Application number: CN201911300287.9A
Authority: CN
Inventors: 徐博; 吕骋; 郭彦东
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2022-08-16
Anticipated expiration: 2039-12-16
Also published as: CN111028833A

Abstract

本发明实施例提供了一种交互、车辆的交互方法、装置，所述交互方法包括：采集用户的音频信号和包含用户唇部图像的视频信号，并根据所述音频信号和所述视频信号，生成双模态特征；采用所述双模态特征和预设降噪网络，生成降噪表征值；采用所述降噪表征值对所述音频信号降噪；采用降噪后的所述音频信号和预设语音识别网络，生成交互指令。本发明实施例中，根据音频信号和包含唇部图像的视频信号生成双模态特征，采用降噪网络和双模态特征共同作用实现语音降噪，可以减小对音频信号的破坏，提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令，可以提高交互指令的识别准确性。

Description

一种交互、车辆的交互方法、装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种交互方法、一种车辆的交互方法、一种交互装置和一种车辆的交互装置。

背景技术

随着人工智能的发展，智能设备的人机交互成为人们的越来越关注的需求。语音识别被认为是有效的人机交互的首选，传统的语音识别系统在一些安静环境中，能够达到较高的识别准确率；但是在吵杂的环境中，识别准确率不能满足识别需求。

例如，在汽车语音识别的场景中，由于车内噪声情况较复杂，在某些情况下语音识别系统无法有效地识别用户发出的召唤指令，传统的语音识别系统依赖语音单模态的降噪处理，容易使频谱变得模糊、破坏语音，而且当汽车内播放歌曲、低速情况下汽车周边人物发声或车内多人同时发声时，无法确定有效地召唤音源，因此现有的降噪方法使得语音识别准确率不高。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种交互方法、一种车辆的交互方法、一种交互装置和一种车辆的交互装置。

为了解决上述问题，本发明实施例公开了一种交互方法，包括：

采集用户的音频信号和包含用户唇部图像的视频信号，并根据所述音频信号和所述视频信号，生成双模态特征；

采用所述双模态特征和预设降噪网络，生成降噪表征值；

采用所述降噪表征值对所述音频信号降噪；

采用降噪后的所述音频信号和预设语音识别网络，生成交互指令。

可选地，所述降噪表征值为降噪表征矩阵，所述降噪表征矩阵的元素的取值范围在[0，1]之间；

所述采用所述降噪表征值对所述音频信号降噪，包括：

将所述降噪表征矩阵与所述音频信号的语音频谱特征相乘，得到降噪后的语音频谱特征。

可选地，所述预设降噪网络包括包含自注意力机制的第一编码网络，所述采用所述双模态特征和预设降噪网络，生成降噪表征值，包括：

将所述双模态特征划分为多个子向量f_mi；

采用所述包含自注意力机制的第一编码网络和所述多个子向量f_mi，生成降噪表征矩阵。

可选地，所述第一编码网络包括多个编码子块，所述编码子块包括自注意力网络模块和前馈网络模块；

所述采用所述包含自注意力机制的第一编码网络和所述多个子向量f_mi，生成降噪表征矩阵，包括：

基于所述自注意力网络模块，计算子向量f_mi与各个子向量的相关度得分S_ij，并采用所述相关度得分S_ij计算所述子向量f_mi对应的表征值E_i；

将所述子向量f_mi对应的表征值E_i的值映射到0～1之间；

将各个所述子向量f_mi的E_i组合得到降噪表征矩阵E。

可选地，所述预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络；

所述采用降噪后的所述音频信号和预设语音识别网络，生成交互指令，包括：

将所述降噪后的语音频谱特征，输入到所述包含自注意力机制的第二编码网络；

将所述包含自注意力机制的解码网络输出的文字序列作为交互指令。

可选地，所述根据所述音频信号和所述视频信号，生成双模态特征，包括：

根据所述音频信号获得目标语音特征；

从所述视频信号提取用户唇部的图像序列，并从所述图像序列提取目标图像特征；

将所述目标语音特征和所述目标图像特征在时域上合并，得到双模态特征。

可选地，所述根据所述音频信号获得目标语音特征，包括：

从所述音频信号提取语音频谱特征；

采用时序卷积网络从所述语音频谱图提取目标语音特征。

可选地，所述从所述图像序列提取目标图像特征，包括：

采用预设图像序列特征提取网络，从所述图像序列提取目标图像特征；其中，所述预设图像序列特征提取网络包括深度残差网络与时序卷积网络。

可选地，所述将所述目标语音特征和所述目标图像特征在时域上合并，得到双模态特征，包括：

将所述目标语音特征和所述目标图像特征在时域上加权合并，得到双模态特征。

可选地，所述第一编码网络通过如下方式训练得到：

获取视频信号和噪声语音频谱；

以所述视频信号和所述噪声语音频谱作为输入，以正确标注为不含噪声的语音频谱作为输出，以L1损失函数，采用监督学习方式对所述降噪网络进行训练，得到所述自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

可选地，所述预设语音识别网络通过如下方式训练得到：

获取经过降噪的语音频谱特征；

以所述语音频谱特征为输入，以文字序列为输出，采用序列-序列损失函数，对所述语音识别网络进行训练。

本发明实施例还公开了一种车辆的交互方法，包括：

采集车辆中用户的音频信号和包含用户唇部图像的视频信号，并根据所述音频信号和所述视频信号，生成双模态特征；

采用所述双模态特征和预设降噪网络，生成降噪表征值；

采用所述降噪表征值对所述音频信号降噪；

采用降噪后的所述音频信号和预设语音识别网络，生成交互指令；

执行所述交互指令对应的交互操作。

可选地，所述执行所述交互指令对应的交互操作，包括：

识别所述交互指令对应的目标用户在车辆内的位置；

根据所述目标用户在车辆内的位置，执行所述交互指令对应的交互操作。

本发明实施例还公开了一种交互装置，包括：

双模态特征生成模块，用于采集用户的音频信号和包含用户唇部图像的视频信号，并根据所述音频信号和所述视频信号，生成双模态特征；

降噪表征值生成模块，用于采用所述双模态特征和预设降噪网络，生成降噪表征值；

降噪模块，用于采用所述降噪表征值对所述音频信号降噪；

交互指令生成模块，用于采用降噪后的所述音频信号和预设语音识别网络，生成交互指令。

所述降噪模块包括：

降噪子模块，用于将所述降噪表征矩阵与所述音频信号的语音频谱特征相乘，得到降噪后的语音频谱特征。

可选地，所述预设降噪网络包括包含自注意力机制的第一编码网络，所述降噪表征值生成模块包括：

子向量生成子模块，用于将所述双模态特征划分为多个子向量f_mi；

降噪表征矩阵生成子模块，用于采用所述包含自注意力机制的第一编码网络和所述多个子向量f_mi，生成降噪表征矩阵。

所述降噪表征矩阵生成子模块包括：

子向量表征值生成单元，用于基于所述自注意力网络模块，计算子向量f_mi与各个子向量的相关度得分S_ij，并采用所述相关度得分S_ij计算所述子向量f_mi对应的表征值E_i；

表征值映射单元，用于将所述子向量f_mi对应的表征值E_i的值映射到0～1之间；

降噪表征矩阵生成单元，用于将各个所述子向量f_mi的E_i组合得到降噪表征矩阵E。

所述交互指令生成模块包括：

语音频谱特征输入子模块，用于将所述降噪后的语音频谱特征，输入到所述包含自注意力机制的第二编码网络；

交互指令输出子模块，用于将所述包含自注意力机制的解码网络输出的文字序列作为交互指令。

可选地，所述双模态特征生成模块包括：

目标语音特征获取子模块，用于根据所述音频信号获得目标语音特征；

目标图像特征提取子模块，用于从所述视频信号提取用户唇部的图像序列，并从所述图像序列提取目标图像特征；

双模态特征生成子模块，用于将所述目标语音特征和所述目标图像特征在时域上合并，得到双模态特征。

可选地，所述目标语音特征获取子模块包括：

语音频谱特征提取单元，用于从所述音频信号提取语音频谱特征；

目标语音特征提取单元，用于采用时序卷积网络从所述语音频谱图提取目标语音特征。

可选地，所述目标图像特征提取子模块包括：

目标图像特征提取单元，用于采用预设图像序列特征提取网络，从所述图像序列提取目标图像特征；其中，所述预设图像序列特征提取网络包括深度残差网络与时序卷积网络。

可选地，所述双模态特征生成子模块包括：

双模态特征生成单元，用于将所述目标语音特征和所述目标图像特征在时域上加权合并，得到双模态特征。

可选地，所述第一编码网络通过如下模块训练得到：

第一训练数据获取模块，用于获取视频信号和噪声语音频谱；

第一训练模块，用于以所述视频信号和所述噪声语音频谱作为输入，以正确标注为不含噪声的语音频谱作为输出，以L1损失函数，采用监督学习方式对所述降噪网络进行训练，得到所述自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

可选地，所述预设语音识别网络通过如下模块训练得到：

第二训练数据获取模块，用于获取经过降噪的语音频谱特征；

第二训练模块，用于以所述语音频谱特征为输入，以文字序列为输出，采用序列-序列损失函数，对所述语音识别网络进行训练。

本发明实施例还公开了一种车辆的交互装置，包括：

双模态特征生成模块，用于采集车辆中用户的音频信号和包含用户唇部图像的视频信号，并根据所述音频信号和所述视频信号，生成双模态特征；

降噪模块，用于采用所述降噪表征值对所述音频信号降噪；

交互指令生成模块，用于采用降噪后的所述音频信号和预设语音识别网络，生成交互指令；

交互操作执行模块，用于执行所述交互指令对应的交互操作。

可选地，所述交互操作执行模块包括：

位置识别子模块，用于识别所述交互指令对应的目标用户在车辆内的位置；

交互操作执行子模块，用于根据所述目标用户在车辆内的位置，执行所述交互指令对应的交互操作。

本发明实施例还公开了一种车辆，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的交互方法的步骤。

本发明实施例还公开了一种车辆，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的车辆的交互方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的交互方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的车辆的交互方法的步骤。

本发明实施例包括以下优点：

本发明实施例中，根据音频信号和包含唇部图像的视频信号生成双模态特征，采用降噪网络和双模态特征共同作用实现语音降噪，可以减小对音频信号的破坏，提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令，可以提高交互指令的识别准确性。

附图说明

图1是本发明的一种交互方法实施例一的步骤流程图；

图2是本发明的一种交互方法实施例二的步骤流程图；

图3是本发明实施例中一种编码网络的示意图；

图4是本发明实施例中编码网络的自注意力机制示意图；

图5是本发明的一种降噪网络训练方法实施例的步骤流程图；

图6是本发明的一种语音识别网络训练方法实施例的步骤流程图；

图7是本发明的一种车辆的交互方法实施例的步骤流程图；

图8是本发明的一种交互装置实施例的结构框图；

图9是本发明的一种车辆的交互装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

传统的语音识别系统依赖语音单模态的降噪处理，往往采用自适应滤波器、谱减法和DNN(Deep Neural Networks，深度神经网络)等方法，传统降噪方法是基于统计意义上的近似或者模糊化处理，容易使频谱变得模糊、破坏语音，而且当汽车内播放歌曲、低速情况下汽车周边人物发声或车内多人同时发声时，无法确定有效地召唤音源。

本发明实施例的核心构思之一在于，结合图像与语音的双模态特征，可以从噪声或多人会话语音中提取出有效的召唤指令，提高用户与智能设备交互的成功率。

参照图1，示出了本发明的一种交互方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，采集用户的音频信号和包含用户唇部图像的视频信号，并根据音频信号和视频信号，生成双模态特征；

可以采用音频采集设备采集用户的音频信号，采用视频采集设备采集用户的视频信号；视频信号中具有用户的唇部图像，根据音频信号和视频信号生成表征音频、视频两种模态的双模态特征，与单模态特征相比双模态特征具有更多的特征。

步骤102，采用双模态特征和预设降噪网络，生成降噪表征值；

通过预设降噪网络可以得到音频特征与视频特征的关联性，进而通过视频特征确定音频特征的噪声分布，进而生成表征音频特征中的噪声分布的降噪表征值。

步骤103，采用降噪表征值对音频信号降噪；

音频信号中可以包括噪声信号和非噪声信号，由于降噪表征值反应了音频特征中的噪声分布，通过降噪表征值可以对音频信号中的噪声信号进行压缩，对音频信号中的非噪声信号则可以保留不变。

步骤104，采用降噪后的音频信号和预设语音识别网络，生成交互指令。

可以将语音信号输入到预设语音识别网络，由预设语音识别网络输出交互指令。

参照图2，示出了本发明的一种交互方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，采集用户的音频信号和包含用户唇部图像的视频信号，并根据音频信号和视频信号，生成双模态特征；

在本发明实施例中，根据音频信号和视频信号，生成双模态特征的步骤可以包括如下子步骤：

子步骤S11，根据音频信号获得目标语音特征；

可以采用STFT(short-time Fourier transform，短时傅里叶变换)和Mel滤波器，从音频信号提取梅尔刻度(Mel-scale)的语音频谱特征M_a，然后采用时序卷积网络从语音频谱图提取目标语音特征f_a。

子步骤S12，从视频信号提取用户唇部的图像序列，并从图像序列提取目标图像特征；

可以从视频信号中对用户进行人脸识别，确定人脸特征点，实现对唇部的定位，然后提取用户唇部的图像序列。

然后采用图像序列特征提取网络，从图像序列提取目标图像特征f_v；其中，图像序列特征提取网络包括深度残差网络(例如，三维残差卷积神经网络ResNet)与时序卷积网络。

子步骤S13，将目标语音特征和目标图像特征在时域上合并，得到双模态特征。

可以将目标语音特征f_a和目标图像特征f_v在时域上加权合并，得到双模态特征f_m＝a·f_v+b·f_a。

其中参数a与b分别为目标视频特征与目标语音特征的加权参数，采用加权的方式可以使目标视频特征与目标语音特征更好地融合，实现特征互补。在一种示例中，加权参数预先均设置成0.5，并通过微调fine-tuning进行修正。

步骤202，将双模态特征划分为多个子向量f_mi；

双模态特征f_m尺度为T×H，其中T为视频帧(时域)长度，H为双模态特征在时域上的通道数。

可以将双模态特征划分成T个长度为H的一维子向量f_m1...f_mT，双模态特征划的任一子向量可以表示为f_mi。

步骤203，采用包含自注意力机制的第一编码网络和多个子向量f_mi，生成降噪表征矩阵；其中，降噪表征矩阵的元素的取值范围在[0，1]之间；

含自注意力机制的第一编码网络便于特征内部的元素更好地理解各元素之间的分布与关联，即本发明中各子向量之间的关联与分布，因此可对目标视频特征与目标音频特征间的关联进行学习。

通过目标视频特征近似估计纯净(不含噪声)音频的分布，并结合输入的噪声音频特征，对噪声分布进行预测，通过输出取值区间为0～1的表征值反应噪声特征元素与不含噪声音频特征间的相对关系。其中由于噪声音频频谱矩阵M_a的各元素均大于或等于纯净音频频谱M_o的各元素，因此将降噪表征矩阵的元素映射到0～1取值空间范围。

通过双模态特征和编码网络可以得到音频特征与视频特征的关联性，进而通过视频特征确定音频特征的噪声分布，进而生成对应的降噪表征矩阵，反应噪声分布情况。对噪声较强部分输出较低的表征值，以实现降噪，反之输出较高的表征值，对于编码分析认为不含噪声的部分，表征值输出为1。

在本发明实施例中，第一编码网络可以包括多个编码子块，编码子块包括自注意力网络模块和前馈网络模块；参照图3所示为本发明实施例中一种编码网络的示意图。在一种示例中，编码网络可以包括6个编码子块，每个编码子块都包括自注意力网络模块和前馈网络模块。

自注意力网络模块具有Q(Query，查询)参数矩阵、K(Key，关键字)参数矩阵和V(Value，值)参数矩阵；步骤203可以包括如下子步骤：

子步骤S21，基于自注意力网络模块，计算子向量f_mi与各个子向量的相关度得分S_ij，并采用相关度得分S_ij计算子向量f_mi对应的表征值E_i；

具体的，可以将子向量f_mi分别与Q参数矩阵、K参数矩阵和V参数矩阵相乘，生成q_i、k_i、v_i向量；将子向量f_mi对应的q_i与各个子向量对应的k_i进行内积，得到子向量f_mi与各个子向量的相关度得分S_ij；采用Softmax对相关度得分S_ij处理，得到标准化得分s_ij，其中

将子向量f_mi的标准化得分s_ij与对应的v_ij加权求和，得到子向量f_mi对应的表征值

子步骤S22，将子向量f_mi对应的表征值E_i的值映射到0～1之间；

子步骤S23，将各个子向量f_mi的E_i组合得到降噪表征矩阵E。

参照图4所示，为本发明实施例中编码网络的自注意力机制示意图。其中，对于双模态特征的任一向量f_mi，分别对应q_i、k_i、v_i三个向量，q_i、k_i、v_i由f_mi与自注意力网络模块的Q参数矩阵、K参数矩阵、V参数矩阵相乘得到。例如，f_m1对应q₁、k₁、v₁，f_m2对应q₂、k₂、v₂，f_m3对应q₃、k₃、v₃。

通过将q_i与各子向量的k值进行内积，得到子向量f_mi与各子向量之间(包括子向量f_mi自身)的相关度得分S_ij(包括S_i1...S_iT)，例如，S₁₁为q₁×k₁，S₁₂为q₁×k₂，S₁₃为q₁×k₃。

采用Softmax对相关度得分S_ij进行处理，得到标准化得分s_ij(包括s_i1...s_iT)，其中

将标准化得分s_ij与对应的v_ij做加权求和，即可得到子向量f_mi对应的表征值

例如，E_i由s₁×v₁、s₂×v₂、……、s_T×v_T加权求和得到。

然后通过Sigmoid激活函数将E_i的值映射到0～1之间，当对所有的子向量按以上过程处理后，即可得到降噪表征矩阵E。

在本发明实施例中，第一编码网络可以通过如下方式训练得到：获取视频信号和噪声语音频谱；以视频信号和噪声语音频谱作为输入，以正确标注为不含噪声的语音频谱作为输出，以L1损失函数，采用监督学习方式对降噪网络进行训练，得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

步骤204，将降噪表征矩阵与音频信号的语音频谱特征相乘，得到降噪后的语音频谱特征；

由于语音频谱特征的元素去噪范围在0～1之间，通过将降噪表征矩阵与语音频谱特征点乘，可以使得语音频谱特征中的噪音乘以小于1的值，得到降噪；非噪音部分乘以1，保持不变。

步骤205，采用降噪后的语音频谱特征和预设语音识别网络，生成交互指令。

在本发明实施例中，预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络；步骤205可以包括如下子步骤：

子步骤S31，将降噪后的语音频谱特征，输入到包含自注意力机制的第二编码网络；

子步骤S32，将包含自注意力机制的解码网络输出的文字序列作为交互指令。

在本发明实施例中，第二编码网络和解码网络可以分别包括多个编码子块，每个编码子块包括自注意力网络模块和前馈网络模块。在一种示例中，第一编码网络、第二编码网络和解码网络可以设置相同的结构。

在本发明实施例中，可以通过第二编码网络对降噪后的语音频谱特征在时序上，进行自注意力编码得到相应的编码表征值，然后将编码表征值作为解码网络的查询过程的key与value值；将编码网络每次输出的预测字符与已经预测出的字符合并成新的已预测字符，并输入到第二编码网络，生成解码过程的query值；结合query值和先前得到的key值与value值，经过解码网络的注意力机制，通过前馈网络即可得到交互指令。

值得注意的是，传统的编码网络和解码网络通常是用于进行文本翻译，即将一种语言的文本序列输入到编码网络，由解码网络输出另一种语言的文本序列。而本发明实施例创造性的以语音频谱特征作为编码网络的输入，以文本序列作为解码网络的输出，实现了直接从语音频谱特征识别文本序列的交互指令。

在本发明实施例中，预设语音识别网络可以通过如下方式训练得到：获取经过降噪的语音频谱特征；以语音频谱特征为输入，以文字序列为输出，采用序列-序列损失函数，对语音识别网络进行训练。

本发明实施例中，根据音频信号和包含唇部图像的视频信号生成双模态特征，采用包含自注意力机制的第一编码网络和双模态特征共同作用实现语音降噪，可以减小对音频信号的破坏，提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令，可以提高交互指令的识别准确性。

参照图5，示出了本发明的一种降噪网络训练方法实施例的步骤流程图，降噪网络为包含自注意力机制的编码网络，编码网络包括多个编码子块，编码子块包括自注意力网络模块和前馈网络模块；该方法具体可以包括如下步骤：

步骤501，获取视频信号和噪声语音频谱；

步骤502，以视频信号和噪声语音频谱作为输入，以正确标注为不含噪声的语音频谱作为输出，以L1损失函数，采用监督学习方式对降噪网络进行训练，得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

L1损失函数，也被称为最小绝对值偏差，最小绝对值误差，是把目标值与估计值的绝对差值的总和最小化。

采用监督学习方式对整个降噪网络进行训练，输入为视频信号和噪声语音频谱，输出的正确标注(ground truth)为不含噪声的语音频谱，模型损失函数采用L1损失函数，通过训练与微调(fine-tuning)，即得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

参照图6，示出了本发明的一种语音识别网络训练方法实施例的步骤流程图，其中语音识别网络包括包含自注意力机制的编码网络和包含自注意力机制的解码网络，该方法包括：

步骤601，获取经过降噪的语音频谱特征；

步骤602，以语音频谱特征为输入，以文字序列为输出，采用序列-序列损失函数，对语音识别网络进行训练。

经过降噪的语音频谱特征可以是，采用上述实施例的降噪网络生成降噪表征矩阵对原始的语音频谱特征进行降噪后得到的语音频谱特征。

语音识别网络采用序列-序列(sequence-to-sequence)损失函数进行训练，输入为降噪后的语音频谱特征，输出为文字序列，即召唤指令，如开启空调、打开收音机等等。

参照图7，示出了本发明的一种车辆的交互方法实施例的步骤流程图，具体可以包括如下步骤：

步骤701，采集车辆中用户的音频信号和包含用户唇部图像的视频信号，并根据音频信号和视频信号，生成双模态特征；

通常车辆具有音频采集设备和图像采集设备等传感器。

可以采用音频采集设备采集用户的音频信号，采用视频采集设备采集用户的视频信号；视频信号中具有用户的唇部图像，根据音频信号和视频信号生成表征音频、视频两种模态的双模态特征。

步骤702，采用双模态特征和预设降噪网络，生成降噪表征值；

步骤703，采用降噪表征值对音频信号降噪；

步骤704，采用降噪后的音频信号和预设语音识别网络，生成交互指令；

步骤705，执行交互指令对应的交互操作。

在车辆中，车载系统可以根据交互指令，执行对应的交互操作。例如，若交互指令为打开窗户，则车载系统可以控制窗户打开；若交互指令为打开空调，则车载系统可以打开空调。

在本发明实施例中，步骤705可以包括如下子步骤：

子步骤S41，识别交互指令对应的目标用户在车辆内的位置；

具体的，车载系统可以通过视觉检测，从视频信号中确定发出交互指令的用户所在的位置，对用户进行有效定位和锁定。

还可以通过座椅压力传感器信号检测、座椅安全带信号检测等多种方式来确定发出交互指令的用户位于哪个位置。

子步骤S42，根据目标用户在车辆内的位置，执行交互指令对应的交互操作。

车载系统可以根据交互指令对应的目标用户在车辆的位置，执行交互指令对应的交互操作。

例如，若交互指令为打开窗户，且识别到发出交互指令的目标用户在副驾，则车载系统可以控制副驾位置对应的窗户打开。

进一步的，对于周围音源较多，尤其是播放歌曲、低速情况下汽车周边人物发声或车内多人同时发声时，本发明实施例可以识别发出交互指令的目标用户的位置，从而可以根据目标用户的位置和交互指令，更准确的执行交互操作，提升用户体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图8，示出了本发明的一种交互装置实施例的结构框图，具体可以包括如下模块：

双模态特征生成模块801，用于采集用户的音频信号和包含用户唇部图像的视频信号，并根据音频信号和视频信号，生成双模态特征；

降噪表征值生成模块802，用于采用双模态特征和预设降噪网络，生成降噪表征值；

降噪模块803，用于采用降噪表征值对音频信号降噪；

交互指令生成模块804，用于采用降噪后的音频信号和预设语音识别网络，生成交互指令。

在本发明实施例中，降噪表征值为降噪表征矩阵，降噪表征矩阵的元素的取值范围在[0，1]之间；降噪模块803可以包括：

降噪子模块，用于将降噪表征矩阵与音频信号的语音频谱特征相乘，得到降噪后的语音频谱特征。

在本发明实施例中，预设降噪网络包括包含自注意力机制的第一编码网络，降噪表征值生成模块802可以包括：

子向量生成子模块，用于将双模态特征划分为多个子向量f_mi；

降噪表征矩阵生成子模块，用于采用包含自注意力机制的第一编码网络和多个子向量f_mi，生成降噪表征矩阵。

在本发明实施例中，第一编码网络包括多个编码子块，编码子块包括自注意力网络模块和前馈网络模块；降噪表征矩阵生成子模块可以包括：

子向量表征值生成单元，用于基于自注意力网络模块，计算子向量f_mi与各个子向量的相关度得分S_ij，并采用相关度得分S_ij计算子向量f_mi对应的表征值E_i；

表征值映射单元，用于将子向量f_mi对应的表征值E_i的值映射到0～1之间；

降噪表征矩阵生成单元，用于将各个子向量f_mi的E_i组合得到降噪表征矩阵E。

在本发明实施例中，预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络；

交互指令生成模块804可以包括：

语音频谱特征输入子模块，用于将降噪后的语音频谱特征，输入到包含自注意力机制的第二编码网络；

交互指令输出子模块，用于将包含自注意力机制的解码网络输出的文字序列作为交互指令。

在本发明实施例中，双模态特征生成模块801可以包括：

目标语音特征获取子模块，用于根据音频信号获得目标语音特征；

目标图像特征提取子模块，用于从视频信号提取用户唇部的图像序列，并从图像序列提取目标图像特征；

双模态特征生成子模块，用于将目标语音特征和目标图像特征在时域上合并，得到双模态特征。

在本发明实施例中，目标语音特征获取子模块可以包括：

语音频谱特征提取单元，用于从音频信号提取语音频谱特征；

目标语音特征提取单元，用于采用时序卷积网络从语音频谱图提取目标语音特征。

在本发明实施例中，目标图像特征提取子模块可以包括：

目标图像特征提取单元，用于采用预设图像序列特征提取网络，从图像序列提取目标图像特征；其中，预设图像序列特征提取网络包括深度残差网络与时序卷积网络。

在本发明实施例中，双模态特征生成子模块可以包括：

双模态特征生成单元，用于将目标语音特征和目标图像特征在时域上加权合并，得到双模态特征。

在本发明实施例中，第一编码网络通过如下模块训练得到：

第一训练模块，用于以视频信号和噪声语音频谱作为输入，以正确标注为不含噪声的语音频谱作为输出，以L1损失函数，采用监督学习方式对降噪网络进行训练，得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

在本发明实施例中，预设语音识别网络通过如下模块训练得到：

第二训练模块，用于以语音频谱特征为输入，以文字序列为输出，采用序列-序列损失函数，对语音识别网络进行训练。

本发明还公开了一种降噪网络训练装置实施例，其中降噪网络为包含自注意力机制的编码网络，编码网络包括多个编码子块，编码子块包括自注意力网络模块和前馈网络模块；装置具体可以包括如下模块：

第三训练数据获取模块，用于获取视频信号和噪声语音频谱；

第三训练模块，用于以视频信号和噪声语音频谱作为输入，以正确标注为不含噪声的语音频谱作为输出，以L1损失函数，采用监督学习方式对降噪网络进行训练，得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。

本发明还公开了一种语音识别网络训练装置实施例，其中，语音识别网络包括包含自注意力机制的编码网络和包含自注意力机制的解码网络，装置具体可以包括如下模块：

第四训练数据获取模块，用于获取经过降噪的语音频谱特征；

第四训练模块，用于以语音频谱特征为输入，以文字序列为输出，采用序列-序列损失函数，对语音识别网络进行训练。

参照图9，示出了本发明的一种车辆的交互装置实施例的结构框图，具体可以包括如下模块：

双模态特征生成模块901，用于采集车辆中用户的音频信号和包含用户唇部图像的视频信号，并根据音频信号和视频信号，生成双模态特征；

降噪表征值生成模块902，用于采用双模态特征和预设降噪网络，生成降噪表征值；

降噪模块903，用于采用降噪表征值对音频信号降噪；

交互指令生成模块904，用于采用降噪后的音频信号和预设语音识别网络，生成交互指令；

交互操作执行模块905，用于执行交互指令对应的交互操作。

在本发明实施例中，交互操作执行模块905可以包括：

位置识别子模块，用于识别交互指令对应的目标用户在车辆内的位置；

交互操作执行子模块，用于根据目标用户在车辆内的位置，执行交互指令对应的交互操作。

进一步的，本发明实施例可以识别发出交互指令的目标用户的位置，从而可以根据目标用户的位置和交互指令，更准确的执行交互操作，提升用户体验。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种车辆，包括：

包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述交互方法，或，降噪网络训练方法，或，语音识别网络训练方法，或，车辆的交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述交互方法，或，降噪网络训练方法，或，语音识别网络训练方法，或，车辆的交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种交互方法、一种车辆的交互方法、一种交互装置和一种车辆的交互装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种交互方法，其特征在于，包括：

采用所述双模态特征和预设降噪网络，生成降噪表征值；所述降噪表征值表征音频特征中的噪声分布；

采用所述降噪表征值对所述音频信号降噪；

2.根据权利要求1所述的方法，其特征在于，所述降噪表征值为降噪表征矩阵，所述降噪表征矩阵的元素的取值范围在[0，1]之间；

所述采用所述降噪表征值对所述音频信号降噪，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述预设降噪网络包括包含自注意力机制的第一编码网络，所述采用所述双模态特征和预设降噪网络，生成降噪表征值，包括：

将所述双模态特征划分为多个子向量f_mi；

4.根据权利要求3所述的方法，其特征在于，所述第一编码网络包括多个编码子块，所述编码子块包括自注意力网络模块和前馈网络模块；

将所述子向量f_mi对应的表征值E_i的值映射到0～1之间；

将各个所述子向量f_mi的E_i组合得到降噪表征矩阵E。

5.根据权利要求2所述的方法，其特征在于，所述预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络；

6.根据权利要求1所述的方法，其特征在于，所述根据所述音频信号和所述视频信号，生成双模态特征，包括：

根据所述音频信号获得目标语音特征；

7.根据权利要求6所述的方法，其特征在于，所述根据所述音频信号获得目标语音特征，包括：

从所述音频信号提取语音频谱特征；

采用时序卷积网络从语音频谱图提取目标语音特征。

8.根据权利要求6所述的方法，其特征在于，所述从所述图像序列提取目标图像特征，包括：

9.根据权利要求6所述的方法，其特征在于，所述将所述目标语音特征和所述目标图像特征在时域上合并，得到双模态特征，包括：

10.根据权利要求4所述的方法，其特征在于，所述第一编码网络通过如下方式训练得到：

获取视频信号和噪声语音频谱；

11.根据权利要求5所述的方法，其特征在于，所述预设语音识别网络通过如下方式训练得到：

获取经过降噪的语音频谱特征；

12.一种车辆的交互方法，其特征在于，包括：

采用所述降噪表征值对所述音频信号降噪；

执行所述交互指令对应的交互操作。

13.根据权利要求12所述的方法，其特征在于，所述执行所述交互指令对应的交互操作，包括：

识别所述交互指令对应的目标用户在车辆内的位置；

14.一种交互装置，其特征在于，包括：

降噪表征值生成模块，用于采用所述双模态特征和预设降噪网络，生成降噪表征值；所述降噪表征值表征音频特征中的噪声分布；

降噪模块，用于采用所述降噪表征值对所述音频信号降噪；

15.一种车辆的交互装置，其特征在于，包括：

降噪模块，用于采用所述降噪表征值对所述音频信号降噪；

16.一种车辆，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-11中任一项所述的交互方法的步骤。

17.一种车辆，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求12-13中任一项所述的车辆的交互方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的交互方法的步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求12至13中任一项所述的车辆的交互方法的步骤。