CN117594035A

CN117594035A - 多模态语音分离识别方法、装置、冰箱及存储介质

Info

Publication number: CN117594035A
Application number: CN202311329901.0A
Authority: CN
Inventors: 曾谁飞; 孔令磊; 张景瑞; 李敏; 刘卫强
Original assignee: Qingdao Haier Refrigerator Co Ltd; Qingdao Haier Smart Technology R&D Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Refrigerator Co Ltd; Qingdao Haier Smart Technology R&D Co Ltd; Haier Smart Home Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-23

Abstract

本发明提供一种多模态语音分离识别方法、装置、冰箱及存储介质。本发明通过多通道进行音视频采集，通过编码器提取语音基频，采用深度神经网络构建分离模型、解码器重建语音，有效改善多模态语音分离效果。配合后续的语义编码和解码过程，以及多媒体的展示信息生成方式，提升了智能家居人机交互的可懂度和便捷性。

Description

多模态语音分离识别方法、装置、冰箱及存储介质

技术领域

本发明涉及计算机技术领域，具体地涉及一种多模态语音分离识别方法、装置、冰箱及存储介质。

背景技术

伴随多模态语音技术、深度学习及语音信号处理技术的快速发展，其中多模态语音分离、语音识别不仅成为产业界、工业界等研究的热点，而且在智能家居背景下的人机语音交互重要性日益增强。针对智能家居复杂场景下获取多模态音视频分离所得语音分离效果差进而较容易引起能量损失最终导致语音质量差的问题。

有些方法仅仅所采集单一语音数据并采用传统统计学方法进行语音分离，但是存在语音分离后所获得的语音质量较差；其次，还有一些方法采用以神经网络为主的深度学习方法，虽然这些方法对语音质量有较大的提升，但是对存在模型性能方面不足的问题，特别是语音分离与识别一体整体性能还存在优化空间；再次，有些方法对多模态音视频分离构建模型依赖说话人和模型适应性存在不足。

目前不仅要解决多模态音视频分离后语音分离模型效果等性能问题，而且要解决多模态语音识别准确率的提升问题，因此有必要对多模态语音分离采用有效方法进一步提升智能家居人机语音交互效率特别是语音的可懂度。

发明内容

本发明的目的在于提供一种多模态语音分离识别方法、装置、冰箱及存储介质。

本发明提供一种多模态语音分离识别方法，其包括步骤：

获取语音数据、音视频数据；

对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据；

获取有效时长的所述语音数据和所述视频语音数据；

对所述语音数据和所述视频语音进行编码得到两者的基频表示，通过深度神经网络构建分离模型，通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据；

通过深度卷积神经网络对分离所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征；

对所述语音特征进行编码获得语义特征向量；

对所述语义特征向量进行解码得到语音文本数据；

基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

作为本发明的进一步改进，通过深度神经网络构建分离模型，具体包括：

通过深度神经网络构建分离模型，训练得到对应的掩码，将掩码应用于混合语音，实现目标语音的分离。

作为本发明的进一步改进，在处理后获取有效时长的所述语音数据和所述视频语音数据后，还包括：

对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

作为本发明的进一步改进，所述对所述语音特征进行编码获得语义特征向量，具体包括：

通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

作为本发明的进一步改进，所述对所述语义特征向量进行解码得到语音文本数据，具体包括：

通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

作为本发明的进一步改进，所述对所述语音数据和音视频数据进行预处理，包括：

对所述语音数据和音视频数据进行数据清洗、格式转化及存储任务。

作为本发明的进一步改进，所述基于语义信息生成文本和/或图像和/或语音具体包括：

基于语义信息生成文本，和/或

基于语义信息采用CLIP模型方法生成图像，和/或

基于语义信息采用波形拼接和端到端神经网络模型生成语音。

作为本发明的进一步改进，所述获取语音数据、音视频数据，具体包括：

获取语音采集装置所采集的所述语音数据，和/或

获取自客户终端传输的所述语音数据；

获取语音采集装置所采集的所述音视频数据，和/或

获取自客户终端传输的所述音视频数据。

作为本发明的进一步改进，所述输出所生成的信息，具体包括：

将所述生成的文本和/或图像和/或语音直接输出，和/或

将所述生成的文本和/或图像和/或语音传输至客户终端输出。

本发明还提供一种多模态语音分离识别装置，其包括：

数据获取模块，用于获取语音数据、音视频数据；

语音数据处理模块，用于对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据；获取有效时长的所述语音数据和所述视频语音数据；对所述语音数据和所述视频语音进行编码得到两者的基频表示，通过深度神经网络构建分离模型，通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据；通过深度卷积神经网络对分离所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征；

编码模块，用于对所述语音特征进行编码获得语义特征向量；

解码模块，用于对所述语义特征向量进行解码得到语音文本数据；

结果生成和输出模块，基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

作为本发明的进一步改进，所述语音数据处理模块通过深度神经网络构建分离模型，训练得到对应的掩码，将掩码应用于混合语音，实现目标语音的分离。

作为本发明的进一步改进，所述语音数据处理模块还被配置用于对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

作为本发明的进一步改进，所述编码模块通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

作为本发明的进一步改进，所述解码模块通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

作为本发明的进一步改进，所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据，和/或获取自客户终端传输的所述语音数据；获取语音采集装置所采集的所述音视频数据，和/或获取自客户终端传输的所述音视频数据。

作为本发明的进一步改进，所述结果生成和输出模块被配置用于基于语义信息生成文本，和/或基于语义信息采用CLIP模型方法生成图像，和/或基于语义信息采用波形拼接和端到端神经网络模型生成语音。

本发明还提供一种冰箱，其包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至9任一项所述的多模态语音分离识别方法。

本发明还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的多模态语音分离识别方法。

本发明的有益效果是：本发明通过多通道进行音视频采集，通过编码器提取语音基频，采用深度神经网络构建分离模型、解码器重建语音，有效改善多模态语音分离效果。配合后续的语义编码和解码过程，以及多媒体的展示信息生成方式，提升了智能家居人机交互的可懂度和便捷性。

附图说明

图1是本发明一实施方式中的多模态语音分离识别方法所涉及模型的结构框图。

图2是本发明一实施方式中的多模态语音分离识别方法步骤示意图。

图3是本发明一实施方式中的语音处理和分离步骤示意图。

图4是本发明一实施方式中的多模态语音分离识别装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施方式及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本实施方式提供一种多模态语音分离识别方法，本方法通过多种交互方式获取多模态语音、音视频数据，在对语音数据进行清洗和提取处理后，通过深度神经网络构建分离模型提高语音分离的效果，在提取语音特征后，进行语音编码，解码后采用多媒体方式生成结果，有效提升用户体验。

本实施方式提供的多模态语音分离识别方法能够应用于具有人机交互需求的智能电器，示例性的，在本实施方式中，以智能冰箱为例，对多模态语音分离识别方法进行说明。

如图1所示，为多模态语音分离识别方法步骤示意图，其包括：

S1：获取语音数据、音视频数据。

S2：对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据。

S3：获取有效时长的所述语音数据和所述视频语音数据。

S4：对所述语音数据和所述视频语音进行编码得到两者的基频表示，通过深度神经网络构建分离模型，通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据。

S5：对所述语音特征进行编码获得语义特征向量。

S6：对所述语义特征向量进行解码得到语音文本数据。

S7：基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

在步骤S1中，获取语音数据、音视频数据具体包括：

获取语音采集装置所采集的所述语音数据，和/或

获取自客户终端传输的所述语音数据；

获取语音采集装置所采集的所述音视频数据，和/或

获取自客户终端传输的所述音视频数据。

在本实施方式中，对于语音数据，可通过设置于智能冰箱内的拾音器、麦克风阵列等语音采集装置采集用户语音。对于音视频数据，可通过设置于智能冰箱内的摄像头等设备进行拍摄。并且，也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户语音和音视频。客户终端为具有信息发送功能的电子设备，如手机、平板电脑、智能音响、智能手环或蓝牙耳机等智能电子设备，在使用过程中，用户直接对客户终端发出语音、或拍摄音视频，客户终端采集相关内容后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的多模态信息获取方式，并不局限于必须面向智能冰箱发出语音。当用户有交互需求时，通过任意便捷渠道发出相关信息即可，从而能够显著提高用户的使用便捷度。在本发明的其他实施方式中，也可采用上述语音获取方法中的一种或任意多种，或者也可基于现有技术通过其他渠道获取语音，具体在此不再赘述。

如图3所示，在步骤S2中，其具体包括：

S21：数据清洗和格式转化，对获取的语音数据和音视频数据进行清洗，去除可能的噪音、干扰和无效部分，以保留有效的信号，然后对数据进行格式转化，将其转换为一种标准的、适合后续处理的数据格式。

S22：提取有效数据，从经过清洗和格式转化后的数据中提取出有用的语音和音视频信息。进行初步的去空数据和去噪处理，排除声音数据中的无效部分和噪声，从而得到质量更高的数据。

S23：对音视频数据进行语音和视频分离。

通过步骤S2，从原始数据中提取出干净、有效的语音和音视频信息，有助于提高后续模型的性能，增强多模态语音分离识别的准确性和稳定性。

在步骤S3中，由于语音数据可能包含了一些无效的部分，比如开始和结束的静音段，背景噪声以及用户的停顿等等，这些无效部分对于语音识别及后续处理会造成干扰。因此去除这些无效部分，只保留有效时长的语音信号，能够有效提高数据的质量。

如通过能量门限法、静音检测等来获取语音数据有效部分，能量门限法根据语音信号的能量水平来确定有效时长，设置一个能量门限，只保留能量超过门限的语音段，去除能量较低的静默部分。短时静音检测通过分析语音信号的短时能量、短时过零率等特征，在连续的时间窗口内检测静音部分。然后将非静音部分合并，形成有效时长的语音段。

之后语音数据进行标点断句简单处理，语音识别通常需要将连续的语音流转化为有意义的文本。在一些场景中，语音可能没有明显的标点符号，例如长时间的连续说话。在这种情况下，通过检测语音中的停顿、语调变化等特征，进行简单的标点断句处理，将连续的语音分割成更有意义的短句子，从而帮助识别模型更好地理解语义。

通过获取语音数据和视频语音数据的有效部分，能够提高语音识别的准确性和可用性，使其适合于后续的特征提取、编码解码等处理过程。

在步骤S4中，先对所述语音数据和所述视频语音进行编码得到两者的基频表示。

利用编码器将原始语音信号转换成基频表示的特征向量有助于后续的分离和识别任务，基频是语音信号中表示声音周期性变化的基本频率，通常对应于声音的音调，利用基频信息来识别语音的声调、音高以及声音的周期性特征。通过将语音信号编码成基频表示，可以将语音的周期性特征提取出来，有助于识别语音的基本声音特征。而采用深度学习方法的编码器可以自动地学习语音信号中的基频信息，并将其嵌入到特征向量中。

之后通过深度神经网络构建分离模型，训练得到对应的掩码(mask)，将掩码应用于混合语音，实现目标语音的分离。

使用深度神经网络模型训练学习得到能够生成合适的mask的函数，训练数据包括混合语音和对应的目标语音。通过训练好的分离模型生成mask，将生成的mask应用于混合语音的时间频率表示，来减少或抑制非目标语音的部分，从而分离出目标语音。

深度卷积神经网络在语音分离中能够提取时间和频率域的特征，帮助模型更好地理解语音信号的结构。通过使用深度神经网络模型构建分离模型，结合mask实现，可以有效地从多模态语音中分离出目标语音，提高分离的准确性和效果。此外，深度卷积神经网络的参数共享和层级结构可以降低计算成本，使得模型在实际应用中更加高效。

之后通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据。

解码器可以采用深度神经网络或循环神经网络等结构，解码器接受经过编码和分离处理的语音特征作为输入，然后逐步解码生成原始语音信号。解码器对输入的语音特征进行逆变换，将其转换为频谱或梅尔频率等表示，解码器使用逆变换后的特征，以及可能的上下文信息和模型的内部状态，通过网络层逐步生成语音信号，解码器根据输入的特征逐步生成信号的每个时间点的样本值。解码器输出的样本值可以被组合成时域的语音信号，通过将频谱恢复到时域的过程。从而通过解码器的操作，将原始的语音信号从经过编码和分离处理的特征重建出来，实现了语音的分离效果，这使得分离后的语音数据能够保持高质量。

综上，在步骤S4中实现了对语音的高质量分离，在语义特征编码前端有效减少了语音数据的冗余数据。

在步骤S5中，通过多通道多尺寸神经网络比如深度卷积神经网络进行语音特征提取。

采用多通道多尺寸神经网络进行语音特征提取可以显著提升语音信号的表示能力和识别性能。在网络结构中同时使用多个通道和不同尺寸的卷积核，以从不同的角度捕捉语音信号的特征，有助于从多个层次和多个视角对语音信号进行分析，提取更丰富和多样的特征。深度卷积神经网络可以学习如何从受损的语音信号中重建出更干净、更清晰的语音信号。如可通过在多个频率范围和尺寸上提取特征，包括高频和低频范围内的信息，从而改善语音信号的可理解性，更好地还原语音信号的原始内容。

综上，本实施方式通过在编码前端进行数据预处理、回声与噪声消除、混音过滤、多通道多尺寸进行语音特征提取和语音增强的综合处理，改善了语音信号的纯净度、特征表达能力和可辨识性。

在步骤S5中，通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

Wav2Vec模型使用了自监督学习方法，通过预测语音的某些部分来学习表示，将语音波形切分为小片段，并将每个片段编码为特征向量。这些特征向量被组合成一个整体的语音表示，即语义特征向量。Wav2Vec编码后的语义特征向量捕捉了语音中的高级语义信息，例如语音的内容、说话人的身份、情感等，从而便于进行后续的任务。

在步骤S6中，通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

Transformer模型适用于序列到序列的任务，其通过自注意力机制和前馈神经网络层来捕捉序列中的长距离依赖关系，从而有效地进行特征提取和上下文建模。由于编码后的语义特征向量可能在编码阶段丢失一些细节信息，通过Transformer模型对这些特征向量进行逆变换，可以恢复原始的语音信息，从而弥补编码过程的细节丢失。

并且，由于目前智能设备如智能冰箱通常设置有多个麦克风设备，在多麦克风环境下，由于不同麦克风捕捉到的信号可能存在差异，多层Transformer结构能够更好地捕捉不同通道之间的关系，进而实现冗余信号的更精确剔除。每个通道的特征可以在不同层次的Transformer中进行处理，使得在多个层次上进行信息融合和语境理解。

在步骤S7中，其具体包括：

基于语义信息生成文本，和/或

基于语义信息采用CLIP模型方法生成图像，和/或

在本实施方式中，可以根据远程语音识别的结果进行不同形式的结果处理和展示，以提高可用性。

对于生成的文本结果，可以直接将其输出到文本显示区域(如应用界面、网页等)。这种方式能够快速准确地呈现语音信息的文本转写，适用于需要文字信息的应用场景。

对于某些场景，语音识别的结果可能需要以图像形式呈现，如直接生成对应食材的图像。在这种情况下，可以采用图像生成技术，如CLIP模型，将文本结果转化为相关的图像，并输出到图像显示区域，从而增强信息的可视化呈现效果。

如果需要以语音方式呈现结果，可以采用不同的方法。例如，可以通过波形拼接将文本结果转化为语音，并通过语音播报方式输出。另一种方法是采用端到端的神经网络模型，将文本直接转化为语音，从而实现更自然、流畅的语音播放。

如需要展示更丰富的信息内容，可以选择将结果以短视频的形式输出。通过将文本或语音与图像、动画等元素结合，实现生动的结果展示方式。

通过实现结果呈现的多样性，以满足不同应用场景的需求。根据识别结果的性质和使用情境，可以选择适合的呈现方式，从而提供更丰富的用户体验。

将远程语音识别的结果以多种形式传达给用户，从文本到图像、语音，甚至是短视频，以满足不同场景和用户需求的呈现方式。这样的结果生成过程进一步提升了用户体验和信息传达效果。

在获得生成的信息后，输出所生成的信息，具体包括：

将所述生成的文本和/或图像和/或语音直接输出，和/或

在本实施方式中，在通过前述步骤获得生成生成信息后，可直接通过智能冰箱配置的显示装置显示。也可将生成文本信息语音通信传输至客户终端输出，这里，客户终端为具有信息接收功能的电子设备，如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报，或将生成文本信息文本通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件，供用户查阅。从而实现多渠道多种类的生成信息输出方式，用户并不局限于只能在智能冰箱附近处获得相关信息，配合本发明所提供的多渠道多种类语音获取方式，使得用户能够直接在远程与智能冰箱进行交互，具有极高的便捷性，大幅提高了用户使用体验。在本发明的其他实施方式中，也可仅采用上述生成文本信息输出方式中的一种或几种，或者也可基于现有技术通过其他渠道输出生成文本信息，本发明对此不作具体限制。

如图4所示，本实施方式还提供一种多模态语音分离识别装置，其包括：

数据获取模块1，用于获取语音数据、音视频数据；

语音数据处理模块2，用于对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据；获取有效时长的所述语音数据和所述视频语音数据；对所述语音数据和所述视频语音进行编码得到两者的基频表示，通过深度神经网络构建分离模型，通过解码器重建语音得到分离后的所述语音数据和所述视频语音数据；通过深度卷积神经网络对分离所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征；

编码模块3，用于对所述语音特征进行编码获得语义特征向量；

解码模块4，用于对所述语义特征向量进行解码得到语音文本数据；

结果生成和输出模块5，基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

所述语音数据处理模块通过深度神经网络构建分离模型，训练得到对应的掩码，将掩码应用于混合语音，实现目标语音的分离。

所述语音数据处理模块还被配置用于对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

所述编码模块通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

所述解码模块通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据，和/或获取自客户终端传输的所述语音数据；获取语音采集装置所采集的所述音视频数据，和/或获取自客户终端传输的所述音视频数据。

本实施方式还提供一种冰箱，其包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现上述的多模态语音分离识别方法。

本实施方式还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的多模态语音分离识别方法。

综上所述，本实施方式多通道进行音视频采集，通过编码器提取语音基频，采用深度神经网络构建分离模型、解码器重建语音，有效改善多模态语音分离效果。配合后续的语义编码和解码过程，以及多媒体的展示信息生成方式，提升了智能家居人机交互的可懂度和便捷性。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种多模态语音分离识别方法，其特征在于，包括步骤：

获取语音数据、音视频数据；

获取有效时长的所述语音数据和所述视频语音数据；

对所述语音特征进行编码获得语义特征向量；

对所述语义特征向量进行解码得到语音文本数据；

2.根据权利要求1所述的多模态语音分离识别方法，其特征在于，通过深度神经网络构建分离模型，具体包括：

3.根据权利要求2所述的多模态语音分离识别方法，其特征在于，在处理后获取有效时长的所述语音数据和所述视频语音数据后，还包括：

4.根据权利要求3所述的多模态语音分离识别方法，其特征在于，所述对所述语音特征进行编码获得语义特征向量，具体包括：

通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

5.根据权利要求1所述的多模态语音分离识别方法，其特征在于，所述对所述语义特征向量进行解码得到语音文本数据，具体包括：

6.根据权利要求1所述的多模态语音分离识别方法，其特征在于，所述对所述语音数据和音视频数据进行预处理，包括：

7.根据权利要求1所述的多模态语音分离识别方法，其特征在于，所述基于语义信息生成文本和/或图像和/或语音具体包括：

基于语义信息生成文本，和/或

基于语义信息采用CLIP模型方法生成图像，和/或

8.根据权利要求1所述的多模态语音分离识别方法，其特征在于，所述获取语音数据、音视频数据，具体包括：

获取语音采集装置所采集的所述语音数据，和/或

获取自客户终端传输的所述语音数据；

获取语音采集装置所采集的所述音视频数据，和/或

获取自客户终端传输的所述音视频数据。

9.根据权利要求1所述的多模态语音分离识别方法，其特征在于，所述输出所生成的信息，具体包括：

将所述生成的文本和/或图像和/或语音直接输出，和/或

10.一种多模态语音分离识别装置，其特征在于，包括：

数据获取模块，用于获取语音数据、音视频数据；

11.根据权利要求10所述的多模态语音分离识别装置，其特征在于，所述语音数据处理模块通过深度神经网络构建分离模型，训练得到对应的掩码，将掩码应用于混合语音，实现目标语音的分离。

12.根据权利要求10所述的多模态语音分离识别装置，其特征在于，所述语音数据处理模块还被配置用于对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

13.根据权利要求10所述的多模态语音分离识别装置，其特征在于，所述编码模块通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

14.根据权利要求10所述的多模态语音分离识别装置，其特征在于，所述解码模块通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

15.根据权利要求10所述的多模态语音分离识别装置，其特征在于，所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据，和/或获取自客户终端传输的所述语音数据；获取语音采集装置所采集的所述音视频数据，和/或获取自客户终端传输的所述音视频数据。

16.根据权利要求10所述的多模态语音分离识别装置，其特征在于，所述结果生成和输出模块被配置用于基于语义信息生成文本，和/或基于语义信息采用CLIP模型方法生成图像，和/或基于语义信息采用波形拼接和端到端神经网络模型生成语音。

17.一种冰箱，其特征在于，包括：

存储器，用于存储可执行指令；

18.一种计算机可读存储介质，其特征在于，其存储有可执行指令，所述可执行指令被处理器执行时实现权利要求1至9任一项所述的多模态语音分离识别方法。