CN117594033A

CN117594033A - 远场语音识别方法、装置、冰箱及存储介质

Info

Publication number: CN117594033A
Application number: CN202311323586.0A
Authority: CN
Inventors: 曾谁飞; 孔令磊; 张景瑞; 李敏; 刘卫强
Original assignee: Qingdao Haier Refrigerator Co Ltd; Qingdao Haier Smart Technology R&D Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Refrigerator Co Ltd; Qingdao Haier Smart Technology R&D Co Ltd; Haier Smart Home Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-23

Abstract

本发明提供一种远场语音识别方法、装置、冰箱及存储介质。本发明通过数据采集、清洗、回声与噪声消除、深度神经网络特征提取等步骤，从而在编码前端有效降低冗余信号，提升语音质量，增强语音的可懂度与准确性，配合后续的语义编码和解码过程，以及多媒体的展示信息生成方式，提升了智能冰箱等智能家居设备的用户体验和性能。

Description

远场语音识别方法、装置、冰箱及存储介质

技术领域

本发明涉及计算机技术领域，具体地涉及一种远场语音识别方法、装置、冰箱及存储介质。

背景技术

在智能家居应用中，随着语音交互的普及，用户常常以语音形式提问，但多模态环境下的语音数据中常混杂着环境噪声和其他声音，造成语音识别的困难。

比如“今天冰箱里还有多少个鸡蛋”,“今天冰箱里还有多个松花蛋”，在这两个句子里极有可能出现漏字错字比如“划蛋、滑蛋”，造成原因就是在编码阶段出现冗余信号、提取有效语音特征不是最佳。结合当前智能家居至少带有二个麦克风阵列，因此利用这些软硬件充分挖掘智能冰箱多源异构语音数据、数据间及数据级联之间的语音信号关系或提取有效语音特征来降低远程识别字错误率。但是现有技术发明专利都未涉及到远程语音识别在智能家居比如智能冰箱人机交互或智能交互、信息获取分发等从前端编码前消除冗余语音信号维度解决所述的问题。首先，有些方法仅仅端到端的编码-解码框架进行远程语音识别，而忽视了编码阶段前的有效语音特征提取；其次，虽然对前端编码前采用回声消除、或端点检测VAD方法，但是忽视了对冗余信号过度处理即把有用的语音信号进行处理，导致比如输出端语音识别准确率低等问题；再次，有些方法未考虑语音信号的多通道多尺寸等因素，包括远程识别时在编码时存在时序、或语音信号前后序列关系，这些方法未提高远程识别准确率存在局限性。

远总而言之，场语音识别存在信号冗余影响语音识别准确率较低、字错误率高的核心问题，过往远程识别方法忽视了前端处理前对冗余的语音信号进行处理比如消除无用冗余信号，造成前端编码有效信号不是最佳的，因此有必要进一步对远程语音识别前端编码前的冗余语音信号采用有效方法提升智能家居如智能冰箱人机交互的便捷性及降低语音识别字错误率等问题。

发明内容

本发明的目的在于提供一种远场语音识别方法、装置、冰箱及存储介质。

本发明提供一种远场语音识别方法，其包括步骤：

获取语音数据、音视频数据；

对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据；

获取有效时长的所述语音数据和所述视频语音数据，对所述语音数据和所述视频语音数据进行降噪处理；

通过深度卷积神经网络对所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征；

对所述语音特征进行编码获得语义特征向量；

对所述语义特征向量进行解码得到语音文本数据；

基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

作为本发明的进一步改进，所述对所述语音数据和所述视频语音数据进行降噪处理，具体包括：

通过双向长短时记忆网络基于所述语音数据和所述视频语音数据前后序列关系和上下文信息消除所述视频语音数据的回声和噪声。

作为本发明的进一步改进，在处理后获取有效时长的所述语音数据和所述视频语音数据后，还包括：

对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

作为本发明的进一步改进，所述对所述语音特征进行编码获得语义特征向量，具体包括：

通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

作为本发明的进一步改进，所述对所述语义特征向量进行解码得到语音文本数据，具体包括：

通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

作为本发明的进一步改进，所述对所述语音数据和音视频数据进行预处理，包括：

对所述语音数据和音视频数据进行数据清洗、格式转化及存储任务。

作为本发明的进一步改进，所述基于语义信息生成文本和/或图像和/或语音具体包括：

基于语义信息生成文本，和/或

基于语义信息采用CLIP模型方法生成图像，和/或

基于语义信息采用波形拼接和端到端神经网络模型生成语音。

作为本发明的进一步改进，所述获取语音数据、音视频数据，具体包括：

获取语音采集装置所采集的所述语音数据，和/或

获取自客户终端传输的所述语音数据；

获取语音采集装置所采集的所述音视频数据，和/或

获取自客户终端传输的所述音视频数据。

作为本发明的进一步改进，所述输出所生成的信息，具体包括：

将所述生成的文本和/或图像和/或语音直接输出，和/或

将所述生成的文本和/或图像和/或语音传输至客户终端输出。

本发明还提供一种远场语音识别装置，其包括：

数据获取模块，用于获取语音数据、音视频数据；

语音数据处理模块，用于对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据；获取有效时长的所述语音数据和所述视频语音数据，对所述语音数据和所述视频语音数据进行降噪处理；通过深度卷积神经网络对所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征；

编码模块，用于对所述语音特征进行编码获得语义特征向量；

解码模块，用于对所述语义特征向量进行解码得到语音文本数据；

结果生成和输出模块，基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

作为本发明的进一步改进，所述语音数据处理模块通过双向长短时记忆网络基于所述语音数据和所述视频语音数据前后序列关系和上下文信息消除所述视频语音数据的回声和噪声。

作为本发明的进一步改进，语音数据处理模块还被用于对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

作为本发明的进一步改进，所述编码模块通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

作为本发明的进一步改进，所述解码模块通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

作为本发明的进一步改进，所述结果生成和输出模块基于语义信息生成文本，和/或基于语义信息采用CLIP模型方法生成图像，和/或基于语义信息采用波形拼接和端到端神经网络模型生成语音。

作为本发明的进一步改进，所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据，和/或获取自客户终端传输的所述语音数据；获取语音采集装置所采集的所述音视频数据，和/或获取自客户终端传输的所述音视频数据。

作为本发明的进一步改进，所述结果生成和输出模块被配置用于将所述生成的文本和/或图像和/或语音直接输出，和/或将所述生成的文本和/或图像和/或语音传输至客户终端输出。

本发明还提供一种冰箱，其包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现上述的远场语音识别方法。

本发明还提供一种计算机可读存储介质，其特征在于，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的远场语音识别方法。

本发明的有益效果是：本发明通过数据采集、清洗、回声与噪声消除、深度神经网络特征提取等步骤，从而在编码前端有效降低冗余信号，提升语音质量，增强语音的可懂度与准确性，配合后续的语义编码和解码过程，以及多媒体的展示信息生成方式，提升了智能冰箱等智能家居设备的用户体验和性能。

附图说明

图1是本发明一实施方式中的远场语音识别方法所涉及模型的结构框图。

图2是本发明一实施方式中的远场语音识别方法步骤示意图。

图3是本发明一实施方式中的语音处理和分离步骤示意图。

图4是本发明一实施方式中的语音降噪步骤示意图。

图5是本发明一实施方式中的远场语音识别装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施方式及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本实施方式提供一种远场语音识别方法，本方法通过多种交互方式获取多模态语音、音视频数据，在对语音数据进行清洗和提取、信号过滤、噪声消除等处理后，采用深度卷积神经网络进行语音特征提取，再对进行语音编码，采用多种处理步骤提取有效语音信号，优化前端编码，提高语音识别准确率。解码后采用多媒体方式生成结果，有效提升用户体验。本实施方式提供的远场语音识别方法能够应用于具有人机交互需求的智能电器，示例性的，在本实施方式中，以智能冰箱为例，对远场语音识别方法进行说明。

如图1所示，为远场语音识别方法步骤示意图，其包括：

S1：获取语音数据、音视频数据。

S2：对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据。

S3：获取有效时长的所述语音数据和所述视频语音数据，对所述语音数据和所述视频语音数据进行降噪处理。

S4：通过深度卷积神经网络对所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征。

S5：对所述语音特征进行编码获得语义特征向量。

S6：对所述语义特征向量进行解码得到语音文本数据。

S7：基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

在步骤S1中，获取语音数据、音视频数据具体包括：

获取语音采集装置所采集的所述语音数据，和/或

获取自客户终端传输的所述语音数据；

获取语音采集装置所采集的所述音视频数据，和/或

获取自客户终端传输的所述音视频数据。

在本实施方式中，对于语音数据，可通过设置于智能冰箱内的拾音器、麦克风阵列等语音采集装置采集用户语音。对于音视频数据，可通过设置于智能冰箱内的摄像头等设备进行拍摄。并且，也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户语音和音视频。客户终端为具有信息发送功能的电子设备，如手机、平板电脑、智能音响、智能手环或蓝牙耳机等智能电子设备，在使用过程中，用户直接对客户终端发出语音、或拍摄音视频，客户终端采集相关内容后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的多模态信息获取方式，并不局限于必须面向智能冰箱发出语音。当用户有交互需求时，通过任意便捷渠道发出相关信息即可，从而能够显著提高用户的使用便捷度。在本发明的其他实施方式中，也可采用上述语音获取方法中的一种或任意多种，或者也可基于现有技术通过其他渠道获取语音，具体在此不再赘述。

如图3所示，在步骤S2中，其具体包括：

S21：数据清洗和格式转化，对获取的语音数据和音视频数据进行清洗，去除可能的噪音、干扰和无效部分，以保留有效的信号，然后对数据进行格式转化，将其转换为一种标准的、适合后续处理的数据格式。

S22：提取有效数据，从经过清洗和格式转化后的数据中提取出有用的语音和音视频信息。进行初步的去空数据和去噪处理，排除声音数据中的无效部分和噪声，从而得到质量更高的数据。

S23：对音视频数据进行语音和视频分离。

通过步骤S2，从原始数据中提取出干净、有效的语音和音视频信息，有助于提高后续模型的性能，增强远场语音识别的准确性和稳定性。

如图4所示，在步骤S3中，其包括：

S31：获取有效时长的所述语音数据和所述视频语音数据。

由于语音数据可能包含了一些无效的部分，比如开始和结束的静音段，背景噪声以及用户的停顿等等，这些无效部分对于语音识别及后续处理会造成干扰。因此去除这些无效部分，只保留有效时长的语音信号，能够有效提高数据的质量。

如通过能量门限法、静音检测等来获取语音数据有效部分，能量门限法根据语音信号的能量水平来确定有效时长，设置一个能量门限，只保留能量超过门限的语音段，去除能量较低的静默部分。短时静音检测通过分析语音信号的短时能量、短时过零率等特征，在连续的时间窗口内检测静音部分。然后将非静音部分合并，形成有效时长的语音段。

之后语音数据进行标点断句简单处理，语音识别通常需要将连续的语音流转化为有意义的文本。在一些场景中，语音可能没有明显的标点符号，例如长时间的连续说话。在这种情况下，通过检测语音中的停顿、语调变化等特征，进行简单的标点断句处理，将连续的语音分割成更有意义的短句子，从而帮助识别模型更好地理解语义。

通过获取语音数据和视频语音数据的有效部分，能够提高语音识别的准确性和可用性，使其适合于后续的特征提取、编码解码等处理过程。

S32：对所述语音数据和所述视频语音数据的回声和噪声进行消除，其具体包括：

通过双向长短时记忆网络(BiLSTM)基于所述语音数据和所述视频语音数据前后序列关系和上下文信息消除所述视频语音数据的回声和噪声。

BiLSTM是一种循环神经网络(RNN)的变体，其能够同时考虑输入序列的前向和后向信息，从而更好地捕捉时序特征。对于回声和噪声消除，BiLSTM可以学习语音信号中的时序模式，尤其是前后文信息，帮助准确地分离出回声和噪声成分。回声是语音信号在环境中反射而产生的延迟信号，通过采用BiLSTM可以从语音数据中学习出回声模式，进而生成一个估计的回声信号，然后将这个估计的回声信号从原始语音数据中减去，从而减少回声的影响。噪声是语音信号中不需要的背景干扰，BiLSTM可以学习噪声信号的特征，根据这些特征，将噪声信号从语音数据中去除，提取出更清晰的语音信号。

BiLSTM能够利用上下文信息和较强的特征提取能力，从而有效地对时序特征进行建模和捕捉捕捉到语音信号中微小的变化和模式，从而更精确地分离回声和噪声，且BiLSTM能够处理不同长度的语音段，对于不规则时序特征的建模具有一定的灵活性。

进一步的，还可对对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。由于声音数据可能同时包含了多种声音来源形成混音，如有多名说话者，区分不同说话者的声音并提取感兴趣的信息来初步剔除冗余语音信号，使得后续的处理更加准确，可谱减法等方法来对多个声源进行分离和剔除，得到更干净的语音信号。

在步骤S4中，通过多通道多尺寸神经网络比如深度卷积神经网络进行语音特征提取。

采用多通道多尺寸神经网络进行语音特征提取可以显著提升语音信号的表示能力和识别性能。在网络结构中同时使用多个通道和不同尺寸的卷积核，以从不同的角度捕捉语音信号的特征，有助于从多个层次和多个视角对语音信号进行分析，提取更丰富和多样的特征。深度卷积神经网络可以学习如何从受损的语音信号中重建出更干净、更清晰的语音信号。如可通过在多个频率范围和尺寸上提取特征，包括高频和低频范围内的信息，从而改善语音信号的可理解性，更好地还原语音信号的原始内容。

综上，本实施方式通过在编码前端进行数据预处理、回声与噪声消除、混音过滤、多通道多尺寸进行语音特征提取和语音增强的综合处理，改善了语音信号的纯净度、特征表达能力和可辨识性。

在步骤S5中，通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

Wav2Vec模型使用了自监督学习方法，通过预测语音的某些部分来学习表示，将语音波形切分为小片段，并将每个片段编码为特征向量。这些特征向量被组合成一个整体的语音表示，即语义特征向量。Wav2Vec编码后的语义特征向量捕捉了语音中的高级语义信息，例如语音的内容、说话人的身份、情感等，从而便于进行后续的任务。

在步骤S6中，通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

Transformer模型适用于序列到序列的任务，其通过自注意力机制和前馈神经网络层来捕捉序列中的长距离依赖关系，从而有效地进行特征提取和上下文建模。由于编码后的语义特征向量可能在编码阶段丢失一些细节信息，通过Transformer模型对这些特征向量进行逆变换，可以恢复原始的语音信息，从而弥补编码过程的细节丢失。

并且，由于目前智能设备如智能冰箱通常设置有多个麦克风设备，在多麦克风环境下，由于不同麦克风捕捉到的信号可能存在差异，多层Transformer结构能够更好地捕捉不同通道之间的关系，进而实现冗余信号的更精确剔除。每个通道的特征可以在不同层次的Transformer中进行处理，使得在多个层次上进行信息融合和语境理解。

在步骤S7中，其具体包括：

基于语义信息生成文本，和/或

基于语义信息采用CLIP模型方法生成图像，和/或

在本实施方式中，可以根据远程语音识别的结果进行不同形式的结果处理和展示，以提高可用性。

对于生成的文本结果，可以直接将其输出到文本显示区域(如应用界面、网页等)。这种方式能够快速准确地呈现语音信息的文本转写，适用于需要文字信息的应用场景。

对于某些场景，语音识别的结果可能需要以图像形式呈现，如直接生成对应食材的图像。在这种情况下，可以采用图像生成技术，如CLIP模型，将文本结果转化为相关的图像，并输出到图像显示区域，从而增强信息的可视化呈现效果。

如果需要以语音方式呈现结果，可以采用不同的方法。例如，可以通过波形拼接将文本结果转化为语音，并通过语音播报方式输出。另一种方法是采用端到端的神经网络模型，将文本直接转化为语音，从而实现更自然、流畅的语音播放。

如需要展示更丰富的信息内容，可以选择将结果以短视频的形式输出。通过将文本或语音与图像、动画等元素结合，实现生动的结果展示方式。

通过实现结果呈现的多样性，以满足不同应用场景的需求。根据识别结果的性质和使用情境，可以选择适合的呈现方式，从而提供更丰富的用户体验。

将远程语音识别的结果以多种形式传达给用户，从文本到图像、语音，甚至是短视频，以满足不同场景和用户需求的呈现方式。这样的结果生成过程进一步提升了用户体验和信息传达效果

在获得生成的信息后，输出所生成的信息，具体包括：

将所述生成的文本和/或图像和/或语音直接输出，和/或

在本实施方式中，在通过前述步骤获得生成生成信息后，可直接通过智能冰箱配置的显示装置显示。也可将生成文本信息语音通信传输至客户终端输出，这里，客户终端为具有信息接收功能的电子设备，如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报，或将生成文本信息文本通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件，供用户查阅。从而实现多渠道多种类的生成信息输出方式，用户并不局限于只能在智能冰箱附近处获得相关信息，配合本发明所提供的多渠道多种类语音获取方式，使得用户能够直接在远程与智能冰箱进行交互，具有极高的便捷性，大幅提高了用户使用体验。在本发明的其他实施方式中，也可仅采用上述生成文本信息输出方式中的一种或几种，或者也可基于现有技术通过其他渠道输出生成文本信息，本发明对此不作具体限制。

如图5所示，本实施方式还提供一种远场语音识别装置，包括：

数据获取模块1，用于获取语音数据、音视频数据；

语音数据处理模块2，用于对所述语音数据和所述音视频数据进行预处理，并对所述音视频数据进行语音视频分离，获得分离后的视频语音数据；获取有效时长的所述语音数据和所述视频语音数据，对所述语音数据和所述视频语音数据进行降噪处理；通过深度卷积神经网络对所述语音数据和所述视频语音数据进行语音特征提取，获取语音特征；

编码模块3，用于对所述语音特征进行编码获得语义特征向量；

解码模块4，用于对所述语义特征向量进行解码得到语音文本数据；

结果生成和输出模块5，基于语义信息生成文本和/或图像和/或语音，并输出所生成的信息。

所述语音数据处理模块通过双向长短时记忆网络基于所述语音数据和所述视频语音数据前后序列关系和上下文信息消除所述视频语音数据的回声和噪声。

语音数据处理模块还被用于对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号

所述编码模块通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

所述解码模块通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

所述结果生成和输出模块基于语义信息生成文本，和/或基于语义信息采用CLIP模型方法生成图像，和/或基于语义信息采用波形拼接和端到端神经网络模型生成语音。

所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据，和/或获取自客户终端传输的所述语音数据；获取语音采集装置所采集的所述音视频数据，和/或获取自客户终端传输的所述音视频数据。

所述结果生成和输出模块被配置用于将所述生成的文本和/或图像和/或语音直接输出，和/或将所述生成的文本和/或图像和/或语音传输至客户终端输出。

本实施方式还提供一种冰箱，包括：

存储器，用于存储可执行指令；

本实施方式还提供一种计算机可读存储介质，其存储有可执行指令，所述可执行指令被处理器执行时实现上述的远场语音识别方法。

综上所述，本实施方式通过数据采集、清洗、回声与噪声消除、深度神经网络特征提取等步骤，从而在编码前端有效降低冗余信号，提升语音质量，增强语音的可懂度与准确性，配合后续的语义编码和解码过程，以及多媒体的展示信息生成方式，提升了智能冰箱等智能家居设备的用户体验和性能。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种远场语音识别方法，其特征在于，包括步骤：

获取语音数据、音视频数据；

对所述语音特征进行编码获得语义特征向量；

对所述语义特征向量进行解码得到语音文本数据；

2.根据权利要求1所述的远场语音识别方法，其特征在于，所述对所述语音数据和所述视频语音数据进行降噪处理，具体包括：

3.根据权利要求2所述的远场语音识别方法，其特征在于，在处理后获取有效时长的所述语音数据和所述视频语音数据后，还包括：

4.根据权利要求3所述的远场语音识别方法，其特征在于，所述对所述语音特征进行编码获得语义特征向量，具体包括：

通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

5.根据权利要求1所述的远场语音识别方法，其特征在于，所述对所述语义特征向量进行解码得到语音文本数据，具体包括：

6.根据权利要求1所述的远场语音识别方法，其特征在于，所述对所述语音数据和音视频数据进行预处理，包括：

7.根据权利要求1所述的远场语音识别方法，其特征在于，所述基于语义信息生成文本和/或图像和/或语音具体包括：

基于语义信息生成文本，和/或

基于语义信息采用CLIP模型方法生成图像，和/或

8.根据权利要求1所述的远场语音识别方法，其特征在于，所述获取语音数据、音视频数据，具体包括：

获取语音采集装置所采集的所述语音数据，和/或

获取自客户终端传输的所述语音数据；

获取语音采集装置所采集的所述音视频数据，和/或

获取自客户终端传输的所述音视频数据。

9.根据权利要求1所述的远场语音识别方法，其特征在于，所述输出所生成的信息，具体包括：

将所述生成的文本和/或图像和/或语音直接输出，和/或

10.一种远场语音识别装置，其特征在于，包括：

数据获取模块，用于获取语音数据、音视频数据；

11.根据权利要求10所述的远场语音识别装置，其特征在于，所述语音数据处理模块通过双向长短时记忆网络基于所述语音数据和所述视频语音数据前后序列关系和上下文信息消除所述视频语音数据的回声和噪声。

12.根据权利要求10所述的远场语音识别装置，其特征在于，语音数据处理模块还被用于对所述语音数据和所述视频语音数据进行过滤，筛除部分冗余语音信号。

13.根据权利要求10所述的远场语音识别装置，其特征在于，所述编码模块通过Wav2Vec模型将所述语音特征进行编码获得语义特征向量。

14.根据权利要求10所述的远场语音识别装置，其特征在于，所述解码模块通过多层Transformer深度网络模型对所述语义特征向量进行解码得到语音文本数据。

15.根据权利要求10所述的远场语音识别装置，其特征在于，所述结果生成和输出模块基于语义信息生成文本，和/或基于语义信息采用CLIP模型方法生成图像，和/或基于语义信息采用波形拼接和端到端神经网络模型生成语音。

16.根据权利要求10所述的远场语音识别装置，其特征在于，所述数据获取模块被配置用于获取语音采集装置所采集的所述语音数据，和/或获取自客户终端传输的所述语音数据；获取语音采集装置所采集的所述音视频数据，和/或获取自客户终端传输的所述音视频数据。

17.根据权利要求10所述的远场语音识别装置，其特征在于，所述结果生成和输出模块被配置用于将所述生成的文本和/或图像和/或语音直接输出，和/或将所述生成的文本和/或图像和/或语音传输至客户终端输出。

18.一种冰箱，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至9任一项所述的远场语音识别方法。

19.一种计算机可读存储介质，其特征在于，其存储有可执行指令，所述可执行指令被处理器执行时实现权利要求1至9任一项所述的远场语音识别方法。