CN109767769A

CN109767769A - 一种语音识别方法、装置、存储介质及空调

Info

Publication number: CN109767769A
Application number: CN201910130206.9A
Authority: CN
Inventors: 李明杰; 宋德超; 贾巨涛; 吴伟; 谢俊杰
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-05-17
Anticipated expiration: 2039-02-21
Also published as: US11830479B2; EP3923273A1; EP3923273B1; EP3923273A4; US20210383795A1; CN109767769B; PT3923273T; WO2020168727A1; ES2953525T3

Abstract

本发明公开了一种语音识别方法、装置、存储介质及空调，该方法包括：获取第一语音数据；根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据；利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息。本发明的方案，可以解决利用深度学习方法或麦克风阵列方法去除远场语音数据中的混响和噪音，存在远场语音识别效果差的问题，达到提升远场语音识别效果的效果。

Description

一种语音识别方法、装置、存储介质及空调

技术领域

本发明属于语音控制技术领域，具体涉及一种语音识别方法、装置、存储介质及空调，尤其涉及一种基于微波雷达的远场语音识别方法、装置、存储介质及空调。

背景技术

语音识别技术是目前应用较为成熟的人机交互方式，从最初的手持设备这种近场的语音识别，如Sirfi语音识别以及各种语音助手，到现在，语音识别的应用已经完成向智能硬件、家电设备、机器人等领域上的延伸。但新的人机交互方式对硬件、软件、算法等方面的要求更加苛刻，特别是远场语音识别技术面临巨大的挑战。

随着智能家居系统的不断发展，智能家居如语音空调属于远场语音识别技术。首先，人机之间的语音交互(这里主要指智能硬件、机器人等)，区别于传统的有屏手持设备，在传统的语音交互中，因为是近场，语音信号质量相对较高，而且有触摸屏辅助，所以交互链路可以相对简单。通过点击屏幕触发，再通过点击屏幕或者能量VAD(Voice ActivityDetection，语音活动检测)检测，来结束语音信号采集，即可完成一次交互，整个过程通过语音识别、语义理解、语音合成即可完成。

而对于人机之间的交互，由于涉及到远场，环境比较复杂，而且无屏交互，如果要像人与人之间的交流一样自然、持续、双向、可打断，整个交互过程需要解决的问题更多，为完成类似人类的语音交互，是一个需要软硬件一体、云+端相互配合的过程。

目前的语音识别算法的训练数据主要是利用手机上收集的语音进行训练，只适用近场识别。对于复杂的远场语音数据，存在大量的混响和噪音。现有技术主要是利用深度学习方法或麦克风阵列方法去除混响和噪音，在实际应用过程中无法同时感知声源的位置和方向数据，从而只能使用通用方法(例如：前端的麦克风阵列方法和后端的神经网络算法)去处理语音数据，存在远场语音识别率低、响应时间长、降噪效果差等问题。

其中，利用深度学习方法或麦克风阵列方法去除混响和噪音，可以包括：

(1)麦克风阵列方法：主要是在混响的场景下提高音波方向估计的鲁棒性。通过集成多个麦克风来检测波束的方向后，利用波束形成技术抑制周围的非平稳噪声。但由于产品价格和尺寸的限制，麦克风的个数及每个麦克风的间距有限，能够分辨的方向范围较小。

(2)深度学习方法：通过信号处理的手段对混响和噪声的语音数据进行过滤和单一化处理，利用DNN或RNN等算法替代波束形成技术，实现语音增强。但处理效果较差，尤其在噪声很大的环境里远场语音识别效果不好。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的目的在于，针对上述缺陷，提供一种语音识别方法、装置、存储介质及空调，以解决利用深度学习方法或麦克风阵列方法去除远场语音数据中的混响和噪音，存在远场语音识别效果差的问题，达到提升远场语音识别效果的效果。

本发明提供一种语音识别方法，包括：获取第一语音数据；根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据；利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息。

可选地，其中，该第一语音数据，包括：语音唤醒词；所述语音唤醒词，为用于唤醒语音设备的语音数据；和/或，该第二语音数据，包括：语音指令；所述语音指令，为用于控制语音设备的语音数据；和/或，获取第一语音数据的操作、根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作，在语音设备的本地侧执行；和/或，利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作，由语音设备在本地侧接收云端处理后的反馈信息。

可选地，其中，获取第一语音数据，包括：获取由语音采集设备采集得到的第一语音数据；和/或，获取第二语音数据，包括：获取由调整采集状态后的语音采集设备采集得到的第二语音数据；其中，所述语音采集设备，包括：麦克风阵列；在所述麦克风阵列中，设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。

可选地，根据所述第一语音数据调整第二语音数据的采集状态，包括：确定发送所述第一语音数据的声源的位置信息；增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。

可选地，其中，确定发送所述第一语音数据的声源的位置信息，包括：利用语音采集设备确定发送所述第一语音数据的声源的方向；利用位置定位设备基于该方向对所述声源进行定位，得到所述声源的位置信息；其中，所述位置定位设备，包括：微波雷达模块；所述位置信息，包括：距离和方向；和/或，增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，包括：在所述语音采集设备包括麦克风阵列的情况下，开启所述麦克风阵列中该位置信息上的麦克风，和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量；和/或，抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度，包括：关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风，和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。

可选地，利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，包括：对采集到的第二语音数据进行预处理，得到语音信息；再利用预设的远场语音识别模型，对预处理后的语音信息进行远场语音识别处理；其中，所述远场语音识别模型，包括：基于LSTM算法进行深度学习训练得到的远场声学模型。

可选地，还包括：收集语音数据及其声源数据；对所述语音数据及其声源数据进行预处理后，利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型。

与上述方法相匹配，本发明另一方面提供一种语音识别装置，包括：获取单元，用于获取第一语音数据；所述获取单元，还用于根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据；识别单元，用于利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息。

可选地，其中，所述获取单元获取第一语音数据，包括：获取由语音采集设备采集得到的第一语音数据；和/或，所述获取单元获取第二语音数据，包括：获取由调整采集状态后的语音采集设备采集得到的第二语音数据；其中，所述语音采集设备，包括：麦克风阵列；在所述麦克风阵列中，设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。

可选地，所述获取单元根据所述第一语音数据调整第二语音数据的采集状态，包括：确定发送所述第一语音数据的声源的位置信息；增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。

可选地，其中，所述获取单元确定发送所述第一语音数据的声源的位置信息，包括：利用语音采集设备确定发送所述第一语音数据的声源的方向；利用位置定位设备基于该方向对所述声源进行定位，得到所述声源的位置信息；其中，所述位置定位设备，包括：微波雷达模块；所述位置信息，包括：距离和方向；和/或，所述获取单元增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，包括：在所述语音采集设备包括麦克风阵列的情况下，开启所述麦克风阵列中该位置信息上的麦克风，和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量；和/或，所述获取单元抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度，包括：关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风，和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。

可选地，所述识别单元利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，包括：对采集到的第二语音数据进行预处理，得到语音信息；再利用预设的远场语音识别模型，对预处理后的语音信息进行远场语音识别处理；其中，所述远场语音识别模型，包括：基于LSTM算法进行深度学习训练得到的远场声学模型。

可选地，还包括：所述获取单元，还用于收集语音数据及其声源数据；所述识别单元，还用于对所述语音数据及其声源数据进行预处理后，利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型。

与上述装置相匹配，本发明再一方面提供一种空调，包括：以上所述的语音识别装置。

与上述方法相匹配，本发明再一方面提供一种存储介质，包括：所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行以上所述的语音识别方法。

与上述方法相匹配，本发明再一方面提供一种空调，包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行以上所述的语音识别方法。

本发明的方案，通过微波雷达技术对的各种周边环境进行自动识别，利用深度学习算法可以提升远场语音识别准确率，用户体验好。

进一步，本发明的方案，通过利用微波雷达技术定位声源位置，根据声源位置调整麦克风阵列的采集状态，并进一步利用基于LSTM深度学习算法训练得到的远场语音识别模型对语音数据进行远场识别，可以保证高识别率，从而满足复杂环境下的使用需求。

进一步，本发明的方案，通过在微波雷达技术的基础，结合LSTM深度学习算法模型，利用声源和语音数据训练出远场语音识别模型，将语音数据准确高效地转化成文本数据，可以提升远场语音识别效果。

进一步，本发明的方案，通过将前端信息处理技术和后端语音识别技术相结合，即：通过结合微波雷达技术获取声源的位置参数，将音频数据和位置数据(如声源的位置参数)相结合，通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型，可以缩短响应时间短和提升降噪效果。

进一步，本发明的方案，通过利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上，利用微波雷达技术实时精确计算声源的距离和方向，再用边缘计算技术实时调控麦克风阵列的状态，结合声源数据和语音数据，训练并使用基于LSTM的远场声学模型，可以提升远场识别效率和降噪效果，缩短响应时间。

由此，本发明的方案，通过利用微波雷达技术定位声源位置，根据声源位置调整麦克风阵列的采集状态，并进一步利用基于LSTM深度学习算法训练得到的远场语音识别模型对语音数据进行远场识别，解决利用深度学习方法或麦克风阵列方法去除远场语音数据中的混响和噪音，存在远场语音识别效果差的问题，从而，克服现有技术中远场语音识别率低、响应时间长、降噪效果差的缺陷，实现远场识别效率高、响应时间短和降噪效果好的有益效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的语音识别方法的一实施例的流程示意图；

图2为本发明的方法中根据所述第一语音数据调整第二语音数据的采集状态的一实施例的流程示意图；

图3为本发明的方法中确定发送所述第一语音数据的声源的位置信息的一实施例的流程示意图；

图4为本发明的方法中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的一实施例的流程示意图；

图5为本发明的方法中训练得到预设的远场语音识别模型的一实施例的流程示意图；

图6为本发明的语音识别装置的一实施例的结构示意图；

图7为本发明的空调的一实施例的基于微波雷达的远场语音识别系统的结构示意图；

图8为本发明的空调的一实施例的基于微波雷达的远场语音识别算法的流程示意图。

结合附图，本发明实施例中附图标记如下：

102-获取单元；104-识别单元。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种语音识别方法，如图1所示本发明的方法的一实施例的流程示意图。该语音识别方法可以包括：步骤S110至步骤S130。

在步骤S110处，获取第一语音数据。

其中，该第一语音数据，可以包括：语音唤醒词，当然该第一语音数据也可以包括语音指令。所述语音唤醒词，为可以用于唤醒语音设备的语音数据。

由此，通过获取多种形式的第一语音数据，可以方便在不同场合下基于第一语音数据调整第二语音数据的采集状态，提升用户使用的便捷性和通用性。

可选地，步骤S110中获取第一语音数据，可以包括：获取由语音采集设备采集得到的第一语音数据。

由此，通过语音采集设备采集第一语音数据的方式获取第一语音数据，使得对第一语音数据的获取便捷且精准。

在步骤S120处，根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据。

例如：在设备端处理平台上，首先利用麦克风阵列定位唤醒词声源大致方位(例如：通过麦克风阵列通过声波的方向判断唤醒词语音声源位置)，再用微波雷达模块对声源进行精确定位，采集距离和方向(即声源的距离和方向)数据；然后根据该数据打开和关闭麦克风阵列模块上相对应位置上的麦克风；最后采集远场的音频数据。

其中，该第二语音数据，可以包括：语音指令，当然该第二语音数据也可以包括下一语音唤醒词。所述语音指令，为可以用于控制语音设备的语音数据。

由此，通过获取多种形式的第二语音数据，可以方便用户的多种语音控制需求，灵活且便捷。

具体地，步骤S110中获取第一语音数据的操作、步骤S120中根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作，在语音设备的本地侧执行。

由此，通过在语音设备的本地侧执行获取第一语音数据和第二语音数据、并基于第一语音数据调整第二语音数据的采集状态的操作，可以提升获取的精准性和可靠性，并提升处理效率。

可选地，可以结合图2所示本发明的方法中根据所述第一语音数据调整第二语音数据的采集状态的一实施例流程示意图，进一步说明步骤S120中根据所述第一语音数据调整第二语音数据的采集状态的具体过程，可以包括：步骤S210和步骤S220。

步骤S210，确定发送所述第一语音数据的声源的位置信息。

更可选地，可以结合图3所示本发明的方法中确定发送所述第一语音数据的声源的位置信息的一实施例流程示意图，进一步说明步骤S210中确定发送所述第一语音数据的声源的位置信息的具体过程，可以包括：步骤S310和步骤S320。

步骤S310，利用语音采集设备确定发送所述第一语音数据的声源的方向。

例如：利用麦克风阵列对唤醒词语音进行粗略地识别声源方向，可以包括：语音识别系统是需要先通过语音唤醒词(如：某某空调)来唤醒设备。本发明的方案中可以首先通过麦克风阵列技术获取唤醒词语音声源的大致方向。

步骤S320，利用位置定位设备基于该方向对所述声源进行定位，得到所述声源的位置信息。

其中，所述位置定位设备，可以包括：微波雷达模块，当然该位置定位设备也可以包括其它定位模块，从而，可以在微波雷达定位技术的基础上，解决复杂环境下的远场语音识别问题。所述位置信息，可以包括：距离和方向。

例如：利用微波雷达技术实时精确计算声源的距离和方向，可以包括：微波雷达通过发送装置发出微波信号，信号在遇到物体后会产生反射，通过接收装置收反射回来的微波信号，就可以得到环境里的物体位置、大小、形状等数据。本发明的方案中可以利用该技术获得声源(发出声音的人)的位置数据。

由此，通过语音采集设备确定第一语音数据的声源的方向，进一步基于该方向利用位置定位设备对该声源进行定位从而确定该声源的位置信息，使得对第一语音数据的声源的位置信息的确定精准而可靠。

步骤S220，基于该位置信息，增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度以调整所述语音采集设备对第二语音数据的采集状态。其中，语音采集设备的采集状态，可以包括：语音采集设备的采集强度。

例如：在远场环境下，采用云(即云端处理平台)和端(即设备处理端或设备端处理平台)相结合的处理方式。在设备处理端，首先利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上，然后利用微波雷达技术实时精确计算声源的距离和方向，再用边缘计算技术实时调控麦克风阵列的状态。

由此，通过基于第一语音数据的声源的位置信息对语音采集设备对第二语音数据的采集强度进行调整，有利于提升对第二语音数据的采集的便捷性和可靠性。

更可选地，步骤S220中增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度、和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度的操作，可以包括以下至少一种调整情形。

第一种调整情形：增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，可以包括：在所述语音采集设备可以包括麦克风阵列的情况下，开启所述麦克风阵列中该位置信息上的麦克风，和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量。

第二种调整情形：抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度，可以包括：关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风，和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。

例如：用边缘计算技术实时调控麦克风阵列的状态，包括：本发明的麦克风阵列里有多个麦克风设备，在通过唤醒词获得声源大致方位的基础上，通过前端设备控制麦克风的状态。例如：麦克风阵列有不同方向上的4个麦克效果，获得了声源的位置在正前方，这时可以增强该方向上的麦克风接收效果(接收音频信号的能力)，抑制其他方向上的麦克风接收效果，从而去除其他方向上的噪声。

由此，通过基于第一语音数据的位置信息对语音采集设备在不同位置上的采集强度进行增强或降低，可以提升语音采集设备对第二语音数据采集的精准性和可靠性，进而有利于提升语音识别和语音控制的精准性和可靠性。

可选地，步骤S120中获取第二语音数据，可以包括：获取由调整采集状态后的语音采集设备采集得到的第二语音数据。

由此，通过语音采集设备采集第二语音数据的方式获取第二语音数据，使得对第二语音数据的获取便捷且精准。

其中，所述语音采集设备，可以包括：麦克风阵列。在所述麦克风阵列中，设置有可以用于对一个以上方向上的语音数据进行采集的一个以上麦克风。

由此，通过使用麦克风阵列获取语音数据，获取的方式灵活，且获取的结果可靠。

在步骤S130处，利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息，以控制语音设备按该语义信息执行该第二语音数据。其中，该语义信息，可以包括：语义文本数据。例如：文本数据，可以是通过训练的声学模型将语音数据转化成得到的文本数据。

例如：在云端处理平台上，首先利用人工采集和标注的声源和音频数据库训练LSTM声学模型，得到远场语音识别模型；然后，通过实时采集语音数据，在上述模型上进行实时远场语音识别；最后得到复杂环境下、高准确率的语音文本数据。在复杂场景下，可以基于微波雷达技术，准确高效地进行远场语音识别。

由此，通过基于第一语音数据调整第二语音数据的采集状态后再获取第二语音数据，可以保证对第二语音数据获取的精准性和可靠性；并利用预设的远场语音识别模型对第二语音数据进行远场语音识别，可以提升对第二语音数据进行远场语音识别的效率和效果。

具体地，步骤S130中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作，由语音设备在本地侧接收云端处理后的反馈信息。

由此，通过云端执行利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作后再将操作结果反馈至语音设备的本地侧，一方面可以提升数据处理的效率和存储可靠性，另一方面可以减轻语音设备的本地侧的数据处理和存储压力，进而提升语音设备进行语音控制的便捷性和可靠性。

可选地，可以结合图4所示本发明的方法中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的一实施例流程示意图，进一步说明步骤S130中利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的具体过程，可以包括：步骤S410和步骤S420。

步骤S410，对采集到的第二语音数据进行预处理，得到语音信息。

步骤S420，再利用预设的远场语音识别模型，对预处理后的语音信息进行远场语音识别处理。该预处理，可以包括：缺失值、标准化、降噪等预处理。

其中，所述远场语音识别模型，可以包括：基于LSTM算法进行深度学习训练得到的远场声学模型。

例如：在图7所示的系统中，麦克风阵列：接收语音数据并判断唤醒词声源大致方位；微波雷达：获得声源的位置参数(方向和距离数据)，即获得声源数据；调整麦克风阵列状态：根据声源位置数据增强或抑制相应方向上的麦克风；基于LSTM的远场声学模型：通过声源数据和语音数据训练的声学模型，将语音数据转化成对应的文本数据。

例如：参见图8所示的例子，训练LSTM声学模型后，采集实时语音即对空调的语音进行实时监测，采集语音数据和声源数据；数据预处理：可以与步骤1中训练LSTM声学模型的数据预处理方式相同；基于LSTM的远场声学模型：利用训练LSTM声学模型训练出的LSTM远场声学模型进行语音识别；语音文本数据：根据模型的语音识别结果，得到对应的文本数据。在微波雷达技术的基础，结合LSTM深度学习算法模型，利用声源和语音数据训练出远场语音识别模型，将语音数据准确高效地转化成文本数据，提供满足用户需求、高识别率化的远场语音系统。

由此，通过对采集到的第二语音数据进行预处理，可以提升第二语音数据本身的精准性和可靠性；进而利用预设的远场语音识别模型对预处理后得到的语音信息进行远场语音识别，可以保证对第二语音数据识别的精准性和可靠性。

在一个可选实施方式中，还可以包括：训练得到预设的远场语音识别模型的过程。

下面结合图5所示本发明的方法中训练得到预设的远场语音识别模型的一实施例流程示意图，进一步说明训练得到预设的远场语音识别模型的具体过程，可以包括：步骤S510和步骤S520。

步骤S510，收集语音数据及其声源数据。该语音数据，可以包括：语音唤醒词和/或语音指令。例如：声源数据，可以包括声源的位置参数(方向和距离数据)；语音数据，可以是通过调整麦克风阵列状态后的麦克风接收到的语音数据。

步骤S520，对所述语音数据及其声源数据进行预处理后，利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型。其中，收集语音数据及其声源数据的操作、对所述语音数据及其声源数据进行预处理的操作、以及利用LSTM模型进行训练的操作，由语音设备在本地侧接收云端处理后的反馈信息。例如：在云处理端，结合声源数据和语音数据，训练并使用基于LSTM的远场声学模型。

例如：将前端信息处理技术和后端语音识别技术相结合，即：通过结合微波雷达技术获取声源的位置参数，将音频数据和位置数据(如声源的位置参数)相结合，通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型。通过微波雷达技术对的各种周边环境进行自动识别，利用深度学习算法提升远场语音识别准确率。

例如：参见图8所示的例子，训练LSTM声学模型，具体可以包括：收集上述历史数据(声源和语音的历史记录数据)；数据预处理：对数据进行处理缺失值、标准化、降噪等预处理；通过LSTM模型的输入层将数据载入模型中；LSTM模型的中间处理层；文本输出层：将语音数据转化的文本数据输出，得到基于LSTM的远场声学模型。

由此，通过预先收集语音数据及其声源数据并进行预处理后利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型，可以方便利用该远场语音识别模型对第二语音数据进行远场语音识别，且识别效率高、识别效果好。

经大量的试验验证，采用本实施例的技术方案，通过微波雷达技术对的各种周边环境进行自动识别，利用深度学习算法可以提升远场语音识别准确率，用户体验好。

根据本发明的实施例，还提供了对应于语音识别方法的一种语音识别装置。参见图6所示本发明的装置的一实施例的结构示意图。该语音识别装置可以包括：获取单元102和识别单元104。

在一个可选例子中，获取单元102，可以用于获取第一语音数据。该获取单元102的具体功能及处理参见步骤S110。

可选地，所述获取单元102获取第一语音数据，可以包括：所述获取单元102，具体还可以用于获取由语音采集设备采集得到的第一语音数据。

在一个可选例子中，所述获取单元102，还可以用于根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据。该获取单元102的具体功能及处理还参见步骤S120。

具体地，所述获取单元102获取第一语音数据的操作、所述获取单元102根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作，在语音设备的本地侧执行。

可选地，所述获取单元102根据所述第一语音数据调整第二语音数据的采集状态，可以包括：

所述获取单元102，具体还可以用于确定发送所述第一语音数据的声源的位置信息。该获取单元102的具体功能及处理还参见步骤S210。

更可选地，所述获取单元102确定发送所述第一语音数据的声源的位置信息，可以包括：

所述获取单元102，具体还可以用于利用语音采集设备确定发送所述第一语音数据的声源的方向。该获取单元102的具体功能及处理还参见步骤S310。

所述获取单元102，具体还可以用于利用位置定位设备基于该方向对所述声源进行定位，得到所述声源的位置信息。该获取单元102的具体功能及处理还参见步骤S320。

所述获取单元102，具体还可以用于基于该位置信息，增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度以调整所述语音采集设备对第二语音数据的采集状态。其中，语音采集设备的采集状态，可以包括：语音采集设备的采集强度。该获取单元102的具体功能及处理还参见步骤S220。

更可选地，所述获取单元102增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度、和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度的操作，可以包括以下至少一种调整情形。

第一种调整情形：所述获取单元102增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，可以包括：所述获取单元102，具体还可以用于在所述语音采集设备可以包括麦克风阵列的情况下，开启所述麦克风阵列中该位置信息上的麦克风，和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量。

第二种调整情形：所述获取单元102抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度，可以包括：所述获取单元102，具体还可以用于关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风，和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。

可选地，所述获取单元102获取第二语音数据，可以包括：所述获取单元102，具体还可以用于获取由调整采集状态后的语音采集设备采集得到的第二语音数据。

在一个可选例子中，识别单元104，可以用于利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息，以控制语音设备按该语义信息执行该第二语音数据。该识别单元104的具体功能及处理参见步骤S130。其中，该语义信息，可以包括：语义文本数据。例如：文本数据，可以是通过训练的声学模型将语音数据转化成得到的文本数据。

具体地，所述识别单元104利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作，由语音设备在本地侧接收云端处理后的反馈信息。

可选地，所述识别单元104利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，可以包括：

所述识别单元104，具体还可以用于对采集到的第二语音数据进行预处理，得到语音信息。该识别单元104的具体功能及处理还参见步骤S410。

所述识别单元104，具体还可以用于再利用预设的远场语音识别模型，对预处理后的语音信息进行远场语音识别处理。该预处理，可以包括：缺失值、标准化、降噪等预处理。该识别单元104的具体功能及处理还参见步骤S420。

由此，通过对采集到的第二语音数据进行预处理，可以提升第二语音数据本身的精准性和可靠性；进而利用预设的远场语音识别模型对预处理后得到的语音信息进行远场语音识别，可以保证对第二语音数据识别的精准性和可靠性在一个可选实施方式中，还可以包括：训练得到预设的远场语音识别模型的过程，具体可以如下：

所述获取单元102，还可以用于收集语音数据及其声源数据。该语音数据，可以包括：语音唤醒词和/或语音指令。该获取单元102的具体功能及处理还参见步骤S510。例如：声源数据，可以包括声源的位置参数(方向和距离数据)；语音数据，可以是通过调整麦克风阵列状态后的麦克风接收到的语音数据。

所述识别单元104，还可以用于对所述语音数据及其声源数据进行预处理后，利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型。其中，收集语音数据及其声源数据的操作、对所述语音数据及其声源数据进行预处理的操作、以及利用LSTM模型进行训练的操作，由语音设备在本地侧接收云端处理后的反馈信息。该识别单元104的具体功能及处理还参见步骤S520。例如：在云处理端，结合声源数据和语音数据，训练并使用基于LSTM的远场声学模型。

由于本实施例的装置所实现的处理及功能基本相应于前述图1至图5所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过利用微波雷达技术定位声源位置，根据声源位置调整麦克风阵列的采集状态，并进一步利用基于LSTM深度学习算法训练得到的远场语音识别模型对语音数据进行远场识别，可以保证高识别率，从而满足复杂环境下的使用需求。

根据本发明的实施例，还提供了对应于语音识别装置的一种空调。该空调可以包括：以上所述的语音识别装置。

考虑到传统的远场语音识别技术主要利用麦克风阵列和声源定位，可以较好地实现远场距离拾音，解决噪声、混响、回声带来的影响，但对于复杂环境下的人声检测和断句问题，处理效果较差。例如：一般声学模型只能针对音频数据进行降噪和识别处理，在复杂环境下，模型的准确度不够高。

例如：前端的麦克风阵列技术通过增加麦克风数量来提升语音识别效果，但由于产品价格和尺寸的限制，麦克风的个数及每个麦克风的间距都是有限的，并且每个麦克风的功能效果相同，这个会接收到多个方向上的噪音，降低语音识别准确率，故该技术的性价比较低，能够分辨的方向范围较小。

例如：现有的声学模型主要是用来处理一些近场短音频数据，并只能对语音音频数据进行处理，无法感知和获取声源的位置参数(距离和方向)，故只能适应特定环境下的语音识别。而且现有的声学模型属于后端语音识别处理技术，没有和前端的信号处理设备或算法紧密结合。

在一个可选实施方式中，本发明的方案，在微波雷达定位技术的基础上，解决复杂环境下的远场语音识别问题。

其中，民用微波雷达及其传感器是一个新兴的高科技产业，在测速、车流量检测、物位计等方面已有广发应用。LSTM(Long Short-Term Memory，长短期记忆网络)是一种时间递归神经网络系统，可以用来处理和预测时间序列中间隔和延迟相对较长的重要事件。

具体地，本发明的方案，将前端信息处理技术和后端语音识别技术相结合，即：通过结合微波雷达技术获取声源的位置参数，将音频数据和位置数据(如声源的位置参数)相结合，通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型。

其中，长音频是指时间长的音频，是相对于短音频的，现在的大部分技术适用于短音频处理，本发明的方案可以实现长音频的处理，从而可以提取出更多的信息。

在一个可选例子中，在远场环境下，采用云(即云端处理平台)和端(即设备处理端或设备端处理平台)相结合的处理方式。在设备处理端，首先利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上，然后利用微波雷达技术实时精确计算声源的距离和方向，再用边缘计算技术实时调控麦克风阵列的状态。在云处理端，结合声源数据和语音数据，训练并使用基于LSTM的远场声学模型。

可选地，利用麦克风阵列对唤醒词语音进行粗略地识别声源方向，可以包括：语音识别系统是需要先通过语音唤醒词(如：某某空调)来唤醒设备。本发明的方案中可以首先通过麦克风阵列技术获取唤醒词语音声源的大致方向。

可选地，利用微波雷达技术实时精确计算声源的距离和方向，可以包括：微波雷达通过发送装置发出微波信号，信号在遇到物体后会产生反射，通过接收装置收反射回来的微波信号，就可以得到环境里的物体位置、大小、形状等数据。本发明的方案中可以利用该技术获得声源(发出声音的人)的位置数据。

可选地，用边缘计算技术实时调控麦克风阵列的状态，包括：本发明的麦克风阵列里有多个麦克风设备，在通过唤醒词获得声源大致方位的基础上，通过前端设备控制麦克风的状态。例如：麦克风阵列有不同方向上的4个麦克效果，获得了声源的位置在正前方，这时可以增强该方向上的麦克风接收效果(接收音频信号的能力)，抑制其他方向上的麦克风接收效果，从而去除其他方向上的噪声。

例如：增强该方向上的麦克风接收效果(接收音频信号的能力)，抑制其他方向上的麦克风接收效果，主要可以包括：打开和关闭麦克风阵列中不同方向上的麦克风，也有通过过滤麦克风接收的音频。例如：通过控制开关和过滤某个方向上的麦克风，从而使该方向的上接收少量的音频。

可见，本发明的方案中，远场语音识别是一项技术难点，通过微波雷达技术对的各种周边环境进行自动识别，利用深度学习算法提升远场语音识别准确率。

在一个可选具体实施方式中，可以结合图7和图8所示的例子，对本发明的方案的具体实现过程进行示例性说明。

在一个可选具体例子中，本发明的方案中，主要包含微波雷达定位、深度学习、大数据处理、边缘计算、云计算等方面的相关技术，分为两个功能模块：设备端处理平台和云端处理平台。

具体地，在图7所示的系统中，麦克风阵列：接收语音数据并判断唤醒词声源大致方位；微波雷达：获得声源的位置参数(方向和距离数据)，即获得声源数据；调整麦克风阵列状态：根据声源位置数据增强或抑制相应方向上的麦克风；基于LSTM的远场声学模型：通过声源数据和语音数据训练的声学模型，将语音数据转化成对应的文本数据。其中，声源数据，可以包括声源的位置参数(方向和距离数据)；语音数据，可以是通过调整麦克风阵列状态后的麦克风接收到的语音数据；文本数据，可以是通过训练的声学模型将语音数据转化成得到的文本数据。

参见图7所示的例子，本发明的方案的实现原理，可以包括：

一方面，在设备端处理平台上，首先利用麦克风阵列定位唤醒词声源大致方位(例如：通过麦克风阵列通过声波的方向判断唤醒词语音声源位置)，再用微波雷达模块对声源进行精确定位，采集距离和方向(即声源的距离和方向)数据；然后根据该数据打开和关闭麦克风阵列模块上相对应位置上的麦克风；最后采集远场的音频数据。

另一方面，在云端处理平台上，首先利用人工采集和标注的声源和音频数据库训练LSTM声学模型，得到远场语音识别模型；然后，通过实时采集语音数据，在上述模型上进行实时远场语音识别；最后得到复杂环境下、高准确率的语音文本数据。

其中，主要是标注声源位置数据，是为了在训练中做标记。

在一个可选具体例子中，本发明的方案中，在复杂场景下，可以基于微波雷达技术，准确高效地进行远场语音识别。其中，参见图8所示的例子，本发明的方案中基于微波雷达的远场语音识别的具体过程，可以包括：

步骤1、训练LSTM声学模型，具体可以包括：

步骤11、收集上述历史数据(声源和语音的历史记录数据)。

步骤12、数据预处理：对数据进行处理缺失值、标准化、降噪等预处理。

例如：处理缺失值是对可能缺失的数据项，用总体均值或其他方法进行填充。标准化是通过数据归一化或同量度化让不同数据的同类化，如让音频数据和位置数据可以变成同一类数据。

步骤13、通过LSTM模型的输入层将数据载入模型中。

步骤14、LSTM模型的中间处理层。

其中，中间处理层是神经网络的一个处理过程，这是LSTM算法里固定的操作。例如：中间处理层通过输入、遗忘、输出的方法来更新网络中的细胞状态和细胞间连接的权值。

步骤15、文本输出层：将语音数据转化的文本数据输出，得到基于LSTM的远场声学模型。

步骤2、实时语音：对空调的语音进行实时监测。

步骤3、采集语音数据和声源数据。

步骤4、数据预处理：可以与步骤1中训练LSTM声学模型的数据预处理方式相同。

步骤5、基于LSTM的远场声学模型：利用步骤1中训练LSTM声学模型训练出的LSTM远场声学模型进行语音识别。

步骤6、语音文本数据：根据模型的语音识别结果，得到对应的文本数据。

可见，对于复杂环境下的语音设备使用过程中，需要准确、高效、实时的远场识别技术，解决噪声、混响、回声带来的影响，提高用户体验效果，迫切需要一种智能化、高效化、准确性高、可靠性强的远场识别系统。而目前市场上的远场识别主要是以单一化麦克风阵列和声学模型的形式，进行简单的识别，复杂场景下的识别准确度不高，暂时没有一种针对远场语音的高准确度、可靠的识别方法。而本发明的方案，在微波雷达技术的基础，结合LSTM深度学习算法模型，利用声源和语音数据训练出远场语音识别模型，将语音数据准确高效地转化成文本数据，提供满足用户需求、高识别率化的远场语音系统。

例如：语音转化成文本数据后，对文本数据进行提取和识别，才能控制相应的设备。这是语音识别系统的必备步骤。

由于本实施例的空调所实现的处理及功能基本相应于前述图6所示的装置的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过在微波雷达技术的基础，结合LSTM深度学习算法模型，利用声源和语音数据训练出远场语音识别模型，将语音数据准确高效地转化成文本数据，可以提升远场语音识别效果。

根据本发明的实施例，还提供了对应于语音识别方法的一种存储介质。该存储介质，可以包括：所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行以上所述的语音识别方法。

由于本实施例的存储介质所实现的处理及功能基本相应于前述图1至图5所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过将前端信息处理技术和后端语音识别技术相结合，即：通过结合微波雷达技术获取声源的位置参数，将音频数据和位置数据相结合，通过适用于长音频数据和音频数据上下文的LSTM算法训练出远场声学模型，可以缩短响应时间短和提升降噪效果

根据本发明的实施例，还提供了对应于语音识别方法的一种空调。该空调，可以包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行以上所述的语音识别方法。

由于本实施例的空调所实现的处理及功能基本相应于前述图1至图5所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过利用麦克风阵列对唤醒词语音进行粗略地识别声源方向的基础上，利用微波雷达技术实时精确计算声源的距离和方向，再用边缘计算技术实时调控麦克风阵列的状态，结合声源数据和语音数据，训练并使用基于LSTM的远场声学模型，可以提升远场识别效率和降噪效果，缩短响应时间。

综上，本领域技术人员容易理解的是，在不冲突的前提下，上述各有利方式可以自由地组合、叠加。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取第一语音数据；

根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据；

利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息。

2.根据权利要求1所述的方法，其特征在于，其中，

该第一语音数据，包括：语音唤醒词；所述语音唤醒词，为用于唤醒语音设备的语音数据；和/或，

该第二语音数据，包括：语音指令；所述语音指令，为用于控制语音设备的语音数据；

和/或，

获取第一语音数据的操作、根据所述第一语音数据调整第二语音数据的采集状态的操作、以及基于调整后的采集状态获取第二语音数据的操作，在语音设备的本地侧执行；和/或，

利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别的操作，由语音设备在本地侧接收云端处理后的反馈信息。

3.根据权利要求1或2所述的方法，其特征在于，其中，

获取第一语音数据，包括：

获取由语音采集设备采集得到的第一语音数据；

和/或，

获取第二语音数据，包括：

获取由调整采集状态后的语音采集设备采集得到的第二语音数据；

其中，所述语音采集设备，包括：麦克风阵列；在所述麦克风阵列中，设置有用于对一个以上方向上的语音数据进行采集的一个以上麦克风。

4.根据权利要求1-3之一所述的方法，其特征在于，根据所述第一语音数据调整第二语音数据的采集状态，包括：

确定发送所述第一语音数据的声源的位置信息；

增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，和/或抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度。

5.根据权利要求4所述的方法，其特征在于，其中，

确定发送所述第一语音数据的声源的位置信息，包括：

利用语音采集设备确定发送所述第一语音数据的声源的方向；

利用位置定位设备基于该方向对所述声源进行定位，得到所述声源的位置信息；

其中，所述位置定位设备，包括：微波雷达模块；所述位置信息，包括：距离和方向；

和/或，

增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，包括：

在所述语音采集设备包括麦克风阵列的情况下，开启所述麦克风阵列中该位置信息上的麦克风，和/或增加所述麦克风阵列中该位置信息上的麦克风的开启数量；

和/或，

抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度，包括：

关闭所述麦克风阵列上除该位置信息以外的其它位置上的麦克风，和/或减少所述麦克风阵列上除该位置信息以外的其它位置上的开启数量。

6.根据权利要求1-5之一所述的方法，其特征在于，利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，包括：

对采集到的第二语音数据进行预处理，得到语音信息；

再利用预设的远场语音识别模型，对预处理后的语音信息进行远场语音识别处理；

其中，所述远场语音识别模型，包括：基于LSTM算法进行深度学习训练得到的远场声学模型。

7.根据权利要求1-6之一所述的方法，其特征在于，还包括：

收集语音数据及其声源数据；

对所述语音数据及其声源数据进行预处理后，利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型。

8.一种语音识别装置，其特征在于，包括：

获取单元，用于获取第一语音数据；

所述获取单元，还用于根据所述第一语音数据调整第二语音数据的采集状态，并基于调整后的采集状态获取第二语音数据；

识别单元，用于利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，以得到与获取的第二语音数据对应的语义信息。

9.根据权利要求8所述的装置，其特征在于，其中，

和/或，

10.根据权利要求8或9所述的装置，其特征在于，其中，

所述获取单元获取第一语音数据，包括：

获取由语音采集设备采集得到的第一语音数据；

和/或，

所述获取单元获取第二语音数据，包括：

11.根据权利要求8-10之一所述的装置，其特征在于，所述获取单元根据所述第一语音数据调整第二语音数据的采集状态，包括：

确定发送所述第一语音数据的声源的位置信息；

12.根据权利要求11所述的装置，其特征在于，其中，

所述获取单元确定发送所述第一语音数据的声源的位置信息，包括：

和/或，

所述获取单元增强获取第一语音数据的语音采集设备对该位置信息上的第二语音数据的采集强度，包括：

和/或，

所述获取单元抑制采集第一语音数据的语音采集设备对除该位置信息以外的其它位置上的第二语音数据的采集强度，包括：

13.根据权利要求8-12之一所述的装置，其特征在于，所述识别单元利用预设的远场语音识别模型对获取的第二语音数据进行远场语音识别，包括：

对采集到的第二语音数据进行预处理，得到语音信息；

14.根据权利要求8-13之一所述的装置，其特征在于，还包括：

所述获取单元，还用于收集语音数据及其声源数据；

所述识别单元，还用于对所述语音数据及其声源数据进行预处理后，利用LSTM模型进行训练，得到基于LSTM的远场语音识别模型。

15.一种空调，其特征在于，包括：如权利要求8-14任一所述的语音识别装置。

16.一种存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-7任一所述的语音识别方法。

17.一种空调，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-7任一所述的语音识别方法。