CN115620710A

CN115620710A - 语音识别的方法、装置、存储介质以及电子装置

Info

Publication number: CN115620710A
Application number: CN202110742458.4A
Authority: CN
Inventors: 张卓博
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-01-17

Abstract

本发明公开了一种语音识别的方法、装置、存储介质以及电子装置，其中，该方法包括：获取目标语音对应的目标文本，目标语音为与智能设备交互的语音；将目标文本以及控制指令发送给边缘设备，控制指令用于控制边缘设备根据目标文本确定目标应用场景，目标应用场景为目标语音对应的应用场景；获取边缘设备发送的目标应用场景；根据目标应用场景以及目标文本，确定目标语音的最终文本。该方法解决了相关技术中智能家居的语音识别过程中，由于用户信息的隐私问题，无法获取足够的信息来进行文本识别等问题。

Description

语音识别的方法、装置、存储介质以及电子装置

技术领域

本发明涉及人机交互领域，具体而言，涉及一种语音识别的方法、装置、计算机可读的存储介质以及电子装置。

背景技术

在智能家居领域，人机语音交互非常重要，其中一个重要的环节就是理解用户的意图，这就要把语音正确地识别为文本的ASR(Automatic Speech Recognition，自动语音识别)技术，将语音进行识别并转换为文本，同时把文本解析为用户的意图，这就要求语音识别的文本的正确性。由此产生了文本纠错模型，来提升文本的正确性。

在智能家居领域，语音通常是独立的，并没有上下句的关系，这使得文本纠错模型很难提取先验知识去纠错，因此通常需要收集用户信息，根据用户信息来提高纠错服务能力。但是由此会引发一些数据使用问题，哪些数据可以采集，哪些数据需要脱敏，非隐私数据是否足以建立有效模型等问题。

针对相关技术中，智能家居的语音识别过程中，由于用户信息的隐私问题，无法获取足够的信息来进行文本识别等问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音识别的方法、装置、计算机可读的存储介质以及电子装置，以至少解决相关技术中智能家居的语音识别过程中，由于用户信息的隐私问题，无法获取足够的信息来进行文本识别等问题。

根据本发明实施例的一个实施例，提供了一种语音识别的方法，包括：获取目标语音对应的目标文本，所述目标语音为与智能设备交互的语音；将所述目标文本以及控制指令发送给边缘设备，所述控制指令用于控制所述边缘设备根据所述目标文本确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；获取所述边缘设备发送的所述目标应用场景；根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

在一个示例性实施例中，在将所述目标文本以及控制指令发送给边缘设备之前，所述方法还包括：建立初始分类模型，所述初始分类模型为多个应用场景的分类模型；根据所述初始分类模型以及预定信息，确定最终分类模型，所述预定信息为所述边缘设备根据所述智能设备的使用数据以及所述初始分类模型生成的，所述预定信息包括所述初始分类模型的梯度；根据所述最终分类模型，生成所述控制指令。

在一个示例性实施例中，根据所述初始分类模型以及预定信息，确定最终分类模型，包括：第一发送步骤，将所述初始分类模型发送给所述边缘设备；第一接收步骤，接收所述边缘设备发送的所述梯度；更新步骤，根据所述梯度，更新所述初始分类模型；第一重复步骤，依次重复所述第一发送步骤、所述第一接收步骤以及所述更新步骤至少一次，直到更新后的所述初始分类模型的损失函数收敛，更新后的所述初始分类模型为所述最终分类模型。

在一个示例性实施例中，所述第一发送步骤包括：将所述初始分类模型以及公钥发送给所述边缘设备，所述第一接收步骤包括：接收所述边缘设备发送的加密的所述梯度。

在一个示例性实施例中，在所述第一接收步骤之后，在所述更新步骤之前，所述方法还包括：获取所述边缘设备的位置信息，所述更新步骤包括：根据所述梯度以及所述位置信息，更新所述初始分类模型。

根据本发明实施例的另一个实施例，还提供了一种语音识别的方法，包括：接收服务器发送的目标文本以及控制指令，所述目标文本为目标语音对应的文本，所述目标语音为与智能设备交互的语音；根据所述控制指令以及所述目标文本，确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；将所述目标应用场景发送给所述服务器，以使得所述服务器根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

在一个示例性实施例中，在接收服务器发送的目标文本以及控制指令之前，所述方法还包括：根据智能设备的使用数据以及初始分类模型，生成预定信息，所述预定信息包括所述初始分类模型的梯度，所述初始分类模型为所述服务器建立的多个应用场景的分类模型；将所述预定信息发送至所述服务器。

在一个示例性实施例中，根据智能设备的使用数据以及初始分类模型，生成预定信息，包括：第二接收步骤，接收所述服务器发送的所述初始分类模型，以及所述智能设备发送的所述使用数据；训练步骤，根据所述使用数据，对所述初始分类模型进行训练，得到所述梯度；第二发送步骤，将所述梯度发送至所述服务器；第二重复步骤，依次重复所述第二接收步骤、所述训练步骤以及所述第二发送步骤至少一次，直到接收到所述控制指令为止。

在一个示例性实施例中，所述第二接收步骤包括：接收所述服务器发送的所述初始分类模型以及公钥，在所述训练步骤之后，在所述第二发送步骤之前，所述方法还包括：根据所述公钥，对所述预定信息进行加密，所述第二发送步骤包括：将加密后的所述梯度发送至所述服务器。

在一个示例性实施例中，所述控制指令包括最终分类模型，根据所述控制指令以及所述目标文本，确定目标应用场景，包括：根据所述最终分类模型，确定所述目标文本的所述目标应用场景。

根据本发明实施例的又一方面，还提供了一种语音识别的装置，包括：第一获取单元，用于获取目标语音对应的目标文本，所述目标语音为与智能设备交互的语音；第一发送单元，用于将所述目标文本以及控制指令发送给边缘设备，所述控制指令用于控制所述边缘设备根据所述目标文本确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；第二获取单元，用于获取所述边缘设备发送的所述目标应用场景；第一确定单元，用于根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

根据本发明实施例的另一方面，还提供了一种语音识别的装置，包括：接收单元，用于接收服务器发送的目标文本以及控制指令，所述目标文本为目标语音对应的文本，所述目标语音为与智能设备交互的语音；第二确定单元，用于根据所述控制指令以及所述目标文本，确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；第二发送单元，用于将所述目标应用场景发送给所述服务器，以使得所述服务器根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述的方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述的方法。

在本发明实施例中，所述的语音识别的方法首先获取目标语音对应的目标文本；然后将所述目标文本以及控制指令发送给边缘设备，其中，所述控制指令用于控制所述边缘设备根据所述目标文本确定目标应用场景；之后，获取所述边缘设备发送的所述目标应用场景；最后根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。相比现有技术中，由于用户信息的隐私问题，导致无法获取足够的信息来进行文本识别的问题，本申请的所述方法中，由边缘设备来确定目标语音的应用场景，整个语音识别过程中，所述服务器不会接触到有关应用场景等涉及用户隐私的数据，这样有效地避免了用户隐私泄露的问题的同时，保证了得到的所述最终文本较为准确，保证了语音识别的结果较为准确。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种语音识别的方法生成的流程图；

图3是根据本发明实施例的另一种语音识别的方法生成的流程图；

图4是根据本发明实施例的一种语音识别的装置的结构框图；

图5是根据本发明实施例的另一种语音识别的装置的结构框图；

图6是根据本发明实施例的语音识别的示意图。

其中，上述附图包括以下附图标记：

102、处理器；104、存储器；106、传输设备；108、输入输出设备。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音识别的方法，可以应用于服务提供商的服务器或者服务提供商的上述计算机终端等运算装置，图2是根据本发明实施例的语音识别的方法生成的流程图，该流程包括如下步骤：

步骤S101，获取目标语音对应的目标文本，上述目标语音为与智能设备交互的语音；

步骤S102，将上述目标文本以及控制指令发送给边缘设备，上述控制指令用于控制上述边缘设备根据上述目标文本确定目标应用场景，上述目标应用场景为上述目标语音对应的应用场景；

步骤S103，获取上述边缘设备发送的上述目标应用场景；

步骤S104，根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。

上述的语音识别的方法，首先获取目标语音对应的目标文本；然后将上述目标文本以及控制指令发送给边缘设备，其中，上述控制指令用于控制上述边缘设备根据上述目标文本确定目标应用场景；之后，获取上述边缘设备发送的上述目标应用场景；最后根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。相比现有技术中，由于用户信息的隐私问题，导致无法获取足够的信息来进行文本识别的问题，本申请的上述方法中，由边缘设备来确定目标语音的应用场景，整个语音识别过程中，上述服务器不会接触到有关应用场景等涉及用户隐私的数据，这样有效地避免了用户隐私泄露的问题的同时，保证了得到的上述最终文本较为准确，保证了语音识别的结果较为准确。

一种具体的实施例中，上述应用场景为用户发出语音的时候处于的场景，上述应用场景包括时间、空间、设备、设备支持情况、社交以及用户情绪等多个方面。本申请的更为具体的一种实施例中，上述应用场景包括使用的智能设备、使用时间场景以及使用空间场景，上述使用时间场景可以包括清晨，上午，中午，下午，傍晚，夜间以及午夜等，上述使用空间场景可以包括客厅、卧室以及卫生间等，上述应用场景可以划分为洗浴场景，夜晚卧室场景，夜晚客厅场景，白天客厅场景以及卫生间场景等。上述智能设备包括智能电视、智能冰箱以及智能空调等具备人机交互功能的智能家居设备。上述边缘设备可以为路由器或者路由交换机等现有技术中任意可行的边缘设备。

根据本申请的一种具体的实施例，在将上述目标文本以及控制指令发送给边缘设备之前，上述方法还包括：建立初始分类模型，上述初始分类模型为多个应用场景的分类模型；根据上述初始分类模型以及预定信息，确定最终分类模型，上述预定信息为上述边缘设备根据上述智能设备的使用数据以及上述初始分类模型生成的，上述预定信息包括上述初始分类模型的梯度；根据上述最终分类模型，生成上述控制指令。由边缘设备来获取智能设备的使用数据以及用户的目标语音，并根据上述使用数据来生成初始分类模型的梯度，根据上述目标语音以及最终分类模型来确定应用场景，这样，服务提供商只需根据上述梯度更新上述初始分类模型，确定上述最终分类模型，整个过程中上述服务提供商不会接触到如上述使用数据以及上述目标语音等涉及用户隐私的数据，这样进一步有效地避免了用户隐私泄露的问题，并且进一步地保证了语音识别的结果较为准确。

需要说明的是，上述最终分类模型为根据梯度值，对上述初始分类模型进行最优化算法得到的模型。

本申请的再一种具体的实施例中，上述智能设备的使用数据包括使用对象信息(如性别等)、使用的智能设备、智能设备的使用时间以及智能设备的使用位置等信息。

根据本申请的另一种具体的实施例，根据上述初始分类模型以及预定信息，确定最终分类模型，包括：第一发送步骤，将上述初始分类模型发送给上述边缘设备；第一接收步骤，接收上述边缘设备发送的上述梯度；更新步骤，根据上述梯度，更新上述初始分类模型；第一重复步骤，依次重复上述第一发送步骤、上述第一接收步骤以及上述更新步骤至少一次，直到更新后的上述初始分类模型的损失函数收敛，更新后的上述初始分类模型为上述最终分类模型，即由最后一次上述更新步骤更新后的上述初始分类模型为上述最终分类模型。通过重复上述第一发送步骤、上述第一接收步骤以及上述更新步骤，进一步地保证了确定的上述最终分类模型较为准确，从而进一步地保证了后续根据上述最终分类模型确定的语音的应用场景较为准确。

为了进一步地保证较为准确地确定目标语音的应用场景的同时，进一步地避免用户隐私信息的泄漏，本申请的另一种具体的实施例中，上述第一发送步骤包括：将上述初始分类模型以及公钥发送给上述边缘设备；上述第一接收步骤包括：接收上述边缘设备发送的加密的上述梯度。

根据本申请的又一种具体的实施例，在上述第一接收步骤之后，在上述更新步骤之前，上述方法还包括：获取上述边缘设备的位置信息，上述更新步骤包括：根据上述梯度以及上述位置信息，更新上述初始分类模型。这样进一步地保证了确定的应用场景较为准确，从而进一步地方便了后续根据确定的上述应用场景对文本进行较为准确地处理。

具体的一种实施例中，上述边缘设备有多个，对应的边缘设备的梯度也有多个，通过获取多个上述边缘设备的位置信息，根据多个位置信息对应的梯度的差异，来细分初始分类模型中的应用场景，这样进一步地保证了确定的上述最终分类模型较为准确。

在实际的应用过程中，由于用户对智能设备的使用行为有一定的延续性，这种情况下，为了保证上述最终模型的稳定性，以及保证较为高效地确定上述最终模型，根据本申请的再一种具体的实施例，可以采用增量学习的方式，如XGBoost，更新上述初始分类模型，得到上述最终分类模型。

在实际的应用过程中，根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本，包括：根据上述目标应用场景，确定上述目标文本是否需要纠错；在上述目标文本需要纠错的情况下，采用上述目标应用场景对应的纠错模型，对上述目标文本进行纠错，得到上述最终文本；在上述目标文本不需要纠错的情况下，确定上述目标文本为上述最终文本。本申请通过引入应用场景的方式，对用户的短语指令做先验判断，从用户意图上推断ASR技术识别得到的上述目标文本是否需要纠错，这样进一步地避免了用户口音等主观因素的干扰，从而进一步地保证了得到的上述最终文本较为准确。

根据本申请的另一种典型的实施例，还提供了一种语音识别的方法，可以应用于边缘设备，图3是根据本发明实施例的语音识别的方法生成的流程图，该流程包括如下步骤：

步骤S201，接收服务器发送的目标文本以及控制指令，上述目标文本为目标语音对应的文本，上述目标语音为与智能设备交互的语音；

步骤S202，根据上述控制指令以及上述目标文本，确定目标应用场景，上述目标应用场景为上述目标语音对应的应用场景；

步骤S203，将上述目标应用场景发送给上述服务器，以使得上述服务器根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。

上述的语音识别的方法，首先，接收服务器发送的目标文本以及控制指令；然后，根据上述控制指令以及上述目标文本，确定目标应用场景，上述目标应用场景为上述目标语音对应的应用场景；最后，将上述目标应用场景发送给上述服务器，以使得上述服务器根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。相比现有技术中，由于用户信息的隐私问题，导致无法获取足够的信息来进行文本识别的问题，本申请的上述方法中，由边缘设备来确定目标语音的应用场景，整个语音识别过程中，上述服务器不会接触到有关应用场景等涉及用户隐私的数据，这样有效地避免了用户隐私泄露的问题的同时，保证了得到的上述最终文本较为准确，保证了语音识别的结果较为准确。

根据本申请的一种具体的实施例，在接收服务器发送的目标文本以及控制指令之前，上述方法还包括：根据智能设备的使用数据以及初始分类模型，生成预定信息，上述预定信息包括上述初始分类模型的梯度，上述初始分类模型为上述服务器建立的多个应用场景的分类模型；将上述预定信息发送至上述服务器。由边缘设备来获取智能设备的使用数据以及用户的目标语音，并根据上述使用数据来生成初始分类模型的梯度，根据上述目标语音以及最终分类模型来确定应用场景，服务提供商只需根据上述梯度更新上述初始分类模型，确定上述最终分类模型，整个过程中上述服务提供商不会接触到如上述使用数据以及上述目标语音等涉及用户隐私的数据，这样进一步有效地避免了用户隐私泄露的问题，并且进一步地保证了语音识别的准确性。

根据本申请的一种具体的实施例，根据智能设备的使用数据以及初始分类模型，生成预定信息，包括：第二接收步骤，接收上述服务器发送的上述初始分类模型，以及上述智能设备发送的上述使用数据；训练步骤，根据上述使用数据，对上述初始分类模型进行训练，得到上述梯度；第二发送步骤，将上述梯度发送至上述服务器；第二重复步骤，依次重复上述第二接收步骤、上述训练步骤以及上述第二发送步骤至少一次，直到接收到上述控制指令为止。这样进一步地保证了较为准确地生成上述梯度值，进而进一步地保证了服务器根据上述梯度值可以较为准确地得到上述最终分类模型。

在实际的应用过程中，由于用户对智能设备的使用行为有一定的延续性，这种情况下，为了保证最终确定的上述最终模型的稳定性，以及保证较为高效地确定上述梯度，根据本申请的再一种具体的实施例，可以采用增量学习的方式，如XGBoost，对上述初始分类模型进行训练。

为了进一步地保证较为准确地确定目标语音的应用场景的同时，进一步地避免用户隐私信息的泄漏，本申请的再一种具体的实施例中，上述第二接收步骤包括：接收上述服务器发送的上述初始分类模型以及公钥，在上述训练步骤之后，在上述第二发送步骤之前，上述方法还包括：根据上述公钥，对上述预定信息进行加密，上述第二发送步骤包括：将加密后的上述梯度发送至上述服务器。

本申请的又一种具体的实施例中，上述控制指令包括最终分类模型，根据上述控制指令以及上述目标文本，确定目标应用场景，包括：根据上述最终分类模型，确定上述目标文本的上述目标应用场景。

在实际的应用过程中，上述边缘设备还用于根据智能设备的使用数据生成用户画像，根据上述用户画像，对上述初始分类模型进行训练，得到上述梯度。

根据本申请的再一种具体的实施例，上述服务器后续根据上述目标应用场景，确定上述目标文本是否需要纠错；在上述目标文本需要纠错的情况下，采用上述目标应用场景对应的纠错模型，对上述目标文本进行纠错，得到上述最终文本；在上述目标文本不需要纠错的情况下，确定上述目标文本为上述最终文本。本申请通过引入应用场景的方式，对用户的短语指令做先验判断，从用户意图上推断ASR技术识别得到的上述目标文本是否需要纠错，这样进一步地避免了用户口音等主观因素的干扰，从而进一步地保证了得到的上述最终文本较为准确。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

根据本申请的再一种典型的实施例，还提供了一种语音识别的装置，可应用于服务提供商的服务器或者服务提供商的上述计算机终端等运算装置，图4是根据本发明实施例的语音识别的装置的结构框图。如图4所示，该装置包括第一获取单元10、第一发送单元20、第二获取单元30以及第一确定单元40，其中，上述第一获取单元10用于获取目标语音对应的目标文本，上述目标语音为与智能设备交互的语音；上述第一发送单元20用于将上述目标文本以及控制指令发送给边缘设备，上述控制指令用于控制上述边缘设备根据上述目标文本确定目标应用场景，上述目标应用场景为上述目标语音对应的应用场景；上述第二获取单元30用于获取上述边缘设备发送的上述目标应用场景；上述第一确定单元40用于根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。

上述的语音识别的装置，通过上述第一获取单元获取目标语音对应的目标文本；通过上述第一发送单元将上述目标文本以及控制指令发送给边缘设备，其中，上述控制指令用于控制上述边缘设备根据上述目标文本确定目标应用场景；通过上述第二获取单元获取上述边缘设备发送的上述目标应用场景；通过上述第一确定单元根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。相比现有技术中，由于用户信息的隐私问题，导致无法获取足够的信息来进行文本识别的问题，本申请的上述装置中，由边缘设备来确定目标语音的应用场景，整个语音识别过程中，上述服务器不会接触到有关应用场景等涉及用户隐私的数据，这样有效地避免了用户隐私泄露的问题的同时，保证了得到的上述最终文本较为准确，保证了语音识别的结果较为准确。

根据本申请的一种具体的实施例，上述装置还包括建立单元、第三确定单元以及第一生成单元，其中，上述建立单元用于在将上述目标文本以及控制指令发送给边缘设备之前，建立初始分类模型，上述初始分类模型为多个应用场景的分类模型；上述第三确定单元用于根据上述初始分类模型以及预定信息，确定最终分类模型，上述预定信息为上述边缘设备根据上述智能设备的使用数据以及上述初始分类模型生成的，上述预定信息包括上述初始分类模型的梯度；上述第一生成单元用于根据上述最终分类模型，生成上述控制指令。由边缘设备来获取智能设备的使用数据以及用户的目标语音，并根据上述使用数据来生成初始分类模型的梯度，根据上述目标语音以及最终分类模型来确定应用场景，这样，服务提供商只需根据上述梯度更新上述初始分类模型，确定上述最终分类模型，整个过程中上述服务提供商不会接触到如上述使用数据以及上述目标语音等涉及用户隐私的数据，这样进一步有效地避免了用户隐私泄露的问题，并且进一步地保证了语音识别的结果较为准确。

根据本申请的一种具体的实施例，上述第三确定单元包括第一发送模块、第一接收模块、更新模块以及第一重复模块，其中，上述第一发送模块用于第一发送步骤，将上述初始分类模型发送给上述边缘设备；上述第一接收模块用于第一接收步骤，接收上述边缘设备发送的上述梯度；上述更新模块用于更新步骤，根据上述梯度，更新上述初始分类模型；上述第一重复模块用于第一重复步骤，依次重复上述第一发送步骤、上述第一接收步骤以及上述更新步骤至少一次，直到更新后的上述初始分类模型的损失函数收敛，更新后的上述初始分类模型为上述最终分类模型，即由最后一次上述更新步骤更新后的上述初始分类模型为上述最终分类模型。通过重复上述第一发送步骤、上述第一接收步骤以及上述更新步骤，进一步地保证了确定的上述最终分类模型较为准确，从而进一步地保证了后续根据上述最终分类模型确定的语音的应用场景较为准确。

为了进一步地保证较为准确地确定目标语音的应用场景的同时，进一步地避免用户隐私信息的泄漏，本申请的另一种具体的实施例中，上述第一发送模块包括第一发送子模块，上述第一发送子模块用于将上述初始分类模型以及公钥发送给上述边缘设备，上述第一接收模块包括第一接收子模块，上述第一接收子模块用于接收上述边缘设备发送的加密的上述梯度。

根据本申请的又一种具体的实施例，上述装置还包括第三获取单元，上述点获取单元用于在上述第一接收步骤之后，在上述更新步骤之前，获取上述边缘设备的位置信息，上述更新模块包括更新子模块，上述更新子模块用于根据上述梯度以及上述位置信息，更新上述初始分类模型。这样进一步地保证了确定的应用场景较为准确，从而进一步地方便了后续根据确定的上述应用场景对文本进行较为准确地处理。

在实际的应用过程中，上述第一确定单元包括第一确定模块、纠错模块以及第二确定模块，其中，上述第一确定模块用于根据上述目标应用场景，确定上述目标文本是否需要纠错；上述纠错模块用于在上述目标文本需要纠错的情况下，采用上述目标应用场景对应的纠错模型，对上述目标文本进行纠错，得到上述最终文本；上述第二确定模块用于在上述目标文本不需要纠错的情况下，确定上述目标文本为上述最终文本。本申请通过引入应用场景的方式，对用户的短语指令做先验判断，从用户意图上推断ASR技术识别得到的上述目标文本是否需要纠错，这样进一步地避免了用户口音等主观因素的干扰，从而进一步地保证了得到的上述最终文本较为准确。

根据本申请的又一种典型的实施例，还提供了一种语音识别的装置，可应用于边缘设备，图5是根据本发明实施例的语音识别的装置的结构框图；如图5所示，该装置包括接收单元50、第二确定单元60以及第二发送单元70，其中，上述接收单元50用于接收服务器发送的目标文本以及控制指令，上述目标文本为目标语音对应的文本，上述目标语音为与智能设备交互的语音；上述第二确定单元60用于根据上述控制指令以及上述目标文本，确定目标应用场景，上述目标应用场景为上述目标语音对应的应用场景；上述第二发送单元70用于将上述目标应用场景发送给上述服务器，以使得上述服务器根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。

上述的语音识别的装置，通过上述接收单元接收服务器发送的目标文本以及控制指令；通过上述第二确定单元根据上述控制指令以及上述目标文本，确定目标应用场景，上述目标应用场景为上述目标语音对应的应用场景；通过上述第二发送单元将上述目标应用场景发送给上述服务器，以使得上述服务器根据上述目标应用场景以及上述目标文本，确定上述目标语音的最终文本。相比现有技术中，由于用户信息的隐私问题，导致无法获取足够的信息来进行文本识别的问题，本申请的上述装置中，由边缘设备来确定目标语音的应用场景，整个语音识别过程中，上述服务器不会接触到有关应用场景等涉及用户隐私的数据，这样有效地避免了用户隐私泄露的问题的同时，保证了得到的上述最终文本较为准确，保证了语音识别的结果较为准确。

根据本申请的一种具体的实施例，上述装置还包括第二生成单元和第三发送单元，其中，上述第二生成单元用于在接收服务器发送的目标文本以及控制指令之前，根据智能设备的使用数据以及初始分类模型，生成预定信息，上述预定信息包括上述初始分类模型的梯度，上述初始分类模型为上述服务器建立的多个应用场景的分类模型；上述第三发送单元用于将上述预定信息发送至上述服务器。由边缘设备来获取智能设备的使用数据以及用户的目标语音，并根据上述使用数据来生成初始分类模型的梯度，根据上述目标语音以及最终分类模型来确定应用场景，服务提供商只需根据上述梯度更新上述初始分类模型，确定上述最终分类模型，整个过程中上述服务提供商不会接触到如上述使用数据以及上述目标语音等涉及用户隐私的数据，这样进一步有效地避免了用户隐私泄露的问题，并且进一步地保证了语音识别的准确性。

根据本申请的一种具体的实施例，上述第二生成单元包括第二接收模块、训练模块、第二发送模块以及第二重复模块，其中，上述第二接收模块用于第二接收步骤，接收上述服务器发送的上述初始分类模型，以及上述智能设备发送的上述使用数据；上述训练模块用于训练步骤，根据上述使用数据，对上述初始分类模型进行训练，得到上述梯度；上述第二发送模块用于第二发送步骤，将上述梯度发送至上述服务器；上述第二重复模块用于第二重复步骤，依次重复上述第二接收步骤、上述训练步骤以及上述第二发送步骤至少一次，直到接收到上述控制指令为止。这样进一步地保证了较为准确地生成上述梯度值，进而进一步地保证了服务器根据上述梯度值可以较为准确地得到上述最终分类模型。

为了进一步地保证较为准确地确定目标语音的应用场景的同时，进一步地避免用户隐私信息的泄漏，本申请的再一种具体的实施例中，上述第二接收模块包括第二接收子模块，上述第二接收子模块用于接收上述服务器发送的上述初始分类模型以及公钥，上述装置还包括加密单元，上述加密单元用于在上述训练步骤之后，在上述第二发送步骤之前，根据上述公钥，对上述预定信息进行加密，上述第二发送模块包括第二发送子模块，上述第二发送子模块用于将加密后的上述梯度发送至上述服务器。

本申请的又一种具体的实施例中，上述控制指令包括最终分类模型，上述第二确定单元包括第三确定模块，上述第三确定模块用于根据上述最终分类模型，确定上述目标文本的上述目标应用场景。

图6示出了本申请的一种具体的实施例的语音识别的示意图，如图6所示，服务器获取用户的语音，并采用ASR技术将语音转换为文本，并将文本以及控制指令下发给多个边缘设备，控制指令包括最终分类模型，各边缘设备收集对应的智能设备的使用数据，各边缘设备还根据最终分类模型确定文本的应用场景，并将应用场景发送给服务器，服务器的文本纠错系统根据应用场景确定文本是否需要纠错，在需要纠错的情况下，采用应用场景对应的纠错模型对文本进行纠错，得到最终文本；在不需要纠错的情况下，确定文本为最终文本；上述服务器还用于采用NLP技术对最终文本进行意图解析，确定用户意图，并对用户意图进行反馈。

本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一种的方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

步骤S103，获取上述边缘设备发送的上述目标应用场景；

或者被设置为存储用于执行以下步骤的程序代码：

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S103，获取上述边缘设备发送的上述目标应用场景；

或者被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别的方法，其特征在于，包括：

获取目标语音对应的目标文本，所述目标语音为与智能设备交互的语音；

将所述目标文本以及控制指令发送给边缘设备，所述控制指令用于控制所述边缘设备根据所述目标文本确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；

获取所述边缘设备发送的所述目标应用场景；

根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

2.根据权利要求1所述的方法，其特征在于，在将所述目标文本以及控制指令发送给边缘设备之前，所述方法还包括：

建立初始分类模型，所述初始分类模型为多个应用场景的分类模型；

根据所述初始分类模型以及预定信息，确定最终分类模型，所述预定信息为所述边缘设备根据所述智能设备的使用数据以及所述初始分类模型生成的，所述预定信息包括所述初始分类模型的梯度；

根据所述最终分类模型，生成所述控制指令。

3.根据权利要求2所述的方法，其特征在于，根据所述初始分类模型以及预定信息，确定最终分类模型，包括：

第一发送步骤，将所述初始分类模型发送给所述边缘设备；

第一接收步骤，接收所述边缘设备发送的所述梯度；

更新步骤，根据所述梯度，更新所述初始分类模型；

第一重复步骤，依次重复所述第一发送步骤、所述第一接收步骤以及所述更新步骤至少一次，直到更新后的所述初始分类模型的损失函数收敛，更新后的所述初始分类模型为所述最终分类模型。

4.根据权利要求3所述的方法，其特征在于，

所述第一发送步骤包括：

将所述初始分类模型以及公钥发送给所述边缘设备，

所述第一接收步骤包括：

接收所述边缘设备发送的加密的所述梯度。

5.根据权利要求3所述的方法，其特征在于，

在所述第一接收步骤之后，在所述更新步骤之前，所述方法还包括：

获取所述边缘设备的位置信息，

所述更新步骤包括：

根据所述梯度以及所述位置信息，更新所述初始分类模型。

6.一种语音识别的方法，其特征在于，包括：

接收服务器发送的目标文本以及控制指令，所述目标文本为目标语音对应的文本，所述目标语音为与智能设备交互的语音；

根据所述控制指令以及所述目标文本，确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；

将所述目标应用场景发送给所述服务器，以使得所述服务器根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

7.根据权利要求6所述的方法，其特征在于，在接收服务器发送的目标文本以及控制指令之前，所述方法还包括：

根据智能设备的使用数据以及初始分类模型，生成预定信息，所述预定信息包括所述初始分类模型的梯度，所述初始分类模型为所述服务器建立的多个应用场景的分类模型；

将所述预定信息发送至所述服务器。

8.根据权利要求7所述的方法，其特征在于，根据智能设备的使用数据以及初始分类模型，生成预定信息，包括：

第二接收步骤，接收所述服务器发送的所述初始分类模型，以及所述智能设备发送的所述使用数据；

训练步骤，根据所述使用数据，对所述初始分类模型进行训练，得到所述梯度；

第二发送步骤，将所述梯度发送至所述服务器；

第二重复步骤，依次重复所述第二接收步骤、所述训练步骤以及所述第二发送步骤至少一次，直到接收到所述控制指令为止。

9.根据权利要求8所述的方法，其特征在于，

所述第二接收步骤包括：

接收所述服务器发送的所述初始分类模型以及公钥，

在所述训练步骤之后，在所述第二发送步骤之前，所述方法还包括：

根据所述公钥，对所述预定信息进行加密，

所述第二发送步骤包括：

将加密后的所述梯度发送至所述服务器。

10.根据权利要求7至9中任一项所述的方法，其特征在于，所述控制指令包括最终分类模型，根据所述控制指令以及所述目标文本，确定目标应用场景，包括：

根据所述最终分类模型，确定所述目标文本的所述目标应用场景。

11.一种语音识别的装置，其特征在于，包括：

第一获取单元，用于获取目标语音对应的目标文本，所述目标语音为与智能设备交互的语音；

第一发送单元，用于将所述目标文本以及控制指令发送给边缘设备，所述控制指令用于控制所述边缘设备根据所述目标文本确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；

第二获取单元，用于获取所述边缘设备发送的所述目标应用场景；

第一确定单元，用于根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

12.一种语音识别的装置，其特征在于，包括：

接收单元，用于接收服务器发送的目标文本以及控制指令，所述目标文本为目标语音对应的文本，所述目标语音为与智能设备交互的语音；

第二确定单元，用于根据所述控制指令以及所述目标文本，确定目标应用场景，所述目标应用场景为所述目标语音对应的应用场景；

第二发送单元，用于将所述目标应用场景发送给所述服务器，以使得所述服务器根据所述目标应用场景以及所述目标文本，确定所述目标语音的最终文本。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至5中任一项所述的方法或者权利要求6至10中任一项所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至5中任一项所述的方法或者权利要求6至10中任一项所述的方法。