CN104424948A

CN104424948A - 一种语音数据识别方法及装置

Info

Publication number: CN104424948A
Application number: CN201310369541.7A
Authority: CN
Inventors: 杜川
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2013-08-22
Filing date: 2013-08-22
Publication date: 2015-03-18
Anticipated expiration: 2033-08-22
Also published as: CN104424948B

Abstract

本发明实施例公开了一种语音数据识别方法及装置，所述方法包括：获取语音数据；对所述语音数据进行识别，如果识别出所述语音数据为命令语音数据，则确定所述命令语音数据对应的命令代码；将所述命令代码通过命令控制信道发送给桌面云服务端，以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据，并将所述标准语音数据插入到音频重定向数据队列中进行识别。本发明实施例解决了现有技术中，采用音频有损编解码或实时传输协议方式，都会导致语音识别成功率下降的技术问题。

Description

一种语音数据识别方法及装置

技术领域

本发明涉及通信技术领域，特别涉及一种语音数据识别方法及装置。

背景技术

在现有的桌面云重定向场景中，为了确保在网络传输的时候得到最小的带宽消耗并降低传输时延，桌面云客户端对音频数据通常会采用有损编码方式（比如采用speex、vobis音频编码方式等），即针对原始PCM数据进行有损压缩，然后将压缩后的数据传输给桌面云服务器，由桌面云服务器解压后还原成PCM数据，并将还原后的PCM数据发送给音频重定向驱动程序，以便于完成相应音频操作。

但是，在该语音识别的场景中，语音指令识别成功率，将取决于输入的PCM音频数据是否完整清晰，然而，在现有的重定向音频编解码的过程中，由于采用了有损压缩，虽然减小了带宽和降低传输时延，但是解压后音质都有所下降，从而导致语音指令的识别成功率相应的下降。

当然，在现有的桌面云重定向场景中，桌面云客户端对音频数据也会采取实时传输协议（例如RTP）来进行重定向传输。这种音频数据传输方式，虽然实时性很强，但是可靠性较低，会造成语音指令数据存在丢包的可能行，从而降低了语音指令的完整性，进而导致语音指令的识别成功率相应的下降。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有的桌面云重定向场景中，无论采用音频有损编解码方式，还是采用实时传输协议方式，均会导致语音识别成功率下降的问题。

发明内容

本发明实施例中提供了一种语音数据识别方法及装置，以解决现有技术中，采用音频有损编解码或实时传输协议方式，都会导致语音识别成功率下降的技术问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

第一方面提供了一种语音数据识别方法，所述方法包括：

获取语音数据；

对所述语音数据进行识别，如果识别出所述语音数据为命令语音数据，则确定所述命令语音数据对应的命令代码；

将所述命令代码通过命令控制信道发送给桌面云服务端，以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据，并将所述标准语音数据插入到音频重定向数据队列中进行识别。

在第一方面的第一种可能的实现方式中，所述方法还包括：

如果识别出所述语音数据为普通语音数据，则对所述普通语音数据进行音频编码，并将编码后的语音数据通过数据通道发送给桌面云服务端，以便于所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述方法还包括：

在获取所述语音数据后，判断所述语音数据的模式；

如果所述语音数据的模式为语音识别模式，则执行所述对所述语音数据进行识别的步骤；

如果所述语音数据的模式为普通语音模式，则执行所述对所述普通语音数据进行音频编码的步骤。

结合第一方面或第一方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，所述方法还包括：

预先存储配置的所述命令语音数据，以及所述命令语音数据对应的命令代码。

结合第一方面或第一方面的第一种或第二种或第三种可能的实现方式，在第四种可能的实现方式中，所述对所述语音数据进行识别，具体包括：

将所述语音数据与存储的所述命令语音数据进行匹配，如果匹配成功，则所述语音数据为可识别的命令语音数据。

结合第一方面或第一方面的第一种或第二种或第三种或第四种可能的实现方式，在第五种可能的实现方式中，所述方法还包括：

接收管理系统下发的更新命令，所述更新命令包括：更新后的命令语音数据以及所述命令语音数据对应的命令代码；

根据所述更新命令更新存储的所述命令语音数据，以及所述命令语音数据对应的命令代码。

第二方面提供了一种语音数据识别方法，所述方法包括：

接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；

根据所述命令代码确定对应的标准语音数据；

将所述标准语音数据插入到音频重定向数据队列中进行识别。

在第二方面的第一种可能的实现方式中，所述方法还包括：

接收桌面云客户端通过数据信道发送的普通语音数据；

对所述普通语音数据进行音频解码，并将解码后的普通语音数据插入所述音频重定向数据队列中进行识别。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述方法还包括：预先存储配置的所述命令代码，以及所述命令代码对应的标准语音数据。

结合第二方面或第二方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，所述方法还包括：

接收管理系统下发的更新命令，所述更新命令包括：更新的命令代码以及所述命令代码对应的标准语音数据；

根据所述更新命令更新所述命令代码以及所述命令代码对应的标准语音数据。

第三方面提供了一种语音数据识别方法，所述方法包括：

接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应命令语音数据；

根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令语音数据对应的语音数据。

第四方面提供了一种语音数据识别装置，包括：

获取单元，用于获取语音数据；

识别单元，用于对所述语音数据进行识别；

确定单元，用于在所述识别单元识别出所述语音数据为命令语音数据时，确定所述命令语音数据对应的命令代码；

第一发送单元，用于将所述命令代码通过命令控制信道发送给桌面云服务端，以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据，并将所述标准语音数据插入到音频重定向数据队列中进行识别。

在第四方面的第一种可能的实现方式中，还包括：

编码单元，用于在所述识别单元识别出所述语音数据为普通语音数据时，对所述普通语音数据进行音频编码；

第二发送单元，用于将编码后的语音数据通过数据通道发送给桌面云服务端，以便于所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。

结合第四方面或第四方面的第一种可能的实现方式，在第二种可能的实现方式中，还包括：

判断单元，用于在所述获取单元获取所述语音数据后，判断所述语音数据的模式，并将所述语音数据的模式为语音识别模式的判断结果发送给所述识别单元；将所述语音数据的模式为普通语音模式的判断结果发送给所述编码单元；

所述识别单元，还用于在接收到所述判断单元发送的所述语音数据的模式为语音识别模式的判断结果时，对所述语音数据进行识别；

所述编码单元，还用于在接收到所述判断单元发送的所述语音数据的模式为普通语音模式的判断结果时，对所述普通语音数据进行音频编码。

结合第四方面或第四方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，还包括：

存储单元，用于预先存储所述命令语音数据，以及所述命令语音数据对应的命令代码。

结合第四方面或第四方面的第一种或第二种或第三种可能的实现方式，在第四种可能的实现方式中，还包括：

接收单元，用于接收管理系统下发的更新命令；所述更新命令包括：更新后的命令语音数据以及所述命令语音数据对应的命令代码；

更新单元，用于根据所述更新命令更新存储的所述命令识别数据，以及所述命令语音数据对应的命令代码。

第五方面提供了一种语音数据识别装置，包括：

第一接收单元，用于接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；

确定单元，用于根据所述命令代码确定对应的标准语音数据；

第一识别单元，用于将所述标准语音数据插入到音频重定向数据队列中进行识别。

在第五方面的第一种可能的实现方式中，还包括：

第二接收单元，用于接收桌面云客户端通过数据信道发送的普通语音数据；

解码单元，用于对所述普通语音数据进行音频解码；

第二识别单元，用于将解码后的普通语音数据插入所述音频重定向数据队列中进行识别。

结合第五方面或第五方面的第一种可能的实现方式，在第二种可能的实现方式中，还包括：

存储单元，用于预先存储配置的所述命令代码，以及所述命令代码对应的标准语音数据。

结合第五方面或第五方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，还包括：

第三接收单元，用于接收管理系统下发的更新命令；所述更新命令包括：更新的命令代码以及所述命令代码对应的标准语音数据；

更新单元，用于根据所述更新命令更新存储的所述命令代码对应的标准语音数据。

第六方面提供了一种语音数据识别装置，包括：

接收单元，用于接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；

识别单元，用于根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令语音数据对应的语音数据。

由上述技术方案可知，本发明实施例中，将能识别出具体命令的语音数据先转换为命令代码，然后通过命令控制信道发送给桌面云服务端，节省了传输带宽，降低了数据传输延迟；而桌面云服务端按照接收到的命令代码从本地查找到对应的标准语音数据，并将该标准语音数据插入到音频重定向数据队列中进行识别，减少了音频重定向的编解码操作，提高了语音识别成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音数据识别方法的流程图；

图2为本发明实施例提供的一种语音数据识别方法的另一流程图；

图3为本发明实施例提供的一种语音数据识别方法的另一流程图；

图4为本发明实施例提供的一种语音数据识别方法另一流程图；

图5为本发明实施例提供的一种语音数据识别装置的结构示意图；

图6为本发明实施例提供的一种语音数据识别装置的另一结构示意图；

图7为本发明实施例提供的一种语音数据识别装置的另一结构示意图；

图8为本发明实施例提供的一种桌面云架构的示意图；

图9为本发明实施例提供的第一应用实例的流程图；

图10为本发明实施例提供的第二应用实例的流程图；

图11为本发明实施例提供的第三应用实例的流程图；

图12为本发明实施例提供的第四应用实例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种语音数据识别方法的流程图；所述方法包括：

步骤101：获取语音数据；

该步骤中，桌面云客户端通过声音采集系统获取用户输入的语音数据，通常情况下，该语音数据为脉冲编码调制（PCM，Pulse Code Modulation）语音数据。其中，声音采集系比如麦克风等。

步骤102：对所述语音数据进行识别，如果识别出所述语音数据为命令语音数据，则确定所述命令语音数据对应的命令代码；

在该步骤中，将该语音数据与预先存储的命令语音数据进行匹配，如果匹配成功，则说明该语音数据为可识别的命令语音数据，然后从本地查找出该命令语音数据对应的命令代码。

步骤103：将所述命令代码通过命令控制信道发送给桌面云服务端，以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据，并将所述标准语音数据插入到音频重定向数据队列中进行识别。

本发明实施例中，将能识别出具体命令的语音数据先转换为命令代码，然后通过命令控制信道发送给桌面云服务端，节省了传输带宽，降低了数据传输延迟；而桌面云服务端按照接收到的命令代码从本地查找到对应的标准语音数据，并将该标准语音数据插入到音频重定向数据队列中进行识别，减少了音频重定向的编解码操作，提高了语音识别成功率。

还请参阅图2，图2为本发明实施例提供的一种语音数据识别方法的另一流程图，所述方法包括：

步骤201：获取语音数据；

其获取语音数据的过程详见步骤101。

步骤202：判断所述语音数据的模式；如果所述语音数据的模式为语音识别模式，执行步骤203；如果所述语音数据的模式为普通语音模式，执行步骤206；

该步骤中，可以通过模式切换，将语音识别模式和普通语音模式的语音数据进行分开处理，且各个模式的处理过程互不干扰，便于提高处理效率。

步骤203：对所述语音数据进行识别，如果识别出所述语音数据为命令语音数据，执行步骤204；如果识别出所述语音数据为普通语音数据，执行步骤206；

该步骤中，将所述语音数据与存储的所述命令语音数据进行匹配，如果匹配成功，则所述语音数据为可识别的命令语音数据。也就是说，如果能够识别出该语音数据中的具体命令，则说明该语音数据为可识别的命令语音数据；如果不可以，则说明该语音数据为普通语音数据。

步骤204：确定所述命令语音数据对应的命令代码；

在该步骤，通过查找桌面云客户端的数据库（即本地数据库），获取所述命令语音数据对应的命令代码，其中，在本地数据库中预先存储配置的所述命令语音数据，以及所述命令语音数据对应的命令代码。

步骤205：将所述命令代码通过命令控制信道发送给桌面云服务端，以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据，并将所述标准语音数据插入到音频重定向数据队列中进行识别；

该步骤中，将命令代码通过命令控制信道发送给桌面云服务端，节省了传输带宽，而桌面云服务端根据接收地的所述命令代码从桌面云服务端的数据库查找到对应的标准语音数据，避免了编解码操作，提高了音质，以及对指令的识别成功率。

步骤206：对所述普通语音数据进行音频编码；

如果不能识别出所述语音数据的具体命令，则认为，该语音数据为普通语音数据，则对所述普通语音数据进行音频编码，其编码过程与现有技术相同，在此不再赘述。

步骤207：将编码后的语音数据通过数据通道发送给桌面云服务端，以便于所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。

可选的，在上述图1和图2的实施例中，所述方法还可以包括：接收管理系统下发的更新命令，所述更新命令包括：更新后的命令语音数据以及所述命令语音数据对应的命令代码；根据所述更新命令更新存储的所述命令语音数据，以及所述命令语音数据对应的命令代码。

该实施例中，可以实时或定时更新本地存储的命令语音数据，以及所述命令语音数据对应的命令代码。

还请参阅图3，图3为本发明实施例提供的一种语音数据识别方法的另一流程图。所述方法包括：

步骤301：接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；

步骤302：根据所述命令代码确定对应的标准语音数据；

该步骤中，由于桌面云服务端中预先存储有命令代码，以及所述命令代码对应的标准语音数据，在接收到命令代码可以，可以查找桌面云服务端的数据库（即本地数据库），从而得到对应的标准语音数据。

步骤303：将所述标准语音数据插入到音频重定向数据队列中进行识别。

本发明实施例中，在接收到命令代码后，通过查找的方式可以得到该命令代码对应的标准语音数据，并将该标准语音数据插入到音频重定向数据队列中进行识别，减少了音频重定向的编码解码操作，提高了语音识别成功率。

可选的，在另一实施例中，该实施例在上述实施例的基础上，所述方法还可以包括：接收桌面云客户端通过数据信道发送的普通语音数据；对所述普通语音数据进行音频解码，并将解码后的普通语音数据插入所述音频重定向数据队列中进行识别。

该实施例中，桌面云客户端将能识别的语音数据转换为命令代码后，通过信令控制信道传输桌面云服务端，而将不能识别的普通语音数据通过数据通道传输给桌面云服务端；节省了传输带宽；而桌面云服务端在接收到命令代码后，本地查找到所述命令代码对应的标准语音数据，提高了语音的识别成功率。

可选的，在另一实施例中，该实施例在上述所有实施例的基础上，所述方法还可以包括：接收管理系统下发的更新命令，所述更新命令包括：更新的命令代码以及所述命令代码对应的标准语音数据；根据所述更新命令更新所述命令代码对应的标准语音数据。

还请参阅图4，图4为本发明实施例提供的一种语音数据识别方法另一流程图，所述方法包括：

步骤401：接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；

步骤402：根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令语音数据对应的语音数据。

上述实施例中，桌面云服务端将接收到的命令代码再次替换（通过查找的方式）成语音数据，而该实施例中，还可以在接收到代码命令后，如果桌面云服务端，则可以直接执行此命令代码：比如，当语音识别软件开放一定的开发接口，或者桌面云服务器能完全理解此命令代码的含义，都可直接执行该代码命令，而不用再转成语音数据段，这样又可以减少一次识别过程，从而提高了命令的执行效率。

基于上述方法的实现过程，本发明实施例还提供一种语音数据识别装置，其结构示意图如图5所示，所述装置包括：获取单元51，识别单元52，确定单元53和第一发送单元54，其中，

所述获取单元51，用于获取语音数据；所述识别单元52，用于对所述语音数据进行识别；具体用于将所述语音数据与存储的所述命令语音数据进行匹配，如果匹配成功，则所述语音数据为可识别的语音数据；所述确定单元53，用于在所述识别单元识别出所述语音数据为命令语音数据时，确定所述命令语音数据对应的命令代码；所述第一发送单元54，用于将所述命令代码通过命令控制信道发送给桌面云服务端，以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据，并将所述标准语音数据插入到音频重定向数据队列中进行识别。

可选的，所述装置还可以包括：编码单元和第二发送单元，其中，所述编码单元，用于在所述识别单元识别出所述语音数据为普通语音数据时，对所述普通语音数据进行音频编码；所述第二发送单元，用于将编码后的语音数据通过数据通道发送给桌面云服务端，以便于所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。

可选的，所述装置还可以包括：判断单元，其中，所述判断单元，用于在所述获取单元获取所述语音数据后，判断所述语音数据的模式，并将所述语音数据的模式为语音识别模式的判断结果发送给所述识别单元；将所述语音数据的模式为普通语音模式的判断结果发送给所述编码单元；所述识别单元，还用于在接收到所述判断单元发送的所述语音数据的模式为语音识别模式的判断结果时，对所述语音数据进行识别；所述编码单元，还用于在接收到所述判断单元发送的所述语音数据的模式为普通语音模式的判断结果时，对所述普通语音数据进行音频编码。

可选的，所述装置还可以包括：存储单元，用于预先存储所述命令语音数据，以及所述命令语音数据对应的命令代码。

可选的，所述装置还可以包括：接收单元和更新单元，其中，所述接收单元，用于接收管理系统下发的更新命令，所述更新命令包括：更新后的命令语音数据以及所述命令语音数据对应的命令代码；所述更新单元，用于根据所述更新命令更新存储的所述命令识别数据，以及所述命令语音数据对应的命令代码。

可选的，所述装置可集成在桌面云客户端，也可以独立部署，本实施例不作限制。

所述装置中各个单元的功能和作用的实现过程，详见上述方法中对应步骤的实现过程，在此不再赘述。

还请参阅图6，图6为本发明实施例提供的一种语音数据识别装置的另一结构示意图，所述装置包括：第一接收单元61，确定单元62和第一识别单元63，其中，所述第一接收单元61，用于接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；所述确定单元62，用于根据所述命令代码确定对应的标准语音数据；所述第一识别单元63，用于将所述标准语音数据插入到音频重定向数据队列中进行识别。

可选的，所述装置还可以包括：第二接收单元，解码单元和第二识别单元，其中，所述第二接收单元，用于接收桌面云客户端通过数据信道发送的普通语音数据；所述解码单元，用于对所述普通语音数据进行音频解码；所述第二识别单元，用于将解码后的普通语音数据插入所述音频重定向数据队列中进行识别。

可选的，所述装置还可以包括：存储单元，与所述确定单元连接，用于预先存储配置的所述命令代码，以及所述命令代码对应的标准语音数据。

可选的，所述装置还可以包括：第三接收单元和更新单元，其中，所述第三接收单元，用于接收管理系统下发的更新命令；所述更新命令包括：更新的命令代码以及所述命令代码对应的标准语音数据；所述更新单元，用于根据所述更新命令更新存储的所述命令代码对应的标准语音数据。

可选的，所述装置可集成在桌面云服务端，也可以独立部署，本实施例不作限制。

还请参阅图7，图7为本发明实施例提供的一种语音数据识别装置的另一结构示意图，所述装置包括：接收单元71和识别单元72，其中，

所述接收单元71，用于接收桌面云客户端通过命令控制信道发送的命令代码，所述命令代码对应可识别的命令语音数据；所述识别单元72，用于根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令语音数据对应的语音数据。

可选的，所述装置还可以包括：第二接收单元，解码单元和第二识别单元，其中，所述第二接收单元，用于接收桌面云客户端通过数据信道发送的普通语音数据；所述解码单元，用于对所述普通语音数据进行音频解码；所述第二识别单元，用于将解码后的普通语音数据插入音频重定向数据队列中进行识别。

为了便于本领域技术人员的理解，下面以具体的实例来说明。

还请参图8，图8为本发明实施例提供的一种桌面云架构的示意图，在该实施例中，本发明实施例是在现有语音识别重定向的流程基础上，增加了若干步骤来实现，所涉及的模块主要包括桌面云客户端的音频采集设备（比如耳机麦克风），音频服务模块（比如包括音频采集模块，编解码模块等），通讯模块，桌面云服务端的音频服务模块（比如包括音频重定向驱动，编解码模块等）。桌面云客户端和桌面云服务端之间通过桌面云重定向协议进行通信，具体如图中斜字体所示，在此不再赘述。其中，该本发明实施例中涉及到模块，将在下述实施例中说明。

还请参阅图9，图9为本发明实施例提供的第一应用实例的流程图，具体包括：

步骤901：音频采集模块采集PCM语音数据；

在客户端采集到的PCM语音数据；

步骤902：音频采集模块对采集的PCM语音数据进行识别；如果识别出具体命令，即所述PCM语音数据为命令语音数据；则执行步骤903；如果没有识别出具体命令，即所述PCM语音数据为普通语音，执行步骤911；

步骤903：音频采集模块查找本地数据库中与所述命令语音数据对应的命令代码；

步骤904：将该命令代码发送桌面云客户端的通信模块；

步骤905：桌面云客户端的通信模块通过命令控制信道(比如RTP)将所述命令代码发送给桌面云服务器的通信模块，即协议通信；

步骤906：桌面云服务器上的通信模块将所述命令代码发送给桌面云服务器上的音频采集模块；

步骤907：桌面云服务器上的音频采集模块在本地查找所述命令代码对应的标准PCM语音片段；

步骤908：将标准PCM语音片段插入音频重定向数据队列中；

步骤909：音频重定向驱动模块将音频重定向数据队列的语音数据(比如标准PCM语音片段)发送给语音识别应用软件，

步骤910：语音识别应用软件对语音数据进行识别，并调用API执行相关命令的操作，结束本次操作。

步骤911：音频采集模块将所述普通语音数据发送给音频编码模块，对所述普通语音数据进行编码；

步骤912：将编码后的所述普通语音数据（即压缩数据包）发送桌面云客户端的通信模块；

步骤913：桌面云客户端的通信模块通过数据信道（比如TCP）将所述编码后的所述普通语音数据发送给桌面云服务器的通信模块；

步骤914：桌面云服务器的通信模块将编码后的所述普通语音数据（基于压缩数据包）发送给桌面云服务端的语音解码模块；

步骤915：桌面云服务端的语音解码模块对所述普通语音数据进行解码，得到对应的PCM音频数据；

步骤916：将PCM音频数据插入到插入所述音频重定向数据队列中；

然后执行步骤909和步骤910所述的内容。

也就是说，所述音频重定向驱动模块，还用于将音频重定向数据队列的语音数据（比如PCM语音数据）发送给语音识别应用软件，语音识别应用软件调用API执行相关命令的操作，完成整个语音识别过程。

其中，在该实施例中，无论是客户端还是服务端的通信模块均维护一个数据收发队列，以确保命令语音数据和普通语音数据混合情况下数据顺序的正确性。

需要说明的是，在该实施例中，桌面云客户端内置的语音识别模块能识别的命令数量，与桌面云服务端预先存储的标准PCM语音片段是一一对应的，在安装桌面云系统的时候预先内置。

在该实施例中，本实施例新增步骤的过程应有相应的模块来实现，具体详见表1和表2.

表1

本发明实施例新增功能	所在模块
		客户端内置语音识别功能	客户机，音频服务模块
客户端查表转化为命令代码功能	客户机，音频服务模块
		服务端查表转化为标准PCM音频片段功能	远程桌面，音频服务模块
语音识别软件	远程桌面，应用程序

表2

原音频重定向功能	所在模块
		声音采集	麦克风、客户端音频服务
音频编码、	客户机音频服务模块
		协议通讯，数据通道，命令通道	客户机及服务端的通信模块
音频解码	远程桌面的音频服务模块
		音频重定向驱动	远程桌面的音频服务模块

还请参阅图10，为本发明实施例提供的第二应用实例的流程图，第二应用实例在第一应用实例的基础上，增加：在采集PCM音频数据后，通过一个模式切换功能，切换语音识别模式和普通语音模式，两种模式的工作流程互不干扰，这样可不用处理命令语音数据和数据语音混合在一起的情况，其新增的步骤具体包括：

步骤1001：判断PCM音频数据的模式，如果是PCM音频数据的模式为语音识别模式，则执行步骤902；如果是PCM音频数据的模式为语音识别模式，执行步骤911：其他步骤详见图9所述的步骤，在此不再赘述。

还请参阅图11，为本发明实施例提供的第三应用实例的流程图，第三应用实例在图9或图11实施例的基础上：所述桌面云服务端将命令代码再次替换成PCM片段的步骤，替换为如下内容：如果桌面云服务端本身具有能识别该命令代码的功能，还可以直接执行此命令代码。例如当语音识别软件开放一定的开发接口，或者桌面云能完全理解此命令的含义，都可直接执行而不用再转成PCM片段，这样可以减少一次识别过程，提高命令的执行效率，也就是说，将图9或图10的步骤906至步骤908的内容替换为下述新增的步骤，本图11是以图10为例，但并不限于此。其新增步骤具体包括：

步骤1101：桌面云服务器的通信模块将所述命令代码发送给对应的语音识别软件开发接口；

步骤1102：语音识别软件开发接口将所述命令代码发送给语音识别应用软件，然后执行步骤910。

该实施例中，去掉图9中的步骤906至步骤908，其他步骤详见上述图9所述实施例的步骤，在此不再赘述。

还请参阅图12，为本发明实施例提供的第四应用实例的流程图，第四应用实例在上述第一实施例、第二实施例、第三实施例的基础的，新增如下内容，实时或定时根据在桌面云客户端存储的命令语音数据以及该命令语音数据对应的命令代码，以及在桌面云服务端预先存储的命令代码以及该命令代码对应的标准PCM语音片段，以达到快速升级更新，匹配业务场景变化的目的。其新增的步骤具体包括：

步骤1201：管理系统将更新命令发送给桌面云客户端，所述更新命令中包括：更新的命令语音数据以及该命令语音数据对应的命令代码；以及将所述更新命令发送给桌面云服务端；所述更新命令中包括：更新后的命令代码，以及命令代码对应的标准PCM语音数据；

其具体可以通过桌面云管理协议来下发更新命令。

而桌面云客户端根据接收到的所述更新命令，更新本地存储的命令语音数据以及该命令语音数据对应的命令代码；

桌面云服务端根据接收到的所述更新命令，更新本地存储的命令代码，以及命令代码对应的标准PCM语音数据。

其中，步骤管理系统可以同时发送更新命令，也可以不同时发送更新命令，但只要二者更新命令中包括的对应的更新内容即可。

需要说明的是，该下发更新命令的过程，可以在上述实施例的任何步骤之前执行，也可以在其之后执行，本实施例不作限制。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音数据识别方法，其特征在于，包括：

获取语音数据；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

在获取所述语音数据后，判断所述语音数据的模式；

4.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述语音数据进行识别，具体包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.一种语音数据识别方法，其特征在于，包括：

根据所述命令代码确定对应的标准语音数据；

8.根据权利要求7所述的方法，其特征在于，还包括：

接收桌面云客户端通过数据信道发送的普通语音数据；

9.根据权利要求7或8所述的方法，其特征在于，还包括：

预先存储配置的所述命令代码，以及所述命令代码对应的标准语音数据。

10.根据权利要求9所述的方法，其特征在于，还包括：

11.一种语音数据识别方法，其特征在于，包括：

12.一种语音数据识别装置，其特征在于，包括：

获取单元，用于获取语音数据；

识别单元，用于对所述语音数据进行识别；

13.根据权利要求12所述的装置，其特征在于，还包括：

14.根据权利要求13所述的装置，其特征在于，还包括：

15.根据权利要求12至14任一项所述的装置，其特征在于，还包括：

16.根据权利要求15所述的装置，其特征在于，还包括：

17.一种语音数据识别装置，其特征在于，包括：

18.根据权利要求17所述的装置，其特征在于，还包括：

解码单元，用于对所述普通语音数据进行音频解码；

19.根据权利要求17或18所述的装置，其特征在于，还包括：

20.根据权利要求19所述的装置，其特征在于，还包括：

21.一种语音数据识别装置，其特征在于，包括：