CN105404617B

CN105404617B - 一种远程桌面的控制方法、受控端及控制系统

Info

Publication number: CN105404617B
Application number: CN201410468808.2A
Authority: CN
Inventors: 郑晓光; 陈普; 徐然
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2014-09-15
Filing date: 2014-09-15
Publication date: 2018-12-14
Anticipated expiration: 2034-09-15
Also published as: CN105404617A

Abstract

本发明实施例公开了一种远程桌面的控制方法，所述方法应用于远程桌面的受控端，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，所述方法包括：接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音进行语音识别获取的；通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；根据所述目标操作指令对本端的桌面进行控制。相应地，本发明实施例还公开了一种远程桌面的控制端、受控端及控制系统。采用本发明，可以实现通过语音控制远程桌面，提高便捷性，增强用户的使用体验。

Description

一种远程桌面的控制方法、受控端及控制系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种远程桌面的控制方法、受控端及控制系统。

背景技术

远程桌面是一种利用控制端(本端)计算机操控受控端(远端)计算机的技术，其原理是将受控端计算机的桌面重定向到控制端计算机，用户通过操作控制端计算机的虚拟桌面可等同操作受控端计算机的桌面。远程桌面广泛应用于远程企业会议、远程商务办公以及远程技术指导等。

随着智能移动设备的普及，如平板电脑、智能手机以及笔记本电脑等的便携式设备也加入到远程桌面的应用中，例如，用户可通过平板电脑播放会议室计算机上的PPT。但是，由于受控端计算机多为台式计算机，其输入操作多为物理键、鼠的操作，这些操作在智能移动设备上存在易用性缺陷，例如，平板电脑，其输入操作多为触摸屏输入，用户在触摸屏上执行鼠标双击、鼠标拖动以及打字等操作时，显得生硬且缓慢，降低了用户的使用体验。

发明内容

本发明实施例提供了一种远程桌面的控制方法、控制端、受控端及控制系统，可以实现通过语音控制远程桌面，提高便捷性，增强用户的使用体验。

本发明实施例第一方面提供了一种远程桌面的控制方法，所述方法应用于远程桌面的受控端，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，所述方法包括：

接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音进行语音识别获取的；

通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；

根据所述目标操作指令对本端的桌面进行控制。

在第一方面的第一种可能实现方式中，所述通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令，包括：

通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词；

生成所述目标操作指令，所述目标操作指令包括执行所述动词对应的操作。

结合第一方面的第一种可能实现方式，在第二种可能实现方式中，通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词和在所述动词后的名词；

所述生成所述目标操作指令，所述目标操作指令包括执行所述动词对应的操作，包括：

生成所述目标操作指令，所述目标操作指令包括对所述名词对应的对象执行所述动词对应的操作。

本发明实施例第二方面提供了一种远程桌面的控制方法，所述方法应用于远程桌面的受控端，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，包括：

接收控制端发送来的用户输入的命令语音，所述控制端与本端间建立有远程桌面协议；

通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息；

根据所述目标操作指令对本端的桌面进行控制。

在第二方面的第一种可能实现方式中，所述通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息，包括：

将所述命令语音发送至服务器，以使所述服务器对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，并向本端返回所述文字信息。

结合第二方面的第一种可能实现方式，在第二种可能实现方式中，所述将所述命令语音发送至服务器之前，还包括：

确定本端不具备语音识别功能。

结合第二方面的可能实现方式，在第三种可能实现方式中，所述通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令，包括：

结合第二方面的第三种可能实现方式，在第四种可能实现方式中，所述通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词，包括：

通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词和在所述动词后的名词；

本发明实施例第三方面提供了一种计算机存储介质，所述计算机存储介质存储有程序，该程序执行时包括第一和第二方面提供的一种远程桌面的控制方法的部分或全部步骤。

本发明实施例第四方面提供了一种远程桌面的受控端，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，所述受控端包括：

信息接收模块，用于接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音进行语音识别获取的；

指令获取模块，用于通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；

桌面控制模块，用于根据所述目标操作指令对本端的桌面进行控制。

在第四方面的第一种可能实现方式中，所述指令获取模块，包括：

分词处理单元，用于通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词；

指令获取单元，用于生成所述目标操作指令，所述目标操作指令包括执行所述动词对应的操作。

结合第四方面的第一种可能实现方式，在第二种可能实现方式中，所述分词处理单元，具体用于通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词和在所述动词后的名词；

所述指令获取单元，具体用于所述目标操作指令包括对所述名词对应的对象执行所述动词对应的操作。

本发明实施例第五方面提供了一种远程桌面的受控端，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，所述受控端包括：

语音接收模块，用于接收控制端发送来的用户输入的命令语音；

信息获取模块，用于通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息；

在第五方面的第一种可能实现方式中，所述信息获取模块，具体用于将所述命令语音发送至服务器，以使所述服务器对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，并向本端返回所述文字信息。

结合第五方面的第一种可能实现方式，在第二种可能实现方式中，所述受控端，还包括：

功能确定模块，用于在确定本端不具备语音识别功能后，触发所述信息获取模块将所述命令语音发送至服务器。

结合第五方面的可能实现方式，在第三种可能实现方式中，所述指令获取模块，包括：

结合第五方面的第三种可能实现方式，在第四种可能实现方式中，所述分词处理单元，具体用于通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词和在所述动词后的名词；

本发明实施例第六方面提供了一种远程桌面的控制系统，包括控制端和第四方面提供的受控端，所述受控端通过网络与所述控制端相连，所述受控端与所述控制端间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，其中：

所述控制端用于获取用户输入的命令语音；通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息；将所述命令语音对应的文字信息发送到所述受控端。

本发明实施例第七方面提供了一种远程桌面的控制系统，包括控制端和第五方面提供的控制端，所述受控端通过网络与所述控制端相连，所述受控端与所述控制端间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，其中：

所述控制端用于获取用户输入的命令语音；将所述命令语音发送到所述受控端。

本发明实施例第八方面提供了一种远程桌面的受控端，包括：处理器、通信接口和存储器，其中，存储器中存储一组程序，且处理器用于调用存储器中存储的程序，用于执行以下操作：

接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音进行语音识别获取的，所述控制端与本端间建立有远程桌面协议；

根据所述目标操作指令对本端的桌面进行控制。

或用于执行以下操作：

根据所述目标操作指令对本端的桌面进行控制。

本发明实施例第九方面提供了一种远程桌面的控制端，包括：处理器、通信接口和存储器，其中，存储器中存储一组程序，且处理器用于调用存储器中存储的程序，用于执行以下操作：

获取用户输入的命令语音；

将所述命令语音对应的文字信息发送到受控端，所述受控端与本端间建立有远程桌面协议，以使所述受控端通过对所述文字信息进行语义解析获取目标操作指令，并根据所述目标操作指令对所述受控端的桌面进行控制。

或用于执行以下操作：

获取用户输入的命令语音；

将所述命令语音对应的文字信息发送到受控端，所述受控端与本端间建立有远程桌面协议，以使所述受控端通过对所述命令语音进行语音识别获取所述命令语音对应的文字信息，并通过对所述文字信息进行语义解析获取目标操作指令，进而根据所述目标操作指令对所述受控端的桌面进行控制。

由上可见，本发明实施例中的控制端获取到用户输入的命令语音后，或通过语音识别获取命令语音对应的文字信息并发送给受控端，或直接将命令语音发送到受控端由受控端通过语音识别获取命令语音对应的文字信息，进而受控端通过对文字信息进行语义解析获取目标操作指令，并根据目标操作指令对本端的桌面进行控制，实现了通过语音控制远程桌面的功能，提高便捷性，增强用户的使用体验。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种远程桌面的控制方法的流程示意图；

图2是本发明实施例提供的一种远程桌面的架构示意图；

图3是本发明实施例提供的另一种远程桌面的控制方法的流程示意图；

图4是本发明实施例提供的又一种远程桌面的控制方法的流程示意图；

图5是本发明实施例提供的一种远程桌面的受控端的结构示意图；

图6是本发明实施例提供的一种指令获取模块的结构示意图；

图7是本发明实施例提供的另一种远程桌面的受控端的结构示意图；

图8是本发明实施例提供的另一种指令获取模块的结构示意图；

图9是本发明实施例提供的一种远程桌面的控制系统的结构示意图；

图10是本发明实施例提供的又一种远程桌面的受控端的结构示意图；

图11是本发明实施例提供的一种远程桌面的控制端的结构示意图；

图12是本发明实施例提供的一种远程桌面的应用场景的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的控制端，可以包括平板电脑、智能手机、笔记本电脑以及智能录音机等移动电子设备，可接收用户输入的语音。本发明实施例中的受控端包括各种受控设备，受控端的桌面(desktop，用户交互界面)可存在于受控端的虚拟机，也可存在于受控端的物理机，这里不作限定。

应理解的，本发明实施例中的控制端与受控端之间建立有远程桌面协议，两者可通过远程桌面协议进行数据交互，需要指出的是，上述远程桌面协议并不限定于微软提供的RDP(Remote Desktop Protocol，远程桌面协议)。具体实现过程中，受控端将其桌面重定向到控制端，即在控制端的显示界面显示受控端的桌面，同时控制端将用户对其输入的指令重定向到受控端，以实现对受控端的远程操控。

为了便于理解本发明实施例的应用场景，请参阅图12所示的一种远程桌面的应用场景的示意图，本发明实施例中的控制端10与受控端20通过网络(Network)40相连，控制端10和受控端20还可以通过网络40与服务器30相连，所述服务器30可用于语音识别，即将语音识别为其对应的文字信息。其中，接入网关(AG，Access Gateway)50作为控制端和服务器的传输接口，接入网关60作为控制端和受控端的传输接口。需要指出的是，受控端20可包括至少一个受控设备21(如21a、21b和21c)，受控设备21可包括至少一个桌面(以虚拟机的桌面为例，如VD1、VD2和VDn，VD表示Virtual Desktop)。另外，桌面传输控制器(DDC，DesktopDeliver Controller)70和活动目录器(AD，Active Directory)80置于受控端20的后台，桌面传输控制器70用于集中管理和分配受控端20中的受控设备21，活动目录器80用于对控制端10的身份权限进行验证和受控设备21的域管理。

图1是本发明实施例中一种远程桌面的控制方法的流程示意图。如图所示本实施例中的远程桌面的控制方法的流程可以包括：

S101，接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音进行语音识别获取的，所述控制端与本端间建立有远程桌面协议。

所述命令语音由用户发出，控制端将用户输入的命令语音保存为音频。例如：用户对着控制端的麦克风输入“打开PPT”的命令语音，控制端将“打开PPT”这一命令语音保存为音频。

进一步的，控制端通过对命令语音进行语音识别，获取命令语音对应的文字信息。具体实现过程中，控制端先判断本端是否具备语音识别功能，可选的，控制端可根据本端的硬件中是否具有可将音频转换为文字信息的语音识别组件来判断是否具备语音识别功能。一方面，若判断得知本端具备语音识别功能，则控制端对命令语音进行语音识别，获取命令语音对应的文字信息，例如，控制端对某命令语音的音频进行语音识别，获取该命令语音对应的文字信息是“打开PPT”。另一方面，若判断得知本端不具备语音识别功能，则控制端将命令语音通过网络发送至服务器，由于服务器预先设有可将音频转换为文字信息的语音识别组件，因此服务器可对命令语音进行语音识别，以获取命令语音对应的文字信息，并向控制端返回获取的命令语音对应的文字信息，例如，控制端将某命令语音的音频发送至服务器，服务器对命令语音进行识别，获取命令语音对应的文字信息是“打开PPT”，服务器再将文字信息“打开PPT”打包为文本数据发送回受控端。

更进一步的，控制端将命令语音对应的文字信息通过网络发送到受控端。

具体的，受控端接收控制端通过网络发送来的命令语音对应的文字信息。

S102，通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令。

具体的，受控端接收控制端发送来的命令语音对应的文字信息，并对文字信息进行语义解析，进而获取目标操作指令。具体实现过程中，受控端通过语义解析获取目标操作指令的方法可以由以下步骤实现：

步骤1，受控端通过对命令语音对应的文字信息进行分词处理，获取文字信息中的动词。

例如：假设命令语音对应的文字信息是“现在，我们保存一下，换行另起一段，然后粘贴”，那么受控端将其进行分词处理，得到“现在”、“我们”、“保存”、“一下”、“换行”、“另起”、“一段”、“然后”和“粘贴”若干个词语，并通过查询预设的词汇库获取其中的动词“保存”、“换行”和“粘贴”。

步骤2，受控端生成包括执行动词对应的操作的目标操作指令。可选的一个实施方式，预先在受控端存储一个语义操作表，语义操作表中记录有动词和操作指令的映射关系，并可不断更新，受控端通过查询语义操作表获取动词所对应的目标操作指令。例如，假设语义操作表如表1所示，以及从文字信息中获取的动词是“换行”，则受控端通过查询语义操作表可获知目标操作指令是“在当前焦点处执行物理按键‘Enter’的操作”。

表1

动词	操作指令
		关机	执行“开始”菜单中的“关闭计算机”
换行	在当前焦点处执行物理按键“Enter”的操作
		后翻页	在当前焦点处执行物理按键“PageDown”的操作
后翻页	在当前焦点处执行物理按键“PageUP”的操作
		复制	执行物理按键“Ctrl+C”的操作
粘贴	执行物理按键“Ctrl+V”的操作
		……	……

其中，焦点是指鼠标的光标指向的位置，可选的，受控端的显示屏的焦点可由用户在控制端的触摸屏上触摸的位置确定。

可选的，在上述步骤1中，受控端可进一步地对命令语音对应的文字信息进行分词处理，获取文字信息中的动词和在所述动词后的名词，例如“打开+PPT”、“最小化+文件夹”和“输入+xxxx”等。

相应可选的，在上述步骤2中，受控端可进一步地生成包括对名词对应的对象执行动词对应的操作的目标操作指令。相应的，在受控端预先存储的语义操作表中记录有动词、名词和操作指令的映射关系，并可不断更新，受控端通过查询语义操作表获取目标操作指令。例如，假设语义操作表如表2所示，以及从文字信息中获取的动词和名词是“打开+PPT”，则受控端通过查询语义操作表可获知目标操作指令是“执行鼠标双击焦点处‘PPT’的操作”。

表2

动词

名词

操作指令

打开	开始菜单	执行鼠标单击“开始菜单”的操作
			打开	PPT	执行鼠标双击焦点处“PPT”的操作
输入	6754	在焦点处输入“6754”
			最小化	文件夹	执行鼠标单击文件夹的最小化标识的操作
剪切	图片	对图片执行物理按键“Ctrl+X”的操作
			下拉	菜单	对菜单执行鼠标滑轮下滑的操作
……	……	……

S103，根据所述目标操作指令对本端的桌面进行控制。

具体的，受控端调用相应的进程在本端的桌面执行目标操作指令。

本发明实施例中的控制端获取到用户输入的命令语音后，通过语音识别获取命令语音对应的文字信息并发送给受控端，进而受控端通过对文字信息进行语义解析获取目标操作指令，并根据目标操作指令对本端的桌面进行控制，实现了通过语音控制远程桌面的功能，提高便捷性，增强用户的使用体验。

图2是本发明实施例中一种远程桌面的架构示意图。在具体实现过程中，本发明实施例中的控制端可以如图所示包括客户端(Client)201和本地语音识别组件(LocalSpeech Recognition Module)202，服务器可如图所示包括远端语音识别组件(DistalSpeech Recognition Module)203，受控端可如图所示包括语音服务组件(Speech Server)204、本地语音识别组件(Local Speech Recognition Module)205和语义解析工厂(RuleFactory)206。

客户端201用于获取用户输入的命令语音，命令语音可以是被转换为PCM波的语音信号。在获取到命令语音后，一方面，客户端201可将命令语音以音频流形式发送到本地语音识别组件202或通过网络发送到远端语音识别组件203进行语音识别以获取命令语音对应的文字信息，需要指出的是，客户端201可根据预设的策略，如优先级策略，来确定在本地语音识别组件202还是在远端语音识别组件203进行语音识别。客户端201在获取到命令语音对应的文字信息后，将其通过网络发送至语音服务组件204。另一方面，客户端201也可将命令语音直接通过网络发送至语音服务组件204。

语音服务组件204用于接收客户端201发送来的命令语音对应的文字信息或客户端201直接发送来的命令语音。一方面，若语音服务组件204接收的是命令语音对应的文字信息，则语音服务组件204将文字信息发送到语义解析工厂206。另一方面，若语音服务组件204接收的是命令语音，则语音服务组件204可将命令语音以音频流形式发送到本地语音识别组件205或通过网络发送到远端语音识别组件203进行语音识别以获取命令语音对应的文字信息，同理，语音服务组件204可根据预设的策略来确定在本地语音识别组件205还是在远端语音识别组件203进行语音识别，语音服务组件204再将文字信息发送到语义解析工厂206。语义解析工厂206用于根据词汇库(Dictionary)对命令语音对应的文字信息进行语义解析，获取目标操作指令，并根据目标操作指令调用api(Application ProgrammingInterface，应用程序编程接口)命令控制本端桌面上的应用。

结合图2所描述的远程桌面的架构，图3是本发明实施例中另一种远程桌面的控制方法的流程示意图，可以包括：

S201，客户端获取用户输入的命令语音。

具体的，所述命令语音由用户发出，客户端将用户输入的命令语音保存为音频。例如，用户对着控制端的麦克风输入“打开PPT”的命令语音，客户端将“打开PPT”这一命令语音保存为音频。

S202，客户端判断本端是否具备语音识别功能。

可选的，客户端可根据控制端的硬件中是否具有可将音频转换为文字信息的本地语音识别组件来判断是否具备语音识别功能。

S203，若是，则客户端将所述命令语音发送至本地语音识别组件。

具体的，客户端以音频流形式将命令语音的音频发送至本地语音识别组件。

S204，本地语音识别组件对所述命令语音进行语音识别以获取所述命令语音对应的文字信息。

具体的，当接收到客户端发送来的命令语音的音频，本地语音识别组件对命令语音进行语音识别，获取命令语音对应的文字信息。例如，本地语音识别组件对接收的某命令语音的音频进行语音识别，获取该命令语音对应的文字信息是“打开PPT”。

S205，本地语音识别组件向客户端返回所述命令语音对应的文字信息。

S206，若否，则客户端将所述命令语音发送至远端语音识别组件。

具体的，客户端以音频流形式将命令语音的音频通过网络发送至远端语音识别组件。

S207，远端语音识别组件对所述命令语音进行语音识别以获取所述命令语音对应的文字信息。

具体的，当接收到客户端发送来的命令语音的音频，远端语音识别组件对命令语音进行语音识别，获取命令语音对应的文字信息。例如，远端语音识别组件对接收的某命令语音进行识别，获取该命令语音对应的文字信息是“打开PPT”。

S208，远端语音识别组件向客户端返回所述命令语音对应的文字信息。

具体的，远端语音识别组件将该文字信息通过网络发送回客户端。

S209，客户端将所述命令语音对应的文字信息发送到语音服务组件。

具体的，客户端将本地语音识别组件识别出的文字信息或远端语音识别组件识别出的文字信息通过网络发送到语音服务组件。

S210，语音服务组件将所述命令语音对应的文字信息转发到语义解析工厂。

S211，语义解析工厂通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令。

具体的，语义解析工厂接收客户端通过网络发送来的命令语音对应的文字信息，并对文字信息进行语义解析，进而获取目标操作指令。具体实现过程中，语义解析工厂通过语义解析获取目标操作指令的方法可以由以下步骤实现：

步骤1，语义解析工厂通过对命令语音对应的文字信息进行分词处理，获取文字信息中的动词。

例如：假设命令语音对应的文字信息是“现在，我们保存一下，换行另起一段，然后粘贴”，那么语义解析工厂将其进行分词处理，得到“现在”、“我们”、“保存”、“一下”、“换行”、“另起”、“一段”、“然后”和“粘贴”若干个词语，并通过查询预设的词汇库获取其中的动词“保存”、“换行”和“粘贴”。

步骤2，语义解析工厂生成包括执行动词对应的操作的目标操作指令。可选的一个实施方式，预先在受控端存储一个语义操作表，语义操作表中记录有动词和操作指令的映射关系，并可不断更新，语义解析工厂通过查询语义操作表获取动词所对应的目标操作指令。例如，假设语义操作表如表1所示，以及从文字信息中获取的动词是“换行”，则语义解析工厂通过查询语义操作表可获知目标操作指令是“在当前焦点处执行物理按键‘Enter’的操作”。

表1

其中，焦点是指受控端的桌面上鼠标的光标指向的位置，可选的，受控端的桌面上的焦点可由用户在控制端的触摸屏上触摸的位置确定。

可选的，在上述步骤1中，语义解析工厂可进一步地对命令语音对应的文字信息进行分词处理，获取文字信息中的动词和在所述动词后的名词，例如“打开+PPT”、“最小化+文件夹”和“输入+xxxx”等。

相应可选的，在上述步骤2中，语义解析工厂可进一步地生成包括对名词对应的对象执行动词对应的操作的目标操作指令。相应的，在受控端预先存储的语义操作表中记录有动词、名词和操作指令的映射关系，并可不断更新，语义解析工厂通过查询语义操作表获取目标操作指令。例如，假设语义操作表如表2所示，以及从文字信息中获取的动词和名词是“打开+PPT”，则语义解析工厂通过查询语义操作表可获知目标操作指令是“执行鼠标双击焦点处‘PPT’的操作”。

表2

动词	名词	操作指令
			打开	开始菜单	执行鼠标单击“开始菜单”的操作

打开	PPT	执行鼠标双击焦点处“PPT”的操作
			输入	6754	在焦点处输入“6754”
最小化	文件夹	执行鼠标单击文件夹的最小化标识的操作
			剪切	图片	对图片执行物理按键“Ctrl+X”的操作
下拉	菜单	对菜单执行鼠标滑轮下滑的操作
			……	……	……

S212，语义解析工厂根据所述目标操作指令对本端的桌面进行控制。

具体的，语义解析工厂调用相应的api命令在受控端的桌面上执行目标操作指令。

结合图2所描述的远程桌面的架构，图4是本发明实施例中又一种远程桌面的控制方法的流程示意图，可以包括：

S301，客户端获取用户输入的命令语音。

S302，客户端将所述命令语音发送到语音服务组件。

具体的，客户端将获取的命令语音通过网络发送到语音服务组件。

S303，语音服务组件判断本端是否具备语音识别功能。

可选的，语音服务组件可根据受控端的硬件中是否具有可将音频转换为文字信息的本地语音识别组件来判断是否具备语音识别功能。

S304，若是，则语音服务组件将所述命令语音发送至本地语音识别组件。

具体的，语音服务组件以音频流形式将命令语音的音频发送至本地语音识别组件。

S305，本地语音识别组件对所述命令语音进行语音识别以获取所述命令语音对应的文字信息。

S306，本地语音识别组件向语音服务组件返回所述命令语音对应的文字信息。

S307，若否，则语音服务组件将所述命令语音发送至远端语音识别组件。

具体的，语音服务组件以音频流形式将命令语音的音频通过网络发送至远端语音识别组件

S308，远端语音识别组件对所述命令语音进行语音识别以获取所述命令语音对应的文字信息。

S309，远端语音识别组件向语音服务组件返回所述命令语音对应的文字信息。

具体的，远端语音识别组件将该文字信息通过网络发送回语音服务组件。

S310，语音服务组件将所述命令语音对应的文字信息发送到语义解析工厂。

S311，语义解析工厂通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令。

具体的，语义解析工厂接收语音服务组件发送来的命令语音对应的文字信息，并对文字信息进行语义解析，进而获取目标操作指令。具体实现过程中，语义解析工厂通过语义解析获取目标操作指令的方法可以由以下步骤实现：

步骤1，语义解析工厂通过对命令语音对应的文字信息进行分词处理，获取文字信息中的动词，例如“关机”、“换行”和“翻页”等。

表1

表2

动词	名词	操作指令
			打开	开始菜单	执行鼠标单击“开始菜单”的操作
打开	PPT	执行鼠标双击焦点处“PPT”的操作
			输入	6754	在焦点处输入“6754”
最小化	文件夹	执行鼠标单击文件夹的最小化标识的操作
			剪切	图片	对图片执行物理按键“Ctrl+X”的操作
下拉	菜单	对菜单执行鼠标滑轮下滑的操作
			……	……	……

S312，语义解析工厂根据所述目标操作指令对本端的桌面进行控制。

本发明实施例中的控制端获取到用户输入的命令语音后，直接将命令语音发送到受控端由受控端通过语音识别获取命令语音对应的文字信息，进而受控端通过对文字信息进行语义解析获取目标操作指令，并根据目标操作指令对本端的桌面进行控制，实现了通过语音控制远程桌面的功能，提高便捷性，增强用户的使用体验。

图5是本发明实施例中一种远程桌面的受控端的结构示意图。如图所示本发明实施例中的受控端至少可以包括信息接收模块410、指令获取模块420以及桌面控制模块430，其中：

信息接收模块410，用于接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音进行语音识别获取的，所述控制端与本端间建立有远程桌面协议。

具体的，信息接收模块410接收控制端通过网络发送来的命令语音对应的文字信息。

指令获取模块420，用于通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令。具体实现中，所述指令获取模块420可以如图6所示进一步包括分词处理单元421和指令获取单元422，其中：

分词处理单元421，用于通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词。

例如：假设命令语音对应的文字信息是“现在，我们保存一下，换行另起一段，然后粘贴”，那么分词处理单元421将其进行分词处理，得到“现在”、“我们”、“保存”、“一下”、“换行”、“另起”、“一段”、“然后”和“粘贴”若干个词语，并通过查询预设的词汇库获取其中的动词“保存”、“换行”和“粘贴”。

指令获取单元422，用于生成所述目标操作指令，所述目标操作指令包括执行所述动词对应的操作。

可选的一个实施方式，预先在受控端存储一个语义操作表，语义操作表中记录有动词和操作指令的映射关系，并可不断更新，指令获取单元422通过查询语义操作表获取动词所对应的目标操作指令。例如，假设语义操作表如表1所示，以及从文字信息中获取的动词是“换行”，则指令获取单元422通过查询语义操作表可获知目标操作指令是“在当前焦点处执行物理按键‘Enter’的操作”。

表1

其中，焦点是指鼠标的光标指向的位置，可选的，受控端的焦点可由用户在控制端的触摸屏上触摸的位置确定。

可选的，分词处理单元421具体用于对命令语音对应的文字信息进行分词处理，获取文字信息中的动词和在所述动词后的名词，例如“打开+PPT”、“最小化+文件夹”和“输入+xxxx”等。

相应可选的，指令获取单元422具体用于生成包括对名词对应的对象执行动词对应的操作的目标操作指令。相应的，在受控端预先存储的语义操作表中记录有动词、名词和操作指令的映射关系，并可不断更新，指令获取单元422通过查询语义操作表获取目标操作指令。例如，假设语义操作表如表2所示，以及从文字信息中获取的动词和名词是“打开+PPT”，则指令获取单元422通过查询语义操作表可获知目标操作指令是“执行鼠标双击焦点处‘PPT’的操作”。

表2

动词	名词	操作指令
			打开	开始菜单	执行鼠标单击“开始菜单”的操作
打开	PPT	执行鼠标双击焦点处“PPT”的操作
			输入	6754	在焦点处输入“6754”

最小化	文件夹	执行鼠标单击文件夹的最小化标识的操作
			剪切	图片	对图片执行物理按键“Ctrl+X”的操作
下拉	菜单	对菜单执行鼠标滑轮下滑的操作
			……	……	……

桌面控制模块430，用于根据所述目标操作指令对本端的桌面进行控制。

具体的，桌面控制模块430调用相应的进程在本端的桌面执行目标操作指令。

本发明实施例中的受控端包括信息接收模块410、指令获取模块420以及桌面控制模块430，其中，控制端获取到用户输入的命令语音后，通过语音识别获取命令语音对应的文字信息并发送给受控端，信息接收模块410接收发送来的文字信息，进而指令获取模块420通过对文字信息进行语义解析获取目标操作指令，最后桌面控制模块430根据目标操作指令对本端的桌面进行控制，实现了通过语音控制远程桌面的功能，提高便捷性，增强用户的使用体验。

图7是本发明实施例提供的另一种远程桌面的受控端的结构示意图。如图所示本发明实施例中的受控端至少可以包括语音接收模块510、信息获取模块520、指令获取模块530以及桌面控制模块540，其中：

语音接收模块510，用于接收控制端发送来的用户输入的命令语音，所述控制端与本端间建立有远程桌面协议。

进一步的，控制端将命令语音通过网络发送到受控端。

具体的，语音接收模块510接收控制端通过网络发送来的命令语音。

信息获取模块520，用于通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息。可选的，请参阅图7，如图所示本发明实施例中的受控端还可以包括功能确定模块550，用于确定本端是否具备语音识别功能。可选的，功能确定模块550可根据本端的硬件中是否具有可将音频转换为文字信息的语音识别组件来判断是否具备语音识别功能。

具体实现过程中：

一方面，功能确定模块550若判断得知本端具备语音识别功能，则信息获取模块520对命令语音进行语音识别，获取命令语音对应的文字信息。例如，信息获取模块520对某命令语音的音频进行语音识别，获取该命令语音对应的文字信息是“打开PPT”。

另一方面，功能确定模块550若判断得知本端不具备语音识别功能，则信息获取模块520将命令语音通过网络发送至服务器。由于服务器预先设有可将音频转换为文字信息的语音识别组件，因此服务器可对命令语音进行语音识别，以获取命令语音对应的文字信息，并向信息获取模块520返回获取的命令语音对应的文字信息，例如，信息获取模块520将某命令语音的音频发送至服务器，服务器对命令语音进行识别，获取命令语音对应的文字信息是“打开PPT”，服务器再将文字信息“打开PPT”打包为文本数据发送回信息获取模块520。

指令获取模块530，用于通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令。

具体的，指令获取模块530接收控制端通过网络发送来的命令语音对应的文字信息，并对文字信息进行语义解析，进而获取目标操作指令。具体实现中，所述指令获取模块530可以如图8所示进一步包括分词处理单元531和指令获取单元532，其中：

分词处理单元531，用于通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词。

例如：假设命令语音对应的文字信息是“现在，我们保存一下，换行另起一段，然后粘贴”，那么分词处理单元531将其进行分词处理，得到“现在”、“我们”、“保存”、“一下”、“换行”、“另起”、“一段”、“然后”和“粘贴”若干个词语，并通过查询预设的词汇库获取其中的动词“保存”、“换行”和“粘贴”。

指令获取单元532，用于生成所述目标操作指令，所述目标操作指令包括执行所述动词对应的操作。

可选的一个实施方式，预先在受控端存储一个语义操作表，语义操作表中记录有动词和操作指令的映射关系，并可不断更新，指令获取单元532通过查询语义操作表获取动词所对应的目标操作指令。例如，假设语义操作表如表1所示，以及从文字信息中获取的动词是“换行”，则指令获取单元532通过查询语义操作表可获知目标操作指令是“在当前焦点处执行物理按键‘Enter’的操作”。

表1

可选的，分词处理单元531具体用于对命令语音对应的文字信息进行分词处理，获取文字信息中的动词和在所述动词后的名词，例如“打开+PPT”、“最小化+文件夹”和“输入+xxxx”等。

相应可选的，指令获取单元532具体用于生成包括对名词对应的对象执行动词对应的操作的目标操作指令。相应的，在受控端预先存储的语义操作表中记录有动词、名词和操作指令的映射关系，并可不断更新，指令获取单元532通过查询语义操作表获取目标操作指令。例如，假设语义操作表如表2所示，以及从文字信息中获取的动词和名词是“打开+PPT”，则指令获取单元532通过查询语义操作表可获知目标操作指令是“执行鼠标双击焦点处‘PPT’的操作”。

表2

桌面控制模块540，用于根据所述目标操作指令对本端的桌面进行控制。

具体的，桌面控制模块540调用相应的进程在本端的桌面执行目标操作指令。

本发明实施例中的受控端包括信息接收模块510、信息获取模块520、指令获取模块530以及桌面控制模块540，其中，控制端获取到用户输入的命令语音后，直接将命令语音发送到信息接收模块510由信息获取模块520通过语音识别获取命令语音对应的文字信息，进而指令获取模块530通过对文字信息进行语义解析获取目标操作指令，桌面控制模块540根据目标操作指令对本端的桌面进行控制，实现了通过语音控制远程桌面的功能，提高便捷性，增强用户的使用体验。

图9是本发明实施例提供的一种远程桌面的控制系统的结构示意图。如图所示本发明实施例中的远程桌面的控制系统至少可以包括控制端610和受控端620，所述受控端610通过网络与所述控制端620相连，所述受控端610与所述控制端620间建立有远程桌面协议，被远程控制的桌面存在于所述受控端620，其中：

所述控制端610用于获取用户输入的命令语音；通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息；将所述命令语音对应的文字信息发送到所述受控端620。

所述受控端620为如前文结合图5所描述的受控端，用于接收所述控制端610发送来的命令语音对应的文字信息，所述文字信息是由所述控制端610通过对用户输入的所述命令语音进行语音识别获取的；通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；根据所述目标操作指令对本端的桌面进行控制。

或，

所述控制端610用于获取用户输入的命令语音；将所述命令语音发送到所述受控端620。

所述受控端620为如前文结合图7所描述的受控端，用于接收所述控制端610发送来的用户输入的命令语音；通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息；通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；根据所述目标操作指令对本端的桌面进行控制。

图10是本发明实施例中的又一种远程桌面的受控端的结构示意图，如图10所示，该受控端可以包括：至少一个处理器701，例如CPU，至少一个网络接口703，存储器704，语音识别组件705，至少一个通信总线702。其中，通信总线702用于实现这些组件之间的连接通信。其中，本发明实施例中网络接口703可以为无线接口或有线接口，例如天线装置或宽带装置，用于与建立有远程桌面协议的控制端进行信令或数据的通信，本发明实施例中可预置有语音识别组件705，语音识别组件705用于将音频转换为文字信息。存储器704可以是高速RAM存储器，也可以是非易失的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器704还可以是至少一个位于远离前述处理器701的存储装置。存储器704中存储一组程序代码，且处理器701用于调用存储器中存储的程序代码，可用于执行以下操作：

根据所述目标操作指令对本端的桌面进行控制。

可选的，处理器701通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令的具体操作为：

进一步的，处理器701通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词的具体操作为：

通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词和在所述动词后的名词。

相应的，处理器701生成所述目标操作指令，所述目标操作指令包括执行所述动词对应的操作的具体操作为：

存储器704中存储一组程序代码，且处理器701用于调用存储器中存储的程序代码，也可用于执行以下操作：

接收控制端发送来的用户输入的命令语音；

根据所述目标操作指令对本端的桌面进行控制。

可选的，处理器701通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息的操作可以是：

相应的，处理器701将所述命令语音发送至服务器，以使所述服务器对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，并向本端返回所述文字信息的条件是：受控端700没有语音识别组件705。

图11是本发明实施例中的又一种远程桌面的控制端的结构示意图，如图11所示，该控制端可以包括：至少一个处理器801，例如CPU，至少一个网络接口803，存储器804，语音识别组件805，语音输入组件806，至少一个通信总线802。其中，通信总线802用于实现这些组件之间的连接通信。其中，本发明实施例中网络接口803可以为无线接口或有线接口，例如天线装置或宽带装置，用于与建立有远程桌面协议的控制端进行信令或数据的通信，本发明实施例中可预置有语音识别组件805，语音识别组件805用于将音频转换为文字信息，本发明实施例中语音输入组件806可以是麦克风，用于获取用户发出的语音。存储器804可以是高速RAM存储器，也可以是非易失的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器804还可以是至少一个位于远离前述处理器801的存储装置。存储器804中存储一组程序代码，且处理器801用于调用存储器中存储的程序代码，可用于执行以下操作：

获取用户输入的命令语音；

可选的，处理器801通过对所述命令语音进行语音识别，获取所述命令语音对应的文字信息的操作可以是：

相应的，处理器801将所述命令语音发送至服务器，以使所述服务器对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，并向本端返回所述文字信息的条件是：受控端800没有语音识别组件805。

存储器804中存储一组程序代码，且处理器801用于调用存储器中存储的程序代码，还可用于执行以下操作：

获取用户输入的命令语音；

将所述命令语音发送到受控端，所述受控端与本端间建立有远程桌面协议，以使所述受控端通过对所述命令语音进行语音识别获取所述命令语音对应的文字信息，并通过对所述文字信息进行语义解析获取目标操作指令，进而根据所述目标操作指令对所述受控端的桌面进行控制。

本发明实施例还提出了一种计算机存储介质，所述计算机存储介质存储有程序，所述程序执行时包括本发明实施例结合图1、图3和图4所描述的一种远程桌面的控制方法中的部分或全部的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种远程桌面的控制方法，其特征在于，所述方法应用于远程桌面的受控端，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，所述受控端包括至少一个受控设备，所述受控设备包括至少一个桌面，所述受控端的后台设置有桌面传输控制器和活动目录器，所述桌面传输控制器用于集中管理和分配受控端的受控设备，所述活动目录器用于对控制端的身份权限进行验证和受控设备的域管理，所述方法包括：

控制端通过对用户输入的命令语音根据预设的策略来确定在本地语音识别组件还是在远端语音识别组件进行语音识别；

当所述控制端确定在本地语音识别组件进行语音识别时，本地语音识别组件对命令语音进行语音识别，获取命令语音对应的文字信息，将所述命令语音对应的文字信息发送到所述受控端；当所述控制端确定在远端语音识别组件进行语音识别时，将所述命令语音发送至远端语音识别组件，所述远端语音识别组件对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，向所述控制端返回所述命令语音对应的文字信息，所述控制端将所述命令语音对应的文字信息发送到所述受控端；所述受控端接收控制端发送来的命令语音对应的文字信息，通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；根据所述目标操作指令对本端的桌面进行控制；

当所述受控端接收到所述控制端发送来的用户输入的命令语音时，通过语音服务组件根据预设的策略来确定在本地语音识别组件还是在远端语音识别组件对所述命令语音进行语音识别；

当所述受控端确定在本地语音识别组件进行语音识别时，本地语音识别组件对命令语音进行语音识别，获取命令语音对应的文字信息；当所述受控端确定在远端语音识别组件进行语音识别时，将所述命令语音发送至服务器，以使所述服务器对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，并向本端返回所述文字信息；所述受控端通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令；根据所述目标操作指令对本端的桌面进行控制。

2.如权利要求1所述的方法，其特征在于，所述通过对所述命令语音对应的文字信息进行语义解析，获取目标操作指令，包括：

3.如权利要求2所述的方法，其特征在于，所述通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述命令语音发送至服务器之前，还包括：

确定本端不具备语音识别功能。

5.一种远程桌面的受控端，其特征在于，所述受控端通过网络与远程桌面的控制端相连，所述控制端与所述受控端之间建立有远程桌面协议，被远程控制的桌面存在于所述受控端，所述受控端包括至少一个受控设备，所述受控设备包括至少一个桌面，所述受控端的后台设置有桌面传输控制器和活动目录器，所述桌面传输控制器用于集中管理和分配受控端的受控设备，所述活动目录器用于对控制端的身份权限进行验证和受控设备的域管理，所述受控端包括：

信息接收模块，用于接收控制端发送来的命令语音对应的文字信息，所述文字信息是由所述控制端通过对用户输入的所述命令语音根据预设的策略来确定在本地语音识别组件还是在远端语音识别组件进行语音识别获取的，所述控制端与本端间建立有远程桌面协议；

语音接收模块，用于接收控制端发送来的用户输入的命令语音，所述控制端与本端间建立有远程桌面协议；

信息获取模块，用于通过语音服务组件根据预设的策略来确定在本地语音识别组件还是在远端语音识别组件对所述命令语音进行语音识别，获取所述命令语音对应的文字信息；在确定在远端语音识别组件对所述命令语音进行语音识别时，将所述命令语音发送至服务器，以使所述服务器对所述命令语音进行语音识别以获取所述命令语音对应的文字信息，并向本端返回所述文字信息；

6.如权利要求5所述的受控端，其特征在于，所述指令获取模块，包括：

7.如权利要求6所述的受控端，其特征在于，所述分词处理单元，具体用于通过对所述命令语音对应的文字信息进行分词处理，获取所述文字信息中的动词和在所述动词后的名词；

8.如权利要求5所述的受控端，其特征在于，所述受控端，还包括：

9.一种远程桌面的控制系统，其特征在于，所述控制系统包括控制端和如权利要求5-8中任一项所述的受控端，所述受控端通过网络与所述控制端相连，所述受控端与所述控制端间建立有远程桌面协议，被远程控制的桌面存在于所述受控端。