CN114842848A

CN114842848A - 语音控制系统、方法、装置、设备以及介质、程序产品

Info

Publication number: CN114842848A
Application number: CN202110142643.XA
Authority: CN
Inventors: 李涵; 伍治源; 王俊; 王雷
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-08-02
Also published as: WO2022166479A1; EP4280550A1; US20240020369A1

Abstract

本申请提供了一种语音控制系统，该系统应用于人工智能领域，包括：运行于移动终端上的第一客户端、运行于服务器上的服务端和运行于被控终端上的第二客户端。第一客户端获取用户的身份信息，向服务端发送用户的身份信息，服务端对用户的身份信息进行验证。第一客户端还采集用户的语音数据，根据该语音数据生成语音控制请求向服务端发送该语音控制请求。当身份信息验证通过时，服务端根据语音控制请求生成控制指令，并发送给第二客户端。第二客户端指示被控终端执行该控制指令。如此使得被控终端能够支持语音控制，而且不需要改造，降低了成本，提高了可用性。而且，基于身份信息进行验证，保障了语音控制的安全性。

Description

语音控制系统、方法、装置、设备以及介质、程序产品

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种语音控制系统以及对应的方法、装置、设备、计算机可读存储介质、计算机程序产品。

背景技术

随着语音技术尤其是语音识别技术的不断发展，通过语音对设备进行语音控制逐渐成为一种可能。相对于传统的鼠标控制、键盘控制、按钮控制、遥控器控制等控制方式，语音控制无需用户手动键入相关内容，并通过鼠标触发相应控件，也不需要用户事先了解各种按钮或遥控器的功能，用户根据自身意图发出相应的语音，即可对设备进行控制。语音控制的使用门槛较低，控制方式更加灵活、便捷，因而具有广泛的应用前景。

目前，许多设备原生不支持语音控制，例如许多智能电视、会议终端不支持语音控制，导致控制过程比较繁琐，用户体验较差。如何使得原生不支持语音控制的设备支持语音控制，成为业界重点关注的问题。

发明内容

本申请提供了一种语音控制系统，一方面，该系统采用移动终端自带的麦克风阵列采集用户的语音数据，利用移动终端或者服务器对语音数据进行语音识别，由此可以使得原生不支持语音控制的被控终端能够支持语音控制，而且不需要改造被控终端，成本较低且具有较高可用性，另一方面，该系统中服务端对用户的身份信息进行验证，验证通过时，再对被控终端进行控制，进一步提高了安全性。本申请还提供了上述系统对应的方法、装置、设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供一种语音控制系统，用于对被控终端进行控制。该系统包括第一客户端、服务端和第二客户端，第一客户端运行于移动终端上，服务端运行于服务器上，第二客户端运行与被控终端上。

其中，移动终端是指可移动的、便携终端。在一些实现方式中，移动终端可以具有显示屏。移动终端包括但不限于智能手机、平板电脑、个人数字助理或者智能穿戴设备。智能穿戴设备包括智能手环、智能手表、智能眼镜等等。服务器可以是云环境中的云服务器，例如中心服务器和边缘服务器。服务器也可以是本地数据中心的服务器，本地数据中心是指处于用户所属的数据中心。被控终端可以是具有显示屏的终端，例如智能电视或会议终端。

具体地，第一客户端用于获取用户的身份信息，并将该身份信息发送给服务端。第一客户端还用于采集用户的语音数据，根据该语音数据生成语音控制请求，并将该语音控制请求发送给服务端。服务端用于对第一客户端发送的身份信息进行验证，当对该身份信息验证通过时，对第一客户端发送的语音控制请求进行处理，例如根据语音控制请求生成控制指令，然后发送该控制指令给第二客户端。第二客户端用于指示被控终端执行该控制指令，进而实现对被控终端进行语音控制。可见，即使在被控终端没有内置语音芯片和麦克风阵列的情况下，该语音控制系统也能够实现对被控终端进行语音控制。

一方面，采用移动终端自带的麦克风阵列采集用户的语音数据，基于该语音数据可以生成语音控制请求，然后服务端根据语音控制请求对被控终端进行控制。即使被控终端没有语音芯片和麦克风阵列，用户也能够通过移动终端和服务器对被控终端进行语音控制。如此可以使得原生不支持语音控制的被控终端也能够支持语音控制，而且不需要对被控终端进行改造，降低了成本，提高了可用性。另外，通过移动终端采集用户的语音数据可以使得用户随意改变位置，而不限定用户所处的位置范围。

另一方面，服务端还基于移动终端上运行的第一客户端发送的身份信息，对用户进行身份验证，验证通过时，服务端再根据语音控制请求控制被控终端，如此可以避免非法用户对被控终端进行语音控制，提高了安全性。

在一些可能的实现方式中，语音控制请求携带有被控终端的标识。该标识通常具有唯一性，用于区别网络中的其他被控终端。基于此，标识可以是媒体访问控制地址、网络地址或者通用唯一识别码，其中，网络地址具体可以为互联网协议地址。服务端可以通过该标识识别被控终端。

第一客户端可以通过多种方式获取被控终端的标识。具体地，移动终端支持近距离无线通信(也称作近场通信)时，移动终端可以靠近被控终端的近场通信模块，如被控终端内置的近场通信模块或者是独立于该被控终端的近场通信模块，从而建立近场通信连接，如此，第一客户端可以通过上述近场通信连接，获得被控终端的标识。

移动终端具备图形扫描能力时，第一客户端还可以调用移动终端的摄像头，扫描识别码，从而获得被控终端的标识。其中，识别码可以是二维码、条形码等。被控终端的显示屏中可以预先显示二维码，用户可以手持移动终端，利用移动终端扫描二维码，移动终端上运行的第一客户端可以解析二维码，获得被控终端的标识。

第一客户端也可以直接接收用户输入的被控终端的标识。例如，第一客户端向用户呈现交互界面，用户可以通过该交互界面输入被控终端的标识，进而第一客户端能够接收到用户输入的标识。

移动终端支持蓝牙功能时，移动终端还可以通过蓝牙连接被控终端，如此移动终端上运行的第一客户端可以通过蓝牙获得被控终端的标识。移动终端支持无线局域网或无线热点连接时，移动终端上运行的第一客户端还可以通过无线局域网或者无线热点，获得被控终端的标识。以无线局域网为例，移动终端和被控终端接入同一无线局域网时，移动终端和被控终端通过该无线局域网的接入点建立连接，移动终端可以通过该连接获取被控终端的标识，如此第一客户端能够获得被控终端的标识。

在该方法中，移动终端可以通过各种便捷的方式获得被控终端的标识，进而实现对该标识对应的被控终端进行语音控制。控制方式对用户比较友好，提升了用户体验。而且移动终端支持上述多种方式中的任意一种即可对被控终端进行语音控制，具有较高可用性和兼容性。

在一些可能的实现方式中，服务端对用户的身份信息进行验证通过后，服务端还可以根据用户的身份信息向第一客户端返回用户的权限信息。考虑到安全性，针对不同的用户，服务端根据其身份信息设置不同的权限。举例说明，公司内部员工与外部供应商的权限可以是不同的。在一些示例中，公司内部员工具有调整亮度和音量、切换屏幕显示内容、文件投屏、打开公司一般文件的权限，外部供应商具有调整亮度和音量、切换屏幕显示内容、文件投屏的权限，但是不具有打开公司一般文件的权限。

具体地，服务端可以预先配置不同用户的控制权限，如此服务端可以根据用户的身份信息确定用户的权限信息，然后向第一客户端返回该权限信息。第一客户端可以根据用户的权限信息，确定与该权限信息匹配的功能，然后将该功能呈现给用户，用户能够基于第一客户端呈现的功能选择相应功能对被控终端进行控制。

如此，该语音控制系统可以实现根据不同用户的权限进行个性化的语音控制，满足多样性的业务需求。

在一些可能的实现方式中，服务端还可以动态调整用户的控制权限。以会议场景为例，服务端可以根据会议过程中参会人员的需求为参会人员动态分配权限信息。举例说明，当公司员工张三完成对业务总结的发言后，非公司员工李四也需要针对下半年的合作项目进行展示。则服务端可以临时授权非公司员工李四文件翻页功能，以使李四能够对相关的文件翻页，当李四完成对合作项目的展示后，服务端可以取消授权李四文件翻页功能。如此，该语音控制系统能够针对实际需求对用户的权限信息动态调整，实现了需求和安全的均衡。

在一些可能的实现方式中，语音控制请求包括语音数据或者语音数据对应的文本数据，服务端根据语音数据或文本数据，识别所述用户的意图。

第一客户端可以将采集的用户的语音数据直接发送给服务端，由服务端利用自动语音识别技术对用户的语音数据进行识别，以获取用户的语音数据对应的文本数据。在另一些实现方式中，第一客户端可以先利用自动语音识别技术对采集的用户的语音数据进行识别，以获取用户的语音数据对应的文本数据，然后将该文本数据携带在语音控制请求中，发送给服务端，如此可以减少服务端所在的服务器的数据处理量，降低服务器的计算压力。

第一客户端也可以先利用自动语音识别技术对用户的语音数据进行识别，得到该语音数据对应的文本数据，然后利用自然语言处理技术对该文本数据进行处理，从而识别出用户的意图。第一客户端可以在语音控制请求中直接携带意图，而不必携带语音数据或文本数据，然后向服务端发送语音控制请求。其中，意图的数据量小于文本数据或语音数据的数据量，如此可以减少传输开销，降低带宽资源占用。并且，服务端可以直接从语音控制请求获取用户的意图，避免了该服务端所在的服务器耗费大量的算力进行意图识别，降低了服务器的计算压力。

在一些可能的实现方式中，服务端根据用户的意图，获得控制指令。具体地，服务器存储有至少一个被控终端的指令集。服务端可以存储不同品牌、不同系列、不同型号的被控终端的指令集。指令集中包括被控终端支持的至少一个控制指令。该控制指令是被控终端可识别的指令，例如可以是二进制指令。

服务端可以根据被控终端的标识，确定被控终端的指令集，然后从被控终端的指令集中查找与用户的意图匹配的控制指令，当查找成功时，服务端可以获取该控制指令，当查找失败时，服务端可以向第一客户端发送提示信息，第一客户端通过移动终端的屏幕呈现提示信息。该提示信息具体可以用于向用户提示被控终端不支持用户的语音数据对应的功能，例如被控终端不支持文件投屏等功能。如此，能够保障服务端发送给第二客户端的控制指令，被控终端均能够在第二客户端的指示下执行该控制指令，减少了由于被控终端不支持该控制指令而无法执行的情况。进一步地，当被控终端不支持该控制指令时，服务端不发送该控制指令给第二客户端，如此进一步降低了网络开销。

在一些可能的实现方式中，服务端也可以先根据意图查找与该意图匹配的至少一个控制指令，然后从至少一个控制指令中，获取与被控终端的标识匹配的控制指令，以便通过该控制指令控制对应的被控终端。

具体地，服务器可以预先建立意图和指令集中控制指令的映射关系，如此，服务端可以根据该映射关系，查找与用户的意图匹配的控制指令。进一步地，为了提高查找效率，服务器可以建立意图码和指令集中控制指令的映射关系，服务端识别出用户的意图后，确定该意图对应的意图码，然后通过意图码查找与用户的意图匹配的控制指令。其中，意图码具体可以表示为字符串，如数字串、字母串或者是数字和字母的混合串。

第二方面，本申请提供一种语音控制方法。该方法可以由语音控制系统执行，所述语音控制系统包括第一客户端、服务端与第二客户端，所述第一客户端运行于移动终端上，所述服务端运行于服务器上，所述第二客户端运行于被控终端上，所述方法包括：

所述第一客户端获取用户的身份信息，向所述服务端发送所述用户的身份信息，以及采集所述用户的语音数据，根据所述语音数据生成语音控制请求，向所述服务端发送所述语音控制请求；

所述服务端对所述用户的身份信息进行验证；当所述用户的身份信息验证通过时，所述服务端根据所述语音控制请求生成控制指令，向所述第二客户端发送所述控制指令；

所述第二客户端指示所述被控终端执行所述控制指令。

该方法通过用户的移动终端自带的麦克风阵列来采集用户的语音数据，利于移动终端或服务器对语音数据进行语音识别，即使被控终端不具有语音芯片和麦克风阵列，用户也能够通过移动终端和服务器对被控终端进行语音控制。而且无需对被控终端进行改造，成本较低，且具有较高可用性。进一步地，移动终端上的第一客户端采集用户的身份信息，并发送给服务器上的服务端。该服务端对用户的身份信息进行验证，在用户的身份信息验证通过的情况下，根据语音控制请求生成控制指令并发送给第二客户端，以便第二客户端指示被控终端执行控制指令。由此减少了非法用户对被控终端进行语音控制的情况，提高了安全性。

在一些可能的实现方式中，所述语音控制请求携带有所述被控终端的标识；

所述方法还包括：

所述第一客户端通过近距离无线通信NFC，获得所述被控终端的标识；或者，

所述第一客户端通过扫描识别码，获得所述被控终端的标识；或者，

所述第一客户端接收所述用户输入的、所述被控终端的标识；或者，

所述第一客户端通过蓝牙连接所述被控终端，获得所述被控终端的标识；或者，

所述第一客户端通过无线局域网或无线热点连接所述被控终端，获得所述被控终端的标识。

如此，第一客户端能够通过多种方式获得被控终端的标识，进而对该标识对应的被控终端进行控制。

在一些可能的实现方式中，所述方法还包括：

所述服务端根据所述用户的身份信息向所述第一客户端返回所述用户的权限信息；

所述第一客户端通过所述移动终端的屏幕呈现与所述用户的权限信息匹配的功能。

如此，服务端能够基于用户的身份信息进行功能推荐，第一客户端通过移动终端的屏幕将与用户对应的功能呈现给用户，以便用户进行选择。

在一些可能的实现方式中，所述方法还包括：

所述服务端向所述第二客户端发送所述用户的身份信息；

所述第二客户端通过所述被控终端的屏幕呈现所述用户的身份信息。

服务端将当前发出语音控制请求的用户的身份信息发送给第二客户端，第二客户端通过被控终端呈现该身份信息，如此，其他用户能够知晓当前控制被控终端的用户的身份。

在一些可能的实现方式中，所述服务端根据所述语音控制请求生成控制指令，包括：

所述服务端根据所述语音控制请求，识别所述用户的意图；

所述服务端根据所述用户的意图，获得所述控制指令。

在一些可能的实现方式中，所述服务端根据所述用户的意图，获得所述控制指令，包括：

所述服务端从与所述被控终端对应的指令集中查找与所述用户的意图匹配的控制指令；当查找成功时，获取所述控制指令，当查找失败时，向所述第一客户端发送提示信息，所述提示信息用于指示所述被控终端不支持所述用户的语音数据所对应的功能；

所述方法还包括：

所述第一客户端通过所述移动终端的屏幕呈现所述提示信息。

如此，能够保障服务端发送给第二客户端的控制指令，被控终端均能够在第二客户端的指示下执行该控制指令，减少了由于被控终端不支持该控制指令而无法执行的情况。当被控终端不支持该控制指令时，服务端不发送该控制指令给第二客户端，如此可以降低服务端和第二客户端之间的网络开销。

第三方面，本申请提供一种第一客户端。所述第一客户端包括：

通信单元，用于获取用户的身份信息，向服务端发送用户的身份信息；

采集单元，用于采集用户的语音数据；

请求生成单元，用于根据用户的语音数据生成语音控制请求；

所述通信单元，还用于向服务端发送该语音控制请求。

在一些实现方式中，所述通信单元用于：

通过近距离无线通信，获得所述被控终端的标识；或者，

通过扫描识别码，获得所述被控终端的标识；或者，

接收所述用户输入的、所述被控终端的标识；或者，

通过蓝牙连接所述被控终端，获得所述被控终端的标识；或者，

通过无线局域网或无线热点连接所述被控终端，获得所述被控终端的标识。

在一些实现方式中，所述装置还包括显示单元；

所述通信单元，用于接收服务端根据所述用户的身份信息返回的用户的权限信息；

所述显示单元，用于通过所述移动终端的屏幕呈现与所述用户的权限信息匹配的功能。

在一些实现方式中，所述通信单元用于：

接收服务端发送的提示信息，所述提示信息用于指示所述被控终端不支持所述用户的语音数据所对应的功能；

所述显示单元，用于通过所述移动终端的屏幕呈现所述提示信息。

第四方面，本申请提供一种服务端，所述服务端包括：

通信单元，用于接收第一客户端发送的用户的身份信息；

验证单元，用于对用户的身份信息进行验证；

所述通信单元，还用于接收所述第一客户端发送的语音控制请求

指令生成单元，用于当用户的身份信息验证通过时，根据语音控制请求生成控制指令；

所述通信单元，还用于向第二客户端发送控制指令。

在一些实现方式中，所述装置还包括确定单元；

所述确定单元，用于根据用户的身份信息确定用户的权限信息；

所述通信单元，用于向所述第一客户端返回所述用户的权限信息。

在一些实现方式中，所述通信单元用于：

向第二客户端发送用户的身份信息。

在一些实现方式中，所述指令生成单元用于：

根据语音控制请求，识别用户的意图；

根据用户的意图，获得控制指令。

在一些实现方式中，所述指令生成单元用于：

从与所述被控终端对应的指令集中查找与所述用户的意图匹配的控制指令；当查找成功时，获取所述控制指令；

所述通信单元，用于当查找失败时，向所述第一客户端发送提示信息，所述提示信息用于指示所述被控终端不支持所述用户的语音数据所对应的功能。

第五方面，本申请提供一种计算机集群。所述计算机集群包括至少一台计算机。所述计算机包括处理器和存储器。所述处理器、所述存储器进行相互的通信。所述处理器用于执行所述存储器中存储的指令，以使得计算机集群执行如第二方面的任一种实现方式所述的语音控制方法。

其中，计算机集群可以包括移动终端、服务器和被控终端。移动终端、服务器和被控终端均包括处理器和存储器。移动终端、服务器和被控终端的处理器执行各自存储器中存储的指令，从而执行如第二方面的任一种实现方式所述的语音控制方法。

第六方面，本申请提供一种计算机可读存储介质。该计算机可读存储介质包括指令，所述指令指示第五方面中的计算机集群执行第二方面的任一种实现方式所述的语音控制方法。

所述指令可以以软件程序包的形式存储在计算机可读存储介质中，所述计算机可读存储介质可以包括多个软件程序包，例如包括第一软件程序包、第二软件程序包和第三软件程序包。其中，当第一软件程序包在计算机上运行时，执行上述第二方面中第一客户端所执行的方法，当第二软件程序包在计算机上运行时，执行上述第二方面中服务端所执行的方法，当第三软件程序包在计算机上运行时，执行上述第二方面中第二客户端所执行的方法。

第七方面，本申请还提供一种包括指令的计算机程序产品。当其在移动终端上运行时，使得移动终端执行上述第二方面或第二方面的任一种实现方式中由第一客户端执行的步骤。

第八方面，本申请还提供一种包括指令的计算机程序产品。当其在服务器上运行时，使得服务器执行上述第二方面或第二方面的任一种实现方式中由服务端执行的步骤。

第九方面，本申请还提供一种包括指令的计算机程序产品。当其在被控终端上运行时，使得被控终端执行上述第二方面或第二方面的任一种实现方式中由第二客户端执行的步骤。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种语音控制系统的系统架构图；

图2为本申请实施例提供的一种语音控制方法的交互流程图；

图3A为本申请实施例提供的一种获取被控终端的标识的示意图；

图3B为本申请实施例提供的一种获取被控终端的标识的示意图；

图3C为本申请实施例提供的一种获取被控终端的标识的示意图；

图4为本申请实施例提供的一种语音控制方法的交互流程图；

图5A为本申请实施例提供的一种功能列表的示意图；

图5B为本申请实施例提供的一种功能列表的示意图；

图6为本申请实施例提供的一种被控终端的显示界面的界面示意图；

图7为本申请实施例提供的一种计算设备的示意图；

图8为本申请实施例提供的一种计算设备的示意图。

具体实施方式

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

首先对本申请实施例中所涉及到的一些技术术语进行介绍。

语音控制是指利用语音对被控设备进行控制，使得被控设备根据语音执行相应的指令。区别于传统的鼠标控制、键盘控制、按钮控制或者是遥控器控制，语音控制无需用户手动键入相关内容，并通过鼠标触发相应控件，也不需要用户事先了解各种按钮或遥控器的功能。用户可以根据自身意图发出相应的语音，对被控设备进行控制。由于语音控制使用门槛较低，控制方式更加便捷，在许多领域得到广泛应用。

被控设备具体是被控制的设备，该被控设备可以是被控终端。被控终端可以为具有显示屏的终端。在一些可能的实现方式中，被控终端还具有操作系统，被控终端通过操作系统执行控制指令，从而实现对应的控制功能。

被控终端包括但不限于智能电视、会议终端等设备。被控终端被广泛应用到工作、生活、学习等不同场地。在生活场地，被控终端常用于电视娱乐、家庭游戏等场景；在工作场地，被控终端大量用于会议室本地白板研讨、内容投屏展示、远程视频会议等场景；在学习场地，被控终端用于教室师生教学、远程教学互动、多屏联动等场景。

利用语音对被控设备进行控制过程中会一般利用到自动语音识别(automaticspeech recognition，ASR)技术和自然语言处理(natural language processing，NLP)技术，下面分别进行介绍。

ASR技术是一种将语音转换为计算机可读文本的技术。ASR的原理具体为，对语音进行特征提取，得到语音特征矢量序列，然后利用声学模型和语言模型对语音特征矢量序列进行解码，从而得到语音对应的文本。

NLP技术是一种对自然语言进行处理，使计算机能够理解人类社会的自然语言，从而实现人机交流的技术。NLP具体可以分为自然语言理解(natural languageunderstanding，NLU)和自然语言生成(natural language generation，NLG)两大类。NLU的原理具体为，对文本进行切分得到字符(token)序列，然后基于token序列使用词向量空间模型、分布式表示模型等文本表示模型，得到token序列的数值向量或矩阵，接着基于数值向量或矩阵，通过分类算法、序列标注算法等获得关键信息，如实体、三元组、意图、事件等等。

目前，很多被控终端如智能电视、会议终端并未内置麦克风阵列或语音芯片。在没有内置麦克风阵列的情况下，被控终端难以采集用户的语音。在没有内置语音芯片的情况下，被控终端难以对语音进行识别。如此导致很多被控终端难以支持语音控制。

有鉴于此，本申请提供了一种语音控制系统。该语音控制系统包括第一客户端、服务端与第二客户端。第一客户端运行于移动终端上，服务端运行于服务器上，第二客户端运行于被控终端上。第一客户端用于获取用户的身份信息，并向服务端发送用户的身份信息，以及采集用户的语音数据，并根据该语音数据生成语音控制请求，向服务器发送该语音控制请求。服务端对用户的身份信息进行验证，当用户的身份信息验证通过时，根据上述语音控制请求生成控制指令，向第二客户端发送该控制指令。第二客户端用于指示被控终端执行上述控制指令。

一方面，采用移动终端自带的麦克风阵列采集用户的语音数据，基于该语音数据可以生成语音控制请求，然后服务端根据语音控制请求对被控终端进行控制。当被控终端没有语音芯片和麦克风阵列时，用户也能够通过移动终端和服务器对被控终端进行语音控制。如此可以使得原生不支持语音控制的被控终端也能够支持语音控制，而且不需要对被控终端进行改造，降低了成本，提高了可用性。

本申请实施例提供的语音控制系统可以用于控制家庭场景或工作场景中的被控终端。例如，在家庭场景中，被控终端可以是智能电视，语音控制系统能够使用户通过语音的方式切换智能电视的频道，调整音量等。如此，家庭成员能够利用各自的移动终端对智能电视进行语音控制。又例如，在工作场景中，被控终端可以是会议终端，语音控制系统能够使用户通过语音的方式调整会议终端的亮度或者将相关文件投屏到会议终端的显示屏等。如此，参会人员能够利用各自的移动终端对会议终端进行语音控制。并且，参会人员的移动终端与该参会人员的距离较近，移动终端采集的参会人员的语音更加清晰，由此可以提高语音识别的准确率。

为了便于本领域技术人员理解，本申请中以下实施例均以对工作场景中的被控终端进行控制为例，对本申请提供的语音控制系统进行介绍。但本申请提供的语音控制系统并不局限于对工作场景中的会议终端进行控制。

接下来，结合附图对本申请实施例提供的语音控制系统的系统架构进行介绍。

参见图1所述的语音控制系统的系统架构图，语音控制系统1000包括第一客户端100、服务端200和第二客户端300。第一客户端100运行于移动终端10上，服务端200运行于服务器20上，第二客户端300运行于被控终端30上。

第一客户端100包括通信单元102、采集单元104和请求生成单元106。其中，通信单元102用于获取用户的身份信息，向服务端200发送用户的身份信息。采集单元104用于采集用户的语音数据。请求生成单元106用于根据用户的语音数据生成语音控制请求，然后通信单元102还用于向服务端200发送该语音控制请求。

服务端200包括通信单元202、验证单元204和指令生成单元206。其中，通信单元202用于接收第一客户端100发送的身份信息。验证单元204用于对用户的身份信息进行验证。通信单元202还用于接收第一客户端100发送的语音控制请求。指令生成单元206用于当用户的身份信息验证通过时，根据语音控制请求生成控制指令。通信单元202还用于向第二客户端300发送该控制指令。

第二客户端300包括通信单元302和控制单元304。其中，通信单元302用于接收服务端200发送的控制指令。控制单元304指示被控终端30执行上述控制指令。由此可以实现语音控制被控终端30。

需要说明的是，在图1所示实施例中，移动终端10是指可移动的、便携终端。移动终端10包括但不限于智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)或者智能穿戴设备。智能穿戴设备包括智能手环、智能手表、智能眼镜等等。被控终端30是被控制的终端。被控终端30可以是具有显示屏的终端，例如可以是智能电视或者会议终端。

图1所示实施例是以服务器20为云环境中的云服务器进行示例说明。云环境是指云服务提供商拥有的，用于提供计算、存储、通信资源的计算机集群。该计算机集群可以是中心云计算集群，也可以是边缘云计算集群。基于此，服务器20可以是中心服务器，也可以是边缘服务器。在一些可能的实现方式中，服务器20也可以是本地数据中心的服务器20。其中，本地数据中心是指处于用户所属的数据中心。

以上介绍了本申请实施例提供的语音控制系统1000，接下来，以一个移动终端10上的第一客户端100通过服务器20上的服务端200对被控终端30进行语音控制的角度，对本申请实施例提供的语音控制方法进行介绍。

参见图2所示的语音控制方法的交互流程图，该方法包括：

S202：第一客户端100获取被控终端30的标识。

被控终端30可以是具有操作系统和屏幕(例如为显示屏)的终端，包括但不限于智能电视或会议终端。被控终端30具有标识，该标识通常具有唯一性，可以用于区别于其他被控终端30。在一些实施例中，被控终端30的标识可以是被控终端30的媒体访问控制(mediaaccess control，MAC)地址、网络地址或者通用唯一识别码(universally uniqueidentifier，UUID)。其中，网络地址具体可以为互联网协议(internet protocol，IP)地址。

第一客户端100可以通过多种方式获取被控终端30的标识，下面分别进行介绍。

方式一：移动终端10靠近被控终端30，如此，移动终端10上运行的第一客户端100可以通过近距离无线通信(near field communication，NFC)获得被控终端30的标识。

在一些可能的实现方式中，移动终端10支持NFC。第一客户端100可以通过移动终端10的NFC模块，获取被控终端30的标识。图3A示出一种通过NFC的方式获取被控终端30的标识的示意图，如图3A所示，用户可以手持移动终端10，使移动终端10靠近被控终端30的NFC感应区32，以使移动终端10与被控终端30建立连接。然后第一客户端100通过该连接获得被控终端30的标识。

图3A以被控终端30内置NFC功能进行示例说明。在一些可能的实现方式中，被控终端30的标识还可以存储在独立的NFC模块，例如是NFC卡中。该NFC卡可以与被控终端30分离。例如在企业会议场景中，该NFC卡可以置于会议室门口的墙壁、门框或者会议室内的桌子等便于用户(例如参会人员)利用移动终端10触碰的位置。

需要说明的是，此处所述的触碰可以是移动终端10与NFC卡的距离小于预设值时，即认为移动终端10与NFC卡发生触碰。当移动终端10与NFC卡发生触碰后，移动终端10与NFC卡建立连接，并获取该NFC卡中存储的被控终端30的标识，进而第一客户端100能够获取该标识。

方式二：移动终端10通过扫描识别码，如此，移动终端10上运行的第一客户端100可以获得被控终端30的标识。

在另一些实现方式中，移动终端10具备图形扫描能力，基于此，移动终端10还可以通过扫描识别码，获取被控终端30的标识。其中，识别码可以是二维码、条形码等。图3B示出一种移动终端10通过扫描二维码的方式获取被控终端30的标识的示意图，如图3B所示，被控终端30的显示屏中预先显示二维码，用户可以手持移动终端10，利用移动终端10扫描二维码，移动终端10上运行的第一客户端100可以从二维码中读取被控终端30的标识。

其中，上述二维码还可以张贴于会议室门口的墙壁、门框或者会议室内的桌椅等便于用户利用移动终端10扫描的位置。用户利用移动终端10扫描该二维码后，移动终端10上运行的第一客户端100从二维码中读取被控终端30的标识。

方式三：移动终端10上运行的第一客户端100接收用户输入的被控终端30的标识。

在另一些实现方式中，移动终端10上运行的第一客户端100还可以直接接收用户输入的被控终端30的标识。图3C示出了一种移动终端10的输入界面的界面示意图，例如可以是第一客户端100的界面。如图3C所示，输入界面34承载有输入控件342和提交控件344，用户可以通过输入控件342输入被控终端30的标识。然后用户通过点击提交控件344，提交被控终端30的标识，以使移动终端10上运行的第一客户端100接收用户输入的被控终端30的标识。

方式四：移动终端10通过蓝牙连接被控终端30，如此，移动终端10上运行的第一客户端100可以通过蓝牙获得被控终端30的标识。

在另一些实现方式中，移动终端10上运行的第一客户端100也可以通过蓝牙模块，获得被控终端30的标识。具体地，移动终端10与被控终端30进行蓝牙配对，配对成功时，移动终端10可以与被控终端30建立连接，移动终端10上运行的第一客户端100可以从被控终端30获得被控终端30的标识。

方式五：移动终端10通过无线局域网或无线热点连接被控终端30，如此，移动终端10上运行的第一客户端100可以获得被控终端30的标识。

在另一些实现方式中，移动终端10可以通过无线局域网或无线热点连接被控终端30，移动终端10上运行的第一客户端100可以获得被控终端30的标识。以无线局域网为例，移动终端10和被控终端30接入同一无线局域网时，移动终端10和被控终端30通过该无线局域网的接入点建立连接，移动终端10上运行的第一客户端100可以通过该连接获取被控终端30的标识。

以上介绍了五种第一客户端100获取被控终端30的标识的方式，本领域技术人员可以选择其中的任一种方式，使第一客户端100获取被控终端30的标识。上述五种方式仅仅是举例说明，本申请不限定第一客户端100获取被控终端30的标识的方式，本领域技术人员还可以根据实际需要选择其他方式。

S204：第一客户端100向服务端200发送用户的身份信息。

为了避免非法用户对被控终端30进行语音控制，导致安全性下降，第一客户端100可以向服务端200发送用户的身份信息，以便服务端200根据用户的身份信息对用户鉴权，以保证对被控终端30进行语音控制的用户均为合法用户，保障安全性。

其中，身份信息是表征用户身份的信息。身份信息可以为用户的生理特征或者社会特征中的任意一种或多种。其中，生理特征包括但不限于用户的人脸特征、指纹特征、虹膜特征等，社会特征包括但不限于用户的姓名、手机号、身份证号、工号、用户的移动终端10的UUID等。

具体地，第一客户端100可以获取用户的身份信息，并将该身份信息发送给服务端200。考虑到用户隐私安全，第一客户端100还可以对身份信息加密，然后向服务端200发送加密的身份信息，例如是对身份信息加密所得的令牌(token)。

S206：服务端200对用户的身份信息进行验证。

服务器20可以维护用户信息库，用户信息库中存储有合法用户的身份信息。合法用户是指符合设定条件的用户，例如是公司内部员工，或者是与公司合作的外部供应商的派驻员工。服务端200可以将用户的身份信息与用户信息库中存储的身份信息进行匹配，从而对用户的身份信息进行验证，即对用户的身份信息进行鉴权。具体地，当用户的身份信息在用户信息库中命中时，表明验证通过，当用户的身份信息在用户信息库中未命中时，表明验证不通过。

需要说明的是，服务端200接收到加密的身份信息如token时，还可以对其解密，得到明文的身份信息，然后再根据明文的身份信息进行身份验证。在一些实施例中，用户信息库中也可以存储加密的身份信息，其中，第一客户端100和服务端200采用相同的加密密钥和加密算法。如此，服务端200也可以通过将加密的身份信息与用户信息库中存储的加密的身份信息进行匹配，从而对用户进行身份验证。

在一些实现方式中，服务端200还可以利用第三方应用的用户认证服务，以对用户进行身份验证。例如，服务端200向第三方应用请求用户认证服务，从而实现身份验证。例如，服务端200可以向第三方应用发送用户的身份信息，以便第三方应用根据用户的身份信息对用户进行身份认证，当认证结果为通过时，服务端200验证通过，当认证结果为不通过时，服务端200验证不通过。

S208：第一客户端100采集用户的语音数据。

具体地，用户可以唤醒移动终端10自带的麦克风阵列，然后发出语音，具体是用户意图使用的功能对应的语音，例如可以是增加音量，降低亮度等，第一客户端100通过移动终端10自带的麦克风阵列采集上述语音，以获得语音数据。

S210：第一客户端100向服务端200发送语音控制请求。

第一客户端100可以根据用户的语音数据生成语音控制请求。进一步地，该语音控制请求还可以携带被控终端30的标识。第一客户端100将该语音控制请求发送给服务端200，以请求对上述标识对应的被控终端30进行语音控制。

其中，语音控制请求中可以包括语音数据或者语音数据对应的文本数据。在一些实现方式中，第一客户端100可以直接将用户的语音数据携带在语音控制请求中，然后向服务端200发送携带语音数据的语音控制请求，如此，服务端200可以利用ASR技术对用户的语音数据进行识别，从而获得用户的语音数据对应的文本数据。在另一些实现方式中，第一客户端100也可以先利用ASR技术对用户的语音数据进行识别，以获取用户的语音数据对应的文本数据，然后将该文本数据携带在语音控制请求中，发送给服务端200，如此可以减少服务端200所在的服务器20的数据处理量，降低服务器20的计算压力。

在一些实施例中，第一客户端100还可以将用户的身份信息携带在语音控制请求中发送给服务端200，以便服务端200可以对语音控制请求中携带的身份信息进行验证，如此可以减少第一客户端100和服务端200交互的次数，减少网络资源占用，提高网络资源利用率。

需要说明的是，本申请不限定S204至S206以及S208至S210的执行顺序，在一些实施例中，S204和S208可以同时执行也可以先后执行。举例说明，执行顺序可以是S208、S210、S204、S206。

S212：用户的身份信息验证通过时，服务端200根据语音控制请求，生成控制指令。

用户的身份信息验证通过，表明用户具有控制权限，例如是具有对被控终端30的控制权限。基于此，服务端200可以根据语音控制请求，生成控制指令，以便通过该控制指令控制被控终端30。

服务端200可以根据语音控制请求，获取对应的指令模板，然后根据该指令模板以及被控终端的标识生成控制指令。当语音控制请求包括语音数据对应的文本数据时，服务端200可以根据该文本数据，从被控终端30的指令集中获取对应的指令模板。当语音控制请求包括语音数据时，服务端200可以先通过ASR对语音数据进行语音识别，得到对应的文本数据，然后根据文本数据，从被控终端30的指令集中获取对应的指令模板。服务器20可以将指令模板和被控终端30的标识进行拼接，从而生成控制指令。

在一些可能的实现方式中，服务端200还可以结合用户的身份信息生成控制指令。例如服务端200可以将指令模板和被控终端30的标识、用户的身份信息进行拼接，从而生成控制指令。如此，被控终端30可以呈现上述身份信息，以便其他用户可以知晓当前控制被控终端30的用户的身份。

S214：服务端200向第二客户端300发送控制指令。

服务端200根据语音控制请求中携带的被控终端30的标识，向该标识对应的被控终端30发送控制指令，第二客户端300能够接收到该控制指令，从而实现对该被控终端30进行语音控制。

在一些可能的实现方式中，服务端200可以通过超文本传输协议(hypertexttransfer protocol，HTTP)请求下发方式，指定被控终端30的IP地址，向第二客户端300发送上述新的控制指令。

S216：第二客户端300指示被控终端30执行控制指令。

第二客户端300指示被控终端30执行控制指令(例如可以是拼接有MAC地址的控制指令)，从而实现相应的功能。例如，第二客户端300可以指示被控终端30执行降低亮度的指令，从而降低被控终端30的显示屏亮度。又例如，第二客户端300可以指示被控终端30执行增加音量的指令，从而增加被控终端30的扬声器音量。

进一步地，被控终端30可以包括控制器和显示屏。第二客户端300可以指示控制器执行上述控制指令，对显示屏进行控制，例如调整亮度、切换屏幕显示内容等等。

需要说明的是，上述S212至S216仅仅是本申请实施例提供的服务端200根据语音控制请求控制被控终端30的一种示意性的实施方式，并不构成对本申请技术方案的限定。

基于上述内容描述，本申请实施例提供了一种语音控制方法。一方面，该方法通过用户的移动终端10自带的麦克风阵列采集用户的语音数据，基于该语音数据可以生成语音控制请求，然后服务端200根据语音控制请求对被控终端进行控制。即使被控终端30没有语音芯片和麦克风阵列，用户也能够通过移动终端10和服务器20对被控终端30进行语音控制。如此可以使得原生不支持语音控制的被控终端30也能够支持语音控制，而且不需要对被控终端30进行改造，降低了成本，提高了可用性。另一方面，服务端200还基于移动终端10上运行的第一客户端100发送的身份信息，对用户进行身份验证，验证通过时，服务端200再根据语音控制请求控制被控终端30，如此可以避免非法用户对被控终端30进行语音控制，提高了安全性。

为了便于用户对被控终端30进行控制，服务端200对用户的身份信息进行验证且通过后，服务端200可以根据用户的身份信息向第一客户端100发送功能列表，第一客户端100向用户展示功能列表，以便用户能够从功能列表选择相应的功能进行语音控制。

下面结合图4所示的语音控制方法的交互流程图进行介绍，该方法包括：

S402：第一客户端100获取被控终端30的标识。

S404：第一客户端100向服务端200发送用户的身份信息。

S406：服务端200对用户的身份信息进行验证；若验证不通过，则执行S408；若验证通过，则执行S410。

S408：服务端200向第一客户端100返回验证失败通知消息。

当验证不通过时，服务端200向第一客户端100返回验证失败通知消息，以提示用户为不合法用户，或者不具有控制权限，因而验证不通过。基于此，第一客户端100可以重新提供身份信息，然后重新执行上述方法步骤。

S410：服务端200向第一客户端100返回用户的权限信息。

用户的权限信息用于表征用户对被控终端30的控制权限。以会议场景为例，公司内部员工与外部供应商的权限可以是不同的。在一些示例中，公司内部员工具有调整亮度和音量、切换屏幕显示内容、文件投屏、打开公司一般文件的权限，外部供应商具有调整亮度和音量、切换屏幕显示内容、文件投屏的权限，但是不具有打开公司一般文件的权限。进一步地，公司内部不同员工的权限也可以是不同的，公司内部普通员工具有打开公司一般文件的权限，公司内部高层员工还具有打开公司机密文件的权限。

考虑到安全性，针对不同的用户，服务端200根据其身份信息设置不同的权限。例如，服务端200预先配置不同用户的控制权限，如此，服务端200可以根据用户的身份信息确定用户的权限信息，然后向第一客户端100返回该权限信息。

在一些实现方式中，用户的权限信息还可以动态调整，如此可以实现需求和安全的均衡。以会议场景为例，服务端200可以根据会议过程中参会人员的需求为参会人员动态分配权限信息。举例说明，当公司员工张三完成对业务总结的发言后，非公司员工李四也需要针对下半年的合作项目进行展示。则服务端200可以临时授权非公司员工李四文件翻页功能，以使李四能够对相关的文件翻页，当李四完成对合作项目的展示后，服务端200可以取消授权李四文件翻页功能。

S412：第一客户端100根据用户的权限信息，向用户呈现与用户匹配的功能。

被控终端30具有至少一种语音控制功能，例如被控终端30可以具有切换页面、文件投屏等语音控制功能。与用户匹配的功能是指该用户能够使用的功能。用户的权限信息不同时，第一客户端100向用户呈现不同的功能。

在一些实现方式中，第一客户端100根据用户的权限信息，确定与该权限信息匹配的功能，然后将该功能呈现给用户，如此用户能够基于第一客户端100呈现的功能选择相应功能对被控终端30进行控制。

图5A和图5B分别示出了公司员工和非公司员工能够使用的功能列表的示意图。由图5A和图5B可知，移动终端10上运行的第一客户端100向不同用户呈现不同的功能列表，例如向公司员工呈现较多的功能，包括一键入会、双语字幕、截屏、调整音量、文件投屏、打开网页、文件翻页、调整亮度等，向非公司员工呈现较少的功能，包括一键入会、双语字幕、调整音量等。

其中，S408至S412为可选的步骤。在一些实施例中，第一客户端100和服务端200也可以不执行上述步骤。

S414：第一客户端100采集用户的语音数据。

用户可以根据功能列表中展示的功能项，通过语音选择触发相应的功能。例如，用户可以发出语音“增加音量”，移动终端10上运行的第一客户端100采集用户的语音数据，以便通过语音数据实现对被控终端30的音量控制。又例如，用户可以发出语音“加入会议”，移动终端10上运行的第一客户端100采集用户的语音数据，以便通过语音数据控制被控终端30加入会议。

S416：第一客户端100向服务端200发送语音控制请求。

具体地，第一客户端100可以将用户的语音数据携带在语音控制请求中，然后向服务端200发送语音控制请求。在一些实施例中，第一客户端100也可以利用ASR对语音数据进行识别，得到对应的文本数据，然后第一客户端100可以将语音数据对应的文本数据携带在语音控制请求中，然后向服务端200发送语音控制请求。

此外，第一客户端100也可以先利用ASR对用户的语音数据进行识别，得到该语音数据对应的文本数据，然后利用NLP对该文本数据进行处理，从而识别出用户的意图。第一客户端100可以在语音控制请求中直接携带意图(或者是意图码)，而不必携带语音数据或文本数据，然后向服务端200发送语音控制请求。其中，意图的数据量小于文本数据或语音数据的数据量，如此可以减少传输开销，降低带宽资源占用。并且，服务端200可以直接从语音控制请求获取用户的意图，避免了该服务端200所在的服务器20耗费大量的算力进行意图识别，降低了服务器20的计算压力。

在一些可能的实现方式中，用户也可以通过点击功能列表中的功能项，触发对被控终端30的控制。以公司员工对应的功能列表为例，显示界面52承载有提交控件522，用户可以根据显示界面52上的提示信息，点击显示界面52上显示的功能列表524中的功能项以选中所要使用的功能，然后通过提交控件522向服务端200提交携带上述功能标识的控制请求，以控制被控终端30。例如，公司员工可以点击显示界面52上显示的“一键入会”功能项，第一客户端100响应于用户的上述操作，生成控制请求，并向服务端200发送控制请求，服务端200根据该控制请求，控制被控终端30快速加入会议中。

S418：服务端200根据语音控制请求，识别用户的意图。

当语音控制请求包括用户的语音数据时，服务端200可以利用ASR将用户的语音数据转换为该语音数据对应的文本数据，然后服务端200利用NLP对该语音数据对应的文本数据进行处理，从而识别用户的意图。

当语音控制请求包括用户的语音数据对应的文本数据时，服务端200可以直接利用NLP对该文本数据进行处理，从而识别用户的意图。如此，可以避免服务端200所在的服务器20耗费大量算力进行语音识别，降低服务器20的计算压力。

当语音控制请求包括用户的意图时，服务端200可以直接从语音控制请求中获取用户的意图，而无需进行语音识别、意图识别等操作，大幅度降低了计算量，降低了服务器20的计算压力。

本申请实施例不限定服务端200获取用户的意图的方式，本领域技术人员可以根据实际需要选择合适的方式，使服务端200获取用户的意图。例如，第一客户端100直接发送用户的意图给服务端200或者服务端200根据第一客户端100发送的语音控制请求识别用户的意图。

S420：服务端200根据用户的意图，获得控制指令。

具体地，服务器20存储有至少一个被控终端30的指令集。例如，服务端200可以存储不同品牌、不同系列、不同型号的被控终端30的指令集。指令集中包括被控终端30支持的至少一个控制指令，或者用于生成控制指令的指令模板。该控制指令是被控终端30可识别的指令，例如可以是二进制指令。

服务端200可以根据被控终端30的标识，确定被控终端30的指令集，然后从被控终端30的指令集中查找与用户的意图匹配的控制指令或者指令模板，当查找成功时，服务端200可以获取该控制指令，或者获取控制指令的指令模板，然后根据指令模板生成对应的控制指令。当查找失败时，服务端200可以向第一客户端100发送提示信息，第一客户端100通过移动终端10的屏幕呈现提示信息。该提示信息具体可以用于向用户提示被控终端30不支持用户的语音数据对应的功能，例如被控终端30不支持文件投屏等功能。

在一些可能的实现方式中，服务端200也可以先根据意图查找与该意图匹配的至少一个控制指令或者指令模板，然后从至少一个控制指令或者指令模板中，获取与被控终端30的标识匹配的控制指令或者指令模板，其中，指令模板可以用于生成对应的控制指令，如此服务端200可以通过该控制指令控制对应的被控终端30。

其中，服务端200可以预先建立意图和指令集中控制指令的映射关系，并存储在服务器20中，如此，服务端200可以根据该映射关系，查找与用户的意图匹配的控制指令。进一步地，为了提高查找效率，服务端200也可以建立意图码和指令集中控制指令的映射关系，并存储在服务器20中，服务端200识别出用户的意图后，确定该意图对应的意图码，然后通过意图码查找与用户的意图匹配的控制指令。

其中，意图码具体可以表示为字符串，如数字串、字母串或者是数字和字母的混合串。在一些实现方式中，意图码可以为VI(volume increase)，用于表征增加音量，意图码也可以为VD(volume decrease)，用于表征减小音量。

S422：服务端200向第二客户端300发送控制指令。

S424：第二客户端300指示被控终端30执行控制指令。

其中，S422至S424的具体实现可以参见图2所示实施例相关内容描述，在此不再赘述。

S426：服务端200向第二客户端300发送用户的身份信息。

在一些实施例中，身份信息也可以和指令模板拼接，生成控制指令。服务端200通过下发控制指令，从而实现一并下发用户的身份信息。

S428：第二客户端300指示被控终端30呈现用户的身份信息。

在一些可能的实现方式中，服务端200可以将用户的身份信息发送给第二客户端300。第二客户端300指示被控终端30执行上述控制指令时，还可以在显示屏上显示用户的身份信息，以向其他用户提示该用户发出了上述控制指令。例如，被控终端30可以呈现当前控制被控终端30的用户的姓名、部门等，如此，参会人员可以知晓当前对被控终端30进行控制(例如文件投屏等)的用户。

图6示出了一种被控终端30的显示界面的界面示意图，如图6所示，显示界面62显示有当前对被控终端30进行语音控制的用户的身份信息，该身份信息可以是用户的姓名、昵称或者头像中的任意一种或多种。在图6的示例中，用户的身份信息通过显示界面62中的提示框622呈现，提示框622中包括用户头像和姓名。其他参会人员能够根据该提示框622得知当前对被控终端30进行控制的用户为张三。

其中，S426和S428为可选的步骤，在一些实施例中，也可以不执行上述步骤，服务端200也可以不发送用户的身份信息给第二客户端300，进而第二客户端300不指示被控终端30呈现用户的身份信息或者指示被控终端30不呈现用户的身份信息。

需要说明的是，本申请不限定上述S422和S426的执行顺序，S422和S426可以同时执行也可以先后执行，相应的，S424和S428也可以同时执行也可以先后执行。

需要说明的是，图4所示的交互流程图仅仅是本申请实施例提供的示意性的实施方式，并不构成对本申请技术方案的限定。在本实施例中，主要介绍了与图2所示的交互流程图的不同之处，相同或相似的部分，可以参见上述实施例以及图2。

基于上述内容描述，本实施例提供了一种语音控制方法。该方法中，第一客户端100先向服务端200发送用户的身份信息，服务端200根据用户的身份信息确定该用户权限信息，并反馈给第一客户端100，如此第一客户端100可以基于该权限信息向用户推荐相应的功能，为用户提供了一些可选功能项，增强了用户体验。进一步地，在协同场景下，服务端200还可以将当前对被控终端30进行语音控制的用户的身份信息发送给第二客户端300，第二客户端指示被控终端30呈现上述用户的身份信息，如此其他用户能够知晓当前控制被控终端30的用户的身份，提高了用户体验。

上文结合图1至图6对本申请实施例提供的语音控制系统以及语音控制方法进行了详细介绍，下面将结合附图对本申请实施例提供的装置、设备进行介绍。

本申请实施例还提供了一种第一客户端100，其运行在移动终端10上，用于实现对被控终端30的语音控制。下面结合图1对该第一客户端100进行介绍。如图1所示，第一客户端100包括：

通信单元102，用于获取用户的身份信息，向服务端发送用户的身份信息；

采集单元104，用于采集用户的语音数据；

请求生成单元106，用于根据用户的语音数据生成语音控制请求；

通信单元102，还用于向服务端发送该语音控制请求；

在一些实现方式中，所述通信单元102用于：

通过近距离无线通信NFC，获得所述被控终端的标识；或者，

通过扫描识别码，获得所述被控终端的标识；或者，

接收所述用户输入的所述被控终端的标识；或者，

在一些实现方式中，所述第一客户端100还包括显示单元；

所述通信单元102，用于接收服务端根据所述用户的身份信息返回的用户的权限信息；

在一些实现方式中，所述通信单元102用于：

根据本申请实施例的第一客户端100可对应于执行本申请实施例中描述的方法，并且第一客户端100的各个模块/单元的上述和其它操作和/或功能分别为了实现图2和图4所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种服务端200，该服务端200运行在服务器20上，用于实现对被控终端30的语音控制。下面结合图1对该服务端200进行介绍。如图1所示，服务端200包括：

通信单元202，用于接收第一客户端发送的用户的身份信息；

验证单元204，用于对用户的身份信息进行验证；

所述通信单元202，还用于接收所述第一客户端发送的语音控制请求；

指令生成单元206，用于当用户的身份信息验证通过时，根据语音控制请求生成控制指令；

通信单元202，还用于向第二客户端发送控制指令。

在一些实现方式中，所述服务端200还包括：

确定单元，用于根据用户的身份信息确定用户的权限信息；

所述通信单元202，还用于向所述第一客户端返回所述用户的权限信息。

在一些实现方式中，所述通信单元202还用于：

向第二客户端发送用户的身份信息。

在一些实现方式中，所述指令生成单元206用于：

根据语音控制请求，识别用户的意图，根据用户的意图，获得控制指令。

在一些实现方式中，所述指令生成单元206用于：

所述通信单元202，用于当查找失败时，向所述第一客户端发送提示信息，所述提示信息用于指示所述被控终端不支持所述用户的语音数据所对应的功能。

根据本申请实施例的服务端200可对应于执行本申请实施例中描述的方法，并且服务端200的各个模块/单元的上述和其它操作和/或功能分别为了实现图2和图4所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种移动终端10，该移动终端10具体用于实现上述第一客户端100的功能。移动终端10可以为智能手机、平板电脑、PDA或者智能手环、智能手表、智能眼镜等智能穿戴设备。下面结合附图，对上述移动终端10的硬件实现进行详细说明。

图7提供了一种移动终端10的结构示意图，如图7所示，移动终端10包括总线701、处理器702、通信接口703和存储器704。处理器702、存储器704和通信接口703之间通过总线701通信。

总线701可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器702可以为中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

通信接口703用于与外部通信。例如，通信接口703可以用于向服务端200发送的用户的身份信息，以及向服务端200发送语音控制请求，或者是接收服务端200发送的用户的权限信息等。

存储器704可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器704还可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘驱动器(hard diskdrive，HDD)或固态驱动器(solid state drive，SSD)。

存储器704中存储有可执行代码，处理器702执行该可执行代码以执行前述语音控制方法。

具体地，在实现图1所示实施例的情况下，且图1实施例中所描述的第一客户端100的各单元为通过软件实现的情况下，执行图1中的采集单元104和请求生成单元106功能所需的软件或程序代码存储在存储器704中。通信单元102功能通过通信接口703实现。

具体地，通信接口703获取用户的身份信息，并向所述服务端200发送所述用户的身份信息。处理器702执行存储器704中存储的采集单元104对应的程序代码，以执行采集用户的语音数据的步骤，处理器702执行存储器704中存储的请求生成单元106对应的程序代码，以执行根据所述语音数据生成语音控制请求的步骤。总线701将处理器704生成的语音控制请求传输至通信接口703。通信接口703还用于向服务端200发送上述语音控制请求，以控制被控终端30。

在一些可能的实现方式中，处理器702还用于执行图2或图4所示实施例中任意一种实现方式对应的方法步骤。

本申请实施例还提供了一种服务器20，该服务器20具体用于实现上述服务端200的功能。服务器20可以为云环境中的云服务器，例如是中心服务器、边缘服务器，也可以是本地数据中心中的服务器。下面结合附图，对上述服务器20的硬件实现进行详细说明。

图8提供了一种服务器20的结构示意图，如图8所示，服务器20包括总线801、处理器802、通信接口803和存储器804。处理器802、存储器804和通信接口803之间通过总线801通信。

其中，总线801、处理器802、通信接口803和存储器804的具体实现可以参见图7所示实施例相关内容描述。存储器804中存储有可执行代码，处理器802执行该可执行代码以执行前述语音控制方法。

具体地，在实现图1所示实施例的情况下，且图1实施例中所描述的服务端200的各单元为通过软件实现的情况下，执行图1中的验证单元204和指令生成单元206功能所需的软件或程序代码存储在存储器804中。通信单元202功能通过通信接口803实现。

具体地，通信接口803接收第一客户端100发送的身份信息。处理器802执行存储器804中存储的验证单元204对应的程序代码，以执行对用户的身份信息进行验证的步骤。通信接口803还接收第一客户端100发送的语音控制请求，该语音控制请求通过总线传输至处理器802。处理器802执行存储器804中存储的指令生成单元206对应的程序代码，以执行身份验证通过时，根据所述语音控制请求生成控制指令的步骤。总线801将处理器804生成的控制指令传输至通信接口803。通信接口803还用于向第二客户端300发送上述控制指令，以控制被控终端30。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

该计算机可读存储介质中包括多个软件程序包，例如包括第一软件程序包、第二软件程序包和第三软件程序包。其中，第一软件程序包在计算设备上运行时，执行上述第一客户端100所执行的语音控制方法，第二软件程序包在计算设备上运行时，执行上述服务端200所执行的语音控制方法，第三软件程序包在计算设备上运行时，执行上述第二客户端300所执行的语音控制方法。

本申请实施例还提供了一种计算机程序产品。所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品可以为一个软件安装包，在需要使用前述语音控制方法的任一方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

Claims

1.一种语音控制系统，其特征在于，所述语音控制系统包括第一客户端、服务端与第二客户端，所述第一客户端运行于移动终端上，所述服务端运行于服务器上，所述第二客户端运行于被控终端上；

所述第一客户端，用于获取用户的身份信息，并向所述服务端发送所述用户的身份信息；采集所述用户的语音数据，并根据所述语音数据生成语音控制请求，向所述服务端发送所述语音控制请求；

所述服务端，用于对所述用户的身份信息进行验证；当所述用户的身份信息验证通过时，根据所述语音控制请求生成控制指令，向所述第二客户端发送所述控制指令；

所述第二客户端，用于指示所述被控终端执行所述控制指令。

2.根据权利要求1所述的系统，其特征在于，所述语音控制请求包括所述被控终端的标识；

所述第一客户端，用于：

通过近距离无线通信NFC，获得所述被控终端的标识；或者，

通过扫描识别码，获得所述被控终端的标识；或者，

接收所述用户输入的、所述被控终端的标识；或者，

3.根据权利要求1或2所述的系统，其特征在于，

所述服务端，用于根据所述用户的身份信息向所述第一客户端返回所述用户的权限信息；

所述第一客户端，用于通过所述移动终端的屏幕呈现与所述用户的权限信息匹配的功能。

4.根据权利要求1至3任一项所述的系统，其特征在于，

所述服务端，用于向所述第二客户端发送所述用户的身份信息；

所述第二客户端，还用于通过所述被控终端的屏幕呈现所述用户的身份信息。

5.根据权利要求1至4任一项所述的系统，其特征在于，

所述服务端，用于根据所述语音控制请求，识别所述用户的意图；根据所述用户的意图，获得所述控制指令。

6.根据权利要求5所述的系统，其特征在于，

所述服务端，用于从与所述被控终端对应的指令集中查找与所述用户的意图匹配的控制指令；当查找成功时，获取所述控制指令，当查找失败时，向所述第一客户端发送提示信息，所述提示信息用于指示所述被控终端不支持所述用户的语音数据所对应的功能；

所述第一客户端，用于通过所述移动终端的屏幕呈现所述提示信息。

7.一种语音控制方法，其特征在于，应用于语音控制系统，所述语音控制系统包括第一客户端、服务端与第二客户端，所述第一客户端运行于移动终端上，所述服务端运行于服务器上，所述第二客户端运行于被控终端上，所述方法包括：

所述第二客户端指示所述被控终端执行所述控制指令。

8.根据权利要求7所述的方法，其特征在于，所述语音控制请求携带有所述被控终端的标识；

所述方法还包括：

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求7至9任一项所述的方法，其特征在于，所述方法还包括：

所述服务端向所述第二客户端发送所述用户的身份信息；

11.根据权利要求7至10任一项所述的方法，其特征在于，所述服务端根据所述语音控制请求生成控制指令，包括：

所述服务端根据所述语音控制请求，识别所述用户的意图；

所述服务端根据所述用户的意图，获得所述控制指令。

12.根据权利要求11所述的方法，其特征在于，所述服务端根据所述用户的意图，获得所述控制指令，包括：

所述方法还包括：

13.一种计算机可读存储介质，其特征在于，包括指令，所述指令指示计算机集群执行如权利要求7至12中任一项所述的方法。

14.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机集群上运行时，使得所述计算机集群执行如权利要求7至12中任一项所述的方法。