CN109474843B

CN109474843B - 语音操控终端的方法、客户端、服务器

Info

Publication number: CN109474843B
Application number: CN201710804781.3A
Authority: CN
Inventors: 郜光耀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2021-09-03
Anticipated expiration: 2037-09-08
Also published as: WO2019047878A1; US11227598B2; US20200202860A1; EP3680896B1; CN109474843A; EP3680896A4; EP3680896A1

Abstract

本申请提供一种语音操控终端的方法、第一客户端、第一服务器，所述方法包括：响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

Description

语音操控终端的方法、客户端、服务器

技术领域

本申请互联网技术领域，尤其是涉及一种语音操控终端的方法、第一客户端、第一服务器。

背景技术

随着人们生活水平的提高，电视设备(例如智能电视、电视盒子)在家庭中的普及率日益广泛，电视设备在人们的日常休闲与娱乐生活中起到越来越重要的作用。电视设备是指具有开放式平台，搭载了操作控制系统以及能够安装应用程序的新电视产品，因此用户在欣赏普通电视内容的同时，还可以自行安装和卸载各类应用软件，实现对功能进行扩充和升级。

发明内容

本申请提供了以下技术方案，能够通过向第一终端输入语音而实现对第二终端的操控。

一方面，本申请实例提供了一种语音操控终端的方法，包括：

响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息；

在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；

在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

在一些实例中，所述将所述控制指令发送至所述第二客户端，包括：

将所述控制指令发送至所述第二终端中的代理模块，以使所述代理模块将所述控制指令发送至所述第二客户端。

另一方面，本申请实例提供了一种语音操控终端的方法，包括：

在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本；其中，所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息；

对所述文本进行分词，得到分词结果；

根据所述分词结果和所述场景信息，形成携带有待执行的可操作对象信息的控制指令；

将所述控制指令通过所述第一客户端发送至第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

在一些实例中，所述方法还包括：将所述文本发送至所述第一客户端，以使所述第一客户端展示所述文本。

另一方面，本申请实例提供了一种第一客户端，包括：

响应模块，响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息；

第一发送模块，在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；

第二发送模块，在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

另一方面，本申请实例提供了一种第一服务器，包括：

文本确定模块，在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本；其中，所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息；

文本分词模块，对所述文本进行分词，得到分词结果；

指令形成模块，根据所述分词结果和所述场景信息，形成携带有待执行的可操作对象信息的控制指令；

第三发送模块，将所述控制指令通过所述第一客户端发送至第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

另一方面，本申请实例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

基于本申请实例提供的以上技术方案，用户触发第一客户端的语音录制控件后，第一客户端便录制语音并向第二终端的第二客户端发送场景信息查询指令，当第一客户端接收到第二客户端返回的场景信息后，将场景信息以及用户输入的音频数据发送至第二客户端的后台服务器即第一服务器，第一服务器确定第一音频数据的文本，进而分词，将分词结果与场景信息进行匹配，并根据匹配结果形成控制指令发送给第一客户端，当第一客户端接收到控制指令时，将控制指令发送至第二客户端，从而使第二客户端执行相应的动作，整个过程中，用户只需要通过第一客户端上的语音录制控件输入语音，为用户对第二终端的操作提供了极大的便捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实例涉及的一种系统构架图；

图2是本申请一实例中语音操控终端的方法的流程示意图；

图3a是本申请一实例中第一客户端展示的一个界面示意图；

图3b是本申请一实例中智能电视展示的一个界面示意图；

图4是本申请一实例涉及的一种系统架构图；

图5是本申请一实例中语音操控终端的方法的流程示意图；

图6a是本申请一实例中智能电视展示的一个界面示意图；

图6b是本申请一实例中第一客户端展示的一个界面示意图；

图7是本申请一实例中第一客户端的结构框图；

图8是本申请一实例中第一服务器的结构框图；

图9是本申请一实例中语音操控终端的方法的整体交互示意图；

图10是本申请一实例中计算机设备的结构框图。

具体实施方式

本申请提出了一种语音操控终端的方法，该方法应用的系统架构如图1所示。该系统架构包括：第一终端101、第二终端102和第一服务器103，第一终端101和第二终端102之间可以通过局域网104连接，第一终端101与第一服务器103之间可以通过互联网105连接，其中：

上述第一终端101，可以为移动终端，例如智能手机、平板电脑等，其上安装有各种应用软件的客户端软件，用户可以通过上述第一终端登录并使用这些应用软件的客户端，例如，语音助手等客户端。

上述第二终端102，可以为电视设备，例如搭载有android或其他系统的智能电视、与传统电视连接的电视盒子，该电视盒子搭载有android或其他系统，传统电视相当于电视盒子的显示器。第二终端上可安装有多种应用程序，用户可以通过遥控器操控这些应用程序，例如，用户可以通过遥控器打开安装在智能电视上的腾讯视频客户端，找到想要观看的视频，然后进行播放、快进或者快退等操作。再例如，用户可以通过遥控器打开安装在电视盒子上的某一音乐软件(例如，qq音乐)的客户端，然后在传统电视展示的界面中对本地或在线的某一首音乐进行播放、收藏等操作。

上述第一服务器103，是指第二终端上安装的客户端的后台服务器，例如，第二终端上某视频客户端对应的后台服务器、某音乐软件的后台服务器，若在第二终端上操作的是视频客户端，则对应的第一服务器为该视频客户端对应的后台服务器，若在第二终端上操作的是一个音乐软件的客户端，则对应的第一服务器为该音乐软件的后台服务器，也就是说，第一服务器是在第二终端上操作的客户端对应的后台服务器。第一服务器具体可以是一台服务器，也可以是多台服务器形成的服务器集群。

基于上述系统架构，本申请一个实例提供一种语音操控终端的方法，该方法可以由第一终端执行，具体可以由第一终端上的第一客户端执行，如图2所示，该方法包括：

S201、响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息；

可理解的是，为使第一终端上的第一客户端与第二终端之间能够进行信息交互，第一终端上的第一客户端需要与第二终端连接，具体可以通过局域网连接。例如，图3a所示的手机界面所属的客户端与图3b示出的智能电视连接，其中图3a示出的客户端为一个语音助手的客户端，图3b示出的智能电视为用户客厅的小米电视，此时智能电视上展示了视频客户端的综艺界面的展示界面，在该界面中可以看到有“明日之子”、“奔跑吧”这些综艺节目的名称、海报、更新日期等信息。第一客户端的语音录制控件301在被触发后便会向客厅的小米电视发送场景信息查询指令。

语音录制控件301，可以采用多种形式，例如，设置在一个界面上的虚拟按键，当用户长按该按键，第一客户端便会检测周围的声音，并对检测到的声音进行录制，当用户放开该按键时，录制结束，至此录制的声音形成了第一音频数据。当然，本申请实例中的语音录制控件的功能不仅仅是语音录制的作用，还会向与第一客户端连接的第二终端发送场景信息查询指令。例如，当用户按下语音录制控件时，第一客户端便会向客厅的小米电视发送场景信息查询指令。实际上，用户通过第一客户端录制的第一音频数据为对第二终端进行操作的语音指令。在第一客户端的展示界面中，还可以展示进行语音录制的提示信息，例如，如图3a所示，提示用户：您可以这样问我：播放三生三世、打开观看历史、搜索杨幂的电视剧，用户可以参考提示信息发出语音操作指令。

第二客户端是安装在第二终端上的客户端，由于在第二终端上可能安装有多个客户端，因此需要选择其中一个或多个客户端作为第二客户端，其中一种方式为：将电视机(电视盒子连接的传统电视或智能电视)当前展示的界面对应的客户端作为第二客户端。例如，用户客厅的小米电视展示的是腾讯视频客户端的某个界面，第一客户端发送的场景信息查询指令便会被发送至小米电视中的腾讯视频客户端，当腾讯视频客户端接收到该查询指令后，会把腾讯视频客户端的场景信息返回至第一客户端。

所谓的场景信息，包括第二客户端的至少一个界面中至少一个可操作对象信息。举例来说，对于腾讯视频客户端来说，有综艺节目的展示界面、电视剧的展示界面、电影的展示界面、纪录片的展示界面等，在综艺界面的展示界面中有多个近期热播的综艺节目，这些综艺节目以海报、节目名称等方式展示出来。同样的，电视剧的展示界面中有多部近期热播的电视剧，这些电视剧也是以海报、电视剧名称的方式展示出来等。当然，还有观看记录、收藏、搜索、意见反馈、设置等，观看记录、收藏、搜索、意见反馈、设置这些可以作为腾讯视频客户端的全局选项。当用户点击综艺节目展示界面中某综艺界面的海报时，便会进入该综艺界面的播放界面，当用户点击收藏时，便会进入收藏的界面，该界面中展示有用户收藏的多个视频的相关信息。因此不论是电视剧展示界面中的电视剧、综艺界面展示界面中的综艺界面等，还是观看记录、收藏、搜索、意见反馈、设置这些全局选项，均可以作为视频客户端的可操作对象，也就是说，如果该腾讯视频客户端接收到场景信息查询指令，腾讯视频客户端返回的场景信息可以包括多个综艺节目的名称、多个电视剧的名称、多部电影的名称、多个纪录片的名称，还可以包括观看记录、收藏、搜索、意见反馈、设置等。

以上场景信息是以一个视频客户端为例进行说明，由于第二客户端不仅限于视频客户端，还可以是其他的客户端，例如某音乐客户端、新闻客户端等。对于音乐客户端来说，有排行的展示界面、歌单的展示界面、MV的展示界面、本地的展示界面，在排行的展示界面中有多首按照热度排名的歌曲，在歌单的展示界面中有多首按照歌曲类型分类的歌曲，在MV的展示界面有多首有MV的歌曲，在本地的展示界面中有多首已下载到本地的歌曲。其中，排行的展示界面、歌单的展示界面、MV的展示界面中均展示的是在线歌曲，本地的展示界面展示的是本地歌曲。当然，也包括设置、问题与建议、检查更新等全局选项，不论是在线歌曲、是本地歌曲，还是全局选项，均可以作为该音乐客户端的可操作对象，也就是说，如果该音乐客户端接收到场景信息查询指令，返回的场景信息可以包括多首在线或本地的歌曲名称，也可以包括设置、问题与建议、检查更新等。

S202、在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；

第一服务器，为第二客户端的后台服务器，例如，假设第二客户端为某一视频客户端，则第一服务器为该视频客户端的服务器；假设第二客户端为某一新闻客户端，则第一服务器为该新闻客户端的服务器。

所谓的待执行的可操作对象信息，可包括可操作对象的名称，例如，用户在第一客户端上输入的语音为“打开历史记录”，则待执行的可操作对象信息中包括“历史记录”，当第二客户端接收到携带有待执行的可操作对象信息的控制指令时，便会打开历史记录，即展示历史记录的界面，从该界面中用户可以看到近期观看的媒体内容。再例如，用户在第一客户端上输入的语音为“我想看西游记”，则待执行的可操作对象信息中包括“西游记”，当第二客户端接收到携带有该待执行的可操作对象信息的控制指令时，便会默认为是要对西游记执行播放动作。当然，由于对第二客户端的操作不仅仅限于打开、播放这种操作，当然还有下载、前进、后退等这些操作，因此待执行的可操作对象信息中还可以包括对可操作对象执行的动作等信息。例如，用户在第一客户端语音输入“下载西游记主题曲”，第一服务器基于该音频数据以及第二客户端的场景信息，生成控制指令中的待执行的可操作对象信息不仅包括“西游记主题曲”，还包括“下载”，当第二客户端接收到该控制指令时，不会执行播放西游记主题曲的动作，而是执行下载西游记主题曲的动作。

这里，对第一服务器根据场景信息和第一音频数据形成控制指令的过程可以采用多种方式实现，对此本申请实例不做限定。

S203、在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

举例来说，假设与用户第一终端的第一客户端连接的智能电视上展示一个视频客户端的某一个界面，当用户按住的第一客户端上的语音录制控件说“我想看西游记”时，第一客户端向第二终端中的第二客户端发送场景信息查询指令，此时智能电视展示的视频客户端会将包括各种电视剧片名、电影片名、综艺节目名称、一些全局选项等的场景信息返回给第一客户端，当第一客户端接收到场景信息后，会将场景信息以及“我想看西游记”的音频数据发送给视频客户端的后台服务器—第一服务器，第一服务器接收到场景信息和音频数据后根据音频数据了解到用户想要看西游记，然后结合场景信息，生成控制指令，然后把控制指令返回给第一客户端，进而第一客户端将控制指令发送给第二客户端，以使第二客户端执行打开《西游记》的媒体资源的播放界面的动作。当然，如果，与“西游记”相关的媒体资源不止一个时，例如，第二客户端根据控制指令查找到的与“西游记”相关的媒体资源有电视剧《西游记》、电视剧《新西游记》、动画片《西游记》、电影《西游记之大闹天宫》、《西游记之大圣归来》等等，而且与西游记相关的电视剧还有多集，此时第二客户端可以将这些媒体资源的相关信息展示在智能电视上或者与电视盒子连接的传统电视机上，以供用户选择，在用户通过语音或者遥控器等方式选择其中某媒体资源后，再执行播放动作。当第二客户端执行相应的动作成功与否，还可以给用户一些相应的提示。

基于上述描述可知，本申请实例提供的语音操控终端的方法，用户触发第一客户端的语音录制控件，第一客户端便录制语音并向第二终端的第二客户端发送场景信息查询指令，当第一客户端接收到第二客户端返回的场景信息后，将场景信息以及用户输入的音频数据发送至第二客户端的后台服务器，该服务器根据接收到的信息形成一个控制指令，然后通过第一客户端将该指令发给第二客户端，使第二客户端执行相应的动作。整个过程，用户只需要通过第一终端的第一客户端输入语音，进而控制第二终端执行相应的动作，例如，以电视设备作为第二终端，则不需要通过遥控器一步步的操作，即减少了遥控器的繁琐操作，因此为用户对第二终端的操作提供了极大的便捷。

在一些实例中，可以在第二终端上安装一个代理模块，例如，在智能电视或电视盒子上安装一个电视代理模块，所谓的电视代理模块实际上也是一个应用程序，而且是一个对用户不可见的应用程序，可作为智能电视或电视盒子上安装的其他应用程序与外界交互的桥梁，即在智能电视或电视盒子上安装的其他应用程序通过代理模块与外界进行交互，这样便于对智能电视或电视盒子中的应用程序与外界的交互进行管理。在实际应用中，可先将第二终端中的可参与语音控制的应用程序(例如，视频客户端、音乐客户端、新闻客户端等)在代理模块中进行注册，如果某应用程序没有在代理模块中注册，该应用程序则不能参与语音控制，也就是说，用户不能通过语音控制该应用程序执行动作。当代理模块在接收到外界发送来的指令时，会通过广播的方式将指令发送给相应的应用程序，例如，在广播时指定包名，只将指令发送给前台应用程序，这样只有前台应用程序能够接收到指令，所谓的前台应用程序就是在第二终端的当前展示界面所属的客户端。

在第二终端中设置代理模块的基础上，S201中第一客户端向第二终端上的第二客户端发送场景信息查询指令过程可以为：第一客户端将所述场景信息查询指令发送至所述第二终端中的代理模块，以使所述代理模块将所述场景信息查询指令发送至所述第二客户端。也就是说，在用户触发第一客户端的语音录制控件后，第一客户端向第二终端中的代理模块发送场景信息查询指令，代理模块在接收到场景信息查询指令之后，会把场景信息查询指令发送给第二客户端。当然，当第二客户端接收到代理模块发送来的场景信息查询指令后，会将场景信息返回给代理模块，当代理模块在接收到场景信息后，会把场景信息发送给第一客户端。同样的，在步骤S203中，第一客户端将控制指令发送给第二客户端的过程可以为：将所述控制指令发送至所述第二终端中的代理模块，以使所述代理模块将所述控制指令发送至所述第二客户端。也就是说，第一客户端在接收到第一服务器发送来的控制指令后，会将控制指令发送给代理模块，代理模块在接收到控制指令后会把控制指令发送给第二客户端。可见，第二终端中的客户端与外界第一终端之间的交互均通过代理模块，以实现对第二终端中的客户端与外界通信的管理。

此外，还可以利用第二终端中的代理模块在电视界面展示一些提示信息，例如用户在第一客户端中输入语音时，此时第一客户端会向代理模块发送场景信息查询指令，当代理模块接收到该指令时得知用户正在录制语音，因此代理模块可以在电视机的当前界面中展示语音正在输入的提醒信息等。

在一些实例中，在步骤S202中将将所述场景信息和第一音频数据发送至第一服务器的方式有多种，其中一种方式为：采用流式切片的发送模式将所述第一音频数据逐片发送至所述第一服务器，以提高传输效率。例如，每一个分片用300ms的时间传输。也就是说，将第一音频数据分为多个分片，将这些分片逐片的发送给第一服务器，所述场景信息可携带在其中任意一个分片中，例如，场景信息携带在最后一个分片中。当第一服务器接收到携带有场景信息的分片时，即可认为第一音频数据接收完成。当然，也可以采用其他方式将第一音频数据和场景信息发送给第一服务器。

在一些实例中，当第一客户端将场景信息和第一音频数据发送给第一服务器之后，第一服务器形成控制指令的方式有多种，例如第一服务器将第一音频数据转换为文本，然后对文本进行分词，再将分词结果与场景信息进行匹配，根据匹配结果形成控制指令。当然，第一服务器也可以将第一音频数据发送给具有音频识别能力的其他服务器，例如，微信的后台服务器、qq的后台服务器，将具有音频识别能力的其他服务器称为第二服务器，此时如图4所示，本申请实例应用的系统架构中增加了第二服务器106。当第二服务器106接收到第一音频数据后，将第一音频数据转换为文本，然后将文本返回给第一服务器103，这样第一服务器103对接收到的文本进行分词，然后将分词结果与场景信息进行匹配，根据匹配结果形成控制指令。也就是说，具有语音处理能力的第一服务器可以自己将第一音频数据转换为文本，而不具有语音处理能力的第一服务器可以将第一音频数据发送给具有语音处理能力的第二服务器，由第二服务器将第一音频数据转换为文本然后返回给第一服务器。举例来说，假设电视机的当前展示界面为一个视频客户端的一个界面，当用户按住第一客户端的语音录制控件输入的语音为“我想看西游记”，第一客户端将该语音和视频客户端返回的场景信息发送给第一服务器，而第一服务器不具有把用户输入的语音转换为文本的能力，便会在接收到该语音和场景信息后，把这段语音发送给微信的后台服务器即第二服务器，微信的后台服务器将语音转换为文本，并将文本返回给第一服务器，第一服务器接收到文本后，利用基于语义的分词方法对文本“我想看西游记”进行分词，得到分词结果：“我”、“想看”、“西游记”，然后将该分词结果与场景信息进行匹配，发现场景信息中存在西游记的相关视频，便会形成携带有“西游记”相关视频信息的控制指令。

当然，第一服务器还可以将文本转换为标准语音，该标准语音可称为第二音频数据，然后将第二音频数据发送至第一客户端。第一服务器也可以向第二服务器发送语音合成请求，当第二服务器接收到该请求后，会把文本转换为标准语音即第二音频数据，进而将第二音频数据返回给第一服务器，这样第一服务器便可以将第二音频数据发送给第一客户端。其中，第二服务器是指具有语音处理能力的服务器，所谓的语音处理能力包括把音频数据转换为文本，当然还可以包括把文本转换为标准音频数据。这种采用使第一服务器向具有语音处理能力的第二服务器发送语音合成请求，进而获得第二音频数据的方式，对于第一服务器的要求不高，不需要第一服务器具有语音处理的能力，因此对于一个具有语音处理能力的第一服务器来说，可以自己将文本转换为第二音频数据，对于没有语音处理能力的第一服务器来说，可以向具有语音处理能力的第二服务器发送语音合成请求，这样也能得到第二音频数据。

当第一客户端在接收到所述第一服务器发送来的第二音频数据时，可以播放所述第二音频数据，也可以将所述第二音频数据发送至所述第二终端，例如发送至第二终端中的代理模块，以使代理模块播放所述第二音频数据。所述第二音频数据为文本转换而成的音频数据，所述文本由所述第一音频数据转换而成。这样，用户便可以听到自己输入的语音对应的标准语音。

基于上述系统架构，本申请实例还提供一种语音操控终端的方法，该方法可以由第一服务器执行，如图5所示，该方法包括：

S501、在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本；其中，所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息；

可理解的是，步骤501中第一服务器确定第一音频数据转换而成的文本的方式，可以是第一服务器将第一音频数据转换为文本，也可以是第一服务器在接收到第一客户端发送来的场景信息和第一音频数据时，将所述第一音频数据发送至第二服务器，以使所述第二服务器将所述第一音频数据转换为文本，并将所述文本返回至第一服务器，也就是说，第一服务器将第一音频数据发送给具有语音处理能力的第二服务器。不论哪种方式，只有第一服务器能够获得第一音频数据转换而成的文本即可。

S502、对所述文本进行分词，得到分词结果；

例如，对于文本“我想看西游记”，分词后得到的分词结果为“我”、“想看”、“西游记”。这里的分词可以但不限于采用基于语义分析的分词方法。

S503、根据所述分词结果和所述场景信息，形成携带有待执行的可操作对象信息的控制指令；

S504、将所述控制指令通过所述第一客户端发送至第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

本申请实例提供的语音操作第二终端的方法，当第一服务器接收到第一客户端发送来的场景信息和第一音频数据时，首先获取第一音频数据对应的文本，然后对文本分词，再将基于分词结果和场景信息形成控制指令发送给第一客户端，进而使第一客户端将控制指令发送给第二客户端，使第二客户端执行相应的动作，从而实现语音控制第二客户端的目的。

可理解的是，在本申请实例提供的由第一服务器执行的语音操控终端的方法中有关内容的解释、举例、有益效果等部分可以参考上一实例中由第一客户端执行的语音操控终端的方法中的相应内容，此处不再赘述。

在一些实例中，上述S503中形成控制指令的方式有多种，其中一种为：

将所述分词结果与所述场景信息进行匹配，若所述场景信息中存在与所述分词结果相匹配的可操作对象信息，则形成携带有待执行的可操作对象信息的控制指令；所述待执行的可操作对象信息为与所述分词结果相匹配的可操作对象信息。

举例来说，分词结果为“我”、“想看”、“西游记”，而场景信息中包含视频名称“西游记”，则认为场景信息中存在与分词结果相匹配的可操作对象信息，形成的控制指令中则携带有“西游记”这一个视频名称。这样，当第二客户端接收到这一个控制指令时，便会对可操作对象—视频“西游记”执行播放操作。

可理解的是，在场景信息中包含的可操作对象信息可以是第一服务器中存储的媒体资源相对应的可操作对象信息，也可以是第三方媒体资源的可操作对象信息。所谓的媒体资源，可以是视频、可以是音乐、也可以是新闻内容(包括文字、图片等)，还可以是其他媒体资源。

当然，由于在第二客户端的展示界面中大多展示的是近期的内容，对于时间比较久远的内容可能没有展示出来，这样场景信息中不存在相应的可操作对象信息，但是在第二客户端的后台服务器即第一服务器中保存有相关的媒体资源。由于可能存在这种情况，因此步骤S503中形成控制指令的过程可以包括：

将所述分词结果与所述场景信息进行匹配，若所述场景信息中不存在与所述分词结果相匹配的可操作对象信息，则根据所述分词结果搜索与所述分词结果相匹配的媒体资源；

若搜索到与所述分词结果相匹配的媒体资源，形成携带有待执行的可操作对象信息的控制指令，所述待执行的可操作对象信息为与所述分词结果相匹配的媒体资源对应的可操作对象信息。

上述搜索即是在第一服务器中进行搜索，如果在第一服务器中存储有与分词结果匹配的媒体资源，例如，如果在场景信息中不存在与“西游记”相匹配的可操作对象信息，则在第一服务器中进行搜索，如果搜索到与“西游记”相匹配的视频资源，则形成控制指令，该控制指令中包含“西游记”这一个视频名称，当第二客户端接收到该控制指令时，便会对可操作对象—视频“西游记”执行播放操作，也就是说，智能电视或与电视盒子连接的电视机进入西游记的播放界面。

当然，也可能存在没有搜索到与分词结果相匹配的媒体资源，此时第一服务器可以通过所述第一客户端向所述第二客户端反馈搜索结果，以使所述第二客户端展示所述搜索结果。例如，第一服务器向第一客户端反馈没有搜索到西游记相关视频的搜索结果，当第一客户端接收到信息后，便会发送至第二客户端，如图6a所示，第二客户端便会在电视机上显示“未搜索到“西游记”相关视频！”的提示信息。

在第一服务器在获得第一音频数据的文本之后，还可以将文本发送至第一客户端，这样第一客户端可以展示该文本，如图6b所示中展示的“您说的内容是：我想看西游记”。

在一些实例中，第一客户端可能以流式分片的发送模式将第一音频数据发送至第一服务器，如果第一服务器不具有语音处理能力的话，会把第一音频数据发送至第二服务器的话，具体可以是：在接收到所述第一音频数据的每一个分片时，将该分片发送至所述第二服务器，以使所述第二服务器将该分片转换为对应的文本片段，并将所述文本片段返回第一服务器；其中，各个分片对应的文本片段的组合为所述文本。这种通过流式分片的发送模式将分片发送给第二服务器以使第二服务器进行文本转换的方式，可以提高传输换的效率。

在一些实例中，第一服务器可以获取文本对应的标准语音，如果第一服务器不具有语音处理能力的话，可以向所述第二服务器发送语音合成请求，以使所述第二服务器将所述文本转换为第二音频数据；在接收到所述第二服务器返回的所述第二音频数据时，将所述第二音频数据发送至所述第一客户端。

当将第二音频数据发送至第一客户端之后，第一客户端可以播放该第二音频数据，也可以将第二音频数据发送给第二终端，以便第二终端播放该第二音频数据。

本申请实例还提供一种第一客户端，如图7所示，该客户端700中可以包括以下指令模块：

响应模块701，响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息；

第一发送模块702，在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；

第二发送模块703，在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

在一些实例中，第一发送模块702可以采用流式切片的发送模式将所述第一音频数据逐片发送至所述第一服务器；所述场景信息携带在其中一个分片中，例如，所述场景信息携带在所述第一音频数据的最后一个分片中。

在一些实例中，第一客户端还可以包括：

播放模块，在接收到所述第一服务器发送来的第二音频数据时，播放所述第二音频数据；其中，所述第二音频数据由文本转换而成，所述文本由所述第一音频数据转换而成。

在一些实例中，第二发送模块703还可以在接收到所述第一服务器发送来的第二音频数据时，将所述第二音频数据发送至所述第二终端的代理模块，以使所述代理模块播放所述第二音频数据；其中，所述第二音频数据由文本转换而成，所述文本由所述第一音频数据转换而成。

在一些实例中，响应模块701可以将所述场景信息查询指令发送至所述第二终端中的代理模块，以使所述代理模块将所述场景信息查询指令发送至所述第二客户端。

在一些实例中，第二发送模块703可以将所述控制指令发送至所述第二终端中的代理模块，以使所述代理模块将所述控制指令发送至所述第二客户端。

可理解的是，本申请实例提供的第一客户端，为上述语音操控终端的方法的功能架构模块，其有关内容的解释、举例、有益效果等可参考上文中语音操控终端的方法的相关内容，此处不再赘述。

本申请实例还提供一种第一服务器，如图8所示，该服务器800中可以包括以下指令模块：

文本确定模块801，在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本；其中，所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息；

文本分词模块802，对所述文本进行分词，得到分词结果；

指令形成模块803，根据所述分词结果和所述场景信息，形成携带有待执行的可操作对象信息的控制指令；

第三发送模块804，将所述控制指令通过所述第一客户端发送至第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作。

在一些实例中，指令形成模块803可以将所述分词结果与所述场景信息进行匹配，若所述场景信息中存在与所述分词结果相匹配的可操作对象信息，则形成携带有待执行的可操作对象信息的控制指令；所述待执行的可操作对象信息为与所述分词结果相匹配的可操作对象信息。

在一些实例中，指令形成模块803可以将所述分词结果与所述场景信息进行匹配，若所述场景信息中不存在与所述分词结果相匹配的可操作对象信息，则根据所述分词结果搜索与所述分词结果相匹配的媒体资源；若搜索到与所述分词结果相匹配的媒体资源，形成携带有待执行的可操作对象信息的控制指令，所述待执行的可操作对象信息为与所述分词结果相匹配的媒体资源对应的可操作对象信息。

在一些实例中，指令形成模块803还可以在未搜索到与所述分词结果相匹配的媒体资源时，通过所述第一客户端向所述第二客户端反馈搜索结果，以使所述第二客户端展示所述搜索结果。

在一些实例中，文本确定模块801可以在接收到第一客户端发送来的场景信息和第一音频数据时，将所述第一音频数据发送至第二服务器，以使所述第二服务器将所述第一音频数据转换为文本，并将所述文本返回至第一服务器。

在一些实例中，文本确定模块801具体可以在接收到所述第一音频数据的每一个分片时，将该分片发送至所述第二服务器，以使所述第二服务器将该分片转换为对应的文本片段，并将所述文本片段返回第一服务器；其中，各个分片对应的文本片段的组合为所述文本。

在一些实例中，第一服务器800还可以包括：

请求模块，向所述第二服务器发送语音合成请求，以使所述第二服务器将所述文本转换为第二音频数据；在接收到所述第二服务器返回的所述第二音频数据时，将所述第二音频数据发送至所述第一客户端。

在一些实例中，第三发送模块804还可以：将所述文本发送至所述第一客户端，以使所述第一客户端展示所述文本。

可理解的是，本申请实例提供的第服务器，为上述语音操控终端的方法的功能架构模块，其有关内容的解释、举例、有益效果等可参考上文中语音操控终端的方法的相关内容，此处不再赘述。

基于以上第一客户端和第一服务器，并结合图9本申请实例还提供一种语音操控终端的方法的整体过程：

S901、当用户按下第一客户端上的语音录制控件时，开始录音，并且第一客户端向电视代理模块发送场景信息查询指令；

S902、当电视代理模块接收到场景信息查询指令时，将场景信息查询指令发送至第二客户端；

S903、当第二客户端接收到场景信息查询指令时，将场景信息返回给电视代理模块；

S904、当电视代理模块接收到场景信息后，把场景信息发送至第一客户端；

S905、第一客户端采用流式分片的发送模式将录制得到的第一音频数据逐片发送至第一服务器，并在最后一个分片中携带有场景信息；

S906、当第一服务器接收到语音分片时，向第二服务器发送语音识别请求，得到该语音分片的文本片段；

S907、当识别完成后，第一服务器对各个文本片段组成的文本进行分词，然后与场景信息进行匹配，并根据匹配结果形成控制指令；

S908、第一服务器向第二服务器发送tts请求即语音合成请求，第二服务器对该tts请求进行处理，将文本转化为第二音频数据，返回给第一服务器；

S909、第一服务器将文本、控制指令、第二音频数据发送至第一客户端；

S910、第一客户端在界面中展示接收到的文本，并播放第二音频数据或者将第二音频数据发送至电视代理模块，以使电视代理模块播放第二音频数据。第一客户端将接收到的控制指令发送至电视代理模块，电视代理模块将控制指令发送给第二客户端，进而第二客户端执行相应的动作，至此完成通过语音操控第二客户端的过程。在上述过程中，用户仅需要通过语音录制控件输入语音即可，不需要像遥控器一样的繁琐操作，为用户提供了很大的便捷。

本申请实例还提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一方法的步骤。

本申请实例还提供一种计算机设备，图10示出了第一客户端或第一服务器所在的计算机设备的组成结构图。如图10所示，该计算设备包括一个或者多个处理器(CPU)1002、通信模块1004、存储器1006、用户接口1010，以及用于互联这些组件的通信总线1008，其中：

处理器1002可通过通信模块1004接收和发送数据以实现网络通信和/或本地通信。

用户接口1010包括一个或多个输出设备1012，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口1010也包括一个或多个输入设备1014，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器1006可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器1006存储处理器1002可执行的指令集，包括：

操作系统1016，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用1018，包括用于语音操控终端的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括第一客户端或者第一服务器中的部分或者全部模块。第一客户端或者第一服务器的至少一个模块可以存储有机器可执行指令。处理器1002通过执行存储器1006中各单元中至少一个单元中的机器可执行指令，进而能够实现上述模块中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图10模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音操控终端的方法，其特征在于，包括：

响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息，所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作；

在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息中的所述可操作对象的名称以及所述对可操作对象执行的动作形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；

其中，所述将所述场景信息和第一音频数据发送至第一服务器，包括：将所述第一音频数据分为多个分片，将所述多个分片逐片的发送给所述第一服务器，所述场景信息携带在最后一个分片中，以使当所述第一服务器接收到携带有场景信息的分片时，确定第一音频数据接收完成；

在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作，所述控制指令携带有待执行的可操作对象信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

在接收到所述第一服务器发送来的第二音频数据时，播放所述第二音频数据；其中，所述第二音频数据由文本转换而成，所述文本由所述第一音频数据转换而成。

3.根据权利要求1所述的方法，其特征在于，还包括：

在接收到所述第一服务器发送来的第二音频数据时，将所述第二音频数据发送至所述第二终端的代理模块，以使所述代理模块播放所述第二音频数据；其中，所述第二音频数据由文本转换而成，所述文本由所述第一音频数据转换而成。

4.根据权利要求1～3任一所述的方法，其特征在于，所述向第二终端上的第二客户端发送场景信息查询指令，包括：

将所述场景信息查询指令发送至所述第二终端中的代理模块，以使所述代理模块将所述场景信息查询指令发送至所述第二客户端。

5.一种语音操控终端的方法，其特征在于，包括：

在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本；其中，所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息，所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作；

对所述文本进行分词，得到分词结果；其中，将所述第一音频数据分为多个分片，将所述多个分片逐片的发送给第一服务器，所述场景信息携带在最后一个分片中，以使当第一服务器接收到携带有场景信息的分片时，确定第一音频数据接收完成；

根据所述分词结果和所述场景信息中的所述可操作对象的名称以及所述对可操作对象执行的动作，形成携带有待执行的可操作对象信息的控制指令；

6.根据权利要求5所述的方法，其特征在于，所述根据所述分词结果和所述场景信息，形成携带有待执行的可操作对象信息的控制指令，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述分词结果和所述场景信息，形成携带有待执行的可操作对象信息的控制指令，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

若未搜索到与所述分词结果相匹配的媒体资源，则通过所述第一客户端向所述第二客户端反馈搜索结果，以使所述第二客户端展示所述搜索结果。

9.根据权利要求5所述的方法，其特征在于，所述在接收到第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本，包括：

在接收到第一客户端发送来的场景信息和第一音频数据时，将所述第一音频数据发送至第二服务器，以使所述第二服务器将所述第一音频数据转换为文本，并将所述文本返回至第一服务器。

10.根据权利要求9所述的方法，其特征在于，所述在接收到第一客户端发送来的场景信息和第一音频数据时，将所述第一音频数据发送至第二服务器，包括：

在接收到所述第一音频数据的每一个分片时，将该分片发送至所述第二服务器，以使所述第二服务器将该分片转换为对应的文本片段，并将所述文本片段返回第一服务器；

其中，各个分片对应的文本片段的组合为所述文本。

11.根据权利要求9所述的方法，其特征在于，还包括：

向所述第二服务器发送语音合成请求，以使所述第二服务器将所述文本转换为第二音频数据；

在接收到所述第二服务器返回的所述第二音频数据时，将所述第二音频数据发送至所述第一客户端。

12.一种第一客户端，其特征在于，包括：

响应模块，响应于对第一终端上第一客户端的语音录制控件的操作，录制语音得到第一音频数据，并向第二终端上的第二客户端发送场景信息查询指令；所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息，所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作；

第一发送模块，在接收到所述第二客户端返回的场景信息时，将所述场景信息和第一音频数据发送至第一服务器，以使所述第一服务器根据所述第一音频数据和所述场景信息中的所述可操作对象的名称以及所述对可操作对象执行的动作形成携带有待执行的可操作对象信息的控制指令；所述第一服务器为所述第二客户端的后台服务器；

其中，将所述第一音频数据分为多个分片，将所述多个分片逐片的发送给第一服务器，所述场景信息携带在最后一个分片中，以使当第一服务器接收到携带有场景信息的分片时，确定第一音频数据接收完成；

第二发送模块，在接收到所述第一服务器返回的控制指令时，将所述控制指令发送至所述第二客户端，以使所述第二客户端根据所述控制指令执行相应的动作，所述控制指令携带有待执行的可操作对象信息。

13.一种第一服务器，其特征在于，包括：

文本确定模块，在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时，确定所述第一音频数据转换而成的文本；其中，所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息，所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作；

文本分词模块，对所述文本进行分词，得到分词结果；其中，将所述第一音频数据分为多个分片，将所述多个分片逐片的发送给第一服务器，所述场景信息携带在最后一个分片中，以使当第一服务器接收到携带有场景信息的分片时，确定第一音频数据接收完成；

14.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的指令集；所述处理器执行所述指令集时实现权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1-11任一项所述的方法。