CN109474843B - 语音操控终端的方法、客户端、服务器 - Google Patents

语音操控终端的方法、客户端、服务器 Download PDF

Info

Publication number
CN109474843B
CN109474843B CN201710804781.3A CN201710804781A CN109474843B CN 109474843 B CN109474843 B CN 109474843B CN 201710804781 A CN201710804781 A CN 201710804781A CN 109474843 B CN109474843 B CN 109474843B
Authority
CN
China
Prior art keywords
client
server
audio data
scene information
operable object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710804781.3A
Other languages
English (en)
Other versions
CN109474843A (zh
Inventor
郜光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710804781.3A priority Critical patent/CN109474843B/zh
Priority to EP18853000.0A priority patent/EP3680896B1/en
Priority to PCT/CN2018/104264 priority patent/WO2019047878A1/zh
Publication of CN109474843A publication Critical patent/CN109474843A/zh
Priority to US16/809,746 priority patent/US11227598B2/en
Application granted granted Critical
Publication of CN109474843B publication Critical patent/CN109474843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42208Display device provided on the remote control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42208Display device provided on the remote control
    • H04N21/42209Display device provided on the remote control for displaying non-command information, e.g. electronic program guide [EPG], e-mail, messages or a second television channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4222Remote control device emulator integrated into a non-television apparatus, e.g. a PDA, media center or smart toy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8166Monomedia components thereof involving executable data, e.g. software
    • H04N21/8173End-user applications, e.g. Web browser, game
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请提供一种语音操控终端的方法、第一客户端、第一服务器,所述方法包括:响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。

Description

语音操控终端的方法、客户端、服务器
技术领域
本申请互联网技术领域,尤其是涉及一种语音操控终端的方法、第一客户端、第一服务器。
背景技术
随着人们生活水平的提高,电视设备(例如智能电视、电视盒子)在家庭中的普及率日益广泛,电视设备在人们的日常休闲与娱乐生活中起到越来越重要的作用。电视设备是指具有开放式平台,搭载了操作控制系统以及能够安装应用程序的新电视产品,因此用户在欣赏普通电视内容的同时,还可以自行安装和卸载各类应用软件,实现对功能进行扩充和升级。
发明内容
本申请提供了以下技术方案,能够通过向第一终端输入语音而实现对第二终端的操控。
一方面,本申请实例提供了一种语音操控终端的方法,包括:
响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息;
在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;
在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
在一些实例中,所述将所述控制指令发送至所述第二客户端,包括:
将所述控制指令发送至所述第二终端中的代理模块,以使所述代理模块将所述控制指令发送至所述第二客户端。
另一方面,本申请实例提供了一种语音操控终端的方法,包括:
在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本;其中,所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息;
对所述文本进行分词,得到分词结果;
根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令;
将所述控制指令通过所述第一客户端发送至第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
在一些实例中,所述方法还包括:将所述文本发送至所述第一客户端,以使所述第一客户端展示所述文本。
另一方面,本申请实例提供了一种第一客户端,包括:
响应模块,响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息;
第一发送模块,在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;
第二发送模块,在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
另一方面,本申请实例提供了一种第一服务器,包括:
文本确定模块,在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本;其中,所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息;
文本分词模块,对所述文本进行分词,得到分词结果;
指令形成模块,根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令;
第三发送模块,将所述控制指令通过所述第一客户端发送至第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
另一方面,本申请实例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
基于本申请实例提供的以上技术方案,用户触发第一客户端的语音录制控件后,第一客户端便录制语音并向第二终端的第二客户端发送场景信息查询指令,当第一客户端接收到第二客户端返回的场景信息后,将场景信息以及用户输入的音频数据发送至第二客户端的后台服务器即第一服务器,第一服务器确定第一音频数据的文本,进而分词,将分词结果与场景信息进行匹配,并根据匹配结果形成控制指令发送给第一客户端,当第一客户端接收到控制指令时,将控制指令发送至第二客户端,从而使第二客户端执行相应的动作,整个过程中,用户只需要通过第一客户端上的语音录制控件输入语音,为用户对第二终端的操作提供了极大的便捷。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实例涉及的一种系统构架图;
图2是本申请一实例中语音操控终端的方法的流程示意图;
图3a是本申请一实例中第一客户端展示的一个界面示意图;
图3b是本申请一实例中智能电视展示的一个界面示意图;
图4是本申请一实例涉及的一种系统架构图;
图5是本申请一实例中语音操控终端的方法的流程示意图;
图6a是本申请一实例中智能电视展示的一个界面示意图;
图6b是本申请一实例中第一客户端展示的一个界面示意图;
图7是本申请一实例中第一客户端的结构框图;
图8是本申请一实例中第一服务器的结构框图;
图9是本申请一实例中语音操控终端的方法的整体交互示意图;
图10是本申请一实例中计算机设备的结构框图。
具体实施方式
本申请提出了一种语音操控终端的方法,该方法应用的系统架构如图1所示。该系统架构包括:第一终端101、第二终端102和第一服务器103,第一终端101和第二终端102之间可以通过局域网104连接,第一终端101与第一服务器103之间可以通过互联网105连接,其中:
上述第一终端101,可以为移动终端,例如智能手机、平板电脑等,其上安装有各种应用软件的客户端软件,用户可以通过上述第一终端登录并使用这些应用软件的客户端,例如,语音助手等客户端。
上述第二终端102,可以为电视设备,例如搭载有android或其他系统的智能电视、与传统电视连接的电视盒子,该电视盒子搭载有android或其他系统,传统电视相当于电视盒子的显示器。第二终端上可安装有多种应用程序,用户可以通过遥控器操控这些应用程序,例如,用户可以通过遥控器打开安装在智能电视上的腾讯视频客户端,找到想要观看的视频,然后进行播放、快进或者快退等操作。再例如,用户可以通过遥控器打开安装在电视盒子上的某一音乐软件(例如,qq音乐)的客户端,然后在传统电视展示的界面中对本地或在线的某一首音乐进行播放、收藏等操作。
上述第一服务器103,是指第二终端上安装的客户端的后台服务器,例如,第二终端上某视频客户端对应的后台服务器、某音乐软件的后台服务器,若在第二终端上操作的是视频客户端,则对应的第一服务器为该视频客户端对应的后台服务器,若在第二终端上操作的是一个音乐软件的客户端,则对应的第一服务器为该音乐软件的后台服务器,也就是说,第一服务器是在第二终端上操作的客户端对应的后台服务器。第一服务器具体可以是一台服务器,也可以是多台服务器形成的服务器集群。
基于上述系统架构,本申请一个实例提供一种语音操控终端的方法,该方法可以由第一终端执行,具体可以由第一终端上的第一客户端执行,如图2所示,该方法包括:
S201、响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息;
可理解的是,为使第一终端上的第一客户端与第二终端之间能够进行信息交互,第一终端上的第一客户端需要与第二终端连接,具体可以通过局域网连接。例如,图3a所示的手机界面所属的客户端与图3b示出的智能电视连接,其中图3a示出的客户端为一个语音助手的客户端,图3b示出的智能电视为用户客厅的小米电视,此时智能电视上展示了视频客户端的综艺界面的展示界面,在该界面中可以看到有“明日之子”、“奔跑吧”这些综艺节目的名称、海报、更新日期等信息。第一客户端的语音录制控件301在被触发后便会向客厅的小米电视发送场景信息查询指令。
语音录制控件301,可以采用多种形式,例如,设置在一个界面上的虚拟按键,当用户长按该按键,第一客户端便会检测周围的声音,并对检测到的声音进行录制,当用户放开该按键时,录制结束,至此录制的声音形成了第一音频数据。当然,本申请实例中的语音录制控件的功能不仅仅是语音录制的作用,还会向与第一客户端连接的第二终端发送场景信息查询指令。例如,当用户按下语音录制控件时,第一客户端便会向客厅的小米电视发送场景信息查询指令。实际上,用户通过第一客户端录制的第一音频数据为对第二终端进行操作的语音指令。在第一客户端的展示界面中,还可以展示进行语音录制的提示信息,例如,如图3a所示,提示用户:您可以这样问我:播放三生三世、打开观看历史、搜索杨幂的电视剧,用户可以参考提示信息发出语音操作指令。
第二客户端是安装在第二终端上的客户端,由于在第二终端上可能安装有多个客户端,因此需要选择其中一个或多个客户端作为第二客户端,其中一种方式为:将电视机(电视盒子连接的传统电视或智能电视)当前展示的界面对应的客户端作为第二客户端。例如,用户客厅的小米电视展示的是腾讯视频客户端的某个界面,第一客户端发送的场景信息查询指令便会被发送至小米电视中的腾讯视频客户端,当腾讯视频客户端接收到该查询指令后,会把腾讯视频客户端的场景信息返回至第一客户端。
所谓的场景信息,包括第二客户端的至少一个界面中至少一个可操作对象信息。举例来说,对于腾讯视频客户端来说,有综艺节目的展示界面、电视剧的展示界面、电影的展示界面、纪录片的展示界面等,在综艺界面的展示界面中有多个近期热播的综艺节目,这些综艺节目以海报、节目名称等方式展示出来。同样的,电视剧的展示界面中有多部近期热播的电视剧,这些电视剧也是以海报、电视剧名称的方式展示出来等。当然,还有观看记录、收藏、搜索、意见反馈、设置等,观看记录、收藏、搜索、意见反馈、设置这些可以作为腾讯视频客户端的全局选项。当用户点击综艺节目展示界面中某综艺界面的海报时,便会进入该综艺界面的播放界面,当用户点击收藏时,便会进入收藏的界面,该界面中展示有用户收藏的多个视频的相关信息。因此不论是电视剧展示界面中的电视剧、综艺界面展示界面中的综艺界面等,还是观看记录、收藏、搜索、意见反馈、设置这些全局选项,均可以作为视频客户端的可操作对象,也就是说,如果该腾讯视频客户端接收到场景信息查询指令,腾讯视频客户端返回的场景信息可以包括多个综艺节目的名称、多个电视剧的名称、多部电影的名称、多个纪录片的名称,还可以包括观看记录、收藏、搜索、意见反馈、设置等。
以上场景信息是以一个视频客户端为例进行说明,由于第二客户端不仅限于视频客户端,还可以是其他的客户端,例如某音乐客户端、新闻客户端等。对于音乐客户端来说,有排行的展示界面、歌单的展示界面、MV的展示界面、本地的展示界面,在排行的展示界面中有多首按照热度排名的歌曲,在歌单的展示界面中有多首按照歌曲类型分类的歌曲,在MV的展示界面有多首有MV的歌曲,在本地的展示界面中有多首已下载到本地的歌曲。其中,排行的展示界面、歌单的展示界面、MV的展示界面中均展示的是在线歌曲,本地的展示界面展示的是本地歌曲。当然,也包括设置、问题与建议、检查更新等全局选项,不论是在线歌曲、是本地歌曲,还是全局选项,均可以作为该音乐客户端的可操作对象,也就是说,如果该音乐客户端接收到场景信息查询指令,返回的场景信息可以包括多首在线或本地的歌曲名称,也可以包括设置、问题与建议、检查更新等。
S202、在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;
第一服务器,为第二客户端的后台服务器,例如,假设第二客户端为某一视频客户端,则第一服务器为该视频客户端的服务器;假设第二客户端为某一新闻客户端,则第一服务器为该新闻客户端的服务器。
所谓的待执行的可操作对象信息,可包括可操作对象的名称,例如,用户在第一客户端上输入的语音为“打开历史记录”,则待执行的可操作对象信息中包括“历史记录”,当第二客户端接收到携带有待执行的可操作对象信息的控制指令时,便会打开历史记录,即展示历史记录的界面,从该界面中用户可以看到近期观看的媒体内容。再例如,用户在第一客户端上输入的语音为“我想看西游记”,则待执行的可操作对象信息中包括“西游记”,当第二客户端接收到携带有该待执行的可操作对象信息的控制指令时,便会默认为是要对西游记执行播放动作。当然,由于对第二客户端的操作不仅仅限于打开、播放这种操作,当然还有下载、前进、后退等这些操作,因此待执行的可操作对象信息中还可以包括对可操作对象执行的动作等信息。例如,用户在第一客户端语音输入“下载西游记主题曲”,第一服务器基于该音频数据以及第二客户端的场景信息,生成控制指令中的待执行的可操作对象信息不仅包括“西游记主题曲”,还包括“下载”,当第二客户端接收到该控制指令时,不会执行播放西游记主题曲的动作,而是执行下载西游记主题曲的动作。
这里,对第一服务器根据场景信息和第一音频数据形成控制指令的过程可以采用多种方式实现,对此本申请实例不做限定。
S203、在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
举例来说,假设与用户第一终端的第一客户端连接的智能电视上展示一个视频客户端的某一个界面,当用户按住的第一客户端上的语音录制控件说“我想看西游记”时,第一客户端向第二终端中的第二客户端发送场景信息查询指令,此时智能电视展示的视频客户端会将包括各种电视剧片名、电影片名、综艺节目名称、一些全局选项等的场景信息返回给第一客户端,当第一客户端接收到场景信息后,会将场景信息以及“我想看西游记”的音频数据发送给视频客户端的后台服务器—第一服务器,第一服务器接收到场景信息和音频数据后根据音频数据了解到用户想要看西游记,然后结合场景信息,生成控制指令,然后把控制指令返回给第一客户端,进而第一客户端将控制指令发送给第二客户端,以使第二客户端执行打开《西游记》的媒体资源的播放界面的动作。当然,如果,与“西游记”相关的媒体资源不止一个时,例如,第二客户端根据控制指令查找到的与“西游记”相关的媒体资源有电视剧《西游记》、电视剧《新西游记》、动画片《西游记》、电影《西游记之大闹天宫》、《西游记之大圣归来》等等,而且与西游记相关的电视剧还有多集,此时第二客户端可以将这些媒体资源的相关信息展示在智能电视上或者与电视盒子连接的传统电视机上,以供用户选择,在用户通过语音或者遥控器等方式选择其中某媒体资源后,再执行播放动作。当第二客户端执行相应的动作成功与否,还可以给用户一些相应的提示。
基于上述描述可知,本申请实例提供的语音操控终端的方法,用户触发第一客户端的语音录制控件,第一客户端便录制语音并向第二终端的第二客户端发送场景信息查询指令,当第一客户端接收到第二客户端返回的场景信息后,将场景信息以及用户输入的音频数据发送至第二客户端的后台服务器,该服务器根据接收到的信息形成一个控制指令,然后通过第一客户端将该指令发给第二客户端,使第二客户端执行相应的动作。整个过程,用户只需要通过第一终端的第一客户端输入语音,进而控制第二终端执行相应的动作,例如,以电视设备作为第二终端,则不需要通过遥控器一步步的操作,即减少了遥控器的繁琐操作,因此为用户对第二终端的操作提供了极大的便捷。
在一些实例中,可以在第二终端上安装一个代理模块,例如,在智能电视或电视盒子上安装一个电视代理模块,所谓的电视代理模块实际上也是一个应用程序,而且是一个对用户不可见的应用程序,可作为智能电视或电视盒子上安装的其他应用程序与外界交互的桥梁,即在智能电视或电视盒子上安装的其他应用程序通过代理模块与外界进行交互,这样便于对智能电视或电视盒子中的应用程序与外界的交互进行管理。在实际应用中,可先将第二终端中的可参与语音控制的应用程序(例如,视频客户端、音乐客户端、新闻客户端等)在代理模块中进行注册,如果某应用程序没有在代理模块中注册,该应用程序则不能参与语音控制,也就是说,用户不能通过语音控制该应用程序执行动作。当代理模块在接收到外界发送来的指令时,会通过广播的方式将指令发送给相应的应用程序,例如,在广播时指定包名,只将指令发送给前台应用程序,这样只有前台应用程序能够接收到指令,所谓的前台应用程序就是在第二终端的当前展示界面所属的客户端。
在第二终端中设置代理模块的基础上,S201中第一客户端向第二终端上的第二客户端发送场景信息查询指令过程可以为:第一客户端将所述场景信息查询指令发送至所述第二终端中的代理模块,以使所述代理模块将所述场景信息查询指令发送至所述第二客户端。也就是说,在用户触发第一客户端的语音录制控件后,第一客户端向第二终端中的代理模块发送场景信息查询指令,代理模块在接收到场景信息查询指令之后,会把场景信息查询指令发送给第二客户端。当然,当第二客户端接收到代理模块发送来的场景信息查询指令后,会将场景信息返回给代理模块,当代理模块在接收到场景信息后,会把场景信息发送给第一客户端。同样的,在步骤S203中,第一客户端将控制指令发送给第二客户端的过程可以为:将所述控制指令发送至所述第二终端中的代理模块,以使所述代理模块将所述控制指令发送至所述第二客户端。也就是说,第一客户端在接收到第一服务器发送来的控制指令后,会将控制指令发送给代理模块,代理模块在接收到控制指令后会把控制指令发送给第二客户端。可见,第二终端中的客户端与外界第一终端之间的交互均通过代理模块,以实现对第二终端中的客户端与外界通信的管理。
此外,还可以利用第二终端中的代理模块在电视界面展示一些提示信息,例如用户在第一客户端中输入语音时,此时第一客户端会向代理模块发送场景信息查询指令,当代理模块接收到该指令时得知用户正在录制语音,因此代理模块可以在电视机的当前界面中展示语音正在输入的提醒信息等。
在一些实例中,在步骤S202中将将所述场景信息和第一音频数据发送至第一服务器的方式有多种,其中一种方式为:采用流式切片的发送模式将所述第一音频数据逐片发送至所述第一服务器,以提高传输效率。例如,每一个分片用300ms的时间传输。也就是说,将第一音频数据分为多个分片,将这些分片逐片的发送给第一服务器,所述场景信息可携带在其中任意一个分片中,例如,场景信息携带在最后一个分片中。当第一服务器接收到携带有场景信息的分片时,即可认为第一音频数据接收完成。当然,也可以采用其他方式将第一音频数据和场景信息发送给第一服务器。
在一些实例中,当第一客户端将场景信息和第一音频数据发送给第一服务器之后,第一服务器形成控制指令的方式有多种,例如第一服务器将第一音频数据转换为文本,然后对文本进行分词,再将分词结果与场景信息进行匹配,根据匹配结果形成控制指令。当然,第一服务器也可以将第一音频数据发送给具有音频识别能力的其他服务器,例如,微信的后台服务器、qq的后台服务器,将具有音频识别能力的其他服务器称为第二服务器,此时如图4所示,本申请实例应用的系统架构中增加了第二服务器106。当第二服务器106接收到第一音频数据后,将第一音频数据转换为文本,然后将文本返回给第一服务器103,这样第一服务器103对接收到的文本进行分词,然后将分词结果与场景信息进行匹配,根据匹配结果形成控制指令。也就是说,具有语音处理能力的第一服务器可以自己将第一音频数据转换为文本,而不具有语音处理能力的第一服务器可以将第一音频数据发送给具有语音处理能力的第二服务器,由第二服务器将第一音频数据转换为文本然后返回给第一服务器。举例来说,假设电视机的当前展示界面为一个视频客户端的一个界面,当用户按住第一客户端的语音录制控件输入的语音为“我想看西游记”,第一客户端将该语音和视频客户端返回的场景信息发送给第一服务器,而第一服务器不具有把用户输入的语音转换为文本的能力,便会在接收到该语音和场景信息后,把这段语音发送给微信的后台服务器即第二服务器,微信的后台服务器将语音转换为文本,并将文本返回给第一服务器,第一服务器接收到文本后,利用基于语义的分词方法对文本“我想看西游记”进行分词,得到分词结果:“我”、“想看”、“西游记”,然后将该分词结果与场景信息进行匹配,发现场景信息中存在西游记的相关视频,便会形成携带有“西游记”相关视频信息的控制指令。
当然,第一服务器还可以将文本转换为标准语音,该标准语音可称为第二音频数据,然后将第二音频数据发送至第一客户端。第一服务器也可以向第二服务器发送语音合成请求,当第二服务器接收到该请求后,会把文本转换为标准语音即第二音频数据,进而将第二音频数据返回给第一服务器,这样第一服务器便可以将第二音频数据发送给第一客户端。其中,第二服务器是指具有语音处理能力的服务器,所谓的语音处理能力包括把音频数据转换为文本,当然还可以包括把文本转换为标准音频数据。这种采用使第一服务器向具有语音处理能力的第二服务器发送语音合成请求,进而获得第二音频数据的方式,对于第一服务器的要求不高,不需要第一服务器具有语音处理的能力,因此对于一个具有语音处理能力的第一服务器来说,可以自己将文本转换为第二音频数据,对于没有语音处理能力的第一服务器来说,可以向具有语音处理能力的第二服务器发送语音合成请求,这样也能得到第二音频数据。
当第一客户端在接收到所述第一服务器发送来的第二音频数据时,可以播放所述第二音频数据,也可以将所述第二音频数据发送至所述第二终端,例如发送至第二终端中的代理模块,以使代理模块播放所述第二音频数据。所述第二音频数据为文本转换而成的音频数据,所述文本由所述第一音频数据转换而成。这样,用户便可以听到自己输入的语音对应的标准语音。
基于上述系统架构,本申请实例还提供一种语音操控终端的方法,该方法可以由第一服务器执行,如图5所示,该方法包括:
S501、在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本;其中,所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息;
可理解的是,步骤501中第一服务器确定第一音频数据转换而成的文本的方式,可以是第一服务器将第一音频数据转换为文本,也可以是第一服务器在接收到第一客户端发送来的场景信息和第一音频数据时,将所述第一音频数据发送至第二服务器,以使所述第二服务器将所述第一音频数据转换为文本,并将所述文本返回至第一服务器,也就是说,第一服务器将第一音频数据发送给具有语音处理能力的第二服务器。不论哪种方式,只有第一服务器能够获得第一音频数据转换而成的文本即可。
S502、对所述文本进行分词,得到分词结果;
例如,对于文本“我想看西游记”,分词后得到的分词结果为“我”、“想看”、“西游记”。这里的分词可以但不限于采用基于语义分析的分词方法。
S503、根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令;
S504、将所述控制指令通过所述第一客户端发送至第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
本申请实例提供的语音操作第二终端的方法,当第一服务器接收到第一客户端发送来的场景信息和第一音频数据时,首先获取第一音频数据对应的文本,然后对文本分词,再将基于分词结果和场景信息形成控制指令发送给第一客户端,进而使第一客户端将控制指令发送给第二客户端,使第二客户端执行相应的动作,从而实现语音控制第二客户端的目的。
可理解的是,在本申请实例提供的由第一服务器执行的语音操控终端的方法中有关内容的解释、举例、有益效果等部分可以参考上一实例中由第一客户端执行的语音操控终端的方法中的相应内容,此处不再赘述。
在一些实例中,上述S503中形成控制指令的方式有多种,其中一种为:
将所述分词结果与所述场景信息进行匹配,若所述场景信息中存在与所述分词结果相匹配的可操作对象信息,则形成携带有待执行的可操作对象信息的控制指令;所述待执行的可操作对象信息为与所述分词结果相匹配的可操作对象信息。
举例来说,分词结果为“我”、“想看”、“西游记”,而场景信息中包含视频名称“西游记”,则认为场景信息中存在与分词结果相匹配的可操作对象信息,形成的控制指令中则携带有“西游记”这一个视频名称。这样,当第二客户端接收到这一个控制指令时,便会对可操作对象—视频“西游记”执行播放操作。
可理解的是,在场景信息中包含的可操作对象信息可以是第一服务器中存储的媒体资源相对应的可操作对象信息,也可以是第三方媒体资源的可操作对象信息。所谓的媒体资源,可以是视频、可以是音乐、也可以是新闻内容(包括文字、图片等),还可以是其他媒体资源。
当然,由于在第二客户端的展示界面中大多展示的是近期的内容,对于时间比较久远的内容可能没有展示出来,这样场景信息中不存在相应的可操作对象信息,但是在第二客户端的后台服务器即第一服务器中保存有相关的媒体资源。由于可能存在这种情况,因此步骤S503中形成控制指令的过程可以包括:
将所述分词结果与所述场景信息进行匹配,若所述场景信息中不存在与所述分词结果相匹配的可操作对象信息,则根据所述分词结果搜索与所述分词结果相匹配的媒体资源;
若搜索到与所述分词结果相匹配的媒体资源,形成携带有待执行的可操作对象信息的控制指令,所述待执行的可操作对象信息为与所述分词结果相匹配的媒体资源对应的可操作对象信息。
上述搜索即是在第一服务器中进行搜索,如果在第一服务器中存储有与分词结果匹配的媒体资源,例如,如果在场景信息中不存在与“西游记”相匹配的可操作对象信息,则在第一服务器中进行搜索,如果搜索到与“西游记”相匹配的视频资源,则形成控制指令,该控制指令中包含“西游记”这一个视频名称,当第二客户端接收到该控制指令时,便会对可操作对象—视频“西游记”执行播放操作,也就是说,智能电视或与电视盒子连接的电视机进入西游记的播放界面。
当然,也可能存在没有搜索到与分词结果相匹配的媒体资源,此时第一服务器可以通过所述第一客户端向所述第二客户端反馈搜索结果,以使所述第二客户端展示所述搜索结果。例如,第一服务器向第一客户端反馈没有搜索到西游记相关视频的搜索结果,当第一客户端接收到信息后,便会发送至第二客户端,如图6a所示,第二客户端便会在电视机上显示“未搜索到“西游记”相关视频!”的提示信息。
在第一服务器在获得第一音频数据的文本之后,还可以将文本发送至第一客户端,这样第一客户端可以展示该文本,如图6b所示中展示的“您说的内容是:我想看西游记”。
在一些实例中,第一客户端可能以流式分片的发送模式将第一音频数据发送至第一服务器,如果第一服务器不具有语音处理能力的话,会把第一音频数据发送至第二服务器的话,具体可以是:在接收到所述第一音频数据的每一个分片时,将该分片发送至所述第二服务器,以使所述第二服务器将该分片转换为对应的文本片段,并将所述文本片段返回第一服务器;其中,各个分片对应的文本片段的组合为所述文本。这种通过流式分片的发送模式将分片发送给第二服务器以使第二服务器进行文本转换的方式,可以提高传输换的效率。
在一些实例中,第一服务器可以获取文本对应的标准语音,如果第一服务器不具有语音处理能力的话,可以向所述第二服务器发送语音合成请求,以使所述第二服务器将所述文本转换为第二音频数据;在接收到所述第二服务器返回的所述第二音频数据时,将所述第二音频数据发送至所述第一客户端。
当将第二音频数据发送至第一客户端之后,第一客户端可以播放该第二音频数据,也可以将第二音频数据发送给第二终端,以便第二终端播放该第二音频数据。
本申请实例还提供一种第一客户端,如图7所示,该客户端700中可以包括以下指令模块:
响应模块701,响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息;
第一发送模块702,在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;
第二发送模块703,在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
在一些实例中,第一发送模块702可以采用流式切片的发送模式将所述第一音频数据逐片发送至所述第一服务器;所述场景信息携带在其中一个分片中,例如,所述场景信息携带在所述第一音频数据的最后一个分片中。
在一些实例中,第一客户端还可以包括:
播放模块,在接收到所述第一服务器发送来的第二音频数据时,播放所述第二音频数据;其中,所述第二音频数据由文本转换而成,所述文本由所述第一音频数据转换而成。
在一些实例中,第二发送模块703还可以在接收到所述第一服务器发送来的第二音频数据时,将所述第二音频数据发送至所述第二终端的代理模块,以使所述代理模块播放所述第二音频数据;其中,所述第二音频数据由文本转换而成,所述文本由所述第一音频数据转换而成。
在一些实例中,响应模块701可以将所述场景信息查询指令发送至所述第二终端中的代理模块,以使所述代理模块将所述场景信息查询指令发送至所述第二客户端。
在一些实例中,第二发送模块703可以将所述控制指令发送至所述第二终端中的代理模块,以使所述代理模块将所述控制指令发送至所述第二客户端。
可理解的是,本申请实例提供的第一客户端,为上述语音操控终端的方法的功能架构模块,其有关内容的解释、举例、有益效果等可参考上文中语音操控终端的方法的相关内容,此处不再赘述。
本申请实例还提供一种第一服务器,如图8所示,该服务器800中可以包括以下指令模块:
文本确定模块801,在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本;其中,所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息;
文本分词模块802,对所述文本进行分词,得到分词结果;
指令形成模块803,根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令;
第三发送模块804,将所述控制指令通过所述第一客户端发送至第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
在一些实例中,指令形成模块803可以将所述分词结果与所述场景信息进行匹配,若所述场景信息中存在与所述分词结果相匹配的可操作对象信息,则形成携带有待执行的可操作对象信息的控制指令;所述待执行的可操作对象信息为与所述分词结果相匹配的可操作对象信息。
在一些实例中,指令形成模块803可以将所述分词结果与所述场景信息进行匹配,若所述场景信息中不存在与所述分词结果相匹配的可操作对象信息,则根据所述分词结果搜索与所述分词结果相匹配的媒体资源;若搜索到与所述分词结果相匹配的媒体资源,形成携带有待执行的可操作对象信息的控制指令,所述待执行的可操作对象信息为与所述分词结果相匹配的媒体资源对应的可操作对象信息。
在一些实例中,指令形成模块803还可以在未搜索到与所述分词结果相匹配的媒体资源时,通过所述第一客户端向所述第二客户端反馈搜索结果,以使所述第二客户端展示所述搜索结果。
在一些实例中,文本确定模块801可以在接收到第一客户端发送来的场景信息和第一音频数据时,将所述第一音频数据发送至第二服务器,以使所述第二服务器将所述第一音频数据转换为文本,并将所述文本返回至第一服务器。
在一些实例中,文本确定模块801具体可以在接收到所述第一音频数据的每一个分片时,将该分片发送至所述第二服务器,以使所述第二服务器将该分片转换为对应的文本片段,并将所述文本片段返回第一服务器;其中,各个分片对应的文本片段的组合为所述文本。
在一些实例中,第一服务器800还可以包括:
请求模块,向所述第二服务器发送语音合成请求,以使所述第二服务器将所述文本转换为第二音频数据;在接收到所述第二服务器返回的所述第二音频数据时,将所述第二音频数据发送至所述第一客户端。
在一些实例中,第三发送模块804还可以:将所述文本发送至所述第一客户端,以使所述第一客户端展示所述文本。
可理解的是,本申请实例提供的第服务器,为上述语音操控终端的方法的功能架构模块,其有关内容的解释、举例、有益效果等可参考上文中语音操控终端的方法的相关内容,此处不再赘述。
基于以上第一客户端和第一服务器,并结合图9本申请实例还提供一种语音操控终端的方法的整体过程:
S901、当用户按下第一客户端上的语音录制控件时,开始录音,并且第一客户端向电视代理模块发送场景信息查询指令;
S902、当电视代理模块接收到场景信息查询指令时,将场景信息查询指令发送至第二客户端;
S903、当第二客户端接收到场景信息查询指令时,将场景信息返回给电视代理模块;
S904、当电视代理模块接收到场景信息后,把场景信息发送至第一客户端;
S905、第一客户端采用流式分片的发送模式将录制得到的第一音频数据逐片发送至第一服务器,并在最后一个分片中携带有场景信息;
S906、当第一服务器接收到语音分片时,向第二服务器发送语音识别请求,得到该语音分片的文本片段;
S907、当识别完成后,第一服务器对各个文本片段组成的文本进行分词,然后与场景信息进行匹配,并根据匹配结果形成控制指令;
S908、第一服务器向第二服务器发送tts请求即语音合成请求,第二服务器对该tts请求进行处理,将文本转化为第二音频数据,返回给第一服务器;
S909、第一服务器将文本、控制指令、第二音频数据发送至第一客户端;
S910、第一客户端在界面中展示接收到的文本,并播放第二音频数据或者将第二音频数据发送至电视代理模块,以使电视代理模块播放第二音频数据。第一客户端将接收到的控制指令发送至电视代理模块,电视代理模块将控制指令发送给第二客户端,进而第二客户端执行相应的动作,至此完成通过语音操控第二客户端的过程。在上述过程中,用户仅需要通过语音录制控件输入语音即可,不需要像遥控器一样的繁琐操作,为用户提供了很大的便捷。
本申请实例还提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一方法的步骤。
本申请实例还提供一种计算机设备,图10示出了第一客户端或第一服务器所在的计算机设备的组成结构图。如图10所示,该计算设备包括一个或者多个处理器(CPU)1002、通信模块1004、存储器1006、用户接口1010,以及用于互联这些组件的通信总线1008,其中:
处理器1002可通过通信模块1004接收和发送数据以实现网络通信和/或本地通信。
用户接口1010包括一个或多个输出设备1012,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口1010也包括一个或多个输入设备1014,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器1006可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器1006存储处理器1002可执行的指令集,包括:
操作系统1016,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用1018,包括用于语音操控终端的各种应用程序,这种应用程序能够实现上述各实例中的处理流程,比如可以包括第一客户端或者第一服务器中的部分或者全部模块。第一客户端或者第一服务器的至少一个模块可以存储有机器可执行指令。处理器1002通过执行存储器1006中各单元中至少一个单元中的机器可执行指令,进而能够实现上述模块中的至少一个模块的功能。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令,存储在非易失性存储介质中。因此,各实施例也可以体现为软件产品。
各例中,硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请,本申请还提供了一种非易失性存储介质,其中存储有数据处理程序,这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。
图10模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种语音操控终端的方法,其特征在于,包括:
响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息,所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作;
在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息中的所述可操作对象的名称以及所述对可操作对象执行的动作形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;
其中,所述将所述场景信息和第一音频数据发送至第一服务器,包括:将所述第一音频数据分为多个分片,将所述多个分片逐片的发送给所述第一服务器,所述场景信息携带在最后一个分片中,以使当所述第一服务器接收到携带有场景信息的分片时,确定第一音频数据接收完成;
在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作,所述控制指令携带有待执行的可操作对象信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
在接收到所述第一服务器发送来的第二音频数据时,播放所述第二音频数据;其中,所述第二音频数据由文本转换而成,所述文本由所述第一音频数据转换而成。
3.根据权利要求1所述的方法,其特征在于,还包括:
在接收到所述第一服务器发送来的第二音频数据时,将所述第二音频数据发送至所述第二终端的代理模块,以使所述代理模块播放所述第二音频数据;其中,所述第二音频数据由文本转换而成,所述文本由所述第一音频数据转换而成。
4.根据权利要求1~3任一所述的方法,其特征在于,所述向第二终端上的第二客户端发送场景信息查询指令,包括:
将所述场景信息查询指令发送至所述第二终端中的代理模块,以使所述代理模块将所述场景信息查询指令发送至所述第二客户端。
5.一种语音操控终端的方法,其特征在于,包括:
在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本;其中,所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息,所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作;
对所述文本进行分词,得到分词结果;其中,将所述第一音频数据分为多个分片,将所述多个分片逐片的发送给第一服务器,所述场景信息携带在最后一个分片中,以使当第一服务器接收到携带有场景信息的分片时,确定第一音频数据接收完成;
根据所述分词结果和所述场景信息中的所述可操作对象的名称以及所述对可操作对象执行的动作,形成携带有待执行的可操作对象信息的控制指令;
将所述控制指令通过所述第一客户端发送至第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
6.根据权利要求5所述的方法,其特征在于,所述根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令,包括:
将所述分词结果与所述场景信息进行匹配,若所述场景信息中存在与所述分词结果相匹配的可操作对象信息,则形成携带有待执行的可操作对象信息的控制指令;所述待执行的可操作对象信息为与所述分词结果相匹配的可操作对象信息。
7.根据权利要求5所述的方法,其特征在于,所述根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令,包括:
将所述分词结果与所述场景信息进行匹配,若所述场景信息中不存在与所述分词结果相匹配的可操作对象信息,则根据所述分词结果搜索与所述分词结果相匹配的媒体资源;
若搜索到与所述分词结果相匹配的媒体资源,形成携带有待执行的可操作对象信息的控制指令,所述待执行的可操作对象信息为与所述分词结果相匹配的媒体资源对应的可操作对象信息。
8.根据权利要求7所述的方法,其特征在于,还包括:
若未搜索到与所述分词结果相匹配的媒体资源,则通过所述第一客户端向所述第二客户端反馈搜索结果,以使所述第二客户端展示所述搜索结果。
9.根据权利要求5所述的方法,其特征在于,所述在接收到第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本,包括:
在接收到第一客户端发送来的场景信息和第一音频数据时,将所述第一音频数据发送至第二服务器,以使所述第二服务器将所述第一音频数据转换为文本,并将所述文本返回至第一服务器。
10.根据权利要求9所述的方法,其特征在于,所述在接收到第一客户端发送来的场景信息和第一音频数据时,将所述第一音频数据发送至第二服务器,包括:
在接收到所述第一音频数据的每一个分片时,将该分片发送至所述第二服务器,以使所述第二服务器将该分片转换为对应的文本片段,并将所述文本片段返回第一服务器;
其中,各个分片对应的文本片段的组合为所述文本。
11.根据权利要求9所述的方法,其特征在于,还包括:
向所述第二服务器发送语音合成请求,以使所述第二服务器将所述文本转换为第二音频数据;
在接收到所述第二服务器返回的所述第二音频数据时,将所述第二音频数据发送至所述第一客户端。
12.一种第一客户端,其特征在于,包括:
响应模块,响应于对第一终端上第一客户端的语音录制控件的操作,录制语音得到第一音频数据,并向第二终端上的第二客户端发送场景信息查询指令;所述场景信息包括所述第二客户端的至少一个展示界面中的至少一个可操作对象信息,所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作;
第一发送模块,在接收到所述第二客户端返回的场景信息时,将所述场景信息和第一音频数据发送至第一服务器,以使所述第一服务器根据所述第一音频数据和所述场景信息中的所述可操作对象的名称以及所述对可操作对象执行的动作形成携带有待执行的可操作对象信息的控制指令;所述第一服务器为所述第二客户端的后台服务器;
其中,将所述第一音频数据分为多个分片,将所述多个分片逐片的发送给第一服务器,所述场景信息携带在最后一个分片中,以使当第一服务器接收到携带有场景信息的分片时,确定第一音频数据接收完成;
第二发送模块,在接收到所述第一服务器返回的控制指令时,将所述控制指令发送至所述第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作,所述控制指令携带有待执行的可操作对象信息。
13.一种第一服务器,其特征在于,包括:
文本确定模块,在接收到第一终端上的第一客户端发送来的场景信息和第一音频数据时,确定所述第一音频数据转换而成的文本;其中,所述场景信息包括第二终端上第二客户端的至少一个展示界面中的至少一个可操作对象信息,所述至少一个可操作对象信息包括可操作对象的名称以及对可操作对象执行的动作;
文本分词模块,对所述文本进行分词,得到分词结果;其中,将所述第一音频数据分为多个分片,将所述多个分片逐片的发送给第一服务器,所述场景信息携带在最后一个分片中,以使当第一服务器接收到携带有场景信息的分片时,确定第一音频数据接收完成;
指令形成模块,根据所述分词结果和所述场景信息,形成携带有待执行的可操作对象信息的控制指令;
第三发送模块,将所述控制指令通过所述第一客户端发送至第二客户端,以使所述第二客户端根据所述控制指令执行相应的动作。
14.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的指令集;所述处理器执行所述指令集时实现权利要求1-11任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1-11任一项所述的方法。
CN201710804781.3A 2017-09-08 2017-09-08 语音操控终端的方法、客户端、服务器 Active CN109474843B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710804781.3A CN109474843B (zh) 2017-09-08 2017-09-08 语音操控终端的方法、客户端、服务器
EP18853000.0A EP3680896B1 (en) 2017-09-08 2018-09-06 Method for controlling terminal by voice, terminal, server and storage medium
PCT/CN2018/104264 WO2019047878A1 (zh) 2017-09-08 2018-09-06 语音操控终端的方法、终端、服务器和存储介质
US16/809,746 US11227598B2 (en) 2017-09-08 2020-03-05 Method for controlling terminal by voice, terminal, server and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710804781.3A CN109474843B (zh) 2017-09-08 2017-09-08 语音操控终端的方法、客户端、服务器

Publications (2)

Publication Number Publication Date
CN109474843A CN109474843A (zh) 2019-03-15
CN109474843B true CN109474843B (zh) 2021-09-03

Family

ID=65634661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710804781.3A Active CN109474843B (zh) 2017-09-08 2017-09-08 语音操控终端的方法、客户端、服务器

Country Status (4)

Country Link
US (1) US11227598B2 (zh)
EP (1) EP3680896B1 (zh)
CN (1) CN109474843B (zh)
WO (1) WO2019047878A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474843B (zh) * 2017-09-08 2021-09-03 腾讯科技(深圳)有限公司 语音操控终端的方法、客户端、服务器
CN110322873B (zh) * 2019-07-02 2022-03-01 百度在线网络技术(北京)有限公司 语音技能的退出方法、装置、设备及存储介质
CN110600027B (zh) * 2019-08-26 2022-12-02 深圳市丰润达科技有限公司 语音终端场景控制、应用方法、语音终端、云端及系统
CN110718219B (zh) * 2019-09-12 2022-07-22 百度在线网络技术(北京)有限公司 一种语音处理方法、装置、设备和计算机存储介质
CN113194346A (zh) * 2019-11-29 2021-07-30 广东海信电子有限公司 一种显示设备
CN111464595B (zh) * 2020-03-17 2022-10-18 云知声智能科技股份有限公司 一种云端配置个性化场景的方法及装置
CN114430496B (zh) * 2020-10-15 2024-03-01 华为技术有限公司 跨设备视频搜索方法及相关设备
CN112397068B (zh) * 2020-11-16 2024-03-26 深圳市朗科科技股份有限公司 一种语音指令执行方法及存储设备
WO2022268136A1 (zh) * 2021-06-22 2022-12-29 海信视像科技股份有限公司 一种进行语音控制的终端设备及服务器
CN115002059B (zh) * 2022-05-06 2024-03-12 深圳市雷鸟网络传媒有限公司 信息处理方法、装置、计算机可读存储介质及计算机设备
CN115802083A (zh) * 2022-11-22 2023-03-14 深圳创维-Rgb电子有限公司 控制方法、装置、分体电视及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
US9691070B2 (en) * 2015-09-01 2017-06-27 Echostar Technologies L.L.C. Automated voice-based customer service

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636242B2 (en) * 1999-08-31 2003-10-21 Accenture Llp View configurer in a presentation services patterns environment
US7289964B1 (en) * 1999-08-31 2007-10-30 Accenture Llp System and method for transaction services patterns in a netcentric environment
US6389467B1 (en) * 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US20150135214A1 (en) * 2002-05-10 2015-05-14 Convergent Media Solutions Llc Method and apparatus for browsing using alternative linkbases
US20150135206A1 (en) * 2002-05-10 2015-05-14 Convergent Media Solutions Llc Method and apparatus for browsing using alternative linkbases
AU2003239385A1 (en) * 2002-05-10 2003-11-11 Richard R. Reisman Method and apparatus for browsing using multiple coordinated device
US9357025B2 (en) * 2007-10-24 2016-05-31 Social Communications Company Virtual area based telephony communications
KR101560183B1 (ko) * 2008-04-17 2015-10-15 삼성전자주식회사 사용자 인터페이스를 제공/수신하는 방법 및 장치
US20140129676A1 (en) * 2011-06-28 2014-05-08 Nokia Corporation Method and apparatus for live video sharing with multimodal modes
EP3413575A1 (en) * 2011-08-05 2018-12-12 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and electronic apparatus applying the same
US10127563B2 (en) * 2011-09-15 2018-11-13 Stephan HEATH System and method for providing sports and sporting events related social/geo/promo link promotional data sets for end user display of interactive ad links, promotions and sale of products, goods, gambling and/or services integrated with 3D spatial geomapping, company and local information for selected worldwide locations and social networking
US10096033B2 (en) * 2011-09-15 2018-10-09 Stephan HEATH System and method for providing educational related social/geo/promo link promotional data sets for end user display of interactive ad links, promotions and sale of products, goods, and/or services integrated with 3D spatial geomapping, company and local information for selected worldwide locations and social networking
US9436650B2 (en) * 2011-11-25 2016-09-06 Lg Electronics Inc. Mobile device, display device and method for controlling the same
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
US9569467B1 (en) * 2012-12-05 2017-02-14 Level 2 News Innovation LLC Intelligent news management platform and social network
CN103188538A (zh) * 2012-12-28 2013-07-03 吴玉胜 基于智能电视设备和互联网的家电控制方法及系统
CN104104703B (zh) * 2013-04-09 2018-02-13 广州华多网络科技有限公司 多人音视频互动方法、客户端、服务器及系统
CN103546762A (zh) * 2013-10-30 2014-01-29 乐视致新电子科技(天津)有限公司 一种搜索智能电视资源的方法和装置
CN104717536A (zh) * 2013-12-11 2015-06-17 中国电信股份有限公司 一种语音控制的方法和系统
CA2939356A1 (en) * 2014-02-28 2015-09-03 Russell Brands, Llc Sporting device and wearable computer interaction
US9727661B2 (en) * 2014-06-20 2017-08-08 Lg Electronics Inc. Display device accessing broadcast receiver via web browser and method of controlling therefor
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN105957530B (zh) * 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备
CN109474843B (zh) * 2017-09-08 2021-09-03 腾讯科技(深圳)有限公司 语音操控终端的方法、客户端、服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
US9691070B2 (en) * 2015-09-01 2017-06-27 Echostar Technologies L.L.C. Automated voice-based customer service

Also Published As

Publication number Publication date
WO2019047878A1 (zh) 2019-03-14
US11227598B2 (en) 2022-01-18
US20200202860A1 (en) 2020-06-25
EP3680896B1 (en) 2024-04-10
CN109474843A (zh) 2019-03-15
EP3680896A4 (en) 2021-01-06
EP3680896A1 (en) 2020-07-15

Similar Documents

Publication Publication Date Title
CN109474843B (zh) 语音操控终端的方法、客户端、服务器
US20210152870A1 (en) Display apparatus, server apparatus, display system including them, and method for providing content thereof
CN109413483B (zh) 直播内容的预览方法、装置、设备和介质
RU2614137C2 (ru) Способ и устройство для получения информации
CN110366013B (zh) 推广内容推送方法、装置及存储介质
KR101629588B1 (ko) 메타데이터 기반 인프라구조를 통한 다수의 미디어 타입들의 실시간 매핑 및 내비게이션
CN108566561B (zh) 视频播放方法、装置及存储介质
CN111724785B (zh) 小程序的语音控制方法、设备及存储介质
US9055193B2 (en) System and method of a remote conference
CN111901674A (zh) 一种视频播放控制及装置
CN105740263B (zh) 页面显示方法和装置
CN104065979A (zh) 一种动态显示和视频内容相关联信息方法及系统
WO2018095219A1 (zh) 媒体信息处理方法和装置
WO2017080200A1 (zh) 一种自定义菜单的实现方法、装置、客户端及服务器
CN108810580B (zh) 媒体内容推送方法及装置
US20090070305A1 (en) Method and system for information querying
CN107515870B (zh) 一种搜索方法和装置、一种用于搜索的装置
JP2017538328A (ja) プロモーション情報の処理方法、装置、デバイス及びコンピュータ記憶媒体
US11211063B2 (en) Multimedia device for processing voice command
KR102440341B1 (ko) 비디오 처리 방법, 장치, 단말기와 저장 매체
CN113824979A (zh) 直播间的推荐方法、装置及计算机设备
JP5624056B2 (ja) クエリを生成する方法、装置及びコンピュータプログラム
US11722708B2 (en) Display device and operating method therefor
US20240126500A1 (en) Device and method for creating a sharable clip of a podcast
CN112052377B (zh) 资源推荐方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant