CN111341315B

CN111341315B - 语音控制方法、装置、计算机设备和存储介质

Info

Publication number: CN111341315B
Application number: CN202010153258.0A
Authority: CN
Inventors: 刘玉林; 王红斌; 傅成彬; 王爱飞; 马景林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2023-08-04
Anticipated expiration: 2040-03-06
Also published as: CN111341315A

Abstract

本申请涉及一种语音控制方法、装置、计算机设备和存储介质。所述方法包括：接收语音指令，基于所述语音指令获取运行的应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；将所述语音指令、所述应用程序的标识和所述应用程序的状态上报给服务器；接收所述服务器返回的目标应用程序的控制链接，所述目标应用程序是所述服务器根据所述语音指令、所述应用程序的标识和所述应用程序的状态确定的；触发所述目标应用程序的控制链接响应所述语音指令。采用本方法能够准确响应用户的语音指令。

Description

语音控制方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音控制方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了语音控制技术，语音控制技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。用户可以用过语音直接控制终端执行各个功能，例如用户通过语音播放音乐、播放视频、调整音量等。

然而，传统的语音控制方法，只依赖用户的语音进行识别以执行指令。但用户进行语音控制时经常省略部分语音信息，导致终端不能准确识别用户意图从而未能对用户语音进行正确响应。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对用户语音进行正确响应的语音控制方法、装置、计算机设备和存储介质。

一种语音控制方法，所述方法包括：

接收语音指令，基于所述语音指令获取运行的应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；

将所述语音指令、所述应用程序的标识和所述应用程序的状态上报给服务器；

接收所述服务器返回的目标应用程序的控制链接，所述目标应用程序是所述服务器根据所述语音指令、所述应用程序的标识和所述应用程序的状态确定的；

触发所述目标应用程序的控制链接响应所述语音指令。

一种语音控制方法，所述方法包括：

接收终端上报的所述语音指令、所述应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；

根据所述语音指令、所述应用程序的标识和所述应用程序的状态确定响应的目标应用程序，并生成所述目标应用程序的控制链接；

将所述目标应用程序的控制链接返回给所述终端，以指示所述终端触发所述控制链接对所述语音指令进行响应。

一种语音控制装置，所述装置包括：

获取模块，用于接收语音指令，基于所述语音指令获取运行的应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；

上报模块，用于将所述语音指令、所述应用程序的标识和所述应用程序的状态上报给服务器；

第一接收模块，用于接收所述服务器返回的目标应用程序的控制链接，所述目标应用程序是所述服务器根据所述语音指令、所述应用程序的标识和所述应用程序的状态确定的；

触发模块，用于触发所述目标应用程序的控制链接响应所述语音指令。

一种语音控制装置，所述装置包括：

第二接收模块，用于接收终端上报的所述语音指令、所述应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；

生成模块，用于根据所述语音指令、所述应用程序的标识和所述应用程序的状态确定响应的目标应用程序，并生成所述目标应用程序的控制链接；

返回模块，用于将所述目标应用程序的控制链接返回给所述终端，以指示所述终端触发所述控制链接对所述语音指令进行响应。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如下步骤：

触发所述目标应用程序的控制链接响应所述语音指令。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行如下步骤：

触发所述目标应用程序的控制链接响应所述语音指令。

上述语音控制方法、装置、计算机设备和存储介质，通过接收语音指令，基于语音指令获取运行的应用程序的标识和应用程序的状态；该状态包括播放状态和非播放状态，将语音指令、应用程序的标识和应用程序的状态上报给服务器，使得能够根据当前使得能够根据语音指令、应用程序的标识和应用程序的状态准确识别用户意图，从而准确确定响应语音指令的应用程序。接收服务器返回的目标应用程序的控制链接，目标应用程序是服务器根据语音指令、应用程序的标识和应用程序的状态确定的，触发目标应用程序的控制链接响应语音指令，使得在接收到语音指令时能够结合当前的具体场景识别用户意图，解决了因用户语音指令中携带的信息少导致响应不准确的问题。

附图说明

图1为一个实施例中语音控制方法的应用环境图；

图2为一个实施例中语音控制方法的流程示意图；

图3为一个实施例中确定处于播放状态的应用程序和目标应用程序是否相同的步骤的流程示意图；

图4为另一个实施例中语音控制方法的流程示意图；

图5为另一个实施例中生成目标应用程序的控制链接的步骤的流程示意图；

图6(a)为一个实施例中终端根据语音指令返回回复语的示意图；

图6(b)为另一个实施例中终端根据语音指令返回回复语的示意图；

图6(c)为另一个实施例中终端根据语音指令返回回复语的示意图；

图7为一个实施例中语音控制方法的整体架构图；

图8为一个实施例中语音控制装置的结构框图；

图9为另一个实施例中语音控制装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音控制方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本实施例中，终端102接收用户的语音指令，基于语音指令获取运行的应用程序的标识和应用程序的状态；该状态包括播放状态和非播放状态。

接着，终端102将语音指令、应用程序的标识和应用程序的状态上报给服务器104。服务器104接收终端上报的语音指令、应用程序的标识和应用程序的状态。接着，服务器104根据语音指令、应用程序的标识和应用程序的状态确定响应的目标应用程序，并生成目标应用程序的控制链接。接着，服务器104将目标应用程序的控制链接返回给终端102。终端102接收服务器104返回的目标应用程序的控制链接，触发目标应用程序的控制链接响应语音指令，从而完成用户响应。

在一个实施例中，如图2所示，提供了一种语音控制方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，接收语音指令，基于该语音指令获取运行的应用程序的标识和该应用程序的状态；该状态包括播放状态和非播放状态。

其中，应用程序(Application，简称APP)是指智能终端的第三方应用程序，还可分为媒体类应用程序和非媒体类应用程序。媒体类应用程序例如音乐APP、视频APP，非媒体类应用程序如阅读APP、日历APP等。应用程序的标识为应用程序的唯一标识，该标识可以是应用程序的包名。应用程序的状态是指该应用程序正处于播放状态或非播放状态。

具体地，终端可根据用户的触发操作启动终端的语音助手，当接收到用户发出的语音指令时，终端的语音助手检测当前正在运行的应用程序，并获取该当前正在运行的应用程序的标识。并确定正在运行的各个应用程序的状态。

该当前运行的应用程序包括正在播放状态的应用程序、处于非播放状态的后台运行的应用程序以及正在终端界面上展示应用程序页面的应用程序。例如，音乐APP1正在播放音乐，视频APP处于暂停状态且保持后台运行，音乐APP3中的某个页面正展示在终端的当前界面上，则音乐APP1处于播放状态、视频APP和音乐APP2处于非播放状态。

步骤204，将语音指令、应用程序的标识和该应用程序的状态上报给服务器。

具体地，终端将该语音指令、应用程序的标识和该应用程序的状态发送给服务器。进一步地，终端可将语音指令、应用程序的标识和该应用程序的状态打包为数据，并生成验证码，将数据包和验证码发送给服务器。

步骤206，接收服务器返回的目标应用程序的控制链接，该目标应用程序是该服务器根据语音指令、应用程序的标识和该应用程序的状态确定的。

其中，目标应用程序为响应该用户的语音指令的应用程序。例如，用户的语音指令为“播放视频”，则目标应用程序为视频APP，用户的语音指令为“播放音乐”，则目标应用程序为音乐APP。控制链接是指目标应用程序响应该语音指令的链接，例如，语音指令为“播放歌曲A”，则目标视频APP对应的控制链接即为在该“歌曲A”在该目标视频APP中播放的链接页面。

具体地，服务器接收到终端发送的语音指令、应用程序的标识和该应用程序的状态后，根据语音指令、应用程序的标识和该应用程序的状态确定响应的目标应用程序，并生成该目标应用程序的控制链接。接着，服务器将目标应用程序的控制链接返回给终端。终端接收该服务器返回的目标应用程序的控制链接。

步骤208，触发目标应用程序的控制链接响应该语音指令。

具体地，终端自动触发该目标应用程序的控制链接以进入该控制链接所在的页面并进行播放，从而完成对用户的语音指令的响应。

在本实施例中，终端还接收服务器返回的回复语，并播放该回复语。

上述语音控制方法中，通过接收语音指令，基于语音指令获取运行的应用程序的标识和应用程序的状态；该状态包括播放状态和非播放状态，将语音指令、应用程序的标识和应用程序的状态上报给服务器，使得能够根据当前使得能够根据语音指令、应用程序的标识和应用程序的状态准确识别用户意图，从而准确确定响应语音指令的应用程序。接收服务器返回的目标应用程序的控制链接，目标应用程序是服务器根据语音指令、应用程序的标识和应用程序的状态确定的，触发目标应用程序的控制链接响应语音指令，使得在接收到语音指令时能够结合当前的具体场景识别用户意图，从而准确响应用户的语音指令，解决了因用户语音指令中携带的信息少导致响应不准确的问题。

在一个实施例中，在该触发该目标应用程序的控制链接响应该语音指令之前，还包括：确定该运行的应用程序和该目标应用程序是否相同；当该运行的应用程序和该目标应用程序不相同时，结束该运行的应用程序。

具体地，终端接收服务器返回的目标应用程序的控制链接之后，获取该目标应用程序的标识。并将该目标应用程序的标识和运行的应用程序的标识进行对比，以确定该运行的应用程序和该目标应用程序是否相同。当该目标应用程序的标识和该运行的应用程序的标识均不相同时，判定该运行的应用程序和该目标应用程序不相同时，则终端结束该运行的应用程序。接着，终端触发该目标应用程序的控制链接以进入该控制链接所在的页面并进行播放，从而完成对用户的语音指令的响应。

在本实施例中，通过确定该运行的应用程序和该目标应用程序是否相同，当该运行的应用程序和该目标应用程序不相同时，结束该运行的应用程序，从而能够将与用户语音指令不相关的应用关闭，以提高终端的运行速度并节省电量。

在一个实施例中，如图3所示，在该触发该目标应用程序的控制链接响应该语音指令之前，还包括：

步骤302，确定运行的应用程序中处于播放状态的应用程序。

具体地，终端接收到目标应用程序的控制链接之后，获取各运行的应用程序对应的状态，确定状态为播放状态的应用程序。

步骤304，确定处于播放状态的应用程序和目标应用程序是否相同。

步骤306，当处于播放状态的应用程序和目标应用程序不相同时，结束该处于播放状态的应用程序。

具体地，终端获取处于播放状态的应用程序的标识，并获取该目标应用程序的标识。接着，终端将目标应用程序的标识和处于播放状态的应用程序的标识进行对比，以确定该处于播放状态的应用程序的标识和该目标应用程序是否相同。当该目标应用程序的标识和该处于播放状态的应用程序的标识均不相同时，判定该处于播放状态的应用程序和该目标应用程序不相同时，则终端停止该处于播放状态的应用程序的播放，并结束该处于播放状态的应用程序。接着，终端触发该目标应用程序的控制链接以进入该控制链接所在的页面并进行播放，从而完成对用户的语音指令的响应。

本实施例中，确定运行的应用程序中处于播放状态的应用程序，确定处于播放状态的应用程序和目标应用程序是否相同，当处于播放状态的应用程序和目标应用程序不相同时，结束该处于播放状态的应用程序，从而能够在触发该目标应用程序的控制链接进行播放时，先停止当前播放的应用程序，以准确切换应用程序响应用户的语音指令。

在一个实施例中，该方法还包括：当存在至少两个目标应用程序时，确定该至少两个目标应用程序的响应顺序；

该触发该目标应用程序的控制链接响应该语音指令，包括：根据该响应顺序和该至少两个目标应用程序的控制链接执行该语音指令。

具体地，终端接收到目标应用程序的控制链接后，确定目标应用程序的数量，当存在至少两个目标应用程序时，确定至少两个目标应用程序中的每个目标应用程序对应的控制链接。当存在至少两个目标应用程序，服务器返回至少两个目标应用程序中的每个目标应用程序对应的控制链接，以及至少两个目标应用程序中的每个目标应用程序的响应顺序。终端可获取该每个目标应用程序的响应顺序，按照该响应顺序依次进入至少两个目标应用程序中的目标应用程序对应的控制链接，以进入该控制链接所在的页面并执行指令，从而完成对用户的语音指令的响应。

在本实施例中，当服务器未返回至少两个目标应用程序中的每个目标应用程序对应的响应顺序时，终端可确定根据语音指令中的目标应用程序的先后顺序进入各目标应用程序对应的控制链接以完成用户响应。或者，终端可随机进入各目标应用程序对应的控制链接，当进入最后一个目标应用程序对应的控制链接所在的页面并执行指令后完成用户响应。

本实施例中，当存在至少两个目标应用程序时，确定至少两个目标应用程序的响应顺序，根据响应顺序和至少两个目标应用程序的控制链接执行语音指令，从而避免需要调整多个应用程序同时执行导致运行效率低下的问题，以提高响应的效率。

在一个实施例中，提供了一种语音控制方法，如图4所示，该方法包括：

步骤402，接收终端上报的语音指令、应用程序的标识和该应用程序的状态；该状态包括播放状态和非播放状态。

步骤404，根据语音指令、应用程序的标识和应用程序的状态确定响应的目标应用程序，并生成目标应用程序的控制链接。

具体地，服务器接收终端上报的语音指令、应用程序的标识和该应用程序的状态。接着，服务器调用语音识别技术将语音指令转化为文本。接着，服务器对该文本进行意图识别，得到用户意图。接着，服务器根据用户意图、应用程序的标识和应用程序的状态确定执行该语音指令的目标应用程序，并确定目标应用程序对应的控制服务。接着，服务器基于目标应用程序对应的控制服务生成目标应用程序的控制链接。

步骤406，将目标应用程序的控制链接返回给终端，以指示该终端触发控制链接对语音指令进行响应。

具体地，服务器将该目标应用程序的控制链接返回给终端，使得终端自动进入目标应用程序的控制链接对应的页面进行播放，以响应该语音指令。

在本实施例中，服务器还根据对目标应用程序的指令生成对应的回复语，并将该回复语返回给终端，以使终端接收并自动播放该回复语。

本实施例中，服务器接收终端上报的语音指令、应用程序的标识和该应用程序的状态；该状态包括播放状态和非播放状态，根据语音指令、应用程序的标识和应用程序的状态确定响应的目标应用程序，能够根据当前使得能够根据语音指令、应用程序的标识和应用程序的状态准确识别用户意图，从而准确确定响应语音指令的应用程序。根据语音指令生成目标应用程序的控制链接，将目标应用程序的控制链接返回给终端，使得在接收到语音指令时能够结合当前的具体场景识别用户意图，解决了因用户语音指令中携带的信息少导致响应不准确的问题。

在一个实施例中，如图5所示，该根据该语音指令、该应用程序的标识和该应用程序的状态确定响应的目标应用程序，并生成该目标应用程序的控制链接，包括：

步骤502，对语音指令进行意图识别，得到用户意图。

具体地，服务器调用语音识别技术将语音指令转化为文本。接着，服务器对该文本进行意图识别，得到用户意图。进一步地，服务器可调用ASR(Automatic speechrecognition，语音识别)将语音指令转化为文本。并调用NLP(Natural LanguageProcessing，自然语言处理)进行意图识别，得到用户意图。

步骤504，根据用户意图、应用程序的标识和应用程序的状态确定执行该语音指令的目标应用程序，并确定目标应用程序对应的控制服务。

其中，该控制服务用于实现某种特定功能的软件。该目标应用程序对应的控制服务用于实现目标应用程序中某种特定功能的软件，例如查找视频、查找歌曲、播放音乐、停止播放等。一个控制服务可对应一个应用程序，也可以一个控制服务对应多个相同属性的应用程序，例如一个音乐控制服务对应音乐APP1和音乐APP2。

具体地，服务器根据用户意图、应用程序的标识和应用程序的状态确定执行该语音指令的目标应用程序。服务器可获取应用程序和控制服务之间的映射关系，根据映射关系确定该目标应用程序对应的控制服务。

进一步地，当存在至少两个目标应用程序时，服务器根据映射关系确定至少两个目标应用程序中的每个目标应用程序对应的控制服务。

步骤506，基于目标应用程序对应的控制服务生成目标应用程序的控制链接。

具体地，服务器将针对每个目标应用程序的指令发送给对应的目标应用程序的控制服务。接着，各目标应用程序对应的控制服务根据指令生成对应的控制链接，并将控制链接返回给服务器。

在本实施例中，目标应用程序对应的控制服务还根据对该目标应用程序的控制指令生成对应的回复语，并将该回复语返回给服务器。

本实施例中，对语音指令进行意图识别，得到用户意图，根据用户意图、应用程序的标识和应用程序的状态确定执行该语音指令的目标应用程序，并确定目标应用程序对应的控制服务，从而能够结合当前场景对用户的意图进行补充，使得能够准确准确响应该语音指令的应用程序。基于目标应用程序对应的控制服务生成目标应用程序的控制链接，能够针对不同的目标应用程序的指令生成控制链接，以准确响应用户语音指令。

在一个实施例中，终端中新增应用程序之后，可在服务器中增加该新增的应用程序对应的控制服务，并将该新增的应用程序和对应的控制服务进行关联。

图6(a)为一个实施例中终端根据语音指令返回响应的回复语的示意图。用户发从“搜索明星A”的语音指令，则终端将该语音指令、应用程序的标识和应用程序的状态上传给服务器。服务器经过语音识别、自然语言转换处理确定判定目标应用程序为视频APP，则服务器基于视频APP的控制服务搜索“明星A”的代表作“功夫”，并生成该代表作在该视频APP中的控制链接。并生成回复语“正在为您播放功夫”。服务器将该“功夫”在该视频APP中的控制链接和回复语“正在为您播放功夫”返回给终端。当当前音乐APP正在播放音乐时，终端暂停或停止音乐APP的播放，播放回复语“正在为您播放功夫”。并且自动打开“功夫”在该视频APP中的控制链接进入播放页面并自动播放，从而完成用户语音指令的响应。

图6(b)为另一个实施例中终端根据语音指令返回响应的回复语的示意图。当用户发从“收藏这首歌”的语音指令，则终端将该语音指令、应用程序的标识和应用程序的状态上传给服务器。服务器经过语音识别、自然语言转换处理确定判定目标应用程序为音乐APP，则服务器基于音乐APP的控制服务搜索“收藏这首歌”应该满足的条件。该满足的条件为用户账号已登录该音乐APP。则音乐APP的控制服务确定用户账号当前是否已登录该音乐APP，未登录时，该音乐APP的控制服务生成回复语“请登录您的账号”，并生成该登录界面的控制链接。服务器将登录界面的控制链接和回复语“请登录您的账号”返回给终端。终端播放回复语“请登录您的账号”给用户，并自动打开该音乐APP的登录界面的控制链接进入登录页面，从而完成用户语音指令的响应。

图6(c)为另一个实施例中终端根据语音指令返回响应的回复语的示意图。当用户发从“二倍速播放”的语音指令，则终端将该语音指令、运行的应用程序的标识和应用程序的状态上传给服务器。服务器经过语音识别、自然语言转换处理识别该语音指令的用户意图。从该用户意图中未能直接确定目标应用程序，则服务器根据运行的应用程序的标识和应用程序的状态，确定正处于播放状态的应用程序为目标应用程序。并通过该正处于播放状态的应用程序对应的控制服务确定当前播放内容是否能够进行“二倍速播放”。当当前播放内容不支持调整速度时，生成“抱歉，当前内容暂不支持调整速度”的回复语，并将该回复语返回给终端。终端播放回复语“抱歉，当前内容暂不支持调整速度”给用户，以完成对用户语音指令的响应。

如图7所示，为一个实施例中语音控制方法的整体架构图。用户发出“继续播放音乐”的语音指令，终端的语音助手接收该语音指令。接收到该用户语音指令后，终端的语音助手查找当前运行的媒体类APP，并获取每个运行的媒体类APP当前的状态，该当前运行的媒体类APP包括正在播放状态的媒体APP、处于非播放状态的后台运行的媒体APP以及正展示APP页面的媒体APP。该APP的状态包括播放状态和非播放状态。例如，音乐APP1正在播放音乐，视频APP处于暂停状态且保持后台运行，音乐APP3中的某个页面正展示在终端的当前界面上，则音乐APP1处于播放状态、视频APP和音乐APP2处于非播放状态。接着，终端的语音助手获取当前运行的媒体类APP的包名，该APP的包名即为该APP的唯一标识符。终端的语音助手将该“继续播放音乐”的语音指令、该当前运行的媒体类APP的包名和该当前运行的媒体类APP的状态上报给Server，即后台服务。

接着，后台服务接收该“继续播放音乐”的语音指令、该当前运行的媒体类APP的包名和该当前运行的媒体类APP的状态后，后台服务调用ASR(Automatic speechrecognition，语音识别)将“继续播放音乐”的语音指令转化为文本。接着，后台服务调用NLP(Natural Language Processing，自然语言处理)进行意图识别，得到用户意图。将识别的用户意图和APP包名发送给全局媒体控制分发服务，全局媒体控制分发服务接收到意图“继续”“播放”“音乐”、APP的包名和APP状态后，从“继续”“播放”“音乐”中可确定响应该用户语音指令的APP是音乐APP。并且，根据“继续”该意图可确定需要使用距离当前时间最近一次播放音乐的APP进行播放，并且是按照距离当前时间最近一次播放的方式播放歌曲。则全局媒体控制分发服务可确定距离当前时间最近一次播放音乐的APP为需要响应该用户语音指令的目标APP。则全局媒体控制分发服务可根据目标APP的包名确定该目标APP对应的控制服务。一个APP可对应一个控制服务，也可以一个控制服务对应多个相同属性的APP，例如一个音乐控制服务对应音乐APP1和音乐APP2。该控制服务用于实现某种特定功能的软件。

接着，全局媒体控制分发服务根据APP的包名和APP状态可确定当前处于播放状态的APP是不是目标APP。当当前处于播放状态的APP不是目标APP时，需要将该处于播放状态的APP停止。则全局媒体控制分发服务将“继续”“播放”“音乐”发送给音乐APP标识对应的控制服务，即音乐APP控制服务。并将“停止播放”的指令发送给处于播放状态的APP对应的控制服务。接着，音乐APP控制服务接收到“继续”“播放”“音乐”的用户意图后，该音乐APP控制服务同时对应音乐APP1和音乐APP2，则该音乐APP控制服务确定使用距离当前时间最近一次播放音乐的APP是音乐APP1还是音乐APP2，即确定目标音乐APP。确定之后，该音乐APP控制服务控制目标音乐APP查找距离当前时间最近一次播放的歌曲，并生成该歌曲在该目标音乐APP中的控制链接和回复语。接着，全局媒体控制分发服务将该目标音乐APP的控制链和回复语接返回给后台服务，后台服务获取该目标音乐APP的控制链接和回复语返回给终端语音助手。

接着，终端的语音助手播放该回复语，并触发该目标音乐APP的控制链接，进入歌曲在该目标音乐APP的播放界面，从而完成用户的语音指令。

在一个实施例中，提供了一种语音控制方法，该方法包括：

终端接收语音指令，基于语音指令获取运行的应用程序的标识和应用程序的状态；该状态包括播放状态和非播放状态。

接着，终端将语音指令、应用程序的标识和应用程序的状态上报给服务器。

服务器接收终端上报的语音指令、应用程序的标识和应用程序的状态，状态包括播放状态和非播放状态。

接着，终端根据语音指令、应用程序的标识和应用程序的状态确定响应的目标应用程序，并生成目标应用程序的控制链接。

接着，终端将目标应用程序的控制链接返回给终端。

进一步地，终端接收服务器返回的目标应用程序的控制链接，目标应用程序是服务器根据语音指令、应用程序的标识和应用程序的状态确定的。

接着，终端确定运行的应用程序中处于播放状态的应用程序，并确定处于播放状态的应用程序和目标应用程序是否相同。

进一步地，当处于播放状态的应用程序和目标应用程序不相同时，终端结束处于播放状态的应用程序。

接着，当存在至少两个目标应用程序时，终端确定至少两个目标应用程序的响应顺序。

进一步地，终端根据响应顺序触发至少两个目标应用程序的控制链接响应语音指令。

本实施例中，基于语音指令获取运行的应用程序的标识和应用程序的状态，将语音指令、应用程序的标识和应用程序的状态上报给服务器，使得能够根据当前使得能够根据语音指令、应用程序的标识和应用程序的状态准确识别用户意图，从而准确确定响应语音指令的应用程序。接收服务器返回的目标应用程序的控制链接，目标应用程序是服务器根据语音指令、应用程序的标识和应用程序的状态确定的，触发目标应用程序的控制链接响应语音指令，使得在接收到语音指令时能够结合当前的具体场景识别用户意图，解决了因用户语音指令中携带的信息少导致响应不准确的问题。并能够根据不同用户指令生成对应的回复语，实现用户定制化的回复响应。

应该理解的是，虽然图2-图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种语音控制装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块802、上报模块804、第一接收模块806和触发模块808，其中：

获取模块802，用于接收语音指令，基于语音指令获取运行的应用程序的标识和应用程序的状态；该状态包括播放状态和非播放状态。

上报模块804，用于将语音指令、应用程序的标识和应用程序的状态上报给服务器。

第一接收模块806，用于接收服务器返回的目标应用程序的控制链接，目标应用程序是服务器根据语音指令、应用程序的标识和应用程序的状态确定的。

触发模块808，用于触发目标应用程序的控制链接响应语音指令。

上述语音控制装置中，接收语音指令，基于语音指令获取运行的应用程序的标识和应用程序的状态；该状态包括播放状态和非播放状态，将语音指令、应用程序的标识和应用程序的状态上报给服务器，使得能够根据当前使得能够根据语音指令、应用程序的标识和应用程序的状态准确识别用户意图，从而准确确定响应语音指令的应用程序。接收服务器返回的目标应用程序的控制链接，目标应用程序是服务器根据语音指令、应用程序的标识和应用程序的状态确定的，触发目标应用程序的控制链接响应语音指令，使得在接收到语音指令时能够结合当前的具体场景识别用户意图，解决了因用户语音指令中携带的信息少导致响应不准确的问题。

在一个实施例中，该装置还包括：结束模块。该结束模块用于：确定运行的应用程序和目标应用程序是否相同；当运行的应用程序和目标应用程序不相同时，结束运行的应用程序。

在一个实施例中，该结束模块用于：确定运行的应用程序中处于播放状态的应用程序；确定处于播放状态的应用程序和目标应用程序是否相同；当处于播放状态的应用程序和目标应用程序不相同时，结束处于播放状态的应用程序。

在一个实施例中，该触发模块808还用于：当存在至少两个目标应用程序时，确定至少两个目标应用程序的响应顺序；根据响应顺序和至少两个目标应用程序的控制链接执行语音指令。

在一个实施例中，如图9所示，提供了一种语音控制装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：第二接收模块902、生成模块904和返回模块906，其中：

第二接收模块902，用于接收终端上报的语音指令、应用程序的标识和应用程序的状态；状态包括播放状态和非播放状态。

生成模块904，用于根据语音指令、应用程序的标识和应用程序的状态确定响应的目标应用程序，并生成目标应用程序的控制链接。

返回模块906，用于将目标应用程序的控制链接返回给终端，以指示终端触发控制链接对语音指令进行响应。

在一个实施例中，该生成模块904还用于：对语音指令进行意图识别，得到用户意图；根据用户意图、应用程序的标识和应用程序的状态确定执行语音指令的目标应用程序，并确定目标应用程序对应的控制服务；基于目标应用程序对应的控制服务生成目标应用程序的控制链接。

关于语音控制装置的具体限定可以参见上文中对于语音控制方法的限定，在此不再赘述。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

触发所述目标应用程序的控制链接响应所述语音指令。

2.根据权利要求1所述的方法，其特征在于，在所述触发所述目标应用程序的控制链接响应所述语音指令之前，还包括：

确定所述运行的应用程序和所述目标应用程序是否相同；

当所述运行的应用程序和所述目标应用程序不相同时，结束所述运行的应用程序。

3.根据权利要求1所述的方法，其特征在于，在所述触发所述目标应用程序的控制链接响应所述语音指令之前，还包括：

确定所述运行的应用程序中处于播放状态的应用程序；

确定所述处于播放状态的应用程序和所述目标应用程序是否相同；

当所述处于播放状态的应用程序和所述目标应用程序不相同时，结束所述处于播放状态的应用程序。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

当存在至少两个目标应用程序时，确定所述至少两个目标应用程序的响应顺序；

所述触发所述目标应用程序的控制链接响应所述语音指令，包括：

根据所述响应顺序和所述至少两个目标应用程序的控制链接执行所述语音指令。

5.一种语音控制方法，其特征在于，所述方法包括：

接收终端上报的语音指令、应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音指令、所述应用程序的标识和所述应用程序的状态确定响应的目标应用程序，并生成所述目标应用程序的控制链接，包括：

对所述语音指令进行意图识别，得到用户意图；

根据所述用户意图、所述应用程序的标识和所述应用程序的状态确定执行所述语音指令的目标应用程序，并确定所述目标应用程序对应的控制服务；

基于所述目标应用程序对应的控制服务生成所述目标应用程序的控制链接。

7.一种语音控制装置，其特征在于，所述装置包括：

8.一种语音控制装置，其特征在于，所述装置包括：

第二接收模块，用于接收终端上报的语音指令、应用程序的标识和所述应用程序的状态；所述状态包括播放状态和非播放状态；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。