CN112786034A

CN112786034A - 语音交互方法、装置、设备及存储介质

Info

Publication number: CN112786034A
Application number: CN201911084726.7A
Authority: CN
Inventors: 祝俊; 袁英灿; 聂鑫鑫
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2021-05-11
Anticipated expiration: 2039-11-08
Also published as: CN112786034B

Abstract

公开了一种语音交互方法、装置、设备及存储介质。接收语音；确定语音所针对的应用程序以及语音所对应的操作请求；以及在应用程序为第一类型应用程序的情况下，加载第一类型应用程序，并指令第一类型应用程序执行与操作请求相对应的操作。第一类型应用程序可以是指对硬件资源的占用较低的小程序，由此通过语音驱动第一类型应用程序，可以缓解不断增长的应用程序与有限硬件资源之间的矛盾。例如，可以将低频的长尾应用设计为第一类型应用程序，从而使得语音交互设备支持更多数量的应用程序的同时，可以减少对硬件资源的占用。

Description

语音交互方法、装置、设备及存储介质

技术领域

本公开涉及语音交互领域，特别是涉及一种语音交互方法、装置、设备及存储介质。

背景技术

近些年，以智能音箱为代表的语音交互设备得到了飞速的发展。

与此同时，市场上也出现了越来越多的应用程序。

为了更好地为用户提供服务，设备需要尽可能支持更多的应用程序。

但是设备的硬件环境是有限的，无法满足不断增长的应用程序所带来的资源需求。

因此，需要一种能够在支持较多数量个应用程序的同时，降低设备的资源需求的语音交互方案。

发明内容

本公开的一个目的是，提供一种语音交互方案，以解决不断增长的应用程序与有限硬件资源之间的矛盾。

根据本公开的第一个方面，提出了一种语音交互方法，包括：接收语音；确定语音所针对的应用程序以及语音所对应的操作请求；以及在应用程序为第一类型应用程序的情况下，加载第一类型应用程序，并指令第一类型应用程序执行与操作请求相对应的操作。

可选地，该方法还包括：在应用程序为第二类型应用程序的情况下，启动第二类型应用程序，并指令第二类型应用程序执行与操作请求相对应的操作。

可选地，确定语音所针对的应用程序以及语音所对应的操作请求的步骤包括：获取语音的语音识别结果；对语音识别结果进行解析，以确定语音所针对的应用程序以及语音所对应的操作请求。

可选地，获取语音的语音识别结果的步骤包括：将语音上传到服务器；接收服务器返回的语音识别结果，语音识别结果为服务器对语音进行语音识别得到的。

可选地，该方法还包括：维护第一清单，第一清单用于记录设备中安装的第二类型应用程序、第二类型应用程序能够实现的功能；维护第二清单，第二清单用于记录第一类型应用程序的库中所包含的第一类型应用程序、第一类型应用程序能够实现的功能。

可选地，确定语音所针对的应用程序的步骤包括：基于第一清单，判断是否存在能够实现操作请求的第二类型应用程序；在判定不存在能够实现操作请求的第二类型应用程序的情况下，基于第二清单，判断第一类型应用程序的库中是否具有能够实现操作请求的第一类型应用程序。

可选地，第一类型应用程序为使用频率或预计使用频率低于预定阈值的应用程序。

可选地，加载第一类型应用程序的步骤包括：在程序容器中加载第一类型应用程序的安装包，以运行第一类型应用程序。

可选地，加载第一类型应用程序的安装包的步骤包括：启动程序容器；利用程序容器对第一类型应用程序的安装包进行验证；在验证通过后，利用程序容器加载第一类型应用程序的安装包，以运行第一类型应用程序。

可选地，指令第一类型应用程序执行与操作请求相对应的操作的步骤包括：利用程序容器将操作请求转换为操作指令，发送给第一类型应用程序，由第一类型应用程序执行操作指令。

可选地，该方法还包括：利用程序容器向第一类型应用程序发送一种或多种事件。

可选地，事件包括以下至少一项：传感器事件；场景事件；拾音状态事件；系统事件。

可选地，该方法还包括：利用程序容器向第一类型应用程序提供一种或多种应用功能。

可选地，应用功能包括以下至少一项：消息推送功能；摄像头调用功能；麦克风调用功能；文件访问功能。

可选地，第一类型应用程序还根据业务逻辑与应用服务器进行通信，以提供应用服务。

可选地，确定语音所针对的应用程序的步骤包括：将语音或语音的识别结果发送给服务器；接收服务器下发的与语音对应的应用程序。

可选地，确定语音所针对的应用程序的步骤包括：根据位置信息和/或应用程序的热度，确定语音所针对的应用程序。

根据本公开的第二个方面，还提出了一种语音交互方法，包括：接收语音；确定语音所针对的应用程序以及语音所对应的操作请求；加载应用程序；指令应用程序执行与操作请求相对应的操作。

可选地，加载应用程序的步骤包括：加载应用程序的安装包，以运行应用程序。

根据本公开的第三个方面，还提出了一种语音交互装置，包括：接收模块，用于接收语音；确定模块，用于确定语音所针对的应用程序以及语音所对应的操作请求；以及处理模块，用于在应用程序为第一类型应用程序的情况下，加载第一类型应用程序，并指令第一类型应用程序执行与操作请求相对应的操作。

根据本公开的第四个方面，还提出了一种语音交互装置，包括：接收模块，用于接收语音；确定模块，用于确定语音所针对的应用程序以及语音所对应的操作请求；加载模块，用于加载应用程序；指令模块，用于指令应用程序执行与操作请求相对应的操作。

根据本公开的第五个方面，还提出了一种语音交互设备，包括：接收模块，用于接收语音；通信模块，用于将语音上传到服务器，并接收服务器返回的语音识别结果；解析模块，用于对语音识别结果进行解析，以确定语音所针对的应用程序以及语音所对应的操作请求；以及处理模块，用于在应用程序为第一类型应用程序的情况下，加载第一类型应用程序，并指令第一类型应用程序执行与操作请求相对应的操作。

可选地，语音交互设备为智能音箱。

根据本公开的第六个方面，还提出了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本公开第一个方面或第二个方面述及的方法。

根据本公开的第七个方面，还提出了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本公开第一个方面或第二个方面述及的方法。

第一类型应用程序可以是指对硬件资源的占用较低的小程序，由此通过以语音交互的方式驱动第一类型应用程序，可以缓解不断增长的应用程序与有限硬件资源之间的矛盾。例如，可以将低频的长尾应用设计为第一类型应用程序，从而使得语音交互设备支持更多数量的应用程序的同时，可以减少对硬件资源的占用。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一实施例的语音交互方法的示意性流程图。

图2示出了根据本公开一实施例的语音交互流程示意图。

图3示出了根据本公开一实施例的语音交互装置的结构示意图。

图4示出了根据本公开另一实施例的语音交互装置的结构示意图。

图5示出了根据本公开一实施例的语音交互设备的结构示意图。

图6示出了根据本公开一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

考虑到很多应用属于低频的长尾应用，如果将这部分应用作为原生应用程序(即下文述及的第二类型应用程序)提供服务，则会占用设备较多的硬件资源。为此，本公开提出，可以将这种长尾应用作为非原生应用程序(即下文述及的第一类型应用程序)，设计一种支持第一类型应用程序的语音交互方案。

第一类型应用程序可以是但不限于小程序，小程序是指可以从服务器下发，无需安装即可在特定容器内执行的应用程序。其中小程序可以运行在各种已有APP中，即小程序的载体可以是APP，可以由APP提供小程序的运行环境，在APP提供的运行环境中运行小程序。APP可以是但不限于社交类APP、支付类APP等多种APP。另外小程序的载体还可以是服务器，如可以是提供小程序开发功能的云平台。

图1所示的方法可以由语音交互设备执行，语音交互设备可以是但不限于智能音箱。

图1示出的是设备唤醒后的语音交互流程，关于设备的语音唤醒流程，本公开不再赘述。例如，在接收到语音后，可以首先进行唤醒检测，如果唤醒成功，则再执行本公开的语音交互流程。

参见图1，在步骤S11，接收语音。

在接收到语音后，可以执行步骤S120，确定语音所针对的应用程序以及语音所对应的操作请求。确定语音所针对的应用程序的步骤，和确定语音所对应的操作请求的步骤，可以同步执行，也可以异步执行。

作为示例，可以首先对语音进行识别，得到语音的语音识别结果，语音识别结果也即对语音进行识别得到的文本识别信息。其中对语音进行识别的操作可以由语音交互设备执行，也可以由服务器执行。也即语音交互设备可以将语音上传到服务器，并接收服务器返回的语音识别结果。

然后可以对语音识别结果进行解析，确定语音所针对的应用程序以及语音所对应的操作请求。

操作请求用于表征语音意图，可以通过对语音识别结果进行语义解析，确定操作请求。

在确定语音所针对的应用程序时，可以通过对语音识别结果进行语义解析来确定，并且/或者也可以通过分析操作请求来确定。

具体来说，在语音识别结果本身包含语音所针对的应用程序的情况下，通过对语音识别结果进行解析，就能够确定语音所针对的应用程序。例如，在语音识别结果为“我要玩应用A中的XXX”的情况下，通过对语音识别结果进行解析，就可以确定语音所针对的应用程序为应用A。

在语音识别结果本身不包括语音所针对的应用程序的情况下，仅通过对语音识别结果进行解析，可能无法确定语音所针对的应用程序。此时可以参考所确定的操作请求，查找能够实现该操作请求的应用程序，该应用程序即为语音所针对的应用程序。例如，在语音识别结果为“我要挂省中医院的号”的情况下，通过解析，可以发现操作请求为“挂中医院的号”，根据识别出的操作请求，可以查找能够实现该操作请求的应用程序，例如可以查找能够实现挂号功能的应用程序，所查找到的应用程序即可以视为是语音所针对的应用程序。

作为示例，可以在本地或服务端维护第一清单和第二清单。第一清单用于记录设备中安装的第二类型应用程序、第二类型应用程序能够实现的功能(或操作)，第二清单用于记录第一类型应用程序的库中所包含的第一类型应用程序、第一类型应用程序能够实现的功能(或操作)。其中第一类型应用程序的库是指用于存储第一类型应用程序的安装包的库，该库可以位于本地，也可以位于服务器端。可以以设备为单位，为不同的设备维护不同的第二清单，此时第二清单所记录的第一类型应用程序可以包括设备中之前加载过(即使用过)的第一类型应用程序，还可以包括由服务器下发给设备但未被加载过的第一类型应用程序。

在对语音的语音识别结果进行解析得到操作请求后，首先可以基于第一清单判断是否存在能够实现该操作请求的第二类型应用程序，在判定不存在能够实现该操作请求的第二类型应用程序的情况下，再基于第二清单判断第一类型应用程序的库中是否具有能够实现该操作请求的第一类型应用程序。

本公开述及的第二类型应用程序(Native APP)是指基于本地操作系统运行的应用程序。第一类型应用程序是指在使用时才加载、运行的应用程序，在非使用状态下，第一类型应用程序不占用或占用很少的硬件资源。

在本公开中，可以将使用频率或预计使用频率低于预定阈值的应用程序(也即长尾应用)作为第一类型应用程序，相应地，可以将使用频率或预计使用频率高于预定阈值的应用程序作为第二类型应用程序。第一类型应用程序可以设计为但不限于小程序的形式，关于小程序可以参见上文相关描述，此处不再赘述。

作为示例，在确定语音所针对的应用程序时，还可以考虑但不限于场景信息(如位置信息、时间信息)、应用程序的属性信息(如应用程序的热度)、用于表征用户使用应用程序的历史记录等，以向用户推荐个性化的应用程序。举例来说，假设接收到的语音为“我要挂号”，此时可以根据设备当前的地理位置信息，推荐离设备最近的医院所提供的小程序，并且/或者也可以根据热度(即小程序的人气或好评情况)推荐热度较高的医院所提供的小程序。

作为示例，可以由服务器确定语音所针对的应用程序，即可以将语音或语音的识别结果发送给服务器，由服务器确定与语音对应的应用程序，并接收服务器下发的与语音对应的应用程序。由此，服务器可以从云端维护的各种应用程序中查找与语音相对应的应用程序。其中，服务器在确定与语音对应的应用程序时，也可以向用户进行个性化推荐，如可以根据用户的历史操作记录、位置信息、时间信息、应用程序的热度等，确定与语音对应的应用程序。以应用程序为小程序为例，在确定合适的小程序后，可以向设备下发小程序，以使得设备可以加载并运行该小程序。

在步骤S130，判断语音针对的应用程序是否为第一类型应用程序。

在语音针对的应用程序不是第一类型应用程序的情况下，可以执行步骤S150，直接启动该应用程序(即第二类型应用程序)，并指令第二类型应用程序执行与操作请求相对应的操作，由此，就可以实现第二类型应用程序与用户的语音交互。关于第二类型应用程序的交互流程，本公开不再赘述。

在语音针对的应用程序是第一类型应用程序的情况下，可以执行步骤S140，加载该应用程序(即第一类型应用程序)，并指令第一类型应用程序执行与操作请求相对应的操作，由此，就可以实现第一类型应用程序与用户的语音交互。加载第一类型应用程序，也即加载第一类型应用程序的安装包，以运行第一类型应用程序。第一类型应用程序在运行过程中可以根据自身的业务逻辑与应用服务器进行通信，以提供应用服务。

作为示例，可以创建一个程序容器，第一类型应用程序的加载、渲染都可以利用该程序容器实现。例如，可以启动程序容器，利用程序容器对应用程序的安装包进行验证；在验证通过后，利用程序容器加载第一类型应用程序的安装包，以运行第一类型应用程序。可以利用程序容器将操作请求转换为操作指令，发送给第一类型应用程序，由第一类型应用程序执行操作指令。由此，就可以实现第一类型应用程序与用户的语音交互。

可选地，还可以利用程序容器向第一类型应用程序发送系统通用事件，例如可以利用程序容器向第一类型应用程序发送但不限于传感器事件、场景事件、拾音状态事件、系统事件等诸多事件中的一种或多种。

可选地，还可以利用程序容器向第一类型应用程序提供系统通用的原生功能，例如可以利用程序容器向应用程序提供消息推送功能、摄像头调用功能、麦克风调用功能、文件访问功能、GPS等诸多功能中的一种或多种。

由此，在程序容器的作用下，第一类型应用程序在运行过程中，能够像第二类型应用程序一样，获取系统通用事件，调用系统原生功能，使得第一类型应用程序能够实现更多功能，满足用户多方面需求。

可选地，程序容器还可以提供包管理功能，如可以对第一类型应用程序在运行过程中需要用到的UI元素、数据内容等资源进行管理，以使得第一类型应用程序的运行过程中，无需重新下载相关资源文件。

应用例

下面以应用于智能音箱为例，就本公开的语音交互方案做进一步说明。

在本实施例中，智能音箱可以是指带屏智能音箱产品，其可以提供丰富的多模态UI交互操作，同时支持用户语音与触控操作。

对于用户使用频率较高的技能，智能音箱可以以原生应用的形式来提供服务。也即对于用户使用频率高的技能，可以将其设计为基于本地操作系统运行的第二类型应用程序。

对于用户使用频率较低的技能，由于这类技能的数量较多，智能音箱的硬件资源有限，对于这部分的技能是不适合使用原生App的方式来提供服务的，因此可以将这种长尾技能设计为第一类型应用程序(也即下文示出的小程序)，智能音箱可以以非原生应用的形式来提供服务。

图2示出了根据本公开一实施例的语音交互流程示意图。

参见图2，在步骤S1，拾音。

例如，用户可以唤醒智能音箱，并说出“我要挂省中医院的号”。

在步骤S2，语音识别。

可以由智能音箱中的语音识别模块向服务器(即图中示出的语音处理平台)发送请求，进行用户语音的在线识别。

在步骤S3，语音识别+语音识别结果返回。

语音处理平台可以将接收到的语音进行识别，理解与分析，并将相应的功能指令(即上文述及的操作请求)下发到智能音箱中的语音识别模块。

在步骤S4，指令转发给语音扩展模块。

语音识别模块可以对指令进行解析与验证，以确定指令所针对的应用程序。在发现该指令是一个与小程序相关的语音指令的情况下，可以将相关指令发送给语音扩展模块。其中，确定指令所针对的应用程序的实现方式，可以参见上文相关描述，此处不再赘述。

在步骤S5，启动程序框架。

语音扩展模块进行指令解析验证后，可以识别出要启动的小程序相关的信息，调用程序容器的接口来完成对应小程序包的验证。

如图所示，程序容器可以提供但不限于基础能力、渲染能力以及包管理能力。其中，基础能力可以包括但不限于为小程序的运行提供应用环境。

在步骤S6，加载小程序。

小程序容器加载并渲染对应的小程序包，由此智能音箱的屏幕上就可以呈现小程序界面，程序容器可以将之前识别出的功能指令传给小程序，由小程序来执行该功能指令，从而就可以实现小程序与用户的语音交互。

另外，在小程序运行过程中，用户也可以通过语音或触摸的方式，与小程序进行交互。例如，可以由程序框架将相关的语音转换为指令传给小程序，由小程序来响应这些用户输入。再例如，程序框架也可以将用户针对小程序界面中的元素的点击操作，传给小程序，由小程序响应该操作。

在步骤S7，小程序执行。

小程序可以根据自身的逻辑与对应的服务器(即图中示出的小程序平台)进行通讯，进入业务逻辑。其中小程序平台可以是但不限于小程序的开发平台，开发人员可以通过小程序平台开发并发布小程序。所发布的小程序可以根据用户需求下发给对应的设备。

本公开述及的小程序可以是各种用于实现特定功能的应用程序，例如可以是但不限于游戏类应用(如语音交互类游戏)、教育类应用(如试题辅导类应用)等等。

图3示出了根据本公开一实施例的语音交互装置的结构示意图。其中，语音交互装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图3所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图3，语音交互装置300包括接收模块310、确定模块320以及处理模块330。

接收模块310用于接收语音。

确定模块320用于确定语音所针对的应用程序以及语音所对应的操作请求。确定模块320可以包括获取模块和解析模块，获取模块可以用于获取语音的语音识别结果，解析模块可以用于对语音识别结果进行解析，以确定语音所针对的应用程序以及语音所对应的操作请求。可选地，获取模块可以包括上传模块和接收模块，上传模块用于将语音上传到服务器，接收模块用于接收服务器返回的语音识别结果，语音识别结果为服务器对语音进行语音识别得到的。确定模块320还可以包括发送模块和接收模块，发送模块用于将语音或语音的识别结果发送给服务器，接收模块用于接收服务器下发的与语音对应的应用程序。其中，确定模块320在确定语音所针对的应用程序时，还可以考虑但不限于场景信息(如位置信息、时间信息)、应用程序的属性信息(如应用程序的热度)、用于表征用户使用应用程序的历史记录等，以向用户推荐个性化的应用程序。

处理模块330用于在应用程序为第一类型应用程序的情况下，加载第一类型应用程序，并指令第一类型应用程序执行与操作请求相对应的操作。其中，处理模块330可以启动程序容器，利用程序容器对第一类型应用程序的安装包进行验证，在验证通过后，利用程序容器加载第一类型应用程序的安装包，以运行第一类型应用程序。处理模块330可以利用程序容器将操作请求转换为操作指令，发送给第一类型应用程序，由第一类型应用程序执行操作指令。处理模块330还可以利用程序容器向第一类型应用程序发送一种或多种事件。处理模块330还可以利用程序容器向第一类型应用程序提供一种或多种应用功能。

处理模块330还用于在应用程序为第二类型应用程序的情况下，启动第二类型应用程序，并指令第二类型应用程序执行与操作请求相对应的操作。关于第一类型应用程序、第二类型应用程序可以参见上文相关描述，此处不再赘述。

作为示例，语音交互装置300还可以包括维护模块，用于维护第一清单和/或第二清单。第一清单用于记录设备中安装的第二类型应用程序、第二类型应用程序能够实现的功能，第二清单用于记录第一类型应用程序的库中所包含的第一类型应用程序、第一类型应用程序能够实现的功能。

确定模块320可以基于第一清单，判断是否存在能够实现操作请求的第二类型应用程序，在判定不存在能够实现操作请求的第二类型应用程序的情况下，基于第二清单，判断第一类型应用程序的库中是否具有能够实现操作请求的第一类型应用程序。

图4示出了根据本公开另一实施例的语音交互装置的结构示意图。其中，语音交互装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图4所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

参见图4，语音交互装置400包括接收模块410、确定模块420、加载模块430以及指令模块440。

接收模块410用于接收语音。

确定模块420用于确定语音所针对的应用程序以及语音所对应的操作请求。其中，此处述及的应用程序可以是指第一类型应用程序，关于第一类型应用程序可以参见上相关描述，此处不再赘述。

作为示例，确定模块320可以包括获取模块和解析模块，获取模块可以用于获取语音的语音识别结果，解析模块可以用于对语音识别结果进行解析，以确定语音所针对的应用程序以及语音所对应的操作请求。可选地，获取模块可以包括上传模块和接收模块，上传模块用于将语音上传到服务器，接收模块用于接收服务器返回的语音识别结果，语音识别结果为服务器对语音进行语音识别得到的。

确定模块320可以包括发送模块和接收模块，发送模块用于将语音或语音的识别结果发送给服务器，接收模块用于接收服务器下发的与语音对应的应用程序。确定模块320在确定语音所针对的应用程序时，还可以考虑但不限于场景信息(如位置信息、时间信息)、应用程序的属性信息(如应用程序的热度)、用于表征用户使用应用程序的历史记录等，以向用户推荐个性化的应用程序。

加载模块430用于加载应用程序。

指令模块440用于指令应用程序执行与操作请求相对应的操作。

图5示出了根据本公开一实施例的语音交互设备的结构示意图。其中，语音交互设备的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图5所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互设备可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图5，语音交互设备500包括接收模块510、通信模块520、解析模块530以及处理模块540。

接收模块510用于接收语音。通信模块520用于将语音上传到服务器，并接收服务器返回的语音识别结果。解析模块530用于对语音识别结果进行解析，以确定语音所针对的应用程序以及语音所对应的操作请求。处理模块540用于在应用程序为第一类型应用程序的情况下，加载第一类型应用程序，并指令第一类型应用程序执行与操作请求相对应的操作。

作为示例，处理模块540可以启动程序容器，利用程序容器对第一类型应用程序的安装包进行验证，在验证通过后，利用程序容器加载第一类型应用程序的安装包，以运行第一类型应用程序。处理模块540可以利用程序容器将操作请求转换为操作指令，发送给第一类型应用程序，由第一类型应用程序执行操作指令。处理模块540还可以利用程序容器向第一类型应用程序发送一种或多种事件。处理模块540还可以利用程序容器向第一类型应用程序提供一种或多种应用功能。

在应用程序为第二类型应用程序的情况下，处理模块540还可以启动第二类型应用程序，并指令第二类型应用程序执行与操作请求相对应的操作。

处理模块540还可以维护第一清单和第二清单，关于第一清单和第二清单可以参见上文相关描述，此处不再赘述。

解析模块530可以基于第一清单，判断是否存在能够实现操作请求的第二类型应用程序；在判定不存在能够实现操作请求的第二类型应用程序的情况下，基于第二清单，判断第一类型应用程序的库中是否具有能够实现操作请求的第一类型应用程序。

作为示例，解析模块530可以将语音或语音的识别结果发送给服务器，接收服务器下发的与语音对应的应用程序。

作为示例，解析模块530在确定语音所针对的应用程序时，还可以考虑但不限于场景信息(如位置信息、时间信息)、应用程序的属性信息(如应用程序的热度)、用于表征用户使用应用程序的历史记录等，以向用户推荐个性化的应用程序。

图6示出了根据本公开一实施例可用于实现上述语音交互方法的计算设备的结构示意图。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可执行代码，当可执行代码被处理器620处理时，可以使处理器620执行上文述及的语音交互方法。

上文中已经参考附图详细描述了根据本公开的语音交互方法、装置以及设备。

此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本公开的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音交互方法，其特征在于，包括：

接收语音；

确定所述语音所针对的应用程序以及所述语音所对应的操作请求；以及

在所述应用程序为第一类型应用程序的情况下，加载所述第一类型应用程序，并指令所述第一类型应用程序执行与所述操作请求相对应的操作。

2.根据权利要求1所述的语音交互方法，其特征在于，还包括：

在所述应用程序为第二类型应用程序的情况下，启动所述第二类型应用程序，并指令所述第二类型应用程序执行与所述操作请求相对应的操作。

3.根据权利要求1所述的语音交互方法，其特征在于，确定所述语音所针对的应用程序以及所述语音所对应的操作请求的步骤包括：

获取所述语音的语音识别结果；

对所述语音识别结果进行解析，以确定所述语音所针对的应用程序以及所述语音所对应的操作请求。

4.根据权利要求3所述的语音交互方法，其特征在于，获取所述语音的语音识别结果的步骤包括：

将所述语音上传到服务器；

接收所述服务器返回的语音识别结果，所述语音识别结果为所述服务器对所述语音进行语音识别得到的。

5.根据权利要求1所述的语音交互方法，其特征在于，还包括：

维护第一清单，所述第一清单用于记录设备中安装的第二类型应用程序、所述第二类型应用程序能够实现的功能；

维护第二清单，所述第二清单用于记录第一类型应用程序的库中所包含的非原生应用程序、所述第一类型应用程序能够实现的功能。

6.根据权利要求5所述的语音交互方法，其特征在于，确定所述语音所针对的应用程序的步骤包括：

基于所述第一清单，判断是否存在能够实现所述操作请求的第二类型应用程序；

在判定不存在能够实现所述操作请求的第二类型应用程序的情况下，基于所述第二清单，判断所述第一类型应用程序的库中是否具有能够实现所述操作请求的第一类型应用程序。

7.根据权利要求1所述的语音交互方法，其特征在于，

所述第一类型应用程序为使用频率或预计使用频率低于预定阈值的应用程序。

8.根据权利要求1所述的语音交互方法，其特征在于，加载所述第一类型应用程序的步骤包括：

在程序容器中加载所述第一类型应用程序的安装包，以运行所述第一类型应用程序。

9.根据权利要求8所述的语音交互方法，其特征在于，加载所述第一类型应用程序的安装包的步骤包括：

启动程序容器；

利用所述程序容器对所述第一类型应用程序的安装包进行验证；

在验证通过后，利用所述程序容器加载所述第一类型应用程序的安装包，以运行所述第一类型应用程序。

10.根据权利要求9所述的语音交互方法，其特征在于，指令所述第一类型应用程序执行与所述操作请求相对应的操作的步骤包括：

利用所述程序容器将所述操作请求转换为操作指令，发送给所述第一类型应用程序，由所述第一类型应用程序执行所述操作指令。

11.根据权利要求9所述的语音交互方法，其特征在于，还包括：

利用所述程序容器向所述第一类型应用程序发送一种或多种事件。

12.根据权利要求11所述的语音交互方法，其特征在于，所述事件包括以下至少一项：

传感器事件；

场景事件；

拾音状态事件；

系统事件。

13.根据权利要求9所述的语音交互方法，其特征在于，还包括：

利用所述程序容器向所述第一类型应用程序提供一种或多种应用功能。

14.根据权利要求13所述的语音交互方法，其特征在于，所述应用功能包括以下至少一项：

消息推送功能；

摄像头调用功能；

麦克风调用功能；

文件访问功能。

15.根据权利要求1所述的语音交互方法，其特征在于，

所述第一类型应用程序还根据业务逻辑与应用服务器进行通信，以提供应用服务。

16.根据权利要求1所述的语音交互方法，其特征在于，确定所述语音所针对的应用程序的步骤包括：

将所述语音或所述语音的识别结果发送给服务器；

接收所述服务器下发的与所述语音对应的应用程序。

17.根据权利要求1所述的语音交互方法，其特征在于，确定所述语音所针对的应用程序的步骤包括：

根据位置信息和/或应用程序的热度，确定语音所针对的应用程序。

18.一种语音交互方法，其特征在于，包括：

接收语音；

确定所述语音所针对的应用程序以及所述语音所对应的操作请求；

加载所述应用程序；

指令所述应用程序执行与所述操作请求相对应的操作。

19.根据权利要求18所述的语音交互方法，其特征在于，确定所述语音所针对的应用程序以及所述语音所对应的操作请求的步骤包括：

获取所述语音的语音识别结果；

20.根据权利要求19所述的语音交互方法，其特征在于，获取所述语音的语音识别结果的步骤包括：

将所述语音上传到服务器；

21.根据权利要求18所述的语音交互方法，其特征在于，加载所述应用程序的步骤包括：

加载所述应用程序的安装包，以运行所述应用程序。

22.一种语音交互装置，其特征在于，包括：

接收模块，用于接收语音；

确定模块，用于确定所述语音所针对的应用程序以及所述语音所对应的操作请求；以及

处理模块，用于在所述应用程序为第一类型应用程序的情况下，加载所述第一类型应用程序，并指令所述第一类型应用程序执行与所述操作请求相对应的操作。

23.一种语音交互装置，其特征在于，包括：

接收模块，用于接收语音；

确定模块，用于确定所述语音所针对的应用程序以及所述语音所对应的操作请求；

加载模块，用于加载所述应用程序；

指令模块，用于指令所述应用程序执行与所述操作请求相对应的操作。

24.一种语音交互设备，其特征在于，包括：

接收模块，用于接收语音；

通信模块，用于将所述语音上传到服务器，并接收所述服务器返回的语音识别结果；

解析模块，用于对所述语音识别结果进行解析，以确定所述语音所针对的应用程序以及所述语音所对应的操作请求；以及

25.根据权利要求24所述的语音交互设备，其特征在于，所述语音交互设备为智能音箱。

26.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至21中任何一项所述的方法。

27.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至21中任一项所述的方法。