CN108364644A

CN108364644A - 一种语音交互方法、终端及计算机可读介质

Info

Publication number: CN108364644A
Application number: CN201810046811.3A
Authority: CN
Inventors: 李文沛
Original assignee: Shenzhen Jinli Communication Equipment Co Ltd
Current assignee: Shenzhen Jinli Communication Equipment Co Ltd
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-08-03

Abstract

本发明实施例公开了一种语音交互方法、终端及计算机可读介质，其中方法包括：接收用户输入的语音信息；在第一数据库中，匹配出所述语音信息中的关键字对应的语音指令；所述第一数据库包括至少一个语音指令以及所述至少一个语音指令各自对应的关键字；确定出所述语音指令关联的控件；触发所述语音指令关联的控件执行所述语音指令指示的操作。通过本发明实施例，可以实现对应用功能中控件的语音控制。

Description

一种语音交互方法、终端及计算机可读介质

技术领域

本发明涉及电子技术领域，尤其涉及一种语音交互方法、终端及计算机可读介质。

背景技术

目前，随着语音技术的迅速发展，智能终端大多集成了语音交互功能，语音交互可以替代用户对终端的部分操作，极大的丰富了和便利了用户的工作和生活。但是，大部分第三方应用在被开发时，并没有为语音助手预留通信接口，利用语音交互目前并不能完全实行对第三方应用的控制。例如：不能根据用户输入的语音，利用微信“给家人发送微信消息”。这必然限制了语音交互的应用范围，阻碍了语音交互的发展。

发明内容

本发明实施例提供一种语音交互方法，可以实现对应用功能中控件的语音控制。

第一方面，本发明实施例提供了一种语音交互方法，该方法包括：

接收用户输入的语音信息；

在第一数据库中，匹配出所述语音信息中的关键字关联的语音指令；所述第一数据库包括至少一个语音指令以及所述至少一个语音指令各自关联的关键字；

确定出所述语音指令关联的控件；

触发所述语音指令关联的控件，执行所述语音指令指示的操作。

第二方面，本发明实施例提供了一种终端，该终端包括用于执行上述第一方面的方法的单元。

第三方面，本发明实施例提供了另一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

实施本发明实施例，具有如下有益效果：

终端接收用户输入的语音之后，提取语音中的信息，根据第一数据库，匹配出所述语音信息中的关键字对应的语音指令，根据语音指令确定出与所述语音指令关联的控件，根据语音的特征判断用户的身份是否合法，如果身份合法，则触发控件。实现了利用语音对具体控件的触发，提供给用户对终端更加便利的操作方法。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种语音交互方法的示意流程图；

图2是本发明另一实施例提供的一种语音交互方法的示意流程图；

图3A是本发明实施例提供的的一种用户语音输入界面示意图；

图3B是本发明实施例提供的一种语音身份匹配界面示意图；

图3C是本发明实施例提供的一种添加关键字和语音指令界面示意图；

图3D是本发明实施例提供的一种触发微信应用控件的界面示意图；

图3E是本发明实施例提供的一种用户输入另一语音的界面示意图；

图3F是本发明实施例提供的一种触发浏览器应用控件的界面示意图；

图3G是本发明实施例提供的一种触发网页页面控件的界面示意图；

图4是本发明实施例提供的一种终端的功能块示意性框图；

图5是本发明实施例提供的一种终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

具体的，终端可以包括移动手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、移动互联网设备(Mobile Internet Device，MID)、智能穿戴设备(如智能手表、智能手环)等各种用户可以使用的终端设备，本发明实施例不作限定。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

参见图1，是本发明实施例提供一种语音交互方法的示意流程图，如图1所示该方法包括但不限于如下步骤：S101-S104。

S101、终端接收用户输入的语音信息。

具体的，终端可以对从用户输入的语音信息进行关键字提取。可选的，关键字可以表现成文字信息，例如文字信息“‘微信’、‘消息’、‘不回家吃饭’”等。可选的，关键字可以表现成语音信息，例如预先存储的音频片段“今晚不回家吃饭了”等。示例仅仅用于解释本申请，不应构成限定。

下面举例说明关键字提取过程。

例如，如图3A所示，在即时通讯场景下，用户输入的语音信息可以包括，用于指示发送通讯内容的关键字和所述通讯内容，用于指示发送通讯内容的关键字，包括：即时通讯软件的名称、接收者。终端接收用户输入的语音信息内容为“发微信消息给A，告诉A今晚不回家吃饭了’”。提取文字信息中的关键字就是“微信”、“消息”、“A”，所述通讯软件的名称为“微信”，接受者为“A”，所述通讯内容就是“今晚不回家吃饭了”。根据关键字“消息”确定通讯的类型为文字通讯，如果提取到关键字“语音消息”则确定通讯类型为语音通讯，则将通讯内容“今晚不回家吃饭了”以语音的形式发送给接受者。

又例如，如图3E所示，在浏览网页场景下，终端接收用户输入的语音信息内容为“搜索进入XXX购物官网打开客服界面”。提取文字信息中的关键字就是“搜索”、“XXX购物官网”、“客服界面”。示例仅仅用于解释本申请，不应构成限定。

可选的，在终端接收用户输入的语音信息之前，终端还可以接收用户输入的第一操作，第一操作可以用于开启语音助手进而执行步骤S101。具体的，第一操作可以是触控操作(例如点击操作、滑动操作等等)、手势操作(非触控，例如画圈的手势、滑动手势等等)、图像输入操作等。

可选的，如果第一操作为触控操作，终端可以通过触摸屏检测到第一操作。可选的，如果第一操作为手势操作，终端可以通过体感传感器或者深度摄像头等检测到第一操作。可选的，如果第一操作为图像输入操作，终端可以通过摄像头检测到第一操作。

S102、在第一数据库中，终端可以匹配出所述语音信息中的关键字对应的语音指令。本申请中，第一数据库可以包括至少一个语音指令以及所述至少一个语音指令各自对应的关键字。

可选的，第一数据库可以存储在终端本地。

可选的，第一数据库可以存储在远端服务器上。终端可以请求远端服务器，以访问(查找、编辑等等)第一数据库中的数据。

可选的，针对所述第一数据库中的语音指令，终端可以接收用户输入的关键字，并将所述用户输入的关键字添加为所述语音指令关联的关键字。这样，用户就可以自定义添加语音指令关联的关键字，提高用户体验。

例如，如图3C所示，假设用户输入的语音信息内容为“发微信消息给A，告诉A今晚不回家吃饭了”，则可以分三级添加关键字(但不限于三级)，用户添加的第一级关键字为“微信”，关联的语音指令为“打开微信应用”，用户添加的第二级关键字为“A”，关联的语音指令为“打开联系人A对话框”，用户输入的第三级关键字为“消息”，关联的语音指令为“发送文字消息”。终端依照顺序从一级到三级找出语音指令集，所述语音指令集用于执行所述用户输入语音信息中包含的所有操作。示例仅仅用于解释本申请，不应构成限定。

可选的，所述第一数据库中，一条语音指令可以关联多个关键字。例如，如下表所示：

表1

其中，语音指令“打开美团软件，搜索附近美食商家”可以关联的多个关键字有“我饿了”、“美食”、“想吃东西”等关键字。表1仅仅用于解释本申请，不应构成限定。

S103、确定出所述语音指令关联的控件。

可选的，在确定关键字关联的语音指令之后，终端可以在第二数据库中，查找出所述语音指令关联的控件。本申请中，所述第二数据库可以包括至少一个控件以及所述至少一个控件各自关联的语音指令。

可选的，如果一个应用有新添加的控件，终端就可以将新添加的控件与该新添加的控件关联的语音指令对应起来，并添加至第二数据库中。

可以理解的，在一些可能的情况下，一些应用或网页的页面布局(包括的控件)是不确定的，难以预先估计页面包含哪些控件，不能预先对控件绑定语音指令。针对这些情况，终端在确定关键字关联的语音指令之后，可以先识别当前页面包含的控件，然后从所述当前页面包含的控件中匹配出所述语音指令关联的控件。如图3F、3G所示，终端在打开购物网之后，识别网页上的控件。终端获取到的控件有“主页控件”、“衣服控件”、“鞋子控件”、“客服控件”等，根据语音指令便可以匹配出所述语音指令关联的控件。示例仅仅用于解释本申请，不应构成限定。这种实现方式可以很好的适应这种情况，实现通过语音触发页面中的控件。

可选的，在第二数据库中，一条语音指令指示对一个控件的一种操作，一个控件可以有多种语音指令。对某一个控件可以有单击、长按、滑动等操作，不同的操作指示着不同的功能。例如，如下表所示：

表2

其中，控件可以是终端桌面上的微信图标，单击微信图标指示打开微信应用，长按微信图标指示删除微信应用，滑动微信图标指示移动微信应用至指定位置。表2仅仅用于解释本申请，不应构成限定。

S104、针对可以触发上述语音指令关联的控件，执行上述语音指令指示的操作。

可选的，在接收用户输入的语音之后，终端还可以获取用户的身份信息，根据上述身份信息，判断用户是否有权限触发目标控件。如果用户的身份信息合法(为终端所有人)，则触发语音指令关联的控件，执行所述语音指令指示的操作。

例如，如图3B所示，以语音身份信息为例，在接收用户输入的语音之后，终端可以对用户的语音特征进行提取。所述语音特征用于确定用户的身份是否合法(例如终端所有人)。如果语音特征合法，则触发语音指令关联的控件，执行所述语音指令指示的操作。根据用户的语音特征，可实现终端对用户的身份识别，更加智能的触发语音指令关联的控件。示例仅仅用于解释本申请，不应构成限定。

上述身份信息不限于语音特征，在接收用户输入的语音时，可以同步开启终端上的摄像头装置，获取用户的面部特征。这里，面部特征信息即用户的身份信息。实际应用中，上述身份信息还可以是其他形式的信息，例如虹膜特征等，这里不作限制。

可选的，终端可以在所述第一数据库中优先匹配出用户输入的关键字关联的语音指令。可以理解的，用户自定义的(即用户输入的)关键字更加符号用户的使用习惯。

例如，假设用户输入的语音信息内容为“发微信消息给A,告诉A今晚不回家吃饭了”。针对关键字“消息”关联有预置的(默认的)语音指令“发送文字消息”和用户输入关键字关联的语音指令“发送语音消息”。当终端检测到语音指令关联的控件时，优先执行用户输入关键字关联的语音指令“发送语音消息”。示例仅仅用于解释本申请，不应构成限定。这种实现方式可以更符合用户通过语音交互控制终端的习惯，提高用户体验。

通过本发明实施例，终端可以根据用户输入的语音更加智能的控制应用功能，可实现对应用功能中控件的操作，提供给用户对终端更加便利的操作方法。

参见图2，是本发明实施例提供的另一种语音交互方法的示意流程图，该方法包括但不限于如下步骤S201-S208。

S201、终端接收用户输入的语音信息。

具体的，可参考图1实施例中的S101，这里不再赘述。

S202、终端判断在第一数据库中是否匹配出所述语音信息中关键字关联的语音指令。

可选的，第一数据库可以存储在终端本地上。

可选的，针对所述第一数据库中的语音指令，终端可以接受用户输入的关键字，并将所述用户输入的关键字添加为所述语音指令关联的关键字。这样，用户就可以自定义添加语音指令关联的关键字，提高用户体验。

可选的，第一数据库可以包括至少一个语音指令以及所述至少一个语音指令各自对应的关键字。第一数据库中，一条语音指令可以关联多个关键字。例如，如下表所述：

表3

其中，语音指令“打开美团软件，搜索附近美食商家”可以关联的多个关键字有“我饿了”、“美食”、“想吃东西”等关键字。表3仅仅用于解释本申请，不应构成限定。

根据从语音信息中提取到的关键字，与第一数据库进行匹配。如果在第一数据库中没有匹配到所述关键字及与所述关键字关联的语音指令，则先执行步骤S203，接收用户输入的关键字，将所述用户输入的关键字添加为所述语音指令关联的关键字。再执行步骤S204，判断在第二数据库中是否匹配出所述语音指令关联的控件。如果在第一数据库中匹配到所述关键字及所述关键字关联的语音指令，则直接执行步骤S204。

S203、终端可以接收用户输入的关键字，将所述用户输入的关键字添加为所述语音指令关联的关键字。

具体的，在终端没有在第一数据库中匹配到所述关键字及与所述关键字关联的语音指令的情况下，终端会输出第一提示，用于提示用户添加语音指令关联的关键字，终端可以接受用户输入的关键字和所述关键字关联的语音指令。如图3C所示，假设用户输入的语音信息内容为“发微信消息给A，告诉A今晚不回家吃饭了”，用户则可以分三级进行添加关键字(但不限于三级)，用户添加的第一级关键字为“微信”，关联的语音指令为“打开微信应用”，用户添加的第二级关键字为“A”，关联的语音指令为“打开联系人A对话框”，用户输入的第三级关键字为“消息”，关联的语音指令为“发送文字消息”。终端依照顺序从一级到三级找出语音指令集，所述语音指令集用于执行所述用户输入语音信息中包含的所有操作。示例仅仅用于解释本申请，不应构成限定。

S204、终端判断在第二数据库中是否匹配出所述语音指令关联的控件。

表4

其中，控件可以是终端桌面上的微信图标，单击微信图标指示打开微信应用，长按微信图标指示删除微信应用，滑动微信图标指示移动微信应用至指定位置。表4仅仅用于解释本申请，不应构成限定。

根据所述语音指令，与第二数据库进行匹配。如果在第二数据库中没有匹配到与所述语音指令关联的控件，则先执行步骤S205，识别当前页面包含的控件，从所述当前页面包含的控件中匹配出与所述语音指令关联的控件。再执行步骤S206，判断根据语音特征提取的身份信息是否合法。如果在第二数据库中匹配到了与所述语音指令关联的控件，则直接执行步骤S206。

S205、终端可以识别当前页面包含的控件，从所述当前页面包含的控件中匹配出与所述语音指令关联的控件。

具体的，如果第二数据库中没有所述语音指令关联的控件，则需要对终端当前页面中的控件进行识别获取，根据所述语音指令匹配出与语音指令关联的控件。

如图3E所示，在用户输入语音信息为“搜索进入XXX购物官网，打开进入客服界面”之后，提取到的关键字为“搜索”、“XXX购物官网”、“客服界面”。在确定与关键字关联的语音指令之后，终端没有在第二数据库中匹配到与所述语音指令关联的控件。如图3F所示，在利用浏览器搜索“XXX购物官网”之后，终端对搜索结果界面内的控件进行识别，识别到的控件有“XXX购物网”、“XXX视频网”等。终端匹配到与“进入XXX购物官网”关联的网页链接，点击所述网页链接，进入“XXX购物官网”。如图3G所示，终端再对网页界面内的控件进行识别，识别到的控件有“主页”、“衣服”、“鞋子”、“客服”等。终端匹配到与“客服”关联的控件。示例仅仅用于解释本申请，不应构成限定。

S206、判断根据语音特征提取的身份信息是否合法。

可选的，在接受用户输入的语音之后，终端还可以获取用户的身份信息，根据上述身份信息，判断用户是否有权限触发目标控件。如果用户的身份信息合法(为终端所有人)，则触发语音指令关联的控件，执行所述语音指令指示的操作。

例如，如图3B所示，以语音身份信息为例，在接收用户输入的语音之后，终端可以对用户的语音特征进行提取。所述语音特征用于确定用户的身份是否合法(为终端所有人)。终端可以将提取到的用户语音特征和终端所有人的语音特征进行存储，在触发控件前调用用户的语音特征与终端所有人的语音特征进行对比，判断用户的身份信息是否合法。所述判断用户的身份信息是否合法不限于在触发控件时执行。

上述身份信息不限于语音特征，在接收用户输入的语音时，可以同步开启终端上的摄像头装置，获取用户的面部特征。这里，面部特征信息即用户的身份信息。

具体的，终端将所述用户的语音特征与预存的终端所有人的语音特征进行对比，如果用户的语音特征与终端所有人的语音特征一致，则用户的身份信息合法，有权限执行步骤S208，触发语音指令关联的控件，执行所述语音指令指示的操作。如果用户的语音特征与终端所有人的语音特征不一致，则用户的身份信息不合法，执行步骤S207。

S207、终端可以输出第二提示，用于提示用户的身份信息不合法，不具有触发控件的权限。

在根据用户的声纹信息判断用户的身份不合法之后，终端禁止触发语音指令关联的控件，并输出第二提示。所述第二提示用于提示用户的身份信息不合法，不具有触发控件的权限。所述提示消息可以是文字消息，可以是语音消息，还可以是视频消息等，在此不作限定。例如，所述提示消息的内容可以是“对不起，您暂时没有触发该控件的权限”。示例仅仅用于解释本申请，不应构成限定。

S208、触发语音指令关联的控件，执行所述语音指令指示的操作。

具体的，可参考图1实施例中的S104，这里不再赘述。

通过本发明实施例，终端可以利用用户添加的关键字与语音指令来实现对应用功能中控件更加灵活的操作，还增加了语音身份识别，避免了用户使用语音控制中的隐私泄露，使得语音交互更加智能化。

本发明实施例还提供一种终端，该终端用于执行前述任一项所述的方法的单元。具体地，参见图4，是本发明实施例提供的一种终端的示意框图。如图4所示，终端400可以包括：输入单元410、处理单元420、输出单元430，其中，

所述输入单元410，用于接收用户输入的语音信息。

所述处理单元420，用于在所述第一数据库中，匹配出所述语音信息中的关键字关联的语音指令；所述第一数据库包括至少一个语音指令以及所述至少一个语音指令各自关联的关键字。

所述处理单元420，还用于确定所述语音指令关联的控件；

所述处理单元420，还用于触发所述语音指令关联的控件，执行所述语音指令指示的操作。

进一步的，所述处理单元420还用于从用户输入的语音信息中进行特征提取，提取用户的身份信息。

可选的，所述终端400还包括第一判断单元和第一获取单元。

所述第一判断单元，用于在输入单元410接收用户输入的语音信息之后，判断在第一数据库中是否匹配出所述语音信息中关键字关联的语音指令。

所述第一获取单元，用于在所述第一判断单元判断在一数据库中未匹配出了所述语音信息中关键字关联的语音指令之后，获取用户输入的关键字，将所述用户的关键字添加为所述语音指令关联的关键字。

如果所述处理单元420未匹配出所述语音信息中的关键字关联的语音指令，则输出单元430输出第一提示，用于提示用户添加所述语音指令关联的关键字。

若所述第一判断单元判断的结果为否，则通过第一获取单元，获取用户输入的关键字，添加为所述语音指令关联的关键字。若所述第一判断单元判断的结果为是，则在第二数据库中匹配所述语音指令关联的控件。

可选的，所述终端400还包括第二判断单元和第二获取单元；

所述第二判断单元，用于在通过第一判断单元或第一获取单元获取到语音指令之后，判断在第二数据库中是否匹配出所述语音指令关联的控件。

所述第二获取单元，用于在所述第二判断单元判断在第二数据库中未匹配出所述语音指令关联的控件之后，获取终端400当前页面上的控件，并通过处理单元420匹配出与所述语音指令关联的控件。

若所述第二判断单元判断的结果为否，则通过第二获取单元，获取终端400当前页面上的控件，匹配出与所述语音指令关联的控件。若所述第二判断单元判断的结果为是，则处理单元420对用户的语音特征进行身份验证。

可选的，所述终端400还包括第三判断单元。

所述第三判断单元，用于通过用户语音特征判断用户的身份信息是否合法(为终端所有人)。

若所述第三判断单元判断的结果为否，则通过输出单元430输出第二提示信息，用于提示用户的身份信息不合法，禁止触发控件。若所述第判断单元判断的结果为是，则通过处理单元420触发所述控件。

可以理解的是，本实施例的终端400的各功能单元的具体实现可参考图1或图2方法实施例，在此不再赘述。

请参见图5，是本发明实施例提供的另一种终端的结构示意图。如图5所示的终端50包括：射频(Radio Frequency，RF)电路501、存储有一个或多个计算机程序的存储器502、输入装置503、输出装置504、传感器505、音频电路506、无线保真(Wireless Fidelity，WiFi)模块507、包括有一个或多个处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路501可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或多个处理器508处理；另外，将涉及上行的数据发送给基站。通常，RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路501还可以通过无线通信与网络和其他终端设备进行通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器502可用于存储计算机程序以及模块，处理器508通过运行存储在存储器502的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端50的使用所创建的数据(比如拍摄的照片、音频数据、视频数据等)等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器508和输入装置503对存储器502的访问。

输入装置503可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入装置503可包括触敏表面5031以及其他输入设备5032。触敏表面5031，也称为触摸显示面板或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面5031上或在触敏表面5031附近的按压操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面5031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器508，并能接收处理器508发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面5031。除了触敏表面5031，输入装置503还可以包括其他输入设备5032。具体地，其他输入设备5032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

输出装置504可用于显示由用户输入的信息或提供给用户的信息以及终端50的各种图形用户界面，这些图形用户界面可以由图形、文本、图标、视频和其任意组合来构成。输出装置504可包括显示面板5041，可选的，显示面板5041可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。进一步的，触敏表面5031可覆盖显示面板5041，当触敏表面5031检测到在其上或附近的触摸操作后，传送给处理器508以确定触摸事件的类型，随后处理器508根据触摸事件的类型在显示面板5041上提供相应的视觉输出。可以将触敏表面5031与显示面板5041集成而实现输入和输出功能。

终端50还可包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5041的亮度，接近传感器可在终端50移动到耳边时，关闭显示面板5041和/或背光等。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端50姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端50还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，此处不再赘述。

音频电路506、扬声器5061，传声器5062可提供用户与终端50之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号，传输到扬声器5061，由扬声器5061转换为声音信号输出；另一方面，传声器5062将收集的声音信号转换为电信号，由音频电路506接收后转换为音频数据，再将音频数据输出处理器508处理后，经RF电路501以发送给比如另一终端，或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔，以提供外设耳机与终端50的通信。

WiFi属于短距离无线传输技术，终端50通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块507，但是可以理解的是，其并不属于终端50的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器508是终端50的控制中心，利用各种接口和线路连接整个终端50的各个部分，通过运行或执行存储在存储器502内的计算机程序和/或模块，以及调用存储在存储器502内的数据，执行终端50的各种功能和处理数据，从而对终端50进行整体监控。可选的，处理器508可包括一个或多个处理核心；优选的，处理器508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器508中。

终端50还包括给各个部件供电的电源509(比如电池)，优选的，电源可以通过电源管理系统与处理器508逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或多个直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端50还可以包括摄像头、蓝牙模块等，此处不再赘述。具体在本发明实施例中，终端的输出装置504(或输入装置503)是触摸屏显示器，终端50还包括有存储器502、处理器508、以及一个或多个的计算机程序，其中一个或多个计算机程序存储于存储器502中，处理器508用于调用存储器502(非易失性存储器)存储的多媒体文件的管理程序执行如上步骤。

本发明实施例中的处理器508可以调用存储器502中存储的程序指令，执行上述图1或图2实施例描述的语音交互方法。

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述图1或图2实施例描述的语音交互方法。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的方法和终端的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和终端，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音交互方法，其特征在于，包括：

接收用户输入的语音信息；

确定出所述语音指令关联的控件；

2.根据权利要求1所述方法，其特征在于，还包括：获取用户的身份信息；

所述触发所述语音指令关联的控件执行所述语音指令指示的操作，具体包括：

如果所述身份信息合法，触发所述语音指令关联的控件执行所述语音指令指示的操作。

3.根据权利要求2所述方法，其特征在于，所述获取用户的身份信息，包括：从所述语音信息中提取出所述用户的语音特征；所述提取出的语音特征为所述用户的身份信息。

4.根据权利要求1所述方法，其特征在于，所述确定出所述语音指令关联的控件，包括：

在第二数据库中，查找出所述语音指令关联的控件；所述第二数据库包括至少一个控件以及所述至少一个控件各自关联的语音指令。

5.根据权利要求1所述方法，其特征在于，所述确定出所述语音指令关联的控件，包括：

识别当前页面包含的控件；

从所述当前页面包含的控件中匹配出所述语音指令关联的控件。

6.根据权利要求1所述方法，其特征在于，还包括：

针对所述第一数据库中的语音指令，接收用户输入的关键字；

将所述用户输入的关键字添加为所述语音指令关联的关键字。

7.根据权利要求1或6所述方法，其特征在于，所述在第一数据库中匹配出所述关键字对应的语音指令，包括：

在所述第一数据库中优先匹配出所述用户输入的关键字关联的语音指令。

8.一种终端，其特征在于，包括用于执行如权利要求1-7任一项所述的方法的单元。

9.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。