CN107992587A

CN107992587A - 一种浏览器的语音交互方法、装置、终端和存储介质

Info

Publication number: CN107992587A
Application number: CN201711296607.9A
Authority: CN
Inventors: 李天赐; 丁艳红; 王欣彤; 丁熙荣; 李赋博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-05-04

Abstract

本发明实施例公开了一种浏览器的语音交互方法、装置、终端和存储介质。该方法包括：实时监听用户录入的语音指令；对监听到的语音指令进行意图识别；将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配，并执行匹配成功的控制指令。本发明实施例无需唤醒，且实时监听用户录入的语音指令，对监听到的语音指令进行意图识别，并对识别出的意图进行匹配，以此匹配到符合用户录入的语音指令意图的控制指令，并执行该控制指令。实现全局通过语音交互进行搜索和浏览的功能，无需用户的启动或手动操作，通过自然语言即可对浏览器实现语音的控制，进而提升用户体验。

Description

一种浏览器的语音交互方法、装置、终端和存储介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种浏览器的语音交互方法、装置、终端和存储介质。

背景技术

人工智能虽然作为目前的研究重点，但传统且成熟的搜索和浏览器类的平台型产品，已让用户养成了人工操作来搜索和浏览的习惯，因此难以利用人工智能类的新技术和新设计完全颠覆传统的用户搜索和浏览的方式。

现有搜索类和浏览器类产品逐渐集成有新的技术，并且主要是通过插件形式，例如语音和拍照搜索插件，在现有产品框架中另外集成了一部分独立的功能，隶属于产品的一部分。但此类插件入口很深，用户感知度较低，不利于产品的改进以及用户使用习惯的养成。而主推人工智能新技术的全新的智能助手，虽然有全新的产品形态，但未能与传统业务很好的结合，也无法很好地养成用户的使用习惯以及产品的长久使用，多为尝鲜类用户的短暂使用，用户普及度不够。

上述两种方式，都不利于用户养成并维持对于新的交互技术的使用习惯。以插件的形式集成在传统平台的产品对新技术的突出力度不够，且产品形态受限；智能助手与现有产品脱节严重。

发明内容

本发明实施例提供了一种浏览器的语音交互方法、装置、终端和存储介质，通过全局语音交互实现搜索和浏览功能，提升用户体验。

第一方面，本发明实施例提供了一种浏览器的语音交互方法，包括：

实时监听用户录入的语音指令；

对监听到的语音指令进行意图识别；

将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配，并执行匹配成功的控制指令。

第二方面，本发明实施例提供了一种浏览器的语音交互装置，包括：

监听模块，用于实时监听用户录入的语音指令；

识别模块，用于对监听到的语音指令进行意图识别；

匹配模块，用于将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配，并执行匹配成功的控制指令。

第三方面，本发明实施例提供了一种终端，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例任意实施例所述的浏览器的语音交互方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例任意实施例所述的浏览器的语音交互方法。

本发明实施例无需唤醒，且实时监听用户录入的语音指令，对监听到的语音指令进行意图识别，并将识别出的意图与浏览器中包含的各控制指令的意图进行匹配，以此匹配到符合用户录入的语音指令意图的控制指令，并执行该控制指令。实现全局通过语音交互进行搜索和浏览的功能，无需用户启动语音监听，也无需用户手动操作，通过语音即能够实现对浏览器的控制，进而提升用户体验。

附图说明

图1为本发明实施例一提供的一种浏览器的语音交互方法的流程图；

图2为本发明实施例一提供的语音指令支持范围的示例图；

图3为本发明实施例一提供的搜索流程中页面显示的示例图；

图4为本发明实施例一提供的打开扫二维码功能的页面显示示例图；

图5为本发明实施例二提供的一种浏览器的语音交互方法的流程图；

图6A为本发明实施例二提供的首页中语音状态展示区域的示例图；

图6B为本发明实施例二提供的网页中语音状态展示区域的示例图；

图7为本发明实施例二提供的首页中状态提示符的示例图；

图8为本发明实施例二提供的网页中状态提示符的示例图；

图9为本发明实施例二提供的关闭语音选项后页面显示的示例图；

图10A为本发明实施例二提供的滑动操作前网页工具栏显示的示例图；

图10B为本发明实施例二提供的滑动操作后网页工具栏显示的示例图；

图11为本发明实施例三提供的一种浏览器的语音交互装置的结构示意图；

图12为本发明实施例四提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种浏览器的语音交互方法的流程图，本实施例可适用于语音控制浏览器进行搜索和浏览的情况，该方法适用于浏览器和所有浏览类产品，例如手机或平板电脑上的浏览器或嵌入冰箱等家用电器上的浏览器等，该方法可由浏览器的语音交互装置来执行。该方法具体包括如下步骤：

S110、实时监听用户录入的语音指令。

在本发明的具体实施例中，语音指令是指用户在使用浏览器过程中录入的语音，如可以是具有控制网页搜索、浏览功能、页面控制或者浏览器设置功能的语音。本发明实施例不限制用户输入的指令语言，不限定用户说指定的词，不限制用户输入的指令语言，语音指令为用户正常说出的自然语言即可。因此可以实现用户通过自然语言与浏览器进行正常的语音交互，用户说出的控制语音不受任何限制，提高用户与浏览器语音交互时的体验。

此外，浏览器始终处于语音监听状态，无需外界或人工额外的唤醒操作。因此通过对用户录入的语音指令进行实时地监听，免去了用户用于唤醒的操作，且防止未唤醒时没有监听到语音指令而无法进行语音控制的情况，提高了用户语音指令的监听效率以及用户与浏览器语音交互时的体验。

示例性的，若用户在烹饪的过程中，双手不便于操作浏览器来进行菜谱的搜索和浏览，因此此时通过实时地全局监听用户的语音指令，例如当用户说出“搜索菜谱宫保鸡丁”时，则可获得用户的语音指令，便于用户的搜索。

S120、对监听到的语音指令进行意图识别。

在本发明实施例的具体实施例中，意图是指用户与浏览器进行语音交互时的用户目的，例如网页搜索、页面控制、打开网页和选项设置等意图。当正确识别出用户语音指令中的意图后，可以根据用户的意图匹配正确的浏览器控制指令，实现浏览器的有效控制。

优选的，依据预先构建的意图识别模型对监听到的语音指令进行意图识别，其中所述意图识别模型是依据预先采集的触发浏览器中各控制指令的语料集，以及所述各控制指令所属的意图进行深度学习模型训练得到的。

在本发明实施例的具体实施例中，可以通过意图识别模型对监听到的语音指令进行意图识别，因此意图识别的关键在于意图识别模型的构建和训练。在构建和训练模型的前期准备中，首先需要采集可触发浏览器中各控制指令的语料集以及所属的意图。可以理解为，意图与浏览器中的控制指令是一一对应的关系，但是可表述该意图的自然语言是多种多样的，用户可以说出多种语音来表示同一意图，因此在构建和训练意图识别模型时，需要采集可表示某一意图下的多种描述语音，并与对应的意图进行关联后保存在语料集中。然后，根据语料集中的各个语料及其所属意图，构建并训练深度学习模型，即本实施例所需的意图识别模型。最后，将监听到的语音指令通过语音识别技术转化为对应的文本信息，并将文本信息输入到意图识别模型进行意图识别。

示例性的，意图“返回”与浏览器中的控制指令“返回”是一一对应的关系，则在构建和训练意图识别模型前需要采集可表示“返回”意图对应的语料信息，例如用户通常会说的“返回”、“后退”或“回上一页”等语料都可表示意图“返回”，因此将上述语料与意图“返回”进行关联，并保存在语料集中。根据语料集中的“返回”、“后退”或“回上一页”等语料及其所属意图“返回”，构建并训练意图识别模型。因此当用户说出任意一个表示意图“返回”的语音指令时，意图识别模型都可识别出其对应的意图即为“返回”。

此外，为了提升嘈杂环境中用户语音指令意图识别的准确度，选用用户提供的实际生活场景中的语料进行训练。例如，在安静的环境中，训练前意图识别的准确度为96.23％，经训练后意图识别的准确度提升了3％左右；在噪声较低的咖啡厅的环境中，训练前意图识别的准确度为79.44％，经训练后意图识别的准确度提升了7％左右；在更加嘈杂的餐馆环境中，训练前意图识别的准确度为69.20％，经训练后意图识别的准确度提升了11％左右。由于实际生活场景中或多或少都存在噪声，因此采用实际生活场景中的语料训练意图识别模型，会大幅度地提高意图识别的准确度，进而提升用户体验。

S130、将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配，并执行匹配成功的控制指令。

在本发明实施例的具体实施例中，浏览器中包含所有控制指令，各个控制指令与其所属的意图一一对应，也就是说，语音指令的意图与控制指令的意图同时都表示了用户的同一个浏览器操作目的。因此当识别出语音指令的意图后，即可通过将语音指令的意图与各控制指令的意图进行匹配，找出意图一致的浏览器控制指令，即将用户最初录入的语音指令转化为浏览器中的控制指令，并执行该控制指令，实现语音指令对浏览器的控制。

可选的，所述控制指令包括搜索指令、打开网站指令、操作网页指令、常规功能指令和打开设置项指令中的至少一个。

在本发明实施例的具体实施例中，浏览器中的控制指令是指用于控制浏览器进行网页的搜索、页面的浏览以及选项的设置等操作。控制指令通常包括搜索指令、打开网站指令、操作网页指令、常规功能指令和打开设置项指令。图2为本发明实施例一提供的语音指令支持范围的示例图，其中，各类语音控制指令下都包含了与各控制指令意图一致的语料信息。具体的，搜索指令是指根据用户语音指令的内容，在浏览器中实现网页的搜索，例如当用户说出“明天北京的天气怎么样”或“搜索明天北京的天气”，则浏览器执行搜索指令并将明天北京的天气情况提供给用户。如图3所示，从右至左依次为搜索流程中提示用户进行语音输入、监听并识别到语音指令以及展示搜索结果的页面显示示例图。打开网站指令是指根据用户语音指令的内容，在浏览器中实现指定网站的打开，例如当用户说出“打开新浪网”，则浏览器将新浪网的首页提供给用户。操作网页指令是指对网页状态或网页中的小功能按键进行控制的控制指令，例如网页的前进和后退。常规功能指令是指启动用户指定的常规功能的指令。示例性的，图4为本发明实施例一提供的打开扫二维码功能的页面显示示例图，从右至左依次为启动扫二维码功能流程中，网页中提示用户进行语音输入、监听并识别到语音指令以及启动扫二维码功能的页面显示示例图。当用户说出“扫二维码”，则根据用户的语音指令打开扫描二维码的界面供用户使用。打开设置项指令是指根据用户的语音指令，打开用于系统设置类选项的相关界面，例如当用户说出“检查更新”，则根据用户的语音指令检查浏览器是否需要更新。

除了一些用户查看网页内容时的用户操作之外，可以实现语音控制的浏览器控制指令，基本上包含了浏览器上的一切操作，最大限度地缩减了用户在获知自己想要了解的内容之前的一切操作，使得用户操作更加灵活，更容易让用户接受这样简便的语音控制操作，利于用户语音控制浏览器习惯的养成。

本实施例的技术方案，通过采集语料及其所属意图，构建并训练意图识别模型，利用无需唤醒的浏览器，实时监听用户录入的语音指令，通过意图识别模型对监听到的语音指令进行意图识别，并对识别出的意图与浏览器中包含的各控制指令的意图进行匹配，以此匹配到符合用户录入的语音指令意图的控制指令，并执行该控制指令。实现全局通过语音交互进行搜索和浏览的功能，无需用户启动语音监听，也无需用户手动操作，通过语音即能够实现对浏览器的控制，进而提升用户体验。

实施例二

本实施例在上述实施例的基础上，提供了浏览器的语音交互方法的又一种实施方式，能够根据当前页面的状态录入语音并展示语音处理状态。图5为本发明实施例二提供的一种浏览器的语音交互方法的流程图，如图5所示，该方法包括以下具体步骤：

S210、实时监听用户录入的语音指令。

优选的，若当前页面是网页，且用户录入任一语音指令的时间长度大于时间长度阈值，则结束该语音指令的获取。

在本发明实施例的具体实施例中，浏览器当前的页面分为浏览器首页和进入浏览器后的网页。在嘈杂环境中，系统仍会保持实时地监听语音指令，但由于环境中的声音较为复杂，导致系统无法进行正常的监听操作，因此若在监听到语音指令后的预设时间长度内没有语音的录入，则强制结束该语音指令的获取。本实施例对预设时间长度不作具体限定，如可以是5s等。

当浏览器当前页面是网页时，系统在网页底部展示提示用户直接进行语音输入的状态提示符，用户可以直接说出语音的关键词，系统将监听到的语音指令经语音识别后的结果展现在上一步状态提示符的位置上。若用户录入任一语音指令的时间长度大于时间长度阈值，导致系统无法进行正常的监听操作，因此结束该语音指令的获取。

可选的，若当前页面是首页，且在监听到语音指令后的预设时间长度内没有语音录入，则结束所述语音指令的获取。具体的，当浏览器当前页面是首页时，系统在首页中心展示提示用户直接进行语音输入的状态提示符，用户可以直接说出语音指令，系统将监听到的语音指令经语音识别后的结果展现在上一步状态提示符的位置上。

S220、若监听到的语音指令的起始语音是搜索启动语音，则依据所述起始语音之后的所述语音指令确定搜索词进行搜索。

在本发明实施例的具体实施例中，为了辅助判断用户说出的是语音指令，为搜索指令增加了搜索启动语音，例如语音指令的起始语为“搜索”二字。与此同时，通过设置“搜索+搜索词”搜索句式的语音指令，便于用户搜索意图的识别，且便于监听语音指令时搜索词和用户闲聊的区分，避免不必要的误搜索操作。因此，若监听到的语音指令的起始语音是搜索启动语音，则依据该起始语音之后的语音指令内容确定搜索词并进行搜索。示例性的，当用户说出“搜索明天北京的天气”，则浏览器锁定该语音指令的意图为搜索，并明确搜索词为“明天北京的天气”，最后根据搜索词执行搜索指令，并将明天北京的天气情况提供给用户。

传统的使用键盘输入的操作进行搜索时，用户需要点击输入框，输入文字，点击搜索按钮，第四步才能查看搜索结果；或者通点击/长按语音按钮，说出语音关键词，第三步才能查看搜索结果。相比于传统手动的键盘输入操作，本实施例的技术方案，在实时语音监听的情况下，用户可以直接说出语音指令或语音关键词，第二步时用户即可查看搜索结果。大幅度地缩减了用户搜索时的操作步骤，提升了用户体验。此外，本实施例的键盘输入关键词的搜索方式，当用户输入关键词后，系统后台会自动匹配最佳的关键词并发起搜索操作，免去了用户点击搜索按钮的操作，即使在键盘输入的方式中也能为用户带来极速搜索的体验。

S230、依据当前工作状态，在所述当前页面的语音状态展示区域中展示语音处理状态提醒。

可选的，若所述当前页面是首页，则将中心区域确定为语音状态展示区域；若所述当前页面是网页，则将底部工具栏确定为语音状态展示区域。

在本发明实施例的具体实施例中，由于系统采用全局的语音监听和控制，因此在页面中保留但弱化了手动键盘的输入。图6A为本发明实施例二提供的首页中语音状态展示区域的示例图，图6B为网页中语音状态展示区域的示例图。具体的，如图6A所示，在首页中，将工具栏输入框作为辅助形式显示在页面的底部工具栏上，点击激活文字输入，并显示完整的输入键盘。因此将页面中心区域确定为语音状态展示区域，用于展示系统提示符合语音指令的语音识别结果。如图6B所示，在网页中，为了最大化的展示网页中的内容，因此将底部工具栏确定为语音状态展示区域，并将网页语音输入和键盘输入整合在底部工具栏上，底部工具栏直接显示“说出指令/点击输入”的文本提示信息，用户可以直接录入语音指令关键词，也可以点击工具栏输入框，激活键盘输入并关键词。

优选的，若处于语音采集等待状态，则在所述当前页面的语音状态展示区域中展示监听中可录入状态提示符，以提示用户直接进行语音输入；若处于用户语音采集过程中，则在所述语音状态展示区域中展示语音采集和识别中提示符，并显示实时的语音识别结果；若处于意图识别过程中，则在所述语音状态展示区域中展示意图识别中提示符。

在本发明实施例的具体实施例中，系统当前工作状态分为三种情况，即语音采集等待状态、用户语音采集过程中以及意图识别过程中。图7为本发明实施例二提供的首页中状态提示符的示例图，其中从左至右分别为通过不同图形展示的语音采集等待状态、语音采集过程中和意图识别过程中的状态提示符的示例图。图8为本发明实施例二提供的网页中状态提示符的示例图，其中从左至右依次分别为通过不同图形展示的语音采集等待状态、语音采集过程中和意图识别过程中的状态提示符的示例图。

具体的，语音采集等待状态是指未监听到任何语音指令并实时保持监听的状态，因此为了便于语音指令的采集，在语音状态展示区域中展示监听中可录入状态提示符，例如“请“说出”搜索词或指令”，以提示用户直接进行语音输入。用户语音采集过程中是指监听到用户的语音指令并进行语音识别的过程中，因此为了告知用户语音指令采集成功并正在进行识别，则在语音状态展示区域中展示语音采集和识别中提示符，并显示实时的语音识别结果。意图识别过程中是指根据语音识别后的文本信息，利用意图识别模型对语音指令进行意图识别并进行指令执行的过程，因此为了告知用户语音指令的控制情况，在语音状态展示区域中展示意图识别中提示符。

此外，由于用户在使用语音控制浏览器的操作方式中，用户还处于语音控制习惯养成过程中，因此本实施例还提供给用户关闭语音选项的功能，为不应是语音控制操作方式的用户提供解决方案。图9为本发明实施例二提供的关闭语音选项后页面显示的示例图，从右至左依次为首页、网页以及网页中录入语音的示例图。具体的，语音选项关闭后，首页和网页中的页面输入和状态提示方式均一致，在原有页面中的语音状态展示区域对应的页面区域中取消了语音输入的状态提示符，将原有页面的底部工具栏设置为按住说话/点击输入的可切换形式。当用户点击工具栏时，显示完整的输入键盘，用户可以通过键盘输入关键词；当用户按住工具栏时，显示语音面板，用户可以直接说出要搜索的内容，此时语音面板中的状态展示与语音选项关闭前一致，可渐进式的培养用户语音控制浏览器的习惯。

S240、若在网页中检测到滑动操作，则缩小集成有地址栏和搜索框的工具栏所占的页面面积。

网页中通常展示了根据用户语音完成搜索的符合用户搜索意图的相关内容，为了充分地展示搜索内容，使网页内容的空间最大化，可以适当的扩大搜索内容的展示区域所占的面积，而缩小其他工具栏对页面的占用。在本发明实施例的具体实施例中，可以通过用户在网页中的滑动操作来缩小集成有地址栏和搜索框的工具栏所占的面积，将工具栏收起并只显示标题，利于用户的沉浸式浏览方式。示例性的，图10A为本发明实施例二提供的滑动操作前网页工具栏显示的示例图，图10B为滑动操作后网页工具栏显示的示例图。如图10A所示，页面底部的工具栏包括搜索框、状态提示符以及两侧的选项菜单，而在滑动操作后，如图10B所示，工具栏被缩小，且取消了搜索框、状态提示符以及两侧选项菜单的显示，仅显示标题即可，尽可能的最大化网页内容的显示区域。

本实施例的技术方案，通过设置搜索句式的语音指令，便于用户搜索意图的识别，且便于监听语音指令时搜索词和用户闲聊的区分；并根据不同的页面以及工作状态，为浏览器的页面设置了不同的展现形式和状态提醒。实现了高效率的搜索方式，避免了不必要的误搜索操作；并对浏览器页面进行了优化，使得页面显示更加简洁，网页内容的空间最大化，提升用户体验和语音控制浏览器习惯的养成。

实施例三

图11为本发明实施例三提供的一种浏览器的语音交互装置的结构示意图，本实施例可适用于语音控制浏览器进行搜索和浏览的情况，该装置可实现本发明实施例任意实施例所述的浏览器的语音交互方法。该装置具体包括：

监听模块1110，用于实时监听用户录入的语音指令；

识别模块1120，用于对监听到的语音指令进行意图识别；

匹配模块1130，用于将识别到的语音指令的意图与浏览器中包含的各控制指令的意图进行匹配，并执行匹配成功的控制指令。

进一步的，所述控制指令包括搜索指令、打开网站指令、操作网页指令、常规功能指令和打开设置项指令中的至少一个。

优先的，所述监听模块1110具体用于：

若当前页面是首页，且在监听到语音指令后的预设时间长度内没有语音录入，则结束所述语音指令的获取；若当前页面是网页，且用户录入任一语音指令的时间长度大于时间长度阈值，则结束该语音指令的获取。

优选的，所述装置包括：

搜索模块1140，用于在所述实时监听用户录入的语音指令之后，若监听到的语音指令的起始语音是搜索启动语音，则依据所述起始语音之后的所述语音指令确定搜索词进行搜索。

优先的，所述识别模块1120具体用于：

依据预先构建的意图识别模型对监听到的语音指令进行意图识别，其中所述意图识别模型是依据预先采集的触发浏览器中各控制指令的语料集，以及所述各控制指令所属的意图进行深度学习模型训练得到的。

优先的，所述装置包括：

展示模块1150，用于依据当前工作状态，在所述当前页面的语音状态展示区域中展示语音处理状态提醒。

进一步的，所述展示模块1150具体用于：

若处于语音采集等待状态，则在所述当前页面的语音状态展示区域中展示监听中可录入状态提示符，以提示用户直接进行语音输入；

若处于用户语音采集过程中，则在所述语音状态展示区域中展示语音采集和识别中提示符，并显示实时的语音识别结果；

若处于意图识别过程中，则在所述语音状态展示区域中展示意图识别中提示符。

进一步的，所述展示模块1150具体还用于：

若所述当前页面是首页，则将中心区域确定为语音状态展示区域；

若所述当前页面是网页，则将底部工具栏确定为语音状态展示区域。

进一步的，所述装置还包括：

页面调整模块1160，用于若在网页中检测到滑动操作，则缩小集成有地址栏和搜索框的工具栏所占的页面面积。

本实施例的技术方案，通过各个模块间的相互配合，实现了语音指令的实时监听、语音指令意图的识别、意图的匹配以及不同页面的展示等功能，实现了全局通过语音交互进行搜索和浏览的功能，无需用户启动语音监听，也无需用户手动操作，通过语音即能够实现对浏览器的控制，进而提升用户体验。

实施例四

图12为本发明实施例四提供的一种终端的结构示意图，图12示出了适于用来实现本发明实施例实施方式的示例性终端的框图。图12显示的终端仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图12显示的终端12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，终端12以通用计算设备的形式表现。终端12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

终端12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。终端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图12未显示，通常称为“硬盘驱动器”)。尽管图12中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

终端12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该终端12交互的设备通信，和/或与使得该终端12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，终端12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与终端12的其它模块通信。应当明白，尽管图中未示出，可以结合终端12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的浏览器的语音交互方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种浏览器的语音交互方法，该方法包括：

实时监听用户录入的语音指令；

对监听到的语音指令进行意图识别；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明实施例不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明实施例构思的情况下，还可以包括更多其他等效实施例，而本发明实施例的范围由所附的权利要求范围决定。

Claims

1.一种浏览器的语音交互方法，其特征在于，包括：

实时监听用户录入的语音指令；

对监听到的语音指令进行意图识别；

2.根据权利要求1所述的方法，其特征在于，所述实时监听用户录入的语音指令，包括：

若当前页面是网页，且用户录入任一语音指令的时间长度大于时间长度阈值，则结束该语音指令的获取。

3.根据权利要求1所述的方法，其特征在于，在所述实时监听用户录入的语音指令之后，包括：

若监听到的语音指令的起始语音是搜索启动语音，则依据所述起始语音之后的所述语音指令确定搜索词进行搜索。

4.根据权利要求1所述的方法，其特征在于，所述对监听到的语音指令进行意图识别，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

依据当前工作状态，在所述当前页面的语音状态展示区域中展示语音处理状态提醒。

6.根据权利要求5所述的方法，其特征在于，所述依据当前工作状态，在所述当前页面的语音状态展示区域中展示语音处理状态提醒，包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若在网页中检测到滑动操作，则缩小集成有地址栏和搜索框的工具栏所占的页面面积。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述控制指令包括搜索指令、打开网站指令、操作网页指令、常规功能指令和打开设置项指令中的至少一个。

10.一种浏览器的语音交互装置，其特征在于，包括：

监听模块，用于实时监听用户录入的语音指令；

识别模块，用于对监听到的语音指令进行意图识别；

11.根据权利要求10所述的装置，其特征在于，所述监听模块具体用于：

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

搜索模块，用于在所述实时监听用户录入的语音指令之后，若监听到的语音指令的起始语音是搜索启动语音，则依据所述起始语音之后的所述语音指令确定搜索词进行搜索。

13.根据权利要求10所述的装置，其特征在于，所述识别模块具体用于：

14.根据权利要求10所述的装置，其特征在于，所述装置还包括：

展示模块，用于依据当前工作状态，在所述当前页面的语音状态展示区域中展示语音处理状态提醒。

15.根据权利要求10所述的装置，其特征在于，所述装置包括：

页面调整模块，用于若在网页中检测到滑动操作，则缩小集成有地址栏和搜索框的工具栏所占的页面面积。

16.一种终端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的浏览器的语音交互方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述的浏览器的语音交互方法。