CN112839261A

CN112839261A - 一种提升语音指令匹配度的方法及显示设备

Info

Publication number: CN112839261A
Application number: CN202110048928.7A
Authority: CN
Inventors: 冯建斌
Original assignee: Hisense Electronic Technology Shenzhen Co ltd
Current assignee: Hisense Electronic Technology Shenzhen Co ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-25
Anticipated expiration: 2041-01-14
Also published as: CN112839261B

Abstract

本申请公开了一种提升语音指令匹配度的方法及显示设备，对用户输入的语音指令对应的语音文本信息进行文本处理，得到语音文本字符串；将语音文本字符串与语音指令所属指令类型对应的预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令；基于网页页面执行指定操控指令对应的操作。可见，本发明实施例提供的方法及显示设备，在基于用户的语音指令操控浏览器时，对语音识别后的文本、预设语音指令库和浏览器屏幕视口内元素文本信息进行多维度处理，通过文本匹配的方式提升浏览器识别语音指令的匹配度，以提高对浏览器的准确操控，增强体验。

Description

一种提升语音指令匹配度的方法及显示设备

技术领域

本申请涉及智能电视语音交互技术领域，尤其涉及一种提升语音指令匹配度的方法及显示设备。

背景技术

随着显示设备的快速发展，显示设备的功能将越来越丰富，性能也越来越强大，目前，显示设备包括智能电视、智能机顶盒、智能盒子，以及带有智能显示屏幕的产品等。为实现不同的功能，显示设备通常利用其配置的浏览器呈现用户界面。

在利用浏览器浏览网页页面时，由于显示设备中浏览器的主要操控方式是以遥控器操作模拟鼠标移动进行网页内容浏览，使得焦点移动及文本输入步骤复杂，而随着人工智能语音功能日渐成熟，利用语音操控浏览器成为可能。

但是，由于语言种类及自身属性包含着大量发音相同而文本内容不同的词语，再加上用户口音多样化等因素，导致语音识别引擎很难在所有场景都能准确识别，从而难以满足用户对更好操作体验的追求。

发明内容

本申请提供了一种提升语音指令匹配度的方法及显示设备，以解决在利用语音操控浏览器时因语音匹配度较低导致无法进行准确操控的问题。

第一方面，本申请提供了一种显示设备，包括：

显示器，被配置为呈现用户界面；

与所述显示器连接的控制器，所述控制器被配置为：

在当前语音操控场景下浏览网页页面时，获取用户输入的语音指令对应的语音文本信息，以及，所述语音指令所属指令类型对应的预设语音指令库，所述预设语音指令库中存储有不同语音指令对应的关键词；

对所述语音文本信息进行文本处理，得到语音文本字符串；

将所述语音文本字符串与所述预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令；

基于所述网页页面执行所述指定操控指令对应的操作。

本申请一些实施例中，所述控制器在执行所述获取用户输入的语音指令对应的语音文本信息，被进一步配置为：

获取用户通过语音方式输入的语音指令，所述语音指令用于操控所述网页页面；

对所述语音指令进行文本识别，得到至少一个语音文本信息。

本申请一些实施例中，所述控制器在执行所述对所述语音文本信息进行文本处理，得到语音文本字符串，被进一步配置为：

识别所述语音指令对应的目标语种类型；

利用与所述目标语种类型对应的文本处理原则，对每个所述语音文本信息分别进行分词处理、删除停止词处理、词形还原处理、同音词处理和同义词处理，得到与所述语音指令对应的语音文本字符串。

本申请一些实施例中，所述控制器在执行所述将所述语音文本字符串与所述预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令，被进一步配置为：

在所述语音指令所属指令类型为管理层级指令时，确定所述语音指令所属指令类型对应的预设语音指令库为管理层级语音指令库，所述管理层级语音指令库中存储有属于管理层级的不同预设语音指令对应的管理层级关键词；

将所述语音文本字符串与所述管理层级语音指令库中的管理层级关键词进行匹配，将匹配一致的管理层级关键词对应的预设语音指令确定为指定操控指令。

本申请一些实施例中，所述文本处理原则包括分词处理原则和词语处理原则；以及，所述控制器在执行所述对所述语音文本信息进行文本处理，得到语音文本字符串，被进一步配置为：

识别所述语音指令对应的目标语种类型；

利用与所述目标语种类型对应的分词处理原则，对所述语音文本信息进行分词处理，得到多个分词结果；

对每个所述分词结果分别进行指令和参数识别，得到语音指令关键词和语音文本参数；

利用与所述目标语种类型对应的词语处理原则，对所述语音指令关键词和语音文本参数分别进行删除停止词处理、词形还原处理、同音词处理和同义词处理，得到语音指令字符串和语音文本参数字符串，所述语音文本字符串包括所述语音指令字符串和语音文本参数字符串。

在所述语音指令所属指令类型为页面内容层级指令时，确定所述语音指令所属指令类型对应的预设语音指令库为页面内容层级语音指令库，所述页面内容层级语音指令库中存储有属于页面内容层级的不同预设语音指令对应的页面内容层级关键词；

将所述语音文本字符串中的语音指令字符串与所述页面内容层级语音指令库中的页面内容层级关键词进行匹配，将匹配一致的页面内容层级关键词对应的预设语音指令确定为指定操控指令。

本申请一些实施例中，所述控制器在执行所述基于所述网页页面执行指定操控指令对应的操作，被进一步配置为：

在所述指定操控指令为页面内容层级关键词对应的语音指令时，获取所述网页页面中处于屏幕视口内的每个可交互网页元素的元素文本信息；

对每个所述元素文本信息进行文本处理，得到多个元素文本字符串；

计算所述语音文本字符串中的语音文本参数字符串与每个所述元素文本字符串的相似度；

将产生最高相似度的元素文本字符串对应的可交互网页元素确定为指定交互网页元素，基于所述指定交互网页元素执行所述指定操控指令对应的操作。

本申请一些实施例中，所述控制器在执行所述获取所述网页页面中处于屏幕视口内的每个可交互网页元素的元素文本信息，被进一步配置为：

获取所述屏幕视口相对于网页页面的相对位置、每个网页元素相对于网页页面的绝对位置和每个网页元素的触发事件类型；

基于所述屏幕视口相对于网页页面的相对位置、每个网页元素相对于网页页面的绝对位置，判断每个网页元素是否处于屏幕视口内；

将处于屏幕视口内，以及，触发事件类型为可触发类型的网页元素，确定为可交互网页元素；

对每个所述可交互网页元素进行文本识别，得到每个可交互网页元素对应的元素文本信息。

本申请一些实施例中，所述控制器在执行所述获取每个网页元素相对于网页页面的绝对位置，被进一步配置为：

将所述网页元素作为子节点，所述网页元素的上一级网页元素作为父节点，依次计算所述子节点相对于所述父节点的偏移位置；

在所述网页元素的上一级网页元素为根节点时，计算所述根节点相对于网页页面的偏移位置；

计算所有偏移位置的总和，将得到的偏移位置总和作为所述网页元素相对于网页页面的绝对位置。

第二方面，本申请还提供了一种提升语音指令匹配度的方法，所述方法包括：

对所述语音文本信息进行文本处理，得到语音文本字符串；

基于所述网页页面执行所述指定操控指令对应的操作。

第三方面，本申请还提供了一种存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的提升语音指令匹配度的方法各实施例中的部分或全部步骤。

由以上技术方案可知，本发明实施例提供的一种提升语音指令匹配度的方法及显示设备，对用户输入的语音指令对应的语音文本信息进行文本处理，得到语音文本字符串；将语音文本字符串与语音指令所属指令类型对应的预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令；基于网页页面执行指定操控指令对应的操作。可见，本发明实施例提供的方法及显示设备，在基于用户的语音指令操控浏览器时，对语音识别后的文本、预设语音指令库和浏览器屏幕视口内元素文本信息进行多维度处理，通过文本匹配的方式提升浏览器识别语音指令的匹配度，以提高对浏览器的准确操控，增强体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备中软件配置图；

图5示出了根据一些实施例的提升语音指令匹配度的方法的流程图；

图6示出了根据一些实施例的基于管理层级指令的语音指令匹配过程的示意图；

图7示出了根据一些实施例的基于页面内容层级指令的语音指令匹配过程的示意图；

图8示出了根据一些实施例的执行指定操控指令对应操作的方法流程图；

图9示出了根据一些实施例的屏幕视口与网页元素的位置示意图；

图10示出了根据一些实施例的基于节点信息计算网页元素绝对位置的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1示出了根据一些实施例的显示设备的使用场景。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示出了根据一些实施例的控制装置100的硬件配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据一些实施例的显示设备200的硬件配置框图。参见图3，在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器，用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

图4示出了根据一些实施例的显示设备中软件配置图。如图4所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。

应用层主要包含电视上的常用应用，以及应用框架(Application Framework)，其中，常用应用主要是基于浏览器Browser开发的应用，例如：HTML5 APPs；以及原生应用(Native APPs)；

应用框架(Application Framework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。

原生应用(Native APPs)可以支持在线或离线，消息推送或本地资源访问。

中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。

硬件层主要包括HAL接口、硬件以及驱动，其中，HAL接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中，显示设备中预置浏览器，以利用浏览器浏览网页页面。网页页面中显示有应用程序图标、搜索框、输入框、选择框或按钮控件等不同网页元素，在基于浏览器或浏览器中呈现的不同网页元素进行交互时，通常采用的交互方式为借助遥控器的方向键(上\下\左\右)移动焦点到用户想要交互的网页元素后，按确认键完成交互。但是，这种交互方式普遍效率低下。

而随着语音技术的发展，使显示设备中引入语音来操作浏览器成为可能，但是，由于语言种类及自身属性包含着大量发音相同而文本内容不同的词语，再加上用户口音多样化等因素，导致语音识别引擎很难在所有场景都能准确识别。

例如，以浏览器翻页指令为例，当用户说出“page up”时，语音识别引擎常常识别成“page app”、“paige app”、“paige up”等等内容，从而导致语音指令无法正确匹配执行，可见，语音识别易因在某些场景识别度较低，导致无法对浏览器进行准确语音操控，体验较差。

因此，为提高浏览器识别语音指令的匹配度，增强体验，本发明实施例提供一种对语音指令进行文本处理的策略，可对语音指令识别后的文本、预设语音指令文本、以及屏幕视口内的各网页元素文本进行分词、移除停止词、同音词、同义词等多维度处理，从而提升语音指令匹配度。

以浏览器翻页指令为例，当用户说出“page up”时，识别到的语音指令包括“pageup”、“page app”、“paige app”、“paige up”等，通过音节算法处理之后，使识别到的多个语音指令具有相同的特征，从而匹配到翻页指令执行翻页操作，以达到最佳体验效果。

可见，本发明实施例提供一种显示设备，在执行提升语音指令匹配度的方法时，综合考虑语言本身的特性、语音识别引擎现状以及用户当前所处的语音操控场景，并进行多维度处理以达到语音指令的最佳匹配效果。

图5示出了根据一些实施例的提升语音指令匹配度的方法的流程图。本发明实施例提供一种显示设备，包括：显示器，被配置为呈现用户界面，在启动浏览器后，用户界面中呈现网页页面；与显示器连接的控制器，在执行图5所示的提升语音指令匹配度的方法时，控制器被配置为执行下述步骤：

S1、在当前语音操控场景下浏览网页页面时，获取用户输入的语音指令对应的语音文本信息，以及，语音指令所属指令类型对应的预设语音指令库，预设语音指令库中存储有不同语音指令对应的关键词。

在显示设备启动浏览器，并在浏览器中浏览网页页面时，如果用户想要执行某种操作，例如，点击某个按钮、输入框获得焦点、启动某个应用程序等，可通过语音交互的方式产生语音交互指令，即通过蓝牙遥控器或远场语音阵列的方式输入语音。

为进行文本匹配，由控制器调用显示设备内配置的语音识别引擎，对语音交互指令进行文本识别，以将语音数据转换为语音文本数据。

在一些实施例中，控制器在执行获取用户输入的语音指令对应的语音文本信息，被进一步配置为执行下述步骤：

步骤11、获取用户通过语音方式输入的语音指令，语音指令用于操控网页页面。

步骤12、对语音指令进行文本识别，得到至少一个语音文本信息。

在利用浏览器浏览网页页面时，若用户需要通过语音方式操控网页页面，例如翻页、收藏、打开网站链接等，则用户通过语音方式产生语音指令。例如，若要对网页页面执行翻页操作，则产生语音指令“page up”。

控制器将语音指令发送至服务器，由服务器执行操控浏览器执行翻页操作。为进行准确操控，服务器自动调用语音识别引擎对语音指令进行文本识别，例如识别语言种类和语音文本信息，语言种类包括中文、英文等。

服务器将识别到的语音文本信息和语言种类传回到显示设备，控制器获取到服务器返回的语音文本信息和语言种类，以进行相应的文本处理，以提高语音指令的匹配度。

由于用户通过语音方式输入的语音指令，可能会存在口音或吐字不清楚的情况，影响语音指令的识别，因此，服务器在识别语音指令的文本信息时，可能会识别到多个语音文本信息，而这多个语音文本信息具有读音相似、其中某个词语为读音相同的另一个词语或词性不同等特点。

在一些实施例中，在基于用户的语音指令操控浏览器执行某种操作时，为便于能够准确操控，可对浏览器可执行的操作预先配置预设语音指令，当用户实时输入的语音指令与操作A的预设语音指令相匹配时，则调用与预设语音指令对应的操作A，对浏览器执行操作A对应的操作。

因此，为便于进行语音指令匹配，可获取预先配置的预设语音指令库。而对浏览器执行的操控指令包括管理层级指令和页面内容层级指令，浏览器的管理层级指令是指针对浏览器本身执行的指令，包括翻页，收藏，打开网站链接等；浏览器的页面内容层级指令是指针对浏览器所呈现页面内容执行的指令，包括打开网页内部链接，播放网页内部视频等。

管理层级指令的表现形式为：指令关键词；页面内容层级指令的表现形式为：指令关键词+任意文本参数。例如，若页面内容层级指令为“播放网页内部视频”，则指令关键词为“播放”，文本参数为“网页内部视频”。用户在产生语音指令后，服务器或本地可直接获得该语音指令的所属指令类型，即可明确该语音指令是属于管理层级指令还是页面内容层级指令。

因此，基于不同的层级指令，预设语音指令库不同，也就是说，语音指令所属指令类型对应不同的预设语音指令库。语音指令所属指令类型包括管理层级指令和页面内容层级指令，预设语音指令库中存储有不同层级语音指令对应的关键词。

在为浏览器可执行的每个操作预先自定义配置语音指令时，可对自定义语音指令进行文本处理，例如进行分词处理、删除停止词处理、词形还原处理、同音词处理和同义词处理，得到与该自定义语音指令对应的关键词。

在后续进行语音指令匹配时，可基于用户输入的语音文本信息与预设语音指令库中的关键词进行匹配，以提高匹配度。

在一些实施例中，用户通常会基于当前浏览器中呈现的内容进行语音操控，但是，为避免用户语音操控失误，使得在当前语音操控场景下说出操控另一语音操控场景下的语音指令，导致该语音指令无法被执行或该语音指令被执行导致当前浏览器呈现的内容产生非主观改变的情况，影响用户体验。其中，当前语音操控场景是指浏览器当前所呈现内容可以执行的各种操作场景。

例如，如果当前浏览器正在播放视频文件，其对应的操作可为暂停、快进、播放、停止、关闭等。但如果在该语音操控场景下，用户错误说出“翻页”的语音指令，那么当前浏览器将无法执行翻页，或者，切换视频播放页面至另一页面。

因此，在用户输入语音指令后，为保证用户的语音指令能够与当前语音操控场景匹配，先判断该语音指令是否为当前语音操控场景下的指令，只有用户输入的语音指令与当前语音操控场景匹配时，才执行后续的通过语音文本处理方式操控浏览器的过程。

S2、对语音文本信息进行文本处理，得到语音文本字符串。

由于服务器在识别用户通过语音方式输入的语音指令时，因用户存在口音或吐字不清楚的情况，导致识别到多个语音文本信息。因此，为保证语音识别能够适配当前场景，可对每一个识别到的语音文本信息进行文本处理，得到一个具有相同特征的语音文本字符串，即将多个语音文本信息处理成一个语音文本字符串。

语音文本字符串用于表征多个语音文本信息的共同特征，如读音相同、字符相同等，以便于能够准确表达用户输入的语音指令的真实意图。

为得到一个统一的语音文本字符串，需要对每个语音文本信息进行文本处理，文本处理过程包括但不限于分词处理、删除停止词处理、词形还原处理、同音词处理和同义词处理等过程。

分词处理就是将连续的字序列(句子)按照一定的规范重新组合成词序列的过程，譬如在以英文为代表的拉丁语系语言行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，词语之间没有分隔。

停止词是由英文单词stopword翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，常为冠词、介词、副词或连词等。删除停止词是将上述不具有实际意义的词删除，避免影响文本匹配的准确性，提高匹配效率。

词形还原处理就是去掉单词的词缀，提取单词的主干部分，通常提取后的单词会是字典中的单词。比如，单词“pages”词形还原后的单词为“page”，单词“ate”词形还原后的单词为“eat”。

同音词：“同音异义词”的别称。同音词包括：声、韵、调完全相同，分为同形同音词与异形同音词。

同义词：指意义相同的一组词语，意义相同的同义词也叫等义词。

在一些实施例中，不同的语种类型，所使用的文本处理原则不同。而针对语音指令所属指令类型的不同，对文本进行处理所得到的结果也不同。

图6示出了根据一些实施例的基于管理层级指令的语音指令匹配过程的示意图。参见图6，在其中一种实施例中，在语音指令所属指令类型为管理层级指令时，控制器在执行对语音文本信息进行文本处理，得到语音文本字符串，被进一步配置为执行下述步骤：

步骤211、识别语音指令对应的目标语种类型。

步骤212、利用与目标语种类型对应的文本处理原则，对每个语音文本信息分别进行分词处理、删除停止词处理、词形还原处理、同音词处理和同义词处理，得到与语音指令对应的语音文本字符串。

获取服务器返回的语言种类和语音文本信息，基于服务器识别到的语言种类，确定用户输入的语音指令的目标语种类型，如中文或英文等，以便调用与目标语种类型对应的文本处理原则，对每个语音文本信息进行文本处理，以得到一个语音文本字符串。

由于管理层级指令的表现形式为指令关键词，因此，可直接对该语音文本信息对应的指令关键词进行分词处理、删除停止词处理、词形还原处理、同音词处理和同义词处理，得到与语音指令对应的语音文本字符串。

具体地，在进行文本处理时，先对每个语音文本信息根据语种不同进行相应的分词处理。譬如英文可以通过空格进行分词，中文则可以使用开源分词工具(pkuseg、jieba分词等)进行分词，此处可以在服务器处理。由于分词处理的数据量较大，由服务器处理可以减少显示设备处的CPU资源，避免影响显示设备的正常运行。服务器对识别到的语音文本信息进行分词处理，将分词结果返回给显示设备进行后序匹配操作。

例如，对于一段中文文本“我是中国人”，经过分词后得到“我、是、中国、人”的分词结果。对于一段英文文本“add a bookmark”，经过分词后得到“add、a、bookmark”的分词结果。

控制器根据分词结果的文本内容，根据语种不同删除相应的停止词(譬如，英文中的a,an,the,to…可以直接通过正则表达式进行删除处理)。此处，控制器可自定义存储字典库，字典库中存储有多个中文形式停止词或英文形式停止词，若识别到语音文本信息中包括的分词与字典库中的某个停止词相同，则将该分词删除。例如，删除“我”、“是”、“a”。

对删除停止词后的分词结果进行词形还原处理，根据语种不同进行词形还原处理。需要字典库(譬如，英文可以使用WordNet，一个大型的英语词汇数据库)，此处可以在服务器处理。另外，根据具体场景还可以选择词干提取算法进行处理，词干提取主要是采用“缩减”的方法，将词转换为词干，方法相对简单且不需要字典库，直接通过算法就可以实现，但经过处理后的词不一定是真实存在的词，如“revival”词干提取的结果为“reviv”，“ailiner”词干提取的结果为“airlin”。因此，可根据不同的应用需求，选择其中一个词形还原处理方法进行词形还原处理。经词形还原处理后获得的结果是具有一定意义的、完整的词，一般为词典中的有效词。

根据语种不同进行同音词处理。可能需要字典库，此处也可以在服务器处理。譬如英文可以使用音节算法(例如：DoubleMetaphone算法-不需要字典库)进行处理。

调用与目标语种类型对应的同音词处理原则，对删除停止词后的分词进行词形还原处理。对于词“B”，其对应的同音词处理结果可为B，例如，以“m”为结尾的词，其同音词可为“dumb”或“McComb”。对于词“C”，其对应的同音词处理结果可为X、S或K，例如，若某个分词为“cia”，其同音词可为“ch”；若某个分词为“ci”，其同音词可为“ce”或“cy”。对于词“D”，其对应的同音词处理结果可为J或T，例如，若某个分词为“dge”，其对应的同音词可为“dgy”或“dgi”。

完成同音词处理后，根据语种不同进行同义词处理。需要字典库，此处可以在服务器处理。在有限的语音指令场景下，可以选择自建同义词字典库，同义词字典库中包括具有相同意义的词语对。

经过上述一系列的文本处理过程，可基于多个语音文本信息得到一个语音文本字符串。再次参见图6，如果用户语音输入“add a bookmark”指令，其识别到的语音文本信息可为“add a bookmark”或“add bookmarks”，对这两个语音文本信息分别进行文本处理，可以得到一个统一的语音文本字符串“ATPKMRK”。如果用户语音输入“page up”指令，其识别到的语音文本信息可为“page app”或“paige up”，对这两个语音文本信息分别进行文本处理，可以得到一个统一的语音文本字符串“PJAP”。

可见，在用户输入的语音指令所属指令类型为管理层级指令时，由于管理层级指令的表现形式仅为指令关键词，属于比较确定的指令，可以直接对该指令关键词进行文本处理，进而可以基于语音指令对应的多个语音文本信息产生一个具有相同特征的语音文本字符串，使得通过该语音文本字符串可以准确地表达用户语音输入的真实意图。

而在语音指令所属指令类型为页面内容层级指令时，由于页面内容层级指令的表现形式为指令关键词和任意文本参数，而任意文本参数是随机的指令，无法进行统一明确。因此，先将语音指令进行指令和参数的划分，以分别对指令和文本参数进行相应的文本处理。此处的文本处理原则包括分词处理原则和词语处理原则，分词处理原则用于对语音指令进行分词，以便于对分词结果进行指令和参数的划分。词语处理原则用于进行删除停止词处理、词形还原处理、同音词处理和同义词处理等过程。

图7示出了根据一些实施例的基于页面内容层级指令的语音指令匹配过程的示意图。参见图7，在另一种实施例中，在语音指令所属指令类型为页面内容层级指令时，控制器在执行所述对语音文本信息进行文本处理，得到语音文本字符串，被进一步配置为：

步骤221、识别语音指令对应的目标语种类型。

步骤222、利用与目标语种类型对应的分词处理原则，对语音文本信息进行分词处理，得到多个分词结果。

步骤223、对每个分词结果分别进行指令和参数识别，得到语音指令关键词和语音文本参数。

步骤224、利用与目标语种类型对应的词语处理原则，对语音指令关键词和语音文本参数分别进行删除停止词处理、词形还原处理、同音词处理和同义词处理，得到语音指令字符串和语音文本参数字符串，语音文本字符串包括语音指令字符串和语音文本参数字符串。

由于页面内容层级指令的表现形式为指令关键词和任意文本参数，该指令不具有确定性，需先对属于页面内容层级指令的语音指令进行指令和参数划分。

为保证划分结果的准确性，可先利用与目标语种类型对应的分词处理原则，对语音文本信息进行分词处理，得到多个分词结果。具体的分词处理过程可参照前述实施例针对管理层级指令公开的内容，此处不再赘述。

对每个分词结果分别进行指令和参数识别，此处可建立自定义指令库，自定义指令库中包括属于指令的关键词。若某个分词与自定义指令库中的关键词匹配，则可确定该分词为语音指令关键词；若未匹配，则确定为语音文本参数。

例如，用户语音输入“open the movies”指令，经过分词处理，得到“open、the、movies”的分词结果。经过指令和参数识别，可确定“open”为语音指令关键词，“the”和“movies”为语音文本参数。

在对指令和参数进行划分后，利用与目标语种类型对应的词语处理原则，对语音指令关键词分别进行删除停止词处理、词形还原处理、同音词处理和同义词处理，得到语音指令字符串；以及，对语音文本参数分别进行删除停止词处理、词形还原处理、同音词处理和同义词处理，得到语音文本参数字符串。将语音指令字符串和语音文本参数字符串作为与语音指令对应的语音文本字符串。词语处理原则的处理过程可参照前述实施例针对管理层级指令公开的内容，此处不再赘述。

对属于页面内容层级指令的语音指令对应的语音文本信息经过上述一系列的文本处理过程，得到的语音文本字符串中包括语音指令字符串和语音文本参数字符串两部分。再次参见图7，如果用户语音输入“open the movies”指令，其识别到的语音文本信息可为“open the movies”，对该语音文本信息分别进行指令和参数识别，得到语音指令关键词“open”和语音文本参数“the”和“movies”。对语音指令关键词“open”进行词语处理，得到语音指令字符串“APN”。对语音文本参数“the”和“movies”分别进行词语处理，删除停止词“the”，对“movies”进行词形还原得到“movie”，得到语音文本参数字符串“MF”。将“APN”和“MF”共同作为语音指令的语音文本字符串。

可见，在用户输入的语音指令所属指令类型为页面内容层级指令时，由于页面内容层级指令的表现形式为指令关键词和任意文本参数，属于比较随机的指令，无法直接进行文本处理，否则无法保证处理结果的准确性。因此，需先对该语音指令进行指令部分和参数部分的划分，再分别对划分得到的语音指令关键词和语音文本参数进行文本处理，进而可以得到包括语音指令字符串和语音文本参数字符串的语音文本字符串，使得通过该语音文本字符串可以准确地表达用户语音输入的真实意图。

S3、将语音文本字符串与预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令。

为准确识别用户输入的语音指令，以便能够操控浏览器执行该语音指令对应的操作，需将语音指令对应的语音文本字符串与预设语音指令库中的关键词进行匹配。而针对不同指令类型的语音指令，需要匹配语音指令所属指令类型对应的预设语音指令库。

如果语音指令为管理层级指令，则将语音文本字符串与管理层级指令对应的预设语音指令库中的关键词进行匹配；如果语音指令为页面内容层级指令，则将语音文本字符串与页面内容层级指令对应的预设语音指令库中的关键词进行匹配。如果存在匹配一致的关键词，则将该匹配一致的关键词对应的预设语音指令作为指定操控指令，以操控浏览器在浏览网页页面时，执行指定操控指令对应的操作。

在一些实施例中，在语音指令所属指令类型为管理层级指令时，控制器在执行将语音文本字符串与预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令，被进一步配置为执行下述步骤：

步骤311、在语音指令所属指令类型为管理层级指令时，确定语音指令所属指令类型对应的预设语音指令库为管理层级语音指令库，管理层级语音指令库中存储有属于管理层级的不同预设语音指令对应的管理层级关键词。

步骤312、将语音文本字符串与管理层级语音指令库中的管理层级关键词进行匹配，将匹配一致的管理层级关键词对应的预设语音指令确定为指定操控指令。

在语音指令所属指令类型为管理层级指令时，获取管理层级指令对应的预设语音指令库为管理层级语音指令库，管理层级语音指令库中存储有属于管理层级的不同预设语音指令对应的管理层级关键词。对不同的预设语音指令进行文本处理，得到管理层级关键词。其中，管理层级关键词的获得过程可参照前述实施例基于语音文本信息进行文本处理得到语音文本字符串的过程，此处不再赘述。例如，再次参见图6所示，管理层级语音指令库中包括“add bookmark”和“page up”的管理层级指令，其对应的管理层级关键词分别为“ATPKMRK”和“PJAP”。

将前述对语音指令对应的语音文本信息经过文本处理后得到的语音文本字符串与管理层级关键词进行匹配，若匹配一致，则该管理层级关键词对应的预设语音指令确定为指定操控指令。

例如，参见图6，如果用户语音输入的语音文本信息为“add a bookmark”或“addbookmarks”，经过文本处理得到语音文本字符串“ATPKMRK”。调取管理层级语音指令库，其包括预设语音指令为“add bookmark”，对应的管理层级关键词为“ATPKMRK”；另一预设语音指令为“page up”，对应的管理层级关键词为“PJAP”。将语音文本字符串“ATPKMRK”与管理层级语音指令库中的任一个管理层级关键词匹配，可知其与预设语音指令为“addbookmark”对应的管理层级关键词“ATPKMRK”匹配一致，因此，将该预设语音指令“addbookmark”作为与用户语音输入的语音指令对应的指定操控指令。

再例如，参见图6，如果用户语音输入的语音文本信息为“page app”或“paigeup”，经过文本处理得到语音文本字符串“PJAP”。调取管理层级语音指令库，其包括预设语音指令为“add bookmark”，对应的管理层级关键词为“ATPKMRK”；另一预设语音指令为“page up”，对应的管理层级关键词为“PJAP”。将语音文本字符串“PJAP”与管理层级语音指令库中的任一个管理层级关键词匹配，可知其与预设语音指令为“page up”对应的管理层级关键词“PJAP”匹配一致，因此，将该预设语音指令“page up”作为与用户语音输入的语音指令对应的指定操控指令。

可见，在语音指令所属指令类型为管理层级指令时，将用户语音输入的语音指令经过文本处理后，与预设语音指令库中的管理层级关键词进行匹配，将匹配一致的预设语音指令替代用户输入的语音指令，可以提高语音指令的匹配度，以便可以准确地操控浏览器执行对应的操作。

在一些实施例中，在语音指令所属指令类型为页面内容层级指令时，控制器在执行将语音文本字符串与预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令，被进一步配置为执行下述步骤：

步骤321、在语音指令所属指令类型为页面内容层级指令时，确定语音指令所属指令类型对应的预设语音指令库为页面内容层级语音指令库，页面内容层级语音指令库中存储有属于页面内容层级的不同预设语音指令对应的页面内容层级关键词。

步骤322、将语音文本字符串中的语音指令字符串与页面内容层级语音指令库中的页面内容层级关键词进行匹配，将匹配一致的页面内容层级关键词对应的预设语音指令确定为指定操控指令。

在语音指令所属指令类型为页面内容层级指令时，获取页面内容层级指令对应的预设语音指令库为页面内容层级语音指令库，页面内容层级语音指令库中存储有属于页面内容层级的不同预设语音指令对应的页面内容层级关键词。对不同的预设语音指令进行文本处理，得到页面内容层级关键词。其中，页面内容层级关键词的获得过程可参照前述实施例基于语音文本信息进行文本处理得到语音文本字符串的过程，此处不再赘述。例如，再次参见图7所示，页面内容层级语音指令库中包括“open”和“search”的页面内容层级语音指令，其对应的页面内容层级关键词分别为“APN”和“SECH”。

由于在语音指令为页面内容层级指令时，该语音指令包括指令部分和参数部分，因此，对指令部分对应的语音指令字符串进行指令关键词匹配，而对于参数部分对应的语音文本参数字符串需要进行进一步的文本内容匹配，以准确地操控浏览器执行相应的操作。

因此，先将前述对语音指令对应的语音文本信息经过指令和参数划分、文本处理后得到的语音指令字符串与页面内容层级关键词进行匹配，若匹配一致，则该页面内容层级关键词对应的预设语音指令确定为指定操控指令。

例如，如果用户语音输入的语音文本信息为“open the movies”，经过指令和参数划分后，对指令部分的语音指令关键词“open”进行文本处理，得到语音指令字符串“APN”。调取页面内容层级语音指令库，其包括预设语音指令为“open”，对应的页面内容层级关键词为“APN”；另一预设语音指令为“search”，对应的页面内容层级关键词为“SECH”。将语音指令字符串“APN”与页面内容层级语音指令库中的任一个页面内容层级关键词匹配，可知其与预设语音指令为“open”对应的页面内容层级关键词匹配一致，因此，将该预设语音指令为“open”作为与用户语音输入的语音指令对应的指定操控指令。

可见，在语音指令所属指令类型为页面内容层级指令时，将用户语音输入的语音指令经过指令和参数划分、文本处理后，提取语音指令字符串与预设语音指令库中的页面内容层级关键词进行匹配，将匹配一致的预设语音指令替代用户输入的语音指令，可以提高语音指令的匹配度，以便可以准确地操控浏览器执行对应的操作。

S4、基于网页页面执行指定操控指令对应的操作。

在基于前述方法匹配出用户输入的语音指令为预设语音指令库中的某一个指定操控指令时，则可直接操控浏览器对其所呈现的网页页面执行指定操控指令对应的操作。

例如，若语音指令为管理层级指令中的指定操控指令“翻页”，则操控浏览器执行翻页动作，此时，浏览器中呈现的网页页面经过翻页后改变显示内容。若语音指令为管理层级指令中的指定操控指令“收藏”，则操控浏览器执行收藏动作，此时，浏览器中呈现的网页页面被进行收藏。

若语音指令为页面内容层级指令，如“播放网页内部视频”，则指定操控指令为“播放”，此时，操控浏览器播放当前网页页面中呈现的视频文件。

在一些实施例中，若用户输入的语音指令匹配到浏览器管理层级指令，则可以直接执行相应的指令，参见图6所示内容；若用户输入的语音指令未匹配到任何指令，则默认由页面内容层级指令执行，譬如对网页页面进行内容搜索匹配，并触发相应的点击事件进行处理；若用户输入的语音指令匹配到页面内容层级指令，则按页面内容层级指令处理，参见图7所示内容。

在一些实施例中，若语音指令为页面内容层级指令中的指定操控指令，由于该语音指令包括指令部分和参数部分，因此，在基于指令部分确定出指定操控指令后，还需基于参数部分进一步进行文本匹配，以确定具体需要进行操控的页面内容为哪一个。

由于网页页面内显示有应用程序图标、搜索框、输入框、选择框或按钮控件等不同网页元素，在语音指令为页面内容层级指令时，其对应的参数部分可为网页页面中显示的各个网页元素。

图8示出了根据一些实施例的执行指定操控指令对应操作的方法流程图。参见图8，在一些实施例中，所述控制器在执行所述基于所述网页页面执行指定操控指令对应的操作，被进一步配置为：

S151、在指定操控指令为页面内容层级关键词对应的语音指令时，获取网页页面中处于屏幕视口内的每个可交互网页元素的元素文本信息。

在用户输入的语音指令为页面内容层级指令，且基于该语音指令的指令部分确定出指定操控指令后，需基于该语音指令的参数部分确定网页页面中需要操控的网页元素为哪一个，即需要将语音指令的参数部分与每个网页元素进行文本匹配。因此，需获取每个网页元素的元素文本信息。

为进行快速交互，在与网页页面中的网页元素进行匹配时，在一些实施例中，仅获取网页页面处于当前屏幕视口中的可交互网页元素，屏幕视口是指出现在显示器中的区域，而在用户互动操作过程中，第一直观理解只是基于当前看到的区域，因此，可交互网页元素是指在当前屏幕视口内可执行点击操作的网页元素。网页页面中包括可触发网页元素和非可触发网页元素，可触发网页元素可以执行点击操作，即可执行交互动作，可利用语音文本信息对应的语音交互指令启动可交互网页元素；非可触发网页元素无法进行点击操作，仅作为展示相关信息的作用，也就无法执行交互动作。

在一些实施例中，控制器收集的浏览器浏览的可交互网页元素仅为网页页面中的处于屏幕视口内的可触发网页元素，屏幕视口为显示器的显示视口，即仅将在显示器中显示的能够被用户直观看到的可触发网页元素作为匹配对象，而对于需要通过滚动浏览器(左右滚动、上下滚动)才能被看到的可触发网页元素不作为匹配对象，以提高匹配效率，进而实现快速交互。因此，将处于屏幕视口内的可触发网页元素作为可交互网页元素进行匹配。

图9示出了根据一些实施例的屏幕视口与网页元素的位置示意图。参见图9，网页页面中包括可触发网页元素1、可触发网页元素2、可触发网页元素3、可触发网页元素4、可触发网页元素5、可触发网页元素6、可触发网页元素7、可触发网页元素8。基于当前网页页面与屏幕视口的位置关系，可以看到可触发网页元素4、可触发网页元素5、可触发网页元素6在屏幕视口内，而可触发网页元素1、可触发网页元素2、可触发网页元素3、可触发网页元素7、可触发网页元素8均位于屏幕视口以外，需要滚动浏览器才可被看到。因此，将当前处于屏幕视口内的可触发网页元素4、可触发网页元素5、可触发网页元素6作为可交互网页元素。

网页页面中处于屏幕视口内的可交互网页元素可为多个，为准确并快速地确定用户需要启动的可交互网页元素为哪一个，需获取每个可交互网页元素的元素文本信息，以与用户语音输入的语音文本信息进行匹配。

在一些实施例中，控制器在执行获取网页页面中处于屏幕视口内的每个可交互网页元素的元素文本信息，被进一步配置为执行下述步骤：

步骤1511、获取屏幕视口相对于网页页面的相对位置、每个网页元素相对于网页页面的绝对位置和每个网页元素的触发事件类型。

步骤1512、基于屏幕视口相对于网页页面的相对位置、每个网页元素相对于网页页面的绝对位置，判断每个网页元素是否处于屏幕视口内。

步骤1513、将处于屏幕视口内，以及，触发事件类型为可触发类型的网页元素，确定为可交互网页元素。

步骤1514、对每个可交互网页元素进行文本识别，得到每个可交互网页元素对应的元素文本信息。

为准确判断网页页面内的每个网页元素是否为可交互网页元素，可根据每个网页元素相对于网页页面的绝对位置、屏幕视口相对于网页页面的相对位置以及每个网页元素的触发事件类型来进行判断，触发事件类型包括可触发类型和非可触发类型。

在获取屏幕视口相对于网页页面的相对位置时，可基于CSSOM视图模块技术规则，直接获取屏幕视口相对于网页页面的相对位置。屏幕视口相对于网页页面的相对位置是指屏幕视口左上角与网页页面左上角的坐标差值。

网页元素相对于网页页面的绝对位置是指该网页元素的左上角与网页页面左上角的坐标差值。网页元素相对于网页页面的绝对位置无法基于CSSOM技术规则直接获取，而是需要利用W3C(World Web Consortium，万维网联盟)定义的DOM(Document ObjectModel，文件对象模型)技术规范接口获取DOM树上的节点信息，经过依次计算子节点与其父节点的偏移位置，再将所计算出的偏移位置累加，作为网页元素相对于网页页面的绝对位置。

具体地，在获取网页元素相对于网页页面的绝对位置时，控制器在执行获取每个网页元素相对于网页页面的绝对位置，被进一步配置为执行下述步骤：

步骤15111、将网页元素作为子节点，所述网页元素的上一级网页元素作为父节点，依次计算所述子节点相对于所述父节点的偏移位置。

步骤15112、在网页元素的上一级网页元素为根节点时，计算根节点相对于网页页面的偏移位置。

步骤15113、计算所有偏移位置的总和，将得到的偏移位置总和作为所述网页元素相对于网页页面的绝对位置。

利用DOM技术规范接口获取DOM树上的节点信息，即将网页页面中的每个网页元素作为一个节点，该网页元素左上角的坐标值即为对应的节点信息。由于网页页面中的各个网页元素呈树状结构，即某个网页元素为另一个网页元素的子元素，也就是说，网页页面中的各个网页元素包括不同层级的属性，以形成树状结构。因此，最底层的网页元素为子节点，其上一层级的网页元素为其父节点，再上一层级的网页元素为该父节点的父节点。也就是说，一个网页元素作为下一层级网页元素的树节点时，也会成为上一层级网页元素的子节点。

例如，在一个树状结构G1中：网页元素1—网页元素2—网页元素4，网页元素4是网页元素2的子节点，网页元素2是网页元素1的子节点，也就是说，网页元素1是网页元素2的父节点，网页元素2是网页元素4的父节点。如果在该树状结构中，网页元素1为最顶层的元素，那么网页元素1为根节点。

在需要获取网页元素4相对于网页页面的绝对位置时，依次计算每个子节点与其对应的父节点的偏移位置，即计算网页元素4(子节点)与网页元素2(父节点)的偏移位置L1，再计算网页元素2(子节点)与网页元素1(父节点)的偏移位置L2。若网页元素1为该树状结构G1的根节点，则计算该网页元素1相对于网页页面的偏移位置L3。并将此时计算得到的所有偏移位置累加，得到所有偏移位置的总和L0＝L1+L2+L3，将L0作为网页元素4相对于网页页面的绝对位置。

每个节点信息可以像素坐标来表示，基于网页页面建立直角坐标系，坐标原点O位于网页页面的左上角，由左向右为坐标X轴正向，由上至下为坐标Y轴正向。

图10示出了根据一些实施例的基于节点信息计算网页元素绝对位置的示意图。参见图10，在一个树状结构G1中：网页元素1—网页元素2—网页元素4。网页元素1为节点A1，网页元素2为节点A2，网页元素4为节点A3，以每个网页元素的左上角作为节点位置，依次获取三个节点的像素坐标，分别为A1(x1，y1)、A2(x2，y2)、A3(x3，y3)。

网页元素4(A3)是网页元素2(A2)的子节点，网页元素2(A2)是网页元素1(A1)的子节点，在计算网页元素4相对于网页页面的绝对位置时，先计算网页元素4(子节点)与网页元素2(父节点)的偏移位置L1，L1＝(x3-x2,y3-y2)。再计算网页元素2(子节点)与网页元素1(父节点)的偏移位置L2，L2＝(x2-x1,y2-y1)。在网页元素1(A1)为根节点时，计算该网页元素1相对于网页页面的偏移位置L3，即网页元素1的左上角与网页页面的左上角的坐标差值L3，L3＝(x1-x0,y1-y0)。其中，网页页面的左上角即为坐标原点O，其坐标值为O(x0,y0)＝(0,0)。

计算所有偏移位置的总和L0＝L1+L2+L3，将得到的偏移位置总和作为网页元素相对于网页页面的绝对位置，即网页元素4相对于网页页面的绝对位置为L1+L2+L3。基于此方法，依次计算网页页面中每个网页元素相对于网页页面的绝对位置。

屏幕视口相对于网页页面的相对位置是指屏幕视口左上角与网页页面左上角的坐标差值，而网页元素相对于网页页面的绝对位置是指该网页元素的左上角与网页页面左上角的坐标差值，因此，可基于每个网页元素和屏幕视口左上角的坐标值，来判断该网页元素是否位于屏幕视口内。

再次参见图9，若屏幕视口相对于网页页面的相对位置为P(x_p,y_p)，每个网页元素相对于网页页面的绝对位置为L0_i(x_i,y_i)，依次判断每个绝对位置为L0_i与相对位置为P的坐标值大小。如果x_i>x_p，y_i>y_p，则说明该网页元素位于屏幕视口内。如图9中网页元素4、网页元素5、网页元素6均位于屏幕视口内。

在一些实施例中，由于在判断每个网页元素是否位于屏幕视口内时，是判断网页元素左上角坐标值与屏幕视口左上角坐标值的大小关系，因此，会存在虽然某一个网页元素满足位于屏幕视口的坐标关系，但是，其并未完全显示在屏幕视口内，仅有一部分(左上角)在屏幕视口内，而另一部分(右下角)则在屏幕视口外。在这种情况下，由于用户仅可看到一部分区域的网页元素也可被用户点击，因此，将这种仅部分存在于屏幕视口内的网页元素也确定为位于屏幕视口内的网页元素。

在一些实施例中，由于在利用浏览器浏览网页页面时，可对网页页面进行缩放处理，而屏幕视口所对应的区域不变，因此，使得缩放后的网页页面中原本未处于屏幕视口内的网页元素会出现在屏幕视口内，以及，原本处于屏幕视口内的网页元素会消失在屏幕视口内。因此，可基于当前屏幕视口的尺寸信息和当前网页页面的缩放情况，来判断网页页面中每个网页元素是否位于屏幕视口内。其中，屏幕视口的尺寸信息可依据CSSOM技术直接获得。

若网页页面存在缩放情况，将导致屏幕视口相对于网页页面的相对位置并非真实的相对位置。因此，需获取当前网页页面的缩放比例，在获取到屏幕视口相对于网页页面的相对位置，则需将该相对位置乘以缩放比例，以转换为网页页面的像素坐标值。最后，以网页页面像素坐标表示的屏幕视口相对于网页页面的相对位置作为判断依据，来确定每个网页元素是否位于屏幕视口内。

由于位于屏幕视口内的网页元素包括可触发状态和非可触发状态，因此，依次基于每个网页元素的触发事件类型，以确定该网页元素是否可被触发，如图9中网页元素4、网页元素5、网页元素6均为可触发网页元素。最后将处于屏幕视口内，以及，触发事件类型为可触发类型的网页元素，确定为可交互网页元素，即将当前处于屏幕视口内的可触发网页元素4、可触发网页元素5、可触发网页元素6作为可交互网页元素。

不同的可交互网页元素均对应有元素文本，用于区分不同的可交互网页元素，用户看到元素文本，即可获知对应的可交互网页元素可执行的操作动作。例如，可交互网页元素为A标签，则其元素文本为“A标签”；可交互网页元素为确定按钮，则其元素文本为“确定”。

由控制器调用显示设备内配置的文本识别引擎，对每个可交互网页元素进行文本识别，得到每个可交互网页元素对应的元素文本信息。

S152、对每个元素文本信息进行文本处理，得到多个元素文本字符串。

在获取到位于屏幕视口内的每个可交互网页元素的元素文本信息后，对每个元素文本信息进行文本处理，例如分词处理、删除停止词处理、词形还原处理、同音词处理和同义词处理等，得到多个元素文本字符串。对元素文本信息进行文本处理的过程，可参照前述实施例中基于语音文本信息进行文本处理得到语音文本字符串的过程，此处不再赘述。

再次参见图7，若位于屏幕视口内的页网页面中的可交互网页元素分别为“music”、“movies&show”和“sports”，分别对这三个元素文本信息进行文本处理，可以得到元素文本字符串分别为“MSK”、“MF和X”和“SPRT”。

S153、计算语音文本字符串中的语音文本参数字符串与每个元素文本字符串的相似度。

由于在用户输入的语音指令为页面内容层级指令时，对其语音文本信息进行文本处理后，得到的语音文本字符串包括语音指令字符串和语音文本参数字符串。语音指令字符串用于与预设语音指令库匹配出指定操控指令，而语音文本参数字符串则用于匹配具体可执行操作的网页元素。

因此，对语音指令的参数部分经过文本处理后可得到语音文本参数字符串，计算语音文本参数字符串与每个元素文本字符串的相似度。

在一些实施例中，在计算相似度时，可采用矢量空间模子的相似度解耦算法(TF-IDF)，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

例如，再次参见图7，语音文本参数字符串为“MF”，而元素文本字符串分别为“MSK”、“MF和X”和“SPRT”。分别计算语音文本参数字符串为“MF”与每个元素文本字符串的相似度，可知，语音文本参数字符串为“MF”与元素文本字符串“MF和X”具有相同的字符串“MF”，因此，二者计算的相似度分值最高。

S154、将产生最高相似度的元素文本字符串对应的可交互网页元素确定为指定交互网页元素，基于指定交互网页元素执行指定操控指令对应的操作。

在计算语音文本字符串中的语音文本参数字符串与每个元素文本字符串的相似度后，对相似度进行排序，将产生最高相似度的元素文本字符串对应的可交互网页元素确定为指定交互网页元素，例如，将产生最高相似度的元素文本字符串“MF和X”对应的可交互网页元素“movies&show”作为指定交互网页元素。

在用户输入的语音指令为页面内容层级指令时，基于语音指令的指令部分在预设语音指令库中匹配出指定操控指令，基于参数部分在屏幕视口内的多个可交互网页元素中匹配出指定交互网页元素，进而可以执行指定操控指令，对指定交互网页元素进行相应的操作。可见，对语音指令进行两次文本匹配过程，可以准确地匹配出用户通过语音方式进行操控的浏览器的页面内容，并使得浏览器直接执行相应操作，无需用户再次点击确认，在提高语音指令匹配度的同时，提高用户体验。

因此，本发明实施例提供的一种显示设备，对用户输入的语音指令对应的语音文本信息进行文本处理，得到语音文本字符串；将语音文本字符串与语音指令所属指令类型对应的预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令；基于网页页面执行指定操控指令对应的操作。可见，本发明实施例提供的显示设备，在基于用户的语音指令操控浏览器时，对语音识别后的文本、预设语音指令库和浏览器屏幕视口内元素文本信息进行多维度处理，通过文本匹配的方式提升浏览器识别语音指令的匹配度，以提高对浏览器的准确操控，增强体验。

图5示出了根据一些实施例的提升语音指令匹配度的方法的流程图。本发明实施例提供的一种提升语音指令匹配度的方法，参见图5，由前述实施例提供的显示设备中的控制器执行，该方法包括：

S1、在当前语音操控场景下浏览网页页面时，获取用户输入的语音指令对应的语音文本信息，以及，所述语音指令所属指令类型对应的预设语音指令库，所述预设语音指令库中存储有不同语音指令对应的关键词；

S2、对所述语音文本信息进行文本处理，得到语音文本字符串；

S3、将所述语音文本字符串与所述预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令；

S4、基于所述网页页面执行所述指定操控指令对应的操作。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的提升语音指令匹配度的方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-onlymemory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于提升语音指令匹配度的方法实施例而言，由于其基本相似于显示设备实施例，所以描述的比较简单，相关之处参见显示设备实施例中的说明即可。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器，被配置为呈现用户界面；

与所述显示器连接的控制器，所述控制器被配置为：

对所述语音文本信息进行文本处理，得到语音文本字符串；

基于所述网页页面执行所述指定操控指令对应的操作。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述获取用户输入的语音指令对应的语音文本信息，被进一步配置为：

3.根据权利要求2所述的显示设备，其特征在于，所述控制器在执行所述对所述语音文本信息进行文本处理，得到语音文本字符串，被进一步配置为：

识别所述语音指令对应的目标语种类型；

4.根据权利要求1或3所述的显示设备，其特征在于，所述控制器在执行所述将所述语音文本字符串与所述预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令，被进一步配置为：

5.根据权利要求3所述的显示设备，其特征在于，所述文本处理原则包括分词处理原则和词语处理原则；以及，所述控制器在执行所述对所述语音文本信息进行文本处理，得到语音文本字符串，被进一步配置为：

识别所述语音指令对应的目标语种类型；

6.根据权利要求1或5所述的显示设备，其特征在于，所述控制器在执行所述将所述语音文本字符串与所述预设语音指令库中的关键词进行匹配，确定匹配一致的关键词对应的语音指令为指定操控指令，被进一步配置为：

7.根据权利要求6所述的显示设备，其特征在于，所述控制器在执行所述基于所述网页页面执行指定操控指令对应的操作，被进一步配置为：

8.根据权利要求7所述的显示设备，其特征在于，所述控制器在执行所述获取所述网页页面中处于屏幕视口内的每个可交互网页元素的元素文本信息，被进一步配置为：

9.根据权利要求8所述的显示设备，其特征在于，所述控制器在执行所述获取每个网页元素相对于网页页面的绝对位置，被进一步配置为：

10.一种提升语音指令匹配度的方法，其特征在于，所述方法包括：

对所述语音文本信息进行文本处理，得到语音文本字符串；

基于所述网页页面执行所述指定操控指令对应的操作。