CN104866192A

CN104866192A - 一种用于提供有声用户界面的方法和装置

Info

Publication number: CN104866192A
Application number: CN201510220045.4A
Authority: CN
Inventors: 郑亚军; 王晓波; 王耀龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-08-26

Abstract

本发明的目的是提供一种用于提供有声界面的方法和装置。根据本发明的方法包括以下步骤：确定候选界面中待转换的文本信息；将所确定的所述文本信息转换为音频信息；在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面。根据本发明的方案，能够对普通的用户界面的进行音频转换操作，从而向用户提供具有音频播放功能的有声界面，使用户无需专门去访问有声网站，简化了用户的操作，并且丰富了用户可使用的有声界面的资源。

Description

一种用于提供有声用户界面的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于提供有声用户界面的方法和装置。

背景技术

现有技术中，用户需要登录专门提供与用户界面中的内容相应的音频的特定网站或app，才能收听用户界面中的内容，该种方式的问题在于，一方面，专门提供音频信息的网站或app的资源较少，用户经常无法获得自身需要的信息，另一方面，因为需要维护大量的音频信息，并且，在内容发生更改时需要同步更新音频信息，该类网站或app的日常维护的开销与难度较大。

发明内容

本发明的目的是提供一种用于提供有声界面的方法和装置。

根据本发明的一个方面，提供了一种用于提供有声用户界面的方法，其中，所述方法包括以下步骤：

-确定候选界面中待转换的文本信息；

-将所确定的所述文本信息转换为音频信息；

-在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面。

根据本发明的一个方面，还提供了一种用于提供有声用户界面的提供装置，其中，所述提供装置包括：

用于确定候选界面中待转换的文本信息的装置；

用于将所确定的所述文本信息转换为音频信息的装置；

用户在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的装置。

与现有技术相比，本发明具有以下优点：根据本发明的方案，能够对普通的用户界面进行音频转换操作，从而向用户提供具有音频播放功能的有声界面，使用户无需专门去访问有声网站，简化了用户的操作，并且丰富了用户可使用的有声界面的资源。并且，可将音频存储于用户设备本地，从而能够解放音频信息所占用的服务器资源，降低了对于网站或app服务器本身的维护成本。并且，通过将与界面对应的音频存储于网络设备中，当其他用户所在的设备请求访问该界面时，网络设备可直接基于已存储的该界面的音频向其反馈相应的有声界面，而无需重复执行音频转换操作，降低了网络设备的工作负担。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示意出了根据本发明的一种用于提供有声用户界面的方法流程图；

图2示意出了根据本发明的一种用于提供有声用户界面的提供装置的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示意出了根据本发明的一种用于提供有声界面的方法流程图。根据本发明的方法包括步骤S1、步骤S2和步骤S3。

其中，根据本发明的方法通过包含于计算机设备中的提供装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。

其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。

优选的，所述用户包括诸如智能手机等移动设备。

优选地，根据本发明所述的提供装置可以包含于浏览器内，对浏览器所访问的内容进行转换，或者，所述提供装置可被包含于app中，以对app的内容进行转换。

优选地，根据本发明所述的提供装置可包含与浏览器或各类app对应的服务器中，以在向所述浏览器或app提供相应的资源信息时执行转换操作。

其中，所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备以及网络仅为举例，其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

参照图1，在步骤S1中，提供装置确定候选界面中待转换的文本信息。

其中，所述候选界面包括但不限于以下任一种：

1)网页页面；

2)应用程序的用户界面。

具体地，所述提供装置确定候选界面中待转换的文本信息的方式包括但不限于以下任一种：

1)基于对所述候选界面的代码分析来确定。

例如，通过查找用于呈现文本信息的代码模块来确定该候选界面中的待转换的文本信息。

2)通过生成与所述候选界面对应的DOM树来确定其中待转换的文本信息。

具体地，通过生成与所述候选界面对应的DOM树来确定其中待转换的文本信息的方式包括步骤S101(图未示)、步骤S102(图未示)和步骤S103(图未示)。

在步骤S101中，提供装置生成与所述候选界面对应的DOM树。

具体地，提供装置根据与所述候选界面对应的代码信息，来生成与其对应的DOM树。

接着，在步骤S102中，提供装置计算所述DOM树中各个节点的文本权重信息。

其中，所述文本权重信息用于指示所述DOM树中各个节点各自对应的文本信息的权重信息。

优选地，提供装置基于以下至少任一项信息来计算各个节点的文本权重信息：

i)所述节点对应的文本长度信息；例如，每增加100字权重增加5分等；

ii)所述节点对应的文本标点信息；例如，每多一个逗号，权重增加1分等。

iii)所述节点的下属节点的文本权重信息。

其中，所述下属节点包括处于该节点下层的各个节点，例如，所述节点的子节点、孙子节点、孙孙子节点等等。

优选地，提供装置可仅基于该节点的部分下属节点的文本权重信息来计算该节点自身的文本权重信息。

接着，在步骤S103中，提供装置基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息。

具体地，提供装置根据预定的选择规则，基于各个节点的文本权重信息，由所述DOM树中选择一个或多个节点；接着基于该一个或多个节点分别对应的节点文本信息，来确定用于转换的文本信息。

其中，提供装置可由所述DOM树中选择权重最高的节点，并将该权重最高的节点对应的文本信息作为待转换的文本信息。

优选地，如果所述权重最高的节点具有一个或多个兄弟节点，提供装置可由所述DOM树中选择权重最高的节点及其一个或多个兄弟节点，并将该权重最高的节点及其各个兄弟节点对应的文本信息进行拼接，来得到待转换文本信息。

根据本发明的第一示例，提供装置包含于与浏览器browser_1对应的服务器ser_1中，提供装置中预定的用于计算各个节点的权重信息的权重计算规则包括：如果该节点对应的文本信息中出现一个逗号则权重值增加1；如果文本信息的字节每满100字节则权重值增加1；如果该节点有子节点，则将其子节点的权重值加入该节点的权重值；如果该节点有孙子节点，则将其孙子节点的权重值的一半加入该节点的权重值。

并且，提供装置中预定的选择规则包括：选择该权重值最高的节点，以及权重值与该节点差距在20％以内的该节点的一个或多个兄弟节点。

在用户在智能手机中通过浏览器应用browser_1访问网页page_1时，服务器ser_1接收来自该智能手机对于网页page_1的访问请求，接着在步骤S101中，提供装置生成与网页page_1对应的DOM树，并在步骤S102中，基于上述权重计算规则来计算所述DOM树中各个节点的文本权重信息。接着，提供装置基于上述选择规则，选择通过计算得到的、权重值最高的节点node_1，以及权重值符合该权重选择规则的、节点node_1的兄弟节点node_2和node_3，接着，提供装置提取该3个节点各自对应的文本信息按照文本顺序进行拼接，来获得待转换文本信息text_1。

根据本发明的一个优选方案，在步骤S1之前，提供装置可先通过执行步骤S4(图未示)来对所述候选界面执行预处理操作。

在步骤S4中，提供装置对所述候选界面执行预处理，以去除该候选界面中非文本信息的部分界面信息。

例如，提供装置可在网页的HTML信息中，去除掉与image，audio，video，script，css等非纯文本HTML标签对应的代码信息，从而去除页面中的图片、音视频、字体样式等明显非纯文本信息。接着，再由提供装置执行步骤S1来确定该网页中待转换的文本信息。

接着，继续参照图1，在步骤S2中，提供装置将所确定的所述文本信息转换为音频信息。

其中，所述音频信息包括各类格式的音频文件，例如，mp3、wma等等音频格式。

本领域技术人员应可基于实际情况和需要来确定所转换的音频信息的格式，此处不再赘述。

具体地，提供装置对所确定的所述文本信息执行音频转换操作，以将该文本信息转换为音频信息。

优选地，提供装置通过从文本到语音(Text To Speech，TTS)技术将所确定的所述文本信息转换为音频信息。

接着，在步骤S3中，提供装置在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面。

其中，所述音频获取信息包括用于供用户获取和/或收听音频的信息。例如，用于将音频信息嵌入网页页面的HTML标签等。又例如，用于嵌入在app的用户界面中供用户点击播放音频的操作按钮等。

其中，提供装置在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的方式包括但不限于以下任一种：

1)当所述候选界面为网页页面时，提供装置在所述网页页面的页面代码中添加用于获取所述音频信息的音频获取标签，以供用户获取与该网页页面的文本信息对应的音频信息，来将所述候选界面转换为所述有声界面。

继续对前述第一示例进行说明，提供装置在步骤S2中基于TTS技术将所确定的文本信息text_1转换为音频信息audio_1。接着，提供装置通过在网页的HTML代码中添加音频获取标签，该标签用于将该音频信息audio_1嵌入于该网页中，并当用户打开该网页时自动进行播放，从而将网页page_1转换为有声网页audio_page_1。

2)当所述候选界面为应用程序的用户界面时，提供装置在相应的应用程序的用户界面中添加用于获取所述音频信息的音频获取按钮，以将所述候选界面转换为所述有声界面。

优选地，根据本发明的方法还包括骤S5(图未示)。

在步骤S5中，提供装置基于其他设备对于所述候选界面的界面请求信息，反馈与所述候选界面对应的有声界面。

继续对前述第一示例进行说明，提供装置所属的服务器ser_1基于来自用户智能手机dev_1的、对于网页page_1的请求信息，向该设备dev_1反馈所生成的有声网页audio_page_1，以使得该用户在打开该有声网页时可自动收听与该网页内容相应的音频信息。

根据本发明的一个优选方案，提供装置通过步骤S2所获得的音频信息可存储于执行转换操作的设备本地，和/或，可上传于特定的存储设备，如云存储设备中等。

根据本发明的一个优选实施例，其中，所述步骤S2进一步包括步骤S201(图未示)和步骤S202(图未示)，所述步骤S3进一步包括步骤S301(图未示)。

在步骤S201中，提供装置基于音频转换容量，对所述文本信息进行拆分，以获得一个或多个分别满足所述音频转换容量的文本信息项。

在步骤S202中，提供装置对一个或多个文本信息项中的各个文本信息项分别执行音频转换操作，以获得相应的一个或多个音频信息。

在步骤S301中，提供装置在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取信息，以将所述候选界面转换为所述有声界面。

其中，提供装置在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的方式包括但不限于以下任一种：

1)在所述候选界面中添加一个用于获取所述一个或多个音频信息的音频获取信息，以供用户设备基于该一个音频获取信息按照预定顺序播放所述一个或多个音频；

例如，提供装置包含于智能手机的一新闻阅读应用中，并且，该新闻阅读应用中预定的音频转换容量为1024字节。用户通过该新闻阅读应用来访问一新闻页面page_2，则提供装置在步骤S1中基于与该新闻页面page_2对应的DOM树，确定新闻页面page_2中待转换的文本信息text_2，并且该文本信息text_2包含1600字节。

则提供装置在步骤S201中基于该音频转换容量，将文本信息text_2拆分为一段1024字节的文本信息项text_201以及一段576字节的文本信息项text_202。接着，提供装置步骤S202中对该两个文本信息项分别执行音频转换操作，获得与文本信息项text_201对应的音频信息audio_201，和与文本信息项text_202对应的音频信息audio_202。

随后，提供装置在该新闻阅读应用用于呈现该新闻页面的用户界面中添加对应于音频信息audio_201和audio_202的音频按钮，以供用户在阅读该新闻页面时可通过点击该音频按钮来依次播放该两个音频。

2)在所述候选界面中添加分别用于获取所述一个或多个音频信息的音频获取信息，以供用户设备基于各个音频获取信息分别播放所述一个或多个音频。

根据本发明的方法，能够对普通的用户界面进行音频转换操作，从而向用户提供具有音频播放功能的有声界面，使用户无需专门去访问有声网站，简化了用户的操作，并且丰富了用户可使用的有声界面的资源。并且，可将音频存储于用户设备本地，从而能够解放音频信息所占用的服务器资源，降低了对于网站或app服务器本身的维护成本。并且，可将与界面对应的音频存储于网络设备中，当其他用户所在的设备请求访问该界面时，网络设备可直接基于已存储的该界面的音频向其反馈相应的有声界面，而无需重复执行音频转换操作，降低了网络设备的工作负担。

图2示意出了根据本发明的一种用于提供有声用户界面的提供装置的结构示意图。根据本发明的提供装置包括：用于确定候选界面中待转换的文本信息的装置(以下简称“文本确定装置1”)；用于将所确定的所述文本信息转换为音频信息的装置(以下简称“音频转换装置2”)；用户在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的装置(以下简称“界面转换装置3”)。

参照图2，文本确定装置1确定候选界面中待转换的文本信息。

其中，所述候选界面包括但不限于以下任一种：

1)网页页面；

2)应用程序的用户界面。

具体地，所述文本确定装置1确定候选界面中待转换的文本信息的方式包括但不限于以下任一种：

1)基于对所述候选界面的代码分析来确定。

具体地，所述文本确定装置1包括用于生成与所述候选界面对应的DOM树的装置(图未示，以下简称“生成装置”)、用于计算所述DOM树中各个节点的文本权重信息的装置(图未示，以下简称“计算装置”)，以及用于基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息的装置(图未示，以下简称“提取装置”)。

生成装置生成与所述候选界面对应的DOM树。

具体地，生成装置根据与所述候选界面对应的代码信息，来生成与其对应的DOM树。

接着，计算装置计算所述DOM树中各个节点的文本权重信息。

优选地，计算装置基于以下至少任一项信息来计算各个节点的文本权重信息：

iii)所述节点的下属节点的文本权重信息。

优选地，计算装置可仅基于该节点的部分下属节点的文本权重信息来计算该节点自身的文本权重信息。

接着，提取装置基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息。

具体地，提取装置进一步包括用于根据预定的选择规则，基于各个节点的文本权重信息，由所述DOM树中选择一个或多个节点的装置(图未示，以下简称“节点选择装置”)，和用于基于该一个或多个节点分别对应的节点文本信息，来确定用于转换的文本信息的装置(图未示，以下简称“子提取装置”)。

节点选择装置根据预定的选择规则，基于各个节点的文本权重信息，由所述DOM树中选择一个或多个节点；接着，子提取装置基于该一个或多个节点分别对应的节点文本信息，来确定用于转换的文本信息。

其中，节点选择装置可由所述DOM树中选择权重最高的节点，子提取装置将该权重最高的节点对应的文本信息作为待转换的文本信息。

优选地，如果所述权重最高的节点具有一个或多个兄弟节点，节点选择装置可由所述DOM树中选择权重最高的节点及其一个或多个兄弟节点，子提取装置将该权重最高的节点及其各个兄弟节点对应的文本信息进行拼接，来得到待转换文本信息。

在用户在智能手机中通过浏览器应用browser_1访问网页page_1时，服务器ser_1接收来自该智能手机对于网页page_1的访问请求，接着生成装置生成与网页page_1对应的DOM树，计算装置基于上述权重计算规则来计算所述DOM树中各个节点的文本权重信息。接着，节点选择装置基于上述选择规则，选择通过计算得到的、权重值最高的节点node_1，以及权重值符合该权重选择规则的、节点node_1的兄弟节点node_2和node_3，接着，子提取装置提取该3个节点各自对应的文本信息按照文本顺序进行拼接，来获得待转换文本信息text_1。

根据本发明的一个优选方案，所述提供装置还包括用于对所述候选界面执行预处理，以去除该候选界面中非文本信息的部分界面信息的装置(图未示，以下简称“预处理装置”)，在文本确定装置1的操作之前，预处理装置可先对述候选界面执行预处理操作。

预处理装置对所述候选界面执行预处理，以去除该候选界面中非文本信息的部分界面信息。

例如，预处理装置可在网页的HTML信息中，去除掉与image，audio，video，script，css等非纯文本HTML标签对应的代码信息，从而去除页面中的图片、音视频、字体样式等明显非纯文本信息。接着，再由文本确定装置1来确定该网页中待转换的文本信息。

接着，继续参照图2，音频转换装置2将所确定的所述文本信息转换为音频信息。

具体地，音频转换装置2对所确定的所述文本信息执行音频转换操作，以将该文本信息转换为音频信息。

优选地，音频转换装置2通过从文本到语音(Text To Speech，TTS)技术将所确定的所述文本信息转换为音频信息。

接着，界面转换装置3在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面。

其中，界面转换装置3在所述候选界面中添加用于获取所述音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的方式包括但不限于以下任一种：

1)当所述候选界面为网页页面时，界面转换装置3在所述网页页面的页面代码中添加用于获取所述音频信息的音频获取标签，以供用户获取与该网页页面的文本信息对应的音频信息，来将所述候选界面转换为所述有声界面。

继续对前述第一示例进行说明，音频转换装置2基于TTS技术将所确定的文本信息text_1转换为音频信息audio_1。接着，界面转换装置3通过在网页的HTML代码中添加音频获取标签，该标签用于将该音频信息audio_1嵌入于该网页中，并当用户打开该网页时自动进行播放，从而将网页page_1转换为有声网页audio_page_1。

2)当所述候选界面为应用程序的用户界面时，界面转换装置3在相应的应用程序的用户界面中添加用于获取所述音频信息的音频获取按钮，以将所述候选界面转换为所述有声界面。

优选地，根据本发明的提供装置还包括用于基于其他设备对于所述候选界面的界面请求信息，反馈与所述候选界面对应的有声界面的装置(图未示，以下简称“反馈装置”)。

反馈装置基于其他设备对于所述候选界面的界面请求信息，反馈与所述候选界面对应的有声界面。

继续对前述第一示例进行说明，提供装置所属的服务器ser_1的反馈装置基于来自用户智能手机dev_1的、对于网页page_1的请求信息，向该设备dev_1反馈所生成的有声网页audio_page_1，以使得该用户在打开该有声网页时可自动收听与该网页内容相应的音频信息。

根据本发明的一个优选方案，音频转换装置2所获得的音频信息可存储于执行转换操作的设备本地，和/或，可上传于特定的存储设备，如云存储设备中等。

根据本发明的一个优选实施例，其中，所述音频转换装置2进一步包括用于基于音频转换容量，对所述文本信息进行拆分，以获得一个或多个分别满足所述音频转换容量的文本信息项的装置(图未示，以下简称“文本拆分装置”)和用于对一个或多个文本信息项中的各个文本信息项分别执行音频转换操作，以获得相应的一个或多个音频信息的装置(图未示，以下简称“子音频转换装置”)，所述界面转换装置3进一步包括用于在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的装置(图未示，以下简称“子界面转换装置”)。

文本拆分装置基于音频转换容量，对所述文本信息进行拆分，以获得一个或多个分别满足所述音频转换容量的文本信息项。

子音频转换装置对一个或多个文本信息项中的各个文本信息项分别执行音频转换操作，以获得相应的一个或多个音频信息。

子界面转换装置在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取信息，以将所述候选界面转换为所述有声界面。

其中，子界面转换装置在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的方式包括但不限于以下任一种：

1)在所述候选界面中仅添加一个用于获取所述一个或多个音频信息的音频获取信息，以供用户设备基于该一个音频获取信息按照顺序播放所述一个或多个音频；

例如，提供装置包含于智能手机的一新闻阅读应用中，并且，该新闻阅读应用中预定的音频转换容量为1024字节。用户通过该新闻阅读应用来访问一新闻页面page_2，则文本确定装置1基于与该新闻页面page_2对应的DOM树，确定新闻页面page_2中待转换的文本信息text_2，并且该文本信息text_2包含1600字节。

则文本拆分装置基于该音频转换容量，将文本信息text_2拆分为一段1024字节的文本信息项text_201以及一段576字节的文本信息项text_202。接着，子音频转换装置中对该两个文本信息项分别执行音频转换操作，获得与文本信息项text_201对应的音频信息audio_201，和与文本信息项text_202对应的音频信息audio_202。

随后，子界面转换装置在该新闻阅读应用用于呈现该新闻页面的用户界面中添加对应于音频信息audio_201和audio_202的音频按钮，以供用户在阅读该新闻页面时可通过点击该音频按钮来依次播放该两个音频。

根据本发明的方案，能够对普通的用户界面进行音频转换操作，从而向用户提供具有音频播放功能的有声界面，使用户无需专门去访问有声网站，简化了用户的操作，并且丰富了用户可使用的有声界面的资源。并且，可将音频存储于用户设备本地，从而能够解放音频信息所占用的服务器资源，降低了对于网站或app服务器本身的维护成本。并且，可将与界面对应的音频存储于网络设备中，当其他用户所在的设备请求访问该界面时，网络设备可直接基于已存储的该界面的音频向其反馈相应的有声界面，而无需重复执行音频转换操作，降低了网络设备的工作负担。

本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个功能或步骤的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。在下列编号条款中规定了各个实施例的这些和其他方面：

1.一种用于提供有声用户界面的方法，其中，所述方法包括以下步骤：

-确定候选界面中待转换的文本信息；

-将所确定的所述文本信息转换为音频信息；

2.根据条款1所述的方法，其中，所述确定候选界面中待转换的文本信息的步骤进一步包括：

-生成与所述候选界面对应的DOM树；

-计算所述DOM树中各个节点的文本权重信息，其中，所述文本权重信息用于指示所述DOM树中各个节点各自对应的文本信息的权重信息；

-基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息。

3.根据条款2所述的方法，其中，所述计算所述DOM树中各个节点的文本权重信息的步骤基于以下任一项来计算各个节点的文本权重信息：

-所述节点对应的文本长度信息；

-所述节点对应的文本标点信息；

-所述节点的下属节点的文本权重信息。

4.根据条款2或3所述的方法，其中，所述基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息的步骤进一步包括以下步骤：

-根据预定的选择规则，基于各个节点的文本权重信息，由所述DOM树中选择一个或多个节点；

-基于该一个或多个节点分别对应的节点文本信息，来确定用于转换的文本信息。

5.根据条款2至4中任一项所述的方法，其中，所述方法还包括以下步骤：

-对所述候选界面执行预处理，以去除该候选界面中非文本信息的部分界面信息。

6.根据条款2至5中任一项所述的方法，其中，所述将所确定的所述文本信息转换为音频信息的步骤还包括以下步骤：

-基于音频转换容量，对所述文本信息进行拆分，以获得一个或多个分别满足所述音频转换容量的文本信息项；

-对一个或多个文本信息项中的各个文本信息项分别执行音频转换操作，以获得相应的一个或多个音频信息；

其中，所述在所述候选界面中添加用于获取所述音频信息的音频获取标签，以将所述候选界面转换为所述有声界面的步骤包括以下步骤：

在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取标签，以将所述候选界面转换为所述有声界面。

7.根据条款1至6中任一项所述的方法，其中，所述方法还包括以下步骤：

-基于其他设备对于所述候选界面的界面请求信息，反馈与所述候选界面对应的有声界面。

8.一种用于提供有声用户界面的提供装置，其中，所述提供装置包括：

用于确定候选界面中待转换的文本信息的装置；

用于将所确定的所述文本信息转换为音频信息的装置；

9.根据条款8所述的提供装置，其中，所述用于确定候选界面中待转换的文本信息的装置进一步包括：

用于生成与所述候选界面对应的DOM树的装置；

用于计算所述DOM树中各个节点的文本权重信息的装置，其中，所述文本权重信息用于指示所述DOM树中各个节点各自对应的文本信息的权重信息；

用于基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息的装置。

10.根据条款9所述的提供装置，其中，所述用于计算所述DOM树中各个节点的文本权重信息的装置基于以下任一项来计算各个节点的文本权重信息：

-所述节点对应的文本长度信息；

-所述节点对应的文本标点信息；

-所述节点的下属节点的文本权重信息。

11.根据条款9或10所述的提供装置，其中，所述用于基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息的装置进一步包括：

用于根据预定的选择规则，基于各个节点的文本权重信息，由所述DOM树中选择一个或多个节点的装置；

用于基于该一个或多个节点分别对应的节点文本信息，来确定用于转换的文本信息的装置。

12.根据条款8至11中任一项所述的提供装置，其中，所述提供装置还包括：

用于对所述候选界面执行预处理，以去除该候选界面中非文本信息的部分界面信息的装置。

13.根据条款7至12中任一项所述的提供装置，其中，所述用于将所确定的所述文本信息转换为音频信息的装置还包括：

用于基于音频转换容量，对所述文本信息进行拆分，以获得一个或多个分别满足所述音频转换容量的文本信息项的装置；

用于对一个或多个文本信息项中的各个文本信息项分别执行音频转换操作，以获得相应的一个或多个音频信息的装置；

其中，所述用户在所述候选界面中添加用于获取所述音频信息的音频获取标签，以将所述候选界面转换为所述有声界面的装置包括：

用于在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取信息，以将所述候选界面转换为所述有声界面的装置。

14.根据条款8至13中任一项所述的提供装置，其中，所述提供装置还包括：

用于基于其他设备对于所述候选界面的界面请求信息，反馈与所述候选界面对应的有声界面的装置。

Claims

-确定候选界面中待转换的文本信息；

-将所确定的所述文本信息转换为音频信息；

2.根据权利要求1所述的方法，其中，所述确定候选网页中待转换的文本信息的步骤进一步包括：

-生成与所述候选网页对应的DOM树；

3.根据权利要求2所述的方法，其中，所述计算所述DOM树中各个节点的文本权重信息的步骤基于以下任一项来计算各个节点的文本权重信息：

-所述节点对应的文本长度信息；

-所述节点对应的文本标点信息；

-所述节点的下属节点的文本权重信息。

4.根据权利要求2或3所述的方法，其中，所述基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息的步骤进一步包括以下步骤：

5.根据权利要求1至4中任一项所述的方法，其中，所述方法还包括以下步骤：

6.根据权利要求2至5中任一项所述的方法，其中，所述将所确定的所述文本信息转换为音频信息的步骤还包括以下步骤：

7.根据权利要求1至6中任一项所述的方法，其中，所述方法还包括以下步骤：

用于确定候选界面中待转换的文本信息的装置；

用于将所确定的所述文本信息转换为音频信息的装置；

9.根据权利要求8所述的提供装置，其中，所述用于确定候选界面中待转换的文本信息的装置进一步包括：

用于生成与所述候选界面对应的DOM树的装置；

10.根据权利要求9所述的提供装置，其中，所述用于计算所述DOM树中各个节点的文本权重信息的装置基于以下任一项来计算各个节点的文本权重信息：

-所述节点对应的文本长度信息；

-所述节点对应的文本标点信息；

-所述节点的下属节点的文本权重信息。

11.根据权利要求9或10所述的提供装置，其中，所述用于基于各个节点的文本权重信息，来选择相应的节点以提取其文本信息的装置进一步包括：

12.根据权利要求8至11中任一项所述的提供装置，其中，所述提供装置还包括：

13.根据权利要求7至12中任一项所述的提供装置，其中，所述用于将所确定的所述文本信息转换为音频信息的装置还包括：

用于在所述候选界面中添加用于获取所述一个或多个音频信息的音频获取标签，以将所述候选界面转换为所述有声界面的装置。

14.根据权利要求8至13中任一项所述的提供装置，其中，所述提供装置还包括：