CN111737620A

CN111737620A - 一种页面访问方法、装置、设备及介质

Info

Publication number: CN111737620A
Application number: CN202010478465.3A
Authority: CN
Inventors: 高明
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-10-02

Abstract

本发明实施例公开了一种页面访问方法、装置、设备及介质，涉及通信技术领域，应用于客户端的页面访问方法包括：在屏幕显示当前HTML5页面后，获取当前HTML5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；获取文本内容对应的音频数据，并对音频数据进行语音播报。本发明实施例提供的页面访问方法通过将当前HTML5页面中的语义元素中的文本内容转换成音频数据，并进行语音播报，提升了视障用户访问页面的便利性，增强了视障用户访问页面时的用户体验。

Description

一种页面访问方法、装置、设备及介质

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种页面访问方法、装置、设备及介质。

背景技术

随着信息技术的发展以及互联网的普及，人们的工作、生活都发生着巨大的变化，越来越多的残障人士也在使用互联网，包括网购、学习等等。但由于APP本身的特性以及一些页面的限制，残障人士比如视障用户在访问页面时存在一定障碍。

对于视障用户，APP端中的网页通过支持图片缩放等功能来增强页面访问的便利性。

在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：

通过支持图片缩放的功能，虽然能够在一定程度上缓解视障用户访问页面时存在障碍的问题，但由于图片可缩放的尺度有限、屏幕大小固定等原因，使得视障用户访问页面的不便利性不能有效得到彻底改善。

发明内容

本发明实施例提供了一种页面访问方法、装置、设备及介质，以提升视障用户访问页面的便利性，增强用户体验。

第一方面，本发明实施例提供了一种页面访问方法，包括：

获取显示的当前HTML5页面中的目标语义元素对应的文本内容，其中所述文本内容是对所述目标语义元素进行字符识别后得到的；

获取所述文本内容对应的音频数据；

对所述音频数据进行语音播报。

第二方面，本发明实施例还提供了一种页面访问方法，包括：

接收客户端发送的文本获取请求，所述文本获取请求中包含所述客户端显示的当前HTML5页面中的目标语义元素；

根据所述文本获取请求，获取与所述目标语义元素相对应的文本内容，其中所述文本内容是对所述目标语义元素进行字符识别后得到的；

将所述文本内容发送给所述客户端，以使所述客户端获取所述文本内容对应的音频数据并对所述音频数据进行语音播报。

第三方面，本发明实施例还提供了一种页面访问装置，包括：

文本内容获取模块，用于获取显示的当前HTML5页面中的目标语义元素对应的文本内容，其中所述文本内容是对所述目标语义元素进行字符识别后得到的；

音频数据获取模块，用于获取所述文本内容对应的音频数据；

语音播报模块，用于对所述音频数据进行语音播报。

第四方面，本发明实施例还提供了一种页面访问装置，包括：

文本获取请求接收模块，用于接收客户端发送的文本获取请求，所述文本获取请求中包含所述客户端显示的当前HTML5页面中的目标语义元素；

文本内容获取模块，用于根据所述文本获取请求，获取与所述目标语义元素相对应的文本内容，其中所述文本内容是对所述目标语义元素进行字符识别后得到的；

文本内容发送模块，用于将所述文本内容发送给所述客户端，以使所述客户端获取所述文本内容对应的音频数据并对所述音频数据进行语音播报。

第五方面，本发明实施例还提供了一种计算机设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例第一方面所提供的页面访问方法，和/或实现如本发明任意实施例第二方面所提供的页面访问方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例第一方面所提供的页面访问方法，和/或实现如本发明任意实施例第二方面所提供的页面访问方法。

本发明实施例通过获取显示的当前HTML5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；获取文本内容对应的音频数据，对音频数据进行语音播报，通过将当前HTML5页面中的语义元素中的文本内容转换成音频数据，并进行语音播报，提升了视障用户访问页面的便利性，增强了视障用户访问页面时的用户体验。

附图说明

图1是本发明实施例一所提供的一种页面访问方法的流程图；

图2是本发明实施例二所提供的一种页面访问方法的流程图；

图3a是本发明实施例三所提供的一种页面访问方法的交互流程图；

图3b是本发明实施例三所提供的另一种页面访问方法的交互流程图；

图4是本发明实施例四所提供的一种页面访问方法的流程图；

图5是本发明实施例五所提供的一种页面访问装置的结构示意图；

图6是本发明实施例六所提供的一种页面访问装置的结构示意图；

图7是本发明实施例七所提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一所提供的一种页面访问方法的流程图。本实施例优选可以应用于客户端，可适用于用户尤其是视障用户进行页面访问的情形。该方法可以由页面访问装置执行，该页面访问装置可以采用软件和/或硬件的方式实现，例如，该页面访问装置可配置于计算机设备中。如图1所示，所述方法包括：

S110、获取显示的当前超文本标记语言(HTML)5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的。

本实施例中，当前HTML5页面可以是客户端中的各应用软件提供的页面，该页面优选可以是由图片拼接而成的HTML5页面。示例性的，当前HTML5页面可以是购物应用中的商品图文详情页面或商品浏览首页面，也可以是学习应用中的题目详细解答页面等。当前HTML5页面中的语义元素可以是当前HTML5页面中的文本、图片、视频(优选可以是无声视频)以及按钮等控件。目标语义元素可以是当前HTML5页面中所显示的所有语义元素，也可以是用户通过触摸屏幕或者点击相应按钮选择的一个或多个语义元素。

以当前HTML5页面为商品图文详情页面为例，该页面包括商品文字介绍、商品图片和商品无声视频，其中，商品文字介绍、商品图片和商品无声视频均为当前HTML5页面的语义元素，商品文字介绍中的文字，以及商品图片和商品无声视频中用于描述商品的文字说明均为语义元素对应的文本内容。

虽然在当前HTML5页面的语义元素中通常会包含文本内容，但是对于视障用户尤其是完全失明的视障用户而言，即使客户端具有图片缩放功能，其也无法获知图片中所包含的具体文本内容。因此，优选的，可以将当前HTML5页面中的目标语义元素对应的文本内容提取出来，并进行相应的处理后反馈给视障用户，以使视障用户能够获知语义元素所表达的实际意义。

示例性的，用户通过屏幕显示界面向客户端发送当前HTML5页面获取请求，客户端根据当前HTML5页面获取请求显示当前HTML5页面，并根据用户的具体操作确定当前HTML5页面中的目标语义元素。之后客户端可以直接获取当前HTML5页面中的目标语义元素对应的文本内容，也可以间接向服务端获取当前HTML5页面中的目标语义元素对应的文本内容。具体的，客户端可以直接利用字符识别方法获取目标语义元素对应的文本内容，也可以向服务端发送文本内容获取请求(例如，文本内容获取请求中包括目标语义元素的唯一标识信息，和/或目标语义元素)，服务端从数据库中获取相应的文本内容并发送给客户端，其中，数据库中可以预先存储有相应的文本内容，还可以向服务端发送文本内容获取请求(例如，文本内容获取请求中包括目标语义元素的唯一标识信息和目标语义元素)，服务端利用字符识别方法获取目标语义元素对应的文本内容并发送给客户端。上述字符识别方法可以包括基于模板匹配的识别方法、基于字符结构的识别方法以及基于神经网络的识别方法等，示例性的，字符识别方法可以是OCR(Optical Character Recognition，光学字符识别)字符识别方法。

在本发明的一种实施方式中，为了能够及时响应用户对目标语义元素对应的文本内容的获取请求，获取当前HTML5页面中的目标语义元素对应的文本内容，包括：获取当前HTML5页面对应的HTML文件；对HTML文件中的各页面元素进行遍历，对于遍历到的语义元素，在HTML文件中增加语义元素的点击事件代码，以对语义元素的点击事件进行监听和处理；在监听到对当前HTML5页面中的目标语义元素的点击事件时，获取目标语义元素对应的文本内容。

优选的，可以利用JS(JavaScript)代码对HTML文件中的所有语义元素添加点击事件以及语义元素唯一标识，其中，点击事件可以用于确定当用户点击该语义元素时，客户端是否做出点击事件响应，语义元素唯一标识可以用于唯一标记该语义元素。示例性的，可以遍历HTML文件中的所有语义元素，并利用JS代码在HTML文件中分别为所有语义元素添加“onclick”事件。

优选的，在用户使用客户端的过程中，客户端可以持续监听当前HTML5页面中是否存在用户针对语义元素进行的点击事件。当客户端监听到用户对当前HTML5页面中的语义元素进行点击时，则确定被点击的语义元素为目标语义元素，此时可以获取目标语义元素对应的文本内容。示例性的，当前HTML5页面中包括图片1，图片2和图片3，用户通过触摸屏幕点击图片2，客户端监听到用户对当前HTML5页面中的图片2进行点击，则将图片2作为当前HTML5页面的目标语义元素，并获取图片2中的文本内容；或者，当前HTML5页面中包括图片1和无声视频1，用户通过触摸屏幕点击无声视频1，客户端监听到用户对当前HTML5页面中的无声视频1进行点击，则将无声视频1作为当前HTML5页面的目标语义元素，并获取无声视频1中的文本内容，可以理解的是，无声视频中的文本内容可以是构成无声视频的每一帧图像中的文本内容。

在本发明的一种实施方式中，为了避免用户遗漏当前HTML5页面中的语义元素，获取当前HTML5页面中的目标语义元素对应的文本内容可以包括：获取当前HTML5页面中包含的各语义元素；按照各语义元素在当前HTML5页面中的位置，依次将各语义元素作为目标语义元素并获取目标语义元素对应的文本内容。

例如，当前HTML5页面中的语义元素从上到下分别为图片1、图片2和图片3，则可以依次将图片1、图片2和图片3作为当前HTML5页面的目标语义元素，并依次获取图片1、图片2和图片3对应的文本内容。

上述示例仅为语义元素为图片的情况，其并不构成对获取当前HTML5页面中的目标语义元素对应的文本内容可以包括：获取当前HTML5页面中包含的各语义元素；按照各语义元素在当前HTML5页面中的位置，依次将各语义元素作为目标语义元素并获取目标语义元素对应的文本内容的限定。

示例性的，获取当前HTML5页面中的目标语义元素对应的文本内容，也可以包括：获取当前HTML5页面中包含的各图片和各无声视频；按照各图片和各无声视频在当前HTML5页面中的位置，依次将各图片和各无声视频作为目标语义元素并获取目标语义元素对应的文本内容。示例性的，获取当前HTML5页面中的目标语义元素对应的文本内容，还可以包括：获取当前HTML5页面中包含的各图片、各无声视频以及各按钮；按照各图片、各无声视频和各按钮在当前HTML5页面中的位置，依次将各图片、各无声视频和各按钮作为目标语义元素并获取目标语义元素对应的文本内容。

在本发明的一种实施方式中，为了能够准确获取到目标语义元素对应的文本内容，获取目标语义元素对应的文本内容可以包括：对目标语义元素进行字符识别，获得目标语义元素对应的文本内容；或者，向服务端发送包含目标语义元素的文本获取请求，接收服务端返回的对目标语义元素进行字符识别后得到的文本内容。

示例性的，目标语义元素为目标图片，则获取目标语义元素对应的文本内容，可以是客户端利用OCR字符识别方法对目标图片进行文字识别，获取目标图片对应的文本内容，也可以是客户端向服务端发送包含目标图片的文本获取请求，并接收服务端返回的文本内容。其中，服务端可以根据目标图片或者目标图片的唯一标识从数据库中获取与目标图片相对应的文本内容并发送给客户端，数据库中预先存储有与当前HTML5页面中各图片相对应的文本内容，数据库中预先存储的文本内容为利用文字识别方法从相应图片中获取到的。如果数据库中不包括与目标图片相对应的文本内容，则服务端还可以利用OCR字符识别方法获取目标图片对应的文本内容并发送给客户端。可以理解的是，为了便于后续直接获取到目标图片对应的文本内容，服务端在利用OCR字符识别方法获取目标图片对应的文本内容之后，可以将目标图片对应的文本内容存储在数据库中。

在上述方案的基础上，为了便于后续可以直接在数据库中获取目标语义元素对应的文本内容，在获得目标语义元素对应的文本内容之后，页面访问方法还可以包括：将目标语义元素对应的文本内容发送至服务端，以使服务端将目标语义元素对应的文本内容加入数据库进行存储，以供客户端后续从服务端请求获取目标语义元素对应的文本内容。

其中文本内容在数据库中的存储方式可以是将文本内容与目标语义元素的唯一标识对应存储，也可以是将文本内容与目标语义元素对应存储，还可以是将文本内容、目标语义元素的唯一标识以及目标语义元素对应存储。

S120、获取文本内容对应的音频数据。

示例性的，客户端可以直接获取文本内容对应的音频数据，也可以间接向服务端获取文本内容对应的音频数据。具体的，客户端可以直接利用文本音频转换方法获取文本内容对应的音频数据，也可以向服务端发送文本内容对应的音频数据获取请求(示例性的，该获取请求中可以包括目标语义元素的唯一标识信息，和/或目标语义元素对应的文本内容)，服务端从数据库中获取相应的文本内容对应的音频数据并发送给客户端，其中，数据库中可以预先存储有文本内容以及相应的音频数据，也可以向服务端发送文本内容对应的音频数据获取请求(示例性的，该获取请求中可以包括目标语义元素的唯一标识信息，和/或目标语义元素对应的文本内容)，服务端利用文本音频转换方法获取文本内容对应的音频数据并发送给客户端，还可以是当客户端向服务端发送文本内容获取请求时，服务端从数据库中获取相应的文本内容以及文本内容对应的音频数据并发送给客户端，当客户端需要获取文本内容对应的音频数据时，直接从接收到的服务端发送的数据中获取相应的文本内容对应的音频数据。

上述文本音频转换方法优选可以是TTS(Text To Speech,从文本到语音)方法，该方法同时运用语言学和心理学，在内置芯片的支持下，可以通过神经网络把文本内容实时转化为自然语音流。

在本发明的一种实施方式中，为了便于后续直接根据语义元素对应的文本内容获取音频数据，获取文本内容对应的音频数据，包括：将当前HTML5页面对应的HTML文件中目标语义元素的元素属性的内容，更新为目标语义元素对应的文本内容；读取HTML文件中元素属性的内容，生成读取的内容对应的音频数据。

在获取到目标语义元素的文本内容之后，可以将目标语义元素的元素属性内容更新为目标语义元素对应的文本内容，在后续使用时，无需使用字符识别方法或者向服务端发送文本内容获取请求，即可直接在元素属性内容中确定目标语义元素对应的文本内容。其中元素属性可以为HTML5页面的Alt属性。

示例性的，目标语义元素为目标图片，则可以通过修改HTML文件中目标图片的Alt属性，将Alt属性内容变更为目标图片对应的文本内容。

在上述方案的基础上，为了便于后续可以直接在数据库中获取文本内容对应的音频数据，在生成读取的内容对应的音频数据后，页面访问方法还包括：将生成的音频数据发送至服务端，以使服务端将音频数据加入数据库进行存储，以供客户端后续从服务端请求获取目标语义元素对应的文本内容的音频数据。

其中音频数据的存储方式可以是将音频数据与相应的文本内容以及相应语义元素的唯一标识对应存储，也可以是将音频数据与相应的文本内容对应存储。

S130、对音频数据进行语音播报。

本实施例中，在获取到音频数据后，客户端可以通过提供外放功能实现对音频数据的语音播报。

本实施例提供的一种页面访问方法，通过在屏幕显示当前HTML5页面后，获取当前HTML5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；获取文本内容对应的音频数据，并对音频数据进行语音播报，通过将当前HTML5页面中的语义元素中的文本内容转换成音频数据，并进行语音播报，提升了视障用户访问页面的便利性，增强了视障用户访问页面时的用户体验。

在本发明的一种实施方式中，页面访问方法还可以包括：根据对音频数据的语音播报的进度，控制当前HTML5页面进行滑动。

本实施例中，客户端除了可以根据用户的滑动操作控制当前HTML5页面进行滑动之外，还可以根据对音频数据的语音播报的进度，控制当前HTML5页面进行滑动，通过根据语音播报进度自动滑动当前HTML5页面，可以使用户无需对当前HTML5页面进行操作，即可获知当前HTML5页面的大致内容，提高了用户体验。

具体的，可以获取当前语音播报的目标语义元素对应的控件的坐标是否在当前屏幕范围内，若不在，则将控制承载当前HTML5页面的可滚动视图进行滑动，以使当前语音播报的目标语义元素对应的控件进入当前屏幕范围内。

实施例二

图2是本发明实施例二所提供的一种页面访问方法的流程图。本实施例优选可以应用于服务端，可适用于向客户端发送页面响应信息时的情形。该方法可以由页面访问装置执行，该页面访问装置可以采用软件和/或硬件的方式实现，例如，该页面访问装置可配置于计算机设备中。如图2所示，所述方法包括：

S210、接收客户端发送的文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素。

本实例中，文本获取请求除了可以包括目标语义元素之外，还可以包括目标语义元素对应的唯一标识信息。

S220、根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的。

优选的，可以根据文本获取请求中的目标语义元素，确定与目标语义元素相对应的文本内容，也可以根据文本获取请求中的目标语义元素或者目标语义元素对应的唯一标识信息，从数据库中匹配出与目标语义元素相对应的文本内容。

在本发明的一种实施方式中，为了准确地确定目标语义元素对应的文本内容，获取与目标语义元素相对应的文本内容可以包括：从数据库中获取与目标语义元素相对应的文本内容；或者，对目标语义元素进行字符识别，获得目标语义元素对应的文本内容。

在服务端的数据库中，可以预先存储有包括语义元素对应的唯一标识信息(或者语义元素)和语义元素对应的文本内容的数据表，其中，语义元素对应的唯一标识信息(或者语义元素)与语义元素对应的文本内容一一对应，语义元素对应的文本内容可以是预先对语义元素进行字符识别得到的。服务端在获取到文本获取请求后，可以根据文本获取请求中的目标语义元素对应的唯一标识信息或者目标语义元素，从数据库中获取与目标语义元素相对应的文本内容。

如果数据库中不包括目标语义元素相对应的文本内容，则优选可以对文本获取请求中的目标语义元素进行字符识别，获得目标语义元素对应的文本内容。

在上述方案的基础上，为了便于后续可以直接在数据库中获取目标语义元素对应的文本内容，在获得目标语义元素对应的文本内容之后，还包括：将目标语义元素对应的文本内容加入数据库进行存储，以供客户端后续请求获取目标语义元素对应的文本内容。

优选的，文本内容在数据库中的存储方式可以是将文本内容与目标语义元素的唯一标识对应存储，也可以是将文本内容与目标语义元素对应存储，还可以是将文本内容、目标语义元素的唯一标识以及目标语义元素对应存储。

在上述方案的基础上，为了便于后续可以直接在数据库中获取目标语义元素对应的文本内容，在从数据库中获取与目标语义元素相对应的文本内容之前，还包括：接收客户端发送的目标语义元素对应的文本内容；将目标语义元素对应的文本内容加入数据库进行存储。

本实施例中文本内容在数据库中的存储方式与前述文本内容在数据库中的存储方式相同，此处不再赘述。

S230、将文本内容发送给客户端，以使客户端获取文本内容对应的音频数据并对音频数据进行语音播报。

在得到目标语义元素对应的文本内容后，服务端可以将文本内容发送给客户端，以使客户端获取文本内容对应的音频数据并对音频数据进行语音播报。

在上述方案的基础上，使客户端获取文本内容对应的音频数据并对音频数据进行语音播报的具体过程可以是：服务器接收客户端发送的获取文本内容对应的音频数据的音频数据获取请求，根据音频数据获取请求，确定与文本内容相对应的音频数据，将音频数据发送给客户端，以使客户端对音频数据进行语音播报。

本实例中，音频数据获取请求可以包括目标语义元素、目标语义元素对应的的唯一标识信息以及相应文本内容中的一项或者多项。

在服务端的数据库中，可以预先存储有包括语义元素对应的唯一标识信息(或者语义元素)、语义元素对应的文本内容以及文本内容对应的音频数据的数据表，或者，也可以预先存储有包括语义元素对应的唯一标识信息(或者语义元素)和语义元素对应的文本内容的第一数据表和包括文本内容和文本内容对应的音频数据的第二数据表。其中，语义元素对应的文本内容可以是预先对语义元素进行字符识别得到的，文本内容对应的音频数据可以是预先对文本内容进行文本语音转换得到的。

服务端在获取到音频数据获取请求后，在本发明的一种实施方式中，确定与文本内容相对应的音频数据，包括：从数据库中获取文本内容相对应的音频数据。优选的，可以根据音频数据获取请求中的目标语义元素对应的唯一标识信息、目标语义元素以及文本内容中的一项或多项，从数据库中获取与文本内容相对应的音频数据。

如果数据库中不包括文本内容对应的音频数据，则优选可以对音频数据获取请求中的文本内容进行文本语音转换，获得文本内容对应的音频数据。

在服务端获得文本内容对应的音频数据之后，还可以包括：将文本内容对应的音频数据加入数据库进行存储，以供客户端后续请求获取文本内容对应的音频数据。

在上述方案的基础上，为了便于后续可以直接在数据库中获取文本内容对应的音频数据，在从数据库中获取文本内容相对应的音频数据之前，还可以包括：接收客户端发送的音频数据，其中音频数据为客户端根据当前HTML5页面对应的HTML文件中元素属性的内容生成的，HTML文件中元素属性的内容包括目标语义元素对应的文本内容；将音频数据加入数据库进行存储，以供客户端后续从服务端请求获取目标语义元素对应的文本内容的音频数据。

本实施例提供的一种页面访问方法，通过接收客户端发送的文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素；根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；将文本内容发送给客户端，以使客户端获取文本内容对应的音频数据并对音频数据进行语音播报，提升了视障用户访问页面的便利性，增强了视障用户访问页面时的用户体验。

实施例三

图3a是本发明实施例三所提供的一种页面访问方法的交互流程图，本实施例可适用于需要进行页面访问的情况，该方法可以由客户端和服务端交互执行。如图3a所示，该方法具体可以包括如下步骤：

S301、客户端向服务端发送文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素。

S302、服务端接收客户端发送的文本获取请求。

S303、服务端根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的。

S304、服务端将目标语义元素对应的文本内容发送给客户端。

S305、客户端接收到目标语义元素对应的文本内容，获取文本内容对应的音频数据并对音频数据进行语音播报。

本实施例提供的一种页面访问方法，通过客户端向服务端发送文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素；服务端接收客户端发送的文本获取请求；服务端根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；服务端将目标语义元素对应的文本内容发送给客户端；客户端接收到目标语义元素对应的文本内容，获取文本内容对应的音频数据并对音频数据进行语音播报，提升了视障用户访问页面的便利性，增强了视障用户访问页面时的用户体验。

图3b是本发明实施例三所提供的一种页面访问方法的交互流程图，如图3b所示，该方法具体可以包括如下步骤：

S306、客户端向服务端发送文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素。

S307、服务端接收客户端发送的文本获取请求。

S308、服务端根据文本获取请求，从数据库中获取与目标语义元素相对应的文本内容，或者，对目标语义元素进行字符识别，获得目标语义元素对应的文本内容。

S309、服务端将目标语义元素对应的文本内容发送给客户端。

S310、客户端接收到目标语义元素对应的文本内容，并向服务端发送文本内容对应的音频数据的音频数据获取请求。

S311、服务端接收客户端发送的获取文本内容对应的音频数据的音频数据获取请求。

S312、服务端根据音频数据获取请求，从数据库中获取与文本内容相对应的音频数据，或者，对文本内容进行文本语音转换，获得文本内容对应的音频数据。

S313、服务端将文本内容对应的音频数据发送给客户端。

S314、客户端接收到文本内容对应的音频数据，并对音频数据进行语音播报。

本实施例提供的一种页面访问方法，通过在屏幕显示当前HTML5页面后，客户端向服务端发送包含目标语义元素的文本获取请求，服务端接收文本获取请求，之后根据文本获取请求，从数据库中获取与目标语义元素相对应的文本内容，或者，对目标语义元素进行字符识别，获得目标语义元素对应的文本内容，并将文本内容发送给客户端，客户端接收到文本内容，向服务端发送文本内容对应的音频数据的音频数据获取请求，服务端接收音频数据获取请求，之后根据音频数据获取请求，从数据库中获取与文本内容相对应的音频数据，或者，对文本内容进行文本语音转换，获得文本内容对应的音频数据，并将音频数据发送给客户端，客户端接收到音频数据，对音频数据进行语音播报，在提升了视障用户访问页面的便利性，增强了视障用户访问页面时的用户体验的同时，能够方便后续直接在数据库中获取目标语义元素对应的文本内容以及文本内容对应的音频数据。

实施例四

图4是本发明实施例四所提供的一种页面访问方法的流程图。本实施例在上述实施例的基础上，提供了一种优选实施例。如图4所示，客户端根据用户操作开启H5页面适配功能，此时可以在当前HTML5页面视图加载成功的API中，利用JS获取当前HTML5页面中的各图片，并为各图片添加点击的识别方式及图片唯一标识，还可以对是否需要进行无障碍信息的适配标记。具体的，遍历html中所有图片的<img>元素，并添加点击“onclick”事件，并可在图片点击时触发当前HTML5页面调用的指定响应接口。

用户针对当前HTML5页面执行点击操作，客户端获取屏幕接触点，根据屏幕接触点确定当前HTML5页面中的图片资源(目标语义元素)，根据图片资源的图片唯一标识，从服务端的文本内容与图片唯一标识数据库中获取图片资源对应的文本内容。若没有从文本内容与图片唯一标识数据库中匹配出与图片资源对应的文本内容，则客户端将图片资源上传至服务端，服务端通过OCR字符识别技术，识别出图片资源对应的文本内容，并将文本内容发送给客户端。客户端在接收到文本内容之后，利用TTS文本音频转换方法，将文本内容转换成音频数据，并通过外放功能对音频数据进行语音播报。

为了后续循环使用时，能够快速读取，降低时间和运行成本，在上述服务端通过OCR字符识别技术，识别出图片资源对应的文本内容之后，将文本内容与图片资源的图片唯一标识对应存储到文本内容与图片唯一标识数据库中，其中，图片唯一标识为关键字key，文本内容为关键字key对应的值value。

上述客户端在接收到文本内容之后，利用TTS文本音频转换方法，将文本内容转换成音频数据，并对音频数据进行语音播报，具体可以是获取当前HTML5页面对应的HTML文件，根据文本内容对应的图片标识，将HTML文件中相应图片资源的<img>标签的alt属性信息更新为文本内容，利用TTS文本音频转换方法，将文本内容转换成音频数据。

实施例五

图5是本发明实施例五所提供的一种页面访问装置的结构示意图。该页面访问装置可以采用软件和/或硬件的方式实现，例如该页面访问装置可以配置于客户端，以配置于计算机设备中。如图5所示，所述装置包括文本内容获取模块510、音频数据获取模块520和语音播报模块530，其中：

文本内容获取模块510，用于获取显示的当前HTML5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的。

音频数据获取模块520，用于获取文本内容对应的音频数据；

语音播报模块530，用于对音频数据进行语音播报。

本实施例提供一种页面访问装置，通过利用文本内容获取模块在获取显示的当前HTML5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；利用音频数据获取模块获取文本内容对应的音频数据，利用语音播报模块对音频数据进行语音播报，通过将当前HTML5页面中的语义元素中的文本内容转换成音频数据，并进行语音播报，提升了视障用户访问页面的不便利性，增强了视障用户访问页面时的用户体验。

可选的，在上述方案的基础上，文本内容获取模块510具体可以用于：获取当前HTML5页面对应的超文本标记语言HTML文件；对HTML文件中的各页面元素进行遍历，对于遍历到的语义元素，在HTML文件中增加语义元素的点击事件代码，以对语义元素的点击事件进行监听和处理；在监听到对当前HTML5页面中的目标语义元素的点击事件时，获取目标语义元素对应的文本内容。

可选的，在上述方案的基础上，文本内容获取模块510具体还可以用于：获取当前HTML5页面中包含的各语义元素；按照各语义元素在当前HTML5页面中的位置，依次将各语义元素作为目标语义元素并获取目标语义元素对应的文本内容。

可选的，在上述方案的基础上，文本内容获取模块510具体还可以用于：对目标语义元素进行字符识别，获得目标语义元素对应的文本内容；或者，向服务端发送包含目标语义元素的文本获取请求，接收服务端返回的对目标语义元素进行字符识别后得到的文本内容。

可选的，在上述方案的基础上，页面访问装置还可以包括文本内容发送模块，用于在获得目标语义元素对应的文本内容之后，将目标语义元素对应的文本内容发送至服务端，以使服务端将目标语义元素对应的文本内容加入数据库进行存储，以供客户端后续从服务端请求获取目标语义元素对应的文本内容。

可选的，在上述方案的基础上，音频数据获取模块520具体可以用于：将当前HTML5页面对应的HTML文件中目标语义元素的元素属性的内容，更新为目标语义元素对应的文本内容；读取HTML文件中元素属性的内容，生成读取的内容对应的音频数据。

可选的，在上述方案的基础上，页面访问装置还可以包括音频数据发送模块，用于在生成读取的内容对应的音频数据后，将生成的音频数据发送至服务端，以使服务端将音频数据加入数据库进行存储，以供客户端后续从服务端请求获取目标语义元素对应的文本内容的音频数据。

可选的，在上述方案的基础上，页面访问装置还可以包括页面滑动模块，用于根据对音频数据的语音播报的进度，控制当前HTML5页面进行滑动。

本发明实施例所提供的页面访问装置可执行本发明实施例一所提供的页面访问方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六所提供的一种页面访问装置的结构示意图。该页面访问装置可以采用软件和/或硬件的方式实现，例如该页面访问装置可以配置于服务端，以配置于计算机设备中。如图6所示，所述装置包括文本获取请求接收模块610、文本内容获取模块620和文本内容发送模块630，其中：

文本获取请求接收模块610，用于接收客户端发送的文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素；

文本内容获取模块620，用于根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；

文本内容发送模块630，用于将文本内容发送给客户端，以使客户端获取文本内容对应的音频数据并对音频数据进行语音播报。

本实施例提供的一种页面访问装置，通过利用文本获取请求接收模块接收客户端发送的文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素；利用文本内容获取模块根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；利用文本内容发送模块将文本内容发送给客户端，以使客户端获取文本内容对应的音频数据并对音频数据进行语音播报，提升了视障用户访问页面的不便利性，增强了视障用户访问页面时的用户体验。

可选的，在上述方案的基础上，文本内容获取模块620具体可以用于：从数据库中获取与目标语义元素相对应的文本内容；或者，对目标语义元素进行字符识别，获得目标语义元素对应的文本内容。

可选的，在上述方案的基础上，页面访问装置还可以包括数据库存储模块，用于在获得目标语义元素对应的文本内容之后，将目标语义元素对应的文本内容加入数据库进行存储，以供客户端后续请求获取目标语义元素对应的文本内容。

可选的，在上述方案的基础上，数据库存储模块还可以用于：在从数据库中获取与目标语义元素相对应的文本内容之前，接收客户端发送的目标语义元素对应的文本内容；将目标语义元素对应的文本内容加入数据库进行存储。

可选的，在上述方案的基础上，数据库存储模块还可以用于：在接收客户端发送的音频数据，其中音频数据为客户端根据当前HTML5页面对应的HTML文件中元素属性的内容生成的，HTML文件中元素属性的内容包括目标语义元素对应的文本内容；将音频数据加入数据库进行存储，以供客户端后续从服务端请求获取所述目标语义元素对应的文本内容的音频数据。

本发明实施例所提供的页面访问装置可执行本发明实施例二所提供的页面访问方法，具备执行方法相应的功能模块和有益效果。

实施例七

图7是本发明实施例七所提供的计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备712的框图。图7显示的计算机设备712仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备712以通用计算设备的形式表现。计算机设备712的组件可以包括但不限于：一个或者多个处理器716，系统存储器728，连接不同系统组件(包括系统存储器728和处理器716)的总线718。

总线718表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器716或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备712访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)730和/或高速缓存存储器732。计算机设备712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储装置734可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线718相连。存储器728可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块742的程序/实用工具740，可以存储在例如存储器728中，这样的程序模块742包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块742通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备712也可以与一个或多个外部设备714(例如键盘、指向设备、显示器724等)通信，还可与一个或者多个使得用户能与该计算机设备712交互的设备通信，和/或与使得该计算机设备712能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口722进行。并且，计算机设备712还可以通过网络适配器720与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器720通过总线718与计算机设备712的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备712使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器716通过运行存储在系统存储器728中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的页面访问方法，该方法包括：

获取显示的当前HTML5页面中的目标语义元素对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；

获取文本内容对应的音频数据；

对音频数据进行语音播报。

和/或，实现本发明实施例所提供的页面访问方法，该方法包括：

接收客户端发送的文本获取请求，文本获取请求中包含客户端显示的当前HTML5页面中的目标语义元素；

根据文本获取请求，获取与目标语义元素相对应的文本内容，其中文本内容是对目标语义元素进行字符识别后得到的；

将文本内容发送给客户端，以使客户端获取文本内容对应的音频数据并对音频数据进行语音播报。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的页面访问方法的技术方案。

实施例八

本发明实施例八还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所提供的页面访问方法，该方法包括：

获取文本内容对应的音频数据；

对音频数据进行语音播报。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的页面访问方法的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种页面访问方法，其特征在于，包括：

获取显示的当前超文本标记语言HTML5页面中的目标语义元素对应的文本内容，其中所述文本内容是对所述目标语义元素进行字符识别后得到的；

获取所述文本内容对应的音频数据；

对所述音频数据进行语音播报。

2.根据权利要求1所述的方法，其特征在于，获取所述当前HTML5页面中的目标语义元素对应的文本内容，包括：

获取所述当前HTML5页面对应的HTML文件；

对所述HTML文件中的各页面元素进行遍历，对于遍历到的语义元素，在所述HTML文件中增加所述语义元素的点击事件代码，以对所述语义元素的点击事件进行监听和处理；

在监听到对所述当前HTML5页面中的目标语义元素的点击事件时，获取所述目标语义元素对应的文本内容。

3.根据权利要求1所述的方法，其特征在于，获取所述当前HTML5页面中的目标语义元素对应的文本内容，包括：

获取所述当前HTML5页面中包含的各语义元素；

按照各语义元素在所述当前HTML5页面中的位置，依次将各语义元素作为目标语义元素并获取所述目标语义元素对应的文本内容。

4.根据权利要求1-3中任一项所述的方法，其特征在于，获取所述目标语义元素对应的文本内容，包括：

对所述目标语义元素进行字符识别，获得所述目标语义元素对应的文本内容；或者，

向服务端发送包含所述目标语义元素的文本获取请求，接收所述服务端返回的对所述目标语义元素进行字符识别后得到的文本内容。

5.根据权利要求4所述的方法，其特征在于，在获得所述目标语义元素对应的文本内容之后，所述方法还包括：

将所述目标语义元素对应的文本内容发送至服务端，以使服务端将所述目标语义元素对应的文本内容加入数据库进行存储，以供客户端后续从服务端请求获取所述目标语义元素对应的文本内容。

6.根据权利要求1-3中任一项所述的方法，其特征在于，获取所述文本内容对应的音频数据，包括：

将所述当前HTML5页面对应的HTML文件中所述目标语义元素的元素属性的内容，更新为所述目标语义元素对应的文本内容；

读取所述HTML文件中所述元素属性的内容，生成读取的内容对应的音频数据。

7.根据权利要求6所述的方法，其特征在于，在生成读取的内容对应的音频数据后，所述方法还包括：

将生成的所述音频数据发送至服务端，以使服务端将所述音频数据加入数据库进行存储，以供客户端后续从服务端请求获取所述目标语义元素对应的文本内容的音频数据。

8.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

根据对音频数据的语音播报的进度，控制当前HTML5页面进行滑动。

9.一种页面访问方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，获取与所述目标语义元素相对应的文本内容，包括：

从数据库中获取与所述目标语义元素相对应的文本内容；或者，

对所述目标语义元素进行字符识别，获得所述目标语义元素对应的文本内容。

11.根据权利要求10所述的方法，其特征在于，在获得所述目标语义元素对应的文本内容之后，还包括：

将所述目标语义元素对应的文本内容加入数据库进行存储，以供客户端后续请求获取所述目标语义元素对应的文本内容。

12.根据权利要求10所述的方法，其特征在于，在从数据库中获取与所述目标语义元素相对应的文本内容之前，还包括：

接收客户端发送的所述目标语义元素对应的文本内容；

将所述目标语义元素对应的文本内容加入数据库进行存储。

13.根据权利要求9-12中任一项所述的方法，其特征在于，所述方法还包括：

接收所述客户端发送的所述音频数据，其中所述音频数据为所述客户端根据所述当前HTML5页面对应的HTML文件中元素属性的内容生成的，所述HTML文件中元素属性的内容包括所述目标语义元素对应的文本内容；

将所述音频数据加入数据库进行存储，以供客户端后续从服务端请求获取所述目标语义元素对应的文本内容的音频数据。

14.一种页面访问装置，其特征在于，包括：

语音播报模块，用于对所述音频数据进行语音播报。

15.一种页面访问装置，其特征在于，包括：

16.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的页面访问方法，和/或，实现如权利要求9-13中任一所述的页面访问方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的页面访问方法，和/或，实现如权利要求9-13中任一所述的页面访问方法。