CN110334292B

CN110334292B - 页面处理方法、装置及设备

Info

Publication number: CN110334292B
Application number: CN201910591157.9A
Authority: CN
Inventors: 王群
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-09-28
Anticipated expiration: 2039-07-02
Also published as: CN110334292A

Abstract

本发明实施例提供一种页面处理方法、装置及设备，该方法包括：在当前页面中获取待处理的第一表格；在第一表格中提取文本信息，文本信息中包括多个单元文本和每个单元文本在第一表格中的位置信息，单元文本为第一表格的一个单元格中的文本；对文本信息进行解析，以确定第一表格的阅读方式，阅读方式为按行阅读或者按列阅读；根据第一表格的阅读方式和文本信息，确定第一表格的内容信息，并语音播放内容信息。提高了页面处理的可靠性。

Description

页面处理方法、装置及设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种页面处理方法、装置及设备。

背景技术

随着互联网技术的发展，互联网中的内容越来越丰富，且使用互联网的用户也越来越多。例如，越来越多的低龄用户和高龄用户开始使用互联网。

为了便于用户方便的获取互联网中的内容，在用户浏览互联网中的页面时，可以以语音的形式播放页面中的内容。目前，通过将页面中的文本信息转换成语音信息，并播放该语音信息，当页面中出现表格时，则跳过该表格，并继续播放其它文本信息对应的语音信息。然而，当页面中的表格包括重要信息，则无法使用户获取完整的页面内容，导致页面处理的可靠性较低。

发明内容

本发明实施例提供一种页面处理方法、装置及设备，提高页面处理的可靠性。

第一方面，本发明实施例提供一种页面处理方法，包括：

在当前页面中获取待处理的第一表格；

在所述第一表格中提取文本信息，所述文本信息中包括多个单元文本和每个单元文本在所述第一表格中的位置信息，所述单元文本为所述第一表格的一个单元格中的文本；

对所述文本信息进行解析，以确定所述第一表格的阅读方式，所述阅读方式为按行阅读或者按列阅读；

根据所述第一表格的阅读方式和所述文本信息，确定所述第一表格的内容信息，并语音播放所述内容信息。

在一种可能的实施方式中，所述根据所述第一表格的阅读方式和所述文本信息，确定所述第一表格的内容信息，包括：

根据所述第一表格的阅读方式，在所述文本信息中确定标题信息和至少一组正文信息，

根据所述标题信息和所述至少一组正文信息，确定所述第一表格的内容信息。

在一种可能的实施方式中，所述根据所述第一表格的阅读方式，在所述文本信息中确定标题信息和至少一组正文信息，包括：

当所述阅读方式为按行阅读时，确定所述标题信息为所述第一表格的标题行中的信息，确定所述至少一组正文信息为所述第一表格的每行正文中的信息，一组正文信息对应一行正文中的信息；

当所述阅读方式为按列阅读时，确定所述标题信息为所述第一表格的标题列中的信息，确定所述至少一组正文信息为所述第一表格的每列正文中的信息，一组正文信息对应一列正文中的信息。

在一种可能的实施方式中，所述根据所述标题信息和所述至少一组正文信息，确定所述第一表格的内容信息，包括：

按照预设组合规则，分别将每组正文信息与所述标题信息进行组合处理，得到每组正文信息对应的内容信息；

确定所述第一表格的内容信息包括每组正文信息对应的内容信息。

在一种可能的实施方式中，针对所述至少一组正文信息中的任意一组正文信息，所述按照预设组合规则，分别将所述一组正文信息与所述标题信息进行组合处理，得到所述一组正文信息对应的内容信息，包括：

确定所述一组正文信息中的单元文本与所述标题信息中的单元文本之间的对应关系；

按照所述预设组合规则和所述对应关系，将所述一组正文信息中每个单元文本与所述标题信息中对应的单元文本进行组合处理，得到所述一组正文信息对应的内容信息。

在一种可能的实施方式中，所述在当前页面中获取待处理的第一表格，包括：

根据所述当前页面中对象的标签，在所述当前页面中获取第一对象，所述第一对象的标签为表格标签或者图像标签；

若所述第一对象的标签为表格标签，则将所述第一对象确定为所述第一表格；

若所述第一对象的标签为图像标签，则对第一对象进行图像识别处理，以判断所述第一对象中是否包括表格，若是，则将所述第一对象中的表格确定为所述第一表格。

在一种可能的实施方式中，所述对第一对象进行图像识别处理，以判断所述第一对象中是否包括表格，包括：

通过识别模型对所述第一对象进行图像识别处理，以判断所述第一对象中是否包括表格；其中，所述识别模型为根据多组样本学习得到的，每组样本中包括样本图像和对应的样本识别结果，所述样本识别结果用于指示所述样本图像中是否包括表格。

在一种可能的实施方式中，所述在所述第一表格中提取文本信息，包括：

获取所述第一表格的格式，所述第一表格的格式为HTML格式或者图像格式；

若所述第一表格的格式为HTML格式，则根据所述第一表格中的HTML标签，在所述第一表格中提取所述文本信息；

若所述第一表格的格式为图像格式，则对所述第一表格进行文本识别，以获取所述第一表格中提取所述文本信息。

在一种可能的实施方式中，所述文本信息以表格文本树的形式存储，所述表格文本树的根节点为所述第一表格的表头，所述表格文本树的叶子节点为所述第一表格中的多个单元文本和每个单元文本在所述第一表格中的位置信息。

第二方面，本发明实施例提供一种页面处理装置，包括：获取模块、提取模块、第一确定模块、第二确定模块和播放模块，其中，

所述获取模块用于，在当前页面中获取待处理的第一表格；

所述提取模块用于，在所述第一表格中提取文本信息，所述文本信息中包括多个单元文本和每个单元文本在所述第一表格中的位置信息，所述单元文本为所述第一表格的一个单元格中的文本；

所述第一确定模块用于，对所述文本信息进行解析，以确定所述第一表格的阅读方式，所述阅读方式为按行阅读或者按列阅读；

所述第二确定模块用于，根据所述第一表格的阅读方式和所述文本信息，确定所述第一表格的内容信息；

所述播放模块用于，语音播放所述内容信息。

在一种可能的实施方式中，所述第二确定模块具体用于：

针对所述至少一组正文信息中的任意一组正文信息，确定所述一组正文信息中的单元文本与所述标题信息中的单元文本之间的对应关系；

在一种可能的实施方式中，所述获取模块具体用于：

在一种可能的实施方式中，所述提取模块具体用于：

第三方面，本发明实施例提供一种页面处理装置，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的页面处理方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的页面处理方法。

本发明实施例提供的页面处理方法、装置及设备，若当前页面中包括表格，则可以在表格中提取文本信息，以及获取表格的阅读方式(按行阅读或者按列阅读)，并根据表格的阅读方式和提取到的文本信息，确定表格中的内容信息，并语音播放表格中的内容信息。这样，可以使得电子设备语音播放表格中的内容信息，进而使得用户可以通过语音的形式获取得到页面中表格的相关内容，提高了页面处理的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的页面处理方法的应用场景示意图；

图2为本发明实施例提供的一种页面处理方法的流程示意图；

图3为本发明实施例提供的表格文本树的示意图；

图4为本发明实施例提供的确定表格的内容信息方法的流程示意图；

图5为本发明实施例提供的一种页面示意图；

图6为本发明实施例提供的一种页面处理装置的结构示意图；

图7为本发明实施例提供的页面处理装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的页面处理方法的应用场景示意图。请参见图1，电子设备可以显示页面，页面中可能包括文本、表格等内容。在电子设备显示页面的过程中，电子设备可以语音播放页面中的内容，例如，电子设备可以将页面中的文本信息转换成语音信息，并播放文本信息对应的语音信息，电子设备还可以对页面中的表格进行处理，以获取表格中的内容信息，并语音播放表格中的内容信息。

在本申请中，若页面中包括表格，则可以在表格中提取文本信息，以及获取表格的阅读方式(按行阅读或者按列阅读)，并根据表格的阅读方式和提取到的文本信息，确定表格中的内容信息，并语音播放表格中的内容信息。这样，可以使得电子设备语音播放表格中的内容信息，进而使得用户可以通过语音的形式获取得到页面中表格的相关内容，提高了页面处理的可靠性。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的一种页面处理方法的流程示意图。请参见图2，该方法可以包括：

S201、在当前页面中获取待处理的第一表格。

本发明实施例的执行主体可以为电子设备，也可以为设置在电子设备中的页面处理装置。可选的，电子设备可以为手机、电脑等设备。可选的，页面处理装置可以通过软件实现，也可以通过软件和硬件的结合实现。

可选的，当前页面为电子设备当前显示的页面。当前页面中至少包括第一表格，当然，当前页面中还可以包括其它，例如，当前页面中还可以包括文字、图像等内容。

可选的，电子设备可以具有多种页面阅读方式，页面阅读方式可以包括第一页面阅读方式和第二页面阅读方式。其中，第一页面阅读方式是指，自动阅读页面中的所有页面内容。第二页面阅读方式是指，在用户触发下阅读页面中的部分页面内容。

例如，请参见图1，当电子设备的页面阅读方式为第一页面阅读方式时，在电子设备显示图1所示的页面后，电子设备开始语音播放文本内容“目前，本单位一共有100多名多种专业员工，其中，在2018年，本单位一共招收5名新员工，下面，公布本单位招收的员工信息”，在电子设备语音播放完上述文本内容之后，电子设备获取页面中的表格的内容信息，并语音播放表格的内容信息。

例如，请参见图1，当电子设备的页面阅读方式为第二页面阅读方式时，在电子设备显示图1所示的页面后，若用户对页面中的表格输入语音播放操作，则电子设备获取该表格的内容信息，并语音播放表格的内容信息。

在实际应用过程中，用户可以根据实际需要设置电子设备的页面阅读方式。例如，电子设备可以包括第一页面阅读方式的图标和第二页面阅读方式的图标，用户可以对相应的图标进行选中操作，以实现设置电子设备的页面阅读方式。

可选的，当电子设备的阅读方式为第一页面阅读方式时，则获取对当前页面的语音播放进度，若语音播放进度对应的下一个处理对象为表格，则将当前页面中所述语音播放进度对应的下一个处理对象确定为第一表格。例如，请参见图1，在电子设备对页面中的文本信息阅读完毕之后，电子设备的语音播放进度对应的下一个处理对象为页面中的表格，则电子设备将页面中的表格确定为第一表格。

可选的，当电子设备的阅读方式为第二页面阅读方式时，则接收用户对第一表格输入的语音播放操作，语音播放操作用于指示语音播放第一表格中的内容；根据语音播放操作，获取第一表格。可选的，语音播放操作可以为长按操作、双击操作等。例如，请参加图1，在电子设备显示图1所示的页面之后，若用户需要电子设备语音播放页面中的表格的内容，则用户可以对页面中的表格输入语音播放操作。在电子设备获取得到用户输入的语音播放操作之后，电子设备将页面中的表格确定为第一表格。

在实际应用过程中，页面中的表格可能为HTML格式，也可能为图片格式，因此，电子设备可以通过如下可行的实现方式在当前页面中获取待处理的第一表格：根据当前页面中对象的标签(例如，HTML标签)，在当前页面中获取第一对象，第一对象的标签为表格标签或者图像标签；若第一对象的标签为表格标签，则将第一对象确定为第一表格；若第一对象的标签为图像标签，则对第一对象进行图像识别处理，以判断第一对象中是否包括表格，若是，则将第一对象中的表格确定为第一表格。

可选的，当电子设备的页面阅读方式不同时，电子设备获取第一对象的方式也不同，获取第一对象的方式参见上述描述，此处不再进行指数。

当第一对象的标签为表格标签时，说明第一对象为HTML格式的表格，则将第一对象确定为第一表格，在该种情况下，获取得到的第一表格为HTML格式。

当第一对象的标签为图像标签时，说明第一对象为一张图像，需要对该图像进行识别处理，才能确定该图像中是否包括表格，若确定图像中包括表格，则可以根据表格在图像中所占的区域，对图像进行剪裁处理，以在图像中获取包括表格的部分图像。例如，可以通过识别模型对第一对象进行图像识别处理，以判断第一对象中是否包括表格；其中，识别模型为根据多组样本学习得到的，每组样本中包括样本图像和对应的样本识别结果，样本识别结果用于指示样本图像中是否包括表格。样本识别结果可以为人工对样本图像的标注结果，例如，当样本图像中包括表格时，则样本识别结果可以为“包括”，当样本图像中不包括表格时，则样本识别结果可以为“不包括”。

S202、在第一表格中提取文本信息。

其中，文本信息中包括多个单元文本和每个单元文本在第一表格中的位置信息，单元文本为第一表格的一个单元格中的文本。

例如，请参见图1，单元文本包括：“序号”、“姓名”、“年龄”、“专业”、“1”、“张三”、“23”、“会计”等。

可选的，位置信息可以为(x，y)，其中x为行号，y为列号。

例如，单元文本“序号”的位置信息为(0,0)，单元文本“姓名”的位置信息为(0,1)，单元文本“1”的位置信息为(1,0)，单元文本“张三”的位置信息为(1,1)。

可选的，可以通过如下可行的实现方式在第一表格中提取文本信息，包括：获取第一表格的格式，第一表格的格式为HTML格式或者图像格式；若第一表格的格式为HTML格式，则根据第一表格中的HTML标签，在第一表格中提取文本信息；若第一表格的格式为图像格式，则对第一表格进行文本识别，以获取第一表格中提取文本信息。

当第一表格的格式为HTML格式时，可以获取第一表格对应的源文件(HTML源文件)，源文件中包括多个单元文本和每个单元文本的行号和列号，在源文件中获取第一表格的多个单元文本和每个单元文本在第一表格中的位置信息(行号和列号)。

当第一表格的格式为图像格式时，第一表格为一张图像，则可以在图像中提取文本信息、以及获取文本信息的位置信息。例如，可以通过光学字符识别(Optical CharacterRecognition，OCR)技术在图像中提取文本信息，并标记每段文本(一个单元格中的文本)在图像中的位置信息。

可选的，可以以表格文本树的形式存储文本信息。其中，表格文本树的根节点为第一表格的表头，表格文本树的叶子节点为第一表格中的多个单元文本和每个单元文本在第一表格中的位置信息。当第一表格不包括表头时，则表格文本树的根节点可以为空。

下面，结合图3，对表格文本树进行说明。

图3为本发明实施例提供的表格文本树的示意图。请参见图3，在获取得到表格之后，可以在表格中获取多个单元文本、以及每个单元文本的位置信息。将表格中的多个单元文本、以及每个单元文本的位置信息以树形结构存储，得到表格文本树，由于表格中不包括表格头，因此，表格文本树中的根节点为空。

S203、对文本信息进行解析，以确定第一表格的阅读方式。

其中，阅读方式为按行阅读或者按列阅读。

可选的，可以对文本信息中的一行(除标题行之外的任意行)或者一列(除标题列之外的任意列)进行解析，若文本信息中一行中除标题之外的各单元文本指示相同类型的对象，则确定阅读方式为按列阅读。若文本信息中一列中除标题之外的各单元文本指示相同类型的对象，则确定阅读方式为按行阅读。例如，请参见图1，表中的第一行为标题行，该标题行中包括标题：“序号”、“姓名”、“年龄”和“专业”。

例如，请参见图1，第一列中除标题“序号”之外的全部为数字，第二列中除标题“姓名”之外的全部为人名，因此，可以确定图1中的表格的阅读方式为按行阅读。

S204、根据第一表格的阅读方式和文本信息，确定第一表格的内容信息，并语音播放内容信息。

可选的，可以根据阅读方式，对文本信息进行组合，以得到第一表格的内容信息。

例如，请参见图1，确定得到的图1中的表格的内容信息可以为：序号1，姓名为张三，年龄为23岁，专业为会计；序号2，姓名为李明，年龄27岁，专业为计算机，序号3，姓名为王红，年龄28岁，专业为计算机，序号4，姓名为王萌，年龄26岁，专业为英语，序号5，姓名为李华，年龄29岁，专业为英语。

需要说明的是，在图4所示的实施例中对确定第一表格的内容信息的过程进行详细说明，此处不再进行赘述。

本发明实施例提供的页面处理方法，若当前页面中包括表格，则可以在表格中提取文本信息，以及获取表格的阅读方式(按行阅读或者按列阅读)，并根据表格的阅读方式和提取到的文本信息，确定表格中的内容信息，并语音播放表格中的内容信息。这样，可以使得电子设备语音播放表格中的内容信息，进而使得用户可以通过语音的形式获取得到页面中表格的相关内容，提高了页面处理的可靠性。

下面，结合图4，对确定第一表格的内容信息的过程进行详细说明。

图4为本发明实施例提供的确定表格的内容信息方法的流程示意图。请参见图4，该方法可以包括：

S401、根据第一表格的阅读方式，在文本信息中确定标题信息和至少一组正文信息。

其中，第一表格的阅读方式为按行阅读或者按列阅读。

当第一表格的阅读方式不同时，在文本信息中确定标题信息和至少一组正文信息的过程也不同，具体的，可以包括如下两种方式：

一种可行的实现方式：阅读方式为按行阅读。

在该种可行的实现方式中，确定标题信息为第一表格的标题行中的信息，确定至少一组正文信息为第一表格的每行正文中的信息。其中，一组正文信息对应一行正文中的信息。

例如，请参见图1，图1中的表格的阅读方式为按行阅读，表格中的标题行为表格的第一行，因此，标题信息包括表格第一行中的单元文本和每个单元文本的位置信息，正文信息包括表格中第2至6行中的单元文本和每个单元文本的位置信息。

在图1中的表格中确定得到的标题信息包括：“序号(0,0)”、“姓名(0,1)”、“年龄(0,2)”、“专业(0,3)”。

在图1中的表格中可以确定得到5组正文信息，其中，第一组正文信息包括“1(1,0)”、“张三(1,1)”、“23(1,2)”、“会计(1,3)”。

另一种可行的实现方式：阅读方式为按列阅读。

在该种可行的实现方式中，确定标题信息为第一表格的标题列中的信息，确定至少一组正文信息为第一表格的每列正文中的信息。其中，一组正文信息对应一列正文中的信息。

S402、按照预设组合规则，分别将每组正文信息与标题信息进行组合处理，得到每组正文信息对应的内容信息。

其中，预设组合规则用于指示将每组正文信息与标题信息进行组合处理，预设组合规则还可以指示对每组正文信息与标题信息进行组合的方式。

可选的，针对至少一组正文信息中的任意一组正文信息，可以通过如下可行的实现方式对该组正文信息与标题信息进行组合：确定一组正文信息中的单元文本与标题信息中的单元文本之间的对应关系；按照预设组合规则和对应关系，将一组正文信息中每个单元文本与标题信息中对应的单元文本进行组合处理，得到一组正文信息对应的内容信息。

可选的，当阅读方式为按行阅读时，正文信息和标题信息中具有相同列号的文本单元具有对应关系。

例如，图1中的表格中的标题信息包括：“序号(0,0)”、“姓名(0,1)”、“年龄(0,2)”、“专业(0,3)”。图1中的表格中的第一组正文信息包括“1(1,0)”、“张三(1,1)”、“23(1,2)”、“会计(1,3)”。其中，标题信息中的“序号”和正文信息中的“1”对应，标题信息中的“姓名”和正文信息中的“张三”对应，标题信息中的“年龄”和正文信息中的“23”对应，标题信息中的“专业”和正文信息中的“会计”对应。

例如，图1中的表格中的标题信息包括：“序号(0,0)”、“姓名(0,1)”、“年龄(0,2)”、“专业(0,3)”。图1中的表格中的第一组正文信息包括“1(1,0)”、“张三(1,1)”、“23(1,2)”、“会计(1,3)”，按照预设规则对标题信息和第一组正文信息进行组合之后，得到的第一组正文信息对应的内容信息为：序号为1，姓名为张三，年龄为23，专业为会计。

S403、确定第一表格的内容信息包括每组正文信息对应的内容信息。

可选的，当第一表格的阅读方式为按行阅读，则可以按照行号从小到大的顺序，将每组正文信息对应的内容信息进行拼接，得到第一表格的内容信息。

可选的，当第一表格的阅读方式为按列阅读，则可以按照列号从小到大的顺序，将每组正文信息对应的内容信息进行拼接，得到第一表格的内容信息。

在图4所示的实施例中，先根据第一表格的阅读方式，在文本信息中确定标题信息和至少一组正文信息，并按照预设组合规则，分别将每组正文信息与标题信息进行组合处理，得到第一表格的内容信息，使得电子设备在阅读内容信息之后，用户更加容易理解第一表格中包括的内容。

下面，结合图5，通过具体示例，对页面处理过程进行介绍。

图5为本发明实施例提供的一种页面示意图。请参见图5，包括界面501和界面502，其中，

请参见界面501，界面501为页面阅读方式设置页面，包括两种页面阅读方式(第一页面阅读方式和第二页面阅读方式)和每种页面阅读方式对应的选中框，其中，在同一时刻，只有一种页面阅读方式对应的选中框可以被选中。假设用户选中了第一页面阅读方式，则电子设备将电子设备的页面阅读方式设置为第一页面阅读方式。

请参见界面502，在电子设备显示界面502所示的页面之后，电子设备播放该页面中的文字信息，对文字信息播放完成之后，通过上述实施例所示的方法获取页面中的表格的内容信息，并语音播放表格的内容信息。

在图5所示的实施例中，在电子设备的页面阅读方式为第一页面阅读方式时，电子设备可以语音播放页面中的所有内容(包括表格的内容信息)，这样，可以使得用户可以通过语音的形式获取得到页面中表格的相关内容，提高了页面处理的可靠性。

图6为本发明实施例提供的一种页面处理装置的结构示意图。页面处理装置10可以包括：获取模块11、提取模块12、第一确定模块13、第二确定模块14和播放模块15，其中，

所述获取模块11用于，在当前页面中获取待处理的第一表格；

所述提取模块12用于，在所述第一表格中提取文本信息，所述文本信息中包括多个单元文本和每个单元文本在所述第一表格中的位置信息，所述单元文本为所述第一表格的一个单元格中的文本；

所述第一确定模块13用于，对所述文本信息进行解析，以确定所述第一表格的阅读方式，所述阅读方式为按行阅读或者按列阅读；

所述第二确定模块14用于，根据所述第一表格的阅读方式和所述文本信息，确定所述第一表格的内容信息；

所述播放模块15用于，语音播放所述内容信息。

本发明实施例提供的页面处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述第二确定模块14具体用于：

在一种可能的实施方式中，所述获取模块11具体用于：

在一种可能的实施方式中，所述提取模块12具体用于：

图7为本发明实施例提供的页面处理装置的硬件结构示意图，如图7所示，该页面处理装置20包括：至少一个处理器21和存储器22。其中，处理器21和存储器22通过总线23连接。

在具体实现过程中，至少一个处理器21执行所述存储器22存储的计算机执行指令，使得至少一个处理器21执行如上的页面处理方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图7所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的页面处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种页面处理方法，其特征在于，包括：

在当前页面中获取待处理的第一表格；

对所述文本信息进行解析，以确定所述第一表格的阅读方式，所述阅读方式为按行阅读或者按列阅读；其中，若所述文本信息中一行中除标题信息之外的各单元文本指示相同类型的对象，则所述阅读方式为按列阅读，若所述文本信息中一列中除标题信息之外的各单元文本指示相同类型的对象，则阅读方式为按行阅读；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一表格的阅读方式和所述文本信息，确定所述第一表格的内容信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一表格的阅读方式，在所述文本信息中确定标题信息和至少一组正文信息，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述标题信息和所述至少一组正文信息，确定所述第一表格的内容信息，包括：

5.根据权利要求4所述的方法，其特征在于，针对所述至少一组正文信息中的任意一组正文信息，所述按照预设组合规则，分别将所述一组正文信息与所述标题信息进行组合处理，得到所述一组正文信息对应的内容信息，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述在当前页面中获取待处理的第一表格，包括：

7.根据权利要求6所述的方法，其特征在于，所述对第一对象进行图像识别处理，以判断所述第一对象中是否包括表格，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述在所述第一表格中提取文本信息，包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述文本信息以表格文本树的形式存储，所述表格文本树的根节点为所述第一表格的表头，所述表格文本树的叶子节点为所述第一表格中的多个单元文本和每个单元文本在所述第一表格中的位置信息。

10.一种页面处理装置，其特征在于，包括：获取模块、提取模块、第一确定模块、第二确定模块和播放模块，其中，

所述获取模块用于，在当前页面中获取待处理的第一表格；

所述第一确定模块用于，对所述文本信息进行解析，以确定所述第一表格的阅读方式，所述阅读方式为按行阅读或者按列阅读；其中，若所述文本信息中一行中除标题信息之外的各单元文本指示相同类型的对象，则所述阅读方式为按列阅读，若所述文本信息中一列中除标题信息之外的各单元文本指示相同类型的对象，则阅读方式为按行阅读；

所述播放模块用于，语音播放所述内容信息。

11.根据权利要求10所述的装置，其特征在于，所述第二确定模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述第二确定模块具体用于：

13.根据权利要求11或12所述的装置，其特征在于，所述第二确定模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述第二确定模块具体用于：

15.根据权利要求10-14任一项所述的装置，其特征在于，所述获取模块具体用于：

16.根据权利要求15所述的装置，其特征在于，所述获取模块具体用于：

17.根据权利要求10-16任一项所述的装置，其特征在于，所述提取模块具体用于：

18.根据权利要求10-17任一项所述的装置，其特征在于，所述文本信息以表格文本树的形式存储，所述表格文本树的根节点为所述第一表格的表头，所述表格文本树的叶子节点为所述第一表格中的多个单元文本和每个单元文本在所述第一表格中的位置信息。

19.一种页面处理装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至9任一项所述的页面处理方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至9任一项所述的页面处理方法。