CN114998885A

CN114998885A - 页面数据处理方法、装置、车辆及存储介质

Info

Publication number: CN114998885A
Application number: CN202210725386.7A
Authority: CN
Inventors: 张琼
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-02

Abstract

本公开涉及自动驾驶领域，涉及一种页面数据处理方法、装置、车辆及存储介质，该页面数据处理方法，通过响应于用户的触发操作，获取当前页面对应的目标图像，目标图像包括指定文字方向的文字内容；获取目标图像中该文字内容对应的多个目标文字框区域；根据该指定文字方向确定该多个目标文字框区域中每个目标文字框区域的阅读优先级；按照每个该目标文字框区域的该阅读优先级将该目标文字框区域内的文字内容转换为音频数据，并播放该音频数据，这样通过将页面中的文字内容转换为符合阅读习惯的音频数据进行播放，能够有效减少用户在驾车过程中观看终端屏幕的现象，从而能够有效提升用户体验，降低行车过程中不安全事故的发生概率。

Description

页面数据处理方法、装置、车辆及存储介质

技术领域

本公开涉及自动驾驶技术领域，尤其涉及一种页面数据处理方法、装置、车辆及存储介质。

背景技术

调查显示，很多车祸事故是由于驾驶员驾车过程中的时候玩手机导致的，驾车过程中低头看手机、车机屏幕是非常危险的，不仅会危及驾驶员自身的生命安全，也会对其他车辆和行人带来不必要的危险，更会增加路上其他车辆的行车难度，如何避免驾驶员观看车机屏幕、手机屏幕等终端屏幕成为一个亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种页面数据处理方法、装置、车辆及存储介质。

根据本公开实施例的第一方面，提供一种页面数据处理方法，包括：

响应于用户的触发操作，获取当前页面对应的目标图像，所述目标图像包括指定文字方向的文字内容；

获取所述目标图像中所述文字内容对应的多个目标文字框区域；

根据所述指定文字方向确定所述多个目标文字框区域中每个所述目标文字框区域的阅读优先级；

按照每个所述目标文字框区域的所述阅读优先级将所述目标文字框区域内的文字内容转换为音频数据，并播放所述音频数据。

可选地，所述获取所述目标图像中所述文字内容对应的多个目标文字框区域，包括：

对所述目标图像进行文字框位置检测，以得到所述文字内容对应的多个文字框位置；

对所述多个文字框位置进行聚类处理，以得到多个待定文字框区域；

从所述多个待定文字框区域中确定所述目标文字框区域。

可选地，所述从所述多个待定文字框区域中确定所述目标文字框区域，包括：

获取所述目标图像中的图像位置区域；

在确定所述待定文字框区域与所述图像位置区域不存在交集的情况下，将所述待定文字框区域作为所述目标文字框区域。

可选地，所述从所述多个待定文字框区域中确定所述目标文字框区域，还包括：

在确定所述待定文字框区域与所述图像位置区域存在交集的情况下，获取所述待定文字框区域与所述图像位置区域的重叠区域；

若所述重叠区域大于或者等于预设重叠阈值的情况下，将存在交集的所述待定文字框区域作为所述目标文字框区域；

若所述重叠区域小于所述预设重叠阈值的情况下，将存在交集的所述待定文字框区域作为非目标文字框区域。

可选地，所述指定文字方向包括水平文字方向和垂直文字方向，所述根据所述指定文字方向确定所述多个目标文字框区域中每个所述目标文字框区域的阅读优先级，包括：

获取每个所述目标文字框区域对应标志点的目标位置，其中，在所述指定文字方向为所述水平文字方向的情况下，所述标志点为所述目标文字框区域的左上角顶点，在所述指定文字方向为所述垂直文字方向的情况下，所述标志点为所述目标文字框区域的右上角顶点；

根据所述多个目标文字框区域中每个所述目标文字框区域对应的所述目标位置确定每个所述目标文字框区域的所述阅读优先级。

可选地，所述根据所述多个目标文字框区域中每个所述目标文字框区域对应的所述目标位置确定每个所述目标文字框区域的所述阅读优先级，包括：

在所述指定文字方向为所述水平文字方向的情况下，将所述多个目标文字框区域对应的多个所述目标位置中，位于最顶端，且位于最左侧的所述目标位置对应的所述目标文字框区域作为优先级最高的目标文字框区域；

在所述指定文字方向为所述垂直文字方向的情况下，将所述多个目标文字框区域对应的多个所述目标位置中，位于最顶端，且位于最右侧的所述目标位置对应的所述目标文字框区域作为优先级最高的目标文字框区域；

根据所述优先级最高的目标文字框区域确定所述多个目标文字框区域中除所述优先级最高的目标文字框区域之外其他所述目标文字框区域对应的阅读优先级。

可选地，所述根据所述优先级最高的目标文字框区域确定所述多个目标文字框区域中除所述优先级最高的目标文字框区域之外其他所述目标文字框区域对应的阅读优先级，包括：

将所述优先级最高的目标文字框区域作为当前文字框区域；

在所述指定文字方向为所述水平文字方向的情况下，若确定所述当前文字框区域的下侧存在所述目标文字框区域，则获取所述当前文字框区域内的第一文字内容与下侧相邻的所述目标文字框区域内的第二文字内容的第一连贯度；

若确定所述当前文字框区域的右侧存在所述目标文字框区域，则获取所述当前文字框区域内的第一文字内容与右侧相邻的所述目标文字框区域内的第三文字内容的第二连贯度；

将所述当前文字框区域对应阅读优先级的下一优先级作为所述第一连贯度与所述第二连贯度中较大者对应目标文字框区域的阅读优先级；

将所述第一连贯度与所述第二连贯度中较大者对应的目标文字框区域作为更新后的当前文字框区域，并再次执行确定所述当前文字框区域的下侧是否存在所述目标文字框区域和确定所述当前文字框区域的右侧是否存在所述目标文字框区域的步骤，直至在确定所述当前文字框区域的下侧和右侧均不存在所述目标文字框区域的情况下，确定获取到了每个所述目标文字框区域对应的阅读优先级。

在所述指定文字方向为所述垂直文字方向的情况下，若确定所述当前文字框区域的下侧存在所述目标文字框区域，则获取所述第一连贯度；

若确定所述当前文字框区域的左侧存在所述目标文字框区域，则获取所述第一文字内容与左侧相邻的所述目标文字框区域内的第四文字内容的第三连贯度；

将所述当前文字框区域对应阅读优先级的下一优先级作为所述第一连贯度与所述第三连贯度中较大者对应的阅读优先级；

将所述第一连贯度与所述第三连贯度中较大者对应的目标文字框区域作为更新后的当前文字框区域，并执行确定所述当前文字框区域的下侧是否存在所述目标文字框区域和确定所述当前文字框区域的左侧是否存在所述目标文字框区域的步骤，直至在确定所述当前文字框区域的下侧和左侧均不存在所述目标文字框区域的情况下，确定获取到了每个所述目标文字框区域对应的阅读优先级。

根据本公开实施例的第二方面，提供一种页面数据处理装置，包括：

第一获取模块，被配置为响应于用户的触发操作，获取当前页面对应的目标图像，所述目标图像包括指定文字方向的文字内容；

第二获取模块，被配置为获取所述目标图像中所述文字内容对应的多个目标文字框区域；

确定模块，被配置为根据所述指定文字方向确定所述多个目标文字框区域中每个所述目标文字框区域的阅读优先级；

转换模块，被配置为按照每个所述目标文字框区域的所述阅读优先级将所述目标文字框区域内的文字内容转换为音频数据，并播放所述音频数据。

可选地，所述第二获取模块，被配置为：

从所述多个待定文字框区域中确定所述目标文字框区域。

可选地，所述第二获取模块，被配置为：

获取所述目标图像中的图像位置区域；

可选地，所述第二获取模块，还被配置为：

可选地，所述指定文字方向包括水平文字方向和垂直文字方向，所述确定模块，被配置为：

可选地，所述确定模块，被配置为：

将所述优先级最高的目标文字框区域作为当前文字框区域；

可选地，所述确定模块，被配置为：

根据本公开实施例的第三方面，提供一种具备页面数据处理功能的车辆，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

实现以上第一方面所述方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现以上第一方面所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

能够响应于用户的触发操作，获取当前页面对应的目标图像，所述目标图像包括指定文字方向的文字内容；获取所述目标图像中所述文字内容对应的多个目标文字框区域；根据所述指定文字方向确定所述多个目标文字框区域中每个所述目标文字框区域的阅读优先级；按照每个所述目标文字框区域的所述阅读优先级将所述目标文字框区域内的文字内容转换为音频数据，并播放所述音频数据，这样通过将页面中的文字内容转换为符合阅读习惯的音频数据进行播放，能够有效减少用户在驾车过程中观看终端屏幕的现象，从而能够有效提升用户体验，降低行车过程中不安全事故的发生概率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开一示例性实施例示出的一种页面数据处理方法的流程图；

图2是根据本公开图1所示实施例示出的一种页面数据处理方法的流程图；

图3是根据本公开图1所示实施例示出的另一种页面数据处理方法的流程图；

图4是根据图3所示实施例示出的一种页面数据处理方法的流程图；

图5是根据图3所示实施例示出的另一种页面数据处理方法的流程图；

图6是本公开一示例性实施例示出的一种页面数据处理装置的框图；

图7是一示例性实施例示出的一种车辆的功能框图示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

在详细介绍本公开的具体实施方式之前，首先对本公开的应用场景进行以下说明，本公开不仅可以应用于车载终端，也可以用于计算机、平板电脑、手机、手表以及手环等终端上，目前的终端中，页面展示主要以文字的形式呈现，然而用户并不是所有时间都允许观看终端屏幕，以车载终端为例，用户在驾车过程中就不便于观看终端屏幕，否则会造成交通事故。因此，如何解放用户双眼，避免驾驶员观看终端屏幕成为一个亟待解决的问题。

为了解决以上技术问题，本公开提供了一种页面数据处理方法、装置、车辆及存储介质，该页面数据处理方法，通过响应于用户的触发操作，获取当前页面对应的目标图像，该目标图像包括指定文字方向的文字内容；获取该目标图像中该文字内容对应的多个目标文字框区域；根据该指定文字方向确定该多个目标文字框区域中每个该目标文字框区域的阅读优先级；按照每个该目标文字框区域的该阅读优先级将该目标文字框区域内的文字内容转换为音频数据，并播放该音频数据，这样通过将页面中的文字内容转换为符合阅读习惯的音频数据进行播放，能够有效减少用户在驾车过程中观看终端屏幕的现象，从而能够有效提升用户体验，降低行车过程中不安全事故的发生概率。

下面结合具体实施例对本公开的技术方案进行详细阐述。

图1是本公开一示例性实施例示出的一种页面数据处理方法的流程图；如图1所示，该方法可以包括：

步骤101，响应于用户的触发操作，获取当前页面对应的目标图像，该目标图像包括指定文字方向的文字内容。

其中，该触发操作可以是点击预设播放按键，也可以是在终端屏幕上输入指定滑动轨迹。该指定文字方向可以包括水平文字方向和垂直文字方向，该水平文字方向为每行文字的排列顺序为从左至右，多行之间的排列顺序为从上至下，垂直文字方向为每列文字的排列顺序为从上至下，多列之间由右至左。

本步骤中，可以获取该当前页面对应的页面快照，获取该页面快照的图像，以得到该目标图像，也可以直接对该当前页面进行屏幕截图，以得到该目标图像。

步骤102，获取该目标图像中该文字内容对应的多个目标文字框区域。

一种可能的实施方式中，可以对该目标图像进行文字框位置检测，以得到该文字内容对应的多个文字框位置；对该多个文字框位置进行聚类处理，以得到多个待定文字框区域；从该多个待定文字框区域中确定该目标文字框区域。

另一种可能的实施方式中，可以预先训练目标神经网络模型，通过该目标神经网络模型检测该目标图像中文字内容对应的目标文字框区域。该目标神经网络模型可以通过预设训练数据训练得到，该预设训练数据包括文字框区域的标注数据。

步骤103，根据该指定文字方向确定该多个目标文字框区域中每个该目标文字框区域的阅读优先级。

示例地，若该指定文字方向为水平文字方向，则在该目标图像中上方的目标文字框区域对应的阅读优先级高于下方的目标文字框区域的阅读优先级，同一排中，左侧的目标文字框区域对应的阅读优先级高于右侧的目标文字框区域的阅读优先级。若该指定文字方向为垂直文字方向，则在该目标图像中右侧的目标文字框区域对应的阅读优先级高于左侧的目标文字框区域的阅读优先级，同一列中，上方的目标文字框区域对应的阅读优先级高于下方的目标文字框区域的阅读优先级。

步骤104，按照每个该目标文字框区域的该阅读优先级将该目标文字框区域内的文字内容转换为音频数据，并播放该音频数据。

本步骤中，将多个目标文字框区域中的文字内容按照阅读优先级由高至低的顺序依次转换为音频数据后播放，从而能够有效实现将当前网页中的文字内容按照符合阅读习惯的顺序以音频形式播放。

以上技术方案，通过将页面中的文字内容转换为符合阅读习惯的音频数据进行播放，能够有效减少用户在驾车过程中观看终端屏幕的现象，从而能够有效提升用户体验，降低行车过程中不安全事故的发生概率。

图2是根据本公开图1所示实施例示出的一种页面数据处理方法的流程图；如图2所示，图1中步骤102所述的获取该目标图像中该文字内容对应的多个目标文字框区域，可以包括以下步骤：

步骤1021，对该目标图像进行文字框位置检测，以得到该文字内容对应的多个文字框位置。

本步骤中，可以通过OCR(Optical Character Recognition，光学字符识别)技术，识别该目标图像中的每个文字框位置。

步骤1022，对该多个文字框位置进行聚类处理，以得到多个待定文字框区域。

本步骤中，可以根据每个文字框位置对应的位置信息进行聚类，以将位置较近的多个文字框位置作为一个聚类簇，将每个聚类簇所在区域确定为该待定文字框区域。

步骤1023，从该多个待定文字框区域中确定该目标文字框区域。

本步骤中，可以获取该目标图像中的图像位置区域；在确定该待定文字框区域与该图像位置区域不存在交集的情况下，将该待定文字框区域作为该目标文字框区域。在确定该待定文字框区域与该图像位置区域存在交集的情况下，获取该待定文字框区域与该图像位置区域的重叠区域；若该重叠区域大于或者等于预设重叠阈值的情况下，将存在交集的该待定文字框区域作为该目标文字框区域；若该重叠区域小于该预设重叠阈值的情况下，将存在交集的该待定文字框区域作为非目标文字框区域。

其中，该图像位置区域为该目标图像中包含的图像所在的位置区域。例如，当前页面中包含图片A，则获取到该当前页面对应的目标图像后，该目标图像中会包含图片A，该图像位置区域即为该图片A在该目标图像中的位置区域。

需要说明的是，该图像位置区域检测可以通过预先训练的图像位置检测模型检测得到，然后将该目标图像作为该图像位置检测模型的输入，以使该图像位置检测模型输出该图像位置区域的检测框。

通过以上步骤1021至步骤1023，能够有效且准确地获取到该目标图像中文字内容对应的目标文字框区域，能够为后续阅读优先级的确定提供可靠地数据依据，有利于得到符合阅读习惯顺序的音频数据。

图3是根据本公开图1所示实施例示出的另一种页面数据处理方法的流程图；如图3所示，图1中步骤103所述的根据该指定文字方向确定该多个目标文字框区域中每个该目标文字框区域的阅读优先级，可以包括以下步骤：

步骤1031，获取每个该目标文字框区域对应标志点的目标位置。

其中，在该指定文字方向为该水平文字方向的情况下，该标志点为该目标文字框区域的左上角顶点，在该指定文字方向为该垂直文字方向的情况下，该标志点为该目标文字框区域的右上角顶点。

步骤1032，根据该多个目标文字框区域中每个该目标文字框区域对应的该目标位置确定每个该目标文字框区域的该阅读优先级。

本步骤中，一种可能的实施方式可以包括图4中S01至S09所示步骤，图4是根据图3所示实施例示出的一种页面数据处理方法的流程图，如图4所示：

S01，在该指定文字方向为该水平文字方向的情况下，将该多个目标文字框区域对应的多个该目标位置中，位于最顶端，且位于最左侧的该目标位置对应的该目标文字框区域作为优先级最高的目标文字框区域。

需要说明的是，该标志点的目标位置可以通过像素位置表示，例如可以表示为(x，y)，其中x可以为0，1，2···width₁，y为0，1，2···height₁，width₁为目标图像的宽度，height₁为该目标图像的高度。若该目标图像的(0，0)点在该目标图像的左下角，则可以将多个目标位置中y值最大，且x值最小的标志点作为该目标图像中位于最顶端，且位于最左侧的标志点。

S02，将该优先级最高的目标文字框区域作为当前文字框区域。

S03，确定该当前文字框区域的下侧是否存在该目标文字框区域。

本步骤中，若确定该当前文字框区域的下侧存在该目标文字框区域，则执行S04，若确定该当前文字框区域的下侧不存在该目标文字框区域，则执行S05。

需要说明的是，在该目标图像的(0，0)点在该目标图像的左下角的情况下，若当前文字框区域对应的目标位置为(a，b)，若多个目标位置中存在纵坐标(高度)小于b的目标位置，则确定下侧存在该目标文字框区域；若多个目标位置中不存在纵坐标(高度)小于b的目标位置，则确定下侧不存在该目标文字框区域。

S04，获取该当前文字框区域内的第一文字内容与下侧相邻的该目标文字框区域内的第二文字内容的第一连贯度。

本步骤中，可以将该第一文字内容和该第二文字内容输出该预设语言排序模型，以获取预设语言排序模型输出的第一连贯度，其中，该语言排序模型可以是基于现有技术中的NSP-bert(Next Sentence Prediction-bert，基于bert的下一句预测)模型或者GPT(Generative Pre-Training，生成式预训练)语言模型，也可以是现有技术中的基于其他算法的语言排序模型。

S05，确定该当前文字框区域的右侧是否存在该目标文字框区域。

需要说明的是，在该目标图像的(0，0)点在该目标图像的左下角的情况下，若当前文字框区域对应的目标位置为(a，b)，若多个目标位置中存在横坐标(宽度)大于a的目标位置，则确定右侧存在该目标文字框区域；若多个目标位置中不存在横坐标大于a的目标位置，则确定右侧不存在该目标文字框区域。

本步骤中，若确定该当前文字框区域的右侧存在该目标文字框区域，则执行S06，若确定该当前文字框区域的右侧不存在该目标文字框区域，则执行S09。

S06，获取该当前文字框区域内的第一文字内容与右侧相邻的该目标文字框区域内的第三文字内容的第二连贯度。

其中，可以将该第一文字内容和该第三文字内容输出该预设语言排序模型，以获取预设语言排序模型输出的第二连贯度。

S07，将该当前文字框区域对应阅读优先级的下一优先级作为该第一连贯度与该第二连贯度中较大者对应目标文字框区域的阅读优先级。

S08，将该第一连贯度与该第二连贯度中较大者对应的目标文字框区域作为更新后的当前文字框区域。

需要说明的是，本步骤之后，可以再次执行S03直至在确定该当前文字框区域的下侧和右侧均不存在该目标文字框区域的情况下，执行步骤S09。

S09，确定获取到了每个该目标文字框区域对应的阅读优先级。

这样，通过以上S01至S09所示的步骤，能够有效获取文字方向为水平文字方向的目标图像中，每个目标文字框区域对应的阅读优先级。

另一种可能的实施方式，可以包括图5中S11至S19所示步骤，图5是根据图3所示实施例示出的另一种页面数据处理方法的流程图，如图5所示：

S11，在该指定文字方向为该垂直文字方向的情况下，将该多个目标文字框区域对应的多个该目标位置中，位于最顶端，且位于最右侧的该目标位置对应的该目标文字框区域作为优先级最高的目标文字框区域。

S12，将该优先级最高的目标文字框区域作为当前文字框区域。

S13，确定该当前文字框区域的下侧是否存在该目标文字框区域。

本步骤中，若确定该当前文字框区域的下侧存在该目标文字框区域，则执行S14，若确定该当前文字框区域的下侧不存在该目标文字框区域，则执行S15。

S14，获取该第一连贯度。

其中，该第一连贯度为该当前文字框区域内的第一文字内容与下侧相邻的该目标文字框区域内的第二文字内容的连贯度。

S15，确定该当前文字框区域的左侧是否存在该目标文字框区域。

本步骤中，若确定该当前文字框区域的左侧存在该目标文字框区域，则执行S16，若确定该当前文字框区域的左侧不存在该目标文字框区域，则执行S19。

需要说明的是，在该目标图像的(0，0)点在该目标图像的左下角的情况下，若当前文字框区域对应的目标位置为(a，b)，若多个目标位置中存在横坐标(宽度)小于a的目标位置，则确定左侧存在该目标文字框区域；若多个目标位置中不存在横坐标小于a的目标位置，则确定左侧不存在该目标文字框区域。

S16，获取该第一文字内容与左侧相邻的该目标文字框区域内的第四文字内容的第三连贯度。

其中，可以将该第一文字内容和该第四文字内容输出该预设语言排序模型，以获取预设语言排序模型输出的第三连贯度。

S17，将该当前文字框区域对应阅读优先级的下一优先级作为该第一连贯度与该第三连贯度中较大者对应的阅读优先级。

S18，将该第一连贯度与该第三连贯度中较大者对应的目标文字框区域作为更新后的当前文字框区域。

需要说明的是，本步骤之后，可以再次执行S13直至在确定该当前文字框区域的下侧和左侧均不存在该目标文字框区域的情况下，执行步骤S19。

S19，确定获取到了每个该目标文字框区域对应的阅读优先级。

通过以上S11至S19所示的步骤，能够有效获取文字方向为垂直文字方向的目标图像中，每个目标文字框区域对应的阅读优先级。

以上技术方案，能够针对垂直文字方向和水平文字方向分别确定出每个目标文字框区域对应的阅读优先级，能够有效得到符合用户阅读习惯的文字顺序，能够确保音频数据的播放顺序符合用户阅读习惯，从而能够有效提升用户体验。

图6是本公开一示例性实施例示出的一种页面数据处理装置的框图；如图6所示，该页面数据处理装置可以包括：

第一获取模块501，被配置为响应于用户的触发操作，获取当前页面对应的目标图像，该目标图像包括指定文字方向的文字内容；

第二获取模块502，被配置为获取该目标图像中该文字内容对应的多个目标文字框区域；

确定模块503，被配置为根据该指定文字方向确定该多个目标文字框区域中每个该目标文字框区域的阅读优先级；

转换模块504，被配置为按照每个该目标文字框区域的该阅读优先级将该目标文字框区域内的文字内容转换为音频数据，并播放该音频数据。

可选地，该第二获取模块502，被配置为：

对该目标图像进行文字框位置检测，以得到该文字内容对应的多个文字框位置；

对该多个文字框位置进行聚类处理，以得到多个待定文字框区域；

从该多个待定文字框区域中确定该目标文字框区域。

可选地，该第二获取模块502，被配置为：

获取该目标图像中的图像位置区域；

在确定该待定文字框区域与该图像位置区域不存在交集的情况下，将该待定文字框区域作为该目标文字框区域。

可选地，该第二获取模块502，还被配置为：

在确定该待定文字框区域与该图像位置区域存在交集的情况下，获取该待定文字框区域与该图像位置区域的重叠区域；

若该重叠区域大于或者等于预设重叠阈值的情况下，将存在交集的该待定文字框区域作为该目标文字框区域；

若该重叠区域小于该预设重叠阈值的情况下，将存在交集的该待定文字框区域作为非目标文字框区域。

可选地，该指定文字方向包括水平文字方向和垂直文字方向，该确定模块503，被配置为：

获取每个该目标文字框区域对应标志点的目标位置，其中，在该指定文字方向为该水平文字方向的情况下，该标志点为该目标文字框区域的左上角顶点，在该指定文字方向为该垂直文字方向的情况下，该标志点为该目标文字框区域的右上角顶点；

根据该多个目标文字框区域中每个该目标文字框区域对应的该目标位置确定每个该目标文字框区域的该阅读优先级。

可选地，该确定模块503，被配置为：

在该指定文字方向为该水平文字方向的情况下，将该多个目标文字框区域对应的多个该目标位置中，位于最顶端，且位于最左侧的该目标位置对应的该目标文字框区域作为优先级最高的目标文字框区域；

在该指定文字方向为该垂直文字方向的情况下，将该多个目标文字框区域对应的多个该目标位置中，位于最顶端，且位于最右侧的该目标位置对应的该目标文字框区域作为优先级最高的目标文字框区域；

根据该优先级最高的目标文字框区域确定该多个目标文字框区域中除该优先级最高的目标文字框区域之外其他该目标文字框区域对应的阅读优先级。

可选地，该确定模块503，被配置为：

将该优先级最高的目标文字框区域作为当前文字框区域；

在该指定文字方向为该水平文字方向的情况下，若确定该当前文字框区域的下侧存在该目标文字框区域，则获取该当前文字框区域内的第一文字内容与下侧相邻的该目标文字框区域内的第二文字内容的第一连贯度；

若确定该当前文字框区域的右侧存在该目标文字框区域，则获取该当前文字框区域内的第一文字内容与右侧相邻的该目标文字框区域内的第三文字内容的第二连贯度；

将该当前文字框区域对应阅读优先级的下一优先级作为该第一连贯度与该第二连贯度中较大者对应目标文字框区域的阅读优先级；

将该第一连贯度与该第二连贯度中较大者对应的目标文字框区域作为更新后的当前文字框区域，并再次执行确定该当前文字框区域的下侧是否存在该目标文字框区域和确定该当前文字框区域的右侧是否存在该目标文字框区域的步骤，直至在确定该当前文字框区域的下侧和右侧均不存在该目标文字框区域的情况下，确定获取到了每个该目标文字框区域对应的阅读优先级。

可选地，该确定模块503，被配置为：

在该指定文字方向为该垂直文字方向的情况下，若确定该当前文字框区域的下侧存在该目标文字框区域，则获取该第一连贯度；

若确定该当前文字框区域的左侧存在该目标文字框区域，则获取该第一文字内容与左侧相邻的该目标文字框区域内的第四文字内容的第三连贯度；

将该当前文字框区域对应阅读优先级的下一优先级作为该第一连贯度与该第三连贯度中较大者对应的阅读优先级；

将该第一连贯度与该第三连贯度中较大者对应的目标文字框区域作为更新后的当前文字框区域，并执行确定该当前文字框区域的下侧是否存在该目标文字框区域和确定该当前文字框区域的左侧是否存在该目标文字框区域的步骤，直至在确定该当前文字框区域的下侧和左侧均不存在该目标文字框区域的情况下，确定获取到了每个该目标文字框区域对应的阅读优先级。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述装置除了可以是独立的电子设备外，也可是独立电子设备的一部分，例如在一种实施例中，该装置可以是集成电路(Integrated Circuit，IC)或芯片，其中该集成电路可以是一个IC，也可以是多个IC的集合；该芯片可以包括但不限于以下种类：GPU(GraphicsProcessing Unit，图形处理器)、CPU(Central Processing Unit，中央处理器)、FPGA(Field Programmable Gate Array，可编程逻辑阵列)、DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、SOC(System on Chip，SoC，片上系统或系统级芯片)等。上述的集成电路或芯片中可以用于执行可执行指令(或代码)，以实现上述的页面数据处理方法。其中该可执行指令可以存储在该集成电路或芯片中，也可以从其他的装置或设备获取，例如该集成电路或芯片中包括处理器、存储器，以及用于与其他的装置通信的接口。该可执行指令可以存储于该存储器中，当该可执行指令被处理器执行时实现上述的页面数据处理方法；或者，该集成电路或芯片可以通过该接口接收可执行指令并传输给该处理器执行，以实现上述的页面数据处理方法。

参阅图7，图7是一示例性实施例示出的一种车辆的功能框图示意图。车辆600可以被配置为完全或部分自动驾驶模式。例如，车辆600可以通过感知系统620获取其周围的环境信息，并基于对周边环境信息的分析得到自动驾驶策略以实现完全自动驾驶，或者将分析结果呈现给用户以实现部分自动驾驶。

车辆600可包括各种子系统，例如，信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640以及计算平台650。可选的，车辆600可包括更多或更少的子系统，并且每个子系统都可包括多个部件。另外，车辆600的每个子系统和部件可以通过有线或者无线的方式实现互连。

在一些实施例中，信息娱乐系统610可以包括通信系统611，娱乐系统612以及导航系统613。

通信系统611可以包括无线通信系统，无线通信系统可以直接地或者经由通信网络来与一个或多个设备无线通信。例如，无线通信系统可使用3G蜂窝通信，例如CDMA、EVD0、GSM/GPRS，或者4G蜂窝通信，例如LTE。或者5G蜂窝通信。无线通信系统可利用WiFi与无线局域网(wireless local area network，WLAN)通信。在一些实施例中，无线通信系统可利用红外链路、蓝牙或ZigBee与设备直接通信。其他无线协议，例如各种车辆通信系统，例如，无线通信系统可包括一个或多个专用短程通信(dedicated short range communications，DSRC)设备，这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。

娱乐系统612可以包括显示设备，麦克风和音响，用户可以基于娱乐系统在车内收听广播，播放音乐；或者将手机和车辆联通，在显示设备上实现手机的投屏，显示设备可以为触控式，用户可以通过触摸屏幕进行操作。

在一些情况下，可以通过麦克风获取用户的语音信号，并依据对用户的语音信号的分析实现用户对车辆600的某些控制，例如调节车内温度等。在另一些情况下，可以通过音响向用户播放音乐。

导航系统613可以包括由地图供应商所提供的地图服务，从而为车辆600提供行驶路线的导航，导航系统613可以和车辆的全球定位系统621、惯性测量单元622配合使用。地图供应商所提供的地图服务可以为二维地图，也可以是高精地图。

感知系统620可包括感测关于车辆600周边的环境的信息的若干种传感器。例如，感知系统620可包括全球定位系统621(全球定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)622、激光雷达623、毫米波雷达624、超声雷达625以及摄像装置626。感知系统620还可包括被监视车辆600的内部系统的传感器(例如，车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是车辆600的安全操作的关键功能。

全球定位系统621用于估计车辆600的地理位置。

惯性测量单元622用于基于惯性加速度来感测车辆600的位姿变化。在一些实施例中，惯性测量单元622可以是加速度计和陀螺仪的组合。

激光雷达623利用激光来感测车辆600所位于的环境中的物体。在一些实施例中，激光雷达623可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。

毫米波雷达624利用无线电信号来感测车辆600的周边环境内的物体。在一些实施例中，除了感测物体以外，毫米波雷达624还可用于感测物体的速度和/或前进方向。

超声雷达625可以利用超声波信号来感测车辆600周围的物体。

摄像装置626用于捕捉车辆600的周边环境的图像信息。摄像装置626可以包括单目相机、双目相机、结构光相机以及全景相机等，摄像装置626获取的图像信息可以包括静态图像，也可以包括视频流信息。

决策控制系统630包括基于感知系统620所获取的信息进行分析决策的计算系统631，决策控制系统630还包括对车辆600的动力系统进行控制的整车控制器632，以及用于控制车辆600的转向系统633、油门634和制动系统635。

计算系统631可以操作来处理和分析由感知系统620所获取的各种信息以便识别车辆600周边环境中的目标、物体和/或特征。目标可以包括行人或者动物，物体和/或特征可包括交通信号、道路边界和障碍物。计算系统631可使用物体识别算法、运动中恢复结构(Structure from Motion，SFM)算法、视频跟踪等技术。在一些实施例中，计算系统631可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。计算系统631可以将所获取的各种信息进行分析并得出对车辆的控制策略。

整车控制器632可以用于对车辆的动力电池和引擎641进行协调控制，以提升车辆600的动力性能。

转向系统633可操作来调整车辆600的前进方向。例如在一个实施例中可以为方向盘系统。

油门634用于控制引擎641的操作速度并进而控制车辆600的速度。

制动系统635用于控制车辆600减速。制动系统635可使用摩擦力来减慢车轮644。在一些实施例中，制动系统635可将车轮644的动能转换为电流。制动系统635也可采取其他形式来减慢车轮644转速从而控制车辆600的速度。

驱动系统640可包括为车辆600提供动力运动的组件。在一个实施例中，驱动系统640可包括引擎641、能量源642、传动系统643和车轮644。引擎641可以是内燃机、电动机、空气压缩引擎或其他类型的引擎组合，例如汽油发动机和电动机组成的混动引擎，内燃引擎和空气压缩引擎组成的混动引擎。引擎641将能量源642转换成机械能量。

能量源642的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源642也可以为车辆600的其他系统提供能量。

传动系统643可以将来自引擎641的机械动力传送到车轮644。传动系统643可包括变速箱、差速器和驱动轴。在一个实施例中，传动系统643还可以包括其他器件，比如离合器。其中，驱动轴可包括可耦合到一个或多个车轮644的一个或多个轴。

车辆600的部分或所有功能受计算平台650控制。计算平台650可包括至少一个处理器651，处理器651可以执行存储在例如存储器652这样的非暂态计算机可读介质中的指令653。在一些实施例中，计算平台650还可以是采用分布式方式控制车辆600的个体组件或子系统的多个计算设备。

处理器651可以是任何常规的处理器，诸如商业可获得的CPU。可替换地，处理器651还可以包括诸如图像处理器(Graphic Process Unit，GPU)，现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、片上系统(Sysem on Chip，SOC)、专用集成芯片(Application Specific Integrated Circuit，ASIC)或它们的组合。尽管图7功能性地图示了处理器、存储器、和在相同块中的计算机的其它元件，但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如，存储器可以是硬盘驱动器或位于不同于计算机的外壳内的其它存储介质。因此，对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤，诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器，处理器只执行与特定于组件的功能相关的计算。

在本公开实施方式中，处理器651可以执行上述的页面数据处理方法。

在此处所描述的各个方面中，处理器651可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中，此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行，包括采取执行单一操纵的必要步骤。

在一些实施例中，存储器652可包含指令653(例如，程序逻辑)，指令653可被处理器651执行来执行车辆600的各种功能。存储器652也可包含额外的指令，包括向信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。

除了指令653以外，存储器652还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在车辆600在自主、半自主和/或手动模式中操作期间被车辆600和计算平台650使用。

计算平台650可基于从各种子系统(例如，驱动系统640、感知系统620和决策控制系统630)接收的输入来控制车辆600的功能。例如，计算平台650可利用来自决策控制系统630的输入以便控制转向系统633来避免由感知系统620检测到的障碍物。在一些实施例中，计算平台650可操作来对车辆600及其子系统的许多方面提供控制。

可选地，上述这些组件中的一个或多个可与车辆600分开安装或关联。例如，存储器652可以部分或完全地与车辆600分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图7不应理解为对本公开实施例的限制。

在道路行进的自动驾驶汽车，如上面的车辆600，可以识别其周围环境内的物体以确定对当前速度的调整。物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中，可以独立地考虑每个识别的物体，并且基于物体的各自的特性，诸如它的当前速度、加速度、与车辆的间距等，可以用来确定自动驾驶汽车所要调整的速度。

可选地，车辆600或者与车辆600相关联的感知和计算设备(例如计算系统631、计算平台650)可以基于所识别的物体的特性和周围环境的状态(例如，交通、雨、道路上的冰、等等)来预测识别的物体的行为。可选地，每一个所识别的物体都依赖于彼此的行为，因此还可以将所识别的所有物体全部一起考虑来预测单个识别的物体的行为。车辆600能够基于预测的识别的物体的行为来调整它的速度。换句话说，自动驾驶汽车能够基于所预测的物体的行为来确定车辆将需要调整到(例如，加速、减速、或者停止)何种稳定状态。在这个过程中，也可以考虑其它因素来确定车辆600的速度，诸如，车辆600在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。

除了提供调整自动驾驶汽车的速度的指令之外，计算设备还可以提供修改车辆600的转向角的指令，以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的物体(例如，道路上的相邻车道中的车辆)的安全横向和纵向距离。

上述车辆600可以为各种类型的行驶工具，例如，轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、娱乐车、火车等等，本公开实施例不做特别的限定。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的页面数据处理方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种页面数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标图像中所述文字内容对应的多个目标文字框区域，包括：

从所述多个待定文字框区域中确定所述目标文字框区域。

3.根据权利要求2所述的方法，其特征在于，所述从所述多个待定文字框区域中确定所述目标文字框区域，包括：

获取所述目标图像中的图像位置区域；

4.根据权利要求3所述的方法，其特征在于，所述从所述多个待定文字框区域中确定所述目标文字框区域，还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述指定文字方向包括水平文字方向和垂直文字方向，所述根据所述指定文字方向确定所述多个目标文字框区域中每个所述目标文字框区域的阅读优先级，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个目标文字框区域中每个所述目标文字框区域对应的所述目标位置确定每个所述目标文字框区域的所述阅读优先级，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述优先级最高的目标文字框区域确定所述多个目标文字框区域中除所述优先级最高的目标文字框区域之外其他所述目标文字框区域对应的阅读优先级，包括：

将所述优先级最高的目标文字框区域作为当前文字框区域；

8.根据权利要求7所述的方法，其特征在于，所述根据所述优先级最高的目标文字框区域确定所述多个目标文字框区域中除所述优先级最高的目标文字框区域之外其他所述目标文字框区域对应的阅读优先级，包括：

9.一种页面数据处理装置，其特征在于，包括：

10.一种具备页面数据处理功能的车辆，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

实现以上权利要求1-8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。