CN116563869A

CN116563869A - 页面图像文字处理方法、装置、终端设备和可读存储介质

Info

Publication number: CN116563869A
Application number: CN202310835369.3A
Authority: CN
Inventors: 孙铁
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-08-08
Anticipated expiration: 2043-07-10
Also published as: CN116563869B

Abstract

本申请涉及数据处理技术领域，提供了一种页面图像文字处理方法、装置、终端设备和可读存储介质，该方法包括：分别对第一页面图像和第二页面图像进行文本框检测，以获得各自页面内每个文本框的位置信息；从第一页面和第二页面中分别选取相同数量的文本框，并分别进行文本内容识别，以得到对应文本框的文本识别结果；根据文本识别结果，确定第一页面和第二页面中需要比对的目标文本框组；利用对应文本属性判别模型对目标文本框组进行对应文本属性判别，以确定第二页面中的目标文本框是否存在文本属性异常。该方法可以实现两个页面中文本属性异常的自动检查，提高了页面开发效率等。

Description

页面图像文字处理方法、装置、终端设备和可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种页面图像文字处理方法、装置、终端设备和可读存储介质。

背景技术

在进行如金融应用等的网页页面及手机终端等的开发页面和设计页面的UI页面对比检查时，通常需要检查如文字大小、文字颜色、文字所在控件背景颜色、文字的字体及粗细等多种属性，以确定文本属性是否存在开发异常的问题，这样方便进一步优化设计，从而避免在上线后引起用户投诉等。然而，目前暂无实现自动化方法对设计页面和开发页面中的多种文本属性的自动识别以及对比的方法。

发明内容

有鉴于此，本申请实施例提供一种页面图像文字处理方法、装置、终端设备和可读存储介质，可以有效解决现有技术中无法对页面中文本属性开发异常的自动化检查的问题等。

第一方面，本申请实施例提供一种页面图像文字处理方法，包括：

分别对第一页面图像和第二页面图像进行文本框检测，以获得各自页面内每个文本框的位置信息，其中，所述第二页面基于所述第一页面得到；

根据所述位置信息从所述第一页面和所述第二页面中分别选取相同数量的文本框，并分别进行文本内容识别，以得到对应文本框的文本识别结果；

根据所述文本识别结果，确定所述第一页面和所述第二页面中需要比对的目标文本框组；

利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常。

在一些实施例中，所述文本属性判别模型包括文本大小判别模型，所述文本框的位置信息包括文本行的行高；所述利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，包括：

利用所述文本大小判别模型检测所述目标文本框组中各自包含的文本行的行高差的绝对值是否超过设定值，并在超过时，确定所述目标文本框组中的属于所述第二页面中的目标文本框存在文本大小异常。

在一些实施例中，所述文本属性判别模型包括文本粗细判别模型，所述利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，包括：

利用所述文本粗细判别模型对所述目标文本框组中各自包含的文本行进行文本粗细类别识别，以得到各自的文本粗细分类结果；

若两个所述文本粗细分类结果不一致，则确定所述目标文本框组中的属于所述第二页面中的目标文本框存在文本粗细异常。

在一些实施例中，所述文本属性判别模型包括文本颜色判别模型，所述利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，包括：

利用所述文本颜色判别模型判别所述目标文本框组中各自包含的文本行自身的文字颜色，以得到各自的文字颜色类型；

若两个所述文字颜色类型不一致，则确定所述目标文本框组中的属于所述第二页面中的目标文本框存在文本字颜色异常；

若两个所述文字颜色类型一致，则比对两个文本行的文本内容是否相同，并在相同时，确定所述文本字颜色不存在异常；

若两个所述文字颜色类型一致，且所述文本内容不同，则根据所述两个文本行的行宽是否一致，并在不一致时，确定所述目标文本框组中的属于所述第二页面中的目标文本框存在文本颜色所在的控件异常。

在一些实施例中，所述文本识别结果包括所述文本框的匹配文本识别结果和命名实体识别结果；所述根据所述文本识别结果，确定所述第一页面和所述第二页面中需要比对的目标文本框组，包括：

检测所述第一页面和所述第二页面中各自的某一个文本框的所述匹配文本识别结果是否存在包含关系；

若存在包含关系，则确定所述第一页面和所述第二页面中各自的所述某一文本框是需要比对的一组目标文本框组；

若不存在包含关系，则检测所述第一页面和所述第二页面中各自的所述某一文本框的所述命名实体识别结果是否位于允许的差异范围内；

若是，则确定所述第一页面和所述第二页面中各自的所述某一文本框是需要比对的一目标文本框组，否则确定不是目标文本框组。

在一些实施例中，所述文本粗细判别模型通过预先训练得到，包括：

样本集构建阶段，包括：获取每行不超过预设字符数量的文本行数据，并利用两种粗细不同的字体及在预设字号范围内的字号进行文字样式处理，以生成包含原始文本行内容的文本图像；再对每个所述文本图像进行粗细字体标签标注，得到由不同字体文本图像组成的样本集；其中，所述样本集划分为预设比例的训练集和验证集；

网络训练阶段，包括：利用所述训练集中的文本图像对选取的神经网络进行文本粗细字体识别，并通过交叉熵损失函数计算进行字体识别时的损失值，然后利用所述损失值进行反向传播训练，直至满足预设训练停止条件，以得到文本粗细判别模型。

在一些实施例中，所述文本颜色判别模型通过预先构建得到，包括：

对获取的包含文本行内容的文本图像进行HSV颜色空间转换，以得到转换文本图像，并根据在HSV颜色空间中划分的不同颜色的颜色区间值，从所述转换文本图像中获取相应颜色的掩膜图；

对相应颜色的所述掩膜图进行边缘检测，以得到相应颜色所占区域的轮廓；将所述轮廓的数组长度大于预设长度且占比最多的颜色类别作为所述文本图像的文本颜色。

第二方面，本申请实施例提供一种页面图像文字处理装置，包括：

文本框获取模块，用于分别对第一页面图像和第二页面图像进行文本框检测，以获得各自页面内每个文本框的位置信息，其中，所述第二页面基于所述第一页面得到；

文本识别模块，用于根据所述位置信息从所述第一页面和所述第二页面中分别选取相同数量的文本框，并分别进行文本内容识别，以得到对应文本框的文本识别结果；

文本框组确定模块，用于根据所述文本识别结果，确定所述第一页面和所述第二页面中需要比对的目标文本框组；

属性异常检测模块，用于利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常。

第三方面，本申请实施例提供一种终端设备，所述终端设备包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施所述的页面图像文字处理方法。

第四方面，本申请实施例提供一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上执行时，实施所述的页面图像文字处理方法。

本申请的实施例具有如下有益效果：

本申请实施例的页面图像文字处理方法通过分别对第一页面图像和第二页面图像进行文本框检测，以获得各自页面内每个文本框的位置信息，其中，所述第二页面基于所述第一页面得到；根据所述位置信息从所述第一页面和所述第二页面中分别选取相同数量的文本框，并分别进行文本内容识别，以得到对应文本框的文本识别结果；根据所述文本识别结果，确定所述第一页面和所述第二页面中需要比对的目标文本框组；利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，即通过基于深度学习来预先构建相应的文本属性判别模型，其中可包括文本大小判别模型、文本粗细判别模型和文本颜色判别模型等，以分别用于对两个关联页面内的对应文本属性进行比对及异常判别，可以实现完全自动化检查页面文字，从而提高了页面开发效率等。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例页面图像文字处理方法的第一流程图；

图2示出了一种用户资料填写界面的示意图；

图3示出了本申请实施例页面图像文字处理方法的第二流程图；

图4示出了本申请实施例页面图像文字处理方法的第三流程图；

图5示出了本申请实施例页面图像文字处理方法的第四流程图；

图6示出了本申请实施例页面图像文字处理方法的第五流程图；

图7示出了本申请实施例页面图像文字处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下文中，可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互结合。

考虑到现有技术中没有对页面开发的多种文本属性进行自动化检查的方案，每次通过人工将设计页面与开发页面进行逐项比对时，不仅花费较多时间，时间成本大，而且还容易出现遗漏或比对不准等。为此，本申请提出一种可应用于如金融科技或其他技术应用等领域的页面图像文字处理方法，针对各种开发页面进行文本属性的自动化识别及与设计页面进行比对，以自动检查后台基于代码实现的开发页面中是否存在相应文本属性的异常并给出具体的异常描述，从而提高页面开发效率，降低了开发的人工及时间成本等。

下面结合一些具体的实施例对该页面图像文字处理方法进行说明。

图1示出了本申请实施例的页面图像文字处理方法的一种流程图。示范性地，该页面图像文字处理方法包括以下步骤：

S110，分别对第一页面图像和第二页面图像进行文本框检测，以获得各自页面内每个文本框的位置信息，其中，第二页面基于第一页面得到。

本实施例中，第一页面和第二页面存在关联关系，具体而言，第二页面基于第一页面得到，例如，第一页面可以是网页前端人员设计出来的UI页面（也称设计页面），而第二页面则是基于后台技术实现设计页面对应的开发页面等。例如，当一银行应用APP需要用到一个用户资料填写界面，如图2所示，通常由UI人员设计出来第一页面，其中可包括多个文本行内容；相应地，第二页面则由后台开发人员通过相应代码来实现该界面的输入及响应等相关操作，例如，将用户输入的信息进行呈现、获取及保存等，从而保证与最初的设计页面是完全对应的。

示范性地，为了实现两个页面中文本属性的异常检查，可通过自动化脚本截图等方式来获得第一页面的截图图像和第二页面的截图图像，进而，可通过传统的文本检测模型对这两个页面图像分别进行文本检测，以获得每个页面内所有文本框的位置信息。其中，每个文本框的位置信息可包括文本行的左上角横坐标、左上角纵坐标、文本行的行宽和行高等。可以理解，该文本检测模型可以通过一些常用的神经网络构建并预先训练得到，这里不展开描述。

S120，根据位置信息从第一页面和第二页面中分别选取相同数量的文本框，并分别进行文本内容识别，以得到对应文本框的文本识别结果。

通常地，一个页面内文本行的数量往往较多，一般出现文本属性异常的文本行的数量有限，故本实施例将按照一定的规则从两个页面中分别选取一定数量的文本框，以作为后续进一步处理的对象。

示范性地，在一种实施方式中，可通过文本行的行高来按照升序或降序等方式分别对第一页面和第二页面中检测到的文本框进行排序，进而，分别选取各自序列中前预设数量（如前十个等）的文本框和最后预设数量（如后十个等）的文本框。其中，两个页面中选取的文本框数量相同。

接着，对这些文本框进行裁剪及文本内容识别，以得到每个文本框的文本识别结果。值得注意的是，该文本框的文本识别结果可以包括匹配文本识别结果和命名实体识别结果。其中，匹配文本识别结果包括文本框内识别到的文本串；命名实体识别结果包括文本框内识别到的文本内容的词性及实体，例如，上述的词性可以包括名词、动词、形容词等，而实体可包括人名、地名、机构名等。

本实施例中，将利用文本框的位置信息和文本识别结果来进行文本属性的异常判别。其中，在进行判别前，还需要确定第一页面和第二页面中哪些文本框是需要比对的对象，即确定目标文本框组。

S130，根据文本识别结果，确定第一页面和第二页面中需要比对的目标文本框组。

在一种实施方式中，如图3所示，该步骤S130包括以下子步骤：

S210，检测第一页面和第二页面中各自的某一个文本框的匹配文本识别结果是否存在包含关系。

例如，可检测第一页面中的某一文本框对应的文本串和第二页面中的某一文本框对应的文本串是否存在包含关系，若存在包含关系，则执行步骤S220，否则执行步骤S230。其中，上述的包含关系可以通过第一页面和第二页面中的字串进行遍历比对来确定字串是否包含。可以理解，若存在包含关系，则表明当前这两个文本框是需要比对的内容。

S220，若存在包含关系，则确定第一页面和第二页面中各自的某一文本框是需要比对的一组目标文本框组。

S230，若不存在包含关系，则检测第一页面和第二页面中各自的某一文本框的命名实体识别结果是否位于允许的差异范围内。

作为一种可选的文字，若不存在包含关系，则可进一步通过文本框的命名实体识别结果进行判定。示范性地，可将第一页面中的某个文本框对应的某条文本串所包含的词性和实体总个数，与第二页面中的某个文本框对应的某条文本串所包含的词性和实体总个数进行差异比较，以进一步确认这两个文本框是否作为目标文本框组。

S240，若是，则确定第一页面和第二页面中各自的某一文本框是需要比对的一目标文本框组。

S250，若否，则确定不是目标文本框组。

示范性地，若两者存在的总差异数量小于预设个数，即位于允许的差异范围内，则确定是这两个文本框是需要比对的内容。反之，则确定不是需要比对的内容。例如，预设个数可设为2个、3个或4个等，即差异范围可根据实际需求来设定，这里不作限定。

于是，在确定第一页面和第二页面内哪些文本框是目标文本框组后，则需要对它们进行文本属性异常的自动识别。本实施例中，该文本属性的异常可包括但不限于包括，文本大小、文字粗细、文字颜色、文本颜色所在控件等中一种或多种是否异常。

S140，利用对应文本属性判别模型对目标文本框组进行对应文本属性判别，以确定第二页面中的目标文本框是否存在文本属性异常。

为了判别相应的文本属性，本实施例中构建对应的文本属性判别模型。例如，在一种实施方式中，上述文本属性判别模型可包括但不限于包括，文本大小判别模型、文本粗细判别模型、以及文本颜色判别模型等中的至少一种或多种。其中，文本大小判别模型用于判别两个页面中的文本行在页面中展示的大小是否一致。文本粗细判别模型用于判别两个页面中的文本行的内容字体是否一致，例如，都是粗体或标准字体等。文本颜色判别模型用于判别两个页面中的文本行的文本颜色、文本行所在控件的颜色等。

以上述的几种模型为例，下面对几种文本属性判别分别进行说明。

示范性地，在一种实施方式中，若是利用文本大小判别模型对目标文本框组进行文本属性判别，则确定第二页面中的目标文本框是否存在文本属性异常，包括：

可利用训练好的文本大小判别模型，检测目标文本框组中各自包含的文本行的行高差的绝对值是否超过设定值，并在超过时，确定该目标文本框组中属于第二页面中的目标文本框存在文本大小异常。可选地，若没有超过设定值，则可确定不存在文本大小异常。其中，上述的预设值可根据实际文本行高来适应设定，这里不作限定。

在一种实施方式中，若是利用文本粗细判别模型进行文本粗细属性判别，则确定第二页面中的目标文本框是否存在文本属性异常，包括：

利用文本粗细判别模型对目标文本框组中各自包含的文本行进行文本粗细类别识别，以得到各自的文本粗细分类结果；若两个文本粗细分类结果不一致，则确定目标文本框组中的属于第二页面中的目标文本框存在文本粗细异常。反之，若两个文本粗细分类结果一致，则确定不存在文本粗细异常。可以理解，上述的文本行可通过前述的文本检测模型一并得到。

其中，上述的文本粗细判别模型通过预先训练得到，主要包括两个阶段，即样本集构建阶段和网络训练阶段。示范性地，如图4所示，对于样本集构建阶段和网络训练阶段，主要包括以下步骤：

S310，获取每行不超过预设字符数量的文本行数据，并利用两种粗细不同的字体及在预设字号范围内的字号进行文字样式处理，以生成包含原始文本行内容的文本图像。

S320，对每个文本图像进行粗细字体标签标注，得到由不同字体文本图像组成的样本集。

对于样本集构建阶段，需要先生成文本数据，例如，当该方法应用于金融应用开发场景，可下载一本金融小说文档，假设包含28万行文本，通过读取每一行并通过空格、逗号、句号等作为分隔符进行切片，以得到每行不超过预设字符（如35个等）的文本行，将其存储为一个包含40万行文本的文本数据。可以理解，对于文本数据的类型可根据实际需求来选取。

进而，读取被切片的每一行文本后，可选取设计用页面中常见的两种字体，如pingfang的regular（标准）字体以及semibold（半粗体）字体，即一个代表细体一个代表粗体；此外，还可以选用不同大小的字号，如10~30之间的字号范围。于是，可对读取的每个文本行进行字体及随机字号调整，从而生成调整后的文本图像。可以理解，根据字号大小等调整信息，可计算出该文本图像的宽高信息，例如，宽可表示为：width = int(font_size×len(line))，其中，width表示生成的宽，font_size表示随机生成的文字大小，line表示文本串；高可表示为：height=font_size+B，其中，height表示生成的高，B表示预设偏置，默认可设为7，具体可根据实际需求进行调整，这里不作限定。

此外，考虑到在实际页面中文本内容与背景的颜色通常不同，于是，可通过Pillow库画出图像背景和图像文本，其中，图像背景可由RGB颜色、白色和灰色等几种常用的颜色随机生成。最终，可生成每种字体下包含单文本行的一定数量的文本图像，即形成一个样本集。例如，以上述的40万行文本为例，半粗体和标准字体下的文本图像可各占20万个。

进一步地，在生成文本图像后，则需要对这些文本图像进行字体类型标注，例如，标签设计为0和1，regular字体对应标签0，semibold字体对应标签1，文本图像放入文件夹时对应文件夹名称分别为0和1。由此，可得到不同字体文本图像组成的样本集。然后，将这些文本图像样本划分为训练用样本和验证用样本，以得到预设比例的训练集和验证集。例如，可按照个数占比为9：1来划分，即每样字体中训练样本数量为18万，验证样本数量为2万，由此得到训练集和验证集。

S330，利用样本集中的文本图像对选取的神经网络进行文本粗细字体识别，并通过交叉熵损失函数计算进行字体识别时的损失值，然后利用损失值进行反向传播训练，直至满足预设训练停止条件，以得到文本粗细判别模型。

在网络训练阶段，例如，可选取MobileV3等轻量级网络作为网络模型，损失函数可选取交叉熵损失函数，优化器可选取Adam优化器，于是，可利用训练集中的文本图像样本进行批次训练，以完成不同轮次的训练迭代。

例如，以最大epoch数为50，即通过遍历五十次数据进行训练，在遍历过程中的某一轮，会去获取每一轮训练的数据集中的数据，其中，每一个训练数据包含了输入的文本图像对应的特征向量和输出的分类标签向量，将特征向量输入到MobileV3网络结构进行预测，得到的预测结果与分类标签向量进行交叉熵损失值（loss）的计算，根据loss计算结果进行反向传播的优化。其中，当预测和实际的标签相等时则记录当前的预测正确数加1；在当前遍历的当前某一轮下，所有的训练数据预测和反向传播完成，计算当前轮下准确率为预测正确数/训练数据个数；这样，每一轮都会有一个当前轮的准确率，当某一轮的准确率大于之前记录的准确率时，更新以往轮数中最大的准确率，并保存当前的模型权重为最好的模型权重。

例如，上述的预设训练停止条件可以设为达到一定的迭代次数或损失值达到一定范围等。值得注意的是，本实施例中，将在训练过程中观察输出的loss打印结果，以确定是否停止训练。例如，若训练了多个epoch时的loss接近于0且稳定无抖动变化，且观察输出准确率为0.99（实际情况下可调整）, 则可手动停止训练。这是由于loss的结果接近为0时，仍不能完全判定为loss已经稳定下来，为避免陷入局部最优解，所以通过观察进行训练停止判断。

在一种实施方式中，若是利用文本颜色判别模型进行文本颜色属性判别，则确定第二页面中的目标文本框是否存在文本属性异常，如图5所示，包括以下步骤：

S410，利用文本颜色判别模型判别目标文本框组中各自包含的文本行自身的文字颜色，以得到各自的文字颜色类型。例如，文字颜色可以包括但不限于包括红、黄、蓝、黑色等，具体可根据实际来确定。

S420，若两个文字颜色类型不一致，则确定目标文本框组中的属于第二页面中的目标文本框存在文本颜色异常。

可以理解，若文字颜色类型不相同，则表明两个页面内的这两个文本框之间存在文本文本颜色异常，此时则停止下一步判别。反之，若文字颜色类型相同，则还需要下一步的文本内容比对。若相同，则执行步骤S430，否则继续进行文本行的行宽比对，即步骤S440。

S430，若两个文字颜色类型一致，则比对两个文本行的文本内容是否相同，并在相同时，确定文本字颜色不存在异常。

S440，若两个文字颜色类型一致，且文本内容不同，则根据两个文本行的行宽是否一致。例如，在判定行宽时，可设定判断宽度差异是否超过若干个像素，若超过，则确定行宽不一致，若未超过，则确定行宽一致。

S450，在行宽不一致时，确定目标文本框组中的属于第二页面中的目标文本框存在文本颜色所在的控件异常。

S460，在行宽一致时，则确定文本颜色所在的控件不存在异常。

进一步地，若两个文本行的文本颜色类型相同且内容比对不同时，在行宽不一致的情况下，可判断该颜色所在的文本行所对应的控件存在异常。反之，则可确定该控件不存在异常。比如，出现开发页面中某文本行对应的字符间距与设计页面中对应的字符间距不一致，或者开发页面中该文本行对应控件相比于设计页面多或少一个小切图等。

由此，通过文本颜色判别模型可实现对文本颜色及文本颜色所在控件的异常判别。

其中，该文本颜色判别模型通过预先构建得到，如图6所示，包括：

S510，对获取的包含文本行内容的文本图像进行HSV颜色空间转换，以得到转换文本图像。

例如，假设获取的文本图像为RGB颜色空间，此时可将其转换至HSV颜色空间，以进行下一步处理。其中，该包含文本行内容的文本图像可采用前面用于进行文字粗细模型训练时生成的文本图像样本，以增加样本的重复利用率，进而提高开发效率。

S520，根据在HSV颜色空间中划分的不同颜色的颜色区间值，从转换文本图像中获取相应颜色的掩膜图。

例如，可选取在红、黄、蓝、黑等常用于页面设计中的几种颜色进行颜色区间值设置，在一种实施方式中，红色的最低颜色值为0，120，120，最高颜色值为10，255，255；黑色的最低颜色值为0，0，0，最高颜色值为180，255，46；黄色的最低颜色值为10，230，230，最高值为35，255，255；蓝色最低颜色值为100，43，46，最高颜色值为124，255，255等，这里仅是一种示例，具体也可以适应性调整。

示范性地，利用划分的颜色区间值，可获取各个颜色的掩膜。具体地，通过扫描文本图像的每个像素的像素值，如果像素值在对应颜色的区间内，则获取该颜色的像素区域，然后将该像素区域设置为白色，其余区域设置为黑色，此时即可得到该颜色的掩膜图（即二值图）。

S530，对相应颜色的掩膜图进行边缘检测，以得到相应颜色所占区域的轮廓；将轮廓的数组长度大于预设长度且占比最多的颜色类别作为文本图像的文本颜色。

进而，通过边界跟踪对掩膜图进行拓扑结构分析及寻找连通域，可以检测出最外层的轮廓，然后根据检测的轮廓长度大小来判别对应的颜色。例如，在一种实施方式中，可选取轮廓的数组长度大于2且轮廓数组长度最多的来作为最终的颜色判别。其中，数组长度可以反映出该颜色的所占区域大小。尤其是当存在多个颜色的情况下，通过轮廓长度大小来判别，可进一步提高判别的准确性。

作为一种可选的方案，在进行颜色判别时，由于黑色在文字图像中非常常见，可优先判断红黄蓝这三种颜色，当红黄蓝颜色都没有的情况下再判断黑色，这样可以进一步提高判别效率。

可以理解，通过上述方法构建得到的文本颜色判别模型不仅可以判别文本行本身文本的颜色，还可以判别文本行所在的控件颜色（即文本所在背景颜色）。

作为一种可选的方案，当判别出存在上种任意一种文本属性异常时，可将异常所在的文本框在整个第二页面图像中的位置信息进行标记并存储，即，根据出现异常的位置坐标，在原开发页面的截图上用框来标记出来异常的位置，并添加位置描述存在异常的类型，如“大小不一致”等，并重新保存为一张图像，从而方便给到测试人员查看、第一页面的设计UI人员查看以及前端开发人员等进行查看和改进。

本申请实施例提出的页面图像文字处理方法通过基于深度学习来预先构建相应的文本属性判别模型，其中可包括文本大小判别模型、文本粗细判别模型和文本颜色判别模型等，以分别用于对两个关联页面内的对应文本属性进行比对及异常判别，可以实现完全自动化检查页面文字，从而提高了页面开发效率等。

图7示出了本申请实施例的页面图像文字处理装置10的一种结构示意图。示范性地，该页面图像文字处理装置10包括：

文本框获取模块110，用于分别对第一页面图像和第二页面图像进行文本框检测，以获得各自页面内每个文本框的位置信息，其中，第二页面基于第一页面得到；

文本识别模块120，用于根据位置信息从第一页面和第二页面中分别选取相同数量的文本框，并分别进行文本内容识别，以得到对应文本框的文本识别结果；

文本框组确定模块130，用于根据文本识别结果，确定第一页面和第二页面中需要比对的目标文本框组；

属性异常检测模块140，用于利用对应文本属性判别模型对目标文本框组进行对应文本属性判别，以确定第二页面中的目标文本框是否存在文本属性异常。

可以理解，本实施例的装置对应于上述实施例的页面图像文字处理方法，上述实施例中的可选项同样适用于本实施例，故在此不再重复描述。

本申请还提供了一种终端设备，如计算机等。示范性地，该终端设备包括处理器和存储器，其中，存储器存储有计算机程序，处理器通过运行所述计算机程序，从而使终端设备执行上述的页面图像文字处理方法或者上述页面图像文字处理装置中的各个模块的功能。

其中，处理器可以是一种具有信号的处理能力的集成电路芯片。处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、图形处理器（GraphicsProcessing Unit，GPU）及网络处理器（Network Processor，NP）、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件中的至少一种。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。其中，存储器用于存储计算机程序，处理器在接收到执行指令后，可相应地执行所述计算机程序。

本申请还提供了一种可读存储介质，用于储存上述终端设备中使用的所述计算机程序。例如，该可读存储介质可以包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是智能手机、个人计算机、服务器、或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种页面图像文字处理方法，其特征在于，包括：

2.根据权利要求1所述的页面图像文字处理方法，其特征在于，所述文本属性判别模型包括文本大小判别模型，所述文本框的位置信息包括文本行的行高；所述利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，包括：

3.根据权利要求1所述的页面图像文字处理方法，其特征在于，所述文本属性判别模型包括文本粗细判别模型，所述利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，包括：

4.根据权利要求1所述的页面图像文字处理方法，其特征在于，所述文本属性判别模型包括文本颜色判别模型，所述利用对应文本属性判别模型对所述目标文本框组进行对应文本属性判别，以确定所述第二页面中的目标文本框是否存在文本属性异常，包括：

5.根据权利要求1至4中任一项所述的页面图像文字处理方法，其特征在于，所述文本识别结果包括所述文本框的匹配文本识别结果和命名实体识别结果；所述根据所述文本识别结果，确定所述第一页面和所述第二页面中需要比对的目标文本框组，包括：

若存在包含关系，则确定所述第一页面和所述第二页面中各自的所述某一个文本框是需要比对的一组目标文本框组；

若不存在包含关系，则检测所述第一页面和所述第二页面中各自的所述某一个文本框的所述命名实体识别结果是否位于允许的差异范围内；

若是，则确定所述第一页面和所述第二页面中各自的所述某一个文本框是需要比对的一目标文本框组，否则确定不是目标文本框组。

6.根据权利要求3所述的页面图像文字处理方法，其特征在于，所述文本粗细判别模型通过预先训练得到，包括：

7.根据权利要求4所述的页面图像文字处理方法，其特征在于，所述文本颜色判别模型通过预先构建得到，包括：

8.一种页面图像文字处理装置，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施权利要求1-7中任一项所述的页面图像文字处理方法。

10.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上执行时，实施根据权利要求1-7中任一项所述的页面图像文字处理方法。