CN111291661A

CN111291661A - 一种屏幕中图标的文本内容的识别方法及设备

Info

Publication number: CN111291661A
Application number: CN202010072748.8A
Authority: CN
Inventors: 陈敏
Original assignee: Shanghai Yueyi Network Information Technology Co Ltd
Current assignee: Shanghai Yueyi Network Information Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16
Anticipated expiration: 2040-01-21
Also published as: CN111291661B

Abstract

本申请的目的是提供一种屏幕中图标的文本内容的识别方法及设备，本申请通过获取移动终端的屏幕图像，对所述屏幕图像进行特征提取，得到特征图；根据所述特征图确定多个向量，将所述多个向量作为序列输入至预设的神经网络中；将所述预设的神经网络的输出结果传入全连接网络中，得到每一行的矩形框的相关信息；根据所述相关信息选取目标矩形框合并成文本框；将所述文本框输入文字识别模型中进行文本识别。从而避免了因固定的间隔阈值，当相邻图标的标注框发生部分重合或距离过近时造成的识别文字的不准确。

Description

一种屏幕中图标的文本内容的识别方法及设备

技术领域

本申请涉及设备检测领域，尤其涉及一种屏幕中图标的文本内容的识别方法及设备。

背景技术

目前对设备的检测，如移动终端的检测，尤其是涉及到屏幕上已有应用程序的检测，需要人工点击屏幕或在移动终端中进行查找，以进行检测相关应用程序；而不能通过机械手进行自动识别出屏幕上的应用程序并进行自动检测。另外，对屏幕上已有应用程序进行检测时，需要识别出屏幕上的应用程序，即识别出图标的文本内容，而目前对图像中文字的识别通常是识别相邻文字时的判断距离阈值是固定的，当文字变大时因距离阈值还是固定的，很容易造成误判，识别文字不准确，比如将原本为一个词的识别为是2个字。

发明内容

本申请的一个目的是提供一种屏幕中图标的文本内容的识别方法及设备，解决现有技术中图像识别文本内容时判断相邻文字之间的距离阈值是固定的，造成误判的问题。

根据本申请的一个方面，提供了一种屏幕中图标的文本内容的识别方法，该方法包括：

获取移动终端的屏幕图像，对所述屏幕图像进行特征提取，得到特征图；

根据所述特征图确定多个向量，将所述多个向量作为序列输入至预设的神经网络中；

将所述预设的神经网络的输出结果传入全连接网络中，得到每一行的矩形框的相关信息；

根据所述相关信息选取目标矩形框合并成文本框；

将所述文本框输入文字识别模型中进行文本识别。

进一步地，对所述屏幕图像进行特征提取，得到特征图，包括：

对所述屏幕图像使用深度残差网络进行特征提取，得到通道数为512的特征图。

进一步地，根据所述特征图确定多个向量，包括：

使用滑动窗口扫描所述特征图，将每次扫描得到的特征展开为一个向量，在扫描所述特征图的每一行后得到多个向量。

进一步地，所述相关信息包括特征图的每一行在垂直方向的不同高度的矩形框的数量、坐标信息以及矩形框的文本分数、矩形框的非文本分数。

进一步地，根据所述相关信息选取目标矩形框合并成文本框，包括：

根据每个矩形框的文本分数选取目标矩形框，根据目标矩形框的坐标信息合并成文本框。

进一步地，根据目标矩形框的坐标信息合并成文本框，包括：

根据目标矩形框的坐标信息判断两个目标矩形框之间的水平间隔是否在间隔阈值内，若是，则将该两个目标矩形框进行合并成文本框。

进一步地，所述方法包括：

根据待合并的两个目标矩形框的高度确定每一图标的矩形框的高度；

根据所述每一图标的矩形框的高度确定间隔阈值。

进一步地，将所述文本框输入文字识别模型中进行文本识别之后，包括：

确定目标图标的矩形框内的文本内容的像素坐标；

将所述文本内容的像素坐标转换为所述移动终端的机械坐标系下的物理坐标；

根据所述物理坐标使机械手操作所述目标图标，进行所述目标图标对应的应用程序的检测。

进一步地，获取移动终端的屏幕图像，包括：

获取由机械手对所述移动终端的操作确定的屏幕图像，其中，对所述移动终端的操作包括自动拍照操作或截屏操作。

根据本申请另一个方面，还提供一种屏幕图标的文本内容的识别的设备，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过获取移动终端的屏幕图像，对所述屏幕图像进行特征提取，得到特征图；根据所述特征图确定多个向量，将所述多个向量作为序列输入至预设的神经网络中；将所述预设的神经网络的输出结果传入全连接网络中，得到每一行的矩形框的相关信息；根据所述相关信息选取目标矩形框合并成文本框；将所述文本框输入文字识别模型中进行文本识别。从而避免了因固定的间隔阈值，当相邻图标的标注框发生部分重合或距离过近时造成的识别文字的不准确。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种屏幕中图标的文本内容的识别方法流程示意图；

图2示出根据本申请的另一个方面提供的一种屏幕中图标的文本内容的识别的设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种屏幕中图标的文本内容的识别方法流程示意图，该方法包括：步骤S11～步骤S15，

在步骤S11中，获取移动终端的屏幕图像，对所述屏幕图像进行特征提取，得到特征图；在此，移动终端包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、个人数字助理(Personal Digital Assistant，PDA)等，所述移动电子产品可以采用任意操作系统，如安卓(android)操作系统、苹果(iOS)操作系统等。对移动终端上的已有应用程序进行自动检测时，首先获取到该移动终端的屏幕图像，该屏幕图像包括移动终端的屏幕界面上的图标信息。对该屏幕图像进行特征提取，从而获得包含屏幕图像的相关特征信息的特征图。

在步骤S12中，根据所述特征图确定多个向量，将所述多个向量作为序列输入至预设的神经网络中；在此，对得到的特征图进行扫描，获得特征图中每一行的特征，从而确定出若干向量，将若干向量作为序列输入至预设的神经网络中，其中，预设的神经网络可为LSTM(Long Shot-Term Memory)网络。

接着，在步骤S13中，将所述预设的神经网络的输出结果传入全连接网络中，得到每一行的矩形框的相关信息；在此，将若干向量作为序列输入至LSTM网络中，将LSTM的输出结果作为输入传入至全连接网络中，得到每一行的矩形框的相关信息，其中，所述相关信息包括特征图的每一行在垂直方向的不同高度的矩形框的数量、坐标信息以及矩形框的文本分数、矩形框的非文本分数。全连接网络输出结果为5k维的输出，k表示特征图中的每一行在垂直方向的不同高度的矩形框数量，其中，前2k表示的是外接标注框(bounding box)的高度和y轴中心的坐标，该坐标为相对坐标，即对每个矩形框的高度和y轴中心坐标进行修正的参数，第二个2k(scores)表示为每个矩形框的文本分数(text)或非文本分数(non-text)，第三个k表示对每个矩形框水平坐标进行修正的参数。

随后，在步骤S14中，根据所述相关信息选取目标矩形框合并成文本框；在此，根据矩形框的相关信息选取出可以进行合并的目标矩形框，进行合成为文本框，可以通过文本线构造算法对目标矩形框进行合并。最后，在步骤S15中，将所述文本框输入文字识别模型中进行文本识别。在此，利用文字识别模型，比如crnn文字识别模型，进行识别文本框中的内容。从而可以避免因图标之间的距离是固定的造成的识别图标内容的误判。

在本申请一实施例中，在步骤S11中，对所述屏幕图像使用深度残差网络进行特征提取，得到通道数为512的特征图。在此，对获取到的屏幕图像进行特征提取时，可以使用深度残差网络进行，比如使用resnet50对屏幕图像进行特征提取，得到通道数为512的特征图。

在本申请一实施例中，在步骤S12中，使用滑动窗口扫描所述特征图，将每次扫描得到的特征展开为一个向量，在扫描所述特征图的每一行后得到多个向量。在此，可以使用滑动窗口扫描步骤S11中得到的特征图，把每次扫描得到的特征展开为一个向量，从而可以将扫描每一行之后得到的若干向量作为序列输入至LSTM网络中。

在本申请一实施例中，在步骤S14中，根据每个矩形框的文本分数选取目标矩形框，根据目标矩形框的坐标信息合并成文本框。在此，获取有文本分数的矩形框，再从有文本分数的矩形框中选取文本分数高的矩形框，如文本分数高于分数阈值的矩形框作为目标矩形框，从而将选取到的文本分数高的矩形框进行合并，按照每个目标矩形框的坐标信息进行合并。具体地：根据目标矩形框的坐标信息判断两个目标矩形框之间的水平间隔是否在间隔阈值内，若是，则将该两个目标矩形框进行合并成文本框。在此，两个目标矩形框能够合并取决于它们的水平间隔阈值，当水平间隔在间隔阈值内时，可以将该两个目标矩形框进行合并。其中，间隔阈值不是一个固定值，是根据矩形框的高度自适应确定的，屏幕图像中包括待检测应用程序的图标，对获取到的屏幕图像进行标注，标注屏幕图像中的所有图标，可使用矩形框进行标注，标注框为图标的外接矩形，并确定标注后的图标的矩形框的高度，从而当不同移动终端的屏幕上图标显示规格不同时，图标的高度不同，得到的矩形框的高度也不同，图标对应的文本的大小也不同，占用的像素数也不同，相邻文本之间的距离阈值不同。

具体地：可以根据待合并的两个目标矩形框的高度确定每一图标的矩形框的高度；根据所述每一图标的矩形框的高度确定间隔阈值。在此，每一图标的矩形框高度可以根据需要进行合并的两个目标矩形框的高度进行确定，其中，待合并的目标矩形框为文本分数中大于预设阈值的那部分矩形框。从而根据矩形框的高度自适应调整间隔阈值。从而利用间隔阈值判断是否合并两个目标矩形框，如图标A表示“图库”，相邻的图标B表示“相机”时，识别图标A的矩形框以及图标B的矩形框内的内容，根据间隔阈值进行判断，“库”和“相”是否需要连接，如两字之间的水平间隔差大于间隔阈值，则可认为是对应在两个图标下的文本文字，不进行连接，即“库”属于图标A的文本内容，“相”属于图标B的文本内容。根据动态调整的间隔阈值识别每一图标的标注框内的文本内容，即识别每一图标对应的文本文字。从而避免了因固定的间隔阈值，当相邻图标的标注框发生部分重合或距离过近时造成的识别文字的不准确。

在本申请一实施例中，将所述文本框输入文字识别模型中进行文本识别之后，可以确定目标图标的矩形框内的文本内容的像素坐标；将所述文本内容的像素坐标转换为所述移动终端的机械坐标系下的物理坐标；根据所述物理坐标使机械手操作所述目标图标，进行所述目标图标对应的应用程序的检测。在此，识别屏幕图像中的图标的文本内容后，定位所识别的文本内容所在屏幕图像中的像素坐标，即屏幕图像的坐标系下的像素坐标，进行坐标转换，转换为移动终端的机械坐标系下的物理坐标，从而机械手定位到该文本内容，对该文本内容对应的图标的应用程序进行检测，如识别出图标“设置”两个字，而不是“设”，根据“设置”在屏幕图像中的坐标确定在移动终端下的坐标，从而机械手根据确定的坐标查找到“设置”，打开“设置”所对应的图标，进行应用程序的自动检测。

在本申请一实施例中，在步骤S11中，获取由机械手对所述移动终端的操作确定的屏幕图像，其中，对所述移动终端的操作包括自动拍照操作或截屏操作。在此，通过机械手获取移动终端的屏幕图像，可以是通过机械手进行自动的拍照操作获取到屏幕图像，还可以是机械手自动执行截屏操作，截取到屏幕图像。从而对机械手获得的屏幕图像进行图标的文字识别，通过动态的像素阈值精准确定每一标注框内的文本内容。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种屏幕中图标的文本内容的识别方法。

在本申请一实施例中，还提供了一种屏幕中图标的文本内容的识别的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

根据所述相关信息选取目标矩形框合并成文本框；

将所述文本框输入文字识别模型中进行文本识别。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种屏幕中图标的文本内容的识别方法，其特征在于，所述方法包括：

根据所述相关信息选取目标矩形框合并成文本框；

将所述文本框输入文字识别模型中进行文本识别。

2.根据权利要求1所述的方法，其特征在于，对所述屏幕图像进行特征提取，得到特征图，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述特征图确定多个向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述相关信息包括特征图的每一行在垂直方向的不同高度的矩形框的数量、坐标信息以及矩形框的文本分数、矩形框的非文本分数。

5.根据权利要求4所述的方法，其特征在于，根据所述相关信息选取目标矩形框合并成文本框，包括：

6.根据权利要求5所述的方法，其特征在于，根据目标矩形框的坐标信息合并成文本框，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法包括：

根据待合并的两个目标矩形框的高度确定每一图标的矩形框的高度；根据所述每一图标的矩形框的高度确定间隔阈值。

8.根据权利要求1所述的方法，其特征在于，将所述文本框输入文字识别模型中进行文本识别之后，包括：

确定目标图标的矩形框内的文本内容的像素坐标；

9.根据权利要求1所述的方法，其特征在于，获取移动终端的屏幕图像，包括：

10.一种屏幕图标的文本内容的识别的设备，其特征在于，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至9中任一项所述方法的操作。

11.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至9中任一项所述的方法。