CN110704153B

CN110704153B - 界面逻辑解析方法、装置、设备及可读存储介质

Info

Publication number: CN110704153B
Application number: CN201910959932.1A
Authority: CN
Inventors: 何元钦; 吴子凡; 虢齐; 张潮宇; 黄阳琨; 陈天健
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2021-11-19
Anticipated expiration: 2039-10-10
Also published as: CN110704153A

Abstract

本发明公开了一种界面逻辑解析方法、装置、设备和可读存储介质，所述界面逻辑解析方法包括：接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果，基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果，基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。解决了现有技术中界面逻辑解析不准确和不稳定的技术问题。

Description

界面逻辑解析方法、装置、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)的神经网络技术领域，尤其涉及一种界面逻辑解析方法、装置、设备及可读存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，界面逻辑解析成为了网页爬取，RPA自动化等涉及计算机软件或“机器人”模拟人与数字系统交互的关键步骤，在现有技术中，对于网页，目前通常通过分析网页脚本获取网页元素的名称属性等信息以进行界面逻辑解析，对于软件，目前通常通过系统接口获取界面上各组件的名称属性等信息以进行界面逻辑解析，但是，当网页脚本接口发生变化或者网页页面显示不稳定时，网页页面逻辑就无法稳定获取，当软件不提供系统接口时，也无法得到准确的界面逻辑，所以，现有技术中存在界面逻辑解析不准确和不稳定的技术问题。

发明内容

本发明的主要目的在于提供一种界面逻辑解析方法、装置、设备和可读存储介质，旨在解决现有技术中界面逻辑解析不准确和不稳定的技术问题。

为实现上述目的，本发明实施例提供一种界面逻辑解析方法，所述界面逻辑解析方法应用于界面逻辑解析设备，所述界面逻辑解析方法包括：

接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果；

基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果；

基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。

可选地，所述解析结果包括区域目标识别结果、区域目标属性检测结果和文字识别检测结果，

所述基于所述解析结果，建立界面元素逻辑关系的步骤包括：

将所述区域目标识别结果、所述区域目标属性检测结果和所述文字识别检测结果进行合并，获得界面元素识别检测结果；

基于预设元素动作库，为所述界面元素识别检测结果对应的各个界面元素配置可执行动作，以基于各个所述界面元素对应的可执行动作，建立所述界面元素逻辑关系。

可选地，所述预设界面图像解析器包括图像分类模型、图像目标和属性检测模型、图像分割模型和文字识别检测模型，所述解析结果包括图像识别结果、界面区域分割结果、区域目标识别结果、区域目标属性检测结果和文字识别检测结果，

所述将所述界面图像输入预设界面图像解析器，以对所述界面图像的界面逻辑关系进行解析，获得解析结果的步骤包括：

将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果；

将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果；

将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果；

将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果。

可选地，所述将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果的步骤包括：

将所述界面图像输入所述图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图；

对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的所述图像识别结果。

可选地，所述将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果的步骤包括：

将所述界面图像输入所述图像分割模型，以对所述界面图像进行编码，获得编码结果；

对所述编码结果进行解码，获得所述界面区域分割结果。

可选地，所述将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果的步骤包括：

将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面区域中的第一候选区域进行框选，获得所述第一候选区域对应的一个或者多个第一目标框，其中，一所述第一候选区域对应一所述第一目标框；

对各所述第一目标框进行预设次数的卷积和池化交替处理，获得各所述第一目标框对应的多个第一目标框特征图；

对所述多个第一目标框特征图进行全连接，获得各所述第一目标框对应的区域目标特征向量，并提取各所述区域目标特征向量中的区域目标和属性信息，获得所述区域目标识别结果和所述区域目标属性检测结果。

可选地，所述将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果的步骤包括：

将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对所述界面区域中的第二候选区域进行框选，获得所述第二候选区域对应的一个或者多个第二目标框，其中，一所述第二候选区域对应一所述第二目标框；

对各所述第二目标框进行预设次数的卷积和池化交替处理，获得各所述第二目标框对应的多个第二目标框特征图；

对所述多个第二目标框特征图进行全连接，获得各所述第三标框对应的文字识别检测特征向量，并提取各所述文字识别检测特征向量中的文字识别检测信息，获得所述文字识别检测结果。

本发明还提供一种界面逻辑解析装置，所述界面逻辑解析装置应用于界面逻辑解析设备，所述界面逻辑解析装置包括：

解析模块，用于所述接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果；

第一建立模块，用于所述基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果；

第二建立模块，用于所述基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。

可选地，所述第一建立模块包括：

合并单元，用于所述将所述区域目标识别结果、所述区域目标属性检测结果和所述文字识别检测结果进行合并，获得界面元素识别检测结果；

分配单元，用于所述基于预设元素动作库，为所述界面元素识别检测结果对应的各个界面元素配置可执行动作，以基于各个所述界面元素对应的可执行动作，建立所述界面元素逻辑关系。

可选地，所述解析模块包括：

图像分类单元，用于所述将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果；

分割单元，用于所述将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果；

目标检测单元，用于所述将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果；

文字识别单元，用于所述将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果。

可选地，所述图像分类单元包括：

第一输入子单元，用于所述将所述界面图像输入所述图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图；

第一全连接子单元，用于所述对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的所述图像识别结果。

可选地，所述分割单元包括：

编码子单元，用于所述将所述界面图像输入所述图像分割模型，以对所述界面图像进行编码，获得编码结果；

解码子单元，用于所述对所述编码结果进行解码，获得所述界面区域分割结果。

可选地，所述目标检测单元包括：

第二输入子单元，用于所述将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的第一候选区域进行框选，获得所述第一候选区域对应的一个或者多个第一目标框，其中，一所述第一候选区域对应一所述第一目标框；

第一卷积和池化处理子单元，用于所述对各所述第一目标框进行预设次数的卷积和池化交替处理，获得各所述第一目标框对应的多个第一目标框特征图；

第二全连接子单元，用于所述对所述多个第一目标框特征图进行全连接，获得各所述第一目标框对应的区域目标特征向量，并提取各所述区域目标特征向量中的区域目标和属性信息，获得所述区域目标识别结果和所述区域目标属性检测结果。

可选地，所述文字识别单元包括：

第三输入子单元，用于所述将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对所述界面区域中的第二候选区域进行框选，获得所述第二候选区域对应的一个或者多个第二目标框，其中，一所述第二候选区域对应一所述第二目标框；

第二卷积和池化处理子单元，用于所述对各所述第二目标框进行预设次数的卷积和池化交替处理，获得各所述第二目标框对应的多个第二目标框特征图；

第三全连接子单元，用于所述对所述多个第二目标框特征图进行全连接，获得各所述第三标框对应的文字识别检测特征向量，并提取各所述文字识别检测特征向量中的文字识别检测信息，获得所述文字识别检测结果。

本发明还提供一种界面逻辑解析设备，所述界面逻辑解析设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述界面逻辑解析方法的程序，所述界面逻辑解析方法的程序被处理器执行时可实现如上述的界面逻辑解析方法的步骤。

本发明还提供一种可读存储介质，所述可读存储介质上存储有实现界面逻辑解析方法的程序，所述界面逻辑解析方法的程序被处理器执行时实现如上述的界面逻辑解析方法的步骤。

本申请通过接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果，进而基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果，进一步地基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。也即，本申请通过接收界面图像，并将所述界面图像输入预设界面图像解析器，以进行对所述界面图像的界面逻辑关系的解析，获得解析结果，进而基于所述解析结果，进行界面元素逻辑关系的建立和所述解析结果对应的层次划分结果的获取，进一步地，基于所述界面元素逻辑关系和所述层次划分结果，进行界面完整逻辑模型的建立。也即，本申请通过基于对界面图像进行解析，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果，进而建立界面完整逻辑模型，且完全不依赖网页脚本接口或者系统接口，进而基于界面完整逻辑模型，可让计算机软件和界面可进行稳定可靠的交互，所以，解决了现有技术中界面逻辑解析不准确和不稳定的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明界面逻辑解析方法第一实施例的流程示意图；

图2为本发明界面逻辑解析方法中解析某应用软件界面的树状界面完整逻辑模型的示意图；

图3为本发明界面逻辑解析方法建立所述界面完整逻辑模型的流程图示意图；

图4为本发明界面逻辑解析方法第二实施例的流程示意图；

图5为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种界面逻辑解析方法，所述界面逻辑解析方法应用于界面逻辑解析设备，在本申请界面逻辑解析方法的第一实施例中，参照图1，所述界面逻辑解析方法包括：

步骤S10，接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果；

在本实施例中，需要说明的是，所述预设界面图像解析器是基于深度学习已经训练好的模型，所述解析结果包括对界面类型识别的结果、对界面各个区域分割的结果、对界面各个区域中的元素、元素的位置、类型、属性和文字内容等的识别结果。

接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果，具体地，接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像的类型进行识别和检测，进而对所述界面图像的各个区域进行分割，进一步地，识别和检测各个区域中各个元素的位置、类型、属性和文字内容等，进而获得解析结果。

步骤S20，基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果；

在本实施例中，需要说明的是，所述界面图像包括界面、界面区域和界面元素，界面包括网页界面、软件界面等，界面区域包括导航区、工作区和展示区等，界面元素包括下拉框、查询框等，且所述界面区域从属于界面，所述界面元素从属于界面区域，所述层次划分结果包括界面、界面元素。

基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果，具体地，基于所述解析结果，通过预设元素动作库给每一所述界面元素分配可执行动作，进而建立所述界面元素逻辑关系，进一步地，基于所述解析结果，对所述界面图像中的各图像元素进行层次划分，其中，所述图像元素包括界面、界面区域和界面元素，例如，假设将界面为最上层，则界面区域为中层，界面元素为最下层，其中，中层从属于最上层，最下层从属于中层。

其中，所述解析结果包括区域目标识别结果、区域目标属性检测结果和文字识别检测结果，

步骤A10，将所述区域目标识别结果、所述区域目标属性检测结果和所述文字识别检测结果进行合并，获得界面元素识别检测结果；

在本实施例中，需要说明的是，所述区域目标识别结果是指确定待识别区域是否为界面区域的判定结果，其中，识别过程中将使用目标框对所述待识别区域进行框选，所述区域目标属性检测结果指的是识别未包括文字的界面元素及其位置、类型和属性等特性的识别结果，所述文字识别检测结果指的是识别包含文字的界面元素及其文字内容、位置和属性等特性的识别结果。

将所述区域目标识别结果、所述区域目标属性检测结果和所述文字识别检测结果进行合并，获得界面元素识别检测结果，具体地，将所述区域目标识别结果、所述区域目标属性检测结果和所述文字识别检测结果进行合并，获得所述界面图像的各个区域的界面元素及其位置、类别和属性等信息，也即，获得界面元素识别检测结果。

步骤A20，基于预设元素动作库，为所述界面元素识别检测结果对应的各个界面元素配置可执行动作，以基于各个所述界面元素对应的可执行动作，建立所述界面元素逻辑关系。

在本实施例中，需要说明的是，所述预设元素动作库中包括中包括所述界面元素可执行的常见动作，例如，输入、输出和查询等动作，所述解析结果包括界面区域分割结果，所述界面区域分割结果为基于界面图像的各个区域的类别和位置等信息对界面图像进行分割的结果，例如，所述界面图像可分割为导航区域、标题区域、内容区域和无效区域等区域。

基于预设元素动作库，为所述界面元素识别检测结果对应的各个界面元素配置可执行动作，以基于各个所述界面元素对应的可执行动作，建立所述界面元素逻辑关系，具体地，获取预设元素动作库中的可执行动作，并基于所述界面图像的各个区域的界面元素及其位置、类别和属性等信息，给每一所述界面元素匹配相应的可执行动作，进而基于所述界面图像的各个区域的界面元素及其位置、类别和属性等信息和界面元素相应的可执行动作，建立界面元素逻辑关系，例如，所述界面元素和对应的界面区域可建立从属关系，根据界面元素的位置、类别和属性等信息，对界面元素之间可建立平级关系、附属关系、父子关系等逻辑关系。

步骤S30，基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。

在本实施例中，需要说明的是，所述界面完整逻辑模型包括树状模型、线性表模型等，如图2所示为解析某应用软件界面的树状界面完整逻辑模型，其中，最上层的“界面：应用程序”为图像识别结果对应的界面，中层的“导航栏、工作区和展示区”为界面区域分割结果对应界面区域，底层的“字段：词典、字段：翻译和下拉框等”为区域目标和属性检测结果和文字识别检测结果共同对应的界面元素。

基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型，具体地，基于所述层次划分结果，确定了界面与界面区域之间的从属关系和界面区域和界面元素之间的从属关系，基于所述界面元素逻辑关系确定了界面元素之间的逻辑关系，进而建立所述界面完整逻辑模型，如图3所示为建立所述界面完整逻辑模型的流程图，其中，“识别界面类型”即为获取所述图像识别结果的步骤，“分割界面区域”即为获取所述界面区域分割结果的步骤，“检测界面元素”即为获取所述区域目标识别结果和所述区域目标属性检测结果和所述文字识别检测结果的步骤。

本实施例通过接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果，进而基于所述解析结果，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果，进一步地基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。也即，本实施例通过接收界面图像，并将所述界面图像输入预设界面图像解析器，以进行对所述界面图像的界面逻辑关系的解析，获得解析结果，进而基于所述解析结果，进行界面元素逻辑关系的建立和所述解析结果对应的层次划分结果的获取，进一步地，基于所述界面元素逻辑关系和所述层次划分结果，进行界面完整逻辑模型的建立。也即，本实施例通过基于对界面图像进行解析，建立界面元素逻辑关系，并获取所述解析结果对应的层次划分结果，进而建立界面完整逻辑模型，且完全不依赖网页脚本接口或者系统接口，进而基于界面完整逻辑模型，可让计算机软件和界面可进行稳定可靠的交互，所以，解决了现有技术中界面逻辑解析不准确和不稳定的技术问题。

进一步地，参照图4，基于本申请中第一实施例，在界面逻辑解析方法的另一实施例中，所述预设界面图像解析器包括图像分类模型、图像目标和属性检测模型、图像分割模型和文字识别检测模型，所述解析结果包括图像识别结果、界面区域分割结果、区域目标识别结果、区域目标属性检测结果和文字识别检测结果，

步骤S11，将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果；

在本实施例中，需要说明的是，所述图像分类模型是基于深度学习已经训练好的神经网络模型。

将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果，具体地，将所述界面图像输入所述图像分类模型以对所述界面图像进行预设次数的卷积和池化交替处理，得到所述图像分类模型对应的卷积和池化处理结果，进而对所述图像分类模型对应的卷积和池化处理结果进行全连接，获得所述界面图像对应的图像识别唯一向量，并提取所述图像识别唯一向量中的特征信息，进而获得所述图像识别结果，其中，所述卷积指的是对图像对应的图像矩阵和卷积核进行逐个元素相乘再求和，获得图像特征值的过程，所述卷积核指的是界面图像特征对应的权值矩阵，所述池化指的是对通过卷积而获得的图像特征值进行整合，从而获得新的特征值的过程，所述全连接可视为一种特殊卷积处理，所述特殊卷积处理的结果为获得图像对应的一个一维向量。

其中，所述将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果的步骤包括：

步骤S111，将所述界面图像输入所述图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图；

在本实施例中，将所述界面图像输入所述图像分类模型，以对所述界面图像进行预设次数的卷积和池化交替处理，获得所述界面图像对应的多个图像分类特征图，具体地，将所述界面图像输入所述图像分类模型，以对所述界面图像进行卷积处理，获得所述图像分类模型对应的卷积处理结果，进而对所述图像分类模型对应的卷积处理结果进行池化处理，得到所述图像分类模型对应的池化处理结果，进一步地，重复上述卷积和池化处理过程，在进行了所述预设次数的卷积和处理处理后，获得所述界面图像对应的多个图像分类特征图，其中，所述多个图像分类特征图中包括所述界面图像的所有图像特征信息。

步骤S112，对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的所述图像识别结果。

在本实施例中，对所述多个图像分类特征图进行全连接，获得图像分类特征向量，并提取所述图像分类特征向量中的所述图像识别结果，具体地，对所述多个图像分类特征图进行全连接，获得所述多个图像分类特征图对应的图像分类特征向量，其中，所述图像分类特征向量中包括所述界面图像的所有界面特征，其中，所述界面特征包括界面类型、界面大小等。

步骤S12，将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果；

在本实施例中，需要说明的是，所述图像分割模型包括卷积神经网络。

将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果，具体地，将所述界面图像输入所述卷积神经网络，对所述界面图像进行编码，也即，对所述界面图像进行下采样，获得编码结果，其中，所述编码结果为所述卷积神经网络输出的图像矩阵，且所述图像矩阵中的像素值表示了对像素点的识别和分类结果，例如，假设所述图像矩阵中的像素值由0和1组成，则像素值为1表示对应像素点属于导航栏区域，像素值为0表示对应像素点属于背景区域，进一步地，对所述编码结果进行解码，也即，对所述编码结果进行上采样，获得所述界面图像对应的语义分割图像，也即，获得所述界面区域分割结果。

其中，所述将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果的步骤包括：

步骤S121，将所述界面图像输入所述图像分割模型，以对所述界面图像进行编码，获得编码结果；

在本实施例中，需要说明的是，所述编码包括卷积处理、池化处理等。

将所述界面图像输入所述图像分割模型，以对所述界面图像进行编码，获得编码结果，具体地，将所述界面图像输入所述卷积神经网络，以对所述界面图像进行预设次数的卷积和池化交替处理，提取所述界面图像中每一像素点的特征，也即，获得高级语义信息，进而基于所述高级语义信息，对所述界面图像中的像素点进行分类和识别，获得识别分类结果，具体地，例如，假设所述界面图像中包括导航栏区域和背景区域，在将所述界面图像输入所述卷积神经网络后，对提取出的像素点特征进行识别，并计算所述像素点分别属于导航栏区域和背景区域的概率P1和P2，且P1+P2＝1，若P1大于P2，则所述像素点属于导航栏区域，若P1小于P2，则所述像素点属于背景区域，进而将所述像素点分为两类，一类对应导航栏区域，一类对应背景区域，进一步地，基于所述识别分类结果，输出编码结果。

步骤S122，对所述编码结果进行解码，获得所述界面区域分割结果。

在本实施例中，需要说明的是，所述解码包括反卷积、反池化等，所述界面区域分割结果为语义分割图像，且所述语义分割图像与界面图像的分辨率应当一致。

对所述编码结果进行解码，获得所述界面区域分割结果，具体地，对所述编码结果对应的图像矩阵进行反卷积处理，也即，将所述编码结果对应的图像矩阵与所述卷积神经网络中转置后的权值矩阵相乘，获得所述语义分割图像对应的语义图像矩阵，进而将所述语义图像矩阵对应的语义分割图像进行输出，进一步地，根据对所述像素点的分类，用不同颜色对所述语义分割图像中的不同区域进行区分，获得所述界面区域分割结果。

步骤S13，将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果；

在本实施例中，需要说明的是，所述图像目标和属性检测模型是基于深度学习已经训练好的神经网络模型。

将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果，具体地，将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述进行所述界面区域分割后的所述界面图像进行预设次数的卷积和池化交替处理和全连接，获得区域目标特征向量，进而提取所述区域目标特征向量中的区域目标和属性信息，获得所述区域目标识别结果和所述区域目标属性检测结果。

其中，所述将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果的步骤包括：

步骤S131，将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面区域中的第一候选区域进行框选，获得所述第一候选区域对应的一个或者多个第一目标框，其中，一所述第一候选区域对应一所述第一目标框；

在本实施例中，需要说明的是，所述第一候选区域指的是可能为界面区域中的界面元素的区域。

将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面区域中的第一候选区域进行框选，获得所述第一候选区域对应的一个或者多个第一目标框，其中，一所述第一候选区域对应一所述第一目标框，具体地，将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的第一候选区域进行框选，并根据所述第一候选区域的边界确定所述第一目标框的大小，且所述第一候选区域在所述第一目标框的内部，进而获得所述第一候选区域对应的一个或者多个第一目标框。

步骤S132，对各所述第一目标框进行预设次数的卷积和池化交替处理，获得各所述第一目标框对应的多个第一目标框特征图；

在本实施例中，对各所述第一目标框进行预设次数的卷积和池化交替处理，获得各所述第一目标框对应的多个第一目标框特征图，具体地，对各所述第一目标框进行卷积处理，获得第一目标框卷积处理结果，进而将所述第一目标框卷积处理结果进行池化处理，获得第一目标框池化处理结果，进一步地，重复上述卷积和池化处理，在进行了预设次数的卷积和池化交替处理后，获得各所述第一目标框对应的多个第一目标框特征图。

步骤S133，对所述多个第一目标框特征图进行全连接，获得各所述第一目标框对应的区域目标特征向量，并提取各所述区域目标特征向量中的区域目标和属性信息，获得所述区域目标识别结果和所述区域目标属性检测结果。

在本实施例中，需要说明的是，所述区域目标特征向量中包括所述第一目标框的所有特征信息，例如，所述第一目标框的所有特征信息包括所述第一目标框对应的第一候选区域是否为界面元素的判定结果，界面元素类型、界面元素的位置等所述区域目标和属性信息。

步骤S14，将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果。

在本实施例中，需要说明的是，所述文字识别检测模型是基于深度学习已经训练好的神经网络模型。

将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果，具体地，将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对所述进行所述界面区域分割后的所述界面图像进行预设次数的卷积和池化交替处理和全连接，获得文字识别检测特征向量，进而提取所述文字识别检测特征向量中的文字识别检测信息，获得所述文字识别检测结果。

其中，所述将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果的步骤包括：

步骤S141，将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对所述界面区域中的第二候选区域进行框选，获得所述第二候选区域对应的一个或者多个第二目标框，其中，一所述第二候选区域对应一所述第二目标框；

在本实施例中，所述第二候选区域指的是可能为界面区域中的包括文字的界面元素的区域。

将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对所述界面区域中的第二候选区域进行框选，获得所述第二候选区域对应的一个或者多个第二目标框，其中，一所述第二候选区域对应一所述第二目标框，具体地，将进行所述界面区域分割后的所述界面图像输入所述述文字识别检测模型，以对所述界面图像中的第二候选区域进行框选，并根据所述第二候选区域的边界确定所述第二目标框的大小，且所述第二候选区域在所述第二目标框的内部，进而获得所述第二候选区域对应的一个或者多个第二目标框。

步骤S142，对各所述第二目标框进行预设次数的卷积和池化交替处理，获得各所述第二目标框对应的多个第二目标框特征图；

在本实施例中，对各所述第二目标框进行预设次数的卷积和池化交替处理，获得各所述第二目标框对应的多个第二目标框特征图，具体地，对各所述第二目标框进行卷积处理，获得第二目标框卷积处理结果，进而将所述第二目标框卷积处理结果进行池化处理，获得第二目标框池化处理结果，进一步地，重复上述卷积和池化处理，在进行了预设次数的卷积和池化交替处理后，获得各所述第二目标框对应的多个第二目标框特征图。

步骤S143，对所述多个第二目标框特征图进行全连接，获得各所述第三标框对应的文字识别检测特征向量，并提取各所述文字识别检测特征向量中的文字识别检测信息，获得所述文字识别检测结果。

在本实施例中，需要说明的是，所述文字识别检测特征向量中包括所述第二目标框的所有特征信息，例如，第二目标框的所有特征信息包括所述第二目标框对应的第二候选区域是否为界面元素的判定结果，界面元素类型、界面元素的位置和文字内容等所述文字识别检测信息。

在本实施例通过将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果，进而将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果，进一步地，将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果，最后，将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果。也即，本实施例分别提供了获取所述界面区域分割结果、获取所述界面区域分割结果、获取区域目标和属性检测结果和获取所述文字识别检测结果的方法。也即，由于所述解析结果包括图像识别结果、界面区域分割结果、区域目标识别结果、区域目标属性检测结果和文字识别检测结果，所以，本实施例提供了获取所述解析结果的具体实施方式，为建立所述相对应的界面完整逻辑模型奠定了基础，也即，为解决现有技术中界面逻辑解析不准确和不稳定的技术问题奠定了基础。

参照图5，图5是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图5所示，该界面逻辑解析设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该界面逻辑解析设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图5中示出的界面逻辑解析设备结构并不构成对界面逻辑解析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及界面逻辑解析程序。操作系统是管理和控制界面逻辑解析设备硬件和软件资源的程序，支持界面逻辑解析程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与界面逻辑解析系统中其它硬件和软件之间通信。

在图5所示的界面逻辑解析设备中，处理器1001用于执行存储器1005中存储的界面逻辑解析程序，实现上述任一项所述的界面逻辑解析方法的步骤。

本发明界面逻辑解析设备具体实施方式与上述界面逻辑解析方法各实施例基本相同，在此不再赘述。

本发明还提供一种界面逻辑解析装置，所述界面逻辑解析装置包括：

第二建立模块，用于基于所述界面元素逻辑关系和所述层次划分结果，建立界面完整逻辑模型。

可选地，所述第一建立模块包括：

可选地，所述解析模块包括：

可选地，所述图像分类单元包括：

可选地，所述分割单元包括：

可选地，所述目标检测单元包括：

可选地，所述文字识别单元包括：

本发明界面逻辑解析装置的具体实施方式与上述界面逻辑解析方法各实施例基本相同，在此不再赘述。

本发明提供了一种可读存储介质，所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的界面逻辑解析方法的步骤。

本发明介质具体实施方式与上述界面逻辑解析方法各实施例基本相同，在此不再赘述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利处理范围内。

Claims

1.一种界面逻辑解析方法，其特征在于，所述界面逻辑解析方法包括：

接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果，其中，所述解析结果包括区域目标识别结果、区域目标属性检测结果和文字识别检测结果；

基于预设元素动作库，为所述界面元素识别检测结果对应的各个界面元素配置可执行动作，以基于各个所述界面元素对应的可执行动作，建立所述界面元素逻辑关系；

基于所述解析结果，对所述界面图像中各图像元素进行层次划分，获得层次划分结果，其中，所述图像元素包括界面、界面区域以及界面元素；

通过所述层次划分结果确定所述界面与所述界面区域之间的从属关系和所述界面区域与所述界面元素之间的从属关系，以及通过所述界面元素逻辑关系确定所述界面元素之间的逻辑关系，建立界面完整逻辑模型。

2.如权利要求1所述界面逻辑解析方法，其特征在于，所述预设界面图像解析器包括图像分类模型、图像目标和属性检测模型、图像分割模型和文字识别检测模型，所述解析结果包括图像识别结果、界面区域分割结果、区域目标识别结果、区域目标属性检测结果和文字识别检测结果，

3.如权利要求2所述界面逻辑解析方法，其特征在于，所述将所述界面图像输入所述图像分类模型，以对所述界面图像进行识别和分类，获得所述图像识别结果的步骤包括：

4.如权利要求2所述界面逻辑解析方法，其特征在于，所述将所述界面图像输入所述图像分割模型，以对所述界面图像进行界面区域分割，获得所述界面区域分割结果的步骤包括：

对所述编码结果进行解码，获得所述界面区域分割结果。

5.如权利要求2所述界面逻辑解析方法，其特征在于，所述将进行所述界面区域分割后的所述界面图像输入所述图像目标和属性检测模型，以对所述界面图像中的各界面区域进行目标检测，获得所述区域目标识别结果和所述区域目标属性检测结果的步骤包括：

6.如权利要求2所述界面逻辑解析方法，其特征在于，所述将进行所述界面区域分割后的所述界面图像输入所述文字识别检测模型，以对各所述界面区域进行文字检测，获得所述文字识别检测结果的步骤包括：

对所述多个第二目标框特征图进行全连接，获得各所述第二目标框对应的文字识别检测特征向量，并提取各所述文字识别检测特征向量中的文字识别检测信息，获得所述文字识别检测结果。

7.一种界面逻辑解析装置，其特征在于，所述界面逻辑解析装置应用于界面逻辑解析设备，所述界面逻辑解析装置包括：

解析模块，用于接收界面图像，并将所述界面图像输入预设界面图像解析器，以对所述界面图像进行解析，获得解析结果，其中，所述解析结果包括区域目标识别结果、区域目标属性检测结果和文字识别检测结果；

第一建立模块，用于将所述区域目标识别结果、所述区域目标属性检测结果和所述文字识别检测结果进行合并，获得界面元素识别检测结果；基于预设元素动作库，为所述界面元素识别检测结果对应的各个界面元素配置可执行动作，以基于各个所述界面元素对应的可执行动作，建立所述界面元素逻辑关系；基于所述解析结果，对所述界面图像中各图像元素进行层次划分，获得层次划分结果，其中，所述图像元素包括界面、界面区域以及界面元素；

第二建立模块，用于通过所述层次划分结果确定所述界面与所述界面区域之间的从属关系和所述界面区域与所述界面元素之间的从属关系，以及通过所述界面元素逻辑关系确定所述界面元素之间的逻辑关系，建立界面完整逻辑模型。

8.一种界面逻辑解析设备，其特征在于，所述界面逻辑解析设备包括：存储器、处理器以及存储在存储器上的用于实现所述界面逻辑解析方法的程序，

所述存储器用于存储实现界面逻辑解析方法的程序；

所述处理器用于执行实现所述界面逻辑解析方法的程序，以实现如权利要求1至6中任一项所述界面逻辑解析方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有实现界面逻辑解析方法的程序，所述实现界面逻辑解析方法的程序被处理器执行以实现如权利要求1至6中任一项所述界面逻辑解析方法的步骤。