CN113486910A

CN113486910A - 用于提取数据信息区域的方法、设备和存储介质

Info

Publication number: CN113486910A
Application number: CN202111040990.8A
Authority: CN
Inventors: 杜晓刚
Original assignee: Beijing Ouying Information Technology Co Ltd
Current assignee: Beijing Allin Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-10-08
Anticipated expiration: 2041-09-07
Also published as: CN113486910B

Abstract

本公开的实施例涉及用于提取图形界面中的数据信息区域的方法、设备和存储介质。根据该方法，获取关于图形界面的界面图像，该界面图像包括图形界面的待提取数据信息区域；经由经训练的深度网络学习模型提取界面图像的特征，以预测关于待提取数据信息区域的多个角点定位数据；基于该多个角点定位数据，从多个候选角点中确定待提取数据信息区域的目标角点；基于目标角点的位置，确定从界面图像到待提取数据信息区域的变换矩阵，以便从界面图像中提取待提取数据信息区域。由此，使得能够自动、准确并高效地提取数据信息区域提取数据信息区域。

Description

用于提取数据信息区域的方法、设备和存储介质

技术领域

本公开的实施例总体涉及信息标识领域，具体涉及用于提取图形界面中的数据信息区域的方法、设备和存储介质。

背景技术

诸如医院信息系统（Hospital Information System, HIS）之类的医疗业务系统可通过其图形界面上的病历区域来显示病人的诊疗信息。目前，通常通过人工方式或者通过传统的机器视觉方式来从这种图像界面上提取或裁切病例区域。然而，由于诸如HIS之类的医疗业务系统仅有医生才有访问权限，因此人工方式需要占用医生大量的时间与精力才有可能完成。另外，对于传统的机器视觉方式，虽然其可以实现自动提取或裁切，但是这种方式的鲁棒性较差，容易受到光照环境以及电脑屏幕摩尔纹的干扰，并且很容易出现裁切错误，从而丢失有用的病历文本区域。

因此有必要提供一种从医疗业务系统的图形界面上提取数据信息区域（尤其是病历区域）的方法，使得能够自动、准确并高效地提取这种数据信息区域，以有助于提高医生利用这些诊疗信息来有针对性进行病例研究的效率，进而可推动医疗技术的发展。

发明内容

针对上述问题，本公开提供了一种用于提取数据信息区域的方法和设备，使得能够自动、准确并高效地提取数据信息区域（尤其是诊疗信息区域）。

根据本公开的第一方面，提供了一种用于提取图形界面中的数据信息区域的方法，包括：获取关于图形界面的界面图像，所述界面图像包括所述图形界面的待提取数据信息区域；经由经训练的深度网络学习模型提取所述界面图像的特征，以预测关于待提取数据信息区域的多个角点定位数据，每一角点定位数据都包括与所述待提取数据信息区域的目标边界框相关联的第一数据、与所述待提取数据信息区域的参考角点相关联的第二数据以及与所述待提取数据信息区域的候选角点相关联的第三数据；基于所述多个角点定位数据，从多个候选角点中确定所述待提取数据信息区域的目标角点；基于所述目标角点的位置，确定从所述界面图像到所述待提取数据信息区域的变换矩阵，以便从所述界面图像中提取所述待提取数据信息区域。

根据本公开的第二方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的第一方面所述的方法。

在本公开的第三方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开的第一方面所述的方法。

在一些实施例中，所述第一数据包括所述目标边界框的中心点的预测位置、所述目标边界框的中心点的位置补偿值以及所述目标边界框的高度和宽度，所述第二数据包括所述参考角点相对于所述目标边界框的中心点的位置偏移量，所述第三数据包括所述候选角点的预测位置以及所述候选角点的位置补偿值。

在一些实施例中，所述第一数据还包括所述目标边界框的中心点的置信度，并且所述方法还包括：对于每一角点定位数据，确定所述目标边界框的中心点的置信度是否超过预定阈值；响应于确定所述置信度小于或等于预定阈值，过滤掉所述角点定位数据。

在一些实施例中，从多个候选角点中确定所述待提取数据信息区域的目标角点包括：对于每一角点定位数据，确定与所述角点定位数据相关联的候选角点和参考角点之间的误差；比较所计算的误差，以便将与最小误差相关联的候选角点确定为所述目标角点。

在一些实施例中，对于每一角点定位数据，确定与所述角点定位数据相关联的候选角点和参考角点之间的误差包括：基于所述第一数据确定所述目标边界框的位置；基于所述第二数据确定所述参考角点的位置；基于所述第三数据确定所述候选角点的位置；确定所述候选角点是否位于所述目标边界框之上；以及响应于确定所述候选角点位于所述目标边界框之上，基于所述参考角点的位置和所述候选角点的位置确定所述候选角点和所述参考角点之间的误差。

在一些实施例中，基于所述目标角点的位置，确定从所述界面图像变换到所述待提取数据信息区域的变换矩阵包括：基于所述目标角点的位置，确定所述界面图像的高度和宽度；基于所述界面图像的高度和宽度，确定所述界面图像的界面角点的位置；以及基于所述目标角点的位置和所述界面角点的位置，确定从所述界面图像变换到所述待提取数据信息区域的变换矩阵。

在一些实施例中，基于所述目标角点的位置，确定所述界面图像的高度和宽度包括：基于左上目标角点的位置和右上目标角点的位置确定所述界面图像的顶部宽度；基于左下目标角点的位置和右下目标角点的位置确定所述界面图像的底部宽度；选取所述界面图像的顶部宽度和底部宽度之间的最大值或最小值作为所述界面图像的宽度；基于所述左上目标角点的位置和所述左下目标角点的位置确定所述界面图像的左侧高度；基于所述右上目标角点的位置和所述右下目标角点的位置确定所述界面图像的右侧高度；选取所述界面图像的左侧高度和右侧高度之间的最大值或最小值作为所述界面图像的高度。

在一些实施例中，所述方法还包括：基于多个样本界面图像训练深度网络学习模型，以获得所述经训练的深度网络学习模型，每一样本界面图像包括关于数据信息区域的角点位置的标注点，所述多个样本界面图像是通过对多个历史界面图像进行数据增广获得的。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了用于实现根据本发明的实施例的用于提取数据信息区域的方法的系统100的示意图。

图2示出了根据本公开的实施例的用于提取数据信息区域的方法200的流程图。

图3示出了根据本公开的实施例的目标边界框和参考角点的示意图。

图4示出了根据本公开的实施例的深度网络学习模型400的示意图。

图5示出了根据本公开的实施例的用于确定与角点定位数据相关联的候选角点和参考角点之间的误差的方法500的流程图。

图6示出了根据本公开的实施例的用于确定从界面图像变换到待提取数据信息区域的变换矩阵的方法600的流程图。

图7示出了根据本公开的实施例的电子设备700的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上所述，目前通常通过人工方式或者通过传统的机器视觉方式来从这种图像界面上提取或裁切病例区域，然而这些现有的方式要么需要占用医生大量的时间与精力，要么鲁棒性较差，无法准确地提取有用的病历文本区域。

目前，大数据和人工智能技术日趋成熟，，因此如果能够利用大数据和人工智能技术来自动高效地提取或裁切诊疗信息，以进行大数据分析，将有助于提高医生利用这些诊疗信息来有针对性进行病例研究的效率和准确性，进而可推动医疗技术的发展。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于提取图形界面中的数据信息区域的方法，包括：获取关于图形界面的界面图像，所述界面图像包括所述图形界面的待提取数据信息区域；经由经训练的深度网络学习模型，提取所述界面图像的特征，以预测关于待提取数据信息区域的多个角点定位数据，每一角点定位数据包括与所述待提取数据信息区域的目标边界框相关联的第一数据、与所述待提取数据信息区域的参考角点相关联的第二数据以及与所述待提取数据信息区域的候选角点相关联的第三数据；基于所述多个角点定位数据，从多个候选角点中确定所述待提取数据信息区域的目标角点；基于所述目标角点的位置，确定从所述界面图像到所述待提取数据信息区域的变换矩阵，以便从所述界面图像中提取所述待提取数据信息区域。以此方式，能够自动、准确并高效地提取数据信息区域（尤其是诊疗信息区域）。

在下文中，将结合附图更详细地描述本方案的具体示例。

图1示出了用于实现根据本发明的实施例的用于提取数据信息区域的方法的系统100的示意图。如图1中所示，系统100包括计算设备110、网络120和医疗业务系统130。计算设备110和医疗业务系统130可以通过网络120（例如，因特网）进行数据交互。在本公开中，医疗业务系统130例如可以是用于提供医疗诊断服务的服务提供商的服务器，计算设备110可经由网络120与医疗业务系统130进行通信，以实现对图形界面中的数据信息区域的提取。计算设备110可以包括至少一个处理器112和与该至少一个处理器112耦合的至少一个存储器114，该存储器114中存储有可由该至少一个处理器112执行的指令116，该指令116在被该至少一个处理器112执行时执行如下所述的方法200。注意，在本文中，计算设备110可以是医疗业务系统130的一部分或者可以独立于医疗业务系统130。计算设备110或医疗业务系统130的具体结构例如可以如下结合图7所述。

图2示出了根据本公开的实施例的用于提取数据信息区域的方法200的流程图。方法200可由如图1所示的计算设备110执行，也可以在图7所示的电子设备700处执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤202，计算设备110获取关于图形界面的界面图像，该界面图像包括所述图形界面的待提取数据信息区域。

在本公开中，待提取数据信息区域指的是图形界面中包括有用数据信息的界面区域。例如，在医疗业务系统的图形界面中为包括病人的诊疗信息（即病历文本信息）的病历文本区域。待提取数据信息区域一般为四边形区域，其可以为规则的四边形区域（例如，矩形），也可以为不规则的四边形区域，例如如图3所示的不规则四边形区域303。

在步骤204，计算设备110经由经训练的深度网络学习模型，提取界面图像的特征，以预测关于待提取数据信息区域的多个角点定位数据，每一角点定位数据包括与待提取数据信息区域的目标边界框相关联的第一数据、与待提取数据信息区域的参考角点相关联的第二数据以及与待提取数据信息区域的候选角点相关联的第三数据。

在本公开中，待提取数据信息区域的候选角点包括待提取数据区域的左上候选角点、右上候选角点、左下候选角点和右下候选角点，其表示预测到的目标角点的可能定位。

待提取数据信息区域的目标边界框指的是待提取数据信息区域的最小外接矩形框（例如，如图3所示的外接矩形框301），对其进行预测的目的是为了能够帮助先粗略地定位待提取数据信息区域的各个角点。例如，在本公开中，如果预测到的候选角点没有落在目标边界框之上，就可判定该候选角点必定不是目标角点，从而可将该候选角点排除在考虑范围之外。

在本公开中，待提取数据信息区域的参考角点包括待提取数据区域的左上参考角点、右上参考角点、左下参考角点和右下参考角点，这些参考角点可有助于更细粒度地定位待提取数据信息区域的各个角点。在本公开中，参考角点和候选角点实际上都是对目标角点的预测，因此在理想状况下，它们应该是重合在一起的。但是，由于深度网络学习模型或多或少会存在一定的误差，因此在本公开中，预测到的参考角点与预测到的候选角点之间的误差（例如，可通过欧氏距离来表示）越小，表示预测到的候选角点的精度越高，从而越有可能是目标角点。例如，图3所示，示出了分别与待提取数据信息区域的四个参考角点相关联的四个椭圆302，其中这些椭圆的大小表示候选角点与相应的参考角点之间的欧氏距离。基于以上描述可知，在本公开中，椭圆302越小，表示候选角点的预测精度越高。

在本公开中，为了说明简要的目的，将待提取数据区域的左上参考角点、右上参考角点、左下参考角点和右下参考角点统称为待提取数据区域的一个参考角点，将待提取数据区域的左上候选角点、右上候选角点、左下候选角点和右下候选角点统称为待提取数据区域的一个候选角点，并将待提取数据区域的左上目标角点、右上目标角点、左下目标角点和右下目标角点统称为待提取数据区域的一个目标角点。由此，在本公开中，每一角点定位数据都可与待提取数据区域的一个目标边界定位框、一个参考角点以及一个候选角点相关联。因此，多个角点定位数据与待提取数据区域的多个目标边界定位框、多个参考角点以及多个候选角点相关联。在本公开中，目标角点可基于这些角点定位数据，从多个候选角点中确定。

在一些实施例中，每一角点定位数据的第一数据包括目标边界框的中心点的预测位置、目标边界框的中心点的位置补偿值以及目标边界框的高度（w）和宽度（h），第二数据包括参考角点相对于目标边界框的中心点的位置偏移量，第三数据包括候选角点的预测位置以及候选角点的位置补偿值。

在一些实施例中，目标边界框的中心点的预测位置可包括该中心点在x方向的张量center_x以及该中心点在y方向的张量center_y。目标边界框的中心点的位置补偿值可包括该中心点在x方向的位置补偿值center_x_offset以及该中心点在y方向的位置补偿值center_y_offset。参考角点相对于目标边界框的中心点的位置偏移量可包括左上参考角点在x方向上相对于中心点的位置偏移量cltx_offset, 左上参考角点在y方向上相对于中心点的位置偏移量clty_offset, 右上参考角点在x方向上相对于中心点的位置偏移量crtx_offset, 右下参考角点在y方向上相对于中心点的位置偏移量crty_offset, 右下参考角点在x方向上相对于中心点的位置偏移量crbx_offset, 右下参考角点在y方向上相对于中心点的位置偏移量crby_offset, 左下参考角点在x方向上相对于中心点的位置偏移量clbx_offset, 左下参考角点在y方向上相对于中心点的位置偏移量clby_offset。候选角点的预测位置可包括左上候选角点在x方向上的预测位置ltx, 左上候选角点在y方向上的预测位置lty, 右上候选角点在x方向上的预测位置rtx, 右上候选角点在y方向上的预测位置 rty, 右下候选角点在x方向上的预测位置rbx, 右下候选角点在y方向上的预测位置rby, 左下候选角点在x方向上的预测位置lbx以及左下候选角点在y方向上的预测位置。候选角点的位置补偿值可包括候选角点在x方向上的位置补偿值x_offset以及候选角点在y方向上的位置补偿值y_offset，这两个位置补偿值可以由左上候选角点、右上候选角点、左下候选角点和右下候选角点共享。

在本公开中，由于在深度网络学习模型的下采样过程中，会将界面图像中的点(x,y)对应于特征图中的新位置，具体由点(x, y)和下采样的次数确定，从而在将特征图中的位置重映射到原界面图像时，会丢失一些精度，因此在本公开中目标边界框的中心点以及候选角点的预测位置都需要使用相应的位置补偿值来解决这个问题。下面将结合图4对本公开中的深度网络学习模型作进一步详细的描述。

在一些实施例中，每一角点定位数据的第一数据除了目标边界框的中心点的预测位置、目标边界框的中心点的位置补偿值以及目标边界框的高度和宽度之外，还包括目标边界框的中心点的置信度，通过对目标边界框的中心点的置信度进行预测，可以使得最终确定的目标角点的准确率更高。如果该置信度小于预定阈值，则说明对该相应的目标边界框的预测不够准确，因此为了保证准确率，可将相应的整个角点定位数据都过滤掉。

因此，在一些实施例中，用于提取数据信息区域的方法200还可包括以下步骤：对于每一角点定位数据，确定目标边界框的中心点的置信度是否超过预定阈值；响应于确定该置信度小于或等于预定阈值，过滤掉该角点定位数据。在一些实施例中，预定阈值可设为0.5或更小。

在本公开中，用于提取数据信息区域的方法200还可包括基于多个样本界面图像训练深度网络学习模型，以获得所述经训练的深度网络学习模型，每一样本界面图像包括关于数据信息区域的角点位置的标注点。也就是说，每一样本界面图像都包括关于数据信息区域的左上角点、右上角点、左下角点和右下角点的标注点。

多个样本界面图像是通过对多个历史界面图像进行数据增广获得的。在一些实施例中，可获取图形界面的多个历史界面图像，这些图像界面可以是例如来自各种不同的医疗业务系统的图像界面。对于每一历史界面图像，可对其进行数据增广，例如随机缩放（0.8-1.4）、随机旋转（-10~10）、随机上下或左右翻转、随机添加噪声、随机调整饱和度等，以用于增加样本界面图像，让样本界面图像尽可能的多样化，从而使得经训练的深度网络学习模型具有更强的泛化能力。

在一些实施例中，为了得到预期的训练效果，训练深度网络学习模型可以包括利用多个图形处理单元（Graphics Processing Unit，GPU）（例如，使用4个图形处理器）并行地训练深度网络学习模型达多次，每次训练取预定数量的样本界面图像进行训练（例如，每次取64个样本界面图像进行训练），总共训练预定次数（例如，最大训练次数可以设为320次），并且在训练时初始学习率设为预定值（例如，为0.00025），并且在学习率达到预定值（例如，270或300）时对学习率进行衰减（例如，衰减0.1）。并且，在训练时，优化器可使用adam。

在一些实施例中，如图4所示，本公开所使用的深度网络学习模型400可包括输入图像模块402、骨干网络模块404、编码网络模块406和预测头模块408。

输入图像模块402被配置成对所获取的界面图像进行预处理，以生成界面图像的张量，然后对该张量进行数据归一化，使得该张量所包括的每一元素的值在[0~1]区间范围内。例如，经预处理得到的界面图像的张量的大小可以为例如512*512*3像素。

骨干网络模块404被配置成可基于由输入图像模块402所确定的经数据归一化的张量（tensor），提取界面图像的特征（feature），以便生成包括界面图像的特征的多个特征图，即多个特征张量。在一些实施例中，该骨干网络模块可例如采用ShufflentV2-x0.5、resnet18、resnet34、resnet50、mobilenetv2、mobilenetv3等分类网络。例如，在一些实施例中，骨干网络模块404可以取ShufflentV2-x0.5网络输出的C5层特征作为骨干网络模块404的特征提取输出，C5表示stride=32的下采样特征输出（应了解stride指的是卷积核移动的步长），所以最后C5输出的特征张量大小为例如16*16*1024像素。

编码网络模块406被配置成基于骨干网络模块404所确定的多个特征张量，确定多个编码特征图，即多个编码特征张量。在一些实施例中，编码网络模块406可例如通过三次反卷积操作（ConvTranspose2d），即相当于通过stride=8的上采样操作，对骨干网络模块404输出的多个特征张量进行编码，最终得到编码特征张量。例如在以上示例中，最终得到的每个编码特征张量的大小为例如128*128*256像素。在一些实施例中，编码网络模块406也可使用其他方式来对特征张量进行编码，诸如进行三次双线性上采样，或使用特征图金字塔网络（Feature Pyramid Network，FPN）。

预测头模块408被配置成基于编码网络模块406所确定的每一编码特征图（即，编码特征张量），确定多个张量，基于这些张量可分别预测出相应的角点定位数据所包括的第一数据、第二数据和第三数据。在一些实施例中，预测头模块408包括3X3的卷积核和1x1的卷积核，以对编码网络模块406输出的编码特征图进行处理以确定多个张量，这些张量分别用于预测相应的角点定位数据所包括的第一数据、第二数据和第三数据。例如，在前面提到的示例中，目标边界框的中心点的预测位置可包括在预测头模块408所输出的大小为128*128*1像素的第一张量中，目标边界框的中心点的位置补偿值可包括在预测头模块408所输出的大小为128*128*2像素的第二张量中，目标边界框的高度和宽度可包括在预测头模块所输出的大小为128*128*2像素的第三张量中，候选角点的预测位置可包括在预测头模块所输出的大小为128*128*4的第四张量中，并且候选角点的位置补偿值可包括在预测头模块所输出的大小为128*128*2像素的第五张量中，参考角点相对于目标边界框的中心点的位置偏移量可包括在预测头模块所输出的大小为128*128*8的第六张量中。在本公开中，由于编码网络模块406输出了多个编码特征图，因此对于每一编码特征图，预测头模块408均可预测到相应的角点定位数据。因此，对于一个界面图像，该神经网络模型可预测到多个角点定位数据。

在步骤206，计算设备110基于多个角点定位数据，从多个候选角点中确定待提取数据信息区域的目标角点。

在一些实施例中，步骤206可包括以下子步骤：对于每一角点定位数据，确定与该角点定位数据相关联的候选角点和参考角点之间的误差；从多个候选角点中选择误差最小的候选角点作为目标角点。在一些实施例中，候选角点和参考角点之间的误差可例如使用它们之间的欧氏距离来表示。

下文将结合图5对用于针对每一角点定位数据，确定与角点定位数据相关联的候选角点和参考角点之间的欧氏距离的方法500作进一步更详细的描述。

在步骤208，计算设备110基于目标角点的位置，确定从界面图像到待提取数据信息区域的变换矩阵，以便从界面图像中提取（或裁切）待提取数据信息区域。下文将结合图6对确定与角点定位数据相关联的候选角点和参考角点之间的欧氏距离的方法500作进一步更详细的描述。

图5示出了根据本公开的实施例的用于确定与角点定位数据相关联的候选角点和参考角点之间的误差的方法500的流程图。方法500可由如图1所示的计算设备110执行，也可以在图7所示的电子设备700处执行。应当理解的是，方法500还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤502，基于第一数据确定目标边界框的位置。

在一些实施例中，可基于目标边界框的中心点的预测位置和目标边界框的中心点的位置补偿值确定目标边界框的位置。例如，可基于以下公式（1）-（4）来计算目标边界框的位置。

Box_ltx =( center_x + center_x_offset – (w / 2)) （1）

Box_lty = (center_y+ center_y_offset –(h/2)) （2）

Box_rbx = ( center_x + center_x_offset + (w / 2)) （3）

Box_rby=(center_y+ center_y_offset +(h/2)) （4）

其中， Box_ltx表示目标边界框的左边框，Box_lty表示目标边界框的上边框，Box_rbx表示目标边界框的右边框，Box_rby表示目标边界框的下边框。

由此可知，最终计算得到目标边框的位置可表示为(Box_ltx，Box_lty，Box_rbx，Box_rby）。

在步骤504，基于第二数据确定参考角点的位置。

在一些实施例中，可基于目标边界框的中心点的预测位置和参考角点相对于目标边界框的中心点的位置偏移量来确定参考角点的位置。例如，可基于以下公式（9）-（12）来计算参考角点的位置。

Corner_anchor_ltx = center_x + cltx_offset （5）

Corner_anchor_lty = center_y + clty_offset （6）

Corner_anchor_rtx = center_x + crtx_offset （7）

Corner_anchor_rty = center_y + crty_offset （8）

Corner_anchor_rbx = center_x + crbx_offset （9）

Corner_anchor_rby = center_y + crby_offset （10）

Corner_anchor_lbx = center_x + clbx_offset （11）

Corner_anchor_lby = center_y + clby_offset （12）

其中，Corner_anchor_ltx表示左上参考角点在x方向上的位置，Corner_anchor_lty表示左上参考角点在y方向上的位置，Corner_anchor_rtx表示右上参考角点在x方向上的位置，Corner_anchor_rty表示右上参考角点在y方向上的位置，Corner_anchor_rbx表示右下参考角点在x方向上的位置，Corner_anchor_rby表示右下参考角点在y方向上的位置，Corner_anchor_lbx表示左下参考角点在x方向上的位置，Corner_anchor_lby表示左下参考角点在y方向上的位置。

由此可知，最终计算得到的左上参考角点、右上参考角点、右下参考角点和左下参考角点的位置分别为(Corner_anchor_ltx, Corner_anchor_lty)、(Corner_anchor_rtx,Corner_anchor_rty)、(Corner_anchor_rbx, Corner_anchor_rby)和(Corner_anchor_lbx, Corner_anchor_lby)。

在步骤506，基于第三数据确定候选角点的位置。

在一些实施例中，可基于候选角点的预测位置和候选角点的位置补偿值确定候选角点的位置。例如，可基于以下公式（13）-（20）来计算候选角点的位置。

Corner_cand_ltx=ltx+x_offset （13）

Corner_cand_lty=lty+y_offset （14）

Corner_cand_rtx=rtx+x_offset （15）

Corner_cand_rty=rty+y_offset （16）

Corner_cand_rbx=rbx+x_offset （17）

Corner_cand_rby=rby+y_offset （18）

Corner_cand_lbx=lbx+x_offset （19）

Corner_cand_lby=lby+y_offset （20）

其中，Corner_cand_ltx表示左上候选角点在x方向上的位置，Corner_cand_lty表示左上候选角点在y方向上的位置，Corner_cand_rtx表示右上候选角点在x方向上的位置，Corner_cand_rty表示右上候选角点在y方向上的位置，Corner_cand_rbx表示右下候选角点在x方向上的位置，Corner_cand_rby表示右下候选角点在y方向上的位置，Corner_cand_lbx表示左下候选角点在x方向上的位置，Corner_cand_lby表示左下候选角点在y方向上的位置。

由此可知，最终计算得到的左上候选角点、右上候选角点、右下候选角点和左下候选角点的位置分别为(Corner_cand_ltx, Corner_cand_lty)、(Corner_cand_rtx,Corner_cand_rty)、(Corner_cand_rbx, Corner_cand_rby)和(Corner_cand_lbx,Corner_cand_lby)。

在步骤508，确定候选角点是否在目标边界框之上。

在步骤510，响应于确定候选角点在目标边界框之上，基于参考角点的位置和候选角点的位置确定候选角点和参考角点之间的误差。如上所述，在一些实施例中，候选角点和参考角点之间的误差通过两者之间的欧氏距离来表示。

在步骤512，响应于确定候选角点不在目标边界框之上，则过滤掉该候选角点。该候选角点被过滤掉以后，在确定目标角点时将不再考虑该候选角点，从而有助于提高准确性。

通过以上技术方案，可以快速并准确地确定候选角点和参考角点之间的误差，进而有助于准确并高效地从多个候选角点中确定最终的目标角点。

图6示出了根据本公开的实施例的用于确定从界面图像变换到待提取数据信息区域的变换矩阵的方法600的流程图。方法600可由如图1所示的计算设备110执行，也可以在图7所示的电子设备700处执行。应当理解的是，方法600还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤602，基于目标角点的位置，确定界面图像的高度和宽度。

在一些实施例中，基于左上目标角点的位置和右上目标角点的位置确定所述界面图像的顶部宽度包括：基于左上目标角点的位置和右上目标角点的位置确定界面图像的顶部宽度；基于左下目标角点的位置和右下目标角点的位置确定界面图像的底部宽度；选取所述界面图像的顶部宽度和底部宽度之间的最大值或最小值作为界面图像的宽度；基于左上目标角点的位置和左下目标角点的位置确定界面图像的左侧高度；基于右上目标角点的位置和右下目标角点的位置确定界面图像的右侧高度；选取界面图像的左侧高度和右侧高度之间的最大值或最小值作为界面图像的高度。

在一些实施例中，界面图像的顶部宽度为左上目标角点和右上目标角点之间的欧氏距离，界面图像的底部宽度为左下目标角点和右下目标角点之间的欧氏距离，界面图像的左侧高度为左上目标角点和左下目标角点之间的欧氏距离，并且界面图像的右侧高度为右上目标角点和右下目标角点之间的欧氏距离。

如上所述，在一些实施例中，选取界面图像的顶部宽度和底部宽度之间的最大值作为该界面图像的宽度，并且选取界面图像的左侧高度和右侧高度之间的最大值作为该界面图像的高度。由此，可基于以下公式（21）-（26）来确定界面图像的宽度和高度。

top_width = L2（final_lt,final_rt）（21）

bottom_width = L2(final_lb,final_rb) （22）

left_height=L2(final_lt,final_lb) （23）

right_height=L2(final_rt,final_rb) （24）

HIS_width = max(top_width,bottom_width) （25）

HIS_height = max(left_height,right_height) （26）

其中，final_lt表示左上目标角点，final_rt表示右上目标角点，final_lb表示左下目标角点，final_rb表示右下目标角点，top_width表示界面图像的顶部宽度，bottom_width表示界面图像的底部宽度，left_height表示界面图像的左侧高度，right_height表示界面图像的右侧高度，HIS_width表示界面图像的宽度，HIS_height表示界面图像的高度，L2()表示求欧氏距离，max()表示取最大值。

在另一些实施例中，选取界面图像的顶部宽度和底部宽度之间的最小值作为该界面图像的宽度，并且取界面图像的左侧高度和右侧高度之间的最小值作为该界面图像的高度，因此只需将以上公式（25）-（26）相应地改为求最小值就可以了。

在步骤604，基于界面图像的高度和宽度，确定界面图像的界面角点的位置。

在本公开中，左上界面角点的位置可取为（0,0），右上界面角点的位置可取为（HIS_width-1,0）,右下界面角点的位置可取为（HIS_width-1,HIS_height-1）,并且左下界面角点的位置可取为(0, HIS_height-1)。左上界面角点、右上界面角点、右下界面角点和左下界面角点统称为界面角点，以下用HIS_corners表示。

在步骤606，基于目标角点的位置，确定从界面图像变换到待提取数据信息区域的变换矩阵。

具体地，可基于以下公式（27）来确定变换矩阵。

HIS_corners = M * Final_corners (27)

其中，HIS_corners表示界面角点，Final_corners表示目标角点，M为需要确定的变换矩阵。

在确定了变换矩阵M之后，就可以利用该变换矩阵来从界面图像中提取待提取数据信息区域了（参见以下公式（28）），进而可实现对待提取数据信息区域的裁切。

HIS_Image = M * input_image (28)

其中，input_image表示在步骤202获取的图形界面的界面图像，HIS_Image表示从界面图像中提取的待提取数据信息区域的图像。

通过以上技术方案，可实现对数据信息区域的自动、准确和高效的提取。

图7示出了可以用来实施本公开内容的实施例的示例电子设备700的示意性框图。例如，如图1所示的计算设备110可以由电子设备700来实施。如图所示，电子设备700包括中央处理单元（CPU）701，其可以根据存储在只读存储器（ROM）702中的计算机程序指令或者从存储单元708加载到随机存取存储器（RAM）703中的计算机程序指令，来执行各种适当的动作和处理。在随机存取存储器703中，还可存储电子设备700操作所需的各种程序和数据。中央处理单元701、只读存储器702以及随机存取存储器703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至输入/输出接口705，包括：输入单元706，例如键盘、鼠标、麦克风等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200、500和600，可由中央处理单元701执行。例如，在一些实施例中，方法500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由只读存储器702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到随机存取存储器703并由中央处理单元701执行时，可以执行上文描述的方法200、500和600的一个或多个动作。

本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算机。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于提取图形界面中的数据信息区域的方法，包括：

获取关于图形界面的界面图像，所述界面图像包括所述图形界面的待提取数据信息区域；

经由经训练的深度网络学习模型提取所述界面图像的特征，以预测关于待提取数据信息区域的多个角点定位数据，每一角点定位数据都包括与所述待提取数据信息区域的目标边界框相关联的第一数据、与所述待提取数据信息区域的参考角点相关联的第二数据以及与所述待提取数据信息区域的候选角点相关联的第三数据；

基于所述多个角点定位数据，从多个候选角点中确定所述待提取数据信息区域的目标角点；

基于所述目标角点的位置，确定从所述界面图像到所述待提取数据信息区域的变换矩阵，以便从所述界面图像中提取所述待提取数据信息区域。

2.根据权利要求1所述的方法，其中所述第一数据包括所述目标边界框的中心点的预测位置、所述目标边界框的中心点的位置补偿值以及所述目标边界框的高度和宽度，所述第二数据包括所述参考角点相对于所述目标边界框的中心点的位置偏移量，所述第三数据包括所述候选角点的预测位置以及所述候选角点的位置补偿值。

3.根据权利要求2所述的方法，其中所述第一数据还包括所述目标边界框的中心点的置信度，并且所述方法还包括：

对于每一角点定位数据，确定所述目标边界框的中心点的置信度是否超过预定阈值；

响应于确定所述置信度小于或等于预定阈值，过滤掉所述角点定位数据。

4.根据权利要求1或2所述的方法，其中从多个候选角点中确定所述待提取数据信息区域的目标角点包括：

对于每一角点定位数据，确定与所述角点定位数据相关联的候选角点和参考角点之间的误差；

比较所计算的误差，以便将与最小误差相关联的候选角点确定为所述目标角点。

5.根据权利要求4所述的方法，其中对于每一角点定位数据，确定与所述角点定位数据相关联的候选角点和参考角点之间的误差包括：

基于所述第一数据确定所述目标边界框的位置；

基于所述第二数据确定所述参考角点的位置；

基于所述第三数据确定所述候选角点的位置；

确定所述候选角点是否位于所述目标边界框之上；以及

响应于确定所述候选角点位于所述目标边界框之上，基于所述参考角点的位置和所述候选角点的位置确定所述候选角点和所述参考角点之间的误差。

6.根据权利要求1或2所述的方法，其中基于所述目标角点的位置，确定从所述界面图像变换到所述待提取数据信息区域的变换矩阵包括：

基于所述目标角点的位置，确定所述界面图像的高度和宽度；

基于所述界面图像的高度和宽度，确定所述界面图像的界面角点的位置；以及

基于所述目标角点的位置和所述界面角点的位置，确定从所述界面图像变换到所述待提取数据信息区域的变换矩阵。

7.根据权利要求6所述的方法，其中基于所述目标角点的位置，确定所述界面图像的高度和宽度包括：

基于左上目标角点的位置和右上目标角点的位置确定所述界面图像的顶部宽度；

基于左下目标角点的位置和右下目标角点的位置确定所述界面图像的底部宽度；

选取所述界面图像的顶部宽度和底部宽度之间的最大值或最小值作为所述界面图像的宽度；

基于所述左上目标角点的位置和所述左下目标角点的位置确定所述界面图像的左侧高度；

基于所述右上目标角点的位置和所述右下目标角点的位置确定所述界面图像的右侧高度；

选取所述界面图像的左侧高度和右侧高度之间的最大值或最小值作为所述界面图像的高度。

8.根据权利要求1所述的方法，还包括：

基于多个样本界面图像训练深度网络学习模型，以获得所述经训练的深度网络学习模型，每一样本界面图像包括关于数据信息区域的角点位置的标注点，所述多个样本界面图像是通过对多个历史界面图像进行数据增广获得的。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。