CN118446996A - 页面区域检测方法、装置、设备及存储介质 - Google Patents
页面区域检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118446996A CN118446996A CN202410601454.8A CN202410601454A CN118446996A CN 118446996 A CN118446996 A CN 118446996A CN 202410601454 A CN202410601454 A CN 202410601454A CN 118446996 A CN118446996 A CN 118446996A
- Authority
- CN
- China
- Prior art keywords
- page
- corner
- actual
- detected
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000000903 blocking effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开涉及一种页面区域检测方法、装置、设备及存储介质。该方法包括:获取待检测页面在当前视野下的待处理图像,其中,待检测页面包括显示在待处理图像中的实际角点以及未显示在待处理图像中的虚拟角点;基于实际角点的数量和实际角点所属边的完整度,确定待检测页面是否满足预设的检测条件;若待检测页面满足预设的检测条件,对待处理图像进行角点检测处理,确定待检测页面中的实际角点的位置和虚拟角点的位置;根据实际角点的位置和虚拟角点的位置,从待处理图像的图像区域中获取待检测页面的目标页面区域。这样,提高了页面区域的检测精度,避免待检测页面中的重要信息丢失,则自主学习软件识别到页面中的全部信息。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种页面区域检测方法、装置、设备及存储介质。
背景技术
随着在线教育和互联网技术的发展,越来越多的用户使用自主学习软件进行在线学习。自主学习软件提供了诸如作业批改、听写口算批改、指尖阅读等功能供用户使用,这些功能都依赖于从正在学习的页面的图像中定位出页面的完整区域。
相关技术中,通常采用多边形拉框原理从页面的图像中定位出能够覆盖最大区域的四个点,再基于这四个点绘制出最大覆盖区域作为页面区域。然而,很多情况下,页面的图像中的部分角点被遮挡或者超出了页面的图像而无法显示。因此,基于此种方式确定四个点进行绘制产生的最大覆盖区域与实际的页面的完整区域存在偏差,降低了页面区域的检测精度,使得页面中的部分重要信息丢失,导致自主学习软件无法识别到页面中的全部信息,最终无法准确的把握用户的作答结果。
发明内容
为了解决上述技术问题,本公开提供了一种页面区域检测方法、装置、设备及存储介质。
第一方面,本公开提供了一种页面区域检测方法,包括:
获取待检测页面在当前视野下的待处理图像,其中,所述待检测页面包括显示在所述待处理图像中的实际角点以及未显示在所述待处理图像中的虚拟角点;
基于所述实际角点的数量和实际角点所属边的完整度,确定所述待检测页面是否满足预设的检测条件;
若所述待检测页面满足所述预设的检测条件,对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置;
根据所述实际角点的位置和所述虚拟角点的位置,从所述待处理图像的图像区域中获取所述待检测页面的目标页面区域。
第二方面,本公开提供了一种页面区域检测装置,包括:
获取模块,用于获取待检测页面在当前视野下的待处理图像,其中,所述待检测页面包括显示在所述待处理图像中的实际角点以及未显示在所述待处理图像中的虚拟角点;
判断模块,用于基于所述实际角点的数量和实际角点所属边的完整度,确定所述待检测页面是否满足预设的检测条件;
确定模块,用于若所述待检测页面满足所述预设的检测条件,对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置;
检测模块,用于根据所述实际角点的位置和所述虚拟角点的位置,从所述待处理图像的图像区域中获取所述待检测页面的目标页面区域。
第三方面,本公开实施例还提供了一种电子设备,该设备包括:
处理器;
存储器,用于存储可执行指令;
其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现上述第一方面所提供的方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面所提供的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的一种页面区域检测方法、装置、设备及存储介质,获取待检测页面在当前视野下的待处理图像,其中,待检测页面包括显示在待处理图像中的实际角点以及未显示在待处理图像中的虚拟角点;基于实际角点的数量和实际角点所属边的完整度,确定待检测页面是否满足预设的检测条件;若待检测页面满足预设的检测条件,对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和虚拟角点的位置;根据实际角点的位置和虚拟角点的位置,从待处理图像的图像区域中获取待检测页面的目标页面区域。通过上述方式,首先通过角点检测方式,从满足预设的检测条件的待检测页面中检测出实际角点的位置和虚拟角点的位置,即得到显示在待处理图像上的实际角点的位置、被遮挡的角点的位置或者超出待处理图像的角点的位置,然后结合待处理页面上全部的角点的位置以及待处理图像的图像区域,精准的确定待检测页面的目标页面区域。显然,提高了页面区域的检测精度,避免待检测页面中的部分重要信息丢失,使得自主学习软件能够识别到页面中的全部信息,最终准确的把握用户的作答结果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术提供的一种页面图像的示意图;
图2为本公开实施例提供的一种页面区域检测方法的流程示意图;
图3为本公开实施例提供的一种页面图像的示意图;
图4为本公开实施例提供的另一种页面图像的示意图;
图5为本公开实施例提供的又一种页面图像的示意图;
图6为本公开实施例提供的S130中“对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和虚拟角点的位置”的流程示意图;
图7为本公开实施例提供的一种角点检测模型的训练方法的流程示意图;
图8为本公开实施例提供的一种页面区域检测装置的结构示意图;
图9为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在用户使用自主学习软件学习过程中,获取用户作答的页面的图像,并从该页面图像中检测页面区域,然后基于页面区域中的完整信息确定用户作答结果。
由于拍摄视角以及页面的部分位置被遮挡物遮挡,会获取到图1所示的页面图像,该页面图像的图像区域用100表示,用户作答的页面用200(粗实线)表示。为了尽可能的获取到页面的完整信息,相关技术采用基于多边形拉框原理确定最大覆盖区域,具体方式为:用户通过观察从样本页面图像中选择能够最大程度覆盖页面区域的四个点(如图1中的A、B、C、D),并将这四个点进行标注以及连接形成多边形,作为页面区域(粗虚线)300,然后,利用样本页面图像与标注的四个点进行模型训练,使得模型学习到基于多边形拉框原理定位页面的四个点,进一步的,利用训练好的模型对任意一张页面图像进行处理,以实现利用多边形拉框原理定位页面的四个点,再基于四个点绘制页面图像的页面区域。
然而,基于此种方式确定的四个点与页面真实的角点不一定相同,因此,基于这四个点进行绘制产生的最大覆盖区域与实际的页面的完整区域存在偏差,导致页面区域的检测精度较低,使得页面中的重要信息发生丢失。
为了解决上述问题,下面结合图2至图6对本公开实施例提供的页面区域检测方法进行说明。在本公开实施例中,该页面区域检测方法可以由电子设备或者服务器执行。其中,电子设备可以包括平板电脑、台式计算机、笔记本电脑等具有通信功能的设备,也可以包括虚拟机或者模拟器模拟的设备。服务器可以包括服务器集群以及云服务器。下面,以电子设备作为执行主体,对页面区域检测方法进行具体的解释。
图2示出了本公开实施例提供的一种页面区域检测方法的流程示意图。
如图2所示,该页面区域检测方法可以包括如下步骤。
S210、获取待检测页面在当前视野下的待处理图像,其中,待检测页面包括显示在待处理图像中的实际角点以及未显示在待处理图像中的虚拟角点。
在本实施例中,当学习软件需要检测用户的作答结果是否正确时,该学习软件的电子设备获取待检测页面在当前视野下的图像,作为待处理图像。由于拍摄视角不佳以及页面的部分位置被遮挡物遮挡等原因,会导致待检测页面的部分角点(即实际角点)能够在待处理图像中显示,但另一部分角点(即虚拟角点)不能在待处理图像中显示。
其中,待检测页面是指需要进行页面区域检测的原始页面,其具体可以是用户作答的作业纸,还可以是其他场景下的页面。
其中,当前视野是指对待检测页面的拍摄范围,其具体可以根据拍摄装置与待检测页面的相对位姿确定。
其中,待处理图像是指当前视野下包含待检测页面的图像,其可以包括待检测页面、遮挡物以及不遮挡待检测页面的其他物体。
其中,实际角点是指未被遮挡物遮挡且未超出待处理图像的图像区域的角点,则实际角点能够在待处理图像中显示;相反的,虚拟角点是指被遮挡物遮挡或者超出待处理图像的图像区域的角点,则虚拟角点无法在待处理图像中显示。
例如,假设将图3所示的页面图像作为待检测页面的待处理图像,待检测页面的左上角点A和右下角点C未被遮挡物遮挡也未超出待处理图像的图像区域100,即左上角点A和右下角点C能够在待处理图像中显示,则将待检测页面200的左上角点A和右下角点C看作待检测页面200的实际角点;相反的,待检测页面200的左下角点D’被遮挡物遮挡,同时,待检测页面200的右上角点B’超出待处理图像的图像区域100,即左下角点D’和右上角点B’不能在待处理图像中显示,则将待检测页面200的左下角点D’和右上角点B’看作待检测页面200的虚拟角点。
S220、基于实际角点的数量和实际角点所属边的完整度,确定待检测页面是否满足预设的检测条件。
在本实施例中,电子设备首先对待处理图像进行分辨率处理和归一化处理,然后,从处理后的待处理图像中检测待检测页面的实际角点的数量,并确定实际角点所属边的完整度,然后,结合实际角点的数量和实际角点所属边的完整度,判断待检测页面是否满足预设的检测条件,如果待检测页面满足预设的检测条件,则执行S230,否则,提示用户调整视野或者移开遮挡物后重新获取待检测页面的待处理图像。
其中,实际角点的数量即为显示在待处理图像中的角点的数量。具体的,电子设备通过对待处理图像进行角点检测确定。
其中,实际角点所属边的完整度可以理解为实际角点在待检测页面上原本对应的边的完整程度。具体的,若实际角点在待检测页面上原本对应的边被遮挡物完全覆盖或者完全超出了待处理图像的图像区域,则确定实际角点所属边的完整度为0;若实际角点在待检测页面上原本对应的边被遮挡物未完全覆盖或者未完全超出待处理图像的图像区域,则确定实际角点所属边的完整度大于0。
示例性的,继续将图3所示的页面图像作为待检测页面的待处理图像,待检测页面200包括实际角点A、实际角点C、虚拟角点B’、虚拟角点D’,则待检测页面200表示为AB’CD’,实际角点A所属的上边完全超出了待处理图像的图像区域100,实际角点C所属的右边部分超出了待处理图像的图像区域100,实际角点A所属的左边和实际角点C所属的下边被遮挡物均未完全覆盖,则确定实际角点A所属的上边的完整度为0、实际角点A所属的左边的完整度大于0、实际角点C所属下边的完整度大于0以及实际角点C所属右边的完整度大于0。
示例性的,假设将图4所示的页面图像作为待检测页面的待处理图像,待检测页面200包括实际角点A、C、D以及虚拟角点B’,待检测页面200表示为AB’CD,实际角点A所属的上边完全超出了待处理图像的图像区域100,实际角点C所属的右边被遮挡物未完全覆盖,因此,确定实际角点A所属的上边的完整度为0,确定实际角点C所属的右边的完整度大于0。
示例性的,假设将图5所示的页面图像作为待检测页面的待处理图像,待检测页面200包括实际角点A、B、C以及虚拟角点D’,待检测页面200表示为ABCD’,实际角点A所属的左边和实际角点C所属的下边被遮挡物未完全覆盖,因此,确定实际角点A所属的左边和实际角点C所属的下边的完整度均大于0。
在本实施例中,S220的具体实现方法包括但不限于如下方式:如果实际角点的数量为至少两个,并且,至多一个实际角点所属边的完整度为0,则确定待检测页面满足预设的检测条件。
可以理解的是,如果实际角点的数量为至少两个,并且,至多一个实际角点所属边的完整度为0,则说明待检测页面显示了足够多的特征,则可以基于待处理图像中显示的特征,从待处理图像中或者待处理图像外确定待检测页面的虚拟角点。
示例性的,继续将图3所示的页面图像作为待检测页面的待处理图像,待检测页面的实际角点的数量为两个,并且,只有一个实际角点所属边的完整度为0,则说明定该待检测页面满足预设的检测条件;继续将图4所示的页面图像作为待检测页面的待处理图像,待检测页面的实际角点的数量为三个,并且,只有一个实际角点所属边的完整度为0,则说明定该待检测页面满足预设的检测条件;继续将图5所示的页面图像作为待检测页面的待处理图像,待检测页面的实际角点的数量为三个,并且,各个实际角点所属边的完整度均大于0,则说明定该待检测页面满足预设的检测条件。
在其他情况下,如果实际角点的数量为两个,并且,至少两个实际角点所属边的完整度为0,则确定待检测页面不满足预设的检测条件;在又一些情况下,如果实际角点的数量为一个,则直接确定待检测页面不满足预设的检测条件。
S230、若待检测页面满足预设的检测条件,对待处理图像进行角点检测处理,确定待检测页面中的实际角点的位置和虚拟角点的位置。
在本实施例中,如果确定待检测页面满足了预设的检测条件,则电子设备调用特定的角点检测方式,确定待检测页面中的实际角点的位置和虚拟角点的位置。
其中,实际角点的位置可以是实际角点在图像坐标系下的坐标数据,虚拟角点的位置可以是虚拟角点在图像坐标系下的坐标数据。例如,如图3所示,若角点检测模型预测出待检测页面中实际角点A、C以及虚拟角点B’、D’分别对应的位置,将实际角点A表示为(x1,y1),将虚拟角点B’表示为(x2,y2),将实际角点C表示为(x3,y3),将虚拟角点D’表示为(x4,y4)。
在一些实施例中,电子设备调用预先训练的角点检测模型,对待处理图像进行角点检测处理,确定待检测页面中的实际角点的位置和虚拟角点的位置。相应的,在本实施例中,S230的具体实现方式包括但不限于如下方式:基于角点检测模型中的骨干网络,提取待处理图像的高级语义信息和低级语义信息;基于角点检测模型中的融合网络,对待处理图像的高级语义信息和低级语义信息进行融合处理,得到待处理图像的特征融合信息;基于角点检测模型中的定位网络,对待处理图像的特征融合信息中包含的实际角点的特征和实际角点所属边的特征进行处理,确定实际角点的位置和虚拟角点的位置。
其中,角点检测模型可以包括但不限于轻量级目标检测模型(如PP-PicoDet),其包含的骨干网络具体可以是轻量高性能骨干网络(PP-LCNet),其包含的融合网络可以是轻量级高低层特征融合(CSP-PAN),其包含的定位网络可以是任意一种具有定位功能的网络。
在另一些实施例中,电子设备首先调用角点检测算法,对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和实际角点所属边上实际端点的位置,然后,基于实际角点的位置和实际角点所属边上实际端点的位置,确定待检测页面中虚拟角点的位置。
这样,通过不同的角点检测方式,准确的识别出待检测页面中的实际角点和虚拟角点,即使面对复杂的遮挡以及视野丢失等问题,也能实现高效且准确的检测出页面的四个角点。
S240、根据实际角点的位置和虚拟角点的位置,从待处理图像的图像区域中获取待检测页面的目标页面区域。
在本实施例中,电子设备基于实际角点的位置和虚拟角点的位置,对待检测页面的实际角点和虚拟角点进行区域构建,得到构建好的页面区域,然后,将构建好的页面区域直接作为待检测页面的目标页面区域,或者,结合待处理图像的图像区域与构建好的页面区域,共同确定待检测页面的目标页面区域。
其中,目标页面区域是指待检测页面真实的页面区域,其由实际角点和虚拟角点这四个角点围成且不超出待处理图像。
通常情况下,由实际角点和虚拟角点这四个角点构建的页面区域并不对应于待处理图像中实际的页面区域,即构建好的页面区域不能直接作为待检测页面的目标页面区域,需要对构建好的页面区域进行一定的处理之后才能输出。为了提高页面区域的检测精度,本实施例结合待处理图像的图像区域与构建好的页面区域,共同确定待检测页面的目标页面区域。
在本实施例中,S240的具体实现方式包括但不限于如下方式:基于实际角点的位置和虚拟角点的位置,对待检测页面的实际角点和虚拟角点进行区域构建,形成初始页面区域;从初始页面区域中获取属于待处理图像的图像区域的交集像素点;基于交集像素点的位置进行区域构建,形成待检测页面的目标页面区域。
其中,交集像素点是指同时属于初始页面区域和待处理图像的图像区域的像素点。
具体的,电子设备将待检测页面的实际角点和虚拟角点这四个角点依次连接以进行区域构建,形成初始页面区域,该初始页面区域表示为I(x1,y1,x2,y2,x3,y3,x4,y4),与此同时,电子设备基于区域检测方法检测待处理图像的图像区域,该图像区域表示为Isrc,然后,对初始页面区域I(x1,y1,x2,y2,x3,y3,x4,y4)和待处理图像的图像区域Isrc进行交集计算,以实现从初始页面区域I(x1,y1,x2,y2,x3,y3,x4,y4)中获取属于待处理图像的图像区域Isrc的交集像素点,得到待检测页面的目标页面区域,该待检测页面的目标页面区域表示为Iinter。由此,待检测页面的目标页面区域可以通过如下方式表示:
Iinter=I(x1,y1,x2,y2,x3,y3,x4,y4)∩Isrc
这样,基于待检测页面的实际角点和虚拟角点构建了初始页面区域之后,通过对待处理图像的图像区域于初始页面区域取交集的方式,来确定待检测页面的目标页面区域,提高了页面区域的检测精度,也增强了角点检测模型在处理复杂场景时的适应性。
本公开实施例提供了一种页面区域检测方法,包括:获取待检测页面在当前视野下的待处理图像,其中,待检测页面包括显示在待处理图像中的实际角点以及未显示在待处理图像中的虚拟角点;基于实际角点的数量和实际角点所属边的完整度,确定待检测页面是否满足预设的检测条件;若待检测页面满足预设的检测条件,对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和虚拟角点的位置;根据实际角点的位置和虚拟角点的位置,从待处理图像的图像区域中获取待检测页面的目标页面区域。通过上述方式,首先通过角点检测方式,从满足预设的检测条件的待检测页面中检测出实际角点的位置和虚拟角点的位置,即得到显示在待处理图像上的实际角点的位置、被遮挡的角点的位置或者超出待处理图像的角点的位置,然后结合待处理页面上全部的角点的位置以及待处理图像的图像区域,精准的确定待检测页面的目标页面区域。显然,提高了页面区域的检测精度,避免待检测页面中的部分重要信息丢失,使得自主学习软件能够识别到页面中的全部信息,最终准确的把握用户的作答结果。
在本公开另一种实施方式中,对S130中“对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和虚拟角点的位置”的实现方式进行具体的解释。
图6示出了本公开实施例提供的S130中“对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和虚拟角点的位置”的流程示意图。
如图6所示,该S130中“对待处理图像进行角点检测处理,确定待检测页面中实际角点的位置和虚拟角点的位置”可以包括如下步骤。
S610、根据待处理图像中像素点的第一像素值和像素点的各个邻域像素点的第二像素值,确定待检测页面中实际角点的位置和实际角点所属边上实际端点的位置。
在本实施例中,电子设备调用预设的角点检测算法(如Harris算法)获取待处理图像中像素点的第一像素值和像素点的各个邻域像素点的第二像素值,并根据第一像素值和第二像素值,确定待检测页面中实际角点的位置和实际角点所属边上实际端点的位置。
其中,S610的具体实现方法包括但不限于如下方式:计算像素点的第一像素值与像素点的各个邻域像素点的第二像素值的像素值之差;如果像素值之差大于预设阈值,则确定像素点为待检测页面的实际端点和实际角点所属边上实际端点;基于像素点的坐标数据,确定实际角点的位置和实际角点所属边上实际端点的位置。
可以理解的是,待检测页面内的像素点为待处理图像的前景像素点,待检测页面外的像素点为待处理图像的背景像素点,因此,如果待检测页面的实际端点和实际角点位于待检测页面的边界上,实际端点的像素值与其邻域像素点的像素值的差较大,并且,实际角点的像素值与其邻域像素点的像素值的差较大。
这样,对于待处理图像中的任意一个像素点,计算其对应的第一像素值与其各个邻域像素点的第二像素值之间的像素值之差,如果像素值之差大于预设阈值,则说明该像素点的像素值与其邻域像素点的像素值的差较大,确定该像素点为待检测页面的实际端点和实际角点所属边上实际端点。
进一步的,为了准确的区分出待检测页面的实际端点和实际角点,电子设备预先根据待检测页面相对于相机的位姿,确定图像坐标系,具体是,待检测页面的中心点可以作为图像坐标系的原点,基于相邻两条边的方向确定图像坐标系的x坐标轴和y坐标轴,并在垂直于待检测页面的方向确定图像坐标系的z坐标轴;与此同时,电子设备获取待检测页面的尺寸并基于该尺寸确定实际角点的坐标范围。然后,电子设备获取大于预设阈值的像素值之差对应的目标像素点,并确定实际角点的坐标范围中是否存在目标像素点的坐标数据,若存在,则将目标像素点作为实际角点,并将像素值之差大于预设阈值的除了实际角点之外的其他像素点作为实际端点。
示例性的,继续参见图3,假设电子设备确定的图像坐标系的坐标原点为AB’CD’的中心点(图3未示出),图像坐标系的x坐标轴为以中心点为起点,沿着平行于D’C形成的射线(图3未示出),图像坐标系的y坐标轴为以中心点为起点,沿着平行于CB’的射线(图3未示出),图像坐标系的z坐标轴为以中心点为起点,垂直于待检测页面200的射线(图3未示出),待检测页面200为8*6的页面,待检测页面的实际角点的坐标为(-4,-3)、(4,-3)、(4,3)、(-4,3),若电子设备获取到大于预设阈值的像素值之差的像素点包括A、b、C、c、d,其中,像素点A的坐标数据为(-4,3),像素点b的坐标数据为(4,2.4)、像素点C的坐标数据为(4,-3),像素点c的坐标数据为(-3.6,-3),像素点d的坐标数据为(-4,-1.2),通过对比上述坐标可知,像素点A和像素点C属于目标像素点,二者可以作为待检测页面200的实际角点,像素点b、c、d不属于目标像素点,这三个像素点作为待检测页面200的实际端点。
进一步的,电子设备确定了实际角点之后,将实际角点的坐标数据作为实际角点的位置,同时,将实际端点的坐标数据作为实际端点的位置。示例性的,图3中的实际角点A(即像素点A)的位置为(-4,3),实际角点C(即像素点C)的位置为(4,-3),实际端点b(即像素点b)的位置为(4,2.4),实际端点c(即像素点c)的位置为(-3.6,-3),实际端点d(即像素点d)的位置为(-4,-1.2)。
由此,基于各像素点的第一像素值及各个邻域像素点的像素值,确定待检测页面的实际角点和实际端点,并结合对待检测页面的实际角点预先确定的坐标,准确的区分出实际角点的位置和实际端点的位置。
S620、基于实际角点的位置和实际角点所属边上实际端点的位置,确定待检测页面中虚拟角点的位置。
在本实施例中,电子设备通过对实际角点的位置和实际角点所属边上实际端点的位置进行几何运算,确定待检测页面中虚拟角点的位置。
在一些实施例中,S620的具体实现方法包括但不限于如下方式:对于待检测页面中完整度均大于0且小于1的相邻两条不完整边,基于每条不完整边上实际角点的位置和实际角点所属边上实际端点的位置,确定每条不完整边对应的直线;获取相邻两条不完整边对应的直线之间的第一交点,并将第一交点的坐标数据作为虚拟角点的位置。
为了便于理解,继续参见图3,图3中待检测页面的实际角点的数量为2个,分别为实际角点A和实际角点C,并且,只有实际角点A所属的上边的完整度为0,实际角点C所属边Cb、实际角点C所属边Cc以及实际角点A所属边Ad的完整度均大于0且小于1,实际角点A所属的边Ad和实际角点C所属边Cc为两条相邻的不完整边,则基于不完整边Ad上的实际角点A和实际端点d作对应的直线以及不完整边Cc上的实际角点C和实际端点c作对应的直线,得到相邻两条不完整边分别对应的直线,即得到不完整边Ad对应的直线和不完整边Cc对应的直线,接着,确定不完整边Ad对应的直线和不完整边Cc对应的直线之间的第一交点D’,并将第一交点D’作为虚拟角点D’。
继续参见图5,图5中待检测页面的实际角点的数量为3个,该样本页面存在两条相邻的不完整边(即实际角点A所属的边Ad和实际角点C所属边Cc),并且,这两条相邻的不完整边的完整度均大于0且小于1,则基于不完整边Ad上的实际角点A和实际端点d作对应的直线,并基于不完整边Cc上的实际角点C和实际端点c作对应的直线,得到相邻两条不完整边分别对应的直线,即得到不完整边Ad对应的直线和不完整边Cc对应的直线;接着,确定不完整边Ad对应的直线和不完整边Cc对应的直线之间的第一交点D’,并将第一交点D’作为虚拟角点D’。
在另一些实施例中,S620的具体实现方法包括但不限于如下方式:对于完整度大于0且小于1的一条不完整边,基于不完整边上实际角点的位置和实际角点所属边上实际端点的位置,确定不完整边对应的直线;基于不属于不完整边上且与实际端点相邻的实际角点的位置,确定不完整边对应的直线的垂线;获取垂线与不完整边对应的直线之间的第二交点,并将第二交点的位置作为虚拟角点的位置。
为了便于理解,继续参见图3,图3中待检测页面的实际角点的数量为2个,分别为实际角点A和实际角点C,并且,只有实际角点A所属的上边的完整度为0,实际角点C所属的右边Cb、实际角点C所属的下边Cc以及实际角点A所属的左边Ad的完整度均大于0且小于1。对于完整度大于0且小于1的实际角点C所属的不完整边Cb,基于不完整边Cb上的实际角点C和实际端点b作对应的直线,然后,基于不属于不完整边Cb上且与实际端点b相邻的实际角点A,确定不完整边Cb对应的直线的垂线AB’,最后,获取不完整边Cb对应的直线与该垂线AB’的第二交点B’,并将第二交点B’作为虚拟角点B’。
继续参见图4,图4中待检测页面的实际角点的数量为3个,该待检测页面存在一条相邻的不完整边(即实际角点C所属边Cb),并且,这条不完整边的完整度大于0且小于1,则基于不完整边Cb上的实际角点C和实际端点b作对应的直线,得到不完整边Cb对应的直线,然后,基于不属于不完整边Cb上且与实际端点b相邻的实际角点A,确定不完整边Cb对应的直线的垂线AB’,最后,获取不完整边Cb对应的直线与该垂线AB’的第二交点B’,并将第二交点B’作为虚拟角点B’。
这样,对于满足预设的检测条件的待检测页面,根据待检测页面中不同实际边的完整度、不完整边的数量以及不完整边上实际角点的位置,采用不同的几何计算方式确定待检测页面的虚拟角点,即使面对复杂的遮挡、视野丢失等视觉环境中,也能实现高效且准确的标定虚拟角点,相比于依赖用户手动确定虚拟角点以绘制多边形拉框的方式,提高了角点标定精度。
在本公开又一种实施方式中,对角点检测模型的训练过程进行具体的解释。
图7示出了本公开实施例提供的一种角点检测模型的训练方法的流程示意图。
如图7所示,该角点检测模型的训练方法可以包括如下步骤。
S710、获取样本页面在不同视角下的样本图像,其中,样本页面包括显示在样本图像中的实际角点以及未显示在样本图像中的虚拟角点,并且样本页面是满足预设的检测条件的训练数据。
在本实施例中,电子设备进行模型训练之前,获取不同的页面以及页面在不同视角下的原始图像。为了使得训练好的角点检测模型能够实现角点检测,获取原始图像中页面的实际角点的数量和实际角点所属边的完整度,然后,如果页面的实际角点的数量至少为两个,并且,至多一个实际角点所属边的完整度为0,则确定该页面符合预设的检测条件,将这些页面作为样本页面,并获取样本页面在对应视角下的页面图像。
S720、基于样本页面的实际角点的位置和实际角点所属边上的实际端点的位置,确定样本页面的虚拟角点的位置,其中,实际端点包括样本页面与遮挡物的交线的端点和/或样本页面与样本图像的交线的端点。
在本实施例中,在获取到样本页面及其对应的样本图像之后,可以对样本图像进行分辨率处理以及归一化处理,然后确定处理后的样本图像中样本页面的实际角点的位置和虚拟角点的位置。可以理解的是,由于样本页面的虚拟角点未显示在样本图像中,电子设备无法直接确定虚拟角点的位置,只能通过分析实际角点的位置和实际角点所属边上的实际端点的位置进行确定。其中,实际端点可以是样本页面与遮挡物的交线的端点,也可以是样本页面与样本图像的交线的端点。
需要说明的是,基于样本页面的实际角点的位置和实际角点所属边上的实际端点的位置,确定样本页面的虚拟角点的位置的具体方式,可以参见上述实施例,在此不做赘述。
S730、基于样本图像、样本页面的实际角点的位置和样本页面的虚拟角点的位置,迭代训练初始模型,直至当前训练次数下的初始模型满足预设的迭代停止条件,得到角点检测模型。
在本实施例中,将样本图像作为初始模型的输入端数据,将样本页面的实际角点的位置和样本页面的虚拟角点的位置作为初始模型的输出端数据,利用初始模型对输入端数据进行角点预测,得到预测角点的位置,然后,将预测角点的位置、实际角点的位置以及虚拟角点的位置,输入预设的损失函数以计算损失值,最后,基于损失值迭代训练初始模型,直至当前训练次数下的损失值小于或等于预设的损失值阈值,则确定当前训练次数下的初始模型满足预设的迭代停止条件,得到角点检测模型。
可选的,本实施例采用的损失函数包括但不限于交叉熵损失函数、均方误差损失等和位置损失函数如均方误差损失、平均绝对误差损失等,在此不做限定。
通过上述方式,对于存在遮挡、视野丢失的样本页面,对于样本页面的实际角点的位置和实际角点所属边上的实际端点的位置,采用几何运算方式,标定出样本页面的虚拟角点的位置,然后基于样本页面的虚拟角点的位置、实际端点的位置以及样本图像,迭代训练出具有角点检测功能的高精度模型。
本公开实施例还提供了一种用于实现上述的页面区域检测方法的页面区域检测装置,页面区域检测装置可以是电子设备或者服务器。其中,电子设备可以包括平板电脑、台式计算机、笔记本电脑等具有通信功能的设备,也可以包括虚拟机或者模拟器模拟的设备。服务器可以包括服务器集群以及云服务器。下面结合图8进行说明。
图8示出了本公开实施例提供的一种页面区域检测装置的结构示意图。
如图8所示,页面区域检测装置800可以包括:
获取模块810,用于获取待检测页面在当前视野下的待处理图像,其中,所述待检测页面包括显示在所述待处理图像中的实际角点以及未显示在所述待处理图像中的虚拟角点;
判断模块820,用于基于所述实际角点的数量和实际角点所属边的完整度,确定所述待检测页面是否满足预设的检测条件;
确定模块830,用于若所述待检测页面满足所述预设的检测条件,对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置;
检测模块840,用于根据所述实际角点的位置和所述虚拟角点的位置,从所述待处理图像的图像区域中获取所述待检测页面的目标页面区域。
本公开实施例的一种页面区域检测装置,包括:获取待检测页面在当前视野下的待处理图像,其中,待检测页面包括显示在待处理图像中的实际角点以及未显示在待处理图像中的虚拟角点;基于实际角点的数量和实际角点所属边的完整度,确定待检测页面是否满足预设的检测条件;若待检测页面满足预设的检测条件,对待处理图像进行角点检测处理,确定待检测页面中的实际角点的位置和虚拟角点的位置;根据实际角点的位置和虚拟角点的位置,从待处理图像的图像区域中获取待检测页面的目标页面区域。通过上述方式,首先通过角点检测方式,从满足预设的检测条件的待检测页面中检测出实际角点的位置和虚拟角点的位置,即得到显示在待处理图像上的实际角点的位置、被遮挡的角点的位置或者超出待处理图像的角点的位置,然后结合待处理页面上全部的角点的位置以及待处理图像的图像区域,精准的确定待检测页面的目标页面区域。显然,提高了页面区域的检测精度,避免待检测页面中的部分重要信息丢失,使得自主学习软件能够识别到页面中的全部信息,最终准确的把握用户的作答结果。
在一些可选的实施例中,确定模块830,包括:
第一确定单元,用于根据待处理图像中像素点的第一像素值和像素点的各个邻域像素点的第二像素值,确定所述待检测页面中实际角点的位置和实际角点所属边上实际端点的位置;
第二确定单元,用于基于所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定所述待检测页面中虚拟角点的位置。
在一些可选的实施例中,第一确定单元,具体用于:
计算所述像素点的第一像素值与所述像素点的各个邻域像素点的第二像素值的像素值之差;
如果所述像素值之差大于预设阈值,则确定所述像素点为所述待检测页面的实际端点和所述实际角点所属边上实际端点;
基于所述像素点的坐标数据,确定所述实际角点的位置和所述实际角点所属边上实际端点的位置。
在一些可选的实施例中,第二确定单元,具体用于:
对于所述待检测页面中完整度均大于0且小于1的相邻两条不完整边,基于每条不完整边上所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定每条不完整边对应的直线;
获取相邻两条不完整边对应的直线之间的第一交点,并将所述第一交点的坐标数据作为所述虚拟角点的位置。
在一些可选的实施例中,第二确定单元,具体用于:
对于完整度大于0且小于1的一条不完整边,基于所述不完整边上所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定所述不完整边对应的直线;
基于不属于所述不完整边上且与所述实际端点相邻的实际角点的位置,确定所述不完整边对应的直线的垂线;
获取所述垂线与所述不完整边对应的直线之间的第二交点,并将所述第二交点的位置作为所述虚拟角点的位置。
在一些可选的实施例中,确定模块830,包括:
提取单元,用于基于角点检测模型中的骨干网络,提取所述待处理图像的高级语义信息和低级语义信息;
融合单元,用于基于角点检测模型中的融合网络,对所述待处理图像的高级语义信息和低级语义信息进行融合处理,得到所述待处理图像的特征融合信息;
第三确定单元,用于基于角点检测模型中的定位网络,对所述待处理图像的特征融合信息中包含的实际角点的特征和实际角点所属边的特征进行处理,确定所述实际角点的位置和所述虚拟角点的位置。
在一些可选的实施例中,判断模块820,具体用于:
如果所述实际角点的数量为至少两个,并且,至多一个实际角点所属边的完整度为0,则确定所述待检测页面满足所述预设的检测条件。
在一些可选的实施例中,检测模块840,包括:
区域构建单元,用于基于所述实际角点的位置和所述虚拟角点的位置,对所述待检测页面的实际角点和虚拟角点进行区域构建,形成初始页面区域;
交集像素点获取单元,用于从所述初始页面区域中获取属于所述待处理图像的图像区域的交集像素点;
页面区域检测单元,用于基于所述交集像素点的位置进行区域构建,形成所述待检测页面的目标页面区域。
需要说明的是,图8所示的页面区域检测装置800可以执行图2-6所示的方法实施例中的各个步骤,并且实现图2-6所示的方法实施例中的各个过程和效果,在此不做赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序,计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
参考图9,现将描述可以作为本公开的服务端或客户端的电子设备900的结构框图,其是可以应用于本公开的各方面的硬件设备的示例,该电子设备900可以是上述第一设备或者第二设备。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务端、刀片式服务端、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM903中,还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向电子设备900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如,在一些实施例中,页面区域检测方法或者安装程序运行方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到电子设备900上。在一些实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行页面区域检测方法或者安装程序运行方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务端上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务端)、或者包括中间件部件的计算系统(例如,应用服务端)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务端。客户端和服务端一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务端关系的计算机程序来产生客户端和服务端的关系。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种页面区域检测方法,其特征在于,包括:
获取待检测页面在当前视野下的待处理图像,其中,所述待检测页面包括显示在所述待处理图像中的实际角点以及未显示在所述待处理图像中的虚拟角点;
基于所述实际角点的数量和实际角点所属边的完整度,确定所述待检测页面是否满足预设的检测条件;
若所述待检测页面满足所述预设的检测条件,对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置;
根据所述实际角点的位置和所述虚拟角点的位置,从所述待处理图像的图像区域中获取所述待检测页面的目标页面区域。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置,包括:
根据待处理图像中像素点的第一像素值和像素点的各个邻域像素点的第二像素值,确定所述待检测页面中实际角点的位置和实际角点所属边上实际端点的位置;
基于所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定所述待检测页面中虚拟角点的位置。
3.根据权利要求2所述的方法,其特征在于,所述根据待处理图像中像素点的第一像素值和像素点的各个邻域像素点的第二像素值,确定所述待检测页面中实际角点的位置和实际角点所属边上实际端点的位置,包括:
计算所述像素点的第一像素值与所述像素点的各个邻域像素点的第二像素值的像素值之差;
如果所述像素值之差大于预设阈值,则确定所述像素点为所述待检测页面的实际端点和所述实际角点所属边上实际端点;
基于所述像素点的坐标数据,确定所述实际角点的位置和所述实际角点所属边上实际端点的位置。
4.根据权利要求2所述的方法,其特征在于,所述基于所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定所述待检测页面中虚拟角点的位置,包括:
对于所述待检测页面中完整度均大于0且小于1的相邻两条不完整边,基于每条不完整边上所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定每条不完整边对应的直线;
获取相邻两条不完整边对应的直线之间的第一交点,并将所述第一交点的坐标数据作为所述虚拟角点的位置。
5.根据权利要求2所述的方法,其特征在于,所述基于所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定所述待检测页面中虚拟角点的位置,包括:
对于完整度大于0且小于1的一条不完整边,基于所述不完整边上所述实际角点的位置和所述实际角点所属边上实际端点的位置,确定所述不完整边对应的直线;
基于不属于所述不完整边上且与所述实际端点相邻的实际角点的位置,确定所述不完整边对应的直线的垂线;
获取所述垂线与所述不完整边对应的直线之间的第二交点,并将所述第二交点的位置作为所述虚拟角点的位置。
6.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置,包括:
基于角点检测模型中的骨干网络,提取所述待处理图像的高级语义信息和低级语义信息;
基于角点检测模型中的融合网络,对所述待处理图像的高级语义信息和低级语义信息进行融合处理,得到所述待处理图像的特征融合信息;
基于角点检测模型中的定位网络,对所述待处理图像的特征融合信息中包含的实际角点的特征和实际角点所属边的特征进行处理,确定所述实际角点的位置和所述虚拟角点的位置。
7.根据权利要求1所述的方法,其特征在于,所述基于所述实际角点的数量和实际角点所属边的完整度,确定所述待检测页面是否满足预设的检测条件,包括:
如果所述实际角点的数量为至少两个,并且,至多一个实际角点所属边的完整度为0,则确定所述待检测页面满足所述预设的检测条件。
8.根据权利要求1所述的方法,其特征在于,所述根据所述实际角点的位置和所述虚拟角点的位置,从所述待处理图像的图像区域中获取所述待检测页面的目标页面区域,包括:
基于所述实际角点的位置和所述虚拟角点的位置,对所述待检测页面的实际角点和虚拟角点进行区域构建,形成初始页面区域;
从所述初始页面区域中获取属于所述待处理图像的图像区域的交集像素点;
基于所述交集像素点的位置进行区域构建,形成所述待检测页面的目标页面区域。
9.一种页面区域检测装置,其特征在于,包括:
获取模块,用于获取待检测页面在当前视野下的待处理图像,其中,所述待检测页面包括显示在所述待处理图像中的实际角点以及未显示在所述待处理图像中的虚拟角点;
判断模块,用于基于所述实际角点的数量和实际角点所属边的完整度,确定所述待检测页面是否满足预设的检测条件;
确定模块,用于若所述待检测页面满足所述预设的检测条件,对所述待处理图像进行角点检测处理,确定所述待检测页面中实际角点的位置和虚拟角点的位置;
检测模块,用于根据所述实际角点的位置和所述虚拟角点的位置,从所述待处理图像的图像区域中获取所述待检测页面的目标页面区域。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现上述权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410601454.8A CN118446996A (zh) | 2024-05-14 | 2024-05-14 | 页面区域检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410601454.8A CN118446996A (zh) | 2024-05-14 | 2024-05-14 | 页面区域检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118446996A true CN118446996A (zh) | 2024-08-06 |
Family
ID=92319345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410601454.8A Pending CN118446996A (zh) | 2024-05-14 | 2024-05-14 | 页面区域检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118446996A (zh) |
-
2024
- 2024-05-14 CN CN202410601454.8A patent/CN118446996A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9697416B2 (en) | Object detection using cascaded convolutional neural networks | |
CA3204361A1 (en) | Image processing method, image processing apparatus, and non-transitory storage medium | |
CN112991180B (zh) | 图像拼接方法、装置、设备以及存储介质 | |
US20170208207A1 (en) | Method and device for correcting document image captured by image pick-up device | |
CN110796664B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
EP3998576A2 (en) | Image stitching method and apparatus, device, and medium | |
WO2020258184A1 (zh) | 图像检测方法、图像检测装置、图像检测设备及介质 | |
CN113850238B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN111126108A (zh) | 图像检测模型的训练和图像检测方法及装置 | |
CN113033346B (zh) | 文本检测方法、装置和电子设备 | |
CN111783777B (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
CN113947768A (zh) | 一种基于单目3d目标检测的数据增强方法和装置 | |
EP4026092A1 (en) | Scene lock mode for capturing camera images | |
CN108304840B (zh) | 一种图像数据处理方法以及装置 | |
WO2022095318A1 (zh) | 字符检测方法、装置、电子设备、存储介质及程序 | |
CN112465692A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113850805B (zh) | 多文档检测方法、装置、电子设备及存储介质 | |
CN113850239B (zh) | 多文档检测方法、装置、电子设备及存储介质 | |
CN118446996A (zh) | 页面区域检测方法、装置、设备及存储介质 | |
WO2023029123A1 (zh) | 一种顶点坐标的检测方法、装置、设备及存储介质 | |
CN115131243A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
US20140231523A1 (en) | Electronic device capable of recognizing object | |
CN115063822A (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN113313642A (zh) | 图像去噪方法、装置、存储介质及电子设备 | |
CN113255629A (zh) | 文档处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |