CN110245308A - 图像提取方法、装置及终端设备 - Google Patents

图像提取方法、装置及终端设备 Download PDF

Info

Publication number
CN110245308A
CN110245308A CN201910423180.7A CN201910423180A CN110245308A CN 110245308 A CN110245308 A CN 110245308A CN 201910423180 A CN201910423180 A CN 201910423180A CN 110245308 A CN110245308 A CN 110245308A
Authority
CN
China
Prior art keywords
page
images
target pages
label
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910423180.7A
Other languages
English (en)
Inventor
李振龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN201910423180.7A priority Critical patent/CN110245308A/zh
Publication of CN110245308A publication Critical patent/CN110245308A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明适用于图像处理技术领域,提供了图像提取方法、装置、终端设备以及计算机可读存储介质,包括:在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与屏蔽标识对应的标签对;将查找到的标签对确定为待操作标签对;将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视;提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;若所述页面图像中未含有所述待测元素,则存储所述页面图像;若所述页面图像中含有所述待测元素,则丢弃所述页面图像;将所述待操作标签对的显示属性设置为可视。本发明提升了图像提取的安全性。

Description

图像提取方法、装置及终端设备
技术领域
本发明属于图像处理技术领域,尤其涉及图像提取方法、装置、终端设备以及计算机可读存储介质。
背景技术
随着软件技术的发展,超文本标记语言(HyperText Markup Language,HTML)作为一种易用性较高,且能够应用于其他框架(如Bootstrap框架或Vue框架等)的语言,现已广泛应用于前端页面的编写。
在终端设备的使用过程中,存在对终端设备上的页面进行图像提取的需求。在现有技术中,通常是通过终端设备自带的截图功能来实现图像提取,提取出的图像包含终端设备页面中的所有可视元素,不适用于页面中含有需要屏蔽的元素(如密码)的场景。综上,现有技术中进行图像提取时提取的是页面中的所有可视元素,导致图像提取的安全性和适用性低。
发明内容
有鉴于此,本发明实施例提供了图像提取方法、装置、终端设备以及计算机可读存储介质,以解决现有技术中图像提取的安全性和适用性低的问题。
本发明实施例的第一方面提供了一种图像提取方法,包括:
在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
将查找到的标签对确定为待操作标签对;
将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
若所述页面图像中未含有所述待测元素,则存储所述页面图像;
若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
将所述待操作标签对的显示属性设置为可视。
本发明实施例的第二方面提供了一种图像提取装置,包括:
查找单元,用于在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
确定单元,用于将查找到的标签对确定为待操作标签对;
第一设置单元,用于将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取单元,用于提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
存储单元,用于若所述页面图像中未含有所述待测元素,则存储所述页面图像;
丢弃单元,用于若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
第二设置单元,用于将所述待操作标签对的显示属性设置为可视。
本发明实施例的第三方面提供了一种终端设备,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
将查找到的标签对确定为待操作标签对;
将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
若所述页面图像中未含有所述待测元素,则存储所述页面图像;
若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
将所述待操作标签对的显示属性设置为可视。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
将查找到的标签对确定为待操作标签对;
将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
若所述页面图像中未含有所述待测元素,则存储所述页面图像;
若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
将所述待操作标签对的显示属性设置为可视。
本发明实施例与现有技术相比存在的有益效果是:
本发明实施例在检测到图像提取操作时,在目标页面的页面源码中查找出与屏蔽标识对应的待操作标签对,将待操作标签对的显示属性设置为不可视,并提取目标页面的页面图像,若检测出页面图像含有待操作标签对内的待测元素时,则存储页面图像;若页面图像含有待测元素,则丢弃页面图像。本发明实施例在进行图像提取前对屏蔽标识对应的标签对进行不可视化,该标签对包含有需要屏蔽的元素,从而提升了图像提取的安全性和适用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的图像提取方法的实现流程图;
图2是本发明实施例二提供的在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对的实现流程图;
图3是本发明实施例三提供的图像提取方法的另一种实现流程图;
图4是本发明实施例四提供的提取目标页面的页面图像,检测页面图像中是否含有待测元素的实现流程图;
图5是本发明实施例五提供的图像提取装置的结构框图;
图6是本发明实施例六提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的图像提取方法的实现流程,本发明实施例中的图像提取方法的执行主体为终端设备,终端设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑及智能手机等。如图1所示的图像提取方法具体实现方式详述如下:
在S101中,在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对。
HTML是现今常用的页面编程语言,基于HTML可编写简单的前端页面,在HTML的基础上也可结合其他的Web技术,如脚本语言、公共网关接口或组件来创建可实现复杂功能的页面。由于终端设备上的基于HTML编写的页面可能会存在图像提取的需求,故在本发明实施例中,设定图像提取操作,在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对。值得说明的是,HTML标签是HTML中的基本单位,具体形式为由尖括号包围的关键词,HTML标签通常是成对出现从而形成标签对,标签对中的第一个HTML标签是开始标签,第二个HTML标签是结束标签,并且,标签对的用途由其内的关键词定义,如标签对<b></b>用于定义粗体文本。本发明实施例对图像提取操作的具体形式不做限定,比如图像提取操作可为终端设备自带的截图操作,可为对终端设备上的某个功能键或者两个功能键以上的组合键的按键操作,可为对终端设备屏幕的触摸操作,也可为语音操作等。
可选地,将图像提取操作对应的页面确定为目标页面。为了确定待提取图像的对象,在本发明实施例中,将图像提取操作对应的页面确定为目标页面,其中,若图像提取操作中包含页面选取操作,则将页面选取操作中选取出的页面确定为目标页面;若图像提取操作不包含页面选取操作,则将终端设备当前显示的页面确定为目标页面。通过上述方法实现了目标页面的精确选定。
可选地,若屏蔽标识为设定的标签属性标识,则在页面源码中查找含有标签属性标识的标签对。对于HTML标签来说,可在标签内设置属性,属性可提供与HTML标签相关的更多的信息,举例来说,在超链接标签对<a href="http://www.example.com">This is alink</a>中,属性为href="http://www.example.com",该属性指示点击“This is alink”的超链接后会跳转到"http://www.example.com"的网址。在本发明实施例中,若屏蔽标识为设定的标签属性标识,如设定为“hide”,则以标签属性标识为查找条件,遍历目标页面的页面源码,并查找含有标签属性标识的标签对,将查找出的标签对确定为与屏蔽标识对应的标签对。通过上述方法,在屏蔽标识为标签属性标识时实现了与屏蔽标识对应的标签对的精确查找。
在S102中,将查找到的标签对确定为待操作标签对。
当查找到与设定的屏蔽标识对应的标签对时,为了将该标签对与页面源码内的其他标签对进行区分,将查找到的标签对确定为待操作标签对。值得说明的是,本发明实施例对待操作标签对的数量不做限定。
在S103中,将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素。
在确定出待操作标签对的情况下,将待操作标签对内含有的可视元素确定为待测元素,可视元素为显示于目标页面上的元素,本发明实施例所指的所有元素均可确定为字段。举例来说,假设待操作标签对为<b hide>Password</b>,则该待操作标签对对应的且显示于目标页面上的元素为Password,即确定出的待测元素为Password。待测元素为图像提取时需屏蔽(隐藏)的元素,故将待操作标签对的显示属性设置为不可视,从而使得待测元素在目标页面上屏蔽。本发明实施例对显示属性的类型不做限定,比如显示属性可为HTML中的display属性,则在本步骤中为待操作标签对添加display属性,并将display属性的值设置为none,值为none的display属性指示在目标页面中屏蔽待操作标签对包含的元素,同时也一并屏蔽待操作标签对包含的元素在目标页面中所占的区域;显示属性还可为HTML中的visibility属性,则在本步骤中为待操作标签对添加visibility属性,并将visibility属性的值设置为hidden,值为hidden的visibility属性指示在目标页面中屏蔽待操作标签对包含的元素,但并不屏蔽待操作标签对包含的元素在目标页面中所占的区域。除此之外,若待操作标签对应用于其他框架,如应用于jQuery框架,则可为待操作标签对设置适用于所应用框架的显示属性,并对显示属性进行设置,从而实现对待操作标签对包含的元素的屏蔽。
在S104中,提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素。
在本步骤中,提取目标页面的页面图像,检测提取出的页面图像中是否含有待测元素,其中,提取操作可基于终端设备自带的截图功能实现。检测页面图像中是否含有待测元素的操作可转化为检测目标页面中是否含有待测元素的操作,具体将待测元素作为查找条件在目标页面中进行查找,若目标页面中不存在待测元素,则判定页面图像中未含有待测元素;若目标页面中存在待测元素,则判定页面图像中含有待测元素。当然,上述仅为示例的一种检测方式,并不构成对本发明实施例的限定。
在S105中,若所述页面图像中未含有所述待测元素,则存储所述页面图像。
若检测出页面图像中未含有待测元素,证明待测元素屏蔽成功,则存储页面图像。值得一提的是,根据实际应用场景的不同,在存储页面图像时,可将页面图像存储至终端设备本地,可将页面图像上传至云服务器进行存储。在存储页面图像后,还可对存储的页面图像进行进一步操作,如将页面图像分享至社交平台。
在S106中,若所述页面图像中含有所述待测元素,则丢弃所述页面图像。
相反地,若页面图像中含有待测元素,即需要屏蔽的元素未被成功屏蔽,则丢弃页面图像。可选地,输出包含待测元素的屏蔽失败提示。除了丢弃页面图像外,在本发明实施例中还可输出包含待测元素的屏蔽失败提示,便于用户查找屏蔽失败的原因或进行手动屏蔽等。
在S107中,将所述待操作标签对的显示属性设置为可视。
由于在步骤S103中,将待操作标签对的显示属性设置为不可视,故在完成对页面图像的存储操作或丢弃操作后,将待操作标签对的显示属性设置为可视,即是将目标页面还原为图像提取前的状态。
通过图1所示实施例可知,本发明实施例在检测到图像提取操作时,将屏蔽标识对应的待操作标签对的显示属性设置为不可视,提取目标页面的页面图像,检测页面图像中是否含有待测元素,根据检测结果对页面图像执行不同的操作,最终将待操作标签对的显示属性设置为可视,本发明实施例基于屏蔽标识进行元素屏蔽,提升了图像提取的安全性。
图2所示,是在本发明实施例一的基础上,并在屏蔽标识为设定的元素标识的基础上,对在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对的过程进行细化后得到的实现流程图。本发明实施例提供了图像提取方法S101的具体实现流程图,如图2所示,该图像提取方法中的S101可以包括以下步骤:
在S201中,在所述目标页面中查找所述元素标识。
在本发明实施例中,屏蔽标识还可为设定的元素标识,如“密码”,针对该种情况,在目标页面中查找可视的元素标识。值得说明的是,之所以不在页面源码中查找元素标识,是因为页面源码中的元素标识可能本就处于不可视的状态,即页面源码中的元素标识在目标页面中可能并不会显示,如页面源码中的元素标识位于注释中,或者页面源码中的元素标识所在的标签对的显示属性已被设置为不可视。
在S202中,若查找到所述元素标识,则在所述页面源码中确定所述元素标识所在的块级标签对,将所述块级标签对确定为所述元素标识对应的标签对。
若查找到元素标识,则在页面源码中确定元素标识所在的块级标签对,在本发明实施例中,块级标签对是指标签对<div></div>,其用于定义HTML页面中的分区或节。将元素标识所在的块级标签对确定为元素标识对应的标签对,在后续将该标签对的显示属性设置为不可视时,相当于将目标页面中元素标识所在的区块(由块级标签对划分得到)进行整体屏蔽。
可选地,将元素标识所在的且与元素标识最接近的块级标签对确定为元素标识对应的标签对。在实际应用场景中,块级标签对可能会嵌套使用,即一个块级标签对内包括另一个块级标签对,故在本发明实施例中,将元素标识所在的且与元素标识最接近的块级标签对确定为元素标识对应的标签对,如此确定出的标签对的嵌套层数最少。通过上述方法提升了确定出的标签对的准确性,防止不需要屏蔽的元素被错误屏蔽。
通过图2所示实施例可知,本发明实施例在目标页面中查找元素标识,若查找到元素标识,则在页面源码中确定元素标识所在的块级标签对,将块级标签对确定为元素标识对应的标签对,本发明实施例在设定的屏蔽标识为元素标识的情况下,确定出在目标页面上处于可视状态的元素标识对应的块级标签对,作为元素标识对应的标签对,提升了确定出的待操作标签对的准确性,避免了对本就处于不可视状态的元素标识进行操作。
图3所示,是在本发明实施例一的基础上,对在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对的过程进行细化后得到的一种方法。本发明实施例提供了图像提取方法的实现流程图,如图3所示,该图像提取方法可以包括以下步骤:
在S301中,检测所述图像提取操作是否与设定的屏蔽操作相符,所述屏蔽操作表征对所述目标页面中与设定的屏蔽标识对应的可视元素进行屏蔽。
由于图像提取操作可能为终端设备原有的截图操作,故为了确定图像提取操作是否指示对目标页面进行屏蔽,在本发明实施例中,设定屏蔽操作,并检测图像提取操作是否与设定的屏蔽操作相符,根据检测结果执行不同的操作,该屏蔽操作表征对目标页面中与设定的屏蔽标识对应的可视元素进行屏蔽。举例来说,假设终端设备原有三种截图操作,具体包括Operation1、Operation2及Operation3,则可将Operation1设置为屏蔽操作,指示对目标页面中与设定的屏蔽标识对应的可视元素进行屏蔽,其余的两个操作Operation2和Operation3指示仅对目标页面进行截取,对于图像提取操作,检测其是否与Operation1相符。
在S302中,若所述图像提取操作与所述屏蔽操作相符,则在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对,然后执行S304。
若图像提取操作与屏蔽操作相符,即图像提取操作指示进行对目标页面进行屏蔽,则执行在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对的操作。
在S303中,若所述图像提取操作与所述屏蔽操作不相符,则提取并存储所述目标页面的页面图像。
若图像提取操作与屏蔽操作不相符,即图像提取操作指示仅对目标页面进行截取,则提取并存储目标页面的页面图像。
在S304中,将查找到的标签对确定为待操作标签对。
在S305中,将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素。
在S306中,提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素。
在S307中,若所述页面图像中未含有所述待测元素,则存储所述页面图像。
在S308中,若所述页面图像中含有所述待测元素,则丢弃所述页面图像。
在S309中,将所述待操作标签对的显示属性设置为可视。
上述步骤S304~S309的过程与步骤S102~S107的过程相同,具体可见步骤S102~S107的描述内容,此处不再赘述。
通过图3所示实施例可知,在本发明实施例中,检测图像提取操作是否与设定的屏蔽操作相符,若图像提取操作与屏蔽操作相符,则在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对的操作;若图像提取操作与屏蔽操作不相符,则提取并存储目标页面的页面图像,本发明实施例将图像提取操作与屏蔽操作进行比对,从而判断图像提取操作是否指示对目标页面进行屏蔽,提升了进行图像提取的准确性。
图4所示,是在本发明实施例一的基础上,对提取目标页面的页面图像,检测页面图像中是否含有待测元素的过程进行细化后得到的一种方法。本发明实施例提供了图像提取方法中的步骤S104的实现流程图,如图4所示,该图像提取方法中的步骤S104可以包括以下步骤:
在S401中,提取所述目标页面的页面图像,对所述页面图像进行光学字符识别得到当前显示元素,将所述待测元素与所述当前显示元素进行匹配。
在本发明实施例中,提取目标页面的页面图像之后,可对提取出的页面图像进行光学字符识别(Optical Character Recognition,OCR),得到页面图像上的当前显示元素,然后将待测元素与当前显示元素进行匹配。对页面图像进行的光学字符识别操作可基于开源的OCR组件实现。
在S402中,若所述待测元素与所述当前显示元素匹配失败,则判定所述页面图像中未含有所述待测元素。
若待测元素与当前显示元素匹配失败,则判定页面图像中未含有待测元素,待测元素屏蔽成功。
在S403中,若所述待测元素与所述当前显示元素匹配成功,则判定所述页面图像中含有所述待测元素。
若待测元素与当前显示元素匹配成功,则判定页面图像中仍含有待测元素,待测元素屏蔽失败。
通过图4所示实施例可知,在本发明实施例中,对页面图像进行光学字符识别得到当前显示元素,将待测元素与当前显示元素进行匹配,若待测元素与当前显示元素匹配失败,则判定页面图像中未含有待测元素;若待测元素与当前显示元素匹配成功,则判定页面图像中含有待测元素。本发明实施例基于光学字符识别操作进行待测元素检测,提升了在页面图像中检测待测元素的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的图像提取方法,图5示出了本发明实施例提供的图像提取装置的结构框图,参照图5,该图像提取装置包括:
查找单元51,用于在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
确定单元52,用于将查找到的标签对确定为待操作标签对;
第一设置单元53,用于将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取单元54,用于提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
存储单元55,用于若所述页面图像中未含有所述待测元素,则存储所述页面图像;
丢弃单元56,用于若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
第二设置单元57,用于将所述待操作标签对的显示属性设置为可视。
可选地,屏蔽标识为设定的元素标识,查找单元51包括:
元素标识查找单元,用于在所述目标页面中查找所述元素标识;
块级标签对确定单元,用于若查找到所述元素标识,则在所述页面源码中确定所述元素标识所在的块级标签对,将所述块级标签对确定为所述待操作标签对。
可选地,屏蔽标识为设定的标签属性标识,查找单元51包括:
查找子单元,用于在所述页面源码中查找含有所述标签属性标识的标签对。
可选地,查找单元51包括:
检测单元,用于检测所述图像提取操作是否与设定的屏蔽操作相符,所述屏蔽操作表征对所述目标页面中与设定的屏蔽标识对应的可视元素进行屏蔽;
第一执行单元,用于若所述图像提取操作与所述屏蔽操作相符,则在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
图像提取装置还包括:
第二执行单元,用于若所述图像提取操作与所述屏蔽操作不相符,则提取并存储所述目标页面的页面图像。
可选地,提取单元54包括:
匹配单元,用于提取所述目标页面的页面图像,对所述页面图像进行光学字符识别得到当前显示元素,将所述待测元素与所述当前显示元素进行匹配;
第一判定单元,用于若所述待测元素与所述当前显示元素匹配失败,则判定所述页面图像中未含有所述待测元素;
第二判定单元,用于若所述待测元素与所述当前显示元素匹配成功,则判定所述页面图像中含有所述待测元素。
因此,本发明实施例提供的图像提取装置通过将待操作标签的显示属性设置为不可视后再提取页面图像,从而屏蔽待测元素,提升了图像提取的安全性。
图6是本发明实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如图像提取程序。所述处理器60执行所述计算机程序62时实现上述各个图像提取方法实施例中的步骤,例如图1所示的步骤S101至S107。或者,所述处理器60执行所述计算机程序62时实现上述各图像提取装置实施例中各单元的功能,例如图5所示单元51至57的功能。
示例性的,所述计算机程序62可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。例如,所述计算机程序62可以被分割成查找单元、确定单元、第一设置单元、提取单元、存储单元、丢弃单元以及第二设置单元,各单元具体功能如下:
查找单元,用于在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
确定单元,用于将查找到的标签对确定为待操作标签对;
第一设置单元,用于将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取单元,用于提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
存储单元,用于若所述页面图像中未含有所述待测元素,则存储所述页面图像;
丢弃单元,用于若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
第二设置单元,用于将所述待操作标签对的显示属性设置为可视。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将所述终端设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像提取方法,其特征在于,包括:
在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
将查找到的标签对确定为待操作标签对;
将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
若所述页面图像中未含有所述待测元素,则存储所述页面图像;
若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
将所述待操作标签对的显示属性设置为可视。
2.如权利要求1所述的图像提取方法,其特征在于,所述屏蔽标识为设定的元素标识,所述在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对,包括:
在所述目标页面中查找所述元素标识;
若查找到所述元素标识,则在所述页面源码中确定所述元素标识所在的块级标签对,将所述块级标签对确定为所述元素标识对应的标签对。
3.如权利要求1所述的图像提取方法,其特征在于,所述屏蔽标识为设定的标签属性标识,所述在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对,包括:
在所述页面源码中查找含有所述标签属性标识的标签对。
4.如权利要求1所述的图像提取方法,其特征在于,所述在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对,包括:
检测所述图像提取操作是否与设定的屏蔽操作相符,所述屏蔽操作表征对所述目标页面中与设定的屏蔽标识对应的可视元素进行屏蔽;
若所述图像提取操作与所述屏蔽操作相符,则在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
所述图像提取方法还包括:
若所述图像提取操作与所述屏蔽操作不相符,则提取并存储所述目标页面的页面图像。
5.如权利要求1所述的图像提取方法,其特征在于,所述提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素,包括:
提取所述目标页面的页面图像,对所述页面图像进行光学字符识别得到当前显示元素,将所述待测元素与所述当前显示元素进行匹配;
若所述待测元素与所述当前显示元素匹配失败,则判定所述页面图像中未含有所述待测元素;
若所述待测元素与所述当前显示元素匹配成功,则判定所述页面图像中含有所述待测元素。
6.一种图像提取装置,其特征在于,包括:
查找单元,用于在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
确定单元,用于将查找到的标签对确定为待操作标签对;
第一设置单元,用于将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取单元,用于提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
存储单元,用于若所述页面图像中未含有所述待测元素,则存储所述页面图像;
丢弃单元,用于若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
第二设置单元,用于将所述待操作标签对的显示属性设置为可视。
7.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
在检测到图像提取操作时,在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
将查找到的标签对确定为待操作标签对;
将所述待操作标签对内含有的可视元素确定为待测元素,将所述待操作标签对的显示属性设置为不可视,其中,所述可视元素为显示于所述目标页面上的元素;
提取所述目标页面的页面图像,检测所述页面图像中是否含有所述待测元素;
若所述页面图像中未含有所述待测元素,则存储所述页面图像;
若所述页面图像中含有所述待测元素,则丢弃所述页面图像;
将所述待操作标签对的显示属性设置为可视。
8.如权利要求7所述的终端设备,其特征在于,所述屏蔽标识为设定的元素标识,所述在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对,包括:
在所述目标页面中查找所述元素标识;
若查找到所述元素标识,则在所述页面源码中确定所述元素标识所在的块级标签对,将所述块级标签对确定为所述元素标识对应的标签对。
9.如权利要求7所述的终端设备,其特征在于,所述在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对,包括:
检测所述图像提取操作是否与设定的屏蔽操作相符,所述屏蔽操作表征对所述目标页面中与设定的屏蔽标识对应的可视元素进行屏蔽;
若所述图像提取操作与所述屏蔽操作相符,则在待提取图像的目标页面的页面源码中查找与设定的屏蔽标识对应的标签对;
所述处理器执行所述计算机程序时还实现如下步骤:
若所述图像提取操作与所述屏蔽操作不相符,则提取并存储所述目标页面的页面图像。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像提取方法的步骤。
CN201910423180.7A 2019-05-21 2019-05-21 图像提取方法、装置及终端设备 Pending CN110245308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910423180.7A CN110245308A (zh) 2019-05-21 2019-05-21 图像提取方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910423180.7A CN110245308A (zh) 2019-05-21 2019-05-21 图像提取方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN110245308A true CN110245308A (zh) 2019-09-17

Family

ID=67884619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910423180.7A Pending CN110245308A (zh) 2019-05-21 2019-05-21 图像提取方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN110245308A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131111A (zh) * 2020-09-21 2020-12-25 贝壳技术有限公司 一种对页面进行自动化测试的方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924381A (zh) * 2018-07-23 2018-11-30 上海掌门科技有限公司 图像处理方法、图像处理装置及计算机可读介质
CN109145214A (zh) * 2018-08-29 2019-01-04 深信服科技股份有限公司 一种网站页面的链接过滤方法、装置、设备及介质
CN109753202A (zh) * 2018-12-29 2019-05-14 维沃移动通信有限公司 一种截屏方法和移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924381A (zh) * 2018-07-23 2018-11-30 上海掌门科技有限公司 图像处理方法、图像处理装置及计算机可读介质
CN109145214A (zh) * 2018-08-29 2019-01-04 深信服科技股份有限公司 一种网站页面的链接过滤方法、装置、设备及介质
CN109753202A (zh) * 2018-12-29 2019-05-14 维沃移动通信有限公司 一种截屏方法和移动终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131111A (zh) * 2020-09-21 2020-12-25 贝壳技术有限公司 一种对页面进行自动化测试的方法、装置和存储介质

Similar Documents

Publication Publication Date Title
US20190018560A1 (en) Terminal and method for determining type of input method editor
AU2008312423B2 (en) NLP-based content recommender
CN106201177B (zh) 一种操作执行方法及移动终端
US20080155393A1 (en) Method for aligning demonstrated user actions with existing documentation
CN110716991B (zh) 基于电子书的实体关联信息的展示方法及电子设备
CN105787366A (zh) 基于组件关系的安卓软件可视化安全分析方法
US10572566B2 (en) Image quality independent searching of screenshots of web content
WO2014154033A1 (en) Method and apparatus for extracting web page content
EP2645309A2 (en) Automatic combination and mapping of text-mining services
CN105868290A (zh) 一种展现搜索结果的方法及装置
CN106951495A (zh) 用于呈现信息的方法和装置
CN103500158A (zh) 批注电子文档的方法和装置
EP3037985A1 (en) Search method and system, search engine and client
CN104102704B (zh) 系统控件展示方法和装置
CN110245308A (zh) 图像提取方法、装置及终端设备
CN112988758A (zh) 目标对象定位方法、装置、电子设备和存储介质
CN107741980A (zh) 题目搜索方法、题目搜索装置及电子终端
EP4167122A1 (en) Extracting key value pairs using positional coordinates
CN107424461B (zh) 信息屏蔽方法及系统
CN110209572A (zh) 用户界面测试方法、用户界面测试系统及终端
CN107272989B (zh) 应用启动方法、装置及终端设备
CN109471969A (zh) 一种应用搜索方法、装置及设备
CN109558600A (zh) 翻译处理方法及装置
CN104484340A (zh) 一种实现标签页切换的方法、装置和浏览器客户端
CN104516632B (zh) 确定触摸字符进行搜索的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination