CN113538450A - 用于生成图像的方法及装置 - Google Patents

用于生成图像的方法及装置 Download PDF

Info

Publication number
CN113538450A
CN113538450A CN202010315358.9A CN202010315358A CN113538450A CN 113538450 A CN113538450 A CN 113538450A CN 202010315358 A CN202010315358 A CN 202010315358A CN 113538450 A CN113538450 A CN 113538450A
Authority
CN
China
Prior art keywords
rectangular frame
external rectangular
target image
image
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010315358.9A
Other languages
English (en)
Other versions
CN113538450B (zh
Inventor
焦阳
杨羿
王建国
李�一
陈晓冬
刘林
贺翔
朱延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202010315358.9A priority Critical patent/CN113538450B/zh
Priority to EP21163538.8A priority patent/EP3828766A3/en
Priority to US17/207,564 priority patent/US11810333B2/en
Priority to KR1020210037804A priority patent/KR102648760B1/ko
Priority to JP2021052215A priority patent/JP7213291B2/ja
Publication of CN113538450A publication Critical patent/CN113538450A/zh
Application granted granted Critical
Publication of CN113538450B publication Critical patent/CN113538450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种用于生成图像的方法和装置,涉及计算机视觉领域。具体实现方案为:获取终端预加载的网页的截图,作为源图像;识别源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框;若连通域之间的距离小于预设距离阈值,合并连通域,并在合并后的连通域的轮廓外生成第二外接矩形框;基于第一外接矩形框与第二外接矩形框之间的嵌套关系以及第一外接矩形框中的图片,生成目标图像。通过对源图像中连通域的识别和合并,分别生成第一外接矩形框和第二外接矩形框,通过第一外接矩形框和第二外接矩形框之间的嵌套关系表征网页中素材之间的空间关系,可以在生成的目标图像中体现出源图像中各个素材之间的空间关系。

Description

用于生成图像的方法及装置
技术领域
本申请公开了一种用于生成图像的方法及装置,涉及计算机技术领域,尤其涉及计算机视觉领域。
背景技术
Html(超文本语言)网页中的文字和图片往往包含有重要信息,是非常有价值的素材。相关技术中,基于html网页中的文件,通过编码的方式确定其中要提取的素材,然后从服务端下载要提取的素材对应的文件,以获取html网页中的素材。
发明内容
本申请实施例提供了一种用于生成图像的方法、装置、设备以及存储介质。
根据第一方面,提供了一种用于生成图像的方法,该方法包括:获取终端预加载的网页的截图,作为源图像;识别源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框;若连通域之间的距离小于预设距离阈值,合并连通域,并在合并后的连通域的轮廓外生成第二外接矩形框;基于第一外接矩形框与第二外接矩形框之间的嵌套关系以及第一外接矩形框中的图片,生成目标图像。
根据第二方面,提供了一种用于生成图像的装置,该装置包括:图像获取模块,获取终端预加载的网页的截图,作为源图像;第一生成取模块,被配置成识别源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框;第二生成模块,被配置成若连通域之间的距离小于预设距离阈值,合并连通域,并在合并后的连通域的轮廓外生成第二外接矩形框;图像生成模块,基于第一外接矩形框与第二外接矩形框之间的嵌套关系以及第一外接矩形框中的图片,生成目标图像。
根据本申请的技术解决了相关技术中从网页中提取的素材无法体现出各个素材之间的空间关系的问题,通过对源图像中连通域的识别和合并,分别生成第一外接矩形框和第二外接矩形框,通过第一外接矩形框和第二外接矩形框之间的嵌套关系表征网页中素材之间的空间关系,可以在生成的目标图像中体现出源图像中各个素材之间的空间关系。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的实施例可以应用于其中的示例性系统架构图;
图2是根据本申请实施例的用于生成图像的方法的第一实施例的示意图;
图3是根据本申请实施例的用于生成图像的方法的应用场景的示意图;
图4是根据本申请实施例的用于生成图像的方法的第二实施例的示意图;
图5是用来实现本申请实施例的用于生成图像的方法的电子设备的框图;
图6是可以实现本申请实施例的计算机可存储介质的场景图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本申请的实施例的用于生成图像的方法或用于生成图像的装置的实力型系统架构100。
如图1所示,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据等,例如用户可以将自己想要浏览的网页地址输入终端设备,终端设备通过网络104从服务器105获取数据,然后基于获取到的数据,由终端经过解析、渲染等步骤后生成网页,最终呈现给用户。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有与服务器以及其它终端进行数据交互功能的各种电子设备,包括但不限于智能手机、平板电脑和台式电脑等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供数据处理服务的服务器,例如根据终端设备101、102、103发送的访问请求,向终端设备发送对应的数据,以供终端设备生成所要访问的网页。
需要说明的是,本申请的实施例所提供的用于生成图像的方法可以由服务器105执行,相应地,用于生成图像的装置可以设置于服务器105中。此时,服务器105通过网络104获取终端设备101、102、103中预加载的网页信息,然后根据获取的网页信息生成源图像以及从源图像中提取素材。本申请的实施例所提供的用于生成图像的方法还可以由终端设备执行,相应地,生成图像的装置可以设置于可以设置于终端设备中,此时,终端设备通过网络104与其他终端设备通信连接,可以获取其他终端设备中预加载的网页信息,然后根据获取到的网页信息生成源图像以及从源图像中提取素材。此处不做限定。
继续参考图2(a),图2(a)示出了根据本申请公开的用于生成图像的方法的第一实施例的流程图,包括以下步骤:
步骤S201、获取终端预加载的网页的截图,作为源图像。
在本实施例中,执行主体提取的对象是终端呈现的网页中所包含的素材,包括文字素材和图片素材。源图像中不仅包括了网页中的素材,还包括了各个素材之间的空间关系。
作为示例,可以通过如下方式生成源图像:执行主体获取终端上预加载的网页的网络地址,通过访问网络地址得到的网页即为终端预加载的网页,然后对得到的网页进行截图,将得到的网页截图作为源图像。例如执行主体可以通过snapshot工具执行以上步骤,还可以通过网络直接接收终端设备发送的网页的截图,本申请对此不做限定。
步骤S202、识别源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框。
连通域,又称为连通区域,是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。通过连通域分析可以识别出图像中的各个连通域,并在连通域的轮廓外生成外接矩形框。连通域分析技术属于图像处理领域的惯用技术手段,例如Two-Pass方法、OCR算法(Optical Character Recognition,光学字符识别)等均可实现此功能,本申请对此不作限定。
在本实施例中,第一外接矩形框用于标记源图像中的最小连通域。例如,执行主体(如图1中所示的终端)通过OCR算法识别源图像中的连通域,假如源图像中存在的一段文字,每一行文字在图像中的区域都被识别为一个连通域,相应地,每一行文字在图像中的区域轮廓外均生成一个第一外接矩形框,则执行主体可以从该段文字图像中识别出多个连通域,并生成多个第一外接矩形框。
需要说明的是,最小连通域的识别精度可以根据实际需求进行调整,例如上述示例中,还可以将同一段文字识别为一个连通域,则相应地,该段文字在源图像中的区域可以生成一个第一外接矩形框。本申请对此不做限定。
步骤S203、若连通域之间的距离小于预设距离阈值,合并连通域,并在合并后的连通域的轮廓外生成第二外接矩形框。
在本实施例中,第二外接矩形框用于表征存在嵌套关系的外接矩形框。通过对连通域的合并,可以包含得到多层嵌套关系的第二外接矩形框。而连通域之间的距离则用于表征源图像中不同连通域包含的素材之间的位置关系。
进一步结合图2(b)进行说明,图2(b)示出了本实施例的一个具体的示例,连通域1、2、3、4(如图2(b)中所示201、202、203、204),分别对应第一外接矩形框a、b、c、d(如图2(b)中所示205、206、207、208)。执行主体执行步骤S203,合并连通域1与2得到连通域5(如图2(b)中所示209),合并连通域3与4得到连通域6(如图2(b)中所示210);然后在连通域5的轮廓外生成第二矩形框e(如图2(b)中所示211),在连通域6的轮廓外生成第二检测框f(如图2(b)中所示212);之后,若连通域5与连通域6之间的距离仍小于预设距离阈值,则执行主体继续合并连通域5与连通域6,得到连通域7(如图2(b)中所示213),并在连通域7的轮廓外生成第二检测框g(如图2(b)中所示214)。最终得到,第二外接矩形框e、f和g,其中,第二外接矩形框g包含第二外接矩形框和f,而第二外接矩形框e包含第一外接矩形框a和b,第二外接矩形框f包含第一外接矩形框c和d。各个外接矩形框之间的包含关系即为第一外接矩形框与第二外接矩形框之间的嵌套关系,可以用于表征各个连通域中的素材之间的空间关系。
步骤S204、基于第一外接矩形框和第二外接矩形框之间的嵌套关系以及第一外接矩形框中的图片,生成目标图像。
在本实施例中,第一外接矩形框中的图片表示从源图像中待提取的素材,用于生成目标图像的基本元素,而第一外接矩形框和第二外接矩形框之间的嵌套关系用于表征源图像中各个素材之间的空间关系。
执行主体将第一外接矩形框中的图片按照步骤S203中得到的嵌套关系,组合在一起生成的图像即为目标图像。
在一个具体的示例中,可以通过如下方式生成目标图像:执行主体可以利用rect函数表征第一外接矩形框和第二外接矩形框,每个rect存储有一个外接矩形框的左上角在源图像中的坐标以及外接矩形框的长度和宽度,这样一来,每一个rect代表一个第一外接矩形框或一个第二外接矩形框。然后执行主体将包含rect数量最多的rect作为父节点,根据第一外接矩形框和第二外接矩形框之间的嵌套关系,构建rect树状结构,树状结构中的每一节点均代表一个第一外接矩形框或一个第二外接矩形框,其中最底层节点代表源图像中的第一外接矩形框。最后执行主体根据树状结构,以此将第一外接矩形框中的图片组合在一起,即可得到目标图像。
继续参考图3,图3示出了根据本申请公开的用于生成图像的方法的场景示意图。在该应用场景中,执行主体306可以是终端设备也可以是服务器。执行主体通过网络获取终端305中预加载的网页的截图301,识别其中的连通域并得到各个第一检测框(如图3中302所示),然后将距离小于预设距离阈值的连通域合并,并得到各个第二检测框(如图3中303所示),最后基于第一检测框与第二检测框之间的嵌套关系,将第一检测框中的图片组合成目标图像304。
本申请公开的上述实施例中的用于生成图像的方法,通过对源图像中连通域的识别和合并,分别生成第一外接矩形框和第二外接矩形框,通过第一外接矩形框和第二外接矩形框之间的嵌套关系表征网页中素材之间的空间关系,可以在生成的目标图像中体现出源图像中各个素材之间的空间关系。
继续参考图4,图4示出了根据本申请公开的用于生成图像的方法的第二实施例的流程图,包括以下步骤:
步骤S401、获取终端预加载的网页的截图,作为源图像。此步骤与前述步骤S201相对应,此处不再赘述。
步骤S402、识别源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框。此步骤与前述步骤S202线相对应,此处不再赘述。
步骤S403、若连通域之间的距离小于预设距离阈值,合并连通域,并在合并后的连通域的轮廓外生成第二外接矩形框。此步骤与前述步骤S203相对应,此处不再赘述
步骤S404、若第一外接矩形框中的图片的清晰度小于预设清晰度阈值,删除该第一外接矩形框。如此,可以避免从源图像中提取出清晰度较低的素材,从而可以保证生成的目标图像的质量。
步骤S405、基于第一外矩形框在源图像中的位置,将处于源图像中预设区域的第一外接矩形框删除。
在本实施例中,预设区域表示源图像中重要性较低的素材所在的区域,例如可以是源图像的底部区域和顶部区域,通常网页会将重要性较低的文字或图片(例如网页中投放的广告等)放置在这两个区域中。第一外接矩形框用于在源图像中标记出待提取的素材所在的位置和区域,以便于执行主体将该区域内的图像从源图像中提取出来,即完成了从源图像中提取素材的步骤。因此,删除第一外接矩形框就意味着该第一外接矩形框内的图像不会被提取。
执行主体将处于预设区域中的第一外接矩形框删除,可以将这些低价值的素材过滤掉,有助于减小运算量,并避免生成的目标图像中包含有低价值的素材。
步骤S406、识别第一外接矩形框中的图片,获得第一外接矩形框中的图片内容对应的识别结果。
在本实施例中,第一外接矩形框中的图片包括文字素材图片和图像素材图片,其中可能包括了低价值的素材,例如有的文字素材图片为网页中的广告语,有的图像素材图片为logo图或网页中的按键的图片,这些素材中所包含的有效信息较少,因而价值也就较低。通过对第一外接矩形框中的图片进行识别,可以得到图片内容对应的识别结果,识别结果可以用于判断该第一外接矩形框中的图片是否需要过滤掉。例如,执行主体可以将源图像输入卷积神经网络模型中,获得源图像中各个第一外接矩形框中图片的识别结果,识别结果例如可以是文字、logo图、广告语或按键图等各种类型。
步骤S407、基于识别结果,将符合预设条件的第一外接矩形框删除。预设条件可以根据实际需求设定,以剔除不需要的素材,并保留有价值的素材。
在本实施例中,所要提取的素材包括文字素材和图像素材,例如可以将预设条件设定为logo图、按键图和广告语,如果识别结果为以上三种,则由执行主体将对应的第一外接矩形框删除,如此一来,后续生成目标图像时就不会包括该部分图片区域中的内容,实现了对源图像中提取出的内容的过滤,避免将价值较低的素材加入生成的目标图像中。
在本实施例的一些可选的实现方式中,将符合预设条件的第一外接矩形框删除之前,还可以包括:基于识别结果,将识别结果对应的第一外接矩形框中的图片存入预设位置。在实际的应用场景中,虽然源图像中的某些图片是目标图像所不需要的,但是仍可用作其他用途,例如,源图像中的logo图可以用于网页的商业数据分析,按键图可以用于分析网页的交互功能等等,因此,执行主体可以将识别出的logo图和按键图分别存入对应的存储位置,以便于后续应用。
步骤S408、基于第一外接矩形框与第二外接矩形框之间的嵌套关系,将各第一外接矩形框中的图片组合成初始目标图像。此步骤与前述步骤S204中生成目标图像的步骤相近,不同之处在于,本实施例中基于第一外接矩形框与第二外接矩形框之间的嵌套关系,将各第一外接矩形框中的图片组合而成的图像作为初始目标图像,经过后续步骤处理之后再得到目标图像。
步骤S409、确定出初始目标图像中的核心区域,初始目标图像中的核心区域为初始目标图像中包括预设目标的区域。
在本实施例中,预设目标用于表征初始目标图像中包含有关键信息的素材,预设目标至少包括以下之一:包含人脸的图像和密集文字。作为示例,执行主体可以采用显著性检测算法,从初始目标图像中识别出包含人脸的图像和密集文字所在的区域,即为初始目标图像的核心区域,需要说明的是,核心区域的数量可以是一个,也可以是多个,由初始目标图像中的人脸图像区域或文字密集区域的数量决定。
步骤S410、基于预设的剪裁比例和尺寸,分割初始目标图像,得到分割后的核心区域的图片。
在本实施例中,执行主体可以根据实际需求预设剪裁比例和尺寸,将初始目标图像进行分割,得到多个剪裁比例和尺寸一致的分割后的图片,然后将核心区域之外的图片删除,从而得到分割后的核心区域的图片。例如,初始目标图像中包括多个文字密集区域和多个人脸图像区域时,执行主体将初始目标图像分割后可以得到多个核心区域图片,而其他没有处于核心区域的图片则在分割后被删除。
步骤S411、基于分割后的核心区域的图片的特征信息,聚合分割后的核心区域的图片,得到目标图像。特征信息至少包括以下之一:尺寸、横纵比以及图片的构成属性。
在本实施例中,图片的构成属性包括文字和图像,用于表征该图片中包含的素材内容是文字还是图像。
基于步骤S410中得到的分割后的核心区域的图片的特征信息,执行主体可以按照预设规则将各个分割后的核心区域的图片聚合在一起,得到目标图像。例如,可以将构成属性为文字且尺寸相同的分割后的核心区域的图片拼接在一起,从而将存在关联的两个区域中的文字聚合成一整段文字,保证了文字素材之间的连续性。再例如,可以将构成属性为图像,且横纵比和尺寸均相同的多张分割后的核心区域的图片聚合在一个区域,以突出多个图像素材之间的对比和联系。
从图4中可以看出,第二实施例与图2示出的第一实施例相比,体现了根据嵌套关系生成初始目标图像并识别其核心区域,然后对初始目标图像进行分割和聚合的步骤,以及根据预设规则对源图像中提取出的素材进行过滤的步骤。通过对初始目标图像的分割和聚合,可以从初始目标图像中进一步提取出重要素材,而根据预设规则对源图像中提取出的素材进行过滤,则可以将源图像中价值较低的素材剔除,避免目标图像中包含价值较低的素材,从而提高了生成的目标图像中包含的素材的质量。
图5示出了根据本申请公开的用于生成图像的方法的电子设备的框图。该电子设备包括:图像获取模块501,获取终端预加载的网页的截图,作为源图像;第一生成模块502,被配置成识别源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框;第二生成模块503,被配置成若连通域之间的距离小于预设距离阈值,合并连通域,并在合并后的连通域的轮廓外生成第二外接矩形框;图像生成模块504,被配置成基于第一外接矩形框与第二外接矩形框之间的嵌套关系以及第一外接矩形框中的图片,生成目标图像。
在本实施例中,图像生成模块包504包括:初始图像模块,被配置成基于第一外接矩形框与第二外接矩形框之间的嵌套关系,将各第一外接矩形框中的图片组合成初始目标图像;区域识别模块,被配置成确定出初始目标图像的核心区域,初始目标图像中的核心区域为包括初始目标图像中包括预设目标的区域;图像分割模块,被配置成基于预设的剪裁比例和尺寸,分割初始目标图像的图片,得到分割后的核心区域的图片;图片聚合模块,被配置成基于分割后的核心区域的图片的特征信息,聚合分割后的核心区域的图片,得到目标图像,特征信息至少包括以下之一:尺寸、横纵比以及图片的构成属性。
在本实施例中,装置还包括图片识别模块,被配置成在确定除第一外接矩形框中的图片的核心区域之前,执行如下步骤:识别第一外接矩形框中的图片,获得第一外接矩形框中的图片内容对应的识别结果;基于识别结果,将符合预设条件的第一外接矩形框删除。
在本实施例中,图片识别模块还被配置成:将符合预设条件的第一外接矩形框删除之前,基于识别结果,将识别结果对应的第一外接矩形框中的图片存入预设位置。
在本实施例中,装置还包括位置检测模块,被配置成:确定出第一外接矩形框中的图片的核心区域之前,基于第一外接矩形框在源图像中的位置,将处于源图像中预设区域的第一外接矩形框删除。
在本实施例中,该装置还包括清晰度检测模块,被配置成:在生成初始目标图像之前,若第一外接矩形框中的图片的清晰度小于预设清晰度阈值,删除第一外接矩形框。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的计算机可存储介质的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的计算机可存储介质的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的计算机可存储介质的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的计算机可存储介质的方法对应的程序指令/模块(例如,附图5所示的图像获取模块501、第一生成模块502、第二生成模块503和图像生成模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的计算机可存储介质的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机可存储介质的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至计算机可存储介质的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
计算机可存储介质的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与计算机可存储介质的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过对源图像中连通域的识别和合并,分别生成第一外接矩形框和第二外接矩形框,通过第一外接矩形框和第二外接矩形框之间的嵌套关系表征网页中素材之间的空间关系,可以在生成的目标图像中体现出源图像中各个素材之间的空间关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种用于生成图像的方法,包括:
获取终端预加载的网页的截图,作为源图像;
识别所述源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框;
若所述连通域之间的距离小于预设距离阈值,合并所述连通域,并在合并后的连通域的轮廓外生成第二外接矩形框;
基于所述第一外接矩形框与所述第二外接矩形框之间的嵌套关系以及所述第一外接矩形框中的图片,生成目标图像。
2.根据权利要求1所述的方法,其中,基于所述第一外接矩形框与所述第二外接矩形框之间的嵌套关系以及所述第一外接矩形框中的图片,生成目标图像,包括:
基于所述第一外接矩形框与所述第二外接矩形框之间的嵌套关系,将各所述第一外接矩形框中的图片组合成初始目标图像;
确定出所述初始目标图像中的核心区域,所述初始目标图像中的核心区域为所述初始目标图像中包括预设目标的区域;
基于预设的剪裁比例和尺寸,分割所述初始目标图像,得到分割后的核心区域的图片;
基于所述分割后的核心区域的图片的特征信息,聚合所述分割后的核心区域的图片,得到所述目标图像,所述特征信息至少包括以下之一:尺寸、横纵比以及图片的构成属性。
3.根据权利要求2所述的方法,其中,生成初始目标图像之前,所述方法还包括:
识别所述第一外接矩形框中的图片,获得所述第一外接矩形框中的图片内容对应的识别结果;
基于所述识别结果,将符合预设条件的第一外接矩形框删除。
4.根据权利要求3所述的方法,其中,将符合预设条件的第一外接矩形框删除,之前还包括:
基于所述识别结果,将所述识别结果对应的第一外接矩形框中的图片存入预设位置。
5.根据权利要求3所述的方法,其中,生成初始目标图像之前,所述方法还包括:
基于所述第一外接矩形框在所述源图像中的位置,将处于所述源图像中预设区域的第一外接矩形框删除。
6.根据权利要求2至5之一所述的方法,其中,生成初始目标图像之前,所述方法还包括:
若所述第一外接矩形框中的图片的清晰度小于预设清晰度阈值,删除所述第一外接矩形框。
7.一种用于生成图像的装置,包括:
图像获取模块,获取终端预加载的网页的截图,作为源图像;
第一生成模块,被配置成识别所述源图像中的连通域,并在各连通域的轮廓外生成第一外接矩形框;
第二生成模块,被配置成若所述连通域之间的距离小于预设距离阈值,合并所述连通域,并在合并后的连通域的轮廓外生成第二外接矩形框;
图像生成模块,基于所述第一外接矩形框与所述第二外接矩形框之间的嵌套关系以及所述第一外接矩形框中的图片,生成目标图像。
8.根据权利要求7所述的装置,其中,所述图像生成模块包括:
初始图像模块,被配置成基于所述第一外接矩形框与所述第二外接矩形框之间的嵌套关系,将各所述第一外接矩形框中的图片组合成初始目标图像;
区域识别模块,被配置成确定出所述初始目标图像的核心区域,所述初始目标图像中的核心区域为所述初始目标图像中包括预设目标的区域;
图像分割模块,被配置成基于预设的剪裁比例和尺寸,分割所述初始目标图像,得到分割后的核心区域的图片;
图片聚合模块,被配置成基于所述分割后的核心区域的图片的特征信息,聚合所述分割后的核心区域的图片,得到所述目标图像,所述特征信息至少包括以下之一:尺寸、横纵比以及图片的构成属性。
9.根据权利要求8所述的装置,其中,所述装置还包括图片识别模块,被配置成在生成初始目标图像之前,执行如下步骤:
识别所述第一外接矩形框中的图片,获得所述第一外接矩形框中的图片内容对应的识别结果;
基于所述识别结果,将符合预设条件的第一外接矩形框删除。
10.根据权利要求9所述的装置,其中,所述图片识别模块还被配置成:
将符合预设条件的第一外接矩形框删除之前,基于所述识别结果,将所述识别结果对应的第一外接矩形框中的图片存入预设位置。
11.根据权利要求9所述的装置,其中,所述装置还包括位置检测模块,被配置成:
生成所述初始目标图像之前,基于所述第一外接矩形框在所述源图像中的位置,将处于所述源图像中预设区域的第一外接矩形框删除。
12.根据权利要求8至11之一所述的装置,其中,所述装置还包括清晰度检测模块,被配置成:
在生成所述初始目标图像之前,若所述第一外接矩形框中的图片的清晰度小于预设清晰度阈值,删除所述第一外接矩形框。
13.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN202010315358.9A 2020-04-21 2020-04-21 用于生成图像的方法及装置 Active CN113538450B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010315358.9A CN113538450B (zh) 2020-04-21 2020-04-21 用于生成图像的方法及装置
EP21163538.8A EP3828766A3 (en) 2020-04-21 2021-03-18 Method, apparatus, sotrage medium and program for generating image
US17/207,564 US11810333B2 (en) 2020-04-21 2021-03-19 Method and apparatus for generating image of webpage content
KR1020210037804A KR102648760B1 (ko) 2020-04-21 2021-03-24 이미지 생성 방법 및 장치
JP2021052215A JP7213291B2 (ja) 2020-04-21 2021-03-25 画像を生成するための方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010315358.9A CN113538450B (zh) 2020-04-21 2020-04-21 用于生成图像的方法及装置

Publications (2)

Publication Number Publication Date
CN113538450A true CN113538450A (zh) 2021-10-22
CN113538450B CN113538450B (zh) 2023-07-21

Family

ID=75108280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010315358.9A Active CN113538450B (zh) 2020-04-21 2020-04-21 用于生成图像的方法及装置

Country Status (5)

Country Link
US (1) US11810333B2 (zh)
EP (1) EP3828766A3 (zh)
JP (1) JP7213291B2 (zh)
KR (1) KR102648760B1 (zh)
CN (1) CN113538450B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984066B2 (en) * 2019-01-02 2021-04-20 Zyte Group Limited System and method for a web scraping tool and classification engine
KR20230075006A (ko) 2021-11-22 2023-05-31 주식회사 신세계아이앤씨 상품 배너 자동 제작 및 관리 가능한 배너제작관리시스템
CN114943113B (zh) * 2022-07-26 2022-11-01 江西少科智能建造科技有限公司 多边形房间内布置散流器方法、系统、存储介质及设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN102893277A (zh) * 2010-05-19 2013-01-23 惠普发展公司,有限责任合伙企业 用于使用自适应阈限计算的网页分割的系统和方法
EP2633432A1 (en) * 2010-10-26 2013-09-04 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
US20150055851A1 (en) * 2013-08-23 2015-02-26 Vistaprint Technologies Limited Methods and systems for automated selection of regions of an image for secondary finishing and generation of mask image of same
WO2015139469A1 (zh) * 2014-03-21 2015-09-24 小米科技有限责任公司 网页调整方法、装置及电子设备
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN107330465A (zh) * 2017-06-30 2017-11-07 清华大学深圳研究生院 一种图像目标识别方法及装置
CN107748888A (zh) * 2017-10-13 2018-03-02 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN109711508A (zh) * 2017-10-25 2019-05-03 北京京东尚科信息技术有限公司 图像处理方法和装置
CN109951654A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
WO2019169772A1 (zh) * 2018-03-06 2019-09-12 平安科技(深圳)有限公司 图片处理方法、电子装置及存储介质
CN110555839A (zh) * 2019-09-06 2019-12-10 腾讯云计算(北京)有限责任公司 缺陷检测识别方法、装置、计算机设备及存储介质
WO2020000879A1 (zh) * 2018-06-27 2020-01-02 北京字节跳动网络技术有限公司 图像识别方法和装置
US20200057788A1 (en) * 2018-08-15 2020-02-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for generating entity relationship data, and storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5794154B2 (ja) 2012-01-23 2015-10-14 富士通株式会社 画像処理プログラム、画像処理方法、及び画像処理装置
WO2017165774A1 (en) 2016-03-25 2017-09-28 Quad Analytix Llc Systems and methods for multi-modal automated categorization

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102893277A (zh) * 2010-05-19 2013-01-23 惠普发展公司,有限责任合伙企业 用于使用自适应阈限计算的网页分割的系统和方法
EP2633432A1 (en) * 2010-10-26 2013-09-04 Hewlett-Packard Development Company, L.P. Extraction of content from a web page
US20130283148A1 (en) * 2010-10-26 2013-10-24 Suk Hwan Lim Extraction of Content from a Web Page
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
US20150055851A1 (en) * 2013-08-23 2015-02-26 Vistaprint Technologies Limited Methods and systems for automated selection of regions of an image for secondary finishing and generation of mask image of same
WO2015139469A1 (zh) * 2014-03-21 2015-09-24 小米科技有限责任公司 网页调整方法、装置及电子设备
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN107330465A (zh) * 2017-06-30 2017-11-07 清华大学深圳研究生院 一种图像目标识别方法及装置
CN107748888A (zh) * 2017-10-13 2018-03-02 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN109711508A (zh) * 2017-10-25 2019-05-03 北京京东尚科信息技术有限公司 图像处理方法和装置
WO2019169772A1 (zh) * 2018-03-06 2019-09-12 平安科技(深圳)有限公司 图片处理方法、电子装置及存储介质
WO2020000879A1 (zh) * 2018-06-27 2020-01-02 北京字节跳动网络技术有限公司 图像识别方法和装置
US20200057788A1 (en) * 2018-08-15 2020-02-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for generating entity relationship data, and storage medium
CN109951654A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
CN110555839A (zh) * 2019-09-06 2019-12-10 腾讯云计算(北京)有限责任公司 缺陷检测识别方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孔倩倩;赵辽英;张莉;: "基于图像轮廓分析的室内窗户检测", 计算机与现代化, no. 04, pages 56 - 61 *
李艳玲,王加俊: "基于模式链分析的文本页面图像的分割与分类", 中国图象图形学报, no. 06, pages 741 - 745 *
贾柯祯;: "基于文档对象模型和图像处理的网页分割方法", 现代计算机(专业版), no. 08, pages 52 - 54 *

Also Published As

Publication number Publication date
US20210264614A1 (en) 2021-08-26
JP7213291B2 (ja) 2023-01-26
CN113538450B (zh) 2023-07-21
US11810333B2 (en) 2023-11-07
EP3828766A2 (en) 2021-06-02
EP3828766A3 (en) 2021-10-06
KR102648760B1 (ko) 2024-03-15
KR20210040305A (ko) 2021-04-13
JP2021152901A (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
CN113538450B (zh) 用于生成图像的方法及装置
EP4053802A1 (en) Video classification method and apparatus, device and storage medium
WO2022227768A1 (zh) 动态手势识别方法、装置、设备以及存储介质
US11275935B2 (en) Patent analysis applications and corresponding user interface features
US20210350541A1 (en) Portrait extracting method and apparatus, and storage medium
CN114550177A (zh) 图像处理的方法、文本识别方法及装置
EP4080469A2 (en) Method and apparatus of recognizing text, device, storage medium and smart dictionary pen
CN114117128A (zh) 视频标注的方法、系统及设备
CN114218889A (zh) 文档处理及文档模型的训练方法、装置、设备和存储介质
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN113837194B (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
US11881044B2 (en) Method and apparatus for processing image, device and storage medium
CN108734718B (zh) 用于图像分割的处理方法、装置、存储介质及设备
CN116259064B (zh) 表格结构识别方法、表格结构识别模型的训练方法及装置
CN114882313B (zh) 生成图像标注信息的方法、装置、电子设备及存储介质
CN115719444A (zh) 图像质量确定方法、装置、电子设备和介质
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN115376137A (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN114882283A (zh) 样本图像生成方法、深度学习模型的训练方法和装置
CN114661904A (zh) 文档处理模型的训练方法、装置、设备、存储介质及程序
CN114066790A (zh) 图像生成模型的训练方法、图像生成方法、装置和设备
US20230119741A1 (en) Picture annotation method, apparatus, electronic device, and storage medium
CN115147850B (zh) 文字生成模型的训练方法、文字生成方法及其装置
CN115048283A (zh) 页面测试方法、装置、设备、存储介质及程序
CN114998903A (zh) 文本遮挡区域检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant