CN104281626B - 基于图片化处理的网页展示方法及网页展示装置 - Google Patents

基于图片化处理的网页展示方法及网页展示装置 Download PDF

Info

Publication number
CN104281626B
CN104281626B CN201310293720.7A CN201310293720A CN104281626B CN 104281626 B CN104281626 B CN 104281626B CN 201310293720 A CN201310293720 A CN 201310293720A CN 104281626 B CN104281626 B CN 104281626B
Authority
CN
China
Prior art keywords
picture
block
webpage
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310293720.7A
Other languages
English (en)
Other versions
CN104281626A (zh
Inventor
陈俊文
潘俊俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310293720.7A priority Critical patent/CN104281626B/zh
Priority to TW102145136A priority patent/TWI598753B/zh
Priority to US14/323,764 priority patent/US9652553B2/en
Priority to EP14747444.9A priority patent/EP3019982A1/en
Priority to PCT/US2014/045616 priority patent/WO2015006237A1/en
Priority to JP2016525404A priority patent/JP2016531346A/ja
Publication of CN104281626A publication Critical patent/CN104281626A/zh
Priority to US15/480,171 priority patent/US10268774B2/en
Application granted granted Critical
Publication of CN104281626B publication Critical patent/CN104281626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种基于图片化处理的网页展示方法,该方法包括:对网页中需要基于图片化处理的文字信息进行预处理,设置显示框架并将所述文字信息分割为文字块;创建一图片生成该图片中每个文字块的位置描述将相应的文字块填充到所述图片中,保存图片并生成调用地址;将所述调用地址和各文字块的位置描述保存为所述网页的元数据;当接收到访问请求时,调用所述网页的元数据,根据调用地址加载所述图片,并根据位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。本申请解决了通过文字图片化方式在网络上公开的信息不容易被网络爬虫等工具爬取,但采用文字图片化又容易造成浏览器对含有多图片的页面展示速度过慢的问题。

Description

基于图片化处理的网页展示方法及网页展示装置
技术领域
本申请涉及网络信息处理领域,具体地说,涉及一种基于图片化处理的网页展示方法及网页展示装置。
背景技术
在互联网络的时代,信息如同大海般没有边际。甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索。我们从信息匮乏的时代一下子走到了信息极大丰富的今天。
在今天,困扰我们的问题不是信息太少,而是太多,信息多得让你无从分辨,无从选择。因此,很早现有技术中就提供一个能够自动在互联网上抓取数据,并可以自动分拣、分析。采用自动识别关键词技术,将你需要的信息从海量的信息中筛选出来。
对于现有技术中,所谓网页数据抓取,即通过网络爬虫等工具获取网页的数据,然后通过程序分析,将有用的数据提取分离出来。现有搜索引擎工作的一部分就是网页数据抽取。比如:编制程序抽取新浪网新闻频道里的这个新闻的标题就是一种网页数据抽取。
相反的现在很多公司都在防止自己的网上信息被别人所获取,即为了防止别的单位或个人通过网页数据抓取技术获得有未经授权的数据。例如:一些公司的产品部门发现自己公司的网站上认证的工商营业执照信息在某些网站上也有展示,推断是通过网络爬虫等工具爬取的,这种非法获取别人信息,没有取得授权人或权利人同意的情况下爬取的信息都是非法的。然而权利人为了公开其身份合法性又不得不公开这些信息在网络上。
因此,为避免在网络上公开信息被网络爬虫等工具爬取到,一些网站采取了将文字图片化的方式进行处理,来避免自己网站上的公开信息被网络爬虫等工具爬取到里面的内容。
然而,上述方式带来的一个缺点,就是当一个页面有非常多这类“文字图片”需要展示的时候,任何一款浏览器都需要发送很多http请求用来展示图片(每张图片一个请求),会非常影响页面展示的前端性能。
综上所述,如何解决目前通过文字图片化方式在网络上公开的信息不容易被网络爬虫等工具爬取,但同时采用文字图片化又容易造成浏览器对含有多图片的页面展示速度过慢,便成为亟待解决的技术问题。
发明内容
有鉴于此,本申请所要解决的技术问题是提供了一种基于图片化处理的网页展示方法及网页展示装置,以解决目前通过文字图片化方式在网络上公开的信息不容易被网络爬虫等工具爬取,但采用文字图片化又容易造成浏览器对含有多图片的页面展示速度过慢的问题。
为了解决上述技术问题,本申请公开了一种基于图片化处理的网页展示方法,包括:
对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块;
创建一图片并生成所述图片中每个文字块的位置描述,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址;
将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据;
当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
进一步地,设置显示框架的操作,进一步包括:识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配。
进一步地,所述预处理的操作中,分割得到的文字块的行宽小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高。
进一步地,所述预处理,还包括:获取每个文字块中的文字样式,根据每个文字块中的文字样式计算每个文字块的尺寸,识别高度最高的文字块,选定所述文字块的高度的整数分之一为门限,根据所述门限及各个文字块的高度将各个文字块分组。
进一步地,所述预处理,还包括:结合每个文字块的尺寸和相应文字块的分组设置各个文字块的拼接组合,并根据所述拼接组合配置用于容纳所有文字块的图片的尺寸。
进一步地,创建一图片的操作,进一步包括:根据所配置的用于容纳所有文字块的图片的尺寸创建所述图片。
进一步地,生成所述图片中每个文字块的位置描述的操作,进一步包括:根据所述图片的尺寸、各个文字块的拼接组合和每个文字块的尺寸,定位每个文字块在所述图片中的边界,并根据每个文字块的边界生成每个文字块的位置描述。
进一步地,所述文字样式,包括以下一种或多种的组合:字体、字号、行高、是否粗体、是否斜体、颜色字体、背景颜色。
还公开了一种基于图片化处理的网页展示装置,包括:依次相连的文字处理模块、图片生成模块、存储控制模块和网页展示模块;其中,
所述文字处理模块,用于对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块;
所述图片生成模块,用于创建一图片并生成所述图片中每个文字块的位置描述,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址;
所述存储控制模块,用于将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据;
所述网页展示模块,用于当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
进一步地,所述文字处理模块,进一步用于识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配。
进一步地,所述文字处理模块,所分割得到的文字块的行宽小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高。
进一步地,所述文字处理模块,还用于获取每个文字块中的文字样式,根据每个文字块中的文字样式计算每个文字块的尺寸,识别高度最高的文字块,选定所述文字块的高度的整数分之一为门限,根据所述门限及各个文字块的高度将各个文字块分组。
进一步地,所述文字处理模块,还用于结合每个文字块的尺寸和相应文字块的分组设置各个文字块的拼接组合,并根据所述拼接组合配置用于容纳所有文字块的图片的尺寸。
进一步地,所述图片生成模块,进一步用于根据所述文字处理模块所配置的用于容纳所有文字块的图片的尺寸创建所述图片。
进一步地,所述图片生成模块,进一步用于根据所述图片的尺寸、各个文字块的拼接组合和每个文字块的尺寸,定位每个文字块在所述图片中的边界,并根据每个文字块的边界生成每个文字块的位置描述。
进一步地,所述文字处理模块,所获取的所述文字样式,包括以下一种或多种的组合:字体、字号、行高、是否粗体、是否斜体、颜色字体、背景颜色。
目前防爬取的技术主要还是通过把文字在服务器端生成多个不同的图片在网站上展示,这样可以用来屏蔽掉一些比较低级的爬虫,但本申请与现有的方案相比,本申请所获得的技术效果:
1)本申请通过采用文字图片化方式在网络上公开的信息不容易被网络爬虫等工具爬取,同时可以确保了在浏览器访问含有多图片的页面时的展示速度。
2)将具有自然语义的文字信息分割成文字块,但是与文字信息的自然语义无关,所述文字块的尺寸是由网页上的显示位置决定的,有利于图片的填充存储以及利于由图片中拾取显示。
3)将很多不规则大小的文字块聚集在一个图片中往往会使图片比较大,本申请通过分组等操作不规则的文字块尽可能紧凑的聚集在一个比较小的区域内,将图片填充的利用率最大化,节省了服务器存储空间,同时也节约了客户端下载量。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请一实施例的基于图片化处理的网页展示方法的方法流程图;
图2是本申请又一实施例的基于图片化处理的网页展示方法的方法流程图。
图3a是本申请一应用实例中的网页显示位置的示意图。
图3b是本申请一应用实例中的填充文字块的图片的示意图。
图3c是本申请又一应用实例中的网页显示位置的示意图。
图3d是本申请又一应用实例中的填充文字块的图片的示意图。
图4是本申请一实施例所述的基于图片化处理的网页展示装置的结构示意图。
图5是本申请一实施例所述的文字处理模块的结构示意图。
具体实施方式
以下将配合图式及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1所示,为本申请一实施例的基于图片化处理的网页展示方法的方法流程图,包括:
步骤101,对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块;
设置显示框架的操作,进一步包括:识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配。这样,分割得到的文字块的行宽小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高。
显然,所述文字块的分割是对具有自然语义的文字信息进行分割,但是与文字信息的自然语义无关,所述文字块的尺寸是根据显示框架的尺寸来确定的。而显示框架是与网页上的显示位置相关的,因此,是为了所述文字块的分割是从利于填充存储和利于拾取显示的角度来考虑的。
步骤102,创建一图片并设置所述图片中每个文字块的位置描述,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址;
在实际操作中,所述生成的调用地址可以使用URL(统一资源定位符,UniformResourceLocator)来实现,当然,本申请并不限于此。
步骤103,将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据;
步骤104,当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
当接收到所述网页的访问请求时,如果没有查找到所述网页的元数据,则需要跳转至步骤101进行执行,生成所述网页的元数据,并进行显示。
如图2所示,为本申请又一实施例的基于图片化处理的网页展示方法的方法流程图,包括:
步骤201,对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块。
设置显示框架的操作,进一步包括:识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配。
需要说明的是,所分割得到的文字块的宽度并不一定都等于所述最大行宽,宽度会因为每个文字块内字的个数和文字样式的不同而变化。因此,所分割得到的文字块的宽度小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高。
因为每个文字块虽然是单行的,但是每个文字块可能具有不同文字样式,不同的文字样式的尺寸是不同的,因此导致每个文字块的尺寸都有可能不同,这给将文字块填充到图片中造成了很大的困难。所以下面需要通过步骤202到步骤203对所有文字块进行梳理。
步骤202,对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,还包括:获取每个文字块中的文字样式,根据每个文字块中的文字样式计算每个文字块的尺寸。
所述文字样式,包括以下一种或多种的组合:字体、字号、行高、是否粗体、是否斜体、颜色字体、背景颜色。
步骤203,对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,还包括:识别高度最高的文字块,选定所述文字块的高度的整数分之一为门限,根据所述门限及各个文字块的高度将各个文字块分组。
所述门限可以选定一个或者多个,例如,“最大高度的文字块行高”、“最大高度的文字块行高/2”、“最大高度的文字块行高/4”、“最大高度的文字块行高/8”等等,当然,本申请并不限于此。通过这些门限划定的范围,将各个文字块分为几组,同组的文字块具有相似的高度。
通过分组化处理,再进行文字块的拼接组合时,更加有利于使所有文字块拼接组合后的外形规则,更贴近于矩形。因为填充使用的图片一般为矩形,这样就可以使图片被填充的空间利用率最大化,从而有效降低所创建、保存的图片的数量,降低对于服务器存储空间的占用。
步骤204,对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,还包括:结合每个文字块的尺寸和相应文字块的分组设置各个文字块的拼接组合,并根据所述拼接组合配置用于容纳所有文字块的图片的尺寸。
步骤205,创建一图片,即,根据所配置的用于容纳所有文字块的图片的尺寸创建所述图片。
步骤206,生成所述图片中每个文字块的位置描述,即,根据所述图片的尺寸、各个文字块的拼接组合和每个文字块的尺寸,定位每个文字块在所述图片中的边界,并根据每个文字块的边界生成每个文字块的位置描述。
步骤207,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址。
步骤208,将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据。
步骤209,当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
当接收到网页的访问请求时,网页开启并进行图片的加载,读取网页上的相应显示位置的代码,执行代码并自动调用相应的所述网页的元数据。
当接收到所述网页的访问请求时,如果没有查找到所述网页的元数据,则需要跳转至步骤201进行执行,生成所述网页的元数据,并进行显示。
设置显示框架并根据所述显示框架将所述文字信息分割为文字块,在实际操作中,可以使用java原生的应用程序编程接口“LineBreakMeasurer”类来实现。以下以一个应用实例来描述。
如图3a、3b所示,分别为本申请一应用实例中的网页显示位置的示意图和填充文字块的图片的示意图。
如图3a所示,网页中需要显示的中文字信息为“中国江苏无锡江阴市***工业园”。识别所述网页的显示位置的最大宽度不够显示“中国江苏无锡江阴市***工业园”,需要分成两行来显示。
通过“LineBreakMeasurer”类计算显示位置的最大宽度能够截取到“中国江苏无锡江阴市***工业园”中的“市”字的位置(如果截取的位置不合适,例如不能截取到完整的字,则相应微调截取位置让出该完整的字),最终获得选定适合的显示框架的最大行宽。
如图3b所示,根据此最大行宽和“中国江苏无锡江阴市***工业园”的行高设置显示框架,使用所述显示框架将“中国江苏无锡江阴市***工业园”分别分割为“中国江苏无锡江阴市”和“***工业园”两个文字块。
在所述步骤104和步骤209中,均包括根据所述网页的元数据中的位置描述由所述图片中拾取相应的文字块显示在所述网页中的相应显示位置的操作,在实际操作中,可以使用CSS(Cascading Style Sheet级联样式表)的方式来实现。
以下一个应用实例来说明如何使用CSS的方式来实现本申请的上述操作。
如图3c、3d所示,分别为本申请又一应用实例中的网页显示位置的示意图和填充文字块的图片的示意图。
在本应用实例中该图片名称为text-image-pic1(如图3d所示)。
在本应用实例中文字块“中国江苏无锡江阴市***工业园”(图3c中黑色框标出)在该图片中的位置描述为“-0px-22px;width:179px;height:22px”,其中,单位px是像素(pixel)。
当接收到网页的访问请求时,网页开启并进行图片的加载,读取网页上的相应显示位置“注册地址”的代码,根据代码调用相应的所述网页的元数据,根据所述网页的元数据中的调用地址加载图片text-image-pic1;
并通过CCS由图片text-image-pic1中截取位置描述为“-0px-22px;width:179px;height:22px”的文字块,这个截取到的部分就是所需要显示的文字块“中国江苏无锡江阴市***工业园”,将这个文字块显示到网页中的相应显示位置“注册地址”上。
所采用的CSS代码可以是:
<p class="text-image-pic1"
style="display:inline-block;vertical-align:middle;background-position:-0px
-22px;width:179px;height:22px;">
</p>
通过上述代码实现了截取显示该图片中的不同文字块。当然本申请还可以采用其他代码方式,因此在这里不再详细赘述。
如图4所示,为本申请一实施例所述的基于图片化处理的网页展示装置的结构示意图,包括:依次相连的文字处理模块401、图片生成模块402、存储控制模块403和网页展示模块404;其中,
所述文字处理模块401,用于对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块;在设置显示框架时,进一步用于识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配,其所分割得到的文字块的行宽小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高;
所述图片生成模块402,用于创建一图片并生成所述图片中每个文字块的位置描述,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址;在创建所述图片时,进一步用于根据所述文字处理模块所配置的用于容纳所有文字块的图片的尺寸创建所述图片;在生成所述位置描述时,进一步用于根据所述图片的尺寸、各个文字块的拼接组合和每个文字块的尺寸,定位每个文字块在所述图片中的边界,并根据每个文字块的边界生成每个文字块的位置描述;
所述存储控制模块403,用于将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据;
所述网页展示模块404,用于当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
如图5所示,为本申请一实施例所述的文字处理模块的结构示意图,所述文字处理模块401,进一步包括:文字分割单元4011、尺寸识别单元4012、文字块分组单元4013和组合配置单元4014。
所述文字分割单元4011,用于设置显示框架,并根据所述显示框架将需要基于图片化处理的文字信息分割为文字块;
所述尺寸识别单元4012,与文字分割单元4011相连,用于获取每个文字块中的文字样式,根据每个文字块中的文字样式计算每个文字块的尺寸,所述文字处理模块,所获取的所述文字样式,包括以下一种或多种的组合:字体、字号、行高、是否粗体、是否斜体、颜色字体、背景颜色。
所述文字块分组单元4013,与尺寸识别单元4012相连,用于识别高度最高的文字块,选定所述文字块的高度的整数分之一为门限,根据所述门限及各个文字块的高度将各个文字块分组。
所述组合配置单元4014,与尺寸识别单元4012和文字块分组单元4013相连,用于结合每个文字块的尺寸和相应文字块的分组设置各个文字块的拼接组合,并根据所述拼接组合配置用于容纳所有文字块的图片的尺寸。
由于方法部分已经对本申请实施例进行了详细描述,这里对实施例中涉及的方法与装置对应部分的展开描述省略,不再赘述。对于装置中具体内容的描述可参考所述方法实施例的内容,这里不再具体限定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (16)

1.一种基于图片化处理的网页展示方法,包括:
对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块;
创建一图片并生成所述图片中每个文字块的位置描述,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址;
将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据;
当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
2.如权利要求1所述的基于图片化处理的网页展示方法,其特征在于,
设置显示框架的操作,进一步包括:识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配。
3.如权利要求2所述的基于图片化处理的网页展示方法,其特征在于,
所述预处理的操作中,分割得到的文字块的行宽小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高。
4.如权利要求1所述的基于图片化处理的网页展示方法,其特征在于,
所述预处理,还包括:获取每个文字块中的文字样式,根据每个文字块中的文字样式计算每个文字块的尺寸,识别高度最高的文字块,选定所述文字块的高度的整数分之一为门限,根据所述门限及各个文字块的高度将各个文字块分组。
5.如权利要求4所述的基于图片化处理的网页展示方法,其特征在于,
所述预处理,还包括:结合每个文字块的尺寸和相应文字块的分组设置各个文字块的拼接组合,并根据所述拼接组合配置用于容纳所有文字块的图片的尺寸。
6.如权利要求1或5所述的基于图片化处理的网页展示方法,其特征在于,
创建一图片的操作,进一步包括:根据所配置的用于容纳所有文字块的图片的尺寸创建所述图片。
7.如权利要求1或5所述的基于图片化处理的网页展示方法,其特征在于,
生成所述图片中每个文字块的位置描述的操作,进一步包括:根据所述图片的尺寸、各个文字块的拼接组合和每个文字块的尺寸,定位每个文字块在所述图片中的边界,并根据每个文字块的边界生成每个文字块的位置描述。
8.如权利要求5所述的基于图片化处理的网页展示方法,其特征在于,
所述文字样式,包括以下一种或多种的组合:字体、字号、行高、是否粗体、是否斜体、颜色字体、背景颜色。
9.一种基于图片化处理的网页展示装置,其特征在于,包括:依次相连的文字处理模块、图片生成模块、存储控制模块和网页展示模块;其中,
所述文字处理模块,用于对网页中需要基于图片化处理的文字信息进行预处理,其中,所述预处理,包括:设置显示框架并根据所述显示框架将所述文字信息分割为文字块;
所述图片生成模块,用于创建一图片并生成所述图片中每个文字块的位置描述,根据所述位置描述将相应的文字块填充到所述图片中,保存填充后的图片并生成所述图片的调用地址;
所述存储控制模块,用于将所述图片的调用地址和所述图片中每个文字块的位置描述对应地保存为所述网页的元数据;
所述网页展示模块,用于当接收到所述网页的访问请求时,调用所述网页的元数据,根据所述网页的元数据中的调用地址加载所述图片,并根据所述网页的元数据中的位置描述从所述图片中拾取相应的文字块显示在所述网页中的相应显示位置。
10.如权利要求9所述的基于图片化处理的网页展示装置,其特征在于,
所述文字处理模块,进一步用于识别所述网页中文字信息的显示位置,并根据所述显示位置的宽度设定所述显示框架的最大行宽,所述显示框架的高度自适应地与所分割的文字信息的单行的行高匹配。
11.如权利要求10所述的基于图片化处理的网页展示装置,其特征在于,
所述文字处理模块,所分割得到的文字块的行宽小于等于所述最大行宽且所述文字块的高度等于所分割的文字信息的单行的行高。
12.如权利要求9所述的基于图片化处理的网页展示装置,其特征在于,
所述文字处理模块,还用于获取每个文字块中的文字样式,根据每个文字块中的文字样式计算每个文字块的尺寸,识别高度最高的文字块,选定所述文字块的高度的整数分之一为门限,根据所述门限及各个文字块的高度将各个文字块分组。
13.如权利要求12所述的基于图片化处理的网页展示装置,其特征在于,
所述文字处理模块,还用于结合每个文字块的尺寸和相应文字块的分组设置各个文字块的拼接组合,并根据所述拼接组合配置用于容纳所有文字块的图片的尺寸。
14.如权利要求9或13所述的基于图片化处理的网页展示装置,其特征在于,
所述图片生成模块,进一步用于根据所述文字处理模块所配置的用于容纳所有文字块的图片的尺寸创建所述图片。
15.如权利要求9或13所述的基于图片化处理的网页展示装置,其特征在于,
所述图片生成模块,进一步用于根据所述图片的尺寸、各个文字块的拼接组合和每个文字块的尺寸,定位每个文字块在所述图片中的边界,并根据每个文字块的边界生成每个文字块的位置描述。
16.如权利要求13所述的基于图片化处理的网页展示装置,其特征在于,
所述文字处理模块,所获取的所述文字样式,包括以下一种或多种的组合:字体、字号、行高、是否粗体、是否斜体、颜色字体、背景颜色。
CN201310293720.7A 2013-07-12 2013-07-12 基于图片化处理的网页展示方法及网页展示装置 Active CN104281626B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201310293720.7A CN104281626B (zh) 2013-07-12 2013-07-12 基于图片化处理的网页展示方法及网页展示装置
TW102145136A TWI598753B (zh) 2013-07-12 2013-12-09 Web page display method and web page display device based on graphic processing
US14/323,764 US9652553B2 (en) 2013-07-12 2014-07-03 Method and device for displaying a web page
PCT/US2014/045616 WO2015006237A1 (en) 2013-07-12 2014-07-07 Method and device for displaying a web page
EP14747444.9A EP3019982A1 (en) 2013-07-12 2014-07-07 Method and device for displaying a web page
JP2016525404A JP2016531346A (ja) 2013-07-12 2014-07-07 ウェブページを表示するための方法およびデバイス
US15/480,171 US10268774B2 (en) 2013-07-12 2017-04-05 Method and device for displaying a web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310293720.7A CN104281626B (zh) 2013-07-12 2013-07-12 基于图片化处理的网页展示方法及网页展示装置

Publications (2)

Publication Number Publication Date
CN104281626A CN104281626A (zh) 2015-01-14
CN104281626B true CN104281626B (zh) 2018-01-19

Family

ID=52256502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310293720.7A Active CN104281626B (zh) 2013-07-12 2013-07-12 基于图片化处理的网页展示方法及网页展示装置

Country Status (6)

Country Link
US (2) US9652553B2 (zh)
EP (1) EP3019982A1 (zh)
JP (1) JP2016531346A (zh)
CN (1) CN104281626B (zh)
TW (1) TWI598753B (zh)
WO (1) WO2015006237A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014218217A1 (de) * 2014-09-11 2016-03-17 Continental Automotive Gmbh Vorrichtung zum induktiven Laden eines Fahrzeuges
CN111813468B (zh) * 2015-04-03 2024-09-13 阿里巴巴(中国)网络技术有限公司 屏蔽网页操作的方法、装置及电子设备
US20170286392A1 (en) * 2015-04-21 2017-10-05 Guangzhou Ucweb Computer Technology Co., Ltd. Method and electronic device for displaying a web page
CN104951309B (zh) * 2015-07-02 2018-07-06 北京京东尚科信息技术有限公司 展示特殊字体的页面装修方法和系统以及一种客户端设备
CN105512227A (zh) * 2015-11-30 2016-04-20 用友优普信息技术有限公司 网页数据加载方法及系统
CN105577684B (zh) * 2016-01-25 2018-09-28 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统
CN107341160B (zh) * 2016-05-03 2020-09-01 北京京东尚科信息技术有限公司 一种拦截爬虫的方法及装置
CN106886544A (zh) 2016-06-06 2017-06-23 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN107045612A (zh) * 2017-01-19 2017-08-15 安徽数洋科技有限公司 一种网页数据的加密方法
CN106921804B (zh) * 2017-04-10 2020-06-16 青岛海信移动通信技术股份有限公司 在终端中创建日程的方法、装置及终端设备
CN107220291B (zh) * 2017-04-25 2020-12-25 深圳中兴网信科技有限公司 网页数据防抓取的方法及系统
CN108196964A (zh) * 2017-12-29 2018-06-22 北京奇虎科技有限公司 一种将数据流模块化的方法和装置
CN109254773B (zh) * 2018-09-19 2022-04-05 广州视源电子科技股份有限公司 骨架页面生成方法、装置、设备和存储介质
CN110502711B (zh) * 2019-07-17 2022-08-26 汉海信息技术(上海)有限公司 页面展示方法、装置、电子设备及可读存储介质
CN111897617B (zh) * 2020-08-12 2021-12-14 腾讯科技(深圳)有限公司 图片加载方法、装置、计算机设备和存储介质
CN113343137A (zh) * 2021-05-19 2021-09-03 深圳海天力电子商务有限公司 优化seo页面生成方法、装置、电子设备及存储介质
CN113283214B (zh) * 2021-06-02 2024-06-04 湖南通远网络股份有限公司 一种基于定性要求的格式自规划系统
CN113536169B (zh) * 2021-06-28 2022-08-05 上海硬通网络科技有限公司 一种网页的文字排版方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101291476A (zh) * 2007-04-17 2008-10-22 张岩 一种在手持设备上将字符显示成图片或动画的方法
CN102890687A (zh) * 2011-07-21 2013-01-23 腾讯科技(北京)有限公司 一种浏览网页组图的方法、系统和装置
CN102955803A (zh) * 2011-08-26 2013-03-06 腾讯科技(深圳)有限公司 一种网站展示方法及浏览器
CN102999512A (zh) * 2011-09-14 2013-03-27 深圳市龙视传媒有限公司 处理文字广告的方法及其系统
CN103186912A (zh) * 2011-12-28 2013-07-03 北京神州泰岳软件股份有限公司 以图片格式展示文字的方法及系统
CN103186742A (zh) * 2011-12-31 2013-07-03 北京新媒传信科技有限公司 一种反文本过滤监控的方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57105085A (en) * 1980-12-23 1982-06-30 Ricoh Co Ltd Cutting system of character region
JP3484284B2 (ja) 1995-12-14 2004-01-06 ブラザー工業株式会社 データ中継システム及びそのシステムに適用されるデータ中継装置
US7657064B1 (en) 2000-09-26 2010-02-02 Digimarc Corporation Methods of processing text found in images
AU2002952711A0 (en) * 2002-11-18 2002-11-28 Typefi Systems Pty Ltd A method of formatting documents
JP4082591B2 (ja) * 2003-05-20 2008-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーション データ編集装置及びプログラム
US20070143298A1 (en) * 2005-12-16 2007-06-21 Microsoft Corporation Browsing items related to email
JP4753755B2 (ja) * 2006-03-14 2011-08-24 富士通株式会社 データ変換方法、装置及びプログラム
US8922563B2 (en) * 2006-09-29 2014-12-30 Rockwell Automation Technologies, Inc. Digital numeric display with adaptive character width
US8296808B2 (en) 2006-10-23 2012-10-23 Sony Corporation Metadata from image recognition
US7949935B2 (en) * 2007-04-27 2011-05-24 International Business Machines Corporation Selecting and rendering a section of a web page
JP2009087168A (ja) * 2007-10-01 2009-04-23 Access Co Ltd コンテンツ表示装置、コンテンツ表示方法、およびコンテンツ表示プログラム
US8161384B2 (en) * 2009-04-23 2012-04-17 Hewlett-Packard Development Company, L.P. Arranging graphic objects on a page with text
JP5026472B2 (ja) * 2009-06-01 2012-09-12 ヤフー株式会社 画像生成装置、画像生成装置の動作方法、および記録媒体
US8910036B1 (en) * 2011-03-04 2014-12-09 Inkling Systems, Inc. Web based copy protection
US20130007586A1 (en) * 2011-06-29 2013-01-03 Renjit Tom Thomas Method and system for creating and using web feed display templates
RU2627096C2 (ru) * 2012-10-30 2017-08-03 Сергей Анатольевич Гевлич Способы изготовления прототипов мультимедиа-презентаций, устройства для изготовления прототипов мультимедиа-презентаций, способы использования устройств для изготовления прототипов мультимедиа-презентаций (варианты)
US9529794B2 (en) * 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101291476A (zh) * 2007-04-17 2008-10-22 张岩 一种在手持设备上将字符显示成图片或动画的方法
CN102890687A (zh) * 2011-07-21 2013-01-23 腾讯科技(北京)有限公司 一种浏览网页组图的方法、系统和装置
CN102955803A (zh) * 2011-08-26 2013-03-06 腾讯科技(深圳)有限公司 一种网站展示方法及浏览器
CN102999512A (zh) * 2011-09-14 2013-03-27 深圳市龙视传媒有限公司 处理文字广告的方法及其系统
CN103186912A (zh) * 2011-12-28 2013-07-03 北京神州泰岳软件股份有限公司 以图片格式展示文字的方法及系统
CN103186742A (zh) * 2011-12-31 2013-07-03 北京新媒传信科技有限公司 一种反文本过滤监控的方法和装置

Also Published As

Publication number Publication date
EP3019982A1 (en) 2016-05-18
US9652553B2 (en) 2017-05-16
TW201502819A (zh) 2015-01-16
US20170286563A1 (en) 2017-10-05
TWI598753B (zh) 2017-09-11
JP2016531346A (ja) 2016-10-06
US10268774B2 (en) 2019-04-23
WO2015006237A1 (en) 2015-01-15
US20150019956A1 (en) 2015-01-15
CN104281626A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN104281626B (zh) 基于图片化处理的网页展示方法及网页展示装置
CN110458918B (zh) 用于输出信息的方法和装置
CN110399291A (zh) 基于图像识别的用户页面测试方法及相关设备
KR20170131669A (ko) 합성 화상을 생성하는 방법 및 장치
US10867119B1 (en) Thumbnail image generation
CN107294918B (zh) 一种钓鱼网页检测方法及装置
CN108089865A (zh) 应用裁剪方法、装置及存储介质
CN112579623B (zh) 存储数据的方法、装置、存储介质及设备
CN110321504B (zh) 一种页面处理方法及装置
CN105653949A (zh) 一种恶意程序检测方法及装置
CN115731313A (zh) Svg格式的图片的处理方法、装置、设备、介质及产品
CN113810375B (zh) webshell检测方法、装置、设备及可读存储介质
CN113591827B (zh) 文本图像的处理方法、装置、电子设备及可读存储介质
US8867837B2 (en) Detecting separator lines in a web page
CN112579947A (zh) 网页元素图的截取方法、装置及电子设备
US20180032487A1 (en) Scalable vector graphics bundles
CN111062385A (zh) 一种用于图像文本信息检测的网络模型构建方法与系统
CN115297042A (zh) 检测不同网络下网页一致性的方法及相关设备
CN103870543A (zh) 一种用于文档文件重构的方法及装置
CN110636105B (zh) 树形图的获取方法和装置、存储介质、电子设备
US11574456B2 (en) Processing irregularly arranged characters
CN113269183A (zh) 一种用于确定文字图片的方法与设备
CN110955854A (zh) 一种热力图生成方法及装置
CN115828023B (zh) 一种通过机器模型识别网络内容敏感度的方法及系统
CN112036412B (zh) 一种网页识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant