CN110620657A - 网页文字处理方法、系统及装置 - Google Patents

网页文字处理方法、系统及装置 Download PDF

Info

Publication number
CN110620657A
CN110620657A CN201910784813.7A CN201910784813A CN110620657A CN 110620657 A CN110620657 A CN 110620657A CN 201910784813 A CN201910784813 A CN 201910784813A CN 110620657 A CN110620657 A CN 110620657A
Authority
CN
China
Prior art keywords
font file
web page
webpage
character
decryption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910784813.7A
Other languages
English (en)
Inventor
张耀华
刘振宇
胡寅骏
孙沛基
张嘉锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co Ltd
Original Assignee
Shanghai Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co Ltd filed Critical Shanghai Science And Technology Development Co Ltd
Priority to CN201910784813.7A priority Critical patent/CN110620657A/zh
Publication of CN110620657A publication Critical patent/CN110620657A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页文字处理方法、系统及装置,所述网页文字处理方法包括:获取网页加密后的网页源代码;对所述网页源代码进行处理,以获取所述网页的字体文件;对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。利用本发明可以轻松获取加密网页的正确页面内容。

Description

网页文字处理方法、系统及装置
技术领域
本发明信息处理技术领域,特别涉及网页文字处理方法、系统及装置。
背景技术
随着大数据,人工智能领域的发展,数据变得尤为重要,爬虫是一种获取网络公开内容最常用的方法,然而在一些情况下网站为保证信息安全,时常会采用加密处理,通过爬虫爬取的网页内容是加密后的网页源代码,网页源代码中的加密部分会出现乱码的情况,从而导致爬取的网页内容为错误的内容,不能使用,拿不到数据会对公司未来发展造成很大影响。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种网页文字处理方法、系统及装置,用于解决现有技术中利用爬虫爬取加密的网页内容时不能获取正确页面内容的技术问题。
为实现上述目的及其他相关目的,本发明提供一种网页文字处理方法,所述网页文字处理方法包括:
获取网页加密后的网页源代码;
对所述网页源代码进行处理,以获取所述网页的字体文件;
对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;
加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;
将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;
利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。
在一实施例中,在所述获取网页加密后的网页源代码的步骤中,利用爬虫爬取网页加密后的网页源代码。
在一实施例中,所述网页文字处理方法还包括,将所述解密词典存储于存储单元中,当需要对所述网页密文进行解密时,从所述存储单元中调用所述解密词典。
在一实施例中,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,判定所述字体文件是否已经存在,如果存在,则直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。
在一实施例中,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件;如果两者不同,则更新所述解密词典。
在一实施例中,更新所述解密词典时,同时记录更新时间。
在一实施例中,在对所述字体文件进行处理之前还包括步骤,判定所述字体文件是否已经存在,如果存在,则直接调用和所述字体文件对应的所述解密词典。
在一实施例中,所述网页源代码包括所述网页的待解密密文及所述字体文件的网址。
在一实施例中,所述字体文件包括字体二进制源文件。
为实现上述目的及其他相关目的,本发明还提供一种网页文字处理系统,所述网页文字处理系统包括:
源码获取单元,用于获取网页加密后的网页源代码;
字体文件获取单元,对所述网页源代码进行处理,以获取所述网页的字体文件;
字符密码获取单元,对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;
字符明码获取单元,用于加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;
解密词典建立单元,用于将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;
解密单元,用于利用获取的所述解密词典对所述网页的网页密文进行解密,以获取正确的网页明文。
在一实施例中,所述网页文字处理系统还包括存储单元,用于存储所述揭秘词典,当需要对所述网页的网页密文进行解密时,从所述存储单元中调用所述解密词典。
在一实施例中,所述字体文件获取单元还用于网判定所述字体文件是否已经存在,如果存在,则所述解密单元直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。
在一实施例中,所述字体文件获取单元还用于对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。
为实现上述目的及其他相关目的,本发明还提供一种服务装置,所述服务装置包括:
存储器,用于存储计算机程序;
处理器,连接所述存储器,用于运行所述计算机程序以执行上述任意一项所述的网页文字处理方法。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;所述计算机程序运行时执行上述任意一项所述的网页文字处理方法。
与普通爬虫相比,本发明的网页文字处理方法能够轻松获取加密网页的正确页面内容;
本发明的解密词典可以直接加载到存储设备,出现加密内容时直接调用词典解密,方便快捷;
与普通爬虫相比,本发明的网页文字处理方法适应性更广,不仅能爬取不加密页面,也可以爬取加密页面;
本发明的网页文字处理方法具有可扩展性,如果有其它页面加密方式,可以直接将解密词典添加入解密库,后续调用即可;
本发明的网页文字处理方法实现方式简单,可以以比较简单的方式获取需要数据。
附图说明
图1显示为本发明的网页文字处理方法的流程示意图。
图2显示为本发明的一种字体文件解析后的映射关系图。
图3显示为本发明的网页文字处理系统的框图。
图4显示为本发明的服务装置框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-4。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本发明的实施例介绍一种网页文字处理方法,可用于对加密网页的加密文本进行解密,从而解析获取网页的正确内容。所述网页文字处理方法包括以下步骤,步骤S10、获取网页加密后的网页源代码;步骤S20、对所述网页源代码进行处理,以获取所述网页的字体文件;步骤S30、对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;步骤S40、加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;步骤S50、将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;步骤S60、利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。
在步骤S10中,为了获取网页加密后的网页源代码,可以利用python,java等语言撰写网络爬虫代码,然后利用编写好的爬虫代码根据需要自动爬取网页的内容,获取加密后的网页源代码,所述网页源代码中包含待解密文字(待解密密文)及字体文件的统一资源定位符 (Uniform Resource Locator,URL),字体文件的URL也即字体文件的网址;需要说明的是,虽然网页的显示界面的内容是可读的,但是通过爬虫代码爬取的网页源代码中加密部分的内容会乱码的。
作为示例,例如为了获取网址https://maoyan.com/?channel=touch_group中的内容,就需要抓取该网页的源代码,在该网站的显示界面显示有以下内容:
哪吒之魔童降世 552.03万
而利用网络爬虫获取的网页源代码中相应的内容中,数字“552.03”部分的内容为乱码,不能提取出正确的内容,需要说明的是,乱码的表现形式会因不同浏览器渲染出现效果不能不一样。
在步骤S20中,对步骤S10中获取的网页源代码进行解析处理,以获取字体文件的网址,并根据所述字体文件的网址获取所述网页的字体文件;具体地,通过解析步骤S10中获取的网页源代码,在样式区中找到字体文件的URL,利用requests、urllib等工具模块抓取字体文件的URL中的内容,其中,所述字体文件例如是字体二进制源文件。当然也可以采用其它合适的能够用于抓取URL中内容的工具模块获取所述字体文件。
作为示例,从网址https://maoyan.com/?channel=touch_group的源代码中的字体文件的URL 为https://vfile.meituan.net/colorstone/be6942fbc98f0823594644ed8 aa2dcaf2288.woff,需要说明的是,不同的网址中的所采用的字体文件并不完全形同。
需要说明的是,不同浏览器,支持的字体文件不同,但映射关系是一样的。
在步骤S20中,还包括对获取的字体文件进行存储的过程,例如可以存储该字体文件的哈希值,用于与以后获取的字体文件新型比较。
例如,在步骤S20中,基于安全考虑,同一网站会更改字体文件的内容,即使字体文件的名称不变,但其内部内容可能会发生变化,为了获取正确的网页内容,需要对解密词典进行及时更新。具体地,对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件的哈希值(hash值),如果两者不同,则对新获取的字体文件进行识别处理 (也即执行步骤S30-S50的步骤),以更新所述解密词典,同时记录更新时间,并记录不同源文件所用解密词典;如果相同,则不执行相关操作。
例如,在本实施例中,在步骤S20中,获取字体文件后,需要判定所述字体文件是否已经存在,如果存在,则直接从存储单元107中调用和所述字体文件对应的所述解密词典来执行步骤S60的步骤,而不需要继续执行步骤S30-S50的步骤,如果不存在,则继续执行后续的步骤S30-S60。具体地,判定一字体文件是否已存在,可以比较该字体文件与其他字体文件的哈希值,如果相同,则证明该字体文件已存在,反之,则证明该字体文件不存在。
在步骤S30中,利用fontTools等工具模块解析所述字体文件,将字体文件中所有发生映射的文字(字符)unicode代码找出,作为字符密码。图2所示为一种字体文件解析后的映射关系,如uni751F对应字符“备”,而正常映射关系中uni751F对应字符“生”,网站正常显示是“备”,而爬虫抓取的是“生”,而本发明的目的就是拿到一种映射关系,能够将“生”映射为“备”。
在步骤S40中,利用python(但不限于python)中pillow模块的ImageFont,ImageDraw, Image等工具模块包加载步骤S20中获取的字体文件,并在新建的空白图片中绘制步骤S30得到的所有unicode编码对应的字符,图片中得到的字符即为明码,需要说明的是,只所以加载所述字体文件,是因为所述字体文件中包含每个unicode编码所对应的字符的矢量图,可以根据所述矢量图,画出所述字体文件中各unicode编码所对应的字符。
在步骤S50中,将步骤S30得到的密码与步骤S40明码得到的一一对应,以密码为键,以明码为值建立字典,具体地,利用tesseract软件或其他文字识别软件识别步骤S40中空白图片中绘制出的明码,将密码和明码对应,组成解密词典。
作为示例,通过文字识别方法识别图2中的字符的正确编码,如还识别图2中的字符“备”,其对应正确的的unicode编码是uni5709,而正常映射关系中uni751F对应字符“生”,这样就可以建立映射关系:uni5709对应uni751F,前者uni5709是密方,后者uni751F为明文;对所有出现的字体都建立相应的影射关系,即得到解密字典。
在步骤S50中,还包括将所述解密词典存储于存储单元107中,当需要对所述网页密文进行解密时,从所述存储单元107中调用所述解密词典。所述存储单元107例如可以是内存,例如redis,其中,redis是一个Key-Value存储系统。通过将解密词典存储于存储单元107中,可以更方便的调用解密词典来完成解密仓做。
在步骤S60中,提取网页内容,利用步骤S50中建立的解密词典,将网页中出现的密文字符转换为对应的明码字符,即完成解密。
作为示例,即可将源网页中出现uni5709的位置替换为uni751F,这样正常输出后得到的数据即为正常可读数据。
在步骤S60中,对于重复出现的其他网页,例如同一网站下的多个网页页面(使用相同的字体文件),可以利用一个解密词典对所有页面内容进行解密。
如图所示,本发明的实施例还公开一种网页文字处理系统,所述网页文字处理系统包括,源码获取单元101,用于获取网页加密后的网页源代码;字体文件获取单元102,对所述网页源代码进行处理,以获取所述网页的字体文件;字符密码获取单元103,对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;字符明码获取单元104,用于加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;解密词典建立单元105,用于将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;解密单元106,用于利用获取的所述解密词典对所述网页的网页密文进行解密,以获取正确的网页明文。
在本实施例中,所述网页文字处理系统还包括存储单元107,用于存储所述揭秘词典,当需要对所述网页的网页密文进行解密时,从所述存储单元107中调用所述解密词典。
需要说明的是,在所述网页文字处理系统中,所述存储单元107也用于存储字体文件获取单元102获取的字体文件,以方便后续调用。
在本实施例中,所述字体文件获取单元102还用于网判定所述字体文件是否已经存在,如果存在,则所述解密单元106直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。
在本实施例中,所述字体文件获取单元102还用于对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。具体地,比较不同时间获取的所述字体文件的哈希值(hash值),如果两者不同,则依次经过所述字符密码获取单元103、所述字符明码获取单元104及所述解密词典建立单元105,以完成所述解密词典的更新,同时记录更新时间,并记录不同源文件所用解密词,若果相同,则不执行相关操作。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;所述计算机程序运行时执行上述任意一项所述的网页文字处理方法。
需要说明的是,与普通爬虫相比,本发明的网页文字处理方法能够轻松获取加密网页的正确页面内容本发明的解密词典可以直接加载到存储设备,出现加密内容时直接调用存储在存储单元中的解密词典进行解密,方便快捷;与普通爬虫相比,本发明的网页文字处理方法适应性更广,不仅能爬取不加密页面,也可以爬取加密页面;本发明的网页文字处理方法具有可扩展性,如果有其它页面加密方式,可以直接将解密词典添加入解密库,后续调用即可;本发明的网页文字处理方法实现方式简单,可以以比较简单的方式获取需要需要数据。
需要说明的是,在本实施例中,上述各单元的功能详见上文中的各步骤,在此不做赘述。
需要说明的是,上述的各功能单元,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元通过处理元件调用软件的形式实现,部分单元通过硬件的形式实现。此外这些单元全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
需要说明的是,如图4所示,本实施例的网页文字处理方法可以通过一个服务装置1来实现,所述服务装置包括相互连接的存储器13和处理器11,所述存储器11存储有计算机程序,该程序被所述处理器11执行时实现所述网页文字处理方法。
需要说明的是,当需要和外部进行通信时,所述服务装置还包括通信器12,所述通信器 12与所述处理器11连接。
上述的处理器11可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件;上述的存储器13可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
需要说明的是,上述存储器13中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
本发明实施例中还可以提供一种计算机存储介质,其存储有计算机程序,该程序被处理器执行时实现所述的焊缝物量管控方法;所述计算机存储介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如:半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。
在本文的描述中,提供了许多特定细节,诸如部件和/或方法的实例,以提供对本发明实施例的完全理解。然而,本领域技术人员将认识到可以在没有一项或多项具体细节的情况下或通过其他设备、系统、组件、方法、部件、材料、零件等等来实践本发明的实施例。在其他情况下,未具体示出或详细描述公知的结构、材料或操作,以避免使本发明实施例的方面变模糊。
在整篇说明书中提到“一个实施例(one embodiment)”、“实施例(anembodiment)”或“具体实施例(a specific embodiment)”意指与结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中,并且不一定在所有实施例中。因而,在整篇说明书中不同地方的短语“在一个实施例中(in one embodiment)”、“在实施例中(inan embodiment)”或“在具体实施例中(in a specific embodiment)”的各个表象不一定是指相同的实施例。此外,本发明的任何具体实施例的特定特征、结构或特性可以按任何合适的方式与一个或多个其他实施例结合。应当理解本文所述和所示的发明实施例的其他变型和修改可能是根据本文教导的,并将被视作本发明精神和范围的一部分。
还应当理解还可以以更分离或更整合的方式实施附图所示元件中的一个或多个,或者甚至因为在某些情况下不能操作而被移除或因为可以根据特定应用是有用的而被提供。
另外,除非另外明确指明,附图中的任何标志箭头应当仅被视为示例性的,而并非限制。此外,除非另外指明,本文所用的术语“或”一般意在表示“和/或”。在术语因提供分离或组合能力是不清楚的而被预见的情况下,部件或步骤的组合也将视为已被指明。
如在本文的描述和在下面整篇权利要求书中所用,除非另外指明,“一个(a)”、“一个(an)”和“该(the)”包括复数参考物。同样,如在本文的描述和在下面整篇权利要求书中所用,除非另外指明,“在…中(in)”的意思包括“在…中(in)”和“在…上(on)”。
本发明所示实施例的上述描述(包括在说明书摘要中所述的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例,但是正如本领域技术人员将认识和理解的,各种等效修改是可以在本发明的精神和范围内的。如所指出的,可以按照本发明所述实施例的上述描述来对本发明进行这些修改,并且这些修改将在本发明的精神和范围内。
本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外,已经给出了各种具体细节以提供本发明实施例的总体理解。然而,相关领域的技术人员将会认识到,本发明的实施例可以在没有一个或多个具体细节的情况下进行实践,或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下,并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。
因而,尽管本发明在本文已参照其具体实施例进行描述,但是修改自由、各种改变和替换意在上述公开内,并且应当理解,在某些情况下,在未背离所提出发明的范围和精神的前提下,在没有对应使用其他特征的情况下将采用本发明的一些特征。因此,可以进行许多修改,以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例,但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而,本发明的范围将只由所附的权利要求书进行确定。

Claims (10)

1.一种网页文字处理方法,其特征在于,包括:
获取网页加密后的网页源代码;
对所述网页源代码进行处理,以获取所述网页的字体文件;
对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;
加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;
将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;
利用获取的所述解密词典对所述网页的待解密密文进行解密,以获取正确的网页明文。
2.根据权利要求1所述网页文字处理方法,其特征在于,所述网页文字处理方法还包括,将所述解密词典存储于存储单元中,当需要对所述网页密文进行解密时,从所述存储单元中调用所述解密词典。
3.根据权利要求2所述网页文字处理方法,其特征在于,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,判定所述字体文件是否已经存在,如果存在,则直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。
4.根据权利要求1-3任意一项所述网页文字处理方法,其特征在于,所述对所述网页源代码进行处理,以获取所述网页的字体文件的步骤还包括,对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。
5.一种网页文字处理系统,其特征在于,包括:
源码获取单元,用于获取网页加密后的网页源代码;
字体文件获取单元,对所述网页源代码进行处理,以获取所述网页的字体文件;
字符密码获取单元,对所述字体文件进行处理,以获取所述字体文件中所有预定义字符的字符编码,作为字符密码;
字符明码获取单元,用于加载所述字体文件,并获取所述字体文件中所有预定义字符的所述字符编码对应的字符明码;
解密词典建立单元,用于将获取的所述字符密码与所述字符明码进行对应,以建立解密词典;
解密单元,用于利用获取的所述解密词典对所述网页的网页密文进行解密,以获取正确的网页明文。
6.根据权利要求5所述网页文字处理系统,其特征在于,所述网页文字处理系统还包括存储单元,用于存储所述揭秘词典,当需要对所述网页的网页密文进行解密时,从所述存储单元中调用所述解密词典。
7.根据权利要求5所述网页文字处理系统,其特征在于,所述字体文件获取单元还用于网判定所述字体文件是否已经存在,如果存在,则所述解密单元直接调用与所述字体文件对应的所述解密词典来对所述网页的待解密密文进行解密,以获取正确的网页明文。
8.根据权利要求5-7任意一项所述网页文字处理系统,其特征在于,所述字体文件获取单元还用于对同一所述字体文件每隔一段时间重复访问一次,并比较不同时间获取的所述字体文件。
9.一种服务装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,连接所述存储器,用于运行所述计算机程序以执行如权利要求1~4中任意一项所述的网页文字处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;所述计算机程序运行时执行如权利要求1~4中任意一项所述的网页文字处理方法。
CN201910784813.7A 2019-08-23 2019-08-23 网页文字处理方法、系统及装置 Withdrawn CN110620657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910784813.7A CN110620657A (zh) 2019-08-23 2019-08-23 网页文字处理方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910784813.7A CN110620657A (zh) 2019-08-23 2019-08-23 网页文字处理方法、系统及装置

Publications (1)

Publication Number Publication Date
CN110620657A true CN110620657A (zh) 2019-12-27

Family

ID=68921989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910784813.7A Withdrawn CN110620657A (zh) 2019-08-23 2019-08-23 网页文字处理方法、系统及装置

Country Status (1)

Country Link
CN (1) CN110620657A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259628A (zh) * 2020-02-18 2020-06-09 北京金堤科技有限公司 网页信息提取方法和装置、电子设备和存储介质
CN111539025A (zh) * 2020-05-07 2020-08-14 北京五八信息技术有限公司 一种页面展示方法、装置、电子设备及存储介质
CN111753494A (zh) * 2020-07-06 2020-10-09 浪潮卓数大数据产业发展有限公司 基于selenium的woff字体解密方法及系统
CN111881648A (zh) * 2020-08-06 2020-11-03 上海触讯信息科技有限公司 一种生成电子书字体文件的方法
CN111901332A (zh) * 2020-07-27 2020-11-06 北京百川盈孚科技有限公司 网页内容反爬方法及系统
CN114020987A (zh) * 2022-01-06 2022-02-08 北京微步在线科技有限公司 基于网页的样本数据获取方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543454A (zh) * 2019-01-25 2019-03-29 腾讯科技(深圳)有限公司 一种反爬虫方法及相关设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543454A (zh) * 2019-01-25 2019-03-29 腾讯科技(深圳)有限公司 一种反爬虫方法及相关设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259628A (zh) * 2020-02-18 2020-06-09 北京金堤科技有限公司 网页信息提取方法和装置、电子设备和存储介质
CN111539025A (zh) * 2020-05-07 2020-08-14 北京五八信息技术有限公司 一种页面展示方法、装置、电子设备及存储介质
CN111898152A (zh) * 2020-05-07 2020-11-06 北京五八信息技术有限公司 一种页面展示方法、电子设备及存储介质
CN111539025B (zh) * 2020-05-07 2021-02-26 北京五八信息技术有限公司 一种页面展示方法、装置、电子设备及存储介质
CN111753494A (zh) * 2020-07-06 2020-10-09 浪潮卓数大数据产业发展有限公司 基于selenium的woff字体解密方法及系统
CN111901332A (zh) * 2020-07-27 2020-11-06 北京百川盈孚科技有限公司 网页内容反爬方法及系统
CN111881648A (zh) * 2020-08-06 2020-11-03 上海触讯信息科技有限公司 一种生成电子书字体文件的方法
CN114020987A (zh) * 2022-01-06 2022-02-08 北京微步在线科技有限公司 基于网页的样本数据获取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110620657A (zh) 网页文字处理方法、系统及装置
US10963542B2 (en) Blockchain-based image processing method and apparatus
US9203863B2 (en) System and method for preventing web crawler access
US8874932B2 (en) Method for order invariant correlated encrypting of data and SQL queries for maintaining data privacy and securely resolving customer defects
US10891391B2 (en) Remote file storage with multiple access levels
CN111881422B (zh) 基于区块链的图片处理方法及装置
CN111008348A (zh) 反爬虫方法、终端、服务器及计算机可读存储介质
CN106845167A (zh) 一种apk的加固方法和装置,及动态加载方法和装置
CN111651468A (zh) 基于sql解析的数据更新方法、装置、电子设备及存储介质
US10922422B2 (en) Blockchain-based image processing method and apparatus
US9665732B2 (en) Secure Download from internet marketplace
CN108460116B (zh) 搜索方法、装置、计算机设备、存储介质及搜索系统
CN113609147A (zh) 数据共享方法、装置及电子设备
CN111104693A (zh) 一种Android平台软件数据破解方法、终端设备及存储介质
US11003783B1 (en) Searchable encrypted data stores
US11403456B2 (en) Application-based font previewing
CN114297274A (zh) 大数据抽取方法、装置、计算机设备和存储介质
CN115686380B (zh) 一种文件存储的方法、装置、计算机设备及存储介质
KR101556908B1 (ko) 프로그램 보호 장치
CN109344574B (zh) 一种基于说明书的自适应安卓加固方法
CN116644096A (zh) 文件导出方法、装置、计算机设备和存储介质
CN113918997A (zh) 数据管理系统、数据加密、解密的控制方法及装置
CN116827630A (zh) 卡片业务信息的可搜索加密方法、装置、设备和存储介质
CN111753237A (zh) 网络视图的预加载方法、装置、设备及存储介质
CN117744121A (zh) 设备文件管理方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191227