CN108038233B - 一种采集文章的方法、装置、电子设备及存储介质 - Google Patents

一种采集文章的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN108038233B
CN108038233B CN201711435916.XA CN201711435916A CN108038233B CN 108038233 B CN108038233 B CN 108038233B CN 201711435916 A CN201711435916 A CN 201711435916A CN 108038233 B CN108038233 B CN 108038233B
Authority
CN
China
Prior art keywords
target
list page
preset
articles
article list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711435916.XA
Other languages
English (en)
Other versions
CN108038233A (zh
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cnfol Information Technology Co Ltd
Original Assignee
Fujian Cnfol Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cnfol Information Technology Co Ltd filed Critical Fujian Cnfol Information Technology Co Ltd
Priority to CN201711435916.XA priority Critical patent/CN108038233B/zh
Publication of CN108038233A publication Critical patent/CN108038233A/zh
Application granted granted Critical
Publication of CN108038233B publication Critical patent/CN108038233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种采集文章的方法、装置、电子设备及存储介质,属于计算机领域。通过获取目标账户对应的搜索结果,搜索结果包括目标文章列表页,再根据预设的页面分析算法、目标账户的标识和搜索结果,确定目标文章列表页对应的加密链接,然后根据加密链接和预设的链接解密算法,得到目标链接,再根据目标链接获取目标文章列表页,最后获取并存储目标文章列表页中的目标文章。采用本发明提供的方法可以采集网络链接被加密的文章,提高采集文章的数量。

Description

一种采集文章的方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机领域,特别涉及一种采集文章的方法、装置、电子设备及存储介质。
背景技术
随着网络技术的发展,很多作者通过网络平台发表文章,例如,很多作者在微信上注册微信公众号,通过微信公众号发表各种文章。这些文章的数量很多,在作者的允许下,我们可以将相关文章转载到其它的网络平台上。
目前在网络平台上转载文章的方法,通常是使用爬虫软件根据预先设定的网络链接从网络上采集相关的文章,然后将这些文章发布到指定的网络平台上。
然而有些文章对应的网络链接被加密,例如,微信公众号中的文章对应的网络链接就是被加密的,通过现有的爬虫软件不能采集到这些文章。
发明内容
本发明实施例的目的在于提供一种采集文章的方法、装置、电子设备及存储介质,可以采集网络链接被加密的文章,提高采集文章的数量。具体技术方案如下:
第一方面,提供了一种采集文章的方法,所述方法包括:
获取目标账户对应的搜索结果,所述搜索结果包括目标文章列表页;
根据预设的页面分析算法、所述目标账户的标识和所述搜索结果,确定所述目标文章列表页对应的加密链接;
根据所述加密链接和预设的链接解密算法,得到目标链接;
根据所述目标链接获取所述目标文章列表页;
获取并存储所述目标文章列表页中的目标文章。
可选的,所述获取并存储所述目标文章列表页中的目标文章,包括:
根据预设的时间点和预设的采集频率,在所述时间点根据所述预设的采集频率获取并存储所述目标文章列表页中的目标文章。
可选的,所述获取并存储所述目标文章列表页中的目标文章,包括:
根据预设的目标数量,获取并存储所述目标数量个所述目标文章列表页中的目标文章。
可选的,所述获取并存储所述目标文章列表页中的目标文章,包括:
复制所述目标文章列表页中的目标文章,并将所述目标文章存储到预先指定的存储位置。
第二方面,提供了一种采集文章的装置,所述装置包括:
第一获取模块,用于获取目标账户对应的搜索结果,所述搜索结果包括目标文章列表页;
确定模块,用于根据预设的页面分析算法、所述目标账户的标识和所述搜索结果,确定所述目标文章列表页对应的加密链接;
第二获取模块,用于根据所述加密链接和预设的链接解密算法,得到目标链接;
第三获取模块,用于根据所述目标链接获取所述目标文章列表页;
第四获取模块,用于获取并存储所述目标文章列表页中的目标文章。
可选的,所述第四获取模块,还用于:
根据预设的时间点和预设的采集频率,在所述时间点根据所述预设的采集频率获取并存储所述目标文章列表页中的目标文章。
可选的,所述第四获取模块,还用于:
根据预设的目标数量,获取并存储所述目标数量个所述目标文章列表页中的目标文章。
可选的,所述第四获取模块,还用于:
复制所述目标文章列表页中的目标文章,并将所述目标文章存储到预先指定的存储位置。
第三方面,提供了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述第一方面所述的采集文章的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的采集文章的方法步骤。
本发明实施例提供了一种采集文章的方法、装置、电子设备及存储介质,通过获取目标账户对应的搜索结果,搜索结果包括目标文章列表页,再根据预设的页面分析算法、目标账户的标识和搜索结果,确定目标文章列表页对应的加密链接,然后根据加密链接和预设的链接解密算法,得到目标链接,再根据目标链接获取目标文章列表页,最后获取并存储目标文章列表页中的目标文章。采用本发明提供的方法可以采集网络链接被加密的文章,提高采集文章的数量。当然,实施本发明的任一产品或方法不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种采集文章的方法流程图;
图2为本发明实施例提供的一种采集文章的装置结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例公开了一种采集文章的方法、装置、电子设备及存储介质,以下分别进行详细说明,本发明实施例的执行主体可以是终端。
如图1所示,图1为本发明实施例的一种采集文章的方法流程图,包括如下步骤:
步骤101,获取目标账户对应的搜索结果,搜索结果包括目标文章列表页。
在实施中,终端可以根据预设的目标账户,从预先指定的网络服务器中获取该目标账户对应的搜索结果,例如,终端根据预设的微信公众号名称或微信公众号id(identification,识别号),通过搜狗公司的服务器,获取该微信公众号对应的搜索结果。技术人员可以预先设定终端每次从预先指定的网络服务器中获取到的搜索结果的个数。每条所搜结果中通常包含一个加密链接、目标账户名称或者与目标账户相关的内容信息。搜索结果中有一个搜索结果包含目标账户的id,该搜索结果即为目标文章列表页。当技术人员将微信公众号的账户或者微信公众号的id作为目标账户时,终端可以获取该微信公众号对应的搜索结果,搜索结果中有一项搜索结果是该微信公众号对应的文章列表页,该文章列表页中包含该微信公众号发表或转载的文章标题。
步骤102,根据预设的页面分析算法、目标账户的标识和搜索结果,确定目标文章列表页对应的加密链接。
在实施中,终端可以根据预设的页面分析算法,提取各搜索结果对应的加密链接,不同的加密链接中包含的账户的标识通常是不一样的,终端可以根据目标账号的标识(例如,目标账户的id)确定目标文章列表页的加密链接。当技术人员将目标账户的标识设置成微信公众号的id时,终端在获取该微信公众号对应的搜索结果时,根据预设的页面分析算法,提取各搜索结果的加密链接,然后根据微信公众号的id,确定包含该id的加密链接,根据该加密链接,可以进入该微信公众号的文章列表页。
步骤103,根据加密链接和预设的链接解密算法,得到目标链接。
在实施中,终端可以根据预设的链接解密算法,通过修改加密链接中的cookie参数和js等参数,得到加密链接对应的目标链接。
步骤104,根据目标链接获取目标文章列表页。
在实施中,终端可以根据目标链接进入目标链接指定的存储位置,然后从该存储位置获取目标文章列表页。例如,当终端获取微信公众号的文章列表页对应的目标链接后,可以通过该目标链接进入该链接指定的存储位置,然后从该存储位置获取预先存储的该微信公众号的文章列表页。
步骤105,获取并存储目标文章列表页中的目标文章。
在实施中,终端可以根据预设的关键词,确定文章列表页中包含预设关键词的标题(可以称为目标文章的标题),然后通过目标文章的标题对应的链接,获取目标文章的具体内容。终端在获取目标文章的具体内容后,可以将其存储到指定的数据库或指定的存储位置中,终端也可以将目标文章发布到指定的网络平台上。例如,终端在获取微信公众号的文章列表页后,可以根据预设的关键词,从该文章列表页中获取包含该关键词的文章标题,然后通过该标题对应的链接获取该标题对应的具体内容(文章的标题、文章的各段落说明和文章中的附图等);终端也可以根据预先设定的采集文章的算法,通过目标文章列表页获取相应的目标文章。
可选的,终端可以根据预设的时间点和预设的采集频率,在该时间点根据预设的采集频率获取并存储目标文章列表页中的目标文章。
在实施中,技术人员可以预先设定采集目标文章的时间点和采集频率。终端可以根据预设的时间点,在达到该时间点时,根据预设的采集频率,在单位时间内,根据目标文章列表页,获取预设数量个目标文章,并将获取到的目标文章存储到预先指定的位置。例如,在采集微信公众号的文章时,考虑到周末或者夜晚的时间段,使用微信的人数比较多,技术人员则可以将周末或者夜晚时采集的目标文章的数量设置为较大值,然后将这些文章转发到预先指定的微信公众号或者其它网络平台上,增加该微信公众号或网络平台的文章数量。
本发明实施例提供的方案中,终端采集文章的时间点和采集频率都可以预先设定,具体的参数可以根据用户的需求进行预先设定。
可选的,终端可以根据预设的目标数量,获取并存储目标数量个目标文章列表页中的目标文章。
在实施中,技术人员可以预先设定采集目标文章的数量,当终端接收到采集文章的指令时,可以按照目标文章在目标文章列表页中的顺序,依次获取目标文章,当获取到的目标文章数量达到预设的数量时,终端则结束获取目标文章的进程。
本发明实施例提供的方案中,获取目标文章的数量可以预先设定,可以根据用户的需求进行设定。
可选的,终端可以复制目标文章列表页中的目标文章,并将目标文章存储到预先指定的存储位置。
在实施中,终端可以将获取到的目标文章进行复制,然后将复制的文章存储到预先指定的存储位置,这样用户可以直接使用这些目标文章,用户也可以先编辑或筛选这些目标文章,再将这些文章发表到指定的网络平台上。
本发明实施例提供了一种采集文章的方法,通过获取目标账户对应的搜索结果,搜索结果包括目标文章列表页,再根据预设的页面分析算法、目标账户的标识和搜索结果,确定目标文章列表页对应的加密链接,然后根据加密链接和预设的链接解密算法,得到目标链接,再根据目标链接获取目标文章列表页,最后获取并存储目标文章列表页中的目标文章。采用本发明提供的方法可以采集网络链接被加密的文章,提高采集文章的数量。
基于图1相同的技术构思,本发明实施例还提供了一种采集文章的装置,如图2所示,该装置包括:
第一获取模块201,用于获取目标账户对应的搜索结果,所述搜索结果包括目标文章列表页;
确定模块202,用于根据预设的页面分析算法、所述目标账户的标识和所述搜索结果,确定所述目标文章列表页对应的加密链接;
第二获取模块203,用于根据所述加密链接和预设的链接解密算法,得到目标链接;
第三获取模块204,用于根据所述目标链接获取所述目标文章列表页;
第四获取模块205,用于获取并存储所述目标文章列表页中的目标文章。
可选的,所述第四获取模块,还用于:
根据预设的时间点和预设的采集频率,在所述时间点根据所述预设的采集频率获取并存储所述目标文章列表页中的目标文章。
本发明实施例提供的方案中,终端采集文章的时间点和采集频率都可以预先设定,具体的参数可以根据用户的需求进行预先设定。
可选的,所述第四获取模块,还用于:
根据预设的目标数量,获取并存储所述目标数量个所述目标文章列表页中的目标文章。
本发明实施例提供的方案中,获取目标文章的数量可以预先设定,可以根据不同用户的需求进行设定。
可选的,所述第四获取模块,还用于:
复制所述目标文章列表页中的目标文章,并将所述目标文章存储到预先指定的存储位置。
终端可以将获取到的目标文章进行复制,然后将复制的文章存储到预先指定的存储位置,这样用户可以先编辑或筛选这些目标文章,再将这些文章发表到指定的网络平台上。
本发明实施例提供了一种采集文章的装置,通过获取目标账户对应的搜索结果,搜索结果包括目标文章列表页,再根据预设的页面分析算法、目标账户的标识和搜索结果,确定目标文章列表页对应的加密链接,然后根据加密链接和预设的链接解密算法,得到目标链接,再根据目标链接获取目标文章列表页,最后获取并存储目标文章列表页中的目标文章。采用本发明提供的方法可以采集网络链接被加密的文章,提高采集文章的数量。
本发明实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现本发明实施例提供的采集文章的方法。
具体的,上述采集文章的方法,包括:
获取目标账户对应的搜索结果,所述搜索结果包括目标文章列表页;
根据预设的页面分析算法、所述目标账户的标识和所述搜索结果,确定所述目标文章列表页对应的加密链接;
根据所述加密链接和预设的链接解密算法,得到目标链接;
根据所述目标链接获取所述目标文章列表页;
获取并存储所述目标文章列表页中的目标文章。
需要说明的是,上述采集文章的方法的其他实现方式与前述方法实施例部分相同,这里不再赘述。
上述电子设备的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的采集文章的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的采集文章的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本发明实施例提供了一种采集文章的方法、装置、电子设备及存储介质,通过获取目标账户对应的搜索结果,搜索结果包括目标文章列表页,再根据预设的页面分析算法、目标账户的标识和搜索结果,确定目标文章列表页对应的加密链接,然后根据加密链接和预设的链接解密算法,得到目标链接,再根据目标链接获取目标文章列表页,最后获取并存储目标文章列表页中的目标文章。采用本发明提供的方法可以采集网络链接被加密的文章,提高采集文章的数量。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (4)

1.一种采集文章的方法,其特征在于,所述方法包括:
获取目标账户对应的搜索结果,所述搜索结果包括目标文章列表页;
根据预设的页面分析算法提取所述搜索结果中的加密链接,并从提取的加密链接中确定包含所述目标账户的标识的加密链接,作为所述目标文章列表页对应的加密链接;
根据预设的链接解密算法修改所述目标文章列表页对应的加密链接中的cookie参数和js参数,得到目标链接;
根据所述目标链接获取所述目标文章列表页;
根据预设的时间点、预设的采集频率及预设的目标数量,在所述时间点根据所述预设的采集频率获取所述目标文章列表页中的所述目标数量个目标文章;复制所述目标文章列表页中的所述目标数量个目标文章,并将复制的目标文章存储到预先指定的存储位置。
2.一种采集文章的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标账户对应的搜索结果,所述搜索结果包括目标文章列表页;
确定模块,用于根据预设的页面分析算法提取所述搜索结果中的加密链接,并从提取的加密链接中确定包含所述目标账户的标识的加密链接,作为所述目标文章列表页对应的加密链接;
第二获取模块,用于根据预设的链接解密算法修改所述目标文章列表页对应的加密链接中的cookie参数和js参数,得到目标链接;
第三获取模块,用于根据所述目标链接获取所述目标文章列表页;
第四获取模块,用于根据预设的时间点、预设的采集频率及预设的目标数量,在所述时间点根据所述预设的采集频率获取所述目标文章列表页中的所述目标数量个目标文章;复制所述目标文章列表页中的所述目标数量个目标文章,并将复制的目标文章存储到预先指定的存储位置。
3.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1所述的方法步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1所述的方法步骤。
CN201711435916.XA 2017-12-26 2017-12-26 一种采集文章的方法、装置、电子设备及存储介质 Active CN108038233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711435916.XA CN108038233B (zh) 2017-12-26 2017-12-26 一种采集文章的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711435916.XA CN108038233B (zh) 2017-12-26 2017-12-26 一种采集文章的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN108038233A CN108038233A (zh) 2018-05-15
CN108038233B true CN108038233B (zh) 2021-07-23

Family

ID=62101289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711435916.XA Active CN108038233B (zh) 2017-12-26 2017-12-26 一种采集文章的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108038233B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857578B (zh) * 2019-01-31 2021-07-23 维沃移动通信有限公司 一种文本复制方法和电子设备
CN110909270A (zh) * 2019-10-12 2020-03-24 平安普惠企业管理有限公司 文章迁移方法、装置、计算机可读存储介质及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593396A (zh) * 2013-10-08 2014-02-19 北京奇虎科技有限公司 基于浏览器的网络资源的提取方法及装置
CN104951566A (zh) * 2015-07-14 2015-09-30 郑州悉知信息技术有限公司 一种关键词搜索排名确定方法及装置
CN105488400A (zh) * 2014-12-13 2016-04-13 哈尔滨安天科技股份有限公司 一种恶意网页综合检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827129B (zh) * 2010-04-12 2012-08-08 北京志腾新诺科技有限公司 一种信息交互的方法与系统
US8864018B2 (en) * 2011-08-11 2014-10-21 Smart Pj's Llc Providing access to a collection via a plurality of discrete machine-recognizable codes
CN105320740B (zh) * 2015-09-22 2018-10-16 清华大学 微信文章以及公众号的获取方法及获取系统
CN106412024B (zh) * 2016-09-07 2019-10-15 网易无尾熊(杭州)科技有限公司 一种页面获取方法和装置
CN106843912B (zh) * 2017-03-22 2021-01-01 武汉斗鱼网络科技有限公司 页面信息获取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593396A (zh) * 2013-10-08 2014-02-19 北京奇虎科技有限公司 基于浏览器的网络资源的提取方法及装置
CN105488400A (zh) * 2014-12-13 2016-04-13 哈尔滨安天科技股份有限公司 一种恶意网页综合检测方法及系统
CN104951566A (zh) * 2015-07-14 2015-09-30 郑州悉知信息技术有限公司 一种关键词搜索排名确定方法及装置

Also Published As

Publication number Publication date
CN108038233A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
EP2998884B1 (en) Security information management system and security information management method
CN102467633A (zh) 一种安全浏览网页的方法及其系统
CN108255620B (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
EP2951759A2 (en) Method, device and system for publishing merchandise information
CN110909229A (zh) 一种基于模拟浏览器访问的网页数据获取和存储的系统
CN109101607B (zh) 用于搜索区块链数据的方法、装置及存储介质
CN111124480B (zh) 应用程序包的生成方法、装置、电子设备及存储介质
CN114116065B (zh) 获取拓扑图数据对象的方法、装置、及电子设备
CN104348871A (zh) 一种同类账号扩展方法及装置
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
CN108021713B (zh) 一种文档聚类的方法和装置
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
CN111949849B (zh) 鱼类信息的获取方法、装置、电子设备及可读存储介质
CN108959289B (zh) 网站类别获取方法和装置
CN108287831B (zh) 一种url分类方法和系统、数据处理方法和系统
CN107220262B (zh) 信息处理方法和装置
CN105989019B (zh) 一种清洗数据的方法及装置
CN107784054B (zh) 一种页面发布方法和装置
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN112256820A (zh) 一种文档定位方法及装置
CN111723400A (zh) 一种js敏感信息泄露检测方法、装置、设备及介质
CN111178072A (zh) 一种法律条文的确定方法、装置及存储介质
CN111368070A (zh) 热点事件的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant