CN108334629A - 一种基于自动化测试框架的电网设备状态数据获取系统 - Google Patents

一种基于自动化测试框架的电网设备状态数据获取系统 Download PDF

Info

Publication number
CN108334629A
CN108334629A CN201810156451.2A CN201810156451A CN108334629A CN 108334629 A CN108334629 A CN 108334629A CN 201810156451 A CN201810156451 A CN 201810156451A CN 108334629 A CN108334629 A CN 108334629A
Authority
CN
China
Prior art keywords
module
data
page
office
districts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810156451.2A
Other languages
English (en)
Other versions
CN108334629B (zh
Inventor
郑泽忠
杨加利
彭晶
王胜利
钟平川
张亚萌
李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810156451.2A priority Critical patent/CN108334629B/zh
Publication of CN108334629A publication Critical patent/CN108334629A/zh
Application granted granted Critical
Publication of CN108334629B publication Critical patent/CN108334629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于自动化测试框架的电网设备状态数据获取系统,及信息检索领域,特别是在自动数据获取领域和搜索引擎领域。该数据获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登录模块包括:USB Key检测模块、环境测试模块、用户信息记录模块;所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;所述页面解析模块包括:页面树建立模块、信息抽取模块;所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块。本数据获取系统可以高效率,自动化的从南方电网管理系统中获取数据,比人工获取的效率更高,效果更好,是建设基于大数据管理的智能电网的基石。

Description

一种基于自动化测试框架的电网设备状态数据获取系统
技术领域
本发明涉及信息检索领域,特别是在自动数据获取领域和搜索引擎领域。
背景技术
电容型设备,主要包括电容型电流互感器、电压互感器、套管、耦合电容器等,其数量约占变电站设备总数量的40%~50%,是变电站中数量最多的设备,其数据(如缺陷、带电检测、在线监测、预防性试验等数据)因此也是变电站中最为丰富的,且其运行状况与外绝缘情况(如瓷套外表面爬电)、高海拔情况(如密封系统渗漏油)等息息相关,故电容型设备数据呈现出多维度、大数量级、数据分散在多个数据系统中、数据较其余电气设备来说较为齐全,但呈现出一定的冗余等个性特点。现有数据分析工作,数据依赖人工手动获取,未解决数据源偏小的问题,导致数据分析的结论偏泛化,且数据分析工作的结论往往停留在预警层面,而未能体现到对现场运行设备开展监护,导致对生产工作的指导性差。如何高效,大量,自动的从电网系统中获取数据,是建设智能电网分析和预警平台的基础。
网络数据获是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,主要任务是从一个或者若干初始URL开始,根据一定的搜索策略,不断从当前页面上抽取新的URL放入队列,根据一定的网页分析算法过滤与主题无关的链接,访问有关的链接并对网页进行存储、分析和过滤,直到系统达到某一条时停止。网络数据获取技术在很多领域有着广泛的应用,如搜索引擎,大数据分析与挖掘,互联网金融等。目前已经存在的数据获虫搜索算法主要有深度优先搜索,广度优先搜索和深广度优先搜索。根据不同的应用需求,开发相应的搜索策略,实现信息的高效率获取,是网络数据获的关键问题,其研究成果具有很高的应用价值,谷歌,百度是应用数据获技术最成功的公司。电网系统和一般的网站不同,具有保密性高,外网不可访问,结构复杂的特点,通用数据获技术不适用于庞大的电网系统,因此需要针对电网系统的特点设计特定的数据获系统。
发明内容
本发明的目的是针对电网的内部管理系统设计的一种基于自动化测试框架的数据获取系统。
本发明分析南方电网管理系统的构成,页面结构和数据分布,针对电容型设备的特点,对南方电网企业管理系统中电容型设备相关的信息和数据进行自动化获取;根据管理系统的特性,使用自动化测试框架Selenium驱动浏览器访问系统;利用深广度结合的搜索策略,过滤无关URL进行获取;解析电容型设备相关的页面,建立数据库存储解析出的基本信息和数据。因而本发明技术方案为一种基于自动化测试框架的电网设备状态数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登陆模块包括:登陆环境检测模块和USB证书登录模块;所述任务调度模块通过分类获取任务,确定数据存在的子系统以及在子系统中存在的位置,处理页面跳转和查询相关信息的录入工作;所述页面解析模块负责将网页数据转化为树状的数据结构以高效率的查找和解析网页中关键信息;所述过滤模块按照过滤规则从待抓取队列中移除不相关的页面,减少访问页面数以提高数据获取效率;系统首先启动登陆模块登入系统,如果成功则调用任务调度模块跳转到相关的页面,查询数据,然后页面解析模块和过滤模块同时工作,得到相关的数据;所述任务调度模块的工作流程为首先确定抓取的路径,跳转到检索页后确定查询时间范围,再处理部门选择,然后选择地市局,最后触发查询动作,得到相应的工作报告;所述页面解析模块包括:页面树建立模块、信息抽取模块;页面树建立模块根据网页源代码建立树状的数据结构,用树的搜索算法提升网页元素的检索效率;信息抽取模块使用正则表达式字符串处理方法提取需要的信息。
所述登录模块包括:环境测试模块、USB Key检测模块、用户信息记录模块;电网系统处于保密和安全考虑,隔离了外网,只能从电网内部的局域网访问,因此环境测试模块的作用为检测本数据获取系统是否处于电网的局域网中;同时,和一般的系统不同,电网系统无法使用管理员账号密码登录,采用安全系数更高的USB证书方式认证用户;电网内部有系统访问权限的员工配有相应权限的USB证书,USB Key检测模块检测电脑上是否安装证书,只有安装有证书的客户机才可登入电网系统;考虑到电网数据的安全性,登录系统后调用用户信息记录模块保存当前员工的资料和所要查询数据的相关信息,员工作为责任人对相关的数据负责。
所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;因为电网的数据存在于不同的子系统中,确定抓取路径模块根据需要抓取的数据类型沿着不同的路径跳转到相应的页面;查询时间范围模块根据用户输入的时间范围自动处理查询时的时间范围选取;因为电网系统会读取cookie中保存的员工信息,在查询数据时会默认分配员工所在的部门,如果选择搜索部门对查询的结果会造成影响,部门选择模块用来检测搜索条件中的部门范围,如果有默认的部门则去掉,确保查询的结果包含所有部门;系统中的数据由各个地市局上传,以地市局为单位进行管理,地市局选择模块用来处理检索数据时的地市局选项,如果没有指定特定的地市局,则循环检索所有地市局,否则自动处理相关选定的地市局。
所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块;关键字识别模块根据实际需求确定搜索的关键字和关键数据搜索范围,任何过滤检索得到的工作报告中不合格的报告,关键数据包括:电压大小、电流大小、电阻大小、电容大小、直流或交流;处理缺失值模块用来处理工作报告中空缺的表格,因为有的工作报告数据不全;网页标识模块采用深度优先搜索的方法,检索工作报告中和设备类型相关的关键字,若为出现关键字则将其从待获取队列中去掉。如电容型设备都会测试tanδ,如果报告中没有tanδ关键字,将其从待获取队列中去掉。
本数据获取系统可以高效率,自动化的从南方电网管理系统中获取数据,比人工获取的效率更高,效果更好,是建设基于大数据管理的智能电网的基石。
附图说明
图1本发明一种基于自动化测试框架的电网管理数据获取系统的结构图。
具体实施方式
本发明一种基于自动化测试框架的电网管理数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登录模块包括:USB Key检测模块、环境测试模块、用户信息记录模块;所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;所述页面解析模块包括:页面树建立模块、信息抽取模块;所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块。
下面详细说明本发明数据获取系统的工作过程。
步骤1:登录模块利用自动化测试框架Selenium驱动32位的IE webdriver,环境测试模块检测是否位于内部局域网,USB Key检测模块检测主机是否安装USB根证书,如果是,登陆管理系统,并启动用户信息记录模块;
Selenium,是一个用于Web应用程序测试的框架,底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真实用户所做的一样。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Google Chrome等。
电网内部管理系统的前端基于JSP设计。JSP全名为Java Server Pages,中文名叫Java服务器页面,它是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准。由于管理系统前端兼容性问题,只有通过32位的IE浏览器才能访问。电网系统内部信息具有敏感性,因此无法从外网访问,因此数据获取系统必须部署在其内部的局域网中,所以第一步是访问管理系统的地址,检测当前环境是否位于内网中。
管理系统具有严格的访问权限,不能通过账号密码登陆,需要员工USB证书才能登陆,因此检测登陆的第二个条件,当前环境是否安装USB证书。如果满足以上两个条件,则切换为证书登陆以获取系统的访问权限。管理系统只兼容32位的IE浏览器,因此使用其他浏览器时会出现检测不到根证书的错误。
步骤2:任务调度模块根据需要获取的数据类型,确定相应的试验报告查询页面的路径,跳转到试验报告查询页,查询时间范围模块,部门选择和地市局选择模块自动处理查询时间范围,部门和地市局,并清空其他无关选项,触发查询按钮的点击操作;
电容型设备的信息以试验报告的形式存在于系统中,在试验报告的查询页,需要输入查询的时间范围,地市局等限制条件,查询指定的试验报告。利用Selenium提供的API和页面中相关的输入框进行交互,自动输入相关信息。使用不同权限的证书登陆时输入框会有一些默认值的比如所属的班组等,需要清空这些无关的输入框,否则会影响查询结果。处理完输入框后触发查询按钮。
步骤3:页面解析模块利用广度优先策略,解析出所有页面的试验报告书名称,再调用过滤模块中的方法,根据关键字过滤不相关的报告,再利用深度优先策略,解析根据标题过滤后的页面URL,逐一访问,根据电容型设备的关键字搜索子页面,过滤无关页面;
根据试验报告名称,过滤不符合要求的报告,如电压(<110kV),班组等。对于符合要求的报告,提取对应的URL放入待访问URL队列。查询结果一般无法在一个页面显示完全,所以检测是否有下一页存在,如果有,跳转到下一页继续过滤,直到过滤完所有报告。
利用深度优先的策略逐一访问待访问URL队列中的页面,检索电容型设备数据的关键字,如tanδ,从待访问URL队列中剔除不含相关关键字的URL。
步骤4:分别访问带抓取URL队列中的页面,解析页面并保存有用的信息和数据。
经过步骤3过滤之后,待访问URL队列中的链接指向的均为电容型设备相关的页面。对这些页面逐个访问和解析。首先利用页面解析模块中的Beautiful Soup建立页面树。Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,它能快速的实现文档的导航,查找和修改。Beautiful Soup根据网页的HTML标签建立搜索树,可以帮助我们快速的解析网页。在试验报告的正文页中,主要解析基本信息中的时间、地点、天气、温度和湿度信息,和工作对象中和设备相关的信息。作业过程中的试验数据以表格的形式存在,因此需要解析表格的表头和表格中的数据,保存的时候需要把表头和对应的行、列对应起来,进行结构化存储。一次作业可能产生多个表格,所以还需对表格的标签进行区分。最后将解析到的数据保存到数据库中,建立索引以方便后面查询。

Claims (4)

1.一种基于自动化测试框架的电网设备状态数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登陆模块包括:登陆环境检测模块和USB证书登录模块;所述任务调度模块通过分类获取任务,确定数据存在的子系统以及在子系统中存在的位置,处理页面跳转和查询相关信息的录入工作;所述页面解析模块负责将网页数据转化为树状的数据结构以高效率的查找和解析网页中关键信息;所述过滤模块按照过滤规则从待抓取队列中移除不相关的页面,减少访问页面数以提高数据获取效率;系统首先启动登陆模块登入系统,如果成功则调用任务调度模块跳转到相关的页面,查询数据,然后页面解析模块和过滤模块同时工作,得到相关的数据;所述任务调度模块的工作流程为首先确定抓取的路径,跳转到检索页后确定查询时间范围,再处理部门选择,然后选择地市局,最后触发查询动作,得到相应的工作报告;所述页面解析模块包括:页面树建立模块、信息抽取模块;页面树建立模块根据网页源代码建立树状的数据结构,用树的搜索算法提升网页元素的检索效率;信息抽取模块使用正则表达式字符串处理方法提取需要的信息。
2.如权利要求1所述的一种基于自动化测试框架的电网设备状态数据获取系统,其特征在于所述登录模块包括:环境测试模块、USB Key检测模块、用户信息记录模块;电网系统处于保密和安全考虑,隔离了外网,只能从电网内部的局域网访问,因此环境测试模块的作用为检测本数据获取系统是否处于电网的局域网中;同时,和一般的系统不同,电网系统无法使用管理员账号密码登录,采用安全系数更高的USB证书方式认证用户;电网内部有系统访问权限的员工配有相应权限的USB证书,USB Key检测模块检测电脑上是否安装证书,只有安装有证书的客户机才可登入电网系统;考虑到电网数据的安全性,登录系统后调用用户信息记录模块保存当前员工的资料和所要查询数据的相关信息,员工作为责任人对相关的数据负责。
3.如权利要求1所述的一种基于自动化测试框架的电网设备状态数据获取系统,其特征在于所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;因为电网的数据存在于不同的子系统中,确定抓取路径模块根据需要抓取的数据类型沿着不同的路径跳转到相应的页面;查询时间范围模块根据用户输入的时间范围自动处理查询时的时间范围选取;部门选择模块用来检测搜索条件中的部门范围,如果有默认的部门则去掉,确保查询的结果包含所有部门;系统中的数据由各个地市局上传,以地市局为单位进行管理,地市局选择模块用来处理检索数据时的地市局选项,如果没有指定特定的地市局,则循环检索所有地市局,否则自动处理相关选定的地市局。
4.如权利要求1所述的一种基于自动化测试框架的电网设备状态数据获取系统,其特征在于所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块;关键字识别模块根据实际需求确定搜索的关键字和关键数据搜索范围,任何过滤检索得到的工作报告中不合格的报告,关键数据包括:电压大小、电流大小、电阻大小、电容大小、直流或交流;处理缺失值模块用来处理工作报告中空缺的表格,因为有的工作报告数据不全;网页标识模块采用深度优先搜索的方法,检索工作报告中和设备类型相关的关键字,若为出现关键字则将其从待获取队列中去掉。
CN201810156451.2A 2018-02-24 2018-02-24 一种基于自动化测试框架的电网设备状态数据获取系统 Active CN108334629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810156451.2A CN108334629B (zh) 2018-02-24 2018-02-24 一种基于自动化测试框架的电网设备状态数据获取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810156451.2A CN108334629B (zh) 2018-02-24 2018-02-24 一种基于自动化测试框架的电网设备状态数据获取系统

Publications (2)

Publication Number Publication Date
CN108334629A true CN108334629A (zh) 2018-07-27
CN108334629B CN108334629B (zh) 2022-06-03

Family

ID=62929842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810156451.2A Active CN108334629B (zh) 2018-02-24 2018-02-24 一种基于自动化测试框架的电网设备状态数据获取系统

Country Status (1)

Country Link
CN (1) CN108334629B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978511A (zh) * 2019-04-09 2019-07-05 艾伯资讯(深圳)有限公司 基于网页爬取的项目管理检查系统及方法
CN113064911A (zh) * 2020-01-02 2021-07-02 北京中关村科金技术有限公司 查询方法、装置以及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065597A1 (en) * 2006-08-25 2008-03-13 Oracle International Corporation Updating content index for content searches on networks
CN102255870A (zh) * 2010-05-19 2011-11-23 上海可鲁系统软件有限公司 一种分布式网络中的安全认证方法及系统
CN202904579U (zh) * 2012-11-20 2013-04-24 四川省电力公司广安电业局 基于互联网的电力行业风险监控搜索分析引擎装置
CN103715767A (zh) * 2013-12-20 2014-04-09 国家电网公司 智能电网信息集成与展示平台
CN104102981A (zh) * 2014-07-31 2014-10-15 国家电网公司 一种配电设备管理系统的电子工单处理方法
CN104320358A (zh) * 2014-09-28 2015-01-28 国家电网公司 一种电力通信网中的QoS业务控制方法
CN104539053A (zh) * 2014-12-31 2015-04-22 国家电网公司 基于爬虫技术的电力调度自动化巡检机器人及巡检方法
CN104851206A (zh) * 2015-05-25 2015-08-19 华北电力大学 一种基于usbkey的电费在线支付系统
CN104911816A (zh) * 2015-06-15 2015-09-16 张光明 一种平铺织网式生产设备及方法
CN106302550A (zh) * 2016-10-21 2017-01-04 成都智达电力自动控制有限公司 一种用于智能变电站自动化的信息安全方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065597A1 (en) * 2006-08-25 2008-03-13 Oracle International Corporation Updating content index for content searches on networks
CN102255870A (zh) * 2010-05-19 2011-11-23 上海可鲁系统软件有限公司 一种分布式网络中的安全认证方法及系统
CN202904579U (zh) * 2012-11-20 2013-04-24 四川省电力公司广安电业局 基于互联网的电力行业风险监控搜索分析引擎装置
CN103715767A (zh) * 2013-12-20 2014-04-09 国家电网公司 智能电网信息集成与展示平台
CN104102981A (zh) * 2014-07-31 2014-10-15 国家电网公司 一种配电设备管理系统的电子工单处理方法
CN104320358A (zh) * 2014-09-28 2015-01-28 国家电网公司 一种电力通信网中的QoS业务控制方法
CN104539053A (zh) * 2014-12-31 2015-04-22 国家电网公司 基于爬虫技术的电力调度自动化巡检机器人及巡检方法
CN104851206A (zh) * 2015-05-25 2015-08-19 华北电力大学 一种基于usbkey的电费在线支付系统
CN104911816A (zh) * 2015-06-15 2015-09-16 张光明 一种平铺织网式生产设备及方法
CN106302550A (zh) * 2016-10-21 2017-01-04 成都智达电力自动控制有限公司 一种用于智能变电站自动化的信息安全方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978511A (zh) * 2019-04-09 2019-07-05 艾伯资讯(深圳)有限公司 基于网页爬取的项目管理检查系统及方法
CN113064911A (zh) * 2020-01-02 2021-07-02 北京中关村科金技术有限公司 查询方法、装置以及存储介质
CN113064911B (zh) * 2020-01-02 2024-04-19 北京中关村科金技术有限公司 查询方法、装置以及存储介质

Also Published As

Publication number Publication date
CN108334629B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN100390786C (zh) 信息解析方法以及装置
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN101369276B (zh) 一种Web浏览器缓存数据的取证方法
CN106095979B (zh) Url合并处理方法和装置
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN104899219B (zh) 伪静态url的筛除方法、系统及网页爬取方法、系统
CN102663052B (zh) 一种提供搜索引擎搜索结果的方法及装置
KR100968126B1 (ko) 웹쉘 탐지 시스템 및 웹쉘 탐지 방법
Bourguignon et al. Beta‐Diversity of termite assemblages among primary French Guiana rain forests
CN109657119A (zh) 一种基于访问日志ip分析的网络爬虫检测方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
WO2017063274A1 (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN105868290A (zh) 一种展现搜索结果的方法及装置
CN104268289B (zh) 链接url的失效检测方法和装置
CN110968571A (zh) 面向金融信息服务的大数据分析与处理平台
CN103312692B (zh) 链接地址安全性检测方法及装置
CN112395513A (zh) 一种舆情传播力分析方法
CN109558555A (zh) 基于人工免疫危险理论的微博水军检测方法及检测系统
CN108334629A (zh) 一种基于自动化测试框架的电网设备状态数据获取系统
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN103605744A (zh) 网站搜索引擎流量数据的分析方法及装置
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
CN104363309B (zh) 泛域名识别、处理装置及方法
KR100989320B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서
KR101614736B1 (ko) 텍스트 데이터 마이닝을 통한 확산 예측 기반 크롤링 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant