CN105653625A - 一种异常数据分析方法及装置 - Google Patents

一种异常数据分析方法及装置 Download PDF

Info

Publication number
CN105653625A
CN105653625A CN201510995235.3A CN201510995235A CN105653625A CN 105653625 A CN105653625 A CN 105653625A CN 201510995235 A CN201510995235 A CN 201510995235A CN 105653625 A CN105653625 A CN 105653625A
Authority
CN
China
Prior art keywords
url
enterprise
product
causes
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510995235.3A
Other languages
English (en)
Other versions
CN105653625B (zh
Inventor
乔景亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Songwang Information Technology Co ltd
Original Assignee
ZHENGZHOU XIZHI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHENGZHOU XIZHI INFORMATION TECHNOLOGY Co Ltd filed Critical ZHENGZHOU XIZHI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510995235.3A priority Critical patent/CN105653625B/zh
Publication of CN105653625A publication Critical patent/CN105653625A/zh
Application granted granted Critical
Publication of CN105653625B publication Critical patent/CN105653625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种异常数据分析方法及装置,可以从网站运行日志中获取指示引起404故障的记录信息,当记录信息中的目标URL为企业URL时,基于第一预设规则对企业URL进行判断;当记录信息中的目标URL为产品URL时,基于第二预设规则对产品URL进行判断,实现通过不同预设规则分别对企业URL和产品URL的判断,并且当判断出企业URL或产品URL引起的404故障是相应的搜索引擎导致时,则会指示删除引起404故障的企业URL或产品URL,避免在使用这些URL时再次引起404故障,使得网站的稳定性提高,并且在网站的稳定性提高的情况下,搜索引擎被用户收录的概率增加,进而提高搜索引擎的收录率。

Description

一种异常数据分析方法及装置
技术领域
本发明属于数据处理技术领域,更具体的说,尤其涉及一种异常数据分析方法及装置。
背景技术
网站运行日志是一个记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,通过网站运行日志可以清楚的得到用户在什么IP(InternetProtocol,网络互连协议)地址、什么时间下采用什么操作系统以及何种浏览器的情况下访问了哪个网站提供的页面以及可以清楚的获知访问是否成功,因此通过网站运行日志中记载的信息可以确定网站运行过程中发生的异常故障。
目前在异常故障中最主要的故障是404故障,其中404故障是客户端在浏览404页面时无法得到正确信息,其无法得到正确信息的原因是:服务器无法正常提供信息,或是服务器无法回应且不知道要返回哪个页面,如果404故障频发,将影响访问者的访问次数和搜索引擎的收录率,因此需要及时分析404故障的原因并处理,保证网站的稳定性。
发明内容
有鉴于此,本发明的目的在于提供一种异常数据分析方法及装置,用于对404故障进行分析以删除导致404故障的页面,从而提高搜索引擎的收录率以及网站的稳定性。技术方案如下:
本发明提供一种异常数据分析方法,所述方法包括:
从网站运行日志中获取指示引起404故障的记录信息;
当所述记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对所述企业URL进行判断;
当判断出所述企业URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的企业URL;
当所述记录信息中的目标URL为产品URL时,基于第二预设规则对所述产品URL进行判断;
当判断出所述产品URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的产品URL。
优选地,所述当所述记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对所述企业URL进行判断,包括:
当所述目标URL为企业URL时,获得所述企业URL对应的企业标识信息;
基于所述企业标识信息,确定企业状态;
基于所述企业状态,对所述企业URL进行判断。
优选地,所述基于所述企业状态,对所述企业URL进行判断,包括:
当所述企业状态为禁言状态或关闭状态时,确定所述企业URL引起的404故障是相应的搜索引擎导致;
当所述企业状态是拘审状态时,自动向相应的搜索引擎发送所述企业URL;
当未接收到所述搜索引擎反馈的与所述企业URL对应的页面时,确定所述企业URL引起的404故障是相应的搜索引擎导致。
优选地,所述当所述记录信息中的目标URL为产品URL时,基于第二预设规则对所述产品URL进行判断,包括:
当所述目标URL为产品URL时,得所述产品URL对应的产品标识信息;
基于所述产品标识信息,确定产品状态;
基于所述产品状态,对所述产品URL进行判断。
优选地,所述基于所述产品状态,对所述产品URL进行判断,包括:
当所述产品状态为删除状态时,确定所述产品URL引起的404故障是相应的搜索引擎导致;
当所述产品状态为拘审状态时,自动向相应的搜索引擎发送所述产品URL;
当未接收到所述搜索引擎反馈的与所述产品URL对应的页面时,确定所述产品URL引起的404故障是相应的搜索引擎导致。
本发明提供一种异常数据分析装置,所述装置包括:
获取单元,用于从网站运行日志中获取指示引起404故障的记录信息;
第一判断单元,用于当所述记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对所述企业URL进行判断;
第一删除单元,用于当判断出所述企业URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的企业URL;
第二判断单元,用于当所述记录信息中的目标URL为产品URL时,基于第二预设规则对所述产品URL进行判断;
第二删除单元,用于当判断出所述产品URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的产品URL。
优选地,所述第一判断单元,包括:
第一获取子单元,用于当所述目标URL为企业URL时,获得所述企业URL对应的企业标识信息;
第一确定子单元,用于基于所述企业标识信息,确定企业状态;
第一判断子单元,用于基于所述企业状态,对所述企业URL进行判断。
优选地,所述第一判断子单元用于,当所述企业状态为禁言状态或关闭状态时,确定所述企业URL引起的404故障是相应的搜索引擎导致,以及用于当所述企业状态是拘审状态时,自动向相应的搜索引擎发送所述企业URL,并且当未接收到所述搜索引擎反馈的与所述企业URL对应的页面时,确定所述企业URL引起的404故障是相应的搜索引擎导致。
优选地,所述第二判断单元,包括:
第二获取子单元,用于当所述目标URL为产品URL时,获得所述产品URL对应的产品标识信息;
第二确定子单元,用于基于所述产品标识信息,确定产品状态;
第二判断子单元,用于基于所述产品状态,对所述产品URL进行判断。
优选地,所述第二判断子单元用于,当所述产品状态为删除状态时,确定所述产品URL引起的404故障是相应的搜索引擎导致,以及用于当所述产品状态为拘审状态时,自动向相应的搜索引擎发送所述产品URL,并且当未接收到所述搜索引擎反馈的与所述产品URL对应的页面时,确定所述产品URL引起的404故障是相应的搜索引擎导致。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
本发明提供的上述技术方案可以从网站运行日志中获取指示引起404故障的记录信息,当记录信息中的目标URL为企业URL时,基于第一预设规则对企业URL进行判断;当记录信息中的目标URL为产品URL时,基于第二预设规则对产品URL进行判断,实现通过不同预设规则分别对企业URL和产品URL的判断,并且当判断出企业URL或产品URL引起的404故障是相应的搜索引擎导致时,则会指示删除引起404故障的企业URL或产品URL,避免在使用这些URL时再次引起404故障,使得网站的稳定性提高,并且在网站的稳定性提高的情况下,搜索引擎被用户收录的概率增加,进而提高搜索引擎的收录率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的异常数据分析方法的流程图;
图2是本发明实施例提供的异常数据分析装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的异常数据分析方法的流程图,可以包括以下步骤:
101:从网站运行日志中获取指示引起404故障的记录信息,前已述及,通过网站运行日志可以清楚的得到用户在什么IP地址、什么时间下采用什么操作系统以及何种浏览器的情况下访问了哪个网站提供的页面以及可以清楚的获知访问是否成功,这就意味着网站运行日志中存储有指示网站日常运行情况的记录信息,如记录信息包括但不限于:访问时间、访问浏览器、目标统一资源定位符(UniformResourceLocator,URL)和访问来源等。
其中访问时间,用于指示用户在何时访问网站,访问浏览器则用于指示采用何种类型的浏览器对网站进行访问,目标URL则用于指示具体访问哪个网站的页面,访问来源指示由哪个搜索引擎提供网站。
102:当记录信息中的目标URL为企业URL时,基于第一预设规则对企业URL进行判断,以判断企业URL引起的404故障是否是相应的搜索引擎导致的,如果是,则执行步骤103,如果否,说明企业URL引起的404故障是在用户访问网站时由于网速问题导致的,对于由于网速问题导致的404故障的企业URL不进行处理。
在本发明实施例中,基于第一预设规则对企业URL进行判断的可行方式是:当目标URL为企业URL时,获得企业URL对应的企业标识信息,其中企业标识信息作为企业的标识符,其可以将不同企业进行区分,也就是说每个企业具有唯一的企业标识信息,且对于不同企业来说具有不同的企业标识信息。基于企业标识信息,确定企业状态,在获得企业标识信息后,可以从企业信息数据库中查找到与企业标识信息相对应的企业状态,以进一步基于企业状态,对企业URL进行判断。
在本发明实施例中,基于企业状态对企业URL进行判断时,会依据企业状态的不同,得到不同的判断结果,例如当企业状态为禁言状态或关闭状态时,直接确定企业URL引起的404故障是相应的搜索引擎导致。其中当企业状态为禁言状态或者关闭状态,说明企业自身出现问题,那么搜索引擎是无法提供企业对应的网站的,因此在企业状态为禁言或者关闭状态时,可以直接确定企业URL引起的404故障是相应的搜索引擎导致。
当企业状态是拘审状态时,自动向相应的搜索引擎发送企业URL,来测试是否能够接收到搜索引擎反馈的与企业URL对应的页面,如果没有接收到搜索引擎反馈的页面,则说明404故障是搜索引擎导致的;如果接收到搜索引擎反馈的页面,则说明之前出现的404故障是因为网速等非搜索引擎问题导致的,对于此类404故障不进行处理,并且对于非搜索引擎问题导致的404故障,可以向用户反馈提示信息以提醒用户404故障是由网速问题导致,例如可能是由访问浏览器较慢导致的,因此对于非搜索引擎问题导致的404故障可以提醒用户更改访问浏览器。
103:当判断出企业URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的企业URL,避免在使用这些URL时再次引起404故障,使得网站的稳定性提高。
104:当记录信息中的目标URL为产品URL时,基于第二预设规则对产品URL进行判断,以判断产品URL引起的404故障是否是相应的搜索引擎导致的,如果是,则执行步骤105,如果否,说明产品URL引起的404故障是在用户访问网站时由于网速问题导致的,对于由于网速问题导致的404故障的产品URL不进行处理。
在本发明实施例中,基于第二预设规则对产品URL进行判断的可行方式是:当目标URL为产品URL时,获得产品URL对应的产品标识信息,其中产品标识信息作为产品的标识符,其可以将不同产品进行区分,也就是说每个产品具有唯一的产品标识信息,且对于不同产品来说具有不同的产品标识信息。基于产品标识信息,确定产品状态,在获得产品标识信息后,可以从产品信息数据库中查找到与产品标识信息相对应的产品状态,以进一步基于产品状态,对产品URL进行判断。
在本发明实施例中,基于产品状态对产品URL进行判断时,会依据产品状态的不同,得到不同的判断结果,例如当产品状态为删除状态时,直接确定产品URL引起的404故障是相应的搜索引擎导致。其中当产品状态为删除状态,说明产品已经被下架,那么搜索引擎是无法提供产品对应的网站的,因此在产品状态为删除状态时,可以直接确定产品URL引起的404故障是相应的搜索引擎导致。
当产品状态是拘审状态时,自动向相应的搜索引擎发送产品URL,来测试是否能够接收到搜索引擎反馈的与产品URL对应的页面,如果没有接收到搜索引擎反馈的页面,则说明404故障是搜索引擎导致的;如果接收到搜索引擎反馈的页面,则说明之前出现的404故障是因为网速等非搜索引擎问题导致的,对于此类404故障不进行处理,并且对于非搜索引擎问题导致的404故障,可以向用户反馈提示信息以提醒用户404故障是由网速问题导致,例如可能是由访问浏览器较慢导致的,因此对于非搜索引擎问题导致的404故障可以提醒用户更改访问浏览器。
105:当判断出产品URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的产品URL,避免在使用这些URL时再次引起404故障,使得网站的稳定性提高。
从上述技术方案可知,本发明实施例提供的异常数据分析方法可以从网站运行日志中获取指示引起404故障的记录信息,当记录信息中的目标URL为企业URL时,基于第一预设规则对企业URL进行判断;当记录信息中的目标URL为产品URL时,基于第二预设规则对产品URL进行判断,实现通过不同预设规则分别对企业URL和产品URL的判断,并且当判断出企业URL或产品URL引起的404故障是相应的搜索引擎导致时,则会指示删除引起404故障的企业URL或产品URL,避免在使用这些URL时再次引起404故障,使得网站的稳定性提高,并且在网站的稳定性提高的情况下,搜索引擎被用户收录的概率增加,进而提高搜索引擎的收录率。
与上述方法实施例相对应,本发明实施例还提供一种异常数据分析装置,其结构示意图如图2所示,可以包括:获取单元11、第一判断单元12、第一删除单元13、第二判断单元14和第二删除单元15。
获取单元11,用于从网站运行日志中获取指示引起404故障的记录信息,其中记录信息用于记录网站日常运行情况,其包括但不限于:访问时间、访问浏览器、目标URL和访问来源等。访问时间,用于指示用户在何时访问网站,访问浏览器则用于指示采用何种类型的浏览器对网站进行访问,目标URL则用于指示具体访问哪个网站的页面,访问来源指示由哪个搜索引擎提供网站。
第一判断单元12,用于当记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对企业URL进行判断。
第一删除单元13,用于当判断出企业URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的企业URL。
在本发明实施例中第一判断单元12基于第一预设规则对企业URL进行判断,可以判断出企业URL引起的404故障是否是相应的搜索引擎导致的,如果是则触发第一删除单元13指示删除引起404故障的企业URL,以避免在使用这些URL时再次引起404故障,使得网站的稳定性提高。
其中第一判断单元12可以包括:第一获取子单元、第一确定子单元和第一判断子单元。
第一获取子单元,用于当目标URL为企业URL时,获得企业URL对应的企业标识信息,其中企业标识信息作为企业的标识符,其可以将不同企业进行区分,也就是说每个企业具有唯一的企业标识信息,且对于不同企业来说具有不同的企业标识信息。第一确定子单元,用于基于企业标识信息,确定企业状态,在获得企业标识信息后,可以从企业信息数据库中查找到与企业标识信息相对应的企业状态,以进一步触发第一判断子单元,用于基于企业状态,对企业URL进行判断。
在本发明实施例中,基于企业状态对企业URL进行判断时,会依据企业状态的不同,得到不同的判断结果,例如当企业状态为禁言状态或关闭状态时,直接确定企业URL引起的404故障是相应的搜索引擎导致。其中当企业状态为禁言状态或者关闭状态,说明企业自身出现问题,那么搜索引擎是无法提供企业对应的网站的,因此在企业状态为禁言或者关闭状态时,可以直接确定企业URL引起的404故障是相应的搜索引擎导致。
当企业状态是拘审状态时,自动向相应的搜索引擎发送企业URL,来测试是否能够接收到搜索引擎反馈的与企业URL对应的页面,如果没有接收到搜索引擎反馈的页面,则说明404故障是搜索引擎导致的;如果接收到搜索引擎反馈的页面,则说明之前出现的404故障是因为网速等非搜索引擎问题导致的,对于此类404故障不进行处理,并且对于非搜索引擎问题导致的404故障,可以向用户反馈提示信息以提醒用户404故障是由网速问题导致,例如可能是由访问浏览器较慢导致的,因此对于非搜索引擎问题导致的404故障可以提醒用户更改访问浏览器。
第二判断单元14,用于当记录信息中的目标URL为产品URL时,基于第二预设规则对产品URL进行判断。
第二删除单元15,用于当判断出产品URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的产品URL。
在本发明实施例中第二判断单元14基于第二预设规则对产品URL进行判断,可以判断出产品URL引起的404故障是否是相应的搜索引擎导致的,如果是则触发第二删除单元15指示删除引起404故障的产品URL,以避免在使用这些URL时再次引起404故障,使得网站的稳定性提高。
其中第二判断单元12可以包括:第二获取子单元、第二确定子单元和第二判断子单元。
第二获取子单元,用于当目标URL为产品URL时,获得产品URL对应的产品标识信息,其中产品标识信息作为产品的标识符,其可以将不同产品进行区分,也就是说每个产品具有唯一的产品标识信息,且对于不同产品来说具有不同的产品标识信息。第二确定子单元,用于基于产品标识信息,确定产品状态,在获得产品标识信息后,可以从产品信息数据库中查找到与产品标识信息相对应的产品状态,以进一步触发第二判断子单元,用于基于产品状态,对产品URL进行判断。
在本发明实施例中,基于产品状态对产品URL进行判断时,会依据产品状态的不同,得到不同的判断结果,例如当产品状态为删除状态时,直接确定产品URL引起的404故障是相应的搜索引擎导致。其中当产品状态为删除状态,说明产品已经被下架,那么搜索引擎是无法提供产品对应的网站的,因此在产品状态为删除状态时,可以直接确定产品URL引起的404故障是相应的搜索引擎导致。
当产品状态是拘审状态时,自动向相应的搜索引擎发送产品URL,来测试是否能够接收到搜索引擎反馈的与产品URL对应的页面,如果没有接收到搜索引擎反馈的页面,则说明404故障是搜索引擎导致的;如果接收到搜索引擎反馈的页面,则说明之前出现的404故障是因为网速等非搜索引擎问题导致的,对于此类404故障不进行处理,并且对于非搜索引擎问题导致的404故障,可以向用户反馈提示信息以提醒用户404故障是由网速问题导致,例如可能是由访问浏览器较慢导致的,因此对于非搜索引擎问题导致的404故障可以提醒用户更改访问浏览器。
从上述技术方案可知,本发明实施例提供的异常数据分析装置可以从网站运行日志中获取指示引起404故障的记录信息,当记录信息中的目标URL为企业URL时,基于第一预设规则对企业URL进行判断;当记录信息中的目标URL为产品URL时,基于第二预设规则对产品URL进行判断,实现通过不同预设规则分别对企业URL和产品URL的判断,并且当判断出企业URL或产品URL引起的404故障是相应的搜索引擎导致时,则会指示删除引起404故障的企业URL或产品URL,避免在使用这些URL时再次引起404故障,使得网站的稳定性提高,并且在网站的稳定性提高的情况下,搜索引擎被用户收录的概率增加,进而提高搜索引擎的收录率。
最后,需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种异常数据分析方法,其特征在于,所述方法包括:
从网站运行日志中获取指示引起404故障的记录信息;
当所述记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对所述企业URL进行判断;
当判断出所述企业URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的企业URL;
当所述记录信息中的目标URL为产品URL时,基于第二预设规则对所述产品URL进行判断;
当判断出所述产品URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的产品URL。
2.根据权利要求1所述的方法,其特征在于,所述当所述记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对所述企业URL进行判断,包括:
当所述目标URL为企业URL时,获得所述企业URL对应的企业标识信息;
基于所述企业标识信息,确定企业状态;
基于所述企业状态,对所述企业URL进行判断。
3.根据权利要求2所述的方法,其特征在于,所述基于所述企业状态,对所述企业URL进行判断,包括:
当所述企业状态为禁言状态或关闭状态时,确定所述企业URL引起的404故障是相应的搜索引擎导致;
当所述企业状态是拘审状态时,自动向相应的搜索引擎发送所述企业URL;
当未接收到所述搜索引擎反馈的与所述企业URL对应的页面时,确定所述企业URL引起的404故障是相应的搜索引擎导致。
4.根据权利要求1所述的方法,其特征在于,所述当所述记录信息中的目标URL为产品URL时,基于第二预设规则对所述产品URL进行判断,包括:
当所述目标URL为产品URL时,得所述产品URL对应的产品标识信息;
基于所述产品标识信息,确定产品状态;
基于所述产品状态,对所述产品URL进行判断。
5.根据权利要求4所述的方法,其特征在于,所述基于所述产品状态,对所述产品URL进行判断,包括:
当所述产品状态为删除状态时,确定所述产品URL引起的404故障是相应的搜索引擎导致;
当所述产品状态为拘审状态时,自动向相应的搜索引擎发送所述产品URL;
当未接收到所述搜索引擎反馈的与所述产品URL对应的页面时,确定所述产品URL引起的404故障是相应的搜索引擎导致。
6.一种异常数据分析装置,其特征在于,所述装置包括:
获取单元,用于从网站运行日志中获取指示引起404故障的记录信息;
第一判断单元,用于当所述记录信息中的目标统一资源定位符URL为企业URL时,基于第一预设规则对所述企业URL进行判断;
第一删除单元,用于当判断出所述企业URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的企业URL;
第二判断单元,用于当所述记录信息中的目标URL为产品URL时,基于第二预设规则对所述产品URL进行判断;
第二删除单元,用于当判断出所述产品URL引起的404故障是相应的搜索引擎导致时,指示删除引起404故障的产品URL。
7.根据权利要求6所述的装置,其特征在于,所述第一判断单元,包括:
第一获取子单元,用于当所述目标URL为企业URL时,获得所述企业URL对应的企业标识信息;
第一确定子单元,用于基于所述企业标识信息,确定企业状态;
第一判断子单元,用于基于所述企业状态,对所述企业URL进行判断。
8.根据权利要求7所述的装置,其特征在于,所述第一判断子单元用于,当所述企业状态为禁言状态或关闭状态时,确定所述企业URL引起的404故障是相应的搜索引擎导致,以及用于当所述企业状态是拘审状态时,自动向相应的搜索引擎发送所述企业URL,并且当未接收到所述搜索引擎反馈的与所述企业URL对应的页面时,确定所述企业URL引起的404故障是相应的搜索引擎导致。
9.根据权利要求6所述的装置,其特征在于,所述第二判断单元,包括:
第二获取子单元,用于当所述目标URL为产品URL时,获得所述产品URL对应的产品标识信息;
第二确定子单元,用于基于所述产品标识信息,确定产品状态;
第二判断子单元,用于基于所述产品状态,对所述产品URL进行判断。
10.根据权利要求9所述的装置,其特征在于,所述第二判断子单元用于,当所述产品状态为删除状态时,确定所述产品URL引起的404故障是相应的搜索引擎导致,以及用于当所述产品状态为拘审状态时,自动向相应的搜索引擎发送所述产品URL,并且当未接收到所述搜索引擎反馈的与所述产品URL对应的页面时,确定所述产品URL引起的404故障是相应的搜索引擎导致。
CN201510995235.3A 2015-12-23 2015-12-23 一种异常数据分析方法及装置 Active CN105653625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510995235.3A CN105653625B (zh) 2015-12-23 2015-12-23 一种异常数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510995235.3A CN105653625B (zh) 2015-12-23 2015-12-23 一种异常数据分析方法及装置

Publications (2)

Publication Number Publication Date
CN105653625A true CN105653625A (zh) 2016-06-08
CN105653625B CN105653625B (zh) 2020-05-12

Family

ID=56477578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510995235.3A Active CN105653625B (zh) 2015-12-23 2015-12-23 一种异常数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN105653625B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789301A (zh) * 2016-12-29 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种生成web网关的运行日志的方法及装置
CN107809337A (zh) * 2017-11-17 2018-03-16 深圳泉眼体育运营管理有限公司 一种日志上传方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663062A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种处理搜索结果中无效链接的方法及装置
CN102681929A (zh) * 2011-03-15 2012-09-19 腾讯科技(深圳)有限公司 网页脚本错误监控方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681929A (zh) * 2011-03-15 2012-09-19 腾讯科技(深圳)有限公司 网页脚本错误监控方法及系统
CN102663062A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种处理搜索结果中无效链接的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789301A (zh) * 2016-12-29 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种生成web网关的运行日志的方法及装置
CN106789301B (zh) * 2016-12-29 2020-11-20 北京神州绿盟信息安全科技股份有限公司 一种生成web网关的运行日志的方法及装置
CN107809337A (zh) * 2017-11-17 2018-03-16 深圳泉眼体育运营管理有限公司 一种日志上传方法及装置

Also Published As

Publication number Publication date
CN105653625B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN102752288B (zh) 网络访问行为识别方法和装置
US20200104292A1 (en) Method and apparatus for integrating multi-data source user information
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN108664559A (zh) 一种网站网页源代码自动爬取方法
CN109905288B (zh) 一种应用服务分类方法及装置
CN111159514B (zh) 网络爬虫的任务有效性检测方法、装置和设备及存储介质
CN102065147A (zh) 一种基于企业应用系统获取用户登录信息的方法及装置
CN103268328B (zh) 二维码的验证方法及搜索引擎服务器
CN109768992A (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN105407186A (zh) 获取子域名的方法和装置
CN104935601B (zh) 基于云的网站日志安全分析方法、装置及系统
CN102780681A (zh) Url过滤系统及过滤url的方法
CN105721406A (zh) 一种获取ip黑名单的方法和装置
CN105635064A (zh) Csrf攻击检测方法及装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN106708859A (zh) 一种资源访问行为的审计方法和装置
CN111031025B (zh) 一种自动化检测验证Webshell的方法及装置
CN108040036A (zh) 一种行业云Webshell安全防护方法
CN102253948A (zh) 在多源信息系统中搜索信息的方法和装置
CN105653625A (zh) 一种异常数据分析方法及装置
EP3824612A1 (de) Penetrationstestverfahren, computerprogramm und vorrichtung zur datenverarbeitung
CN104899320A (zh) 网页修复方法、终端、服务器及系统
CN104363309B (zh) 泛域名识别、处理装置及方法
CN110968779A (zh) 网页信息爬取的处理方法和装置
CN108334629A (zh) 一种基于自动化测试框架的电网设备状态数据获取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240710

Address after: No. 169, science Avenue, high tech Zone, Zhengzhou City, Henan Province, 450000

Patentee after: Henan Songwang Information Technology Co.,Ltd.

Country or region after: China

Address before: 450000 Building 1, building 1, No. 169, science Avenue, high tech Zone, Zhengzhou City, Henan Province

Patentee before: ZHENGZHOU XIZHI INFORMATION TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right