CN110245986A - 一种获取互联网金融广告发布机构的方法 - Google Patents

一种获取互联网金融广告发布机构的方法 Download PDF

Info

Publication number
CN110245986A
CN110245986A CN201910516194.3A CN201910516194A CN110245986A CN 110245986 A CN110245986 A CN 110245986A CN 201910516194 A CN201910516194 A CN 201910516194A CN 110245986 A CN110245986 A CN 110245986A
Authority
CN
China
Prior art keywords
domain name
information
icp
organization names
advertising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910516194.3A
Other languages
English (en)
Inventor
张兆心
董群
葛文堂
闫健恩
王伟
赵东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN201910516194.3A priority Critical patent/CN110245986A/zh
Publication of CN110245986A publication Critical patent/CN110245986A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种获取互联网金融广告发布机构的方法,通过获取互联网金融广告以及进行跳转的链接,获得广告目标页面URL与广告目标页面标注的机构名称,再根据获得的广告目标页面URL,分别通过ICP查询获得ICP、WHOIS信息查询获得信息中的机构名称,再通过多渠道统计确定广告发布机构的名称。其解决了现有获取互联网金融广告发布机构的方法耗时较长、准确率较低的技术问题。本发明可广泛应用于网络资源发布机构的获取。

Description

一种获取互联网金融广告发布机构的方法
技术领域
本发明涉及一种获取广告发布机构的方法,特别是涉及一种获取互联网金融广告发布机构的方法。
背景技术
随着网络信息技术的快速发展,对于网络资源追踪技术也相应的提出了更高的要求,金融广告作为一个存在安全隐患的信息,在网络端发布时,需要对其发布机构进行有力的监管,而现有获取互联网金融广告发布机构的方法耗时较长、准确率较低,并且获取信息准确度有待提高。
发明内容
本发明针对现有获取互联网金融广告发布机构的方法耗时较长、准确率较低的技术问题,提供一种耗时短、准确率高、从多维度自动获取互联网金融广告发布机构的方法。
为此,本发明的技术方案是,一种获取互联网金融广告发布机构的方法,包括以下步骤:
(1)获取互联网金融广告以及进行跳转的链接;
(2)将所述步骤(1)中获取的跳转链接进行处理,获得广告目标页面URL与广告目标页面标注的机构名称;
(3)根据步骤(2)中广告目标页面URL,通过ICP查询获得ICP信息中的机构名称;
(4)根据所述步骤(2)中广告目标页面URL通过WHOIS信息查询获得WHOIS信息中的机构名称;
(5)根据步骤(2)中广告目标页面标注的机构名称,步骤(3)中ICP信息下的机构名称与步骤(4)中WHOIS信息下的机构名称,多渠道确定广告发布机构的名称。
优选的,步骤(1)中通过新闻、贴吧、论坛的金融板块以及搜索引擎中以金融关键词为搜索词的页面获取互联网金融广告,对不同网站设置不同的提取规则通过网络爬虫提取广告以及进行跳转的链接。
优选的,步骤(2)中获得广告目标页面URL与广告目标页面标注的机构名称,包括以下步骤:
a.模拟浏览器打开广告进行跳转的链接;
b.获得广告目标页面URL和web页面的源码信息;
c.对步骤b获得的web页面的源码信息,利用正则表达式进行规则的描述,提取广告目标页面标注的机构名称,若目标页面没有标注其所属的机构名称,则对该记录进行置空。
优选的,步骤(3)中获得ICP信息中的机构名称,包括以下步骤:
a.通过获得的URL获得多级域名,依次从低级域名到高级域名,直到二级域名停止;
b.对步骤a获得的多级域名,从低级域名到高级域名依次进行ICP查询,直到存在一个域名查到了ICP信息或者所有的域名都没有查到ICP信息;
c.对步骤b获得的ICP信息进行解析,获得ICP中的单位名称,即为互联网金融广告对应的ICP信息中的机构名称,对没有查到ICP信息的或者ICP信息中没有发现单位名称的互联网金融广告,该字段置为空。
优选地,步骤b中利用域名进行ICP查询,包括以下步骤:
b1.模拟浏览器打开工业和信息化部ICP查询页面;
b2.获得ICP查询页面的6位字母和数字的混合验证图片;
b3.识别验证码,通过权限验证;
b4.将域名填到ICP查询页面的表单中的域名查询位置,提交表单;
b5.获得返回的表单信息,即ICP的查询信息。
优选地,步骤(4)中获得WHOIS信息中的机构名称,包括以下步骤:
a.通过URL获得最低级域名与其上一级域名,作为WHOIS查询的域名;
b.对步骤a中获得的域名,根据域名从低级域名到高级域名进行WHOIS查询,直到获得准确的WHOIS信息,即该广告对应的WHOIS信息;
c.对步骤b中返回的WHOIS进行解析,获得域名所在注册商和域名所有者字段对应的信息,没有对应字段则置空。
优选地,步骤(5)中多渠道确定广告发布机构名称,包括以下步骤:
a.对目标网页标注的机构名称、ICP信息中获得的机构名称、WHOIS信息中的域名所在注册商和域名所有者四个机构名称进行分组统计;
b.选择统计次数最高的分组对应的机构名称;
c.当步骤b中最高统计次数相同时,按照不同渠道获得机构名称的优先级进行选择,选择优先级最高且不为空的渠道对应分组的机构名称。
优选地,步骤a中的分组统计是根据获得的机构名称进行分组,当该渠道获得的机构名词为空时,不进行统计,统计的内容为该名称出现的次数。
优选的,步骤c中的不同渠道获得机构名称的优先级从高到低依次为ICP信息中获得的机构名称、WHOIS信息中的域名所在注册商名称、目标网页标注的机构名称、WHOIS信息中的域名所有者名称。
本发明有益效果是,通过从金融广告获得页面URL和网页中标注的发布机构名称看,再利用域名分别进行ICP查询、WHOIS信息查询获取广告发布机构名称,对获取的名称进行多渠道分析后确定广告发布机构,增加了获得金融广告发布机构的准确度以及可信性,提高了获得金融广告发布机构的效率与可行性,并且可以利用计算机技术实现自动化处理,降低了人力成本。
附图说明
图1是本发明实施例的整体功能结构示意图。
具体实施方式
下面结合实施例对本发明做进一步描述。
一种获取互联网金融广告发布机构的方法,包括以下步骤:
(1)通过新闻、贴吧、论坛的金融板块以及搜索引擎中以金融关键词为搜索词的页面获取互联网金融广告,对不同网站设置不同的提取规则通过网络爬虫提取广告以及进行跳转的链接;
(2)将所述步骤(1)中获取的跳转链接进行处理,获得广告目标页面URL与广告目标页面标注的机构名称,包括以下步骤:
a.模拟浏览器打开广告进行跳转的链接;
b.模拟浏览器给目标网站发送请求,获得请求的返回信息,解析返回信息,获得广告目标页面URL和web页面的源码信息;
c.对步骤b获得的web页面的源码信息,利用正则表达式进行规则的描述,提取广告目标页面标注的机构名称,若目标页面没有标注其所属的机构名称,则对该记录进行置空。
(3)根据步骤(2)中广告目标页面URL,通过ICP查询获得ICP信息中的机构名称,包括以下步骤:
a.通过获得的URL获得多级域名,依次从低级域名到高级域名,直到二级域名停止;
b.对步骤a获得的多级域名,从低级域名到高级域名依次进行ICP查询,直到存在一个域名查到了ICP信息或者所有的域名都没有查到ICP信息,具体步骤如下:
b1.模拟浏览器打开工业和信息化部ICP查询页面;
b2.获得ICP查询页面的6位字母和数字的混合验证图片;
b3.识别验证码,通过权限验证;
b4.将域名填到ICP查询页面的表单中的域名查询位置,提交表单;
b5.获得返回的表单信息,即ICP的查询信息。
c.对步骤b获得的ICP信息进行解析,获得ICP中的单位名称,即为互联网金融广告对应的ICP信息中的机构名称,对没有查到ICP信息的或者ICP信息中没有发现单位名称的互联网金融广告,该字段置为空。
(4)根据所述步骤(2)中广告目标页面URL通过WHOIS信息查询获得WHOIS信息中的机构名称,包括以下步骤:
a.通过URL获得最低级域名与其上一级域名,作为WHOIS查询的域名;
b.对步骤a中获得的域名,根据域名从低级域名到高级域名进行WHOIS查询,直到获得准确的WHOIS信息,即该广告对应的WHOIS信息;
c.对步骤b中返回的WHOIS进行解析,获得域名所在注册商和域名所有者字段对应的信息,没有对应字段则置空。
(5)根据步骤(2)中广告目标页面标注的机构名称,步骤(3)中ICP信息下的机构名称与步骤(4)中WHOIS信息下的机构名称,多渠道确定广告发布机构的名称,具体步骤如下:
a.对目标网页标注的机构名称、ICP信息中获得的机构名称、WHOIS信息中的域名所在注册商和域名所有者四个机构名称进行分组统计,根据获得的机构名称进行分组,当该渠道获得的机构名词为空时,不进行统计,统计的内容为该名称出现的次数;
b.选择统计次数最高的分组对应的机构名称;
c.当步骤b中最高统计次数相同时,按照不同渠道获得机构名称的优先级进行选择,选择优先级最高且不为空的渠道对应分组的机构名称。
不同渠道获得机构名称的优先级从高到低依次为ICP信息中获得的机构名称、WHOIS信息中的域名所在注册商名称、目标网页标注的机构名称、WHOIS信息中的域名所有者名称。
以百度搜索引擎获得的平安好贷广告为例进行本实例。
步骤1:获得百度下的平安好贷广告,以通过XPath提取规则获得对应的广告内容与进行跳转的链接;
步骤2:在python中的selenium与chrome无头浏览器模拟访问广告跳转的URL,并获得对应广告页面的URL与网页源码;
步骤3:通过XPath对网页源码进行提取,获得其目标网页自己标注的企业名称:中国平安保险(集团)股份有限公司;
步骤4:通过python中urlparse库获得真实跳转URL中的主机名:haodai.pingan.com,并把它当作最低级域名即三级域名;
步骤5:利用python中的selenium与chrome无头浏览器模拟访问工业和信息化部ICP备案管理系统,获得其验证图片,通过python中的PIL库识别验证码,然后在模拟浏览中将验证码输入到表单中,通过验证,并将三级域名haodai.pingan.com填到表单中,然后模拟浏览器点击查询,发现没有返回有效信息,然后对二级域名pingan.com重新进行上述操作,获得ICP信息下的发布机构名称:中国平安保险(集团)股份有限公司;
步骤6:利用python中的os模块调用系统命令whois,对三级域名haodai.pingan.com进行查询,无有效返回内容,对二级域名pingan.com进行重复操作,获得域名的注册商名称(无内容,即为None)和所有者名称:Beijing Brandma InternationalNetworking Technology Ltd.;
步骤7:对获得的企业名称进行分组统计,其中,中国平安保险(集团)股份有限公司两票,Beijing Brandma International Networking Technology Ltd.一票;
步骤8:综合上述信息,判定中国平安保险(集团)股份有限公司。
通过从金融广告获得页面URL和网页中标注的发布机构名称看,再利用域名分别进行ICP查询、WHOIS信息查询获取广告发布机构名称,对获取的名称进行多渠道分析后确定广告发布机构,增加了获得金融广告发布机构的准确度以及可信性,提高了获得金融广告发布机构的效率与可行性,并且可以利用计算机技术实现自动化处理,降低了人力成本。
惟以上所述者,仅为本发明的具体实施例而已,当不能以此限定本发明实施的范围,故其等同组件的置换,或依本发明专利保护范围所作的等同变化与修改,皆应仍属本发明权利要求书涵盖之范畴。

Claims (9)

1.一种获取互联网金融广告发布机构的方法,其特征在于,包括以下步骤:
(1)获取互联网金融广告以及进行跳转的链接;
(2)将所述步骤(1)中获取的跳转链接进行处理,获得广告目标页面URL与广告目标页面标注的机构名称;
(3)根据所述步骤(2)中广告目标页面URL,通过ICP查询获得ICP信息中的机构名称;
(4)根据所述步骤(2)中广告目标页面URL通过WHOIS信息查询获得WHOIS信息中的机构名称;
(5)根据所述步骤(2)中广告目标页面标注的机构名称,所述步骤(3)中ICP信息下的机构名称与所述步骤(4)中WHOIS信息下的机构名称,多渠道确定广告发布机构的名称。
2.根据权利要求1所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤(1)中通过新闻、贴吧、论坛的金融板块以及搜索引擎中以金融关键词为搜索词的页面获取互联网金融广告,对不同网站设置不同的提取规则通过网络爬虫提取广告以及进行跳转的链接。
3.根据权利要求1所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤(2)中获得广告目标页面URL与广告目标页面标注的机构名称,包括以下步骤:
a.模拟浏览器打开广告进行跳转的链接;
b.获得广告目标页面URL和web页面的源码信息;
c.对步骤b获得的web页面的源码信息,利用正则表达式进行规则的描述,提取广告目标页面标注的机构名称,若目标页面没有标注其所属的机构名称,则对该记录进行置空。
4.根据权利要求1所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤(3)中获得ICP信息中的机构名称,包括以下步骤:
a.通过获得的URL获得多级域名,依次从低级域名到高级域名,直到二级域名停止;
b.对步骤a获得的多级域名,从低级域名到高级域名依次进行ICP查询,直到存在一个域名查到了ICP信息或者所有的域名都没有查到ICP信息;
c.对步骤b获得的ICP信息进行解析,获得ICP中的单位名称,即为互联网金融广告对应的ICP信息中的机构名称,对没有查到ICP信息的或者ICP信息中没有发现单位名称的互联网金融广告,该字段置为空。
5.根据权利要求4所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤b中利用域名进行ICP查询,包括以下步骤:
b1.模拟浏览器打开工业和信息化部ICP查询页面;
b2.获得ICP查询页面的6位字母和数字的混合验证图片;
b3.识别验证码,通过权限验证;
b4.将域名填到ICP查询页面的表单中的域名查询位置,提交表单;
b5.获得返回的表单信息,即ICP的查询信息。
6.根据权利要求1所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤(4)中获得WHOIS信息中的机构名称,包括以下步骤:
a.通过URL获得最低级域名与其上一级域名,作为WHOIS查询的域名;
b.对步骤a中获得的域名,根据域名从低级域名到高级域名进行WHOIS查询,直到获得准确的WHOIS信息,即该广告对应的WHOIS信息;
c.对步骤b中返回的WHOIS进行解析,获得域名所在注册商和域名所有者字段对应的信息,没有对应字段则置空。
7.根据权利要求1所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤(5)中多渠道确定广告发布机构名称,包括以下步骤:
a.对目标网页标注的机构名称、ICP信息中获得的机构名称、WHOIS信息中的域名所在注册商和域名所有者四个机构名称进行分组统计;
b.选择统计次数最高的分组对应的机构名称;
c.当步骤b中最高统计次数相同时,按照不同渠道获得机构名称的优先级进行选择,选择优先级最高且不为空的渠道对应分组的机构名称。
8.根据权利要求7所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤a中的分组统计是根据获得的机构名称进行分组,当该渠道获得的机构名词为空时,不进行统计,统计的内容为该名称出现的次数。
9.根据权利要求7所述的获取互联网金融广告发布机构的方法,其特征在于,所述步骤c中的不同渠道获得机构名称的优先级从高到低依次为ICP信息中获得的机构名称、WHOIS信息中的域名所在注册商名称、目标网页标注的机构名称、WHOIS信息中的域名所有者名称。
CN201910516194.3A 2019-06-14 2019-06-14 一种获取互联网金融广告发布机构的方法 Pending CN110245986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516194.3A CN110245986A (zh) 2019-06-14 2019-06-14 一种获取互联网金融广告发布机构的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516194.3A CN110245986A (zh) 2019-06-14 2019-06-14 一种获取互联网金融广告发布机构的方法

Publications (1)

Publication Number Publication Date
CN110245986A true CN110245986A (zh) 2019-09-17

Family

ID=67887156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516194.3A Pending CN110245986A (zh) 2019-06-14 2019-06-14 一种获取互联网金融广告发布机构的方法

Country Status (1)

Country Link
CN (1) CN110245986A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256227A (zh) * 2021-06-29 2021-08-13 深圳市钱海网络技术有限公司 一种识别国际物流供应商的方法、装置及设备
CN114547404A (zh) * 2022-01-10 2022-05-27 普瑞纯证医疗科技(苏州)有限公司 一种大数据平台
CN115175746A (zh) * 2020-09-11 2022-10-11 索尼集团公司 内容编排、管理和节目安排系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845555A (zh) * 2005-04-07 2006-10-11 深圳市沃通通信服务有限公司 因特网网站访问者定位技术的实现方法以及应用
CN103401835A (zh) * 2013-07-01 2013-11-20 北京奇虎科技有限公司 一种展现微博页面的安全检测结果的方法及装置
CN103647767A (zh) * 2013-12-05 2014-03-19 北京奇虎科技有限公司 一种网站信息的展示方法和装置
CN104239577A (zh) * 2014-10-09 2014-12-24 北京奇虎科技有限公司 检测网页数据真伪的方法和装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN106133774A (zh) * 2014-03-28 2016-11-16 谷歌公司 广告中的广告主标识符的自动验证
US20160364771A1 (en) * 2012-08-15 2016-12-15 Ghostery, Inc. Methods, apparatus, and systems for surveillance of third-party digital technology vendors providing secondary content in a content publisher's web page
CN109064067A (zh) * 2018-09-17 2018-12-21 杭州安恒信息技术股份有限公司 基于互联网的金融风险运营主体判定方法及装置
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845555A (zh) * 2005-04-07 2006-10-11 深圳市沃通通信服务有限公司 因特网网站访问者定位技术的实现方法以及应用
US20160364771A1 (en) * 2012-08-15 2016-12-15 Ghostery, Inc. Methods, apparatus, and systems for surveillance of third-party digital technology vendors providing secondary content in a content publisher's web page
CN103401835A (zh) * 2013-07-01 2013-11-20 北京奇虎科技有限公司 一种展现微博页面的安全检测结果的方法及装置
CN103647767A (zh) * 2013-12-05 2014-03-19 北京奇虎科技有限公司 一种网站信息的展示方法和装置
CN106133774A (zh) * 2014-03-28 2016-11-16 谷歌公司 广告中的广告主标识符的自动验证
CN104239577A (zh) * 2014-10-09 2014-12-24 北京奇虎科技有限公司 检测网页数据真伪的方法和装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN109064067A (zh) * 2018-09-17 2018-12-21 杭州安恒信息技术股份有限公司 基于互联网的金融风险运营主体判定方法及装置
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115175746A (zh) * 2020-09-11 2022-10-11 索尼集团公司 内容编排、管理和节目安排系统
CN113256227A (zh) * 2021-06-29 2021-08-13 深圳市钱海网络技术有限公司 一种识别国际物流供应商的方法、装置及设备
CN114547404A (zh) * 2022-01-10 2022-05-27 普瑞纯证医疗科技(苏州)有限公司 一种大数据平台

Similar Documents

Publication Publication Date Title
Sharma et al. A brief review on search engine optimization
Mahto et al. A dive into Web Scraper world
US8856871B2 (en) Method and system for compiling a unique sample code for specific web content
Wang et al. Ranking user's relevance to a topic through link analysis on web logs
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN110245986A (zh) 一种获取互联网金融广告发布机构的方法
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN1770158A (zh) 内容评估
CN102375813B (zh) 搜索引擎排重系统及方法
CN108712426A (zh) 基于用户行为埋点的爬虫识别方法及系统
CN1991829A (zh) 一种搜索引擎系统的搜索方法
CN106095979A (zh) Url合并处理方法和装置
Andoohgin Shahri et al. Detecting hijacked journals by using classification algorithms
CN106095918A (zh) 一种基于ocr技术的网络受保护指数数据的获取方法
CN110708339B (zh) 一种基于web日志的关联分析方法
CN101630315B (zh) 一种快速检索方法及系统
CN107426148A (zh) 一种基于运行环境特征识别的反爬虫方法及系统
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
CN107743128A (zh) 一种基于首页关联域名和同服务ip的非法网站挖掘方法
CN112989348A (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN104951566B (zh) 一种关键词搜索排名确定方法及装置
Kim et al. Explicit in situ user feedback for web search results
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
CN111798351A (zh) 一种数据处理的方法及装置、可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917

RJ01 Rejection of invention patent application after publication