CN111723378B - 一种基于网站地图的网站目录爆破方法 - Google Patents

一种基于网站地图的网站目录爆破方法 Download PDF

Info

Publication number
CN111723378B
CN111723378B CN202010555819.XA CN202010555819A CN111723378B CN 111723378 B CN111723378 B CN 111723378B CN 202010555819 A CN202010555819 A CN 202010555819A CN 111723378 B CN111723378 B CN 111723378B
Authority
CN
China
Prior art keywords
website
directory
path name
path
blasting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010555819.XA
Other languages
English (en)
Other versions
CN111723378A (zh
Inventor
刘传兴
柯昀
祝晓春
周波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insigma Hengtian Software Ltd
Original Assignee
Insigma Hengtian Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insigma Hengtian Software Ltd filed Critical Insigma Hengtian Software Ltd
Priority to CN202010555819.XA priority Critical patent/CN111723378B/zh
Publication of CN111723378A publication Critical patent/CN111723378A/zh
Application granted granted Critical
Publication of CN111723378B publication Critical patent/CN111723378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/75Structural analysis for program understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于网站地图的网站目录爆破方法,该方法首先获取目标网站的网站地图,得到网站地图的树形结构;其次建立常用路径名集合,将常用动词路径名和名词路径名分别建立动词集合和名词集合;然后根据路径名集合对网站地图中每一层网站路径名进行分析,得到路径特征,包括路径名中词性成分构成以及不同词性成分组合的方式;最后按照得到的路径特征构造新的路径,对目标网站实施目录爆破。本发明通过分析网站现有的网站地图来实现目录爆破,可以大大提高目录爆破的效率,减少目录爆破所需的时间,提升目录爆破的速度。

Description

一种基于网站地图的网站目录爆破方法
技术领域
本发明涉及一种基于网站地图的网站目录爆破方法,通过对现有网站地图的特征进行识别和提取,提高网站目录爆破的效率。
背景技术
网站目录爆破在安全测试中有着重要的作用,为进一步的安全分析提供了基础。现有的网站目录爆破工具的实现通常是先设置常用路径字典,然后对路径字典中的路径进行遍历和排列组合,来尽可能多的发现目标网站中存在的目录,这种方法的一个显著缺点是工作量太大,对路径字典中的路径进行随机的排列组合时,产生的结果数量是非常多的,会导致爆破的过程需要花费比较多的时间,从而使得目录爆破的效率较低。由于在开发系统的过程中,开发者为了保证代码的一致性,对于路径的命名往往会有统一的规范或者模式,因此如果可以对目标网站现有的网站地图中的路径进行分析,识别其中的特征,然后按照此特征来构造可能的路径,这种方法相较于随机的排列组合,有更大的几率可以匹配到存在的路径,因此进行目录爆破的效率会更高。本发明就是基于此思路,希望可以借助网站地图分析出网站现有路径的命名习惯,在此基础上进行更加高效的网站目录爆破。
发明内容
本发明的目的在于针对现有技术的局限和不足,提供一种基于网站地图的网站目录爆破方法。
本发明的目的是通过以下技术方案实现的:本发明获取目标网站的网站地图,分析出网站地图中现有路径的特征,然后按照该特征构造可能的路径,以此来实现网站目录爆破的过程。具体包括以下步骤:
(1)分析网站地图中路径特征:获取目标网站的网站地图,然后对路径名进行分析,得到路径特征,这里的特征具体来说是指路径名中词性成分构成、以及不同词性成分组合的方式。
(2)目录爆破:按照步骤(1)中得到的路径特征构造新的路径,然后对目标网站实施目录爆破。
进一步地,所述步骤(1)包括以下子步骤:
(1.1)获取网站地图:通过爬虫获取目标网站的网站地图,得到网站地图的树形结构。
(1.2)建立路径名集合:建立常用路径名集合,按照名词、动词分类,也就是说,把常用的动词路径名和名词路径名分别建立集合。
(1.3)分析现有路径特征:根据(1.2)中建立的路径名集合对网站地图中每一层网站路径名进行分析,得到现有路径名中的词性构成以及组合方式。
进一步地,所述步骤(2)包括以下子步骤:
(2.1)构造新路径:在网站地图中的每一层,在分析出现有路径名的特征之后,按照此特征构造新的路径名。
(2.2)目录爆破:对于构造出的新路径,分别进行访问,从而实现对目标网站的目录爆破。
本发明的有益效果如下:本发明可以通过分析网站现有的网站地图来实现目录爆破,可以大大提高目录爆破的效率,减少目录爆破所需的时间,提升目录爆破的速度。
附图说明
图1是网站地图树示意图;
图2是对路径名进行特征分析的流程图;
图3是对路径名进行扩充的示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提出一种基于网站地图的网站目录爆破方法,首先获取目标网站的网站地图,分析出网站地图中现有路径的特征,然后按照该特征构造可能的路径,以此来实现网站目录爆破的过程。具体包括以下步骤:
(1)分析网站地图中路径特征:获取目标网站的网站地图,然后对路径名进行分析,得到路径特征,这里的特征具体来说是指路径名中词性成分构成、以及不同词性成分组合的方式。具体如下:
(1.1)获取网站地图:通过爬虫获取目标网站的网站地图,得到网站地图的树形结构,在本发明中以图1所示的网站地图为例进行说明(注:本例中为了说明多种可能的情况,所以在图1中使用了多种路径的命名方式,在实际的网络系统中,路径的命名方式往往会保持一致)。
(1.2)建立路径名集合:通过对多个网络系统进行分析和总结,我们发现路径名的构成通常是动词、名词、动名词组合的形式,对其中常见的动词和名词进行总结,分别得到动词集合V和名词集合N,这两个集合作为后续分析的基础。
(1.3)分析现有路径特征:首先,在本发明中,为了简化问题模型,我们认为在路径名中出现的词,如果不是动词就认为是名词。通过总结我们发现,动词集合V中的词语数量远远少于名词集合N中的词语数量,所以对一个词语进行词性分析的时候,我们可以采用如下方法:判断该词语是否存在于动词集合V中,如果存在,该词为动词;否则该词为名词。
其次,在分析路径特征时,我们首先要分析该路径中词汇的组合方式,图1中列出了常见的5种形式,getDetail表示驼峰命名组合,search_detail表示下划线命名组合,getnotice表示普通命名组合,search表示单个动词,reports表示单个名词,本发明主要对这5种类型的路径特征进行识别,其中后3种在形式上是相同的,需要对其中的词性进行进一步的识别。特征识别流程如图2所示,首先利用正则表达式确定路径是否为驼峰命名组合,正则表达式为:
reg=/[a-z0-9]+)([A-Z][a-z0-9]*)+/
其中,a-z是小写字母范围,A-Z是大写字母范围,0-9是数字;
如果正则匹配成功,说明该路径名为驼峰式组合,将完整的路径名按照驼峰进行分割后,变成一个个单独的字符串,对这些字符串分别进行进一步的词性分析;如果匹配不成功,说明该路径名不是驼峰命名,进一步使用正则表达式判断是否为下划线式命名组合,正则表达式为:
reg=/[a-z0-9]+)(-[a-z0-9]+)+/
如果正则匹配成功,说明该路径名为下划线式组合命名,同样地,将完整的路径名按照下划线进行分割后,变成一个个单独的字符串,对这些字符串分别进行进一步的词性分析;如果匹配不成功,说明该路径名也不是下划线式命名,需要对该路径名字符串进行进一步的词性分析。
对字符串S进行词性分析的过程具体为:遍历动词集合V,记当前遍历到的动词为verb,判断verb是否为S的子串,如果不存在某一个verb是S的子串,说明S为名词;如果存在这样的verb,判断S是否等于verb,如果相等,说明S为动词,否则S为动词名词组合而成的。通过这个过程,将S拆分为若干动词和名词的组合,并匹配5种类型,学习记录该系统开发人员使用的命名方式。
整个分析过程到此结束。
(2)目录爆破:按照步骤(1)中得到的路径特征构造新的路径,然后对目标网站实施目录爆破。具体如下:
(2.1)构造新路径:在步骤(1.1)中构造出的网站地图树中,在树结构的每一层对现有的树结构进行扩充。以图3为例,扩充的方式为,按照步骤(1.3)中的方法分析出现有路径名的特征之后,按照该特征对步骤(1.2)中创建的动词集合V和名词集合N中的词进行相应的组合,作为新的路径名。
例如,分析出系统开发人员使用的是驼峰的动名词命名方式,对于动词get,名词good则需要进行驼峰拼接,拼接为getGood。
(2.2)目录爆破:对于步骤(2.1)构造出的新路径,分别进行访问,从而实现对目标网站的目录爆破。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (8)

1.一种基于网站地图的网站目录爆破方法,其特征在于,该方法包括以下步骤:
(1)分析网站地图中路径特征:获取目标网站的网站地图,得到网站地图的树形结构;建立常用路径名集合,将常用动词路径名和名词路径名分别建立动词集合和名词集合;根据路径名集合对网站地图中每一层网站路径名进行分析,得到路径特征,包括路径名中词性成分构成以及不同词性成分组合的方式;对路径名进行特征分析的过程具体为:
判断路径名是否为驼峰式命名组合,如果是驼峰式命名组合,则将完整的路径名按照驼峰进行分割后,变成一个个单独的字符串,对这些字符串分别进行进一步的词性分析;如果不是驼峰式命名组合,则判断路径名是否为下划线式命名组合,如果是下划线式命名组合,将完整的路径名按照下划线进行分割后,变成一个个单独的字符串,对这些字符串分别进行进一步的词性分析;如果不是下划线式命名组合,对该路径名字符串进行进一步的词性分析;
(2)目录爆破:按照步骤(1)中得到的路径特征构造新的路径,然后对目标网站实施目录爆破。
2.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,所述步骤(1)中通过爬虫获取目标网站的网站地图,得到网站地图的树形结构。
3.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,所述步骤(1)中对路径名中出现的词语进行词性分析时,判断该词语是否存在于动词集合中,如果存在,该词为动词;否则该词为名词。
4.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,所述步骤(1)中
对某一字符串S进行词性分析的过程具体为:遍历动词集合,记当前遍历到的动词为verb,判断verb是否为S的字串,如果不存在某一个verb是S的字串,说明S为名词;如果存在这样的verb,判断S是否等于verb,如果相等,说明S为动词,否则S为动词名词组合而成的,记录具体的组合方式。
5.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,利用正则表达式判断路径名是否为驼峰式命名组合,正则表达式为:
reg=/[a-z0-9]+)([A-Z][a-z0-9]*)+/ 。
6.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,利用正则表达式判断路径名是否为下划线式命名组合,正则表达式为:
reg=/[a-z0-9]+)(-[a-z0-9]+)+/ 。
7.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,所述步骤(2)中构造新路径具体为:在步骤(1)构造出的网站地图树中,在树结构的每一层对现有的树结构进行扩充,扩充方式为,分析出现有路径名的特征之后,按照该特征对步骤(1)创建的动词集合和名词集合中的词进行相应的组合,作为新的路径名。
8.根据权利要求1所述的一种基于网站地图的网站目录爆破方法,其特征在于,所述步骤(2)中目录爆破具体为:对于构造出的新路径,分别进行访问,从而实现对目标网站的目录爆破。
CN202010555819.XA 2020-06-17 2020-06-17 一种基于网站地图的网站目录爆破方法 Active CN111723378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555819.XA CN111723378B (zh) 2020-06-17 2020-06-17 一种基于网站地图的网站目录爆破方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555819.XA CN111723378B (zh) 2020-06-17 2020-06-17 一种基于网站地图的网站目录爆破方法

Publications (2)

Publication Number Publication Date
CN111723378A CN111723378A (zh) 2020-09-29
CN111723378B true CN111723378B (zh) 2023-03-10

Family

ID=72567256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555819.XA Active CN111723378B (zh) 2020-06-17 2020-06-17 一种基于网站地图的网站目录爆破方法

Country Status (1)

Country Link
CN (1) CN111723378B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115208789B (zh) * 2022-07-14 2023-06-09 上海斗象信息科技有限公司 目录爆破行为的确定方法、装置、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020286A (zh) * 2012-12-27 2013-04-03 上海交通大学 基于排名网站的互联网排行榜抓取系统
CN103488741A (zh) * 2013-09-22 2014-01-01 华东师范大学 一种基于url的中文多语义名词的在线语义挖掘系统
CN103905422A (zh) * 2013-12-17 2014-07-02 哈尔滨安天科技股份有限公司 一种本地模拟请求辅助查找webshell的方法及系统
CN106411855A (zh) * 2016-09-06 2017-02-15 北京邮电大学 一种脆弱性目录查找方法及装置
CN107330010A (zh) * 2017-06-14 2017-11-07 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107370755A (zh) * 2017-08-23 2017-11-21 杭州安恒信息技术有限公司 一种多维度深层次检测apt攻击的方法
CN107798080A (zh) * 2017-10-13 2018-03-13 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN109768992A (zh) * 2019-03-04 2019-05-17 深信服科技股份有限公司 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN110505213A (zh) * 2019-07-26 2019-11-26 苏州浪潮智能科技有限公司 一种挖掘网站后台弱密码的方法
CN110704617A (zh) * 2019-09-17 2020-01-17 平安科技(深圳)有限公司 新闻文本的分类方法、装置、电子设备和存储介质
CN110808955A (zh) * 2019-09-29 2020-02-18 烽火通信科技股份有限公司 一种实现url动态变换的系统及方法
CN110929185A (zh) * 2019-10-15 2020-03-27 中国平安人寿保险股份有限公司 网站目录检测方法、装置、计算机设备及计算机存储介质
CN111181924A (zh) * 2019-12-11 2020-05-19 西安电子科技大学 一种基于应用网关的Web应用防火墙方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572233B2 (en) * 2004-07-15 2013-10-29 Hewlett-Packard Development Company, L.P. Method and system for site path evaluation using web session clustering
US9485330B2 (en) * 2012-07-30 2016-11-01 Tencent Technology (Shenzhen) Company Limited Web browser operation method and system
WO2015037814A1 (ko) * 2013-09-16 2015-03-19 고려대학교 산학협력단 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
WO2015074455A1 (zh) * 2013-11-25 2015-05-28 北京奇虎科技有限公司 一种计算关联网页URL模式pattern的方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020286A (zh) * 2012-12-27 2013-04-03 上海交通大学 基于排名网站的互联网排行榜抓取系统
CN103488741A (zh) * 2013-09-22 2014-01-01 华东师范大学 一种基于url的中文多语义名词的在线语义挖掘系统
CN103905422A (zh) * 2013-12-17 2014-07-02 哈尔滨安天科技股份有限公司 一种本地模拟请求辅助查找webshell的方法及系统
CN106411855A (zh) * 2016-09-06 2017-02-15 北京邮电大学 一种脆弱性目录查找方法及装置
CN107330010A (zh) * 2017-06-14 2017-11-07 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107370755A (zh) * 2017-08-23 2017-11-21 杭州安恒信息技术有限公司 一种多维度深层次检测apt攻击的方法
CN107798080A (zh) * 2017-10-13 2018-03-13 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN108228710A (zh) * 2017-11-30 2018-06-29 中国科学院信息工程研究所 一种针对url的分词方法及装置
CN109768992A (zh) * 2019-03-04 2019-05-17 深信服科技股份有限公司 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN110505213A (zh) * 2019-07-26 2019-11-26 苏州浪潮智能科技有限公司 一种挖掘网站后台弱密码的方法
CN110704617A (zh) * 2019-09-17 2020-01-17 平安科技(深圳)有限公司 新闻文本的分类方法、装置、电子设备和存储介质
CN110808955A (zh) * 2019-09-29 2020-02-18 烽火通信科技股份有限公司 一种实现url动态变换的系统及方法
CN110929185A (zh) * 2019-10-15 2020-03-27 中国平安人寿保险股份有限公司 网站目录检测方法、装置、计算机设备及计算机存储介质
CN111181924A (zh) * 2019-12-11 2020-05-19 西安电子科技大学 一种基于应用网关的Web应用防火墙方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁岩 ; 努尔布力 ; .基于URL混淆技术识别的钓鱼网页检测方法.2017,(第20期),第80-87页. *
周丽琴,杨季文,吕强.基于Web的字词频统计程序的设计与应用.2002,(第01期),第40-46页. *

Also Published As

Publication number Publication date
CN111723378A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
US9720944B2 (en) Method for facet searching and search suggestions
US10579739B2 (en) Method and system for identifying places of interest in a natural language input
KR101707369B1 (ko) 이벤트 저장소의 구축 방법 및 장치
US7424421B2 (en) Word collection method and system for use in word-breaking
US8849653B2 (en) Updating dictionary during application installation
US20160275196A1 (en) Semantic search apparatus and method using mobile terminal
US20050010560A1 (en) Method of generating a distributed text index for parallel query processing
US20070136248A1 (en) Keyword driven search for questions in search targets
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111723378B (zh) 一种基于网站地图的网站目录爆破方法
Shekhar et al. Hindi roman linguistic framework for retrieving transliteration variants using bootstrapping
KR100691400B1 (ko) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN103377224A (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
CN111061972A (zh) 一种用于url路径匹配的ac查找优化方法和装置
CN117240634B (zh) 一种面向MySQL协议的智能安全蜜罐方法、系统及设备
CN110851709B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
US9223833B2 (en) Method for in-loop human validation of disambiguated features
WO2023138047A1 (zh) 网络威胁信息提取方法、设备、存储介质及装置
CN103544167A (zh) 一种基于中文检索的逆向分词方法及装置
US10380195B1 (en) Grouping documents by content similarity
CN111930959B (zh) 用于图谱知识生成文本的方法与装置
US20110257959A1 (en) Generating chinese language banners
CN112016010A (zh) 一种自动驾驶测试场景描述的自然语言语义库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant