CN108228710A - 一种针对url的分词方法及装置 - Google Patents

一种针对url的分词方法及装置 Download PDF

Info

Publication number
CN108228710A
CN108228710A CN201711237280.8A CN201711237280A CN108228710A CN 108228710 A CN108228710 A CN 108228710A CN 201711237280 A CN201711237280 A CN 201711237280A CN 108228710 A CN108228710 A CN 108228710A
Authority
CN
China
Prior art keywords
url
segmentation
split
regular expression
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711237280.8A
Other languages
English (en)
Other versions
CN108228710B (zh
Inventor
亚静
柳厅文
张盼盼
李全刚
时金桥
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201711237280.8A priority Critical patent/CN108228710B/zh
Publication of CN108228710A publication Critical patent/CN108228710A/zh
Application granted granted Critical
Publication of CN108228710B publication Critical patent/CN108228710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种针对URL的分词方法及装置。该方法包括:1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;2)对所述若干层次部分依次进行符号分割与正则表达式过滤;3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。其中步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径;步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。本发明充分利用了URL本身的层次结构,能够高效地对URL进行分割,并最大化地保留了URL地址中的有用信息,得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,能够有效提高任务准确率。

Description

一种针对URL的分词方法及装置
技术领域
本发明涉及网络安全数据的分词技术领域,尤其涉及一种针对URL的分词方法及装置,在保留URL特有层次结构的基础上得到URL字符串的分词序列,其结果可以用于网页分类、钓鱼URL检测等任务中的特征分析。
背景技术
URL是统一资源定位符,是互联网上标准的资源的地址,通过其可实现对信息资源的访问与获取。URL使用ASCII代码的一部分来表示地址,语法是可扩展的,其标准结构如下:
协议类型:[//服务器地址[:端口号]][/路径][?查询][#片段]
大多数URL都包括三个主要部分:协议类型(scheme)、服务器地址(domain)和路径(path)。协议类型部分表明该URL使用的传送协议,网络领域常见的协议是http和https。服务器地址部分通常使用域名或IP地址来指明资源在网络上的位置。域名是IP地址的一种特殊化表示,通过DNS服务可实现其与IP地址之间的映射,通常采用有意义的字符串或者品牌名,便于人们记忆。其中,域名也是一种层次结构,以“.”来分割。路径部分指定资源文件在服务器地址的具体位置,也是一种层次结构,以“/”为分割符分割整个路径。
URL作为网络地址标识,通常包含有与页面资源或主题相关的关键词或者某著名公司的品牌关键词等,方便人们记忆与搜索。通过分析URL中有意义的词语,可实现对相关网页的简单分类。此外,攻击者也常常利用一些混淆词语来伪造URL,欺骗用户,进行钓鱼攻击。因此,对URL进行合理的分词,是具有十分重大的意义的。
目前,分词方法主要分为两大类,一种是针对英文文本的分词方法,基于英文自身的特性,文本中都是带有空格的单词组成,因此对其处理主要是简单的基于单词粒度的;一种是针对中文文本的分词方法,不同于英文文本自身带有空格间隔,中文文本都是无间隔的,其处理粒度是由字到词语组合的。URL地址作为一种使用部分ASCII码来表示的无空格间隔的特殊字符串,既具有英文文本的特征,又具有中文文本的特性,分词时需要考虑多种因素,且目前没有特别针对URL的分词方法及装置。
现有的分词技术具有一定的单一性与局限性,不能准确的对URL地址进行处理。不同于传统自然语言的中英文文本数据,URL地址作为一种特殊的有着层次结构的网络数据,具有其独特的语言特征:单条URL不是完整的句子,长度有限,且通常含有一些特殊字符串,如IP地址、日期、版本号等特殊含义的字段。如果对其分词不当,便会丢失很多其内在信息。同时,目前没有一种特别针对URL的分词方法。
发明内容
本发明的目的在于提供一种针对URL的分词方法及装置,对URL地址进行分词处理,并尽可能地保留其内在信息,其分词结果可用于网页分类、钓鱼URL检测等任务中的特征分析,帮助提高任务准确率。
本发明采用的技术方案如下:
一种针对URL的分词方法,包括以下步骤:
1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;
2)对所述若干层次部分依次进行符号分割与正则表达式过滤;
3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。
进一步地,步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径。
进一步地,步骤2)依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割,并对具有特定格式的字段进行正则表达式过滤,以清除URL中的非字母字符;所述具有特定格式的字段包括IP地址、日期和连续数字。
进一步地,步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。
一种针对URL的分词装置,包括:
层次分割模块,用于对URL地址按照其内在的层次结构进行分割,得到若干层次部分;
符号分割与正则表达式过滤模块,用于对所述层次分割模块得到的各个层次部分依次进行符号分割与正则表达式过滤;
字符串分割模块,用于对所述符号分割与正则表达式过滤模块处理后的字符串进行分割,得到URL分词序列。
进一步地,所述层次分割模块将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径。
进一步地,所述符号分割与正则表达式过滤模块依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割,并对具有特定格式的字段进行正则表达式过滤,以清除URL中的非字母字符;所述具有特定格式的字段包括IP地址、日期和连续数字。
进一步地,所述字符串分割模块利用双向最大匹配算法和概率模型对字符串进行分割。
一种服务器,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上面所述方法中各步骤的指令。
一种存储计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被计算机执行时,实现上面所述方法的步骤。
利用本发明提供的方法分割URL地址,得到其分词序列,具有以下优点:
1、本发明是特别针对网络中的URL地址提出的分词处理解决方案,可高效地对URL进行分割。
2、本发明充分利用了URL本身的层次结构,并提供了一种对URL地址进行细粒度划分的五大层次结构,最大化地保留了URL地址中的有用信息,便于后期任务分析。
3、本发明得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,有效提高任务准确率。
附图说明
图1是针对URL的分词方法的流程图。
图2是针对URL的分词方法的实例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体附图对本发明做进一步详细说明。
本发明提供的一种针对URL的分词方法,该方法的流程如图1所示,主要步骤包括:
(1)层次分割,首先对半结构化数据的URL按照其内在的层次结构进行分割,得到五个层次部分;
(2)符号分割与正则表达式过滤,对各个层次部分依次进行,依据特殊符号对其分割,并对其中的具有特定格式的字段,如IP地址、日期、数字等进行正则表达式过滤,进一步清除URL中的非字母字符;
(3)字符串分割,利用双向最大匹配算法和概率模型对剩余的字符串进行分割,得到最终的URL分词序列。
该方法中提到的层次分割,主要是依据URL本身的层次结构,并对其进行进一步细分,保留其本身的层次信息。不同于自然语言文本数据,URL是半结构化的数据,本身就具有一种特殊的层次结构,如上述介绍,主要包含三部分:协议类型(scheme)、服务器地址(domain)和路径(path)。其中,服务器地址中域名又可分为两部分:自由域名(FDN)和注册域名(RDN),自由域名部分可由域名所有者进行管理与更改,注册域名部分需要域名注册商或域名注册机构管理与分配。注册域名部分可从左到右再进一步划分为二级子域(SLD)与顶级子域(TLD),顶级子域也称公共后缀,是由注册商或注册机构约束管理,二级子域位于顶级子域之前,由域名登记者定义。在本发明中,URL经过层次分割后最终得到五部分,分别是:URL的协议类型(scheme)、自由域名(FDN)、二级子域(SLD)、顶级子域(TLD)和路径(path)。
该方法中提到的符号分割与正则表达式过滤,主要是依据URL中存在的特殊字符和特殊格式对层次分割后的五部分分别进行分割与过滤。根据RFC 1738中对URL的规范,只有字母和数字[0-9a-zA-Z]、一些特殊符号“-_.~”[不包括双引号]、以及某些保留字,才可以不经过编码直接用于URL。符号分割便是根据这些允许的特殊符号分割URL。此外,URL中可使用IP地址来指明服务器地址,路径部分或FDN部分可包含日期、版本号或连续数字等形式字符串,鉴于IP地址、日期和连续数字具有特定的格式,因而采用正则表达式过滤掉对应的字段并分割URL。考虑到直接过滤掉URL中的日期、版本号或连续数字等特定格式的数据会一定程度上破坏URL原本的结构,而保留原有结构又隐藏了其之间的共性,因此在正则表达式过滤阶段采用固定内容来替换满足正则表达式要求的部分,如IP地址对应于L_ipadd,日期对应于L_time等,尽可能地保留原始URL中的信息。
IP地址的正则表达式可以是:
((?:(?:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))\.){3}(?:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d))))
时间2015-12-21 12:21:10的正则表达式可以是:
(\d{4})-(0\d{1}|1[0-2])-(0\d{1}|[12]\d{1}|3[01])(0\d{1}|1\d{1}|2[0-3]):[0-5]\d{1}:([0-5]\d{1})
表1中列出几种常用的正则表达式:
表1常用正则表达式
该方法中提到的字符串分割,主要是对清除掉层次结构和特定格式的URL剩余字符,利用常见的双向最大匹配算法和概率模型对剩余的字符串进行分割,以优化细分URL的分割结果。在对URL进行过上述两种分割后,各个部分剩余的URL子串都是仅有字母组成的。双向最大匹配算法包含两种匹配:正向最大匹配和反向最大匹配,两者都是基于一个预先准备好的词典进行字符串匹配。反向最大匹配算法是从字符串末尾开始的指针读取未分段文本的字符串,检查当前字符串是否是字典中的单词。如果是,插入一个空格并重复该过程。如果不是,指针向右移动一个,字符串长度减小,并重复匹配过程,直至最后剩余一个单字符。如果没有找到单词,则会创建单个字符,即为非词典词,用于表示最终分出的单词。正向最大匹配算法工作类似,但是是从字符串头开始的指针读取。
针对两种分割结果,采用一种由拟合函数实现的概率模型。首先,计算一个词wi的概率为其中M为词集合大小,为词wi的数目。然后,针对分词序列如W=w1,w2,...wm,使用拟合函数fit计算分词结果,该概率模型中的拟合函数可测量给定分割的拟合度,以实现对双向最大匹配算法最好分割结果的选择。
本发明得到的分词结果最大化地保留了URL的层次信息及内在有意义的内容,得到的分割后的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,帮助提高任务准确率。
下面提供一个针对URL的分词实例。该实例构造URL如下,用其实现对URL地址的分词,具体的分词流程如图2所示。
http://67.1.12.3.mansell.tripod.com/games/gameboy.html
1)层次分割,将构造的URL按其本身的层次结构进行分割,得到Scheme、FDN、SLD、TLD和Path五部分,具体的结果如表2所示。
表2层次分割的结果
部分 内容
Scheme http
FDN 67.1.12.3.mansell
SLD tripod
TLD com
Path games/gameboy.html
2)符号分割与正则表达式过滤,对上述产生的五部分分别进行细分割,Scheme、SLD和TLD三部分不含有特殊符号或IP地址、日期等,不用处理,对FDN进行IP地址“L_ipadd”格式化并分词,对Path进行特殊符号分割,得到结果如表3所示。
表3符号分割与正则表达式过滤的结果
部分 内容
Scheme http
FDN L_ipadd、mansell
SLD tripod
TLD com
Path games、/、gameboy、.、html
3)字符串分割,利用双向最大匹配算法和概率模型对剩余字符串进行分割,双向最大匹配算法的步骤如下:
a)给定词典库D,以及需分割的字符串S;
b)先对字符串S进行正向最大匹配,得到分词结果PC;
c)在对字符串S进行反向最大匹配,得到分词结果RC;
d)利用设计的fit函数分别计算PC与RC的概率;
e)如果PC的概率值大于RC,则选择PC的分词结果作为输出;反之,选择RC的分词结果作为输出;
f)当两者的概率值相同时,则选择两者中分词序列中分词个数较少的分词结果。
得到的具体结果如表4所示。
表4字符串分割的结果
部分 内容
Scheme http
FDN L_ipadd、man、sell
SLD tripod
TLD com
Path games、/、game、boy、.、html
最终得到的URL分词序列如下:
(′http′),′L′ipadd,′man′,′sell′),(′tripod′),(′com′),′games′,′/′,′game′,′boy′,′.′,′html′)
本发明另一实施例提供一种针对URL的分词装置,其包括:
层次分割模块,用于对URL地址按照其内在的层次结构进行分割,得到若干层次部分;
符号分割与正则表达式过滤模块,用于对所述层次分割模块得到的各个层次部分依次进行符号分割与正则表达式过滤;
字符串分割模块,用于对所述符号分割与正则表达式过滤模块处理后的字符串进行分割,得到URL分词序列。
所述层次分割模块将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径。所述符号分割与正则表达式过滤模块依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割,并对具有特定格式的字段进行正则表达式过滤,以清除URL中的非字母字符;所述具有特定格式的字段包括IP地址、日期和连续数字。所述字符串分割模块利用双向最大匹配算法和概率模型对字符串进行分割。
本发明另一实施例提供一种服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上面所述方法中各步骤的指令。
本发明另一实施例提供一种存储计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时,实现上面所述方法的步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (11)

1.一种针对URL的分词方法,其特征在于,包括以下步骤:
1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;
2)对所述若干层次部分依次进行符号分割与正则表达式过滤;
3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。
2.如权利要求1所述的方法,其特征在于,步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径。
3.如权利要求1所述的方法,其特征在于,步骤2)依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割,并对具有特定格式的字段进行正则表达式过滤,以清除URL中的非字母字符;所述具有特定格式的字段包括IP地址、日期和连续数字。
4.如权利要求1所述的方法,其特征在于,步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。
5.如权利要求4所述的方法,其特征在于,所述概率模型首先计算一个词wi的概率为其中M为词集合大小,为词wi的数目;然后针对分词序列W=w1,w2,...wm,使用拟合函数fit计算分词结果,通过该拟合函数测量给定分割的拟合度,以实现对双向最大匹配算法最好分割结果的选择。
6.一种针对URL的分词装置,其特征在于,包括:
层次分割模块,用于对URL地址按照其内在的层次结构进行分割,得到若干层次部分;
符号分割与正则表达式过滤模块,用于对所述层次分割模块得到的各个层次部分依次进行符号分割与正则表达式过滤;
字符串分割模块,用于对所述符号分割与正则表达式过滤模块处理后的字符串进行分割,得到URL分词序列。
7.如权利要求6所述的装置,其特征在于,所述层次分割模块将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径。
8.如权利要求6所述的装置,其特征在于,所述符号分割与正则表达式过滤模块依据RFC1738规范中的特殊符号对各个层次部分依次进行符号分割,并对具有特定格式的字段进行正则表达式过滤,以清除URL中的非字母字符;所述具有特定格式的字段包括IP地址、日期和连续数字。
9.如权利要求6所述的装置,其特征在于,所述字符串分割模块利用双向最大匹配算法和概率模型对字符串进行分割。
10.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至5中任一权利要求所述方法中各步骤的指令。
11.一种存储计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被计算机执行时,实现权利要求1至5中任一权利要求所述方法的步骤。
CN201711237280.8A 2017-11-30 2017-11-30 一种针对url的分词方法及装置 Active CN108228710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711237280.8A CN108228710B (zh) 2017-11-30 2017-11-30 一种针对url的分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711237280.8A CN108228710B (zh) 2017-11-30 2017-11-30 一种针对url的分词方法及装置

Publications (2)

Publication Number Publication Date
CN108228710A true CN108228710A (zh) 2018-06-29
CN108228710B CN108228710B (zh) 2021-09-28

Family

ID=62653742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711237280.8A Active CN108228710B (zh) 2017-11-30 2017-11-30 一种针对url的分词方法及装置

Country Status (1)

Country Link
CN (1) CN108228710B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855676A (zh) * 2019-11-15 2020-02-28 腾讯科技(深圳)有限公司 网络攻击的处理方法、装置及存储介质
CN111027656A (zh) * 2019-11-15 2020-04-17 浙江口碑网络技术有限公司 二维码生成及识别方法、装置、电子设备、存储介质
CN111104801A (zh) * 2019-12-26 2020-05-05 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111723378A (zh) * 2020-06-17 2020-09-29 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法
CN112232076A (zh) * 2019-06-26 2021-01-15 腾讯科技(深圳)有限公司 脚本处理方法、装置及电子设备
CN113051500A (zh) * 2021-03-25 2021-06-29 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN114398880A (zh) * 2021-12-06 2022-04-26 北京思特奇信息技术股份有限公司 一种用于优化中文分词的系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246472A (zh) * 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
US7962487B2 (en) * 2008-12-29 2011-06-14 Microsoft Corporation Ranking oriented query clustering and applications
CN103605704A (zh) * 2013-11-08 2014-02-26 深圳大学 大量url数据任意字段索引及检索方法
CN103646018A (zh) * 2013-12-20 2014-03-19 大连大学 一种基于hash散列表词典结构的中文分词方法
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN106202004A (zh) * 2016-07-13 2016-12-07 上海轻维软件有限公司 基于正则表达及分隔符的组合式数据切割方法
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246472A (zh) * 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
US7962487B2 (en) * 2008-12-29 2011-06-14 Microsoft Corporation Ranking oriented query clustering and applications
CN103605704A (zh) * 2013-11-08 2014-02-26 深圳大学 大量url数据任意字段索引及检索方法
CN103646018A (zh) * 2013-12-20 2014-03-19 大连大学 一种基于hash散列表词典结构的中文分词方法
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN106202004A (zh) * 2016-07-13 2016-12-07 上海轻维软件有限公司 基于正则表达及分隔符的组合式数据切割方法
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232076A (zh) * 2019-06-26 2021-01-15 腾讯科技(深圳)有限公司 脚本处理方法、装置及电子设备
CN112232076B (zh) * 2019-06-26 2024-08-20 腾讯科技(深圳)有限公司 脚本处理方法、装置及电子设备
CN111027656B (zh) * 2019-11-15 2023-04-28 浙江口碑网络技术有限公司 二维码生成及识别方法、装置、电子设备、存储介质
CN111027656A (zh) * 2019-11-15 2020-04-17 浙江口碑网络技术有限公司 二维码生成及识别方法、装置、电子设备、存储介质
CN110855676A (zh) * 2019-11-15 2020-02-28 腾讯科技(深圳)有限公司 网络攻击的处理方法、装置及存储介质
CN110855676B (zh) * 2019-11-15 2021-08-31 腾讯科技(深圳)有限公司 网络攻击的处理方法、装置及存储介质
CN111104801A (zh) * 2019-12-26 2020-05-05 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111104801B (zh) * 2019-12-26 2023-09-26 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111723378A (zh) * 2020-06-17 2020-09-29 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法
CN111723378B (zh) * 2020-06-17 2023-03-10 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法
CN113051500B (zh) * 2021-03-25 2022-08-16 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN113051500A (zh) * 2021-03-25 2021-06-29 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN114398880A (zh) * 2021-12-06 2022-04-26 北京思特奇信息技术股份有限公司 一种用于优化中文分词的系统及方法

Also Published As

Publication number Publication date
CN108228710B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN108228710A (zh) 一种针对url的分词方法及装置
Abainia et al. A novel robust Arabic light stemmer
US10459955B1 (en) Determining geographic locations for place names
US10423649B2 (en) Natural question generation from query data using natural language processing system
CN109299469B (zh) 一种在长文本中识别复杂住址的方法
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
WO2008022581A1 (fr) Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
WO2008014702A1 (fr) Procédé et système d'extraction de mots nouveaux
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
JP2017525033A (ja) 検索のためのテーブルの理解
CN107590128A (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
JP5135272B2 (ja) 構造化文書管理装置、及び方法
CN113779481B (zh) 诈骗网站的识别方法、装置、设备及存储介质
Christen et al. A probabilistic geocoding system based on a national address file
CN110020005A (zh) 一种病历中主诉和现病史中症状匹配方法
CN111104801A (zh) 基于网址域名的文本分词方法、系统、设备及介质
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
Xu et al. Using SVM to extract acronyms from text
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
Kaur et al. Query based approach for referrer field analysis of log data using web mining techniques for ontology improvement
KR101441869B1 (ko) 단축 url 생성 시스템 및 그 방법
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant