CN108595453A - Url标识映射获取方法及装置 - Google Patents

Url标识映射获取方法及装置 Download PDF

Info

Publication number
CN108595453A
CN108595453A CN201711388050.1A CN201711388050A CN108595453A CN 108595453 A CN108595453 A CN 108595453A CN 201711388050 A CN201711388050 A CN 201711388050A CN 108595453 A CN108595453 A CN 108595453A
Authority
CN
China
Prior art keywords
url
string
init
sample
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711388050.1A
Other languages
English (en)
Other versions
CN108595453B (zh
Inventor
周雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201711388050.1A priority Critical patent/CN108595453B/zh
Publication of CN108595453A publication Critical patent/CN108595453A/zh
Application granted granted Critical
Publication of CN108595453B publication Critical patent/CN108595453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种URL标识映射获取方法及装置,通过获取M个统一资源定位符URL,并从每一个URL中,获得多个初始字符串,每个URL包含用于间隔多个初始字符串的分隔符以及多个初始字符串;对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串;获取用户针对关键字符串输入的标识信息,根据标识信息和包含有关键字符串的被覆盖URL,确定标识信息与被覆盖URL之间的URL标识映射,本发明提供的方法不对URL对应网页内容进行识别,可以用于对应文本、图片、视频、音频等内容的URL,本发明结合了机器学习和人工输入,提高了URL标识映射的准确性。

Description

URL标识映射获取方法及装置
技术领域
本发明涉及网络与计算机技术领域,尤其涉及一种URL标识映射获取方法及装置。
背景技术
用户行为分析,是在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。随着互联网数据规模的不断增长,在进行用户行为分析时通常需要根据用户访问互联网时留下的日志访问痕迹,首先就要从海量的日志访问记录中采集统一资源定位符(UniformResource Locator,简称:URL)部分挖掘出用户行为。为了提高数据采集的准确度,避免引入过多无效信息,通常需要对URL进行标识,获得准确的URL标识映射。
现有的一种URL标识方法,是将URL序列输入到网络爬虫程序中,爬虫程序获取URL对应页面中的内容,提取出的网页关键词,根据网页关键词来对URL进行标识。但这种URL标识方法依赖网页文本内容,因此只适合新闻资讯类、论坛社区类文本类型网页的URL。提取网页关键词的过程相对复杂耗时长,需要用到自然语言处理(NLP)的学习训练全过程。
现有的URL标识方法需要将待处理的URL局限在文本类型网页的URL,而对于图片、视频、音频为主要内容的URL,获得的URL标识映射具有较低的准确性。
发明内容
本发明提供一种URL标识映射获取方法及装置,可以用于对应文本、图片、视频、音频等内容的URL,结合了机器学习和人工输入,提高了URL标识映射的准确性。
根据本发明的第一方面,提供一种URL标识映射获取方法,包括:
获取M个统一资源定位符URL,并从每一个URL中,获得多个初始字符串,每个URL包含用于间隔多个初始字符串的分隔符以及多个初始字符串;
对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;
根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串,其中,每个有效字符串对应的URL覆盖率,是包含每个有效字符串的URL数量在M中的占比;
获取用户针对关键字符串输入的标识信息,根据标识信息和包含有关键字符串的被覆盖URL,确定标识信息与被覆盖URL之间的URL标识映射。
作为一种实现方式,根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串,包括:
获取每个有效字符串对应的URL覆盖率;
根据所有URL覆盖率,得到T个最高效字符串组合St,其中,t=1,......,T,T为有效字符串的数量,第t个最高效字符串组合St包含有t个有效字符串,并且任意t个有效字符串构成的字符串组合对应的URL累计覆盖率,都小于或等于第t个最高效字符串组合St对应的URL累计覆盖率,URL累计覆盖率为包含字符串组合中任一有效字符串的URL数量在M中的占比;
在T个最高效字符串组合St中,将与小于或等于累计覆盖率阈值的URL累计覆盖率对应的最高效字符串组合St中包含的有效字符串,确定为关键字符串。
根据本发明的第二方面,提供一种URL标识映射获取装置,包括:
初始字符串获取模块,用于获取M个统一资源定位符URL,并从每一个URL中,获得多个初始字符串,每个URL包含用于间隔多个初始字符串的分隔符以及多个初始字符串;
混合高斯处理模块,用于对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;
关键字符串确定模块,用于根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串,其中,每个有效字符串对应的URL覆盖率,是包含每个有效字符串的URL数量在M中的占比;
URL标识映射确定模块,用于获取用户对关键字符输入的标识信息,根据标识信息和包含有关键字符串的被覆盖URL,确定标识信息与被覆盖URL之间的URL标识映射。
关键字符串确定模块具体用于:获取每个有效字符串对应的URL覆盖率;根据所有URL覆盖率,得到T个最高效字符串组合St,其中,t=1,......,T,T为有效字符串的数量,第t个最高效字符串组合St包含有t个有效字符串,并且任意t个有效字符串构成的字符串组合对应的URL累计覆盖率,都小于或等于第t个最高效字符串组合St对应的URL累计覆盖率,URL累计覆盖率为包含字符串组合中任一有效字符串的URL数量在M中的占比;在T个最高效字符串组合St中,将与小于或等于累计覆盖率阈值的URL累计覆盖率对应的最高效字符串组合St中包含的有效字符串,确定为关键字符串。
根据本发明的第三方面,提供一种终端,包括:存储器、处理器以及计算机程序,计算机程序存储在存储器中,处理器运行计算机程序执行第一方面及第一方面各种可能的设计的URL标识映射获取方法。
根据本发明的第四方面,提供一种存储介质,包括:可读存储介质和计算机程序,计算机程序用于实现第一方面及第一方面各种可能的设计URL标识映射获取方法。
本发明提供的一种URL标识映射获取方法及装置,通过获取M个统一资源定位符URL,并从每一个URL中,获得多个初始字符串,每个URL包含用于间隔多个初始字符串的分隔符以及多个初始字符串;对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串,其中,每个有效字符串对应的URL覆盖率,是包含每个有效字符串的URL数量在M中的占比;获取用户针对关键字符串输入的标识信息,根据标识信息和包含有关键字符串的被覆盖URL,确定标识信息与被覆盖URL之间的URL标识映射,本发明提供的方法及装置不对URL对应网页内容进行识别,可以用于对应文本、图片、视频、音频等内容的URL,本发明结合了机器学习和人工输入,提高了URL标识映射的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种URL标识映射获取方法的流程示意图;
图2为本发明实施例提供的一种20个URL的示例;
图3为本发明实施例提供的一种从图2所示的URL中获得的初始字符串示例;
图4为本发明实施例提供的一种从图3所示的初始字符串中过滤掉的无效字符串示例;
图5为本发明实施例提供的一种URL标识映射示例;
图6为本发明实施例提供的另一种URL标识映射获取方法的子流程示意图;
图7为本发明实施例提供的再一种URL标识映射获取方法的子流程示意图;
图8为本发明实施例提供的一种URL标识映射获取装置示意图;
图9为本发明提供的一种终端的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”和“第八”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。应当理解,在本发明中,“多个”是指两个或两个以上。应当理解,在本发明中,“与A相应的B”表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
取决于语境,本发明所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。本发明中,URL,即统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。本发明中,某字符串的URL覆盖率,是包含有某字符串的URL数量,与所有URL总数量的比值。某字符串组合的URL累计覆盖率,是一个或多个字符串覆盖的URL并集中的URL数量,与所有URL总数量的比值。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
作为本发明的一种应用场景,在对某网站进行用户行为分析之前,首先获取目标网站的日志访问记录。每一条日志记录主要由用户IP、请求开始日期和时间、请求结束日期和时间、访问的URL、客户端名称等字段组成。其中URL即为统一资源定位符,表示的是文件在网络中的位置,以http://mail.163.com/index.html?testaaa为例,这是一个典型的URL,“http”表示应用层协议,“mail”是服务器名,“163”为二级域名,“com”为顶级域名,“index.html”是文件名,“testaaa”是URL参数,因此一个典型URL由协议、服务器名、多级域名、文件名、参数(可选)组成。本发明可以对日志中访问的URL进行标识,以便根据标识获得用户访问的网页类别和主要内容。进一步地,在针对某一目标网站进行URL标识时,可以将例如“mail”的服务器名、例如“163”的二级域名以及例如“com”的顶级域名默认标记为无效字符串,以减少对后期数据分析的干扰。
图1为本发明实施例提供的一种URL标识映射获取方法的流程示意图。图1所示实施例的执行主体为URL标识映射获取装置,该装置可以是服务器、终端、控制器等电子设备,也可以是内嵌与这些电子设备中的处理器、集成电路板等模块。图1所示方法可以包括:
S101,获取M个统一资源定位符URL,并从每一个URL中,获得多个初始字符串。
其中,每个URL包含用于间隔所述多个初始字符串的分隔符以及所述多个初始字符串。具体地,每一个完整的URL都包含应用层协议、服务器名、多级域名、文件名、URL参数后缀。将每一个完整的URL按照预设的分隔符号分隔开,得到对应于应用层协议、服务器名、多级域名、文件名和URL参数后缀的多个初始字符串。以如下URL为例:
“http://www.report.mall.10010.com/pages/erpt/rpt_main_report.jsf?rpt_id=T RADE_124&authkey=xoVWQKY923416DIizzTp1Q==”
可以看出,协议和域名之间是以符号“://”分隔开,多级域名之间用符号“.”分隔,服务器名与具体的目录、上下层目录之间用符号“/”分隔,网址和参数之间用符号“?”分隔,而不同参数之间使用符号“&”分隔。作为一种预设的分隔符号的实现方式,预设的分隔符号可以包括“://”、“.”、“/”、“?”和“&”。分隔后得到下列初始字符串:
http;www;report;mall;10010;com;pages;erpt;rpt_main_report;jsf;rpt_id=TRADE_124;authkey=xoVWQKY923416DIizzTp1Q==。
图2为本发明实施例提供的一种20个URL的示例。图3为本发明实施例提供的一种从图2所示的URL中获得的初始字符串示例。在图2所示的20个URL中,以预设的分隔符对所有URL中的初始字符串进行分割和提取,去除了无意义的分隔符号,得到图3所示的初始字符串。
可选地,对获得的初始字符串去重,可以得到M个URL对应的不重复的多个初始字符串。
S102,对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串。
具体地,获得到初始字符串后,由于初始字符串的种类复杂多样,其中大部分是不包含实际意义的字符串,比如“www”、“http”等,需要过滤出去。本实施例采用混合高斯聚类算法,可以通过大量的训练样本预先通过机器学习的方式建立标记模型或过滤模型。再以预先建立得到的模型自动判断哪些初始字符串是无效的需要过滤掉的,哪些是有效的需要保留。
图4为本发明实施例提供的一种从图3所示的初始字符串中过滤掉的无效字符串示例。从图3所示的大量初始字符串中,经过无效字符串的混合高斯过滤,去除了如图4所示的无效字符串,保留下有效字符串。
S103,根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串。
其中,每个有效字符串对应的URL覆盖率,是包含每个有效字符串的URL数量在M中的占比。具体地,先获取每个有效字符串对应的URL覆盖率。可以对每个有效字符串进行出现频次的统计,在同一URL中出现一次或一次以上的,都记为出现一次。然后再用每个初始字符串的出现频次除以URL的总数M,得到每个初始字符串的URL覆盖率。URL覆盖率越高,表明该初始字符串访问热度越高。根据长尾理论,90%的URL访问集中在10%的页面当中。
在一种实现方式中,对URL覆盖率进行正向排序,即从大到小排序,将URL覆盖率最大的10%的有效字符串中确定关键字符串,由此可以确定访问人数最多的RUL对应的关键字符串。例如,总共有100个有效字符串,则将URL覆盖率最大的10个有效字符串作为关键字符串,明显地,包含这10个有效字符串的URL必然是访问人数最多的URL。本实现方式适用于对热门URL的分析。
在另一种实现方式中,根据每个有效字符串对应的URL覆盖率,得到由t个有效字符串构成的字符串组合对应的URL累计覆盖率,t=1,......T,其中,T为所有所述有效字符串的总数量。在由相同数量有效字符串构成的所述字符串组合中,确定与URL累计覆盖率的最大值对应的最高效字符串组合,由此得到T个最高效字符串组合。在得到T个最高效字符串组合之后,可以通过对T个最高效字符串组合根据其URL累计覆盖率进行从大到小依次列举,将排前N位的最高效字符串组合包含的有效字符串,确定为关键字符串。在得到T个最高效字符串组合之后或者,也可以在T个最高效字符串组合中,将小于或等于累计覆盖率阈值的URL累计覆盖率对应的最高效字符串组合中包含的有效字符串,确定为关键字符串。
例如将表一所示URL累计覆盖率小于或等于83.8%的最高效字符串组合中的有效字符串确定为关键字符串,由此可以确定访问人数最多的URL对应的关键字符串的组合。表一是本发明实施例提供的一种最高效字符串组合的示例。表一的第一列是各最高效字符串组合的累计等级,对应各最高效字符串组合中包含的有效字符串的个数;第二列是各最高效字符串组合在每个累计等级时相对前一个等级新加入的有效字符串,第三列是各个最高效字符串组合对应的URL累计覆盖率。表一所示的URL累计覆盖率,例如可以是在100个URL中计算得到的。
累计等级为1时,“item”的URL累计覆盖率17%是所有单个字符串的URL累计覆盖率中最大的,则将“item”作为第一等级的最高效字符串组合。
累计等级为2时,“item”与“taojinbi”的组合对应的URL累计覆盖率,大于“item”与其他任何有效字符串的组合对应的URL累计覆盖率,则将“item”与“taojinbi”的组合作为第二等级的最高效字符串组合。
以此类推后续等级中最高效字符串组合的确定方式,得到其他等级的最高效字符串组合,以及其他等级的最高效字符串组合对应的URL累计覆盖率。
表一
S104,获取用户针对所述关键字符串输入的标识信息,根据所述标识信息和包含有所述关键字符串的被覆盖URL,确定所述标识信息与所述被覆盖URL之间的URL标识映射。
具体地,向用户显示关键字符串,并对其他有效字符串进行默认标识操作。用户看到显示的关键字符串后,针对显示的关检字符串输入标识信息。显示关键字符串的方式具体可以是以如表一所示的表格形式,排前21的有效字符串为关键字符串,排在第22位及以后的有效字符串的标识信息都默认为“其他”。用户在看到表一后,在表格的第四列输入每个关键字符串的标识信息。可选地,还可以在用户点击每行的关键字符串时,向用户显示该字符串对应的URL,以便用户正确地输入标识信息。可选地,对其他有效字符串进行默认标识操作,可以是如表一所示的统一标识为“其他”,也可以是根据英文翻译得到默认标识信息,以默认的标识信息与其他有效字符串建立URL标识映射。
图5为本发明实施例提供的一种URL标识映射示例。在图3所示的URL标识映射中,每一条URL对应于一个标识信息,但本发明不限于此。在一条URL中包含两个或两个以上有效字符串时,可以以一对多的方式对一条URL设置两个或两个以上标识信息。
本实施例提供的一种URL标识映射获取方法,通过获取M个统一资源定位符URL,并从每一个URL中,获得多个初始字符串,每个URL包含用于间隔多个初始字符串的分隔符以及多个初始字符串;对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;根据每个有效字符串对应的URL覆盖率,在所有有效字符串中确定关键字符串,其中,每个有效字符串对应的URL覆盖率,是包含每个有效字符串的URL数量在M中的占比;获取用户针对关键字符串输入的标识信息,根据标识信息和包含有关键字符串的被覆盖URL,确定标识信息与被覆盖URL之间的URL标识映射,本实施例提供的方法不对URL对应网页内容进行识别,可以用于对应文本、图片、视频、音频等内容的URL,本实施例结合了机器学习和人工输入,提高了URL标识映射的准确性。
在图1所示实施例的基础上,确定关键字符串的一种具体实现方式可以是:首先获取每个有效字符串对应的URL覆盖率;然后根据所有所述URL覆盖率,得到T个最高效字符串组合St,其中,t=1,......,T,T为所述有效字符串的数量,第t个最高效字符串组合St包含有t个所述有效字符串,并且任意t个所述有效字符串构成的字符串组合对应的URL累计覆盖率,都小于或等于所述第t个最高效字符串组合St对应的URL累计覆盖率,所述URL累计覆盖率为包含字符串组合中任一有效字符串的URL数量在M中的占比;最后在所述T个最高效字符串组合St中,将小于或等于累计覆盖率阈值的URL累计覆盖率对应的最高效字符串组合St中包含的有效字符串,确定为关键字符串。在URL中,URL累计覆盖率越高,表明有效字符串覆盖的URL访问热度越高,绝大多数的用户访问记录都集中这些被覆盖的URL中,因此对URL累计覆盖率高的效字符串进行标识具有重大意义,提高了标识效率。在上述实施例的基础上,其中,对所有初始字符串进行无效字符串的混合高斯过滤,得到有效字符串的一种具体实现方式可以是:
根据所有初始字符串,获得每个所述初始字符串对应的特征向量。例如,以预设特征对所有初始字符串进行量化,得到每个初始字符串的特征向量。预设特征可以是以下四类特征的1个或多个的任何迅速组合:
初始字符串的长度;
初始字符串在M个URL中覆盖的URL数量;
初始字符串首字符相对于其覆盖的URL首字符的偏移量平均值;
初始字符串末尾字符相对于其覆盖的URL末尾字符的偏移量平均值。
在确定了特征向量之后,以预设的混合高斯标记模型对所有初始字符串对应的特征向量进行过滤,获得标记为有效的特征向量。具体地,混合高斯标记模型对所有特征向量标记为有效或者无效,将标记为无效的特征向量过滤,仅保留下标记为有效的特征向量。将与标记为有效的特征向量对应的初始字符串,确定为有效字符串。
特征向量可以是表示初始字符串的一个特征,也可以是多个特征。
图6为本发明实施例提供的另一种URL标识映射获取方法的子流程示意图。在上述实施例的基础上,下面对在每个初始字符串对应的特征向量为四维向量时,获得特征向量的过程进行详细说明。图6所示的方法包括:
S201,在所述M个URL中,获取包含任一所述初始字符串的目标URL以及所述目标URL的数量H。
具体地,对任一初始字符串,将包含该任一初始字符串的URL作为目标URL,例如在图2中,包含初始字符串“ju”的目标URL有2个,则H为2。
S202,获取所述任一所述初始字符串在所述H个目标URL中的H个第一偏移量和H个第二偏移量。
其中,所述第一偏移量是所述任一所述初始字符串的首字符相对于所述每个目标URL的首字符的距离,所述第二偏移量是所述任一所述初始字符串的末尾字符相对于所述每个目标URL的末尾字符的距离。
以“http://mail.163.com/index.html?testaaa”为例进行说明,若初始字符串“index”仅出现在“http://mail.163.com/index.html?testaaa”中,则初始字符串“index”的第一偏移量为20,第二偏移量为13。
S203,根据所述H个第一偏移量和H个第二偏移量,确定所述任一所述初始字符串的第一特征值和第二特征值。
继续参考上述“http://mail.163.com/index.html?testaaa”的示例,初始字符串“index”对应的第一特征值为20,第二特征值为13。
S204,将所述任一所述初始字符串的字符长度,确定为第三特征值。
继续参考上述“http://mail.163.com/index.html?testaaa”的示例,初始字符串“index”的字符长度为5,则第三特征值为5。
S205,将所述目标URL的数量H,确定为第四特征值。
继续参考上述“http://mail.163.com/index.html?testaaa”的示例,初始字符串“index”仅出现在一条URL中,即仅仅覆盖了一条URL,目标URL的数量为1。由此确定第四特征值为1。
步骤S203、S204和S205之间可以以任意顺序执行,本实施例不对这三个步骤的执行顺序进行限定。
S206,根据每个所述初始字符串对应的所述第一特征值、第二特征值、第三特征值以及第四特征值,确定每个所述初始字符串对应的特征向量。
具体地,继续参考上述“http://mail.163.com/index.html?testaaa”的示例,在一种实现方式中,特征向量为第一特征值、第二特征值、第三特征值以及第四特征值依次排列的向量,特征向量可以是(20,13,5,1)。在另一种实现方式中,特征向量也可以为第一特征值、第二特征值、第三特征值以及第四特征值乱序排列的向量,例如(20,5,13,1)、(5,1,20,13)等。每个特征向量中,第一特征值、第二特征值、第三特征值以及第四特征值的顺序相同。
本实施例通过不同特征对初始字符串进行量化,从而得到特征向量,提高了对具有不同特征的初始字符串的处理效率和准确性。
在图6所示实施例的基础上,根据H个第一偏移量和H个第二偏移量,确定所述任一所述初始字符串的第一特征值和第二特征值的过程中,具体包括:
判断所述目标URL的数量H是否大于或等于2;
若是,则获取所述H个第一偏移量的平均值和所述H个第二偏移量的平均值,并且将所述H个第一偏移量的平均值确定为所述任一所述初始字符串的第一特征值,将所述H个第二偏移量的平均值确定为所述任一所述初始字符串的第二特征值;
若否,则将所述第一偏移量和第二偏移量,确定为所述任一所述初始字符串的第一特征值和第二特征值。
其中,在H大于或等于2的情况下,表明初始字符串出现与两条或两条以上的URL中,因此对得到的H个第一偏移量和H个第二偏移量分别求平均值,将两者的平均值分别作为初始字符串的第一特征值和第二特征值。
在上述实施例的基础上,确定每个初始字符串对应的特征向量的过程,具体可以是在对所有特征值做归一化后获取特征向量的过程:
首先以归一化公式对每个所述初始字符串对应的所述第一特征值Vi1、第二特征值Vi2、第三特征值Vi3以及第四特征值Vi4进行归一化处理,得到取值范围均在0至1之间的第一特征值Vi1′、第二特征值Vi2′、第三特征值Vi3′以及第四特征值Vi4′;然后根据所述取值范围均在0至1之间的第一特征值Vi1′、第二特征值Vi2′、第三特征值Vi3′以及第四特征值Vi4′,确定每个所述初始字符串对应的特征向量Vi′=(Vi1′,Vi2′,Vi3′,Vi4′),其中,i=1,......,n,n为所述初始字符串的总数。
归一化公式可以是:其中k的取值范围为1至4,Vik表示第i个初始字符串的第k特征值,Range(Vik)表示所有初始字符串的所有第一特征值、第二特征值、第三特征值以及第四特征值中最大值与最小值的差值。经过归一化处理之后,使得归一化后的所有特征值都在0~1之间。
图7为本发明实施例提供的再一种URL标识映射获取方法的子流程示意图。在上述实施例的基础上,在以预设的混合高斯标记模型对所有特征向量进行过滤,获得标记为有效的特征向量之前,还可以包括如图7所示的混合高斯标记模型获取过程:
S301,根据具有有效标记或无效标记的字符串样本,获得每个字符串样本对应的特征向量样本,所述特征向量样本的标记为所述字符串样本的标记。
具体地,字符串样本都是已经确定有效标记或无效标记的字符串,对包含字符串样本的URL样本确定特征向量样本。
S302,根据所有字符串样本对应的特征向量样本,得到混合高斯标记模型。
在具有大量特征向量样本,并且每个特征向量样本都对应有效标记或无效标记,通过机器学习,得到用于区分有效标记和无效标记这两个类别的混合高斯标记模型。混合高斯标记模型用于对所有初始字符串进行无效字符串的混合高斯过滤。
S303,根据所有初始字符串,获得每个初始字符串对应的特征向量。
S304,以预设的混合高斯标记模型对所有初始字符串对应的特征向量进行过滤,获得标记为有效的特征向量。
S305,将与标记为有效的特征向量对应的初始字符串,确定为有效字符串。
S303至S305的过程参见上述实施例的描述,在此不做赘述。
在图7所示实施例的基础上,根据具有有效标记或无效标记的字符串样本,获得特征向量样本,包括:
在M0个包含字符串样本的URL样本中,获取包含任一所述字符串样本的目标URL样本以及所述目标URL样本的数量H0,每个所述字符串样本都对应有效标记或无效标记。
获取任一所述字符串样本在所述H0个目标URL样本中的H0个第三偏移量和H0个第四偏移量,其中,所述第三偏移量是所述任一所述字符串样本的首字符相对于所述每个目标URL样本的首字符的距离,所述第四偏移量是所述任一所述字符串样本的末尾字符相对于所述每个目标URL样本的末尾字符的距离。
根据所述H0个第三偏移量的平均值和H0个第四偏移量的平均值,确定所述任一所述字符串样本的第五特征值和第六特征值。
将所述任一所述字符串样本的字符长度,确定为所述字符串样本的第七特征值。
将所述目标URL样本的数量H0,确定为所述字符串样本的第八特征值。
以归一化公式对每个所述字符串样本对应的第五特征值Vj5、第六特征值Vj6、第七特征值Vj7以及第八特征值Vj8进行归一化处理,得到取值范围均在0至1之间的第五特征值Vj5′、第六特征值Vj6′、第七特征值Vj7′以及第八特征值Vj8′。归一化公式可以是:其中k的取值范围为5至8,Vjk表示第j个字符串样本的第k特征值,Range(Vjk)表示所有字符串样本的所有第五特征值Vj5、第六特征值Vj6、第七特征值Vj7以及第八特征值Vj8中最大值与最小值的差值。经过归一化处理之后,使得归一化后的所有特征值都在0~1之间。
根据所述取值范围均在0至1之间的第五特征值Vj5′、第六特征值Vj6′、第七特征值Vj7′以及第八特征值Vj8′,获得每个所述字符串样本的对应的特征向量样本Xj′=(Vj5′,Vj6′,Vj7′,Vj8′),其中,j=1,......,n0,所述n0为所述字符串样本的总数。
在上述实施例的基础上,根据所有字符串样本对应的特征向量样本,得到混合高斯标记模型的过程,具体可以包括:
在所有字符串样本对应的特征向量样本中,以任意选取的1个对应有效标记的特征向量样本和一个对应无效标记的特征向量样本作为2个类的初始聚类中心,得到符合单高斯分布G(Xqjqq)的2个类,其中,G(Xqjqq)是在第q个类中所述特征向量样本Xqj服从一个数学期望为μq、方差为σq^2的单高斯分布,q=1,2。
对任一个未归类的特征向量样本,计算服从所述2个类对应的单高斯分布的概率,并将所述特征向量样本归属到概率最大的类。
在确定任一个类新加入特征向量样本时,对新加入特征向量样本的类对应的所有特征向量样本确定新的数学期望和方差。
在所述新加入特征向量样本的类对应的特征向量样本中,以所述新的数学期望和方差重新拟合,更新所述新加入特征向量样本的类对应的单高斯分布。
根据所述2个类对应的单高斯分布得到混合高斯分布,判断混合高斯分布的似然函数是否收敛:若是,则将所述混合高斯分布确定为训练好的混合高斯标记模型;若否,返回执行所述对任一个未归类的特征向量样本,计算服从所述2个类对应的单高斯分布的概率。对于混合高斯分布的似然函数是否收敛,可以是直到似然函数的值每次的变化量小于预设的阈值时,确定为收敛。例如在变化量小于总概率的1%的时候,确定混合高斯分布收敛。本实施例中,根据所述2个类对应的单高斯分布得到的混合高斯分布可以为:
其中,Pr(x)是所有特征向量样本Xqj服从混合高斯聚类分布的总的概率;G(Xqjqq)是在第q个类中所述特征向量样本Xqj服从数学期望为μq、方差为σq^2的单高斯分布,q=1,2,j=1,......,J;πq是第q个类中包含特征向量样本的数量在所述特征向量样本的总数J中的占比。
图8为本发明实施例提供的一种URL标识映射获取装置示意图。如图8所示的装置包括:
初始字符串获取模块11,用于获取M个统一资源定位符URL,并从每一个所述URL中,获得多个初始字符串,每个所述URL包含用于间隔所述多个初始字符串的分隔符以及所述多个初始字符串;
混合高斯处理模块12,用于对所有所述初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;
关键字符串确定模块13,用于根据每个所述有效字符串对应的URL覆盖率,在所有所述有效字符串中确定关键字符串,其中,每个所述有效字符串对应的所述URL覆盖率,是包含所述每个所述有效字符串的URL数量在M中的占比;
URL标识映射确定模块14,用于获取用户对所述关键字符输入的标识信息,根据所述标识信息和包含有所述关键字符串的被覆盖URL,确定所述标识信息与所述被覆盖URL之间的URL标识映射。
图8所示实施例的URL标识映射获取装置对应地可用于执行图1所示URL标识映射获取方法的步骤,其实现原理和技术效果类似,此处不再赘述。
在上述实施例的基础上,关键字符串确定模块具体用于:获取每个所述有效字符串对应的URL覆盖率;根据所有所述URL覆盖率,得到T个最高效字符串组合St,其中,t=1,......,T,T为所述有效字符串的数量,第t个最高效字符串组合St包含有t个所述有效字符串,并且任意t个所述有效字符串构成的字符串组合对应的URL累计覆盖率,都小于或等于所述第t个最高效字符串组合St对应的URL累计覆盖率,所述URL累计覆盖率为包含字符串组合中任一有效字符串的URL数量在M中的占比;在所述T个最高效字符串组合St中,将与小于或等于累计覆盖率阈值的URL累计覆盖率对应的最高效字符串组合St中包含的有效字符串,确定为关键字符串。
在上述实施例的基础上,混合高斯处理模块具体用于:根据所有所述初始字符串,获得每个所述初始字符串对应的特征向量;以预设的混合高斯标记模型对所有所述初始字符串对应的所述特征向量进行过滤,获得标记为有效的特征向量;将与所述标记为有效的特征向量对应的初始字符串,确定为有效字符串。
在上述实施例的基础上,在所述每个所述初始字符串对应的特征向量为四维向量时,混合高斯处理模块具体用于:在所述M个URL中,获取包含任一所述初始字符串的目标URL以及所述目标URL的数量H;获取所述任一所述初始字符串在所述H个目标URL中的H个第一偏移量和H个第二偏移量,其中,所述第一偏移量是所述任一所述初始字符串的首字符相对于所述每个目标URL的首字符的距离,所述第二偏移量是所述任一所述初始字符串的末尾字符相对于所述每个目标URL的末尾字符的距离;根据所述H个第一偏移量和H个第二偏移量,确定所述任一所述初始字符串的第一特征值和第二特征值;将所述任一所述初始字符串的字符长度,确定为第三特征值;将所述目标URL的数量H,确定为第四特征值;根据每个所述初始字符串对应的所述第一特征值、第二特征值、第三特征值以及第四特征值,确定每个所述初始字符串对应的特征向量。
在上述实施例的基础上,混合高斯处理模块具体用于:判断所述目标URL的数量H是否大于或等于2;若是,则获取所述H个第一偏移量的平均值和所述H个第二偏移量的平均值,并且将所述H个第一偏移量的平均值确定为所述任一所述初始字符串的第一特征值,将所述H个第二偏移量的平均值确定为所述任一所述初始字符串的第二特征值;若否,则将所述第一偏移量和第二偏移量,确定为所述任一所述初始字符串的第一特征值和第二特征值。
在上述实施例的基础上,混合高斯处理模块具体用于:以归一化公式对每个所述初始字符串对应的所述第一特征值Vi1、第二特征值Vi2、第三特征值Vi3以及第四特征值Vi4进行归一化处理,得到取值范围均在0至1之间的第一特征值Vi1′、第二特征值Vi2′、第三特征值Vi3′以及第四特征值Vi4′;根据所述取值范围均在0至1之间的第一特征值Vi1′、第二特征值Vi2′、第三特征值Vi3′以及第四特征值Vi4′,确定每个所述初始字符串对应的特征向量Vi′=(Vi1′,Vi2′,Vi3′,Vi4′),其中,i=1,......,n,n为所述初始字符串的总数。
在上述实施例的基础上,混合高斯处理模块还用于:在所述以预设的混合高斯标记模型对所有所述初始字符串对应的所述特征向量进行过滤,获得标记为有效的特征向量之前,根据具有有效标记或无效标记的字符串样本,获得每个字符串样本对应的特征向量样本,所述特征向量样本的标记为所述字符串样本的标记;根据所有字符串样本对应的特征向量样本,得到混合高斯标记模型。
在上述实施例的基础上,混合高斯处理模块具体用于:在M0个包含字符串样本的URL样本中,获取包含任一所述字符串样本的目标URL样本以及所述目标URL样本的数量H0,每个所述字符串样本都对应有效标记或无效标记;获取所述任一所述字符串样本在所述H0个目标URL样本中的H0个第三偏移量和H0个第四偏移量,其中,所述第三偏移量是所述任一所述字符串样本的首字符相对于所述每个目标URL样本的首字符的距离,所述第四偏移量是所述任一所述字符串样本的末尾字符相对于所述每个目标URL样本的末尾字符的距离;根据所述H0个第三偏移量的平均值和H0个第四偏移量的平均值,确定所述任一所述字符串样本的第五特征值和第六特征值;将所述任一所述字符串样本的字符长度,确定为所述字符串样本的第七特征值;将所述目标URL样本的数量H0,确定为所述字符串样本的第八特征值;以归一化公式对每个所述字符串样本对应的第五特征值Vj5、第六特征值Vj6、第七特征值Vj7以及第八特征值Vj8进行归一化处理,得到取值范围均在0至1之间的第五特征值Vj5′、第六特征值Vj6′、第七特征值Vj7′以及第八特征值Vj8′;根据所述取值范围均在0至1之间的第五特征值Vj5′、第六特征值Vj6′、第七特征值Vj7′以及第八特征值Vj8′,获得每个所述字符串样本的对应的特征向量样本Xj′=(Vj5′,Vj6′,Vj7′,Vj8′),其中,j=1,......,n0,所述n0为所述字符串样本的总数。
在上述实施例的基础上,混合高斯处理模块具体用于:在所有字符串样本对应的特征向量样本中,以任意选取的1个对应有效标记的特征向量样本和一个对应无效标记的特征向量样本作为2个类的初始聚类中心,得到符合单高斯分布G(Xqjqq)的2个类,其中,G(Xqjqq)是在第q个类中所述特征向量样本Xqj服从一个数学期望为μq、方差为σq^2的单高斯分布,q=1,2;对任一个未归类的特征向量样本,计算服从所述2个类对应的单高斯分布的概率,并将所述特征向量样本归属到概率最大的类;在确定任一个类新加入特征向量样本时,对新加入特征向量样本的类对应的所有特征向量样本确定新的数学期望和方差;在所述新加入特征向量样本的类对应的特征向量样本中,以所述新的数学期望和方差重新拟合,更新所述新加入特征向量样本的类对应的单高斯分布;根据所述2个类对应的单高斯分布得到混合高斯分布,判断所述混合高斯分布的似然函数是否收敛;若是,则将所述混合高斯分布确定为混合高斯标记模型;若否,返回执行所述对任一个未归类的特征向量样本,计算服从所述2个类对应的单高斯分布的概率。
图9为本发明提供的一种终端的硬件结构示意图。如图9所示,该终端包括:处理器911以及存储器912;其中,存储器912,用于存储计算机程序,该存储器还可以是闪存(flash)。处理器911,用于执行存储器存储的执行指令,以实现上述URL标识映射获取方法中终端执行的各个步骤。具体可以参见前面方法实施例中的相关描述。可选地,存储器912既可以是独立的,也可以跟处理器911集成在一起。当所述存储器912是独立于处理器911之外的器件时,所述终端还可以包括:总线913,用于连接所述存储器912和处理器911。
本发明还提供一种可读存储介质,可读存储介质中存储有执行指令,当终端的至少一个处理器执行该执行指令时,终端执行上述的各种实施方式提供的URL标识映射获取方法。其中,可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。终端的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得终端实施上述的各种实施方式提供的URL标识映射获取方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种URL标识映射获取方法,其特征在于,包括:
获取M个统一资源定位符URL,并从每一个所述URL中,获得多个初始字符串,每个所述URL包含用于间隔所述多个初始字符串的分隔符以及所述多个初始字符串;
对所有所述初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;
根据每个所述有效字符串对应的URL覆盖率,在所有所述有效字符串中确定关键字符串,其中,每个所述有效字符串对应的所述URL覆盖率,是包含所述每个所述有效字符串的URL数量在M中的占比;
获取用户针对所述关键字符串输入的标识信息,根据所述标识信息和包含有所述关键字符串的被覆盖URL,确定所述标识信息与所述被覆盖URL之间的URL标识映射。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述有效字符串对应的URL覆盖率,在所有所述有效字符串中确定关键字符串,包括:
获取每个所述有效字符串对应的URL覆盖率;
根据所有所述URL覆盖率,得到T个最高效字符串组合St,其中,t=1,......,T,T为所述有效字符串的数量,第t个最高效字符串组合St包含有t个所述有效字符串,并且任意t个所述有效字符串构成的字符串组合对应的URL累计覆盖率,都小于或等于所述第t个最高效字符串组合St对应的URL累计覆盖率,所述URL累计覆盖率为包含字符串组合中任一有效字符串的URL数量在M中的占比;
在所述T个最高效字符串组合St中,将与小于或等于累计覆盖率阈值的URL累计覆盖率对应的最高效字符串组合St中包含的有效字符串,确定为关键字符串。
3.根据权利要求1所述的方法,其特征在于,所述对所有所述初始字符串进行无效字符串的混合高斯过滤,得到有效字符串,包括:
根据所有所述初始字符串,获得每个所述初始字符串对应的特征向量;
以预设的混合高斯标记模型对所有所述初始字符串对应的所述特征向量进行过滤,获得标记为有效的特征向量;
将与所述标记为有效的特征向量对应的初始字符串,确定为有效字符串。
4.根据权利要求3所述的方法,其特征在于,在所述每个所述初始字符串对应的特征向量为四维向量时,所述根据所有所述初始字符串,获得每个所述初始字符串对应的特征向量,包括:
在所述M个URL中,获取包含任一所述初始字符串的目标URL以及所述目标URL的数量H;
获取所述任一所述初始字符串在所述H个目标URL中的H个第一偏移量和H个第二偏移量,其中,所述第一偏移量是所述任一所述初始字符串的首字符相对于所述每个目标URL的首字符的距离,所述第二偏移量是所述任一所述初始字符串的末尾字符相对于所述每个目标URL的末尾字符的距离;
根据所述H个第一偏移量和H个第二偏移量,确定所述任一所述初始字符串的第一特征值和第二特征值;
将所述任一所述初始字符串的字符长度,确定为第三特征值;
将所述目标URL的数量H,确定为第四特征值;
根据每个所述初始字符串对应的所述第一特征值、第二特征值、第三特征值以及第四特征值,确定每个所述初始字符串对应的特征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述H个第一偏移量和H个第二偏移量,确定所述任一所述初始字符串的第一特征值和第二特征值,包括:
判断所述目标URL的数量H是否大于或等于2;
若是,则获取所述H个第一偏移量的平均值和所述H个第二偏移量的平均值,并且将所述H个第一偏移量的平均值确定为所述任一所述初始字符串的第一特征值,将所述H个第二偏移量的平均值确定为所述任一所述初始字符串的第二特征值;
若否,则将所述第一偏移量和第二偏移量,确定为所述任一所述初始字符串的第一特征值和第二特征值。
6.根据权利要求4所述的方法,其特征在于,所述根据每个所述初始字符串对应的所述第一特征值、第二特征值、第三特征值以及第四特征值,确定每个所述初始字符串对应的特征向量,包括:
以归一化公式对每个所述初始字符串对应的所述第一特征值Vi1、第二特征值Vi2、第三特征值Vi3以及第四特征值Vi4进行归一化处理,得到取值范围均在0至1之间的第一特征值Vi1′、第二特征值Vi2′、第三特征值Vi3′以及第四特征值Vi4′;
根据所述取值范围均在0至1之间的第一特征值Vi1′、第二特征值Vi2′、第三特征值Vi3′以及第四特征值Vi4′,确定每个所述初始字符串对应的特征向量Vi′=(Vi1′,Vi2′,Vi3′,Vi4′),其中,i=1,......,n,n为所述初始字符串的总数。
7.根据权利要求3或4所述的方法,其特征在于,在所述以预设的混合高斯标记模型对所有所述初始字符串对应的所述特征向量进行过滤,获得标记为有效的特征向量之前,还包括:
根据具有有效标记或无效标记的字符串样本,获得每个字符串样本对应的特征向量样本,所述特征向量样本的标记为所述字符串样本的标记;
根据所有字符串样本对应的特征向量样本,得到混合高斯标记模型。
8.根据权利要求7所述的方法,其特征在于,所述根据具有有效标记或无效标记的字符串样本,获得特征向量样本,包括:
在M0个包含字符串样本的URL样本中,获取包含任一所述字符串样本的目标URL样本以及所述目标URL样本的数量H0,每个所述字符串样本都对应有效标记或无效标记;
获取所述任一所述字符串样本在所述H0个目标URL样本中的H0个第三偏移量和H0个第四偏移量,其中,所述第三偏移量是所述任一所述字符串样本的首字符相对于所述每个目标URL样本的首字符的距离,所述第四偏移量是所述任一所述字符串样本的末尾字符相对于所述每个目标URL样本的末尾字符的距离;
根据所述H0个第三偏移量的平均值和H0个第四偏移量的平均值,确定所述任一所述字符串样本的第五特征值和第六特征值;
将所述任一所述字符串样本的字符长度,确定为所述字符串样本的第七特征值;
将所述目标URL样本的数量H0,确定为所述字符串样本的第八特征值;
以归一化公式对每个所述字符串样本对应的第五特征值Vj5、第六特征值Vj6、第七特征值Vj7以及第八特征值Vj8进行归一化处理,得到取值范围均在0至1之间的第五特征值Vj5′、第六特征值Vj6′、第七特征值Vj7′以及第八特征值Vj8′;
根据所述取值范围均在0至1之间的第五特征值Vj5′、第六特征值Vj6′、第七特征值Vj7′以及第八特征值Vj8′,获得每个所述字符串样本的对应的特征向量样本Xj′=(Vj5′,Vj6′,Vj7′,Vj8′),其中,j=1,......,n0,所述n0为所述字符串样本的总数。
9.根据权利要求7所述的方法,其特征在于,所述根据所述所有字符串样本对应的特征向量样本,得到混合高斯标记模型,包括:
在所有字符串样本对应的特征向量样本中,以任意选取的1个对应有效标记的特征向量样本和一个对应无效标记的特征向量样本作为2个类的初始聚类中心,得到符合单高斯分布G(Xqjqq)的2个类,其中,G(Xqjqq)是在第q个类中所述特征向量样本Xqj服从一个数学期望为μq、方差为σq^2的单高斯分布,q=1,2;
对任一个未归类的特征向量样本,计算服从所述2个类对应的单高斯分布的概率,并将所述特征向量样本归属到概率最大的类;
在确定任一个类新加入特征向量样本时,对新加入特征向量样本的类对应的所有特征向量样本确定新的数学期望和方差;
在所述新加入特征向量样本的类对应的特征向量样本中,以所述新的数学期望和方差重新拟合,更新所述新加入特征向量样本的类对应的单高斯分布;
根据所述2个类对应的单高斯分布得到混合高斯分布,判断所述混合高斯分布的似然函数是否收敛;
若是,则将所述混合高斯分布确定为混合高斯标记模型;
若否,返回执行所述对任一个未归类的特征向量样本,计算服从所述2个类对应的单高斯分布的概率。
10.一种URL标识映射获取装置,其特征在于,包括:
初始字符串获取模块,用于获取M个统一资源定位符URL,并从每一个所述URL中,获得多个初始字符串,每个所述URL包含用于间隔所述多个初始字符串的分隔符以及所述多个初始字符串;
混合高斯处理模块,用于对所有所述初始字符串进行无效字符串的混合高斯过滤,得到有效字符串;
关键字符串确定模块,用于根据每个所述有效字符串对应的URL覆盖率,在所有所述有效字符串中确定关键字符串,其中,每个所述有效字符串对应的所述URL覆盖率,是包含所述每个所述有效字符串的URL数量在M中的占比;
URL标识映射确定模块,用于获取用户对所述关键字符输入的标识信息,根据所述标识信息和包含有所述关键字符串的被覆盖URL,确定所述标识信息与所述被覆盖URL之间的URL标识映射。
CN201711388050.1A 2017-12-20 2017-12-20 Url标识映射获取方法及装置 Active CN108595453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711388050.1A CN108595453B (zh) 2017-12-20 2017-12-20 Url标识映射获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711388050.1A CN108595453B (zh) 2017-12-20 2017-12-20 Url标识映射获取方法及装置

Publications (2)

Publication Number Publication Date
CN108595453A true CN108595453A (zh) 2018-09-28
CN108595453B CN108595453B (zh) 2020-09-01

Family

ID=63633517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711388050.1A Active CN108595453B (zh) 2017-12-20 2017-12-20 Url标识映射获取方法及装置

Country Status (1)

Country Link
CN (1) CN108595453B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298005A (zh) * 2019-06-26 2019-10-01 上海观安信息技术股份有限公司 一种对url进行归一化的方法
CN111400623A (zh) * 2020-03-10 2020-07-10 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100174716A1 (en) * 2004-09-30 2010-07-08 Google Inc. Methods and systems for improving text segmentation
CN102411617A (zh) * 2011-10-31 2012-04-11 北京锐安科技有限公司 一种对海量url进行存储和查询方法
CN104573033A (zh) * 2015-01-15 2015-04-29 国家计算机网络与信息安全管理中心 一种动态url过滤方法及装置
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
CN107341135A (zh) * 2017-05-24 2017-11-10 中国科学院信息工程研究所 一种面向通用文本格式的解析方法及工具

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100174716A1 (en) * 2004-09-30 2010-07-08 Google Inc. Methods and systems for improving text segmentation
CN102411617A (zh) * 2011-10-31 2012-04-11 北京锐安科技有限公司 一种对海量url进行存储和查询方法
CN104573033A (zh) * 2015-01-15 2015-04-29 国家计算机网络与信息安全管理中心 一种动态url过滤方法及装置
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
CN107341135A (zh) * 2017-05-24 2017-11-10 中国科学院信息工程研究所 一种面向通用文本格式的解析方法及工具

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298005A (zh) * 2019-06-26 2019-10-01 上海观安信息技术股份有限公司 一种对url进行归一化的方法
CN111400623A (zh) * 2020-03-10 2020-07-10 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置

Also Published As

Publication number Publication date
CN108595453B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN106294535B (zh) 网站的识别方法和装置
CN105306495B (zh) 用户识别方法和装置
Zhang et al. Phishing detection method based on borderline-smote deep belief network
CN106708952B (zh) 一种网页聚类方法及装置
CN107704453A (zh) 一种文字语义分析方法、文字语义分析终端及存储介质
Chen et al. Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack
CN111726336B (zh) 一种联网智能设备识别信息提取方法及系统
CN109873810A (zh) 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法
CN108170678A (zh) 一种文本实体抽取方法与系统
CN113821592B (zh) 一种数据处理方法、装置、设备以及存储介质
CN108768982A (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN109347786A (zh) 钓鱼网站检测方法
CN105117434A (zh) 一种网页分类方法和系统
CN110321707A (zh) 一种基于大数据算法的sql注入检测方法
CN104573033A (zh) 一种动态url过滤方法及装置
CN108595453A (zh) Url标识映射获取方法及装置
CN106874340A (zh) 一种网页地址分类方法及装置
CN108920909B (zh) 仿冒移动应用程序判别方法及系统
CN107402999A (zh) 景点数据库建立方法及装置
CN103389987A (zh) 文本相似性比较方法及系统
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111125704B (zh) 一种网页挂马识别方法及系统
CN116800518A (zh) 一种网络防护策略的调整方法及装置
CN101814098B (zh) 基于垂直搜索及语义标注获取软件安全缺陷的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant