CN106960040B - 一种url的类别确定方法及装置 - Google Patents

一种url的类别确定方法及装置 Download PDF

Info

Publication number
CN106960040B
CN106960040B CN201710190117.4A CN201710190117A CN106960040B CN 106960040 B CN106960040 B CN 106960040B CN 201710190117 A CN201710190117 A CN 201710190117A CN 106960040 B CN106960040 B CN 106960040B
Authority
CN
China
Prior art keywords
url
phrase
feature
classification
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710190117.4A
Other languages
English (en)
Other versions
CN106960040A (zh
Inventor
翟东旭
周素华
范敦球
叶晓虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lvmeng Network Security Technology Co ltd
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Beijing NSFocus Information Security Technology Co Ltd filed Critical NSFOCUS Information Technology Co Ltd
Priority to CN201710190117.4A priority Critical patent/CN106960040B/zh
Publication of CN106960040A publication Critical patent/CN106960040A/zh
Application granted granted Critical
Publication of CN106960040B publication Critical patent/CN106960040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种URL的类别确定方法及装置,用以解决现有技术中URL分类不准确的问题。所述方法包括:在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。由于在本发明实施例中,待分类的URL对应的网页内容中每个特征字段的第一特征值,确定待分类的URL的类别,在一定程度上提高确定待分类的URL的类别的准确性。

Description

一种URL的类别确定方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种统一资源定位符(Uniform ResourceLocator,URL)的类别确定方法及装置。
背景技术
目前,互联网在人们的生活中扮演着非常重要的角色,互联网在改善人们生活的同时,也使用户面临着严重的网络信息安全问题。以网络钓鱼、垃圾邮件为代表的网络恶意行为层出不穷。从这些网络恶意行为的实施过程中,人们不难发现,恶意网页及其统一资源定位符(Uniform Resource Locator,URL)在协助攻击者实施网络恶意行为方面起到了推波助澜的作用,因此人们不断发展和完善网页识别的相关技术及工具。作为识别恶意网页的基础技术之一,URL分类问题具有重大的理论意义和科研价值。
在现有技术中,URL分类的方法主要包括:基于黑名单技术的分类方法和基于启发式规则的分类方法。
黑名单中包含恶意网页的URL,通过使用黑名单技术,人们可以准确识别已被确认的URL分类,但不能正确识别之前未出现的URL,从而不能将URL进行分类。
基于启发式规则的分类方法,原理是依据恶意网页的URL之间存在的相似性,通常是假设对于同一类别的URL,其统计特征(例如,链接关系)是唯一的,根据统计特征对URL进行分类。但是,对于大规模URL分类而言,简单的特征统计容易导致分类不准确。
发明内容
本发明提供一种URL的类别确定方法及装置,用以解决现有技术中不能识别URL的类别及URL分类不准确的问题。
为达到上述目的,本发明实施例公开了一种URL的类别确定方法,所述方法包括:
在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;
针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;
根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
进一步地,所述根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值包括:
针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;
针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
进一步地,预先确定每个词组在每个特征中的目标分类概率和非目标分类概率的过程包括:
针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
进一步地,所述特征包括以下至少一种:
标题、标签和正文。
进一步地,当所述特征为标题时,所述根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值包括:
根据公式:确定标题对应的特征字段中的该第一词组的第一子特征值,其中,A为标题对应的特征字段中的第一词组对应的第一目标分类概率,A’为标题对应的特征字段中的第一词组对应的第一非目标分类概率,k为0至1。
进一步地,当所述特征为标签或正文时,所述根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值包括:
根据公式:确定标签或正文对应的特征字段中的该第一词组的第一子特征值,其中,B为标签或正文对应的特征字段中的第一词组对应的第一目标分类概率,B’为标签或正文对应的特征字段中的第一词组对应的第一非目标分类概率。
进一步地,所述方法还包括:
根据预设的相似度算法,确定该待分类的URL对应的第二特征值;
所述根据确定的该待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别包括:
根据确定的该待分类的URL对应的第二特征值和每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
进一步地,所述根据预设的相似度算法,确定该待分类的URL的对应的第二特征值包括:
根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL;
根据距离编辑法,确定用户输入的真实URL与该待分类的URL的第二特征值。
进一步地,所述预先训练完成的URL分类模型包括:
采用支持向量机SVM方法训练完成的第一模型和/或采用迭代决策树GBDT的方法训练完成的第二模型。
进一步地,当预先训练完成的URL分类模型包括采用SVM方法训练完成的第一模型和采用GBDT的方法训练完成的第二模型时,所述确定所述待分类的URL对应的类别包括:
针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;
针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;
识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
进一步地,当采用第一模型和/或第二模型进行训练时,确定每个模型中的每个参数的过程包括:
A、预设参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间;
B、将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值;
C、判断每个第一子变化区间的区间长度值是否不大于设定阈值,如果是,则进行E,如果否,则进行D;
D、根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将所述第二变化区间作为第一变化区间,返回步骤A;
E、将所述最优参数值作为所述参数的最优值。
本发明实施例公开了一种统一资源定位符URL的类别确定装置,所述装置包括:
获取模块,用于在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;
确定模块,用于针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;
分类模块,用于根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
进一步地,所述确定模块,具体用于针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
进一步地,所述确定模块,还用于针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
进一步地,所述确定模块,具体用于根据公式:确定标题对应的特征字段中的该第一词组的第一子特征值,其中,A为标题对应的特征字段中的第一词组对应的第一目标分类概率,A’为标题对应的特征字段中的第一词组对应的第一非目标分类概率,k为0至1。
进一步地,所述确定模块,具体用于根据公式:确定标签或正文对应的特征字段中的该第一词组的第一子特征值,其中,B为标签或正文对应的特征字段中的第一词组对应的第一目标分类概率,B’为标签或正文对应的特征字段中的第一词组对应的第一非目标分类概率。
进一步地,所述确定模块,还用于根据预设的相似度算法,确定该待分类的URL对应的第二特征值;
所述分类模块,具体用于根据确定的该待分类的URL对应的第二特征值和每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
进一步地,所述确定模块,具体用于根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL;根据距离编辑法,确定用户输入的真实URL与该待分类的URL的第二特征值。
进一步地,所述分类模块,具体用于针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
进一步地,所述确定模块,还用于A、预设参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间;B、将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值;C、判断每个第一子变化区间的区间长度值是否不大于设定阈值,如果是,则进行E,如果否,则进行D;D、根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将所述第二变化区间作为第一变化区间,返回步骤A;E、将所述最优参数值作为所述参数的最优值。
本发明实施例公开了一种URL的类别确定方法及装置,所述方法包括:在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。由于在本发明实施例中,在确定待分类的URL对应的类别时,是根据URL对应的网页内容,在该网页内容中获取预设的每个特征对应的特征字段,从而确定每个特征字段的第一特征值,根据每个第一特征值及预先训练完成的URL分类模型来确定待分类的URL对应的类别,可以在一定程度上提高确定待分类的URL的类别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种URL的类别确定过程示意图;
图2为本发明实施例提供的一种URL混合分类模型示意图;
图3为本发明实施例提供的一种URL分类模型流程图;
图4为本发明实施例提供的一种URL的类别确定装置结构图。
具体实施方式
为了可以对URL进行分类,并且提高URL分类的准确性,本发明实施例提供了一种URL的类别确定方法及装置。
的下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的一种URL的类别确定过程示意图,该过程包括以下步骤:
S101:在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段。
本发明实施例提供的URL的类别确定方法可以应用于电子设备,该电子设备可以为手机、平板电脑、PC等设备。
为了确定待分类的URL的类别,在本发明实施例中,根据待分类的URL对应的每个特征字段的第一特征值,确定该待分类的URL的类别。
电子设备中预先保存有URL对应的网页内容中的每个特征,在获取待分类的URL对应的每个特征字段时,可以是根据预先设定的URL对应的每个特征,在待分类的URL对应的网页内容中,获取该待分类的URL对应的每个特征的每个特征字段。
所述特征可以是一个,例如标签或标题或正文,所述特征可以是两个,例如标签和正文,或标签和标题,或标题和正文,所述特征也可以是三个,例如标签、标题和正文。
当所述特征为标签时,所述特征字段可以理解为网页内容中的标签的内容。当所述特征为标题时,所述特征字段可以理解为网页内容中的标题的内容。当所述特征为正文时,所述特征字段可以理解为网页内容中的正文的内容。
S102:针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值。
电子设备中保存有分词方法,在根据预设的分词方法,将该特征字段划分为至少一个第一词组时,可以是电子设备中保存有分词包,根据分词包将该特征字段划分为至少一个第一词组,该分词包中的词组可以包括名词,例如“儿童”,可以包括形容词,例如“开心的”。
针对于每个特征,电子设备中保存有每个词组在该特征中的目标分类概率和非目标分类概率。在根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值时,可以是根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段中的每个第一词组的第一子特征值,将每个第一子特征值由大至小进行排序,将最大的第一子特征值作为所述特征字段的第一特征值。
在根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段中的每个第一词组的第一子特征值时,可以是针对该特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率,将该第一目标分类概率与第一非目标分类概率的比值确定为该第一词组的第一子特征值。
所述每个词组对应的目标分类概率和非目标分类概率可以是用户设定的,针对每个词组,该词组在每个特征中的目标分类概率可以是相同的,也可以是不同的,该词组在每个特征中的非目标分类概率可以是相同的,也可以是不同的。
在同一特征中,不同类型的词组的目标分类概率和非目标分类概率可以不同,例如表示地区的词组的目标分类概率为0.5,非目标分类概率为0.6,表示人物的词组的目标分类概率为0.4,非目标分类概率为0.8。该地区例如可以是天津、北京等,该人物例如可以是儿童、教师等。
在同一特征中,同一词组的目标分类概率和非目标分类概率可能是相同的,也可能是不同的。同一词组的目标分类概率和非目标分类概率的和可以为1,也可以是为大于0的任何数。
S103:根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
在本发明实施例中预先对URL分类模型进行训练,并且在对URL分类模型进行训练时,是根据样本URL对应的网页内容中的每个特征,以及每个特征对应的每个特征字段的特征值,对该URL分类模型进行训练的。
当确定了待分类的URL对应的每个第一特征值后,在训练完成的URL分类模型中输入每个第一特征值,确定该待分类的URL对应的类别。具体的,该URL分类模型会针对该待分类的URL输出响应结果,该响应结果即为确定出的该待分类的URL对应的类别。
其中,根据URL对应的每个第一特征值及预先训练完成的URL分类模型,输出响应结果的过程属于现有技术,在本发明实施例中对该过程不进行赘述。
URL分类模型中的URL的类别包括教育类、体育类、新闻类等。
由于在本发明实施例中,在确定待分类的URL对应的类别时,是根据URL 对应的网页内容,在该网页内容中获取预设的每个特征对应的特征字段,从而确定每个特征字段的第一特征值,根据每个第一特征值及预先训练完成的URL分类模型来确定待分类的URL对应的类别,可以在一定程度上提高确定待分类的URL的类别的准确性。
实施例2:
为了提高确定的特征字段的第一特征值的准确性,在上述实施例的基础上,在本发明实施例中,所述根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值包括:
针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;
针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
在本发明实施例中,电子设备中保存有网页内容中的每个特征,和每个词组在每个特征中的目标分类概率和非目标分类概率。在根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值时,可以是针对该特征字段中的每个第一词组,确定该第一词组所在的特征,即针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
在根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值时,可以是将该第一目标分类概率与第一非目标分类概率的比值确定为该第一词组的第一子特征值。
所述每个词组对应的目标分类概率和非目标分类概率可以是用户设定的,针对每个词组,该词组在每个特征中的目标分类概率可以是相同的,也可以是不同的,该词组在每个特征中的非目标分类概率可以是相同的,也可以是不同的。
在同一特征中,不同类型的词组的目标分类概率和非目标分类概率可以不同,例如表示地区的词组的目标分类概率为0.5,非目标分类概率为0.6,表示人物的词组的目标分类概率为0.4,非目标分类概率为0.8。该地区例如可以是天津、北京等,该人物例如可以是儿童、教师等。
在同一特征中,同一词组的目标分类概率和非目标分类概率可能是相同的,也可能是不同的。同一词组的目标分类概率和非目标分类概率的和可以为1,也可以是为任何大于0的数。
所述特征可以是一个,例如标签或标题或正文,所述特征可以是两个,例如标签和正文,或标签和标题,或标题和正文,所述特征也可以是三个,例如标签、标题和正文。
这种将该特征字段中的至少一个第一词组对应的第一子特征值的和确定为该特征字段的第一特征值的方法,使确定的该特征字段的第一特征值更加准确,从而可以进一步提高确定的待分类的URL的类别的准确性。
电子设备在保存每个词组在每个特征中的目标分类概率和非目标分类概率时,例如,特征包括标题、标签和正文,可以是采用“标题-词组1-目标分类概率为*-非目标分类概率为*”、“标签-词组1-目标分类概率-非目标分类概率”的形式进行保存。当然为了减小存储空间的占用量,可以给每个特征设置标识,例如可以是标题的标识为1,标签的标识为2,正文的标识为3,目标分类概率的标识为A、非目标分类概率的标识为B,采用“1-词组1-A为*-B为*”、“3-词组1-A为*-B为*”的形式进行保存。
针对每个特征保存每个词组对应的目标分类概率和非目标分类概率,当确定了该词组所属的特征后,根据保存的目标分类概率和非目标分类概率确定该词组的特征值。为了进一步提高确定的待分类的URL的类别的准确性,在上述各实施例的基础上,在本发明实施例中,当所述特征为标题时,所述根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值包括:
根据公式:确定标题对应的特征字段中的该第一词组的第一子特征值,其中,A为标题对应的特征字段中的第一词组对应的第一目标分类概率,A’为标题对应的特征字段中的第一词组对应的第一非目标分类概率,k为0-1的数值。
一般情况下,标签和正文相比标题字数较多,则划分的第一词组的数量也会增多,则确定的特征字段的第一特征值就会较大,在确定标签或正文对应的特征字段中的第一词组的第一子特征值时,可以采取与确定标题对应第一子特征值相同的方式,为了使确定的标签或正文对应的特征字段中的第一词组的第一子特征值更加准确,也可以采用取对数的方式确定第一子特征值,当所述特征为标签或正文时,所述根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值包括:
根据公式:确定标签或正文对应的特征字段中的该第一词组的第一子特征值,其中,B为标签或正文对应的特征字段中的第一词组对应的第一目标分类概率,B’为标签或正文对应的特征字段中的第一词组对应的第一非目标分类概率。
实施例3:
为了进一步提高确定的待分类的URL的类别的准确性,在上述各实施例的基础上,在本发明实施例中,预先确定每个词组在每个特征中的目标分类概率和非目标分类概率的过程包括:
针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
在本发明实施例中,所述特征可以是一个,例如标签或标题或正文,所述特征可以是两个,例如标签和正文,或标签和标题,或标题和正文,所述特征也可以是三个,例如标签、标题和正文。
电子设备中保存样本URL,每个样本URL包含的特征的可以是相同的,也可以是不同的,例如第一样本URL包含的特征为标签和正文,第二样本URL包含的特征为标签,第三样本URL包含的特征为标签、标题和正文。
电子设备中预先保存有每个词组所属的类别,在预先确定每个词组在每个特征中的目标分类概率和非目标分类概率时,具体的可以是,针对每个特征,识别包含该特征的样本URL的第一数量,将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
所述每个词组所属的类别可以是用户任意设定的,也可以是根据该词组所在的样本URL对应的类别确定的。
所述第一数量不大于电子设备保存的样本URL的总数量,所述第二数量不大于所述第一数量,所述第三数量不大于所述第一数量,所述第四数量不大于所述第二数量。所述第二数量与第三数量可以相同,也可以不同。
例如,特征为标题,包含标题的样本URL的第一数量为100,标题中的一个第二词组为“儿童”,所述“儿童”所属的类别为教育类,第一数量的样本URL中包含“儿童”的样本URL的第二数量为20,第一数量的样本URL中属于教育类的样本URL的第三数量为30,第二数量的样本URL中属于教育类的样本URL的第四数量为15,则所述“儿童”的目标分类概率为15/30,所述所述“儿童”的非目标分类概率为(20-15)/(100-30)=5/70。
这种通过样本URL的数量确定出的每个第二词组在每个特征中的目标分类概率和非目标分类概率的方法,使确定的目标分类概率和非目标分类概率更加准确,从而可以提高确定的待分类的URL的类别的准确性。
实施例4:
在确定待分类的URL对应的类别时,不仅可以根据待分类的URL对应的网页内容来确定,还可以根据该待分类的URL的特征来确定,为了进一步提高确定的待分类的URL的类别的准确性,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
根据预设的相似度算法,确定该待分类的URL对应的第二特征值;
所述根据确定的该待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别包括:
根据确定的该待分类的URL对应的第二特征值和每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
为了确定待分类的URL的类别,在本发明实施例中,除了根据待分类的URL对应的每个第一特征值,确定该待分类的URL的类别。还根据待分类的URL对应的第二特征值,确定该待分类的URL的类别。
用户在电子设备中输入URL时,电子设备记录了用户输入的真实URL,但是打开的网页对应的URL可能与用户输入的真实URL不同。打开的网页为用户实际访问的网页,该实际访问的网页对应的URL为该待分类的URL。因为每个网页都会有其对应的URL,一般发生错误跳转时,该实际访问的网页对应的URL与用户输入的真实URL之间存在一定的相似性。
电子设备中预先保存有相似度算法,在确定该待分类的URL对应的第二特征值时,可以根据预先保存的相似度算法,确定该待分类的URL与该待分类的URL对应的用户输入的真实URL之间的相似度,将该相似度作为所述第二特征值。
确定待分类URL和用户输入的真实URL的相似度,即计算待分类URL的第一字符串与用户输入的真实URL的第二字符串之间,由第一字符串转成第二字符串所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑操作次数越少,两个字符串的相似度越大,即第二特征值越大。
在根据预先保存的相似度算法,确定该待分类的URL与该待分类的URL对应的用户输入的真实URL之间的相似度时,具体的可以是将编辑操作次数的和的倒数确定为所述第二特征值。
为了提高确定的第二特征值的准确性,在上述各实施例的基础上,在本发明实施例中,根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL;
根据距离编辑法,确定用户输入的真实URL与该待分类的URL的第二特征值。
在本发明实施例中,电子设备中保存有实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,在获取该待分类的URL对应的用户输入的真实URL时,可以是根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL。
当获取到该待分类的URL对应的用户输入的真实URL后,可以根据距离编辑法,确定用户输入的真实URL与该待分类的URL的相似度,即第二特征值。
所述根据据距离编辑法,确定用户输入的真实URL与该待分类的URL的相似度的过程属于现有技术,在本发明实施例中对该过程不进行赘述。
实施例5:
在上述各实施例的基础上,在本发明实施例中,在预先训练URL分类模型时,可以是电子设备中保存有URL对应的网页内容中的每个特征,针对训练集中的每个样本URL,在样本URL对应的网页内容中,获取预的每个特征对应的每个第一特征字段,针对每个第一特征字段,将该第一特征字段划分为至少一个第三词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该样本URL对应的每个特征的第一特征字段的第三特征值;根据每个样本URL对应的类别,以及每个样本URL对应的每个第三特征值,对所述URL分类模型进行训练。
也可以是针对训练集中的每个样本URL,根据预设的相似度算法,确定该样本URL对应的第四特征值;根据每个样本URL对应的类别,以及每个样本URL对应的第四特征值和每个第三特征值,对所述URL分类模型进行训练。
在对URL分类模型进行训练时,可以采用支持向量机(Support Vector Machine,SVM)的方法训练,则所述预先训练完成的URL分类模型为采用SVM方法训练完成的第一模型。可以采用迭代决策树(Gradient Boosting Decision Tree,GBDT)的方法训练,则所述预先训练完成的URL分类模型为采用GBDT方法训练完成的第二模型。所述预先训练完成的URL分类模型也可以包括采用支持向量机SVM方法训练完成的第一模型和采用迭代决策树GBDT的方法训练完成的第二模型。
在根据预先设定的URL对应的每个特征,确定该样本URL对应的每个特征的特征字段的第三特征值和第四特征值时,首先对样本URL使用网页爬虫进行网页信息收集,得到预设的特征对应的每个特征字段。
网也爬虫获取的数据称为原始数据,在原始数据中,不可避免的会有大量的重复的数据,这些重复数据不仅会占据大量的存储空间容量,影响模型训练的效率,同时还对模型训练的结果毫无帮助。因此在进行特征值的确定之前要对重复数据进行删除处理。
因为在对模型进行训练时,主要是根据特征字段中的正常文本数据进行训练,所以需要将噪声数据以及停用词删除。噪声数据包括中英文标点符号,数字等信息。停用词包括语气助词、副词、介词和连词,例如“None”、“gt”、“none”等停用词。
同时针对特征字段,还可以将该特征字段中的非中英文和乱码进行过滤,当采用预设的分词包将特征字段划分为至少一个词组时,分词包有其特有的特性,分词后的词组包括中文、英文和数字,从而完成了对非中英文的过滤。
在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;针对每个特征字段,将该特征字段划分为至少一个第一词组,在根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值之前,所述方法还包括:
针对每个特征字段,根据划分后的词组的数量及预设的比例,确定是否将该特征字段删除。
使用分词包分词后,乱码会被分割成单字,即每个单字即一个词组,因此乱码对应的词组数量会趋近于该特征字段的总字符数量。当该特征字段中词组数量超过该特征字段的总字符数量的预设比例时,认为该特征字段为乱码,则可以将该特征字段删除。所述预设比例可以为80%。针对未被删除的特征字段,计算其第一特征值。
上述过程可以称为非必要数据过滤过程,在对待分类的URL进行分类时,也可以是采用上述的非必要数据的过滤过程对该待分类的URL进行非必要数据的过滤。
实施例6:
为了进一步提高确定的待分类的URL的准确性,在上述各实施例的基础上,在本发明实施例中,当预先训练完成的URL分类模型包括采用SVM方法训练完成的第一模型和采用GBDT的方法训练完成的第二模型时,所述确定所述待分类的URL对应的类别包括:
针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;
针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;
识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
在本发明实施例中,当预先训练完成的URL分类模型包括采用SVM方法训练完成的第一模型和采用GBDT的方法训练完成的第二模型,在确定所述待分类的URL对应的类别时,可以是根据第一模型和第二模型共同确定所述待分类的URL对应的类别。
每个模型在确定待分类的URL对应的类别时,是根据确定出的该待分类的URL属于每一类别的概率,将概率最高的类别作为输出响应结果,即确定出的待分类的URL对应的类别。
电子设备中预先保存有加权处理算法,每个模型识别每一类别的可靠度不同,根据每个模型识别每一类别的可靠度,预先保存有每个模型对应每一类别的权重值,如果模型识别某一类别的可靠度比较高,则该模型对应的该类别的权重值较大。
在根据第一模型和第二模型确定所述待分类的URL对应的类别时,可以是针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
所述针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率,具体的可以是针对每一类别,确定第一子概率与第一模型中该类别的第一权重值的第一乘积,并确定第二子概率与第二模型中该类别的第二权重值的第二乘积,将第一乘积与第二乘积的和确定为该类别对应的目标概率。两个模型针对同一类别的第一权重值和第二权重值可以相同,例如都为0.5,也可以不同,例如第一权重值为0.4,第二权重值为0.6。当第一模型和第二模型,针对同一类别,权重值均为0.5时,即将第一子概率与第二子概率的平均值作为该类别的目标概率。
另外,每个模型针对每个类别的权重值可以相同,也可以不同。例如第一模型中针对第一类别的权重为0.3,针对第二类别的权重是0.6,针对第三类别的权重是0.5,第二模型中针对第一类别的权重为0.4,针对第二类别的权重是0.6,针对第三类别的权重是0.5。
如图2所示的URL混合分类模型示意图,针对待分类的URL,将第一分类模型(SVM模型)确定的每一类别的第一子概率与第二分类模型(GBDT 模型)确定出的每一类别的第二子概率,进行加权处理,确定最终的待分类的URL对应的类别。
例如,第一模型和第二模型中的类别包括:教育类、新闻类和体育类,针对待分类的URL,第一模型确定出的属于教育类的第一子概率为80%,属于体育类的第一子概率为60%,属于新闻类的第一子概率为70%,第二模型确定出的属于教育类的第二子概率为70%,属于体育类的第二子概率为65%,属于新闻类的第二子概率为82%。针对教育类的目标概率为(80%+70%)/2=75%,针对体育类的目标概率为(60%+65%)/2=62.5%,针对新闻类的目标概率为(82%+70%)/2=76%,新闻类的目标概率是最高的,则将新闻类作为目标类别,即所述待分类的URL对应的类别。
实施例7:
为了进一步提高确定的待分类的URL的准确性,在上述各实施例的基础上,在本发明实施例中,当采用第一模型和/或第二模型进行训练时,确定每个模型中的每个参数的过程包括:
A、预设参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间;
B、将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值;
C、判断每个第一子变化区间的区间长度值是否不大于设定阈值,如果是,则进行E,如果否,则进行D;
D、根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将所述第二变化区间作为第一变化区间,返回步骤A;
E、将所述最优参数值作为所述参数的最优值。
在本发明实施例中,在对URL分类模型进行训练时,可以是采用第一模型进行训练的,可以是采用第二模型进行训练的,也可以是采用第一模型和第第二模型进行训练的,在进行训练时,每个模型中均需要调节参数,确定最终的参数值。
以下针对两个模型的中的任意一个模型,对调节该模型中的任意一个参数的过程进行说明。
电子设备中保存有阈值,在确定每个模型中的每个参数时,可以是针对该参数,预设该参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间,将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值。并且判断每个第一子变化区间的长度值是否不大于设定阈值,如果是,则将该最优参数值确定为所述参数的最优值,如果否,则可以根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将该第二变化区间分为至少两个第二子变化区间,将每个第二子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,再次确定该参数的最优参数值;并且判断每个第二子变化区间的区间长度值是否不大于设定阈值,……,重复上述过程,直到第N子变化区间的区间长度值不大于设定阈值,将最终确定的最优参数值确定为所述参数的最优值。
所述根据训练结果,确定该参数的最优参数值的过程属于现有技术,在本发明实施例中对该过程不进行赘述。
在将第一变化区间分为至少两个第一子变化区间时,可以是按照预设的区间长度值来分,例如10或30。较优的,是将第一变化区间平均分为至少两个第一子变化区间,这样每个第一子变化区间的区间长度值为相同的。同理在将第N变化区间分为至少两个第N子变化区间时,较优的是将第N变化区间平均分为至少两个第N子变化区间。
在根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间时,可以是将该最优参数值为该第二变化区间的边界值,或者是该将最优参数值作为第二变化区间中的任意位置上的值,较优的,该最优参数值为该第二变化区间的中值。所述第二变化区间的区间长度值可以为一个第一子变化区间的区间长度值,也可以是任意几个第一子变化区间的区间长度值,较优的,所述第二变化区间的区间长度值为两个第一子变化区间的区间长度值。
例如,设定阈值为20,第一模型的参数的第一变化区间D1为0-1000时,将第一变化区间平均分为10个第一子变化区间,每个第一子变化区间的区间长度值d1为1000/10=100,则第一子变化区间为0-100,100-200,200-300,……,800-900,900-1000,将每个区间边界值:0、100、200、300、400、500、600、700、800、900、1000输入到第一模型中,采用样本URL对该第一模型进行训练,根据训练结果,确定该参数的最优参数值300,并判断第一子变化区间的区间长度值d1大于设定阈值20,则需要确定第二变化区间。
在确定第二变化区间时,以最优参数值300为中值,将两个第一变化区间的区间长度值d1作为第二变化区间的区间长度值,则所述第二变化区间D2为200-400,将第二变化区间平均分为10个第二子变化区间,每个第二子变化区间的区间长度值d2为(400-200)/10=20,则第二子变化区间为200-220,220-240,240-260,……,340-360,360-380,380-400,将第二子变化区间的区间边界值:200、220、240、260、……、340、360、380、400输入到第一模型中,采用样本URL对该第一模型进行训练,根据训练结果,确定该参数的最优参数值340,并判断第二子变化区间的区间长度值d2不大于设定阈值20,则将最优参数值340作为所述参数的最优值。
上述确定每个模型中的每个参数的过程,大大减少了确定参数值的计算量。
实施例8:
图3为上述各实施例提供的URL分类模型流程图,在训练URL分类模型时,爬虫获取的原始数据进行非必要数据过滤,然后针对预设的特征,确定特征值,将每个样本URL的特征值以及该样本URL的类别输入到模型进行分类训练,得到URL分类模型。
针对待分类的URL,获取该待分类的URL的每个第一特征值,将该第一特征值输入到训练好的URL分类模型中,得到分类结果,即该待分类的URL对应的类别。
在对URL分类模型训练完成后,为了确定模型的准确性,可以根据每个特征对模型的影响,对该训练模型进行人工校验,也可以是根据模型中的每个参数对该模型进行人工校验。
图4为本发明实施例提供的一种URL的类别确定装置结构图,所述装置包括:
获取模块41,用于在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;
确定模块42,用于针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;
分类模块43,用于根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
所述确定模块42,具体用于针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
所述确定模块42,还用于针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
所述确定模块42,具体用于根据公式:确定标题对应的特征字段中的该第一词组的第一子特征值,其中,A为标题对应的特征字段中的第一词组对应的第一目标分类概率,A’为标题对应的特征字段中的第一词组对应的第一非目标分类概率,k为0至1。
所述确定模块42,具体用于根据公式:确定标签或正文对应的特征字段中的该第一词组的第一子特征值,其中,B为标签或正文对应的特征字段中的第一词组对应的第一目标分类概率,B’为标签或正文对应的特征字段中的第一词组对应的第一非目标分类概率。
所述确定模块42,还用于根据预设的相似度算法,确定该待分类的URL对应的第二特征值;
所述分类模块43,具体用于根据确定的该待分类的URL对应的第二特征值和每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
所述确定模块42,具体用于根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL;根据距离编辑法,确定用户输入的真实URL与该待分类的URL的第二特征值。
所述分类模块43,具体用于针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
所述确定模块42,还用于A、预设参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间;B、将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值;C、判断每个第一子变化区间的区间长度值是否不大于设定阈值,如果是,则进行E,如果否,则进行D;D、根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将所述第二变化区间作为第一变化区间,返回步骤A;E、将所述最优参数值作为所述参数的最优值。
本发明实施例公开了一种URL的类别确定方法及装置,所述方法包括:在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。由于在本发明实施例中,在确定待分类的URL对应的类别时,是根据URL对应的网页内容,在该网页内容中获取预设的每个特征对应的特征字段,从而确定每个特征字段的第一特征值,根据每个第一特征值及预先训练完成的URL分类模型来确定待分类的URL对应的类别,可以在一定程度上提高确定待分类的URL的类别的准确性。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一序列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (18)

1.一种统一资源定位符URL的类别确定方法,其特征在于,所述方法包括:
在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;
针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;
根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别;
其中,预先确定每个词组在每个特征中的目标分类概率和非目标分类概率的过程包括:
针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
2.如权利要求1所述的方法,其特征在于,所述根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值包括:
针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;
针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
3.如权利要求1-2任一项所述的方法,其特征在于,所述特征包括以下至少一种:
标题、标签和正文。
4.如权利要求3所述的方法,其特征在于,当所述特征为标题时,所述根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值包括:
根据公式:确定标题对应的特征字段中的该第一词组的第一子特征值,其中,A为标题对应的特征字段中的第一词组对应的第一目标分类概率,A’为标题对应的特征字段中的第一词组对应的第一非目标分类概率,k为0至1。
5.如权利要求3所述的方法,其特征在于,当所述特征为标签或正文时,所述根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值包括:
根据公式:确定标签或正文对应的特征字段中的该第一词组的第一子特征值,其中,B为标签或正文对应的特征字段中的第一词组对应的第一目标分类概率,B’为标签或正文对应的特征字段中的第一词组对应的第一非目标分类概率。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设的相似度算法,确定该待分类的URL对应的第二特征值;第二特征值为待分类的URL与该待分类的URL对应的用户输入的真实URL之间的相似度;
所述根据确定的该待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别包括:
根据确定的该待分类的URL对应的第二特征值和每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
7.如权利要求6所述的方法,其特征在于,所述根据预设的相似度算法,确定该待分类的URL的对应的第二特征值包括:
根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL;
根据距离编辑法,确定用户输入的真实URL与该待分类的URL的第二特征值。
8.如权利要求1所述的方法,其特征在于,所述预先训练完成的URL分类模型包括:
采用支持向量机SVM方法训练完成的第一模型和/或采用迭代决策树GBDT的方法训练完成的第二模型。
9.如权利要求8所述的方法,其特征在于,当预先训练完成的URL分类模型包括采用SVM方法训练完成的第一模型和采用GBDT的方法训练完成的第二模型时,所述确定所述待分类的URL对应的类别包括:
针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;
针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;
识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
10.如权利要求8所述的方法,其特征在于,当采用第一模型和/或第二模型进行训练时,确定每个模型中的每个参数的过程包括:
A、预设参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间;
B、将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值;
C、判断每个第一子变化区间的区间长度值是否不大于设定阈值,如果是,则进行E,如果否,则进行D;
D、根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将所述第二变化区间作为第一变化区间,返回步骤A;
E、将所述最优参数值作为所述参数的最优值。
11.一种统一资源定位符URL的类别确定装置,其特征在于,所述装置包括:
获取模块,用于在待分类的URL对应的网页内容中,获取预设的每个特征对应的每个特征字段;
确定模块,用于针对每个特征字段,将该特征字段划分为至少一个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,确定该特征字段的第一特征值;
分类模块,用于根据确定的所述待分类的URL对应的每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别;
其中,所述确定模块,还用于针对每个特征,识别包含该特征的样本URL的第一数量;将所述第一数量的样本URL中该特征对应的特征字段划分为至少一个第二词组;根据预先保存的每个词组所属的类别,确定每个第二词组所属的目标类别;针对每个第二词组,在所述第一数量的样本URL中识别特征对应的特征字段中包含该第二词组的样本URL的第二数量;识别所述第一数量的样本URL中属于所述目标类别的样本URL的第三数量,以及该第二数量的样本URL中属于所述目标类别的样本URL的第四数量;将所述第四数量与第三数量的第一比值确定为该第二词组在该特征中的目标分类概率;确定所述第二数量与第四数量的第一差值和第一数量与第三数量的第二差值,将所述第一差值与第二差值的第二比值确定为该第二词组在该特征中的非目标分类概率。
12.如权利要求11所述的装置,其特征在于,所述确定模块,具体用于针对每个特征的特征字段中的每个第一词组,根据预先保存的每个词组在每个特征中的目标分类概率和非目标分类概率,获取该第一词组在该特征中的第一目标分类概率和第一非目标分类概率;根据该第一词组的第一目标分类概率和第一非目标分类概率,确定该第一词组的第一子特征值;针对每个特征字段,将该特征字段中的至少一个第一词组对应的第一子特征值的和,确定为该特征字段的第一特征值。
13.如权利要求12所述的装置,其特征在于,所述确定模块,具体用于根据公式:确定标题对应的特征字段中的该第一词组的第一子特征值,其中,A为标题对应的特征字段中的第一词组对应的第一目标分类概率,A’为标题对应的特征字段中的第一词组对应的第一非目标分类概率,k为0至1。
14.如权利要求12所述的装置,其特征在于,所述确定模块,具体用于根据公式:确定标签或正文对应的特征字段中的该第一词组的第一子特征值,其中,B为标签或正文对应的特征字段中的第一词组对应的第一目标分类概率,B’为标签或正文对应的特征字段中的第一词组对应的第一非目标分类概率。
15.如权利要求11所述的装置,其特征在于,所述确定模块,还用于根据预设的相似度算法,确定该待分类的URL对应的第二特征值;第二特征值为待分类的URL与该待分类的URL对应的用户输入的真实URL之间的相似度;
所述分类模块,具体用于根据确定的该待分类的URL对应的第二特征值和每个第一特征值,及预先训练完成的URL分类模型,确定所述待分类的URL对应的类别。
16.如权利要求15所述的装置,其特征在于,所述确定模块,具体用于根据该待分类的URL,及保存的实际访问的网页对应的URL与用户输入的真实URL之间的对应关系,获取该待分类的URL对应的用户输入的真实URL,其中所述待分类的URL为实际访问的网页对应的URL;根据距离编辑法,确定用户输入的真实URL与该待分类的URL的第二特征值。
17.如权利要求11所述的装置,其特征在于,所述分类模块,具体用于针对所述待分类的URL,识别第一模型确定出的所述待分类的URL对应的每一类别的第一子概率以及识别第二模型确定出的所述待分类的URL对应的每一类别的第二子概率;针对每一类别,根据预设的加权处理算法,以及该类别对应的第一子概率和第二子概率,确定该类别对应的目标概率;识别目标概率最高时对应的目标类别,将所述目标类别确定为所述待分类的URL对应的类别。
18.如权利要求11所述的装置,其特征在于,所述确定模块,还用于A、预设参数的第一变化区间,并将该第一变化区间分为至少两个第一子变化区间;B、将每个第一子变化区间的区间边界值输入到第一模型和/或第二模型中,采用样本URL对该第一模型和/或第二模型进行训练,根据训练结果,确定该参数的最优参数值;C、判断每个第一子变化区间的区间长度值是否不大于设定阈值,如果是,则进行E,如果否,则进行D;D、根据第一子变化区间的区间长度值确定包含该最优参数值的第二变化区间,将所述第二变化区间作为第一变化区间,返回步骤A;E、将所述最优参数值作为所述参数的最优值。
CN201710190117.4A 2017-03-27 2017-03-27 一种url的类别确定方法及装置 Active CN106960040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710190117.4A CN106960040B (zh) 2017-03-27 2017-03-27 一种url的类别确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710190117.4A CN106960040B (zh) 2017-03-27 2017-03-27 一种url的类别确定方法及装置

Publications (2)

Publication Number Publication Date
CN106960040A CN106960040A (zh) 2017-07-18
CN106960040B true CN106960040B (zh) 2019-09-17

Family

ID=59470513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710190117.4A Active CN106960040B (zh) 2017-03-27 2017-03-27 一种url的类别确定方法及装置

Country Status (1)

Country Link
CN (1) CN106960040B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992741B (zh) * 2017-10-24 2020-08-28 阿里巴巴集团控股有限公司 一种模型训练方法、检测url的方法及装置
CN109933744A (zh) * 2018-08-10 2019-06-25 深信服科技股份有限公司 目标识别方法及装置、设备及计算机可读存储介质
CN110929025B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
CN110493088B (zh) * 2019-09-24 2021-06-01 国家计算机网络与信息安全管理中心 一种基于url的移动互联网流量分类方法
CN110837642B (zh) * 2019-11-14 2023-10-13 腾讯科技(深圳)有限公司 恶意程序分类方法、装置、设备及存储介质
CN113127767B (zh) * 2019-12-31 2023-02-10 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN111611508B (zh) * 2020-05-28 2020-12-15 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN111984792A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 网站分类方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
US9256692B2 (en) * 2009-12-03 2016-02-09 Hewlett Packard Enterprise Development Lp Clickstreams and website classification
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN106131071A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN106357618A (zh) * 2016-08-26 2017-01-25 北京奇虎科技有限公司 一种Web异常检测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256692B2 (en) * 2009-12-03 2016-02-09 Hewlett Packard Enterprise Development Lp Clickstreams and website classification
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
CN106131071A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置
CN106357618A (zh) * 2016-08-26 2017-01-25 北京奇虎科技有限公司 一种Web异常检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SVM和TF-IDF的恶意URL识别分析与研究;甘宏 等;《计算机与现代化》;20160805(第7期);第95-102页

Also Published As

Publication number Publication date
CN106960040A (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN106960040B (zh) 一种url的类别确定方法及装置
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
Zhao et al. Automatic detection of cyberbullying on social networks based on bullying features
CN108629043A (zh) 网页目标信息的提取方法、装置及存储介质
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN103678310B (zh) 网页主题的分类方法及装置
CN105740236B (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN105512285B (zh) 基于机器学习的自适应网络爬虫方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN105975499A (zh) 一种文本主题检测方法及系统
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN102945246B (zh) 网络信息数据的处理方法及装置
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN108874996A (zh) 网站分类方法及装置
CN103123636A (zh) 建立词条分类模型的方法、词条自动分类的方法和装置
CN104978354A (zh) 文本分类方法和装置
CN106777193A (zh) 一种自动撰写特定稿件的方法
CN103761221A (zh) 用于识别敏感文本信息的系统和方法
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee after: NSFOCUS Technologies Group Co.,Ltd.

Patentee after: NSFOCUS TECHNOLOGIES Inc.

Address before: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: NSFOCUS TECHNOLOGIES Inc.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220318

Address after: 100089 Beijing city Haidian District Road No. 4 North wa Yitai 5 storey building

Patentee after: NSFOCUS Technologies Group Co.,Ltd.

Patentee after: NSFOCUS TECHNOLOGIES Inc.

Patentee after: Guangzhou Lvmeng Network Security Technology Co.,Ltd.

Address before: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee before: NSFOCUS Technologies Group Co.,Ltd.

Patentee before: NSFOCUS TECHNOLOGIES Inc.

TR01 Transfer of patent right