CN111611457B - 一种页面分类方法、装置、设备及存储介质 - Google Patents

一种页面分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111611457B
CN111611457B CN202010428417.3A CN202010428417A CN111611457B CN 111611457 B CN111611457 B CN 111611457B CN 202010428417 A CN202010428417 A CN 202010428417A CN 111611457 B CN111611457 B CN 111611457B
Authority
CN
China
Prior art keywords
feature
page
classified
sample
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010428417.3A
Other languages
English (en)
Other versions
CN111611457A (zh
Inventor
万千
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010428417.3A priority Critical patent/CN111611457B/zh
Publication of CN111611457A publication Critical patent/CN111611457A/zh
Application granted granted Critical
Publication of CN111611457B publication Critical patent/CN111611457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供了一种页面分类方法、装置、设备及存储介质,涉及云计算领域。本方法包括:获取待分类页面;对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果。上述过程中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。

Description

一种页面分类方法、装置、设备及存储介质
技术领域
本公开涉及一种页面分类方法、装置、设备及存储介质。
背景技术
为了便于页面的管理,通常需要对页面进行类别划分。
目前,进行页面分类的一般方法为:对待识别页面进行指纹识别,得到分类结果,即:获取待识别页面中的待识别数据,然后通过正则匹配算法或者信息-摘要算法等,将上述待识别数据与预先建立的指纹库中的分类规则进行匹配,确定出与待识别页面匹配成功的目标分类规则,并将与该目标分类规则对应的页面类型确定为该待识别页面的页面类型。
上述分类方法,依赖于预先建立的指纹库。由于企业业务种类不同,所使用的服务和架构种类较多,导致指纹库中分类规则的种类和数量也较多,同时,随着服务和框架版本的不断更新,分类规则也需要随之更新,而分类规则的设定、维护和更新主要依靠人工实现,因此,上述页面分类方法中人工成本较高。
发明内容
本公开实施例的目的在于提供一种页面分类方法、装置、设备及存储介质,以降低页面分类过程中的人工成本。具体技术方案如下:
第一方面,本公开实施例提供了一种页面分类方法,所述方法包括:
获取待分类页面;
对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果。
进一步的,所述聚类模型的训练过程包括:
建立初始聚类模型;
获取各样本页面;
对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据;
将所述各样本页面的样本特征数据输入所述初始聚类模型,进行聚类训练,得到所述聚类模型。
进一步的,所述对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据的步骤,包括:
分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的所述预设特征属性对应的特征属性值序列;
基于所述特征属性值序列和所述各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成所述各样本页面的样本特征向量,作为所述各样本页面的样本特征数据;
所述对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据的步骤,包括:
获取所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值;
基于所述特征属性值序列和所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值,生成所述待分类页面的待分类特征向量,作为待分类特征数据。
进一步的,所述对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据的步骤,包括:
针对多个预设特征属性中的每个预设特征属性,分别获取各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的该预设特征属性对应的特征属性值序列;
基于各预设特征属性对应的特征属性值序列和所述各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,分别生成所述各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵;
基于预先设定的各预设特征属性的权重,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,所述综合样本特征矩阵中的各行向量分别为所述各样本页面的样本特征数据;
所述对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据的步骤,包括:
针对所述多个预设特征属性中的每个预设特征属性,获取所述待分类页面的标签序列中包含的该预设特征属性对应的特征属性值;
分别生成所述待分类页面的与各预设特征属性对应的第一待分类特征向量;
对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
第二方面,本公开实施例提供了一种页面分类装置,所述装置包括:
待分类页面获取模块,获取待分类页面;
待分类特征数据得到模块,用于对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
分类结果得到模块,用于将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果。
进一步的,所述装置还包括:模型训练模块;
所述模型训练模块包括:初始模型建立子模块、样本页面获取子模块、样本特征数据得到子模块和模型得到子模块;
所述初始模型建立子模块,用于建立初始聚类模型;
所述样本页面获取子模块,用于获取各样本页面;
所述样本特征数据得到子模块,用于对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据;
所述模型得到子模块,用于将所述各样本页面的样本特征数据输入所述初始聚类模型,进行聚类训练,得到所述聚类模型。
进一步的,所述样本特征数据得到子模块,具体用于:
分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的所述预设特征属性对应的特征属性值序列;
基于所述特征属性值序列和所述各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成所述各样本页面的样本特征向量,作为所述各样本页面的样本特征数据;
所述待分类特征数据得到模块,具体用于:
获取所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值;
基于所述特征属性值序列和所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值,生成所述待分类页面的待分类特征向量,作为待分类特征数据。
进一步的,所述样本特征数据得到子模块,具体用于:
针对多个预设特征属性中的每个预设特征属性,分别获取各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的该预设特征属性对应的特征属性值序列;
基于各预设特征属性对应的特征属性值序列和所述各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,分别生成所述各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵;
基于预先设定的各预设特征属性的权重,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,所述综合样本特征矩阵中的各行向量分别为所述各样本页面的样本特征数据;
所述待分类特征数据得到模块,具体用于:
针对所述多个预设特征属性中的每个预设特征属性,获取所述待分类页面的标签序列中包含的该预设特征属性对应的特征属性值;
分别生成所述待分类页面的与各预设特征属性对应的第一待分类特征向量;
对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
第三方面,本公开实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的页面分类方法步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的页面分类方法步骤。
第五方面,本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的页面分类方法步骤。
本公开实施例提供的一种页面分类方法、装置、设备及存储介质,获取待分类页面;对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果。本公开实施例中,对待分类页面的页面结构数据进行特征提取得到待分类特征数据之后,将其直接输入预先训练完成的聚类模型,即可得到分类结果。上述过程中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的页面分类方法的一种流程示意图;
图2为图1所示实施例中聚类模型训练过程的流程图;
图3为本公开实施例提供的页面分类方法的另一种流程示意图;
图4为图3所示实施例中聚类模型训练过程的流程图;
图5为本公开实施例提供的页面分类方法的又一种流程示意图;
图6为图5所示实施例中聚类模型训练过程的流程图;
图7为本公开实施例提供的页面分类装置的一种结构示意图;
图8为本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
为了降低页面分类过程中的人工成本,本公开实施例提供了一种页面分类方法、装置、设备及存储介质,以下分别进行详细说明。
参见图1,图1为本公开实施例提供的页面分类方法的一种流程示意图,具体包括如下步骤:
步骤101,获取待分类页面。
此处,对于获取待分类页面的方法不作限定,例如,可以通过动态爬虫等方式,具体的,在动态爬取过程中,可以直接输入待分类页面的域名资产列表或者IP(InternetProtocol,互联网协议)资产列表,从而获取到待分类页面。
步骤102,对待分类页面的页面结构数据进行特征提取,得到待分类特征数据。
在获取到待分类页面之后,可以通过对页面结构进行特征提取,从而得到待分类特征数据。
从结构角度出发,页面中包含有标签序列,在标签序列中,包括多个特征属性,因此,本步骤中,可以对页面结构中的指定特征属性进行提取,从而得到待分类特征数据。
进一步的,对待分类页面的页面结构数据进行特征提取,得到待分类特征数据,可以包括如下两种方式:
第一种方式:单独基于待分类页面标签序列中包含的某个预设特征属性对应的特征属性值,得到待分类特征向量,作为待分类特征数据。
第二种方式:基于待分类页面标签序列中包含的多个预设特征属性分别对应的特征属性值,分别得到与各预设特征属性对应的第一待分类特征向量,之后,经过降维和拼接操作,得到待分类特征数据。
步骤103,将待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到待分类页面的页面分类结果。
本公开实施例中,对待分类页面的页面结构数据进行特征提取得到待分类特征数据之后,将其直接输入预先训练完成的聚类模型,即可得到分类结果。上述过程中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。
图1所示的实施例中,需要采用预先训练得到的聚类模型,参见图2,可以采用如下步骤对聚类模型进行训练:
步骤201,建立初始聚类模型。
步骤202,获取各样本页面。
步骤203,对各样本页面的页面结构数据进行特征提取,得到各样本页面的样本特征数据。
与步骤102对应的,对各样本页面的页面结构数据进行特征提取,得到各样本页面的样本特征数据,也可以包括如下两种方式:
第一种方式:单独基于各样本页面标签序列中包含的某个预设特征属性对应的特征属性值,得到各样本页面的样本特征向量,作为各样本页面的样本特征数据。
第二种方式:基于各样本页面标签序列中包含的多个预设特征属性分别对应的特征属性值,分别得到各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵;之后,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,综合样本特征矩阵中的各行向量分别为各样本页面的样本特征数据。
步骤204,将各样本页面的样本特征数据输入初始聚类模型,进行聚类训练,得到聚类模型。
参见图3,图3为本公开实施例提供的页面分类方法的另一种流程示意图,在该方法中,单独基于待分类页面标签序列中包含的某个预设特征属性对应的特征属性值,得到待分类特征向量,作为待分类特征数据。具体的分类方法包括如下步骤:
步骤301,获取待分类页面。
步骤302,获取待分类页面的标签序列中包含的预设特征属性对应的特征属性值。
本步骤中的预设特征属性可以为从标签序列中包含的多个特征属性中预先指定的某个特征属性,例如,常见的预设属性可以为“id”属性、“class”属性、“tag”属性、“href”属性、“src”属性和“style”属性等中的任意一项。
步骤303,基于特征属性值序列和待分类页面的标签序列中包含的预设特征属性对应的特征属性值,生成待分类页面的待分类特征向量,作为待分类特征数据。
其中,特征属性值序列是在聚类模型训练阶段得到的,具体的生成过程为:在获取各样本页面之后,分别获取各样本页面的标签序列中包含的上述预设特征属性对应的特征属性值,并对其去重,即可得到特征属性值序列。
为便于理解,下面通过举例的方式对步骤303的内容进行解释和说明:例如,预设属性为“id”属性,在聚类模型训练阶段,各样本页面的标签序列中包含的“id”属性对应的“id”属性值去重后分别为:id1、id2、id3,而待分类页面的标签序列中包含的“id”属性对应的“id”属性值有:id1和id3,则生成的待分类页面的待分类特征向量即为:(1,0,1)。
上述例子中,将“id”属性作为预设属性,同理,当将除“id”属性之外的其他属性作为预设属性时,生成待分类页面的待分类特征向量的过程是相同的,此处不再赘述。
由于“style”属性的内部结构与其他属性不同,其结构示例为:(style=width:3.65pt;padding:0cm 0cm 0cm 0cm;height:17.35pt)。因此,当将“style”属性作为预设属性时,生成待分类页面的待分类特征向量的过程是不同的,具体为:
将“style”属性的属性值以“;”进行分割,然后,“:”左侧的变量为子属性;“:”右侧为子属性对应的子属性值;例如,上面的示例中,“width”、“padding”以及“height”为子属性,“3.65pt”、“0cm 0cm 0cm 0cm”以及“17.35pt”则为分别与上述3种子属性对应的子属性值。之后,针对每个子属性,按照上述将“id”属性作为预设属性时,生成待分类页面的待分类特征向量的过程,得到与该子属性对应的待分类子特征向量,最后,再将得到的3个待分类子特征向量经过降维和拼接操作,最终得到,将“style”属性作为预设属性时,生成的待分类页面的待分类特征向量。
步骤304,将待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到待分类页面的页面分类结果。
本步骤中,对聚类模型的具体形式不作限定。进一步的,可以为现阶段较为成熟的任意机器学习模型,如:K-Means等。
在图3所示实施例中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。
参见图4,可以采用如下步骤对图3所示实施例中的聚类模型进行训练:
步骤401,建立初始聚类模型。
步骤402,获取各样本页面。
步骤403,分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的预设特征属性对应的特征属性值序列。
本步骤中,预设特征属性的数量可以为1。
步骤404,基于特征属性值序列和各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成各样本页面的样本特征向量,作为各样本页面的样本特征数据。
还以步骤303中的例子对本步骤的内容进行解释和说明:假设样本页面共3个(此处的样本页面数量仅是为了说明步骤404的内容所设定的,实际训练过程中,样本页面数量一般较多),分别为样本页面1、样本页面2和样本页面3,其中,样本页面1的标签序列中包含的“id”属性对应的“id”属性值为id1和id2;样本页面2的标签序列中包含的“id”属性对应的“id”属性值为id2和id3;样本页面3的标签序列中包含的“id”属性对应的“id”属性值为id1和id3,则可以分别生成各样本页面的样本特征向量:样本页面1的样本特征向量为(1,1,0);样本页面2的样本特征向量为(0,1,1);样本页面3的样本特征向量为(1,0,1)。
步骤405,将各样本页面的样本特征数据输入初始聚类模型,进行聚类训练,得到聚类模型。
参见图5,图5为本公开实施例提供的页面分类方法的又一种流程示意图,在该方法中,基于待分类页面标签序列中包含的多个预设特征属性分别对应的特征属性值,分别得到与各预设特征属性对应的第一待分类特征向量,之后,经过降维和拼接操作,得到待分类特征数据。具体的分类方法包括如下步骤:
步骤501,获取待分类页面。
步骤502,针对多个预设特征属性中的每个预设特征属性,获取待分类页面的标签序列中包含的该预设特征属性对应的特征属性值。
本步骤中的预设特征属性可以为从标签序列中包含的特征属性中预先指定的多个特征属性。
步骤503,分别生成待分类页面的与各预设特征属性对应的第一待分类特征向量。
针对每个预设特征属性,可以采用步骤303中生成待分类特征向量的过程,生成与该预设特征属性对应的第一待分类特征向量。
本步骤中生成的第一待分类特征向量的数量与预设特征属性的数量相同。
步骤504,对第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
具体的,可以基于预先设定的各预设特征属性的权重,对第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
其中,每个预设特征属性的权重可以为根据在所有样本页面中,包含有该预设特征属性的样本页面的数量来设定;或者,根据在所有样本页面中,包含有该预设特征属性的样本页面的数量与样本页面总数量的比值等来设定,此处,对于预设特征属性的权重的设定方法不作限定。
例如:预设特征属性分别为“id”属性和“class”属性,在所有样本页面中,包含有“id”属性的样本页面的数量为900,包含有“class”属性的样本页面的数量为600,则可以设定“id”属性和“class”属性的权重比为3:2。
在步骤503中,针对“id”属性,假设在聚类模型训练阶段,各样本页面的标签序列中包含的“id”属性对应的“id”属性值去重后分别为:id1、id2、id3,而待分类页面的标签序列中包含的“id”属性对应的“id”属性值有:id1和id3,则生成的待分类页面的与“id”属性对应的第一待分类特征向量即为:(1,0,1);针对“class”属性,假设在聚类模型训练阶段,各样本页面的标签序列中包含的“class”属性对应的“class”属性值去重后分别为:class1、class 2、class 3,而待分类页面的标签序列中包含的“class”属性对应的“class”属性值有:class 1和class 2,则生成的待分类页面的与“class”属性对应的第一待分类特征向量即为:(1,1,0);之后,在步骤504中,由于“id”属性和“class”属性的权重比为3:2,因此,可以先将与“class”属性对应的第一待分类特征向量降维成2维向量,假设为(1,1),然后再将与“id”属性对应的第一待分类特征向量与上述降维后向量进行拼接,即可得到1个5维向量(1,1,0,1,1),作为待分类特征数据。
本公开实施例中,可以采用现有的降维方法进行向量降维处理,此处,对于所采用的具体降维方法,不作限定。
步骤505,将待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到待分类页面的页面分类结果。
在图5所示实施例中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。
同时,本公开实施中,计算待分类特征数据时,是基于待分类页面标签序列中包含的多个预设特征属性分别对应的特征属性值的,相比于图3中单独基于待分类页面标签序列中包含的某个预设特征属性对应的特征属性值计算待分类特征数据的方式,由于聚类之前同时考虑了多个预设特征属性,因此,可以提高分类结果的准确度。
参见图6,可以采用如下步骤对图5所示实施例中的聚类模型进行训练:
步骤601,建立初始聚类模型。
步骤602,获取各样本页面。
步骤603,针对多个预设特征属性中的每个预设特征属性,分别获取各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的该预设特征属性对应的特征属性值序列。
步骤604,基于各预设特征属性对应的特征属性值序列和各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,分别生成各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵。
对于每个样本页面,针对每个预设特征属性,可以采用步骤404中生成样本特征向量的过程,生成该样本页面的与该预设特征属性对应的样本特征向量。之后,将生成的所有样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵。其中,样本特征矩阵中的一行与一个样本页面的样本特征向量对应,样本特征矩阵的行数为样本页面的总数量,列数为该预设特征属性对应的特征属性值序列中特征属性值去重后的总数量。
步骤605,基于预先设定的各预设特征属性的权重,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,综合样本特征矩阵中的各行向量分别为各样本页面的样本特征数据。
其中,每个预设特征属性的权重的设定方法与步骤504中相同,此处不再赘述。
下面通过举例的方式,对步骤605的内容进行解释说明:
例如:预设特征属性分别为“id”属性和“class”属性,设定“id”属性和“class”属性的权重比为3:2。在步骤604中已经得到与“id”属性对应的样本特征矩阵为A,A的列数为3;与“class”属性对应的样本特征矩阵为B,B的列数也为3,则可以先将矩阵B降维为列数为2的矩阵C,之后,再将矩阵A和矩阵B拼接为列数为5的矩阵D,上述矩阵D即为得到的综合样本特征矩阵。
另外,为便于理解,下面通过举例的方式,对步骤605中样本特征矩阵的拼接操作进行解释说明:
例如:假设样本特征矩阵为A和B,具体的:则对A和B进行拼接操作之后得到矩阵:/>
又如:假设有样本特征矩阵为M和N,具体的: 则对M和N进行拼接操作之后得到矩阵:/>
步骤606,将各样本页面的样本特征数据输入初始聚类模型,进行聚类训练,得到聚类模型。
基于同一发明构思,根据本公开上述实施例提供的页面分类方法,相应地,本公开一个实施例还提供了一种页面分类装置,其结构示意图如图7所示,包括:
待分类页面获取模块701,获取待分类页面;
待分类特征数据得到模块702,用于对待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
分类结果得到模块703,用于将待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到待分类页面的页面分类结果。
进一步的,装置还包括:模型训练模块;
模型训练模块包括:初始模型建立子模块、样本页面获取子模块、样本特征数据得到子模块和模型得到子模块;
初始模型建立子模块,用于建立初始聚类模型;
样本页面获取子模块,用于获取各样本页面;
样本特征数据得到子模块,用于对各样本页面的页面结构数据进行特征提取,得到各样本页面的样本特征数据;
模型得到子模块,用于将各样本页面的样本特征数据输入初始聚类模型,进行聚类训练,得到聚类模型。
进一步的,样本特征数据得到子模块,具体用于:
分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的预设特征属性对应的特征属性值序列;
基于特征属性值序列和各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成各样本页面的样本特征向量,作为各样本页面的样本特征数据;
待分类特征数据得到模块702,具体用于:
获取待分类页面的标签序列中包含的预设特征属性对应的特征属性值;
基于特征属性值序列和待分类页面的标签序列中包含的预设特征属性对应的特征属性值,生成待分类页面的待分类特征向量,作为待分类特征数据。
进一步的,样本特征数据得到子模块,具体用于:
针对多个预设特征属性中的每个预设特征属性,分别获取各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的该预设特征属性对应的特征属性值序列;
基于各预设特征属性对应的特征属性值序列和各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,分别生成各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵;
基于预先设定的各预设特征属性的权重,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,综合样本特征矩阵中的各行向量分别为各样本页面的样本特征数据;
待分类特征数据得到模块702,具体用于:
针对多个预设特征属性中的每个预设特征属性,获取待分类页面的标签序列中包含的该预设特征属性对应的特征属性值;
分别生成待分类页面的与各预设特征属性对应的第一待分类特征向量;
对第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
图7所示实施例中,对待分类页面的页面结构数据进行特征提取得到待分类特征数据之后,将其直接输入预先训练完成的聚类模型,即可得到分类结果。上述过程中,只需预先对聚类模型进行训练,无需依赖指纹库中的分类规则,由于聚类模型的训练过程可通过机器学习自动完成,无需人工参与。因此,与依靠人工进行分类规则设定、维护和更新的一般分类方法相比,本公开实施例提供的页面分类方法降低了页面分类过程中的人工成本。
本公开实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取待分类页面;
对待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
将待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到待分类页面的页面分类结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本公开提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的页面分类方法。
在本公开提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的页面分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本公开的较佳实施例而已,并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本公开的保护范围内。

Claims (10)

1.一种页面分类方法,其特征在于,包括:
获取待分类页面;
对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果;
其中,所述对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据,包括:单独基于待分类页面标签序列中包含的指定特征属性对应的特征属性值,得到待分类特征向量,作为待分类特征数据;基于待分类页面标签序列中包含的多个预设特征属性分别对应的特征属性值,分别得到与各预设特征属性对应的第一待分类特征向量,对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据;
所述单独基于待分类页面标签序列中包含的指定特征属性对应的特征属性值,得到待分类特征向量,作为待分类特征数据,包括:获取所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值;基于特征属性值序列和所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值,生成所述待分类页面的待分类特征向量,作为待分类特征数据;
所述基于待分类页面标签序列中包含的多个预设特征属性分别对应的特征属性值,分别得到与各预设特征属性对应的第一待分类特征向量,对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据,包括:针对所述多个预设特征属性中的每个预设特征属性,获取所述待分类页面的标签序列中包含的该预设特征属性对应的特征属性值;分别生成所述待分类页面的与各预设特征属性对应的第一待分类特征向量;对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
2.根据权利要求1所述的方法,其特征在于,所述聚类模型的训练过程包括:
建立初始聚类模型;
获取各样本页面;
对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据;
将所述各样本页面的样本特征数据输入所述初始聚类模型,进行聚类训练,得到所述聚类模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据的步骤,包括:
分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的所述预设特征属性对应的特征属性值序列;
基于所述特征属性值序列和所述各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成所述各样本页面的样本特征向量,作为所述各样本页面的样本特征数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据的步骤,包括:
针对多个预设特征属性中的每个预设特征属性,分别获取各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的该预设特征属性对应的特征属性值序列;
基于各预设特征属性对应的特征属性值序列和所述各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,分别生成所述各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵;
基于预先设定的各预设特征属性的权重,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,所述综合样本特征矩阵中的各行向量分别为所述各样本页面的样本特征数据。
5.一种页面分类装置,其特征在于,包括:
待分类页面获取模块,获取待分类页面;
待分类特征数据得到模块,用于对所述待分类页面的页面结构数据进行特征提取,得到待分类特征数据;
分类结果得到模块,用于将所述待分类特征数据输入预先训练得到的聚类模型,进行页面类别划分,得到所述待分类页面的页面分类结果;
所述待分类特征数据得到模块,具体用于:单独基于待分类页面标签序列中包含的指定特征属性对应的特征属性值,得到待分类特征向量,作为待分类特征数据;基于待分类页面标签序列中包含的多个预设特征属性分别对应的特征属性值,分别得到与各预设特征属性对应的第一待分类特征向量,对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据;
所述待分类特征数据得到模块,具体用于:获取所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值;基于特征属性值序列和所述待分类页面的标签序列中包含的所述预设特征属性对应的特征属性值,生成所述待分类页面的待分类特征向量,作为待分类特征数据;针对所述多个预设特征属性中的每个预设特征属性,获取所述待分类页面的标签序列中包含的该预设特征属性对应的特征属性值;分别生成所述待分类页面的与各预设特征属性对应的第一待分类特征向量;对所述第一待分类特征向量进行降维和拼接操作,得到待分类特征数据。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:模型训练模块;
所述模型训练模块包括:初始模型建立子模块、样本页面获取子模块、样本特征数据得到子模块和模型得到子模块;
所述初始模型建立子模块,用于建立初始聚类模型;
所述样本页面获取子模块,用于获取各样本页面;
所述样本特征数据得到子模块,用于对所述各样本页面的页面结构数据进行特征提取,得到所述各样本页面的样本特征数据;
所述模型得到子模块,用于将所述各样本页面的样本特征数据输入所述初始聚类模型,进行聚类训练,得到所述聚类模型。
7.根据权利要求6所述的装置,其特征在于,所述样本特征数据得到子模块,具体用于:
分别获取各样本页面的标签序列中包含的预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的所述预设特征属性对应的特征属性值序列;
基于所述特征属性值序列和所述各样本页面的标签序列中包含的预设特征属性对应的特征属性值,分别生成所述各样本页面的样本特征向量,作为所述各样本页面的样本特征数据。
8.根据权利要求6所述的装置,其特征在于,所述样本特征数据得到子模块,具体用于:
针对多个预设特征属性中的每个预设特征属性,分别获取各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,得到所有样本页面的标签序列中包含的该预设特征属性对应的特征属性值序列;
基于各预设特征属性对应的特征属性值序列和所述各样本页面的标签序列中包含的该预设特征属性对应的特征属性值,分别生成所述各样本页面的与该预设特征属性对应的样本特征向量,组成与该预设特征属性对应的样本特征矩阵;
基于预先设定的各预设特征属性的权重,对各预设特征属性对应的样本特征矩阵分别进行降维和拼接操作,得到综合样本特征矩阵;其中,所述综合样本特征矩阵中的各行向量分别为所述各样本页面的样本特征数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202010428417.3A 2020-05-20 2020-05-20 一种页面分类方法、装置、设备及存储介质 Active CN111611457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010428417.3A CN111611457B (zh) 2020-05-20 2020-05-20 一种页面分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010428417.3A CN111611457B (zh) 2020-05-20 2020-05-20 一种页面分类方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111611457A CN111611457A (zh) 2020-09-01
CN111611457B true CN111611457B (zh) 2024-01-02

Family

ID=72200765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010428417.3A Active CN111611457B (zh) 2020-05-20 2020-05-20 一种页面分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111611457B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637172A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 网页分块标注方法与系统
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN107368718A (zh) * 2017-07-06 2017-11-21 同济大学 一种用户浏览行为认证方法及系统
CN107784034A (zh) * 2016-08-31 2018-03-09 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN109150817A (zh) * 2017-11-24 2019-01-04 新华三信息安全技术有限公司 一种网页请求识别方法及装置
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统
CN109582854A (zh) * 2018-12-28 2019-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110347835A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
US10592544B1 (en) * 2019-02-12 2020-03-17 Live Objects, Inc. Generation of process models in domains with unstructured data
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922540B2 (en) * 2018-07-03 2021-02-16 Neural Vision Technologies LLC Clustering, classifying, and searching documents using spectral computer vision and neural networks

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637172A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 网页分块标注方法与系统
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN107784034A (zh) * 2016-08-31 2018-03-09 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN107368718A (zh) * 2017-07-06 2017-11-21 同济大学 一种用户浏览行为认证方法及系统
CN109150817A (zh) * 2017-11-24 2019-01-04 新华三信息安全技术有限公司 一种网页请求识别方法及装置
CN109145937A (zh) * 2018-06-25 2019-01-04 北京达佳互联信息技术有限公司 一种模型训练的方法及装置
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统
CN109582854A (zh) * 2018-12-28 2019-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
US10592544B1 (en) * 2019-02-12 2020-03-17 Live Objects, Inc. Generation of process models in domains with unstructured data
CN110347835A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN111611457A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN110909725B (zh) 识别文本的方法、装置、设备及存储介质
US11593458B2 (en) System for time-efficient assignment of data to ontological classes
US10482174B1 (en) Systems and methods for identifying form fields
US11157816B2 (en) Systems and methods for selecting and generating log parsers using neural networks
CN105022754B (zh) 基于社交网络的对象分类方法及装置
US10452700B1 (en) Systems and methods for parsing log files using classification and plurality of neural networks
CN107992490A (zh) 一种数据处理方法以及数据处理设备
US11756059B2 (en) Discovery of new business openings using web content analysis
WO2020020287A1 (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
CN108536815B (zh) 一种文本分类方法及装置
CN113268667B (zh) 一种基于中文评论情感引导的序列推荐方法及系统
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN115391439A (zh) 文档数据导出方法、装置、电子设备和存储介质
CN105790967A (zh) 一种网络日志处理方法和装置
CN110704635B (zh) 一种知识图谱中三元组数据的转换方法及装置
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN111611457B (zh) 一种页面分类方法、装置、设备及存储介质
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
CN114021555A (zh) 知识点自动标注的方法、装置、设备及可读存储介质
Ganguly R data analysis Cookbook
CN115063784A (zh) 票据图像的信息提取方法和装置、存储介质及电子设备
CN116702024B (zh) 流水数据类型识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant