CN115859173A - 一种网站类别模型训练、网站类别确定方法 - Google Patents

一种网站类别模型训练、网站类别确定方法 Download PDF

Info

Publication number
CN115859173A
CN115859173A CN202211668324.3A CN202211668324A CN115859173A CN 115859173 A CN115859173 A CN 115859173A CN 202211668324 A CN202211668324 A CN 202211668324A CN 115859173 A CN115859173 A CN 115859173A
Authority
CN
China
Prior art keywords
sample
type
website
sample feature
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211668324.3A
Other languages
English (en)
Inventor
刘勤亮
陈静
袁军
彭元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nsfocus Technologies Inc, Nsfocus Technologies Group Co Ltd filed Critical Nsfocus Technologies Inc
Priority to CN202211668324.3A priority Critical patent/CN115859173A/zh
Publication of CN115859173A publication Critical patent/CN115859173A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种网站类别模型训练、网站类别确定方法,其中,通过对样本网站进行划分,然后获取划分后的每个样本网站的第一类样本特征和第二类样本特征,并对样本网站类别数量少的第一类样本特征和第二类样本特征进行样本特征数量处理,最后利用样本特征数量处理后的第一类样本特征训练第一神经网络模型、以及利用样本特征数量处理后的第二类样本特征训练第二神经网络模型,进而根据训练完成的第一神经网络模型和第二神经网络模型的融合结果得到网站类别模型。通过调整不同类别网站的特征数量,使得利用调整特征数量训练得到的网站类别模型可以准确对待确定类别的网站进行识别。

Description

一种网站类别模型训练、网站类别确定方法
技术领域
本申请涉及计算机技术领域,尤其涉及一种网站类别模型训练、网站类别确定方法。
背景技术
随着互联网的不断发展,网络资源越来越丰富,使得用户掌握信息也多种多样,但同时垃圾信息、不良网站等不健康内容也逐渐增多。现有技术中,利用云安全管理平台对博彩网站等不良网站进行网站识别,在识别出这些不良网站后提醒网络监管部门进行网站清除,以便于营造健康安全的网络环境。
目前,传统方案是基于网站文本或者网站图片对不良网站进行识别,但是由于不良网站种类较多,且不良网站为了逃避识别,会对网站内容进行各种各样的包装,使得云安全管理平台不能准确识别不良网站。因此,需要一种可以准确识别网站类别的方法。
发明内容
本申请实施例提供一种网站类别模型训练、网站类别确定方法,从而可以准确确定网站的类别。
第一方面,本申请一实施例提供了一种网站类别模型训练方法,所述方法包括:
将多个样本网站按照预设划分规则进行划分,得到第一样本网站集合和第二样本网站集合;
获取所述第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征,得到对应的第一类样本特征集合、第二类样本特征集合;以及获取所述第二样本网站集合中每个第二样本网站的第一类样本特征、第二类样本特征,得到对应的第三类样本特征集合、第四类样本特征集合;
将样本特征数量处理后的所述第一类样本特征集合和所述第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练;以及将样本特征数量处理后的所述第二类样本特征集合和所述第四类样本特征集合中的样本特征输入至第二神经网络模型中进行训练;
基于训练完成的所述第一神经网络模型和所述第二神经网络模型的融合结果,得到所述网站类别模型。
相对于现有技术,本申请通过调整不同类别网站的特征数量,使得利用调整特征数量训练得到的网站类别模型可以准确对待确定类别的网站进行识别。
一种可能的设计中,在获取所述第一样本网站集合中每个样本网站的第一类样本特征、第二类样本特征之前,所述方法还包括:
若检测到所述第一样本网站集合中任一样本网站存在目标标签,则删除所述目标标签;
对删除所述目标标签后的样本网站进行重新渲染。
本申请通过删除目标标签,进而可以使得获取到的样本网站中的第一类样本特征和第二类样本特征更加准确。
一种可能的设计中,在将样本特征数量处理后的所述第一类样本特征集合和所述第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练之前,所述方法还包括:
对所述第一类样本特征集合和所述第三类样本特征集合中的每个样本特征进行裁剪。
本申请通过对样本特征进行裁剪,使得输入至第一神经网络模型中的样本特征中可以更加突出待识别样本特征,进而利用第一神经网络模型得到更加准确的样本特征。
一种可能的设计中,针对所述第一类样本特征集合中的样本特征数量大于所述第三类样本特征集合中的样本特征数量的情况,对所述第一类样本特征集合和所述第三类样本特征集合进行样本特征数量处理,包括:
对所述第三类样本特征集合中的样本特征进行特征平移、特征剪裁、特征亮度调整、特征对比度调整中的一种或多种特征处理,使得所述第三类样本特征集合中的样本特征数量与所述第一类样本特征集合中的样本特征数量相同。
本申请通过对样本特征数量少的第三类样本特征集合中的样本特征进行调整,进而保证第一类样本特征集合和第三类样本特征集合中的样本特征数量相同。通过保证两个特征集合中样本特征数量相同,使得利用两个特征集合训练完成的第一神经网络模型时,得到的结果更加准确。
一种可能的设计中,针对所述第二类样本特征集合中的样本特征数量大于所述第四类样本特征集合中的样本特征数量的情况,对所述第二类样本特征集合和所述第四类样本特征集合进行样本特征数量处理,包括:
对所述第四类样本特征集合中的样本特征进行特征同义词替换、多特征融合中的一种或多种特征处理,使得所述第四类样本特征集合中的样本特征数量与所述第二类样本特征集合中的样本特征数量相同。
本申请通过对样本特征数量少的第四类样本特征集合中的样本特征进行调整,进而保证第二类样本特征集合和第四类样本特征集合中的样本特征数量相同。通过保证两个特征集合中样本特征数量相同,使得利用两个特征集合训练完成的第二神经网络模型时,得到的结果更加准确。
第二方面,本申请的一实施例提供了一种网站类别确定方法,所述方法包括:
获取待确定类别的网站的第一类样本特征和第二类样本特征;
将所述第一类样本特征输入预先训练好的第一神经网络模型,得到第一输出结果;以及将所述第二类样本特征输入预先训练好的第二神经网络模型,得到第二输出结果;
将所述第一输出结果和所述第二输出结果输入预先训练好的网站类别模型,得到所述网站的类别;
其中,所述第一神经网络模型、所述第二神经网络模型和所述网站类别模型是根据上述第一方面及其任一设计的方法训练得到的。
第三方面,本申请一实施例提供了一种网站类别模型训练装置,所述方法包括:
网站划分模块,用于将多个样本网站按照预设划分规则进行划分,得到第一样本网站集合和第二样本网站集合;
特征获取模块,用于获取所述第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征,得到对应的第一类样本特征集合、第二类样本特征集合;以及获取所述第二样本网站集合中每个第二样本网站的第一类样本特征、第二类样本特征,得到对应的第三类样本特征集合、第四类样本特征集合;
训练模块,用于将样本特征数量处理后的所述第一类样本特征集合和所述第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练;以及将样本特征数量处理后的所述第二类样本特征集合和所述第四类样本特征集合中的样本特征输入至第二神经网络模型中进行训练;
融合模块,用于基于训练完成的所述第一神经网络模型和所述第二神经网络模型的融合结果,得到所述网站类别模型。
一种可能的设计中,所述特征获取模块,还用于:
若检测到所述第一样本网站集合中任一样本网站存在目标标签,则删除所述目标标签;
对删除所述目标标签后的样本网站进行重新渲染。
一种可能的设计中,所述特征获取模块,还用于:
对所述第一类样本特征集合和所述第三类样本特征集合中的每个样本特征进行裁剪。
一种可能的设计中,针对所述第一类样本特征集合中的样本特征数量大于所述第三类样本特征集合中的样本特征数量的情况,所述训练模块中对所述第一类样本特征集合和所述第三类样本特征集合进行样本特征数量处理,具体用于:
对所述第三类样本特征集合中的样本特征进行特征平移、特征剪裁、特征亮度调整、特征对比度调整中的一种或多种特征处理,使得所述第三类样本特征集合中的样本特征数量与所述第一类样本特征集合中的样本特征数量相同。
一种可能的设计中,针对所述第二类样本特征集合中的样本特征数量大于所述第四类样本特征集合中的样本特征数量的情况,所述训练模块中对所述第二类样本特征集合和所述第四类样本特征集合进行样本特征数量处理,具体用于:
对所述第四类样本特征集合中的样本特征进行特征同义词替换、多特征融合中的一种或多种特征处理,使得所述第四类样本特征集合中的样本特征数量与所述第二类样本特征集合中的样本特征数量相同。
第四方面,本申请的一实施例提供了一种网站类别确定装置,所述装置包括:
获取模块,用于获取待确定类别的网站的第一类样本特征和第二类样本特征;
第一输入模块,用于将所述第一类样本特征输入预先训练好的第一神经网络模型,得到第一输出结果;以及将所述第二类样本特征输入预先训练好的第二神经网络模型,得到第二输出结果;
第二输入模块,用于将所述第一输出结果和所述第二输出结果输入预先训练好的网站类别模型,得到所述网站的类别;
其中,所述第一神经网络模型、所述第二神经网络模型和所述网站类别模型是根据上述第一方面及其任一设计的方法训练得到的。
第五方面,本申请一实施例还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如本申请第一方面中提供的任一方法或者实现如本申请第二方面提供的方法。
第六方面,本申请一实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本申请第一方面中提供的任一方法或者实现如本申请第二方面提供的方法。
第七方面,本申请一实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如本申请第一方面中提供的任一方法或者实现如本申请第二方面提供的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网站类别模型训练方法的流程示意图;
图2为本申请一实施例提供的步长为1的瓶颈层结构示意图;
图3为本申请一实施例提供的步长为2的瓶颈层结构示意图;
图4为本申请一实施例提供的文本特征划分结构示意图;
图5为本申请一实施例提供的Fasttext训练过程示意图;
图6为本申请一实施例提供的确定网站类别模型的流程示意图;
图7为本申请一实施例提供的一种网站类别确定方法流程示意图;
图8为本申请一实施例提供的电子设备示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
随着互联网的不断发展,网络资源越来越丰富,使得用户掌握信息也多种多样,但同时垃圾信息、不良网站等不健康内容也逐渐增多。现有技术中,利用云安全管理平台对博彩网站等不良网站进行网站识别,在识别出这些不良网站后提醒网络监管部门进行网站清除,以便于营造健康安全的网络环境。
目前,传统方案是基于网站文本或者网站图片对不良网站进行识别,但是由于不良网站种类较多,且不良网站为了逃避识别,会对网站内容进行各种各样的包装,使得云安全管理平台不能准确识别不良网站。因此,需要一种可以准确识别网站类别的方法。
为此,本申请提供一种网站类别模型训练、网站类别确定方法,通过对样本网站进行划分,然后获取划分后的每个样本网站的第一类样本特征和第二类样本特征,并对样本网站类别数量少的第一类样本特征和第二类样本特征进行样本特征数量处理,最后利用样本特征数量处理后的第一类样本特征训练第一神经网络模型、以及利用样本特征数量处理后的第二类样本特征训练第二神经网络模型,进而根据训练完成的第一神经网络模型和第二神经网络模型的融合结果得到网站类别模型。通过调整不同类别网站的特征数量,使得利用调整特征数量训练得到的网站类别模型可以准确对待确定类别的网站进行识别。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
参考图1,本申请实施例提供一种网站类别模型训练方法,包括以下步骤:
S101,将多个样本网站按照预设划分规则进行划分,得到第一样本网站集合和第二样本网站集合。
示例性的,将多个样本网站按照网站类别进行划分,假设样本网站1为博彩网站,样本网站2为金融网站,那么样本网站1可以划分到第一样本网站集合中,样本网站2可以划分到第二样本网站集合中。另外,本申请还可以根据网站类别划分多个样本网站集合,在此仅是举例说明,本申请并不限定划分样本网站集合的数量,也不限定样本网站的具体划分规则。
在对多个样本网站进行划分后,继续执行步骤S102,获取第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征,得到对应的第一类样本特征集合、第二类样本特征集合;以及获取第二样本网站集合中每个第二样本网站的第一类样本特征、第二类样本特征,得到对应的第三类样本特征集合、第四类样本特征集合。
假设第一类样本特征是图片特征,第二类样本特征是文本特征,那么通过获取博彩网站类别的第一样本网站集合中每个第一样本网站的图片特征得到第一图片特征集合,以及通过获取博彩网站类别的第一样本网站集合中每个第一样本网站的文本特征得到第一文本特征集合。
同样的,通过获取金融网站类别的第二样本网站集合中每个第二样本网站的图片特征得到第二图片特征集合,以及通过获取金融网站类别的第二样本网站集合中每个第二样本网站的文本特征得到第二文本特征集合。
示例性的,图片特征可以是通过网页url爬取获得。文本特征可以包括html文本特征和链接图片中包含的文本特征,html文本特征可以通过正规则获得,链接图片中包含的文本特征可以通过ocr文本工具识别获得。例如,在获取html文本特征A和链接图片中包含的文本特征B后,分别对html文本特征A和链接图片中包含的文本特征B进行分词处理,得到A1、A2、A3、A4、A5和B1、B2、B3,那么可以将A1、A2、A3、A4、A5和B1、B2、B3进行拼接处理,得到A1、A2、A3、A4、A5、B1、B2、B3或者B1、B2、B3、A1、A2、A3、A4、A5。在此仅是举例说明,本申请并不限定获取图片特征和文本特征的具体方式,也不限定文本特征的具体拼接方式。
为了避免在获取图片特征过程中,出现网页弹窗导致图片特征获取不准确,还可以在获取第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征之前,对网站进行目标标签的检测。若检测到第一样本网站集合中任一样本网站存在目标标签,则删除目标标签,然后对删除目标标签后的样本网站进行重新渲染。例如,目标标签可以是“关闭”,或者目标标签可以是“x”。若遍历网站html中的元素,查找到目标标签“关闭”,则将“关闭”删除,然后重新对网站进行渲染。
在获取第一类样本特征、第二类样本特征后,为了利用第一类样本特征、第二类样本特征训练得到更准确的神经网络模型,还可以对第一类样本特征集合、第三类样本特征集合、第二类样本特征集合和第四类样本特征集合中的每个样本特征进行裁剪。
例如,将图片特征(即第一类样本特征)的大小按照从图片中心位置放大至1920*2160,然后裁剪至224*224,以便于适配第一神经网络模型的输入尺寸。文本特征可以按照上面描述的html文本特征和链接图片中包含的文本特征拼接得到。
由于实际应用场景中,不同网站类别的网站数量是不同的,并且存在两种网站类别的网站数量差距很大,这样会使得同时利用这两类样本网站训练神经网络模型时,得到的神经网络模型不准确。因此,针对第一类样本特征集合中的样本特征数量大于第三类样本特征集合中的样本特征数量的情况,可以对第三类样本特征集合中的样本特征进行特征平移、特征剪裁、特征亮度调整、特征对比度调整中的一种或多种特征处理,使得第三类样本特征集合中的样本特征数量与第一类样本特征集合中的样本特征数量相同。
针对第二类样本特征集合中的样本特征数量大于第四类样本特征集合中的样本特征数量的情况,可以对第四类样本特征集合中的样本特征进行特征同义词替换、多特征融合中的一种或多种特征处理,使得第四类样本特征集合中的样本特征数量与第二类样本特征集合中的样本特征数量相同。
示例性的,第一类样本特征为图片特征时,可以对图片特征进行图片平移、图片裁剪、图片亮度调整、图片对比度调整等特征处理。第二类样本特征为文本特征时,可以对文本特征中的分词进行同义词替换、随机插入同义词、随机替换同义词、随机删除某一分词。
在对样本特征进行数量处理后,继续执行步骤S103,将样本特征数量处理后的第一类样本特征集合和第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练;以及将样本特征数量处理后的第二类样本特征集合和第四类样本特征集合中的样本特征输入至第二神经网络模型中进行训练。
示例性的,第一神经网络模型可以是mobilenet V2,第二神经网络模型可以是fasttext。其中,mobilenet V2中采用了反残差结构作为瓶颈层。如图2、图3所示,示出了两种不同步长的瓶颈层结构示意图。这里,不同步长的瓶颈层结构区别在于是否将开始的输入与最后的输出结果进行矩阵求和。图2和图3中的1*1卷积层用于增加或减少通道数,3*3卷积层用于特征共享,不同的步长会导致输出的特征长宽维度不同。
例如,mobilenet V2采用图2的结构训练过程是:将样本特征输入后,使用卷积层升高维度,再降低维度,最后将输入和残差结构的输出进行矩阵求和。重复多次上述过程后,加入卷积层进行降维得到输出的预测结果。如表1所示,假设每张图片均为224*224的rgb三通道矩阵,首先经过一个步长为2的2维卷积层降维,然后经过步长为2的瓶颈层和步长为1的瓶颈层分别进行降维和保留特征,防止过拟合和梯度消失。接着继续进行1*1的2维卷积层、7*7的最大池化层和1*1的2维卷积层。
表1
Figure BDA0004015263490000111
Fasttext的训练过程是:模型的输入为按照相同步长将文本特征划分的n个词组,如图4所示,假设文本特征由w1、w2、…、wn组成,将文本特征划分为w1和w2、w2和w3、…、wn-1和wn。每个词组初始化为一个2维向量,模型的目的是为了训练利用这个向量表示一个词,用句子的分类结果衡量词向量的质量好坏。如图5所示,在每个词向量(即w1和w2、w2和w3、…、wn-1和wn)生成后,首先经过全连接层的隐藏层进行降维聚合,然后输出到层次softmax函数中,这里,softmax函数可以是用来获取分类结果的
Figure BDA0004015263490000121
函数。当输入句子长度过长时,可以使用哈夫曼对每个词进行编码,词频越大,路径越短,需要编码的信息越少,因此可以快速找到每个词对应的输出概率。
在第一神经网络模型和第二神经网络模型训练完成后,为了进一步提高网站类别的准确度,继续执行步骤S104,基于训练完成的第一神经网络模型和第二神经网络模型的融合结果,得到网站类别模型。
示例性的,如图6所示,第一神经网络模型输出各网站类别的分值,第二神经网络模型输出各网站类别的分值后,将第一神经网络模型的输出结果A和第二神经网络模型的输出结果B按照0.1步长从0到1遍历两个模型的权值,并按照权值进行加权求和,选取求和结果最大值对应的权值。重复上述过程多次后,对选取出来的多个权值进行平均值的计算。第一神经网络模型和第二神经网络模型按照计算得到的权值平均值进行融合,得到网站类别模型。
在对网站类别模型进行训练完成后,如图7所示,通过以下方法可以对待确定类别的网站进行识别,包括以下步骤:
S701,获取待确定类别的网站的第一类样本特征和第二类样本特征;
S702,将第一类样本特征输入预先训练好的第一神经网络模型,得到第一输出结果;以及将第二类样本特征输入预先训练好的第二神经网络模型,得到第二输出结果;
S703,将第一输出结果和第二输出结果输入预先训练好的网站类别模型,得到网站的类别;
其中,第一神经网络模型、第二神经网络模型和网站类别模型是根据上述网站类别模型训练方法中任一方法训练得到的。
在介绍了本申请示例性实施方式的网站类别模型训练、网站类别确定方法之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的网站类别模型训练、网站类别确定方法中的步骤。例如,处理器可以执行如网站类别模型训练、网站类别确定方法中的步骤。
下面参照图8来描述根据本申请的这种实施方式的电子设备80。图8显示的电子设备80仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备80以通用电子设备的形式表现。电子设备80的组件可以包括但不限于:上述至少一个处理器81、上述至少一个存储器82、连接不同系统组件(包括存储器82和处理器81)的总线83。
总线83表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器82可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)821和/或高速缓存存储器822,还可以进一步包括只读存储器(ROM)823。
存储器82还可以包括具有一组(至少一个)程序模块824的程序/实用工具825,这样的程序模块824包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备80也可以与一个或多个外部设备84(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备80交互的设备通信,和/或与使得该电子设备80能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口85进行。并且,电子设备80还可以通过网络适配器86与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器86通过总线83与用于电子设备80的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器82,上述指令可由处理器81执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器81执行时实现如本申请提供的网站类别模型训练、网站类别确定方法的任一方法。
在示例性实施例中,本申请提供的一种网站类别模型训练、网站类别确定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种网站类别模型训练、网站类别确定方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于可视化界面配置、数据查询的的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程电子设备的处理器以产生一个机器,使得通过计算机或其他可编程电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程电子设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程电子设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种网站类别模型训练方法,其特征在于,所述方法包括:
将多个样本网站按照预设划分规则进行划分,得到第一样本网站集合和第二样本网站集合;
获取所述第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征,得到对应的第一类样本特征集合、第二类样本特征集合;以及获取所述第二样本网站集合中每个第二样本网站的第一类样本特征、第二类样本特征,得到对应的第三类样本特征集合、第四类样本特征集合;
将样本特征数量处理后的所述第一类样本特征集合和所述第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练;以及将样本特征数量处理后的所述第二类样本特征集合和所述第四类样本特征集合中的样本特征输入至第二神经网络模型中进行训练;
基于训练完成的所述第一神经网络模型和所述第二神经网络模型的融合结果,得到所述网站类别模型。
2.根据权利要求1所述的方法,其特征在于,在获取所述第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征之前,所述方法还包括:
若检测到所述第一样本网站集合中任一样本网站存在目标标签,则删除所述目标标签;
对删除所述目标标签后的样本网站进行重新渲染。
3.根据权利要求1所述的方法,其特征在于,在将样本特征数量处理后的所述第一类样本特征集合和所述第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练之前,所述方法还包括:
对所述第一类样本特征集合和所述第三类样本特征集合中的每个样本特征进行裁剪。
4.根据权利要求1所述的方法,其特征在于,针对所述第一类样本特征集合中的样本特征数量大于所述第三类样本特征集合中的样本特征数量的情况,对所述第一类样本特征集合和所述第三类样本特征集合进行样本特征数量处理,包括:
对所述第三类样本特征集合中的样本特征进行特征平移、特征剪裁、特征亮度调整、特征对比度调整中的一种或多种特征处理,使得所述第三类样本特征集合中的样本特征数量与所述第一类样本特征集合中的样本特征数量相同。
5.根据权利要求1所述的方法,其特征在于,针对所述第二类样本特征集合中的样本特征数量大于所述第四类样本特征集合中的样本特征数量的情况,对所述第二类样本特征集合和所述第四类样本特征集合进行样本特征数量处理,包括:
对所述第四类样本特征集合中的样本特征进行特征同义词替换、多特征融合中的一种或多种特征处理,使得所述第四类样本特征集合中的样本特征数量与所述第二类样本特征集合中的样本特征数量相同。
6.一种网站类别确定方法,其特征在于,所述方法包括:
获取待确定类别的网站的第一类样本特征和第二类样本特征;
将所述第一类样本特征输入预先训练好的第一神经网络模型,得到第一输出结果;以及将所述第二类样本特征输入预先训练好的第二神经网络模型,得到第二输出结果;
将所述第一输出结果和所述第二输出结果输入预先训练好的网站类别模型,得到所述网站的类别;
其中,所述第一神经网络模型、所述第二神经网络模型和所述网站类别模型是根据权利要求1-5中任一所述的方法训练得到的。
7.一种网站类别模型训练装置,其特征在于,所述装置包括:
网站划分模块,用于将多个样本网站按照预设划分规则进行划分,得到第一样本网站集合和第二样本网站集合;
特征获取模块,用于获取所述第一样本网站集合中每个第一样本网站的第一类样本特征、第二类样本特征,得到对应的第一类样本特征集合、第二类样本特征集合;以及获取所述第二样本网站集合中每个第二样本网站的第一类样本特征、第二类样本特征,得到对应的第三类样本特征集合、第四类样本特征集合;
训练模块,用于将样本特征数量处理后的所述第一类样本特征集合和所述第三类样本特征集合中的样本特征输入至第一神经网络模型中进行训练;以及将样本特征数量处理后的所述第二类样本特征集合和所述第四类样本特征集合中的样本特征输入至第二神经网络模型中进行训练;
融合模块,用于基于训练完成的所述第一神经网络模型和所述第二神经网络模型的融合结果,得到所述网站类别模型。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的网站类别模型训练方法,或者权利要求6中所述的网站类别确定方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至5中任一项所述的网站类别模型训练方法,或者权利要求6中所述的网站类别确定方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至5中任一项所述的网站类别模型训练方法,或者权利要求6中所述的网站类别确定方法。
CN202211668324.3A 2022-12-23 2022-12-23 一种网站类别模型训练、网站类别确定方法 Pending CN115859173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211668324.3A CN115859173A (zh) 2022-12-23 2022-12-23 一种网站类别模型训练、网站类别确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211668324.3A CN115859173A (zh) 2022-12-23 2022-12-23 一种网站类别模型训练、网站类别确定方法

Publications (1)

Publication Number Publication Date
CN115859173A true CN115859173A (zh) 2023-03-28

Family

ID=85654482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211668324.3A Pending CN115859173A (zh) 2022-12-23 2022-12-23 一种网站类别模型训练、网站类别确定方法

Country Status (1)

Country Link
CN (1) CN115859173A (zh)

Similar Documents

Publication Publication Date Title
US11244203B2 (en) Automated generation of structured training data from unstructured documents
US11907675B2 (en) Generating training datasets for training neural networks
WO2018126325A1 (en) Learning document embeddings with convolutional neural network architectures
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN110633594A (zh) 一种目标检测方法和装置
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN113515625A (zh) 测试结果分类模型训练方法、分类方法及装置
CN114036921A (zh) 一种政策信息匹配方法和装置
CN111611388A (zh) 账号分类方法、装置和设备
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN113626605B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN113836308B (zh) 网络大数据长文本多标签分类方法、系统、设备及介质
US20230161948A1 (en) Iteratively updating a document structure to resolve disconnected text in element blocks
US20230162518A1 (en) Systems for Generating Indications of Relationships between Electronic Documents
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
US11615245B2 (en) Article topic alignment
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN115859173A (zh) 一种网站类别模型训练、网站类别确定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination