CN117194773A

CN117194773A - 一种基于多模态特征的网站识别方法和装置

Info

Publication number: CN117194773A
Application number: CN202311061729.5A
Authority: CN
Inventors: 柳毅; 赵淳璐; 刘洋; 辛永辉; 王元杰; 杨博; 李紫微; 赵晓航; 鲍泽民
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-12-08

Abstract

本发明公开了一种基于多模态特征的网站识别方法及装置，所述方法包括：获取处理后的网页信息；得到对应的网页文本特征；获取网页用户特征；获取网页资源信息特征；获取所述网页信息对应的网页图片快照，由网页图片处理模块对所述网页图片快照提取网页图片特征；将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合，得到多模态融合特征，由多模态识别模型对所述多模态融合特征进行识别。本方法利用多模态识别模型对网站进行分类，有效提高了对不良网站识别的准确率。

Description

一种基于多模态特征的网站识别方法和装置

技术领域

本发明涉及网站分类技术领域，具体涉及一种基于多模态特征的网站识别方法和装置。

背景技术

随着互联网技术的发展，在给生活带来极大方便的同时，一些不良网络给社会及人们的生活带来的危害不可小视，特别是一些网站上存在的大量不良信息负面影响较大，因此通过互联网技术对此不良网站信息进行识别处理迫在眉睫。

目前有一些通过网页文本内容来识别不良网站的方法，但是这种识别方法特征比较单一，通常会导致误识别和漏识别的问题，对于一些变化比较丰富或网页图片较多的网站识别效果较差，如果能够在网页文本的基础上结合网页图片快照特征进行识别，将会更加有效提高对不良网站的识别准确率。

发明内容

有鉴于此，本发明提供了一种基于多模态特征的网站识别方法和装置，能够解决网站识别特征单一而造成的识别结果不准确的技术问题。

为了解决上述技术问题，本发明是这样实现的。

一种基于多模态特征的网站识别方法，所述方法包括：

步骤S1：获取待识别的网站对应的网页信息，对所述网页信息进行预处理，得到处理后的网页信息；

步骤S2：获取所述网页信息对应的词向量集，将所述词向量集输入文本分类器模型，得到对应的网页文本特征；

步骤S3：获取所述网页信息对应的用户信息，基于所述用户信息获取网页用户特征；

步骤S4：获取所述网页信息对应的网页资源信息，基于所述网页资源信息获取网页资源信息特征；

步骤S5：获取所述网页信息对应的网页图片快照，由网页图片处理模块对所述网页图片快照提取网页图片特征；

步骤S6：将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合，得到多模态融合特征，由多模态识别模型对所述多模态融合特征进行识别。

优选地，对所述网页信息进行预处理，包括：

对原始网页进行网页信息净化、近似网页删除和网页有效信息提取，提取原始网页对应的词向量集、用户信息、网页资源信息、网页图片快照。

优选地，所述步骤S2，所述文本分类器模型的结构为：所述文本分类器模型包括依次相连的短文本bert模型、双向RNN模型和Attention模块，所述短文本bert模型用于对所述词向量集提取特征，得到第一特征，所述双向RNN模型用于对所述第一特征进行特征向量提取，得到第一网页文本特征，再由Attention模块对所述第一网页文本特征进行加权处理，将注意力加权量叠加于第一网页文本特征，得到所述对应的网页文本特征。

优选地，所述步骤S3，包括：获取所述网页信息对应的用户信息，所述用户信息与预先设置的网页用户信息特征库进行匹配获得与所述用户信息对应的第一网页用户特征；对所述第一网页用户特征标准化处理得到网页用户特征；其中，所述用户信息包括QQ号信息、微信号信息、手机号信息、Email信息，与所述用户信息对应的网页用户特征分别为QQ号特征、微信号特征、手机号特征、Email特征；

所述标准化处理为：

其中，x1'为网页用户特征，x1为用户信息每个类别原始特征，为用户信息每个类别原始特征平均值，σ1为用户信息每个类别原始特征方差。

优选地，所述步骤S4，包括：获取所述网页信息对应的网页资源信息，所述网页资源信息与预先设置的网页资源信息特征库进行匹配获得与所述用户信息对应的第一网页资源信息特征；对所述第一网页资源信息特征标准化处理得到网页资源信息特征；所述网页资源信息包括网页域名信息、网页域名子串信息、网页外部资源信息、网页ip信息，与所述网页资源信息对应的网页资源特征分别为网页域名特征、网页域名子串特征、网页外部资源特征、网页ip特征；

所述标准化处理为：

其中，x2'为网页资源信息特征，x2为网页资源信息每个类别原始特征，为网页资源信息每个类别原始特征平均值，σ2为网页资源信息每个类别原始特征方差。

优选地，所述步骤S5，其中，所述网页图片处理模块包括图片相似度计算子模块、文字图片识别子模块、二维码识别子模块、物体检测子模块；所述图片相似度计算子模块获取预先配置的有害图片集，提取所述网页图片快照的关键点与所述有害图片集中的各有害图片进行基于sift特征的图片相似度计算，将各个相似度值累加，得到所述网页图片快照对应的图片相似度值A1；所述文字图片识别子模块获取预先配置的有害关键词库，基于OCR文字识别对所述网页图片快照的文字部分进行文字识别，将识别出的文字与所述有害关键词库中的各有害关键词对比，得到所述网页图片快照对应的图片提取文字特征A2，所有害关键词特征库包括的有害关键词是指通过命名实体识别、新词发现得到的有害关键词；二维码识别子模块获取预先配置的有害网址知识库，将对所述网页图片快照识别出的域名子串与所述有害网址知识库中的有害域名对比，得到所述网页图片快照对应的域名识别结果特征A3，所述有害网址知识库包括的有害域名是指已识别积累的有害域名；所述物体检测子模块获取预先配置的有害物体检测模型文件，将对所述网页图片快照识别出的目标特征与所述有害物体检测模型文件中的目标特征对比，得到所述网页图片快照对应的目标检测特征A4，所述有害物体检测模型文件包括预先设定的作为有害物体的目标特征，将A1、A2、A3、A4中的最大值作为网页图片特征。

本发明所提供的一种基于多模态特征的网站识别装置，所述装置包括：

预处理模块：配置为获取待识别的网站对应的网页信息，对所述网页信息进行预处理，得到处理后的网页信息；

第一特征模块：配置为获取所述网页信息对应的词向量集，将所述词向量集输入文本分类器模型，得到对应的网页文本特征；

第二特征模块：配置为获取所述网页信息对应的用户信息，基于所述用户信息获取网页用户特征；

第三特征模块：配置为获取所述网页信息对应的网页资源信息，基于所述网页资源信息获取网页资源信息特征；

第四特征模块：配置为获取所述网页信息对应的网页图片快照，由网页图片处理模块对所述网页图片快照提取网页图片特征；

识别模块：配置为将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合，得到多模态融合特征，由多模态识别模型对所述多模态融合特征进行识别。

本发明所提供的一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述方法。

本发明所提供的一种电子设备，其特征在于，所述电子设备，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述方法。

本发明所带来的有益技术效果：

(1)本发明通过对不良网站网页文本特征、用户特征、网站资源特征和网页图片快照特征等多模态融合特征的方式，利用多模态识别模型对网站进行分类，有效提高了对不良网站识别的准确率。

(2)本发明能够多维度提取网页不同模态的特征，融合所提取不同模态特征，提升了多模态识别模型分类器特征提取维度。

(3)本发明能够对不良网站维度特征较少的情况下，利用多模态识别模型对其进行分类识别，降低误识别率。

(4)本发明可以自定义融合多模态特征，使识别更为精准，更适合网页复杂场景的应用变化情况。

附图说明

图1为本发明基于多模态特征的网站识别方法流程示意图；

图2为本发明基于对网页图片进行分类的分类器示意图；

图3为本发明基于多模态特征的网站识别装置结构示意图。

具体实施方式

下面结合附图和实施例，对本发明进行详细描述。

如图1所示，本发明提出了一种基于多模态特征的网站识别方法，所述方法包括：

本发明提供了一种基于多模态特征的网站识别方法，通过网页的多模态融合特征及构建的多模态识别模型，提供一种更为全面准确的网页识别分类方法。

所述步骤S1，对所述网页信息进行预处理，包括：

进一步地，在模型训练过程中，需要获取训练样本，训练样本的生成方式为：根据网站关键词获取网站信息，对网站信息进行人工标注获得网站初始样本集，根据初始样本集中包含的外链网站获得网站扩展样本集，对网站扩展样本集进行人工标注获得网站最终样本集。

所述步骤S2，所述文本分类器模型的结构为：所述文本分类器模型包括依次相连的短文本bert模型、双向RNN模型和Attention模块，所述短文本bert模型用于对所述词向量集提取特征，得到第一特征，所述双向RNN模型用于对所述第一特征进行特征向量提取，得到第一网页文本特征，再由Attention模块对所述第一网页文本特征进行加权处理，将注意力加权量叠加于第一网页文本特征，得到所述对应的网页文本特征。

所述步骤S3，包括：获取所述网页信息对应的用户信息，所述用户信息与预先设置的网页用户信息特征库进行匹配获得与所述用户信息对应的第一网页用户特征；对所述第一网页用户特征标准化处理得到网页用户特征；其中，所述用户信息包括QQ号信息、微信号信息、手机号信息、Email信息，与所述用户信息对应的网页用户特征分别为QQ号特征、微信号特征、手机号特征、Email特征。

所述标准化处理为：

本实施例中，通过网页用户信息与网页用户信息特征库进行匹配获得第一网页用户特征；对第一网页用户特征标准化处理得到网页用户特征。

所述步骤S4，包括：获取所述网页信息对应的网页资源信息，所述网页资源信息与预先设置的网页资源信息特征库进行匹配获得与所述用户信息对应的第一网页资源信息特征；对所述第一网页资源信息特征标准化处理得到网页资源信息特征；所述网页资源信息包括网页域名信息、网页域名子串信息、网页外部资源信息、网页ip信息，与所述网页资源信息对应的网页资源特征分别为网页域名特征、网页域名子串特征、网页外部资源特征、网页ip特征。

所述标准化处理为：

如图2所示，所述步骤S5，其中，所述网页图片处理模块包括图片相似度计算子模块、文字图片识别子模块、二维码识别子模块、物体检测子模块；所述图片相似度计算子模块获取预先配置的有害图片集，提取所述网页图片快照的关键点与所述有害图片集中的各有害图片进行基于sift特征的图片相似度计算，将各个相似度值累加，得到所述网页图片快照对应的图片相似度值A1；所述文字图片识别子模块获取预先配置的有害关键词库，基于OCR文字识别对所述网页图片快照的文字部分进行文字识别，将识别出的文字与所述有害关键词库中的各有害关键词对比，得到所述网页图片快照对应的图片提取文字特征A2，所有害关键词特征库包括的有害关键词是指通过命名实体识别、新词发现得到的有害关键词；二维码识别子模块获取预先配置的有害网址知识库，将对所述网页图片快照识别出的域名子串与所述有害网址知识库中的有害域名对比，得到所述网页图片快照对应的域名识别结果特征A3，所述有害网址知识库包括的有害域名是指已识别积累的有害域名；所述物体检测子模块获取预先配置的有害物体检测模型文件，将对所述网页图片快照识别出的目标特征与所述有害物体检测模型文件中的目标特征对比，得到所述网页图片快照对应的目标检测特征A4，所述有害物体检测模型文件包括预先设定的作为有害物体的目标特征，将A1、A2、A3、A4中的最大值作为网页图片特征。

所述步骤S6，所述多模态识别模型为XGBoost模型。

本发明提供一个基于多模态特征的网站识别方法的具体实施例。

网站样本数据进行预处理，具体实施方式如下：

步骤S1：网站样本数据预处理

步骤S1-1：使用网页爬虫技术采集网站相关样本数据；

步骤S1-2：根据采集结果进行人工标注，得到网站信息的初始样本集；

步骤S1-3：根据初始样本集中包含的外链网站，爬取外链网站获得网站扩展样本集；

步骤S1-4：对所述网站扩展样本集进行人工标注得到网站最终样本集，基于网站最终样本集提取网文本、网页用户信息、网页资源信息和网页图片快照。

步骤S1-5：为了后续结果对比分析，可以对一些正常网站数据进行标注，用于判断最终模型在识别不良网站时是否存在误识别正常网站的情况。

提取网页文本特征、网页用户特征、网页资源特征、网页图片快照特征构建网站多模态融合特征，具体实施方式如下：

步骤S1：提取网页文本特征

步骤S1-1：对已标注的最终样本集中网页源代码提取网页文本内容，基于TextRank算法提取网页文本内容中关键部分形成网页文本关键内容样本集；

步骤S1-2：基于网页文本关键内容使用搜狗中文语料库和word2vec工具生成词向量集；

步骤S1-3：构建BERT+RNN+Attention文本分类器模型，根据网页文本关键内容样本集作为训练样本对BERT+RNN+Attention文本分类器模型进行训练；

步骤S1-4：通过训练好的BERT+RNN+Attention文本分类器模型基于所述词向量集对网页文本关键内容进行特征提取获得网页文本特征。

步骤S2：提取网页用户特征

步骤S2-1：根据网页最终样本集提取网页用户信息，用户信息有QQ号、微信号、手机号、Email等信息；

步骤S2-2：根据大量网站信息整理构建网页用户特征库，并根据网页用户信息提取结果进行定期扩充更新；

步骤S2-3：将已提取的用户信息与用户特征库进行比较，识别其包含的用户信息的数量；

步骤S2-4：对识别结果进行标准化处理，得到用户特征；

步骤S3：提取网页资源特征

步骤S3-1：根据网页最终样本集提取网页资源信息，网页资源信息有有害域名、域名子串、公共外部资源、网页IP等信息；

步骤S3-2：根据大量网站信息整理构建网页资源信息特征库，并根据网页资源信息提取结果进行定期扩充更新；

步骤S3-3：将已提取的网页资源信息与网页资源信息特征库进行比较，识别其包含的网页资源信息的数量；

步骤S2-4：对识别结果进行标准化处理，得到网页资源特征；

步骤S4：用户信息和资源信息识别结果标准化处理

步骤S4-1：选取一批网站最终样本集，基于样本数据中的用户信息和资源信息分别于用户信息特征库和资源信息特征库进行匹配得到每个类别信息的原始特征x；

步骤S4-2：对每个类别信息匹配数量分别计算均值和方差σ；

步骤S4-3：根据均值和方差标准化处理得到最终特征，公式如下：

步骤S5：提取网页图片快照特征

步骤S5-1：基于有害图片配置信息进行sift特征图片相似度计算，得到有害图片相似度评分；

步骤S5-2：对图像中包含文字比较多的部分采用OCR图像文字识别技术，根据识别结果字符串与有害特征库关键词进行对比，通过对比结果来对图片进行识别分析；

步骤S5-3：对图像中包含二维码的部分进行二维码识别，根据识别结果与有害网址知识库进行对比，通过对比结果来对图片进行识别分析；

步骤S5-4：对图像中信息比较丰富部分，采用基于预训练的图片检测模型YOLOv3，进行与特定有害类别相关的物体检测；

步骤S5-5：取各个模块有害类别评分特征的最大值作为网页图片快照特征提取的结果。

根据网页多模态融合特征进行模型训练获得多模态模型，根据多模态模型对待识别网站进行识别，具体实施方式如下：

步骤S1：获得多模态融合特征

步骤S1-1：根据提取到的网页文本特征、网页用户特征、网页资源特征和网页图片快照特征进行多特征融合得到网页多模态融合特征；

步骤S2：构建多模态识别模型

步骤S2-1：构建网页多模态融合特征XGBoost初始训练模型；

步骤S2-2：基于网页多模态融合特征进行模型训练；

步骤S2-3：对模型进行调参优化并保存最终模型文件。

步骤S3：对待识别网站进行识别

步骤S3-1：提取待识别网站的多模态融合特征，对于网页文本较少的网站可以通过提取网页图片快照构建多模态融合特征；

步骤S3-2：对特征缺失部分进行特征缺值处理；

步骤S3-3：通过多模态识别模型文件对待识别网站的进行识别。

如图3所示，本发明提供一种基于多模态特征的网站识别装置，所述装置包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。

Claims

1.一种基于多模态特征的网站识别方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的方法，其特征在于，对所述网页信息进行预处理，包括：

3.如权利要求2所述的方法，其特征在于，所述步骤S2，所述文本分类器模型的结构为：所述文本分类器模型包括依次相连的短文本bert模型、双向RNN模型和Attention模块，所述短文本bert模型用于对所述词向量集提取特征，得到第一特征，所述双向RNN模型用于对所述第一特征进行特征向量提取，得到第一网页文本特征，再由Attention模块对所述第一网页文本特征进行加权处理，将注意力加权量叠加于第一网页文本特征，得到所述对应的网页文本特征。

4.如权利要求2所述的方法，其特征在于，所述步骤S3，包括：获取所述网页信息对应的用户信息，所述用户信息与预先设置的网页用户信息特征库进行匹配获得与所述用户信息对应的第一网页用户特征；对所述第一网页用户特征标准化处理得到网页用户特征；其中，所述用户信息包括QQ号信息、微信号信息、手机号信息、Email信息，与所述用户信息对应的网页用户特征分别为QQ号特征、微信号特征、手机号特征、Email特征；

所述标准化处理为：

其中，x1′为网页用户特征，x1为用户信息每个类别原始特征，为用户信息每个类别原始特征平均值，σ1为用户信息每个类别原始特征方差。

5.如权利要求2所述的方法，其特征在于，所述步骤S4，包括：获取所述网页信息对应的网页资源信息，所述网页资源信息与预先设置的网页资源信息特征库进行匹配获得与所述用户信息对应的第一网页资源信息特征；对所述第一网页资源信息特征标准化处理得到网页资源信息特征；所述网页资源信息包括网页域名信息、网页域名子串信息、网页外部资源信息、网页ip信息，与所述网页资源信息对应的网页资源特征分别为网页域名特征、网页域名子串特征、网页外部资源特征、网页ip特征；

所述标准化处理为：

其中，x2′为网页资源信息特征，x2为网页资源信息每个类别原始特征，为网页资源信息每个类别原始特征平均值，σ2为网页资源信息每个类别原始特征方差。

6.如权利要求1-5中任一项所述的方法，其特征在于，所述步骤S5，其中，所述网页图片处理模块包括图片相似度计算子模块、文字图片识别子模块、二维码识别子模块、物体检测子模块；所述图片相似度计算子模块获取预先配置的有害图片集，提取所述网页图片快照的关键点与所述有害图片集中的各有害图片进行基于sift特征的图片相似度计算，将各个相似度值累加，得到所述网页图片快照对应的图片相似度值A1；所述文字图片识别子模块获取预先配置的有害关键词库，基于OCR文字识别对所述网页图片快照的文字部分进行文字识别，将识别出的文字与所述有害关键词库中的各有害关键词对比，得到所述网页图片快照对应的图片提取文字特征A2，所有害关键词特征库包括的有害关键词是指通过命名实体识别、新词发现得到的有害关键词；二维码识别子模块获取预先配置的有害网址知识库，将对所述网页图片快照识别出的域名子串与所述有害网址知识库中的有害域名对比，得到所述网页图片快照对应的域名识别结果特征A3，所述有害网址知识库包括的有害域名是指已识别积累的有害域名；所述物体检测子模块获取预先配置的有害物体检测模型文件，将对所述网页图片快照识别出的目标特征与所述有害物体检测模型文件中的目标特征对比，得到所述网页图片快照对应的目标检测特征A4，所述有害物体检测模型文件包括预先设定的作为有害物体的目标特征，将A1、A2、A3、A4中的最大值作为网页图片特征。

7.一种基于多模态特征的网站识别装置，其特征在于，所述装置包括：

8.一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-6中任一项所述方法。

9.一种电子设备，其特征在于，所述电子设备，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-6中任一项所述方法。