CN117194773A - 一种基于多模态特征的网站识别方法和装置 - Google Patents
一种基于多模态特征的网站识别方法和装置 Download PDFInfo
- Publication number
- CN117194773A CN117194773A CN202311061729.5A CN202311061729A CN117194773A CN 117194773 A CN117194773 A CN 117194773A CN 202311061729 A CN202311061729 A CN 202311061729A CN 117194773 A CN117194773 A CN 117194773A
- Authority
- CN
- China
- Prior art keywords
- webpage
- information
- features
- picture
- harmful
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000000746 purification Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于多模态特征的网站识别方法及装置,所述方法包括:获取处理后的网页信息;得到对应的网页文本特征;获取网页用户特征;获取网页资源信息特征;获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。本方法利用多模态识别模型对网站进行分类,有效提高了对不良网站识别的准确率。
Description
技术领域
本发明涉及网站分类技术领域,具体涉及一种基于多模态特征的网站识别方法和装置。
背景技术
随着互联网技术的发展,在给生活带来极大方便的同时,一些不良网络给社会及人们的生活带来的危害不可小视,特别是一些网站上存在的大量不良信息负面影响较大,因此通过互联网技术对此不良网站信息进行识别处理迫在眉睫。
目前有一些通过网页文本内容来识别不良网站的方法,但是这种识别方法特征比较单一,通常会导致误识别和漏识别的问题,对于一些变化比较丰富或网页图片较多的网站识别效果较差,如果能够在网页文本的基础上结合网页图片快照特征进行识别,将会更加有效提高对不良网站的识别准确率。
发明内容
有鉴于此,本发明提供了一种基于多模态特征的网站识别方法和装置,能够解决网站识别特征单一而造成的识别结果不准确的技术问题。
为了解决上述技术问题,本发明是这样实现的。
一种基于多模态特征的网站识别方法,所述方法包括:
步骤S1:获取待识别的网站对应的网页信息,对所述网页信息进行预处理,得到处理后的网页信息;
步骤S2:获取所述网页信息对应的词向量集,将所述词向量集输入文本分类器模型,得到对应的网页文本特征;
步骤S3:获取所述网页信息对应的用户信息,基于所述用户信息获取网页用户特征;
步骤S4:获取所述网页信息对应的网页资源信息,基于所述网页资源信息获取网页资源信息特征;
步骤S5:获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;
步骤S6:将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。
优选地,对所述网页信息进行预处理,包括:
对原始网页进行网页信息净化、近似网页删除和网页有效信息提取,提取原始网页对应的词向量集、用户信息、网页资源信息、网页图片快照。
优选地,所述步骤S2,所述文本分类器模型的结构为:所述文本分类器模型包括依次相连的短文本bert模型、双向RNN模型和Attention模块,所述短文本bert模型用于对所述词向量集提取特征,得到第一特征,所述双向RNN模型用于对所述第一特征进行特征向量提取,得到第一网页文本特征,再由Attention模块对所述第一网页文本特征进行加权处理,将注意力加权量叠加于第一网页文本特征,得到所述对应的网页文本特征。
优选地,所述步骤S3,包括:获取所述网页信息对应的用户信息,所述用户信息与预先设置的网页用户信息特征库进行匹配获得与所述用户信息对应的第一网页用户特征;对所述第一网页用户特征标准化处理得到网页用户特征;其中,所述用户信息包括QQ号信息、微信号信息、手机号信息、Email信息,与所述用户信息对应的网页用户特征分别为QQ号特征、微信号特征、手机号特征、Email特征;
所述标准化处理为:
其中,x1'为网页用户特征,x1为用户信息每个类别原始特征,为用户信息每个类别原始特征平均值,σ1为用户信息每个类别原始特征方差。
优选地,所述步骤S4,包括:获取所述网页信息对应的网页资源信息,所述网页资源信息与预先设置的网页资源信息特征库进行匹配获得与所述用户信息对应的第一网页资源信息特征;对所述第一网页资源信息特征标准化处理得到网页资源信息特征;所述网页资源信息包括网页域名信息、网页域名子串信息、网页外部资源信息、网页ip信息,与所述网页资源信息对应的网页资源特征分别为网页域名特征、网页域名子串特征、网页外部资源特征、网页ip特征;
所述标准化处理为:
其中,x2'为网页资源信息特征,x2为网页资源信息每个类别原始特征,为网页资源信息每个类别原始特征平均值,σ2为网页资源信息每个类别原始特征方差。
优选地,所述步骤S5,其中,所述网页图片处理模块包括图片相似度计算子模块、文字图片识别子模块、二维码识别子模块、物体检测子模块;所述图片相似度计算子模块获取预先配置的有害图片集,提取所述网页图片快照的关键点与所述有害图片集中的各有害图片进行基于sift特征的图片相似度计算,将各个相似度值累加,得到所述网页图片快照对应的图片相似度值A1;所述文字图片识别子模块获取预先配置的有害关键词库,基于OCR文字识别对所述网页图片快照的文字部分进行文字识别,将识别出的文字与所述有害关键词库中的各有害关键词对比,得到所述网页图片快照对应的图片提取文字特征A2,所有害关键词特征库包括的有害关键词是指通过命名实体识别、新词发现得到的有害关键词;二维码识别子模块获取预先配置的有害网址知识库,将对所述网页图片快照识别出的域名子串与所述有害网址知识库中的有害域名对比,得到所述网页图片快照对应的域名识别结果特征A3,所述有害网址知识库包括的有害域名是指已识别积累的有害域名;所述物体检测子模块获取预先配置的有害物体检测模型文件,将对所述网页图片快照识别出的目标特征与所述有害物体检测模型文件中的目标特征对比,得到所述网页图片快照对应的目标检测特征A4,所述有害物体检测模型文件包括预先设定的作为有害物体的目标特征,将A1、A2、A3、A4中的最大值作为网页图片特征。
本发明所提供的一种基于多模态特征的网站识别装置,所述装置包括:
预处理模块:配置为获取待识别的网站对应的网页信息,对所述网页信息进行预处理,得到处理后的网页信息;
第一特征模块:配置为获取所述网页信息对应的词向量集,将所述词向量集输入文本分类器模型,得到对应的网页文本特征;
第二特征模块:配置为获取所述网页信息对应的用户信息,基于所述用户信息获取网页用户特征;
第三特征模块:配置为获取所述网页信息对应的网页资源信息,基于所述网页资源信息获取网页资源信息特征;
第四特征模块:配置为获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;
识别模块:配置为将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。
本发明所提供的一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述方法。
本发明所提供的一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述方法。
本发明所带来的有益技术效果:
(1)本发明通过对不良网站网页文本特征、用户特征、网站资源特征和网页图片快照特征等多模态融合特征的方式,利用多模态识别模型对网站进行分类,有效提高了对不良网站识别的准确率。
(2)本发明能够多维度提取网页不同模态的特征,融合所提取不同模态特征,提升了多模态识别模型分类器特征提取维度。
(3)本发明能够对不良网站维度特征较少的情况下,利用多模态识别模型对其进行分类识别,降低误识别率。
(4)本发明可以自定义融合多模态特征,使识别更为精准,更适合网页复杂场景的应用变化情况。
附图说明
图1为本发明基于多模态特征的网站识别方法流程示意图;
图2为本发明基于对网页图片进行分类的分类器示意图;
图3为本发明基于多模态特征的网站识别装置结构示意图。
具体实施方式
下面结合附图和实施例,对本发明进行详细描述。
如图1所示,本发明提出了一种基于多模态特征的网站识别方法,所述方法包括:
步骤S1:获取待识别的网站对应的网页信息,对所述网页信息进行预处理,得到处理后的网页信息;
步骤S2:获取所述网页信息对应的词向量集,将所述词向量集输入文本分类器模型,得到对应的网页文本特征;
步骤S3:获取所述网页信息对应的用户信息,基于所述用户信息获取网页用户特征;
步骤S4:获取所述网页信息对应的网页资源信息,基于所述网页资源信息获取网页资源信息特征;
步骤S5:获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;
步骤S6:将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。
本发明提供了一种基于多模态特征的网站识别方法,通过网页的多模态融合特征及构建的多模态识别模型,提供一种更为全面准确的网页识别分类方法。
所述步骤S1,对所述网页信息进行预处理,包括:
对原始网页进行网页信息净化、近似网页删除和网页有效信息提取,提取原始网页对应的词向量集、用户信息、网页资源信息、网页图片快照。
进一步地,在模型训练过程中,需要获取训练样本,训练样本的生成方式为:根据网站关键词获取网站信息,对网站信息进行人工标注获得网站初始样本集,根据初始样本集中包含的外链网站获得网站扩展样本集,对网站扩展样本集进行人工标注获得网站最终样本集。
所述步骤S2,所述文本分类器模型的结构为:所述文本分类器模型包括依次相连的短文本bert模型、双向RNN模型和Attention模块,所述短文本bert模型用于对所述词向量集提取特征,得到第一特征,所述双向RNN模型用于对所述第一特征进行特征向量提取,得到第一网页文本特征,再由Attention模块对所述第一网页文本特征进行加权处理,将注意力加权量叠加于第一网页文本特征,得到所述对应的网页文本特征。
所述步骤S3,包括:获取所述网页信息对应的用户信息,所述用户信息与预先设置的网页用户信息特征库进行匹配获得与所述用户信息对应的第一网页用户特征;对所述第一网页用户特征标准化处理得到网页用户特征;其中,所述用户信息包括QQ号信息、微信号信息、手机号信息、Email信息,与所述用户信息对应的网页用户特征分别为QQ号特征、微信号特征、手机号特征、Email特征。
所述标准化处理为:
其中,x1'为网页用户特征,x1为用户信息每个类别原始特征,为用户信息每个类别原始特征平均值,σ1为用户信息每个类别原始特征方差。
本实施例中,通过网页用户信息与网页用户信息特征库进行匹配获得第一网页用户特征;对第一网页用户特征标准化处理得到网页用户特征。
所述步骤S4,包括:获取所述网页信息对应的网页资源信息,所述网页资源信息与预先设置的网页资源信息特征库进行匹配获得与所述用户信息对应的第一网页资源信息特征;对所述第一网页资源信息特征标准化处理得到网页资源信息特征;所述网页资源信息包括网页域名信息、网页域名子串信息、网页外部资源信息、网页ip信息,与所述网页资源信息对应的网页资源特征分别为网页域名特征、网页域名子串特征、网页外部资源特征、网页ip特征。
所述标准化处理为:
其中,x2'为网页资源信息特征,x2为网页资源信息每个类别原始特征,为网页资源信息每个类别原始特征平均值,σ2为网页资源信息每个类别原始特征方差。
如图2所示,所述步骤S5,其中,所述网页图片处理模块包括图片相似度计算子模块、文字图片识别子模块、二维码识别子模块、物体检测子模块;所述图片相似度计算子模块获取预先配置的有害图片集,提取所述网页图片快照的关键点与所述有害图片集中的各有害图片进行基于sift特征的图片相似度计算,将各个相似度值累加,得到所述网页图片快照对应的图片相似度值A1;所述文字图片识别子模块获取预先配置的有害关键词库,基于OCR文字识别对所述网页图片快照的文字部分进行文字识别,将识别出的文字与所述有害关键词库中的各有害关键词对比,得到所述网页图片快照对应的图片提取文字特征A2,所有害关键词特征库包括的有害关键词是指通过命名实体识别、新词发现得到的有害关键词;二维码识别子模块获取预先配置的有害网址知识库,将对所述网页图片快照识别出的域名子串与所述有害网址知识库中的有害域名对比,得到所述网页图片快照对应的域名识别结果特征A3,所述有害网址知识库包括的有害域名是指已识别积累的有害域名;所述物体检测子模块获取预先配置的有害物体检测模型文件,将对所述网页图片快照识别出的目标特征与所述有害物体检测模型文件中的目标特征对比,得到所述网页图片快照对应的目标检测特征A4,所述有害物体检测模型文件包括预先设定的作为有害物体的目标特征,将A1、A2、A3、A4中的最大值作为网页图片特征。
所述步骤S6,所述多模态识别模型为XGBoost模型。
本发明提供一个基于多模态特征的网站识别方法的具体实施例。
网站样本数据进行预处理,具体实施方式如下:
步骤S1:网站样本数据预处理
步骤S1-1:使用网页爬虫技术采集网站相关样本数据;
步骤S1-2:根据采集结果进行人工标注,得到网站信息的初始样本集;
步骤S1-3:根据初始样本集中包含的外链网站,爬取外链网站获得网站扩展样本集;
步骤S1-4:对所述网站扩展样本集进行人工标注得到网站最终样本集,基于网站最终样本集提取网文本、网页用户信息、网页资源信息和网页图片快照。
步骤S1-5:为了后续结果对比分析,可以对一些正常网站数据进行标注,用于判断最终模型在识别不良网站时是否存在误识别正常网站的情况。
提取网页文本特征、网页用户特征、网页资源特征、网页图片快照特征构建网站多模态融合特征,具体实施方式如下:
步骤S1:提取网页文本特征
步骤S1-1:对已标注的最终样本集中网页源代码提取网页文本内容,基于TextRank算法提取网页文本内容中关键部分形成网页文本关键内容样本集;
步骤S1-2:基于网页文本关键内容使用搜狗中文语料库和word2vec工具生成词向量集;
步骤S1-3:构建BERT+RNN+Attention文本分类器模型,根据网页文本关键内容样本集作为训练样本对BERT+RNN+Attention文本分类器模型进行训练;
步骤S1-4:通过训练好的BERT+RNN+Attention文本分类器模型基于所述词向量集对网页文本关键内容进行特征提取获得网页文本特征。
步骤S2:提取网页用户特征
步骤S2-1:根据网页最终样本集提取网页用户信息,用户信息有QQ号、微信号、手机号、Email等信息;
步骤S2-2:根据大量网站信息整理构建网页用户特征库,并根据网页用户信息提取结果进行定期扩充更新;
步骤S2-3:将已提取的用户信息与用户特征库进行比较,识别其包含的用户信息的数量;
步骤S2-4:对识别结果进行标准化处理,得到用户特征;
步骤S3:提取网页资源特征
步骤S3-1:根据网页最终样本集提取网页资源信息,网页资源信息有有害域名、域名子串、公共外部资源、网页IP等信息;
步骤S3-2:根据大量网站信息整理构建网页资源信息特征库,并根据网页资源信息提取结果进行定期扩充更新;
步骤S3-3:将已提取的网页资源信息与网页资源信息特征库进行比较,识别其包含的网页资源信息的数量;
步骤S2-4:对识别结果进行标准化处理,得到网页资源特征;
步骤S4:用户信息和资源信息识别结果标准化处理
步骤S4-1:选取一批网站最终样本集,基于样本数据中的用户信息和资源信息分别于用户信息特征库和资源信息特征库进行匹配得到每个类别信息的原始特征x;
步骤S4-2:对每个类别信息匹配数量分别计算均值和方差σ;
步骤S4-3:根据均值和方差标准化处理得到最终特征,公式如下:
步骤S5:提取网页图片快照特征
步骤S5-1:基于有害图片配置信息进行sift特征图片相似度计算,得到有害图片相似度评分;
步骤S5-2:对图像中包含文字比较多的部分采用OCR图像文字识别技术,根据识别结果字符串与有害特征库关键词进行对比,通过对比结果来对图片进行识别分析;
步骤S5-3:对图像中包含二维码的部分进行二维码识别,根据识别结果与有害网址知识库进行对比,通过对比结果来对图片进行识别分析;
步骤S5-4:对图像中信息比较丰富部分,采用基于预训练的图片检测模型YOLOv3,进行与特定有害类别相关的物体检测;
步骤S5-5:取各个模块有害类别评分特征的最大值作为网页图片快照特征提取的结果。
根据网页多模态融合特征进行模型训练获得多模态模型,根据多模态模型对待识别网站进行识别,具体实施方式如下:
步骤S1:获得多模态融合特征
步骤S1-1:根据提取到的网页文本特征、网页用户特征、网页资源特征和网页图片快照特征进行多特征融合得到网页多模态融合特征;
步骤S2:构建多模态识别模型
步骤S2-1:构建网页多模态融合特征XGBoost初始训练模型;
步骤S2-2:基于网页多模态融合特征进行模型训练;
步骤S2-3:对模型进行调参优化并保存最终模型文件。
步骤S3:对待识别网站进行识别
步骤S3-1:提取待识别网站的多模态融合特征,对于网页文本较少的网站可以通过提取网页图片快照构建多模态融合特征;
步骤S3-2:对特征缺失部分进行特征缺值处理;
步骤S3-3:通过多模态识别模型文件对待识别网站的进行识别。
如图3所示,本发明提供一种基于多模态特征的网站识别装置,所述装置包括:
预处理模块:配置为获取待识别的网站对应的网页信息,对所述网页信息进行预处理,得到处理后的网页信息;
第一特征模块:配置为获取所述网页信息对应的词向量集,将所述词向量集输入文本分类器模型,得到对应的网页文本特征;
第二特征模块:配置为获取所述网页信息对应的用户信息,基于所述用户信息获取网页用户特征;
第三特征模块:配置为获取所述网页信息对应的网页资源信息,基于所述网页资源信息获取网页资源信息特征;
第四特征模块:配置为获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;
识别模块:配置为将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。
本发明所提供的一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述方法。
本发明所提供的一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述方法。
以上的具体实施例仅描述了本发明的设计原理,该描述中的部件形状,名称可以不同,不受限制。所以,本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换;而这些修改和替换未脱离本发明创造宗旨和技术方案,均应属于本发明的保护范围。
Claims (9)
1.一种基于多模态特征的网站识别方法,其特征在于,所述方法包括如下步骤:
步骤S1:获取待识别的网站对应的网页信息,对所述网页信息进行预处理,得到处理后的网页信息;
步骤S2:获取所述网页信息对应的词向量集,将所述词向量集输入文本分类器模型,得到对应的网页文本特征;
步骤S3:获取所述网页信息对应的用户信息,基于所述用户信息获取网页用户特征;
步骤S4:获取所述网页信息对应的网页资源信息,基于所述网页资源信息获取网页资源信息特征;
步骤S5:获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;
步骤S6:将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。
2.如权利要求1所述的方法,其特征在于,对所述网页信息进行预处理,包括:
对原始网页进行网页信息净化、近似网页删除和网页有效信息提取,提取原始网页对应的词向量集、用户信息、网页资源信息、网页图片快照。
3.如权利要求2所述的方法,其特征在于,所述步骤S2,所述文本分类器模型的结构为:所述文本分类器模型包括依次相连的短文本bert模型、双向RNN模型和Attention模块,所述短文本bert模型用于对所述词向量集提取特征,得到第一特征,所述双向RNN模型用于对所述第一特征进行特征向量提取,得到第一网页文本特征,再由Attention模块对所述第一网页文本特征进行加权处理,将注意力加权量叠加于第一网页文本特征,得到所述对应的网页文本特征。
4.如权利要求2所述的方法,其特征在于,所述步骤S3,包括:获取所述网页信息对应的用户信息,所述用户信息与预先设置的网页用户信息特征库进行匹配获得与所述用户信息对应的第一网页用户特征;对所述第一网页用户特征标准化处理得到网页用户特征;其中,所述用户信息包括QQ号信息、微信号信息、手机号信息、Email信息,与所述用户信息对应的网页用户特征分别为QQ号特征、微信号特征、手机号特征、Email特征;
所述标准化处理为:
其中,x1′为网页用户特征,x1为用户信息每个类别原始特征,为用户信息每个类别原始特征平均值,σ1为用户信息每个类别原始特征方差。
5.如权利要求2所述的方法,其特征在于,所述步骤S4,包括:获取所述网页信息对应的网页资源信息,所述网页资源信息与预先设置的网页资源信息特征库进行匹配获得与所述用户信息对应的第一网页资源信息特征;对所述第一网页资源信息特征标准化处理得到网页资源信息特征;所述网页资源信息包括网页域名信息、网页域名子串信息、网页外部资源信息、网页ip信息,与所述网页资源信息对应的网页资源特征分别为网页域名特征、网页域名子串特征、网页外部资源特征、网页ip特征;
所述标准化处理为:
其中,x2′为网页资源信息特征,x2为网页资源信息每个类别原始特征,为网页资源信息每个类别原始特征平均值,σ2为网页资源信息每个类别原始特征方差。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述步骤S5,其中,所述网页图片处理模块包括图片相似度计算子模块、文字图片识别子模块、二维码识别子模块、物体检测子模块;所述图片相似度计算子模块获取预先配置的有害图片集,提取所述网页图片快照的关键点与所述有害图片集中的各有害图片进行基于sift特征的图片相似度计算,将各个相似度值累加,得到所述网页图片快照对应的图片相似度值A1;所述文字图片识别子模块获取预先配置的有害关键词库,基于OCR文字识别对所述网页图片快照的文字部分进行文字识别,将识别出的文字与所述有害关键词库中的各有害关键词对比,得到所述网页图片快照对应的图片提取文字特征A2,所有害关键词特征库包括的有害关键词是指通过命名实体识别、新词发现得到的有害关键词;二维码识别子模块获取预先配置的有害网址知识库,将对所述网页图片快照识别出的域名子串与所述有害网址知识库中的有害域名对比,得到所述网页图片快照对应的域名识别结果特征A3,所述有害网址知识库包括的有害域名是指已识别积累的有害域名;所述物体检测子模块获取预先配置的有害物体检测模型文件,将对所述网页图片快照识别出的目标特征与所述有害物体检测模型文件中的目标特征对比,得到所述网页图片快照对应的目标检测特征A4,所述有害物体检测模型文件包括预先设定的作为有害物体的目标特征,将A1、A2、A3、A4中的最大值作为网页图片特征。
7.一种基于多模态特征的网站识别装置,其特征在于,所述装置包括:
预处理模块:配置为获取待识别的网站对应的网页信息,对所述网页信息进行预处理,得到处理后的网页信息;
第一特征模块:配置为获取所述网页信息对应的词向量集,将所述词向量集输入文本分类器模型,得到对应的网页文本特征;
第二特征模块:配置为获取所述网页信息对应的用户信息,基于所述用户信息获取网页用户特征;
第三特征模块:配置为获取所述网页信息对应的网页资源信息,基于所述网页资源信息获取网页资源信息特征;
第四特征模块:配置为获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;
识别模块:配置为将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。
8.一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-6中任一项所述方法。
9.一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-6中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061729.5A CN117194773A (zh) | 2023-08-22 | 2023-08-22 | 一种基于多模态特征的网站识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061729.5A CN117194773A (zh) | 2023-08-22 | 2023-08-22 | 一种基于多模态特征的网站识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117194773A true CN117194773A (zh) | 2023-12-08 |
Family
ID=88991586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311061729.5A Pending CN117194773A (zh) | 2023-08-22 | 2023-08-22 | 一种基于多模态特征的网站识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194773A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935292A (zh) * | 2024-03-21 | 2024-04-26 | 国家计算机网络与信息安全管理中心 | 网站标识的识别方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-22 CN CN202311061729.5A patent/CN117194773A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935292A (zh) * | 2024-03-21 | 2024-04-26 | 国家计算机网络与信息安全管理中心 | 网站标识的识别方法、装置、电子设备及存储介质 |
CN117935292B (zh) * | 2024-03-21 | 2024-05-31 | 国家计算机网络与信息安全管理中心 | 网站标识的识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN111291210B (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
US9489401B1 (en) | Methods and systems for object recognition | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111492370A (zh) | 用于识别结构化布局的文本图像的装置和方法 | |
CN112256861B (zh) | 一种基于搜索引擎返回结果的谣言检测方法及电子装置 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN111639156B (zh) | 一种基于层级标签的查询方法、装置,设备及存储介质 | |
US20160103915A1 (en) | Linking thumbnail of image to web page | |
CN117194773A (zh) | 一种基于多模态特征的网站识别方法和装置 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN109948154A (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN108897739B (zh) | 一种智能化的应用流量识别特征自动挖掘方法与系统 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN114741550B (zh) | 图像搜索方法、装置、电子设备和计算机可读存储介质 | |
KR102483004B1 (ko) | 유해 url 탐지 방법 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
CN110442759B (zh) | 一种知识检索方法及其系统、计算机设备和可读存储介质 | |
Baratis et al. | Automatic website summarization by image content: a case study with logo and trademark images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |