CN115374325A - 网站分类方法、装置、分类设备及存储介质 - Google Patents

网站分类方法、装置、分类设备及存储介质 Download PDF

Info

Publication number
CN115374325A
CN115374325A CN202210614028.9A CN202210614028A CN115374325A CN 115374325 A CN115374325 A CN 115374325A CN 202210614028 A CN202210614028 A CN 202210614028A CN 115374325 A CN115374325 A CN 115374325A
Authority
CN
China
Prior art keywords
text
image
website
data set
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210614028.9A
Other languages
English (en)
Inventor
张露晨
杨菁林
吴震
张林波
王飞
唐积强
李焱余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202210614028.9A priority Critical patent/CN115374325A/zh
Publication of CN115374325A publication Critical patent/CN115374325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种网站分类方法、装置、分类设备及存储介质,所述方法包括:在提取网站中的文本信息时,对所述文本信息进行预处理,获得文本数据集;在提取网站中的图像信息时,对所述图像信息进行预处理,获得图像数据集;对所述文本数据集进行特征提取,获得文本特征向量;对所述图像数据集进行特征提取,获得图像特征向量;基于Bert‑ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合结果,所述融合结果表征所述网站的分类结果;通过将文本信息和图像信息在Bert‑ResNet融合模型中进行融合处理,实现文本信息和图像信息互补的多模态网站分类处理,提高网站分类的准确率的技术效果。

Description

网站分类方法、装置、分类设备及存储介质
技术领域
本发明实施例涉及计算机视觉和自然语言处理两大技术研究领域,尤其涉及一种网站分类方法、装置、分类设备及存储介质。
背景技术
随着互联网的广泛普及,人们上网浏览网站的次数越来越多。但是一些恶意网站会攻击互联网系统,带来严重网络安全问题。目前网站分类检测的技术一般分为依据文本实现网站分类和依据图像进行网站分类。文本分类一般通过对网站中的文本信息进行提取和预处理,得到长文本信息,在对长文本信息进行特征提取和分类;图像分类同样通过图像特征提取,利用图像中常见的视觉特征完成网站分类。
目前,对于文本分类处理有很多神经网络的方法。比如词级别的深度卷积神经网络DPCNN,通过预激活和身份映射的快捷连接实现了深度网络的训练;使用较小的卷积和池化操作,设计基于字符级别的文本处理模型VDCNN,模型中设计了29个的卷积层,提高了模型的性能;Glove模型通过训练词之间的共现矩阵非0数据,能够在有效利用词的统计信息基础上捕捉到全局的信息,完成文本分类。针对图像分类任务,传统的方式是对图片进行手工的特征提取:尺度不变特征、关键点尺度不变特征和方向梯度直方图特征等,后期利用卷积神经网络提取特征,比如ImageNet深度学习模型,在ImageNet的基础上深入分析中间特征层的功能,利用可视化技术,结合多层反卷积网络进行图像分类训练。
然而,目前网站分类的依然存在着文本特征稀疏,提取关键词困难;图像特征由于存在大量的噪声数据,单独作为分类的特征难以实现准确分类任务;存在多模态网站分类困难,以及导致分类准确率低的问题。
发明内容
鉴于此,为解决上述多模态网站分类困难,以及导致分类准确率低的技术问题,本发明实施例提供一种网站分类方法、装置、分类设备及存储介质。
第一方面,本发明实施例提供一种网站分类方法,包括:
在提取网站中的文本信息时,对所述文本信息进行预处理,获得文本数据集;
在提取网站中的图像信息时,对所述图像信息进行预处理,获得图像数据集;
对所述文本数据集进行特征提取,获得文本特征向量;
对所述图像数据集进行特征提取,获得图像特征向量;
基于Bert-ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合结果,所述融合结果表征所述网站的分类结果。
在一种可能的实施方式中,所述文本信息进行预处理,得到文本数据集,包括:
利用Beautiful Soup工具和正则表达式规则,对所述网站中的HTML内容进行提取,得到预设的标签数据集;
基于所述标签数据集的内容,进行文本集成,获得文本数据集。
在一种可能的实施方式中,所述相应的对所述图像信息进行预处理,得到图像数据集,包括:
基于所述网站中的图像信息,进行图像过滤处理,获得准目标图像信息;
基于所述准目标图像信息进行格式归一化处理,获得目标图像信息;
对所述目标图像信息进行图像增强处理,获得图像数据集。
在一种可能的实施方式中,所述文本数据集进行特征提取,获得文本特征向量,包括:
对所述文本数据集进行数据清洗处理;
将经过数据清洗处理后的文本数据集分解为预设个数Token的长文本训练数据,所述Token为文本数据集的分解单位;
基于Bert模型对输入的所述长文本训练数据中的每一个Token内容进行拆分,以使每一个Token分解成三部分,所述三部分包括Token词嵌入部分、Segment段嵌入部分和Position位置嵌入部分;
将分解后的所述长文本训练数据的头部和尾部添加头部标识符和尾部标识符,所述头部标识符用于输出Bert模型的训练向量,所述尾部标识符用于表明Bert模型的输入位置的结尾;
通过多个Transformer层的模型训练,提取到双向上下文信息的文本特征向量组,所述文本特征向量组由预设个数Token向量组成;
经过Bert模型对所述长文本训练数据的不断训练,得到表征长文本训练数据的语义信息对应的准文本特征向量;
将所述文本特征向量作为文本特征向量组的头部标识符向量,进而获得对应的文本特征向量;
将所述文本特征向量作为Bert模型的输出向量输出。
在一种可能的实施方式中,所述图像数据集进行特征提取,获得图像特征向量,包括:
将公开图像数据集输入到残差神经网络模型中启动模型预训练;
通过所述公开图像数据集对所述残差神经网络模型进行参数调整,得到预训练的残差神经网络模型;
通过对所述预训练的残差神经网络模型不断的模型训练,获得稳定的残差神经网络模型;
基于所述稳定的残差神经网络模型输入所述图像数据集,进行模型训练,得到相应的图像训练权重;
根据所述图像训练权重,进行残差神经网络模型内部的CNN卷积网络处理,获得最优图像特征向量;
对所述最优图像特征向量进行全局最大池化层处理,获得图像特征向量;
将所述图像特征向量作为所述残差神经网络模型的输出向量输出。
在一种可能的实施方式中,基于Bert-ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合特征向量,所述融合特征向量表征所述网站的分类结果,包括:
将所述文本特征向量与所述图像特征向量进行Concatenate连接,获得相应的准融合向量;
基于Dense层,并通过Dropout层对所述准融合特征向量进行过拟合处理,得到融合特征向量;
对所述融合特征向量进行Softmax函数计算,获得对应的网站类别的预测结果;
将所述预测结果与预先设定的分类阈值比对,获得网站分类结果。
第二方面,本发明实施例提供一种网站分类装置,包括:
预处理模块,用于在提取网站中的文本信息和图像信息时,对所述文本信息进行预处理,获得文本数据集,以及对所述图像信息进行预处理,获得图像数据集;
文本提取模块,用于对所述文本数据集进行特征提取,获得文本特征向量;
图像提取模块,用于对所述图像数据集进行特征提取,获得图像特征向量;
融合模块,用于基于Bert-ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合结果,所述融合结果表征所述网站的分类结果。
第三方面,本发明实施例提供一种分类设备,所述分类设备包括:处理器和存储器,所述处理器用于执行所述存储器中存储的网站分类的控制程序,以实现第一方面中任一所述的网站分类方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一所述的网站分类方法。
本发明实施例提供的网站分类方案,通过在提取网站中的文本信息时,对文本信息进行预处理,获得文本数据集;在提取网站中的图像信息时,对图像信息进行预处理,获得图像数据集;在对文本数据集进行特征提取,获得文本特征向量;文本特征向量代表文本分类结果,对图像数据集进行特征提取,获得图像特征向量;图像特征向量代表图像分类结果,基于Bert-ResNet融合模型对获取的文本特征向量和图像特征向量进行信息融合,得到相应的融合结果,融合结果表征网站的分类结果,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的一种网站分类方法的流程示意图;
图2为本发明实施例提供的另一种网站分类方法的流程示意图;
图3为本发明实施例提供的再一种网站分类方法的流程示意图;
图4为本发明实施例提供的一种网站分类装置的结构示意图;
图5为本发明实施例提供的一种分类设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的用语“包括”和“具有”用以表示开放式的包括在内的意思,并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。此外,附图中的不同元件和区域只是示意性示出,因此本发明不限于附图中示出的尺寸或距离。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
Bert模型是指利用Transformer的编码器部分实现了双向上下文信息的提取,自从2018年提出以来一直被广泛应用,在很多任务中都取得了SOTA的效果。依赖自注意力机制在无监督的情况下对未标记的文本进行学习,通过Mask方式将“对某个单词信息的提取”转变为“对单词所在的上下文信息提取”,很好的解决了歧义问题。
ResNet-50是一种深度残差神经网络,很好的解决了网络深度加深后带来的梯度消失和梯度爆炸等问题,是目前计算机视觉领域主流的网络。ResNet-50模型涉及两种类型的基本块:identity_block和conv_block,前者用于增加网络深度,后者用于转换维度。
图1为本发明实施例提供的一种网站分类方法的流程示意图。本发明的执行主体为网站分类处理系统。根据图1提供的示图,网站分类方法具体包括:
S101、在提取网站中的文本信息时,对文本信息进行预处理,获得文本数据集。
这里说的网站可以理解为用户浏览的任意网页信息。文本信息可以理解为网站中包括的全部文本数据。预处理可以理解为通过多种处理手段,对数据进行处理,为获得模型训练的训练数据做提供基础数据。这里说的文本数据集可以理解为进行模型训练之前准备的文本训练数据。
进一步地,获取网站中的文本信息并进行存储,通过对网站中的页面信息进行解析处理,提取到网站中训练所需的文本数据,并将文本数据存储在指定的文件夹中,经过对文本预处理后,得到相应的文本数据集,作为模型训练的输入数据。
S102、在提取网站中的图像信息时,对图像信息进行预处理,获得图像数据集。
这里说的图像信息可以理解为网站中包括的全部图像数据,这里说的图像数据集可以理解为进行模型训练之前准备的图像训练数据。
进一步地,获取网站中的图像信息并进行存储,通过对网站中的页面信息进行解析处理,提取到网站中训练所需的图像数据,并将图像数据存储在指定的文件夹中,经过对图像预处理后,得到相应的图像数据集,作为模型训练的输入数据。
S103、对文本数据集进行特征提取,获得文本特征向量。
这里说的特征提取可以理解为针对文本数据集进行文本特征识别和提取,得到的表征文本的语义信息的数据。文本特征向量可以理解为通过对文本数据集特征提取,得到的文本提取结果。
进一步地,将得到文本数据集经过特征识别和提取,得到文本训练数据集,在文本训练模型中进行模型训练,得到表征文本分类的语义信息的文本特征向量。
S104、对图像数据集进行特征提取,获得图像特征向量。
这里说的特征提取可以理解为针对图像数据集进行图像特征识别和提取,得到的表征图像的像素数据。图像特征向量可以理解为通过图像数据集特征提取,得到的图像提取结果。
进一步地,将得到图像数据集经过特征识别和提取,得到图像训练数据集,在图像训练模型中进行模型训练,得到表征图像分类的图像特征向量。
S105、基于Bert-ResNet融合模型对获取的文本特征向量和图像特征向量进行信息融合,得到相应的融合结果,融合结果表征网站的分类结果。
其中,Bert-ResNet融合模型可以理解为将Bert模型和ResNet-50模型通过数据连接得到的融合模型,达到信息融合的目的。
进一步地,通过将得到的文本特征向量和图像特征向量输入到Bert-ResNet融合模型中,进行信息融合处理,得到一个融合结果,这个融合结果中包括有文本特征向量和图像特征向量的信息。再对融合结果进行多层次处理和计算,针对预先设定的网站类别进行比对,分析并判断出网站的分类结果。进而完成网站的分类识别,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
本发明实施例提供的一种网站分类方法,通过在提取网站中的文本信息时,对文本信息进行预处理,获得文本数据集;在提取网站中的图像信息时,对图像信息进行预处理,获得图像数据集;在对文本数据集进行特征提取,获得文本特征向量;文本特征向量代表文本分类结果,对图像数据集进行特征提取,获得图像特征向量;图像特征向量代表图像分类结果,基于Bert-ResNet融合模型对获取的文本特征向量和图像特征向量进行信息融合,得到相应的融合结果,融合结果表征网站的分类结果,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
参照图2,示出了本发明实施例提供的另一种网站分类方法的流程示意图。该网站分类方法是在第一种网站分类方法的基础上进行说明的。如图2所示,具体包括:
S201、利用Beautiful Soup工具和正则表达式规则,对网站中的HTML内容进行提取,得到预设的标签数据集。
这里说的标签数据集可以理解为通过实验数据分析总结出的针对网站分来具有显著比对特性的数据。
进一步地,利用Beautiful Soup工具和正则表达式规则,对网站中的HTML文档中的内容进行解析处理,并针对预先设定的文本标签数据进行内容提取,得到相应的得到标签数据集。
在一种可能的实施方式中,针对恶意网站和非恶意网站两种类别进行分类识别,利用Python及Beautiful Soup工具,以及正则规则对网页的HTML内容进行解析和内容提取,根据恶意网页中文本的内容分布,对title、h、a、span、p、table、div这七类标签的数据内容进行解析,通过全局匹配网站中相应标签的文本信息,并按照网站进行从上到下,从左到右的解析,按照同等顺序返回文本信息。考虑到恶意网站的搭建存在不规范的流程,因此本发明对网站的文本信息不进行去重、去停用词、英文提取词干去后缀等一系列预处理操作,增加恶意网站和非恶意网站的内容区分度,提高模型的识别精度。
S202、基于标签数据集的内容,进行文本集成,获得文本数据集。
这里说的文本集成可以理解为通过在文本数据之间添加逗号分隔符的处理,区分不同标签数据,在将整个标签数据集连接起来作为整体得到文本数据集。
进一步地,通过选择器选择文本信息中对应的预设的标签数据,进而提取标签数据集。在提取到标签数据集后,按照与文本信息提取相同顺序进行文本集成,得到相应的文本数据集。文本数据集可以使模型学习到网站中的文本结构数据集,通过连接文本数据集,可以得到表征文本分类的关键信息。
在一种可能的实例场景中,通过CSS选择器选择文本信息中的标签数据,将代表文本信息的标签数据连接起来,并进行文本集成,合并成一个长文本数据,用文本数据集表示,作为文本分类模型训练的输入数据进行存储。
S203、在提取网站中的图像信息时,对图像信息进行预处理,获得图像数据集。
进一步地,获取网站中的图像信息并进行存储,通过对网站中的页面信息进行解析处理,提取到网站中训练所需的图像数据,并将图像数据存储在指定的文件夹中,经过对图像预处理后,得到相应的图像数据集,作为模型训练的输入数据。
在一种可能的示例场景中,根据网站中的图像信息与网站风格相同,具有大量的语义信息,可以将网站中的图像信息中图像在网站中的具体位置作为图像信息的语义信息进行识别,提取图像信息。在对图像信息进行除噪、过滤、尺寸归一化和图像特征增强处理,得到预处理后的图像数据集,作为图像分类模型训练的训练数据进行存储。
S204、对文本数据集进行数据清洗处理。
其中,数据清洗可以理解为对文本数据进行选择性删除操作,以获得表征文本分类特征的数据集。
进一步地,在获取到文本数据集后,对文本数据集内容进行数据清洗操作,得到网站中代表文本的语义信息的文本数据集,为文本分类提供基本文本测试数据。
在一种可能的示例场景中,利用Beautiful Soup库对网站中的HTML文档内容进行解析,得到文本数据集。在得到文本数据集后,进行数据清洗处理,将网站中的除去正文文本数据集后的其他内部链接、广告文字、图文标识信息等属于无关内容,进行删除处理。
S205、将经过数据清洗处理后的文本数据集分解为预设个数Token的长文本训练数据,Token为文本数据集的分解单位。
其中Token可以理解为按照文本属性进行分解得到的最小文本数据单位。预设个数可以理解为认为设定分解个数,通过设定分解文本数据集的个数,得到对应的相同个数Token的最小文本数据。
进一步地,将文本数据集中的中文和英文分别进行分解处理,针对中文按照词义形式进行分解,针对英文按照Word Piece进行分解,将中文数据集和英文数据集分解后的总个数作为设定个数,将分解后的文本数据进行集成,对应的得到长文本训练数据,并将对应的长文本训练数据进行存储。
在一种可能的示例场景中,设定需要分类的网站类别为恶意网站和非恶意网站两种,对清洗处理后的文本数据集进行进行嵌入处理。针对文本数据集中的中文数据进行分词嵌入处理,对英文数据按照Word Piece进行嵌入处理,通过嵌入处理,分解成一个一个的Token,并且通过“#”号进行分隔,系统最多包括512个Token,在识别恶意网站和非恶意网站两种类型的实验过程中,设定Token的个数上限为256个。将分解得到的文本数据集作为长文本训练数据进行存储。
S206、基于Bert模型对输入的长文本训练数据中的每一个Token内容进行拆分,以使每一个Token分解成三部分,三部分包括Token词嵌入部分、Segment段嵌入部分和Position位置嵌入部分。
其中,Token词嵌入部分可以理解为一个Token中代表本Token的语义信息的词数据向量,Segment段嵌入部分可以理解为在一个Token中代表本Token段语义信息的段数据向量。相应的Position位置嵌入部分可以理解为表征长文本训练数据的位置信息的数据向量。
进一步地,基于Bert模型的输入特点,将长文本训练数据中的每一个Token内容生成三部分编码,用于区分Bert模型的输入模式。将每一个Token内容分解为三部分,代表词义的Token词嵌入部分,代表Token内容中文本段信息的Segment段嵌入部分和代表Token内容中的位置信息的Position位置嵌入部分,为文本分类模型训练做好准备。
在一种可能的示例场景中,通过将长文本训练数据分解成多个Token,得到对应的文本数据向量。在对每一个Token的文本数据向量进行分解,得到词数据向量对应的Token词嵌入部分、段数据向量对应的Segment段嵌入部分和位置数据向量对应的Position位置嵌入部分。在本发明实施例提供的Segment段嵌入部分对应的端数据向量默认设置成全“0”向量,用于表征一种Bert模型训练的输入模式。
S207、将分解后的长文本训练数据的头部和尾部添加头部标识符和尾部标识符,头部标识符用于输出Bert模型的训练向量,尾部标识符用于表明Bert模型的输入位置的结尾。
其中,长文本训练数据的头部可以理解为自左到右,长文本训练数据的第一地址空间的位置,长文本训练数据的尾部可以理解为长文本训练数据中自左向右的最后一位地址空间位置。在一种示例中,长文本训练数据的头部标识符可以用CLS表示,尾部标识符可以用SEP表示。
进一步地,在长文本训练数据的头部和尾部添加头部标识符和尾部标识符,头部标识符和尾部标识符分别占用一个Token空间。
S208、通过多个Transformer层的模型训练,提取到双向上下文信息的文本特征向量组,文本特征向量组由预设个数Token向量组成。
其中,双向上下文信息可以理解为在网站中文本数据集所在的从上到下、从左到右的两个方向获得的文本数据集。文本特征向量组可以理解为将长文本训练数据转化成向量数据,根据分解成的指定个数Token的文本数据集得到的文本特征向量组。
进一步地,在长文本训练数据输入到Bert模型训练中,通过多个Transformer层的模型训练,得到对应的文本特征向量组。一个Token对应一个文本特征向量,设定个数Token对应就形成了文本特征向量组。
S209、经过Bert模型对长文本训练数据的不断训练,得到表征长文本训练数据的语义信息对应的准文本特征向量。
这里说的准文本特征向量可以理解为表征长文本训练数据的语义信息。
进一步地,通过长文本训练数据在Bert模型对长文本训练数据的不断训练,得到越来越清晰的表征长文本训练数据的语义信息,将文本特征向量组中第一个位置的向量作为准文本特征向量表示,第一个位置的向量即CLS位置的向量,用来表征长文本训练数据的语义信息。
S210、将准文本特征向量作为文本特征向量组的头部标识符向量,进而获得文本特征向量。
进一步地,带有长文本训练数据的语义信息的准文本特征向量的数据作为文本特征向量组的头部标识符向量,相应的得到表征长文本训练数据的语音信息的文本特征向量。
S211、将文本特征向量作为Bert模型的输出向量输出。
其中,表征长文本训练数据的语音信息的文本特征向量作为文本分类识别的结果,通过Bert模型训练输出。
进一步地,在长文本训练数据的头部和尾部添加头部标识符和尾部标识符,头部标识符和尾部标识符分别占用一个Token空间。通过对长文本训练数据在Bert模型中训练,将文本数据的语义信息存储到头部标识符中,在模型训练到尾部标识符条件时,作为模型训练输入的结尾,停止数据的输入操作,数据输入任务结束,并且将携带有长文本训练数据的语义信息的头部标识符作为模型训练的输出向量输出。
在一种可能的示例场景中,在长文本训练数据的头部添加上CLS标识符,在尾部添加上SEP标识符,通过长文本训练数据在Bert模型上进行模型训练,将训练后表征长文本训练数据的整体语义信息保存到CLS标识符中。在模型训练输入到SEP标识符时,输入数据任务结束,输出CLS标识符的位置的向量数据,得到表征文本分类识别的文本特征向量通过Bert模型训练输出结果。
S212、对图像数据集进行特征提取,获得图像特征向量。
这里说的特征提取可以理解为针对图像数据集进行图像特征识别和提取,得到的表征图像的像素数据。图像特征向量可以理解为通过图像数据集特征提取,得到的图像提取结果。
进一步地,将得到图像数据集经过特征识别和提取,得到图像训练数据集,在图像训练模型中进行模型训练,不断识别图像数据集表达的图像信息,在模型训练结束时,得到表征图像分类的图像特征向量。
S213、将文本特征向量与图像特征向量进行Concatenate连接,获得相应的准融合特征向量。
其中,Concatenate连接可以理解为通过算法实现对文本特征向量和图像特征向量之间的数据连接,将两个向量合并成一个向量。
进一步地,通过在Concatenate中进行两个向量的数据连接,实现文本特征向量和图像特征向量之间的信息融合,合并成一个特征向量,得到相应的准融合特征向量。
S214、基于Dense层,并通过Dropout层对准融合特征向量进行过拟合处理,得到融合特征向量。
其中,Dense层可以理解为用于将文本特征向量和图像特征向量融入到同一个向量空间中,得到包含文本数据集语义信息和图像信息的向量。Dropout层可以理解为用于减少准融合特征向量过拟合的处理。
进一步地,通过文本特征向量和图像特征向量融合成准融合特征向量,将准融合特征向量融入到同一个向量空间中,保持原有的长文本训练数据的语义信息和图像数据集的图像信息不变。通过Dropout层对准融合特征向量进行过拟合处理,得到融合特征向量。
S215、对融合特征向量进行Softmax函数计算,获得对应的网站类别的预测结果。
其中,Softmax函数用于计算网站分类的预测概率值。针对多种类别的网站分类识别处理过程,相应的调整Softmax函数的参数。
进一步地,通过对对融合特征向量进行Softmax函数计算,针对向量中的数据进行函数计算,得到表征网站分类标准的预测概率值。表1为根据Softmax函数计算得到的关于Bert模型、ResNet-50模型和Bert-ResNet融合模型的预测概率值表。
表1
模型 预测概率值
Bert 0.9265
ResNet-50 0.8295
Bert-ResNet 0.9662
根据Bert模型、ResNet-50模型和Bert-ResNet融合模型三者之间的预测概率值表,可以清晰的判断出三个模型训练的分类识别准确率。
S216、将预测结果与预先设定的分类阈值比对,获得网站分类结果。
其中,预先设定的分类阈值可以理解为区分网站类别设定的数值。例如,在针对恶意网站和非恶意网站之间的分类识别过程中,可以将分类阈值设定为“1”代表恶意网站的类别,“0”代表非恶意网站的类别。
可选地,在针对多种网站类别的识别过程中,可以通过设定多个代表指定含义的分类阈值,同样实现对多种网站的分类识别处理。
在一种可能的示例场景中,假如设定网站识别类别为恶意网站和非恶意网站两种,基于Dense层,对准融合特征向量融合到同一个向量空间中;在经过Dropout层的过拟合处理,得到融合特征向量。对对对融合特征向量进行Softmax函数计算,针对向量中的数据进行函数计算,得到表征网站分类标准的预测概率值。根据预先设定的分类阈值“1”代表恶意网站的类别,“0”代表非恶意网站的类别,将函数计算得到预测概率值与1和0比对,最接近的则判断为相应的网站类别,进而完成网站分类处理,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
本发明实施例提供的网站分类方法,通过在获取网站中的文本信息和图像信息,分别经过文本预处理和图像预处理,得到相应的文本数据集和图像数据集;在对文本数据集进行特征提取,将得到的长文本训练数据输入到Bert模型中进行模型训练,得到表征文本语义信息的文本特征向量;相同地,通过将图像数据集输入到ResNet-50模型中,进行模型训练,得到相应的图像特征向量;将得到的文本特征向量和图像特征向量输入到Bert-ResNet融合模型中进行信息融合,得到相对应的融合结果,通过Softmax函数计算,得到表征网站分类的分类结果,完成对网站分类识别的处理,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
图3为本发明实施例提供的再一种网站分类方法的流程示意图。是在上述第一种实施例的基础上进行介绍的。根据图3所示内容,网站分类方法具体还包括:
S301、在提取网站中的文本信息时,对文本信息进行预处理,获得文本数据集。
这里说的网站可以理解为用户浏览的任意网页信息。文本信息可以理解为网站中包括的全部文本数据。预处理可以理解为通过多种处理手段,对数据进行处理,为获得模型训练的训练数据做提供基础数据。这里说的文本数据集可以理解为进行模型训练之前准备的文本训练数据。
进一步地,获取网站中的文本信息并进行存储,通过对网站中的页面信息进行解析处理,提取到网站中训练所需的文本数据,并将文本数据存储在指定的文件夹中,经过对文本预处理后,得到相应的文本数据集,作为模型训练的输入数据。
S302、基于网站中的图像信息,进行图像过滤处理,获得准目标图像信息。
其中,图像过滤可以理解为有用图像信息的选取过程。
进一步地,由于大部分网站中的图像信息与网站的风格相同,具有大量的语义信息,因此使用图像信息作为网站分类识别的重要因素,但通过分析网站发现,网站中存在与网站风格并无语义联系的图像信息,根据图像在网站中出现的位置,通过图像过滤处理对图像信息的语义信息进行处理。
在一种可能的实例场景中,在识别恶意网站和非恶意网站的分类识别过程中,通过获取网站中的图像信息,对图像信息所在的位置进行图像过滤;其中,网站中头部包含的图像信息大多为网站logo信息,对于恶意网站的识别并无信息增益效果。因此,对网站中头部出现的图像信息进行图像过滤处理。同样地,网站中的正文中包含的图像信息大多具有很强的语义信息,例如,网站中正文的轮播图用于展示网站的主要功能信息,网站中出现的伴有文本信息的图片大多为通往网站其他功能模块的入口,具有标识性,则不需要将正文中的图像信息进行图像过滤,将带有很强语义信息图像信息作为图像信息进行存储。对于网站中侧边栏中包含的图像信息,主要是一些推荐广告或新手提示信息,对于区分恶意网站的识别无区分度,则通过图像过滤处理掉网站中侧边栏的图像信息。
S303、基于准目标图像信息进行格式归一化处理,获得目标图像信息。
其中,格式归一化处理可以理解为对图像的尺寸进行统一格式的处理。
进一步地,网站中的图像信息的尺寸不同,在进行模型训练时需要相同的输入尺寸,因此需要将图像的尺寸统一成相同格式。可选地,图像信息的格式化尺寸可以有多种,在本发明实施例中采用将网站中的图像信息的尺寸同意缩放到224*224的像素矩阵,进而获得目标图像信息。
S304、对目标图像信息进行图像增强处理,获得图像数据集。
其中,图像增强可以理解为对图像信息中包含图像的主要语义信息的像素数据进行增强处理。
进一步地,通过对目标图像信息进行随机旋转、图像缩放与裁剪、色彩抖动等图像增强处理手段,得到表征图像信息的图像数据集。
S305、对文本数据集进行特征提取,获得文本特征向量。
这里说的特征提取可以理解为针对文本数据集进行文本特征识别和提取,得到的表征文本的语义信息的数据。文本特征向量可以理解为通过对文本数据集特征提取,得到的文本提取结果。
进一步地,将得到文本数据集经过特征识别和提取,得到文本训练数据集,在文本训练模型中进行模型训练,得到表征文本分类的语义信息的文本特征向量。
S306、将公开图像数据集输入到残差神经网络模型中启动模型预训练。
其中,残差神经网络模型为ResNet-50模型。公开图像数据集可以理解为ImageNet数据集,是一种公开的图像数据集。预训练可以理解为用大量公用数据集对模型进行训练,训练模型的最佳权重,进而得到想要的训练模型。
进一步地,将ResNet-50模型中输入公开图像数据集ImageNet,开启图像数据的预训练。
S307、通过公开图像数据集对残差神经网络模型进行参数调整,得到预训练的残差神经网络模型。
其中参数调整可以理解为一种迁移处理过程,迁移处理可以理解为将预训练模型进行复制,用于后续对网站中的图像数据集进行模型训练。
进一步地,在公开图像数据集ImageNet上进行参数调整处理,使预训练模型更加符合提取本发明实施例提供的网站中的图像数据集对应的语义信息的图像数据集。
S308、通过对预训练的残差神经网络模型不断的模型训练,获得稳定的残差神经网络模型。
进一步地,通过对预训练的残差神经网络模型不断的模型训练,使预训练模型达到稳定的ResNet-50模型。区别预训练,公开图像数据集主要处理大数量的图像数据集的模型训练,而本发明通过提取网站中的图像数据集,模型训练的图像数量远小于公开图像数据集的数据量,这也就使得通过预训练得到的ResNet-50模型更加稳定。
S309、基于稳定的残差神经网络模型输入图像数据集,进行模型训练,得到相应的图像训练权重。
其中,图像训练权重可以理解为表征图像语音信息的数据。
进一步地,将图像预处理得到的图像数据集输入到ResNet-50模型中,进行模型训练,不断的学习和抓取图像的语义信息,得到表征图像语义信息关键数据对应的图像训练权重。
S310、根据图像训练权重,进行残差神经网络模型内部的CNN卷积网络处理,获得最优图像特征向量。
其中CNN卷积网络处理可以理解为一种成熟的图像特征信息识别算法
进一步地,将得到的表征图像语义信息关键数据对应的图像训练权重进行CNN卷积网络处理,通过特征提取过程,获得最优图像特征向量。在ResNet-50的模型训练中的卷积网络处理只是模型训练中的一部分算法,模型训练中还包括其他的卷积网络算法、神经网络算法,模型训练中运用的算法不唯一,在这里不再赘述。
在一种可能的实力场景中,在获取统一格式的图像数据集后,本发明实施例中设定图像为224*224的像素矩阵,对应的图像数据集设置成256*7*7的矩阵向量,通过CNN卷积网络处理,得到一个256*1*1的最优图像特征向量。
S311、对最优图像特征向量进行全局最大池化层处理,获得图像特征向量。
其中,最大池化层处理可以理解为对得到的数据进行数据择优处理。
进一步地,通过在ResNet-50模型训练中对得到的最优图像特征向量继续宁全局最大池化层处理,得到表征图像数据集的语义信息的图像特征向量。
在一种可能的实力场景中,在分类识别恶意网站和非恶意网站两种类别过程中,设定图像数据集的尺寸为224*224的像素矩阵,对应的图像数据集设置成256*7*7的矩阵向量,通过CNN卷积网络处理,在每一个图像数据行列中分别取所在行和列中的最大值作为最优值,得到一个256*1*1的数据向量,在通过最大池化层处理,得到一个512*1*1的最优图像特征向量。
S312、将图像特征向量作为残差神经网络模型的输出向量输出。
进一步地,通过将图像数据集输入到ResNet-50模型中进行模型训练,最终得到表征图像重要语义信息的一维图像特征向量,作为ResNet-50模型的输出数据进行输出。
S313、将文本特征向量与图像特征向量进行Concatenate连接,获得相应的准融合向量。
进一步地,通过在Concatenate中进行两个向量的数据连接,实现文本特征向量和图像特征向量之间的信息融合,合并成一个特征向量,得到相应的准融合特征向量。
S314、基于Dense层,并通过Dropout层对准融合特征向量进行过拟合处理,得到融合特征向量。
其中,Dense层可以理解为用于将文本特征向量和图像特征向量融入到同一个向量空间中,得到包含文本数据集语义信息和图像信息的向量。Dropout层可以理解为用于减少准融合特征向量过拟合的处理。
进一步地,通过文本特征向量和图像特征向量融合成准融合特征向量,将准融合特征向量融入到同一个向量空间中,保持原有的长文本训练数据的语义信息和图像数据集的图像信息不变。通过Dropout层对准融合特征向量进行过拟合处理,得到融合特征向量。
S315、对融合特征向量进行Softmax函数计算,获得对应的网站类别的预测结果。
其中,Softmax函数用于计算网站分类的预测概率值。
进一步地,通过对对融合特征向量进行Softmax函数计算,针对向量中的数据进行函数计算,得到表征网站分类标准的预测概率值。表1为根据Softmax函数计算得到的关于Bert模型、ResNet-50模型和Bert-ResNet融合模型的预测概率值表。
表1
Figure BDA0003672476960000201
Figure BDA0003672476960000211
根据Bert模型、ResNet-50模型和Bert-ResNet融合模型三者之间的预测概率值表,可以清晰的判断出三个模型训练的分类识别准确率。
S316、将预测结果与预先设定的分类阈值比对,获得网站分类结果。
其中,预先设定的分类阈值可以理解为区分网站类别设定的数值。例如,在针对恶意网站和非恶意网站之间的分类识别过程中,可以将分类阈值设定为“1”代表恶意网站的类别,“0”代表非恶意网站的类别。
可选地,在针对多种网站类别的识别过程中,可以通过设定多个代表指定含义的分类阈值,同样实现对多种网站的分类识别处理。
在一种可能的示例场景中,假如设定网站识别类别为恶意网站和非恶意网站两种,基于Dense层,对准融合特征向量融合到同一个向量空间中;在经过Dropout层的过拟合处理,得到融合特征向量。对对对融合特征向量进行Softmax函数计算,针对向量中的数据进行函数计算,得到表征网站分类标准的预测概率值。根据预先设定的分类阈值“1”代表恶意网站的类别,“0”代表非恶意网站的类别,将函数计算得到预测概率值与1和0比对,最接近的则判断为相应的网站类别,进而完成网站分类处理,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
本发明实施例提供的网站分类方法,通过在获取网站中的文本信息和图像信息,分别经过文本预处理和图像预处理,得到相应的文本数据集和图像数据集;在对文本数据集进行特征提取,并输入到Bert模型中进行模型训练,得到表征文本语义信息的文本特征向量;相同地,通过将图像数据集输入到ResNet-50模型中,进行模型训练,得到相应的图像特征向量;将得到的文本特征向量和图像特征向量输入到Bert-ResNet融合模型中进行信息融合,得到相对应的融合结果,通过Softmax函数计算,得到表征网站分类的分类结果,完成对网站分类识别的处理,实现基于文本信息和图像信息的多模态网站分类,提高了网站分类的准确率的技术效果。
图4为本发明实施例提供的一种网站分类装置的结构示意图。根据图4提供的示图,网站分类装置,具体如下:
预处理模块,用于在提取网站中的文本信息和图像信息时,对文本信息进行预处理,获得文本数据集,以及对图像信息进行预处理,获得图像数据集;
文本提取模块,用于对文本数据集进行特征提取,获得文本特征向量;
图像提取模块,用于对图像数据集进行特征提取,获得图像特征向量;
融合模块,用于基于Bert-ResNet融合模型对获取的文本特征向量和图像特征向量进行信息融合,得到相应的融合结果,融合结果表征网站的分类结果。
本实施例提供的分类装置可以是如图4中所示的分类装置,可执行如图1-3中网站分类方法的所有步骤,进而实现图1-3所示网站分类方法的技术效果,具体请参照图1-3相关描述,为简洁描述,在此不作赘述。
图5为本发明实施例提供的一种分类设备的结构示意图,图5所示的分类设备500包括:至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。分类设备500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:
在提取网站中的文本信息和图像信息时,对文本信息进行预处理,获得文本数据集,以及对图像信息进行预处理,获得图像数据集;对文本数据集进行特征提取,获得文本特征向量;对图像数据集进行特征提取,获得图像特征向量;基于Bert-ResNet融合模型对获取的文本特征向量和图像特征向量进行信息融合,得到相应的融合结果,融合结果表征网站的分类结果。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的分类设备可以是如图5中所示的分类设备,可执行如图1-3中网站分类方法的所有步骤,进而实现图1-3所示网站分类方法的技术效果,具体请参照图1-3相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在分类设备侧执行的网站分类方法。
所述处理器用于执行存储器中存储的分类设备的网站分类程序,以实现以下在分类设备侧执行的网站分类方法的步骤:
在提取网站中的文本信息和图像信息时,对文本信息进行预处理,获得文本数据集,以及对图像信息进行预处理,获得图像数据集;对文本数据集进行特征提取,获得文本特征向量;对图像数据集进行特征提取,获得图像特征向量;基于Bert-ResNet融合模型对获取的文本特征向量和图像特征向量进行信息融合,得到相应的融合结果,融合结果表征网站的分类结果。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网站分类方法,其特征在于,包括:
在提取网站中的文本信息时,对所述文本信息进行预处理,获得文本数据集;
在提取网站中的图像信息时,对所述图像信息进行预处理,获得图像数据集;
对所述文本数据集进行特征提取,获得文本特征向量;
对所述图像数据集进行特征提取,获得图像特征向量;
基于Bert-ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合结果,所述融合结果表征所述网站的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述文本信息进行预处理,得到文本数据集,包括:
利用Beautiful Soup工具和正则表达式规则,对所述网站中的HTML内容进行提取,得到预设的标签数据集;
基于所述标签数据集的内容,进行文本集成,获得文本数据集。
3.根据权利要求1所述的方法,其特征在于,所述相应的对所述图像信息进行预处理,得到图像数据集,包括:
基于所述网站中的图像信息,进行图像过滤处理,获得准目标图像信息;
基于所述准目标图像信息进行格式归一化处理,获得目标图像信息;
对所述目标图像信息进行图像增强处理,获得图像数据集。
4.根据权利要求1所述的方法,其特征在于,所述文本数据集进行特征提取,获得文本特征向量,包括:
对所述文本数据集进行数据清洗处理;
将经过数据清洗处理后的文本数据集分解为预设个数Token的长文本训练数据,所述Token为文本数据集的分解单位;
基于Bert模型对输入的所述长文本训练数据中的每一个Token内容进行拆分,以使每一个Token分解成三部分,所述三部分包括Token词嵌入部分、Segment段嵌入部分和Position位置嵌入部分;
将分解后的所述长文本训练数据的头部和尾部添加头部标识符和尾部标识符,所述头部标识符用于输出Bert模型的训练向量,所述尾部标识符用于表明Bert模型的输入位置的结尾;
通过多个Transformer层的模型训练,提取到双向上下文信息的文本特征向量组,所述文本特征向量组由预设个数Token向量组成;
经过Bert模型对所述长文本训练数据的不断训练,得到表征长文本训练数据的语义信息对应的准文本特征向量;
将所述准文本特征向量作为文本特征向量组的头部标识符向量,进而获得对应的文本特征向量;
将所述文本特征向量作为Bert模型的输出向量输出。
5.根据权利要求1所述的方法,其特征在于,所述图像数据集进行特征提取,获得图像特征向量,包括:
将公开图像数据集输入到残差神经网络模型中进启动模型预训练;
通过所述公开图像数据集对所述残差神经网络模型进行参数调整,得到预训练的残差神经网络模型;
通过对所述预训练的残差神经网络模型不断的模型训练,获得稳定的残差神经网络模型;
基于所述稳定的残差神经网络模型输入所述图像数据集,进行模型训练,得到相应的图像训练权重;
根据所述图像训练权重,进行残差神经网络模型内部的CNN卷积网络处理,获得最优图像特征向量;
对所述最优图像特征向量进行全局最大池化层处理,获得图像特征向量;
将所述图像特征向量作为所述残差神经网络模型的输出向量输出。
6.根据权利要求1所述的方法,其特征在于,基于Bert-ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合特征向量,所述融合特征向量表征所述网站的分类结果,包括:
将所述文本特征向量与所述图像特征向量进行Concatenate连接,获得相应的准融合向量;
基于Dense层,并通过Dropout层对所述准融合特征向量进行过拟合处理,得到融合特征向量;
对所述融合特征向量进行Softmax函数计算,获得对应的网站类别的预测结果;
将所述预测结果与预先设定的分类阈值比对,获得网站分类结果。
7.一种网站分类装置,其特征在于,包括:
预处理模块,用于在提取网站中的文本信息时,对所述文本信息进行预处理,获得文本数据集;
预处理模块,还用于在提取网站中的图像信息时,对所述图像信息进行预处理,获得图像数据集;
文本提取模块,用于对所述文本数据集进行特征提取,获得文本特征向量;
图像提取模块,用于对所述图像数据集进行特征提取,获得图像特征向量;
融合模块,用于基于Bert-ResNet融合模型对获取的所述文本特征向量和所述图像特征向量进行信息融合,得到相应的融合结果,所述融合结果表征所述网站的分类结果。
8.一种分类设备,其特征在于,所述分类设备包括:处理器和存储器,所述处理器用于执行所述存储器中存储的网站分类的控制程序,以实现权利要求1~6中任一项所述的网站分类方法。
9.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~6中任一项所述的网站分类方法。
CN202210614028.9A 2022-05-31 2022-05-31 网站分类方法、装置、分类设备及存储介质 Pending CN115374325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210614028.9A CN115374325A (zh) 2022-05-31 2022-05-31 网站分类方法、装置、分类设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210614028.9A CN115374325A (zh) 2022-05-31 2022-05-31 网站分类方法、装置、分类设备及存储介质

Publications (1)

Publication Number Publication Date
CN115374325A true CN115374325A (zh) 2022-11-22

Family

ID=84062314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210614028.9A Pending CN115374325A (zh) 2022-05-31 2022-05-31 网站分类方法、装置、分类设备及存储介质

Country Status (1)

Country Link
CN (1) CN115374325A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116248415A (zh) * 2023-05-11 2023-06-09 北京匠数科技有限公司 网址的判别方法及装置
CN116796251A (zh) * 2023-08-25 2023-09-22 江苏省互联网行业管理服务中心 一种基于图文多模态的不良网站分类方法、系统及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116248415A (zh) * 2023-05-11 2023-06-09 北京匠数科技有限公司 网址的判别方法及装置
CN116248415B (zh) * 2023-05-11 2023-08-15 北京匠数科技有限公司 网址的判别方法及装置
CN116796251A (zh) * 2023-08-25 2023-09-22 江苏省互联网行业管理服务中心 一种基于图文多模态的不良网站分类方法、系统及设备

Similar Documents

Publication Publication Date Title
Singh Optical character recognition techniques: a survey
Arai et al. Method for real time text extraction of digital manga comic
Jain et al. Unconstrained scene text and video text recognition for arabic script
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN115374325A (zh) 网站分类方法、装置、分类设备及存储介质
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
Chen et al. Information extraction from resume documents in pdf format
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN114596566B (zh) 文本识别方法及相关装置
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN110909531A (zh) 信息安全的甄别方法、装置、设备及存储介质
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113672731A (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
Al Ghamdi A novel approach to printed Arabic optical character recognition
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
Ko et al. Approach for Machine-Printed Arabic Character Recognition: the-state-of-the-art deep-learning method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination