CN115310019A - 一种网页分类方法、装置、电子设备及存储介质 - Google Patents

一种网页分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115310019A
CN115310019A CN202211027625.8A CN202211027625A CN115310019A CN 115310019 A CN115310019 A CN 115310019A CN 202211027625 A CN202211027625 A CN 202211027625A CN 115310019 A CN115310019 A CN 115310019A
Authority
CN
China
Prior art keywords
webpage
processed
neural network
network model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211027625.8A
Other languages
English (en)
Inventor
姚剑文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202211027625.8A priority Critical patent/CN115310019A/zh
Publication of CN115310019A publication Critical patent/CN115310019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种网页分类方法、装置、电子设备及存储介质,该方法包括:提取出待处理网页中的关键词,获得关键词集合;对关键词集合和待处理网页进行编码,获得编码文本表示;使用训练后的神经网络模型对编码文本表示进行预测,获得待处理网页的网页类别。通过提取出待处理网页中的关键词,并对待处理网页对应的关键词集合和待处理网页进行编码,然后通过神经网络模型根据编码文本表示预测出待处理网页的网页类别,使得训练后的神经网络模型能够更加关注到关键词集合中的关键词提示信息,有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。

Description

一种网页分类方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机数据处理、深度学习和神经网络的技术领域,具体而言,涉及一种网页分类方法、装置、电子设备及存储介质。
背景技术
目前,网页分类通常是采用传统的网页分类模型来进行分类的,此处的网页分类模型例如:由卷积层(convolution)和归一化指数函数层(softmax)构成的神经网络模型。使用传统的网页分类模型对网页文本进行分类的具体过程例如:使用卷积层(convolution)提取网页文本的文本特征,并采用归一化指数函数层对文本特征进行分类计算,获得该网页文本的具体类别。然而在具体的实施过程中发现,通过卷积层提取网页文本的文本特征来进行网页分类的准确率较低。
发明内容
本申请实施例的目的在于提供一种网页分类方法、装置、电子设备及存储介质,用于改善网页分类的准确率较低的问题。
本申请实施例提供了一种网页分类方法,包括:提取出待处理网页中的关键词,获得关键词集合;对关键词集合和待处理网页进行编码,获得编码文本表示;使用训练后的神经网络模型对编码文本表示进行预测,获得待处理网页的网页类别。在上述方案的实现过程中,通过提取出待处理网页中的关键词,并对待处理网页对应的关键词集合和待处理网页进行编码,然后通过神经网络模型根据编码文本表示预测出待处理网页的网页类别,从而避免了仅使用卷积层提取的文本特征来进行网页分类的情况,由于上述训练后的神经网络模型能够更加关注到关键词集合中的关键词提示信息,有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
可选地,在本申请实施例中,提取出待处理网页中的关键词,包括:获取待处理的网页链接,并访问网页链接对应的网页文本,获得待处理网页;对待处理网页进行关键词提取,获得待处理网页中的关键词。在上述方案的实现过程中,通过访问网页链接对应的网页文本,获得待处理网页,并对待处理网页进行关键词提取,从而避免了仅使用卷积层提取的文本特征来进行网页分类的情况,有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
可选地,在本申请实施例中,对关键词集合和待处理网页进行编码,包括:计算出关键词集合中的每个关键词权重;根据关键词权重对关键词集合进行排序,获得排序后的关键词集合;对排序后的关键词集合和待处理网页进行编码。在上述方案的实现过程中,通过根据关键词权重对关键词集合进行排序,并对排序后的关键词集合和待处理网页进行编码,有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
可选地,在本申请实施例中,神经网络模型包括:自注意力网络和全连接层;使用训练后的神经网络模型对编码文本表示进行预测,获得待处理网页的网页类别,包括:使用自注意力网络提取编码文本表示中的文本分类特征;使用全连接层对文本分类特征进行分类,获得待处理网页的网页类别。在上述方案的实现过程中,通过使用自注意力网络提取编码文本表示中的文本分类特征,并使用全连接层对文本分类特征进行分类,从而使得神经网络模型拥有更强的自注意力,有效地注意到和利用关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
可选地,在本申请实施例中,在使用训练后的神经网络模型对编码文本表示进行预测之前,还包括:获取多个样本文本和多个样本标签,样本标签是样本文本的网页类别标签;以多个样本文本为训练数据,以多个样本标签为训练标签,对神经网络模型进行训练,获得训练后的神经网络模型。
可选地,在本申请实施例中,对神经网络模型进行训练,包括:提取出样本文本中的关键词,获得样本文本对应的关键词集合;对样本文本对应的关键词集合和样本文本进行编码,获得编码文本表示;使用神经网络模型对编码文本表示进行预测,获得预测样本类别;根据预测样本类别与样本标签之间的损失值对神经网络模型进行训练。在上述方案的实现过程中,通过关键词集合得到预测样本类别与样本标签之间的损失值对神经网络模型进行训练,使得神经网络模型能够更加关注到关键词集合中的关键词提示信息,有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
可选地,在本申请实施例中,神经网络模型包括:BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型。
本申请实施例还提供了一种网页分类装置,包括:关键词语提取模块,用于提取出待处理网页中的关键词,获得关键词集合;编码文本获得模块,用于对关键词集合和待处理网页进行编码,获得编码文本表示;网页类别预测模块,用于使用训练后的神经网络模型对编码文本表示进行预测,获得待处理网页的网页类别。
可选地,在本申请实施例中,关键词语提取模块,包括:待处理网页获取子模块,用于获取待处理的网页链接,并访问网页链接对应的网页文本,获得待处理网页;网页关键词提取子模块,用于对待处理网页进行关键词提取,获得待处理网页中的关键词。
可选地,在本申请实施例中,编码文本获得模块,包括:关键词权重计算子模块,用于计算出关键词集合中的每个关键词权重;关键词集合排序子模块,用于根据关键词权重对关键词集合进行排序,获得排序后的关键词集合;关键词集合编码子模块,用于对排序后的关键词集合和待处理网页进行编码。
可选地,在本申请实施例中,神经网络模型包括:自注意力网络和全连接层;网页类别预测模块,包括:文本特征提取子模块,用于使用自注意力网络提取编码文本表示中的文本分类特征;文本特征分类子模块,用于使用全连接层对文本分类特征进行分类,获得待处理网页的网页类别。
可选地,在本申请实施例中,网页分类装置,还包括:文本标签获取模块,用于获取多个样本文本和多个样本标签,样本标签是样本文本的网页类别标签;网络模型训练模块,用于以多个样本文本为训练数据,以多个样本标签为训练标签,对神经网络模型进行训练,获得训练后的神经网络模型。
可选地,在本申请实施例中,网络模型训练模块,包括:关键词集合获得子模块,用于提取出样本文本中的关键词,获得样本文本对应的关键词集合;关键词样本编码子模块,用于对样本文本对应的关键词集合和样本文本进行编码,获得编码文本表示;样本类别预测子模块,用于使用神经网络模型对编码文本表示进行预测,获得预测样本类别;网络模型训练子模块,用于根据预测样本类别与样本标签之间的损失值对神经网络模型进行训练。
可选地,在本申请实施例中,神经网络模型包括:BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
本申请实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请实施例中的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的网页分类方法的流程示意图;
图2示出的本申请实施例提供的对编码文本表示进行预测的示意图;
图3示出的本申请实施例提供的训练神经网络模型的示意图;
图4示出的本申请实施例提供的网页分类装置的结构示意图;
图5示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例中的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围,而是仅仅表示本申请实施例中的选定实施例。基于本申请实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
可以理解的是,本申请实施例中的“第一”、“第二”用于区别类似的对象。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在介绍本申请实施例提供的网页分类方法之前,先介绍本申请实施例中所涉及的一些概念:
神经网络(Neural Network,NN),又被称为人工神经网络(Artificial NeuralNetwork,ANN)或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(例如:动物的中枢神经系统,可以是大脑)的结构和功能的计算模型,人工神经网络用于对函数进行估计或近似。
需要说明的是,本申请实施例提供的网页分类方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
下面介绍该网页分类方法适用的应用场景,这里的应用场景包括但不限于:使用该网页分类方法对关注的网页(例如新闻网页、最新研究动态网页和学术论文网页等等)进行分类,使用该网页分类方法可以提高对网页中的关键词提示信息的关注度权重,从而有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
请参见图1示出的本申请实施例提供的网页分类方法的流程示意图;本申请实施例提供了一种网页分类方法,包括:
步骤S110:提取出待处理网页中的关键词,获得关键词集合。
待处理网页,是指需要进行分类的网页文本,此处的待处理网页可以是通过超文本传输协议(Hyper Text Transfer Protocol,HTTP)获取的网页,也可以是通过超文本传输安全协议(Hyper Text Transfer Protocol Secure,HTTPS)获取的网页。
可以理解的是,由于不同的待处理网页具有不同的文本内容,因此,需要提取出每个待处理网页所对应的关键词,此处的待处理网页可以是已经过数据清洗后的网页,也可以是未经过数据清洗后的网页,数据清理具体例如:经过分词、去除网页文本中的特殊字符和停用词等等,从而获得待处理网页。
步骤S120:对关键词集合和待处理网页进行编码,获得编码文本表示。
编码文本表示,是指对关键词集合和待处理网页进行编码后的文本表示(向量或者文字token),此处的编码方式有很多种,例如:采用双向编码表示变形器(BidirectionalEncoder Representations from Transformers,BERT)模型或者双向和自回归变形器(Bidirectional and Auto-Regressive Transformers,BART)模型等等基于Transform结构的预训语言模型对关键词集合和待处理网页进行编码。
步骤S130:使用训练后的神经网络模型对编码文本表示进行预测,获得待处理网页的网页类别。
可以理解的是,上述训练后的神经网络模型还可以是基于自注意力机制的神经网络模型,因此能够让神经网络模型能够更加关注到关键词集合中的关键词提示信息,有效地利用了关键词提示信息来预测出待处理网页的网页类别。
在上述的实现过程中,通过提取出待处理网页中的关键词,并对待处理网页对应的关键词集合和待处理网页进行编码,然后通过神经网络模型根据编码文本表示预测出待处理网页的网页类别,从而避免了仅使用卷积层提取的文本特征来进行网页分类的情况,由于上述训练后的神经网络模型能够更加关注到关键词集合中的关键词提示信息,有效地利用了关键词提示信息来预测出待处理网页的网页类别,极大地提高了网页分类的准确率。
作为上述步骤S110的一种可选实施方式,提取出待处理网页中的关键词的实施方式可以包括:
步骤S111:获取待处理的网页链接,并访问网页链接对应的网页文本,获得待处理网页。
网页链接,是指网页文本中的统一资源定位符(Uniform Resource Locator,URL)链接,通过URL链接可以直接访问其对应的网页文本,从而获得待处理网页。
上述步骤S111中的网页链接的获取方式例如:第一种获得方式,接收其它终端设备发送的网页链接,将网页链接存储至文件系统、数据库或移动存储设备中;第二种获得方式,获取预先存储的网页链接,具体例如:从文件系统、数据库或移动存储设备中获取网页链接;第三种获得方式,使用浏览器等软件获取互联网上的网页链接,或者,使用其它应用程序访问已有的知识库网页,从而获得网页链接。
上述步骤S111中的访问网页链接对应的网页文本的实施方式例如:使用爬虫软件访问网页链接对应的网页文本,或者,使用预设编程语言编译或者解释的可执行程序控制浏览器来访问网页链接对应的网页文本,可以使用的编程语言例如:C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等等。可选地,在访问网页链接对应的网页文本之后,还可以进行数据清洗,具体例如:经过分词、去除网页文本中的特殊字符和停用词等等,从而获得待处理网页。
步骤S112:对待处理网页进行关键词提取,获得待处理网页中的关键词。
上述步骤S112的实施方式例如:使用TextRank关键词提取算法对待处理网页进行关键词提取,获得待处理网页中的关键词,其中,TextRank关键词提取算法是基于PageRank算法衍生而来的。
作为上述步骤S120的一种可选实施方式,对关键词集合和待处理网页进行编码的实施方式包括:
步骤S121:计算出关键词集合中的每个关键词权重。
上述的步骤S121的实施方式例如:使用TextRank关键词提取算法计算出关键词集合中的每个关键词权重。其中,TextRank关键词提取算法是基于PageRank算法衍生而来的,该算法的主要思想是构造一个有权无向图,词语是图中的节点,采用共现关系构造词语与词语之间的边,然后,使用TextRank公式
Figure BDA0003816200720000091
进行迭代传播,直至收敛,即为关键词权重。其中,TextRank公式中右边的WS(Vi)表示关键词集合中第i个关键词的权重,
Figure BDA0003816200720000092
表示第j个相邻关键词对当前第i个关键词的贡献程度,在关键词集合中可以粗略地认为所有关键词均是相邻的,Wji表示两个关键词之间的相似度,TextRank公式中左边的WS(Vj)表示上次迭代出来第j个关键词的权重,d是阻尼系数,可以根据具体情况设置,例如将阻尼系数设置为0.85等等。
步骤S122:根据关键词权重对关键词集合进行排序,获得排序后的关键词集合。
上述步骤S122的实施方式例如:假设提取后的关键词和关键词权重分别是[K1:45,K2:65,K3:88],根据提取后的关键词权重从大到小依次对关键词集合进行排序,获得排序后的关键词集合是[K3,K2,K1]。
步骤S123:对排序后的关键词集合和待处理网页进行编码,获得编码文本表示。
上述步骤S123的实施方式例如:假设排序后的关键词集合可以表示为[K3,K2,K1],且待处理网页是[x1,x2,x3],那么可以先对排序后的关键词集合[K3,K2,K1]和待处理网页[x1,x2,x3]进行拼接,获得拼接后的字符串可以表示为[[CLS],K3,K2,K1,[TEXT],x1,x2,x3]],其中,[CLS]表示用于分类的特征向量开始标志符,[K3,K2,K1]表示关键词集合,[TEXT]表示待处理文本的开始标志符,当然[TEXT]也可以表示为用于分割关键词集合和待处理文本的分隔符,[x1,x2,x3]表示待处理网页在数据清洗后且未分词之前的文本。然后,对拼接后的字符串进行编码,获得编码文本表示可以表示为Encoder([CLS],K3,K2,K1,[TEXT],x1,x2,x3])。
请参见图2示出的本申请实施例提供的对编码文本表示进行预测的示意图;作为上述步骤S130的一种可选实施方式,上述的神经网络模型可以包括:自注意力网络和全连接层;使用训练后的神经网络模型对编码文本表示进行预测的实施方式可以包括:
步骤S131:使用神经网络模型中的自注意力网络提取编码文本表示中的文本分类特征。
自注意力网络,是指基于自注意力机制且用于提取编码文本表示中的文本分类特征的人工神经网络,此处的自注意力网络可以采用BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型等等。
上述步骤S131的实施方式包括:使用神经网络模型中的BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型等等自注意力网络提取编码文本表示中的文本分类特征,其中,文本分类特征可以包括:ClS特征向量和TEXT特征向量。
步骤S132:使用神经网络模型中的全连接层对文本分类特征进行分类,获得待处理网页的网页类别。
可以理解的是,上述神经网络模型中的全连接层是一个线性分类器(LinearClassifier),在具体的实践过程中,也可以采用其它分类器来进行分类,例如采用归一化指数函数(Softmax)来进行分类等等。
上述步骤S132的实施方式例如:使用神经网络模型中的全连接层对ClS特征向量和TEXT特征向量等等文本分类特征进行分类,获得待处理网页的网页类别。
请参见图3示出的本申请实施例提供的训练神经网络模型的示意图;作为上述网页分类方法的一种可选实施方式,在使用训练后的神经网络模型之前或者之后,还可以训练神经网络模型,该实施方式可以包括:
步骤S210:获取多个样本文本和多个样本标签,样本标签是样本文本的网页类别标签。
上述的多个样本文本和多个样本标签可以分开获取,具体例如:人工的搜集多个样本文本,并人工地识别多个样本文本的多个样本标签;当然,也可以将多个样本文本和多个样本标签打包为训练数据集一起获取,这里以训练数据集一起获取为例进行说明。
上述步骤S210的实施方式例如:第一种实施方式,接收其它终端设备发送的训练数据集,将训练数据集存储至文件系统、数据库或移动存储设备中;第二种实施方式,获取预先存储的训练数据集,具体例如:从文件系统、数据库或移动存储设备中获取训练数据集;第三种实施方式,使用浏览器等软件获取互联网上的训练数据集,或者使用其它应用程序访问互联网获得训练数据集。
步骤S220:以多个样本文本为训练数据,以多个样本标签为训练标签,对神经网络模型进行训练,获得训练后的神经网络模型。
作为上述步骤S220的一种可选实施方式,对神经网络模型进行训练,包括:
步骤S221:提取出样本文本中的关键词,获得样本文本对应的关键词集合。
步骤S222:对样本文本对应的关键词集合和样本文本进行编码,获得编码文本表示。
步骤S223:使用神经网络模型对编码文本表示进行预测,获得预测样本类别。
其中,该步骤S221至步骤S223的实施原理和实施方式与步骤S110至步骤S130的实施原理和实施方式是类似的,因此,这里不再说明其实施原理和实施方式,如有不清楚的地方,可以参考对步骤S110至步骤S130的描述。
步骤S224:根据预测样本类别与样本标签之间的损失值对神经网络模型进行训练,获得训练后的神经网络模型。
上述步骤S224的实施方式例如:使用交叉熵损失函数计算预测样本类别与样本标签之间的损失值,再根据该损失值更新神经网络模型的网络权重参数,直到神经网络模型的正确率不再升高或者训练轮数(epoch)数量大于预设阈值时,即可获得训练后的神经网络模型。其中,上述的预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等等。
作为上述网页分类方法的一种可选实施方式,上述的神经网络模型包括但不限于:BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型等等基于transformer结构的网络模型。也就是说,神经网络模型中的自注意力网络可以采用BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型等等基于transformer结构的网络模型。
请参见图4示出的本申请实施例提供的网页分类装置的结构示意图;本申请实施例提供了一种网页分类装置300,包括:
关键词语提取模块310,用于提取出待处理网页中的关键词,获得关键词集合。
编码文本获得模块320,用于对关键词集合和待处理网页进行编码,获得编码文本表示。
网页类别预测模块330,用于使用训练后的神经网络模型对编码文本表示进行预测,获得待处理网页的网页类别。
可选地,在本申请实施例中,关键词语提取模块,包括:
待处理网页获取子模块,用于获取待处理的网页链接,并访问网页链接对应的网页文本,获得待处理网页。
网页关键词提取子模块,用于对待处理网页进行关键词提取,获得待处理网页中的关键词。
可选地,在本申请实施例中,编码文本获得模块,包括:
关键词权重计算子模块,用于计算出关键词集合中的每个关键词权重。
关键词集合排序子模块,用于根据关键词权重对关键词集合进行排序,获得排序后的关键词集合。
关键词集合编码子模块,用于对排序后的关键词集合和待处理网页进行编码。
可选地,在本申请实施例中,神经网络模型包括:自注意力网络和全连接层;网页类别预测模块,包括:
文本特征提取子模块,用于使用自注意力网络提取编码文本表示中的文本分类特征。
文本特征分类子模块,用于使用全连接层对文本分类特征进行分类,获得待处理网页的网页类别。
可选地,在本申请实施例中,网页分类装置,还包括:
文本标签获取模块,用于获取多个样本文本和多个样本标签,样本标签是样本文本的网页类别标签。
网络模型训练模块,用于以多个样本文本为训练数据,以多个样本标签为训练标签,对神经网络模型进行训练,获得训练后的神经网络模型。
可选地,在本申请实施例中,网络模型训练模块,包括:
关键词集合获得子模块,用于提取出样本文本中的关键词,获得样本文本对应的关键词集合。
关键词样本编码子模块,用于对样本文本对应的关键词集合和样本文本进行编码,获得编码文本表示。
样本类别预测子模块,用于使用神经网络模型对编码文本表示进行预测,获得预测样本类别。
网络模型训练子模块,用于根据预测样本类别与样本标签之间的损失值对神经网络模型进行训练。
可选地,在本申请实施例中,神经网络模型包括:BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型。
应理解的是,该装置与上述的网页分类方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质430,该计算机可读存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,计算机可读存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种网页分类方法,其特征在于,包括:
提取出待处理网页中的关键词,获得关键词集合;
对所述关键词集合和所述待处理网页进行编码,获得编码文本表示;
使用训练后的神经网络模型对所述编码文本表示进行预测,获得所述待处理网页的网页类别。
2.根据权利要求1所述的方法,其特征在于,所述提取出待处理网页中的关键词,包括:
获取待处理的网页链接,并访问所述网页链接对应的网页文本,获得所述待处理网页;
对所述待处理网页进行关键词提取,获得所述待处理网页中的关键词。
3.根据权利要求1所述的方法,其特征在于,所述对所述关键词集合和所述待处理网页进行编码,包括:
计算出所述关键词集合中的每个关键词权重;
根据所述关键词权重对所述关键词集合进行排序,获得排序后的关键词集合;
对所述排序后的关键词集合和所述待处理网页进行编码。
4.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括:自注意力网络和全连接层;所述使用训练后的神经网络模型对所述编码文本表示进行预测,获得所述待处理网页的网页类别,包括:
使用所述自注意力网络提取所述编码文本表示中的文本分类特征;
使用所述全连接层对所述文本分类特征进行分类,获得所述待处理网页的网页类别。
5.根据权利要求1所述的方法,其特征在于,在所述使用训练后的神经网络模型对所述编码文本表示进行预测之前,还包括:
获取多个样本文本和多个样本标签,所述样本标签是所述样本文本的网页类别标签;
以所述多个样本文本为训练数据,以所述多个样本标签为训练标签,对所述神经网络模型进行训练,获得所述训练后的神经网络模型。
6.根据权利要求5所述的方法,其特征在于,所述对所述神经网络模型进行训练,包括:
提取出样本文本中的关键词,获得所述样本文本对应的关键词集合;
对所述样本文本对应的关键词集合和样本文本进行编码,获得编码文本表示;
使用神经网络模型对所述编码文本表示进行预测,获得预测样本类别;
根据所述预测样本类别与所述样本标签之间的损失值对所述神经网络模型进行训练。
7.根据权利要求1-6任一所述的方法,其特征在于,所述神经网络模型包括:BERT模型、RoBERTa模型和、SentenceBERT模型或BART模型。
8.一种网页分类装置,其特征在于,包括:
关键词语提取模块,用于提取出待处理网页中的关键词,获得关键词集合;
编码文本获得模块,用于对所述关键词集合和所述待处理网页进行编码,获得编码文本表示;
网页类别预测模块,用于使用训练后的神经网络模型对所述编码文本表示进行预测,获得所述待处理网页的网页类别。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202211027625.8A 2022-08-25 2022-08-25 一种网页分类方法、装置、电子设备及存储介质 Pending CN115310019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211027625.8A CN115310019A (zh) 2022-08-25 2022-08-25 一种网页分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211027625.8A CN115310019A (zh) 2022-08-25 2022-08-25 一种网页分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115310019A true CN115310019A (zh) 2022-11-08

Family

ID=83863857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211027625.8A Pending CN115310019A (zh) 2022-08-25 2022-08-25 一种网页分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115310019A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640402A (zh) * 2022-12-22 2023-01-24 国网天津市电力公司营销服务中心 多任务人工智能的审计意见生成方法、装置及可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640402A (zh) * 2022-12-22 2023-01-24 国网天津市电力公司营销服务中心 多任务人工智能的审计意见生成方法、装置及可读介质
CN115640402B (zh) * 2022-12-22 2023-04-07 国网天津市电力公司营销服务中心 多任务人工智能的审计意见生成方法、装置及可读介质

Similar Documents

Publication Publication Date Title
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN110781669A (zh) 文本关键信息提取方法与装置、电子设备、存储介质
CN115408525A (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN115310019A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN114691525A (zh) 测试用例的选择方法及装置
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN113449816A (zh) 网址分类模型训练、网址分类方法、装置、设备及介质
CN112508178A (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
CN115563626B (zh) 一种面向cve的漏洞可利用性预测方法
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN115099344A (zh) 模型训练方法和装置、用户画像生成方法和装置、设备
CN110569030A (zh) 代码推荐方法及装置
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN114661909A (zh) 意图识别模型训练方法、装置、电子设备及存储介质
KR102098461B1 (ko) 퍼지 범주 표현을 이용한 확률 레이블 부착 알고리즘을 사용한 분류 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination