CN109977327A - 一种网页分类方法及装置 - Google Patents
一种网页分类方法及装置 Download PDFInfo
- Publication number
- CN109977327A CN109977327A CN201910212057.0A CN201910212057A CN109977327A CN 109977327 A CN109977327 A CN 109977327A CN 201910212057 A CN201910212057 A CN 201910212057A CN 109977327 A CN109977327 A CN 109977327A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- sorted
- trained
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种网页分类方法及装置,涉及通信技术领域,可以解决现有技术的网页分类方法无法兼顾实现复杂度与分类效果的问题。本申请实施例的方案包括:根据待分类网页中的文字内容和待分类网页的关联页面中的文字内容确定待分类网页的网页代表词,待分类网页的关联页面为待分类网页中的链接对应的页面,然后生成待分类网页的网页代表词对应的词向量矩阵,将待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据网页分类模型的输出结果确定待分类网页所属的类型。
Description
技术领域
本申请涉及通信技术领域,特别是涉及一种网页分类方法及装置。
背景技术
在网络安全监控和分析时,需要监控用户访问了哪些网页,以及用户访问的网页的所属类别,例如判断用户访问的网页属于新闻网页、视频网页还是论坛网页等,从而根据这些信息分析用户的行为特征。
传统的网页分类方法为人工提前对已知的网页进行分类(例如将常用的1000个网页进行人工分类),并将分类结果保存在数据库中。后续当监控到用户访问网页时,可将用户访问的网页与数据库中存储的网页进行对比,从而确定用户访问的网页所属的类别。然而这种方法需要消耗大量的人力,且通过人工难以预先采集到足够多的网页,进而无法对未保存在数据库中的网页进行分类,所以现有技术的网页分类方法无法兼顾实现复杂度与分类效果。
发明内容
有鉴于此,本申请实施例提供一种网页分类方法及装置,以解决现有技术的网页分类方法无法兼顾实现复杂度与分类效果的问题。具体技术方案如下:
第一方面,本申请实施例提供一种网页分类方法,包括:
根据待分类网页中的文字内容和所述待分类网页的关联页面中的文字内容确定所述待分类网页的网页代表词,所述待分类网页的关联页面为所述待分类网页中的链接对应的页面;
生成所述待分类网页的网页代表词对应的词向量矩阵;
将所述待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据所述网页分类模型的输出结果确定所述待分类网页所属的类型。
在一种可能的实现方式中,所述根据待分类网页中的文字内容和所述待分类网页的关联页面中的文字内容确定所述待分类网页的网页代表词,包括:
对所述待分类网页中的文字内容进行分词操作;
对所述待分类网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待分类网页中的TF-IDF权重最高的第一预设数量的词以及所述待分类网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待分类网页的网页代表词。
在一种可能的实现方式中,所述生成所述待分类网页的网页代表词对应的词向量矩阵,包括:
分别将所述待分类网页的每个网页代表词转换为长度相同的词向量;
将所述待分类网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待分类网页的网页代表词的数量,M为单个词向量的长度。
在一种可能的实现方式中,根据所述网页分类模型的输出结果确定所述待分类网页所属的类型,包括:
获取所述网页分类模型的输出结果,所述输出结果为所述待分类网页属于各类型的概率;
确定所述待分类网页对应的概率最大的类型为所述待分类网页所属的类型。
在一种可能的实现方式中,所述网页分类模型为基于预设训练集进行训练得到的,所述预设训练集包括各已知类型的待训练网页。
第二方面,本申请实施例提供一种网页分类方法,包括:
根据预设训练集中待训练网页中的文字内容和所述待训练网页的关联页面中的文字内容确定所述待训练网页的网页代表词,所述预设训练集包括各已知类型的待训练网页,所述待训练网页的关联页面为所述待训练网页中的链接对应的页面;
生成所述待训练网页的网页代表词对应的词向量矩阵;
将所述待训练网页的网页代表词对应的词向量矩阵输入深度学习模型,将所述深度学习模型训练为所述网页分类模型。
在一种可能的实现方式中,所述根据预设训练集中待训练网页中的文字内容和所述待训练网页的关联页面中的文字内容确定所述待训练网页的网页代表词,包括:
对所述待训练网页中的文字内容以及所述待训练网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待训练网页中的TF-IDF权重最高的第一预设数量的词以及所述待训练网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待训练网页的网页代表词。
在一种可能的实现方式中,所述生成所述待训练网页的网页代表词对应的词向量矩阵,包括:
分别将所述待训练网页的每个网页代表词转换为长度相同的词向量;
将所述待训练网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待训练网页的网页代表词的数量,M为单个词向量的长度。
第三方面,本申请实施例提供一种网页分类装置,包括:
确定模块,用于根据待分类网页中的文字内容和所述待分类网页的关联页面中的文字内容确定所述待分类网页的网页代表词,所述待分类网页的关联页面为所述待分类网页中的链接对应的页面;
生成模块,用于生成所述待分类网页的网页代表词对应的词向量矩阵;
所述确定模块,还用于将所述生成模块生成的所述待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据所述网页分类模型的输出结果确定所述待分类网页所属的类型。
在一种可能的实现方式中,所述确定模块,具体用于:
对所述待分类网页中的文字内容进行分词操作;
对所述待分类网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待分类网页中的TF-IDF权重最高的第一预设数量的词以及所述待分类网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待分类网页的网页代表词。
在一种可能的实现方式中,所述生成模块,具体用于:
分别将所述待分类网页的每个网页代表词转换为长度相同的词向量;
将所述待分类网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待分类网页的网页代表词的数量,M为单个词向量的长度。
在一种可能的实现方式中,所述确定模块,具体用于:
获取所述网页分类模型的输出结果,所述输出结果为所述待分类网页属于各类型的概率;
确定所述待分类网页对应的概率最大的类型为所述待分类网页所属的类型。
在一种可能的实现方式中,所述网页分类模型为基于预设训练集进行训练得到的,所述预设训练集包括各已知类型的待训练网页。
第四方面,本申请实施例还提供一种网页分类装置,包括:
确定模块,用于根据预设训练集中待训练网页中的文字内容和所述待训练网页的关联页面中的文字内容确定所述待训练网页的网页代表词,所述预设训练集包括各已知类型的待训练网页,所述待训练网页的关联页面为所述待训练网页中的链接对应的页面;
生成模块,用于生成所述待训练网页的网页代表词对应的词向量矩阵;
训练模块,用于将所述待训练网页的网页代表词对应的词向量矩阵输入深度学习模型,将所述深度学习模型训练为所述网页分类模型。
在一种可能的实现方式中,所述确定模块,具体用于:
对所述待训练网页中的文字内容以及所述待训练网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待训练网页中的TF-IDF权重最高的第一预设数量的词以及所述待训练网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待训练网页的网页代表词。
在一种可能的实现方式中,所述生成模块,具体用于:
分别将所述待训练网页的每个网页代表词转换为长度相同的词向量;
将所述待训练网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待训练网页的网页代表词的数量,M为单个词向量的长度。
第五方面,本申请实施例提供一种服务器,该服务器包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第一方面或第二方面中所述的网页分类方法。
第六方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面中所述的网页分类方法。
第七方面,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面中所述的网页分类方法。
采用本申请实施例对应的网页分类方法及装置,可以根据网页中的文字内容和待分类网页的关联页面中的文字内容确定待分类网页的网页代表词,然后生成待分类网页的网页代表词对应的词向量矩阵,将该词向量矩阵输入网页分类模型,进而根据网页分类模型的输出结果确定待分类网页所属的类型。可见,本申请实施例可以通过网页分类模型对待分类结果进行分类,可以实现对未经人工提前分类的网页的分类,无需人工参与,实现较为简单,且在分类时不仅考虑了待分类网页中的文字内容,还考虑了待分类网页的关联页面中的文字内容,使得分类结果更为准确。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网页分类方法的流程图;
图2为本申请实施例提供的另一种网页分类方法的流程图;
图3为本申请实施例提供的一种网页分类装置的结构示意图;
图4为本申请实施例提供的另一种网页分类装置的结构示意图;
图5为本申请实施例提供的一种用于对网页进行分类的服务器的结构示意图;
图6为本申请实施例提供的一种用于训练网页分类模型的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有技术中无法兼顾实现复杂度与分类效果的问题,本申请实施例提供一种网页分类方法,该方法可以由用于对网页进行分类的服务器执行,如图1所示,该方法包括:
S101、根据待分类网页中的文字内容和待分类网页的关联页面中的文字内容确定待分类网页的网页代表词。
其中,待分类网页的关联页面为待分类网页中的链接对应的页面。例如,网页A中存在可跳转至网页B的链接,则关联页面为网页B的页面。
具体地,可以提取待分类网页以及待分类网页的关联页面中的文字内容,然后对待分类网页中的文字内容进行分词操作,并对待分类网页的关联页面中的文字内容进行分词操作,然后根据分词结果确定待分类网页的网页代表词。
一种实现方式中,本申请实施例中可以将待分类网页中的所有词以及待分类网页的关联页面中的所有词确定为网页代表词。
另一种实现方式中,为了避免待分类网页以及待分类网页的关联页面中的一些对网页分类作用不大的词(例如“我们”、“他们”、“今天”、“昨天”等)对算法产生负担,影响分类效率,可以选择一部分词作为待分类网页的网页代表词。
具体方法为:计算经过分词操作得到的每个词的词频-逆文件频率(termfrequency-inverse document frequency,TF-IDF)权重,然后将待分类网页中的TF-IDF权重最高的第一预设数量的词以及待分类网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为待分类网页的网页代表词。
其中,TF-IDF=TF×IDF。
以一个待分类网页中的词A为例,可通过公式“TF=词A在待分类网页中出现的次数/待分类网页包含的词的总数”来确定TF;另外,可通过查询预先生成的词典来获取词A的IDF,该词典为在训练本申请实施例所应用的网页分类模型过程中生成的,词典中包括训练网页分类模型时用到的每个词对应的IDF。
TF-IDF权重用于表示某个词对待分类网页的重要程度,某个词的重要程度随着该词在待分类网页中出现的次数而增加,但同时会随着该词在语料库中出现的频率而下降。
为了减少计算量,降低网页分类难度,可以选取待分类网页以及待分类网页的关联页面中TF-IDF权重较高的一部分词作为网页代表词。示例性地,上述第一预设数量可以为100,第二数量可以为50,即选取待分类网页中TF-IDF权重最高的100个词(不够则补空格),以及待分类网页的关联页面中TF-IDF权重最高的50个词(不够则补空格)作为待分类网页的网页代表词。
S102、生成待分类网页的网页代表词对应的词向量矩阵。
可以将待分类网页的每个网页代表词转换为长度相同的词向量,然后将待分类网页的网页代表词生成N行、M列的词向量矩阵。
其中,N为待分类网页的网页代表词的数量,M为单个词向量的长度。
例如,在上文的举例中,网页代表词包括待分类网页中TF-IDF权重最高的100个词,和待分类网页的关联页面中TF-IDF权重最高的50个词,即N=100+50=150。若每个网页代表词的词向量的长度为200,即M=200。则可以将待分类网页的网页代表词转换为一个150×200的二维向量矩阵,即该矩阵有150行,矩阵中的每一行内容为一个网页代表词对应的词向量。
其中,上述150×200的二维向量矩阵仅为示例,可根据实际需求设置,例如,若每个词向量的长度均为100,则可将待分类网页的网页代表词转换为150×100的二维向量矩阵。
可选地,可以采用离散表示(one-hot distribution)方法来将网页代表词转换为词向量,具体可以将词典中所有词进行排序,排序之后词典中的每个词都有一个位置,然后通过词在词典中的位置来表示词向量。
例如,若词典中有300个词,存在一个网页代表词为“话筒”,该词在词典中排第5位,则确定“话筒”对应的词向量为[0 0 0 0 1 0 0 0……],若另一个网页代表词为“宁波”,该词在词典中排第4位,则“宁波”对应的词向量为[0 0 0 1 0 0 0 0……]。
或者,也可以采用分布式表示(distributed representation)方法来将网页代表词转换为词向量,采用分布式表示方法转换的词向量既可以表达词本身的含义,又可以表达词与词之间的语义关联。
当然本申请实施例不限于以上两种转换词向量的方法,其他转换词向量的方法也可以应用于本申请实施例。
S103、将待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据网页分类模型的输出结果确定待分类网页所属的类型。
具体地,在将待分类网页的网页代表词对应的词向量矩阵输入网页分类模型后,网页分类模型可对该词向量矩阵进行处理,可获取网页分类模型的输出结果,输出结果为待分类网页属于各类型的概率,进而确定待分类网页对应的概率最大的类型为待分类网页所属的类型。
示例性地,若输出结果为待分类网页属于视频类型的概率为0.9,属于游戏类型的概率为0.4,属于购物类型的概率为0.1,则可确定该待分类网页所属的类型为视频类型。
其中,上述网页分类模型为基于预设训练集进行训练得到的,预设训练集包括各已知类型的待训练网页。
采用本申请实施例对应的网页分类方法,可以根据待分类网页中的文字内容和待分类网页的关联页面中的文字内容确定待分类网页的网页代表词,然后生成待分类网页的网页代表词对应的词向量矩阵,将该词向量矩阵输入网页分类模型,进而根据网页分类模型的输出结果确定待分类网页所属的类型。可见,本申请实施例可以通过网页分类模型对待分类网页进行分类,可以实现对未经人工提前统计的网页的分类,无需人工参与,实现较为简单,且在分类时不仅考虑了待分类网页中的文字内容,还考虑了待分类网页的关联页面中的文字内容,使得分类结果更为准确。
可以理解的是,在使用上述网页分类模型对待分类网页进行分类之前,需要提前训练网页分类模型,训练过程由用于训练网页分类模型的服务器执行,如图2所示,网页分类模型的训练过程具体包括以下步骤:
S201、根据预设训练集中待训练网页中的文字内容和待训练网页的关联页面中的文字内容确定待训练网页的网页代表词。
其中,在训练之前,可以先确定预设训练集,预设训练集中包括各已知类型的待训练网页,具体可以包括各个类型的具有代表性的待训练网页。
然后可以对预设训练集中的待训练网页中的文字内容以及待训练网页的关联页面中的文字内容进行分词操作,然后根据分词结果确定待训练网页的网页代表词。
一种实现方式中,本申请实施例中可以将待训练网页中的所有词以及待训练网页的关联页面中的所有词确定为网页代表词。
在另一种实现方式中,为了避免待分类网页以及待分类网页的关联页面中的一些对网页分类作用不大的词(例如“我们”、“他们”、“今天”、“昨天”等)对算法产生负担,影响分类效率,可以选择一部分词作为待训练网页的网页代表词。
可以计算经过分词操作得到的每个词的TF-IDF权重,然后将待训练网页中的TF-IDF权重最高的第一预设数量的词以及待训练网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为待训练网页的网页代表词。
例如,第一预设数量为100,第二预设数量为50。
其中,在计算待训练网页以及待训练网页的关联页面中的词的TF-IDF权重时,以某个待训练网页中的词B为例,TF=词B在待训练网页中出现的次数/待训练网页包含的词的总数;
在计算待训练网页以及待训练网页的关联页面中的词的TF-IDF权重的过程中,可以将预设训练集中各待训练网页中的词以及待训练网页的关联页面中的词生成词典,并在词典中记录各个词的IDF。
其中,确定待训练网页的网页代表词的方法与上述S101中确定待分类网页的网页代表词的方法相同,可参考上述S101中的描述。
S202、生成待训练网页的网页代表词对应的词向量矩阵。
可以分别将待训练网页的每个网页代表词转换为长度相同的词向量,然后将待训练网页的网页代表词的词向量生成N行、M列的词向量矩阵。
其中,N为待训练网页的网页代表词的数量,M为单个词向量的长度。
其中,将待训练网页的网页代表词转换为词向量的方法与上述S102中描述的转换词向量的方法相同,可参考上述S102中的相关描述。
S203、将待训练网页的网页代表词对应的词向量矩阵输入深度学习模型,将深度学习模型训练为网页分类模型。
具体地,将待训练网页的网页代表词对应的词向量矩阵输入深度学习模型后,深度学习模型可对词向量矩阵进行处理,输出分类结果。该分类结果可以为待训练网页属于各类型的概率,由于待训练网页所属的类型是已知的,所以可判断深度学习模型对待训练网页的分类结果是否准确,并根据分类结果对深度学习模型进行调整,直至将深度学习模型训练为可以对网页进行准确分类的网页分类模型,训练完成的网页分类模型即可对待分类网页进行分类。
例如,将一个视频类型的待训练网页的网页代表词对应的词向量输入深度学习模型,深度学习模型可以输出对该待训练网页的分类结果,例如输出的该待训练网页属于视频类型的概率为0.4,而属于购物类型的概率为0.6,显然分类不够准确。
然后可以根据该输出结果计算深度学习模型输出的分类结果与该待训练网页实际所属分类之间的误差值,再通过该误差值以及误差反向传播算法来计算并调整深度学习模型中的卷积积分的参数。
之后可以通过调整参数后的深度学习模型继续对预设训练集中的其他待训练网页进行分类,再根据分类结果的误差对深度学习模型中的参数进行迭代调整,直至深度学习模型可以准确地对待训练网页进行分类,即可将该深度学习模型作为网页分类模型。
需要说明的是,上述深度学习模型可以为卷积神经网络,或者可以为卷积神经网络、循环神经网络、递归神经网络中的一种或多种的组合,或者可以为其他能够实现网页分类功能的深度学习模型。
可见本申请实施例可通过深度学习的方法训练得到网络分类模型,进而使用网络分类模型对待分类网页进行分类,可以克服传统分类方法需要大量人工操作的缺点,且可提高分类准确率。
对应于上述方法实施例,本申请实施例还提供一种网页分类装置,如图3所示,该方法包括:确定模块301和生成模块302。
确定模块301,用于根据待分类网页中的文字内容和待分类网页的关联页面中的文字内容确定待分类网页的网页代表词,待分类网页的关联页面为待分类网页中的链接对应的页面;
生成模块302,用于生成待分类网页的网页代表词对应的词向量矩阵;
确定模块301,还用于将生成模块302生成的待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据网页分类模型的输出结果确定待分类网页所属的类型。
在一种实施方式中,确定模块301,具体用于:
对待分类网页中的文字内容进行分词操作;
对待分类网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将待分类网页中的TF-IDF权重最高的第一预设数量的词以及待分类网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为待分类网页的网页代表词。
在一种实施方式中,生成模块302,具体用于:
分别将待分类网页的每个网页代表词转换为长度相同的词向量;
将待分类网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为待分类网页的网页代表词的数量,M为单个词向量的长度。
在一种实施方式中,确定模块301,具体用于:
获取网页分类模型的输出结果,输出结果为待分类网页属于各类型的概率;
确定待分类网页对应的概率最大的类型为待分类网页所属的类型。
其中,网页分类模型为基于预设训练集进行训练得到的,预设训练集包括各已知类型的待训练网页。
对应于上述方法实施例,本申请实施例还提供另一种网页分类装置,如图4所示,该装置包括:确定模块401、生成模块402和训练模块403。
确定模块401,用于根据预设训练集中待训练网页中的文字内容和待训练网页的关联页面中的文字内容确定待训练网页的网页代表词,预设训练集包括各已知类型的待训练网页,待训练网页的关联页面为待训练网页中的链接对应的页面;
生成模块402,用于生成待训练网页的网页代表词对应的词向量矩阵;
训练模块403,用于将待训练网页的网页代表词对应的词向量矩阵输入深度学习模型,将深度学习模型训练为网页分类模型。
可选地,确定模块401,具体用于:
对待训练网页中的文字内容以及待训练网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将待训练网页中的TF-IDF权重最高的第一预设数量的词以及待训练网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为待训练网页的网页代表词。
可选地,生成模块402,具体用于:
分别将待训练网页的每个网页代表词转换为长度相同的词向量;
将待训练网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为待训练网页的网页代表词的数量,M为单个词向量的长度。
本申请实施例还提供了一种用于对网页进行分类的服务器,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现上述方法实施例中由用于对网页进行分类的服务器执行的方法步骤。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种用于训练网页分类模型的服务器,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述方法实施例中由用于训练网页分类模型的服务器执行的方法步骤。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一网页分类方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一网页分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (18)
1.一种网页分类方法,其特征在于,包括:
根据待分类网页中的文字内容和所述待分类网页的关联页面中的文字内容确定所述待分类网页的网页代表词,所述待分类网页的关联页面为所述待分类网页中的链接对应的页面;
生成所述待分类网页的网页代表词对应的词向量矩阵;
将所述待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据所述网页分类模型的输出结果确定所述待分类网页所属的类型。
2.根据权利要求1所述的方法,其特征在于,所述根据待分类网页中的文字内容和所述待分类网页的关联页面中的文字内容确定所述待分类网页的网页代表词,包括:
对所述待分类网页中的文字内容进行分词操作;
对所述待分类网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待分类网页中的TF-IDF权重最高的第一预设数量的词以及所述待分类网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待分类网页的网页代表词。
3.根据权利要求1或2所述的方法,其特征在于,所述生成所述待分类网页的网页代表词对应的词向量矩阵,包括:
分别将所述待分类网页的每个网页代表词转换为长度相同的词向量;
将所述待分类网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待分类网页的网页代表词的数量,M为单个词向量的长度。
4.根据权利要求3所述的方法,其特征在于,根据所述网页分类模型的输出结果确定所述待分类网页所属的类型,包括:
获取所述网页分类模型的输出结果,所述输出结果为所述待分类网页属于各类型的概率;
确定所述待分类网页对应的概率最大的类型为所述待分类网页所属的类型。
5.根据权利要求1所述的方法,其特征在于,所述网页分类模型为基于预设训练集进行训练得到的,所述预设训练集包括各已知类型的待训练网页。
6.一种网页分类方法,其特征在于,包括:
根据预设训练集中待训练网页中的文字内容和所述待训练网页的关联页面中的文字内容确定所述待训练网页的网页代表词,所述预设训练集包括各已知类型的待训练网页,所述待训练网页的关联页面为所述待训练网页中的链接对应的页面;
生成所述待训练网页的网页代表词对应的词向量矩阵;
将所述待训练网页的网页代表词对应的词向量矩阵输入深度学习模型,将所述深度学习模型训练为所述网页分类模型。
7.根据权利要求6所述的方法,其特征在于,所述根据预设训练集中待训练网页中的文字内容和所述待训练网页的关联页面中的文字内容确定所述待训练网页的网页代表词,包括:
对所述待训练网页中的文字内容以及所述待训练网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待训练网页中的TF-IDF权重最高的第一预设数量的词以及所述待训练网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待训练网页的网页代表词。
8.根据权利要求6或7所述的方法,其特征在于,所述生成所述待训练网页的网页代表词对应的词向量矩阵,包括:
分别将所述待训练网页的每个网页代表词转换为长度相同的词向量;
将所述待训练网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待训练网页的网页代表词的数量,M为单个词向量的长度。
9.一种网页分类装置,其特征在于,包括:
确定模块,用于根据待分类网页中的文字内容和所述待分类网页的关联页面中的文字内容确定所述待分类网页的网页代表词,所述待分类网页的关联页面为所述待分类网页中的链接对应的页面;
生成模块,用于生成所述待分类网页的网页代表词对应的词向量矩阵;
所述确定模块,还用于将所述生成模块生成的所述待分类网页的网页代表词对应的词向量矩阵输入网页分类模型,根据所述网页分类模型的输出结果确定所述待分类网页所属的类型。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,具体用于:
对所述待分类网页中的文字内容进行分词操作;
对所述待分类网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待分类网页中的TF-IDF权重最高的第一预设数量的词以及所述待分类网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待分类网页的网页代表词。
11.根据权利要求9或10所述的装置,其特征在于,所述生成模块,具体用于:
分别将所述待分类网页的每个网页代表词转换为长度相同的词向量;
将所述待分类网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待分类网页的网页代表词的数量,M为单个词向量的长度。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
获取所述网页分类模型的输出结果,所述输出结果为所述待分类网页属于各类型的概率;
确定所述待分类网页对应的概率最大的类型为所述待分类网页所属的类型。
13.根据权利要求9所述的装置,其特征在于,所述网页分类模型为基于预设训练集进行训练得到的,所述预设训练集包括各已知类型的待训练网页。
14.一种网页分类装置,其特征在于,包括:
确定模块,用于根据预设训练集中待训练网页中的文字内容和所述待训练网页的关联页面中的文字内容确定所述待训练网页的网页代表词,所述预设训练集包括各已知类型的待训练网页,所述待训练网页的关联页面为所述待训练网页中的链接对应的页面;
生成模块,用于生成所述待训练网页的网页代表词对应的词向量矩阵;
训练模块,用于将所述待训练网页的网页代表词对应的词向量矩阵输入深度学习模型,将所述深度学习模型训练为所述网页分类模型。
15.根据权利要求14所述的装置,其特征在于,所述确定模块,具体用于:
对所述待训练网页中的文字内容以及所述待训练网页的关联页面中的文字内容进行分词操作;
计算经过分词操作得到的每个词的词频-逆文件频率TF-IDF权重;
将所述待训练网页中的TF-IDF权重最高的第一预设数量的词以及所述待训练网页的关联页面中TF-IDF权重最高的第二预设数量的词确定为所述待训练网页的网页代表词。
16.根据权利要求14或15所述的装置,其特征在于,所述生成模块,具体用于:
分别将所述待训练网页的每个网页代表词转换为长度相同的词向量;
将所述待训练网页的网页代表词的词向量生成N行、M列的词向量矩阵,其中N为所述待训练网页的网页代表词的数量,M为单个词向量的长度。
17.一种服务器,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-5任一所述的方法步骤,或者用于实现权利要求6-8任一所述的方法步骤。
18.一种机器可读存储介质,其特征在于,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现权利要求1-5任一所述的方法步骤,或者用于实现权利要求6-8任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910212057.0A CN109977327A (zh) | 2019-03-20 | 2019-03-20 | 一种网页分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910212057.0A CN109977327A (zh) | 2019-03-20 | 2019-03-20 | 一种网页分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109977327A true CN109977327A (zh) | 2019-07-05 |
Family
ID=67079675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910212057.0A Pending CN109977327A (zh) | 2019-03-20 | 2019-03-20 | 一种网页分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977327A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705290A (zh) * | 2019-09-29 | 2020-01-17 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
CN110737811A (zh) * | 2019-10-25 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置以及相关设备 |
CN110781497A (zh) * | 2019-10-21 | 2020-02-11 | 新华三信息安全技术有限公司 | 网页链接的检测方法及存储介质 |
CN111078546A (zh) * | 2019-12-05 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种表达页面特征的方法和电子设备 |
CN112231615A (zh) * | 2020-09-29 | 2021-01-15 | 新华三信息安全技术有限公司 | 一种文章的敏感信息检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN107545020A (zh) * | 2017-05-10 | 2018-01-05 | 新华三信息安全技术有限公司 | 一种网页分类的确定方法及装置 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
CN103678310B (zh) * | 2012-08-31 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 网页主题的分类方法及装置 |
CN108319613A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种网页信息归类的方法及设备 |
EP3370170A1 (en) * | 2017-03-03 | 2018-09-05 | Fujitsu Limited | Feature term classification method, information processing apparatus, and feature term classification program |
-
2019
- 2019-03-20 CN CN201910212057.0A patent/CN109977327A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678310B (zh) * | 2012-08-31 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 网页主题的分类方法及装置 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN108319613A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种网页信息归类的方法及设备 |
EP3370170A1 (en) * | 2017-03-03 | 2018-09-05 | Fujitsu Limited | Feature term classification method, information processing apparatus, and feature term classification program |
CN107545020A (zh) * | 2017-05-10 | 2018-01-05 | 新华三信息安全技术有限公司 | 一种网页分类的确定方法及装置 |
CN107862051A (zh) * | 2017-11-08 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种文件分类方法、系统及一种文件分类设备 |
Non-Patent Citations (1)
Title |
---|
冯静: ""基于向量空间模型的中文网页自动分类技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705290A (zh) * | 2019-09-29 | 2020-01-17 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
CN110781497A (zh) * | 2019-10-21 | 2020-02-11 | 新华三信息安全技术有限公司 | 网页链接的检测方法及存储介质 |
CN110737811A (zh) * | 2019-10-25 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置以及相关设备 |
CN110737811B (zh) * | 2019-10-25 | 2024-01-16 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置以及相关设备 |
CN111078546A (zh) * | 2019-12-05 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种表达页面特征的方法和电子设备 |
CN112231615A (zh) * | 2020-09-29 | 2021-01-15 | 新华三信息安全技术有限公司 | 一种文章的敏感信息检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977327A (zh) | 一种网页分类方法及装置 | |
CN108182279B (zh) | 基于文本特征的对象分类方法、装置和计算机设备 | |
CN104462593B (zh) | 一种提供用户个性化资源消息推送的方法和装置 | |
CN108874776A (zh) | 一种垃圾文本的识别方法及装置 | |
Song et al. | Research on text classification based on convolutional neural network | |
CN107168954A (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN107888616A (zh) | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 | |
US20220147023A1 (en) | Method and device for identifying industry classification of enterprise and particular pollutants of enterprise | |
CN106874292A (zh) | 话题处理方法及装置 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
US11074412B1 (en) | Machine learning classification system | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
CN103810293A (zh) | 基于Hadoop的文本分类方法及装置 | |
CN107145560A (zh) | 一种文本分类方法及装置 | |
CN110263233B (zh) | 企业舆情库构建方法、装置、计算机设备及存储介质 | |
CN108959236A (zh) | 医学文献分类模型训练方法、医学文献分类方法及其装置 | |
CN112287656B (zh) | 文本比对方法、装置、设备和存储介质 | |
CN101211368B (zh) | 一种对查询词分类的方法、装置及搜索引擎系统 | |
He et al. | Using Artificial Bee Colony Algorithm for Optimizing Ontology Alignment. | |
Liu et al. | Applying ontology learning and multi-objective ant colony optimization method for focused crawling to meteorological disasters domain knowledge | |
CN103514168B (zh) | 数据处理方法和设备 | |
CN108021713A (zh) | 一种文档聚类的方法和装置 | |
CN105447018B (zh) | 验证网页分类模型的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190705 |