CN110705290B - 一种网页分类方法及装置 - Google Patents

一种网页分类方法及装置 Download PDF

Info

Publication number
CN110705290B
CN110705290B CN201910932847.6A CN201910932847A CN110705290B CN 110705290 B CN110705290 B CN 110705290B CN 201910932847 A CN201910932847 A CN 201910932847A CN 110705290 B CN110705290 B CN 110705290B
Authority
CN
China
Prior art keywords
word
word vector
webpage
classification
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910932847.6A
Other languages
English (en)
Other versions
CN110705290A (zh
Inventor
施瑞瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Priority to CN201910932847.6A priority Critical patent/CN110705290B/zh
Publication of CN110705290A publication Critical patent/CN110705290A/zh
Application granted granted Critical
Publication of CN110705290B publication Critical patent/CN110705290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种网页分类方法及装置,涉及互联网技术领域,其中,上述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。应用本申请实施例提供的方案,能够提高网页分类的准确性。

Description

一种网页分类方法及装置
技术领域
本申请涉及互联网技术领域,特别是涉及一种网页分类方法及装置。
背景技术
随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于各种网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。
现有技术中,对网页进行分类时,一般依据网页的HTML(Hyper Text MarkupLanguage,超文本标记语言)标签,确定网页所属的分类。虽然HTML标签代表了网页的性质,但是由于HTML标签受人为因素影响较大,易导致网页分类准确性低。
发明内容
本申请实施例的目的在于提供一种网页分类方法及装置,以提高网页分类的准确性。具体技术方案如下:
第一方面,本申请实施例提供了一种网页分类方法,所述方法包括:
获得待分类网页的网页信息;
在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。
第二方面,本申请实施例提供了一种网页分类装置,所述装置包括:
网页信息获得模块,用于获得待分类网页的网页信息;
分词信息获得模块,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
第一分类确定模块,用于根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。
第三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本申请实施例所述的方法步骤。
第四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的方法步骤。
由以上可见,应用本申请实施例提供的方案进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的第一种网页分类方法的流程示意图;
图2为本申请实施例提供的第二种网页分类方法的流程示意图;
图3为本申请实施例提供的一种网页分类模型的结构示意图;
图4为本申请实施例提供的第三种网页分类方法的流程示意图;
图5为本申请实施例提供的第一种网页分类装置的结构示意图;
图6为本申请实施例提供的第二种网页分类装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于现有技术中存在网页分类准确性低这一技术问题,为解决这一技术问题,本申请实施例提供了一种网页分类方法及装置。
本申请的一个实施例中,提供了一种网页分类方法,该方法包括:
获得待分类网页的网页信息;
在上述网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性;
根据第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。
应用本实施例提供的方案进行网页分类时,由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
下面通过具体实施例对本申请实施例提供的网页分类方法及装置分别进行详细说明。
参见图1,提供了第一种网页分类方法的流程示意图,该方法包括下述S101-S103。
S101:获得待分类网页的网页信息。
上述网页信息可以是网页的HTML数据。其中,上述HTML数据是由HTML元数据组成的描述性文本。HTML元数据可以包括说明性文字、图形、动画、声音、表格、链接等。例如,上述说明性文字可以包括页面标题、页面描述等。
具体的,可以先获得待分类网页的URL(Uniform Resource Locator,统一资源定位符),然后根据待分类网页的URL获得待分类网页的HTML数据,从而也就获得了待分类网页的网页信息。
S102:在上述网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性。
其中,上述页面标题是指网页的Title,上述页面描述是指网页的Description。
上述页面标题和页面描述可以形成一个句子。在此基础上,对页面标题和页面描述进行分词处理时,可以是对上述句子进行分词处理。
例如,页面标题为“美食天下”,页面描述为“美食天下是最大的中文美食网站与厨艺交流社区,拥有海量的优质原创美食菜谱,聚集超千万美食家。我所有的朋友都是吃货,欢迎您加入!”,则页面标题和页面描述形成的一个句子为“美食天下美食天下是最大的中文美食网站与厨艺交流社区,拥有海量的优质原创美食菜谱,聚集超千万美食家。我所有的朋友都是吃货,欢迎您加入!”,然后对上述形成的一个句子进行分词处理。
当然,也可以是对上述页面标题和页面描述分别进行分词处理。
对上述页面标题和页面描述进行分词处理可以得到页面标题和页面描述中包含的各个词,从而得到第一分词结果。具体的,进行分词处理得到的各个词可以是中文中的单字词、多字词,也可以是英文、法文、日文、德文等语言中的词等,本申请实施例并不对此进行限定。
另外,可以采用现有技术中任何分词方式实现上述分词处理,这里不再详述。
对于一个词而言,其词性可能是名词、形容词、动词等。
本申请的一个实施例中,可以采用NLPIR(中科院分词系统)这一分词系统对上述页面标题和页面描述进行分析处理,这样不仅能够得到上述第一分词结果,还能够一并获得第一分词结果中各个词的词性。
本申请的一个实施例中,在对页面标题和页面描述进行分词处理,得到页面标题和页面描述中包含的词后,还可以对所得到的词进行过滤处理,滤除其中无意义的词,并将进行过滤处理后剩余的词作为第一分词结果。
例如,可以借助预设词库对分词处理的结果进行词过滤处理,滤除分词处理结果中无意义的词。例如,最、大等。
其中,上述预设词库中可以存储有预先获得的无意义词。这种情况下,当分词处理的结果中存在属于上述预设词库的词时,过滤掉这些词。
S103:根据第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。
本申请的一个实施例中,可以结合第一分词结果中各个词的词性,对第一分词结果中各个词进行语义分析,然后根据分析结果确定待分类网页所属的分类。
具体的,结合第一分词结果中各个词的词性对第一分词结果中的各个词进行语义分析时,可以分析出各个词在页面标题、页面描述、页面标题与页面描述形成的句子中的句子成分,例如,一个词为主语、一个词是定语等等。从而可以根据分析结果确定出页面标题和页面描述所表达的主要内容,然后根据所确定出的主要内容确定待分类网页所属的分类。
例如,上述语音分析可以借助基于LSTM(Long Short-Term Memory,长短期记忆网络)实现。
例如,页面描述为:美丽的飞机,通过语义分析可以得知“美丽的”是形容词,“飞机”是名词,“美丽的”是修饰“飞机”的,是“飞机”的定语。上述页面描述的主要内容为“飞机”。预先设定“飞机”对应的网页所属分类为:旅游,因此,在获知上述主要内容为“飞机”后,可以确定待分类网页所属的分类为:旅游。
具体的,网页所属的分类可以是音乐类、体育类、交友类、电影类、视频类、小说类、游戏类、时尚类等。
另外,还可以根据第一分词结果各个词的词向量以及各个词的词性的词向量,确定待分类网页所属的分类。具体过程详见下述图2所示实施例,这里暂不详述。
由以上可见,应用本实施例提供的方案进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
本申请的一个实施例中,参见图2,提供了第二种网页分类方法的流程示意图,与前述图1所示实施例相比,本实施例中,上述S103可以通过以下S103A-S103E。
S103A:获得第一分词结果中各个词的第一词向量和各个词的词性的第二词向量。
词向量,也称为Word embedding,是Word(词)嵌入式NLP(Natural LanguageProcessing,自然语言处理)中的一组语言建模和特征学习技术的统称,是来自词汇表的单词或短语被映射到实数的向量。
本申请的一个实施例中,上述第一词向量和第二词向量可以是采用Word2vec模型获得的。例如,可以是采用Word2vec模型中的Skip-gram模型获得的。也就是,将第一分词结果中的各个词和各个词的词性输入上述Skip-gram模型,由上述Skip-gram模型生成上述第一词向量和第二词向量。
具体的,上述Skip-gram模型可以是预先训练得到的模型。在训练得到Skip-gram模型时,可以先获得大量的样本文本,样本文本中包含词。为使得训练得到的Skip-gram模型在生成词向量时,具有较高的准确性,可以先去除样本文本中的低频词,然后采用去除低频词后的样本文本进行模型训练,得到上述Skip-gram模型。例如,在进行模型训练时可以进行第一数量次训练,其中,第一数量是预先设定的,如,第一数量可以是40、100、1000、10000等等。
上述低频词是指出现次数低于预设次数的词。例如,上述预设次数可以为5、6、7、8、9、10等。
另外,去除样本文本中的低频词时,可以预先设定词滑动窗口的长度,检测每一词滑动窗口中的词在样本文本中的出现次数,若出现次数低于预设次数,则认为该词滑动窗口内的词为低频词,从样本文本中去除。
例如,上述词滑动窗口的长度可以为3、5等。
假设,一个样本文本为:我是小学生,可以认为这一样本文本内包含的词有:我、是、小、学生这四个词。上述预设次数为10。词滑动窗口的长度为3,则词滑动窗口内的第一组词为:我、是和小。在所有的样本文本中统计“我是小”的出现次数,若统计结果为2小于10,则认为“我是小”属于低频词,从样本文本中去除。若统计结果为20大于10,则认为“我是小”不属于低频词,无需从样本文本中去除。
本申请的另一个实施例中,还可以预先设定第一词向量和第二词向量中所包含元素的数量。例如,上述数量可以是100、200等。这样说的每一第一词向量中包含的元素数量均相等,每一第二词向量中包含的元素数量也均相同。
S103B:针对第一分词结果中的每一词,获得由第一词向量和第二词向量生成的第三词向量。
具体的,上述第三词向量可以是由第一词向量和第二词向量拼接得到的。例如,一个词的第一词向量在前,该词词性的第二词向量在后拼接得到该词的第三词向量。
另外,还可以预先设定第三词向量所包含元素的数量。这种情况下,在生成第三词向量时,还需要考虑第一词向量所包含元素的数量、第二词向量包含元素的数量与第三词向量包含元素的数量之间的关系。
若第一词向量所包含元素的数量与第二词向量所包含元素的数量的和值,小于上述预先设定的第三词向量包含的元素数量,则可以将第一词向量和第二词向量进行拼接之后,在拼接结果的前面或者后面增加预设元素,使元素数量等于上述预先设定的元素数量。例如,上述预设元素可以是0或者1等。
若上述和值大于上述预先设定的第三词向量包含的元素数量,可以从第一词向量和/或第二词向量中去掉一些元素,使得去掉元素后第一词向量所包含元素的数量和第二词向量所包含元素的数量之和等于上述预先设定的元素数量。这时再将第一词向量和第二词向量进行拼接得到第三词向量。
S103C:提取第三词向量的特征。
本申请的一个实施例中,可以采用对S103B中得到的各个第三词向量进行卷积操作的方式,提取第三词向量的特征。也就是,可以通过对S103B中得到的各个第三词向量进行卷积变换的方式,提取第三词向量的特征。
本申请的另一个实施例中,还可以按照第一分词结果中各个词在包含页面标题和页面描述的句子中的排列顺序,对第一分词结果中各个词对应的第三词向量排序,提取排序后第三词向量的特征。
相同的词在句子中的排列顺序不同时,可能会导致句子所表达的语义存在差异,因此,在提取第三词向量的特征之前先按照上述排列顺序进行排序,能够更加准确的提取第三词向量的特征。又由于第三词向量是有第一词向量和第二词向量得到的,第一词向量和第二词向量表征的是页面标题和页面描述中的词和词的词性,应用上述方式提取出的特征能够更加准确的表征页面标题和页面描述。
S103D:选择所提取特征中对第三词向量具有表征性的特征。
例如,可以选择所提取特征中出现频次最多的第一预设数量个特征,作为对第三词向量具有表征性的特征。还可以选择所提取特征中取值最高的第二预设数量个特征,作为对第三词向量具有表征性的特征等。
S103E:根据所选择的特征,确定待分类网页所属的分类。
本申请的一个实施例中,可以预先建立各种特征与网页分类之间的对应关系,基于此,在获得上述所选择的特征后,可以基于上述预先建立的对应关系,确定所选择的特征对应的分类,然后所确定的分类获得待分类网页所属的分类。
例如,可以直接将所确定的分类作为待分类网页所属的分类,还可以将所确定的分类中出现次数最多的一个或者多个分类作为待分类网页所属的分类。
由以上可见,应用本实施例提供的方案进行网页分类时,是基于第三词向量的特征确定待分类网页所属的分类的。由于第三词向量是由页面标题的第一词向量和页面描述的第二词向量生成的,而第一词向量和第二词向量一般是包含多个元素的,所以可以认为第一词向量和第二词向量是从多个维度表征上述页面标题和页面描述的,进而可以认为第三词向量也是从多个维度表征上述页面标题和页面描述的,因此,第三词向量的特征对页面标题和页面描述具有更强的表征性,基于第三词向量的特征能够更加准确的确定待分类网页所属的分类。
本申请的一个实施例中,上述S103B-S103E可以基于卷积神经网络模型实现。为便于描述可以将上述卷积神经网络模型称为第一网页分类模型。参见图3,示出了第一网页分类模型的结构示意图。该第一网页分类模型包括:输入层、嵌入层、卷积层、池化层、全连接层和输出层。
上述第一网页分类模型可以通过以下步骤A-H训练得到。
步骤A:获得样本网页的样本页面标题和样本页面描述,并获得样本网页所属的分类,作为样本网页的标注分类。
具体的,可以采取爬虫爬取的方式获得样本网页的原始网页信息,剔除上述原始网页信息中的异常数据,得到样本网页信息。
步骤B:从上述样本网页信息中获得样本页面标题和样本页面描述,对样本页面标题和样本页面描述进行分词处理,得到样本分词结果,并获得样本分词结果中各词的词性。
具体的,对样本页面标题和样本页面描述进行分词处理的方式,与前述S102中对页面标题和页面描述进行分词处理的方式相同,这里不再赘述。
步骤C:获得样本分词结果中各词的第一样本词向量,并获得样本分词结果中各词的词性的第二样本词向量。各个第一样本词向量形成第一样本矩阵,各个第二样本词向量形成第二样本矩阵。
具体的,获得第一样本词向量和第二样本词向量的方式,与前述S103A所提及的获得第一词向量和第二词向量的方式相同,这里不再赘述。
本发明的一个实施例中,还可以预先设定第一样本矩阵和第二样本矩阵中分别包含词向量的数量,例如,设定第一样本矩阵和第二样本矩阵中均包含300个词向量等。
由于第一样本词向量是样本分词结果中词的词向量,而第二样本词向量是样本分词结果中词的词性的词向量,因此,第一样本词向量的数量与第二样本词向量的数量相等。
以第一样本词向量为例,若第一样本词向量的数量小于上述预先设定的向量数量,在生成第一样本矩阵和第二样本矩阵时,可以在第一样本词向量和第二样本词向量之后补充词向量,使第一样本词向量和第二样本词向量的数量等于该预先设定的向量数量。一个示例中,所补齐的词向量可以为元素均为零的词向量。
若第一样本词向量的数量大于上述预先设定的向量数量,在生成第一样本矩阵和第二样本矩阵时,可以以第一词向量和第二词向量中的前预先设定的向量数量个词向量生成上述第一矩阵和第二矩阵。
步骤D:将上述第一样本矩阵和第二样本矩阵作为上述第一网页分类模型的输入信息输入上述输入层,上述输入层将上述第一样本矩阵和第二样本矩阵输入上述嵌入层,获得第三样本词向量,并将第三样本词向量输入至卷积层。
上述嵌入层在获得第一样本矩阵和第二样本矩阵之后,可以按照样本排列顺序,针对样本分词结果中各词,将第一样本矩阵中的第一样本词向量和第二样本矩阵中的第二样本词向量进行对应,并对每一对相对应的第一样本词向量和第二样本词向量进行拼接,得到包含第二数量个元素的第三样本词向量。
其中,上述样本排列顺序为:各词在样本页面标题和样本页面描述形成的句子中的排列顺序。
上述第二数量是预先设定的,例如,第二数量的取值可以为128、256等。
步骤E:上述卷积层对上述第三词向量进行卷积操作,并将卷积操作的结果作为提取的第三词向量的特征,并将所提取的特征输入至上述池化层。
具体的,上述卷积层中可以设置有卷积核,这样上述卷积层对上述第三词向量进行卷积操作,也就是,通过卷积层中设置的各个卷积核对第三词向量进行卷积变换。
步骤F:上述池化层对所提取的特征进行池化处理,选择所提取特征中对第三词向量具有表征性的特征,并将所选择的特征传输至上述全连接层。
具体的,池化层对所提取的特征进行池化处理,可以理解为对所提取的特征进行下采样,从而从所提取的特征中选择出对第三词向量具有表征性的特征。
步骤G:全连接层根据上述池化层选择的特征进行分类,得到样本网页所属分类的预测结果,并将上述预测结果传输至上述输出层,由上述输出层输出上述预测结果。
本发明的一个实施例中,可以预先设定全连接层进行分类时所得分类结果的数量,例如,20等。具体的,上述预测结果中,可以包括样本网页属于各个分类的概率。
需要说明的是,上述卷积层、池化层、全连接层的结构可以与现有技术中神经网络模型内的卷积层、池化层和全连接层的结构相同,这里不再赘述。
步骤H:上述全连接层在得到上述预测结果后,根据预测结果和标注分类计算损失,并根据计算得到的损失调整上述第一网页分类模型的各层涉及的模型参数。
具体的,在计算得到上述损失后,可以依据上述损失,计算第一网页分类模型的各个层涉及的模型参数的梯度,然后根据计算得到的梯度和预先设定的优化算法对各个层涉及的模型参数进行一阶矩估计和二阶矩估计,然后以上述一阶矩估计和二阶矩估计的估计结果为依据,采用现有的模型参数调整方式对上述各个层涉及的模型参数。
另外,还可以在每调整第三数量次各个层涉及的模型参数后,计算调整参数后的模型进行网页分类的准确率。然后根据选择准确率最高的模型作为上述第一网页分类模型。
其中,上述准确率可以是每第三数量个样本网页的预测结果中预测正确的次数与第三数量的比值。
预测正确是指:预测结果与标注分类一致。
例如,上述第三数量可以是预先设定的,如可以是是100、200等。
本发明的一个实施例中,还可以在上述嵌入层之后和上述池化层之后增加dropout(随机失活)处理,防止模型过度拟合。
由以上可见,应用上述方式进行模型训练得到上述第一网页分类模型时,以样本分词结果中词的第一样词向量和词性的第二样本词向量作为模型的输入进行模型训练,这样不仅可以学习出各类网页的页面标题和页面描述中前后词之间的关系,还能够学习出前后词的词性之间的关系,例如,形容词的后面是名词等。从而应用上述第一网页分类模型进行分类时,能够依据更加丰富的信息进行分类,从而能够进一步提高分类结果的准确性。
在训练得到上述第一网页分类模型之后,应用第一网页分类模型对待分类网页进行分类的过程可以描述如下。
上述S103A获得第一词向量和第二词向量后,获得包含第一词向量的第一矩阵,并获得包含第二词向量的第二矩阵。
将第一矩阵和第二矩阵输入上述第一网页分类模型的输入层,上述输入层将第一矩阵和第二矩阵输入第一网页分类模型的嵌入层,上述嵌入层获得由第一词向量和第二词向量生成的第三词向量(S103B)。
上述嵌入层将第三词向量输入第一网页分类模型的卷积层,上述卷积层提取第三词向量的特征(S103C)。
上述卷积层将所提取的特征输入第一网页分类模型的池化层,上述池化层选择所提取特征中对第三词向量具有表征性的特征(S103D)。
上述池化层将所选择的特征输入第一网页分类模型的全连接层,上述全连接层根据所选择的特征对待分类网页进行分类,得到分类结果,并将分类结果输入第一网页分类模型的输出层,由输出层输出上述分类结果(S103E)。
本申请的一个实施例中,参见图4,提供了第三种网页分类方法的流程示意图,与前述图1所示实施例相比,本实施例中,上述网页分类方法还包括下述S104-S105。
S104:在上述网页信息中不包含页面标题和页面描述的情况下,获得待分类网页的域名。
S105:根据上述域名对应的分类,确定待分类网页所属的分类。
本申请的一个实施例中,可以采用正则匹配方式,检测上述域名中是否存在预设的分类关键字。而在本实施例中,可以认为上述域名对应的分类与上述分类关键字对应的分类一致,这样可以根据检测到的分类关键字对应的网页分类,确定待分类网页所属的分类。
例如,上述分类关键字可以包括:edu、sport、news等。
各个分类关键字对应的网页分类可以是预先设定的,例如,edu对应的网页分类可以是教育类,sport对应的网页分类可以是运动类,news对应的网页分类可以是新闻类。
假设,经检测待分类网页的域名中包含分类关键字edu,edu对应的网页分类为教育类,则可以确定待分类网页所属的分类为教育类。
本申请的另一个实施例中,在上述域名中不包含预设的分类关键字时,还可以采用白名单匹配法确定待分类网页的分类。
上述白名单中可以预先存储有各种域名以及域名对应的网页分类。
这种情况下,检测上述白名单中是否存在上述待分类网页的域名,若存在,则可以将上述白名单中存储的待分类网页的域名对应的网页分类作为上述待分类网页的分类。
由以上可见,应用本实施例提供的方案进行网页分类时,在网页信息中不包含页面标题和页面描述的情况下,依然可以通过网页的域名实现网页分类,从而提高了网页分类的应用范围。
与上述网页分类方法相对应,本申请实施例还提供了一种网页分类装置。
参见图5,提供了第一种网页分类装置的结构示意图,该装置包括:
网页信息获得模块501,用于获得待分类网页的网页信息;
分词信息获得模块502,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
第一分类确定模块503,用于根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类。
本申请的一个实施例中,所述第一分类确定模块503,包括:
词向量获得单元,用于获得所述第一分词结果中各个词的第一词向量和各个词的词性的第二词向量,并针对所述第一分词结果中的每一词,获得由所述第一词向量和第二词向量生成的第三词向量;
特征提取单元,用于提取所述第三词向量的特征;
特征选择单元,用于选择所提取特征中对所述第三词向量具有表征性的特征;
分类确定单元,用于根据所选择的特征,确定所述待分类网页所属的分类。
本申请的一个实施例中,所述特征提取单元,具体用于:
按照所述第一分词结果中各个词在包含所述页面标题和页面描述的句子中的排列顺序,对所述第一分词结果中各个词对应的所述第三词向量排序;
提取排序后所述第三词向量的特征。
由以上可见,应用上述各个实施例提供的方案进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果以及第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
本申请的一个实施例中,参见图6,提供了第二种网页分类装置的结构示意图,与前述图5相比,本实施例中,上述网页分类装置还包括:
域名获得模块504,用于在所述网页信息中不包含所述页面标题和页面描述的情况下,获得所述待分类网页的域名;
第二分类确定模块505,用于根据所述域名对应的分类,确定所述待分类网页所属的分类。
由以上可见,应用本实施例提供的方案进行网页分类时,在网页信息中不包含页面标题和页面描述的情况下,依然可以通过网页的域名实现网页分类,从而提高了网页分类的应用范围。
与上述网页分类方法相对应,本申请实施例还提供了一种电子设备。
参见图7,提供了一种电子设备的结构示意图,该电子设备包括:处理器701和机器可读存储介质702,所述机器可读存储介质702存储有能够被所述处理器701执行的机器可执行指令,所述处理器701被所述机器可执行指令促使:实现本申请实施例所述的网页分类方法步骤。
需要说明的是,上述处理器701被机器可执行指令促使实现的网页分类方法的实施例,与前述方法实施例部分所提及的实施例相同,这里不再赘述。
如图7所示,上述电子设备还可以包括通信总线703,处理器701、机器可读存储介质702通过通信总线703完成相互间的通信,可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线1003可以分为地址总线、数据总线、控制总线等。
上述通信总线703除了可以连接有上述处理器701、机器可读存储介质702外,还可以连接有收发器704等器件。
上述机器可读存储介质702可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,上述机器可读存储介质702还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器701可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
应用本申请实施例提供的电子设备进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果,并获得第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
与上述网页分类方法相对应,本申请实施例还提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的网页分类方法步骤。
需要说明的是,上述机器可执行指令促使处理器实现的网页分类方法的实施例,与前述方法实施例部分所提及的实施例相同,这里不再赘述。
执行本申请实施例提供的机器可读存储介质中存储的机器可执行指令进行网页分类时,在待分类网页的网页信息中包含页面标题和页面描述的情况下,对上述页面标题和页面描述进行分词处理,获得第一分词结果,并获得第一分词结果中各个词的词性,然后根据上述第一分词结果中的词和各个词的词性,确定待分类网页所属的分类。由于页面标题和页面描述受人为因素影响较小,所以,依据页面标题和页面描述中所包含的词以及词的词性对网页进行分类,能够提高网页分类的准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备和机器可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (8)

1.一种网页分类方法,其特征在于,所述方法包括:
获得待分类网页的网页信息;
在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类;
所述根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类,包括:
获得所述第一分词结果中各个词的第一词向量和各个词的词性的第二词向量;
针对所述第一分词结果中的每一词,获得由所述第一词向量和第二词向量生成的第三词向量;
提取所述第三词向量的特征;
选择所提取特征中对所述第三词向量具有表征性的特征;
根据所选择的特征,确定所述待分类网页所属的分类;
所述获得由所述第一词向量和第二词向量生成的第三词向量,包括:
若所述第一词向量包含的元素的数量与所述第二词向量包含的元素的数量的和值等于预设的第三词向量包含的元素的数量,拼接所述第一词向量与所述第二词向量,得到第三词向量;
若所述和值小于所述预设的第三词向量包含的元素的数量,拼接所述第一词向量和第二词向量,并在拼接结果的前面或者后面增加预设元素,使所述拼接结果包含的元素数量等于所述预设的第三词向量包含的元素的数量,得到所述第三词向量;
若所述和值大于所述预设的第三词向量包含的元素的数量,从所述第一词向量和/或所述第二词向量中去掉元素,使去掉元素后的第一词向量所包含元素的数量和第二词向量所包含元素的数量之和等于所述预设的第三词向量包含的元素的数量,拼接所述去掉元素后的第一词向量和第二词向量,得到所述第三词向量。
2.根据权利要求1所述的方法,其特征在于,所述提取所述第三词向量的特征,包括:
按照所述第一分词结果中各个词在包含所述页面标题和页面描述的句子中的排列顺序,对所述第一分词结果中各个词对应的所述第三词向量排序;
提取排序后所述第三词向量的特征。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述方法还包括:
在所述网页信息中不包含所述页面标题和页面描述的情况下,获得所述待分类网页的域名;
根据所述域名对应的分类,确定所述待分类网页所属的分类。
4.一种网页分类装置,其特征在于,所述装置包括:
网页信息获得模块,用于获得待分类网页的网页信息;
分词信息获得模块,用于在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第一分词结果中各个词的词性;
第一分类确定模块,用于根据所述第一分词结果中的词和各个词的词性,确定所述待分类网页所属的分类;
所述第一分类确定模块,包括:
词向量获得单元,用于获得所述第一分词结果中各个词的第一词向量和各个词的词性的第二词向量,并针对所述第一分词结果中的每一词,获得由所述第一词向量和第二词向量生成的第三词向量;
特征提取单元,用于提取所述第三词向量的特征;
特征选择单元,用于选择所提取特征中对所述第三词向量具有表征性的特征;
分类确定单元,用于根据所选择的特征,确定所述待分类网页所属的分类;
所述词向量获得单元,通过以下方式获得由所述第一词向量和第二词向量生成的第三词向量:
若所述第一词向量包含的元素的数量与所述第二词向量包含的元素的数量的和值等于预设的第三词向量包含的元素的数量,拼接所述第一词向量与所述第二词向量,得到第三词向量;
若所述和值小于所述预设的第三词向量包含的元素的数量,拼接所述第一词向量和第二词向量,并在拼接结果的前面或者后面增加预设元素,使所述拼接结果包含的元素数量等于所述预设的第三词向量包含的元素的数量,得到所述第三词向量;
若所述和值大于所述预设的第三词向量包含的元素的数量,从所述第一词向量和/或所述第二词向量中去掉元素,使去掉元素后的第一词向量所包含元素的数量和第二词向量所包含元素的数量之和等于所述预设的第三词向量包含的元素的数量,拼接所述去掉元素后的第一词向量和第二词向量,得到所述第三词向量。
5.根据权利要求4所述的装置,其特征在于,所述特征提取单元,具体用于:
按照所述第一分词结果中各个词在包含所述页面标题和页面描述的句子中的排列顺序,对所述第一分词结果中各个词对应的所述第三词向量排序;
提取排序后所述第三词向量的特征。
6.根据权利要求4-5中任一项所述的装置,其特征在于,所述装置还包括:
域名获得模块,用于在所述网页信息中不包含所述页面标题和页面描述的情况下,获得所述待分类网页的域名;
第二分类确定模块,用于根据所述域名对应的分类,确定所述待分类网页所属的分类。
7.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-3任一所述的方法步骤。
8.一种机器可读存储介质,其特征在于,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现权利要求1-3任一所述的方法步骤。
CN201910932847.6A 2019-09-29 2019-09-29 一种网页分类方法及装置 Active CN110705290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910932847.6A CN110705290B (zh) 2019-09-29 2019-09-29 一种网页分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910932847.6A CN110705290B (zh) 2019-09-29 2019-09-29 一种网页分类方法及装置

Publications (2)

Publication Number Publication Date
CN110705290A CN110705290A (zh) 2020-01-17
CN110705290B true CN110705290B (zh) 2023-06-23

Family

ID=69196988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910932847.6A Active CN110705290B (zh) 2019-09-29 2019-09-29 一种网页分类方法及装置

Country Status (1)

Country Link
CN (1) CN110705290B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100530B (zh) * 2020-08-03 2023-12-22 百度在线网络技术(北京)有限公司 网页分类方法、装置、电子设备及存储介质
TWI827984B (zh) * 2021-10-05 2024-01-01 台灣大哥大股份有限公司 網站分類系統及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202285A (zh) * 2016-06-30 2016-12-07 北京百度网讯科技有限公司 搜索结果展示方法和装置
CN109359299A (zh) * 2018-09-28 2019-02-19 中国电子科技集团公司信息科学研究院 一种基于商品数据的物联网设备能力本体自构建方法
CN109471937A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种基于机器学习的文本分类方法及终端设备
CN110287409A (zh) * 2019-06-05 2019-09-27 新华三信息安全技术有限公司 一种网页类型识别方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678310B (zh) * 2012-08-31 2018-04-27 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
CN102831246B (zh) * 2012-09-17 2014-09-24 中央民族大学 藏文网页分类方法和装置
CN103853824B (zh) * 2014-03-03 2017-05-24 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
CN107291723B (zh) * 2016-03-30 2021-04-30 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110110075A (zh) * 2017-12-25 2019-08-09 中国电信股份有限公司 网页分类方法、装置以及计算机可读存储介质
CN109062972A (zh) * 2018-06-29 2018-12-21 平安科技(深圳)有限公司 网页分类方法、装置及计算机可读存储介质
CN109857860A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN109977327A (zh) * 2019-03-20 2019-07-05 新华三信息安全技术有限公司 一种网页分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202285A (zh) * 2016-06-30 2016-12-07 北京百度网讯科技有限公司 搜索结果展示方法和装置
WO2018000557A1 (zh) * 2016-06-30 2018-01-04 北京百度网讯科技有限公司 搜索结果展示方法和装置
CN109359299A (zh) * 2018-09-28 2019-02-19 中国电子科技集团公司信息科学研究院 一种基于商品数据的物联网设备能力本体自构建方法
CN109471937A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种基于机器学习的文本分类方法及终端设备
CN110287409A (zh) * 2019-06-05 2019-09-27 新华三信息安全技术有限公司 一种网页类型识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词性合并的浅层句法分析方法研究;刘利;;电脑与电信(08);全文 *

Also Published As

Publication number Publication date
CN110705290A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
US11562145B2 (en) Text classification method, computer device, and storage medium
CN108197109B (zh) 一种基于自然语言处理的多语言分析方法和装置
US11176330B2 (en) Generating recommendation information
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN106503192A (zh) 基于人工智能的命名实体识别方法及装置
CN107844473B (zh) 基于语境相似度计算的词义消歧方法
Watrianthos Sentiment analysis of traveloka app using naïve bayes classifier method
CN110135441B (zh) 一种图像的文本描述方法及装置
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN103593431A (zh) 网络舆情分析方法和装置
CN110705290B (zh) 一种网页分类方法及装置
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质
CN111008329A (zh) 基于内容分类的页面内容推荐方法及装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN116911286A (zh) 词典构建方法、情感分析方法、装置、设备及存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
CN115269833A (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
CN113554168A (zh) 模型训练、向量生成方法、装置、电子设备及存储介质
Radhika et al. Personalized language-independent music recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant