CN111488511A - 一种网站主题提取方法、系统及电子设备和存储介质 - Google Patents

一种网站主题提取方法、系统及电子设备和存储介质 Download PDF

Info

Publication number
CN111488511A
CN111488511A CN201910074345.4A CN201910074345A CN111488511A CN 111488511 A CN111488511 A CN 111488511A CN 201910074345 A CN201910074345 A CN 201910074345A CN 111488511 A CN111488511 A CN 111488511A
Authority
CN
China
Prior art keywords
website
target
extracting
domain name
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910074345.4A
Other languages
English (en)
Other versions
CN111488511B (zh
Inventor
杨荣海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201910074345.4A priority Critical patent/CN111488511B/zh
Publication of CN111488511A publication Critical patent/CN111488511A/zh
Application granted granted Critical
Publication of CN111488511B publication Critical patent/CN111488511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网站主题提取方法、系统及一种电子设备和计算机可读存储介质,该方法包括:将目标网页按照目标分割方式分割为多个页面块,并提取所有页面块中的内容作为目标网站的空间特征;确定目标网站的检索关键词,根据检索关键词在目标搜索引擎中搜索得到搜索结果,并提取搜索结果中的内容作为目标网站的检索特征;对目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定目标网站的最终主题;其中,所有特征包括空间特征和检索特征,提高了网站主题提取的准确性。

Description

一种网站主题提取方法、系统及电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种网站主题提取方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
网站主题提取是许多网络应用(如网页推荐、网页分类等)的基础任务。现有技术中的网站主题提取方法采用DOM(中文全称:文档对象模型,英文全称:Document ObjectModel)解析、网页标签等技术对网页进行分割,从分割的网页块中提取网页主题,并对这些主题做整合。
但是,由于一个网站包含许多网页,孤立的对每个网页做主题提取的方法忽略了同一网站下网页之间有着强联系的事实,在某些场景下,使用网页主题做为网站主题并不准确。
因此,如何提高网站主题提取的准确性是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种网站主题提取方法、系统及一种电子设备和一种计算机可读存储介质,提高了网站主题提取的准确性。
为实现上述目的,本申请提供了一种网站主题提取方法,包括:
将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
其中,还包括:
提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;
相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
其中,将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征,包括:
对所述目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征;
和/或,将所述目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征。
其中,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
将前M个所述备选结果作为所述搜索结果,其中,M为正整数。
其中,若所述检索关键词为所述目标网页的网站域名,则根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述网站域名得到备选结果;
计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数。
其中,提取所述搜索结果中的内容作为所述目标网站的检索特征,包括:
提取所述搜索结果中的标题和摘要信息作为所述目标网站的检索特征。
其中,对所述目标网站的所有特征进行主题提取之前,还包括:
在所述所有特征中过滤敏感关键词库中已存在的敏感关键词。
其中,对所述目标网站的所有特征进行主题提取之前,还包括:
对所述所有特征进行分词操作,得到分词结果;
计算每个所述分词结果与敏感关键词库中每个敏感关键词的语义相似度;
在所述所有特征中过滤相似度大于预设值的分词结果对应的特征。
其中,所述根据提取得到的所有主题确定所述目标网站的最终主题,包括:
对提取得到的所有主题进行并集操作得到所述目标网站的最终主题。
其中,所述根据提取得到的所有主题确定所述目标网站的最终主题,包括:
将提取得到的所有主题映射为词向量,并计算每个词向量之间的相似度,根据所有所述相似度构建相似度矩阵;
将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
为实现上述目的,本申请提供了一种网站主题提取系统,包括:
第一提取模块,用于将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
第二提取模块,用于确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
确定模块,用于对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
其中,还包括:
第三提取模块,用于提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,第四提取模块,用于确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
其中,所述第一提取模块具体为对所述目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征,和/或,将所述目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征的模块。
其中,所述第二提取模块包括:
确定搜索关键词单元,用于确定所述目标网站的检索关键词;
搜索单元,用于在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
第一确定单元,用于将前M个所述备选结果作为所述搜索结果,其中,M为正整数;
提取单元,用于提取所述搜索结果中的内容作为所述目标网站的检索特征。
其中,若所述检索关键词为所述目标网页的网站域名,则所述第二提取模块包括:
确定搜索关键词单元,用于确定所述目标网站的检索关键词;
搜索单元,用于在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
计算单元,用于计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
第二确定单元,用于将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数;
提取单元,用于提取所述搜索结果中的内容作为所述目标网站的检索特征。
其中,所述第二提取模块具体为确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的标题和摘要信息作为所述目标网站的检索特征的模块。
其中,还包括:
第一过滤模块,用于在所述所有特征中过滤敏感关键词库中已存在的敏感关键词。
其中,还包括:
分词模块,用于对所述所有特征进行分词操作,得到分词结果;
计算模块,用于计算每个所述分词结果与所述敏感关键词库中每个敏感关键词的语义相似度;
第二过滤模块,用于在所述所有特征中过滤相似度大于预设值的分词结果对应的特征。
其中,所述确定模块具体为对所述目标网站的所有特征进行主题提取,并对提取得到的所有主题进行并集操作得到所述目标网站的最终主题的模块。
其中,所述确定模块包括:
主题提取单元,用于对所述目标网站的所有特征进行主题提取;
构建单元,用于将提取得到的所有主题映射为词向量,并计算每个词向量之间的相似度,根据所有所述相似度构建相似度矩阵;
主题确定单元,用于将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述网站主题提取方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述网站主题提取方法的步骤。
通过以上方案可知,本申请提供的一种网站主题提取方法,包括:将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
本申请提供的网站主题提取方法,在提取目标网站的空间特征的基础上,引入了外部信息源,即通过在目标搜索引擎中搜索检索关键词,得到与该目标网页相关的内容,能够捕捉同一目标网站中不同网页的相互关系。与现有技术中仅提取目标网页的空间特征的方案相比,提取了多来源,多维度的网页内容,提高了网站主题提取的准确度。本申请还公开了一种网站主题提取系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种网站主题提取方法的流程图;
图2为根据一示例性实施例示出的另一种网站主题提取方法的流程图;
图3为图1中步骤S102的细化流程图;
图4为图1中步骤S103的细化流程图;
图5为根据一示例性实施例示出的一种网站主题提取系统的结构图;
图6为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有技术中,仅对目标网站中目标网页的多个页面块的内容,对该内容进行主题提取作为目标网站的网站主题,孤立的对某个目标网页做主题提取忽略了同一目标网站下不同网页之间有着强联系的事实,使用网页主题做为网站主题并不准确。因此,在本申请中在提取目标网站的内容特征和空间特征的基础上,引入了外部信息源,即通过在目标搜索引擎中搜索检索关键词,得到与该目标网页相关的内容,能够捕捉同一目标网站中不同网页的相互关系,提高了网站主题提取的准确度。
本申请实施例公开了一种网站主题提取方法,提高了网站主题提取的准确性。
参见图1,根据一示例性实施例示出的一种网站主题提取方法的流程图,如图1所示,包括:
S101:将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
在本步骤中,确定目标网站的空间特征。具体的,可以对目标网页按照目标分割方式分割为不同的页面块,从每个页面块中提取内容作为目标网站的空间特征。此处提取的内容与上一步骤介绍的类似,可以包括每个页面块的标题、文本信息和链接信息等,同样由于提取的空间特征结构比较规范,利用该空间特征进行的主题提取结果也更加准确。
可以理解的是,此处的目标分割方式可以包括DOM树,网页标签分割,最大子序列分割等,也可以同时包括多种分割方式,本实施例不进行具体限定。对于DOM树的分割方式,本步骤可以包括对目标网页建立DOM树,并提取DOM树中的所有叶子节点中的内容作为目标网站的空间特征。对于网页标签分割的分割方式,本步骤可以包括将目标网页按照网页标签进行分割,并提取所有网页标签中的内容作为目标网站的空间特征。
S102:确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
在本步骤中,确定目标网站的检索特征。具体的,首先确定目标网站的检索关键词,该检索关键词包括但不限于目标网页的网站域名。根据该检索关键词在目标搜索引擎中搜索得到搜索结果,此处不对目标搜索引擎的数量进行限定,也不对每个目标搜索引擎的搜索得到的结果的数量进行限定,例如,可以在每个目标搜索引擎搜索得到的备选结果中确定一个(或多个)搜索结果,也可以在所有目标搜索引擎搜索得到的备选结果中确定一个(或多个)搜索结果。
进一步的,本实施例也不对在备选结果中确定预设数量个搜索结果的过程进行具体限定,例如可以随机选取,又如,可以将同一个目标搜索引擎中搜索得到的前M个备选结果作为搜索结果,即根据检索关键词在目标搜索引擎中搜索得到搜索结果的步骤包括在目标搜索引擎中搜索检索关键词得到备选结果;将前M个备选结果作为搜索结果,其中,M为正整数。再如,可以根据备选结果与目标网页的相似度作为依据确定搜索结果,即若所述检索关键词为所述目标网页的网站域名,则根据检索关键词在目标搜索引擎中搜索得到搜索结果的步骤包括在目标搜索引擎中搜索网站域名得到备选结果;计算目标网页的网站域名与备选结果的网站域名的字符串相似度;将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数。
得到搜索结果后提取搜索结果中的内容作为目标网站的检索特征,此处不对提取的具体内容进行限定,优选的,可以提取搜索结果中的标题和摘要信息作为目标网站的检索特征。
在本实施例的基础上,作为一种优选实施方式,还可以提取目标网站的顶级域名特征,即在步骤S103之前还包括提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
在具体实施中,首先提取目标网站中某个目标网页的内容作为目标网站的内容特征,此处提取的内容可以包括目标网页的标题、文本信息和链接信息等,在此不进行具体限定。由于提取的内容特征结构比较规范,利用该内容特征进行的主题提取结果也更加准确。
在现有技术中提取的网页数据的结构有着很强的不规范性,在这种不规范的数据下建立主题模型,会引入噪声特征,从而削弱模型的性能。而在本申请中,对于目标网站的内容特征仅提取目标网页的标题、文本信息和链接信息,提取的特征结构比较规范,利用该特征进行的主题提取更加准确。进一步的,能够提高多种下游任务,如网页推荐、网页篡改检测及网站分类等的准确性。
在本实施例的基础上,作为一种优选实施方式,还可以提取目标网站的顶级域名特征,即在步骤S103之前还包括确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征,相应的,步骤S104中的所有特征还包括顶级域名特征。
对于特定的顶级域名,例如gov.cn,edu.cn等,这种域名审核批准较为严格,且包含着特定的主题信息。例如gov.cn通常在政府网站中出现,edu.cn通常被用于教育类网站。可以通过数据挖掘技术维护一个顶级域名信息表,该顶级域名信息表中记录了每个特定的顶级域名对应的顶级域名特征。
需要说明的是,上述介绍的步骤分别确定了目标网站的内容特征、空间特征、检索特征和顶级域名特征,本实施例不对这几个特征的提取顺序进行具体限定,可以按照一定的顺序执行,也可以并行执行。
S103:对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
在本步骤中,可以利用主题模型(Topic Model)对目标网站的所有特征进行主题提取。主题模型是一种用于分析文档,并发现文档中抽象主题的模型。主题模型能够判断文档包含哪些主题,以及给出每个主题所占的比例。即将前述步骤中提取空间特征和检索特征等分别输入主题模型中,输出提取得到的主题。可以理解的是,本实施例不对主题模型的种类进行具体限定。
利用主题模型进行主题提取后,根据所有主题确定目标网站的最终主题。在具体实施中,可以直接对提取得到的所有主题进行并集操作得到目标网站的最终主题,并集操作即最终主题包括提取到的所有主题,当然,作为一种优选实施方式,也可以利用词向量机制进行主题融合,将在后续实施例进行详细介绍。
本申请实施例提供的网站主题提取方法,在提取目标网站的内容特征和空间特征的基础上,引入了外部信息源,即通过在目标搜索引擎中搜索检索关键词,得到与该目标网页相关的内容,能够捕捉同一目标网站中不同网页的相互关系。与现有技术中仅提取目标网页的空间特征的方案相比,提取了多来源,多维度的网页内容,提高了网站主题提取的准确度。
本申请实施例公开了一种网站主题提取方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,根据一示例性实施例示出的另一种网站主题提取方法的流程图,如图2所示,包括:
S201:提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
S202:将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
S203:确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
S204:确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;
S205:利用敏感关键词库过滤所述目标网站的所有特征;其中,所述所有特征包括所述内容特征、所述空间特征、所述检索特征和所述顶级域名特征;
在具体实施中,由于无法保证网页内容和引入的外部信息是安全而干净的,因此在进行主题提取前需要对所有特征进行过滤。在本步骤中可以利用敏感关键词库对所有特征进行过滤,敏感关键词库中包含预先指定的敏感关键词。
作为一种优选实施方式,本步骤可以包括在所有特征中过滤敏感关键词库中已存在的敏感关键词。也就是说,只要某一个特征中包含了敏感关键词库中敏感关键词,即将该特征从目标网站的所有特征中删除。
作为另一种优选实施方式,本步骤可以包括对所有特征进行分词操作,得到分词结果;计算每个分词结果与敏感关键词库中每个敏感关键词的语义相似度;在所有特征中过滤相似度大于预设值的分词结果对应的特征。也就是说,在本步骤中可以通过语义匹配来判定特征是否被污染。在具体实施中,对于每个分词结果,在敏感关键词库中查询与其语义最相似的词,当语义相似度大于预设值时,判定该特征被污染,将其从目标网站的所有特征中删除。
对于上述介绍的两种过滤敏感关键词的方式,可以任选其一进行,也可以同时执行,在此不进行限定,当然,本领域技术人员也可以选择其他的方式过滤敏感关键词,均在本实施例的保护范围内。
S206:对所述所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题。
需要说明的是,对于检索特征的过滤操作,可以在目标搜索引擎中搜索的过程中同步进行,即如图3所示,第一个实施例中的步骤S102可以包括:
S21:在所述目标搜索引擎中搜索所述网站域名得到备选结果;
S22:计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度,将字符串相似度最高的备选结果作为待过滤样本;
S23:利用敏感关键词库判断所述待过滤样本是否被污染;若是,则进入S24;若否,将所述待过滤样本加入搜索结果中,并进入S24;
在具体实施中,由于在目标搜索引擎中搜索得到的备选结果为引入的外部信息,其被污染的可能性较高。也就是说,根据该备选结果得到的检索特征被污染的可能性较高,因此可以直接利用敏感关键词库对该备选结果进行过滤,而不是在得到了检索特征之后再进行过滤,避免了对被污染的备选结果进行提取的步骤,简化了主题提取流程。另外,若在得到了检索特征之后过滤掉被污染的特征,降低了最终的所有特征的来源维度,因此,本实施例也可以进一步提高网站主题提取的准确度。
在本实施例中,首先在被选结果中确定字符串相似度最高的作为待过滤样本,并利用敏感关键词库判断所述待过滤样本是否被污染,具体的判断方法与上一实施例介绍的过滤特征的方法相似,在此不再赘述。当待过滤样本被污染时最终的搜索结果中不包含该过滤样本,当待过滤样本未被污染时,将其加入最终的搜索结果中。
S24:判断搜索结果中的样本数量是否达到N;若是,则进入S25;若否,则将所述待过滤样本从所述备选结果中删除,并将当前备选结果中字符串相似度最高的备选结果作为待过滤样本,并重新进入S23;
在具体实施中,本领域技术人员可以预先指定搜索的数量为N,当搜索结果中的样本数量达到N时,提取搜索结果中所有样本的内容作为目标网站的检索特征,当搜索结果中的样本数量未达到N时,则将备选结果中字符串相似度次高的备选结果重新作为待过滤样本,重新进入S23,直到搜索结果中的样本数量达到N。
S25:提取所述搜索结果中的内容作为所述目标网站的检索特征。
需要进一步说明的是,可以采用词向量机制对所有的主题进行融合,得到目标网站的最终主题,即如图4所示,第一个实施例中的步骤S103可以包括:
S31:对所述所有特征进行主题提取,并将提取得到的所有主题映射为词向量;
在本实施例中,提取目标网站的所有特征后,利用主题模型对上述所有特征进行主题提取,并利用词向量机制得到目标网站的最终主体。词向量(也称为词嵌入,WordEmbedding)是一种将词语映射成高维空间的向量机制,即将得到的主题转换为向量,词向量中同时包含了词语的语法和语义信息,本实施例不对具体的词向量机制进行限定。
S32:计算每个词向量之间的相似度,并根据所有所述相似度构建相似度矩阵;
在本步骤中,利用词向量机制中的相似度计算公式计算每两个词向量之间的相似度,并根据所有相似度构建相似度矩阵,该构建相似度矩阵表示所有词向量之间的相似性。
S33:将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
在本步骤中,首先确定相似度矩阵每个行向量(或每个列向量)的模长,将模长最大的前K个行向量(或列向量)对应的主题作为目标网站的最终主题。对于K的取值,本领域技术人员可以根据实际情况进行灵活设置。使用词向量机制进行主题融合可以找到不同粒度的主题在语义上最相似的一部分,并将该部分确定为目标网站的最终主题,可以发掘同一站点的不同网页,或同一网站不同站点之间的联系。
下面对本申请实施例提供的一种网站主题提取系统进行介绍,下文描述的一种网站主题提取系统与上文描述的一种网站主题提取方法可以相互参照。
参见图5,根据一示例性实施例示出的一种网站主题提取系统的结构图,如图5所示,包括:
第一提取模块501,用于将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
第二提取模块502,用于确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
确定模块503,用于对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
本申请实施例提供的网站主题提取系统,在提取目标网站的内容特征和空间特征的基础上,引入了外部信息源,即通过在目标搜索引擎中搜索检索关键词,得到与该目标网页相关的内容,能够捕捉同一目标网站中不同网页的相互关系。与现有技术中仅提取目标网页的空间特征的方案相比,提取了多来源,多维度的网页内容,提高了网站主题提取的准确度。
在上述实施例的基础上,作为一种优选实施方式,还包括:
第三提取模块,用于提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,第四提取模块,用于确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
在上述实施例的基础上,作为一种优选实施方式,所述第一提取模块501具体为对所述目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征,和/或,将所述目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征的模块。
在上述实施例的基础上,作为一种优选实施方式,所述第二提取模块502包括:
确定搜索关键词单元,用于确定所述目标网站的检索关键词;
搜索单元,用于在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
第一确定单元,用于将前M个所述备选结果作为所述搜索结果,其中,M为正整数;
提取单元,用于提取所述搜索结果中的内容作为所述目标网站的检索特征。
在上述实施例的基础上,作为一种优选实施方式,若所述检索关键词为所述目标网页的网站域名,则所述第二提取模块502包括:
确定搜索关键词单元,用于确定所述目标网站的检索关键词;
搜索单元,用于在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
计算单元,用于计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
第二确定单元,用于将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数;
提取单元,用于提取所述搜索结果中的内容作为所述目标网站的检索特征。
在上述实施例的基础上,作为一种优选实施方式,所述第二提取模块502具体为确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的标题和摘要信息作为所述目标网站的检索特征的模块。
在上述实施例的基础上,作为一种优选实施方式,还包括:
第一过滤模块,用于在所述所有特征中过滤敏感关键词库中已存在的敏感关键词。
在上述实施例的基础上,作为一种优选实施方式,
还包括:
分词模块,用于对所述所有特征进行分词操作,得到分词结果;
计算模块,用于计算每个所述分词结果与所述敏感关键词库中每个敏感关键词的语义相似度;
第二过滤模块,用于在所述所有特征中过滤相似度大于预设值的分词结果对应的特征。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块503具体为对所述目标网站的所有特征进行主题提取,并对提取得到的所有主题进行并集操作得到所述目标网站的最终主题的模块。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块503包括:
主题提取单元,用于对所述目标网站的所有特征进行主题提取;
构建单元,用于将提取得到的所有主题映射为词向量,并计算每个词向量之间的相似度,根据所有所述相似度构建相似度矩阵;
主题确定单元,用于将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图6,本申请实施例提供的一种电子设备600的结构图,如图6所示,可以包括处理器11和存储器12。该电子设备600还可以包括多媒体组件13,输入/输出(I/O)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备600的整体操作,以完成上述的网站主题提取方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备600的操作,这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备600与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的网站主题提取方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述网站主题提取方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备600的处理器11执行以完成上述的网站主题提取方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (17)

1.一种网站主题提取方法,其特征在于,包括:
将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
2.根据权利要求1所述网站主题提取方法,其特征在于,还包括:
提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;
相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
3.根据权利要求1所述网站主题提取方法,其特征在于,将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征,包括:
对所述目标网页建立DOM树,并提取所述DOM树中的所有叶子节点中的内容作为所述目标网站的空间特征;
和/或,将所述目标网页按照网页标签进行分割,并提取所有所述网页标签中的内容作为所述目标网站的空间特征。
4.根据权利要求1所述网站主题提取方法,其特征在于,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
将前M个所述备选结果作为所述搜索结果,其中,M为正整数。
5.根据权利要求1所述网站主题提取方法,其特征在于,若所述检索关键词为所述目标网页的网站域名,则根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,包括:
在所述目标搜索引擎中搜索所述网站域名得到备选结果;
计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数。
6.根据权利要求1所述网站主题提取方法,其特征在于,提取所述搜索结果中的内容作为所述目标网站的检索特征,包括:
提取所述搜索结果中的标题和摘要信息作为所述目标网站的检索特征。
7.根据权利要求1所述网站主题提取方法,其特征在于,对所述目标网站的所有特征进行主题提取之前,还包括:
在所述所有特征中过滤敏感关键词库中已存在的敏感关键词。
8.根据权利要求1所述网站主题提取方法,其特征在于,对所述目标网站的所有特征进行主题提取之前,还包括:
对所述所有特征进行分词操作,得到分词结果;
计算每个所述分词结果与敏感关键词库中每个敏感关键词的语义相似度;
在所述所有特征中过滤相似度大于预设值的分词结果对应的特征。
9.根据权利要求1至8中任一项所述网站主题提取方法,其特征在于,所述根据提取得到的所有主题确定所述目标网站的最终主题,包括:
对提取得到的所有主题进行并集操作得到所述目标网站的最终主题。
10.根据权利要求1至8中任一项所述网站主题提取方法,其特征在于,所述根据提取得到的所有主题确定所述目标网站的最终主题,包括:
将提取得到的所有主题映射为词向量,并计算每个词向量之间的相似度,根据所有所述相似度构建相似度矩阵;
将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
11.一种网站主题提取系统,其特征在于,包括:
第一提取模块,用于将所述目标网页按照目标分割方式分割为多个页面块,并提取所有所述页面块中的内容作为所述目标网站的空间特征;
第二提取模块,用于确定所述目标网站的检索关键词,根据所述检索关键词在目标搜索引擎中搜索得到搜索结果,并提取所述搜索结果中的内容作为所述目标网站的检索特征;
确定模块,用于对所述目标网站的所有特征进行主题提取,并根据提取得到的所有主题确定所述目标网站的最终主题;其中,所述所有特征包括所述空间特征和所述检索特征。
12.根据权利要求11所述网站主题提取系统,其特征在于,还包括:
第三提取模块,用于提取目标网站中目标网页的内容作为所述目标网站的内容特征;其中,所述目标网页的内容包括所述目标网页的标题、文本信息和链接信息中任一项或任几项的组合;
和/或,第四提取模块,用于确定所述目标网页的顶级域名,并在顶级域名信息表中确定所述顶级域名对应的顶级域名特征;相应的,所述所有特征还包括所述内容特征和/或所述顶级域名特征。
13.根据权利要求11所述网站主题提取系统,其特征在于,若所述检索关键词为所述目标网页的网站域名,则所述第二提取模块包括:
确定搜索关键词单元,用于确定所述目标网站的检索关键词;
搜索单元,用于在所述目标搜索引擎中搜索所述检索关键词得到备选结果;
计算单元,用于计算所述目标网页的网站域名与所述备选结果的网站域名的字符串相似度;
第二确定单元,用于将字符串相似度最高的前N个备选结果作为所述搜索结果,其中,N为正整数;
提取单元,用于提取所述搜索结果中的内容作为所述目标网站的检索特征。
14.根据权利要求11所述网站主题提取系统,其特征在于,还包括:
分词模块,用于对所述所有特征进行分词操作,得到分词结果;
计算模块,用于计算每个所述分词结果与所述敏感关键词库中每个敏感关键词的语义相似度;
第二过滤模块,用于在所述所有特征中过滤相似度大于预设值的分词结果对应的特征。
15.根据权利要求11至14中任一项所述网站主题提取系统,其特征在于,所述确定模块包括:
主题提取单元,用于对所述目标网站的所有特征进行主题提取;
构建单元,用于将提取得到的所有主题映射为词向量,并计算每个词向量之间的相似度,根据所有所述相似度构建相似度矩阵;
主题确定单元,用于将所述相似度矩阵中模长最大的前K个行向量或列向量对应的主题作为所述目标网站的最终主题;其中,K为正整数。
16.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至10任一项所述网站主题提取方法的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述网站主题提取方法的步骤。
CN201910074345.4A 2019-01-25 2019-01-25 一种网站主题提取方法、系统及电子设备和存储介质 Active CN111488511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910074345.4A CN111488511B (zh) 2019-01-25 2019-01-25 一种网站主题提取方法、系统及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910074345.4A CN111488511B (zh) 2019-01-25 2019-01-25 一种网站主题提取方法、系统及电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111488511A true CN111488511A (zh) 2020-08-04
CN111488511B CN111488511B (zh) 2024-04-09

Family

ID=71795758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910074345.4A Active CN111488511B (zh) 2019-01-25 2019-01-25 一种网站主题提取方法、系统及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111488511B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101263493A (zh) * 2005-06-20 2008-09-10 谷歌公司 用于提供搜索结果的系统和方法
CN101702160A (zh) * 2009-10-28 2010-05-05 深圳市同洲电子股份有限公司 一种互联网主题信息采集方法及装置
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN103020123A (zh) * 2012-11-16 2013-04-03 中国科学技术大学 一种搜索不良视频网站的方法
CN103425735A (zh) * 2013-06-06 2013-12-04 深圳市宜搜科技发展有限公司 一种基于网站主题词查询的建立方法及系统
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
US8819022B1 (en) * 2011-08-08 2014-08-26 Aol Inc. Systems and methods for identifying and managing topical content for websites
CN105760538A (zh) * 2016-03-14 2016-07-13 广州神马移动信息科技有限公司 一种基于浏览器地址栏的url输入方法和一种浏览器
CN107070873A (zh) * 2017-01-20 2017-08-18 腾讯科技(深圳)有限公司 网页非法数据筛查方法、系统、数据筛查服务器和浏览器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101263493A (zh) * 2005-06-20 2008-09-10 谷歌公司 用于提供搜索结果的系统和方法
CN101702160A (zh) * 2009-10-28 2010-05-05 深圳市同洲电子股份有限公司 一种互联网主题信息采集方法及装置
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
US8819022B1 (en) * 2011-08-08 2014-08-26 Aol Inc. Systems and methods for identifying and managing topical content for websites
CN103020123A (zh) * 2012-11-16 2013-04-03 中国科学技术大学 一种搜索不良视频网站的方法
CN103425735A (zh) * 2013-06-06 2013-12-04 深圳市宜搜科技发展有限公司 一种基于网站主题词查询的建立方法及系统
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
CN105760538A (zh) * 2016-03-14 2016-07-13 广州神马移动信息科技有限公司 一种基于浏览器地址栏的url输入方法和一种浏览器
CN107070873A (zh) * 2017-01-20 2017-08-18 腾讯科技(深圳)有限公司 网页非法数据筛查方法、系统、数据筛查服务器和浏览器

Also Published As

Publication number Publication date
CN111488511B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
US10764353B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
US9424524B2 (en) Extracting facts from unstructured text
Abdullah et al. Fake news classification bimodal using convolutional neural network and long short-term memory
US8868609B2 (en) Tagging method and apparatus based on structured data set
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN109657137B (zh) 舆情新闻分类模型构建方法、装置、计算机设备和存储介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN110472013B (zh) 一种热门话题更新方法、装置和计算机存储介质
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
KR20150122855A (ko) 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법
JP6834774B2 (ja) 情報抽出装置
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN116756382A (zh) 检测敏感字符串的方法、装置、设置及存储介质
CN115150354B (zh) 一种生成域名的方法、装置、存储介质及电子设备
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
US10387472B2 (en) Expert stance classification using computerized text analytics
CN111488511B (zh) 一种网站主题提取方法、系统及电子设备和存储介质
CN115455416A (zh) 一种恶意代码检测方法、装置、电子设备及存储介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN111581950B (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US11341188B2 (en) Expert stance classification using computerized text analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant