CN109446424B - 一种无效地址网页过滤方法及系统 - Google Patents

一种无效地址网页过滤方法及系统 Download PDF

Info

Publication number
CN109446424B
CN109446424B CN201811273076.6A CN201811273076A CN109446424B CN 109446424 B CN109446424 B CN 109446424B CN 201811273076 A CN201811273076 A CN 201811273076A CN 109446424 B CN109446424 B CN 109446424B
Authority
CN
China
Prior art keywords
webpage
invalid address
filtering
attribute
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811273076.6A
Other languages
English (en)
Other versions
CN109446424A (zh
Inventor
周超然
刘妍
张昕
张莹
赵建平
冯欣
张剑飞
马太
孙庚�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN201811273076.6A priority Critical patent/CN109446424B/zh
Publication of CN109446424A publication Critical patent/CN109446424A/zh
Application granted granted Critical
Publication of CN109446424B publication Critical patent/CN109446424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种无效地址网页过滤方法及系统。所述过滤方法包括:获取历史过滤特征词;根据历史过滤特征词建立待过滤特征词数据库;利用搜索引擎检索地理信息确定网页列表;根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;获取所述待判断无效地址网页列表的网页属性;根据所述网页属性确定网页文本并构建可以判断网页是否为无效地址网页的决策树;根据构建好的决策树判断所述网页文本是否为有效地址网页,若是,将所述无效地址网页从所述待判断无效地址网页列表内过滤。采用本发明所提供的过滤方法及系统,基于搜索引擎检索地理信息的过滤方式提高了过滤无效地址网络的精准度。

Description

一种无效地址网页过滤方法及系统
技术领域
本发明涉及网络文本自然语言处理领域,特别是涉及一种无效地址网页过滤方法及系统。
背景技术
在中国互联网的实际应用中,当用户针对中文地址进行搜索引擎搜索时,搜索引擎会由于商业原因、用户点击量及中国网页分类系统不够规范等原因显示部分不符合地址搜索内容的结果网页,其中包括,政府公告通知网页、房地产及招聘广告网页、网友关于搜索内容的热心问答网页、新闻资讯网页等,这种网页被称为中文无效地址网页(后面简称:无效地址网页),包含符合地址搜索内容的结果网页称为有效地址网页。如何让其搜索结果显示更多的中文有效地址网页(后面简称:有效地址网页),使其更具有可参考性是需要解决的中文地址搜索完善方向之一,其中主要技术为网页过滤。
目前网页地址(Uniform Resource Locator,URL)过滤主要方法如下:
(1)静态黑白名单:此URL过滤解决方案依靠(企业)内部IT人员人工建立、更新与编辑站点黑白名单。缺点是,所有分类由一个或少数几个人自由决定,对于这种资源密集型而且缺乏客观性的站点分类方法,不仅会使许多被认可的网站被封锁或被禁止的网站允许通过,而且随着web站点的快速增长与相关技术的日益复杂,这种方案很难实现客观、细粒度的URL分类,是一种不成熟的过滤方案。
(2)关键字检索:采用数据库分类引擎。URL及其内容在根据预先定义的类别下通过分类引擎进行相应的关键字查找分析与分类(如赌博、色情及网上购物等),分类好的URL存储在一个集中的主数据库中,然后通过更新复制一份副本移交到客户本地数据库中。这种URL过滤方案的缺点是,随着网页数量的激增,由于一刀切的关键字分类技术和本地分类数据库的限制,无法实现更高、更准确的覆盖率和更广泛的URL分类。
(3)动态内容分析:采用启发式内容分析的方法,这种动态的分类技术,通过智能分析网站标题和网页html主体中相关内容的概率来确定URL类别。从理论上讲,相比前两类URL分类方案,这是一种很好的分类方法,然而在实际中它本身却存在问题,很多基于启发式的Web内容分析结果没有相关的配套技术实时地发送给终端用户,而且采用的仍然是传统的本地数据库进行存储。
由此可知,现有的URL过滤方法在过滤无效地址网页时,很难实现客观、细粒度的URL分类,精准度低。
发明内容
本发明的目的是提供一种无效地址网页过滤方法及系统,以解决现有的URL过滤方法过滤无效地址网页时精准度低的问题。
为实现上述目的,本发明提供了如下方案:
一种无效地址网页过滤方法,包括:
获取历史过滤特征词;
根据所述历史过滤特征词建立待过滤特征词数据库;
利用搜索引擎检索地理信息确定网页列表;所述网页列表包括无效地址网页以及有效地址网页;
根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;
获取所述待判断无效地址网页列表内无效地址网页的网页属性;所述网页属性包括标题、元数据标签页、网页正文以及标签;
根据所述网页属性确定网页文本并构建决策树;
根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果;
若所述第一判断结果表示为所述网页文本为无效地址网页,将所述无效地址网页从所述待判断无效地址网页列表内过滤。
可选的,所述根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表,具体包括:
获取所述网页列表内的所有网页的超文本标记语言文本;
根据所述待过滤特征词数据库确定特征词准确率以及特征词召回率;
引用所述特征词准确率以及所述特征词召回率,判断所述超文本标记语言文本内的特征词参数是否与所述待过滤特征词数据库内的特征词参数相匹配,得到第二判断结果;所述特征词参数包括特征词出现位置、特征词出现频率及特征词出现个数;
若所述第二判断结果表示为所述超文本标记语言文本内的特征词参数与所述待过滤特征词数据库内的特征词参数相匹配,确定所述超文本标记语言文本所对应的网页为无效地址网页,并将所述无效地址网页加入至所述待判断无效地址网页列表。
可选的,所述根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果,具体包括:
根据所述网页文本进行标签分类,确定标签分类结果;所述标签分类结果包括标签序号以及所述标签序号所对应的判别条件;
根据所述标签分类结果建立决策树;
根据所述决策树判断所述无效地址网页是否为有效地址网页,得到第一判断结果。
可选的,所述根据所述标签分类结果建立决策树,具体包括:
根据所述标签分类结果确定训练集以及所述训练集对应的属性集;
输入训练集D={(x1,y1),(x2,y2),…,(xm,ym)}以及属性集A={a1,a2,…,ad};D为训练网页数据的集合,其中(xm,ym)表示第m个网页的分类属性数据;所述分类属性数据包括标题以及正文,m为正整数;A为判断属性集合;
建立函数TreeGenerate(D,A);
根据所述函数TreeGenerate(D,A)生成节点node;
判断所述训练集D中样本是否全属于同一类别C,得到第三判断结果;
若所述第三判断结果表示为所述训练集D中样本全属于同一类别C,将节点node标记为C类叶结点;
判断所述属性集A是否等于φ或者所述训练集D中样本在所述属性集A上取值是否相同,得到第四判断结果;φ表示空集;
若所述第四判断结果表示为A等于φ或者所述训练集D中样本在所述属性集A上取值相同,将节点node标记为叶结点,类别标记为所述训练集D中样本数最多的类;
从所述属性集A中选择最优划分属性a*
获取所述最优划分属性a*内每一个a* V值;
根据所述a* V值确定样本子集Dv并为节点node生成一个分支结点;
判断所述样本子集Dv是否为空;得到第五判断结果;
若所述第五判断结果表示为所述样本子集为空,将所述分支结点标记为叶结点,类别标记为D中样本最多的类;
若所述第五判断结果表示为所述样本子集不为空,确定TreeGenerate(Dv,A\{a*})为分支结点;
根据标记的所有分支结点输出以节点node为根结点的一棵决策树。
一种无效地址网页过滤系统,包括:
历史过滤特征词获取模块,用于获取历史过滤特征词;
待过滤特征词数据库建立模块,用于根据历史过滤特征词建立待过滤特征词数据库;
网页列表确定模块,用于利用搜索引擎检索地理信息确定网页列表;所述网页列表包括无效地址网页以及有效地址网页;
待判断无效地址网页列表确定模块,用于根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;
网页属性获取模块,用于获取所述待判断无效地址网页列表内无效地址网页的网页属性;所述网页属性包括标题、元数据标签页、网页正文以及标签;
网页文本确定模块,用于根据所述网页属性确定网页文本并构建决策树;
第一判断模块,用于根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果;
无效地址网页过滤模块,用于若所述第一判断结果表示为所述网页文本为无效地址网页,将所述无效地址网页从所述待判断无效地址网页列表内过滤。
可选的,所述待判断无效地址网页列表确定模块具体包括:
超文本标记语言文本获取单元,用于获取所述网页列表内的所有网页的超文本标记语言文本;
特征词准确率以及特征词召回率确定单元,用于根据所述待过滤特征词数据库确定特征词准确率以及特征词召回率;
第二判断单元,用于引用所述特征词准确率以及所述特征词召回率,判断所述超文本标记语言文本内的特征词参数是否与所述待过滤特征词数据库内的特征词参数相匹配,得到第二判断结果;所述特征词参数包括特征词出现位置、特征词出现频率及特征词出现个数;
待判断无效地址网页列表确定单元,用于若所述第二判断结果表示为所述超文本标记语言文本内的特征词参数与所述待过滤特征词数据库内的特征词参数相匹配,确定所述超文本标记语言文本所对应的网页为无效地址网页,并将所述无效地址网页加入至所述待判断无效地址网页列表。
可选的,所述第一判断模块具体包括:
标签分类结果确定单元,用于根据所述网页文本进行标签分类,确定标签分类结果;所述标签分类结果包括标签序号以及所述标签序号所对应的判别条件;
决策树建立单元,用于根据所述标签分类结果建立决策树;
第一判断单元,用于根据所述决策树判断所述无效地址网页是否为有效地址网页,得到第一判断结果。
可选的,所述决策树建立单元具体包括:
训练集以及属性集确定子单元,用于根据所述标签分类结果确定训练集以及所述训练集对应的属性集;
训练集输入子单元,用于输入训练集D={(x1,y1),(x2,y2),…,(xm,ym)}以及属性集A={a1,a2,…,ad};D为训练网页数据的集合,其中(xm,ym)表示第m个网页的分类属性数据;所述分类属性数据包括标题以及正文,m为正整数;A为判断属性集合;
函数TreeGenerate(D,A)建立子单元,用于建立函数TreeGenerate(D,A);
节点node生成子单元,用于根据所述函数TreeGenerate(D,A)生成节点node;
第三判断子单元,用于判断所述训练集D中样本是否全属于同一类别C,得到第三判断结果;
叶结点第一标记子单元,用于若所述第三判断结果表示为所述训练集D中样本全属于同一类别C,将节点node标记为C类叶结点;
第四判断子单元,用于判断所述属性集A是否等于φ或者所述训练集D中样本在所述属性集A上取值是否相同,得到第四判断结果;φ表示空集;
叶结点第二标记子单元,用于若所述第四判断结果表示为A等于φ或者所述训练集D中样本在所述属性集A上取值相同,将节点node标记为叶结点,类别标记为所述训练集D中样本数最多的类;
最优划分属性选择子单元,用于从所述属性集A中选择最优划分属性a*
a* V值获取子单元,用于获取所述最优划分属性a*内每一个a* V值;
分支结点生成子单元,用于根据所述a* V值确定样本子集Dv并为节点node生成一个分支结点;
第五判断子单元,用于判断所述样本子集Dv是否为空;得到第五判断结果;
叶结点第三标记子单元,用于若所述第五判断结果表示为所述样本子集为空,将所述分支结点标记为叶结点,类别标记为D中样本最多的类;
分支节点确定子单元,用于若所述第五判断结果表示为所述样本子集不为空,确定TreeGenerate(Dv,A\{a*})为分支结点;
决策树输出子单元,用于根据标记的所有分支结点输出以节点node为根结点的一棵决策树。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提出了一种无效地址网页过滤方法及系统,包括两次过滤过程:初步过滤过程和二次过滤过程。初步过滤过程主要通过搜索引擎检索地理信息确定网页列表,根据待过滤特征词数据库过滤网页列表内无效地址网页;经过初步过滤过程过滤后的网页,将有效地址网页返回至有效地址网页集合,再根据无效地址网页的网页属性确定网页文本传送至二次过滤过程,执行文本分析判断是否将此网页作为无效地址网页。本发明所提供的过滤方法及系统不依赖人为操作,能够自动准确的过滤无效地址网页,依次执行两个过滤过程可以实现无效地址网页的精准过滤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的无效地址网页过滤方法流程图;
图2为本发明所提供的无效地址网页过滤系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种无效地址网页过滤方法及系统,基于搜索引擎检索地理信息的过滤方式提高过滤无效地址网络的精准度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的无效地址网页过滤方法流程图,如图1所示,一种无效地址网页过滤方法,包括:
步骤101:获取历史过滤特征词。
步骤102:根据所述历史过滤特征词建立待过滤特征词数据库。
步骤103:利用搜索引擎检索地理信息确定网页列表;所述网页列表包括无效地址网页以及有效地址网页。
地理信息检索包含搜索信息格式、搜索引擎选择和搜索结果的待处理网页数量几个注意事项,本发明的具体设置如下:
1)搜索信息的格式:
以城市-区县-街道-地点类型(属性)的搜索信息格式当作搜索信息模板。将范围从城市逐步缩小到街、道,并根据当次搜索需求的地点类型(属性)进行搜索。
例:长春市-朝阳区-卫星广场-银行
2)搜索引擎的选择
为了证明本无效地址网页过滤方法的适用性,本发明将多个搜索引擎(必应、百度、搜狗)的搜索结果结合的url列表作为样本数据进行实验。
3)搜索结果的待处理网页数量
考虑到往往搜索结果前面的网页可参考性比较高,因此本方法不会将每次的搜索结果都用来建立模型和自我学习。根据不同地址类别和多种搜索内容,通过多次比对得出获取搜索结果待过滤网页的最优数量约为100,所以此处选用每次搜索结果的前150个网页进行本方法的应用。
搜索引擎进行地理信息检索后会返回一个列表,列表的属性包含网页名称、网页描述和URL,初步过滤过程的核心工作是对返回列表进行初步筛选,采用关键字检索的方式试图将所有的无效地址网页全部过滤至二次过滤过程,此处暂时不考虑有效地址同时大量至二次过滤过程的问题。由于网页名称、网页描述和URL属于较短的文本特征应用机器学习方法项目周期长且效果一般,因此通过创建特征词数据库,对包含特征词的网页进行过滤,对检索结果列表网页进行初步过滤。
步骤104:根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表。
特征词匹配的步骤为:在待判断网页转化后的html文本中查找是否包含特征词,然后通过启发式规则来判断是否需要过滤该网页。
以验证本发明中方法框架初次过滤过滤模块的准确性和执行效率,得到本方法框架的科学性评价。表1为本发明所提供的分类结果示意表,如表1所示,TP(true positive)指被正确分类为无效地址网页的结果;TN(true negative)指被正确分类为有效地址网页的结果;FP(false positive)指被错误分类为无效地址网页的结果;FN(false negative)指被错误分类为有效地址网页的结果。
表1
Figure GDA0002673011800000101
Precision和Recall计算方式如下:
Figure GDA0002673011800000102
Figure GDA0002673011800000103
在特征词数据库内特征词数量的选择方面,在保证准确率(Precision)和召回率(Recall)的同时,减少特征词数据库中特征词的数量,从而提高方法执行效率。
初步过滤过程减少了部分噪声、相较于机器学习算法节省了时间复杂度,并为后面的二次过滤学习降低了工作量,减少了项目周期。后期工作为:将有效地址网页被返回,将初步判断为无效地址网页的url属性展开并传送至二次过滤过程,使二次过滤过程可以执行文本分析判断是否将此网页判断为无效地址网页。
步骤105:获取所述待判断无效地址网页列表内无效地址网页的网页属性;所述网页属性包括标题、元数据标签页、网页正文以及标签。
步骤106:根据所述网页属性确定网页文本并构建决策树。
步骤107:根据所述决策树判断所述网页文本是否为无效地址网页,若是,执行步骤108,若否,执行步骤109。
步骤108:将所述无效地址网页从所述待判断无效地址网页列表内过滤。
步骤109:根据所述无效地址网页建立无效地址网页黑名单。
本发明第一次判别过滤采用特征词过滤,若无法准确判别;导入二次判别模块,使用决策树将整个网页的文本属性进行详细判别。
表2为本发明所提供的HTML tags分类表,如表2所示,根据表2的分类规则将html网页根据结构进行tags分类,提取其各项参数与属性,对其各项属性采用决策树的机器学习方法对网页是否包含有效目标地址信息进行判断,核心方法为ID3决策树,其中表3中关键属性为决策树各个节点的判别条件。
表2
Figure GDA0002673011800000111
将待判断网页的html文本根据表2分为tags1,tags2,tags3,tags4,表3为本发明所提供的二次过滤过程中ID3决策树关键属性表,如表3所示,根据表3构建出关键属性的判别条件,通过ID3决策树算法构建处决策树,其中D为网页的训练集合,即决策树中训练使用的待过滤判断网页集合,属性集A{a1,a2,…,ad}其中ai(i∈1,2,...d)为第i个网页的各个tags属性的集合。
表3
Figure GDA0002673011800000121
Figure GDA0002673011800000131
决策树具有易操作与易解释性,通过简单的计算生成容易理解的关联规则和视觉特征。决策树在中等规模数据量时数据表现比较优秀,且由于即超文本标记语言(HyperText Mark-up Language,html)文本存在部分属性的数据缺失,决策树可以对缺失数据现象进行有效的处理。
决策树算法流程如下:
输入:训练集D={(x1,y1),(x2,y2),…,(xm,ym)};
属性集A={a1,a2,…,ad};D为训练网页数据的集合,其中(xm,ym)表示第m个网页的分类属性数据;所述分类属性数据包括标题以及正文,m为正整数;(如:第m个网页的标题数据,第m个网页的正文数据),A为判断属性集合(如:标题含有关键词,正文包含三个关键词,描述含有关键词);
过程:函数TreeGenerate(D,A)
生成节点node;
If D中样本全属于同一类别C then
将node标记为C类叶结点;return
end if
if A=φOR D中样本在A上取值相同then
将node标记为叶结点,其类别标记为D中样本数最多的类;return
end if
从A中选择最优划分属性a*
for a*的每一个值a* V do
为node生成一个分支;令Dv表示D中在a*上取值为a* V的样本子集;
If Dv为空then
将分支结点标记为叶结点,其类别标记为D中样本最多的类;return
else
以TreeGenerate(Dv,A\{a* V})为分支结点
else if
end for
输出:以node为根结点的一棵决策树。
在决策树生成的递归过程中,三种情况会导致递归返回:(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分。输入训练集D和属性集A后调用TreeGenerate(D,A),即决策树核心方法,将输出一个以node为根结点的决策树。
ID3算法引进信息论,以此为基础,以信息熵和信息增益为衡量标准,实现对数据的分类。决策树每个节点就对应一个属性,使得在每个非叶节点进行测试时,能够获得关于被测试例子最大的类别信息。贪心法是此算法思想基础,每个节点求解时,都是取得最优的,算法采用自顶向下的策略,搜索全部空间的一部分,保证所作的测试次数最少,分类速度快,其计算时间是样本个数、属性个数和节点个数之积的线性函数。Web网页的特征属性为离散数据因此不涉及到对连续数据的处理问题,且相互关联规则并不十分复杂。
在划分属性方面,ID3算法以信息增益(information gain)为标准来进行属性划分。信息熵(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…|pk=(k=1,2,...,|γ|)|),则D的信息熵定义为
Figure GDA0002673011800000151
Ent(D)的值越小,D的纯度越高。
假定离散属性a有V个可能的取值{a1,a2,...,av},若使用a来对样本集D进行划分,则会产生V个分支结点,其中第v个分支结点包括了D中所有在属性a上取值为av的样本,记为Dv。根据公式1计算出Dv的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分枝结点赋予权重|DV|/|D|,即样本数越多的分支结点的影响越大,便可以计算出用属性a对样本集D进行划分所获得的信息增益。
Figure GDA0002673011800000152
然后通过计算每个属性的信息增益,并选取具有最高增益的属性作为集合的测试属性。对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分枝,据此划分样本。
首先将待判断网页转换成html格式,html格式可以提供其结构中的各属性值,然后将其结构进行特征分析,提取其中各个可应用属性的值,应用提取出的特征及其关联利用决策树进行是否为无效地址网页的判断。
将网页html结构属性进行tag分类,此处将html的结构属性分为四类,并设置相对应的权重数值,网页的实际文本类别不止如下四类,但由于网页结构不统一且文本内容复杂,此处将其分为固定的四类,如表1所示。
定义特征词c的加权词频为:
Figure GDA0002673011800000161
fc,p表示特征词c所在tag类别p时出现的词频,λ(p)为加权函数,确定加权函数为
Figure GDA0002673011800000162
式中p为特征词c所在tag类别,特征词c的复合权重
Figure GDA0002673011800000163
的计算函数为
Figure GDA0002673011800000164
tfc为特征词c的加权词频,idfc为反文档频率,N为训练样本中网页总数,Nc为含有特征词c的网页数,选取复合权重top40-45的特征词构成特征词数据库。
在决策树的关键属性设置为两个类别(1)特征词在网页中出现的词频(2)特征词在网页中出现的位置,即所属tag的类别。
根据特征词数据库的特征词表进行条件判断,将训练网页标记为有效地址网页(Valid address Web page)或无效地址网页(Invalid address Web page),有效地址网页类别属性标记为V;无效地址网页类别属性标记为I。ID3算法根据关键属性通过计算各属性的信息熵和信息增益,构建一个完整的决策树。无效地址网页过滤方法中ID3决策树关键属性的具体设定见表3。
当前训练样本集合D中无效地址网页和有效地址网页样本所占的比例为pk(k=1,2|pk=(k=1,2)|),则D的类别信息熵为
Figure GDA0002673011800000165
已知决策树离散属性a有15个可能的取值{a1,a2,...,a15},即表3中的15个属性,使用a来对样本集D进行划分,则会产生15个分支结点,其中第v个分支结点包括了D中所有在属性a上取值为av的样本,记为Dv。根据公式1计算出Dv的属性信息熵,再考虑到不同的分支结点所包含的样本数不同,给分枝结点赋予权重|DV|/|D|,即样本数越多的分支结点的影响越大,便可以计算出用属性a对样本集D进行划分所获得的信息增益。
Figure GDA0002673011800000171
选择属性信息增益的属性作为集合的划分属性,对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分枝,用相同算法对每一个分支节点进行进一步的划分。
二次过滤过程将初步过滤模块发送来的html文本,提取其html结构的关键属性参数后,通过构建好的决策树进行文本分析,获得是否为无效地址网页的结果。将有效地址网页返回,无效地址网页的url进行过滤操作。
图2为本发明所提供的无效地址网页过滤系统结构图,如图2所示,一种无效地址网页过滤系统,包括:
历史过滤特征词获取模块201,用于获取历史过滤特征词。
待过滤特征词数据库建立模块202,用于根据历史过滤特征词建立待过滤特征词数据库。
网页列表确定模块203,用于利用搜索引擎检索地理信息确定网页列表。所述网页列表包括无效地址网页以及有效地址网页。
待判断无效地址网页列表确定模块204,用于根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表。
所述待判断无效地址网页列表确定模块204具体包括:超文本标记语言文本获取单元,用于获取所述网页列表内的所有网页的超文本标记语言文本;特征词准确率以及特征词召回率确定单元,用于根据所述待过滤特征词数据库确定特征词准确率以及特征词召回率;第二判断单元,用于引用所述特征词准确率以及所述特征词召回率,判断所述超文本标记语言文本内的特征词参数是否与所述待过滤特征词数据库内的特征词参数相匹配,得到第二判断结果;所述特征词参数包括特征词出现位置、特征词出现频率及特征词出现个数。
第二判断单元使用决策树对网页元标签内属性进行分析,不单单是特征词匹配,还应该包含特征词出现位置、特征词出现频率及特征词出现个数几个参考因素;第二判断单元会直接返回结果,结果为此网页是有效网页或无效地址网页,根据返回的答案可以构建待判断无效地址网页列表。
待判断无效地址网页列表确定单元,用于若所述第二判断结果表示为所述超文本标记语言文本内的特征词参数与所述待过滤特征词数据库内的特征词参数相匹配,确定所述超文本标记语言文本所对应的网页为无效地址网页,并将所述无效地址网页加入至所述待判断无效地址网页列表。
通过信息检索方式获取与大量地理信息相关的网页标题及摘要,形成一个带判断网页列表,若其中的标题及摘要包含特征词数据库中的词汇,那么导入二次判断模块,通过网页url展开对网页的html文本内属性进行是否需要过滤的决断。如果其中不包含特征词数据库中的词汇直接判断为有效地址网页即可。
网页属性获取模块205,用于获取所述待判断无效地址网页列表内无效地址网页的网页属性;所述网页属性包括标题、元数据标签页、网页正文以及标签。
网页文本确定模块206,用于根据所述网页属性确定网页文本并构建决策树。
第一判断模块207,用于根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果。
所述第一判断模块207具体包括:标签分类结果确定单元,用于根据所述网页文本进行标签分类,确定标签分类结果;所述标签分类结果包括标签序号以及所述标签序号所对应的判别条件;决策树建立单元,用于根据所述标签分类结果建立决策树;第一判断单元,用于根据所述决策树判断所述无效地址网页是否为有效地址网页,得到第一判断结果。
所述决策树建立单元具体包括:训练集以及属性集确定子单元,用于根据所述标签分类结果确定训练集以及所述训练集对应的属性集;训练集输入子单元,用于输入训练集D={(x1,y1),(x2,y2),…,(xm,ym)}以及属性集A={a1,a2,…,ad};函数TreeGenerate(D,A)建立子单元,用于建立函数TreeGenerate(D,A);节点node生成子单元,用于根据所述函数TreeGenerate(D,A)生成节点node;第三判断子单元,用于判断所述训练集D中样本是否全属于同一类别C,得到第三判断结果;叶结点第一标记子单元,用于若所述第三判断结果表示为所述训练集D中样本全属于同一类别C,将节点node标记为C类叶结点;第四判断子单元,用于判断所述属性集A是否等于φ或者所述训练集D中样本在所述属性集A上取值是否相同,得到第四判断结果;φ表示空集;叶结点第二标记子单元,用于若所述第四判断结果表示为A等于φ或者所述训练集D中样本在所述属性集A上取值相同,将节点node标记为叶结点,类别标记为所述训练集D中样本数最多的类;最优划分属性选择子单元,用于从所述属性集A中选择最优划分属性a*;a* V值获取子单元,用于获取所述最优划分属性a*内每一个a* V值;分支结点生成子单元,用于根据所述a* V值确定样本子集Dv并为节点node生成一个分支结点;第五判断子单元,用于判断所述样本子集Dv是否为空;得到第五判断结果;叶结点第三标记子单元,用于若所述第五判断结果表示为所述样本子集为空,将所述分支结点标记为叶结点,类别标记为D中样本最多的类;分支节点确定子单元,用于若所述第五判断结果表示为所述样本子集不为空,确定TreeGenerate(Dv,A\{a*})为分支结点;决策树输出子单元,用于根据标记的所有分支结点输出以节点node为根结点的一棵决策树。
无效地址网页过滤模块208,用于若所述第一判断结果表示为所述网页文本为无效地址网页,将所述无效地址网页从所述待判断无效地址网页列表内过滤。
本发明提出了无效地址网页过滤与智能黑名单建立相结合的基于网页各属性文本特征在机器学习上应用的一种面向信息检索的智能化中文无效地理信息网页过滤方法,可用于过滤无效地址网页并智能构建无效地址网页黑名单;本发明所提供的过滤方法及系统在过滤准确性方面能够充分满足实际应用场景,且执行效率远远优于传统的决策树方法。本方法具有在中文搜索引擎进行地址信息搜索时过滤无效地址网页的实际应用前景。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种无效地址网页过滤方法,其特征在于,包括:
获取历史过滤特征词;
根据所述历史过滤特征词建立待过滤特征词数据库;
利用搜索引擎检索地理信息确定网页列表;所述网页列表包括无效地址网页以及有效地址网页;
根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;
获取所述待判断无效地址网页列表的网页属性;所述网页属性包括标题、元数据标签页、网页正文以及标签;
根据所述网页属性确定网页文本并构建决策树;
根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果;
若所述第一判断结果表示为所述网页文本为无效地址网页,将所述无效地址网页从所述待判断无效地址网页列表内过滤。
2.根据权利要求1所述的过滤方法,其特征在于,所述根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表,具体包括:
获取所述网页列表内的所有网页的超文本标记语言文本;
根据所述待过滤特征词数据库确定特征词准确率以及特征词召回率;
引用所述特征词准确率以及所述特征词召回率,判断所述超文本标记语言文本内的特征词参数是否与所述待过滤特征词数据库内的特征词参数相匹配,得到第二判断结果;所述特征词参数包括特征词出现位置、特征词出现频率及特征词出现个数;若所述第二判断结果表示为所述超文本标记语言文本内的特征词参数与所述待过滤特征词数据库内的特征词参数相匹配,确定所述超文本标记语言文本所对应的网页为无效地址网页,并将所述无效地址网页加入至所述待判断无效地址网页列表。
3.根据权利要求1所述的过滤方法,其特征在于,所述根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果,具体包括:
根据所述网页文本进行标签分类,确定标签分类结果;所述标签分类结果包括标签序号以及所述标签序号所对应的判别条件;
根据所述标签分类结果建立决策树;
根据所述决策树判断所述无效地址网页是否为有效地址网页,得到第一判断结果。
4.根据权利要求3所述的过滤方法,其特征在于,所述根据所述标签分类结果建立决策树,具体包括:
根据所述标签分类结果确定训练集以及所述训练集对应的属性集;
输入训练集D={(x1,y1),(x2,y2),…,(xm,ym)}以及属性集A={a1,a2,…,ad};D为训练网页数据的集合,其中(xm,ym)表示第m个网页的分类属性数据;所述分类属性数据包括标题以及正文,m为正整数;A为判断属性集合;
建立函数TreeGenerate(D,A);
根据所述函数TreeGenerate(D,A)生成节点node;
判断所述训练集D中样本是否全属于同一类别C,得到第三判断结果;
若所述第三判断结果表示为所述训练集D中样本全属于同一类别C,将节点node标记为C类叶结点;
判断所述属性集A是否等于φ或者所述训练集D中样本在所述属性集A上取值是否相同,得到第四判断结果;φ表示空集;
若所述第四判断结果表示为A等于φ或者所述训练集D中样本在所述属性集A上取值相同,将节点node标记为叶结点,类别标记为所述训练集D中样本数最多的类;
从所述属性集A中选择最优划分属性a*
获取所述最优划分属性a*内每一个a* V值;
根据所述a* V值确定样本子集Dv并为节点node生成一个分支结点;
判断所述样本子集Dv是否为空;得到第五判断结果;
若所述第五判断结果表示为所述样本子集为空,将所述分支结点标记为叶结点,类别标记为D中样本最多的类;
若所述第五判断结果表示为所述样本子集不为空,确定TreeGenerate(Dv,A\{a*})为分支结点;
根据标记的所有分支结点输出以节点node为根结点的一棵决策树。
5.一种无效地址网页过滤系统,其特征在于,包括:
历史过滤特征词获取模块,用于获取历史过滤特征词;
待过滤特征词数据库建立模块,用于根据所述历史过滤特征词建立待过滤特征词数据库;
网页列表确定模块,用于利用搜索引擎检索地理信息确定网页列表;所述网页列表包括无效地址网页以及有效地址网页;
待判断无效地址网页列表确定模块,用于根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;
网页属性获取模块,用于获取所述待判断无效地址网页列表内待判断无效地址网页的网页属性;所述网页属性包括标题、元数据标签页、网页正文以及标签;
网页文本确定模块,用于根据所述网页属性确定网页文本并构建决策树;
第一判断模块,用于根据所述决策树判断所述网页文本是否为无效地址网页,得到第一判断结果;
无效地址网页过滤模块,用于若所述第一判断结果表示为所述网页文本为无效地址网页,将所述无效地址网页从所述待判断无效地址网页列表内过滤。
6.根据权利要求5所述的过滤系统,其特征在于,所述待判断无效地址网页列表确定模块具体包括:
超文本标记语言文本获取单元,用于获取所述网页列表内的所有网页的超文本标记语言文本;
特征词准确率以及特征词召回率确定单元,用于根据所述待过滤特征词数据库确定特征词准确率以及特征词召回率;
第二判断单元,用于引用所述特征词准确率以及所述特征词召回率,判断所述超文本标记语言文本内的特征词参数是否与所述待过滤特征词数据库内的特征词参数相匹配,得到第二判断结果;所述特征词参数包括特征词出现位置、特征词出现频率及特征词出现个数;
待判断无效地址网页列表确定单元,用于若所述第二判断结果表示为所述超文本标记语言文本内的特征词参数与所述待过滤特征词数据库内的特征词参数相匹配,确定所述超文本标记语言文本所对应的网页为无效地址网页,并将所述无效地址网页加入至所述待判断无效地址网页列表。
7.根据权利要求5所述的过滤系统,其特征在于,所述第一判断模块具体包括:
标签分类结果确定单元,用于根据所述网页文本进行标签分类,确定标签分类结果;所述标签分类结果包括标签序号以及所述标签序号所对应的判别条件;
决策树建立单元,用于根据所述标签分类结果建立决策树;
第一判断单元,用于根据所述决策树判断所述无效地址网页是否为有效地址网页,得到第一判断结果。
8.根据权利要求7所述的过滤系统,其特征在于,所述决策树建立单元具体包括:
训练集以及属性集确定子单元,用于根据所述标签分类结果确定训练集以及所述训练集对应的属性集;
训练集输入子单元,用于输入训练集D={(x1,y1),(x2,y2),…,(xm,ym)}以及属性集A={a1,a2,…,ad};D为训练网页数据的集合,其中(xm,ym)表示第m个网页的分类属性数据;所述分类属性数据包括标题以及正文,m为正整数;A为判断属性集合;
函数TreeGenerate(D,A)建立子单元,用于建立函数TreeGenerate(D,A);
节点node生成子单元,用于根据所述函数TreeGenerate(D,A)生成节点node;
第三判断子单元,用于判断所述训练集D中样本是否全属于同一类别C,得到第三判断结果;
叶结点第一标记子单元,用于若所述第三判断结果表示为所述训练集D中样本全属于同一类别C,将节点node标记为C类叶结点;
第四判断子单元,用于判断所述属性集A是否等于φ或者所述训练集D中样本在所述属性集A上取值是否相同,得到第四判断结果;φ表示空集;
叶结点第二标记子单元,用于若所述第四判断结果表示为A等于φ或者所述训练集D中样本在所述属性集A上取值相同,将节点node标记为叶结点,类别标记为所述训练集D中样本数最多的类;
最优划分属性选择子单元,用于从所述属性集A中选择最优划分属性a*
a* V值获取子单元,用于获取所述最优划分属性a*内每一个a* V值;
分支结点生成子单元,用于根据所述a* V值确定样本子集Dv并为节点node生成一个分支结点;
第五判断子单元,用于判断所述样本子集Dv是否为空;得到第五判断结果;
叶结点第三标记子单元,用于若所述第五判断结果表示为所述样本子集为空,将所述分支结点标记为叶结点,类别标记为D中样本最多的类;
分支节点确定子单元,用于若所述第五判断结果表示为所述样本子集不为空,确定TreeGenerate(Dv,A\{a*})为分支结点;
决策树输出子单元,用于根据标记的所有分支结点输出以节点node为根结点的一棵决策树。
CN201811273076.6A 2018-10-30 2018-10-30 一种无效地址网页过滤方法及系统 Active CN109446424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273076.6A CN109446424B (zh) 2018-10-30 2018-10-30 一种无效地址网页过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273076.6A CN109446424B (zh) 2018-10-30 2018-10-30 一种无效地址网页过滤方法及系统

Publications (2)

Publication Number Publication Date
CN109446424A CN109446424A (zh) 2019-03-08
CN109446424B true CN109446424B (zh) 2020-10-27

Family

ID=65549126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273076.6A Active CN109446424B (zh) 2018-10-30 2018-10-30 一种无效地址网页过滤方法及系统

Country Status (1)

Country Link
CN (1) CN109446424B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222031A (zh) * 2019-11-22 2020-06-02 成都市映潮科技股份有限公司 一种网站判别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
WO2016158768A1 (ja) * 2015-03-30 2016-10-06 株式会社メガチップス クラスタリング装置及び機械学習装置
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012156971A1 (en) * 2011-05-18 2012-11-22 Netspark Ltd. Real-time single-sweep detection of key words and content analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
WO2016158768A1 (ja) * 2015-03-30 2016-10-06 株式会社メガチップス クラスタリング装置及び機械学習装置
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A web search-centric approach to recommender systems with URLs as minimal user contexts;W.K.Chan;《Journal of Systems and Software》;20110630;第84卷(第6期);全文 *
基于内容的不良网页信息过滤方法研究;刘巍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130915;第12卷(第9期);全文 *

Also Published As

Publication number Publication date
CN109446424A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
CN106649272B (zh) 一种基于混合模型的命名实体识别方法
CN105045875B (zh) 个性化信息检索方法及装置
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
CN102262634B (zh) 一种自动问答方法及系统
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
EP1618503A2 (en) Concept network
CN106294535B (zh) 网站的识别方法和装置
WO2008014702A1 (fr) Procédé et système d'extraction de mots nouveaux
CN101140588A (zh) 一种关联关系搜索结果的排序方法及装置
CN103810251B (zh) 一种文本提取方法及装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN105718585B (zh) 文档与标签词语义关联方法及其装置
US20050071365A1 (en) Method for keyword correlation analysis
CN103886020A (zh) 一种房地产信息快速搜索方法
CN106407377A (zh) 基于人工智能的搜索方法和装置
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN104636386A (zh) 信息监控方法及装置
CN109446424B (zh) 一种无效地址网页过滤方法及系统
CN112711716A (zh) 一种基于知识图谱的海洋产业新闻推送方法及系统
CN103823847A (zh) 一种关键词的扩充方法及装置
CN111966899A (zh) 搜索排序方法、系统及计算机可读存储介质
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant