CN106610998A - 一种新型的网页数据基于地区噪音过滤方法 - Google Patents

一种新型的网页数据基于地区噪音过滤方法 Download PDF

Info

Publication number
CN106610998A
CN106610998A CN201510700421.XA CN201510700421A CN106610998A CN 106610998 A CN106610998 A CN 106610998A CN 201510700421 A CN201510700421 A CN 201510700421A CN 106610998 A CN106610998 A CN 106610998A
Authority
CN
China
Prior art keywords
main line
area
line area
noise
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510700421.XA
Other languages
English (en)
Inventor
顾成华
瞿伟
熊俭
李广兵
王峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201510700421.XA priority Critical patent/CN106610998A/zh
Publication of CN106610998A publication Critical patent/CN106610998A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明一种新型的网页数据基于地区噪音过滤方法,属于网页主题提取技术领域,包括以下步骤,互联网访问目标网页页面,提取网页页面所有地区;判断网页是否含有地区;将网页页面提取的地区归类并计算得分:判断主线地区是否超过一定阀值;根据上一步判断出来的主线地区与非主线地区;根据当前地区重新进行主线地区提取;判断主线地区是否超过一定阀值。本发明通过提取网页内容中的地区,以地区作为维度根据一定的算法判断网页是否为噪音数据,优化了网页内容在地区这一维度的筛选,为大规模的区域化数据检索提供了新的高效解决方案;此外本发明中的地区归类算法,可运行于网页去噪,也可独立一个组件作为地区归类。

Description

一种新型的网页数据基于地区噪音过滤方法
技术领域
本发明涉及一种互联网网页处理方法,具体涉及一种新型的网页数据基于地区噪音过滤方法,属于网页主题提取技术领域。
背景技术
随着互联网的迅猛发展,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,网络的“信息过载”包含了大量的噪音数据,这也成为推动信息过滤发展的动力。互联网信息过滤将改善网络信息的质量,使得信息的推送与检索变得更加精准,有意义,从而提高信息服务的质量。
传统的互联网噪音过滤根据网页的DOM树结构,提取网页文档不同元素的文本内容,基于一些算法,去除网页文档中的噪音标签,如script,style等。
现有的互联网噪音过滤主要是过滤掉网页中的广告,插件等垃圾标签,但是对于根据网页中地区为维度来判断是否为噪音的技术还比较欠缺。
互联网的网页内容很多都包含地区属性,对网页的地区进行必要的分析,从而判断网页是否为区域性噪音网页。这也是本发明需要解决的技术问题
发明内容
本发明针对现有常规网页噪音判断,缺少了对网页内容中地区维度的分析,不能够判断网页是否为区域性噪音网页,因此提出一种新型的网页数据基于地区噪音过滤方法。
为达到上述目的,本发明采用的技术方案是:一种新型的网页数据基于地区噪音过滤方法,所述网页数据基于地区噪音过滤方法,包括以下步骤,
(1)、互联网访问目标网页页面,提取网页页面所有地区;
(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;
(3)、将网页页面提取的地区归类并计算得分:
其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.
如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;
(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;
(5)、根据步骤(3)判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;
(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);
(7)、判断主线地区是否超过步骤(3)中的阀,超过则为噪音数据,否则为非噪音数据。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明新型的网页数据基于地区噪音过滤方法,通过提取网页内容中的地区,以地区作为维度根据一定的算法判断网页是否为噪音数据,优化了网页内容在地区这一维度的筛选,为大规模的区域化数据检索提供了新的高效解决方案;此外本发明中的地区归类算法,可运行于网页去噪,也可独立一个组件作为地区归类。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为本发明的网页数据基于地区噪音过滤方法系统流程图;
附图2为本发明的网页数据基于地区噪音过滤方法中主线地区判断流程图。
具体实施方式
下面结合具体实施例对本发明作更详细的描述:
本发明针对现有常规网页噪音判断,缺少了对网页内容中地区这一维度的分析,然而地区这一维度对于网页是否为噪音有着重要的判断依据,对于网页数据去噪,尤其是对于区域性的数据搜集,而提出的本发明的网页数据基于地区噪音过滤技术,来分析网页,通过提取网页内容中的地区,以地区作为维度根据一定的算法判断网页是否为噪音数据,从而去除噪音。
如附图1所示的,本发明网页数据基于地区噪音过滤方法,包括以下步骤,
(1)、互联网访问目标网页页面,提取网页页面所有地区;
(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;
(3)、将网页页面提取的地区归类并计算得分:
其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.
如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;
(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;
(5)、根据第(3)步骤判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;
(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);
(7)、判断主线地区是否超过步骤(3)中的阀值,超过则为噪音数据,否则为非噪音数据。
其中需要说明的:
主线地区:文章主题内容所说明的地区;
非主线地区:非文章主题内容所说明的地区;
误命中地区:非主线地区中与主线地区命中同一地区词,非主线地区为误命中。
本发明中的网页去噪算法:基于网页地区噪音判断,优化了网页内容在地区这一维度的筛选,为大规模的区域化数据检索提供了新的高效解决方案;此外本发明中的地区归类算法,可运行于网页去噪,也可独立一个组件作为地区归类。
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制;凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (1)

1.一种新型的网页数据基于地区噪音过滤方法,其特征在于:包括以下处理步骤,
(1)、互联网访问目标网页页面,提取网页页面所有地区;
(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;
(3)、将网页页面提取的地区归类并计算得分:
其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.
如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;
(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;
(5)、根据第(3)步骤判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;
(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);
(7)、判断主线地区是否超过步骤(3)中的阀值,超过则为噪音数据,否则为非噪音数据。
CN201510700421.XA 2015-10-26 2015-10-26 一种新型的网页数据基于地区噪音过滤方法 Pending CN106610998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510700421.XA CN106610998A (zh) 2015-10-26 2015-10-26 一种新型的网页数据基于地区噪音过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510700421.XA CN106610998A (zh) 2015-10-26 2015-10-26 一种新型的网页数据基于地区噪音过滤方法

Publications (1)

Publication Number Publication Date
CN106610998A true CN106610998A (zh) 2017-05-03

Family

ID=58613363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510700421.XA Pending CN106610998A (zh) 2015-10-26 2015-10-26 一种新型的网页数据基于地区噪音过滤方法

Country Status (1)

Country Link
CN (1) CN106610998A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528811A (zh) * 2022-01-21 2022-05-24 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN103064951A (zh) * 2012-12-31 2013-04-24 南京烽火星空通信发展有限公司 一种舆情信息的地域识别方法和装置
US20150012543A1 (en) * 2013-07-02 2015-01-08 Via Technologies, Inc. Region labeling method and device of data documents
CN104965849A (zh) * 2015-03-31 2015-10-07 哈尔滨工程大学 一种基于wvp_dom树相似性的网页不变形噪音过滤方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN103064951A (zh) * 2012-12-31 2013-04-24 南京烽火星空通信发展有限公司 一种舆情信息的地域识别方法和装置
US20150012543A1 (en) * 2013-07-02 2015-01-08 Via Technologies, Inc. Region labeling method and device of data documents
CN104965849A (zh) * 2015-03-31 2015-10-07 哈尔滨工程大学 一种基于wvp_dom树相似性的网页不变形噪音过滤方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528811A (zh) * 2022-01-21 2022-05-24 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质
CN114528811B (zh) * 2022-01-21 2022-09-02 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN104598577B (zh) 一种网页正文的提取方法
CN105279277A (zh) 知识数据的处理方法和装置
CN102207961B (zh) 一种网页自动分类方法及装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN101794311A (zh) 基于模糊数据挖掘的中文网页自动分类方法
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN106250402B (zh) 一种网站分类方法及装置
CN105117436B (zh) 网站频道自动挖掘方法
CN106599160A (zh) 一种内容规则库管理系统及其编码方法
CN103440315B (zh) 一种基于主题的Web页面清洗方法
CN103902619A (zh) 一种网络舆情监控方法及系统
CN102811207A (zh) 网络信息推送方法及系统
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN102521402B (zh) 文本过滤系统及方法
CN101673263B (zh) 视频内容的搜索方法
CN103455572B (zh) 获取网页中影视主体的方法及装置
CN103218420A (zh) 一种网页标题提取方法及装置
CN103778164A (zh) 一种网页链接特征模式识别算法
CN106610998A (zh) 一种新型的网页数据基于地区噪音过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170503