CN102541937B - 一种网页信息探测方法及系统 - Google Patents

一种网页信息探测方法及系统 Download PDF

Info

Publication number
CN102541937B
CN102541937B CN2010106184034A CN201010618403A CN102541937B CN 102541937 B CN102541937 B CN 102541937B CN 2010106184034 A CN2010106184034 A CN 2010106184034A CN 201010618403 A CN201010618403 A CN 201010618403A CN 102541937 B CN102541937 B CN 102541937B
Authority
CN
China
Prior art keywords
text
character block
webpage
title
source file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010106184034A
Other languages
English (en)
Other versions
CN102541937A (zh
Inventor
王松
梁汝峰
张丹
孙红娥
杨建武
吴新丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN2010106184034A priority Critical patent/CN102541937B/zh
Priority to US13/997,251 priority patent/US9519718B2/en
Priority to EP11850062.8A priority patent/EP2657853A4/en
Priority to JP2013545031A priority patent/JP2014502753A/ja
Priority to PCT/CN2011/084487 priority patent/WO2012083874A1/zh
Publication of CN102541937A publication Critical patent/CN102541937A/zh
Application granted granted Critical
Publication of CN102541937B publication Critical patent/CN102541937B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页信息探测方法及系统。本发明预先抽取网页正文的关键词,将从该网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。本发明能够提高网页信息探测的准确率。

Description

一种网页信息探测方法及系统
技术领域
本发明属于数据监控技术领域,具体涉及一种网页信息探测方法及系统。
背景技术
随着国际互联网在全球范围内的迅猛发展,利用互联网传播和获取各种信息,特别是新闻信息成为现代人的主要手段。人们通过国际互联网,可以很方便地在计算机屏幕上访问他们所需要的任何文字、图片。同时,网上新闻服务内容与方式也日益增多,电子邮件、网络新闻组、万维网浏览、网络论坛等等,使得互联网日渐成为大众传媒新兴的重要载体之一。
互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。
应用网络舆情监控系统可以对繁杂的互联网信息进行有效的监控,但大多数舆情监控系统对不良信息的URL存在,内容不停的删除恢复、恢复删除的“躲猫猫”式的经营方式束手无策。因此网络舆情急需一种新的Web信息探测系统,以提高Web信息探测的准确率。
目前,国内外针对Web信息探测的方式主要包括以下几种:
1.主要利用了XMLHTTP的一些方法和属性来获取服务器的信息,获取请求返回的状态码来检测所访问URL的网页是否被删除。这种方法只能探测URL是否被删除,而不能探测URL存在,内容被删除或改变这种情况,探测的准确率较低。
2.从HTTP响应消息获取状态码,通过判断状态码是200或401来检测URL是否被删除,无法鉴别只是内容被删除的情况,准确率较低。
3.把域名解析成IP地址时,通过判断Sockets是否异常来检测URL是否被删除,同样无法应对内容被删除的情况。
现有的Web信息探测方式的准确率普遍较低,基本上都是依靠返回状态码来检测URL是否被删除,无法应对URL存在,内容被删除或改变的情况。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种准确率高的网页信息探测方法及系统。
为解决上述技术问题,本发明采用的技术方案如下:
一种网页信息探测方法,所述方法预先抽取网页正文的关键词,将从该网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度P确定待探测网页信息是否存在。
一种网页信息探测系统,包括用于抽取网页正文关键词的抽取装置;
用于将从网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中的存储装置;
用于获取待探测网页源文件的获取装置;
用于从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度P确定待探测网页信息是否存在的探测装置。
本发明所述的方法及系统,将从网页信息中提取的关键词作为探测该网页信息是否存在的依据,可以有力地探测到URL存在、信息发生变化的情况,大大提高了网页信息探测的准确率,有效地维护了良好的网络环境,为互联网的安全提供了保障。而且,能够从结构复杂、形态各异的HTML信息中提取较为准确的正文信息,根据正文及标题信息获取与网页内容较为相关的段落摘要、关键词等信息,供其它网络产品显示正文、摘要及关键词时所用。
附图说明
图1是具体实施方式中网页信息探测系统的结构框图;
图2是具体实施方式中网页信息探测方法的流程图;
图3是具体实施方式中抽取网页信息关键词的方法流程;
图4是具体实施方式中采用数组存储文字块的示意图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
本发明主要应用于网页地址存在、网页内容发生变化的情况下探测网页信息是否存在,其核心思想是:预先抽取网页信息的关键词,将从该网页信息中抽取的关键词与该网页URL的对应关系存储到数据库中,作为探测该网页信息的证据;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用该关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。
图1示出了本实施方式中网页信息探测系统的结构。如图1所示,该系统包括抽取装置11,与抽取装置11连接的存储装置12;获取装置13,与获取装置13连接的过滤装置15,与过滤装置15连接的匹配装置14。
抽取装置11用于抽取网页信息的关键词。
存储装置12用于将从网页信息中抽取的关键词与该网页URL的对应关系存储到数据库中,作为探测依据。
获取装置13用于获取待探测网页的源文件。
过滤装置15用于过滤待探测网页源文件中的无用信息,包括标题。
探测装置14用于从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。
图2示出了采用图1所示系统探测网页信息的方法流程。如图2所示,该方法包括以下步骤:
(1)获取装置13获取待探测网页的HTML源文件。
(2)过滤装置15过滤待探测网页源文件中的无用信息,包括标题,获取一个较为干净的文字信息源文件。
先预定义无用HTML标签库,存储无用的HTML标签。所述无用的HTML标签包括头标签类、程式语句类、多媒体语句类、修饰类、表单输入类、链接类等类型标签。
根据源文件信息并结合无用HTML标签库,通过组织特定的正则表达式语句的方式删除无用标签及标签所修饰的内容,只保留可划分区域类的标签及标签中的内容。
此处过滤掉标题标签内的内容,是为了防止页面信息被删除、标题存在的情况干扰探测。
(3)匹配装置14从数据库中读取与待探测网页相同URL的关键词,然后匹配读取的关键词与过滤后的待探测网页源文件信息。
用数据库中留存的关键词证据与文字信息源文件进行匹配,根据匹配程度P探测网页信息是否存在。匹配程度P可以根据具体应用环境来决定是完全匹配还是部分匹配。
图3示出了本实施方式中抽取网页信息关键词的方法流程。如图3所示,抽取过程包括以下步骤:
(a)读取网页的源文件信息。
读取网页源文件时,首先通过模拟HTTP请求返回信息状态码。如果状态码非200或有异常出现,则可以直接断定该URL的网页信息已被删除;如果正常返回200,则通过HttpMethodBase的getResponseBody()方法获取网页源文件的字节数组及其编码格式,通过编码格式将源文件字节数组转化为字符形式的源文件信息。
(b)从源文件信息中获取网页的标题信息。
根据源文件信息,通过标签匹配或者正则表达式的方式获取标题标签中的标题信息,并用Lucene“庖丁解牛”的分词方法,对标题进行分词。如果无标题,或者标题简短、无法分词,则后续探测操作可以不用标题作为参照,返回的标题可以为空。
(c)从源文件信息中提取正文,具体过程如下:
(i)过滤源文件中的无用信息。
根据源文件信息并结合无用HTML标签库,通过组织特定的正则表达式语句的方式删除无用标签及标签所修饰的内容,依次删除头标签类、程式语句类、多媒体语句类、修饰类、表单输入类、链接类等标签及标签中信息内容,只保留可划分区域类的标签及标签中信息内容。
(ii)拆分过滤后的源文件信息。
根据划分区域类标签对过滤后的源文件信息执行现有的字符截取算法,截取过滤后的源文件信息为各个文字块,并可获取任意两相邻文字块之间各种划分区域类标签的数量。
例如:假设过滤后源文件A仅由A1和A2两文字块组成,A1和A2之间仅随机排列B1和B2两种划分区域类标签,数量分别为n1和n2。根据字符截取算法,可先依据标签B1截取A,获取AB1和AB2两块,以及两块之间标签B1数n1,组合AB1和AB2两块,得到无标签B1的源文件块A,继续依据标签B2截取A,获取新的AB1和AB2两块,以及两块之间标签B2数n2,依此类推。
将过滤后的源文件信息拆分成若干文字块后,存储各文字块中的文字内容(不含标签),及其与下一个文字块块之间的距离。具体可采用如下两种存储方式之一:
①通过链表(list)存储,存储类型可包含两个属性,分别为文字块中的文字内容和与相邻的下一个文字块之间的距离。
②通过字符数组存储,将文字块中的文字内容(简称文字块)离散地存放在数组中,两相邻文字块之间的距离可用两文字块存储位置在数组中相隔的空值数标识。如图4所示,在文字块1和文字块2之间的空值数为2,即表示文字块1和文字块2之间的距离为2。
相邻文字块之间的距离可以由划分区域类标签在源文件信息中出现的频率为权重,结合其数量决定。具体的计算方法为:假设两相邻文字块为A1和A2,划分区域类标签有B1…Bn,标签权重为wB1…wB2,在A1和A2之间划分区域类标签数量分别为nB1…nBn,则A1和A2之间距离dA1A2的计算公式为:dA1A2=nB1×wB1+nB2×wB2+…+nBn×wBn
上述权重值也可以由用户结合具体应用环境配置。两相邻文字块之间的距离也可以采用其他方法计算,只要能够表示出文字块之间的相对距离大小即可。
拆分文字块的原因在于网页信息的繁杂性,正文信息中间往往会插入一些例如广告等无用信息,致使从源文件的角度上看正文并不一定是一个完整的块,可能比较分散。
(iii)确定正文样本。
选取文字块中包含文字内容最多的一块(该块需要满足设定的长度等条件限制,可由用户依据具体应用环境确定,例如不少于20个文字),以该块为基准向上下辐射,根据上下各块的文字数与该块的距离比值(即文字密集度)与设定阈值之间的关系(阈值可通过抽样实验获得)限定正文上极限块和下极限块,将上下极限块及其中间的内容作为正文样本。
具体的,假设包含文字内容最多的文字块为A,包含的文字数为a;与其相邻的上一个文字块为A1,包含的文字数为a1;与其相邻的下一个文字块为A2,包含的文字数为a2。文字块A1与文字块A的距离为d1,文字块A与文字块A2的距离为d2。阈值为M,阈值M的大小可根据具体应用环境由用户设定。
如果a1/d1=M1≥M并且a2/d2=M2≥M,则表明与文字块A上下相邻的文字块A1和A2都达到了可以聚合为正文的标准。取M1和M2的均值Mavg作为计算上下极限块的衡量标准。这样,衡量标准实际是根据探测网页的具体情况提取的,具体问题具体分析,可以提高探测效率。
如果M1和M2中只有一个不小于阈值M,则可取不小于M的值与M均值Mavg作为计算上下极限块的衡量标准。
如果都不符合,则表明正文没有分块无需上下辐射聚合,直接将文字块A作为正文样本。
计算出Mavg后,可对文字块A进行整合。如果a1/d1=M1≥M并且a2/d2=M2≥M,则令A′=A1+A+A2,即将文字块A1和文字块A2中的文字内容整合到文字块A中。然后以A1为基准向上辐射,以其相邻的上一个文字块As1包含的文字数和A1As1距离ds1的比值与Mavg比较。如果比值大于Mavg,则将As1中的文字内容整合到A中,继续以As1为基准向上辐射,直至不符合条件的文字块为止。同样,再以A2为基准向下辐射,直到不符合条件的文字块为止。将最终的文字块A作为正文样本。
如果M1和M2中只有一个不小于阈值M,如M1≥M,则将文字块A1的内容整合到A中,即令A′=A1+A。然后以A1为基准向上辐射,直至不符合条件的文字块。由于M2<M,不符合辐射条件,因此无需向下辐射。将最终的文字块A′作为正文样本。
一般情况下,文字数越多,文字块与文字块之间宏观距离越小,为正文的概率越高。这里主要是依据文字数和距离的比值与是正文的概率成正比。
(iv)验证正文样本。
用标题分词与正文样本进行比较,以匹配程度作为依据来验证正文样本是否为正文。所述匹配程度即标题分词在正文样本中出现的数量及频率的综合值(数量及频率的权重可由用户确定)。
具体的,假设标题可切分出W1…Wn个分词,样本训练后得出权重为w1…wn,在正文中的匹配数量分别为nw1…nwn。样本训练为现有算法,基本实现原理是将正文切词,以各词在正文中出现的次数和样本训练软件维护的一个关键词库及各关键词权重(此关键词库主要维护互联网上一些常用关键词,各关键词在长期统计中会保存一个权重值。另外,“你、我、他”等常用词不包含在内)综合计算出若干关键词及各词权重。
匹配程度P′的计算公式如下:
P′=nw1×w1+nw2×w2+…+nwn×wn。(记为公式1)
如果P′不小于设定的阈值M′,则通过验证;否则验证失败。阈值M′可根据具体应用环境由用户设定。
如果验证失败,则返回步骤(iii),忽略包含文字内容最多的文字块A,以文字内容次多的文字块B为基准,按照步骤(iii)中的方法,确定正文样本。但保留文字块A与上下块的距离,防止干扰以文字块B为基准的文字密集程度的精确性。例如,文字块A的上下文字块分别为B和C,文字块A为基准的正文样本没有通过验证,但A与B、C之间的距离仍然存在,这样B、C之间的距应该是A、B与A、C的距离之和,若忽略这部分距离则造成B、C之间的距离为0,势必会影响精确性。以此类推,直到正文样本通过验证,将该正文样本作为正文。如果所有正文样本都没有通过验证,即所有文字块都无法结合成有意义的正文,则表明该URL的网页信息无正文或正文简略无实际含义,可视为已删除。
如果无法获取标题,则取消标题分词验证正文样本这一步骤,直接将正文样本作为正文。这时弱化正文的显示含义,强调正文提取关键词探测网页信息是否存在的作用。
(d)从正文中提取关键词。
首先截取已确定正文中的各段,统计每段中包含的文字数,以文字数、与标题匹配程度为根据抽取摘要。所述摘要并非正文的概要,而是正文中的一部分内容,用于从中抽取关键词。摘要可作为其它网络产品的信息摘要使用。摘要的具体抽取方法如下:
如果无标题,则直接将正文中包含文字数最多的段落作为摘要。
如果有标题,则采用下述公式计算正文中包含文字数最多的段落与标题的匹配程度P″:
P ′ ′ = n w 1 ′ × w 1 + n w 2 ′ × w 2 + · · · + n wn ′ × w n .
其中,w1…wn分别表示标题分词W1…Wn的权重,与公式1中该参数表示的含义及数值相同;
Figure BSA00000406766900082
分别表示标题分词在包含文字数最多的段落中的匹配数量。如果匹配程度P″大于0,则通过验证,将该段作为摘要。否则验证正文中包含文字数次多的文字块,依此类推。
提取出摘要后,对摘要进行分词,结合摘要分词和标题分词抽取出若干关键词,具体的抽取过程如下:
以标题分词为基准,采用下述公式计算标题分词在摘要中的匹配程度P′″:
P ′ ′ ′ = n w 1 ′ ′ × w 1 + n w 2 ′ ′ × w 2 + · · · + n wn ′ ′ × w n .
其中,w1…wn分别表示标题分词W1…Wn的权重,与公式1中该参数表示的含义及数值相同;
Figure BSA00000406766900084
分别表示标题分词在摘要中的匹配数量。按照P′″从大到小的顺序取出若干个标题分词。
再以摘要分词为基准,计算各个摘要分词在摘要中出现的次数,按照次数从多到少的顺序取出若干个摘要分词。
删除抽取出的两部分分词中的重复分词,从剩下的分词中取出若干个作为关键词。如果无标题,则无需结合标题分词,按照摘要分词在摘要中出现次数从多到少的顺序取出若干个分词作为关键词。
(e)将本次探测获取到的摘要、关键词及其所属网页的URL信息存储到数据库中,以留存证据。
上述提取网页信息中的正文、摘要和关键词的方法是利用某些比值与正文概率成正比的一般原则,并结合特定的算法,无需基于任何模板,便能够获取到概率较高的正文及作为探测依据的关键词。
本发明通过留存网页信息的关键词来探测该网页信息是否存在,可以在相当程度上提高网页信息探测的准确率,有效地维护良好的网络环境,为互联网的安全性提供保障。而且,比较准确地提取出了网页信息的正文、段落摘要、关键词等信息,又可以为其它网络系统、采集软件等提供强有力的信息基础。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种网页信息探测方法,其特征在于:所述方法预先抽取网页信息的关键词,将从该网页信息中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度P确定待探测网页信息是否存在;
所述抽取网页信息的关键词的方法如下:
(1)获取网页的源文件信息;
(2)从源文件信息中提取正文;从源文件信息中提取正文之前,先对源文件信息进行过滤,只保留划分区域类标签及标签中的信息;提取正文的方法如下:
(a)根据划分区域类标签将过滤后的源文件信息拆分成若干文字块,并存储每个文字块中的文字内容及与相邻的下一个文字块之间的距离;
(b)选取文字块中包含文字信息最多的一块,将该块作为基准文字块;
(c)以基准文字块为基准,根据上下各文字块中的文字数与该基准文字块的距离比值与设定阈值的关系确定正文上极限块和下极限块,将上下极限块及其之间的内容作为正文样本;
(3)从正文中提取关键词。
2.如权利要求1所述的网页信息探测方法,其特征在于:步骤(1)中获取网页源文件信息的过程如下:
首先通过模拟Http请求返回信息状态码;如果状态码非200或有异常出现,则认定该网页信息已被删除;否则,获取网页源文件的字节数组及其编码格式,通过编码格式将源文件字节数组转化为字符形式的源文件信息。
3.如权利要求2所述的网页信息探测方法,其特征在于:步骤(1)中获取网页源文件信息后,提取网页源文件信息中的标题,并对标题进行分词;如果无标题或者标题无法分词,则设定标题为空。
4.如权利要求1所述的网页信息探测方法,其特征在于:步骤(a)中,通过链表存储每个文字块中的文字内容及下一个文字块之间的距离,存储类型包含两个属性,分别为文字块中的文字内容和与相邻的下一个文字块之间的距离。
5.如权利要求1所述的网页信息探测方法,其特征在于:步骤(a)中,通过字符数组存储每个文字块中的文字内容及下一个文字块之间的距离,将文字块中的文字内容离散地存放在数组中,两相邻文字块之间的距离用两文字块中的文字内容存储位置在数组中相隔的空值数标识。
6.如权利要求1~5中任一项所述的网页信息探测方法,其特征在于:步骤(a)中,文字块和与其相邻的下一个文字块之间的距离计算方法如下:
假设两相邻文字块为A1和A2,划分区域类标签有B1…Bn,标签权重为wB1…wB2,在A1和A2之间划分区域类标签数量分别为nB1…nBn,则A1和A2之间距离dA1A2的计算公式为:dA1A2=nB1×wB1+nB2×wB2+…+nBn×wBn
7.如权利要求1~5中任一项所述的网页信息探测方法,其特征在于:步骤(c)中所述根据上下各文字块中的文字数与基准文字块的距离比值与设定阈值的关系确定正文上极限块和下极限块的方法如下:
设基准文字块为A,包含的文字数为a;与其相邻的上一个文字块为A1,包含的文字数为a1;与其相邻的下一个文字块为A2,包含的文字数为a2;文字块A1与文字块A之间的距离为d1,文字块A与文字块A2之间的距离为d2;阈值为M;
如果a1/d1=M1≥M并且a2/d2=M2≥M,则取M1和M2的均值Mavg作为计算上下极限块的衡量标准;
如果M1和M2中只有一个不小于M,则取大于M的值与M均值Mavg作为计算上下极限块的衡量标准;
如果都不符合,则直接将文字块A作为正文样本;
计算出Mavg后,对文字块A进行如下整合:
如果a1/d1=M1≥M并且a2/d2=M2≥M,则令A'=A1+A+A2;然后以A1为基准向上辐射,以其相邻的上一个文字块As1包含的文字数和A1As1距离ds1的比值与Mavg比较,如果比值大于Mavg,则将As1中的文字内容整合到A中,继续以As1为基准向上辐射,直至不符合条件的文字块为止;同样,再以A2为基准向下辐射,直到不符合条件的文字块为止;将最终的文字块A作为正文样本;
如果M1和M2中只有一个不小于M,假设M1≥M,则令A'=A1+A;然后以A1为基准向上辐射,直至不符合条件的文字块;将最终的文字块A'作为正文样本。
8.如权利要1~5中任一项所述的网页信息探测方法,其特征在于:如果标题为空,则直接将步骤(c)中所述正文样本作为正文;否则,进行如下操作:
(i)根据标题分词对正文样本进行验证;
(ii)如果验证失败,则以文字数次多的文字块为基准文字块,重复步骤(c)后,转至步骤(i);如果验证成功,则将正文样本作为正文。
9.如权利要求8所述的网页信息探测方法,其特征在于:步骤(i)所述根据标题分词对正文样本进行验证的方法如下:
将标题分词与正文样本进行匹配,以匹配程度P′为依据验证正文样本是否为正文;如果匹配程度P′不小于设定阈值M',则通过验证;否则,验证失败。
10.如权利要求9所述的网页信息探测方法,其特征在于:所述匹配程度P′的计算方法如下:
假设标题分词分别为W1…Wn,标题分词的权重分别为w1…wn,标题分词在正文中的匹配数量分别为nw1…nwn
P′=nw1×w1+nw2×w2+…+nwn×wn
11.如权利要求1所述的网页信息探测方法,其特征在于:步骤(3)中,所述从正文中提取关键词的方法如下:
①截取正文中的各段,统计每段中包含的文字数;
②从正文中提取出摘要:
如果标题为空,则直接将正文中包含文字数最多的段落作为摘要;
如果标题非空,则对标题进行分词,采用如下公式计算正文中包含文字数最多的段落与标题的匹配程度P′′:
P′′=n′w1×w1+n′w2×w2+…+n′wn×wn
其中,w1…wn分别表示标题分词W1…Wn的权重,与公式1中的表示的含义及数值相同;n′w1…n′wn分别表示标题分词在包含文字数最多的段落中的匹配数量;如果匹配程度P′′大于0,则将该段作为摘要;否则验证正文中包含文字数次多的文字块,依次类推;
③对摘要进行分词,从摘要中提取出关键词:
如果标题为空,按照摘要分词在摘要中出现次数从多到少的顺序取出若干个分词作为关键词;
如果标题非空,则采用如下公式计算标题分词在摘要中的匹配程度P′′′:
P′′′=n′′w1×w1+n′′w2×w2+…+n′′wn×wn
其中,w1…wn分别表示标题分词W1…Wn的权重;n′′w1…n′′wn分别表示标题分词在摘要中的匹配数量;按照P′′′从大到小的顺序取出若干个标题分词;
再计算各个摘要分词在摘要中出现的次数,按照次数从多到少的顺序取出若干个摘要分词;
删除抽取出的两部分分词中的重复分词,从剩下的分词中取出若干个作为关键词。
12.如权利要求1所述的网页信息探测方法,其特征在于:在用所述关键词与待探测网页的源文件内容进行匹配之前,先对待探测网页的源文件内容进行过滤,过滤掉无用信息;所述无用信息包括标题。
13.一种网页信息探测系统,包括用于抽取网页正文关键词的抽取装置(11);
用于将从网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中的存储装置(12);从源文件信息中提取正文之前,先对源文件信息进行过滤,只保留划分区域类标签及标签中的信息;从网页正文中抽取关键词的方法如下:
(1)获取网页的源文件信息;
(2)从源文件信息中提取正文;提取正文的方法如下:
(a)根据划分区域类标签将过滤后的源文件信息拆分成若干文字块,并存储每个文字块中的文字内容及与相邻的下一个文字块之间的距离;
(b)选取文字块中包含文字信息最多的一块,将该块作为基准文字块;
(c)以基准文字块为基准,根据上下各文字块中的文字数与该基准文字块的距离比值与设定阈值的关系确定正文上极限块和下极限块,将上下极限块及其之间的内容作为正文样本;
(3)从正文中提取关键词;
用于获取待探测网页源文件的获取装置(13);
用于从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度P确定待探测网页信息是否存在的匹配装置(14)。
14.如权利要求13所述的网页信息探测系统,其特征在于:所述系统还包括用于过滤网页源文件中的无用信息的过滤装置(15)。
CN2010106184034A 2010-12-22 2010-12-22 一种网页信息探测方法及系统 Expired - Fee Related CN102541937B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2010106184034A CN102541937B (zh) 2010-12-22 2010-12-22 一种网页信息探测方法及系统
US13/997,251 US9519718B2 (en) 2010-12-22 2011-12-22 Webpage information detection method and system
EP11850062.8A EP2657853A4 (en) 2010-12-22 2011-12-22 Webpage information detection method and system
JP2013545031A JP2014502753A (ja) 2010-12-22 2011-12-22 ウェブページ情報の検出方法及びシステム
PCT/CN2011/084487 WO2012083874A1 (zh) 2010-12-22 2011-12-22 一种网页信息探测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106184034A CN102541937B (zh) 2010-12-22 2010-12-22 一种网页信息探测方法及系统

Publications (2)

Publication Number Publication Date
CN102541937A CN102541937A (zh) 2012-07-04
CN102541937B true CN102541937B (zh) 2013-12-25

Family

ID=46313186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106184034A Expired - Fee Related CN102541937B (zh) 2010-12-22 2010-12-22 一种网页信息探测方法及系统

Country Status (5)

Country Link
US (1) US9519718B2 (zh)
EP (1) EP2657853A4 (zh)
JP (1) JP2014502753A (zh)
CN (1) CN102541937B (zh)
WO (1) WO2012083874A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902722B (zh) * 2012-09-04 2015-09-02 北京奇虎科技有限公司 一种信息安全性的处理方法和系统
US20140201229A1 (en) * 2013-01-16 2014-07-17 Google Inc. Providing display suggestions
CN103473364B (zh) * 2013-09-27 2017-02-08 中国联合网络通信集团有限公司 一种服务推荐方法及装置
US9342561B2 (en) * 2014-01-08 2016-05-17 International Business Machines Corporation Creating and using titles in untitled documents to answer questions
CN104951449B (zh) * 2014-03-26 2020-12-01 腾讯科技(深圳)有限公司 数据处理方法及装置
CN105391812A (zh) * 2014-09-04 2016-03-09 上海福网信息科技有限公司 一种网站自检系统及其自检方法
CN106547777A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
JP2018013893A (ja) * 2016-07-19 2018-01-25 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN108255891B (zh) * 2016-12-29 2020-08-28 北京国双科技有限公司 一种判别网页类型的方法及装置
CN107391675B (zh) * 2017-07-21 2021-03-09 百度在线网络技术(北京)有限公司 用于生成结构化信息的方法和装置
CN109522461B (zh) * 2018-10-08 2021-02-05 厦门快商通信息技术有限公司 基于正则表达式的url清洗方法及系统
US11017119B2 (en) * 2018-12-14 2021-05-25 Synergex Group Methods, systems, and media for detecting alteration of a web page
CN110287190A (zh) * 2019-06-25 2019-09-27 四川深度在线广告传媒有限公司 一种大数据分析自定义编码储存结构及编码、解码方法
CN111552877B (zh) * 2020-04-29 2023-11-07 百度在线网络技术(北京)有限公司 数据处理的方法及装置
CN115495688B (zh) * 2022-11-16 2023-05-16 上海金仕达软件科技股份有限公司 一种业务办理智能切换方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021866A (zh) * 2007-03-13 2007-08-22 白云 电子文档与某一领域相关程度的判别方法及其应用
CN101344889A (zh) * 2008-07-31 2009-01-14 中国农业大学 一种网络信息抽取的方法和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5898836A (en) * 1997-01-14 1999-04-27 Netmind Services, Inc. Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures
US6910071B2 (en) * 2001-04-02 2005-06-21 The Aerospace Corporation Surveillance monitoring and automated reporting method for detecting data changes
JP2003256316A (ja) * 2002-02-26 2003-09-12 Mitsubishi Electric Corp 情報提供装置、情報提供システム及び情報提供方法並びにプログラム
JP2004070405A (ja) 2002-08-01 2004-03-04 Mitsubishi Electric Corp Webページの風評情報抽出装置
CN1702651A (zh) * 2004-05-24 2005-11-30 富士通株式会社 特定类型信息文件的识别方法和装置
JP2006259965A (ja) * 2005-03-16 2006-09-28 Sony Corp 情報処理装置および方法、並びにプログラム
US7610267B2 (en) * 2005-06-28 2009-10-27 Yahoo! Inc. Unsupervised, automated web host dynamicity detection, dead link detection and prerequisite page discovery for search indexed web pages
CN101201823A (zh) * 2006-12-15 2008-06-18 鸿富锦精密工业(深圳)有限公司 网站变化检测系统及方法
JP4881718B2 (ja) * 2006-12-27 2012-02-22 Kddi株式会社 ウェブページの改竄検知装置、プログラム、および記録媒体
JP5194818B2 (ja) * 2008-01-16 2013-05-08 富士通株式会社 データ分類方法およびデータ処理装置
US8886660B2 (en) * 2008-02-07 2014-11-11 Siemens Enterprise Communications Gmbh & Co. Kg Method and apparatus for tracking a change in a collection of web documents
US10402780B2 (en) * 2008-04-14 2019-09-03 International Business Machines Corporation Service for receiving obsolete web page copies
CN101788991B (zh) * 2009-06-23 2013-03-06 北京搜狗科技发展有限公司 一种更新提醒的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021866A (zh) * 2007-03-13 2007-08-22 白云 电子文档与某一领域相关程度的判别方法及其应用
CN101344889A (zh) * 2008-07-31 2009-01-14 中国农业大学 一种网络信息抽取的方法和系统

Also Published As

Publication number Publication date
JP2014502753A (ja) 2014-02-03
EP2657853A1 (en) 2013-10-30
US20140067784A1 (en) 2014-03-06
CN102541937A (zh) 2012-07-04
WO2012083874A1 (zh) 2012-06-28
EP2657853A4 (en) 2017-01-11
US9519718B2 (en) 2016-12-13

Similar Documents

Publication Publication Date Title
CN102541937B (zh) 一种网页信息探测方法及系统
US11874874B2 (en) Method and system for identifying and discovering relationships between disparate datasets from multiple sources
Resch et al. Combining machine-learning topic models and spatiotemporal analysis of social media data for disaster footprint and damage assessment
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
US10180967B2 (en) Performing application searches
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN102591965B (zh) 一种黑链检测的方法及装置
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN106502879A (zh) 一种实现应用程序安全性检测的方法及装置
CN103544436A (zh) 一种钓鱼网站鉴别系统和方法
CN105205356B (zh) 一种app应用重打包检测方法
CN105138907B (zh) 一种主动探测被攻击网站的方法和系统
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN103268449A (zh) 一种手机恶意代码的高速检测方法和系统
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
Kim et al. Two applications of clustering techniques to twitter: Community detection and issue extraction
KR20120047632A (ko) 상황 인지 장치 및 방법
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN106933880B (zh) 一种标签数据泄漏渠道检测方法及装置
CN102662977B (zh) 自学习的发帖审计系统的实现方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN104077353A (zh) 一种黑链检测的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131225