CN103729354B - 网页信息处理方法及装置 - Google Patents

网页信息处理方法及装置 Download PDF

Info

Publication number
CN103729354B
CN103729354B CN201210382157.6A CN201210382157A CN103729354B CN 103729354 B CN103729354 B CN 103729354B CN 201210382157 A CN201210382157 A CN 201210382157A CN 103729354 B CN103729354 B CN 103729354B
Authority
CN
China
Prior art keywords
feature
value
web page
original web
object content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210382157.6A
Other languages
English (en)
Other versions
CN103729354A (zh
Inventor
蔡兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210382157.6A priority Critical patent/CN103729354B/zh
Publication of CN103729354A publication Critical patent/CN103729354A/zh
Application granted granted Critical
Publication of CN103729354B publication Critical patent/CN103729354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的实施例提供一种网页信息处理方法及装置,涉及计算机技术领域,包括:对原始网页进行特征识别,得出各特征的取值;根据所述各特征的取值判断所述原始网页是否为目标网页;当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片。采用本发明提供的方法进行处理后得出的小说页面既简洁,同时不失关注点又便于阅读。

Description

网页信息处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页信息处理方法及装置。
背景技术
目前,通过网页展现小说的形式主要有以下两种:一种是文字形式,即小说正文以文字形式直接展现在网页中,用户浏览文字形式的小说网页时,查看到的是一行行的文字。另一种是图片形式,小说正文以图片形式存在,并通过图片展现在网页中。用户浏览图片形式的小说网页时,查看到的是一张张显示有小说正文的图片。
通常,展现小说的网页(下文简称为小说网页)除了显示小说的相关内容(例如,小说的标题,上下章节的链接,小说正文等等)之外,还经常会显示一些广告、其他网站导航、版权、推荐者等等其他无关信息。
为了便于用户阅读小说,现有技术提供一种网页信息处理方法,可以将文字形式的小说页面中小说相关的信息提取并显示给用户,而与小说不相关的信息则不会显示给用户。
然而,现有技术无法对图片形式的小说页面进行处理。
发明内容
本发明的实施例提供一种网页信息处理方法及装置,采用本发明提供的方法进行处理后得出的小说页面既简洁,同时不失关注点又便于阅读。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,提供一种网页信息处理方法,包括:
对原始网页进行特征识别,得出各特征的取值,所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征;
根据所述各特征的取值判断所述原始网页是否为目标网页;
当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;
在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片。
本发明实施例的一种实现方式中,所述对原始网页进行特征识别,得出各特征的取值包括:
利用预设文本分类器对原始网页进行计算,得出第一特征的取值,所述第一特征的取值范围为[0,100];
计算原始网页中以文字形式显示出来的文字及标点符号的总个数,得出文本长度,所述文本长度的取值即为第二特征的取值;
判断原始网页的URL中是否包含目标关键字,其中,判断结果为原始网页的URL中包含目标关键字时,得出第三特征的取值为真,否则,得出第三特征的取值为假;
判断原始网页是否存在目标内容标题关键字,判断结果为原始网页存在目标内容标题关键字时,得出第四特征的取值为真,否则,得出第四特征的取值为假;
判断原始网页是否存在目标内容翻页链接,判断结果为原始网页存在目标内容翻页链接时,得出第五特征的取值为真,否则,得出第五特征的取值为假;
判断原始网页是否存在目标内容图片,判断结果为原始网页存在目标内容图片时,得出第六特征的取值为真,否则,得出第六特征的取值为假。
本发明实施例的一种实现方式中,所述目标关键字包括:“files/article/html/”、多个连续的数字串目录名称或者“xs”;
所述目标内容标题关键字包括:“第*卷”、“第*章”、“第*节”或者“第*篇”;
所述目标内容翻页链接所采用的文字包括:“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
本发明实施例的一种实现方式中,所述根据所述各特征的取值判断所述原始网页是否为目标网页包括:
判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。
本发明实施例的一种实现方式中,所述当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片包括:
当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字所在行的所有文字;
从原始网页的DOM树中提取目标内容翻页链接,所述提取出的目标内容翻页链接包括目标内容翻页链接采用的文字及其指向的URL;
从原始网页中目标内容标题关键字所在行与目标内容翻页链接所在行之间提取目标内容图片。
另一方面,提供一种网页信息处理装置,包括:
识别模块,用于对原始网页进行特征识别,得出各特征的取值,所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征;
判断模块,用于根据所述各特征的取值判断所述原始网页是否为目标网页;
提取模块,用于当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;
显示模块,用于在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片。
本发明实施例的一种实现方式中,所述识别模块包括:
计算单元,用于利用预设文本分类器对原始网页进行计算,得出第一特征的取值,所述第一特征的取值范围为[0,100];
所述计算单元,还用于计算原始网页中以文字形式显示出来的文字及标点符号的总个数,得出文本长度,所述文本长度的取值即为第二特征的取值;
判断单元,用于判断原始网页的URL中是否包含目标关键字,其中,判断结果为原始网页的URL中包含目标关键字时,得出第三特征的取值为真,否则,得出第三特征的取值为假;
所述判断单元,还用于判断原始网页是否存在目标内容标题关键字,判断结果为原始网页存在目标内容标题关键字时,得出第四特征的取值为真,否则,得出第四特征的取值为假;
所述判断单元,还用于判断原始网页是否存在目标内容翻页链接,判断结果为原始网页存在目标内容翻页链接时,得出第五特征的取值为真,否则,得出第五特征的取值为假;
所述判断单元,还用于判断原始网页是否存在目标内容图片,判断结果为原始网页存在目标内容图片时,得出第六特征的取值为真,否则,得出第六特征的取值为假。
本发明实施例的一种实现方式中,所述目标关键字包括:“files/article/html/”、多个连续的数字串目录名称或者“xs”;
所述目标内容标题关键字包括:“第*卷”、“第*章”、“第*节”或者“第*篇”;
所述目标内容翻页链接所采用的文字包括:“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
本发明实施例的一种实现方式中,所述判断模块具体用于判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块具体用于判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块具体用于判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块具体用于判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。
本发明实施例的一种实现方式中,所述提取模块具体用于当判断模块判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字所在行的所有文字;从原始网页的DOM树中提取目标内容翻页链接,所述提取出的目标内容翻页链接包括目标内容翻页链接采用的文字及其指向的URL;从原始网页中目标内容标题关键字所在行与目标内容翻页链接所在行之间提取目标内容图片。
上述技术方案中,通过对原始网页进行特征识别,得出各特征的取值,根据所述各特征的取值判断所述原始网页是否为目标网页;当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;并在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片,亦即,原始页面中除了所述目标内容标题关键字、目标内容翻页链接和目标内容图片之外的内容,不会在新页面中显示,减小了无关内容对用户引起的阅读干扰,该新页面内容简洁,不失关注点又便于阅读。
特别的,当上述技术方案应用于小说页面的处理时,可以实现在新页面中显示小说标题、小说翻页链接和包含有小说正文的图片,而除了小说标题、小说翻页链接和包含有小说正文的图片之外的内容,例如广告、其他网站导航、版权、推荐者等小说无关内容都不会进行显示,减小了无关内容对用户引起的阅读干扰,该新页面内容简洁,不失关注点又便于阅读。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供一种网页信息处理方法的流程图;
图2为本发明实施例1提供一种网页信息处理方法中步骤101的实现流程图;
图3为本发明实施例1提供一种网页信息处理方法中步骤103的实现流程图;
图4为本发明实施例2提供一种网页信息处理装置的结构图;
图5为本发明实施例2提供一种网页信息处理装置中识别模块的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例的一种应用场景为:对原始网页进行识别后,如果该原始网页为目标网页,则从该目标网页中提取用户所关注的目标内容标题关键字、目标内容翻页链接和目标内容图片,并通过新网页显示出来。
其中,上述原始网页为互联网中任意类型的网页,比如,可能是用于展现新闻的新闻网页,或者用于展现小说的小说网页,或者用于展现视频的视频网页等等,上述目标网页为某一种特定类型的网页,比如该目标网页为小说网页。
由于原始网页中通常展现的信息较为广泛,除了用户关注的内容之外,还可能存在其他与用户所关注内容不相关的信息。例如,原始网页为小说网页时,该原始网页除了显示小说标题、翻页链接和小说正文之外,通常还会显示例如广告、其他网站导航、版权、推荐者等小说无关内容,当用户阅读小说时,主要关注点为小说标题、翻页链接和小说正文,而其他无关信息将会对用户产生干扰,因而,本发明提供一种网页处理的方法,采用该方法进行处理后得出的小说页面既简洁,同时不失关注点又便于阅读,减小了无关内容对用户引起的阅读干扰。
下面详细描述一种网页信息处理方法,如图1所示,该方法包括:
101、对原始网页进行特征识别,得出各特征的取值。
其中,所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征。
102、根据所述各特征的取值判断所述原始网页是否为目标网页。
103、当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片。
104、在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片。
本实施例中,通过对原始网页进行特征识别,得出各特征的取值,根据所述各特征的取值判断所述原始网页是否为目标网页;当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;并在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片,亦即,原始页面中除了所述目标内容标题关键字、目标内容翻页链接和目标内容图片之外的内容,不会在新页面中显示,减小了无关内容对用户引起的阅读干扰,该新页面内容简洁,不失关注点又便于阅读。
特别的,当上述技术方案应用于小说页面的处理时,可以实现在新页面中显示小说标题、小说翻页链接和包含有小说正文的图片,而除了小说标题、小说翻页链接和包含有小说正文的图片之外的内容,例如广告、其他网站导航、版权、推荐者等小说无关内容都不会进行显示,减小了无关内容对用户引起的阅读干扰,该新页面内容简洁,不失关注点又便于阅读。
下文以目标网页为图片形式的小说网页为例,对上述网页信息处理的方法做进一步说明。如图2所示,上述步骤101中所述对原始网页进行特征识别,得出各特征的取值具体包括如下步骤:
1011、利用预设文本分类器对原始网页进行计算,得出第一特征的取值,所述第一特征的取值范围为[0,100]。
其中,上述预设文本分类器采用逻辑回归(logistic regression)这一线性分类算法。该算法在实现时分为训练和测试两个计算过程。
训练过程用于生成预设文本分类器,具体为:首先人工标注一批训练样本(该训练样本包括小说网页和非小说网页),然后利用分词将每个训练样本向量化,利用逻辑回归对训练样本进行学习以最小化目标函数,这样就生成了预设文本分类器。
测试过程主要是利用生成的预设文本分类器对未知样本进行打分,亦即,本步骤中的利用预设文本分类器对原始网页进行计算,得出一个分值(其取值范围为[0,100]),该分值即为第一特征的取值,用于表示原始网页与目标网页(即图片形式的小说网页)相似程度。第一特征也可以称之为“小说倾向程度”。
需要说明的是,第一特征的取值越大,说明原始网页与目标网页(即图片形式的小说网页)相似程度越高,反之,第一特征的取值越小,说明原始网页与目标网页(即图片形式的小说网页)相似程度越低。
1012、计算原始网页中以文字形式显示出来的文字及标点符号的总个数,得出文本长度,所述文本长度的取值即为第二特征的取值。
由于图片形式的小说网页中,小说正文内容均以图片的形式进行显示,与文字形式的小说网页相比时,图片形式的小说网页中直接以文字形式显示出来的文字及标点符号的总个数是比较少的,因而,通过本步骤计算出的第二特征的取值在一定程度上也可以用于反映原始网页与图片形式的小说网页相似程度。
需要说明的是,上述第二特征的取值越小,说明原始网页与图片形式的小说网页相似程度越高,反之上述第二特征的取值越大,说明原始网页与图片形式的小说网页相似程度越低。
1013、判断原始网页的URL(Uniform/Universal Resource Locator,统一资源定位符)中是否包含目标关键字,其中,判断结果为原始网页的URL中包含目标关键字时,得出第三特征的取值为真,否则,得出第三特征的取值为假。
其中,所述目标关键字包括:“/files/article/html/”、多个连续的数字串目录名称或者“xs”。
上述多个连续的数字串目录名称,例如,可以是“/75/75623/13214574”,其中“75”“75623”“13214574”即为数字串目录名称。
本步骤在具体实现时,例如,可以判断原始网页的URL中是否包“/files/article/html/”和多个连续的数字串目录名称;
或者,又如,还可以判断原始网页的URL中是否“xs”和多个连续的数字串目录名称。
可以理解的是,当本步骤得出的第三特征的取值为真时,说明原始网页的URL中包含目标关键字,也就是说原始网页与目标网页存在相似的可能性较大,反之,当本步骤得出的第三特征的取值为假时,说明原始网页的URL中没有包含目标关键字,也就是说原始网页与目标网页存在相似的可能性较小。
1014、判断原始网页是否存在目标内容标题关键字,判断结果为原始网页存在目标内容标题关键字时,得出第四特征的取值为真,否则,得出第四特征的取值为假。
其中,当目标网页为图片形式的小说网页时,所述目标内容标题关键字包括:“第*卷”、“第*章”、“第*节”或者“第*篇”。其中“*”可以为数字。
可以理解的是,当本步骤得出的第四特征的取值为真时,说明原始网页包含目标内容标题关键字,也就是说原始网页与目标网页存在相似的可能性较大,反之,当本步骤得出的第四特征的取值为假时,说明原始网页没有包含目标内容标题关键字,也就是说原始网页与目标网页存在相似的可能性较小。
1015、判断原始网页是否存在目标内容翻页链接,判断结果为原始网页存在目标内容翻页链接时,得出第五特征的取值为真,否则,得出第五特征的取值为假。
由于图片形式的小说网页中,通过会存在“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”等等的翻译链接。
因而,当目标网页为图片形式的小说网页时,所述目标内容翻页链接所采用的文字包括:“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”,这些文字均以链接的形式出现。
可以理解的是,当本步骤得出的第五特征的取值为真时,说明原始网页包含目标内容翻页链接,也就是说原始网页与目标网页存在相似的可能性较大,反之,当本步骤得出的第五特征的取值为假时,说明原始网页没有包含目标内容翻页链接,也就是说原始网页与目标网页存在相似的可能性较小。
1016、判断原始网页是否存在目标内容图片,判断结果为原始网页存在目标内容图片时,得出第六特征的取值为真,否则,得出第六特征的取值为假。
该目标内容图片是指包含有目标内容的图片,例如包含有小说正文的图片。
可以理解的是,当本步骤得出的第六特征的取值为真时,说明原始网页包含目标内容图片,也就是说原始网页与目标网页存在相似的可能性较大,反之,当本步骤得出的第六特征的取值为假时,说明原始网页没有包含目标内容图片,也就是说原始网页与目标网页存在相似的可能性较小。
需要说明的是,为了提高原始网页识别的精度,步骤102中根据所述各特征的取值判断所述原始网页是否为目标网页时,需要将上述各个特征的取值进行组合判断,以便于准确判断出原始网页是否为目标网页。如下所述,上述步骤102具体可以如下几种方式实现:
方式一、判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真。
其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,亦即,原始网页中以文字形式显示出来的文字及标点符号的总个数小于第一预设阈值(例如该阈值为500)且原始网页的URL中包含目标关键字且原始网页存在目标内容图片,则可以得出所述原始网页为目标网页;否则,得出所述原始网页不是目标网页。
方式二、判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真。
其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,亦即原始网页中以文字形式显示出来的文字及标点符号的总个数小于第一预设阈值(例如该阈值为500)且原始网页存在目标内容翻页链接且原始网页存在目标内容图片时,则可以得出所述原始网页为目标网页;否则,得出所述原始网页不是目标网页;
方式三、判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真。
其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,亦即原始网页与目标网页相似程度取值大于第二预设阈值(例如第二预设阈值可以为85)且原始网页存在目标内容翻页链接且原始网页存在目标内容图片时,则可以得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
方式四、判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真。
其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,亦即原始网页与目标网页相似程度取值大于第二预设阈值且原始网页中以文字形式显示出来的文字及标点符号的总个数小于第一预设阈值且原始网页存在目标内容标题关键字且原始网页存在目标内容图片,则可以得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。
本发明实施例的一种实现方式中,如图3所示,上述103步骤可以采用如下步骤实现:
1031、当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字所在行的所有文字。
由于小说标题通常是独立成行的,因而,提取目标内容标题关键字所在行的所有文字,既可以将“第*卷”、“第*章”、“第*节”或者“第*篇”等目标内容标题关键字提取出来,也可以将具体的章节名称提取出来。
例如,小说标题所在行的全文为“第3章轩辕剑之崆峒印”,则本步骤可以将目标内容标题关键字“第3章”和具体的章节名称“轩辕剑之崆峒印”都提取出来。
1032、从原始网页的DOM(Document Object Model,文档对象模型)树中提取目标内容翻页链接,所述提取出的目标内容翻页链接包括目标内容翻页链接采用的文字及其指向的URL。
例如,目标内容翻页链接采用的文字为“上一章”(亦即在网页中该“上一章”显示为一种网页链接形式)时,其指向的URL应该为上一章网页的URL。
1033、从原始网页中目标内容标题关键字所在行与目标内容翻页链接所在行之间提取目标内容图片。
由于图片形式的小说网页中,目标内容标题关键字所在行通常位于整个页面的上方,目标内容翻页链接所在行通常位于整个页面的下方,而包含有小说正文的图片通常位于目标内容标题关键字所在行与目标内容翻页链接所在行之间,因而,可以利用该位置关系快速地将小说正文的图片提取出来。
实施例2:
本发明实施例提供一种网页信息处理装置,如图4所示,该装置包括:
识别模块11,用于对原始网页进行特征识别,得出各特征的取值,
所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征;
判断模块12,用于根据所述各特征的取值判断所述原始网页是否为目标网页;
提取模块13,用于当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;
显示模块14,用于在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片。
本实施例中,通过对原始网页进行特征识别,得出各特征的取值,根据所述各特征的取值判断所述原始网页是否为目标网页;当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;并在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片,亦即,原始页面中除了所述目标内容标题关键字、目标内容翻页链接和目标内容图片之外的内容,不会在新页面中显示,减小了无关内容对用户引起的阅读干扰,该新页面内容简洁,不失关注点又便于阅读。
特别的,当上述技术方案应用于小说页面的处理时,可以实现在新页面中显示小说标题、小说翻页链接和包含有小说正文的图片,而除了小说标题、小说翻页链接和包含有小说正文的图片之外的内容,例如广告、其他网站导航、版权、推荐者等小说无关内容都不会进行显示,减小了无关内容对用户引起的阅读干扰,该新页面内容简洁,不失关注点又便于阅读。
本发明实施例的一种实现方式中,如图5所示,所述识别模块11包括:
计算单元111,用于利用预设文本分类器对原始网页进行计算,得出第一特征的取值,所述第一特征的取值范围为[0,100];
所述计算单元111,还用于计算原始网页中以文字形式显示出来的文字及标点符号的总个数,得出文本长度,所述文本长度的取值即为第二特征的取值;
判断单元112,用于判断原始网页的URL中是否包含目标关键字,其中,判断结果为原始网页的URL中包含目标关键字时,得出第三特征的取值为真,否则,得出第三特征的取值为假;
所述判断单元112,还用于判断原始网页是否存在目标内容标题关键字,判断结果为原始网页存在目标内容标题关键字时,得出第四特征的取值为真,否则,得出第四特征的取值为假;
所述判断单元112,还用于判断原始网页是否存在目标内容翻页链接,判断结果为原始网页存在目标内容翻页链接时,得出第五特征的取值为真,否则,得出第五特征的取值为假;
所述判断单元112,还用于判断原始网页是否存在目标内容图片,判断结果为原始网页存在目标内容图片时,得出第六特征的取值为真,否则,得出第六特征的取值为假。
本发明实施例的一种实现方式中,当上述目标网页具体为图片形式的小说网页时,所述目标关键字包括:“/files/article/html/”、多个连续的数字串目录名称或者“xs”;所述目标内容标题关键字包括:“第*卷”、“第*章”、“第*节”或者“第*篇”;所述目标内容翻页链接所采用的文字包括:“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
本发明实施例的一种实现方式中,所述判断模块12具体用于判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块12具体用于判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块12具体用于判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块12具体用于判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。
本发明实施例的一种实现方式中,所述提取模块13具体用于当判断模块判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字所在行的所有文字;从原始网页的DOM树中提取目标内容翻页链接,所述提取出的目标内容翻页链接包括目标内容翻页链接采用的文字及其指向的URL;从原始网页中目标内容标题关键字所在行与目标内容翻页链接所在行之间提取目标内容图片。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种网页信息处理方法,其特征在于,包括:
对原始网页进行特征识别,得出各特征的取值,所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征;
根据所述各特征的取值判断所述原始网页是否为目标网页;
当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;
在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片;
所述根据所述各特征的取值判断所述原始网页是否为目标网页包括:
判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。
2.根据权利要求1所述的方法,其特征在于,所述对原始网页进行特征识别,得出各特征的取值包括:
利用预设文本分类器对原始网页进行计算,得出第一特征的取值,所述第一特征的取值范围为[0,100];
计算原始网页中以文字形式显示出来的文字及标点符号的总个数,得出文本长度,所述文本长度的取值即为第二特征的取值;
判断原始网页的URL中是否包含目标关键字,其中,判断结果为原始网页的URL中包含目标关键字时,得出第三特征的取值为真,否则,得出第三特征的取值为假;
判断原始网页是否存在目标内容标题关键字,判断结果为原始网页存在目标内容标题关键字时,得出第四特征的取值为真,否则,得出第四特征的取值为假;
判断原始网页是否存在目标内容翻页链接,判断结果为原始网页存在目标内容翻页链接时,得出第五特征的取值为真,否则,得出第五特征的取值为假;
判断原始网页是否存在目标内容图片,判断结果为原始网页存在目标内容图片时,得出第六特征的取值为真,否则,得出第六特征的取值为假。
3.根据权利要求2所述的方法,其特征在于,所述目标关键字包括:“/files/article/html/”、多个连续的数字串目录名称或者“xs”;
所述目标内容标题关键字包括:“第*卷”、“第*章”、“第*节”或者“第*篇”;
所述目标内容翻页链接所采用的文字包括:“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片包括:
当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字所在行的所有文字;
从原始网页的DOM树中提取目标内容翻页链接,所述提取出的目标内容翻页链接包括目标内容翻页链接采用的文字及其指向的URL;
从原始网页中目标内容标题关键字所在行与目标内容翻页链接所在行之间提取目标内容图片。
5.一种网页信息处理装置,其特征在于,包括:
识别模块,用于对原始网页进行特征识别,得出各特征的取值,所述特征包括:用于表示原始网页与目标网页相似程度的第一特征、用于表示文本长度的第二特征,所述文本长度是指原始网页中以文字形式显示出来的文字及标点符号的总个数、用于表示原始网页的URL中是否包括目标关键字的第三特征、用于表示原始网页是否存在目标内容标题关键字的第四特征、用于表示原始网页是否存在目标内容翻页链接的第五特征和用于表示原始网页是否存在目标内容图片的第六特征;
判断模块,用于根据所述各特征的取值判断所述原始网页是否为目标网页;
提取模块,用于当判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字、目标内容翻页链接和目标内容图片;
显示模块,用于在新页面中显示所述目标内容标题关键字、目标内容翻页链接和目标内容图片;
所述判断模块具体用于判断第二特征的取值是否小于第一预设阈值且第三特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第三特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块具体用于判断第二特征的取值是否小于第一预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第二特征的取值小于第一预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块具体用于判断第一特征的取值是否大于第二预设阈值且第五特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第五特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页;
或者,所述判断模块具体用于判断第一特征的取值是否大于第二预设阈值且第二特征的取值是否小于第一预设阈值且第四特征的取值是否为真且第六特征的取值是否为真,其中,判断结果为第一特征的取值大于第二预设阈值且第二特征的取值小于第一预设阈值且第四特征的取值为真且第六特征的取值为真时,得出所述原始网页为目标网页,否则,得出所述原始网页不是目标网页。
6.根据权利要求5所述的装置,其特征在于,所述识别模块包括:
计算单元,用于利用预设文本分类器对原始网页进行计算,得出第一特征的取值,所述第一特征的取值范围为[0,100];
所述计算单元,还用于计算原始网页中以文字形式显示出来的文字及标点符号的总个数,得出文本长度,所述文本长度的取值即为第二特征的取值;
判断单元,用于判断原始网页的URL中是否包含目标关键字,其中,判断结果为原始网页的URL中包含目标关键字时,得出第三特征的取值为真,否则,得出第三特征的取值为假;
所述判断单元,还用于判断原始网页是否存在目标内容标题关键字,判断结果为原始网页存在目标内容标题关键字时,得出第四特征的取值为真,否则,得出第四特征的取值为假;
所述判断单元,还用于判断原始网页是否存在目标内容翻页链接,判断结果为原始网页存在目标内容翻页链接时,得出第五特征的取值为真,否则,得出第五特征的取值为假;
所述判断单元,还用于判断原始网页是否存在目标内容图片,判断结果为原始网页存在目标内容图片时,得出第六特征的取值为真,否则,得出第六特征的取值为假。
7.根据权利要求6所述的装置,其特征在于,所述目标关键字包括:“/files/article/html/”、多个连续的数字串目录名称或者“xs”;
所述目标内容标题关键字包括:“第*卷”、“第*章”、“第*节”或者“第*篇”;
所述目标内容翻页链接所采用的文字包括:“回目录”、“上一章”、“下一章”、“上一节”、“下一节”、“回首页”、“上一页”、“下一页”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
8.根据权利要求5-7中任意一项所述的装置,其特征在于,所述提取模块具体用于当判断模块判断出所述原始网页为目标网页时,从原始网页中提取目标内容标题关键字所在行的所有文字;从原始网页的DOM树中提取目标内容翻页链接,所述提取出的目标内容翻页链接包括目标内容翻页链接采用的文字及其指向的URL;从原始网页中目标内容标题关键字所在行与目标内容翻页链接所在行之间提取目标内容图片。
CN201210382157.6A 2012-10-10 2012-10-10 网页信息处理方法及装置 Active CN103729354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210382157.6A CN103729354B (zh) 2012-10-10 2012-10-10 网页信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210382157.6A CN103729354B (zh) 2012-10-10 2012-10-10 网页信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN103729354A CN103729354A (zh) 2014-04-16
CN103729354B true CN103729354B (zh) 2015-10-21

Family

ID=50453432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210382157.6A Active CN103729354B (zh) 2012-10-10 2012-10-10 网页信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN103729354B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105573735B (zh) * 2014-10-17 2020-09-11 中兴通讯股份有限公司 笔记管理方法和装置
CN105260394A (zh) * 2015-09-15 2016-01-20 广州视睿电子科技有限公司 web跨页面选择数据的方法和系统
CN108108366A (zh) * 2016-11-24 2018-06-01 腾讯科技(深圳)有限公司 一种网页类别识别方法及装置
CN112749528A (zh) * 2019-10-31 2021-05-04 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441653A (zh) * 2008-12-19 2009-05-27 腾讯科技(深圳)有限公司 内容过滤方法及内容过滤装置
CN101984426A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
CN102629261A (zh) * 2012-03-01 2012-08-08 南京邮电大学 由钓鱼网页查找目标网页的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441653A (zh) * 2008-12-19 2009-05-27 腾讯科技(深圳)有限公司 内容过滤方法及内容过滤装置
CN101984426A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
CN102629261A (zh) * 2012-03-01 2012-08-08 南京邮电大学 由钓鱼网页查找目标网页的方法

Also Published As

Publication number Publication date
CN103729354A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
Sun et al. Dom based content extraction via text density
CN102760172B (zh) 一种网络搜索方法及网络搜索系统
CN102722498B (zh) 搜索引擎及其实现方法
CN102436563B (zh) 一种检测页面篡改的方法及装置
US20200004792A1 (en) Automated website data collection method
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
US20130054672A1 (en) Systems and methods for contextualizing a toolbar
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN102156737A (zh) 一种中文网页主题内容的提取方法
US9280522B2 (en) Highlighting of document elements
CN103942211B (zh) 一种正文页的识别方法及装置
WO2017008448A1 (zh) 一种网页核心内容提取方法
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN102523130A (zh) 不良网页检测方法及装置
CN103729354B (zh) 网页信息处理方法及装置
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN103810251A (zh) 一种文本提取方法及装置
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
Nyein Mining contents in Web page using cosine similarity
Liu et al. Main content extraction from web pages based on node characteristics
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN103942233B (zh) 目录型网页的介绍页识别方法及装置
Luo et al. Web article extraction for web printing: a dom+ visual based approach
CN115391711B (zh) 网页正文信息提取方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221114

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518100

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.