CN104331438B - 对小说网页内容选择性抽取方法和装置 - Google Patents

对小说网页内容选择性抽取方法和装置 Download PDF

Info

Publication number
CN104331438B
CN104331438B CN201410575705.6A CN201410575705A CN104331438B CN 104331438 B CN104331438 B CN 104331438B CN 201410575705 A CN201410575705 A CN 201410575705A CN 104331438 B CN104331438 B CN 104331438B
Authority
CN
China
Prior art keywords
node
block
webpage
structural data
novel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410575705.6A
Other languages
English (en)
Other versions
CN104331438A (zh
Inventor
魏少俊
郑燕琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410575705.6A priority Critical patent/CN104331438B/zh
Publication of CN104331438A publication Critical patent/CN104331438A/zh
Application granted granted Critical
Publication of CN104331438B publication Critical patent/CN104331438B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

本发明提供了一种对小说网页内容选择性抽取方法和装置,该方法包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。本发明通过对文本对象模型树结构中的各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。

Description

对小说网页内容选择性抽取方法和装置
技术领域
本发明涉及互联网技术领域,特别是一种对小说网页内容选择性抽取方法和装置。
背景技术
小说网页内容的抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。一般而言,小说网页包含的信息丰富而复杂,可以包括有标题、作者信息、目录、正文、广告等内容。因而,为了在小说网页中抽取有效的内容,亟需提供一种高效、通用性强的小说网页内容的抽取方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的对小说网页内容选择性抽取方法和相应的装置。
依据本发明的一个方面,提供了一种对小说网页内容选择性抽取方法,包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。
可选地,对所述文本对象模型树结构中的各结点进行分类,包括:遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容;按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。
可选地,遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容,包括:对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。
可选地,由所述决策树对所述各节点进行分类,包括:由所述决策树分析所述各节点的内容,得到所述各节点的维度特征;根据所述各节点的维度特征对所述各节点进行分类。
可选地,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。
可选地,按照预设规则将所述各节点的内容输入决策树,包括:采用先跟遍历的顺序将所述各节点的内容输入决策树。
可选地,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
可选地,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
可选地,所述目标小说网页为来自多个站点的同一本小说的小说网页,根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括:识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据。
可选地,识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,包括:计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
依据本发明的另一个方面,还提供了一种对小说网页内容选择性抽取装置,包括:
解析模块,适于将目标小说网页解析成文本对象模型树结构结构;
分类模块,适于对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;
抽取模块,适于根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。
可选地,所述分类模块还适于:遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容;按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。
可选地,所述分类模块还适于:对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。
可选地,所述分类模块还适于:由所述决策树分析所述各节点的内容,得到所述各节点的维度特征;根据所述各节点的维度特征对所述各节点进行分类。
可选地,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。
可选地,所述分类模块还适于:采用先跟遍历的顺序将所述各节点的内容输入决策树。
可选地,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
可选地,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
可选地,所述目标小说网页为来自多个站点的同一本小说的小说网页,在所述抽取模块根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括识别模块,适于:识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据。
可选地,所述识别模块还适于:计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
依据本发明提供的技术方案,将目标小说网页解析成文本对象模型树结构,进而对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块。随后根据结构分块选择性抽取目标小说网页相应的结构化数据。本发明基于对小说网页的页面分块提出,将目标小说网页解析成文本对象模型树结构,由于文本对象模型树结构反映了页面分块情况,因而可以对文本对象模型树结构中各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。
进一步地,本发明通过决策树对文本对象模型树结构中的各节点进行分类,确定目标小说网页的结构分块,分块准确度高,能够满足对复杂多变的小说网页进行处理的需要,且操作简单,易于实现。
另外,本发明还可以根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取相应的结构化数据,之后进行精细化识别,以识别出不同的结构化数据,从而判断该不同的结构化数据可能是不完整的或虚假的数据。例如,根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取作者信息块,之后识别作者信息块中的作者信息,识别出存在不同的作者信息,从而可以判断出该不同的作者信息可能是不完整或虚假的作者信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种常见的小说网页的页面结构的分块示意图;
图2示出了根据本发明一个实施例的另一种常见的小说网页的页面结构的分块示意图;
图3示出了根据本发明一个实施例的对小说网页内容选择性抽取方法的流程图;
图4示出了根据本发明一个实施例的对小说网页内容选择性抽取装置的结构示意图;以及
图5示出了根据本发明另一个实施例的对小说网页内容选择性抽取装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例的技术方案是基于对小说网页的页面分块提出的,也就是将小说网页的页面按照内容划分成不同类型的块。图1和图2分别示出了两种常见的小说网页的页面结构,其中,图1示出的小说网页的页面被分为8个块,分别为导航块、小说名称块、广告块、作者信息块、附加信息块、摘要信息块、垃圾块以及目录块。由于网站的功能和作用不同,其结构分块也是不同的。图2示出了另一种小说网页的页面的分块情况,该页面被分为章节名称块、小说名称块、作者信息块、发表日期块、附加信息块、正文块以及翻页块等。一般而言,正文块中包含的内容是整个小说网页页面的核心内容,也是需要抽取的小说网页内容。当然还可以根据实际需要,选择性抽取相应的小说网页内容。除以上两种常见的小说网页的页面中的分块外,根据小说网页的页面的内容和版面可以灵活增加或减少页面分块。
在确定出小说网页的页面分块类型之后,可以使用本发明实施例提供的技术方案对任意的目标小说网页进行结构分块,进而根据结构分块选择性抽取目标小说网页相应的结构化数据,从而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。
图3示出了根据本发明一个实施例的对小说网页内容选择性抽取方法的流程图。如图3所示,该方法至少包括以下步骤S302至步骤S306。
步骤S302、将目标小说网页解析成文本对象模型树结构。
步骤S304、对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块。
步骤S306、根据结构分块选择性抽取目标小说网页相应的结构化数据。
依据本发明提供的技术方案,将目标小说网页解析成文本对象模型树结构,进而对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块。随后根据结构分块选择性抽取目标小说网页相应的结构化数据。本发明基于对小说网页的页面分块提出,将目标小说网页解析成文本对象模型树结构,由于文本对象模型树结构反映了页面分块情况,因而可以对文本对象模型树结构中各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。
上文步骤S302提及的文本对象模型的英文缩写为DOM(Document Object Model),根据W3C(万维网联盟)DOM规范,DOM是一种与浏览器、平台、语言无关的接口,利用DOM可以方便访问页面其他的标准组件。DOM是以层次结构组织的结点或信息片段的集合。这个层次结构允许开发人员在树中导航寻找特定信息。并且由于它是基于信息层次的,因而DOM被认为是基于树或基于对象的。DOM把HTML(Hypertext Markup Language,超文本标记语言)文档呈现为带有元素、属性和文本的树结构。在得到目标小说网页之后,可以利用Webkit引擎将目标小说网页解析成文本对象模型树结构。
在上文步骤S302将目标小说网页解析成文本对象模型树结构后,步骤S304中对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块。本发明提供了一种优选的对文本对象模型树结构中的各节点进行分类以确定目标小说网页的结构分块的方案,在该方案中,可以遍历文本对象模型树结构,得到文本对象模型树结构中各节点的内容,进而按照预设规则将各节点的内容输入决策树,由决策树对各节点进行分类。或者,可以遍历文本对象模型树结构,得到文本对象模型树结构中各节点的维度特征,进而按照预设规则将各节点的维度特征输入决策树,由决策树对各节点进行分类。
进一步地,遍历文本对象模型树结构的过程可以采用后跟遍历的方式进行,并通过累加当前遍历结点的所有子结点的内容得到当前遍历结点的内容或者通过累加当前遍历结点自身的内容以及当前遍历结点的所有子结点的内容得到当前遍历结点的内容。这里,后跟遍历的遍历顺序为依次遍历左子树、右子树、根节点,采用这种方式进行遍历,获取父结点的内容时,可以通过累加子结点的内容进行,避免重复计算。若当前遍历结点自身不带有内容时,该结点的内容通过累加当前遍历结点的所有子结点的内容得到。若当前遍历结点自身带有内容时,该结点的内容通过访问根节点累加当前遍历结点自身的内容以及当前遍历结点的所有子结点的内容得到。通过遍历可以得到文本对象模型树结构中各节点的内容。
与上述遍历方式相类似,采用后跟遍历的方式,通过累加当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征或者通过累加当前遍历结点自身的维度特征以及当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征。后跟遍历的遍历顺序为依次遍历左子树、右子树、根节点,采用这种方式进行遍历,获取父结点的维度特征时,可以通过累加子结点的维度特征进行,避免重复计算。若当前遍历结点自身不带有维度特征时,该结点的维度特征通过累加当前遍历结点的所有子结点的维度特征得到。若当前遍历结点自身带有维度特征时,该结点的维度特征通过访问根节点累加当前遍历结点自身的维度特征以及当前遍历结点的所有子结点的维度特征得到。通过遍历可以得到文本对象模型树结构中各节点的维度特征。
在得到文本对象模型树结构中各节点的内容或文本对象模型树结构中各节点的维度特征后,按照预设规则将各节点的内容或各节点的维度特征输入决策树,这里的预设规则可以优选采用先跟遍历的方式进行,即依次遍历根节点、左子树、右子树。采用该方式时,若一个结点被确定为一个块,则不再遍历其子结点,若一个结点被确定为不是一个块,则需要对其子结点进行遍历和判别。
进一步地,按照预设规则将各节点的内容或各节点的维度特征输入决策树后,决策树对各节点进行分类。决策树是在已知各种分块中各种维度特征的统计数据的基础上,通过训练决策树利用各结点的维度特征得出各结点对应的分块类型。下面将详细介绍决策树对目标小说网页的文本对象模型树结构中各节点进行分类,以确定目标小说网页的结构分块的方案。
首先,确定用于分块的维度特征,在本发明实施例中,可以使用的维度特征多达105个,主要涉及以下内容:文本长度、超链接个数、超链接文本长度、高亮文本长度(包括加大加粗的文字)、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号等等。即一种类型的块可以由该105个维度特征中的一个或多个特征取特定的值来确定。需要说明的是,根据实际情况所确定的维度特征并不限于105个,在后续过程中还可以进行扩充。
其次,将确定的用于分块的维度特征输入决策树,用于训练构建决策树。
再者,按照预设规则将目标小说网页的文本对象模型树结构中各节点的内容输入决策树,由决策树分析各节点的内容,得到各节点的维度特征,进而根据各节点的维度特征对各节点进行分类。
下面通过一具体实施例详细介绍本发明对小说网页内容选择性抽取方法。首先将一个目标小说网页HTML文档解析成文本对象模型树结构,在得到文本对象模型树结构后,进行后跟遍历,得到文本对象模型树结构各个结点的内容。随后采用先跟遍历的方式将各个结点的内容输入决策树,由决策树分析各节点的内容,得到各节点的维度特征,进而根据各节点的维度特征对各节点进行分类,确定目标小说网页的结构分块,该结构分块包括了章节名称块、小说名称块、作者信息块、发表日期块、附加信息块、正文块以及翻页块。进而可以根据该结构分块选择性抽取目标小说网页相应的结构化数据。
在本发明的一个实施例中,在根据结构分块选择性抽取目标小说网页相应的结构化数据之后,还可以对抽取的结构化数据进行精细化识别,以识别出不同的结构化数据,从而判断该不同的结构化数据可能是不完整的或虚假的数据。即目标小说网页为来自多个站点的同一本小说的小说网页,根据结构分块选择性抽取目标小说网页相应的结构化数据之后,识别选择性抽取的来自多个站点的目标小说网页相应的结构化数据,以识别出不同的结构化数据。
进一步地,本发明提供了一种优选的识别方法,即计算选择性抽取的来自多个站点的目标小说网页相应的结构化数据的特征向量,进而将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。例如,根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取作者信息块,之后识别作者信息块中的作者信息,识别出存在不同的作者信息,从而可以判断出该不同的作者信息可能是不完整或虚假的作者信息。举例来说,对来自站点1、站点2、站点3以及站点4的同一本小说的小说网页选择性抽取作者信息块分别为作者A、作者A、作者B、作者A,通过对作者A、作者A、作者B、作者A进行聚类发现,作者B为不同的作者信息,可以判断站点3中该小说网页的小说作者信息(即作者B)是虚假的。又例如,根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取目录页和内容页,随后计算多个内容页的文本特征向量,进而将具备相同的文本特征向量进行聚类,从而得到每两个目录页对应的内容页的交集作为每两个目录页的交集,进而根据每两个目录页的交集判断小说网页的章节是否完整或者是否存在新发布的章节等等。
基于同一发明构思,本发明实施例还提供了一种对小说网页内容选择性抽取装置,以实现上述对小说网页内容选择性抽取方法。
图4示出了根据本发明一个实施例的对小说网页内容选择性抽取装置的结构示意图。参见图4,该装置至少包括:解析模块410、分类模块420以及抽取模块430。
现介绍本发明实施例的对小说网页内容选择性抽取装置的各组成或器件的功能以及各部分间的连接关系:
解析模块410,适于将目标小说网页解析成文本对象模型树结构结构;
分类模块420,与解析模块410相耦合,适于对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块;
抽取模块430,与分类模块420相耦合,适于根据结构分块选择性抽取目标小说网页相应的结构化数据。
上述解析模块410可以利用Webkit引擎将目标小说网页解析成文本对象模型树结构。
在一个实施例中,分类模块420还适于:遍历文本对象模型树结构,得到文本对象模型树结构中各节点的内容;按照预设规则将各节点的内容输入决策树,由决策树对各节点进行分类。
或者,分类模块420还适于:遍历文本对象模型树结构,得到文本对象模型树结构中各节点的维度特征,进而按照预设规则将各节点的维度特征输入决策树,由决策树对各节点进行分类。
在一个实施例中,分类模块420遍历文本对象模型树结构的过程可以采用后跟遍历的方式进行,并通过累加当前遍历结点的所有子结点的内容得到当前遍历结点的内容或者通过累加当前遍历结点自身的内容以及当前遍历结点的所有子结点的内容得到当前遍历结点的内容。这里,后跟遍历的遍历顺序为依次遍历左子树、右子树、根节点,采用这种方式进行遍历,获取父结点的内容时,可以通过累加子结点的内容进行,避免重复计算。若当前遍历结点自身不带有内容时,该结点的内容通过累加当前遍历结点的所有子结点的内容得到。若当前遍历结点自身带有内容时,该结点的内容通过访问根节点累加当前遍历结点自身的内容以及当前遍历结点的所有子结点的内容得到。通过遍历可以得到文本对象模型树结构中各节点的内容。
与上述遍历方式相类似,分类模块420可以采用后跟遍历的方式,通过累加当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征或者通过累加当前遍历结点自身的维度特征以及当前遍历结点的所有子结点的维度特征得到当前遍历结点的维度特征。后跟遍历的遍历顺序为依次遍历左子树、右子树、根节点,采用这种方式进行遍历,获取父结点的维度特征时,可以通过累加子结点的维度特征进行,避免重复计算。若当前遍历结点自身不带有维度特征时,该结点的维度特征通过累加当前遍历结点的所有子结点的维度特征得到。若当前遍历结点自身带有维度特征时,该结点的维度特征通过访问根节点累加当前遍历结点自身的维度特征以及当前遍历结点的所有子结点的维度特征得到。通过遍历可以得到文本对象模型树结构中各节点的维度特征。
在一个实施例中,分类模块420在得到文本对象模型树结构中各节点的内容或文本对象模型树结构中各节点的维度特征后,按照预设规则将各节点的内容或各节点的维度特征输入决策树,这里的预设规则可以优选采用先跟遍历的方式进行,即依次遍历根节点、左子树、右子树。采用该方式时,若一个结点被确定为一个块,则不再遍历其子结点,若一个结点被确定为不是一个块,则需要对其子结点进行遍历和判别。
在一个实施例中,本发明可以使用的维度特征多达105个,主要涉及以下内容:文本长度、超链接个数、超链接文本长度、高亮文本长度(包括加大加粗的文字)、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号等等。即一种类型的块可以由该105个维度特征中的一个或多个特征取特定的值来确定。需要说明的是,根据实际情况所确定的维度特征并不限于105个,在后续过程中还可以进行扩充。
在一个实施例中,目标小说网页的结构分块的类型可以包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
在一个实施例中,分类模块420按照预设规则将目标小说网页的文本对象模型树结构中各节点的内容输入决策树,由决策树分析各节点的内容,得到各节点的维度特征,进而根据各节点的维度特征对各节点进行分类。
在一个实施例中,图5示出了根据本发明另一个实施例的对小说网页内容选择性抽取装置的结构示意图。如图5所示,目标小说网页为来自多个站点的同一本小说的小说网页,在抽取模块430根据结构分块选择性抽取目标小说网页相应的结构化数据之后,还包括识别模块510,适于:识别选择性抽取的来自多个站点的目标小说网页相应的结构化数据,以识别出不同的结构化数据。
在一个实施例中,识别模块510还适于:计算选择性抽取的来自多个站点的目标小说网页相应的结构化数据的特征向量;将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
依据本发明提供的技术方案,将目标小说网页解析成文本对象模型树结构,进而对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块。随后根据结构分块选择性抽取目标小说网页相应的结构化数据。本发明基于对小说网页的页面分块提出,将目标小说网页解析成文本对象模型树结构,由于文本对象模型树结构反映了页面分块情况,因而可以对文本对象模型树结构中各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。
进一步地,本发明通过决策树对文本对象模型树结构中的各节点进行分类,确定目标小说网页的结构分块,分块准确度高,能够满足对复杂多变的小说网页进行处理的需要,且操作简单,易于实现。
另外,本发明还可以根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取相应的结构化数据,之后进行精细化识别,以识别出不同的结构化数据,从而判断该不同的结构化数据可能是不完整的或虚假的数据。例如,根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取作者信息块,之后识别作者信息块中的作者信息,识别出存在不同的作者信息,从而可以判断出该不同的作者信息可能是不完整或虚假的作者信息。
本发明还公开了:
A1、一种对小说网页内容选择性抽取方法,包括:
将目标小说网页解析成文本对象模型树结构;
对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;
根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。
A2、根据A1所述的方法,其中,对所述文本对象模型树结构中的各结点进行分类,包括:
遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容;
按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。
A3、根据A1或A2所述的方法,其中,遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容,包括:
对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。
A4、根据A1-A3任一项所述的方法,其中,由所述决策树对所述各节点进行分类,包括:
由所述决策树分析所述各节点的内容,得到所述各节点的维度特征;
根据所述各节点的维度特征对所述各节点进行分类。
A5、根据A1-A4任一项所述的方法,其中,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。
A6、根据A1-A5任一项所述的方法,其中,按照预设规则将所述各节点的内容输入决策树,包括:
采用先跟遍历的顺序将所述各节点的内容输入决策树。
A7、根据A1-A6任一项所述的方法,其中,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
A8、根据A1-A7任一项所述的方法,其中,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
A9、根据A1-A8任一项所述的方法,其中,所述目标小说网页为来自多个站点的同一本小说的小说网页,根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括:
识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据。
A10、根据A1-A9任一项所述的方法,其中,识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,包括:
计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;
将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
B11、一种对小说网页内容选择性抽取装置,包括:
解析模块,适于将目标小说网页解析成文本对象模型树结构结构;
分类模块,适于对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;
抽取模块,适于根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。
B12、根据B11所述的装置,其中,所述分类模块还适于:
遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容;
按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。
B13、根据B11或B12所述的装置,其中,所述分类模块还适于:
对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。
B14、根据B11-B13任一项所述的装置,其中,所述分类模块还适于:
由所述决策树分析所述各节点的内容,得到所述各节点的维度特征;
根据所述各节点的维度特征对所述各节点进行分类。
B15、根据B11-B14任一项所述的装置,其中,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。
B16、根据B11-B15任一项所述的装置,其中,所述分类模块还适于:
采用先跟遍历的顺序将所述各节点的内容输入决策树。
B17、根据B11-B16任一项所述的装置,其中,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
B18、根据B11-B17任一项所述的装置,其中,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
B19、根据B11-B18任一项所述的装置,其中,所述目标小说网页为来自多个站点的同一本小说的小说网页,在所述抽取模块根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括识别模块,适于:
识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据。
B20、根据B11-B19任一项所述的装置,其中,所述识别模块还适于:
计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;
将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对小说网页内容选择性抽取装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims (18)

1.一种对小说网页内容选择性抽取方法,包括:
将目标小说网页解析成文本对象模型树结构;
对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;
根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据;
其中,所述目标小说网页为来自多个站点的同一本小说的小说网页,根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括:
识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,从而判断该不同的结构化数据是不完整的或虚假的数据;
所述目标小说网页相应的结构化数据包括目录页和内容页,所述识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,包括:
计算来自多个站点的所述目标小说网页相应的多个内容页的文本特征向量,进而将具备相同的文本特征向量进行聚类,从而得到每两个目录页对应的内容页的交集作为每两个目录页的交集,进而根据每两个目录页的交集判断来自多个站点的所述目标小说网页的章节是否完整。
2.根据权利要求1所述的方法,其中,对所述文本对象模型树结构中的各结点进行分类,包括:
遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各结点的内容;
按照预设规则将所述各结点的内容输入决策树,由所述决策树对所述各结点进行分类。
3.根据权利要求2所述的方法,其中,遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各结点的内容,包括:
对所述文本对象模型树结构进行后跟遍历,通过累加当前遍历结点的所有子结点的内容得到当前遍历结点的内容。
4.根据权利要求2或3所述的方法,其中,由所述决策树对所述各结点进行分类,包括:
由所述决策树分析所述各结点的内容,得到所述各结点的维度特征;
根据所述各结点的维度特征对所述各结点进行分类。
5.根据权利要求4所述的方法,其中,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。
6.根据权利要求2或3所述的方法,其中,按照预设规则将所述各结点的内容输入决策树,包括:
采用先跟遍历的顺序将所述各结点的内容输入决策树。
7.根据权利要求4所述的方法,其中,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
8.根据权利要求1-3任一项所述的方法,其中,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
9.根据权利要求1-3任一项所述的方法,其中,识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,包括:
计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;
将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
10.一种对小说网页内容选择性抽取装置,包括:
解析模块,适于将目标小说网页解析成文本对象模型树结构;
分类模块,适于对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;
抽取模块,适于根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据;
其中,所述目标小说网页为来自多个站点的同一本小说的小说网页,在所述抽取模块根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括识别模块,适于:
识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,从而判断该不同的结构化数据是不完整的或虚假的数据;
所述目标小说网页相应的结构化数据包括目录页和内容页,所述识别模块还适于:计算来自多个站点的所述目标小说网页相应的多个内容页的文本特征向量,进而将具备相同的文本特征向量进行聚类,从而得到每两个目录页对应的内容页的交集作为每两个目录页的交集,进而根据每两个目录页的交集判断来自多个站点的所述目标小说网页的章节是否完整。
11.根据权利要求10所述的装置,其中,所述分类模块还适于:
遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各结点的内容;
按照预设规则将所述各结点的内容输入决策树,由所述决策树对所述各结点进行分类。
12.根据权利要求11所述的装置,其中,所述分类模块还适于:
对所述文本对象模型树结构进行后跟遍历,通过累加当前遍历结点的所有子结点的内容得到当前遍历结点的内容。
13.根据权利要求11或12所述的装置,其中,所述分类模块还适于:
由所述决策树分析所述各结点的内容,得到所述各结点的维度特征;
根据所述各结点的维度特征对所述各结点进行分类。
14.根据权利要求13所述的装置,其中,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。
15.根据权利要求11或12所述的装置,其中,所述分类模块还适于:
采用先跟遍历的顺序将所述各结点的内容输入决策树。
16.根据权利要求13所述的装置,其中,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。
17.根据权利要求10-12任一项所述的装置,其中,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。
18.根据权利要求10-12任一项所述的装置,其中,所述识别模块还适于:
计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;
将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。
CN201410575705.6A 2014-10-24 2014-10-24 对小说网页内容选择性抽取方法和装置 Expired - Fee Related CN104331438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410575705.6A CN104331438B (zh) 2014-10-24 2014-10-24 对小说网页内容选择性抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410575705.6A CN104331438B (zh) 2014-10-24 2014-10-24 对小说网页内容选择性抽取方法和装置

Publications (2)

Publication Number Publication Date
CN104331438A CN104331438A (zh) 2015-02-04
CN104331438B true CN104331438B (zh) 2018-04-17

Family

ID=52406165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410575705.6A Expired - Fee Related CN104331438B (zh) 2014-10-24 2014-10-24 对小说网页内容选择性抽取方法和装置

Country Status (1)

Country Link
CN (1) CN104331438B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062302B (zh) * 2016-11-08 2019-03-26 北京国双科技有限公司 一种文本信息的识别方法及装置
CN108694192B (zh) * 2017-04-07 2021-05-14 北京国双科技有限公司 网页类型的判断方法及装置
CN108268429B (zh) * 2017-06-15 2021-08-06 阿里巴巴(中国)有限公司 网络文学章节的确定方法和装置
CN108280211B (zh) * 2018-01-31 2020-07-07 湖北工业大学 文本特征向量的确定方法及系统、文本分类方法及系统
CN108628977B (zh) * 2018-04-25 2021-03-16 咪咕文化科技有限公司 一种网页内容处理方法、装置及计算机可读存储介质
CN109815315B (zh) * 2019-01-29 2020-09-22 中国矿业大学(北京) 一种基于文献的污染地块信息综合分析方法
CN111966932A (zh) * 2019-05-20 2020-11-20 富士通株式会社 信息处理方法和信息处理设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678583B (zh) * 2013-12-11 2017-07-21 北京华胜天成科技股份有限公司 结构化数据比较的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统

Also Published As

Publication number Publication date
CN104331438A (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
US20190155898A1 (en) Method and device for extracting entity relation based on deep learning, and server
CN103473338B (zh) 网页内容抽取方法和网页内容抽取系统
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN105512285B (zh) 基于机器学习的自适应网络爬虫方法
JP6203374B2 (ja) ウェブページ・スタイルアドレスの統合
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN106354844B (zh) 基于文本挖掘的服务组合包推荐系统及方法
CN103617192B (zh) 一种数据对象的聚类方法和装置
US11907644B2 (en) Detecting compatible layouts for content-based native ads
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107391675A (zh) 用于生成结构化信息的方法和装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN106503211A (zh) 面向信息发布类网站的移动版自动生成的方法
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN105117434A (zh) 一种网页分类方法和系统
CN109472022A (zh) 基于机器学习的新词识别方法及终端设备
CN106528068A (zh) 一种网页内容重构方法和系统
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN108694192B (zh) 网页类型的判断方法及装置
CN103488743B (zh) 网页元素抽取方法和网页元素抽取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180417

Termination date: 20211024

CF01 Termination of patent right due to non-payment of annual fee