CN114329138A - 网页信息抽取方法、装置、电子设备及存储介质 - Google Patents

网页信息抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114329138A
CN114329138A CN202111597859.1A CN202111597859A CN114329138A CN 114329138 A CN114329138 A CN 114329138A CN 202111597859 A CN202111597859 A CN 202111597859A CN 114329138 A CN114329138 A CN 114329138A
Authority
CN
China
Prior art keywords
text
node
information
image
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111597859.1A
Other languages
English (en)
Inventor
郭峰
郝旭杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qax Technology Group Inc, Secworld Information Technology Beijing Co Ltd filed Critical Qax Technology Group Inc
Priority to CN202111597859.1A priority Critical patent/CN114329138A/zh
Publication of CN114329138A publication Critical patent/CN114329138A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网页信息抽取方法、装置、电子设备及存储介质,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,网页信息抽取方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。通过本发明,实现了在对图文网页信息自动抽取的基础上,提高了信息抽取的准确度。

Description

网页信息抽取方法、装置、电子设备及存储介质
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种网页信息抽取方法、装置、电子设备及存储介质。
背景技术
通过信息抽取从网页中抽取用户感兴趣的信息,不仅可以方便用户对信息进行查找,而且可以为文本处理技术的研究提供方便的数据清洗服务。将信息从网页中抽取出来,主要由包装器完成。
相关技术可知,图文网页包装器技术主要包括模板法,这种方法针对每个网站的结构定义模板,通过模板来抽取网页内容。基于此方法,需要为每个网站定义一套模板,如果抓取的网站规模很大,需要人工配置很多模板,如果网站结构改变,网站的模板需要重新设置,进而导致信息抽取不便捷。
图文网页包装器技术还可以在文本内容的简单特征提取的基础上,使用机器学习或其它自动识别的算法进行网页信息提取。这种方法做到了自动提取信息,但对图文信息,尤其是图片较多或文字杂质较多的网页,例如新闻网页的提取准确度不高。
发明内容
本发明提供一种网页信息抽取方法、装置、电子设备及存储介质,用以解决现有技术中针对图文网页信息抽取不准确、不便捷的缺陷,实现了在对图文网页信息自动抽取的基础上,提高了信息抽取的准确度。
本发明提供一种网页信息抽取方法,所述方法应用于图文网页,所述图文网页至少包括图文正文,所述图文正文至少包括图文主体,所述方法包括:获取待抽取图文网页,并将所述待抽取图文网页渲染为html格式图文网页;基于所述html格式图文网页,得到与所述待抽取图文网页对应的dom节点树,其中,所述dom节点树包括多个节点,所述节点包括节点信息特征;基于所述节点信息特征,将多个所述节点进行聚类得到多个节点簇;确定所述节点簇的信息量,并基于所述信息量,确定与所述图文主体对应的图文主体节点簇;基于所述图文主体节点簇,抽取所述图文正文。
根据本发明提供的一种网页信息抽取方法,所述图文正文还包括图文标题以及图文发布时间,所述基于所述图文主体节点簇,抽取所述图文正文,包括:基于所述图文主体节点簇,分别确定与所述图文标题对应的图文标题节点,以及与所述图文发布时间对应的图文发布时间节点;基于所述图文主体节点簇、所述图文标题节点以及所述图文发布时间节点,分别抽取所述图文主体、所述图文标题以及所述图文发布时间;基于所述图文主体、所述图文标题以及所述图文发布时间,抽取所述图文正文。
根据本发明提供的一种网页信息抽取方法,所述图文正文还包括图文主体翻页链接,在所述基于所述信息量,确定与所述图文主体对应的图文主体节点簇之后,所述方法还包括:基于所述节点信息特征,确定与所述图文主体翻页链接对应的图文主体翻页链接节点;所述基于所述图文主体节点簇,抽取所述图文正文,包括:基于所述图文主体节点簇以及所述图文主体翻页链接节点,整合多页图文主体,并基于整合后的多页图文主体抽取所述图文正文。
根据本发明提供的一种网页信息抽取方法,所述基于所述节点信息特征,将多个所述节点进行聚类得到多个节点簇,包括:基于所述节点信息特征,在所述节点中确定有效节点;基于节点路径,确定由所述有效节点聚类得到的关于所述dom节点树的节点子树,并将所述节点子树作为所述节点簇。
根据本发明提供的一种网页信息抽取方法,所述节点信息特征至少包括图片信息特征,所述图片信息特征至少包括关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征,所述基于所述节点信息特征,在所述节点中确定有效节点,包括:分别确定所述节点的图片面积、图片横竖比以及图片信息熵;将所述图片面积小于面积阈值,或所述图片横竖比大于比例阈值,或所述图片信息熵小于信息熵阈值的节点确定为无效节点;基于所述无效节点,在所述节点中确定所述有效节点,其中,所述有效节点为所述节点中除所述无效节点之外的其他节点。
根据本发明提供的一种网页信息抽取方法,所述节点信息特征至少包括文本信息特征,所述文本信息特征至少包括关于文本与图文标题相关性的特征、关于文本中预设字符数量的特征,所述基于所述节点信息特征,在所述节点中确定有效节点,包括:分别确定所述节点的所述文本与图文标题相关性,以及所述文本中预设字符数量;将所述文本与图文标题相关性小于相关性阈值,或所述文本中预设字符数量大于字符数量阈值的节点确定为无效节点;基于所述无效节点,在所述节点中确定所述有效节点,其中,所述有效节点为所述节点中除所述无效节点之外的其他节点。
根据本发明提供的一种网页信息抽取方法,所述文本与图文标题相关性小于相关性阈值通过以下方式确定:确定文本与图文标题的公共字符串长度;响应于所述公共字符串长度小于长度阈值,确定所述文本与图文标题相关性小于相关性阈值。
根据本发明提供的一种网页信息抽取方法,所述节点信息特征至少包括链接文本信息特征,所述链接文本信息特征至少包括关于链接文本字符个数的特征、关于链接文本与所述链接文本前后文的位置关系的特征,所述基于所述节点信息特征,在所述节点中确定有效节点,包括:分别确定所述节点的所述链接文本字符个数,以及所述链接文本与所述链接文本前后文的位置关系;将所述链接文本字符个数大于字符数量阈值,或所述链接文本与所述链接文本前后文位于同一节点区域的节点确定为无效节点;基于所述无效节点,在所述节点中确定所述有效节点,其中,所述有效节点为所述节点中除所述无效节点之外的其他节点。
根据本发明提供的一种网页信息抽取方法,所述确定所述节点簇的信息量,并基于所述信息量,确定与所述图文主体对应的图文主体节点簇,包括:分别确定所述节点簇中各节点的节点信息特征;基于各所述节点的节点信息特征,确定所述节点簇的信息量,并在所述信息量中确定最大信息量;将所述最大信息量对应的节点簇确定与所述图文主体对应的图文主体节点簇。
根据本发明提供的一种网页信息抽取方法,所述节点信息特征至少包括关于图片信息熵的特征,以及关于文本中汉字个数的特征,所述基于各所述节点的节点信息特征,确定所述节点簇的信息量,包括:基于所述节点的图片信息熵,确定与所述图片信息熵对应的第一子信息量,其中,所述第一子信息量与所述图片信息熵呈正相关,以及基于所述节点的文本中汉字个数,确定与所述文本中汉字个数对应的第二子信息量,其中,所述第二子信息量与所述文本中汉字个数呈正相关;基于所述节点簇中各节点的所述第一子信息量与所述第二子信息量之和,确定所述节点簇的信息量。
本发明还提供一种网页信息抽取装置,所述装置应用于图文网页,所述图文网页至少包括图文正文,所述图文正文至少包括图文主体,所述装置包括:获取模块,用于获取待抽取图文网页,并将所述待抽取图文网页渲染为html格式图文网页;处理模块,用于基于所述html格式图文网页,得到与所述待抽取图文网页对应的dom节点树,其中,所述dom节点树包括多个节点,所述节点包括节点信息特征;聚类模块,用于基于所述节点信息特征,将多个所述节点进行聚类得到多个节点簇;确定模块,用于确定所述节点簇的信息量,并基于所述信息量,确定与所述图文主体对应的图文主体节点簇;抽取模块,用于基于所述图文主体节点簇,抽取所述图文正文。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网页信息抽取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网页信息抽取方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述网页信息抽取方法的步骤。
本发明提供的网页信息抽取方法、装置、电子设备及存储介质,通过网页渲染,使用dom节点树分析各节点的节点信息特征,并基于节点信息特征进行聚类得到多个节点簇,以及根据节点簇的信息量更加准确得定位除图文主体节点簇。并且基于图文主体节点簇,实现对图文正文的自动、准确抽取。通过本发明,可以在对图文网页信息自动抽取的基础上,提高信息抽取的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的网页信息抽取方法的流程示意图之一;
图2是本发明提供的基于图文主体节点簇抽取图文正文的流程示意图之一;
图3是本发明提供的基于节点信息特征,将多个节点进行聚类得到多个节点簇的流程示意图之一;
图4是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之一;
图5是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之二;
图6是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之三;
图7是本发明提供的确定节点簇的信息量,并基于信息量确定与图文主体对应的图文主体节点簇的流程示意图之一;
图8是本发明提供的基于各节点的节点信息特征,确定节点簇的信息量的流程示意图之一;
图9是应用本发明提供的网页信息抽取方法的应用场景示意图;
图10是本发明提供的网页信息抽取方法的流程示意图之二;
图11是本发明提供的网页信息抽取装置的结构示意图;
图12是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
将信息从网页中抽取出来,主要由包装器完成。其中,包装器可以理解为是一种软件程序,其由已经制定好的一系列信息抽取规则和使用这些规则的程序构成。对于用户特定信息源的查询请求,可以从页面的信息源找出相关有用的数据进行抽取,并转换为用规定的格式描述的数据,返回给用户。
相关技术可知,图文网页包装器技术主要包括模板法,这种方法针对每个网站的结构定义模板,通过模板来抽取网页内容。针对不同的网站需要构建不同的模板,从而增加了抽取工作量。图文网页包装器技术还可以在文本内容的简单特征提取的基础上,使用机器学习或其它自动识别的算法进行网页信息提取。这种方法做到了自动提取信息。但对图文信息,尤其是图片较多或文字杂质较多的网页,例如,新闻网页的提取准确度不高。
本发明提供的一种网页信息抽取方法,通过网页渲染,使用dom树分析和多种媒体特征提取,再结合密度聚类方法进行网页内容提取,提高了内容抽取的准确性,且避免了大量的人力操作,实现了网页内容的自动、准确抽取。
本发明可以应用于具有大量图文结合的网页,并对网页信息进行抽取。在一种示例中,本发明可以应用于对新闻网页信息进行抽取。
本发明将结合下述实施例对网页信息抽取的过程进行说明。
图1是本发明提供的网页信息抽取方法的流程示意图之一。
在本发明一示例性实施例中,网页信息抽取方法可以应用于图文网页。其中,图文网页至少可以包括图文正文,图文正文至少可以包括图文主体。在一示例中,本发明可以应用于对新闻网页信息进行抽取。可以理解的是,新闻正文是关于新闻稿件的全文,新闻主体是指新闻正文中关于新闻内容描述的主体内容。例如,新闻主体可以是通过图文进行新闻内容描述的内容。
在本发明中,将以新闻网页作为图文网页进行举例说明。
如图1所示,网页信息抽取方法可以包括步骤110至步骤150,下面将分别介绍各步骤。
在步骤110中,获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页。
在一种实施例中,可以获取待抽取新闻网页,并通过浏览器渲染技术将待抽取新闻网页渲染为html格式新闻网页。在一种示例中,若待抽取新闻网页以html格式存在,可以直接将待抽取新闻网页作为html格式新闻网页。在又一种示例中,若待抽取新闻网页为动态加载数据,可以通过调用接口对与待抽取新闻网页对应的脚本数据进行渲染,以得到html格式新闻网页。
在步骤120中,基于html格式图文网页,得到与待抽取图文网页对应的dom节点树。其中,dom节点树可以包括多个节点,节点可以包括节点信息特征。
在一种实施例中,可以对html格式新闻网页进行翻译,得到与待抽取新闻网页对应的dom节点树。其中,dom节点树可以包括多个节点,每个节点可以与待抽取新闻网页中的元素相对应。可以理解的是,节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息等。节点还可以包括节点信息特征。通过节点信息特征,可以分析待抽取新闻网页中的图片、文字、链接或其他信息的特征。
在步骤130中,基于节点信息特征,将多个节点进行聚类得到多个节点簇。
dom节点树中的相邻节点之间存在相关性。在一示例中,构成同一节点子树的节点具有相关性。在一示例中,同属于新闻主体的节点可以被聚类为同一个节点簇内。在一种实施例中,可以根据节点信息特征,将多个节点进行聚类得到多个节点簇。其中,不同的节点簇之间存在不同的特点。同一节点簇内的所有节点存在相关性。
在步骤140中,确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇。
在步骤150中,基于图文主体节点簇,抽取图文正文。
由于形成的节点簇具有不同的节点,而每个节点带有节点信息,因此,不同的节点簇具有不同的节点簇信息,并且,节点簇的信息量也对应不同。在一种实施例中,可以根据节点簇的信息量,确定与新闻主体对应的新闻主体节点簇。进一步的,可以基于确定的新闻主体节点簇,自动抽取出新闻正文。
本发明提供的网页信息抽取方法,通过网页渲染,使用dom节点树分析各节点的节点信息特征,并基于节点信息特征进行聚类得到多个节点簇,以及根据节点簇的信息量更加准确得定位除图文主体节点簇。并且基于图文主体节点簇,实现对图文正文的自动、准确抽取。通过本发明,可以在对图文网页信息自动抽取的基础上,提高信息抽取的准确度。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例进行说明。
图2是本发明提供的基于图文主体节点簇抽取图文正文的流程示意图之一。
在本发明一示例性实施例中,图文正文除了包括图文主体之外,还可以包括图文标题以及图文发布时间。如图2所示,基于图文主体节点簇,抽取图文正文可以包括步骤210至步骤230,下面将分别介绍各步骤。
在步骤210中,基于图文主体节点簇,分别确定与图文标题对应的图文标题节点,以及与图文发布时间对应的图文发布时间节点。
继续以新闻网页作为图文网页为例进行说明。在一种实施例中,可以根据新闻主体节点簇与新闻标题节点、新闻发布时间节点的位置关系,基于新闻主体节点簇,分别确定新闻标题节点,以及新闻发布时间节点。
在步骤220中,基于图文主体节点簇、图文标题节点以及图文发布时间节点,分别抽取图文主体、图文标题以及图文发布时间。
在步骤230中,基于图文主体、图文标题以及图文发布时间,抽取图文正文。
在一种实施例中,可以根据新闻主体节点簇、新闻标题节点以及新闻发布时间节点,分别抽取出新闻主体、新闻标题以及新闻发布时间。进一步的,基于抽取出的新闻主体、新闻标题以及新闻发布时间,可以进行整理、合并,并最终输出新闻正文。在本实施例中,通过新闻主体节点簇,可以更加准确的定位出新闻标题节点以及新闻发布时间节点。进一步的,基于新闻主体节点簇、新闻标题节点以及新闻发布时间节点,可以自动且准确得抽取出对应的新闻主体、新闻标题以及新闻发布时间并形成新闻正文。通过本实施例,实现了对新闻网页信息的自动、准确抽取。
需要说明的是,网页信息中的新闻往往由多页构成。因此,在进行网页信息抽取时,需要把相关的多页信息全部抽取出来。
本发明将结合下述实施例对另一种网页信息抽取方法的过程进行说明。
在本发明一示例性实施例中,图文正文还可以包括图文主体翻页链接。继续以前文所述的实施例为例进行说明,在基于节点簇的信息量,确定与新闻主体对应的新闻主体节点簇之后,网页信息抽取方法还可以包括:基于节点信息特征,确定与新闻主体翻页链接对应的新闻主体翻页链接节点。进一步的,基于新闻主体节点簇以及新闻主体翻页链接节点,整合多页新闻主体,并基于整合后的多页新闻主体抽取新闻正文。
在一种实施例中,对于网页信息中的新闻由多页构成的场景,可以在确定出与新闻主体对应的新闻主体节点簇之后,根据新闻主体翻页链接节点具有特殊字符的特点,可以根据节点信息特征,在多个节点中确定出与新闻主体翻页链接对应的新闻主体翻页链接节点。进一步的,可以根据新闻主体节点簇以及新闻主体翻页链接节点,整合多页新闻主体,并将整合后的多页新闻主体作为最终的新闻主体。并基于整合后的多页新闻主体抽取新闻正文。通过本实施例,可以实现对网页信息的全面、准确抽取。
本发明将结合下述实施例对基于节点信息特征,将多个节点进行聚类得到多个节点簇的过程进行说明。
图3是本发明提供的基于节点信息特征,将多个节点进行聚类得到多个节点簇的流程示意图之一。
在本发明一示例性实施例中,如图3所示,基于节点信息特征,将多个节点进行聚类得到多个节点簇可以包括步骤310和步骤320,下面将分别介绍各步骤。
在步骤310中,基于节点信息特征,在节点中确定有效节点。
在步骤320中,基于节点路径,确定由有效节点聚类得到的关于dom节点树的节点子树,并将节点子树作为节点簇。
在新闻网页中,除了包括新闻正文之外,还可能包括与新闻正文无关的推荐信息、位于网页底部的声明信息等无效信息。对于用户而言,与新闻正文无关的信息不是用户想要抽取的内容,在进行网页信息抽取时需要剔除这些信息。在一种实施例中,可以根据dom节点树的节点信息,在节点中确定出与信息正文相关的有效节点。进一步的,可以基于节点路径,确定由有效节点聚类得到的关于dom节点树的节点子树。可以理解的是,节点子树中节点的路径具有关联关系,即节点子树内的节点对应为新闻正文中同一模块的信息。在一示例中,节点子树可以对应新闻正文中的新闻主体。在应用过程中,可以将节点子树确定为节点簇。通过本实施例,可以有效剔除与新闻正文无关的其他信息,提高了新闻正文抽取的准确性。
本发明将结合下述实施例对基于节点信息特征,在节点中确定有效节点的过程进行说明。
图4是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之一。
在本发明一示例性实施例中,节点信息特征至少可以包括图片信息特征。其中,图片信息特征至少可以包括关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征。如图4所示,基于节点信息特征,在节点中确定有效节点可以包括步骤410至步骤430,下面将分别介绍各步骤。
在步骤410中,分别确定节点的图片面积、图片横竖比以及图片信息熵。
在步骤420中,将图片面积小于面积阈值,或图片横竖比大于比例阈值,或图片信息熵小于信息熵阈值的节点确定为无效节点。
在步骤430中,基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在新闻网页中,新闻正文中的图片与新闻正文之外的其他图片,在图片面积、图片横竖比或图片信息熵等特征上存在区别。因此,可以根据图片面积、图片横竖比或图片信息熵将不属于新闻正文中的节点剔除掉。在一种实施例中,可以分别确定各节点的图片面积、图片横竖比以及图片信息熵。其中,图片信息熵可以根据以下公式确定:
Figure BDA0003431967570000121
其中,H表示图片信息熵;N表示图片横向像素数;M表示图片纵向像素数;Pi,j表示该位置像素值在整个图片的发生概率。
在一示例中,可以将图片面积小于面积阈值,或图片横竖比大于比例阈值,或图片信息熵小于信息熵阈值的节点确定为无效节点。进一步的,可以根据无效节点确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。需要说明的是,面积阈值、比例阈值以及信息熵阈值可以根据实际情况进行调整,在本实施例中不作具体限定。通过本实施例,可以准确、有效得剔除与新闻正文无关的其他信息,提高了新闻正文抽取的准确性。
本发明将结合下述实施例对另一种基于节点信息特征,在节点中确定有效节点的过程进行说明。
图5是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之二。
在本发明一示例性实施例中,节点信息特征至少可以包括文本信息特征。其中,文本信息特征至少可以包括关于文本与图文标题相关性的特征,以及关于文本中预设字符数量的特征。如图5所示,基于节点信息特征,在节点中确定有效节点可以包括步骤510至步骤530,下面将分别介绍各步骤。
在步骤510中,分别确定节点的文本与图文标题相关性,以及文本中预设字符数量。
在步骤520中,将文本与图文标题相关性小于相关性阈值,或文本中预设字符数量大于字符数量阈值的节点确定为无效节点。
在步骤530中,基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
继续以新闻网页为例进行说明。在新闻网页中,新闻正文中的文本与新闻正文之外的其他文本,在文本与新闻标题相关性或文本中预设字符数量等特征上存在区别。因此,可以根据节点的文本与新闻标题相关性,以及文本中预设字符数量将不属于新闻正文中的节点剔除掉。在一种实施例中,可以分别确定节点的文本与新闻标题相关性,以及文本中预设字符数量。其中,预设字符可以根据实际情况进行调整,例如可以是“&”,“#”,“@”,在本实施例中,不对预设字符作具体限定。
在一示例中,可以将文本与新闻标题相关性小于相关性阈值,或文本中预设字符数量大于字符数量阈值的节点确定为无效节点。进一步的,可以根据无效节点确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。需要说明的是,计算文本与新闻标题相关性的方式,以及对应的相关性阈值,在本实施例中不作具体限定,可以根据实际情况进行调整。字符数量阈值也可以根据实际情况进行调整。
在一种实施例中,文本与新闻标题相关性小于相关性阈值可以通过以下方式确定:确定文本与新闻标题的公共字符串长度;响应于公共字符串长度小于长度阈值,确定文本与新闻标题相关性小于相关性阈值。
在一示例中,可以计算文本与新闻标题中出现公共字符串长度的加权和,并根据加权和得到文本与新闻标题相关性的值。其中,在计算加权和过程中的权重值可以根据实际情况进行调整,在本实施例中不对具体限定。
本发明将结合下述实施例对又一种基于节点信息特征,在节点中确定有效节点的过程进行说明。
图6是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之三。
在本发明一示例性实施例中,节点信息特征至少可以包括链接文本信息特征。其中,链接文本信息特征至少可以包括关于链接文本字符个数的特征、关于链接文本与链接文本前后文的位置关系的特征。如图6所示,基于节点信息特征,在节点中确定有效节点可以包括步骤610至步骤630,下面将分别介绍各步骤。
在步骤610中,分别确定节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系。
在步骤620中,将链接文本字符个数大于字符数量阈值,或链接文本与链接文本前后文位于同一节点区域的节点确定为无效节点。
在步骤630中,基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在新闻网页中,新闻正文中的链接文本与新闻正文之外的其他连接文本,在链接文本字符个数,以及链接文本与链接文本前后文的位置关系等特征上存在区别。因此,可以根据节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系将不属于新闻正文中的节点剔除掉。在一种实施例中,可以分别确定节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系。进一步的,可以将链接文本字符个数大于字符数量阈值,或链接文本与链接文本前后文不位于同一节点区域的节点确定为无效节点。其中,字符数量阈值可以根据实际情况进行调整,在本实施例中不作具体限定。
需要说明的是,div,blockquote等标签对节点区域的边界影响较大。在一示例中,若节点中检测到存在div,blockquote等标签,说明链接文本与链接文本前后文并不位于同一节点区域,可以将对应的节点确定为无效节点。P,strong,center,ul,font等标签对节点区域的边界影响较小。在一示例中,若节点中检测到存在P,strong,center,ul,font等标签,说明链接文本与链接文本前后文并位于同一节点区域,可以将对应的节点确定为有效节点。进一步的,可以根据无效节点确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。通过本实施例,可以准确、有效得剔除与新闻正文无关的其他信息,提高了新闻正文抽取的准确性。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例对基于信息量,确定与图文主体对应的图文主体节点簇的过程进行说明。
图7是本发明提供的确定节点簇的信息量,并基于信息量确定与图文主体对应的图文主体节点簇的流程示意图之一。
在本发明一示例性实施例中,如图7所示,确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇可以包括步骤710至步骤730,下面将分别介绍各步骤。
在步骤710中,分别确定节点簇中各节点的节点信息特征。
在步骤720中,基于各节点的节点信息特征,确定节点簇的信息量,并在信息量中确定最大信息量。
在步骤730中,将最大信息量对应的节点簇确定与图文主体对应的图文主体节点簇。
在一种实施例中,可以分别确定节点簇中各节点的节点信息特征,并基于各节点的节点信息特征,通过运算得到对应的节点簇的信息量。其中,信息量可以是一种关于信息密度的表达方式。由于在新闻网页中,新闻正文中的新闻主体的信息密度最大,因此,与新闻主体对应的新闻主体节点簇的信息量也是最大的。在应用过程中,可以将最大信息量对应的节点簇确定为新闻主体节点簇。在本实施例中,基于聚类后得到的节点簇的信息量确定新闻主体节点簇,可以提高识别的准确率,并且也避免了大量的人力操作,提高了网页信息抽取的准确度和效率。
本发明将结合下述实施例对基于各节点的节点信息特征,确定节点簇的信息量的过程进行说明。
图8是本发明提供的基于各节点的节点信息特征,确定节点簇的信息量的流程示意图之一。
在本发明一示例性实施例中,节点信息特征至少可以包括关于图片信息熵的特征,以及关于文本中汉字个数的特征。在应用过程中,可以根据关于图片信息熵的特征,以及关于文本中汉字个数的特征,确定节点簇的信息量。
如图8所示,基于各节点的节点信息特征,确定节点簇的信息量可以包括步骤810至步骤830,下面将分别介绍各步骤。
在步骤810中,基于节点的图片信息熵,确定与图片信息熵对应的第一子信息量,其中,第一子信息量与图片信息熵呈正相关。
在步骤820中,基于节点的文本中汉字个数,确定与文本中汉字个数对应的第二子信息量,其中,第二子信息量与文本中汉字个数呈正相关。
新闻正文中的图片具有较大信息量,因此,其图片信息熵较大。新闻正文中的文字内容具有较大信息量,因此,其文本中汉字个数较多。在应用过程中,可以根据与图片信息熵对应的第一子信息量,以及与文本中汉字个数对应的第二子信息量,确定节点簇的信息量。并可以根据信息量确定新闻主体节点簇。
在步骤830中,基于节点簇中各节点的第一子信息量与第二子信息量之和,确定节点簇的信息量。
在本实施例中,可以分别计算节点簇中各个节点中对应的第一子信息量和第二子信息量,并根据各节点的第一子信息量和第二子信息量之和,可以得到关于该节点簇的信息量。在应用过程中,选择信息量最大的节点簇作为新闻主体节点簇。进一步的,可以基于新闻主体节点簇,准确得抽取出新闻正文。
本发明提供的网页信息抽取方法,采用了图片信息分析、文本信息分析,链接分析等多个角度分析节点信息特征,并基于节点信息特征进行聚类得到多个节点簇。进一步,基于节点簇的信息量确定新闻主体节点簇,以抽取新闻正文。相比于模板和文字符合密度方法,本发明提高了识别的准确率,避免了大量的人力操作,并且可以更容易进行程序的维护,提高了信息抽取的效率。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例进行说明。
图9是应用本发明提供的网页信息抽取方法的应用场景示意图。
在本发明一实施例中,如图9所示,网页信息抽取方法可以理解为是一个包装器,其中,包装器可以包括网页下载模块、网页渲染模块、dom树分析模块、网页内容分析模块和网页内容提取模块。在一示例中,包装器可以应用于对新闻网页进行信息内容提取。
在一种实施例中,网页下载模块可以下载原始的网页数据,例如,待抽取新闻网页。通过网页渲染模块可以将下载的待抽取新闻网页渲染为html格式新闻网页。在一示例中,若待抽取新闻网页以html格式存在,网页渲染模块可以直接将待抽取新闻网页作为html格式新闻网页。在又一种示例中,若待抽取新闻网页为动态加载数据,网页渲染模块可以通过调用接口对与待抽取新闻网页对应的脚本数据进行渲染,得到html格式新闻网页。
通过dom树分析模块,可以将对html格式新闻网页进行翻译,得到与待抽取新闻网页对应的dom节点树。其中,dom节点树可以包括多个节点,每个节点与待抽取新闻网页中的元素相对应,可以理解的是,节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息等。节点还可以包括节点信息特征。通过节点信息特征,可以分析待抽取新闻网页中的图片、文字、链接或其他信息的特征。
在网页内容分析模块中,可以对dom节点树的节点进行分析,识别其中的媒体信息特征。由于节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息。因此,基于网页内容分析模块,对于对应图片的节点,可以识别出关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征。对于对应文本的节点,可以识别出关于文本与新闻标题相关性的特征、关于文本中预设字符数量的特征。对于对应链接文本的节点,可以识别出链接文本字符个数的特征、关于链接文本与所述链接文本前后文的位置关系的特征。在应用过程中,基于识别出的媒体信息特征,可以剔除与新闻正文无关的其他无效节点,例如,对应推荐信息的节点,以及对应底部声明信息的节点。在应用过程中,基于有效节点(节点中除无效节点之外的其他节点)进行聚类,得到多个节点簇。进一步的,可以计算节点簇的信息量,并根据信息量确定出新闻主体节点簇。
网页内容抽取模块可以基于网页内容分析模块确定出的新闻主体节点簇,抽取新闻主体(又称新闻的图文内容)。进一步的,可以根据新闻主体节点簇与新闻标题节点、新闻发布时间节点的位置关系,基于新闻主体节点簇,分别确定新闻标题节点,以及新闻发布时间节点。进一步的,基于新闻标题节点,以及新闻发布时间节点分别抽取新闻标题和新闻发布时间。
在又一示例中,网页信息中的新闻往往由多页构成,因此,在进行网页信息抽取时,需要把相关的多页信息全部抽取出来。网页内容抽取模块还可以基于节点信息特征,确定与新闻主体翻页链接对应的新闻主体翻页链接节点。并基于新闻主体节点簇以及新闻主体翻页链接节点,整合多页新闻主体,并基于整合后的多页新闻主体抽取新闻正文。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例进行说明。
图10是本发明提供的网页信息抽取方法的流程示意图之二。
在本发明一示例性实施例中,如图10所示,网页信息抽取方法可以包括步骤1001至步骤1014,下面将分别介绍各步骤。
在步骤1001中,下载网页。
在步骤1002中,渲染网页。
在步骤1003中,生成dom节点树。
在一种实施例中,可以下载网页,例如,可以下载待抽取新闻网页。并对待抽取新闻网页进行渲染,得到html格式新闻网页。进一步的,对html格式新闻网页进行翻译,得到与待抽取新闻网页对应的dom节点树。其中,dom节点树可以包括多个节点。
在步骤1004中,分析节点区域。
在步骤1005中,计算文本特征。
在步骤1006中,计算链接特征。
在步骤1007中,计算推荐信息特征。
在步骤1008中,计算图片特征。
在步骤1009中,计算声明特征。
在一种实施例中,通过对dom节点树的节点进行分析,实现对节点区域的分析。其中,节点区域可以理解为是对节点聚类后得到的节点簇。由于节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息。因此,可以分别计算文本特征、图片特征、链接特征、声明特征和推荐信息特征。在新闻网页中,除了包括新闻正文之外,还可能包括与新闻正文无关的推荐信息、位于网页底部的声明信息。对于用户而言,与新闻正文无关的信息不是用户想要抽取的信息,在进行网页信息抽取时需要剔除这些信息。通过上述的特征计算,可以剔除与声明特征和推荐信息特征对应无效节点。并基于除无效节点之外的其他有效节点进行聚类,得到多个节点簇。进一步的,可以基于节点簇的信息量,将信息密度最大的节点簇作为与新闻主体对应的新闻主体节点簇,并以此作为模板进行新闻正文中其他内容的提取。
在步骤1010中,提取模板。
在步骤1011中,提取标题。
在步骤1012中,提取时间。
在步骤1013中,提取翻页信息。
在步骤1014中,提取网页信息。
在一种实施例中,可以根据新闻主体节点簇与新闻标题节点、新闻发布时间节点的位置关系,基于新闻主体节点簇模板,分别确定新闻标题节点,以及新闻发布时间节点。进一步的,基于新闻标题节点,以及新闻发布时间节点分别提取新闻标题和新闻发布时间。
在又一示例中,网页信息中的新闻往往由多页构成,因此,在进行网页信息提取时,需要把相关的多页信息全部抽取出来。在应用过程中,还可以基于节点信息特征,确定与翻页信息对应的翻页信息节点。并基于新闻主体节点簇以及翻页信息节点,整合多页新闻主体,并基于整合后的多页新闻主体抽取新闻正文。
根据上述描述可知,本发明提供的网页信息抽取方法,通过网页渲染,使用dom节点树分析各节点的节点信息特征,并基于节点信息特征进行聚类得到多个节点簇,以及根据节点簇的信息量更加准确得定位除新闻主体节点簇。并且基于新闻主体节点簇,实现对新闻正文的自动、准确抽取。通过本发明,可以在对新闻网页信息自动抽取的基础上,提高信息抽取的准确度。
基于相同的构思,本发明还提供一种网页信息抽取装置。
下面对本发明提供的网页信息抽取装置进行描述,下文描述的装置与上文描述的网页信息抽取方法可相互对应参照。
图11是本发明提供的网页信息抽取装置的结构示意图。
在本发明一示例性实施例中,网页信息抽取装置可以应用于图文网页。其中,图文网页可以至少包括图文正文,图文正文可以至少包括图文主体。可以理解的是,本发明提供的网页信息抽取装置还可以应用于具有大量图文并存的网页,在一示例中,本发明提供的网页信息抽取装置还可以应用于新闻网页。如图11所示,网页信息抽取装置可以包括获取模块1110、处理模块1120、聚类模块1130、确定模块1140和抽取模块1150,下面将分别介绍各模块。
获取模块1110可以被配置为用于获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页。
处理模块1120可以被配置为用于基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树可以包括多个节点,节点可以包括节点信息特征。
聚类模块1130可以被配置为用于基于节点信息特征,将多个节点进行聚类得到多个节点簇。
确定模块1140可以被配置为用于确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇。
抽取模块1150可以被配置为用于基于图文主体节点簇,抽取图文正文。
在本发明一示例性实施例中,图文正文还可以包括图文标题以及图文发布时间,抽取模块1150可以采用以下方式基于图文主体节点簇,抽取图文正文:基于图文主体节点簇,分别确定与图文标题对应的图文标题节点,以及与图文发布时间对应的图文发布时间节点;基于图文主体节点簇、图文标题节点以及图文发布时间节点,分别抽取图文主体、图文标题以及图文发布时间;基于图文主体、图文标题以及图文发布时间,抽取图文正文。
在本发明一示例性实施例中,图文正文还可以包括图文主体翻页链接,确定模块1140还可以被配置为用于基于节点信息特征,确定与图文主体翻页链接对应的图文主体翻页链接节点。抽取模块1150可以采用以下方式基于图文主体节点簇,抽取图文正文:基于图文主体节点簇以及图文主体翻页链接节点,整合多页图文主体,并基于整合后的多页图文主体抽取图文正文。
在本发明一示例性实施例中,聚类模块1130可以采用以下方式基于节点信息特征,将多个节点进行聚类得到多个节点簇:基于节点信息特征,在节点中确定有效节点;基于节点路径,确定由有效节点聚类得到的关于dom节点树的节点子树,并将节点子树作为节点簇。
在本发明一示例性实施例中,节点信息特征至少可以包括图片信息特征,图片信息特征至少可以包括关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征,聚类模块1130可以采用以下方式基于节点信息特征,在节点中确定有效节点:分别确定节点的图片面积、图片横竖比以及图片信息熵;将图片面积小于面积阈值,或图片横竖比大于比例阈值,或图片信息熵小于信息熵阈值的节点确定为无效节点;基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在本发明一示例性实施例中,节点信息特征至少可以包括文本信息特征,文本信息特征至少可以包括关于文本与图文标题相关性的特征、关于文本中预设字符数量的特征,聚类模块1130可以采用以下方式基于节点信息特征,在节点中确定有效节点:分别确定节点的文本与图文标题相关性,以及文本中预设字符数量;将文本与图文标题相关性小于相关性阈值,或文本中预设字符数量大于字符数量阈值的节点确定为无效节点;基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在本发明一示例性实施例中,聚类模块1130可以采用以下方式确定文本与图文标题相关性小于相关性阈值:确定文本与图文标题的公共字符串长度;响应于公共字符串长度小于长度阈值,确定文本与图文标题相关性小于相关性阈值。
在本发明一示例性实施例中,节点信息特征至少可以包括链接文本信息特征,链接文本信息特征至少可以包括关于链接文本字符个数的特征、关于链接文本与链接文本前后文的位置关系的特征,聚类模块1130可以采用以下方式基于节点信息特征,在节点中确定有效节点:分别确定节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系;将链接文本字符个数大于字符数量阈值,或链接文本与链接文本前后文位于同一节点区域的节点确定为无效节点;基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在本发明一示例性实施例中,确定模块1140可以采用以下方式确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇:分别确定节点簇中各节点的节点信息特征;基于各节点的节点信息特征,确定节点簇的信息量,并在信息量中确定最大信息量;将最大信息量对应的节点簇确定与图文主体对应的图文主体节点簇。
在本发明一示例性实施例中,节点信息特征至少可以包括关于图片信息熵的特征,以及关于文本中汉字个数的特征,确定模块1140可以采用以下方式基于各节点的节点信息特征,确定节点簇的信息量:基于节点的图片信息熵,确定与图片信息熵对应的第一子信息量,其中,第一子信息量与图片信息熵呈正相关,以及基于节点的文本中汉字个数,确定与文本中汉字个数对应的第二子信息量,其中,第二子信息量与文本中汉字个数呈正相关;基于节点簇中各节点的第一子信息量与第二子信息量之和,确定节点簇的信息量。
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行网页信息抽取方法,其中,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,该方法可以包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的网页信息抽取方法,其中,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,该方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的网页信息抽取方法,其中,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,该方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种网页信息抽取方法,其特征在于,所述方法应用于图文网页,所述图文网页至少包括图文正文,所述图文正文至少包括图文主体,所述方法包括:
获取待抽取图文网页,并将所述待抽取图文网页渲染为html格式图文网页;
基于所述html格式图文网页,得到与所述待抽取图文网页对应的dom节点树,其中,所述dom节点树包括多个节点,所述节点包括节点信息特征;
基于所述节点信息特征,将多个所述节点进行聚类得到多个节点簇;
确定所述节点簇的信息量,并基于所述信息量,确定与所述图文主体对应的图文主体节点簇;
基于所述图文主体节点簇,抽取所述图文正文。
2.根据权利要求1所述的网页信息抽取方法,其特征在于,所述图文正文还包括图文标题以及图文发布时间,所述基于所述图文主体节点簇,抽取所述图文正文,包括:
基于所述图文主体节点簇,分别确定与所述图文标题对应的图文标题节点,以及与所述图文发布时间对应的图文发布时间节点;
基于所述图文主体节点簇、所述图文标题节点以及所述图文发布时间节点,分别抽取所述图文主体、所述图文标题以及所述图文发布时间;
基于所述图文主体、所述图文标题以及所述图文发布时间,抽取所述图文正文。
3.根据权利要求1所述的网页信息抽取方法,其特征在于,所述图文正文还包括图文主体翻页链接,在所述基于所述信息量,确定与所述图文主体对应的图文主体节点簇之后,所述方法还包括:
基于所述节点信息特征,确定与所述图文主体翻页链接对应的图文主体翻页链接节点;
所述基于所述图文主体节点簇,抽取所述图文正文,包括:
基于所述图文主体节点簇以及所述图文主体翻页链接节点,整合多页图文主体,并基于整合后的多页图文主体抽取所述图文正文。
4.根据权利要求1所述的网页信息抽取方法,其特征在于,所述基于所述节点信息特征,将多个所述节点进行聚类得到多个节点簇,包括:
基于所述节点信息特征,在所述节点中确定有效节点;
基于节点路径,确定由所述有效节点聚类得到的关于所述dom节点树的节点子树,并将所述节点子树作为所述节点簇。
5.根据权利要求4所述的网页信息抽取方法,其特征在于,所述节点信息特征至少包括图片信息特征,所述图片信息特征至少包括关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征,所述基于所述节点信息特征,在所述节点中确定有效节点,包括:
分别确定所述节点的图片面积、图片横竖比以及图片信息熵;
将所述图片面积小于面积阈值,或所述图片横竖比大于比例阈值,或所述图片信息熵小于信息熵阈值的节点确定为无效节点;
基于所述无效节点,在所述节点中确定所述有效节点,其中,所述有效节点为所述节点中除所述无效节点之外的其他节点。
6.根据权利要求4所述的网页信息抽取方法,其特征在于,所述节点信息特征至少包括文本信息特征,所述文本信息特征至少包括关于文本与图文标题相关性的特征、关于文本中预设字符数量的特征,所述基于所述节点信息特征,在所述节点中确定有效节点,包括:
分别确定所述节点的所述文本与图文标题相关性,以及所述文本中预设字符数量;
将所述文本与图文标题相关性小于相关性阈值,或所述文本中预设字符数量大于字符数量阈值的节点确定为无效节点;
基于所述无效节点,在所述节点中确定所述有效节点,其中,所述有效节点为所述节点中除所述无效节点之外的其他节点。
7.根据权利要求6所述的网页信息抽取方法,其特征在于,所述文本与图文标题相关性小于相关性阈值通过以下方式确定:
确定文本与图文标题的公共字符串长度;
响应于所述公共字符串长度小于长度阈值,确定所述文本与图文标题相关性小于相关性阈值。
8.根据权利要求4所述的网页信息抽取方法,其特征在于,所述节点信息特征至少包括链接文本信息特征,所述链接文本信息特征至少包括关于链接文本字符个数的特征、关于链接文本与所述链接文本前后文的位置关系的特征,所述基于所述节点信息特征,在所述节点中确定有效节点,包括:
分别确定所述节点的所述链接文本字符个数,以及所述链接文本与所述链接文本前后文的位置关系;
将所述链接文本字符个数大于字符数量阈值,或所述链接文本与所述链接文本前后文位于同一节点区域的节点确定为无效节点;
基于所述无效节点,在所述节点中确定所述有效节点,其中,所述有效节点为所述节点中除所述无效节点之外的其他节点。
9.根据权利要求1所述的网页信息抽取方法,其特征在于,所述确定所述节点簇的信息量,并基于所述信息量,确定与所述图文主体对应的图文主体节点簇,包括:
分别确定所述节点簇中各节点的节点信息特征;
基于各所述节点的节点信息特征,确定所述节点簇的信息量,并在所述信息量中确定最大信息量;
将所述最大信息量对应的节点簇确定与所述图文主体对应的图文主体节点簇。
10.根据权利要求9所述的网页信息抽取方法,其特征在于,所述节点信息特征至少包括关于图片信息熵的特征,以及关于文本中汉字个数的特征,所述基于各所述节点的节点信息特征,确定所述节点簇的信息量,包括:
基于所述节点的图片信息熵,确定与所述图片信息熵对应的第一子信息量,其中,所述第一子信息量与所述图片信息熵呈正相关,以及
基于所述节点的文本中汉字个数,确定与所述文本中汉字个数对应的第二子信息量,其中,所述第二子信息量与所述文本中汉字个数呈正相关;
基于所述节点簇中各节点的所述第一子信息量与所述第二子信息量之和,确定所述节点簇的信息量。
11.一种网页信息抽取装置,其特征在于,所述装置应用于图文网页,所述图文网页至少包括图文正文,所述图文正文至少包括图文主体,所述装置包括:
获取模块,用于获取待抽取图文网页,并将所述待抽取图文网页渲染为html格式图文网页;
处理模块,用于基于所述html格式图文网页,得到与所述待抽取图文网页对应的dom节点树,其中,所述dom节点树包括多个节点,所述节点包括节点信息特征;
聚类模块,用于基于所述节点信息特征,将多个所述节点进行聚类得到多个节点簇;
确定模块,用于确定所述节点簇的信息量,并基于所述信息量,确定与所述图文主体对应的图文主体节点簇;
抽取模块,用于基于所述图文主体节点簇,抽取所述图文正文。
12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至10任一项所述网页信息抽取方法的步骤。
13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述网页信息抽取方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述网页信息抽取方法的步骤。
CN202111597859.1A 2021-12-24 2021-12-24 网页信息抽取方法、装置、电子设备及存储介质 Pending CN114329138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111597859.1A CN114329138A (zh) 2021-12-24 2021-12-24 网页信息抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111597859.1A CN114329138A (zh) 2021-12-24 2021-12-24 网页信息抽取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114329138A true CN114329138A (zh) 2022-04-12

Family

ID=81012093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111597859.1A Pending CN114329138A (zh) 2021-12-24 2021-12-24 网页信息抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114329138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329265A (zh) * 2021-12-29 2022-04-12 中国人民解放军国防科技大学 一种自动采集网络资源的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
CN104484449A (zh) * 2014-12-25 2015-04-01 北京国双科技有限公司 网页页面的正文提取方法和装置
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN110390037A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
CN111538885A (zh) * 2020-04-24 2020-08-14 腾讯音乐娱乐科技(深圳)有限公司 页面监听方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
CN104484449A (zh) * 2014-12-25 2015-04-01 北京国双科技有限公司 网页页面的正文提取方法和装置
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN110390037A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
CN111538885A (zh) * 2020-04-24 2020-08-14 腾讯音乐娱乐科技(深圳)有限公司 页面监听方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329265A (zh) * 2021-12-29 2022-04-12 中国人民解放军国防科技大学 一种自动采集网络资源的方法

Similar Documents

Publication Publication Date Title
US8290269B2 (en) Image document processing device, image document processing method, program, and storage medium
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN103577466B (zh) 一种在浏览器中显示网页内容的方法和装置
US20150067476A1 (en) Title and body extraction from web page
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN109710771B (zh) 表格信息提取方法、装置和存储介质
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN110020312B (zh) 提取网页正文的方法和装置
CN110929647B (zh) 一种文本检测方法、装置、设备及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
Xiang et al. Effective page segmentation combining pattern analysis and visual separators for browsing on small screens
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN114329138A (zh) 网页信息抽取方法、装置、电子设备及存储介质
US10963690B2 (en) Method for identifying main picture in web page
CN111831885B (zh) 一种互联网信息检索系统与方法
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN111666479A (zh) 搜索网页的方法和计算机可读存储介质
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN112632421B (zh) 一种自适应结构化的文档抽取方法
CN113806667B (zh) 一种支持网页分类的方法和系统
CN105677827B (zh) 一种表单的获取方法及装置
CN115238078A (zh) 一种网页信息抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant after: QAX Technology Group Inc.

Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant before: QAX Technology Group Inc.

Country or region before: China

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.