具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
将信息从网页中抽取出来,主要由包装器完成。其中,包装器可以理解为是一种软件程序,其由已经制定好的一系列信息抽取规则和使用这些规则的程序构成。对于用户特定信息源的查询请求,可以从页面的信息源找出相关有用的数据进行抽取,并转换为用规定的格式描述的数据,返回给用户。
相关技术可知,图文网页包装器技术主要包括模板法,这种方法针对每个网站的结构定义模板,通过模板来抽取网页内容。针对不同的网站需要构建不同的模板,从而增加了抽取工作量。图文网页包装器技术还可以在文本内容的简单特征提取的基础上,使用机器学习或其它自动识别的算法进行网页信息提取。这种方法做到了自动提取信息。但对图文信息,尤其是图片较多或文字杂质较多的网页,例如,新闻网页的提取准确度不高。
本发明提供的一种网页信息抽取方法,通过网页渲染,使用dom树分析和多种媒体特征提取,再结合密度聚类方法进行网页内容提取,提高了内容抽取的准确性,且避免了大量的人力操作,实现了网页内容的自动、准确抽取。
本发明可以应用于具有大量图文结合的网页,并对网页信息进行抽取。在一种示例中,本发明可以应用于对新闻网页信息进行抽取。
本发明将结合下述实施例对网页信息抽取的过程进行说明。
图1是本发明提供的网页信息抽取方法的流程示意图之一。
在本发明一示例性实施例中,网页信息抽取方法可以应用于图文网页。其中,图文网页至少可以包括图文正文,图文正文至少可以包括图文主体。在一示例中,本发明可以应用于对新闻网页信息进行抽取。可以理解的是,新闻正文是关于新闻稿件的全文,新闻主体是指新闻正文中关于新闻内容描述的主体内容。例如,新闻主体可以是通过图文进行新闻内容描述的内容。
在本发明中,将以新闻网页作为图文网页进行举例说明。
如图1所示,网页信息抽取方法可以包括步骤110至步骤150,下面将分别介绍各步骤。
在步骤110中,获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页。
在一种实施例中,可以获取待抽取新闻网页,并通过浏览器渲染技术将待抽取新闻网页渲染为html格式新闻网页。在一种示例中,若待抽取新闻网页以html格式存在,可以直接将待抽取新闻网页作为html格式新闻网页。在又一种示例中,若待抽取新闻网页为动态加载数据,可以通过调用接口对与待抽取新闻网页对应的脚本数据进行渲染,以得到html格式新闻网页。
在步骤120中,基于html格式图文网页,得到与待抽取图文网页对应的dom节点树。其中,dom节点树可以包括多个节点,节点可以包括节点信息特征。
在一种实施例中,可以对html格式新闻网页进行翻译,得到与待抽取新闻网页对应的dom节点树。其中,dom节点树可以包括多个节点,每个节点可以与待抽取新闻网页中的元素相对应。可以理解的是,节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息等。节点还可以包括节点信息特征。通过节点信息特征,可以分析待抽取新闻网页中的图片、文字、链接或其他信息的特征。
在步骤130中,基于节点信息特征,将多个节点进行聚类得到多个节点簇。
dom节点树中的相邻节点之间存在相关性。在一示例中,构成同一节点子树的节点具有相关性。在一示例中,同属于新闻主体的节点可以被聚类为同一个节点簇内。在一种实施例中,可以根据节点信息特征,将多个节点进行聚类得到多个节点簇。其中,不同的节点簇之间存在不同的特点。同一节点簇内的所有节点存在相关性。
在步骤140中,确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇。
在步骤150中,基于图文主体节点簇,抽取图文正文。
由于形成的节点簇具有不同的节点,而每个节点带有节点信息,因此,不同的节点簇具有不同的节点簇信息,并且,节点簇的信息量也对应不同。在一种实施例中,可以根据节点簇的信息量,确定与新闻主体对应的新闻主体节点簇。进一步的,可以基于确定的新闻主体节点簇,自动抽取出新闻正文。
本发明提供的网页信息抽取方法,通过网页渲染,使用dom节点树分析各节点的节点信息特征,并基于节点信息特征进行聚类得到多个节点簇,以及根据节点簇的信息量更加准确得定位除图文主体节点簇。并且基于图文主体节点簇,实现对图文正文的自动、准确抽取。通过本发明,可以在对图文网页信息自动抽取的基础上,提高信息抽取的准确度。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例进行说明。
图2是本发明提供的基于图文主体节点簇抽取图文正文的流程示意图之一。
在本发明一示例性实施例中,图文正文除了包括图文主体之外,还可以包括图文标题以及图文发布时间。如图2所示,基于图文主体节点簇,抽取图文正文可以包括步骤210至步骤230,下面将分别介绍各步骤。
在步骤210中,基于图文主体节点簇,分别确定与图文标题对应的图文标题节点,以及与图文发布时间对应的图文发布时间节点。
继续以新闻网页作为图文网页为例进行说明。在一种实施例中,可以根据新闻主体节点簇与新闻标题节点、新闻发布时间节点的位置关系,基于新闻主体节点簇,分别确定新闻标题节点,以及新闻发布时间节点。
在步骤220中,基于图文主体节点簇、图文标题节点以及图文发布时间节点,分别抽取图文主体、图文标题以及图文发布时间。
在步骤230中,基于图文主体、图文标题以及图文发布时间,抽取图文正文。
在一种实施例中,可以根据新闻主体节点簇、新闻标题节点以及新闻发布时间节点,分别抽取出新闻主体、新闻标题以及新闻发布时间。进一步的,基于抽取出的新闻主体、新闻标题以及新闻发布时间,可以进行整理、合并,并最终输出新闻正文。在本实施例中,通过新闻主体节点簇,可以更加准确的定位出新闻标题节点以及新闻发布时间节点。进一步的,基于新闻主体节点簇、新闻标题节点以及新闻发布时间节点,可以自动且准确得抽取出对应的新闻主体、新闻标题以及新闻发布时间并形成新闻正文。通过本实施例,实现了对新闻网页信息的自动、准确抽取。
需要说明的是,网页信息中的新闻往往由多页构成。因此,在进行网页信息抽取时,需要把相关的多页信息全部抽取出来。
本发明将结合下述实施例对另一种网页信息抽取方法的过程进行说明。
在本发明一示例性实施例中,图文正文还可以包括图文主体翻页链接。继续以前文所述的实施例为例进行说明,在基于节点簇的信息量,确定与新闻主体对应的新闻主体节点簇之后,网页信息抽取方法还可以包括:基于节点信息特征,确定与新闻主体翻页链接对应的新闻主体翻页链接节点。进一步的,基于新闻主体节点簇以及新闻主体翻页链接节点,整合多页新闻主体,并基于整合后的多页新闻主体抽取新闻正文。
在一种实施例中,对于网页信息中的新闻由多页构成的场景,可以在确定出与新闻主体对应的新闻主体节点簇之后,根据新闻主体翻页链接节点具有特殊字符的特点,可以根据节点信息特征,在多个节点中确定出与新闻主体翻页链接对应的新闻主体翻页链接节点。进一步的,可以根据新闻主体节点簇以及新闻主体翻页链接节点,整合多页新闻主体,并将整合后的多页新闻主体作为最终的新闻主体。并基于整合后的多页新闻主体抽取新闻正文。通过本实施例,可以实现对网页信息的全面、准确抽取。
本发明将结合下述实施例对基于节点信息特征,将多个节点进行聚类得到多个节点簇的过程进行说明。
图3是本发明提供的基于节点信息特征,将多个节点进行聚类得到多个节点簇的流程示意图之一。
在本发明一示例性实施例中,如图3所示,基于节点信息特征,将多个节点进行聚类得到多个节点簇可以包括步骤310和步骤320,下面将分别介绍各步骤。
在步骤310中,基于节点信息特征,在节点中确定有效节点。
在步骤320中,基于节点路径,确定由有效节点聚类得到的关于dom节点树的节点子树,并将节点子树作为节点簇。
在新闻网页中,除了包括新闻正文之外,还可能包括与新闻正文无关的推荐信息、位于网页底部的声明信息等无效信息。对于用户而言,与新闻正文无关的信息不是用户想要抽取的内容,在进行网页信息抽取时需要剔除这些信息。在一种实施例中,可以根据dom节点树的节点信息,在节点中确定出与信息正文相关的有效节点。进一步的,可以基于节点路径,确定由有效节点聚类得到的关于dom节点树的节点子树。可以理解的是,节点子树中节点的路径具有关联关系,即节点子树内的节点对应为新闻正文中同一模块的信息。在一示例中,节点子树可以对应新闻正文中的新闻主体。在应用过程中,可以将节点子树确定为节点簇。通过本实施例,可以有效剔除与新闻正文无关的其他信息,提高了新闻正文抽取的准确性。
本发明将结合下述实施例对基于节点信息特征,在节点中确定有效节点的过程进行说明。
图4是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之一。
在本发明一示例性实施例中,节点信息特征至少可以包括图片信息特征。其中,图片信息特征至少可以包括关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征。如图4所示,基于节点信息特征,在节点中确定有效节点可以包括步骤410至步骤430,下面将分别介绍各步骤。
在步骤410中,分别确定节点的图片面积、图片横竖比以及图片信息熵。
在步骤420中,将图片面积小于面积阈值,或图片横竖比大于比例阈值,或图片信息熵小于信息熵阈值的节点确定为无效节点。
在步骤430中,基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在新闻网页中,新闻正文中的图片与新闻正文之外的其他图片,在图片面积、图片横竖比或图片信息熵等特征上存在区别。因此,可以根据图片面积、图片横竖比或图片信息熵将不属于新闻正文中的节点剔除掉。在一种实施例中,可以分别确定各节点的图片面积、图片横竖比以及图片信息熵。其中,图片信息熵可以根据以下公式确定:
其中,H表示图片信息熵;N表示图片横向像素数;M表示图片纵向像素数;Pi,j表示该位置像素值在整个图片的发生概率。
在一示例中,可以将图片面积小于面积阈值,或图片横竖比大于比例阈值,或图片信息熵小于信息熵阈值的节点确定为无效节点。进一步的,可以根据无效节点确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。需要说明的是,面积阈值、比例阈值以及信息熵阈值可以根据实际情况进行调整,在本实施例中不作具体限定。通过本实施例,可以准确、有效得剔除与新闻正文无关的其他信息,提高了新闻正文抽取的准确性。
本发明将结合下述实施例对另一种基于节点信息特征,在节点中确定有效节点的过程进行说明。
图5是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之二。
在本发明一示例性实施例中,节点信息特征至少可以包括文本信息特征。其中,文本信息特征至少可以包括关于文本与图文标题相关性的特征,以及关于文本中预设字符数量的特征。如图5所示,基于节点信息特征,在节点中确定有效节点可以包括步骤510至步骤530,下面将分别介绍各步骤。
在步骤510中,分别确定节点的文本与图文标题相关性,以及文本中预设字符数量。
在步骤520中,将文本与图文标题相关性小于相关性阈值,或文本中预设字符数量大于字符数量阈值的节点确定为无效节点。
在步骤530中,基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
继续以新闻网页为例进行说明。在新闻网页中,新闻正文中的文本与新闻正文之外的其他文本,在文本与新闻标题相关性或文本中预设字符数量等特征上存在区别。因此,可以根据节点的文本与新闻标题相关性,以及文本中预设字符数量将不属于新闻正文中的节点剔除掉。在一种实施例中,可以分别确定节点的文本与新闻标题相关性,以及文本中预设字符数量。其中,预设字符可以根据实际情况进行调整,例如可以是“&”,“#”,“@”,在本实施例中,不对预设字符作具体限定。
在一示例中,可以将文本与新闻标题相关性小于相关性阈值,或文本中预设字符数量大于字符数量阈值的节点确定为无效节点。进一步的,可以根据无效节点确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。需要说明的是,计算文本与新闻标题相关性的方式,以及对应的相关性阈值,在本实施例中不作具体限定,可以根据实际情况进行调整。字符数量阈值也可以根据实际情况进行调整。
在一种实施例中,文本与新闻标题相关性小于相关性阈值可以通过以下方式确定:确定文本与新闻标题的公共字符串长度;响应于公共字符串长度小于长度阈值,确定文本与新闻标题相关性小于相关性阈值。
在一示例中,可以计算文本与新闻标题中出现公共字符串长度的加权和,并根据加权和得到文本与新闻标题相关性的值。其中,在计算加权和过程中的权重值可以根据实际情况进行调整,在本实施例中不对具体限定。
本发明将结合下述实施例对又一种基于节点信息特征,在节点中确定有效节点的过程进行说明。
图6是本发明提供的基于节点信息特征,在节点中确定有效节点的流程示意图之三。
在本发明一示例性实施例中,节点信息特征至少可以包括链接文本信息特征。其中,链接文本信息特征至少可以包括关于链接文本字符个数的特征、关于链接文本与链接文本前后文的位置关系的特征。如图6所示,基于节点信息特征,在节点中确定有效节点可以包括步骤610至步骤630,下面将分别介绍各步骤。
在步骤610中,分别确定节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系。
在步骤620中,将链接文本字符个数大于字符数量阈值,或链接文本与链接文本前后文位于同一节点区域的节点确定为无效节点。
在步骤630中,基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在新闻网页中,新闻正文中的链接文本与新闻正文之外的其他连接文本,在链接文本字符个数,以及链接文本与链接文本前后文的位置关系等特征上存在区别。因此,可以根据节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系将不属于新闻正文中的节点剔除掉。在一种实施例中,可以分别确定节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系。进一步的,可以将链接文本字符个数大于字符数量阈值,或链接文本与链接文本前后文不位于同一节点区域的节点确定为无效节点。其中,字符数量阈值可以根据实际情况进行调整,在本实施例中不作具体限定。
需要说明的是,div,blockquote等标签对节点区域的边界影响较大。在一示例中,若节点中检测到存在div,blockquote等标签,说明链接文本与链接文本前后文并不位于同一节点区域,可以将对应的节点确定为无效节点。P,strong,center,ul,font等标签对节点区域的边界影响较小。在一示例中,若节点中检测到存在P,strong,center,ul,font等标签,说明链接文本与链接文本前后文并位于同一节点区域,可以将对应的节点确定为有效节点。进一步的,可以根据无效节点确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。通过本实施例,可以准确、有效得剔除与新闻正文无关的其他信息,提高了新闻正文抽取的准确性。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例对基于信息量,确定与图文主体对应的图文主体节点簇的过程进行说明。
图7是本发明提供的确定节点簇的信息量,并基于信息量确定与图文主体对应的图文主体节点簇的流程示意图之一。
在本发明一示例性实施例中,如图7所示,确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇可以包括步骤710至步骤730,下面将分别介绍各步骤。
在步骤710中,分别确定节点簇中各节点的节点信息特征。
在步骤720中,基于各节点的节点信息特征,确定节点簇的信息量,并在信息量中确定最大信息量。
在步骤730中,将最大信息量对应的节点簇确定与图文主体对应的图文主体节点簇。
在一种实施例中,可以分别确定节点簇中各节点的节点信息特征,并基于各节点的节点信息特征,通过运算得到对应的节点簇的信息量。其中,信息量可以是一种关于信息密度的表达方式。由于在新闻网页中,新闻正文中的新闻主体的信息密度最大,因此,与新闻主体对应的新闻主体节点簇的信息量也是最大的。在应用过程中,可以将最大信息量对应的节点簇确定为新闻主体节点簇。在本实施例中,基于聚类后得到的节点簇的信息量确定新闻主体节点簇,可以提高识别的准确率,并且也避免了大量的人力操作,提高了网页信息抽取的准确度和效率。
本发明将结合下述实施例对基于各节点的节点信息特征,确定节点簇的信息量的过程进行说明。
图8是本发明提供的基于各节点的节点信息特征,确定节点簇的信息量的流程示意图之一。
在本发明一示例性实施例中,节点信息特征至少可以包括关于图片信息熵的特征,以及关于文本中汉字个数的特征。在应用过程中,可以根据关于图片信息熵的特征,以及关于文本中汉字个数的特征,确定节点簇的信息量。
如图8所示,基于各节点的节点信息特征,确定节点簇的信息量可以包括步骤810至步骤830,下面将分别介绍各步骤。
在步骤810中,基于节点的图片信息熵,确定与图片信息熵对应的第一子信息量,其中,第一子信息量与图片信息熵呈正相关。
在步骤820中,基于节点的文本中汉字个数,确定与文本中汉字个数对应的第二子信息量,其中,第二子信息量与文本中汉字个数呈正相关。
新闻正文中的图片具有较大信息量,因此,其图片信息熵较大。新闻正文中的文字内容具有较大信息量,因此,其文本中汉字个数较多。在应用过程中,可以根据与图片信息熵对应的第一子信息量,以及与文本中汉字个数对应的第二子信息量,确定节点簇的信息量。并可以根据信息量确定新闻主体节点簇。
在步骤830中,基于节点簇中各节点的第一子信息量与第二子信息量之和,确定节点簇的信息量。
在本实施例中,可以分别计算节点簇中各个节点中对应的第一子信息量和第二子信息量,并根据各节点的第一子信息量和第二子信息量之和,可以得到关于该节点簇的信息量。在应用过程中,选择信息量最大的节点簇作为新闻主体节点簇。进一步的,可以基于新闻主体节点簇,准确得抽取出新闻正文。
本发明提供的网页信息抽取方法,采用了图片信息分析、文本信息分析,链接分析等多个角度分析节点信息特征,并基于节点信息特征进行聚类得到多个节点簇。进一步,基于节点簇的信息量确定新闻主体节点簇,以抽取新闻正文。相比于模板和文字符合密度方法,本发明提高了识别的准确率,避免了大量的人力操作,并且可以更容易进行程序的维护,提高了信息抽取的效率。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例进行说明。
图9是应用本发明提供的网页信息抽取方法的应用场景示意图。
在本发明一实施例中,如图9所示,网页信息抽取方法可以理解为是一个包装器,其中,包装器可以包括网页下载模块、网页渲染模块、dom树分析模块、网页内容分析模块和网页内容提取模块。在一示例中,包装器可以应用于对新闻网页进行信息内容提取。
在一种实施例中,网页下载模块可以下载原始的网页数据,例如,待抽取新闻网页。通过网页渲染模块可以将下载的待抽取新闻网页渲染为html格式新闻网页。在一示例中,若待抽取新闻网页以html格式存在,网页渲染模块可以直接将待抽取新闻网页作为html格式新闻网页。在又一种示例中,若待抽取新闻网页为动态加载数据,网页渲染模块可以通过调用接口对与待抽取新闻网页对应的脚本数据进行渲染,得到html格式新闻网页。
通过dom树分析模块,可以将对html格式新闻网页进行翻译,得到与待抽取新闻网页对应的dom节点树。其中,dom节点树可以包括多个节点,每个节点与待抽取新闻网页中的元素相对应,可以理解的是,节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息等。节点还可以包括节点信息特征。通过节点信息特征,可以分析待抽取新闻网页中的图片、文字、链接或其他信息的特征。
在网页内容分析模块中,可以对dom节点树的节点进行分析,识别其中的媒体信息特征。由于节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息。因此,基于网页内容分析模块,对于对应图片的节点,可以识别出关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征。对于对应文本的节点,可以识别出关于文本与新闻标题相关性的特征、关于文本中预设字符数量的特征。对于对应链接文本的节点,可以识别出链接文本字符个数的特征、关于链接文本与所述链接文本前后文的位置关系的特征。在应用过程中,基于识别出的媒体信息特征,可以剔除与新闻正文无关的其他无效节点,例如,对应推荐信息的节点,以及对应底部声明信息的节点。在应用过程中,基于有效节点(节点中除无效节点之外的其他节点)进行聚类,得到多个节点簇。进一步的,可以计算节点簇的信息量,并根据信息量确定出新闻主体节点簇。
网页内容抽取模块可以基于网页内容分析模块确定出的新闻主体节点簇,抽取新闻主体(又称新闻的图文内容)。进一步的,可以根据新闻主体节点簇与新闻标题节点、新闻发布时间节点的位置关系,基于新闻主体节点簇,分别确定新闻标题节点,以及新闻发布时间节点。进一步的,基于新闻标题节点,以及新闻发布时间节点分别抽取新闻标题和新闻发布时间。
在又一示例中,网页信息中的新闻往往由多页构成,因此,在进行网页信息抽取时,需要把相关的多页信息全部抽取出来。网页内容抽取模块还可以基于节点信息特征,确定与新闻主体翻页链接对应的新闻主体翻页链接节点。并基于新闻主体节点簇以及新闻主体翻页链接节点,整合多页新闻主体,并基于整合后的多页新闻主体抽取新闻正文。
为了进一步介绍本发明提供的网页信息抽取方法,下面将结合下述实施例进行说明。
图10是本发明提供的网页信息抽取方法的流程示意图之二。
在本发明一示例性实施例中,如图10所示,网页信息抽取方法可以包括步骤1001至步骤1014,下面将分别介绍各步骤。
在步骤1001中,下载网页。
在步骤1002中,渲染网页。
在步骤1003中,生成dom节点树。
在一种实施例中,可以下载网页,例如,可以下载待抽取新闻网页。并对待抽取新闻网页进行渲染,得到html格式新闻网页。进一步的,对html格式新闻网页进行翻译,得到与待抽取新闻网页对应的dom节点树。其中,dom节点树可以包括多个节点。
在步骤1004中,分析节点区域。
在步骤1005中,计算文本特征。
在步骤1006中,计算链接特征。
在步骤1007中,计算推荐信息特征。
在步骤1008中,计算图片特征。
在步骤1009中,计算声明特征。
在一种实施例中,通过对dom节点树的节点进行分析,实现对节点区域的分析。其中,节点区域可以理解为是对节点聚类后得到的节点簇。由于节点可以是关于待抽取新闻网页中的图片、文字、链接或其他信息。因此,可以分别计算文本特征、图片特征、链接特征、声明特征和推荐信息特征。在新闻网页中,除了包括新闻正文之外,还可能包括与新闻正文无关的推荐信息、位于网页底部的声明信息。对于用户而言,与新闻正文无关的信息不是用户想要抽取的信息,在进行网页信息抽取时需要剔除这些信息。通过上述的特征计算,可以剔除与声明特征和推荐信息特征对应无效节点。并基于除无效节点之外的其他有效节点进行聚类,得到多个节点簇。进一步的,可以基于节点簇的信息量,将信息密度最大的节点簇作为与新闻主体对应的新闻主体节点簇,并以此作为模板进行新闻正文中其他内容的提取。
在步骤1010中,提取模板。
在步骤1011中,提取标题。
在步骤1012中,提取时间。
在步骤1013中,提取翻页信息。
在步骤1014中,提取网页信息。
在一种实施例中,可以根据新闻主体节点簇与新闻标题节点、新闻发布时间节点的位置关系,基于新闻主体节点簇模板,分别确定新闻标题节点,以及新闻发布时间节点。进一步的,基于新闻标题节点,以及新闻发布时间节点分别提取新闻标题和新闻发布时间。
在又一示例中,网页信息中的新闻往往由多页构成,因此,在进行网页信息提取时,需要把相关的多页信息全部抽取出来。在应用过程中,还可以基于节点信息特征,确定与翻页信息对应的翻页信息节点。并基于新闻主体节点簇以及翻页信息节点,整合多页新闻主体,并基于整合后的多页新闻主体抽取新闻正文。
根据上述描述可知,本发明提供的网页信息抽取方法,通过网页渲染,使用dom节点树分析各节点的节点信息特征,并基于节点信息特征进行聚类得到多个节点簇,以及根据节点簇的信息量更加准确得定位除新闻主体节点簇。并且基于新闻主体节点簇,实现对新闻正文的自动、准确抽取。通过本发明,可以在对新闻网页信息自动抽取的基础上,提高信息抽取的准确度。
基于相同的构思,本发明还提供一种网页信息抽取装置。
下面对本发明提供的网页信息抽取装置进行描述,下文描述的装置与上文描述的网页信息抽取方法可相互对应参照。
图11是本发明提供的网页信息抽取装置的结构示意图。
在本发明一示例性实施例中,网页信息抽取装置可以应用于图文网页。其中,图文网页可以至少包括图文正文,图文正文可以至少包括图文主体。可以理解的是,本发明提供的网页信息抽取装置还可以应用于具有大量图文并存的网页,在一示例中,本发明提供的网页信息抽取装置还可以应用于新闻网页。如图11所示,网页信息抽取装置可以包括获取模块1110、处理模块1120、聚类模块1130、确定模块1140和抽取模块1150,下面将分别介绍各模块。
获取模块1110可以被配置为用于获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页。
处理模块1120可以被配置为用于基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树可以包括多个节点,节点可以包括节点信息特征。
聚类模块1130可以被配置为用于基于节点信息特征,将多个节点进行聚类得到多个节点簇。
确定模块1140可以被配置为用于确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇。
抽取模块1150可以被配置为用于基于图文主体节点簇,抽取图文正文。
在本发明一示例性实施例中,图文正文还可以包括图文标题以及图文发布时间,抽取模块1150可以采用以下方式基于图文主体节点簇,抽取图文正文:基于图文主体节点簇,分别确定与图文标题对应的图文标题节点,以及与图文发布时间对应的图文发布时间节点;基于图文主体节点簇、图文标题节点以及图文发布时间节点,分别抽取图文主体、图文标题以及图文发布时间;基于图文主体、图文标题以及图文发布时间,抽取图文正文。
在本发明一示例性实施例中,图文正文还可以包括图文主体翻页链接,确定模块1140还可以被配置为用于基于节点信息特征,确定与图文主体翻页链接对应的图文主体翻页链接节点。抽取模块1150可以采用以下方式基于图文主体节点簇,抽取图文正文:基于图文主体节点簇以及图文主体翻页链接节点,整合多页图文主体,并基于整合后的多页图文主体抽取图文正文。
在本发明一示例性实施例中,聚类模块1130可以采用以下方式基于节点信息特征,将多个节点进行聚类得到多个节点簇:基于节点信息特征,在节点中确定有效节点;基于节点路径,确定由有效节点聚类得到的关于dom节点树的节点子树,并将节点子树作为节点簇。
在本发明一示例性实施例中,节点信息特征至少可以包括图片信息特征,图片信息特征至少可以包括关于图片面积的特征、关于图片横竖比的特征以及关于图片信息熵的特征,聚类模块1130可以采用以下方式基于节点信息特征,在节点中确定有效节点:分别确定节点的图片面积、图片横竖比以及图片信息熵;将图片面积小于面积阈值,或图片横竖比大于比例阈值,或图片信息熵小于信息熵阈值的节点确定为无效节点;基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在本发明一示例性实施例中,节点信息特征至少可以包括文本信息特征,文本信息特征至少可以包括关于文本与图文标题相关性的特征、关于文本中预设字符数量的特征,聚类模块1130可以采用以下方式基于节点信息特征,在节点中确定有效节点:分别确定节点的文本与图文标题相关性,以及文本中预设字符数量;将文本与图文标题相关性小于相关性阈值,或文本中预设字符数量大于字符数量阈值的节点确定为无效节点;基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在本发明一示例性实施例中,聚类模块1130可以采用以下方式确定文本与图文标题相关性小于相关性阈值:确定文本与图文标题的公共字符串长度;响应于公共字符串长度小于长度阈值,确定文本与图文标题相关性小于相关性阈值。
在本发明一示例性实施例中,节点信息特征至少可以包括链接文本信息特征,链接文本信息特征至少可以包括关于链接文本字符个数的特征、关于链接文本与链接文本前后文的位置关系的特征,聚类模块1130可以采用以下方式基于节点信息特征,在节点中确定有效节点:分别确定节点的链接文本字符个数,以及链接文本与链接文本前后文的位置关系;将链接文本字符个数大于字符数量阈值,或链接文本与链接文本前后文位于同一节点区域的节点确定为无效节点;基于无效节点,在节点中确定有效节点,其中,有效节点为节点中除无效节点之外的其他节点。
在本发明一示例性实施例中,确定模块1140可以采用以下方式确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇:分别确定节点簇中各节点的节点信息特征;基于各节点的节点信息特征,确定节点簇的信息量,并在信息量中确定最大信息量;将最大信息量对应的节点簇确定与图文主体对应的图文主体节点簇。
在本发明一示例性实施例中,节点信息特征至少可以包括关于图片信息熵的特征,以及关于文本中汉字个数的特征,确定模块1140可以采用以下方式基于各节点的节点信息特征,确定节点簇的信息量:基于节点的图片信息熵,确定与图片信息熵对应的第一子信息量,其中,第一子信息量与图片信息熵呈正相关,以及基于节点的文本中汉字个数,确定与文本中汉字个数对应的第二子信息量,其中,第二子信息量与文本中汉字个数呈正相关;基于节点簇中各节点的第一子信息量与第二子信息量之和,确定节点簇的信息量。
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行网页信息抽取方法,其中,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,该方法可以包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的网页信息抽取方法,其中,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,该方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的网页信息抽取方法,其中,网页信息抽取方法应用于图文网页,图文网页至少包括图文正文,图文正文至少包括图文主体,该方法包括:获取待抽取图文网页,并将待抽取图文网页渲染为html格式图文网页;基于html格式图文网页,得到与待抽取图文网页对应的dom节点树,其中,dom节点树包括多个节点,节点包括节点信息特征;基于节点信息特征,将多个节点进行聚类得到多个节点簇;确定节点簇的信息量,并基于信息量,确定与图文主体对应的图文主体节点簇;基于图文主体节点簇,抽取图文正文。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。