CN102681994A - 一种网页信息抽取方法及系统 - Google Patents

一种网页信息抽取方法及系统 Download PDF

Info

Publication number
CN102681994A
CN102681994A CN2011100538928A CN201110053892A CN102681994A CN 102681994 A CN102681994 A CN 102681994A CN 2011100538928 A CN2011100538928 A CN 2011100538928A CN 201110053892 A CN201110053892 A CN 201110053892A CN 102681994 A CN102681994 A CN 102681994A
Authority
CN
China
Prior art keywords
web page
webpage
node
tree
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100538928A
Other languages
English (en)
Other versions
CN102681994B (zh
Inventor
吴一璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110053892.8A priority Critical patent/CN102681994B/zh
Publication of CN102681994A publication Critical patent/CN102681994A/zh
Application granted granted Critical
Publication of CN102681994B publication Critical patent/CN102681994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页信息抽取方法及系统,该网页信息抽取方法,其特征在于,网页信息抽取方法包括:a.获取网页,并对网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。b.根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。c.提取小类中网页的网页特征,将网页特征映射到小类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点一一对应。d.对网页关系集合的每个节点进行属性标注。e.进行数据提取,将所提取的数据与网页关系集合的节点相关联。通过上述方式,本发明的网页信息抽取方法及系统由系统自动配置模板,能够处理大量网站网页并且自动抽取网页信息。

Description

一种网页信息抽取方法及系统
技术领域
本发明涉及信息提取领域,特别是涉及一种网页信息抽取方法及系统。
背景技术
随着网络技术的发展,互联网中存在着大量的网页数据。对于同类型的网页数据,特别是相同网站的网页数据来说,网页上存在着很多相同或相似的网页数据内容。在对网页进行处理时,需要将这些相同或相似的网页数据内容进行关联,因此结构化数据的信息提取技术在网页处理中的应用也越来越广泛。
通常来说,结构化数据具有统一的数据结构或数据模式,而且一般都会拥有相同的数据属性。一般而言,结构化数据是底层的数据库在页面上的一种表现形式。以售书网为例,一般书籍都会包括书名、作者、价格等相同的属性。但是不同的网站对书籍的表示和排版方式都会不一样,因而需要提供一种统一的方法能消除这些数据之间的差异性,以方便后续的数据处理。
目前比较流行的方法,主要是对不同的网站手动配置不同的模板,然后再汇总所有的数据结果。当网站数量比较少的时候,这种方法比较适用。但是当网站数量达到成千上万的时候,手动配模板的方法就显得太费时费力,一旦网站数量达到上万的级别,这种手动配置的方法基本上就不可行了。这就需要提供一种可以针对上述网页数据进行自动处理的方法和系统,以解决人工手动配置所无法解决的问题。
发明内容
本发明主要解决的技术问题是提供一种网页信息抽取方法及系统,其能够通过自动配置模板的方式处理大量网站网页,并且自动抽取网页信息。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种网页信息抽取方法,其特征在于,网页信息抽取方法包括:a.获取网页,并对网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。b.根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。c.提取小类中网页的网页特征,将网页特征映射到小类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点一一对应。d.对网页关系集合的每个节点进行属性标注。e.进行数据提取,将所提取的数据与网页关系集合的节点相关联。
其中,在步骤a中,由人工配置方式进行网页分类。
其中,在步骤a中,由机器学习方式进行网页分类。
其中,在步骤b中,进一步包括:b1.对大类中的网页进行高频词挖掘。b2.判断网页的高频词是否一致,并将高频词一致的网页归到同一小类。
其中,在步骤b2中,高频词的路径深度不同便确认网页不属于同一类。
其中,网页关系集合包括网页结构树,网页结构树是由树形结构的多个节点构成。
其中,网页特征包括公共特征和个性特征,公共特征包括小类中的各个网页的共有网页特征,个性特征包括小类中的每个网页区别于其他网页的个性化特征。
其中,在步骤c中,进一步包括:c1.将网页映射到所在小类的网页结构树上。c2.对齐不变的文本节点。c3.根据不变的文本节点,生成初步网页结构树。c4.求不变的文本节点的数值节点。c5.根据不变的文本节点来合并初步网页结构树,形成新网页结构树。c6.对齐剩余节点。
其中,在步骤c中,进一步包括:c7.计算新网页结构树上每一个节点的统计信息。
其中,在步骤c2中,文本信息相同的节点为不变的文本节点。
其中,在步骤c6中,进一步过滤掉无用节点。
其中,在步骤d中,进一步包括:将新网页结构树模板保存,作为下次进行网页信息抽取的网页结构树。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种网页信息抽取系统,其特征在于,网页信息抽取系统包括:网页获取分类模块、网页模板分类模块、网页结构树生成模块、属性标注模块以及数据提取模块。网页获取分类模块用于获取网页,并对网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。网页模板分类模块用于根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。网页结构树生成模块用于提取小类中网页的网页特征,将网页特征映射到小类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点一一对应。属性标注模块用于对网页关系集合的每个节点进行属性标。数据提取模块用于进行数据提取,将所提取的数据与网页关系集合的节点相关联。
其中,在网页获取分类模块中,由人工配置方式进行网页分类。
其中,在网页获取分类模块中,由机器学习方式进行网页分类。
其中,在网页模板分类模块中,进一步包括:高频词挖掘模块,用于对大类中的网页进行高频词挖掘。高频词网页归类模块,用于判断网页的高频词是否一致,并将高频词一致的网页归到同一小类。
其中,在高频词网页归类模块中,高频词的路径深度不同便确认网页不属于同一类。
其中,网页关系集合包括网页结构树,网页结构树是由树形结构的多个节点构成。
其中,网页特征包括公共特征和个性特征,公共特征包括小类中的各个网页的共有网页特征,个性特征包括小类中的每个网页区别于其他网页的个性化特征。
其中,在网页结构树生成模块中,进一步包括:网页映射模块,用于将网页映射到所在小类的网页结构树上。相同节点对齐模块,用于对齐不变的文本节点。初步生成模块,用于根据不变的文本节点,生成初步网页结构树。数值节点模块,用于求不变的文本节点的数值节点。合并模块,用于根据不变的文本节点来合并初步网页结构树,形成新网页结构树。对齐模块,用于对齐剩余节点。
其中,在网页结构树生成模块中,进一步包括:统计信息计算模块,用于计算新网页结构树上每一个节点的统计信息。
其中,在相同节点对齐模块中,文本信息相同的节点为不变的文本节点。
其中,在对齐模块中,进一步过滤掉无用节点。
其中,在属性标注模块中,进一步将新网页结构树模板保存,作为下次进行网页信息抽取的网页结构树。
本发明的有益效果是:区别于现有技术的问题,本发明的网页信息抽取方法及系统通过自动配置模板,能够处理大量网站网页并且自动抽取网页信息。
附图说明
图1是本发明的网页信息抽取方法的第一实施例的流程图;
图2是图1中步骤S11的流程图;
图3是图1中步骤S12的具体流程图;
图4是图3中步骤S201的具体流程图;
图5是图1中步骤S13的具体流程图;
图6是本发明的初步网页结构树同层节点比较合并的第一示意图;
图7是本发明的初步网页结构树同层节点比较合并的第二示意图;
图8是本发明的网页信息抽取系统的第一实施例的示意框图;
图9是图8中网页结构树生成模块的具体示意框图;
具体实施方式
参阅图1,图1是本发明的网页信息抽取方法的第一实施例的流程图。本发明的网页信息抽取方法包括:
在步骤S11中,获取网页并对网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。在对网页进行分类时,可以由人工配置的方式进行网页分类,也可由机器学习的方式进行网页分类。
参见图2,图2是图1中步骤S11的流程图。本发明中对网页进行分类的步骤包括:
在步骤S101中,下载一个网页库的url列表。
在步骤S102中,读取该url列表中的一个url。
在步骤S103中,提取该url的网页域信息,进入步骤S108。
在步骤S104中,选择手工配置方式进行网页分类。
在步骤S105中,配置网站域及对应的url样式正则,进入步骤S108。
在步骤S106中,选择机器学习方式进行网页分类。
在步骤S107中,提取大站的网站域及对应的url样式词典,进入步骤S108。
当然,在对网页进行分类时,会在步骤S104与步骤S106中任选其一执行,不会同时执行。并且,每一大类优选同为步骤S104或步骤S106的流程。
在步骤S108中,比较网页域与网站域信息及url样式。
在步骤S109中,判断网页域信息是否符合网站域和url样式。若符合,则率先进入步骤S110,再进入步骤S111。若不符合,则直接进入步骤S111。
在步骤S110中,将此url加入符合的大类的url列表。
在步骤S111中,判断url是否处理完毕。若所下载的url列表中的url都已处理完毕,则进入步骤S112。若所下载的url列表中的url未处理完毕,则返回步骤S102,继续读取url进行判断分类。
在步骤S112中,判断网页库是否全部处理完毕。若网页库皆已处理完毕,则进入步骤S113。若网页库未全部处理完毕,则返回步骤S101,下载下一个网页库的url列表,继续进行判断分类。
在步骤S113中,对各大类的url列表建立索引,形成索引文件,以便于进行查询等。
在步骤S114中,输出大类的url列表及索引文件。
一般的,会按照网页的类型对网页进行分类。例如,将问答类网页分到一类,将博客类网页分到另一类,将广播类网页再分成一类,等等。
在步骤S12中,根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。在此步骤中,每一个网页可能被分到多个小类。参见图3,图3是图1中步骤S12的具体流程图。
在步骤S201中,对大类中的网页进行高频词挖掘。
在步骤S202中,判断网页的高频词是否一致。若网页的高频词一致,则进入步骤S203。若网页的高频词不一致,则进入步骤S204。
在步骤S203中,将网页归到同一小类。
在步骤S204中,流程结束。
进一步的,参见图4,图4是图3中步骤S201的具体流程图。
在步骤S211中,读入网页内容包。
在步骤S212中,统计短语的出现次数。
在步骤S213中,统计短语的路径平均深度。
在步骤S214中,对短语进行排序,将短语的第一个节点加入高频词列表。
在步骤S215中,重新计算未分类网页个数。
在步骤S216中,判断未分类网页的个数是否大于阈值。若未分类网页的个数大于阈值,则进入步骤S217。若未分类网页的个数小于阈值,则进入步骤S218。
在步骤S217中,统计短语在未分类网页中的出现次数,然后进入步骤S213继续筛选高频词,直到未分类网页的个数小于阈值。
在步骤S218中,输出高频词列表。
需要注意的是,在步骤S202中,若高频词的路径深度不同,则认为网页是不同的小类。只有高频词与高频词的路径都相同的时候,才判定两个或多个网页属于同一个小类。
当然,根据模板进行分类还有其他方法,比如根据特殊形式的数值节点在网页中的位置是否一致(例如博客的发表时间),来判断网页是否是同一类型,这种特殊形式的数值节点例如包括网页中的数字、文字、符号等。
在步骤S13中,提取所述小类中网页的网页特征,将网页特征映射到所述小类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点一一对应。在本实施例中,网页关系集合包括网页结构树,网页结构树是由树形结构的多个节点构成的。一般的,网页特征包括公共特征和个性特征,公共特征包括小类中的各个网页的共有网页特征,个性特征包括小类中的每个网页区别于其他网页的个性化特征。在本实施例中,公共特征映射后即为不变的文本节点,个性特征映射后即为其他节点。在此步骤中,是在每一个小类的基础上进行的。因为每一个小类中的网页基本上由一个相近的网页模板,因而它们之间具有很多的共性。实际上,此步骤的基本思路是通过比较、建立一棵网页结构树,让每一个小类中的网页都能在网页结构树中找到自己的节点的位置,从而达到树与树之间的数据的对齐。
简单来说,在此步骤中,首先,将网页映射到本小类的网页结构树模板。通过对网页文本及一些特别节点的统计,生成对应的关键节点和数值节点。上述的特别节点,例如为图片、时间与链接等。对每一个网页,与其它网页对比,找到不变文本,作为关键节点。同时,更新每一个节点的不变文本,该不变文本是由其子树的不变文本构成的。相同的不变文本个数(文本正文值与路径皆相同,才认为两个节点是相同的节点),插入到网页结构树中。不变文本个数最大的两个节点是对应节点。最后把所有网页包含不变文本的节点,与网页结构树上的节点进行一一对应。
在对不变文本对齐的结果后,再根据节点本身的信息,对剩下的节点进行对齐(主要是一些非不变文本节点)。对齐的方式是通过标签名是否一致,主要属性是否一致,以及子树的相似度来进行对齐。其中子树的相似度的判断,需要比较节点的标签名和属性。
下面参见图5与网页结构树所要用到的四种特征对此步骤进行具体描述,图5是图1中步骤S13的具体流程图。
四种特征包括:
第一种特征:文本信息,对于完全一样的信息,则认为该信息是一个关键节点。因为数值节点在网页中的值一般会发生改变,即使某一两个网页不变化,在一个小类中的多个网页看来还是会有所改变。
第二种特征:特型标签或属性信息。例如图片、链接以及时间等特型标签,在同一类的网页中也不会变化。第二种特征和第一种特征一样可以起到定位作用。
第三种特征:文本信息节点的路径,及路径中的等级和身份信息。由于通用的结构化信息中的某些数据项并不会在所有的网页中都出现,而信息项左右方向上会发生位移,因而路径中只记录文本节点的所有祖先节点。等级和身份信息也只记录这些祖先节点中存在的等级和身份信息。
第四种特征:属性项在网页中的相对位置。例如,数据项1会是在数据项2之前出现。数据项4会是在数据项3和数据5之间等信息。
在步骤S301中,将网页映射到所在小类的网页结构树上。每一个网页与网页结构树之间的映射方法如下:先分别找到网页与网页结构树的同层节点,然后找到网页中节点ni的子树的文本内容和网页结构树节点c1,...,ci,...ck(k为同层节点的总个数)的子树的不变文本内容。再根据是ni和c1,...ci,....ck中每个节点的相同的文本的个数来判断。个数越多的节点对(ni,cj)就是对应节点。
在步骤S302中,对齐不变的文本节点。上述的不变的文本节点,指的是文本内容完全一样的节点。在对不变的文本节点进行对齐时,采用的自下而上进行对齐的策略,会利用上述四种特征。例如,把网页1中的所有文本串起来,再把网页2中的所有文本也串起来,然后一个一个比较,当发现两个文本的内容在网页结构树的某一节点相同时,就同时比较下一个节点。如果两个节点都没找到相同的,就一起跳到下一个节点去比较。
在步骤S303中,根据不变的文本节点,生成初步网页结构树。通过上一步得到的不变的文本节点,把它们到根节点的所有绝对路径组成的树,作为初步网页结构树。网页结构树中的树节点可以存在添加操作,但是由于网页结构树本身来自同一个网页结构树模板,因此同一小类的初步网页结构树合并后组成的新网页结构树是唯一的。由于在这一步采用的是绝对路径,因而还需要对得到的网页结构树进行归一化处理,例如去掉一些不包含不变文本的兄弟节点。如果一个节点在两个网页结构树中都只有一个有文本内容的子节点,那么该子节点及其的兄弟节点都可以删掉。
在步骤S304中,求不变的文本节点的数值节点。一般的,将不变的文本节点称为关键节点。每个关键节点都可能具有潜在的数值节点,而数值节点可能存在多个同层次的节点,因而需要得到第一个数值节点后,收集其他的数值节点。关键节点是不变化的,而数值节点则往往是变化的。
在步骤S305中,根据不变的文本节点来合并初步网页结构树,形成新网页结构树。统计出每个节点在所有页面中出现的情况。由于有些节点只存在于部分网页中,因此合并时还需要考虑新网页结构树中节点的添加问题。添加节点主要是根据不变文本来合并两个初步网页结构树或多个初步网页结构树的过程来完成。在两个初步公用树进行合并时,记录每一个初步网页结构树中的节点在所有的初步网页结构树对中出现的次数。同时这些初步网页结构树节点本身是步骤S304中得到的潜在的关键节点和数值节点。显而易见,在初步网页结构树中越上面的节点的对齐,可靠性越高,因为下面的子节点如果是齐的,那么上面的祖先节点也一定是对齐的。
对于第二个初步公用树的节点在第一个初步公用树中没有找到对应节点的情况,则需要把这些节点加到这一层节点的尾部。两个初步公用树中节点的对应,也是依据拥有相同的网页文本的个数(两个文本相同,表示文本内容和相对路径都是相同的),个数越多的节点对就是对应节点。
参见图6与图7,图6是本发明的初步网页结构树同层节点比较合并的第一示意图,图7是本发明的初步网页结构树同层节点比较合并的第二示意图。在图6中,网页1的某层节点包括数据A、数据B以及数据C,网页2的对应层节点包括数据A、数据D以及数据C。在进行比较合并后,形成的新节点为数据A、数据B、数据C以及数据D。在图7中,网页1的该节点不变,而网页2的该节点变换为包括数据A、数据C以及数据D。但比较合并后的结果是相同的,即同层节点在进行比较的时候,不受其中内容顺序的影响。
在步骤S306中,对齐剩余节点。对齐的方式是通过标签名是否一致,主要属性是否一致,以及子树的相似度是否相近似来对齐的。其中子树的相似度,需要比较节点的标签名和属性。例如,除了不变的文本节点外,在剩下的节点中,设有tree a1的节点node1、tree a2的节点node2,且node1和node2的父亲节点是相互对齐的。首先比较两个节点node1和node2的tag_name,如果相等,则通过vtree的相似节点判断相似度,对node2及其的兄弟都与node1相比较,执行此操作,然后从中找到最大相似的节点,则可以认为是和a1对齐的。
在步骤S307中,计算新网页结构树上每一个节点的统计信息。例如,新网页结构树中的节点为node,所有节点为cnode,cnode的节点链表为<node1,node2,null,node4,node5,....>。则其中nodei为tree ai的节点,null表示该节点不存在。对该链表中的每一个节点都计算文本长度、subtree文本长度、图片数目与链接数目等,然后统计得到cnode的统计信息。此步骤的目的是为了方便后续的注解算法选择一些合理的节点来进行注解,过滤那些完全没有可能的节点。
主要的统计信息包括:对齐不变的文本节点数量、可见节点的数量、对齐节点的子树文本长度和、对齐节点的相似节点之和、对齐节点的最大子树深度之和以及对齐节点的链接与图片的个数和。其中,对齐不变的文本节点数量一定不大于网页总数。可见节点的数量一定不大于不变文本的节点数量。每一个对齐节点在该页面的相似节点相加后的数量一定不小于不变的文本节点数量。对齐节点的最大子树深度之和即为每一个对齐节点的子树的最大深度相加,而对齐节点本身的深度为1。
在步骤S14中,对新网页结构树的每个节点进行属性标注,即对网页关系集合的每个节点进行属性标注。常见种类的属性标注包括时间、数字、作者、主要内容与标题等。一般的,会在本步骤中保存新网页结构树模板,留待下次使用。
在步骤S15中,进行数据提取,将所提取的数据与网页关系集合的节点相关联。利用网页结构树的模板和注解属性的模板,抽取出对应的值。
以上详细介绍了本发明的网页信息抽取方法的实施方式及处理流程,下面将对本发明的网页信息抽取系统进行进一步说明。
参见图8,图8是本发明的网页信息抽取系统的第一实施例的示意框图。本发明的网页信息抽取系统包括:网页获取分类模块31、网页模板分类模块32、网页结构树生成模块33、属性标注模块34以及数据提取模块35,与本发明的网页信息抽取方法的第一实施例的步骤S11-S15对应。
网页获取分类模块31用于获取网页,并对所述网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。并且,网页获取分类模块31可由人工配置方式进行网页分类,也可由机器学习方式进行网页分类。
网页模板分类模块32,用于根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。网页模板分类模块32进一步包括高频词挖掘模块321与高频词网页归类模块322。高频词挖掘模块321用于对所述大类中的所述网页进行高频词挖掘;高频词网页归类模块322则用于判断所述网页的所述高频词是否一致,并将所述高频词一致的网页归到同一小类。值得注意的是,在高频词网页归类模块322中,高频词的路径深度不同便确认所述网页不属于同一类。
网页结构树生成模块33,用于提取小类中网页的网页特征,将网页特征映射到小类所对应的模板的网页关系集合中,使所述网页特征与所述网页关系集合的节点一一对应。在本实施例中,网页关系集合包括网页结构树,网页结构树是由树形结构的多个节点构成的。一般的,网页特征包括公共特征和个性特征,公共特征包括小类中的各个网页的共有网页特征,个性特征包括小类中的每个网页区别于其他网页的个性化特征。在本实施例中,公共特征映射后即为不变的文本节点,个性特征映射后即为其他节点。参见图9,图9是图8中网页结构树生成模块的具体示意框图。网页结构树生成模块33进一步包括:网页映射模块331,用于将网页映射到所在小类的网页结构树上。相同节点对齐模块332,用于对齐不变的文本节点。初步生成模块333,用于根据不变的文本节点,生成初步网页结构树;文本信息相同的节点即为不变的文本节点。数值节点模块334,用于求不变的文本节点的数值节点。合并模块335,用于根据关键节点来合并初步网页结构树,形成新网页结构树。对齐模块336,用于对齐剩余节点,并过滤掉无用节点。统计信息计算模块337,用于计算新网页结构树上每一个节点的统计信息。
属性标注模块34用于对网页关系集合的每个节点进行属性标注。并且,属性标注模块进一步将新网页结构树模板保存,作为下次进行网页信息抽取的网页结构树。
数据提取模块35则用于进行数据提取,将所提取的数据与网页关系集合的节点相关联。
本发明的有益效果是:区别于现有技术的情况,本发明的网页信息抽取方法及系统通过自动配置模板的方式,能够处理大量网站网页并且自动抽取网页信息。
以上仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (24)

1.一种网页信息抽取方法,其特征在于,所述网页信息抽取方法包括:
a.获取网页,并对所述网页按站点进行分类,分为多个大类,每个所述大类对应于至少一个站点;
b.根据所述网页的页面布局,按照不同种类的模板对所述大类中的网页进行分类,将每个所述大类分为多个小类,每个所述小类对应于一种模板;
c.提取所述小类中网页的网页特征,将所述网页特征映射到所述小类所对应的模板的网页关系集合中,使所述网页特征与所述网页关系集合的节点一一对应;
d.对所述网页关系集合的每个节点进行属性标注;
e.进行数据提取,将所提取的数据与所述网页关系集合的节点相关联。
2.根据权利要求1所述的网页信息抽取方法,其特征在于,在所述步骤a中,由人工配置方式进行网页分类。
3.根据权利要求1所述的网页信息抽取方法,其特征在于,在所述步骤a中,由机器学习方式进行网页分类。
4.根据权利要求1所述的网页信息抽取方法,其特征在于,在所述步骤b中,进一步包括:
b1.对所述大类中的所述网页进行高频词挖掘;
b2.判断所述网页的所述高频词是否一致,并将所述高频词一致的网页归到同一小类。
5.根据权利要求4所述的网页信息抽取方法,其特征在于,在所述步骤b2中,所述高频词的路径深度不同便确认所述网页不属于同一类。
6.根据权利要求1所述的网页信息抽取方法,其特征在于,所述网页关系集合包括网页结构树,所述网页结构树是由树形结构的多个节点构成。
7.根据权利要求6所述的网页信息抽取方法,其特征在于,所述网页特征包括公共特征和个性特征,所述公共特征包括所述小类中的各个网页的共有网页特征,所述个性特征包括所述小类中的每个网页区别于其他网页的个性化特征。
8.根据权利要求6所述的网页信息抽取方法,其特征在于,在所述步骤c中,进一步包括:
c1.将网页映射到所在小类的网页结构树上;
c2.对齐不变的文本节点;
c3.根据不变的文本节点,生成初步网页结构树;
c4.求不变的文本节点的数值节点;
c5.根据不变的文本节点来合并初步网页结构树,形成新网页结构树;
c6.对齐剩余节点。
9.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤c中,进一步包括:
c7.计算新网页结构树上每一个节点的统计信息。
10.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤c2中,文本信息相同的节点为所述不变的文本节点。
11.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤c6中,进一步过滤掉无用节点。
12.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤d中,进一步包括:将新网页结构树模板保存,作为下次进行网页信息抽取的网页结构树。
13.一种网页信息抽取系统,其特征在于,所述网页信息抽取系统包括:
网页获取分类模块,用于获取网页,并对所述网页按站点进行分类,分为多个大类,每个大类对应至少一个站点;
网页模板分类模块,用于根据所述网页的页面布局,按照不同种类的模板对所述大类中的网页进行分类,将每个所述大类分为多个小类,每个小类对应于一种模板;
网页结构树生成模块,用于提取所述小类中网页的网页特征,将所述网页特征映射到所述小类所对应的模板的网页关系集合中,使所述网页特征与所述网页关系集合的节点一一对应;
属性标注模块,用于对所述网页关系集合的每个节点进行属性标注。
数据提取模块,用于进行数据提取,将所提取的数据与所述网页关系集合的节点相关联。
14.根据权利要求13所述的网页信息抽取系统,其特征在于,在所述网页获取分类模块中,由人工配置方式进行网页分类。
15.根据权利要求13所述的网页信息抽取系统,其特征在于,在所述网页获取分类模块中,由机器学习方式进行网页分类。
16.根据权利要求13所述的网页信息抽取系统,其特征在于,在所述网页模板分类模块中,进一步包括:
高频词挖掘模块,用于对所述大类中的所述网页进行高频词挖掘;
高频词网页归类模块,用于判断所述网页的所述高频词是否一致,并将所述高频词一致的网页归到同一小类。
17.根据权利要求16所述的网页信息抽取系统,其特征在于,在所述高频词网页归类模块中,所述高频词的路径深度不同便确认所述网页不属于同一类。
18.根据权利要求13所述的网页信息抽取系统,其特征在于,所述网页关系集合包括网页结构树,所述网页结构树是由树形结构的多个节点构成。
19.根据权利要求18所述的网页信息抽取系统,其特征在于,所述网页特征包括公共特征和个性特征,所述公共特征包括所述小类中的各个网页的共有网页特征,所述个性特征包括所述小类中的每个网页区别于其他网页的个性化特征。
20.根据权利要求18所述的网页信息抽取系统,其特征在于,在所述网页结构树生成模块中,进一步包括:
网页映射模块,用于将网页映射到所在小类的网页结构树上;
相同节点对齐模块,用于对齐不变的文本节点;
初步生成模块,用于根据不变的文本节点,生成初步网页结构树;
数值节点模块,用于求不变的文本节点的数值节点;
合并模块,用于根据不变的文本节点来合并初步网页结构树,形成新网页结构树;
对齐模块,用于对齐剩余节点。
21.根据权利要求20所述的网页信息抽取系统,其特征在于,在所述网页结构树生成模块中,进一步包括:
统计信息计算模块,用于计算新网页结构树上每一个节点的统计信息。
22.根据权利要求20所述的网页信息抽取系统,其特征在于,在所述相同节点对齐模块中,文本信息相同的节点为所述不变的文本节点。
23.根据权利要求20所述的网页信息抽取系统,其特征在于,在所述对齐模块中,进一步过滤掉无用节点。
24.根据权利要求20所述的网页信息抽取系统,其特征在于,在所述属性标注模块中,进一步将新网页结构树模板保存,作为下次进行网页信息抽取的网页结构树。
CN201110053892.8A 2011-03-07 2011-03-07 一种网页信息抽取方法及系统 Active CN102681994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110053892.8A CN102681994B (zh) 2011-03-07 2011-03-07 一种网页信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110053892.8A CN102681994B (zh) 2011-03-07 2011-03-07 一种网页信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN102681994A true CN102681994A (zh) 2012-09-19
CN102681994B CN102681994B (zh) 2014-03-12

Family

ID=46813945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110053892.8A Active CN102681994B (zh) 2011-03-07 2011-03-07 一种网页信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN102681994B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020266A (zh) * 2012-12-25 2013-04-03 北京奇虎科技有限公司 对网页文本内容进行提取的方法和装置
CN103064943A (zh) * 2012-12-25 2013-04-24 北京奇虎科技有限公司 一种客户端设备
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103150389A (zh) * 2013-03-21 2013-06-12 北京奇虎科技有限公司 对网页文本内容匹配设置进行处理的方法和装置
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法
CN104063488A (zh) * 2014-07-07 2014-09-24 成都安恒信息技术有限公司 一种半自动化学习式的表单特征提取方法
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN108664512A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 文本对象分类方法及装置
CN108694192A (zh) * 2017-04-07 2018-10-23 北京国双科技有限公司 网页类型的判断方法及装置
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
WO2019024755A1 (zh) * 2017-08-01 2019-02-07 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN110489628A (zh) * 2019-08-22 2019-11-22 北大方正集团有限公司 数据处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064943A (zh) * 2012-12-25 2013-04-24 北京奇虎科技有限公司 一种客户端设备
CN103020266A (zh) * 2012-12-25 2013-04-03 北京奇虎科技有限公司 对网页文本内容进行提取的方法和装置
CN103020266B (zh) * 2012-12-25 2016-06-29 北京奇虎科技有限公司 对网页文本内容进行提取的方法和装置
CN103064943B (zh) * 2012-12-25 2016-11-23 北京奇虎科技有限公司 一种客户端设备
CN103116638B (zh) * 2013-02-19 2017-02-08 人民搜索网络股份公司 网页筛选方法及装置
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103150389A (zh) * 2013-03-21 2013-06-12 北京奇虎科技有限公司 对网页文本内容匹配设置进行处理的方法和装置
CN103150389B (zh) * 2013-03-21 2017-05-10 北京奇虎科技有限公司 对网页文本内容匹配设置进行处理的方法和装置
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN103294781B (zh) * 2013-05-14 2016-12-28 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法
CN104063488A (zh) * 2014-07-07 2014-09-24 成都安恒信息技术有限公司 一种半自动化学习式的表单特征提取方法
CN104063488B (zh) * 2014-07-07 2017-09-01 成都安恒信息技术有限公司 一种半自动化学习式的表单特征提取方法
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN106802899B (zh) * 2015-11-26 2020-11-24 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN108664512A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 文本对象分类方法及装置
CN108664512B (zh) * 2017-03-31 2021-02-09 华为技术有限公司 文本对象分类方法及装置
CN108694192A (zh) * 2017-04-07 2018-10-23 北京国双科技有限公司 网页类型的判断方法及装置
CN108694192B (zh) * 2017-04-07 2021-05-14 北京国双科技有限公司 网页类型的判断方法及装置
WO2019024755A1 (zh) * 2017-08-01 2019-02-07 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN110489628A (zh) * 2019-08-22 2019-11-22 北大方正集团有限公司 数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN102681994B (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN102681994B (zh) 一种网页信息抽取方法及系统
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN101650715B (zh) 一种筛选网页上链接的方法和装置
CN103136358B (zh) 一种自动抽取论坛数据的方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN105550189A (zh) 基于本体的信息安全事件智能检索系统
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN101515287A (zh) 一种用于复杂页面的包装器自动生成方法
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN104063497A (zh) 观点处理方法和装置以及搜索方法和装置
CN102693304A (zh) 一种搜索引擎的反馈信息处理方法及搜索引擎
CN102567494A (zh) 网站分类方法及装置
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN103870495B (zh) 用于从网站中提取信息的方法和装置
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN101639840A (zh) 网络信息语义结构识别方法和装置
CN102902792B (zh) 列表页识别系统及方法
CN100562872C (zh) 针对结构化网页的自动模板信息定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant