CN103853770B - 一种抽取论坛网页中帖子内容的方法及系统 - Google Patents

一种抽取论坛网页中帖子内容的方法及系统 Download PDF

Info

Publication number
CN103853770B
CN103853770B CN201210511269.7A CN201210511269A CN103853770B CN 103853770 B CN103853770 B CN 103853770B CN 201210511269 A CN201210511269 A CN 201210511269A CN 103853770 B CN103853770 B CN 103853770B
Authority
CN
China
Prior art keywords
web pages
frequent mode
forum web
forum
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210511269.7A
Other languages
English (en)
Other versions
CN103853770A (zh
Inventor
张涛
杨建武
于晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201210511269.7A priority Critical patent/CN103853770B/zh
Priority to US14/093,157 priority patent/US20140156799A1/en
Publication of CN103853770A publication Critical patent/CN103853770A/zh
Application granted granted Critical
Publication of CN103853770B publication Critical patent/CN103853770B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Abstract

本申请公开了一种抽取论坛网页中帖子内容的方法及系统,所述方法包括:获得一论坛网页;将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;一一对应地为所述根节点及所述至少一个子节点生成频繁模式;根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。

Description

一种抽取论坛网页中帖子内容的方法及系统
技术领域
本申请涉及计算机互联网领域,特别涉及一种抽取论坛网页中帖子内容的方法及系统。
背景技术
随着国际互联网的日益普及和迅猛发展,论坛已成为网络上重要的数据资源。由于论坛为人们提供了大量关于各种题材的非常有价值的知识和信息,越来越多的研究工作将利用从论坛数据中抽取信息并建立各种应用。
为了有效利用论坛数据,大部分应用都是首先从论坛网页中抽取结构化的数据,再进一步利用这些数据实现各种功能。
目前,论坛信息的抽取方法多是基于规则,一般而言,都是针对某一网站指定规则并以此构造包装器,而包装器是一种软件构件,主要通过以下两种途径来进行构建:
一、知识工程的途径,即通过领域专家来制定抽取规则;
二、采用机器学习的途径自动构建包装器,根据标注样板,机器学习算法通过自动学习来建立抽取模型。
本申请人在实现本申请实施例的过程中,发现上述手段至少存在如下问题:
一、通过领域专家来制定抽取规则需要耗费大量的人力,成本很高;
二、采用机器学习的途径时,需要手工标注样本。
上述利用包装器的信息抽取技术都存在一定程度上依靠人工辅助,自动化程度比较低,同时,由于论坛网页形式多样且不断更新,因此,包装器的维护成本较高,适用性差,不适合大规模应用。
发明内容
本申请提供一种抽取论坛网页中帖子内容的方法,用以解决现有技术中存在信息抽取自动化较低和适用性差的问题。
一方面,通过本申请的一个实施例,提供如下技术方案:
一种抽取论坛网页中帖子内容的方法,包括:
获得一论坛网页;
将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;
一一对应地为所述根节点及所述至少一个子节点生成频繁模式;
根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;
基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
可选的,所述符合预设条件的频繁模式具体为:最大频繁模式;所述预设的公共子树算法具体为:最大公共子树算法。
可选的,所述将所述论坛网页转换成DOM树,具体包括:
删除所述论坛网页中无用的网页标签;
将无用的网页标签删除了的所述论坛网页转换成DOM树。
可选的,所述基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容,具体包括:
过滤掉所述论坛网页中帖子之间相同部分;
基于所述最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
可选的,所述在根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点之前还包括:
判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;
当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理。
可选的,所述预设的频繁度和支持度具体为:最小频繁度和最小支持度。
另一方面,通过本申请的另一实施例提供了如下技术方案:
一种抽取论坛网页中帖子内容的系统,所述系统包括:
获得模块,用于获得一论坛网页;
转换模块,用于将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;
生成模块,用于一一对应地为所述根节点及所述至少一个子节点生成频繁模式;
确定模块,用于根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;
提取模块,用于基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
可选的,所述符合预设条件的频繁模式具体为:最大频繁模式;所述预设的公共子树算法具体为:最大公共子树算法。
可选的,所述转换模块,具体包括:
删除单元,用于删除所述论坛网页中无用的网页标签;
转换单元,用于将无用的网页标签删除了的所述论坛网页转换成DOM树。
可选的,所述提取模块,具体包括:
过滤单元,用于过滤掉所述论坛网页中帖子之间相同的部分;
提取单元,用于基于所述最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
可选的,所述系统还包括:
判断模块,用于判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;
剪枝模块,用于当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理。
上述技术方案中的一个或多个技术方案,具有如下技术效果或优点:
一、通过采用本申请提供的抽取论坛网页中帖子内容的方法,解决了现有技术中对帖子内容抽取存在自动化程度低,系统适用性差的缺陷,进而具有较广的应用范围。
二、通过抽取出帖子的最大频繁模式,定位到帖子内容节点所在频繁模式树中的位置,再通过最大公共子树动态规划匹配算法,能够快速、准确、完整的抽取出帖子内容中的所有主、回帖内容、发帖时间、作者、及楼层信息等相关元数据。
附图说明
图1为本申请实施例中抽取论坛网页中帖子内容的方法流程图;
图2为本申请实施例中频繁模式树的示意图;
图3为本申请实施例中网页帖子内容结构图;
图4为本申请实施例中抽取网页论坛中帖子内容的系统结构图。
具体实施方式
本申请根据采集到的论坛帖子页对应的网页内容,抽取出帖子页的最大频繁模式,再通过最大频繁模式计算出帖子信息内容所在的节点,基于最大公共子树算法,过滤掉帖子之间相同的部分,进而实现抽取出帖子内容及元数据,同时,根据本申请提供的方法还可以抽取出同一论坛中其他帖子的内容及元数据。
下面结合各个附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
请参考图1,为本申请实施例中抽取论坛网页中帖子内容的方法流程图;
步骤100,获得一论坛网页;
在具体的实施过程中,抽取网页中帖子内容时,首先建立采集页任务,并以列表页的形式保存,基于此采集任务的间隔,自动的从列表页中的URL获得相应的网页地址,比如想要采集梁静茹百度贴吧中的帖子内容,则其采集任务的地址则为:http://tieba.baidu.com/f?kw=%C1%BA%BE%B2%C8%E3#。
步骤110,将所述论坛网页转换成DOM树;
在具体的实施过程中,基于前述步骤110中的网页地址,获取网页地址对应的论坛网页内容,先删除所述论坛网页中无用的网页标签;具体来讲,所述无用的网页标签包括:head节点、注释节点、script等脚本节点、input节点、form节点、select节点、textarea节点、style节点、字体节点等。本领域所属的技术人员根据实际的应用情况,其他相同或相似的网页标签都属于本申请保护的范围,此处不在赘述。
再将无用的网页标签删除了的所述论坛网页转换成DOM树,所述DOM树至少包括一根节点及从属与所述根节点的至少一个子节点;
步骤120,一一对应地位所述根节点及所述至少一个子节点生成频繁模式;
首先,用频繁模式树给出WEB数据及频繁模式的定义,对于某个集合A,设|A|表示A的基数(大小),设L={L0,L1,L2...Ln}表示对应于半结构化数据中属性或者用来标记文本的有限字母表。
建立在L上的频繁模式树,简称频繁树,是一个六元组OT={V,E,B,L,M,r}。其中V是一个有限的节点集合,E=V×V表示(parent,child),E满足的双亲-孩子关系。B表示满足(可能间接)的兄弟关系。频繁树中的任意一个节点都可以通过一条路径到达另一个节点,称该路径为频繁模式。
下面结合图2,频繁模式的结构图作具体描述;
如图2所示,(HTML(HEAD(TITLE))(BODY(TABLE)(DIV))),此模式表示了网页频繁树中的一个频繁模式,这棵树的根节点是<HTML>标签,并且所有的内容节点(如:文本、图片等)都是这棵树的叶节点。每一个内部节点代表一对标签(开始的标签和结束的标签),或者仅代表一个标签(该标签没有对应的结束的标签),根标签和内部的节点统称为标签节点。
通过对步骤110中生成的DOM树中的每一个节点进行前序遍历,对应的把DOM树中每一个节点进行前序遍历,将每一个节点转换成频繁模式。
需要说明的是,一个频繁模式包含一系列的路径节点,根据对标签路径的不同定义,每一个路径节点的构成元素是不同的。
步骤130,根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;
所述符合预设条件的频繁模式具体为:最大频繁模式;所述预设的公共子树算法具体为:最大公共子树算法。
另外,在此步骤之前,即在根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点之前还包括:
判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;
当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理。具体而言,所述预设的频繁度和支持度具体为:最小频繁度和最小支持度。
当进行剪枝处理后,进一步的避免了产出无用的模式,过滤完成后,开始进行扩展,扩展时按照频繁模式树的层次进行扩展,即查看这些模式是否还有其他兄弟节点,如果有则在此频繁模式基础上加入兄弟节点,扩展出新的频繁模式。在扩展兄弟节点后,再查看此模式是否有孩子节点,如果有则在此频繁模式基础上加入孩子节点,扩展出新的频繁模式。每扩展出一个新的频繁模式,就把新找到的模式以及位置等其它相关信息插入到队列中。一直循环此步骤直到扩展完队列中的所有模式。
步骤140,基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
在具体的实施过程中,本步骤包括以下过程:
过滤掉所述论坛网页中帖子之间相同部分;
基于所述最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中。
根据论坛网页格式可以知道,同一论坛往往具有相似的格式,所以根据频繁模块抽取出的最大频繁模式,必然是论坛主从帖所在的分支所生成的模式,比如百度贴吧主贴所形成的模式(div(a)(div(a)(table(tbody(tr)))(div(div))))。此模式就是论坛信息区域所在的分支。论坛网页内容区域的识别就是要找到网页中有大量相似结构的区域,对应于网页频繁树,就是找到最常出现的频繁模式,此模式不一定是包含内容数据的区域,但一定是频繁树中包含内容数据区域节点的某一个子孙节点形成的频繁模式。而包含了数据的区域,就在其附近。所以找到此频繁模式就可以进行内容数据区域定位并进行数据抽取。
请结合图3,为本申请实施例中网页帖子内容结构图;
如图3所示,主从贴有着相同的结构,基本上除了帖子内容信息不同外,其它结构基本相同。所以当找到出现次数最多的频繁模式后,就可以利用最大公共子树动态规划算法,找出子树中完全一样的结构(文本,tag都一样)。当剔除掉相同部分后,剩余的部分就是从主从贴的内容以及内容对应的元数据。提取所述论坛网页中的信息内容。
下面请参考图4,为本申请实施例中抽取论坛网页中帖子内容的方法流程图;
如图4所示,所述系统包括:
获得模块,用于获得一论坛网页;
转换模块,用于将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;
所述转换模块具体包括:
删除单元,用于删除所述论坛网页中无用的网页标签;
转换单元,用于将无用的网页标签删除了的所述论坛网页转换成DOM树。
生成模块,用于一一对应地为所述根节点及所述至少一个子节点生成频繁模式;
确定模块,用于根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;所述符合预设条件的频繁模式具体为:最大频繁模式;所述预设的公共子树算法具体为:最大公共子树算法。
提取模块,用于基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
所述提取模块具体包括:
过滤单元,用于过滤掉所述论坛网页中帖子之间相同的部分;
提取单元,用于基于所述最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
所述系统还包括:
判断模块,用于判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;
剪枝模块,用于当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理。所述预设的频繁度和支持度具体为:最小频繁度和最小支持度。
通过本申请的一个或多个实施例,可以实现如下技术效果:
一、通过采用本申请提供的抽取论坛网页中帖子内容的方法,解决了现有技术中对帖子内容抽取存在自动化程度低,系统适用性差的缺陷,进而具有较广的应用范围。
二、通过抽取出帖子的最大频繁模式,定位到帖子内容节点所在频繁模式树中的位置,再通过最大公共子树动态规划匹配算法,能够快速、准确、完整的抽取出帖子内容中的所有主、回帖内容、发帖时间、作者、及楼层信息等相关元数据。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种抽取论坛网页中帖子内容的方法,其特征在于,包括:
获得一论坛网页;
将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;
一一对应地为所述根节点及所述至少一个子节点生成频繁模式;
判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理;
按照所述频繁模式的层次,根据所述频繁模式的兄弟节点、孩子节点对所述频繁模式进行扩展;
根据所述频繁模式中的最大频繁模式,对论坛网页中的内容数据区域进行定位,并确定出与所述论坛网页中信息内容所对应的节点;
过滤掉所述论坛网页中帖子之间相同部分;基于最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
2.如权利要求1所述的方法,其特征在于,所述将所述论坛网页转换成DOM树,具体包括:
删除所述论坛网页中无用的网页标签;
将无用的网页标签删除了的所述论坛网页转换成DOM树。
3.如权利要求1所述的方法,其特征在于,所述预设的频繁度和支持度具体为:最小频繁度和最小支持度。
4.一种抽取论坛网页中帖子内容的系统,其特征在于,所述系统包括:
获得模块,用于获得一论坛网页;
转换模块,用于将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;
生成模块,用于一一对应地为所述根节点及所述至少一个子节点生成频繁模式;
判断模块,用于判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;
剪枝模块,用于当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理;以及,按照所述频繁模式的层次,根据所述频繁模式的兄弟节点、孩子节点对所述频繁模式进行扩展;确定模块,用于根据所述频繁模式中的最大频繁模式,对论坛网页中的内容数据区域进行定位,并确定出与所述论坛网页中信息内容所对应的节点;
提取模块,用于过滤掉所述论坛网页中帖子之间相同的部分,以及基于最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
5.如权利要求4所述的系统,其特征在于,所述转换模块,具体包括:
删除单元,用于删除所述论坛网页中无用的网页标签;
转换单元,用于将无用的网页标签删除了的所述论坛网页转换成DOM树。
6.如权利要求4所述的系统,其特征在于,所述预设的频繁度和支持度具体为:最小频繁度和最小支持度。
CN201210511269.7A 2012-12-03 2012-12-03 一种抽取论坛网页中帖子内容的方法及系统 Expired - Fee Related CN103853770B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210511269.7A CN103853770B (zh) 2012-12-03 2012-12-03 一种抽取论坛网页中帖子内容的方法及系统
US14/093,157 US20140156799A1 (en) 2012-12-03 2013-11-29 Method and System for Extracting Post Contents From Forum Web Page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210511269.7A CN103853770B (zh) 2012-12-03 2012-12-03 一种抽取论坛网页中帖子内容的方法及系统

Publications (2)

Publication Number Publication Date
CN103853770A CN103853770A (zh) 2014-06-11
CN103853770B true CN103853770B (zh) 2018-08-14

Family

ID=50826601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210511269.7A Expired - Fee Related CN103853770B (zh) 2012-12-03 2012-12-03 一种抽取论坛网页中帖子内容的方法及系统

Country Status (2)

Country Link
US (1) US20140156799A1 (zh)
CN (1) CN103853770B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268148B (zh) * 2014-08-27 2018-02-06 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
CN107239520B (zh) * 2017-05-25 2020-07-03 东北大学 一种通用论坛正文提取方法
US11200501B2 (en) * 2017-12-11 2021-12-14 Adobe Inc. Accurate and interpretable rules for user segmentation
CN111125589B (zh) * 2018-10-31 2023-09-05 新方正控股发展有限责任公司 数据采集方法及装置、计算机可读存储介质
US11704591B2 (en) 2019-03-14 2023-07-18 Adobe Inc. Fast and accurate rule selection for interpretable decision sets
CN111966901B (zh) * 2020-08-17 2021-04-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203901B2 (en) * 2002-11-27 2007-04-10 Microsoft Corporation Small form factor web browsing
US8051083B2 (en) * 2008-04-16 2011-11-01 Microsoft Corporation Forum web page clustering based on repetitive regions
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Incorporating Site-Level Knowledge to Extract Structured Data from Web Forums";Jiang-Ming Yang等;《World Wide Web Conference,Madrid》;20090424;第181页第1栏第1段-第2栏第4段、第182页第2栏第3段-第183页第2栏最后1段、第184页第1栏第1段-第190页第1栏最后1段 *
杨厚群."半结构化数据频繁模式挖掘相关技术研究".《中国优秀硕士学位论文全文数据库•信息科技辑》.2010,摘要第I-II页、第1-5页、第10页第1段-第38页倒数第2段、第48页第1段-第57页第5段. *

Also Published As

Publication number Publication date
CN103853770A (zh) 2014-06-11
US20140156799A1 (en) 2014-06-05

Similar Documents

Publication Publication Date Title
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
US9619448B2 (en) Automated document revision markup and change control
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN107423391B (zh) 网页结构化数据的信息提取方法
CN104462547B (zh) 一种可配置的网页数据采集的方法及系统
CN100444591C (zh) 获取网页关键字的方法及其应用系统
CN103853760A (zh) 一种网页正文内容提取方法和装置
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
CN105302876A (zh) 基于正则表达式的url过滤方法
CN105912613A (zh) 一种网站模板快速迁移的方法
CN103345532A (zh) 一种网页信息抽取方法及装置
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN104598462A (zh) 提取结构化数据的方法及装置
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN105117434A (zh) 一种网页分类方法和系统
CN112287272A (zh) 一种网站列表页面的分类方法、系统及存储介质
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN105740355A (zh) 基于聚集文本密度的网页正文提取方法及装置
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN104217025B (zh) 针对多记录网页的记录项抽取系统及方法
CN103309954A (zh) 一种基于html网页的数据抽取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180814