CN101727486A - 一种Web论坛信息抽取系统 - Google Patents
一种Web论坛信息抽取系统 Download PDFInfo
- Publication number
- CN101727486A CN101727486A CN200910227300A CN200910227300A CN101727486A CN 101727486 A CN101727486 A CN 101727486A CN 200910227300 A CN200910227300 A CN 200910227300A CN 200910227300 A CN200910227300 A CN 200910227300A CN 101727486 A CN101727486 A CN 101727486A
- Authority
- CN
- China
- Prior art keywords
- webpage
- unit
- information
- forum
- information extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种Web论坛信息抽取系统,该系统包括如下模块:网页采集模块,用于根据用户指定的论坛站点和相应的版块自动下载论坛网页;网页解析模块,用于对网页内容进行清洗,形成网页的文档对象模型(DOM)以便信息抽取算法的实施;在线抽取模块,用于根据论坛网页的布局结构特点对网页中的指定信息进行抽取;数据库存储模块,用于将所抽取的内容存储在数据库系统中以便进行其它的应用;本发明的能对互联网上多种论坛的指定信息进行自动抽取,且有很高的准确率。
Description
技术领域
本发明涉及Web信息处理技术领域,尤其是涉及一种Web论坛信息抽取系统。
背景技术
随着互联网技术的不断发展,互联网上的信息呈现出爆炸式的增长。而其中Web论坛发展得尤为迅猛,据中国Web信息中心2008年底的统计,Web论坛的使用人数达到了9100万,占网民总数的30%以上。每天都有成千上万的人在不同的Web论坛发布信息、探讨问题、交流观点,日积月累使Web论坛成为一个巨大的信息资源库,如何有效的从Web论坛中抽取出有用的信息具有重要的意义。
Web论坛信息抽取属于Web信息抽取中针对网页中某种属性的抽取,比根据从新闻报道中抽取标题、正文内容、作者、发表时间等。目前Web信息抽取的方法主要有三种:
(1)、手工方法:通过观察网页代码发现一定的模式,再根据此模式编写程序实现目标数据的抽取。当需要处理的站点数量较大时,此种方法需要耗费大量的人力劳动,代价较高。
(2)、构造分装器(Wrapper):分装器是一种软件构件,主要通过两种方式来生成,一是通过领域专家来制定抽取规则,二是采用机器学习算法通过学习标注过的样本来自动生成Wrapper。这实际上是一种半自动的抽取方法,仍然需要手工标注样本,
(3)、自动抽取:无监督的方法,该种方法能从网页中自动寻找模式或语法以进行数据的抽取。因为此种方法不需要手工标注样本,所以适用于处理大量站点和网页的信息抽取工作,但是其准确率相对较低。
由于互联网上论坛数量巨大,而且各个论坛风格各异,现有方法用于Web论坛信息抽取时或多或少存在一些问题:方法1,2需要大量的人工参与,无法满足实际应用的需求;方法3能实现自动抽取但准确率又比较低。因此,我们迫切需求一种适用与Web论坛信息抽取的全自动、准确率高的方法。
发明内容
有鉴于此,本发明的目的在于提供一种Web论坛信息抽取系统,该系统能对互联网上多种论坛的指定信息进行自动抽取,且有很高的准确率。
为达到上述目的,本发明的系统包括以下模块:
网页采集模块,用于根据用户指定的论坛站点和相应的版块自动下载论坛网页;网页解析模块,用于对网页内容进行清洗,形成网页的文档对象模型(DOM)以便信息抽取算法的实施;在线抽取模块,用于根据论坛网页的布局结构特点对网页中的指定信息进行抽取;数据库存储模块,用于将所抽取的内容存储在数据库系统中以便进行其它的应用。
进一步,所述网页采集模块包括以下单元:
网页获取单元,该单元向HTTP服务器发送请求,读取返回的内容;链接获取单元,该单元从下载到的网页中分析提取出待下载的网页的URL;下载队列管理单元,该单元根据一定的策略从下载URL队列中取出下一个要下载的URL。
进一步,所述网页解析模块还用于所述网页采集模块中的链接获取单元,链接分析提取是基于网页的DOM树进行的。
进一步,所述在线抽取模块包括以下单元:网页主题信息块发现单元,该单元从网页中确定包含待抽取信息的块状区域,对网页噪声进行初步过滤;信息抽取单元,该单元对主题信息块中的网页噪声进行进一步的过滤,再从中抽取出指定的信息。
进一步,所述数据库存储模块包括以下单元:信息识别单元,该单元用于确定抽取出的信息是否已存在于数据库中,进一步确定是否要进行插入记录操作或是更新记录操作或是空操作;信息保存单元,该单元将抽取出的信息插入或更新至数据库。
本发明的有益效果是:
本发明的有益效果在于,由于抓住了论坛网页在布局结构上的共有特点,使得本发明可以适用于互联网上绝大多数的论坛,通用性比较强。同时通过逐步缩小待抽取信息的范围以及利用了待抽取信息的统计规律和自身特点,使信息抽取的准确率很高;另外,本发明不需要人工标注样本,极大的减少了成本。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
附图为本发明的结构示意图。
图1是本发明Web论坛信息抽取系统的结构图;
图2是本发明Web论坛信息抽取系统操作方法的流程图;
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
如图1所示,本发明的系统结构包括如下模块:
Web论坛网页采集模块101,用于根据用户指定的论坛站点和相应的版块来自动下载论坛网页,该采集模块需利用抽取模块中抽取出的内容;网页解析模块102,用于对网页内容进行清洗,使其满足HTML规范并解析网页,形成网页的文档对象模型(DOM);在线抽取模块103,用于根据论坛网页的结构特点和待抽取信息的特征和统计规律对网页中的指定信息进行抽取;数据库存储模块104,用于将所抽取的内容存储在数据库系统中以便进行有效的管理和其它的应用。
以抽取人民网强国论坛的国际版为具体的实施例,本发明各模块的实现方式如下所述。
以强国论坛国际版块的URL为起始链接,其URL地址为:“http://bbs1.people.com.cn/boardList.do?action=postList&boardId=6”,由网页获取单元下载该网页,由网页解析模块解析该网页,使其符合HTML标准并生成该网页的DOM树结构,并交由在线抽取模块进行处理。在线抽取模块确定该主题索引页面中的主题信息块所在,并从中抽取出主题标题及其链接,查看回复数、更新时间等,其中抽取出的标题的链接交由采集模块的链接获取单元并添加至下载队列中,下载队列管理单元按照广度优先的原则确定下一个待下载的链接。同时该主题索引页面的下一页链接有如下形式:“http://bbs1.people.com.cn/boardL1st.do?action=postList&boardId=6&pageNo=2”,只需依次增加相应的参数pageNo值即可实现多页的下载。同样的方式也可完成内容页面的下载。以此方式即可完成某一主题所有相关信息的获取,抽取出的信息再交由数据库存储模块。由信息识别单元确定某一帖子是否为新帖,这一点可有帖子标题和URL的双Hash值来判断,若为新帖,则由数据库存储模块的信息保存单元执行数据库记录插入操作;若为旧帖,但是有新的回帖或查看数发生改变,则由保存单元执行数据库记录更新操作;否则不执行任何操作。
需要注意的是,网页采集模块、网页解析模块和在线抽取模块是互相配合执行的,由于获取到的链接均是包含待抽取信息的页面的链接,所以网页采集的精度很高,几乎没有无用的网页,这也保证了在线抽取模块中信息抽取的准确率。
以下结合图2所示,介绍本发明Web论坛信息抽取系统的操作方法:
步骤S201,裁剪DOM树,设定阈值。对由网页解析模块得到的网页的DOM树进行进一步的裁剪,具体如下:
(1)如果节点不含有任何子节点或所含文本子节点为空,则删除该节点;
(2)如果节点为HTML的注释部分,则删除该节点;
(3)如果节点为脚本节点,则删除该节点。
同时,设定布局相似度阈值SOL为0.9,计算相似度时所达到的节点的深度或层数N,一般取3,以及各层对整体布局的贡献系数,本实例取0.6,0.3,0.1。上述阈值可根据实际情况进行调整,一般可有实验数据得到一组效果最好的。
步骤S202,获取下一个要处理的节点,一般从<BODY>节点开始,之后按照其子节点的顺序依次获取。
步骤S203,判断S202中得到的节点是否为空,若为空则说明节点已处理完毕,执行步骤S209;否则执行步骤S204。
步骤S204,获取该节点的所有孩子节点,保留其中的块状子节点,如<DIV>、<TABLE>、<FORM>、<UL>等节点,因为这些节点才会影响到布局。
步骤S205,通过计算比较得到相似节点的个数。计算两个节点之间的布局相似度具体可以按照如下公式进行:
其中,SoL(x,y)即表示两个节点x、y之间的布局相似度(Similarity ofLayout)。N表示比较的深度,即只比较到第N层节点;Mi表示第i层子节点的个数;ωi为第i层子节点对整体结构布局的贡献系数,ωi应该满足Sij 表示进行比较的两个节点的第i层第j个节点是否为同种类型的块状节点,其值取0或1。首先判断两个节点是否为使用了同样的HTML标签,比如是否同为<TR>或<TD>标签,若不同,则Sij为0;若相同,则继续比较两节点属性是否相同,如width,style,align等能反映节点布局结构的属性,若这些属性值也相同,则Sij为1。
若计算所得SoL值大于阈值0.9则认为两节点在布局上相似。同样的方法计算所有子节点之间相似度,得到相似节点的个数。
步骤S206,查看相似节点的个数是否满足预设值。一般情况下,主题信息块的数量通常都比较多,选取合适的阈值可使结果更准确。
步骤S207,如果满足阈值,则认为该节点为可能的结果,将其保存以待进一步的处理。
步骤S208,如果未满足阈值,则需要在其子节点中继续寻找相似的节点,即把该节点的所有子节点均添加到待处理队列中。转至步骤S202继续执行。
步骤S209,从得到的可能的结果中确定主题信息块。可根据不同的网页类型使用不同的方法,若是论坛网页的主题索引页面,则可根据所含相似子节点个数最多的节点为包含主题信息块的节点,各相似子节点即为主题信息块,这是因为,主题索引页面通常会列出数十个最新的主题,或者根据节点中所含链接的锚文本长度最长,因为主题索引页面中通常都会提供主题的标题链接用来指向内容页面,而标题通常含有较多的文字,上述两种方法也可结合使用。在内容页面中应使用不同的方法,因为有的帖子回帖很少,这就导致主题信息块的数量很少,但是内容页面的主题信息块中通常含有数量较多的文本内容,因此可以以此为特征来确定内容页面中的主题信息块。
步骤S210,从主题信息块中抽取指定信息。一般从论坛网页中抽取的信息无非就是帖子的标题、作者、内容、发表时间、查看和回复的数量等等,这些信息本身各具特点,但有时也会产生影响,如帖子的查看和回复数为数字而帖子的内容中也可能出现数字等。但是在主题信息块内,这些信息的位置是相对固定的,由于主题信息块是相似的,所以所有主题信息块中某个位置上的信息应该都是相同类型的,会表现出一定的统计规律性。因此,可以将主题块表示成具有明显语义信息的节点的集合,比如文本节点、超链接、图片等,信息其它节点不予考虑。其中第i个主题信息块Bi表示为如下形式:Bi={n1,n2,n3...nk},ni代表各语义节点。采用深度优先的方式遍历主题信息块中的所有节点,按照下面的步骤得到Bi:
获取下一个要处理的节点。若为空,结束。否则转至(2)。
若当前节点的子节点只含有文本节点或链接节点,将其添加到Bi中,转至(1)。
由上述方法将所有主题信息块表示成语义节点的集合。先对Bi中的节点进一步过滤,若所有的Bi中节点ni都相同,则认为ni是噪声节点,再应用以下规则从Bi中抽取包含指定信息的节点:
R1:对所有Bi中对应文本节点求出其长度的平均值,最大者为正文。
R2:对所有Bi中对应链接节点求出其锚文本长度的平均值,最大者为标题。
R3:所有Bi中对应某节点其文本中均含有数字则为查看回复数。
R4:所有Bi中对应某节点其文本中均含有一定格式的时间字符串则为时间。
R5:若所有Bi中对应某节点其文本中均出现“作者”、“Name”等字样则为作者,否则Bi中链接节点中位置靠前且锚文本长度较短的为作者节点。
步骤S211,完成信息抽取的工作。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种Web论坛信息抽取系统,其特征在于,该系统包括如下模块:
网页采集模块,用于根据用户指定的论坛站点和相应的版块自动下载论坛网页;
网页解析模块,用于对网页内容进行清洗,形成网页的文档对象模型以便信息抽取算法的实施;
在线抽取模块,用于根据论坛网页的布局结构特点对网页中的指定信息进行抽取;
数据库存储模块,用于将所抽取的内容存储在数据库系统中以便进行其它的应用。
2.根据权利要求1所述的Web论坛信息抽取系统,其特征在于,所述网页采集模块包括以下单元:
网页获取单元,该单元向HTTP服务器发送请求,读取返回的内容;
链接获取单元,该单元从下载到的网页中分析提取出待下载的网页的URL;
下载队列管理单元,该单元根据一定的策略从下载URL队列中取出下一个要下载的URL。
3.根据权利要求1所述的Web论坛信息抽取系统,其特征在于,所述网页解析模块进一步用于所述网页采集模块中的链接获取单元,链接分析提取是基于网页的DOM树进行的。
4.根据权利要求1所述的Web论坛信息抽取系统,其特征在于,所述在线抽取模块包括以下单元:
网页主题信息块发现单元,该单元从网页中确定包含待抽取信息的块状区域,对网页噪声进行初步过滤;
信息抽取单元,该单元对主题信息块中的网页噪声进行进一步的过滤,再从中抽取出指定的信息。
5.根据权利要求1所述的Web论坛信息抽取系统,其特征在于,所述数据库存储模块包括以下单元:
信息识别单元,该单元用于确定抽取出的信息是否已存在于数据库中,进一步确定是否要进行插入记录操作或是更新记录操作或是空操作;
信息保存单元,该单元将抽取出的信息插入或更新至数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910227300A CN101727486A (zh) | 2009-12-04 | 2009-12-04 | 一种Web论坛信息抽取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910227300A CN101727486A (zh) | 2009-12-04 | 2009-12-04 | 一种Web论坛信息抽取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101727486A true CN101727486A (zh) | 2010-06-09 |
Family
ID=42448372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910227300A Pending CN101727486A (zh) | 2009-12-04 | 2009-12-04 | 一种Web论坛信息抽取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101727486A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236713A (zh) * | 2011-07-05 | 2011-11-09 | 广东星海数字家庭产业技术研究院有限公司 | 一种数字电视交互服务页面的信息提取方法及其装置 |
WO2012083870A1 (zh) * | 2010-12-22 | 2012-06-28 | 北大方正集团有限公司 | 一种论坛回帖增量采集方法及系统 |
CN102646135A (zh) * | 2012-03-31 | 2012-08-22 | 奇智软件(北京)有限公司 | 一种网页收藏方法、装置及系统 |
CN103116448A (zh) * | 2013-01-30 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种可视化信息的抽取方法 |
CN103136358A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN103617224A (zh) * | 2012-03-31 | 2014-03-05 | 北京奇虎科技有限公司 | 一种网页收藏方法、装置及系统 |
CN103617223A (zh) * | 2012-03-31 | 2014-03-05 | 北京奇虎科技有限公司 | 网页收藏方法和装置 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN105740370A (zh) * | 2013-05-10 | 2016-07-06 | 合肥工业大学 | 一种在线Web新闻内容抽取系统 |
CN103761312B (zh) * | 2014-01-24 | 2017-02-08 | 福州大学 | 一种多记录网页的信息抽取系统及方法 |
CN107239520A (zh) * | 2017-05-25 | 2017-10-10 | 东北大学 | 一种通用论坛正文提取方法 |
CN108733813A (zh) * | 2018-05-21 | 2018-11-02 | 山东管理学院 | 面向bbs论坛网页内容的信息提取方法、系统及介质 |
CN108846116A (zh) * | 2018-06-26 | 2018-11-20 | 北京京东金融科技控股有限公司 | 网页曝光数据采集方法、系统、电子设备和存储介质 |
CN109062876A (zh) * | 2018-07-20 | 2018-12-21 | 北京开普云信息科技有限公司 | 一种基于dom网页剪枝的相似网页查找方法及系统 |
CN109344067A (zh) * | 2018-09-29 | 2019-02-15 | 浙江万朋教育科技股份有限公司 | 一种自动转载相关新闻资讯的方法 |
CN110020038A (zh) * | 2017-08-01 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、系统及电子设备 |
CN110968752A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 数据采集方法、装置、存储介质及电子设备 |
CN111079043A (zh) * | 2019-12-05 | 2020-04-28 | 北京数立得科技有限公司 | 一种关键内容定位方法 |
-
2009
- 2009-12-04 CN CN200910227300A patent/CN101727486A/zh active Pending
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9552435B2 (en) | 2010-12-22 | 2017-01-24 | Peking University Founder Group Co., Ltd. | Method and system for incremental collection of forum replies |
WO2012083870A1 (zh) * | 2010-12-22 | 2012-06-28 | 北大方正集团有限公司 | 一种论坛回帖增量采集方法及系统 |
JP2014506355A (ja) * | 2010-12-22 | 2014-03-13 | 北大方正集▲団▼有限公司 | 電子掲示板リプライ増加量の採集方法及びシステム |
CN102236713A (zh) * | 2011-07-05 | 2011-11-09 | 广东星海数字家庭产业技术研究院有限公司 | 一种数字电视交互服务页面的信息提取方法及其装置 |
CN102646135A (zh) * | 2012-03-31 | 2012-08-22 | 奇智软件(北京)有限公司 | 一种网页收藏方法、装置及系统 |
CN103617224B (zh) * | 2012-03-31 | 2018-01-19 | 北京奇虎科技有限公司 | 一种网页收藏方法、装置及系统 |
CN102646135B (zh) * | 2012-03-31 | 2014-01-08 | 北京奇虎科技有限公司 | 一种网页收藏方法、装置及系统 |
CN103617224A (zh) * | 2012-03-31 | 2014-03-05 | 北京奇虎科技有限公司 | 一种网页收藏方法、装置及系统 |
CN103617223A (zh) * | 2012-03-31 | 2014-03-05 | 北京奇虎科技有限公司 | 网页收藏方法和装置 |
CN103617223B (zh) * | 2012-03-31 | 2018-03-20 | 北京奇虎科技有限公司 | 网页收藏方法和装置 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN103116448A (zh) * | 2013-01-30 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种可视化信息的抽取方法 |
CN103136358A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN103136358B (zh) * | 2013-03-07 | 2016-04-13 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN105740370A (zh) * | 2013-05-10 | 2016-07-06 | 合肥工业大学 | 一种在线Web新闻内容抽取系统 |
CN105740370B (zh) * | 2013-05-10 | 2018-11-06 | 合肥工业大学 | 一种在线Web新闻内容抽取系统 |
CN103761312B (zh) * | 2014-01-24 | 2017-02-08 | 福州大学 | 一种多记录网页的信息抽取系统及方法 |
CN105183801B (zh) * | 2015-08-25 | 2018-07-06 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN107239520A (zh) * | 2017-05-25 | 2017-10-10 | 东北大学 | 一种通用论坛正文提取方法 |
CN107239520B (zh) * | 2017-05-25 | 2020-07-03 | 东北大学 | 一种通用论坛正文提取方法 |
CN110020038A (zh) * | 2017-08-01 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、系统及电子设备 |
CN108733813A (zh) * | 2018-05-21 | 2018-11-02 | 山东管理学院 | 面向bbs论坛网页内容的信息提取方法、系统及介质 |
CN108846116A (zh) * | 2018-06-26 | 2018-11-20 | 北京京东金融科技控股有限公司 | 网页曝光数据采集方法、系统、电子设备和存储介质 |
CN109062876A (zh) * | 2018-07-20 | 2018-12-21 | 北京开普云信息科技有限公司 | 一种基于dom网页剪枝的相似网页查找方法及系统 |
CN110968752A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 数据采集方法、装置、存储介质及电子设备 |
CN109344067A (zh) * | 2018-09-29 | 2019-02-15 | 浙江万朋教育科技股份有限公司 | 一种自动转载相关新闻资讯的方法 |
CN111079043A (zh) * | 2019-12-05 | 2020-04-28 | 北京数立得科技有限公司 | 一种关键内容定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727486A (zh) | 一种Web论坛信息抽取系统 | |
CN100444591C (zh) | 获取网页关键字的方法及其应用系统 | |
CN108920434B (zh) | 一种通用的网页主题内容提取方法和系统 | |
CN102663023B (zh) | 一种提取网页内容的实现方法 | |
CN1924858B (zh) | 一种获取新词的方法、装置以及一种输入法系统 | |
CN1936893B (zh) | 基于互联网信息的输入法词频库的生成方法和系统 | |
CN102123168B (zh) | 基于中转服务器的网页页面预读及整合方法和系统 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
CN104869009B (zh) | 网站数据统计的系统和方法 | |
CN103530429B (zh) | 一种网页正文抽取的方法 | |
CN105550359B (zh) | 一种基于垂直搜索的网页排序方法、装置及服务器 | |
CN110390038A (zh) | 基于dom树的页面分块方法、装置、设备及存储介质 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN101630330A (zh) | 一种网页分类方法 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN103023714A (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN104268148A (zh) | 一种基于时间串的论坛页面信息自动抽取方法及系统 | |
Prasad et al. | Coreex: content extraction from online news articles | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN103294732A (zh) | 网页抓取方法及爬虫 | |
CN108733813A (zh) | 面向bbs论坛网页内容的信息提取方法、系统及介质 | |
CN101216836B (zh) | 一种网页锚文本去噪系统及方法 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100609 |