CN103136358A - 一种自动抽取论坛数据的方法 - Google Patents

一种自动抽取论坛数据的方法 Download PDF

Info

Publication number
CN103136358A
CN103136358A CN2013100720987A CN201310072098A CN103136358A CN 103136358 A CN103136358 A CN 103136358A CN 2013100720987 A CN2013100720987 A CN 2013100720987A CN 201310072098 A CN201310072098 A CN 201310072098A CN 103136358 A CN103136358 A CN 103136358A
Authority
CN
China
Prior art keywords
webpage
path
data
web page
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100720987A
Other languages
English (en)
Other versions
CN103136358B (zh
Inventor
郭成林
彭春林
刘红玉
高云棋
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd filed Critical NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201310072098.7A priority Critical patent/CN103136358B/zh
Publication of CN103136358A publication Critical patent/CN103136358A/zh
Application granted granted Critical
Publication of CN103136358B publication Critical patent/CN103136358B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种从论坛帖子中抽取数据的方法,按照如下步骤:a根据论坛网页结构的特点,用网页结构聚类的方法,识别网页帖子页面;b根据网页帖子的簇的相似子树的数量变化,计算该簇内所有同路径下的相似子树的熵,来定位条目信息;c构建帖子页面可视字串的特征集,利用统计特征对特征集进行划分,然后利用先验知识对具体的可视字串代表的含义,并生成模板;d利用模板解析网页,完成最终的提取。

Description

一种自动抽取论坛数据的方法
技术领域
本发明属于网络信息处理技术领域,涉及网络信息的抽取技术,尤其涉及一种自动抽取论坛数据的方法。
背景技术
论坛是一种一个人发表一个话题或者评论,下面可以有多人评论或者回复的网页信息发布模式。网页主题内容网页结构单一,大多以条目信息的形式列出,条信息由网页模板生成,通常包括作者、发帖内容及发贴时间等有效信息。无论是发帖人条目还是回复条目,结构上都有较高的一致性。
另外,论坛具有用户量大和信息增加迅速等特点。中国互联网络信息中心2012年发布的《第29次中国互联网络发展状况统计报告》指出:微博网民的比例达到48.7%,论坛(BBS)使用比例28.2%。根据2010年官方公布数据显示,新浪微博每天发博数超过2500万条,加上包括论坛在内的社交网络和论坛网页数量庞大和种类繁多等特点,论坛信息抽取方法的研究具有非常重要的现实意义。
论坛信息抽取的目标主要是抽取用户名、表发时间、发表楼层以及发表内容等项目。有效的利用这些信息对于评论型网站的内容分析有着重要意义,比如用于舆情分析或者产品评论挖掘等。
网页数据处理的方法主要包括数据抽取和数据集成。数据抽取是指从半结构化文档中抽取结构化数据,数据集成是指对抽取的数据赋予含义,如将其抽象为产品的名称、价格等。
现有的网页数据抽取的主要方法如下:1、手工方法:通过观察网页及其源代码,由编程人员找出一些模式,再根据这些模式编写程序以抽取目标数据,为了简化过程,人们还构建了集中模式规范语言及其用户界面,然而,这种方法很难处理好站点数量巨大的情形;2、包装器归纳:也是一种有监督学习方法,属于半自动抽取方法,这种方法起始于1995至1996年间,主要是从手工标注的网页或数据记录中集中学习一组抽取规则,然后将这组规则用于具有类似格式的网页的数据抽取;3、自动抽取:属于无监督抽取方法,始于1998年,主要步骤是给定一张或数张网页,这种方法自动从中寻找模式或语法,以便进行数据抽取。由于这种方法不需要手工标注,所以它可以处理大量的站点和网页的数据抽取工作。
然而,由于网站种类众多且风格各异,现有的信息处理方法对于大规模网站的数据自动抽取并集成难以完成,而且对网页结构变化的适应能力不够。
论坛网站内容在web网站中很大比例,准确有效的抽取对应数据有着重要的作用。而论坛网站由于其自身的特点导致其数据抽取与普通网页有所不同。
发明内容
为了解决现有的论坛数据处理方法无法有效完成对大规模网站的数据自动提取及对网页结构变化适应能力差的不足,提出了一种自动抽取论坛数据的方法。
本发明的技术方案如下:
一种自动抽取论坛数据的方法,包括下述步骤:
a、识别主贴页面:对给定url的网页的进行抓取并根据网页结构进行聚类,找出帖子页面;
b、条目定位:计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵,其中熵的最大值的路径为条目在标签树中的路径;
c、识别内容并生成抽取模版:对条目可视字串特点建立特征向量,再根据特征向量划分数据集,最后区分可见词代表的意义并生成抽取模板;
d、利用抽取模板抽取论坛数据。
具体的,步骤a包括以下步骤:
a1、抓取网页;
a2、清洗网页并建立标签树:去除<script></script>、<style></style>和<!---->标签的内容并建立标签树,以html作为标签树的根;
a3、从根节点开始对标签树层次遍历并赋予权值:初始权值为1,分支节点权值value=1+log(layer),其中layer为节点所在的层数;
a4、计算相似度:将在步骤a3被赋予权值的网页的标签树转换为key:value格式的字典,其中key为树的根到该节点的路径,value所述权值,对于重复出现的路径key使用自加标号加以区分;
a5、确定最大相似度:网页m与对其具有最大相似度的网页n的相似度为Sim(m,n);
a6、判断相似度Sim(m,n)与设定阈值的关系,若相似度Sim(m,n)不小于设定阈值则将网页m聚合到网页n的簇中,若相似度Sim(m,n)小于设定阈值则新建簇并将网页m放入其中。
进一步的,步骤b包括以下步骤:
b1、根据标签树统计子节点数量;
b2、生成key1:value1型路径字典:其中key1为树的根到该节点的路径,value1为簇内所有网页的在该路径上的孩子数;
b3、计算信息量:使用香农的熵公式计算步骤b2中路径字典的value1所代表的信息量。
更进一步的,步骤c包括以下步骤:
c1、对条目可视字串建立四维特征向量;
c2、根据特征向量划分数据集;
c3、对可视字符串赋予含义并形成抽取模版。
其中,步骤c1所述的四维特征向量为F1、F2、F3和F4,具体的:
F1:是否为数字;
F2:长度;
F3:是否为时间格式,时间格式的判定主要通过人工方式收集大多数网站的时间表述格式,生成正则表达式,并按改格式转换为时间戳计算方法;
F4:是否为超链接文字;
其中,F1、F2、F3和F4为所述四维特征向量的四个维度符号。
本发明的有益效果:本发明的方法通过识别贴页面及利用定位算法定位贴子内容条目等操作,再利用特征分类进行区分作者等信息的位置并生成抽取模板,该模版可以准确的抽取作者、发表时间和发表内容等有效信息。本方法能适用于绝大多数论坛如phpwind、discuz等通用论坛以及百度贴吧、天涯、qq社区及凯迪论坛等非通用论坛,不需要修改任何代码,也不需要人工干预的抽取方法,可有效的应用于真实的论坛抽取工作。
附图说明
图1为本发明论坛抽取数据的流程。
图2为本发明网页结构聚类算法的流程。
图3为本发明条目定位的流程。
图4为本发明内容抽取的流程。
具体实施方式
为使本发明的目的、技术方案及有益效果更加清楚明白,以下参照附图并举实施例,对本发明做进一步详细说明。
在本实施例中提出的一种自动抽取论坛数据的方法,首先通过爬虫爬取一定数量的网页,然后对同一站点下的网页聚类,找出贴子页面所在的类别,接着针对贴子页面的结构变化特点定位内容条目所在的位置,最后通过层层剥离的方式抽取有效数据。
如图1所述为本实施例的抽取流程,其具体步骤如下:
a、识别主贴页面:对给定url的网页的进行抓取并根据网页结构进行聚类,找出帖子页面。其原理是,采用上述具体实施方式中提供的方案可以将网页结构相似的网页聚为同一类别。因为帖子页面占论坛页面的比重超过90%,所以最大簇即为帖子页面所在的簇。通过此步骤可以完成对帖子页面的识别。
b、条目定位:计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵,其中熵的最大值的路径为条目在标签树中的路径;
c、识别内容并生成抽取模版:对条目可视字串特点建立特征向量,再根据特征向量划分数据集,最后区分可见词代表的意义并生成抽取模板;
d、利用抽取模板抽取论坛数据。
由于在通过计算机编程实现的过程中,同一抽取方法在不同的平台下具有不同的形式,本实施例进一步提供基于其中一种平台的步骤a的一种实现方法,其流程如图2所示,具体包括以下步骤:
a1、抓取网页;
a2、清洗网页并建立标签树:去除<script></script>、<style></style>和<!---->标签的内容并建立标签树,以html作为标签树的根;
a3、从根节点开始对标签树层次遍历并赋予权值:初始权值为1,分支节点权值value=1+log(layer),其中layer为节点所在的层数;
a4、计算相似度:将在步骤a3被赋予权值的网页的标签树转换为key:value格式的字典,其中key为树的根到该节点的路径,value所述权值,然后计算所述网页的字典和已加入最大簇的网页字典的余弦相似度。对于重复出现的路径key使用自加标号加以区分,例如一个<div><p></p><p></p></div>,两个key为div.p和div.p1。
a5、确定最大相似度:网页m与对其具有最大相似度的网页n的相似度为Sim(m,n);
a6、判断相似度Sim(m,n)与设定阈值的关系,若相似度Sim(m,n)不小于设定阈值则将网页m聚合到网页n的簇中,若相似度Sim(m,n)小于设定阈值则新建簇并将网页m放入其中。
以下为步骤b的一种具体实现方式,流程如图3所示,具体包括以下步骤:
b1、根据标签树统计子节点数量;
b2、生成key1:value1型路径字典:其中key1为树的根到该节点的路径,value1为簇内所有网页的在该路径上的孩子数;
b3、计算信息量:使用香农的熵公式计算步骤b2中路径字典的value1的熵,也即其所代表的信息量,该熵表示树结构在最大相似子节点数的变化程度。对于论坛的网页结构,变化最大的就是条目,变化程度最大的分支即为条目所在位置。在计算孩子节点时也要考虑孩子节点的相似度问题,取最大相似的孩子数量作为孩子节点的数量。
进一步的,作为一种具体实施方式,步骤c包括以下步骤:
c1、对条目可视字串建立四维特征向量;
c2、根据特征向量划分数据集;
c3、对可视字符串赋予含义并形成抽取模版。
其中,步骤c1所述的四维特征向量为F1、F2、F3和F4,具体的:
F1:是否为数字;
F2:长度;
F3:是否为时间格式,时间格式的判定通过人工方式收集网站的时间表述格式,生成正则表达式,并按改格式转换为时间戳计算方法;
F4:是否为超链接文字;
将特征向量放入路径字典中,计算所有路径上所有字串的熵,熵小于0.4的字串直接排除;其中,F1、F2、F3和F4为所述四维特征向量的四个维度符号。
对于抽取作者等信息的步骤为:
S1、选取网页并建立簇字典:字典为key2:value2型结构,其中key2表示路径,value2为簇内每一个网页在这个路径上的特征列表;
S2、抽取可视字串:可视字串为可以再直接网页上显示的字串,非javascript生成的字串,一般为一对标签中间的内容;
S3、建立特征向量P,其中各维度向量符号为P1、P2、P3、P4和P5,含义如下:
P1:为是否为数字;
P2:长度;
P3:是否为时间格式:人工收集部分网站的时间表述格式,生成正则表达式,并按格式转换为时间戳计算方法;
P4:是否为超链接文字;
P5:标签属性数值,如果没有则空;
然后将特征向量放入路径字典中,利用路径字典计算字串的熵来过滤无效信息。
S4、将特征向量归入总特征字典形成特征集,然后从特征集收集数据特征和特征集,通过先验知识识别对应内容。
其中,步骤S3对无效信息的过滤首先要计算所有路径上所有字串的熵,熵小于0.4的均视作为无意义的内容,可以直接排出,此过程对于论坛无效信息的过滤起了重要的作用。如果加入路径的条目数据量足够大,经过过滤后的信息均为有效信息。
另外,注册时间和发表时间主要根据步骤S4抽取的作者信息和内容信息的距离计算长度加以区分:距离作者近的为注册时间,距离正文近的即为发表时间。
关于步骤S4中发表内容的识别由于发表内容的可视字串是分散在每个不同的路径中的,所以要对所有网页结构分析,计算所有孩子节点的数,然后通过熵的计算,找出其内容的父节点,父节点的所有可视子节点串为发表内容的正文部分。
为了使步骤S4关于作者识别的方法更加清理,这里另外提供一种作者识别的方法,具体为通过作者的特征判别。更具体的,作者应该具备以下特征:非数字,长度大小变化的熵很小,为超链接。通过以上步骤可以准确的找出作者等信息的路径进而生成抽取模板。分别用路径表表示作者等信息的位置和属性特征。抽取新网页时,直接查找对应url的模板,若匹配到则直接用模板抽取,若未匹配到则自动执行步骤a到步骤d生成对应的抽取模板,并将标签的属性值如class、id及style等作为校验值,验证识别是否正确,若不正确则可以用标签位置的路径做进一步识别。
在本发明公开的方案中,步骤a3为一个重要的方面,根据网页结构的特点,分支节点的变化可以有效的区分出。因为对于相似度较高的网页结构提高分支节点的权值可以有效果提高网页结构的区分度,具体通过加大网页结构的jaccard距离的值,使从根节点到叶子节点对于网页结构的相似性的影响依次递增,有效的加强孩子节点对网页相似性的影响。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (5)

1.一种自动抽取论坛数据的方法,包括下述步骤:
a、识别主贴页面:对给定url的网页的进行抓取并根据网页结构进行聚类,找出帖子页面;
b、条目定位:计算与帖子页面所在的类同一路径下的相似子树的个数的信息熵,其中熵的最大值的路径为条目在标签树中的路径;
c、识别内容并生成抽取模版:根据条目可视字串建立特征向量,再根据特征向量划分数据集,最后区分可见词代表的意义并生成抽取模板;
d、利用抽取模板抽取论坛数据。
2.根据权利要求1所述的一种自动抽取论坛数据的方法,其特征在于所述步骤a包括以下步骤:
a1、抓取网页;
a2、清洗网页并建立标签树:去除<script></script>、<style></style>和<!---->标签的内容并建立标签树,以html作为标签树的根;
a3、从根节点开始对标签树层次遍历并赋予权值:初始权值为1,分支节点权值value=1+log(layer),其中layer为节点所在的层数;
a4、计算相似度:将在步骤a3被赋予权值的网页的标签树转换为key:value格式的字典,其中,key为树的根到该节点的路径,value所述权值,对于重复出现的路径key使用自加标号加以区分;
a5、确定最大相似度:网页m与对其具有最大相似度的网页n的相似度为Sim(m,n);
a6、判断相似度Sim(m,n)与设定阈值的关系,若相似度Sim(m,n)不小于设定阈值则将网页m聚合到网页n的簇中,若相似度Sim(m,n)小于设定阈值则新建簇并将网页m放入其中。
3.根据权利要求1所述的一种自动抽取论坛数据的方法,其特征在于所述步骤b包括以下步骤:
b1、根据标签树统计子节点数量;
b2、生成key1:value1型路径字典:其中,key1为树的根到该节点的路径,value1为簇内所有网页的在该路径上的孩子数;
b3、计算信息量:使用香农的熵公式计算步骤b2中路径字典的value1所代表的信息量。
4.根据权利要求1所述的一种自动抽取论坛数据的方法,其特征在于所述步骤c包括以下步骤:
c1、对条目可视字串建立四维特征向量;
c2、根据特征向量划分数据集;
c3、对可视字符串赋予含义并形成抽取模版。
5.根据权利要求4所述的一种自动抽取论坛数据的方法,其特征在于步骤c1所述的四维特征向量为F1、F2、F3和F4,具体的:
F1:是否为数字;
F2:长度;
F3:是否为时间格式,时间格式的判定通过人工方式收集网站的时间表述格式,生成正则表达式,并按改格式转换为时间戳计算方法;
F4:是否为超链接文字;
其中,F1、F2、F3和F4为所述四维特征向量的四个维度符号。
CN201310072098.7A 2013-03-07 2013-03-07 一种自动抽取论坛数据的方法 Expired - Fee Related CN103136358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310072098.7A CN103136358B (zh) 2013-03-07 2013-03-07 一种自动抽取论坛数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310072098.7A CN103136358B (zh) 2013-03-07 2013-03-07 一种自动抽取论坛数据的方法

Publications (2)

Publication Number Publication Date
CN103136358A true CN103136358A (zh) 2013-06-05
CN103136358B CN103136358B (zh) 2016-04-13

Family

ID=48496183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310072098.7A Expired - Fee Related CN103136358B (zh) 2013-03-07 2013-03-07 一种自动抽取论坛数据的方法

Country Status (1)

Country Link
CN (1) CN103136358B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
CN104317948A (zh) * 2014-11-05 2015-01-28 北京中科辅龙信息技术有限公司 页面数据抓取方法和系统
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN106227770A (zh) * 2016-07-14 2016-12-14 杭州安恒信息技术有限公司 一种智能化的新闻网页信息抽取方法
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN109165373A (zh) * 2018-09-14 2019-01-08 联想(北京)有限公司 一种数据处理方法及装置
CN109190003A (zh) * 2018-08-20 2019-01-11 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109726341A (zh) * 2018-12-28 2019-05-07 四川新网银行股份有限公司 一种基于网页分类和聚类的网页信息自动抽取方法
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101661468A (zh) * 2008-08-29 2010-03-03 中国科学院计算技术研究所 一种从论坛帖子列表页面中抽取帖子元数据的方法
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统
US20120059859A1 (en) * 2009-11-25 2012-03-08 Li-Mei Jiao Data Extraction Method, Computer Program Product and System
US20120102015A1 (en) * 2010-10-21 2012-04-26 Rillip Inc Method and System for Performing a Comparison
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101661468A (zh) * 2008-08-29 2010-03-03 中国科学院计算技术研究所 一种从论坛帖子列表页面中抽取帖子元数据的方法
US20120059859A1 (en) * 2009-11-25 2012-03-08 Li-Mei Jiao Data Extraction Method, Computer Program Product and System
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统
US20120102015A1 (en) * 2010-10-21 2012-04-26 Rillip Inc Method and System for Performing a Comparison
CN102890681A (zh) * 2011-07-20 2013-01-23 阿里巴巴集团控股有限公司 一种生成网页结构模板的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赖春波: "Web信息自动抽取技术研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统
CN104317948A (zh) * 2014-11-05 2015-01-28 北京中科辅龙信息技术有限公司 页面数据抓取方法和系统
CN104484424A (zh) * 2014-12-19 2015-04-01 浪潮通用软件有限公司 基于互联网建筑施工企业资源价格信息库的构建方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN106227770B (zh) * 2016-07-14 2019-06-21 杭州安恒信息技术股份有限公司 一种智能化的新闻网页信息抽取方法
CN106227770A (zh) * 2016-07-14 2016-12-14 杭州安恒信息技术有限公司 一种智能化的新闻网页信息抽取方法
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN109190003A (zh) * 2018-08-20 2019-01-11 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109190003B (zh) * 2018-08-20 2021-03-02 上海蜜度信息技术有限公司 用于确定列表页节点的方法与设备
CN109165373A (zh) * 2018-09-14 2019-01-08 联想(北京)有限公司 一种数据处理方法及装置
CN109165373B (zh) * 2018-09-14 2022-04-22 联想(北京)有限公司 一种数据处理方法及装置
CN109726341A (zh) * 2018-12-28 2019-05-07 四川新网银行股份有限公司 一种基于网页分类和聚类的网页信息自动抽取方法
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN111966901B (zh) * 2020-08-17 2021-04-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN103136358B (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN103136358B (zh) 一种自动抽取论坛数据的方法
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN104268271B (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN103605738A (zh) 网页访问数据统计方法及装置
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN102681994B (zh) 一种网页信息抽取方法及系统
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN105760439B (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN107229668A (zh) 一种基于关键词匹配的正文抽取方法
CN105005918A (zh) 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法
CN102622443A (zh) 一种面向微博的定制化筛选系统及方法
CN102708096A (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103544178A (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
CN108038205A (zh) 针对中文微博的观点分析原型系统
CN102760149B (zh) 开源软件主题自动标注方法
CN102306177B (zh) 一种多策略组合的本体或实例匹配方法
CN103902621A (zh) 一种鉴定网络谣言的方法和装置
CN103823890A (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN105654144A (zh) 一种基于机器学习的社交网络本体构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160413

Termination date: 20170307

CF01 Termination of patent right due to non-payment of annual fee