CN103020286A - 基于排名网站的互联网排行榜抓取系统 - Google Patents

基于排名网站的互联网排行榜抓取系统 Download PDF

Info

Publication number
CN103020286A
CN103020286A CN2012105809757A CN201210580975A CN103020286A CN 103020286 A CN103020286 A CN 103020286A CN 2012105809757 A CN2012105809757 A CN 2012105809757A CN 201210580975 A CN201210580975 A CN 201210580975A CN 103020286 A CN103020286 A CN 103020286A
Authority
CN
China
Prior art keywords
list
webpage
ranking
ranking list
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105809757A
Other languages
English (en)
Other versions
CN103020286B (zh
Inventor
朱其立
张至先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201210580975.7A priority Critical patent/CN103020286B/zh
Publication of CN103020286A publication Critical patent/CN103020286A/zh
Application granted granted Critical
Publication of CN103020286B publication Critical patent/CN103020286B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种互联网排行榜抓取系统,包括将HTML格式的网页解析成为基于文件物件模型的树状数据结构(DOM Tree)的网页预处理模块;判断该网页是否为一个排名网页的标题识别模块;基于HTML标签路径的聚类分析的候选列表排行榜选取模块;基于内容匹配和网页布局的排行榜选取模块;以及排行榜内容后期处理模块。本发明可以针对互联网排行榜这种特殊的网络列表进行快速准确的自动提取,有效挖掘其潜在价值。

Description

基于排名网站的互联网排行榜抓取系统
技术领域
本发明涉及一种互联网数据挖掘技术领域的系统,具体是一种基于排名网站的互联网排行榜抓取系统。
背景技术
互联网是目前世界上最庞大的信息源,它包含着海量的数据和知识。这些信息可以有多种方式在网页上予以呈现,如纯文本,图片,列表以及表格等。其中,后两者相对于其他方式具有结构化的组织形式,因而其包含的信息更有实际应用价值。因此,网络列表及表格的提取和处理已经成为互联网和数据挖掘领域一个重要的课题。
排行榜(英文名:Top-k List)是一种特殊的网络列表。其定义为对一个领域根据固定的标准进行的固定个数的排名。典型的例子有,“世界上最有影响力的20个科学家”,“北京最高的十栋楼”等等。领域可以包括各种概念(如,汽车、城市、作家等等);标准可以是根据主观的评价(如:最好的,最美的),也可以是基于客观的事实(如:最高的,最快的等等);固定个数是指排名列表的表项数目是由列表标题中指定的(如十大,前20等等)。包含排行榜内容的网页被称为排名网页,典型的排名网页包括“世界十大海滩”,“你不能错过的十部经典电影”等。
相比于一般的网络列表,网络排行榜具有更高的价值。首先,网络排行榜数量庞大,种类丰富。据估计,目前仅英文网站中就包含超过200万个网络排行榜,这个数字还在随着网络的快速发展急速生长。第二,网络排行榜的质量很高。普通的网络列表只有很少一部分包含有用的信息,并且没有固定的含义。相比之下,排行榜语义清楚,形式规范,信息量更大。第三,排行榜包含排名的信息,因此我们可以比较一个榜单中不同位置上的列表项的优劣。最后,排行榜的信息更有影响力,一般而言,排行榜的作者或编辑往往是该领域的专家,因此享有一定的权威;另一方面,人们对排名的信息更感兴趣。
因此,网络排行榜的批量获取和分析是一项非常有意义的工作,其数据可以用来帮助建立一个知识数据库(knowledge base)或者自动问题回答系统(Q/A machine)。然而,目前针对这方面的工作相对较少,而现有的网络表格抓取系统并不能有效地用来处理排行榜网页。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于排名网站的互联网排行榜抓取系统。
根据本发明的一个方面,提供一种基于排名网站的互联网排行榜抓取系统,包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出,其中:
网页预处理模块,用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构,以便提供给网页标题识别模块和候选列表抓取模块进行后续处理;
网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页,其中:如果判断该网页为普通网页,则系统输出判断结果,中断退出;如果判断该网页为排名网页,则提取该网页中排行榜的领域、标准、列表项个数和时间地点信息,并提供给候选列表抓取模块进行后续处理;
候选列表抓取模块,用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表,候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同,如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出,否则由排行榜选取模块进行后续处理;
排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表,评价标准包括:网页标题的关联程度、在网页中的空间位置、规则模式匹配;
排行榜内容后期处理模块,用于对排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
优选地,网页标题识别模块在对网页进行分类之前,对标题进行预处理,预处理具体为:用正则表达式匹配的方式,去掉标题中的次要部分,确定标题的主要部分;对主要部分进行英文词法分析,获得单词序列中每一个单词的词性和原型,并将单词、词性、原型构成特征表格。
优选地,网页标题识别模块包括分类器,分类器利用事先训练好的模型将对输入的特征表格进行分析,其结果为对输入单词序列对应的标注序列,其中K代表列表项的个数,F代表排行榜的领域,C表示排行榜的标准,对于分类结果的处理分为两种情况:如果标注序列中包含K,则说明输入网页为一个排名网页,则需要将结果整理为<个数,领域,标准,时间,地点>的五元组的形式,并触发候选列表抓取模块执行;否则判定该网页非排名网页,系统退出。
优选地,分类器的模型是基于条件随机域训练获得的。
优选地,HTML标签路径的含义为,在树状数据结构中,任意一个节点到根节点的路径,具体表示为路径中各个节点的HTML标签的连接;基于HTML标签路径的聚类分析由通过对网页中所有节点进行遍历,将具有相同标签路径的节点进行聚类,形成多个类,其中,包含K个节点的类即为候选的排行榜列表,K为网页标题识别模块中得到的排行榜列表项个数;如果没有找到任何候选列表,则判定列表抓取失败,系统退出。
优选地,网页标题的关联程度,具体为:根据网页中排行榜所涉及的领域,得到该领域的全部或者部分实例,其中,具体对每一个候选列表L的计算公式为:
PScore = 1 K &Sigma; n &Element; L LMI ( n ) Len ( n )
其中,PScore为网页标题的关联程度,n为列表L中的一个列表项,K为列表项个数,LMI(n)表示在列表项n中最长的实例的单词个数(Longest matched instance),Len(n)为列表项n中的单词总个数。
优选地,在网页中的空间位置,具体为:根据候选列表的字体大小和字符长度估算候选列表在网页中占据的大小,具体的计算公式为:
VScore = &Sigma; n &Element; L Text ( n ) * Font ( n ) 2
其中,VScore为在网页中的空间位置,n为列表L中的一个列表项,Text(n)为列表项n的字符长度,Font(n)为列表项n中字符的字体高度。
优选地,排行榜内容后期处理模块,具体为:统计排行榜的每一个列表项中一些常见的分隔符号的个数,如果发现某一个分隔符号在各个列表项中出现的频率相同,则以此为分隔符将列表项进行拆分,然后对拆分后的每一列继续进行下一轮同样的操作,直到无法找到频率相同的分隔符号为止。
优选地,规则模式匹配,具体为:根据一些基于经验的规则,对候选列表进行模式匹配,并根据匹配的结果判断该候选列表是否为一个排行榜列表,该规则包括奖励和惩罚;奖励包括1)候选列表的标签路径中包含表示强调的标签<b>、<h2>、<strong>;2)候选列表中每一个列表项以序号开头;3)候选列表是以表格的形式组织的(<table>);惩罚包括:1)候选列表中出现多次(>3)的重复列表项;2)候选列表中某一列表项的内容过多或者过少。
与现有技术相比,本发明提供了一种识别英文排名网页并提取网络排行榜的方法。它的输入可以是任意一个HTML网页,如果输入网页包含一个排行榜,则输出经过处理的排行榜内容。否则输出错误或者为空。图2展示了本发明的样例输出。
具体可以分为三个功能:
1.识别排名网页。通过从语法上对输入网页的标题进行分析,判断此网页是否为一个排名网页。如果是,则进一步从标题中提取排行榜有关的信息,包括:领域,标准,列表项的个数,时间和地点等信息。
2.排行榜列表抓取。在排名网页中寻找排行榜所在的位置并抓取内容。注意到,除了排行榜之外在网页中可能有包括多个列表或表格,比如用户评论,广告等等。所得到的排行榜应当与排名网页的标题最相关的列表,列表项的个数,排行榜的领域,排名的标准与标题提供的信息一致。
3.排行榜内容后期处理。从网页中抓取到的排行榜原始信息进行处理,得到一个关系表格(relational table)。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明提供的基于排名网站的互联网排行榜抓取系统的系统模块图;
图2为根据本发明提供的基于排名网站的互联网排行榜抓取系统的样例输出;
图3为图1中所示网页标题识别模块的流程示意图;
图4为一个标题特征表格样例;
图5为一个标题标注序列样例;
图6为标签路径聚类算法。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本实施例包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块。其中,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出。各个模块的功能如下:
1.网页预处理模块,用于将HTML格式的网页解析成为基于文件物件模型的树状数据结构(DOM Tree),以便后续处理。
2.网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页。这里分为两种情况,如果判断结果为假(该网页为普通网页),则系统输出判断结果,中断退出;如果判断结果为真(该网页为排名网页),则利用训练模型和自动规则提取该网页中排行榜的领域、列表项个数和时间地点等信息,并进行后续处理。
3.候选列表抓取模块,用于在网页预处理模块中得到的DOM树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表。候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同。如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出。否则进行后续处理。
4.排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表。评价的标准包括:网页标题的关联程度,在网页中的空间位置,规则模式匹配等等。
5.排行榜内容后期处理模块,用于对在排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
网页标题识别模块的内部流程如图3所示。其核心为一个基于条件随机域的分类器,用于判断是否为一个排名网页。之前的步骤为标题的预处理阶段,包括:1.用正则表达式匹配的方式,去掉标题中的次要部分(如网站标识,搜索关键词等),确定标题的主要部分;2.对主要部分进行英文词法分析,获得单词序列中每一个单词的词性(POS tag)和原型(lemma),建立如图4所示的特征表,即为分类器的输入。分类器利用事先训练好的模型将对输入的特征表格进行分析,其结果为对输入单词序列对应的标注序列,如图5所示,其中K代表列表项的个数,F代表排行榜的领域,C表示排行榜的标准。对于分类结果的处理分为两种情况:如果标注序列中包含K,则说明输入网页为一个排名网页,则需要将结果整理为<个数,领域,标准,时间,地点>的五元组的形式(时间地点由另外的独立训练的模型获得),并进入下一模块。否则判定该网页非排名网页,系统退出。
分类器的模型是基于条件随机域(CRF)训练获得的。其训练数据为1000个排名网页的标题(正例)和2000个非排名网页的标题(负例)。其中所有正例需要人工进行标注,标注的内容包括列表项的个数(K)、排行榜的领域(F)和排行榜的评价标准(C)。然后对训练数据进行预处理,得到标题主要部分的特征表及对应标注序列。时间和地点的识别模型同样来自基于条件随机域模型的机器学习得到,但与上文的模型有两点区别:1.其训练数据仅为1000个排名网页的标题;2.其标注内容为时间(T)和地点(D)。
候选列表抓取模块对在网页预处理模块中得到的DOM树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表。HTML标签路径的含义为,在DOM树状结构中,任意一个节点(node)到根节点(root)的路径,具体表示为路径中各个节点的HTML标签的连接。基于HTML标签路径的聚类分析由通过对网页中所有节点进行遍历,将具有相同标签路径的节点进行聚类,形成多个类(cluster)。其中,包含K个节点的类即为候选的排行榜列表(K为网页标题识别模块中得到的排行榜列表项个数)。聚类分析算法的伪代码如图6所示。如果没有找到任何候选列表,则判定列表抓取失败,系统退出。
排行榜选取模块对在候选列表抓取模块中得到的多个候选列表通过多种评价标准进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表。其中评价标准包括:
1.网页标题的关联程度(P-Score)。通过前面对网页标题的分析,可以得到此网页中排行榜所涉及的领域,通过已有的知识数据库,可以得到这个领域的全部或者部分实例(instance)。比如:“banana”是“fruit”领域的一个实例,“China”是“country”的一个实例。具体对每一个候选列表L的计算公式为:
PScore = 1 K &Sigma; n &Element; L LMI ( n ) Len ( n )
其中,,PScore为网页标题的关联程度,n为列表L中的一个列表项,K为列表项个数,LMI(n)表示在列表项n中最长的实例的单词个数(Longest matched instance),Len(n)为列表项n中的单词总个数。
2.在网页中的空间位置(V-Score)。根据候选列表的字体大小和字符长度估算候选列表在网页中占据的大小,具体的计算公式为:
VScore = &Sigma; n &Element; L Text ( n ) * Font ( n ) 2
其中,VScore为在网页中的空间位置,n为列表L中的一个列表项,Text(n)为列表项n的字符长度,Font(n)为列表项n中字符的字体高度。
3.规则模式匹配。包括奖励和惩罚。奖励包括1)候选列表的标签路径中包含<b>,<h2>,<strong>等表示强调的标签;2)候选列表中每一个列表项以序号开头;3)候选列表是以表格的形式组织的(<table>)。惩罚包括:1)候选列表中出现多次(>3)的重复列表项;2)候选列表中某一列表项的内容过多或者过少。
最终的分数为以上三个评价标准的加权和。
排行榜内容后期处理模块,对在排行榜选取模块选取的获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。做法是统计排行榜的每一个列表项中一些常见的分隔符号(如“,”,“:”,“|”等)的个数,如果发现某一个分隔符号在各个列表项中出现的频率相同,则以此为分隔符将列表项进行拆分,然后对拆分后的每一列继续进行下一轮同样的操作,直到无法找到频率相同的分隔符号为止。
最终,系统将会得到一个多行多列的表格以表示输入网页中的排行榜内容,其中每一行代表排行榜中的一项实例,每一列表示一种属性。这个关系数据表与标题中分析得到的五元组(<个数,领域,标准,时间,地点>)对应,组成系统的输出。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (9)

1.一种基于排名网站的互联网排行榜抓取系统,其特征在于,包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出,其中:
网页预处理模块,用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构,以便提供给网页标题识别模块和候选列表抓取模块进行后续处理;
网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页,其中:如果判断该网页为普通网页,则系统输出判断结果,中断退出;如果判断该网页为排名网页,则提取该网页中排行榜的领域、标准、列表项个数和时间地点信息,并提供给候选列表抓取模块进行后续处理;
候选列表抓取模块,用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表,候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同,如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出,否则由排行榜选取模块进行后续处理;
排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表,评价标准包括:网页标题的关联程度、在网页中的空间位置、规则模式匹配;
排行榜内容后期处理模块,用于对排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
2.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题识别模块在对网页进行分类之前,对标题进行预处理,预处理具体为:用正则表达式匹配的方式,去掉标题中的次要部分,确定标题的主要部分;对主要部分进行英文词法分析,获得单词序列中每一个单词的词性和原型,并将单词、词性、原型构成特征表格。
3.根据权利要求2所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题识别模块包括分类器,分类器利用事先训练好的模型将对输入的特征表格进行分析,其结果为对输入单词序列对应的标注序列,其中K代表列表项的个数,F代表排行榜的领域,C表示排行榜的标准,对于分类结果的处理分为两种情况:如果标注序列中包含K,则说明输入网页为一个排名网页,则需要将结果整理为<个数,领域,标准,时间,地点>的五元组的形式,并触发候选列表抓取模块执行;否则判定该网页非排名网页,系统退出。
4.根据权利要求3所述的基于排名网站的互联网排行榜抓取系统,其特征在于,分类器的模型是基于条件随机域训练获得的。
5.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,HTML标签路径的含义为,在树状数据结构中,任意一个节点到根节点的路径,具体表示为路径中各个节点的HTML标签的连接;基于HTML标签路径的聚类分析由通过对网页中所有节点进行遍历,将具有相同标签路径的节点进行聚类,形成多个类,其中,包含K个节点的类即为候选的排行榜列表,K为网页标题识别模块中得到的排行榜列表项个数;如果没有找到任何候选列表,则判定列表抓取失败,系统退出。
6.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题的关联程度,具体为:根据网页中排行榜所涉及的领域,得到该领域的全部或者部分实例,其中,具体对每一个候选列表L的计算公式为:
PScore = 1 K &Sigma; n &Element; L LMI ( n ) Len ( n )
其中,PScore为网页标题的关联程度,n为列表L中的一个列表项,K为列表项个数,LMI(n)表示在列表项n中最长的实例的单词个数,Len(n)为列表项n中的单词总个数。
7.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,在网页中的空间位置,具体为:根据候选列表的字体大小和字符长度估算候选列表在网页中占据的大小,具体的计算公式为:
VScore = &Sigma; n &Element; L Text ( n ) * Font ( n ) 2
其中,VScore为在网页中的空间位置,n为列表L中的一个列表项,Text(n)为列表项n的字符长度,Font(n)为列表项n中字符的字体高度。
8.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,排行榜内容后期处理模块,具体为:统计排行榜的每一个列表项中一些常见的分隔符号的个数,如果发现某一个分隔符号在各个列表项中出现的频率相同,则以此为分隔符将列表项进行拆分,然后对拆分后的每一列继续进行下一轮同样的操作,直到无法找到频率相同的分隔符号为止。
9.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,规则模式匹配,具体为:根据一些基于经验的规则,对候选列表进行模式匹配,并根据匹配的结果判断该候选列表是否为一个排行榜列表,该规则包括奖励和惩罚:奖励包括1)候选列表的标签路径中包含表示强调的标签<b>、<h2>、以及<strong>;2)候选列表中每一个列表项以序号开头;3)候选列表是以表格的形式组织的;惩罚包括:1)候选列表中出现多次的重复列表项;2)候选列表中某一列表项的内容过多或者过少。
CN201210580975.7A 2012-12-27 2012-12-27 基于排名网站的互联网排行榜抓取系统 Expired - Fee Related CN103020286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210580975.7A CN103020286B (zh) 2012-12-27 2012-12-27 基于排名网站的互联网排行榜抓取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210580975.7A CN103020286B (zh) 2012-12-27 2012-12-27 基于排名网站的互联网排行榜抓取系统

Publications (2)

Publication Number Publication Date
CN103020286A true CN103020286A (zh) 2013-04-03
CN103020286B CN103020286B (zh) 2016-06-01

Family

ID=47968889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210580975.7A Expired - Fee Related CN103020286B (zh) 2012-12-27 2012-12-27 基于排名网站的互联网排行榜抓取系统

Country Status (1)

Country Link
CN (1) CN103020286B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530321A (zh) * 2013-09-18 2014-01-22 上海交通大学 一种基于机器学习的排序系统
CN107341500A (zh) * 2017-05-26 2017-11-10 浙江大学 一种基于排名信息的快速选取方法
CN109344303A (zh) * 2018-11-30 2019-02-15 广州虎牙信息科技有限公司 一种数据结构切换方法、装置、设备和存储介质
CN110298039A (zh) * 2019-06-20 2019-10-01 北京百度网讯科技有限公司 事件地的识别方法、系统、设备及计算机可读存储介质
CN111723378A (zh) * 2020-06-17 2020-09-29 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法
CN112579852A (zh) * 2019-09-30 2021-03-30 厦门邑通软件科技有限公司 一种互动式网页数据精确采集方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092941B1 (en) * 2002-05-23 2006-08-15 Oracle International Corporation Clustering module for data mining
CN102799596A (zh) * 2011-05-27 2012-11-28 广州明朝网络科技有限公司 基于网络应用的关键词过滤方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092941B1 (en) * 2002-05-23 2006-08-15 Oracle International Corporation Clustering module for data mining
CN102799596A (zh) * 2011-05-27 2012-11-28 广州明朝网络科技有限公司 基于网络应用的关键词过滤方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG ET AL: ""A System for Extracting Top-K Lists from the Web"", 《COPYRIGHT 2012 ACM 978-1-4503-1462-6 /12/08》, 16 August 2012 (2012-08-16), pages 1560 - 1563, XP058007876, DOI: 10.1145/2339530.2339780 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530321A (zh) * 2013-09-18 2014-01-22 上海交通大学 一种基于机器学习的排序系统
CN103530321B (zh) * 2013-09-18 2016-09-07 上海交通大学 一种基于机器学习的排序系统
CN107341500A (zh) * 2017-05-26 2017-11-10 浙江大学 一种基于排名信息的快速选取方法
CN109344303A (zh) * 2018-11-30 2019-02-15 广州虎牙信息科技有限公司 一种数据结构切换方法、装置、设备和存储介质
CN110298039A (zh) * 2019-06-20 2019-10-01 北京百度网讯科技有限公司 事件地的识别方法、系统、设备及计算机可读存储介质
CN110298039B (zh) * 2019-06-20 2023-05-30 北京百度网讯科技有限公司 事件地的识别方法、系统、设备及计算机可读存储介质
CN112579852A (zh) * 2019-09-30 2021-03-30 厦门邑通软件科技有限公司 一种互动式网页数据精确采集方法
WO2021062996A1 (zh) * 2019-09-30 2021-04-08 厦门邑通软件科技有限公司 一种互动式网页数据精确采集方法
CN112579852B (zh) * 2019-09-30 2023-01-10 厦门邑通智能科技集团有限公司 一种互动式网页数据精确采集方法
CN111723378A (zh) * 2020-06-17 2020-09-29 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法
CN111723378B (zh) * 2020-06-17 2023-03-10 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法

Also Published As

Publication number Publication date
CN103020286B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN109376251A (zh) 一种基于词向量学习模型的微博中文情感词典构建方法
CN104636465A (zh) 网页摘要生成方法、展示方法及相应装置
CN103020286A (zh) 基于排名网站的互联网排行榜抓取系统
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN103399901A (zh) 一种关键词抽取方法
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
Rashid et al. Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining
CN106649270A (zh) 舆情监测分析方法
CN103902733A (zh) 基于疑问词扩展的信息检索方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN113312476A (zh) 一种文本自动打标签方法及其装置和终端
Iyer et al. A machine learning framework for authorship identification from texts
CN112434163A (zh) 风险识别方法及模型构建方法、装置、电子设备和介质
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN106503153A (zh) 一种计算机文本分类体系、系统及其文本分类方法
CN115329085A (zh) 一种社交机器人分类方法及系统
CN109472020B (zh) 一种特征对齐中文分词方法
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN103646058B (zh) 识别技术文件中关键词的方法及系统
Bauer et al. Fiasco: Filtering the internet by automatic subtree classification, osnabruck
CN105183894A (zh) 过滤网站内链的方法及装置
CN105868968A (zh) 基于机器学习的招聘信息解析系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601

Termination date: 20181227