CN101393555A - 一种垃圾博客检测方法 - Google Patents

一种垃圾博客检测方法 Download PDF

Info

Publication number
CN101393555A
CN101393555A CNA2008101209729A CN200810120972A CN101393555A CN 101393555 A CN101393555 A CN 101393555A CN A2008101209729 A CNA2008101209729 A CN A2008101209729A CN 200810120972 A CN200810120972 A CN 200810120972A CN 101393555 A CN101393555 A CN 101393555A
Authority
CN
China
Prior art keywords
blog
text
rubbish
article
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101209729A
Other languages
English (en)
Inventor
陈纯
卜佳俊
张峰
仇光
郑淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNA2008101209729A priority Critical patent/CN101393555A/zh
Publication of CN101393555A publication Critical patent/CN101393555A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种垃圾博客检测方法。本发明是通过分析网络垃圾的作弊技术,针对垃圾博客的本质属性,运用二元分类的文本分类的技术,围绕博客文本内容特征、博客页面链接特征和博客文本时间分布特征等三个角度进行方法设计。本发明是建立在对博客网页内容全面分析的基础上,对博客的特征提取工作进行了优化,从而保证了对垃圾博客分类更高的准确率。

Description

一种垃圾博客检测方法
技术领域
本发明涉及博客,文本分类技术,特别是涉及一种垃圾博客检测方法。
背景技术
近年来,博客这一新生事物得到了蓬勃发展,由此产生了海量的博客信息。然而作为博客的副产品,垃圾博客也应运而生,其存在极大地浪费了网络的带宽和存储资源,增加了人们获取高质量信息的难度,同时也降低了网络用户对博客搜索体验的满意度。
普通正常的博客具有两个特征:一是由简短而且经常更新的文章构成;二是所张贴的文章按照时间的倒序排列。而垃圾博客除了具备上述特征之外,同时还有着链接工厂特征和广告博客的特征。链接工厂特征是指垃圾博客页面通过堆砌大量热门或者毫无意义的关键字,并进而描述某些外部网站的超链接,通过超链接作弊和关键词作弊等技术,提升被链接网站的链接广度,从而达到提升垃圾博客页面在搜索引擎查询结果中排名的目的;广告博客特征是指以与链接工厂相类似的手法堆砌热门关键词,欺骗用户点击广告并从中牟利。
目前,博客平台提供商处理垃圾博客的方式如下:通过主动监控或者他人举报等方式尽可能地收集网站内部垃圾博客链接,一旦确定便将其列入黑名单,最终通过技术手段进行屏蔽或者直接删除。这从源头上控制了垃圾博客的滋生蔓延。与此同时,国外也已经有相关组织建立了特定的网站和搜索引擎来积极应对垃圾博客。而对于博客搜索引擎而言,为了方便人们获取高质量的信息资源,也必须在索引数据库看中及时过滤垃圾博客,确保用户的查询结果列表中没有掺杂垃圾博客的信息。
但是现有处理方法的不足之处就是对垃圾博客的特征选取不够,区分垃圾博客与正常博客的准确率不高。
发明内容
为了克服对垃圾博客的特征选取不够,区分垃圾博客与正常博客的准确率不高,本发明的目的在于提供一种垃圾博客检测方法。
本发明解决其技术问题所采用的技术方案的步骤如下:
1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;
2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;
3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;
4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。
所述步骤1)中正文文本口语化属性是指就单篇文章而言,在文本分类中强化对口语化属性的判断,并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。
所述步骤1)中文本相似度属性是指就博客作者的所有博客文章而言,使用空间向量模型求余弦的方式,通过计算经过“简化”的各篇博客文章之间的文本相似度,对是否为垃圾博客进行判断,空间向量模型求余弦的计算公式如下:
Sim ( D i , D j ) = Σ k = 1 m w ik × w ik ( Σ k = 1 m w ik 2 ) ( Σ k = 1 m w ik 2 )
其中:D表示一篇文章;wik表示文章Di中的一个词条;m表示文章Di中的词条个数;Sim(Di,Dj)表示文章Di和Dj的相似程度。
所述步骤1)中文本自关联属性是指,博客作者的在T时刻所发表的第l篇文章与之后的T’时刻发表的第(l+k)篇文章之间的关联程度。自关联函数公式定义如下:
d ( p ( l ) , p ( l + k ) ) = 1 - E { | w f ( l ) ∩ w f ( l + k ) | | w f ( l ) ∪ w f ( l + k ) | }
R(k)=1-d(p(l),p(l+k))
其中,R(k)表示第l篇文章与第(l+k)篇文章之间的自关联值;d(p(l),p(l+k))表示第l篇文章与第(l+k)篇文章之间的不相关性度量;p(l)表示第l篇文章;wf(l)表示第l篇文章的词条;E{}表示期望值操作;||表示集合的势;∪和∩表示集合的并和交操作。
所述步骤2)中对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算是指:去掉博客页面中影响博客“入度”计算的,由博客评论系统产生的垃圾博客链接,去掉博客网页中影响博客“出度”计算的,用于博客网页内部导航的链接;并使用链接属性分析的主题搜索算法计算得出标准化目录型权值。其中,标准化的目录型权值是鉴别垃圾博客的有效指标。
所述步骤3)中对博客文本时间分布属性进行分析,计算博客文本时间间隔的规则性特征是指,使用层次聚类方法,对聚类中的簇进行熵计算,计算公式如下:
B e = - Σ i = 1 M p i log p i
p i = n i N
TSR = 1 - B e B max
其中:
Be:博客的熵;
Bmax:实际测量时所得到最大熵;
N:博客作者发表的博客文章总数;
M:聚类中簇的数量;
ni:博客文章的数量;
pi:第i个簇的概率;
TSR:博客文本的时间间隔分布结果。
本发明与背景技术相比,具有的有益的效果是:
本发明是通过分析网络垃圾的作弊技术,针对垃圾博客的本质属性,运用二元分类的文本分类的技术思想,围绕博客的文本特征、超级链接特征以及发布时间特征等三个角度对甄别垃圾博客的特征进行建模。本发明是建立在对博客网页内容全面分析的基础上,对博客的特征提取工作进行了优化,从而保证了对垃圾博客分类更高的准确率。
附图说明
附图是垃圾博客检测方法流程图。
具体实施方式
本发明实施的关键有三点:博客文本内容特征提取、博客页面链接特征提取和博客文本时间分布特征提取。本发明在取得博客页面数据之后,通过正文文本内容分析、博客页面链接分析和博客文本时间属性分析之后,获得特征向量,采用文本自动分类算法实现对垃圾博客的精确分类。
1.博客文本内容特征提取:
就单篇文章而言,以博客文章(包括文章标题)为对象,采用二元法表示特征项。二元表示法,即在{0,1}中取其一,出现的关键词用1表示,未出现的用0表示。标准化词频表示法中,需要对TFIDF值做适当改进,特征项权重值重新定义如下:
w ij = log ( freq qj + 1 ) log ( length i ) × log ( N n i )
其中,wij表示关键词i在文档j中的TFIDF值;freqij表示关键词i在文档j中出现的个数;N表示文章总数;ni表示出现过关键词i的文档总数;lengthj表示文档j中唯一的关键词个数。在这里要特别指出的是,很多时候这个数值的作用是将停用词过滤掉,但由于正常的博客文章往往会出现很多口语化或者低区分度的词汇,如“我”、“大家”、“今天”等,因此不能像传统信息检索那样把他们作为停用词而过滤掉。
文本内容相似性的计算使用空间向量模型求余弦的方法。公式如下:
Sim ( D i , D j ) = Σ k = 1 m w ik × w ik ( Σ k = 1 m w ik 2 ) ( Σ k = 1 m w ik 2 )
其中:D表示一篇文章;wik表示文章Di中的一个词条;m表示文章Di中的词条个数;Sim(Di,Dj)表示文章Di和Dj的相似程度。
此方法的时间消耗巨大,与文本规模成正比。因此对算法进行了适当优化,对文本内容进行了“简化”。首先将文本中的标点符号归一化,将所有全角标点、字母、数字等符号替换成半角符号,将相应的个性化符号用正规的标点替代;然后对文本内容以句子为单位进行切分,并按照句子的长度递减排序;第三,选取排名前N个句子来“代表”该篇文章。若文章句子不足N句,则取整篇文章。其中N为预先设定的阈值,默认为3。
博客文本自关联属性是指博客作者在T时刻所发表的第l篇文章与之后T’时刻发表的第(l+k)篇文章之间的关联程度,博客文本自关联属性是区分垃圾博客与普通博客的重要特征。自关联函数公式定义如下:
d ( p ( l ) , p ( l + k ) ) = 1 - E { | w f ( l ) ∩ w f ( l + k ) | | w f ( l ) ∪ w f ( l + k ) | }
R(k)=1-d(p(l),p(l+k))
其中,R(k)表示第l篇文章与第(l+k)篇文章之间的自关联值;d(p(l),p(l+k))表示第l篇文章与第(l+k)篇文章之间的不相关性度量;p(l)表示第l篇文章;wf(l)表示第l篇文章的词条;E{}表示期望值操作;||表示集合的势;∪和∩表示集合的并和交操作。
2.博客页面链接特征提取:
针对博客网页链接特征的分析是指,在计算之前需要去掉博客网页中影响博客“入度”计算的,由博客评论系统产生的垃圾博客链接,去掉博客网页中影响博客“出度”计算的,用于博客网页内部导航链接;使用链接分析的主题搜索算法进行计算。链接分析的主题搜索算法描述两种类型的网页:权威型网页和目录型网页。权威型网页是指对于一个特定的检索,网页能提供最好的相关信息;目录型网页是指网页提供很多指向其他高质量权威型网页的超链接。
当用户进行检索时,链接分析的主题搜索算法先根据检索关键词得到一个网页的根集合。如,从搜索引擎返回结果中取前200个网页;然后根据这个集合在整个网页有向图中的位置来扩展此根集合。具体办法是,将被链接的网页加入到根集合中,形成一个新的集合;依据指定的网页规模进行扩展,比如可以使根集合扩展到一个包含1000到5000个网页的集合。
在得到这个集合后,就开始采用目录型网页和权威型网页相互评价的办法进行递归,从而计算集合中每个网页的目录型权值和权威型权值。对于一个网页p,用xp来表示网页p的权威型权值,用yp来表示它的目录型权值,xp和yp的计算公式如下:
x p = Σ y p q such that q → p
y p = Σ x p p such that p → q
对所有选出来的网页都进行标号,得到所有网页的编号集{1,2,...,n}。假设相邻矩阵A为一个n×n的矩阵,如果存在一个从网页i链接到网页j的超链,就令矩阵中的第(i,j)个元素置为1,其它各项置为0。同时,将所有网页的权威型权值x和目录型权值y都用向量形式表示:
x=(x1,x2,...,xn)
y=(y1,y2,...,yn)
由此,可以得到计算x和y的简单矩阵公式:
y=Ax
x=ATy
其中,AT是A的转置矩阵。进一步有:
y=Ax=AATy=(AAT)y
x=ATy=ATAx=(ATA)x
经递归运算,得到集合中每个网页的权威型权值和目录型权值。
3.博客文本时间分布特征提取:
在博客文本时间间隔的规则性计算过程中,首先计算相邻两篇博客文章之间的时间间隔;其次,用层次聚类算法对时间间隔进行处理。在层次聚类过程中预先定义一个阈值N,表示簇的个数,如,将N设置为10。两个簇之间的距离如果是所有簇间距离的最小值,并且当前簇个数大于阈值N,则将这两个簇合并成为一个新的簇,并将当前簇的个数减一。最后对文章时间间隔分布特征进行熵计算。熵计算公式如下:
B e = - Σ i = 1 M p i log p i
p i = n i N
TSR = 1 - B e B max
其中:
Be:博客的熵;
Bmax:实际测量时所得到最大熵;
N:博客作者发表的博客文章总数;
M:聚类中簇的数量;
ni:博客文章的数量;
pi:第i个簇的概率;
TSR:博客文章的时间间隔分布结果。
在通过博客文本内容分析、博客页面链接分析和博客文本时间分布属性分析,获得特征向量之后,采用文本自动分类算法对博客进行是否垃圾博客的分类。文本自动分类算法属于一种常规算法,故不再详细叙述。

Claims (6)

1.一种垃圾博客检测方法,其特征在于该方法的步骤如下:
1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;
2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;
3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;
4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。
2.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中正文文本口语化属性是指就单篇文章而言,在文本分类中强化对口语化属性的判断,并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。
3.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中文本相似度属性是指就博客作者的所有博客文章而言,使用空间向量模型求余弦的方式,通过计算经过“简化”的各篇博客文章之间的文本相似度,对是否为垃圾博客进行判断,空间向量模型求余弦的计算公式如下:
Sim ( D i , D j ) = Σ k = 1 m w ik × w ik ( Σ k = 1 m w ik 2 ) ( Σ k = 1 m w ik 2 )
其中:D表示一篇文章;wik表示文章Di中的一个词条;m表示文章Di中的词条个数;Sim(Di,Dj)表示文章Di和Dj的相似程度。
4.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中文本自关联属性是指,博客作者的在T时刻所发表的第l篇文章与之后的T’时刻发表的第(l+k)篇文章之间的关联程度。自关联函数公式定义如下:
d ( p ( l ) ) , p ( l + k ) = 1 - E { | w f ( l ) ∩ w f ( l + k ) | | w f ( l ) ∪ w f ( l + k ) | }
R(k)=1-d(p(l),p(l+k))
其中,R(k)表示第l篇文章与第(l+k)篇文章之间的自关联值;d(p(l),p(l+k))表示第l篇文章与第(l+k)篇文章之间的不相关性度量;p(l)表示第l篇文章;wf(l)表示第l篇文章的词条;E{}表示期望值操作;||表示集合的势;∪和∩表示集合的并和交操作。
5.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤2)中对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算是指:去掉博客页面中影响博客“入度”计算的,由博客评论系统产生的垃圾博客链接,去掉博客网页中影响博客“出度”计算的,用于博客网页内部导航的链接;并使用链接属性分析的主题搜索算法计算得出标准化目录型权值。其中,标准化的目录型权值是鉴别垃圾博客的有效指标。
6.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤3)中对博客文本时间分布属性进行分析,计算博客文本时间间隔的规则性特征是指,使用层次聚类方法,对聚类中的簇进行熵计算,计算公式如下:
B e = - Σ i = 1 M p i log p i        p i = n i N
TSR = 1 - B e B max
其中:
Be:博客的熵;
Bmax:实际测量时所得到最大熵;
N:博客作者发表的博客文章总数;
M:聚类中簇的数量;
ni:博客文章的数量;
pi:第i个簇的概率;
TSR:博客文本的时间间隔分布结果。
CNA2008101209729A 2008-09-09 2008-09-09 一种垃圾博客检测方法 Pending CN101393555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101209729A CN101393555A (zh) 2008-09-09 2008-09-09 一种垃圾博客检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101209729A CN101393555A (zh) 2008-09-09 2008-09-09 一种垃圾博客检测方法

Publications (1)

Publication Number Publication Date
CN101393555A true CN101393555A (zh) 2009-03-25

Family

ID=40493851

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101209729A Pending CN101393555A (zh) 2008-09-09 2008-09-09 一种垃圾博客检测方法

Country Status (1)

Country Link
CN (1) CN101393555A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521369A (zh) * 2011-12-16 2012-06-27 山东师范大学 一种多视图网络垃圾页面检测方法
CN102694673A (zh) * 2011-03-25 2012-09-26 腾讯科技(深圳)有限公司 一种网络言论监控方法、设备及系统
CN102750345A (zh) * 2012-06-07 2012-10-24 山东师范大学 通过网页多视图数据关联组合识别垃圾网页的方法
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN102982047A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN103176984A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN103309851A (zh) * 2013-05-10 2013-09-18 微梦创科网络科技(中国)有限公司 短文本的垃圾识别方法及系统
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN104615705A (zh) * 2015-01-30 2015-05-13 百度在线网络技术(北京)有限公司 网页质量检测方法及装置
CN107423319A (zh) * 2017-03-29 2017-12-01 天津大学 一种垃圾网页检测方法
CN109460508A (zh) * 2018-10-10 2019-03-12 浙江大学 一种高效的垃圾评论用户群组检测方法
US10762155B2 (en) 2018-10-23 2020-09-01 International Business Machines Corporation System and method for filtering excerpt webpages
CN112070543A (zh) * 2020-09-10 2020-12-11 哈尔滨理工大学 一种电商网站中评论质量的检测方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102694673A (zh) * 2011-03-25 2012-09-26 腾讯科技(深圳)有限公司 一种网络言论监控方法、设备及系统
CN102890688B (zh) * 2011-07-22 2018-01-02 深圳市世纪光速信息技术有限公司 一种自动提交内容的检测方法以及装置
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN102982047A (zh) * 2011-09-07 2013-03-20 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN102982047B (zh) * 2011-09-07 2017-06-06 百度在线网络技术(北京)有限公司 一种对互动平台中的互动信息进行作弊检测的方法与设备
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN103164428B (zh) * 2011-12-13 2016-01-20 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN102521369B (zh) * 2011-12-16 2014-01-22 山东师范大学 一种多视图网络垃圾页面检测方法
CN102521369A (zh) * 2011-12-16 2012-06-27 山东师范大学 一种多视图网络垃圾页面检测方法
CN103176984A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN103176984B (zh) * 2011-12-20 2016-01-20 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN102750345A (zh) * 2012-06-07 2012-10-24 山东师范大学 通过网页多视图数据关联组合识别垃圾网页的方法
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103309851B (zh) * 2013-05-10 2016-01-27 微梦创科网络科技(中国)有限公司 短文本的垃圾识别方法及系统
CN103309851A (zh) * 2013-05-10 2013-09-18 微梦创科网络科技(中国)有限公司 短文本的垃圾识别方法及系统
CN104615705A (zh) * 2015-01-30 2015-05-13 百度在线网络技术(北京)有限公司 网页质量检测方法及装置
CN104615705B (zh) * 2015-01-30 2018-09-18 百度在线网络技术(北京)有限公司 网页质量检测方法及装置
CN107423319A (zh) * 2017-03-29 2017-12-01 天津大学 一种垃圾网页检测方法
CN107423319B (zh) * 2017-03-29 2020-07-03 天津大学 一种垃圾网页检测方法
CN109460508A (zh) * 2018-10-10 2019-03-12 浙江大学 一种高效的垃圾评论用户群组检测方法
CN109460508B (zh) * 2018-10-10 2021-10-15 浙江大学 一种高效的垃圾评论用户群组检测方法
US10762155B2 (en) 2018-10-23 2020-09-01 International Business Machines Corporation System and method for filtering excerpt webpages
CN112070543A (zh) * 2020-09-10 2020-12-11 哈尔滨理工大学 一种电商网站中评论质量的检测方法
CN112070543B (zh) * 2020-09-10 2023-04-07 哈尔滨理工大学 一种电商网站中评论质量的检测方法

Similar Documents

Publication Publication Date Title
CN101393555A (zh) 一种垃圾博客检测方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN101174273B (zh) 基于元数据分析的新闻事件检测方法
CN103049440B (zh) 一种相关文章的推荐处理方法和处理系统
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN102915335B (zh) 基于用户操作记录和资源内容的信息关联方法
CN102567494B (zh) 网站分类方法及装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN110298033A (zh) 关键词语料标注训练提取工具
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103593410A (zh) 通过替换概念性词语进行搜索推荐系统
CN101609450A (zh) 基于训练集的网页分类方法
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
CN102902806A (zh) 一种利用搜索引擎进行查询扩展的方法及系统
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN101706807A (zh) 一种中文网页新词自动获取方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090325