CN102929889B - 一种完善社区网络的方法和系统 - Google Patents

一种完善社区网络的方法和系统 Download PDF

Info

Publication number
CN102929889B
CN102929889B CN201110229793.0A CN201110229793A CN102929889B CN 102929889 B CN102929889 B CN 102929889B CN 201110229793 A CN201110229793 A CN 201110229793A CN 102929889 B CN102929889 B CN 102929889B
Authority
CN
China
Prior art keywords
webpage
keyword
similarity
benchmark
similarity value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110229793.0A
Other languages
English (en)
Other versions
CN102929889A (zh
Inventor
高燕
傅力
张震玮
张岩
孔亮
黄丛蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201110229793.0A priority Critical patent/CN102929889B/zh
Publication of CN102929889A publication Critical patent/CN102929889A/zh
Application granted granted Critical
Publication of CN102929889B publication Critical patent/CN102929889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种完善社区网络的方法和系统以及网页相似度计算方法和系统,网页相似度的计算方法包括如下步骤:提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。

Description

一种完善社区网络的方法和系统
技术领域
本发明主要涉及网络技术中的网络搜索技术领域,尤其涉及一种完善社区网络的方法和系统。
背景技术
随着互联网技术的不断发展,网络上的资源也越来越多。越来越多的用户从网络上搜索、筛选自己需要的数据。
因着网络上数据的飞速增长,导致用户需要在网络上耗费大量的时间检索自己所需要的数据。因而随之产生了社区服务,社区服务是指将包含类似或相关内容的网页有序的罗列在一起,例如BBS论坛、在线交友以及贴吧空间等。在社区服务的背后,需要计算机对海量的信息自动进行社区挖掘,而文本又是网页的主要内容,所以文本挖掘显得尤为重要。
文本挖掘的内容是以自然语言的形式呈现的,而复杂的自然语言是计算机所难以理解的,因此我们可以采用从网页中提取关键词的办法,来表达网页的大意。另外随着网络技术的发展,用户留在网络上的信息不仅包括访问记录和操作行为,还包括:用户为网络图片打上注释、评论所看到的文章、为访问过的页面打上标签等。带有用户鲜明个性的标签,已然为海量网页的呈现、组织和检索质量造成了显著的影响,因而网页标签足以对网络的自我组织产生决定性影响,所以本申请主要是基于网页标签来对网页内容进行检索,以完善社区网络的信息。
传统的基于标签进行信息检索,如图1所示,主要包括如下步骤:
S101:获得网络链路信息;
S103:通过所述网页链接信息,获得与其相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;
S105:提取用来表征所述网页的关键词信息;
S107:相似度分析:将所述关键词与进行搜索的基准关键词进行相似度分析,得到所述网页与基准为网页的相似度;
S109:网页筛选:当所述相似度满足一定条件时,将所述网页加入到社区中。
不难看出,标签作为关键词的扩展形式,由于其所含的信息量比较大。因而利用传统的文本挖掘技术时,不免影响对其进行准确的分析,尤其是当两个标签,其在自然语言中是意义相同的同义词,而在基于统计方法的文本挖掘中,可能会被直观的处理为毫无意义而正交的两个向量,这样轻率的判断无疑会很大程度上降低网络服务的质量。
发明内容
本申请提供了一种通过文本挖掘来完善社区网络的方法和系统。用以解决现有技术中,对于在自然语言中是意义相同的同义词的两个标签,可能会被处理为毫无意义而正交的两个向量,进而降低了社区网络服务质量的问题。
一方面,本发明通过本申请中的一个实施例,提供如下技术方案:
一种完善社区网络的方法,包括如下步骤:
获得网页链接信息;
通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;
获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;
将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;
将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值;
当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
可选的,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
可选的,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括:
将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。
可选的,所述至少一个第二关键词通过如下步骤获得:
搜集所述网页中的关键词信息,得到至少一个第三关键词;
对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词;
利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。
另一方面,本发明通过本申请中的另一实施例提供如下技术方案:
一种完善社区网络的系统,包括:
信息采集模块:用于获得网络链路信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;
关键词提取模块:用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;
网页特征信息获取模块:用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;
语义相似度获取模块:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
相似度分析模块:用于基于所述特征信息和所述语义相似度矩阵,获得所述网页与所述基准网页的第二网页相似度值;
筛选模块:用于当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
可选的,所述相似度分析模块,具体包括:
第一网页相似度获取模块:用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
第二网页相似度获取模块:用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
另一方面,本发明通过本申请中的另一实施例提供如下技术方案:
一种网页相似度计算方法,包括如下步骤:
提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;
将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;
将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
可选的,所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
可选的,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括:
将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值,即为所述网页相似度。
另一方面,本发明通过本申请中的另一实施例提供如下技术方案:
一种网页相似度计算系统,包括:
关键字提取模块:用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;
网页特征信息获取模块:用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;
语义相似度获取模块:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
相似度分析模块:用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
可选的,所述相似度分析模块,具体包括:
第一网页相似度获取模块:用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
第二网页相似度获取模块:用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
附图说明
图1:传统文本挖掘技术流程图;
图2:本申请实施例一中的完善社区流程图;
图3:本申请实施例二中的硬件环境图;
图4:实施例一中所举网页和基准网页的关键词深度和最短路径表;
图5:本申请实施例三中的相似度计算流程图;
图6:本申请实施例四中的相似度计算系统硬件环境图。
具体实施方式
为了使本申请所属技术领域中的技术人员更清楚地理解本发明,下面结合附图,通过具体实施例对本发明技术方案作详细描述。
请参考图2、图4,本申请实施例一种完善社区网络的方法,包括如下步骤:
S201:获取网页链接信息,社区网络服务器的数据搜索系统,通过各搜索引擎,获得网络中各个包含各种信息的网页链接信息;
S203:通过所述网络链路信息,即可以得到与之相对应的网页,除了与之向对应的网页外,还可以包括访问过所述网页链接信息的用户设置的标签信息;
S205:提取用来表征所述网页的至少一个关键词,所提取的至少一个关键词至少包含一个第一关键词,用来与所述标签信息相对应;
所述关键词还包含至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
在具体实施过程中,所述的第二关键词可以通过如下步骤获得:
搜集所述网页中的关键词信息,得到至少一个第三关键词;
对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词;
利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。
假设经过上述三个步骤,如图1所示,用来表征3个网页A、B、C的关键字分别为:
A:列车脱轨
B:开车时刻
C:追尾事故
基准网页(记为S):动车:深度11;事故:深度14。
在具体实施过程中,所述网页的关键词可以是多个,为了简化计算,在本申请实施例中列举采用两个关键词的形式。
S207:将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;
对于获得网页的特征信息,在具体实施过程中,又分为如下两步:
对所述至少一个关键词和所述基准关键词分别进行TF-IDF加权处理,并得到与所述至少一个关键词和所述基准关键词对应的多个向量;
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索的常用加权技术。它作为一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的基本原理为,在一份给定的文件中,词频(Term Frequency)指的是某一个目标词Wi在该文件Dj中出现的次数ni,j,而为了避免长文件带来的影响,TF经常需要被做归一化处理,因此:
而反文档频率(Inverse Document Frequency)是一个词语普遍重要性的度量。例如在单词“the”、“and”等其出现文档频率高但是却不具有显著意义。某一个特定的词语的IDF可以由总文件数目除以包含该词语之文件的数目,接着再对商取对数以减小数据大小鸿沟:
其中|D|为总文件数,最后,TFIDFi,j=TFi,j*IDFi
假设总共有40篇文档,而甲中词A出现了1次,词B出现了2次,文档乙中词A出现了2次,而词B出现了0次。同时,词A在文档集的20个文档出现过,词B在10个文档出现过。那么文档甲中,计算词A的TF时,ni,j为1,词B为2,而文档乙中词A的ni,j为2,词B为0。每个词IDF的IDF值则是固定的,词A为log2,词B为log4。即词B拥有更强的特异性及代表性。
对所述多个向量进行余弦相似度分析,得到一个余弦相似度值,所述余弦相似度值即为所述特征信息。
关键词特征经过向量空间模型下按照TF或者TF-IDF的加权,每个网页成功地用一个向量表示出来之后,我们进一步地定义两个网页之间的相似度。
设网页A被表示为向量网页B被表示为向量那么A和B之间的相似度通常通过两个向量之间的余弦相似度来表示:
其中,N为向量的维数,而ak和bk分别对应向量中第k个特征项的权值,在几何上,它表示向量之间夹角的余弦值。余弦相似度广泛应用在向量空间模型下的相似度计算。
在上述例子中,假设文档甲和乙只拥有词A和B,那么他们的余弦相似度计算如下,sim=[(1/3)*(2/2)+(2/3)*(0/2)]/(5/9)1/2。
S209:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度矩阵;
其基本步骤如下:
首先将所述关键词映射到将WordNet语义树中,得到与所述至少一个关键词的一个对应关系;在具体实施过程中,所述的WordNet语义树是是一个庞大的数据结构,将概念按照同义关系、反义关系、上位关系、下位关系、部分关系以及完全关系等多种语义关系组织起来。
根据所得到的对应关系,即可得到所述网页的关键词数据和基准关键词的在WordNet语义树中的最短路径和最深深度;
假设经过上述两个步骤,如表1所示,用来表征3个网页A、B、C的关键字分别为的深度分别为(其中表1中每个关键字括号内的数字表示该关键字在语义树上的深度):
A:列车:10;脱轨:15;
B:开车:10;时刻:14;
C:追尾:15;事故:14;
基准网页(记为S):动车:11;事故:14。
如表1所示,每个关键词后面括号内的数字即表示这个关键词的深度,两个关键词交叉处的表格即表示这两个关键字的最短路径。
那么即可根据关键词相似度计算式:
计算出所述网页关键词和基准网页关键词的相似度。
其中len(π1,π2)表示这两个关键词所对应的节点π1,π2的最短路径,而depth(π)则表示着π节点的深度。
在本实施例中,用前面所述的将网页A、B及C所述的关键词和基准网页关键词进行语义相似度分析,计算出所述网页A和基准网页中的各个关键词之间的语义相似度,分别记为:
在求出所述网页与基准网页的关键词语义相似度后,即可基于此关键词语义相似度值,求出网页与基准网页的语义相识度。其基本过程为:对于网页Γ1和网页Γ2,假设他们覆盖了n个关键词,将该n个关键词特征按特定的顺序(字典序)排列,则在向量空间模型下两个网页对应的向量都是n维的,分别为v1和v2。紧接着,我们定义n×n的相似度矩阵如下:
其中,且δ(πi)是一个布尔函数,
对于πi∈WordNet的时候,它的取值是0,反之,δ(πi)的取值为1。
由关键词语义相似度的计算公式可以看出,除了关键词不在WordNet节点概念中出现的情况,大多数关键词之间就算意义相差再远,也是存在非零的相似度的。即使这些关键词之间的相似度很低,但是量变引起质变,随着数量的积累也对最后网页间的相似度计算造成很明显的干扰。于是在我们的方法中调节了关键词相似度矩阵中非零值的阈值,即当两个关键词Tp和Tq间的相似度低于某个阈值σ的时候,便视其为无关关键词,在矩阵中对应的位置spq和sqp都置为零。
在本实施例中,将阈值σ的值设为0.1,即当两个关键词Tp和Tq的语义相似度小于0.1时,即可将其设为0。
那么我们可以分别得出网页A、B、C和基准网页S的相似矩阵为:
将小于0.1的位的值置0,则,
由此,我们可以容易地给网页Γ1和网页Γ2之间的相似度做出如下的定义:
则可根据此公式,分别计算出网页A、B、C和基准网页的语义相似度。
S211:基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值;
所述基准网页的第二网页相似度特征具体通过如下方法获得:
将所述语义相似度值引入到所述特征信息中,也即将每个关键词当做一维特征向量,其权值当做特征值。对所述特征信息进行一个补充,得到第一网页相似度值;
对所述第一网页相似度值进行聚类分析,这里做聚类分析,是依据上面得到到的第一网页相似度值,通过传统的聚类算法,将相似的网页聚拢。如上述A,B,C三个网页,A,B会被聚到一类,而C则单独成为一类。得到所述第二网页相似度值。
聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更强的相似性。
本申请中实施例中所采用的聚类分析方法是K-means算法(K均值算法),当然其它聚类分析算法也可以用于本申请所涉及的技术方案。K-means算法的流程为:
1.需要确定k个初始中心点,中心点的设置不同,会导致最后的聚类结果有可能不同。较好的选择是使得k个中心点尽量远离彼此
2.设置好中心点之后,将其他各点分别与各个中心点进行相似度计算,由此划归到各点最邻近的中心点所定义的类中,这样就把所有的点分到了k个类别中。
3.接着,根据分好的类别重新计算新的中心点,一般是将整个类别各点的平均值作为新的中心点。
4.重复上面的过程,直至中心点收敛到一个稳定的状态,即获得最终的聚类结果。
S213:当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
请参考图3,本申请实施例二提供了一种完善社区网络的系统,包括如下部分:
S301:信息采集模块。用于获取网页链接信息,并在获得所述网络链路接信息的情况下,获取与所述链接信息相对应的网络。
S303:关键词提取模块。用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;
所述关键词提取模块具体包括:
关键词搜集单元:用于搜集所述网页中的关键词信息,得到至少一个第三关键词;
关键词过滤单元:用于对所述至少一个第三关键词进行过滤处理,得到一个至少第四关键词;
网页特征分析单元:用于利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。
S305:网页特征信息获取模块:用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;
所述网页特征信息获取模块又包括如下部分:
TF-IDF加权单元:用于对所述至少一个关键词和所述基准关键词分别进行TF-IDF加权处理,并得到与所述至少一个关键词和所述基准关键词对应的多个向量;
余弦相似度分析单元:用于对所述多个向量进行余弦相似度分析,得到一个余弦相似度值,所述余弦相似度值即为所述特征信息。
S307:语义相似度获取模块:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度矩阵;
所述语义相似度获取模块又包括:
WordNet树映射单元:用于将所述至少一个关键词特征映射到WordNet语义树中,得到与所述至少一个关键词的一个对应关系;
关键词语义相似度分析单元:用于所述对应关系,分析节点间的距离,得到所述至少一个关键词的语义相似度;
网页语义相似度分析单元:用于基于所述至少一个关键词的语义相似度进行扩展,得到所述网页的语义相似度;
语义相似度矩阵生成单元:用于将所述网页的语义相似度转换为所述网页的语义相似度矩阵。
S309:相似度分析模块:用于基于所述特征信息和所述语义相似度矩阵,获得所述网页与所述基准网页的第二网页相似度值;
所述相似度分析模块又包括:
第一网页相似度获取模块:用于将所述语义相似度矩阵引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
第二网页相似度获取模块:用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
S311:筛选模块:用于当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
请参考图5,本申请实施例三提供了一种网页相似度计算方法,包括如下步骤:
S501:提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;
S503:将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;
S505:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
S507:基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
本申请人认为,基于本申请实施例一,本领域技术人员完全能够通过上述步骤,实现对网页相似度的计算,所以不再详加描述。
请参考图6,本申请实施例三提供了一种网页相似度计算系统,包括如下步骤:
S601:关键字提取模块:用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;
S603:网页特征信息获取模块:用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;
S605:语义相似度获取模块:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
S607:相似度分析模块:用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
本申请人认为,基于本申请实施例二,本领域技术人员完全能够通过上述步骤,实现网页相似度系统的设计,所以不再详加描述。
通过本发明的实施例一、二、三、四中的一个或多个实施例,可以实现如下技术效果:
在传统的文本挖掘中引入语义分析,使某些在自然语言上是语义相同的同义词,而在基于统计方法的文本挖掘中却被直观地处理为毫无关系而正交的两个特征的词,不会草率的被处理为毫不相关的两个词,从而提高了文本挖掘的准确性。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种完善社区网络的方法,其特征在于,包括:
获得网页链接信息;
通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;
获得用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;
将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为社区网络中已经有的基准网页对应的关键词;
将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
基于所述特征信息和所述语义相似度值,通过聚类分析获得所述网页与所述基准网页的第二网页相似度值;
当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
2.如权利要求1所述的方法,其特征在于,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
3.如权利要求1或2所述的方法,其特征在于,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括:
将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。
4.如权利要求2所述的方法,其特征在于,所述至少一个第二关键词通过如下步骤获得:
搜集所述网页中的关键词信息,得到至少一个第三关键词;
对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词;
利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。
5.一种完善社区网络的系统,其特征在于,包括:
信息采集模块:用于获得网页链接信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;
关键词提取模块:用于获得用来表征所述网页的特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;
网页特征信息获取模块:用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为社区网络中已经有的基准网页对应的关键词;
语义相似度获取模块:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
相似度分析模块:用于基于所述特征信息和所述语义相似度值,通过聚类分析获得所述网页与所述基准网页的第二网页相似度值;
筛选模块:用于当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
6.如权利要求5所述的系统,其特征在于,所述相似度分析模块,具体包括:
第一网页相似度获取模块:用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
第二网页相似度获取模块:用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
7.一种网页相似度计算方法,其特征在于,包括:
提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;
将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为社区网络中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;
将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。
8.如权利要求7所述的方法,其特征在于,所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。
9.如权利要求7或8所述的方法,其特征在于,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括:
将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值,即为所述网页相似度。
10.一种网页相似度计算系统,其特征在于,包括:
关键字提取模块:用于获得用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;
网页特征信息获取模块:用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为社区网络中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;
语义相似度获取模块:将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;
相似度分析模块:用于基于所述特征信息和所述语义相似度值,通过聚类分析获得所述网页与所述基准网页的第二网页相似度值。
11.如权利要求10所述的系统,其特征在于,所述相似度分析模块,具体包括:
第一网页相似度获取模块:用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;
第二网页相似度获取模块:用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。
CN201110229793.0A 2011-08-11 2011-08-11 一种完善社区网络的方法和系统 Active CN102929889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110229793.0A CN102929889B (zh) 2011-08-11 2011-08-11 一种完善社区网络的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110229793.0A CN102929889B (zh) 2011-08-11 2011-08-11 一种完善社区网络的方法和系统

Publications (2)

Publication Number Publication Date
CN102929889A CN102929889A (zh) 2013-02-13
CN102929889B true CN102929889B (zh) 2017-08-25

Family

ID=47644688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110229793.0A Active CN102929889B (zh) 2011-08-11 2011-08-11 一种完善社区网络的方法和系统

Country Status (1)

Country Link
CN (1) CN102929889B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US7676465B2 (en) * 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
云颖等.基于网页内容相似度和链接关系的社区发现及动态添加.《郑州大学学报(理学版)》.2011,第43卷(第1期), *
融合网页标签的增强型网页聚类算法;尹少春;《2010全国文档信息处理学术会议论文集》;20111031;109-112 *

Also Published As

Publication number Publication date
CN102929889A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN103631794B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
US20130297827A1 (en) Method and server for intelligent categorization of bookmarks
CN104239373B (zh) 为文档添加标签的方法及装置
CN103455487B (zh) 一种搜索词的提取方法及装置
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
Hayes Using tags and clustering to identify topic-relevant blogs
Alghamdi et al. Topic detections in Arabic dark websites using improved vector space model
Man Feature extension for short text categorization using frequent term sets
Prajapati A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining
Song et al. Hierarchical tag visualization and application for tag recommendations
Zhou et al. An iterative method for personalized results adaptation in cross-language search
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
CN106776910A (zh) 一种搜索结果的显示方法及装置
Watanabe et al. A paper recommendation mechanism for the research support system papits
JP4534019B2 (ja) 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
CN102929889B (zh) 一种完善社区网络的方法和系统
El-Hajj et al. An optimal approach for text feature selection
Zhao et al. A search result ranking algorithm based on web pages and tags clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant