CN103744918A - 基于垂直领域的微博搜索排序方法及系统 - Google Patents
基于垂直领域的微博搜索排序方法及系统 Download PDFInfo
- Publication number
- CN103744918A CN103744918A CN201310737940.4A CN201310737940A CN103744918A CN 103744918 A CN103744918 A CN 103744918A CN 201310737940 A CN201310737940 A CN 201310737940A CN 103744918 A CN103744918 A CN 103744918A
- Authority
- CN
- China
- Prior art keywords
- microblog
- weight
- domain
- existing
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000003205 fragrance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于垂直领域的微博搜索排序方法及系统,其中的方法包括:获取现有微博中每条微博的领域相关度、每个微博用户的粉丝数权重、每条微博的被关注权重、微博用户的类型权重、每条微博的时间权重,然后将获取的领域相关度、粉丝数权重、被关注权重、类型权重和时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。通过本发明能够更加准确有效地提取人们对某一领域中的事物的观点和看法。
Description
技术领域
本发明涉及数据挖掘技术领域,更为具体地,涉及一种基于垂直领域的微博搜索排序方法及系统。
背景技术
传统的Web网页是人们寻找信息的资源库,而作为信息获取、分享以及传播平台的微博,其每天所产生的海量的数据信息,则体现着人们对各类新闻、事件以及事物的看法,用户可以随时随地通过电脑、手机等设备更新信息并实现信息的即时分享。微博以其短小精悍、数量大且更新快的特点,获取了庞大的用户群及较高的用户活跃度。
如上所述,微博可以体现人们对客观世界的舆论倾向,因此,其正逐渐成为一种发掘用户观点的可靠的信息来源的手段。要发掘用户的观点,就需要对微博进行搜索排序,现有的微博搜索排序技术有以下几种:
一、直接以时间为依据进行搜索排序。
距当前时间越近的越靠前,这种搜索排序方式过于粗糙,甚至都没有考虑与关键词的相关度。
二、结合了微博作者的影响力与微博时间两个因素。
影响力的计算类似于利用PageRank算法,所有人都设定一个初始影响力,每个人的影响力都由他的粉丝的影响力加权决定,然后开始迭代运算,直至结果稳定。然而,这种算法存在多个弊端:
首先,没有考虑到僵尸粉(即不是由真正的自然人,而是机器控制的账号)的干扰;
其次,微博用户数量过于庞大,关系网非常复杂,运算量太大,即使利用分布式运算,也无法避免由于大量僵尸粉的存在,导致用户的粉丝数在不断地快速变化之中,从而无法实时计算用户的影响力。
因此,如何处理用户粉丝数也是一个需要考虑的问题。
三、综合几种因素对微博进行搜索排序。
其中的因素包括相关度、时间、评论词等,比如:与关键字越相关、距当前时间越近、微博内容中对于关键字评论词越多的微博在排序中越靠前。
通过这种搜索排序方式,有观点态度的微博会被排在前面,但是它没有考虑到用户或者是微博本身的影响力。也就是说,如果一个粉丝数很少的用户发了一条很带有个人情感色彩的微博,即便这条微博也就只有很少的人看到,甚至这条微博都没有人评论或转发过,通过这种搜索排序方式也有可能排在前面。然而,这条微博仅仅只是代表了个人的观点,毫无影响力而言,而微博用户通常想要的是大多数人的意见,并不是某个人情感发泄。因此,微博的影响力也应该成为排序的因素之一。
另外,微博上的大V用户(所谓的大V用户即粉丝数通常在百万甚至千万级别,即使去掉可能的僵尸粉,真实粉丝依然非常多的用户),他们的微博通常会获取很多人的关注、评论或者转发,他们的观点通常不用搜索,就可能已经获悉。然而,大多数人都是普通大众,微博用户更关心的是大多数普通大众的意见,因此,普通大众的权重也应该提高。
针对上述现有微博搜索排序技术中存在的缺陷,如何能更加准确有效地提取大众用户的观点,成为亟待解决的问题。
发明内容
鉴于上述问题,本发明的目的是提供一种基于垂直领域的微博搜索排序方法及系统,以实现准确有效地提取大众用户的观点。
根据本发明的一个方面,提供一种基于垂直领域的微博搜索排序方法,根据现有微博中每条微博的领域相关度、被关注权重、时间权重、每个微博用户的粉丝数权重以及每一类型的微博用户的类型权重,对现有微博进行排序;其中,
根据确定的垂直领域,搜集垂直领域内的领域词汇,并计算在现有微博中垂直领域内每个领域词汇的词频;
对所计算出的每个领域词汇的词频进行拟合,获取现有微博中垂直领域内每个领域词汇的权重;
根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度;
对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重;
根据现有微博中每条微博的发表时间,计算所述微博的时间权重;
通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重;以及,
通过统计现有微博用户的类型,获取类型的微博用户的类型权重;
将领域相关度、粉丝数权重、被关注权重、类型权重和时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
其中,在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中垂直领域内每个领域词汇的权重的过程中,计算相同词频的领域词汇在所有领域词汇中所占的比例;对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;对每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
另一方面,本发明提供一种基于垂直领域的微博搜索排序系统,包括:领域相关度获取单元、被关注权重获取单元、时间权重计算单元、粉丝数权重获取单元、类型权重获取单元和搜索排序单元;其中,
领域相关度获取单元,用于根据确定的垂直领域,搜集垂直领域内的领域词汇,并计算在现有微博中垂直领域内每个领域词汇的词频,然后对所计算的每个领域词汇的词频进行拟合,获取现有微博中垂直领域内每个领域词汇的权重,接着根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度;
被关注权重获取单元,用于对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重;
时间权重计算单元,用于根据现有微博中每条微博的发表时间,计算每条微博的时间权重;
粉丝数权重获取单元,用于通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重;
类型权重获取单元,用于通过统计现有微博用户的类型,获取类型的微博用户的类型权重;
搜索排序单元,用于将领域相关度获取单元所获取的领域相关度、被关注权重获取单元所获取的被关注权重、时间权重计算单元所计算的时间权重、粉丝数权重获取单元所获取的每个微博用户的粉丝数权重,以及类型权重获取单元所获取的每一类型的微博用户的类型权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
其中,词汇权重获取单元在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中垂直领域内每个领域词汇的权重的过程中,计算相同词频的领域词汇在所有领域词汇中所占的比例;对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
利用上述根据本发明的基于垂直领域的微博搜索排序方法及系统,将领域相关度、粉丝数权重、微博的被关注度、时间权重和用户类型权重都纳入搜索排序的计算范围。其中,领域相关度保证了搜索结果的准确性,粉丝数权重、微博的被关注度和时间权重三者共同确保了搜索结果的有效性,而用户类型权重则更倾向于展现大众用户的观点,因此通过将领域相关度、粉丝数权重、微博的被关注度、时间权重和用户类型权重纳入搜索排序的计算范围,能够更加准确有效地提取大众用户的观点。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于垂直领域的微博搜索排序方法的流程示意图;
图2为根据本发明实施例的在垂直领域内所搜集到的所有领域词汇的词频分布示意图;
图3为根据本发明实施例的基于垂直领域的微博搜索排序系统逻辑结构框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
以下将结合附图对本发明的具体实施例进行详细描述。
针对前述现有的微博搜索排序不能更有针对性地将大众用户的观点展现出来的问题,本发明通过将领域相关度、粉丝数权重、微博的被关注权重、时间权重和用户类型权重都纳入搜索排序的计算范围,从而能够更有针对性且更有效地展现普通大众的观点。
需要说明的是,垂直领域是指某一个特定的行业,例如饮食、购物、旅游等行业。而垂直搜索即是针对某一个行业提供特定服务的专业搜索,是一般通用搜索的细分和延伸,具有很强的行业色彩。它与通用搜索最大的区别在于,它只提供特定领域的相关查询。
要提供特定领域的搜索,必须要先了解该行业的专有词汇,以及与其相关的一些评价词汇。而领域词汇即指的是某个行业的专有词汇,以及与该专有词汇相关的一些评价词汇。例如美食领域的菜名、店名,以及相应的对菜的色、香、味的评价词,对店家的环境、服务的评价词等等。领域词汇可以从网上抓取,例如维基百科,或强领域相关的网站如大众点评网等。
为了说明本发明所提供的基于垂直领域的微博搜索排序方法,图1示出了根据本发明实施例的基于垂直领域的微博搜索排序方法的流程。
如图1所示,本发明提供的基于垂直领域的微博搜索排序方法根据现有微博中每条微博的领域相关度、被关注权重、时间权重、每个微博用户的粉丝数权重以及每一类型的微博用户的类型权重,对现有微博进行排序;其中,具体步骤如下:
S110:根据确定的垂直领域,搜集垂直领域内的领域词汇,并计算在现有微博中垂直领域内每个领域词汇的词频。
需要说明的是,本发明中所说的现有微博是指:一个微博平台中所有微博用户已经发表的微博。例如在新浪微博注册的所有用户所发表的微博。
其中,可以利用MapReduce的并行化处理方式,并行计算所搜集到的垂直领域内的领域词汇在现有微博中所出现的频率。
另外,需要说明的是,利用MapReduce的并行化处理方式,并行计算在现有微博中垂直领域内每个领域词汇的词频的方法属于公知常识,本领域的技术人员都应当知晓,这里不再赘述。
S120:对所计算出的每个领域词汇的词频进行拟合,获取现有微博中垂直领域内每个领域词汇的权重。
其中,在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中垂直领域内每个领域词汇的权重的过程中,计算相同词频的领域词汇在所有领域词汇中所占的比例;对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;对每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
具体地,设在某个垂直领域内,例如餐饮行业,所搜集到的领域词汇的总个数为N,词频为n的领域词汇的个数为C(n),令R(n)=C(n)/N,其中,R(n)则表示词频为n的领域词汇在所有领域词汇中所占的比例。图2则示出了根据本发明实施例的在垂直领域内所搜集到的所有领域词汇的词频分布。从图2可以看出,词频的分布呈现长尾分布的趋势,即出现频率较高的领域词汇(即主要部分)呈集中趋势,且主要部分不会集中在头尾部分。对于不同的垂直领域,形态可能会有些不同,但是长尾分布的趋势不会改变。
对所计算的R(n)取负对数即可得到g1(n)=-log2(R(n)),其中,g1(n)则表示每个领域词汇的词频的直接权重。利用函数拟合方法,如最小二乘法将主要部分拟合得到分段函数。其中,利用函数拟合的方法如下所示:
通过上述能够看出,领域词汇的词频越大,即在现有微博中出现的次数越多的领域词汇,其权重相应的越高,但词频高低的差距并不代表领域词汇的权重的差距,因为通过归一化之后,领域词汇的权重差距已经被压缩在了一个很小的范围之内了。
S130:根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度。
其中,在根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度的过程中,对现有微博中每条微博所包含的领域词汇的权重进行相加,获取现有微博中每条微博的领域相关度。
具体地,将所有的领域词汇集合称之为U,对每一条微博,对其进行分词后的词语集合为I,ni为词语i对应的词频,对其中所包含的所有领域词汇的权重相加,得到这条微博的领域相关度,即其中,f1即代表每条微博的领域相关度,而f(ni)则表示每条微博所包含的领域词汇的权重。
S140:通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重。
其中,在通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重的过程中,计算粉丝数相同的微博用户在现有微博用户中所占的比例;对所计算的粉丝数相同的微博用户在现有微博用户中所占的比例取负对数,获取每个微博用户的粉丝数的直接权重;对每个微博用户的粉丝数的直接权重进行归一化,获取每个微博用户的粉丝数权重。
具体地,先统计现有微博用户中每个微博用户的粉丝数的分布情况,得到长尾分布曲线,再通过取负对数变换到一个更小的范围上,然后再进行拟合得到函数g2(p),然后再对g2(p)进行归一化,得到每个微博用户的粉丝数权重:其中,f2(p)代表的是粉丝数为p的微博用户的粉丝数权重,g2(p)代表的是每个微博用户的粉丝数的直接权重。
需要说明的是,在先统计现有微博用户中每个微博用户的粉丝数的分布情况,得到长尾分布曲线,再通过取负对数变换到一个更小的范围上,然后再进行拟合得到函数g2(p),然后再对g2(p)进行归一化,得到每个微博用户的粉丝数权重的过程与上述获取每个领域词汇的权重的过程一致,这里就不再详细赘述。
通过获取每个微博用户的粉丝数的权重能够看出,用户的粉丝数权重与粉丝数正相关。实际上由于大量僵尸粉的存在,使得粉丝数多的用户并一定代表被关注的程度高,它只能侧面反映出粉丝数多的人发出的微博被看到的可能性要高一些。在这里,粉丝数权重同样也被压缩到一个很小的范围,另外,再计算综合权重的时候,可以将其系数相应的减小,从而再次将粉丝数的权重压低。
S150:对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重。
其中,在对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重的过程中,计算被关注度相同的微博在现有微博中所占的比例;对所计算的被关注度相同的微博在现有微博中所占的比例取负对数,获取每条微博的被关注度的直接权重;对每条微博的被关注度的直接权重进行归一化,获取每条微博的被关注权重。
经过大量的统计发现,绝大多数的微博评论数或者转发数为0,或者这个数值非常小,单独统计将会失去意义,并且评论和转发都代表着其它用户对该条微博的一个关注度,加起来统计代表了微博的被关注程度。
具体地,令评论数+转发数(即被关注度为q)。与获取每个用户的粉丝数权重的过程一样,先统计现有微博中每条微博的被关注的分布情况,得到长尾分布曲线,再通过取负对数变换到一个更小的范围上,然后再进行拟合得到函数g3(q),然后再对g3(q)进行归一化,得到每条微博的被关注权重:其中,f3(q)代表的是被关注度为q的微博的被关注权重,g3(q)代表的是每条微博的被关注度的直接权重。实际上,q值越大,得到的f3(q)也越大。
S160:通过统计现有微博用户的类型,获取该类型的微博用户的类型权重。
也就是说,通过统计现有微博用户的类型,获取的是每一类型的微博用户的类型权重。其中,根据某个类型的微博用户的个数在现有微博用户中所占的百分比,获取该类型的微博用户的类型权重。例如,类型为普通大众的微博用户的个数为300,现有微博用户有1000,则类型为普通大众的微博用户的类型权重为30%。
由于每个微博用户一般都会有相对应的类型,如新浪微博将用户划分为13种不同的类型:普通大众、名人、政府、企业、媒体、机构、网站、应用、公益、未知、微博女郎、达人、会员等,腾讯微博分为个人、政府、媒体、企业、网站、应用等。因此,不同类型的用户在所有微博用户中所占的比例是不同的。
一般来说,普通大众所占的比例要高于其它用户类型,而搜索的目的也正是要获得大众化的意见。因此,从上述公式能够反映出普通大众的权重相对较高,能够达到搜索的要求。
S170:根据现有微博中每条微博的发表时间,计算每条微博的时间权重。
由于微博的时效性非常强,因此每条微博的时间权重会随着时间的流逝逐渐变小,
具体地,在根据现有微博中每条微博的发表时间,计算所述微博的时间权重的过程中,通过如下公式进行计算:
f5(t)=D-(now-t),当f5(t)<0时,f5(t)=0
其中,f5(t)为现有微博中每条微博的时间权重,D为预设的有效天数,now为当前时间,t为微博发表的时间。
S180:将每条微博的领域相关度、每个微博用户的粉丝数权重、每条微博的被关注权重、微博用户的类型权重和每条微博的时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
具体地,令每条微博的领域相关度、每个微博用户的粉丝数权重、每条微博的被关注权重、微博用户的类型权重和每条微博的时间权重分别乘以预先分配的权重系数,然后再进行相加所得的结果为F,那么F=a1f1+a2f2(p)+a3f3(q)+a4f4(c)+a5f5(t)
其中a1+a2+a3+a4+a5=1,它们分别为每条微博的领域相关度、每个微博用户的粉丝数权重、每条微博的被关注权重、微博用户的类型权重和每条微博的时间权重的系数,其用于调节每个因素所占的比例。
一般来说,领域相关度保证了搜索结果符合垂直领域的范围要求,被关注度则代表了微博的被关注程度,这两个因素的权重系数应高于其它因素的权重系统;用户类型使得粉丝数多的人并不一定代表了普通大众的观点,时间权重则会使得最近一段时间的微博优先展现;因此,粉丝数权重应当最小,在其它因素都差不多的时候,粉丝数高的相对来说传播范围会更广。
通过图1所示的流程能够看出,本发明所提供的基于垂直领域的微博搜索排序方法能够更加准确有效地提取大众用户的观点。
在本发明所提供的基于垂直领域的微博搜索排序方法中,还需要说明以下几点:
1、在本发明中多次用到了函数拟合。为了使本发明所提供的微博搜索排序效率更高,可对函数拟合的方法进行独立优化,并且可离线完成对相同词频的领域词汇在所有领域词汇中所占的比例、粉丝数相同的微博用户在现有微博用户中所占的比例和被关注度相同的微博在现有微博中所占的比例的计算工作。
对于所计算出的结果,其在一段时间内不会有太大的变化,对应拟合出来的公式也不会有太大变化,因此在归一化的公式中,分母部分的求和可以认为是一个常数,可以周期性的对其进行计算、拟合和归一化。
2、对于用户类型,从实际来看,其分布(即某种用户类型在所有用户中所占的比例)更加稳定,几乎可以认为各种类型用户所占的比例为一个常数,可以在一个更长的时间周期内去重新统计。
3、领域相关度只有在领域词汇发生变动的时候才有可能变化,在统计周期内,领域相关度可以在微博产生的时候便计算好。
4、所有的计算任务均可利用MapReduce的思想并行化完成,从而极大地提高运算效率。
5、换一个垂直领域只需替换领域词库,重新分布式批量计算微博领域相关度即可。
与上述方法相对应,本发明提供一种基于垂直领域的微博搜索排序系统。图3示出了根据本发明实施例的基于垂直领域的微博搜索排序系统逻辑结构。
如图3所示,本发明所提供的基于垂直领域的微博搜索排序系统300包括领域相关度获取单元310、粉丝数权重获取单元320、被关注权重获取单元330、类型权重获取单元340、时间权重计算单元350和搜索排序单元360。
其中,领域相关度获取单元310用于根据确定的垂直领域,搜集垂直领域内的领域词汇,并计算在现有微博中垂直领域内每个领域词汇的词频,然后对所计算的每个领域词汇的词频进行拟合,获取现有微博中垂直领域内每个领域词汇的权重,接着根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度。
其中,在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中垂直领域内每个领域词汇的权重的过程中,计算相同词频的领域词汇在所有领域词汇中所占的比例;对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
具体地,领域相关度获取单元310在根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度的过程中,对现有微博中每条微博所包含的领域词汇的权重进行相加,获取现有微博中每条微博的领域相关度。
粉丝数权重获取单元320用于对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重。
其中,粉丝数权重获取单元320在通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重的过程中,计算粉丝数相同的微博用户在现有微博用户中所占的比例;对所计算的粉丝数相同的微博用户在现有微博用户中所占的比例取负对数,获取每个微博用户的粉丝数的直接权重;对每个微博用户的粉丝数的直接权重进行归一化,获取每个微博用户的粉丝数权重。
被关注权重获取单元330用于对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重。
其中,被关注权重获取单元330在对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重的过程中,计算被关注度相同的微博在现有微博中所占的比例;对所计算的被关注度相同的微博在现有微博中所占的比例取负对数,获取每条微博的被关注度的直接权重;对每条微博的被关注度的直接权重进行归一化,获取每条微博的被关注权重。
类型权重获取单元340用于统计现有微博用户的类型,获取该类型的微博用户的类型权重。
其中,根据某个类型的微博用户的个数在现有微博用户中所占的百分比,获取该类型的微博用户的类型权重。例如,类型为普通大众的微博用户的个数为300,现有微博用户有1000,则类型为普通大众的微博用户的类型权重为30%。
时间权重计算单元350用于根据现有微博中每条微博的发表时间,计算每条微博的时间权重。
其中,时间权重获取单元350在根据现有微博中每条微博的发表时间,计算每条微博的时间权重的过程中,通过如下公式进行计算:
f5(t)=D-(now-t),当f5(t)<0时,f5(t)=0
其中,f5(t)为现有微博中每条微博的时间权重,D为预设的有效天数,now为当前时间,t为微博发表的时间。
搜索排序单元360用于将领域相关度获取单元310所获取的领域相关度、粉丝数权重获取单元320所获取的每个微博用户的粉丝数权重、被关注权重获取单元330所获取的被关注权重、类型权重获取单元340所获取的每一类型的微博用户的类型权重,以及时间权重计算单元330所计算的时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
通过上述实施例的描述能够看出,本发明提供的基于垂直领域的微博搜索排序方法及系统通过将领域相关度、粉丝数权重、微博的被关注权重、时间权重和用户类型权重都纳入搜索排序的计算范围,充分考虑现有微博中的相关参数信息,其中,领域相关度保证了搜索结果的准确性,粉丝数权重、微博的被关注度和时间权重三者共同确保了搜索结果的有效性,而用户类型权重则更倾向于展现大众用户的观点,从而能够更加准确有效地提取大众用户的观点。
如上参照附图以示例的方式描述了根据本发明的基于垂直领域的微博搜索排序方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于垂直领域的微博搜索排序方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (10)
1.一种基于垂直领域的微博搜索排序方法,根据现有微博中每条微博的领域相关度、被关注权重、时间权重、每个微博用户的粉丝数权重以及每一类型的微博用户的类型权重,对现有微博进行排序;其中,
根据确定的垂直领域,搜集所述垂直领域内的领域词汇,并计算在现有微博中所述垂直领域内每个领域词汇的词频;
对所计算出的每个领域词汇的词频进行拟合,获取现有微博中所述垂直领域内每个领域词汇的权重;
根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度;
对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重;
根据现有微博中每条微博的发表时间,计算所述微博的时间权重;
通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重;以及,
通过统计现有微博用户的类型,获取所述类型的微博用户的类型权重;
将所述领域相关度、粉丝数权重、被关注权重、类型权重和所述时间权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
2.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中所述垂直领域内每个领域词汇的权重的过程中,
计算相同词频的领域词汇在所有领域词汇中所占的比例;
对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;
对每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
3.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度的过程中,
对现有微博中每条微博所包含的领域词汇的权重进行相加,获取现有微博中每条微博的领域相关度。
4.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重的过程中,
计算粉丝数相同的微博用户在现有微博用户中所占的比例;
对所计算的粉丝数相同的微博用户在现有微博用户中所占的比例取负对数,获取每个微博用户的粉丝数的直接权重;
对每个微博用户的粉丝数的直接权重进行归一化,获取每个微博用户的粉丝数权重。
5.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重的过程中,
计算被关注度相同的微博在现有微博中所占的比例;
对所计算的被关注度相同的微博在现有微博中所占的比例取负对数,获取每条微博的被关注度的直接权重;
对每条微博的被关注度的直接权重进行归一化,获取每条微博的被关注权重。
6.如权利要求1所述的基于垂直领域的微博搜索排序方法,其中,在根据现有微博中每条微博的发表时间,计算所述微博的时间权重的过程中,通过如下公式进行计算:
f5(t)=D-(now-t),当f5(t)<0时,f5(t)=0
其中,f5(t)为现有微博中每条微博的时间权重,D为预设的有效天数,now为当前时间,t为微博发表的时间。
7.一种基于垂直领域的微博搜索排序系统,包括:领域相关度获取单元、被关注权重获取单元、时间权重计算单元、粉丝数权重获取单元、类型权重获取单元和搜索排序单元;其中,
所述领域相关度获取单元,用于根据确定的垂直领域,搜集所述垂直领域内的领域词汇,并计算在现有微博中所述垂直领域内每个领域词汇的词频,然后对所计算出的每个领域词汇的词频进行拟合,获取现有微博中所述垂直领域内每个领域词汇的权重,接着根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度;
所述被关注权重获取单元,用于对现有微博中每条微博的被关注度进行拟合,获取每条微博的被关注权重;
所述时间权重计算单元,用于根据现有微博中每条微博的发表时间,计算所述微博的时间权重;
所述粉丝数权重获取单元,用于通过对现有微博用户中每个微博用户的粉丝数进行拟合,获取每个微博用户的粉丝数权重;
所述类型权重获取单元,用于通过统计现有微博用户的类型,获取所述类型的微博用户的类型权重;
所述搜索排序单元,用于将所述领域相关度获取单元所获取的领域相关度、所述被关注权重获取单元所获取的被关注权重、所述时间权重计算单元所计算的时间权重、所述粉丝数权重获取单元所获取的每个微博用户的粉丝数权重,以及所述类型权重获取单元所获取的每一类型的微博用户的类型权重分别乘以预先分配的权重系数,然后再相加,根据所相加的结果对现有微博进行搜索排序。
8.如权利要求7所述的基于垂直领域的微博搜索排序系统,其中,所述词汇权重获取单元在对所计算出的每个领域词汇的词频进行拟合,获取在现有微博中所述垂直领域内每个领域词汇的权重的过程中,
计算相同词频的领域词汇在所有领域词汇中所占的比例;
对所计算的相同词频的领域词汇在所有领域词汇中所占的比例取负对数,获取每个领域词汇的词频的直接权重;
每个领域词汇的词频的直接权重进行归一化,获取每个领域词汇的权重。
9.如权利要求7所述的基于垂直领域的微博搜索排序系统,其中,所述领域相关度获取单元在根据每个领域词汇的权重,获取现有微博中每条微博的领域相关度的过程中,
对现有微博中每条微博所包含的领域词汇的权重进行相加,获取现有微博中每条微博的领域相关度。
10.如权利要求7所述的基于垂直领域的微博搜索排序系统,其中,所述时间权重计算单元在根据现有微博中每条微博的发表时间,计算所述微博的时间权重的过程中,通过如下公式进行计算:
f5(t)=D-(now-t),当f5(t)<0时,f5(t)=0
其中,f5(t)为现有微博中每条微博的时间权重,D为预设的有效天数,now为当前时间,t为微博发表的时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310737940.4A CN103744918A (zh) | 2013-12-27 | 2013-12-27 | 基于垂直领域的微博搜索排序方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310737940.4A CN103744918A (zh) | 2013-12-27 | 2013-12-27 | 基于垂直领域的微博搜索排序方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103744918A true CN103744918A (zh) | 2014-04-23 |
Family
ID=50501936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310737940.4A Pending CN103744918A (zh) | 2013-12-27 | 2013-12-27 | 基于垂直领域的微博搜索排序方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744918A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834731A (zh) * | 2015-05-15 | 2015-08-12 | 百度在线网络技术(北京)有限公司 | 一种自媒体信息的推荐方法及装置 |
CN105843902A (zh) * | 2016-03-23 | 2016-08-10 | 乐视网信息技术(北京)股份有限公司 | 交互信息排序方法及装置 |
CN106254208A (zh) * | 2016-06-22 | 2016-12-21 | 中国联合网络通信集团有限公司 | 社交功能信息排序方法及终端 |
CN106909618A (zh) * | 2017-01-13 | 2017-06-30 | 广州薏生网络科技有限公司 | 一种健康类自媒体上的文章传播综合影响力的计算方法 |
CN109213922A (zh) * | 2017-06-30 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 一种对搜索结果排序的方法和装置 |
CN109299382A (zh) * | 2018-11-01 | 2019-02-01 | 厦门市美亚柏科信息股份有限公司 | 一种文字数据的推荐方法、系统及计算机存储介质 |
CN112231593A (zh) * | 2020-12-15 | 2021-01-15 | 上海朝阳永续信息技术股份有限公司 | 一种金融资讯智能推荐系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060155751A1 (en) * | 2004-06-23 | 2006-07-13 | Frank Geshwind | System and method for document analysis, processing and information extraction |
CN102426610A (zh) * | 2012-01-13 | 2012-04-25 | 中国科学院计算技术研究所 | 微博搜索排名方法及微博搜索引擎 |
CN103246670A (zh) * | 2012-02-09 | 2013-08-14 | 深圳市腾讯计算机系统有限公司 | 微博排序、搜索、展示方法和系统 |
CN103455615A (zh) * | 2013-09-10 | 2013-12-18 | 中国地质大学(武汉) | 一种微信帐号的排序过滤检索方法 |
-
2013
- 2013-12-27 CN CN201310737940.4A patent/CN103744918A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060155751A1 (en) * | 2004-06-23 | 2006-07-13 | Frank Geshwind | System and method for document analysis, processing and information extraction |
CN102426610A (zh) * | 2012-01-13 | 2012-04-25 | 中国科学院计算技术研究所 | 微博搜索排名方法及微博搜索引擎 |
CN103246670A (zh) * | 2012-02-09 | 2013-08-14 | 深圳市腾讯计算机系统有限公司 | 微博排序、搜索、展示方法和系统 |
CN103455615A (zh) * | 2013-09-10 | 2013-12-18 | 中国地质大学(武汉) | 一种微信帐号的排序过滤检索方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834731A (zh) * | 2015-05-15 | 2015-08-12 | 百度在线网络技术(北京)有限公司 | 一种自媒体信息的推荐方法及装置 |
CN104834731B (zh) * | 2015-05-15 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 一种自媒体信息的推荐方法及装置 |
CN105843902A (zh) * | 2016-03-23 | 2016-08-10 | 乐视网信息技术(北京)股份有限公司 | 交互信息排序方法及装置 |
CN106254208A (zh) * | 2016-06-22 | 2016-12-21 | 中国联合网络通信集团有限公司 | 社交功能信息排序方法及终端 |
CN106254208B (zh) * | 2016-06-22 | 2019-11-15 | 中国联合网络通信集团有限公司 | 社交功能信息排序方法及终端 |
CN106909618A (zh) * | 2017-01-13 | 2017-06-30 | 广州薏生网络科技有限公司 | 一种健康类自媒体上的文章传播综合影响力的计算方法 |
CN109213922A (zh) * | 2017-06-30 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 一种对搜索结果排序的方法和装置 |
CN109213922B (zh) * | 2017-06-30 | 2020-07-10 | 武汉斗鱼网络科技有限公司 | 一种对搜索结果排序的方法和装置 |
CN109299382A (zh) * | 2018-11-01 | 2019-02-01 | 厦门市美亚柏科信息股份有限公司 | 一种文字数据的推荐方法、系统及计算机存储介质 |
CN109299382B (zh) * | 2018-11-01 | 2021-08-10 | 厦门市美亚柏科信息股份有限公司 | 一种文字数据的推荐方法、系统及计算机存储介质 |
CN112231593A (zh) * | 2020-12-15 | 2021-01-15 | 上海朝阳永续信息技术股份有限公司 | 一种金融资讯智能推荐系统 |
CN112231593B (zh) * | 2020-12-15 | 2021-03-12 | 上海朝阳永续信息技术股份有限公司 | 一种金融资讯智能推荐系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103744918A (zh) | 基于垂直领域的微博搜索排序方法及系统 | |
CN103593425B (zh) | 基于偏好的智能检索方法及系统 | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN103294778B (zh) | 一种推送资讯信息的方法及系统 | |
CN102799591B (zh) | 一种提供推荐词的方法及装置 | |
Tran et al. | Hashtag recommendation approach based on content and user characteristics | |
CN102056335B (zh) | 移动搜索方法、装置和系统 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
JP5615857B2 (ja) | 分析装置、分析方法及び分析プログラム | |
CN104866554B (zh) | 一种基于社会化标注的个性化搜索方法及系统 | |
WO2014148948A1 (ru) | Способ отбора эффективных вариантов в поисковых и рекомендательных системах (варианты) | |
CN102332006A (zh) | 一种信息推送控制方法及装置 | |
CN103186574A (zh) | 一种搜索结果的生成方法和装置 | |
CN107896153B (zh) | 一种基于移动用户上网行为的流量套餐推荐方法及装置 | |
US20180046628A1 (en) | Ranking social media content | |
CN101685456B (zh) | 一种搜索的方法、系统和装置 | |
WO2010096986A1 (zh) | 移动搜索方法及装置 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN104572733A (zh) | 用户兴趣标签分类的方法及装置 | |
CN108287850B (zh) | 文本分类模型的优化方法及装置 | |
CN105159898B (zh) | 一种搜索的方法和装置 | |
WO2011159863A1 (en) | A system and method for query temporality analysis | |
CN104572915A (zh) | 一种基于内容环境增强的用户事件相关度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140423 |
|
RJ01 | Rejection of invention patent application after publication |