搜索词权重的确定方法、网络资源的推送方法及装置
技术领域
本发明涉及网络数据处理领域,尤其涉及一种搜索词权重的确定方法及装置、网络资源的推送方法及装置。
背景技术
随着互联网技术的不断发展,人们越来越依赖网络来获取想要的信息。例如可以向搜索引擎输入与所想获取信息相关的搜索词,以期望搜索引擎会根据所输入的搜索词来推送相关的网络资源。由于搜索词对与该搜索词相匹配的各个网络资源的重要程度(也即权重)不同,搜索引擎往往按照重要程度从高到低的顺序来推送相关的网络资源。因此,确定搜索词对与该搜索词相匹配的各个网络资源的权重对于用户快速准确地获取所期望的信息而言相当重要。
搜索引擎预先会根据某些算法来赋予搜索词不同的权重,以反映该搜索词对相匹配的网络资源(例如网页、文本、视频等)的重要程度。通常使用常规的TF-IDF(termfrequency-inverse document frequency、即词频-逆文档频率)算法及其变种技术体系来确定搜索词权重,即通过对搜索词进行切词之后的词在文本中的词频和其文档频率来描述该词在文本中的重要性。目前对于包括视频搜索和商品搜索等短文本发出的搜索,一般都使用这一套算法来计算用于表示该词对所要获取的网络资源的重要程度的词权重。
然而,短文本相比通常的网页长文本存在特殊性,例如在视频标题或者商品描述这样的短文本中,由于文本较短,通常意义下的TF-IDF都不能很好地描述词权重,进而影响了搜索的结果展示。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何较为准确合理地确定网络资源的搜索词权重。
解决方案
为了解决上述技术问题,根据本发明的一个方面,提供了一种搜索词权重的确定方法,包括:计算搜索词的词频;计算所述搜索词的逆向文档频率;根据用户对网络资源的点击数据来对所述词频和/或所述逆向文档频率进行校正;以及根据校正结果来计算所述搜索词权重。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,所述点击数据包括:与所述网络资源相关的查询关键词、以及所述查询关键词为所述网络资源带来的点击量。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,根据用户对网络资源的点击数据来对所述词频进行校正,包括:根据来对所述词频进行校正;其中,△fij表示所述词频的校正量;ck表示所述查询关键词为所述网络资源带来的点击量;在对所述查询关键词进行切词的结果中包括所述搜索词的情况下,校正因子fwij=1,否则该校正因子fwij=0;根据校正结果来计算所述搜索词权重,包括:根据wij=log(fij+△fij)×log(N/ni)来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;N/ni表示所述搜索词的逆向文档频率。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,根据用户对所述网络资源的点击数据来对所述词频进行校正,包括:对所述点击量进行折算,并根据折算后的点击量对所述词频进行校正。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,对所述点击量进行折算包括:在所述点击量大于或等于第一预定阈值、且小于第二预定阈值的情况下,将所述点击量折算为round(ck/M);在所述点击量大于或等于所述第二预定阈值的情况下,将所述点击量折算为ceil(log(ck));其中,ck表示所述查询关键词对所述网络资源带来的点击量,M表示折算因数;根据校正结果来计算所述搜索词权重,包括:
根据来计算所述搜索词权重wij;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;N/ni表示所述搜索词的逆向文档频率;A表示所述第一预定阈值;B表示所述第二预定阈值。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,根据用户对网络资源的点击数据来对所述逆向文档频率进行校正,包括:根据以及来对所述逆向文档频率进行校正;其中,N表示整个网络系统中所有网络资源的总数目;表示所述查询关键词对所述网络资源带来的最大点击量;ni表示所述搜索词在分别用于表征各所述所有网络资源的文本中出现的总的次数;ck表示所述查询关键词对所述网络资源带来的点击量;在所述搜索词在所述查询关键词的切词结果中的情况下,校正因子εik=0,否则该校正因子εik=1。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,根据校正结果来计算所述搜索词权重,包括:根据来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;表示所述搜索词的校正后的逆向文档频率。
对于上述搜索词权重的确定方法,在一种可能的实现方式中,根据校正结果来计算所述搜索词权重,包括:根据来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;表示所述搜索词的校正后的逆向文档频率;在所述词频大于等于1的情况下,fun(fij)=1,否则fun(fij)=0。
为了解决上述技术问题,根据本发明的另一个方面,提供了一种网络资源的推送方法,包括:根据本发明实施例所述的任意一种实现方式的搜索词权重的确定方法来确定搜索词权重;以及按照所确定的搜索词权重来推送网络资源。
为了解决上述技术问题,根据本发明的又一个方面,提供了一种搜索词权重的确定装置,包括:第一计算模块,用于计算搜索词的词频;第二计算模块,用于计算所述搜索词的逆向文档频率;校正模块,与所述第一计算模块和所述第二计算模块分别连接,用于根据用户对网络资源的点击数据来对所述词频和/或所述逆向文档频率进行校正;以及确定模块,与所述校正模块连接,用于根据校正结果来计算所述搜索词权重。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述点击数据包括:与所述网络资源相关的查询关键词、以及所述查询关键词为所述网络资源带来的点击量。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述校正模块包括第一校正单元,用于根据来对所述词频进行校正;其中,△fij表示所述词频的校正量;ck表示所述查询关键词为所述网络资源带来的点击量;在对所述查询关键词进行切词的结果中包括所述搜索词的情况下,校正因子fwij=1,否则该校正因子fwij=0;所述确定模块具体用于:根据wij=log(fij+△fij)×log(N/ni)来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;N/ni表示所述搜索词的逆向文档频率。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述校正模块还包括折算单元,用于对所述点击量进行折算,并且所述校正模块还用于根据折算后的点击量对所述词频进行校正。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述折算单元具体用于:在所述点击量大于或等于第一预定阈值、且小于第二预定阈值的情况下,将所述点击量折算为round(ck/M);在所述点击量大于或等于所述第二预定阈值的情况下,将所述点击量折算为ceil(log(ck));其中,ck表示所述查询关键词对所述网络资源带来的点击量,M表示折算因数;所述确定模块具体用于:
根据来计算所述搜索词权重wij;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;N/ni表示所述搜索词的逆向文档频率;A表示所述第一预定阈值;B表示所述第二预定阈值。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述校正模块包括第二校正单元,用于根据以及来对所述逆向文档频率进行校正;其中,N表示整个网络系统中所有网络资源的总数目;表示所述查询关键词对所述网络资源带来的最大点击量;ni表示所述搜索词在分别用于表征各所述所有网络资源的文本中出现的总的次数;ck表示所述查询关键词对所述网络资源带来的点击量;在所述搜索词在所述查询关键词的切词结果中的情况下,校正因子εik=0,否则该校正因子εik=1。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述确定模块具体用于:根据来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;表示所述搜索词的校正后的逆向文档频率。
对于上述搜索词权重的确定装置,在一种可能的实现方式中,所述确定模块具体用于:根据来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;表示所述搜索词的校正后的逆向文档频率;在所述词频大于等于1的情况下,fun(fij)=1,否则fun(fij)=0。
为了解决上述技术问题,根据本发明的又一个方面,提供了一种网络资源的推送系统,包括:根据本发明实施例所述的任意一种实现方式的搜索词权重的确定装置,用于确定搜索词权重;以及推送装置,与所述搜索词权重的确定装置连接,用于按照所确定的搜索词权重来推送网络资源。
有益效果
通过根据用户对网络资源的点击数据来对词频和/或逆向文档频率进行校正,并根据校正结果来计算搜索词权重,根据本发明实施例的搜索词权重的确定方法及装置能够准确合理地确定网络资源的搜索词权重。另外,按照根据本发明实施例的搜索词权重的确定方法所确定的搜索词权重,来为用户推送网络资源,能够使得用户快速准确地获取所期望的网络资源。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的搜索词权重的确定方法的流程图;
图2示出根据本发明一实施例的网络资源的推送方法的流程图;
图3示出根据本发明一实施例的搜索词权重的确定装置的结构框图;
图4示出根据本发明一实施例的网络资源的推送系统的结构框图;
图5示出了本发明的又一实施例的搜索词权重的确定装置的结构框图;
图6示出了本发明的又一实施例的网络资源的推送系统的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
在对本发明实施例进行说明之前,对搜索词权重进行如下说明。其中,所述搜索词权重例如可以表示搜索词对网络资源的重要程度,假设某一搜索词与多个网络资源相关、也即根据该搜索词能够搜索到多个网络资源,那么该搜索词对某一网络资源的权重越大,则该网络资源在根据搜索词的搜索结果的排序越靠前。
实施例1
图1示出根据本发明一实施例的搜索词权重的确定方法的流程图,如图1所示,以确定搜索词i对网络资源j的权重为例,该方法主要包括:
步骤S100、计算搜索词i的词频fij;词频fij例如可以是搜索词i在用于表征网络资源j的文本中出现的次数,网络资源j例如可以是视频资源,用于表征网络资源j的文本例如可以是视频资源j的标题。
步骤S200、计算搜索词i的逆向文档频率N/ni;N例如可以是整个网络系统中所有网络资源的总数目,ni例如可以是搜索词i在分别用于表征各所述所有网络资源的文本中出现的总的次数。
步骤S300、根据用户对网络资源j的点击数据来对词频fij和/或逆向文档频率N/ni进行校正;以及
步骤S400、根据校正结果来计算搜索词权重wij。
需要说明的是,上述的网络资源可以是网络系统中可以获取到的任意资源,例如还可以是音频资源、文本资源、网页资源、网络商城的商品资源等,用于表征网络资源的文本还可以是用于描述该网络资源属性的描述文档等,这里不进行穷举。
这样,通过引入用户对网络资源的点击数据,并根据该点击数据来对词频和/或逆向文档频率进行校正,然后根据校正结果来计算搜索词权重,根据本发明上述实施例的搜索词权重的确定方法、也可称作基于查询点击的TF-IDF(query click-term frequency-inverse document frequency,QC-TF-IDF)算法相比传统的TF-IDF算法能够准确合理地确定网络资源的搜索词权重。
实施例2
在上述实施例1的基础上,在根据本发明另一实施例的搜索词权重的确定方法中,用户对网络资源j的点击数据可以包括:与网络资源j相关的查询关键词Qk、以及查询关键词Qk为网络资源j带来的点击量ck。其中,在用户输入了查询关键词Qk、并点击了网络资源j的情况下,我们称查询关键词Qk与网络资源j相关,另外,我们将在用户输入了查询关键词Qk的情况下,点击网络资源j的次数称之为点击量ck。
在本实施例中,上述实施例1的步骤S300、根据用户对网络资源j的点击数据来对词频fij和/或逆向文档频率N/ni进行校正,具体可以包括:根据来对词频fij进行校正。其中,△fij表示词频fij的校正量;ck即上述的表示查询关键词Qk为网络资源j带来的点击量;在对查询关键词Qk进行切词的结果中包括搜索词i的情况下,校正因子fwij=1,否则该校正因子fwij=0。
例如,希望确定搜索词“美丽”对视频标题为“美丽的花朵”的视频资源的权重,在查询关键词为“美丽的人生”和“灿烂的花朵”的情况下,用户均点击了视频标题为“美丽的花朵”的视频资源,点击量分别为20和30,则由于对查询关键词“美丽的人生”的切词结果“美丽”、“的”、“人生”中包括搜索词“美丽”,则将搜索词“美丽”的词频的校正量增加20,而由于对查询关键词“灿烂的花朵”的切词结果“灿烂”、“的”、“花朵”中不包括搜索词“美丽”,则不对搜索词“美丽”的词频的校正量进行增加。依次类推,对所有的与视频标题为“美丽的花朵”的视频资源相关的查询关键词进行切词处理,并判断搜索词是否包括在这些查询关键词的切词结果中,在搜索词包括在查询关键词的切词结果中的情况下,将该搜索词的词频的校正量增加该查询关键词为上述视频资源带来的点击量,反之则不进行增加。
进一步地,上述实施例1的步骤S400、根据校正结果来计算搜索词权重wij,具体可以包括:根据wij=log(fij+△fij)×log(N/ni)来计算搜索词权重wij。其中,如上所述,wij表示所述搜索词权重;fij表示搜索词i的词频;N/ni表示搜索词i的逆向文档频率。
这样,通过引入与网络资源j相关的查询关键词Qk以及查询关键词Qk为网络资源j带来的点击量ck,来对搜索词i的词频fij进行校正,即利用用户查询与其点击的查询结果的文本关系来对原有的词频进行相应的调整,然后根据调整后的词频来计算搜索词权重,根据本发明上述实施例的搜索词权重的确定方法(基于查询点击的TF-IDF算法)相比传统的TF-IDF算法能够准确合理地确定网络资源的搜索词权重。
实施例3
与上述实施例2同样地,在上述实施例1的基础上,在根据本发明又一实施例的搜索词权重的确定方法中,用户对网络资源j的点击数据可以包括:与网络资源j相关的查询关键词Qk、以及查询关键词Qk为网络资源j带来的点击量ck。其中,在用户输入了查询关键词Qk、并点击了网络资源j的情况下,我们称查询关键词Qk与网络资源j相关,另外,我们将在用户输入了关键词Qk的情况下,点击网络资源j的次数称之为点击量ck。
与上述实施例2不同的是,在本实施例中,针对查询点击计数量(点击量ck)相对于词频fij存在数量级差异的问题进行了改进,即上述实施例1的步骤S300、根据用户对网络资源j的点击数据来对词频fij和/或逆向文档频率N/ni进行校正,具体可以包括:对点击量ck进行折算,并根据折算后的点击量对词频fij进行校正。
具体地,对点击量ck进行折算具体可以包括:在点击量ck大于或等于第一预定阈值A、且小于第二预定阈值B的情况下,将点击量ck折算为round(ck/M);在点击量ck大于或等于所述第二预定阈值B的情况下,将点击量ck折算为ceil(log(ck))。其中,为了过滤掉一些数量很低的无效点击对词频数据带来的噪声,在点击量ck小于第一预定阈值A的情况下,可以不进行折算,并且也不根据该点击量ck对词频fij进行校正,ck即上述的表示查询关键词Qk为网络资源j带来的点击量,M表示折算因数,可以根据实际应用情况而灵活设置。
根据折算后的点击量对词频fij进行校正的方法则可以参考上述实施例2,即将实施例2中的查询关键词Qk为网络资源j带来的点击量ck替换为根据本实施例上述方法进行折算后的点击量,即可求出根据折算后的点击量对词频fij的校正量,这里不再赘述。
进一步地,上述实施例1的步骤S400、根据校正结果来计算搜索词权重wij,具体可以包括:根据来计算搜索词权重wij;其中,如上所述,wij表示所述搜索词权重;fij表示搜索词i的词频;N/ni表示搜索词i的逆向文档频率;A表示所述第一预定阈值;B表示所述第二预定阈值。
在一种可能的实现方式中,将折算因数M设置为300,将第一预定阈值A设置为10,将第二预定阈值B设置为1000,之所以需要利用用于四舍五入求值的round函数、以及用于返回大于或者等于指定表达式的最小整数的ceil函数,是为了保证上述的用于计算搜索词权重wij的函数为连续函数。当然,本领域技术人员应能理解,本发明不限于此,还可以利用其它的方法对点击量进行一定比例的折算。
这样,通过本实施例所述的上述方法将查询关键词Qk为网络资源j带来的点击量ck进行了一定比例的折算,并根据折算后的点击量对词频fij进行校正,不仅过滤掉了一些数量很低的无效点击对词频数据带来的噪声,而且还有效的抑制了热门视频的巨大点击量对整体词频系统带来的冲击。根据本发明上述实施例的搜索词权重的确定方法、也可称作平滑的查询点击TF-IDF(FQC-TF-IDF)算法,能够在保证其它非热门网络资源效果不差的前提下,还可以得到在热门网络资源上的表现更为平滑有效的词权重值,从而相比传统的TF-IDF算法能够准确合理地确定网络资源的搜索词权重。
实施例4
与上述实施例2和3同样地,在上述实施例1的基础上,在根据本发明又一实施例的搜索词权重的确定方法中,用户对网络资源j的点击数据可以包括:与网络资源j相关的查询关键词Qk、以及查询关键词Qk为网络资源j带来的点击量ck。其中,在用户输入了查询关键词Qk、并点击了网络资源j的情况下,我们称查询关键词Qk与网络资源j相关,另外,我们将在用户输入了关键词Qk的情况下,点击网络资源j的次数称之为点击量ck。
与上述实施例2和3不同的是,在本实施例中,针对逆向文档频率N/ni进行了校正。具体地,上述实施例1的步骤S300、根据用户对网络资源j的点击数据来对词频fij和/或逆向文档频率N/ni进行校正,具体可以包括:根据以及来对逆向文档频率N/ni进行校正。其中,如上所述,N表示整个网络系统中所有网络资源的总数目;表示查询关键词Qk对网络资源j带来的最大点击量;ni表示搜索词i在分别用于表征各所述所有网络资源的文本中出现的总的次数;ck表示查询关键词Qk对网络资源j带来的点击量;在搜索词i在查询关键词Qk的切词结果中的情况下,校正因子εik=0,否则该校正因子εik=1。
举例而言,与实施例2中的示例类似地,希望确定搜索词“美丽”对视频标题为“美丽的花朵”的视频资源的权重。假设在查询关键词为“美丽的人生”、“漂亮的花朵”和“灿烂的花朵”的情况下,用户均点击了视频标题为“美丽的花朵”的视频资源,并且对该视频资源的点击量分别为15、30和20,则上述的查询关键词Qk对网络资源j带来的最大点击量Ci为30。由于对查询关键词“美丽的人生”的切词结果“美丽”、“的”、“人生”中包括搜索词“美丽”,对查询关键词“漂亮的花朵”的切词结果“漂亮”、“的”、“花朵”中不包括搜索词“美丽”,对查询关键词“灿烂的花朵”的切词结果“灿烂”、“的”、“花朵”中也不包括搜索词“美丽”,则根据查询关键词“漂亮的花朵”和“灿烂的花朵”的点击量对ni进行校正,对于查询词“漂亮的花朵”,Ci-ck为30-30即0,对于查询词“灿烂的花朵”,Ci-ck为30-20即10,取两者最大值10作为的结果。
尽管以上以视频标题为“美丽的花朵”的视频资源与三个查询关键词相关为例进行了说明,但是本发明当然不限于此,在该视频资源与三个以上的查询关键词相关的情况下,根据上述方法,同样能够计算出校正后的和
进一步地,在一种可能的实现方式中,上述实施例1的步骤S400、根据校正结果来计算搜索词权重wij,具体可以包括:根据来计算搜索词权重wij。其中,如上所述,wij表示所述搜索词权重;fij表示搜索词i的词频;表示搜索词i的校正后的逆向文档频率。这种算法我们称之为QC-TF-eIDF算法。
对于例如视频标题这样的短文本,词频起不到很多正向作用,反倒成为对一些在标题中进行关键词堆砌的作弊视频提高搜索排序的手段。因此,在另一种可能的实现方式中,上述实施例1的步骤S400、根据校正结果来计算搜索词权重wij,具体可以包括:根据来计算搜索词权重wij;其中,wij表示所述搜索词权重;fij表示搜索词i的词频;表示搜索词i的校正后的逆向文档频率;在所述词频大于等于1的情况下,fun(fij)=1,否则fun(fij)=0。这种算法我们称之为FQC-TF-eIDF算法。
由于在新资源的查询点击行为较少的情况下,一些过往有很大量点击行为的网络资源(例如视频)会对一些质量好的新资源造成一定的冲击,而根据本实施例所述的上述方法不直接对共现的词进行词频累加,而是对网络资源中未在查询关键词中出现的词的文档频次进行扩大,从而间接地达到提升命中中心词词权重的目的。并且,对于没有点击数据的新资源,自然就不会对一些好的资源造成大的冲击。
这样,根据本发明上述实施例的搜索词权重的确定方法(FQC-TF-eIDF算法/QC-TF-eIDF算法),在不过分打压新资源的同时,能够让一些好的点击多的资源在其标题中的重要关键字匹配更为精确,从而有效地解决了质量较好的新资源因为没有用户查询点击数据而导致的无法计算合理词权重的问题。
尽管上述以分别对词频和逆向文档频率进行校正、并利用校正后的词频和未进行校正的逆向文档频率来计算权重以及利用未校正的词频和校正后的逆向文档频率来计算搜索词权重为例进行了说明,但是本发明并不限于此,实施例2-4的实现方式可以任意组合,例如可以同时利用校正后的词频和校正后的文档频率来计算搜索词权重。具体地说,可以利用来计算搜索词权重wij,也可以利用来计算搜索词权重wij,其中
实施例5
图2示出根据本发明一实施例的网络资源的推送方法的流程图。如图2所示,该推送方法可以包括:
S500、确定搜索词权重;其中,可以根据上述实施例1-4中任一实施例的搜索词权重的确定方法来确定搜索词权重,这里对具体的确定步骤和所能实现的效果不再赘述。
S600、按照所确定的搜索词权重来推送网络资源。例如,搜索词i对网络资源j1的权重为0.3,对网络资源j2的权重为0.5,对网络资源j3的权重为0.7,则用户在输入搜索词i的情况下,按照搜索词i的权重大小的顺序推送网络资源,在搜索结果页面上顺次显示网络资源j3、网络资源j2、网络资源j1。
另外,在用户输入的查询关键词的切词结果除了包括搜索词i之外,还包括其它搜索词的情况下,可以根据搜索词i对与该搜索词i相关的网络资源的权重、以及其它搜索词对与该其它搜索词相关的网络资源的权重来推送网络资源。例如,用户输入的查询关键词的切词结果包括搜索词i和其它搜索词i',搜索词i对网络资源j1的权重为0.3,对网络资源j2的权重为0.5,对网络资源j3的权重为0.7;其它搜索词i'对网络资源j1'的权重为0.9,对网络资源j2'的权重为0.1,则在搜索结果页面上顺次显示网络资源j1'、网络资源j3、网络资源j2、网络资源j1、网络资源j2'。
以上分别以用户输入的查询关键词的切词结果包括一个搜索词和两个搜索词、并且一个搜索词与三个网络资源相关、另一个搜索词与两个网络资源相关为例说明了如何利用所确定的搜索词权重来推荐网络资源,本领域技术人员应能理解,本发明应不限于此。在用户输入的查询关键词的切词结果包括多个搜索词、并且各搜索词与多个网络资源相关的情况下,同样可以基于类似的方法按照权重大小排列作为搜索结果的网络资源。
这样,由于根据本发明实施例的网络资源的推送方法能够准确合理地确定网络资源的搜索词权重,然后按照所确定的搜索词权重来为用户推送网络资源,从而使得用户能够快速准确地获取所期望的网络资源。
实施例6
图3示出根据本发明一实施例的搜索词权重的确定装置500的结构框图,如图3所示,该装置主要包括:
第一计算模块100,用于计算搜索词的词频;
第二计算模块200,用于计算所述搜索词的逆向文档频率;
校正模块300,与第一计算模块100和第二计算模块200分别连接,用于根据用户对网络资源的点击数据来对所述词频和/或所述逆向文档频率进行校正;以及
确定模块400,与校正模块300连接,用于根据校正结果来计算所述搜索词权重。
上述的第一计算模块100、第二计算模块200、校正模块300和确定模块400的具体实现机理可参见实施例1中对步骤S100至S400的说明,并且,根据本发明上述实现方式的搜索词权重的确定装置500能够获得与实施例1相同的有益效果,这里不再赘述。
在一种可能的实现方式中,所述点击数据包括:与所述网络资源相关的查询关键词、以及所述查询关键词为所述网络资源带来的点击量。
在进一步地第一可能实现方式中,校正模块300可以包括第一校正单元,用于根据来对所述词频进行校正;其中,△fij表示所述词频的校正量;ck表示所述查询关键词为所述网络资源带来的点击量;在对所述查询关键词进行切词的结果中包括所述搜索词的情况下,校正因子fwij=1,否则该校正因子fwij=0。则确定模块400具体可以用于:根据wij=log(fij+△fij)×log(N/ni)来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;N/ni表示所述搜索词的逆向文档频率。这种实现方式的的校正模块300和确定模块400的具体实现机理可参见实施例2中对步骤S300和S400的进一步具体说明,并且,根据本发明这种实现方式的搜索词权重的确定装置500能够获得与实施例2相同的有益效果,这里不再赘述。
在进一步地第二可能实现方式中,校正模块300还可以包括折算单元,用于对所述点击量进行折算,并且校正模块300还用于根据折算后的点击量对所述词频进行校正。所述折算单元具体可以用于:在所述点击量大于或等于第一预定阈值、且小于第二预定阈值的情况下,将所述点击量折算为round(ck/M);在所述点击量大于或等于所述第二预定阈值的情况下,将所述点击量折算为ceil(log(ck));其中,ck表示所述查询关键词对所述网络资源带来的点击量,M表示折算因数;则确定模块400具体可以用于:
根据来计算所述搜索词权重wij;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;N/ni表示所述搜索词的逆向文档频率;A表示所述第一预定阈值;B表示所述第二预定阈值。这种实现方式的的校正模块300和确定模块400的具体实现机理可参见实施例3中对步骤S300和S400的进一步具体说明,并且,根据本发明这种实现方式的搜索词权重的确定装置500能够获得与实施例3相同的有益效果,这里不再赘述。
在进一步地第三可能实现方式中,校正模块300可以包括第二校正单元,用于根据以及来对所述逆向文档频率进行校正;其中,N表示整个网络系统中所有网络资源的总数目;表示所述查询关键词对所述网络资源带来的最大点击量;ni表示所述搜索词在分别用于表征各所述所有网络资源的文本中出现的总的次数;ck表示所述查询关键词对所述网络资源带来的点击量;在所述搜索词在所述查询关键词的切词结果中的情况下,校正因子εik=0,否则该校正因子εik=1。则确定模块400具体可以用于:根据来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;表示所述搜索词的校正后的逆向文档频率。确定模块400具体还可以用于:根据来计算所述搜索词权重;其中,wij表示所述搜索词权重;fij表示所述搜索词的词频;表示所述搜索词的校正后的逆向文档频率;在所述词频大于等于1的情况下,fun(fij)=1,否则fun(fij)=0。这种实现方式的的校正模块300和确定模块400的具体实现机理可参见实施例4中对步骤S300和S400的进一步具体说明,并且,根据本发明这种实现方式的搜索词权重的确定装置500能够获得与实施例4相同的有益效果,这里不再赘述。
实施例7
图4示出根据本发明一实施例的网络资源的推送系统700的结构框图,如图4所示,该系统主要包括:
根据实施例6中任一实现方式的搜索词权重的确定装置500,用于确定搜索词权重;以及
推送装置600,与搜索词权重的确定装置500连接,用于按照所确定的搜索词权重来推送网络资源。
上述的搜索词权重的确定装置500和推送装置600的具体实现机理可参见实施例6中对步骤S500和S600的说明,并且,根据本发明上述实现方式的网络资源的推送系统700能够获得与实施例6相同的有益效果,这里不再赘述。
实施例8
图5示出了本发明的又一实施例的一种搜索词权重的确定装置1100的结构框图。所述搜索词权重的确定装置1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述搜索词权重的确定装置1100包括处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码,该程序具体可用于实现上述实施例1-4中所述的搜索词权重的确定方法所包括的各步骤。
实施例9
图6示出了本发明的又一实施例的一种网络资源的推送系统1101的结构框图。所述网络资源的推送系统1101可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述网络资源的推送系统1101包括处理器(processor)1111、通信接口(Communications Interface)1121、存储器(memory)1131和总线1141。其中,处理器1111、通信接口1121、以及存储器1131通过总线1141完成相互间的通信。
通信接口1121用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。
处理器1111用于执行程序。处理器1111可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1131用于存放文件。存储器1131可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1131也可以是存储器阵列。存储器1131还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码,该程序具体可用于实现上述实施例5所述的网络资源的推送方法所包括的各步骤。
本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。