CN101127046A - 一种对博客文章进行排序的方法及系统 - Google Patents
一种对博客文章进行排序的方法及系统 Download PDFInfo
- Publication number
- CN101127046A CN101127046A CNA2007101236257A CN200710123625A CN101127046A CN 101127046 A CN101127046 A CN 101127046A CN A2007101236257 A CNA2007101236257 A CN A2007101236257A CN 200710123625 A CN200710123625 A CN 200710123625A CN 101127046 A CN101127046 A CN 101127046A
- Authority
- CN
- China
- Prior art keywords
- blog articles
- index
- weights
- blog
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及通信领域,提供了一种对博客文章进行排序的方法及系统。一种对博客文章进行排序的方法,包括建立索引,及根据用户的输入进行查询排序,其特征在于,所述建立索引的步骤包括:A.从博客系统提取相关性因子;B.根据所述相关性因子计算检索词与各博客文章的相关性权值,同时对文本作弊的博客文章进行识别和降权处理;C.根据降权后的相关性权值构建检索词与各博客文章之间的索引。本发明在相关性权值的计算中对文本作弊的博客文章进行识别和处理,从而建立准确的索引并基于此索引对搜索到的博客文章进行排序,因此提高了排序的客观准确性,保证了用户的检索质量。
Description
技术领域
本发明涉及通信领域,更具体地说,涉及一种对博客文章进行排序的方法及系统。
背景技术
随着互联网的发展,网络日志(Weblog,简作Blog,中文即“博客”)已成为一种常见的网络服务。目前已有大量互联网公司推出各自的博客搜索引擎,这些博客搜索引擎对检索到的博客文章所采取的排序方法不尽相同,但都是通过对用户输入的检索串进行计算处理,找到最相关的一组结果,返回给用户,从而使用户可以找到与自己期望最相关的博客文章。目前普遍存在的两种排序方式是,按相关度排序和按时间排序,而比较典型的是按照相关度进行排序。
按照相关度进行排序的具体过程是:首先计算检索串与各博客之间的相关性权值,包括数值相关性权值和文本相关性权值,一般是将检索串分解成多个检索词,使得检索串与博客的相关性分解为检索词与博客的相关性,从而根据相关性权值建立检索串与博客文章之间的索引;当用户进行检索时,则根据用户输入的检索串到建立的索引中进行搜索,并按照相关性权值的大小对各博客文章进行排序,最后将排序后的结果发送给用户显示。
上述排序方法虽然能在一定程度上准确地为用户提供博客文章的排序结果,但是存在的一个弊端是,往往会使得一些低质量文章的排序比较靠前。本专利将词汇丰富、言之有物的博客文章定义为高质量文章,而将词汇贫乏、大量语句重复的文章定义为低质量文章。一些低质量文章,其通篇或者局部只有几个词翻来覆去地出现,但在上述的排序方法中,这些文章却能通过词语的重复和堆砌而获得较靠前的排序,这是一种典型的文本作弊现象。对于目前的大多数按照相关度进行排序的博客搜索引擎,其对博客文章的排序结果均无法排除上述文本作弊现象造成的影响。
因此需要一种新的对博客文章进行排序的方法,避免文本作弊对排序结果的客观准确性造成的影响,从而提高用户的检索质量。
发明内容
本发明的目的在于提供一种对博客文章进行排序的系统,旨在解决现有技术对博客文章进行排序时无法排除文本作弊的影响,使得用户的检索质量较低的问题。
本发明的目的还在于提供一种对博客文章进行排序的方法,以更好地解决现有技术中存在的上述问题。
为了实现发明目的,所述对博客文章进行排序的系统,包括客户端、博客系统、根据检索词与博客文章之间的相关性权值建立索引的索引器、根据用户输入的检索词到索引器中查询对应的博客文章并进行排序的检索器,所述索引器包含一个文本作弊识别单元,用于在索引器计算检索词与博客文章之间的相关性权值时,对文本作弊的博客文章进行识别和降权处理。
优选地,所述索引器还包括与文本作弊识别单元相连的文本相关性判定单元,及索引构建单元;
所述文本相关性判定单元用于根据从博客系统提取的文本相关性因子,计算检索词与各博客文章的文本相关性权值,并将降权处理后的文本相关性权值送入索引构建单元;
所述索引构建单元用于根据所述文本相关性权值构建索引。
优选地,所述索引器还包括数值相关性判定单元、叠加计算单元;
所述数值相关性判定单元用于根据从博客系统提取的数值相关性因子,计算检索词与各博客文章的数值相关性权值;
所述叠加计算单元用于对所述数值相关性权值和文本相关性权值进行叠加计算,得到该检索词的综合相关性权值,并送入索引构建单元;
所述索引构建单元根据所述综合相关性权值构建索引。
优选地,所述检索器进一步包括查询单元和排序单元;
所述查询单元用于根据用户输入的检索词,从索引器已建立的索引中查询该检索词与各博客文章之间的综合相关性权值,并送入排序单元;
所述排序单元根据所述综合相关性权值的大小,对与检索词相关的各博客文章进行排序。
优选地,所述系统还包括与客户端及博客系统分别相连的代理器,其用于将客户端发送的检索串切分为多个检索词,并将所述检索词发送给检索器。
优选地,所述检索器还包括复合相关性计算单元,与查询单元及排序单元分别相连;
所述复合相关性计算单元用于根据查询单元获取的各检索词与各博客文章之间的综合相关性权值,计算所述检索串与各博客文章之间的复合相关性权值,并送入排序单元;
所述排序单元根据所述复合相关性权值,对与检索串相关的各博客文章进行排序。
为了更好地实现发明目的,所述对博客文章进行排序的方法,包括建立索引,及根据用户的输入进行查询排序,所述建立索引的的步骤包括:
A.从博客系统提取相关性因子;
B.根据所述相关性因子计算检索词与各博客文章的相关性权值,同时对文本作弊的博客文章进行识别和降权处理;
C.根据降权后的相关性权值构建检索词与各博客文章之间的索引。
优选地,所述步骤A中的相关性因子是指文本相关性因子,所述相关性权值则是指文本相关性权值。
优选地,所述步骤A中的相关性因子包括数值相关性因子和文本相关性因子,所述相关性权值是指数值相关性权值与文本相关性杈值叠加后的综合相关性权值。
优选地,所述步骤B中对文本作弊的博客文章进行识别和降权处理的步骤进一步包括:
B1.利用一个最大容量固定、长度可变的滑动窗口遍历博客文章,并记录滑动窗口所达到的最大长度,其中所述容量是指滑动窗口容纳的不同词汇的数量,长度是指滑动窗口内词汇的总量;
B2.遍历结束时,将所述滑动窗口达到过的最大长度与一个阈值进行比较,若超过阈值则将该博客文章判定为文本作弊;
B3.对所述博客文章的相关性权值进行降权处理。
优选地,所述根据用户的输入进行查询排序的步骤包括:
D.接收用户输入的检索词;
E.根据所述检索词,从已建立的索引中查询该检索词与各博客文章之间的相关性权值;
F.根据所述相关性权值的大小对与检索词相关的各博客文章进行排序,并将排序结果反馈给用户。
优选地,所述根据用户的输入进行查询排序的步骤包括:
D’.接收用户输入的检索串,并将所述检索串切分为多个检索词;
E’.从已建立的索引中查询各个检索词与各博客文章之间的相关性权值,并计算检索串与博客文章之间的复合相关性权值;
F’.根据所述复合相关性权值的大小对与检索串相关的各博客文章进行排序,并将排序结果反馈给用户。
本发明在相关性权值的计算中对文本作弊的博客文章进行识别和处理,从而建立准确的索引并基于此索引对搜索到的博客文章进行排序,因此提高了排序的客观准确性,保证了用户的检索质量。
附图说明
图1是本发明中对博客文章进行排序的系统结构图;
图2是本发明的一个实施例中索引器的结构图;
图3是本发明的一个实施例中检索器的结构图;
图4是本发明在对博客文章进行排序的过程中建立索引的方法流程图;
图5是本发明的一个实施例在对博客文章进行排序的过程中建立索引的方法流程图;
图6是本发明在建立索引的过程中对文本作弊现象进行识别和处理的方法流程图;
图7是本发明的一个实施例在图4或图5建立索引的过程中对文本作弊现象进行识别和处理的方法流程图;
图8是本发明的一个实施例基于图4或图5中建立的索引对博客文章进行排序的方法流程图;
图9是本发明的另一实施例基于图4或图5中建立的索引对博客文章进行排序的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于建立的索引对博客文章进行排序,而建立索引是通过计算检索词与博客文章的相关性杈值而进行的,本发明由于在相关性权值的计算中通过水贴识别算法识别出文本作弊的博客文章,并对其进行降权处理,因此可建立更为准确的索引,从而提高了基于此索引进行排序的客观准确性,保证了用户进行博客检索的质量。
图1示出了本发明中对博客文章进行排序的系统结构,该系统包括博客系统100、索引器200、检索器300、代理器400和客户端500。应当说明的是,本发明所有图示中各设备之间的连接关系是为了清楚阐释其信息交互及控制过程的需要,因此应当视为逻辑上的连接关系,而不应仅限于物理连接。其中:
(1)博客系统100用于为用户提供博客相关服务,包括对博客文章进行存储和管理等,并在本发明中为索引器200提供相关性因子,包括文本相关性因子(例如,文本的分类、标题、正文、昵称、空间名等),及数值相关性因子(例如,活跃度因子、转载率因子、回复率因子、发表时间因子等)。该博客系统100的核心可为一个网站服务器,但是本发明并不限定其具体形式。
(2)索引器200用于根据博客系统100中的数据建立索引,供检索器300基于该索引对所搜索的博客文章进行排序。
在一个实施例中,如图2所示,该索引器200进一步包括数值相关性判定单元201、文本相关性判定单元202、文本作弊识别单元203、叠加计算单元204和索引构建单元205,其中:数值相关性判定单元201用于根据从博客系统100提取的数值相关性因子,计算检索词与各博客文章的数值相关性权值;文本相关性判定单元202用于根据从博客系统100提取的文本相关性因子,计算检索词与各博客文章的文本相关性权值;文本作弊识别单元203用于在文本相关性判定单元202计算检索词与博客文章之间的文本相关性权值时,对文本作弊的博客文章进行识别和降权处理,并将降权处理后的文本相关性权值发送给文本相关性判定单元202;叠加计算单元204用于对前述的数值相关性权值和文本相关性权值进行叠加计算,得到该检索词的综合相关性权值,并送入索引构建单元205;索引构建单元205根据该综合相关性权值构建索引。
在另一实施例中,该索引器200仅包括文本相关性判定单元202、文本作弊识别单元203和索引构建单元205,其中:文本相关性判定单元202用于根据从博客系统100提取的文本相关性因子,计算检索词与各博客文章的文本相关性权值;文本作弊识别单元203用于识别文本作弊的博客文章,并对其文本相关性权值进行降权处理,再将处理后的文本相关性权值发送给文本相关性判定单元202进行转发;索引构建单元205则根据接收到的文本相关性权值构建检索词与各博客文章之间的索引。由于本实施例虽然可以实现,但是由于构建索引的过程仅考虑文本相关性因子,索引的准确度不够高,因此前一实施例中索引器200的结构在当前应用中更为广泛和典型。
(3)检索器300根据用户输入的检索词进行查询并对博客文章进行排序。
在一个实施例中,如图3所示,该检索器300进一步包括查询单元301、复合相关性计算单元302、排序单元303。在该实施例中,用户最初输入的是包含多个检索词的检索串,由代理器400切分为检索词后送入检索器300,检索器300收到检索词后则进行处理,其中:查询单元301从索引器200已建立的索引中查询各检索词与各博客文章之间的相关性权值(文本相关性权值,或综合相关性权值),并送入排序单元;复合相关性计算单元302则根据各检索词的相关性权值,计算检索串与各博客文章之间的复合相关性权值,并送入排序单元303;排序单元303根据复合相关性权值,对与检索串相关的各博客文章进行排序。
在另一实施例中,该检索器300仅包括查询单元301、排序单元303,该实施例适用于用户输入检索词而非检索串的情形,因此该实施例中检索器300可与客户端500直接相连并进行通信。其中:查询单元301根据用户输入的检索词,从索引器200已建立的索引中查询该检索词与各博客文章之间的相关性权值(文本相关性权值,或综合相关性权值),并送入排序单元303;排序单元303根据所收到的相关性权值的大小,对与检索词相关的各博客文章进行排序。应当说明的是,由于目前用户大多输入的都是包含多个检索词的检索串,因此前一实施例中检索器300的结构在当前应用中更为广泛和典型。
(4)代理器400用于接收客户端500发送的检索串,并将检索串切分为检索词,发送给检索器300,以及将检索器300检索并排序后的结果转发给客户端500。在本发明的一个实施例中,如图3所示的检索器300的结构,在此情形下代理器400是本发明系统所必需的。
(5)客户端500中登录有用户,其接收用户输入的检索词或者检索串:若用户输入的是检索词,可直接将其发送给检索器300,并在接收到检索器300反馈的博客文章排序结果后,将排序结果绘制并显示到用户界面上;若用户输入的是检索串,则须发送给代理器400进行切分,并在接收到代理器400反馈的博客文章排序结果后,将排序结果绘制并显示到用户界面上。客户端500典型的可为各种能够登录互联网的终端设备,例如个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)、移动电话(Mobile Phone,MP)等,因此本发明的保护范围不应限定为某种特定类型的客户端。
图4示出了本发明在对博客文章进行排序的过程中建立索引的方法流程,包括以下步骤:
在步骤S401中,索引器200从博客系统100中提取相关性因子,并对这些数据进行格式化。本发明中所称的相关性因子,包括文本相关性因子(例如,文本的分类、标题、正文、昵称、空间名等),及数值相关性因子(例如,活跃度因子、转载率因子、回复率因子、发表时间因子等)。大部分的相关性因子的取值都映射到一个固定区间,例如【0,100】,小部分则为数据的原始值,这些相关性因子在索引器200构建索引时,将作为相关性权值计算时的输入参数。
在步骤S402中,索引器200计算检索词与各博客文章的相关性权值,同时对具有文本作弊现象的博客文章进行识别和降权处理。
在一个实施例中,索引器200仅考虑文本相关性因子,其根据文本相关性因子计算检索词的文本相关性权值,并识别出文本作弊的博客文章,然后对检索词与该博客文章的文本相关性权值进行适当的降权处理,使其排得靠后一些。
在另一实施例中,索引器200不仅考虑文本相关性因,还考虑了数值相关性因子,分别计算文本相关性权值和数值相关性权值,同时识别出文本作弊的博客文章,然后对检索词与该博客文章的文本相关性权值进行适当的降权处理,最后再将文本相关性权值和数值相关性权值进行叠加计算,得到综合相关性权值。由此可知,前一实施例只是对文本相关性权值进行降权处理,而本实施例对文本相关性权值进行的降权处理实质上也对综合相关性权值施加了作用。本实施例由于将数值相关因子也考虑了进来,因此进一步提高了数据的准确性。
在步骤S403中,索引器200根据降权后的相关性权值构建检索词与各博客文章之间的索引。该索引记录了各个检索词、与检索词对应的博客文章、检索词与博客文章之间的相关性权值,从而可在用户输入检索词进行搜索时,可按照索引中的数据对搜索到的博客文章进行排序,使用户可以迅速找到最相关的博客文章。
图5示出了本发明的一个实施例在对博客文章进行排序的过程中建立索引的方法流程,该流程基于图1及图2所示的结构,具体包括:
在步骤S501中,索引器200从博客系统100中提取相关性因子,并对这些数据进行格式化。本发明中所称的相关性因子,包括文本相关性因子(例如,文本的分类、标题、正文、昵称、空间名等),及数值相关性因子(例如,活跃度因子、转载率因子、回复率因子、发表时间因子等)。
在步骤S502中,索引器200利用其数值相关性判定单元201计算检索词与各博客文章的数值相关性权值。
在一个实施例中,数值相关性因子包括活跃度因子WPO、转载率因子WDU、回复率因子WRE、发表时间因子WPT这四种,其中:活跃度因子WPO由博客系统100计算得出,取值范围在【0,100】,其综合考虑了博客个人空间的用户登录频度、博客文章发表频度等因素,是博客个人空间活跃程度的综合衡量指标,活跃度越高,博客文章的排序结果优先度越高;转载率因子WDU是根据排重系统中得到的博客文章重复数计算得出,取值范围在【0,100】,转载率越高,博客文章的排序结果优先度越高;回复率因子WRE是根据博客文章的回复次数计算得出,取值范围在【0,100】,回复率因子WRE越高,博客文章的排序结果优先度越高;发表时间因子WPT是博客文章的发表时间,可采用UNIX时间来表示,越新发表的博客文章的排序结果优先度越高。数值相关性权值则由上面列出的所有相关性因子经过线型计算并归一化得出,其取值范围在区间【0,1】,其计算公式如下:
WNUM=∑λi×Wi/MAX_VALUE (1)
其中Wi为前面列出的所有相关性计算因子,λi为对应的修正系数,用来增加或减小相关性因子的作用,可在对排序结果进行调整的过程中确定λi的比较理想的取值,MAX_VALUE为该数值相关性权值的可能的最大取值。应当说明的是,上述计算公式只是一个示例,并不用以限定本发明的保护范围,还可通过类似的公式进行计算。
在步骤S503中,索引器200利用其文本相关性判定单元202计算检索词与各博客文章的文本相关性权值,并利用文本作弊识别单元203对文本作弊的博客文章进行降权处理。在本发明中,文本相关性因子也就是可用来检索的文本字段。
在一个实施例中,这些文本字段包括分类、标题、正文、昵称、空间名这5个,每个字段有一个固定的权重值W和一个修正系数入,依次如下表所示:
字段名 | 修正系数 | 权重 |
分类 | λCA | WCA |
标题 | λTI | WTI |
正文 | λCO | WCO |
昵称 | λNI | WNI |
空间名 | λZO | WZO |
文本相关性权值的计算公式如下:
WTEXT=λCA×WCA+λTI×WTI+λCO×WCO+λNI×WNI十λZO×WZO (2)
其中,λCA+λTI+λCO+λNI+λZO=1。应当说明的是,上述计算公式只是一个示例,并不用以限定本发明的保护范围,还可通过类似的公式进行计算。
当得到文本相关性权值后,文本作弊识别单元203进一步识别具有文本作弊现象的博客文章,过程如图6所示,包括:S601,利用滑动窗口遍历博客文章,并记录该滑动窗口所达到的最大长度;S602,将活动窗口的最大长度与一个阈值进行比较,若超过阈值则将该博客文章判定为文本作弊;S603,对该博客文章的相关性权值进行适当的降权处理,例如可进行幅度调整,将文本相关性权值的大小修正为之前的60%。关于对文本作弊进行识别和处理的具体过程,将在图7中进行详细阐述。
在步骤S504中,索引器200利用其叠加计算单元204对数值相关性权值和文本相关性权值进行叠加计算,得到综合相关性权值。在一个实施例中,叠加计算公式如下:
Weight(q,d)=λtext*Wtext+λnum*Wnum (3)
其中,λtext、λnum分别是两种相关性权值进行叠加时的修正系数,大小可以灵活调整,且λtext+λnum=1。应当说明的是,上述计算公式只是一个示例,并不用以限定本发明的保护范围,还可通过类似的公式进行计算。
在步骤S505中,索引器200利用其索引构建单元205根据综合相关性权值并进行存储,以供用户搜索时的提取应用。
图7示出了本发明的一个实施例在建立索引的过程中采用水帖识别算法对文本作弊现象进行识别和处理的方法流程,该算法利用一个最大容量固定、长度可变的滑动窗口从左到右遍历整篇文章,并记录该窗口曾达到的最大长度。窗口的“容量”定义为该窗口容纳的不同的词的个数,窗口的“长度”定义为窗口内词的总个数,即左右边界之间的距离,窗口总是尽量伸长(右边界右移),只有在超过最大容量时才缩短(左边界右移)。在窗口的容量固定时,词汇贫乏的文章会拥有较长的窗口长度,因此,一篇博客文章的最大窗口长度越大,其越可能是存在文本作弊现象的低质量文章。
在该算法中,设滑动窗口的容量为C,其最大值设定为Cmax;用一个C’=C+1的递增数组存放该滑动窗口内不同的词,记录为“窗口词表”;并设滑动窗口的长度为L,其阈值设定为LT。
在步骤S701中,从博客文章中读取第一个词到滑动窗口,记录容量C=1,长度L=1。
在步骤S702中,判断是否读取到下一个词:若是,则执行S703;若否,则转步骤S710。
在步骤S703中,滑动窗口的右边界右移,将读取到的新词包含在滑动窗口内。
在步骤S704中,判断该词是否已存在于窗口词表中:若是,则执行步骤S705;若否,则执行步骤步骤S706。
在步骤S705中,窗口词表及容量C不变,长度L递增,该步骤结束后转步骤S702继续读取。
在步骤S706中,该词不存在于窗口词表中,则将其加入窗口词表,容量C递增,长度L递增。
在步骤S707中,判断窗口容量C是否超过最大值Cmax:若是,则执行步骤S708;若否,则转步骤S702继续读取。
在步骤S708中,窗口容量C是否超过最大值Cmax,窗口的左边界右移,窗口缩短至只包含最新读取的词。
在步骤S709中,判断该篇博客文章是否已遍历完毕:若是,则执行步骤S710;若否,则转步骤S702继续读取。
在步骤S710中,当博客文章遍历完毕时,则根据记录的滑动窗口最大长度,判断该博客文章的重要性:若滑动窗口最大长度大于阈值LT,则说明该博客文章存在文本作弊现象,需要对其文本相关性权值进行降权处理。
图8示出了本发明的一个实施例基于图4或图5中建立的索引对博客文章进行排序的方法流程,该实施例是用户输入检索词的情形,包括:
在步骤S801中,检索器300接收到客户端500中用户输入的检索词。
在步骤S802中,检索器300从索引器200已构建的索引中提取各检索词与博客文章的相关性权值,该相关性权值可能是文本相关性权值,也可能是文本相关性权值与数值相关性权值叠加后的综合相关性权值。
在步骤S803中,检索器300根据相关性权值对搜索到的博客文章进行排序,并将排序结果反馈给客户端500。
图9示出了本发明的另一实施例基于图4或图5中建立的索引对博客文章进行排序的方法流程,该实施例是用户输入检索串的情形,具体包括:
在步骤S901中,代理器400将客户端500中用户输入的检索串切分为检索词,并送入检索器300。
在步骤S902中,检索器300从索引器200构建的索引中提取各检索词与博客文章的相关性权值,该相关性权值可能是文本相关性权值,也可能是文本相关性权值与数值相关性杈值叠加后的综合相关性权值。
在步骤S903中,检索器300计算检索串与博客文章的复合相关性权值。
在本发明中,用户输入检索串与博客文章的相关性,可认为是单个检索词与该博客文章的相关性的综合结果,因此在一个实施例中,采用简单相加后求平均值的模型来计算复合相关性权值。设对于检索串Q,Q={q1,q2,......,qn},n为检索串切分后的索引词个数,d为一个检索词qn命中的所有博客文章,那么该检索串Q与博客文章之间的复合相关性权值的计算公式为:
应当说明的是,上述计算公式只是一个示例,并不用以限定本发明的保护范围,还可通过类似的公式进行计算。
在步骤S904中,检索器300根据复合相关性权值对搜索到的博客文章进行排序,并将排序结果送入代理器400。
在步骤S905中,代理器400将排序结果转发给客户端500,并将排序结果显示到用户界面上。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种对博客文章进行排序的系统,包括客户端、博客系统、根据检索词与博客文章之间的相关性权值建立索引的索引器、根据用户输入的检索词到索引器中查询索引并对博客文章进行排序的检索器,其特征在于,所述索引器包含一个文本作弊识别单元,用于在索引器计算检索词与博客文章之间的相关性权值时,对文本作弊的博客文章进行识别和降权处理。
2.根据权利要求1所述的对博客文章进行排序的系统,其特征在于,所述索引器还包括与文本作弊识别单元相连的文本相关性判定单元,及索引构建单元;
所述文本相关性判定单元用于根据从博客系统提取的文本相关性因子,计算检索词与各博客文章的文本相关性权值,并将降权处理后的文本相关性权值送入索引构建单元;
所述索引构建单元用于根据所述文本相关性权值构建索引。
3.根据权利要求2所述的对博客文章进行排序的系统,其特征在于,所述索引器还包括数值相关性判定单元、叠加计算单元;
所述数值相关性判定单元用于根据从博客系统提取的数值相关性因子,计算检索词与各博客文章的数值相关性权值;
所述叠加计算单元用于对所述数值相关性权值和文本相关性权值进行叠加计算,得到该检索词的综合相关性权值,并送入索引构建单元;
所述索引构建单元根据所述综合相关性权值构建索引。
4.根据权利要求3所述的对博客文章进行排序的系统,其特征在于,所述检索器进一步包括查询单元和排序单元;
所述查询单元用于根据用户输入的检索词,从索引器已建立的索引中查询该检索词与各博客文章之间的综合相关性权值,并送入排序单元;
所述排序单元根据所述综合相关性权值的大小,对与检索词相关的各博客文章进行排序。
5.根据权利要求4所述的对博客文章进行排序的系统,其特征在于,所述系统还包括与客户端及博容系统分别相连的代理器,其用于将客户端发送的检索串切分为多个检索词,并将所述检索词发送给检索器。
6.根据权利要求5所述的对博客文章进行排序的系统,其特征在于,所述检索器还包括复合相关性计算单元,与查询单元及排序单元分别相连;
所述复合相关性计算单元用于根据查询单元获取的各检索词与各博客文章之间的综合相关性权值,计算所述检索串与各博客文章之间的复合相关性权值,并送入排序单元;
所述排序单元根据所述复合相关性权值,对与检索串相关的各博客文章进行排序。
7.一种对博客文章进行排序的方法,包括建立索引,及根据用户的输入进行查询排序,其特征在于,所述建立索引的的步骤包括:
A.从博客系统提取相关性因子;
B.根据所述相关性因子计算检索词与各博客文章的相关性权值,同时对文本作弊的博客文章进行识别和降权处理;
C.根据降权后的相关性权值构建检索词与各博客文章之间的索引。
8.根据权利要求7所述的对博客文章进行排序的方法,其特征在于,所述步骤A中的相关性因子是指文本相关性因子,所述相关性权值则是指文本相关性权值。
9.根据权利要求7所述的对博客文章进行排序的方法,其特征在于,所述步骤A中的相关性因子包括数值相关性因子和文本相关性因子,所述相关性权值是指数值相关性权值与文本相关性权值叠加后的综合相关性权值。
10.根据权利要求7所述的对博客文章进行排序的方法,其特征在于,所述步骤B中对文本作弊的博客文章进行识别和降权处理的步骤进一步包括:
B1.利用一个最大容量固定、长度可变的滑动窗口遍历博客文章,并记录滑动窗口所达到的最大长度,其中所述容量是指滑动窗口容纳的不同词汇的数量,长度是指滑动窗口内词汇的总量;
B2.遍历结束时,将所述滑动窗口达到的最大长度与一个阈值进行比较,若超过阈值则将该博客文章判定为存在文本作弊;
B3.对所述博客文章的相关性权值进行降权处理。
11.根据权利要求7至10中任一权利要求所述的对博客文章进行排序的方法,其特征在于,所述根据用户的输入进行查询排序的步骤包括:
D.接收用户输入的检索词;
E.根据所述检索词,从已建立的索引中查询该检索词与各博客文章之间的相关性权值;
F.根据所述相关性权值的大小对与检索词相关的各博客文章进行排序,并将排序结果反馈给用户。
12.根据权利要求11所述的对博客文章进行排序的方法,其特征在于,所述根据用户的输入进行查询排序的步骤包括:
D’.接收用户输入的检索串,并将所述检索串切分为多个检索词;
E’.从已建立的索引中查询各个检索词与各博客文章之间的相关性权值,并计算检索串与博客文章之间的复合相关性权值;
F’.根据所述复合相关性权值的大小对与检索串相关的各博客文章进行排序,并将排序结果反馈给用户。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007101236257A CN100545847C (zh) | 2007-09-25 | 2007-09-25 | 一种对博客文章进行排序的方法及系统 |
PCT/CN2008/072319 WO2009046649A1 (fr) | 2007-09-25 | 2008-09-10 | Procédé et dispositif de tri de textes et procédé et dispositif de reconnaissance de fraude dans des textes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007101236257A CN100545847C (zh) | 2007-09-25 | 2007-09-25 | 一种对博客文章进行排序的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101127046A true CN101127046A (zh) | 2008-02-20 |
CN100545847C CN100545847C (zh) | 2009-09-30 |
Family
ID=39095078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007101236257A Active CN100545847C (zh) | 2007-09-25 | 2007-09-25 | 一种对博客文章进行排序的方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN100545847C (zh) |
WO (1) | WO2009046649A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009046649A1 (fr) * | 2007-09-25 | 2009-04-16 | Tencent Technology (Shenzhen) Company Limited | Procédé et dispositif de tri de textes et procédé et dispositif de reconnaissance de fraude dans des textes |
CN101984422A (zh) * | 2010-10-18 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN102841908A (zh) * | 2011-06-21 | 2012-12-26 | 富士通株式会社 | 微博内容排序方法和微博内容排序装置 |
CN102880665A (zh) * | 2012-09-05 | 2013-01-16 | 常州嘴馋了信息科技有限公司 | 网页博客展示系统 |
CN103049511A (zh) * | 2012-03-28 | 2013-04-17 | 李晶 | 一种微博关注列表、微博内容的显示方法及其客户端 |
CN103218443A (zh) * | 2013-04-22 | 2013-07-24 | 中山大学 | 一种面向博客网页的网页检索系统及方法 |
CN103257982A (zh) * | 2012-06-13 | 2013-08-21 | 苏州大学 | 基于关注关系的Blog搜索结果排序算法 |
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN103365845A (zh) * | 2012-03-26 | 2013-10-23 | 腾讯科技(北京)有限公司 | 一种微博中的搜索方法及系统 |
CN103810251A (zh) * | 2014-01-21 | 2014-05-21 | 南京财经大学 | 一种文本提取方法及装置 |
CN104899310A (zh) * | 2015-06-12 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
CN105138573A (zh) * | 2015-07-28 | 2015-12-09 | 沈阳化工大学 | 基于php的多用户轻博客系统 |
CN106446087A (zh) * | 2016-09-12 | 2017-02-22 | 福建中金在线信息科技有限公司 | 专题信息获取方法及装置 |
CN113011167A (zh) * | 2021-02-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的作弊识别方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1529263A (zh) * | 2003-09-18 | 2004-09-15 | 北京邮电大学 | 中文文本自动分词和判别文本抄袭的装置和方法 |
US8244720B2 (en) * | 2005-09-13 | 2012-08-14 | Google Inc. | Ranking blog documents |
CN100520767C (zh) * | 2007-05-31 | 2009-07-29 | 腾讯科技(深圳)有限公司 | 在网络上判断文章重要性的方法和系统、及滑动窗口 |
CN100545847C (zh) * | 2007-09-25 | 2009-09-30 | 腾讯科技(深圳)有限公司 | 一种对博客文章进行排序的方法及系统 |
-
2007
- 2007-09-25 CN CNB2007101236257A patent/CN100545847C/zh active Active
-
2008
- 2008-09-10 WO PCT/CN2008/072319 patent/WO2009046649A1/zh active Application Filing
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009046649A1 (fr) * | 2007-09-25 | 2009-04-16 | Tencent Technology (Shenzhen) Company Limited | Procédé et dispositif de tri de textes et procédé et dispositif de reconnaissance de fraude dans des textes |
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN101984422A (zh) * | 2010-10-18 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN101984422B (zh) * | 2010-10-18 | 2013-05-29 | 百度在线网络技术(北京)有限公司 | 一种容错文本查询的方法和设备 |
CN102841908A (zh) * | 2011-06-21 | 2012-12-26 | 富士通株式会社 | 微博内容排序方法和微博内容排序装置 |
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN103324637B (zh) * | 2012-03-23 | 2017-12-12 | 深圳市世纪光速信息技术有限公司 | 一种热点信息挖掘方法和系统 |
CN103365845B (zh) * | 2012-03-26 | 2018-07-27 | 腾讯科技(北京)有限公司 | 一种微博中的搜索方法及系统 |
CN103365845A (zh) * | 2012-03-26 | 2013-10-23 | 腾讯科技(北京)有限公司 | 一种微博中的搜索方法及系统 |
CN103049511A (zh) * | 2012-03-28 | 2013-04-17 | 李晶 | 一种微博关注列表、微博内容的显示方法及其客户端 |
CN103049511B (zh) * | 2012-03-28 | 2016-02-03 | 温州大学 | 一种微博关注列表、微博内容的显示方法及其客户端 |
CN103257982A (zh) * | 2012-06-13 | 2013-08-21 | 苏州大学 | 基于关注关系的Blog搜索结果排序算法 |
CN102880665A (zh) * | 2012-09-05 | 2013-01-16 | 常州嘴馋了信息科技有限公司 | 网页博客展示系统 |
CN103218443A (zh) * | 2013-04-22 | 2013-07-24 | 中山大学 | 一种面向博客网页的网页检索系统及方法 |
CN103810251A (zh) * | 2014-01-21 | 2014-05-21 | 南京财经大学 | 一种文本提取方法及装置 |
CN103810251B (zh) * | 2014-01-21 | 2017-05-10 | 南京财经大学 | 一种文本提取方法及装置 |
CN104899310A (zh) * | 2015-06-12 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
CN104899310B (zh) * | 2015-06-12 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
CN105138573A (zh) * | 2015-07-28 | 2015-12-09 | 沈阳化工大学 | 基于php的多用户轻博客系统 |
CN106446087A (zh) * | 2016-09-12 | 2017-02-22 | 福建中金在线信息科技有限公司 | 专题信息获取方法及装置 |
CN113011167A (zh) * | 2021-02-09 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的作弊识别方法、装置、设备及存储介质 |
CN113011167B (zh) * | 2021-02-09 | 2024-04-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的作弊识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100545847C (zh) | 2009-09-30 |
WO2009046649A1 (fr) | 2009-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100545847C (zh) | 一种对博客文章进行排序的方法及系统 | |
CN105955976B (zh) | 一种自动应答系统及方法 | |
US9317550B2 (en) | Query expansion | |
CN101320375B (zh) | 基于用户点击行为的数字图书搜索方法 | |
CN102088419B (zh) | 一种在社交网络中查找好友信息的方法和系统 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN100478962C (zh) | 搜索网页的方法、装置及系统和建立索引数据库的装置 | |
WO2021184674A1 (zh) | 文本关键词提取方法、电子设备及计算机可读存储介质 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN101119326A (zh) | 一种即时通信会话记录的管理方法及装置 | |
CN107729336A (zh) | 数据处理方法、设备及系统 | |
CN110019689A (zh) | 职位匹配方法和职位匹配系统 | |
CN102236677A (zh) | 一种基于问答系统的信息匹配方法及系统 | |
CN108717433A (zh) | 一种面向程序设计领域问答系统的知识库构建方法及装置 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN108665148B (zh) | 一种电子资源质量评价方法、装置和存储介质 | |
CN102955813A (zh) | 一种信息搜索方法和系统 | |
WO2010037314A1 (zh) | 一种搜索的方法、系统和装置 | |
CN104715063A (zh) | 搜索排序方法和装置 | |
CN109636682A (zh) | 一种教学资源自动收集系统 | |
CN104462347B (zh) | 关键词的分类方法及装置 | |
CN112669113A (zh) | 产品的推荐方法和装置、存储介质、电子装置 | |
CN102890690A (zh) | 目标信息搜索方法和装置 | |
CN110175289B (zh) | 基于余弦相似度协同过滤的混合推荐方法 | |
CN106021423A (zh) | 基于群组划分的元搜索引擎个性化结果推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20151221 Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone Patentee after: Shenzhen Tencent Computer System Co., Ltd. Address before: 518057 Guangdong city of Shenzhen province high tech Park high-tech South Road Fiyta high-tech building 5-10 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |