CN103336848B

CN103336848B - 一种分类信息的排序方法

Info

Publication number: CN103336848B
Application number: CN201310309710.8A
Authority: CN
Inventors: 陈秀义
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2016-09-28
Anticipated expiration: 2033-07-22
Also published as: CN103336848A

Abstract

本发明提供了一种分类信息的排序方法，所述方法包括如下步骤：（a）收集查询者输入的关键字，拆分查询者输入的关键字；（b）将每条分类信息按其属性划分为多个域，每个域具有一权重值，按照拆分出来的关键字对于每个域的命中情况为每个域进行打分，再将所有域的打分汇总得到域加权；（c）根据域加权与相关性的关系，得到所述信息的相关性；（d）根据信息的发布时间，获得信息的时效性；（e）将信息的相关性和时效性进行加权，得到信息的最终得分；（f）按照信息得分的大小对信息进行排序，并输出最终排序结果。根据本发明的优化的分类信息排序方法，能有效改进现有的分类信息排序方法，避免信息发布者利用重复发布信息的手段制造大量垃圾信息，使得用户能够更准确快捷地搜索到他想要寻找的分类信息。

Description

一种分类信息的排序方法

技术领域

本发明涉及网络分类信息领域，特别涉及一种改进的针对实时信息的排序方法。

背景技术

随着WEB2.0应用的普及，基于WEB2.0的各种与用户之间的交互型应用也应运而生。基于WEB2.0，用户既是网站内容的浏览者，也是网站内容的制造者。分类信网站息是WEB2.0的衍生物，是新一代互联网应用模式。分类信息又称分类广告，其特点是一种主动型广告，用户或商家可以自行发布诸如招聘、租房、旅游等方面的信息广告供其他用户查看。分类信息网站的崛起，很好的弥补了传统分类广告的不足。分类信息不仅信息量大，而且信息随时在线，永不丢失。更重要的通过分类搜索和分类信息的排序，可以保证用户在任何时间、任何地点，都能非常方便快捷的查询分类信息。

由于分类信息的广告属性，使得分类信息具有很强的时效性，网络分类信息在计算机上设计制作后，即可发送到网络进行发布，免去了排版、排印等。同时，网络分类信息具有随时更改信息的功能，分类信息发布者还可以根据需要随时调整产品价格等商品信息，并及时将最新的产品信息传播给用户。

随着分类信息爆发式的增长，基于用户的关键词查询请求而对海量分类信息进行排序成为越来越重要的需求。目前绝大多数分类信息网站的信息排序方式，都是基于用户搜索的关键词，将命中关键词的所有信息采用时间倒序排序，即按照时间顺序排列，新信息在前，旧信息在后。这就无形中让一些垃圾信息发布者为了获得较好的排名，而每天甚至每个小时都不停的发布自己的信息从而使自己的信息永远处于较新且排名靠前的位置。这种做法会给分类信息网站制造大量的重复无用垃圾信息。另外，由于呈现给用户的网页大小通常是有限，这是因为太多的信息会导致网页加载速度更慢，影响用户体验，因此一般每页只显示20-30条信息。由于现有的这种单纯靠时间排序的方式导致大量垃圾信息排名考前，会使得用户实际真正想检索到的结果信息排名被挤到第2页、第3页甚至更后。而大部分用户往往并没有耐心翻多个页面去寻找他们满意的检索结果，这就导致了用户的查询效率降低，网站体验变差，从而最终导致分类信息网站的访问率严重下降，使得信息发布者由于低访问率而不愿在网站发布信息，造成恶性循环。

因此，需要一种能有效的排序方法能改进现有的分类信息排序方法，避免信息发布者利用重复发布信息的手段制造大量垃圾信息，使得用户能够更准确快捷地搜索到他想要寻找的分类信息。

发明内容

本发明的目的在于提供一种分类信息的排序方法，所述方法包括如下步骤：（a）收集查询者输入的关键字，拆分查询者输入的关键字；（b）将每条分类信息按其属性划分为多个域，每个域具有一权重值，按照拆分出来的关键字对于每个域的命中情况为每个域进行打分，再将所有域的打分汇总得到域加权；（c）根据域加权与相关性的关系，得到所述信息的相关性，所述域加权与相关性的关系满足下式：

M = \frac{R \cdot (floor (\frac{x}{F}) + \frac{\mod (x, F)}{C \cdot F})}{K + (floor (\frac{x}{F}) + \frac{\mod (x, F)}{C \cdot F})}

其中，M是相关性，x为域加权，R为归一化范围，F为步骤（b）中具有最大权重值的域的权重值，C∈[1,+∞)，C、K为经验常数；

（d）根据信息的发布时间，获得信息的时效性；（e）将信息的相关性和时效性进行加权，得到信息的最终得分；（f）按照信息得分的大小对信息进行排序，并输出最终排序结果。

优选地，所述拆分关键字基于特殊字符或语义。

优选地，所述分类信息的属性包括信息的标题、地域、正文、类目和参数。

优选地，在所述各个属性中，所述标题的权重值最高。

优选地，所述步骤（b）中按照关键字的命中次数计算每个域的打分。

优选地，所述步骤（b）中对所有域的打分汇总采用打分累加的方式。

优选地，所述步骤（b）中对所有域的打分汇总采用打分加权累加的方式。

优选地，所述步骤（d）中信息的发布时间越早，信息的时效性越低。

优选地，所述获得信息的相关性和时效性的步骤可交换。

优选地，所述步骤（e）的加权计算公式为

S=w_M·M+w_T·T

其中M为信息的相关性，wM为相关性的权重，T为信息的时效性，wT为时效性的权重，w_M和w_T满足下列不等式：

w_MΔf>w_T·Ts

w_TΔT>w_M·Δs

其中Δf为相关性档距，Δs为相关性档高，Ts为相关性跃档系数，ΔT为时间周期。

根据本发明的优化的分类信息排序方法，能有效改进现有的分类信息排序方法，避免信息发布者利用重复发布信息的手段制造大量垃圾信息，使得用户能够更准确快捷地搜索到他想要寻找的分类信息。

应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性地示出了根据本发明的分类信息排序方法运行的系统环境示意图；

图2示出了根据本发明的基于关键字的分类信息打分模型；

图3示出了信息的相关性与域加权之间关联关系的曲线；

图4示出了信息的发布时间与时效性之间的关联关系曲线；

图5示出了根据本发明的信息排序方法的流程图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1示意性地示出了根据本发明的分类信息排序方法运行的系统环境的示意图。如图1所示，用户发布的分类信息150存储在分类信息的网站服务器130上，用户在查询分类信息时，通过计算机终端110借由网络（例如Internet或无线网络）或通过移动设备120借由移动网络（例如GPRS、CDMA2000、WCDMA、TDS-CDMA、LTE等）向网站服务器130发出查询140。查询通常是以一个或多个查询关键字的形式，例如用户想搜索租房信息，可以输入关键字“租房”。用户还可以输入多个关键字，如“北京海淀区租房一居室”来进一步缩小查询范围，获得更精准的查询结果。优选地，网站服务器130还可以通过预先设置类目来让用户在输入关键字之前或之后选择相应的类目进行查询。例如，网站服务器130可以在呈现给用户的首页上列出“租房”、“租车”、“二手家电”等类目关键字，用户如果想查询租房信息，可以先点击“租房”类目进入到该类目下再输入关键字进行检索和查询。根据本发明的方法，在接收到用户的查询140，网站服务器130会根据用户输入的关键字对所存储的分类信息150进行打分160，使得每条分类信息150在该组关键字下具有相应的得分。

图2示出了根据本发明的基于关键字的分类信息域加权打分模型。根据本发明，将分类信息针对其信息的不同属性分成若干个域，并为每个域分配特定的权重分值。针对用户输入的查询关键字进行拆分，若其中某个关键字命中某个域，则根据该域的权重分值计算相应的得分，若多个关键字均命中该域，则将得分累加，最后汇总得到该分类信息的域加权。

关键字的拆分可以有多种方式，例如可以通过扫描用户输入的特殊字符，例如空格、顿号或逗号来拆分出若干的二级关键字，也可以通过分析用户的搜索习惯，将关键词分解成若干二级关键字。还可以根据关键字的语义进行拆分，即根据搜索者提供的关键字来分析搜索者的搜索意图来进行拆分或转换。例如用户搜索“租车”，其相近的语义例如包括“车辆租赁”、“租赁车辆”等等。此外，还可以利用关键字分词技术对较长的关键字进行切割得到多个关键字，然后以这多个关键字自由组合或单个开始匹配信息的内容。

分类信息的属性可以包括但不限于如下属性：分类信息的标题，即发布信息的用户为该信息取的包含若干关键字的题目，其构成分类信息的标题域210；分类信息的地域，即发布信息的用户所在地域或发布的信息中所提供商品、服务等所在地域，其构成分类信息的地域域220；分类信息的正文，即发布信息的用户详细描述其提供的广告信息的正文内容，其构成分类信息的正文域230；分类信息的类目，即所发布的信息所处的类目，例如，用户发布的是出售二手笔记本的信息，则可归类于“二手电器”这个类目下，类目可以由分类信息网站的管理者自行设定，类目构成分类信息的类目域240；分类信息的参数，即对分类信息的标题和/或正文提取的有关所发布的产品或服务的相关参数，如发布笔记本信息，则包括笔记本的型号、配置等，参数构成了分类信息的参数域250。以上五种域仅仅是示意性的，还可以针对分类信息提取或归纳其他类别的属性设立相关的域，例如信息发布者的信誉度、好评度、用户等级等等。

接着，针对拆分后的二级关键字的命中各个域的情况，对各个域进行打分。以上述为例，得到标题域得分215、地域域得分225、正文域得分235、类目域得分245和参数域得分255。每个域的分值设定可以根据各个域对于搜索结果的匹配程度。例如，标题域通常来说集中反应了信息发布者的想要发布的信息要点，因此其重要性较高。相比之下，正文域由于字数较多，命中该关键字后对该信息的影响会较标题域更小。优选地，各个域的分值不是固定不变的，其可以根据以往的搜索匹配历史经验进行动态的设定和调整。根据本发明，如果一个域命中了若干个二级关键字，则可以将每个关键字在该域的得分累加，或者根据命中关键字的个数进行加权求和。

在计算得到各个域的得分之后，将这些得分汇总得到该条分类信息的域加权260。域加权260可以将各个域的域得分简单累加，也可以根据各个域的属性特点或重要性程度进行加权累加。

下面举例具体说明域得分的计算。例如，用户输入查询关键字“天津租二居室”，进行关键词拆分得到两个二级关键词“天津”、“租”和“二居室”，并衍生出类似关键词“天津市”、“租赁”、“二室一厅”、“两居室”等。在本例中，标题域的权重分值设定为77、地域域为10、正文域为6、类目域为6、参数域为1。对网站所存储的现有分类信息进行匹配，分析得到针对某条分类信息的标题含有“二居室”，命中一个关键词；发布者的地域信息为“天津”，命中一个关键词；正文含有“天津”、“租赁”、“二室一厅”，命中三个关键词；该信息所在类目为“房屋租赁”，命中一个关键词；该信息的参数值未含有上述信息，即未命中。则得到标题域得分1*77=77分，地域域得分1*10=10分，正文域得分3*6=18分，类目域得分1*6=6分，参数域得分0*1=0分，域加权为77+10+18+6+0=111分，为该条分类信息的域加权。

接着，将域加权转换为相关性特征M。相关性特征M综合反应了某条分类信息与用户所输入的关键词之间的相关性程度，即匹配程度。利用下式来得到相关性特征M：

M = \frac{R \cdot (floor (\frac{x}{F}) + \frac{\mod (x, F)}{C \cdot F})}{K + (floor (\frac{x}{F}) + \frac{\mod (x, F)}{C \cdot F})} - - - (1)

上式中，M是因变量相关性特征，x为自变量即域加权，R为归一化范围，取一经验常数，例如10000；F为计算域加权时的最大权重域的权重分值，在上述的实例中最大权重域为标题域，故F=77；C为档速调节因子，C∈[1,+∞),C=1时连续，C值用于调节档速，即图中不同的域加权档位之间ΔM变化的速度，K为敏感区间因子，是可调节的常数，反应了当曲线的各个分段从整体上表现出的曲线的曲率，也就是相关性特征对于域加权的敏感区间。floor为向下取证函数，mod为求余函数，即是x和F作除法运算后的余数。

式（1）对应的示意性曲线如图3所示。仅仅为了示意性说明，在图3中，取R=6，F=2，C=3，K=1。由曲线可以看出，相关性并不是随域加权的增大而连续变化的，而是在一个区间档位内连续变化，而在不同的区间档位之间，即不同的F值之间是跃迁的。以命中标题域的关键字的个数为例来描述该曲线的实际物理含义，当未命中标题域内任一关键字时，说明该信息的实际匹配程度很小，尽管可能在正文域、参数域都有较好的匹配，但并不能反应发信息者最直接的意图，也无法满足信息查询者最想要的查询结果，因此，曲线落在图3所示的第一档301范围内，相关性随着其他域的命中程度而线性增大。一旦某条信息中的标题域命中了用户查询的某个关键字，则相关性跃升到第二档302范围内，也就是说，命中了标题的信息其相关性得到显著提升，即信息发布者的意图和查询者的意图会有很大程度上的匹配。随着某条信息中的标题域命中的关键字增多，说明信息的相关性越好，每多命中一个关键字，相关性就提升一档。但是，通常来说，用户输入的关键字个数是有限的，而信息的标题中的关键字个数也是有限的，因此随着命中程度的增多，曲线趋于平缓，极端情况是用户输入的关键字与信息标题中的关键字完全匹配。此时，即使用户输入更多的关键字，也不会再提高相关性了。

由于分类信息的时效性很强，因此本发明除了如上所述考虑信息的相关性外，还考虑了信息的时间纬度，即时效性T。总体来说，越新发布的信息的时效性越好，越早的信息时效性越差。例如，如果是租房信息，那么1年之前发布的信息很可能由于已经成交而不再有效，这时候即使信息的相关性匹配程度非常好，也无法满足查询者的需求。时效性T与时间t的关系可以是如图4所示的示例性一次线性关系，也可以是其他如二次线性关系等等。图4中的t1为可自行设定的信息失效时间点，例如可以设置信息为自发布之日起4个月有效，4个月以前的信息，无论相关性多好，已经不具备时效性。

在得到了信息的相关性和时效性之后，对相关性和时效性进行加权求和，得到信息的最终得分S，即+

S=w_M·M+w_T·T （2）

其中M为信息的相关性，wM为相关性的权重，T为信息的时效性，wT为时效性的权重。这两个权重系数的确定是通过下面两个不等式来给出的：

w_MΔf>w_T·Ts （3）

w_TΔT>w_M·Δs （4）

其中，Δf和Δs的含义如图3所示，Δf为相邻两个相关性档位之间的相关性档间距，即档距。Δs为一个相关性档位中的最大相关性值和最小相关性值的差值，即档高。Ts为跃档系数，ΔT为时间周期。

不等式（3）确保了最终对所有信息的排序打分是按照信息的相关性特征进行分档的，即相关性的分值比重实际上决定了该信息所处的档位。但是，对于时效性很新（例如新发布的消息）但相关度较低的信息，也可能存在跃档的可能性。处于低一档的信息能够跳跃到高一档中的必要条件是高一档中的虽然较低一档信息的相关性更好，但高一档信息的时效性非常差，且比低一档信息的时效要陈旧Ts的时间以上。Ts可以根据具体的经验进行确定并调节，例如可以为4个月。

不等式（4）确保了在处在同一档相关性的所有信息最终整体上是按照时间序来排序的。时间周期ΔT可以针对不同的信息类型自行设定和调节，例如，如果是普通用户发布的普通信息，ΔT可以为一天（24小时）；如果是企业用户发布的商业信息ΔT可以为1分钟。在每一个相关性档内的信息的相关性也是有差异的，此不等式（4）保证了在同一相关性档位中信息相关性的差异只是用来在时间周期内微调，也就是说在每一档内，信息整体上是按照时效性来排序的，但是允许在时间周期内，依据相关性特征进行排序的局部微调。

在得到每条信息的得分S后，根据得分大小对所有信息进行排序，得分高的排序靠前，得分低的排序靠后，然后输出显示给查询者，完成本发明的信息排序过程。

图5示出了根据本发明的排序方法的流程图。如图5所示，在步骤510，收集查询者输入的关键字，拆分查询者输入的关键字；在步骤520，将分类信息按其属性划分为多个域，按照拆分出来的关键字对于每个域的命中情况为每个域进行打分，再将所有域的打分汇总得到域加权；在步骤530，根据域加权与相关性特征的曲线，得到信息的相关性；在步骤540，根据信息的发布时间，参考信息的时效性曲线获得信息的时效性；在步骤550，将信息的相关性和时效性进行加权，得到信息的最终得分；在步骤560，按照信息得分的大小对信息进行排序，并输出最终排序结果给查询者。

上述方法的步骤执行顺序并不是限制性的，可以将获得信息时效性的步骤与获得信息相关性的步骤进行交换，并不影响本发明的输出结果。

根据本发明的信息排序方法，综合考虑了信息与查询者所输入关键字的匹配程度，基于信息的不同属性特点建立对应的域，通过域加权建立信息的相关性特征，再结合信息的时效性给出信息的综合评分。根据本发明的评分结果可以很有效地将用户查询需求与信息进行匹配，提高了用户的查询效率，改善了用户体验。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种分类信息的排序方法，所述方法包括如下步骤：

(a)收集查询者输入的关键字，拆分查询者输入的关键字；

(b)将每条分类信息按其属性划分为多个域，每个域具有一权重值，按照拆分出来的关键字对于每个域的命中情况为每个域进行打分，再将所有域的打分汇总得到域加权；

(c)根据域加权与相关性的关系，得到所述信息的相关性，所述域加权与相关性的关系满足下式：

M = \frac{R \cdot (f l o o r (\frac{x}{F}) + \frac{\mod (x, F)}{C \cdot F})}{K + (f l o o r (\frac{x}{F}) + \frac{\mod (x, F)}{C \cdot F})}

其中，M是相关性，x为域加权，R为归一化范围，取一经验常数，F为步骤(b)中具有最大权重值的域的权重值，C∈[1,+∞)，C、K为经验常数，floor为向下取整函数，mod为求余函数，即是x和F作除法运算后的余数；

(d)根据信息的发布时间，获得信息的时效性；

(e)将信息的相关性和时效性进行加权，得到信息的最终得分，所述加权满足如下关系：

S＝w_M·M+w_T·T

其中M为信息的相关性，w_M为相关性的权重，T为信息的时效性，w_T为时效性的权重，w_M和w_T满足下列不等式：

w_MΔf>w_T·Ts

w_TΔT>w_M·Δs

其中Δf为相邻两个相关性档位之间的相关性档位间距，Δs为一个相关性档位中的最大相关性值和最小相关性值的差值，Ts为相关性高一档信息的时效性比相关性低一档信息的时效性陈旧的时间间隔，ΔT为时间周期；

(f)按照信息得分的大小对信息进行排序，并输出最终排序结果。

2.根据权利要求1所述的排序方法，其中所述拆分关键字基于特殊字符或语义。

3.根据权利要求1所述的排序方法，其中所述分类信息的属性包括信息的标题、地域、正文、类目和参数。

4.根据权利要求3所述的排序方法，其中在所述各个属性中，所述标题的权重值最高。

5.根据权利要求1所述的排序方法，其中所述步骤(b)中按照关键字的命中次数计算每个域的打分。

6.根据权利要求1所述的排序方法，其中所述步骤(b)中对所有域的打分汇总采用打分累加的方式。

7.根据权利要求1所述的排序方法，其中所述步骤(b)中对所有域的打分汇总采用打分加权累加的方式。

8.根据权利要求1所述的排序方法，其中所述步骤(d)中信息的发布时间越早，信息的时效性越低。

9.根据权利要求1所述的排序方法，其中所述获得信息的相关性和时效性的步骤可交换。