CN101996215A

CN101996215A - 一种应用于电子商务网站的信息匹配方法和系统

Info

Publication number: CN101996215A
Application number: CN2009101713503A
Authority: CN
Inventors: 张旭; 刘青焱; 吴鹏松; 叶一火
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2009-08-27
Filing date: 2009-08-27
Publication date: 2011-03-30
Anticipated expiration: 2029-08-27
Also published as: US8762391B2; HK1149816A1; US8346782B2; JP5596152B2; EP2470987A1; US20130086052A1; US20120143816A1; CN101996215B; EP2470987A4; JP2013503391A; WO2011025696A1

Abstract

本申请公开了一种应用于电子商务网站的信息匹配方法和系统，所述方法包括：搜索引擎服务器收集网络用户的每一类网络行为的特征数据，分别针对每一类网络行为按照所述特征数据对网络用户进行聚类，设定据以进行聚类的各类特征数据的权重。接收某一特定网络用户的搜索请求，并根据所述搜索请求搜索获得若干条搜索结果。查询所述特定用户所属聚类中所有网络用户对所述每一条搜索结果的历史点选记录。根据所述所有网络用户的历史点选记录以及据以进行聚类的各类特征数据的权重计算获得所述若干条搜索结果的等级值。按照所述等级值由大到小对所述搜索结果进行排序，并将排序后的搜索结果返回给特定用户的用户终端。

Description

一种应用于电子商务网站的信息匹配方法和系统

技术领域

本申请涉及计算机数据处理技术领域，特别是指一种应用于电子商务网站的信息匹配方法和系统。

背景技术

搜索引擎是一种寻找匹配信息的工具，其已经成为非常高效的信息发布、聚合和展现平台，且在电子商务领域得到了广泛的应用。搜索引擎的工作原理是用户输入表明需求的关键字，搜索引擎寻找与该关键字相匹配的信息，并将匹配的结果信息返回给该用户。搜索引擎本身是根据关键字来识别用户需求的，而用户的需求千变万化，仅凭几个关键字很难准确地表达出用户的真实意图。例如，用户输入“防水套”时，既可能是指“相机防水套”，又可能是指“手机防水套”，用户既可能是想购买某种防水套，又可能只是想了解防水套的相关信息。

由于用户本身的生活方式、习惯、宗教信仰等个性化特征是各不相同的，而搜索引擎无法识别用户的这种个性化差异，因此搜索引擎只能给不同的用户呈现千篇一律的搜索结果；例如，同样是搜索“酒店”，预算充裕的用户可能需要了解的是豪华酒店，预算紧张的用户可能需要了解的是经济酒店，向预算紧张的用户呈现豪华酒店的信息，只能浪费用户过滤甄别信息的精力和时间，而且对于发布豪华酒店信息的商家而言也没有任何好处。

再者，在手机等设备上，关键字的输入并不方便，而过短的关键字又不能表达清楚用户想要的信息。例如用户搜索“审美理发”时，有那么多的连锁店，应该给用户呈现哪一家店的信息？现在的搜索引擎只能要求用户反复精炼关键字进行调整，这样不但降低了搜索效率，而且给用户的使用带来了极大的不便。

可见，通过现有的搜索引擎实现的信息匹配，并不能保证所检索的到结果是用户最需要的信息。

竞价排名也有信息发布、信息检索等功能。竞价排名的实质是按照信息发布者为每次点击付费多少进行排序，将排序后靠前的结果展现在访问者面前，即，信息发布者通过付费对展现的广告进行控制。

可见，竞价排名所保证的是让付费更多的发布者的信息排在前面，而该排序最靠前的信息是否是与用户需求最匹配的信息，并不是其关注的重点。因而，竞价排名更多的关注了信息发布者即商家的利益，而忽略了信息接收者即用户的利益。

传统广告也有信息发布等功能。互联网传统广告的发展已经历经了多代，从最开始的选择主题栏目投放(例如在新浪的汽车频道投放汽车广告)，到从页面提取关键字进行关键字投放(例如Google的AdSense)再到对用户行为进行分析，通过聚类、路径分析等方法，定向投放(例如doubleclick、腾迅)，互联网广告效果越来越明显。然而，传统广告的本质仍是“广告”，即，信息是按照广告主的意志而不是消费者的意志投放的。

可见，传统广告并不是为用户提供其所需要的匹配信息，而是寻找潜在客户，将广告的内容强行发送给其所认定的潜在客户。因而，其实质仍然是广告，无论如何改善，它仍然是在用户需要获取其它信息的时候出现，这必然会对用户的正常活动产生干扰。同样的，传统广告也是更多的关注了信息发布者即商家的利益，而忽略了信息接收者即用户的利益。

发明内容

本申请实施例在于提供一种应用于电子商务网站的信息匹配方法和系统，通过为信息接收者提供其最需要的信息，使得信息发布者和信息接收者之间实现双赢。

本申请实施例提供了一种应用于电子商务网站的信息匹配方法，包括：

搜索引擎服务器收集网络用户的每一类网络行为的特征数据，分别针对每一类网络行为按照所述特征数据对网络用户进行聚类，设定据以进行聚类的各类特征数据的权重；

搜索引擎服务器接收某一特定网络用户的搜索请求，并根据该搜索请求搜索获得若干条搜索结果；

搜索引擎服务器查询所述特定用户所属聚类中所有网络用户对所述每一条搜索结果的历史点选记录；

搜索引擎服务器根据所述所有网络用户的历史点选记录以及据以进行聚类的各类特征数据的权重计算获得所述若干条搜索结果的等级值；

搜索引擎服务器按照所述等级值由大到小对所述搜索结果进行排序，并将排序后的搜索结果返回给特定用户的用户终端。

其中，所述网络行为包括：网络交易行为或网络点评行为；所述网络行为的特征数据包括：网络交易记录或网络点评记录。

其中，所述分别针对每一类网络行为按照所述特征数据对网络用户进行聚类的方法包括：

首先将没有搜集到网络行为的特征数据的网络用户聚为一类；

对于剩下的网络用户，根据所述网络行为的特征数据以及已配置的聚类数目进行聚类；

将聚类结果以数据表的形式保存在数据库中。

其中，所述根据所述网络行为的特征数据以及已配置的聚类数目进行聚类的步骤包括：

若所述网络行为的特征数据为网络交易记录，则根据所述网络交易记录中的商品信息是否类似进行聚类，将购买过类似商品的网络用户聚为一类；

聚类数达到已配置的数目时，聚类完成。

若所述网络行为的特征数据为网络点评记录，则根据网络用户点评的商家用户所属的类目对网络用户进行聚类；或者，统计每两个商家用户的网络点评记录中相同的网络用户的数量，根据所述网络用户的数量与对该商家用户进行网络点评的网络用户的总数量的比值获得重叠比例，根据重叠比例计算商家用户之间的距离；根据所述距离对商家用户进行聚类，再反过来根据商家用户的聚类对消费者用户进行聚类；

聚类数达到已配置的数目时，聚类完成。

其中，所述搜索引擎服务器收集网络用户的每一类网络行为的特征数据的方式包括：通过服务器日志分析系统收集、通过网络用户活动日志系统收集、通过地理信息系统收集或通过第三方数据接口收集，或通过以上任意组合的方式收集。

其中，所述方法还包括：设置地理位置信息的权重；

根据所述地理位置信息的权重和据以进行聚类的各类特征数据的权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序。

其中，所述搜索引擎服务器接收某一特定网络用户的搜索请求，具体包括：搜索引擎服务器接收某一特定网络用户输入的搜索关键词，和/或搜索引擎服务器接收某一特定网络用户的鼠标点击行为触发的搜索请求。

本申请还提供了一种应用于电子商务网站的信息匹配系统，包括：

信息采集系统，收集网络用户的每一类网络行为的特征数据，分别针对每一类网络行为按照所述特征数据对网络用户进行聚类，设定据以进行聚类的各类特征数据的权重；

检索系统，接收某一特定网络用户的搜索请求，并根据该搜索请求搜索获得若干条搜索结果，查询所述特定用户所属聚类中其他网络用户对所述每一条搜索结果的历史点选记录，根据所述其他网络用户的历史点选记录以及据以进行聚类的各类特征数据的权重计算获得所述若干条搜索结果的等级值，按照所述等级值由大到小对所述搜索结果进行排序；

结果页面生成系统，用于将所述排序后的检索结果显示给信息接收者。

其中，所述检索系统具体包括：

搜索引擎，接收某一特定网络用户的搜索请求，并根据该搜索请求搜索获得若干条搜索结果；

排序系统，查询所述特定用户所属聚类中其他网络用户对所述每一条搜索结果的历史点选记录，根据所述其他网络用户的历史点选记录以及据以进行聚类的各类特征数据的权重计算获得所述若干条搜索结果的等级值，按照所述等级值由大到小对所述搜索结果进行排序。

其中，所述排序系统具体包括：

第一设置模块，用于设定据以进行聚类的各类特征数据的权重；

查询模块，用于针对已获得的每一条检索结果，查询每一网络用户对每一条检索结果的历史点选记录；

统计模块，用于统计获得的每一个检索结果的历史点选记录，并以数据表的形式保存于数据库中；

排序模块，用于当某一特定网络用户搜索时，对于返回的检索结果，查询与所述网络用户同一聚类的所有用户的历史点选记录，并根据所述权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序。

其中，所述排序系统具体包括：

第二设置模块，用于设置地理位置信息的权重；

排序模块，用于当某一特定网络用户搜索时，对于返回的检索结果，查询与所述网络用户同一聚类的所有用户的历史点选记录，并根据所述地理位置信息的权重和据以进行聚类的各类特征数据的权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序。

应用本申请提供的应用于电子商务的信息匹配方法和系统，通过收集信息发布者和信息接收者的信息，综合分析信息发布者和信息接收者的属性，根据信息接收者所表示出来的需求，为其提供与其相匹配的信息，从而实现信息的匹配，使得在电子商务应用中信息发布者和信息接收者之间实现双赢。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请所涉及角色之间的关系示意图；

图2是本申请信息匹配方法的网络构架示意图；

图3是根据本申请是实施例的在信息编辑系统中选择要发布信息分类的实例图；

图4是基于图3所示分类实例选择餐饮分类后的实例图；

图5是根据本申请是实施例的通过信息代理系统接入信息编辑系统的示意图；

图6是根据本申请实施例的应用于电子商务网站的信息匹配方法流程图；

图7是根据本申请实施例的应用于电子商务网站的信息匹配系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及三种角色：信息发布者、信息接受者和本申请的信息匹配系统。信息发布者是指提供信息一方，信息接受者是指需要信息一方，注意这二者只是概念上的区分，在现实生活中，一个人既可以是信息发布者也可以是信息接受者，例如，一个学生在找兼职工作时，他是一个信息发布者；同时他又需要了解招聘兼职工作的信息，这时他又变成了信息接受者。本申请的信息匹配系统是为信息发布者和信息接受者提供信息传播的一个平台。三者的关系如图1所示。

参见图2，其是本申请信息匹配方法的网络构架示意图。其中，

信息采集系统201用于收集信息，具体的，信息采集系统中的信息编辑系统2011收集信息发布者的基本属性信息以及需要发布的信息，信息采集系统中的个性化信息系统收集信息接收者的个性化数据2012，对所述个性化数据进行聚类处理，获得所述信息接收者的个性化属性。信息存储系统203保存信息发布者的基本属性信息，所述信息发布者需要发布的信息，以及信息接收者的个性化属性。信息存储系统203保存信息发布者的基本属性信息，所述信息发布者需要发布的信息，以及信息接收者的个性化属性。再有，本申请的信息匹配网络构建还可以包括信息认证系统202，用于对所述信息采集系统所收集的信息发布者的基本属性信息进行认证，认证通过通知信息存储系统。

当信息接收者在网上活动时，需求识别系统204根据接收到的触发信息，获取所述信息接收者的用户标识和网上活动信息；检索系统205根据所述网上活动信息生成检索结果，所述检索结果包括与所述检索命令匹配的来自信息发布者的发布信息；结果页面生成系统206将所述检索结果显示给信息接收者。

需要说明的是，上述信息采集系统201、信息认证系统202、信息存储系统203、需求识别系统204、检索系统205、结果页面生成系统206均为逻辑系统，其既可以全部在一台服务器上，也可以其中的一个或多个在一台或多台服务器上。

可见，本申请通过收集信息发布者和信息接收者的信息，综合分析信息发布者和信息接收者的属性，根据信息接收者所表示出来的需求，为其提供与其相匹配的信息，从而实现信息的匹配，使得在电子商务应用中信息发布者和信息接收者之间实现双赢。

结合图2所示网络构架，下面首先从信息发布者和信息接收者两个角度分别说明。

对于信息发布者，其包括以下几个步骤：

第一步：

通过信息编辑系统，信息发布者将所需发布的信息以及其基本属性信息输入信息存储系统。信息编辑系统是一个运行在应用程序服务器上的系统软件，它与外界的通讯通过标准的超文本传输协议(HTTP，Hyper Text TransferProtocol)协议来完成。信息发布者可以通过普通的浏览器访问信息编辑系统的页面，在页面上输入信息。

例如，某餐饮行业的信息发布者，希望发布一条餐饮服务的信息。首先它需要在信息编辑系统中登录后选择要发布的信息分类，选择餐饮的分类后，信息编辑系统会要求信息发布者按照餐饮行业的情况输入相关的信息，如图3和图4所示。可以理解，如果是其他行业，图4所示页面上需要填入的内容会有所不同。需要说明的是，图3和图4仅是针对餐饮行业的一个实施例而已，在其他可能的实施例中页面的内容、布局、图片、颜色等都可以发生变化。

信息发布者也可以用其他方式发布信息，例如手机短信，或者通过其它终端设备的方式，如果这些方式不是通过标准的HTTP协议，那么还需要一个信息代理系统将信息转换为HTTP协议与信息编辑系统通信，如5图所示，手机或其他终端设备通过信息代理系统将需要输入的信息传输至信息编辑系统。

信息提交后，会保存到信息存储系统。信息存储系统是由后台数据库组成，该后台数据库可以是分布式的，也可以是非分布式的。这里，数据库是一个泛指概念，代表各种格式的数据库，而不局限于某种特定格式的数据，例如Oracle数据库，开放源码的小型关系型数据库管理系统(MySQL)，结构化查询语言服务器(SQL Server)等。

第二步：

系统管理员通过信息认证系统来审核信息发布者所提交的信息。信息认证系统也是一个运行在系统服务器上的系统软件，它与外界的通讯通过标准的HTTP协议来完成，即系统管理员通过浏览器即可访问。

根据实际需要，系统管理员可以委托第三方认证公司、第三方信用公司或者其它第三方机构，对信息发布者发布的信息进行审核和认证，以保证信息发布者发布的信息真实可信。

例如，在上例中，某信息发布者提供了餐饮服务的信息，其中包括商家名称、菜品相关信息、营业执照、卫生许可证等，系统管理员将这些信息委托第三方公司进行认证，第三方公司经过多渠道交叉认证后，认为该信息真实可信，反馈给系统管理员后，系统管理员审核通过此信息。

如果信息审核不通过，系统管理员可以拒绝该信息，或者编辑该信息使其符合要求然后审核通过。

审核通过后，信息审核系统将这条信息转入审核通过的数据库中即信息存储系统中，供其它系统调用。

需要说明的是，该步的目标是为了保证信息提供者所提供的信息真实可靠，从而更好的维护电子商务活动中的诚信，在一些实际应用环境中该步也可以不存在。

以上是面向信息发布者的流程，对于信息接受者，包括以下几个步骤：

第一步：

通过个性化信息采集系统收集用户特征数据。个性化信息采集系统是一个运行在服务器上的系统软件，它又包含有若干子系统：

a)服务器日志分析系统：从服务器日志中，通过分析用户的访问记录，来分析用户特征的系统。服务器日志是指，服务器上运行的基本服务软件，所记录的软件运行的日志，例如Apache HTTP服务器的日志。

例如，从服务器的Apache日志中，可以获取用户的访问记录，某用户过去7天可能访问过

/path1/file1

/path2/file2

....

这些访问记录被提取作为用户特征，保存到数据存储系统。

b)用户活动日志系统：从用户活动的日志中分析用户特征的系统。用户活动日志是指，网站为用户提供服务的应用程序所记录的、用户使用这些服务的日志记录。例如，网站为用户提供的论坛程序，可能会把用户的登录IP、登录时间、发帖标题、发帖内容等信息记录到日志中。用户活动日志系统从这些日志中提取用户的特征，保存到数据存储系统。

例如，论坛程序记录的用户活动如表1所示：

表1

时间	登录IP	版面	发帖标题	发帖内容
					2009.6.12 10:11:12	12.34.56.78	谈天论地	呵呵	中午吃了水煮鱼
2009.6.12 10:23:31	12.34.56.78	信息交流	推荐	海底捞的火锅很好吃

用户活动日志系统将“版面”和“发帖标题”“发帖内容”中的关键字作为用户特征，保存到数据存储系统。

再如，网上交易系统也会将用户的交易记录到日志中，用户活动日志系统也可以从用户的交易记录中提取用户的特征，保存到数据存储系统。例如，某网上交易系统记录的用户活动如表2所示：

表2

时间	登录IP	订单号	购买商品	成交金额
					2009.6.12 10:11:12	12.34.56.78	Q123456	短裙	RMB 32.00
2009.6.12 10:23:31	12.34.56.78	Q123457	洗面奶	RMB 20.00

用户活动日志系统将“购买商品”和“成交金额”作为用户特征，保存到信息存储系统。

c)地理信息系统：收集、分析用户所处的地理信息的系统。通过GPS、手机基站定位等手段，可以获取用户的地理坐标，地理信息系统会记录用户的地理坐标，保存到数据存储系统。

d)第三方数据接口：由于互联网架构本身的特点，本申请的信息匹配系统只能从系统自身内得到用户相关的数据，要想提高信息收集的效果，就需要提供此接口，使得其它服务器上的数据也可以整合到本申请的系统中。例如，阿里巴巴公司运营本申请的系统时，可以与新浪网合作，将新浪网用户的活动日志通过此接口发送到阿里巴巴公司的系统中。该接口采用标准的HTTP协议与其它服务器进行通讯。

上述各子系统可以根据具体实施的情况灵活搭配，不要求上述子系统全部具备。

再有，用户特征数据即用户信息的来源可以是多方面的，可以包括网络交易记录、网络点评记录等等。可以理解，系统中大部分用户都会是“沉默用户”，即，大部分的用户都未在系统中留下特征数据，他们只是随意地浏览而未与网站产生更多的交互。这只是信息量上的限制，不影响本系统的正常实现。

第二步：

对第一步中收集到的用户个性化数据进行聚类。聚类是指，将具有相似特征的用户聚合在一起形成一个集合，将整体的特征作为集合内元素的特征。例如，如果在用户特征数据中，发现用户A和用户B都具有相同的访问记录，或者活动日志中具有接近的关键字，或者交易记录中购买过相似的商品，那么就将A和B聚合成一个集合。聚类的结果保存到信息存储系统中。聚类方法本身已有多种现有方式实现，下面以一种实现方式为例进行说明聚类的实现过程：

系统将注册用户区分为商家用户和消费者用户，商家用户是指在电子商务网站发布产品或服务信息的用户，消费者用户是指通过电子商务网站获取商家用户发布的信息的用户。根据收集的消费者用户的某一类网络行为的特征数据，将消费者用户进行聚类，例如，消费者用户在互联网上进行了网络交易行为以及网络点评行为，可以按照“网络交易记录”中的特征数据对消费者用户进行聚类，也可按照“网络点评记录”中的特征数据对消费者用户进行聚类。其中，按照每一类的特征数据进行聚类时，首先将没有任何记录信息的消费者用户聚为1类；对于剩下的消费者用户，根据系统管理员的配置，可以选择聚为几类，这里假定配置为聚为3类。

对于利用“网络交易记录”中的特征数据进行聚类的方法可以是：根据消费者用户网络交易记录信息中的商品是否类似进行聚类，将购买过类似商品的消费者用户聚为一类。

对于根据消费者用户针对商家用户发布的信息所进行的网络点评记录进行聚类的步骤可以是：

a)首先将没有记录的消费者聚为1类；

b)根据网络点评的类目进行聚类。具体为：根据商家用户所属的类目对消费者用户进行聚类，这里的类目一般是指商家用户发布的信息所属的行业、商品领域等。

针对网络点评记录本实施例提供另外一种聚类的方法，具体为：针对商家用户发布的信息，解析出网络点评记录中的消费者用户信息，统计每两个商家用户的网络点评记录中相同的消费者用户的数量，然后根据该相同的消费者用户的数量与对该商家用户进行网络点评的消费者用户的总数量的比值获得重叠比例，根据重叠比例计算商家用户之间的距离。例如，假定统计到商家用户“俏江南”的网络点评记录中有80％的消费者用户也针对商家用户“海底捞”进行过网络点评，那么“俏江南”和“海底捞”的距离就为

根据预先设定的阈值，例如0.5，将距离小于预设阈值的商家用户聚为一类，这样可以把“俏江南”和“海底捞”聚为一类。再反过来根据商家用户的聚类对消费者用户进行聚类。在本例中，假定商家用户的聚类结果是“俏江南”和“金钱豹”聚为1类，“颐和园”、“欢乐谷”和“华星国际影城”聚为1类，那么消费者用户聚类的结果是：对“俏江南”和“金钱豹”进行网络点评的消费者用户聚为1类，对“颐和园”、“欢乐谷”和“华星国际影城”进行网络点评的消费者用户聚为1类。

c)聚类数达到设定的3类，聚类完成，即聚类数达到设定的个数时，聚类完成。如果设定聚类数更多，只需要对商家用户进行更细的聚类即可。

聚类的计算可以离线完成。

d)通过上述介绍的聚类方法可以对所有的消费者用户进行聚类，并将聚类结果以数据表的形式保存在数据库中，以便后续查询使用。

举例来说，可以得到下表所述的聚类结果(表3中的数字代表消费者用户1、消费者用户2......)：

表3

	聚类1	聚类2	聚类3
				网络交易记录	1、2	3、6	4、5
网络点评记录	2、3、4	1、5	6

第三步

利用搜索引擎进行检索，之后对检索结果进行重新排序。这里搜索引擎是一个泛指的概念，它不是指具体某个网站或某个公司的搜索引擎产品，而是指任何包括以下特征的计算机网络系统：

一，该系统的输入为关键字，另外还可以包括若干查询参数；

二，该系统的输出为根据输入信息在系统内检索得到的搜索结果。

利用搜索引擎进行检索的过程完全是现有技术，本申请对应用搜索引擎进行检索的过程并不关心，所关心的是如何对搜索引擎搜索出的结果进行再排序，因此，对利用搜索引擎进行检索的过程仅做简单说明说明。

利用搜索引擎进行检索的过程是：当网络用户在网上活动时，需求识别系统接收网络用户发出的搜索请求，例如：可以是网络用户输入的搜索关键词，也可以是网络用户通过鼠标点击行为触发的搜索请求。其中，网络用户通过鼠标点击行为触发的搜索请求可以是网络用户点击某个预设的类目，然后触发相应的搜索请求。需求识别系统将该搜索请求转发给检索系统进行检索并根据所述搜索请求生成检索结果。

所述检索结果的内容可以包括信息发布者所希望发布的所有信息，例如，可以包括信息发布者的名称、行业以及与信息发布者的名称相关的该行业的描述信息等。这些信息就是信息发布者保存在信息存储系统中的信息。再有，上述信息发布者所希望发布的所有信息通常为一组结构化的数据，该结构化的数据是指一类可以以结构化的形式存储的数据，比如以表格等形式存在的数据。

检索系统对检索结果进行重新排序的步骤具体包括：

1)设定据以进行聚类的各类特征数据的权重。本实施例以“网络交易记录”和“网络点评记录”两类特征数据为例，可以设定“网络交易记录”的权重为40％，“网络点评记录”的权重为60％。

2)针对搜索引擎获得的每一条搜索结果，查询每一用户对每一条搜索结果的历史点选记录，例如，某次搜索的搜索结果为10条记录，记为结果1，结果2，......结果10。日志系统中记录有用户的历史活动记录，其中，包括用户曾经对结果1，结果2，......结果10的历史点选次数。

3)统计获得每一个搜索结果的历史点选记录，并以数据表的形式保存于数据库中。例如，某次搜索“水煮鱼”，结果1：消费者用户1选择了1次，消费者用户2选择了10次......，如表4所示：

表4

	结果1	结果2	......	结果10
					消费者用户1	1	3	10
消费者用户2	10	1		2
					消费者用户3	2	0	1
......
					消费者用户100	0	1	2

4)当某一特定用户搜索时，对于搜索引擎返回的搜索结果，查询与该特定用户属同一聚类的所有用户对搜索结果的历史点选记录，并根据第1)步设置的权重，计算各条搜索结果的等级值(rank)，根据计算出的等级值按照从大到小的顺序排序。例如，消费者2搜索“水煮鱼”时，对于搜索引擎返回的结果1、结果2......结果10，系统进行重新排序的步骤为：

4.1、根据聚类表查询与消费者用户2同属一个聚类的用户，以表3为例，可以获得：以“网络交易记录”进行聚类，用户1和用户2属同一聚类；以“网络点评记录”进行聚类，用户2、用户3、用户4属同一聚类。

4.2、由用户的历史点选记录表中获得与消费者用户2同属一个聚类的用户的历史点选记录。以表4为例针对结果1可以获得：消费者用户1点选了1次，消费者用户2点选了10次，消费者用户3点选了2词，消费者用户4点选了1次。

4.3、根据查询结果计算各条搜索结果的等级值(rank)。计算方法如下：

“网络交易记录”聚类：结果1：消费者1选择了1次，消费者2选择了10次，因此等级值(rank)为rank＝(1+10)*40％＝4.4；

“网络点评记录”聚类：结果1：消费者2选择了10次，消费者3选择了2次，消费者4选择了1次，因此rank＝(10+2+1)*60％＝7.8；那么结果1的总等级值rank＝4.4+7.8＝12.2。

类似地，计算其它结果的rank；

4.4、根据计算出的等级值按照从大到小的顺序排序。

可以理解，如果需要增加地理定位信息可以增加GIS的检索系统。其中，GIS系统是可选子系统，如果去掉该系统，本申请的系统将不具备根据地理位置进行检索的功能，但是不影响本申请的整体功能的实现。

需要说明的是，如果增加了地理定位信息，则上述rank＝据以进行聚类的各类特征数据的权重+地理位置信息的权重，如果不增加地理定位信息，则上述rank就等于据以进行聚类的各类特征数据的权重。

第四步

将排序后的结果输出给用户。结果页面生成系统是一个自动的网页生成程序，它运行在一台与其他系统相连的服务器上，根据预先设置的网页格式模板，将排序后的核心内容整合起来，生成最终结果页面，输出给用户。

应用本申请的方法与搜索引擎相比，其区别在于用户的输入包括但不限于关键字这种形式，即用户的网上活动都可作为检索条件应用于信息匹配过程，同时，由于本申请考虑了用户的个性化属性，因而可以为不同的用户呈现不同的结果。

应用本申请的方法与竞价排名相比，竞价排名是按照信息发布者为每次点击付费多少进行排序，将排序后靠前的结果展现在访问者面前，即，信息发布者通过付费对展现的广告进行控制，而本申请是按照信息发布者与信息接受者之间的匹配程度控制信息的展现。

应用本申请的方法与传统广告相比，传统广告的本质仍是“广告”，无论效果如何明显，都不能摆脱广告的本质，即，信息是按照广告主的意志而不是消费者的意志投放的。本申请虽然也用到了用户行为分析、聚类等方法，但是本申请追求的是信息发布者和信息接收者需求之间的匹配，本申请不会像广告一样干扰消费者。

下面从网络侧的角度，对本申请再做详细说明。

参见图6，其是根据本申请实施例的应用于电子商务网站的信息匹配方法流程图，具体包括：

步骤601，信息采集系统收集信息接收者的个性化数据，对所述个性化数据进行聚类处理，并保存聚类结果；

其中，信息接收者可以包括消费者用户和商家用户；

本步骤中的所述信息采集系统收集消费者用户的个性化数据进行聚类处理的步骤包括：

首先将没有记录的消费者用户聚为一类；

对于剩下的消费者用户，根据特征数据以及已配置的聚类数目进行聚类；

将聚类结果以数据表的形式保存在数据库中。

如果，所述特征数据为网络交易记录，则上述根据特征数据以及已配置的聚类数目进行聚类的步骤包括：

根据消费者用户网络交易记录中的商品信息是否类似进行聚类，将购买过类似商品的消费者用户聚为一类；

聚类数达到已配置的数目时，聚类完成。

如果所述特征数据为网络点评记录；则上述根据特征数据以及已配置的聚类数目进行聚类的步骤包括：

根据商家用户所属的类目对消费者用户进行聚类；或者，统计每两个商家用户的网络点评记录中相同的消费者用户的数量，根据所述消费者用户的数量与对该商家用户进行网络点评的消费者用户的总数量的比值获得重叠比例，根据重叠比例计算商家用户之间的距离；根据所述距离对商家用户进行聚类，再反过来根据商家用户的聚类对消费者用户进行聚类；

聚类数达到已配置的数目时，聚类完成。

需要说明的是，上述信息采集系统收集信息接收者个性化数据的方式包括：通过服务器日志分析系统收集、通过用户活动日志系统收集、通过地理信息系统收集或通过第三方数据接口收集，或通过以上任意组合的方式收集。

步骤602，检索系统根据信息接收者的网上活动信息，生成检索结果，根据已保存的聚类结果，对所述检索结果进行重新排序；

具体的，如果不需要增加地理定位信息，则根据已保存的聚类结果，对所述检索结果进行重新排序的步骤包括：

设定据以进行聚类的各类特征数据的权重；

针对已获得的每一条检索结果，查询每一用户对每一条检索结果的历史点选记录；

统计获得的每一个检索结果的历史点选记录，并以数据表的形式保存于数据库中；

当某一用户搜索时，对于返回的检索结果，查询与所述用户同一聚类的所有用户的历史点选记录，并根据所述权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序；

如果需要增加地理定位信息，则根据已保存的聚类结果，对所述检索结果进行重新排序的步骤包括：

设置地理位置信息的权重；

根据已保存的聚类结果，对所述检索结果进行重新排序的步骤包括：

设定据以进行聚类的各类特征数据的权重；

当某一用户搜索时，对于返回的检索结果，查询与所述用户同一聚类的所有用户的历史点选记录，并根据所述地理位置信息的权重和据以进行聚类的各类特征数据的权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序。

步骤603，结果页面生成系统将所述重新排序后的检索结果显示给信息接收者。

需要说明的是，在所述信息采集系统收集信息接收者的个性化数据之前或之后，所述方法还包括：信息采集系统收集信息发布者的基本属性信息，以及需要发布的信息，并保存。

上述信息采集系统收集到信息发布者的基本属性信息以及需要发布的信息之后，在保存之前还包括：由信息认证系统对所述信息发布者的基本属性信息进行认证，认证通过后再执行保存操作。这样做的目的是保证信息发布者的信息更准确，可靠，当然，在实际应用中也可以没有认证这一步。

应用本申请提供的应用于电子商务的信息匹配方法，通过收集信息发布者和信息接收者的信息，综合分析信息发布者和信息接收者的属性，根据信息接收者所表示出来的需求，为其提供与其相匹配的信息，从而实现信息的匹配，使得在电子商务应用中信息发布者和信息接收者之间实现双赢。

本申请还提供了一种应用于电子商务网站的信息匹配系统，参见图7，具体包括：

信息采集系统701，用于收集信息接收者的个性化数据，对所述个性化数据进行聚类处理，并保存聚类结果；

检索系统702，用于根据信息接收者的网上活动信息，生成检索结果，根据已保存的聚类结果，对所述检索结果进行重新排序；

结果页面生成系统703，用于将所述重新排序后的检索结果显示给信息接收者。

上述检索系统具体包括：

搜索引擎，用于根据信息接收者的网上活动信息，生成检索结果；

排序系统，用于根据已保存的聚类结果，对所述检索结果进行重新排序。

上述排序系统可以具体包括：

查询模块，用于针对已获得的每一条检索结果，查询每一用户对每一条检索结果的历史点选记录；

排序模块，用于当某一用户搜索时，对于返回的检索结果，查询与所述用户同一聚类的所有用户的历史点选记录，并根据所述权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序；

或者，上述排序系统具体包括：

第二设置模块，用于设置地理位置信息的权重；

排序模块，用于当某一用户搜索时，对于返回的检索结果，查询与所述用户同一聚类的所有用户的历史点选记录，并根据所述地理位置信息的权重和据以进行聚类的各类特征数据的权重，计算各条检索结果的等级值，根据计算出的等级值按照从大到小的顺序对检索结果进行排序。

应用本申请提供的应用于电子商务的信息匹配系统，通过收集信息发布者和信息接收者的信息，综合分析信息发布者和信息接收者的属性，根据信息接收者所表示出来的需求，为其提供与其相匹配的信息，从而实现信息的匹配，使得在电子商务应用中信息发布者和信息接收者之间实现双赢。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上系统时以功能进行划分。当然，在实施本申请时可以把各系统的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种应用于电子商务网站的信息匹配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述网络行为包括：网络交易行为或网络点评行为；所述网络行为的特征数据包括：网络交易记录或网络点评记录。

3.根据权利要求1所述的方法，其特征在于，所述分别针对每一类网络行为按照所述特征数据对网络用户进行聚类的方法包括：

将聚类结果以数据表的形式保存在数据库中。

4.根据权利要求3所述的方法，其特征在于，所述根据所述网络行为的特征数据以及已配置的聚类数目进行聚类的步骤包括：

聚类数达到已配置的数目时，聚类完成。

5.根据权利要求3所述的方法，其特征在于，所述根据所述网络行为的特征数据以及已配置的聚类数目进行聚类的步骤包括：

聚类数达到已配置的数目时，聚类完成。

6.根据权利要求1所述的方法，其特征在于，所述搜索引擎服务器收集网络用户的每一类网络行为的特征数据的方式包括：通过服务器日志分析系统收集、通过网络用户活动日志系统收集、通过地理信息系统收集或通过第三方数据接口收集，或通过以上任意组合的方式收集。

7.根据权利要求1所述的方法，其特征在于，

所述方法还包括：设置地理位置信息的权重；

8.根据权利要求1所述的方法，其特征在于，所述搜索引擎服务器接收某一特定网络用户的搜索请求，具体包括：搜索引擎服务器接收某一特定网络用户输入的搜索关键词，和/或搜索引擎服务器接收某一特定网络用户的鼠标点击行为触发的搜索请求。

9.一种应用于电子商务网站的信息匹配系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，所述检索系统具体包括：

11.根据权利要求10所述的系统，其特征在于，所述排序系统具体包括：

12.根据权利要求11所述的系统，其特征在于，所述排序系统具体包括：

第二设置模块，用于设置地理位置信息的权重；