CN102760138B - 用户网络行为的分类方法和装置及对应的搜索方法和装置 - Google Patents

用户网络行为的分类方法和装置及对应的搜索方法和装置 Download PDF

Info

Publication number
CN102760138B
CN102760138B CN201110109445.XA CN201110109445A CN102760138B CN 102760138 B CN102760138 B CN 102760138B CN 201110109445 A CN201110109445 A CN 201110109445A CN 102760138 B CN102760138 B CN 102760138B
Authority
CN
China
Prior art keywords
user behavior
user
query
module
search results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110109445.XA
Other languages
English (en)
Other versions
CN102760138A (zh
Inventor
侯俊琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110109445.XA priority Critical patent/CN102760138B/zh
Publication of CN102760138A publication Critical patent/CN102760138A/zh
Application granted granted Critical
Publication of CN102760138B publication Critical patent/CN102760138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了用户网络行为的分类方法和装置及对应的搜索方法和装置。分类方法包括:获取用户行为数据,用户行为数据为用户在搜索引擎的所输入的搜索请求(query)以及用户在相应搜索结果页的点击行为信息;分别对相同query对应的点击行为信息进行用户行为特征的统计,得到由各query对应的用户行为特征向量构成的用户行为特征向量集合;对用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型;确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典。本发明把用户搜索后的点击行为进行分类,有效提高基于用户行为数据的服务或应用的准确率。

Description

用户网络行为的分类方法和装置及对应的搜索方法和装置
【技术领域】
本发明涉及互联网技术领域,特别是涉及用户网络行为的分类方法和装置及对应的搜索方法和装置。
【背景技术】
互联网的飞速发展为人们提供了一个全新的信息存储、加工、传递和使用的载体,网络信息也迅速成为了人们获取知识和信息的主要渠道之一。而如此规模的信息资源在将人类占有的几乎所有知识纳入其中的同时,也给资源的使用者带来了如何充分开发和利用的问题。搜索引擎正是在这一需求下应运而生,它协助网络用户在互联网上查找信息。具体地,搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户。
目前搜索引擎对用户行为数据的评估都是同等一致的,就是根据用户在搜索结果页上有点击或没有点击的行为来评估用户对搜索结果的满意程度,现有技术忽略了用户行为数据与搜索请求(query)实际需求之间存在的差异,也就是说在使用用户行为数据时,统一认为它们与相应query的需求,搜索引擎所返回的结果都是一致的,但是这种假设是不成立的,因为不同类型的需求,理应有不同类型的返回结果,用户在搜索结果页上的点击行为随着query实际需求的不同,是存在很大差异的。导致现有技术在用户行为数据的分析领域上,对于用户行为反馈的提权模型、评估搜索满意度方法等服务或应用的准确率较低等技术问题。
【发明内容】
有鉴于此,本发明所要解决的技术问题是提供一种用户网络行为的分类方法和装置以及基于用户网络行为分类的搜索方法和装置,以通过对用户点击行为数据进行聚类来提高基于用户行为反馈的服务或应用的准确率。
具体技术方案如下:
一种用户网络行为的分类方法,所述方法包括:
A、获取用户行为数据,所述用户行为数据为用户在搜索引擎的所输入的搜索请求query以及用户在相应搜索结果页的点击行为信息;
B、分别对相同query对应的所述点击行为信息进行用户行为特征的统计,得到由各query对应的用户行为特征向量构成的用户行为特征向量集合;
C、对所述用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型;
D、确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典。
根据本发明之一优选实施例,,所述点击行为信息包括:点击次数、点击时间、点击位置、鼠标停留位置、鼠标停留时间中的一个或以上所列的任意组合。
根据本发明之一优选实施例,所述步骤A中所述获取用户行为数据为获取指定时间区间内所包含的所述用户行为数据。
根据本发明之一优选实施例,所述步骤B中,所述用户行为特征包括:
首次平均点击时间,用户平均持续时间、第一位的点击率、前三点击率、总点击率、第一位满意点击率、前三满意点击率中的一个或以上所列的任意组合。
根据本发明之一优选实施例,所述步骤B具体包括:
B1、把所述用户行为数据按照query进行归类;
B2、将归类于相同query的点击行为信息进行用户行为特征的统计,以得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
根据本发明之一优选实施例,所述步骤C具体为:
采用概率潜在语义分析PLSA模型算法、K均值聚类算法k-means、或层次聚类方法对所述用户行为特征向量集合进行聚类以得到所述用户行为类型。
根据本发明之一优选实施例,所述步骤D具体包括:
D1、将所述用户行为特征向量集合中的每一用户行为特征向量逐一与所述用户行为类型特征向量进行相似度计算;
D2、根据最大相似度,确定所述用户行为特征向量所对应query以及所述用户行为类型特征向量所对应用户行为类型的对应关系,并存储为用户行为类型词典。
根据本发明之一优选实施例,在聚类运算周期时,执行所述步骤A、所述步骤B、所述步骤C及所述步骤D以获得所述用户行为类型词典。
根据本发明之一优选实施例,在词典更新周期时,重新执行所述步骤A、所述步骤B,并利用在所述聚类运算周期中所述步骤C所得到的用户行为类型与相应的用户行为类型特征向量执行所述步骤D以更新所述用户行为类型词典。
一种基于用户网络行为分类的搜索方法,所述方法包括:
A、接收用户在搜索引擎输入的搜索请求query;
B、从用户行为类型词典中查询所述query,确定与所述query匹配的用户行为类型;
C、根据所述用户行为类型,对所述搜索引擎所返回的匹配所述query的搜索结果进行适配处理;
D、将所述适配处理后的搜索结果返回给所述用户;
其中,所述用户行为类型词典是由所述用户网络行为的分类方法所获得。
根据本发明之一优选实施例,若所述用户行为类型确定为导航类:
所述步骤C具体为确定搜索结果排序首位的统一资源定位符URL;
所述步骤D具体为利用所述URL返回给所述用户进行站点导航。
根据本发明之一优选实施例,所述步骤D具体为:
将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。
根据本发明之一优选实施例,若所述用户行为类型确定为导航类,则所述步骤C具体为对排序前M位的所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接,其中M为大于等于1的自然数。
根据本发明之一优选实施例,若所述用户行为类型确定为知识类,则所述步骤C具体为对所述搜索结果进行去重处理。
根据本发明之一优选实施例,所述方法进一步包括:
E、接收并存储所述用户在所述搜索结果页的点击行为信息,并建立所述query与所述点击行为信息的对应关系。
根据本发明之一优选实施例,所述方法进一步包括:
F、根据所述用户行为类型与所述用户点击行为信息确定搜索满意度评价。
根据本发明之一优选实施例,若所述用户行为类型确定为导航类,则所述步骤F具体包括:
若所述点击行为信息为仅所述搜索结果页中的第一位结果被点击,则确定所述用户对所述搜索满意度高;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度低。
根据本发明之一优选实施例,若所述用户行为类型确定为知识类,则所述步骤F具体包括:
若所述点击行为信息为仅所述搜索结果页中的一个结果被点击或没有结果被点击,则确定所述用户对所述搜索满意度低;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度高。
一种用户网络行为的分类装置,所述装置包括:获取数据模块、特征计算模块、聚类处理模块和词典维护模块;
所述获取数据模块,用于获取用户行为数据,所述用户行为数据为用户在搜索引擎所输入的搜索请求query以及用户在相应搜索结果页的点击行为信息;
所述特征计算模块,用于分别对相同query对应的所述点击行为信息进行用户行为特征的统计,得到由各query对应的用户行为特征向量构成的用户行为特征向量集合;
所述聚类处理模块,用于对所述用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型;
所述词典维护模块,用于确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典。
根据本发明之一优选实施例,所述点击行为信息包括:点击次数、点击时间、点击位置、鼠标停留位置、鼠标停留时间中的一个或以上所列的任意组合。
根据本发明之一优选实施例,所述获取数据模块可获取指定时间区间内所包含的所述用户行为数据。
根据本发明之一优选实施例,所述用户行为特征包括:
首次平均点击时间,用户平均持续时间、第一位的点击率、前三点击率、总点击率、第一位满意点击率、前三满意点击率中的一个或以上所列的任意组合。
根据本发明之一优选实施例,所述特征计算模块包括归类单元和统计单元;
所述归类单元,用于把所述用户行为数据按照query进行归类;
所述统计单元,用于将归类于相同query的点击行为信息进行用户行为特征的统计,以得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
根据本发明之一优选实施例,所述聚类处理模块具体采用概率潜在语义分析PLSA模型算法、K均值聚类算法k-means、或层次聚类方法对所述用户行为特征向量集合进行聚类以得到所述用户行为类型。
根据本发明之一优选实施例,所述词典维护模块包括相似度计算单元和类型确定单元;
所述相似度计算单元,用于将所述用户行为特征向量集合中的每一用户行为特征向量逐一与所述用户行为类型特征向量进行相似度计算;
所述类型确定单元,用于根据所述相似度计算单元获得的最大相似度,确定所述用户行为特征向量所对应query以及所述用户行为类型特征向量所对应用户行为类型的对应关系,并存储为用户行为类型词典。
根据本发明之一优选实施例,所述装置还包括周期控制模块;
所述周期控制模块,用于在聚类运算周期时,触发所述获取数据模块、所述特征计算模块、所述聚类处理模块和所述词典维护模块执行操作以获得所述用户行为类型词典。
根据本发明之一优选实施例,所述周期控制模块,用于在词典更新周期时,重新触发所述获取数据模块、所述特征计算模块执行操作,并触发所述词典维护模块利用所述聚类处理模块在所述聚类运算周期中所得到的用户行为类型与相应的用户行为类型特征向量执行操作以更新所述用户行为类型词典。
一种基于用户网络行为分类的搜索装置,所述装置包括行为记录模块、词典查询模块、适配处理模块和结果返回模块;
所述行为记录模块,用于接收用户在搜索引擎输入的搜索请求query;
所述词典查询模块,用于从用户行为类型词典中查询所述query,确定与所述query匹配的用户行为类型;
所述适配处理模块,用于根据所述用户行为类型,对所述搜索引擎所返回的匹配所述query的搜索结果进行适配处理;
所述结果返回模块,用于将所述适配处理后的搜索结果返回给所述用户;
其中,所述用户行为类型词典是由所述用户网络行为的分类装置所获得。
根据本发明之一优选实施例,若所述词典查询模块确定所述用户行为类型为导航类;
所述适配处理模块确定搜索结果排序首位的统一资源定位符URL;
所述结果返回模块利用所述URL返回给所述用户进行站点导航。
根据本发明之一优选实施例,所述结果返回模块具体将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。
根据本发明之一优选实施例,若所述词典查询模块确定所述用户行为类型为导航类,则所述适配处理模块对排序前M位的所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接,其中M为大于等于1的自然数。
根据本发明之一优选实施例,若所述词典查询模块确定所述用户行为类型为知识类,则所述适配处理模块对所述搜索结果进行去重处理。
根据本发明之一优选实施例,其特征在于,所述行为记录模块,还用于接收并存储所述用户在所述搜索结果页的点击行为信息,并建立所述query与所述点击行为信息的对应关系。
根据本发明之一优选实施例,所述装置进一步包括满意度评价模块:
所述满意度评价模块,用于根据所述用户行为类型与所述用户点击行为信息确定搜索满意度评价。
根据本发明之一优选实施例,若所述词典查询模块确定所述用户行为类型为导航类,并且;
若所述点击行为信息为仅所述搜索结果页中的第一位结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度高;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度低。
根据本发明之一优选实施例,若所述词典查询模块确定所述用户行为类型为知识类,并且;
若所述点击行为信息为仅所述搜索结果页中的一个结果被点击或没有结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度低;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度高。
通过上述实施例,本发明能够根据用户搜索后的点击行为数据,以聚类方法对用户行为数据进行分类,藉此可以为用户提供更多针对性的服务或应用,比如用户行为反馈提权模型和搜索引擎自动评估方法,还可以在所有基于用户行为数据的服务或应用上使用等,具体来说,可以有效提高基于用户行为反馈提权模型的准确率,以及提高根据用户行为进行搜索引擎自动评估搜索满意度的准确率。
【附图说明】
图1是本发明实施例中的用户网络行为的分类方法的流程图;
图2是本发明实施例中的用户行为特征向量集合计算方法的流程图;
图3是本发明实施例中的确定对应关系方法的流程图;
图4是本发明实施例中的基于用户网络行为分类的搜索方法的流程图;
图5是本发明实施例中的用户网络行为的分类装置的结构图;
图6是本发明实施例中的基于用户网络行为分类的搜索装置的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参阅图1,图1是本发明实施例中的用户网络行为的分类方法的流程图,如图1所示,在本实施例中,通过聚类方法对用户行为数据进行分类,并建立用户行为分类词典,该用户网络行为的分类方法主要包括以下几个步骤:
步骤101:获取用户行为数据,所述用户行为数据为用户在搜索引擎的所输入的query以及用户在相应搜索结果页的点击行为信息。
本发明实施例中,用户行为数据包括用户在搜索引擎所输入的query以及用户在该query所对应搜索结果页的点击行为信息,均存储于搜索引擎日志中,而步骤101从搜索引擎日志获取用户行为数据。其中,点击行为信息包括:点击次数、点击时间、点击位置、鼠标停留位置、鼠标停留时间中的一个或以上所列的任意组合。
较优地,步骤101可获取指定时间区间内所包含的所述用户行为数据。该指定时间区间可以是1小时、1天、1周或1个月等倍数,时间区间越大,所获取的用户行为数据量越大、计算复杂度越高、运算时间越长;优选地,本发明之一具体实施例中,从搜索引擎日志获取1天所包含的用户行为数据作为步骤102的输入。
步骤102:分别对相同query对应的所述点击行为信息进行用户行为特征的统计,得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
以所述query作为索引,对相应的所述点击行为信息进行用户行为特征的统计计算,得到用户行为特征向量,本步骤对步骤101所获取的各个不重复query及其点击行为信息计算完毕后,即可得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
用户行为特征是将用户有价值的行为进行抽象,使其能够真实的反应每个query及其搜索结果对用户带来的影响,用户行为特征向量体现了query与各种用户行为特征对应的关系,数据格式是<query,f1,f2......,fn>,其中f为用户行为特征,n为自然数,而用户行为特征向量集合的总数就是步骤101所获取的用户行为数据中不重复query的总数。
本发明实施例中所使用的用户行为特征可以包括但不限于:首次平均点击时间,用户平均持续时间、第一位的点击率、前三点击率、总点击率、第一位满意点击率、前三满意点击率中的一个或以上所列的任意组合。以下对前述用户行为特征给出定义与说明:
首次平均点击时间:同一query对应的所有用户的首次点击时间计算平均值,其中,首次点击时间为用户搜完query后到在搜索结果页上发生首次点击的时间。
用户平均持续时间:同一query对应的所有用户的持续时间计算平均值,其中,持续时间为用户从搜索开始一直到最后一次动作之间持续的时间。
第一位的点击率:同一query对应的搜索结果页第一位展现的URL发生点击的概率。
前三点击率:同一query对应的搜索结果页展现在前三位的URL发生点击的概率。
总点击率:同一query对应的所有搜索结果上总共发生点击的概率。
第一位满意点击率:同一query对应的搜索结果页第一位展现的URL获得满意点击的概率。
前三满意点击率:同一query对应的搜索结果页展现在前三位的URL发生满意点击的概率。
以下将参见图2对步骤102作进一步说明,图2是本发明实施例中的用户行为特征向量集合计算方法的流程图,在本实施例中,图2所示流程为步骤102得到用户行为特征向量集合的优选方法,具体包括以下步骤:
步骤201:把所述用户行为数据按照query进行归类。
query和点击行为信息为1:n的关系,n≥1,代表着同一个query可能有多个用户输入搜索引擎进行搜索,并且在搜索结果页中有各自不同的点击行为信息存储于搜索引擎日志中。步骤201将步骤101所获取的用户行为数据按照query进行归类后,可以使所有用户在同一query相应搜索结果页中的点击行为信息集中排列。
步骤202:将归类于相同query的点击行为信息进行用户行为特征的统计,以得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
根据步骤102所述用户行为特征的定义,以query为单位,逐一或并行对所有用户在同一query相应搜索结果页中的点击行为信息进行统计计算后,得到用户行为特征向量集合。
请继续参见图1。
步骤103:对所述用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型。
本步骤可以采用包括但不限于以下算法进行聚类:概率潜在语义分析(PLSA)模型算法、K均值聚类算法(k-means)、或层次聚类方法对所述用户行为特征向量集合进行聚类以得到所述用户行为类型与相应的用户行为类型特征向量,也就是把用户行为特征向量集合中,用户行为特征值共性程度高的用户行为特征向量聚成同类,在此步骤执行完成后,即可得到一个以上的用户行为类型与相应的用户行为类型特征向量,用户行为类型特征向量体现了用户行为类型与各种用户行为特征对应的关系,数据格式是<C,f1,f2......,fn>,其中C为用户行为类型,f为用户行为特征,n为自然数。
在本发明实施例中,用户行为类型可以包括但不限于导航类与知识类,举例来说,导航类的用户行为类型普遍具有在搜索结果页中仅点击首位或排名前几位搜索结果的用户行为特征,代表着用户藉由在搜索引擎输入query,期望在搜索结果中可以快速得到目标站点或页面的URL,因此导航类又可称为寻址类,以下统称为导航类;知识类的用户行为类型则是在搜索结果页中会点击复数个搜索结果,象徵着用户藉由在搜索引擎输入query,期望在搜索结果中可以得到多种相关知识站点或页面的URL,因此知识类也可称为问答类或经验类,以下统称为知识类。
优选地,本发明一具体实施例采用PLSA来对所述用户行为特征向量集合进行聚类,效果显著。其中:
PLSA在1999年由Hofmann提出。PLSA的最大特点其是一种概率模型,并将主题(topic)这一概念直接引入到了模型中,这里所谓的主题可以认为是一种语义类别。
这种分析的假设为每篇文档d都由若干主题z构成,每个主题占有一定的比重p(z|d),或者每篇文档都以一定的概率p(z|d)属于某一主题。并且假定,在给定主题的条件下,每个词w都以一定的概率p(w|z)产生。这样,文档和词的共现可以用一种产生式的方式来描述:
p ( d , w ) = p ( d ) &Sigma; k = 1 k = T p ( z k | d ) p ( w | z k )
其中,p(d,w)为文档d和词w共现的概率,p(d)为文档d在总文档集合中出现的概率,zk∈{z1,z2,...,zT}为主题,也就是一种语义类别,T为主题总数。而PLSA分析的结果,就是得出p(z|d)、p(w|z)这些概率,评价标准是使得数据集合似然度最大。
在本实施例中,query就是上述公式中的d,用户行为类型是z,而用户行为特征是w,p(d,w)为query和用户行为特征共现的概率,p(z|d)为同一个query中每个用户行为类型占有的概率,p(w|z)为给定用户行为类型z的条件下,每个用户行为特征w的产生概率。优选地,本发明之具体实施例利用最大期望算法(EM,Expectation-Maximization)进行迭代计算求得前述的p(z|d)、p(w|z)这些概率,使得数据集合似然度最大,藉此,即可完成对用户行为特征向量集合的聚类处理,也就是说确定哪些用户行为特征向量属于同一用户行为类型,并且同时可以确定该用户行为类型对应的用户行为类型特征向量。由于PLSA与EM算法均为本领域成熟算法,在此便不再赘述。
步骤104:确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典。
请参阅图3,图3是本发明实施例中的确定对应关系方法的流程图。在本实施例中,确定对应关系方法包括以下步骤:
步骤301:将所述用户行为特征向量集合中的每一用户行为特征向量逐一与所述用户行为类型特征向量进行相似度计算。
在该步骤中,可利用cosine公式、Dice-coefficient公式等各种相似度计算公式来计算相似度,上述相似度计算方法均为本领域公知技术,在此不再赘述。
步骤302:根据最大相似度,确定所述用户行为特征向量所对应query以及所述用户行为类型特征向量所对应用户行为类型的对应关系,以获得所述用户行为类型词典。
用户行为类型词典的形式可以如表1所示的例子,其中,qx代表query,x是步骤101所获取的用户行为数据中不重复query的总数,Cy代表用户行为类型,y是步骤103所得到的用户行为类型总数。
表1
  query   用户行为类型
  q1   C1
  q2   C3
  q3   Cy
  ...   ...
  qx   C1
优选地,query与用户行为类型的对应关系为n:1,n≥1,代表着不同query可以对应到同一个用户行为类型,如表1中的q1和qx均对应到C1,举例来说,假设C1为导航类,q1为新浪,qx为雅虎,可以理解到在用户输入query q1或qx时,是想要藉由搜索引擎返回给新浪或雅虎的站点或页面URL以达到快速导航的目的。
值得注意的是,本发明实施例在建立用户行为类型词典时,不对query进行分词处理,而是保留用户在搜索引擎原始输入的完整格式,因为query的字词即使差异很小,有可能含意就完全不一样了,同时也代表着不同的需求,相应的用户行为类型就会跟着不同。举例来说:q1为新浪,q2为新浪好不好,这两个query的含意完全不同,对应到的用户行为类型也会有所差异。
此外,如前所述,步骤101可仅获取指定时间区间内所包含的所述用户行为数据,本发明之一优选实施例可配置一聚类运算周期,以触发执行所述步骤101获取指定时间区间内所包含的所述用户行为数据,并依序执行所述步骤102、所述步骤103及所述步骤104以获得所述用户行为类型词典。
优选地,本实施例更可进一步配置一词典更新周期,重新执行所述步骤101获取指定时间区间内所包含的所述用户行为数据,再执行所述步骤102,并利用在所述聚类运算周期中所述步骤103所得到的用户行为类型与相应的用户行为类型特征向量执行所述步骤104以更新所述用户行为类型词典。
也就是说,用户行为类型与相应的用户行为类型特征向量是透过大量的用户行为数据进行聚类和归纳所获得,而用户行为类型词典是确定query和用户行为类型的关系所建立,其中,用户行为类型和点击行为的用户行为特征即使随着时间范围的增加,并不会有太大的变化,例如前述例子中的导航类或知识类;但是,随着时间的变化,可能会有新的query可以代表新事件或对象所指向的站点或页面,并且这些新的query和相应的用户行为特征可以被归类到步骤103所得到的用户行为类型中,而这些新的query未被用户行为类型词典所收录。
具体地,本发明之一优选实施例透过配置聚类运算周期和词典更新周期来分别建立和更新用户行为类型词典,在词典更新周期可以直接利用在所述聚类运算周期中所述步骤103所得到的用户行为类型与相应的用户行为类型特征向量,执行所述步骤101、所述步骤102及所述步骤104,将步骤101所获取指定时间区间内并且在用户行为类型词典中未收录的query加入并更新所述用户行为类型词典,而不需要重复执行步骤103,可有效减少运算量、运算时间并且提高运算效率。
至此,本发明实施例中的用户网络行为的分类方法结束,以上可以看出,相对现有技术忽略用户行为数据之间存在的差异的情况,本发明根据用户的点击行为数据为基础进行分析后,透过聚类算法细分用户行为类型,并确定query和用户行为类型以建立用户行为类型词典,由此结果可以为用户提供更多针对性的服务或应用,比如可以促进基于用户行为反馈提权模型准确率的提高,可以使根据用户行为进行搜索引擎自动评估的准确率提高,还可以在所有基于用户行为数据的服务或应用上使用等。
对本发明用户网络行为的分类方法所获得的用户行为类型词典的具体应用方式,下面通过图4对本发明实施例中基于用户网络行为分类的搜索方法进行详细描述。
请参阅图4,图4是本发明实施例中的基于用户网络行为分类的搜索方法的流程图,如图4所示,该方法包括以下步骤:
步骤401:接收用户在搜索引擎输入的query。
具体地,所述query作为步骤402的输入,并且同时存储于搜索引擎日志中。
步骤402:从用户行为类型词典中查询所述query,确定与所述query匹配的用户行为类型。
其中,所述用户行为类型词典是由所述用户网络行为的分类方法所获得。值得注意的是,本步骤查询用户行为类型词典是根据完全匹配来确定与所述query相应的用户行为类型,因为query的字词即使差异很小,有可能含意就完全不一样了,同时也代表着不同的需求,相应的用户行为类型就会跟着不同。
步骤403:根据所述用户行为类型,对所述搜索引擎所返回的匹配所述query的搜索结果进行适配处理。
步骤404:将所述适配处理后的搜索结果返回给所述用户。
以下将对不同的用户行为类型,对步骤403和步骤404的具体实施方式提出实施例进行说明。
实施例I:
若所述用户行为类型确定为导航类,步骤403具体为确定搜索结果排序首位的统一资源定位符(URL),步骤404具体为利用所述URL返回给所述用户进行站点导航;具体来说,当用户在搜索引擎输入query,本实施例透过查询用户行为类型词典确定所述query匹配的用户行为类型为导航类后,确定所述搜索引擎返回匹配所述query的搜索结果中排序首位的URL,并将所述确定的URL返回给用户;进一步还可以建立用户和所述URL的连结,直接返回所述URL的页面给用户以进行站点导航,省去用户在搜索结果页中的浏览与点击行为,提高用户的搜索体验也节约了网络频宽和流量的占用。
优选地,所述步骤404更可以将所述适配处理后的搜索结果组成搜索结果页返回给所述用户,在此技术特征的前提下,以下提出实施例II、III详细说明具体实施方式。
实施例II
若所述用户行为类型确定为导航类,则所述步骤403具体为对排序前M位的所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接,其中M为大于等于1的自然数,所述步骤404将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。其中,视觉特征强调处理可包括但不限于:在搜索结果页上更大的展示空间、以不同的颜色与其他搜索结果做出区别、增加推荐或指示的图标以与其他搜索结果做出区别。
具体而言,因为确定用户所输入的query为导航类,可以理解用户希望藉由搜索引擎所返回的搜索结果页,能够快速、准确地列出目标站点或页面的URL,因此,本实施例对所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接后组成搜索结果页并返回给用户,使得用户在搜索结果页中可以快速地查找到目标站点或页面的URL,有效提高用户的搜索体验也节约了网络频宽和流量的占用。
实施例III
若所述用户行为类型确定为知识类,则所述步骤403具体为对所述搜索结果进行去重处理,所述步骤404将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。其中,去重处理是把搜索结果过滤重复网页,以展现更多样化匹配query的搜索结果,更能满足用户对于知识类的需求。
值得注意的是,因为确定用户所输入的query为知识类,可以理解用户希望藉由搜索引擎所返回的搜索结果页中,期望得到多种相关知识站点或页面的URL,而非在搜索结果中充斥着许多重复或极为相似的网页,例如转帖或引用的重复内容。因此,本实施例对所述搜索结果进行去重处理后组成搜索结果页并返回给用户,使得用户在搜索结果页中可以浏览多种相关知识站点或页面的URL,有效提高用户的搜索体验,也有效减少用户对搜索结果重复内容太多而进行多次搜索对搜索引擎服务器效能、网络频宽和流量的占用。
请继续参阅图4,本发明实施例中的基于用户网络行为分类的搜索方法的还可以包括以下步骤:
步骤405:接收并存储所述用户在所述搜索结果页的点击行为信息,并建立所述query与所述点击行为信息的对应关系。
所述点击行为信息存储于搜索引擎日志中,并且与所述query建立对应关系;搜索引擎日志所存储的所述query与对应的点击行为信息统称为用户行为数据,可提供给本发明实施例中用户网络行为的分类方法的步骤101所获取,用以得到用户行为类型、建立或更新用户行为类型词典。
步骤406:根据所述用户行为类型与所述用户点击行为信息确定搜索满意度评价。
针对query的搜索满意度,本发明实施例可以从用户行为类型与用户点击行为信息进行评价,评价结果进一步可以用来对搜索引擎的排序进行优化改进。
举例来说,若所述用户行为类型确定为导航类,则所述步骤406确定搜索满意度评价的方法具体包括:若所述点击行为信息为仅所述搜索结果页中的第一位结果被点击,则确定所述用户对所述搜索满意度高;若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度低。具体来说,导航类的query,若用户在搜索结果页中仅点击排名首位的搜索结果,可以认为在这一次点击就达到了导航目的,也就是确定搜索引擎返回匹配的搜索结果与排序对用户来说满意度高;若点击了复数个结果,可以理解成用户所点击的前几个结果无法快速、直接完成导航或寻址的目的,因此,确定搜索满意度低。
举另一个例子,若所述用户行为类型确定为知识类,则所述步骤406确定搜索满意度评价的方法具体包括:若所述点击行为信息为仅所述搜索结果页中的一个结果被点击或没有结果被点击,则确定所述用户对所述搜索满意度低;若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度高。具体地,知识类的query,若在搜索结果页中仅一个结果或没有结果被用户点击,可以认为用户在搜索引擎返回匹配的搜索结果页中无法获得多种相关知识站点或页面的URL,因此确定搜索满意度低,反之,若复数个结果被用户点击,可以理解成用户在搜索结果页中获得了相关知识,因此可以确定搜索满意度高。
至此,本发明实施例中的基于用户网络行为分类的搜索方法结束。
请参阅图5,图5是本发明实施例中的用户网络行为的分类装置的结构图,如图5所示,该装置主要包括获取数据模块501、特征计算模块502、聚类处理模块503和词典维护模块504。
获取数据模块501,用于获取用户行为数据,所述用户行为数据为用户在搜索引擎所输入的query以及用户在相应搜索结果页的点击行为信息。
用户行为数据包括用户在搜索引擎所输入的query以及用户在该query所相应搜索结果页的点击行为信息,均存储于搜索引擎日志中,而获取数据模块501从搜索引擎日志获取用户行为数据。其中,点击行为信息包括:点击次数、点击时间、点击位置、鼠标停留位置、鼠标停留时间中的一个或以上所列的任意组合。
较优地,获取数据模块501可获取指定时间区间内所包含的所述用户行为数据。该指定时间区间可以是1小时、1天、1周或1个月等倍数,时间区间越大,所获取的用户行为数据量越大、计算复杂度越高、运算时间越长;优选地,本发明之一具体实施例中,获取数据模块501从搜索引擎日志获取1天所包含的用户行为数据作为特征计算模块502的输入。
特征计算模块502,用于分别对相同query对应的所述点击行为信息进行用户行为特征的统计,得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
用户行为特征是将用户有价值的行为进行抽象,使其能够真实的反应每个query及其搜索结果对用户带来的影响,用户行为特征向量体现了query与各种用户行为特征对应的关系,数据格式是<query,f1,f2......,fn>,其中f为用户行为特征,n为自然数,而用户行为特征向量集合的总数就是获取数据模块501所获取的用户行为数据中不重复query的总数。
本发明实施例中所使用的用户行为特征可以包括但不限于:首次平均点击时间,用户平均持续时间、第一位的点击率、前三点击率、总点击率、第一位满意点击率、前三满意点击率中的一个或以上所列的任意组合。以下对前述用户行为特征给出定义与说明:
首次平均点击时间:同一query对应的所有用户的首次点击时间计算平均值,其中,首次点击时间为用户搜完query后到在搜索结果页上发生首次点击的时间。
用户平均持续时间:同一query对应的所有用户的持续时间计算平均值,其中,持续时间为用户从搜索开始一直到最后一次动作之间持续的时间。
第一位的点击率:同一query对应的搜索结果页第一位展现的URL发生点击的概率。
前三点击率:同一query对应的搜索结果页展现在前三位的URL发生点击的概率。
总点击率:同一query对应的所有搜索结果上总共发生点击的概率。
第一位满意点击率:同一query对应的搜索结果页第一位展现的URL获得满意点击的概率。
前三满意点击率:同一query对应的搜索结果页展现在前三位的URL发生满意点击的概率。
其中,特征计算模块502包括归类单元5021和统计单元5022。
归类单元5021,用于把所述用户行为数据按照query进行归类。
query和点击行为信息为1:n的关系,n≥1,代表着同一个query可能有多个用户输入搜索引擎进行搜索,并且在搜索结果页中有各自不同的点击行为信息存储于搜索引擎日志中。归类单元5021将获取数据模块501所获取的用户行为数据按照query进行归类后,可以使所有用户在同一query相应搜索结果页中的点击行为信息集中排列。
统计单元5022,用于将归类于相同query的点击行为信息进行用户行为特征的统计,以得到由各query对应的用户行为特征向量构成的用户行为特征向量集合。
具体地,统计单元5022根据所述用户行为特征的定义,以query为单位,逐一或并行对所有用户在同一query相应搜索结果页中的点击行为信息进行统计计算后,得到用户行为特征向量集合。
聚类处理模块503,用于对所述用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型。
聚类处理模块503可以采用包括但不限于以下算法进行聚类:概率潜在语义分析(PLSA)模型算法、K均值聚类算法(k-means)、或层次聚类方法对所述用户行为特征向量集合进行聚类以得到所述用户行为类型与相应的用户行为类型特征向量,也就是把用户行为特征向量集合中,用户行为特征值共性程度高的用户行为特征向量聚成同类,在聚类处理模块503聚类完成后,即可得到一个以上的用户行为类型与相应的用户行为类型特征向量,用户行为类型特征向量体现了用户行为类型与各种用户行为特征对应的关系,数据格式是<C,f1,f2......,fn>,其中C为用户行为类型,f为用户行为特征,n为自然数。
在本发明实施例中,用户行为类型可以包括但不限于导航类与知识类,举例来说,导航类的用户行为类型普遍具有在搜索结果页中仅点击首位或排名前几位搜索结果的用户行为特征,代表着用户藉由在搜索引擎输入query,期望在搜索结果中可以快速得到目标站点或页面的URL,因此导航类又可称为寻址类,以下统称为导航类;知识类的用户行为类型则是在搜索结果页中会点击复数个搜索结果,象徵着用户藉由在搜索引擎输入query,期望在搜索结果中可以得到多种相关知识站点或页面的URL,因此知识类也可称为问答类或经验类,以下统称为知识类。
优选地,本发明一具体实施例中,聚类处理模块503采用PLSA来对所述用户行为特征向量集合进行聚类,效果显著。其中:
PLSA在1999年由Hofmann提出。PLSA的最大特点其是一种概率模型,并将主题(topic)这一概念直接引入到了模型中,这里所谓的主题可以认为是一种语义类别。
这种分析的假设为每篇文档d都由若干主题z构成,每个主题占有一定的比重p(z|d),或者每篇文档都以一定的概率p(z|d)属于某一主题。并且假定,在给定主题的条件下,每个词w都以一定的概率p(w|z)产生。这样,文档和词的共现可以用一种产生式的方式来描述:
p ( d , w ) = p ( d ) &Sigma; k = 1 k = T p ( z k | d ) p ( w | z k )
其中,p(d,w)为文档d和词w共现的概率,p(d)为文档d在总文档集合中出现的概率,zk∈{z1,z2,...,zT}为主题,也就是一种语义类别,T为主题总数。而PLSA分析的结果,就是得出p(z|d)、p(w|z)这些概率,评价标准是使得数据集合似然度最大。
在本实施例中,query就是上述公式中的d,用户行为类型是z,而用户行为特征是w,p(d,w)为query和用户行为特征共现的概率,p(z|d)为同一个query中每个用户行为类型占有的概率,p(w|z)为给定用户行为类型z的条件下,每个用户行为特征w的产生概率。优选地,本发明之具体实施例利用最大期望算法(EM,Expectation-Maximization)进行迭代计算求得前述的p(z|d)、p(w|z)这些概率,使得数据集合似然度最大,藉此,即可完成对用户行为特征向量集合的聚类处理,也就是说确定哪些用户行为特征向量属于同一用户行为类型,并且同时可以确定该用户行为类型对应的用户行为类型特征向量。由于PLSA与EM算法均为本领域成熟算法,在此便不再赘述。
词典维护模块504,用于确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典。
其中,词典维护模块504包括相似度计算单元5041和类型确定单元5042。
相似度计算单元5041,用于将所述用户行为特征向量集合中的每一用户行为特征向量逐一与所述用户行为类型特征向量进行相似度计算。
相似度计算单元5041具体可利用cosine公式、Dice-coefficient公式等各种相似度计算公式来计算相似度,上述相似度计算方法均为本领域公知技术,在此不再赘述。
类型确定单元5042,用于根据所述相似度计算单元5041获得的最大相似度,确定所述用户行为特征向量所对应query以及所述用户行为类型特征向量所对应用户行为类型的对应关系,以获得所述用户行为类型词典。
优选地,query与用户行为类型的对应关系为n:1,n≥1,代表着不同query可以对应到同一个用户行为类型。
值得注意的是,本发明实施例在建立用户行为类型词典时,不对query进行分词处理,而是保留用户在搜索引擎原始输入的完整格式,因为query的字词即使差异很小,有可能含意就完全不一样了,同时也代表着不同的需求,相应的用户行为类型就会跟着不同。
此外,用户网络行为的分类装置还包括周期控制模块505。如前所述,获取数据模块501可仅获取指定时间区间内所包含的用户行为数据,本发明之一优选实施例,周期控制模块505可配置一聚类运算周期,以触发获取数据模块501获取指定时间区间内所包含的用户行为数据,并依序触发特征计算模块502、聚类处理模块503和词典维护模块504执行操作以获得所述用户行为类型词典。
优选地,本实施例中的周期控制模块505更可进一步配置一词典更新周期,重新触发获取数据模块501获取指定时间区间内所包含的所述用户行为数据,再触发特征计算模块502执行操作,接著触发词典维护模块504利用在所述聚类运算周期中聚类处理模块503所得到的用户行为类型与相应的用户行为类型特征向量执行操作,以更新所述用户行为类型词典。
也就是说,用户行为类型与相应的用户行为类型特征向量是透过大量的用户行为数据进行聚类和归纳所获得,而用户行为类型词典是确定query和用户行为类型的关系所建立,其中,用户行为类型和点击行为的用户行为特征即使随着时间范围的增加,并不会有太大的变化,例如前述例子中的导航类或知识类;但是,随着时间的变化,可能会有新的query可以代表新事件或对象所指向的站点或页面,并且这些新的query和相应的用户行为特征可以被归类到聚类处理模块503所得到的用户行为类型中,而这些新的query未被用户行为类型词典所收录。
具体地,本发明之一优选实施例透过周期控制模块505配置聚类运算周期和词典更新周期来分别建立和更新用户行为类型词典,在词典更新周期可以直接利用在聚类运算周期中聚类处理模块503所得到的用户行为类型与相应的用户行为类型特征向量,依序触发获取数据模块501、特征计算模块502和词典维护模块504执行,将获取数据模块501所获取指定时间区间内并且在用户行为类型词典中未收录的query加入并更新所述用户行为类型词典,而不需要聚类处理模块503重复执行聚类运算,可有效减少运算量、运算时间并且提高运算效率。
至此,本发明实施例中的用户网络行为的分类装置结束,以上可以看出,相对现有技术忽略用户行为数据之间存在的差异的情况,本发明根据用户的点击行为数据为基础进行分析后,透过聚类算法细分用户行为类型,并确定query和用户行为类型以建立用户行为类型词典,由此结果可以为用户提供更多针对性的服务或应用,比如可以促进基于用户行为反馈提权模型准确率的提高,可以使根据用户行为进行搜索引擎自动评估的准确率提高,还可以在所有基于用户行为数据的服务或应用上使用等。
对本发明用户网络行为的分类装置所获得的用户行为类型词典的具体应用方式,下面通过图6对本发明实施例中基于用户网络行为分类的搜索装置进行详细描述。
请参阅图6,图6是本发明实施例中的基于用户网络行为分类的搜索装置的结构图,如图6所示,该装置主要包括行为记录模块601、词典查询模块602、适配处理模块603和结果返回模块604。
行为记录模块601,用于接收用户在搜索引擎输入的query。
词典查询模块602,用于从用户行为类型词典中查询所述query,确定与所述query匹配的用户行为类型。
其中,所述用户行为类型词典是由所述用户网络行为的分类装置所获得。值得注意的是,本步骤查询用户行为类型词典是根据完全匹配来确定与所述query相应的用户行为类型,因为query的字词即使差异很小,有可能含意就完全不一样了,同时也代表着不同的需求,相应的用户行为类型就会跟着不同。
适配处理模块603,用于根据所述用户行为类型,对所述搜索引擎所返回的匹配所述query的搜索结果进行适配处理。
结果返回模块604,用于将所述适配处理后的搜索结果返回给所述用户。
以下将对不同的用户行为类型,对适配处理模块603和结果返回模块604的具体实施方式提出实施例进行说明。
若词典查询模块602确定用户行为类型为导航类,则适配处理模块603确定搜索结果排序首位的统一资源定位符(URL),结果返回模块604利用所述URL返回给所述用户进行站点导航;具体来说,当用户在搜索引擎输入query,本实施例透过词典查询模块602查询用户行为类型词典确定所述query匹配的用户行为类型为导航类后,适配处理模块603确定所述搜索引擎返回匹配所述query的搜索结果中排序首位的URL,结果返回模块604将所述确定的URL返回给用户;结果返回模块604进一步还可以建立用户和所述URL的连结,直接返回所述URL的页面给用户以进行站点导航,省去用户在搜索结果页中的浏览与点击行为,提高用户的搜索体验也节约了网络频宽和流量的占用。
优选地,结果返回模块604更可以将适配处理模块603处理后的搜索结果组成搜索结果页返回给所述用户,在此技术特征的前提下,以下提出实施例详细说明具体实施方式。
若词典查询模块602确定所述用户行为类型为导航类,则适配处理模块603对排序前M位的所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接,其中M为大于等于1的自然数,结果返回模块604将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。其中,视觉特征强调处理可包括但不限于:在搜索结果页上更大的展示空间、以不同的颜色与其他搜索结果做出区别、增加推荐或指示的图标以与其他搜索结果做出区别。
具体而言,因为确定用户所输入的query为导航类,可以理解用户希望藉由搜索引擎所返回的搜索结果页,能够快速、准确地列出目标站点或页面的URL,因此,本实施例中的适配处理模块603对所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接后,由结果返回模块604组成搜索结果页并返回给用户,使得用户在搜索结果页中可以快速地查找到目标站点或页面的URL,有效提高用户的搜索体验也节约了网络频宽和流量的占用。
若词典查询模块602确定所述用户行为类型为知识类,则适配处理模块603对所述搜索结果进行去重处理,结果返回模块604将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。其中,去重处理是把搜索结果过滤重复网页,以展现更多样化匹配query的搜索结果,更能满足用户对于知识类的需求。
值得注意的是,因为确定用户所输入的query为知识类,可以理解用户希望藉由搜索引擎所返回的搜索结果页中,期望得到多种相关知识站点或页面的URL,而非在搜索结果中充斥着许多重复或极为相似的网页,例如转帖或引用的重复内容。因此,本实施例中的适配处理模块603对所述搜索结果进行去重处理后,由结果返回模块604组成搜索结果页并返回给用户,使得用户在搜索结果页中可以浏览多种相关知识站点或页面的URL,有效提高用户的搜索体验,也有效减少用户对搜索结果重复内容太多而进行多次搜索对搜索引擎服务器效能、网络频宽和流量的占用。
其中,行为记录模块601还可以进一步用于接收并存储所述用户在所述搜索结果页的点击行为信息,并建立所述query与所述点击行为信息的对应关系。
所述点击行为信息存储于搜索引擎日志中,并且与所述query建立对应关系;搜索引擎日志所存储的所述query与对应的点击行为信息统称为用户行为数据,可提供给本发明实施例中用户网络行为的分类装置的获取数据模块501所获取,用以得到用户行为类型、建立或更新用户行为类型词典。
此外,所述基于用户网络行为分类的搜索装置进一步包括满意度评价模块605。
满意度评价模块605,用于根据所述用户行为类型与所述用户点击行为信息确定搜索满意度评价。
针对query的搜索满意度,本发明实施例中的满意度评价模块605可以从用户行为类型与用户点击行为信息进行评价,评价结果进一步可以用来对搜索引擎的排序进行优化改进。
举例来说,若所述词典查询模块602确定所述用户行为类型为导航类,则满意度评价模块605确定搜索满意度评价的方法具体包括:若所述点击行为信息为仅所述搜索结果页中的第一位结果被点击,则确定所述用户对所述搜索满意度高;若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度低。具体来说,导航类的query,若用户在搜索结果页中仅点击排名首位的搜索结果,可以认为在这一次点击就达到了导航目的,也就是确定搜索引擎返回匹配的搜索结果与排序对用户来说满意度高;若点击了复数个结果,可以理解成用户所点击的前几个结果无法快速、直接完成导航或寻址的目的,因此,确定搜索满意度低。
举另一个例子,若词典查询模块602确定所述用户行为类型为知识类,则满意度评价模块605确定搜索满意度评价的方法具体包括:若所述点击行为信息为仅所述搜索结果页中的一个结果被点击或没有结果被点击,则确定所述用户对所述搜索满意度低;若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度高。具体地,知识类的query,若在搜索结果页中仅一个结果或没有结果被用户点击,可以认为用户在搜索引擎返回匹配的搜索结果页中无法获得多种相关知识站点或页面的URL,因此确定搜索满意度低,反之,若复数个结果被用户点击,可以理解成用户在搜索结果页中获得了相关知识,因此可以确定搜索满意度高。
本发明的用户行为类型并不限于上述例子。
在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

Claims (32)

1.一种用户网络行为的分类方法,其特征在于,所述方法包括以下步骤:
A、获取用户行为数据,所述用户行为数据为用户在搜索引擎所输入的搜索请求query以及用户在相应搜索结果页的点击行为信息;
B、分别对相同query对应的所述点击行为信息进行用户行为特征的统计,得到由各query对应的一个用户行为特征向量构成的用户行为特征向量集合;
C、对所述用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型;
D、确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典;其中
所述步骤B具体包括:
B1、把所述用户行为数据按照query进行归类;
B2、将归类于相同query的点击行为信息进行用户行为特征的统计,以得到由各query对应的一个用户行为特征向量构成的用户行为特征向量集合;其中,
所述步骤B中,所述用户行为特征包括:
首次平均点击时间,用户平均持续时间、第一位的点击率、前三点击率、总点击率、第一位满意点击率、前三满意点击率中的一个或以上所列的任意组合。
2.如权利要求1所述的方法,其特征在于,所述点击行为信息包括:点击次数、点击时间、点击位置、鼠标停留位置、鼠标停留时间中的一个或以上所列的任意组合。
3.如权利要求1所述的方法,其特征在于,所述步骤A中所述获取用户行为数据为:
获取指定时间区间内所包含的所述用户行为数据。
4.如权利要求1所述的方法,其特征在于,所述步骤C具体为:
采用概率潜在语义分析PLSA模型算法、K均值聚类算法k-means、或层次聚类方法对所述用户行为特征向量集合进行聚类以得到所述用户行为类型。
5.如权利要求1所述的方法,其特征在于,所述步骤D具体包括:
D1、将所述用户行为特征向量集合中的每一用户行为特征向量逐一与所述用户行为类型特征向量进行相似度计算;
D2、根据最大相似度,确定所述用户行为特征向量所对应query以及所述用户行为类型特征向量所对应用户行为类型的对应关系,并存储为用户行为类型词典。
6.如权利要求1所述的方法,其特征在于,在聚类运算周期时,执行所述步骤A、所述步骤B、所述步骤C及所述步骤D以获得所述用户行为类型词典。
7.如权利要求6所述的方法,其特征在于,该方法进一步包括:
在词典更新周期时,重新执行所述步骤A、所述步骤B,并利用在所述聚类运算周期中所述步骤C所得到的用户行为类型与相应的用户行为类型特征向量执行所述步骤D以更新所述用户行为类型词典。
8.一种基于用户网络行为分类的搜索方法,其特征在于,所述方法包括以下步骤:
A、接收用户在搜索引擎输入的搜索请求query;
B、从用户行为类型词典中查询所述query,确定与所述query匹配的用户行为类型;
C、根据所述用户行为类型,对所述搜索引擎所返回的匹配所述query的搜索结果进行适配处理;
D、将所述适配处理后的搜索结果返回给所述用户;
其中,所述用户行为类型词典是由权利要求1所述的方法所获得。
9.如权利要求8所述的方法,其特征在于,若所述用户行为类型确定为导航类:
所述步骤C具体为确定搜索结果排序首位的统一资源定位符URL;
所述步骤D具体为利用所述URL返回给所述用户进行站点导航。
10.如权利要求8所述的方法,其特征在于,所述步骤D具体为:
将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。
11.如权利要求10所述的方法,其特征在于,若所述用户行为类型确定为导航类,则所述步骤C具体为对排序前M位的所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接,其中M为大于等于1的自然数。
12.如权利要求10所述的方法,其特征在于,若所述用户行为类型确定为知识类,则所述步骤C具体为对所述搜索结果进行去重处理。
13.如权利要求10、11或12所述的方法,其特征在于,所述方法进一步包括:
E、接收并存储所述用户在所述搜索结果页的点击行为信息,并建立所述query与所述点击行为信息的对应关系。
14.如权利要求13所述的方法,其特征在于,所述方法进一步包括:
F、根据所述用户行为类型与所述用户点击行为信息确定搜索满意度评价。
15.如权利要求14所述的方法,其特征在于,若所述用户行为类型确定为导航类,则所述步骤F具体包括:
若所述点击行为信息为仅所述搜索结果页中的第一位结果被点击,则确定所述用户对所述搜索满意度高;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度低。
16.如权利要求14所述的方法,其特征在于,若所述用户行为类型确定为知识类,则所述步骤F具体包括:
若所述点击行为信息为仅所述搜索结果页中的一个结果被点击或没有结果被点击,则确定所述用户对所述搜索满意度低;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则确定所述用户对所述搜索满意度高。
17.一种用户网络行为的分类装置,其特征在于,所述装置包括:获取数据模块、特征计算模块、聚类处理模块和词典维护模块;
所述获取数据模块,用于获取用户行为数据,所述用户行为数据为用户在搜索引擎所输入的搜索请求query以及用户在相应搜索结果页的点击行为信息;
所述特征计算模块,用于分别对相同query对应的所述点击行为信息进行用户行为特征的统计,得到由各query对应的一个用户行为特征向量构成的用户行为特征向量集合;
所述聚类处理模块,用于对所述用户行为特征向量集合进行聚类处理,确定由同一类别的用户行为特征向量构成的用户行为类型特征向量及其对应的用户行为类型;
所述词典维护模块,用于确定用户行为类型与query之间的对应关系,并存储为用户行为类型词典;其中,
所述特征计算模块包括归类单元和统计单元;
所述归类单元,用于把所述用户行为数据按照query进行归类;
所述统计单元,用于将归类于相同query的点击行为信息进行用户行为特征的统计,以得到由各query对应的一个用户行为特征向量构成的用户行为特征向量集合;其中,
所述用户行为特征包括:
首次平均点击时间,用户平均持续时间、第一位的点击率、前三点击率、总点击率、第一位满意点击率、前三满意点击率中的一个或以上所列的任意组合。
18.如权利要求17所述的装置,其特征在于,所述点击行为信息包括:点击次数、点击时间、点击位置、鼠标停留位置、鼠标停留时间中的一个或以上所列的任意组合。
19.如权利要求17所述的装置,其特征在于,所述获取数据模块获取指定时间区间内所包含的所述用户行为数据。
20.如权利要求17所述的装置,其特征在于,所述聚类处理模块具体采用概率潜在语义分析PLSA模型算法、K均值聚类算法k-means、或层次聚类方法对所述用户行为特征向量集合进行聚类以得到所述用户行为类型。
21.如权利要求17所述的装置,其特征在于,所述词典维护模块包括相似度计算单元和类型确定单元;
所述相似度计算单元,用于将所述用户行为特征向量集合中的每一用户行为特征向量逐一与所述用户行为类型特征向量进行相似度计算;
所述类型确定单元,用于根据所述相似度计算单元获得的最大相似度,确定所述用户行为特征向量所对应query以及所述用户行为类型特征向量所对应用户行为类型的对应关系,并存储为用户行为类型词典。
22.如权利要求17所述的装置,其特征在于,所述装置还包括周期控制模块;
所述周期控制模块,用于在聚类运算周期时,触发所述获取数据模块、所述特征计算模块、所述聚类处理模块和所述词典维护模块执行操作以获得所述用户行为类型词典。
23.如权利要求22所述的装置,其特征在于,所述周期控制模块,用于在词典更新周期时,重新触发所述获取数据模块、所述特征计算模块执行操作,并触发所述词典维护模块利用所述聚类处理模块在所述聚类运算周期中所得到的用户行为类型与相应的用户行为类型特征向量执行操作以更新所述用户行为类型词典。
24.一种基于用户网络行为分类的搜索装置,其特征在于,所述装置包括行为记录模块、词典查询模块、适配处理模块和结果返回模块;
所述行为记录模块,用于接收用户在搜索引擎输入的搜索请求query;
所述词典查询模块,用于从用户行为类型词典中查询所述query,确定与所述query匹配的用户行为类型;
所述适配处理模块,用于根据所述用户行为类型,对所述搜索引擎所返回的匹配所述query的搜索结果进行适配处理;
所述结果返回模块,用于将所述适配处理后的搜索结果返回给所述用户;
其中,所述用户行为类型词典是由权利要求17所述的装置所获得。
25.如权利要求24所述的装置,其特征在于,若所述词典查询模块确定所述用户行为类型为导航类;
所述适配处理模块确定搜索结果排序首位的统一资源定位符URL;
所述结果返回模块利用所述URL返回给所述用户进行站点导航。
26.如权利要求24所述的装置,其特征在于,所述结果返回模块具体将所述适配处理后的搜索结果组成搜索结果页返回给所述用户。
27.如权利要求26所述的装置,其特征在于,若所述词典查询模块确定所述用户行为类型为导航类,则所述适配处理模块对排序前M位的所述搜索结果进行视觉特征强调处理,或者列出一个以上的子链接,其中M为大于等于1的自然数。
28.如权利要求26所述的装置,其特征在于,若所述词典查询模块确定所述用户行为类型为知识类,则所述适配处理模块对所述搜索结果进行去重处理。
29.如权利要求26、27或28所述的装置,其特征在于,所述行为记录模块,还用于接收并存储所述用户在所述搜索结果页的点击行为信息,并建立所述query与所述点击行为信息的对应关系。
30.如权利要求29所述的装置,其特征在于,所述装置进一步包括满意度评价模块:
所述满意度评价模块,用于根据所述用户行为类型与所述用户点击行为信息确定搜索满意度评价。
31.如权利要求30所述的装置,其特征在于,若所述词典查询模块确定所述用户行为类型为导航类,并且;
若所述点击行为信息为仅所述搜索结果页中的第一位结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度高;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度低。
32.如权利要求30所述的装置,其特征在于,若所述词典查询模块确定所述用户行为类型为知识类,并且;
若所述点击行为信息为仅所述搜索结果页中的一个结果被点击或没有结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度低;
若所述点击行为信息为所述搜索结果页中的复数个结果被点击,则所述满意度评价模块确定所述用户对所述搜索满意度高。
CN201110109445.XA 2011-04-26 2011-04-26 用户网络行为的分类方法和装置及对应的搜索方法和装置 Active CN102760138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110109445.XA CN102760138B (zh) 2011-04-26 2011-04-26 用户网络行为的分类方法和装置及对应的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110109445.XA CN102760138B (zh) 2011-04-26 2011-04-26 用户网络行为的分类方法和装置及对应的搜索方法和装置

Publications (2)

Publication Number Publication Date
CN102760138A CN102760138A (zh) 2012-10-31
CN102760138B true CN102760138B (zh) 2015-03-11

Family

ID=47054596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110109445.XA Active CN102760138B (zh) 2011-04-26 2011-04-26 用户网络行为的分类方法和装置及对应的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN102760138B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945273B (zh) * 2012-11-06 2015-11-25 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN103905489B (zh) * 2012-12-27 2015-04-29 腾讯科技(深圳)有限公司 网络信息服务处理方法和系统
CN104077334B (zh) * 2013-03-29 2017-11-14 北京千橡网景科技发展有限公司 基于社交网络服务的个性化搜索方法及设备
CN103164539B (zh) * 2013-04-15 2016-12-28 中国传媒大学 一种结合用户评价与标注的交互式图像检索方法
CN103646089B (zh) * 2013-12-13 2017-07-25 百度在线网络技术(北京)有限公司 自动搜索方法及装置
CN103646086B (zh) * 2013-12-13 2017-01-25 北京奇虎科技有限公司 一种垃圾文件的清理方法和装置
CN104866484B (zh) * 2014-02-21 2018-12-07 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN103942302B (zh) * 2014-04-16 2017-04-19 苏州大学 一种相关反馈间关系网络的构建与应用方法
CN104217030B (zh) * 2014-09-28 2018-12-11 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104298785B (zh) * 2014-11-12 2017-05-03 中南大学 一种众搜资源搜索方法
CN105703966A (zh) * 2014-11-27 2016-06-22 阿里巴巴集团控股有限公司 网络行为风险识别方法及装置
CN104732100B (zh) * 2015-04-03 2018-01-23 北京航空航天大学 一种单向链形式的服务可排序精确属性的匹配度计算方法
CN105069077A (zh) * 2015-07-31 2015-11-18 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105163182B (zh) * 2015-08-24 2019-06-11 Tcl集团股份有限公司 基于例外挖掘算法的智能电视用户行为获取方法及系统
CN106484714B (zh) * 2015-08-27 2019-06-21 阿里巴巴集团控股有限公司 一种行为记录的存储方法和设备
CN105243006B (zh) * 2015-09-30 2019-02-12 百度在线网络技术(北京)有限公司 基于流量实验的流量层设置及流量实验的实现方法和装置
CN106959971B (zh) * 2016-01-12 2021-07-06 阿里巴巴集团控股有限公司 用户行为数据的处理方法及装置
CN105719163A (zh) * 2016-01-20 2016-06-29 四川长虹电器股份有限公司 基于用户浏览记录的商品推荐方法
US10218726B2 (en) 2016-03-25 2019-02-26 Cisco Technology, Inc. Dynamic device clustering using device profile information
US10404727B2 (en) 2016-03-25 2019-09-03 Cisco Technology, Inc. Self organizing learning topologies
CN105871630B (zh) * 2016-05-30 2019-03-05 国家计算机网络与信息安全管理中心 一种确定网络用户的上网行为类别的方法
CN107704467B (zh) * 2016-08-09 2021-08-24 百度在线网络技术(北京)有限公司 搜索质量评估方法及装置
CN106407254B (zh) * 2016-08-23 2020-04-28 百度在线网络技术(北京)有限公司 用户点击行为链的处理方法及装置
CN106503907B (zh) * 2016-10-26 2020-11-10 腾讯科技(深圳)有限公司 一种业务评估信息确定方法以及服务器
CN106446969B (zh) * 2016-12-01 2020-06-19 北京小米移动软件有限公司 用户识别的方法及装置
TWI735516B (zh) * 2017-01-23 2021-08-11 香港商阿里巴巴集團服務有限公司 使用者行為資料的處理方法及裝置
CN108733706B (zh) * 2017-04-20 2022-12-20 腾讯科技(深圳)有限公司 热度信息的生成方法和装置
CN109325167B (zh) * 2017-07-31 2022-02-18 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
CN107818334A (zh) * 2017-09-29 2018-03-20 北京邮电大学 一种移动互联网用户访问模式表征和聚类方法
CN107832468B (zh) * 2017-11-29 2019-05-10 百度在线网络技术(北京)有限公司 需求识别方法和装置
CN107977452A (zh) * 2017-12-15 2018-05-01 金陵科技学院 一种基于大数据的信息检索系统及方法
CN108154179B (zh) * 2017-12-25 2020-06-05 北京润科通用技术有限公司 一种数据的检错方法及系统
CN108319585B (zh) * 2018-01-29 2021-03-02 北京三快在线科技有限公司 数据处理方法及装置、电子设备、计算机可读介质
CN109189908B (zh) * 2018-08-22 2019-08-20 乔杨 海量数据提取推送工作方法
CN109995847A (zh) * 2019-02-15 2019-07-09 平安科技(深圳)有限公司 基于用户群组的消息推送方法、装置及计算机设备
CN109922208A (zh) * 2019-02-18 2019-06-21 杭州米阳信息技术有限公司 通过执法大师app生成推广信息的方法及设备
CN110780956A (zh) * 2019-09-16 2020-02-11 平安科技(深圳)有限公司 一种智能远程协助方法、装置、计算机设备及存储介质
CN113392304B (zh) * 2020-03-11 2023-05-12 淄博职业学院 一种大数据存储服务方法
CN114327196B (zh) * 2021-12-31 2023-10-24 抖音视界有限公司 一种交互方法、装置、计算机设备以及存储介质
CN114416513B (zh) * 2022-03-25 2022-07-05 百度在线网络技术(北京)有限公司 搜索数据的处理方法、装置、电子设备和存储介质
WO2023234865A1 (en) * 2022-06-01 2023-12-07 Grabtaxi Holdings Pte. Ltd. A communication server, a method, a user device, and a system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751422A (zh) * 2008-12-08 2010-06-23 北京摩软科技有限公司 一种移动终端智能搜索的方法、移动终端和服务器
CN101770482A (zh) * 2008-12-26 2010-07-07 北京搜狗科技发展有限公司 一种广告投放的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355504A (zh) * 2008-08-14 2009-01-28 成都市华为赛门铁克科技有限公司 一种用户行为的确定方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建华.一个智能搜索引擎的用户行为聚类分析.《第一届全国Web信息系统及其应用会议(WISA2004)论文集》.2004,全文. *
基于用户行为聚类的搜索;郑双阳等;《计算机与数字工程》;20091231;第37卷(第12期);第29页第3节 *

Also Published As

Publication number Publication date
CN102760138A (zh) 2012-10-31

Similar Documents

Publication Publication Date Title
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
US7672943B2 (en) Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
CN101876981B (zh) 一种构建知识库的方法及装置
CN102722498B (zh) 搜索引擎及其实现方法
De Meo et al. A query expansion and user profile enrichment approach to improve the performance of recommender systems operating on a folksonomy
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
CN105701216A (zh) 一种信息推送方法及装置
CN102722501B (zh) 搜索引擎及其实现方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN102508859A (zh) 一种基于网页特征的广告分类方法及装置
CN101692223A (zh) 响应于用户输入精炼搜索空间
CN103177090A (zh) 一种基于大数据的话题检测方法及装置
US8423554B2 (en) Content category scoring for nodes in a linked database
CN104298776A (zh) 基于lda模型的搜索引擎结果优化系统
Bin et al. Web mining research
Nambiar et al. Mining approximate functional dependencies and concept similarities to answer imprecise queries
CN105069077A (zh) 搜索方法及装置
Lin et al. Using probabilistic latent semantic analysis for personalized web search
CN102737021A (zh) 搜索引擎及其实现方法
CN101211368B (zh) 一种对查询词分类的方法、装置及搜索引擎系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
US11941073B2 (en) Generating and implementing keyword clusters
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN104636403A (zh) 处理查询请求的方法及装置
CN104484367A (zh) 一种数据挖掘分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant