CN103124273A - 基于用户行为分析的路径倒排表建立、匹配方法及系统 - Google Patents

基于用户行为分析的路径倒排表建立、匹配方法及系统 Download PDF

Info

Publication number
CN103124273A
CN103124273A CN2011103665107A CN201110366510A CN103124273A CN 103124273 A CN103124273 A CN 103124273A CN 2011103665107 A CN2011103665107 A CN 2011103665107A CN 201110366510 A CN201110366510 A CN 201110366510A CN 103124273 A CN103124273 A CN 103124273A
Authority
CN
China
Prior art keywords
path
page node
node
user trajectory
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103665107A
Other languages
English (en)
Other versions
CN103124273B (zh
Inventor
黄明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110366510.7A priority Critical patent/CN103124273B/zh
Publication of CN103124273A publication Critical patent/CN103124273A/zh
Priority to HK13108462.7A priority patent/HK1181216A1/zh
Application granted granted Critical
Publication of CN103124273B publication Critical patent/CN103124273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了基于用户行为分析的路径匹配方法及系统。所述的方法包括:读取路径倒排表和用户轨迹,其中,所述路径倒排表中包括原子路径、路径标识和跳转的页面节点,所述用户轨迹由页面节点构成;根据页面节点对用户轨迹进行切分得到对应用户轨迹的原子轨迹;将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的用户轨迹的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。通过对页面节点的拆分、组合可以快速的得到匹配结果,匹配的效率非常高,节省路径匹配的时间。

Description

基于用户行为分析的路径倒排表建立、匹配方法及系统
技术领域
本申请涉及网络技术,特别是涉及基于用户行为分析的路径倒排表建立、匹配方法及系统。
背景技术
在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律就是用户行为分析。
用户行为分析可以根据用户的浏览轨迹来分析用户的行为,在这种方法中将每个页面看作一个页面节点。用户浏览网站时会查看网站中的网页,通过网页页面中的链接地址可以从一个页面跳转到另一个页面,因此页面间的跳转就可以看作是页面节点间的跳转,那么用户通过链接地址对页面的访问、浏览轨迹,就是多个页面节点间的跳转的运行轨迹。通过对页面节点路径的分析可以了解到用户的访问轨迹,进而了解到用户最常访问的页面以及有可能会访问的页面,以分析用户的行为。
上述通过网页页面中的链接地址,可以由一个页面可以跳转到另一个页面,也就是由一个页面节点连接到另一个页面节点,那么在一个网站中通过链接地址实现页面之间的跳转,就可以构成由页面节点连接而成的页面节点路径图。现有技术在路径匹配时,是将每一个轨迹和所述页面节点路径图进行顺序匹配。例如,假设用户轨迹为:(k)A+B+E,页面节点路径图中定义的路径为:(n)P1:A+B+E+F+H;P2:A+B+E+G+M,那么顺序匹配的结果为:P1,F;P2,G,其中,字母A、B、E、F、G、H和M分别表示一个页面节点,P1和P2为路径标识。根据用户的轨迹来匹配路径,可以得到用户可能的访问路径,用户接下来可能访问页面节点F或页面节点G。
由上述可知,此种算法只要顺着路径的页面节点一个一个的进行匹配即可,但是在一些大型的网站中,拥有非常多的页面,一个页面可以通过链接地址跳转到很多其他的页面上,其他的页面又可以跳转到另一些页面上,这样就形成一幅非常庞大的页面节点路径图。由此组成的路径的规模通常是千级别的,若算法的时间复杂度为O(n)的话(n一般为1000),那么在亿级别的用户轨迹(k)下,匹配的效率就非常低。
发明内容
本申请提供了基于用户行为分析的路径倒排表建立、匹配方法及系统,以解决原有路径匹配方法效率较低的问题。
为了解决上述问题,本申请公开了基于用户行为分析的路径倒排表建立方法,包括:
将页面节点路径图中的路径拆分为由两个页面节点构成的原子路径,所述原子路径包括两个相邻页面节点组合的强路径和两个相隔页面节点组合的弱路径;
根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点,其中,所述路径由路径标识唯一确定;
建立包含原子路径、路径标识和跳转的页面节点的路径倒排表。
优选的,根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点,包括:
设原子路径中的第一个页面节点为首节点,第二个页面节点为次节点;
将原子路径中的首节点和次节点,按照前后顺序分别与路径中的页面节点进行匹配;
对于匹配的情况,将与次节点匹配的页面节点在路径中跳转的页面节点,作为原子路径在该路径中跳转的页面节点。
同时,本申请还公开了基于用户行为分析的路径匹配方法,包括:
读取路径倒排表和用户轨迹,其中,所述用户轨迹由页面节点构成;
根据页面节点两两组合对用户轨迹进行拆分,得到对应用户轨迹的原子轨迹;
将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。
优选的,所述将用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点,包括:
将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配;
若匹配,则将路径倒排表中的原子路径对应的路径标识和跳转的页面节点添加到所述用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
优选的,所述将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径,包括:
将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配;
若匹配,则添加所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到所述用户轨迹的第一个页面节点中;
若所有用户轨迹的原子轨迹都匹配完成,则得到最终的组合路径并输出。
相应的,本申请还公开了基于用户行为分析的路径倒排表建立系统,包括:
拆分原子路径模块,用于将页面节点路径图中的路径拆分为由两个页面节点构成的原子路径,所述原子路径包括两个相邻页面节点组合的强路径和两个相隔页面节点组合弱路径;
切分路径模块,用于根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点,其中,所述路径由路径标识唯一确定;
建立路径倒排表模块,用于建立包含原子路径、路径标识和跳转的页面节点的路径倒排表。
优选的,所述切分路径模块,包括:
预设子模块,用于设原子路径中的第一个页面节点为首节点,第二个页面节点为次节点;
匹配子模块,用于将原子路径中的首节点和次节点,按照前后顺序分别与路径中的页面节点进行匹配;
添加子模块,用于对于匹配的情况,将与次节点匹配的页面节点在路径中跳转的页面节点,作为原子路径在该路径中跳转的页面节点。
相应的,本申请还公开了基于用户行为分析的路径匹配系统,包括:
读取模块,用于读取路径倒排表和用户轨迹,其中,所述用户轨迹由页面节点构成;
拆分模块,用于根据页面节点两两组合对用户轨迹进行拆分,得到对应的原子轨迹;
匹配原子路径模块,用于将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
匹配、添加并输出模块,用于将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。
优选的,所述匹配原子路径模块,包括:
匹配子模块,用于将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配;
添加子模块,用于若匹配,则将路径倒排表中的原子路径对应的路径标识和跳转的页面节点添加到所述用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点。
优选的,所述匹配、添加并输出模块,包括:
匹配原子轨迹子模块,用于将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配;
添加原子轨迹子模块,用于若匹配,则添加所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到所述用户轨迹的第一个页面节点中;
输出组合路径子模块,用于若所有用户轨迹的原子轨迹都匹配完成,则得到最终的组合路径并输出。
与现有技术相比,本申请包括以下优点:
在本申请所述的方法及系统中,首先读取预先建立的路径倒排表和用户轨迹,其中,所述路径倒排表中包括原子路径、路径标识和跳转的页面节点,所述用户轨迹由页面节点构成。再根据页面节点对用户轨迹进行切分得到对应用户轨迹的原子轨迹,将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点,将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合轨迹。不需要分别顺着每一条路径的页面节点一个一个的进行匹配,通过对页面节点的拆分、组合可以快速的得到匹配结果,匹配的效率非常高,节省路径匹配的时间。
其次,将轨迹和路径切分成两两页面节点间组合,两个相邻点可以构成强路径,两个不相邻的接点可以构成弱路径,最大范围的覆盖了路径。从而可以同时实现多条路径的模糊匹配和精确匹配,进一步提高匹配的效率,并且能够得到更多的匹配结果,提高用户行为分析结果的精度和广度。
附图说明
图1是本申请实施例所述基于用户行为分析的路径倒排表建立方法流程图;
图2是本申请实施例所述基于用户行为分析的路径匹配方法流程图;
图3是本申请实施例所述基于用户行为分析的路径匹配方法中匹配、添加并输出组合路径流程图;
图4是本申请优选实施例所述基于用户行为分析的路径匹配方法流程图,
图5是本申请实施例所述基于用户行为分析的路径倒排表建立系统结构图;
图6是本申请实施例所述基于用户行为分析的路径匹配系统结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请提供基于用户行为分析的路径倒排表建立、匹配方法及系统,以解决原有路径匹配方法效率较低的问题。通过对页面节点的拆分、组合可以快速的得到匹配结果,匹配的效率非常高,节省路径匹配的时间。
参照图1,其给出了本申请实施例所述基于用户行为分析的路径倒排表建立方法流程图。
步骤11,将页面节点路径图中的路径拆分为由两个页面节点构成的原子路径,所述原子路径包括两个相邻页面节点组合的强路径和两个相隔页面节点组合的弱路径;
若页面节点路径图中的路径为P1:A+B+C+D+......,P2:A-C+E+......,P3:A+B+C+F+......,......,将页面节点两两组合作为原子路径,即将两个相邻页面节点和两个相隔页面节点组合构成原子路径,则所述原子路径为:A+B,B+C,C+D,C+F,A-C,C+E,A-D,A-E,A-F,......;
假设所述页面节点路径图中的路径包括:P1:A+B+C+D+......,P2:A-C+E+......,P3:A+B+C+F+......,......。
其中,P1、P2和P3为路径标识,所述路径由路径标识唯一确定;A、B、C、D、E和F为页面节点;+为直接跳转的页面节点,中间不可以包含其他的页面节点,可以看作强路径;-为间接跳转的页面节点,中间可以包含其他页面节点,可以看作弱路径。
以P2:A-C+E+......为例,具体论述各个符号代表的意义。所述P2:A-C+E+......为路径P2是由页面节点A经过一系列页面节点跳转到页面节点C,即由页面节点A间接跳转到页面节点C,再由页面节点C直接跳转到页面节点E......。
将所述页面节点两两组合作为原子路径,则所述原子路径为A+B,B+C,C+D,C+F,A-C,C+E,A-D,A-E,A-F,......。
步骤12,根据所述原子路径对所述页面节点路径中的路径进行切分,得到所述原子路径在该路径中的跳转的页面节点;
具体的,设原子路径中的第一个页面节点为首节点,第二个页面节点为次节点;
例如,原子路径为A+B,则A为首节点,B为次节点。
将原子路径中的首节点和次节点,按照前后顺序分别与路径中的页面节点进行匹配;
将原子路径A+B与路径P1:A+B+C+D+......进行匹配,则首节点A与P1中的页面节点A匹配,次节点B与P1中的页面节点B匹配。将原子路径A+B与路径P2:A-C+E+......匹配,则首节点A与P1中的页面节点A匹配,次节点B与P2中的页面节点不匹配。若原子路径为C+A,虽然首节点C与P2的页面节点C匹配,次节点A与P2的页面节点A匹配,但P2中页面节点的前后顺序与原子路径C+A不符,不能视为是匹配的情况。
对于匹配的情况,将与次节点匹配的页面节点在路径中跳转的页面节点,作为原子路径在该路径中跳转的页面节点。
根据上述原子路径可以对所述页面节点路径图中的路径进行切分,切分后可以得到所述原子路径在该路径中的跳转的页面节点为A+B:<P1,C>,<P3,C>,......,B+C:<P1,D>,<P3,F>,......,C+D:<P1,-1>,......,C+F:<P3,-1>,......,A-C:<P2,E>,......,C+E:<P2,-1>,......,......。
上述匹配中,路径P1与原子路径A+B的次节点B匹配的页面节点,在路径P1中的跳转的页面节点为C,则原子路径A+B在路径P1中的跳转的页面节点为C,可以表示为A+B:<P1,C>。
以A+B:<P1,C>,<P3,C>......为例,具体论述各个符号所代表的意义。A+B:<P1,C>,<P3,C>,指原子路径A+B可以通过路径P1跳转到页面节点C,也可以通过路径P3跳转到页面节点C。其中,因为路径中可以包含很多页面节点,因此用省略号表示,则-1指没有跳转的页面节点或某一跳转的页面节点,如C+E:<P2,-1>指原子路径C+E在路径P2跳转结束,即没有任何跳转的页面节点,或跳转到E后面的一个页面节点。
步骤13,建立包含原子路径、路径标识和跳转的页面节点的路径倒排表;
建立包含原子路径、路径标识和跳转的页面节点的路径倒排表,可以将所述路径倒排表存储到存储空间中。其中,所述路径倒排表中的一行可以是原子路径,所述原子路径对应的路径标识,和在该路径中的跳转的页面节点,例如A+B:<P1,C>,<P3,C>,......。当然这只是具体路径倒排表的一种构建形式,此处不应理解为是对本申请的限制。
其中,路径倒排表的格式可以为HashMap<String,List<AtomPath>>
{
A+B:P1,C P3,C......
......
}
这样的数据格式,可以通过哈希查找,以算法复杂度为O(1),查找到一个路径对应的所有原子路径。
相应的,本申请还公开了基于用户行为分析的路径匹配方法。
参照图2,其给出了本申请实施例所述基于用户行为分析的路径匹配方法流程图。
步骤21,读取路径倒排表和用户轨迹;
其中,所述路径倒排表中包括原子路径、路径标识和跳转的页面节点,所述用户轨迹由页面节点构成,是用户浏览网页时在网页间跳转而形成的页面节点跳转轨迹。
读取预置的路径倒排表,和某一用户的用户轨迹,假设用户轨迹为A+B+C+......。
步骤22,根据页面节点两两组合对用户轨迹进行拆分,得到对应用户轨迹的原子轨迹;
若某一用户的用户轨迹是A+B+C+......,即用户访问页面时,由页面节点A直接跳转到页面节点B,再由页面节点B直接跳转到页面节点C......。
将用户轨迹中的页面节点两两组合对用户轨迹进行切分。则可以得到对应的切分结果为A+B,B+C,A-C,......,分别为由页面节点A直接跳转到页面节点B,由页面节点B直接跳转到页面节点C,由页面节点A间接跳转到页面节点C。
将所述切分结果作为用户轨迹的原子轨迹,则对上述用户轨迹拆分得到的原子轨迹A+B,B+C,A-C,......。其中,页面节点两两组合如上文论述,包括两个相邻页面节点的组合和两个相隔页面节点的组合。
步骤23,将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
将上述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,对于匹配的情况,可以将所述路径倒排表中的原子路径所对应的用户访问路径的路径标识,和在该路径中跳转的页面节点添加到用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点。若不匹配,则不进行任何处理。
步骤23具体可以包括:
首先,将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配;
将上述用户轨迹的原子轨迹A+B,B+C,A-C,......,与路径倒排表中的原子路径A+B,B+C,C+D,C+F,A-C,C+E,......进行匹配,所述匹配可以指路径倒排表中的原子路径与用户轨迹的原子轨迹相同。则路径倒排表中匹配的原子路径为A+B,B+C,A-C,......。
其次,若匹配,则将路径倒排表中匹配的原子路径对应的路径标识和跳转的页面节点添加到所述用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
上述路径倒排表中的原子路径包含有对应的路径标识和在该路径中的跳转的页面节点,则对于匹配的情况,可以将路径倒排表中的原子路径对应的路径标识和在该路径中跳转的页面节点添加到用户轨迹的原子轨迹中。使得用户轨迹的原子轨迹可以对应具体路径的路径标识,和在该路径中的跳转的页面节点。
所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点为:
A+B:{P1=<P1,C>,P3=<P3,C>,......};
B+C:{P1=<P1,D>,P3=<P3,F>,......};
A-C:{P2=<P2,E>,......};
......。
例如,A+B:{P1=<P1,C>,P3=<P3,C>}指用户轨迹的原子轨迹A+B可以通过路径P1跳转到页面节点C,也可以通过路径P3跳转到页面节点C。
步骤24,将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的用户轨迹的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。
将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,若匹配,则添加匹配的用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到用户轨迹的第一个页面节点中。然后继续与其他用户轨迹的原子轨迹进行匹配,期间若遇到不匹配的情况,则此不匹配的用户轨迹的原子轨迹不做考虑,不执行任何操作,继续与其他用户轨迹的原子轨迹进行匹配,直到所有用户轨迹的原子轨迹都匹配完成,得到最终的组合路径并输出。
在匹配时,优先添加与用户轨迹相同的页面节点,在用户轨迹中的页面节点都匹配完成后,继续添加匹配的用户轨迹的原子轨迹中跳转的页面节点。
参照图3,其给出了本申请实施例所述基于用户行为分析的路径匹配方法中匹配、添加并输出组合路径流程图。
优选的,上述步骤24具体可以包括:
步骤241,将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,则匹配的原子轨迹为A+B,A-C,......;
将用户轨迹的第一个页面节点A,与所述用户轨迹的原子轨迹A+B,B+C,A-C,......逐个进行匹配。如用户轨迹的原子轨迹A+B,A-C,......中第一个页面节点都为A,则可以认为与用户轨迹的第一个页面节点匹配。因此匹配的原子轨迹为A+B,A-C,......。
若匹配,则执行步骤242,若不匹配,则继续与其他用户轨迹的原子轨迹进行匹配。
步骤242,添加所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到所述用户轨迹的第一个页面节点中;
执行上述步骤23后,使得用户轨迹的原子轨迹可以对应具体路径的路径标识,和在该路径中的跳转的页面节点,因此对于上述步骤241中匹配的情况,可以添加用户轨迹的原子轨迹对应具体路径的路径标识,和在该路径中的跳转的页面节点到所述用户轨迹的第一个页面节点中。
得到相应的结果如A+B:{P1=<P1,C>,P3=<P3,C>,......},A-C:{P2=<P2,E>,......},......,。
步骤243,若所有用户轨迹的原子轨迹都匹配完成,则得到最终的组合路径并输出;
在上述步骤241中进行匹配,匹配后执行步骤242进行添加,如此不断的逐个与用户轨迹的原子轨迹进行匹配,直到最终所有用户轨迹的原子轨迹都匹配并添加完成后,可以得到最终的组合路径,然后输出。
所述最终的组合路径为A+B+C:{P1=<P1,(C,D,......)>,P3=<P3,(C,F,......)>,......},A-C:{P2=<P2,(E,......)>,......},......。
例如,A+B+C:{P1=<P1,(C,D,......)>,P3=<P3,(C,F,......)>,......}指A+B可以由路径P1跳转到页面节点C,然后跳转到页面节点D......,或由路径P3跳转到页面节点C,然后跳转到页面节点F......。其中页面节点C是路径P1和路径P3都可以到达的,因此可以直接在组合路径中表示出来。
综上所述,在本申请所述的方法中,首先读取预先建立的路径倒排表和用户轨迹,其中,所述路径倒排表中包括原子路径、路径标识和跳转的页面节点,所述用户轨迹由页面节点构成。再根据页面节点对用户轨迹进行切分得到对应用户轨迹的原子轨迹,将所述用户轨迹的原子轨迹不断的与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点,将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的用户轨迹的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合轨迹。不需要分别顺着每一条路径的页面节点一个一个的进行匹配,通过对页面节点的拆分、组合可以快速的得到匹配结果,匹配的效率非常高,节省路径匹配的时间。
参照图4,其给出了本申请优选实施例所述基于用户行为分析的路径匹配方法流程图。
上述页面节点路径图可以包含对应的页面节点路径表,通过页面节点路径表生成对应的页面节点路径的路径倒排表数据,根据所述路径倒排表数据建立路径倒排表。然后读取路径倒排表进行匹配,在匹配的过程中,首先对用户轨迹进行拆分,将用户轨迹拆分成原子轨迹,其中可以拆分为强路径和弱路径对用户轨迹进行拆分,然后将用户轨迹的原子轨迹与读取的路径倒排表进行匹配,得到对应的路径,然后拼接用户轨迹的原子轨迹得到组合路径,然后输出所述组合路径就是用户最终的匹配路径。
本申请不限定所述方法的开发语言以及数据库类型。例如,可以基于Java和Hadoop Hive实现。
在本申请所述的方法中,将轨迹和路径切分成两两页面节点间组合,两个相邻点可以构成强路径,两个不相邻的接点可以构成弱路径,最大范围的覆盖了路径。从而可以同时实现多条路径的模糊匹配和精确匹配,进一步提高匹配的效率,并且能够得到更多的匹配结果,提高用户行为分析结果的精度和广度。
参照图5,给出了本申请实施例所述基于用户行为分析的路径倒排表建立系统结构图。
相应的,本申请还提供了基于用户行为分析的路径倒排表建立系统。所述的系统包括,拆分原子路径模块11、切分路径模块12和建立路径倒排表模块13,其中,
拆分原子路径模块11,用于将页面节点路径图中的路径拆分为由两个页面节点构成的原子路径,所述原子路径包括两个相邻页面节点组合的强路径和两个相隔页面节点组合的弱路径;
切分路径模块12,用于根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点,其中,所述路径由路径标识唯一确定;
建立路径倒排表模块13,用于建立包含原子路径、路径标识和跳转的页面节点的路径倒排表;
其中,两个相邻页面节点的组合为强路径,两个相隔页面节点的组合为弱路径。
优选的,所述切分路径模块12,包括:
预设子模块121,用于设原子路径中的第一个页面节点为首节点,第二个页面节点为次节点;
匹配子模块122,用于将原子路径中的首节点和次节点,按照前后顺序分别与路径中的页面节点进行匹配;
添加子模块123,用于对于匹配的情况,将与次节点匹配的页面节点在路径中跳转的页面节点,作为原子路径在该路径中跳转的页面节点。
参照图6,给出了本申请实施例所述基于用户行为分析的路径匹配系统结构图。
相应的,本申请还提供了基于用户行为分析的路径匹配系统。所述的系统包括,读取模块21、切分模块22、匹配原子路径模块23和匹配、添加并输出模块24,其中,
读取模块21,用于读取路径倒排表和用户轨迹,其中,所述用户轨迹由页面节点构成;
拆分模块22,用于根据页面节点两两组合对用户轨迹进行拆分,得到对应用户轨迹的原子轨迹;
匹配原子路径模块23,用于将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
匹配、添加并输出模块24,用于将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的用户轨迹的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。
优选的,所述匹配原子路径模块23,包括:
匹配子模块231,用于将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,则路径倒排表中匹配的原子路径为A+B,B+C,A-C,......;
添加子模块232,用于若匹配,则将路径倒排表中的原子路径对应的路径标识和跳转的页面节点添加到所述用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点。
优选的,匹配、添加并输出模块24,包括:
匹配原子轨迹子模块241,用于将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配;
添加原子轨迹子模块242,用于若匹配,则添加所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到所述用户轨迹的第一个页面节点中;
输出组合路径子模块243,用于若所有用户轨迹的原子轨迹都匹配完成,则得到最终的组合路径并输出。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本申请所提供的基于用户行为分析的路径倒排表建立、匹配方法及系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.基于用户行为分析的路径倒排表建立方法,其特征在于,包括:
将页面节点路径图中的路径拆分为由两个页面节点构成的原子路径,所述原子路径包括两个相邻页面节点组合的强路径和两个相隔页面节点组合的弱路径;
根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点;
建立包含原子路径、路径标识和跳转的页面节点的路径倒排表。
2.根据权利要求1所述的方法,其特征在于,根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点,包括:
设原子路径中的第一个页面节点为首节点,第二个页面节点为次节点;
将原子路径中的首节点和次节点,按照前后顺序分别与路径中的页面节点进行匹配;
对于匹配的情况,将与次节点匹配的页面节点在路径中跳转的页面节点,作为原子路径在该路径中跳转的页面节点。
3.基于用户行为分析的路径匹配方法,其特征在于,包括:权利要求1或2任一所述的路径倒排表,其中,
读取路径倒排表和用户轨迹,其中,所述用户轨迹由页面节点构成;
根据页面节点两两组合对用户轨迹进行拆分,得到对应用户轨迹的原子轨迹;
将用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。
4.根据权利要求3所述的方法,其特征在于,所述将用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点,包括:
将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配;
若匹配,则将路径倒排表中的原子路径对应的路径标识和跳转的页面节点添加到所述用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点。
5.根据权利要求3所述的方法,其特征在于,所述将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径,包括:
将用户轨迹的第一个页面节点与用户轨迹的原子轨迹逐个进行匹配;
若匹配,则添加所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到所述用户轨迹的第一个页面节点中;
若所有用户轨迹的原子轨迹都匹配完成,则得到最终的组合路径并输出。
6.基于用户行为分析的路径倒排表建立系统,其特征在于,包括:
拆分原子路径模块,用于将页面节点路径图中的路径拆分为由两个页面节点构成的原子路径,所述原子路径包括两个相邻页面节点组合的强路径和两个相隔页面节点组合的弱路径;
切分路径模块,用于根据所述原子路径对所述页面节点路径图中的路径进行切分,得到所述原子路径在该路径中跳转的页面节点,其中,所述路径由路径标识唯一确定;
建立路径倒排表模块,用于建立包含原子路径、路径标识和跳转的页面节点的路径倒排表;
其中,两个相邻页面节点的组合为强路径,两个相隔页面节点的组合为弱路径。
7.根据权利要求6所述的方法,其特征在于,所述切分路径模块,包括:
预设子模块,用于设原子路径中的第一个页面节点为首节点,第二个页面节点为次节点;
匹配子模块,用于将原子路径中的首节点和次节点,按照前后顺序分别与路径中的页面节点进行匹配;
添加子模块,用于对于匹配的情况,将与次节点匹配的页面节点在路径中跳转的页面节点,作为原子路径在该路径中跳转的页面节点。
8.基于用户行为分析的路径匹配系统,其特征在于,包括:
读取模块,用于读取路径倒排表和用户轨迹,其中,所述用户轨迹由页面节点构成;
拆分模块,用于根据页面节点两两组合对用户轨迹进行拆分,得到对应用户轨迹的原子轨迹;
匹配原子路径模块,用于将用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点;
匹配、添加并输出模块,用于将用户轨迹的第一个页面节点与所述用户轨迹的原子轨迹逐个进行匹配,并添加匹配的原子轨迹对应路径标识和跳转的页面节点,得到最终输出的组合路径。
9.根据权利要求8所述的系统,其特征在于,所述匹配原子路径模块,包括:
匹配子模块,用于将所述用户轨迹的原子轨迹与路径倒排表中的原子路径进行匹配;
添加子模块,用于若匹配,则将路径倒排表中的原子路径对应的路径标识和跳转的页面节点添加到所述用户轨迹的原子轨迹中,得到用户轨迹的原子轨迹对应路径标识和跳转的页面节点。
10.根据权利要求9所述的方法,其特征在于,匹配、添加并输出模块,包括:
匹配原子轨迹子模块,用于将用户轨迹的第一个页面节点与用户轨迹的原子轨迹逐个进行匹配;
添加原子轨迹子模块,用于若匹配,则添加所述用户轨迹的原子轨迹对应路径标识和跳转的页面节点,到所述用户轨迹的第一个页面节点中;
输出组合路径子模块,用于若所有用户轨迹的原子轨迹都匹配完成,则得到最终的组合路径并输出。
CN201110366510.7A 2011-11-17 2011-11-17 基于用户行为分析的路径倒排表建立、匹配方法及系统 Active CN103124273B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110366510.7A CN103124273B (zh) 2011-11-17 2011-11-17 基于用户行为分析的路径倒排表建立、匹配方法及系统
HK13108462.7A HK1181216A1 (zh) 2011-11-17 2013-07-19 基於用戶行為分析的路徑倒排表建立、匹配方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110366510.7A CN103124273B (zh) 2011-11-17 2011-11-17 基于用户行为分析的路径倒排表建立、匹配方法及系统

Publications (2)

Publication Number Publication Date
CN103124273A true CN103124273A (zh) 2013-05-29
CN103124273B CN103124273B (zh) 2016-08-03

Family

ID=48455127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110366510.7A Active CN103124273B (zh) 2011-11-17 2011-11-17 基于用户行为分析的路径倒排表建立、匹配方法及系统

Country Status (2)

Country Link
CN (1) CN103124273B (zh)
HK (1) HK1181216A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294123A (zh) * 2016-07-22 2017-01-04 厦门美图移动科技有限公司 一种遍历测试中路径匹配的方法、装置及移动终端
CN107729552A (zh) * 2017-11-03 2018-02-23 广州优视网络科技有限公司 用户行为追踪方法、装置、用户终端及服务器
CN108134812A (zh) * 2017-11-10 2018-06-08 人人行科技股份有限公司 数据处理方法和装置
CN110298007A (zh) * 2019-07-04 2019-10-01 北京百佑科技有限公司 用户行为统计方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法
CN101030217A (zh) * 2007-03-22 2007-09-05 华中科技大学 一种语义网信息的索引与获取方法
US20080222117A1 (en) * 2006-11-30 2008-09-11 Broder Andrei Z Efficient multifaceted search in information retrieval systems
CN101404666A (zh) * 2008-10-06 2009-04-08 赵洪宇 一种基于Web页无限层采集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法
US20080222117A1 (en) * 2006-11-30 2008-09-11 Broder Andrei Z Efficient multifaceted search in information retrieval systems
CN101030217A (zh) * 2007-03-22 2007-09-05 华中科技大学 一种语义网信息的索引与获取方法
CN101404666A (zh) * 2008-10-06 2009-04-08 赵洪宇 一种基于Web页无限层采集方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘颖,彭赓,吕本富,陈杰,梅梅: "基于Web日志的用户访问路径提取和分析", 《情报学报》, vol. 28, no. 4, 31 August 2009 (2009-08-31), pages 548 - 556 *
杨风雷,阎保平: "新的Web用户行为统计分析系统研究和实现", 《计算机应用研究》, vol. 25, no. 9, 30 September 2008 (2008-09-30), pages 2758 - 2767 *
董富强: "网络用户行为分析研究及应用", 《万方平台学位论文数据库》, 19 August 2005 (2005-08-19) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294123A (zh) * 2016-07-22 2017-01-04 厦门美图移动科技有限公司 一种遍历测试中路径匹配的方法、装置及移动终端
CN106294123B (zh) * 2016-07-22 2018-12-18 厦门美图移动科技有限公司 一种遍历测试中路径匹配的方法、装置及移动终端
CN107729552A (zh) * 2017-11-03 2018-02-23 广州优视网络科技有限公司 用户行为追踪方法、装置、用户终端及服务器
CN108134812A (zh) * 2017-11-10 2018-06-08 人人行科技股份有限公司 数据处理方法和装置
CN108134812B (zh) * 2017-11-10 2021-01-05 人人行科技股份有限公司 数据处理方法和装置
CN110298007A (zh) * 2019-07-04 2019-10-01 北京百佑科技有限公司 用户行为统计方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103124273B (zh) 2016-08-03
HK1181216A1 (zh) 2013-11-01

Similar Documents

Publication Publication Date Title
Fang et al. Effective and efficient community search over large heterogeneous information networks
CN110472068B (zh) 基于异构分布式知识图谱的大数据处理方法、设备及介质
Deng et al. Fast mining frequent itemsets using Nodesets
CN102053992B (zh) 聚类方法和系统
CN104750789A (zh) 标签的推荐方法及装置
He et al. Model approach to grammatical evolution: deep-structured analyzing of model and representation
JP2009104591A (ja) ウェブ文書クラスタリング方法およびシステム
CN103873318A (zh) 一种网站自动化测试方法及自动化测试系统
CN102693272A (zh) 从统一资源定位符(url)的关键字提取
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
Campeanu A mapping study on microservice architectures of Internet of Things and cloud computing solutions
CN112463991B (zh) 历史行为数据的处理方法、装置、计算机设备及存储介质
CN103077254A (zh) 网页获取方法和装置
Miller et al. Research directions for big data graph analytics
CN103605848A (zh) 路径分析方法和装置
CN110502520A (zh) 一种数据入库的方法、系统、设备及计算机可读存储介质
CN103124273A (zh) 基于用户行为分析的路径倒排表建立、匹配方法及系统
CN112199416A (zh) 数据规则生成方法及装置
CN110020171A (zh) 数据处理方法、装置、设备及计算机可读存储介质
Guyet et al. Incremental mining of frequent serial episodes considering multiple occurrences
Liao et al. Monte Carlo based incremental PageRank on evolving graphs
US8407255B1 (en) Method and apparatus for exploiting master-detail data relationships to enhance searching operations
CN105447004A (zh) 查询推荐词的挖掘、相关查询方法及装置
CN112883192A (zh) 一种异构领域用户与资源关联挖掘方法及系统
CN106339381B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1181216

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1181216

Country of ref document: HK