CN112115328A - 一种页面流量地图构建方法、装置及计算机可读存储介质 - Google Patents

一种页面流量地图构建方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112115328A
CN112115328A CN202010858969.8A CN202010858969A CN112115328A CN 112115328 A CN112115328 A CN 112115328A CN 202010858969 A CN202010858969 A CN 202010858969A CN 112115328 A CN112115328 A CN 112115328A
Authority
CN
China
Prior art keywords
page
pages
sum
user behavior
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010858969.8A
Other languages
English (en)
Other versions
CN112115328B (zh
Inventor
黄乐平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202010858969.8A priority Critical patent/CN112115328B/zh
Publication of CN112115328A publication Critical patent/CN112115328A/zh
Application granted granted Critical
Publication of CN112115328B publication Critical patent/CN112115328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种页面流量地图构建方法、装置及计算机可读存储介质,属于计算机应用领域,方法包括:采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;基于预先构建的知识图谱Schema,按照预设时间周期对用户行为全链路整合表进行处理,构建页面流量地图,其中,页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;将页面流量地图存储至图数据库中以提供查询服务。本发明利用知识图谱构建页面流量地图,能够提高用户分析页面间流转的所有可能性,减少路径一次性使用的开发成本,并能够提供查询服务进行页面流量分析。

Description

一种页面流量地图构建方法、装置及计算机可读存储介质
技术领域
本发明涉及计算机应用领域,尤其涉及一种页面流量地图构建方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的发展以及各大电商公司业务的扩张,大数据分析已经起到了越来越重要的作用,而互联网行业体量最大的数据就是页面流量数据。对于页面流量数据,可以通过采用页面流量地图进行分析页面之间的流转情况。
现有的页面流量地图多采用树形结构、漏斗分析或桑葚图进行递归分析,但这种表现方式,仅能够提供单线程页面路径分析,而当页面存在自停留或者页面返回时,却无法直观表现出页面的跳转、回退、自停留情况,从而影响到页面流量分析。
发明内容
为了解决上述背景技术中提到的问题,本发明提供一种页面流量地图构建方法、装置及计算机可读存储介质。
第一方面,提供了一种页面流量地图构建方法,所述方法包括:
采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,其中,所述页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
将所述页面流量地图存储至图数据库中以提供查询服务。
进一步地,所述知识图谱Schema通过如下方式构建得到:
以页面作为概念,以页面标识作为概念数值属性,以页面流量作为所述概念的对象属性,以页面之间的流量数据以及所述预设时间维度作为所述对象属性的边属性,构建得到所述知识图谱Schema。
进一步地,页面之间的流量数据至少包括页面之间的访问次数总和、和/或独立访客总和、和/或用户账户数量总和。
进一步地,页面之间的访问次数总和通过如下方式得到,包括:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识;
根据提取到的每个访问用户标识,对页面i的访问次数以及对页面j的访问次数进行去重求和,得到页面i与页面j之间的访问次数总和;
页面之间的独立访客总和通过如下方式得到,包括:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访客设备标识;
根据提取到的每个访客设备标识,对页面i的独立访客以及对页面j的独立访客进行去重求和,得到页面i与页面j之间的独立访客总和;
页面之间的用户账户数量总和通过如下方式得到,包括:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,对页面i与页面j共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
进一步地,所述查询服务如下至少一种:
查询单个页面节点在指定页面度数下的流量数据、查询任意两页面节点间的最短路径、查询任意两页面节点间的所有路径以及查询所述页面流量地图数据中的TOP-N流入流出情况。
第二方面,提供了一种页面流量地图构建装置,所述装置包括:
采集模块,用于采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
处理模块,用于基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,其中,所述页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
存储模块,用于将所述页面流量地图存储至图数据库中以提供查询服务。
进一步地,所述装置还包括构建模块,所述构建模块用于:
以页面作为概念,以页面标识作为概念数值属性,以页面流量作为所述概念的对象属性,以页面之间的流量数据以及所述预设时间维度作为所述对象属性的边属性,构建得到所述知识图谱Schema。
进一步地,页面之间的流量数据至少包括页面之间的访问次数总和、和/或独立访客总和、和/或用户账户数量总和。
进一步地,所述处理模块具体用于:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识;
根据提取到的每个访问用户标识,对页面i的访问次数以及对页面j的访问次数进行去重求和,得到页面i与页面j之间的访问次数总和;
所述处理模块具体还用于:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访客设备标识;
根据提取到的每个访客设备标识,对页面i的独立访客以及对页面j的独立访客进行去重求和,得到页面i与页面j之间的独立访客总和;
所述处理模块具体还用于:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,对页面i与页面j共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
进一步地,所述装置还包括查询模块,所述查询模块用于:
查询单个页面节点在指定页面度数下的流量数据、查询任意两页面节点间的最短路径、查询任意两页面节点间的所有路径以及查询所述页面流量地图数据中的TOP-N流入流出情况。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对待识别的领域文本进行分句并分词;
采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,其中,所述页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
将所述页面流量地图存储至图数据库中以提供查询服务。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,其中,所述页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
将所述页面流量地图存储至图数据库中以提供查询服务。
本发明提供一种页面流量地图构建方法、装置及计算机可读存储介质,通过采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,将所述页面流量地图存储至图数据库中以提供查询服务,本发明打破原有利用树形结构、漏斗分析或桑葚图分析进行递归分析流转页面思路,利用知识图谱构建页面流量地图,能够提高用户分析页面间流转的所有可能性,减少路径一次性使用的开发成本,并通过提供查询服务进行页面流量分析以发掘无效节点、调整页面跳转路径,从而能够帮助降低用户决策成本及页面路径图。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了现有技术的树形结构的页面流量地图的示意图;
图2示出了本发明实施例提供的一种页面流量地图构建方法的流程示意图;
图3示出了本发明实施例提供的知识图谱Schema的示意图;
图4示出了本发明实施例提供的基于知识图谱的页面流量地图的示意图;
图5示出了本发明实施例提供的单页面搜索1度内效果展示的示意图;
图6示出了本发明实施例提供的单页面搜索5度内效果展示的示意图;
图7示出了本发明实施例提供的两页面间最短路径展示的示意图;
图8示出了本发明实施例提供的两页面间所有路径展示的示意图;
图9示出了本发明实施例提供的全局页面流量地图TOP展示的示意图;
图10示出了本发明实施例提供的一种页面流量地图生成装置的结构图;
图11示出了本发明实施例提供的一种计算机设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
此外,在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有的页面流量地图多采用树形结构、漏斗分析或桑葚图进行递归分析,但这种表现方式,仅能够提供单线程页面路径分析,例如存在ABCD四个页面,采用树形结构的页面流量地图仅提供诸如图1的表现方案,当页面存在自停留或者页面返回时,无法直观表现页面的跳转、回退、自停留情况。而当页面存在自停留或者页面返回时,却无法直观表现出页面的跳转、回退、自停留情况,从而影响到页面流量分析结果。而知识图谱可以通过图形化的方式展提供一个有向图或无向图网络模型搭建方式,通过三元组(实体-关系-实体)的模式表示,构建了实体间的关系网络。知识图谱的核心目的是用来表现真实世界中存在的各种实体(如人物、汉字、视频、音乐、影视、小说等)或概念信息,以及实体与实体间的关联关系。
为此,本发明提供一种页面流量地图构建方法,基于知识图谱构建页面流量地图,通过利用知识图谱能够提高用户分析页面间流转的所有可能性,减少路径一次性使用的开发成本,并通过提供查询服务进行页面流量分析以发掘无效节点、调整页面跳转路径,从而能够帮助降低用户决策成本及页面路径图。可以理解的是,利用知识图谱除了可以应用在页面流量地图外,还可以用于流量分布、节点攻击等流量分析相关的场景中,用以挖掘关键节点、长尾节点以及无效节点。
实施例一
本发明实施例提供一种页面流量地图构建方法,该方法应用于页面流量地图构建装置中,该装置可以被配置于任一计算机设备,其中计算机设备可以是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
如图2所示,本发明实施例的页面流量地图构建方法包括步骤S1-S3:
步骤S1,采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表。
具体地,服务器可以根据埋点规范采集用户行为数据,获取用户行为全链路整合表。埋点规范包括但在不限于PC端、APP端、小程序端搭建埋点程序,通过采集可以得到用户行为数据,包括但不限于以下字段信息,访问数据唯一标识Pv_Id、数据采集时间Clct_Ts、用户唯一标识Acct_No、访客唯一标识Dev_Id、当前页面唯一标识Page_Id、当前页面相关内容信息(例如,页面名称Page_Name、页面URL链接Page_Url)、来自页面唯一标识From_Page_Id、来自页面相关内容信息(例如,页面名称From_Page_Name、页面URL链接From_Page_Url)。
步骤S2,基于预先构建的知识图谱Schema,按照预设时间周期对用户行为全链路整合表进行处理,构建页面流量地图,其中,页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据。
其中,一个知识图谱的schema相当于一个领域内的数据模型,包含了这个领域里面有意义的概念类型以及这些类型的属性。
作为一种优选实施方式,在步骤S2执行之前,方法还可以包括:
以页面作为概念,以页面标识作为概念数值属性,以页面流量作为概念的对象属性,以页面之间的流量数据以及预设时间维度作为对象属性的边属性,构建得到知识图谱Schema。
其中,预设时间维度可以根据实际需要进行预先设置,例如按天或按小时作为时间维度,本发明实施例对此不作具体限定。
本实施例中,可以根据页面流程地图自上而下搭建知识图谱Schema,具体包括定义概念包括页面PAGE_ID;概念数值属性定义为Page_Id,即确认页面的唯一标识内容;概念的对象属性定义为流量FLOW,对象属性的边属性定义为页面间访问次数总和Pv、页面间独立访客总和Uv、页面间用户账户数量总和Acct_Ct、日期Date或时间Time维度,构建得到知识图谱Schema如图3所示。
其中,预设时间周期可以根据实际需要进行预先设置,例如预设时间周期设定为1天,示例性地,基于预先构建的知识图谱Schema对用户行为全链路整合表中一天内的所有用户行为数据进行统计处理,构建页面流量地图,此外,还可以将预设周期时间设定为其他时间,本发明实施例对此不作具体限定。
具体地,上述的页面之间的访问次数总和通过如下方式得到,包括:
针对页面i与页面j,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访问用户标识;
根据提取到的每个访问用户标识,对页面i的访问次数以及对页面j的访问次数进行去重求和,得到页面i与页面j之间的访问次数总和。
其中,对任意的两个页面:页面i和页面j,分别作为起始页面节点和指向页面节点,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,这里“共有的访问用户标识”是指访问过页面i且访问过页面j的访问用户标识,通过计算公式Pv=SUMPRODUCT(1/COUNTIF(Pv_Idi:Pv_Idj,Pv_Idi:Pv_Idj)),对每个访问用户标识对页面i的访问次数以及对页面j的访问次数进行去重求和,可以得到页面i与页面j之间的访问次数总和。
上述的页面之间的独立访客总和通过如下方式得到,包括:
针对页面i与页面j,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访客设备标识;
根据提取到的每个访客设备标识,对页面i的独立访客以及对页面j的独立访客进行去重求和,得到页面i与页面j之间的独立访客总和。
其中,对任意的两个页面:页面i和页面j,分别作为起始页面节点和指向页面节点,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访客设备标识,这里“共有的访客设备标识”是指访问过页面i且访问过页面j的访客设备标识,通过计算公式Uv=SUMPRODUCT(1/COUNTIF(Dev_Idi:Dev_Idj,Dev_Idi:Dev_Idj)),对每个访问用户标识对页面i的独立访客以及对页面j的独立访客进行去重求和,可以得到页面i与页面j之间的独立访客总和。
上述的页面之间的用户账户数量总和通过如下方式得到,包括:
针对页面i与页面j,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,对页面i与页面j共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
其中,对任意的两个页面:页面i和页面j,分别作为起始页面节点和指向页面节点,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,通过计算公式Acct_Ct=SUMPRODUCT(1/COUNTIF(Acct_Noi:Acct_Noj,Acct_Noi:Acct_Noj))对页面i共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
作为一种优选方案,页面之间的流量数据可以包括起始节点From_Page_Id、指向节点To_Page_Id、起始节点与指向节点的页面间访问次数总和Pv、页面间独立访客总和Uv、页面间用户账户数量总和Acct_Ct,上述按照预设时间周期对所述用户行为全链路整合表进行处理,其中可以取Clct_Ts作为时间片区(即,预设时间周期)进行管理,可以得到如下表1所示的页面流量地图数据结构,进而基于页面流量地图数据生成页面流量地图。
表1:页面流量地图数据结构
Figure BDA0002647349920000091
示例性地,假设存在ABCD四个页面,通过执行步骤S2利用知识图谱Schema对用户行为全链路整合表进行处理,可以生成如图4所示的页面流量地图,基于该页面流量地图可以分析页面间的流转情况,进而可以通过基于用户访问、设备访问以及流量访问提供页面间的优化及分析服务。
步骤S3,将页面流量地图存储至图数据库中以提供查询服务。
具体地,可以通过CSV或其他导入方式,将步骤S2生成的页面流量地图导入图数据库中,并通过包括但不限于Spark等任务部署按时间为片区的更新方式进行更新。
本实施例中,通过将页面流量地图存储至图数据库中,并通过封装节点流量地图接口服务,可以提供各种查询服务,包括但不限于基于页面流量地图单节点网络查询、任意两页面间的最短路径、任意两页面间的所有路径以及整个流量地图中的TOP流入流出情况,用以对页面间流量流转进行分析,包括分析种子页面、关联页面、长尾页面等。
上述的查询服务可以基于用户在前端输入的查询筛选条件,输出单个页面的一度、二度、三度以及N度以上的关联关系信息,由于应用侧前台页面无法穷尽以一个页面发散关联的所有页面,因此可以预先在服务器内设置页面度数,例如使用5度内作为流量地图的最佳观察效果。示例性地,图5为单页面搜索1度内效果展示,标识为该页面在1度内为自跳转,无其他跳转页面。图6为单页面搜索该页面5度内的页面跳转展示,该页面作为核心节点与多个页面互相跳转关联,可以定义为核心页面。其中,页面流量大小展示成大小不同的圆圈,流出数量多少展示成路径线的粗细。
上述的查询服务可以基于用户在前端输入的查询筛选条件,输出任意两页面间的最短路径,如图7所示,两节点通过一个节点进行页面跳转。其中,页面流量大小可以展示成大小不同的圆圈,流出数量多少展示成路径线的粗细。
上述的查询服务可以基于用户在前端输入的查询筛选条件,输出两页面间所有路径,如图8所示,两节点通过多个节点进行页面跳转,即该页面可以通过多个页面进行流转。在此基础上,页面流量大小可以展示成大小不同的圆圈,流出数量多少展示成路径线的粗细。
上述的查询服务可以基于用户在前端输入的查询筛选条件,输出整个流量地图中的TOP流入流出情况,可以通过如图9所示的柱状图进行展示,查询筛选条件包括流入和流出的选择、时间维度的选择、关系过滤的选择以及TOP前N个筛选条件的选择,N取值为10。
本发明实施例提供的页面流量地图构建方法,通过采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表,基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,将所述页面流量地图存储至图数据库中以提供查询服务,本发明打破原有利用树形结构、漏斗分析或桑葚图分析进行递归分析流转页面思路,利用知识图谱构建页面流量地图,能够提高用户分析页面间流转的所有可能性,减少路径一次性使用的开发成本,并通过提供查询服务进行页面流量分析以发掘无效节点、调整页面跳转路径,从而能够帮助降低用户决策成本及页面路径图。
实施例二
本发明实施例提供一种页面流量地图构建装置,该装置可以被配置于任一计算机设备中,以使该计算机设备可以执行上述实施例提供的页面流量地图构建方法。其中,计算机设备可以配置为服务器,服务器可以采用一个独立的服务或服务器集群来实现。
参照图10所示,本发明实施例提供的页面流量地图构建装置可以包括:
采集模块101,用于采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
处理模块102,用于基于预先构建的知识图谱Schema,按照预设时间周期对用户行为全链路整合表进行处理,构建页面流量地图,其中,页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
存储模块103,用于将页面流量地图存储至图数据库中以提供查询服务。
在一个优选实施方式中,装置还包括构建模块100,构建模块100用于:
以页面作为概念,以页面标识作为概念数值属性,以页面流量作为概念的对象属性,以页面之间的流量数据以及预设时间维度作为所述对象属性的边属性,构建得到所述知识图谱Schema。
在一个优选实施方式中,页面之间的流量数据至少包括页面之间的访问次数总和、和/或独立访客总和、和/或用户账户数量总和。
在一个优选实施方式中,处理模块102具体用于:
针对页面i与页面j,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访问用户标识;
根据提取到的每个访问用户标识,对页面i的访问次数以及对页面j的访问次数进行去重求和,得到页面i与页面j之间的访问次数总和;
处理模块102具体还用于:
针对页面i与页面j,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访客设备标识;
根据提取到的每个访客设备标识,对页面i的独立访客以及对页面j的独立访客进行去重求和,得到页面i与页面j之间的独立访客总和;
处理模块102具体还用于:
针对页面i与页面j,按照预设时间周期在用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,对页面i与页面j共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
在一个优选实施方式中,装置还包括查询模块104,查询模块104用于:
查询单个页面节点在指定页面度数下的流量数据、查询任意两页面节点间的最短路径、查询任意两页面节点间的所有路径以及查询页面流量地图数据中的TOP-N流入流出情况。
需要说明的是:本发明实施例提供的页面流量地图构建装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例中的页面流量地图构建装置的具体实现过程和有益效果详见实施例中的页面流量地图构建方法,这里不再赘述。
图11为本发明实施例提供的计算机设备的内部结构图。该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种页面流量地图构建方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
基于预先构建的知识图谱Schema,按照预设时间周期对用户行为全链路整合表进行处理,构建页面流量地图,其中,页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
将页面流量地图存储至图数据库中以提供查询服务。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
基于预先构建的知识图谱Schema,按照预设时间周期对用户行为全链路整合表进行处理,构建页面流量地图,其中,页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
将页面流量地图存储至图数据库中以提供查询服务。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种页面流量地图构建方法,其特征在于,所述方法包括:
采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,其中,所述页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
将所述页面流量地图存储至图数据库中以提供查询服务。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱Schema通过如下方式构建得到:
以页面作为概念,以页面标识作为概念数值属性,以页面流量作为所述概念的对象属性,以页面之间的流量数据以及所述预设时间维度作为所述对象属性的边属性,构建得到所述知识图谱Schema。
3.根据权利要求1或2所述的方法,其特征在于,页面之间的流量数据至少包括页面之间的访问次数总和、和/或独立访客总和、和/或用户账户数量总和。
4.根据权利要求3所述的方法,其特征在于,
页面之间的访问次数总和通过如下方式得到,包括:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识;
根据提取到的每个访问用户标识,对页面i的访问次数以及对页面j的访问次数进行去重求和,得到页面i与页面j之间的访问次数总和;
页面之间的独立访客总和通过如下方式得到,包括:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访客设备标识;
根据提取到的每个访客设备标识,对页面i的独立访客以及对页面j的独立访客进行去重求和,得到页面i与页面j之间的独立访客总和;
页面之间的用户账户数量总和通过如下方式得到,包括:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,对页面i与页面j共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
5.根据权利要求1所述的方法,其特征在于,所述查询服务如下至少一种:
查询单个页面节点在指定页面度数下的流量数据、查询任意两页面节点间的最短路径、查询任意两页面节点间的所有路径以及查询所述页面流量地图数据中的TOP-N流入流出情况。
6.一种页面流量地图构建装置,其特征在于,所述装置包括:
采集模块,用于采集多个页面中的每个页面的用户行为数据以获取用户行为全链路整合表;
处理模块,用于基于预先构建的知识图谱Schema,按照预设时间周期对所述用户行为全链路整合表进行处理,构建页面流量地图,其中,所述页面流量地图中的页面节点表示页面,页面节点之间的路径表示页面之间的流转关系,路径上的数值表示页面之间的流量数据;
存储模块,用于将所述页面流量地图存储至图数据库中以提供查询服务。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括构建模块,所述构建模块用于:
以页面作为概念,以页面标识作为概念数值属性,以页面流量作为所述概念的对象属性,以页面之间的流量数据以及所述预设时间维度作为所述对象属性的边属性,构建得到所述知识图谱Schema。
8.根据权利要求6或7所述的装置,其特征在于,页面之间的流量数据至少包括页面之间的访问次数总和、和/或独立访客总和、和/或用户账户数量总和。
9.根据权利要求8所述的装置,其特征在于,
所述处理模块具体用于:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识;
根据提取到的每个访问用户标识,对页面i的访问次数以及对页面j的访问次数进行去重求和,得到页面i与页面j之间的访问次数总和;
所述处理模块具体还用于:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访客设备标识;
根据提取到的每个访客设备标识,对页面i的独立访客以及对页面j的独立访客进行去重求和,得到页面i与页面j之间的独立访客总和;
所述处理模块具体还用于:
针对页面i与页面j,按照所述预设时间周期在所述用户行为全链路整合表中提取页面i与页面j共有的访问用户标识,对页面i与页面j共有的访问用户标识进行去重统计,得到页面i与页面j之间的用户账户数量总和。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一所述的页面流量地图构建方法。
CN202010858969.8A 2020-08-24 2020-08-24 一种页面流量地图构建方法、装置及计算机可读存储介质 Active CN112115328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010858969.8A CN112115328B (zh) 2020-08-24 2020-08-24 一种页面流量地图构建方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010858969.8A CN112115328B (zh) 2020-08-24 2020-08-24 一种页面流量地图构建方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112115328A true CN112115328A (zh) 2020-12-22
CN112115328B CN112115328B (zh) 2022-08-19

Family

ID=73805337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010858969.8A Active CN112115328B (zh) 2020-08-24 2020-08-24 一种页面流量地图构建方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112115328B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590996A (zh) * 2021-08-12 2021-11-02 杭州粉象家科技有限公司 一种埋点数据生成方法、装置、设备及存储介质
CN113626612A (zh) * 2021-08-13 2021-11-09 第四范式(北京)技术有限公司 一种基于知识图谱推理的预测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法
CN111523072A (zh) * 2020-04-20 2020-08-11 咪咕文化科技有限公司 页面访问数据统计方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法
CN111523072A (zh) * 2020-04-20 2020-08-11 咪咕文化科技有限公司 页面访问数据统计方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590996A (zh) * 2021-08-12 2021-11-02 杭州粉象家科技有限公司 一种埋点数据生成方法、装置、设备及存储介质
CN113626612A (zh) * 2021-08-13 2021-11-09 第四范式(北京)技术有限公司 一种基于知识图谱推理的预测方法和系统

Also Published As

Publication number Publication date
CN112115328B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN110309264B (zh) 基于知识图谱获取地理产品数据的方法和装置
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111310427A (zh) 业务数据配置处理方法、装置、计算机设备和存储介质
CN109684607B (zh) Json数据解析方法、装置、计算机设备和存储介质
CN111090788B (zh) json文件的比对方法、装置、存储介质及计算机设备
CN112115328B (zh) 一种页面流量地图构建方法、装置及计算机可读存储介质
US11809406B2 (en) Event records in a log file
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN109688205B (zh) 网页资源的拦截方法及装置
CN110019116B (zh) 数据追溯方法、装置、数据处理设备及计算机存储介质
US10250550B2 (en) Social message monitoring method and apparatus
CN113051460A (zh) 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN109213775B (zh) 搜索方法、装置、计算机设备和存储介质
CN111597422A (zh) 埋点映射方法、装置、计算机设备和存储介质
CN114090589A (zh) 基于HBase的数据查询方法、装置和计算机设备
WO2021047327A1 (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN112699195B (zh) 地理空间数据处理方法、装置、计算机设备及存储介质
CN110955855A (zh) 一种信息拦截的方法、装置及终端
CN115687810A (zh) 网页搜索方法、装置及相关设备
CN109460500B (zh) 热点事件发现方法、装置、计算机设备和存储介质
CN111679963A (zh) 用户行为数据的处理方法、装置、设备及存储介质
CN110688400A (zh) 数据处理方法、装置、计算机设备和存储介质
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置
CN109408532B (zh) 数据获取方法、装置、计算机设备和存储介质
CN116644230A (zh) 基于埋点的用户画像生成方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant