CN111767435B - 用户行为分析方法及装置 - Google Patents

用户行为分析方法及装置 Download PDF

Info

Publication number
CN111767435B
CN111767435B CN202010577924.3A CN202010577924A CN111767435B CN 111767435 B CN111767435 B CN 111767435B CN 202010577924 A CN202010577924 A CN 202010577924A CN 111767435 B CN111767435 B CN 111767435B
Authority
CN
China
Prior art keywords
path
user
page
data
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010577924.3A
Other languages
English (en)
Other versions
CN111767435A (zh
Inventor
赵文越
徐端丰
陈荣立
封令爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010577924.3A priority Critical patent/CN111767435B/zh
Publication of CN111767435A publication Critical patent/CN111767435A/zh
Application granted granted Critical
Publication of CN111767435B publication Critical patent/CN111767435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用户行为分析方法及装置。方法包括:利用预设规则选取用户特征组合;根据用户特征组合,抽取用户行为数据;根据用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据。本发明给出了高效、准确反映用户特点的全路径数据处理办法,通过结合用户特征选取用户行为数据,可以更加准确的反映出用户的行为特征,并利用图计算技术高效完成智能路径分析,进行深度的用户互联网行为分析,满足业务上多变的、对特定客户群体进行路径分析的需要。

Description

用户行为分析方法及装置
技术领域
本发明涉及图数据处理技术领域,尤指一种用户行为分析方法及装置。
背景技术
对于大型购物节或日常促销活动,往往需要尽可能高效准确的了解特定人群的用户访问商品页面的转化率情况,有针对性地合理编排交易流程;对于手机银行中包含多个环节的复杂交易,也需要了解各类人群的使用习惯,以便面向不同的人群定制各有侧重的交易流程。现有数据处理技术仅涉及到页面访问量的统计变化情况,只对用户的路径数据进行分析,并不结合用户特征,存在无法对用户海量行为深度分析的问题。
发明内容
本发明实施例的主要目的在于提供一种用户行为分析方法及装置,实现对用户海量行为的深度分析。
为了解决上述问题,本发明实施例提供一种用户行为分析方法,所述方法包括:
利用预设规则选取用户特征组合;
根据所述用户特征组合,抽取相关联的用户行为数据;
根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算。
可选的,在本发明一实施例中,所述全路径相关数据包括:全路径、全路径起点、全路径终点、全路径访问值、最短路径、最受欢迎路径、路径转换率、全路径会话值、会话用户数、用户转化率及用户流失率。
可选的,在本发明一实施例中,所述方法还包括:根据获取的输入数据及用户特征组合,抽取相关联的用户行为数据;其中,所述输入数据包括输入起点、输入终点和/或页面连接路径。
可选的,在本发明一实施例中,所述根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合输入起点及输入终点的全路径相关数据,包括最短路径、最受欢迎路径及各路径的转换率。
可选的,在本发明一实施例中,所述根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合页面连接路径上各子路径的全路径相关数据,根据会话用户数确定所述页面连接路径上的用户转化率或用户流失率。
可选的,在本发明一实施例中,所述用户行为数据包括:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称及用户特征组合码。
可选的,在本发明一实施例中,所述根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点;合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图;根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据;过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据;根据全路径合并数据,确定全路径相关数据。
本发明实施例还提供一种用户行为分析装置,所述装置包括:
特征组合模块,用于利用预设规则选取用户特征组合;
行为数据模块,用于根据所述用户特征组合,抽取相关联的用户行为数据;
行为分析模块,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据。
可选的,在本发明一实施例中,所述全路径相关数据包括:全路径、全路径起点、全路径终点、全路径访问值、最短路径、最受欢迎路径、路径转换率、全路径会话值、会话用户数、用户转化率及用户流失率。
可选的,在本发明一实施例中,所述装置还包括:数据输入模块,用于根据获取的输入数据及用户特征组合,抽取相关联的用户行为数据;其中,所述输入数据包括输入起点、输入终点和/或页面连接路径。
可选的,在本发明一实施例中,所述行为分析模块包括:输入起点及终点单元,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合输入起点及输入终点的全路径相关数据,包括最短路径、最受欢迎路径及各路径的转换率。
可选的,在本发明一实施例中,所述行为分析模块包括:页面连接路径单元,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合页面连接路径上各子路径的全路径相关数据,根据会话用户数确定所述页面连接路径上的用户转化率或用户流失率。
可选的,在本发明一实施例中,所述用户行为数据包括:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称及用户特征组合码。
可选的,在本发明一实施例中,所述行为分析模块包括:拆分点单元,用于拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点;合并边单元,用于合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图;图处理单元,用于根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据;合并计算单元,用于过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据;全路径处理单元,用于根据全路径合并数据,确定全路径相关数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明给出了高效、准确反映用户特点的全路径数据处理办法,通过结合用户特征选取用户行为数据,可以更加准确的反映出用户的行为特征,并利用图计算技术高效完成智能路径分析和智能漏斗分析,可进行深度的用户互联网行为分析,满足业务上多变的、对特定客户群体进行路径分析的需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种用户行为分析方法的流程图;
图2为本发明实施例中全路径计算装置的流程图;
图3为本发明一具体实施例应用用户行为分析方法的装置结构示意图;
图4为本发明实施例一种用户行为分析装置的结构示意图;
图5为本发明一实施例所提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供一种用户行为分析方法及装置。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例一种用户行为分析方法的流程图,图中所示方法包括:
步骤S1,利用预设规则选取用户特征组合。用户特征分为若干大类,比如生物学特征、职业特征、资产负债特征、风险特征、交易习惯特征等,大类里面又分若干小类。大类和小类可以互相单个或多个进行组合。假设记第i个大类有P(i)个小类,那么n个大类的特征组合共有P(1)!P(2)!...P(i)!...P(n)!种,从理论上来看种类数是相当多的,不可能在周期性的批量里各类组合特征的数据都预先计算出来,以备查询使用。本发明可通过预设选取规则,供分析人员选取所要的特征组合。若选取了特征组合,则针对特定的用户群进行后续的分析;否则不区分用户特征信息,对全部用户的相关数据进行后续的分析。通过预设选取用户特征组合的规则,规则可以例如为选取哪些特征等等,高效的获取到准确的用户特征。
步骤S2,根据所述用户特征组合,抽取相关联的用户行为数据。其中,为保证访问路径的连续性,抽样时需保证同一个用户会话ID的所有访问记录被完整抽取。
对于一个访问频繁的交易系统来说,记录用户行为的访问日志数据量巨大,甚至多达每天数十亿乃至数百亿条。又由于仅抽取一天的数据难以反映用户行为全貌,一般至少需要对一周或更长时间为一个周期的数据进行计算,将导致对全量数据的计算消耗大量资源或时间,极有可能在有效的时间内得不到计算结果,获取不到数据价值。因此,需通过根据选取的用户特征关联用户的行为数据,抽取不超过后一步进行图计算的软硬件所具有的数据计算能力的最大样本数据。
用户行为数据设计有如下几个字段:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称、用户特征组合码等。
步骤S3,根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据;其中,所述全路径相关数据包括:全路径、全路径起点、全路径终点、全路径访问值、最短路径、最受欢迎路径、路径转化率、全路径会话值、会话用户数、用户转化率及用户流失率。
作为本发明的一个实施例,方法还包括:根据获取的输入数据及用户特征组合,抽取相关联的用户行为数据;其中,所述输入数据包括输入起点、输入终点和/或页面连接路径。输入数据为分析师或用户输入的数据,在用户行为数据的基础上,结合用户输入数据,可以准确的得到用户所需的全路径相关数据。
在本实施例中,根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合输入起点及输入终点的全路径相关数据。根据获取的用户输入的起点与终点,通过图计算,筛选出一组符合该起点和终点的全路径相关数据,这里的全路径相关数据包括:最短路径、最受欢迎路径及各路径的转换率。
其中,根据分析师或用户输入的起点和终点,筛选出一组符合该起点和终点的全路径相关数据。
比如,选定待分析的起点A和终点D,匹配出数据为(A,D,A-B|B-C|C-D,5|4|4)、(A,D,A-E|E-D,2|2),可以分析计算出访问次数最多的路径为A-B-C-D,最短路径为A-E-D;路径A-B-C-D的转换率为4/5=80%,路径A-E-D的转换率为2/2=100%;还可以计算A到D,成功转化用户的占比为:路径A-B-C-D占4/(4+2)=2/3=66.7%,路径A-E-D占2/(4+2)=1/3=33.3%,因而可以推测虽然A-E-D路径短,但是可能不如A-B-C-D更符合大多数用户的习惯,只是仍可以看到该路径的用户有20%从B页面流失了。
在本实施例中,根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合页面连接路径上各子路径的全路径相关数据,根据会话用户数确定所述页面连接路径上的用户转化率。根据获取的用户输入的一系列页面连成的路径,进行图计算,筛选出符合该路径上所有子路径的全路径相关数据,根据会话用户数来计算该路径上的用户转化率或该路径上某点的用户流失率。
其中,根据分析师或用户选定的一系列页面连成的路径,筛选出符合该路径上所有子路径的全路径相关数据,根据会话用户数来计算该路径上的用户转化率。比如,选定待分析的路径A-B-C-D,匹配出数据为:
(A-B|B-C|C-D,5|4|4,2|2|2)、(A-B|B-C,3|1,1|1)。
挑出其中的用户会话数据为:
(A-B|B-C|C-D,2|2|2)、(A-B|B-C,1|1)。
对路径进行reduce算子,得到(A-B|B-C|C-D,3|3|2),则该路径的用户转化率为2/3=66.7%,其中有1/3的用户从页面C流失掉。
作为本发明的一个实施例,根据所述用户特征组合,抽取相关联的用户行为数据包括:根据所述用户特征组合,抽取不超过进行图计算的软硬件所具有的数据计算能力最大样本数据的相关联的用户行为数据。
作为本发明的一个实施例,用户行为数据包括:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称及用户特征组合码。
在本实施例中,根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点;合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图;根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据;过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据;根据全路径合并数据,确定全路径相关数据,其中,将全路径合并数据通过map算子处理为全路径的起点、全路径的终点、全路径、全路径访问值、全路径会话值。
具体的,如图2所示,根据抽取的用户行为样本数据,定义页面为点,来源页面和当前页面的组合为边,构建用户行为路径图,进行图计算,具体方法如下:
步骤S21,拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点。
拆分每一个会话的来源页面和当前页面各为一个点,进行去重计算,得到所有的点。比如有会话H(1),来源页面为A,当前页面为B;会话H(2),来源页面为A,当前页面为C;会话H(3),来源页面为B,当前页面为D;则拆分去重得到点A、点B、点C、点D。
步骤S22,合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图。
合并来源页面和当前页面为一条边,使用reduce方法合并所有边各自的访问值和会话数。假设有n个会话,第i个会话记为H(i),来源页面为M(i),当前页面为N(i),访问值为Q(i),其中i=1,2,3...,n,则第i条边的访问值和会话数记为(M(i)-N(i),Q(i),1),使用reduce方法合并所有边各自的访问值和会话数为(distinct(M(i)-N(i)),sum(Q(i)),count(H(i)))。比如有会话H(1),来源页面为A,当前页面为B,访问值为1;会话H(2),来源页面为A,当前页面为C,访问值为2;会话H(3),来源页面为A,当前页面为B,访问值为3;则各个会话的边的访问值和会话数为(A-B,1,1)、(A-C,2,1)、(A-B,3,1),通过reduce算子处理为(A-B,4,2)、(A-C,2,1)。
将步骤S21中得到的点,按照步骤S22中得到的边进行连接,可以得到用户行为路径图。
步骤S23,根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据。
针对相同的用户会话ID,按时间先后顺序,将前一条边的终点和后一条边的起点相同的两条边连成一条边,依次完成符合条件的所有边的连接,得到用户会话ID和全部路径以及点击数的数据。比如,用户会话ID为AADLHGJIIIECHMG,某时间点从A页面到B页面访问了2次,接下来的时间点从B页面到C页面访问了2次,再从C页面到D页面访问了3次,则处理为(AADLHGJIIIECHMG,A-B|B-C|C-D,2|2|3,1|1|1)的数据结构,记为该会话的全路径数据。
步骤S24,过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据。比如原会话全路径数据为:
(AADLHGJIIIECHMG,A-B|B-C|C-D,2|2|3,1|1|1)、
(KBJJRHVEECLDAAW,A-B|B-C|C-D,3|2|1,1|1|1)、
(IECHSHVEBAWECLD,A-B|B-C,3|1,1|1)、
(JSALCUJRFMHJCGT,A-C|C-D,2|2,1|1)。
过滤用户会话ID后,全路径数据为:
(A-B|B-C|C-D,2|2|3,1|1|1)、(A-B|B-C|C-D,3|2|1,1|1|1)、(A-B|B-C,3|1,1|1)、(A-C|C-D,2|2,1|1)。
经过reduce算子处理为全路径合并数据:
(A-B|B-C|C-D,5|4|4,2|2|2)、(A-B|B-C,3|1,1|1)、(A-C|C-D,2|2,1|1)。
步骤S25,根据全路径合并数据,确定全路径相关数据,其中,将全路径合并数据通过map算子处理为全路径的起点、全路径的终点、全路径、全路径访问值、全路径会话值。比如全路径合并数据为:
(A-B|B-C|C-D,5|4|4,2|2|2)、(A-B|B-C,3|1,1|1)、(A-C|C-D,2|2,1|1),则全路径合并数据map处理结果为:
(A,D,A-B|B-C|C-D,5|4|4,2|2|2)、(A,C,A-B|B-C,3|1,1|1)、(A,D,A-C|C-D,2|2,1|1)。
在本发明一具体实施例中,如图3所示为应用本发明用户行为分析方法的装置结构示意图,图中所示装置包括:用户特征选取装置1、用户行为数据抽取装置2、全路径计算装置3、智能路径分析装置4、智能漏斗分析装置5。
1、用户特征选取装置
用户特征分为若干大类,比如生物学特征、职业特征、资产负债特征、风险特征、交易习惯特征等,大类里面又分若干小类。大类和小类可以互相单个或多个进行组合。假设记第i个大类有P(i)个小类,那么n个大类的特征组合共有P(1)!P(2)!...P(i)!...P(n)!种,从理论上来看种类数是相当多的,不可能在周期性的批量里各类组合特征的数据都预先计算出来,以备查询使用。所以常规的大数据处理方法在此处不可行。本发明提供的用户特征选取装置,可通过预设选取规则,供分析人员选取所要的特征组合。若选取了特征组合,则针对特定的用户群进行后续的分析;否则不区分用户特征信息,对全部用户的相关数据进行后续的分析。
2、用户行为数据抽取装置
对于一个访问频繁的交易系统来说,记录用户行为的访问日志数据量巨大,甚至多达每天数十亿乃至数百亿条。又由于仅抽取一天的数据难以反映用户行为全貌,一般至少需要对一周或更长时间为一个周期的数据进行计算,将导致对全量数据的计算消耗大量资源或时间,极有可能在有效的时间内得不到计算结果,获取不到数据价值。因此,需通过根据选取的用户特征关联用户的行为数据,并根据后续全路径计算装置的性能容量进行抽样,抽取不超过后一步装置计算能力的最大样本数据。
用户行为数据设计有如下几个字段:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称、用户特征组合码等。
为保证访问路径的连续性,抽样时需保证同一个用户会话ID的所有访问记录被完整抽取。
3、全路径计算装置
根据抽取的用户行为样本数据,定义页面为点,来源页面和当前页面的组合为边,构建用户行为路径图,进行图计算。
4、智能路径分析装置
智能路径分析装置根据分析师选定的起点和终点,筛选出一组符合该起点和终点的全路径相关数据。
比如,选定待分析的起点A和终点D,匹配出数据为(A,D,A-B|B-C|C-D,5|4|4)、(A,D,A-E|E-D,2|2),可以分析计算出访问次数最多的路径为A-B-C-D,最短路径为A-E-D;路径A-B-C-D的转换率为4/5=80%,路径A-E-D的转换率为2/2=100%;还可以计算A到D,成功转化用户的占比为:路径A-B-C-D占4/(4+2)=2/3=66.7%,路径A-E-D占2/(4+2)=1/3=33.3%,因而可以推测虽然A-E-D路径短,但是可能不如A-B-C-D更符合大多数用户的习惯,只是仍可以看到该路径的用户有20%从B页面流失了。
5、智能漏斗分析装置
智能漏斗分析装置还能根据分析师选定的一系列页面连成的路径,筛选出符合该路径上所有子路径的全路径相关数据,根据会话用户数来计算该路径上的用户转化率。比如,选定待分析的路径A-B-C-D,匹配出数据为:
(A-B|B-C|C-D,5|4|4,2|2|2)、(A-B|B-C,3|1,1|1)。
挑出其中的用户会话数据为:
(A-B|B-C|C-D,2|2|2)、(A-B|B-C,1|1)。
对路径进行reduce算子,得到(A-B|B-C|C-D,3|3|2),则该路径的用户转化率为2/3=66.7%,其中有1/3的用户从页面C流失掉。
本发明为用户互联网访问行为分析提供了一种创新的解决办法,通过定义点和边的图计算模型,抽取一个周期的用户特征组合数据,给出了尽可能高效、尽可能准确反映用户特点的全路径数据处理办法,并且设计了可以设置起止点的智能路径装置和可以指定路径的智能漏斗分析装置,进行深度的用户互联网行为分析,具备如下优点:
1、可满足业务上多变的、对特定客户群体进行路径分析的需要,且所支持的客户特征可根据需要扩展;
2、可平衡统计数据的完整性和后续计算的压力,在分析的客户群体较少时对完整的日志进行计算,在分析的客户群体较大时按计算能力抽样计算;
3、利用图计算技术高效完成智能路径分析,统计访问次数最多的路径、最短路径及每种路径的转化率,揭示对该特定人群交易流程优化方向;
4、该图计算模型可以推广至其他领域某一群体的通用行为分析,通过采集某一种群足够多的连续动作数据,如(行为ID,动作i,动作j,动作度量值),定义动作i、j为点,动作i到动作j为边,则可以参照本发明方案进行智能路径分析和智能漏斗分析,产生对该群体的行为动作的深度分析结论。
本发明给出了高效、准确反映用户特点的全路径数据处理办法,通过结合用户特征选取用户行为数据,可以更加准确的反映出用户的行为特征,并利用图计算技术高效完成智能路径分析和智能漏斗分析,可进行深度的用户互联网行为分析,满足业务上多变的、对特定客户群体进行路径分析的需要。
如图4所示为本发明实施例一种用户行为分析装置的结构示意图,图中所示装置包括:
特征组合模块10,用于利用预设规则选取用户特征组合;
行为数据模块20,用于根据所述用户特征组合,抽取相关联的用户行为数据;
行为分析模块30,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据。
作为本发明的一个实施例,全路径相关数据包括:全路径、全路径起点、全路径终点、全路径访问值、最短路径、最受欢迎路径、路径转换率、全路径会话值、会话用户数、用户转化率及用户流失率。
作为本发明的一个实施例,装置还包括:数据输入模块,用于根据获取的输入数据及用户特征组合,抽取相关联的用户行为数据;其中,所述输入数据包括输入起点、输入终点和/或页面连接路径。
在本实施例中,行为分析模块包括:输入起点及终点单元,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合输入起点及输入终点的全路径相关数据,包括符合输入起点和输入终点的最短路径、最受欢迎路径及各路径的转换率。
在本实施例中,行为分析模块包括:页面连接路径单元,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合页面连接路径上各子路径的全路径相关数据,根据会话用户数确定所述页面连接路径上的用户转化率或用户流失率。
作为本发明的一个实施例,行为数据模块具体用于根据所述用户特征组合,抽取不超过进行图计算的软硬件所具有的数据计算能力最大样本数据的相关联的用户行为数据。
作为本发明的一个实施例,用户行为数据包括:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称及用户特征组合码。
在本实施例中,行为分析模块包括:拆分点单元,用于拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点;合并边单元,用于合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图;图处理单元,用于根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据;合并计算单元,用于过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据;全路径处理单元,用于根据全路径合并数据,确定全路径相关数据。
基于与上述一种用户行为分析方法相同的申请构思,本发明还提供了上述一种用户行为分析装置。由于该一种用户行为分析装置解决问题的原理与一种用户行为分析方法相似,因此该一种用户行为分析装置的实施可以参见一种用户行为分析方法的实施,重复之处不再赘述。
本发明给出了高效、准确反映用户特点的全路径数据处理办法,通过结合用户特征选取用户行为数据,可以更加准确的反映出用户的行为特征,并利用图计算技术高效完成智能路径分析和智能漏斗分析,可进行深度的用户互联网行为分析,满足业务上多变的、对特定客户群体进行路径分析的需要。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图5所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理器130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图5中所示的所有部件;此外,电子设备600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于图计算的用户行为分析方法,其特征在于,所述方法包括:
利用预设规则选取用户特征组合;
根据所述用户特征组合,抽取相关联的用户行为数据;
根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据;
其中,所述全路径相关数据包括:全路径、全路径起点、全路径终点、全路径访问值、最短路径、最受欢迎路径、路径转换率、全路径会话值、会话用户数、用户转化率及用户流失率;
其中,所述方法还包括:根据获取的输入数据及用户特征组合,抽取相关联的用户行为数据;其中,所述输入数据包括输入起点、输入终点和/或页面连接路径;
其中,所述根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:
根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合输入起点及输入终点的全路径相关数据,包括最短路径、最受欢迎路径及各路径的转换率;
或者,根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合页面连接路径上各子路径的全路径相关数据,根据会话用户数确定所述页面连接路径上的用户转化率或用户流失率。
2.根据权利要求1所述的方法,其特征在于,所述用户行为数据包括:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称及用户特征组合码。
3.根据权利要求2所述的方法,其特征在于,所述根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据包括:
拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点;合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图;
根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据;
过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据;根据全路径合并数据,确定全路径相关数据。
4.一种用户行为分析装置,其特征在于,所述装置包括:
特征组合模块,用于利用预设规则选取用户特征组合;
行为数据模块,用于根据所述用户特征组合,抽取相关联的用户行为数据;
行为分析模块,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,得到全路径相关数据;
其中,所述全路径相关数据包括:全路径、全路径起点、全路径终点、全路径访问值、最短路径、最受欢迎路径、路径转换率、全路径会话值、会话用户数、用户转化率及用户流失率;
其中,所述装置还包括:数据输入模块,用于根据获取的输入数据及用户特征组合,抽取相关联的用户行为数据;其中,所述输入数据包括输入起点、输入终点和/或页面连接路径;
其中,所述行为分析模块包括:
输入起点及终点单元,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合输入起点及输入终点的全路径相关数据,包括符合输入起点和输入终点的最短路径、最受欢迎路径及各路径的转换率;
或者,页面连接路径单元,用于根据所述用户行为数据,将页面作为点,将来源页面及当前页面的组合作为边,构建用户行为路径图,进行图计算,筛选出符合页面连接路径上各子路径的全路径相关数据,根据会话用户数确定所述页面连接路径上的用户转化率或用户流失率。
5.根据权利要求4所述的装置,其特征在于,所述用户行为数据包括:用户会话ID、日期、用户点击时间、来源页面编号、来源页面名称、当前页面编号、当前页面名称及用户特征组合码。
6.根据权利要求5所述的装置,其特征在于,所述行为分析模块包括:
拆分点单元,用于拆分每一会话的来源页面及当前页面各为一个点,进行去重计算,得到所有的点;
合并边单元,用于合并来源页面与当前页面为一条边,合并所有边各自的访问值及会话数,构建用户行为路径图;
图处理单元,用于根据时间顺序,将前一条边的终点与后一条边的起点相同的两条边连接成一条大边,得到用户会话ID及全路径数据;
合并计算单元,用于过滤用户会话ID,将全路径数据进行reduce算法处理,得到全路径合并数据;
全路径处理单元,用于根据全路径合并数据,确定全路径相关数据。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3任一项所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至3任一项所述方法的计算机程序。
CN202010577924.3A 2020-06-23 2020-06-23 用户行为分析方法及装置 Active CN111767435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577924.3A CN111767435B (zh) 2020-06-23 2020-06-23 用户行为分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577924.3A CN111767435B (zh) 2020-06-23 2020-06-23 用户行为分析方法及装置

Publications (2)

Publication Number Publication Date
CN111767435A CN111767435A (zh) 2020-10-13
CN111767435B true CN111767435B (zh) 2023-08-18

Family

ID=72721582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577924.3A Active CN111767435B (zh) 2020-06-23 2020-06-23 用户行为分析方法及装置

Country Status (1)

Country Link
CN (1) CN111767435B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092138A (zh) * 2021-11-10 2022-02-25 建信金融科技有限责任公司 用户行为分析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
WO2019228011A1 (en) * 2018-05-31 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and apparatuses for obtaining user behavior paths
CN111221711A (zh) * 2019-10-12 2020-06-02 中国平安财产保险股份有限公司 用户行为数据处理方法、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
WO2019228011A1 (en) * 2018-05-31 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and apparatuses for obtaining user behavior paths
CN111221711A (zh) * 2019-10-12 2020-06-02 中国平安财产保险股份有限公司 用户行为数据处理方法、服务器及存储介质

Also Published As

Publication number Publication date
CN111767435A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
US11222285B2 (en) Feature selection method, device and apparatus for constructing machine learning model
CN110008408B (zh) 一种会话推荐方法、系统、设备及介质
US20240119286A1 (en) Adaptive artificial neural network selection techniques
US20200175522A1 (en) Predicting online customer service requests based on clickstream key patterns
CN111767319A (zh) 基于资金流向的客户挖掘方法及装置
CN111949832A (zh) 批量作业依赖关系的解析方法及装置
CN111401906A (zh) 转账风险检测方法及系统
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN111767435B (zh) 用户行为分析方法及装置
CN111429282B (zh) 基于反洗钱模型迁移的交易反洗钱方法及装置
CN113505272A (zh) 基于行为习惯的控制方法和装置、电子设备和存储介质
CN112579773A (zh) 风险事件分级方法及装置
CN113191891A (zh) 数据处理方法、装置及系统
CN109614464A (zh) 用于业务问题识别的方法及装置
CN111026818A (zh) 一种多对象关联视图构建方法、终端设备及存储介质
CN110008318A (zh) 问题派发方法及装置
CN112910708A (zh) 分布式服务调用方法及装置
CN112052391A (zh) 数据推送方法、装置及系统
CN115438976A (zh) 基于智能柜台的用户需求处理方法及装置
CN111026991B (zh) 数据展示方法及装置、计算机设备
CN111768306B (zh) 基于智能数据分析的风险识别方法及系统
CN114840525A (zh) 工单处理方法及装置
CN114797113A (zh) 基于图卷积的资源预测方法及装置
CN114092226A (zh) 银行网点外汇产品推荐方法及装置
CN109919197A (zh) 随机森林模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant