CN111259050A - 用户操作轨迹记录方法、装置、计算机设备及存储介质 - Google Patents

用户操作轨迹记录方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111259050A
CN111259050A CN202010064698.9A CN202010064698A CN111259050A CN 111259050 A CN111259050 A CN 111259050A CN 202010064698 A CN202010064698 A CN 202010064698A CN 111259050 A CN111259050 A CN 111259050A
Authority
CN
China
Prior art keywords
page
behavior
data
user
starting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010064698.9A
Other languages
English (en)
Inventor
戴珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010064698.9A priority Critical patent/CN111259050A/zh
Publication of CN111259050A publication Critical patent/CN111259050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户操作轨迹记录方法、装置、计算机设备及存储介质,获取用户行为数据集和有效页面配置数据;根据页面埋点ID,将每一用户行为数据在页面埋点映射表中进行查询,得到候选匹配页面;将每一有效子页面与每一候选匹配页面进行匹配,得到目标行为数据;根据预设的数据清洗策略对每一目标行为数据进行清洗,得到行为轨迹数据;采用预设的用户群策略,对每一行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总,得到目标轨迹数据;通过对用户在不同起始页面的行为轨迹进行分析和整合,从而实现了准确直观地记录用户的行为轨迹数据。

Description

用户操作轨迹记录方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种用户操作轨迹记录方法、装置、计算机设备及存储介质。
背景技术
随着互联网的发展,越来越多的企业都非常关注人们在互联网上的行为轨迹,特别是当需要为用户提供个性化服务时,往往需要精准刻画客户的兴趣特征,掌握用户在互联网的行为轨迹。目前,对用户的行为分析通常采用离散的单个页面的点击统计、使用时长统计、使用频率统计等零散且无序的统计方法。然而,只通过简单的功能、页面点击并不能形成有效的行为参考数据,生成的行为轨迹数据往往出现偏差,从而导致无法准确直观地记录用户的行为轨迹数据。
发明内容
本发明实施例提供一种用户操作轨迹记录方法、装置、计算机设备及存储介质,以解决无法准确直观地记录用户的行为轨迹数据的问题。
一种用户操作轨迹记录方法,包括:
获取用户行为数据集和有效页面配置数据,所述用户行为数据集包括N个用户行为数据,每一所述用户行为数据包括页面埋点ID,所述有效页面配置数据包括M个起始页面和每一所述起始页面下的有效子页面;
根据所述页面埋点ID,将每一所述用户行为数据在预设的页面埋点映射表中进行查询,得到每一所述用户行为数据的候选匹配页面;
将每一所述起始页面下的所述有效子页面与每一所述用户行为数据的所述候选匹配页面进行匹配,得到每一所述起始页面的目标行为数据;
根据预设的数据清洗策略对每一所述起始页面下的所述目标行为数据进行清洗,得到每一所述起始页面下的行为轨迹数据;
采用预设的用户群策略,对每一所述起始页面下的所述行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;
基于每一所述行为轨迹数据所对应的起始页面,对所述不同用户群下的行为轨迹数据进行归并汇总,得到每一所述起始页面下的目标轨迹数据。
一种用户操作轨迹记录装置,包括:
数据获取模块,用于获取用户行为数据集和有效页面配置数据,所述用户行为数据集包括N个用户行为数据,每一所述用户行为数据包括页面埋点ID,所述有效页面配置数据包括M个起始页面和每一所述起始页面下的有效子页面;
查询模块,用于根据所述页面埋点ID,将每一所述用户行为数据在预设的页面埋点映射表中进行查询,得到每一所述用户行为数据的候选匹配页面;
匹配模块,用于将每一所述起始页面下的所述有效子页面与每一所述用户行为数据的所述候选匹配页面进行匹配,得到每一所述起始页面的目标行为数据;
数据清洗模块,用于根据预设的数据清洗策略对每一所述起始页面下的所述目标行为数据进行清洗,得到每一所述起始页面下的行为轨迹数据;
数据分类模块,用于采用预设的用户群策略,对每一所述起始页面下的所述行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;
归并汇总模块,用于基于每一所述行为轨迹数据所对应的起始页面,对所述不同用户群下的行为轨迹数据进行归并汇总,得到每一所述起始页面下的目标轨迹数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户操作轨迹记录方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户操作轨迹记录方法。
上述用户操作轨迹记录方法、装置、计算机设备及存储介质,通过获取用户行为数据集和有效页面配置数据,用户行为数据集包括N个用户行为数据,每一用户行为数据包括页面埋点ID,有效页面配置数据包括M个起始页面和每一起始页面下的有效子页面;根据页面埋点ID,将每一用户行为数据在预设的页面埋点映射表中进行查询,得到每一用户行为数据的候选匹配页面;将每一起始页面下的有效子页面与每一用户行为数据的候选匹配页面进行匹配,得到每一起始页面的目标行为数据;根据预设的数据清洗策略对每一起始页面下的目标行为数据进行清洗,得到每一起始页面下的行为轨迹数据;采用预设的用户群策略,对每一起始页面下的行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据;通过对用户在不同起始页面的行为轨迹进行分析和整合,从而实现了准确直观地记录用户的行为轨迹数据,以反映出用户主动访问的真实目的,从而为更多开发者进行网站监控和优化提供支持,降低了人工分析的成本,提高了可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中用户操作轨迹记录方法的一应用环境示意图;
图2是本发明一实施例中用户操作轨迹记录方法的一示例图;
图3是本发明一实施例中用户操作轨迹记录方法的另一示例图;
图4是本发明一实施例中用户操作轨迹记录方法的另一示例图;
图5是本发明一实施例中用户操作轨迹记录方法的另一示例图;
图6是本发明一实施例中用户操作轨迹记录方法的另一示例图;
图7是本发明一实施例中用户操作轨迹记录装置的一原理框图;
图8是本发明一实施例中用户操作轨迹记录装置的另一原理框图;
图9是本发明一实施例中用户操作轨迹记录装置的另一原理框图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的用户操作轨迹记录方法,该用户操作轨迹记录方法可应用如图1所示的应用环境中。具体地,该用户操作轨迹记录方法应用在用户操作轨迹记录系统中,该用户操作轨迹记录系统包括如图1所示的客户端和服务端,客户端与服务端通过网络进行通信,用于解决无法准确直观地记录用户的行为轨迹数据的问题。其中,客户端又称为用户端,是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种用户操作轨迹记录方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取用户行为数据集和有效页面配置数据,用户行为数据集包括N个用户行为数据,每一用户行为数据包括页面埋点ID,有效页面配置数据包括M个起始页面和每一起始页面下的有效子页面。
其中,用户行为数据集指用户在客户端执行页面操作行为所生成的数据。页面操作行为可以为触摸、点击、滑动、框选、输入、放大或缩小等等。用户行为数据集包括N个用户行为数据。用户行为数据指用户在某一具体页面执行页面操作行为所生成的数据。可以理解地,每一用户行为数据对应一个执行页面。例如:用户行为数据可以为某一用户在页面A上停留了2分钟。每一用户行为数据包括页面埋点ID。页面埋点ID指用户点击进入某一页面时的接口ID。在本实施例中,每一用户行为数据对应一个页面埋点ID。优选地,每一用户行为数据还可以包括有对应的用户标识、点击时间和停留时长等。
其中,有效页面配置数据指根据实际需求所预先设定的页面数据。具体地,有效页面配置数据包含M个起始页面和每一起始页面下的有效子页面。起始页面指根据具体应用程序的核心功能进行配置后得到的页面。例如:起始页面可以分为“首页”、“财富主页”、“活动主页”和“服务主页”等。每一起始页面下包括有若干对应的有效子页面。需要说明的是,不同起始页面下可能存在内容相同的有效子页面。在一具体实施例中,为了清晰地体现每一起始页面与对应的有效子页面的层级关系,每一起始页面所对应的有效子页面在后台配置中都会预先设置对应的层级。例如:若起始页面“财富主页A”包括有3个有效子页面,分别为有效子页面a1、有效子页面a2和有效子页面a3,则财富主页A为一级页面、有效子页面a1为二级页面、有效子页面a2为三级页面,以及有效子页面a3为四级页面,即在进入财富主页之后,通过点击财富主页中的某一控件或虚拟按钮即可进入到有效子页面a1,然后在有效子页面a1中通过点击页面上某一控件或虚拟按钮即可进入到有效子页面a2,再在进入到有效子页面a2之后,再通过点击有效子页面a2中的某一控件或虚拟按钮即可进入到有效子页面a3
具体地,用户行为数据预先通过埋点上报至预设的数据平台,并以参数key/value形式将用户行为数据中全部的相关信息放在预设存储表中的字段中。因此,可根据json格式解析规则从预设存储表中获取所需的用户行为数据集。例如:通过get_json_object(regexp_extract(event_mparameters,'ext=([{].*?[}])',1),'$.liveDuration')的方法获取从预设存储表中获取用户行为数据集。
S20:根据页面埋点ID,将每一用户行为数据在预设的页面埋点映射表中进行查询,得到每一用户行为数据的候选匹配页面。
其中,页面埋点映射表指预先根据样本页面所生成的映射表。具体地,页面埋点映射表包括每一样本页面所对应的样本类名(page_view_ID)、样本页面ID(page_ID)和样本页面名称(page_name)。具体地,将每一用户行为数据的页面埋点ID,与预设的页面埋点映射表中每一样本页面所对应的样本类名(page_view_ID)进行匹配,并将与用户行为数据的页面埋点ID匹配成功的样本类名(page_view_ID)所对应的样本页面,确定为该用户行为数据的候选匹配页面。进一步,在得到每一用户行为数据的候选匹配页面之后,再将每一用户行为数据中的用户标识、点击时间和停留时长与对应的候选匹配页面进行关联。
S30:将每一起始页面下的有效子页面与每一用户行为数据的候选匹配页面进行匹配,得到每一起始页面的目标行为数据。
在一具体实施例中,为了便于用户区分不同页面,每一起始页面以及对应的每一有效子页面都预先设定有对应的页面ID,且同一起始页面下的所有有效子页面的页面ID与对应起始页面的页面ID存在层级关联。可选地,页面ID可以由数字、字母或者字符表示。例如:若起始页面A的页面ID为1,则该起始页面A下的有效子页面a1的页面ID可以为10,有效子页面a2的页面ID可以为11,以及有效子页面a3的页面ID可以为12。需要说明的是,每一起始页面以及对应的每一有效子页面所对应的页面ID都是唯一确定的。
由步骤S20可知,每一用户行为数据的候选匹配页面在页面埋点映射表中都能找到对应的样本页面ID(page_ID)。具体地,可采用字符串匹配法或者正则匹配法,将每一起始页面下的每一有效子页面的页面ID,与每一用户行为数据的候选匹配页面的样本页面ID进行匹配;将与每一起始页面下的每一有效子页面的页面ID匹配成功的样本页面ID所对应的用户行为数据,确定为对应的起始页面下的目标行为数据。
示例性,若起始页面A的页面ID为1,该起始页面A下的有效子页面a1的页面ID为10,有效子页面a2的页面ID为11,以及有效子页面a3的页面ID为12;起始页面B的页面ID为2,该起始页面B下的有效子页面b1的页面ID为20,有效子页面b2的页面ID为21,以及有效子页面b3的页面ID为22,且用户行为数据a的候选匹配页面的样本页面ID为10;用户行为数据b的候选匹配页面的样本页面ID为22,用户行为数据c的候选匹配页面的样本页面ID为20,用户行为数据d的候选匹配页面的样本页面ID为11;则将每一起始页面下的每一有效子页面与每一用户行为数据的候选匹配页面进行匹配后,得到起始页面A的目标行为数据分别为:用户行为数据a和用户行为数据d;起始页面B的目标行为数据分别为:用户行为数据b和用户行为数据c。
S40:根据预设的数据清洗策略对每一起始页面下的目标行为数据进行清洗,得到每一起始页面下的行为轨迹数据。
其中,数据清洗策略指预先设定的用于对每一起始页面所对应的目标行为数据进行清洗的策略。可选地,数据清洗策略可以为只做简单的数据清洗,即将完全相同的目标行为数据视为重复数据,做去重处理。可以理解地,用户ID相同、页面ID相同、点击时间相同和停留时长相同的两条目标行为数据即为重复数据。也可以为在基于简单的数据清洗之后,再采用有效页面配置数据中每一起始页面的起始点击时间做进行进一步的数据清洗,即将简单的数据清洗之后的每一起始页面下的目标行为数据的点击时间,与对应起始页面的起始点击时间进行比较,将点击时间早于对应起始页面的起始点击时间的目标行为数据(此类数据主要存在于非“首页”系列中)剔除,以保证在不同起始页面下的行为轨迹数据的起始节点为指定的起始页面。
具体地,根据预设的数据清洗策略对每一起始页面下的目标行为数据进行清洗,剔除或者合并不符合预设要求的目标行为数据,从而得到每一起始页面下的行为轨迹数据。可以理解地,数据清洗策略不同,所对应得到的每一起始页面下的行为轨迹数据也不同。
S50:采用预设的用户群策略,对每一起始页面下的行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据。
其中,用户群策略指预先设定用于对每一起始页面下的行为轨迹数据进行分类的策略。具体地,用户群策略包括若干用户群以及每一用户群所对应的预设条件。可选地,用户群可以为新注册用户、活动用户、健康用户或者会员用户等。预设条件指满足对应用户群所需达到的条件。例如:新注册用户所对应的预设条件为注册时间为2019年1月1日至今。可以理解地,在不同实际情况下,所预先设定的用户群策略可能不同,用户可根据实际情况自定义设定。需要说明的是,在本实施例中,一个行为轨迹数据可能同时属于多个用户群。例如:行为轨迹数据a可能即属于新注册用户、又属于健康用户。
在一具体实施例中,每一行为轨迹数据包括有用户标识,且每一用户标识预先关联有对应的用户信息存储在服务端的数据库中。其中,用户信息指反映用户基本状态的的个人信息。例如:用户信息可以包括注册时间、手机号码、健康状态、是否为会员等。因此,在本实施例中,可预先获取每一起始页面下每一行为轨迹数据的用户标识;然后基于每一行为轨迹数据的用户标识,从数据库获取与每一用户标识相关联的用户信息;再基于获取的用户信息,采用预设的用户群策略对每一行为轨迹数据进行分类,从而确定每一行为轨迹数据所属的用户群;最后即可根据每一行为轨迹数据所属的用户群,得到不同用户群下的行为轨迹数据。
S60:基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据。
具体地,在确定了不同用户群下的行为轨迹数据之后,再根据每一行为轨迹数据所对应的起始页面,对每一用户群下的行为轨迹数据进行汇总,从而得到每一起始页面下的目标轨迹数据。即以起始页面为统计单位,确定每一起始页面下的行为轨迹数据以及所属的用户群,便于后续可直接根据每一起始页面下的目标轨迹数据,准确直观地记录不同类型的用户的行为轨迹数据,反映出用户主动访问的真实目的。
在本实施例中,通过获取用户行为数据集和有效页面配置数据,用户行为数据集包括N个用户行为数据,每一用户行为数据包括页面埋点ID,有效页面配置数据包括M个起始页面和每一起始页面下的有效子页面;根据页面埋点ID,将每一用户行为数据在预设的页面埋点映射表中进行查询,得到每一用户行为数据的候选匹配页面;将每一起始页面下的有效子页面与每一用户行为数据的候选匹配页面进行匹配,得到每一起始页面的目标行为数据;根据预设的数据清洗策略对每一起始页面下的目标行为数据进行清洗,得到每一起始页面下的行为轨迹数据;采用预设的用户群策略,对每一起始页面下的行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据;通过对用户在不同起始页面的行为轨迹进行分析和整合,从而实现了准确直观地记录用户的行为轨迹数据,以反映出用户主动访问的真实目的,从而为更多开发者进行网站监控和优化提供支持,降低了人工分析的成本,提高了可靠性。
在一实施例中,如图3所示,每一有效子页面包括有效页面ID,每一候选匹配页面包括候选页面ID;
将每一起始页面下的有效子页面与每一用户行为数据的候选匹配页面进行匹配,得到每一起始页面的目标行为数据,具体包括如下步骤:
S301:采用正则匹配法,将每一有效子页面的有效页面ID与每一候选匹配页面的候选页面ID进行匹配。
其中,正则匹配法是用于测试正则表达式的应用,其中,正则表达式是对字符串或特殊字符操作的一种逻辑公式,指用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
在一具体实施例中,每一起始页面以及每一起始页面下的每一有效子页面都预先设定有对应的有效页面ID,且每一用户行为数据的候选匹配页面都能在页面埋点映射表找到对应的候选页面ID。由于有效页面ID与候选页面ID可能是同时由多个字母、数字和字符组成的较为复杂的字符串,因此,为了提高有效页面ID与候选页面ID进行匹配时的准确率,在本实施例中,采用正则匹配法,将每一有效子页面的有效页面ID,与每一候选匹配页面的候选页面ID进行匹配。
S302:将与有效子页面匹配成功的候选匹配页面,确定为有效子页面对应的起始页面的待选匹配页面。
具体地,在根据步骤S301进行匹配之后,将与有效子页面匹配成功的候选匹配页面,确定为有效子页面对应的起始页面的待选匹配页面。可以理解地,由于每一起始页面可能包括有一个或多个有效子页面,因此,在将每一有效子页面的有效页面ID与每一候选匹配页面的候选页面ID进行匹配之后,确定的每一起始页面的待选匹配页面可能为一个或者多个。
S303:获取待选匹配页面所对应的用户行为数据,并将用户行为数据确定为对应的起始页面的目标行为数据。
具体地,在确定了每一起始页面的待选匹配页面之后,获取与每一待选匹配页面相关联的用户行为数据,并将该用户行为数据确定为对应的起始页面的目标行为数据。可以理解地,每一起始页面的目标行为数据可能为一条或者多条,且每一目标行为数据都包括有对应的用户标识、点击时间和停留时长等。
在本实施例中,通过采用正则匹配法,将每一有效子页面的有效页面ID与每一候选匹配页面的候选页面ID进行匹配;将与有效子页面匹配成功的候选匹配页面,确定为有效子页面对应的起始页面的待选匹配页面;获取待选匹配页面所对应的用户行为数据,并将用户行为数据确定为对应的起始页面的目标行为数据;从而提高了生成的每一起始页面的目标行为数据的准确性。
在一实施例中,如图4所示,每一目标行为数据包括行为信息,根据预设的数据清洗策略对每一起始页面下的目标行为数据进行清洗,得到每一起始页面下的行为轨迹数据,具体包括如下步骤:
S401:基于行为信息,对每一起始页面下的目标行为数据进行去重处理,得到每一起始页面下的起始轨迹数据,起始轨迹数据包括点击时间。
每一目标行为数据包括行为信息。其中,行为信息指每一目标行为数据所包含的信息。具体地,行为信息可以包括用户标识、页面ID、点击时间和停留时长等。具体地,将每一起始页面下每一目标行为数据的用户标识、页面ID、点击时间和停留时长分别对应进行一一匹配;将用户标识、页面ID、点击时间以及停留时长都相同的两个目标行为数据视为重复数据,做去重处理,从而得到每一起始页面下的起始轨迹数据,每一起始轨迹数据包括点击时间。其中,点击时间指每一起始轨迹数据所对应的页面点击时间,即在对应页面进行页面点击时的最早时间。例如:起始轨迹数据a对应的点击时间为18:04,起始轨迹数据b对应的点击时间为17:09,起始轨迹数据c对应的点击时间为09:20。
在一具体实施例中,获取的目标行为数据中的行为信息可能存在异常情况。例如:目标行为数据中的停留时间出现负值。优选地,为了提高生成的起始轨迹数据的干净程度,在对每一起始页面下的目标行为数据进行去重处理之前,将目标行为数据中为负值的停留时间替换为0秒,以及将目标行为数据中超过180秒的停留时间替换为180秒。另外地,若目标行为数据中存在同一用户在不同起始页面下点击两个连续相同的页面,则将该两条目标行为数据合并为一条目标行为数据,点击时间取最早的点击时间,停留时长取合并的页面停留时长之和。
S402:将每一起始轨迹数据的点击时间与对应的预设点击时间进行比较,将点击时间满足预设点击时间的起始轨迹数据,确定为对应的起始页面下的行为轨迹数据,得到每一起始页面下的行为轨迹数据。
其中,预设点击时间指预先设定用于判断对应的起始轨迹数据的点击时间是否满足要求的时间段。例如:预设点击时间可以为10:00-23:00。在本实施例中,每一起始页面都预先设定有对应的预设点击时间,不同起始页面所对应的预设点击时间可能相同或不同。具体地,在根据步骤S401得到每一起始页面下的起始轨迹数据之后,将每一起始轨迹数据的点击时间与对应的起始页面的预设点击时间进行比较,将点击时间不在预设点击时间内的起始轨迹数据剔除,将点击时间满足预设点击时间的起始轨迹数据,确定为对应的起始页面下的行为轨迹数据,从而得到每一起始页面下的行为轨迹数据。
示例性地,若起始页面A的预设点击时间为10:00-23:00,起始页面A下起始轨迹数据a1的点击时间为9:00,起始轨迹数据a2的点击时间为11:00,起始轨迹数据a3的点击时间为13:20,起始轨迹数据a4的点击时间为23:10,则由于起始轨迹数据a1的点击时间早于预设点击时间,起始轨迹数据a4的点击时间迟于预设点击时间,则将起始轨迹数据a1和起始轨迹数据a4剔除,提取出起始轨迹数据a2和起始轨迹数据a3作为起始页面A的行为轨迹数据。
在本实施例中,基于行为信息,对每一起始页面下的目标行为数据进行去重处理,得到每一起始页面下的起始轨迹数据,起始轨迹数据包括点击时间;将每一起始轨迹数据的点击时间与对应的预设点击时间进行比较,将点击时间满足预设点击时间的起始轨迹数据,确定为对应的起始页面下的行为轨迹数据,得到每一起始页面下的行为轨迹数据;从而保证了生成的每一起始页面下的行为轨迹数据的干净程度。
在一实施例中,如图5所示,采用预设的用户群策略,对每一起始页面下的行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据,具体包括如下步骤:
S501:确定每一起始页面下每一行为轨迹数据的用户标识。
如步骤S10可知,每一行为轨迹数据中都包括有用户标识。因此,可直接获取每一起始页面下每一行为轨迹数据的用户标识。
S502:基于每一行为轨迹数据的用户标识,从数据库获取每一行为轨迹数据的用户信息。
其中,用户信息指反映用户基本状态的的个人信息。例如:用户信息可以包括注册时间、手机号码、登录次数、健康状态、是否为会员等。在本实施例中,可通过用户信息确定用户的所属群类型。
在一具体实施例中,每一用户标识都预先关联有对应的用户信息并存储在数据库中,在确定了每一行为轨迹数据的用户标识之后,可直接根据用户标识从数据库获取对应的行为轨迹数据的用户信息。
S503:将每一行为轨迹数据的用户信息在预设的用户群策略中查询,确定每一行为轨迹数据所属的用户群。
具体地,用户群策略包括若干用户群以及每一用户群所对应的预设条件。预设条件指满足对应用户群所需达到的条件。在确定了每一行为轨迹数据的基本信息之后,将每一行为轨迹数据的基本信息,与用户群策略中每一用户群的预设条件进行比对;若某一行为轨迹数据满足一用户群的预设条件,则判断该行为轨迹数据属于该用户群,从而确定每一行为轨迹数据所属的用户群。
S504:基于每一行为轨迹数据所属的用户群,得到不同用户群下的行为轨迹数据。
具体地,在确定了每一行为轨迹数据所属的用户群之后,以每一用户群为统计单位,对每一行为轨迹数据进行汇总,从而得到不同用户群下的行为轨迹数据。
在本实施例中,确定每一起始页面下每一行为轨迹数据的用户标识;基于每一行为轨迹数据的用户标识,从数据库获取每一行为轨迹数据的用户信息;将每一行为轨迹数据的用户信息据在预设的用户群策略中查询,确定每一行为轨迹数据所属的用户群;基于每一行为轨迹数据所属的用户群,得到不同用户群下的行为轨迹数据;从而提高了对不同用户群的主动访问目的挖掘的准确性。
在一实施例中,如图5所示,基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据,具体包括如下步骤:
S601:确定每一用户群下的每一行为轨迹数据的起始页面。
具体地,根据每一起始页面下的行为轨迹数据,从而确定每一用户群下的每一行为轨迹数据的起始页面。
S602:根据每一行为轨迹数据的起始页面,确定每一起始页面下的用户群。
具体地,由于每一行为轨迹数据都预先关联有对应的用户群,在确定了每一行为轨迹数据的起始页面之后,以起始页面为统计单位,确定每一起始页面下的用户群。
S603:根据每一起始页面下的用户群,对每一用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据。
具体地,根据每一起始页面下的用户群,对每一用户群下的行为轨迹数据进行归并汇总,从而得到每一起始页面下的目标轨迹数据。
示例性地,若第一用户群下的行为轨迹数据包括行为轨迹数据a1,行为轨迹数据a2和行为轨迹数据a3;第二用户群下的行为轨迹数据包括行为轨迹数据a2,行为轨迹数据a3和行为轨迹数据a4;第三用户群下的行为轨迹数据包括行为轨迹数据a1,行为轨迹数据a4和行为轨迹数据a5;且行为轨迹数据a1和行为轨迹数据a2所对应的起始页面为起始页面A,行为轨迹数据a3所对应的起始页面为起始页面B,行为轨迹数据a4和行为轨迹数据a5所对应的起始页面为起始页面C;则基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总之后,得到起始页面A的目标轨迹数据包括第一用户群、第二用户群和第三用户群下的轨迹数据;起始页面B的目标轨迹数据包括第一用户群和第二用户群下的轨迹数据,起始页面C的目标轨迹数据包括第二用户群和第三用户群下的轨迹数据。
在本实施例中,确定每一用户群下的每一行为轨迹数据的起始页面;根据每一行为轨迹数据的起始页面,确定每一起始页面下的用户群;根据每一起始页面下的用户群,对每一用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据;从而便于后续可直接根据每一起始页面下的目标轨迹数据,准确直观地反映出用户主动访问的真实目的。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种用户操作轨迹记录装置,该用户操作轨迹记录装置与上述实施例中用户操作轨迹记录方法一一对应。如图7所示,该用户操作轨迹记录装置包括数据获取模块10、查询模块20、匹配模块30、数据清洗模块40、数据分类模块50和归并汇总模块60。各功能模块详细说明如下:
数据获取模块10,用于获取用户行为数据集和有效页面配置数据,用户行为数据集包括N个用户行为数据,每一用户行为数据包括页面埋点ID,有效页面配置数据包括M个起始页面和每一起始页面下的有效子页面;
查询模块20,用于根据页面埋点ID,将每一用户行为数据在预设的页面埋点映射表中进行查询,得到每一用户行为数据的候选匹配页面;
匹配模块30,用于将每一起始页面下的有效子页面与每一用户行为数据的候选匹配页面进行匹配,得到每一起始页面的目标行为数据;
数据清洗模块40,用于根据预设的数据清洗策略对每一起始页面下的目标行为数据进行清洗,得到每一起始页面下的行为轨迹数据;
数据分类模块50,用于采用预设的用户群策略,对每一起始页面下的行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;
归并汇总模块60,用于基于每一行为轨迹数据所对应的起始页面,对不同用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据。
优选地,如图8所示,匹配模块30包括:
匹配单元301,用于采用正则匹配法,将每一有效子页面的有效页面ID与每一候选匹配页面的候选页面ID进行匹配;
第一确定单元302,用于将与有效子页面匹配成功的候选匹配页面,确定为有效子页面对应的起始页面的待选匹配页面;
用户行为数据获取单元303,用于获取待选匹配页面所对应的用户行为数据,并将用户行为数据确定为对应的起始页面的目标行为数据。
优选地,如图9所示,数据清洗模块40包括:
去重处理单元401,用于基于行为信息,对每一起始页面下的目标行为数据进行去重处理,得到每一起始页面下的起始轨迹数据,起始轨迹数据包括点击时间;
比较单元402,用于将每一起始轨迹数据的点击时间与对应的预设点击时间进行比较,将点击时间满足预设点击时间的起始轨迹数据,确定为对应的起始页面下的行为轨迹数据,得到每一起始页面下的行为轨迹数据。
优选地,数据分类模块包括:
第二确定单元,用于确定每一起始页面下每一行为轨迹数据的用户标识;
用户信息获取单元,用于基于每一行为轨迹数据的用户标识,从数据库获取每一行为轨迹数据的用户信息;
查询单元,用于将每一行为轨迹数据的用户信息在预设的用户群策略中查询,确定每一行为轨迹数据所属的用户群;
行为轨迹数据生成单元,用于基于每一行为轨迹数据所属的用户群,得到不同用户群下的行为轨迹数据。
优选地,归并汇总模块60包括:
第三确定单元,用于确定每一用户群下的每一行为轨迹数据的起始页面;
第四确定单元,用于根据每一行为轨迹数据的起始页面,确定每一起始页面下的用户群;
归并汇总单元,用于根据每一起始页面下的用户群,对每一用户群下的行为轨迹数据进行归并汇总,得到每一起始页面下的目标轨迹数据。
关于用户操作轨迹记录装置的具体限定可以参见上文中对于用户操作轨迹记录方法的限定,在此不再赘述。上述用户操作轨迹记录装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例用户操作轨迹记录方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户操作轨迹记录方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的用户操作轨迹记录方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的用户操作轨迹记录方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户操作轨迹记录方法,其特征在于,包括:
获取用户行为数据集和有效页面配置数据,所述用户行为数据集包括N个用户行为数据,每一所述用户行为数据包括页面埋点ID,所述有效页面配置数据包括M个起始页面和每一所述起始页面下的有效子页面;
根据所述页面埋点ID,将每一所述用户行为数据在预设的页面埋点映射表中进行查询,得到每一所述用户行为数据的候选匹配页面;
将每一所述起始页面下的所述有效子页面与每一所述用户行为数据的所述候选匹配页面进行匹配,得到每一所述起始页面的目标行为数据;
根据预设的数据清洗策略对每一所述起始页面下的所述目标行为数据进行清洗,得到每一所述起始页面下的行为轨迹数据;
采用预设的用户群策略,对每一所述起始页面下的所述行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;
基于每一所述行为轨迹数据所对应的起始页面,对所述不同用户群下的行为轨迹数据进行归并汇总,得到每一所述起始页面下的目标轨迹数据。
2.如权利要求1所述的用户操作轨迹记录方法,其特征在于,每一所述有效子页面包括有效页面ID,每一所述候选匹配页面包括候选页面ID;
所述将每一所述起始页面下的所述有效子页面与每一所述用户行为数据的所述候选匹配页面进行匹配,得到每一所述起始页面的目标行为数据,包括:
采用正则匹配法,将每一所述有效子页面的所述有效页面ID与每一所述候选匹配页面的所述候选页面ID进行匹配;
将与所述有效子页面匹配成功的所述候选匹配页面,确定为所述有效子页面对应的所述起始页面的待选匹配页面;
获取所述待选匹配页面所对应的用户行为数据,并将所述用户行为数据确定为对应的所述起始页面的目标行为数据。
3.如权利要求1所述的用户操作轨迹记录方法,其特征在于,每一所述目标行为数据包括行为信息,
所述根据预设的数据清洗策略对每一所述起始页面下的所述目标行为数据进行清洗,得到每一所述起始页面下的行为轨迹数据,包括:
基于所述行为信息,对每一所述起始页面下的所述目标行为数据进行去重处理,得到每一所述起始页面下的起始轨迹数据,所述起始轨迹数据包括点击时间;
将每一所述起始轨迹数据的所述点击时间与对应的预设点击时间进行比较,将所述点击时间满足所述预设点击时间的起始轨迹数据,确定为对应的所述起始页面下的行为轨迹数据,得到每一所述起始页面下的行为轨迹数据。
4.如权利要求1所述的用户操作轨迹记录方法,其特征在于,所述采用预设的用户群策略,对每一所述起始页面下的所述行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据,包括:
确定每一所述起始页面下每一所述行为轨迹数据的用户标识;
基于每一所述行为轨迹数据的所述用户标识,从数据库获取每一所述行为轨迹数据的用户信息;
将每一所述行为轨迹数据的所述用户信息在预设的用户群策略中查询,确定每一所述行为轨迹数据所属的用户群;
基于所述每一行为轨迹数据所属的用户群,得到不同用户群下的行为轨迹数据。
5.如权利要求1所述的用户操作轨迹记录方法,其特征在于,所述基于每一所述行为轨迹数据所对应的起始页面,对所述不同用户群下的行为轨迹数据进行归并汇总,得到每一所述起始页面下的目标轨迹数据,包括:
确定每一所述用户群下的每一所述行为轨迹数据的起始页面;
根据每一所述行为轨迹数据的所述起始页面,确定每一所述起始页面下的用户群;
根据每一所述起始页面下的所述用户群,对每一所述用户群下的所述行为轨迹数据进行归并汇总,得到每一所述起始页面下的目标轨迹数据。
6.一种用户操作轨迹记录装置,其特征在于,包括:
数据获取模块,用于获取用户行为数据集和有效页面配置数据,所述用户行为数据集包括N个用户行为数据,每一所述用户行为数据包括页面埋点ID,所述有效页面配置数据包括M个起始页面和每一所述起始页面下的有效子页面;
查询模块,用于根据所述页面埋点ID,将每一所述用户行为数据在预设的页面埋点映射表中进行查询,得到每一所述用户行为数据的候选匹配页面;
匹配模块,用于将每一所述起始页面下的所述有效子页面与每一所述用户行为数据的所述候选匹配页面进行匹配,得到每一所述起始页面的目标行为数据;
数据清洗模块,用于根据预设的数据清洗策略对每一所述起始页面下的所述目标行为数据进行清洗,得到每一所述起始页面下的行为轨迹数据;
数据分类模块,用于采用预设的用户群策略,对每一所述起始页面下的所述行为轨迹数据进行分类,得到不同用户群下的行为轨迹数据;
归并汇总模块,用于基于每一所述行为轨迹数据所对应的起始页面,对所述不同用户群下的行为轨迹数据进行归并汇总,得到每一所述起始页面下的目标轨迹数据。
7.如权利要求6所述的用户操作轨迹记录装置,其特征在于,所述匹配模块,包括:
匹配单元,用于采用正则匹配法,将每一所述有效子页面的所述有效页面ID与每一所述候选匹配页面的所述候选页面ID进行匹配;
第一确定单元,用于将与所述有效子页面匹配成功的所述候选匹配页面,确定为所述有效子页面对应的所述起始页面的待选匹配页面;
用户行为数据获取单元,用于获取所述待选匹配页面所对应的用户行为数据,并将所述用户行为数据确定为对应的所述起始页面的目标行为数据。
8.如权利要求6所述的用户操作轨迹记录装置,其特征在于,所述数据清洗模块,包括:
去重处理单元,用于基于所述行为信息,对每一所述起始页面下的所述目标行为数据进行去重处理,得到每一所述起始页面下的起始轨迹数据,所述起始轨迹数据包括点击时间;
比较单元,用于将每一所述起始轨迹数据的所述点击时间与对应的预设点击时间进行比较,将所述点击时间满足所述预设点击时间的起始轨迹数据,确定为对应的所述起始页面下的行为轨迹数据,得到每一所述起始页面下的行为轨迹数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述用户操作轨迹记录方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述用户操作轨迹记录方法。
CN202010064698.9A 2020-01-20 2020-01-20 用户操作轨迹记录方法、装置、计算机设备及存储介质 Pending CN111259050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010064698.9A CN111259050A (zh) 2020-01-20 2020-01-20 用户操作轨迹记录方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010064698.9A CN111259050A (zh) 2020-01-20 2020-01-20 用户操作轨迹记录方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111259050A true CN111259050A (zh) 2020-06-09

Family

ID=70942713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010064698.9A Pending CN111259050A (zh) 2020-01-20 2020-01-20 用户操作轨迹记录方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111259050A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质

Similar Documents

Publication Publication Date Title
CN109672741B (zh) 微服务监控方法、装置、计算机设备和存储介质
US10769228B2 (en) Systems and methods for web analytics testing and web development
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
US20180188932A1 (en) De-anonymization of website visitor identity
CN109245928B (zh) 配置信息的设置方法和装置、终端管理系统
EP3396558B1 (en) Method for user identifier processing, terminal and nonvolatile computer readable storage medium thereof
CN111178069B (zh) 数据处理方法、装置、计算机设备及存储介质
CN111694718A (zh) 内网用户异常行为识别方法、装置、计算机设备及可读存储介质
CN110569222B (zh) 链路追踪方法、装置、计算机设备和可读存储介质
CN108415998B (zh) 应用依赖关系更新方法、终端、设备及存储介质
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN112613067A (zh) 用户行为数据采集方法、装置、计算机设备及存储介质
WO2020140624A1 (zh) 从日志中提取数据的方法和相关设备
CN110414241B (zh) 隐私策略检测方法、装置、计算机设备及存储介质
CN109542764B (zh) 网页自动化测试方法、装置、计算机设备和存储介质
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN110659435A (zh) 页面数据采集处理方法、装置、计算机设备和存储介质
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质
CN111352676A (zh) 帮助信息推送方法、帮助系统及可读存储介质
CN111679963A (zh) 用户行为数据的处理方法、装置、设备及存储介质
RU2669172C2 (ru) Способ и система мониторинга согласованности веб-сайта
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN116308148A (zh) 活动流程处理方法、装置、电子设备
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination