CN106055572A - 页面转化参数的处理方法及装置 - Google Patents

页面转化参数的处理方法及装置 Download PDF

Info

Publication number
CN106055572A
CN106055572A CN201610339765.7A CN201610339765A CN106055572A CN 106055572 A CN106055572 A CN 106055572A CN 201610339765 A CN201610339765 A CN 201610339765A CN 106055572 A CN106055572 A CN 106055572A
Authority
CN
China
Prior art keywords
page
access
user
access sequence
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610339765.7A
Other languages
English (en)
Other versions
CN106055572B (zh
Inventor
李曼
覃健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610339765.7A priority Critical patent/CN106055572B/zh
Publication of CN106055572A publication Critical patent/CN106055572A/zh
Application granted granted Critical
Publication of CN106055572B publication Critical patent/CN106055572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种页面转化参数的处理方法及装置。其中所述方法包括:根据待分析的日志样本,获取每个用户的映射访问序列;根据各所述用户的所述映射访问序列,生成页面访问的邻接矩阵;根据所述页面访问的邻接矩阵,获取各所述页面的转化参数。本发明还提供了一种采用上述方法的装置。本发明通过采用上述技术方案,实现根据待分析的日志样本即可以实现页面的转化参数的获取,与现有技术相比,不需要修改线上产品的源代码,从而可以保证线上产品的安全性以及稳定性。

Description

页面转化参数的处理方法及装置
【技术领域】
本发明涉及互联网技术领域,尤其涉及一种页面转化参数的处理方法及装置。
【背景技术】
随着互联网科技的发展,涌现出了各种各样的互联网产品,极大地方便了人们的生活。
对于互联网产品,无论是个人计算机(Person Computer;PC)端网页形态,或是移动端网页形态,或者移动端应用程序(Application;App)形态,相应的网站需要了解用户在产品内各页面的跳转和离开情况,以分析页面的转化情况如页面的转化率和流失率,进而优化页面设计和各页面之间的跳转。现有技术中,通常采用在线上产品的源代码中额外添加统计代码,定制打点记录的方式,将用户使用产品过程中的点击行为,记录并传回后端服务器(server),然后在后端sever做统一处理和统计,来获取用户对不同页面的访问热度,从而计算页面的转化率和流失率等页面转化参数。
但是,现有技术中页面转化参数的处理采用在线上产品中额外添加统计代码,为了兼容添加的统计代码的运行,通常需要修改线上产品的源代码,导致线上产品的安全性以及稳定性较差。
【发明内容】
本发明提供了一种页面转化参数的处理方法及装置,以实现对页面转化参数的处理的同时,保证线上产品的安全性以及稳定性。
本发明提供一种页面转化参数的处理方法,所述方法包括:
根据待分析的日志样本,获取每个用户的映射访问序列;
根据各所述用户的所述映射访问序列,生成页面访问的邻接矩阵;
根据所述页面访问的邻接矩阵,获取各所述页面的转化参数。
本发明还提供一种页面转化参数的处理装置,所述装置包括:
映射访问序列获取模块,用于根据待分析的日志样本,获取每个用户的映射访问序列;
邻接矩阵生成模块,用于根据各所述用户的所述映射访问序列,生成页面访问的邻接矩阵;
页面的转化参数获取模块,还用于根据所述页面访问的邻接矩阵,获取各所述页面的转化参数。
本发明的页面转化参数的处理方法及装置,通过采用上述技术方案,实现根据待分析的日志样本即可以实现页面的转化参数的获取,与现有技术相比,不需要修改线上产品的源代码,从而可以保证线上产品的安全性以及稳定性。
【附图说明】
图1为本发明的页面转化参数的处理方法实施例的流程图。
图2为本发明实施例提供的一个应用产品的页面转化率关系图。
图3为本发明的页面转化参数的处理装置实施例一的结构示意图。
图4为本发明的页面转化参数的处理装置实施例二的结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的页面转化参数的处理方法实施例的流程图。如图1所示,本实施例的页面转化参数的处理方法,具体可以包括如下步骤:
100、根据待分析的日志样本,获取每个用户的映射访问序列;
本实施例的待分析的日志样本可以从待分析页面对应的网站的服务器来获取,具体可以网站的日志中获取全部或者部分作为待分析的日志。该网站的日志中会记录访问该网站内网页的所有用户的日志信息,包括用户字段集合以及每个用户访问该网站中的各个页面信息等等。
本实施例中的映射访问序列可以理解为采用索引的方式例如采用数字的方式,来表示用户的访问序列。具体地,可以将待分析的日志样本中各个页面标识参数分别映射为一个数字来表示,对应地,可以根据每个用户的访问页面标识参数对应的页面的顺序,找出该用户的映射访问序列。
例如,该步骤100的一种实现方式,具体可以包括如下步骤:
(a1)根据待分析的日志样本,获取每个用户的访问序列;
本实施例的访问序列包括对应的用户按照访问先后顺序访问的页面标识参数。例如本实施例的页面标识参数可以包括统一资源定位符(Uniform Resource Locator;URL)、统一资源标识符(Uniform Resource Identifier;URI)、以及URI与页面参数的组合中的任意一种。
本实施例中的页面标识参数具体可以根据待分析的页面的粒度来确定。例如当需要对网站的每一个网页作为一类进行分析时,每一个页面的访问作为一个访问,此时对应的页面标识参数可以为页面的URL。当放大待分析页面的粒度,将多个具有共同特性的同一类页面的访问作为同一访问时,此时可以采用该类页面对应的URI作为该类页面的页面标识参数。如果采用URI无法准确定位到待分析的某一类页面时,可以采用URI与页面参数的组合来唯一确定该类页面,其中的页面参数可以为该类页面中URL中的参数信息。
(a2)将各用户的访问序列中的所有页面标识参数汇总并去重,生成页面词典;
由于不同用户的访问序列中的页面标识参数可能会有重复,本实施例中,需要将所有用户的访问序列中的所有页面标识参数汇总并去重,得到包括所有页面参数的页面词典。
(a3)根据页面词典和各用户的访问序列,获取各用户的映射访问序列。
由于页面词典中包括有用户的访问序列的页面标识参数,为了便于记录用户的访问序列,可以将页面词典中的每一个页面标识参数用一个数字来代替,这样,可以根据页面词典中每一个页面标识参数对应的数字,将用户的访问序列也映射为数字格式的映射访问序列。
例如该步骤(a3)的一种实现方式,具体可以包括如下步骤:
(b1)为页面词典中各页面标识参数标注对应的数字节点;
例如页面词典中的页面标识参数A对应的数字节点为1,页面标识参数B对应的数字节点为2,以此类推,可以将页面词典中所有的页面标识参数按照数字顺序标注对应的数字节点。
(b2)根据页面词典中各页面标识参数对应的数字节点,将各用户的访问序列映射为数字格式,得到各用户的映射访问序列。
例如根据上述处理,可以得到某用户的映射访问序列为1→3→5→7,表示该用户从数字节点1对应的页面跳转到数字节点3对应的页面、再跳转到数字节点5对应的页面,再跳转到数字节点7对应的页面,之后离开。
101、根据各用户的映射访问序列,生成页面访问的邻接矩阵;
例如,邻接矩阵是表示顶点之间相邻关系的矩阵。本实施例的邻接矩阵具体是根据各用户的映射访问序列生成。各用户的映射访问序列中的各点形成了页面访问的邻接矩阵中的各顶点。由于各用户的映射访问序列表征了该用户访问的页面的顺序,因此本实施例的页面访问的邻接矩阵为有向邻接矩阵。根据邻接矩阵的特性,本实施例中将各用户的映射访问序列中的页面间的跳转关系,一起体现在一邻接矩阵中,得到该页面访问的邻接矩阵。
例如,该步骤101的一种实现方式,具体可以包括如下步骤:
(c1)建立邻接矩阵模型;
本实施例的邻接矩阵模型的阶数等于n+1,即该邻接矩阵模型中,共包括n+1行,n+1列。其中n为页面词典中包括的页面标识参数的总数;邻接矩阵模型中各元素初始值为0。
(c2)在各用户的映射访问序列的开头和结尾分别增加数字节点0,作为对应的开始页面和结束页面,以调整各用户的映射访问序列;
该步骤(c2)和上述步骤(c1)可以没有先后时序限制。为了便于邻接矩阵的生成,可以在用户的映射访问序列的开头和结尾分别增加数字节点0,表示开始访问和访问结束的零页面。例如,对于某用户的映射访问序列1→3→5→7,调整之后的映射访问序列可以表示为0→1→3→5→7→0。
(c3)按照调整后的各用户的映射访问序列的访问顺序,将对应的页面的跳转次数累加在邻接矩阵模型中对应的位置,得到页面访问的邻接矩阵。
例如,对于某用户的映射访问序列0→1→3→5→7→0,用户由数字节点0开始访问数字节点1对应的页面,则在邻接矩阵模型中第0行第1列的位置累加1;然后用户由数字节点1对应的页面跳转至数字节点3对应的页面,则在邻接矩阵模型中第1行、第3列的位置累加1;紧接着,该用户再从数字节点3对应的页面跳转至数字节点7对应的页面,则在邻接矩阵模型中第3行、第7列的位置累加1;最后用户从数字节点7对应的页面离开,则在邻接矩阵模型中第7行、第0列的位置累加1。按照上述方式,以此类推,可以将各用户的映射访问序列,按照访问顺序,依次将对应的页面的跳转次数累加在邻接矩阵模型中对应的位置,最终得到页面访问的邻接矩阵。
页面访问的邻接矩阵中除去增加的数字节点0对应的顶点,有效地的顶点数为vex,该vex等于页面词典中页面标识参数的总数。本实施例中页面访问的邻接矩阵的各顶点采用数字节点来表示,每一个数字节点对应一个页面标识参数。其中页面访问的邻接矩阵中每一个元素的值为对应位置的有向边的数值,具体地,第p行第q列所对应的有向边arc[p][q]的值等于数字节点p对应的页面到数字节点q对应的页面的跳转数。
页面访问的邻接矩阵中的顶点入度表示该顶点对应的导入流量,在本实施例中表示跳转至该顶点对应的数字节点所对应的页面的跳转数,具体等于页面访问的邻接矩阵中该数字节点对应的列的所有有向边的值的和。例如顶点3对应的导入流量,即表示从其它页面跳转至数字节点3对应的页面的跳转次数的和,可以包括从开始页面的0页面跳转至数字节点3对应的页面的跳转次数、从数字节点1对应的页面跳转至数字节点3对应的页面的跳转次数、从数字节点2对应的页面跳转至数字节点3对应的页面的跳转次数等等,以此类推,一直到数字节点n对应的页面跳转至数字节点3对应的页面的跳转次数的总和。在页面访问的邻接矩阵中,对应将i从0到n的所有有向边arc[i][3]取和,即得到该顶点3对应的导入流量。
页面访问的邻接矩阵中的顶点出度表示该顶点对应的导出流量,在本实施例中,表示从该顶点对应的数字节点所对应的页面跳转出去的跳转数。具体等于页面访问的邻接矩阵中该数字节点对应的行的所有有向边的值的和。例如顶点3对应的导出流量,即表示从数字节点3对应的页面跳转至其它页面的跳转次数的和,可以包括从数字节点3对应的页面跳转至结束页面的0页面的跳转次数、从数字节点3对应的页面跳转至数字节点1对应的页面的跳转次数、从数字节点3对应的页面跳转至数字节点2对应的页面的跳转次数等等,以此类推,一直到从数字节点3对应的页面跳转至数字节点n对应的页面的跳转次数的总和。在页面访问的邻接矩阵中,对应将i从0到n的所有有向边arc[3][i]取和,即得到顶点3对应的导出流量。
页面访问的邻接矩阵中的主对角线值表示用户在对角线对应页面的连续操作次数,例如搜索页面的上用户搜索完之后,搜索结果不满意,可以直接改变搜索词再次在该页面进行搜索,在URI为单位的分析粒度下,访问的页面可以不变。因此,访问序列中包括有X→X的访问,此时,对应的在页面访问的邻接矩阵中对角线上的第X行第X列的数字节点的跳转次数累加1.。
102、根据页面访问的邻接矩阵,获取各页面的转化参数。
根据页面访问的邻接矩阵可以获取各顶点的导出流量、导入流量、该顶点对应的页面跳转至其他某一顶点对应的页面的跳转次数、以及其他某一顶点对应的页面跳转至该顶点对应的页面的跳转次数,从而可以计算出该页面的转化参数,例如该页面的转化参数可以包括页面的跳转率和/或页面的流失率。
例如,当页面转化参数包括页面的跳转率时,该步骤102具体包括:
根据页面访问的邻接矩阵,计算数字节点p对应的页面到数字节点q对应的页面的跳转率为:
a r c [ p ] [ q ] / Σ i = 0 n a r c [ p ] [ i ]
其中,arc[p][q]为页面访问的邻接矩阵中数字节点p对应的页面到数字节点q对应的页面的跳转数;arc[p][i]为页面访问的邻接矩阵中数字节点p对应的页面到数字节点i对应的页面的跳转数。根据上述公式可以算出每一个数字节点p对应的页面跳转率,进而可以根据网站中各网页的跳转率,指导产品页面的优化,以改善页面的跳转关系。例如图2为本发明实施例提供的一个应用产品的页面转化率关系图。如图2所示,根据现有的各页面的转化率,可以建议增加页面1、页面3到页面8对应节点的导流;还可以建议增加页面6、页面9到其它页面的导流,以改善页面的跳转关系、优化该应用产品。
当页面转化参数包括页面的流失率时,该步骤102具体包括:
根据页面访问的邻接矩阵,计算数字节点p对应的页面的用户流失率为:
a r c [ p ] [ 0 ] / Σ i = 0 n a r c [ p ] [ i ]
其中,arc[p][0]为页面访问的邻接矩阵中数字节点p对应的页面的用户流失数;arc[p][i]为页面访问的邻接矩阵中数字节点p对应的页面到数字节点i对应的页面的跳转数。
本实施例的页面转化参数的处理方法,通过采用上述技术方案,通过待分析的日志样本即可以实现页面的转化参数的获取,与现有技术相比,不需要修改线上产品的源代码,从而可以保证线上产品的安全性以及稳定性。
而且现有技术由于需要修改线上产品的代码,针对一个线上产品的修改的代码通常并不适用于其它线上产品,通用性较差。而本实施例的页面转化参数的处理方法,由于不需要修改线上产品的源代码,可以适用于所有线上产品,具有较强的通用性。
而且现有技术中修改线上产品的代码,统计各页面的点击情况之后,还需要经过复杂的计算方式计算页面转化参数。而本实施例的页面转化参数处理方法中,通过根据待分析的日志样本,获取每个用户的映射访问序列,根据各用户的映射访问序列,生成页面访问的邻接矩阵;并根据页面访问的邻接矩阵,获取各页面的转化参数。与现有技术相比,获取页面的转化参数的过程不需要经过复杂的计算,通过简单的分析和计算即可实现,获取页面的转化参数的效率非常高。
而且现有技术仅能够实现对全网中每一个页面进行分析,无法调整UV粒度,而本实施例中,可以设置访问压面的页面标识参数的粒度大小,调整分析粒度,提高分析精度和效率。且根据本实施例的得到的页面转化参数,可以进一步更加有效地指导产品页面的优化,以改善页面的跳转关系。
进一步可选地,在上述实施例的技术方案的基础上,在步骤100之前,还可以包括:获取原始日志;对原始日志进行预处理,得到待分析的日志样本。
本实施例中的原始日志可以为网站的服务器中记录的日志。其中对原始日志进行预处理,具体包括如下至少一种操作:
对原始日志进行过滤处理,去掉非真实用户的日志;
对原始日志进行去燥处理;以及
对原始日志按照设定的渠道类别或者流量类别进行过滤。
其中对原始日志进行过滤处理,具体可以过滤掉原始日志中的非真实用户的日志,提高待分析日志样本的有效性。对原始日志进行去燥处理,具体可以去除原始日志中时间间隔很小的同一页面的跳转。因为时间间隔很小的跳转可能是网络不好,用户刷新页面引起的,此时可以将刷新引起的同一页面的多次访问合并为一个页面访问。具体地,可以设定一个时间阈值,当访问同一页面标识参数对应的页面的时间间隔超出该时间阈值,说明用户已经查看内容之后的第二次访问,如用户使用某搜索引擎网站搜索某关键词,用户查看结果之后,修改搜索关键词继续在该网站搜索。由于用户查看第一次搜索结果需要一定的时间,该时间间隔超出了设定的时间阈值,此时可以认为连续访问该同一面标识参数对应的页面的两次访问就是两次访问。否则当时间间隔未超出设定的时间阈值,可以认为是用户在刷新页面,连续访问该同一面标识参数对应的页面的两次访问合为一次访问,具体可以保留首次访问,去掉后面的访问。
对原始日志按照设定的渠道类别或者流量类别进行过滤,具体可以根据分析需求,如果本实施例的页面转换参数的处理可以根据渠道对原始日志进行过滤获取待分析的日志样本,例如可以从原始日志中过滤出PC端的日志或者手机端的日志作为待分析的日志样本。或者还可以根据流量类别对原始日志进行过滤过滤出某种流量的用户的日志,得到待分析的日志样本,与现有技术中仅能做全量用户的统计分析相比,本实施例的技术方案可以细化提取到某一渠道或者某一种流量进行页面转化参数的处理,提高页面转化参数的处理精度。
图3为本发明的页面转化参数的处理装置实施例一的结构示意图。如图3所示,本实施例的页面转化参数的处理装置,具体可以包括:映射访问序列获取模块10、邻接矩阵生成模块11和页面的转化参数获取模块12。
其中映射访问序列获取模块10用于根据待分析的日志样本,获取每个用户的映射访问序列;邻接矩阵生成模块11用于根据映射访问序列获取模块10获取的各用户的映射访问序列,生成页面访问的邻接矩阵;页面的转化参数获取模块12还用于根据邻接矩阵生成模块11生成的页面访问的邻接矩阵,获取各页面的转化参数。
图4为本发明的页面转化参数的处理装置实施例二的结构示意图。如图2所示,本实施例的页面转化参数的处理装置在上述图3所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
如图4所示,本实施例的页面转化参数的处理装置中映射访问序列获取模块10具体可以包括:访问序列获取单元101、页面词典生成单元102和映射访问序列获取单元103。
其中访问序列获取单元101用于根据待分析的日志样本,获取每个用户的访问序列,该访问序列包括对应的用户按照访问先后顺序访问的页面标识参数;页面词典生成单元102用于将访问序列获取单元101获取的各用户的访问序列中的所有页面标识参数汇总并去重,生成页面词典;映射访问序列获取单元103用于根据页面词典生成单元102生成的页面词典和访问序列获取单元101获取的各用户的访问序列,获取各用户的映射访问序列。
进一步可选地,其中的页面标识参数包括URL、URI、以及URI与页面参数的组合中的任意一种。其中URL为一种具体的URI。
进一步可选地,映射访问序列获取单元103具体用于为页面词典生成单元102生成的页面词典中各页面标识参数标注对应的数字节点;根据页面词典生成单元102生成的页面词典中各页面标识参数对应的数字节点,将访问序列获取单元101获取的各用户的访问序列映射为数字格式,得到各用户的映射访问序列。
进一步可选地,如图4所示,本实施例的页面转化参数的处理装置中,邻接矩阵生成模块11具体可以包括:邻接矩阵模型建立单元111、映射访问序列调整单元112和累加处理单元113。
其中邻接矩阵模型建立单元111用于建立邻接矩阵模型,该邻接矩阵模型的阶数等于n+1,其中n为页面词典中包括的页面标识参数的总数;邻接矩阵模型中各元素为0;映射访问序列调整单元112用于在映射访问序列获取单元103获取的各用户的映射访问序列的开头和结尾分别增加数字节点0,作为对应的开始页面和结束页面,以调整各用户的映射访问序列;累加处理单元113用于按照映射访问序列调整单元112调整后的各用户的映射访问序列的访问顺序,将对应的页面的跳转次数累加在邻接矩阵模型建立单元111建立的邻接矩阵模型中对应的位置,得到页面访问的邻接矩阵。
进一步可选地,本实施例的页面的转化参数获取模块12具体用于当页面转化参数包括页面的跳转率时,根据页面访问的邻接矩阵,计算数字节点p对应的页面到数字节点q对应的页面的跳转率为:
a r c [ p ] [ q ] / Σ i = 0 n a r c [ p ] [ i ]
其中,arc[p][q]为页面访问的邻接矩阵中数字节点p对应的页面到数字节点q对应的页面的跳转数;arc[p][i]为页面访问的邻接矩阵中数字节点p对应的页面到数字节点i对应的页面的跳转数;
或者页面的转化参数获取模块12具体还用于当页面转化参数包括页面的流失率时,根据页面访问的邻接矩阵,计算数字节点p对应的页面的用户流失率为:
a r c [ p ] [ 0 ] / Σ i = 0 n a r c [ p ] [ i ]
其中,arc[p][0]为页面访问的邻接矩阵中数字节点p对应的页面的用户流失数;arc[p][i]为页面访问的邻接矩阵中数字节点p对应的页面到数字节点i对应的页面的跳转数。
进一步可选地,如图4所示,本实施例的页面转化参数的处理装置中还包括:原始日志获取模块13和预处理模块14。
原始日志获取模块13用于获取原始日志;预处理模块14用于对原始日志获取模块13获取的原始日志进行预处理,得到待分析的日志样本。
其中预处理模块13具体用于执行包括如下至少一种操作:
对原始日志进行过滤处理,去掉非真实用户的日志;
对原始日志进行去燥处理;以及
对原始日志按照设定的渠道类别或者流量类别进行过滤。
图4所示实施例以包括上述所有方案为例描述本发明的技术方案,实际应用中,上述结构可以采用可结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。
上述实施例的页面转化参数的处理装置,通过采用上述模块实现页面转化参数的处理与上述相关方法实施例的实现机制以及技术效果相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种页面转化参数的处理方法,其特征在于,所述方法包括:
根据待分析的日志样本,获取每个用户的映射访问序列;
根据各所述用户的所述映射访问序列,生成页面访问的邻接矩阵;
根据所述页面访问的邻接矩阵,获取各所述页面的转化参数。
2.根据权利要求1所述的方法,其特征在于,根据待分析的日志样本,获取每个用户的映射访问序列,包括:
根据所述待分析的日志样本,获取每个所述用户的访问序列,所述访问序列包括对应的所述用户按照访问先后顺序访问的页面标识参数;
将各所述用户的访问序列中的所有页面标识参数汇总并去重,生成页面词典;
根据所述页面词典和各所述用户的访问序列,获取各所述用户的映射访问序列。
3.根据权利要求2所述的方法,其特征在于,所述页面标识参数包括统一资源定位符、统一资源标识符、以及所述统一资源标识符与页面参数的组合中的任意一种。
4.根据权利要求2所述的方法,其特征在于,根据所述页面词典和各所述用户的访问序列,获取各所述用户的映射访问序列,具体包括:
为所述页面词典中各所述页面标识参数标注对应的数字节点;
根据所述页面词典中各所述页面标识参数对应的所述数字节点,将各所述用户的访问序列映射为数字格式,得到各所述用户的映射访问序列。
5.根据权利要求4所述的方法,其特征在于,根据各所述用户的所述映射访问序列,生成页面访问的邻接矩阵,具体包括:
建立邻接矩阵模型,所述邻接矩阵模型的阶数等于n+1,其中所述n为所述页面词典中包括的所述页面标识参数的总数;所述邻接矩阵模型中各元素的初始值为0;
在各所述用户的所述映射访问序列的开头和结尾分别增加数字节点0,作为对应的开始页面和结束页面,以调整各所述用户的所述映射访问序列;
按照调整后的各所述用户的所述映射访问序列的访问顺序,将对应的页面的跳转次数累加在所述邻接矩阵模型中对应的位置,得到所述页面访问的邻接矩阵。
6.根据权利要求4或5所述的方法,其特征在于,当所述页面转化参数包括页面的跳转率时,根据所述页面访问的邻接矩阵,获取各所述页面的转化参数,具体包括:
根据所述页面访问的邻接矩阵,计算数字节点p对应的页面到数字节点q对应的页面的跳转率为:
a r c [ p ] [ q ] / Σ i = 0 n a r c [ p ] [ i ]
其中,所述arc[p][q]为所述页面访问的邻接矩阵中所述数字节点p对应的页面到所述数字节点q对应的页面的跳转数;所述arc[p][i]为所述页面访问的邻接矩阵中所述数字节点p对应的页面到数字节点i对应的页面的跳转数;
当所述页面转化参数包括页面的流失率时,根据所述页面访问的邻接矩阵,获取各所述页面的转化参数,具体包括:
根据所述页面访问的邻接矩阵,计算数字节点p对应的页面的用户流失率为:
a r c [ p ] [ 0 ] / Σ i = 0 n a r c [ p ] [ i ]
其中,所述arc[p][0]为所述页面访问的邻接矩阵中所述数字节点p对应的页面的用户流失数;所述arc[p][i]为所述页面访问的邻接矩阵中所述数字节点p对应的页面到数字节点i对应的页面的跳转数。
7.根据权利要求1-5任一所述的方法,其特征在于,根据待分析的日志样本,获取每个用户的映射访问序列之前,所述方法还包括:
获取原始日志;
对所述原始日志进行预处理,得到所述待分析的日志样本。
8.根据权利要求7所述的方法,其特征在于,对所述原始日志进行预处理,具体包括如下至少一种操作:
对所述原始日志进行过滤处理,去掉非真实用户的日志;
对所述原始日志进行去燥处理;以及
对所述原始日志按照设定的渠道类别或者流量类别进行过滤。
9.一种页面转化参数的处理装置,其特征在于,所述装置包括:
映射访问序列获取模块,用于根据待分析的日志样本,获取每个用户的映射访问序列;
邻接矩阵生成模块,用于根据各所述用户的所述映射访问序列,生成页面访问的邻接矩阵;
页面的转化参数获取模块,还用于根据所述页面访问的邻接矩阵,获取各所述页面的转化参数。
10.根据权利要求9所述的装置,其特征在于,所述映射访问序列获取模块,具体包括:
访问序列获取单元,用于根据所述待分析的日志样本,获取每个所述用户的访问序列,所述访问序列包括对应的所述用户按照访问先后顺序访问的页面标识参数;
页面词典生成单元,用于将各所述用户的访问序列中的所有页面标识参数汇总并去重,生成页面词典;
映射访问序列获取单元,用于根据所述页面词典和各所述用户的访问序列,获取各所述用户的映射访问序列。
11.根据权利要求10所述的装置,其特征在于,所述页面标识参数包括统一资源定位符、统一资源标识符、以及所述统一资源标识符与页面参数的组合中的任意一种。
12.根据权利要求10所述的装置,其特征在于,所述映射访问序列获取单元,具体用于:
为所述页面词典中各所述页面标识参数标注对应的数字节点;
根据所述页面词典中各所述页面标识参数对应的所述数字节点,将各所述用户的访问序列映射为数字格式,得到各所述用户的映射访问序列。
13.根据权利要求12所述的装置,其特征在于,所述邻接矩阵生成模块,具体包括:
邻接矩阵模型建立单元,用于建立邻接矩阵模型,所述邻接矩阵模型的阶数等于n+1,其中所述n为所述页面词典中包括的所述页面标识参数的总数;所述邻接矩阵模型中各元素的初始值为0;
映射访问序列调整单元,用于在各所述用户的所述映射访问序列的开头和结尾分别增加数字节点0,作为对应的开始页面和结束页面,以调整各所述用户的所述映射访问序列;
累加处理单元,用于按照调整后的各所述用户的所述映射访问序列的访问顺序,将对应的页面的跳转次数累加在所述邻接矩阵模型中对应的位置,得到所述页面访问的邻接矩阵。
14.根据权利要求12或13所述的装置,其特征在于,所述页面的转化参数获取模块,具体用于当所述页面转化参数包括页面的跳转率时,根据所述页面访问的邻接矩阵,计算数字节点p对应的页面到数字节点q对应的页面的跳转率为:
a r c [ p ] [ q ] / Σ i = 0 n a r c [ p ] [ i ]
其中,所述arc[p][q]为所述页面访问的邻接矩阵中所述数字节点p对应的页面到所述数字节点q对应的页面的跳转数;所述arc[p][i]为所述页面访问的邻接矩阵中所述数字节点p对应的页面到数字节点i对应的页面的跳转数;
或者所述页面的转化参数获取模块,具体还用于当所述页面转化参数包括页面的流失率时,根据所述页面访问的邻接矩阵,计算数字节点p对应的页面的用户流失率为:
a r c [ p ] [ 0 ] Σ i = 0 n a r c [ p ] [ i ]
其中,所述arc[p][0]为所述页面访问的邻接矩阵中所述数字节点p对应的页面的用户流失数;所述arc[p][i]为所述页面访问的邻接矩阵中所述数字节点p对应的页面到数字节点i对应的页面的跳转数。
15.根据权利要求9-13任一所述的装置,其特征在于,所述装置还包括:
原始日志获取模块,用于获取原始日志;
预处理模块,用于对所述原始日志进行预处理,得到所述待分析的日志样本。
16.根据权利要求15所述的装置,其特征在于,所述预处理模块,具体用于执行包括如下至少一种操作:
对所述原始日志进行过滤处理,去掉非真实用户的日志;
对所述原始日志进行去燥处理;以及
对所述原始日志按照设定的渠道类别或者流量类别进行过滤。
CN201610339765.7A 2016-05-20 2016-05-20 页面转化参数的处理方法及装置 Active CN106055572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610339765.7A CN106055572B (zh) 2016-05-20 2016-05-20 页面转化参数的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610339765.7A CN106055572B (zh) 2016-05-20 2016-05-20 页面转化参数的处理方法及装置

Publications (2)

Publication Number Publication Date
CN106055572A true CN106055572A (zh) 2016-10-26
CN106055572B CN106055572B (zh) 2020-04-28

Family

ID=57177262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610339765.7A Active CN106055572B (zh) 2016-05-20 2016-05-20 页面转化参数的处理方法及装置

Country Status (1)

Country Link
CN (1) CN106055572B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145230A (zh) * 2017-06-15 2019-01-04 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN110191097A (zh) * 2019-05-05 2019-08-30 平安科技(深圳)有限公司 登录页面安全性的检测方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982166A (zh) * 2012-12-11 2013-03-20 南京邮电大学 基于时间分片的Web用户浏览访问矩阵的构造方法
CN104572857A (zh) * 2014-12-17 2015-04-29 深圳先进技术研究院 一种网页推送方法及装置
CN104731807A (zh) * 2013-12-20 2015-06-24 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
US20150331948A1 (en) * 2014-05-19 2015-11-19 International Business Machines Corporation Search infrastructure and method for performing web search
CN105512183A (zh) * 2015-11-24 2016-04-20 中国科学院重庆绿色智能技术研究院 一种基于用户自主选择的个性化推荐方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982166A (zh) * 2012-12-11 2013-03-20 南京邮电大学 基于时间分片的Web用户浏览访问矩阵的构造方法
CN104731807A (zh) * 2013-12-20 2015-06-24 北京风行在线技术有限公司 一种统计和分析页面跳转数据的方法及装置
US20150331948A1 (en) * 2014-05-19 2015-11-19 International Business Machines Corporation Search infrastructure and method for performing web search
CN104572857A (zh) * 2014-12-17 2015-04-29 深圳先进技术研究院 一种网页推送方法及装置
CN105512183A (zh) * 2015-11-24 2016-04-20 中国科学院重庆绿色智能技术研究院 一种基于用户自主选择的个性化推荐方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145230A (zh) * 2017-06-15 2019-01-04 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN110191097A (zh) * 2019-05-05 2019-08-30 平安科技(深圳)有限公司 登录页面安全性的检测方法、系统、设备及存储介质
CN110191097B (zh) * 2019-05-05 2023-01-10 平安科技(深圳)有限公司 登录页面安全性的检测方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN106055572B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN102750390B (zh) 新闻网页要素自动提取方法
CN106469376B (zh) 一种风险控制方法和设备
CN109597974B (zh) 报表生成方法及装置
CN111639470B (zh) 一种处理器协同芯片的仿真测试方法、系统及相关组件
CN103164698A (zh) 指纹库生成方法及装置、待测文本指纹匹配方法及装置
CN112632446A (zh) 页面访问路径的构建方法及系统
CN104252532A (zh) 一种统计网站信息的方法及装置
Nelson et al. What is preexisting strength? Predicting free association probabilities, similarity ratings, and cued recall probabilities
CN104598632A (zh) 热点事件检测方法和装置
CN103744889A (zh) 一种用于对问题进行聚类处理的方法与装置
CN104375977A (zh) 问答社区中答复信息的处理方法及装置
CN108228546A (zh) 一种文本特征提取方法、装置、设备及可读存储介质
CN107463669B (zh) 解析爬虫爬取的网页数据的方法及装置
Faber et al. Chaotic dynamics of inner ear hair cells
CN109710224A (zh) 页面处理方法、装置、设备及存储介质
CN105335408B (zh) 一种搜索词白名单的扩展方法及相关系统
CN106055572A (zh) 页面转化参数的处理方法及装置
CN103605736A (zh) 转化数据的处理方法及装置
CN109145307A (zh) 用户画像识别方法、推送方法、装置、设备和存储介质
CN106484746A (zh) 网站转化事件的分析方法及装置
CN106339381B (zh) 一种信息处理方法及装置
Corso et al. Big social data and GIS: visualize predictive crime
CN111583991A (zh) 一种基因调控网络重构的方法、系统、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant