CN111198807B - 数据流分析方法、装置、计算机设备及存储介质 - Google Patents

数据流分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111198807B
CN111198807B CN201911311661.5A CN201911311661A CN111198807B CN 111198807 B CN111198807 B CN 111198807B CN 201911311661 A CN201911311661 A CN 201911311661A CN 111198807 B CN111198807 B CN 111198807B
Authority
CN
China
Prior art keywords
data
chain
funnel
chains
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911311661.5A
Other languages
English (en)
Other versions
CN111198807A (zh
Inventor
许尧
温亮生
蒋滨泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911311661.5A priority Critical patent/CN111198807B/zh
Publication of CN111198807A publication Critical patent/CN111198807A/zh
Application granted granted Critical
Publication of CN111198807B publication Critical patent/CN111198807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Abstract

本发明实施例公开了一种数据流分析方法、装置、计算机设备及存储介质,该方法包括下述步骤:获取用于表示用户会话信息的数据链,其中,所述数据链为多个;将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数。通过上述方法将数据单元进行比对,不相关的数据不会发生相互交叉和干扰,排除了不相关数据的冗余计算,增强了相关数据的计算效率。此外,该方法还具有较强的数据处理稳定性、漏斗分析业务普适性。

Description

数据流分析方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其是一种数据流分析方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,涌现出越来越多的大数据处理方案。
但是,现有的大数据流分析方案更多的依赖于对用户行为数据的分析,然而对于漏斗分析模型更加侧重于理论性分析,多数漏斗分析算法或者基于少量数据进行处理则缺乏大数据处理的场景考虑,此外,对于数据场景进行简化难以在互联网更多维度与漏斗链的场景下具有普适性的应用。
目前,为了提高应用性和稳定性,一般会结合了第三方大数据处理软件的方案,但是该方案缺乏对更细粒度层面的处理,在效率、实效等方面仍需进一步优化,同时方案将漏斗分析的计算逻辑实现独立于漏斗分析的前后处理模块从而容易缺乏方案统筹性考虑,对整体效率又有负面影响。
发明内容
本发明实施例提供一种数据流分析方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种数据流分析方法,包括下述步骤:
获取用于表示用户会话信息的数据链,其中,所述数据链为多个;
将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;
针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数。
可选地,所述获取表示用户会话信息的数据链,包括下述步骤:
提取多次所述用户会话信息产生的多个数据单元;
将所述多个数据单元按照时间排序并打包得到所述数据链。
可选地,所述将所述数据链分别与预设的多个漏斗链进行比对得到所述数据链相对于每个所述漏斗链的完成度,包括下述步骤:
按照顺序将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对;
按照比对结果更新所述数据链相对于每个所述漏斗链的完成度。
可选地,所述按照顺序将所述数据链中的多个数据单元分别与所述预设的漏斗链中的数据单元进行比对,包括下述步骤:
从所述数据链中提取处于首位的数据单元;
从所述漏斗链中提取处于首位的数据单元;
将所述数据链中处于首位的数据单元与所述每个漏斗链中处于首位的数据单元进行比对,其中,所述数据链相对于所述漏斗链当前的完成度为0;
则,所述按照比对结果更新所述数据链相对于每个所述漏斗链的完成度,具体为:
当所述数据链与漏斗链中处于首位的数据单元比对一致时,更新当前的完成度为1。
可选地,所述按照顺序将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对,包括下述步骤:
从所述数据链中提取处于m位的数据单元;
从所述漏斗链中提取处于n位的数据单元;
将所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元进行比对;
则,所述按照比对结果更新所述数据链相对于每个所述漏斗链的完成度,包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,对比n与对比之前的完成度f的数值大小;
当n的数值大于f数值时,将当前的完成度更新为n。
可选地,所述方法还包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,将所述数据链中处于m位的数据单元与所述漏斗链中处于首位的数据单元进行比对。
可选地,所述方法还包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元一致时,将所述数据链中处于m+1位的数据单元与所述漏斗链中处于n+1位的数据单元进行比对,并更新当前的完成度为f+1。
为解决上述技术问题,本发明实施例还提供一种数据流分析装置,包括:
获取模块,用于获取用于表示用户会话信息的数据链,其中,所述数据链为多个;
处理模块,用于将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;
执行模块,用于针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数。
可选地,所述获取模块包括:
第一获取子模块,用于提取多次所述用户会话信息产生的多个数据单元;
第一处理子模块,用于将所述多个数据单元按照时间排序并打包得到所述数据链。
可选地,所述处理模块包括:
第二处理子模块,用于按照顺序将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对;
第一执行子模块,用于按照比对结果更新所述数据链相对于每个所述漏斗链的完成度。
可选地,所述处理模块包括:
第二获取子模块,用于从所述数据链中提取处于首位的数据单元;
第三获取子模块,用于从所述漏斗链中提取处于首位的数据单元;
第三处理子模块,用于将所述数据链中处于首位的数据单元与所述每个漏斗链中处于首位的数据单元进行比对,其中,所述数据链相对于所述漏斗链当前的完成度为0;
则,所述第一执行子模块包括:
第二执行子模块,用于当所述数据链与漏斗链中处于首位的数据单元比对一致时,更新当前的完成度为1。
可选地,所述处理模块包括:
第四获取子模块,用于从所述数据链中提取处于m位的数据单元;
第五获取子模块,用于从所述漏斗链中提取处于n位的数据单元;
第四处理子模块,用于将所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元进行比对;
则,所述执行模块包括:
第五处理子模块,用于当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,对比n与对比之前的完成度f的数值大小;
第三执行子模块,用于当n的数值大于f数值时,将当前的完成度更新为n。
可选地,还包括:
第四执行子模块,用于当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,将所述数据链中处于m位的数据单元与所述漏斗链中处于首位的数据单元进行比对。
可选地,还包括:
第五执行子模块,用于当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元一致时,将所述数据链中处于m+1位的数据单元与所述漏斗链中处于n+1位的数据单元进行比对,并更新当前的完成度为f+1。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述数据流分析方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述数据流分析方法的步骤。
本发明实施例的有益效果是:由于预设的漏斗链为线性排序,大数据处理是以业务数据为基本的处理单位,通过上述方法将数据单元进行比对,不相关的数据不会发生相互交叉和干扰,排除了不相关数据的冗余计算,增强了相关数据的计算效率。此外,该方法还具有较强的数据处理稳定性、漏斗分析业务普适性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据流分析方法的基本流程示意图;
图2为本发明实施例提供的一种获取标识用户会话信息的数据链的方法的基本流程示意图;
图3为本发明实施例提供的一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法的基本流程示意图;
图4为本发明实施例提供的另一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法的基本流程示意图;
图5为本发明实施例提供的再一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法的基本流程示意图;
图6为本发明实施例提供的一种数据流分析装置基本结构框图;
图7为本发明实施例提供的计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
具体地,请参阅图1,图1为本发明实施例提供的一种数据流分析方法的基本流程示意图。
如图1所示,数据流分析方法包括下述步骤:
S1100、获取用于表示用户会话信息的数据链,其中,所述数据链为多个;
本实施例中,数据链为表述用户会话信息的数据流,为了确保数据流后续处理的效率和质量本实施中的数据采集模块将每条数据流进行格式化打包形成数据链。其中,用户会话信息包括:用户会话数据、访问页面的页面数据,例如访问记录、终端数据等等。
本实施例中,利用数据分发模块在进行格式化时,按照用户的一次会话数据作为一个数据单元,在数据单元中对一个页面的访问数据记作一行,其中,一个页面的访问数据包括完整的会话数据、页面数据、终端数据、会话时间、会话ID、页面标记ID、终端标记ID等。需要说明的是,用户一次会话数据中每个访问页面的数据记录按照时间进行排序且为连续记录。
在一些实施方式中,所数据分发模块将打包好的数据链发送到数据流处理集群并下发至集群服务器以使预设的漏斗链管理模块对上述数据链进行处理。
S1200、将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;
本实施例中,数据链和预设的漏斗链均包含多个连续的数据单元,因此在比对时,按照顺序分别将数据链和漏斗链中的数据单元分别进行比对,并按照比对的结果更新数据链相对于漏斗链的完成度。
需要说明的是,完成度表示数据链和所述漏斗链中比对一致且连续的最大数据单元的个数,举例说明,数据链包含10个数据单元A1-A10,漏斗链包含10个数据单元F1-F10,其中,A1-A6与F2-F7存个数据单元比对一致,A7-A10与F6-F9存在4个数据单元比对一致,则完成度为10。
在一些实施方式中,在比对过程中按照顺序依次对数据链中的数据单元与漏斗链中的数据单元进行比对,在初始比对时,该数据链相对与漏斗链的完成度初始值为0,在比对过程中,分别将数据链中处于首位的数据单元与漏斗链中处于首位的数据单元进行比对,比对一致时将完成度更新为1,比对一致时,将数据链中处于第二位的数据单元与漏斗链中处于首位的数据单元进行比对,保持完成度为0,当出现一个比对一致的数据单元时,将完成度更新为1,依次比对直至数据链中所有的数据单元均比对完成,并将最后更新的完成作为该数据链相对于该漏斗链的完成度。
在本实施例中,通常漏斗处理模块中预设有漏斗链数组,每个漏斗链数组中包括多个漏斗链,将同一个数据链依次按照上述的比对方法与多个漏斗链进行比对得到同一个数据链针对多个漏斗链的多个完成度。
在实际应用中,由于用户会话信息是实时产生的,即会出现多个数据链,因此,在本实施例中将同一个数据链与多个漏斗链比对完成后,在将其它的数据链分别与多个漏斗链进行比对。
S1300、针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数。
本实施例在统计过程中,可以统计多个数据链中针对同一条漏斗链具有相同完成度的数据链的个数。例如,有3条数据链M1、M2和M3,3条漏斗链F1、F2和F3,M1相对于F1-F3的完成度分别为1、2和3;M2对于F1-F3的完成度分别为2、3和4;M3对于F1-F3的完成度分别为2、1和3,则统计针对F1完成度为1的数据链个数为1(M1),针对F1完成度为2数据链个数为2(M2和M3),统计针对F2成度为1的数据链个数为1(M3),针对F1完成度为2数据链个数为1(M1),针对F1完成度为3的数据链个数为1(M2),统计针对F3完成度为3的数据链个数为2(M1和M3),针对F1完成度为4数据链个数为1(M2)。
上述实施方式,由于预设的漏斗链为线性排序,大数据处理是以业务数据为基本的处理单位,通过上述方法将数据单元进行比对,不相关的数据不会发生相互交叉和干扰,排除了不相关数据的冗余计算,增强了相关数据的计算效率。此外,该方法还具有较强的数据处理稳定性、漏斗分析业务普适性。
本发明实施例提供一种获取表示用户会话信息的数据链的方法,如图2所示,图2为本发明实施例提供的一种获取标识用户会话信息的数据链的方法的基本流程示意图。
具体地,如图2所示,步骤S1100包括下述步骤:
S1110、提取多次用户会话信息产生的多个数据单元;
户会话信息包括:用户会话数据、访问页面的页面数据,例如访问记录、终端数据等等。本实施例中,每一次用户会话信息作为一个数据单元,当发生多次用户会话信息则提取多个数据单元,其中,为了确保数据流后续处理的效率和质量,对数据单元的格式进行统一规范,例如,在一个数据单元中对一个页面的访问数据记作一行,每行的中的访问数据包括访问该页面所产生的完整的会话数据、页面数据、终端数据、会话时间、会话ID、页面标记ID、终端标记ID等。
S1120、将多个数据单元按照时间排序并打包得到所述数据链。
本实施例中,将多个用户会话信息进行格式化则得到多个数据单元,按照用户会话信息发生的时间顺序将产生的多个数据单元进行排序,并将排序后的多个数据单元进行打包,则得到本实施例中的数据链。
需要说明的是,由于用户会话信息时不断产生的,本实施例中按照以上数据链的生成方法,可以按照预设的时间段提取多个会话信息作为多个数据单元,进行格式化打包,则会生成多个数据链。
上述实施方式对数据单元的数据格式进行规范化,可以更好的统一格式,大幅降低了针对数据格式进行转化的工作量,提高了相关处理效率。
本发明实施例提供一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法,如图3所示,图3为本发明实施例提供的一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法的基本流程示意图。
具体地,如图3所示,步骤S1200包括下述步骤:
S1210、将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对;
漏斗链为预设于漏斗管理模块中用于对数据链进行漏斗分析的数据链,其中,漏斗链为多条,漏斗链的数目可以按照实际情况进行设置。本实施例中,按照数据链中数据单元的排列顺序分别与每个漏斗链中的数据单元进行比对。需要说明的是,在比对过程中漏斗链中数据单元的比对顺序按照前一次的比对结果来确定。以下通过两个实施例进行具体说明。
S1220、按照比对结果更新所述数据链相对于每个所述漏斗链的完成度。
完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数。因此,在比对过程中数据链相对于每个漏斗链的完成度是按照当前数据单元比对的结果进行更新,当数据链和漏洞链中所有的数据单元均比对完成后,最终更新的完成度即为该数据链相对于该漏斗链的完成度。
一个实施例,在初始比对的过程中,将数据链的数据单元按照顺序依次与漏斗链中顺序排列的数据单元进行比对。本发明实施例提供另一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法。如图4所示,图4为本发明实施例提供的另一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法的基本流程示意图。
如图4所示,步骤S1210包括下述步骤:
S12111、从所述数据链中提取处于首位的数据单元;
S12112、从所述漏斗链中提取处于首位的数据单元;
本实施例中,分别从数据链和漏斗链中提取均处于首位的数据单元进行比对。需要说明的是,该数据链可以为待处理队列中排于队首的数据链。
S12113、将所述数据链中处于首位的数据单元与所述每个漏斗链中处于首位的数据单元进行比对,其中,所述数据链相对于所述漏斗链当前的完成度为0;
需要说明的是,本实施例中,在初始比对时,预设当前数据链相对于漏斗链的完成度为0。
则,步骤S1220具体为:
S12211、当所述数据链与漏斗链中处于首位的数据单元比对一致时,更新当前的完成度为1。
在一些实施方式中,当数据链与漏斗链中处于首位的数据单元比对不一致时,当前的完成度为0,此时将数据链处于第二位的数据单元与漏斗链中处于首位的数据单元进行比对,当比对一致时,更新完成度为1,比对不一致时将数据链处于第三位的数据单元与漏斗链中处于首位的数据单元进行比对,依次进行直至数据链和漏斗链中所有的数据单元比对完成。
另一个实施例,在比对过程中即除了初始比对以外的其它比对过程可以参照以下实施例。本发明实施例提供再一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法。如图5所示,图5为本发明实施例提供的再一种将数据链分别与预设的多个漏斗链进行比对得到数据链相对于每个漏斗链的完成度的方法的基本流程示意图。
具体地,如图5所示,步骤S1210包括下述步骤:
S12121、从所述数据链中提取处于m位的数据单元;
S12122、从所述漏斗链中提取处于n位的数据单元;
本实施例中设数据链中,处于m位的数据单元为Data[M],设漏斗链中处于n位的数据单元为Funnel[N],其中,m表示数据单元在数据链中的位置标识符,n表示数据单元在漏斗链中的位置标识符。
需要说明的是,本实施例中,m和n可以相同也可以不同。
S12123、将所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元进行比对;
本实施例中,将Data[M]与Funnel[N]中的数值进行比对。
则,步骤S1220包括下述步骤:
S12221、当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,对比n与对比之前的完成度f的数值大小;
S12222、当n的数值大于f数值时,将当前的完成度更新为n。
本实施例中,当Data[M]与Funnel[N]比对不一致时,对比n与f的数值大小,当n的数值大于f的数值时,将当前的完成度更新为n,即f=n。在一些实施方式中,当n的数值小于或等于f的数值时,当前的完成度保持不变,不进行更新。
在一些实施方式中,还包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,将所述数据链中处于m位的数据单元与所述漏斗链中处于首位的数据单元进行比对。
需要说明的是,在比对完成后需要按照比对结果更新完成度时,可以按照图5所示的实施例中的方法进行更新,具体不再赘述。
在一些实施方式中,还包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元一致时,将所述数据链中处于m+1位的数据单元与所述漏斗链中处于n+1位的数据单元进行比对,并更新当前的完成度为f+1。
本实施例中,一般的大数据软件对漏斗链的长度不敏感,对用户会话信息的数据也不敏感,通过上述方法将数据单元进行比对,可以具有较强的数据处理稳定性、漏斗分析业务普适性显示数据处理的可应用性。
上述实施方式中,由于预设的漏斗链为线性排序,大数据处理是以业务数据为基本的处理单位,本实施例通过将用户会话消息处理为数据链,并与漏斗链按序进行比对,如此,不相关的数据不会发生相互交叉和干扰,排除了不相关数据的冗余计算,增强了相关数据的计算效率。该方法对于大多数场景中数据流的处理具有普适性。
为解决上述技术问题本发明实施例还提供一种数据流分析装置。具体请参阅图6,图6为本实施例数据流分析装置基本结构框图。
如图6所示,一种数据流分析装置,包括:获取模块2100、处理模块2200和执行模块2300。其中,获取模块2100,用于获取用于表示用户会话信息的数据链,其中,所述数据链为多个;处理模块2200,用于将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;执行模块2300,用于针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数。
由于预设的漏斗链为线性排序,大数据处理是以业务数据为基本的处理单位,通过上述方法将数据单元进行比对,不相关的数据不会发生相互交叉和干扰,排除了不相关数据的冗余计算,增强了相关数据的计算效率。此外,该方法还具有较强的数据处理稳定性、漏斗分析业务普适性。
在一些实施方式中,所述获取模块包括:第一获取子模块,用于提取多次所述用户会话信息产生的多个数据单元;第一处理子模块,用于将所述多个数据单元按照时间排序并打包得到所述数据链。
在一些实施方式中,所述处理模块包括:第二处理子模块,用于按照顺序将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对;第一执行子模块,用于按照比对结果更新所述数据链相对于每个所述漏斗链的完成度。
在一些实施方式中,所述处理模块包括:第二获取子模块,用于从所述数据链中提取处于首位的数据单元;第三获取子模块,用于从所述漏斗链中提取处于首位的数据单元;第三处理子模块,用于将所述数据链中处于首位的数据单元与所述每个漏斗链中处于首位的数据单元进行比对,其中,所述数据链相对于所述漏斗链当前的完成度为0;则,所述第一执行子模块包括:第二执行子模块,用于当所述数据链与漏斗链中处于首位的数据单元比对一致时,更新当前的完成度为1。
在一些实施方式中,所述处理模块包括:第四获取子模块,用于从所述数据链中提取处于m位的数据单元;第五获取子模块,用于从所述漏斗链中提取处于n位的数据单元;第四处理子模块,用于将所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元进行比对;则,所述执行模块包括:第五处理子模块,用于当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,对比n与对比之前的完成度f的数值大小;第三执行子模块,用于当n的数值大于f数值时,将当前的完成度更新为n。
在一些实施方式中,还包括:第四执行子模块,用于当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,将所述数据链中处于m位的数据单元与所述漏斗链中处于首位的数据单元进行比对。
在一些实施方式中,还包括:第五执行子模块,用于当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元一致时,将所述数据链中处于m+1位的数据单元与所述漏斗链中处于n+1位的数据单元进行比对,并更新当前的完成度为f+1。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
如图7所示,计算机设备的内部结构示意图。如图7所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种数据流分析方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据流分析方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中获取模块2100、处理模块2200和执行模块2300的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有数据流分析方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备由于预设的漏斗链为线性排序,大数据处理是以业务数据为基本的处理单位,通过上述方法将数据单元进行比对,不相关的数据不会发生相互交叉和干扰,排除了不相关数据的冗余计算,增强了相关数据的计算效率。此外,该方法还具有较强的数据处理稳定性、漏斗分析业务普适性。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述数据流分析方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据流分析方法,其特征在于,包括下述步骤:
获取用于表示用户会话信息的数据链,其中,所述数据链为多个;
将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;
针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数;
其中,所述漏斗链为漏斗分析模型中,针对业务流程数据分析所预设的线性排序的数据单元组合,所述数据单元为针对所述业务流程分析而对用户特定操作动作的数字映射。
2.根据权利要求1所述的数据流分析方法,其特征在于,所述获取表示用户会话信息的数据链,包括下述步骤:
提取多次所述用户会话信息产生的多个数据单元;
将所述多个数据单元按照时间排序并打包得到所述数据链。
3.根据权利要求1所述的数据流分析方法,其特征在于,所述将所述数据链分别与预设的多个漏斗链进行比对得到所述数据链相对于每个所述漏斗链的完成度,包括下述步骤:
按照顺序将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对;
按照比对结果更新所述数据链相对于每个所述漏斗链的完成度。
4.根据权利要求3所述的数据流分析方法,其特征在于,所述按照顺序将所述数据链中的多个数据单元分别与所述预设的漏斗链中的数据单元进行比对,包括下述步骤:
从所述数据链中提取处于首位的数据单元;
从所述漏斗链中提取处于首位的数据单元;
将所述数据链中处于首位的数据单元与所述漏斗链中处于首位的数据单元进行比对,其中,所述数据链相对于所述漏斗链当前的完成度为0;
则,所述按照比对结果更新所述数据链相对于所述漏斗链的完成度,具体为:
当所述数据链与漏斗链中处于首位的数据单元比对一致时,更新当前的完成度为1。
5.根据权利要求3所述的数据流分析方法,其特征在于,所述按照顺序将所述数据链中的多个数据单元按照顺序分别与所述预设的多个漏斗链中的数据单元进行比对,包括下述步骤:
从所述数据链中提取处于m位的数据单元;
从所述漏斗链中提取处于n位的数据单元;
将所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元进行比对;
则,所述按照比对结果更新所述数据链相对于每个所述漏斗链的完成度,包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,对比n与对比之前的完成度f的数值大小;
当n的数值大于f数值时,将当前的完成度更新为n。
6.根据权利要求5所述的数据流分析方法,其特征在于,所述方法还包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元不一致时,将所述数据链中处于m位的数据单元与所述漏斗链中处于首位的数据单元进行比对。
7.根据权利要求5所述的数据流分析方法,其特征在于,所述方法还包括下述步骤:
当所述数据链中处于m位的数据单元与所述漏斗链中处于n位的数据单元一致时,将所述数据链中处于m+1位的数据单元与所述漏斗链中处于n+1位的数据单元进行比对,并更新当前的完成度为f+1。
8.一种数据流分析装置,其特征在于,包括:
获取模块,用于获取用于表示用户会话信息的数据链,其中,所述数据链为多个;
处理模块,用于将所述数据链分别与预设的漏斗链进行比对得到所述数据链相对于所述漏斗链的完成度,其中,所述完成度用于表征所述数据链和所述漏斗链中比对一致且连续的最大数据单元的个数;
其中,所述漏斗链为漏斗分析模型中,针对业务流程数据分析所预设的线性排序的数据单元组合,所述数据单元为针对所述业务流程分析而对用户特定操作动作的数字映射;
执行模块,用于针对所述漏斗链统计多个所述数据链中具有相同完成度的所述数据链的个数。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述数据流分析方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述数据流分析方法的步骤。
CN201911311661.5A 2019-12-18 2019-12-18 数据流分析方法、装置、计算机设备及存储介质 Active CN111198807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911311661.5A CN111198807B (zh) 2019-12-18 2019-12-18 数据流分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311661.5A CN111198807B (zh) 2019-12-18 2019-12-18 数据流分析方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111198807A CN111198807A (zh) 2020-05-26
CN111198807B true CN111198807B (zh) 2023-10-27

Family

ID=70746460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311661.5A Active CN111198807B (zh) 2019-12-18 2019-12-18 数据流分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111198807B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333110A (zh) * 2020-10-30 2021-02-05 深圳壹账通智能科技有限公司 基于漏斗限流模型的请求验证处理方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102714652A (zh) * 2009-09-09 2012-10-03 QoSMOS公司 监测数据网络中包括多个数据流的通讯会话
CN107330034A (zh) * 2017-06-26 2017-11-07 百度在线网络技术(北京)有限公司 一种日志分析方法和装置、计算机设备、存储介质
CN109254733A (zh) * 2018-09-04 2019-01-22 北京百度网讯科技有限公司 用于存储数据的方法、装置和系统
CN109617866A (zh) * 2018-11-29 2019-04-12 英赛克科技(北京)有限公司 工控系统主机会话数据过滤方法和装置
WO2019200756A1 (zh) * 2018-04-18 2019-10-24 平安科技(深圳)有限公司 数据审批方法、装置、计算机设备和存储介质
CN110555698A (zh) * 2019-07-25 2019-12-10 深圳壹账通智能科技有限公司 数据处理方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014199376A1 (en) * 2013-06-10 2014-12-18 Danimar Ltd. Device and method for monitoring a chain parameter
EP3065341B1 (en) * 2015-03-05 2019-04-10 Mitsubishi Electric R&D Centre Europe B.V. Content classification medthod and device
US10902356B2 (en) * 2017-09-07 2021-01-26 International Business Machines Corporation Real-time cognitive supply chain optimization
US10764284B2 (en) * 2017-09-07 2020-09-01 Verizon Patent And Licensing Inc. Method and system for dynamic data flow enforcement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102714652A (zh) * 2009-09-09 2012-10-03 QoSMOS公司 监测数据网络中包括多个数据流的通讯会话
CN107330034A (zh) * 2017-06-26 2017-11-07 百度在线网络技术(北京)有限公司 一种日志分析方法和装置、计算机设备、存储介质
WO2019200756A1 (zh) * 2018-04-18 2019-10-24 平安科技(深圳)有限公司 数据审批方法、装置、计算机设备和存储介质
CN109254733A (zh) * 2018-09-04 2019-01-22 北京百度网讯科技有限公司 用于存储数据的方法、装置和系统
CN109617866A (zh) * 2018-11-29 2019-04-12 英赛克科技(北京)有限公司 工控系统主机会话数据过滤方法和装置
CN110555698A (zh) * 2019-07-25 2019-12-10 深圳壹账通智能科技有限公司 数据处理方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张毅 ; 翟秀军 ; 杜学绘 ; 徐国愚 ; .一种基于会话管理的星间链路拥塞控制机制.信息工程大学学报.2016,(01),全文. *

Also Published As

Publication number Publication date
CN111198807A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN110084377B (zh) 用于构建决策树的方法和装置
CN109688160B (zh) 数据加密传输控制方法、装置、计算机设备及存储介质
CN108628898B (zh) 数据入库的方法、装置和设备
CN110782123A (zh) 决策方案的匹配方法、装置、计算机设备及存储介质
CN110781180B (zh) 一种数据筛选方法和数据筛选装置
CN112508118A (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
CN111198807B (zh) 数据流分析方法、装置、计算机设备及存储介质
CN112784112A (zh) 报文校验方法及装置
CN114328898A (zh) 文本摘要生成方法及其装置、设备、介质、产品
CN114064929A (zh) 搜索排序方法及装置
CN106788993A (zh) 一种加密通信方法、装置及电子设备
CN107480182A (zh) 一种航天器遥测数据溯源方法及系统
CN111429282A (zh) 基于反洗钱模型迁移的交易反洗钱方法及装置
CN114238585A (zh) 基于5g消息的查询方法、装置、计算机设备和存储介质
US11586644B2 (en) System and methods for creating, distributing, analyzing and optimizing data-driven signals
CN109120509A (zh) 一种信息收集的方法及装置
CN116975117A (zh) 一种日志数据管理方法及装置
CN110728118B (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
CN114371884A (zh) Flink计算任务的处理方法、装置、设备和存储介质
CN109410543B (zh) 预警测试控制方法、装置、计算机设备及存储介质
US11822519B2 (en) Multi-dimensional database platform including an apache kafka framework and an auxiliary database for event data processing and provisioning
CN115914120B (zh) 消息发送方法、装置、计算机设备和计算机可读存储介质
CN116151994B (zh) 结构化数据的计算方法、计算引擎、设备及可读存储介质
CN113965536B (zh) 消息令牌更新方法及其装置、设备、介质、产品
US20230185780A1 (en) Systems and methods for event data processing and provisioning using a multi-dimensional database platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant