CN116541262A - 一种数据处理方法、装置、设备以及可读存储介质 - Google Patents
一种数据处理方法、装置、设备以及可读存储介质 Download PDFInfo
- Publication number
- CN116541262A CN116541262A CN202310829774.4A CN202310829774A CN116541262A CN 116541262 A CN116541262 A CN 116541262A CN 202310829774 A CN202310829774 A CN 202310829774A CN 116541262 A CN116541262 A CN 116541262A
- Authority
- CN
- China
- Prior art keywords
- node
- path vector
- path
- vector
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 951
- 230000006399 behavior Effects 0.000 claims abstract description 573
- 230000006835 compression Effects 0.000 claims abstract description 180
- 238000007906 compression Methods 0.000 claims abstract description 180
- 238000012545 processing Methods 0.000 claims abstract description 158
- 238000000034 method Methods 0.000 claims abstract description 100
- 230000002159 abnormal effect Effects 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims description 94
- 230000008439 repair process Effects 0.000 claims description 48
- 230000009471 action Effects 0.000 claims description 47
- 238000013507 mapping Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 45
- 238000004458 analytical method Methods 0.000 description 24
- 230000003542 behavioural effect Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备以及可读存储介质,方法包括:基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则;按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量;若压缩路径向量存在异常,则基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量。采用本申请,可以简化业务应用的使用路径表达,提升生成路径的全面准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
背景技术
对于某个业务应用(如互联网行业中的网盘应用),不同使用者对业务应用的使用行为路径,可以用于业务应用经营者进行分析以对应用进行优化。其可以为业务应用实现理想的数据驱动,为布局调整提供科学指导。而为让业务应用的使用者沿着最优访问路径前进,需要策展者结合需求与使用则的使用行为路径对业务应用的功能进行布局调整。这种通过使用者的使用行为路径来对业务应用进行分析优化的方法,对业务应用涉及的优化与改进有很大的帮助,可以用于监测和优化各模块的转化率,也可以发现某些冷僻的功能点。
相关技术中,在获取使用者在业务应用中的使用行为路径时,需要获取到使用者的每一个使用行为,然后基于每个使用行为来生成使用行为路径。然而,对于不同的业务应用,其业务功能是具有多样性与复杂性的,使用者对于业务应用的使用行为是混乱重复的,那么所生成的使用行为路径是非常冗余累赘的,这将严重增加路径分析的难度,降低路径分析的效率与效果;而为了减少使用行为路径的冗余性,相关技术采用局部路径生成方法,通过对局部的使用行为来生成使用行为路径,但是这种方法所获取的使用行为路径较短,不够全面,仅适用于对局部功能进行分析,所得到的路径分析结果也不够准确全面。可见,当前亟需一种可以全面准确地生成低冗余的使用行为路径的方式,用以便捷准确地进行路径分析。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以简化业务应用的使用路径表达,提升生成路径的全面准确性。
本申请实施例一方面提供了一种数据处理方法,包括:
基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;使用路径向量记录有N个操作行为中每个操作行为分别对应的行为节点;
基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则;
按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量;
若压缩路径向量存在异常,则基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量。
本申请实施例一方面提供了一种数据处理装置,包括:
向量构建模块,用于基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;使用路径向量记录有N个操作行为中每个操作行为分别对应的行为节点;
规则确定模块,用于基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则;
节点去重模块,用于按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量;
路径修复模块,用于若压缩路径向量存在异常,则基于压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量;每个参考路径向量所包含的行为节点的节点属性均为操作正常属性。
在一个实施例中,向量构建模块基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量的具体实现方式,包括:
获取使用对象在业务应用中所执行的N个操作行为,确定N个操作行为中每个操作行为分别对应的行为节点,得到N个行为节点;使用对象通过执行N个操作行为完成与业务应用相匹配的业务流程;N个操作行为包括操作行为Si,N个行为节点包括行为节点Ki,i为正整数;
获取操作行为Si的操作执行时刻,将操作行为Si的操作执行时刻确定为行为节点Ki对应的节点时刻;
确定N个行为节点中每个行为节点分别对应的节点时刻,按照N个节点时刻之间的时间早晚顺序,将N个行为节点进行排序,得到行为节点序列;
按照行为节点序列的排列顺序对N个行为节点进行向量构建处理,得到使用路径向量。
在一个实施例中,向量构建模块按照行为节点序列的排列顺序对N个行为节点进行向量构建处理,得到使用路径向量的具体实现方式,包括:
按照行为节点序列的排列顺序,依次将行为节点序列中处于相邻序列位置的两个行为节点确定为一组节点对,得到N-1组节点对;N-1组节点对包含节点对Wj,j为正整数;
在节点对Wj包含的第一行为节点与第二行为节点之间,构建从第一行为节点指向第二行为节点的边,得到节点对Wj对应的有向边;行为节点序列中,第一行为节点位于第二行为节点之前;
当得到N-1组节点对中每组节点对分别对应的有向边时,将包含行为节点序列以及N-1组有向边的向量,确定为使用路径向量。
在一个实施例中,业务应用提供不同的特定核心功能,业务应用所提供的特定核心功能,是由业务应用的应用开发对象将业务应用的配置功能集合中的常规功能进行过滤后所得到的;使用对象在业务应用中所执行的操作行为,是基于业务应用所提供的特定核心功能所产生的。
在一个实施例中,规则确定模块基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则的具体方式,包括:
获取使用路径向量中N个行为节点的节点重复属性;
在节点重复属性为单节点重复属性时,将配置压缩规则集合中的单节点压缩规则确定为使用路径向量的路径压缩规则;
在节点重复属性为多节点重复属性时,将配置压缩规则集合中的多节点压缩规则确定为使用路径向量的路径压缩规则;
在节点重复属性为混合节点重复属性时,将配置压缩规则集合中的混合节点压缩规则确定为使用路径向量的路径压缩规则;混合节点压缩规则包含单节点压缩规则与多节点压缩规则。
在一个实施例中,使用路径向量中N个行为节点的节点重复属性为混合节点重复属性,路径压缩规则为混合节点压缩规则;
节点去重模块按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量的具体方式,包括:
按照混合节点压缩规则中包含的单节点压缩规则,对使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量;
按照混合节点压缩规则中包含的多节点压缩规则,对中间去重路径向量进行多节点去重处理,得到使用路径向量对应的压缩路径向量。
在一个实施例中,节点去重模块按照混合节点压缩规则中包含的单节点压缩规则,对使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量的具体方式,包括:
按照混合节点压缩规则中包含的单节点压缩规则,在使用路径向量中获取连续重复的Q个行为节点;Q为大于1且小于N的正整数;
将连续重复的Q个行为节点均确定为待去重节点,将使用路径向量中的Q-1个待去重节点进行删除处理;
将删除Q-1个待去重节点后的使用路径向量确定为中间去重路径向量。
在一个实施例中,节点去重模块按照混合节点压缩规则中包含的多节点压缩规则,对中间去重路径向量进行多节点去重处理,得到使用路径向量对应的压缩路径向量的具体方式,包括:
按照混合节点规则中包含的多节点压缩规则,统计中间去重路径向量所包含的行为节点的第一节点数量;
基于第一节点数量对中间去重路径向量进行子集长度配置处理,得到中间去重路径向量对应的可选子集长度;可选子集长度小于或等于第一节点数量的一半;
按照可选子集长度对中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合;
对节点分组子集集合进行子集去重处理,得到使用路径向量对应的压缩路径向量。
在一个实施例中,节点去重模块按照可选子集长度对中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合的具体方式,包括:
按照可选子集长度,基于中间去重路径向量中行为节点的排列顺序,依次获取D个起始可选节点,得到起始可选节点序列;D为正整数;起始可选节点序列中,位于序列起始位置的起始可选节点是指中间去重路径向量中位于路径起始位置的行为节点;起始可选节点序列中的两个相邻起始可选节点,在中间去重路径向量中间隔E个行为节点;E是将可选子集长度进行递减处理后所得到的;D个起始可选节点包含起始可选节点Sv,v为正整数;
按照中间去重路径向量中行为节点的排列顺序,在中间去重路径向量中依次获取位于起始可选节点Sv之后的E个行为节点;
按照中间去重路径向量中行为节点的排列顺序,依次将起始可选节点Sv与位于起始可选节点Sv之后的E个行为节点进行排列,将排列得到的节点序列确定为起始可选节点Sv对应的节点分组子集;
当确定出D个起始可选节点中,每个起始可选节点分别对应的节点分组子集时,将每个起始可选节点分别对应的节点分组子集所组成的集合确定为节点分组子集集合。
在一个实施例中,节点分组子集集合包括节点分组子集Ra,a为正整数;节点分组子集Ra为W个行为节点所组成的节点序列;W为可选子集长度;
节点去重模块对节点分组子集集合进行子集去重处理,得到使用路径向量对应的压缩路径向量的具体方式,包括:
将节点分组子集Ra中位于序列起始位置的行为节点确定为目标行为节点,将目标行为节点在中间去重路径向量中所处的路径位置,确定为节点分组子集Ra对应的子集位置;
当确定出节点分组子集集合中,每个节点分组子集分别对应的子集位置时,按照每个节点分组子集分别对应的子集位置将每个节点分组子集进行排序,得到子集序列;
将子集序列中连续重复的G个节点分组子集均确定为待去重子集,将子集序列中的G-1个待去重子集进行删除处理;G为大于1且小于节点分组子集集合中,所包含的节点分组子集的子集总数量的正整数;
将删除G-1个待去重子集后的子集序列确定为使用路径向量对应的压缩路径向量。
在一个实施例中,在节点去重模块按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量之后,数据处理装置还包括:
属性确定模块,用于对压缩路径向量中所包含的行为节点进行节点检测处理,确定压缩路径向量中所包含的行为节点的节点属性;
异常确定模块,用于在压缩路径向量中存在节点属性为操作故障属性的行为节点时,确定压缩路径向量存在异常。
在一个实施例中,路径修复模块基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量的具体方式,包括:
获取参考路径向量集合,确定压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合;
在向量相似度集合中获取最大向量相似度,将参考路径向量集合中最大向量相似度所指示的参考路径向量,确定为压缩路径向量对应的目标路径向量;
按照目标路径向量所包含的行为节点,对压缩路径向量所包含的行为节点进行修正处理,得到压缩路径向量对应的修复路径向量。
在一个实施例中,参考路径向量集合中包括参考路径向量Lb,b为正整数;向量相似度集合中包括压缩路径向量与参考路径向量Lb之间的向量相似度;
路径修复模块确定压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合的具体方式,包括:
确定压缩路径向量转换为参考路径向量Lb的最少编辑频率;
将频率映射表中与最少编辑频率具有映射关系的相似度,确定为压缩路径向量与参考路径向量Lb之间的向量相似度;频率映射表包括编辑频率集合与相似度集合之间的映射关系,编辑频率集合中的一个编辑频率与相似度集合中的一个相似度之间存在映射关系。
在一个实施例中,在路径修复模块得到压缩路径向量对应的修复路径向量之后,数据处理装置还包括:
向量过滤模块,用于将参考路径向量集合中与修复路径向量相同的参考路径向量进行过滤处理,得到过滤参考路径向量集合;
集合确定模块,用于将修复路径向量与过滤参考路径向量集合中的每个参考路径向量,均确定为聚类路径向量,得到聚类路径向量集合;
聚类模块,用于对聚类路径向量集合进行聚类处理,得到包含J个类簇的类簇分布结果;J个类簇的一个类簇中包含一个或多个聚类路径向量;J为大于1的正整数;
核心向量获取模块,用于获取J个类簇中每个类簇的类簇中心,将J个类簇中心均确定为业务应用的核心路径向量;
推送模块,用于将J个核心路径向量推送至业务应用的应用运营对象,以使应用运营对象基于J个核心路径向量对业务应用进行分析运营处理。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的方法。
本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中一方面提供的方法。
在本申请实施例中,对于业务应用中的使用行为路径,可以以向量进行量化,具体的,在使用对象在业务应用中执行N个操作行为后,可以构建记录有各个操作行为对应的行为节点的使用路径向量,而通过向量量化使用行为路径的方式,可以利用向量的运算特性,统计出使用路径向量中连续重复的行为节点,并对连续重复的行为节点进行去重处理,从而可以减少路径冗余,无需采用局部路径生成方法,即可起到路径压缩作用,且本申请所得到的压缩路径向量,并非仅包含局部的操作行为,而是覆盖有使用对象在业务应用中的整体全面的操作行为,由此可以很好地实现路径的全面性与准确性。此外,由于业务应用的版本升级、测试等情况,使用对象在业务应用的使用过程中可能出现使用异常的情况,而本申请对于异常的路径(如压缩路径向量存在异常时),可以利用向量的运算特性,利用异常的压缩路径向量与参考路径向量之间的向量相似度,来对异常的压缩路径向量进行路径修复处理,使之转换为非异常的路径,由此可以进一步提升路径的准确性与合理性。综上,本申请可以以向量量化使用对象在业务应用中的使用路径,利用向量的运算特征可以对路径向量进行去重处理以及修复处理,从而可以在简化业务应用的使用路径表达的同时,提升生成路径的全面准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的网络架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种构建使用路径向量的示意图;
图4是本申请实施例提供的一种对使用路径向量进行节点去重处理的流程示意图;
图5是本申请实施例提供的一种将使用路径向量进行单节点去重处理的示意图;
图6是本申请实施例提供的一种将使用路径向量进行多节点去重处理的示意图;
图7是本申请实施例提供的一种进行路径聚类的流程示意图;
图8是本申请实施例提供的一种系统逻辑架构图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及向量、编辑距离、聚类算法等相关技术,为便于理解,以下将优先对向量、编辑距离、聚类算法等相关技术概念进行阐述:
向量:在数学中,向量(也称为欧几里得向量、几何向量)是指具有大小(magnitude)和方向的量。它可以形象化地表示为带箭头的线段。其中箭头所指的方向可以代表向量的方向;而向量中线段的长短可以代表向量的大小。
编辑距离:编辑距离是针对两个字符串(例如英文字符串)之间的差异程度的量化量测,量测方式是看至少需要多少次的转换处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串,因此编辑距离也可用在生物信息学中,用于判断两个DNA的类似程度。需要说明的是,莱文斯坦距离(又称Levenshtein距离),是编辑距离的一种。其是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,其所允许的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等。
聚类算法:聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
学习向量量化:学习向量量化(Learning Vector Quantization,LVQ)属于原型聚类,即试图找到一组原型向量来聚类,每个原型向量代表一个簇,其将空间划分为若干个簇,从而对于任意的样本,可以将它划入到它距离最近的簇中,不同的是LVQ假设数据样本带有类别标记,因此可以利用这些类别标记来辅助聚类。
为便于理解,请参见图1,图1是本申请实施例提供的一种数据处理系统的网络架构图。如图1所示,该网络架构可以包括业务服务器1000和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n;如图1所示,终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与业务服务器1000进行网络连接,以便于每个终端设备可以通过该网络连接与业务服务器1000之间进行数据交互。另外,终端设备集群100中的任一终端设备可以是指运行有操作系统的智能设备,本申请实施例对终端设备的操作系统不进行具体限定。
如图1所示的数据处理系统中的终端设备可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式计算机、移动互联网设备(MID,mobile internet device)、POS(PointOf Sales,销售点)机、智能音箱、智能电视、智能手表、智能车载终端、虚拟现实(VirtualReality,VR)设备、增强现实(Augmented Reality,AR)设备等,但并不局限于此。终端设备往往配置有显示装置,显示装置可以为显示器、显示屏、触摸屏等等,触摸屏可以为触控屏、触控面板等等。
如图1所示的数据处理系统中的业务服务器可以是单个的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备与业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一种可能的实现方式中,终端设备(如终端设备100a)中运行有客户端(客户端也可称为应用),如视频客户端、浏览器客户端、游戏客户端、教育客户端、网盘客户端等,这里将不对客户端进行一一举例说明。在本申请各实施例中,以网盘客户端为例进行说明。使用对象(如用户)可以在终端设备中运行网盘客户端,而网盘客户端可以提供不同的功能(例如,创建文件夹功能、上传文件功能、预览文件功能、分享群组功能、移动文件功能、电子签功能、收藏功能、取消收藏功能、重命名功能、访问管理中心功能、清空失效文件功能等等),对象(这里的对象可以是指使用网盘客户端的对象,例如,可以是指使用网盘客户端的用户,本申请可以将使用网盘客户端的对象称为使用对象)可以基于网盘客户端提供的功能,在网盘客户端中执行不同的操作行为,例如,使用对象可以在网盘客户端中执行访问管理中心的操作行为、执行首次添加成员的操作行为、执行创建群组的行为、执行邀请群组的操作行为等等。可以理解的是,使用对象在使用网盘客户端的过程中,可以通过执行多个(多个通常是指两个及两个以上)操作行为,来完成一个与网盘客户端相匹配的网盘业务流程。例如,使用对象可以在网盘客户端中通过执行多个操作行为上传某个文件,或者在网盘客户端中通过执行多个操作行为向其他分享某个文件,又或者在网盘客户端中通过执行多个操作行为创建包含不同使用对象的群组。也就是说,某个使用对象可以通过在一个时间段内执行连续的多个不同的操作行为,来完成一个网盘业务流程。而本申请的业务服务器1000可以收集到使用对象在网盘客户端中的每个操作行为,对于一个网盘业务流程所对应的操作行为,业务服务器1000可以按照各个操作行为的操作执行时刻的时间早晚顺序,将各个操作行为组成一个使用对象的使用路径,网盘客户端的运营对象(如运营人员)可以基于不同使用对象的海量使用路径,对网盘客户端的功能进行分析优化处理,以使得网盘客户端所提供的功能更符合海量对象的需求。
然而,使用对象在使用网盘客户端时,通常会执行同样的重复的操作行为,例如,使用对象在使用网盘客户端时,可以产生多次创建文件夹、多次上传文件、多次分享群组等操作行为,那么在基于这些重复的操作行为生成的使用对象的使用路径时,不仅会增加路径生成的计算量,还会使得生成的使用路径变得累赘冗余。而为了简化使用路径,降低使用路径的冗余性,本申请提出一种简化对象使用路径的方法,具体的,本申请可以以向量量化使用对象的使用路径,随后即可基于向量的运算特性,将路径向量中重复的子路径部分进行去重压缩,从而可以简化使用对象的使用路径;同时,由于网盘客户端的版本升级或故障会导致使用对象的操作行为误报,所得到的使用路径也会变得错误异常,基于此,本申请可以基于路径向量的运算特性,基于向量相似度来对异常的使用路径进行路径修复处理,使得最终得到的使用路径是具备简化性的、冗余性低的、且具备准确全面性的。
具体的,对于终端设备中的某个客户端(如网盘客户端),本申请可以称之为业务应用,业务服务器1000在获取到使用对象在业务应用中所执行的N(N为正整数)个操作行为(这N个操作行为用于完成一个业务流程)后,可以基于这N个操作行为,构建使用路径向量(该使用路径向量中记录有N个操作行为中每个操作行为分别对应的行为节点);随后,业务服务器1000可以获取到该使用路径向量中N个行为节点的节点重复属性(节点重复属性可以包含单节点重复属性与多节点重复属性,该节点重复属性可以基于使用路径向量中重复的行为节点来进行判断),基于使用路径向量中N个行为节点的节点重复属性,可以确定使用路径的路径压缩规则(其中,单节点重复属性可对应单节点压缩规则;多节点重复属性则可对应多节点压缩规则),基于路径压缩规则可以对使用路径向量中的N个行为节点进行去重处理,由此可以得到使用路径向量对应的压缩路径向量;进一步地,在该压缩路径向量存在异常时,即可基于压缩路径向量与参考路径向量集合中每个参考路径向量(每个参考路径向量都是指不存在异常的路径向量)之间的向量相似度,来对压缩路径向量进行路径修复处理,最终即可得到压缩路径向量对应的修复路径向量。
进一步地,业务服务器1000可以将修复处理后的各个修复路径向量、以及各个使用对象的未存在异常的压缩路径向量,均发送至业务应用的应用运营对象,应用运营对象即可基于这些路径向量对业务应用的功能进行分析优化处理。可选的,可以理解的是,由于业务应用的使用对象海量,那么所推送至应用运营对象的路径向量也是海量的,这将严重影响路径的分析效率,那么本申请可以将这些海量的路径向量进行聚类,聚类是会将具有相似性的路径向量划分到一个类簇中,那么对于聚类得到的各个类簇,可以在类簇中挑选出一个具代表性的路径向量作为核心路径向量来推送至应用运营对象,由此可以使得推送至应用运营对象的路径更为简洁、聚焦、明确,从而可以提升路径分析效率。
应当理解,本申请以向量量化使用对象对业务应用的使用路径,可以基于向量的运算特性,对使用路径进行重复子路径压缩处理、路径修复处理以及向量合并处理,由此可以简化业务应用的使用路径表达,提升使用路径的准确性,提升路径计算精度,并提升路径分析效率。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于图1中所提及的终端设备或业务服务器。
需要说明的是,在本申请的具体实施方式中,涉及到用户信息、用户数据(如在业务应用中所执行的操作行为)等相关的数据,均是需要经过用户手动授权许可(即经过用户同意)才进行获取得到的。也就是说,当本申请以上实施例运用到具体产品或技术中时,本申请实施例所提供的方法与相关功能是在获得用户许可或者同意下所运行的(可以由用户主动开启本申请实施例所提供的功能),且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为便于理解,接下来将结合附图对本申请实施例提供的数据处理方法进行详细描述。请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。其中,该方法可以由终端设备(例如,上述图1所示的终端设备集群中的任一终端设备,如终端设备100a)执行,也可以由服务器(如上述图1所对应实施例中的业务服务器1000)所执行,还可以由终端设备和服务器共同执行。为便于理解,本实施例以该方法由终端设备执行为例进行说明。如图2所示,该数据处理方法至少可以包括以下步骤S101-步骤S104:
步骤S101,基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;使用路径向量记录有N个操作行为中每个操作行为分别对应的行为节点。
本申请中,业务应用可以是指部署于终端设备中的某个客户端(如视频客户端、网盘客户端、教育客户端等等),不同的业务应用可以提供不同的功能,例如,网盘应用可以提供创建文件夹功能、上传文件功能、预览文件功能、分享群组功能、移动文件功能、电子签功能、收藏功能、取消收藏功能、重命名功能、访问管理中心功能、清空失效文件功能等功能,而使用对象(可以是指使用业务应用的对象,如使用业务应用的用户)在运行业务应用时,即可基于业务应用所提供的功能,在业务应用中执行不同的操作行为,一个功能可以执行一个操作行为。例如,使用对象可以在网盘应用中,执行访问管理中心的操作行为、执行首次添加成员的操作行为、执行创建群组的行为、执行邀请群组的操作行为等等。
其中,使用对象在使用业务应用的过程中,可以通过执行多个(多个通常是指两个及两个以上)操作行为,来完成一个与业务应用相匹配的业务流程。例如,对象可以在网盘客户端中可以通过执行多个操作行为上传某个文件(即完成上传某个文件这个业务流程),或者在网盘客户端中通过执行多个操作行为向其他分享某个文件(即完成向其他使用对象分享某个文件这个业务流程),又或者在网盘客户端中通过执行多个操作行为创建包含不同使用对象的群组(即完成创建包含不同使用对象的群组的业务流程)。也就是说,使用对象可以通过在一个时间段内执行连续的多个不同的操作行为,来完成一个业务流程。而这里的使用对象的N个操作行为,可以完成一个与业务应用相匹配的业务流程,本申请可以基于该N个操作行为,构建一个使用对象在业务应用中的使用路径,本申请中,可以以向量量化使用对象的使用路径,换言之,本申请可以基于一个业务流程的多个操作行为,构建一个使用路径向量,该使用路径向量中记录有每个操作行为分别对应的行为节点。
其中,对于基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量的具体实现方式,可为:可以获取使用对象在业务应用中所执行的N个操作行为,并确定N个操作行为中每个操作行为分别对应的行为节点,由此可以得到N个行为节点;其中,使用对象通过执行N个操作行为完成与业务应用相匹配的业务流程;对于每个行为节点,可以将对应的操作行为的操作执行时刻作为其节点时刻,这里以N个操作行为包括操作行为Si(i为正整数)为例,那么N个行为节点可以包括行为节点Ki;可以获取操作行为Si的操作执行时刻,可以将操作行为Si的操作执行时刻确定为行为节点Ki对应的节点时刻;基于此方式,可以确定N个行为节点中每个行为节点分别对应的节点时刻,随后,可以按照N个节点时刻之间的时间早晚顺序,将N个行为节点进行排序,由此可以得到行为节点序列;按照行为节点序列的排列顺序即可对N个行为节点进行向量构建处理,得到使用路径向量。
其中,对于按照行为节点序列的排列顺序对N个行为节点进行向量构建处理,得到使用路径向量的具体实现方式可为:按照行为节点序列的排列顺序,可以依次将行为节点序列中处于相邻序列位置的两个行为节点确定为一组节点对,由此可以得到N-1组节点对;随后,可以在每个节点对之间构建一个边,以N-1组节点对包含节点对Wj(j为正整数)为例,可以将节点对Wj包含的两个行为节点中,将位置靠前的行为节点称为第一行为节点,将位置靠后的行为节点称为第二行为节点(即在行为节点序列中,第一行为节点是位于第二行为节点之前的),可以在节点对Wj包含的第一行为节点与第二行为节点之间,构建从第一行为节点指向第二行为节点的边,由此可以得到节点对Wj对应的有向边;采用如确定节点对Wj对应的有向边的方式,可以确定出每组节点对分别对应的有向边,而当得到N-1组节点对中每组节点对分别对应的有向边时,即可将包含行为节点序列以及N-1组有向边的向量,确定为使用路径向量。
为便于理解构建使用对象的使用路径向量的具体方式,请一并参见图3,图3是本申请实施例提供的一种构建使用路径向量的示意图。如图3所示,假设使用对象在业务应用中所执行的N个操作行为包含操作行为1(操作执行时刻为时刻a1)、操作行为2(操作执行时刻为时刻a2)、操作行为3(操作执行时刻为时刻a3)、操作行为3(操作执行时刻为时刻a4)、操作行为4(操作执行时刻为时刻a5)。其中,时刻a1早于时刻a2,时刻a2早于时刻a3,时刻a3早于时刻a4,时刻a4早于时刻a5,也就是说,对于操作行为3,使用对象在不同的时刻连续执行了两次。对于各个时刻的操作行为,可以分别构建行为节点,例如,如图3所示,对于操作行为1,可以构建一个节点作为其对应的行为节点,该行为节点为如图3所示的节点30a;对于时刻a3下的操作行为3,可以构建一个节点作为其对应的行为节点,该行为节点为如图3所示的节点30c,对于时刻a4时刻下的操作行为3,可以构建一个节点作为其对应的行为节点,该行为节点为如图3所示的节点30d。
进一步地,可以将每个操作行为的操作执行时刻,作为各个行为节点对应的节点时刻,例如可以将操作行为1的操作执行时刻(时刻a1),作为行为节点30a对应的节点时刻。由此可以得到行为节点30a至行为节点30e分别对应的节点时刻,基于各个节点时刻,可以将行为节点30a至行为节点30e进行排列,由此可以得到行为节点序列{行为节点30a,行为节点30b,行为节点30c,行为节点30d,行为节点30e}。对于该行为节点序列{行为节点30a,行为节点30b,行为节点30c,行为节点30d,行为节点30e},行为节点30a与行为节点30c处于相邻序列位置,那么可以将行为节点30a与行为节点30b组成一组节点对;行为节点30b与行为节点30c处于相邻序列位置,那么可以将行为节点30b与行为节点30c组成一组节点对;行为节点30c与行为节点30d处于相邻序列位置,那么可以将行为节点30c与行为节点30d组成一组节点对;行为节点30d与行为节点30e处于相邻序列位置,那么可以将行为节点30d与行为节点30e组成一组节点对,由此可以得到共4组节点对。
随后,可以在行为节点序列中,在各个节点对之间构建一条有向边,该有向边可以是从位置靠前的行为节点指向位置靠后的行为节点,例如,对于包含行为节点30a与行为节点30b的节点对,其行为节点30a在行为节点序列中的位置靠前,行为节点30b在行为节点序列中的位置靠后,那么在构建有向边时,可以是从行为节点30a指向行为节点30b。如图3所示,当构建完成各个节点对之间的有向边时,即可得到一个带有方向的路径向量300,该路径向量300即可作为该使用对象在业务应用的一个使用路径向量。
需要说明的是,对于不同的业务应用,通常会提供有部分相同的功能(如应用反馈功能、文件预览功能、登录功能等等),这些相同的功能通常是比较常规的功能,与业务应用本身的关联性较低;而除了常规功能以外,不同业务应用也会提供有符合应用的特定核心功能,这些特定核心功能是其他业务应用所不具备的,可以用于展现业务应用的特点,例如,对于网盘应用而言,其可以提供有特定的存储功能、文件打开功能、文件查看功能、电子签功能等等。而在使用对象使用业务应用执行相关操作行为后,使用对象也会基于常规功能执行相关的操作行为,那么这些常规性的操作行为也会大量地出现在使用对象的使用路径中,这些常规性的操作行为并无法体现出业务应用的特点,对于路径分析并不能起到重要作用,所以这些常规性的操作行为不仅会加重路径生成的负担,还会使得所生成的使用路径变得冗余。基于此,本申请可以基于人工(如应用开发对象、应用设计对象)预先配置业务应用的特定核心功能,将一些常规性的功能进行过滤,在使用对象在业务应用中执行操作行为时,可以仅获取到使用对象基于这些特定核心功能所执行的操作行为,对于其他基于常规功能所执行的操作行为可以直接进行过滤,基于此,所生成的使用路径向量仅会包含特定核心功能所对应的操作行为,并不会包含有常规功能所对应的操作行为,由此可以很好地简化使用对象在业务应用中的使用路径,且简化后的使用路径也是能够体现出业务应用的特点的。可选的,可以理解的是,本申请在配置业务应用的特定核心功能时,对于部分相似的核心功能,可以将其进行合并分类,将相似的特定核心功能合并为同一类核心功能,那么使用对象执行这些相似核心功能对应的操作行为时,即可仅记录为同一类操作行为。例如,以业务应用为网盘应用为例,对于网盘应用中的新建表格功能、新建ppt功能、新建word功能,均可以合并为一个命名为“新建文档”的功能,那么使用对象在网盘应用中执行新建表格操作行为、新建ppt操作行为、新建word操作行为时,均可以理解为该使用对象执行了新建文档的操作行为。
基于上述可知,本申请的业务应用可以提供不同的特定核心功能,而业务应用所提供的特定核心功能,可以是由业务应用的应用开发对象(或应用设计对象)将业务应用的配置功能集合中的常规功能进行过滤后所得到的;而使用对象在业务应用中所执行的操作行为,是基于业务应用所提供的特定核心功能所产生的。
步骤S102,基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则。
本申请中,由于使用对象在业务应用中执行操作行为时,会在不同的时刻执行相同的操作行为,那么在生成的使用路径向量中,也会在不同的位置存在相同的行为节点。而本申请可以基于使用路径向量连续重复的行为节点,来定义使用路径中N个行为节点的节点重复属性,具体的,可以将节点重复属性定义为单节点重复属性、多节点重复属性,单节点重复可以是指使用路径向量中,单个行为节点连续重复了多次,而多节点重复是指使用路径向量中,多个行为节点组成的子路径连续重复了多次。为便于理解单节点重复与多节点重复,以下将举例说明单节点重复与多节点重复。以使用路径向量为{主动→访问管理中心→首次添加成员→创建群组→创建群组→创建群组→邀请群组→邀请群组→邀请群组}为例,在该使用路径向量中,“创建群组”与“邀请群组”这两个单个行为节点,均连续重复了三次,那么对于这条使用路径向量,是存在有单个行为节点连续重复多次的,可以将该使用路径向量的节点重复属性确定为单节点重复属性;而以使用路径向量为{主动→打开文件夹→查看→打开文件夹→查看→打开文件夹→查看→搜索→预览→分享}为例,在该使用路径向量中,“打开文件夹→查看”这一个子路径,由“打开文件夹”与“查看”两个行为节点所组成,该子路径连续重复了三次,那么对于这条使用路径向量,是存在有多个行为节点所组成的子路径是连续重复多次的,可以将该使用路径向量的节点重复属性确定为多节点重复属性。也就是说,若使用路径向量中,仅存在单个行为节点连续重复多次(两次及两次以上),那么即可将该使用路径向量中行为节点的节点重复属性确定为单节点重复属性;而若使用路径向量中,仅存在多个行为节点组成的子路径连续重复多次,那么即可将该使用路径向量中行为节点的节点重复属性确定为多节点重复属性。需要说明的是,若使用路径向量中,既存在有单个行为节点连续重复多次,也存在有多个行为节点组成的子路径连续重复多次,即行为节点的节点重复属性同时包含单节点重复属性与多节点重复属性,那么此时可以将使用路径向量的行为节点的节点重复属性确定为混合节点重复属性。
可以理解的是,本申请可以预先配置针对于单节点重复的单节点压缩规则、针对于多节点重复的多节点压缩规则、以及针对于混合节点重复的混合节点压缩规则,这些单节点压缩规则、多节点压缩规则以及混合节点压缩规则,均可作为本申请的配置压缩规则,可以组成一个配置压缩规则集合。对于使用路径向量,在确定其节点重复属性后,即可基于该节点重复属性在配置压缩规则集合中确定出用于对该使用路径向量进行压缩简化的路径压缩规则。对于基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则的具体实现方式可为:可以获取使用路径向量中N个行为节点的节点重复属性;随后,可以判断该节点重复属性是单节点重复属性、多节点重复属性还是混合节点重复属性。在节点重复属性为单节点重复属性时,可以将配置压缩规则集合中的单节点压缩规则确定为使用路径向量的路径压缩规则;在节点重复属性为多节点重复属性时,可以将配置压缩规则集合中的多节点压缩规则确定为使用路径向量的路径压缩规则;在节点重复属性为混合节点重复属性时,可以将配置压缩规则集合中的混合节点压缩规则确定为使用路径向量的路径压缩规则;其中,混合节点压缩规则可以包含单节点压缩规则与多节点压缩规则。
步骤S103,按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量。
本申请中,确定出使用路径向量的路径压缩规则后,即可基于该路径压缩规则对使用路径向量进行路径压缩处理,其中,这里的路径压缩处理可以是指对使用路径向量中的N个行为节点进行节点去重处理,通过进行节点去重,即可将使用路径向量进行简化压缩,那么本申请的路径压缩规则,实际可以理解为节点去重规则,单节点压缩规则可以是指单节点去重规则、多节点压缩规则可以是指多节点去重规则、混合节点压缩规则可以是指混合节点去重规则(包含单节点去重规则与多节点去重规则),通过单节点压缩规则可以对N个行为节点进行单节点去重处理,通过多节点压缩规则可以对N个行为节点进行多节点去重处理,通过混合节点压缩规则可以对N个行为节点进行单节点去重处理以及多节点去重处理。通过对使用路径向量进行单节点去重处理,可以使得使用路径向量中不存在有连续重复的单个行为节点,通过对使用路径向量进行多节点去重处理,可以使得使用路径向量中不存在有连续重复的由多个行为节点组成的子路径。也就是说,通过路径压缩规则对使用路径向量进行节点去重处理后,所得到的压缩路径向量中,不存在有连续重复的内容,相比于原始的使用路径向量,该压缩路径向量更具备简洁性、低冗余性。而对于基于单节点压缩规则或多节点压缩规则进行节点去重处理的具体方式,可以参见后续实施例中的描述。
步骤S104,若压缩路径向量存在异常,则基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量。
本申请中,由于业务应用存在版本迭代升级、测试或者打补丁的情况,在业务应用迭代升级、测试或者打补丁的过程中,很可能会出现业务应用的某个功能出现故障、闪退、报错等问题,而在业务应用出现故障、闪退、报错等问题时,使用对象在运行业务应用时,也可能会因为业务应用的功能出现故障、闪退、报错等问题,出现无法正常执行某个操作行为的情况。例如,以业务应用为网盘应用为例,假设网盘应用的编辑功能出现了故障,那么使用对象在使用网盘应用时,可能无法正常顺利地执行编辑这一操作行为,使用对象可能在执行编辑操作行为时,网盘应用会出现页面走失的情况,此时使用对象需要再次执行登录业务应用这一操作行为,并再次执行打开文档这一操作行为,然后才能正常执行编辑操作行为。也就是说,使用对象在网盘应用中正常执行操作行为以完成编辑文档这一业务流程时,使用对象的使用路径向量应该为{新建文档→打开文档→编辑→保存文档→关闭文档},而在网盘应用的编辑功能出现故障时,使用对象可能无法正常执行操作行为,使用路径向量很可能会存在操作异常的行为节点,其可能为{新建文档→打开文档→页面走失→登录→打开文档→编辑→保存文档→关闭文档}。可见,在网盘应用的编辑功能出现故障时,使用对象可能会多执行“页面走失”、“登录”、“打开文档”共三个操作行为,而这三个操作行为并非使用对象在正常情况下的操作行为,换言之,在正常情况下,使用对象并不会执行这三个操作行为,那么对于该异常的使用路径向量,并不能够准确地体现出使用对象在该网盘应用中的使用需求,网盘运营对象在基于这些异常的路径向量对网盘应用的功能进行分析优化时,这些异常的路径向量也会造成干扰,影响分析优化效果。
基于此,本申请可以引入干扰项参数,可以在使用对象的路径向量中移除业应用的故障干扰因素,得到使用对象在正常情况下真实的使用路径向量。具体的,对于业务应用中的各个功能可以进行实时监测,以实时确定业务应用中是否存在故障的功能点,而对于存在故障的功能,可以在获取到受干扰的使用对象的使用路径向量,并在该受干扰的使用对象的使用路径向量中,定位出存在异常的行为节点及其异常的上下游相关路径片段(如上述路径向量{新建文档→打开文档→页面走失→登录→打开文档→编辑→保存文档→关闭文档}中,“编辑”这一行为节点为存在故障的行为节点,在该存在故障的行为节点的上下游路径中,“页面走失→登录→打开文档”这一路径片段为存在异常的路径片段,该路径片段中的各个行为节点均可理解为异常的行为节点)。
可以理解的是,在使用对象的使用路径向量中存在有操作异常的行为节点时,本申请可以将该使用路径向量确定为存在异常的使用路径向量,可以对该使用路径向量进行修复处理,使其转换为操作正常的使用路径向量。那么对于上述通过节点去重处理的压缩路径向量而言,也可以检测该压缩路径向量中是否存在有操作异常的行为节点,若存在,则可以确定该压缩路径向量存在异常,可以对该压缩路径向量进行修复处理,而若不存在操作异常的行为节点,那么可以确定该压缩路径向量未存在异常,可以直接将该压缩路径向量推送至应用运营对象,以使应用运营对象进行路径分析处理。具体的,也就是说,在按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量之后,可以基于业务应用出现的故障问题(例如,基于业务应用出现故障的功能),对压缩路径向量中所包含的行为节点进行节点检测处理,确定压缩路径向量中所包含的行为节点的节点属性;其中,这里的节点属性可以包含操作正常属性与操作故障属性,操作正常属性可以理解为该行为节点是操作正常的,该行为节点对应的操作行为是使用对象在正常情况下所操作执行的;而操作故障属性可以理解为该行为节点是操作异常(操作故障)的,该行为节点对应的操作行为是使用对象在异常情况下所操作执行的。应当理解,在压缩路径向量中存在节点属性为操作故障属性的行为节点时,可以确定压缩路径向量存在异常。
进一步地,若该压缩路径向量存在异常,则可以对该压缩路径向量进行路径修复处理。本申请中,由于使用对象的使用路径是以向量进行了量化,那么在对压缩路径向量进行修复处理时,可以基于向量的运算特性,利用向量相似度来对压缩路径向量进行修复处理。具体的,由于使用业务应用的使用对象是海量的,那么所收集到的使用对象的使用路径向量也是海量,在对各个使用路径向量进行节点去重处理后,可以得到不同的压缩路径向量(若某个原始的使用路径向量不存在连续重复的行为节点,那么该使用路径向量对应的压缩路径向量可以理解为其本身),在这些压缩路径向量中,可以将未存在异常的压缩路径向量确定为参考路径向量(即本申请中,参考路径向量未存在异常,参考路径向量中的每个行为节点的节点属性均为操作正常属性),由此可以得到一个参考路径向量集合。随后,在对存在异常的某个压缩路径向量进行修复处理时,即可基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,来找到一个与该压缩路径向量最为接近的参考路径向量,基于该最为接近的参考路径向量可以对该压缩路径向量进行修复处理。
也就是说,对于基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量的具体方式,可为:可以获取参考路径向量集合,随后可以确定压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,由此可以得到向量相似度集合;随后,可以在向量相似度集合中获取最大向量相似度,可以将参考路径向量集合中最大向量相似度所指示的参考路径向量,确定为压缩路径向量对应的目标路径向量;进一步地,即可按照目标路径向量所包含的行为节点,对压缩路径向量所包含的行为节点进行修正处理,由此可以得到压缩路径向量对应的修复路径向量。
其中,由于本申请中的路径向量(如压缩路径向量)中的各个行为节点不是连续性数值,因此,本申请中,在计算压缩路径向量与某个参考路径向量之间的向量相似度时,可以采用编辑距离来体现向量相似度,编辑距离越小,则可以反映向量相似度越大(即二者越为相似)。其中,本申请中的编辑距离可以是指针对两个字符串(例如,两个英文字符串)的差异程度的量化量测,量测方式是确定至少需要多少次的处理(如增、删、改处理)才能将一个字符串转换为另一个字符串。也就是说,这里的编辑距离实际可以理解为最少编辑次数,若最少编辑次数越少,那么二者的向量相似度即可越大。
具体的,这里以参考路径向量集合中包括参考路径向量Lb(b为正整数)为例,那么上述向量相似度集合中可以包括压缩路径向量与该参考路径向量Lb之间的向量相似度,对于确定压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合的具体方式,可为:可以确定压缩路径向量转换为参考路径向量Lb的最少编辑频率;随后,可以将频率映射表中与最少编辑频率具有映射关系的相似度,确定为压缩路径向量与参考路径向量Lb之间的向量相似度;其中,频率映射表包括编辑频率集合与相似度集合之间的映射关系,且编辑频率集合中的一个编辑频率与相似度集合中的一个相似度之间存在映射关系。
可以理解的是,本申请可以预先构建不同编辑频率(编辑频率即编辑次数)与不同相似度之间的映射关系,由此可以得到一个包含这些映射关系的映射表(可将其称为频率映射表),那么在确定压缩路径向量与某个参考路径向量之间的向量相似度时,可以先确定出压缩路径向量转换为参考路径向量的最少编辑频率,随后即可在该频率映射表中获取到与该最少编辑频率相同的编辑频率,该相同的编辑频率所映射的相似度,即可作为该压缩路径向量与该参考路径向量之间的向量相似度。
进一步地,在基于向量相似度确定出压缩路径向量的目标路径向量后,可以基于该目标路径向量对该压缩路径向量进行路径修复处理,其中,这里的路径修复处理可以是指:基于目标路径向量中所包含的行为节点,将压缩路径向量中所包含的行为节点进行填充处理、删除处理等,使得压缩路径向量中所包含的行为节点与该目标路径向量中所包含的行为节点完全一致,且各个行为节点之间的连接顺序,也是与目标路径向量中的行为节点的连接顺序一致。换言之,也就是将压缩路径向量转换为该目标路径向量,将压缩路径向量进行路径修复处理后所得到的修复路径向量,与该目标路径向量是一致的。
为便于理解,以压缩路径向量为{新建→打开→页面走失→登录→打开→编辑→保存→关闭}、目标路径向量为{新建→打开→编辑→保存→关闭}为例,对该压缩路径向量中的行为节点进行修正处理,需要将压缩路径向量转换为该目标路径向量,而将{新建→打开→页面走失→登录→打开→编辑→保存→关闭}转换为{新建→打开→编辑→保存→关闭},至少需要进行3次编辑处理(即最少编辑频率为3),具体可以包括以下3次编辑处理:
1)删除“页面走失”这一行为节点;
2)删除“登录”这一行为节点;
3)删除“打开”这一行为节点。
将该压缩路径向量进行路径修复处理后,可以得到修复路径向量为{新建→打开→编辑→保存→关闭},该修复路径向量与该目标路径向量{新建→打开→编辑→保存→关闭}是完全相同的。
进一步地,在将各个使用对象的使用路径向量进行节点去重处理以及路径修复处理后,可以将各个处理后的路径向量推送至业务应用的应用运营对象,该应用运营对象即可基于这些路径向量,对该业务应用进行分析运营处理。例如,应用运营对象可以通过对这些路径向量的分析,确定出业务应用哪些功能需要进行优化,哪些未看好的功能其实并不冷门需要着重突出等等。
需要说明的是,通过上述可知,将某个路径向量(如压缩路径向量)进行路径修复处理后,得到的修复路径向量与对应的目标路径向量是完全相同的,那么推送至应用运营对象的路径向量会有很多重复的内容,这样会影响路径分析效率,基于此,本申请在将路径向量推送至应用运营对象前,可以先进行路径去重处理,将完全相同的路径仅保留一个,由此可以使得推送至应用运营对象的路径向量中,不存在重复的路径。
在本申请实施例中,对于业务应用中的使用行为路径,可以以向量进行量化,通过向量量化使用行为路径的方式,可以利用向量的运算特性,统计出使用路径向量中连续重复的行为节点,并对连续重复的行为节点进行去重处理,从而可以减少路径冗余,无需采用局部路径生成方法,即可起到路径压缩作用,且本申请所得到的压缩路径向量,并非仅包含局部的操作行为,而是覆盖有使用对象在业务应用中的整体全面的操作行为,由此可以很好地实现路径的全面性与准确性。此外,由于业务应用的版本升级、测试等情况,使用对象在业务应用的使用过程中可能出现使用异常的情况,而本申请对于异常的路径(如压缩路径向量存在异常时),可以利用向量的运算特性,利用异常的压缩路径向量与参考路径向量之间的向量相似度,来对异常的压缩路径向量进行路径修复处理,使之转换为非异常的路径,由此可以进一步提升路径的准确性与合理性。
进一步地,请参见图4,图4是本申请实施例提供的一种对使用路径向量进行节点去重处理的流程示意图。其中,该流程可以对应于上述图2所对应实施例中,对于按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量的流程。其中,这里是以使用路径向量中N个行为节点的节点重复属性为混合节点重复属性,路径压缩规则为混合节点压缩规则为例进行说明的流程。如图4所示,该流程可以至少包括以下步骤S401-步骤S402:
步骤S401,按照混合节点压缩规则中包含的单节点压缩规则,对使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量。
具体的,基于上述可知,单节点压缩规则可以是指单节点去重规则,使用路径向量中,可能存在单个行为节点连续重复了多次,而通过单节点去重规则可以对使用路径向量中的连续重复的这些行为节点进行去重处理。具体的,对于按照混合节点压缩规则中包含的单节点压缩规则,对使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量的具体实现方式可为:按照混合节点压缩规则中包含的单节点压缩规则,可以在使用路径向量中获取连续重复的Q个行为节点;其中,Q为大于1且小于N的正整数;随后,可以将连续重复的Q个行为节点均确定为待去重节点,可以将使用路径向量中的Q-1个待去重节点进行删除处理;最后,可以将删除Q-1个待去重节点后的使用路径向量确定为中间去重路径向量。
可以理解的是,对于使用路径向量中连续重复的Q个行为节点,可以均确定为待去重节点,在对其进行去重处理时,可以将Q个待去重节点中的Q-1个行为节点进行过滤删除处理,即仅保留其中的一个节点。为便于理解,请一并参见图5,图5是本申请实施例提供的一种将使用路径向量进行单节点去重处理的示意图。如图5所示,假设使用对象在业务应用中的使用路径向量为使用路径向量5001,该使用路径向量5001中包含有行为节点30a、行为节点30b、行为节点30c、行为节点30d、行为节点30e、行为节点30f、行为节点30g,其中,该行为节点30a对应的操作行为为操作行为1;该行为节点30b对应的操作行为为操作行为2;该行为节点30c与行为节点30d对应的操作行为均为操作行为3;行为节点30e、行为节点30f、行为节点30g对应的操作行为均为操作行为4。那么在该使用路径向量5001中,行为节点30c与行为节点30d处于两个连续的位置,且这两个行为节点所对应的操作行为是相同的(即使用对象在两个不同的时刻连续执行了两次同样的操作行为3),行为节点30c与行为节点30d可以理解为是两个连续重复的行为节点;同理,行为节点30e、行为节点30f、行为节点30g也是处于三个连续的位置,这三个行为节点所对应的操作行为是相同的(即使用对象在三个不同的时刻连续执行了三次同样的操作行为4),那么可以确定行为节点30e、行为节点30f、行为节点30g是三个连续重复的行为节点。
进一步地,如图5所示,由于行为节点30c与行为节点30d是两个连续重复的行为节点(此时Q可为2),那么可以将该使用路径向量中的行为节点30c或行为节点30d进行删除处理;由于行为节点30e、行为节点30f、行为节点30g是三个连续重复的行为节点(此时Q可为3),那么可以在该使用路径向量中,将行为节点30e、行为节点30f、行为节点30g中的任意两个行为节点进行删除处理。这里假设将行为节点30d、行为节点30f、行为节点30g进行删除处理,在删除后,可以得到中间去重路径向量5002,可以看出,在该中间去重路径向量5002中,包含的行为节点为行为节点30a、行为节点30b、行为节点30c以及行为节点30e,该中间去重路径向量所指示的操作行为,不会存在有连续重复的操作行为。
需要说明的是,在使用路径向量中N个行为节点的节点重复属性仅为单节点重复属性时,使用路径向量的路径压缩规则为单节点压缩规则,那么通过单节点压缩规则对使用路径向量进行单节点去重处理后所得到的路径向量,即可作为使用路径向量最终的压缩路径向量。也就是说,在使用路径向量中N个行为节点的节点重复属性仅为单节点重复属性时,这里的中间去重路径向量可以为最终的压缩路径向量。
步骤S402,按照混合节点压缩规则中包含的多节点压缩规则,对中间去重路径向量进行多节点去重处理,得到使用路径向量对应的压缩路径向量。
具体的,在使用路径向量中,可能存在单个行为节点连续重复了多次,还可能存在多个行为节点组成的子路径片段连续重复了多次,而通过单节点去重规则可以对使用路径向量中的连续重复的单个行为节点先进行单节点去重处理,得到中间去重路径向量;随后,可以再通过多节点去重规则对上述中间去重路径向量进行多节点去重处理,得到最终的压缩路径向量。具体的,对于按照混合节点压缩规则中包含的多节点压缩规则,对中间去重路径向量进行多节点去重处理,得到使用路径向量对应的压缩路径向量的具体方式可为:按照混合节点规则中包含的多节点压缩规则,可以统计中间去重路径向量所包含的行为节点的数量(为便于区别,可将该数量称为第一节点数量);随后,可以基于第一节点数量对中间去重路径向量进行子集长度配置处理,由此可以得到中间去重路径向量对应的可选子集长度;其中,可选子集长度小于或等于第一节点数量的一半;按照可选子集长度可以对中间去重路径向量包含的行为节点进行节点分组处理,由此可以得到节点分组子集集合;最后即可对节点分组子集集合进行子集去重处理,得到使用路径向量对应的压缩路径向量。
其中,可以理解的是,这里的节点分组子集可以理解为路径向量中的一个子路径片段,而这里的子集长度配置处理是指配置每个节点分组子集所包含的行为节点的数量(即一个子路径中所包含的行为节点的数量),所配置的子集长度即是一个节点分组子集中所包含的行为节点的数量,而由于是多节点去重处理,所以一个节点分组子集所包含的行为节点的数量最小值应该为2,且各个子路径可能是连续重复的,那么节点分组子集所包含的行为节点的数量最大值应该小于或等于路径向量(如中间去重路径向量)所包含的行为节点的数量(即第一节点数量)的一半。也就是说,这里进行子集长度配置处理所得到的可选子集长度,应该为大于1、且小于或等于第一节点数量的一半。
为便于理解,这里以中间去重路径向量为{主动→打开文件夹→查看→打开文件夹→查看→打开文件夹→查看→搜索→预览→查看→分享→预览→查看→分享→预览→查看→分享}为例,该中间去重路径向量所包含的行为节点的数量为17,那么这里的可选子集长度可为2-8,按照各个可选子集长度,可以度中间去重路径向量包含的行为节点进行节点分组处理,由此可以得到节点分组子集集合。对于按照可选子集长度对中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合的具体方式可为:按照可选子集长度,可以基于中间去重路径向量中行为节点的排列顺序,依次获取D(D为正整数,且D小于中间去重路径向量中所包含的行为节点的数量)个起始可选节点(这里的起始可选节点也就是可作为一个节点分组子集中的起始行为节点的行为节点,换言之,这里需要依次获取D个行为节点,D个行为节点中的每个行为节点可以作为一个节点分组子集中位于起始位置的行为节点,本申请将依次选取的这D个行为节点称为起始可选节点),由此可以得到起始可选节点序列;其中,起始可选节点序列中,位于序列起始位置的起始可选节点是指中间去重路径向量中位于路径起始位置的行为节点(也就是说,在依次获取D个起始可选节点序列时,可以是从中间去重路径向量中的首个(即第一个)行为节点开始依次获取的);且起始可选节点序列中的两个相邻起始可选节点,在中间去重路径向量中间隔E(E是将可选子集长度进行递减处理后所得到的)个行为节点;这里以D个起始可选节点包含起始可选节点Sv(v为正整数)为例,可以按照中间去重路径向量中行为节点的排列顺序,在中间去重路径向量中依次获取位于起始可选节点Sv之后的E个行为节点;随后可以按照中间去重路径向量中行为节点的排列顺序,依次将起始可选节点Sv与位于起始可选节点Sv之后的E个行为节点进行排列,可以将排列得到的节点序列确定为起始可选节点Sv对应的节点分组子集;按照同样的方式,可以确定出每个起始可选节点分别对应的节点分组子集,当确定出D个起始可选节点中,每个起始可选节点分别对应的节点分组子集时,即可将每个起始可选节点分别对应的节点分组子集所组成的集合确定为节点分组子集集合。
其中,这里的将可选子集长度进行递减处理可以是指将可选子集长度减去数值1,也就是说,这里的E是指可选子集长度减去数值1所得到的结果值,而通过本文可知,本申请中的可选子集长度至少为2,那么这里的E至少为1(即E可以是至少为1的正整数)。为便于理解,以中间去重路径向量为{主动→打开文件夹→查看→打开文件夹→查看→打开文件夹→查看→搜索→预览→查看→分享→预览→查看→分享→预览→查看→分享}为例,可选子集长度可为2-8,在可选子集长度为2时,可以首先将第一个行为节点“主动”作为一个起始可选节点,由于位于第三个路径位置的“查看”行为节点与该“主动”行为节点之间,间隔1(可选子集长度2-1得到的结果值)个行为节点,那么可以将该位于第三个路径位置的“查看”行为节点作为一个起始可选节点;同理,由于位于第三个路径位置的“查看”行为节点与位于第五个路径位置“查看”行为节点之间,也间隔1个行为节点,那么可以将该位于第五个路径位置的“查看”行为节点也作为一个起始可选节点……依次类推可以依次获取到起始可选节点序列为{主动,查看,查看,查看,预览,分享,查看,预览},该起始可选节点序列中,每相邻两个起始可选节点在中间去重路径向量中,中间均间隔1个行为节点。
随后,按照中间去重路径向量中行为节点的排列顺序,可以在中间去重路径向量中,获取到位于各个起始可选节点之后的1个行为节点,例如,对于“主动”行为节点而言,在上述中间去重路径向量中,位于其后的1个行为节点为“打开文件夹”行为节点,随后,可以按照中间去重路径向量中行为节点的排列顺序,将“主动”行为节点与“打开文件夹”行为节点进行排列,得到一个分组子集可为(主动→打开文件夹)。同理,可以得到各个起始可选节点分别对应的节点分组子集,最终得到一个节点分组子集集合为{(主动→打开文件夹),(查看→打开文件夹),(查看→打开文件夹),(查看→搜索),(预览→查看),(分享→预览),(查看→分享),(预览→查看)}。同理,按照同样的方式,可以确定出可选子集长度为3-8时分别对应的节点分组子集集合。
进一步地,按照对于各个可选子集长度对应的节点分组子集集合,可以对某个节点分组子集集合进行子集去重处理,由此可以得到使用路径向量对应的压缩路径向量。具体的,以节点分组子集集合包括节点分组子集Ra(a为正整数)为例,基于上述可知,一个节点分组子集可以是指多个行为节点所组成的节点序列,那么假设节点分组子集Ra可以为W(W为可选子集长度)个行为节点所组成的节点序列,对于对节点分组子集集合进行子集去重处理,得到使用路径向量对应的压缩路径向量的具体方式可为:可以将节点分组子集Ra中位于序列起始位置的行为节点确定为目标行为节点,并将目标行为节点在中间去重路径向量中所处的路径位置,确定为节点分组子集Ra对应的子集位置;采用相同方式,可以确定出每个节点分组子集分别对应的子集位置,当确定出节点分组子集集合中,每个节点分组子集分别对应的子集位置时,可以按照每个节点分组子集分别对应的子集位置将每个节点分组子集进行排序,由此可以得到子集序列;随后,可以将子集序列中连续重复的G(G为大于1且小于节点分组子集集合中,所包含的节点分组子集的子集总数量的正整数)个节点分组子集均确定为待去重子集,可以将子集序列中的G-1个待去重子集进行删除处理;随后,可以将删除G-1个待去重子集后的子集序列确定为使用路径向量对应的压缩路径向量。
为便于理解,请一并参见图6,图6是本申请实施例提供的一种将使用路径向量进行多节点去重处理的示意图。如图6所示,假设使用对象在业务应用中的使用路径向量为使用路径向量6001,该使用路径向量6001中包含有行为节点60a、行为节点60b、行为节点60c、行为节点60d、行为节点60e、行为节点60f、行为节点60g,其中,该行为节点60a、行为节点60c、行为节点60e对应的操作行为为操作行为1;该行为节点60b、行为节点60d、行为节点60f对应的操作行为为操作行为2;该行为节点60g对应的操作行为为操作行为3。对于该使用路径向量,包含有7个行为节点,那么该使用路径向量的可选子集长度则为2与3,在可选子集长度为2时,可以得到起始可选节点序列为{行为节点60a,行为节点60c,行为节点60e,行为节点60g},基于各个起始可选节点以得到节点分组子集集合为{(行为节点60a→行为节点60b),(行为节点60c→行为节点60d),(行为节点60e→行为节点60f)} (由于行为节点60g之后不存在行为节点,所以该起始可选节点60g不存在节点分组子集)。对于节点分组子集(行为节点60a→行为节点60b)而言,行为节点60a可作为目标行为节点,其在使用路径向量中所处的路径位置为1(位于第1个路径位置),那么可以确定该节点分组子集(行为节点60a→行为节点60b)对应的子集位置为1;同理,可以确定出节点分组子集(行为节点60c→行为节点60d)对应的子集位置为3,节点分组子集(行为节点60e→行为节点60f)对应的子集位置为5。按照子集位置的大小顺序(如由小到大的顺序),将各个节点分组子集进行排序后,可以得到子集序列为{(行为节点60a→行为节点60b),(行为节点60c→行为节点60d),(行为节点60e→行为节点60f)},该子集序列中,(行为节点60a→行为节点60b)这两个(行为节点60c→行为节点60d)节点分组子集时连续且重复的,那么可以将这两个节点分组子集确定为待去重子集,可以将使用路径向量中的其中一个待去重子集进行删除处理,由此即可得到如图6所示的压缩路径向量6002。在该压缩路径向量6002中,未存在有连续重复的节点分组子集(不存在有连续重复的子路径)。
在可选子集长度为3时,也可以按照同样的原理,得到子集序列为{(行为节点60a→行为节点60b→行为节点60c),(行为节点60d→行为节点60e→行为节点60f)},由于该子集序列中,不存在有连续重复的节点分组子集,所以无需进行去重处理。
需要说明的是,在使用路径向量中N个行为节点的节点重复属性仅为多节点重复属性时,使用路径向量的路径压缩规则为多节点压缩规则,那么无需对使用路径向量进行单节点去重处理,可以直接基于多节点压缩规则对使用路径向量进行多节点去重处理,得到最终的压缩路径向量。
在本申请实施例中,对于业务应用中的使用行为路径,可以以向量进行量化,通过向量量化使用行为路径的方式,可以利用向量的运算特性,统计出使用路径向量中连续重复的行为节点,并对连续重复的行为节点进行去重处理,从而可以减少路径冗余,无需采用局部路径生成方法,即可起到路径压缩作用,且本申请所得到的压缩路径向量,并非仅包含局部的操作行为,而是覆盖有使用对象在业务应用中的整体全面的操作行为,由此可以很好地实现路径的全面性与准确性。
进一步地,可以理解的是,对于上述压缩路径向量或修复路径向量,可以推送至业务应用的应用运营对象以进行路径分析处理,从而对业务应用进行运营优化处理。而由于业务应用的使用对象海量,那么所推送至应用运营对象的路径向量也是海量的,这将严重影响路径的分析效率。为提升路径分析效率,使得推送至应用运营对象的路径更为简洁、聚焦、明确,本申请可以对海量的路径向量进行聚类,得到少量的核心路径向量,再将核心路径向量推送至应用运营对象。也就是说,在上述得到压缩路径向量对应的修复路径向量之后,本申请还可以对所有的路径向量进行聚类,得到最终的核心路径向量,再推送至应用运营对象。为便于理解,请一并参见图7,图7是本申请实施例提供的一种进行路径聚类的流程示意图,如图7所示,该流程可以至少包括以下步骤S701-步骤S705:
步骤S701,将参考路径向量集合中与修复路径向量相同的参考路径向量进行过滤处理,得到过滤参考路径向量集合。
具体的,基于上述可知,进行修复处理后的某个修复路径向量,与某个参考路径向量(参考路径向量可以是指未经过节点去重处理与路径修复处理的某个使用路径向量、也可以是指经过节点去重处理的某个压缩路径向量)是一致的,所以这里也可以先相同的路径向量进行去重处理,例如,可以将与修复路径向量相同的参考路径向量进行过滤处理,由此可以得到过滤后的参考路径向量集合(可称之为过滤参考路径向量集合)。
步骤S702,将修复路径向量与过滤参考路径向量集合中的每个参考路径向量,均确定为聚类路径向量,得到聚类路径向量集合。
具体的,可以将每个修复路径向量,与过滤参考路径向量集合中的每个参考路径向量,均命名确定为聚类路径向量,由此可以得到聚类路径向量集合。
步骤S703,对聚类路径向量集合进行聚类处理,得到包含J个类簇的类簇分布结果;J个类簇的一个类簇中包含一个或多个聚类路径向量;J为大于1的正整数。
具体的,可以对聚类路径向量集合进行聚类处理,得到包含J个类簇的类簇分布结果。其中,这里的聚类处理可以采用任一聚类算法来进行聚类,例如,可以使用学习向量量化(LVQ)算法来进行聚类,其中,LVQ是基于原型的聚类算法,LVQ使用样本真实类标记辅助聚类。首先,LVQ根据样本(这里的样本可以是指聚类路径向量)的类标记(本申请中,对于聚类路径向量的类标记可以为使用对象的使用习惯、使用偏好等标记),从各类中分别随机选出一个样本作为该类簇的原型向量,从而可以组成一个原型向量组;接着可以从样本集(即聚类路径向量)中随机挑选一个样本,计算其与原型向量组中每个向量的距离,并选取距离最小的原型向量所在的类簇作为它的划分结果,由此可以得到每个样本所在的类簇,最终得到一个类簇分布结果,该类簇分布结果中包含有J个类簇,且一个类簇中包含有一个或多个聚类路径向量。
步骤S704,获取J个类簇中每个类簇的类簇中心,将J个类簇中心均确定为业务应用的核心路径向量。
具体的,由于将各个聚类路径向量进行聚类是基于各个路径向量之间的相似度来进行聚类的,那么所得到的某个类簇中的各个聚类路径向量,也是具备较大相似性的,所以本申请可以直接进行向量相似性合并,仅选择出类簇的类簇中心作为一个核心路径向量,该核心路径向量可以表示出这个类簇中所有路径向量的特性。
步骤S705,将J个核心路径向量推送至业务应用的应用运营对象,以使应用运营对象基于J个核心路径向量对业务应用进行分析运营处理。
具体的,可以将上述J个核心路径向量推送至业务应用的应用运营对象,由于J个核心路径向量可以简洁、聚焦、明确的展现出各个路径向量的特性,那么应用运营对象可以对J个核心路径向量进行快速准确地路径分析,然后可以对业务应用进行分析运营处理(例如,应用运营对象可以了解使用对象在使用业务应用的过程是否与业务应用的设计方向所吻合,从而可以使得应用运营对象明确应用迭代升级的方向;通过核心路径向量,也可以了解到使用对象在使用习惯上的差异,从而有助于制定提升应用转化率的营销策略;又如,可以对某个功能进行优化处理,对某个功能进行删除处理等等)。
在本申请实施例中,可以以向量量化使用对象在业务应用中的使用路径,基于向量聚类算法(基于向量相似度聚类),集成核心功能、干扰项参数(基于向量相似度修复)以及重复节点去重压缩(向量重复压缩)等路径处理方式,可以得到低冗余性、高准确性的核心路径向量,有助于提升路径分析效率、业务运营效率。
进一步地,请参见图8,图8是本申请实施例提供的一种系统逻辑架构图。如图8所示,该系统逻辑架构可以包含核心功能配置组件、使用路径向量计算模块、路径去重压缩组件、路径修复组件以及聚类组件。为便于理解,以下将对各个组件进行阐述:
核心功能配置组件:核心功能配置组件可以用于获取为业务应用所定义的核心功能,并将部分相似的核心功能进行合并分类。
使用路径向量计算组件:使用路径向量计算组件可以基于核心功能配置组件所获取到的核心功能,与使用对象在业务应用中的操作行为,生成使用路径向量。
路径去重压缩组件:路径去重压缩组件可以按照路径压缩规则,对使用路径向量计算组件所生成的使用路径向量进行节点去重处理,得到压缩路径向量。
路径修复组件:路径修复组件可以获取到干扰项(如业务应用出现故障的功能),确定出存在异常的路径向量(如异常的压缩路径向量),并计算异常路径向量与正常路径向量(参考路径向量)之间的向量相似度,基于向量相似度对异常的路径向量进行路径修复处理,得到修复路径向量。
聚类组件:聚类组件可以对上述路径向量进行聚类处理,得到核心路径向量。
对于上述各个组件的具体实现方式,可以参见上述图2-图7所对应实施例中的描述,这里将不再进行赘述,其带来的有益效果,也不再进行赘述。
进一步地,请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行图2所示的方法。如图9所示,该数据处理装置1可以包括:向量构建模块11、规则确定模块12、节点去重模块13以及路径修复模块14。
向量构建模块11,用于基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;使用路径向量记录有N个操作行为中每个操作行为分别对应的行为节点;
规则确定模块12,用于基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则;
节点去重模块13,用于按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量;
路径修复模块14,用于若压缩路径向量存在异常,则基于压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量;每个参考路径向量所包含的行为节点的节点属性均为操作正常属性。
其中,向量构建模块11、规则确定模块12、节点去重模块13以及路径修复模块14的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S104的描述,这里将不再进行赘述。
在一个实施例中,向量构建模块11基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量的具体实现方式,包括:
获取使用对象在业务应用中所执行的N个操作行为,确定N个操作行为中每个操作行为分别对应的行为节点,得到N个行为节点;使用对象通过执行N个操作行为完成与业务应用相匹配的业务流程;N个操作行为包括操作行为Si,N个行为节点包括行为节点Ki,i为正整数;
获取操作行为Si的操作执行时刻,将操作行为Si的操作执行时刻确定为行为节点Ki对应的节点时刻;
确定N个行为节点中每个行为节点分别对应的节点时刻,按照N个节点时刻之间的时间早晚顺序,将N个行为节点进行排序,得到行为节点序列;
按照行为节点序列的排列顺序对N个行为节点进行向量构建处理,得到使用路径向量。
在一个实施例中,向量构建模块11按照行为节点序列的排列顺序对N个行为节点进行向量构建处理,得到使用路径向量的具体实现方式,包括:
按照行为节点序列的排列顺序,依次将行为节点序列中处于相邻序列位置的两个行为节点确定为一组节点对,得到N-1组节点对;N-1组节点对包含节点对Wj,j为正整数;
在节点对Wj包含的第一行为节点与第二行为节点之间,构建从第一行为节点指向第二行为节点的边,得到节点对Wj对应的有向边;行为节点序列中,第一行为节点位于第二行为节点之前;
当得到N-1组节点对中每组节点对分别对应的有向边时,将包含行为节点序列以及N-1组有向边的向量,确定为使用路径向量。
在一个实施例中,业务应用提供不同的特定核心功能,业务应用所提供的特定核心功能,是由业务应用的应用开发对象将业务应用的配置功能集合中的常规功能进行过滤后所得到的;使用对象在业务应用中所执行的操作行为,是基于业务应用所提供的特定核心功能所产生的。
在一个实施例中,规则确定模块12基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则的具体方式,包括:
获取使用路径向量中N个行为节点的节点重复属性;
在节点重复属性为单节点重复属性时,将配置压缩规则集合中的单节点压缩规则确定为使用路径向量的路径压缩规则;
在节点重复属性为多节点重复属性时,将配置压缩规则集合中的多节点压缩规则确定为使用路径向量的路径压缩规则;
在节点重复属性为混合节点重复属性时,将配置压缩规则集合中的混合节点压缩规则确定为使用路径向量的路径压缩规则;混合节点压缩规则包含单节点压缩规则与多节点压缩规则。
在一个实施例中,使用路径向量中N个行为节点的节点重复属性为混合节点重复属性,路径压缩规则为混合节点压缩规则;
节点去重模块13按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量的具体方式,包括:
按照混合节点压缩规则中包含的单节点压缩规则,对使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量;
按照混合节点压缩规则中包含的多节点压缩规则,对中间去重路径向量进行多节点去重处理,得到使用路径向量对应的压缩路径向量。
在一个实施例中,节点去重模块13按照混合节点压缩规则中包含的单节点压缩规则,对使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量的具体方式,包括:
按照混合节点压缩规则中包含的单节点压缩规则,在使用路径向量中获取连续重复的Q个行为节点;Q为大于1且小于N的正整数;
将连续重复的Q个行为节点均确定为待去重节点,将使用路径向量中的Q-1个待去重节点进行删除处理;
将删除Q-1个待去重节点后的使用路径向量确定为中间去重路径向量。
在一个实施例中,节点去重模块13按照混合节点压缩规则中包含的多节点压缩规则,对中间去重路径向量进行多节点去重处理,得到使用路径向量对应的压缩路径向量的具体方式,包括:
按照混合节点规则中包含的多节点压缩规则,统计中间去重路径向量所包含的行为节点的第一节点数量;
基于第一节点数量对中间去重路径向量进行子集长度配置处理,得到中间去重路径向量对应的可选子集长度;可选子集长度小于或等于第一节点数量的一半;
按照可选子集长度对中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合;
对节点分组子集集合进行子集去重处理,得到使用路径向量对应的压缩路径向量。
在一个实施例中,节点去重模块13按照可选子集长度对中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合的具体方式,包括:
按照可选子集长度,基于中间去重路径向量中行为节点的排列顺序,依次获取D个起始可选节点,得到起始可选节点序列;D为正整数;起始可选节点序列中,位于序列起始位置的起始可选节点是指中间去重路径向量中位于路径起始位置的行为节点;起始可选节点序列中的两个相邻起始可选节点,在中间去重路径向量中间隔E个行为节点;E是将可选子集长度进行递减处理后所得到的;D个起始可选节点包含起始可选节点Sv,v为正整数;
按照中间去重路径向量中行为节点的排列顺序,在中间去重路径向量中依次获取位于起始可选节点Sv之后的E个行为节点;
按照中间去重路径向量中行为节点的排列顺序,依次将起始可选节点Sv与位于起始可选节点Sv之后的E个行为节点进行排列,将排列得到的节点序列确定为起始可选节点Sv对应的节点分组子集;
当确定出D个起始可选节点中,每个起始可选节点分别对应的节点分组子集时,将每个起始可选节点分别对应的节点分组子集所组成的集合确定为节点分组子集集合。
在一个实施例中,节点分组子集集合包括节点分组子集Ra,a为正整数;节点分组子集Ra为W个行为节点所组成的节点序列;W为可选子集长度;
节点去重模块13对节点分组子集集合进行子集去重处理,得到使用路径向量对应的压缩路径向量的具体方式,包括:
将节点分组子集Ra中位于序列起始位置的行为节点确定为目标行为节点,将目标行为节点在中间去重路径向量中所处的路径位置,确定为节点分组子集Ra对应的子集位置;
当确定出节点分组子集集合中,每个节点分组子集分别对应的子集位置时,按照每个节点分组子集分别对应的子集位置将每个节点分组子集进行排序,得到子集序列;
将子集序列中连续重复的G个节点分组子集均确定为待去重子集,将子集序列中的G-1个待去重子集进行删除处理;G为大于1且小于节点分组子集集合中,所包含的节点分组子集的子集总数量的正整数;
将删除G-1个待去重子集后的子集序列确定为使用路径向量对应的压缩路径向量。
在一个实施例中,在节点去重模块13按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量之后,数据处理装置1还包括:属性确定模块15以及异常确定模块16。
属性确定模块15,用于对压缩路径向量中所包含的行为节点进行节点检测处理,确定压缩路径向量中所包含的行为节点的节点属性;
异常确定模块16,用于在压缩路径向量中存在节点属性为操作故障属性的行为节点时,确定压缩路径向量存在异常。
其中,属性确定模块15以及异常确定模块16的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。
在一个实施例中,路径修复模块14基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量的具体方式,包括:
获取参考路径向量集合,确定压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合;
在向量相似度集合中获取最大向量相似度,将参考路径向量集合中最大向量相似度所指示的参考路径向量,确定为压缩路径向量对应的目标路径向量;
按照目标路径向量所包含的行为节点,对压缩路径向量所包含的行为节点进行修正处理,得到压缩路径向量对应的修复路径向量。
在一个实施例中,参考路径向量集合中包括参考路径向量Lb,b为正整数;向量相似度集合中包括压缩路径向量与参考路径向量Lb之间的向量相似度;
路径修复模块14确定压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合的具体方式,包括:
确定压缩路径向量转换为参考路径向量Lb的最少编辑频率;
将频率映射表中与最少编辑频率具有映射关系的相似度,确定为压缩路径向量与参考路径向量Lb之间的向量相似度;频率映射表包括编辑频率集合与相似度集合之间的映射关系,编辑频率集合中的一个编辑频率与相似度集合中的一个相似度之间存在映射关系。
在一个实施例中,在路径修复模块14得到压缩路径向量对应的修复路径向量之后,数据处理装置1还包括:向量过滤模块17、集合确定模块18、聚类模块19、核心向量获取模块20以及推送模块21。
向量过滤模块17,用于将参考路径向量集合中与修复路径向量相同的参考路径向量进行过滤处理,得到过滤参考路径向量集合;
集合确定模块18,用于将修复路径向量与过滤参考路径向量集合中的每个参考路径向量,均确定为聚类路径向量,得到聚类路径向量集合;
聚类模块19,用于对聚类路径向量集合进行聚类处理,得到包含J个类簇的类簇分布结果;J个类簇的一个类簇中包含一个或多个聚类路径向量;J为大于1的正整数;
核心向量获取模块20,用于获取J个类簇中每个类簇的类簇中心,将J个类簇中心均确定为业务应用的核心路径向量;
推送模块21,用于将J个核心路径向量推送至业务应用的应用运营对象,以使应用运营对象基于J个核心路径向量对业务应用进行分析运营处理。
其中,向量过滤模块17、集合确定模块18、聚类模块19、核心向量获取模块20以及推送模块21的具体实现方式,可以参见上述图7所对应实施例中步骤S701-步骤S705的描述,这里将不再进行赘述。
在本申请实施例中,对于业务应用中的使用行为路径,可以以向量进行量化,通过向量量化使用行为路径的方式,可以利用向量的运算特性,统计出使用路径向量中连续重复的行为节点,并对连续重复的行为节点进行去重处理,从而可以减少路径冗余,无需采用局部路径生成方法,即可起到路径压缩作用,且本申请所得到的压缩路径向量,并非仅包含局部的操作行为,而是覆盖有使用对象在业务应用中的整体全面的操作行为,由此可以很好地实现路径的全面性与准确性。此外,由于业务应用的版本升级、测试等情况,使用对象在业务应用的使用过程中可能出现使用异常的情况,而本申请对于异常的路径(如压缩路径向量存在异常时),可以利用向量的运算特性,利用异常的压缩路径向量与参考路径向量之间的向量相似度,来对异常的压缩路径向量进行路径修复处理,使之转换为非异常的路径,由此可以进一步提升路径的准确性与合理性。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,上述计算机设备8000可以包括:处理器8001,网络接口8004和存储器8005,此外,上述计算机设备8000还包括:用户接口8003,和至少一个通信总线8002。其中,通信总线8002用于实现这些组件之间的连接通信。其中,用户接口8003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口8003还可以包括标准的有线接口、无线接口。网络接口8004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器8005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器8005可选的还可以是至少一个位于远离前述处理器8001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器8005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备8000中,网络接口8004可提供网络通讯功能;而用户接口8003主要用于为用户提供输入的接口;而处理器8001可以用于调用存储器8005中存储的设备控制应用程序,以实现:
基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;使用路径向量记录有N个操作行为中每个操作行为分别对应的行为节点;
基于使用路径向量中N个行为节点的节点重复属性,确定使用路径向量的路径压缩规则;
按照路径压缩规则对使用路径向量中的N个行为节点进行节点去重处理,得到使用路径向量对应的压缩路径向量;
若压缩路径向量存在异常,则基于压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对压缩路径向量进行路径修复处理,得到压缩路径向量对应的修复路径向量。
应当理解,本申请实施例中所描述的计算机设备8000可执行前文图2到图7所对应实施例中对该数据处理方法的描述,也可执行前文图9所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备8000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2到图7所对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (16)
1.一种数据处理方法,其特征在于,包括:
基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;所述使用路径向量记录有所述N个操作行为中每个操作行为分别对应的行为节点;
基于所述使用路径向量中N个行为节点的节点重复属性,确定所述使用路径向量的路径压缩规则;
按照所述路径压缩规则对所述使用路径向量中的N个行为节点进行节点去重处理,得到所述使用路径向量对应的压缩路径向量;
若所述压缩路径向量存在异常,则基于所述压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对所述压缩路径向量进行路径修复处理,得到所述压缩路径向量对应的修复路径向量。
2.根据权利要求1所述的方法,其特征在于,所述基于所述使用路径向量中N个行为节点的节点重复属性,确定所述使用路径向量的路径压缩规则,包括:
获取所述使用路径向量中N个行为节点的节点重复属性;
在所述节点重复属性为单节点重复属性时,将配置压缩规则集合中的单节点压缩规则确定为所述使用路径向量的路径压缩规则;
在所述节点重复属性为多节点重复属性时,将所述配置压缩规则集合中的多节点压缩规则确定为所述使用路径向量的路径压缩规则;
在所述节点重复属性为混合节点重复属性时,将所述配置压缩规则集合中的混合节点压缩规则确定为所述使用路径向量的路径压缩规则;所述混合节点压缩规则包含所述单节点压缩规则与所述多节点压缩规则。
3.根据权利要求1所述的方法,其特征在于,所述使用路径向量中N个行为节点的节点重复属性为混合节点重复属性,所述路径压缩规则为混合节点压缩规则;
所述按照所述路径压缩规则对所述使用路径向量中的N个行为节点进行节点去重处理,得到所述使用路径向量对应的压缩路径向量,包括:
按照所述混合节点压缩规则中包含的单节点压缩规则,对所述使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量;
按照所述混合节点压缩规则中包含的多节点压缩规则,对所述中间去重路径向量进行多节点去重处理,得到所述使用路径向量对应的压缩路径向量。
4.根据权利要求3所述的方法,其特征在于,所述按照所述混合节点压缩规则中包含的单节点压缩规则,对所述使用路径向量中的N个行为节点进行单节点去重处理,得到中间去重路径向量,包括:
按照所述混合节点压缩规则中包含的单节点压缩规则,在所述使用路径向量中获取连续重复的Q个行为节点;Q为大于1且小于N的正整数;
将所述连续重复的Q个行为节点均确定为待去重节点,将所述使用路径向量中的Q-1个待去重节点进行删除处理;
将删除所述Q-1个待去重节点后的使用路径向量确定为所述中间去重路径向量。
5.根据权利要求3所述的方法,其特征在于,所述按照所述混合节点压缩规则中包含的多节点压缩规则,对所述中间去重路径向量进行多节点去重处理,得到所述使用路径向量对应的压缩路径向量,包括:
按照所述混合节点规则中包含的多节点压缩规则,统计所述中间去重路径向量所包含的行为节点的第一节点数量;
基于所述第一节点数量对所述中间去重路径向量进行子集长度配置处理,得到所述中间去重路径向量对应的可选子集长度;所述可选子集长度小于或等于所述第一节点数量的一半;
按照所述可选子集长度对所述中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合;
对所述节点分组子集集合进行子集去重处理,得到所述使用路径向量对应的压缩路径向量。
6.根据权利要求5所述的方法,其特征在于,所述按照所述可选子集长度对所述中间去重路径向量包含的行为节点进行节点分组处理,得到节点分组子集集合,包括:
按照所述可选子集长度,基于所述中间去重路径向量中行为节点的排列顺序,依次获取D个起始可选节点,得到起始可选节点序列;D为正整数;所述起始可选节点序列中的两个相邻起始可选节点,在所述中间去重路径向量中间隔E个行为节点;E是将所述可选子集长度进行递减处理后所得到的;所述D个起始可选节点包含起始可选节点Sv,v为正整数;
按照所述中间去重路径向量中行为节点的排列顺序,在所述中间去重路径向量中依次获取位于所述起始可选节点Sv之后的E个行为节点;
按照所述中间去重路径向量中行为节点的排列顺序,依次将所述起始可选节点Sv与所述位于所述起始可选节点Sv之后的E个行为节点进行排列,将排列得到的节点序列确定为所述起始可选节点Sv对应的节点分组子集;
当确定出所述D个起始可选节点中,每个起始可选节点分别对应的节点分组子集时,将所述每个起始可选节点分别对应的节点分组子集所组成的集合确定为所述节点分组子集集合。
7.根据权利要求5所述的方法,其特征在于,所述节点分组子集集合包括节点分组子集Ra,a为正整数;所述节点分组子集Ra为W个行为节点所组成的节点序列;W为所述可选子集长度;
所述对所述节点分组子集集合进行子集去重处理,得到所述使用路径向量对应的压缩路径向量,包括:
将所述节点分组子集Ra中位于序列起始位置的行为节点确定为目标行为节点,将所述目标行为节点在所述中间去重路径向量中所处的路径位置,确定为所述节点分组子集Ra对应的子集位置;
当确定出所述节点分组子集集合中,每个节点分组子集分别对应的子集位置时,按照所述每个节点分组子集分别对应的子集位置将所述每个节点分组子集进行排序,得到子集序列;
将所述子集序列中连续重复的G个节点分组子集均确定为待去重子集,将所述子集序列中的G-1个待去重子集进行删除处理;G为大于1且小于所述节点分组子集集合中,所包含的节点分组子集的子集总数量的正整数;
将删除所述G-1个待去重子集后的子集序列确定为所述使用路径向量对应的压缩路径向量。
8.根据权利要求1所述的方法,其特征在于,所述基于所述压缩路径向量与参考路径向量集合中每个参考路径向量之间的向量相似度,对所述压缩路径向量进行路径修复处理,得到所述压缩路径向量对应的修复路径向量,包括:
获取参考路径向量集合,确定所述压缩路径向量分别与所述参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合;
在所述向量相似度集合中获取最大向量相似度,将所述参考路径向量集合中所述最大向量相似度所指示的参考路径向量,确定为所述压缩路径向量对应的目标路径向量;
按照所述目标路径向量所包含的行为节点,对所述压缩路径向量所包含的行为节点进行修正处理,得到所述压缩路径向量对应的修复路径向量。
9.根据权利要求8所述的方法,其特征在于,所述参考路径向量集合中包括参考路径向量Lb,b为正整数;所述向量相似度集合中包括所述压缩路径向量与所述参考路径向量Lb之间的向量相似度;
所述确定所述压缩路径向量分别与所述参考路径向量集合中每个参考路径向量之间的向量相似度,得到向量相似度集合,包括:
确定所述压缩路径向量转换为所述参考路径向量Lb的最少编辑频率;
将频率映射表中与所述最少编辑频率具有映射关系的相似度,确定为所述压缩路径向量与所述参考路径向量Lb之间的向量相似度;所述频率映射表包括编辑频率集合与相似度集合之间的映射关系,所述编辑频率集合中的一个编辑频率与所述相似度集合中的一个相似度之间存在映射关系。
10.根据权利要求1所述的方法,其特征在于,所述基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量,包括:
获取使用对象在业务应用中所执行的N个操作行为,确定所述N个操作行为中每个操作行为分别对应的行为节点,得到N个行为节点;所述N个操作行为包括操作行为Si,所述N个行为节点包括行为节点Ki,i为正整数;
获取所述操作行为Si的操作执行时刻,将所述操作行为Si的操作执行时刻确定为所述行为节点Ki对应的节点时刻;
确定所述N个行为节点中每个行为节点分别对应的节点时刻,按照N个节点时刻之间的时间早晚顺序,将所述N个行为节点进行排序,得到行为节点序列;
按照所述行为节点序列的排列顺序对所述N个行为节点进行向量构建处理,得到所述使用路径向量。
11.根据权利要求10所述的方法,其特征在于,所述按照所述行为节点序列的排列顺序对所述N个行为节点进行向量构建处理,得到所述使用路径向量,包括:
按照所述行为节点序列的排列顺序,依次将所述行为节点序列中处于相邻序列位置的两个行为节点确定为一组节点对,得到N-1组节点对;所述N-1组节点对包含节点对Wj,j为正整数;
在所述节点对Wj包含的第一行为节点与第二行为节点之间,构建从所述第一行为节点指向所述第二行为节点的边,得到所述节点对Wj对应的有向边;所述行为节点序列中,所述第一行为节点位于所述第二行为节点之前;
当得到所述N-1组节点对中每组节点对分别对应的有向边时,将包含所述行为节点序列以及N-1组有向边的向量,确定为所述使用路径向量。
12.根据权利要求1所述的方法,其特征在于,在按照所述路径压缩规则对所述使用路径向量中的N个行为节点进行节点去重处理,得到所述使用路径向量对应的压缩路径向量之后,所述方法还包括:
对所述压缩路径向量中所包含的行为节点进行节点检测处理,确定所述压缩路径向量中所包含的行为节点的节点属性;
在所述压缩路径向量中存在节点属性为操作故障属性的行为节点时,确定所述压缩路径向量存在异常。
13.根据权利要求1所述的方法,其特征在于,在得到所述压缩路径向量对应的修复路径向量之后,所述方法还包括:
将所述参考路径向量集合中与所述修复路径向量相同的参考路径向量进行过滤处理,得到过滤参考路径向量集合;
将所述修复路径向量与所述过滤参考路径向量集合中的每个参考路径向量,均确定为聚类路径向量,得到聚类路径向量集合;
对所述聚类路径向量集合进行聚类处理,得到包含J个类簇的类簇分布结果;J为大于1的正整数;
获取所述J个类簇中每个类簇的类簇中心,将J个类簇中心均确定为所述业务应用的核心路径向量;
将J个核心路径向量推送至所述业务应用的应用运营对象,以使所述应用运营对象基于所述J个核心路径向量对所述业务应用进行分析运营处理。
14.一种数据处理装置,其特征在于,包括:
向量构建模块,用于基于使用对象在业务应用中所执行的N个操作行为,构建使用路径向量;N为正整数;所述使用路径向量记录有所述N个操作行为中每个操作行为分别对应的行为节点;
规则确定模块,用于基于所述使用路径向量中N个行为节点的节点重复属性,确定所述使用路径向量的路径压缩规则;
节点去重模块,用于按照所述路径压缩规则对所述使用路径向量中的N个行为节点进行节点去重处理,得到所述使用路径向量对应的压缩路径向量;
路径修复模块,用于若所述压缩路径向量存在异常,则基于所述压缩路径向量分别与参考路径向量集合中每个参考路径向量之间的向量相似度,对所述压缩路径向量进行路径修复处理,得到所述压缩路径向量对应的修复路径向量;所述每个参考路径向量所包含的行为节点的节点属性均为操作正常属性。
15.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使所述计算机设备执行权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310829774.4A CN116541262B (zh) | 2023-07-07 | 2023-07-07 | 一种数据处理方法、装置、设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310829774.4A CN116541262B (zh) | 2023-07-07 | 2023-07-07 | 一种数据处理方法、装置、设备以及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541262A true CN116541262A (zh) | 2023-08-04 |
CN116541262B CN116541262B (zh) | 2024-03-01 |
Family
ID=87454653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310829774.4A Active CN116541262B (zh) | 2023-07-07 | 2023-07-07 | 一种数据处理方法、装置、设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541262B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090207728A1 (en) * | 2008-02-15 | 2009-08-20 | Stewart Frederick Bryant | Constructing repair paths around multiple non-available links in a data communications network |
WO2016107523A1 (zh) * | 2014-12-31 | 2016-07-07 | 北京国双科技有限公司 | 网站的访问路径的分析方法和装置 |
CN110781061A (zh) * | 2019-09-20 | 2020-02-11 | 平安科技(深圳)有限公司 | 一种记录用户行为链路的方法及装置 |
CN111143178A (zh) * | 2019-12-12 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111488261A (zh) * | 2020-03-11 | 2020-08-04 | 北京健康之家科技有限公司 | 用户行为分析系统、方法、存储介质及计算设备 |
CN113676360A (zh) * | 2021-09-26 | 2021-11-19 | 平安科技(深圳)有限公司 | 基于格兰杰因果关系检验与图相似技术的链路图修复方法 |
CN113849812A (zh) * | 2021-09-09 | 2021-12-28 | 杭州逗酷软件科技有限公司 | 应用程序检测方法、装置以及电子设备 |
CN115905309A (zh) * | 2022-12-30 | 2023-04-04 | 奇安信网神信息技术(北京)股份有限公司 | 相似实体搜索方法、装置、计算机设备及可读存储介质 |
CN116244299A (zh) * | 2021-12-07 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 业务数据路径的确定方法、装置、电子设备及介质 |
CN116340793A (zh) * | 2023-04-06 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读存储介质 |
-
2023
- 2023-07-07 CN CN202310829774.4A patent/CN116541262B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090207728A1 (en) * | 2008-02-15 | 2009-08-20 | Stewart Frederick Bryant | Constructing repair paths around multiple non-available links in a data communications network |
WO2016107523A1 (zh) * | 2014-12-31 | 2016-07-07 | 北京国双科技有限公司 | 网站的访问路径的分析方法和装置 |
CN110781061A (zh) * | 2019-09-20 | 2020-02-11 | 平安科技(深圳)有限公司 | 一种记录用户行为链路的方法及装置 |
CN111143178A (zh) * | 2019-12-12 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111488261A (zh) * | 2020-03-11 | 2020-08-04 | 北京健康之家科技有限公司 | 用户行为分析系统、方法、存储介质及计算设备 |
CN113849812A (zh) * | 2021-09-09 | 2021-12-28 | 杭州逗酷软件科技有限公司 | 应用程序检测方法、装置以及电子设备 |
CN113676360A (zh) * | 2021-09-26 | 2021-11-19 | 平安科技(深圳)有限公司 | 基于格兰杰因果关系检验与图相似技术的链路图修复方法 |
CN116244299A (zh) * | 2021-12-07 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 业务数据路径的确定方法、装置、电子设备及介质 |
CN115905309A (zh) * | 2022-12-30 | 2023-04-04 | 奇安信网神信息技术(北京)股份有限公司 | 相似实体搜索方法、装置、计算机设备及可读存储介质 |
CN116340793A (zh) * | 2023-04-06 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116541262B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190370659A1 (en) | Optimizing neural network architectures | |
JP6341205B2 (ja) | データ圧縮システム | |
WO2021084286A1 (en) | Root cause analysis in multivariate unsupervised anomaly detection | |
EP3198478A1 (en) | Method and system for implementing efficient classification and exploration of data | |
US20160196564A1 (en) | Systems and methods for analyzing consumer sentiment with social perspective insight | |
EP3688616A1 (en) | Learning the structure of hierarchical extraction models | |
CN109359026A (zh) | 日志上报方法、装置、电子设备及计算机可读存储介质 | |
CN110689368B (zh) | 一种移动应用内广告点击率预测系统设计方法 | |
CN111108481B (zh) | 故障分析方法及相关设备 | |
CN103257852B (zh) | 一种分布式应用系统的开发环境搭建的方法和装置 | |
US8775392B1 (en) | Revision control and configuration management | |
CN106371814A (zh) | 用于多维数据的可视探索的用户界面工具 | |
US11645523B2 (en) | Generating explanatory paths for predicted column annotations | |
CN108460068A (zh) | 报表导入导出的方法、装置、存储介质及终端 | |
CN114490375A (zh) | 应用程序的性能测试方法、装置、设备及存储介质 | |
CN112241240A (zh) | 用于并行传输数据的方法、设备和计算机程序产品 | |
CN116541262B (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
US20190340540A1 (en) | Adaptive continuous log model learning | |
CN114697127B (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
US20220405065A1 (en) | Model Document Creation in Source Code Development Environments using Semantic-aware Detectable Action Impacts | |
US10025838B2 (en) | Extract transform load input suggestion | |
CN107402886A (zh) | 堆栈分析方法及相关装置 | |
CN117539948B (zh) | 基于深度神经网络的业务数据检索方法及装置 | |
CN111459917B (zh) | 知识库管理方法、装置及处理设备 | |
US11263192B2 (en) | Hyper-folding information in a uniform interaction feed |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |