CN115982112A - 操作日志的多维度去重方法、装置、计算机设备和存储介质 - Google Patents
操作日志的多维度去重方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115982112A CN115982112A CN202211736802.XA CN202211736802A CN115982112A CN 115982112 A CN115982112 A CN 115982112A CN 202211736802 A CN202211736802 A CN 202211736802A CN 115982112 A CN115982112 A CN 115982112A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- time
- dimension
- compressing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种操作日志的多维度去重方法、装置、计算机设备和存储介质,其中该方法包括:获取用户的操作记录数据,所述操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;通过60进制时间压缩方式对所述操作时间数据进行压缩;通过五维度译码本对所述操作行为数据进行压缩;提取用户唯一id值并采用64进制对所述用户信息数据进行压缩;利用双层k‑means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。本发明将很大程度上降低数据量,降低数据库的读写压力,同时还可以降低数据的冗余程度,使得数据更具有针对性和代表性。
Description
技术领域
本发明涉及物联网信息技术领域,特别是涉及一种操作日志的多维度去重方法、装置、计算机设备和存储介质。
背景技术
随着5G时代的到来以及物联网业务的快速发展,物联网卡相关管理平台的用户量逐日递增。为记录各个用户的操作行为,多数管理平台都会推出操作日志管理模块。业务的快速发展,必然会导致数据的爆发式增长。由上所述,平台将会产生大量的操作日志数据。操作日志本意为监测用户行为,但没有目的性的,大量无用且重复性的操作日志将会给数据存储以及数据处理带来巨大的压力,浪费相关服务器性能以及资源。提高了平台的维护成本以及降低平台性能。
此外,现有操作日志多以具体接口方法为操作维度,依据具体的方法的调用来反映用户的操作行为。该方式针对方法维度的记录无法准确反应用户的页面操作的真正的行为轨迹,粒度比较大。且针对不同页面的同一接口的调用,现有方法无法区分具体的操作意图,轨迹记录比较模糊。针对存储空间上,原有方案将根据用户的调用记录,直接记录下相应的操作行为,调用方法,操作行为结果,操作时间等。针对用户的连续操作将持续记录,操作日志记录数据量大,数据库读写压力随之增大。
发明内容
基于此,有必要针对上述技术问题,提供一种操作日志的多维度去重方法、装置、计算机设备和存储介质。
一种操作日志的多维度去重方法,所述方法包括:
获取用户的操作记录数据,所述操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;
通过60进制时间压缩方式对所述操作时间数据进行压缩;
通过五维度译码本对所述操作行为数据进行压缩;
提取用户唯一id值并采用64进制对所述用户信息数据进行压缩;
利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。
在其中一个实施例中,所述通过60进制时间压缩方式对所述操作时间数据进行压缩的步骤还包括:
建立60进制时间压缩映射表,根据所述60进制时间压缩映射表将所述操作时间进行压缩。
在其中一个实施例中,所述通过五维度译码本对所述操作行为数据进行压缩的步骤还包括:
建立五维度译码本,所述五维度译码本中包括:第一维度,导航栏;第二维度,侧边栏;第三维度,form表单;第四维度,用户触发的业务操作行为;第五维度,用户的操作结果记录。
在其中一个实施例中,所述利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志的步骤包括:
对压缩后的数据中前14位包含的用户信息、操作时间信息、空间操作数据来进行第一次聚类数据处理,得到固定用户在某一时间段内同一空间轨迹内的操作数据的聚类集合;
第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类,得到同一用户在相近时间内的相同操作类及结果的数据。
一种操作日志的多维度去重装置,所述操作日志的多维度去重装置包括:
获取模块,所述获取模块用于获取用户的操作记录数据,所述操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;
第一压缩模块,所述第一压缩模块用于通过60进制时间压缩方式对所述操作时间数据进行压缩;
第二压缩模块,所述第二压缩模块用于通过五维度译码本对所述操作行为数据进行压缩;
第三压缩模块,所述第三压缩模块用于提取用户唯一id值并采用64进制对所述用户信息数据进行压缩;
双层聚类模块,所述双层聚类模块用于利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。
在其中一个实施例中,所述第一压缩模块还用于:
建立60进制时间压缩映射表,根据所述60进制时间压缩映射表将所述操作时间进行压缩。
在其中一个实施例中,所述第二压缩模块还用于:
建立五维度译码本,所述五维度译码本中包括:第一维度,导航栏;第二维度,侧边栏;第三维度,form表单;第四维度,用户触发的业务操作行为;第五维度,用户的操作结果记录。
在其中一个实施例中,所述双层聚类模块还用于:
对压缩后的数据中前14位包含的用户信息、操作时间信息、空间操作数据来进行第一次聚类数据处理,得到固定用户在某一时间段内同一空间轨迹内的操作数据的聚类集合;
第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类,得到同一用户在相近时间内的相同操作类及结果的数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项方法的步骤。
上述操作日志的多维度去重方法、装置、计算机设备和存储介质,提出的60进制时间维度压缩方案,将在不改变甚至更高精度的时间数据上,将数据压缩,节省数据存储空间,为后续数据处理提供预处理。五维度译码本方案的提出,可以精确记录用户的行为轨迹,且在调用方法上面进行数据压缩,后续的双层聚类去重方法,将很大程度上降低数据量,降低数据库的读写压力。同时可以降低数据的冗余程度,使得数据更具有针对性和代表性,并且在数据存储上面,数据信息更安全。
附图说明
图1为本发明中多维度空间压缩的原理图;
图2为一个实施例中操作日志的多维度去重方法的流程示意图;
图3为另一个实施例中操作日志的多维度去重方法的流程示意图;
图4a和图4b为一个实施例中第一次聚类数据原理图;
图5a和图5b为一个实施例中第二次聚类数据原理图;
图6为一个实施例中操作日志的多维度去重装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
目前,为记录各个用户的操作行为,多数管理平台都会推出操作日志管理模块。业务的快速发展,必然会导致数据的爆发式增长,平台将会产生大量的操作日志数据。大量的数据存储不但降低平台性能,还占中着大量的服务器资源,对于操作日志的压缩处理将大大降低资源的浪费,同时也有有助于后期的数据去重处理和提高数据传输效率。
日志的记录应当能够全面且有效的反应出用户的操作行为,为此提出包含60进制时间压缩、五维度译码本、用户信息压缩方案,然后针对压缩后数据进行双层聚类去重操作,数据组合。具体地,可参考图1所示的多维度空间压缩原理图,具体包括:60进制时间压缩方法;五维度编码本用户轨迹压缩方法;用户信息的压缩处理以及双层k-means聚类算法。
在一个实施例中,如图2所示,提供了一种操作日志的多维度去重方法,该方法包括:
步骤202,获取用户的操作记录数据,操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;
步骤204,通过60进制时间压缩方式对操作时间数据进行压缩;
步骤206,通过五维度译码本对操作行为数据进行压缩;
步骤208,提取用户唯一id值并采用64进制对用户信息数据进行压缩;
步骤210,利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。
在本实施例中,提供了一种操作日志的多维度去重方法,结合图1对本发明具体实现过程描述如下:
首先,获取用户的操作记录数据,操作记录数据包括操作时间数据、操作行为数据以及用户信息数据。
对于操作时间数据,采用60进制时间压缩方法,根据年、月、日、时、分、秒。不同时间节点分别执行的60进制压缩方案,创新在于60进制,根据时间节点进位的方案。可以简单且能精确压缩时间点,具有精确度高,压缩转移方便等优点。
对于操作行为数据,采用五维度编码本进行压缩,本实施例提出的编码本压缩方式,可以精确记录用户的行为估计,操作方法以及操作结果的记录,同时针对不同维度的数据的记录采用不同进制的压缩方案,更有针对性,更准确的进行用轨迹的记录和数据的压缩处理。
用户信息的压缩处理,该方案可以提取用户信息唯一id值的方案,并采用64进制进行压缩,间接记录用户信息,用户所属企业信息,用户菜单权限信息,用户对物联网卡权限信息等。准确且全面,转译简单等优点。
双层k-means聚类算法,该算法可以解决两层低耦合数据的聚类问题,将数据切分去耦合,分层聚合得到更有针对性的聚类集合。从而提操作日志的数据精度,剔除冗余数据。使数据能够更精确且更有效的记录用户行为轨迹,避免数据库的读写压力。
在其中一个实施例中,通过60进制时间压缩方式对操作时间数据进行压缩的步骤还包括:建立60进制时间压缩映射表,根据所述60进制时间压缩映射表将所述操作时间进行压缩。
具体地,日志的记录时间维度为精确反应操作行为,本实施例中采用“yyy-MM-ddHHmmss”精确到秒记录操作行为。基于此提出60进制时间压缩方案。60进制采用逢60进一,从0至59分别为:
这样针对日期,我们取时间维度的后两位统计,前两位默认为20,这样统计最大时间值为2059-12-3123:59:59秒。预留37年的时间跨度,这样由上转化为60进制时间的年份xBKMxx,大大节省数据占用的资源。
在一个实施例中,通过五维度译码本对所述操作行为数据进行压缩的步骤还包括:建立五维度译码本,所述五维度译码本中包括:第一维度,导航栏;第二维度,侧边栏;第三维度,form表单;第四维度,用户触发的业务操作行为;第五维度,用户的操作结果记录。
具体地,基于操作日志空间维度的记录,不同页面的空间位置将记录登录用户的操作行为轨迹,触发指定的功能操作,例如,查询,业务变更等,该用户操作行为的估计将在空间维度留痕迹。基于此本发明提出译码本操作数据压缩方法。
在一个实施例中,基于操作日志空间维度创建“五维度空间”译码本。
第一维度:导航栏。导航栏采用十六进制依次代表具体的业务模块.该维度不可扩展,且一一对应进行编译。
第二维度:侧边栏(可扩展)。测边栏采用两位占比两位,第一位采用十六进制,第二位采用十进制(考虑子菜单量不多,但一级菜单可能会再增加)
第三维度:form表单。基于页面表单,本实施例中,作为第三维度指示具体的业务内容。采用十进制。
第四维度:具体业务操作方法,用户所触发业务行为。取具体的方法参数对应的Id值,占用两位采用六十四进制。其中64进制逢64进1,则两位有4095个业务方法。因为同一个方法,例如查询的业务,在不同页面或者业务场景下都会触发,所以采用三维度辨识,第四维度精确指示的方式来记录用户的真正的行为轨迹。
第五维度:操作结果记录,采用十进制,占用一位的方式。其中,0:代表操作成功;1:代表参数异常;2:代表业务异常;3:代表接口调用异常;4:代表系统异常;等依次枚举具体操作结果。
用户信息压缩,用户信息包含基本的账号信息、企业信息、权限信息等,为此将用户信息转成唯一标识的cmpUserId。根据id值可以获取对应的账号基本信息。基于cmpUserId可以反查到对应的企业信息,归属的企业及销售单位。也可反查对应的角色信息roleCode,基于此可以得到对应的菜单权限以及物联网卡的操作权限。由上可以用cmpUserId映射用户信息,举例测试账号cmppotaltest对应id为100113。
为更好压缩用户信息数据,在本实施例中采用64进制压缩id值,取4位数,则可以记录16777215个用户。由示例100113可得最终的用户信息数据为0OSH(首位补0)。
在上述实施例中,提出的60进制时间维度压缩方案,将在不改变甚至更高精度的时间数据上,将数据压缩,节省数据存储空间,为后续数据处理提供预处理。五维度译码本方案的提出,可以精确记录用户的行为轨迹,且在调用方法上面进行数据压缩,后续的双层聚类去重方法,将很大程度上降低数据量,降低数据库的读写压力。同时可以降低数据的冗余程度,使得数据更具有针对性和代表性,并且在数据存储上面,数据信息更安全。
在一个实施例中,如图3所示,提供了一种操作日志的多维度去重方法,该方法中利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志的步骤包括:
步骤302,对压缩后的数据中前14位包含的用户信息、操作时间信息、空间操作数据来进行第一次聚类数据处理,得到固定用户在某一时间段内同一空间轨迹内的操作数据的聚类集合;
步骤304,第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类,得到同一用户在相近时间内的相同操作类及结果的数据。
在本实施例中,详细说明对操作日志进行双层聚类去重的实现过程:
操作日志压缩只是从日志数据内容上进行压缩,但针对数据量上还是存在大量重复且冗余的日志数据,例如,用户在短时间内连续触发了相同的查询接口,该日志对后续的分析没有任何理论价值,且会加大数据库的读写压力。
本实施例中,针对特有的操作日志压缩数据,利用改进的双层k-means聚类算法来进行归类去重。k-means聚类算法是一种无监督学习算法,它是一个把数据对象划分成不同集合的过程。通过所要描述对象的属性值来评估相似性和相异性,基本思想是在随机选取K个对象作为初始聚类中心,数据中的每个对象根据其与各个聚类中心的距离,将它分配到其相似度最高的聚类中。然后通过不断的迭代来更新每个聚类中的聚类中心,直到聚类中心不再发生变化。原有聚类算法只能在一层聚类中心中得到一组集合数据,无法细化数据内容,特别是两个聚类中心的耦合性不高的情况下。操作日志数据在前14位的用户信息+操作时间信息+空间操作数据来进行数据处理与后三位的操作方法以及结果并未有强关联,为此本实施例中采用双层聚类方案。
参考图4a和图4b所示的日志数据第一次聚类数据原理图:
依据压缩后的操作日志,第一次聚类根据数据前14位,即用户信息+操作时间信息+空间操作数据来进行数据处理,第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类。
具体过程为,设样本数据集,用{x1,x2,...,xn}表示n个初始的聚类数据,{u1,u2,...,uk}表示k个初始的数据聚类中心,目标函数为两个数据对象之间的欧式距离,表示为:
1)取数据空间中的随机选取不同用户数据的K个压缩对象作为初始中心,每个对象代表一个聚类中心;
2)对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最近的聚类中心所对应的类;
3)更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;
4)判断聚类中心和目标函数的值是否发生改变,若不变,则输出结果,若改变,则返回step2。
以此得到聚类后的M个集群,由于该方法采用用户信息+操作时间信息+用户空间轨迹数据来进行数据处理。这样得到的每个集合类即为固定用户的某一时间段内同一空间轨迹内的操作数据。
参考图5a和图5b所示的第二次聚类数据原理图:
根据上述数据处理可以得到每一个用户在一时间段内的操作记录,这样就可以在很少的数据里进行重复性去重。依据压缩日志的后三位数据,记录用户的具体操作方法及结果数据。这样就可以在同一聚类集合中的数据根据后三位来再次聚类,就可以得到同一用户在下相近时间内的相同操作类及结果的数据,如此只需取一个值就可以代替该数据内的所有操作。
最后,再进行数据组合,由上述得到的双层聚类去重后的压缩操作日志,数据组成最终的操作日志。该日志具有精确映射用户操作行为轨迹,低冗余性,数据简练的特点。极大的降低了操作日志数据的读写压力。
下面以一个具体的应用实例对本方案的压缩过程和效果进行具体描述:
结合5G连接管理平台,依据用户操作行为进行实例分析。用户成功登录连接管理平台,时间为2022年6月1日23点59分59秒访问订单管理模块->批量订购菜单->批量受理业务的自定义属性设置业务。
时间压缩:
依据2022年6月1日23点59分59秒时间,根据本发明提出的60进制压缩方案。可以将2022年压缩为M、六月压缩为6、1日压缩为1、23点压缩为N、59分压缩为x、59秒压缩为x。可以得到最终时间压缩为M61Nxx的表达式。
五维度编码本用户行为压缩:
用户行为压缩,根据五维度编码本,可以将用户操作行为压缩为3201xx0。其中xx为自定义属性设置方法参数对应的Id值的64进制压缩后编码数据。
操作用户为cmppotaltest取对应的cmpUserId来表示用户信息结合客户端IP地址合并为用户信息。
以客户信息+时间数据+操作行为组合方式可以得到未去重的操作日志数据为:0OSHM61Nxx3201xx0
数据去重:
操作日志前14位进行第一次聚类,得到最终的M个聚类集合,然后针对每个聚类集合进行第二次的聚类操作,得到具体到用户的操作方法以及操作结果的子集合。然后每个集合取出最新一条数据即为该子集合的代表数据。便可以得到精确行为轨迹低冗余的操作日志数据。
在上述实施例中,双层k-means聚类算法,该算法可以解决两层低耦合数据的聚类问题,将数据切分去耦合,分层聚合得到更有针对性的聚类集合。从而提操作日志的数据精度,剔除冗余数据。使数据能够更精确且更有效的记录用户行为轨迹,避免数据库的读写压力。
应该理解的是,虽然图1-5b的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5b中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种操作日志的多维度去重装置600,该装置包括:
获取模块601,所述获取模块用于获取用户的操作记录数据,所述操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;
第一压缩模块602,所述第一压缩模块用于通过60进制时间压缩方式对所述操作时间数据进行压缩;
第二压缩模块603,所述第二压缩模块用于通过五维度译码本对所述操作行为数据进行压缩;
第三压缩模块604,所述第三压缩模块用于提取用户唯一id值并采用64进制对所述用户信息数据进行压缩;
双层聚类模块605,所述双层聚类模块用于利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。
在一个实施例中,第一压缩模块602还用于:
建立60进制时间压缩映射表,根据所述60进制时间压缩映射表将所述操作时间进行压缩。
在一个实施例中,第二压缩模块603还用于:
建立五维度译码本,所述五维度译码本中包括:第一维度,导航栏;第二维度,侧边栏;第三维度,form表单;第四维度,用户触发的业务操作行为;第五维度,用户的操作结果记录。
在一个实施例中,双层聚类模块605还用于:
对压缩后的数据中前14位包含的用户信息、操作时间信息、空间操作数据来进行第一次聚类数据处理,得到固定用户在某一时间段内同一空间轨迹内的操作数据的聚类集合;
第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类,得到同一用户在相近时间内的相同操作类及结果的数据。
关于操作日志的多维度去重装置的具体限定可以参见上文中对于操作日志的多维度去重方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种操作日志的多维度去重方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一种非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种操作日志的多维度去重方法,所述方法包括:
获取用户的操作记录数据,所述操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;
通过60进制时间压缩方式对所述操作时间数据进行压缩;
通过五维度译码本对所述操作行为数据进行压缩;
提取用户唯一id值并采用64进制对所述用户信息数据进行压缩;
利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。
2.根据权利要求1所述的操作日志的多维度去重方法,其特征在于,所述通过60进制时间压缩方式对所述操作时间数据进行压缩的步骤还包括:
建立60进制时间压缩映射表,根据所述60进制时间压缩映射表将所述操作时间进行压缩。
3.根据权利要求2所述的操作日志的多维度去重方法,其特征在于,所述通过五维度译码本对所述操作行为数据进行压缩的步骤还包括:
建立五维度译码本,所述五维度译码本中包括:第一维度,导航栏;第二维度,侧边栏;第三维度,form表单;第四维度,用户触发的业务操作行为;第五维度,用户的操作结果记录。
4.根据权利要求3所述的操作日志的多维度去重方法,其特征在于,所述利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志的步骤包括:
对压缩后的数据中前14位包含的用户信息、操作时间信息、空间操作数据来进行第一次聚类数据处理,得到固定用户在某一时间段内同一空间轨迹内的操作数据的聚类集合;
第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类,得到同一用户在相近时间内的相同操作类及结果的数据。
5.一种操作日志的多维度去重装置,其特征在于,所述操作日志的多维度去重装置包括:
获取模块,所述获取模块用于获取用户的操作记录数据,所述操作记录数据包括操作时间数据、操作行为数据以及用户信息数据;
第一压缩模块,所述第一压缩模块用于通过60进制时间压缩方式对所述操作时间数据进行压缩;
第二压缩模块,所述第二压缩模块用于通过五维度译码本对所述操作行为数据进行压缩;
第三压缩模块,所述第三压缩模块用于提取用户唯一id值并采用64进制对所述用户信息数据进行压缩;
双层聚类模块,所述双层聚类模块用于利用双层k-means聚类算法对压缩后的数据进行去重处理得到压缩后的操作日志。
6.根据权利要求5所述的操作日志的多维度去重装置,其特征在于,所述第一压缩模块还用于:
建立60进制时间压缩映射表,根据所述60进制时间压缩映射表将所述操作时间进行压缩。
7.根据权利要求6所述的操作日志的多维度去重装置,其特征在于,所述第二压缩模块还用于:
建立五维度译码本,所述五维度译码本中包括:第一维度,导航栏;第二维度,侧边栏;第三维度,form表单;第四维度,用户触发的业务操作行为;第五维度,用户的操作结果记录。
8.根据权利要求7所述的操作日志的多维度去重装置,其特征在于,所述双层聚类模块还用于:
对压缩后的数据中前14位包含的用户信息、操作时间信息、空间操作数据来进行第一次聚类数据处理,得到固定用户在某一时间段内同一空间轨迹内的操作数据的聚类集合;
第二次在第一次聚类结果得到的每个聚类集合内采用后三位依据具体操作方法及结果进行聚类,得到同一用户在相近时间内的相同操作类及结果的数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211736802.XA CN115982112A (zh) | 2022-12-30 | 2022-12-30 | 操作日志的多维度去重方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211736802.XA CN115982112A (zh) | 2022-12-30 | 2022-12-30 | 操作日志的多维度去重方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982112A true CN115982112A (zh) | 2023-04-18 |
Family
ID=85960470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211736802.XA Pending CN115982112A (zh) | 2022-12-30 | 2022-12-30 | 操作日志的多维度去重方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982112A (zh) |
-
2022
- 2022-12-30 CN CN202211736802.XA patent/CN115982112A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021258848A1 (zh) | 数据字典生成方法、数据查询方法、装置、设备及介质 | |
CN109271545B (zh) | 一种特征检索方法及装置、存储介质和计算机设备 | |
CN112733545A (zh) | 文本分块方法、装置、计算机设备和存储介质 | |
CN113918753A (zh) | 基于人工智能的图像检索方法及相关设备 | |
CN109783457B (zh) | Cgi接口管理方法、装置、计算机设备和存储介质 | |
CN110956195B (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN112199344B (zh) | 一种日志分类的方法和装置 | |
CN111782686A (zh) | 用户数据的查询方法、装置、电子设备及存储介质 | |
CN111563053A (zh) | 处理Bitmap数据的方法以及装置 | |
CN115483935A (zh) | 一种数据处理方法及装置 | |
CN111782595A (zh) | 海量文件管理方法、装置、计算机设备和可读存储介质 | |
CN113626443B (zh) | 索引的数据处理方法、装置、计算机设备和存储介质 | |
CN116821053B (zh) | 数据上报方法、装置、计算机设备和存储介质 | |
CN111858467B (zh) | 基于人工智能的文件数据处理方法、装置、设备和介质 | |
CN116738009B (zh) | 一种对数据进行归档回溯的方法 | |
CN110597977B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112395275A (zh) | 经由关联相似性搜索的数据去重 | |
CN115982112A (zh) | 操作日志的多维度去重方法、装置、计算机设备和存储介质 | |
CN115455083A (zh) | 查重方法、装置、电子设备及计算机存储介质 | |
CN116108752A (zh) | 模型压缩方法、装置、电子设备和存储介质 | |
CN115862653A (zh) | 音频去噪方法、装置、计算机设备和存储介质 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
CN114238334A (zh) | 异构数据编码、解码方法和装置、计算机设备和存储介质 | |
CN114723454A (zh) | 身份识别方法、装置、电子设备及可读存储介质 | |
CN113946365A (zh) | 页面识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |