CN112882907B - 一种基于日志数据的用户状态确定方法及装置 - Google Patents

一种基于日志数据的用户状态确定方法及装置 Download PDF

Info

Publication number
CN112882907B
CN112882907B CN202110462702.1A CN202110462702A CN112882907B CN 112882907 B CN112882907 B CN 112882907B CN 202110462702 A CN202110462702 A CN 202110462702A CN 112882907 B CN112882907 B CN 112882907B
Authority
CN
China
Prior art keywords
sliding window
matrix
log
sequence
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110462702.1A
Other languages
English (en)
Other versions
CN112882907A (zh
Inventor
刘博文
李晨阳
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202110462702.1A priority Critical patent/CN112882907B/zh
Publication of CN112882907A publication Critical patent/CN112882907A/zh
Application granted granted Critical
Publication of CN112882907B publication Critical patent/CN112882907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于日志数据的用户状态确定方法及装置,包括:采集用户的日志数据;确定每个日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值;构建第一矩阵;构建预设数量的第一滑动窗口,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列;构建预设数量的第二滑动窗口,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列;构建第三日志特征序列;确定所述用户的用户状态。

Description

一种基于日志数据的用户状态确定方法及装置
技术领域
本发明涉及数据分析领域,尤其涉及一种基于日志数据的用户状态确定方法及装置。
背景技术
现有通过收集用户行为数据并分析从而确定用户状态的主要方法,只分析单个用户行为数据,而未考虑多个用户行为数据之间的关系,不可避免的造成了信息损失,也未考虑用户在多个时间段产生的用户行为数据之间的时序关系,从而得到的用户状态往往不够准确,分析不够合理。
发明内容
本发明提供一种基于日志数据的用户状态确定方法及装置,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种基于日志数据的用户状态确定方法,包括:
采集用户的多个时段内的日志数据,每个时段内的日志数据包括多个类型的日志,每个类型的日志包含一条日志记录;
确定每个类型的日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值,所述多个第二特征值按照预设的顺序组成特征值序列;
构建第一矩阵,所述第一矩阵的每一行包括相应时段的每个类型的日志的特征值序列,所述第一矩阵的每一列包括相应类型的日志在每个时段的特征值序列;
构建预设数量的第一滑动窗口,所述第一滑动窗口长度等于所述第一矩阵的总列数,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列,所述第一日志特征序列包括每个第一滑动窗口对应的最大第二特征值;
构建预设数量的第二滑动窗口,所述第二滑动窗口宽度等于所述第一矩阵的总行数,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列,所述第二日志特征序列包括每个第二滑动窗口对应的最大第二特征值;
构建第三日志特征序列,所述第三日志特征序列包含最后一个时段的每个类型的日志对应的第一特征值经过向量化后得到的特征值序列;
根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
其中,所述每个时段包含起始时间点和终止时间点,所述每个时段的起始时间点相同,其中,第N个时段的终止时间点比第N-1个时段的终止时间点晚。
其中,所述第一矩阵中每一行对应的时段按时段的长度由短到长排序。
其中,所述预设数量的第一滑动窗口包括:
构建Q个第一滑动窗口,其中,第N个第一滑动窗口的宽度为第N-1个第一滑动窗口的宽度加1,第一滑动窗口的宽度的单位为行,第一滑动窗口的长度为第一矩阵的总列数,第1个第一滑动窗口的宽度为1行、长度为M列,即第一个第一滑动窗口采集到的第二矩阵的宽度为1行、长度为M列,所述Q小于等于第一矩阵的总行数,所述第一滑动窗口的起始位置和结束位置之间的距离为该第一滑动窗口的行数。
其中,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,包括:
第一滑动窗口的起始位置为第一矩阵的第一行,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第一滑动窗口沿着时段的长度由短到长的方向移动固定的行数继续进行采集,直到第一滑动窗口的结束位置为第一矩阵的最后一行,完成第二矩阵的采集。
其中,所述预设数量的第二滑动窗口包括:
构建O个第二滑动窗口,其中,第P个第二滑动窗口的长度为第P-1个第二滑动窗口的长度加1,第二滑动窗口的长度的单位为列,第二滑动窗口的宽度为第一矩阵的总行数,第1个第二滑动窗口的长度为1列、宽度为R行,即第一个第二滑动窗口采集到的第二矩阵的长度为1列、宽度为R行,所述O小于等于第一矩阵的总列数,所述第二滑动窗口的起始位置和结束位置之间的距离为该第二滑动窗口的列数。
其中,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,包括:
第二滑动窗口的起始位置为第一矩阵的第一列,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第二滑动窗口向右移动固定的列数继续进行采集,直到第二滑动窗口的结束位置为第一矩阵的最后一列,完成第二矩阵的采集。
本发明另一方面提供一种基于日志数据的用户状态确定装置,包括:
采集模块,用于采集用户的多个时段内的日志数据,每个时段内的日志数据包括多个类型的日志,每个类型的日志包含一条日志记录;
计算模块,用于确定每个类型的日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值,所述多个第二特征值按照预设的顺序组成特征值序列;
所述计算模块,还用于构建第一矩阵,所述第一矩阵的每一行包括相应时段的每个类型的日志的特征值序列,所述第一矩阵的每一列包括相应类型的日志在每个时段的特征值序列;
滑动窗口模块,用于构建预设数量的第一滑动窗口,所述第一滑动窗口长度等于所述第一矩阵的总列数,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列,所述第一日志特征序列包括每个第一滑动窗口对应的最大第二特征值;
所述滑动窗口模块,还用于构建预设数量的第二滑动窗口,所述第二滑动窗口宽度等于所述第一矩阵的总行数,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列,所述第二日志特征序列包括每个第二滑动窗口对应的最大第二特征值;
所述计算模块,还用于构建第三日志特征序列,所述第三日志特征序列包含最后一个时段的每个类型的日志对应的第一特征值经过向量化后得到的特征值序列;
处理模块,用于根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
其中,所述采集模块,还用于所述每个时段包含起始时间点和终止时间点,所述每个时段的起始时间点相同,其中,第N个时段的终止时间点比第N-1个时段的终止时间点晚。
其中,所述计算模块,还用于将所述第一矩阵中每一行对应的时段按时段的长度由短到长排序。
在本发明上述的方案中,通过构建预设数量的第一滑动窗口从第一矩阵中采集第二矩阵,再将第二矩阵中的数据经过处理得出最后用于确定用户状态的第一日志特征序列,因为第一矩阵每行为对应时段的日志数据,所以第一日志特征序列包含了用户的日志数据中的时序信息,而通过构建预设数量的第二滑动窗口从第一矩阵中采集第二矩阵,再将第二矩阵中的数据经过处理得出最后用于确定用户状态的第二日志特征序列,因为第一矩阵每列为对应类型的日志数据,所以第二日志特征序列充分考虑了用户的类型信息,最后将最后一个时段的日志数据作为第三日志特征序列,将用户最近的日志数据作为确定用户状态的数据,提高了最终得到的用户状态的准确性和合理性。
附图说明
图1示出了本发明一实施例提供的基于日志数据的用户状态确定方法流程示意图;
图2示出了本发明一实施例提供的向量化流程示意图;
图3示出了本发明一实施例提供的第一矩阵结构示意图;
图4示出了本发明一实施例提供的第一滑动窗口采集第二矩阵的流程示意图;
图5示出了本发明一实施例提供的第二滑动窗口采集第二矩阵的流程示意图;
图6示出了本发明一实施例提供的根据第一、第二、第三日志特征序列输出用户状态的流程示意图;
图7示出了本发明一实施例提供的基于日志数据的用户状态确定装置结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高最终确定的用户状态的准确性和合理性,如图1所示,本发明一实施例提供了一种基于日志数据的用户状态确定方法,该方法包括:
步骤101,采集用户的多个时段内的日志数据,每个时段内的日志数据包括多个类型的日志,每个类型的日志包含一条日志记录。
采集用户在多个时段内的日志数据,每个时段内的日志数据包括多个类型的日志,以金融系统为例,用户的类型包括:消费记录、存款记录、借款记录、还款记录等,以交通系统为例,用户的类型包括:违规记录、事故记录、出行时间记录等,以社交系统为例,用户的类型包括:交友记录、钱包记录、访问记录等,每个类型的日志包含一条日志记录;
例如:获得用户在R个时段内的日志数据,每个时段内的日志数据都包含代表M个类型的日志,每个类型的日志包含一条日志记录,则共有R*M条日志记录,R和M为正整数。
在步骤101中,所述采集用户的多个时段内的日志数据,在一可实施方式中,所述每个时段包含起始时间点和终止时间点,所述每个时段的起始时间点相同,其中,第N个时段的终止时间点比第N-1个时段的终止时间点晚。
每个时段包含起始时间点和终止时间点,例如:时段2月1日至2月2日,该时段的起始时间点为2月1日,终止时间点为2月2日;
而每个时段的起始时间点都相同,第N个时段的终止时间点比第N-1个时段的终止时间点晚,例如:第N-2个时段的终止时间为2月7日,则第N-1个时段的终止时间点为2月8日,比第N-2个时段的终止时间点晚,而第N个时段的终止时间点为2月9日,比第N-1个时段的终止时间点晚。
步骤102,确定每个类型的日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值,所述多个第二特征值按照预设的顺序组成特征值序列。
每个类型的日志中包含的一条日志记录中都包含一个代表该类型数值的第一特征值,将第一特征值按照预设的多个维度进行向量化,向量化是指使用预设的多个维度的第二特征值来对第一特征值进行描述,将每个第一特征值对应的多个第二特征值按照预设的顺序组成特征值序列;
如图2所示:将每个所述第一特征值向量化,即用K个维度的第二特征值来描述每个所述第一特征值、即一个特征值序列包括K个第二特征值。
步骤103,构建第一矩阵,所述第一矩阵的每一行包括相应时段的每个类型的日志的特征值序列,所述第一矩阵的每一列包括相应类型的日志在每个时段的特征值序列。
如图3所示,图3中的第一矩阵共有R行M列,每行对应的时段分别为时段1、时段2一直到时段R,而每列对应的类型分别为第一类型、第二类型一直到第M类型,包含了R*M个特征值序列,而每个特征值序列中包含了K个第二特征值,即R*M*K个第二特征值,而M*K等于D,所以即是R*D个第二特征值,所述K为正整数。
在步骤103中,所述构建第一矩阵,在一可实施方式中,所述第一矩阵中每一行对应的时段按时段的长度由短到长排序。
第一矩阵中每一行对应的时段按时段的长度由短到长排序,例如:第N-2行的时段为2月1日至2月7日,第N-1行的时段为2月1日至2月8日,比第N-2行的时段要短,而第N行的时段则为2月1日至2月9日,比第N-1行的时段要短。
步骤104,构建预设数量的第一滑动窗口,所述第一滑动窗口长度等于所述第一矩阵的总列数,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列,所述第一日志特征序列包括每个第一滑动窗口对应的最大第二特征值;
在步骤104中,所述利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,在一可实施方式中,构建Q个第一滑动窗口,其中,第N个第一滑动窗口的宽度为第N-1个第一滑动窗口的宽度加1,第一滑动窗口的宽度的单位为行,第一滑动窗口的长度为第一矩阵的总列数,第1个第一滑动窗口的宽度为1行、长度为M列,即第一个第一滑动窗口采集到的第二矩阵的宽度为1行、长度为M列,所述Q小于等于第一矩阵的总行数,所述第一滑动窗口的起始位置和结束位置之间的距离为该第一滑动窗口的行数;
第一滑动窗口的起始位置为第一矩阵的第一行,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第一滑动窗口沿着时段的长度由短到长的方向移动固定的行数继续进行采集,直到第一滑动窗口的结束位置为第一矩阵的最后一行,完成第二矩阵的采集。
如图4所示,利用Q个第一滑动窗口从第一矩阵采集多个第二矩阵,第i个第一滑动窗口的宽度为i、长度为M(第一矩阵的总列数),表示该滑动窗口一次采集的第二矩阵包含了i行M列。从第一矩阵的第一排开始将第一滑动窗口以固定行数(例如1行或2行等)的速度往下滑动,每次滑动采集一个第二矩阵,采集完成后,一共得到(R-i+1)个第二矩阵,Q为预设的第一经验阈值,且所述Q为小于等于第一矩阵总行数;
当第i个第一滑动窗口采集完毕,则创建第i+1个宽度为i+1、长度为M的第一滑动窗口重复上述步骤从第一矩阵中采集第二矩阵,直到第一滑动窗口的宽度等于Q为止;
计算Q个第一滑动窗口中每个第一滑动窗口对应的多个第二矩阵中的最大的第二特征值,得到Q个从多个第二矩阵中得到的最大的第二特征值;
将Q个从多个第二矩阵中得到的最大的第二特征值构建成第一日志特征序列。
步骤105,构建预设数量的第二滑动窗口,所述第二滑动窗口宽度等于所述第一矩阵的总行数,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列,所述第二日志特征序列包括每个第二滑动窗口对应的最大第二特征值;
在步骤105中,所述利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,在一可实施方式中,构建O个第二滑动窗口,其中,第P个第二滑动窗口的长度为第P-1个第二滑动窗口的长度加1,第二滑动窗口的长度的单位为列,第二滑动窗口的宽度为第一矩阵的总行数,第1个第二滑动窗口的长度为1列、宽度为R行,即第一个第二滑动窗口采集到的第二矩阵的长度为1列、宽度为R行,所述O小于等于第一矩阵的总列数,所述第二滑动窗口的起始位置和结束位置之间的距离为该第二滑动窗口的列数;
第二滑动窗口的起始位置为第一矩阵的第一列,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第二滑动窗口向右移动固定的列数继续进行采集,直到第二滑动窗口的结束位置为第一矩阵的最后一列,完成第二矩阵的采集。
如图5所示,利用O个第二滑动窗口从第一矩阵采集多个第二矩阵,第j个第一滑动窗口的宽度为R(第一矩阵的总行数)、长度为j,标识该滑动窗口一次采集的第二矩阵包含了R行j列,从第一矩阵的第一列开始将第二滑动窗口以固定列数(例如1列或2列等)的速度往右滑动,每次滑动采集一个第二矩阵,采集完成后,一共得到(M-j+1)个第二矩阵,O为预设的第二经验阈值,且所述O为小于等于第一矩阵总列数;
当第j个第二滑动窗口采集完毕,则创建第j+1个宽度为R、长度为j+1第二滑动窗口重复上述步骤从第一矩阵中采集第二矩阵,直到第二滑动窗口的宽度等于O为止;
计算O个第二滑动窗口中每个第二滑动窗口对应的多个第二矩阵中的最大的第二特征值,得到O个从多个第二矩阵中得到的最大的第二特征值;
将O个从多个第二矩阵中得到的最大的第二特征值构建成第二日志特征序列。
步骤106,构建第三日志特征序列,所述第三日志特征序列包含最后一个时段的每个类型的日志对应的第一特征值经过向量化后得到的特征值序列。
将最后一个时段中的M个类型对应的第一特征值经过向量化后得到的特征值序列构建成第三日志特征序列。
步骤107,根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
如图6所示,根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
在本发明上述的方案中,通过构建预设数量的第一滑动窗口从第一矩阵中采集第二矩阵,再将第二矩阵中的数据经过处理得出最后用于确定用户状态的第一日志特征序列,因为第一矩阵每行为对应时段的日志数据,所以第一日志特征序列包含了用户的日志数据中的时序信息,而通过构建预设数量的第二滑动窗口从第一矩阵中采集第二矩阵,再将第二矩阵中的数据经过处理得出最后用于确定用户状态的第二日志特征序列,因为第一矩阵每列为对应类型的日志数据,所以第二日志特征序列充分考虑了用户的类型信息,最后将最后一个时段的日志数据作为第三日志特征序列,将用户最近的日志数据作为确定用户状态的数据,提高了最终得到的用户状态的准确性和合理性。
本发明一实施例还提供了一种基于日志数据的用户状态确定装置,如图7所示,包括:
采集模块10,用于采集用户的多个时段内的日志数据,每个时段内的日志数据包括多个类型的日志,每个类型的日志包含一条日志记录;
计算模块20,用于确定每个类型的日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值,所述多个第二特征值按照预设的顺序组成特征值序列;
所述计算模块20,还用于构建第一矩阵,所述第一矩阵的每一行包括相应时段的每个类型的日志的特征值序列,所述第一矩阵的每一列包括相应类型的日志在每个时段的特征值序列;
滑动窗口模块30,用于构建预设数量的第一滑动窗口,所述第一滑动窗口长度等于所述第一矩阵的总列数,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列,所述第一日志特征序列包括每个第一滑动窗口对应的最大第二特征值;
所述滑动窗口模块30,还用于构建预设数量的第二滑动窗口,所述第二滑动窗口宽度等于所述第一矩阵的总行数,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列,所述第二日志特征序列包括每个第二滑动窗口对应的最大第二特征值;
所述计算模块20,还用于构建第三日志特征序列,所述第三日志特征序列包含最后一个时段的每个类型的日志对应的第一特征值经过向量化后得到的特征值序列;
处理模块40,用于根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
其中,所述采集模块10,还用于所述每个时段包含起始时间点和终止时间点,所述每个时段的起始时间点相同,其中,第N个时段的终止时间点比第N-1个时段的终止时间点晚。
其中,所述计算模块20,还用于将所述第一矩阵中每一行对应的时段按时段的长度由短到长排序。
其中,所述滑动窗口模块30,还用于构建Q个第一滑动窗口,其中,第N个第一滑动窗口的宽度为第N-1个第一滑动窗口的宽度加1,第一滑动窗口的宽度的单位为行,第一滑动窗口的长度为第一矩阵的总列数,第1个第一滑动窗口的宽度为1行、长度为M列,即第一个第一滑动窗口采集到的第二矩阵的宽度为1行、长度为M列,所述Q小于等于第一矩阵的总行数,所述第一滑动窗口的起始位置和结束位置之间的距离为该第一滑动窗口的行数。
其中,所述滑动窗口模块30,还用于第一滑动窗口的起始位置为第一矩阵的第一行,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第一滑动窗口沿着时段的长度由短到长的方向移动固定的行数继续进行采集,直到第一滑动窗口的结束位置为第一矩阵的最后一行,完成第二矩阵的采集。
其中,所述滑动窗口模块30,还用于构建O个第二滑动窗口,其中,第P个第二滑动窗口的长度为第P-1个第二滑动窗口的长度加1,第二滑动窗口的长度的单位为列,第二滑动窗口的宽度为第一矩阵的总行数,第1个第二滑动窗口的长度为1列、宽度为R行,即第一个第二滑动窗口采集到的第二矩阵的长度为1列、宽度为R行,所述O小于等于第一矩阵的总列数,所述第二滑动窗口的起始位置和结束位置之间的距离为该第二滑动窗口的列数。
其中,所述滑动窗口模块30,还用于第二滑动窗口的起始位置为第一矩阵的第一列,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第二滑动窗口向右移动固定的列数继续进行采集,直到第二滑动窗口的结束位置为第一矩阵的最后一列,完成第二矩阵的采集。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (8)

1.一种基于日志数据的用户状态确定方法,其特征在于,包括:
采集用户的多个时段内的日志数据,每个时段包含起始时间点和终止时间点,所述每个时段的起始时间点相同,其中,第N个时段的终止时间点比第N-1个时段的终止时间点晚,每个时段内的日志数据包括多个类型的日志,每个类型的日志包含一条日志记录;
确定每个类型的日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值,所述多个第二特征值按照预设的顺序组成特征值序列;
构建第一矩阵,所述第一矩阵的每一行包括相应时段的每个类型的日志的特征值序列,所述第一矩阵的每一列包括相应类型的日志在每个时段的特征值序列;
构建预设数量的第一滑动窗口,所述第一滑动窗口长度等于所述第一矩阵的总列数,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列,所述第一日志特征序列包括每个第一滑动窗口对应的最大第二特征值;
构建预设数量的第二滑动窗口,所述第二滑动窗口宽度等于所述第一矩阵的总行数,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列,所述第二日志特征序列包括每个第二滑动窗口对应的最大第二特征值;
构建第三日志特征序列,所述第三日志特征序列包含最后一个时段的每个类型的日志对应的第一特征值经过向量化后得到的特征值序列;
根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
2.根据权利要求1所述的基于日志数据的用户状态确定方法,其特征在于,所述第一矩阵中每一行对应的时段按时段的长度由短到长排序。
3.根据权利要求2所述的基于日志数据的用户状态确定方法,其特征在于,所述预设数量的第一滑动窗口包括:
构建Q个第一滑动窗口,其中,第N个第一滑动窗口的宽度为第N-1个第一滑动窗口的宽度加1,第一滑动窗口的宽度的单位为行,第一滑动窗口的长度为第一矩阵的总列数,第1个第一滑动窗口的宽度为1行、长度为M列,即第一个第一滑动窗口采集到的第二矩阵的宽度为1行、长度为M列,所述Q小于等于第一矩阵的总行数,所述第一滑动窗口的起始位置和结束位置之间的距离为该第一滑动窗口的行数。
4.根据权利要求3所述的基于日志数据的用户状态确定方法,其特征在于,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,包括:
第一滑动窗口的起始位置为第一矩阵的第一行,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第一滑动窗口沿着时段的长度由短到长的方向移动固定的行数继续进行采集,直到第一滑动窗口的结束位置为第一矩阵的最后一行,完成第二矩阵的采集。
5.根据权利要求1所述的基于日志数据的用户状态确定方法,其特征在于,所述预设数量的第二滑动窗口包括:
构建O个第二滑动窗口,其中,第P个第二滑动窗口的长度为第P-1个第二滑动窗口的长度加1,第二滑动窗口的长度的单位为列,第二滑动窗口的宽度为第一矩阵的总行数,第1个第二滑动窗口的长度为1列、宽度为R行,即第一个第二滑动窗口采集到的第二矩阵的长度为1列、宽度为R行,所述O小于等于第一矩阵的总列数,所述第二滑动窗口的起始位置和结束位置之间的距离为该第二滑动窗口的列数。
6.根据权利要求5所述的基于日志数据的用户状态确定方法,其特征在于,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,包括:
第二滑动窗口的起始位置为第一矩阵的第一列,从起始位置开始采集第二矩阵,每采集到一个第二矩阵后,将第二滑动窗口向右移动固定的列数继续进行采集,直到第二滑动窗口的结束位置为第一矩阵的最后一列,完成第二矩阵的采集。
7.一种基于日志数据的用户状态确定装置,其特征在于,包括:
采集模块,用于采集用户的多个时段内的日志数据,每个时段内的日志数据包括多个类型的日志,每个类型的日志包含一条日志记录;
所述采集模块,还用于所述每个时段包含起始时间点和终止时间点,所述每个时段的起始时间点相同,其中,第N个时段的终止时间点比第N-1个时段的终止时间点晚;
计算模块,用于确定每个类型的日志的第一特征值,并根据预设的多个维度对所述第一特征值进行向量化,得到对应的多个第二特征值,所述多个第二特征值按照预设的顺序组成特征值序列;
所述计算模块,还用于构建第一矩阵,所述第一矩阵的每一行包括相应时段的每个类型的日志的特征值序列,所述第一矩阵的每一列包括相应类型的日志在每个时段的特征值序列;
滑动窗口模块,用于构建预设数量的第一滑动窗口,所述第一滑动窗口长度等于所述第一矩阵的总列数,利用每个第一滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第一滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第一日志特征序列,所述第一日志特征序列包括每个第一滑动窗口对应的最大第二特征值;
所述滑动窗口模块,还用于构建预设数量的第二滑动窗口,所述第二滑动窗口宽度等于所述第一矩阵的总行数,利用每个第二滑动窗口从所述第一矩阵采集多个第二矩阵,从每个第二滑动窗口采集到的多个第二矩阵中选取最大第二特征值,构建第二日志特征序列,所述第二日志特征序列包括每个第二滑动窗口对应的最大第二特征值;
所述计算模块,还用于构建第三日志特征序列,所述第三日志特征序列包含最后一个时段的每个类型的日志对应的第一特征值经过向量化后得到的特征值序列;
处理模块,用于根据第一日志特征序列、第二日志特征序列和第三日志特征序列,确定所述用户的用户状态。
8.根据权利要求7所述的基于日志数据的用户状态确定装置,其特征在于,
所述计算模块,还用于将所述第一矩阵中每一行对应的时段按时段的长度由短到长排序。
CN202110462702.1A 2021-04-28 2021-04-28 一种基于日志数据的用户状态确定方法及装置 Active CN112882907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110462702.1A CN112882907B (zh) 2021-04-28 2021-04-28 一种基于日志数据的用户状态确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110462702.1A CN112882907B (zh) 2021-04-28 2021-04-28 一种基于日志数据的用户状态确定方法及装置

Publications (2)

Publication Number Publication Date
CN112882907A CN112882907A (zh) 2021-06-01
CN112882907B true CN112882907B (zh) 2021-07-20

Family

ID=76040073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110462702.1A Active CN112882907B (zh) 2021-04-28 2021-04-28 一种基于日志数据的用户状态确定方法及装置

Country Status (1)

Country Link
CN (1) CN112882907B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113422609B (zh) * 2021-06-02 2024-06-21 出门问问信息科技有限公司 一种数据压缩方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234463A (zh) * 2017-12-22 2018-06-29 杭州安恒信息技术有限公司 一种基于多维行为模型的用户风险评估与分析方法
CN109947728A (zh) * 2019-03-11 2019-06-28 中国银联股份有限公司 一种日志文件的处理方法及装置
CN111209562A (zh) * 2019-12-24 2020-05-29 杭州安恒信息技术股份有限公司 一种基于潜伏行为分析的网络安全检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4962782B2 (ja) * 2007-08-13 2012-06-27 富士通株式会社 利用者状態推定システム、利用者状態推定方法および利用者状態推定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234463A (zh) * 2017-12-22 2018-06-29 杭州安恒信息技术有限公司 一种基于多维行为模型的用户风险评估与分析方法
CN109947728A (zh) * 2019-03-11 2019-06-28 中国银联股份有限公司 一种日志文件的处理方法及装置
CN111209562A (zh) * 2019-12-24 2020-05-29 杭州安恒信息技术股份有限公司 一种基于潜伏行为分析的网络安全检测方法

Also Published As

Publication number Publication date
CN112882907A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110674604B (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN109190808B (zh) 用户行为预测方法、装置、设备及介质
CN108563739B (zh) 天气数据获取方法及装置、计算机装置及可读存储介质
EP2797034B1 (en) Event analyzer and computer-readable storage medium
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN110264270A (zh) 一种行为预测方法、装置、设备和存储介质
CN112882907B (zh) 一种基于日志数据的用户状态确定方法及装置
CN111258593A (zh) 应用程序预测模型的建立方法、装置、存储介质及终端
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN112988840A (zh) 一种时间序列预测方法、装置、设备和存储介质
CN115392477A (zh) 基于深度学习的Skyline查询基数估计方法及装置
CN113495913B (zh) 一种空气质量数据缺失值插补方法及装置
CN110737691B (zh) 用于处理访问行为数据的方法和装置
CN113660147B (zh) 一种基于模糊熵的ip会话序列周期性评估方法
CN104778202A (zh) 基于关键词的事件演化过程的分析方法及系统
Wu et al. Analysis of the M1, M2/G/1 G-queueing system with retrial customers
CN112148764B (zh) 特征的筛选方法、装置、设备和存储介质
CN110674839B (zh) 异常用户识别方法、装置、存储介质及电子设备
CN118133812B (zh) 一种基于大语言模型的信息分析方法及系统
CN116226231B (zh) 数据分割方法及相关装置
CN110209763B (zh) 数据处理方法、装置以及计算机可读存储介质
CN117786478B (zh) 基于多模型的用户活跃度预测方法、系统、设备及介质
CN113590960B (zh) 用户识别模型训练方法、电子设备及计算机存储介质
CN114003630B (zh) 一种数据搜索方法、装置、电子设备及存储介质
CN115938353B (zh) 语音样本分布式采样方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant