CN117635190A

CN117635190A - 一种日志数据分析方法及系统

Info

Publication number: CN117635190A
Application number: CN202311593240.2A
Authority: CN
Inventors: 褚国辉; 王东旭; 张永超; 杨桢; 史婷婷; 李想
Original assignee: Hebei Shugang Technology Co ltd
Current assignee: Hebei Shugang Technology Co ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-01
Anticipated expiration: 2043-11-27
Also published as: CN117635190B

Abstract

本申请提供一种日志数据分析方法及系统。一种日志数据分析系统，包括：兴趣主题分类模块、日志数据获取模块、正负面热度值计算模块、用户活跃度评分模块、正负面热度值模拟模块、用户活跃度评分预测模块、误差异常告警模块和最佳模拟正负面热度值输出模块。本申请通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型，以上一个时间周期的正负面博文热度值为基数，根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测，辅助平台人员调整正负面博文的推送策略，提高平台用户的活跃度。

Description

一种日志数据分析方法及系统

技术领域

本申请涉及数据处理领域，特别地涉及一种日志数据分析方法及系统。

背景技术

日志数据是IT系统产生的过程性事件记录数据；通过分析平台内用户的日志数据能够了解具体用户在具体时间、具体设备或系统上进行的操作；而社交网络平台的用户日志数据能够反应用户在平台上的登录、点击、浏览、评论、分享等操作。

一个社交网络平台是否能够长久的运营下去，关键在于该社交网络平台用户是否持续活跃，因此如何提升社交网络平台用户的活跃度是每个平台运营者面临的共同难题。

发明内容

针对上述问题，本申请提供一种日志数据分析方法及系统，通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型，以上一个时间周期的正负面博文热度值为基数，根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测，辅助平台人员调整正负面博文的推送策略，提高平台用户的活跃度。

一种日志数据分析方法，步骤如下：

获取平台历史用户日志数据，获取平台所有博文的兴趣词条，对平台所有博文的兴趣词条进行分类，将平台所有博文的兴趣词条分为多种兴趣主题，对每种兴趣主题进行编号，得到兴趣主题编号；

根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分；

将根据时间先后顺序对每个时间周期进行编号，得到每个时间周期的时序编号；

根据每种兴趣主题对应的正面热度值、负面热度值、每个时间周期的时序编号和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型；

获取上一时间周期的用户日志数据，并根据上一时间周期的用户日志数据获取上一时间周期每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分；

将上一时间周期每种兴趣主题对应的时序编号、正面热度值和负面热度值送入对应兴趣主题的用户活跃度评分模型，得到上一时间周期每种兴趣主题对应的预测用户活跃度评分；

将上一时间周期每种兴趣主题对应的预测用户活跃度评分与上一时间周期每种兴趣主题对应的用户活跃度评分进行对比，逐一判断上一时间周期每种兴趣主题对应的预测用户活跃度评分和上一时间周期每种兴趣主题对应的用户活跃度评分的误差是否大于预设活跃度误差，若某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差，假定该种兴趣主题的编号为，则输出“编号为/>的兴趣主题预测活跃度误差过大”告警提示；若该种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差不大于预设活跃度误差，则建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合，随机在模拟正面热度值集合和模拟负面热度值集合内各选取一个元素和本时间周期对应的时序编号送入该种兴趣主题对应的用户活跃度评分模型，假定模拟正面热度值集合内共有/>个模拟正面热度值，模拟负面热度值集合内共有/>个模拟负面热度值，对这/>个模拟正面热度值进行编号，编号为1至/>，对这/>个模拟负面热度值进行编号，编号为1至/>，选取送入该种兴趣主题对应的用户活跃度评分模型中，得到时序编号为/>时编号为/>的模拟正面热度值/>和编号为/>的模拟负面热度值/>对应的预测用户活跃度评分，其中/>，/>，则预测用户活跃度评分集合为；

获取对应的模拟正面热度值和模拟负面热度值，得到最佳模拟正面热度值和最佳模拟负面热度值。

优选地，对平台所有博文的兴趣词条进行分类，将平台所有博文的兴趣词条分为多种兴趣主题的具体方法为：建立每种兴趣主题对应的兴趣词条，通过平台所有博文的兴趣词条即可将平台所有博文分至对应的兴趣主题。

优选地，根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正负面热度值的具体方法为：

设定时间周期标准博文热度增值下限，获取每个时间周期的每种兴趣主题内博文热度增值大于时间周期标准博文热度增值下限的博文，得到需判断正负面的博文；

获取需判断正负面的博文的文字内容，通过设置正负面主题词典，将需判断正负面的博文的文字内容送入自然语言模型进行正负面情感分类，确定博文的正负面性；

每种兴趣主题内所有正面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的正面热度值；每种兴趣主题内所有负面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的负面热度值；

每种兴趣主题内博文热度增值的计算方法为：

获取该时间周期内用户日志数据中对该种兴趣主题内博文的点击操作次数、评论操作次数/>、该博文被用户浏览的总时间/>和分享操作次数/>，将上述数据代入，即可得到该时间周期内该博文的热度增值/>，其中/>为点击操作次数/>对应的热度增值权重，/>为评论操作次数/>对应的热度增值权重，/>为分享操作次数/>对应的热度增值权重，/>为该博文被用户浏览的总时间/>与点击操作次数比值对应的热度增值权重。

优选地，根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分的具体方法为：

获取该时间周期内每种兴趣主题对应的用户日志数据，获取该时间周期内每种兴趣主题对应的用户日志数据内点击过该种兴趣主题对应博文的用户IP数量、博文平均浏览时长大于预设时长的用户IP数量/>和发帖的用户IP数量/>，将上述数据代入公式，得到该种兴趣主题对应的用户活跃度评分/>，其中/>为一个时间周期内点击过该种兴趣主题对应博文的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数，/>为博文平均浏览时长大于预设时长的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数，/>为发帖的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数。

优选地，根据每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型具体方法为：

将该种兴趣主题每一时间周期的正面热度值、负面热度值和其时间周期对应的时序编号作为输入值，将用户活跃度评分作为目标值送入神经网络模型中进行训练，得到训练好的用户活跃度评分模型。

优选地，建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合的具体方法为：

设定正面热度值模拟增减范围、负面热度值模拟增减范围和最小模拟增减热度值，以上一时间周期该种兴趣主题对应的正面热度值和负面热度值为基数，将上一时间周期该种兴趣主题对应的正面热度值在正面热度值模拟增减范围进行增减，增减的热度值为最小模拟增减热度值的倍数，即可得到多个模拟正面热度值，建立模拟正面热度值集合，将多个模拟正面热度值添加进模拟正面热度值集合；同理可得模拟负面热度值集合。

一种日志数据分析系统，所述系统应用于所述的一种日志数据分析方法，包括有：

兴趣主题分类模块，用于对平台内博文进行兴趣主题分类；

日志数据获取模块，用于获取平台历史用户日志数据；

正负面热度值计算模块，用于根据每种兴趣主题和其对应的平台历史用户日志数据计算每个时间周期内每种兴趣主题对应的正面热度值和负面热度值；

用户活跃度评分模块，用于根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分；

正负面热度值模拟模块，用于根据上一时间周期每种兴趣主题对应的正面热度值和负面热度值得到本时间周期的每种兴趣主题对应的模拟正面热度值和模拟负面热度值；

用户活跃度评分预测模块，用于构建每种兴趣主题对应的用户活跃度评分模型，将每种兴趣主题对应的正面热度值和负面热度值送入对应的用户活跃度评分模型即可得到预测用户活跃度评分；

误差异常告警模块，用于当某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差，则输出告警提示；

最佳模拟正负面热度值输出模块，用于根据每种兴趣主题最高的预测用户活跃度评分对应的模拟正面热度值和模拟负面热度值，得到并输出最佳模拟正面热度值和最佳模拟负面热度值。

本申请具有以下优点：

本发明通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型，以上一个时间周期的正负面博文热度值为基数，根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测，辅助平台人员调整正负面博文的推送策略，提高平台用户的活跃度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本申请实施例中提供的一种日志数据分析系统的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请部分实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。然而，本领域的普通技术人员可以理解，在本申请的各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

实施例1

一种日志数据分析方法，适用于对社交媒体平台用户日志数据的分析，一种日志数据分析方法具体包括：

获取平台历史用户日志数据，获取平台所有博文的兴趣词条，对平台所有博文的兴趣词条进行分类，将平台所有博文的兴趣词条分为多种兴趣主题，对每种兴趣主题进行编号，得到兴趣主题编号；在具体实施中平台内的博文可同时选择多个兴趣词条，此时可选择第一个兴趣词条作为该博文兴趣主题分类的参考兴趣词条。

需要解释的是，例如“微博”式的社交平台通过用户自带Tag即兴趣词条进行博文发布，不同兴趣词条对应的受众用户不同，正负面热度值对用户活跃度的影响也不同，因此需要对每种兴趣主题均构建对应的用户活跃度评分模型，例如在英文教学兴趣主题中，正面热度值越大即正向英文学习内容越丰富用户活跃度越高，若是在英文教学兴趣主题中，有大量负面博文例如大量用户反对英文学习，会影响比例最多的正常对英文教学兴趣主题感兴趣的用户的使用体验，最终导致该兴趣主题的用户活跃度下降；在另一兴趣主题例如社会热点兴趣主题中，若全是正向博文，用户的讨论度也会下降，部分负面博文会引起用户的讨论，提升用户活跃度。

将上一时间周期每种兴趣主题对应的预测用户活跃度评分与上一时间周期每种兴趣主题对应的用户活跃度评分进行对比，逐一判断上一时间周期每种兴趣主题对应的预测用户活跃度评分和上一时间周期每种兴趣主题对应的用户活跃度评分的误差是否大于预设活跃度误差，若某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差，假定该种兴趣主题的编号为，则输出“编号为/>的兴趣主题预测活跃度误差过大”告警提示，需要解释的是，当误差大于预设活跃度误差时，表明该兴趣主题出现了热点事件或日志数据获取异常，此时无法通过对应兴趣主题的用户活跃度评分模型对用户活跃度评分进行预测；

若该种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差不大于预设活跃度误差，则建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合，随机在模拟正面热度值集合和模拟负面热度值集合内各选取一个元素和本时间周期对应的时序编号送入该种兴趣主题对应的用户活跃度评分模型，假定模拟正面热度值集合内共有个模拟正面热度值，模拟负面热度值集合内共有/>个模拟负面热度值，对这/>个模拟正面热度值进行编号，编号为1至/>，对这/>个模拟负面热度值进行编号，编号为1至/>，选取/>送入该种兴趣主题对应的用户活跃度评分模型中，得到时序编号为/>时编号为/>的模拟正面热度值/>和编号为/>的模拟负面热度值对应的预测用户活跃度评分/>，其中/>，/>，则预测用户活跃度评分集合为/>；

需要补充的是，在具体实施中，平台运营人员可根据该种兴趣主题对应的最佳模拟正面热度值和最佳模拟负面热度值调整该种兴趣主题对应的正面博文和负面博文的推送策略，具体可将该种兴趣主题对应的最佳模拟正面热度值和最佳模拟负面热度与上一时间周期该种兴趣主题对应的正面热度值和负面热度值进行比较，得到最佳模拟正面热度值与对应的正面热度值的增减值和最佳模拟负面热度值与对应的负面热度值的增减值，设定每种兴趣主题对应的最佳模拟正面热度值与对应的正面热度值的增减值区间对应的正面博文推送方案，负面博文推送方案同理设定，即可实现平台博文自动推送，具体推送过程在此不做赘述。

本方法通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型，以上一个时间周期的正负面博文热度值为基数，根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测，辅助平台人员调整正负面博文的推送策略，提高平台用户的活跃度。

需要补充的是，对平台所有博文的兴趣词条进行分类，将平台所有博文的兴趣词条分为多种兴趣主题的具体方法为：建立每种兴趣主题对应的兴趣词条，通过平台所有博文的兴趣词条即可将平台所有博文分至对应的兴趣主题。

需要补充的是，根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值和负面热度值的具体方法为：

每种兴趣主题内博文热度增值的计算方法为：

获取该时间周期内用户日志数据中对该种兴趣主题内博文的点击操作次数、评论操作次数/>、该博文被用户浏览的总时间/>和分享操作次数/>，将上述数据代入，即可得到该时间周期内该博文的热度增值/>，其中/>为点击操作次数/>对应的热度增值权重，/>为评论操作次数/>对应的热度增值权重，/>为分享操作次数/>对应的热度增值权重，/>为该博文被用户浏览的总时间/>与点击操作次数比值对应的热度增值权重，/>、/>、/>和/>均可根据具体实施平台人为设定。

需要补充的是，根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分的具体方法为：

获取该时间周期内每种兴趣主题对应的用户日志数据，获取该时间周期内每种兴趣主题对应的用户日志数据内点击过该种兴趣主题对应博文的用户IP数量、博文平均浏览时长大于预设时长的用户IP数量/>和发帖的用户IP数量/>，将上述数据代入公式，得到该种兴趣主题对应的用户活跃度评分/>，其中/>为一个时间周期内点击过该种兴趣主题对应博文的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数，/>为博文平均浏览时长大于预设时长的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数，/>为发帖的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数，/>、/>和均根据具体社交平台的用户活跃度人为设定。

需要补充的是，根据每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型具体方法为：

需要补充的是，建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合的具体方法为：

实施例2

参见图1，一种日志数据分析系统，包括有：

兴趣主题分类模块，用于对平台内博文进行兴趣主题分类；

日志数据获取模块，用于获取平台历史用户日志数据；

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本申请所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。

Claims

1.一种日志数据分析方法，其特征在于，具体实现步骤如下：

将上一时间周期每种兴趣主题对应的预测用户活跃度评分与上一时间周期每种兴趣主题对应的用户活跃度评分进行对比，逐一判断上一时间周期每种兴趣主题对应的预测用户活跃度评分和上一时间周期每种兴趣主题对应的用户活跃度评分的误差是否大于预设活跃度误差，若某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差，假定该种兴趣主题的编号为i，则输出“编号为i的兴趣主题预测活跃度误差过大”告警提示；若该种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差不大于预设活跃度误差，则建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合，根据该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合和该种兴趣主题对应的用户活跃度评分模型获取最佳模拟正面热度值和最佳模拟负面热度值。

2.如权利要求1所述的一种日志数据分析方法，其特征在于，对平台所有博文的兴趣词条进行分类，将平台所有博文的兴趣词条分为多种兴趣主题的具体方法为：建立每种兴趣主题对应的兴趣词条，通过平台所有博文的兴趣词条即可将平台所有博文分至对应的兴趣主题。

3.如权利要求2所述的一种日志数据分析方法，其特征在于，根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值和负面热度值的具体方法为：

每种兴趣主题内博文热度增值的计算方法为：

4.如权利要求3所述的一种日志数据分析方法，其特征在于，根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分的具体方法为：

5.如权利要求4所述的一种日志数据分析方法，其特征在于，根据每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型具体方法为：

6.如权利要求5所述的一种日志数据分析方法，其特征在于，建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合的具体方法为：

7.如权利要求6所述的一种日志数据分析方法，其特征在于，最佳模拟正面热度值和最佳模拟负面热度值的获取方法为：

随机在模拟正面热度值集合和模拟负面热度值集合内各选取一个元素和本时间周期对应的时序编号送入该种兴趣主题对应的用户活跃度评分模型，假定模拟正面热度值集合内共有个模拟正面热度值，模拟负面热度值集合内共有/>个模拟负面热度值，对这/>个模拟正面热度值进行编号，编号为1至/>，对这/>个模拟负面热度值进行编号，编号为1至/>，选取/>送入该种兴趣主题对应的用户活跃度评分模型中，得到时序编号为/>时编号为/>的模拟正面热度值/>和编号为/>的模拟负面热度值/>对应的预测用户活跃度评分，其中/>，/>，则预测用户活跃度评分集合为；

8.一种日志数据分析系统，所述系统应用于上述权利要求1-7任一项所述的一种日志数据分析方法，其特征在于，包括有：

兴趣主题分类模块，用于对平台内博文进行兴趣主题分类；

日志数据获取模块，用于获取平台历史用户日志数据；