CN117635190A - 一种日志数据分析方法及系统 - Google Patents
一种日志数据分析方法及系统 Download PDFInfo
- Publication number
- CN117635190A CN117635190A CN202311593240.2A CN202311593240A CN117635190A CN 117635190 A CN117635190 A CN 117635190A CN 202311593240 A CN202311593240 A CN 202311593240A CN 117635190 A CN117635190 A CN 117635190A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- positive
- time period
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000007405 data analysis Methods 0.000 title claims abstract description 16
- 238000004088 simulation Methods 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000005856 abnormality Effects 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 36
- 230000003247 decreasing effect Effects 0.000 claims description 24
- 230000008451 emotion Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种日志数据分析方法及系统。一种日志数据分析系统,包括:兴趣主题分类模块、日志数据获取模块、正负面热度值计算模块、用户活跃度评分模块、正负面热度值模拟模块、用户活跃度评分预测模块、误差异常告警模块和最佳模拟正负面热度值输出模块。本申请通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型,以上一个时间周期的正负面博文热度值为基数,根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测,辅助平台人员调整正负面博文的推送策略,提高平台用户的活跃度。
Description
技术领域
本申请涉及数据处理领域,特别地涉及一种日志数据分析方法及系统。
背景技术
日志数据是IT系统产生的过程性事件记录数据;通过分析平台内用户的日志数据能够了解具体用户在具体时间、具体设备或系统上进行的操作;而社交网络平台的用户日志数据能够反应用户在平台上的登录、点击、浏览、评论、分享等操作。
一个社交网络平台是否能够长久的运营下去,关键在于该社交网络平台用户是否持续活跃,因此如何提升社交网络平台用户的活跃度是每个平台运营者面临的共同难题。
发明内容
针对上述问题,本申请提供一种日志数据分析方法及系统,通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型,以上一个时间周期的正负面博文热度值为基数,根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测,辅助平台人员调整正负面博文的推送策略,提高平台用户的活跃度。
一种日志数据分析方法,步骤如下:
获取平台历史用户日志数据,获取平台所有博文的兴趣词条,对平台所有博文的兴趣词条进行分类,将平台所有博文的兴趣词条分为多种兴趣主题,对每种兴趣主题进行编号,得到兴趣主题编号;
根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分;
将根据时间先后顺序对每个时间周期进行编号,得到每个时间周期的时序编号;
根据每种兴趣主题对应的正面热度值、负面热度值、每个时间周期的时序编号和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型;
获取上一时间周期的用户日志数据,并根据上一时间周期的用户日志数据获取上一时间周期每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分;
将上一时间周期每种兴趣主题对应的时序编号、正面热度值和负面热度值送入对应兴趣主题的用户活跃度评分模型,得到上一时间周期每种兴趣主题对应的预测用户活跃度评分;
将上一时间周期每种兴趣主题对应的预测用户活跃度评分与上一时间周期每种兴趣主题对应的用户活跃度评分进行对比,逐一判断上一时间周期每种兴趣主题对应的预测用户活跃度评分和上一时间周期每种兴趣主题对应的用户活跃度评分的误差是否大于预设活跃度误差,若某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差,假定该种兴趣主题的编号为,则输出“编号为/>的兴趣主题预测活跃度误差过大”告警提示;若该种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差不大于预设活跃度误差,则建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合,随机在模拟正面热度值集合和模拟负面热度值集合内各选取一个元素和本时间周期对应的时序编号送入该种兴趣主题对应的用户活跃度评分模型,假定模拟正面热度值集合内共有/>个模拟正面热度值,模拟负面热度值集合内共有/>个模拟负面热度值,对这/>个模拟正面热度值进行编号,编号为1至/>,对这/>个模拟负面热度值进行编号,编号为1至/>,选取送入该种兴趣主题对应的用户活跃度评分模型中,得到时序编号为/>时编号为/>的模拟正面热度值/>和编号为/>的模拟负面热度值/>对应的预测用户活跃度评分,其中/>,/>,则预测用户活跃度评分集合为;
获取对应的模拟正面热度值和模拟负面热度值,得到最佳模拟正面热度值和最佳模拟负面热度值。
优选地,对平台所有博文的兴趣词条进行分类,将平台所有博文的兴趣词条分为多种兴趣主题的具体方法为:建立每种兴趣主题对应的兴趣词条,通过平台所有博文的兴趣词条即可将平台所有博文分至对应的兴趣主题。
优选地,根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正负面热度值的具体方法为:
设定时间周期标准博文热度增值下限,获取每个时间周期的每种兴趣主题内博文热度增值大于时间周期标准博文热度增值下限的博文,得到需判断正负面的博文;
获取需判断正负面的博文的文字内容,通过设置正负面主题词典,将需判断正负面的博文的文字内容送入自然语言模型进行正负面情感分类,确定博文的正负面性;
每种兴趣主题内所有正面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的正面热度值;每种兴趣主题内所有负面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的负面热度值;
每种兴趣主题内博文热度增值的计算方法为:
获取该时间周期内用户日志数据中对该种兴趣主题内博文的点击操作次数、评论操作次数/>、该博文被用户浏览的总时间/>和分享操作次数/>,将上述数据代入,即可得到该时间周期内该博文的热度增值/>,其中/>为点击操作次数/>对应的热度增值权重,/>为评论操作次数/>对应的热度增值权重,/>为分享操作次数/>对应的热度增值权重,/>为该博文被用户浏览的总时间/>与点击操作次数比值对应的热度增值权重。
优选地,根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分的具体方法为:
获取该时间周期内每种兴趣主题对应的用户日志数据,获取该时间周期内每种兴趣主题对应的用户日志数据内点击过该种兴趣主题对应博文的用户IP数量、博文平均浏览时长大于预设时长的用户IP数量/>和发帖的用户IP数量/>,将上述数据代入公式,得到该种兴趣主题对应的用户活跃度评分/>,其中/>为一个时间周期内点击过该种兴趣主题对应博文的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>为博文平均浏览时长大于预设时长的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>为发帖的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数。
优选地,根据每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型具体方法为:
将该种兴趣主题每一时间周期的正面热度值、负面热度值和其时间周期对应的时序编号作为输入值,将用户活跃度评分作为目标值送入神经网络模型中进行训练,得到训练好的用户活跃度评分模型。
优选地,建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合的具体方法为:
设定正面热度值模拟增减范围、负面热度值模拟增减范围和最小模拟增减热度值,以上一时间周期该种兴趣主题对应的正面热度值和负面热度值为基数,将上一时间周期该种兴趣主题对应的正面热度值在正面热度值模拟增减范围进行增减,增减的热度值为最小模拟增减热度值的倍数,即可得到多个模拟正面热度值,建立模拟正面热度值集合,将多个模拟正面热度值添加进模拟正面热度值集合;同理可得模拟负面热度值集合。
一种日志数据分析系统,所述系统应用于所述的一种日志数据分析方法,包括有:
兴趣主题分类模块,用于对平台内博文进行兴趣主题分类;
日志数据获取模块,用于获取平台历史用户日志数据;
正负面热度值计算模块,用于根据每种兴趣主题和其对应的平台历史用户日志数据计算每个时间周期内每种兴趣主题对应的正面热度值和负面热度值;
用户活跃度评分模块,用于根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分;
正负面热度值模拟模块,用于根据上一时间周期每种兴趣主题对应的正面热度值和负面热度值得到本时间周期的每种兴趣主题对应的模拟正面热度值和模拟负面热度值;
用户活跃度评分预测模块,用于构建每种兴趣主题对应的用户活跃度评分模型,将每种兴趣主题对应的正面热度值和负面热度值送入对应的用户活跃度评分模型即可得到预测用户活跃度评分;
误差异常告警模块,用于当某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差,则输出告警提示;
最佳模拟正负面热度值输出模块,用于根据每种兴趣主题最高的预测用户活跃度评分对应的模拟正面热度值和模拟负面热度值,得到并输出最佳模拟正面热度值和最佳模拟负面热度值。
本申请具有以下优点:
本发明通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型,以上一个时间周期的正负面博文热度值为基数,根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测,辅助平台人员调整正负面博文的推送策略,提高平台用户的活跃度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本申请实施例中提供的一种日志数据分析系统的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请部分实施例进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。然而,本领域的普通技术人员可以理解,在本申请的各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
实施例1
一种日志数据分析方法,适用于对社交媒体平台用户日志数据的分析,一种日志数据分析方法具体包括:
获取平台历史用户日志数据,获取平台所有博文的兴趣词条,对平台所有博文的兴趣词条进行分类,将平台所有博文的兴趣词条分为多种兴趣主题,对每种兴趣主题进行编号,得到兴趣主题编号;在具体实施中平台内的博文可同时选择多个兴趣词条,此时可选择第一个兴趣词条作为该博文兴趣主题分类的参考兴趣词条。
根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分;
将根据时间先后顺序对每个时间周期进行编号,得到每个时间周期的时序编号;
根据每种兴趣主题对应的正面热度值、负面热度值、每个时间周期的时序编号和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型;
需要解释的是,例如“微博”式的社交平台通过用户自带Tag即兴趣词条进行博文发布,不同兴趣词条对应的受众用户不同,正负面热度值对用户活跃度的影响也不同,因此需要对每种兴趣主题均构建对应的用户活跃度评分模型,例如在英文教学兴趣主题中,正面热度值越大即正向英文学习内容越丰富用户活跃度越高,若是在英文教学兴趣主题中,有大量负面博文例如大量用户反对英文学习,会影响比例最多的正常对英文教学兴趣主题感兴趣的用户的使用体验,最终导致该兴趣主题的用户活跃度下降;在另一兴趣主题例如社会热点兴趣主题中,若全是正向博文,用户的讨论度也会下降,部分负面博文会引起用户的讨论,提升用户活跃度。
获取上一时间周期的用户日志数据,并根据上一时间周期的用户日志数据获取上一时间周期每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分;
将上一时间周期每种兴趣主题对应的时序编号、正面热度值和负面热度值送入对应兴趣主题的用户活跃度评分模型,得到上一时间周期每种兴趣主题对应的预测用户活跃度评分;
将上一时间周期每种兴趣主题对应的预测用户活跃度评分与上一时间周期每种兴趣主题对应的用户活跃度评分进行对比,逐一判断上一时间周期每种兴趣主题对应的预测用户活跃度评分和上一时间周期每种兴趣主题对应的用户活跃度评分的误差是否大于预设活跃度误差,若某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差,假定该种兴趣主题的编号为,则输出“编号为/>的兴趣主题预测活跃度误差过大”告警提示,需要解释的是,当误差大于预设活跃度误差时,表明该兴趣主题出现了热点事件或日志数据获取异常,此时无法通过对应兴趣主题的用户活跃度评分模型对用户活跃度评分进行预测;
若该种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差不大于预设活跃度误差,则建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合,随机在模拟正面热度值集合和模拟负面热度值集合内各选取一个元素和本时间周期对应的时序编号送入该种兴趣主题对应的用户活跃度评分模型,假定模拟正面热度值集合内共有个模拟正面热度值,模拟负面热度值集合内共有/>个模拟负面热度值,对这/>个模拟正面热度值进行编号,编号为1至/>,对这/>个模拟负面热度值进行编号,编号为1至/>,选取/>送入该种兴趣主题对应的用户活跃度评分模型中,得到时序编号为/>时编号为/>的模拟正面热度值/>和编号为/>的模拟负面热度值对应的预测用户活跃度评分/>,其中/>,/>,则预测用户活跃度评分集合为/>;
获取对应的模拟正面热度值和模拟负面热度值,得到最佳模拟正面热度值和最佳模拟负面热度值。
需要补充的是,在具体实施中,平台运营人员可根据该种兴趣主题对应的最佳模拟正面热度值和最佳模拟负面热度值调整该种兴趣主题对应的正面博文和负面博文的推送策略,具体可将该种兴趣主题对应的最佳模拟正面热度值和最佳模拟负面热度与上一时间周期该种兴趣主题对应的正面热度值和负面热度值进行比较,得到最佳模拟正面热度值与对应的正面热度值的增减值和最佳模拟负面热度值与对应的负面热度值的增减值,设定每种兴趣主题对应的最佳模拟正面热度值与对应的正面热度值的增减值区间对应的正面博文推送方案,负面博文推送方案同理设定,即可实现平台博文自动推送,具体推送过程在此不做赘述。
本方法通过历史用户日志数据构建平台内以正负面博文热度值为影响因素的用户活跃度评分模型,以上一个时间周期的正负面博文热度值为基数,根据用户活跃度评分模型对本时间周期的用户活跃度进行模拟预测,辅助平台人员调整正负面博文的推送策略,提高平台用户的活跃度。
需要补充的是,对平台所有博文的兴趣词条进行分类,将平台所有博文的兴趣词条分为多种兴趣主题的具体方法为:建立每种兴趣主题对应的兴趣词条,通过平台所有博文的兴趣词条即可将平台所有博文分至对应的兴趣主题。
需要补充的是,根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值和负面热度值的具体方法为:
设定时间周期标准博文热度增值下限,获取每个时间周期的每种兴趣主题内博文热度增值大于时间周期标准博文热度增值下限的博文,得到需判断正负面的博文;
获取需判断正负面的博文的文字内容,通过设置正负面主题词典,将需判断正负面的博文的文字内容送入自然语言模型进行正负面情感分类,确定博文的正负面性;
每种兴趣主题内所有正面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的正面热度值;每种兴趣主题内所有负面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的负面热度值;
每种兴趣主题内博文热度增值的计算方法为:
获取该时间周期内用户日志数据中对该种兴趣主题内博文的点击操作次数、评论操作次数/>、该博文被用户浏览的总时间/>和分享操作次数/>,将上述数据代入,即可得到该时间周期内该博文的热度增值/>,其中/>为点击操作次数/>对应的热度增值权重,/>为评论操作次数/>对应的热度增值权重,/>为分享操作次数/>对应的热度增值权重,/>为该博文被用户浏览的总时间/>与点击操作次数比值对应的热度增值权重,/>、/>、/>和/>均可根据具体实施平台人为设定。
需要补充的是,根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分的具体方法为:
获取该时间周期内每种兴趣主题对应的用户日志数据,获取该时间周期内每种兴趣主题对应的用户日志数据内点击过该种兴趣主题对应博文的用户IP数量、博文平均浏览时长大于预设时长的用户IP数量/>和发帖的用户IP数量/>,将上述数据代入公式,得到该种兴趣主题对应的用户活跃度评分/>,其中/>为一个时间周期内点击过该种兴趣主题对应博文的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>为博文平均浏览时长大于预设时长的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>为发帖的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>、/>和均根据具体社交平台的用户活跃度人为设定。
需要补充的是,根据每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型具体方法为:
将该种兴趣主题每一时间周期的正面热度值、负面热度值和其时间周期对应的时序编号作为输入值,将用户活跃度评分作为目标值送入神经网络模型中进行训练,得到训练好的用户活跃度评分模型。
需要补充的是,建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合的具体方法为:
设定正面热度值模拟增减范围、负面热度值模拟增减范围和最小模拟增减热度值,以上一时间周期该种兴趣主题对应的正面热度值和负面热度值为基数,将上一时间周期该种兴趣主题对应的正面热度值在正面热度值模拟增减范围进行增减,增减的热度值为最小模拟增减热度值的倍数,即可得到多个模拟正面热度值,建立模拟正面热度值集合,将多个模拟正面热度值添加进模拟正面热度值集合;同理可得模拟负面热度值集合。
实施例2
参见图1,一种日志数据分析系统,包括有:
兴趣主题分类模块,用于对平台内博文进行兴趣主题分类;
日志数据获取模块,用于获取平台历史用户日志数据;
正负面热度值计算模块,用于根据每种兴趣主题和其对应的平台历史用户日志数据计算每个时间周期内每种兴趣主题对应的正面热度值和负面热度值;
用户活跃度评分模块,用于根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分;
正负面热度值模拟模块,用于根据上一时间周期每种兴趣主题对应的正面热度值和负面热度值得到本时间周期的每种兴趣主题对应的模拟正面热度值和模拟负面热度值;
用户活跃度评分预测模块,用于构建每种兴趣主题对应的用户活跃度评分模型,将每种兴趣主题对应的正面热度值和负面热度值送入对应的用户活跃度评分模型即可得到预测用户活跃度评分;
误差异常告警模块,用于当某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差,则输出告警提示;
最佳模拟正负面热度值输出模块,用于根据每种兴趣主题最高的预测用户活跃度评分对应的模拟正面热度值和模拟负面热度值,得到并输出最佳模拟正面热度值和最佳模拟负面热度值。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本申请所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。
Claims (8)
1.一种日志数据分析方法,其特征在于,具体实现步骤如下:
获取平台历史用户日志数据,获取平台所有博文的兴趣词条,对平台所有博文的兴趣词条进行分类,将平台所有博文的兴趣词条分为多种兴趣主题,对每种兴趣主题进行编号,得到兴趣主题编号;
根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分;
将根据时间先后顺序对每个时间周期进行编号,得到每个时间周期的时序编号;
根据每种兴趣主题对应的正面热度值、负面热度值、每个时间周期的时序编号和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型;
获取上一时间周期的用户日志数据,并根据上一时间周期的用户日志数据获取上一时间周期每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分;
将上一时间周期每种兴趣主题对应的时序编号、正面热度值和负面热度值送入对应兴趣主题的用户活跃度评分模型,得到上一时间周期每种兴趣主题对应的预测用户活跃度评分;
将上一时间周期每种兴趣主题对应的预测用户活跃度评分与上一时间周期每种兴趣主题对应的用户活跃度评分进行对比,逐一判断上一时间周期每种兴趣主题对应的预测用户活跃度评分和上一时间周期每种兴趣主题对应的用户活跃度评分的误差是否大于预设活跃度误差,若某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差,假定该种兴趣主题的编号为i,则输出“编号为i的兴趣主题预测活跃度误差过大”告警提示;若该种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差不大于预设活跃度误差,则建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合,根据该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合和该种兴趣主题对应的用户活跃度评分模型获取最佳模拟正面热度值和最佳模拟负面热度值。
2.如权利要求1所述的一种日志数据分析方法,其特征在于,对平台所有博文的兴趣词条进行分类,将平台所有博文的兴趣词条分为多种兴趣主题的具体方法为:建立每种兴趣主题对应的兴趣词条,通过平台所有博文的兴趣词条即可将平台所有博文分至对应的兴趣主题。
3.如权利要求2所述的一种日志数据分析方法,其特征在于,根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的正面热度值和负面热度值的具体方法为:
设定时间周期标准博文热度增值下限,获取每个时间周期的每种兴趣主题内博文热度增值大于时间周期标准博文热度增值下限的博文,得到需判断正负面的博文;
获取需判断正负面的博文的文字内容,通过设置正负面主题词典,将需判断正负面的博文的文字内容送入自然语言模型进行正负面情感分类,确定博文的正负面性;
每种兴趣主题内所有正面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的正面热度值;每种兴趣主题内所有负面博文该时间周期的热度增值之和为该时间周期内每种兴趣主题对应的负面热度值;
每种兴趣主题内博文热度增值的计算方法为:
获取该时间周期内用户日志数据中对该种兴趣主题内博文的点击操作次数、评论操作次数/>、该博文被用户浏览的总时间/>和分享操作次数/>,将上述数据代入,即可得到该时间周期内该博文的热度增值/>,其中/>为点击操作次数/>对应的热度增值权重,/>为评论操作次数/>对应的热度增值权重,/>为分享操作次数/>对应的热度增值权重,/>为该博文被用户浏览的总时间/>与点击操作次数比值对应的热度增值权重。
4.如权利要求3所述的一种日志数据分析方法,其特征在于,根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分的具体方法为:
获取该时间周期内每种兴趣主题对应的用户日志数据,获取该时间周期内每种兴趣主题对应的用户日志数据内点击过该种兴趣主题对应博文的用户IP数量、博文平均浏览时长大于预设时长的用户IP数量/>和发帖的用户IP数量/>,将上述数据代入公式,得到该种兴趣主题对应的用户活跃度评分/>,其中/>为一个时间周期内点击过该种兴趣主题对应博文的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>为博文平均浏览时长大于预设时长的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数,/>为发帖的用户IP数量/>对该种兴趣主题对应的用户活跃度评分/>的影响参数。
5.如权利要求4所述的一种日志数据分析方法,其特征在于,根据每种兴趣主题对应的正面热度值、负面热度值和用户活跃度评分构建每种兴趣主题对应的用户活跃度评分模型具体方法为:
将该种兴趣主题每一时间周期的正面热度值、负面热度值和其时间周期对应的时序编号作为输入值,将用户活跃度评分作为目标值送入神经网络模型中进行训练,得到训练好的用户活跃度评分模型。
6.如权利要求5所述的一种日志数据分析方法,其特征在于,建立该种兴趣主题对应的模拟正面热度值集合和模拟负面热度值集合的具体方法为:
设定正面热度值模拟增减范围、负面热度值模拟增减范围和最小模拟增减热度值,以上一时间周期该种兴趣主题对应的正面热度值和负面热度值为基数,将上一时间周期该种兴趣主题对应的正面热度值在正面热度值模拟增减范围进行增减,增减的热度值为最小模拟增减热度值的倍数,即可得到多个模拟正面热度值,建立模拟正面热度值集合,将多个模拟正面热度值添加进模拟正面热度值集合;同理可得模拟负面热度值集合。
7.如权利要求6所述的一种日志数据分析方法,其特征在于,最佳模拟正面热度值和最佳模拟负面热度值的获取方法为:
随机在模拟正面热度值集合和模拟负面热度值集合内各选取一个元素和本时间周期对应的时序编号送入该种兴趣主题对应的用户活跃度评分模型,假定模拟正面热度值集合内共有个模拟正面热度值,模拟负面热度值集合内共有/>个模拟负面热度值,对这/>个模拟正面热度值进行编号,编号为1至/>,对这/>个模拟负面热度值进行编号,编号为1至/>,选取/>送入该种兴趣主题对应的用户活跃度评分模型中,得到时序编号为/>时编号为/>的模拟正面热度值/>和编号为/>的模拟负面热度值/>对应的预测用户活跃度评分,其中/>,/>,则预测用户活跃度评分集合为;
获取对应的模拟正面热度值和模拟负面热度值,得到最佳模拟正面热度值和最佳模拟负面热度值。
8.一种日志数据分析系统,所述系统应用于上述权利要求1-7任一项所述的一种日志数据分析方法,其特征在于,包括有:
兴趣主题分类模块,用于对平台内博文进行兴趣主题分类;
日志数据获取模块,用于获取平台历史用户日志数据;
正负面热度值计算模块,用于根据每种兴趣主题和其对应的平台历史用户日志数据计算每个时间周期内每种兴趣主题对应的正面热度值和负面热度值;
用户活跃度评分模块,用于根据每种兴趣主题和其对应的平台历史用户日志数据得到每个时间周期内每种兴趣主题对应的用户活跃度评分;
正负面热度值模拟模块,用于根据上一时间周期每种兴趣主题对应的正面热度值和负面热度值得到本时间周期的每种兴趣主题对应的模拟正面热度值和模拟负面热度值;
用户活跃度评分预测模块,用于构建每种兴趣主题对应的用户活跃度评分模型,将每种兴趣主题对应的正面热度值和负面热度值送入对应的用户活跃度评分模型即可得到预测用户活跃度评分;
误差异常告警模块,用于当某种兴趣主题对应的预测用户活跃度评分和上一时间周期该种兴趣主题对应的用户活跃度评分的误差大于预设活跃度误差,则输出告警提示;
最佳模拟正负面热度值输出模块,用于根据每种兴趣主题最高的预测用户活跃度评分对应的模拟正面热度值和模拟负面热度值,得到并输出最佳模拟正面热度值和最佳模拟负面热度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311593240.2A CN117635190B (zh) | 2023-11-27 | 2023-11-27 | 一种日志数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311593240.2A CN117635190B (zh) | 2023-11-27 | 2023-11-27 | 一种日志数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117635190A true CN117635190A (zh) | 2024-03-01 |
CN117635190B CN117635190B (zh) | 2024-05-14 |
Family
ID=90034957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311593240.2A Active CN117635190B (zh) | 2023-11-27 | 2023-11-27 | 一种日志数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635190B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2211282A2 (en) * | 2009-01-27 | 2010-07-28 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US20110218946A1 (en) * | 2010-03-03 | 2011-09-08 | Microsoft Corporation | Presenting content items using topical relevance and trending popularity |
US20150006634A1 (en) * | 2013-06-26 | 2015-01-01 | International Business Machines Corporation | Monitoring interesting subjects |
CN106776959A (zh) * | 2016-12-05 | 2017-05-31 | 东北大学 | 一种基于线上线下双重社交关系的活动推荐系统及方法 |
CN107967260A (zh) * | 2017-12-07 | 2018-04-27 | 东软集团股份有限公司 | 一种数据处理方法、设备、系统及计算机程序产品 |
CN110134788A (zh) * | 2019-05-16 | 2019-08-16 | 杭州师范大学 | 一种基于文本挖掘的微博发布优化方法及系统 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
WO2021073271A1 (zh) * | 2019-10-17 | 2021-04-22 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
CN112883725A (zh) * | 2020-12-29 | 2021-06-01 | 上海讯飞瑞元信息技术有限公司 | 一种文案生成方法、装置、电子设备、存储介质 |
CN112905800A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 |
CN113268976A (zh) * | 2021-02-20 | 2021-08-17 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
CN114463052A (zh) * | 2022-01-12 | 2022-05-10 | 车智互联(北京)科技有限公司 | 用户关注指数生成方法、装置、设备及存储介质 |
WO2022233157A1 (zh) * | 2021-05-07 | 2022-11-10 | 北京达佳互联信息技术有限公司 | 基于音乐社交应用的信息处理方法及相关装置 |
CN115712772A (zh) * | 2022-11-18 | 2023-02-24 | 重庆邮电大学 | 一种基于话题关联的话题传播预测方法 |
US20230245144A1 (en) * | 2022-02-01 | 2023-08-03 | Nichefire, Inc. | System for identifying and predicting trends |
CN116881535A (zh) * | 2023-07-11 | 2023-10-13 | 广州城建职业学院 | 一种及时预警的舆情综合监管系统 |
-
2023
- 2023-11-27 CN CN202311593240.2A patent/CN117635190B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2211282A2 (en) * | 2009-01-27 | 2010-07-28 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US20110218946A1 (en) * | 2010-03-03 | 2011-09-08 | Microsoft Corporation | Presenting content items using topical relevance and trending popularity |
US20150006634A1 (en) * | 2013-06-26 | 2015-01-01 | International Business Machines Corporation | Monitoring interesting subjects |
CN106776959A (zh) * | 2016-12-05 | 2017-05-31 | 东北大学 | 一种基于线上线下双重社交关系的活动推荐系统及方法 |
CN107967260A (zh) * | 2017-12-07 | 2018-04-27 | 东软集团股份有限公司 | 一种数据处理方法、设备、系统及计算机程序产品 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110134788A (zh) * | 2019-05-16 | 2019-08-16 | 杭州师范大学 | 一种基于文本挖掘的微博发布优化方法及系统 |
WO2021073271A1 (zh) * | 2019-10-17 | 2021-04-22 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
CN112883725A (zh) * | 2020-12-29 | 2021-06-01 | 上海讯飞瑞元信息技术有限公司 | 一种文案生成方法、装置、电子设备、存储介质 |
CN112905800A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 |
CN113268976A (zh) * | 2021-02-20 | 2021-08-17 | 北京交通大学 | 一种面向微博的话题影响力评估方法 |
WO2022233157A1 (zh) * | 2021-05-07 | 2022-11-10 | 北京达佳互联信息技术有限公司 | 基于音乐社交应用的信息处理方法及相关装置 |
CN114463052A (zh) * | 2022-01-12 | 2022-05-10 | 车智互联(北京)科技有限公司 | 用户关注指数生成方法、装置、设备及存储介质 |
US20230245144A1 (en) * | 2022-02-01 | 2023-08-03 | Nichefire, Inc. | System for identifying and predicting trends |
CN115712772A (zh) * | 2022-11-18 | 2023-02-24 | 重庆邮电大学 | 一种基于话题关联的话题传播预测方法 |
CN116881535A (zh) * | 2023-07-11 | 2023-10-13 | 广州城建职业学院 | 一种及时预警的舆情综合监管系统 |
Non-Patent Citations (2)
Title |
---|
王颢霖, 《中国优秀硕士学位论文全文数据库 信息科技辑》微博热点话题分析预测系统, no. 9, 15 September 2019 (2019-09-15) * |
禅与计算机程序设计艺术, 《百度文库》基于机器学习的用户兴趣预测与推荐研究, 1 October 2023 (2023-10-01) * |
Also Published As
Publication number | Publication date |
---|---|
CN117635190B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
Hu et al. | Social spammer detection with sentiment information | |
Pendar | Toward spotting the pedophile telling victim from predator in text chats | |
CN104537097B (zh) | 微博舆情监测系统 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
KR102032091B1 (ko) | 인공지능 기반의 댓글 감성 분석 방법 및 그 시스템 | |
US20100174813A1 (en) | Method and apparatus for the monitoring of relationships between two parties | |
CN107229689B (zh) | 一种微博舆情风险研判的方法 | |
Sanborn et al. | Deep learning for semantic similarity | |
Pilehvar et al. | Card-660: Cambridge rare word dataset-a reliable benchmark for infrequent word representation models | |
CN104471568A (zh) | 对自然语言问题的基于学习的处理 | |
CN108319587B (zh) | 一种多权重的舆情价值计算方法及系统、计算机 | |
CN111309864B (zh) | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 | |
US20220036011A1 (en) | Systems and Methods for Explainable Fake News Detection | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
CN110909230A (zh) | 一种网络热点分析方法及系统 | |
Vaidhya et al. | Personality traits analysis from Facebook data | |
CN111191096B (zh) | 全网爱国舆情事件识别及流行度跟踪方法 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
Granskogen | Automatic detection of fake news in social media using contextual information | |
CN117635190B (zh) | 一种日志数据分析方法及系统 | |
CN111767404A (zh) | 一种事件挖掘方法和装置 | |
Peng et al. | Public opinion analysis strategy of short video content review in big data environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |