CN111752734A - 异常数据的分类方法、分析方法、装置及存储介质 - Google Patents

异常数据的分类方法、分析方法、装置及存储介质 Download PDF

Info

Publication number
CN111752734A
CN111752734A CN202010426953.XA CN202010426953A CN111752734A CN 111752734 A CN111752734 A CN 111752734A CN 202010426953 A CN202010426953 A CN 202010426953A CN 111752734 A CN111752734 A CN 111752734A
Authority
CN
China
Prior art keywords
abnormal data
fingerprint
fingerprints
similar
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010426953.XA
Other languages
English (en)
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN202010426953.XA priority Critical patent/CN111752734A/zh
Publication of CN111752734A publication Critical patent/CN111752734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异常数据的分类方法,包括:获取异常数据,并对所述异常数据进行过滤处理;根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹;判断指纹库中是否存在所述指纹的相似指纹;响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别;响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。本发明实施例还提供了一种异常数据的分析方法,解决现有技术堆栈聚合率低,问题无法很好地进行归类,进而处理问题效率低下的问题。

Description

异常数据的分类方法、分析方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种异常数据的分类方法、分析方法、装置及存储介质。
背景技术
目前,客户端应用会由于某些原因出现崩溃,分析崩溃堆栈就成为了解决崩溃问题的最有效的途径之一。为了减少崩溃问题的种类,增加处理问题的效率,往往需要对堆栈进行聚合。由于原生的崩溃堆栈包含大量干扰项,所以一般聚合之前都会先对原堆栈进行过滤,过滤出包含关键信息的部分,然后再将过滤结果一样的堆栈进行聚合。
这种按照相等进行聚合的规则局限性很大,因为即便是同一类问题,如果过滤后的内容出现一个字符串差异,都会导致无法聚合。其次这种规则无法兼容新旧功能导致的堆栈变化,即使是同一类问题,如果是因为新功能导致堆栈发生变动,过滤后的堆栈也会不一致。
因此,两个堆栈要能成功聚合,过滤必须要将干扰项都完全过滤,这种情况下过滤算法必须和引擎同时进行版本迭代,维护成本较高。并且对于新功能使得原堆栈客观上发生了改变但实质上是同一类崩溃问题,只能归类为新增问题,使得新增问题种类数剧增,从而问题无法很好地进行归类,进而处理问题效率低下。
发明内容
本发明实施例提供一种异常数据的分类方法、分析方法、装置及存储介质,能有效解决现有技术堆栈聚合率低,问题无法很好地进行归类,进而处理问题效率低下的问题。
本发明一实施例提供一种异常数据的分类方法,包括:
获取异常数据,并对所述异常数据进行过滤处理;
根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹;
判断指纹库中是否存在所述指纹的相似指纹;
响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别;
响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。
作为上述方案的改进,所述获取异常数据,并对所述异常数据进行过滤处理,之前还包括:
获取历史异常数据,并计算每一个历史异常数据的指纹;
将每一个历史异常数据的指纹对应生成一个问题类别,并保存至所述指纹库。
作为上述方案的改进,在所述计算每一个历史异常数据的指纹之后,所述将每一个历史异常数据的指纹对应生成一个问题类别,并保存至所述指纹库之前,还包括:
计算所述历史异常数据的md5值;
将所述历史异常数据的指纹以及所述md5值结合,并以map结构存储。
作为上述方案的改进,所述判断指纹库中是否存在所述指纹的相似指纹,具体包括:
判断所述指纹库中是否存在与所述指纹的汉明距离小于预设标准值的相似指纹。
本发明另一实施例提供了一种异常数据的分类装置,包括:
第一获取模块,用于获取异常数据,并对所述异常数据进行过滤处理;
第一计算模块,用于根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹;
判断模块,用于判断指纹库中是否存在所述指纹的相似指纹;
第一响应模块,用于响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别;
第二响应模块,用于响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的异常数据的分类方法。
本发明实施例提供了一种异常数据的分类方法、装置及存储介质,通过采用预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹,再与指纹库中的指纹进行比对,查找是否有相似指纹,由此可见,增加了相似度聚合之后,可以避免聚合过程中对于过滤处理的依赖,而且可以兼容新旧版本引起的堆栈变化,提高了堆栈的聚合率,使得问题可以很好地进行归类,从而提高处理问题的效率。
本发明另一实施例提供了一种异常数据的分析方法,包括:
获取指纹库中的异常数据及至少一个预设的客户端个性指标;
根据所述异常数据计算得到异常数据占比;
按照预设的指标分数算法对至少一个预设的客户端个性指标进行计算,得到对应的指标分数;
根据所述指标分数结合所述异常数据占比,以对当前游戏质量进行分析。
作为上述方案的改进,所述根据所述异常数据计算得到异常数据占比,具体包括:
根据每条异常数据确定对应的客户端型号,并对所述客户端型号进行分类;
根据所述客户端型号获取对应的活跃用户人数;
根据所述异常数据的数量、每个所述客户端型号的数量及活跃用户人数分别计算总异常占比及各个客户端型号的异常占比。
本发明另一实施例提供了一种异常数据的分析装置,包括:
第二获取模块,用于获取指纹库中的异常数据及至少一个预设的客户端个性指标;
第二计算模块,用于根据所述异常数据计算得到异常数据占比;
第三计算模块,用于按照预设的指标分数算法对至少一个预设的客户端个性指标进行计算,得到对应的指标分数;
处理模块,用于根据所述指标分数结合所述异常数据占比,以对当前游戏质量进行分析。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的异常数据的分析方法。
本发明实施例提供了一种异常数据的分析方法、装置及存储介质,通过获取指纹库中的异常数据及预设的客户端个性指标;根据所述异常数据计算得到异常数据占比;按照预设的指标分数算法对预设的客户端个性指标均值进行计算,得到对应的指标分数;根据所述指标分数计算得到综合分数,进而根据综合分数以及异常数据占比,更加真实的反映不同客户端的游戏质量情况,从而对当前游戏质量进行分析,而且还可以对比不同客户端之间的游戏质量,提高处理问题的效率。
附图说明
图1是本发明一实施例提供的一种异常数据的分类方法的流程示意图;
图2是本发明一实施例提供的相似哈希算法的流程示意图;
图3是本发明一实施例提供的一种异常数据的分析方法的流程示意图;
图4是本发明一实施例提供的一种异常数据的分类装置的结构示意图;
图5是本发明一实施例提供的一种异常数据的分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种异常数据的分类方法的流程示意图。
本发明一实施例提供一种异常数据的分类方法,包括:
S10,获取异常数据,并对所述异常数据进行过滤处理。
需要说明的是,在本实施例中,异常数据由客户端上传,可以理解的是,客户端有不同的型号,如安卓客户端、苹果客户端等。
具体地,客户端上传的堆栈包含大量的干扰项,如指针地址,代码行行号等。因此,获取堆栈之后需要先对堆栈根据过滤算法进行过滤,以过滤掉干扰项。
S20,根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹。
其中,参见图2,预设的相似哈希算法包括:将过滤后的异常数据分为若干词项,并所述词项进行词频统计;将每个所述词项根据哈希算法进行映射,得到对应的二进制数组向量;将所述二进制数组向量的0修改为-1,并与对应的词频相乘,得到计算后的二进制数组向量;再将每个计算后的二进制数组向量相加,并将证书项修改为1,负数项修改为0,以得到所述异常数据对应的指纹。
由于哈希算法有可能存在碰撞概率,即不同的两个文本生成的指纹有可能是一样的,而碰撞的概率客观上是跟指纹的长度有关,指纹越长,碰撞概率越低。指纹的长度的选取可以依据系统数据的量级决定,32位、64位、128位。指纹长的优点是碰撞概率低,缺点是计算速度要更慢,所需存储空间也更大。因此,在崩溃堆栈聚合的场景,通常选择32位长度的指纹。
S30,判断指纹库中是否存在所述指纹的相似指纹。
优选地,所述判断指纹库中是否存在所述指纹的相似指纹,具体包括:
判断所述指纹库中是否存在与所述指纹的汉明距离小于预设标准值的相似指纹。
在本实施例中,预设标准值设定为3到5,距离标准值越小表示对相似度要求越高,可以根据需要进行设置,在此不做限定。可以理解的是,汉明距离越小,则堆栈的相似度越高,则可以认为该堆栈的问题与指纹库中的某一类指纹是属于同一问题类别,从而提高了问题聚合率。
S40,响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别。
具体地,在指纹库中找到相似指纹时,则归类为同一问题类别,由此可见,避免了新旧版本引起的堆栈变化,提高了堆栈的聚合率,使得问题可以很好地进行归类,
S50,响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。
具体地,当指纹库中不存在相似指纹时,说明当前指纹是一个新的问题类别,因此将其标记为新的问题类别,并保存在指纹库中。
综上所述,通过采用预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹,再与指纹库中的指纹进行比对,查找是否有相似指纹,由此可见,增加了相似度聚合之后,可以避免聚合过程中对于过滤处理的依赖,而且可以兼容新旧版本引起的堆栈变化,提高了堆栈的聚合率,使得问题可以很好地进行归类,从而提高处理问题的效率。
作为上述方案的改进,所述获取异常数据,并对所述异常数据进行过滤处理,之前还包括:
获取历史异常数据,并计算每一个历史异常数据的指纹。
具体地,根据相似哈希算法计算过滤后的堆栈,得到历史异常数据的指纹。
将每一个历史异常数据的指纹对应生成一个问题类别,并保存至所述指纹库。
具体地,每一类问题对应一个指纹,保存至指纹库,便于与新的指纹进行对比,使得问题的归类更加准确。
需要说明的是,在本发明中不考虑历史异常数据的影响,也可以直接对异常数据进行问题分类。
作为上述方案的改进,在所述计算每一个历史异常数据的指纹之后,所述将每一个历史异常数据的指纹对应生成一个问题类别,并保存至所述指纹库之前,还包括:
计算所述历史异常数据的md5值。
将所述历史异常数据的指纹以及所述md5值结合,并以map结构存储。
具体地,计算过滤后堆栈的md5值,形成一对K-V(key是指纹,value是过滤后堆栈的md5值),然后使用map结构对计算进行存储。其中,value保存的是过滤堆栈的md5值,而不是过滤堆栈的全文是为了减少空间占用,因此这块map 结构需要加载进内存。
参见图3,是本发明一实施例提供的一种异常数据的分析方法的流程示意图。
本发明另一实施例提供了一种异常数据的分析方法,包括:
S100,获取指纹库中的异常数据及至少一个预设的客户端个性指标;
其中,客户端个性指标包括:平均帧率、CPU均值、每秒平均流量、PSS内存均值、电池温度、平均耗电量等。在本实施例中上述个性指标均根据bugly收集数据统计获得。
S101,根据所述异常数据计算得到异常数据占比。
优选地,所述根据所述异常数据计算得到异常数据占比,S101具体包括如下步骤:
S1010,根据每条异常数据确定对应的客户端型号,并对所述客户端型号进行分类。
具体地,由于客户端上报异常数据,因此可以得知客户端的型号,并对客户端的型号进行分类。举例而言,同一问题类型下,安卓型号的客户端反应了10 条异常数据,苹果型号的客户端反应了12条异常数据。
S1011,根据所述客户端型号获取对应的活跃用户人数。
具体地,通过将客户端机型与对应机型活跃人数进行匹配,使得分析结果更加准确。
S1012,根据所述异常数据的数量、每个所述客户端型号的数量及活跃用户人数分别计算总异常占比及各个客户端型号的异常占比。
在本实施例中,总异常占比r=(n/a)*100%;各个客户端型号的异常占比 r1=(m/a)*100%,其中,a为活跃用户人数、n为异常数据的总数量、m为每个客户端型号的异常数据量。
S102,按照预设的指标分数算法对至少一个预设的客户端个性指标进行计算,得到对应的指标分数。
在本实施例中,参见表1、表2,将客户端个性指标均值、阈值及行业参考值输入至预设的指标分数算法,计算各个指标分数。再将各指标分数根据预设的权重进行计算,得到性能指标综合评分。
需要说明的是,阈值表示指标与行业参考值置间差距的阈值,可以理解的是,阈值可以根据实际情况调整。在本实施例中,阈值设置为π。
表1客户端个性指标
指标 单位 变量名
平均帧率 帧/秒 x<sub>1</sub>
CPU均值 百分比 x<sub>2</sub>
每秒平均流量 KB/S x<sub>3</sub>
PSS内存均值 MB x<sub>4</sub>
手机电池温度 x<sub>5</sub>
mAh毫安时 mAh x<sub>6</sub>
平均崩溃率 百分比 x<sub>7</sub>
平均报错率 百分比 x<sub>8</sub>
表2行业参考值
Figure BDA0002499069600000103
其中,预设的指标分数算法包括:
1、正向指标(平均帧率)
Figure BDA0002499069600000101
其中:sign为符号函数,取自变量的符号,例如sign(-9)=-1。x1为平均帧率的个性指标均值,
Figure BDA0002499069600000102
为平均帧率的行业参考值,f(x)即为帧率相对行业参考值得得分,Y1为平均帧率对应的阈值。
2、负向指标(x2,x3,…,x6):
Figure BDA0002499069600000111
其中,i=2,3,4,5,6,可以理解的是,负向指标对应包括CPU均值、每秒平均流量、PSS内存均值、手机电池温度、mAh毫安时,
Figure BDA0002499069600000114
为每个负向指标对应的行业参考值,Yi为每个负向指标对应的阈值,从而计算出各个负向指标的得分。
3、性能指标综合评分(即将正向指标与负向指标相结合)
T=ω1f(x1)+ω2f(x2)+ω3f(x3)+ω4f(x4)+ω5f(x5)+ω6f(x6)
其中,T为性能指标综合评分,平均帧率对应的权重ω1,CPU均值对应的权重ω2,每秒流量消耗对应的权重ω3,PSS内存均值对应的权重ω4,手机电池温度对应的权重ω5,mAh毫安时对应的权重ω6,可以理解的是,权重是可以根据需要进行设定的在此不做限定。
4、崩溃率以及报错率得分:
Figure BDA0002499069600000112
其中,i=7,8,可以理解的是,报错率与崩溃率由根据bugly收集数据统计获得,
Figure BDA0002499069600000113
为崩溃率以及报错率对应的行业参考值。
5、客户端质量总分:W=T×μ1+f(x7)×μ2+f(x8)×μ3
其中,T为性能指标综合评分,μ1为性能指标权重,μ2为崩溃率的权重,μ3为报错率的权重。可以理解的是,权重可以根据实际情况进行分配。
S103,根据所述指标分数结合所述异常数据占比,以对当前游戏质量进行分析。
在本实施例中,根据各个指标分数按照不同的权重进行分配计算得到客户端质量总分,再结合异常数据占比,从而对不同客户端之间的游戏质量进行分析。
本发明实施例公开了一种异常数据的分析方法,通过获取指纹库中的异常数据及预设的客户端个性指标;根据所述异常数据计算得到异常数据占比;按照预设的指标分数算法对预设的客户端个性指标均值进行计算,得到对应的指标分数;根据所述指标分数计算得到综合分数,进而根据综合分数以及异常数据占比,更加真实的反映不同客户端的游戏质量情况,从而对当前游戏质量进行分析,而且还可以对比不同客户端之间的游戏质量,提高处理问题的效率。
参见图4,是本发明一实施例提供的一种异常数据的分类装置的结构示意图。
本发明一实施例提供了一种异常数据的分类装置,包括:
第一获取模块10,用于获取异常数据,并对所述异常数据进行过滤处理;
第一计算模块20,用于根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹;
判断模块30,用于判断指纹库中是否存在所述指纹的相似指纹;
第一响应模块40,用于响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别;
第二响应模块50,用于响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。
本发明一实施例提供了一种异常数据的分类装置,通过采用预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹,再与指纹库中的指纹进行比对,查找是否有相似指纹,由此可见,增加了相似度聚合之后,可以避免聚合过程中对于过滤处理的依赖,而且可以兼容新旧版本引起的堆栈变化,提高了堆栈的聚合率,使得问题可以很好地进行归类,从而提高处理问题的效率。
参见图5,是本发明一实施例提供的一种异常数据的分析装置的结构示意图。
本发明一实施例提供了一种异常数据的分析装置,包括:
第二获取模块100,用于获取指纹库中的异常数据及至少一个预设的客户端个性指标;
第二计算模块101,用于根据所述异常数据计算得到异常数据占比;
第三计算模块102,用于按照预设的指标分数算法对至少一个预设的客户端个性指标进行计算,得到对应的指标分数;
处理模块103,用于根据所述指标分数结合所述异常数据占比,以对当前游戏质量进行分析。
本发明实施例公开了一种异常数据的分析装置,通过获取指纹库中的异常数据及预设的客户端个性指标均值;根据所述异常数据计算得到异常数据占比;按照预设的指标分数算法对所述异常数据占比及预设的客户端个性指标均值进行计算,得到对应的指标分数;根据所述指标分数计算得到综合分数,更加真实的反映客户端的游戏质量情况,从而对当前游戏质量进行分析,而且还可以对比不同客户端之间的游戏质量,提高处理问题的效率。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的异常数据的分类方法。
本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的异常数据的分析方法。
其中,所述异常数据的分类装置或异常数据的分析装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种异常数据的分类方法,其特征在于,包括:
获取异常数据,并对所述异常数据进行过滤处理;
根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹;
判断指纹库中是否存在所述指纹的相似指纹;
响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别;
响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。
2.如权利要求1所述的异常数据的分类方法,其特征在于,所述获取异常数据,并对所述异常数据进行过滤处理,之前还包括:
获取历史异常数据,并计算每一个历史异常数据的指纹;
将每一个历史异常数据的指纹对应生成一个问题类别,并保存至所述指纹库。
3.如权利要求1所述的异常数据的分类方法,其特征在于,在所述计算每一个历史异常数据的指纹之后,所述将每一个历史异常数据的指纹对应生成一个问题类别,并保存至所述指纹库之前,还包括:
计算所述历史异常数据的md5值;
将所述历史异常数据的指纹以及所述md5值结合,并以map结构存储。
4.如权利要求1所述的异常数据的分类方法,其特征在于,所述判断指纹库中是否存在所述指纹的相似指纹,具体包括:
判断所述指纹库中是否存在与所述指纹的汉明距离小于预设标准值的相似指纹。
5.一种异常数据的分析方法,其特征在于,包括:
获取指纹库中的异常数据及至少一个预设的客户端个性指标;
根据所述异常数据计算得到异常数据占比;
按照预设的指标分数算法对至少一个预设的客户端个性指标进行计算,得到对应的指标分数;
根据所述指标分数结合所述异常数据占比,以对当前游戏质量进行分析。
6.如权利要求5所述的异常数据的分析方法,其特征在于,所述根据所述异常数据计算得到异常数据占比,具体包括:
根据每条异常数据确定对应的客户端型号,并对所述客户端型号进行分类;
根据所述客户端型号获取对应的活跃用户人数;
根据所述异常数据的数量、每个所述客户端型号的数量及活跃用户人数分别计算总异常占比及各个客户端型号的异常占比。
7.一种异常数据的分类装置,其特征在于,包括:
第一获取模块,用于获取异常数据,并对所述异常数据进行过滤处理;
第一计算模块,用于根据预设的相似哈希算法对过滤后的异常数据进行计算,得到所述异常数据对应的指纹;
判断模块,用于判断指纹库中是否存在所述指纹的相似指纹;
第一响应模块,用于响应于判断结果为存在所述指纹的相似指纹,则将所述指纹归类为所述相似指纹对应的问题类别;
第二响应模块,用于响应于判断结果为不存在所述指纹的相似指纹,则将所述指纹标记为新的问题类别。
8.一种异常数据的分析装置,其特征在于,包括:
第二获取模块,用于获取指纹库中的异常数据及至少一个预设的客户端个性指标;
第二计算模块,用于根据所述异常数据计算得到异常数据占比;
第三计算模块,用于按照预设的指标分数算法对至少一个预设的客户端个性指标进行计算,得到对应的指标分数;
处理模块,用于根据所述指标分数结合所述异常数据占比,以对当前游戏质量进行分析。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的异常数据的分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求5至6中任意一项所述的异常数据的分析方法。
CN202010426953.XA 2020-05-19 2020-05-19 异常数据的分类方法、分析方法、装置及存储介质 Pending CN111752734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010426953.XA CN111752734A (zh) 2020-05-19 2020-05-19 异常数据的分类方法、分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010426953.XA CN111752734A (zh) 2020-05-19 2020-05-19 异常数据的分类方法、分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111752734A true CN111752734A (zh) 2020-10-09

Family

ID=72673474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010426953.XA Pending CN111752734A (zh) 2020-05-19 2020-05-19 异常数据的分类方法、分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111752734A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11675648B2 (en) * 2021-04-27 2023-06-13 Microsoft Technology Licensing, Llc Automatic triaging of diagnostics failures
CN116962523A (zh) * 2023-09-21 2023-10-27 深圳依时货拉拉科技有限公司 一种数据上传方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11675648B2 (en) * 2021-04-27 2023-06-13 Microsoft Technology Licensing, Llc Automatic triaging of diagnostics failures
CN116962523A (zh) * 2023-09-21 2023-10-27 深圳依时货拉拉科技有限公司 一种数据上传方法、装置、计算机设备及存储介质
CN116962523B (zh) * 2023-09-21 2023-12-08 深圳依时货拉拉科技有限公司 一种数据上传方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
US7711735B2 (en) User segment suggestion for online advertising
US20170329804A1 (en) Method And Apparatus Of Generating Image Characteristic Representation Of Query, And Image Search Method And Apparatus
US8849798B2 (en) Sampling analysis of search queries
CN105354251B (zh) 电力系统中基于Hadoop的电力云数据管理索引方法
Zhou et al. Information fusion for combining visual and textual image retrieval
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN111752734A (zh) 异常数据的分类方法、分析方法、装置及存储介质
CN115795000A (zh) 基于联合相似度算法对比的围标识别方法和装置
CN111460011A (zh) 页面数据展示方法、装置、服务器及存储介质
CN110866249A (zh) 一种动态检测恶意代码的方法、装置及电子设备
CN110245684B (zh) 数据处理方法、电子设备和介质
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN112307133A (zh) 安全防护方法、装置、计算机设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN107622048B (zh) 一种文本模式识别方法及系统
CN111652281B (zh) 信息数据的分类方法、装置及可读存储介质
CN110852078A (zh) 生成标题的方法和装置
CN115018613A (zh) 报告分析方法、装置、设备、存储介质及产品
CN114490667A (zh) 多维度的数据分析方法、装置、电子设备及介质
CN114926082B (zh) 基于人工智能的数据波动预警方法及相关设备
Li Collaborative filtering recommendation algorithm based on cluster

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination