CN112965890A - 一种数据处理方法及相关设备 - Google Patents

一种数据处理方法及相关设备 Download PDF

Info

Publication number
CN112965890A
CN112965890A CN202110259775.0A CN202110259775A CN112965890A CN 112965890 A CN112965890 A CN 112965890A CN 202110259775 A CN202110259775 A CN 202110259775A CN 112965890 A CN112965890 A CN 112965890A
Authority
CN
China
Prior art keywords
instruction
candidate service
target
service
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110259775.0A
Other languages
English (en)
Inventor
周子站
郭东丹
刘晓辉
周凯洋
王晓勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
China Travelsky Holding Co
Original Assignee
China Travelsky Holding Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Holding Co filed Critical China Travelsky Holding Co
Priority to CN202110259775.0A priority Critical patent/CN112965890A/zh
Publication of CN112965890A publication Critical patent/CN112965890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本申请提供了一种数据处理方法及相关设备,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。该方法包括:对原始日志数据进行处理,得到指令操作序列集合;提取所述指令操作序列集合中的最终候选业务集合;根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。

Description

一种数据处理方法及相关设备
技术领域
本申请涉及通信领域,尤其涉及一种数据处理方法及相关设备。
背景技术
互联网企业中,为了完成某项业务,需要多个指令一起来完成,例如一个电商企业想要完成购买业务,可能需要多个指令,例如下单、查询库存、更新数据库等协同完成。企业的日志数据中记录了指令的执行顺序,对系统中的日志数据进行解析,可以得到系统中指令的执行序列。指令序列一定程度上反映了指令间的协作关系。
现在企业想要对系统中的指令进行梳理,根据其业务功能、协作关系,将其分为若干个指令簇。处在同一指令簇中的指令,会经常一起协作完成一些业务。
指令在执行序列上共同出现的情况一定程度上反映了指令间的协作关系,如果将指令序列当做一条文本数据,每个指令看做是一个词,可以使用自然语言处理中的技术将指令嵌入到一个向量,然后对向量进行聚类,从而得到指令簇。或者可以根据指令在序列中的出现情况,建立一张指令协作网络,再在网络上进行社区划分,得到指令簇。但是这些直接以指令序列作为输入的做法存在一个问题:指令的执行序列中含有大量噪声,从而导致最终结果不准确。
发明内容
本申请提供了一种数据处理方法及相关设备,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。
本申请实施例第一方面提供了一种数据处理方法,包括:
对原始日志数据进行处理,得到指令操作序列集合;
提取所述指令操作序列集合中的最终候选业务集合;
根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;
通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。
本申请实施例第二方面提供了一种数据处理装置,包括:
处理单元,用于对原始日志数据进行处理,得到指令操作序列集合;
提取单元,用于提取所述指令操作序列集合中的最终候选业务集合;
确定单元,用于根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;
聚类单元,用于通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。
本申请第三方面提供了一种计算机装置,其包括至少一个连接的处理器和存储器,其中,所述存储器用于存储程序代码,所述程序代码由所述处理器加载并执行以实现上述第一方面所述的数据处理方法的步骤。
本申请实施例第四方面提供了一种机器可读介质,其包括指令,当其在机器上运行时,使得机器执行上述第一方面所述的数据处理方法的步骤。
综上所述,可以看出,本申请提供的实施例中,数据处理方法对于所有的指令操作序列集合,首先通过互信息和信息熵,发现指令操作序列集合中每个指令操作序列的真实的业务,从而减少噪声的影响,并利用对比学习的思路提前构建对比学习模型,并通过该对比学习模型对真实业务中的指令进行嵌入的学习,最终通过聚类算法对嵌入进行聚类得到指令簇。相对于现有的,直接以指令序列作为输入,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。
附图说明
结合附图并参考以下具体实施方式,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本申请实施例提供的数据处理方法的一个流程示意图;
图2为本申请实施例提供的数据处理装置的结构示意图;
图3为本请实施例提供的机器可读介质的结构示意图;
图4为本申请实施例提供的服务器的硬件结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请中使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面从数据处理装置的角度本申请提供的数据处理方法进行说明,该数据处理装置可以为服务器,也可以为服务器中的服务单元,具体不做限定。
请参阅图1,图1为本申请实施例提供的数据处理方法的流程示意图,包括:
101、对原始日志数据进行处理,得到指令操作序列集合。
本实施例中,数据处理装置对原始日志数据进行处理,形成序列数据,业务指令操作序列集合。也就是说,数据处理装置可以根据获取的所有日志文件,得到每个程序标识符UPID对应的指令操作序列,然后对相同UPID的指令操作序列进行合并去重,最终得到指令操作序列集合。具体操作如下:
数据处理装置可以首先提取原始日志数据中程序标识符集合对应的指令操作序列,之后将程序标识符集合中相同的程序标识符对应的指令操作序列进行合并,并剔除合并后相同的程序标识符对应的指令操作序列中的重复指令,得到相同的程序标识符对应目标指令序列集合,最后将目标指令序列集合以及程序标识符集合中不相同的程序标识符对应的指令操作序列确定为指令操作序列集合。也就是说,数据处理装置可以提取获取到的所有日志文件中所有的UPID,将该日志文件中所有的UPID作为一个程序标识符集合,并提取该程序标识符集合对应的指令操作序列,然后对程序标识符集合中相同UPID的指令操作序列进行判断,对于相同UPID来说,若其对应的指令操作序列完全相同,那么将只保留一个UPID对应的指令操作序列,删除其他的与之相同的UPID对应的指令操作序列;若其对应的指令操作序列只有部分相同,那么将相同部分的指令只保留一个,并将其他不同部分的指令与保留的相同部分的指令共同作为该UPID的指令操作序列(例如相同的UPID1包括两个指令操作序列为,其中一个包括A、B、C指令,另外一个包括A、D、E指令,那么对于相同的A指令来说,需要删除一个,只保留一个即可,由此可以得到该UPID1的指令操作序列即为A、B、C、D、E),通过上述的操作可以得到原始日志文件对应的指令操作序列集合。
102、提取指令操作序列集合中的最终候选业务集合。
本实施例中,数据处理装置可以利用业务发现算法提取指令操作序列集合中的最终候选业务集合。其中,该业务发现算法是基于业务紧致度和边缘混乱度的业务发现算法。首先,业务紧致度:是指一个业务中,指令之间紧密集合程度的度量,用互信息来衡量指令构成业务的可能性;边缘混乱度:是指一个字符串的邻接集合中的种类数量;该业务边界字符越复杂,那么该字符串成为边界的可能性就越大,通过使用信息熵来衡量。当候选业务紧致度和边缘混乱度大于阈值时,就认为他们能够构成业务;通过过滤算法,减少业务冗余,在通过回捞算法将业务中未出现的指令回捞到发现业务中,并按照业务频率选择业务。
一个实施例中,数据处理装置提取指令操作序列集合中的最终候选业务集合包括:
确定目标指令操作序列中序列长度不超过第一预设值的候选业务集合,目标指令操作序列为指令操作序列集合中的任意一个指令操作序列;
计算目标候选业务在指令操作序列集合中的候选业务频率,目标候选业务为候选业务集合中的任意一个候选业务;
计算目标候选业务的边缘混乱度;
计算目标候选业务的业务紧致度;
将候选业务集合中候选业务频率满足候选业务频率阈值、边缘混乱度满足边缘混乱度阈值以及业务紧致度满足业务紧致度阈值的候选业务确定初始候选业务集合;
对初始候选业务集合中进行冗余处理,得到冗余处理后的初始候选业务集合;
确定目标指令操作序列满足边缘混乱度阈值以及业务紧致度阈值的备选候选业务集合;
将冗余处理后的初始候选词集合以及备选候选业务集合确定为最终候选业务集合。
本实施例中,数据处理装置可以首先对指令操作序列集合中的各个指令操作序列进行预处理,确定目标指令操作序列中序列长度不超过第一预设值的候选业务集合,目标指令操作序列为指令操作序列集合中的任意一个指令操作序列,也即设置第一预设值m,并将各个指令操作序列按照m切割出多个候选业务,第一预设值m以上的候选业务由于指令过多,内涵的业务意义过于丰富,所以不作为候选业务,只保留各个指令操作序列中序列长度小于第一预设值m的业务;
之后计算目标候选业务在指令操作序列集合中的候选业务频率,目标候选业务为候选业务集合中的任意一个候选业务,也即统计每一个候选业务在指令操作序列集合中的出现的次数;
之后计算目标候选业务的边缘混乱度,边缘混乱度是指一个业务边缘的复杂程度,边缘混乱度越大,该候选业务边缘相邻的指令集合越大,两侧的情况越复杂,那么这个边缘成为业务边缘的可能性就越大。用信息论中的信息墒来衡量业务边缘的可能性,当左右两侧的信息墒越大,代表着该边成为边界的可能性越大。当信息墒越小时,代表着相邻指令集合的混乱程度越小。这些指令集合中的指令很有可能与候选指令组合共同组成某一个业务来实现某种功能。具体的,数据处理装置计算目标候选业务的边缘混乱度包括:
通过如下公式计算目标候选业务的左信息熵:
Figure BDA0002969469040000061
其中,Hl(W)为目标候选业务w的左信息熵,p(wl|w)为目标业务w左侧出现指令wl的条件概率;
通过如下公式计算目标候选业务的右信息熵:
Figure BDA0002969469040000062
其中,Hr(W)为目标候选业务w的右信息熵,p(wr|w)为目标业务w右侧出现指令wr的条件概率;
基于左信息熵以及右信息熵通过如下公式计算目标候选业务的边缘混乱度:
H(W)=min(Hl(w),Hr(w));
其中,H(W)为目标候选业务w的边缘混乱度;
之后计算目标候选业务的内部凝聚度,该业务紧致度是用户表示一个业务中各个指令之间的连接紧密程度,如果业务中各个指令按照同一个排列顺序多次出现,这代表该指令序列之间结合连接紧密,该业务紧致度就越大。互信息通常用来衡量两个信号之间的相互依赖程度,通过衡量一个业务中每相邻指令簇之间的连接程度从而来衡量整个业务的业务紧致度;因为一个业务由若干指令构成。对于由两个指令构成的业务来说,那该业务的指令簇划分方法只有一种,因此业务紧致度可以通过分别计算两个业务的互信息而得到。而对于多个指令(三个及以上)构成的业务,对每两个相邻指令簇计算一个互信息,取其中最小的互信息作为该业务的紧致度,并通过紧致度阈值筛选出算的业务;具体的目标候选业务的业务紧致度具体可以通过如下公式进行计算:
MI(W)=min(MI0(W),...,MIi(W),...,MIlen-1(W));
其中,MI(W)为目标候选业务w的业务紧致度,MIi(W)为目标候选业务w的前i个指令簇和剩余指令簇的连接强度:
通过如下公式计算目标候选业务w的前i个指令簇和剩余指令簇的连接强度:
Figure BDA0002969469040000071
其中,N(W[0:i])为目标候选业务w中第一个指令到第i个指令构成的序列整体在所述目标操作指令序列中出现的次数,N(W[i+1:len])为目标候选业务w中第i+1个指令到最后一个指令构成的序列整体在目标操作指令序列中出现的次数。
数据处理装置在得到候选业务集合中每个候选业务的候选业务频率、边缘混乱度以及业务紧致度之后,可以将候选业务集合中候选业务频率满足候选业务频率阈值、边缘混乱度满足边缘混乱度阈值以及业务紧致度满足业务紧致度阈值的候选业务确定初始候选业务集合;也就是说,在选定业务频率阈值、边缘混乱度阈值以及业务紧致度阈值时,选择合适的阈值成为算法好坏的关键,首先已经计算得到候选业务集合中所有候选业务的业务频率、边缘混乱度和业务紧致度,分别计算业务频率、边缘混乱度和业务紧致度的0.75分数位作为阈值,再截取候选业务中业务频率、边缘混乱度和业务紧致度均大于其对应的阈值的候选业务作为最终业务之一,进而得到初始候选业务集合。
需要说明的是,按照业务频率阈值、边缘混乱度阈值以及业务紧致度阈值过滤后的业务(指令序列),会出现一定的冗余状况,即候选业务的指令序列中会出现重复的指令,对出现重复指令的序列,截取重复指令之前的部分;同时针对多个具有相同公共指令串的候选业务,统计其在不同的UPID号的指令序列中被发现的次数,分别将每一个候选业务的出现次数与具有公共指令串的最短候选业务的发现次数进行对比,如果长候选业务的发现次数与最短候选业务的发现次数的比值小于一个预定的下限阈值,则将长候选业务删除,如果长候选业务的发现次数与最短候选业务的发现次数的比值大于一个预定的上限阈值,则保留该长候选业务,并删除该最短候选业务;经过此过程产生的指令序列可能会包含若干分隔符,根据分隔符的所处位置,将指令序列进行截取,分成若干子序列。
可以理解的是,按照业务频率阈值、边缘混乱度阈值以及业务紧致度阈值过滤后的业务(指令序列)并没有包括所有序列里出现的指令(有一些指令没有出现在被筛选出的指令序列中),对于每个没有被包括的指令,找到在包含该指令的、且同时满足边缘混乱度阈值以及业务紧致度阈值条件的业务,并将该业务加入候选业务的集合,进而得到最终候选业务集合。
需要说明的是,通过从原始日志数据中提取指令操作序列,并进行指令去重后,得到每个UPID对应的指令操作序列S′,即步骤101的输出为{S′=<e1,e2,e3,…,ei,…>},其中,ei表示指令,输出为每个子序列Ssub(业务),即Ssub=<e1,e2,e3,…,ek>。
103、根据对比学习模型确定第一候选业务中每个指令的嵌入向量。
本实施例中,数据处理装置可以提前构造对比学习模型,并根据该提前构造的对比学习模型确定第一候选业务中每个指令的嵌入向量,其中,对比学习模型为对最终候选业务集合以及随机生成的指令短序列进行训练得到的,第一候选业务为最终候选业务集合中的任意一个候选业务,每个指令嵌入向量指示当前指令对象与其他指令对象的相似程度。数据处理装置通过利用对比学习的思想,将指令操作序列集合中发现的业务作为真实存在的业务(也即最终候选业务中的业务最为真实存在的业务),即正例,为其打上标签1;另外随机地构造指令短序列,作为虚假业务,为其打上标签0,数据处理装置通过设计一个二分类模型,用于以自溅镀的方式学习指令的嵌入。下面对对比学习模型的训练流程进行说明:
上述步骤102中得到最终候选业务集合,也即最终候选业务集合中每个业务标记为Si=<e1,e2,e3,…>,i表示最终候选业务集合中候选业务的数量,随机生成指令短序列标记为
Figure BDA0002969469040000091
之后为真实业务打上标签1,也即为Si=<e1,e2,e3,…>打上标签1,为随机生成的指令短序列打上标签0,也即为
Figure BDA0002969469040000092
打上标签0,这样就得到了正例样本(Si,1)和负例样本
Figure BDA0002969469040000093
在进行对比学习模型训练时,首先将业务(真实业务以及虚假业务)中每个指令,通过嵌入层得到每个指令的嵌入,对于每个指令ei,得到它的嵌入hi∈Rd,d为嵌入空间的维度,此时对每个业务可以得到
Figure BDA0002969469040000094
其中,Ni为业务Si的长度;
接下来,对于每个业务,通过Transformer提取整个业务的嵌入标识,首先通过自注意力机制,更新每个指令的嵌入,获得指令在该业务下的嵌入;在更新每个指令的嵌入时,首先对每个指令对,计算出注意力系数,
Figure BDA0002969469040000095
是变换矩阵,将原本在Rd空间的原始嵌入映射到Rd′空间,<a,b>表示两向量的内积。
Figure BDA0002969469040000101
Figure BDA0002969469040000102
接下来对每个嵌入,利用注意力系数的带权和更新得到新的指令嵌入,
Figure BDA0002969469040000103
可以理解的是,为了增加对比学习模型的能力,通过多头机制,公式中的l即标识是在第l个头下的参数,总的头数为L,最终的嵌入时由多个头上的嵌入拼接得到:
Figure BDA0002969469040000104
Figure BDA0002969469040000105
接着通过一个求和池化层,获得能表示整个业务的嵌入
Figure BDA0002969469040000106
Figure BDA0002969469040000107
最终通过全连接网络输出业务为真实业务的概率:
Figure BDA0002969469040000108
通过输出标签与真实标签构造交叉熵作为损失函数,对于真实的业务,yj为1,对于随机生成的业务yj为0,该损失函数为:
Figure BDA0002969469040000109
最终得到对比学习模型,进而可以得到每个指令的嵌入向量,也即对每个指令学到反应其业务协作关系的嵌入。
104、通过聚类算法对第一候选业务中每个指令的嵌入向量进行聚类处理,得到最终候选业务集合对应的指令簇。
本实施例中,数据处理装置在得到第一候选业务中每个指令的嵌入向量之后,可以通过聚类算法对第一候选业务中每个指令的嵌入向量进行聚类处理,得到最终候选业务集合对应的指令簇。数据处理装置通过对比学习模型学习得到每个指令的嵌入hi,该指令的嵌入是d维空间的一个向量,并且该向量可以反映当前指令对象与其他指令对象的相似程度,且有较为相似嵌入的指令对象应该被划分到同一类簇,因此对得到的指令的嵌入向量使用聚类算法k-means,得到指令簇。具体的是采用迭代求解的方式随机选取K个对象最为初始的聚类中心,然后计算每个指令对象与各个聚类中心之间的距离,把每个指令对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的指令对象就代表一个类簇,每分配一个指令对象,类簇的聚类中心就会根据聚类中现有的指令对象被重新计算,之后重复执行上述过程,直至达到满足预置的迭代终止条件,终止条件可以是没有(或最小数目)指令对象被重新分配给不同的簇类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
需要说明的是,数据处理装置通过上述步骤101至步骤104对标注的所有指令簇进行再次求解,得到对应的指令簇;同时对标注的所有指令簇进行遍历得到所有指令对,所有指令对的个数为
Figure BDA0002969469040000111
其中,K为指令簇的个数;通过得到对应的指令簇对指令对中的两个指令进行判断,如果指令对中的两个指令被划分在一个簇中,为其打上标签1,否则打上标签0,最终对所有指令对的标签进行求和,标记为S,表示被划分在同一个簇里的指令对个数,最后可以计算准确度:
Figure BDA0002969469040000121
用准确率的高低来衡量我们算法对指令簇发现的效果,通过实验表明,本申请中指令簇的划分方法相对于现有的指令簇的划分方法准确率更高。
综上所述,可以看出,本申请提供的实施例中,数据处理方法对于所有的指令操作序列集合,首先通过互信息和信息熵,发现指令操作序列集合中每个指令操作序列的真实的业务,从而减少噪声的影响,并利用对比学习的思路提前构建对比学习模型,并通过该对比学习模型对真实业务中的指令进行嵌入的学习,最终通过聚类算法对嵌入进行聚类得到指令簇。相对于现有的,直接以指令序列作为输入,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。
可以理解的是,附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
另外,本申请还可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上面从的数据处理方法的角度对本申请进行说明,下面从数据处理装置的角度对本申请进行说明。
请参阅图2,图2为本申请实施例提供的一种数据处理装置的虚拟结构示意图,该数据处理装置200包括:
处理单元201,用于对原始日志数据进行处理,得到指令操作序列集合;
提取单元202,用于提取所述指令操作序列集合中的最终候选业务集合;
确定单元203,用于根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;
聚类单元204,用于通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。
一种可能的实现方式中,所述处理单元201具体用于:
提取所述原始日志数据中程序标识符集合对应的指令操作序列;
将所述程序标识符集合中相同的程序标识符对应的指令操作序列进行合并;
剔除合并后所述相同的程序标识符对应的指令操作序列中的重复指令,得到所述相同的程序标识符对应的目标指令序列集合;
将所述目标指令序列集合以及所述程序标识符集合中不相同的程序标识符对应的指令操作序列确定为所述指令操作序列集合。
一种可能的实现方式中,所述提取单元202具体用于:
确定目标指令操作序列中序列长度不超过第一预设值的候选业务集合,所述目标指令操作序列为所述指令操作序列集合中的任意一个指令操作序列;
计算目标候选业务在所述指令操作序列集合中的候选业务频率,所述目标候选业务为所述候选业务集合中的任意一个候选业务;
计算所述目标候选业务的边缘混乱度;
计算所述目标候选业务的业务紧致度;
将所述候选业务集合中所述候选业务频率满足候选业务频率阈值、所述边缘混乱度满足边缘混乱度阈值以及所述业务紧致度满足业务紧致度阈值的候选业务确定初始候选业务集合;
对所述初始候选业务集合进行去冗余处理;
确定所述目标指令操作序列满足所述边缘混乱度阈值以及所述业务紧致度阈值的备选候选业务集合;
将去冗余后的所述初始候选词集合以及所述备选候选业务集合确定为所述最终候选业务集合。
一种可能的实现方式中,所述提取单元202计算所述目标候选业务的边缘混乱度包括:
通过如下公式计算所述目标候选业务的左信息熵:
Figure BDA0002969469040000141
其中,Hl(W)为所述目标候选业务w的左信息熵,p(wl|w)为所述目标业务w左侧出现指令wl的条件概率;
通过如下公式计算所述目标候选业务的右信息熵:
Figure BDA0002969469040000151
其中,Hr(W)为所述目标候选业务w的右信息熵,p(wr|w)为所述目标业务w右侧出现指令wr的条件概率;
基于所述左信息熵以及所述右信息熵通过如下公式计算所述目标候选业务的边缘混乱度:
H(W)=min(Hl(w),Hr(w));
其中,H(W)为所述目标候选业务w的边缘混乱度。
一种可能的实现方式中,所述提取单元202计算所述目标候选业务的业务紧致度包括:
通过如下公式计算所述目标候选业务的业务紧致度:
MI(W)=min(MI0(W),...,MIi(W),...,MIlen-1(W));
其中,MI(W)为所述目标候选业务w的业务紧致度,MIi(W)为所述目标候选业务w的前i个指令簇和剩余指令簇的连接强度:
通过如下公式计算所述目标候选业务w的前i个指令簇和剩余指令簇的连接强度:
Figure BDA0002969469040000152
其中,N(W[0:i])为所述目标候选业务w中第一个指令到第i个指令构成的序列整体在所述目标操作指令序列中出现的次数,N(W[i+1:len])为所述目标候选业务w中第i+1个指令到最后一个指令构成的序列整体在所述目标操作指令序列中出现的次数。
一种可能的实现方式中,所述装置还包括:
模型训练单元205,所述模型训练单元205用于:
通过嵌入层得到目标指令的原始嵌入,所述目标指令为所述最终候选业务集合以及随机生成的指令短序列中的任意一个指令;
计算所述目标指令的注意力系数;
将所述目标指令的原始嵌入进行映射处理;
根据所述目标指令的注意力系数的带权以及更新对所述目标指令的初始嵌入进行处理,得到所述目标指令的第一嵌入;
根据所述目标指令的第一嵌入确定第二候选业务的嵌入,所述第二候选业务为所述目标指令对应的候选业务;
确定所述第二候选业务为真实业务的概率;
通过误差反向传播算法、所述第二候选业务为真实业务的概率以及损失函数确定所述对比学习模型。
一种可能的实现方式中,所述聚类单元204具体用于:
随机选取K个指令对象,所述K个指令对象为所述第一候选业务的任意K个指令,所述K个指令对象为初始的聚类中心;
计算所述第一候选业务中的每个指令与所述K个指令对象中每个指令对象之间的距离;
根据所述第一候选业务中的每个指令与所述K个指令对象中每个指令对象之间的距离对所述第一候选业务中的每个指令进行划分;
重复执行上述步骤,直至达到预置的迭代终止条件,得到所述最终候选业务集合对应的指令簇。
综上所述,可以看出,本申请提供的实施例中,数据处理方法对于所有的指令操作序列集合,首先通过互信息和信息熵,发现指令操作序列集合中每个指令操作序列的真实的业务,从而减少噪声的影响,并利用对比学习的思路提前构建对比学习模型,并通过该对比学习模型对真实业务中的指令进行嵌入的学习,最终通过聚类算法对嵌入进行聚类得到指令簇。相对于现有的,直接以指令序列作为输入,可以减少指令执行序列中的大量噪声,提高指令簇划分的准确性。
需要说明的是,描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取目标用户的证件信息的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
请参阅图3,图3为本发明实施例提供的一种机器可读介质的实施例示意图。
如图3所示,本实施例提供了一种机器可读介质300,其上存储有计算机程序311,该计算机程序311被处理器执行时实现上述图1所述数据处理方法的步骤。
需要说明的是,本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本申请上述的机器可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
请参阅图4,图4是本申请实施例提供的一种服务器的硬件结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序440或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由数据处理装置所执行的步骤可以基于该图4所示的服务器结构。
还需要说明的,根据本申请的实施例,上述图1中的流程示意图描述的所述数据处理方法的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行上述图2的流程示意图中所示的方法的程序代码。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
对原始日志数据进行处理,得到指令操作序列集合;
提取所述指令操作序列集合中的最终候选业务集合;
根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;
通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。
2.根据权利要求1所述的方法,其特征在于,所述对原始日志数据进行处理,得到指令序列集合包括:
提取所述原始日志数据中程序标识符集合对应的指令操作序列;
将所述程序标识符集合中相同的程序标识符对应的指令操作序列进行合并;
剔除合并后所述相同的程序标识符对应的指令操作序列中的重复指令,得到所述相同的程序标识符对应的目标指令序列集合;
将所述目标指令序列集合以及所述程序标识符集合中不相同的程序标识符对应的指令操作序列确定为所述指令操作序列集合。
3.根据权利要求1所述的方法,其特征在于,所述提取所述指令操作序列集合中的最终候选业务集合包括:
确定目标指令操作序列中序列长度不超过第一预设值的候选业务集合,所述目标指令操作序列为所述指令操作序列集合中的任意一个指令操作序列;
计算目标候选业务在所述指令操作序列集合中的候选业务频率,所述目标候选业务为所述候选业务集合中的任意一个候选业务;
计算所述目标候选业务的边缘混乱度;
计算所述目标候选业务的业务紧致度;
将所述候选业务集合中所述候选业务频率满足候选业务频率阈值、所述边缘混乱度满足边缘混乱度阈值以及所述业务紧致度满足业务紧致度阈值的候选业务确定初始候选业务集合;
对所述初始候选业务集合进行去冗余处理;
确定所述目标指令操作序列满足所述边缘混乱度阈值以及所述业务紧致度阈值的备选候选业务集合;
将去冗余后的所述初始候选词集合以及所述备选候选业务集合确定为所述最终候选业务集合。
4.根据权利要求3所述的方法,其特征在于,所述计算所述目标候选业务的边缘混乱度包括:
通过如下公式计算所述目标候选业务的左信息熵:
Figure FDA0002969469030000021
其中,Hl(W)为所述目标候选业务w的左信息熵,p(wl|w)为所述目标业务w左侧出现指令wl的条件概率;
通过如下公式计算所述目标候选业务的右信息熵:
Figure FDA0002969469030000022
其中,Hr(W)为所述目标候选业务w的右信息熵,p(wr|w)为所述目标业务w右侧出现指令wr的条件概率;
基于所述左信息熵以及所述右信息熵通过如下公式计算所述目标候选业务的边缘混乱度:
H(W)=min(Hl(w),Hr(w));
其中,H(W)为所述目标候选业务w的边缘混乱度。
5.根据权利要求3所述的方法,其特征在于,所述计算所述目标候选业务的业务紧致度包括:
通过如下公式计算所述目标候选业务的业务紧致度:
MI(W)=min(MI0(W),...,MIi(W),...,MIlen-1(W));
其中,MI(W)为所述目标候选业务w的业务紧致度,MIi(W)为所述目标候选业务w的前i个指令簇和剩余指令簇的连接强度:
通过如下公式计算所述目标候选业务w的前i个指令簇和剩余指令簇的连接强度:
Figure FDA0002969469030000031
其中,N(W[0:i])为所述目标候选业务w中第一个指令到第i个指令构成的序列整体在所述目标操作指令序列中出现的次数,N(W[i+1:len])为所述目标候选业务w中第i+1个指令到最后一个指令构成的序列整体在所述目标操作指令序列中出现的次数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
通过嵌入层得到目标指令的原始嵌入,所述目标指令为所述最终候选业务集合以及随机生成的指令短序列中的任意一个指令;
计算所述目标指令的注意力系数;
将所述目标指令的原始嵌入进行映射处理;
根据所述目标指令的注意力系数的带权以及更新对所述目标指令的初始嵌入进行处理,得到所述目标指令的第一嵌入;
根据所述目标指令的第一嵌入确定第二候选业务的嵌入,所述第二候选业务为所述目标指令对应的候选业务;
确定所述第二候选业务为真实业务的概率;
通过误差反向传播算法、所述第二候选业务为真实业务的概率以及损失函数确定所述对比学习模型。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇包括:
随机选取K个指令对象,所述K个指令对象为所述第一候选业务的任意K个指令,所述K个指令对象为初始的聚类中心;
计算所述第一候选业务中的每个指令与所述K个指令对象中每个指令对象之间的距离;
根据所述第一候选业务中的每个指令与所述K个指令对象中每个指令对象之间的距离对所述第一候选业务中的每个指令进行划分;
重复执行上述步骤,直至达到预置的迭代终止条件,得到所述最终候选业务集合对应的指令簇。
8.一种数据处理装置,其特征在于,包括:
处理单元,用于对原始日志数据进行处理,得到指令操作序列集合;
提取单元,用于提取所述指令操作序列集合中的最终候选业务集合;
确定单元,用于根据对比学习模型确定第一候选业务中每个指令的嵌入向量,所述对比学习模型为对所述最终候选业务集合以及随机生成的指令短序列进行训练得到的,所述第一候选业务为所述最终候选业务集合中的任意一个候选业务,所述每个指令嵌入向量指示当前指令与其他指令的相似程度;
聚类单元,用于通过聚类算法对所述第一候选业务中每个指令的嵌入向量进行聚类处理,得到所述最终候选业务集合对应的指令簇。
9.根据权利要求8所述的装置,其特征在于,所述提取单元具体用于:
确定目标指令操作序列中序列长度不超过第一预设值的候选业务集合,所述目标指令操作序列为所述指令操作序列集合中的任意一个指令操作序列;
计算目标候选业务在所述指令操作序列集合中的候选业务频率,所述目标候选业务为所述候选业务集合中的任意一个候选业务;
计算所述目标候选业务的边缘混乱度;
计算所述目标候选业务的业务紧致度;
将所述候选业务集合中所述候选业务频率满足候选业务频率阈值、所述边缘混乱度满足边缘混乱度阈值以及所述业务紧致度满足业务紧致度阈值的候选业务确定初始候选业务集合;
对所述初始候选业务集合进行去冗余处理;
确定所述目标指令操作序列满足所述边缘混乱度阈值以及所述业务紧致度阈值的备选候选业务集合;
将去冗余后的所述初始候选词集合以及所述备选候选业务集合确定为所述最终候选业务集合。
10.一种机器可读介质,其特征在于,包括指令,当所述指令在机器上运行时,使得机器执行上述权利要求1至7中任一项所述的数据处理方法的步骤。
CN202110259775.0A 2021-03-10 2021-03-10 一种数据处理方法及相关设备 Pending CN112965890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110259775.0A CN112965890A (zh) 2021-03-10 2021-03-10 一种数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110259775.0A CN112965890A (zh) 2021-03-10 2021-03-10 一种数据处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN112965890A true CN112965890A (zh) 2021-06-15

Family

ID=76277054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110259775.0A Pending CN112965890A (zh) 2021-03-10 2021-03-10 一种数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN112965890A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204831A1 (en) * 2011-11-04 2013-08-08 David N. Reshef Identifying associations in data
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN111612100A (zh) * 2020-06-04 2020-09-01 商汤集团有限公司 对象再识别方法、装置、存储介质及计算机设备
CN112215262A (zh) * 2020-09-21 2021-01-12 清华大学 基于自监督对比学习的图像深度聚类方法及系统
CN112380840A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204831A1 (en) * 2011-11-04 2013-08-08 David N. Reshef Identifying associations in data
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN111612100A (zh) * 2020-06-04 2020-09-01 商汤集团有限公司 对象再识别方法、装置、存储介质及计算机设备
CN112215262A (zh) * 2020-09-21 2021-01-12 清华大学 基于自监督对比学习的图像深度聚类方法及系统
CN112380840A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本纠错方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹惠玲;梁佳旺;崔科璐;: "基于健康指数相似的航空发动机剩余寿命预测", 科学技术与工程, no. 01 *
王楠;孙善武;: "业务流程模型抽象中基于约束的行为聚类方法研究", 计算机科学, no. 01 *

Similar Documents

Publication Publication Date Title
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
EP3258604B1 (en) System and method for compressing graphs via cliques
US8719267B2 (en) Spectral neighborhood blocking for entity resolution
US20160307113A1 (en) Large-scale batch active learning using locality sensitive hashing
CN110288024B (zh) 一种基于原型网络少样本学习的图像分类器构建、图像识别方法及系统
US11748305B2 (en) Suggesting a destination folder for a file to be saved
CN109886311B (zh) 增量聚类方法、装置、电子设备和计算机可读介质
CN110727740A (zh) 关联分析方法及装置、计算机设备与可读介质
US20140012879A1 (en) Database management system, apparatus, and method
CN113536020B (zh) 数据查询的方法、存储介质和计算机程序产品
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
CN112926647A (zh) 模型训练方法、域名检测方法及装置
US11429317B2 (en) Method, apparatus and computer program product for storing data
WO2012159320A1 (zh) 一种大规模图像数据的聚类方法及装置
CN112257689A (zh) 人脸识别模型的训练和识别方法、存储介质及相关设备
CN112965890A (zh) 一种数据处理方法及相关设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
US20160085807A1 (en) Deriving a Multi-Pass Matching Algorithm for Data De-Duplication
US11482304B2 (en) Alignment methods, devices and systems
CN115907775A (zh) 基于深度学习的个人征信评级方法及其应用
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
CN112906824A (zh) 车辆聚类方法、系统、设备及存储介质
CN112861962A (zh) 样本处理方法、装置、电子设备和存储介质
CN116304253B (zh) 数据存储方法、数据检索方法和识别相似视频的方法
CN116150508B (zh) 一种基于对比学习的物品推荐方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination