CN112149736A - 一种数据处理方法、装置、服务器及介质 - Google Patents

一种数据处理方法、装置、服务器及介质 Download PDF

Info

Publication number
CN112149736A
CN112149736A CN202011011889.5A CN202011011889A CN112149736A CN 112149736 A CN112149736 A CN 112149736A CN 202011011889 A CN202011011889 A CN 202011011889A CN 112149736 A CN112149736 A CN 112149736A
Authority
CN
China
Prior art keywords
data
time sequence
module
processing
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011011889.5A
Other languages
English (en)
Other versions
CN112149736B (zh
Inventor
王晓晗
王世伟
龙锦就
韩萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011011889.5A priority Critical patent/CN112149736B/zh
Publication of CN112149736A publication Critical patent/CN112149736A/zh
Application granted granted Critical
Publication of CN112149736B publication Critical patent/CN112149736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、服务器及介质,其中方法包括:获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。通过实施上述方法,有助于提升对事件信息的识别结果的准确性。

Description

一种数据处理方法、装置、服务器及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、服务器及介质。
背景技术
随着人工智能技术的快速发展,人工智能技术在很多领域得到了应用,其中,人工智能技术中的深度学习的应用也越来越广泛,例如可利用长短期记忆(LSTM,Long Short-Term Memory)网络模型进行信息处理,以得到信息识别结果。但是发明人研究发现,基于LSTM模型得到的信息识别结果存在准确性较低的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置、服务器及介质,有助于提升对事件信息的识别结果的准确性。
本申请实施例第一方面公开了一种数据处理方法,所述方法包括:
获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;
根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
本申请实施例第二方面公开了另一种数据处理方法,所述方法包括:
获取用于训练事件识别模型的训练数据,并对所述训练数据添加分类标签,其中,所述分类标签用于指示训练数据是否为异常数据;
利用所述训练数据和所述分类标签,训练得到事件识别模型;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述训练数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
本申请实施例第三方面公开了一种数据处理装置,所述装置包括:
获取单元,用于获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;
识别单元,用于根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
本申请实施例第四方面公开了另一种数据处理装置,所述装置包括:
获取单元,用于获取用于训练事件识别模型的训练数据,并对所述训练数据添加分类标签,其中,所述分类标签用于指示训练数据是否为异常数据;
训练单元,用于利用所述训练数据和所述分类标签,训练得到事件识别模型;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述训练数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
本申请实施例第五方面公开了一种服务器,包括处理器、存储器和网络接口,所述处理器、存储器和网络接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面和/或第二方面的方法。
本申请实施例第六方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面和/或第二方面的方法。
本申请实施例中,服务器可以获取待处理的事件信息对应的多个长度相等的第一时序数据,并根据多个第一时序数据以及包括时序数据处理模块和识别模块的事件识别模型,由时序数据处理模块对屏蔽第一时序数据中超出真实长度的数据后的数据进行处理,并通过识别模块对时序数据处理模块处理后的数据去屏蔽超出真实长度的数据后得到的数据进行处理,以得到用于指示事件信息是否存在异常的识别结果。通过实施上述方法,有助于提升对事件信息的识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种时序数据通过基于LSTM的模型中的各层后输出数据的大小的结果示意图;
图1b是本申请实施例提供的一种时序数据通过基于LSTM的模型中LSTM层处理后的结果示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3a是本申请实施例提供的一种事件识别模型的结构示意图;
图3b是本申请实施例提供的一种时序数据通过事件识别模型中的各层后输出数据的大小的结果示意图;
图3c是本申请实施例提供的一种时序数据通过事件识别模型中LSTM层后的输出的结果示意图;
图3d是本申请实施例提供的另一种时序数据通过事件识别模型中LSTM层后的输出的结果示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5a是本申请实施例提供的一种时序数据通过基于BiLSTM的模型中的各层后输出数据的大小的结果示意图;
图5b是本申请实施例提供的一种时序数据通过基于BiLSTM的模型中LSTM层处理后的结果示意图;
图5c是本申请实施例提供的另一种事件识别模型的结构示意图;
图5d是本申请实施例提供的又一种事件识别模型的结构示意图;
图5e是本申请实施例提供的又一种事件识别模型的结构示意图;
图6是本申请实施例提供的另一种数据处理方法的结构示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的另一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图;
图10是本申请实施例提供的另一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术。根据学习任务的不同,深度学习中常用的模型包括前馈神经网络(Feedforward Neural Networks,FNN)模型,卷积神经网络(Convolutional NeuralNetworks,CNN)模型和循环神经网络(Recurrent Neural Networks,RNN)模型。其中,深度学习模型例如LSTM模型是一种时间循环神经网络模型,LSTM模型是为了解决一般的RNN模型存在的长期依赖问题而专门设计出来的,所有的RNN模型都具有一种重复神经网络模块的链式形式。在标准RNN模型中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。LSTM模型同样是这样的结构,但是重复的模块拥有一个不同的结构。
LSTM模型如基于keras框架的LSTM模型可以用来处理时序数据,但是输入到LSTM模型的时序数据需要是定长(相等长度)的,若时序数据是不定长的,而为了保证LSTM模型的输入为定长的时序数据,可以对不定长的时序数据进行填充处理,以将不定长的时序数据填充至统一长度后再输入到LSTM模型进行处理。然而直接将进行填充后的时序数据输入到LSTM模型处理,经过填充处理对应的数据会参与LSTM模型的计算,这将影响模型的可解释性和准确性。
例如,在实际场景中不定长的时序数据是很常见的,以竞速类手游为例,手游在不影响性能的情况下,能够上报的数据也越来越丰富,不管是第一人称射击类游戏的回放文件,还是竞速类游戏的录像文件,抑或多人在线战术竞技类游戏的回放录像以及大型多人在线游戏类的操作行为等事件流数据等,里面记录玩家较为细致的行为信息和关键的事件信息,这为更细致的安全对抗提供了很大的操作空间。事件流数据也就是时序数据,在游戏场景中更多的时序数据是不定长的,针对不定长的时序数据是不可以直接应用LSTM模型等深度学习模型进行处理的。由此可将不定长时序数据进行填充处理,填充至统一长度再输入到LSTM模型进行处理。然而直接输入到LSTM模型处理,经过填充处理对应的数据依然会参与模型的计算,此种方法将影响模型的可解释性和准确性。
在一些可行的实施方式中,针对基于LSTM的识别问题的模型,模型中可包括时序数据处理模块如LSTM层(或者可称为LSTM模块,或者还可以称为其余名称),还可以包括其他模块,例如,在时序数据处理模块之后还可以添加的其他模块如可以是Flatten层,利用Flatten层进行降维处理,其后进行CNN层或者全连接层或者其他识别层等,以实现模型识别。下面以基于LSTM的模型为例进行说明,且Flatten层之后是全连接层(Dense层)。其中,时序数据包含3个时序数据,分别表示如下:x1=[[1,2,3],[4,5,6]],x2=[7,8,9],[10,11,23],[2,5,8]],x3=[[1,2,3]]。可以看出,上述3个时序数据的长度是不一样的,为了保证LSTM层的输入的时序数据为相等长度的,可以将上述3个时序数据填充至相同的长度,其中,需要填充的部分可以用0值来填充。x1进行填充之后变为xL1=[[1,2,3],[4,5,6],[0,0,0]],x3进行填充之后变为xL3=[[1,2,3],[0,0,0],[0,0,0]],则LSTM层的输入的时序数据可以是例如xL所表示的,yL为xL对应的标签。其中,xL=[xL1,x2,xL3],yL=[1,0,0]。
如图1a所示为时序数据xL通过基于LSTM的模型中的各层后输出数据的大小,如图1b所示为时序数据xL通过基于LSTM的模型中LSTM层处理后的结果,从图1b中可以看出,基于LSTM的模型对时序数据中经过填充处理对应的数据如图1b中由11、12和13标记的位置进行了计算,这影响了模型本身的准确性和可解释性。
可以看出,针对不定长时序数据在应用LSTM模型如基于keras框架的LSTM模型时,为满足该类模型输入必须为定长的需求,常见的做法是将不等长的数据序列填充至统一长度再输入到LSTM模型进行训练。然而直接输入到LSTM模型训练,依然会参与LSTM模型中的计算,这种方法将影响模型的可解释性和准确性。而本申请在利用识别模型(如事件识别模型)对时序数据进行处理时,能够通过屏蔽时序数据中经过填充处理对应的数据,使得超出真实长度的数据不参与时序数据处理模块的计算。例如,可以在时序数据处理模块之前添加数据屏蔽模块,使得填充的部分被屏蔽,也就是该填充的部分在通过数据屏蔽模块之后被遮蔽了,那么在数据屏蔽模块之后的时序数据处理模块就不会对经过填充处理对应的数据计算。可选的,该数据屏蔽模块也可以集成在时序数据处理模块中,那么时序数据处理模块也可以具有数据屏蔽模块的功能。其中,该识别模型可以是基于keras框架的LSTM的模型。
在一些可行的实施方式中,针对识别模型,在时序数据处理模块之后需要添加识别模块,而识别模块的输入要求是时序数据必须是定长的,而数据屏蔽模块的存在会保持时序数据的“不定长”,因此数据屏蔽模块与识别模块同时存在是冲突的。而本申请能够通过去屏蔽时序数据中经过填充处理对应的数据,使时序数据传入识别模块之前取消数据屏蔽模块的对时序数据的屏蔽处理,也就是使数据重新变为定长。例如,可以在识别模块之前添加一层数据去屏蔽模块,可选的,数据去屏蔽模块也可以集成在识别模块中。数据去屏蔽模块具有去屏蔽作用,添加该模块后,可以使识别模块的输入的时序数据是定长的,也就是在通过上述数据屏蔽模块被遮蔽的位置对应的数据,在通过数据去屏蔽模块之后不被遮蔽了,进而使得识别模块对时序数据处理模块处理后的数据,即去屏蔽超出真实长度的数据后得到的数据进行处理。
可以理解,本申请实施例中的屏蔽可以是指使得时序数据中填充部分(填充位置,即padding部分)被屏蔽,也就是该填充部分被遮蔽了。那么时序数据中填充部分在通过数据屏蔽模块之后是被遮蔽的,在数据屏蔽模块之后的时序数据处理模块就不会对填充部分对应的数据计算。对应的,去屏蔽可以包括取消数据屏蔽模块对时序数据中填充部分的屏蔽处理,也就是该填充部分不被遮蔽了。那么在通过上述数据屏蔽模块而使得时序数据中被遮蔽的填充的部分,在通过数据去屏蔽模块之后不被遮蔽了,也就是时序数据中填充的部分不被遮蔽。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
请参见图2,为本申请实施例提供的一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,可以包括以下步骤:
201:获取待处理的事件信息对应的多个第一时序数据,其中,各个第一时序数据的长度相等。
其中,事件信息可以是基于时间维度上的数据,例如游戏中的竞速类手游的录像数据,自然语言处理中的文本数据等等。时序数据是指时间序列数据,时间序列数据是按时间顺序记录的数据列。
在一些可行的实施方式中,在获取待处理的事件信息对应的多个第一时序数据之前,还可以获取待处理的事件信息对应的多个不定长的第二时序数据,再根据多个不定长的第二时序数据确定对应的多个定长的第一时序数据。其中,多个第二时序数据中至少有两个第二时序数据的长度是不相等的。可选的,为了使多个不定长的第二时序数据转化为对应的多个定长的第一时序数据,可以对多个不定长的第二时序数据进行填充处理,将多个不定长的第二时序数据填充至统一长度,那么填充至统一长度的多个不定长的第二时序数据就是对应的多个定长的第一时序数据。可选的,在对多个不定长的第二时序数据进行填充处理时,填充的数据可以是0值,也可以是其他任意值,在本申请不做限定。
在一些可行的实施方式中,可以先确定时序数据的最长长度,将小于该最长长度的时序数据进行填充处理,以将每个时序数据填充至最长长度。可选的,对于小于该最长长度的时序数据可以用0值来进行填充。例如,填充处理的具体实施方式可以是:服务器可以确定多个第二时序数据中时序数据的最大长度,将多个第二时序数据中长度小于最大长度的时序数据进行补零处理,得到对应的多个第一时序数据。可选的,本申请对填充的位置不做限定,例如服务器可以在第二时序数据的结尾处进行补零处理,也可以在第二时序数据的开始处进行补零处理。
示例性的,以竞速类手游为例,服务器可以获取竞速类手游的对局录像数据,对局录像数据中包括了速度、位置等信息。服务器可以取时间长度为L的录像数据进行切分,并切分后的每片段内的数据做特征处理,得到多个不定长的第二时序数据。假设第二时序数据有3个,且分别为x1=[[1,2,3],[4,5,6]],x2=[7,8,9],[10,11,23],[2,5,8]],x3=[[1,2,3]]。根据这3个第二时序数据可以看出,时序数据的最大长度为3,也就是第二时序数据为x2时的时序数据的长度最大。则需要对x1与x3进行补零处理,使得3个第二时序数据的长度相等,也就是3个第二时序数据的长度为3。其中,可以在在x1与x3的结尾处补零,也可以在在x1与x3的开始处补零。如果在x1与x3的结尾处进行补零处理,则进行补零处理后的x1变为xL1=[[1,2,3],[4,5,6],[0,0,0]],x3变为xL3=[[1,2,3],[0,0,0],[0,0,0]]。那么对多个第二时序数据进行补零处理后得到多个第一时序数据分别为xL1=[[1,2,3],[4,5,6],[0,0,0]],x2=[7,8,9],[10,11,23],[2,5,8]],xL3=[[1,2,3],[0,0,0],[0,0,0]]。如果在x1与x3的开始处进行补零处理,则进行补零处理后的x1变为xR1=[[0,0,0],[1,2,3],[4,5,6]],x3变为xR3=[[0,0,0],[0,0,0],[1,2,3]]。那么对多个第二时序数据进行补零处理后得到多个第一时序数据分别为xR1=[[0,0,0],[1,2,3],[4,5,6]],x2=[7,8,9],[10,11,23],[2,5,8]],xR3=[[0,0,0],[0,0,0],[1,2,3]]。
202:根据多个第一时序数据和事件识别模型,得到识别结果,识别结果用于指示事件信息是否存在异常,其中,事件识别模型包括时序数据处理模块和识别模块,时序数据处理模块用于对屏蔽第一时序数据中超出真实长度的数据后的数据进行处理,识别模块用于对时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,该预设处理包括去屏蔽超出真实长度的数据。
其中,识别结果可以用于指示事件信息是否存在异常的,例如,以事件信息为游戏中的竞速类手游的录像数据为例,识别结果可以是作弊与非作弊的分类结果。第一时序数据中超出真实长度的数据为上述对第一时序数据进行填充处理对应的数据。
在一些可行的实施方式中,事件识别模型还可以包括数据屏蔽模块和数据去屏蔽模块,数据屏蔽模块用来屏蔽第一时序数据中超出真实长度的数据,数据去屏蔽模块用来去屏蔽超出真实长度的数据。可选的,该数据去屏蔽模块还可用于确定/确保超出真实长度的数据为0,具体可以确定去屏蔽超出真实长度的数据后超出真实长度的数据为0。例如如图3a所示为本申请实施例提供的一种事件识别模型的结构示意图,该事件识别模型包括数据屏蔽模块、时序数据处理模块、数据去屏蔽模块和识别模块。经过填充处理的第一时序数据通过数据屏蔽模块后,使得第一时序数据中超出真实长度的数据被屏蔽,然后再通过时序数据处理模块对屏蔽第一时序数据中超出真实长度的数据后的数据进行处理,并由时序数据处理模块对屏蔽后的第一时序数据进行处理后传递给数据去屏蔽模块,由数据去屏蔽模块去屏蔽超出真实长度的数据后传递给识别模块进行处理,以得到识别结果。可选的,该预设处理还可以包括将超出真实长度的数据替换为0,比如去屏蔽超出真实长度的数据后将超出真实长度的数据替换为0。数据去屏蔽模块可以去屏蔽超出真实长度的数据且确定超出真实长度的数据为0后再传递给识别模块进行处理。
在一些可行的实施方式中,考虑到填充部分位于时序数据中的不同位置时,其输出结果也会不一样。例如,如果填充的位置(即需要屏蔽的位置)位于每个时序数据结束处,对应于经过填充处理的输出值是复制前一个输出值。如果填充的位置(即需要屏蔽的位置)位于每个时序数据的开始处时,对应于经过填充处理的输出值是0。考虑到后续识别模块中降低填充处理对应的数据,也就是超出真实长度的时序数据的影响,该预设处理还可包括将超出真实长度的数据替换为0或者置为0,即可以将填充部分置0。例如,可以添加功能,比如在数据去屏蔽模块中添加功能,该功能可以保证填充位置无论在时序数据中的任何位置,对应的填充位置的输出值都为0。也即,本申请可通过确定填充处理对应的填充位置,根据填充位置将超出真实长度的数据替换为0。比如在填充位置为第二时序数据的开始位置时,超出真实长度的数据后本身为0,则可由数据去屏蔽模块去屏蔽超出真实长度的数据后传递给识别模块进行处理;又如在填充位置为第二时序数据的结尾位置时,则可由数据去屏蔽模块去屏蔽超出真实长度的数据后且将超出真实长度的数据替换为0后传递给识别模块进行处理。也就是说,考虑到如果填充的位置(即需要屏蔽的位置)位于每个时序数据的开始处时,那么通过时序数据处理模块的对应于经过填充处理的输出值是0,而利用数据去屏蔽模块也是保证对应的填充位置的输出值为0,因此服务器还可以判断通过时序数据处理模块的对应于经过填充处理的输出值是否为0,若不为0,则可以调用数据去屏蔽模块中的该功能,使得对应的填充位置的输出值为0。若为0,则不需要调用数据去屏蔽模块中的该功能。
可选的,上述数据屏蔽模块可以是Mask层,Mask层对于输入张量的每一个时间步,即输入张量的第1维度(维度从0开始算),其中,输入数据是一个形如(样本数,时间步,特征)的张量。如果输入张量在该时间步中的值与Mask_value相等,那么这个时间步将在模型接下来的所有层(只要该层支持屏蔽)被屏蔽(跳过)。如果模型接下来的某层不支持屏蔽,却接收到屏蔽过的数据,则模型会抛出异常。Mask层的存在可以使利用填充处理的时间步,也就是时序数据中超出真实长度的数据不再参与时序数据处理模块如LSTM模块的计算。
可选的,数据去屏蔽模块可以是自定义层,如该自定义层可以是Mask_output_zero层(或者还可叫做其余名称),Mask_output_zero层可以使得时序数据中超出真实长度的数据传递给识别模块进行处理。该Mask_output_zero层还可以确定时序数据中进行填充处理对应的填充位置,并将进行填充处理对应的填充位置,即超出真实长度的数据替换为0。可选的,Mask_output_zero层中可以包括compute_mask函数和call函数,而为了使compute_mask函数和call函数具有使得时序数据中超出真实长度的数据传递给识别模块进行处理的功能和使得时序数据中超出真实长度的数据替换为0的功能,可以对compute_mask函数进行改写,利用改写后的compute_mask函数实现去屏蔽超出真实长度的数据后传递给识别模块进行处理。还可以对call函数进行改写,利用改写后的call函数实现进行填充处理对应的填充位置的输出值为0。
在一些可行的实施方式中,上述数据屏蔽模块可以是Mask层(或者还可叫做其余名称),可以通过Mask层对不定长时序数据中超出真实长度的数据进行处理,使得超出真实长度的数据不参与后续模型中其他模块的计算。假设多个第二时序数据中第二时序数据的最大长度为Lmax,对于其他任意第二时序数据,其长度为l,将该其他任意第二时序数据经过填充处理,使得其他任意第二时序数据的长度填充至相同长度Lmax,得到对应的多个第一时序数据。其后多个第一时序数据通过在时序数据处理模块处理时,第一时序数据中超过真实长度的数据不参与计算。但是当进行填充处理的部分位于时序数据中的不同位置时,其输出结果也会不一样。
例如,如果填充的位置(即需要屏蔽的位置)位于第一时序数据结束处。假设通过在位于第一时序数据结束处经过填充处理后的输入事件识别模型的多个第一时序数据为xL=[xL1,x2,xL3]。其中xL1=[[1,2,3],[4,5,6],[0,0,0]],x2=[7,8,9],[10,11,23],[2,5,8]],xL3=[[1,2,3],[0,0,0],[0,0,0]]。图3b为时序数据通过事件识别模型中的各层后输出数据的大小,图3c所示为时序数据通过LSTM层后的输出结果,从图3c中可以看出,对应于经过填充处理的输出值如图3c中由31、32和33标记的位置是复制前一个输出值。
又如,如果填充的位置(即需要屏蔽的位置)位于第一个时序数据的开始处时,假设通过在位于第一时序数据结束处经过填充处理后的输入事件识别模型的多个第一时序数据为xR=[xR1,x2,xR3]。其中xR1=[[0,0,0],[1,2,3],[4,5,6]],x2=[7,8,9],[10,11,23],[2,5,8]],xR3=[[0,0,0],[0,0,0],[1,2,3]]。图3d所示为时序数据通过LSTM层后的输出结果,从图3d中可以看出,对应于经过填充处理的输出值如图3d中由34、35和36标记的位置是0。
可以看出,Mask层的存在可以使第一时序数据中超出真实长度的数据不再参与时序数据处理模块的计算,而经过时序数据处理模块处理的第一时序数据中进行填充处理对应的填充位置的输出值是复制前一个输出值,也可以是0。可选的,在基于keras的LSTM的源码中,LSTM类的实现继承的是RNN类,RNN类中有一个参数为zero_output_for_mask,这个值默认为False,即进行填充处理对应的填充位置的输出值是复制前一个输出值,如果设置为True,则进行填充处理对应的填充位置的输出值为0。然而LSTM的实现中将该参数默认为False,且该参数未暴露到接口处,因此在事件识别模型部署时可能带来问题,也就是说默认进行填充处理对应的填充位置的输出值是复制前一个输出值。而在利用事件识别模型处理不定长时序数据时,期望对于进行填充处理的部分不做处理,也就是考虑到后续识别模块中降低超出真实长度的数据的影响,可以将进行填充处理的部分处理成0值。可选的,可以在Mask_output_zero层中对相关函数进行改写,将进行填充处理对应的填充位置的输出值均制定为0。可选的,可以在Mask_output_zero层中对call函数进行改写,以实现进行填充处理对应的填充位置的输出值为0,保证无论在任何位置进行填充处理,对应的填充位置的输出值都为0。
在本申请实施例中,服务器可以获取待处理的事件信息对应的多个长度相等的第一时序数据,根据多个第一时序数据和事件识别模型,得到识别结果。识别结果用于指示事件信息是否存在异常,其中,事件识别模型包括时序数据处理模块和识别模块,时序数据处理模块用于对屏蔽第一时序数据中超出真实长度的数据后的数据进行处理,识别模块用于对时序数据处理模块处理后的数据去屏蔽超出真实长度的数据后得到的数据进行处理。通过在时序数据处理模块之前添加了数据屏蔽模块,以屏蔽超过真实长度的数据,在时序数据处理模块之后添加了数据去屏蔽模块,以指定时序数据中填充位置输出结果以及在识别模块之前去屏蔽超过真实长度的数据,实现了对不定长时序数据识别问题的更优化的处理方案,有助于提升对事件信息的识别结果的准确性。
请参见图4,为本申请实施例提供的另一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,包括以下步骤:
401:获取待处理的事件信息对应的多个第一时序数据,其中,各个第一时序数据的长度相等。
其中,步骤401的具体实施方式可以参见上述实施例步骤201的具体描述,此处不再赘述。
402:根据多个第一时序数据,确定正向输入数据和反向输入数据,其中,正向输入数据包括多个第一时序数据,反向输入数据由对多个第一时序数据进行反向处理获得。
在一些可行的实施方式中,可以对多个第一时序数据进行处理,以确定事件识别模型的正向输入数据和反向输入数据。其中,正向输入数据就是多个第一时序数据,反向输入数据则需要对该多个第一时序数据进行反向处理,并将反向处理后的第二时间序列确定为反向输入数据。
示例性的,假设3个第一时序数据分别为xL1=[[1,2,3],[4,5,6],[0,0,0]],x2=[7,8,9],[10,11,23],[2,5,8]],xL3=[[1,2,3],[0,0,0],[0,0,0]],则正向输入数据就是xL=[xL1,x2,xL3]。反向输入数据就是对上述第一时序数据进行反向处理。例如,对第一时序数据xL1=[[1,2,3],[4,5,6],[0,0,0]]进行反向处理可以得到时序数据xH1=[[0,0,0],[1,2,3],[4,5,6]],x2=[7,8,9],[10,11,23],[2,5,8]]进行反向处理可以得到时序数据xH2=[[2,5,8],[7,8,9],[10,11,23]],xL3=[[1,2,3],[0,0,0],[0,0,0]]进行反向处理可以得到时序数据xH3=[[0,0,0],[1,2,3],[0,0,0]]。则反向输入数据就是xL=[xH1,xH2,xH3]。
403:根据正向输入数据、反向输入数据和事件识别模型,得到识别结果。
在一些可行的实施方式中,双向长短期记忆网络是(Bi-directional LongShort-Term Memory,BiLSTM)也是适合时序数据处理的一种深度学习模型,BiLSTM模型由正向LSTM和反向LSTM组合而成。基于keras的BiLSTM中是通过一个在封装好的双向wrapper实现的BiLSTM,其中反向LSTM是将输入时序数据反向得到反向时序数据,然后利用一个Mask层屏蔽正向时序数据和反向时序数据中超过真实长度的数据。在利用Mask层进行屏蔽处理时,正向时序数据和反向时序数据用的是同一个Mask层。而共用一个Mask层会导致当正向时序数据和反向时序数据中填充的位置不一致时,某向(正向或者反向)正向时序数据和反向时序数据中的真实长度不计算。下面以基于BiLSTM的模型为例进行说明,其中,输入到基于BiLSTM的模型的时序数据可以例如上述的时序数据xL=[xL1,x2,xL3]。BiLSTM只有一个填充后的xL输入,那么时序数据序列反向则是填充后的时序数据反向整体翻转。以时序数据xL中的xL1=[[1,2,3],[4,5,6],[0,0,0]]为例,其反向后的时序数据是[[0,0,0],1,2,3],[4,5,6]]。
如图5a所示为时序数据通过基于BiLSTM的模型中的各层后输出数据的大小,如图5b所示为时序数据通过基于BiLSTM的模型中LSTM层处理后的结果,从图5b上可以看出,BiLSTM中因正向时序数据与反向时序数据用的是同一个Mask层,导致反向LSTM将填充的数据参与计算,而最后的真实的数据却未计算,最后使得计算结果必然错误。
可以看出,基于keras的BiLSTM中是通过一个在封装好的双向wrapper实现的BiLSTM,但是这个wrapper中的反向LSTM,只是单纯的将输入时序数据反向,而后共用一个Mask层处理需要屏蔽的进行填充处理对应的填充位置,这样会出现当正向时序数据和反向时序数据填充的位置不一致时会导致某向(正向或者反向)时序数据中的真实数据不计算。
针对上述问题,本申请的技术方案中的模型将设置为2个输入,正向输入和反向输入,各自经过屏蔽模块和时序数据处理模块,最后将正向时序数据处理模块和反向时序数据处理模块的输出合并在一起,本申请实施例提供的另一种事件识别模型的结构示意图可以如图5c所示。如图5c所示,事件识别模块中的数据屏蔽模块包括第一数据屏蔽模块和第二数据屏蔽模块,时序数据处理模块包括第一时序数据处理模块和第二时序数据处理模块,数据去屏蔽模块包括第一数据去屏蔽模块和第二数据去屏蔽模块。根据正向输入数据、反向输入数据和事件识别模型,得到识别结果的具体实现过程可以是首先将正向输入数据通过第一数据屏蔽模块,得到第一正向特征数据,并将反向输入数据通过第二数据屏蔽模块,得到第一反向特征数据,以使得第一正向特征数据和第一反向特征数据中超出真实长度的数据经过屏蔽处理。接着将第一正向特征数据通过第一时序数据处理模块,得到第二正向特征数据,并将第一反向特征数据通过第二时序数据处理模块,得到第二反向特征数据。再将第二正向特征数据通过第一数据去屏蔽模块,得到第三正向特征数据,并将第二反向特征数据通过第二数据去屏蔽模块,得到第三反向特征数据,以使得将第三正向特征数据和第三反向特征数据中超出真实长度的数据替换为0,并使第三正向特征数据和第三反向特征数据中超出真实长度的数据在识别模块被处理。进一步的,根据第三正向特征数据、第三反向特征数据和识别模块,得到识别结果。
在一些可行的实施方式中,识别模块可以包括拼接层、降维层和识别层,服务器可以将第三正向特征数据和第三反向特征数据输入拼接层,得到经过拼接处理的第四特征数据,再将第四特征数据输入到降维层,以利用降维层对第四特征数据进行降维处理,将多维数据处理为一维数据。再将降维处理后的第四特征数据输入识别层,得到识别结果。可选的,识别模块中的拼接层、降维层和识别层可以具体是Concatenate层、Flatten层和Dense层,也可以是其他具有数据拼接、数据降维以及数据识别功能的网络层,在本申请不做限定。可选的,数据去屏蔽模块是可以集成在识别模块的,具体地,可以在识别模块对相关函数进行改写,以实现超出真实长度的数据后不被遮蔽以及实现进行填充处理对应的填充位置的输出值为0。例如,在识别模块中的降维层,即Flatten层对compute_mask函数进行改写,利用改写后的compute_mask函数实现超出真实长度的数据后不被遮蔽。并对call函数进行改写,利用改写后的call函数实现进行填充处理对应的填充位置的输出值为0。
在一些可行的实施方式中,事件识别模型具体可以是如图5d和图5e所示。事件识别模型有两个输入,其中一个是正向输入,另外一个是反向输入,当第一时序数据反向输入时会通过一个反向层,反向层的作用是对第一时序数据进行反向处理。第一数据屏蔽模块和第二数据屏蔽模块可以均是Mask层,Mask层可以屏蔽正向输入数据和反向输入数据中超出真实长度的数据,使得正向输入数据中超出真实长度的数据不再参与第一时序数据处理模块的计算,反向输入数据中超出真实长度的数据不再参与第二时序数据处理模块的计算。第一时序数据处理模块和第二时序数据处理模块可以均为LSTM层,例如如图5d所示的事件识别模型。也可以均为LSTM层与Attention层,例如如图5e所示的事件识别模型。Attention层是对LSTM层的输出数据进行加权,以突出时序数据中对识别结果重要的数据,如果时序数据中某些数据比较重要,则分配的权重就比较大,如果时序数据中某些数据比较不重要,则分配的权重就比较小。第一数据去屏蔽模块和第二数据去屏蔽模块可以均是是自定义层的Mask_output_zero层,Mask_output_zero层可以使第三正向特征数据和第三反向特征数据中超出真实长度的数据替换为0,并使第三正向特征数据和第三反向特征数据中超出真实长度的数据在识别模块被处理。识别模块包括的拼接层、降维层和识别层可以具体是Concatenate层、Flatten层和Dense层。
在本申请实施例中,服务器可以获取待处理的事件信息对应的多个长度相等的第一时序数据,并根据多个第一时序数据,确定正向输入数据和反向输入数据,其中,正向输入数据包括多个第一时序数据,反向输入数据由对多个第一时序数据进行反向处理获得,进一步的,根据正向输入数据、反向输入数据和事件识别模型,得到识别结果。通过在事件识别模型设置一个正向输入和一个反向输入,使得正向输入数据和反向输入数据各自经过具有屏蔽超过真实长度的数据功能的数据屏蔽模块、时序数据处理模块和具有指定时序数据中填充位置输出结果以及在识别模块之前去屏蔽超过真实长度的数据功能的数据去屏蔽模块,再将正向输出和反向输出拼接在一起进行识别,实现了对不定长时序数据识别问题的更优化的处理方案,有助于提升对事件信息的识别结果的准确性。
请参见图6,为本申请实施例提供的又一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,包括以下步骤:
601:获取用于训练事件识别模型的训练数据,并对训练数据添加分类标签,其中,分类标签用于指示训练数据是否为异常数据。
602:利用训练数据和分类标签,训练得到事件识别模型。其中,事件识别模型包括时序数据处理模块和识别模块,时序数据处理模块用于对屏蔽训练数据中超出真实长度的数据后的数据进行处理,识别模块用于对时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,预设处理包括去屏蔽超出真实长度的数据。
在一些可行的实施方式中,需要预先训练事件识别模型。其中,该事件识别模型可以如图5e所示,该事件识别模型主要包括数据屏蔽模块、时序数据处理模块、数据去屏蔽模块和识别模块,处理包括数据屏蔽模块屏蔽时序数据中补零处理对应的超出真实长度的数据,并由时序数据处理模块对屏蔽后的时序数据进行处理后传递给数据去屏蔽模块,由数据去屏蔽模块去屏蔽超出真实长度的数据后传递给识别模块进行处理,比如由数据去屏蔽模块去屏蔽超出真实长度的数据且确定超出真实长度的数据为0后传递给识别模块进行处理。服务器需要先获取用于训练事件识别模型的训练样本,并对训练样本添加分类标签,其中,分类标签用于指示训练样本是否为异常样本,进一步的,利用训练样本和分类标签,训练事件识别模型,得到训练后的事件识别模型。
例如,以竞速类手游为例,其面临的外挂问题多是作弊功能小范围传播,作弊量级少但影响大,样本获取难,作弊功能隐蔽且相似,在长期的外挂对抗中总结出目前仍然面临的难点:一是竞速类游戏的地图多变,地图的路况各不相同,根据游戏日志中的统计特征建立的策略容易在一些特殊地图上出现误判;二是游戏日志中的统计特征难以描述在整局游戏中玩家的行为,微加速作弊功能难以被模型检测。为了更加精确的确定玩家在整局游戏中是否作弊。下面以如图5e所示的事件识别模型确定玩家在整局游戏中是否作弊。首先,需要根据竞速类手游的对局录像数据对事件识别模型进行训练,以确定该事件识别模型的有效性以及模型的整体性能。
以竞速类手游的对局录像数据作为事件信息,识别结果为作弊与非作弊的分类结果。首先,获取竞速类手游的对局录像数据,录像数据为间隔t的特征序列,包括速度位置等信息,取固定时间长度L对原始录像数据进行切分,切分后称为一片段。对每片段内的数据做特征处理,形成不定长的时间序列。根据上述处理获得训练样本,将训练样本输入到事件识别模型,进行训练。理论上讲数据量越大越好,覆盖的情况越多越好更有利于对模型的训练,但是考虑到实际训练成本,样本量达到万量级别即可进行训练。
在对事件识别模型进行训练时,所用的训练样本为58980,验证样本为25278。此次模型训练为75个epoch,其中,所有训练样本训练完成1次即称为一个epoch。在一个epoch中每次参与训练的样本数,即batch_size为256,优化损失函数的梯度的方法,即optimizer选取的是adam,调整顺势函数的梯度的超参数,即learning_rate为每20个epoch变为原来的1/10。如表1所示为模型训练结果。
表1:
Accuracy Precision Recall F1 样本数
训练集 0.9943 0.9704 0.7549 0.8397 58980
验证集 0.9922 0.9599 0.6743 0.7844 25278
其中,准确率(Accuracy)表示样本中被预测准确的比例,其计算公式为ACC=(TP+FN)/(TP+TN+FP+FN)。一般而言,正确率越高,识别模型越好。从表1中可以看出,无论是在在训练过程中或验证过程中,事件识别模型的准确率基本是接近1的,通过该结果,验证了事件识别模型的有效性。但仅仅根据Accuracy确定该事件识别模型的有效性是不够的。为了确定事件识别模型的整体性能,还可以确定精确率(Precision)、召回率(Recall)和F值(F-Measure)。
其中,Precision表示在训练过程中或验证过程中被判别为正例(作弊)的样本中实际为正例的比例,其计算公式为P=TP/(TP+FP)。Recall是覆盖面的度量,度量有多个正例的样本被分为正例,其计算公式为R=TP/(TP+FN)。准确率可以描述为预测正确的正样本个数占预测结果为正的样本数的比例,召回率可以描述为预测正确的正样本个数占实际为正样本个数的比例。一般而言是准确率和召回率都越高越好,但是实际上两者在某些情况下是相互矛盾的,准确率高,召回率就很低,反之准确率低,召回率可能会很高。在准确率和召回率出现矛盾的情况下,可以综合考虑准确率和召回率,可以通过计算F值来综合评价模型的性能,可选的,该F值可以是F1值。其中,F1是根据P和R确定,其计算公式为F1=2*P*R/(P+R)。从表1中可以看出,模型的输出结果F1值也是比较接近1的,通过该结果,表明了本申请实施例设计的事件识别模型的是有效的,模型的整体性能比较好。
其中,上述描述中的TP(True Positive,真正)表示将正例预测为正例数,TN(TrueNegative,真负)表示将负例预测为负例数,FP(False Positive,假正)表示将负例预测为正例数,FN(False Negative,假负)表示将正例预测为负例数。
在一些可行的实施方式中,还可以在对该事件识别模型进行测试。测试集选取了10000个非作弊玩家样本,通过事件识别模型可以得到如表2所示的混淆矩阵。其中混淆矩阵中Positive代表作弊,Negative代表未作弊。
表2:
Figure BDA0002694686600000171
从表2中可以看出,利用事件识别模型可以从选取的外网10000个非作弊玩家样本中确定有2个样本实际是作弊玩家样本。利用该事件识别模型,可以发现现有技术方案发现不了的新的玩家作弊方式,且不易被外网玩家绕过,也可以解决一类游戏的异常玩家的审计。
在一些可行的实施方式中,事件识别模型的输出结果为介于0-1之间的概率,越接近于1既说明作弊的概率越大。以上的训练集验证集以及测试集的结果都是基于阈值0.5的情况。考虑到实际业务中正负样本的比例以及业务需求,关于输出预测概率的阈值还可以根据实际进行调整,并可以结合多个维度的数据,例如可疑、用户画像等信息,更灵活精准的对作弊玩家进行打击。
在本申请实施例中,获取用于训练事件识别模型的训练数据,并对训练数据添加分类标签,其中,分类标签用于指示训练数据是否为异常数据。利用训练数据和分类标签,训练得到事件识别模型。其中,事件识别模型包括时序数据处理模块和识别模块,时序数据处理模块用于对屏蔽训练数据中超出真实长度的数据后的数据进行处理,识别模块用于对时序数据处理模块处理后的数据去屏蔽超出真实长度的数据后得到的数据进行处理。通过实施上述方法,有助于提升对事件信息的识别结果的准确性。
上述方法实施例都是对本申请的方法的举例说明,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。例如,训练得到事件识别模型之后,即可获取事件信息对应的时序数据,以基于事件识别模型对时序数据进行处理,识别得到该事件信息对应的识别结果,此处不赘述。
请参见图7,为本申请实施例提供的一种数据处理装置的结构示意图。本实施例中所描述的数据处理装置,包括:
获取单元701,用于获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;
识别单元702,用于根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
在一些可行的实施方式中,所述事件识别模型还包括数据屏蔽模块和数据去屏蔽模块,所述识别单元702,具体用于:
通过所述数据屏蔽模块屏蔽所述第一时序数据中超出真实长度的数据,并由所述时序数据处理模块对屏蔽后的第一时序数据进行处理后传递给所述数据去屏蔽模块,由所述数据去屏蔽模块去屏蔽所述超出真实长度的数据且确定所述超出真实长度的数据为0后传递给所述识别模块进行处理,以得到识别结果。
在一些可行的实施方式中,所述获取单元701,具体用于:
获取待处理的事件信息对应的多个第二时序数据,其中,所述多个第二时序数据中至少有两个第二时序数据的长度不相等;
对所述多个第二时序数据进行填充处理,以得到多个第一时序数据;
其中,所述超出真实长度的数据为所述填充处理对应的数据。
在一些可行的实施方式中,所述装置还包括确定单元703,具体用于:
确定所述填充处理对应的填充位置;
所述预设处理还包括:根据所述填充位置将所述超出真实长度的数据替换为0。
在一些可行的实施方式中,所述识别单元702,具体用于:
根据所述多个第一时序数据,确定正向输入数据和反向输入数据,其中,所述正向输入数据包括多个第一时序数据,所述反向输入数据由对所述多个第一时序数据进行反向处理获得;
根据所述正向输入数据、所述反向输入数据和事件识别模型,得到识别结果。
在一些可行的实施方式中,所述数据屏蔽模块包括第一数据屏蔽模块和第二数据屏蔽模块,所述时序数据处理模块包括第一时序数据处理模块和第二时序数据处理模块,所述数据去屏蔽模块包括第一数据去屏蔽模块和第二数据去屏蔽模块,所述识别单元702,具体用于:
将所述正向输入数据通过所述第一数据屏蔽模块,得到第一正向特征数据,并将所述反向输入数据通过第二数据屏蔽模块,得到第一反向特征数据,以使得所述第一正向特征数据和所述第一反向特征数据中超出真实长度的数据经过屏蔽处理;
将所述第一正向特征数据通过所述第一时序数据处理模块,得到第二正向特征数据,并将所述第一反向特征数据通过所述第二时序数据处理模块,得到第二反向特征数据;
将所述第二正向特征数据通过所述第一数据去屏蔽模块,得到第三正向特征数据,并将所述第二反向特征数据通过所述第二数据去屏蔽模块,得到第三反向特征数据,以使得将所述第三正向特征数据和所述第三反向特征数据中超出真实长度的数据替换为0,并使所述第三正向特征数据和所述第三反向特征数据中超出真实长度的数据在识别模块被处理;
根据所述第三正向特征数据、所述第三反向特征数据和识别模块,得到识别结果。
可以理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参见图8,为本申请实施例提供的另一种数据处理装置的结构示意图。本实施例中所描述的数据处理装置,包括:
获取单元801,用于获取用于训练事件识别模型的训练数据,并对所述训练数据添加分类标签,其中,所述分类标签用于指示训练数据是否为异常数据;
训练单元802,用于利用所述训练数据和所述分类标签,训练得到事件识别模型;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述训练数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
可以理解,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
请参见图9,为本申请实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器,包括:处理器901、存储器902以及网络接口903。上述处理器901、存储器902以及网络接口903之间可以交互数据。
上述处理器901可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器902可以包括只读存储器和随机存取存储器,并向处理器901提供程序指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器。其中,所述处理器901调用所述程序指令时用于执行:
获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;
根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
在一些可行的实施方式中,所述事件识别模型还包括数据屏蔽模块和数据去屏蔽模块,所述处理器901,具体用于:
通过所述数据屏蔽模块屏蔽所述第一时序数据中超出真实长度的数据,并由所述时序数据处理模块对屏蔽后的第一时序数据进行处理后传递给所述数据去屏蔽模块,由所述数据去屏蔽模块去屏蔽所述超出真实长度的数据且确定所述超出真实长度的数据为0后传递给所述识别模块进行处理,以得到识别结果。
在一些可行的实施方式中,所述处理器901,具体用于:
获取待处理的事件信息对应的多个第二时序数据,其中,所述多个第二时序数据中至少有两个第二时序数据的长度不相等;
对所述多个第二时序数据进行填充处理,以得到多个第一时序数据;
其中,所述超出真实长度的数据为所述填充处理对应的数据。
在一些可行的实施方式中,所述处理器901,还用于:
确定所述填充处理对应的填充位置;
所述预设处理还包括:根据所述填充位置将所述超出真实长度的数据替换为0。
在一些可行的实施方式中,所述处理器901,具体用于:
根据所述多个第一时序数据,确定正向输入数据和反向输入数据,其中,所述正向输入数据包括多个第一时序数据,所述反向输入数据由对所述多个第一时序数据进行反向处理获得;
根据所述正向输入数据、所述反向输入数据和事件识别模型,得到识别结果。
在一些可行的实施方式中,所述数据屏蔽模块包括第一数据屏蔽模块和第二数据屏蔽模块,所述时序数据处理模块包括第一时序数据处理模块和第二时序数据处理模块,所述数据去屏蔽模块包括第一数据去屏蔽模块和第二数据去屏蔽模块,所述处理器901,具体用于:
将所述正向输入数据通过所述第一数据屏蔽模块,得到第一正向特征数据,并将所述反向输入数据通过第二数据屏蔽模块,得到第一反向特征数据,以使得所述第一正向特征数据和所述第一反向特征数据中超出真实长度的数据经过屏蔽处理;
将所述第一正向特征数据通过所述第一时序数据处理模块,得到第二正向特征数据,并将所述第一反向特征数据通过所述第二时序数据处理模块,得到第二反向特征数据;
将所述第二正向特征数据通过所述第一数据去屏蔽模块,得到第三正向特征数据,并将所述第二反向特征数据通过所述第二数据去屏蔽模块,得到第三反向特征数据,以使得将所述第三正向特征数据和所述第三反向特征数据中超出真实长度的数据替换为0,并使所述第三正向特征数据和所述第三反向特征数据中超出真实长度的数据在识别模块被处理;
根据所述第三正向特征数据、所述第三反向特征数据和识别模块,得到识别结果。
请参见图10,为本申请实施例提供的另一种服务器的结构示意图。本实施例中所描述的服务器,包括:处理器1001、存储器1002以及网络接口1003。上述处理器1001、存储器1002以及网络接口1003之间可以交互数据。
上述处理器1001可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器1002可以包括只读存储器和随机存取存储器,并向处理器901提供程序指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。其中,所述处理器1001调用所述程序指令时用于执行:
获取单元,用于获取用于训练事件识别模型的训练数据,并对所述训练数据添加分类标签,其中,所述分类标签用于指示训练数据是否为异常数据;
训练单元,用于利用所述训练数据和所述分类标签,训练得到事件识别模型;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述训练数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,所述程序执行时可包括如图2或者图4或者图6对应实施例中的数据处理方法的部分或全部步骤。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上对本申请实施例所提供的一种数据处理方法、装置、服务器及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;
根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
2.根据权利要求1所述的方法,其特征在于,所述事件识别模型还包括数据屏蔽模块和数据去屏蔽模块;所述根据所述多个第一时序数据和事件识别模型,得到识别结果,包括:
通过所述数据屏蔽模块屏蔽所述第一时序数据中超出真实长度的数据,并由所述时序数据处理模块对屏蔽后的第一时序数据进行处理后传递给所述数据去屏蔽模块,由所述数据去屏蔽模块去屏蔽所述超出真实长度的数据且确定所述超出真实长度的数据为0后传递给所述识别模块进行处理,以得到识别结果。
3.根据权利要求1或2所述的方法,其特征在于,所述获取待处理的事件信息对应的多个第一时序数据,包括:
获取待处理的事件信息对应的多个第二时序数据,其中,所述多个第二时序数据中至少有两个第二时序数据的长度不相等;
对所述多个第二时序数据进行填充处理,以得到多个第一时序数据;
其中,所述超出真实长度的数据为所述填充处理对应的数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述填充处理对应的填充位置;
所述预设处理还包括:根据所述填充位置将所述超出真实长度的数据替换为0。
5.根据权利要求2所述的方法,其特征在于,所述根据所述多个第一时序数据和事件识别模型,得到识别结果,包括:
根据所述多个第一时序数据,确定正向输入数据和反向输入数据,其中,所述正向输入数据包括多个第一时序数据,所述反向输入数据由对所述多个第一时序数据进行反向处理获得;
根据所述正向输入数据、所述反向输入数据和事件识别模型,得到识别结果。
6.根据权利要求5所述的方法,其特征在于,所述数据屏蔽模块包括第一数据屏蔽模块和第二数据屏蔽模块,所述时序数据处理模块包括第一时序数据处理模块和第二时序数据处理模块,所述数据去屏蔽模块包括第一数据去屏蔽模块和第二数据去屏蔽模块;所述根据所述正向输入数据、所述反向输入数据和事件识别模型,得到识别结果,包括:
将所述正向输入数据通过所述第一数据屏蔽模块,得到第一正向特征数据,并将所述反向输入数据通过第二数据屏蔽模块,得到第一反向特征数据,以使得所述第一正向特征数据和所述第一反向特征数据中超出真实长度的数据经过屏蔽处理;
将所述第一正向特征数据通过所述第一时序数据处理模块,得到第二正向特征数据,并将所述第一反向特征数据通过所述第二时序数据处理模块,得到第二反向特征数据;
将所述第二正向特征数据通过所述第一数据去屏蔽模块,得到第三正向特征数据,并将所述第二反向特征数据通过所述第二数据去屏蔽模块,得到第三反向特征数据,以使得将所述第三正向特征数据和所述第三反向特征数据中超出真实长度的数据替换为0,并使所述第三正向特征数据和所述第三反向特征数据中超出真实长度的数据在识别模块被处理;
根据所述第三正向特征数据、所述第三反向特征数据和识别模块,得到识别结果。
7.一种数据处理方法,其特征在于,包括:
获取用于训练事件识别模型的训练数据,并对所述训练数据添加分类标签,其中,所述分类标签用于指示训练数据是否为异常数据;
利用所述训练数据和所述分类标签,训练得到事件识别模型;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述训练数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理的事件信息对应的多个第一时序数据,其中,各个所述第一时序数据的长度相等;
识别单元,用于根据所述多个第一时序数据和事件识别模型,得到识别结果,所述识别结果用于指示所述事件信息是否存在异常;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述第一时序数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据进行预设处理后得到的数据进行处理,所述预设处理包括去屏蔽超出真实长度的数据。
9.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取用于训练事件识别模型的训练数据,并对所述训练数据添加分类标签,其中,所述分类标签用于指示训练数据是否为异常数据;
训练单元,用于利用所述训练数据和所述分类标签,训练得到事件识别模型;
其中,所述事件识别模型包括时序数据处理模块和识别模块,所述时序数据处理模块用于对屏蔽所述训练数据中超出真实长度的数据后的数据进行处理,所述识别模块用于对所述时序数据处理模块处理后的数据去屏蔽所述超出真实长度的数据后得到的数据进行处理。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202011011889.5A 2020-09-22 2020-09-22 一种数据处理方法、装置、服务器及介质 Active CN112149736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011889.5A CN112149736B (zh) 2020-09-22 2020-09-22 一种数据处理方法、装置、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011889.5A CN112149736B (zh) 2020-09-22 2020-09-22 一种数据处理方法、装置、服务器及介质

Publications (2)

Publication Number Publication Date
CN112149736A true CN112149736A (zh) 2020-12-29
CN112149736B CN112149736B (zh) 2024-02-09

Family

ID=73896357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011889.5A Active CN112149736B (zh) 2020-09-22 2020-09-22 一种数据处理方法、装置、服务器及介质

Country Status (1)

Country Link
CN (1) CN112149736B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023125985A1 (zh) * 2021-12-31 2023-07-06 华为技术有限公司 模型的数据处理方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
CN109718556A (zh) * 2019-01-30 2019-05-07 腾讯科技(深圳)有限公司 游戏数据处理方法、装置及服务器
CN109961041A (zh) * 2019-03-21 2019-07-02 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110309514A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种语义识别方法及装置
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
CN110569814A (zh) * 2019-09-12 2019-12-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质
JP2020027375A (ja) * 2018-08-09 2020-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法および情報処理プログラム
US20200107072A1 (en) * 2018-10-02 2020-04-02 Adobe Inc. Generating user embedding representations that capture a history of changes to user trait data
CN111079837A (zh) * 2019-12-16 2020-04-28 桂林电子科技大学 一种用于二维灰度图像检测识别分类的方法
US10672389B1 (en) * 2017-12-29 2020-06-02 Apex Artificial Intelligence Industries, Inc. Controller systems and methods of limiting the operation of neural networks to be within one or more conditions
CN111552609A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 一种异常状态检测方法、系统、存储介质、程序、服务器

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
US10672389B1 (en) * 2017-12-29 2020-06-02 Apex Artificial Intelligence Industries, Inc. Controller systems and methods of limiting the operation of neural networks to be within one or more conditions
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
JP2020027375A (ja) * 2018-08-09 2020-02-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法および情報処理プログラム
US20200107072A1 (en) * 2018-10-02 2020-04-02 Adobe Inc. Generating user embedding representations that capture a history of changes to user trait data
CN109718556A (zh) * 2019-01-30 2019-05-07 腾讯科技(深圳)有限公司 游戏数据处理方法、装置及服务器
CN109961041A (zh) * 2019-03-21 2019-07-02 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110309514A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种语义识别方法及装置
CN110569814A (zh) * 2019-09-12 2019-12-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111079837A (zh) * 2019-12-16 2020-04-28 桂林电子科技大学 一种用于二维灰度图像检测识别分类的方法
CN111552609A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 一种异常状态检测方法、系统、存储介质、程序、服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023125985A1 (zh) * 2021-12-31 2023-07-06 华为技术有限公司 模型的数据处理方法及装置

Also Published As

Publication number Publication date
CN112149736B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN112069061B (zh) 深度学习梯度指导变异的软件安全漏洞检测方法及系统
US7627543B2 (en) Automated anomaly detection
CN111614599B (zh) 基于人工智能的webshell检测方法和装置
CN112837676B (zh) 一种语句生成方法、语句生成装置及智能设备
CN109688428B (zh) 视频评论生成方法和装置
Fan et al. Learning from pseudo-randomness with an artificial neural network–does god play pseudo-dice?
CN107729928B (zh) 信息获取方法和装置
US9329979B2 (en) Derivation of generalized test cases
CN113657896A (zh) 一种基于图神经网络的区块链交易拓扑图分析方法和装置
CN112149736A (zh) 一种数据处理方法、装置、服务器及介质
Naeem et al. Scalable mutation testing using predictive analysis of deep learning model
CN114428748B (zh) 一种用于真实业务场景的模拟测试方法及系统
Lee et al. A stochastic network-based model to simulate farm-level transmission of African swine fever virus in Vietnam
Tabares-Soto et al. Sensitivity of deep learning applied to spatial image steganalysis
US7143073B2 (en) Method of generating a test suite
CN116635852A (zh) 通过模糊神经网络操作和架构来保护神经网络
CN116149917A (zh) 评估处理器性能的方法及装置、计算设备、可读存储介质
CN114444727B (zh) 活体检测的方法、装置、电子模型及存储介质
CN113435482B (zh) 一种判断开放集的方法、装置及其设备
WO2020112101A1 (en) System and method for controlling access to data
CN110210215A (zh) 一种病毒检测的方法以及相关装置
CN111311372A (zh) 一种用户识别方法和装置
CN113542527A (zh) 一种人脸图像传输方法、装置、电子设备及存储介质
CN111652051A (zh) 人脸检测模型生成方法、装置、设备和存储介质
CN114676396B (zh) 深度神经网络模型的保护方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant