CN110472646B - 数据处理设备、数据处理方法及介质 - Google Patents

数据处理设备、数据处理方法及介质 Download PDF

Info

Publication number
CN110472646B
CN110472646B CN201810437393.0A CN201810437393A CN110472646B CN 110472646 B CN110472646 B CN 110472646B CN 201810437393 A CN201810437393 A CN 201810437393A CN 110472646 B CN110472646 B CN 110472646B
Authority
CN
China
Prior art keywords
data set
input data
input
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810437393.0A
Other languages
English (en)
Other versions
CN110472646A (zh
Inventor
夏迎炬
郑仲光
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201810437393.0A priority Critical patent/CN110472646B/zh
Publication of CN110472646A publication Critical patent/CN110472646A/zh
Application granted granted Critical
Publication of CN110472646B publication Critical patent/CN110472646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种数据处理设备、数据处理方法及介质。根据本公开的数据处理装置包括:差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及异常检测单元,其检测所述输入数据集中的异常数据,其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置。使用根据本公开的数据处理装置,其通过两个相互交互的网络对异常数据进行检测,进而同时提高了这两个网络的性能。

Description

数据处理设备、数据处理方法及介质
技术领域
本公开涉及数据处理的技术领域,具体地涉及异常数据点检测的装置和方法。
背景技术
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。
异常数据点也称为离群点的检测是数据挖掘中重要的一部分,其任务是发现与大部分其他数据显著不同的数据。异常数据点的检测已经被广泛应用于传感器异常检测、网络入侵、天气预报、电信和信用卡诈骗检测、贷款审批、电子商务等领域。
异常数据点的检测是比较困难的,例如,在时间序列中的异常数据点可能会隐藏在趋势、季节性或其他的变化中。另外,针对多维数据,异常数据点的异常特征可能是多维度的组合,而非单一维度所能体现。对于维度为非数值型的样本,在检测过程中则需要进行预处理等处理。
目前,常用的异常数据点检测的方法主要分为:基于统计分布的方法、基于距离的方法、基于密度的方法、基于偏差的方法等。
发明内容
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。
本公开的目的在于提供一种通过两个相互交互的网络来对异常数据进行检测的装置和方法。
根据本公开的一方面,提供了一种数据处理装置,包括:差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及异常检测单元,其检测所述输入数据集中的异常数据,其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置。
根据本公开的另一方面,提供了一种数据处理方法,包括:利用距离网络获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;利用检测网络检测所述输入数据集中的异常数据,其中,对所述距离网络和所述检测网络进行训练,直到所述检测网络最终获得所述输入数据集中的异常数据的位置。
根据本公开的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的数据处理方法。
根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有根据本公开的程序产品。
根据本公开的数据处理装置和方法,其通过两个相互交互的网络对异常数据进行检测,进而同时提高了这两个网络的性能。
从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
图1示出根据本公开的一个实施例的数据处理装置的框图;
图2示出根据本公开的一个实施例的数据处理装置的工作原理图;
图3示出根据本公开的一个实施例的数据处理方法的流程图;以及
图4为其中可以实现根据本公开的实施例的数据处理装置和方法的通用个人计算机的示例性结构的框图。
虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。
提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
为了更好地理解本公开的技术方案,下面针对本公开的数据处理装置和方法进行更加详细地描述。
本公开的目的在于提供一种通过两个相互交互的网络来对异常数据进行检测的装置和方法。其中,一个网络用于获取两个数据点之间的差异,下文称为距离网络;另一个网络用于检测数据集中的异常数据,下文称为检测网络。
根据本公开的一个实施例,提供了一种数据处理装置,包括:差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及异常检测单元,其检测所述输入数据集中的异常数据,其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置。
图1示出了根据本公开的一个实施例的数据处理装置100。如图1所示,根据本公开的数据处理装置100可以包括差异获取单元101和异常检测单元102。
所述差异获取单元101可以获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集和标记数据集。这里,输入数据集是包括未标注数据的数据集;而标记数据集是包括标注数据的数据集。这里,标注数据可以是历史收集的数据或者是模拟生成的数据,其标签为已知。
然后,异常检测单元102可以检测所述输入数据集中的异常数据。
接下来,对所述差异获取单元101和所述异常检测单元102进行训练,直到所述异常检测单元102最终获得所述输入数据集中的异常数据的位置。
根据本公开的一个实施例,对所述差异获取单元和所述异常检测单元进行训练可以包括将所述差异获取单元的训练结果作为所述异常检测单元的输入,以及将所述异常检测单元的训练结果作为所述差异获取单元的输入。
如图1所述,所述差异获取单元101的训练结果可以作为所述异常检测单元102的输入传递给所述异常检测单元102,而所述异常检测单元102的训练结果可以作为所述差异获取单元101的输入传递给所述差异获取单元101。
根据本公开的一个实施例,所述差异获取单元可以进一步包括两个结构相同且共享参数的第一子单元和第二子单元,其中所述第一子单元用于对所述标记数据集进行处理,以及所述第二子单元用于对所述输入数据集进行处理。
例如,差异获取单元101可以利用距离网络获取两个输入数据例如数据点X1和X2之间的差异。如图2所示,距离网络被标记为Ws,其可以用于计算成对出现的数据点X1和X2之间的差异。这里,本领域技术人员应该清楚,数据点X1可以是来自标记数据集的数据,数据点X2可以是来自输入数据集的数据。反之,数据点X1可以是来自输入数据集的数据,数据点X2可以是来自标记数据集的数据。
然后,距离网络Ws可以进一步包括两个结构相同且共享参数的第一子网络和第二子网络。所述第一子网络可以用于对所述标记数据集进行处理即对数据点X1进行处理,而所述第二子网络可以用于对所述输入数据集进行处理即对数据点X2进行处理。同样,所述第一子网络可以用于对所述输入数据集进行处理,而所述第二子网络可以用于对所述标记数据集进行处理。
根据本公开的一个实施例,所述第一子网络的处理可以包括对所述标记数据集的特征提取,以及所述第二子网络的处理可以包括对所述输入数据集的特征提取。
例如,如图2所示,第一子网络的处理可以包括对所述标记数据集中的数据点X1的特征抽取,该特征可以表示为Gw1。第二子网络的处理可以包括对所述输入数据集中的数据点X2的特征提取,该特征可以表示为Gw2。接下来,数据点X1和数据点X2的特征表示的差可以被输入到后续的距离网络Ws中。
根据本公开的一个实施例,所述异常检测单元的输入包括所述输入数据集、所述输入数据集的特征以及所述差异获取单元的训练结果。
亦即,差异获取单元的训练结果即本实施例的距离网络Ws的训练结果(来自输入数据集的数据和来自标记数据集的数据之间计算得来的距离)可以与所述输入数据集和所述输入数据集的特征一起被传递到所述异常检测单元即本实施例的检测网络Wd。
接下来,检测网络Wd可以检测所述输入数据集中的异常数据。
然后,检测网络Wd的检测结果可以传递回距离网络Ws。距离网络Ws再重复上述获取两个输入数据之间的差异并将计算结果传递给检测网络Wd的动作,即对所述距离网络Ws和所述检测网络Wd进行训练,直到所述检测网络Wd最终获得所述输入数据集中的异常数据的位置。
根据本公开的一个实施例,在所述两个输入数据之间的差异满足阈值条件时,所述异常检测单元最终确定所述输入数据集中的异常数据的位置。这里,本领域技术人员应该清楚,可以根据实际的需要例如基于概率分布条件设定该阈值。
根据本公开的一个实施例,在对所述差异获取单元和所述异常检测单元进行训练时,所述差异获取单元的参数和所述异常检测单元的参数可以交替更新。
例如,可以使所述差异获取单元即距离网络Ws的参数保持不变,训练所述异常检测单元即检测网络Wd,然后将检测网络Wd的训练结果传递给距离网络Ws。然后,可以使检测网络Wd的参数保持不变,训练距离网络Ws,然后将距离网络Ws的训练结果传递给检测网络Wd。如此交替地训练距离网络Ws和检测网络Wd直到所述检测网络Wd最终确定所述输入数据集中的异常数据的位置。
根据本公开的一个实施例,所述差异获取单元基于所述标记数据集的特征和所述输入数据集的特征通过距离度量的方式计算所述两个输入数据之间的差异。这里,本领域技术人员应该清楚,通过距离度量的方式计算所述两个输入数据之间的差异仅是示例性的,本公开并不限于此。本领域技术人员可以根据实际的需要,采用本领域中其他计算输入数据之间差异或相似度的方式。
例如,在训练距离网络的过程中,第一子网络和第二子网络可以分别接收单个或批量成对的输入数据,并且通过训练单个两个数据点如X1和X2或批量的数据集中的两个数据点X1和X2的关系(同一类型数据(正常或异常),不同类型数据(一个为正常数据,另一个为异常数据))来学习这两个数据点X1和X2之间的距离。在使用训练好的距离网络时,其中的一个子网络用于接收需要判断的输入数据,另一个子网络则接收已标记好的数据。如上所述,已标记好的数据可以是历史收集的数据,或者是模拟生成的数据,其标签为已知。
具体地,例如,通过训练所述差异获取单元和所述异常检测单元(即距离网络Ws和检测网络Wd),使得输出的距离度量Ew可以反映出两个输入数据之间的差异程度。例如,在输入两个数据点X1和X2时,当这两个数据点属于同一类别(即正常或异常)时,则Ew取值小。而当这两个数据点属于不同类别时,则Ew取值大。
在训练过程中,损失函数设置为:当数据点X1和X2属于同一类别时,则最小化Ew;而当数据点X1和X2属于不同类别时,则最大化Ew。
此外,在训练过程中,所述异常检测单元即检测网络Wd的训练结果可以作为所述差异获取单元即距离网络Ws的输入,这里表示为Od。
具体地,假定Y是表征两个输入数据(例如数据点X1和X2)是否属于同一类别的标签,当数据点X1和X2属于同一类别时,Y=0;当数据点X1和X2属于不同类别时,Y=1。假定Gw(X1)和Gw(X2)分别表示数据点X1和X2的特征表示,Ew可以表示为:
Ew(X1,X2,Od)=Sw(Gw(X1)–Gw(X2)+Od)
其中,Sw表示对输入Gw(X1)–Gw(X2)+Od进行学习的网络。
如上所示,Od表示检测网络Wd的输出,同时也表征了输入数据是否异常的情况,可以视为输入数据和标记数据之间一种类型的差异。
根据本公开的一个实施例,损失函数可以表示为:
Figure BDA0001654977760000061
L(W,(Y,X1,X2)i)=(1-Y)LG(Ew(X1,X2,0d)i)+YLI(Ew(X1,X2,0d)i)
其中,p表示样本总数,(Y,X1,X2)i是第i个样本,该样本包括两个输入数据点和一个表征这两个数据点是否为同一类的标签。LG是表示同一类数据的损失函数,LI是表示不同类样本的损失函数。LG和LI在设计上应该保证当最小化L的同时,使LG变小,而使LI变大。
例如,
Figure BDA0001654977760000071
其中,Q是一个常数,通常被设置为Ew的上限。
这里,本领域技术人员应该清楚,上述损失函数是示例性的,本公开并不限于此,本领域技术人员可以根据实际的需要定义不同的损失函数。
根据本公开的一个实施例,所述第一子网络和所述第二子网络根据所述两个输入数据的类型选择不同的训练模型。
这里,如图2所示,根据本公开的特征图可以是根据输入数据类型的任何合适的形式。例如,RNN适于时间序列数据、CNN适于多变量数据而全连接网络适于单变量数据。
根据本公开的一个实施例,根据所述输入数据集的输入数据的类型,所述检测网络可以包括特征抽取网络和分类层,所述分类层用于提供所述输入数据集的输入数据的表示正常和异常的标签。
根据本公开的数据处理装置,其通过两个相互交互的网络对异常数据进行检测,进而同时提高了这两个网络的性能。
下面将结合图3来描述根据本公开的实施例的数据处理方法。如图3所示,根据本公开的实施例的数据处理方法开始于步骤S310。
在步骤S310中,利用距离网络获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集。
接下来,在步骤S320中,利用检测网络检测所述输入数据集中的异常数据。
然后,在步骤S330中,判断检测网络是否最终获得所述输入数据集中的异常数据的位置。当判断所述检测网络最终获得所述输入数据集中的异常数据的位置为否的情况下,对所述距离网络和所述检测网络进行训练(步骤S330判断为“否”,则返回步骤S310和S320,对所述距离网络和所述检测网络再次进行如上所述的交替训练),直到所述检测网络最终获得所述输入数据集中的异常数据的位置为止(步骤S330判断为“是”,则结束训练)。
根据本公开的一个实施例的数据处理方法,对所述距离网络和所述检测网络进行训练包括将所述距离网络的训练结果作为所述检测网络的输入,以及将所述检测网络的训练结果作为所述距离网络的输入。
根据本公开的一个实施例的数据处理方法,所述距离网络进一步包括两个结构相同且共享参数的第一子网络和第二子网络,其中所述第一子网络用于对所述标记数据集进行处理,以及所述第二子网络用于对所述输入数据集进行处理。
根据本公开的一个实施例的数据处理方法,所述第一子网络的处理包括对所述标记数据集的特征提取,以及所述第二子网络的处理包括对所述输入数据集的特征提取。
根据本公开的一个实施例的数据处理方法,在对所述距离网络和所述检测网络进行训练时,所述距离网络的参数和所述检测网络的参数交替更新。
根据本公开的一个实施例的数据处理方法,所述距离网络基于所述标记数据集的特征和所述输入数据集的特征通过距离度量的方式计算所述两个输入数据之间的差异。
根据本公开的一个实施例的数据处理方法,所述检测网络的输入包括所述输入数据集、所述输入数据集的特征以及所述距离网络的训练结果。
根据本公开的一个实施例的数据处理方法,在所述两个输入数据之间的差异满足阈值条件时,所述检测网络最终确定所述输入数据集中的异常数据的位置。
根据本公开的一个实施例的数据处理方法,所述第一子网络和所述第二子网络根据所述两个输入数据的类型选择不同的训练模型。
根据本公开的一个实施例的数据处理方法,根据所述输入数据集的输入数据的类型,所述检测网络包括特征抽取网络和分类层,所述分类层用于提供所述输入数据集的输入数据的表示正常和异常的标签。
根据本公开的数据处理方法,其通过两个相互交互的网络对异常数据进行检测,进而同时提高了这两个网络的性能。
根据本公开的实施例的数据处理方法的上述步骤的各种具体实施方式前面已经作过详细描述,在此不再重复说明。
显然,根据本公开的数据处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其他适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本公开的技术方案。
图4为其中可以实现根据本公开的实施例的数据处理装置和方法的通用个人计算机1300的示例性结构的框图。
如图4所示,CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中,也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。
下述部件连接到输入/输出接口1305:输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要,驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上,使得从中读出的计算机程序根据需要被安装到存储部分1308中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在本公开的系统和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开,而并不构成对本公开的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此,本公开的范围仅由所附的权利要求及其等效含义来限定。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种数据处理装置,包括:
差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及
异常检测单元,其检测所述输入数据集中的异常数据,
其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置。
附记2.根据附记1所述的装置,其中,对所述差异获取单元和所述异常检测单元进行训练包括将所述差异获取单元的训练结果作为所述异常检测单元的输入,以及将所述异常检测单元的训练结果作为所述差异获取单元的输入。
附记3.根据附记1或2所述的装置,其中,所述差异获取单元进一步包括两个结构相同且共享参数的第一子单元和第二子单元,其中所述第一子单元用于对所述标记数据集进行处理,以及所述第二子单元用于对所述输入数据集进行处理。
附记4.根据附记3所述的装置,其中,所述第一子单元的处理包括对所述标记数据集的特征提取,以及所述第二子单元的处理包括对所述输入数据集的特征提取。
附记5.根据附记2或4所述的装置,其中,在对所述差异获取单元和所述异常检测单元进行训练时,所述差异获取单元的参数和所述异常检测单元的参数交替更新。
附记6.根据附记4所述的装置,其中,所述差异获取单元基于所述标记数据集的特征和所述输入数据集的特征通过距离度量的方式计算所述两个输入数据之间的差异。
附记7.根据附记6所述的装置,其中,所述异常检测单元的输入包括所述输入数据集、所述输入数据集的特征以及所述差异获取单元的训练结果。
附记8.根据附记7所述的装置,其中,在所述两个输入数据之间的差异满足阈值条件时,所述异常检测单元最终确定所述输入数据集中的异常数据的位置。
附记9.根据附记4所述的装置,其中,所述第一子单元和所述第二子单元根据所述两个输入数据的类型选择不同的训练模型。
附记10.根据附记4所述的装置,其中,根据所述输入数据集的输入数据的类型,所述异常检测单元包括特征抽取网络和分类层,所述分类层用于提供所述输入数据集的输入数据的表示正常和异常的标签。
附记11.一种数据处理方法,包括:
利用距离网络获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;
利用检测网络检测所述输入数据集中的异常数据,
其中,对所述距离网络和所述检测网络进行训练,直到所述检测网络最终获得所述输入数据集中的异常数据的位置。
附记12.根据附记11所述的方法,其中,对所述距离网络和所述检测网络进行训练包括将所述距离网络的训练结果作为所述检测网络的输入,以及将所述检测网络的训练结果作为所述距离网络的输入。
附记13.根据附记11或12所述的方法,其中,所述距离网络进一步包括两个结构相同且共享参数的第一子网络和第二子网络,其中所述第一子网络用于对所述标记数据集进行处理,以及所述第二子网络用于对所述输入数据集进行处理。
附记14.根据附记13所述的方法,其中,所述第一子网络的处理包括对所述标记数据集的特征提取,以及所述第二子网络的处理包括对所述输入数据集的特征提取。
附记15.根据附记12或14所述的方法,其中,在对所述距离网络和所述检测网络进行训练时,所述距离网络的参数和所述检测网络的参数交替更新。
附记16.根据附记14所述的方法,其中,所述距离网络基于所述标记数据集的特征和所述输入数据集的特征通过距离度量的方式计算所述两个输入数据之间的差异。
附记17.根据附记16所述的方法,其中,所述检测网络的输入包括所述输入数据集、所述输入数据集的特征以及所述距离网络的训练结果。
附记18.根据附记17所述的方法,其中,在所述两个输入数据之间的差异满足阈值条件时,所述检测网络最终确定所述输入数据集中的异常数据的位置。
附记19.根据附记14所述的方法,其中,根据所述输入数据集的输入数据的类型,所述检测网络包括特征抽取网络和分类层,所述分类层用于提供所述输入数据集的输入数据的表示正常和异常的标签。
附记20.一种程序产品,包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记11-19中任何一项所述的方法。

Claims (9)

1.一种数据处理装置,包括:
差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及
异常检测单元,其检测所述输入数据集中的异常数据,
其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置,并且
其中,对所述差异获取单元和所述异常检测单元进行训练包括将所述差异获取单元的训练结果作为所述异常检测单元的输入,以及将所述异常检测单元的训练结果作为所述差异获取单元的输入。
2.根据权利要求1所述的装置,其中,所述差异获取单元进一步包括两个结构相同且共享参数的第一子单元和第二子单元,其中所述第一子单元用于对所述标记数据集进行处理,以及所述第二子单元用于对所述输入数据集进行处理。
3.根据权利要求2所述的装置,其中,所述第一子单元的处理包括对所述标记数据集的特征提取,以及所述第二子单元的处理包括对所述输入数据集的特征提取。
4.根据权利要求1或3所述的装置,其中,在对所述差异获取单元和所述异常检测单元进行训练时,所述差异获取单元的参数和所述异常检测单元的参数交替更新。
5.根据权利要求3所述的装置,其中,所述差异获取单元基于所述标记数据集的特征和所述输入数据集的特征通过距离度量的方式计算所述两个输入数据之间的差异。
6.根据权利要求5所述的装置,其中,所述异常检测单元的输入包括所述输入数据集、所述输入数据集的特征以及所述差异获取单元的训练结果。
7.根据权利要求6所述的装置,其中,在所述两个输入数据之间的差异满足阈值条件时,所述异常检测单元最终确定所述输入数据集中的异常数据的位置。
8.一种数据处理方法,包括:
利用距离网络获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;
利用检测网络检测所述输入数据集中的异常数据,
其中,对所述距离网络和所述检测网络进行训练,直到所述检测网络最终获得所述输入数据集中的异常数据的位置,并且
其中,对所述距离网络和所述检测网络进行训练包括将所述距离网络的训练结果作为所述检测网络的输入,以及将所述检测网络的训练结果作为所述距离网络的输入。
9.一种机器可读存储介质,其上携带有程序产品,所述程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据权利要求8所述的方法。
CN201810437393.0A 2018-05-09 2018-05-09 数据处理设备、数据处理方法及介质 Active CN110472646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810437393.0A CN110472646B (zh) 2018-05-09 2018-05-09 数据处理设备、数据处理方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810437393.0A CN110472646B (zh) 2018-05-09 2018-05-09 数据处理设备、数据处理方法及介质

Publications (2)

Publication Number Publication Date
CN110472646A CN110472646A (zh) 2019-11-19
CN110472646B true CN110472646B (zh) 2023-02-28

Family

ID=68503613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810437393.0A Active CN110472646B (zh) 2018-05-09 2018-05-09 数据处理设备、数据处理方法及介质

Country Status (1)

Country Link
CN (1) CN110472646B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767967A (zh) * 2020-12-30 2021-05-07 深延科技(北京)有限公司 语音分类方法、装置及自动语音分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225189A (ja) * 2012-04-20 2013-10-31 Hitachi Appliances Inc 電子機器、および、電子機器の異常検出方法
CN103559420A (zh) * 2013-11-20 2014-02-05 苏州大学 一种异常检测训练集的构建方法及装置
CN104915632A (zh) * 2014-03-14 2015-09-16 欧姆龙株式会社 事件检测装置以及事件检测方法
CN106547852A (zh) * 2016-10-19 2017-03-29 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及系统
CN107016398A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN107391569A (zh) * 2017-06-16 2017-11-24 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201012519D0 (en) * 2010-07-26 2010-09-08 Ucl Business Plc Method and system for anomaly detection in data sets
WO2015001544A2 (en) * 2013-07-01 2015-01-08 Agent Video Intelligence Ltd. System and method for abnormality detection
JP6451133B2 (ja) * 2014-08-01 2019-01-16 株式会社リコー 異常検知装置、異常検知方法、異常検知システム、及びプログラム
JP6547275B2 (ja) * 2014-10-29 2019-07-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225189A (ja) * 2012-04-20 2013-10-31 Hitachi Appliances Inc 電子機器、および、電子機器の異常検出方法
CN103559420A (zh) * 2013-11-20 2014-02-05 苏州大学 一种异常检测训练集的构建方法及装置
CN104915632A (zh) * 2014-03-14 2015-09-16 欧姆龙株式会社 事件检测装置以及事件检测方法
CN107016398A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN106547852A (zh) * 2016-10-19 2017-03-29 腾讯科技(深圳)有限公司 异常数据检测方法及装置、数据预处理方法及系统
CN107391569A (zh) * 2017-06-16 2017-11-24 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关于网络数据库传输中异常数据检测仿真研究;李小玲;《计算机仿真》;20180115(第01期);第420-423页 *

Also Published As

Publication number Publication date
CN110472646A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
US20180278640A1 (en) Selecting representative metrics datasets for efficient detection of anomalous data
CN109994155B (zh) 一种基因变异识别方法、装置和存储介质
CN108108743B (zh) 异常用户识别方法和用于识别异常用户的装置
US20180248879A1 (en) Method and apparatus for setting access privilege, server and storage medium
WO2019222462A1 (en) Identification of sensitive data using machine learning
CN105550173A (zh) 文本校正方法和装置
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
CN104067567A (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
Lee et al. MPdist-based missing data imputation for supporting big data analyses in IoT-based applications
CN114385869A (zh) 检测数据异常的方法、装置、存储介质及计算机设备
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN114462532A (zh) 模型训练方法、预测交易风险的方法、装置、设备及介质
CN110472646B (zh) 数据处理设备、数据处理方法及介质
CN115237766A (zh) 模糊测试用例筛选方法、装置、电子设备及存储介质
CN113159934A (zh) 一种网点客流量的预测方法、系统、电子设备及存储介质
CN110335061B (zh) 交易模式画像建立方法、装置、介质及电子设备
EP4187472A1 (en) Method and apparatus for detecting false transaction orders
CN113723555A (zh) 异常数据的检测方法及装置、存储介质、终端
Kirsch Black-box batch active learning for regression
US7885905B2 (en) False discover rate for graphical models
EP4332791A1 (en) Blockchain address classification method and apparatus
CN112348661B (zh) 基于用户行为轨迹的服务策略分配方法、装置及电子设备
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
CN115375412B (zh) 基于图像识别的商品智能推荐处理方法及系统
CN110766165A (zh) 用于恶意url检测的在线主动机器学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant