CN107122394A - 异常数据检测方法和装置 - Google Patents

异常数据检测方法和装置 Download PDF

Info

Publication number
CN107122394A
CN107122394A CN201710145015.0A CN201710145015A CN107122394A CN 107122394 A CN107122394 A CN 107122394A CN 201710145015 A CN201710145015 A CN 201710145015A CN 107122394 A CN107122394 A CN 107122394A
Authority
CN
China
Prior art keywords
data
property value
text
new
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710145015.0A
Other languages
English (en)
Other versions
CN107122394B (zh
Inventor
李刚毅
赵小光
于坤元
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEYONDSOFT Corp
Original Assignee
BEYONDSOFT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEYONDSOFT Corp filed Critical BEYONDSOFT Corp
Priority to CN201710145015.0A priority Critical patent/CN107122394B/zh
Publication of CN107122394A publication Critical patent/CN107122394A/zh
Priority to PCT/CN2018/077507 priority patent/WO2018161824A1/zh
Application granted granted Critical
Publication of CN107122394B publication Critical patent/CN107122394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异常数据检测方法和装置。其中,该方法包括:获取文本;从所述文本中提取多条数据,其中,所述多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,所述每一条数据的属性均相同;对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值,其中,所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数;使用所述每一条数据的新属性值进行机器学习得到数据模型,其中,所述数据模型用于区分从文本中提取的数据是否为异常数据。通过本发明解决了现有技术中所存在的用于培训的数据维度大导致的问题,提高培训效率的同时提高了培训结果的准确度。

Description

异常数据检测方法和装置
技术领域
本发明涉及数据检测技术领域,具体而言,涉及异常数据检测方法和装置。
背景技术
现有技术中在没有领域或领域知识有限的情况下从近自然语言文本中检测异常通常有所限制,例如,对于机器日志,实现当机器日志中出现异常时,可以利用机器学习得到的模型,从而检测到机器日志中的异常;对于机器学习,如果用于机器学习培训的数据维度过大,则会带来如下不良效果:
1)计算量显著上升,计算成本增加,机器学习的培训效率下降;
2)培训结果易于过度拟合,即培训结果更接近原来培训数据集的特征,而不是目标数据集的特征。
3)现有技术中通过简单的削减数据维度,此种方法虽然可以带来计算量的下降,但是该方法有时会去除对培训目标具有代表性的维度,会使培训结果的精度或可靠度下降。
针对现有技术中所存在的用于培训的数据维度大导致的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种异常数据检测方法和装置,以解决现有技术中所存在的用于培训的数据维度大导致的问题。
根据本发明实施例的一个方面,提供了一种异常数据检测方法,包括:获取文本;从所述文本中提取多条数据,其中,所述多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,所述每一条数据的属性均相同;对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值,其中,所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数;使用所述每一条数据的新属性值进行机器学习得到数据模型,其中,所述数据模型用于区分从文本中提取的数据是否为异常数据。
进一步地,获取所述文本包括:获取所述文本中用自然语言表达的数据。
进一步地,从所述文本中提取多条数据包括:将所述文本数据转化为用于机器学习的多条数据。
进一步地,将所述文本数据转化为用于机器学习的多条数据包括:对所述文本数据进行正规化处理,其中,所述正规化处理为去除所述文本数据中的特殊字符和/或将所述文本数据中的大写字母变为小写字母和/或提取所述文本数据中的所述多个属性值。
进一步地,提取所述文本数据中的所述多个属性值包括:通过分词分析从所述用于机器学习的多条数据中提取多个属性值或通过词频分析从所述用于机器学习的多条数据中提取多个属性值。
进一步地,对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值包括:对所述每一条数据的属性值通过主成分分析进行汇合得到所述每一条数据的新属性值。
进一步地,对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值包括:将所述每一条数据的属性值直接合并得到所述每一条数据的新属性值。
进一步地,对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值之后包括:获取所述每一条数据的新属性值的优先级;根据每一个新属性值的优先级从所述所有新属性值中筛选出所述一个或多个新属性值;根据筛选出的所述一个或多个新属性值进行机器学习得到数据模型。
进一步地,使用所述每一条数据的新属性值进行机器学习得到数据模型包括:根据所述每一条数据的新属性值将所述每一条数据进行分类;对相同分类的数据根据发生时间和频率进行学习得到所述数据模型,其中,所述发生时间和所述频率作为区分异常数据的根据之一。
根据本发明实施例的另一方面,提供了一种异常数据检测装置。根据本发明的异常数据检测装置包括:获取单元,用于获取文本;提取单元,用于从所述文本中提取多条数据,其中,所述多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,所述每一条数据的属性均相同;汇合单元,用于对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值,其中,所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数;学习单元,用于使用所述每一条数据的新属性值进行机器学习得到数据模型,其中,所述数据模型用于区分从文本中提取的数据是否为异常数据。
进一步地,所述获取单元包括:第一获取模块,用于获取所述文本中用自然语言表达的数据。
进一步地,所述提取单元包括:转化模块,用于将所述文本数据转化为用于机器学习的多条数据。
进一步地,所述提取单元包括:提取模块,用于将所述文本数据转化为用于机器学习的多条数据之后通过分词分析从所述用于机器学习的多条数据中提取多个属性值或通过词频分析从所述用于机器学习的多条数据中提取多个属性值。
进一步地,所述汇合单元包括:分析模块,用于对所述每一条数据的属性值通过主成分分析进行汇合得到所述每一条数据的新属性值。
进一步地,所述汇合单元包括:合并模块,用于将所述每一条数据的属性值直接合并得到所述每一条数据的新属性值。
进一步地,所述汇合单元,还包括:第二获取模块,用于对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值之后获取所述每一条数据的新属性值的优先级;筛选模块,用于根据每一个新属性值的优先级从所述所有新属性值中筛选出所述一个或多个新属性值;学习模块,用于根据筛选出的所述一个或多个新属性值进行机器学习得到数据模型。
进一步地,所述学习单元包括:分类模块,用于根据所述每一条数据的新属性值将所述每一条数据进行分类;获取模块,用于对相同分类的数据根据发生时间和频率进行学习得到所述数据模型,其中,所述发生时间和所述频率作为区分异常数据的根据之一。
根据本发明实施例的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述方法。
根据发明实施例,一种异常数据检测方法采用获取文本;从所述文本中提取多条数据,其中,所述多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,所述每一条数据的属性均相同;对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值,其中,所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数;使用所述每一条数据的新属性值进行机器学习得到数据模型,其中,所述数据模型用于区分从文本中提取的数据是否为异常数据。通过本发明解决了现有技术中所存在的用于培训的数据维度大导致的问题,提高培训效率的同时提高了培训结果的准确度。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种异常数据检测方法的流程图;
图2是根据本发明实施例的一种异常数据检测装置的结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种异常数据检测方法。图1是根据本发明实施例的一种异常数据检测方法的流程图。如图1所示,该方法包括步骤如下:
步骤S102,获取文本;
步骤S104,从文本中提取多条数据,其中,多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,每一条数据的属性均相同;
步骤S106,对每一条数据的属性值进行汇合得到每一条数据的新属性值,其中,每一条数据的新属性值的个数小于汇合之前的每一条数据的属性值的个数;
步骤S108,使用每一条数据的新属性值进行机器学习得到数据模型,其中,数据模型用于区分从文本中提取的数据是否为异常数据。
例如,当机器日记中有几千条记录,直接对它们进行机器学习培训时会存在两个问题,一个是计算量太过庞大,另一个是由于数据记录很多,所以在训练时很容易将比较少的特别数据排除掉,而这些数据往往就是有问题的数据,是需要进行检测到异常的数据。每一条记录都由不同的属性值组成,比如一条数据记录是S=F(x)/datexyz11…,则该条记录中的属性值有S、date、11、=F(x)/、xyz等,通过本实施例的方法将几千条记录的属性值进行划分为不同的类别,即不同的属性,比如S对应属性是字母、date对应属性是日期、11对应属性是数字。然后将很多不同的维度(多一个属性代表多一个维度)缩减为少数几个维度,也就是每条数据记录分配了新的属性,每条数据记录在新的属性的划分下都有新的属性值,比如,新的属性值可以为S=F(x)/xyz和date11,对新的属性值进行机器学习得到数据模型,根据该数据模型区分判断每一条数据记录是否为异常数据。
在上述步骤采用了将数据的属性值进行降维,这不同于现有技术中,直接使用数据进行机器学习培训得到检测模型的方法。从而解决了现有技术中所存在的用于培训的数据维度大导致的问题,在提高培训效率的同时提高了培训结果的准确度,同时可以在没有领域知识或者领域知识有限的情况下运用该实施例对异常数据进行较准确的检测。
在上述文本中获取的数据可以是多种形式的数据,在一个可选的实施方式中,获取的数据形式可以是用自然语言表达的数据,还可以是用其他语言表达的数据。
通过该方式可以检测任何基于自然语言的异常检测,比如,一组统计表格数据等,还可以对表格形式的数据进行异常检测,可以对机器日记形式的数据进行异常检测,从而增加了异常检测的普遍性,使本实施例的方法适用于多种情况。
在获取到用自然语言表达的文本数据后,可以将所检验的对象转化为便于机器学习的数据,在一个可选的实施方式中,即将文本数据转化为用于机器学习的多条数据。
通过上述过程将文本数据转化为适用于机器学习的数据后,更加便于培训模型,从而增加机器学习的效率。
将文本数据转化为适用于机器学习的数据主要是通过正规化对文本数据进行处理,正规化处理可以有三种不同的实施方式,每种实施方式之间可以任意进行组合,第一个可选的实施方式是:去除文本数据中的特殊字符;第二种可选的实施方式是:将文本数据中的大写字母变为小写字母;第三种可选的实施方式是:提取所述文本数据中的所述多个属性值。
上述将文本数据转化为用于机器学习的多条数据时需要提取所述文本数据中的所述多个属性值,每一条数据可能是连续的一些数字字母组成的,这种数据是没有办法了解到其属性值的,而在很多没有领域知识或者领域知识有限的情况下时,所得到的数据文本都常常是没有属性值的,遇到以上这些情况时,还可以对多条数据提取属性值,提取属性值的方式有两种,在一个可选的实施方式中,可以通过分词分析的方法从用于机器学习的多条数据中提取多个属性值,分词分析是通过规划分词、统计分词或混合分词对将一组数据作为一个句子进行分词处理,拆分为多个分词,下面以规划分词对上述分词分析进行解释,比如一条数据为“error=21date3monthxyz”,通过在预先设定的分词词典中寻找类似的词进行分词,比如分词词典中设置了“error”、“date”、“month”,就将这些词切下,作为特征提取出来,也就是作为数据的属性值提取出来。上述规划分词的分词方法适用于已有分词词典的情况下,有时一组数据中会出现一些词典中没有出现的词,也就是完全没有领域知识的情况,则可以使用统计分词的方法将一条数据进行拆分,比如,一条数据为“date21date3monthxyz”,则通过统计分词将该条数据拆分为“21”、“3”、“xyz”、“date”和“month”等。再比如一条数据为“GetAndPublishWebService@fail.”,首先将该文本数据进行正规化处理转化为用于机器学习的数据,此时该条数据变为“getandpublishwebservicefail”该条数据中的大写字母变为了小写字母,特殊字符@被去除,然后在没有领域知识的情况下,通过统计分词的方式将该条数据差分为“get”、“and”、“publish”、“web”、“service”、“fail”。本实施例中统计分词的方法可以支持中文或英文,在进行统计分词时,可以将原有数据拆分为一个或一个以上的词所组成的分词词组,例如,我喜欢苹果,可以进行分词处理后变为我、喜欢、苹果,也可以进行统计分词后分解为我喜欢、喜欢苹果。
除了上述通过分词分析的方法从多条数据中提取多个属性值,还可以通过词频分析从用于机器学习的多条数据中提取多个属性值,即对每一数据统计重复出现的词,将重复出现概率大的词作为一个属性值提取出,例如,一条数据为“date21date3monthxyz”通过词频统计分析方法将词频出现概率最高的“date”提取出。从而更加便于机器学习,增加机器学习的准确性和效率。
在上述步骤中,对每一条数据的属性值进行汇合得到每一条数据的新属性值时有两种实施方式,第一种实施方式是对每一条数据的属性值通过主成分分析进行汇合得到每一条数据的新属性值。主成分分析是将多维进行降维的一种方法,主成分分析也称主分量分析,利用降维的思想把多指标转化为少数几个综合指标。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,1个变量就有1个主成分。本实施例的每一条数据经过主成分分析后,将原本的指标转化为新的指标,也就是将每一条数据的属性变为了新的属性,新的属性小于原本的属性数量,每一条数据的属性值也变为新的属性值。
第二种实施方式是将每一条数据的属性值直接合并得到每一条数据的新属性值。直接合并是指将一些类似的属性直接合并,比如都是数字形式的属性可以作为一种类似的属性,再比如都是时间形式的属性可以作为一种类似的属性,还可以将文本形式的属性值对应的属性作为一种类似的属性,然后可以合并上述这些类似属性对应的属性值,从而达到降维的目的。
通过上述合并方式,利用无损的特征合并有效的减少数据维度的同时,又不降低机器学习的效果,还可以保证所保留的数据维度仍然可以具有最大限度的代表性,从而增加异常检测的准确性。
对每一条数据的属性值进行汇合得到每一条数据的新属性值之后,还可以根据新属性值得优先级来筛选数据模型,在一个可选的实施方式中,可以先获取每一条数据的新属性值的优先级;再根据每一个新属性值的优先级从所有新属性值中筛选出一个或多个新属性值;最后根据筛选出的一个或多个新属性值进行机器学习得到数据模型。
新的属性值的优先级可以是指新的属性值中最能代表数据特点的属性值,也可以是根据不同情况来指定一个优先级,比如,统计一组数据时,更加关注带有“error”一词的数据异常情况,因此可以将单词属性中的带有“error”一词开头词组的数据作为最高优先级。根据该属性值进行机器学习得到数据模型。
通过上述过程中的选取优先级来筛选掉一部分属性值,减少数据的维度,将筛选出的新属性值进行机器学习得到数据模型,从而增加计算的速度,减少计算成本。
在对每一条数据的新属性值进行机器学习得到数据模型时,还可以将异常数据的发生时间和频率作为筛选异常数据的标准,例如可以根据每一条数据的新属性值将每一条数据进行分类;对相同分类的数据根据发生时间和频率进行学习得到数据模型,其中,发生时间和频率作为区分异常数据的根据之一。下面举例对于发生时间作为区分异常数据进行说明:当一组数据在某一段时间内反复出现时就可以得到的数学模型,当该组数据突然不再出现时就可以立刻判定为异常。有时机器日记出现问题时,会表现为同样的数据反复出现的情况,或者下面举例对于频率作为区分异常数据进行说明:根据一组数据出现的频率学习建立判定异常数据的数学模型,当该组数据出现的频率突然改变时,则可以根据数学模型判定为异常的数据。
下面结合一个可选的实施例进行说明。
表1是根据本发明实施例的一种异常数据检测方法的待检测数据表,如表1所示,
表1
在该数据表中,每一横排代表一组数据,每组数据有很多列,即有很多属性,比如Gender、Height等,数据的每一个属性都有对应的属性值,每一条数据均由多个属性值构成。比如,ID为1的第1条数据的属性值有:1、165、55、1、1,分别对应的属性为:Gender、Height、Age、city、Occupation。表1中待检测数据表的city和Occupation等列可以使用数字替代;
对表1中每一组数据的属性值通过主成分分析进行降维得到每一条数据的新属性值(新的feature),表2是根据本发明实施例的一种异常数据检测方法的降维数据表,如表2所示:
表2
通过降维,本实施例将5列变成了3列,分别是PC1、PC2、PC3,新的feature(新的属性值)是原有列的线性变换,具体变换公式如下:
PC1=-0.3085328*Gender+0.3260416*Height+0.5555709*Age+0.5013550*City-0.4883529*Occupat ion;
PC2=0.3574484*Gender-0.5767465*Height+0.4192386*Age-0.3488463*City-0.4920766*Occupation;
PC3=-0.87057667*Gender-0.43415427*Height-0.09021272*Age-0.20623074*City-0.05419287*Occupation;
经过变化后的数据表如表3所示:
表3
每组数据的属性变为PC1、PC2、PC3,但是新的属性值是由原有的属性值经过变换得到,也就是由原有的属性组成,所以新的属性保留有原有属性的信息特点。
将经过变化后的数据表中每一条数据的新属性值进行机器学习得到数据模型,通过数据模型区分从文本中提取的数据是否为异常数据。
下面结合另一个可选的实施例进行说明。
以表4为例,表4是根据本发明实施例的一种异常数据检测方法的待检测数据表,先判断表4待检测数据表中每组数据的属性值是文本、数字还是时间,将每组数据的文本,数字,时间等列分别进行直接合并,得到每组数据的新属性值。合并后的数据表如表5所示。
表4
ID Numeric text
1 165,55 男,北京,IT
2 180,29 男,上海,公务员
3 172,40 男,深圳,金融
4 144,38 男,北京,金融
5 132,26 男,北京,公务员
6 170,45 女,上海,IT
7 160,23 女,上海,金融
8 150,45 女,上海,金融
9 174,23 女,北京,公务员
10 163,67 女,深圳,金融
表5
将经过变化后的数据表中每一条数据的新属性值进行机器学习得到数据模型,通过数据模型区分从文本中提取的数据是否为异常数据。
本发明实施例还提供了一种异常数据检测装置。该装置可以通过获取单元、提取单元、汇合单元和学习单元实现其功能。需要说明的是,本发明实施例的一种异常数据检测装置可以用于执行本发明实施例所提供的一种异常数据检测方法,本发明实施例的一种异常数据检测方法也可以通过本发明实施例所提供的一种异常数据检测装置来执行。
图2是根据本发明实施例的一种异常数据检测装置的示意图。如图2所示,一种异常数据检测装置包括:
获取单元22,用于获取文本;
提取单元24,用于从文本中提取多条数据,其中,多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,每一条数据的属性均相同;
汇合单元26,用于对每一条数据的属性值进行汇合得到每一条数据的新属性值,其中,每一条数据的新属性值的个数小于汇合之前的每一条数据的属性值的个数;
学习单元28,用于使用每一条数据的新属性值进行机器学习得到数据模型,其中,数据模型用于区分从文本中提取的数据是否为异常数据。
在一个可选的实施方式中,获取单元包括:第一获取模块,用于获取文本中用自然语言表达的数据。
在一个可选的实施方式中,提取单元包括:转化模块,用于将文本数据转化为用于机器学习的多条数据。
在一个可选的实施方式中,提取单元包括:提取模块,用于将文本数据转化为用于机器学习的多条数据之后通过分词分析从用于机器学习的多条数据中提取多个属性值或通过词频分析从用于机器学习的多条数据中提取多个属性值。
在一个可选的实施方式中,汇合单元包括:分析模块,用于对每一条数据的属性值通过主成分分析进行汇合得到每一条数据的新属性值。
在一个可选的实施方式中,汇合单元包括:合并模块,用于将每一条数据的属性值直接合并得到每一条数据的新属性值。
在一个可选的实施方式中,汇合单元,还包括:第二获取模块,用于对每一条数据的属性值进行汇合得到每一条数据的新属性值之后获取每一条数据的新属性值的优先级;筛选模块,用于根据每一个新属性值的优先级从所有新属性值中筛选出一个或多个新属性值;学习模块,用于根据筛选出的一个或多个新属性值进行机器学习得到数据模型。
在一个可选的实施方式中,学习单元包括:分类模块,用于根据每一条数据的新属性值将每一条数据进行分类;获取模块,用于对相同分类的数据根据发生时间和频率进行学习得到数据模型,其中,发生时间和频率作为区分异常数据的根据之一。
上述一种异常数据检测装置实施例是与一种异常数据检测方法相对应的,所以对于有益效果不再赘述。通过上述实施例的分析描述,相对于现有技术检测来说,上述实施例中的部分可选实施方式有以下技术上的效果:
对于机器学习,如果用于培训的数据维度过大,则会带来如下不良效果:
1)计算量显著上升,计算成本增加,培训效率下降;
2)培训结果易于过度拟合(即培训结果更接近培训数据集的特征,而不是目标数据集的特征)。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述方法。
简单的削减数据维度虽然可以带来计算量的下降,但是如果去除的是对培训目标具有代表性的维度,那么也会造成培训结果的精度或可靠度下降。因此我们需要利用有效的方法来降低数据的维度,同时保证所保留的维度仍然可以具有最大限度的代表性(即无损降维)。本实施例利用无损的特征合并减少数据维度,同时不降低机器学习的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种异常数据检测方法,其特征在于,包括:
获取文本;
从所述文本中提取多条数据,其中,所述多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,所述每一条数据的属性均相同;
对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值,其中,所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数;
使用所述每一条数据的新属性值进行机器学习得到数据模型,其中,所述数据模型用于区分从文本中提取的数据是否为异常数据。
2.根据权利要求1所述的方法,其特征在于,获取所述文本包括:
获取所述文本中用自然语言表达的数据。
3.根据权利要求2所述的方法,其特征在于,从所述文本中提取多条数据包括:
将所述文本数据转化为用于机器学习的多条数据。
4.根据权利要求3所述的方法,其特征在于,将所述文本数据转化为用于机器学习的多条数据包括:
对所述文本数据进行正规化处理,其中,所述正规化处理为去除所述文本数据中的特殊字符和/或将所述文本数据中的大写字母变为小写字母和/或提取所述文本数据中的所述多个属性值。
5.根据权利要求3所述的方法,其特征在于,提取所述文本数据中的所述多个属性值包括:
通过分词分析从所述用于机器学习的多条数据中提取多个属性值,或者,
通过词频分析从所述用于机器学习的多条数据中提取多个属性值。
6.根据权利要求1至5任意一项所述的方法,其特征在于,对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值包括:
对所述每一条数据的属性值通过主成分分析进行汇合得到所述每一条数据的新属性值。
7.根据权利要求1至5任意一项所述的方法,其特征在于,对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值包括:
将所述每一条数据的属性值直接合并得到所述每一条数据的新属性值。
8.一种异常数据检测装置,其特征在于,包括:
获取单元,用于获取文本;
提取单元,用于从所述文本中提取多条数据,其中,所述多条数据中的每一条数据均由多个属性值构成,每个属性值对应该数据的一个属性,所述每一条数据的属性均相同;
汇合单元,用于对所述每一条数据的属性值进行汇合得到所述每一条数据的新属性值,其中,所述每一条数据的新属性值的个数小于汇合之前的所述每一条数据的属性值的个数;
学习单元,用于使用所述每一条数据的新属性值进行机器学习得到数据模型,其中,所述数据模型用于区分从文本中提取的数据是否为异常数据。
9.根据权利要求8所述的装置,其特征在于,所述获取单元包括:
第一获取模块,用于获取所述文本中用自然语言表达的数据。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1-5任意一项所述的方法。
CN201710145015.0A 2017-03-10 2017-03-10 异常数据检测方法和装置 Active CN107122394B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710145015.0A CN107122394B (zh) 2017-03-10 2017-03-10 异常数据检测方法和装置
PCT/CN2018/077507 WO2018161824A1 (zh) 2017-03-10 2018-02-28 异常数据检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710145015.0A CN107122394B (zh) 2017-03-10 2017-03-10 异常数据检测方法和装置

Publications (2)

Publication Number Publication Date
CN107122394A true CN107122394A (zh) 2017-09-01
CN107122394B CN107122394B (zh) 2020-02-14

Family

ID=59717930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710145015.0A Active CN107122394B (zh) 2017-03-10 2017-03-10 异常数据检测方法和装置

Country Status (2)

Country Link
CN (1) CN107122394B (zh)
WO (1) WO2018161824A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161824A1 (zh) * 2017-03-10 2018-09-13 博彦科技股份有限公司 异常数据检测方法和装置
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN110225207A (zh) * 2019-04-29 2019-09-10 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070220371A1 (en) * 2006-02-06 2007-09-20 International Business Machines Corporation Technique for mapping goal violations to anamolies within a system
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN105868256A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 处理用户行为数据的方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023927B (zh) * 2013-01-10 2016-03-16 西南大学 一种稀疏表达下的基于非负矩阵分解的入侵检测方法及系统
WO2014109388A1 (ja) * 2013-01-11 2014-07-17 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
CN103235803B (zh) * 2013-04-17 2016-12-28 北京京东尚科信息技术有限公司 一种从文本中获取物品属性值的方法和装置
CN106447383A (zh) * 2016-08-30 2017-02-22 杭州启冠网络技术有限公司 跨时间、多维度异常数据监测的方法和系统
CN107122394B (zh) * 2017-03-10 2020-02-14 博彦科技股份有限公司 异常数据检测方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070220371A1 (en) * 2006-02-06 2007-09-20 International Business Machines Corporation Technique for mapping goal violations to anamolies within a system
CN105553998A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN105868256A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 处理用户行为数据的方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161824A1 (zh) * 2017-03-10 2018-09-13 博彦科技股份有限公司 异常数据检测方法和装置
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN110225207A (zh) * 2019-04-29 2019-09-10 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质
CN110225207B (zh) * 2019-04-29 2021-08-06 厦门快商通信息咨询有限公司 一种融合语义理解的防骚扰方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN107122394B (zh) 2020-02-14
WO2018161824A1 (zh) 2018-09-13

Similar Documents

Publication Publication Date Title
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
EP2821927A1 (en) Document classification system, document classification method, and document classification program
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN102576358A (zh) 单词对取得装置、单词对取得方法及其程序
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN104137097A (zh) 谓语模板收集装置、特定短语对收集装置、以及用于它们的计算机程序
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
CN104951430B (zh) 产品特征标签的提取方法及装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN106528527A (zh) 未登录词的识别方法及识别系统
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN112836809A (zh) 一种基于差分特征融合的卷积神经网络的设备特性提取方法以及故障预测的方法
CN107122394A (zh) 异常数据检测方法和装置
Gerhana et al. Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period
CN102033867B (zh) 用于xml文档分类的语义相似度度量方法
Paradis et al. Augmenting topic finding in the NASA Aviation Safety Reporting System using topic modeling
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
CN110659365A (zh) 一种基于多层次结构词典的畜产品安全事件文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant