CN114117134A - 一种异常特征检测方法、装置、设备和计算机可读介质 - Google Patents

一种异常特征检测方法、装置、设备和计算机可读介质 Download PDF

Info

Publication number
CN114117134A
CN114117134A CN202111317995.0A CN202111317995A CN114117134A CN 114117134 A CN114117134 A CN 114117134A CN 202111317995 A CN202111317995 A CN 202111317995A CN 114117134 A CN114117134 A CN 114117134A
Authority
CN
China
Prior art keywords
feature
abnormal
data
aggregative
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111317995.0A
Other languages
English (en)
Inventor
林佳輝
郭群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingyun Digital Technology Co Ltd
Original Assignee
Nanjing Xingyun Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingyun Digital Technology Co Ltd filed Critical Nanjing Xingyun Digital Technology Co Ltd
Priority to CN202111317995.0A priority Critical patent/CN114117134A/zh
Publication of CN114117134A publication Critical patent/CN114117134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本发明公开了一种异常特征检测方法、装置、设备和计算机可读介质,属于大数据处理技术领域。所述方法包括:获取待检测对象的特征数据;根据特征数据建立节点并确定节点之间的关联关系,构建关系图谱;根据关系图谱计算待检测对象的聚集性特征;根据聚集性特征利用预先建立的孤立森林模型检测特征数据中的异常特征。本发明利用孤立森林模型检测待检测对象的异常特征,对于日渐增长的数据量具有极佳的可扩展性;采用关系图谱计算聚集性特征,提高了聚集性特征计算的效率。

Description

一种异常特征检测方法、装置、设备和计算机可读介质
技术领域
本发明涉及大数据处理技术领域,特别涉及一种异常特征检测方法、装置、设备和计算机可读介质。
背景技术
异常特征识别通常应用到电商、互联网金融等业务场景对风险用户的识别中,或者应用于解决数据分类的问题。目前,异常特征的识别通常基于带有标签的样本数据训练的机器学习模型进行数据分类,然而在某些业务场景中,受限于异常样本数据的稀缺性,往往难以收集有标签的样本数据训练模型,因此需要采用无监督(即不需要带标签的样本数据)的异常特征的检测方法,透过适当的特征设计,对于大多数数据有显著差异或不符合预期模式的异常特征进行检测识别。
现有技术中无监督异常特征检测方法通常包括:基于有纯统计分析和基于密度的局部离群因子检测方法。其中,有纯统计分析需要对特征分布的假设,若与现实状况不符,则容易导致偏差;基于密度的局部离群因子检测方法需要计算样本点之间的距离,造成平方阶的算法时间复杂度会大大限制建模效能。由此可见现有技术中的无监督异常特征检测方法均不能达到理想的检测效果。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种异常特征检测方法、装置、设备和计算机可读介质。所述技术方案如下:
第一方面,提供了一种异常特征检测方法,所述方法包括:
获取待检测对象的特征数据;
根据所述特征数据建立节点并确定节点之间的关联关系,构建关系图谱;
根据所述关系图谱计算所述待检测对象的聚集性特征;
根据所述聚集性特征利用预先建立的孤立森林模型检测所述特征数据中的异常特征。
进一步地,所述根据所述特征数据建立节点并确定节点之间的关联关系,构建关系图谱,包括:
根据不同级别的所述特征数据建立节点;
以某一所述特征数据为起点确定不同级别的节点关联关系。
进一步地,所述根据所述关系图谱计算所述特征数据的聚集性特征,包括:
遍历所述关系图谱,确定所述关系图谱中的关联特征;
计算所述关联特征对应的关联数量,将所述关联数量与预设的聚集条件对比,若所述关联数量满足所述聚集条件,则确定所述关联数量对应的所述关联特征为所述聚集性特征。
进一步地,所述根据所述关系图谱计算所述特征数据的聚集性特征,包括:
根据所述关系图谱分布式计算所述特征数据的聚集性特征。
进一步地,所述根据所述聚集性特征利用预先建立的孤立森林模型检测所述特征数据中的异常特征,包括:
将所述聚集性特征输入至所述孤立森林模型中,获得所述聚集性特征的特征评分;
将所述特征评分与异常条件对比,若所述特征评分满足所述异常条件,则确定所述特征评分对应的所述聚集性特征为异常特征。
进一步地,所述孤立森林模型的建立包括:
获取训练样本;
循环采用多重二分法对所述训练样本进行随机的超平面切割,得到包括数据点的树状数据结构;
判断所述树状数据结构中数据点是否满足停止条件,若满足,则停止循环分割。
进一步地,所述方法还包括:
获取所述异常特征的定性信息;
根据所述定性信息在所述关系图谱中查询与所述异常特征对应的节点;
在所述关系图谱中标记所述异常特征对应的节点为异常节点。
第二方面,提供了一种异常特征检测装置,所述装置包括:
数据获取模块,用于获取待检测对象的特征数据;
关系图谱构建模块,用于根据所述特征数据建立节点并确定节点间的关联关系,构建关系图谱;
聚集性特征计算模块,用于根据所述关系图谱计算所述待检测对象的聚集性特征;
异常特征检测模块,用于根据所述聚集性特征利用预先建立的孤立森林模型检测所述特征数据中的异常特征。
进一步地,数据获取模块,包括:
关系图谱构建模块,具体用于:
根据特征数据建立节点;
以某一特征数据为起点确定不同级别的节点关联关系。
进一步地,聚集性特征计算模块,具体用于:
遍历关系图谱,确定关系图谱中的关联特征;
计算关联特征对应的关联数量,将关联数量与预设的聚集条件对比,若关联数量满足聚集条件,则确定关联数量对应的关联特征为聚集性特征。
进一步地,聚集性特征计算模块,具体用于:
根据关系图谱分布式计算特征数据的聚集性特征。
进一步地,常特征检测模块,具体用于:
将聚集性特征输入至孤立森林模型中,获得聚集性特征的特征评分;
将特征评分与异常条件对比,若特征评分满足异常条件,则确定特征评分对应的聚集性特征为异常特征。
进一步地,本发明公开的异常特征检测装置,还包括:
模型建立模块,用于建立孤立森林模型,具体包括:
获取训练样本;
循环采用多重二分法对训练样本进行随机的超平面切割,得到包括数据点的树状数据结构;
判断树状数据结构中数据点是否满足停止条件,若满足,则停止循环分割。
进一步地,本发明公开的异常特征检测装置,还包括:
人工审核模块,用于获取异常特征的定性信息;
标记模块,用于根据定性信息在关系谱图中查询与异常特征对应的节点;以及,在关系图谱中标记异常特征对应的节点为异常节点。
第三方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面任一所述的方法。
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如第一方面任一所述的方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明公开的技术方案,利用孤立森林模型检测待检测对象的异常特征,无需假设样本分布及复杂的模型参数调整,孤立森林模型的时间复杂度随数据量为线性阶,对于日渐增长的数据量具有极佳的可扩展性;
本发明公开的技术方案,采用关系图谱计算聚集性特征,相对于传统的通过多个数据表连接查询计算的方式,特征数据之间的关系更加直观,关系图谱中可容纳多个数据表中的数据,无需在多个数据表中反复查找,提高了聚集性特征计算的效率;
本发明公开的技术方案,采用分布式图计算的方法相对于传统关系型数据库能够更高效地计算,也利于与通用的Spark分布式系统整合;
本发明公开的技术方案,还包括孤立森林建模反馈过程,对于孤立森林检测出的异常特征再进行人工审核,利用审核结果标记关系图谱,利用标记过的关系图谱迭代训练模型,提高模型检测的准确度,形成了模型优化迭代的闭环方案。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的异常特征检测方法流程图;
图2是本发明实施例提供的人工审核反馈流程图;
图3是本发明实施例提供的异常特征检测装置结构示意图;
图4是本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述现有的无监督异常特征检测方法,或存在与现实情况不符,容易产生偏差,或存在建模效能被限制,聚类分析效率降低的问题。本发明实施例为了解决现有技术中存在的问题,提供了一种异常特征检测方法、装置、设备和计算机可读介质,具体技术方案如下:
如图1所示,一种异常特征检测方法,包括:
S1、获取待检测对象的特征数据。
上述,待检测对象和本发明实施例公开的技术方案应用的业务场景有关,例如当其应用到金融风控业务领域时,待检测对象为借贷用户;当其应用到电商业务领域时,待检测对象为消费用户;当其应用到产品分析业务领域时,待检测对象为某一类产品,或者某一款产品。特征数据与业务场景和确定的待检测对象有关,具体可对应为待检测对象的属性信息,例如对于待检测用户为借贷用户,特征数据可以包括:身份证号、个人电话、家庭住址、家庭电话、工作单位名称、工作单位地址、工作单位电话等;对于待检测对象为产品,特征数据可以是产品类别、产品价格、产品品牌、生产厂家等。
S2、根据特征数据建立节点并确定节点之间的关联关系,构建关系图谱。
上述,相对于现有技术中通过多个数据表进行连接查询,获取聚集特征的方法,本发明实施例提供了通过关系图谱直观展现特征数据之间的关联关系。前者需要在多个数据表中反复查询,导致异常特征检测的效率低下,而后者通过关系图谱可以容纳海量特征数据,并且直观显示,避免了数据表中的数据查询,提高了建模效率。关系图谱中包括多个节点,每个节点代表一个特征数据,节点之间的有向或无向的连线表示节点之间的关联关系。
在一个实施例中,可通过图数据库或者采用分布式图计算平台的方法构建关系图谱。
上述,对于图数据库,可基于原生图存储工具构建,如Neo4j,该工具能够高效支持图查询语法,并提供极佳的图示化体验。对于分布式图计算平台,可采用Spark上的开源项目GraphFrames构建,该方法可直接利用集群的计算资源和定制化所需的图算法,通过分布式计算实现关系图谱的高效建立。
在一个实施例中,步骤S2包括:
根据特征数据建立节点;
以某一所述特征数据为起点确定不同级别的节点关联关系。
上述实施例中将特征数据的关联关系分级,是为了更全面细致地分析待检测对象的特征数据。以某一所述特征数据为起点确定不同级别的节点关联关系可以以基本的可标识用户唯一性的特征数据为起点,例如身份证号。表1中所示的为获得的特征数据示例,表中属性一栏为节点属性标记具体可人工定性,用于提高节点的是否异常的辨识性。作为一种情况地,可将特征数据按照分级规则分级,例如身份证号为一级特征数据,公司单位、个人电话、住宅电话为二级特征数据,公司单位电话为三级特征数据。表2中所示为节点关系示例,即根据特征数据的关联信息确定节点之间的关联关系。在前述特征数据分级分级的前提下,可将特征数据的级别对节点关联关系分级,具体可以根据预先制定的关联关系分级规则进行。举例说明:在金融风险检测中,待检测对象为借贷用户,对特征数据分级,身份证号为一级特征数据,公司单位、个人电话、住宅电话为二级特征数据,公司单位电话为三级特征数据,因此一度关系特征可为一个身份证号关联的公司个数,二度关系可为一个身份证号关联的公司单位电话个数。
表1:图节点设计样例
节点 释义 属性(人工定性结果)
id_num 身份证号 人工定性标签(0:无造假,1:造假,2:未定)
phone 个人电话 人工定性是否涉及造假(0:否,1:是,2:未定)
home_phone 住宅电话 人工定性是否涉及造假(0:否,1:是,2:未定)
residence_address 居住地址 人工定性是否涉及造假(0:否,1:是,2:未定)
mailing_address 通讯地址 人工定性是否涉及造假(0:否,1:是,2:未定)
company 公司单位 人工定性是否涉及造假(0:否,1:是,2:未定)
company_phone 公司单位电话 人工定性是否涉及造假(0:否,1:是,2:未定)
表2:图关系设计样例
Figure BDA0003344440160000071
Figure BDA0003344440160000081
S3、根据关系图谱计算待检测对象的聚集性特征。
上述,聚集性特征主要指对应的关联特征数量较多或者满足聚集性条件的特征数据。基于构建关系图谱相同的方法,计算待检测对象的聚集性特征也可以通过原生图存储工具或者分布式图计算平台计算。
在一个实施例中,步骤S3包括:
根据关系图谱分布式计算特征数据的聚集性特征。
上述,聚集性特征可采用分布式图计算平台计算获得,采用分布式图计算的方法相对于传统关系型数据库能够更高效地计算,也利于与通用的Spark分布式系统整合,支持图查询语法,大大简化聚集性特征的代码逻辑。
在一个实施例中,步骤S3包括:
遍历关系图谱,确定关系图谱中的关联特征;
计算关联特征对应的关联数量,将关联数量与预设的聚集条件对比,若关联数量满足聚集条件,则确定关联数量对应的关联特征为聚集性特征。
上述,关系图谱中包括有多个节点,各节点代表一个特征数据,首先需要查询到和具有关联关系的节点,即和其他特征数据有关联关系的特征数据。确定关联特征,可以定义只要关系图谱中的节点和其他节点有关联关系,就将其作为关联特征,或者可以定义关联特征条件,例如满足一定关联数量的节点对应的特征数据才是关联特征。如表3所示,关联数量指节点对应的关联节点的数量。基于在步骤S2在构建关系图谱过程中对于不同关联关系的分级,计算聚集性特征时,可以根据关联特征对应的关联数量计算,例如,身份证号对应公司单位的数量,公司单位对应公司单位电话的数量。当关联数量满足预设的聚集条件时,则确定该关联特征为聚集性特征,其中聚集条件为关联数量需要满足的数量条件。
表3:聚集性特征设计样例
Figure BDA0003344440160000091
另外,在一个实施例中,还可以根据关联数量对聚集性特征进行分级,例如:满足第一预设数量条件的的关联特征为一级聚集性特征,满足第二预设数量条件的关联特征为二级聚集性特征……级别越高,聚集性特征对应的关联数量越多,聚集性特征的级别越高。
S4、根据聚集性特征利用预先建立的孤立森林模型检测特征数据中的异常特征。
上述,本发明实施例公开的方法中,根据聚集性特征检测异常特征,聚集性特征由于关联特征的数量较多,更有可能为异常特征。孤立森林模型包括多个数量的二叉树,在多次数据分割中孤立的异常特征会位于密度低的子空间,在交期的随机切割就被分离出来,所以孤立森林模型可以确定聚集性特征中的孤立特征,该孤立特征更有可能是异常特征。
在一个实施例中,步骤S4包括:
将聚集性特征输入至孤立森林模型中,获得聚集性特征的特征评分;
将特征评分与异常条件对比,若特征评分满足异常条件,则确定特征评分对应的聚集性特征为异常特征。
上述,如前所述孤立森林模型能够在特征数据的随机分割中,确定聚集性特征中的孤立特征,根据各聚集性特征的孤立程度进行特征评分,该特征评分表示聚集性特征的孤立程度或者异常程度,定义如下:
Figure BDA0003344440160000101
其中各项分别解释如下:
x是某数据点;
n是孤立森林算法中每训一棵树需要的数据子集的样本个数;
h(x)是x在孤立森林中某棵树的深度;
E(h(x))是x在孤立森林中所有树的深度平均值;
c(n)是由n个数据点生成的树中搜索的平均路径长度[6],用来对E(h(x))做归一化,其计算方法如下:
c(n)=2H(n-1)-(2(n-1)/n)
其中H(i)是调和级数,其近似求和公式如下,最后一项常数为欧拉常数:
H(i)≈ln(i)+0.5772156649
因为有特征评分的定义,与一般的机器学习模型类似,该模型训练完后,再通过选定一个分数阈值后,可对现有训练数据及将来的数据进行分数预测和判定异常点。
在一个实施例中,孤立森林模型的建立包括:
获取训练样本;
循环采用多重二分法对训练样本进行随机超平面切割,得到包括数据点的树状数据结构;
判断树状数据结构中数据点是否满足停止条件,若满足,则停止循环分割。
上述,主要公开了孤立森林模型的建模过程,其中,获取训练样本可在关系图谱中获取,获取训练样本时在训练集中随机挑出n个样本,训练集中包括有特征数据。数据分割时,在多位的特征空间里不断做随机的超平面切割,每次切割生成两个子空间,相当于一个二叉树递归式的将父节点上的数据集分成两个数据子集放在子节点上从而形成数据点,当子节点上的数据子集满足停止条件则停止切割,二叉树停止生长。如此重复,可构建包括多个树状数据结构的孤立森林模型。
在一个实施例中,为了迭代训练孤立森林模型,本发明实施例公开的技术方案还包括:
获取异常特征的定性信息;
根据定性信息在关系图谱中查询与异常特征对应的节点;
在关系图谱中标记异常特征对应的节点为异常节点。
上述,实质上为利用确定的异常特征为孤立森林模型的建模进行反馈,其中定性信息为在孤立森林模型检测出异常特征的基础上,人工对异常特征的再认定,通过人工审核确定该异常特征是否异常,定性信息通常包括:该异常特征是否被定性为确定异常,定性信息可以作为异常特征的标签。若是则可以作为孤立森林模型的反馈信息。建立人工审核任务时,可根据异常特征的特征评分的排序确定人工审核的优先级。
如图2以及表2中属性栏所示,在分布式图计算平台构建关系图谱以及计算聚集性特征,利用孤立森林模型检测异常特征,输出异常特征后进行人工审核,将审核结果作为定性标签,标记在关系图谱中,在构建孤立森林模型时,被标记的节点可以作为训练数据再训练模型,从而优化模型的准确性。
以上,本发明实施例公开的异常特征检测方法,利用孤立森林模型检测待检测对象的异常特征,属于前沿的无监督异常值检测方法,无需假设样本分布及复杂的模型参数调整,孤立森林模型的时间复杂度随数据量为线性阶,对于日渐增长的数据量具有极佳的可扩展性。采用关系图谱计算聚集性特征,相对于传统的通过多个数据表连接查询计算的方式,特征数据之间的关系更加直观,关系图谱中可容纳多个数据表中的数据,无需在多个数据表中反复查找,提高了聚集性特征计算的效率。
基于上述本发明实施例公开的异常特征检测方法,如图3所示,本发明实施例还提供一种异常特征检测装置,包括:
数据获取模块301,用于获取待检测对象的特征数据。
关系图谱构建模块302,用于根据特征数据建立节点并确定节点间的关联关系,构建关系图谱。
聚集性特征计算模块303,用于根据关系图谱计算待检测对象的聚集性特征。
异常特征检测模块304,用于根据聚集性特征利用预先建立的孤立森林模型检测特征数据中的异常特征。
上述,待检测对象和本发明实施例公开的技术方案应用的业务场景有关。特征数据与业务场景和确定的待检测对象有关,具体可对应为待检测对象的属性信息。关系图谱中包括多个节点,每个节点代表一个特征数据。聚集性特征主要指对应的关联特征数量较多或者满足聚集性条件的特征数据。孤立森林模型用于检测在聚集性特征中孤立的特征数据。
在一个实施例中,数据获取模块301,包括:
关系图谱构建模块302,具体用于:
根据特征数据建立节点;
以某一特征数据为起点确定不同级别的节点关联关系。
上述,特征数据分级可以根据预先的分级规则进行,关联关系分级可以根据预先制定的关联关系分级规则进行。
在一个实施例中,通过图数据库或者采用分布式图计算平台构建关系图谱。
上述,对于图数据库,可基于原生图存储工具构建,如Neo4j,该工具能够高效支持图查询语法,并提供极佳的图示化体验。对于分布式图计算平台,可采用Spark上的开源项目GraphFrames构建。
在一个实施例中,聚集性特征计算模块303,具体用于:
遍历关系图谱,确定关系图谱中的关联特征;
计算关联特征对应的关联数量,将关联数量与预设的聚集条件对比,若关联数量满足聚集条件,则确定关联数量对应的关联特征为聚集性特征。
上述,确定关联特征,可以定义只要关系图谱中的节点和其他节点有关联关系,就将其作为关联特征,或者可以定义关联特征条件,满足关联特征条件的特征数据才是关联特征。
在一个实施例中,聚集性特征计算模块303还包括;
聚集性特征分级模块,用于根据关联数量对聚集性特征进行分级。
在一个实施例中,聚集性特征计算模块303,具体用于:
根据关系图谱分布式计算特征数据的聚集性特征。
在一个实施例中,异常特征检测模块304,具体用于:
将聚集性特征输入至孤立森林模型中,获得聚集性特征的特征评分;
将特征评分与异常条件对比,若特征评分满足异常条件,则确定特征评分对应的聚集性特征为异常特征。
在一个实施例中,本发明实施例公开的异常特征检测装置,还包括:
模型建立模块,用于建立孤立森林模型,具体包括:
获取训练样本;
循环采用多重二分法对训练样本进行随机超平面切割,得到包括数据点的树状数据结构;
判断树状数据结构中数据点是否满足停止条件,若满足,则停止循环分割。
在一个实施例中,本发明公开的装置,还包括:
人工审核模块,用于获取异常特征的定性信息;
标记模块,用于根据定性信息在关系谱图中查询与异常特征对应的节点;以及,在关系图谱中标记异常特征对应的节点为异常节点。
上述,人工审核模块中,人工审核确定该异常特征是否异常,定性信息通常包括:该异常特征是否被定性为确定异常。定性信息可以作为异常特征的标签。
建立人工审核任务时,可根据异常特征的特征评分的排序确定人工审核的优先级。
以上,本发明公开的异常特征检测装置,通过数据获取模块、关系图谱构建模块、聚集性特征计算模块、异常特征检测模块执行了本发明公开的异常特征检测方法的全部步骤,该装置可单独设置在硬件设备中,或者可嵌套在搜索系统中。
另外本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述实施例公开的异常特征检测方法。
其中,图4示例性的展示出了电子设备的系统架构,具体可以包括处理器410,视频显示适配器411,磁盘驱动器412,输入/输出接口413,网络接口414,以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420之间可以通过通信总线430进行通信连接。
其中,处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific IntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储用于控制电子设备运行的操作系统421,用于控制电子设备的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器423,数据存储管理系统424,以及设备标识信息处理系统425等等。上述设备标识信息处理系统425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口413用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口414用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线430包括一通路,在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420)之间传输信息。
另外,该电子设备还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,存储器420,总线430等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储器被安装,或者从ROM被安装。在该计算机程序被处理器执行时,执行本申请的实施例的方法中限定的上述功能。
需要说明的是,本申请的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:响应于检测到终端的外设模式未激活时,获取终端上应用的帧率;在帧率满足息屏条件时,判断用户是否正在获取终端的屏幕信息;响应于判断结果为用户未获取终端的屏幕信息,控制屏幕进入立即暗淡模式。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种异常特征检测方法,其特征在于,包括:
获取待检测对象的特征数据;
根据所述特征数据建立节点并确定节点之间的关联关系,构建关系图谱;
根据所述关系图谱计算所述待检测对象的聚集性特征;
根据所述聚集性特征利用预先建立的孤立森林模型检测所述特征数据中的异常特征。
2.如权利要求1所述的方法,其特征在于,所述根据所述特征数据建立节点并确定节点之间的关联关系,构建关系图谱,包括:
根据所述特征数据建立节点;
以某一所述特征数据为起点确定不同级别的节点关联关系。
3.如权利要求1所述的方法,其特征在于,所述根据所述关系图谱计算所述特征数据的聚集性特征,包括:
遍历所述关系图谱,确定所述关系图谱中的关联特征;
计算所述关联特征对应的关联数量,将所述关联数量与预设的聚集条件对比,若所述关联数量满足所述聚集条件,则确定所述关联数量对应的所述关联特征为所述聚集性特征。
4.如权利要求1所述的方法,其特征在于,所述根据所述关系图谱计算所述特征数据的聚集性特征,包括:
根据所述关系图谱分布式计算所述特征数据的聚集性特征。
5.如权利要求1所述的方法,其特征在于,所述根据所述聚集性特征利用预先建立的孤立森林模型检测所述特征数据中的异常特征,包括:
将所述聚集性特征输入至所述孤立森林模型中,获得所述聚集性特征的特征评分;
将所述特征评分与异常条件对比,若所述特征评分满足所述异常条件,则确定所述特征评分对应的所述聚集性特征为异常特征。
6.如权利要求1所述的方法,其特征在于,所述孤立森林模型的建立包括:
获取训练样本;
循环采用多重二分法对所述训练样本进行随机的超平面切割,得到包括数据点的树状数据结构;
判断所述树状数据结构中数据点是否满足停止条件,若满足,则停止循环分割。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
获取所述异常特征的定性信息;
根据所述定性信息在所述关系图谱中查询与所述异常特征对应的节点;
在所述关系图谱中标记所述异常特征对应的节点为异常节点。
8.一种异常特征检测装置,其特征在于,包括:
数据获取模块,用于获取待检测对象的特征数据;
关系图谱构建模块,用于根据所述特征数据建立节点并确定节点间的关联关系,构建关系图谱;
聚集性特征计算模块,用于根据所述关系图谱计算所述待检测对象的聚集性特征;
异常特征检测模块,用于根据所述聚集性特征利用预先建立的孤立森林模型检测所述特征数据中的异常特征。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1~7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1~7中任一所述的方法。
CN202111317995.0A 2021-11-09 2021-11-09 一种异常特征检测方法、装置、设备和计算机可读介质 Pending CN114117134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111317995.0A CN114117134A (zh) 2021-11-09 2021-11-09 一种异常特征检测方法、装置、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111317995.0A CN114117134A (zh) 2021-11-09 2021-11-09 一种异常特征检测方法、装置、设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN114117134A true CN114117134A (zh) 2022-03-01

Family

ID=80377645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111317995.0A Pending CN114117134A (zh) 2021-11-09 2021-11-09 一种异常特征检测方法、装置、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN114117134A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422267A (zh) * 2022-03-03 2022-04-29 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN115840924A (zh) * 2023-02-15 2023-03-24 深圳市特安电子有限公司 一种压力变送器测量数据智慧处理系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422267A (zh) * 2022-03-03 2022-04-29 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN114422267B (zh) * 2022-03-03 2024-02-06 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN115840924A (zh) * 2023-02-15 2023-03-24 深圳市特安电子有限公司 一种压力变送器测量数据智慧处理系统

Similar Documents

Publication Publication Date Title
CN107436875B (zh) 文本分类方法及装置
US9672490B2 (en) Procurement system
CN106919689A (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
WO2021159834A1 (zh) 异常信息处理节点分析方法、装置、介质及电子设备
CN114117134A (zh) 一种异常特征检测方法、装置、设备和计算机可读介质
CN105574089A (zh) 知识图谱的生成方法及装置、对象对比方法及装置
WO2020233360A1 (zh) 一种产品测评模型的生成方法及设备
CN111427974A (zh) 数据质量评估管理方法和装置
CN108241867B (zh) 一种分类方法及装置
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN111310052A (zh) 用户画像构建方法、装置及计算机可读存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN114493255A (zh) 基于知识图谱的企业异常监控方法及其相关设备
CN111666419A (zh) 法律数据的知识图谱构建方法及装置
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
CN116629215A (zh) 教学文档生成方法、装置、电子设备、存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN108959289B (zh) 网站类别获取方法和装置
CN114139636B (zh) 异常作业处理方法及装置
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
US20190065987A1 (en) Capturing knowledge coverage of machine learning models
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination