CN115659232A - 一种挖掘异常规则的方法及装置 - Google Patents
一种挖掘异常规则的方法及装置 Download PDFInfo
- Publication number
- CN115659232A CN115659232A CN202211042736.6A CN202211042736A CN115659232A CN 115659232 A CN115659232 A CN 115659232A CN 202211042736 A CN202211042736 A CN 202211042736A CN 115659232 A CN115659232 A CN 115659232A
- Authority
- CN
- China
- Prior art keywords
- event
- abnormal
- training
- service
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提供一种挖掘异常规则的方法及装置,所述方法包括:获取事件特征集,所述事件特征集包含对应于业务事件的事件特征,且每一事件特征包含相应业务事件在至少一个预设维度上的特征值;基于无监督的异常检测算法对所述事件特征集进行训练,并根据训练结果为每一事件特征添加训练标签,所述训练标签用于表征相应事件特征所对应的业务事件是否为异常事件;基于有监督的回归算法对添加有所述训练标签的事件特征集进行训练,根据训练结果确定所述业务事件被识别为异常事件的归因信息,并基于所述归因信息生成针对所述业务事件的异常决策规则。
Description
技术领域
本说明书涉及数据挖掘技术领域,尤其涉及一种挖掘异常规则的方法及装置。
背景技术
随着互联网大数据时代的发展,各行业所涉及的业务场景与相关业务数据愈发复杂化, 这将导致此类业务场景中更容易出现无法预料的异常情况。以金融行业中的信贷业务为例, 由于该业务与用户资金直接相关,因此任何细小功能的变化均可能触发风险漏洞,从而导 致严重的资金损失。
在相关技术中,通常基于人工经验设计一系列的测试用例以判断系统功能是否发生异常, 或者通过设计和编写校验规则来检测上述业务场景中潜在的风险漏洞,从而有针对性地行 进风险防控。然而,由于人工很难穷举系统中的所有异常,因此该方法在复杂业务场景中 存在人力成本消耗高、异常检测效率低等问题。
发明内容
有鉴于此,本说明书提供一种挖掘异常规则的方法及装置,以解决相关技术中存在的不 足。
具体地,本说明书是通过如下技术方案实现的:
根据本说明书实施例的第一方面,提供了一种挖掘异常规则的方法,所述方法包括:
获取事件特征集,所述事件特征集包含对应于业务事件的事件特征,且每一事件特征包 含相应业务事件在至少一个预设维度上的特征值;
基于无监督的异常检测算法对所述事件特征集进行训练,并根据训练结果为每一事件特 征添加训练标签,所述训练标签用于表征相应事件特征所对应的业务事件是否为异常事件;
基于有监督的回归算法对添加有所述训练标签的事件特征集进行训练,根据训练结果确 定所述业务事件被识别为异常事件的归因信息,并基于所述归因信息生成针对所述业务事件 的异常决策规则。
根据本说明书实施例的第二方面,提供了一种挖掘异常规则的装置,所述装置包括:
特征获取单元,用于获取事件特征集,所述事件特征集包含对应于业务事件的事件特 征,且每一事件特征包含相应业务事件在至少一个预设维度上的特征值;
异常判断单元,用于基于无监督的异常检测算法对所述事件特征集进行训练,并根据 训练结果为每一事件特征添加训练标签,所述训练标签用于表征相应事件特征所对应的业 务事件是否为异常事件;
规则生成单元,用于基于有监督的回归算法对添加有所述训练标签的事件特征集进行 训练,根据训练结果确定所述业务事件被识别为异常事件的归因信息,并基于所述归因信 息生成针对所述业务事件的异常决策规则。
根据本说明书实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机 程序,所述程序被处理器执行时实现如第一方面所述的方法的步骤。
根据本说明书实施例的第四方面,提供了一种电子设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所 述的方法的步骤。
在本说明书所提供的技术方案中,通过无监督算法以确定与事件特征对应的业务事件是 否异常,并配合有监督算法确定该业务事件被识别为异常事件的归因信息,从而生成针对该 业务事件的异常决策规则。相比相关技术中人工设计测试用例以确定异常事件、核对校验规 则以制定对应异常决策规则,本申请的方案实现了异常检测自动化,使得所需人工成本低、 异常检测效率高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制 本说明书。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书 中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书一示例性实施例示出的一种事件序列异常检测器的架构示意图;
图2是本说明书一示例性实施例示出的一种挖掘异常规则的方法的流程示意图;
图3是本说明书一示例性实施例示出的融合多个无监督异常检测算法的检测结果的示意 图;
图4是本说明书一示例性实施例示出的无监督算法结合有监督算法的示意图;
图5是本说明书一示例性实施例示出的一种复用异常决策规则的流程示意图;
图6是本说明书一示例性实施例示出的一种电子设备的示意结构图;
图7是本说明书一示例性实施例示出的一种挖掘异常规则的装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时, 除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述 的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与本说明书的一些 方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在 本说明书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清 楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联 的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些 信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本 说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第 一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时” 或“响应于确定”。
图1是本说明书一示例性实施例示出的一种事件序列异常检测器的架构示意图。如图1 所示,事件序列异常检测器10可用于接收对应业务事件的事件数据,并输出针对该业务事 件的异常规则,其中,业务事件可以表征用户在特定业务场景中所发起的一个行为,异常规 则可用于判断上述特定业务场景发生中的业务事件是否异常,进而帮助用户提前进行风险预 警、规避。其中,事件序列异常检测器10中设置有特征工程模块、无监督异常检测模块、 有检测异常归因模块:
1、特征工程模块,由于上述事件数据可以为一个或者多个,且每一事件数据所对应的 业务事件可能互不相同,因此需要对所有事件数据进行统一化、规范化处理以保证后续流程 的正常推进。以有关金融信贷的业务场景为例,每一用户的支用、还款等操作可以分别对应 于一项事件数据,显然,支用操作与还款操作所对应的事件数据之间由于比较的维度不完全 一致,导致二者不具有可比性,因此可以将由每一用户通过执行操作所生成的多个事件数据 聚合为同一事件数据,进而保证各事件数据的格式一致性,以及事件序列异常检测器10输 出结果的准确性。在一方面,聚合后的事件数据可视为一组事件序列,该事件序列可包含上 述多个事件数据对应的业务事件的执行顺序与相应内容;在另一方面,聚合后的事件数据可 视为一个独立事件的事件特征,上述多个事件数据的取值可以分别代表上述事件特征中的一 项特征值。
2、无监督异常检测模块,基于机器学习技术对经特征工程处理后的事件数据进行异常 检测,从而判断出事件数据所对应的业务事件是否异常,并将异常事件所对应的事件数据进 行标记,以后续有监督异常归因流程成功执行。其中,机器学习领域中可以根据是否有已知 的输出标签进行划分,已知输出标签则为有监督学习,未知输出标签则为无监督学习,又由 于经特征工程处理后的事件数据未标记有用于判断异常的标识,因此本阶段的异常检测操作 可定义为无监督学习。
3、有监督异常归因模块,为保证上述异常事件不再发生,可以对该异常事件所对应的 事件数据进行异常归因,即定位该业务事件被检测为异常事件的原因,并基于该原因确定出 针对该异常事件的异常规则。其中,异常规则可用于在上述异常事件,或者类似上述异常事 件的其他业务事件发生时通知用户以执行相应措施。
其中,上述三个步骤可以通过大数据处理平台,或者Hive SQL和Python等技术实现, 本说明书中并不对此进行限制。
下面结合图2所示实施例对本说明书的技术方案进行阐述。图2是本说明书一示例性实 施例示出的一种挖掘异常规则的方法的流程示意图,如图2所示,该方法可以包括以下步骤:
S201,获取事件特征集,所述事件特征集包含对应于业务事件的事件特征,且每一事件 特征包含相应业务事件在至少一个预设维度上的特征值。
由于上述事件特征集中可以包含一个或多个事件特征,且每一事件特征可以分别对应于 不同的业务事件,因此上述事件特征集可以作为经上述特征工程处理后的二维矩阵,该矩阵 的大小为N*M,其中N为事件特征的数量,M为事件特征的预设维度的数量。其中,上述 预设维度可以由用户预先定义,且上述业务事件在每一预设维度中可以确定有对应的取值。 以有关金融信贷的业务场景为例,上述预设维度可以设置为诸如一用户发起授信申请的历史 次数、偿还一笔账单所涉及的金额,支用一笔贷款时所涉及的金额等等。本领域技术人员可 以理解的是,上述特征值可以设置有对应的默认初始值(类似“null”或者“0”),以保证 多个事件特征之间可以在相同的维度上进行比较、分析等操作。
根据上文所述,经上述特征工程处理前的事件数据通常不具有格式一致性,因此需要通 过上述工程处理对上述业务事件的初始事件特征进行预处理操作,从而形成上述事件特征集 进行,其中,上述预处理操作可以是基于时间维度将具有趋势性或集中性的特征值的多个初 始事件特征进行聚合,以金融信贷的业务场景为例:假设上述初始事件特征包含了同一用户 近一年来所有由支用、还款事件所产生的事件数据,若需要统计用户每个月的支用与还款情 况,则可以将对应用户在每个月内的支用、还款记录聚合为一条事件数据。或者,若需要统 计用户某一日的操作行为,可以设置一个时间窗口(例如下午6点至12点),并将对应用 户在上述时间窗口内所对应的事件数据聚合为一条事件数据。同时,本领域技术人员可以理 解的是,在复杂的业务场景中,聚合后的每一事件特征所对应的预设维度通常不会完全等同, 因此可以消除不重合的其他维度以及相应业务事件在该其他维度上的特征值,以保证每一事 件特征所对应的预设维度统一。换言之,上述预处理操作还可以是将区别于上述预设维度的 其他维度以及相应业务事件在其他预设维度上的其他维度以及相应业务事件在其他预设维度 上的特征值从相应的初始事件特征中剔除,例如上文所述,若上述预设维度中不存在“用户 还款金额”,则可以将上述初始事件特征中由还款事件所产生的事件数据中的还款金额进行 清除。此外,上述预处理操作又可以为将每一初始事件特征所含的特征值的数据类型转换为 预设类型,例如:多个特征值分别为“上海”、“杭州”、“株洲”、“湖州”等地区,上 述预设类型为连续的数字类型,则可以根据预设地区对照表确定以上四者为[0,2,3,7],进一 步的也可以基于类似独热编码的方式上述地区信息改造为[0001,0010,0100,1000],从而 提高后续的数据处理效率。
上述预处理操作可以根据实际业务需求设置为部分执行或全部执行,本说明书中并不对 此进行限制。
此外,事件特征集自身可以具备可记忆,可持久化的特性,使得每次生成的事件特征集 可以被积累至历史事件特征集中,当然,为了实现多业务场景的高效化管理,可以为不同业 务场景设置不同的事件特征库,以累积对应的事件特征集。
S202,基于无监督的异常检测算法对所述事件特征集进行训练,并根据训练结果为每一 事件特征添加训练标签,所述训练标签用于表征相应事件特征所对应的业务事件是否为异常 事件。
将上述事件特征集中对应各业务事件的事件特征输入至上述无监督的异常检测算法中进 行训练,并基于每一业务事件的异常判断情况形成上述训练结果,同时又根据训练结果为每 一事件特征添加训练标签,训练标签可以用于表征相应事件特征所对应的业务事件是否为异 常事件,是下文中的回归算法实现“有监督”的技术前提。其中,上述无监督的异常检测算 法可以根据实际需求设置为由树模型、密度模型、神经网络模型或线性模型实现,基于不同 的模型,其算法的实现方式也将发生变化,例如基于树模型实现时,上述异常检测算法可以 为孤立森林(Isolation Forest)、基于树模型实现时,上述异常检测算法可以为类似 DBSCAN(Density-Based Spatial Clustering of Applications withNoise)的聚类算法,又或者基于 神经网络模型实现时,上述异常检测算法可以为自编码器(autoencoder,AE)等等。当存在 多个无监督的异常检测算法时,可以对多个算法的检测结果进行结合以提高检测效果,并降 低泛化误差。
在一实施例中,可以基于多个无监督的异常检测算法分别对上述事件特征集进行训练, 以获取每一异常检测算法针对每一事件特征所对应的业务事件的检测结果,并基于集成学习 算法(ensemble learning)将获取的多个检测结果进行融合,并基于融合结果确定每一事件特征 所对应的业务事件是否为异常事件。其中,上述集成学习可以采用bagging(Bootstrap aggregating,引导聚集算法)或者boosting(提升算法)等方式实现,以bagging算法为例, 当上述异常检测算法的数量大于1且为奇数时,则可以对各异常检测算法的训练结果发起投 票,上述融合结果为票数较多的一方,或者可以对各异常检测算法的训练结果进行加权平均, 上述融合结果为平均结果或者对该平均结果进行取整后的最接近结果。下文结合图3对多个 算法的检测结果的结合方式进行论述。图3是本说明书一示例性实施例示出的融合多个无监 督异常检测算法的检测结果的示意图,如图3所示,存在n个异常检测算法分别对上述事件 特征集进行训练,并基于集成学习技术对各算法得出的训练结果可以进行融合,假设各算法 得出的训练结果分别基于数字“1”表示对应事件异常,基于数字“0”表示对应事件正常, 且上述融合结果基于投票机制确定,那么当存在i个训练结果为1时(i>n/2),则确定上述 融合结果为1,即判断对应事件异常,否则判断对应事件正常。
S203,基于有监督的回归算法对添加有所述训练标签的事件特征集进行训练,根据训练 结果确定所述业务事件被识别为异常事件的归因信息,并基于所述归因信息生成针对所述业 务事件的异常决策规则。
在确定对应异常事件的事件特征后,为了找出真正的异常具体发生在哪一个业务和环节, 需要确定上述事件特征所对应的业务事件被异常检测算法识别为“异常”的原因。此时可以 借助智能化的异常归因方法确定上述归因信息以作为上述异常的业务解释,该归因信息也对 应与上述异常的发生条件,因此可以基于上述归因信息生成针对上述业务事件的异常决策规 则,以快速地判断对应业务场景中是否存在异常事件并帮助用户规避相应的风险。
上述有监督的回归算法可以根据实际业务需求采用不同结构实现。
在一实施例中,上述有监督的回归算法可以用于训练得到决策树,其中,该决策树的非 叶子节点与上述预设维度一一对应,上述决策树包含从根节点至叶子节点的每条路径中的相 邻节点之间设有连接条件,且每条路径对应于如下的一组业务事件:对于相应路径中的每对 相邻节点,该组业务事件在其中父节点对应的预设维度上的特征值满足相应相邻节点之间的 连接条件;其中,任一路径中的叶子节点可以用于描述对应的一组业务事件中所含异常事件 的预测比例。在任一路径中的叶子节点所描述的预测比例与该任一路径对应的一组业务事件 中所含异常事件的实际比例相匹配的情况下,可以将上述任一路径中非叶子节点对应的预设 维度及其相应的连接条件确定为相应业务事件被识别为异常事件的归因信息。下面以图4对 上述决策树的结构与归因信息的确定方法进行论述。图4是本说明书一示例性实施例示出的 无监督算法结合有监督算法的示意图,所图4所示,该图由左右两部分组成,其中,左半部 分为上述有监督的回归算法基于上述无监督的异常检测算法的训练结果确定训练标签的过程。 假设上述异常检测算法基于密度模型实现,且每一圆圈代表一个事件特征所对应的业务事件, 每一圆圈中包含相应业务事件在预设维度上的特征值,则图4中远离左下部分的5个业务事 件可以被DBSCAN等算法判断为异常事件,剩余业务事件将被判断正常事件。本领域技术 人员可以理解的是,由于上述训练标签仅仅是上述异常检测算法的预测结果,并不能保证与 实际情况相符,因此上述训练标签实际上是上述回归算法的伪标签。至于右半部分的决策树 模型中,所有非叶子节点与上述预设维度一一对应,以路径X“维度1->维度3->维度5->右 侧叶子节点”为例,该路径表征对应有预设维度1、3、5的业务事件,且该业务事件在每一 预设维度上的特征值均符合上述路径中对应相邻节点的父节点的连接条件,即特征1<=16、 特征3>=2、特征5<=0.4。此外,该路径下的叶子节点表示该路径对应的一组业务事件中 所含异常事件的预测比例,即异常事件数量/(异常事件数量+正常事件数量),以路径X中 的叶子节点为例,当该叶子节点中高达96%的预测比例与该路径X对应的一组业务事件中 所含异常事件的实际比例相匹配时,可以将该路径中非叶子节点对应的预设维度及其相应的 连接条件识别为相应异常事件的归因信息,最终基于该归因信息生成针对上述业务事件的异 常决策规则。其中,上述预测比例与实际比例的匹配条件可以为上述预测比例的精准率或者 召回率达到预设的归因阈值,本说明书中并不对上述匹配条件的具体内容进行限制。依然以 上述路径X为例,假设该路径中的叶子节点数据的精准率或者召回率达到上述归因阈值时, 可以得到相应异常事件的归因信息“特征1<=16and特征3>=2and特征5<=0.4”。其中, 不同叶子节点的排列关系以及各连接条件的确定方法基本已经在相关技术中公开,本说明书 在此不再进行赘述。
当获取上述归因信息后,还可以根据实际业务需求将该归因信息以不同的方式生成针对 上述业务事件的异常决策规则。
在一实施例中,可以根据预定义的预设维度对照关系表,将上述归因信息中的预设维度 替换为实际取值,并将替换后的归因信息直接作为上述异常决策规则。其中,上述预设维度 的替换过程类似于将“特征1<=16and特征3>=2and特征5<=0.4”替换为“即近N天支 用次数<=16and日均支用次数>2and余额授信比<=0.4”。由于该实施例仅根据上述预设 维度对照关系表进行字符替换,因此确定异常决策规则的效率较高。
在另一实施例中,为解决上一实施例中存在类似“<=”、“0.4”等符号与数字所组成 的函数关系,导致对应归因信息的可读性较差的问题,可以将上述归因信息输入至预设的规 则提取对象,上述规则提取对象用于对上述归因信息进行语义识别并基于识别出的语义生成 用于描述上述归因信息的异常决策规则,并获取上述规则提取对象输出的上述异常决策规则。 在本实施例中,上述规则提取对象可以基于类似自然语言处理的技术识别并提取上述归因信 息的语义,以识别并提取归因信息“近N天支用次数<=16and日均支用次数>2and余额 授信比<=0.4”为例,通过将该归因信息输入规则提取对象以进行语义识别,得到该规则提 取对象输出的、基于识别出的语义生成的异常决策规则“单日频繁支用and支用后短时间内 还款and余额授信度较低”。本领域技术人员可以理解的是,由于上述无监督异常检测得到 的结果也极有可能存在噪音,因此可以基于人工或者神经网络模型修正的方式,进一步分析 该异常决策规则所含的异常的含义,排除上述异常决策规则中对于判断异常事件而言没有起 到实际效果的噪音部分,最终得到类似“单日频繁支用and支用后短时间内还款”或者“单 日频繁支用and余额授信度较低”等新的异常决策规则,从而进一步提高上述异常决策规则 的准确性。
本领域技术人员可以理解的是,上述异常决策规则与上事件特征集类似,也可以具备可 记忆,可持久化的特性。即可以预设一异常规则库,以用于将相同业务场景中的异常决策规 则也进行积累与更新。随着上述异常决策规则的不断晚完善,更多的隐藏的异常事件将被预 先发现与预警,进而保证了用户个人财产、隐私数据等方面的安全性。
在一实施例中,在接收业务数据后,可以判断上述异常决策规则在上述业务数据所对应 的业务场景下是否支持复用,如果上述异常决策规则支持复用,可以根据上述异常决策规则 对上述业务数据进行异常检测,否则可以从上述业务数据中提取事件特征以生成新的事件特 征集,并基于新的事件特征集生成与上述业务数据对应的业务场景中的异常决策规则,以用 于对所述业务数据进行异常检测。其中,判断上述异常决策规则是否支持复用的方法包括但 不限于:将上述业务数据对应的预设维度与上述异常决策规则对应的预设维度进行匹配,若 完全相同的预设维度的数量在预设维度总数中的比例达到预设的匹配阈值,可以确定该异常 决策规则可复用于该业务数据所对应的业务场景中,否则确定该异常决策规则不可复用;在 上述异常决策规则中携带一场景标识,该场景标识用于表征该异常决策规则支持复用的业务 场景,当接收上述业务数据后,可以根据上述场景标识以及接收的业务数据所对应的业务场 景的场景唯一标识,判断该异常决策规则是否复用于该业务场景中。此外,当上述异常决策 规则不支持复用时,可以将该业务数据再次输入上述事件序列异常检测器以重复S201~S203 的过程并得到的对应的异常决策规则。
下面以图5为例对上述异常决策规则的复用过程进行论述。图5为本说明书一示例性实 施例示出的一种复用异常决策规则的流程示意图。如图5所示,该流程包含一下步骤:
S501,接收业务数据。
在一实施例中,假设接收到的业务数据的格式如下表所示:
用户ID | 事件类型 | 事件数据 | 事件执行时间 |
ID1 | 贷款支用 | 20000 | 时间戳1 |
ID1 | 贷款还款 | 5000 | 时间戳2 |
ID2 | 提升额度 | 10000 | 时间戳3 |
ID3 | 授信申请 | 6000 | 时间戳4 |
…… | …… | …… | …… |
IDN | 利率制订 | 0.04 | 时间戳k |
其中,存在k份业务数据,每行业务数据表征由用户1至用户N中任一用户发起的业务 事件,且每一业务事件可基于事件类型、事件数据以及事件执行时间进行描述,每一用户可 以发起一个或多个业务事件。其中,上述k、N均为大于0的正整数。
S502,根据业务数据进行业务分析。
在一实施例中,根据上述业务数据的事件类型判断上述业务数据对应的业务场景,例如 通过针对上述业务数据的内容分析,确定上述事件类型与“贷款”、“利率”、“额度”等 关键词相关,进而可以判断上述业务数据对应的业务场景为“金融贷款”场景。
S503,判断异常决策规则是否支持复用。
在一实施例中,假设存在一异常规则库维护有若干个异常决策规则,每一异常决策规则 携带有一场景标识,且各业务场景分别对应“网络攻击”、“交通道路流量”等业务场景, 判断是否存在异常决策规则与分析得到的业务场景“金融贷款”相匹配,若存在,则执行 S505,否则执行S504,以生成对应的异常决策规则。
S504,将业务数据输入事件序列异常检测器,以生成针对对应业务场景的异常决策规则。
在一实施例中,假设不存在与上述业务场景相匹配的异常决策规则,则可以将上述业务 数据输入事件序列异常检测器以重复S201~S203的过程并得到的对应的异常决策规则。其中, 上述业务数据在该事件序列异常检测器中作为上述初始事件特征被进行预处理操作,得到如 下表所示的事件特征集:
其中,每一用户均对应有唯一的一份业务数据,以表征对应用户发起的业务事件在预设 维度Feat1~FeatM上的特征值。需要强调的是,每一列Feat可基于上述业务数据中确定,但 并不意味着Feat与上述业务数据的业务类型一一对应,例如feat1为近N天支用次数,feat2 为近N天还款次数,feat3为日均支用次数,上述业务数据中虽然不存在对应的业务类型, 但可以通过多个业务数据的聚合操作得到。实际上,每一单元格的数值即表征对应用户在对 应预设维度上的特征值。
下面基于无监督的异常检测算法对上述事件特征集进行训练,假设存在孤立森林、 DBSCAN、AutoEncoder三个基于无监督的异常检测算法,基于三者分别对上述事件特征集 进行训练,每一异常检测算法所形成的异常检测器可以输出对应预测向量pred,每一预测向 量实际上为N*1的向量。此处可以通过投票的方法,融合所有预测向量,以得到一个N*1 的预测向量作为融合结果,例如:
用户ID | 算法1 | 算法2 | 算法3 | 融合结果 |
ID1 | 1 | 0 | 0 | 0 |
ID2 | 1 | 1 | 1 | 1 |
ID3 | 0 | 1 | 0 | 0 |
ID4 | 0 | 1 | 0 | 0 |
…… | ||||
IDN | 1 | 0 | 1 | 1 |
以用户N为例,假设上述预测向量中1代表异常、0代表正常,显然,由于存在过半(即2/3)的异常检测算法判断该用户所执行的业务事件异常,则该用户对应融合结果可以判断为“1”以表征该用户发起的业务事件为异常事件。
当确定上述事件特征集中每一事件特征所对应的业务事件是否为异常事件后,可以为每 一事件特征添加训练标签,该训练标签可以同样以“1”或“0”表征相应事件特征所对应的 业务事件是否为异常事件。同时在基于有监督的回归算法对添加有上述训练标签的事件特征 集进行训练的过程中,可以根据上述决策树模型确定最终的异常归因规则“单日频繁支用 and支用后短时间内还款”。
S505,根据异常决策规则对业务数据进行异常检测。
在一实施例中,根据对应的异常决策规则对上述业务数据进行异常检测。具体地,上述 异常检测中将会对上述业务数据符合异常归因规则的业务数据进行定位与记录。
S506,确定异常事件。
在一实施例中,假设有关用户3、N的业务数据所对应的业务事件为异常事件,则可以 将相应的业务数据和异常原因发送至对应用户或管理员的设备终端中,以避免有关用户因为 触发异常事件导致个人权益受损。
S507,接收针对异常数据的反馈结果,以优化异常决策规则与业务数据。
在一实施例中,上述管理员可以基于人工经验针对接收到的业务数据和异常原因进行反 馈,以对误判的事件特征和/或异常决策规则进行修正,并进一步提高后续对异常事件的识 别准确度。
通过上述实施例可知,本说明书中通过无监督算法以确定与事件特征对应的业务事件是 否异常,并配合有监督算法确定该业务事件被识别为异常事件的归因信息,从而实现针对异 常事件的自动挖掘,达到智能化识别系统漏洞的目的。此外,不同于相关技术中通过设计测 试用例、核对校验规则等进行功能性测试,本申请书的方案通过系统功能最终在用户上的行 为描述进行异常检测,进一步节省了人力成本,提高了异常检测效率。
图6是一示例性实施例中的一种电子设备的示意结构图。请参考图6,在硬件层面,该 电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其 他所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在 逻辑层面上形成挖掘异常规则的装置。当然,除了软件实现方式之外,本说明书并不排除其 他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体 并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
与前述挖掘异常规则的方法的实施例相对应,本说明书还提供了一种挖掘异常规则的装 置的实施例。
请参考图7,图7是一示例性实施例示出的一种挖掘异常规则的装置的结构示意图。如 图7所示,在软件实施方式中,该装置可以包括:
特征获取单元701,用于获取事件特征集,所述事件特征集包含对应于业务事件的事 件特征,且每一事件特征包含相应业务事件在至少一个预设维度上的特征值;
异常判断单元702,用于基于无监督的异常检测算法对所述事件特征集进行训练,并 根据训练结果为每一事件特征添加训练标签,所述训练标签用于表征相应事件特征所对应 的业务事件是否为异常事件;
规则生成单元703,用于基于有监督的回归算法对添加有所述训练标签的事件特征集进 行训练,根据训练结果确定所述业务事件被识别为异常事件的归因信息,并基于所述归因信 息生成针对所述业务事件的异常决策规则。
可选的,所述异常判断单元702具体用于:
基于多个无监督的异常检测算法分别对所述事件特征集进行训练,以获取每一异常检测 算法针对每一事件特征所对应的业务事件的检测结果;
基于集成学习算法将获取的多个检测结果进行融合,并基于融合结果确定每一事件特征 所对应的业务事件是否为异常事件。
可选的,所述无监督的异常检测算法基于下述任一模型实现:
树模型、密度模型、神经网络模型、线性模型。
可选的,所述有监督的回归算法用于训练得到决策树,所述决策树的非叶子节点与所述 预设维度一一对应;所述决策树包含从根节点至叶子节点的多条路径,每条路径中的相邻节 点之间设有连接条件,且每条路径对应于如下的一组业务事件:对于相应路径中的每对相邻 节点,该组业务事件在其中父节点对应的预设维度上的特征值满足相应相邻节点之间的连接 条件;其中,任一路径中的叶子节点用于描述对应的一组业务事件中所含异常事件的预测比 例;所述规则生成单元703具体用于:
在任一路径中的叶子节点所描述的预测比例与该任一路径对应的一组业务事件中所含异 常事件的实际比例相匹配的情况下,将所述任一路径中非叶子节点对应的预设维度及其相应 的连接条件确定为相应业务事件被识别为异常事件的归因信息。
可选的,所述规则生成单元703具体用于:
将所述归因信息输入至预设的规则提取对象,所述规则提取对象用于对所述归因信息进 行语义识别并基于识别出的语义生成用于描述所述归因信息的异常决策规则;
获取所述规则提取对象输出的所述异常决策规则。
可选的,所述装置还包括:
特征预处理单元704,用于获取所述业务事件的初始事件特征,并对初始事件特征进行 预处理操作以形成所述事件特征集,所述预处理操作包括下述至少之一:
基于时间维度将具有趋势性或集中性的特征值的多个初始事件特征进行聚合;
将区别于所述预设维度的其他维度以及相应业务事件在其他预设维度上的特征值从相应 的初始事件特征中剔除;
将每一初始事件特征所含的特征值的数据类型转换为预设类型。
可选的,所述装置还包括:
业务数据处理单元704,用于接收业务数据,并判断所述异常决策规则在所述业务数据 所对应的业务场景下是否支持复用;
在所述异常决策规则支持复用的情况下,根据所述异常决策规则对所述业务数据进行异 常检测;
在所述异常决策规则不支持复用的情况下,从所述业务数据中提取事件特征以生成新的 事件特征集,并基于新的事件特征集生成与所述业务数据对应的业务场景中的异常决策规则, 以用于对所述业务数据进行异常检测。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程, 在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的 部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单 元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单 元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其 中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳 动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体 现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者 它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机 程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作 的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生 成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到 合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器 可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编 程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻 辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路) 来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类 型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和 数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据 的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设 备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接 收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。 此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或 视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪 存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、 媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、 磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储 器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所 要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施 例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的 各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可 以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中 的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组 合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所 示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某 些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的 分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和 系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。此外,附图中描绘的处理并非必需所示的特定顺序 或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精 神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (10)
1.一种挖掘异常规则的方法,所述方法包括:
获取事件特征集,所述事件特征集包含对应于业务事件的事件特征,且每一事件特征包含相应业务事件在至少一个预设维度上的特征值;
基于无监督的异常检测算法对所述事件特征集进行训练,并根据训练结果为每一事件特征添加训练标签,所述训练标签用于表征相应事件特征所对应的业务事件是否为异常事件;
基于有监督的回归算法对添加有所述训练标签的事件特征集进行训练,根据训练结果确定所述业务事件被识别为异常事件的归因信息,并基于所述归因信息生成针对所述业务事件的异常决策规则。
2.根据权利要求1所述的方法,所述无监督的异常检测算法存在多个,所述基于无监督的异常检测算法对所述事件特征集进行训练,包括:
基于多个无监督的异常检测算法分别对所述事件特征集进行训练,以获取每一异常检测算法针对每一事件特征所对应的业务事件的检测结果;
基于集成学习算法将获取的多个检测结果进行融合,并基于融合结果确定每一事件特征所对应的业务事件是否为异常事件。
3.根据权利要求1所述的方法,所述无监督的异常检测算法基于下述任一模型实现:
树模型、密度模型、神经网络模型、线性模型。
4.根据权利要求1所述的方法,所述有监督的回归算法用于训练得到决策树,所述决策树的非叶子节点与所述预设维度一一对应;所述决策树包含从根节点至叶子节点的多条路径,每条路径中的相邻节点之间设有连接条件,且每条路径对应于如下的一组业务事件:对于相应路径中的每对相邻节点,该组业务事件在其中父节点对应的预设维度上的特征值满足相应相邻节点之间的连接条件;其中,任一路径中的叶子节点用于描述对应的一组业务事件中所含异常事件的预测比例;所述根据训练结果确定所述业务事件被识别为异常事件的归因信息,包括:
在任一路径中的叶子节点所描述的预测比例与该任一路径对应的一组业务事件中所含异常事件的实际比例相匹配的情况下,将所述任一路径中非叶子节点对应的预设维度及其相应的连接条件确定为相应业务事件被识别为异常事件的归因信息。
5.根据权利要求1所述的方法,所述基于所述归因信息生成针对所述业务事件的异常决策规则,包括:
将所述归因信息输入至预设的规则提取对象,所述规则提取对象用于对所述归因信息进行语义识别并基于识别出的语义生成用于描述所述归因信息的异常决策规则;
获取所述规则提取对象输出的所述异常决策规则。
6.根据权利要求1所述的方法,所述方法还包括:
获取所述业务事件的初始事件特征,并对初始事件特征进行预处理操作以形成所述事件特征集,所述预处理操作包括下述至少之一:
基于时间维度将具有趋势性或集中性的特征值的多个初始事件特征进行聚合;
将区别于所述预设维度的其他维度以及相应业务事件在其他预设维度上的特征值从相应的初始事件特征中剔除;
将每一初始事件特征所含的特征值的数据类型转换为预设类型。
7.根据权利要求1所述的方法,所述方法还包括:
接收业务数据,并判断所述异常决策规则在所述业务数据所对应的业务场景下是否支持复用;
在所述异常决策规则支持复用的情况下,根据所述异常决策规则对所述业务数据进行异常检测;
在所述异常决策规则不支持复用的情况下,从所述业务数据中提取事件特征以生成新的事件特征集,并基于新的事件特征集生成与所述业务数据对应的业务场景中的异常决策规则,以用于对所述业务数据进行异常检测。
8.一种挖掘异常规则的装置,所述装置包括:
特征获取单元,用于获取事件特征集,所述事件特征集包含对应于业务事件的事件特征,且每一事件特征包含相应业务事件在至少一个预设维度上的特征值;
异常判断单元,用于基于无监督的异常检测算法对所述事件特征集进行训练,并根据训练结果为每一事件特征添加训练标签,所述训练标签用于表征相应事件特征所对应的业务事件是否为异常事件;
规则生成单元,用于基于有监督的回归算法对添加有所述训练标签的事件特征集进行训练,根据训练结果确定所述业务事件被识别为异常事件的归因信息,并基于所述归因信息生成针对所述业务事件的异常决策规则。
9.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1~7任一所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211042736.6A CN115659232A (zh) | 2022-08-29 | 2022-08-29 | 一种挖掘异常规则的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211042736.6A CN115659232A (zh) | 2022-08-29 | 2022-08-29 | 一种挖掘异常规则的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115659232A true CN115659232A (zh) | 2023-01-31 |
Family
ID=85024418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211042736.6A Pending CN115659232A (zh) | 2022-08-29 | 2022-08-29 | 一种挖掘异常规则的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659232A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114142A (zh) * | 2023-10-23 | 2023-11-24 | 深圳市华傲数据技术有限公司 | 基于ai的数据规则表达式生成方法、装置、设备及介质 |
-
2022
- 2022-08-29 CN CN202211042736.6A patent/CN115659232A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114142A (zh) * | 2023-10-23 | 2023-11-24 | 深圳市华傲数据技术有限公司 | 基于ai的数据规则表达式生成方法、装置、设备及介质 |
CN117114142B (zh) * | 2023-10-23 | 2024-05-03 | 深圳市华傲数据技术有限公司 | 基于ai的数据规则表达式生成方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN109583468B (zh) | 训练样本获取方法,样本预测方法及对应装置 | |
Hu | A multivariate grey prediction model with grey relational analysis for bankruptcy prediction problems | |
CN109544190A (zh) | 一种欺诈识别模型训练方法、欺诈识别方法及装置 | |
US11562372B2 (en) | Probabilistic feature engineering technique for anomaly detection | |
CN112801498B (zh) | 风险识别模型的训练方法、风险识别方法、装置及设备 | |
CN111291816A (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN110909540A (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
CN110913354A (zh) | 短信分类方法、装置及电子设备 | |
CN116071077A (zh) | 一种违规账户的风险评估与识别方法及装置 | |
CN116307671A (zh) | 风险预警方法、装置、计算机设备、存储介质 | |
CN115659232A (zh) | 一种挖掘异常规则的方法及装置 | |
US20210073247A1 (en) | System and method for machine learning architecture for interdependence detection | |
CN111860554B (zh) | 风险监控方法、装置、存储介质及电子设备 | |
CN110458581B (zh) | 商户业务周转异常的识别方法及装置 | |
CN112365352A (zh) | 一种基于图神经网络的反套现方法及装置 | |
CN114119191A (zh) | 风控方法、逾期预测方法、模型训练方法及相关设备 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
Kara et al. | A SHAP-based active learning approach for creating high-quality training data | |
CN115204322A (zh) | 行为链路异常识别方法和装置 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN114240210A (zh) | 信用评价方法、装置、设备及计算机可读存储介质 | |
CN112632219A (zh) | 一种垃圾短信的拦截方法和拦截装置 | |
CN114202418A (zh) | 信息处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |