CN117688484A - 数据异常检测方法、装置、存储介质及电子设备 - Google Patents

数据异常检测方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117688484A
CN117688484A CN202311652693.8A CN202311652693A CN117688484A CN 117688484 A CN117688484 A CN 117688484A CN 202311652693 A CN202311652693 A CN 202311652693A CN 117688484 A CN117688484 A CN 117688484A
Authority
CN
China
Prior art keywords
data
path
dimension
policy
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311652693.8A
Other languages
English (en)
Inventor
熊永福
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Ant Consumer Finance Co ltd
Original Assignee
Chongqing Ant Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Ant Consumer Finance Co ltd filed Critical Chongqing Ant Consumer Finance Co ltd
Priority to CN202311652693.8A priority Critical patent/CN117688484A/zh
Publication of CN117688484A publication Critical patent/CN117688484A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了一种数据异常检测方法、装置、存储介质及电子设备,其中,方法包括:对目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到目标校验数据对应的目标校验策略路径,之后,基于策略路径库对目标校验策略路径进行检索处理,得到数据维度特征区别结果,根据数据维度特征区别结果进而确定目标校验数据的数据异常检测结果。

Description

数据异常检测方法、装置、存储介质及电子设备
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种数据异常检测方法、装置、存储介质及电子设备。
背景技术
随着信息技术的快速发展,通过数据处理的结果进行辅助决策已经成为目前较为常见的决策手段。然而,在数据处理过程所需的数据不可避免的会出现异常数据,尤其在处理的数据涉及多数据维度特征组合时,不同数据维度特征之间的相关性难以确定,即便基于专家经验也难以对多数据维度特征组合的数据进行异常数据识别。
发明内容
本说明书提供了一种数据异常检测方法、装置、存储介质及电子设备,所述技术方案如下:
第一方面,本说明书提供了一种数据异常检测方法,所述方法包括:
响应于目标校验数据的校验请求,基于所述目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到所述目标校验数据对应的目标校验策略路径;
基于策略路径库对所述目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于所述数据维度特征区别结果确定所述目标校验数据的数据异常检测结果。
第二方面,本说明书提供了一种数据异常检测装置,所述装置包括:
响应模块,适于响应于目标校验数据的校验请求,基于所述目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到所述目标校验数据对应的目标校验策略路径;
异常检测模块,适于基于策略路径库对所述目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于所述数据维度特征区别结果确定所述目标校验数据的数据异常检测结果。
第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
第五方面,本说明书提供一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行上述的方法步骤
本说明书一些实施例提供的技术方案带来的有益效果至少包括:由于目标校验数据基于其至少两个数据维度特征转化为目标校验策略路径,可以减小后续检索的计算量。因此,基于策略路径库对目标校验策略路径进行检索处理时,可以加快检索进度。
同时,由于目标校验数据的至少两个数据维度特征均包含在目标校验策略路径中。这样,可以通过先验知识,即可以通过预先确定好的策略路径库中各路径有效识别目标校验策略路径的数据维度特征区别结果,由于数据维度特征区别结果有效整合了至少两个数据维度特征的校验信息,使得基于数据维度特征区别结果可以确定目标校验数据的数据异常检测结果。从而可以解决在处理的数据涉及多数据维度特征组合时,不同数据维度特征之间的相关性难以确定,即便基于专家经验也难以对多数据维度特征组合的数据进行异常数据识别的技术问题。
附图说明
为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书提供的一种数据异常检测系统的场景示意图;
图2为本说明书一个或多个实施例提供了一种数据异常检测方法的流程示意图;
图3为本说明书一个或多个实施例提出的一种生成策略路径库的流程示意图;
图4为本说明书一个或多个实施例提出的一种确定原始数据对应的参考策略路径的流程示意图;
图5为本说明书一个或多个实施例提出的又一种生成策略路径库的流程示意图;
图6为本说明书一个或多个实施例提出的一种相似路径列表的示意图;
图7为本说明书一个或多个实施例提出的一种确定异常参考维度的流程示意图;
图8为本说明书一个或多个实施例提出的一种生成数据维度特征区别结果的流程示意图;
图9为本说明书一个或多个实施例提出的一种确定目标校验数据的数据异常检测结果的流程示意图;
图10为本说明书的数据异常检测装置的结构示意图;
图11是本说明书提供的一种电子设备的结构示意图;
图12是本说明书提供的操作系统和用户空间的结构示意图;
图13是图12中安卓操作系统的架构图;
图14是图12中IOS操作系统的架构图。
具体实施方式
下面将结合本说明书中的附图,对本说明书中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
在本说明书的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本说明书的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本说明书中的具体含义。此外,在本说明书的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合具体的实施例对本说明书进行详细说明。
请参见图1,为本说明书提供的一种数据异常检测系统的场景示意图。如图1所示,所述数据异常检测系统至少可以包括客户端集群和服务平台100。
所述客户端集群可以包括至少一个客户端,如图1所示,具体包括用户1对应的客户端1、用户2对应的客户端2、…、用户n对应的客户端n,n为大于0的整数。
客户端集群中的各客户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的电子设备等。
所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式,或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
在本说明书的一个或多个实施例中,服务平台100与客户端集群中的至少一个客户端可建立通信连接,基于该通信连接完成数据异常检测过程中数据的交互,诸如线上事务数据交互,如服务平台100可基于本说明书的数据异常检测方法得到的目标神经网络模型可实现向客户端进行内容推荐;又如,服务平台100可从客户端上获取训练数据,如第一训练数据。
需要说明的是,服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,USB)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本说明书所提供的数据异常检测系统实施例与一个或多个实施例中的所述数据异常检测方法属于同一构思,在说明书一个或多个实施例涉及的所述数据异常检测方法对应的执行主体可以是上述服务平台100;在说明书一个或多个实施例涉及的所述数据异常检测方法对应的执行主体也可以是客户端所对应的电子设备,具体基于实际应用环境确定。数据异常检测系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的数据异常检测方法进行详细介绍。
请参见图2,为本说明书一个或多个实施例提供了一种数据异常检测方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的数据异常检测装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述数据异常检测装置可以为服务平台。
具体的,该数据异常检测方法包括:
S202:响应于目标校验数据的校验请求,基于目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到目标校验数据对应的目标校验策略路径。
其中,目标校验数据为待校验的数据,待校验的数据一般包括至少两个数据维度特征,可选地,待校验的数据可以对应至少两个数据维度特征。可选地,待校验的数据可以对应至少三个数据维度特征。
数据维度特征可以是数据中所包含的维度信息。具体的,数据维度特征可以是学历维度特征、薪资维度特征、地理维度特征、职业维度特征或年岁维度特征等。需要说明的是,这里对目标校验数据的数据来源场景不作限制,目标校验数据可以是在消费金融场景下,风控模型或风控策略所依赖的用户的相关特征数据;目标校验数据还可以是在科研、教育、工业等数据分析场景下待校验的数据。
当数据维度特征是学历维度特征时,学历维度特征对应的具体维度信息可以是小学、初中、大学以及研究生等,其中,小学可以用维度特征值1来表示,初中可以用维度特征值2来表示,大学可以用维度特征值3来表示,研究生可以用维度特征值4来表示。容易理解的,其他的数据维度特征也可以采用类似的方式进行表示。
用户首先确定需要检测是否异常的数据,将该数据作为目标校验数据,之后,将目标校验数据输入运行数据异常检测方法的装置中,运行数据异常检测方法的装置响应于目标校验数据的校验请求,获取目标校验数据对应的至少两个数据维度特征。在得到至少两个数据维度特征后,对该至少两个数据维度特征进行维度路径转化处理。其中,每个数据维度特征在经过维度路径转化处理后可以对应一个子路径,将全部的子路径联系起来便可以得到目标校验数据对应的目标校验策略路径。
具体的,目标校验数据对应的至少两个数据维度特征可以为学历维度特征以及薪资维度特征,学历维度特征在经过维度路径转化处理后可以对应子路径02,薪资维度特征在经过维度路径转化处理后可以对应子路径03,将全部的子路径联系起来便得到02-03,此时,02-03即为目标校验数据对应的目标校验策略路径。
当然,目标校验数据对应的至少两个数据维度特征也可以为地理维度特征、职业维度特征以及年岁维度特征,地理维度特征在经过维度路径转化处理后可以对应子路径02,职业维度特征在经过维度路径转化处理后可以对应子路径01,年岁维度特征在经过维度路径转化处理后可以对应子路径03,将全部的子路径联系起来便得到02-01-03,此时,02-01-03即为目标校验数据对应的目标校验策略路径。
需要说明的是,将全部的子路径联系起来时对应的衔接顺序可以是预先设定的。
S204:基于策略路径库对目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于数据维度特征区别结果确定目标校验数据的数据异常检测结果。
其中,策略路径库可以包括多个参考策略路径。一般的,参考策略路径可以是在先被识别为数据正常的原始数据所对应的参考策略路径。在基于S202得到目标校验数据对应的目标校验策略路径后,可以通过策略路径库对目标校验策略路径进行检索处理。
可选地,可以通过策略路径库对目标校验策略路径进行相似路径检索,以得到策略路径库中各参考策略路径与目标校验策略路径的相似度,进而确定数据维度特征区别结果。
可选地,当每个数据维度特征在经过维度路径转化处理后可以对应一个子路径时,可以通过每个数据维度特征所对应的策略路径库中各参考策略路径与目标校验策略路径进行子路径匹配,以得到策略路径库中各参考策略路径与目标校验策略路径的子路径相似度,进而确定数据维度特征区别结果。
在基于数据维度特征区别结果确定目标校验数据的数据异常检测结果时,当数据维度特征区别结果表明目标校验策略路径与策略路径库中的参考策略路径区别越大,表明目标校验数据异常的可能性越高;当数据维度特征区别结果表明目标校验策略路径与策略路径库中的每个参考策略路径存在各种各样的区别,即各异的区别时,表明目标校验策略路径始终无法在策略路径库中找到一条相同的参考策略路径,同样表明目标校验数据异常的可能性越高。
在本说明书中,由于目标校验数据基于其至少两个数据维度特征转化为目标校验策略路径,可以减小后续检索的计算量。因此,基于策略路径库对目标校验策略路径进行检索处理时,可以加快检索进度。
同时,由于目标校验数据的至少两个数据维度特征均包含在目标校验策略路径中。这样,可以通过先验知识,即可以通过预先确定好的策略路径库中各路径有效识别目标校验策略路径的数据维度特征区别结果,由于数据维度特征区别结果有效整合了至少两个数据维度特征的校验信息,使得基于数据维度特征区别结果可以确定目标校验数据的数据异常检测结果。从而可以解决在处理的数据涉及多数据维度特征组合时,不同数据维度特征之间的相关性难以确定,即便基于专家经验也难以对多数据维度特征组合的数据进行异常数据识别的技术问题。
请参见图3,图3为本说明书一个或多个实施例提出的一种生成策略路径库的流程示意图。具体的:
S302:获取多个原始数据,每个原始数据包括至少两个数据维度特征。
其中,原始数据可以是在先被认为是数据正常的数据。一般的,原始数据可以是用户或专家基于经验识别得到的正常数据,也可以是基于其他数据异常分析工具识别得到的正常数据。
为了生成策略路径库,因此原始数据的数量为多个,即,原始数据的数量可以大于或等于2。每个原始数据可以包括两个或两个以上的数据维度特征。应理解,原始数据包括的两个或两个以上的数据维度特征可以覆盖目标校验数据对应的至少两个数据维度特征。换言之,原始数据包括的数据维度特征的特征数量大于或等于目标校验数据对应的数据维度特征的特征数量,且目标校验数据对应的数据维度特征均存在于原始数据的数据维度特征中。
S304:基于原始数据的至少两个数据维度特征进行维度路径转化处理,得到原始数据对应的参考策略路径,基于参考策略路径生成策略路径库。
在得到原始数据后,获取原始数据的至少两个数据维度特征,之后对至少两个数据维度特征进行维度路径转化处理。其中,每个数据维度特征在经过维度路径转化处理后可以对应一个子路径,将全部的子路径联系起来便可以得到原始数据对应的参考策略路径。
由于原始数据的数量为多个,因此多个原始数据经过维度路径转化处理后可以得到对应多个参考策略路径,将得到的多个参考策略路径放入统一的路径库中可以得到策略路径库。
在本说明书中,基于原始数据的至少两个数据维度特征确定对应的参考策略路径,之后基于参考策略路径生成策略路径库,使得策略路径库中的参考策略路径融合了原始数据的至少两个数据维度特征,由于策略路径库存在多个参考策略路径,本方案可以直接基于原始数据进行异常发现,不存在数据降维带来的误差累计,因此可以直接基于策略路径库中的参考策略路径即先验知识,来有效识别目标校验策略路径是否异常。
请参见图4,图4为本说明书一个或多个实施例提出的一种确定原始数据对应的参考策略路径的流程示意图。具体的:
S304中基于原始数据的至少两个数据维度特征进行维度路径转化处理,得到原始数据对应的参考策略路径,包括
S402:对原始数据的至少两个数据维度特征分别进行离散化处理,得到至少两个数据维度特征中每个数据维度特征的离散化分布信息,生成所有离散化分布信息对应的数据特征分箱表,数据特征分箱表至少包括数据维度特征元素、特征箱体值元素、数据特征元素与特征箱体值元素对应的箱体表格参数。
其中,对原始数据的至少两个数据维度特征分别进行离散化处理时,首先获取全部的原始数据,之后获取同一数据维度特征下每个原始数据的特征值,之后,对同一数据维度特征下每个原始数据的特征值进行离散化处理。离散化处理是指把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。例如,在不改变数据相对大小的条件下,可以对数据进行相应的缩小。
对原始数据的至少两个数据维度特征分别进行离散化处理后,可以得到至少两个数据维度特征中每个数据维度特征的离散化分布信息。每个数据维度特征的离散化分布信息即每个数据维度特征经过离散化处理后被映射至的不同空间。
例如,原始数据对应的数据维度特征如下表1所示:
表1
在表1中,数据维度特征A对应的特征值为1、0、1以及1,因此将数据维度特征A离散化处理后可以分别映射至0与1两个值;数据维度特征B对应的特征值为0.3、0.6、0.4以及0.1,因此可以将数据维度特征B离散化处理后可以分别映射对应(-∞,0.1]、(0.1,0.2]、(0.2,0.5]以及(0.5,+∞);同样的,数据维度特征C对应的特征值为3、1、4以及5,因此可以将数据维度特征C离散化处理后可以分别映射对应“1、2”、“3、4”、“5、6”、“7、8、9”。其中,映射的对象即为离散化分布信息。
之后,通过离散化分布信息生成数据特征分箱表,在数据特征分箱表中,数据特征分箱表至少包括数据维度特征元素、特征箱体值元素、数据特征元素与特征箱体值元素对应的箱体表格参数,具体的,数据特征分箱表可以如下所示:
数据特征分箱表
其中,数据维度特征元素包括各数据维度特征,特征箱体值元素包括特征箱体值。不难看出,在数据特征分箱表中数据维度特征A与特征箱体值元素编号01对应的箱体表格参数为0,即对应着离散化分布信息。需要说明的是,这里的每一数据维度特征离散化处理方法可以根据具体的数据应用场景而定,如消费金融场景下具体的风控策略规则指导数据离散化,也可以采用均匀划分、经验划分等分箱的离散化方式。
S404:以每个原始数据为基准,将原始数据的至少两个数据维度特征与数据特征分箱表进行匹配,得到每个原始数据对应的原始特征箱体值信息,原始特征箱体值信息包括原始数据中每个数据维度特征对应的特征箱体值。
其中,在将每个原始数据的至少两个数据维度特征与数据特征分箱表进行匹配时,按照原始数据的至少两个数据维度特征的预设序列依次对每个数据维度特征在数据特征分箱表中进行查找原始特征箱体值信息(即数据特征分箱表中的特征箱体值)。
例如,原始数据1中数据维度特征A为1,数据维度特征B为0.3,数据维度特征C为3,同时,在数据特征分箱表中数据维度特征A为1对应特征箱体值02,数据维度特征B为0.3对应特征箱体值03,数据维度特征C为3对应特征箱体值02,因此原始数据1对应的原始特征箱体值信息为特征箱体值02、特征箱体值03以及特征箱体值02。
又如,原始数据2中数据维度特征A为0,数据维度特征B为0.6,数据维度特征C为1,同时,在数据特征分箱表中数据维度特征A为0对应特征箱体值01,数据维度特征B为0.6对应特征箱体值04,数据维度特征C为1对应特征箱体值01,因此原始数据2对应的原始特征箱体值信息为特征箱体值01、特征箱体值04以及特征箱体值01。
又如,原始数据3中数据维度特征A为1,数据维度特征B为0.4,数据维度特征C为4,同时,在数据特征分箱表中数据维度特征A为1对应特征箱体值02,数据维度特征B为0.4对应特征箱体值03,数据维度特征C为1对应特征箱体值02,因此原始数据2对应的原始特征箱体值信息为特征箱体值02、特征箱体值03以及特征箱体值02。
同理不难得出原始数据n对应的原始特征箱体值信息为特征箱体值02、特征箱体值01以及特征箱体值03。
S406:基于原始特征箱体值信息生成至少两个数据维度特征的参考策略路径。
在得到原始特征箱体值信息后,将原始特征箱体值信息中的特征箱体值按照数据维度特征的预先设定排序进行排列,例如按照数据维度特征A-数据维度特征B-数据维度特征C进行排列,可以得到原始数据1的参考策略路径为02-03-02,原始数据2的参考策略路径为01-04-01,原始数据3的参考策略路径为02-03-02,原始数据n的参考策略路径为02-01-03。
在本说明书中,通过对原始数据的至少两个数据维度特征分别进行离散化处理得到离散化分布信息,之后生成所有离散化分布信息对应的数据特征分箱表,最后将原始数据的至少两个数据维度特征与数据特征分箱表进行匹配,得到原始数据对应的参考策略路径,使得参考策略路径融合了原始数据的至少两个数据维度特征,并且没有基于原始数据进行数据重构,同时减小了生成参考策略路径的运算量。
请参见图5,图5为本说明书一个或多个实施例提出的又一种生成策略路径库的流程示意图。具体的:
S304中基于参考策略路径生成策略路径库,包括:
S502:对所有的参考策略路径进行路径聚类处理,得到每个参考策略类型路径中参考策略路径对应的原始数据量。
其中,在得到原始数据对应的参考策略路径后,对所有原始数据对应的参考策略路径进行路径聚类处理。这里,路径聚类处理可以理解为将参考策略路径相同的放至同一参考策略类型路径中。例如原始数据1的参考策略路径为02-03-02,原始数据3的参考策略路径为02-03-02。因此,原始数据1和原始数据3属于同一参考策略类型路径。
得到的每个参考策略类型路径中可以包括一个或多个原始数据,基于每个参考策略类型路径中原始数据的数量,可以得到每个参考策略类型路径对应的原始数据量。例如,参考策略类型路径中包括10个原始数据,因此该参考策略类型路径的原始数据量为10。
S504:确定原始数据量大于或等于预设数据量阈值的参考策略类型路径,将参考策略类型路径添加至策略路径库。
其中,当参考策略类型路径的原始数据量较小时,表明该参考策略类型路径下的参考策略路径可能是偶发情况,不具备统计意义。
因此,可以基于实际情况设置预设数据量阈值,当原始数据量大于或等于预设数据量阈值的参考策略类型路径时,将参考策略类型路径添加至策略路径库中;当原始数据量小于预设数据量阈值的参考策略类型路径时,将参考策略类型路径不添加至策略路径库中。
在本说明书中,通过对所有的参考策略路径进行路径聚类处理,得到每个参考策略类型路径对应的原始数据量,之后基于每个参考策略类型路径对应的原始数据量的大小选择合适的参考策略类型路径添加至策略路径库中,避免不具备统计意义的参考策略类型路径添加至策略路径库中,有效提升了策略路径库的后续数据异常鉴别能力。
在本说明书提供的一种实施例中,S204中基于策略路径库对目标校验策略路径进行检索处理,得到数据维度特征区别结果,包括:
基于策略路径库中的参考策略类型路径对目标校验策略路径进行相似路径检索,得到相似路径列表,相似路径列表包括至少一个参考策略类型路径对应的相似路径信息组成,相似路径信息至少包括相似特征箱体值和差异特征箱体值;
基于相似路径列表生成数据维度特征区别结果。
其中,通过策略路径库中的参考策略类型路径对目标校验策略路径进行相似路径检索,得到策略路径库中每个参考策略类型路径与目标校验策略路径的相似特征箱体值和差异特征箱体值,之后通过相似特征箱体值和差异特征箱体值建立相似路径列表,相似路径列表中差异特征箱体值可以差异化显示,之后,可以通过相似路径列表进行差异的量化运算生成数据维度特征区别结果。
具体请参见图6,图6为本说明书一个或多个实施例提出的一种相似路径列表的示意图。其中,参考策略类型路径包括参考策略类型路径1、2、3、4、5以及6,每一列代表一种数据维度特征,其中,每一排具有N个数据维度特征。
请参见图7,图7为本说明书一个或多个实施例提出的一种确定异常参考维度的流程示意图。具体的,该方法包括:
S702:当数据异常检测结果为目标校验数据为异常数据时,获取参考策略类型路径中每个维度差异度,维度差异度为参考维度对应的差异特征箱体值和目标特征箱体值的差值。
其中,当数据异常检测结果为目标校验数据为异常数据时,需要进一步分析可能出现问题的参考维度,参考维度即数据维度特征所对应的维度。因此,可以获取每个参考策略类型路径中每个维度差异度,维度差异度具体为参考维度对应的差异特征箱体值和目标特征箱体值的差值的正值。
S704:计算同一参考维度的维度差异度之和,得到参考维度偏差值。
其中,在得到每一个参考策略类型路径中每个维度差异度后,将同一参考维度的维度差异度相加,得到同一参考维度的维度差异度之和,即参考维度偏差值。这里,参考维度偏差值越大,则表明这一参考维度出现异常的可能性越高。
S706:将所有参考维度的参考维度偏差值进行排序,得到所有参考维度对应的维度排序结果。
其中,将全部参考维度的参考维度偏差值进行排序,基于维度排序结果可以获取参考维度出现异常的可能性排序。如可以从大到小进行排序,对应的维度排序结果与参考维度出现异常的可能性排序一致;又如可以从小到大进行排序,对应的维度排序结果与参考维度出现异常的可能性排序相反。
S708:基于维度排序结果选择预设数量的参考维度偏差值对应的参考维度作为异常参考维度。
其中,在得到维度排序结果后,基于维度排序结果确定参考维度出现异常的可能性排序,之后基于参考维度出现异常的可能性排序从大至小选择预设数量的参考维度偏差值对应的参考维度作为异常参考维度,预设数量可以基于实际场景进行对应设置。这里参考维度偏差值越大,则表明这一参考维度出现异常的可能性越高。
在本说明书中,通过计算每一个参考维度的参考维度偏差值,对所有参考维度的参考维度偏差值进行排序,之后由于参考维度偏差值越大,则表明这一参考维度出现异常的可能性越高,因此可以从维度排序结果选择预设数量的异常参考维度,从而准确得到可能出现问题的参考维度,本方案具备高维数据异常可解释性,可以提高后续异常处置效率。
请参见图8,图8为本说明书一个或多个实施例提出的一种生成数据维度特征区别结果的流程示意图。具体的,上述基于相似路径列表生成数据维度特征区别结果,包括:
S802:基于参考策略类型路径的差异特征箱体值的数量确定i阶标号,得到参考策略类型路径相对于目标校验策略路径的N-i阶相似策略路径,其中,N为原始数据的数据维度特征数,i为自然数且0≤i<N。
其中,如图6所示,参考策略类型路径中参考策略路径1的差异特征箱体值的数量为1,因此,参考策略路径1对应的参考策略类型路径相对于目标校验策略路径的N-i(N减去i)阶相似策略路径。N为原始数据的数据维度特征数,i为参考策略类型路径中参考策略路径的差异特征箱体值的数量。因此i为自然数且0≤i<N。
S804:在目标校验策略路径中获取差异特征箱体值对应的目标特征箱体值,基于差异特征箱体值和目标特征箱体值计算差异度,基于差异度得到每个N-i阶相似策略路径的策略转移距离。
其中,请继续参阅图6,在图6中参考策略路径1的差异特征箱体值为02,差异特征箱体值对应的目标特征箱体值为01,因此基于差异特征箱体值和目标特征箱体值计算差异度可以基于差异特征箱体值与对应的目标特征箱体值的差值的正值计算差异度,得到每个N-i阶相似策略路径的策略转移距离,这里N-i阶相似策略路径可以有一个或多个。当差异特征箱体值为多个时,得到的策略转移距离可以如参考策略路径3对应的转移距离表示【1,1】,这样表示便于获取差异特征箱体值的数量。
策略转移距离的数值可以直接将差异特征箱体值与对应的目标特征箱体值的差值的正值相加,或者对不同的参考维度赋予权重后对异特征箱体值与对应的目标特征箱体值的差值的正值加权求和,这里不作限制。
S806:基于N-i阶相似策略路径的策略转移距离和相似路径列表得到数据维度特征区别结果。
其中,基于N-i阶相似策略路径的策略转移距离和相似路径列表可以得到策略转移距离的数值、相似阶N-i、N-i阶相似策略路径的数量。当策略转移距离的数值越大时,表明该目标校验策略路径异常的可能性越高;当相似阶N-i的阶数越小时,表明目标校验策略路径与参考策略路径的相似度越小,同样表明该目标校验策略路径异常的可能性越高;当N-i阶相似策略路径的数量越多时,表明即使存在较多数量的同阶相似策略路径,但始终找不到一个与目标校验策略路径相同的参考策略路径,同样表明该目标校验策略路径异常的可能性越高。
因此,基于策略转移距离的数值、相似阶N-i、N-i阶相似策略路径的数量可以得到数据维度特征区别结果。
具体请参阅图9,图9为本说明书一个或多个实施例提出的一种确定目标校验数据的数据异常检测结果的流程示意图。S204中基于数据维度特征区别结果确定目标校验数据的数据异常检测结果,包括:
S902:基于策略转移距离与相似路径列表,对目标校验策略路径进行异常评分处理,得到目标校验策略路径的异常评分值。
其中,基于策略转移距离与相似路径列表,得到策略转移距离的数值、相似阶N-i、N-i阶相似策略路径的数量,之后基于策略转移距离的数值、相似阶N-i、N-i阶相似策略路径的数量得到目标校验策略路径的异常评分值。
具体的,S902的具体步骤可以包括:
基于策略转移距离与相似路径列表,确定相似路径列表中全部参考策略类型路径对应的参考策略路径总条数、相似路径列表中每个N-k阶相似策略路径的策略转移距离之和、目标阈值;
将参考策略路径总条数、策略转移距离之和、目标阈值输入目标函数式中,得到目标校验策略路径的异常评分值;
目标阈值满足以下公式:
r=(L+α)/α;
目标函数式满足以下公式:
其中,L表示相似路径列表中全部参考策略类型路径对应的参考策略路径总条数,α为超参数因子,discancek表示相似路径列表中每个N-k阶相似策略路径的策略转移距离之和,k为自然数且0≤k<N,risk score表示目标校验策略路径的异常评分值。
需要说明的是,k可以为1或2,即主要考虑N-1阶相似和N-2阶相似的情况;同时,每个N-k阶相似策略路径的策略转移距离之和应理解为相同阶相似的参考策略路径的策略转移距离之和。
S904:当异常评分值大于或等于异常评分阈值时,生成目标校验数据为异常数据的数据异常检测结果。
在得到异常评分值后,将异常评分值与异常评分阈值做比较,当异常评分值大于或等于异常评分阈值时,表明目标校验策略路径综合了策略转移距离的数值、相似阶N-i、N-i阶相似策略路径的数量的异常评分值较大,判定目标校验策略路径异常,同时生成目标校验数据为异常数据的数据异常检测结果.
当异常评分值小于异常评分阈值时,表明目标校验策略路径综合了策略转移距离的数值、相似阶N-i、N-i阶相似策略路径的数量的异常评分值较小,判定目标校验策略路径正常,同时生成目标校验数据为异常数据的数据正常检测结果。
容易理解的,当目标校验数据为异常数据时,则与目标校验数据对应的目标校验策略路径相同的策略路径均可作为异常数据。
下面将结合图10,对本说明书提供的数据异常检测装置进行详细介绍。需要说明的是,图10所示的数据异常检测装置,用于执行本说明书图1~图9所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本说明书图1~图9所示的实施例。
请参见图10,其示出本说明书的数据异常检测装置的结构示意图。该数据异常检测装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该数据异常检测装置1包括响应模块11和异常检测模块12,具体用于:
响应模块,适于响应于目标校验数据的校验请求,基于目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到目标校验数据对应的目标校验策略路径;
异常检测模块,适于基于策略路径库对目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于数据维度特征区别结果确定目标校验数据的数据异常检测结果。
可选地,数据异常检测装置1还包括:
获取模块,适于获取多个原始数据,每个原始数据包括至少两个数据维度特征;
生成模块,适于基于原始数据的至少两个数据维度特征进行维度路径转化处理,得到原始数据对应的参考策略路径,基于参考策略路径生成策略路径库。
可选地,生成模块包括:
生成单元,适于对原始数据的至少两个数据维度特征分别进行离散化处理,得到至少两个数据维度特征中每个数据维度特征的离散化分布信息,生成所有离散化分布信息对应的数据特征分箱表,数据特征分箱表至少包括数据维度特征元素、特征箱体值元素、数据特征元素与特征箱体值元素对应的箱体表格参数;
匹配单元,适于以每个原始数据为基准,将原始数据的至少两个数据维度特征与数据特征分箱表进行匹配,得到每个原始数据对应的原始特征箱体值信息,原始特征箱体值信息包括原始数据中每个数据维度特征对应的特征箱体值;
参考策略路径生成单元,适于基于原始特征箱体值信息生成至少两个数据维度特征的参考策略路径。
可选地,生成模块包括:
聚类单元,适于对所有的参考策略路径进行路径聚类处理,得到每个参考策略类型路径中参考策略路径对应的原始数据量;
添加单元,适于确定原始数据量大于或等于预设数据量阈值的参考策略类型路径,将参考策略类型路径添加至策略路径库。
可选地,异常检测模块包括:
相似路径列表生成单元,适于基于策略路径库中的参考策略类型路径对目标校验策略路径进行相似路径检索,得到相似路径列表,相似路径列表包括至少一个参考策略类型路径对应的相似路径信息组成,相似路径信息至少包括相似特征箱体值和差异特征箱体值;
数据维度特征区别结果生成单元,适于基于相似路径列表生成数据维度特征区别结果。
可选地,数据异常检测装置1还包括:
维度差异度获取模块,适于当数据异常检测结果为目标校验数据为异常数据时,获取参考策略类型路径中每个维度差异度,维度差异度为参考维度对应的差异特征箱体值和目标特征箱体值的差值;
计算模块,适于计算同一参考维度的维度差异度之和,得到参考维度偏差值;
排序模块,适于将所有参考维度的参考维度偏差值进行排序,得到所有参考维度对应的维度排序结果;
异常参考维度确定单元,适于基于维度排序结果选择预设数量的参考维度偏差值对应的参考维度作为异常参考维度。
可选地,数据维度特征区别结果生成单元包括:
i阶标号确定子单元,适于基于参考策略类型路径的差异特征箱体值的数量确定i阶标号,得到参考策略类型路径相对于目标校验策略路径的N-i阶相似策略路径,其中,N为原始数据的数据维度特征数,i为自然数且0≤i<N;
策略转移距离确定子单元,适于在目标校验策略路径中获取差异特征箱体值对应的目标特征箱体值,基于差异特征箱体值和目标特征箱体值计算差异度,基于差异度得到每个N-i阶相似策略路径的策略转移距离;
数据维度特征区别结果确定子单元,适于基于N-i阶相似策略路径的策略转移距离和相似路径列表得到数据维度特征区别结果。
可选地,异常检测模块包括:
异常评分单元,适于基于策略转移距离与相似路径列表,对目标校验策略路径进行异常评分处理,得到目标校验策略路径的异常评分值;
判断单元,适于当异常评分值大于或等于异常评分阈值时,生成目标校验数据为异常数据的数据异常检测结果。
可选地,异常评分单元包括:
确定子单元,适于基于策略转移距离与相似路径列表,确定相似路径列表中全部参考策略类型路径对应的参考策略路径总条数、相似路径列表中每个N-k阶相似策略路径的策略转移距离之和、目标阈值;
异常评分值获取子单元,适于将参考策略路径总条数、策略转移距离之和、目标阈值输入目标函数式中,得到目标校验策略路径的异常评分值;
目标阈值满足以下公式:
r=(L+α)/α;
目标函数式满足以下公式:
/>
其中,L表示相似路径列表中全部参考策略类型路径对应的参考策略路径总条数,α为超参数因子,discancek表示相似路径列表中每个N-k阶相似策略路径的策略转移距离之和,k为自然数且0≤k<N,risk score表示目标校验策略路径的异常评分值。
需要说明的是,上述实施例提供的数据异常检测装置在执行数据异常检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据异常检测装置与数据异常检测方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本说明书序号仅仅为了描述,不代表实施例的优劣。
在本说明书提供的数据异常检测装置中,由于目标校验数据基于其至少两个数据维度特征转化为目标校验策略路径,可以减小后续检索的计算量。因此,基于策略路径库对目标校验策略路径进行检索处理时,可以加快检索进度。
同时,由于目标校验数据的至少两个数据维度特征均包含在目标校验策略路径中。这样,可以通过先验知识,即基于策略路径库中各路径可以有效识别目标校验策略路径的数据维度特征区别结果,数据维度特征区别结果有效整合了至少两个数据维度特征的校验信息,使得基于数据维度特征区别结果可以确定目标校验数据的数据异常检测结果。从而可以解决在处理的数据涉及多数据维度特征组合时,不同数据维度特征之间的相关性难以确定,即便基于专家经验也难以对多数据维度特征组合的数据进行异常数据识别的技术问题。
本说明书还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图9所示实施例的所述数据异常检测方法,具体执行过程可以参见图1~图9所示实施例的具体说明,在此不进行赘述。
本说明书还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图9所示实施例的所述数据异常检测方法,具体执行过程可以参见图1~图9所示实施例的具体说明,在此不进行赘述。
请参考图11,图11是本说明书提供的一种电子设备的结构示意图。其示出了本说明书一个示例性实施例提供的电子设备的结构方框图。本说明书中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit,CPU)、图像处理器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(Android)系统,包括基于Android系统深度开发的系统、苹果公司开发的IOS系统,包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。
参见图12所示,图12是本说明书提供的操作系统和用户空间的结构示意图。存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
以操作系统为Android系统为例,存储器120中存储的程序和数据如图13所示,图13是图12中安卓操作系统的架构图,存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序等。
以操作系统为IOS系统为例,存储器120中存储的程序和数据如图14所示,图14是图12中IOS操作系统的架构图,IOS系统包括:核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa TouchLayer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(UserInterface,UI)框架、用户界面UIKit框架、地图框架等等。
在图14所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和UI无关。而UIKit框架提供的类是基础的UI类库,用于创建基于触摸的用户界面,iOS应用程序可以基于UIKit框架来提供UI,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
其中,在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统,本说明书在此不再赘述。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本说明书对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在本说明书中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是IOS系统,或者其它操作系统,本说明书对此不作限定。
本说明书的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathode ray tubedisplay,简称CR)、发光二极管显示器(light-emitting diode display,简称LED)、电子墨水屏、液晶显示屏(liquidcrystal display,简称LCD)、等离子显示面板(plasma display panel,简称PDP)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality,增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。
在图11所示的电子设备中,其中电子设备可以是一种终端,处理器110可以用于调用存储器120中存储的数据异常检测应用程序,并具体执行以下操作:
响应于目标校验数据的校验请求,基于目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到目标校验数据对应的目标校验策略路径;
基于策略路径库对目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于数据维度特征区别结果确定目标校验数据的数据异常检测结果。
在一个实施例中,所述处理器110还适于执行如下步骤:
获取多个原始数据,每个原始数据包括至少两个数据维度特征;
基于原始数据的至少两个数据维度特征进行维度路径转化处理,得到原始数据对应的参考策略路径,基于参考策略路径生成策略路径库。
在一个实施例中,所述处理器110执行基于原始数据的至少两个数据维度特征进行维度路径转化处理,得到原始数据对应的参考策略路径时,具体执行如下步骤:
对原始数据的至少两个数据维度特征分别进行离散化处理,得到至少两个数据维度特征中每个数据维度特征的离散化分布信息,生成所有离散化分布信息对应的数据特征分箱表,数据特征分箱表至少包括数据维度特征元素、特征箱体值元素、数据特征元素与特征箱体值元素对应的箱体表格参数;
以每个原始数据为基准,将原始数据的至少两个数据维度特征与数据特征分箱表进行匹配,得到每个原始数据对应的原始特征箱体值信息,原始特征箱体值信息包括原始数据中每个数据维度特征对应的特征箱体值;
基于原始特征箱体值信息生成至少两个数据维度特征的参考策略路径。
在一个实施例中,所述处理器110执行基于参考策略路径生成策略路径库时,具体执行如下步骤:
对所有的参考策略路径进行路径聚类处理,得到每个参考策略类型路径中参考策略路径对应的原始数据量;
确定原始数据量大于或等于预设数据量阈值的参考策略类型路径,将参考策略类型路径添加至策略路径库。
在一个实施例中,所述处理器110执行基于策略路径库对目标校验策略路径进行检索处理,得到数据维度特征区别结果时,具体执行如下步骤:
基于策略路径库中的参考策略类型路径对目标校验策略路径进行相似路径检索,得到相似路径列表,相似路径列表包括至少一个参考策略类型路径对应的相似路径信息组成,相似路径信息至少包括相似特征箱体值和差异特征箱体值;
基于相似路径列表生成数据维度特征区别结果。
在一个实施例中,所述处理器110还适于执行如下步骤:
当数据异常检测结果为目标校验数据为异常数据时,获取参考策略类型路径中每个维度差异度,维度差异度为参考维度对应的差异特征箱体值和目标特征箱体值的差值;
计算同一参考维度的维度差异度之和,得到参考维度偏差值;
将所有参考维度的参考维度偏差值进行排序,得到所有参考维度对应的维度排序结果;
基于维度排序结果选择预设数量的参考维度偏差值对应的参考维度作为异常参考维度。
在一个实施例中,所述处理器110执行基于相似路径列表生成数据维度特征区别结果时,具体执行如下步骤:
基于参考策略类型路径的差异特征箱体值的数量确定i阶标号,得到参考策略类型路径相对于目标校验策略路径的N-i阶相似策略路径,其中,N为原始数据的数据维度特征数,i为自然数且0≤i<N;
在目标校验策略路径中获取差异特征箱体值对应的目标特征箱体值,基于差异特征箱体值和目标特征箱体值计算差异度,基于差异度得到每个N-i阶相似策略路径的策略转移距离;
基于N-i阶相似策略路径的策略转移距离和相似路径列表得到数据维度特征区别结果。
在一个实施例中,所述处理器110执行基于数据维度特征区别结果确定目标校验数据的数据异常检测结果时,具体执行如下步骤:
基于策略转移距离与相似路径列表,对目标校验策略路径进行异常评分处理,得到目标校验策略路径的异常评分值;
当异常评分值大于或等于异常评分阈值时,生成目标校验数据为异常数据的数据异常检测结果。
在一个实施例中,所述处理器110执行基于策略转移距离与相似路径列表,对目标校验策略路径进行异常评分处理,得到目标校验策略路径的异常评分值时,具体执行如下步骤:
基于策略转移距离与相似路径列表,确定相似路径列表中全部参考策略类型路径对应的参考策略路径总条数、相似路径列表中每个N-k阶相似策略路径的策略转移距离之和、目标阈值;
将参考策略路径总条数、策略转移距离之和、目标阈值输入目标函数式中,得到目标校验策略路径的异常评分值;
目标阈值满足以下公式:
r=(L+α)/α;
目标函数式满足以下公式:
其中,L表示相似路径列表中全部参考策略类型路径对应的参考策略路径总条数,α为超参数因子,discancek表示相似路径列表中每个N-k阶相似策略路径的策略转移距离之和,k为自然数且0≤k<N,risk score表示目标校验策略路径的异常评分值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本说明书中涉及的对象特征、交互行为特征以及用户信息等都是在充分授权的情况下获取的。
以上所揭露的仅为本说明书较佳实施例而已,当然不能以此来限定本说明书之权利范围,因此依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。

Claims (13)

1.一种数据异常检测方法,所述方法包括:
响应于目标校验数据的校验请求,基于所述目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到所述目标校验数据对应的目标校验策略路径;
基于策略路径库对所述目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于所述数据维度特征区别结果确定所述目标校验数据的数据异常检测结果。
2.根据权利要求1所述的方法,所述方法还包括:
获取多个原始数据,每个所述原始数据包括至少两个数据维度特征;
基于所述原始数据的至少两个数据维度特征进行维度路径转化处理,得到所述原始数据对应的参考策略路径,基于所述参考策略路径生成策略路径库。
3.根据权利要求2所述的方法,所述基于所述原始数据的至少两个数据维度特征进行维度路径转化处理,得到所述原始数据对应的参考策略路径,包括:
对原始数据的至少两个数据维度特征分别进行离散化处理,得到所述至少两个数据维度特征中每个数据维度特征的离散化分布信息,生成所有所述离散化分布信息对应的数据特征分箱表,所述数据特征分箱表至少包括数据维度特征元素、特征箱体值元素、数据特征元素与特征箱体值元素对应的箱体表格参数;
以每个所述原始数据为基准,将所述原始数据的至少两个数据维度特征与所述数据特征分箱表进行匹配,得到每个所述原始数据对应的原始特征箱体值信息,所述原始特征箱体值信息包括所述原始数据中每个数据维度特征对应的特征箱体值;
基于所述原始特征箱体值信息生成所述至少两个数据维度特征的参考策略路径。
4.根据权利要求2所述的方法,所述基于所述参考策略路径生成策略路径库,包括:
对所有的所述参考策略路径进行路径聚类处理,得到每个参考策略类型路径中参考策略路径对应的原始数据量;
确定所述原始数据量大于或等于预设数据量阈值的参考策略类型路径,将所述参考策略类型路径添加至策略路径库。
5.根据权利要求3所述的方法,所述基于策略路径库对所述目标校验策略路径进行检索处理,得到数据维度特征区别结果,包括:
基于所述策略路径库中的参考策略类型路径对所述目标校验策略路径进行相似路径检索,得到相似路径列表,所述相似路径列表包括至少一个参考策略类型路径对应的相似路径信息组成,所述相似路径信息至少包括相似特征箱体值和差异特征箱体值;
基于所述相似路径列表生成数据维度特征区别结果。
6.根据权利要求5所述的方法,所述方法还包括:
当所述数据异常检测结果为所述目标校验数据为异常数据时,获取所述参考策略类型路径中每个维度差异度,所述维度差异度为参考维度对应的差异特征箱体值和所述目标特征箱体值的差值;
计算同一参考维度的所述维度差异度之和,得到参考维度偏差值;
将所有参考维度的参考维度偏差值进行排序,得到所有参考维度对应的维度排序结果;
基于所述维度排序结果选择预设数量的参考维度偏差值对应的参考维度作为异常参考维度。
7.根据权利要求5所述的方法,所述基于所述相似路径列表生成数据维度特征区别结果,包括:
基于所述参考策略类型路径的所述差异特征箱体值的数量确定i阶标号,得到所述参考策略类型路径相对于所述目标校验策略路径的N-i阶相似策略路径,其中,所述N为所述原始数据的数据维度特征数,所述i为自然数且0≤i<N;
在所述目标校验策略路径中获取所述差异特征箱体值对应的目标特征箱体值,基于所述差异特征箱体值和所述目标特征箱体值计算差异度,基于所述差异度得到每个所述N-i阶相似策略路径的策略转移距离;
基于所述N-i阶相似策略路径的策略转移距离和所述相似路径列表得到数据维度特征区别结果。
8.根据权利要求7所述的方法,所述基于所述数据维度特征区别结果确定所述目标校验数据的数据异常检测结果,包括:
基于所述策略转移距离与所述相似路径列表,对所述目标校验策略路径进行异常评分处理,得到所述目标校验策略路径的异常评分值;
当所述异常评分值大于或等于异常评分阈值时,生成所述目标校验数据为异常数据的数据异常检测结果。
9.根据权利要求8所述的方法,所述基于所述策略转移距离与所述相似路径列表,对所述目标校验策略路径进行异常评分处理,得到所述目标校验策略路径的异常评分值,包括:
基于所述策略转移距离与所述相似路径列表,确定所述相似路径列表中全部参考策略类型路径对应的参考策略路径总条数、所述相似路径列表中每个N-k阶相似策略路径的策略转移距离之和、目标阈值;
将所述参考策略路径总条数、所述策略转移距离之和、所述目标阈值输入目标函数式中,得到所述目标校验策略路径的异常评分值;
所述目标阈值满足以下公式:
r=(L+α)/α;
所述目标函数式满足以下公式:
其中,L表示所述相似路径列表中全部参考策略类型路径对应的参考策略路径总条数,α为超参数因子,discancek表示相似路径列表中每个N-k阶相似策略路径的策略转移距离之和,所述k为自然数且0≤k<N,risk score表示所述目标校验策略路径的异常评分值。
10.一种数据异常检测装置,所述装置包括:
响应模块,适于响应于目标校验数据的校验请求,基于所述目标校验数据对应的至少两个数据维度特征进行维度路径转化处理,得到所述目标校验数据对应的目标校验策略路径;
异常检测模块,适于基于策略路径库对所述目标校验策略路径进行检索处理,得到数据维度特征区别结果,基于所述数据维度特征区别结果确定所述目标校验数据的数据异常检测结果。
11.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~9任意一项的方法步骤。
12.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如权利要求1~9任意一项的方法步骤。
13.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~9任意一项的方法步骤。
CN202311652693.8A 2023-12-05 2023-12-05 数据异常检测方法、装置、存储介质及电子设备 Pending CN117688484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311652693.8A CN117688484A (zh) 2023-12-05 2023-12-05 数据异常检测方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311652693.8A CN117688484A (zh) 2023-12-05 2023-12-05 数据异常检测方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117688484A true CN117688484A (zh) 2024-03-12

Family

ID=90134393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311652693.8A Pending CN117688484A (zh) 2023-12-05 2023-12-05 数据异常检测方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117688484A (zh)

Similar Documents

Publication Publication Date Title
CN111447107B (zh) 网络状态确定方法、装置、存储介质及电子设备
WO2024099457A1 (zh) 一种信息推荐方法、装置、存储介质及电子设备
CN111931075A (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN116228391A (zh) 一种风险识别方法、装置、存储介质及电子设备
CN116823537A (zh) 一种保险报案处理方法、装置、存储介质及电子设备
CN111966894A (zh) 信息查询方法、装置、存储介质及电子设备
CN115858556A (zh) 一种数据处理方法、装置、存储介质及电子设备
CN113807056B (zh) 一种文档名称序号纠错方法、装置和设备
CN117688484A (zh) 数据异常检测方法、装置、存储介质及电子设备
CN112328339B (zh) 通知消息的显示方法、装置、存储介质及电子设备
CN111770510B (zh) 网络体验状态确定方法、装置、存储介质及电子设备
CN113972989B (zh) 数据校验方法及存储介质、电子设备
CN116416018A (zh) 内容输出方法、装置、计算机可读介质及电子设备
CN113922998A (zh) 一种漏洞风险评估方法、装置、电子设备及可读存储介质
CN118035546A (zh) 文本意图识别模型训练方法、文本意图识别方法及装置
CN116071527B (zh) 一种对象处理方法、装置、存储介质及电子设备
CN117725219A (zh) 企业实体间关系预测方法、装置、存储介质及电子设备
CN118070923A (zh) 模型训练数据生成方法、装置、存储介质及电子设备
CN116522996A (zh) 一种推荐模型的训练方法、推荐方法以及相关装置
US11841891B2 (en) Mapping webpages to page groups
CN117972513A (zh) 数据分类模型训练方法及数据分类方法、装置及存储介质
CN116302235A (zh) 一种弹窗处理方法、装置、存储介质及电子设备
CN113283115B (zh) 图像模型生成方法、装置和电子设备
CN111581381B (zh) 文本分类模型的训练集合的生成方法、装置和电子设备
CN116934395A (zh) 一种特征处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination