CN111737493B - 基于决策树的异常数据源输出方法、装置和计算机设备 - Google Patents

基于决策树的异常数据源输出方法、装置和计算机设备 Download PDF

Info

Publication number
CN111737493B
CN111737493B CN202010582615.5A CN202010582615A CN111737493B CN 111737493 B CN111737493 B CN 111737493B CN 202010582615 A CN202010582615 A CN 202010582615A CN 111737493 B CN111737493 B CN 111737493B
Authority
CN
China
Prior art keywords
data
node
knowledge
data stream
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010582615.5A
Other languages
English (en)
Other versions
CN111737493A (zh
Inventor
刘利
刘中原
赵世泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010582615.5A priority Critical patent/CN111737493B/zh
Publication of CN111737493A publication Critical patent/CN111737493A/zh
Priority to PCT/CN2021/096979 priority patent/WO2021259002A1/zh
Application granted granted Critical
Publication of CN111737493B publication Critical patent/CN111737493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本申请涉及人工智能技术领域,揭示了一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质,包括:获取输入的数据组;调取预设的知识图谱;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取数据流集合;得到第一数据类别序列和第二数据类别序列;统计所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。此外,本申请还涉及区块链技术,所述决策树可存储于区块链中。

Description

基于决策树的异常数据源输出方法、装置和计算机设备
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质。
背景技术
在数据处理过程中,异常数据或异常数据源的发现是很关键的,若能更早、更准确地找出异常数据或异常数据源,有利于计算机优化、故障分析等。
传统的异常数据的发现,只能对输入的数据进行直接分析,即分析该输入的数据是否异常,而难以对与其相关联的数据是否异常作出判断。因此,传统的异常数据的发现效率低、全面性差。
发明内容
本申请的主要目的为提供一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质,旨在实现准确、全面地输出异常数据源。
为了实现上述发明目的,本申请提出一种基于决策树的异常数据源输出方法,包括:
获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
进一步地,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤之前,包括:
采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
进一步地,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤,包括:
在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure BDA0002552963660000031
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
进一步地,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤,包括:
获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
进一步地,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前,包括:
获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
本申请提供一种基于决策树的异常数据源输出装置,包括:
数据组获取单元,用于获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
知识图谱调取单元,用于调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
打捞工具获取单元,用于采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
节点集合获取单元,用于使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
数据流集合获取单元,用于在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
数据类别序列获取单元,用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
数量阈值判断单元,用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
异常数据流获取单元,用于若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
异常数据源输出单元,用于将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
进一步地,所述装置,包括:
暂时实体获取单元,用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
同义实体判断单元,用于比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
同义词替换单元,用于若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
知识图谱构建单元,用于获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
进一步地,所述打捞工具获取单元,包括:
多维坐标系建立子单元,用于在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
关联节点获取子单元,用于在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
打捞距离计算子单元,用于获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure BDA0002552963660000061
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
有界多维空间生成子单元,用于生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
打捞工具生成子单元,用于生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于决策树的异常数据源输出方法、装置、计算机设备和存储介质,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
附图说明
图1为本申请一实施例的基于决策树的异常数据源输出方法的流程示意图;
图2为本申请一实施例的基于决策树的异常数据源输出装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于决策树的异常数据源输出方法,包括:
S1、获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
S2、调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
S3、采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
S4、使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
S5、在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
S6、将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
S7、统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
S8、若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
S9、将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
本申请可适用于任意可行场景,例如应用于故障分析(相应地,所述待分析数据为通信数据,或者为通信控制信号数据,从而能够分析出是哪些端口为异常数据源;或者,待分析的数据为微服务端的通信数据,相对应地,所述数据流则为微服务端之间的通信数据,从而能够分析出是哪些微服务端为异常数据源),或者应用于异常交易分析(相应地,所述待分析数据例如为某用户的帐号,对应的数据流则为帐号间的交易流)。
本申请中具有实际的技术特征,例如包括待分析数据(例如可为通信控制信号数据、微服务端的通信数据等);并利用了自然规律(例如异常数据与正常数据的本征区别、知识图谱中的各节点的关联关系远近特性,这些特性不经人为干预、属于客观事物的自身运动,其变化和发展与自身运动存在必然联系,具体地,本申请的执行中,执行的是控制程序,控制程序的执行过程不以人的意志为转移,且执行结果是给计算机的内部性能带来改进,即以较少的输入获取更多的输出,实现了全面性地覆盖,给计算机的功能上有实质性的提升);克服了实际的技术问题(现有的异常数据的发现与输出方案效率低、全面性差);具有实际的技术效果(无需大量输入数据,即可高效全面地输出异常数据源)。
如上述步骤S1所述,获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型。本申请的待分析数据例如为通信数据。在计算机的通信过程中,存在低效或者恶意通信数据,若不能及时准确地发现,将造成计算机算力的额外耗费。或者,例如为帐户交易数据,在帐户交易数据中存在洗钱等异常数据,也需要及时准确地发现。其中,所述参考数据用于辅助核实数据处理过程的准确性,将与所述待分析数据共同参与后续步骤。
如上述步骤S2-S3所述,调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具。知识图谱是一种可视化的地图,其由知识实体(知识节点)与知识实体之间的连接关系(实体关系)构成。本申请利用知识图谱来找出与待分析数据关联的数据流,从而实现了数据放大功能。再采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具。在此需要提及的是,本申请采用的打捞工具,用以在知识图谱中找出关联的节点。
如上述步骤S4所述,使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点。需要注意的是,本申请中进行了两次打捞处理,但是每次打捞处理采用的知识节点打捞工具是相同的,从而使得待分析数据与参考数据产生关联,以强化参考数据对于数据处理的核实功能。
如上述步骤S5所述,在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流。其中,所述预设的数据流匹配方法可为任意可行方法,例如从数据流库中直接搜索第一节点集合中的节点名称和第二节点集合中的节点名称,以找到分别包含第一节点集合中的节点名称和第二节点集合中的节点名称的数据流,从而对应得到与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合。
如上述步骤S6所述,将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据。决策树模型是一种分类模型,能够将输入的数据进行准确分类。本申请采用基于决策树模型的数据分类模型,以将所述第一数据流集合和所述第二数据流集合进行分类。得到的数据类别序列例如为(正常,正常,异常,...,正常)等。
如上述步骤S7-S9所述,统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值,实际上就是利用所述参考数据对分类结果进行核实处理。由于参考数据的类型是已知的(因为所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型),因此若分类无误,那么参考数据应也为指定数据类型,并且与其相关的数据也应大部分为指定数据类型,即所述第二数据类别序列中的大部分应为指定数据类型。据此,若所述成员数量大于预设的数量阈值,表明数据分类可信。再获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流。由于异常数据流的两端分别为数据接收端和数据发送端,因此数据接收端和数据发送端为异常数据源,因此将所述异常数据流两端的源头记为异常数据源(例如为故障数据源),并输出所述异常数据源。
在一个实施方式中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤S3之前,包括:
S21、采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
S22、比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
S23、若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
S24、获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
如上所述,实现了构建成知识图谱。本申请采用的知识图谱构建工具例如为开源的SPSS、VOSviewer等。知识图谱的结构是实体-实体关系-实体的三元组结构,因此实体即是知识图谱中的节点,实体关系在知识图谱中为实体与实体的连接关系。所述实体识别操作的过程例如为:行分词处理,从而获得由多个词构成的词序列,将所述词序列输入预设的语句结构模型,从而在所述词序列中获取暂时实体。再获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。其中三元组由两个实体以及两个实体之间的关系构成,因此获取了足够量的三元组,并将三元组以知识图谱网络结构的方式呈现,即能得到所述知识图谱。
在一个实施方式中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤S3,包括:
S301、在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
S302、在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
S303、获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure BDA0002552963660000121
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
S304、生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
S305、生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
如上所述,实现了采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具。普通的利用知识图谱获取关联数据的方法,仅是通过判断是否存在直接连接关系来获取,而本申请采用了特别的设计,即以打捞工具来获取,其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。所述有界多维空间的设置,实现了非直连知识节点的补充(因为相离较近的知识节点,虽然可能没有直连关系,但其相关程度仍是足够高的,应当作为关联数据筛选出来)。其中,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D,并且
Figure BDA0002552963660000131
以保证有界多维空间的打捞准确度。进一步地,所述均衡参数a的取值为0.8-0.9,优选0.9。
在一个实施方式中,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤S5,包括:
S501、获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
S502、判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
S503、若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
S504、将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
如上所述,实现了根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合。本申请采用短距数据流与长距数据流的并集作为第一数据流集合,不仅实现了数据的扩充,还避免了数据遗漏的缺陷。在此举例以便说明:第一节点集合中的节点例如包括Q、W,数据流库中存在Q-T1、T1-W的数据流,因此Q-T1、T1-W是短距数据流,这明显属于第一数据流集合;但是这种数据提取方式注重的是短距离的数据流,而在整体的数据流分析过程中,长距离的数据流是另外一个需要注重的方面,因此本申请还采用若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合,以实现了数据的扩充,还避免了数据遗漏的缺陷。仍以上述举例为基础来说明,对于Q-T1、T1-W的数据流,本申请将进行拼接,以得到Q-T1-W的长距离数据流,以保证数据获取的全面性。
在一个实施方式中,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤S6之前,包括:
S51、获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
S52、在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
S53、持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
S54、利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
S55、若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
如上所述,实现了将所述初始决策树记为所述数据分类模型。决策树的训练需要进行剪枝处理,传统的剪枝技术为预剪枝技术与后剪枝技术,但不涉及实时剪枝技术。本申请采用实时剪枝技术以缩短训练速度,并确保不会发生过度修剪。其中,实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作,从而保证实时剪枝处理得以实现。由于本申请的剪枝与决策树的展开是同时进行的,因此训练速度得到了提升。再利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型,从而为准确的数据分类提供了可能。
本申请的基于决策树的异常数据源输出方法,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
参照图2,本申请实施例提供一种基于决策树的异常数据源输出装置,包括:
数据组获取单元10,用于获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
知识图谱调取单元20,用于调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
打捞工具获取单元30,用于采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
节点集合获取单元40,用于使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
数据流集合获取单元50,用于在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
数据类别序列获取单元60,用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
数量阈值判断单元70,用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
异常数据流获取单元80,用于若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
异常数据源输出单元90,用于将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
暂时实体获取单元,用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
同义实体判断单元,用于比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
同义词替换单元,用于若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
知识图谱构建单元,用于获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述打捞工具获取单元,包括:
多维坐标系建立子单元,用于在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
关联节点获取子单元,用于在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
打捞距离计算子单元,用于获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure BDA0002552963660000171
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
有界多维空间生成子单元,用于生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
打捞工具生成子单元,用于生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述数据流集合获取单元,包括:
短距数据流获取子单元,用于获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
可拼接数据流对判断子单元,用于判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
拼接处理子单元,用于若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
第一数据流集合标记子单元,用于将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
训练数据获取单元,用于获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
实时剪枝处理单元,用于在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
初始决策树获取单元,用于持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
验证结果判断单元,用于利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
初始决策树标记单元,用于若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
本申请的基于决策树的异常数据源输出装置,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于决策树的异常数据源输出方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于决策树的异常数据源输出方法。
上述处理器执行上述基于决策树的异常数据源输出方法,其中所述方法包括的步骤分别与执行前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于决策树的异常数据源输出方法,其中所述方法包括的步骤分别与执行前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于决策树的异常数据源输出方法,其特征在于,包括:
获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
2.根据权利要求1所述的基于决策树的异常数据源输出方法,其特征在于,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤之前,包括:
采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
3.根据权利要求1所述的基于决策树的异常数据源输出方法,其特征在于,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤,包括:
在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure FDA0002552963650000021
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
4.根据权利要求1所述的基于决策树的异常数据源输出方法,其特征在于,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤,包括:
获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
5.根据权利要求1所述的基于决策树的异常数据源输出方法,其特征在于,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前,包括:
获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
6.一种基于决策树的异常数据源输出装置,其特征在于,包括:
数据组获取单元,用于获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
知识图谱调取单元,用于调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
打捞工具获取单元,用于采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
节点集合获取单元,用于使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
数据流集合获取单元,用于在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
数据类别序列获取单元,用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
数量阈值判断单元,用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
异常数据流获取单元,用于若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
异常数据源输出单元,用于将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
7.根据权利要求6所述的基于决策树的异常数据源输出装置,其特征在于,所述装置,包括:
暂时实体获取单元,用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
同义实体判断单元,用于比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
同义词替换单元,用于若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
知识图谱构建单元,用于获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
8.根据权利要求6所述的基于决策树的异常数据源输出装置,其特征在于,所述打捞工具获取单元,包括:
多维坐标系建立子单元,用于在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
关联节点获取子单元,用于在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
打捞距离计算子单元,用于获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure FDA0002552963650000061
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
有界多维空间生成子单元,用于生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
打捞工具生成子单元,用于生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202010582615.5A 2020-06-23 2020-06-23 基于决策树的异常数据源输出方法、装置和计算机设备 Active CN111737493B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010582615.5A CN111737493B (zh) 2020-06-23 2020-06-23 基于决策树的异常数据源输出方法、装置和计算机设备
PCT/CN2021/096979 WO2021259002A1 (zh) 2020-06-23 2021-05-28 基于决策树的异常数据源输出方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010582615.5A CN111737493B (zh) 2020-06-23 2020-06-23 基于决策树的异常数据源输出方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111737493A CN111737493A (zh) 2020-10-02
CN111737493B true CN111737493B (zh) 2023-05-02

Family

ID=72650783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010582615.5A Active CN111737493B (zh) 2020-06-23 2020-06-23 基于决策树的异常数据源输出方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111737493B (zh)
WO (1) WO2021259002A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737493B (zh) * 2020-06-23 2023-05-02 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备
CN112506976B (zh) * 2020-12-14 2023-05-12 杭州趣链科技有限公司 数据流向的展示方法、装置、电子设备及存储介质
CN113435517B (zh) * 2021-06-29 2023-06-02 平安科技(深圳)有限公司 异常数据点输出方法、装置、计算机设备和存储介质
CN113821546A (zh) * 2021-07-29 2021-12-21 北京金玖银玖数字科技有限公司 基于多元数据分层的实时预警方法及装置
CN114415975B (zh) * 2022-03-28 2022-06-21 支付宝(杭州)信息技术有限公司 针对知识图谱进行划分分区的方法及装置
CN114978877B (zh) * 2022-05-13 2024-04-05 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN117149498B (zh) * 2023-10-27 2024-03-01 华能信息技术有限公司 一种电厂故障诊断方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN109784370A (zh) * 2018-12-14 2019-05-21 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN110474871A (zh) * 2019-07-05 2019-11-19 中国平安财产保险股份有限公司 一种异常账号检测方法、装置、计算机设备及存储介质
CN110491106A (zh) * 2019-07-22 2019-11-22 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10521572B2 (en) * 2016-08-16 2019-12-31 Lexisnexis Risk Solutions Inc. Systems and methods for improving KBA identity authentication questions
CN107609094B (zh) * 2017-09-08 2020-12-04 北京百度网讯科技有限公司 数据消歧方法、装置及计算机设备
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN111737493B (zh) * 2020-06-23 2023-05-02 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN109784370A (zh) * 2018-12-14 2019-05-21 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN110474871A (zh) * 2019-07-05 2019-11-19 中国平安财产保险股份有限公司 一种异常账号检测方法、装置、计算机设备及存储介质
CN110491106A (zh) * 2019-07-22 2019-11-22 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备

Also Published As

Publication number Publication date
WO2021259002A1 (zh) 2021-12-30
CN111737493A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737493B (zh) 基于决策树的异常数据源输出方法、装置和计算机设备
CN109272396B (zh) 客户风险预警方法、装置、计算机设备和介质
CN109636658B (zh) 一种基于图卷积的社交网络对齐方法
CN109636607B (zh) 基于模型部署的业务数据处理方法、装置和计算机设备
CN110069994B (zh) 基于人脸多区域的人脸属性识别系统、方法
WO2020015089A1 (zh) 身份信息风险评定方法、装置、计算机设备和存储介质
CN111783840A (zh) 一种随机森林模型的可视化方法、装置及存储介质
CN110598765A (zh) 样本生成方法、装置、计算机设备及存储介质
CN109886554B (zh) 违规行为判别方法、装置、计算机设备和存储介质
CN106716352A (zh) 管理参数集
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN110909224B (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN109063984B (zh) 风险旅客方法、装置、计算机设备和存储介质
CN109903045B (zh) 行为轨迹监控方法、装置、计算机设备和介质
CN111311107A (zh) 基于用户关系的风险评估方法、装置和计算机设备
CN109753527A (zh) 异常企业挖掘方法、装置、计算机设备和存储介质
US20230215125A1 (en) Data identification method and apparatus
CN113888299A (zh) 风控决策方法、装置、计算机设备和存储介质
CN111767192A (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
WO2022134591A1 (zh) 分阶段质检的数据分类方法、装置、设备及存储介质
CN115620083B (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
CN112929380B (zh) 结合元学习与时空特征融合的木马通信检测方法及系统
CN112905844B (zh) 一种视频语音检索方法
CN114756671A (zh) 文章推荐方法、装置、计算机设备及存储介质
CN114817557A (zh) 基于企业征信大数据知识图谱的企业风险检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant