CN111737493B

CN111737493B - 基于决策树的异常数据源输出方法、装置和计算机设备

Info

Publication number: CN111737493B
Application number: CN202010582615.5A
Authority: CN
Inventors: 刘利; 刘中原; 赵世泉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-05-02
Anticipated expiration: 2040-06-23
Also published as: WO2021259002A1; CN111737493A

Abstract

本申请涉及人工智能技术领域，揭示了一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质，包括：获取输入的数据组；调取预设的知识图谱；生成知识节点打捞工具；使用所述知识节点打捞工具，对应得到第一节点集合和第二节点集合；获取数据流集合；得到第一数据类别序列和第二数据类别序列；统计所述指定数据类型的成员数量；若所述成员数量大于预设的数量阈值，则获取异常成员，并获取异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。此外，本申请还涉及区块链技术，所述决策树可存储于区块链中。

Description

基于决策树的异常数据源输出方法、装置和计算机设备

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质。

背景技术

在数据处理过程中，异常数据或异常数据源的发现是很关键的，若能更早、更准确地找出异常数据或异常数据源，有利于计算机优化、故障分析等。

传统的异常数据的发现，只能对输入的数据进行直接分析，即分析该输入的数据是否异常，而难以对与其相关联的数据是否异常作出判断。因此，传统的异常数据的发现效率低、全面性差。

发明内容

本申请的主要目的为提供一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质，旨在实现准确、全面地输出异常数据源。

为了实现上述发明目的，本申请提出一种基于决策树的异常数据源输出方法，包括：

获取输入的数据组，所述数据组包括待分析数据与参考数据；其中所述参考数据被人工标注为指定数据类型，所述指定数据类型为正常数据类型或者异常数据类型；

调取预设的知识图谱，并将所述待分析数据与所述参考数据分别映射入所述知识图谱中，从而得到第一知识节点和第二知识节点；

采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具；

使用所述知识节点打捞工具，分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理，从而对应得到第一节点集合和第二节点集合；其中所述第一节点集合至少包括所述第一知识节点，所述第二节点集合至少包括所述第二知识节点；

在预设的数据流库中，根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合，以及获取与所述第二节点集合匹配的第二数据流集合；其中所述第一数据流集合包括至少一个数据流，所述第二数据流集合包括至少一个数据流；

将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列；其中数据类别序列中的每个成员为正常数据类型或者异常数据类型；所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到，并且所述训练集不包括所述参考数据；

统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量，并判断所述成员数量是否大于预设的数量阈值；

若所述成员数量大于预设的数量阈值，则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员，并根据所述第一数据流集合与所述第一数据类别序列的对应关系，获取所述第一数据流集合中与所述异常成员对应的异常数据流；

将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。

进一步地，所述采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具的步骤之前，包括：

采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作，从而得到多个暂时实体；

比对所述多个暂时实体，以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体；

若所述多个暂时实体中存在属于同一个同义词组的多个同义实体，则进行同义词替换操作，以得到多个最终实体，其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语；

获取所述预先收集的数据中所述多个最终实体之间的实体关系，以形成最终实体-实体关系-最终实体结构的三元组，并依据所述三元组构建成知识图谱。

进一步地，所述采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具的步骤,包括：

在所述知识图谱中建立多维坐标系，并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An)，其中所述多维坐标系为n维坐标系；

在所述知识图谱中，获取与所述第一知识节点直接连接的全部第一关联节点，并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点；

获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn)，并根据公式:

计算出打捞距离D，其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值，Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值，Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值，a为预设的均衡参数，a小于1且大于0；

生成有界多维空间，所述有界多维空间为对称空间，所述有界多维空间的中心为打捞基点，并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D；

生成打捞工具；其中所述打捞工具打捞得到的知识节点，等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。

进一步地，所述根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合的步骤，包括：

获取与所述第一节点集合对应的短距数据流的集合；其中，所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流；

判断所述短距数据流的集合中是否存在可拼接数据流对；其中，所述可拼接数据流对包括两个短距数据流，所述两个短距数据流的一端相同，另一端为所述第一节点集合中的知识节点；

若所述短距数据流的集合中存在可拼接数据流对，则对所有的所述可拼接数据流对进行拼接处理，从而得到长距数据流的集合；

将所述短距数据流和所述长距数据流的并集，作为与所述第一节点集合匹配的第一数据流集合。

进一步地，所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前，包括：

获取预先收集的训练数据，并将所述训练数据输入预设的决策树模型中进行实时展开处理，从而得到实时展开的决策树；

在进行所述实时展开处理的同时，对所述实时展开的决策树进行实时剪枝处理；其中，所述实时剪枝处理依据的剪枝规则为：只有当一个指定节点的所有从属节点都是叶节点时，才对所述指定节点进行判断是否应进行剪枝操作，并在判断出应进行剪枝操作后，才对所述指定节点进行剪枝操作；

持续进行实时展开处理与实时剪枝处理，直至决策枝完全展开并剪枝完毕，从而得到初始决策树；

利用预先收集的验证数据对所述初始决策树进行验证，并判断验证结果是否为验证通过；

若验证结果为验证通过，则将所述初始决策树记为所述数据分类模型。

本申请提供一种基于决策树的异常数据源输出装置，包括：

数据组获取单元，用于获取输入的数据组，所述数据组包括待分析数据与参考数据；其中所述参考数据被人工标注为指定数据类型，所述指定数据类型为正常数据类型或者异常数据类型；

知识图谱调取单元，用于调取预设的知识图谱，并将所述待分析数据与所述参考数据分别映射入所述知识图谱中，从而得到第一知识节点和第二知识节点；

打捞工具获取单元，用于采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具；

节点集合获取单元，用于使用所述知识节点打捞工具，分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理，从而对应得到第一节点集合和第二节点集合；其中所述第一节点集合至少包括所述第一知识节点，所述第二节点集合至少包括所述第二知识节点；

数据流集合获取单元，用于在预设的数据流库中，根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合，以及获取与所述第二节点集合匹配的第二数据流集合；其中所述第一数据流集合包括至少一个数据流，所述第二数据流集合包括至少一个数据流；

数据类别序列获取单元，用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列；其中数据类别序列中的每个成员为正常数据类型或者异常数据类型；所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到，并且所述训练集不包括所述参考数据；

数量阈值判断单元，用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量，并判断所述成员数量是否大于预设的数量阈值；

异常数据流获取单元，用于若所述成员数量大于预设的数量阈值，则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员，并根据所述第一数据流集合与所述第一数据类别序列的对应关系，获取所述第一数据流集合中与所述异常成员对应的异常数据流；

异常数据源输出单元，用于将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。

进一步地，所述装置，包括：

暂时实体获取单元，用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作，从而得到多个暂时实体；

同义实体判断单元，用于比对所述多个暂时实体，以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体；

同义词替换单元，用于若所述多个暂时实体中存在属于同一个同义词组的多个同义实体，则进行同义词替换操作，以得到多个最终实体，其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语；

知识图谱构建单元，用于获取所述预先收集的数据中所述多个最终实体之间的实体关系，以形成最终实体-实体关系-最终实体结构的三元组，并依据所述三元组构建成知识图谱。

进一步地，所述打捞工具获取单元,包括：

多维坐标系建立子单元，用于在所述知识图谱中建立多维坐标系，并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An)，其中所述多维坐标系为n维坐标系；

关联节点获取子单元，用于在所述知识图谱中，获取与所述第一知识节点直接连接的全部第一关联节点，并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点；

打捞距离计算子单元，用于获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn)，并根据公式:

有界多维空间生成子单元，用于生成有界多维空间，所述有界多维空间为对称空间，所述有界多维空间的中心为打捞基点，并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D；

打捞工具生成子单元，用于生成打捞工具；其中所述打捞工具打捞得到的知识节点，等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于决策树的异常数据源输出方法、装置、计算机设备和存储介质，获取输入的数据组，所述数据组包括待分析数据与参考数据；调取预设的知识图谱，从而得到第一知识节点和第二知识节点；生成知识节点打捞工具；使用所述知识节点打捞工具，对应得到第一节点集合和第二节点集合；获取第一数据流集合，获取第二数据流集合；将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中，从而得到第一数据类别序列和第二数据类别序列；统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量；若所述成员数量大于预设的数量阈值，则获取异常成员，并获取所述异常成员对应的异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。

附图说明

图1为本申请一实施例的基于决策树的异常数据源输出方法的流程示意图；

图2为本申请一实施例的基于决策树的异常数据源输出装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于决策树的异常数据源输出方法，包括：

S1、获取输入的数据组，所述数据组包括待分析数据与参考数据；其中所述参考数据被人工标注为指定数据类型，所述指定数据类型为正常数据类型或者异常数据类型；

S2、调取预设的知识图谱，并将所述待分析数据与所述参考数据分别映射入所述知识图谱中，从而得到第一知识节点和第二知识节点；

S3、采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具；

S4、使用所述知识节点打捞工具，分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理，从而对应得到第一节点集合和第二节点集合；其中所述第一节点集合至少包括所述第一知识节点，所述第二节点集合至少包括所述第二知识节点；

S5、在预设的数据流库中，根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合，以及获取与所述第二节点集合匹配的第二数据流集合；其中所述第一数据流集合包括至少一个数据流，所述第二数据流集合包括至少一个数据流；

S6、将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列；其中数据类别序列中的每个成员为正常数据类型或者异常数据类型；所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到，并且所述训练集不包括所述参考数据；

S7、统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量，并判断所述成员数量是否大于预设的数量阈值；

S8、若所述成员数量大于预设的数量阈值，则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员，并根据所述第一数据流集合与所述第一数据类别序列的对应关系，获取所述第一数据流集合中与所述异常成员对应的异常数据流；

S9、将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。

本申请可适用于任意可行场景，例如应用于故障分析(相应地，所述待分析数据为通信数据，或者为通信控制信号数据，从而能够分析出是哪些端口为异常数据源；或者，待分析的数据为微服务端的通信数据，相对应地，所述数据流则为微服务端之间的通信数据，从而能够分析出是哪些微服务端为异常数据源)，或者应用于异常交易分析(相应地，所述待分析数据例如为某用户的帐号，对应的数据流则为帐号间的交易流)。

本申请中具有实际的技术特征，例如包括待分析数据(例如可为通信控制信号数据、微服务端的通信数据等)；并利用了自然规律(例如异常数据与正常数据的本征区别、知识图谱中的各节点的关联关系远近特性，这些特性不经人为干预、属于客观事物的自身运动，其变化和发展与自身运动存在必然联系，具体地，本申请的执行中，执行的是控制程序，控制程序的执行过程不以人的意志为转移，且执行结果是给计算机的内部性能带来改进，即以较少的输入获取更多的输出，实现了全面性地覆盖，给计算机的功能上有实质性的提升)；克服了实际的技术问题(现有的异常数据的发现与输出方案效率低、全面性差)；具有实际的技术效果(无需大量输入数据，即可高效全面地输出异常数据源)。

如上述步骤S1所述，获取输入的数据组，所述数据组包括待分析数据与参考数据；其中所述参考数据被人工标注为指定数据类型，所述指定数据类型为正常数据类型或者异常数据类型。本申请的待分析数据例如为通信数据。在计算机的通信过程中，存在低效或者恶意通信数据，若不能及时准确地发现，将造成计算机算力的额外耗费。或者，例如为帐户交易数据，在帐户交易数据中存在洗钱等异常数据，也需要及时准确地发现。其中，所述参考数据用于辅助核实数据处理过程的准确性，将与所述待分析数据共同参与后续步骤。

如上述步骤S2-S3所述，调取预设的知识图谱，并将所述待分析数据与所述参考数据分别映射入所述知识图谱中，从而得到第一知识节点和第二知识节点；采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具。知识图谱是一种可视化的地图，其由知识实体(知识节点)与知识实体之间的连接关系(实体关系)构成。本申请利用知识图谱来找出与待分析数据关联的数据流，从而实现了数据放大功能。再采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具。在此需要提及的是，本申请采用的打捞工具，用以在知识图谱中找出关联的节点。

如上述步骤S4所述，使用所述知识节点打捞工具，分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理，从而对应得到第一节点集合和第二节点集合；其中所述第一节点集合至少包括所述第一知识节点，所述第二节点集合至少包括所述第二知识节点。需要注意的是，本申请中进行了两次打捞处理，但是每次打捞处理采用的知识节点打捞工具是相同的，从而使得待分析数据与参考数据产生关联，以强化参考数据对于数据处理的核实功能。

如上述步骤S5所述，在预设的数据流库中，根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合，以及获取与所述第二节点集合匹配的第二数据流集合；其中所述第一数据流集合包括至少一个数据流，所述第二数据流集合包括至少一个数据流。其中，所述预设的数据流匹配方法可为任意可行方法，例如从数据流库中直接搜索第一节点集合中的节点名称和第二节点集合中的节点名称，以找到分别包含第一节点集合中的节点名称和第二节点集合中的节点名称的数据流，从而对应得到与所述第一节点集合匹配的第一数据流集合，以及获取与所述第二节点集合匹配的第二数据流集合。

如上述步骤S6所述，将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列；其中数据类别序列中的每个成员为正常数据类型或者异常数据类型；所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到，并且所述训练集不包括所述参考数据。决策树模型是一种分类模型，能够将输入的数据进行准确分类。本申请采用基于决策树模型的数据分类模型，以将所述第一数据流集合和所述第二数据流集合进行分类。得到的数据类别序列例如为(正常，正常，异常，...，正常)等。

如上述步骤S7-S9所述，统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量，并判断所述成员数量是否大于预设的数量阈值；若所述成员数量大于预设的数量阈值，则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员，并根据所述第一数据流集合与所述第一数据类别序列的对应关系，获取所述第一数据流集合中与所述异常成员对应的异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量，并判断所述成员数量是否大于预设的数量阈值，实际上就是利用所述参考数据对分类结果进行核实处理。由于参考数据的类型是已知的(因为所述参考数据被人工标注为指定数据类型，所述指定数据类型为正常数据类型或者异常数据类型)，因此若分类无误，那么参考数据应也为指定数据类型，并且与其相关的数据也应大部分为指定数据类型，即所述第二数据类别序列中的大部分应为指定数据类型。据此，若所述成员数量大于预设的数量阈值，表明数据分类可信。再获取所述第一数据类别序列中数据类型为异常数据类型的异常成员，并根据所述第一数据流集合与所述第一数据类别序列的对应关系，获取所述第一数据流集合中与所述异常成员对应的异常数据流。由于异常数据流的两端分别为数据接收端和数据发送端，因此数据接收端和数据发送端为异常数据源，因此将所述异常数据流两端的源头记为异常数据源(例如为故障数据源)，并输出所述异常数据源。

在一个实施方式中，所述采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具的步骤S3之前，包括：

S21、采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作，从而得到多个暂时实体；

S22、比对所述多个暂时实体，以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体；

S23、若所述多个暂时实体中存在属于同一个同义词组的多个同义实体，则进行同义词替换操作，以得到多个最终实体，其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语；

S24、获取所述预先收集的数据中所述多个最终实体之间的实体关系，以形成最终实体-实体关系-最终实体结构的三元组，并依据所述三元组构建成知识图谱。

如上所述，实现了构建成知识图谱。本申请采用的知识图谱构建工具例如为开源的SPSS、VOSviewer等。知识图谱的结构是实体-实体关系-实体的三元组结构，因此实体即是知识图谱中的节点，实体关系在知识图谱中为实体与实体的连接关系。所述实体识别操作的过程例如为：行分词处理，从而获得由多个词构成的词序列，将所述词序列输入预设的语句结构模型，从而在所述词序列中获取暂时实体。再获取所述预先收集的数据中所述多个最终实体之间的实体关系，以形成最终实体-实体关系-最终实体结构的三元组，并依据所述三元组构建成知识图谱。其中三元组由两个实体以及两个实体之间的关系构成，因此获取了足够量的三元组，并将三元组以知识图谱网络结构的方式呈现，即能得到所述知识图谱。

在一个实施方式中，所述采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具的步骤S3,包括：

S301、在所述知识图谱中建立多维坐标系，并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An)，其中所述多维坐标系为n维坐标系；

S302、在所述知识图谱中，获取与所述第一知识节点直接连接的全部第一关联节点，并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点；

S303、获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn)，并根据公式:

S304、生成有界多维空间，所述有界多维空间为对称空间，所述有界多维空间的中心为打捞基点，并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D；

S305、生成打捞工具；其中所述打捞工具打捞得到的知识节点，等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。

如上所述，实现了采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具。普通的利用知识图谱获取关联数据的方法，仅是通过判断是否存在直接连接关系来获取，而本申请采用了特别的设计，即以打捞工具来获取，其中所述打捞工具打捞得到的知识节点，等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。所述有界多维空间的设置，实现了非直连知识节点的补充(因为相离较近的知识节点，虽然可能没有直连关系，但其相关程度仍是足够高的，应当作为关联数据筛选出来)。其中，所述有界多维空间为对称空间，所述有界多维空间的中心为打捞基点，并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D，并且

以保证有界多维空间的打捞准确度。进一步地，所述均衡参数a的取值为0.8-0.9，优选0.9。

在一个实施方式中，所述根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合的步骤S5,包括：

S501、获取与所述第一节点集合对应的短距数据流的集合；其中，所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流；

S502、判断所述短距数据流的集合中是否存在可拼接数据流对；其中，所述可拼接数据流对包括两个短距数据流，所述两个短距数据流的一端相同，另一端为所述第一节点集合中的知识节点；

S503、若所述短距数据流的集合中存在可拼接数据流对，则对所有的所述可拼接数据流对进行拼接处理，从而得到长距数据流的集合；

S504、将所述短距数据流和所述长距数据流的并集，作为与所述第一节点集合匹配的第一数据流集合。

如上所述，实现了根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合。本申请采用短距数据流与长距数据流的并集作为第一数据流集合，不仅实现了数据的扩充，还避免了数据遗漏的缺陷。在此举例以便说明：第一节点集合中的节点例如包括Q、W，数据流库中存在Q-T1、T1-W的数据流，因此Q-T1、T1-W是短距数据流，这明显属于第一数据流集合；但是这种数据提取方式注重的是短距离的数据流，而在整体的数据流分析过程中，长距离的数据流是另外一个需要注重的方面，因此本申请还采用若所述短距数据流的集合中存在可拼接数据流对，则对所有的所述可拼接数据流对进行拼接处理，从而得到长距数据流的集合，以实现了数据的扩充，还避免了数据遗漏的缺陷。仍以上述举例为基础来说明，对于Q-T1、T1-W的数据流，本申请将进行拼接，以得到Q-T1-W的长距离数据流，以保证数据获取的全面性。

在一个实施方式中，所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤S6之前，包括：

S51、获取预先收集的训练数据，并将所述训练数据输入预设的决策树模型中进行实时展开处理，从而得到实时展开的决策树；

S52、在进行所述实时展开处理的同时，对所述实时展开的决策树进行实时剪枝处理；其中，所述实时剪枝处理依据的剪枝规则为：只有当一个指定节点的所有从属节点都是叶节点时，才对所述指定节点进行判断是否应进行剪枝操作，并在判断出应进行剪枝操作后，才对所述指定节点进行剪枝操作；

S53、持续进行实时展开处理与实时剪枝处理，直至决策枝完全展开并剪枝完毕，从而得到初始决策树；

S54、利用预先收集的验证数据对所述初始决策树进行验证，并判断验证结果是否为验证通过；

S55、若验证结果为验证通过，则将所述初始决策树记为所述数据分类模型。

如上所述，实现了将所述初始决策树记为所述数据分类模型。决策树的训练需要进行剪枝处理，传统的剪枝技术为预剪枝技术与后剪枝技术，但不涉及实时剪枝技术。本申请采用实时剪枝技术以缩短训练速度，并确保不会发生过度修剪。其中，实时剪枝处理依据的剪枝规则为：只有当一个指定节点的所有从属节点都是叶节点时，才对所述指定节点进行判断是否应进行剪枝操作，并在判断出应进行剪枝操作后，才对所述指定节点进行剪枝操作，从而保证实时剪枝处理得以实现。由于本申请的剪枝与决策树的展开是同时进行的，因此训练速度得到了提升。再利用预先收集的验证数据对所述初始决策树进行验证，并判断验证结果是否为验证通过；若验证结果为验证通过，则将所述初始决策树记为所述数据分类模型，从而为准确的数据分类提供了可能。

本申请的基于决策树的异常数据源输出方法，获取输入的数据组，所述数据组包括待分析数据与参考数据；调取预设的知识图谱，从而得到第一知识节点和第二知识节点；生成知识节点打捞工具；使用所述知识节点打捞工具，对应得到第一节点集合和第二节点集合；获取第一数据流集合，获取第二数据流集合；将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中，从而得到第一数据类别序列和第二数据类别序列；统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量；若所述成员数量大于预设的数量阈值，则获取异常成员，并获取所述异常成员对应的异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。

参照图2，本申请实施例提供一种基于决策树的异常数据源输出装置，包括：

数据组获取单元10，用于获取输入的数据组，所述数据组包括待分析数据与参考数据；其中所述参考数据被人工标注为指定数据类型，所述指定数据类型为正常数据类型或者异常数据类型；

知识图谱调取单元20，用于调取预设的知识图谱，并将所述待分析数据与所述参考数据分别映射入所述知识图谱中，从而得到第一知识节点和第二知识节点；

打捞工具获取单元30，用于采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具；

节点集合获取单元40，用于使用所述知识节点打捞工具，分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理，从而对应得到第一节点集合和第二节点集合；其中所述第一节点集合至少包括所述第一知识节点，所述第二节点集合至少包括所述第二知识节点；

数据流集合获取单元50，用于在预设的数据流库中，根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合，以及获取与所述第二节点集合匹配的第二数据流集合；其中所述第一数据流集合包括至少一个数据流，所述第二数据流集合包括至少一个数据流；

数据类别序列获取单元60，用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列；其中数据类别序列中的每个成员为正常数据类型或者异常数据类型；所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到，并且所述训练集不包括所述参考数据；

数量阈值判断单元70，用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量，并判断所述成员数量是否大于预设的数量阈值；

异常数据流获取单元80，用于若所述成员数量大于预设的数量阈值，则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员，并根据所述第一数据流集合与所述第一数据类别序列的对应关系，获取所述第一数据流集合中与所述异常成员对应的异常数据流；

异常数据源输出单元90，用于将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。

其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述装置，包括：

在一个实施方式中，所述打捞工具获取单元,包括：

在一个实施方式中，所述数据流集合获取单元,包括：

短距数据流获取子单元，用于获取与所述第一节点集合对应的短距数据流的集合；其中，所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流；

可拼接数据流对判断子单元，用于判断所述短距数据流的集合中是否存在可拼接数据流对；其中，所述可拼接数据流对包括两个短距数据流，所述两个短距数据流的一端相同，另一端为所述第一节点集合中的知识节点；

拼接处理子单元，用于若所述短距数据流的集合中存在可拼接数据流对，则对所有的所述可拼接数据流对进行拼接处理，从而得到长距数据流的集合；

第一数据流集合标记子单元，用于将所述短距数据流和所述长距数据流的并集，作为与所述第一节点集合匹配的第一数据流集合。

在一个实施方式中，所述装置，包括：

训练数据获取单元，用于获取预先收集的训练数据，并将所述训练数据输入预设的决策树模型中进行实时展开处理，从而得到实时展开的决策树；

实时剪枝处理单元，用于在进行所述实时展开处理的同时，对所述实时展开的决策树进行实时剪枝处理；其中，所述实时剪枝处理依据的剪枝规则为：只有当一个指定节点的所有从属节点都是叶节点时，才对所述指定节点进行判断是否应进行剪枝操作，并在判断出应进行剪枝操作后，才对所述指定节点进行剪枝操作；

初始决策树获取单元，用于持续进行实时展开处理与实时剪枝处理，直至决策枝完全展开并剪枝完毕，从而得到初始决策树；

验证结果判断单元，用于利用预先收集的验证数据对所述初始决策树进行验证，并判断验证结果是否为验证通过；

初始决策树标记单元，用于若验证结果为验证通过，则将所述初始决策树记为所述数据分类模型。

本申请的基于决策树的异常数据源输出装置，获取输入的数据组，所述数据组包括待分析数据与参考数据；调取预设的知识图谱，从而得到第一知识节点和第二知识节点；生成知识节点打捞工具；使用所述知识节点打捞工具，对应得到第一节点集合和第二节点集合；获取第一数据流集合，获取第二数据流集合；将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中，从而得到第一数据类别序列和第二数据类别序列；统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量；若所述成员数量大于预设的数量阈值，则获取异常成员，并获取所述异常成员对应的异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于决策树的异常数据源输出方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于决策树的异常数据源输出方法。

上述处理器执行上述基于决策树的异常数据源输出方法，其中所述方法包括的步骤分别与执行前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，获取输入的数据组，所述数据组包括待分析数据与参考数据；调取预设的知识图谱，从而得到第一知识节点和第二知识节点；生成知识节点打捞工具；使用所述知识节点打捞工具，对应得到第一节点集合和第二节点集合；获取第一数据流集合，获取第二数据流集合；将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中，从而得到第一数据类别序列和第二数据类别序列；统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量；若所述成员数量大于预设的数量阈值，则获取异常成员，并获取所述异常成员对应的异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于决策树的异常数据源输出方法，其中所述方法包括的步骤分别与执行前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。

本申请的计算机可读存储介质，获取输入的数据组，所述数据组包括待分析数据与参考数据；调取预设的知识图谱，从而得到第一知识节点和第二知识节点；生成知识节点打捞工具；使用所述知识节点打捞工具，对应得到第一节点集合和第二节点集合；获取第一数据流集合，获取第二数据流集合；将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中，从而得到第一数据类别序列和第二数据类别序列；统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量；若所述成员数量大于预设的数量阈值，则获取异常成员，并获取所述异常成员对应的异常数据流；将所述异常数据流两端的源头记为异常数据源，并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于决策树的异常数据源输出方法，其特征在于，包括：

2.根据权利要求1所述的基于决策树的异常数据源输出方法，其特征在于，所述采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具的步骤之前，包括：

3.根据权利要求1所述的基于决策树的异常数据源输出方法，其特征在于，所述采用预设的打捞工具生成规则，根据所述第一知识点，生成知识节点打捞工具的步骤,包括：

4.根据权利要求1所述的基于决策树的异常数据源输出方法，其特征在于，所述根据预设的数据流匹配方法，获取与所述第一节点集合匹配的第一数据流集合的步骤，包括：

5.根据权利要求1所述的基于决策树的异常数据源输出方法，其特征在于，所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理，从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前，包括：

6.一种基于决策树的异常数据源输出装置，其特征在于，包括：

7.根据权利要求6所述的基于决策树的异常数据源输出装置，其特征在于，所述装置，包括：

8.根据权利要求6所述的基于决策树的异常数据源输出装置，其特征在于，所述打捞工具获取单元,包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。