CN110210222B

CN110210222B - 数据处理方法、数据处理装置和计算机可读存储介质

Info

Publication number: CN110210222B
Application number: CN201811243754.4A
Authority: CN
Inventors: 魏向前; 李成俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2023-01-31
Anticipated expiration: 2038-10-24
Also published as: CN110210222A

Abstract

本公开提供了一种用于获取同源数据的数据处理方法、装置和计算机可读存储介质。该数据处理方法包括：获取源数据的多条源特征信息；获取与多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息，生成相关特征信息集；获取多条源特征信息和相关特征信息集中的每一条之间的相似度；以及确定与源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与一条或多条相关标识信息对应的一条或多条数据为源数据的同源数据。本公开基于源数据的标识信息、静态信息以及动态行为信息执行源数据特征的关联扩散，最终获取在静态信息和行为信息上都与源数据满足相似度要求的同源数据，实现了高效和准确的同源数据挖掘。

Description

数据处理方法、数据处理装置和计算机可读存储介质

技术领域

本公开涉及数据处理领域，更具体地，本公开涉及一种用于获取同源数据的数据处理方法、数据处理装置和计算机可读存储介质。

背景技术

随着互联网和大数据技术的飞速发展，数据呈爆炸性增长，人类已经从信息时代步入大数据时代。在大数据时代，针对数据来源的分析与溯源，对于数据的利用和数据的安全有着至关重要的意义。

例如，在涉及信息安全的应用场景中，当出现潜在的或者正在进行恶意攻击的数据(诸如，恶意代码或者木马程序)时，需要对该数据的来源进行分析与挖掘，以便及时发现源自同一来源(即，攻击者)的其他恶意的同源数据。当前，针对恶意数据的同源数据的挖掘通常依赖于基于逆向工程的非自动化手段。先根据源数据访问的域名或IP地址找到访问该域名或IP的其他数据，对源数据和其他数据的消息摘要算法(md5)信息进行逆向工程，分析其在文件名、代码段、变量命名等方面的相似度。最终根据md5的相似度，确定可能的同源数据。这样的同源数据挖掘方法仅仅依赖于源数据的md5的静态信息，自动化程序低、计算量大、并且难以找出与源数据具有深层次关联的同源数据。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种用于获取同源数据的数据处理方法、数据处理装置和计算机可读存储介质。

根据本公开的一个方面，提供了一种数据处理方法，包括：获取源数据的多条源特征信息；获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息，生成相关特征信息集；获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度，所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息，并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息；以及确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。

此外，根据本公开的一个方面的数据处理方法，其中，所述获取源数据的多条源特征信息包括：获取所述源数据经由散列处理后生成的散列值作为所述标识信息；分析所述源数据的程序数据库文件和读写机制，获取所述静态信息；以及监测所述源数据的网络访问行为，获取所述动态行为信息。

此外，根据本公开的一个方面的数据处理方法，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息包括：以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。

此外，根据本公开的一个方面的数据处理方法，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息还包括：基于预定过滤条件，对从所述第1层节点到所述第N层节点中的每一个节点进行过滤，移除噪声节点；以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。此外，根据本公开的一个方面的数据处理方法，其中，所述获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度包括：基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵，所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性；以及基于所述所有节点中的一个节点与其相邻节点的相似度，以及所述所有节点中的另一个节点与其相邻节点的相似度，确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。

此外，根据本公开的一个方面的数据处理方法，还包括：接收作为可疑数据的所述源数据；在虚拟执行环境中监测所述源数据，以获取所述获取源数据的多条源特征信息；确定所述源数据以及所述同源数据是否为恶意数据；以及当所述源数据以及所述同源数据为恶意数据时，发布指示所述源数据以及所述同源数据为恶意数据的信息。

此外，根据本公开的一个方面的数据处理方法，还包括：显示所述源数据以及所述同源数据之间的相关路径图。

根据本公开的另一个方面，提供了一种数据处理装置，包括：源特征信息获取单元，用于获取源数据的多条源特征信息；相关特征信息获取单元，用于获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息，生成相关特征信息集；相似度获取单元，用于获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度，所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息，并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息；以及同源数据确定单元，用于确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。

此外，根据本公开的另一个方面的数据处理装置，其中，所述源特征信息获取单元用于：获取所述源数据经由散列处理后生成的散列值作为所述标识信息；分析所述源数据的程序数据库文件和读写机制，获取所述静态信息；以及监测所述源数据的网络访问行为，获取所述动态行为信息。

此外，根据本公开的另一个方面的数据处理装置，其中，所述相关特征信息获取单元用于：以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。

此外，根据本公开的另一个方面的数据处理装置，其中，所述相关特征信息获取单元还用于：基于预定过滤条件，对从所述第1层节点到所述第N层节点中的每一个节点进行过滤，移除噪声节点；以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。

此外，根据本公开的另一个方面的数据处理装置，其中，所述相似度获取单元用于：基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵，所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性；以及基于所述所有节点中的一个节点与其相邻节点的相似度，以及所述所有节点中的另一个节点与其相邻节点的相似度，确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。

此外，根据本公开的另一个方面的数据处理装置，还包括：数据接收单元，用于接收作为可疑数据的所述源数据；恶意数据确定单元，用于确定所述源数据以及所述同源数据是否为恶意数据；以及信息发布单元，用于当所述源数据以及所述同源数据为恶意数据时，发布指示所述源数据以及所述同源数据为恶意数据的信息，其中，所述源特征信息获取单元在虚拟执行环境中监测所述源数据，以获取所述获取源数据的多条源特征信息。

此外，根据本公开的另一个方面的数据处理装置，还包括：显示单元，用于显示所述源数据以及所述同源数据之间的相关路径图。

根据本公开的又一个方面，提供了一种数据处理设备，包括：处理器；以及存储器，用于存储计算机程序指令；其中，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行一种数据处理方法，包括：获取源数据的多条源特征信息；获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息，生成相关特征信息集；获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度，所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息，并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息；以及确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。

此外，根据本公开的又一个方面的数据处理设备，其中，所述获取源数据的多条源特征信息包括：获取所述源数据经由散列处理后生成的散列值作为所述标识信息；分析所述源数据的程序数据库文件和读写机制，获取所述静态信息；以及监测所述源数据的网络访问行为，获取所述动态行为信息。

此外，根据本公开的又一个方面的数据处理设备，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息包括：以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。

此外，根据本公开的又一个方面的数据处理设备，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息还包括：基于预定过滤条件，对从所述第1层节点到所述第N层节点中的每一个节点进行过滤，移除噪声节点；以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。此外，根据本公开的一个方面的数据处理方法，其中，所述获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度包括：基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵，所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性；以及基于所述所有节点中的一个节点与其相邻节点的相似度，以及所述所有节点中的另一个节点与其相邻节点的相似度，确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。

此外，根据本公开的又一个方面的数据处理设备，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行的数据处理方法还包括：接收作为可疑数据的所述源数据；在虚拟执行环境中监测所述源数据，以获取所述获取源数据的多条源特征信息；确定所述源数据以及所述同源数据是否为恶意数据；以及当所述源数据以及所述同源数据为恶意数据时，发布指示所述源数据以及所述同源数据为恶意数据的信息。

此外，根据本公开的又一个方面的数据处理设备，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行的数据处理方法还包括：显示所述源数据以及所述同源数据之间的相关路径图。

根据本公开的再一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，其中，所述计算机程序指令被处理器加载并运行时，所述处理器执行一种数据处理方法，包括：获取源数据的多条源特征信息；获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息，生成相关特征信息集；获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度，所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息，并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息；以及确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。

此外，根据本公开的再一个方面的计算机可读存储介质，其中，所述获取源数据的多条源特征信息包括：获取所述源数据经由散列处理后生成的散列值作为所述标识信息；分析所述源数据的程序数据库文件和读写机制，获取所述静态信息；以及监测所述源数据的网络访问行为，获取所述动态行为信息。

此外，根据本公开的再一个方面的计算机可读存储介质，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息包括：以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。

此外，根据本公开的再一个方面的计算机可读存储介质，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息还包括：基于预定过滤条件，对从所述第1层节点到所述第N层节点中的每一个节点进行过滤，移除噪声节点；以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。此外，根据本公开的一个方面的数据处理方法，其中，所述获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度包括：基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵，所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性；以及基于所述所有节点中的一个节点与其相邻节点的相似度，以及所述所有节点中的另一个节点与其相邻节点的相似度，确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。

此外，根据本公开的再一个方面的计算机可读存储介质，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行的数据处理方法还包括：接收作为可疑数据的所述源数据；在虚拟执行环境中监测所述源数据，以获取所述获取源数据的多条源特征信息；确定所述源数据以及所述同源数据是否为恶意数据；以及当所述源数据以及所述同源数据为恶意数据时，发布指示所述源数据以及所述同源数据为恶意数据的信息。

此外，根据本公开的再一个方面的计算机可读存储介质，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行的数据处理方法还包括：显示所述源数据以及所述同源数据之间的相关路径图。

如以下将详细描述的，根据本公开实施例的用于获取同源数据的数据处理方法、数据处理装置和计算机可读存储介质，能够基于源数据的标识信息、静态信息以及动态行为信息执行源数据特征的关联扩散，最终获取在静态信息和行为信息上都与源数据满足相似度要求的同源数据，实现了高效和准确的同源数据挖掘。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是概述根据本公开实施例的数据处理方法的应用场景的示意图；

图2是图示根据本公开实施例的数据处理方法的流程图；

图3是进一步图示根据本公开实施例的数据处理方法中的源特征信息获取处理的流程图；

图4是进一步图示根据本公开实施例的数据处理方法中的相关特征信息获取处理的流程图；

图5是图示根据本公开实施例的数据处理方法中的相关特征信息获取处理的示意图；

图6是进一步图示根据本公开实施例的数据处理方法中的相似度获取处理的流程图；

图7是进一步图示根据本公开实施例的数据处理方法的一个应用示例的流程图；

图8A和8B是图示图7所示的应用示例的处理结果的示意图；

图9是进一步图示根据本公开实施例的数据处理方法的另一个应用示例的流程图；

图10是图示根据本公开实施例的数据处理装置的功能框图；

图11是图示根据本公开实施例的数据处理设备的硬件框图；以及

图12是图示根据本公开的实施例的计算机可读存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

首先，参照图1示意性地描述根据本公开实施例的数据处理方法的应用场景。

如图1所示，数据处理系统10配置有数据处理装置100。数据处理装置100经由通信网络103与用户101a-101c各自的用户设备102a-102c执行数据通信。

数据处理装置100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置，诸如杀毒服务器、内容提供服务器等。用户设备102a-102c包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络103包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。

在本公开的一个实施例中，数据处理装置100为杀毒服务器。数据处理装置100接收由用户设备102a-102c中安装的杀毒引擎通过通信网络103报告的可疑数据，或者数据处理装置100监视到网络环境中出现的可疑数据，可疑数据例如为一段代码、一个安装文件或者一个程序等。数据处理装置100将该可疑数据放入内部配置的沙箱中，监测可疑数据的特征信息，以挖掘与可疑数据同源的其他同源数据。在确定可疑数据为恶意数据的情况下，将作为恶意数据的可疑数据及其同源数据更新到病毒库，并且通知用户设备102a-102c中的杀毒引擎。如下将详细描述的，在该实施例中，可疑数据的特征信息包括数据的静态信息及其动态信息两者，而同源数据的挖掘则是基于静态信息及其动态信息两者的关联扩散，以及扩散后的特征信息之间的相似度计算。

在本公开的另一个实施例中，数据处理装置100为内容提供服务器。数据处理装置100响应于来自用户设备102a-102c的请求提供内容数据或者主动向用户设备102a-102c推送内容数据。在数据处理装置100主动向用户设备102a-102c推送内容数据的情况下，数据处理装置100需要分析与各个用户设备102a-102c的用户101a-101c对应的用户数据的特征信息，以确定满足具有预定相似度的同源用户数据，并且向对应于同源用户数据的同源用户精准推送内容数据。如下将详细描述的，与挖掘恶意同源数据的实施例类似，在该实施例中，用户数据的特征信息包括数据的静态信息及其动态信息两者。

以下，将参照附图进一步详细描述根据本公开实施例的数据处理方法。

图2是图示根据本公开实施例的数据处理方法的流程图。如图2所示，根据本公开实施例的数据处理方法包括以下步骤。

在步骤S21中，获取源数据的多条源特征信息。

在本公开的一个实施例中，多条源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息。具体地，将参照图3描述步骤S21中的源特征信息获取处理。

图3是进一步图示根据本公开实施例的数据处理方法中的源特征信息获取处理的流程图。如图3所示，根据本公开实施例的数据处理方法中的源特征信息获取处理包括以下步骤。

在步骤S211中，获取源数据经由散列处理后生成的散列值作为标识信息。在本公开的一个实施例中，对源数据执行的散列处理包括但不限于消息摘要算法(md5)、安全哈希算法(SHA1、SHA256)等。如此生成的固定位数的散列值成为源数据的唯一标识信息。以下，以md5数据作为源数据的唯一标识信息的示例。

在步骤S212中，分析源数据的程序数据库文件和读写机制，获取静态信息。在本公开的一个实施例中，分析源数据的程序数据库(PBD)文件，获取源文件名、变量名、函数名等信息(以下表示为pdb信息)。此外，分析读写机制(mutex)，获取源数据对于防止两条线程同时对同一公共资源(诸如全局变量)进行读写的互斥机制(以下表示为mutex信息)。由于源文件名、变量名、函数名以及读写的互斥机制是在源数据生成时就产生并且不会随着源数据的传播而变化，因此可以作为源数据的静态信息。源自同一来源(诸如同一作者)的数据可能有着相同或者相似的源文件名、变量名、函数名命名方式和读写互斥机制，因此源数据的静态信息是可以反映源数据来源特征的源特征信息。

在步骤S213中，监测源数据的网络访问行为，获取动态行为信息。在本公开的一个实施例中，在源数据可能是可疑数据的情况下，将在虚拟运行环境(诸如沙箱)中运行源数据并且监测源数据的网络访问行为。例如，记录源数据在运行过程中所访问的域名和IP地址信息(以下表示为domain和ip信息)；所访问的域名的注册信息，包括该域名的注册人名和注册邮箱(以下表示为register_name和register_email信息)；所访问的域名的解析信息，包括域名解析后的IP地址以及域名映射到的别名；所访问的域名的域名关联信息，包括与该所访问的域名共享主域名的其他关联域名信息。由于上述源数据的网络访问行为可能在源数据的运行过程中动态变化，因此可以作为源数据的动态行为信息。源自同一来源(诸如同一作者)的数据可能访问相同或者相关联的域名和IP地址，该域名和IP地址作为恶意源数据及其同源数据的命令控制服务器C2，从其接受命令进行工作。因此源数据的动态行为信息是可以反映源数据来源特征的源特征信息。

通过上述步骤S211到S213获取的源特征信息以及随后将详细描述的源特征信息的相关特征信息可以以特征信息对的方式进行存储。以下，表1示出了特征信息对的一个存储示例，其中m、d、ip、t、p、ra、re分别代表md5、domain、ip、mutex、pdb、register_name、register_email信息。

特征信息对	示例
		md5_visit_domain	(m1,d1)、(m1,d2)、(m2,d2)
md5_visit_ip	(m1,ip1)、(m2,ip2)、(m3,ip2)
		md5_contain_mutex	(m1,t1)、(m4,t1)
md5_contain_pdb	(m1,p1)、(m2,p1)
		domain_resolve_ip	(d1,ip1)、(d1,ip3)
domain_register_name	(d1,ra1)、(d3,ra1)
		domain_register_email	(d1,re1)、(d2,re1)

表1

例如，特征信息对md5_visit_domain中的(m1,d1)表示由m1标识的源数据访问域名d1；特征信息对md5_visit_ip中的(m1,ip1)表示由m1标识的源数据访IP地址ip1；特征信息对md5_contain_mutex中的(m1,t1)表示由m1标识的源数据具有读写的互斥机制t1；特征信息对md5_contain_pdb中的(m1,p1)表示由m1标识的源数据具有程序数据库文件p1；特征信息对domain_resolve_ip中的(d1,ip1)表示域名d1解析为IP地址ip1；特征信息对domain_register_name中的(d1,ra1)表示域名d1的注册名为ra1；以及特征信息对domain_register_email中的(d1,re1)表示域名d1的注册邮箱为re1。

返回参照图2，在步骤S21中通过参照图3描述的源特征信息获取处理获取源数据的多条源特征信息之后，根据本公开实施例的数据处理方法进到步骤S22。

在步骤S22中，获取与多条源特征信息的每一条具有相关性的多条相关特征信息，生成相关特征集。具体地，将参照图4和图5描述步骤S22中的相关特征信息获取处理。

图4是进一步图示根据本公开实施例的数据处理方法中的相关特征信息获取处理的流程图。图5是图示根据本公开实施例的数据处理方法中的相关特征信息获取处理的示意图。如图4所示，根据本公开实施例的数据处理方法中的相关特征信息获取处理包括以下步骤。

在步骤S221中，以源数据的标识信息作为根节点，并且以源数据的静态信息以及动态行为信息的每一条作为第1层节点。

如图5所示，在本公开的一个实施例中，源数据的标识信息m1作为根节点501，并且源数据的静态信息(t1、p1)以及动态行为信息(d1、d2、ip1)的每一条作为第1层节点502。

在步骤S222中，从第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点。

如图5所示，从第1层节点502起，获取与第1层节点502中的一个节点具有相关性的相关特征信息作为第2层节点503中的一个节点。例如，第1层节点502中的节点d1解析到IP地址ip3，则ip3作为第2层节点503中的一个节点，第1层节点502中的节点d1的注册名为ra1，则ra1也作为第2层节点503中的一个节点。进一步地，获取与第2层节点503中的一个节点具有相关性的相关特征信息作为第3层节点504中的一个节点。例如，第2层节点503中的节点m2还访问IP地址ip2，则ip2作为第3层节点504中的一个节点。在图5所示的相邻两层的两个相关节点对对应于以上表1中示出的一个特征信息对。

在图5所示的示例中，将N取值为3，即从作为根节点的源数据起关联扩散3层深度的树结构，如此即使第3层节点504中的节点ip2可能由。容易理解的是，N越大，扩散得到的相关特征信息越多，从而可能挖掘到的同源数据越多，而同时伴随而来的是计算量的增加和无关信息的引入。因此，需要权衡数据处理装置的处理能力以及可能的同源数据规模，选择适当的树结构深度N值。

在步骤S223中，基于预定过滤条件，对从第1层节点到第N层节点中的每一个节点进行过滤，移除噪声节点。

如上所示，在从作为根节点的源数据起执行树结构的关联扩散过程中，可能引入无关信息，从而导致计算量不必要的增加。在本公开的一个实施例中，设置预定过滤条件对于树结构中的节点进行过滤。预定过滤条件包括但不限于广度过滤条件、无效注册信息过滤条件以及时间信息过滤条件等。

广度表示特定域名或者IP地址被访问的次数，诸如门户网站的域名或者IP地址被大量访问从而具有高广度。源数据或者可能的同源数据在运行过程中访问这种具有高广度域名或者IP地址，如果继续从该域名或者IP地址关联扩散，则可能导致引入大量的无关信息。因此，设置广度过滤条件，将具有大于预定广度阈值的域名或者IP地址从树结构中过滤。例如，如图5所示，根节点501的源数据m1访问了ip5，由于ip5具有高广度，所以根据广度过滤条件过滤ip5而不将其包括在第1层节点502中。类似地，第2层节点503中的m2访问了d4，由于d4具有高广度，所以根据广度过滤条件过滤d4而不将其包括在第3层节点504中。

无效注册信息表示域名在注册时使用了保护性注册名provate_protected、whois_guard等，这样的无效注册信息无法表示有效的注册人信息。因此，设置无效注册信息过滤条件，将对应于保护性注册名的注册名信息从树结构中过滤。例如，如图5所示，第1层节点502中的d1的注册名信息ra2为保护性注册名，所以根据无效注册信息过滤条件过滤ra2而不将其包括在第2层节点503中。

时间信息表示可能的同源数据与源数据的生成时间间隔，两个数据的生成时间间隔越大，越不可能互为同源。因此，设置时间信息过滤条件，将与源数据的生成时间间隔大于预定时间阈值的可能的同源数据从树结构中过滤。例如，如图5所示，从第1层节点502中的p1关联扩散的可能的同源数据m6与根节点501的源数据m1的生成时间间隔大于预定时间阈值，所以根据时间信息过滤条件过滤m6而不将其包括在第2层节点503中。

在步骤S224中，以根节点到第N层节点中的剩余非噪声节点作为多条源特征信息以及多条相关特征信息。多条相关特征信息形成相关特征信息集，并且多条源特征信息的每一个与相关特征信息集中的每一个具有直接或间接相关性。

如图5所示，通过根据处理能力以及可能的同源数据规模控制源自根节点的树结构的扩散深度，以及根据预定过滤条件过滤掉树结构中的无效节点，获得从根节点501到第3层节点504树结构，其中根节点501和第1层节点502包括多条源特征信息，第2层节点503和第3层节点504包括多条相关特征信息，相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息。如此，第2层节点503和第3层节点504包括的多条相关特征信息形成相关特征信息集。

返回参照图2，在步骤S22中通过参照图4和图5描述的相关特征信息获取处理获取多条相关特征信息之后，根据本公开实施例的数据处理方法进到步骤S23。

在步骤S23中，获取多条源特征信息的每一条和相关特征信息集中的每一条之间的相似度。具体地，将参照图6描述步骤S23中的相似度获取处理。

图6是进一步图示根据本公开实施例的数据处理方法中的相似度获取处理的流程图。如图6所示，根据本公开实施例的数据处理方法中的相似度获取处理包括以下步骤。

在步骤S231中，基于根节点到第N层节点中的所有节点构造邻接矩阵。

基于过滤后的节点构造邻接矩阵进行数据的存储，形成无向连通图，用于随后的节点之间的相似度计算。在连接矩阵中，如果两个节点之间存在相互扩散连接关系，则将对应的矩阵元赋值为1。在如表1和图5所示的示例性实施例中，取节点的顺序为m1,m2,m3,m4,d1,d2,d3,ip1,ip2,ip3,t1,p1,ra1,re1，则生成如下连接矩阵

在步骤S232中，基于所有节点中的一个节点与其相邻节点的相似度，以及所有节点中的另一个节点与其相邻节点的相似度，确定所有节点中的一个节点与所有节点中的另一个节点之间的相似度。

在本公开的一个实施例中，两个节点的相似度由这两个节点的相邻节点之间的相似度决定，如果指向结点i和指向结点j的结点相似，那么i和j也认为是相似的，此外每个结点与它自身最相似(即，相似度为1)。如果r(i,j)代表节点i和节点j之间的相似度，N(i)代表与节点i直接关联的相邻节点集合，N(j)代表与节点j直接关联的相邻节点集合，c为取值在0到1的衰减系数，其使得距离节点i和j越远的节点，对r(i,j)影响越小。r(i,j)可以以如下表达式(1)表示：

返回参照图2，在步骤S23中通过参照图6描述的相似度获取处理获取多条源特征信息的每一条和相关特征信息集中的每一条之间的相似度之后，根据本公开实施例的数据处理方法进到步骤S24。

在步骤S24中，确定与源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与一条或多条相关标识信息对应的一条或多条相关数据为源数据的同源数据。

在本公开的一个实施例中，在步骤S23计算获取多条源特征信息的每一条和多条相关特征信息的每一条之间的相似度之后，源数据的标识信息m1与多条相关特征信息中的一条或多条相关标识信息(即，m2、m3、m4)之间的相似度。在如表1和图5所示的示例性实施例中，标识信息m1与多条相关标识信息之间的相似度如下表2所示：

标识信息	与标识信息m1的相似度
		m2	0.3696
m3	0.3162
		m4	0.1872

表2

可以设置预定相似度阈值为0.3，则相似度大于预定相似度阈值的标识信息m2和m3所对应的数据被确定为源数据的同源数据。可替代地，可以设置预定相似度阈值为相似度排序前n位。例如，在n取2的情况下，排序前2位的标识信息m2和m3所对应的相关数据被确定为源数据的同源数据。

以上，参照图2到图6描述了根据本公开实施例的数据处理方法。根据本公开实施例的数据处理方法，基于源数据的标识信息、静态信息以及动态行为信息执行源数据特征的关联扩散，通过考虑源数据的静态信息和动态行为信息两方面，更精确和有效地获取了可能的同源数据。此外，根据本公开实施例的数据处理方法，通过权衡数据处理装置的处理能力以及可能的同源数据规模选择适当的关联扩散规模，并且通过设置适当的预定过滤条件过滤掉关联扩散中的无效节点，保证了同源数据挖掘的效率。此外，根据本公开实施例的数据处理方法，将同源数据的关联扩散和相似度计算融为一体，并且通过针对相似度计算的关联数据存储方式，实现更高效和准确的同源数据挖掘。

以下，将进一步描述根据本公开实施例的数据处理方法的应用示例。

图7是进一步图示v的流程图。图7所示的应用示例为根据本公开实施例的数据处理方法用于杀毒服务器的示例。如图7所示，根据本公开实施例的数据处理方法的应用示例包括以下步骤。

在步骤S71中，接收作为可疑数据的源数据。在该应用示例中，如参照图1所述，数据处理装置100接收由用户设备102a-102c中安装的杀毒引擎通过通信网络103报告的可疑数据。可替代地，数据处理装置100也可以监视到网络环境中出现的可疑数据。

在步骤S72中，在虚拟执行环境中监测源数据，获取源数据的多条源特征信息。在该应用示例中，如参照图1所述，可疑数据例如为一段代码、一个安装文件或者一个程序等。数据处理装置100将该可疑数据放入内部配置的沙箱中，监测可疑数据的特征信息。步骤S72中的获取源数据的多条源特征信息具体过程如上参照图3所述，可疑数据的特征信息包括源数据的标识信息、静态信息以及动态行为信息。

此后的步骤S73到S75分别与参照图2描述的步骤S22到S24相同，在此将省略其重复说明。

在步骤S76中，显示源数据以及同源数据之间的相关路径图。

图8A和8B是图示图7所示的应用示例的处理结果的示意图。在图7描述的应用示例中，数据处理方法的处理结果显示为源数据以及同源数据之间的相关路径图。

图8A示出了上述示例中源数据m1与挖掘获得的同源数据m2、m3和m4之间的关联路径。例如，源数据m1和同源数据m2都访问相同的域名d2，并具有相同或相似的程序数据库信息p1，源数据m1和同源数据m4具有相同或相似的互斥机制信息t1，同源数据m2和同源数据m3都访问相同的IP地址ip2。

图8B示出了另一示例中源数据m1与挖掘获得的同源数据(由图8B中多个空心圆表示)之间的关联路径。此外，图8B示出了与多个同源数据具有直接关联的域名信息d1和d3，该域名则可能对应于该同源数据家族的命令控制服务器C2。

通过如图8A和8B所示的应用示例的处理结果的示意图，安全分析人员能够更加直观和准确地进行恶意同源数据的挖掘溯源分析，确定恶意同源数据家族之间的关联关心，并且定位恶意同源数据家族的命令控制服务器C2。

返回参照图7，在步骤S75和S76确定同源数据以及显示同源数据之间的相关路径图之后，根据本公开实施例的数据处理方法的应用示例进到步骤S77和S78。

在步骤S77中，确定源数据以及同源数据是否为恶意数据。数据处理装置100可以根据源数据以及同源数据的行为以及与现有病毒库的比对，判断确定源数据以及同源数据是否为恶意数据。

在步骤S78中，发布指示源数据以及同源数据为恶意数据的信息。在确定确定源数据以及同源数据为恶意数据的情况下，数据处理装置100将作为恶意数据的源数据及其同源数据更新到病毒库，并且通知用户设备102a-102c中的杀毒引擎。

如上所述，参照图7描述的根据本公开实施例的数据处理方法的一个应用示例将根据本公开实施例的数据处理方法用于恶意同源数据的挖掘，利用包括源数据的静态信息及其动态信息两者的特征信息，实现了同源恶意数据精确和高效的挖掘，确保了利用该数据处理方法的杀毒服务的安全性。

图9是进一步图示根据本公开实施例的数据处理方法的另一个应用示例的流程图。图9所示的应用示例为根据本公开实施例的数据处理方法用于内容提供服务器的示例。如图9所示，根据本公开实施例的数据处理方法的应用示例包括以下步骤。

在步骤S91中，接收作为源数据的用户请求。在该应用示例中，用户请求例如为用户对于特定商品的搜索请求、对于特定音视频内容的获取请求等。

在步骤S92中，获取源数据的多条源特征信息。在该应用示例中，作为源数据的用户请求同样可以包括源数据的标识信息、静态信息以及动态行为信息。例如，用户特定的用户ID作为源数据的标识信息，用户请求所针对的请求对象等作为源数据的静态信息，而用户发出请求时的地理位置信息、IP地址信息以及被请求对象的地理位置信息、IP地址信息等作为源数据的动态行为信息。

此后的步骤S93到S95分别与参照图2描述的步骤S22到S24相同，在此将省略其重复说明。

在步骤S95确定同源数据之后，该同源数据代表与作为源数据的用户请求具有满足预定相似度要求的同源用户请求，即确定了可能具有相同或相似用户行为的同源用户。根据本公开实施例的数据处理方法的另一应用示例进到步骤S96。

在步骤S96中，向同源用户精准推送内容数据。在该应用示例中，推送内容数据是适于根据本公开实施例的数据处理方法确定的同源用户的诸如音视频内容、广告内容的内容数据。

如上所述，参照图9描述的根据本公开实施例的数据处理方法的另一个应用示例将根据本公开实施例的数据处理方法用于同源用户的挖掘，同样利用包括源数据的静态信息及其动态信息两者的特征信息，实现了同源用户请求以及对应的同源用户的精确和高效的挖掘，确保了利用该数据处理方法的内容提供服务的精确性。

以上，参照附图描述了根据本公开实施例的数据处理方法，以下将进一步参照附图描述实现该数据处理方法的数据处理装置、数据处理设备和计算机可读存储介质。

图10是图示根据本公开实施例的数据处理装置的功能框图。如图10所示，根据本公开实施例的数据处理装置100包括源特征信息获取单元1001、相关特征信息获取单元1002、相似度获取单元1003以及同源数据确定单元1004。上述各模块可以分别执行如上参照图2到图6描述的根据本公开的实施例的数据处理方法的各个步骤。本领域的技术人员理解：这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现，并且本公开不限于它们的任何一个。

源特征信息获取单元1001用于获取源数据的多条源特征信息，所述多条源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息。具体地，所述源特征信息获取单元1001用于：获取所述源数据经由散列处理后生成的散列值作为所述标识信息；分析所述源数据的程序数据库文件和读写机制，获取所述静态信息；以及监测所述源数据的网络访问行为，获取所述动态行为信息。

相关特征信息获取单元1002用于获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息，生成相关特征信息集。具体地，所述相关特征信息获取单元用于：以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。所述相关特征信息获取单元1002还用于：基于预定过滤条件，对从所述第1层节点到所述第N层节点中的每一个节点进行过滤，移除噪声节点；以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息。

相似度获取单元1003用于获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度。具体地，所述相似度获取单元1003用于：基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵，所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性；以及基于所述所有节点中的一个节点与其相邻节点的相似度，以及所述所有节点中的另一个节点与其相邻节点的相似度，确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。

同源数据确定单元1004用于确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。

此外，根据本公开实施例的数据处理装置不限于图10所示的单元模块，而是还可以包括其他未示出的单元模块。

在本公开的一个实施例中，数据处理装置100还可以包括：数据接收单元，用于接收作为可疑数据的所述源数据；显示单元，用于显示所述源数据以及所述同源数据之间的相关路径图；恶意数据确定单元，用于确定所述源数据以及所述同源数据是否为恶意数据；以及信息发布单元，用于当所述源数据以及所述同源数据为恶意数据时，发布指示所述源数据以及所述同源数据为恶意数据的信息，其中，所述源特征信息获取单元在虚拟执行环境中监测所述源数据，以获取所述获取源数据的多条源特征信息。

在本公开的另一个实施例中，数据处理装置100还可以包括：用户请求接收单元，用于接收作为源数据的用户请求；内容数据推送模块，用于向同源用户精准推送内容数据。

图11是图示根据本公开实施例的数据处理设备的硬件框图。根据本公开实施例的数据处理设备至少包括处理器；以及存储器，用于存储计算机程序指令。当计算机程序指令由处理器加载并运行时，所述处理器执行如上所述的数据处理方法。

图11所示的数据处理设备1000具体地包括：中央处理单元(CPU)22、图形处理单元(GPU)24和主存储器26。这些单元通过总线30互相连接。中央处理单元(CPU)22和/或图形处理单元(GPU)24可以用作上述处理器，主存储器26可以用作上述存储计算机程序指令的存储器。此外，数据处理设备1000还包括通信单元32、存储单元34、输出单元36、输入单元38和外部设备40，这些单元也连接到总线30。

图12是图示根据本公开的实施例的计算机可读存储介质的示意图。如图12所示，根据本公开实施例的计算机可读存储介质1200其上存储有计算机可读指令1201。当所述计算机可读指令1201由处理器运行时，执行参照以上附图描述的根据本公开实施例的数据处理方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。

以上，参照附图描述了根据本公开的用于获取同源数据的数据处理方法、装置和计算机可读存储介质。根据本公开实施例的数据处理方法，基于源数据的标识信息、静态信息以及动态行为信息执行源数据特征的关联扩散，通过考虑源数据的静态信息和动态行为信息两方面，更精确和有效地获取了可能的同源数据。此外，根据本公开实施例的数据处理方法，通过权衡数据处理装置的处理能力以及可能的同源数据规模选择适当的关联扩散规模，并且通过设置适当的预定过滤条件过滤掉关联扩散中的无效节点，保证了同源数据挖掘的效率。此外，根据本公开实施例的数据处理方法，将同源数据的关联扩散和相似度计算融为一体，并且通过针对相似度计算的关联数据存储方式，实现更高效和准确的同源数据挖掘。

根据本公开的用于获取同源数据可以广泛地应用于诸如恶意同源数据的挖掘、同源用户的挖掘等场景。根据本公开实施例的数据处理方法用于恶意同源数据的挖掘，利用包括源数据的静态信息及其动态信息两者的特征信息，实现了同源恶意数据精确和高效的挖掘，确保了利用该数据处理方法的杀毒服务的安全性。根据本公开实施例的数据处理方法用于同源用户的挖掘，同样利用包括源数据的静态信息及其动态信息两者的特征信息，实现了同源用户请求以及对应的同源用户的精确和高效的挖掘，确保了利用该数据处理方法的内容提供服务的精确性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种数据处理方法，包括：

获取源数据的多条源特征信息；

获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息，生成相关特征信息集；

获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度，所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息，并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息；以及

确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据，

其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息包括：

以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，

从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。

2.如权利要求1所述的数据处理方法，其中，所述获取源数据的多条源特征信息包括：

获取所述源数据经由散列处理后生成的散列值作为所述标识信息；

分析所述源数据的程序数据库文件和读写机制，获取所述静态信息；以及

监测所述源数据的网络访问行为，获取所述动态行为信息。

3.如权利要求1所述的数据处理方法，其中，所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息还包括：

基于预定过滤条件，对从所述第1层节点到所述第N层节点中的每一个节点进行过滤，移除噪声节点；

以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。

4.如权利要求1或3的所述的数据处理方法，其中，所述获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度包括：

基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵，所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性；以及

基于所述所有节点中的一个节点与其相邻节点的相似度，以及所述所有节点中的另一个节点与其相邻节点的相似度，确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。

5.如权利要求1到3的任一项所述的数据处理方法，还包括：

接收作为可疑数据的所述源数据；

在虚拟执行环境中监测所述源数据，以获取所述获取源数据的多条源特征信息；

确定所述源数据以及所述同源数据是否为恶意数据；以及

当所述源数据以及所述同源数据为恶意数据时，发布指示所述源数据以及所述同源数据为恶意数据的信息。

6.如权利要求1到3的任一项所述的数据处理方法，还包括：

显示所述源数据以及所述同源数据之间的相关路径图。

7.一种数据处理装置，包括：

源特征信息获取单元，用于获取源数据的多条源特征信息；

相关特征信息获取单元，用于获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息，生成相关特征信息集；

相似度获取单元，用于获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度，所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息，并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息；以及

同源数据确定单元，用于确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息，与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据，

其中，所述相关特征信息获取单元还用于：以所述源数据的标识信息作为根节点，并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点，从所述第1层节点起，获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点，N为大于等于2的预定层数阈值。

8.一种数据处理设备，包括：

处理器；以及

存储器，用于存储计算机程序指令；

其中，当所述计算机程序指令由所述处理器加载并运行时，所述处理器执行一种数据处理方法，包括：

获取源数据的多条源特征信息；

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，其中，所述计算机程序指令被处理器加载并运行时，所述处理器执行一种数据处理方法，包括：

获取源数据的多条源特征信息；