CN117522614A

CN117522614A - 一种数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN117522614A
Application number: CN202311864880.2A
Authority: CN
Inventors: 康晓中; 李玮; 赵腊梅; 蔡准; 郭伟怡; 高凤飞; 路鹏飞; 孙悦; 郭晓鹏
Original assignee: Beijing Trusfort Technology Co ltd
Current assignee: Beijing Trusfort Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-06
Anticipated expiration: 2043-12-29
Also published as: CN117522614B

Abstract

本公开提供了一种数据的处理方法、装置、电子设备及存储介质，涉及数据处理领域，方法包括：获取实时行为事件，确定实时行为事件对应的目标主体；根据实时行为事件对应的当前时刻，获取预设时间范围内目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列；根据目标主体的历史行为事件序列和上下文信息特征序列，得到目标主体的多维混合行为序列；将目标主体的多维混合行为序列转化为二维向量，对二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果；根据目标主体的空间位置编码结果确定目标主体所属的社区。应用本方法，可以实现对数据的实时处理，实时确定目标主体的类型。

Description

一种数据的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种数据的处理方法、装置、电子设备及存储介质。

背景技术

社区检测技术是从复杂的网络结构中，找出节点潜在的联系规律，通过特定规律将节点划分为社团或子网络，从而实现对复杂网络结构的划分。在交易领域和申请领域，客户通过交易关联信息和申请关联信息可以构建凸显异常行为的复杂网络，利用社区检测技术对网络进行分析挖掘，可以识别出网络内的异常数据。

现有的社区检测技术通常采用社区发现算法或传统构图计算范式，但在使用社区发现算法识别异常数据时，社区发现算法复杂度高，计算耗时长，无法满足基于海量数据，高频实时的计算场景。而传统构图计算范式为一次性聚合计算一段时间历史用户的行为数据，构造关联图谱训练模型进而对未来数据进行预测，而该关联图谱属于静态图谱，同样也不能实现对数据的实时处理。

发明内容

本公开提供了一种数据的处理方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种数据的处理方法，所述方法包括：获取实时行为事件，确定所述实时行为事件对应的目标主体；根据所述实时行为事件对应的当前时刻，获取预设时间范围内所述目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列；根据所述目标主体的历史行为事件序列和所述上下文信息特征序列，得到所述目标主体的多维混合行为序列，所述上下文信息特征序列包含多个维度的特征；将所述目标主体的多维混合行为序列转化为二维向量，对所述二维向量进行空间位置编码得到所述目标主体在当前时刻的空间位置编码结果；根据所述目标主体的空间位置编码结果确定所述目标主体所属的社区。

在一可实施方式中，所述根据所述目标主体的历史行为事件序列和所述上下文信息特征序列，得到所述目标主体的多维混合行为序列，包括：从所述每个历史行为事件对应的上下文信息特征序列中提取相同维度的特征，组成该维度对应的特征序列；将所述历史行为事件序列以及每个维度对应的特征序列进行拼接，得到所述多维混合行为序列。

在一可实施方式中，所述将所述目标主体的多维混合行为序列转化为二维向量，包括：根据所述预设时间范围内所有主体的多维混合行为序列构建决策树集群；所述决策树集群中，决策树中的节点表示主体；基于所述决策树集群确定目标节点与指定邻居节点的连边权重；根据目标函数和所述连边权重将所述目标节点对应的多维混合行为序列转化为二维向量。

在一可实施方式中，所述基于决策树集群确定目标节点与指定邻居节点的连边权重，包括：确定所述目标节点的邻居节点作为所述目标节点的第一邻居节点；确定每个第一邻居节点的邻居节点作为所述目标节点的第二邻居节点；确定与所述目标节点满足预设条件的第二邻居节点为指定邻居节点；根据所述指定邻居节点和所述目标节点的多维混合行为序列，确定所述目标节点与每个指定邻居节点的连边权重。

在一可实施方式中，所述对所述二维向量进行空间位置编码得到所述目标主体在当前时刻的空间位置编码结果，包括：将所述二维向量的第一维向量值对第一数值分别进行取模计算和取余计算，确定第一编码值和第二编码值；将所述二维向量的第二维向量值对第二数值分别进行取模计算和取余计算，确定第三编码值和第四编码值；将所述第一编码值、所述第二编码值、所述第三编码值和所述第四编码值确定为所述目标主体的空间位置编码结果。

在一可实施方式中，所述根据所述目标主体的空间位置编码结果确定所述目标主体所属的社区，包括：根据所述目标主体的空间位置编码结果，将所述目标主体在空间的位置进行更新；在所述空间中以所述目标主体为中心，按照预设距离进行搜索，确定所述预设距离内包括的其他主体作为候选主体；获取每个候选主体所属的社区，将包含最多候选主体的社区确定为所述目标主体所属的社区。

在一可实施方式中，所述方法还包括：根据每个社区在多个指定时刻的特定指标的指标值确定每个社区的指标特征序列；根据所有社区的指标特征序列确定每种社区类型对应的指标值范围；将所述社区的指标特征序列满足的指标值范围对应的社区类型确定为该社区的类型。

根据本公开的第二方面，提供了一种数据的处理装置，所述装置包括：获取模块，用于获取实时行为事件，确定所述实时行为事件对应的目标主体；所述获取模块，还用于根据所述实时行为事件对应的当前时刻，获取预设时间范围内所述目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列；第一确定模块，用于根据所述目标主体的历史行为事件序列和所述上下文信息特征序列，得到所述目标主体的多维混合行为序列，所述上下文信息特征序列包含多个维度的特征；处理模块，用于将所述目标主体的多维混合行为序列转化为二维向量，对所述二维向量进行空间位置编码得到所述目标主体在当前时刻的空间位置编码结果；第二确定模块，用于根据所述目标主体的空间位置编码结果确定所述目标主体所属的社区。

在一可实施方式中，所述第一确定模块，包括：提取子模块，用于从所述每个历史行为事件对应的上下文信息特征序列中提取相同维度的特征，组成该维度对应的特征序列；拼接子模块，用于将所述历史行为事件序列以及每个维度对应的特征序列进行拼接，得到所述多维混合行为序列。

在一可实施方式中，所述处理模块，包括：构建子模块，用于根据所述预设时间范围内所有主体的多维混合行为序列构建决策树集群；所述决策树集群中，决策树中的节点表示主体；第一确定子模块，用于基于所述决策树集群确定目标节点与指定邻居节点的连边权重；转化子模块，用于根据目标函数和所述连边权重将所述目标节点对应的多维混合行为序列转化为二维向量。

在一可实施方式中，所述第一确定子模块，具体用于，确定所述目标节点的邻居节点作为所述目标节点的第一邻居节点；确定每个第一邻居节点的邻居节点作为所述目标节点的第二邻居节点；确定与所述目标节点满足预设条件的第二邻居节点为指定邻居节点；根据所述指定邻居节点和所述目标节点的多维混合行为序列，确定所述目标节点与每个指定邻居节点的连边权重。

在一可实施方式中，所述处理模块，还包括：第二确定子模块，用于将所述二维向量的第一维向量值对第一数值分别进行取模计算和取余计算，确定第一编码值和第二编码值；所述第二确定子模块，还用于将所述二维向量的第二维向量值对第二数值分别进行取模计算和取余计算，确定第三编码值和第四编码值；第三确定子模块，用于将所述第一编码值、所述第二编码值、所述第三编码值和所述第四编码值确定为所述目标主体的空间位置编码结果。

在一可实施方式中，所述第二确定模块，包括：更新子模块，用于根据所述目标主体的空间位置编码结果，将所述目标主体在空间的位置进行更新；搜索子模块，用于在所述空间中以所述目标主体为中心，按照预设距离进行搜索，确定所述预设距离内包括的其他主体作为候选主体；第四确定子模块，用于获取每个候选主体所属的社区，将包含最多候选主体的社区确定为所述目标主体所属的社区。

在一可实施方式中，所述装置，还包括：第三确定模块，用于根据每个社区在多个指定时刻的特定指标的指标值确定每个社区的指标特征序列；根据所有社区的指标特征序列确定每种社区类型对应的指标值范围；将所述社区的指标特征序列满足的指标值范围对应的社区类型确定为该社区的类型。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的一种数据的处理方法、装置、电子设备及存储介质，根据获得的实时行为事件，确定对应的目标主体，根据实时行为事件对应的当前时刻，获取预设时间范围内目标主体的历史行为事件序列，并获取每个历史行为事件对应的上下文信息特征序列，根据目标主体的历史行为事件序列和上下文信息特征序列，得到目标主体的多维混合行为序列，将目标主体的多维混合行为序列转化为二维向量，并对该二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果，根据目标主体的空间位置编码结果确定目标主体所属的社区。应用本方法，根据实时行为事件确定目标主体，在考虑目标主体的历史行为事件的基础上，充分利用目标主体在历史行为事件对应的上下文信息特征序列，丰富了目标主体的属性，再将得到的多维混合行为序列转化为对应的二维向量并进行空间位置编码后得到与目标主体对应的空间位置编码结果，最终根据目标主体的空间位置编码结果以及空间中其他主体的位置，确定目标主体所属的社区，由此可以实现对数据的实时处理，实时确定目标主体的类型。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例一种数据的处理方法的实现流程示意图一；

图2示出了本公开实施例一种数据的处理方法的实现流程示意图二；

图3示出了本公开实施例一种数据的处理方法的实现流程示意图三；

图4示出了本公开实施例一种数据的处理方法的实现流程示意图四；

图5示出了本公开实施例一种数据的处理装置的模块示意图；

图6示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1示出了本公开实施例一种数据的处理方法的实现流程示意图一，包括：

步骤101，获取实时行为事件，确定实时行为事件对应的目标主体。

获取实时行为事件，实时行为事件指实时发生的行为事件，例如金融领域中，实时行为事件可以指实时交易行为、实时登录行为等；或者像电子营销领域，实时行为事件可以为实时浏览行为、实时支付行为等。实时行为事件包括多个维度的字段，可选取其中任意一个字段作为目标主体进行分析，也可根据实际情况需要确定哪个维度的字段所属的类型就可将对应字段作为目标主体。本申请描述时，以金融领域为例。通常情况下，在金融领域，实时行为事件如一条实时交易流水包括交易账号、交易发生的IP地址、交易的设备、交易时间、交易金额等多个维度的字段，可将其中任意一个字段作为目标主体进行分析，或者若需要确定交易账号的类型，则可将交易账号确定为实时行为事件对应的目标主体，同样若需要确定交易发生的IP地址的类型，也可将交易发生的IP地址作为目标主体进行分析。

步骤102，根据实时行为事件对应的当前时刻，获取预设时间范围内目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列。

以实时行为事件发生的时刻作为当前时刻，获取该目标主体在预设时间范围内的历史行为事件，历史行为事件是指目标主体在预设时间范围内发生的行为事件，并根据目标主体在预设时间范围内所有的行为事件生成预设时间范围内目标主体的历史行为事件序列，具体的，可以按照历史行为事件对应的时间顺序生成该历史行为事件序列。其中，预设时间范围可以根据具体应用场景确定，该预设时间范围的终止时间可早于当前时刻或等于当前时刻。

针对每个历史行为事件，获取对应的上下文信息特征序列，该上下文信息特征序列中包含与历史行为事件对应的上下文信息特征，上下文信息特征是历史行为事件的属性特征，例如在金融领域，获取一条实时交易流水，根据该交易流水确定交易账号为目标主体，以获取到该实时交易流水的时间作为当前时刻，获取该交易账号在预设时间范围的历史行为事件，若交易账号在预设时间范围内的所有历史行为事件有：登录、改密、登录、转账，那么生成该交易账号对应的历史行为事件序列为（登录、改密、登录、转账）。针对第一次登录，获取交易账号在进行该次登录时的IP地址、手机号、设备号、用户信息、时间等属性作为第一次登录这一历史行为事件的上下文信息特征，并生成第一次登陆对应的上下文信息特征序列。

可以理解的时，可选取历史行为事件的任意属性作为历史行为事件的上下文信息特征。

获取的上下文信息特征包括离散型特征和连续型特征，形成的上下文信息特征序列包括有离散型特征序列和连续型特征序列。当描述离散型特征序列的相邻变化，可将离散型特征序列处理为离散值相邻变化序列，相邻特征值一致则可将特征值置为0，相邻特征值不一致则可将特征值置为1，该处理适合枚举种类较多且强调变化对分类有影响的离散型特征序列，例如设备号这一上下文信息特征序列。同样针对离散型特征序列也可采用独热编码（one-hot）或嵌入编码（embedding）的方式进行编码处理。针对连续型特征序列，可通过幂次分桶的方式进行离散化处理，强化桶间的特征显著性，当然，为使效果更好，可对特征值进行标准化之后再进行分桶操作。此外还可引入分布类特征，如方差、均值、中位数、偏度、峰度等，计算相邻两特征值的差值以体现特征的差异性。针对时间特征序列可以直接进行分桶操作，也可基于时间特征序列确定时间间隔差值特征序列，针对时间间隔差值特征序列再进行分桶操作。

步骤103，根据目标主体的历史行为事件序列和上下文信息特征序列，得到目标主体的多维混合行为序列，上下文信息特征序列包含多个维度的特征。

在得到目标主体在预设时间范围内的历史行为事件生成历史行为事件序列，以及获取到每个历史行为事件对应的上下文信息特征序列后，将该历史行为事件序列和所有历史行为事件对应的上下文信息特征序列进行拼接，得到目标主体的多维混合行为序列，其中，每个上下文信息特征序列包含目标主体在进行对应的历史行为事件时的多个维度的特征。

步骤104，将目标主体的多维混合行为序列转化为二维向量，对二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果。

对目标主体的多维混合行为序列进行降维，将其转化为二维向量，对二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果，通过将目标主体的多维混合行为序列降维为二维向量并进行空间位置编码后，可将二维向量映射到二维空间中，便于根据目标主体的空间位置对目标主体进行分析。

步骤105，根据目标主体的空间位置编码结果确定目标主体所属的社区。

根据目标主体的多维混合行为序列降维并进行编码得到目标主体的空间位置编码结果，将其映射到二维空间中，同样的，获取其他目标主体的多维混合行为序列，同样进行降维和编码后映射到二维空间中，可根据当前时刻目标主体和其他目标主体在空间中的位置关系确定目标主体所属的社区。例如还是以上述金融领域为例，当前时刻的目标主体为交易账号A，在得到交易账号A的多维混合行为序列并进行降维和编码后，确定交易账号A在空间中的位置，同样的，可以获取其他多个交易账号的多维混合行为序列，同样进行降维和编码后，确定其他多个交易账号在空间中的位置，基于交易账号A和其他多个交易账号在空间中的位置关系确定交易账号A所属的社区。

本公开实施例提供的一种数据的处理方法，根据获取的实时行为事件确定目标主体，获取预设时间范围内目标主体的历史行为事件序列以及每个历史行为事件对应的上下文信息特征序列，并根据该历史行为事件序列和每个上下文信息特征序列得到目标主体的多维混合行为序列，将目标主体的多维混合行为序列进行降维转化为对应的二维向量，并对得到的二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果，根据目标主体的空间位置编码结果确定目标主体所属的社区。应用本方法，根据实时行为事件确定目标主体，在考虑目标主体的历史行为事件的基础上，充分利用目标主体在历史行为事件对应的上下文信息特征序列，丰富了目标主体的属性，再将得到的多维混合行为序列转化为对应的二维向量并进行空间位置编码后得到与目标主体对应的空间位置编码结果，最终根据目标主体的空间位置编码结果以及空间中其他主体的位置，确定目标主体所属的社区，由此可以实现对数据的实时处理，实时确定目标主体的类型。

在一可实施方式中，根据目标主体的历史行为事件序列和上下文信息特征序列，得到目标主体的多维混合行为序列，包括：

从每个历史行为事件对应的上下文信息特征序列中提取相同维度的特征，组成该维度对应的特征序列；

将历史行为事件序列以及每个维度对应的特征序列进行拼接，得到多维混合行为序列。

每个历史行为事件对应的上下文信息特征序列是目标主体在进行历史行为事件时的多个维度的上下文信息特征组成的序列。首先从每个历史行为事件对应的上下文信息特征序列中提取相同维度的特征组成该维度对应的特征序列。例如前述实施例中获取的历史行为事件序列（登录、改密、登录、转账），针对每个历史行为事件，获取到对应的上下文信息特征序列，如第一次登陆时的上下文信息特征序列为（手机号1、IP1、设备1），改密时的上下文信息特征序列为（手机号1、IP2、设备1），第二次登陆时的上下文信息特征序列为（手机号2、IP3、设备2），转账时的上下文信息特征为（手机号3、IP3、设备2），那么基于上述四个上下文信息特征序列分别提取手机号维度、IP地址维度、设备维度提取特征，得到手机号维度的特征序列为（手机号1、手机号1、手机号2、手机号3），同样的，可以获取其余两个维度的特征序列。

将历史行为时间序列以及每个维度对应的特征序列进行拼接，得到多维混合行为序列，可以理解的是，在进行拼接时，维度对应的特征序列中特征的顺序应当与历史行为事件序列中历史行为事件的顺序保持一致。

在一可实施方式中，如图2所示，将目标主体的多维混合行为序列转化为二维向量，包括：

步骤201，根据预设时间范围内所有主体的多维混合行为序列构建决策树集群，决策树集群中，决策树中的节点表示主体；

步骤202，基于决策树集群确定目标节点与指定邻居节点的连边权重；

步骤203，根据目标函数和连边权重将目标节点对应的多维混合行为序列转化为二维向量。

获取预设时间范围内的其他主体，如上述金融领域中，获取预设时间范围内的其他交易账号。每个主体通过与目标主体同样的方式获取与主体对应的多维混合行为序列，在得到预设时间范围内其他主体的多维混合行为序列后，基于所有主体的多维混合行为序列通过K维树算法构建决策树集群，所构建的决策树集群中，决策树中的节点表示主体。如果上下文信息特征的维度为D，主体的数量为N，那么通过K维树算法构建决策树时的算法复杂度为，因此通过K维树算法构建决策树集群，可减少数据量，适用于实时计算场景。

从构建的决策树集群中确定目标主体对应的节点作为目标节点，并从其余节点中确定指定邻居节点，该指定邻居节点为满足指定条件的节点。基于决策树集群中目标节点与指定邻居节点之间的连接关系以及节点对应的主体的多维混合行为序列，确定目标节点与每个指定邻居节点的连边权重，该连边权重表示目标节点与指定邻居节点连接关系的权重。

构建目标函数，通过目标函数将目标节点对应的多维混合行为序列转化为二维向量；其中i表示目标节点，j表示除目标节点以外的节点，E为指定邻居节点形成的集合，/>表示目标节点i与节点j的连边权重，表示目标节点i与节点j之间的连边概率，/>的值包括0或1两种情况，0代表目标节点i与节点j之间没有边即负边，1代表目标节点i与节点j之间有边，/>为指定邻居节点形成的集合的补集，/>为目标节点i与节点j两个节点之间没有边所分配的统一权重。可根据概率函数/>确定，/>表示目标节点i的多维混合行为序列，/>为节点j的多维混合行为序列。

部分刻画了目标节点i与节点j之间连边的可能性，通过对该部分最大化，可以保证相似数据点在低维空间中保持较为紧密的相连特性。部分刻画了目标节点i与节点j之间没有边的可能性，通过对该部分最大化，不相似的数据点会彼此分离较远。即目标节点与其邻居节点构成正样本，与非邻居节点构成负样本，通过对目标函数O最大化，可以实现同类样本内聚，类间样本相离。

更进一步的，为减少计算量，可采用随机挑选一些负边代替所有负边的方法进行优化，负边即表征两个节点之间没有边。对于目标节点i，采用噪声分布函数随机采样一些临近节点，设定/>，/>为节点j的度，将目标函数O优化为，其中M为随机采样后负边的数量，/>表示采样为符合噪声分布函数/>的随机采样，/>表示负采样部分符合噪声分布的随机采样节点。通过使用随机梯度下降对目标函数O进行优化，可减少计算量。

在一可实施方式中，基于决策树集群确定目标节点与指定邻居节点的连边权重，包括：

确定目标节点的邻居节点作为目标节点的第一邻居节点；

确定每个第一邻居节点的邻居节点作为目标节点的第二邻居节点；

确定与目标节点满足预设条件的第二邻居节点为指定邻居节点；

根据指定邻居节点和目标节点的多维混合行为序列，确定目标节点与每个指定邻居节点的连边权重。

在确定目标节点后，基于决策树集群中的节点，根据节点的邻居传导性，采用广度搜索算法确定目标节点的邻居节点作为目标节点的第一邻居节点。针对每个第一邻居节点，确定第一邻居节点的邻居节点作为目标节点的第二邻居节点，生成第一集合，第一集合中的元素为目标节点的第二邻居节点。分别计算目标节点与第一集合中每个第二邻居节点之间的距离，其中，预设条件可以为目标节点与第二邻居节点的距离满足距离阈值，将距离满足距离阈值的第二邻居节点作为指定邻居节点；预设条件也可以为根据目标节点与第二邻居节点之间的距离，选取预设数量的第二邻居节点作为指定邻居节点，如选取距离最小的K个距离对应的第二邻居节点为指定邻居节点，生成第二集合，该第二集合中的元素为指定邻居节点。

根据如下公式（1）确定由目标节点指向指定邻居节点的第一条件概率，

……………………（1）

其中表示目标节点i的多维混合行为序列，/>为指定邻居节点j的多维混合行为序列，E为第二集合，/>为指定邻居节点k的多维混合行为序列，/>为以目标节点i为中心点的高斯方差。其中高斯方差/>越大，目标节点周围划定的范围越大，其他节点出现的条件概率的熵越大，困惑度越大。困惑度为节点周围有效近邻节点的数量，困惑度可根据实际情况指定。同样的，可根据确定第一条件概率同样的方法，确定由指定邻居节点指向目标节点的第二条件概率/>。由于目标节点i与指定邻居节点j的条件概率满足对称关系，因此可通过公式（2）确定目标节点和指定邻居节点的连边权重：

……………………（2）

其中N为节点总数。

在一可实施方式中，对二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果，包括：

将二维向量的第一维向量值对第一数值分别进行取模计算和取余计算，确定第一编码值和第二编码值；

将二维向量的第二编码值对第二数值分别进行取模计算和取余计算，确定第三编码值和第四编码值；

将第一编码值、第二编码值、第三编码值和第四编码值确定为目标主体的空间位置编码结果。

在得到目标主体对应的二维向量后，将二维向量中第一维向量值对第一数值进行取模计算，确定第一编码值，将二维向量中第一维向量值对第数值进行取余计算，确定第二编码值；将二维向量中第二维向量值对第二数值进行取模计算，确定第三编码值，将二维向量中第二维向量值对第二数值进行取余计算，确定第四编码值。其中第一数值和第二数值用于将二维向量映射到二维空间中，选取的二维空间的参考坐标不同，第一数值和第二数值的取值也会不同，例如若将该二维向量映射到经纬度坐标系中，第一数值可以为180，第二数值为90。

之后可通过键值对的方式对得到的第一编码值、第二编码值、第三编码值和第四编码值进行存储，作为目标主体的空间位置编码结果。具体的，以第一编码值和第三编码值作为目标主体的键，以第二编码值和第四编码值作为目标主体的值，例如其中一种存储结果可以为（第二编码值，第四编码值，主体：第一编码值：第二编码值）。

在一可实施方式中，如图3所示，根据目标主体的空间位置编码结果确定目标主体所属的社区，包括：

步骤301，根据目标主体的空间位置编码结果，将目标主体在空间的位置进行更新；

步骤302，在空间中以目标主体为中心，按照预设距离进行搜索，确定预设距离内包括的其他主体作为候选主体；

步骤303，获取每个候选主体所属的社区，将包含最多候选主体的社区确定为目标主体所属的社区。

根据目标主体的空间位置编码结果，确定目标主体在空间的位置，此时空间中包括预设时间范围内所有主体，若目标主体在当前时刻之前已经确定其对应的空间位置，那根据当前时刻确定的目标主体的空间位置对目标主体之前的空间位置进行更新，将当前时刻确定的目标主体的在空间中的位置确定为目标主体在空间中的最新位置。

基于空间中的主体的位置，以空间中目标主体的位置为中心点，采用空间地址编码算法Geohash，对中心点所在网格区域及其周围8个网格区域进行检索，确定中心点所在网格区域及周围8个网格区域中与目标主体的距离满足预设距离的其他主体作为候选主体。候选主体为根据目标主体对应的当前时刻之前的时刻确定的主体。

确定每个候选主体所属的社区，对每个候选主体所属的社区进行统计，确定包含候选主体最多的社区，并将该社区确定为目标节点所属的社区。

在一可实施方式中，如图4所示，方法还包括：

步骤401，根据每个社区在多个指定时刻的特征指标的指标值确定每个社区的指标特征序列；

步骤402，根据所有社区的指标特征序列确定每种社区类型对应的指标值范围；

步骤403，将社区的指标特征序列满足的指标值范围对应的社区类型确定为该社区的类型。

确定每个社区中包含的节点，根据每个社区所包含的节点，确定社区的特征指标，其中该特征指标可用于对社区进行评估，如社区的模块度。在金融领域该特征指标还可以为与交易相关的评价指标，如社区的交易金额、交易次数等。针对每个社区获取其在多个指定时刻的特征指标的指标值，形成对应社区的指标特征序列，如可分别获取每个社区在24个小时的模块度，得到每个社区的模块度序列。多个指定时刻可根据实际场景进行确定，例如需要实时性较强的场景，可设置大量的指定时刻，或者指定时刻之间间隔较小，需要实时性弱的场景，可设置少量的指定时刻，或者指定时刻之间间隔较大。可以理解的是，相邻两个指定时刻之间的间隔设置并非固定，可以根据场景进行设置，例如金融领域，异常社区在敏感时刻交易量较多，则可在敏感时刻设置较小的时间间隔，其余时刻可设置较大的时间间隔。此外，社区间的指定时刻应当保持一致。

在确定所有社区的指标特征序列后，通过所有社区的指标特征序列确定指标特征序列的均值和标准差，根据3sigma原则确定每种社区类型对应的指标值范围，或者也可根据实际场景指定每种社区类型的指标值范围。

根据每个社区的指标特征序列与社区类型对应的指标值范围进行匹配，将符合指标值范围对应的社区类型确定为社区的类型。

同样的，特征指标可以包括多个，每个社区可获取多个指定时刻每个特征指标的指标值，确定每个社区的多个指标特征序列，将多个指标特征序列进行融合，得到每个社区的综合指标特征序列，根据所有社区的综合指标特征序列，确定每种社区类型对应的综合指标值范围，将综合指标特征序列满足综合指标值范围对应的社区类型确定为社区的类型。

图5示出了本公开实施例一种数据的处理装置的模块示意图。

参见图5，根据本公开实施例的第二方面，提供一种数据的处理装置，装置包括：获取模块501，用于获取实时行为事件，确定实时行为事件对应的目标主体；获取模块501，还用于根据实时行为事件对应的当前时刻，获取预设时间范围内目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列；第一确定模块502，用于根据目标主体的历史行为事件序列和上下文信息特征序列，得到目标主体的多维混合行为序列，上下文信息特征序列包含多个维度的特征；处理模块503，用于将目标主体的多维混合行为序列转化为二维向量，对二维向量进行空间位置编码得到目标主体在当前时刻的空间位置编码结果；第二确定模块504，用于根据目标主体的空间位置编码结果确定目标主体所属的社区。

在一可实施方式中，第一确定模块502，包括：提取子模块5021，用于从每个历史行为事件对应的上下文信息特征序列中提取相同维度的特征，组成该维度对应的特征序列；拼接子模块5022，用于将历史行为事件序列以及每个维度对应的特征序列进行拼接，得到多维混合行为序列。

在一可实施方式中，处理模块503，包括：构建子模块5031，用于根据预设时间范围内所有主体的多维混合行为序列构建决策树集群；决策树集群中，决策树中的节点表示主体；第一确定子模块5032，用于基于决策树集群确定目标节点与指定邻居节点的连边权重；转化子模块5033，用于根据目标函数和连边权重将目标节点对应的多维混合行为序列转化为二维向量。

在一可实施方式中，第一确定子模块5032，具体用于，确定目标节点的邻居节点作为目标节点的第一邻居节点；确定每个第一邻居节点的邻居节点作为目标节点的第二邻居节点；确定与目标节点满足预设条件的第二邻居节点为指定邻居节点；根据指定邻居节点和目标节点的多维混合行为序列，确定目标节点与每个指定邻居节点的连边权重。

在一可实施方式中，处理模块503，还包括：第二确定子模块5034，用于将二维向量的第一维向量值对第一数值分别进行取模计算和取余计算，确定第一编码值和第二编码值；第二确定子模块5034，还用于将二维向量的第二维向量值对第二数值分别进行取模计算和取余计算，确定第三编码值和第四编码值；第三确定子模块5035，用于将第一编码值、第二编码值、第三编码值和第四编码值确定为目标主体的空间位置编码结果。

在一可实施方式中，第二确定模块504，包括：更新子模块5041，用于根据目标主体的空间位置编码结果，将目标主体在空间的位置进行更新；搜索子模块5042，用于在空间中以目标主体为中心，按照预设距离进行搜索，确定预设距离内包括的其他主体作为候选主体；第四确定子模块5043，用于获取每个候选主体所属的社区，将包含最多候选主体的社区确定为目标主体所属的社区。

在一可实施方式中，所述装置，还包括：第三确定模块505，用于根据每个社区在多个指定时刻的特定指标的指标值确定每个社区的指标特征序列；根据所有社区的指标特征序列确定每种社区类型对应的指标值范围；将所述社区的指标特征序列满足的指标值范围对应的社区类型确定为该社区的类型。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如一种数据的处理方法。例如，在一些实施例中，一种数据的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的一种数据的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行一种数据的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据的处理方法，其特征在于，所述方法包括：

获取实时行为事件，确定所述实时行为事件对应的目标主体；

根据所述实时行为事件对应的当前时刻，获取预设时间范围内所述目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列；

根据所述目标主体的历史行为事件序列和所述上下文信息特征序列，得到所述目标主体的多维混合行为序列，所述上下文信息特征序列包含多个维度的特征；

将所述目标主体的多维混合行为序列转化为二维向量，对所述二维向量进行空间位置编码得到所述目标主体在当前时刻的空间位置编码结果；

根据所述目标主体的空间位置编码结果确定所述目标主体所属的社区。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标主体的历史行为事件序列和所述上下文信息特征序列，得到所述目标主体的多维混合行为序列，包括：

从所述每个历史行为事件对应的上下文信息特征序列中提取相同维度的特征，组成该维度对应的特征序列；

将所述历史行为事件序列以及每个维度对应的特征序列进行拼接，得到所述多维混合行为序列。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标主体的多维混合行为序列转化为二维向量，包括：

根据所述预设时间范围内所有主体的多维混合行为序列构建决策树集群；所述决策树集群中，决策树中的节点表示主体；

基于所述决策树集群确定目标节点与指定邻居节点的连边权重；

根据目标函数和所述连边权重将所述目标节点对应的多维混合行为序列转化为二维向量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述决策树集群确定目标节点与指定邻居节点的连边权重，包括：

确定所述目标节点的邻居节点作为所述目标节点的第一邻居节点；

确定每个第一邻居节点的邻居节点作为所述目标节点的第二邻居节点；

确定与所述目标节点满足预设条件的第二邻居节点为指定邻居节点；

根据所述指定邻居节点和所述目标节点的多维混合行为序列，确定所述目标节点与每个指定邻居节点的连边权重。

5.根据权利要求1所述的方法，其特征在于，所述对所述二维向量进行空间位置编码得到所述目标主体在当前时刻的空间位置编码结果，包括：

将所述二维向量的第一维向量值对第一数值分别进行取模计算和取余计算，确定第一编码值和第二编码值；

将所述二维向量的第二维向量值对第二数值分别进行取模计算和取余计算，确定第三编码值和第四编码值；

将所述第一编码值、所述第二编码值、所述第三编码值和所述第四编码值确定为所述目标主体的空间位置编码结果。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标主体的空间位置编码结果确定所述目标主体所属的社区，包括：

根据所述目标主体的空间位置编码结果，将所述目标主体在空间的位置进行更新；

在所述空间中以所述目标主体为中心，按照预设距离进行搜索，确定所述预设距离内包括的其他主体作为候选主体；

获取每个候选主体所属的社区，将包含最多候选主体的社区确定为所述目标主体所属的社区。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据每个社区在多个指定时刻的特定指标的指标值确定每个社区的指标特征序列；

根据所有社区的指标特征序列确定每种社区类型对应的指标值范围；

将所述社区的指标特征序列满足的指标值范围对应的社区类型确定为该社区的类型。

8.一种数据的处理装置，其特征在于，所述装置包括：

获取模块，用于获取实时行为事件，确定所述实时行为事件对应的目标主体；

所述获取模块，还用于根据所述实时行为事件对应的当前时刻，获取预设时间范围内所述目标主体的历史行为事件序列，并获取每个历史行为事件所对应的上下文信息特征序列；

第一确定模块，用于根据所述目标主体的历史行为事件序列和所述上下文信息特征序列，得到所述目标主体的多维混合行为序列，所述上下文信息特征序列包含多个维度的特征；

处理模块，用于将所述目标主体的多维混合行为序列转化为二维向量，对所述二维向量进行空间位置编码得到所述目标主体在当前时刻的空间位置编码结果；

第二确定模块，用于根据所述目标主体的空间位置编码结果确定所述目标主体所属的社区。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。