CN112100452A

CN112100452A - 数据处理的方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112100452A
Application number: CN202010979265.6A
Authority: CN
Inventors: 陈振兴; 王美青
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-18
Anticipated expiration: 2040-09-17
Also published as: CN112100452B

Abstract

本发明实施例提供一种数据处理的方法、装置、设备及计算机可读存储介质，通过根据关联关系图生成每个用户账号的特征；使用每个用户账号的特征及对应标签作为训练数据训练逻辑回归模型；根据训练好的逻辑回归模型确定两个用户账号之间的关联权重，能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响从而确定权重，通过将两个用户账号间存在的关系类型转换为特征向量带入逻辑回归模型，根据逻辑回归结果确定两用户账号间存在的多种关系类型的关联权重，根据任意两个用户账号之间的关联权重发现指定用户账号所在的目标社区，能够增强社区划分的结果与目标的相关性，准确地发现目标所在的社区，准确地识别诈骗团伙和推荐信息。

Description

数据处理的方法、装置、设备及计算机可读存储介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种数据处理的方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，各电商平台，金融平台等互联网平台拥有的用户数量巨大。图是一种能表示相互连接的事物及其关系的形式，互联网平台中用户账号之间的关联关系可以通过图的方式表示和存储，包括节点和边两部分，节点是用户账号(或人)，边又称关系，表示节点之间的关联关系。

通过社区发现的方法可以社区发现可以分析得到图中关联密切的节点，可以广泛应用于欺诈团伙识别、推荐等业务场景中。例如，通过社区发现方法的社区划分结果，可以发现指定目标所在的社区，从而发现与指定目标关联密切的用户账号(或人)。若指定目标是已知的诈骗用户账号，这样就可以发现诈骗团伙。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有的社区发现方法中，不区分图中边的类型，边的权重往往采用相等权重或者人为根据经验指定边的权重，导致社区发现方法的社区划分结果不准确，无法准确识别指定目标的紧密关联人群，无法准确识别出欺诈团伙和进行有效的信息推荐。

发明内容

本发明实施例提供一种数据处理的方法、装置、设备及计算机可读存储介质，用以解决现有的社区发现方法的社区划分结果不准确，无法准确识别指定目标的紧密关联人群，无法准确识别出欺诈团伙和进行有效的信息推荐的问题。

第一方面，本发明实施例提供一种数据处理的方法，包括：

获取用户账号的关联关系图，所述关联关系图包含各用户账号之间的关联关系及关系类型；

根据所述关联关系图，生成每个用户账号的特征；

使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型；

根据训练好的所述逻辑回归模型，确定两个用户账号之间的关联权重；

根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区；

对所述目标社区内的用户账号进行相应处理。

第二方面，本发明实施例提供一种数据处理的方法，应用于互联网平台，所述互联网平台包括多个用户注册的用户账号，所述用户账号中存在至少一个对应指定类型的标签的指定用户账号，所述方法包括：

获取所述互联网平台中所有用户账号的关联关系图，所述关联关系图包含各用户账号之间的关联关系及关系类型；

根据所述关联关系图，生成所述关联关系图中每个用户账号的特征；

根据任意两个用户账号之间的关联权重，进行社区划分，确定所述指定用户账号所在的目标社区；

对所述目标社区内的用户账号进行相应处理。

第三方面，本发明实施例提供一种数据处理的装置，包括：

关联关系图获取模块，用于获取用户账号的关联关系图，所述关联关系图包含各用户账号之间的关联关系及关系类型；

数据转换模块，用于根据所述关联关系图，生成每个用户账号的特征；

模型训练模块，用于使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型；

权重确定模块，用于根据训练好的所述逻辑回归模型，确定两个用户账号之间的关联权重；

社区发现模块，用于根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区；

处理实施模块，用于对所述目标社区内的用户账号进行相应处理。

第四方面，本发明实施例提供一种数据处理的设备，包括：

处理器，存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；

其中，所述处理器运行所述计算机程序时实现上述任一方面所述的数据处理的方法。

第五方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方面所述的数据处理的方法。

本发明实施例提供的数据处理的方法、装置、设备及计算机可读存储介质，通过根据所述关联关系图，生成每个用户账号的特征；使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型；根据训练好的所述逻辑回归模型，确定两个用户账号之间的关联权重，能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响，从而确定权重，通过将两个用户账号间存在的关系类型转换为0和1变量带入逻辑回归模型，根据逻辑回归结果确定两用户账号间存在的多种关系类型的累计权重，得到两用户账号间关联权重，进一步根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区，能够增强社区划分的结果与目标的相关性，能够准确地发现目标所在的社区，从而可以准确地进行诈骗团伙的识别和精准地信息推荐。

附图说明

图1为本发明实施例一提供的数据处理的方法流程图；

图2为本发明实施例二提供的数据处理的方法流程图；

图3为本发明实施例三提供的数据处理的装置的结构示意图；

图4为本发明实施例五提供的数据处理的设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

首先对本发明实施例所涉及的名词进行解释：

图：包括节点和边，本实施例中，图中的每个节点代表一个用户(或用户账号)，图中连接两个节点的边表示两个用户之间的关联关系，图中边的类型可以有多种。例如，用户账号A和用户账号B使用了相同的IP，则A节点和B节点之间有一条表示使用了相同IP的边；若A和B还使用了相同的地址，则A节点和B节点之间还可以有一条表示使用了相同地址的边。

社区发现算法：通过关系网络发现社区结构的算法，可看作一种聚类算法，社区内部连接紧密，社区之间连接稀疏。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

本发明实施例至少可以应用于以下的应用场景：

一种应用场景为欺诈团伙的识别：电商平台，金融平台等互联网平台拥有的用户数量巨大，其中可能存在涉嫌欺诈的用户和团伙，但是发现所有涉嫌欺诈的用户很难。对于已经发现的少数几个欺诈用户，通过本实施例提供的方法，根据各个用户之间的关联关系及确定的关联权重，通过社区发现方法，发现已知的欺诈用户所在社区，从而确定可能的欺诈团伙，进一步地可以将欺诈用户所在社区中的各个用户的信息推送给相应人员进行排查，或者，可以采用预设方式直接对将欺诈用户所在社区中的各个用户进行相应地处理，例如暂时停用，要求提供证明材料等等。

另一种应用场景为商品等的推荐：电商平台，金融平台等互联网平台中，在某一用户购买了一件商品之后，可以向与该用户有紧密关联的用户群体推荐该商品和/或类似商品。通过本实施例提供的方法，根据各个用户之间的关联关系及确定的关联权重，通过社区发现方法，发现当前用户所在社区，从而确定与该用户有紧密关联的用户群体，进一步地可以向当前用户所在社区中的用户推送该商品和/或类似商品的信息，提高信息推荐的精准度和效率。

本实施例提供的方法还可以应用于其他应用场景，本实施例此处不做具体限定。

传统的社区发现算法，如标签传播算法(Label Propagation Algorithm，缩写LPA)、Louvain算法等，需要用户输入图中所有的边及对应的权重，然后基于连接关系划分出连接紧密的社区。其中，LPA在初始状态下，会将图中的每个节点将自己的编号作为标签。然后每个节点向其邻居传播自己的标签，每个节点根据其邻居的标签，选择重复数最多的那个标签作为自己的标签，循环此过程直至每个节点的标签收敛。Louvain算法初始状态将图中的每个节点看成一个独立的社区，然后对每个节点，依次尝试把该节点分配到其每个邻居节点所在的社区，计算分配前与分配后的模块度变化Delta Q，并记录Delta Q最大的那个邻居节点，如果Delta Q最大值>0，则把该节点分配到Delta Q最大的那个邻居节点所在的社区，否则保持不变，重复该过程直到所有节点的所属社区不再变化。

传统的社区发现算法中不区分边的类型，即图中只存在一种类型的边(也即任意两个节点之间只有一种关系)。边的权重衡量连接的两个节点的紧密程度，边的权重越大，两个节点有越大的概率拥有相同的标签。现有的社区发现算法不支持对边权重的优化，往往采取等权重或者人为根据经验指定，但这种方式常常会导致社区划分的结果与目标的相关性不强，无法准确地发现目标所在的社区。当图中存在多种关系类型时，如何设定不同关系类型的权重，当两个节点间存在多种类型的关系时，如何计算两个节点间的综合权重，可以使得社区划分的结果更优，这是传统社区发现算法无法解决的技术问题。

本发明实施例提供的数据处理的方法，旨在解决如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的数据处理的方法流程图。本实施例中的方法应用于互联网平台，互联网平台包括多个用户注册的用户账号，用户账号中存在至少一个对应指定类型的标签的指定用户账号。本实施例的执行主体可以是数据处理的设备，该数据处理的设备可以是智能手机、平板、AR设备等移动终端，也可以是台式电脑、服务器、服务器集群等，在其他实施例中，该方法还可应用于其他设备，本实施例以数据处理的设备为例进行示意性说明。

如图1所示，该方法具体步骤如下：

步骤S101、获取用户账号的关联关系图，关联关系图包含各用户账号之间的关联关系及关系类型。

其中，关联关系图由节点和边构成，其中每个节点代表一个用户账号，两个节点之间的边代表两个节点对应用户账号之间的关联关系。两个节点之间可以有多条边，不同的边代表不同关系类型的关联关系。

例如，用户账号A和用户账号B使用了相同的IP，则对应的A节点和B节点之间有一条表示使用了相同IP的边，该边的关系类型可以是IP相同；若A和B还使用了相同的地址，则A节点和B节点之间还可以有一条表示使用了相同地址的边，该边的关系类型可以是地址相同；等等。

本实施例中，各个用户账号之间关联关系的关系类型具体包括哪些，可以根据实际应用场景的需要进行配置，本实施例此处不做具体限定。

步骤S102、根据关联关系图，生成每个用户账号的特征。

根据用户账号的关联关系图中，每个用户账号对应节点与其他节点之间的关联关系，可以生成每个用户账号的特征。

其中，某一用户账号的特征包含该用户账号与其他用户账号之间存在的关联关系的关系类型。

步骤S103、使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型。

本实施例中，根据具体应用场景，每个用户账号具有预先设定的标签。具体的，指定目标的标签为具有指定特征，对应值设置为第一值；除指定目标之外的其他用户账号的标签为不具有指定特征，对应值设置为第二值。

其中，指定目标是指已知具有指定特征的用户账号，例如，已知涉嫌欺诈的用户账号，或者已知对某种商品感兴趣的用户的账号，等。

第一值和第二值不同，第一值可以是1，第二值可以是0。第一值和第二值可以根据实际应用场景需要和经验进行设定，本实施例此处不做具体限定。

例如，在欺诈团伙识别场景中，每个用户账号对应的标签为是否涉嫌欺诈。其中，已知的涉嫌欺诈的用户账号的标签为涉嫌欺诈，可以用“1”表示，其他不是已知的涉嫌欺诈的用户账号的标签为不涉嫌欺诈，可以用“0”表示。

例如，在商品推荐场景中，每个用户账号对应的标签为是否是感兴趣用户。其中，已知的感兴趣用户的用户账号的标签为是感兴趣用户，可以用“1”表示，除已知的感兴趣用户之外其他用户的用户账号的标签为不是感兴趣用户，可以用“0”表示。

将每个用户账号的特征作为输入特征，与对应的标签构成一个点样本，所有的点样本构成训练数据，训练数据包括的点样本的数量与用户账号的数量相等。

根据得到的训练数据，训练逻辑回归模型。训练好的逻辑回归模型用于确定任意两个节点之间的关联权重。

步骤S104、根据训练好的逻辑回归模型，确定两个用户账号之间的关联权重。

本实施例中，可以根据任意两个用户账号之间存在的关联关系的关系类型转换为0和1变量，得到两个用户账号之间的关系特征，将两个用户账号之间的关系特征输入训练好的逻辑回归模型，得到逻辑回归结果。

其中，逻辑回归模型输出的逻辑回归结果可以是基于输入的关系特征，逻辑回归结果为具有指定特征的概率、或者不具有指定特征的概率。

示例性地，如果逻辑回归结果为具有指定特征的概率，可以将逻辑回归结果直接作为两个用户账号之间的关联权重。如果逻辑回归结果为不具有指定特征的概率，则两个用户账号之间的关联权重为：1-逻辑回归结果。

可选地，在得到逻辑回归结果之后，还可以对逻辑回归结果进行预设运算处理之后的值，作为两个用户账号之间的关联权重。其中，预设运算处理可以根据实际应用场景需要进行设定，本实施例此处不做具体限定。

步骤S105、根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区。

在确定任意两个用户账号之间的关联权重之后，根据任意两个用户账号之间的关联权重，采用社区发现算法，发现指定用户账号所在的目标社区。

步骤S106、对目标社区内的用户账号进行相应处理。

本实施例中，在发现指定用户账号所在的目标社区之后，可以根据实际应用场景，对指定用户账号所在的目标社区中的用户账号采取相应的处理措施。应用于不同的场景时，根据指定用户账号所在的目标社区所做的处理可以不同。

本发明实施例通过根据关联关系图，生成每个用户账号的特征；使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型；根据训练好的逻辑回归模型，确定两个用户账号之间的关联权重，能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响，从而确定权重，通过将两个用户账号间存在的关系类型转换为0和1变量带入逻辑回归模型，根据逻辑回归结果确定两用户账号间存在的多种关系类型的累计权重，得到两用户账号间关联权重，进一步根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区，能够增强社区划分的结果与目标的相关性，能够准确地发现目标所在的社区，从而可以准确地进行诈骗团伙的识别和精准地信息推荐。

实施例二

图2为本发明实施例二提供的数据处理的方法流程图。在上述实施例一的基础上，本实施例中，对所述目标社区内的用户账号进行相应处理包括：向目标社区中的用户账号推送信息；或者，采用预设方式对目标社区中的用户账号进行处理。

如图2所示，该方法具体步骤如下：

步骤S201、采集各用户账号之间的关系数据。

本实施例中，可以通过采集各用户账号之间的关系数据，并基于关系数据创建得各用户账号的关联关系图。

其中，关系数据包括任意两个用户账号之间存在的关联关系及关系类型。

示例性地，可以通过采集用户账号的属性信息和历史行为数据，通过对用户账号的属性信息和历史行为数据进行分析，确定任意两个用户账号之间存在的关联关系及关系类型，得到关系数据。

其中，用户账号的属性信息可以包括用户注册时提供的地址、手机号等信息，或者用户的姓名、性别等自然属性，或者其他用户账号固有的属性信息，本实施例此处不做具体限定。

例如，通过对用户账号的历史行为数据的分析，若确定用户账号A和用户账号B使用过相同的IP，则A和B之间存在关系类型是IP相同的关联关系。通过对用户账号的属性信息的分析，若A和B在注册时预留了相同的地址，则A和B之间还存在关系类型是地址相同的关联关系。

步骤S202、根据各用户账号之间的关系数据，创建关联关系图。

其中，关联关系图包含各用户账号之间的关联关系及关系类型。

本实施例中，关联关系图由节点和边构成，其中每个节点代表一个用户账号，两个节点之间的边代表两个节点对应用户账号之间的关联关系。两个节点之间可以有多条边，不同的边代表不同关系类型的关联关系。

另外，采集用户账号之间的关系数据，并基于关系数据创建关联关系图的过程，可以采用现有技术中任意一种类似的方法实现，本实施例此处不做具体限定。

本实施例另一实施方式中，用户账号的关联关系图可以是预先创建好的，存储在本地存储空间或者指定远程服务器上。在需要进行社区发现时，之间获取已创建的用户账号的关联关系图即可。

步骤S203、根据关联关系图，生成每个用户账号的特征。

在获取到用户账号的关联关系图之后，为确定不同关系类型的权重，可以对关联关系图的图数据进行数据转换，生成每个用户账号的特征。

其中，用户账号的特征为N维向量，N维向量中每个维度的分量与一种关系类型对应，N为关联关系图中的关系类型的总数。

具体地，对于用户账号的特征中任一维度的分量，若用户账号与其他任一用户账号存在对应关系类型的关联关系，则该维度的分量为1；若用户账号与其他用户账号均不存在对应关系类型的关联关系，则该维度的分量为0。

示例性地，根据关联关系图中包含的所有关系类型，确定用户账号的特征的维度N。将所有关系类型按照固定顺序排列，与用户账号的特征中的各个分量建议一一对应的关系。用户账号的特征中的第i个分量对应第i种关系类型，用于表示该用户账号与其他用户账号是否具有第i种关系类型的关联关系，其中i＝1,2,3,…,N。

对于图中每个节点构造一个N维特征，对于该节点的N维特征中第i维度的分量，如果该节点与其他节点具有第i种关系类型的关联关系，则将该节点的N维特征中第i个分量的值设置为1；如果该节点与其他节点不具有第i种关系类型的关联关系，则将该节点的N维特征中第i个分量的值设置为。

在得到每个用户账号的特征之后，将每个用户账号的特征作为输入特征，与对应的标签构成一个点样本，所有的点样本构成训练数据，训练数据包括的点样本的数量与用户账号的数量相等，使用训练数据训练逻辑回归模型。

在一种可选的实施方式中，在得到训练数据之后，可以先对关系类型进行筛选，将关联强度较强的两种关联关系中的一种剔除掉；基于筛选后的关系类型，对训练数据进行修正后，进行逻辑回归模型的训练，以提高训练得到的逻辑回归模型的稳定性。具体可以通过以下步骤S204-S207实现。

步骤S204、根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度。

具体地，该步骤具体可以采用如下方式实现：

将所有用户账号的特征中任一维度的分量按照指定顺序排列，生成该维度对应的关系类型的特征，得到每个维度对应的关系类型的特征；确定任意两种关系类型的特征的线性相关系数，得到任意两种关系类型之间的关联强度。

示例性地，关联关系图中包含M个节点，N种关系类型，则每个节点的特征是一个N维特征向量，每种。将M个节点按照指定顺序排列，按照对于第j种关系类型(任意一种关系类型)，将M个节点的特征中第j个维度的分量按照指定顺序排列，构成第j种关系类型的M维特征。其中，j＝1，2，3，…，M。

本实施例中，两种关系类型的特征之间关联强度为两种关系类型的M维特征间的线性相关系数。

步骤S205、根据任意两种关系类型之间的关联强度，对关系类型进行筛选。

具体地，该步骤具体可以采用如下方式实现：

根据任意两种关系类型之间的关联强度，若存在两种关系类型之间的关联强度大于强度阈值，则分别计算这两种关系类型的特征与目标特征关联强度；将这两种关系类型中与目标特征关联强度小的关系类型剔除。这样，可以将相关性强的两种关系中与目标偏离远的关系剔除掉，可以提高训练得到的逻辑回归模型的稳定性。

其中，目标特征是由所有用户账号的标签按照指定顺序排列生成的，此处的指定顺序与步骤S204中的指定顺序为相同的顺序。

强度阈值可以根据实际应用场景进行设定，本实施例此处不做具体限定。

任意一种关系类型的特征与目标特征关联强度可以是关系类型的特征与目标特征的线性相关系数。

可选地，该步骤中根据任意两种关系类型之间的关联强度，若存在两种关系类型之间的关联强度大于强度阈值，还可以将这两种关系类型的特征中的任意一种关系类型剔除。

步骤S206、根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据。

该步骤具体可以采用如下方式实现：

根据筛选后的关系类型，剔除每个用户账号的特征中的无效维度的分量，得到每个用户账号修正后的特征，其中无效维度对应的关系类型不在筛选后的关系类型中；每个用户账号修正后的特征及对应的标签构成新的训练数据。

例如，关联关系图中包含N种关系类型，筛选后剔除掉了其中的第k种关系类型和第l种关系类型，那么在该步骤中，无效维度包括第k维和第l维，将每个用户账号的特征中的第k维和第l维的分量删除，得到每个用户账号修正后的特征是(N-2)维特征。每个用户账号修正后的(N-2)维特征及对应的标签构成新的训练数据。

步骤S207、使用新的训练数据进行模型训练，得到逻辑回归模型。

本实施例中，根据筛选后的关系类型对每个用户账号的特征及对应标签构成的训练数据进行修正处理后，使用得到新的训练数据，训练逻辑回归模型，能够提高训练得到的逻辑回归模型的稳定性。

训练好的逻辑回归模型用于确定任意两个节点之间的关联权重。

步骤S208、根据训练好的逻辑回归模型，确定两个用户账号之间的关联权重。

具体地，该步骤具体可以采用如下方式实现：

根据任意两个用户账号之间存在的关系类型生成两个用户账号间的关系特征；将两个用户账号间的关系特征输入训练好的逻辑回归模型，根据逻辑回归结果确定两个用户账号间的关联权重。

一种可选地实施方式中，两个用户账号间的关系特征为N维向量，N维向量中每个维度的分量与一种关系类型对应，N为关联关系图中的关系类型的总数。

进一步地，根据任意两个用户账号之间存在的关系类型生成两个用户账号间的关系特征，具体可以采用如下方式实现：

对于两个用户账号间的关系特征中任一维度的分量，若两个用户账号之间存在对应关系类型的关联关系，则该维度的分量为1；若两个用户账号之间不存在对应关系类型的关联关系，则该维度的分量为0。

示例性地，对于两个用户账号间的关系特征中第t维的分量，第t维的分量对应第t种关系类型，如果两个用户账号间存在第t种关系类型，则两个用户账号间的关系特征中第t维的分量维1，如果两个用户账号间不存在第t种关系类型，则两个用户账号间的关系特征中第t维的分量维0。

另一种可选地实施方式中，可以基于筛选后的关系类型，根据任意两个用户账号之间存在的关系类型生成两个用户账号间的关系特征。其中，两个用户账号间的关系特征的维度等于筛选后的关系类型的数量。用N′表示筛选后的关系类型的数量，则两个用户账号间的关系特征为N′维向量，N′维向量中每个维度的分量与一种关系类型对应。

具体地，对于两个用户账号间的关系特征中任一维度的分量，若两个用户账号之间存在对应关系类型(筛选后的关系类型)的关联关系，则该维度的分量为1；若两个用户账号之间不存在对应关系类型(筛选后的关系类型)的关联关系，则该维度的分量为0。

本实施例中，通过上述方式将任意两个用户账号之间存在的关联关系的关系类型转换为0和1构成的特征向量，得到两个用户账号之间的关系特征，将两个用户账号之间的关系特征输入训练好的逻辑回归模型，得到逻辑回归结果。

本实施例中，将关联关系图中任意两个节点间存在的关系类型带入逻辑回归模型，如果存在相应的关系记为1否则记为0，计算逻辑回归结果作为两节点间的累计权重，得到两节点间的关联权重。

通过有监督的广义线性模型确定不同的关系类型对目标的影响从而确定权重；通过将两个节点间存在的关系类型转换为0和1构成的向量带入广义线性模型，计算两节点间的累计权重，实现不同关系类型的关系权重的累加。

步骤S209、根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区。

该步骤中，采用的社区发现算法可以是任意一种传统的社区发现算法，本实施例此处不再赘述。

步骤S210、向目标社区中的用户账号推送信息；或者，采用预设方式对目标社区中的用户账号进行处理。

在发现指定用户账号所在的目标社区之后，可以根据实际应用场景，对指定用户账号所在的目标社区中的用户账号采取相应的处理措施。应用于不同的场景时，根据指定用户账号所在的目标社区所做的处理可以不同。

示例性地，在欺诈团伙识别场景中，在发现指定用户账号所在的目标社区之后，可以采用预设方式对目标社区中的用户账号进行处理。

其中，预设方式可以根据实际应用场景需要进行设定，本实施例此处不做具体限定。

例如，可以直接停用的指定用户账号所在的目标社区中的用户账号；或者，可以将指定用户账号所在的目标社区中的用户账号的信息推送给相关人员，以供相关人员排查是否为诈骗团伙，等等。

示例性地，在商品推荐场景中，在发现指定用户账号所在的目标社区之后，可以向目标社区中的用户账号推送信息。

例如，指定用户购买某一商品后，在发现指定用户账号所在的目标社区之后，可以将指定用户购买的商品和/或类似商品的优惠信息推送给指定用户账号所在的目标社区中的用户账号。

本发明实施例通过根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度；根据任意两种关系类型之间的关联强度，对关系类型进行筛选；根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据；使用新的训练数据进行模型训练，得到逻辑回归模型，能够提高训练好的逻辑回归模型的稳定性；根据训练好的逻辑回归模型，确定两个用户账号之间的关联权重，能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响，从而确定权重，通过将两个用户账号间存在的关系类型转换为0和1变量带入逻辑回归模型，根据逻辑回归结果确定两用户账号间存在的多种关系类型的累计权重，得到两用户账号间关联权重，进一步根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区，能够增强社区划分的结果与目标的相关性，能够准确地发现目标所在的社区，从而可以准确地进行诈骗团伙的识别和精准地信息推荐。

实施例三

图3为本发明实施例三提供的数据处理的装置的结构示意图。本发明实施例提供的数据处理的装置可以执行数据处理的方法实施例提供的处理流程。如图3所示，该数据处理的装置30包括：关联关系图获取模块301，数据转换模块302，模型训练模块303，权重确定模块304，社区发现模块305和处理实施模块306。

具体地，关联关系图获取模块301用于获取用户账号的关联关系图，关联关系图包含各用户账号之间的关联关系及关系类型。

数据转换模块302用于根据关联关系图，生成每个用户账号的特征。

模型训练模块303用于使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型。

权重确定模块304用于根据训练好的逻辑回归模型，确定两个用户账号之间的关联权重。

社区发现模块305用于根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区。

处理实施模块306用于对目标社区内的用户账号进行相应处理。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例，具体功能此处不再赘述。

实施例四

在上述实施例三的基础上，本实施例中，处理实施模块还用于：向目标社区中的用户账号推送信息；或者，采用预设方式对目标社区中的用户账号进行处理。

在一种可选地实施方式中，关联关系图获取模块还用于：

采集各用户账号之间的关系数据；根据各用户账号之间的关系数据，创建关联关系图。

在一种可选地实施方式中，数据转换模块还用于：

用户账号的特征为N维向量，N维向量中每个维度的分量与一种关系类型对应，N为关联关系图中的关系类型的总数；对于用户账号的特征中任一维度的分量，若用户账号与其他任一用户账号存在对应关系类型的关联关系，则该维度的分量为1；若用户账号与其他用户账号均不存在对应关系类型的关联关系，则该维度的分量为0。

在一种可选地实施方式中，模型训练模块还用于：

根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度；根据任意两种关系类型之间的关联强度，对关系类型进行筛选；根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据；使用新的训练数据进行模型训练，得到逻辑回归模型。

在一种可选地实施方式中，模型训练模块还用于：

根据任意两种关系类型之间的关联强度，若存在两种关系类型之间的关联强度大于强度阈值，则分别计算这两种关系类型的特征与目标特征关联强度；将这两种关系类型中与目标特征关联强度小的关系类型剔除；其中，目标特征是由所有用户账号的标签按照指定顺序排列生成的。

在一种可选地实施方式中，模型训练模块还用于：

在一种可选地实施方式中，权重确定模块还用于：

两个用户账号间的关系特征为N维向量，N维向量中每个维度的分量与一种关系类型对应，N为关联关系图中的关系类型的总数；对于两个用户账号间的关系特征中任一维度的分量，若两个用户账号之间存在对应关系类型的关联关系，则该维度的分量为1；若两个用户账号之间不存在对应关系类型的关联关系，则该维度的分量为0。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例，具体功能此处不再赘述。

实施例五

图4为本发明实施例五提供的数据处理的设备的结构示意图。如图4所示，该数据处理的设备100包括：处理器1001，存储器1002，以及存储在存储器1002上并可在处理器1001上运行的计算机程序。

其中，处理器1001运行计算机程序时实现上述任一方法实施例提供的数据处理的方法。

另外，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例提供的数据处理的方法。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种数据处理的方法，其特征在于，包括：

根据所述关联关系图，生成每个用户账号的特征；

对所述目标社区内的用户账号进行相应处理。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标社区内的用户账号进行相应处理，包括：

向所述目标社区中的用户账号推送信息；

或者，

采用预设方式对所述目标社区中的用户账号进行处理。

3.根据权利要求1所述的方法，其特征在于，所述获取用户账号的关联关系图，包括：

采集各用户账号之间的关系数据；

根据各用户账号之间的关系数据，创建所述关联关系图。

4.根据权利要求1所述的方法，其特征在于，所述根据所述关联关系图，生成每个用户账号的特征，包括：

所述用户账号的特征为N维向量，所述N维向量中每个维度的分量与一种关系类型对应，N为所述关联关系图中的关系类型的总数；

对于所述用户账号的特征中任一维度的分量，若所述用户账号与其他任一用户账号存在对应关系类型的关联关系，则该维度的分量为1；若所述用户账号与其他用户账号均不存在对应关系类型的关联关系，则该维度的分量为0。

5.根据权利要求1所述的方法，其特征在于，所述使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型，包括：

根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度；

根据所述任意两种关系类型之间的关联强度，对关系类型进行筛选；

根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据；

使用所述新的训练数据进行模型训练，得到所述逻辑回归模型。

6.根据权利要求5所述的方法，其特征在于，所述根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度，包括：

将所有用户账号的特征中任一维度的分量按照指定顺序排列，生成该维度对应的关系类型的特征，得到每个维度对应的关系类型的特征；

确定任意两种关系类型的特征的线性相关系数，得到任意两种关系类型之间的关联强度。

7.根据权利要求6所述的方法，其特征在于，所述根据所述任意两种关系类型之间的关联强度，对关系类型进行筛选，包括：

根据任意两种关系类型之间的关联强度，若存在两种关系类型之间的关联强度大于强度阈值，则分别计算这两种关系类型的特征与目标特征关联强度；

将这两种关系类型中与目标特征关联强度小的关系类型剔除；

其中，所述目标特征是由所有用户账号的标签按照所述指定顺序排列生成的。

8.根据权利要求7所述的方法，其特征在于，所述根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据，包括：

根据筛选后的关系类型，剔除所述每个用户账号的特征中的无效维度的分量，得到每个用户账号修正后的特征，其中所述无效维度对应的关系类型不在所述筛选后的关系类型中；

每个用户账号修正后的特征及对应的标签构成新的训练数据。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述根据训练好的所述逻辑回归模型，确定两个用户账号之间的关联权重，包括：

根据任意两个用户账号之间存在的关系类型生成所述两个用户账号间的关系特征；

将所述两个用户账号间的关系特征输入训练好的所述逻辑回归模型，根据逻辑回归结果确定所述两个用户账号间的关联权重。

10.根据权利要求9所述的方法，其特征在于，所述根据任意两个用户账号之间存在的关系类型生成所述两个用户账号间的关系特征，包括：

所述两个用户账号间的关系特征为N维向量，所述N维向量中每个维度的分量与一种关系类型对应，N为所述关联关系图中的关系类型的总数；

对于所述两个用户账号间的关系特征中任一维度的分量，若所述两个用户账号之间存在对应关系类型的关联关系，则该维度的分量为1；若所述两个用户账号之间不存在对应关系类型的关联关系，则该维度的分量为0。

11.一种数据处理的方法，其特征在于，应用于互联网平台，所述互联网平台包括多个用户注册的用户账号，所述用户账号中存在至少一个对应指定类型的标签的指定用户账号，所述方法包括：

对所述目标社区内的用户账号进行相应处理。

12.一种数据处理的装置，其特征在于，包括：

13.一种数据处理的设备，其特征在于，包括：

其中，所述处理器运行所述计算机程序时实现如权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法。