CN111241297A

CN111241297A - 一种基于标签传播算法的图谱数据处理方法及装置

Info

Publication number: CN111241297A
Application number: CN202010011525.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Guangzhou Lakala Information Technology Co ltd
Current assignee: Guangzhou Lakala Information Technology Co ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-06-05
Anticipated expiration: 2040-01-06
Also published as: CN111241297B

Abstract

本公开实施例公开了一种基于标签传播算法的图谱数据处理方法及装置，涉及知识图谱数据处理领域；其中，该方法包括：获取图谱中各个节点的表现值和所有预设类型的边；将每条预设类型的边的两个节点的表现值进行运算，并计算运算结果的平均值获得每条预设类型的边的初始权重值；对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值；根据所述最终权重值计算各个节点的传播概率，完成标签传播，更新所述图谱。

Description

一种基于标签传播算法的图谱数据处理方法及装置

技术领域

本公开涉及知识图谱数据处理领域，具体涉及一种基于标签传播算法的图谱数据处理方法及装置。

背景技术

在目前的基于知识图谱的发现欺诈团伙系统中，欺诈团伙的识别可以通过不同类型的算法实现，但其核心的本质均是通过社交关系来判断一个人是否是诈骗罪犯的概率。在各种方法中，基于标签传播算法的法案欺诈团伙技术是一个正在兴起的研究和产业化热点。在标签传播算法中，不同的节点(通常是人员)将与一组属性相关联，例如一个简单的属性为该节点诚信和欺诈的概率值。进一步，节点之间的不同连接类型将包含一个权重值，有表现值的节点的属性值在算法中通过权重值的计算向未知节点传播，进而实现标签在整个社交网络中的传播。然而，在当前的算法实现中，节点之间的权重的设置是一个重要的问题，这决定了从有表现值的节点向未知节点传播时的效果，更高的权重意味着表现值节点可以通过该边(连接)贡献更多的表现值，更低的权重意味着相反的效果。然而，在具体实践中，权重值的设置往往是比较随意，一般根据人的经验设置不同类型的边的权重。这种任意设置的权重值往往不能很好的反映社交关系中的信息，继而随着人主观的波动给整个发现欺诈团伙系统带来性能的不可靠，会产生一定的误判。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种基于标签传播算法的图谱数据处理方法及装置，以解决现有技术中人工任意设置权重值，不能很好的反映社交关系中的信息，继而随着人主观的波动给整个发现欺诈团伙系统带来性能的不可靠，会产生一定的误判的问题。

本公开实施例的第一方面提供了一种基于标签传播算法的图谱数据处理方法，包括：

获取图谱中各个节点的表现值和所有预设类型的边；

将每条预设类型的边的两个节点的表现值进行运算，并计算运算结果的平均值获得每条预设类型的边的初始权重值；

对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值；

根据所述最终权重值计算各个节点的传播概率，完成标签传播，更新所述图谱。

在一些实施例中，所述将每条预设类型的边的两个节点的表现值进行运算，具体包括：将每条预设类型的边的两个节点表现值进行同或运算，并将每条边的同或运算结果进行相加得到运算结果。

在一些实施例中，所述计算运算结果的平均值获得每条预设类型的边的初始权重值，具体包括：将所述运算结果与预设类型的边的总数量做除法运算获得每条预设类型的边的初始权重值。

在一些实施例中，所述对所述初始权重值做归一化处理，具体包括：根据所述图谱中边的类型的重要程度确定归一化系数，根据所述归一化系数对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值。

在一些实施例中，所述方法还包括：通过对所述各个节点的表现值进行训练，得到所述归一化系数。

在一些实施例中，所述完成标签传播包括：根据所述最终权重值构建关系矩阵，将现有的表现值通过所述关系矩阵向其他节点传播直至算法收敛。

本公开实施例的第二方面提供了一种基于标签传播算法的图谱数据处理装置，包括：

获取模块，用于获取图谱中各个节点的表现值和所有预设类型的边；

初始权重值计算模块，用于将每条预设类型的边的两个节点的表现值进行运算，并计算运算结果的平均值获得每条预设类型的边的初始权重值；

最终权重值计算模块，用于对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值；

标签传播模块，用于根据所述最终权重值计算各个节点的传播概率，完成标签传播，更新所述图谱。

在一些实施例中，所述初始权重值计算模块具体用于将每条预设类型的边的两个节点表现值进行同或运算，并将每条边的同或运算结果进行相加得到运算结果。

在一些实施例中，所述初始权重值计算模块具体用于将所述运算结果与预设类型的边的总数量做除法运算获得每条预设类型的边的初始权重值。

在一些实施例中，所述最终权重值计算模块具体用于：根据所述图谱中边的类型的重要程度确定归一化系数，根据所述归一化系数对所述初始权重值做归一化处理。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例中，通过获取每条预设类型的边的两个节点的表现值进行运算，计算运算结果的平均值获得每条预设类型的边的初始权重值后，对初始权重值做归一化处理，获得每条预设类型的边的最终权重值；通过科学的计算即可得到较优的权重值，无需人工随意设置，避免人的主观因素带来的干扰，为更准确的发现欺诈团伙节省了时间和精力。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1是根据本公开的一些实施例所示的一种基于标签传播算法的图谱数据处理方法的流程图；

图2是根据本公开的一些实施例所示的一种基于标签传播算法的图谱数据处理装置的结构框图；

图3是根据本公开的一些实施例所示的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

随着大数据和人工智能技术的发展，尤其是认知智能技术在近年来的突破，基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地，利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持，比如个性化推荐、关联信息搜索、地图数据处理、社交网络服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。

其中，在基于知识图谱的人工智能模型中，利用知识图谱构建的关系图，应用标签传播算法(Label Propagation Algorithm，LPA)能够将种子数据(白名单、黑名单)进行标签传播，进而得到整个网络的概率/置信度情况。对于用户身份/可靠性识别这一应用来说，用户组织/社团的识别有特殊的现实意义，除常规的用户社交、组织关系识别外，作为反欺诈识别中的一项具体任务，欺诈团伙识别是一项必要但难度较大的工作。在一种常见的方法中，首先使用标签传播算法将有表现值的节点通过关系矩阵传播到其他节点之中；随后可以使用社团发现算法(Community Detection Algorithm)，例如使用经典的Girvan-Newman算法，来识别潜在的社团并对每个社团进行可靠性识别，从而确认某一社团是否为欺诈团伙，帮助系统或其他用户提升互联网应用的安全性。

作为反欺诈识别中的一项具体任务，欺诈团伙识别是对一个图谱中可能存在的人群/社团进行识别，并判断该人群/社团是否为欺诈团伙的过程。现有技术中主要使用标签传播算法识别欺诈团伙，但是在标签传播算法中，不同的节点(通常是人员)将与一组属性相关联，例如一个简单的属性为该节点诚信和欺诈的概率值。进一步，节点之间的不同连接类型将包含一个权重值，有表现值的节点的属性值在算法中通过权重值的计算向未知节点传播，进而实现标签在整个社交网络中的传播。然而，在当前的算法实现中，节点之间的权重的设置是一个重要的问题，这决定了从有表现值的节点向未知节点传播时的效果，更高的权重意味着表现值节点可以通过该边(连接)贡献更多的表现值，更低的权重意味着相反的效果。然而，在具体实践中，权重值的设置往往是比较随意，一般根据业务人员人的经验设置不同类型的边的权重。例如，两个节点为推荐人关系时的权重值就是业务人员根据推荐人的重要性设置的。这种任意设置的权重值往往不能很好的反映社交关系中的信息，而随着人主观的波动给发现欺诈团伙带来性能的不可靠。为解决此问题，本公开实施例提供了一种基于标签传播算法的图谱数据处理方法，如图1所示，具体包括：

S101、获取图谱中各个节点的表现值和所有预设类型的边；

S102、将每条预设类型的边的两个节点的表现值进行运算，并计算运算结果的平均值获得每条预设类型的边的初始权重值；

S103、对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值；

S104、根据所述最终权重值计算各个节点的传播概率，完成标签传播，更新所述图谱。

在一些实施例中，各个节点的标签类型分为第一标签或第二标签；优选地，第一标签为可信节点，第二标签为欺诈节点；

在一些实施例中，优选地，使用二进制表示各节点的表现值，例如， j(j≥1)节点标签为可信节点的表现值可以为a_j＝1或a_j＝0；类似的，j 节点标签为欺诈节点的表现值可以为b_j＝1或b_j＝0。

在一些实施例中，获取所述图谱中所有预设类型的边x_ij(i≥1，j≥0)，其中，i为图谱中第i个边，j为该边的标签类型；以a_m表示边x_ij所连接的第一节点的表现值，a_n表示边x_ij所连接的第一节点的表现值；

一般地，边的类型可以是电话号码、任职公司、住址等关系类型。

在一些实施例中，将每条预设类型的边的两个节点表现值进行同或运算，并将每条边的同或运算结果进行相加得到运算结果，具体公式为sum (a_m⊙a_n)；

在一些实施例中，将每条边的同或运算结果进行相加得到的运算结果与预设类型的边的总数量做除法运算获得每条预设类型的边的初始权重值w₁；假设在图谱中符合条件的预设类型的边的总数量为N(N为大于0 的自然数)，具体公式为w₁＝sum(a_m⊙a_n)/N。

在一些实施例中，根据所述图谱中边的类型的重要程度确定归一化系数p，根据所述归一化系数p对所述初始权重值w₁做归一化处理，获得每条预设类型的边的最终权重值w₂。

具体地，归一化系数p可以为所有边的归一化系数，用于在所有边的初始权重值中进行幅度调整；具体地，w₂＝p*sum(a_m⊙a_n)/N(N为大于0 的自然数)。

在一些实施例中，归一化系数p是一个标量，可以通过训练的方法得到。具体为将具有表现值的一部分节点数据作为初始训练数据，训练归一化系数p以得到传播后的表现值与真实表现值的差最小。

在一些实施例中，归一化系数p可以直接置为1。

进一步地，在标签传播算法中，使用w₂作为该类型边的权重，计算各个节点的传播概率，直至完成标签传播。其中，所述完成标签传播包括：根据所述最终权重值构建关系矩阵，将现有的表现值通过所述关系矩阵向其他节点传播直至算法收敛(必要时可多次执行标签传播算法，直至全部节点均具有表现值或前后两次传播结果的差异足够小时认为算法收敛)。

在一些实施例中，方法还包括更新图谱；具体为更新图谱中各个节点的表现值。

本公开实施例还提供了一种基于标签传播算法的图谱数据处理装置 200，如图2所示，具体包括：

获取模块201，用于获取图谱中各个节点的表现值和所有预设类型的边；

初始权重值计算模块202，用于将每条预设类型的边的两个节点的表现值进行运算，并计算运算结果的平均值获得每条预设类型的边的初始权重值；

最终权重值计算模块203，用于对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值；

标签传播模块204，用于根据所述最终权重值计算各个节点的传播概率，完成标签传播，更新所述图谱。

在一些实施例中，所述初始权重值计算模块202具体用于将每条预设类型的边的两个节点表现值进行同或运算，并将每条边的同或运算结果进行相加得到运算结果。

在一些实施例中，所述初始权重值计算模块202具体用于将所述运算结果与预设类型的边的总数量做除法运算获得每条预设类型的边的初始权重值。

在一些实施例中，所述最终权重值计算模块203具体用于：根据所述图谱中边的类型的重要程度确定归一化系数，根据所述归一化系数对所述初始权重值做归一化处理。

由上述公开的实施例可知，本实施例公开的一种基于标签传播算法的图谱数据处理方法的核心思想是一个较好的标签传播权重能够将一个犯罪分子准确恰当的传播到一个真实身份也为犯罪分子的相邻节点，同时又不会传播到真实身份为非犯罪分子的节点处；而且，本公开的实施例还可以通过根据历史数据中相邻节点的表现值，反向模拟了标签传播的效果，并通过科学的计算而不是人工随意设置的方式得到了一个较优的权重值，大大节省了人力，也避免了人的主观因素带来的干扰，为更准确的发现欺诈团伙节省了时间和精力。

参考附图3，为本申请一个实施例提供的电子设备示意图。如图3所示，该电子设备300包括：

存储器330以及一个或多个处理器310；

其中，所述存储器330与所述一个或多个处理器310通信连接，所述存储器330中存储有可被所述一个或多个处理器执行的指令332，所述指令332被所述一个或多个处理器310执行，以使所述一个或多个处理器310 执行本申请前述实施例中的方法。

具体地，处理器310和存储器330可以通过总线或者其他方式连接，图3中以通过总线340连接为例。处理器310可以为中央处理器(Central Processing Unit，CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器330作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的级联渐进网络等。处理器310通过运行存储在存储器330中的非暂态软件程序、指令以及模块332，从而执行处理器的各种功能应用以及数据处理。

存储器330可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器310所创建的数据等。此外，存储器330可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器330可选包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络(比如通过通信接口320)连接至处理器310。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的一个实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被执行后执行本申请前述实施例中的方法。

前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括，但不限于，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、可擦除可编程只读存储器 (EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的，但本领域技术人员可以认识到，还可结合其他类型的程序模块来执行其他实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解，此处所述的本主题可以使用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等，也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到，结合本文中所本申请的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

综上所述，本公开提出了一种基于标签传播算法的图谱数据处理方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过获取每条预设类型的边的两个节点的表现值进行运算，计算运算结果的平均值获得每条预设类型的边的初始权重值后，对初始权重值做归一化处理，获得每条预设类型的边的最终权重值；通过科学的计算即可得到较优的权重值，无需人工随意设置，避免人的主观因素带来的干扰，为更准确的发现欺诈团伙节省了时间和精力。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于标签传播算法的图谱数据处理方法，其特征在于，包括：

获取图谱中各个节点的表现值和所有预设类型的边；

2.根据权利要求1所述的方法，其特征在于，所述将每条预设类型的边的两个节点的表现值进行运算，具体包括：

将每条预设类型的边的两个节点表现值进行同或运算，并将每条边的同或运算结果进行相加得到运算结果。

3.根据权利要求2所述的方法，其特征在于，所述计算运算结果的平均值获得每条预设类型的边的初始权重值，具体包括：将所述运算结果与预设类型的边的总数量做除法运算获得每条预设类型的边的初始权重值。

4.根据权利要求1所述的方法，其特征在于，所述对所述初始权重值做归一化处理，具体包括：根据所述图谱中边的类型的重要程度确定归一化系数，根据所述归一化系数对所述初始权重值做归一化处理，获得每条预设类型的边的最终权重值。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：通过对所述各个节点的表现值进行训练，得到所述归一化系数。

6.根据权利要求1所述的方法，其特征在于，所述完成标签传播包括：根据所述最终权重值构建关系矩阵，将现有的表现值通过所述关系矩阵向其他节点传播直至算法收敛。

7.一种基于标签传播算法的图谱数据处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述初始权重值计算模块具体用于将每条预设类型的边的两个节点表现值进行同或运算，并将每条边的同或运算结果进行相加得到运算结果。

9.根据权利要求8所述的装置，其特征在于，所述初始权重值计算模块具体用于将所述运算结果与预设类型的边的总数量做除法运算获得每条预设类型的边的初始权重值。

10.根据权利要求7所述的装置，其特征在于，所述最终权重值计算模块具体用于：根据所述图谱中边的类型的重要程度确定归一化系数，根据所述归一化系数对所述初始权重值做归一化处理。