CN111694969A

CN111694969A - 一种用户身份识别方法及装置

Info

Publication number: CN111694969A
Application number: CN202010560034.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Lakala Payment Co ltd
Current assignee: Lakala Payment Co ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-22
Anticipated expiration: 2040-06-18
Also published as: CN111694969B

Abstract

本公开实施例公开了一种用户身份识别方法及装置，涉及知识图谱数据处理领域；其中，该方法包括：对知识图谱数据中的节点进行图嵌入式处理，获得节点的低维表征向量；通过预训练过的抽取模型从所述知识图谱数据中抽取节点数据，形成节点矩阵；将所述低维表征向量与所述节点矩阵进行计算结合，生成节点序列数据；将所述节点序列数据输入至预训练过的判决模型，输出用户身份识别结果。

Description

一种用户身份识别方法及装置

技术领域

本公开涉及知识图谱数据处理领域，具体涉及一种用户身份识别方法及装置。

背景技术

金融大数据领域是人工智能技术应用的一个较为成熟的领域，在金融信贷领域，利用知识图谱的方式识别身份进而进行反欺诈识别已经正在实际业务中得到广泛应用。

现有技术中，如图1所示，展示了一种比较典型的基于知识图谱的反欺诈系统，结合图数据库，对输入的进项进行关系数据查询，并进行变量计算，将计算结果输入至欺诈模型中；将欺诈模型输出的欺诈结果输入至反欺和风控系统进行后续的数据统计和分析。由图1可以明确得出，知识图谱主要用于建立关系型数据，而拥有身份识别功能的反欺诈模型需要的输入是通过变量计算得到的数值序列，即在变量计算的过程中，虽然变量的设计可以反映图数据中的部分关系特征/拓扑特征，但这些最关键的关系特征在变量计算后已经消失了，即现有技术中的欺诈模型不能很好的利用知识图谱中的关系的特征进行分析和预判，无法得出正确的关于用户身份/欺诈团伙的识别结果。目前，图嵌入(Graph Embedding，也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程，能够很好地解决图数据难以高效输入机器学习算法的问题，正成为一个新兴的技术方向。与词嵌入技术类似，图嵌入技术可以将计算机较难处理的图数据(节点和关系)转化成低维稠密向量，从而使得计算机可以将各种算法应用到图数据的挖掘中，进而可以将图嵌入技术应用在金融反欺诈领域中；但是目前仅仅是图嵌入后节点的低维特征，但由于随机游走仍然是在整个图谱数据中进行节点序列选取，因此其仍然没有很好的利用进项在时空范围内短期的拓扑变化，对用户身份的识别仍然无法做到准确的预判，准确性与可靠性低，体验较差。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种用户身份识别方法及装置，以解决现有技术中用户身份的识别仍然无法做到准确的预判，准确性与可靠性低，体验较差等问题。

本公开实施例的第一方面提供了一种用户身份识别方法，包括：

对知识图谱数据中的节点进行图嵌入式处理，获得节点的低维表征向量；

通过预训练过的抽取模型从所述知识图谱数据中抽取节点数据，形成节点矩阵；

将所述低维表征向量与所述节点矩阵进行计算结合，生成节点序列数据；

将所述节点序列数据输入至预训练过的判决模型，输出用户身份识别结果。

在一些实施例中，所述抽取模型以知识图谱数据中的至少一个节点为线索，按照预设规则抽取至少一个节点，形成节点矩阵。

在一些实施例中，所述抽取模型按照时间、拓扑结构、节点类型和/或各节点连接度中的一个或多个维度设置抽取方法。

在一些实施例中，所述判决模型输出的用户身份识别结果包括至少一个节点对应的用户身份识别结果。

在一些实施例中，所述方法还包括：所述判决模型输出一个或多个节点标识；根据所述节点标识获取所述用户身份识别结果。

在一些实施例中，所述节点矩阵为一维矩阵、二维矩阵或者多维矩阵。

在一些实施例中，所述节点序列数据由二维数据或者高维数据组成。本公开实施例的第二方面提供了一种用户身份识别装置，包括：

处理模块，用于对知识图谱数据中的节点进行图嵌入式处理，获得节点的低维表征向量；

节点矩阵生成模块，用于通过预训练过的抽取模型从所述知识图谱数据中抽取节点数据，形成节点矩阵

节点序列数据生成模块，用于将所述低维表征向量与所述节点矩阵进行计算结合，生成节点序列数据；

输出模块，用于将所述节点序列数据输入至预训练过的判决模型，输出用户身份识别结果。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例中，通过图嵌入式处理方式获得低维表征向量，通过抽取模型抽取节点数据形成节点矩阵，并将低维表征向量与节点矩阵进行计算结合得到节点序列数据，并将节点序列数据输入至判决模型得到用户身份识别结果；可以更好的利用知识图谱数据中拓扑结构在时间和空间上的变动带来的信息，从而对现实生活中用户身份进行更加准确的识别，大幅度提升了身份识别的准确性和可靠性。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1是根据本公开的一些实施例所示的一个基于知识图谱的金融反欺诈系统的示例图；

图2是根据本公开的一些实施例所示的一种用户身份识别方法的流程示意图；

图3是根据本公开的一些实施例所示的一种用户身份识别的示意图；

图4是根据本公开的一些实施例所示的一种欺诈团伙识别方法的示意图；

图5是根据本公开的一些实施例所示的一种用户身份识别装置的结构框图；

图6是根据本公开的一些实施例所示的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

随着大数据和人工智能技术的发展，金融大数据领域是人工智能技术应用的一个较为成熟的领域，在金融信贷领域，利用知识图谱的方式识别身份进而进行反欺诈识别已经正在实际业务中得到广泛应用。

现有技术中，如图1所示，展示了一种比较典型的基于知识图谱的反欺诈系统，结合图数据库，对输入的进项进行关系数据查询，并进行变量计算，将计算结果输入至欺诈模型中；将欺诈模型输出的欺诈结果输入至反欺和风控系统进行后续的数据统计和分析。由图1可以明确得出，知识图谱主要用于建立关系型数据，而拥有身份识别功能的反欺诈模型需要的输入是通过变量计算得到的数值序列，即在变量计算的过程中，虽然变量的设计可以反映图数据中的部分关系特征/拓扑特征，但这些最关键的关系特征在变量计算后已经消失了，即现有技术中的欺诈模型不能很好的利用知识图谱中的关系的特征进行分析和预判，无法得出正确的关于用户身份/欺诈团伙的识别结果。

目前，图嵌入(Graph Embedding，也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程，能够很好地解决图数据难以高效输入机器学习算法的问题，正成为一个新兴的技术方向。与词嵌入技术类似，图嵌入技术可以将计算机较难处理的图数据(节点和关系)转化成低维稠密向量，从而使得计算机可以将各种算法应用到图数据的挖掘中，进而可以将图嵌入技术应用在金融反欺诈领域中；但是目前仅仅是图嵌入后节点的低维特征，但由于随机游走仍然是在整个图谱数据中进行节点序列选取，因此其仍然没有很好的利用进项在时空范围内短期的拓扑变化，对用户身份的识别仍然无法做到准确的预判，准确性与可靠性低，体验较差。

为解决上述问题，本公开实施例提供了一种用户身份识别方法，如图2所示，具体包括：

S101、对知识图谱数据中的节点进行图嵌入式处理，获得节点的低维表征向量；

S102、通过预训练过的抽取模型从所述知识图谱数据中抽取节点数据，形成节点矩阵；

S103、将所述低维表征向量与所述节点矩阵进行计算结合，生成节点序列数据；

S104、将所述节点序列数据输入至预训练过的判决模型，输出用户身份识别结果。

在一些实施例中，图嵌入式处理方法在本公开实施例中不做限定，例如可以使用Deepwalk和Skip-Gram方法，对浅层神经网络进行训练，并将低维隐藏节点作为知识图谱中节点的低维表征向量；此外，还可以通过使用深度学习的方法获得节点的低维表征向量。通过采用图嵌入的方法使得只是土坯数据中的各节点的拓扑关系被表征到低维向量空间中，该拓扑关系反映的是海量知识图谱的关系特征。

在一些实施例中，所述抽取模型从图数据库中的知识图谱数据中以至少一个节点为线索，按照预设规则抽取至少一个节点，形成节点矩阵；至少一个节点可以是当前进项对应的节点，也可以是当前进项对应的用户的节点。

具体地，抽取模型可以结合实际的业务逻辑按照时间、拓扑结构或类型进行设置。

例如，抽取模型可以以活跃(建立通话频繁度或联系人连接程度)一度联系人按时间排序的节点矩阵，具体地，是按照激活时间来排序的。此时，抽取模型反映的是出现申请进项前与进项相关的通话的社交关系。相应地，经过S103后生成的节点序列数据为一个二维数据，因为每个数据是一个N维的向量，用于指示当前申请进项对应的申请人的身份识别结果，进而进行进一步的欺诈评估。

在一个实施例中，所述抽取模型按照时间、拓扑结构、节点类型和/或各节点连接度中的一个或多个维度设置抽取方法；也就是说针对同一个知识图谱，处理生成了多个节点矩阵(子图)，并将节点矩阵中的节点进行序列化，生成节点序列数据；由于一个节点矩阵序列化后为二维数据结构，相应地，经过多个序列处理可以是三维数据结构。

在一些实施例中，由于判决模型的输入是一个节点序列数据，因此其输出可以是一个识别判断结果；包括用户身份识别结果识别。

在一些实施例中，判决模型的输出还可以是全部活部分节点是否为一个欺诈团伙。

在一些实施例中，所述判决模型输出一个或多个节点标识；根据所述节点标识获取所述用户身份识别结果。

在一些实施例中，所述节点序列数据由二维数据或者高维数据组成。

在本发明公开实施例中，如图3所示，给出了一种用户身份识别的示意图；判决模型可以基于训练数据的标引，从而得到不同的识别能力，由此可知，传统的变量计算将社交关系等部分关系丢掉了，因此只能单独计算一个节点或进项对应的用户身份识别或欺诈评估。本公开实施例中，利用图嵌入技术获得的低维表征向量，并通过预训练过的抽取模型获取的节点矩阵，通过前述两个技术特征的计算结合生成节点序列数据，使得模型可以输出多种判别结果。

本公开实施例公开的用户身份识别方法也可以说是能够利用知识图谱中拓扑结构在时间和空间上变动的反欺诈方法；这种方法能够利用图嵌入式技术的低维表征能力，使得反欺诈模型(判决模型)可以更好的利用发生在真实世界中的关系变动，从而使得对真实世界中发生的欺诈行为进行预判和判断。

在本公开的一些实施例中，如图4所示，还给出了一种欺诈团伙识别方法的示意图；其中抽取模型抽取的每一行为多个节点，在本行内部节点的类型可能为异构也可能为同构，这取决于抽取模型的设计规则；判决模型的输入为任意维度的数据结构，判决模型也可以使用深度学习模型来提升处理能力，例如判决模型使用RNN(循环神经网络)时，输出可以为多个节点的标识，例如三个节点的标识，用于指示该节点为欺诈团伙。

在一些实施例中，还可以利用图嵌入的关系预测方法来解决稀疏图谱的问题。例如，在一个知识图谱中，由于连接缺失的问题，导致一些节点处在孤立子图中；由于变量引擎所需的变量依赖于连接度较好的图谱结构，此时图4中的判决模型将无法计算所需的变量。此时，首先使用孤立子图中的节点建立节点序列数据，并输入至判决模型中，所述判决模型预测出序列末端节点最有可能连接的节点，最可能连接的节点将出现在知识图谱中其他的子图中。进一步，将可能连接的节点设置成虚拟连接，即将孤立子图连接到该预测的节点中；此时稀疏子图消失，则传统的变量引擎方法或本发明中的方法均可以直接应用。

本公开实施例，通过图嵌入式处理方式获得低维表征向量，通过抽取模型抽取节点数据形成节点矩阵，并将低维表征向量与节点矩阵进行计算结合得到节点序列数据，并将节点序列数据输入至判决模型得到用户身份识别结果；可以更好的利用知识图谱数据中拓扑结构在时间和空间上的变动带来的信息，从而对现实生活中用户身份进行更加准确的识别，大幅度提升了身份识别的准确性和可靠性。

公开实施例还提供了一种用户身份识别装置500，如图5所示，具体包括：

处理模块501，用于对知识图谱数据中的节点进行图嵌入式处理，获得节点的低维表征向量；

节点矩阵生成模块502，用于通过预训练过的抽取模型从所述知识图谱数据中抽取节点数据，形成节点矩阵

节点序列数据生成模块503，用于将所述低维表征向量与所述节点矩阵进行计算结合，生成节点序列数据；

输出模块504，用于将所述节点序列数据输入至预训练过的判决模型，输出用户身份识别结果。

参考附图6，为本申请一个实施例提供的电子设备示意图。其中，该电子设备600包括：

存储器630以及一个或多个处理器610；

其中，所述存储器630与所述一个或多个处理器610通信连接，所述存储器630中存储有可被所述一个或多个处理器执行的指令632，所述指令632被所述一个或多个处理器610执行，以使所述一个或多个处理器610执行本申请前述实施例中的方法。

具体地，处理器610和存储器630可以通过总线或者其他方式连接，图6中以通过总线640连接为例。处理器610可以为中央处理器(Central Processing Unit，CPU)。处理器610还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器630作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的级联渐进网络等。处理器610通过运行存储在存储器630中的非暂态软件程序、指令以及模块632，从而执行处理器的各种功能应用以及数据处理。

存储器630可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器610所创建的数据等。此外，存储器630可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器630可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络(比如通过通信接口620)连接至处理器610。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的一个实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被执行后执行本申请前述实施例中的方法。

前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括，但不限于，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的，但本领域技术人员可以认识到，还可结合其他类型的程序模块来执行其他实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解，此处所述的本主题可以使用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等，也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到，结合本文中所本申请的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

综上所述，本公开提出了一种用户身份识别方法、装置、电子设备及其计算机可读存储介质。通过图嵌入式处理方式获得低维表征向量，通过抽取模型抽取节点数据形成节点矩阵，并将低维表征向量与节点矩阵进行计算结合得到节点序列数据，并将节点序列数据输入至判决模型得到用户身份识别结果；可以更好的利用知识图谱数据中拓扑结构在时间和空间上的变动带来的信息，从而对现实生活中用户身份进行更加准确的识别，大幅度提升了身份识别的准确性和可靠性。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种用户身份识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述抽取模型以知识图谱数据中的至少一个节点为线索，按照预设规则抽取至少一个节点，形成节点矩阵。

3.根据权利要求1或2所述的方法，其特征在于，所述抽取模型按照时间、拓扑结构、节点类型和/或各节点连接度中的一个或多个维度设置抽取方法。

4.根据权利要求1所述的方法，其特征在于，所述判决模型输出的用户身份识别结果包括至少一个节点对应的用户身份识别结果。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述判决模型输出一个或多个节点标识；根据所述节点标识获取所述用户身份识别结果。

6.根据权利要求1所述的方法，其特征在于，所述节点矩阵为一维矩阵、二维矩阵或者多维矩阵。

7.根据权利要求1所述的方法，其特征在于，所述节点序列数据由二维数据或者高维数据组成。

8.一种用户身份识别装置，其特征在于，包括：

节点矩阵生成模块，用于通过预训练过的抽取模型从所述知识图谱数据中抽取节点数据，形成节点矩阵；

9.根据权利要求8所述的装置，其特征在于，所述抽取模型以知识图谱数据中的至少一个节点为线索，按照预设规则抽取至少一个节点，形成节点矩阵。

10.根据权利要求8所述的装置，其特征在于，所述判决模型输出的用户身份识别结果包括至少一个节点对应的用户身份识别结果。