CN112035548A

CN112035548A - 识别模型的获取方法、识别方法、装置、设备及介质

Info

Publication number: CN112035548A
Application number: CN202010899893.3A
Authority: CN
Inventors: 段明琪; 熊俊霖; 卓呈祥
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-04

Abstract

本申请提供了一种识别模型的获取方法、识别方法、装置、设备及介质，涉及数据处理技术领域。其中，用户信息识别模型的获取方法包括：采集获取用户信息正样本和用户信息负样本，其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据；根据预设预算、用户信息正样本和用户信息负样本，训练获取用户信息识别模型，用户信息识别模型用于识别不同账号对应相同用户的可能性。本申请训练获取的用户信息识别模型具有较高的识别效率和识别准确性。

Description

识别模型的获取方法、识别方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种识别模型的获取方法、识别方法、装置、设备及介质。

背景技术

相同用户的挖掘旨在发掘平台的真实用户量，找出账户间的同人关系，把不同的账号关联到同一用户，对于平台的沉默、拉新、安全和补贴等等方面有潜在巨大的应用场景。

现有技术中，通常是基于用户的支付ID、身份标识、手机号码等，认为不同账户使用同一个支付ID进行支付操作，或者使用同一个身份标识认证过或不同账号的手机号码是一样的，则认为该不同账号对应同一用户。

但是，现有方法太过局限，并不能覆盖所有的情况，导致账号与用户关联关系的识别效果较差，准确率较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种识别模型的获取方法、识别方法、装置、设备及介质，以通过构建用户信息的正负样本，训练获取用户信息识别模型，并基于训练得到的识别模型，实现不同账号对应相同用户的可能性的识别，以解决现有方法识别准确性较差的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种用户信息识别模型的获取方法，包括：

采集获取用户信息正样本和用户信息负样本，其中，所述用户信息正样本包括：同一用户不同账号对应的行为数据；所述用户信息负样本包括：样本用户的行为数据、以及与所述样本用户满足预设条件的预设个数参考用户的行为数据；

根据预设预算、所述用户信息正样本和所述用户信息负样本，训练获取用户信息识别模型，所述用户信息识别模型用于识别不同账号对应相同用户的可能性。

可选地，所述采集获取用户信息正样本和用户信息负样本，包括：

采集获取预设时间段的所述用户信息正样本和所述用户信息负样本。

可选地，所述采集获取预设时间段的所述用户信息正样本和所述用户信息负样本，包括：

采集多个已知用户各自对应的多个账号在所述预设时间段的行为数据，作为所述用户信息正样本；

采集所述样本用户的行为数据、以及多个其他用户的行为数据；

根据所述样本用户的行为数据、以及多个其他用户的行为数据，获取所述其他用户的行为数据中与所述样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据；

将所述样本用户的行为数据、所述与所述样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，作为所述用户信息负样本。

可选地，所述根据所述样本用户的行为数据、以及多个其他用户的行为数据，获取所述其他用户的行为数据中与所述样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，包括：

分别获取所述样本用户的行为数据对应的特征参数、所述其他用户的行为数据对应的特征参数；

根据所述样本用户的行为数据对应的特征参数、所述其他用户的行为数据对应的特征参数，分别计算所述样本用户的行为数据与各其他用户的行为数据的相似度；

按照所述相似度对所述其他用户的行为数据进行排序，获取所述预设个数的相似度最高的所述参考用户的行为数据。

可选地，所述采集多个已知用户各自对应的多个账号在所述预设时间段的行为数据，作为所述用户信息正样本，包括：

采集多个已知用户各自对应的多个账号在所述预设时间段的行为数据；

建立各所述已知用户与各自对应的多个账号在所述预设时间段的行为数据之间的关联关系，获取所述用户信息正样本。

可选地，所述行为数据包括：网约车行为数据；所述网约车行为数据包括下述一项或多项：起始地址信息、目的地址信息、服务时间信息、身份信息、支付账户信息、设备信息。

第二方面，本申请实施例提供了一种用户信息识别方法，包括：

采集获取多个用户账号对应的行为数据；

将所述行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性，其中，所述用户信息识别模型采用用户信息正样本和用户信息负样本训练获取，其中，所述用户信息正样本包括：同一用户不同账号对应的行为数据；所述用户信息负样本包括：样本用户的行为数据、以及与所述样本用户满足预设条件的预设个数参考用户的行为数据。

可选地，所述将所述行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性之前，还包括：

按照所述行为数据的执行时间，对所述行为数据进行排序。

可选地，所述样本用户的行为数据与预设个数参考用户的行为数据之间满足相似度条件。

第三方面，本申请实施例提供了一种用户信息识别模型的获取装置，包括：采集模块、训练模块；

所述采集模块，用于采集获取用户信息正样本和用户信息负样本，其中，所述用户信息正样本包括：同一用户不同账号对应的行为数据；所述用户信息负样本包括：样本用户的行为数据、以及与所述样本用户满足预设条件的预设个数参考用户的行为数据；

所述训练模块，用于根据预设预算、所述用户信息正样本和所述用户信息负样本，训练获取用户信息识别模型，所述用户信息识别模型用于识别不同账号对应相同用户的可能性。

可选地，具体用于采集获取预设时间段的所述用户信息正样本和所述用户信息负样本。

可选地，所述采集模块，具体用于采集多个已知用户各自对应的多个账号在所述预设时间段的行为数据，作为所述用户信息正样本；采集所述样本用户的行为数据、以及多个其他用户的行为数据；根据所述样本用户的行为数据、以及多个其他用户的行为数据，获取所述其他用户的行为数据中与所述样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据；将所述样本用户的行为数据、所述与所述样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，作为所述用户信息负样本。

可选地，所述采集模块，具体用于分别获取所述样本用户的行为数据对应的特征参数、所述其他用户的行为数据对应的特征参数；根据所述样本用户的行为数据对应的特征参数、所述其他用户的行为数据对应的特征参数，分别计算所述样本用户的行为数据与各其他用户的行为数据的相似度；按照所述相似度对所述其他用户的行为数据进行排序，获取所述预设个数的相似度最高的所述参考用户的行为数据。

可选地，所述采集模块，具体用于采集多个已知用户各自对应的多个账号在所述预设时间段的行为数据；建立各所述已知用户与各自对应的多个账号在所述预设时间段的行为数据之间的关联关系，获取所述用户信息正样本。

第四方面，本申请实施例提供了一种用户信息识别装置，包括：采集模块、计算模块；

所述采集模块，用于采集获取多个用户账号对应的行为数据；

所述计算模块，用于将所述行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性，其中，所述用户信息识别模型采用用户信息正样本和用户信息负样本训练获取，其中，所述用户信息正样本包括：同一用户不同账号对应的行为数据；所述用户信息负样本包括：样本用户的行为数据、以及与所述样本用户满足预设条件的预设个数参考用户的行为数据。

可选地，所述装置还包括：排序模块；

所述排序模块，用于按照所述行为数据的执行时间，对所述行为数据进行排序。

第五方面，本申请实施例提供了一种处理设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如上述第一方面和第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面和第二方面所述的方法的步骤。

本申请的有益效果：

本申请实施例提供一种识别模型的获取方法、识别方法、装置、设备及介质，其中，用户信息识别模型的获取方法包括：采集获取用户信息正样本和用户信息负样本，其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。根据预设预算、用户信息正样本和用户信息负样本，训练获取用户信息识别模型，用户信息识别模型用于识别不同账号对应相同用户的可能性。本申请基于获取的同一用户不同账号对应的行为数据的用户信息正样本和不同用户的账号所对应的行为数据的负样本，训练得到用户信息识别模型，识别不同账号对应同一用户的可能性，实现不同账号与同一用户的关联，有效提高了识别效率和识别准确性，识别结果更具参考意义。

另外，通过选取多个具体相似行为数据的不同用户的账号对应的行为数据作为负样本，可以使得训练获取的用户信息识别模型的识别精度较高，能够精确区分具有相似行为数据的不同用户，避免了将具体相似行为数据的账号识别为同一用户，导致识别结果误差较大。

用户信息识别方法包括：采集获取多个用户账号对应的行为数据，将行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性，其中，用户信息识别模型采用用户信息正样本和用户信息负样本训练获取。其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。本方法基于训练得到的具有较高识别精确度的用户识别模型，进行用户账号与用户关联关系的识别，可有效提高识别效率和识别结果精确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的用户信息识别系统的框图；

图2为本申请实施例提供的电子设备200的示例性硬件和软件组件的示意图；

图3为本申请实施例提供的一种用户信息识别模型的获取方法的流程示意图；

图4为本申请实施例提供的另一种用户信息识别模型的获取方法的流程示意图；

图5为本申请实施例提供的又一种用户信息识别模型的获取方法的流程示意图；

图6为本申请实施例提供的另一种用户信息识别模型的获取方法的流程示意图；

图7为本申请实施例提供的一种用户信息识别方法的流程示意图；

图8为本申请实施例提供的一种用户信息识别模型的获取装置的示意图；

图9为本申请实施例提供的一种用户信息识别装置的示意图；

图10为本申请实施例提供的一种处理设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

图1为本申请实施例提供的用户信息识别系统的框图。例如，用户信息识别系统100可以是用于诸如打车平台、外卖平台、网络购物平台等服务平台。用户信息识别系统100可以包括服务器110、网络120、用户终端140和数据库150中的一种或多种，服务器110中可以包括执行指令操作的处理器。可选地，服务器110中可生成用户信息识别模型，基于生成的用户信息识别模型，可实现本申请的用户信息识别方法。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110相对于终端，可以是本地的、也可以是远程的。例如，服务器110可以经由网络120访问存储在用户终端140、或数据库150、或其任意组合中的信息和/或数据。作为另一示例，服务器110可以直接连接到用户终端140和数据库150中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。在一些实施例中，服务器110可以在具有本申请中图2所示的一个或多个组件的电子设备200上实现。

在一些实施例中，服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从用户终端130获得的用户行为数据，来确定各用户的特征参数。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、专用指令集处理器(Application Specific Instruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing，RISC)、或微处理器等，或其任意组合。

网络120可以用于信息和/或数据的交换。在一些实施例中，用户信息识别系统100中的一个或多个组件(例如，服务器110，用户终端140和数据库150)可以向其他组件发送信息和/或数据。在一些实施例中，网络120可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络120可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched TelephoneNetwork，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等，或其任意组合。在一些实施例中，网络120可以包括一个或多个网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或网络交换节点，用户信息识别系统100的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。

在一些实施例中，用户终端140可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal DigitalAssistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。在一些实施例中，机动车辆中的内置设备可以包括车载计算机、车载电视等。在一些实施例中，用户终端140可以是具有用于定位用户车辆位置的定位技术的设备。

在一些实施例中，用户终端140可以将定位信息发送给服务器110。

数据库150可以存储数据和/或指令。在一些实施例中，数据库150可以存储从用户终端140获得的数据。在一些实施例中，数据库150可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库150可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory，ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random AccessMemory，RAM)；RAM可以包括动态RAM(Dynamic Random Access Memory，DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM，DDR SDRAM)；静态RAM(StaticRandom-Access Memory，SRAM)，晶闸管RAM(Thyristor-Based Random Access Memory，T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-OnlyMemory，MROM)、可编程ROM(Programmable Read-Only Memory，PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory，PEROM)、电可擦除可编程ROM(ElectricallyErasable Programmable read only memory，EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。在一些实施例中，数据库150可以在云平台上实现。仅作为示例，云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等，或其任意组合。

在一些实施例中，数据库150可以连接到网络120以与用户信息识别系统100(例如，服务器110，用户终端140等)中的一个或多个组件通信。用户信息识别系统100中的一个或多个组件可以经由网络120访问存储在数据库150中的数据或指令。在一些实施例中，数据库150可以直接连接到用户信息识别系统100中的一个或多个组件(例如，服务器110，用户终端140等)；或者，在一些实施例中，数据库150也可以是服务器110的一部分。

在一些实施例中，用户信息识别系统100中的一个或多个组件(例如，服务器110，用户终端140等)可以具有访问数据库150的权限。

图2为本申请实施例提供的电子设备200的示例性硬件和软件组件的示意图。例如，处理器220可以用于电子设备200上，并且用于执行本申请中的功能。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的服务站点推送分析方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

随着互联网的应用越来越广泛，为用户提供服务的平台也越来越多，有的用户可能会在同一平台注册多个账号，不便于平台对实际用户的管理，也难以确定账号之间的关联度。本申请实施例中的用户、账号可以是任何平台的用户、账号，在此不作限制。需要说明的是，本申请的方法，在进行用户信息识别时，是基于获取的样本用户信息的行为数据，训练用户信息识别模型，从而应用训练得到的用户信息识别模型，进行用户信息识别，识别账号与用户之间的关联关系。

以下先通过多个实施例对本申请所涉及的用户信息识别模型的获取方法的实现原理及实现过程进行详细说明，具体如下：

图3为本申请实施例提供的一种用户信息识别模型的获取方法的流程示意图。本申请方法的执行主体可以是计算机、服务器等具有数据处理功能的处理设备。可选地，如图3所示，本申请的方法可包括：

S101、采集获取用户信息正样本和用户信息负样本，其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。

可选地，本申请训练获取的用户信息识别模型应用于识别账号和用户的关联关系，也即，用于将不同的账号关联到同一用户。那么，在获取样本信息时，样本信息可以包括：同一用户的不同账号所产生的行为数据，也可以包括不同用户的账号所产生的行为数据，其中，可以将同一用户的不同账号所产生的行为数据作为用户信息正样本，将不同用户的账号所产生的行为数据作为用户信息负样本，以保证获取的样本信息的全面性，使得训练获取的用户信息识别模型的识别覆盖率较高，识别结果准确性较高。

本申请的用户信息识别模型可应用于打车服务，当为打车服务时，对应获取的用户的行为数据可以为打车行为数据，例如：用户的账号所生成的打车订单数据。当然，本申请的方法并不限于应用到打车服务中，也可以是外卖服务，那么对应的用户的行为数据则可以为订餐行为数据，例如：用户的账号所生成的外卖订单数据。当然，本申请的方法也不限于上述两种应用场景，此处仅示例性的列举了两种应用场景。以下实施例中，以打车服务为应用场景进行相关举例说明。

需要说明的是，上述用户的账号可以指用户在应用程序上所注册的账号信息，用户可通过在终端的应用程序中登陆账号以请求相应的服务。例如：用户的账号可以是打车软件登陆账号，同一个用户可以通过手机号或者是微信号等注册打车软件登陆账号，也即同一用户可以对应有多个账号。

S102、根据预设预算、用户信息正样本和用户信息负样本，训练获取用户信息识别模型，用户信息识别模型用于识别不同账号对应相同用户的可能性。

可选地，基于上述获取的用户信息正样本和用户信息负样本，根据正样本中用户的行为数据、以及负样本中用户的行为数据，训练获取用户信息识别模型。其中，样本行为数据既包括了同一用户对应的不同账号的行为数据，也包括了不同用户的账号的行为数据，以使得训练获取的用户信息识别模型，可以用于识别账号与用户的关联关系，计算得到不同账号对应相同用户的可能性。

需要说明的是，采用训练获取的用户信息识别模型，得到的计算结果为不同账号对应同一用户的概率，那么，可以进一步地根据概率大小，当概率满足预设值时，确定不同账号对应同一用户。例如：可根据实际情况，设定预设值为0.9，也用户信息识别模型输出的计算结果概率值大于0.9时，对应的识别结果为不同账号对应同一用户。

采用本申请训练获取的用户信息识别模型，可以有效识别出同一用户所具有的多个账号，将该多个账号关联至该用户，可以针对性的对该用户的账号执行较为合理的业务处理，避免对同一用户的不同账号进行业务的重复性处理，从而可以提高业务处理效率。以本申请中的打车服务场景为例，将同一用户的不同账号进行关联，对于平台所实行的拉新、补贴、安全等各方面政策均有一定的辅助分析作用。例如：对于同一用户的不同账号，仅进行一次补贴，避免重复补贴，对其他用户造成不公。又或者，根据平台的用户量，确定拉新的额度，避免根据账号使用量，确定拉新额度，使得拉新额度较低，对平台的发展造成不利。

综上，本实施例提供的用户信息识别模型的获取方法，包括：采集获取用户信息正样本和用户信息负样本，其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。根据预设预算、用户信息正样本和用户信息负样本，训练获取用户信息识别模型，用户信息识别模型用于识别不同账号对应相同用户的可能性。本申请基于获取的同一用户不同账号对应的行为数据的用户信息正样本和不同用户的账号所对应的行为数据的负样本，训练得到用户信息识别模型，识别不同账号对应同一用户的可能性，实现不同账号与同一用户的关联，有效提高了识别效率和识别准确性，识别结果更具参考意义。

可选地，上述步骤S101中，采集获取用户信息正样本和用户信息负样本，可以包括：采集获取预设时间段的用户信息正样本和用户信息负样本。

在一些实施例中，本方案中获取的用户信息正样本可以包括同一用户在不同年份相同时间段的行为数据，以行为数据为打车行为数据为例，当A用户具有两个打车账号时，获取的用户信息正样本可以包括：A用户在2019年9月-12月的打车订单，以及A用户在2018年9月-12月的打车订单。当然，作为样本信息，其数据量是较大的，用户信息正样本可以包括类似A用户的多个样本用户的不同账号的行为数据。

通常，同一用户在不同季节打车行为会存在差异，夏季较热冬季较冷，打车频率高。本实施例中获取同一用户在不同年份相同时间段的行为数据，可以使得获取的用户信息正样本可靠性较高，用于进行用户识别模型训练时，训练效果更好。

可选地，上述获取的用户信息正样本中，需保证用户的家庭住址和公司地址未发生改变，以避免获取的同一用户的行为数据差异较大，无法进行模型训练。

如上述，获取的用户信息负样本包括：样本用户的行为数据、以及该样本用户与其他预设数量的参考用户的行为数据。其中，参考用户为满足预设条件的用户。本实施例中，参考用户可以选择与样本用户行为数据较相似的用户。当选择的参考用户与样本用户的行为数据存在明显差异时，对其进行样本训练意义不大，例如：样本用户为居住在XX市的A用户，参考用户为居住在XX市的B用户，两个用户分别居住在不同城市，由于城市交通、上下班时间等多个外界因素的影响，A用户和B用户的打车行为数据会存在明显差异，将其作为样本数据，对于用户信息识别模型的训练不具价值。

本申请方案通过选取多个具体相似行为数据的不同用户的账号对应的行为数据作为负样本，可以使得训练获取的用户信息识别模型的识别精度较高，能够精确区分具有相似行为数据的不同用户，避免了将具体相似行为数据的账号识别为同一用户，导致识别结果误差较大。

可选地，用户信息负样本可以包括样本用户与参考用户在相同年份相同时间段的行为数据，继续以行为数据为打车行为数据为例，获取的用户信息负样本可以包括：A用户在2019年9月-12月的打车订单，以及B用户在2019年9月-12月的打车订单。以确保不同的用户采集得到的行为数据相似度较高。

图4为本申请实施例提供的另一种用户信息识别模型的获取方法的流程示意图。可选地，如图4所示，上述步骤S101中，采集获取预设时间段的用户信息正样本和用户信息负样本，可以包括：

S201、采集多个已知用户各自对应的多个账号在预设时间段的行为数据，作为用户信息正样本。

如上述所说明的，用户信息正样本可以包括多个用户对应的不同账号的行为数据，其中，一个用户的不同账号对应的行为数据为一个正样本，从而得到所有的正样本。

可选地，获取的所有用户的多个账号的行为数据并非均对应同样的预设时间段。例如：A用户的样本数据可以为：A用户在2019年9月-12月的打车订单，以及A用户在2018年9月-12月的打车订单。B用户的样本数据可以为：B用户在2020年3月-5月的打车订单，以及A用户在2019年3月-5月的打车订单。

S202、采集样本用户的行为数据、以及多个其他用户的行为数据。

S203、根据样本用户的行为数据、以及多个其他用户的行为数据，获取其他用户的行为数据中与样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据。

可选地，可以根据采集的样本用户的行为数据、以及多个其他用户的行为数据，采用kd-tree(k-dimensional，树的简称)，计算样本用户的行为数据与其他用户的行为数据之间的相似度，从而从多个其他用户中选取样本用户对应的参考用户，其中，kd-tree是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如：范围搜索和最近邻搜索)。

S204、将样本用户的行为数据、与样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，作为用户信息负样本。

可选地，可以将获取的样本用户、以及样本用户对应的参考用户在预设时间段的行为数据，作为用户信息负样本。

在一些实施例中，在获取用户信息正样本和用户信息负样本时，可从获取的用户信息正样本中，用户账号在预设时间段的行为数据中选取预设多个行为数据，以打车订单为例，可以从每个用户的账号在预设时间段的打车订单中选取最近10次打车订单作为样本。以降低用户信息识别模型训练过程中的计算量，提高模型训练的效率。当然，并不局限于选取10次打车订单，可以适应性调整选取的数量。

在一些情况下，当获取的用户账号在预设时间段的打车订单总量较少，不够10个时，也可以适应性的补充默认值，例如：补充0或者已有打车订单的均值、或者预设标识符等。具体可根据获取的打车订单的数据类型进行相应补充。

图5为本申请实施例提供的又一种用户信息识别模型的获取方法的流程示意图。可选地，上述步骤S203中，根据样本用户的行为数据、以及多个其他用户的行为数据，获取其他用户的行为数据中与样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，可以包括：

S301、分别获取样本用户的行为数据对应的特征参数、其他用户的行为数据对应的特征参数。

可选地，可以根据上述获取的样本用户的预设多个行为数据、以及其他用户的预设多个行为数据，构建每个用户的行为特征序列，该行为特征序列可以用于表示用户的特征参数。

S302、根据样本用户的行为数据对应的特征参数、其他用户的行为数据对应的特征参数，分别计算样本用户的行为数据与各其他用户的行为数据的相似度。

可选地，可以将每个用户的特征参数以embedding形式进行表示，从而一定程度上降低用户的特征参数的维度，减少用户信息识别模型训练的计算量，提高训练效率。

需要说明的是，embedding是一个将离散变量转为连续向量表示的一个方式。在神经网络中，embedding是非常有用的，其不但可以减少离散变量的空间维数，同时还可以有意义的表示该变量。

可选地，基于形式转换后的样本用户与其他用户的特征参数，计算样本用户与每个其他用户的特征参数的相似度。

S303、按照相似度对其他用户的行为数据进行排序，获取预设个数的相似度最高的参考用户的行为数据。

可选地，可以按照上述计算得到的样本用户与每个其他用户的特征参数相似度，按照相似度的大小，对所有其他用户的行为数据进行排序。其中，可以按照相似度由大到小的顺序进行排序。

进一步地，可以根据排序结果，从排序结果的头部按顺序依次选择预设个数的其他用户的行为数据，作为参考用户的行为数据。本实施例中，预设个数可以设置为5个，实际应用中，并不会对预设个数进行具体限制，可以适应性调整。

需要说明的是，预设个数设置的较少，会导致用户信息负样本的可靠性较差，而预设个数设置的较多，又会导致模型训练的运算量较大，故可以合理性的设置所要选取的参考用户的个数。

图6为本申请实施例提供的另一种用户信息识别模型的获取方法的流程示意图。可选地，如图6所示，上述步骤S201中，采集多个已知用户各自对应的多个账号在预设时间段的行为数据，作为用户信息正样本，可以包括：

S401、采集多个已知用户各自对应的多个账号在预设时间段的行为数据。

上述步骤对于用户信息负样本的具体获取步骤进行说明，本实施则对于用户信息正样本的具体获取步骤进行说明。

上述实施例中已对采集多个已知用户各自对应的多个账号在预设时间段的行为数据进行了详细说明。此处不再一一赘述。

S402、建立各已知用户与各自对应的多个账号在预设时间段的行为数据之间的关联关系，获取用户信息正样本。

可选地，对于任一用户，可以建立该用户所对应的多个账号的行为数据之间的关联关系，也即，构建每个已知用户的多个账号的行为数据的关联关系，得到一个正样本数据。那么，对所有已知用户的多个账号的行为数据建立关联关系，可得到所有的正样本数据，也即，获取得到用户信息正样本。

可选地，行为数据包括：网约车行为数据；网约车行为数据包括下述一项或多项：起始地址信息、目的地址信息、服务时间信息、身份信息、支付账户信息、设备信息。

需要说明的是，本申请以打车服务为应用场景进行说明，那么，本申请上述实施例中，获取的用户的账号对应的行为数据可以为网约车行为数据，也即可以为网约车订单。

可选地，网约车订单的起始地址信息可以指用户的上车位置，也即用户在网约车应用程序中所定位的订单起始点。目的地址信息可以指用户的下车位置，也即用户在网约车应用程序中所定位的订单终点。服务时间信息一方面可以包括：从订单起始点行驶到订单终点，网约车经历的时长，另一方面，还可包括：服务时间所属的日的类型，例如：是否为节假日乘车等。上述均可作为用户的账号对应的行为数据。

另外，还可从网约车订单中获取用户的身份信息、支付账户信息、设备信息等，以用于在训练用户识别模型时，可以精确的将用户的账号与用户进行关联。

当然，不限于网约车场景，如果是其他平台，行为数据可以相应地进行调整。

需要说明的是，上述通过多个具体实施例，对本申请的用户信息识别模型的训练原理及步骤进行了详细说明，下面将通过多个实施例，对训练得到的用户信息识别模型的具体应用进行说明。

图7为本申请实施例提供的一种用户信息识别方法的流程示意图。可选地，该用户信息识别方法的执行主体可以为计算机或者服务器等设备。如图7所示，该方法可包括：

S501、采集获取多个用户账号对应的行为数据。

可选地，当应用于打车服务时，用户会通过用户账号登陆网约车应用程序，可以从用户在网约车应用程序中生成的网约车订单中获取用户账号对应的行为数据。当应用于订餐服务时，可以从用户在订餐应用程序中生成的外卖订单中获取用户账号对应的行为数据。对于不同的应用场景，可以从用户所使用的专用应用程序所产生的订单获取用户账号对应的行为数据。

S502、将行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性，其中，用户信息识别模型采用用户信息正样本和用户信息负样本训练获取。

其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。

可选地，不同账号对应相同用户的可能性可以通过概率来表示，例如可以采用上述训练获取的用户信息识别模型，将获取的多个用户账号的行为数据作为用户信息识别模型的输入数据，从而计算得到不同账号对应同一用户的概率。

在一种可实现的方式中，可以从获取的多个用户账号的行为数据中，选择任意两个用户账号的行为数据作为输入数据，输入到用户信息识别模型中，计算该两个用户账号对应同一用户的概率。在另一种可实现的方式中，也可将所有获取的用户账号的行为数据作为输入数据，输入到用户信息识别模型中，计算任意用户账号对应任意用户的概率。

可选地，当多个用户账号对应同一用户的概率满足预设概率时，则确定多个用户账号对应同一用户，则可将该多个用户账号关联至一个用户。以便于对用户的业务处理提供分析数据。

当然也可以采用其他参数表示，不以概率为限。

可选地，上述步骤S502中，将行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性之前，本申请的方法还可包括：按照行为数据的执行时间，对行为数据进行排序。

在一些实施例中，对获取的每个用户账号对应的行为数据，可以构建每个用户的行为数据序列，具体可以根据行为数据的执行时间对行为数据进行排序，根据行为数据排序得到行为数据序列。

例如：获取的每个用户账号对应的行为数据包括：3个网约车订单，订单1的执行时间(也即上述实施例中的服务时间)为2019年3月1日，订单2的执行时间为3月7日，订单3的执行时间为3月15日，那么，可以根据执行时间，得到行为数据序列。

可选地，样本用户的行为数据与预设个数参考用户的行为数据之间满足相似度条件。

对于用户信息负样本中样本用户与参考用户的确定方法，已在上述模型训练过程中进行了说明，此处不再一一赘述。

综上，本实施例提供的用户信息识别方法，包括：采集获取多个用户账号对应的行为数据，将行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性，其中，用户信息识别模型采用用户信息正样本和用户信息负样本训练获取。其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。本方法基于训练得到的具有较高识别精确度的用户识别模型，进行用户账号与用户关联关系的识别，可有效提高识别效率和识别结果精确性。

下述对用以执行本申请所提供的用户信息识别模型的获取方法、以及用户信息识别方法对应的装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图8为本申请实施例提供的一种用户信息识别模型的获取装置的示意图，该用户信息识别模型的获取装置实现的功能对应上述用户信息识别模型的获取方法执行的步骤。该装置可以理解为上述计算机或者服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，可选地，如图8所示，该装置可包括：采集模块601、训练模块602；

采集模块601，用于采集获取用户信息正样本和用户信息负样本，其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据；

训练模块602，用于根据预设预算、用户信息正样本和用户信息负样本，训练获取用户信息识别模型，用户信息识别模型用于识别不同账号对应相同用户的可能性。

可选地，具体用于采集获取预设时间段的用户信息正样本和用户信息负样本。

可选地，采集模块601，具体用于采集多个已知用户各自对应的多个账号在预设时间段的行为数据，作为用户信息正样本；采集样本用户的行为数据、以及多个其他用户的行为数据；根据样本用户的行为数据、以及多个其他用户的行为数据，获取其他用户的行为数据中与样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据；将样本用户的行为数据、与样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，作为用户信息负样本。

可选地，采集模块601，具体用于分别获取样本用户的行为数据对应的特征参数、其他用户的行为数据对应的特征参数；根据样本用户的行为数据对应的特征参数、其他用户的行为数据对应的特征参数，分别计算样本用户的行为数据与各其他用户的行为数据的相似度；按照相似度对其他用户的行为数据进行排序，获取预设个数的相似度最高的参考用户的行为数据。

可选地，采集模块601，具体用于采集多个已知用户各自对应的多个账号在预设时间段的行为数据；建立各已知用户与各自对应的多个账号在预设时间段的行为数据之间的关联关系，获取用户信息正样本。

图9为本申请实施例提供的一种用户信息识别装置的示意图，该用户信息识别装置实现的功能对应上述用户信息识别方法执行的步骤。该装置可以理解为上述计算机或者服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件。可选地，如图9所示，该装置可包括：采集模块701、计算模块702；

采集模块701，用于采集获取多个用户账号对应的行为数据；

计算模块702，用于将行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性，其中，用户信息识别模型采用用户信息正样本和用户信息负样本训练获取，其中，用户信息正样本包括：同一用户不同账号对应的行为数据；用户信息负样本包括：样本用户的行为数据、以及与样本用户满足预设条件的预设个数参考用户的行为数据。

可选地，该装置还可包括：排序模块；

排序模块，用于按照行为数据的执行时间，对行为数据进行排序。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

需要说明的是，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

图10为本申请实施例提供的一种处理设备的结构示意图，该处理设备可以为上述的计算机或者服务器。如图10所示，该设备可包括：处理器901和存储器902，其中：

存储器902用于存储程序，处理器901调用存储器902存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用户信息识别模型的获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采集获取用户信息正样本和用户信息负样本，包括：

3.根据权利要求2所述的方法，其特征在于，所述采集获取预设时间段的所述用户信息正样本和所述用户信息负样本，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本用户的行为数据、以及多个其他用户的行为数据，获取所述其他用户的行为数据中与所述样本用户的行为数据满足相似度条件的预设个数参考用户的行为数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述采集多个已知用户各自对应的多个账号在所述预设时间段的行为数据，作为所述用户信息正样本，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述行为数据包括：网约车行为数据；所述网约车行为数据包括下述一项或多项：起始地址信息、目的地址信息、服务时间信息、身份信息、支付账户信息、设备信息。

7.一种用户信息识别方法，其特征在于，包括：

采集获取多个用户账号对应的行为数据；

8.根据权利要求7所述的方法，其特征在于，所述将所述行为数据代入用户信息识别模型，获取不同账号对应相同用户的可能性之前，还包括：

按照所述行为数据的执行时间，对所述行为数据进行排序。

9.根据权利要求7所述的方法，其特征在于，所述样本用户的行为数据与预设个数参考用户的行为数据之间满足相似度条件。

10.根据权利要求7-9任一项所述的方法，其特征在于，所述行为数据包括：网约车行为数据；所述网约车行为数据包括下述一项或多项：起始地址信息、目的地址信息、服务时间信息、身份信息、支付账户信息、设备信息。

11.一种用户信息识别模型的获取装置，其特征在于，包括：采集模块、训练模块；

12.一种用户信息识别装置，其特征在于，包括：采集模块、计算模块；

13.一种处理设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至10任一所述的方法的步骤。

14.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的方法的步骤。