CN111222563B - 一种模型训练方法、数据获取方法以及相关装置 - Google Patents

一种模型训练方法、数据获取方法以及相关装置 Download PDF

Info

Publication number
CN111222563B
CN111222563B CN202010003044.5A CN202010003044A CN111222563B CN 111222563 B CN111222563 B CN 111222563B CN 202010003044 A CN202010003044 A CN 202010003044A CN 111222563 B CN111222563 B CN 111222563B
Authority
CN
China
Prior art keywords
model
training
behavior
identification code
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010003044.5A
Other languages
English (en)
Other versions
CN111222563A (zh
Inventor
钟文波
程明月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010003044.5A priority Critical patent/CN111222563B/zh
Publication of CN111222563A publication Critical patent/CN111222563A/zh
Application granted granted Critical
Publication of CN111222563B publication Critical patent/CN111222563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本申请公开了一种模型训练方法、数据获取方法以及相关装置,通过获取多个训练样本;然后获取每个训练样本中至少两个标识码分别指示的终端设备的行为信息;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到用于指示至少两个目标标识码是否对应同一目标对象的第二模型。由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。

Description

一种模型训练方法、数据获取方法以及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练方法、数据获取方法以及相关装置。
背景技术
随着移动终端相关技术的发展,越来越多的智能终端设备出现在人们的生活中,往往一个用户对应着多个终端设备,而用户在每个智能设备上都有对应的操作,为精确的确定该用户的用户画像,如何确定多个设备是否属于同一用户成为难题。
一般,每个终端设备对应着一个标识码,对于不同标识码对应的终端设备通过程序登录同一用户账号的行为,可以将该不同的标识码对应的终端设备归类为同一个用户所使用,并进一步的对终端设备上的信息进行收集以及分析。
但是,可能存在用户临时登录某一终端设备的情况,例如:借用他人的设备进行临时登录,此时用户与该终端设备并不是对应的,造成了用户识别的错误,影响用户与标识码关联的准确性。
发明内容
有鉴于此,本申请提供一种模型训练的方法,可以有效避免由于偶发状况差异产生的标识码关联错误,提高识别码匹配过程的精确性。
本申请第一方面提供一种模型训练的方法,可以应用于终端设备中包含模型训练功能的系统、手机找回程序或数据恢复程序中,具体包括:获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;
获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;
根据所述行为信息确定用于第一模型训练的特征向量;
将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。
可选的,在本申请一些可能的实现方式中,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的网络结构特征,所述网络结构特征基于所述终端设备的应用程序列表确定;
确定所述网络结构特征和所述标识码的第一关联关系;
根据所述第一关联关系确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述根据所述第一关联关系确定所述特征向量,包括:
根据所述第一关联关系确定拓扑网络;
基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;
将所述节点序列进行向量转换,以确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述将所述节点序列进行向量转换,以确定所述特征向量,包括:
确定所述节点序列中节点对应的属性特征,所述属性特征用于指示所述节点对应于所述标识码或所述网络结构特征;
将所述属性特征和所述节点序列输入卷积神经网络模型,以输出所述特征向量。
可选的,在本申请一些可能的实现方式中,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,所述时间序列特征基于所述终端设备的网络连接情况确定;
确定所述时间序列特征和所述标识码的第二关联关系;
将所述第二关联关系输入循环神经网络模型,以确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的无线网络的连接序列记录;
根据所述连接序列记录确定所述时间序列特征。
可选的,在本申请一些可能的实现方式中,所述根据所述连接序列记录确定所述时间序列特征,包括:
确定所述连接序列记录中的重复项,以更新所述连接序列记录,所述重复项用于指示所述终端设备连接同一无线网络的情况;
基于更新后的所述连接序列记录确定所述时间序列特征。
可选的,在本申请一些可能的实现方式中,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示同一训练样本内的标识码对应的终端设备的行为特征;
基于所述行为特征获取所述同一训练样本内的标识码的相似度;
根据所述相似度与所述训练样本的对应关系确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述基于所述行为特征获取所述同一训练样本内的标识码的相似度,包括:
确定所述行为特征中的目标特征;
为所述目标特征设置权重信息,并更新所述行为特征;
基于更新后的所述行为特征获取所述同一训练样本内的标识码的相似度。
可选的,在本申请一些可能的实现方式中,所述获取多个训练样本,包括:
获取训练集,所述训练集包括多个对应关系,其中每个对应关系包括第一对象,以及与第一对象相关联的至少一个标识码,所述至少一个标识码中的每个标识码用于指示一个终端设备;
从所述训练集中确定包括至少两个标识码的对应关系作为训练样本。
可选的,在本申请一些可能的实现方式中,所述从所述训练集中确定包括至少两个标识码的对应关系作为训练样本,包括:
确定对应于第一对象的至少两个标识码作为正样本;
将所述正样本中的一个标识码修改为对应于第二对象的标识码,以得到负样本;
根据所述正样本和所述负样本得到训练样本。
可选的,在本申请一些可能的实现方式中,所述下载行为为终端设备中下载的应用程序的行为,所述连接行为为终端设备连接无线网络的行为,所述注册行为为终端设备对应的运营商信息,所述第一模型为逻辑斯特回归模型。
本申请第二方面提供一种模型训练的装置,包括:获取单元,用于获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;
解析单元,用于获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;
确定单元,用于根据所述行为信息确定用于第一模型训练的特征向量;
训练单元,用于将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的网络结构特征,所述网络结构特征基于所述终端设备的应用程序列表确定;
所述确定单元,具体用于确定所述网络结构特征和所述标识码的第一关联关系;
所述确定单元,具体用于根据所述第一关联关系确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于根据所述第一关联关系确定拓扑网络;
所述确定单元,具体用于基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;
所述确定单元,具体用于将所述节点序列进行向量转换,以确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于确定所述节点序列中节点对应的属性特征,所述属性特征用于指示所述节点对应于所述标识码或所述网络结构特征;
所述确定单元,具体用于将所述属性特征和所述节点序列输入卷积神经网络模型,以输出所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,所述时间序列特征基于所述终端设备的网络连接情况确定;
所述确定单元,具体用于确定所述时间序列特征和所述标识码的第二关联关系;
所述确定单元,具体用于将所述第二关联关系输入循环神经网络模型,以确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的无线网络的连接序列记录;
所述确定单元,具体用于根据所述连接序列记录确定所述时间序列特征。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于确定所述连接序列记录中的重复项,以更新所述连接序列记录,所述重复项用于指示所述终端设备连接同一无线网络的情况;
所述确定单元,具体用于基于更新后的所述连接序列记录确定所述时间序列特征。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于获取所述行为信息中的用于指示同一训练样本内的标识码对应的终端设备的行为特征;
所述确定单元,具体用于基于所述行为特征获取所述同一训练样本内的标识码的相似度;
所述确定单元,具体用于根据所述相似度与所述训练样本的对应关系确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于确定所述行为特征中的目标特征;
所述确定单元,具体用于为所述目标特征设置权重信息,并更新所述行为特征;
所述确定单元,具体用于基于更新后的所述行为特征获取所述同一训练样本内的标识码的相似度。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于获取训练集,所述训练集包括多个对应关系,其中每个对应关系包括第一对象,以及与第一对象相关联的至少一个标识码,所述至少一个标识码中的每个标识码用于指示一个终端设备;
所述获取单元,具体用于从所述训练集中确定包括至少两个标识码的对应关系作为训练样本。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于确定对应于第一对象的至少两个标识码作为正样本;
所述获取单元,具体用于将所述正样本中的一个标识码修改为对应于第二对象的标识码,以得到负样本;
所述获取单元,具体用于根据所述正样本和所述负样本得到训练样本。
本申请第三方面提供一种数据获取方法,包括:确定目标标识码以及所述目标标识码对应的目标对象,所述目标对象与至少一个关联标识码相关联,所述目标标识码与第一终端设备相关联;
获取与第二终端设备相关联的关联标识码;
将所述目标标识码和所述关联标识码输入预设模型,以得到匹配结果,所述预设模型基于多个训练标识码的对应关系训练所得,所述预设模型包括逻辑斯特回归模型;
根据所述匹配结果获取所述第二终端设备的数据,以关联至所述第一终端设备。
本申请第四方面提供一种数据获取装置,包括:确定单元,用于确定目标标识码以及所述目标标识码对应的目标对象,所述目标对象与至少一个关联标识码相关联,所述目标标识码与第一终端设备相关联;
关联单元,用于获取与第二终端设备相关联的关联标识码;
匹配单元,用于将所述目标标识码和所述关联标识码输入预设模型,以得到匹配结果,所述预设模型基于多个训练标识码的对应关系训练所得,所述预设模型包括逻辑斯特回归模型;
获取单元,用于根据所述匹配结果获取所述第二终端设备的数据,以关联至所述第一终端设备。
本申请第五方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的模型训练的方法,或上述第三方面所述的数据获取的方法。
本申请第六方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的模型训练的方法,或上述第三方面所述的数据获取的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取多个训练样本,其中每个训练样本包括第一对象以及与该第一对象相关联的至少两个标识码,且至少两个标识码中的每个标识码用于指示一个终端设备;然后获取每个训练样本中该至少两个标识码分别指示的终端设备的行为信息,行为信息包括连接行为、下载行为或注册行为中的至少一个;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到第二模型,并通过第二模型确定至少两个目标标识码之间的匹配结果,该匹配结果用于指示该至少两个目标标识码是否对应同一目标对象。从而实现了用于判别至少两个目标标识码是否对应同一目标对象的模型训练,由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为模型训练系统运行的网络架构图;
图2为本申请实施例提供的一种模型训练的流程架构图;
图3为本申请实施例提供的一种模型训练的方法的流程图;
图4为本申请实施例提供的一种模型训练的场景示意图;
图5为本申请实施例提供的另一种模型训练的场景示意图;
图6为本申请实施例提供的另一种模型训练的场景示意图;
图7为本申请实施例提供的另一种模型训练的场景示意图;
图8为本申请实施例提供的另一种模型训练的场景示意图;
图9为本申请实施例提供的另一种模型训练的方法的流程图;
图10为本申请实施例提供的一种数据获取的方法的流程图;
图11为本申请实施例提供的一种模型训练装置的结构示意图;
图12为本申请实施例提供的一种数据获取装置的结构示意图;
图13是本发明实施例提供的服务器一种结构示意图;
图14为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
本申请实施例提供了一种模型训练的方法以及相关装置,可以应用于终端设备中包含模型训练功能的系统、手机找回程序或数据恢复程序中,通过获取多个训练样本,其中每个训练样本包括第一对象以及与该第一对象相关联的至少两个标识码,且至少两个标识码中的每个标识码用于指示一个终端设备;然后获取每个训练样本中该至少两个标识码分别指示的终端设备的行为信息,行为信息包括连接行为、下载行为或注册行为中的至少一个;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到第二模型,并通过第二模型确定至少两个目标标识码之间的匹配结果,该匹配结果用于指示该至少两个目标标识码是否对应同一目标对象。从而实现了用于判别至少两个目标标识码是否对应同一目标对象的模型训练,由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
标识码:在要素分类的基础上,用以对某一类数据中某个实体进行唯一标识的代码;例如:用于指示终端设备的唯一标识码QIMEI。
行为信息:用户与终端交互过程中的交互记录指示的具体行为。
随机游走(random walk):无规则行走在任意尺度上都具有相似结构。例如一个在二维格子上游动,每一定时间以相同概率移动到其相邻位置,其轨迹即二维随机轨迹,基于轨迹进行节点连接即得到节点序列。
卷积神经网络模型(Convolutional Neural Networks,CNN):卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。
循环神经网络模型(Recurrent Neural Network,RNN):一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
逻辑斯特回归模型(Logistic Regression,LR):通过极大化似然函数方法,运用梯度下降来求解参数,来达到将数据二分类的目的,即可以通过此模型来输出类别概率。
自然人:用于指示同一用户的唯一称谓。
用户画像:用户信息标签化,即是通过收集与分析用户社会属性、生活习惯、消费行为等主要信息的数据之后,抽象出一个用户的标签集合。
交互记录:用户或终端在使用相关程序过程中的操作日志,可以包括输入内容、输出内容或具体的操作过程的数字化表述。
应理解,本申请提供的模型训练方法可以应用于终端设备中包含用于用户的多终端数据关联的系统或程序中,例如欧拉平台,具体的,模型训练系统可以运行于如图1所示的网络架构中,如图1所示,是模型训练系统运行的网络架构图,如图可知,模型训练系统可以提供与多个信息源的模型训练,服务器通过网络建立与终端的连接,进而接收终端收集的多个用户的行为数据或相关参数设定,从而对这些收集的数据进行特征向量的装换以及模型的训练,并进一步的应用训练后的模型进行标识码类别的预测;可以理解的是,图1中示出了多种终端设备,在实际场景中可以有更多或更少种类的终端设备参与到模型训练的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多应用程序交互的场景中,具体服务器数量因实际场景而定。
应当注意的是,本实施例提供的模型训练方法也可以离线进行,即不需要服务器的参与,此时终端在本地与其他终端进行连接,进而进行终端之间的模型训练的过程。
可以理解的是,上述模型训练系统可以运行于个人移动终端,例如:作为用户信息平台这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供模型训练,以得到信息源的模型训练参数优化处理结果;具体的模型训练系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着移动终端相关技术的发展,越来越多的智能终端设备出现在人们的生活中,往往一个用户对应着多个终端设备,而用户在每个智能设备上都有对应的操作,为精确的确定该用户的用户画像,如何确定多个设备是否属于同一用户成为难题。
一般,每个终端设备对应着一个标识码,对于不同标识码对应的终端设备通过程序登录同一用户账号的行为,可以将该不同的标识码对应的终端设备归类为同一个用户所使用,并进一步的对终端设备上的信息进行收集以及分析。
但是,可能存在用户临时登录某一终端设备的情况,例如:借用他人的设备进行临时登录,此时用户与该终端设备并不是对应的,造成了用户识别的错误,影响用户与标识码关联的准确性。
为了解决上述问题,本申请提出了一种模型训练的方法,该方法应用于图2所示的模型训练的流程框架中,如图2所示,为本申请实施例提供的一种模型训练的流程架构图,首先从服务器收集相关标识码对应的终端设备的行为信息,以输入采样层作为样本输入;然后提取行为信息中的做个维度的特征进行向量装换,以得到至少一个特征向量;并根据特征向量对预设模型进行训练,以优化参数,并对未知标签的标识码进行预测,进一步的得到分类概率。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种模型训练装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该模型训练装置通过获取多个训练样本,其中每个训练样本包括第一对象以及与该第一对象相关联的至少两个标识码,且至少两个标识码中的每个标识码用于指示一个终端设备;然后获取每个训练样本中该至少两个标识码分别指示的终端设备的行为信息,行为信息包括连接行为、下载行为或注册行为中的至少一个;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到第二模型,并通过第二模型确定至少两个目标标识码之间的匹配结果,该匹配结果用于指示该至少两个目标标识码是否对应同一目标对象。从而实现了用于判别至少两个目标标识码是否对应同一目标对象的模型训练,由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。
结合上述流程架构,下面将对本申请中模型训练的方法进行介绍,请参阅图3,图3为本申请实施例提供的一种模型训练的方法的流程图,本申请实施例至少包括以下步骤:
301、获取多个训练样本。
本实施例中,每个训练样本包括第一对象,以及与该第一对象相关联的至少两个标识码,该至少两个标识码中的每个标识码用于指示一个终端设备。其中,终端设备包括但不限于用户设备(User Equipment,UE)、移动台(Mobile Station,MS)、移动终端(MobileTerminal)、移动电话(Mobile Telephone)、手机(handset)及便携设备(portableequipment)等,该用户设备可以经无线接入网(Radio Access Network,RAN)与一个或多个核心网进行通信,例如,用户设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置。
可以理解的是,对象可以是自然人,即用户;对象也可以是账号,例如:apple ID等用于指示具体用户的信息。对于对象为自然人的场景,可能出现一个自然人对应多个账号的情况,而每个账号亦对应于多个终端设备的标识码,此时,可以以自然人为最终指示项,来标识第一对象,即可以收集与自然人相关的多个账号,然后通过多个账号遍历相关的标识码,进而将标识码与自然人关联。
应当注意的是,本实施例中可以应用于标识码归属于同一自然人的判定,也可以应用于标识码归属于同一账号的判定,还可以应用于标识码归属于同一具有指示作用的标识或符号的判定,具体情况因实际场景而定,本申请以标识码归属于同一自然人的判定进行说明,并不做限定。
由于自然人数据的多样性,为保证模型训练的准确性,可以预先设定规定的训练集,以选用具有代表性的数据进行训练。具体的,首先获取训练集,其中,该训练集包括多个对应关系,其中每个对应关系包括第一对象,以及与第一对象相关联的至少一个标识码,该至少一个标识码中的每个标识码用于指示一个终端设备;然后从该训练集中确定包括至少两个标识码的对应关系作为训练样本。
可选的,在上述选取训练样本的过程中,可以设定正样本与负样本,以便于提高模型训练的准确性。下面结合图4对该产经进行说明,如图4所示,是本申请实施例提供的一种模型训练的场景示意图。图中包括对象1、对象2和对象3,其中,对象1对应于标识码1、标识码2和标识码3;对象2对应于标识码4、标识码5和标识码6;对象3对应于标识码7、标识码8和标识码9;具体的,可以选用同属于对象1下的标识码1和标识码2作为正样本A1,选用对象2向的标识码6和对象3下的标识码7作为负样本A2。此处仅为示例说明,具体的样本选择过程中的对象数以及标识码数因实际场景而定,此处不做限定。
可选的,对于负样本的选定,还可以基于正样本进行,例如,对于图4中的正样本A1,可以将标识码2替换为非对象1对应的标识码,即构建了一组负样本,无需额外的进行负样本的二次筛选过程,提高了样本构建过程的效率。
302、获取该每个训练样本中该至少两个标识码分别指示的终端设备的行为信息。
本实施例中,可以采用两个标识码作为样本对进行行为信息的获取以对比,也可以选择更多数量的标识码作为样本对进行对比,具体数量因实际场景而定,此处不做限定。
另外,行为信息包括连接行为、下载行为或注册行为中的至少一个。其中,连接行为可以是终端设备连接无线网络的情况,例如wifi地址、IP地址等;下载行为可以是终端设备上安装的应用程序,或者是终端设备上的下载记录或浏览记录,还可以是下载程序对应的网址等来源信息等;而注册行为可以是终端设备指示的运营商、注册地或相关账号的注册信息等。
应当注意的是,具体的行为信息可以是上述行为中的一种,也可以是多种的组合,还可以是基于上述行为的关联行为,例如下载行为中对于应用程序来源的进一步挖掘并对应的过程,具体行为因实际场景而定,此处不做限定。
可选的,对于行为信息的获取可以是通过获取用户日志,即基于底层软件开发工具包(Software Development Kit,SDK)上报的设备唯一标识信息,搜集了用户与其对应的关系型数据和时间序列数据以及底层设备行为数据,即得到了行为信息。
303、根据该行为信息确定用于第一模型训练的特征向量。
本实施例中,第一模型为指示两个或两个以上样本之间的相关度的回归模型,具体用于根据训练集中多个特征向量进行模型参数的迭代更新调整,以对与训练集相关的两个或两个以上样本进行类别判断,即二分类过程。
具体的,基于上述步骤302中指出的行为信息的种类,可以进行相应的向量转换,例如,将上述行为信息均作为词向量进行word2vec转换。但是,考虑到各个行为特征的差异性,为充分发挥各个行为特征的代表性,可以进行区别的向量转换过程,下面对于不同的行为信息进行对应的向量转换过程的说明。
一、行为信息为下载行为。
本实施例中,由于下载行为具有拓扑性结构,即可以通过一定数量的拓扑节点将多个标识码连接起来,进而可以获取其中的关联关系,从而得到网络结构特征。具体的,首先获取该行为信息中的用于指示标识码对应的终端设备的网络结构特征,该网络结构特征基于该终端设备的应用程序列表确定,例如:通讯软件、输入软件、游戏软件、音乐软件等;如图5所示,是本申请实施例提供的另一种模型训练的场景示意图,即根据用户与应用安装列表中的多个程序构建异构图。具体地,将标识码看作节点,标识码与对应的安装列表中的程序构成边,即产生了标识码之间的网络结构特征;然后确定该网络结构特征和该标识码的第一关联关系;进而根据该第一关联关系确定该特征向量。
可以理解的是,图中的标识码数量与程序数量仅为示例,具体数量因实际场景而定,此处不做限定。
可选的,为了更加完整的遍历标识码之间的关联关系,对于特征向量的确定过程还可以基于随机游走进行。具体的,首先根据该第一关联关系确定拓扑网络;然后基于该拓扑网络进行随机游走,以生成节点序列,该节点序列用于将该标识码基于该网络结构特征进行关联;进而将该节点序列进行向量转换,以确定该特征向量。如图6所示,是本申请实施例提供的另一种模型训练的场景示意图,即首先生成标识码与程序作为节点的异构图,然后进行随机游走,得到一定的节点序列,基于这些节点序列可以进行word2vec转换以得到低维向量表示,进而实现了特征向量的获取过程。
可选的,由于各个程序之间具有一定的代表性,即一些程序有特定的标签,例如:娱乐、学习、财经等,而且节点属于标识码或网络结构特征也未指示;为保证特征向量的代表性,对于上述特征向量的确定过程还可以将这些因素考虑进去。具体的,首先确定该节点序列中节点对应的属性特征,该属性特征用于指示该节点对应于该标识码或该网络结构特征;然后将该属性特征和该节点序列输入卷积神经网络模型,以输出该特征向量。如图7所示,是本申请实施例提供的另一种模型训练的场景示意图,通过构建标记属性特征的节点,并进行随机游走进而得到低维特征向量,从而得到标记了节点属性特征的特征向量,使得特征向量更具有代表性。
二、行为信息为连接行为。
本实施例中,连接行为可以是终端设备连接无线网络的情况,例如wifi地址、IP地址等。由于终端设备在进行上述连接过程中具有一定的时序性,即存在连接的先后顺序,对于同一用户来说,该时序应该是相关联的,故可以针对上述时序进行特征向量的获取。具体的,首先获取该行为信息中的用于指示标识码对应的终端设备的时间序列特征,该时间序列特征基于该终端设备的网络连接情况确定;然后确定该时间序列特征和该标识码的第二关联关系;进而将该第二关联关系输入循环神经网络模型,以确定该特征向量。
可选的,由于终端设备连接的时序性,往往存在多个wifi地址的连接过程,而该连接过程存在一定的序贯关系,即逐一判断并连接,若连接成功则停止遍历wifi;此时,对于这些地址进行时序性排列,如图8所示,是本申请实施例提供的另一种模型训练的场景示意图,图中示出了标识码1、标识码2以及标识码3的连接序贯过程,基于该序列,输入神经网络进行学习,进而得到时间序列特征的向量表示。
另外,考虑到对于同一连接源的连接情况可能是多次,此时可以在预设固定时间窗口内,将重复的wifi地址进行过滤,保留下用户的唯一wifi地址序列记录。然后将提取的时间序列数据输入到深度序列神经网络长短时记忆神经网络(Long Short-Term Memory,LSTM)中,进行时间序列表示学习,进而得到时间序列特征的向量表示。
三、行为信息为注册行为。
本实施例中,注册行为可以是终端设备指示的运营商、注册地或相关账号的注册信息等。
具体的,对于该类行为可以进行训练样本中特征之间的相似度进行判定,即重合特征的数量或所占的比例。具体的,首先获取该行为信息中的用于指示同一训练样本内的标识码对应的终端设备的行为特征;然后基于该行为特征获取该同一训练样本内的标识码的相似度;进而根据该相似度与该训练样本的对应关系确定该特征向量。
可以理解的是,在相似度的计算过程中,不仅仅考虑到注册行为中特征的相似性,还可以考虑上述下载行为和连接行为中的相似度,例如共同使用APP的个数、共同使用wifi的个数等。
可选的,对于一些代表性的特征还可以设置权重,即确定该行为特征中的目标特征;然后为该目标特征设置权重信息,并更新该行为特征;进而基于更新后的该行为特征获取该同一训练样本内的标识码的相似度。由于权重的设定,增加了特征向量的梯度,提高了特征向量的泛化能力。
应当注意的是,对于上述各个行为信息的向量转换过程在实际场景中可以应用到上述可选的方式中的一个,也可能应用到过个,具体涉及的过程与行为信息的类型相关联。
304、将该特征向量输入该第一模型,以得到第二模型。
本实施例中,第二模型用于确定至少两个目标标识码之间的匹配结果,该匹配结果用于指示该至少两个目标标识码是否对应同一目标对象。
在一种可能的场景中,第一模型为机器学习模型中的逻辑斯特回归模型,将特征向量输入该第一模型进行训练迭代更新,获得模型参数。然后加载模型参数,对未知标签的样本进行预测,即判别至少两个目标标识码是否对应同一目标对象。
可以理解的是,对于大于两个目标标识码的场景,可以在这些目标标识码中随机生成两个目标标识码作为判别对,并逐一进行是否对应同一目标对象的判别,然后进行统计。
结合上述实施例可知,通过获取多个训练样本,其中每个训练样本包括第一对象以及与该第一对象相关联的至少两个标识码,且至少两个标识码中的每个标识码用于指示一个终端设备;然后获取每个训练样本中该至少两个标识码分别指示的终端设备的行为信息,且行为信息包括连接行为、下载行为或注册行为中的至少一个;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到第二模型,并通过第二模型确定至少两个目标标识码之间的匹配结果,该匹配结果用于指示该至少两个目标标识码是否对应同一目标对象。从而实现了用于判别至少两个目标标识码是否对应同一目标对象的模型训练,由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。
上述实施例介绍了模型训练的过程,下面,结合一种具体场景进行介绍,请参阅图9,图9为本申请实施例提供的另一种模型训练的方法的流程图,本申请实施例至少包括以下步骤:
901、构造样本。
902、构造正样本。
903、构造负样本。
本实施例中,步骤901-903的相关特征与图3所示实施例中的步骤301相似,具体描述可以进行参考,此处不做赘述。
904、获取样本行为日志。
本实施例中,行为日志为基于底层SDK上报的设备唯一标识信息,搜集了用户与其对应的关系型数据和时间序列数据以及底层设备行为数据。
905、获取应用程序列表。
本实施例中,应用程序列表可以指示的是具体的应用程序,也可以是根据应用程序类型进行分类后的程序列表,例如:获取与娱乐相关的应用程序列表。
906、构建异构图。
907、向量转换。
本实施例中,步骤906和907的相关特征与图3所示实施例中的步骤303中行为信息为下载行为的相关特征类似,具体描述可以进行参考,此处不做赘述。
908、获取物理地址序列。
本实施例中,物理地址序列即媒体访问控制(Media Access Control,MAC)地址,具体的可以是多个地址的集合,也可以是去重处理后的地址集合。
909、构建时间序列。
910、向量转换。
本实施例中,步骤909和910的相关特征与图3所示实施例中的步骤303中行为信息为连接行为的相关特征类似,具体描述可以进行参考,此处不做赘述。
911、获取注册信息。
本实施例中,注册信息包括标识码对应的终端设备的注册省份,以及对应的运营商。
912、统计特征提取。
本实施例中,步骤912的相关特征与图3所示实施例中的步骤303中行为信息为注册行为的相关特征类似,具体描述可以进行参考,此处不做赘述。
913、训练逻辑斯特模型。
本实施例中,根据上述步骤得到的特征向量对逻辑斯特模型进行参数训练,并加载得到参数更新的逻辑斯特模型。
914、预测目标标识码。
本实施例中,目标标识码为至少两个,以判定是否为同一类,具体的,对于同一自然人对应的终端设备的标识码,则分类为1;若不是同一自然人对应的终端设备的标识码,则分类为0。
上述实施例介绍了用于判别标识码是否属于同一自然人的模型的训练过程,而在一种具体的场景中,目标标识码为一个,即根据该目标标识码遍历可能的关联的标识码并逐一判断。下面结合附图进行说明,如图10所示,为本申请实施例提供的一种数据获取的方法的流程图,本申请实施例至少包括以下步骤:
1001、确定目标标识码以及所述目标标识码对应的目标对象。
本实施例中,目标对象与至少一个关联标识码相关联,目标标识码与第一终端设备相关联。
在一种可能的场景中,目标对象即为用户,第一终端设备为用户更换的新手机,而目标标识码为用户更换手机后的新的标识码。
1002、获取与第二终端设备相关联的关联标识码。
本实施例中,第二终端设备可以是第一终端对应的用户的历史终端关联记录中涉及的终端设备。
对应于步骤1001中的场景,第二终端设备即为可能是用户使用过的手机,而关联标识码即为该手机对应的标识码。
1003、将所述目标标识码和所述关联标识码输入预设模型,以得到匹配结果。
本实施例中,预设模型基于多个训练标识码的对应关系训练所得,所述预设模型包括逻辑斯特回归模型;具体的训练过程基于上述图3所述实施例的过程实现。
对应于步骤1001中的场景,即判断目标标识码与关联标识码是否均关联至该用户,以及该关联过程的可信度。
1004、根据所述匹配结果获取所述第二终端设备的数据,以关联至所述第一终端设备。
本实施例中,若匹配结果为关联,则将第二终端设备的相关数据迁移至第一终端设备,从而实现了数据迁移。具体的,即实现了用户的历史数据的迁移,适用于历史数据的找回,可以应用于手机备份或手机找回等应用程序中。
另外,上述数据获取的过程还可以应用于新的终端设备的冷启动过程中,即新的终端设备不存在用户的相关个性化设置,可以经过上述关联性的判别实现相关数据的准确迁移以及设置,提高了用户体验。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图11,图11为本申请实施例提供的一种模型训练装置的结构示意图,模型训练装置1100包括:
获取单元1101,用于获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;
解析单元1102,用于获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;
确定单元1103,用于根据所述行为信息确定用于第一模型训练的特征向量;
训练单元1104,用于将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的网络结构特征,所述网络结构特征基于所述终端设备的应用程序列表确定;
所述确定单元1103,具体用于确定所述网络结构特征和所述标识码的第一关联关系;
所述确定单元1103,具体用于根据所述第一关联关系确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于根据所述第一关联关系确定拓扑网络;
所述确定单元1103,具体用于基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;
所述确定单元1103,具体用于将所述节点序列进行向量转换,以确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于确定所述节点序列中节点对应的属性特征,所述属性特征用于指示所述节点对应于所述标识码或所述网络结构特征;
所述确定单元1103,具体用于将所述属性特征和所述节点序列输入卷积神经网络模型,以输出所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,所述时间序列特征基于所述终端设备的网络连接情况确定;
所述确定单元1103,具体用于确定所述时间序列特征和所述标识码的第二关联关系;
所述确定单元1103,具体用于将所述第二关联关系输入循环神经网络模型,以确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的无线网络的连接序列记录;
所述确定单元1103,具体用于根据所述连接序列记录确定所述时间序列特征。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于确定所述连接序列记录中的重复项,以更新所述连接序列记录,所述重复项用于指示所述终端设备连接同一无线网络的情况;
所述确定单元1103,具体用于基于更新后的所述连接序列记录确定所述时间序列特征。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于获取所述行为信息中的用于指示同一训练样本内的标识码对应的终端设备的行为特征;
所述确定单元1103,具体用于基于所述行为特征获取所述同一训练样本内的标识码的相似度;
所述确定单元1103,具体用于根据所述相似度与所述训练样本的对应关系确定所述特征向量。
可选的,在本申请一些可能的实现方式中,所述确定单元1103,具体用于确定所述行为特征中的目标特征;
所述确定单元1103,具体用于为所述目标特征设置权重信息,并更新所述行为特征;
所述确定单元1103,具体用于基于更新后的所述行为特征获取所述同一训练样本内的标识码的相似度。
可选的,在本申请一些可能的实现方式中,所述获取单元1101,具体用于获取训练集,所述训练集包括多个对应关系,其中每个对应关系包括第一对象,以及与第一对象相关联的至少一个标识码,所述至少一个标识码中的每个标识码用于指示一个终端设备;
所述获取单元1101,具体用于从所述训练集中确定包括至少两个标识码的对应关系作为训练样本。
可选的,在本申请一些可能的实现方式中,所述获取单元1101,具体用于确定对应于第一对象的至少两个标识码作为正样本;
所述获取单元1101,具体用于将所述正样本中的一个标识码修改为对应于第二对象的标识码,以得到负样本;
所述获取单元1101,具体用于根据所述正样本和所述负样本得到训练样本。
通过获取多个训练样本,其中每个训练样本包括第一对象以及与该第一对象相关联的至少两个标识码,且至少两个标识码中的每个标识码用于指示一个终端设备;然后获取每个训练样本中该至少两个标识码分别指示的终端设备的行为信息,行为信息包括连接行为、下载行为或注册行为中的至少一个;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到第二模型,并通过第二模型确定至少两个目标标识码之间的匹配结果,该匹配结果用于指示该至少两个目标标识码是否对应同一目标对象。从而实现了用于判别至少两个目标标识码是否对应同一目标对象的模型训练,由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。
另外,本申请还提供一种数据获取装置,请参阅图12,图12为本申请实施例提供的一种数据获取装置的结构示意图,数据获取装置1200包括:
确定单元1201,用于确定目标标识码以及所述目标标识码对应的目标对象,所述目标对象与至少一个关联标识码相关联,所述目标标识码与第一终端设备相关联;
关联单元1202,用于获取与第二终端设备相关联的关联标识码;
匹配单元1203,用于将所述目标标识码和所述关联标识码输入预设模型,以得到匹配结果,所述预设模型基于多个训练标识码的对应关系训练所得,所述预设模型包括逻辑斯特回归模型;
获取单元1204,用于根据所述匹配结果获取所述第二终端设备的数据,以关联至所述第一终端设备。
本申请实施例还提供了一种服务器,请参阅图13,图13是本发明实施例提供的服务器一种结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由模型训练装置所执行的步骤可以基于该图13所示的服务器结构。
本申请实施例还提供了一种终端设备,如图14所示,是本申请实施例提供的一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图14示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图14,手机包括:射频(radio frequency,RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity,WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图14中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图14对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作,以及在触控面板1431上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类型,随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理单元;可选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
手机还包括给各个部件供电的电源1490(比如电池),可选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1480还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有模型训练指令,当其在计算机上运行时,使得计算机执行如前述图2至图10所示实施例描述的方法中模型训练装置所执行的步骤。
本申请实施例中还提供一种包括模型训练指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2至图10所示实施例描述的方法中模型训练装置所执行的步骤。
本申请实施例还提供了一种模型训练系统,所述模型训练系统可以包含图11所描述实施例中的模型训练装置,或者图12所描述的数据获取装置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,模型训练装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种模型训练的方法,其特征在于,包括:
获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;
获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;
根据多个标识码和应用安装列表中的多个程序构建异构图;其中,所述标识码和程序为节点;将所述标识码与所述终端设备对应的应用程序列表中的程序连接构成边,得到网络结构特征;确定所述网络结构特征和所述标识码的第一关联关系;根据所述第一关联关系确定用于第一模型训练的特征向量;
将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一关联关系确定所述特征向量,包括:
根据所述第一关联关系确定拓扑网络;
基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;
将所述节点序列进行向量转换,以确定所述特征向量。
3.根据权利要求2所述的方法,其特征在于,所述将所述节点序列进行向量转换,以确定所述特征向量,包括:
确定所述节点序列中节点对应的属性特征,所述属性特征用于指示所述节点对应于所述标识码或所述网络结构特征;
将所述属性特征和所述节点序列输入卷积神经网络模型,以输出所述特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,所述时间序列特征基于所述终端设备的网络连接情况确定;
确定所述时间序列特征和所述标识码的第二关联关系;
将所述第二关联关系输入循环神经网络模型,以确定所述特征向量。
5.根据权利要求4所述的方法,其特征在于,所述获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的无线网络的连接序列记录;
根据所述连接序列记录确定所述时间序列特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述连接序列记录确定所述时间序列特征,包括:
确定所述连接序列记录中的重复项,以更新所述连接序列记录,所述重复项用于指示所述终端设备连接同一无线网络的情况;
基于更新后的所述连接序列记录确定所述时间序列特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示同一训练样本内的标识码对应的终端设备的行为特征;
基于所述行为特征获取所述同一训练样本内的标识码的相似度;
根据所述相似度与所述训练样本的对应关系确定所述特征向量。
8.根据权利要求7所述的方法,其特征在于,所述基于所述行为特征获取所述同一训练样本内的标识码的相似度,包括:
确定所述行为特征中的目标特征;
为所述目标特征设置权重信息,并更新所述行为特征;
基于更新后的所述行为特征获取所述同一训练样本内的标识码的相似度。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述获取多个训练样本,包括:
获取训练集,所述训练集包括多个对应关系,其中每个对应关系包括第一对象,以及与第一对象相关联的至少一个标识码,所述至少一个标识码中的每个标识码用于指示一个终端设备;
从所述训练集中确定包括至少两个标识码的对应关系作为训练样本。
10.根据权利要求9所述的方法,其特征在于,所述从所述训练集中确定包括至少两个标识码的对应关系作为训练样本,包括:
确定对应于第一对象的至少两个标识码作为正样本;
将所述正样本中的一个标识码修改为对应于第二对象的标识码,以得到负样本;
根据所述正样本和所述负样本得到训练样本。
11.根据权利要求1-8任一项所述的方法,其特征在于,所述下载行为为终端设备中下载的应用程序的行为,所述连接行为为终端设备连接无线网络的行为,所述注册行为为终端设备对应的运营商信息,所述第一模型为逻辑斯特回归模型。
12.一种基于标识码的数据获取方法,其特征在于,包括:
确定目标标识码以及所述目标标识码对应的目标对象,所述目标对象与至少一个关联标识码相关联,所述目标标识码与第一终端设备相关联;
获取与第二终端设备相关联的关联标识码;
将所述目标标识码和所述关联标识码输入预设模型,以得到匹配结果,所述预设模型基于多个训练标识码的对应关系训练所得,所述预设模型包括逻辑斯特回归模型;所述预设模型基于多个训练标识码的对应关系训练,包括:根据多个标识码和应用安装列表中的多个程序构建异构图;其中,所述标识码和程序为节点;将所述标识码与所述终端设备对应的应用程序列表中的程序连接构成边,得到网络结构特征;确定所述网络结构特征和所述标识码的第一关联关系;根据所述第一关联关系确定用于第一模型训练的特征向量;将所述特征向量输入所述第一模型,以得到预设模型;
根据所述匹配结果获取所述第二终端设备的数据,以关联至所述第一终端设备。
13.一种模型训练的装置,其特征在于,包括:
获取单元,用于获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;
解析单元,用于获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;
确定单元,用于根据多个标识码和应用安装列表中的多个程序构建异构图;其中,所述标识码和程序为节点;将所述标识码与所述终端设备对应的应用程序列表中的程序连接构成边,得到网络结构特征;确定所述网络结构特征和所述标识码的第一关联关系;根据所述第一关联关系确定用于第一模型训练的特征向量;
训练单元,用于将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。
14.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至11任一项所述的模型训练的方法,或权利要求12所述的数据获取的方法。
CN202010003044.5A 2020-01-02 2020-01-02 一种模型训练方法、数据获取方法以及相关装置 Active CN111222563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010003044.5A CN111222563B (zh) 2020-01-02 2020-01-02 一种模型训练方法、数据获取方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010003044.5A CN111222563B (zh) 2020-01-02 2020-01-02 一种模型训练方法、数据获取方法以及相关装置

Publications (2)

Publication Number Publication Date
CN111222563A CN111222563A (zh) 2020-06-02
CN111222563B true CN111222563B (zh) 2023-10-10

Family

ID=70806327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010003044.5A Active CN111222563B (zh) 2020-01-02 2020-01-02 一种模型训练方法、数据获取方法以及相关装置

Country Status (1)

Country Link
CN (1) CN111222563B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861545B (zh) * 2020-06-22 2022-10-18 国家计算机网络与信息安全管理中心 用户行为画像的构建方法、装置、设备及存储介质
CN111861178A (zh) * 2020-07-13 2020-10-30 北京嘀嘀无限科技发展有限公司 服务匹配模型的训练方法、服务匹配方法、设备及介质
CN113453216B (zh) * 2021-06-16 2023-09-05 中国联合网络通信集团有限公司 用户终端设备的确定方法及装置
CN113434629A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 基于向量匹配的问答对录入方法、装置、设备及介质
CN115556099B (zh) * 2022-09-29 2024-04-09 华南理工大学 一种可持续学习的工业机器人故障诊断系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304526A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
WO2019056498A1 (zh) * 2017-09-19 2019-03-28 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN110555451A (zh) * 2018-05-31 2019-12-10 北京京东尚科信息技术有限公司 信息识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3619649A4 (en) * 2017-05-05 2021-03-17 Arimo, LLC ANALYSIS OF SEQUENCE DATA USING NEURAL NETWORKS
US11042810B2 (en) * 2017-11-15 2021-06-22 Target Brands, Inc. Similarity learning-based device attribution

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056498A1 (zh) * 2017-09-19 2019-03-28 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN108304526A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN110555451A (zh) * 2018-05-31 2019-12-10 北京京东尚科信息技术有限公司 信息识别方法和装置

Also Published As

Publication number Publication date
CN111222563A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111222563B (zh) 一种模型训练方法、数据获取方法以及相关装置
CN111078479B (zh) 一种内存检测模型训练的方法、内存检测的方法及装置
CN108280458B (zh) 群体关系类型识别方法及装置
CN108875781A (zh) 一种标签分类方法、装置、电子设备及存储介质
CN110704661B (zh) 一种图像分类方法和装置
CN110995810B (zh) 一种基于人工智能的对象识别方法和相关装置
CN107729815A (zh) 图像处理方法、装置、移动终端及计算机可读存储介质
CN111666222A (zh) 一种测试方法和相关装置
CN114595124B (zh) 时序异常检测模型评估方法、相关装置及存储介质
CN116956080A (zh) 一种数据处理方法、装置以及存储介质
CN113940033B (zh) 用户识别方法及相关产品
CN104965831A (zh) 一种网址纠错方法、服务器、终端,及系统
CN112859136B (zh) 一种定位方法和相关装置
CN114862488A (zh) 一种资源消耗异常对象的识别方法以及相关装置
CN111265881B (zh) 一种模型训练方法、内容生成方法以及相关装置
CN116303085A (zh) 一种测试原因分析方法、装置、设备及存储介质
CN104915627B (zh) 一种文字识别方法及装置
CN115062197A (zh) 考勤数据检测方法、装置及存储介质
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN116450384A (zh) 一种信息处理方法和相关装置
CN116259083A (zh) 一种图像质量识别模型的确定方法和相关装置
CN111062198A (zh) 一种基于大数据的企业类别分析方法及相关设备
CN112862289B (zh) 一种临床研究从业者的信息匹配方法和装置
CN117115596B (zh) 对象动作分类模型的训练方法、装置、设备及介质
CN115565215B (zh) 一种人脸识别算法切换方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024300

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant