CN111325578B - 预测模型的样本确定方法及装置、介质和设备 - Google Patents
预测模型的样本确定方法及装置、介质和设备 Download PDFInfo
- Publication number
- CN111325578B CN111325578B CN202010105980.7A CN202010105980A CN111325578B CN 111325578 B CN111325578 B CN 111325578B CN 202010105980 A CN202010105980 A CN 202010105980A CN 111325578 B CN111325578 B CN 111325578B
- Authority
- CN
- China
- Prior art keywords
- account
- similarity
- feature
- discrete
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 239000013598 vector Substances 0.000 claims abstract description 90
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000009467 reduction Effects 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 abstract description 16
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及数据处理技术领域,提供了一种预测模型的样本确定方法及装置,以及计算机存储介质和电子设备。其中,该方法包括:获取节点的离散型特征和连续型特征;根据离散型特征和连续型特征,计算目标节点与其他节点之间的相似度;根据相似度确定目标节点和其他节点之间的关联权重矩阵;对关联权重矩阵进行降维处理,得到目标节点的低维向量表示,并确定目标节点的低维向量表示为预测模型的样本。本技术方案有利于提升样本所表达的特征丰富度;进而,有利于提升通过该样本训练或测试机器学习算法的预测准确率以及召回率。
Description
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备。
背景技术
随着大数据和人工智能技术的发展,机器学习算法越来越多的运用到各种预测类方案中。例如,对广告受众特征的预测,风控场景中对恶意账号标识的预测等。
在训练或测试机器学习算法的过程中,样本处理是关键的步骤。其中,若样本的向量表示所表达的特征越丰富(多),则通过该样本训练或测试机器学习算法的预测准确率越高。反之,若样本的向量表示所表达的特征越匮乏(少),则通过该样本训练或测试机器学习算法的预测准确率越低。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备,进而至少在一定程度上提升样本所表达的特征越丰富程度,有利于提升通过该样本训练或测试机器学习算法的预测准确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种预测模型的样本确定方法,包括:
获取节点的离散型特征和连续型特征;
根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;
根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;
对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。
根据本公开的一个方面,提供一种预测模型的样本确定装置,包括:特征获取模块、相似度计算模块、关联权重矩阵确定模块,以及降维处理模块。其中:
上述特征获取模块,被配置为:获取节点的离散型特征和连续型特征;
上述相似度计算模块,被配置为:根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;以及,
上述关联权重矩阵确定模块,被配置为:根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;
上述降维处理模块,被配置为:对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。
在本公开的一些实施例中,基于前述方案,第一计算单元、第二计算单元和确定单元。
其中,上述第一计算单元被配置为:计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度;上述第二计算单元被配置为:计算所述目标节点的连续型特征,与所述当前节点的连续型特征之间的第二相似度;以及,上述确定单元被配置为:根据所述第一相似度和所述第二相似度确定所述目标节点和所述当前节点之间的相似度。
在本公开的一些实施例中,基于前述方案,上述第一计算单元被具体配置为:获取所述目标节点的第一离散型特征集,以及所述当前节点的第二离散型特征集;计算所述第一离散型特征集与所述第二离散型特征集的特征重合度;以及,根据所述重合度确定所述第一相似度。
在本公开的一些实施例中,基于前述方案,上述第一计算单元还被具体配置为:获取所述目标节点的第一离散型特征,以及获取所述当前节点的第二离散型特征;计算所述第一离散型特征与所述第二离散型特征的编辑距离;以及,根据所述编辑距离确定所述第一相似度。
在本公开的一些实施例中,基于前述方案,上述第二计算单元被具体配置为:获取所述目标节点的第一连续型特征集,以及获取其他节点中所述当前节点的第二连续型特征集;根据动态时间规整算法,计算所述第一连续型特征集与所述第二连续型特征集的序列特征相似度;以及,根据所述序列特征相似度确定所述第二相似度。
在本公开的一些实施例中,基于前述方案,上述关联权重矩阵确定模块,被具体配置为:归一化或标准化所述目标节点和其他节点之间的相似度,得到所述目标节点和其他节点之间的权重值;以及,根据所述权重值确定所述目标节点和其他节点之间的关联权重矩阵。
在本公开的一些实施例中,基于前述方案,上述预测模型的样本确定装置还包括:有权无向图构建模块。
其中,上述有权无向图构建模块被配置为:在上述关联权重矩阵确定模块确定所述目标节点和其他节点之间的关联权重矩阵之后:
根据所述目标节点和其他节点之间的关联权重矩阵,确定所述目标节点和其他节点之间的关联距离;以及,根据所述关联距离构造关于所述目标节点和其他节点的有权无向图,以根据所述有权无向图确定所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,上述降维处理模块,包括:采样节点序列确定单元和向量表示确定单元。
其中,上述采样节点序列确定单元被配置为:以所述有权无向图中的第一节点为起点,根据所述第一节点与所述第一节点的相邻节点之间的权重距离确定下一节点,以确定采样节点序列;
上述向量表示确定单元被配置为:基于多个所述采样节点序列训练向量化预测算法,以基于训练后的向量化预测算法确定所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,上述向量表示确定单元被具体配置为:获取多个包含节点数相同的采样节点序列作为训练样本来训练向量化预测算法。
在本公开的一些实施例中,基于前述方案,上述向量表示确定单元,还被配置为:基于所述有权无向图,通过以下图表示算法中的任意一种:大规模信息网络嵌入Line算法、加权图节点向量表示GraRep算法、节点到变量Node2Vec算法和深变分网络嵌入DVNE算法,确定所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,上述降维处理模块,被具体配置为:
通过奇异值分解SVD方式或矩阵分解MF方式对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,所述节点包括账号标识;其中,上述特征获取模块,被具体配置为:
获取与所述账号标识相关的离散型特征,包括以下信息中的一种或多种:网际互连协议IP、设备标识ID和用户特征;以及
获取与所述账号标识相关的连续型特征,包括以下信息中的一种或多种:关于交易金额的序列数据、关于交易时间的序列数据和关于交易物品的序列数据。
根据本公开的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的预测模型的样本确定方法。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的预测模型的样本确定方法。
由上述技术方案可知,本公开示例性实施例中的预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,首先确定多个节点,并根据每个节点的离散型特征和连续型特征,计算目标节点与其他节点之间的相似度;进一步地根据相似度确定目标节点和其他节点之间的关联权重矩阵;最终,对关联权重矩阵进行降维处理,得到目标节点的低维向量表示,从而确定所述目标节点的低维向量表示为预测模型的样本。一方面,本技术方案基于离散型特征和连续型特征确定目标节点的向量表示,有效地将账号的离散型数据和连续型特征综合体现在账号的特征表示中,有利于提升样本所表达的特征丰富度;进而,有利于提升通过该样本训练或测试机器学习算法的预测准确率以及召回率。另一方面,本技术方案对上述关联权重矩阵进行降维处理以得到目标节点的低维向量表示,其中,低维的向量表示的样本有利于提升模型训练/测试效率。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的一种预测模型的样本确定方法及装置的示例性应用环境的系统架构的示意图;
图2示意性示出了根据本公开的一实施例的预测模型的样本确定方法的流程图;
图3示意性示出了根据本公开的一实施例的节点间关联权重的确定方法的流程图;
图4示意性示出了根据本公开的一实施例的节点间相似度的确定方法的流程图;
图5示意性示出了根据本公开的一实施例的离散型特征的处理方法的流程图;
图6示意性示出了根据本公开的一实施例的连续型特征的处理方法的流程图;
图7示意性示出了根据本公开的另一实施例的连续型特征的处理方法的流程图;
图8示意性示出了根据本公开的另一实施例的预测模型的样本确定方法的流程图;
图9示意性示出了根据本公开的一实施例的节点间的有权无向图确定方法的流程图;
图10示意性示出了根据本公开的一实施例的节点间的有权无向图;
图11示意性示出了根据本公开的一实施例的低维向量表示的确定方法的流程图;
图12示意性示出了根据本公开的一实施例的采样节点的确定方法的流程图;
图13示意性示出了根据本公开的一实施例的预训练模型的训练方法的流程图;
图14示意性示出本公开示例性实施例中预测模型的样本确定装置的结构图;以及,
图15示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的一种预测模型的样本确定方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104、服务端105、服务端106以及数据库107。网络104用以在终端设备101、102、103和服务端105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。
应该理解,图1中的终端设备、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务端和数据库。比如服务端105可以是多个服务端组成的服务端集群等。
本公开实施例所提供的预测模型的样本确定方法一般由服务端105执行,相应地,预测模型的样本确定装置一般设置于服务端105中。但本领域技术人员容易理解的是,本公开实施例所提供的预测模型的样本确定方法也可以由终端设备101、102、103执行,相应的,预测模型的样本确定装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
举例而言,在一种示例性实施例中,可以是安装在终端设备101、102、103中应用中产生关于节点的特征数据。以安装在终端设备101、102、103中理财应用为例,上述节点可以是该理财应用的账号,关于该节点的特征数据可以是用户的年龄、文化程度、职业等离散型特征,也可以是用户近一个月的登录时间点序列等连续型特征。进一步地,服务端105可以从终端设备101、102、103中获取节点的离散型特征和连续型特征。然后,服务端105根据离散型特征和连续型特征,计算目标节点与其他节点之间的相似度。进一步地,服务端105根据相似度确定目标节点和其他节点之间的关联权重矩阵;最终,服务端105对关联权重矩阵进行降维处理,得到目标节点的低维向量表示,并确定目标节点的低维向量表示为预测模型的样本。
在示例性的实施例中,服务端105将根据上述方案确定的样本可以用于训练预测模型或测试预测模型。例如,服务端106用于训练关于用户信用等级的预测模型,则服务端105确定的相关样本可以发送至服务端106,用于该模型的训练或测试。当然,服务端105将根据上述方案确定的样本还可以暂时存储于数据库107中,当其他服务端(例如服务端106)样本需求时,提供相关样本。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,服务端105还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
其中,人工智能(Artificial Intelligence,简称:AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习(Machine Learning,简称:ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本公开实施例提供的方案涉及训练或测试机器学习算法过程中样本的确定方案。具体通过如下实施例进行说明:
在云支付场景中,信用卡支付为较为主要的支付渠道。但信用可支付交易过程中存在盗刷卡、复制卡等恶意账号。导致信用卡拒付量上升,引起经济损失,同时造成云服务资源的浪费和信用风险的上升。因此,根据账号标识来训练机器学习模型,以通过训练后的机器信息模型预测识别恶意账号/恶意交易,进而通过预测模型的输出实现风险控制。
而训练或测试上述预测模型的过程中,需要确定账号的向量表示,以作为模型的训练样本/测试样本。其中,账号的特征一般包括离散型特征(如离散型字符串)和连续型特征(如序列数据)。示例性的,账号的离散型特征包括:IP、邮箱等离散型数据,账号的连续型特征包括:某一段时间内该账号的交易金额序列数据、某一段时间内该账号的交易时间点序列数据等。进一步地,需要将上述离散型特征和连续型特征表示为向量的形式。
基于上述问题,发明人提供的一种解决思路中,通过独热(One-Hot)编码的方式确定上述离散型特征的向量表示。
然而,发明人发现,在通过One-Hot编码的方式确定离散型特征的向量的解决思路中,得到的向量表示组成的特征空间较稀疏,同时,随着属于同一账号的离散型特征的类别种类的曾多,账号的向量表示维度也随之增加。假设账号的离散型特征有N个,每个特征有个类别,那通One-Hot编码的方式确定的特征维度将达到,同时,特征空间变得非常稀疏,导致了维度灾难,不利于预测模型的预测准确率的提升。
基于上述问题,对于上述连续型特征,发明人提供的一种解决思路中,采用统计类数据来确定连续型特征的向量表示。例如,对于账号A,计算某一段时间内该账号的交易金额序列数据的平均值、众数,或方差等来表示账号A的该连续型特征。
然而,发明人发现,上述处理方式得到的向量表示不能体现序列特征。进而,不同账号之间的向量表示也不能提升序列特征的差别,导致序列特征丢失。
针对上述序列特征丢失的问题,对于上述连续型特征,发明人提供的另一种解决思路中,采用如旋转森林(Rotation Forest)算法、计算欧氏距离或ResNet算法来体现账号的序列特征。
然而,发明人又发现,无法将序列转化为向量表示,且不能够与其他向量表示(如同账号的离散型数据的向量表示)进行融合,导致样本所表达的特征匮乏。也就是说。现有的方案无法有效地将账号的离散型数据和连续型特征综合体现在账号的特征表示中。
针对相关技术中存在一种或多种技术问题,本技术方案提供一种预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备,至少在一定程度上至少在一定程度上提升样本所表达的特征越丰富程度,有利于提升通过该样本训练或测试机器学习算法的预测准确率。
以下先对本公开提供预测模型的样本确定方法实施例的进行详细阐述:
图2示意性示出了根据本公开的一实施例的预测模型的样本确定方法的流程图。具体的,参考图2,该图所示实施例包括:
步骤S210,获取节点的离散型特征和连续型特征;
步骤S220,根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;
步骤S230,根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;以及,
步骤S240,对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。
在图2所示实施例提供的技术方案中:一方面,本技术方案基于离散型特征和连续型特征确定目标节点的向量表示,有效地将账号的离散型数据和连续型特征综合体现在账号的特征表示中,有利于提升样本所表达的特征丰富度;进而,有利于提升通过该样本训练或测试机器学习算法的预测准确率以及召回率。另一方面,本技术方案对上述关联权重矩阵进行降维处理以得到目标节点的低维向量表示,其中,低维的向量表示的样本有利于提升模型训练/测试效率。
需要说明的是,该方案不仅能应用于上述风控场景中的预测模型的样本处理,也适用于信息搜索场景、广告推荐场景中的预测模型的样本处理。
本技术方案中的节点可以是账号标识,并以确定“目标节点”代表任一节点为例,说明确定该目标节点的低维向量标识。以下对图2所示实施例各个步骤的具体实施方式进行详细阐述:
本技术方案基于不同节点间特征的相似度来确定其中任意节点的向量表示。参考图2,在步骤S210中获取节点的离散型特征和连续型特征。
在示例性的实施例中,在节点为账号标识的情况下,获取与账号标识相关的离散型特征,可以包括以下信息中的一种或多种:网际互连协议IP、设备标识ID、用户特征(如,年龄、文化程度、职业等)、邮箱名和银行卡号。还获取与账号标识相关的连续型特征,例如,可以包括以下信息中的一种或多种:关于交易金额的序列数据(例如,过去三个月的交易金额明细序列等)、关于交易时间的序列数据和关于交易物品的序列数据。其中,账号A可以仅包含连续型特征,账号标识B可以仅包含离散型特征,账号标识C可以既包含连续型特征又包含离散型特征。
本技术方案基于节点的离散型特征和连续型特征两方面确定目标节点的向量表示,有效地将账号的离散型数据和连续型特征综合体现在账号的特征表示中,有利于提升样本所表达的特征丰富度。
在示例性的实施例中,参考图3,基于不同节点间离散型特征31确定第一相似度33,基于不同节点间连续型特征32确定第二相似度34。具体地,图4示意性示出了根据本公开的一实施例的节点间相似度的确定方法的流程图,可以作为步骤S220的一种具体实施方式。参考图4,该图所示实施例包括步骤S411、步骤S412以及步骤S420。
在步骤S411中,计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度。
在示例性的实施例中,图5示意性示出了根据本公开的一实施例的离散型特征的处理方法的流程图,可以作为步骤S411的一种具体实施方式。参考图5,包括:
步骤S510,获取所述目标节点的第一离散型特征集,以及所述当前节点的第二离散型特征集;步骤S520,计算所述第一离散型特征集与所述第二离散型特征集的特征重合度或编辑距离;以及,步骤S530,根据所述重合度或编辑距离确定所述第一相似度。
示例性的,上述特征重合度可以是两节点间相同的离散型特征类型的个数,与两个节点所有离散型特征类型总数的比值。具体而言,根据特征重合度确定第一相似度计算公式如下:
其中,表示节点离散型特征类型的个数,表示节点离散型特征类型的个数,表示节点与节点间相同的离散型特征类型的个数,表示节点与节点所有离散型特征类型总数。
示例性的,如果对于离散型特征的唯一性比较强,如设备ID、手机号、卡号、邮箱标识,可以根据不同节点间具有相同特征的个数(即上述特征重合度)确定两节点之间的第一相似度。假如节点a和节点b之间没有相同的离散型特征,则确定节点a和节点b的第一相似度为零。示例性的,对于离散型特征,如果数据特征唯一性比较强,如IP等,鉴于公网出口IP都相同,将根据此类离散型特征确定的第一相似度添加小于1的权重值,以降低此类离散型特征(如IP)对相似度准确度的影响。
示例性的,对于离散型特征,本技术方案还提供利用编辑距离(Edit distance,简称:ED)确定上述第一相似度。具体而言,根据编辑距离确定第一相似度计算公式如下:
其中,表示节点与节点之间的编辑距离分别表示节点的字符长度与节点的字符长度。
示例性的,对于恶意账号间往往存在的类似特征,如邮箱名、注册姓名等。例如,恶意账号的邮箱名可能是abcd_e@gmail.com、abc_de@gmail.com、ab_cde@gmail.com等,可见邮箱名相似,但是并不相同,为了提升第一相似度的准确度,而采用上述公式计算节点的第一相似度。
继续参考图4,在步骤S412中,计算所述目标节点的连续型特征,与所述当前节点的连续型特征之间的第二相似度。
在示例性的实施例中,图6示意性示出了根据本公开的一实施例的连续型特征的处理方法的流程图,可以作为步骤S412的一种具体实施方式。参考图6,包括:
步骤S610,获取所述目标节点的第一连续型特征集,以及获取其他节点中所述当前节点的第二连续型特征集;步骤S620,根据动态时间规整算法,计算所述第一连续型特征集与所述第二连续型特征集的序列特征相似度;以及,步骤S630,根据所述序列特征相似度确定所述第二相似度。
示例性的,图7示意性示出了动态时间规整(Dynamic Time Warping,简称:DTW)算法来衡量两个节点(A1和A2)之间的相似度的示意图。在本实施例中,上述节点A1可以表示上述第一连续型特征集,如节点A1在某时间段内的交易金额序列;上述节点A2可以表示上述第二连续型特征集,如可以表示节点A2在某时间段内的交易金额序列。进而通过DTW能够计算第一连续型特征集与第二连续型特征集的序列特征相似度。
例如,在风控场景中,恶意账号按照时间顺序从高到低尝试充值金额,以不断地探测风控系统对充值额度的限制。若采用相关技术中仅计算连续性特征的统计数据来确定节点的向量表示的方式,则无法将恶意账号的上述序列特征表现在其所对应的节点向量中。然而,本技术方案通过上述DTW的方式可以有效避免序列特征的丢失,从而有利于样本向量所表达的特征丰富度。
另外,相比于另一种相关技术提供的采用的欧几里得Euclidean距离的方式中,其只能计算相同长度序列的时间序列间的相似度。本技术方案采用的DTW能够衡量两个时间长度不同的时间序列间的相似度,从而考虑到序列数据之间的部分偏倚,进而有效对序列扭曲部分进行矫正,起到提升样本向量所表达的特征准确度。
在示例性的实施例中,对于连续性特征,在通过上述DTW的方式确定序列特征相似度的基础上,还可以计算各个节点连续性特征的统计数据(如金额序列的均值,方差等),以连同根据DTW算法确定的上述序列特征相似度一起确定上述第二相似度。
具体的,根据节点B1的连续型特征集计算第一统计特征,以及根据节点B2的连续型特征集计算第二统计特征,并通过第一统计特征和第二统计特征的比对处理,得到节点B1和节点B2间的统计特征相似度。进一步地,将根据DTW算法确定的节点B1和节点B2的序列特征相似度以及统计特征相似度,来确定节点B1和节点B2的第二相似度(即连续型特征之间的相似度)。
需要说明的是,用于确定上述第一相似度和第二相似度的方式不限于上述实施例中所列举的方式,其还可以是本技术领域内其他适用于计算相似度的方法。
继续参考图4,在步骤S420中,根据所述第一相似度和所述第二相似度确定所述目标节点和所述当前节点之间的相似度。示例性的,可以通过第一相似度和第二相似度求和的方式,确定目标节点和当前节点之间的相似度。还可以根据实际需求,分别对第一相似度和第二相似度加权后再求和的方式确定目标节点和当前节点之间的相似度。
在示例性的实施例中,继续参考图2,根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵。也可以参考图3,在根据第一相似度33和第二相似度34确定节点之间的相似度之后,进一步地确定关联权重矩阵35。
具体的,通过归一化或标准化所述目标节点和其他节点之间的相似度,得到所述目标节点和其他节点之间的权重值;以及,根据所述权重值确定所述目标节点和其他节点之间的关联权重矩阵。
本技术方案为了避免单一特征的影响,需要对节点之间的相似度进行归一化或标准化得到节点之间的权重值,从而将权重值转化为0-1之间,或者是均值为0,且方差为1的数值,最终使得权重矩阵中含有这些特征的共同表达。
示例性的,关联权重矩阵如表1所示:
表1
示例性的,参考表1,其中ID_1、ID_2…ID_n表示节点标识,其中V12与 V21值相等均表示ID_1与ID_2之间的权重值,从而,上述各个权重值确定了ID_1、ID_2…ID_n的关联权重矩阵。
在示例性的实施例中,图8示意性示出了根据本公开的另一实施例的预测模型的样本确定方法的流程图。参考图8,本技术方案可以分为两个阶段。第一阶段为基于关联权重矩阵35构建节点间的有权无向图,第二阶段为生成节点的向量表示800。
以下结合图9对上述第一阶段(即确定有权无向图)进行解释说明:
在步骤S910中,根据所述目标节点和其他节点之间的关联权重矩阵,确定所述目标节点和其他节点之间的关联距离;以及,在步骤S920中,根据所述关联距离构造关于所述目标节点和其他节点的有权无向图,以根据所述有权无向图确定所述目标节点的低维向量表示。
在示例性的实施例中,在确定节点之间的关联权重矩阵35之后,本技术方案根据节点之间的权重值确定节点间的关联距离。继续参考图3,根据节点Vm与节点Vn之间的权重值确定两节点之间的关联距离。并可以通过该关联距离的线段连接上述节点Vm和节点Vn,以进一步地形成有权无向图。
具体的算法流程用伪代码表示如下:
具体地,参考图10示出的包含节点V1-节点V9的有权无向图,根据节点V4与节点V5之间的权重值(W54ip+…+W54email)确定两节点之间的关联距离。同理,根据节点V4与节点V5之间的权重值(W54ip+…+W54email)确定两节点之间的关联距离。由于关联权重矩阵是归一化/标准化之后的数据,因此,根据权重值确定关联距离具有相同的最小单位。进而,根据关联距离确定的有权无向图中各个节点之间的距离与对应的节点之间的相似度成正比。
再次参考图8,其中确定第二阶段中的节点的向量表示800的实现方式包括三种:一种实现方式为,基于有权无向图80确定采样节点序列811,再基于预训练模型812确定节点的向量表示800;另一种实现方式为,基于有权无向图80通过Line/GraRep/Node2Vec/DVNE算法82确定节点的向量表示800;再一种实现方式为,基于关联权重矩阵35,经过SCD/MF处理来确定节点的向量表示800。
以下结合图11对上述第二阶段(即生成节点的向量表示)的一种实现方式进行解释说明:
在步骤S1110中,以所述有权无向图中的第一节点为起点,根据所述第一节点与所述第一节点的相邻节点之间的权重距离确定下一节点,以确定采样节点序列。
在示例性的实施例中,通过随机游走采样确定采样节点序列。具体地,先随机确定任意节点为采样起点,然后是从当前节点V的邻居节点中随机地选取一个节点作为下一个待采样节点。其中,根据两节点之间的权重距离确定从当前节点随机游走到其邻居节点的概率P(j),具体公式如下:
其中P(j)是下一步选择节点j的概率,weight(i,j)为节点i与节点j之间的权重。
示例性的,参考图12示出的基于有权无向图确定一节点采样节点序列。首先随机确定任意节点为起点(例如,V5),然后根据节点V5与其邻居节点之间的权重距离确定了下一节点V4,其中确定下一节点为V4的概率正比于节点V5与节点V4之间的权重值,通过该方式可以确定一采样节点序列[V5,V4,V3,V2,V1]。
在步骤S1120中,基于多个所述采样节点序列训练向量化预测算法,以基于训练后的向量化预测算法确定所述目标节点的低维向量表示。
在示例性的实施例中,可以根据预训练模型812的方式确定节点的向量表示。示例性的,参考图13,可以采用连续词包模型(Continuous Bag-Of-Words model,简称CBOW)和负采样Negative Sampling的方式,确定节点的向量表示。具体的预训练方式包括:
根据上述实施例,在节点的有权无向图中获取多个相同长度(包含的节点数目相同)的采样节点序列作为训练样本,并以序列中的某一个节点(如Vt)作为正确标签,其他节点(如Vt-2、Vt-1、Vt+1、Vt+2、)作为模型的输入。同时随机采样一些错误标签(如Vt’),并和正确标签一起被引入损失函数进行训练,则经过预训练后的模型可以预测每个节点的向量表示(如Vt)。
具体的算法流程用伪代码表示如下:
本技术方案中,针对离散型字符串往往具有种类多、直接编码维度过大等问题,以及序列数据则存在特征提取不充分,无法获取时序的特征等缺点。本技术方案首先通过关系数据预处理,将其转化为两实例间的距离,然后据此构造有权无向图,有关联的ID之间构造边,其中,边的权重正比于上述计算两节点之间数据距离。然后基于各个边的权重,利用随机游走采样得到一系列的样本序列,最后通过这些样本序列进行预训练为每个样本生成低维向量表示(如,一维向量)。从而便可以将该低维向量表示确定预测模型的样本,以训练或测试预测模型。
以下结合图8对上述第二阶段(即生成节点的向量表示)的另一种实现方式进行解释说明:
参考图8中的82:基于上述有权无向图,通过以下图表示算法中的任意一种:大规模信息网络嵌入(Large-scale Information Network Embedding, 简称:Line)算法、加权图节点向量表示GraRep(Graph Representations)算法、节点到变量Node2Vec算法和深变分网络嵌入(Deep Variational Network Embedding,简称:DVNE)算法,确定有权无向图中任意一个的低维向量表示。
以下结合图8对上述第二阶段(即生成节点的向量表示)的再一种实现方式进行解释说明:
参考图8中的83:对于关联权重矩阵35(示例性的,可以参考表1),通过奇异值分解(Singular Value Decomposition,简称:SVD)方式或矩阵分解(Matrix Factorization,简称:MF)方式对其进行降维处理,来确定有权无向图中任意一个的低维向量表示。
本实施例通过降维处理,不仅有效地降低了维度,避免了维度灾难,而且有效地提取了数据信息,过滤掉不相关数据变量。进而通过本技术方案确定样本进行模型训练/测试,能够有效提升模型的准确率,召回率以及模型的鲁棒性。
本技术方案中,不仅能够利用连续数值的序列信息,而且对于离散型数据,能够有效地减少维度。从而将离散型特征和序列特征均体现至节点的向量表示中,提升向量表示内容的丰富的。进一步地,对节点间的关联权重矩阵降维处理,以为每个节点生成一低维向量,有利于大幅降低数据维度,提升算法的效率,增加可应用性。
另外,本技术方案通过将多个离散型的特征或序列型特征融合,进一步的通过降维处理来提取信息更加精炼。示例性的,将该方案应用到云风控上,相比于工业界常用的特征处理方式,本方案对恶意账号的召回率提升3%–15%。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器(包含CPU和GPU)执行的计算机程序。例如,通过GPU实现根据上述方案确定的样本对预测模型的模型训练,或者基于训练后的预测模型,使用CPU或GPU实现对预测任务等。在该计算机程序被CPU 执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下介绍本公开的预测模型的样本确定装置实施例,可以用于执行本公开上述的预测模型的样本确定方法。
图14示意性示出本公开示例性实施例中预测模型的样本确定装置的结构图。如图14所示,上述预测模型的样本确定装置1400包括:特征获取模块1401、相似度计算模块1402、关联权重矩阵确定模块1403,以及降维处理模块1404。其中:
上述特征获取模块1401,被配置为:获取节点的离散型特征和连续型特征;
上述相似度计算模块1402,被配置为:根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;
上述关联权重矩阵确定模块1403,被配置为:根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;以及,
上述降维处理模块1404,被配置为:对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。
在本公开的一些实施例中,基于前述方案,上述相似度计算模块1402,包括:第一计算单元14021、第二计算单元14022和确定单元14023。
其中,上述第一计算单元14021被配置为:计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度;
上述第二计算单元14022被配置为:计算所述目标节点的连续型特征,与所述当前节点的连续型特征之间的第二相似度;以及,
上述确定单元14023被配置为:根据所述第一相似度和所述第二相似度确定所述目标节点和所述当前节点之间的相似度。
在本公开的一些实施例中,基于前述方案,上述第一计算单元14021被具体配置为:
获取所述目标节点的第一离散型特征集,以及所述当前节点的第二离散型特征集;计算所述第一离散型特征集与所述第二离散型特征集的特征重合度;以及,根据所述重合度确定所述第一相似度。
在本公开的一些实施例中,基于前述方案,上述第一计算单元14021还被具体配置为:
获取所述目标节点的第一离散型特征,以及获取所述当前节点的第二离散型特征;计算所述第一离散型特征与所述第二离散型特征的编辑距离;以及,根据所述编辑距离确定所述第一相似度。
在本公开的一些实施例中,基于前述方案,上述第二计算单元14022被具体配置为:
获取所述目标节点的第一连续型特征集,以及获取其他节点中所述当前节点的第二连续型特征集;根据动态时间规整算法,计算所述第一连续型特征集与所述第二连续型特征集的序列特征相似度;以及,根据所述序列特征相似度确定所述第二相似度。
在本公开的一些实施例中,基于前述方案,上述关联权重矩阵确定模块1403,被具体配置为:
归一化或标准化所述目标节点和其他节点之间的相似度,得到所述目标节点和其他节点之间的权重值;以及,根据所述权重值确定所述目标节点和其他节点之间的关联权重矩阵。
在本公开的一些实施例中,基于前述方案,上述预测模型的样本确定装置1400还包括:有权无向图构建模块1405。
其中,上述有权无向图构建模块1405被配置为:在上述关联权重矩阵确定模块1403确定所述目标节点和其他节点之间的关联权重矩阵之后:
根据所述目标节点和其他节点之间的关联权重矩阵,确定所述目标节点和其他节点之间的关联距离;以及,根据所述关联距离构造关于所述目标节点和其他节点的有权无向图,以根据所述有权无向图确定所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,上述降维处理模块1404,包括:采样节点序列确定单元14041和向量表示确定单元14042。
其中,上述采样节点序列确定单元14041被配置为:以所述有权无向图中的第一节点为起点,根据所述第一节点与所述第一节点的相邻节点之间的权重距离确定下一节点,以确定采样节点序列;
上述向量表示确定单元14042被配置为:基于多个所述采样节点序列训练向量化预测算法,以基于训练后的向量化预测算法确定所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,上述向量表示确定单元14042被具体配置为:获取多个包含节点数相同的采样节点序列作为训练样本来训练向量化预测算法。
在本公开的一些实施例中,基于前述方案,上述向量表示确定单元14042,还被配置为:
基于所述有权无向图,通过以下图表示算法中的任意一种:大规模信息网络嵌入Line算法、加权图节点向量表示GraRep算法、节点到变量Node2Vec算法和深变分网络嵌入DVNE算法,确定所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,上述降维处理模块1404,被具体配置为:
通过奇异值分解SVD方式或矩阵分解MF方式对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示。
在本公开的一些实施例中,基于前述方案,所述节点包括账号标识;其中,上述特征获取模块1401,被具体配置为:
获取与所述账号标识相关的离散型特征,包括以下信息中的一种或多种:网际互连协议IP、设备标识ID和用户特征;以及
获取与所述账号标识相关的连续型特征,包括以下信息中的一种或多种:关于交易金额的序列数据、关于交易时间的序列数据和关于交易物品的序列数据。
上述预测模型的样本确定装置中各单元的具体细节已经在说明书的预测模型的样本确定方法中进行了详细的描述,因此此处不再赘述。
图15示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图15示出的电子设备的计算机系统1500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图15所示,计算机系统1500包括处理器1501(包括:图形处理单元(GraphicsProcessing Unit,简称:GPU)、中央处理单元(Central Processing Unit,简称:CPU)),其可以根据存储在只读存储器(Read-Only Memory,简称:ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(Random Access Memory,RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中,还存储有系统操作所需的各种程序和数据。处理器(CPU或GPU)1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input /Output,简称:I/O)接口1505也连接至总线1504。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(Cathode Ray Tube,简称:CRT)、液晶显示器(Liquid Crystal Display,简称:LCD)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如局域网(Local Area Network,简称:LAN)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被处理器(CPU或GPU)1501执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,简称:EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,简称:CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。
计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。
例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,获取节点的离散型特征和连续型特征;步骤S220,根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;步骤S230,根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;以及,步骤S240,对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务端、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种预测模型的样本确定方法,其特征在于,所述方法包括:
获取账号标识的离散型特征和连续型特征,所述离散型特征包括以下信息中的一种或多种:网际互连协议IP、设备标识ID和对象特征,所述连续型特征包括以下信息中的一种或多种:关于交易金额的序列数据、关于交易时间的序列数据和关于交易物品的序列数据;
根据所述离散型特征和所述连续型特征,计算目标账号标识与其他账号标识之间的相似度;
根据所述相似度确定所述目标账号标识和其他账号标识之间的关联权重矩阵;
根据所述目标账号标识和其他账号标识之间的关联权重矩阵,确定所述目标账号标识和其他账号标识之间的关联距离;
根据所述关联距离构造关于所述目标账号标识和其他账号标识的有权无向图,以所述有权无向图中的第一账号标识为起点,根据所述第一账号标识与所述第一账号标识的相邻账号标识之间的权重距离确定下一账号标识,以确定采样账号标识序列;
基于多个所述采样账号标识序列训练向量化预测算法,以基于训练后的向量化预测算法确定所述目标账号标识的低维向量表示,并将所述目标账号标识的低维向量表示为预测模型的样本。
2.根据权利要求1所述的预测模型的样本确定方法,其特征在于,所述根据所述离散型特征和所述连续型特征,计算目标账号标识与其他账号标识之间的相似度,包括:
计算所述目标账号标识的离散型特征,与其他账号标识中当前账号标识的离散型特征之间的第一相似度;
计算所述目标账号标识的连续型特征,与所述当前账号标识的连续型特征之间的第二相似度;
根据所述第一相似度和所述第二相似度确定所述目标账号标识和所述当前账号标识之间的相似度。
3.根据权利要求2所述的预测模型的样本确定方法,其特征在于,所述计算所述目标账号标识的离散型特征,与其他账号标识中当前账号标识的离散型特征之间的第一相似度,包括:
获取所述目标账号标识的第一离散型特征集,以及所述当前账号标识的第二离散型特征集;
计算所述第一离散型特征集与所述第二离散型特征集的特征重合度;
根据所述重合度确定所述第一相似度。
4.根据权利要求2所述的预测模型的样本确定方法,其特征在于,所述计算所述目标账号标识的离散型特征,与其他账号标识中当前账号标识的离散型特征之间的第一相似度,包括:
获取所述目标账号标识的第一离散型特征,以及获取所述当前账号标识的第二离散型特征;
计算所述第一离散型特征与所述第二离散型特征的编辑距离;
根据所述编辑距离确定所述第一相似度。
5.根据权利要求2所述的预测模型的样本确定方法,其特征在于,所述计算所述目标账号标识的连续型特征,与所述当前账号标识的连续型特征之间的第二相似度,包括:
获取所述目标账号标识的第一连续型特征集,以及获取其他账号标识中所述当前账号标识的第二连续型特征集;
根据动态时间规整算法,计算所述第一连续型特征集与所述第二连续型特征集的序列特征相似度;
根据所述序列特征相似度确定所述第二相似度。
6.根据权利要求1至5中任意一项所述的预测模型的样本确定方法,其特征在于,所述根据所述相似度确定所述目标账号标识和其他账号标识之间的关联权重矩阵,包括:
归一化或标准化所述目标账号标识和其他账号标识之间的相似度,得到所述目标账号标识和其他账号标识之间的权重值;
根据所述权重值确定所述目标账号标识和其他账号标识之间的关联权重矩阵。
7.根据权利要求1所述的预测模型的样本确定方法,其特征在于,所述基于多个所述采样账号标识序列训练向量化预测算法,包括:
获取多个包含账号标识数相同的采样账号标识序列作为训练样本来训练向量化预测算法。
8.根据权利要求1所述的预测模型的样本确定方法,其特征在于,所述方法还包括:
基于所述有权无向图,通过以下图表示算法中的任意一种:大规模信息网络嵌入Line算法、加权图账号标识向量表示GraRep算法、账号标识到变量Node2Vec算法和深变分网络嵌入DVNE算法,确定所述目标账号标识的低维向量表示。
9.根据权利要求1至5任意一项所述的预测模型的样本确定方法,其特征在于,在得到所述关联权重矩阵之后,所述方法还包括:
通过奇异值分解SVD方式或矩阵分解MF方式对所述关联权重矩阵进行降维处理,得到所述目标账号标识的低维向量表示。
10.一种预测模型的样本确定装置,其特征在于,所述装置包括:
特征获取模块,被配置为:获取账号标识的离散型特征和连续型特征,所述离散型特征包括以下信息中的一种或多种:网际互连协议IP、设备标识ID和对象特征,所述连续型特征包括以下信息中的一种或多种:关于交易金额的序列数据、关于交易时间的序列数据和关于交易物品的序列数据;
相似度计算模块,被配置为:根据所述离散型特征和所述连续型特征,计算目标账号标识与其他账号标识之间的相似度;
关联权重矩阵确定模块,被配置为:根据所述相似度确定所述目标账号标识和其他账号标识之间的关联权重矩阵;
降维处理模块,被配置为:根据所述目标账号标识和其他账号标识之间的关联权重矩阵,确定所述目标账号标识和其他账号标识之间的关联距离;根据所述关联距离构造关于所述目标账号标识和其他账号标识的有权无向图,以所述有权无向图中的第一账号标识为起点,根据所述第一账号标识与所述第一账号标识的相邻账号标识之间的权重距离确定下一账号标识,以确定采样账号标识序列;基于多个所述采样账号标识序列训练向量化预测算法,以基于训练后的向量化预测算法确定所述目标账号标识的低维向量表示,并将所述目标账号标识的低维向量表示为预测模型的样本。
11.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任意一项所述的预测模型的样本确定方法。
12.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任意一项所述的预测模型的样本确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105980.7A CN111325578B (zh) | 2020-02-20 | 2020-02-20 | 预测模型的样本确定方法及装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105980.7A CN111325578B (zh) | 2020-02-20 | 2020-02-20 | 预测模型的样本确定方法及装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325578A CN111325578A (zh) | 2020-06-23 |
CN111325578B true CN111325578B (zh) | 2023-10-31 |
Family
ID=71168047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105980.7A Active CN111325578B (zh) | 2020-02-20 | 2020-02-20 | 预测模型的样本确定方法及装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325578B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204236B (zh) * | 2021-04-14 | 2022-05-20 | 华中科技大学 | 一种智能体路径跟踪控制方法 |
CN115624755B (zh) * | 2022-12-08 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002133A1 (ja) * | 2014-06-30 | 2016-01-07 | 日本電気株式会社 | 予測システムおよび予測方法 |
CN106789844A (zh) * | 2015-11-23 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN108090516A (zh) * | 2017-12-27 | 2018-05-29 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及系统 |
CN108681936A (zh) * | 2018-04-26 | 2018-10-19 | 浙江邦盛科技有限公司 | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 |
CN110162711A (zh) * | 2019-05-28 | 2019-08-23 | 湖北大学 | 一种基于网络嵌入法的资源智能推荐方法及系统 |
CN110427999A (zh) * | 2019-07-26 | 2019-11-08 | 武汉斗鱼网络科技有限公司 | 一种账号相关性评估方法、装置、设备及介质 |
CN110555305A (zh) * | 2018-05-31 | 2019-12-10 | 武汉安天信息技术有限责任公司 | 基于深度学习的恶意应用溯源方法及相关装置 |
-
2020
- 2020-02-20 CN CN202010105980.7A patent/CN111325578B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016002133A1 (ja) * | 2014-06-30 | 2016-01-07 | 日本電気株式会社 | 予測システムおよび予測方法 |
CN106789844A (zh) * | 2015-11-23 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN108090516A (zh) * | 2017-12-27 | 2018-05-29 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及系统 |
CN108681936A (zh) * | 2018-04-26 | 2018-10-19 | 浙江邦盛科技有限公司 | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 |
CN110555305A (zh) * | 2018-05-31 | 2019-12-10 | 武汉安天信息技术有限责任公司 | 基于深度学习的恶意应用溯源方法及相关装置 |
CN110162711A (zh) * | 2019-05-28 | 2019-08-23 | 湖北大学 | 一种基于网络嵌入法的资源智能推荐方法及系统 |
CN110427999A (zh) * | 2019-07-26 | 2019-11-08 | 武汉斗鱼网络科技有限公司 | 一种账号相关性评估方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
赵宇等.特征选择与空间降维概述、热点及展望.《数学的实践与认识》.2013,第43卷(第15期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111325578A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966904B (zh) | 基于多用户画像模型的信息推荐方法和相关装置 | |
CN111371767B (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN110781413B (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
CN111325578B (zh) | 预测模型的样本确定方法及装置、介质和设备 | |
CN113379449B (zh) | 多媒体资源召回方法、装置、电子设备以及存储介质 | |
CN118312329B (zh) | 异构算力集成系统下算力智能推荐方法 | |
CN115204886A (zh) | 账户识别的方法、装置、电子设备和存储介质 | |
CN111538909A (zh) | 一种信息推荐方法及装置 | |
US20230041339A1 (en) | Method, device, and computer program product for user behavior prediction | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN112966728B (zh) | 一种交易监测的方法及装置 | |
CN116578925B (zh) | 基于特征画像的行为预测方法、装置及存储介质 | |
CN113705698A (zh) | 基于点击行为预测的信息推送方法及装置 | |
CN115238676B (zh) | 招标需求热点识别方法、装置、存储介质及电子设备 | |
CN112070530A (zh) | 广告预估模型的上线评估方法及相关装置 | |
CN111860870A (zh) | 交互行为确定模型的训练方法、装置、设备及介质 | |
CN115983907A (zh) | 一种数据推荐方法、装置、电子设备及计算机可读介质 | |
CN115510318A (zh) | 用户表征模型的训练方法、用户表征方法及装置 | |
CN114625876A (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN115186096A (zh) | 针对特定类型分词的识别方法、装置、介质及电子设备 | |
CN112446738A (zh) | 广告数据处理方法、装置、介质以及电子设备 | |
CN115115036B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN110209878A (zh) | 视频处理方法、装置、计算机可读介质及电子设备 | |
CN114528496B (zh) | 多媒体数据处理方法、装置、设备及存储介质 | |
CN117708340B (zh) | 标签文本的确定方法、模型训练及调整方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40023579 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |