CN109597851B - 基于关联关系的特征提取方法和装置 - Google Patents

基于关联关系的特征提取方法和装置 Download PDF

Info

Publication number
CN109597851B
CN109597851B CN201811125901.8A CN201811125901A CN109597851B CN 109597851 B CN109597851 B CN 109597851B CN 201811125901 A CN201811125901 A CN 201811125901A CN 109597851 B CN109597851 B CN 109597851B
Authority
CN
China
Prior art keywords
main body
vector
degree
current
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811125901.8A
Other languages
English (en)
Other versions
CN109597851A (zh
Inventor
李龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811125901.8A priority Critical patent/CN109597851B/zh
Publication of CN109597851A publication Critical patent/CN109597851A/zh
Application granted granted Critical
Publication of CN109597851B publication Critical patent/CN109597851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供一种基于关联关系的特征提取方法,所述关联关系建立在N个主体之间,N为大于1的自然数;所述方法包括:根据主体之间的关联关系生成单个主体的N维基础向量;将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量;所述降维模型是输入为N维向量、输出为M维向量的限制玻尔兹曼机模型,采用若干个所述主体的基础向量作为样本进行模型训练,M为小于N的自然数。

Description

基于关联关系的特征提取方法和装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种基于关联关系的特征提取方法和装置。
背景技术
随着互联网的发展和普及,各种基于网络进行的活动都在源源不断的产生数据。数据挖掘技术能够从大量的数据中发现有价值的知识、模式、规则等信息,为科学研究、商业决策、过程控制等提供辅助支持,成为数据利用的重要方式。
在一些应用场景中,用于挖掘的数据记录能够体现相同或者不同类型的主体之间的关联关系。例如,可以通过转账记录在付款方与收款方之间建立关联关系;在账户登录记录中,账户与登录时所使用的设备之间具有关联关系。在针对关联关系进行数据挖掘时,从关联关系提取出的特征的维度、值域等会极大的影响数据挖掘的运算量。尤其对主体数量大、关联度高的应用场景中,降低计算压力、提高数据挖掘的速度对及时满足不断变化的业务要求具有重要的意义。
发明内容
有鉴于此,本说明书提供一种基于关联关系的特征提取方法,所述关联关系建立在N个主体之间,N为大于1的自然数;所述方法包括:
根据主体之间的关联关系生成单个主体的N维基础向量;
将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量;所述降维模型是输入为N维向量、输出为M维向量的限制玻尔兹曼机模型,采用若干个所述主体的基础向量作为样本进行模型训练,M为小于N的自然数。
本说明书还提供了一种基于关联关系的特征提取装置,所述关联关系建立在N个主体之间,N为大于1的自然数;所述装置包括:
基础向量单元,用于根据主体之间的关联关系生成单个主体的N维基础向量;
降维输出单元,用于将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量;所述降维模型是输入为N维向量、输出为M维向量的限制玻尔兹曼机模型,采用若干个所述主体的基础向量作为样本进行模型训练,M为小于N的自然数。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述基于关联关系的特征提取方法所述的步骤。
本说明书提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述基于关联关系的特征提取方法所述的步骤。
由以上技术方案可见,本说明书的实施例中,采用以N维向量为输入、以M维向量为输出的限制玻尔兹曼机模型,将描述主体之间关联关系的N维基础向量降维为二值的M维向量,来作为主体的特征向量,极大的降低了在进行相似度比较和机器学习模型训练时的计算量,提高了运算效率,加快了数据挖掘的速度。
附图说明
图1是本说明书实施例中一种基于关联关系的特征提取方法的流程图;
图2是本说明书应用示例中一种基于资金往来关系的特征提取方法的流程示意图;
图3是运行本说明书实施例的设备的一种硬件结构图;
图4是本说明书实施例中一种基于关联关系的特征提取装置的逻辑结构图。
具体实施方式
本说明书的实施例提出一种新的基于关联关系的特征提取方法,以N维基础向量描述某个主体与其他主体之间的关联关系,将基础向量输入限制玻尔兹曼机模型得到降维后的M维二值向量(即各个维度的可能取值为两个预定值之一的向量),并以M维向量作为该主体的特征向量,从而极大的降低了相似度比较和机器学习模型训练时的运算量,减轻了计算压力,提高了运算效率。
本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。
本说明书的实施例中,从用来进行数据挖掘的数据源中,能够提取出主体之间的关联关系。其中,数据源可以是各种各样网络活动的记录,网络活动可以与用户相关,例如用户通过账户发起请求、服务端对用户请求进行响应、用户A向用户B购买商品等;也可以只与网络中非用户的节点有关,如业务服务端向数据库服务端请求数据等等。主体可以是网络活动的参与方、以及进行这些网络活动时所需要使用的各种资源中的部分或全部。其中,网络活动的参与方可以是用户账户、提供某项网络服务的服务端等;需要使用的各种资源可以是用户设备的标识(即设备的唯一标识,如安卓设备的Device-ID、苹果设备的唯一设备识别符等)、用户设备的IMEI(International Mobile Equipment Identity,国际移动设备身份码)、用户设备接入网络的WiFi(无线保真)标识、用户移动终端号码、用户设备或运行服务端的设备的MAC(Media Access Control,媒体访问控制)地址、用户设备或运行服务端的设备的IP地址等等,在一些特定的业务过程中还可以是用户的身份证号、银行卡号等。
网络活动的进行通常需要多个主体的参与,一个具体的网络活动在其所涉及的各个主体之间建立了关联关系。例如,用户A使用手机C向用户B购买商品,则这一购买商品的网络活动在用户A、手机C和用户B这三个主体的两两之间都可以建立关联关系。
本说明书的实施例中,以用来进行数据挖掘的数据源为基础,可以构建出其中记录的网络活动所涉及的所有主体之间的关联关系。可以根据实际应用场景的特点和数据挖掘需求,来选择将数据源中的哪些网络活动的参与方、和/或进行网络活动时需要使用的哪些资源作为主体,以及确定当实施的网络活动具备哪些特点时在这些主体之间建立关联关系;均不做限定
本说明书的实施例中,基于关联关系的特征提取方法的流程如图1所示。上述关联关系建立在N(N为大于1的自然数)个主体之间。
步骤110,根据主体之间的关联关系生成单个主体的N维基础向量。
对N个主体中确定的某一个主体(以下称之为当前主体),都可以用一个N维向量来描述当前主体与其他主体之间的关联关系,称为当前主体的N维基础向量。基础向量的每一维代表N个主体中的一个(包括当前主体自己),该维度的值用来量化该维度所代表的主体与当前主体之间的关联程度。其中,主体之间的关联程度可以包括主体之间有无关联、以及有关联的主体之间的关联强弱度。
在一些应用场景中,对数据挖掘而言有意义的关联关系不仅包括两个主体之间直接的关联关系,还包括两个没有直接关联关系的主体之间以其他主体为中介建立的关联关系。本说明书的实施例中,如果当前主体与某个其他主体之间的具有关联关系,则该其他主体为当前主体的一度关联主体,当前主体与其一度关联主体之间的关联关系称为一度关系;可见,当前主体的一度关联主体包括与当前主体具有关联关系的所有其他主体。设K为大于1的自然数,与当前主体的(K-1)度关联主体具有关联关系、并且不属于当前主体的从一度关联主体到(K-1)度关联主体的所有其他主体,是当前主体的K度关联主体;当前主体与K度关联主体之间的关联关系称为K度关系,当前主体与每个K度关联主体之间的K度关系包括K个关联关系,即从当前主体、经过将当前主体与某个K度关联主体关联起来的(K-1)个作为中介的其他主体、直到该K度关联主体的K个关联关系。在这样应用场景中,可以根据实际需要确定一个K值,当两个主体之间具有K度以内的关联关系(即从一度关系到K度关系中的任意一个)时,认为两个主体之间是有关联的,否则两个主体之间没有关联。
有关联的主体之间的关联强弱度可以从不同的角度来衡量,例如形成两个主体之间的关联关系的网络活动的次数(如两个主体之间进行了10次网络活动,比进行了一次的关联程度更紧密)、网络活动的性质(如进行转账活动的主体之间,比进行加好友的主体之间的关联程度更紧密)、网络活动的额度(如大额支付比小额支付的关联程度更紧密)等,在K度关系的应用场景中还可以包括两个主体之间的关系度数(如一度关系比三度关系的关联程度更紧密)。实际应用场景中,可以采用一个到多个角度来评价主体之间的关联强弱度,不做限定。
在量化当前主体与某个其他主体的关联程度时,可以采用二值来区分这两个主体之间有无关联,如有关联赋值1,无关联赋值0;也可以采用多个实值,不仅区分这两个主体之间有关关联,而且在有关联时反映出关联强弱度,如在无关联赋值0,在有关联时按照关联强弱度从1到5赋值。
可以根据实际应用场景中网络活动的特点、主体的特性、以及数据挖掘的具体需求等因素,来决定在生成单个主体的基础向量时,如何确定两个主体之间有无关联、是否考虑关联强弱度、以及在考虑关联强弱度时如何衡量关联强弱度,本说明书的实施例均不做限定。以下给出几个例子来进行说明。
第一个例子:按照当前主体与其他主体之间的一度关系来生成当前主体的基础向量。即,在当前主体的基础向量中对应于某个其他主体的维度,以不同的值来表示当前主体与该其他主体之间是否具有一度关系、以及一度关系的关联强弱度。
第二个例子:按照当前主体与其他主体之间符合第一筛选条件的关联关系,生成当前主体的基础向量。即,采用第一筛选条件对当前主体与其他主体之间的一度关系进行筛选,在与某个其他主体的一度关系符合第一筛选条件时认为与该其他主体有关联,否则认为与该其他主体没有关联;在当前主体的基础向量中对应于该其他主体的维度,以不同的值表示当前主体与该其他主体之间是否有关联。此外,在有关联时,还可以以不同的值表示关联强弱度。其中,第一筛选条件可以参考衡量一度关系的关联强弱度的各个因素来设置,不做限定。
第三个例子:查找当前主体与其他主体之间的K度关系,按照当前主体与其他主体之间的一度关系到K度关系,生成当前主体的基础向量。即,如果当前主体与某个其他主体之间具有从一度关系到K度关系中的某一个,则认为当前主体与该其他主体有关联,否则认为当前主体与该其他主体无关联;在当前主体的基础向量中对应于该其他主体的维度,以不同的值表示当前主体与该其他主体之间是否有关联。此外,在有关联时,还可以以不同的值表示关联强弱度。
第四个例子:查找当前主体与其他主体之间的K度关系,按照当前主体与其他主体之间的符合第二筛选条件的一度关系到K度关系,生成当前主体的基础向量。即:如果当前主体与某个其他主体之间具有从一度关系到K度关系中的某一个,并且所具有的某度关系满足第二筛选条件,则认为当前主体与该其他主体有关联,否则认为当前主体与该其他主体无关联;在当前主体的基础向量中对应于该其他主体的维度,以不同的值表示当前主体与该其他主体之间是否有关联。此外,在有关联时,还可以以不同的值表示关联强弱度。其中,第二筛选条件针对从一度关系到K度关系中的一个到多个,参考衡量关联强弱度的各个因素来设置,不做限定。
对在当前主体的基础向量中对应于当前主体的维度,可以取值为某个既定值,该既定值可以与对应于某个其他主体的维度的取值相同,也可以与所有对应于所有其他主体的维度的取值均不同,不做限定。
步骤120,将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为该主体的特征向量。
本说明书的实施例中,采用限制玻尔兹曼机(RBM,Restricted BoltzmannMachine)模型来生成降维模型。限制玻尔兹曼机模型是一种可通过输入数据集学习概率分布的随机生成神经网络,由输入层和隐藏层组成,可以用来将高维度的输入数据转化成一个较低维度的二值输出数据。
对二值的主体基础向量,降维模型可以采用二值到二值的限制玻尔兹曼机模型;对实值到二值的主体基础向量,降维模型可以采用实值到二值的限制玻尔兹曼机模型。
降维模型的输入为主体的N维基础向量,输出为主体的M(M为小于N的自然数)维特征向量。在训练降维模型时,可以采用若干个主体的基础向量作为训练样本进行无监督学习,即用步骤110中生成的所有主体基础向量中的部分到全部进行无监督模型训练。
在降维模型训练完毕后,将某个主体的基础向量输入到降维模型,降维模型的输入的二值向量即为该主体的特征向量。
在一些应用场景中,用来进行数据挖掘的数据源中包括两种以上类型的主体,而数据挖掘主要是针对其中一种到多种特定类型的主体来进行,这些特定类型即为本说明书实施例中的目标类型。其中,主体类型的划分可以根据实际应用场景中不同主体对数据挖掘结果的影响来确定,例如在某个账户使用的设备数量对挖掘结果有一定的影响的应用场景中,可以将账户作为一种主体类型,将用户使用的设备作为另一种主体类型;再如,在数据源中记录的网络活动无需登录即可进行、并且网络活动是否由相同账户或相同设备进行对挖掘结果基本没有影响的应用场景中,可以将账户和用户使用的设备作为一种主体类型。目标类型可以根据数据挖掘的具体需求、主体类型的划分、不同类型主体对挖掘结果的影响等因素来确定,例如,在识别黑产团伙的应用场景中,账户通常是挖掘目标类型;再如,在以用户端设备来预测用户消费行为的应用场景中,可以将手机和平板电脑这两种主体类型都作为挖掘目标类型。
在这样的应用场景中,可以只生成目标类型主体的基础向量,即根据与其他主体的关联关系生成每个目标类型主体的基础向量;以若干个目标类型主体的基础向量构成训练样本对降维模型进行训练,训练完毕后,将某个目标类型主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述目标类型主体的特征向量。
可见,本说明书的实施例中,以N维基础向量描述某个主体与其他主体之间的关联关系,采用以N维向量为输入、以M维向量为输出的限制玻尔兹曼机模型,将N维基础向量降维为M维特征向量,极大的降低了相似度比较和机器学习模型训练时的运算量,提高了运算效率,加快了数据挖掘的速度。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一个应用示例中,第三方支付平台以预定时间段内用户账户之间的资金往来记录为数据源,通过用户账户之间的资金往来关系,来发现协同从事非法行为的黑产团伙。反映某个账户与其他账户之间的资金往来关系的特征,是用于黑产团伙发现的机器学习模型的重要输入变量。第三方支付平台采用图2所示的流程来进行基于资金往来关系(一种关联关系)的特征提取。
步骤210,关联关系图构建:以数据源中资金往来记录为依据,以账户作为主体,在数据源涉及的所有账户之间建立关联关系。具体而言,以数据源涉及的每个账户(即每个主体)为一个节点,以账户之间曾经发生资金往来活动为边,生成反映资金往来的关联关系图。设关联关系图中共N个节点(即账户总数为N)。
步骤220,邻居发现及基础向量生成:为每个节点生成一个N维向量作为该节点的基础向量,所有基础向量的每一个维度对应于关联关系图中的一个节点。
分别以关联关系图中的每个节点作为当前主体,查找与该节点通过边直接相连的每个邻居,作为当前主体的一度关联主体;再查找该节点与该节点每个邻居通过边直接相连的节点,将这些节点中除当前主体及其一度关联主体以外的节点作为当前节点的二度关联主体。如果某个其他节点是当前节点的一度关联主体或二度关联主体,则将当前节点的基础向量中对应于该其他节点的维度值置为1,否则置为0。基础向量中对应于当前节点的维度值置为1。重复上述过程
对所有节点执行上述过程,可以得到N个节点的基础向量。
步骤230,降维模型训练:以输入为N维向量、输出为二值M维向量的限制玻尔兹曼机模型作为降维模型,以N个节点的基础向量中的一部分作为训练样本,对降维模型进行无监督训练。
步骤240,降维模型保存:保存训练完毕的降维模型。
步骤250,特征压缩:将节点的基础向量输入保存的降维模型,即可得到该节点的M维二值特征向量。
与上述流程实现对应,本说明书的实施例还提供了一种基于关联关系的特征提取装置。该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图3所示的CPU、内存以及存储器之外,基于关联关系的特征提取装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图4所示为本说明书实施例提供的一种基于关联关系的特征提取装置,所述关联关系建立在N个主体之间,N为大于1的自然数;所述装置包括基础向量单元和降维输出单元,其中:基础向量单元用于根据主体之间的关联关系生成单个主体的N维基础向量;降维输出单元用于将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量;所述降维模型是输入为N维向量、输出为M维向量的限制玻尔兹曼机模型,采用若干个所述主体的基础向量作为样本进行模型训练,M为小于N的自然数。
在一种实现方式中,所述基础向量单元包括K度关系子单元和向量生成子单元,其中:K度关系子单元用于查找当前主体与其他主体之间的K度关系,K为大于1的自然数;每个所述K度关系为当前主体与当前主体的某个K度关联主体之间的K个关联关系;所述当前主体的K度关联主体包括与当前主体的(K-1)度关联主体具有关联关系、并且不属于当前主体的一度关联主体到(K-1)度关联主体的所有其他主体;所述当前主体的一度关联主体包括与当前主体具有关联关系的所有其他主体;向量生成子单元用于按照当前主体与其他主体之间的一度关系到K度关系,生成当前主体的N维基础向量;所述一度关系为当前主体与当前主体的一度关联主体之间的关联关系。
上述实现方式中,所述向量生成子单元具体用于:按照当前主体与其他主体之间符合第二筛选条件的一度关系到K度关系,生成当前主体的N维基础向量。
可选的,所述基础向量单元具体用于:按照当前主体与其他主体之间符合第一筛选条件的关联关系,生成当前主体的N维基础向量。
可选的,所述主体包括至少两种类型,其中至少一种类型为目标类型;所述基础向量单元具体用于:根据与其他主体的关联关系生成每个目标类型主体的N维基础向量;所述降维输出单元具体用于:将某个目标类型主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述目标类型主体的特征向量;所述降维模型采用若干个所述目标类型主体的基础向量作为样本进行模型训练。
可选的,所述降维模型为实值到二值的玻尔兹曼机模型、或二值到二值的玻尔兹曼机模型。
本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中基于关联关系的特征提取方法的各个步骤。对基于关联关系的特征提取方法的各个步骤的详细描述请参见之前的内容,不再重复。
本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中基于关联关系的特征提取方法的各个步骤。对基于关联关系的特征提取方法的各个步骤的详细描述请参见之前的内容,不再重复。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (14)

1.一种基于关联关系的特征提取方法,所述关联关系建立在N个主体之间,N为大于1的自然数;所述方法包括:
根据主体之间的关联关系生成单个主体的N维基础向量;所述关联关系在记录的具体网络活动所涉及的主体之间建立;所述主体包括所述网络活动的参与方、以及进行所述网络活动时所需要使用的各种资源中的部分或全部;
将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量;所述降维模型是输入为N维向量、输出为M维向量的限制玻尔兹曼机模型,采用若干个所述主体的基础向量作为样本进行模型训练,M为小于N的自然数。
2.根据权利要求1所述的方法,所述根据主体之间的关联关系生成单个主体的N维基础向量,包括:
查找当前主体与其他主体之间的K度关系,K为大于1的自然数;每个所述K度关系为当前主体与当前主体的某个K度关联主体之间的K个关联关系;所述当前主体的K度关联主体包括与当前主体的(K-1)度关联主体具有关联关系、并且不属于当前主体的一度关联主体到(K-1)度关联主体的所有其他主体;所述当前主体的一度关联主体包括与当前主体具有关联关系的所有其他主体;
按照当前主体与其他主体之间的一度关系到K度关系,生成当前主体的N维基础向量;所述一度关系为当前主体与当前主体的一度关联主体之间的关联关系。
3.根据权利要求2所述的方法,所述按照当前主体与其他主体之间的一度关系到K度关系,生成当前主体的N维基础向量,包括:按照当前主体与其他主体之间符合第二筛选条件的一度关系到K度关系,生成当前主体的N维基础向量。
4.根据权利要求1所述的方法,所述根据主体之间的关联关系生成单个主体的N维基础向量,包括:按照当前主体与其他主体之间符合第一筛选条件的关联关系,生成当前主体的N维基础向量。
5.根据权利要求1所述的方法,所述主体包括至少两种类型,其中至少一种类型为目标类型;
所述根据与其他主体的关联关系生成每个主体的N维基础向量,包括:根据与其他主体的关联关系生成每个目标类型主体的N维基础向量;
所述将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量,包括:将某个目标类型主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述目标类型主体的特征向量;
所述降维模型采用若干个所述目标类型主体的基础向量作为样本进行模型训练。
6.根据权利要求1所述的方法,所述降维模型为实值到二值的玻尔兹曼机模型、或二值到二值的玻尔兹曼机模型。
7.一种基于关联关系的特征提取装置,所述关联关系建立在N个主体之间,N为大于1的自然数;所述装置包括:
基础向量单元,用于根据主体之间的关联关系生成单个主体的N维基础向量;所述关联关系在记录的具体网络活动所涉及的主体之间建立;所述主体包括所述网络活动的参与方、以及进行所述网络活动时所需要使用的各种资源中的部分或全部;
降维输出单元,用于将某个主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述主体的特征向量;所述降维模型是输入为N维向量、输出为M维向量的限制玻尔兹曼机模型,采用若干个所述主体的基础向量作为样本进行模型训练,M为小于N的自然数。
8.根据权利要求7所述的装置,所述基础向量单元包括:
K度关系子单元,用于查找当前主体与其他主体之间的K度关系,K为大于1的自然数;每个所述K度关系为当前主体与当前主体的某个K度关联主体之间的K个关联关系;所述当前主体的K度关联主体包括与当前主体的(K-1)度关联主体具有关联关系、并且不属于当前主体的一度关联主体到(K-1)度关联主体的所有其他主体;所述当前主体的一度关联主体包括与当前主体具有关联关系的所有其他主体;
向量生成子单元,用于按照当前主体与其他主体之间的一度关系到K度关系,生成当前主体的N维基础向量;所述一度关系为当前主体与当前主体的一度关联主体之间的关联关系。
9.根据权利要求8所述的装置,所述向量生成子单元具体用于:按照当前主体与其他主体之间符合第二筛选条件的一度关系到K度关系,生成当前主体的N维基础向量。
10.根据权利要求7所述的装置,所述基础向量单元具体用于:按照当前主体与其他主体之间符合第一筛选条件的关联关系,生成当前主体的N维基础向量。
11.根据权利要求7所述的装置,所述主体包括至少两种类型,其中至少一种类型为目标类型;
所述基础向量单元具体用于:根据与其他主体的关联关系生成每个目标类型主体的N维基础向量;
所述降维输出单元具体用于:将某个目标类型主体的基础向量输入训练后的降维模型,以降维模型输出的向量作为所述目标类型主体的特征向量;
所述降维模型采用若干个所述目标类型主体的基础向量作为样本进行模型训练。
12.根据权利要求7所述的装置,所述降维模型为实值到二值的玻尔兹曼机模型、或二值到二值的玻尔兹曼机模型。
13.一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1到6任意一项所述的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1到6任意一项所述的步骤。
CN201811125901.8A 2018-09-26 2018-09-26 基于关联关系的特征提取方法和装置 Active CN109597851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811125901.8A CN109597851B (zh) 2018-09-26 2018-09-26 基于关联关系的特征提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811125901.8A CN109597851B (zh) 2018-09-26 2018-09-26 基于关联关系的特征提取方法和装置

Publications (2)

Publication Number Publication Date
CN109597851A CN109597851A (zh) 2019-04-09
CN109597851B true CN109597851B (zh) 2023-03-21

Family

ID=65957901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811125901.8A Active CN109597851B (zh) 2018-09-26 2018-09-26 基于关联关系的特征提取方法和装置

Country Status (1)

Country Link
CN (1) CN109597851B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930017B (zh) * 2019-11-19 2023-04-07 网易(杭州)网络有限公司 数据处理的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8239336B2 (en) * 2009-03-09 2012-08-07 Microsoft Corporation Data processing using restricted boltzmann machines
US9361586B2 (en) * 2009-12-07 2016-06-07 Yahoo! Inc. Method and system for invariant pattern recognition
US10095950B2 (en) * 2015-06-03 2018-10-09 Hyperverge Inc. Systems and methods for image processing
CN105975573B (zh) * 2016-05-04 2019-08-13 北京广利核系统工程有限公司 一种基于knn的文本分类方法
CN108171255A (zh) * 2017-11-22 2018-06-15 广东数相智能科技有限公司 基于图像识别的图片联想强度评分方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质

Also Published As

Publication number Publication date
CN109597851A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109063966B (zh) 风险账户的识别方法和装置
CN110874440B (zh) 一种信息推送及其模型训练的方法、装置及电子设备
CN109347787B (zh) 一种身份信息的识别方法及装置
US11580441B2 (en) Model training method and apparatus
US11315032B2 (en) Method and system for recommending content items to a user based on tensor factorization
CN112381216B (zh) 混合图神经网络模型的训练、预测方法和装置
CN107294974B (zh) 识别目标团伙的方法和装置
Abdel Magid et al. Image classification on IoT edge devices: profiling and modeling
CN110009486B (zh) 一种欺诈检测的方法、系统、设备及计算机可读存储介质
US10936961B1 (en) Automated predictive product recommendations using reinforcement learning
CN107451854B (zh) 确定用户类型的方法及装置、电子设备
CN113656699A (zh) 用户特征向量确定方法、相关设备及介质
CN111324883A (zh) 基于互联网的电商平台入侵检测方法及计算机设备
CN109597851B (zh) 基于关联关系的特征提取方法和装置
CN113743678A (zh) 一种用户信用评分预测方法及相关设备
CN116542673B (zh) 应用于机器学习的欺诈行为识别方法及系统
CN112200666A (zh) 一种特征向量的处理方法及相关装置
CN110929285B (zh) 一种隐私数据的处理方法及装置
CN112818235B (zh) 基于关联特征的违规用户识别方法、装置和计算机设备
CN114638998A (zh) 模型更新方法、装置、系统及设备
CN112036418A (zh) 用于提取用户特征的方法和装置
CN113707177B (zh) 基于语音分析识别的服务处理方法及系统
US20240311658A1 (en) Dynamic prototype learning framework for non-homophilous graphs
US20230130502A1 (en) Entity clustering
US20240354419A1 (en) System and method for selective management of vulnerabilities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant