CN113220833A - 实体关联度的识别方法和装置 - Google Patents

实体关联度的识别方法和装置 Download PDF

Info

Publication number
CN113220833A
CN113220833A CN202110493485.2A CN202110493485A CN113220833A CN 113220833 A CN113220833 A CN 113220833A CN 202110493485 A CN202110493485 A CN 202110493485A CN 113220833 A CN113220833 A CN 113220833A
Authority
CN
China
Prior art keywords
entity
vector representation
sample
entities
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110493485.2A
Other languages
English (en)
Inventor
曾威龙
王膂
刘丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110493485.2A priority Critical patent/CN113220833A/zh
Publication of CN113220833A publication Critical patent/CN113220833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种实体关联度的识别方法和装置。根据该实施例的方法,首先获取第一实体的向量表示以及第二实体的向量表示,其中所述第一实体的向量表示以及第二实体的向量表示是预先对包含所述第一实体和所述第二实体的知识图谱进行学习后得到的,所述知识图谱的节点为所述第一实体和所述第二实体所属平台中的各实体,边为在所述平台中实体间的关系;然后确定所述第一实体的向量表示和所述第二实体的向量表示之间的相似度;接着利用所述相似度确定所述第一实体和所述第二实体之间的关联度。

Description

实体关联度的识别方法和装置
技术领域
本说明书一个或多个实施例涉及计算机应用技术领域,特别涉及实体关联度的识别方法和装置。
背景技术
随着互联网技术的迅猛发展,人们越来越多地利用互联网进行通信、学习、工作,甚至通过互联网进行交易、支付、转账、投资等经济行为。一方面这些行为可能存在一定的风险;另一方面也有一些不法分子容易利用互联网的技术缺陷、法律缺陷等进行不法行为。这些都对网络行为的安全性带来了威胁。
在很多场景下,不法交易的双方是相互勾结的,例如,双方相互勾结有预谋地进行不法交易、投资等达到洗钱的目的。那么如何对双方之间可能存在的关联进行识别成为网络行为安全性保障以及净化网络交易环境的关键。
发明内容
本说明书一个或多个实施例描述了一种实体关联度的识别方法,以便对双方实体之间的关联程度进行识别。
根据第一方面,提供了一种实体关联度的识别方法,包括:
获取第一实体的向量表示以及第二实体的向量表示;
确定所述第一实体的向量表示和所述第二实体的向量表示之间的相似度;
利用所述相似度确定所述第一实体和所述第二实体之间的关联度;
其中,所述第一实体的向量表示以及第二实体的向量表示是预先对包含所述第一实体和所述第二实体的知识图谱进行学习后得到的,所述知识图谱的节点为所述第一实体和所述第二实体所属平台中的各实体,边为在所述平台中实体间的关系。
在一个实施例中,预先对包含所述第一实体和所述第二实体的知识图谱进行学习包括:
获取利用所述第一实体和所述第二实体所属平台中的各实体和各实体间的关系构建的知识图谱;
利用所述知识图谱构建样本对,所述样本对包括正例样本和负例样本;
利用梯度下降法从所述样本对中学习各实体的向量表示以及各关系的向量表示。
在另一个实施例中,利用所述知识图谱构建样本对包括:
从所述知识图谱中选取三元组构成正例样本,所述三元组包括两个实体和该两个实体间的关系;
从所述知识图谱中包含的实体集合中随机选取实体替换三元组中的至少一个实体,构成负例样本;
所述正例样本和所述负例样本构成样本对。
在一个实施例中,所述利用梯度下降法从所述样本中学习各实体的向量表示以及各关系的向量表示包括:
初始化所述平台中各实体的向量表示和各实体间的关系的向量表示;
在每一轮迭代中依据得到的损失函数,采用梯度下降法更新各实体的向量表示和各关系的向量表示,直至达到预设的迭代停止条件;
其中,所述损失函数利用同一样本对中正例样本的距离值和负例样本的距离值之差确定,其中样本的距离值为该样本中一个实体和关系的融合向量表示与另一个实体的向量表示之间的距离。
在另一个实施例中,还包括:将预先学习得到的各实体的向量表示存储于数据库;
所述获取第一实体的向量表示以及第二实体的向量表示包括:从所述数据库查询所述第一实体的向量表示以及第二实体的向量表示。
在一个实施例中,所述实体包括交易双方,所述关系包括资金关系、业务关系、处于同一网络环境的关系或与同一实体存在关联的关系。
在另一个实施例中,在所述获取第一实体的向量表示以及第二实体的向量表示之前,还包括:
对交易的信息进行风险识别,若识别出所述交易为可疑交易,则从所述交易的信息中获取交易双方分别作为所述第一实体和所述第二实体。
在一个实施例中,还包括:
若所述第一实体和所述第二实体之间的关联度大于或等于预设关联度阈值,则标注所述交易构成合作博弈,否则,标注所述交易构成非合作博弈。
根据第二方面,提供了一种实体关联度的识别装置,包括:
向量获取单元,被配置为获取第一实体的向量表示以及第二实体的向量表示;
相似度确定单元,被配置为确定所述第一实体的向量表示和所述第二实体的向量表示之间的相似度;
关联度确定单元,被配置为利用所述相似度确定所述第一实体和所述第二实体之间的关联度;
其中,所述第一实体的向量表示以及第二实体的向量表示是预先对包含所述第一实体和所述第二实体的知识图谱进行学习后得到的,所述知识图谱的节点为所述第一实体和所述第二实体所属平台中的各实体,边为在所述平台中实体间的关系。
在一个实施例中,该装置还包括向量学习单元,被配置为预先对包含所述第一实体和所述第二实体的知识图谱进行学习;
所述向量学习单元包括:
图谱获取子单元,被配置为获取利用所述第一实体和所述第二实体所属平台中的各实体和各实体间的关系构建的知识图谱;
样本构建子单元,被配置为利用所述知识图谱构建样本对,所述样本对包括正例样本和负例样本;
向量学习子单元,被配置为利用梯度下降法从所述样本对中学习各实体的向量表示以及各关系的向量表示。
在另一个实施例中,所述样本构建子单元,具体被配置为:从所述知识图谱中选取三元组构成正例样本,所述三元组包括两个实体和该两个实体间的关系;从所述知识图谱中包含的实体集合中随机选取实体替换三元组中的至少一个实体,构成负例样本;所述正例样本和所述负例样本构成样本对。
在一个实施例中,所述向量学习子单元,具体被配置为初始化所述平台中各实体的向量表示和各实体间的关系的向量表示;在每一轮迭代中依据得到的损失函数,采用梯度下降法更新各实体的向量表示和各关系的向量表示,直至达到预设的迭代停止条件;其中,所述损失函数利用同一样本对中正例样本的距离值和负例样本的距离值之差确定,其中样本的距离值为该样本中一个实体和关系的融合向量表示与另一个实体的向量表示之间的距离。
在一个实施例中,该装置还包括:
向量存储单元,被配置为将预先学习得到的各实体的向量表示存储于数据库;
所述向量获取单元,具体被配置为从所述数据库查询所述第一实体的向量表示以及第二实体的向量表示。
在一个实施例中,所述实体包括交易双方,所述关系包括资金关系、业务关系、处于同一网络环境的关系或与同一实体存在关联的关系。
在另一个实施例中,该装置还包括:
风险识别单元,被配置为对交易的信息进行风险识别;
所述向量获取单元,具体被配置为若所述风险识别单元识别出所述交易为可疑交易,则从所述交易的信息中获取交易双方分别作为所述第一实体和所述第二实体。
在一个实施例中,该装置还包括:
标记单元,被配置为若所述第一实体和所述第二实体之间的关联度大于或等于预设关联度阈值,则标注所述交易构成合作博弈,否则,标注所述交易构成非合作博弈。
根据第三方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
根据本说明书实施例提供的方法和装置,通过对包含实体和实体间关系的知识图谱进行学习,得到各实体的向量表示,并根据实体的向量表示之间的相似度得到实体间的关联度,从而达到识别实体间关联程度的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一个实施例的实体关联度识别方法的流程图;
图2示出了根据一个实施例的对知识图谱进行学习的方法流程图;
图3示出了根据一个实施例的试题关联度的识别装置结构图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1示出了根据一个实施例的实体关联度识别方法的流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图1所示,该方法包括:
步骤101,获取第一实体的向量表示以及第二实体的向量表示;其中,第一实体的向量表示以及第二实体的向量表示是预先对包含第一实体和第二实体的知识图谱进行学习后得到的,知识图谱的节点为第一实体和第二实体所属平台中的各实体,边为在该平台中实体间的关系。
步骤103,确定第一实体的向量表示和第二实体的向量表示之间的相似度。
步骤105,利用上述相似度确定第一实体和第二实体之间的关联度。
在图1所示的方法中,通过对包含实体和实体间关系的知识图谱进行学习,得到各实体的向量表示,并根据实体的向量表示之间的相似度得到实体间的关联度,从而达到识别实体间关联程度的目的。
下面描述图1所示的各个步骤的执行方式。
在图1中步骤101之前,可以预先通过对知识图谱的学习得到各实体的向量表示。因此,首先对该过程进行详细描述。如图2中所示,该过程主要包括以下步骤:
步骤201:获取利用平台中各实体和实体间的关系构建的知识图谱。
上述平台实际上就是第一实体和第二实体所在的平台。上述实体以及实体间关系的信息可以通过平台提供的接口获取。该平台可以是诸如购物平台、金融投资平台等等。例如购物平台中实体可以指的是交易双方,即购买方和店铺方。再例如,金融投资平台中实体也可以是交易双方,例如投资方和被投资方。
在这些平台中实体之间可以存在多种关系,例如资金关系、业务关系、处于同一网络环境的关系、与同一实体存在关联的关系,等等。
其中资金关系可以是转账关系、支付关系、借贷关系等等。
业务关系可以是诸如交易关系、投资关系、合作关系等等。
处于同一网络环境的关系可以是诸如两个实体处于同一网络中、处于同一网段中、处于同一区域中、处于同一种物理介质中等等。
与同一实体存在关联的关系指的是,两个实体分别直接地或者间接地与同一实体存在关系。例如,如果实体A与实体C之间存在支付关系,实体C与实体B之间存在交易关系,那么可以认为实体A和实体B之间的关系为与实体C均存在关联。
构建的知识图谱由节点和节点之间的边构成,其中节点分别是平台中的实体,边为实体间的关系。知识图谱可以采用三元组的形式进行存储,三元组S可以记为:S={h,r,t},其中,h和t各自代表一个实体,r代表实体h和t之间的关系。
步骤203:利用知识图谱构建样本对,每一个样本对包括正例样本和负例样本。
本步骤实际上是利用已经构建的知识图谱构造批处理(batch)样本。可以从知识图谱中选取三元组构成正例样本,例如从三元组集合中选取b个三元组构造一批正例样本,正例样本集合表示为S1
然后从知识图谱包含的实体集合中随机选取实体替换三元组中的至少一个实体,构成负例样本,负例样本集合表示为S2。例如,平台上所有的实体构成实体集合E,所有的关系构成关系集合R。
某三元组{h,r,t}作为正例样本,从实体集合E中随机选取一个实体对h进行替换,得到三元组{h',r,t}作为负例样本,那么{h,r,t}和{h',r,t}可以构成一个样本对。
或者,从实体集合E中随机选取一个实体对t进行替换,得到三元组{h,r,t'}作为负例样本,那么{h,r,t}和{h,r,t'}可以构成一个样本对。
再或者,从实体集合E中随机选取两个实体分别对h和t进行替换,得到三元组{h',r,t'}作为负例样本,那么{h,r,t}和{h',r,t'}可以构成一个样本对。
也就是说,每一个样本对中正例样本和负例样本都具有相同的关系r。所有构造的样本对组成了批处理样本。
步骤205:利用梯度下降法从样本对中学习各实体的向量表示以及各关系的向量表示。
本步骤中可以首先初始化平台中各实体的向量表示和各实体间关系的向量表示。其中,初始化的各实体的向量表示和各关系的向量表示采用相同的维度,记为k。
假设所有实体的向量表示记为{e1,e2,...,em},所有关系的向量表示记为{r1,r2,...,rn},其中m和n分别为平台上实体的总数量和关系的总数量。ei表示第i个实体的向量表示,ri表示第i个关系的向量表示。在初始化时,对于实体的向量表示和关系的向量表示的每一维,可以设置为初始的固定值,也可以设置为随机值。例如,可以随机在
Figure BDA0003053325770000081
范围内随机选取值进行初始化。初始化后可以统一进行归一化处理。
在后续学习过程的每一轮迭代可以依据得到的损失函数,采用梯度下降法更新各实体的向量表示和各关系的向量表示,直至达到预设的迭代停止条件。
其中损失函数可以利用同一样本对中正例样本的距离值和负例样本的距离值之差确定,其中样本的距离值为该样本中一个实体和关系的融合向量表示与另一个实体的向量表示之间的距离。例如损失函数Loss可以表示为:
Figure BDA0003053325770000082
其中,D(h+r,t)表征实体h和关系r的融合向量表示与实体t的向量表示之间的距离,D(h'+r,t')表征实体h'和关系r的融合向量表示与实体t'的向量表示之间的距离。
实体h和关系r的融合向量表示可以是将实体h的向量表示与关系r的向量表示进行按位相加。由于实体的向量表示和关系的向量表示均是k维,因此可以将实体的向量表示中的每一位与关系的向量表示中的每一位对应进行相加,仍然得到k维的融合向量。
在计算向量表示之间的距离时可以采用欧式距离、余弦距离等。
在采用梯度下降法更新实体和关系向量的每个分量时,可以采用如下计算式:
Figure BDA0003053325770000091
其中,rij表示更新前的第i个关系的向量表示的第j个分量,rij'表示更新后的第i个关系的向量表示的第j个分量,i=1,2,...,n,j=1,2,...,k。η为预设的步长值,
Figure BDA0003053325770000094
是求导数的运算符。
Figure BDA0003053325770000092
其中,eij表示更新前的第i个实体的向量表示的第j个分量,eij'表示更新后的第i个实体的向量表示的第j个分量,i=1,2,...,m,j=1,2,...,k。η为预设的步长值,
Figure BDA0003053325770000093
是求导数的运算符。
上述计算式计算得到的rij'和eij'在下一轮迭代中重新作为计算式中的rij和eij。依次迭代下去,直至达到预设的迭代停止条件。其中迭代停止条件可以是诸如迭代次数达到预设的次数阈值,或者,损失函数值小于预设的损失函数阈值等等。
对于最终学习得到的各实体的向量表示以及各关系的向量表示可以存储于数据库中供后续查询使用。在执行上述步骤101时,可以从数据库中查询第一实体的向量表示和第二实体的向量表示。
作为其中一种比较典型的应用场景,本公开提供的方式可以应用于互联网的各种平台,例如购物平台,投资、借贷等金融平台。对于金融平台而言,存在海量的交易方和交易行为,其中不乏有一些有预谋的交易双方利用金融平台进行洗钱等非法活动。在此场景下,可以将金融平台上所有的交易方(可以是自然人,也可以是企业、机构等)作为实体。从所有交易方的行为数据获取实体间的关系,并利用上述图2所示实施例中的方式预先获得了各交易方的向量表示并存储于数据库。上述图2所示实施例的学习过程可以是周期性执行的,即会周期性更新数据库中各实体和各关系的向量表示。
在上述步骤101中,可以对金融平台中交易的信息进行风险识别,若识别出交易为可疑交易,则从该交易的信息中获取交易双方分别作为步骤101中的第一实体和第二实体。然后从数据库中查询第一实体的向量表示和第二实体的向量表示。
其中对交易的信息进行风险识别的方式可以采用现有技术中已有的风险识别策略,例如交易金额大于或等于预设的金额阈值,交易频率大于或等于预设频率阈值等等。本公开中仅仅调用对交易的信息进行风险识别的结果,因此对具体的识别方式不做详述。
如果从数据库中查询到第一实体的向量表示和第二实体的向量表示,则继续执行步骤103。如果从数据库中查询不到第一实体的向量表示或第二实体的向量表示,则说明查询不到向量表示的第一实体或第二实体是平台的新交易方。在这种情况下可以启动针对该实体(交易方)的风险评估,例如针对交易方背景、账户状况等等的评估。
在上述步骤103中,利用查询到的第一实体的向量表示和第二实体的向量表示,即交易双方的向量表示,计算相似度。在计算向量表示之间的相似度时,可以采用计算向量表示之间的欧式距离、余弦距离等方式。
在上述步骤105中,利用得到的相似度确定第一实体和第二实体之间的关联度。例如直接将相似度作为第一实体和第二实体之间的关联度,或者经过一定的处理后得到第一实体和第二实体之间的关联度。但关联度和相似度之间正相关,即相似度越高,第一实体和第二实体之间的关联度越高。
在得到交易双方的关联度后,如果关联度大于或等于预设的关联度阈值,则说明交易双方关联度很高,那么在交易场景下就构成了合作博弈环境,可以对此交易标注为合作博弈。如果关联度小于预设的关联度阈值,则说明交易双方关联度比较低,那么在交易场景下就构成了非合作博弈环境,可以对此交易标注为非合作博弈。其中关联度阈值可以设置为经验值或实验值,例如取0.4。
所谓博弈指的是遵守一定的规则,一个或几个拥有绝对理性思维的人或团队从各自允许选择的行为或策略中进行选择并加以实施,并从中各自取得相应结果或收益的过程。非合作博弈指的是在一场博弈中每个参与人独立行动,自主进行决策而与其他博弈者无关。合作博弈的意思与非合作博弈相反。
对于被标注为非合作博弈的交易,可以触发对应的后续处理流程,例如分配电话外呼任务。所谓电话外呼任务是在一笔可疑交易发生后,调查员通过主动向交易方以电话的形式进行沟通,挖掘可能的造假、掩盖、粉饰行为,寻找潜在风险,还原交易方真实身份和经济状况的任务。
对于被标注为合作博弈的交易,也可以触发对应的后续处理流程。例如现场调查任务。对于一笔可疑交易且交易双方关联度很高,那就需要调查员采用更高级别的调查任务,例如交易方的企业或住址等进行现场的经济状况和真实身份的调查。
通过本公开上述实施例提供的方式能够对交易双方的关联度进行识别,并据此标注合作博弈或非合作博弈,从而为打击利用互联网进行的金融类违法犯罪活动提供基础。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种实体关联度的识别装置。图3示出了根据一个实施例的该装置的示意性框图。可以理解,该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。该装置可以是位于服务器的应用,或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于具有较强计算功能的计算机终端,本发明实施例对此不进行特别限定。如图3所示,该装置300包括:向量获取单元310、相似度确定单元320和关联度确定单元330,还可以进一步包括:向量学习单元340、向量存储单元350、风险识别单元360和标记单元370。其中各组成单元的主要功能如下:
向量获取单元310,被配置为获取第一实体的向量表示以及第二实体的向量表示。
相似度确定单元320,被配置为确定第一实体的向量表示和第二实体的向量表示之间的相似度。
关联度确定单元330,被配置为利用相似度确定第一实体和第二实体之间的关联度。
其中,第一实体的向量表示以及第二实体的向量表示是预先对包含第一实体和第二实体的知识图谱进行学习后得到的,知识图谱的节点为第一实体和第二实体所属平台中的各实体,边为在平台中实体间的关系。
向量学习单元340,被配置为预先对包含第一实体和第二实体的知识图谱进行学习。
作为其中一种可实现的方式,向量学习单元340可以具体包括:图谱获取子单元341、样本构建子单元342和向量学习子单元343。
其中,图谱获取子单元341,被配置为获取利用第一实体和第二实体所属平台中的各实体和各实体间的关系构建的知识图谱。
上述平台实际上就是第一实体和第二实体所在的平台。该平台可以是诸如购物平台、金融投资平台等等。例如购物平台中实体可以指的是交易双方,即购买方和店铺方。再例如,金融投资平台中实体也可以是交易双方,例如投资方和被投资方。
在这些平台中实体之间可以存在多种关系,例如资金关系、业务关系、处于同一网络环境的关系、与同一实体存在关联的关系,等等。
样本构建子单元342,被配置为利用知识图谱构建样本对,样本对包括正例样本和负例样本。
作为一种优选的实施方式,样本构建子单元342可以具体被配置为:从知识图谱中选取三元组构成正例样本,三元组包括两个实体和该两个实体间的关系;从知识图谱中包含的实体集合中随机选取实体替换三元组中的至少一个实体,构成负例样本;正例样本和负例样本构成样本对。
向量学习子单元343,被配置为利用梯度下降法从样本对中学习各实体的向量表示以及各关系的向量表示。
其中,向量学习子单元343可以具体被配置为:初始化平台中各实体的向量表示和各实体间的关系的向量表示;在每一轮迭代中依据得到的损失函数,采用梯度下降法更新各实体的向量表示和各关系的向量表示,直至达到预设的迭代停止条件。
其中,损失函数可以利用同一样本对中正例样本的距离值和负例样本的距离值之差确定,其中样本的距离值为该样本中一个实体和关系的融合向量表示与另一个实体的向量表示之间的距离。
其中迭代停止条件可以是诸如迭代次数达到预设的次数阈值,或者,损失函数值小于预设的损失函数阈值等等。
实体和关系的融合向量表示可以是将该实体的向量表示与该关系的向量表示进行按位相加。在计算向量表示之间的距离时可以采用欧式距离、余弦距离等。
向量存储单元350,被配置为将预先学习得到的各实体的向量表示存储于数据库。
相应地,向量获取单元310,具体被配置为从数据库查询第一实体的向量表示以及第二实体的向量表示。
作为一种典型的应用场景,上述实体包括交易双方,关系包括资金关系、业务关系、处于同一网络环境的关系或与同一实体存在关联的关系。
风险识别单元360,被配置为对交易的信息进行风险识别。其中对交易的信息进行风险识别的方式可以采用现有技术中已有的风险识别策略,例如交易金额大于或等于预设的金额阈值,交易频率大于或等于预设频率阈值等等。
相应地,向量获取单元310可以具体被配置为若风险识别单元识别出交易为可疑交易,则从交易的信息中获取交易双方分别作为第一实体和第二实体。
标记单元370,被配置为若第一实体和第二实体之间的关联度大于或等于预设关联度阈值,则标注交易构成合作博弈,否则,标注交易构成非合作博弈。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图1、图2所描述的方法。
随着时间、技术的发展,计算机可读存储介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本说明书中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图1、图2所述的方法。
上述的处理器可包括一个或多个单核处理器或多核处理器。处理器可包括任何一般用途处理器或专用处理器(如图像处理器、应用处理器基带处理器等)的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (17)

1.实体关联度的识别方法,包括:
获取第一实体的向量表示以及第二实体的向量表示,其中,所述第一实体的向量表示以及第二实体的向量表示是预先对包含所述第一实体和所述第二实体的知识图谱进行学习后得到的,所述知识图谱的节点为所述第一实体和所述第二实体所属平台中的各实体,边为在所述平台中实体间的关系;
确定所述第一实体的向量表示和所述第二实体的向量表示之间的相似度;
利用所述相似度确定所述第一实体和所述第二实体之间的关联度。
2.根据权利要求1所述的方法,其中,预先对包含所述第一实体和所述第二实体的知识图谱进行学习包括:
获取利用所述第一实体和所述第二实体所属平台中的各实体和各实体间的关系构建的知识图谱;
利用所述知识图谱构建样本对,所述样本对包括正例样本和负例样本;
利用梯度下降法从所述样本对中学习各实体的向量表示以及各关系的向量表示。
3.根据权利要求2所述的方法,其中,利用所述知识图谱构建样本对包括:
从所述知识图谱中选取三元组构成正例样本,所述三元组包括两个实体和该两个实体间的关系;
从所述知识图谱中包含的实体集合中随机选取实体替换三元组中的至少一个实体,构成负例样本;
所述正例样本和所述负例样本构成样本对。
4.根据权利要求2所述的方法,其中,所述利用梯度下降法从所述样本中学习各实体的向量表示以及各关系的向量表示包括:
初始化所述平台中各实体的向量表示和各实体间的关系的向量表示;
在每一轮迭代中依据得到的损失函数,采用梯度下降法更新各实体的向量表示和各关系的向量表示,直至达到预设的迭代停止条件;
其中,所述损失函数利用同一样本对中正例样本的距离值和负例样本的距离值之差确定,其中样本的距离值为该样本中一个实体和关系的融合向量表示与另一个实体的向量表示之间的距离。
5.根据权利要求1所述的方法,还包括:将预先学习得到的各实体的向量表示存储于数据库;
所述获取第一实体的向量表示以及第二实体的向量表示包括:从所述数据库查询所述第一实体的向量表示以及第二实体的向量表示。
6.根据权利要求1至5中任一项所述的方法,其中,所述实体包括交易双方,所述关系包括资金关系、业务关系、处于同一网络环境的关系或与同一实体存在关联的关系。
7.根据权利要求6所述的方法,在所述获取第一实体的向量表示以及第二实体的向量表示之前,还包括:
对交易的信息进行风险识别,若识别出所述交易为可疑交易,则从所述交易的信息中获取交易双方分别作为所述第一实体和所述第二实体。
8.根据权利要求7所述的方法,还包括:
若所述第一实体和所述第二实体之间的关联度大于或等于预设关联度阈值,则标注所述交易构成合作博弈,否则,标注所述交易构成非合作博弈。
9.实体关联度的识别装置,包括:
向量获取单元,被配置为获取第一实体的向量表示以及第二实体的向量表示;
相似度确定单元,被配置为确定所述第一实体的向量表示和所述第二实体的向量表示之间的相似度;
关联度确定单元,被配置为利用所述相似度确定所述第一实体和所述第二实体之间的关联度;
其中,所述第一实体的向量表示以及第二实体的向量表示是预先对包含所述第一实体和所述第二实体的知识图谱进行学习后得到的,所述知识图谱的节点为所述第一实体和所述第二实体所属平台中的各实体,边为在所述平台中实体间的关系。
10.根据权利要求9所述的装置,还包括向量学习单元,被配置为预先对包含所述第一实体和所述第二实体的知识图谱进行学习;
所述向量学习单元包括:
图谱获取子单元,被配置为获取利用所述第一实体和所述第二实体所属平台中的各实体和各实体间的关系构建的知识图谱;
样本构建子单元,被配置为利用所述知识图谱构建样本对,所述样本对包括正例样本和负例样本;
向量学习子单元,被配置为利用梯度下降法从所述样本对中学习各实体的向量表示以及各关系的向量表示。
11.根据权利要求10所述的装置,其中,所述样本构建子单元,具体被配置为:从所述知识图谱中选取三元组构成正例样本,所述三元组包括两个实体和该两个实体间的关系;从所述知识图谱中包含的实体集合中随机选取实体替换三元组中的至少一个实体,构成负例样本;所述正例样本和所述负例样本构成样本对。
12.根据权利要求10所述的装置,其中,所述向量学习子单元,具体被配置为初始化所述平台中各实体的向量表示和各实体间的关系的向量表示;在每一轮迭代中依据得到的损失函数,采用梯度下降法更新各实体的向量表示和各关系的向量表示,直至达到预设的迭代停止条件;其中,所述损失函数利用同一样本对中正例样本的距离值和负例样本的距离值之差确定,其中样本的距离值为该样本中一个实体和关系的融合向量表示与另一个实体的向量表示之间的距离。
13.根据权利要求9所述的装置,还包括:
向量存储单元,被配置为将预先学习得到的各实体的向量表示存储于数据库;
所述向量获取单元,具体被配置为从所述数据库查询所述第一实体的向量表示以及第二实体的向量表示。
14.根据权利要求9至13中任一项所述的装置,其中,所述实体包括交易双方,所述关系包括资金关系、业务关系、处于同一网络环境的关系或与同一实体存在关联的关系。
15.根据权利要求14所述的装置,还包括:
风险识别单元,被配置为对交易的信息进行风险识别;
所述向量获取单元,具体被配置为若所述风险识别单元识别出所述交易为可疑交易,则从所述交易的信息中获取交易双方分别作为所述第一实体和所述第二实体。
16.根据权利要求15所述的装置,还包括:
标记单元,被配置为若所述第一实体和所述第二实体之间的关联度大于或等于预设关联度阈值,则标注所述交易构成合作博弈,否则,标注所述交易构成非合作博弈。
17.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN202110493485.2A 2021-05-07 2021-05-07 实体关联度的识别方法和装置 Pending CN113220833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110493485.2A CN113220833A (zh) 2021-05-07 2021-05-07 实体关联度的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110493485.2A CN113220833A (zh) 2021-05-07 2021-05-07 实体关联度的识别方法和装置

Publications (1)

Publication Number Publication Date
CN113220833A true CN113220833A (zh) 2021-08-06

Family

ID=77091260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110493485.2A Pending CN113220833A (zh) 2021-05-07 2021-05-07 实体关联度的识别方法和装置

Country Status (1)

Country Link
CN (1) CN113220833A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836313A (zh) * 2021-09-13 2021-12-24 北京信息科技大学 一种基于图谱的审计信息识别方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647258A (zh) * 2018-01-24 2018-10-12 北京理工大学 一种基于实体关联性约束的表示学习方法
CN109472023A (zh) * 2018-10-19 2019-03-15 中国人民解放军国防科技大学 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质
CN110796254A (zh) * 2019-10-30 2020-02-14 南京工业大学 一种知识图谱推理方法、装置、计算机设备及存储介质
CN110909172A (zh) * 2019-10-22 2020-03-24 中国船舶重工集团公司第七0九研究所 一种基于实体距离的知识表示学习方法
CN111460155A (zh) * 2020-03-31 2020-07-28 北京邮电大学 一种基于知识图谱的信息可信度评估方法及装置
CN111930957A (zh) * 2020-06-28 2020-11-13 国家计算机网络与信息安全管理中心 实体间亲密度的分析方法、装置、电子设备以及存储介质
CN112667877A (zh) * 2020-12-25 2021-04-16 陕西师范大学 一种基于旅游知识图谱的景点推荐方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647258A (zh) * 2018-01-24 2018-10-12 北京理工大学 一种基于实体关联性约束的表示学习方法
CN109472023A (zh) * 2018-10-19 2019-03-15 中国人民解放军国防科技大学 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质
CN110909172A (zh) * 2019-10-22 2020-03-24 中国船舶重工集团公司第七0九研究所 一种基于实体距离的知识表示学习方法
CN110796254A (zh) * 2019-10-30 2020-02-14 南京工业大学 一种知识图谱推理方法、装置、计算机设备及存储介质
CN111460155A (zh) * 2020-03-31 2020-07-28 北京邮电大学 一种基于知识图谱的信息可信度评估方法及装置
CN111930957A (zh) * 2020-06-28 2020-11-13 国家计算机网络与信息安全管理中心 实体间亲密度的分析方法、装置、电子设备以及存储介质
CN112667877A (zh) * 2020-12-25 2021-04-16 陕西师范大学 一种基于旅游知识图谱的景点推荐方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836313A (zh) * 2021-09-13 2021-12-24 北京信息科技大学 一种基于图谱的审计信息识别方法与系统
CN113836313B (zh) * 2021-09-13 2022-11-25 北京信息科技大学 一种基于图谱的审计信息识别方法与系统

Similar Documents

Publication Publication Date Title
CN110245598B (zh) 对抗样本生成方法、装置、介质和计算设备
CN109271418B (zh) 可疑团伙识别方法、装置、设备及计算机可读存储介质
CN112600810B (zh) 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置
CN113536383B (zh) 基于隐私保护训练图神经网络的方法及装置
US20180033010A1 (en) System and method of identifying suspicious user behavior in a user's interaction with various banking services
CN111428217B (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN109118053B (zh) 一种盗卡风险交易的识别方法和装置
CN113240505B (zh) 图数据的处理方法、装置、设备、存储介质及程序产品
CN110570188A (zh) 用于处理交易请求的方法和系统
CN110008402B (zh) 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法
CN111353554B (zh) 预测缺失的用户业务属性的方法及装置
CN109101835A (zh) 基于区块链的相亲交友平台的信息安全管理方法及装置
WO2021118413A2 (en) Data processing method, comprising secure multilateral computing and data analysis methods
CN113220833A (zh) 实体关联度的识别方法和装置
CN110020593B (zh) 信息处理方法及装置、介质及计算设备
CN111062019A (zh) 用户攻击检测方法、装置、电子设备
US20240135211A1 (en) Methods and apparatuses for performing model ownership verification based on exogenous feature
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN111383116A (zh) 用于确定交易关联性的方法及装置
Wang Analysis of financial business model towards big data and its applications
CN112750038A (zh) 交易风险的确定方法、装置和服务器
CN112507323A (zh) 基于单向网络的模型训练方法、装置和计算设备
CN110516713A (zh) 一种目标群体识别方法、装置及设备
CN115170136A (zh) 更新可信模型的方法及装置
CN112035677A (zh) 基于知识图谱的诈骗人员发现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806