CN115438098A - 关系挖掘方法以及装置 - Google Patents
关系挖掘方法以及装置 Download PDFInfo
- Publication number
- CN115438098A CN115438098A CN202211110371.6A CN202211110371A CN115438098A CN 115438098 A CN115438098 A CN 115438098A CN 202211110371 A CN202211110371 A CN 202211110371A CN 115438098 A CN115438098 A CN 115438098A
- Authority
- CN
- China
- Prior art keywords
- vector
- sample
- upstream
- information
- downstream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供关系挖掘方法以及装置,其中所述关系挖掘方法包括:获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,使识别出来的是否存在上下游关系的结果更加准确。
Description
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种关系挖掘方法。
背景技术
随着互联网及大数据技术的发展,迎来了数据的爆炸式增长,使得在对某些对象进行分析时非常的艰难,其中,社会关系对对象进行分析的过程有着很大的帮助,因此,从爆炸式的数据中挖掘对象之间的社会关系是非常重要的。
将社会关系作为上下游关系有,在对企业之间的上下游关系进行挖掘时,通常是依据企业之间的往来规则进行挖掘(比如,A企业法人和B企业法人有转账关系,则认为A和B有上下游关系),但是基于往来规则的不稳定性,使得挖掘得到的上下游关系存在准确率低的问题,因此,亟需一种准确率高的关系挖掘方法。
发明内容
有鉴于此,本说明书实施例提供了一种关系挖掘方法。本说明书一个或者多个实施例同时涉及一种关系挖掘装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种关系挖掘方法,包括:
获取第一对象和第二对象的对象信息;
对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;
计算第一嵌入向量与第二嵌入向量之间的相似度;
根据相似度,识别第一对象和第二对象之间是否存在上下游关系。
根据本说明书实施例的第二方面,提供了一种关系挖掘装置,包括:
获取模块,被配置为获取第一对象和第二对象的对象信息;
向量表征模块,被配置为对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;
计算模块,被配置为计算第一嵌入向量与第二嵌入向量之间的相似度;
识别模块,被配置为根据相似度,识别第一对象和第二对象之间是否存在上下游关系。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述关系挖掘方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述关系挖掘方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述关系挖掘方法的步骤。
本说明书一个实施例获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和对象图特征的嵌入向量,其中,对象属性特征表征了对象本身的属性特征,图特征表征了对象与其他对象之间的关联的特征,故融合了对象属性特征和对象图特征的嵌入向量对对象的表征会更加的准确,从而基于嵌入向量进行相似度计算,得到的相似度计算结果也更加的准确,进一步基于相似度计算结果进行识别,得到对象之间是否存在上下游关系的结果也更加的准确。
附图说明
图1是本说明书一个实施例提供的一种关系挖掘系统的结构示意图;
图2是本说明书一个实施例提供的一种关系挖掘方法的流程图;
图3是本说明书一个实施例提供的一种关系挖掘方法中的关系识别模型结构图;
图4是本说明书一个实施例提供的一种关系挖掘系统的另一种结构示意图;
图5是本说明书一个实施例提供的一种关系挖掘方法的基本流程图;
图6是本说明书一个实施例提供的一种关系挖掘方法的处理过程流程图;
图7是本说明书一个实施例提供的一种关系挖掘装置的结构示意图;
图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
上下游关系:商品、技术或服务的流向,形同水流,因相对时间点和位置的不同而形成的先后或前后顺序关系。
DSSM(Deep Structured Semantic Model):一种开源深度模型算法,通过大规模样本训练用户、项目的向量表示。
Geniepath:一种GNN(Graph Neural Networks,图神经网络)算法,从知识图谱中抽取结构信息。
TransE(Translating Embedding):是一个经典的知识表示学习,用分布式表示(distributed representation)来描述知识库中的三元组
向量检索引擎:可进行大规模向量相似度计算。
Embedding:就是用一个低维的向量表示一个对象。
上下游企业:上游企业是相对下游企业而言的,指处于行业生产和往来的初始阶段的企业和厂家,这些厂家主要生产下游企业所必需的原材料和初级产品等的厂商;下游企业主要是对原材料进行深加工和改性处理,并将原材料转化为生产和生活中的实际产品。
随着互联网及大数据技术的发展,迎来了数据的爆炸式增长,使得在对某些对象进行分析时非常的艰难,其中,社会关系对对象进行分析有着很大的帮助,因此,从爆炸式的数据中挖掘对象之间的社会关系是非常重要的。
供应链金融是国家重点倡导的金融领域。在供应链金融场景中,覆盖广、准确率高的供应链上下游关系,是供应链金融的核心。在对企业之间的供应链上下游关系进行挖掘时,通常有几种解决方式,其中一种:采用核心企业给供应商背书的方式,构造上下游关系,来实现供应链金融,但是该方式过度依赖核心企业,导致供应链金融的覆盖率低,且风险容易集中到核心企业,导致风险聚集,形成系统风险;另外一种是依据企业之间的往来规则进行挖掘(比如,A企业法人和B企业法人有转账关系,则认为A和B有上下游关系),但是基于往来规则的不稳定性,使得挖掘得到的上下游关系存在准确率低的问题,因此,亟需一种准确率高的关系挖掘方法。
为了解决上述问题,本说明书实施例通过获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和图特征的嵌入向量,而如此得到的嵌入向量更加的准确,之后基于得到的嵌入向量进行的相似度计算与使得识别出来对象之间是否存在上下游关系的结果更加的准确。
在本说明书中,提供了一种关系挖掘方法,本说明书同时涉及一种关系挖掘装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种关系挖掘系统的结构示意图,如图1所示,该系统包括服务端0101、客户端0102。
基于客户端的用户有查询两个对象之间是否存在上下游关系的需求,客户端0102与服务端0101发生交互,服务端0101从客户端0102获取第一对象和第二对象的对象信息,然后将第一对象和第二对象的对象信息进行向量表征获得第一嵌入向量和第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系,服务端0101输出识别结果至客户端0102。
具体地,通过获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和对象图特征的嵌入向量,其中,对象属性特征表征了对象本身的属性特征,图特征表征了对象与其他对象之间的关联的特征,故融合了对象属性特征和对象图特征的嵌入向量对对象的表征会更加的准确,从而基于嵌入向量进行相似度计算,得到的相似度计算结果也更加的准确,进一步基于相似度计算结果进行识别,得到对象之间是否存在上下游关系的结果也更加的准确。
参见图2,图2示出了根据本说明书一个实施例提供的一种关系挖掘方法的流程图,具体包括以下步骤。
步骤202:获取第一对象和第二对象的对象信息。
具体地,第一对象和第二对象是指需要识别上下游关系的对象,比如,两个企业:企业A和企业B。对象信息是指表征对象属性的信息,比如,企业的ID、企业的名称、企业所在的地址、企业所属的行业等等。
示例性地,获取企业A的对象信息是:ID为1、名称为a、所在地址为x;企业B的对象信息是:ID为2、名称为b、所在地址为y。
在对上下游关系进行挖掘时,是需要获取第一对象和第二对象的对象信息,以便于后续基于获取的第一对象和第二对象的对象信息进行向量表征、相似度计算等处理,识别第一对象和第二对象是否存在上下游关系。
可选地,在获取第一对象和第二对象时,一种可能的实现方式中可以是获取任意两个对象,另一种可能的实现方式中可以是从包含有很多第一对象的第一对象库中提取其中一个作为第一对象,从包含很多第二对象中的第二对象库中提取一个作为第二对象,也即第一对象和第二对象有各自对应的群体。
应用本说明书实施例的方案,通过获取第一对象和第二对象的对象信息,以便于后续对获取到的第一对象和第二对象的对象信息进行向量表征以及后续处理,以此提高对第一对象和第二对象是否存在上下游关系的识别。
步骤204:对所述第一对象和第二对象的对象信息分别进行向量表征,获得所述第一对象的第一嵌入向量和所述第二对象的第二嵌入向量,其中,所述向量表征融合了对象属性特征和对象图特征。
具体地,向量表征是指得到待表征对象的特征向量的过程。嵌入向量是指从对象中提取到的特征。对象属性特征是指对象特有的属性所生成的特征,属性具体是指某个对象的特征,比如,企业A的对象属性特征可以是企业A名称、注册地、营业类型、法人等等。对象图特征是指根据图模型或图网络得到的对象的特征,比如,通过GNN的一种geniepath算法,从知识图谱中抽取对象的结构信息得到图特征。
可选地,对第一对象和第二对象的对象信息进行向量表征的方式有很多种,一种可能的实现方式中,可以是直接将第一对象和第二对象的对象信息输入模型中进行向量表征,来得到分别对应的嵌入向量;另一种可能的实现方式中,可以是在预先已存在部分对象的向量表征结果的情况下,将第一对象和第二对象分别与已存在嵌入向量的对象进行撞库,即匹配,来得到第一对象和第二对象分别对应的嵌入向量。
应用本说明书实施例的方案,通过对获取到的第一对象和第二对象的对象信息进行向量表征,且向量表征中融合了对象属性特征和对象图特征,从而得到第一对象对应的第一嵌入向量和第二对象对应的第二嵌入向量,使得后续可以依据融合了对象属性特征和对象图特征的嵌入向量进行相似度计算,进而使得计算出来的结果更加的准确。
本说明书另一种可选的实现方式中,可以将第一对象和第二对象的对象信息输入预训练的关系识别模型中进行向量表征,来得到对应的第一嵌入向量和第二嵌入向量,也即,步骤204,可以包括如下具体步骤:
将所述第一对象和第二对象的对象信息输入预训练的关系识别模型,其中,所述关系识别模型具有包含两个向量表征通道的双塔结构;
利用第一向量表征通道的特征提取层对所述第一对象的对象信息进行特征提取,获得所述第一对象的第一对象特征,利用所述第一向量表征通道的嵌入层对所述第一对象特征进行嵌入计算,获得所述第一对象的第一嵌入向量;
利用第二向量表征通道的特征提取层对所述第二对象的对象信息进行特征提取,获得所述第二对象的第二对象特征,利用所述第二向量表征通道的嵌入层对所述第二对象特征进行嵌入计算,获得所述第二对象的第二嵌入向量。
具体地,预训练的关系识别模型是指预先训练的可以对对象之间的关系进行识别的模型,比如,将企业A与企业B输入至预训练的关系识别模型,即可得到企业A与企业B的相似度,通过判断相似度是否满足预设条件,识别得到企业A与企业B之间的关系。向量表征通道是指模型中可以对对象的对象信息进行向量表征的通道。特征提取层是指对输入对象的对象信息进行特征提取得到特征的网络层,其中,特征提取层可以是CNN(卷积神经网络)中的卷积层,通过将输入对象的对象信息经过多层卷积层进行处理,得到对象信息中不同方面的信息对应的特征,最后通过全连接层输出所需要的对象特征。嵌入层是指将特征的维度或长度进行处理,转换为固定的维度或长度的网络层,其中,嵌入层可以对输入的对象特征与预设的嵌入参数矩阵进行相乘,实现对输入的对象特征降维的目的,比如,将高维稀疏的特征转换为低维稠密的Embedding。
可选地,特征提取可以是将原始输入的信息进行维度减少得到对象的特征,还可以是将原始输入的信息中的特征进行重新组合得到对象的特征。
可选地,由于对象的原始对象信息中会包含很多冗余信息或者该些信息对应的特征维度十分稀疏,如果直接用对象的原始对象信息进行处理,可能会导致输出的结果较为低效,故需要先对对象的对象信息进行特征提取,来得到对象的对象特征。
应用本说明书实施例的方案,通过将第一对象的对象信息输入至预训练的关系识别模型中,经过特征提取层得到的第一对象的第一对象特征,又经过嵌入层进行嵌入计算,得到第一对象的第一嵌入向量,同样第二对象的对象信息先后经过特征提取层和嵌入层得到第二对象特征和第二嵌入向量,其中第一嵌入向量和第二嵌入向量经过上述预设的关系识别模型得到,使得后续基于第一嵌入向量和第二嵌入向量计算得到的相似度精确度高,进一步使得识别出来的第一对象和第二对象之间是否存在上下游关系的结果更加的准确。
本说明书另一种可选的实现方式中,特征提取层可以包括属性特征提取子模型和图特征提取子模型,利用特征提取层进行特征提取是基于属性特征提取子模型和图特征提取子模型得到的,即上述利用第一向量表征通道的特征提取层对所述第一对象的对象信息进行特征提取,获得所述第一对象的第一对象特征的步骤,包括如下具体步骤:
将所述第一对象的对象信息分别输入第一向量表征通道的属性特征提取子模型和图特征提取子模型,获得所述第一对象的第一对象属性特征和第一对象图特征;
对所述第一对象属性特征和所述第一对象图特征进行特征融合,得到所述第一对象的第一对象特征。
所述利用第二向量表征通道的特征提取层对所述第二对象的对象信息进行特征提取,获得所述第二对象的第二对象特征的步骤,包括如下具体步骤:
将所述第二对象的对象信息分别输入第二向量表征通道的属性特征提取子模型和图特征提取子模型,获得所述第二对象的第二对象属性特征和第二对象图特征。
对所述第二对象属性特征和所述第二对象图特征进行特征融合,得到所述第二对象的第二对象特征。
具体地,属性特征提取子模型是指可以对对象的对象信息进行特征提取,得到该对象的属性特征的网络模型,其中,通过属性特征提取子模型对对象内在的属性进行了特征提取,使得提取出来的对象属性特征可以表征对象内在的属性,比如可以对企业的企业地址、法人营业类型等信息对应的特征进行提取。图特征提取子模型是指可以对对象的对象信息进行特征提取,得到该对象的图特征的网络模型,其中,通过图特征提取子模型对对象及其他对象对应结构的信息进行了特征提取,使得提取出来的对象图特征表征对象与其他对象之间的关系属性,比如,企业A和企业B之间存在合作关系的信息对应的特征进行提取。特征融合是指将不同属性的特征,利用特征之间的互补性,融合特征之间的优点,达到特征融合的目的,比如,可以是将对象属性特征和对象图特征进行特征融合。
可选地,特征融合是将对象不同特性的特征进行融合,合成一个比原本分开的特征特性更明显的融合特征。
可选地,由于对象属性特征与对象图特征是不同维度的特征,故将属性特征与图特征进行融合一种可能的实现方式中可以是直接将不同特性的特征进行融合成为一个新的特征,比如,将两个特征直接进行相加;另一种可能的实现方式中可以是将特征进行拼接,得到融合特征,比如,两个特征分别为x维和y维,则拼接后的特征维数为x+y维。
应用本说明书实施例的方案,通过将第一对象的对象信息分别输入至第一向量表征通道的属性特征提取子模型和图特征提取子模型,获得所述第一对象的第一对象属性特征和第一对象图特征,并将第一对象属性特征和第一图特征进行特征融合得到第一对象特征,同样的方式,将第二对象的对象信息输入至第二向量表征通道,得到第二对象的第二对象属性特征和第二对象图特征,并进行特征融合得到第二对象特征。通过两个特征提取子模型的方式对对象的对象信息进行特征提取,并将提取得到的特征进行融合,并以融合得到的特征进行后续嵌入计算、相似度计算以及识别,使得在得到更加准确的对象的特征的基础上,识别出来的对象之间的是否存在上下游关系的结果更加的准确。
本说明书另一种可选的实现方式中,可以预先通过构建样本集,并基于样本集中包含的多个样本对中的样本对象的对象信息以及关系标签,对具有所述双塔结构的预设深度学习网络进行训练,获得训练后的关系识别模型,即,在将所述第一对象和第二对象的对象信息输入预训练的关系识别模型的步骤之前,还包括如下步骤:
构建样本集,其中,所述样本集包括多个样本对,所述样本对携带有表征所述样本对中两个样本对象之间是否存在上下游关系的关系标签;
基于所述多个样本对中样本对象的对象信息以及关系标签,对具有所述双塔结构的预设深度学习网络进行训练,获得训练后的关系识别模型。
具体地,样本集是指在对模型的各参数进行调整时的样本集,通常包括训练集和测试集。样本对是指由两个样本组成的样本对,比如可以是样本企业A和样本企业B组成一对样本对、样本企业C和样本企业D组成一对样本对。关系标签是指样本对之间的关系的标签,比如,样本企业A与样本企业B存在上下游关系的标签“存在”、样本企业C和样本企业D不存在上下游关系的标签“不存在”等等。双塔结构是指由两个输入、然后分别接一个网络层来输出特征向量,最后计算两个特征向量的相似度,比如,将第一对象和第二对象的对象信息分别输入进预训练的关系识别模型,经过特征提取层和嵌入层,分别得到第一嵌入向量和第二嵌入向量,之后可以将第一嵌入向量和第二嵌入向量做相似度计算。
可选地,构建的样本集的方式有很多种,一种可能的实现方式中,可以是由客户端提供的多个具有上下游关系的样本对、样本对对应的对象信息以及关系标签;还有一种可能的实现方式中,可以是由服务端从存储的服务器中直接获取的多个已知上下游关系的样本对、样本对对应的对象信息以及关系标签。
应用本说明书实施例的方案,通过构建包括多个样本对,且样本对携带有表征样本对中两个样本对象之间是否存在上下游关系的关系标签的样本集,并基于多个样本对和携带的关系标签对具有双塔结构的预设深度学习网络进行训练,来得到训练后的关系识别模型,基于模型训练的样本集中包括有多个样本对即关系标签使得训练出来的关系识别模型更加的准确,进一步使得识别出来的对象之间是否存在上下游关系的结果也更加准确。
本说明书另一种可选的实现方式中,可以是提取样本集中的任一样本对,并将该任一样本对输入具有所述双塔结构的预设深度学习网络,得到对应的嵌入向量,并计算相似度,根据相似度与该任一样本对携带的特定关系标签,计算得到损失值,并基于计算得到的损失值调整预设深度学习网络模型的网络参数,基于调整网络参数后的预设深度学习网络,继续基于又一任意样本对进行训练,循环,直至达到训练停止条件,即上述基于所述多个样本对中样本对象的对象信息以及关系标签,对具有所述双塔结构的预设深度学习网络进行训练,获得训练后的关系识别模型的步骤,包括如下具体步骤:
提取第一样本对,获得所述第一样本对中两个样本对象的对象信息以及特定关系标签,其中,所述第一样本对为所述样本集中的任一样本对;
将所述第一样本对中两个样本对象的对象信息输入具有所述双塔结构的预设深度学习网络,获得所述第一样本对中两个样本对象的嵌入向量,并计算所述第一样本对中两个样本对象的嵌入向量之间的相似度;
根据所述相似度和所述特定关系标签,计算损失值;
基于所述损失值调整所述预设深度学习网络的网络参数,并返回执行所述提取第一样本对,获得所述第一样本对中两个样本对象的对象信息以及特定关系标签的步骤;
在达到训练停止条件的情况下,确定完成对所述预设深度学习网络的训练,获得关系识别模型。
具体地,特定关系标签是指第一样本对中携带的两个样本对象之间是否存在上下游关系的关系标签,第一样本对是指样本集中的任一对样本对,比如,样本企业A与样本企业B携带的关系标签为“1”表示存在上下游关系、样本企业C与样本企业D携带的关系标签为“0”表示不存在上下游关系等等。
可选地,根据相似度和特定关系标签计算损失值可以是,先判断计算得到的相似度是否满足预设条件,若满足,则确定样本对中两个样本之间存在上下游关系,将存在上下游关系与特定关系标签“1”或“0”进行比对,计算得到损失值,比如,企业A与企业B的样本标签是“1”,表示二者存在上下游关系,而通过模型输出的二者的相似度结果是0.8,基于得到的数值与样本、样本标签,可以利用损失函数计算得到损失值,损失函数可以是二分类交叉熵损失函数。
可选地,在根据相似度和特定关系标签计算得到损失值之后,若损失值达到预设损失阈值,则不继续进行模型训练,即不返回执行提取第一样本对,获得第一样本对中两个样本对象的对象信息以及特定关系标签的步骤;若未达到,则继续返回执行提取第一样本对,获得第一样本对中两个样本对象的对象信息以及特定关系标签的步骤。
参见图3,图3示出了根据本说明书一个实施例提供的一种关系挖掘方法中的关系识别模型结构图。
将第一对象的对象信息和第二对象的对象信息输入预训练的关系识别模型,其中,关系识别模型包括第一向量表征通道和第二向量表征通道;
利用第一向量表征通道的特征提取层中的属性特征提取子模型和图特征提取子模型对第一对象的对象信息进行特征提取,得到第一对象属性特征和第一对象图特征,利用第二向量表征通道的特征提取层中的属性特征提取子模型和图特征提取子模型对第二对象的对象信息进行特征提取,得到第二对象属性特征和第二对象图特征;
将第一对象属性特征和第一对象图特征进行特征融合;将第二对象属性特征和第二对象图特征进行特征融合;
利用第一向量表征通道的嵌入层(嵌入层1、嵌入层2、…、嵌入层X)对第一对象特征进行嵌入计算,获得第一对象的第一嵌入向量;利用第二向量表征通道的嵌入层(嵌入层1、嵌入层2、…、嵌入层X)对第二对象特征进行嵌入计算,获得第二对象的第一嵌入向量;
计算第一嵌入向量与第二嵌入向量之间的相似度。
应用本说明书实施例的方案,通过提取第一样本对,并将第一样本对中两个样本对象的对象信息输入具有双塔结构的预设深度学习网络,来获得第一样本对中两个样本对象的嵌入向量,并计算两个样本对象的嵌入向量之间的相似度;根据所述相似度和所述特定关系标签,计算损失值,并基于损失值调整网络参数,并返回执行提取第一样本对的步骤,直至达到训练停止条件,获得关系识别模型,使得训练得到的关系识别模型对关系识别的准确率更高。
本说明书另一种可选的实现方式中,可以是通过获取多个样本对的对象行为数据,并根据多个样本对象的对象行为数据确定各样本对象之间的上下游关系,并构造正负样本对,基于构建的正负样本对,构建样本集,即上述构建样本集的步骤,包括如下具体步骤:
获取多个样本对象的对象行为数据;
根据所述多个样本对象的对象行为数据,确定各样本对象间的上下游关系;
基于具有上下游关系的样本对象,构建正样本对,其中,所述正样本对携带有表征存在上下游关系的关系标签;
对具有上下游关系的一对样本对象中的任一个进行替换,构建负样本对,其中,所述负样本对携带有表征不存在上下游关系的关系标签;
基于所述正样本对和所述负样本对,构建样本集。
具体地,对象行为数据是指对象所产生的行为对应的数据,比如对象A的发发票数据、招投标数据等等。正样本是指属于某一类别的样本,比如,存在上下游关系的样本对。负样本是指不属于某一类别的样本,比如,不存在上下游关系的样本对。
示例性地,获取得到样本企业A、样本企业B、样本企业C、样本企业D的对象行为数据,确定得到样本企业A和样本企业B存在上下游关系、样本企业C和样本企业D存在上下游关系,则将样本企业A和样本企业B、样本企业C和样本企业D分别作为两对正样本对,将样本企业A和样本企业C、样本企业A和样本企业D、样本企业B和样本企业C、样本企业B和样本企业D分别作为四对负样本对,将上述两对正样本对和四对负样本对作为样本集。
可选地,在获取多个样本对象的对象行为数据后,还可以对多个样本对象的对象行为数据进行数据清洗,将多个样本对象中存在的非经营关系的样本对象进行清除。
可选地,根据多个样本对象的对象行为数据,确定各样本对象间的上下游关系可以有多种实现方式,一种可能的实现方式中,可以是人工在输入样本对时直接输入的各样本对象间的上下游关系;另一种可能的实现方式中可以是服务端根据服务器中存储的内容直接获得的各样本对象间的上下游关系。
应用本说明书实施例的方案,通过获取多个样本对象的对象行为数据,然后根据各样本对象间的上下游关系,构建正样本对和负样本对作为样本集,使得对具有双塔结构的预设深度学习网络进行训练时,是利用多对正负样本对,对具有双塔结构的预设深度学习网络进行训练,使得训练出来的关系识别模型的准确度更高。
步骤206:计算所述第一嵌入向量与所述第二嵌入向量之间的相似度。
具体地,相似度是指两个对象之间相似程度的数值度量,比如,若企业A与企业B的相似度为1,则表示企业A和企业B相似、若企业A与企业B的相似度为0,则表示企业A和企业B不相似,其中相似度的取值可以是0到1之间的任意数值。
可选地,计算向量之间的相似度的方式,一种可以是通过余弦相似度算法进行计算,比如,将两个向量利用余弦相似度函数进行计算,得到取值范围在[-1,1]的余弦相似度,若余弦相似度为1,则说明两个向量相似;另外还可以用1减去余弦相似度得到取值范围在[0,2]的余弦距离,若余弦距离为0,则说明两个向量相似;另一种可以是通过向量检索引擎进行相似度计算,比如,将两个嵌入向量输入向量检索引擎,经过处理后,会直接输出两个向量之间的相似度。
应用本说明书实施例的方案,通过计算第一嵌入向量和第二嵌入向量之间的相似度,确定第一对象和第二对象之间的相似性,以便于后续识别第一对象和第二对象之间是否存在上下游关系,提高了识别第一对象和第二对象之间是否存在上下游关系的准确率。
步骤208:根据所述相似度,识别所述第一对象和所述第二对象之间是否存在上下游关系。
可选地,通过根据第一嵌入向量与第二嵌入向量计算得到二者之间的相似度,来识别第一对象和第二对象之间是否存在上下游关系的方式有很多种,一种可能的实现方式中,可以是判断计算得到的相似度是否满足预设条件,若满足,则确定第一对象和第二对象存在上下游关系,若不满足,则确定第一对象和第二对象不存在上下游关系;另一种可能的实现方式中,可以是将计算出来的多对第一对象和第二对象的相似度进行排序,确定前N对第一对象和第二对象组成的对象对存在上下游关系,其余对象对则不存在上下游关系。
本说明书另一种可选的实现方式中,可以获取包括多个第一对象的第一对象库和包括多个第二对象的第二对象库,从第一对象库和第二对象库中提取任一第一对象和第二对象的对象信息,并根据提取的第一对象和第二对象的对象信息得到第一嵌入向量和第二嵌入向量,之后基于嵌入向量计算得到相似度,并基于多对第一对象和第二对象计算得到的相似度确定达到预设条件的第一对象和第二对象之间存在上下游关系,即步骤202,包括如下具体步骤:
获取第一对象库和第二对象库,其中,所述第一对象库包括多个第一对象的对象信息,所述第二对象库包括多个第二对象的对象信息;
从所述第一对象库中提取任一第一对象的对象信息,从所述第二对象库中提取任一第二对象的对象信息;
上述根据所述相似度,识别所述第一对象和所述第二对象之间是否存在上下游关系的步骤,包括如下具体步骤:
根据计算得到的多个相似度,确定相似度达到预设条件的第一对象和第二对象之间存在上下游关系。
可选地,通过获取第一对象库和第二对象库中的任一第一对象和第二对象的对象信息,并根据获取到的第一对象和第二对象的对象信息得到第一嵌入向量和第二嵌入向量,并根据第一嵌入向量和第二嵌入向量进行相似度计算,然后根据多对第一对象和第二对象计算得到的相似度,确定相似度达到预设条件的第一对象和第二对象之间存在上下游关系。
应用本说明书实施例的方案,通过预先将可能的第一对象和第二对象各自划分到对应的对象库中,使得后续进行识别时刻直接从对应的库中提取对应的第一对象和第二对象,提高了获取对象的效率,进一步地提高了对第一对象和第二对象之间的准确率。
本说明书另一种可选的实现方式中,可以是在获取第一对象库和第二对象库之前,获取全量对象的对象信息,并对全量对象的对象信息进行向量表征,从而获得全量对象作为上游对象的第三嵌入向量以及全量对象作为下游对象的第四嵌入向量,之后将第一对象和第二对象的对象信息分别与全量对象的对象信息进行匹配,根据匹配结果,确定将全量对象的第三嵌入向量和第四嵌入向量作为第一对象的第一嵌入向量和第二对象的第二嵌入向量,即在上述获取第一对象库和第二对象库之前的步骤,还包括如下具体步骤:
获取全量对象的对象信息;
对所述全量对象的对象信息进行向量表征,获得所述全量对象作为上游对象的第三嵌入向量以及所述全量对象作为下游对象的第四嵌入向量;
所述对所述第一对象和第二对象的对象信息分别进行向量表征,获得所述第一对象的第一嵌入向量和所述第二对象的第二嵌入向量,包括:
将所述第一对象的对象信息与作为上游对象的全量对象的对象信息进行匹配,确定匹配的全量对象的第三嵌入向量作为所述第一对象的第一嵌入向量;
将所述第二对象的对象信息与作为下游对象的全量对象的对象信息进行匹配,确定匹配的全量对象的第四嵌入向量作为所述第二对象的第二嵌入向量。
具体地,全量对象至少包括第一对象和第二对象,比如,在识别上下游企业时,全量对象可以是现存注册的1.4亿工商企业,第一对象是1.4亿工商企业中的30万核心企业,第二对象是1.4亿工商企业中的4000万经销商企业。
可选地,对全量对象的对象信息进行向量表征也可以是将全量对象的对象信息既作为第一对象又作为第二对象输入预训练的关系识别模型,进行向量表征,从而得到全量对象作为上游对象的第三嵌入向量以及全量对象作为下游对象的第四嵌入向量。
通过预先对全量对象的对象信息进行嵌入向量的计算,之后在获取到第一对象和第二对象后直接将第一对象和第二对象的对象信息和全量对象的对象信息进行匹配,得到对应的第一嵌入向量和第二嵌入向量。
应用本说明书实施例的方案,通过预先得到全量对象的对象信息以及第三嵌入向量和第四嵌入向量,并将第一对象和第二对象的对象信息与全量对象的对象信息进行匹配,确定第一嵌入向量和第二嵌入向量,使得在确定第一对象和第二对象的嵌入向量的同时,也提高了识别第一对象和第二对象之间是否存在上下游关系的结果的准确率。
本说明书另一种可选的实现方式中,可以将第一对象作为上游企业,第二对象作为下游企业,之后按照步骤202至208的处理方式进行处理之后,输出与该上游企业存在上下游关系的下游企业的企业信息,即在确定第一对象为上游企业,所述第二对象为下游企业的情况下,在根据所述相似度,识别第一对象和第二对象之间是否存在上下游关系之后的步骤,还包括如下具体步骤:
输出与所述上游企业存在上下游关系的下游企业的企业信息。
可选地,当第一对象为上游企业,第二对象为下游企业时,获取上游企业和下游企业的对象信息,并对上游企业和下游企业的对象信息进行向量表征,获得上游企业的上游嵌入向量和下游企业的下游嵌入向量,其中,向量表征融合了企业属性特征和企业图特征,并计算上游嵌入向量和下游嵌入向量的相似度,根据计算得到的相似度,识别第一对象和第二对象之间是否存在上下游关系,若存在,则直接输出与上游企业存在上下游关系的下游企业。
另外,还可以使用TransE/对比学习的损失函数计算上下游企业的向量距离,其中TransE使用一个对象和一个关系预测另一个对象。
应用本说明书实施例的方案,通过上述将第一对象为上游企业,第二对象为下游企业,并进行向量表征、相似度计算、识别输出的处理,可以得到准确的关系识别结果,进一步可以准确的输出与上游企业存在上下游关系的下游企业的企业信息。
参见图4,图4示出了根据本说明书一个实施例提供的一种关系挖掘系统的另一种结构示意图,如图4所示,该系统包括服务端0401、客户端0402、全量对象库0403、第一对象库0404、第二对象库0405。
基于服务端需要对对象之间的关系进行备案或者存储以便后续使用时,服务端0401从全量对象库0403中获取全量对象的对象信息,对全量对象的对象信息分别作为上游对象和下游对象进行向量表征,其中,向量表征融合了对象属性特征和对象图特征,获得第三嵌入向量和第四嵌入向量,从第一对象库0404获取第一对象的对象信息,从第二对象库0405中获取第二对象的对象信息,将第一对象的对象信息和第二对象的对象信息分别与全量对象的对象信息进行撞库,确定撞库成功的全量对象的第三嵌入向量作为第一对象的第一嵌入向量,确定撞库成功的全量对象的第四嵌入向量作为所述第二对象的第二嵌入向量;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系,服务端0401输出识别结果至客户端0402。
具体地,通过获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和对象图特征的嵌入向量,其中,对象属性特征表征了对象本身的属性特征,图特征表征了对象与其他对象之间的关联的特征,故融合了对象属性特征和对象图特征的嵌入向量对对象的表征会更加的准确,从而基于嵌入向量进行相似度计算,得到的相似度计算结果也更加的准确,进一步基于相似度计算结果进行识别,得到对象之间是否存在上下游关系的结果也更加的准确。
参见图5,图5示出了根据本说明书一个实施例提供的一种关系挖掘方法的基本流程图,具体包括以下步骤:
步骤502:构建数据集:训练集(多个样本企业的发票、招投标数据、网商贴数据)、测试集A(多个样本企业的采购贷线上数据)、测试集B(全量企业的发票数据)。
步骤504:数据清洗:非经营关系过滤、过期关系过滤等等。
步骤506:正负样本构造:正样本(具有上下游关系的样本企业)、负样本(对具有上下游关系的一对样本企业中的任一个样本企业进行替换)。
步骤508:模型训练:基于正负样本对,对具有双塔结构的预设深度学习网络进行训练,获得关系识别模型。
上述步骤502至508包括对关系识别模型的训练过程。
步骤510:获取全量对象的对象信息。
步骤512:将获取到的全量对象的对象信息输入关系识别模型,得到全量对象作为上游企业的第三嵌入向量和作为下游企业的第四嵌入向量。
上述步骤510至512包括利用关系识别模型得到全量对象的嵌入向量的过程。
步骤514:获取第一对象和第二对象的对象信息。
步骤516:根据第一对象和第二对象的对象信息分别与全量对象的对象信息进行匹配,确定第一对象对应的第一嵌入向量和第二对象对应的第二嵌入向量。
步骤518:利用向量检索引擎对第一对象对应的第一嵌入向量和第二对象对应的第二嵌入向量进行相似度计算。
步骤520:过滤:将不符合预设条件的相似度对应的对象对进行过滤和不处于相似度排名前N对的对象对进行过滤。
上述步骤514至520包括对第一对象和第二对象进行相似度计算并过滤的过程。
步骤522:评估:利用测试集A和测试集B中的数据对关系识别模型进行评估,确定模型评估指标、模型精度和准确度。
上述步骤522是指对关系识别模型的评估过程。
可选地,上述步骤510至520包括的计算嵌入向量、相似度计算及过滤的步骤,与步骤522对关系识别模型进行训练的步骤不分先后,可同时进行。
应用本说明书实施例的方案,获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和图特征的嵌入向量,而如此得到的嵌入向量更加的准确,之后基于得到的嵌入向量进行的相似度计算与使得识别出来对象之间是否存在上下游关系的结果更加的准确。
应用本说明书实施例的方案,还可以通过调节技术参数(截断参数k),实现对向量召回的对象数量的控制,并且在计算两个对象的嵌入向量之间的相似度之前,向量中不仅包含有对象的属性特征,还添加了对象与其他对象之间构建的知识图谱中的对象的图特征,以提高确定的召回对象的准确率,比如,将对象A作为上游对象与4000万个下游对象进行关系挖掘时,通过步骤202至206计算得到4000万个相似度,将k调节为100,然后从4000万个由大到小排列的相似度中选择top100个相似度对应的对象,作为与对象A存在上下游关系的下游对象,同理,若对象A为30万个,则确定出来的上下游关系对为30万*100=30000000对,故可知召回的样本对为30000000对,召回的正样本数量为69万,测试集样本中的正样本数量为10344828,可实现覆盖率6.67%和准确率2.3%的效果,在传统召回方案中可实现覆盖率6.53%、准确率0.7%,故通过调节技术参数和在确定对象的嵌入向量时添加了知识图谱中的图特征,可实现覆盖率提升2%、准确率提升228%的效果。
具体的,覆盖率与准确率的计算公式可以为:覆盖率=召回率=召回的正样本数量/样本中的正样本数量;准确率=正确率=召回的正样本数量/召回的样本数量,其中,召回的对象对即为通过步骤202至208确定出来的具有上下游关系的对象对。
下述结合附图6,以本说明书提供的关系挖掘方法在企业上下游关系挖掘的应用为例,对所述关系挖掘方法进行进一步说明。其中,图6示出了根据本说明书一个实施例提供的一种关系挖掘方法的处理过程流程图,具体包括以下步骤。
步骤602:获取企业A和企业B的对象信息,其中,企业A的对象信息是:ID为1、名称为a、所在地址为x;企业B的对象信息是:ID为2、名称为b、所在地址为y。
步骤604:将企业A和企业B的对象信息输入预训练的关系识别模型,其中,企业A和的对象信息经过第一向量表征通道特征提取层,得到企业A对应的企业属性特征和企业图特征,将企业A对应的企业属性特征和企业图特征进行特征融合得到企业A的企业特征,企业A的企业特征经过第一向量表征通道嵌入层得到企业A对应的嵌入向量;同理得到企业B的嵌入向量。
步骤606:计算第一嵌入向量与第二嵌入向量之间的相似度。
步骤608:确定相似度达到预设条件的第一对象和第二对象之间存在上下游关系。
步骤610:输出与企业A存在上下游关系的企业的企业信息。
应用本说明书实施例的方案,获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和对象图特征的嵌入向量,其中,对象属性特征表征了对象本身的属性特征,图特征表征了对象与其他对象之间的关联的特征,故融合了对象属性特征和对象图特征的嵌入向量对对象的表征会更加的准确,从而基于嵌入向量进行相似度计算,得到的相似度计算结果也更加的准确,进一步基于相似度计算结果进行识别,得到对象之间是否存在上下游关系的结果也更加的准确。
与上述方法实施例相对应,本说明书还提供了关系挖掘装置实施例,图7示出了根据本说明书一个实施例提供的一种关系挖掘装置的结构示意图。如图7所示,该装置包括:
获取模块702,被配置为获取第一对象和第二对象的对象信息;
向量表征模块704,被配置为对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;
计算模块706,被配置为计算第一嵌入向量与第二嵌入向量之间的相似度;
识别模块708,被配置为根据相似度,识别第一对象和第二对象之间是否存在上下游关系。
可选地,向量表征模块704,进一步被配置为将第一对象和第二对象的对象信息输入预训练的关系识别模型,其中,关系识别模型具有包含两个向量表征通道的双塔结构;利用第一向量表征通道的特征提取层对第一对象的对象信息进行特征提取,获得第一对象的第一对象特征,利用第一向量表征通道的嵌入层对第一对象特征进行嵌入计算,获得第一对象的第一嵌入向量;利用第二向量表征通道的特征提取层对第二对象的对象信息进行特征提取,获得第二对象的第二对象特征,利用第二向量表征通道的嵌入层对第二对象特征进行嵌入计算,获得第二对象的第二嵌入向量。
可选地,向量表征模块704,进一步被配置为将第一对象的对象信息分别输入第一向量表征通道的属性特征提取子模型和图特征提取子模型,获得第一对象的第一对象属性特征和第一对象图特征;对第一对象属性特征和第一对象图特征进行特征融合,得到第一对象的第一对象特征;向量表征模块,进一步被配置为将第二对象的对象信息分别输入第二向量表征通道的属性特征提取子模型和图特征提取子模型,获得第二对象的第二对象属性特征和第二对象图特征;对第二对象属性特征和第二对象图特征进行特征融合,得到第二对象的第二对象特征。
可选地,关系挖掘装置还包括构建模块,被配置为构建样本集,其中,样本集包括多个样本对,样本对携带有表征样本对中两个样本对象之间是否存在上下游关系的关系标签;基于多个样本对中样本对象的对象信息以及关系标签,对具有双塔结构的预设深度学习网络进行训练,获得训练后的关系识别模型。
可选地,构建模块,进一步被配置为提取第一样本对,获得第一样本对中两个样本对象的对象信息以及特定关系标签,其中,第一样本对为样本集中的任一样本对;将第一样本对中两个样本对象的对象信息输入具有双塔结构的预设深度学习网络,获得第一样本对中两个样本对象的嵌入向量,并计算第一样本对中两个样本对象的嵌入向量之间的相似度;根据相似度和特定关系标签,计算损失值;基于损失值调整预设深度学习网络的网络参数,并返回执行提取第一样本对,获得第一样本对中两个样本对象的对象信息以及特定关系标签的步骤;在达到训练停止条件的情况下,确定完成对预设深度学习网络的训练,获得关系识别模型。
可选地,构建模块,进一步被配置为获取多个样本对象的对象行为数据;根据多个样本对象的对象行为数据,确定各样本对象间的上下游关系;基于具有上下游关系的样本对象,构建正样本对,其中,正样本对携带有表征存在上下游关系的关系标签;对具有上下游关系的一对样本对象中的任一个进行替换,构建负样本对,其中,负样本对携带有表征不存在上下游关系的关系标签;基于正样本对和负样本对,构建样本集。
可选地,获取模块702,进一步被配置为获取第一对象库和第二对象库,其中,第一对象库包括多个第一对象的对象信息,第二对象库包括多个第二对象的对象信息;从第一对象库中提取任一第一对象的对象信息,从第二对象库中提取任一第二对象的对象信息;识别模块708,进一步被配置为根据计算得到的多个相似度,确定相似度达到预设条件的第一对象和第二对象之间存在上下游关系。
可选地,关系挖掘装置还包括匹配模块,被配置为获取全量对象的对象信息;对全量对象的对象信息进行向量表征,获得全量对象作为上游对象的第三嵌入向量以及全量对象作为下游对象的第四嵌入向量;向量表征模块,进一步被配置为将第一对象的对象信息与作为上游对象的全量对象的对象信息进行匹配,确定匹配的全量对象的第三嵌入向量作为第一对象的第一嵌入向量;将第二对象的对象信息与作为下游对象的全量对象的对象信息进行匹配,确定匹配的全量对象的第四嵌入向量作为第二对象的第二嵌入向量。
可选地,第一对象为上游企业,第二对象为下游企业;关系挖掘装置还包括输出模块,被配置为输出与上游企业存在上下游关系的下游企业的企业信息。
应用本说明书实施例的方案,获取第一对象和第二对象的对象信息;对第一对象和第二对象的对象信息分别进行向量表征,获得第一对象的第一嵌入向量和第二对象的第二嵌入向量,其中,向量表征融合了对象属性特征和对象图特征;计算第一嵌入向量与第二嵌入向量之间的相似度;根据相似度,识别第一对象和第二对象之间是否存在上下游关系。通过对获取的第一对象和第二对象的对象信息进行向量表征得到融合了对象属性特征和对象图特征的第一嵌入向量和第二嵌入向量,并通过计算第一嵌入向量和第二嵌入向量的相似度,识别第一对象和第二对象之间是否存在上下游关系,也即是说,在获取到第一对象和第二对象的对象信息之后,得到融合了对象属性特征和对象图特征的嵌入向量,其中,对象属性特征表征了对象本身的属性特征,图特征表征了对象与其他对象之间的关联的特征,故融合了对象属性特征和对象图特征的嵌入向量对对象的表征会更加的准确,从而基于嵌入向量进行相似度计算,得到的相似度计算结果也更加的准确,进一步基于相似度计算结果进行识别,得到对象之间是否存在上下游关系的结果也更加的准确。
上述为本实施例的一种关系挖掘装置的示意性方案。需要说明的是,该关系挖掘装置的技术方案与上述的关系挖掘方法的技术方案属于同一构思,关系挖掘装置的技术方案未详细描述的细节内容,均可以参见上述关系挖掘方法的技术方案的描述。
图8示出了根据本说明书一个实施例提供的一种计算设备的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述关系挖掘方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的关系挖掘方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述关系挖掘方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述关系挖掘方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的关系挖掘方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述关系挖掘方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述关系挖掘方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的关系挖掘方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述关系挖掘方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (12)
1.一种关系挖掘方法,包括:
获取第一对象和第二对象的对象信息;
对所述第一对象和第二对象的对象信息分别进行向量表征,获得所述第一对象的第一嵌入向量和所述第二对象的第二嵌入向量,其中,所述向量表征融合了对象属性特征和对象图特征;
计算所述第一嵌入向量与所述第二嵌入向量之间的相似度;
根据所述相似度,识别所述第一对象和所述第二对象之间是否存在上下游关系。
2.根据权利要求1所述的方法,所述对所述第一对象和第二对象的对象信息分别进行向量表征,获得所述第一对象的第一嵌入向量和所述第二对象的第二嵌入向量,包括:
将所述第一对象和第二对象的对象信息输入预训练的关系识别模型,其中,所述关系识别模型具有包含两个向量表征通道的双塔结构;
利用第一向量表征通道的特征提取层对所述第一对象的对象信息进行特征提取,获得所述第一对象的第一对象特征,利用所述第一向量表征通道的嵌入层对所述第一对象特征进行嵌入计算,获得所述第一对象的第一嵌入向量;
利用第二向量表征通道的特征提取层对所述第二对象的对象信息进行特征提取,获得所述第二对象的第二对象特征,利用所述第二向量表征通道的嵌入层对所述第二对象特征进行嵌入计算,获得所述第二对象的第二嵌入向量。
3.根据权利要求2所述的方法,所述特征提取层包括属性特征提取子模型和图特征提取子模型;
所述利用第一向量表征通道的特征提取层对所述第一对象的对象信息进行特征提取,获得所述第一对象的第一对象特征,包括:
将所述第一对象的对象信息分别输入第一向量表征通道的属性特征提取子模型和图特征提取子模型,获得所述第一对象的第一对象属性特征和第一对象图特征;
对所述第一对象属性特征和所述第一对象图特征进行特征融合,得到所述第一对象的第一对象特征;
所述利用第二向量表征通道的特征提取层对所述第二对象的对象信息进行特征提取,获得所述第二对象的第二对象特征,包括:
将所述第二对象的对象信息分别输入第二向量表征通道的属性特征提取子模型和图特征提取子模型,获得所述第二对象的第二对象属性特征和第二对象图特征;
对所述第二对象属性特征和所述第二对象图特征进行特征融合,得到所述第二对象的第二对象特征。
4.根据权利要求2或3所述的方法,在所述将所述第一对象和第二对象的对象信息输入预训练的关系识别模型之前,还包括:
构建样本集,其中,所述样本集包括多个样本对,所述样本对携带有表征所述样本对中两个样本对象之间是否存在上下游关系的关系标签;
基于所述多个样本对中样本对象的对象信息以及关系标签,对具有所述双塔结构的预设深度学习网络进行训练,获得训练后的关系识别模型。
5.根据权利要求4所述的方法,所述基于所述多个样本对中样本对象的对象信息以及关系标签,对具有所述双塔结构的预设深度学习网络进行训练,获得训练后的关系识别模型,包括:
提取第一样本对,获得所述第一样本对中两个样本对象的对象信息以及特定关系标签,其中,所述第一样本对为所述样本集中的任一样本对;
将所述第一样本对中两个样本对象的对象信息输入具有所述双塔结构的预设深度学习网络,获得所述第一样本对中两个样本对象的嵌入向量,并计算所述第一样本对中两个样本对象的嵌入向量之间的相似度;
根据所述相似度和所述特定关系标签,计算损失值;
基于所述损失值调整所述预设深度学习网络的网络参数,并返回执行所述提取第一样本对,获得所述第一样本对中两个样本对象的对象信息以及特定关系标签的步骤;
在达到训练停止条件的情况下,确定完成对所述预设深度学习网络的训练,获得关系识别模型。
6.根据权利要求4或5所述的方法,所述构建样本集,包括:
获取多个样本对象的对象行为数据;
根据所述多个样本对象的对象行为数据,确定各样本对象间的上下游关系;
基于具有上下游关系的样本对象,构建正样本对,其中,所述正样本对携带有表征存在上下游关系的关系标签;
对具有上下游关系的一对样本对象中的任一个进行替换,构建负样本对,其中,所述负样本对携带有表征不存在上下游关系的关系标签;
基于所述正样本对和所述负样本对,构建样本集。
7.根据权利要求1所述的方法,所述获取第一对象和第二对象的对象信息,包括:
获取第一对象库和第二对象库,其中,所述第一对象库包括多个第一对象的对象信息,所述第二对象库包括多个第二对象的对象信息;
从所述第一对象库中提取任一第一对象的对象信息,从所述第二对象库中提取任一第二对象的对象信息;
所述根据所述相似度,识别所述第一对象和所述第二对象之间是否存在上下游关系,包括:
根据计算得到的多个相似度,确定相似度达到预设条件的第一对象和第二对象之间存在上下游关系。
8.根据权利要求7所述的方法,在所述获取第一对象库和第二对象库之前,还包括:
获取全量对象的对象信息;
对所述全量对象的对象信息进行向量表征,获得所述全量对象作为上游对象的第三嵌入向量以及所述全量对象作为下游对象的第四嵌入向量;
所述对所述第一对象和第二对象的对象信息分别进行向量表征,获得所述第一对象的第一嵌入向量和所述第二对象的第二嵌入向量,包括:
将所述第一对象的对象信息与作为上游对象的全量对象的对象信息进行匹配,确定匹配的全量对象的第三嵌入向量作为所述第一对象的第一嵌入向量;
将所述第二对象的对象信息与作为下游对象的全量对象的对象信息进行匹配,确定匹配的全量对象的第四嵌入向量作为所述第二对象的第二嵌入向量。
9.根据权利要求1或7所述的方法,所述第一对象为上游企业,所述第二对象为下游企业;
在所述根据所述相似度,识别所述第一对象和所述第二对象之间是否存在上下游关系之后,还包括:
输出与所述上游企业存在上下游关系的下游企业的企业信息。
10.一种关系挖掘装置,包括:
获取模块,被配置为获取第一对象和第二对象的对象信息;
向量表征模块,被配置为对所述第一对象和第二对象的对象信息分别进行向量表征,获得所述第一对象的第一嵌入向量和所述第二对象的第二嵌入向量,其中,所述向量表征融合了对象属性特征和对象图特征;
计算模块,被配置为计算所述第一嵌入向量与所述第二嵌入向量之间的相似度;
识别模块,被配置为根据所述相似度,识别所述第一对象和所述第二对象之间是否存在上下游关系。
11.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述关系挖掘方法的步骤。
12.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述关系挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110371.6A CN115438098A (zh) | 2022-09-13 | 2022-09-13 | 关系挖掘方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110371.6A CN115438098A (zh) | 2022-09-13 | 2022-09-13 | 关系挖掘方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438098A true CN115438098A (zh) | 2022-12-06 |
Family
ID=84247592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211110371.6A Pending CN115438098A (zh) | 2022-09-13 | 2022-09-13 | 关系挖掘方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438098A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118132769A (zh) * | 2024-05-08 | 2024-06-04 | 中国科学院空天信息创新研究院 | 计算型时空知识图谱的构建方法及装置 |
-
2022
- 2022-09-13 CN CN202211110371.6A patent/CN115438098A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118132769A (zh) * | 2024-05-08 | 2024-06-04 | 中国科学院空天信息创新研究院 | 计算型时空知识图谱的构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609899B (zh) | 一种基于改进bert模型的特定目标情感分类方法 | |
CN109214407B (zh) | 事件检测模型、方法、装置、计算设备及存储介质 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN110008977B (zh) | 聚类模型构建方法以及装置 | |
CN113159187B (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN111242710A (zh) | 业务的分类处理方法、装置、服务平台及存储介质 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN115438098A (zh) | 关系挖掘方法以及装置 | |
CN112464106B (zh) | 对象推荐方法及装置 | |
CN113569059A (zh) | 目标用户识别方法及装置 | |
CN112015870A (zh) | 数据上传方法及装置 | |
CN114548325B (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
CN111178578A (zh) | 一种融合聚类与集成学习的金融股票预测方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114492410A (zh) | 合约信息提取方法及装置 | |
CN115221315A (zh) | 文本处理方法以及装置、句向量模型训练方法以及装置 | |
CN111552846B (zh) | 识别可疑关系的方法以及装置 | |
CN114547313A (zh) | 资源类型识别方法以及装置 | |
CN114722817A (zh) | 事件处理方法及装置 | |
CN111275261A (zh) | 资源流动预测方法以及装置 | |
CN113886560A (zh) | 庭审问题的推荐方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |