CN112445916A - 业务对象发布方法、实体发布方法及装置 - Google Patents

业务对象发布方法、实体发布方法及装置 Download PDF

Info

Publication number
CN112445916A
CN112445916A CN201910804091.7A CN201910804091A CN112445916A CN 112445916 A CN112445916 A CN 112445916A CN 201910804091 A CN201910804091 A CN 201910804091A CN 112445916 A CN112445916 A CN 112445916A
Authority
CN
China
Prior art keywords
entity
target
knowledge
vector
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910804091.7A
Other languages
English (en)
Inventor
毛鑫
许慧敏
王文婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910804091.7A priority Critical patent/CN112445916A/zh
Publication of CN112445916A publication Critical patent/CN112445916A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种业务对象发布方法、实体发布方法及装置,接收对目标业务对象的发布请求;响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;获取所述第二服务端中对应的第二业务对象的相关信息;根据所述相关信息对所述目标业务对象进行发布。本申请中,无需生成人工搜集目标业务对象的相关信息,直接从第二服务端中获取第二业务对象对应的相关信息,即可实现发布目标业务对象,进而可以提高发布效率。

Description

业务对象发布方法、实体发布方法及装置
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种业务对象发布方法、实体发布方法及装置。
背景技术
为了向用户展示更多的业务对象,经常需要在服务端中发布新的业务对象。
目前,在服务端中发布新的业务对象时,往往需要先人工搜集与和该业务对象有关的相关信息,然后根据搜集到的相关信息对该业务对象进行发布。而人工搜集的成本较大,耗时较长,进而导致业务对象发布的效率较低。
发明内容
本申请实施例提供了一种业务对象发布方法,以使得可以提高业务对象发布的效率。
相应的,本申请实施例还提供了一种装置、一种电子设备和一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种业务对象发布方法,应用于第一服务端,所述的方法包括:
接收对目标业务对象的发布请求;
响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
获取所述第二服务端中对应的第二业务对象的相关信息;
根据所述相关信息对所述目标业务对象进行发布。
为了解决上述问题,本申请实施例公开了一种实体发布方法,应用于第一服务端,所述的方法包括:接收对目标实体的发布请求;
响应于所述发布请求,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
获取所述第二服务端中对应的第二实体的相关信息;
根据所述相关信息对所述目标实体进行发布。
为了解决上述问题,本申请实施例公开了一种业务对象发布装置,应用于第一服务端,所述装置包括:
第一接收模块,用于接收对目标业务对象的发布请求;
第一确定模块,用于响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
第一获取模块,用于获取所述第二服务端中对应的第二业务对象的相关信息;
第一发布模块,用于根据所述相关信息对所述目标业务对象进行发布。
为了解决上述问题,本申请实施例公开了一种实体发布装置,应用于第一服务端,所述装置包括:
第三接收模块,用于接收对目标实体的发布请求;
第四确定模块,用于响应于所述发布请求,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
第二获取模块,用于获取所述第二服务端中对应的第二实体的相关信息;
第二发布模块,用于根据所述相关信息对所述目标实体进行发布。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的业务对象发布方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的业务对象发布方法。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的实体发布方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的实体发布方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请实施例中,接收对目标业务对象的发布请求;响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;获取所述第二服务端中对应的第二业务对象的相关信息;根据所述相关信息对所述目标业务对象进行发布。本申请中,无需生成人工搜集目标业务对象的相关信息,直接从第二服务端中获取第二业务对象对应的相关信息,即可实现发布目标业务对象,进而可以提高发布效率。
附图说明
图1A是本申请的一种业务对象发布的场景示意图;
图1B是本申请的另一种业务对象发布的场景示意图;
图2是本申请的一种业务对象发布方法的步骤流程图;
图3是本申请的一种实体发布方法的步骤流程图;
图4是本申请的一种训练数据生成方法的应用示意图;
图5是本申请的另一种训练数据生成方法的应用示意图;
图6是本申请的一种训练数据生成方法的步骤流程图;
图7是本申请的另一种训练数据生成方法的步骤流程图;
图8是本申请的一种第二实体对齐模型生成方法的步骤流程图;
图9是本申请的一种知识图谱的局部示意图;
图10是本申请的一种基于对齐实体进行搜索的场景示意图;
图11是本申请的一种实体的相关信息更新方法的步骤流程图;
图12是本申请的一种实体的相关信息更新的场景示意图;
图13是本申请的另一种实体的相关信息更新的场景示意图
图14是本申请的一种构建网站的场景示意图;
图15是本申请的一种实体操作同步方法的场景示意图;
图16是本申请的一种目标业务对象知识图谱的示意图;
图17是本申请的一种目标业务对象知识图谱的示意图;
图18是本申请的一种业务对象发布装置的结构框图;
图19是本申请的一种实体发布装置的结构框图;
图20是本申请提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
知识图谱(Knowledge Graph):知识图谱是实体通过关系链接而成的网状语义知识库,知识图谱是以符号形式描述物理世界中的概念及其相互关系。在知识图谱里,实体及关系通过三元组的形式:实体-关系-实体,进行存储。
实体是指物理世界中的概念,比如人、地名、药物、公司等,实体之间的关系表示不同实体之间存在的联系。
对齐实体指的是两个知识图谱中指向物理世界里同一个概念的实体。
实体对齐指的是在两个知识图谱中抽取对齐实体的操作。
参照图1A,示出了本申请的一种业务对象发布的场景示意图。在该场景中,服务端AS510为第二服务端,服务端BS520为第一服务端。服务端BS520可以执行步骤5.1接收对业务对象B的发布请求,其中,该业务对象B即为需要发布的目标业务对象。由于服务端AS510的知识图谱A中包括业务对象B的详细信息,因此,对齐设备S530可以基于步骤5.2及步骤5.3实现对服务端AS510中的知识图谱A以及服务端BS520中的知识图谱B进行对齐,然后基于步骤5.4将知识图谱A、知识图谱B之间的对齐业务对象返回给服务端BS520。相应地,服务端BS520可以响应于发布请求,基于步骤5.5实现根据这些对齐业务对象,从服务端AS510中获取业务对象B对齐的第一业务对象对应的相关信息,对业务对象B进行发布。这样,基于对齐业务对象,直接从服务端AS510中获取业务对象B的详细信息,即可实现发布业务对象B,进而可以提高在服务端中发布新业务对象的效率。
参照图1B,示出了本申请的另一种业务对象发布的场景示意图。在该场景中,平台可以由至少一个服务器组成。平台1S710中可以包括与平台2中知识图谱B之间的对齐业务对象、与平台2中知识图谱C之间的对齐业务对象以及与平台3中知识图谱D之间的对齐业务对象。这些对齐业务对象可以是基于图1A中的对齐设备预先获取的。
进一步地,平台1S710可以执行步骤7.1接收对业务对象B的发布请求,其中,该业务对象B即为需要发布的目标业务对象。接着,平台1S710可以基于步骤7.2、步骤7.3以及步骤7.4实现获取平台2S720中业务对象B对齐的业务对象的详细信息、获取平台3S730中业务对象B对齐的业务对象的详细信息以及获取平台4S740中业务对象B对齐的业务对象的详细信息。最后,平台1S710可以步骤7.5基于从平台2S720、平台3S730及平台4S740获取到的详细信息,发布业务对象B。
由于业务对象B在不同平台中对齐的业务对象的详细信息可能不同,因此,获取多个平台中对齐的业务对象的详细信息进行发布,可以使得新发布的业务对象B的相关信息更加丰富完善,进而提高业务对象的发布效果。需要说明的是,由于从平台2S720、平台3S730及平台4S740获取到的详细信息可能会存在重复的信息,因此,本申请实施例中,平台1S710还可以在基于从平台2S720、平台3S730及平台4S740获取到的详细信息,发布业务对象B之前,对这些详细信息进行去重处理,进而避免发布之后的业务对象B的相关信息中,存在重复信息。
参照图2,示出了本申请的一种业务对象发布方法的步骤流程图。该方法可以应用于第一服务端,该方法具体可以包括如下步骤:
步骤101,接收对目标业务对象的发布请求。
在本申请实施例中,第一服务端及第二服务端可以为网站,该目标业务对象可以是第一服务端中新发布的业务对象。以第一服务端为购物网站为例,该目标业务对象可以是该购物网站中新发布的商品数据。该发布请求可以是用户向第一服务端发送的。
步骤102,响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象。
在本申请实施例中,第一服务端可以为一个或多个,这样,在第一服务端为多个时,可以实现同时对多个服务端进行快速发布。该第二服务端也可以为多个,这样,第一服务端可以从多个第二服务端中获取目标业务对象的相关信息,进而使相关信息更加完善。相应地,业务对象知识图谱可以是基于至少一个第一服务端中的数据以及第二服务端中的数据构建的,业务对象知识图谱可以分别存在各自对应的服务端内,业务对象知识图谱中可以包括多个业务对象及业务对象之间的关系,一个业务对象表示该知识图谱中的一个实体。这些业务对象知识图谱中的对齐业务对象,可以表示第一服务端及第二服务端中表示相同概念的实体。相应地,对于目标业务对象,可以从这些对齐业务对象中,查找与该目标业务对象对应的第二业务对象,进而确定目标业务对象在第二服务端中对应的第二业务对象。
步骤103,获取所述第二服务端中对应的第二业务对象的相关信息。
在本申请实施例中,第一服务端可以从第二服务端中直接读取第二业务对象的相关信息。其中,该相关信息至少可以包括商品的名称、标识、属性及所属的商品类目。
步骤104,根据所述相关信息对所述目标业务对象进行发布。
本申请实施例中,可以将第二业务对象对应的相关信息作目标业务对象的相关信息,添加至第一服务端中,进而实现为目标业务对象添加相关信息。这样,无需生成人工搜集目标业务对象的相关信息,直接从第二服务端中获取第二业务对象对应的相关信息,即可实现发布目标业务对象,进而可以提高发布效率。
综上所述,本申请提供的一种业务对象发布方法,包括:接收对目标业务对象的发布请求;响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;获取所述第二服务端中对应的第二业务对象的相关信息;根据所述相关信息对所述目标业务对象进行发布。本申请中,无需生成人工搜集目标业务对象的相关信息,直接从第二服务端中获取第二业务对象对应的相关信息,即可实现发布目标业务对象,进而可以提高发布效率。
参照图3,示出了本申请的一种实体发布方法的步骤流程图。该方法可以应用于第一服务端,该方法具体可以包括如下步骤:
步骤201,接收对目标实体的发布请求。
本申请实施例中,该目标实体可以表示业务对象,也可以表示其他对象,例如,用户对象。
步骤202,响应于所述发布请求,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体。
具体的,本步骤的实现方式可以参照前述步骤,本申请实施例在此不做赘述。
步骤203,获取所述第二服务端中对应的第二实体的相关信息。
具体的,本步骤的实现方式可以参照前述步骤,本申请实施例在此不做赘述。
步骤204,根据所述相关信息对所述目标实体进行发布。
具体的,本步骤的实现方式可以参照前述步骤,本申请实施例在此不做赘述。
综上所述,本申请提供的一种实体发布方法,包括:接收对目标实体的发布请求;响应于所述发布请求,基于至少两个实体知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;获取所述第二服务端中对应的第二实体的相关信息;根据所述相关信息对所述目标实体进行发布。本申请中,无需生成人工搜集目标实体的相关信息,直接从第二服务端中获取第二实体对应的相关信息,即可实现发布目标实体,进而可以提高发布效率。
可选的,在本申请实施例的一种具体实现方式中,在获取至少两个知识图谱中的对齐实体时,可以根据预设向量生成模型对至少两个知识图谱进行双向迭代训练实体对齐模型;根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体。其中,双向迭代训练用于在训练向量生成模型过程中扩充基准集合;基准集合可以包括至少两个知识图谱的部分对齐实体。
具体的,该实体对齐模型可以为第一实体对齐模型或第二实体对齐模型。在训练第一实体对齐模型时,可以先获取训练数据。然后根据训练数据对预设机器学习模型进行训练,获得第一实体对齐模型。
参照图4示出了本申请实施例的一种训练数据生成方法的应用示意图。
在本申请实施例中,该训练数据生成装置S110、该模型训练装置S120及第一对齐实体提取装置S130可以是服务器、计算机或者其他计算能力比较强的电子设备,训练数据生成装置S110、该模型训练装置S120及第一对齐实体提取装置S130可以为同一装置,也可以为独立的不同装置。该目标知识图谱可以是基于数据源预先生成且存储在该训练数据生成装置S110内的,该目标知识图谱可以是根据其他装置生成,也可以是根据该训练数据生成装置S110生成的。目标知识图谱S11及S12可以作为训练向量生成模型S14以及扩充基准集合S13的数据源。
该向量生成模型S14可以是预先搭建的,具体的,该向量生成模型S14可以是基于翻译模型或图神经网络模型搭建的,其中,基于翻译模型可以为TransE模型、TransR模型等等,图神经网络模型可以为图卷积神经网络(Graph Convolutional Network,GCN)、图注意力网络(Graph Attention Network,GAT)及关系图注意力网络(Relational GraphAttention Network,RGAT)等等。向量生成模型S14中包括多少层级、每个层级中包含多少神经元、每个层级的作用以及每个层级中包含什么参数,均可以是基于实际的训练需求设置。
该基准集合S13可以包括至少一个基准实体对,这些基准实体对可以是预先从目标知识图谱S11及S12中确定的部分对齐实体,即,这些基准实体对中的实体均属于目标知识图谱S11或S12。示例的,假设两个目标知识图谱A、B分别为G1和G2,G1=(E1,R1,T1),G2=(E2,R2,T2),基准集合S13为P,P={(ei1,ei2)},其中,E1、T1表示G1中的实体集合,R1表示G1中的关系集合,E2、T2表示G2中的实体集合,R2表示G2中的关系集合,那么,ei1是属于E1/T1的实体,ei2是属于E2/T2的实体。
在本申请实施例中,会先根据向量生成模型S14,确定两个目标知识图谱中实体的实体向量S15,其中,两个目标知识图谱可以是至少两个知识图谱中的任意两个知识图谱。接着,可以基于目标知识图谱中实体的实体向量S15及基准集合S13中实体的实体向量S15,确定该向量生成模型S14的损失值S16,基于该损失值S16对该向量生成模型S14中的参数进行调整,以优化该向量生成模型S14。接着,可以基于更新后的实体向量,将两个目标知识图谱S11及S12中互为距离满足第一预设条件的实体,扩充至基准集合S13中。最后,可以继续训练该向量生成模型S14,并在训练结束的情况下,将基准集合S13确定为训练数据。这样,在不断训练该向量生成模型S14的过程中,可以不断的扩充基准集合S13,进而获取到大量的训练数据。进一步地,在得到扩充后的基准集合S13之后,可以将基准集合S13作为训练数据,用来训练第一实体对齐模型S17。这样,无需人工选取出足量的训练数据即可实现训练第一实体对齐模型S17,进而可以节省训练模型的成本。相应地,在得到第一实体对齐模型S17之后,可以将知识图谱中的实体输入该第一实体对齐模型S17,然后,根据第一实体对齐模型S17提取出知识图谱中的对齐实体S18。
在训练第二实体对齐模型时,参照图5,示出了本申请实施例的另一种训练数据生成方法的应用示意图。在本申请实施例中,还可以在达到停止条件,停止训练的情况下,将向量生成模型S14确定为第二实体对齐模型S19,根据该第二实体对齐模型S19确定知识图谱中实体的实体向量S20,基于这些实体的实体向量S20,从知识图谱中,提取互为距离满足第二预设条件的实体,得到对齐实体S21。其中,知识图谱是需要进行实体对齐的知识图谱,该知识图谱可以为目标知识图谱。由于该第二实体对齐模型S19是根据基准集合S13中准确度较高的实体对迭代训练,不断优化得到的,因此,第二实体对齐模型S19生成的实体向量能够准确的表征该实体,这样,可以基于知识图谱中实体的实体向量S20,准确的提取出知识图谱中的对齐实体S21。
具体的,在本申请实施例中,上述训练数据生成设备可执行如下的训练数据生成方法。
参照图6,示出了本申请一种训练数据生成方法的步骤流程图。具体可以包括如下步骤:
步骤301,根据向量生成模型,确定两个目标知识图谱中实体的实体向量。
在本申请实施例中,在确定时可以确定目标知识图谱中每个实体的实体向量,实体向量可以同于表征该实体,通过为目标知识图谱中的实体确定实体向量,可以方便后续步骤中,能够基于实体向量对实体进行处理。由于基准集合中的实体属于目标知识图谱,这样,通过确定两个目标知识图谱中实体的实体向量,即可同时得到目标知识图谱中实体的实体向量以及基准集合中实体的实体向量。
步骤302,基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体。
本申请实施例中,该损失值可以表示向量生成模型为实体生成的实体向量能够准确表示该实体的程度、损失值越大,则说明向量生成模型为实体生成的实体向量能够准确表示该实体的程度越小,损失值越小,则说明向量生成模型为实体生成的实体向量能够准确表示该实体的程度越大。
步骤303,基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新每个实体的实体向量。
在本申请实施例中,可以是在损失值大于预设阈值的情况下调整参数,该预设阈值可以根据实际应用场景和实际需求设定。如果该损失值大于预设阈值,则可以认为向量生成模型为实体生成的实体向量还不能够准确的表示该实体。因此,可以调整实体对齐模型的参数,以进一步优化该向量生成模型,提高该向量生成模型生成的实体向量的准确程度。由于提高了该向量生成模型生成的实体向量的准确程度,因此,可以基于调整后的向量生成模型,更新每个实体的实体向量,以使每个实体的实体向量表示该实体的准确程度。
进一步地,在调节参数时,可以根据损失值通过反向传播来调节参数。具体的,可以先对计算该损失值时所使用的损失函数做梯度运算,计算损失函数的梯度值,得到误差程度,然后计算梯度值与预设步长的乘积,最后计算参数与该乘积之差,得到调整后的参数。当然,也可以根据其他方式进行调整,例如,直接按照预设步长对参数进行更新,本申请实施例对此不作限定。
步骤304,基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中。
在本申请实施例中,由于实体更新后的实体向量可以更准确的表示实体本身,因此,在本申请实施例中可以基于更新后的实体向量从目标知识图谱中选择用于扩充基准集合的实体。这样,一定程度上可以增大所选择的实体是对齐实体的概率。
进一步地,在扩充基准集合时,可以通过双向选择的方式,根据目标知识图谱中互为距离满足第一预设条件的实体,扩充至基准集合。其中,第一预设条件可以根据实际应用场景和实际需求设定。示例的,第一预设条件可以是距离排名高于预设排名阈值,该距离排名指的是该目标知识图谱中实体的距离,在该实体与另一个目标知识图谱中所有实体的距离中的排名。假设预设排名阈值为3,目标知识图谱G1中的实体a与另一个目标知识图谱G2中的实体A的距离在与G2中所有实体的距离中的距离排名为第2名,与G2中的实体B的距离在与G2中所有实体的距离中的距离排名为第1名,而实体A与实体a的距离在与G1中所有实体的距离中的距离排名为第3名,实体B与实体a的距离在与G1中所有实体的距离中的距离排名为第2名,那么,可以将实体a与实体B确定为两个目标知识图谱中互为距离满足第一预设条件的实体,将实体a与实体B作为一个基准实体对,添加至基准集合中,以实现扩充该基准集合。这样,通过双向选择,即,选择出相对于彼此的距离均满足第一预设条件的实体,一定程度上可以提高所选择的实体对的置信度,进而确保基于这些实体对扩充后的基准集合的准确性。
步骤305,继续训练所述向量生成模型,并在训练结束的情况下,将所述基准集合确定为训练数据。
本申请实施例中,可以在调整完参数以及更新完实体的实体向量之后,基于每个实体更新后的实体向量及本轮训练中更新后的基准集合,重新计算损失值,并基于损失值执行相应的处理,进而实现继续对该向量生成模型进行训练。这样,通过继续训练可以进一步提高该向量生成模型的能力以及进一步扩充基准集合。最后,可以在训练结束的情况下,将基准集合确定为训练数据。
综上所述,本申请提供的一种训练数据生成方法,包括:根据向量生成模型,确定两个目标知识图谱中实体的实体向量;基于两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定向量生成模型的损失值,该基准集合包括两个目标知识图谱中的部分对齐实体;基于损失值调整实体对齐模型的参数,并基于调整后的向量生成模型,更新每个实体的实体向量;基于实体更新后的实体向量,将两个目标知识图谱中互为距离满足预设条件的实体,扩充至基准集合中;继续训练向量生成模型,并在训练结束的情况下,将基准集合确定为训练数据。本申请中,仅需预先获取部分的对齐实体构成基准集合,后续通过不断的训练向量生成模型,可以自动扩充该基准集合,进而获得到大量的训练数据。由于只需预先获取部分的对齐实体来构成基准集合,因此,一定程度上可以减少获取训练数据时所需的人工成本以及时间成本,提高获取效率。
参照图7,示出了本申请的另一种训练数据生成方法的步骤流程图。具体可以包括如下步骤:
步骤401,对于两个所述目标知识图谱中的所述实体,确定所述实体的第一向量。
在该步骤中,对于每个实体,可以随机生成一特征向量,然后将该特征向量作为该实体的第一向量。其中,随机生成的该特征向量的维数以及每个维度中元素的值的取值范围可以预先设定,在生成该特征向量时,可以根据随机向量生成算法,基于设定的维数以及取值范围,生成一个特征向量。这样,仅需预先定义好维数及取值范围,即可实现为每个实体生成第一向量,实现成本较低,生成效率较高。示例的,可以将目标知识图谱G1和G2分别作为随机向量生成算法的输入,相应地,该算法的输出即为这两个目标知识图谱中所有实体的第一向量。
或者,也可以基于实体的语义,生成实体的语义向量,以作为实体的第一向量。其中,语义向量可以表征该实体所蕴含的语义。具体的,可以根据预设的语义识别模型基于该实体表征的语义,生成表征该实体语义的语义向量,然后将该语义向量作为第一向量,由于语义向量是基于与实体本身的语义生成的,因此,能够更准确的表示实体,进而可以使第一向量更具代表性。
或者,还可以获取该实体的邻接矩阵,将该邻接矩阵作为该实体的第一向量。其中,邻接矩阵指的是该实体所在的图结构中的二维数组,该二维数组分别为存储节点信息的数组以及存储边信息的数组。
可选的,在首次生成所述第一向量的情况下,在本申请实施例的一种具体实现方式中,确定实体的第一向量可以包括:
子步骤4011,提取所述实体的N个邻居实体的实体特征向量。
子步骤4012,基于所述实体的第一向量、N个所述邻居实体的实体特征向量及所述向量生成模型中的权重参数,计算所述实体的所述实体向量。
其中,N为不小于1整数,N的具体值可以根据实际需求来设定。邻居实体表示与该实体相邻的实体。提取邻居实体的实体特征向量时,可以基于邻居实体所连接的边信息、邻居实体的属性信息等方面,获取邻居实体在多个信息维度下对应的数值,进而得到该邻居实体的实体特征向量。进一步地,在再次生成第一向量的情况下,该第一向量可以为上一轮的第二向量。
步骤402,将所述实体的所述第一向量输入所述向量生成模型,生成所述实体的第二向量,得到所述实体向量。
由于实体及关系所构成的图中,各个实体是通过关系连接起来的,因此,可以认为相邻实体之间的关联性会越强,相应地,通过结合实体及邻居实体的信息,生成该实体的实体向量,可以使该实体向量能够更优的表征该实体。
进一步地,基于实体的第一向量、N个邻居实体的实体特征向量及向量生成模型中的权重参数,计算实体的实体向量的具体计算方式,可以通过下述公式表示:
Figure BDA0002183121920000141
其中,h’it表示第t个目标知识图谱中第i个实体的实体向量,Nit表示第t个目标知识图谱中第i个实体的邻居实体的实体特征向量,w表示权重参数,hit表示第t个目标知识图谱中第i个实体的第一向量。
步骤403,基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体。
可选的,在本申请实施例的一种具体实现方式中,所述基准集合包括至少一个基准实体对,所述步骤403具体可以包括:
子步骤4031,根据所述基准实体对中的实体及两个所述目标知识图谱中的实体,为所述基准实体对构建两个负样本实体对。
本步骤中,基准实体对中包含的两个实体可以分别为第一基准实体对及第二基准实体对,负样本实体对可以是基于基准实体对构建的,每个负样本实体对可以包含基准实体对中的一个实体。具体的,对于每个基准实体对,可以根据该基准实体对中的第一基准实体以及第一负样本实体,构建第一负样本实体对,其中,该第一负样本实体是从第二基准实体所属的目标知识图谱中选择的。以及,可以根据基准实体对中的第二基准实体以及第二负样本实体,构建第二负样本实体对,其中,该第二负样本实体可以是从第一基准实体所属的目标知识图谱中选择的。
其中,第一负样本实体及第二负样本实体均为随机选择的实体,这样,通过随机选择第一负样本实体及第二负样本,可以增加构建的负样本实体对的随机性。当然,也可以按照固定间隔的方式,从第二基准实体所属的目标知识图谱中选择第一负样本实体,以及从第一基准实体所属的目标知识图谱中选择第二负样本实体,本申请实施例对此不作限定。
示例的,假设基准实体对为(ei1,ei2),ei1表示G1中第i个实体,ei2表示G2中第i个实体,在为(ei1,ei2)构建负样本实体对时,可以从G2中任选一个实体ej2作为第一负样本实体,根据ei1与ej2构成一个负样本实体对(ei1,ej2),从G1中任选一个实体ej1作为第二负样本实体,根据ei2与ej1构成一个负样本实体对(ei2,ej1),进而得到基准实体对(ei1,ei2)的两个负样本实体对。
子步骤4032,基于所述基准实体对中实体的实体向量及所述负样本实体对中实体的实体向量,分别计算所述基准实体对的实体距离、所述负样本实体对的实体距离。
在本步骤中,实体距离可以用于表示实体之间的相似度,该实体距离可以为实体对中实体之间的曼哈顿距离、欧式距离等等。
子步骤4033,基于所述基准实体对中的实体距离及所述负样本实体对的实体距离,计算所述损失值。
由于基准实体对是目标知识图谱中的对齐实体,因此,基准实体对中实体之间的实体距离应该最近,而负样本实体对中的实体,一个是属于基准实体对的实体,另一个是与该属于基准实体对的实体非对齐的实体,因此,负样本实体对中实体之间的实体距离相较于基准实体对中实体之间的实体距离,应该更远。因此,在本步骤中,可以结合正样本实体对的实体距离,即,基准实体对中的实体距离,以及负样本实体对的实体距离,计算损失值。
具体的,可以将基准实体对中的实体距离,以及负样本实体对的实体距离代入三元损失函数中,通过三元损失函数计算损失值,其中,该三元损失函数可以通过下述公式来表示:
Figure BDA0002183121920000151
其中,dis(*)表示实体距离,λ为预设的超参数,P表示基准集合。
在本申请实施例中,以正样本实体对的距离及负样本实体对的距离,作为计算损失值的元素,同时,通过损失值来调整向量生成模型的参数,可以使得最终调整出来的向量生成模型为实体生成的实体向量,能够更准确的表征实体。这样,在根据向量生成模型生成的实体向量进行计算时,可以确保实体与对齐实体之间的距离最小,与其他非对齐的实体之间的距离更大,进而使得后续步骤中,基于实体向量的距离选择的,用于扩充基准集合的实体对是对齐实体的概率更大。
步骤404,基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新所述实体的实体向量。
在本步骤中,可以将每个实体当前的实体向量输入调整后的向量生成模型,该调整后的向量生成模型可以基于该实体的实体向量、该实体的邻居实体的实体特征向量及该调整后的向量生成模型中的权重参数,重新为该实体生成实体向量,进而实现更新实体向量。
步骤405、基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中。
可选的,在本申请实施例的一种具体实现方式中,所述第一预设条件为距离最近,两个所述目标知识图谱分别为第一目标知识图谱及第二目标知识图谱;所述第一目标知识图谱由第一实体组成,所述第二目标知识图谱由第二实体组成,所述步骤中可以将目标知识图谱中不属于基准集合的第一实体作为目标实体,并分别执行以下步骤:
子步骤4051,基于所述目标实体的实体向量及所述第二目标知识图谱中所述第二实体的实体向量,确定与所述目标实体距离最近的第二实体,得到所述目标实体的备选实体。
在本步骤中,可以基于目标实体的实体向量与每个第二实体的实体向量,分别计算目标实体与每个第二实体之间的实体距离,得到多个实体距离,然后确定这多个实体距离中的最小实体距离,将最小实体距离对应的第二实体,作为备选实体。
子步骤4052,基于所述备选实体的实体向量及所述第一目标知识图谱中所述第一实体的实体向量,判断与所述备选实体距离最近的第一实体是否为所述目标实体。
在本步骤中,可以基于备选实体的实体向量与每个第一体的实体向量,分别计算备选实体与每个第一实体之间的实体距离,得到多个实体距离,然后确定这多个实体距离中的最小实体距离,接着,判断该最小实体距离对应的第一实体是否为目标实体。
子步骤4053,若是,则将所述目标实体及所述备选实体作为一个基准实体对,添加至所述基准集合中。
在本步骤中,如果该最小实体距离对应的第一实体是目标实体,则可以认为目标实体及备选实体互为距离最近的实体,因此,可以将目标实体及备选实体作为一个基准实体对,添加至基准集合中。
本申请实施例中,选择互为距离最近的实体作为基准实体对,并添加基准集合的方式,无需预先设定距离阈值,因此,可以省略手动调试阈值的操作,简化操作步骤。同时,通过双向选择距离最近实体作为基准实体对,可以确保选择的基准实体对的准确度。
步骤406,继续训练所述向量生成模型,并在训练结束的情况下,将所述基准集合确定为训练数据。
在本步骤中,训练结束的条件可以为损失值符合收敛条件,或者,两个目标知识图谱中不属于所述基准集合的实体中,不存在互为距离满足第一预设条件的实体,相应地,可以在损失值符合收敛条件的情况下,或者两个目标知识图谱中不属于所述基准集合的实体中,不存在互为距离满足第一预设条件的实体的情况下,结束训练,相应地,可以将基准集合作为训练数据。其中,收敛条件可以是损失值小于预设阈值,或者损失值不再发生变化。
综上所述,本申请提供的一种训练数据生成方法,包括:对于两个目标知识图谱中的实体,为实体生成第一向量;将实体的所述第一向量输入向量生成模型,根据向量生成模型生成实体的所述实体向量;基于两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定向量生成模型的损失值,该基准集合包括两个目标知识图谱中的部分对齐实体;基于损失值调整实体对齐模型的参数,并基于调整后的向量生成模型,更新每个实体的实体向量;基于实体更新后的实体向量,将两个目标知识图谱中互为距离满足预设条件的实体,扩充至基准集合中;继续训练向量生成模型,并在训练结束的情况下,将基准集合确定为训练数据;根据训练数据进行训练,以生成实体对齐模型。本申请中,仅需预先获取部分的对齐实体构成基准集合,后续通过不断的训练向量生成模型,可以自动扩充该基准集合,进而获得到大量的训练数据。由于只需预先获取部分的对齐实体来构成基准集合,因此,一定程度上可以减少获取训练数据时所需的人工成本以及时间成本,提高获取效率。
进一步地,在得到训练数据之后,可以根据训练数据对预设机器学习模型进行训练,获得第一实体对齐模型。
在本步骤中,由于该训练数据可以是根据前述实施例中的训练数据生成方法,通过不断扩充基准集合得到的,这样,无需人工选取出足量的训练数据,进而可以节省获取训练数据的成本。具体的,进行训练时,可以获取该第一实体对齐模型的预测对齐实体,然后根据预测对齐实体与训练数据中的真实对齐实体,确定该第一实体对齐模型的损失值,接着,基于该损失值调整该第一实体对齐模型的参数,并对调整后的第一实体对齐模型继续进行训练,最后,在损失值符合收敛条件的情况下,将该第一实体对齐模型确定为实体对齐模型。其中,该第一实体对齐模型可以是基于图神经网络模型搭建的。
需要说明的是,在本申请另一可选实施例中,还可以根据该训练数据训练链接预测模型,以进行实体链接预测。
综上所述,本申请提供的一种实体对齐模型生成方法中,无需人工选取出足量的训练数据,只需预先获取部分的对齐实体来构成基准集合,通过不断扩充即可得到训练数据,因此,一定程度上可以减少获取训练数据时所需的成本,进而减少生成模型的成本。
进一步地,在本申请的一种可选实施例中,可以在根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体时,可以将所述至少两个知识图谱输入所述第一实体对齐模型;根据所述第一实体对齐模型,确定所述知识图谱中的对齐实体。
在本申请实施例中,可以每次将任意两个知识图谱输入第一实体对齐模型中。该第一实体对齐模型可以是基于前述方法生成的。该第一实体对齐模型可以对输入的实体进行实体对齐,进而得到两个知识图谱中的对齐实体。
综上所述,本申请提供的一种实体对齐方法中,所使用的第一实体对齐模型,在训练时只需预先获取部分的对齐实体来构成基准集合,通过不断扩充即可得到训练数据,因此,一定程度上可以降低生成模型的成本,进而降低使用该第一实体对齐模型的成本。
参照图8,示出了本申请的一种第二实体对齐模型生成方法的步骤流程图。具体可以包括如下步骤:
步骤501,根据向量生成模型,确定两个目标知识图谱实体的实体向量。
在本申请实施例中,向量生成模型可以用于生成能够表示实体的向量,向量生成模型可以是预先搭建的,向量生成模型可以与前述步骤中的向量生成模型相同。
具体的,根据向量生成模型,确定两个目标知识图谱中实体的实体向量的方式,可以参照前述步骤。
步骤502,基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体。
具体的,本步骤的具体实现可以参照前述步骤203。
步骤503,基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新所述实体的实体向量。
具体的,本步骤的具体实现可以参照前述步骤204。
步骤504,基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中。
具体的,本步骤的具体实现可以参照前述步骤205。
步骤505,继续训练所述向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二实体对齐模型。
在本步骤中,继续训练向量生成模型的方式,可以参照前述步骤中继续训练向量生成模型的方式。通过继续训练向量生成模型,可以不断提高向量生成模型为实体生成的实体向量表示该实体的准确程度。
进一步地,在本申请实施例中,可以在损失值符合收敛条件的情况下,或者两个目标知识图谱中不属于基准集合的实体中,不存在互为距离满足第一预设条件的实体的情况下,将向量生成模型确定为第二实体表示模型。
综上所述,本申请提供的一种第二实体表示模型生成方法,包括:根据向量生成模型,确定两个目标知识图谱中实体的实体向量;基于两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定向量生成模型的损失值;基准集合包括两个目标知识图谱中的部分对齐实体;基于损失值调整向量生成模型的参数,并基于调整后的向量生成模型,更新实体的实体向量;基于实体更新后的实体向量,将两个目标知识图谱中互为距离满足第一预设条件的实体,扩充至基准集合中;继续训练向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二实体对齐模型。本申请中,仅需预先获取部分的对齐实体构成基准集合,在不断训练向量表示模型的过程中,可以自动扩充该基准集合,这样,仅需预先获取部分的对齐实体来构成基准集合,即可实现训练第二实体表示模型,一定程度上可以减少训练第二实体表示模型所需的成本。
相应地,在本申请的一种可选实施例方式中,可以通过下述步骤601~步骤603实现根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体:
步骤601,对于至少两个知识图谱中的任两个知识图谱,将两个知识图谱中实体的第一向量输入实体表示模型。
在本申请实施例中,知识图谱可以是需要进行实体对齐的知识图谱。第一向量可以是用于表示该实体。该第一向量可以是随机生成的,或者,是基于实体的语义生成的,或者,是基于实体的邻接矩阵生成的。具体的生成过程可以参照前述步骤中生成第一向量的过程。
步骤602,根据所述第二实体对齐模型,生成所述实体的第二向量。
在本申请实施例中,该第二实体对齐模型是基于前述第二实体对齐模型生成方法生成的。第二实体对齐模型可以基于输入的实体的第一向量,为每个实体生成一个第二向量。由于第二实体对齐模型是根据基准集合中准确度较高的实体对迭代训练,不断优化得到的,因此,第二实体对齐模型生成的第二向量能够准确的表征该实体。
步骤603,基于所述实体的第二向量,从两个所述知识图谱中提取互为距离满足第二预设条件的实体,得到两个所述知识图谱中的对齐实体。
在本申请实施例中,该第二预设条件可以是根据实际应用场景和实际需求设定。示例的,第二预设条件可以是距离排名高于预设排名阈值,该距离排名指的是该目标知识图谱中实体的距离,在该实体与另一个目标知识图谱中所有实体的距离中的排名。这样,通过双向选择,即,选择出相对于彼此的距离均满足第二预设条件的实体,一定程度上可以提高所选择的实体对的置信度,进而确保选择的对齐实体的准确性。需要说明的是,在本申请的另一可选实施例中,也可以设置一个距离阈值,基于实体的第二向量,提取距离满足预设距离阈值的实体,以作为对齐实体。当然,该第二预设条件也可以是距离小于预设值。
综上所述,本申请提供的一种实体对齐方中,所使用的第二实体对齐模型仅需少量对齐实体即可训练得到,因此,可以降低使用该第二实体对齐模型的成本,同时,由于第二实体对齐模型是根据基准集合中准确度较高的实体对迭代训练,不断优化得到的,因此,第二实体对齐模型生成的第二向量能够准确的表征该实体,进而可以确保基于该第二向量提取的对齐实体的准确性。
可选的,在本申请实施例的一种具体实现方式中,所述步骤602具体可以包括:
子步骤6021,提取所述实体的M个邻居实体的实体特征向量。
具体的,本步骤的具体实现可以参照前述子步骤2021。
子步骤6022,基于所述实体的第一向量、M个所述邻居实体的实体特征向量及所述第二实体对齐模型中预训练的权重参数,计算所述实体的第二向量。
具体的,本步骤的具体实现可以参照前述步骤。
参照图9,示出了本申请的一种知识图谱的局部示意图。对于实体“沙漠靴”,本申请实施例中,可以根据第二实体对齐模型,基于实体“沙漠靴”的第一向量、实体“沙漠靴”的邻居实体“苏州”、“棕色”、“皮革”及“300克”的特征向量生成实体“沙漠靴”的第二向量,对于实体“Desert Boot”,可以用第二实体对齐模型,基于实体“Desert Boot”的第一向量、实体“Desert Boot”的邻居实体“Chinese”、“38”、“leather”及“300grams”的特征向量生成实体“Desert Boot”的第二向量,实体“沙漠靴”与实体“Desert Boot”指示是物理世界的同一事物,因此,实体“沙漠靴”的第二向量与实体“Desert Boot”的第二向量之间实体距离会互为距离最近,相应地,可以将实体“沙漠靴”与实体“Desert Boot”作为对齐实体。
进一步地,在本申请实施例中,从知识图谱中提取到对齐实体之后,可以基于这些对齐实体进行搜索优化。参照图10,示出了本申请实施例的一种基于对齐实体进行搜索的场景示意图。在本申请实施例中,服务端AS210、服务端BS220以及对齐设备S230可以是服务器、计算机或者其他计算能力比较强的电子设备图中以设备为服务器为例进行示意。实际应用中,服务端AS210、服务端BS220以及对齐设备S230可以为同一设备,也可以为不同的设备。终端设备S240可以是服务端BS220管理的任一终端设备S240,用户可以使用该终端设备S240进行搜索。
对齐设备S230上可以部署有基于前述实施例中的方法生成的实体对齐模型,这样,可以使得对齐设备S230能够根据该实体对齐模型识别知识图谱之间的对齐实体。其中,实体对齐模型可以是由该对齐设备S230基于前述方法自己生成的,也可以是由其他设备生成的。
具体的,在该场景中,对齐设备S230可以执行:步骤2.1获取知识图谱A以及获取知识图谱B;步骤2.2对知识图谱A和知识图谱B进行实体对齐:步骤2.3返回对齐后的实体对,其中,这些实体对中包括:实体M-实体N的实体对;相应地,用户可以执行步骤2.4触发终端设备S240对实体M的搜索操作,终端设备S240可以执行步骤2.5发起对实体M的搜索请求。假设实体M与实体N为对齐的实体对,实体M为知识图谱B中的实体,实体N为知识图谱A中的实体,那么服务端BS220可以执行步骤2.6根据实体对“实体M-实体N”,从知识图谱A中获取实体N的信息,并从服务端BS220中获取实体M的信息。接着,服务端BS220可以执行步骤2.7将实体M及实体N两者的信息返回给终端设备S240。相应地,终端设备S240可以执行步骤2.8展示实体M及实体N两者信息。这样,通过结合对齐设备S230提取到的对齐实体,可以将用户搜索的实体的信息以及与用户搜索的实体对齐的实体的均展示给用户,进而可以提高搜索结果的丰富性。需要说明的是,实际应用中,还可以根据对齐后的实体对预测实体之间的连接关系,然后将预测的连接关系返回给服务端AS210以及服务端BS220,相应地,服务端AS210以及服务端BS220可以基于连接关系完善或者扩充各自存储的知识图谱。
参照图11,示出了本申请的一种实体的相关信息更新方法的步骤流程图。该方法可以应用于第一服务端,该方法具体可以包括如下步骤:
步骤701,在确定所述第一服务端中的目标实体的相关信息更新的情况下,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体。
在本申请实施例中,该目标实体与实体发布方法实施例中的目标实体可以为同一实体,也可以为不同实体。第一服务端及第二服务端可以为网站,服务端中的实体可以表示该网站中的一个对象。例如,在该网站为购物网站时,该服务端中的实体可以为网站中的一个商品。进一步地,第二服务端可以为一个或多个,这样,在第二服务端为多个时,可以实现同时对多个服务端进行更新。相应地,知识图谱可以是基于第一服务端中的数据以及至少一个第二服务端中的数据构建的,知识图谱可以分别存在各自对应的服务端内。这些知识图谱中的对齐实体是基于前述实施例中的实体对齐方法提取到的。这样,这些知识图谱中的对齐实体,可以表示第一服务端及第二服务端中表示相同概念的实体。相应地,对于目标实体,可以从这些对齐实体中,查找与该第一实体对应的第二实体,进而确定目标实体在第二服务端中对应的第二实体。
步骤702,基于更新后的目标实体的相关信息,对所述第二实体的相关信息进行更新。
本申请实施例中,对目标实体的相关信息的更新,可以是为目标实体增加相关信息,也可以是删减目标实体的相关信息,也可以是对目标实体的相关信息的内容进行更新。假设为目标实体增加了相关信息“价格199”,那么相应地,也可以为第二实体增加相关信息“价格199”。
由于该第二实体与目标实体表示同一概念,因此,可以基于更新后的目标实体的相关信息,对第二实体的相关信息进行相应的更新,进而实现对不同服务端中同一实体的相关信息进行快速更新。示例的,假设实体为购物网站中的商品,那么本申请实施例中的方法,可以实现快速对其他购物网站中相同商品的相关信息进行更新。
参照图12,示出了本申请实施例的一种实体的相关信息更新的场景示意图。在本申请实施例中,服务端AS310、服务端BS320、服务端CS340以及对齐设备S330可以是服务器、计算机或者其他计算能力比较强的电子设备图中以设备为服务器为例进行示意。实际应用中,服务端AS310、服务端BS320、服务端CS340以及对齐设备S330可以为同一设备,也可以为不同的设备。其中,服务端AS310为第一服务端,服务端BS320及服务端CS340为第二服务端。
对齐设备S330上可以部署有基于前述实施例中的方法生成的实体对齐模型,这样,可以使得对齐设备S330能够根据该实体对齐模型识别知识图谱之间的对齐实体。其中,实体对齐模型可以是由该对齐设备S330基于前述方法自己生成的,也可以是由其他设备生成的。
具体的,在该场景中,服务端AS310可以执行步骤3.1更新实体A,其中,实体A即为目标实体,更新实体A的具体操作可以是对实体A的相关信息进行更新。对齐设备S330可以执行:步骤3.2获取知识图谱A、获取知识图谱B以及获取知识图谱C;步骤3.3对知识图谱A、知识图谱B,知识图谱A,C进行实体对齐;步骤3.4返回知识图谱A、B之间的对齐实体,以及知识图谱A、C之间的对齐实体;相应地,服务端AS310可以执行:步骤3.5基于知识图谱A、B的对齐实体,将实体A的信息同步给服务端BS320发布;以及步骤3.6基于知识图谱A、C的对齐实体将实体A的信息同步给服务端CS340发布。这样,结合对齐实体进行相关信息更新的方式,仅需在服务端上对相关信息做一次更新,即可自动同步更新其他服务端上对应的实体的相关信息,进而提高相关信息的更新效率。
可选的,在本申请实施例的一种具体实现方式中,在步骤702之前,还可以包括:
步骤703,将所述更新后的目标实体的相关信息,转换为符合第二目标语言的相关信息;所述第二目标语言是所述第二服务端采用的语言。
本步骤中,不同服务端面向的用户可能不同,因此,不同服务端采用的语言可能不同。例如,为西班牙用户提供服务的服务端会采用西班牙语,为英国用户提供服务的服务端会采用英语。因此,可以在对第二服务端的第二实体的相关信息进行同步更新之前,将更新后的目标实体的相关信息转换为符合第二服务端采用的语言的相关信息,这样,可以确保对第二服务端的第二实体的相关信息更新之后,第二服务端的用户能够正常理解这些相关信息。当然,也可以将更新后的目标实体的相关信息发送给第二服务端,由第二服务端进行转换并进行更新。
具体的,在转换时,可以采用人工翻译的方式或者是机器翻译的方式。需要说明的是,在通过机器翻译进行语言转换时,受到机器翻译的精确度的影响,有些专业领域内的专业词语可能无法被准确翻译,因此在本申请实施例中,可以采集不同专业领域内的专业词语,然后基于这些词语对机器翻译的结果中对应专业词语的词语进行修正,进而提高语言转换的准确度。
参照图13,示出了本申请实施例的另一种实体的相关信息更新的场景示意图。在本场景中,在将实体A的信息同步给对服务端BS320以及服务端CS340之前,会实体A的信息进行转换。这样,结合对齐实体进行相关信息更新,并在更新之前对信息的语种进行转化,可以在自动同步更新其他服务端上对应实体的相关信息,提高相关信息的更新效率的同时,确保更新过去的信息能够被用户正常理解。
综上所述,本申请提供的一种实体的相关信息更新方法,包括:在确定第一服务端中的目标实体的相关信息更新的情况下,基于至少两个知识图谱中的对齐实体,确定目标实体在第二服务端中对应的第二实体;基于更新后的目标实体的相关信息,对第二实体的相关信息进行更新。本申请中,基于从知识图谱中提取到的对齐实体,可以便捷的确定出其他第二服务端中与目标实体对应的第二实体,进而可以基于对目标实体的相关信息的更新,同步更新多个其他第二服务端中第二实体的相关信息,进而实现快速发布。
进一步地,本申请还提供一种网站数据构建方法。该方法可以应用于第一服务端,该方法具体可以包括如下步骤:
步骤801,接收用于构建网站数据的构建请求。
步骤802,响应于所述构建请求,基于至少两个知识图谱中的对齐实体,确定第一服务端中待构建的第一实体在第二服务端中对应的第二实体。
在本申请实施例中,待构建的第一实体可以是需要添加至第一服务端中,但是相关信息不足,还未构建数据的实体。具体的,确定第一实体在第二服务端中对应的第二实体的方式可以参照前述步骤。
步骤803,从所述第二服务端中获取所述第二实体对应的相关信息作为所述第一实体的数据,以构建所述网站数据。
具体的,可以将第二实体对应的相关信息作为第一实体相关信息,添加至第一服务端中,进而实现构建第一实体的数据。这样,无需生成第一实体的相关信息,直接从第二服务端中获取第二实体对应的相关信息,即可实现构建第一实体的数据,进而可以提高构建效率。
以构建网站为例,基于本申请实施例的方式,可以实现快速构建网站。具体的,参照图14,示出了本申请的一种构建网站的场景示意图。在该场景中,服务端BS420可以为第一服务端,服务端AS410可以为第二服务端,需要构建的网站可以是基于服务端BS420实现的。由于服务端BS420中的实体仅有简单的信息,而服务端AS410中的知识图谱包括详细的信息,因此,对齐设备S430可以基于步骤4.2及步骤4.3实现对服务端AS410中的知识图谱A以及服务端BS420中的知识图谱B进行对齐,然后基于步骤4.4将知识图谱A、知识图谱B之间的对齐实体返回给服务端BS420。相应地,服务端BS420可以基于步骤4.5实现根据这些对齐实体,从服务端AS410中获取待构建实体对齐的第二实体对应的详细信息,基于这些信息来构建网站。这样,无需为网站中每个待构建实体生成信息,直接基于服务端A中实体已有的详细信息,即可实现构建。因此,可以提高构建网站的效率。
可选的,在本申请实施例的一种具体实现方式中,在利用第二实体的相关信息对目标实体进行发布,或者是利用第二实体的相关信息构建所述网站数据的情况下,都可以先将所述对应的第二实体的相关信息,转换为符合第二目标语言的相关信息;所述第二目标语言是所述第一服务端采用的语言。其中,具体的转换方式可以参照前述步骤。
综上所述,本申请提供的一种服务端数据构建方法中,无需收集第一实体的相关信息,直接从第二服务端中获取第二实体对应的相关信息,即可实现构建第一实体的数据,进而可以提高构建效率。
进一步地,本申请实施例提供一种实体的操作同步方法。该方法可以应用于第一服务端,该方法具体可以包括如下步骤:
步骤901,在所述第一服务端中的第一用户实体执行目标操作之后,基于至少两个知识图谱中的对齐实体,确定所述第一用户实体在第二服务端中对应的第二用户实体。
在本申请实施例中,该用户实体可以对应与服务端中的一个账户,该目标操作可以为该账户执行的操作。例如,该目标操作可以该账户向服务端中的另一账户发送消息,也可以是该账户在该服务端中发送系统通知。具体的,确定第一用户实体在第二服务端中对应的第二用户实体的方式可以参照前述步骤。
步骤902,控制所述第二用户实体在所述第二服务端中执行所述目标操作。
本步骤中,该第二服务端可以为一个或多个。进一步地,由于第二用户实体与第一用户实体为对齐实体,因此,可以控制该第二用户实体在第二服务端中也执行该目标操作。这样,无需通过通知第二服务端控制该第二用户实体执行目标操作,第一服务端在第一用户实体执行目标操作之后,可以在第二服务端中同步该目标操作,进而可以提高操作执行的效率。示例的,假设第一用户实体在第一服务端中发布了系统通知X,那么第一服务端可以控制第一用户实体在第二服务端中对应的第二用户实体也发布系统通知X。
参照图15,示出了本申请的一种实体操作同步方法的场景示意图。在该场景中,服务端AS610为第一服务端,服务端BS620服务端CS640为第二服务端。服务端AS610中用户实体A1可以为第一用户实体。
进一步地,对齐设备S630可以先基于步骤6.2及步骤6.3实现对服务端AS610中的知识图谱A以及服务端BS620中的知识图谱B进行对齐,以及对服务端AS610中的知识图谱A以及服务端CS640中的知识图谱C进行对齐,然后基于步骤6.4实现将知识图谱A、知识图谱B之间的对齐实体,以及知识图谱A、知识图谱C之间的对齐实体返回给服务端AS610。相应地,服务端AS610可以基于步骤6.6以及步骤6.7实现基于这些对齐实体,将用户实体A1的目标操作分别同步给服务端BS620中与用户实体A1对齐的用户实体A2,以及同步给服务端CS640中与用户实体A1对齐的用户实体A3。这样,基于对齐实体,用户实体仅需在一个服务端上执行目标操作,即可实现将目标操作同步到多个其他服务端上,进而可以提高操作执行效率。
综上所述,本申请提供的一种实体的操作同步方法中,无需通过通知第二服务端控制该第二用户实体执行目标操作,第一服务端在第一用户实体执行目标操作之后,可以在第二服务端中同步该目标操作,进而可以提高操作执行的效率。
可选的,在基于至少两个业务对象知识图谱中的对齐业务对象,对目标业务对象进行发布的情况下,在获取至少两个业务对象知识图谱中的对齐业务对象时,可以根据预设向量生成模型对至少两个业务对象知识图谱进行双向迭代训练业务对象对齐模型;根据预设的业务对象对齐模型对至少两个业务对象知识图谱进行识别,获得至少两个业务对象知识图谱中的对齐业务对象。其中,双向迭代训练用于在训练向量生成模型过程中扩充基准集合;基准集合包括至少两个业务对象知识图谱的部分对齐业务对象。
具体的,该业务对象对齐模型可以为第一业务对象对齐模型或第二业务对象对齐模型。在训练第二业务对象对齐模型时,可以基于本申请的一种第二业务对象对齐模型生成方法的步骤流程图。具体可以包括如下步骤:
步骤1001,根据业务对象向量生成模型,确定两个目标业务对象知识图谱中业务对象的业务对象向量。
在本申请实施例中,目标业务对象知识图谱可以是以业务对象网站中业务对象的相关信息生成的知识图谱。该相关信息至少可以包括业务对象的名称、标识、属性及所属的业务对象类目。示例的,以业务对象为网站中的长裙为例,业务对象的名称可以为长裙的名称、标识可以为长裙的标识、属性可以为长裙的颜色、款式、面料、尺寸,等等。所属的业务对象类目可以为长裙所属的类目:衣物。
步骤1002,基于所述两个目标业务对象知识图谱中业务对象的业务对象向量及业务对象基准集合中业务对象的向量,确定所述业务对象向量生成模型的损失值;所述业务对象基准集合包括两个所述目标业务对象知识图谱中的部分对齐业务对象。
具体的,本步骤的具体实现可以参照前述步骤。
步骤1003,基于所述损失值调整所述业务对象向量生成模型的参数,并基于调整后的所述业务对象向量生成模型,更新所述业务对象的向量。
具体的,本步骤的具体实现可以参照前述步骤。
步骤1004,基于所述业务对象更新后的向量,将两个所述目标业务对象知识图谱中互为距离满足第一预设条件的业务对象,扩充至所述业务对象基准集合中。
具体的,本步骤的具体实现可以参照前述步骤。
步骤105,继续训练所述业务对象向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二业务对象对齐模型。
具体的,本步骤的具体实现可以参照前述步骤。本申请实施例中,针对性的根据目标业务对象知识图谱生成第二业务对象对齐模型,可以使得在根据第二业务对象对齐模型对业务对象领域的知识图谱进行业务对象对齐的情况下,能够更为准确的提取出业务对象领域的知识图谱中的对齐业务对象。
综上所述,本申请提供的一种第二业务对象对齐模型生成方法,中,仅需预先获取部分的对齐业务对象构成业务对象基准集合,在不断训练第一向量表示模型的过程中,可以自动扩充该业务对象基准集合,这样,仅需预先获取部分的对齐业务对象来构成业务对象基准集合,即可实现训练第二业务对象对齐模型,一定程度上可以减少训练第二业务对象对齐模型所需的成本。同时,针对性的利用目标业务对象知识图谱生成第二业务对象对齐模型,可以使得在利用第二业务对象对齐模型对业务对象领域的知识图谱进行业务对象对齐时,能够更为准确的提取出业务对象领域的知识图谱中的对齐业务对象。
进一步地,本申请实施例提供一种业务对象对齐方法。具体可以包括如下步骤:
步骤1101,对于至少两个业务对象知识图谱中的任两个业务对象知识图谱,将两个业务对象知识图谱中业务对象的第一向量输入第二业务对象对齐模型。
业务对象知识图谱可以是需要进行业务对象对齐的业务对象知识图谱,业务对象知识图谱可以是以业务对象领域中业务对象的相关数据,生成的知识图谱。具体的生成方式可以参照前述步骤。进一步地,第一向量可以是用于表示该业务对象。该第一向量可以是随机生成的,或者,是基于业务对象的语义生成的,或者,是基于邻接矩阵生成的。具体的生成过程可以参照前述步骤。
步骤1102,根据所述第二业务对象对齐模型,生成所述业务对象的第二向量。
在本步骤中,第二业务对象对齐模型是基于前述的第二业务对象对齐模型生成方法生成的。
步骤1103,基于所述业务对象的第二向量,从两个所述业务对象知识图谱中提取互为距离满足第二预设条件的业务对象,得到两个所述业务对象知识图谱中的对齐业务对象。
在本步骤中,由于第二业务对象对齐模型是根据目标业务对象知识图谱生成的,业务对象知识图谱及训练的情况下使用的目标业务对象知识图谱均是基于业务对象领域的数据源构建的,因此,第二业务对象对齐模型生成的第二向量能够准确的表征业务对象,进而可以确保基于该业务对象的第二向量提取的对齐业务对象的准确性。
综上所述,本申请提供的一种业务对象对齐方法中,所使用的第二业务对象对齐模型仅需少量对齐业务对象即可训练得到,因此,可以降低使用该第二业务对象对齐模型的成本,同时,由于第二业务对象对齐模型是利用目标业务对象知识图谱生成的,业务对象知识图谱及训练时使用的目标业务对象知识图谱均是基于业务对象领域的数据源构建的,因此,第二业务对象对齐模型生成的第二向量能够准确的表征业务对象,进而可以确保基于该第二向量提取的对齐业务对象的准确性。
参照图16,示出了本申请实施例的一种目标业务对象知识图谱的示意图,参照图17,示出了本申请实施例的另一种目标业务对象知识图谱的示意图。这两个业务对象知识图谱可以中分别包括多个节点以及边,其中,每个节点表示一个业务对象,每个边表示业务对象之间的关系。其中,业务对象“苹果XR”及业务对象“Iphone XR”指向物理世界中的同一事物,通过本申请实施例中的前述步骤,可以提取出业务对象“苹果XR”及业务对象“IphoneXR”,作为对齐业务对象。
进一步地,在训练第一业务对象对齐模型时,可以先获取训练数据。然后根据训练数据对预设机器学习模型进行训练,获得第一业务对象对齐模型。具体的,本申请实施例提供一种训练数据生成方法的步骤流程图。具体可以包括如下步骤:
步骤1201,根据业务对象向量生成模块,确定两个目标业务对象知识图谱中业务对象的向量。
步骤1202,基于所述两个目标业务对象知识图谱中业务对象的向量及业务对象基准集合中业务对象的向量,确定所述业务对象向量生成模型的损失值;所述业务对象基准集合包括两个所述目标业务对象知识图谱中的部分对齐业务对象。
步骤1203,基于所述损失值调整所述业务对象向量生成模型的参数,并基于调整后的所述业务对象向量生成模型,更新所述业务对象的向量。
步骤1204,基于所述业务对象更新后的向量,将两个所述目标业务对象知识图谱中互为距离满足第一预设条件的业务对象,扩充至所述业务对象基准集合中。
步骤1205,继续训练所述业务对象向量生成模型,并在训练结束的情况下,将所述业务对象基准集合确定为训练数据。
具体的,本申请实施例中的各个步骤的实现方式可以参照前述实施例中对应的各个步骤。
综上所述,本申请提供的一种训练数据生成方法中,仅需预先获取部分的对齐业务对象构成业务对象基准集合,后续通过不断的训练业务对象向量生成模块,可以自动扩充该业务对象基准集合,进而获得到大量的训练数据。由于只需预先获取部分的对齐业务对象来构成业务对象基准集合,因此,一定程度上可以减少获取训练数据时所需的成本,提高获取效率,进而减少生成第一业务对象对齐模型的成本。
相应地,在本申请的一种可选实施例方式中,可以通过下述步骤1301~步骤1302实现根据预设的业务对象对齐模型对所述至少两个业务对象知识图谱进行识别,获得至少两个业务对象知识图谱中的对齐业务对象:
步骤1301,将所述至少两个业务对象知识图谱输入第一业务对象对齐模型。
步骤1302,根据所述第一业务对象对齐模型,确定所述业务对象知识图谱中的对齐业务对象。
具体的,本申请实施例中的各个步骤的实现方式可以参照前述实施例中对应的各个步骤。
综上所述,本申请实施例中,在确定业务对象知识图谱中的对齐业务对象时,所使用的业务对象对齐模型,在训练时只需预先获取部分的对齐业务对象来构成业务对象基准集合,通过不断扩充即可得到训练数据,因此,一定程度上可以降低生成模型的成本,进而降低使用该业务对象对齐模型的成本。
进一步地,本申请实施例提供一种业务对象的相关信息更新方法。具体可以包括如下步骤:
步骤1401,在确定所述第一服务端中的目标业务对象的相关信息更新的情况下,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象。
步骤1402,基于更新后的目标业务对象的相关信息,对所述第二业务对象的相关信息进行更新。
具体的,本申请实施例中的各个步骤的实现方式可以参照前述实施例中对应的各个步骤。在基于更新后的目标业务对象的相关信息,对第二业务对象的相关信息进行更新之前,还可以先将目标业务对象的相关信息转换为符合第一目标语言的相关信息,其中,该第一目标语言是第一服务端采用的语言。
本申请实施例提供一种业务对象的相关信息更新方法中,该目标业务对象与业务对象发布方法实施例中的目标业务对象可以为同一业务对象,也可以为不同业务对象。基于从业务对象知识图谱中提取到的对齐业务对象,可以便捷的确定出其他第二服务端中与目标业务对象对应的第二业务对象,进而可以基于对目标业务对象的相关信息的更新,同步更新多个其他第二服务端中第二业务对象的相关信息,进而实现快速更新。
进一步地,本申请实施例提供一种网站数据构建方法。具体可以包括如下步骤:
步骤1501,接收用于构建网站数据的构建请求。
步骤1502,响应于所述构建请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定第一服务端中待构建的第一业务对象在第二服务端中对应的第二业务对象。
步骤1503,从所述第二服务端中获取所述第二业务对象对应的相关信息作为所述第一业务对象的数据,以构建所述网站数据。
具体的,本申请实施例中的各个步骤的实现方式可以参照前述实施例中对应的各个步骤。
本申请实施例提供一种网站数据构建方法中,无需收集第一业务对象的相关信息,直接从第二服务端中获取第二业务对象对应的相关信息,即可实现构建第一业务对象的数据,进而可以提高构建效率。
可选的,在本申请实施例的一种具体实现方式中,在利用第二业务对象的相关信息对目标业务对象进行发布,或者是利用第二业务对象的相关信息构建网站数据的情况下,都可以先将对应的第二业务对象的相关信息,转换为符合第一目标语言的相关信息;其中,该第一目标语言是所述第一服务端采用的语言。其中,具体的转换方式可以参照前述步骤。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本申请实施例还提供了一种装置、一种电子设备和一种存储介质,用以保证上述方法的实现及应用。
参照图18,示出了本申请实施例的一种业务对象发布装置的结构框图,该装置应用于第一服务端,该装置方法包括:
第一接收模块1601,用于接收对目标业务对象的发布请求;
第一确定模块1602,用于响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
第一获取模块1603,用于获取所述第二服务端中对应的第二业务对象的相关信息;
第一发布模块1604,用于根据所述相关信息对所述目标业务对象进行发布。
综上所述,本申请提供的一种业务对象发布装置,可以接收对目标业务对象的发布请求;响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;获取所述第二服务端中对应的第二业务对象的相关信息;根据所述相关信息对所述目标业务对象进行发布。本申请中,无需生成人工搜集目标业务对象的相关信息,直接从第二服务端中获取第二业务对象对应的相关信息,即可实现发布目标业务对象,进而可以提高发布效率。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第一转换模块,用于将所述对应的第二业务对象的相关信息,转换为符合第一目标语言的相关信息;所述第一目标语言是所述第一服务端采用的语言。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第二确定模块,用于在确定所述第一服务端中的目标业务对象的相关信息更新的情况下,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
第一更新模块,用于基于更新后的目标业务对象的相关信息,对所述第二业务对象的相关信息进行更新。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第二接收模块,用于接收用于构建网站数据的构建请求;
第三确定模块,用于响应于所述构建请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定第一服务端中待构建的第一业务对象在第二服务端中对应的第二业务对象;
第一构建模块,用于从所述第二服务端中获取所述第二业务对象对应的相关信息作为所述第一业务对象的数据,以构建所述网站数据。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第一训练模块,用于根据预设向量生成模型对至少两个业务对象知识图谱进行双向迭代训练业务对象对齐模型;其中,所述双向迭代训练用于在训练所述向量生成模型过程中扩充基准集合;所述基准集合包括所述至少两个业务对象知识图谱的部分对齐业务对象;
第一识别模块,用于根据预设的业务对象对齐模型对所述至少两个业务对象知识图谱进行识别,获得至少两个业务对象知识图谱中的对齐业务对象。
可选的,在本申请的一种具体实施方式中,所述第一训练模块,具体用于:
根据业务对象向量生成模型,确定两个目标业务对象知识图谱中业务对象的向量;
基于所述两个目标业务对象知识图谱中业务对象的向量及业务对象基准集合中业务对象的向量,确定所述业务对象向量生成模型的损失值;所述业务对象基准集合包括两个所述目标业务对象知识图谱中的部分对齐业务对象;
基于所述损失值调整所述业务对象向量生成模型的参数,并基于调整后的所述业务对象向量生成模型,更新所述业务对象的向量;
基于所述业务对象更新后的向量,将两个所述目标业务对象知识图谱中互为距离满足第一预设条件的业务对象,扩充至所述业务对象基准集合中;
继续训练所述业务对象向量生成模型,并在训练结束的情况下,将所述业务对象基准集合确定为训练数据;
根据所述训练数据对预设机器学习模型进行训练,获得第一业务对象对齐模型。
可选的,在本申请的一种具体实施方式中,所述第一识别模块,具体用于:
将所述至少两个业务对象知识图谱输入第一业务对象对齐模型;
根据所述第一业务对象对齐模型,确定所述业务对象知识图谱中的对齐业务对象。
可选的,在本申请的一种具体实施方式中,所述第一训练模块,具体用于:
根据业务对象向量生成模型,确定两个目标业务对象知识图谱中业务对象的向量;
基于所述两个目标业务对象知识图谱中业务对象的向量及业务对象基准集合中业务对象的向量,确定所述业务对象向量生成模型的损失值;所述业务对象基准集合包括两个所述目标业务对象知识图谱中的部分对齐实体;
基于所述损失值调整所述业务对象向量生成模型的参数,并基于调整后的所述业务对象向量生成模型,更新所述业务对象的向量;
基于所述业务对象更新后的向量,将两个所述目标业务对象知识图谱中互为距离满足第一预设条件的业务对象,扩充至所述业务对象基准集合中;
继续训练所述业务对象向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二业务对象对齐模型。
可选的,在本申请的一种具体实施方式中,所述第一识别模块,具体用于:
对于至少两个业务对象知识图谱中的任两个知识图谱,将两个所述业务对象知识图谱中业务对象的第一向量输入第二业务对象对齐模型;
根据所述第二业务对象对齐模型,生成所述业务对象的第二向量;
基于所述业务对象的第二向量,从两个所述业务对象知识图谱中提取互为距离满足第二预设条件的业务对象,得到两个所述业务对象知识图谱中的对齐业务对象。
参照图19,示出了本申请实施例的一种实体发布装置的结构框图,该装置应用于第一服务端,该装置包括:
第三接收模块1701,用于接收对目标实体的发布请求;
第四确定模块1702,用于响应于所述发布请求,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
第二获取模块1703,用于获取所述第二服务端中对应的第二实体的相关信息;
第二发布模块1704,用于根据所述相关信息对所述目标实体进行发布。
综上所述,本申请提供的一种实体发布装置,可以接收对目标实体的发布请求;响应于所述发布请求,基于至少两个实体知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;获取所述第二服务端中对应的第二实体的相关信息;根据所述相关信息对所述目标实体进行发布。本申请中,无需生成人工搜集目标实体的相关信息,直接从第二服务端中获取第二实体对应的相关信息,即可实现发布目标实体,进而可以提高发布效率。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第五确定模块,用于在确定所述第一服务端中的目标实体的相关信息更新的情况下,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
第二更新模块,用于基于更新后的目标实体的相关信息,对所述第二实体的相关信息进行更新。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第四接收模块,用于接收用于构建网站数据的构建请求;
第六确定模块,用于响应于所述构建请求,基于至少两个知识图谱中的对齐实体,确定第一服务端中待构建的第一实体在第二服务端中对应的第二实体;
第二构建模块,用于从所述第二服务端中获取所述第二实体对应的相关信息作为所述第一实体的数据,以构建所述网站数据。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第二转换模块,用于将所述对应的第二实体的相关信息,转换为符合第二目标语言的相关信息;所述第二目标语言是所述第一服务端采用的语言。
可选的,在本申请的一种具体实施方式中,所述实体包括用户实体,所述装置还包括:
第七确定模块,用于在所述第一服务端中的第一用户实体执行目标操作之后,基于至少两个知识图谱中的对齐实体,确定所述第一用户实体在第二服务端中对应的第二用户实体;
控制模块,用于控制所述第二用户实体在所述第二服务端中执行所述目标操作。
可选的,在本申请的一种具体实施方式中,所述装置还包括:
第二训练模块,用于根据预设向量生成模型对至少两个知识图谱进行双向迭代训练实体对齐模型;其中,所述双向迭代训练用于在训练所述向量生成模型过程中扩充基准集合;所述基准集合包括所述至少两个知识图谱的部分对齐实体;
第二识别模块,用于根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体。
可选的,在本申请的一种具体实施方式中,所述第二训练模块,具体用于:
根据向量生成模型,确定两个目标知识图谱中实体的实体向量;
基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体;
基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新所述实体的实体向量;
基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中;
继续训练所述向量生成模型,并在训练结束的情况下,将所述基准集合确定为训练数据;
根据所述训练数据对预设机器学习模型进行训练,获得第一实体对齐模型。
可选的,在本申请的一种具体实施方式中,所述第二训练模块,还具体用于:
对于两个所述目标知识图谱中的所述实体,确定所述实体的第一向量;
将所述实体的所述第一向量输入所述向量生成模型,生成所述实体的第二向量,得到所述实体向量。
可选的,在本申请的一种具体实施方式中,在首次生成所述第一向量的情况下,所述确定所述实体的第一向量,包括:为所述实体随机生成一特征向量,以作为所述实体的所述第一向量;或者,获取所述实体的邻接矩阵,以作为所述实体的所述第一向量;或者,基于所述实体的语义,生成所述实体的语义向量,以作为所述实体的所述第一向量;
在再次生成所述第一向量的情况下,所述第一向量为上一轮的第二向量。
可选的,在本申请的一种具体实施方式中,所述第二训练模块,还具体用于:
提取所述实体的N个邻居实体的实体特征向量;
基于所述实体的第一向量、N个所述邻居实体的实体特征向量及所述向量生成模型中的权重参数,计算所述实体的所述第二向量。
可选的,在本申请的一种具体实施方式中,所述基准集合包括至少一个基准实体对;
所述第二训练模块,还具体用于:
根据所述基准实体对中的实体及两个所述目标知识图谱中的实体,为所述基准实体对构建两个负样本实体对;
基于所述基准实体对中实体的实体向量及所述负样本实体对中实体的实体向量,分别计算所述基准实体对的实体距离、所述负样本实体对的实体距离;
基于所述基准实体对中的实体距离及所述负样本实体对的实体距离,计算所述损失值。
可选的,在本申请的一种具体实施方式中,所述基准实体对包括第一基准实体和第二基准实体;所述第一基准实体及所述第二基准实体分别属于不同的目标知识图谱;
所述第二训练模块,还具体用于:
根据所述基准实体对中的第一基准实体以及第一负样本实体,构建第一负样本实体对;所述第一负样本实体是从所述第二基准实体所属的目标知识图谱中选择的;
根据所述基准实体对中的第二基准实体以及第二负样本实体,构建第二负样本实体对;所述第二负样本实体是从所述第一基准实体所属的目标知识图谱中选择的。
可选的,在本申请的一种具体实施方式中,所述第一负样本实体及所述第二负样本实体为随机选择的实体。
可选的,在本申请的一种具体实施方式中,所述第一预设条件为距离最近;两个所述目标知识图谱分别为第一目标知识图谱及第二目标知识图谱;所述第一目标知识图谱由第一实体组成,所述第二目标知识图谱由第二实体组成;
所述第二训练模块,还具体用于:
将所述第一目标知识图谱中不属于所述基准集合的第一实体作为目标实体,并分别执行以下操作:
基于所述目标实体的实体向量及所述第二目标知识图谱中所述第二实体的实体向量,确定与所述目标实体距离最近的第二实体,得到所述目标实体的备选实体;
基于所述备选实体的实体向量及所述第一目标知识图谱中所述第一实体的实体向量,判断与所述备选实体距离最近的第一实体是否为所述目标实体;
若是,则将所述目标实体及所述备选实体作为一个基准实体对,添加至所述基准集合中。
可选的,在本申请的一种具体实施方式中,所述第二识别模块,具体用于:
将所述至少两个知识图谱输入所述第一实体对齐模型;
根据所述第一实体对齐模型,确定所述知识图谱中的对齐实体。
可选的,在本申请的一种具体实施方式中,所述第二训练模块,还具体用于:
根据向量生成模型,确定两个目标知识图谱中实体的实体向量;
基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体;
基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新所述实体的实体向量;
基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中;
继续训练所述向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二实体对齐模型。
可选的,在本申请的一种具体实施方式中,所述第二识别模块,具体用于:
对于至少两个知识图谱中的任两个知识图谱,将两个所述知识图谱中实体的第一向量输入第二实体对齐模型;
根据所述第二实体对齐模型,生成所述实体的第二向量;
基于所述实体的第二向量,从两个所述知识图谱中提取互为距离满足第二预设条件的实体,得到两个所述知识图谱中的对齐实体。
可选的,在本申请的一种具体实施方式中,所述第二训练模块,还具体用于:提取所述实体的M个邻居实体的实体特征向量;
基于所述实体的第一向量、M个所述邻居实体的实体特征向量及所述二实体对齐模型中预训练的权重参数,计算所述实体的第二向量。
可选的,在本申请的一种具体实施方式中,所述第二预设条件为距离小于预设值。
可选的,在本申请的一种具体实施方式中,所述训练结束的条件包括:所述损失值符合收敛条件,或两个所述目标知识图谱中不属于所述基准集合的实体中,不存在互为距离满足第一预设条件的实体。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务端(集群)、移动设备、终端设备等电子设备。图20示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1800。
对于一个实施例,图20示出了示例性装置1800,该装置具有一个或多个处理器1802、被耦合到(一个或多个)处理器1802中的至少一个的控制模块(芯片组)1804、被耦合到控制模块1804的存储器1806、被耦合到控制模块1804的非易失性存储器(NVM)/存储设备1808、被耦合到控制模块1804的一个或多个输入/发送设备1811,以及被耦合到控制模块1806的网络接口1812。
处理器1802可包括一个或多个单核或多核处理器,处理器1802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1800能够作为本申请实施例中所述服务端(集群)、移动设备、终端设备等设备。
在一些实施例中,装置1800可包括具有指令1804的一个或多个计算机可读介质(例如,存储器1806或NVM/存储设备1808)以及与该一个或多个计算机可读介质相合并被配置为执行指令1804以实现模块从而执行本公开中所述的动作的一个或多个处理器1802。
对于一个实施例,控制模块1804可包括任意适当的接口控制器,以向(一个或多个)处理器1802中的至少一个和/或与控制模块1804通信的任意适当的设备或组件提供任意适当的接口。
控制模块1804可包括存储器控制器模块,以向存储器1806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1806可被用于例如为装置1800加载和存储数据和/或指令1804。对于一个实施例,存储器1806可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1804可包括一个或多个输入/发送控制器,以向NVM/存储设备1808及(一个或多个)输入/发送设备1800提供接口。
例如,NVM/存储设备1808可被用于存储数据和/或指令1804。NVM/存储设备1808可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1808可包括在物理上作为装置1800被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1808可通过网络经由(一个或多个)输入/发送设备1800进行访问。
(一个或多个)输入/发送设备1800可为装置1800提供接口以与任意其他适当的设备通信,输入/发送设备1800可以包括通信组件、音频组件、传感器组件等。网络接口1802可为装置1800提供接口以通过一个或多个网络通信,装置1800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1802中的至少一个可与控制模块1804的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1802中的至少一个可与控制模块1804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1802中的至少一个可与控制模块1204的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1202中的至少一个可与控制模块1804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1800可以但不限于是:服务端、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1800可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
本申请实施例提供了一种电子设备,包括:一个或多个处理器;和,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行前述方法。
本申请实施例提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行前述方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种业务对象发布方法和装置、一种实体发布方法和装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (35)

1.一种业务对象发布方法,应用于第一服务端,其特征在于,所述方法包括:
接收对目标业务对象的发布请求;
响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
获取所述第二服务端中对应的第二业务对象的相关信息;
根据所述相关信息对所述目标业务对象进行发布。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述对应的第二业务对象的相关信息,转换为符合第一目标语言的相关信息;所述第一目标语言是所述第一服务端采用的语言。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定所述第一服务端中的目标业务对象的相关信息更新的情况下,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
基于更新后的目标业务对象的相关信息,对所述第二业务对象的相关信息进行更新。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用于构建网站数据的构建请求;
响应于所述构建请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定第一服务端中待构建的第一业务对象在第二服务端中对应的第二业务对象;
从所述第二服务端中获取所述第二业务对象对应的相关信息作为所述第一业务对象的数据,以构建所述网站数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设向量生成模型对至少两个业务对象知识图谱进行双向迭代训练业务对象对齐模型;其中,所述双向迭代训练用于在训练所述向量生成模型过程中扩充基准集合;所述基准集合包括所述至少两个业务对象知识图谱的部分对齐业务对象;
根据预设的业务对象对齐模型对所述至少两个业务对象知识图谱进行识别,获得至少两个业务对象知识图谱中的对齐业务对象。
6.根据权利要求5所述的方法,其特征在于,所述根据预设向量生成模型对至少两个业务对象知识图谱进行双向迭代训练业务对象对齐模型,包括:
根据业务对象向量生成模型,确定两个目标业务对象知识图谱中业务对象的向量;
基于所述两个目标业务对象知识图谱中业务对象的向量及业务对象基准集合中业务对象的向量,确定所述业务对象向量生成模型的损失值;所述业务对象基准集合包括两个所述目标业务对象知识图谱中的部分对齐业务对象;
基于所述损失值调整所述业务对象向量生成模型的参数,并基于调整后的所述业务对象向量生成模型,更新所述业务对象的向量;
基于所述业务对象更新后的向量,将两个所述目标业务对象知识图谱中互为距离满足第一预设条件的业务对象,扩充至所述业务对象基准集合中;
继续训练所述业务对象向量生成模型,并在训练结束的情况下,将所述业务对象基准集合确定为训练数据;
根据所述训练数据对预设机器学习模型进行训练,获得第一业务对象对齐模型。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的业务对象对齐模型对所述至少两个业务对象知识图谱进行识别,获得至少两个业务对象知识图谱中的对齐业务对象,包括:
将所述至少两个业务对象知识图谱输入第一业务对象对齐模型;
根据所述第一业务对象对齐模型,确定所述业务对象知识图谱中的对齐业务对象。
8.根据权利要求5所述的方法,其特征在于,所述根据预设向量生成模型对至少两个业务对象知识图谱进行双向迭代训练业务对象对齐模型,包括:
根据业务对象向量生成模型,确定两个目标业务对象知识图谱中业务对象的向量;
基于所述两个目标业务对象知识图谱中业务对象的向量及业务对象基准集合中业务对象的向量,确定所述业务对象向量生成模型的损失值;所述业务对象基准集合包括两个所述目标业务对象知识图谱中的部分对齐实体;
基于所述损失值调整所述业务对象向量生成模型的参数,并基于调整后的所述业务对象向量生成模型,更新所述业务对象的向量;
基于所述业务对象更新后的向量,将两个所述目标业务对象知识图谱中互为距离满足第一预设条件的业务对象,扩充至所述业务对象基准集合中;
继续训练所述业务对象向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二业务对象对齐模型。
9.根据权利要求8所述的方法,其特征在于,所述根据预设的业务对象对齐模型对所述至少两个业务对象知识图谱进行识别,获得至少两个业务对象知识图谱中的对齐业务对象,包括:
对于至少两个业务对象知识图谱中的任两个知识图谱,将两个所述业务对象知识图谱中业务对象的第一向量输入第二业务对象对齐模型;
根据所述第二业务对象对齐模型,生成所述业务对象的第二向量;
基于所述业务对象的第二向量,从两个所述业务对象知识图谱中提取互为距离满足第二预设条件的业务对象,得到两个所述业务对象知识图谱中的对齐业务对象。
10.一种实体发布方法,应用于第一服务端,其特征在于,所述方法包括:
接收对目标实体的发布请求;
响应于所述发布请求,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
获取所述第二服务端中对应的第二实体的相关信息;
根据所述相关信息对所述目标实体进行发布。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
在确定所述第一服务端中的目标实体的相关信息更新的情况下,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
基于更新后的目标实体的相关信息,对所述第二实体的相关信息进行更新。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
接收用于构建网站数据的构建请求;
响应于所述构建请求,基于至少两个知识图谱中的对齐实体,确定第一服务端中待构建的第一实体在第二服务端中对应的第二实体;
从所述第二服务端中获取所述第二实体对应的相关信息作为所述第一实体的数据,以构建所述网站数据。
13.根据权利要求10所述的方法,其特征在于,所述方法还包括:
将所述对应的第二实体的相关信息,转换为符合第二目标语言的相关信息;所述第二目标语言是所述第一服务端采用的语言。
14.根据权利要求10所述的方法,其特征在于,所述实体包括用户实体,所述方法还包括:
在所述第一服务端中的第一用户实体执行目标操作之后,基于至少两个知识图谱中的对齐实体,确定所述第一用户实体在第二服务端中对应的第二用户实体;
控制所述第二用户实体在所述第二服务端中执行所述目标操作。
15.根据权利要求10所述的方法,其特征在于,所述方法还包括:
根据预设向量生成模型对至少两个知识图谱进行双向迭代训练实体对齐模型;其中,所述双向迭代训练用于在训练所述向量生成模型过程中扩充基准集合;所述基准集合包括所述至少两个知识图谱的部分对齐实体;
根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体。
16.根据权利要求15所述的方法,其特征在于,所述根据预设向量生成模型对至少两个知识图谱进行双向迭代训练实体对齐模型,包括:
根据向量生成模型,确定两个目标知识图谱中实体的实体向量;
基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体;
基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新所述实体的实体向量;
基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中;
继续训练所述向量生成模型,并在训练结束的情况下,将所述基准集合确定为训练数据;
根据所述训练数据对预设机器学习模型进行训练,获得第一实体对齐模型。
17.根据权利要求16所述的方法,其特征在于,所述根据向量生成模型,确定两个目标知识图谱中实体的实体向量,包括:
对于两个所述目标知识图谱中的所述实体,确定所述实体的第一向量;
将所述实体的所述第一向量输入所述向量生成模型,生成所述实体的第二向量,得到所述实体向量。
18.根据权利要求17所述的方法,其特征在于,在首次生成所述第一向量的情况下,所述确定所述实体的第一向量,包括:为所述实体随机生成一特征向量,以作为所述实体的所述第一向量;或者,获取所述实体的邻接矩阵,以作为所述实体的所述第一向量;或者,基于所述实体的语义,生成所述实体的语义向量,以作为所述实体的所述第一向量;
在再次生成所述第一向量的情况下,所述第一向量为上一轮的第二向量。
19.根据权利要求17所述的方法,其特征在于,所述将所述实体的所述第一向量输入所述向量生成模型,生成所述实体的第二向量,包括:
提取所述实体的N个邻居实体的实体特征向量;
基于所述实体的第一向量、N个所述邻居实体的实体特征向量及所述向量生成模型中的权重参数,计算所述实体的所述第二向量。
20.根据权利要求16所述的方法,其特征在于,所述基准集合包括至少一个基准实体对;
所述基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值,包括:
根据所述基准实体对中的实体及两个所述目标知识图谱中的实体,为所述基准实体对构建两个负样本实体对;
基于所述基准实体对中实体的实体向量及所述负样本实体对中实体的实体向量,分别计算所述基准实体对的实体距离、所述负样本实体对的实体距离;
基于所述基准实体对中的实体距离及所述负样本实体对的实体距离,计算所述损失值。
21.根据权利要求20所述的方法,其特征在于,所述基准实体对包括第一基准实体和第二基准实体;所述第一基准实体及所述第二基准实体分别属于不同的目标知识图谱;
所述根据所述基准实体对中的实体及两个所述目标知识图谱中的实体,为所述基准实体对构建两个负样本实体对,包括:
根据所述基准实体对中的第一基准实体以及第一负样本实体,构建第一负样本实体对;所述第一负样本实体是从所述第二基准实体所属的目标知识图谱中选择的;
根据所述基准实体对中的第二基准实体以及第二负样本实体,构建第二负样本实体对;所述第二负样本实体是从所述第一基准实体所属的目标知识图谱中选择的。
22.根据权利要求21所述的方法,其特征在于,所述第一负样本实体及所述第二负样本实体为随机选择的实体。
23.根据权利要求16所述的方法,其特征在于,所述第一预设条件为距离最近;两个所述目标知识图谱分别为第一目标知识图谱及第二目标知识图谱;所述第一目标知识图谱由第一实体组成,所述第二目标知识图谱由第二实体组成;
所述基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中,包括:
将所述第一目标知识图谱中不属于所述基准集合的第一实体作为目标实体,并分别执行以下操作:
基于所述目标实体的实体向量及所述第二目标知识图谱中所述第二实体的实体向量,确定与所述目标实体距离最近的第二实体,得到所述目标实体的备选实体;
基于所述备选实体的实体向量及所述第一目标知识图谱中所述第一实体的实体向量,判断与所述备选实体距离最近的第一实体是否为所述目标实体;
若是,则将所述目标实体及所述备选实体作为一个基准实体对,添加至所述基准集合中。
24.根据权利要求16所述的方法,其特征在于,所述根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体,包括:
将所述至少两个知识图谱输入所述第一实体对齐模型;
根据所述第一实体对齐模型,确定所述知识图谱中的对齐实体。
25.根据权利要求15所述的方法,其特征在于,所述根据预设向量生成模型对至少两个知识图谱进行双向迭代训练实体对齐模型,包括:
根据向量生成模型,确定两个目标知识图谱中实体的实体向量;
基于所述两个目标知识图谱中实体的实体向量及基准集合中实体的实体向量,确定所述向量生成模型的损失值;所述基准集合包括两个所述目标知识图谱中的部分对齐实体;
基于所述损失值调整所述向量生成模型的参数,并基于调整后的所述向量生成模型,更新所述实体的实体向量;
基于所述实体更新后的实体向量,将两个所述目标知识图谱中互为距离满足第一预设条件的实体,扩充至所述基准集合中;
继续训练所述向量生成模型,并在训练结束的情况下,将所述向量生成模型确定为第二实体对齐模型。
26.根据权利要求25所述的方法,其特征在于,所述根据预设的实体对齐模型对所述至少两个知识图谱进行识别,获得至少两个知识图谱中的对齐实体,包括:
对于至少两个知识图谱中的任两个知识图谱,将两个所述知识图谱中实体的第一向量输入第二实体对齐模型;
根据所述第二实体对齐模型,生成所述实体的第二向量;
基于所述实体的第二向量,从两个所述知识图谱中提取互为距离满足第二预设条件的实体,得到两个所述知识图谱中的对齐实体。
27.根据权利要求26所述的方法,其特征在于,所述根据所述第二实体对齐模型,生成所述实体的第二向量,包括:
提取所述实体的M个邻居实体的实体特征向量;
基于所述实体的第一向量、M个所述邻居实体的实体特征向量及所述二实体对齐模型中预训练的权重参数,计算所述实体的第二向量。
28.根据权利要求27所述的方法,其特征在于,所述第二预设条件为距离小于预设值。
29.根据权利要求16或25所述的方法,其特征在于,所述训练结束的条件包括:所述损失值符合收敛条件,或两个所述目标知识图谱中不属于所述基准集合的实体中,不存在互为距离满足第一预设条件的实体。
30.一种业务对象发布装置,应用于第一服务端,其特征在于,所述装置包括:
第一接收模块,用于接收对目标业务对象的发布请求;
第一确定模块,用于响应于所述发布请求,基于至少两个业务对象知识图谱中的对齐业务对象,确定所述目标业务对象在第二服务端中对应的第二业务对象;
第一获取模块,用于获取所述第二服务端中对应的第二业务对象的相关信息;
第一发布模块,用于根据所述相关信息对所述目标业务对象进行发布。
31.一种实体发布装置,应用于第一服务端,其特征在于,所述装置包括:
第三接收模块,用于接收对目标实体的发布请求;
第四确定模块,用于响应于所述发布请求,基于至少两个知识图谱中的对齐实体,确定所述目标实体在第二服务端中对应的第二实体;
第二获取模块,用于获取所述第二服务端中对应的第二实体的相关信息;
第二发布模块,用于根据所述相关信息对所述目标实体进行发布。
32.一种电子设备,其特征在于,包括:
处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-9中一个或多个所述的方法。
33.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-9中一个或多个所述的方法。
34.一种电子设备,其特征在于,包括:
处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求10-29中一个或多个所述的方法。
35.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求10-29中一个或多个所述的方法。
CN201910804091.7A 2019-08-28 2019-08-28 业务对象发布方法、实体发布方法及装置 Pending CN112445916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910804091.7A CN112445916A (zh) 2019-08-28 2019-08-28 业务对象发布方法、实体发布方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910804091.7A CN112445916A (zh) 2019-08-28 2019-08-28 业务对象发布方法、实体发布方法及装置

Publications (1)

Publication Number Publication Date
CN112445916A true CN112445916A (zh) 2021-03-05

Family

ID=74740689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910804091.7A Pending CN112445916A (zh) 2019-08-28 2019-08-28 业务对象发布方法、实体发布方法及装置

Country Status (1)

Country Link
CN (1) CN112445916A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407210A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置
CN107341272A (zh) * 2017-08-25 2017-11-10 北京奇艺世纪科技有限公司 一种推送方法、装置和电子设备
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN107633416A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种业务对象的推荐方法、装置和系统
CN108121737A (zh) * 2016-11-29 2018-06-05 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109472485A (zh) * 2018-11-01 2019-03-15 成都数联铭品科技有限公司 企业失信风险传播查询系统及方法
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407210A (zh) * 2015-07-29 2017-02-15 阿里巴巴集团控股有限公司 一种业务对象的展示方法和装置
CN107633416A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种业务对象的推荐方法、装置和系统
CN108121737A (zh) * 2016-11-29 2018-06-05 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN107341272A (zh) * 2017-08-25 2017-11-10 北京奇艺世纪科技有限公司 一种推送方法、装置和电子设备
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109472485A (zh) * 2018-11-01 2019-03-15 成都数联铭品科技有限公司 企业失信风险传播查询系统及方法
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置

Similar Documents

Publication Publication Date Title
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
EP3579169A1 (en) Learned model provision method, and learned model provision device
Qian et al. Social media based event summarization by user–text–image co-clustering
TWI703862B (zh) 內容推薦方法及裝置
KR20160074500A (ko) 모바일 비디오 서치 기법
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
US20170235726A1 (en) Information identification and extraction
US20190034440A1 (en) Target location search method and apparatus
US20150052020A1 (en) Systems for generating a global product taxonomy
JP5717794B2 (ja) 対話装置、対話方法および対話プログラム
JP6469890B2 (ja) 高速直交射影
WO2017016122A1 (zh) 一种信息推送方法及装置
CN114896454B (zh) 一种基于标签分析的短视频数据推荐方法及系统
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN114357197B (zh) 事件推理方法和装置
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN106202440B (zh) 数据处理方法、装置及设备
CN113722600B (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN103984754A (zh) 一种搜索系统和搜索方法
US11023465B2 (en) Cross-asset data modeling in multi-asset databases
US10824811B2 (en) Machine learning data extraction algorithms
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
CN112445916A (zh) 业务对象发布方法、实体发布方法及装置
CN105991400B (zh) 一种群组搜索方法及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240229

Address after: 51 Belarusian Road, Singapore

Applicant after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands