CN118193757A - 一种任务执行方法、装置、存储介质及电子设备 - Google Patents

一种任务执行方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN118193757A
CN118193757A CN202410618754.7A CN202410618754A CN118193757A CN 118193757 A CN118193757 A CN 118193757A CN 202410618754 A CN202410618754 A CN 202410618754A CN 118193757 A CN118193757 A CN 118193757A
Authority
CN
China
Prior art keywords
entity
entities
representation vector
knowledge
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410618754.7A
Other languages
English (en)
Other versions
CN118193757B (zh
Inventor
杨林瑶
陈红阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410618754.7A priority Critical patent/CN118193757B/zh
Publication of CN118193757A publication Critical patent/CN118193757A/zh
Application granted granted Critical
Publication of CN118193757B publication Critical patent/CN118193757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了一种任务执行方法、装置、存储介质及电子设备,终端设备在获取至少两个知识图谱后,先确定各知识图谱中包含的每个实体对应的名称表示向量、结构表示向量以及描述表示向量,而后根据每个实体对应的各向量确定每个实体对应的综合表示向量,从而根据每个实体对应的综合表示向量确定各等价实体集合以及各等价实体关系集合,进而根据各等价实体集合以及各等价实体关系集合融合各知识图谱,根据接收到的业务指令调取融合后的知识图执行目标任务。终端设备先确定出各等价实体集合以及各等价实体关系集合,进而融合各知识图谱,提高了多个知识图谱的融合效率以及融合效果。

Description

一种任务执行方法、装置、存储介质及电子设备
技术领域
本说明书涉及人工智能领域,尤其涉及一种任务执行方法、装置、存储介质及电子设备。
背景技术
随着人工智能领域的不断发展,作为人工智能领域最重要的技术之一的知识图谱,越来越多的被应用在了多种场景。例如,实验室构建的知识图谱,可供实验人员快速查找以及理解知识,并可向实验人员展示被查找知识的关联知识,增大对知识的利用率,从而提高实验效率。
知识图谱可管理知识,并将知识结构化展示。但是,单独的知识图谱中包含的知识可能无法满足用户的需求,因此,可以通过融合多个知识图谱得到知识覆盖面更广的知识图谱,从而满足用户的需求。但对于不同知识图谱,由于构建知识图谱时所使用的数据源、构建所用的建模标准、命名习惯等因素都可能存在区别,即使对于同一个实体抑或是同一种实体关系,在不同知识图谱中所表现出的形式也可能存在区别。
例如,对于一个实体,知识图谱A中对某一大学的称呼为该大学的全称,而知识图谱B中对该大学的命名为该大学所在地域的名称与该大学的简称相拼接。而对于一个实体关系,知识图谱A中若将作曲家与曲目的关系称为作曲家作曲曲目,则在知识图谱B中,则可能表示为作曲家谱写曲目。两个知识图谱所表示出的实体以及实体间关系之间存在不同,但实际上并不存在区别。因此,若直接将多个知识图谱融合,则融合出的知识图谱中包含的知识结构将极为冗杂,降低了基于融合后知识图谱执行任务的效率。
因此,如何提高基于融合后知识图谱执行任务的效率,是一个亟待解决的问题。
发明内容
本说明书提供一种任务执行方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种任务执行方法,包括:
获取至少两个知识图谱;
针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的名称表示向量、结构表示向量以及描述表示向量,其中,所述名称表示向量用于表征该实体的名称对应的语义信息,所述结构表示向量用于表征该实体与其他实体之间的实体关系,所述描述表示向量是用于表征描述该实体的描述内容;
针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量;
根据每个实体对应的综合表示向量,确定所述至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合,针对每个等价实体关系集合,该等价实体关系集合中包含的出自不同知识图谱的实体关系相同;
根据所述各等价实体集合以及所述各等价实体关系集合,对所述至少两个知识图谱进行融合,得到融合知识图谱;
接收业务指令;
根据所述业务指令,调取所述融合后知识图谱,以根据所述融合后知识图谱,执行目标任务。
可选地,针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的描述表示向量,具体包括:
针对所述至少两个知识图谱中所包含的每个实体,将该实体的名称以及预设的提示词输入到预设的目标模型中,得到该实体对应的描述文本;
根据该实体对应的描述文本,确定该实体对应的描述表示向量。
可选地,针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的结构表示向量,具体包括:
针对所述至少两个知识图谱中所包含的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到预先训练的结构表示向量生成模型,得到该实体对应的结构表示向量,其中,所述邻居实体用于表示与该实体之间存在实体关系的实体。
可选地,先训练结构表示向量生成模型,具体包括:
根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;
针对所述各监督实体对中的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到待训练的结构表示向量生成模型,得到该实体对应的初始结构表示向量;
针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始结构表示向量之间的偏差为训练目标,对所述结构表示向量生成模型进行训练。
可选地,根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,具体包括:
根据所述至少两个知识图谱中包含的每个实体的名称,确定每个实体对应的名称表示向量;
针对出自不同知识图谱的任意两个实体,根据该两个实体对应的名称表示向量,确定该两个实体之间的名称表示向量相似度,作为该两个实体之间的名称相似度;
针对出自不同知识图谱的任意两个实体,若与其他实体之间的相似度相比,该两个实体彼此之间均为与对方相似度最大的实体,则将该两个实体作为监督实体对。
可选地,针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量,具体包括:
针对所述至少两个知识图谱中所包含的每个实体,将该实体对应的名称表示向量、结构表示向量以及描述表示向量输入到预先训练的综合表示向量生成模型中,得到该实体对应的综合表示向量。
可选地,预先训练综合表示向量生成模型,具体包括:
根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;
针对每个监督实体对,将该监督实体对中包含的两个实体各自对应的名称表示向量、结构表示向量以及描述表示向量输入到待训练的综合表示向量生成模型,得到该两个实体各自对应的初始综合表示向量;
针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始综合表示向量之间的偏差为训练目标,对所述综合表示向量生成模型进行训练。
可选地,根据每个实体对应的综合表示向量,确定所述至少两个知识图谱的各等价实体关系集合,具体包括:
针对所述至少两个知识图谱中包含的所有实体关系中的每种实体关系,确定属于该种实体关系的各关系实体对,其中,属于该种实体关系的关系实体对中包含属于同一知识图谱的两个实体;
针对每种实体关系,根据属于该种实体关系的各关系实体对中包含的各实体所对应的综合表示向量,确定该种实体关系所对应的关系向量;
根据每种实体关系所对应的关系向量,确定所述至少两个知识图谱的各等价实体关系集合。
本说明书提供了一种任务执行装置,包括:
获取模块:用于获取至少两个知识图谱;
第一确定模块:用于针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的名称表示向量、结构表示向量以及描述表示向量,其中,所述名称表示向量用于表征该实体的名称对应的语义信息,所述结构表示向量用于表征该实体与其他实体之间的实体关系,所述描述表示向量是用于表征描述该实体的描述内容;
第二确定模块:用于针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量;
第三确定模块:用于根据每个实体对应的综合表示向量,确定所述至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合,针对每个等价实体关系集合,该等价实体关系集合中包含的出自不同知识图谱的实体关系相同;
融合模块:用于根据所述各等价实体集合以及所述各等价实体关系集合,对所述至少两个知识图谱进行融合,得到融合知识图谱;
接收模块:用于接收业务指令;
执行模块:用于根据所述业务指令,调取所述融合后知识图谱,以根据所述融合后知识图谱,执行目标任务。
可选地,所述第一确定模块具体用于,
针对所述至少两个知识图谱中所包含的每个实体,将该实体的名称以及预设的提示词输入到预设的目标模型中,得到该实体对应的描述文本;根据该实体对应的描述文本,确定该实体对应的描述表示向量。
可选地,所述第一确定模块具体用于,
针对所述至少两个知识图谱中所包含的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到预先训练的结构表示向量生成模型,得到该实体对应的结构表示向量,其中,所述邻居实体用于表示与该实体之间存在实体关系的实体。
可选地,所述第一确定模块具体用于,
根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;针对所述各监督实体对中的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到待训练的结构表示向量生成模型,得到该实体对应的初始结构表示向量;针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始结构表示向量之间的偏差为训练目标,对所述结构表示向量生成模型进行训练。
可选地,所述第一确定模块具体用于,
根据所述至少两个知识图谱中包含的每个实体的名称,确定每个实体对应的名称表示向量;针对出自不同知识图谱的任意两个实体,根据该两个实体对应的名称表示向量,确定该两个实体之间的名称表示向量相似度,作为该两个实体之间的名称相似度;针对出自不同知识图谱的任意两个实体,若与其他实体之间的相似度相比,该两个实体彼此之间均为与对方相似度最大的实体,则将该两个实体作为监督实体对。
可选地,所述第二确定模块具体用于,
针对所述至少两个知识图谱中所包含的每个实体,将该实体对应的名称表示向量、结构表示向量以及描述表示向量输入到预先训练的综合表示向量生成模型中,得到该实体对应的综合表示向量。
可选地,所述第二确定模块具体用于,根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;针对每个监督实体对,将该监督实体对中包含的两个实体各自对应的名称表示向量、结构表示向量以及描述表示向量输入到待训练的综合表示向量生成模型,得到该两个实体各自对应的初始综合表示向量;针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始综合表示向量之间的偏差为训练目标,对所述综合表示向量生成模型进行训练。
可选地,所述第三确定模块具体用于,
针对所述至少两个知识图谱中包含的所有实体关系中的每种实体关系,确定属于该种实体关系的各关系实体对,其中,属于该种实体关系的关系实体对中包含属于同一知识图谱的两个实体;针对每种实体关系,根据属于该种实体关系的各关系实体对中包含的各实体所对应的综合表示向量,确定该种实体关系所对应的关系向量;根据每种实体关系所对应的关系向量,确定所述至少两个知识图谱的各等价实体关系集合。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任务执行方法。
本说明书提供了一种电子设备,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任务执行方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的任务执行方法中,终端设备获取至少两个知识图谱后,确定出各知识图谱中包含的每个实体对应的名称表示向量、结构表示向量以及描述表示向量,而后根据每个实体对应的名称表示向量、结构表示向量以及描述表示向量,确定出每个实体对应的综合表示向量,从而根据每个实体对应的综合表示向量,确定至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合,进而根据确定出的各等价实体集合以及各等价实体关系集合融合获取的至少两个知识图谱,得到融合知识图谱,当接收到业务指令后,根据业务指令,调取融合后知识图谱,根据融合后知识图谱执行目标任务。
从上述方法可以看出,终端设备通过先确定出每个实体对应的名称表示向量、结构表示向量以及描述表示向量,并根据每个实体对应的名称表示向量、结构表示向量以及描述表示向量确定出每个实体对应的综合表示向量确定出每个实体对应的综合表示向量,进而根据每个实体对应的综合表示向量确定出各等价实体集合以及各等价实体关系集合,从而实现了对知识图谱的融合,通过确定出各等价实体集合以及各等价实际关系集合,提高了多个知识图谱相融合的效率以及融合的效果。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书提供的一种任务执行方法流程示意图;
图2为本说明书提供的一种融合后知识图谱的示意图;
图3为本说明书提供的一种任务执行装置的结构示意图;
图4为本说明书中提供的一种对应于图1的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
知识图谱作为一种管理知识的工具,其所管理的知识往往取决于使用者,例如,对于不同研究方向的实验室,每个实验室所使用的知识图谱之间往往均存在差别,即,知识图谱所管理的知识资源往往是特定的。因此,对于多个知识图谱而言,将各知识图谱进行融合,得到的融合后知识图谱往往可以更好的满足使用者的需求。
知识图谱的融合主要聚焦于实体的融合,即将对应同一现实世界的实体的多个实体进行整合,例如,对于一个城市,该城市在不同知识图谱中对应的实体的名称可能为该城市单独的城市名,也可能为带有该城市所属地区的名字,还有可能为该城市在不同语言下的城市名。即使对于同一实体,该实体在不同知识图谱中的表示仍可能存在不同。因此,若直接融合多个知识图谱,则融合后的知识图谱中往往会存在同一现实世界的实体对应的多个实体,这极度影响了使用者的体验,并且无法有效的对知识进行管理从而执行任务。
不同知识图谱对于同一实体关系的称呼也可能不同,例如对于钢琴家与钢琴曲之间的实体关系,钢琴家谱写钢琴曲与钢琴家创作钢琴曲所表达的含义是相同的。这也导致直接融合的知识图谱中所包含的实体关系也即为冗余。
直接融合多个知识图谱所得到的知识图谱,其中包含的冗余实体以及冗余实体关系影响了任务的执行效率,因此,若要提高基于知识图谱的任务执行效率,需要减少融合后知识图谱中冗余实体以及冗余实体关系,从而提高基于知识图谱的任务执行效率。
基于此,本说明书提供了一种任务执行方法,通过先确定出不同知识图谱之间的各等价实体集以及各等价关系集,而后根据确定出的各等价实体集以及各等价关系集融合各知识图谱,从而减少融合后知识图谱中冗余实体以及冗余实体关系,进而提高基于知识图谱的任务的执行效率。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种任务执行方法的流程示意图,包括:
S101:获取至少两个知识图谱。
S102:针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的名称表示向量、结构表示向量以及描述表示向量。
本说明书提供的一种任务执行方法的执行主体可以是诸如笔记本电脑、台式电脑等终端设备,也可以是安装在终端设备中的客户端,抑或是服务器,而为了便于描述,下面仅以终端设备是执行主体为例,对本说明书提供的一种任务执行方法进行说明。
终端设备在获取至少两个需要融合的知识图谱后,即可对各知识图谱中包含的所有实体以及所有实体关系进行整合,从而避免融合后的知识图谱出现实体冗余或实体关系冗余的问题。对于各知识图谱中所包含的每个实体,终端设备需要先确定出该实体对应的名称表示向量,即,用于表征该实体的名称对应的语义信息的向量。对于两个实体,若该两个实体的语义信息极为相似甚至相同,则该两个实体往往对应同一现实世界的实体。而若要确定出不同实体的语义信息之间的相似度,则需要先确定出出每个实体的名称,即实体名称,进而将每个实体的名称转化为名称表示向量。
下面,将说明一种将实体的名称转化为名称表示向量的方法:
需要说明的是,对于一个实体而言,该实体的名称可能为任意语言,例如,对于一个城市实体,该实体的实体名称可能为城市的英文名称,还可能是城市的英文名称。而为了更准确的确定出不同实体的语义信息之间的相似度,在确定每个实体的名称对应的名称表示向量前,需要将每个实体的名称转化为同一语言。
转化实体的名称可以使用预设的目标模型,此目标模型可以为预先通过有监督训练方法训练出的模型,也可以是预设的大语言模型,本说明书不做具体限制。若通过预设的大语言模型转化实体的名称为英文,则需要将实体的名称以及预设的用于转化实体的名称的提示词输入到大语言模型,提示词可以为:将实体(mask)的名称翻译为英文,注意,直接输出翻译后的实体名称。其中,(mask)为实体的名称。
终端设备在将各知识图谱中所包含的每个实体的名称均转化为同一语言后,则可以基于大语言模型的分词器将该实体的转化后名称拆分为token(词汇单元),而后将该实体对应的每个token转化为向量,进而根据该实体对应的所有token转化出的各向量得到该实体对应的名称表示向量。
其中,将实体的实体名称拆分为token可以通过预先训练的分词模型进行拆分,也可以通过大语言模型进行拆分,本说明书不做赘述。对于实体,该实体对应的token集合为{/>}。而每个token,大语言模型中都包含该token对应的预训练词向量,因此,可以将该token对应的预训练词向量作为该token对应的向量,/>对应的向量即为/>。而在确定出一个实体对应的所有token对应的向量后,可以根据不同token的TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆文档频率)确定出实体对应的名称表示向量,TF-IDF即为不同token在该实体对应的token集合中的出现频率。/>对应的TF-IDF即为/>,实体/>对应的名称表示向量即为/>
终端设备在确定出各知识图谱中所包含的每个实体对应的名称表示向量后,即可针对出自不同知识图谱的任意两个实体,根据该两个实体对应的名称表示向量,确定该两个实体对应的两个名称表示向量之间的相似度,作为该两个实体之间的名称相似度。需要说明的是,对于名称相似度的计算方法,可以采用余弦相似度进行计算。通过计算不同知识图谱的所有实体之间的相似度矩阵,即可得到针对出自不同知识图谱的任意两个实体之间的名称相似度。
若两个实体之间的名称相似度与其他实体之间的相似度相比,该两个实体彼此之间均为与对方相似度最大的实体,则将该两个实体作为监督实体对。例如,知识图谱一中包含实体A、实体B、实体C,知识图谱二中包含实体D、实体E、实体F,若实体A与知识D之间的名称相似度不仅是实体A与知识图谱二中各实体之间的各名称相似度中的最大值,还是实体D与知识图谱一中各实体之间的名称相似度中的最大值,则将实体A与实体B两个实体作为监督实体对。需要说明的是,还可以设置额外的条件为:实体A与实体D之间的相似度高于预设相似度阈值,从而保证每个监督实体对中的两个实体对应同一个现实世界的实体。
终端设备可以将每个监督实体对中的两个实体作为相同实体,从而融合多个知识图谱。但这种仅基于不同实体的名称之间的相似度的融合方法可能存在整合错误的情况,即将两个名称相似但对应现实实体不同的实体作为相同实体,为了避免这种情况,终端设备还需要确定出各知识图谱中所包含的每个实体对应的描述表示向量以及结构表示向量,从而确定出每个实体对应的可以表征出实体结构的结构表示向量,以及可以从另一维度表征出实体的语义信息的描述表示向量。
下面将说明一种通过预设的目标模型确定出实体的描述表示向量的方法。此目标模型可以为预先通过有监督训练方法训练出的描述生成模型,也可以是预设的大语言模型,若为预设的大语言模型,则可使用用于转化实体的名称所用的大语言模型,当然,也可以使用其他大语言模型。
具体的,以使用大语言模型为例,终端设备将实体的名称以及预设的用于得到实体的知识描述的提示词输入到大语言模型中,例如:“为实体<mask>生成知识描述”。在得到实体的名称对应的知识描述后,可以将实体对应的知识描述转化为预设的语言,转化方法可以与转化实体的名称所用的方法相同,而后通过实体对应的转化后的知识描述确定出实体对应的文本表示向量,确定方法可以与确定实体的名称对应的名称表示向量的方法相同,即,先将知识文本转化为各token,进而根据各token确定出实体对应的文本表示向量。
文本表示向量可作为实体对应的描述表示向量,但为了更准确的使实体对应的描述表述向量表征出实体对应的描述的语义信息,进一步的,终端设备还可以先提取实体的知识描述中的各关键词,如时间、地点、人物等,此提取过程可以使用大语言模型,提示词为:“提取以下文本中的实体名称,包括时间、地点、人物等,用逗号分隔输出:<text>”。<text>即为实体的知识描述。而后确定出每个关键词对应的表示向量,确定方法可以与确定实体的名称对应的名称表示向量的方法相同。而后将各关键词对应的表示向量进行平均,得到实体对应的概念表示向量。进而将文本表示向量与概念表示向量进行拼接,将得到的向量作为实体对应的描述表示向量
而在确定每个实体对应的结构表示向量的过程中。由于每个监督实体对中两个实体之间的相似度较高,可以通过各监督实体对对确定每个实体对应的结构表示向量的过程进行监督。
具体的,在得到各监督实体对后,可以先确定出所有监督实体对中的每个实体对应的各邻居实体,邻居实体用于表示与一个实体之间存在实体关系的实体,且实体关系为一层,即凭借一个实体关系相邻的两个实体互为邻居实体。实体的邻居实体集合为/>。而后,即可对结构表示向量生成模型进行训练。
针对每个监督实体对,将该监督实体对中的每个实体与该实体的各邻居实体之间的各实体关系类型输入到待训练的结构表示向量生成模型,即可得到该实体对应的初始结构表示向量。而后以最小化该实体对中两个实体对应的两个初始结构表示向量之间的偏差为训练目标,即可对结构表示向量生成模型进行训练。而后,针对各监督实体对中的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到训练后的结构表示向量生成模型,即可得到该实体对应的结构表示向量。此结构表示向量生成模型可以使用神经网络模型抑或是其他类型的可进行有监督训练的模型,本说明书不做具体限制。
此外,本说明书还提供一种基于知识图谱结构的结构表示向量生成模型训练方法:
针对所述至少两个知识图谱中所包含的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到待训练的结构表示向量生成模型,待训练的结构表示向量生成模型即根据输入的各实体关系类型,并确定每个实体对应的原始结构表示向量。结构表示向量生成模型的编码公式为,在待训练的结构表示向量生成模型中,针对每个实体,都为该实体预先设置一个原始结构表示向量,其中,/>为实体/>的邻居实体集合,/>为/>中的一个实体,/>为预先设置的实体/>的原始结构表示向量,/>为预先设置的实体/>的原始结构表示向量,/>为非线性激活函数,/>表示/>与/>之间的注意力权重,/>,/>为可训练向量,/>用于表示任意一个实体/>的邻居实体,/>,/>为参数,/>为线性映射矩阵,计算公式为/>,/>为单位矩阵,/>为/>与/>之间关系类型的关系表示向量,T为转置运算。知识图谱中两个实体之间存在的实体关系连接着两个实体,而对于知识图谱而言,实体关系对应的关系向量相当于两个实体之间的一个边,一个实体对应的向量经由实体关系对应的关系向量处理后,即可得到该实体的邻居实体对应的向量。对于关系向量处理实体对应的向量的方法,本说明书以加法为例,即,一个实体对应的向量与该实体与邻居实体之间的实体关系对应的关系向量相加,得到的向量即是该实体的邻居实体对应的向量。所以用于表示/>与/>之间关系类型的关系向量/>
以两个知识图谱为例,在通过该两个知识图谱之中所有实体之间的实体关系确定出各实体的初始结构表示向量后,即可通过损失函数:对待训练的结构表示向量生成模型进行训练。而后,针对至少两个知识图谱中所包含的任意一个实体,将该实体的名称、该实体与该实体的各邻居实体之间的各实体关系类型中的至少一者输入到待训练的结构表示向量生成模型,即可得到该实体对应的初始结构表示向量。当然,对于本说明书所提供的基于知识图谱结构的结构表示向量生成模型,还可以选择其他的输入数据以得到初始结构表示向量,为可定位到准确实体的输入数据即可。
其中,即为各监督实体对,/>为任意一个监督实体对,/>为参数,/>为计算两个实体对应的两个初始结构表示向量之间的欧几里得距离,当然,也可以是其他距离,如曼哈顿距离、切比雪夫距离以及马氏距离等,本说明书不作具体限制。/>是/>的最小差异样本对应的初始结构表示向量,/>是/>的最小差异样本对应的初始结构表示向量,最小差异样本为与一个实体在同一知识图谱内,且与该实体之间的语义差异最小的实体。当然,对于损失函数L,其中加入最小差异样本作为模型的参考条件,从而增加基于监督实体对训练后的结构表示向量生成模型的生成效果,也可以选择去除/>这部分,本说明书不作具体限制。
以最小化损失训练结构表示向量生成模型后,将两个知识图谱中的任意一个实体的名称、该实体与该实体的各邻居实体之间的各实体关系类型中的至少一者输入到结构表示向量生成模型,即可得到该实体对应的结构表示向量/>,此结构表示向量可以表征该实体与该实体的各邻居实体之间的各实体关系,即表征该实体在知识图谱中的结构信息。此外,若为结构表示向量生成模型设置多层网络,则最终得到的实体对应的结构表示向量还可以表征出该实体和与该实体之间存在多层实体关系的实体之间的实体关系。
在确定出至少两个知识图谱中包含的每个实体的名称表示向量、结构表示向量以及描述表示向量/>,即可基于每个实体的名称表示向量、结构表示向量以及描述表示向量,确定出既能表征出该实体在所在知识图谱中的结构信息,还能表征出实体的语义信息的综合表示向量。
S103:针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量。
针对至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量。综合表示向量可以通过综合表示向量生成模型确定出。其中,对于综合表示向量生成模型,实体的综合表示向量为/>,M为实体/>的三种表示向量,m为三种表示向量之中的一种。/>为向量的权重,/>,j为三种表示向量之中的任意一种向量,/>为表示向量m和表示向量j之间的注意力权重,其计算方式为/>,n为三种表示向量之中的任意一种,d代表向量的维度(三个向量的维度相同),Q表示向量的查询向量,K表示向量的键向量,/>为/>的查询向量,/>为查询向量可学习的映射矩阵,/>为/>的键向量,/>为键向量可学习的映射矩阵。n用于代表实体/>的任意一种表示向量。/>为向量m对应的值向量,其计算公式为:
为/>表示层正则化和全连接神经网络变换,/>为实体/>的对应的向量m,/>和/>为不同的,但均为可学习的映射矩阵,当然,也可以将/>和/>设置为相同映射矩阵。损失函数可设置为与训练结构表示向量模型相同的损失函数,为,在此损失函数中,/>即为各监督实体对,/>为任意一个监督实体对,/>为参数,/>用于计算两个实体对应的综合表示向量之间的欧几里得距离,当然,也可以是其他距离,如曼哈顿距离、切比雪夫距离以及马氏距离等,本说明书不作具体限制。/>是/>的最小差异样本对应的综合表示向量,/>是/>的最小差异样本对应的综合表示向量。以最小化损失即可实现最小化每个监督实体对中包含的各实体对应的各初始综合表示向量之间的偏差。当然,对于损失函数L,其中加入最小差异样本作为模型的参考条件,从而增加基于监督实体对训练后的结构表示向量生成模型的生成效果,也可以选择去除/>这部分,本说明书不作具体限制。
针对至少两个知识图谱中所包含的每个实体,将该实体对应的名称表示向量、结构表示向量以及描述表示向量输入到训练后的综合表示向量生成模型,即可得到该实体对应的综合表示向量。
S104:根据每个实体对应的综合表示向量,确定所述至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合。
终端设备在确定出至少两个知识图谱中所包含的每个实体对应的综合表示向量后,即可确定出至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合。
终端设备先根据所有实体对应的综合表示向量,确定出每两个实体对应的两个综合表示向量之间的相似度,确定方法可以为余弦相似度计算方法,得到的相似度可以作为该两个实体之间的综合相似度。而后,针对任意两个分属于不同知识图谱的实体,以知识图谱一与知识图谱二进行举例,知识图谱一中包含实体A、实体B、实体C,知识图谱二中包含实体D、实体E、实体F,若实体A与知识D之间的综合相似度不仅是实体A与知识图谱二中各实体之间的各综合相似度中的最大值,还是实体D与知识图谱一中各实体之间的综合相似度中的最大值,则将该两个实体作为等价实体,即将无论是实体对应的结构还是实体对应的语义都较为相似的实体作为对应同一现实世界的实体的等价实体。需要说明的是,还可以设置额外的条件为:实体A与实体D之间的综合相似度高于预设相似度阈值,从而去除部分相似度较低,但也被作为等价实体的实体。 此外,当需要融合多个知识图谱时,针对一个实体,可能会确定出该实体对应的多个等价实体,并且等价实体也有其他的等价实体,可以将与一个实体的等价实体呈等价实体关系的所有实体均作为该实体的等价实体。即,若实体A与实体B等价,实体B与实体C等价,则将实体A与实体C作为等价实体,而这三个等价实体即可作为一个等价实体集。另外,还可限制等价实体集中每两个实体都需要互为等价实体,总之,基于实体间综合相似度确定等价实体集的方法,可以有多种方法,本说明不作具体限制。
本说明书还提供一种基于大语言模型确定一个实体的等价实体的方法,此大语言模型可以是预设的大语言模型,例如与用于转化实体的名称所用的大语言模型,当然,完全可以使用其他大语言模型。以两个待融合知识图谱:知识图谱一与知识图谱二为例,若要确定出知识图谱一中的实体A对应的等价实体,则可确定出实体A与知识图谱二中的每个实体之间的综合相似度,而后将知识图谱二中与实体A之间的综合相似度高于预设相似度阈值的至少一个实体作为实体A对应的相似实体集。进一步的,将实体A对应的相似实体集以及预设的用于筛选相似实体的提示词输入到大语言模型中,预设的用于筛选相似实体的提示词可以为:以下哪个实体最有可能与<mask>指代同一实体?<cond_1>,…,<cand_k>,其中,<mask>为实体A,<cand_k>为实体A对应的相似实体集中的第k个实体。而后获取大语言模型的回答文本,基于最大公共字符串算法查找出与答案最相近的相似实体集中实体,作为实体A对应的等价实体,当然,完全可以基于其他方法确定出与答案最相近的相似实体集中实体,本说明书不做限制。通过这种方法,可以解决实体A与另一知识图谱中的多个实体之间的综合相似度相同或差距极小,从而难以选择实体A对应的等价实体的情况。利用大语言模型的知识以及推理能力,判断最可能是实体A对应的等价实体的实体。当然,若一个实体对应的相似实体集中仅有一个实体,则无需通过大语言模型进行筛选。
而对于实体之间的实体关系而言,由于实体对应的综合表示向量可以表现出实体的结构信息,并且在知识图谱构成时,实体的结构信息与实体之间的实体关系往往密切相关,一个实体与另一个邻居实体之间存在的实体关系,其可以转化为一个实体对应的向量经由实体关系对应的向量处理,得到邻居实体对应的向量。以钢琴家与琴曲两个实体,并且实体关系为创作举例,在知识图谱中,钢琴家对应的向量经由创作对应的关系向量处理后,可以得到琴曲对应的向量。而由于综合表示向量可以表现出实体的结构信息,因此,基于两个之间存在实体关系的实体,可以通过这两个实体各自的综合表示向量,确定出该两个实体之间的实体关系对应的关系向量。而关系向量对实体的处理通常为相加或是相乘,以相加为例,一个实体对应的向量与一种实体关系对应的关系向量相加,即为一个实体对应的邻居向量所对应的向量。
终端设备针对至少两个知识图谱中包含的所有实体关系中的每种实体关系,确定属于该种实体关系的各关系实体对,即,确定出所有知识图谱中每种实体关系,并针对该种实体关系,确定出在同一知识图谱中以该种实体关系相连接的所有实体对作为关系实体对。
而后针对每种实体关系,将该实体关系对应的所有关系实体对中所有为邻居实体的实体作为第二实体,而后将其他实体作为第一实体。将各第二实体对应的综合表示向量加和平均,将得到的向量作为该种实体关系对应的第二向量,将各第一实体对应的综合表示向量加和平均,将得到的向量作为该种实体关系对应的第一向量。以而关系向量对实体的处理为相加为例,第一向量加实体关系对应的关系向量可得到第二向量,因此,将第二向量减去第一向量,即可得到该种实体关系对应的关系向量。
而后针对出自不同知识图谱的任意两种实体关系对应的关系向量,确定出该两种实体关系对应的关系向量之间的关系相似度。可以使用如余弦相似度的计算方法。而后,针对出自不同知识图谱的任意两种实体,针对两种分属于不同知识图谱的实体关系,若该两种实体关系之间的关系相似度高于预设相似度阈值,且对于两种实体关系中的任意一种关系,该种实体关系与其他实体关系之间的实体相似度的最大值也为该两种实体关系之间的关系相似度,则将该两种实体关系作为等价实体关系。需要说明的是,两种实体关系分属于不同知识图谱,并且,对于知识图谱多于两个时,可能会确定出一个实体关系对应的多个等价实体关系,并且等价实体关系也有其他的等价实体关系,可以将与一个实体关系的等价实体关系呈等价关系的所有实体关系均作为该实体的等价实体。即,若实体关系A与实体关系B等价,实体关系B与实体关系C等价,则将实体关系A与实体关系C作为等价实体关系,而这三个等价实体关系即可作为一个等价实体关系集,将等价实体关系集中的所有实体关系作为同一实体关系。另外,还可限制等价实体关系集中每两个实体关系都需要互为等价实体关系,总之,基于实体间综合相似度确定等价实体关系集的方法,可以有多种方法,本说明不作具体限制。
S105:根据所述各等价实体集合以及所述各等价实体关系集合,对所述至少两个知识图谱进行融合,得到融合知识图谱。
终端设备在确定出各等价实体集以及各等价实体关系集后,即可融合各知识图谱。其中,针对每个等价实体集,将该等价实体集中的各实体合并为统一实体,并统一其名称,不属于等价实体集的实体则保留至融合后知识图谱。例如,一个城市对应的两个实体的名称分别是城市的中文名以及英文名,则这两个实体为等价实体,合并后,该两个实体为同一实体,并且名称为中文名、英文名的一种。
而针对每个等价实体关系集,将各等价实体关系合并为一个,并统一实体关系的名称,不属于等价实体关系集的实体关系则保留至融合后知识图谱。例如将作曲与谱写两种等价实体关系统一为谱写,这样钢琴家与琴曲之间的实体关系均为谱写,完成了统一。
下面,将结合图像说明两个知识图谱的融合过程:
图2为本说明书提供的一种融合后知识图谱的示意图。
其中,知识图谱一与知识图谱二融合,得到知识图谱三。知识图谱一中的钢琴家A与知识图谱二中的钢琴家B为等价实体,在知识图谱融合后,钢琴家A与钢琴家B统一名称为钢琴家A,而后钢琴家A与钢琴家B两个实体各自的邻居实体均链接至融合后的知识图谱中的钢琴家A。而知识图谱一中的作家A与文章的实体关系为撰写,知识图谱二中的作家B与文章的实体关系为编著,撰写与编著为等价实体关系,在知识图谱三中,将撰写与编著统一为了编著,即作家A与文章的实体关系也为编著。
需要说明的是,在知识图谱融合之前,还可以对知识图谱进行如格式标准化,异常检测,修复等预处理工作,而在融合之后,可以对融合后知识图谱进行质量评估抑或其他优化,本说明书不作具体限制。
S106:接收业务指令。
S107:根据所述业务指令,调取所述融合后知识图谱,以根据所述融合后知识图谱,执行目标任务。
终端设备在得到融合后知识图谱后,当接收到业务指令,即可根据业务指令调取融合后知识图谱执行目标任务。如业务指令为,显示所有钢琴家A谱写的琴曲,终端设备即可在知识图谱中查找钢琴家A谱写的琴曲,并将查找结果显示在显示设备上。
当然,知识图谱的应用并不仅限于搜索知识,还可以用于组成智能系统,例如决策支持系统,决策支持系统可帮助用户梳理数据,发现深层关系,从而支持用户进行规划或风险评估等工作。总之,本说明书对融合后知识图谱的应用方法并不作具体限制。
从上述方法可以看出,通过上述的任务执行方法,终端设备通过先确定出各实体对应的综合表示向量,而后根据各实体的综合表示向量确定出了,各知识图谱之间的各等价实体集以及各等价实体关系集,并根据各等价实体集以及各等价实体关系集完成了知识图谱的融合,提高了多个知识图谱相融合的融合效率以及融合效果,并提高了原本需要多个知识图谱执行的任务的任务执行效率。
图3为本说明书实施例提供的一种任务执行装置的结构示意图,所述装置包括:
获取模块301:用于获取至少两个知识图谱;
第一确定模块302:用于针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的名称表示向量、结构表示向量以及描述表示向量,其中,所述名称表示向量用于表征该实体的名称对应的语义信息,所述结构表示向量用于表征该实体与其他实体之间的实体关系,所述描述表示向量是用于表征描述该实体的描述内容;
第二确定模块303:用于针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量;
第三确定模块304:用于根据每个实体对应的综合表示向量,确定所述至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合,针对每个等价实体关系集合,该等价实体关系集合中包含的出自不同知识图谱的实体关系相同;
融合模块305:用于根据所述各等价实体集合以及所述各等价实体关系集合,对所述至少两个知识图谱进行融合,得到融合知识图谱;
接收模块306:用于接收业务指令;
执行模块307:用于根据所述业务指令,调取所述融合后知识图谱,以根据所述融合后知识图谱,执行目标任务。
可选地,所述第一确定模块302具体用于,
针对所述至少两个知识图谱中所包含的每个实体,将该实体的名称以及预设的提示词输入到预设的目标模型中,得到该实体对应的描述文本;根据该实体对应的描述文本,确定该实体对应的描述表示向量。
可选地,所述第一确定模块302具体用于,
针对所述至少两个知识图谱中所包含的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到预先训练的结构表示向量生成模型,得到该实体对应的结构表示向量,其中,所述邻居实体用于表示与该实体之间存在实体关系的实体。
可选地,所述第一确定模块302具体用于,
根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;针对所述各监督实体对中的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到待训练的结构表示向量生成模型,得到该实体对应的初始结构表示向量;针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始结构表示向量之间的偏差为训练目标,对所述结构表示向量生成模型进行训练。
可选地,所述第一确定模块302具体用于,
根据所述至少两个知识图谱中包含的每个实体的名称,确定每个实体对应的名称表示向量;针对出自不同知识图谱的任意两个实体,根据该两个实体对应的名称表示向量,确定该两个实体之间的名称表示向量相似度,作为该两个实体之间的名称相似度;针对出自不同知识图谱的任意两个实体,若与其他实体之间的相似度相比,该两个实体彼此之间均为与对方相似度最大的实体,则将该两个实体作为监督实体对。
可选地,所述第二确定模块303具体用于,
针对所述至少两个知识图谱中所包含的每个实体,将该实体对应的名称表示向量、结构表示向量以及描述表示向量输入到预先训练的综合表示向量生成模型中,得到该实体对应的综合表示向量。
可选地,所述第二确定模块303具体用于,根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;针对每个监督实体对,将该监督实体对中包含的两个实体各自对应的名称表示向量、结构表示向量以及描述表示向量输入到待训练的综合表示向量生成模型,得到该两个实体各自对应的初始综合表示向量;针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始综合表示向量之间的偏差为训练目标,对所述综合表示向量生成模型进行训练。
可选地,所述第三确定模块304具体用于,
针对所述至少两个知识图谱中包含的所有实体关系中的每种实体关系,确定属于该种实体关系的各关系实体对,其中,属于该种实体关系的关系实体对中包含属于同一知识图谱的两个实体;针对每种实体关系,根据属于该种实体关系的各关系实体对中包含的各实体所对应的综合表示向量,确定该种实体关系所对应的关系向量;根据每种实体关系所对应的关系向量,确定所述至少两个知识图谱的各等价实体关系集合。
本说明书还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可用于执行上述图1提供的一种任务执行方法。
基于图1所示的一种任务执行方法,本说明书实施例还提供了图4所示的电子设备的结构示意图。如图4,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的一种任务执行方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种任务执行方法,其特征在于,包括:
获取至少两个知识图谱;
针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的名称表示向量、结构表示向量以及描述表示向量,其中,所述名称表示向量用于表征该实体的名称对应的语义信息,所述结构表示向量用于表征该实体与其他实体之间的实体关系,所述描述表示向量是用于表征描述该实体的描述内容;
针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量;
根据每个实体对应的综合表示向量,确定所述至少两个知识图谱中各自包含的实体之间的各等价实体集合以及各等价实体关系集合,针对每个等价实体关系集合,该等价实体关系集合中包含的出自不同知识图谱的实体关系相同;
根据所述各等价实体集合以及所述各等价实体关系集合,对所述至少两个知识图谱进行融合,得到融合知识图谱;
接收业务指令;
根据所述业务指令,调取所述融合后知识图谱,以根据所述融合后知识图谱,执行目标任务。
2.如权利要求1所述的方法,其特征在于,针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的描述表示向量,具体包括:
针对所述至少两个知识图谱中所包含的每个实体,将该实体的名称以及预设的提示词输入到预设的目标模型中,得到该实体对应的描述文本;
根据该实体对应的描述文本,确定该实体对应的描述表示向量。
3.如权利要求1所述的方法,其特征在于,针对所述至少两个知识图谱中所包含的每个实体,确定该实体对应的结构表示向量,具体包括:
针对所述至少两个知识图谱中所包含的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到预先训练的结构表示向量生成模型,得到该实体对应的结构表示向量,其中,所述邻居实体用于表示与该实体之间存在实体关系的实体。
4.如权利要求3所述的方法,其特征在于,预先训练结构表示向量生成模型,具体包括:
根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;
针对所述各监督实体对中的每个实体,将该实体与该实体的各邻居实体之间的各实体关系类型输入到待训练的结构表示向量生成模型,得到该实体对应的初始结构表示向量;
针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始结构表示向量之间的偏差为训练目标,对所述结构表示向量生成模型进行训练。
5.如权利要求4所述的方法,其特征在于,根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,具体包括:
根据所述至少两个知识图谱中包含的每个实体的名称,确定每个实体对应的名称表示向量;
针对出自不同知识图谱的任意两个实体,根据该两个实体对应的名称表示向量,确定该两个实体之间的名称表示向量相似度,作为该两个实体之间的名称相似度;
针对出自不同知识图谱的任意两个实体,若与其他实体之间的相似度相比,该两个实体彼此之间均为与对方相似度最大的实体,则将该两个实体作为监督实体对。
6.如权利要求1所述的方法,其特征在于,针对所述至少两个知识图谱中所包含的每个实体,根据该实体对应的名称表示向量、结构表示向量以及描述表示向量,确定该实体对应的综合表示向量,具体包括:
针对所述至少两个知识图谱中所包含的每个实体,将该实体对应的名称表示向量、结构表示向量以及描述表示向量输入到预先训练的综合表示向量生成模型中,得到该实体对应的综合表示向量。
7.如权利要求6所述的方法,其特征在于,预先训练综合表示向量生成模型,具体包括:
根据所述至少两个知识图谱中包含的每个实体的名称,确定各监督实体对,针对每个监督实体对,该监督实体对中包含的出自不同知识图谱的两个实体为相同实体;
针对每个监督实体对,将该监督实体对中包含的两个实体各自对应的名称表示向量、结构表示向量以及描述表示向量输入到待训练的综合表示向量生成模型,得到该两个实体各自对应的初始综合表示向量;
针对每个监督实体对,以最小化该监督实体对中包含的各实体对应的各初始综合表示向量之间的偏差为训练目标,对所述综合表示向量生成模型进行训练。
8.如权利要求1所述的方法,其特征在于,根据每个实体对应的综合表示向量,确定所述至少两个知识图谱的各等价实体关系集合,具体包括:
针对所述至少两个知识图谱中包含的所有实体关系中的每种实体关系,确定属于该种实体关系的各关系实体对,其中,属于该种实体关系的关系实体对中包含属于同一知识图谱的两个实体;
针对每种实体关系,根据属于该种实体关系的各关系实体对中包含的各实体所对应的综合表示向量,确定该种实体关系所对应的关系向量;
根据每种实体关系所对应的关系向量,确定所述至少两个知识图谱的各等价实体关系集合。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。
10.一种电子设备,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。
CN202410618754.7A 2024-05-17 2024-05-17 一种任务执行方法、装置、存储介质及电子设备 Active CN118193757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410618754.7A CN118193757B (zh) 2024-05-17 2024-05-17 一种任务执行方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410618754.7A CN118193757B (zh) 2024-05-17 2024-05-17 一种任务执行方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN118193757A true CN118193757A (zh) 2024-06-14
CN118193757B CN118193757B (zh) 2024-07-30

Family

ID=91404567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410618754.7A Active CN118193757B (zh) 2024-05-17 2024-05-17 一种任务执行方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN118193757B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208095A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 过滤服务的部署推荐装置和方法
CN107451147A (zh) * 2016-05-31 2017-12-08 北京京东尚科信息技术有限公司 一种kafka集群动态切换的方法和装置
CN110262899A (zh) * 2019-06-20 2019-09-20 无锡华云数据技术服务有限公司 基于Kubernetes集群的监控组件弹性伸缩方法、装置及受控终端
CN111309930A (zh) * 2020-03-06 2020-06-19 西南交通大学 一种基于表示学习的医学知识图谱实体对齐方法
CN111522968A (zh) * 2020-06-22 2020-08-11 中国银行股份有限公司 知识图谱融合方法及装置
CN111723515A (zh) * 2020-05-15 2020-09-29 第四范式(北京)技术有限公司 一种运行算子的方法、装置及系统
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
CN114519107A (zh) * 2022-01-10 2022-05-20 桂林电子科技大学 一种联合实体关系表示的知识图谱融合方法
WO2022142027A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
CN114969367A (zh) * 2022-05-30 2022-08-30 大连民族大学 基于多方面子任务交互的跨语言实体对齐方法
CN115759099A (zh) * 2022-11-17 2023-03-07 深圳大学 融合知识图谱嵌入的中文命名实体识别方法及相关设备
WO2023071845A1 (zh) * 2021-10-25 2023-05-04 支付宝(杭州)信息技术有限公司 知识图谱处理
WO2023184226A1 (zh) * 2022-03-30 2023-10-05 京东方科技集团股份有限公司 一种物品推荐方法、物品知识图谱、模型训练方法及装置
CN117875412A (zh) * 2024-01-19 2024-04-12 中国民航大学 一种基于知识图谱构建计算机教育知识图谱的方法
CN118036728A (zh) * 2024-02-28 2024-05-14 华侨大学 自监督学习的知识图谱实体对齐方法、装置、设备及介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208095A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 过滤服务的部署推荐装置和方法
CN107451147A (zh) * 2016-05-31 2017-12-08 北京京东尚科信息技术有限公司 一种kafka集群动态切换的方法和装置
CN110262899A (zh) * 2019-06-20 2019-09-20 无锡华云数据技术服务有限公司 基于Kubernetes集群的监控组件弹性伸缩方法、装置及受控终端
CN111309930A (zh) * 2020-03-06 2020-06-19 西南交通大学 一种基于表示学习的医学知识图谱实体对齐方法
CN111723515A (zh) * 2020-05-15 2020-09-29 第四范式(北京)技术有限公司 一种运行算子的方法、装置及系统
CN111522968A (zh) * 2020-06-22 2020-08-11 中国银行股份有限公司 知识图谱融合方法及装置
WO2022142027A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
WO2023071845A1 (zh) * 2021-10-25 2023-05-04 支付宝(杭州)信息技术有限公司 知识图谱处理
CN114519107A (zh) * 2022-01-10 2022-05-20 桂林电子科技大学 一种联合实体关系表示的知识图谱融合方法
WO2023184226A1 (zh) * 2022-03-30 2023-10-05 京东方科技集团股份有限公司 一种物品推荐方法、物品知识图谱、模型训练方法及装置
CN114969367A (zh) * 2022-05-30 2022-08-30 大连民族大学 基于多方面子任务交互的跨语言实体对齐方法
CN115759099A (zh) * 2022-11-17 2023-03-07 深圳大学 融合知识图谱嵌入的中文命名实体识别方法及相关设备
CN117875412A (zh) * 2024-01-19 2024-04-12 中国民航大学 一种基于知识图谱构建计算机教育知识图谱的方法
CN118036728A (zh) * 2024-02-28 2024-05-14 华侨大学 自监督学习的知识图谱实体对齐方法、装置、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CAN WANG; XIAONAN LIU; MEIJUAN YIN: "Embedding Attribute and Relation Information for Person Entity Alignment", 2020 6TH INTERNATIONAL CONFERENCE ON BIG DATA AND INFORMATION ANALYTICS (BIGDIA), 2 April 2021 (2021-04-02) *
杜文倩;李弼程;王瑞;: "融合实体描述及类型的知识图谱表示学习方法", 中文信息学报, no. 07, 15 July 2020 (2020-07-15) *
许智宏等: "基于多信息图注意力网络的双向迭代实体对齐", 计算机工程与设计, vol. 44, no. 6, 16 June 2023 (2023-06-16) *
赵晓娟;贾焰;李爱平;常春喜;: "多源知识融合技术研究综述", 云南大学学报(自然科学版), no. 03, 10 May 2020 (2020-05-10) *

Also Published As

Publication number Publication date
CN118193757B (zh) 2024-07-30

Similar Documents

Publication Publication Date Title
CN116049761A (zh) 数据处理方法、装置及设备
CN117332282B (zh) 一种基于知识图谱的事件匹配的方法及装置
CN117034942B (zh) 一种命名实体识别方法、装置、设备及可读存储介质
CN117390293B (zh) 一种针对纠纷案件的信息推荐方法、装置、介质及设备
CN116757278B (zh) 一种预测模型的训练方法、装置、存储介质及电子设备
CN115617973B (zh) 一种基于智能数据处理的信息获取方法
CN117473056A (zh) 一种问答方法、装置、电子设备及存储介质
CN118193757B (zh) 一种任务执行方法、装置、存储介质及电子设备
CN112905765B (zh) 一种信息处理方法及装置
CN114115878A (zh) 一种工作流节点推荐方法及装置
CN117494068B (zh) 一种结合深度学习与因果推断的网络舆情分析方法及装置
CN116501852B (zh) 一种可控对话模型训练方法、装置、存储介质及电子设备
CN117992600B (zh) 一种业务执行方法、装置、存储介质以及电子设备
CN117252183B (zh) 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN118135592B (zh) 一种基于医疗llm模型的用户服务方法、装置
CN117609605A (zh) 一种基于多模态知识图谱的兴趣点推荐方法及装置
CN117171346A (zh) 一种实体链接方法、装置、存储介质及电子设备
CN117591217A (zh) 一种信息展示方法、装置、设备及存储介质
CN117829164A (zh) 一种文本表示向量生成方法、装置以及设备
CN117575010A (zh) 一种基于托卡马克核聚变智能控制本体的数据构建方法
CN115344677A (zh) 协同训练、查询和人机对话方法、电子设备和存储介质
CN117494703A (zh) 一种中英文机构名称消歧方法及相关装置
CN115130000A (zh) 一种信息推荐的方法、装置、存储介质及电子设备
CN117455214A (zh) 一种民机需求论证流程模型构建方法、装置、设备及介质
CN117494663A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant