CN114186078A - 知识图谱的表示学习方法、装置、存储介质及电子设备 - Google Patents
知识图谱的表示学习方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114186078A CN114186078A CN202111555347.9A CN202111555347A CN114186078A CN 114186078 A CN114186078 A CN 114186078A CN 202111555347 A CN202111555347 A CN 202111555347A CN 114186078 A CN114186078 A CN 114186078A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- fact
- relation
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种知识图谱的表示学习方法、装置、存储介质及电子设备,其中方法包括:根据知识图谱获取多个事实元组;分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型;确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。本方案采用了多元组来表示知识图谱中的一个事实,即事实元组,每个事实元组是根据该知识图谱中的一个关系和与该关系连接的实体构造得到的,从而解决了基于传统三元组无法准确、完整表达医疗领域的复杂知识的问题。
Description
技术领域
本公开涉及机器学习技术领域,具体地,涉及一种知识图谱的表示学习方法、装置、存储介质及电子设备。
背景技术
知识图谱是由节点和边组成的一种基于图数据结构的知识建模与表示方式,旨在描述客观世界中的各种概念、实体,以及它们之间的关联关系。知识图谱的数据层主要是由一系列的事实组成,并以事实为单位进行存储。知识图谱的表示学习,则是指学习知识图谱中的实体、关系和属性的向量表示形式的技术,其对于知识获取和下游应用具有重要的作用。
相关技术中,通常采用(实体1,关系,实体2)或者(实体,属性,属性值)这样的三元组来表达事实,并基于这样的三元组来学习实体和关系的向量表示,但这种方法对于具有复杂关系表示的知识图谱而言,难以准确、完整地表示出各个实体在复杂关系中的真实语义。例如,医疗领域的行业知识有着自身复杂程度高的领域特点,现有通用领域的表示学习技术很难用简单的传统三元组准确、完整地表达医学知识的复杂性。
发明内容
本公开的目的是提供一种知识图谱的表示学习方法、装置、存储介质及电子设备,以解决传统三元组难以准确、完整地表达复杂知识的问题。
第一方面,本公开提供一种知识图谱的表示学习方法,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述方法包括:
根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
可选的,所述分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量,包括:
确定所述多个事实元组的最大元数δ,和所述多个事实元组中的关系数量γ;
根据所述最大元数δ将每个所述实体编码为多个δ位的独热向量,所述多个独热向量用于表示所述实体是否出现在对应的事实元组中,且当所述实体在任一事实元组中出现时,对应的所述独热向量中目标位置的值被唯一编码为有效值,所述目标位置与所述实体在所述事实元组中出现的位置对应;
根据所述关系数量γ将每个所述关系编码为一个γ位的独热向量,其中,每个关系对应的所述独热向量中被唯一编码为有效值的位置各不相同。
可选的,所述基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,包括:
基于每个所述关系和每个所述实体对应的独热向量迭代训练所述向量表示模型,直到满足预设训练停止条件时结束训练;其中,所述向量表示模型包括位置卷积层和特征提取网络,每次迭代训练过程包括:
通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量;
通过特征提取网络将每个所述关系的独热向量和每个所述实体的位置卷积向量映射到相同的向量空间中,得到每个所述关系和每个所述实体的语义特征向量;
针对每个事实元组,根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数;
根据每个所述事实元组的真实标签和所述估计参数,计算所述向量表示模型的损失值,并根据所述损失值更新所述向量表示模型的参数。
可选的,所述通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量,包括:
针对每个实体,通过δ个一维位置卷积核对所述实体对应的每个独热向量进行卷积运算,得到与每个所述独热向量对应的δ个原始卷积向量,并将所述δ个原始卷积向量融合为一个目标卷积向量;其中,每个一维位置卷积核分别用于提取所述独热向量中不同位置的特征;
将所述实体对应的多个目标卷积向量进行首尾拼接,得到所述实体的位置卷积向量。
可选的,所述多个事实元组包括多个正样本事实元组和多个负样本事实元组;所述根据所述知识图谱获取多个事实元组,包括:
根据所述知识图谱获得多个正样本事实元组,每个所述正样本事实元组是由所述知识图谱中的一个关系和与所述关系连接的实体构成;
从所述多个正样本事实元组中选择多个候选事实元组,随机替换每个所述候选事实元组中的至少一个实体,得到多个负样本事实元组。
可选的,所述根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数,包括:
将所述事实元组中包括的关系和各实体的语义特征向量进行按位相乘,得到一个目标向量;
将所述目标向量中的值进行求和,将求和结果作为所述事实元组对应的所述估计参数。
可选的,计算所述损失值所采用的损失函数为:
其中,m为所述多个事实元组的数量,yi为第i个事实元组的真实标签,且当第i个事实元组为正样本事实元组时,yi为1,当第i个事实元组为负样本事实元组时,yi为0,h(xi)为对第i个事实元组的估计参数进行Sigmoid函数运算后得到的值。
第二方面,本公开提供一种知识图谱的表示学习装置,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述装置包括:
事实元组获取模块,用于根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
独热编码模块,用于分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
模型训练模块,用于基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
向量获得模块,用于确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
第三方面,本公开提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述方法的步骤。
本技术方案采用了多元组来表示知识图谱中的一个事实,即事实元组,每个事实元组是根据该知识图谱中的一个关系和与该关系连接的实体构造得到的,解决了传统三元组无法准确、完整表达医疗领域的复杂知识的问题。
此外,传统三元组采用(实体1,关系,实体2)来表达事实,所以现有的表示学习方法只能学习三元组中的实体在首、尾不同位置时的语义区别,但忽略了在复杂关系表示时,实体在不同关系中出现时的角色职责。而采用本方案后,这一角色语义信息可以从该实体在事实元组中出现的位置体现出来,因此本方案结合独热编码技术,将每个实体和每个关系编码为独热向量,并基于每个实体和每个关系的独热向量训练向量表示模型,从而对每个关系和每个实体的向量表示进行学习。本方案充分考虑了实体在事实元组中的位置信息,解决了实体在事实元组中不同位置出现承担不同角色语义的问题,最终得到的目标语义特征向量可以在复杂关系表示场景中,准确、完整地还原出各个实体所代表的真实语义。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是相关技术中使用的知识图谱框架的示意图;
图2是本公开实施例中使用的知识图谱框架的示意图;
图3是本公开实施例提供的知识图谱的表示学习方法的流程图;
图4是本公开实施例提供的知识图谱的表示学习方法的一种具体实施示意图;
图5是本公开实施例中步骤S120中对每个关系和每个实体进行独热编码的一种具体流程图;
图6是本公开实施例中步骤S130中对向量表示模型进行迭代训练的一种具体流程图;
图7是本开实施例提供的知识图谱的表示学习装置的框图;
图8是本公开实施例提供的电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
知识图谱具有强大的信息处理与组织能力,能有效地建模医疗诊疗过程中的医疗事件及其间的逻辑关系。高效、优秀的医疗知识图谱表示学习方法,能够增强知识补全、推理,发掘新的规律,为临床辅助决策、疾病预测、智能问诊提供智能化基础。现有的医疗知识图谱表示学习技术主要是通用域知识图谱表示学习技术在医疗领域内的垂直应用,然而,医疗行业知识有其自身复杂程度高的领域特点,如果采用现有通用领域中基于传统三元组的方式对医疗知识图谱中的实体及关系进行向量化的表示学习,将无法准确、完整地表达医学知识的复杂性。由此,本公开实施例首先采取了一种新的知识图谱框架,本实施例提供的表示学习方法将在该知识图谱框架的基础上实施。
图1和图2分别示出了相关技术和本公开实施例中使用的知识图谱框架。如图1所示,在相关技术的知识图谱中,将实体作为节点,将实体间的关系作为边,两个具有关系的实体节点通过边(关系)进行连接。例如,肺结核的临床症状是咳嗽,肺结核和咳嗽是实体,被定义为节点,临床症状是肺结核与咳嗽间的关系,被定义为边,于是节点(咳嗽)与节点(肺结核)通过边(临床症状)连接,在对该知识图谱中的实体与关系进行表示学习时,将知识图谱中任意两个相连的节点以一个三元组进行表示,三元组中包括相连的两个节点以及这两个节点对应的关系,如(肺结核,临床症状,咳嗽),(肺结核,处方,左氧氟沙星)和(肺炎,治疗,左氧氟沙星)等。
但医疗领域的知识图谱,通常是多元且复杂的,基于传统三元组的知识图谱表示学习方法无法准确、完整表达各关系和实体的语义。在本公开实施例的知识图谱中,如图2所示,将实体与关系均作为节点,即图谱中的节点既可能是实体,也可能是关系,实体节点与关系节点通过边连接,边上的语义表示这一实体在这一关系中承担的角色。从图2可以看出,该知识图谱的结构具有两个特点:一是多元,如处方,处方是一个复杂的多元关系,由含有不同角色的实体构建而成,描述一个处方需要有多元的结构,需要同时有药物、诊断和时间等才能描述一个处方,二是多阶,处方这一关系节点连接了左氧氟沙星这一实体节点,左氧氟沙星这一实体节点又与治疗这一关系节点连接,即处方与治疗之间存在二阶关系。
示例性的,图2中的关系节点有治疗、处方和临床症状,治疗连接两个实体节点,分别为肺炎和左氧氟沙星,处方连接四个实体节点,分别为肺结核、左氧氟沙星、利福平、2021年9月,临床症状连接两个实体节点,分别为咳嗽和肺结核。可以理解的,图2所示的示例仅是一种简易性的示例,例如,其中处方仅是一种抽象示例,实际情况下,该知识图谱中的处方可能有冠心病处方、感冒处方、肺炎处方等多种实例。
基于图2所示的知识图谱框架,本公开实施例提供一种知识图谱的表示学习方法,图3示出了该表示学习方法的流程图,图4示出了该表示学习方法的一种具体实施示意图。请参照图3和图4,该方法包括:
S110,根据知识图谱获取多个事实元组,每个事实元组是根据该知识图谱中的一个关系和与该关系连接的实体构造得到。
其中,知识图谱是由一系列事实构成,每个事实以一个事实元组进行表示,该事实元组具体以如下形式进行表示:r(e1,e2,…,ek),其中r表示该事实元组中的关系,(e1,e2,…,ek)分别表示该关系所包括的实体。例如,根据图2所示的示例可得到如下的事实元组:
事实元组1:治疗(肺炎,左氧氟沙星);
事实元组2:处方(肺结核,左氧氟沙星,利福平,2021年9月);
事实元组3:临床症状(咳嗽,肺结核)。
其中,该多个事实元组包括正样本事实元组和负样本事实元组,每个正样本事实元组由该知识图谱中的一个关系和与该关系连接的实体构成,正样本事实元组是根据该知识图谱直接获得的正确事实,而负样本事实元组是根据该知识图谱虚构的虚假事实。
可选的,负样本事实元组可以是对正样本事实元组中的实体进行随机替换得到,具体的,首先根据知识图谱获得多个正样本事实元组,然后从多个正样本事实元组中选择多个候选事实元组,随机替换每个候选事实元组中的至少一个实体,从而得到多个负样本事实元组。
例如,将正样本事实元组“处方(肺结核,左氧氟沙星,利福平,2021年9月)”中的药物左氧氟沙星和/或利福平随机替换为其他药物,即可得到一个负样本事实元组。
可以理解的,在通过随机替换得到负样本事实元组的过程中,仅对正样本事实元组中的实体做随机替换,不更改正样本事实元组中的关系,因此,负样本中不存在正样本以外多余的关系,正负样本中包括的关系数量不变,而且,在进行替换时,是将正样本事实元组中的至少一个实体替换为该知识图谱中已有的其他实体,而并非捏造该知识图谱中不存在的实体,因此,负样本中也不存在正样本以外多余的实体。
当然,在实际情况中,也可以通过其他方式构造负样本事实元组,如人为根据该知识图谱中创建负样本事实元组。
S120,分别对该多个事实元组中的每个关系和每个实体进行独热编码,获得每个关系和每个实体对应的独热向量。
在获得多个事实元组后,根据该多个事实元组中的所有关系和所有实体,分别对每个关系和每个实体进行独热编码,获得每个关系和每个实体对应的独热向量。其中,独热编码是指,使用N位的独热向量来对N个状态进行编码,且N位的独热向量中最多只有一位为有效值。
图5示出了步骤S120中对每个关系和每个实体进行独热编码的一种具体流程图,请参照图5,步骤S120包括:
S121,确定该多个事实元组的最大元数δ,和该多个事实元组中的关系数量γ。
其中,每个事实元组由一个关系和该关系所包括的实体构成,每个事实元组中实体的数量即为该事实元组的元数,例如,该事实元组包括四个实体,则该事实元组的元数为4。根据前述的示例,事实元组1的元数为2,事实元组2的元数为4,事实元组3的元数为2,那么这三个事实元组的最大元数δ=4。且这三个事实元组中的关系包括治疗、处方和临床症状,那么关系数量γ=3。
为便于理解,本实施例后文以δ=4,γ=3为例对本技术方案进行说明。
S122,根据该最大元数δ将每个实体编码为多个δ位的独热向量。
其中,每个实体编码出的独热向量的数量与该多个事实元组的数量相同。该多个独热向量用于分别表示该实体是否出现在对应的事实元组中,且当该实体在任一事实元组中出现时,对应的独热向量中目标位置的值被唯一编码为有效值,该目标位置与该实体在该事实元组中出现的位置对应。
沿用前述的示例,实体“肺结核”可被编码为如下的3个4位的独热向量:
独热向量1:0 0 0 0;
独热向量2:1 0 0 0;
独热向量3:0 1 0 0。
其中,独热向量1中没有有效值“1”,表示实体“肺结核”未在事实元组1中出现;独热向量2中第一位为有效值“1”,表示实体“肺结核”在事实元组2的第一个位置中出现;独热向量3中第二位为有效值“1”,表示实体“肺结核”在事实元组3的第二个位置中出现。
根据上述示例,对每个实体分别进行独热编码,得到每个实体对应的多个δ位的独热向量。
S123,根据该关系数量γ将每个关系编码为一个γ位的独热向量,其中,每个关系对应的独热向量中被唯一编码为有效值的位置各不相同。
在一示例性实施例中,将关系“治疗”、“处方”和“临床症状”分别编码为如下的3位独热向量:
“治疗”对应的独热向量:1 0 0;
“处方”对应的独热向量:0 1 0;
“临床症状”对应的独热向量:0 0 1。
其中,每个关系对应的独热向量中均只有一位被唯一编码为有效值,且每个关系对应的独热向量中被编码为有效值的位置各不相同,从而区分不同的关系。在获得每个关系和每个实体对应的独热向量后,执行如下步骤S130和S140。
S130,基于每个关系和每个实体对应的独热向量训练向量表示模型,该向量表示模型用于根据输入的独热向量输出对应的语义特征向量。
S140,确定训练结束时该向量表示模型输出的每个关系和每个实体的目标语义特征向量。
在获得每个关系和每个实体对应的独热向量后,基于每个关系和每个实体对应的独热向量迭代训练向量表示模型,直到满足预设训练停止条件时结束训练。该向量表示模型在训练结束时输出的每个关系和每个实体的语义特征向量即为所需的目标语义特征向量。
可以理解的,本技术方案将开放域知识图谱的三元组表示学习方法改进为基于关系的多元组表示学习方法,采用了多元组来表示知识图谱中的一个事实,即事实元组,每个事实元组是根据该知识图谱中的一个关系和与该关系连接的实体构造得到的,解决了传统三元组无法准确、完整表达医疗领域的复杂知识的问题。
另外,传统三元组采用(实体1,关系,实体2)来表达事实,所以现有的表示学习方法只能学习三元组中的实体在首、尾不同位置时的语义区别,但忽略了在复杂关系表示时,实体在不同关系中出现时的角色职责,例如,肺结核在处方这一关系中出现时承担诊断的角色,而在临床症状中出现时承担疾病的角色。这一角色语义信息可以从该实体在事实元组中出现的位置体现出来,因此本方案结合独热编码技术,将每个实体和每个关系编码为独热向量,并基于每个实体和每个关系的独热向量训练向量表示模型,从而对每个关系和每个实体的向量表示进行学习。
本方案充分考虑了实体在事实元组中的位置信息,解决了实体在事实元组中不同位置出现承担不同角色语义的问题,最终得到的目标语义特征向量可以在复杂关系表示场景中,准确、完整地还原出各个实体所代表的真实语义。
在一种可选的实施例中,该向量表示模型包括位置卷积层和特征提取网络,请参照图6,在步骤S130中,在训练向量表示模型的过程中迭代执行如下的训练过程:
步骤S210,通过位置卷积层提取每个实体对应的独热向量中的位置特征,得到每个实体的位置卷积向量。
其中,位置卷积层包括δ个一维位置卷积核,且每个一维位置卷积核分别用于提取独热向量中不同位置的特征。其中,第1个一维位置卷积核用于提取独热向量中第1个位置的特征,第2个一维位置卷积核用于提取独热向量中第2个位置的特征,依此类推,第δ个一维位置卷积核用于提取独热向量中第δ个位置的特征。
每个实体共有多个δ位的独热向量,针对每个实体,通过δ个一维位置卷积核对该实体对应的每个独热向量进行卷积运算,得到与每个独热向量对应的δ个原始卷积向量,然后将δ个原始卷积向量融合为一个目标卷积向量。然后将实体对应的多个目标卷积向量进行首尾拼接,得到实体的位置卷积向量。假设多个事实元组的数量为m,那么每个实体共有m个δ位的独热向量,每个δ位的独热向量将会各自得到δ个原始卷积向量,δ个原始卷积向量将被融合为一个目标卷积向量,即每个实体共得到m个目标卷积向量,将m个目标卷积向量进行首尾拼接,该实体得到一个位置卷积向量。
在具体的实施例中,将δ个一维位置卷积核与m个独热向量中的第1个独热向量进行卷积运算,得到第1个独热向量对应的δ个原始卷积向量,并将该δ个原始卷积向量融合为一个目标卷积向量;将δ个一维位置卷积核与第2个独热向量进行卷积运算,得到第2个独热向量对应的δ个原始卷积向量,并将该δ个原始卷积向量融合为一个目标卷积向量;依此类推,将δ个一维位置卷积核与第m个独热向量进行卷积运算,得到第m个独热向量对应的δ个原始卷积向量,并将该δ个原始卷积向量融合为一个目标卷积向量。最终,得到该实体对应的m个目标卷积向量。然后将该实体对应的m个目标卷积向量进行首尾拼接,即可得到该实体的一个位置卷积向量。
在上述过程中,每个一维位置卷积核的大小为S*L,其中,L为卷积核的长度,S为卷积核的通道数(默认值可取δ),L≤δ,1≤S≤δ。每个一维位置卷积核与一独热向量进行卷积运算后,可得到S个向量,S个向量可以通过求和、拼接或与一个全连接层连接,得到预设维度的一个原始卷积向量,因此,通过调节一维位置卷积核的通道数S可以控制原始卷积向量的维度,即原始卷积向量的长度,进而控制位置卷积向量的维度。
可以理解的,如果各一维位置卷积核的长度L=δ,在将各一维位置卷积核与一独热向量进行卷积运算时,可以直接将该一维位置卷积核与该独热向量进行按位相乘,能够减少计算,提高计算性能。
在上述过程中,各一维位置卷积核作为位置卷积层的参数,将在训练向量表示模型的过程中更新各一维位置卷积核对应的权值向量,因此,在本方案中,可根据具体的事实元组,自动学习各实体在不同事实元组中的位置所承担的角色语义信息,从而更新卷积核,无需人为事先对各卷积核的权值向量进行设定。在对向量表示模型进行训练前,可以先初始化其中各一维位置卷积核的参数,其中,每个一维位置卷积核对应的权值向量是根据该卷积核所用于提取的位置进行初始化。
例如,将第1个一维位置卷积核的权值向量初始化为[1,0,0,0],用于提取独热向量中第1个位置的特征,将第2个一维位置卷积核的权值向量初始化为[0,1,0,0],用于提取独热向量中第2个位置的特征,将第3个一维位置卷积核的权值向量初始化为[0,0,1,0],用于提取独热向量中第3个位置的特征,将第4个一维位置卷积核的权值向量初始化为[0,0,0,1],用于提取独热向量中第4个位置的特征。当然,也可以将各一维位置卷积核的权值向量初始化为其他值,例如第1个一维位置卷积核的权值向量也可以初始化为[0.7,0.1,0.1,0.1],满足卷积核中的权值之和为1。
在通过位置卷积层提取每个实体对应的独热向量中的位置特征,得到每个实体的位置卷积向量后,继续执行步骤S220。
S220,通过特征提取网络将每个关系的独热向量和每个实体的位置卷积向量映射到相同的向量空间中,得到每个关系和每个实体的语义特征向量。
在前述的步骤中,位置卷积层只提取了实体对应的独热向量中的位置特征,而关系对应的独热向量并未处理,由于每个关系对应的独热向量与每个实体的位置卷积向量的维度不同,于是通过特征提取网络对每个关系对应的独热向量进行特征提取以及对每个实体对应的位置卷积向量进行特征提取,生成指定维度的语义特征向量,因此每个关系的独热向量和每个实体的位置卷积向量被映射到统一的低维向量空间中。
可以理解的,由于对每个关系的独热向量进行特征提取的操作和对每个实体的位置卷积向量进行特征提取的操作,是基于同一特征提取网络实现的,因此,每个关系与每个实体能够共享该网络中的网络参数,从而该特征提取网络输出的每个关系对应的语义特征向量与每个实体对应的语义特征向量具有统一的语义空间。相比于将实体的向量和关系的向量分别计算的模型而言,本方案可以降低计算复杂度,提高计算效率。
S230,针对每个事实元组,根据该事实元组中包括的关系和各实体的语义特征向量,计算用于表征该事实元组的估计标签的估计参数。
在得到每个关系和每个实体的语义特征向量后,针对每个事实元组,根据该事实元组中的关系和所包括的各实体的语义特征向量,计算该事实元组的估计参数,该估计参数用于表征该事实元组的估计标签,如果该估计参数大于第一预设阈值,表示该事实元组的估计标签为正样本,否则表示该事实元组的估计标签为负样本。
其中,计算事实元组的估计参数的步骤包括:将事实元组中包括的关系和各实体的语义特征向量进行按位相乘,得到一个目标向量;将该目标向量中的值进行求和,将求和结果作为该事实元组对应的估计参数。
其中,通过如下计算公式计算事实元组的估计参数:
其中,r(e1,e2,…,ek)表示事实元组,为该事实元组对应的估计参数,⊙为按位相乘运算,SUM为求和运算,d(r)为该事实元组中包括的关系的语义特征向量,d(e1),d(e2),…,d(ek)分别为该事实元组中各实体的语义特征向量。
S240,根据每个事实元组的真实标签和估计参数,计算该向量表示模型的损失值,并根据该损失值更新向量表示模型的参数。
在计算每个事实元组的估计参数后,根据每个事实元组的真实标签和表征事实元组的估计标签的估计参数,可计算该向量表示模型的损失值,该损失值用于衡量真实标签与估计标签间的差异。其中,该损失值为位置卷积层与特征提取网络产生的总损失值,根据该损失值,通过反向传播更新位置卷积层与特征提取网络中的参数。
其中,计算损失值所采用的损失函数为:
其中,m为该多个事实元组的数量,yi为第i个事实元组的真实标签,且当第i个事实元组为正样本事实元组时,yi为1,当第i个事实元组为负样本事实元组时,yi为0;h(xi)为对第i个事实元组的估计参数进行Sigmoid函数运算后得到的值。
在迭代更新该向量表示模型的参数后,在满足预设训练停止条件(如,损失值小于第二预设阈值,或者迭代训练次数超过预设次数等)时完成对该向量表示模型的训练,在训练结束时,确定该向量表示模型输出的每个关系和每个实体的语义特征向量,作为每个关系和每个实体的目标语义特征向量。
需要说明的是,本公开实施例提供的表示学习方法可以用于医疗领域的知识图谱,但不局限于此,对于其他领域的具有复杂关系的知识图谱,也可以适用。
本公开实施例还提供一种知识图谱的表示学习装置,该知识图谱包括多个节点,且每个节点表示一个关系或者一个实体。请参照图7,该装置300包括:
事实元组获取模块310,用于根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
独热编码模块320,用于分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
模型训练模块330,用于基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
向量获得模块340,用于确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
可选的,独热编码模块320包括:
参数确定单元,用于确定所述多个事实元组的最大元数δ,和所述多个事实元组中的关系数量γ;
实体独热编码单元,用于根据所述最大元数δ将每个所述实体编码为多个δ位的独热向量,所述多个独热向量用于表示所述实体是否出现在对应的事实元组中,且当所述实体在任一事实元组中出现时,对应的所述独热向量中目标位置的值被唯一编码为有效值,所述目标位置与所述实体在所述事实元组中出现的位置对应;
关系独热编码单元,用于根据所述关系数量γ将每个所述关系编码为一个γ位的独热向量,其中,每个关系对应的所述独热向量中被唯一编码为有效值的位置各不相同。
可选的,模型训练模块330用于基于每个所述关系和每个所述实体对应的独热向量迭代训练所述向量表示模型,直到满足预设训练停止条件时结束训练;其中,所述向量表示模型包括位置卷积层和特征提取网络,模型训练模块330包括卷积模块,特征提取模块,估计参数计算模块和参数更新模块,用于在每次迭代训练过程中分别执行如下过程:
卷积模块,用于通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量;
特征提取模块,用于通过特征提取网络将每个所述关系的独热向量和每个所述实体的位置卷积向量映射到相同的向量空间中,得到每个所述关系和每个所述实体的语义特征向量;
估计参数计算模块,用于针对每个事实元组,根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数;
参数更新模块,用于根据每个所述事实元组的真实标签和所述估计参数,计算所述向量表示模型的损失值,并根据所述损失值更新所述向量表示模型的参数。
可选的,卷积模块用于:
针对每个实体,通过δ个一维位置卷积核对所述实体对应的每个独热向量进行卷积运算,得到与每个所述独热向量对应的δ个原始卷积向量,并将所述δ个原始卷积向量融合为一个目标卷积向量;其中,每个一维位置卷积核分别用于提取所述独热向量中不同位置的特征;
将所述实体对应的多个目标卷积向量进行首尾拼接,得到所述实体的位置卷积向量。
可选的,所述多个事实元组包括多个正样本事实元组和多个负样本事实元组;所述事实元组获取模块310用于:
根据所述知识图谱获得多个正样本事实元组,每个所述正样本事实元组是由所述知识图谱中的一个关系和与所述关系连接的实体构成;
从所述多个正样本事实元组中选择多个候选事实元组,随机替换每个所述候选事实元组中的至少一个实体,得到多个负样本事实元组。
可选的,估计参数计算模块用于:
将所述事实元组中包括的关系和各实体的语义特征向量进行按位相乘,得到一个目标向量;
将所述目标向量中的值进行求和,将求和结果作为所述事实元组对应的所述估计参数。
可选的,计算所述损失值所采用的损失函数为:
其中,m为所述多个事实元组的数量,yi为第i个事实元组的真实标签,且当第i个事实元组为正样本事实元组时,yi为1,当第i个事实元组为负样本事实元组时,yi为0,h(xi)为对第i个事实元组的估计参数进行Sigmoid函数运算后得到的值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种电子设备400的框图。如图8所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的知识图谱的表示学习方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的知识图谱的表示学习方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的知识图谱的表示学习方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的知识图谱的表示学习方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的知识图谱的表示学习方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种知识图谱的表示学习方法,其特征在于,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述方法包括:
根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量,包括:
确定所述多个事实元组的最大元数δ,和所述多个事实元组中的关系数量γ;
根据所述最大元数δ将每个所述实体编码为多个δ位的独热向量,所述多个独热向量用于表示所述实体是否出现在对应的事实元组中,且当所述实体在任一事实元组中出现时,对应的所述独热向量中目标位置的值被唯一编码为有效值,所述目标位置与所述实体在所述事实元组中出现的位置对应;
根据所述关系数量γ将每个所述关系编码为一个γ位的独热向量,其中,每个关系对应的所述独热向量中被唯一编码为有效值的位置各不相同。
3.根据权利要求2所述的方法,其特征在于,所述基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,包括:
基于每个所述关系和每个所述实体对应的独热向量迭代训练所述向量表示模型,直到满足预设训练停止条件时结束训练;其中,所述向量表示模型包括位置卷积层和特征提取网络,每次迭代训练过程包括:
通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量;
通过特征提取网络将每个所述关系的独热向量和每个所述实体的位置卷积向量映射到相同的向量空间中,得到每个所述关系和每个所述实体的语义特征向量;
针对每个事实元组,根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数;
根据每个所述事实元组的真实标签和所述估计参数,计算所述向量表示模型的损失值,并根据所述损失值更新所述向量表示模型的参数。
4.根据权利要求3所述的方法,其特征在于,所述通过位置卷积层提取每个所述实体对应的独热向量中的位置特征,得到每个所述实体的位置卷积向量,包括:
针对每个实体,通过δ个一维位置卷积核对所述实体对应的每个独热向量进行卷积运算,得到与每个所述独热向量对应的δ个原始卷积向量,并将所述δ个原始卷积向量融合为一个目标卷积向量;其中,每个一维位置卷积核分别用于提取所述独热向量中不同位置的特征;
将所述实体对应的多个目标卷积向量进行首尾拼接,得到所述实体的位置卷积向量。
5.根据权利要求3所述的方法,其特征在于,所述多个事实元组包括多个正样本事实元组和多个负样本事实元组;所述根据所述知识图谱获取多个事实元组,包括:
根据所述知识图谱获得多个正样本事实元组,每个所述正样本事实元组是由所述知识图谱中的一个关系和与所述关系连接的实体构成;
从所述多个正样本事实元组中选择多个候选事实元组,随机替换每个所述候选事实元组中的至少一个实体,得到多个负样本事实元组。
6.根据权利要求3所述的方法,其特征在于,所述根据所述事实元组中包括的关系和各实体的语义特征向量,计算用于表征所述事实元组的估计标签的估计参数,包括:
将所述事实元组中包括的关系和各实体的语义特征向量进行按位相乘,得到一个目标向量;
将所述目标向量中的值进行求和,将求和结果作为所述事实元组对应的所述估计参数。
8.一种知识图谱的表示学习装置,其特征在于,所述知识图谱包括多个节点,且每个节点表示一个关系或者一个实体,所述装置包括:
事实元组获取模块,用于根据所述知识图谱获取多个事实元组,每个所述事实元组是根据所述知识图谱中的一个关系和与所述关系连接的实体构造得到;
独热编码模块,用于分别对所述多个事实元组中的每个关系和每个实体进行独热编码,获得每个所述关系和每个所述实体对应的独热向量;
模型训练模块,用于基于每个所述关系和每个所述实体对应的独热向量训练向量表示模型,所述向量表示模型用于根据输入的独热向量输出对应的语义特征向量;
向量获得模块,用于确定训练结束时所述向量表示模型输出的每个所述关系和每个所述实体的目标语义特征向量。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555347.9A CN114186078B (zh) | 2021-12-17 | 2021-12-17 | 知识图谱的表示学习方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555347.9A CN114186078B (zh) | 2021-12-17 | 2021-12-17 | 知识图谱的表示学习方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114186078A true CN114186078A (zh) | 2022-03-15 |
CN114186078B CN114186078B (zh) | 2023-07-21 |
Family
ID=80544401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111555347.9A Active CN114186078B (zh) | 2021-12-17 | 2021-12-17 | 知识图谱的表示学习方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186078B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640517A (zh) * | 2020-05-27 | 2020-09-08 | 医渡云(北京)技术有限公司 | 病历编码方法、装置、存储介质及电子设备 |
CN112131399A (zh) * | 2020-09-04 | 2020-12-25 | 牛张明 | 基于知识图谱的老药新用分析方法和系统 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113553386A (zh) * | 2021-07-19 | 2021-10-26 | 中国工商银行股份有限公司 | 嵌入表示模型训练方法、基于知识图谱的问答方法及装置 |
CN113742491A (zh) * | 2021-08-12 | 2021-12-03 | 上海熙业信息科技有限公司 | 基于表示学习的时间知识图谱推理方法 |
-
2021
- 2021-12-17 CN CN202111555347.9A patent/CN114186078B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640517A (zh) * | 2020-05-27 | 2020-09-08 | 医渡云(北京)技术有限公司 | 病历编码方法、装置、存储介质及电子设备 |
CN112131399A (zh) * | 2020-09-04 | 2020-12-25 | 牛张明 | 基于知识图谱的老药新用分析方法和系统 |
CN113553386A (zh) * | 2021-07-19 | 2021-10-26 | 中国工商银行股份有限公司 | 嵌入表示模型训练方法、基于知识图谱的问答方法及装置 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113742491A (zh) * | 2021-08-12 | 2021-12-03 | 上海熙业信息科技有限公司 | 基于表示学习的时间知识图谱推理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114186078B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
WO2016033990A1 (zh) | 生成检测模型的方法和设备、用于检测目标的方法和设备 | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111695415A (zh) | 图像识别模型的构建方法、识别方法及相关设备 | |
CN114048331A (zh) | 一种基于改进型kgat模型的知识图谱推荐方法及系统 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN112148883A (zh) | 一种知识图谱的嵌入表示方法及相关设备 | |
CN113987155B (zh) | 一种融合知识图谱与大规模用户日志的会话式检索方法 | |
CN116601626A (zh) | 个人知识图谱构建方法、装置及相关设备 | |
KR20200046189A (ko) | 생성적 적대 신경망에 기반한 협업 필터링을 위한 방법 및 시스템 | |
CN113761250A (zh) | 模型训练方法、商户分类方法及装置 | |
CN115660135A (zh) | 基于贝叶斯方法和图卷积的交通流预测方法及系统 | |
CN112765370A (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
WO2023020214A1 (zh) | 检索模型的训练和检索方法、装置、设备及介质 | |
CN112667920A (zh) | 基于文本感知的社交影响力预测方法、装置及设备 | |
CN114445121A (zh) | 一种广告点击率预测模型构建及广告点击率预测方法 | |
CN116975651A (zh) | 相似度确定模型处理方法、目标对象搜索方法和装置 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN116090522A (zh) | 一种基于因果反馈的缺失数据集因果关系发现方法及系统 | |
CN114186078A (zh) | 知识图谱的表示学习方法、装置、存储介质及电子设备 | |
CN112861474B (zh) | 一种信息标注方法、装置、设备及计算机可读存储介质 | |
CN115238134A (zh) | 用于生成图数据结构的图向量表示的方法及装置 | |
WO2023272563A1 (zh) | 智能分诊方法、装置、存储介质及电子设备 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |