CN112163095A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112163095A CN112163095A CN202010981924.XA CN202010981924A CN112163095A CN 112163095 A CN112163095 A CN 112163095A CN 202010981924 A CN202010981924 A CN 202010981924A CN 112163095 A CN112163095 A CN 112163095A
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- relationship
- target
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 19
- 230000008569 process Effects 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 23
- 210000003128 head Anatomy 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及存储介质,属于人工智能技术领域。本申请实施例中,考虑到了实体之间不同的关系与不同属性信息的相关性,比方说实体之间的关系可能是建立在某些属性信息基础上,又或者说某些属性信息不同时,实体之间关系可能不同,某些属性信息相同时实体之间关系相同,这样通过解耦合的方式,对关系信息与每种属性信息的相关性进行分析,能够对实体之间的关系进行更深入挖掘,以此确定出的实体表示信息能够更好地体现实体之间的关系,有效提高了准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着计算机科学的发展,人工智能领域的兴起,知识图谱的应用也越发广泛。知识图谱 用于描述实体的属性和实体之间的关系。需要对知识图谱中的实体信息进行处理,以确定每 个实体的实体表示信息,进而补全知识图谱,或者基于实体表示信息再对实体进行其他处理。
目前,数据处理方法通常是将知识图谱中实体信息第一实体和第二实体的属性信息映射 得到对应的实体表示信息,后续基于第一实体和关系信息对应的实体表示信息映射到表示空 间,再基于两者重建第二实体的实体表示信息,基于重建的实体表示信息与真实的实体表示 信息计算差异来确定重建后的实体表示信息的准确性。
上述方法中基于重建来确定实体表示信息的准确性,但忽略了实体和关系的表示信息的 可解释性。上述方法采用黑盒结构得到实体的实体表示信息难以理解,且仅简单地通过映射, 以及实体之间的关系确定出实体表示信息,该实体表示信息的准确性比较差。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质,能够提高准确性,提 高处理效率。所述技术方案如下:
一方面,提供了一种数据处理方法,所述方法包括:
获取知识图谱中的实体信息,所述实体信息包括第一实体和第二实体的至少两个属性信 息以及所述第一实体与所述第二实体之间的关系信息;
基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息,获取所述关系 信息与所述至少两个属性信息的相关信息;
基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息以及所述相关信 息,获取所述第一实体的实体表示信息;
基于所述第一实体的实体表示信息,获取目标损失值,所述目标损失值与实体表示信息 的语义合理度相关;
基于所述目标损失值,对所述相关信息和所述实体表示信息进行更新,直至符合目标条 件时,得到所述知识图谱中所述第一实体的实体表示信息。
一方面,提供了一种数据处理装置,所述装置包括:
实体信息获取模块,用于获取知识图谱中的实体信息,所述实体信息包括第一实体和第 二实体的至少两个属性信息以及所述第一实体与所述第二实体之间的关系信息;
相关信息获取模块,用于基于所述第一实体和所述第二实体的至少两个属性信息、所述 关系信息,获取所述关系信息与所述至少两个属性信息的相关信息;
表示信息获取模块,用于基于所述第一实体和所述第二实体的至少两个属性信息、所述 关系信息以及所述相关信息,获取所述第一实体的实体表示信息;
损失获取模块,用于基于所述第一实体的实体表示信息,获取目标损失值,所述目标损 失值与实体表示信息的语义合理度相关;
更新模块,用于基于所述目标损失值,对所述相关信息和所述实体表示信息进行更新, 直至符合目标条件时,得到所述知识图谱中所述第一实体的实体表示信息。
在一种可能实现方式中,所述相关信息获取模块用于:
对所述第一实体和所述第二实体的至少两个属性信息、所述关系信息进行拼接,得到至 少两个属性信息对应的至少两个实体组合信息;
基于第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述至少 两个属性信息的相关信息;
所述更新模块用于:
基于所述目标损失值,对所述第一矩阵进行更新;
基于更新后的所述第一矩阵,对所述至少两个实体组合信息进行转换,得到更新后的相 关信息;
基于更新后的相关信息,对所述实体表示信息进行更新。
在一种可能实现方式中,所述相关信息获取模块用于:
基于所述第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述 至少两个属性信息的第一相关信息;
对所述第一相关信息进行标准化处理,得到所述关系信息与所述至少两个属性信息的相 关信息。
在一种可能实现方式中,所述相关信息获取模块用于:
基于所述第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述 至少两个属性信息的第一相关信息;
对所述第一相关信息进行标准化处理,得到第二相关信息;
对所述第二相关信息进行归一化处理,得到所述关系信息与所述至少两个属性信息的相 关信息。
在一种可能实现方式中,所述表示信息获取模块用于:
基于至少两个第一属性信息、至少两个第二属性信息以及所述关系信息,获取所述至少 两个第一属性信息对应的至少两个实体表示分量信息,所述第一属性信息为所述第一实体的 属性信息,所述第二属性信息为所述第二实体的属性信息;
基于所述关系信息与所述至少两个属性信息的相关信息,对所述至少两个实体表示分量 信息进行加权,得到所述第一实体的实体表示信息。
在一种可能实现方式中,所述实体信息获取模块用于:
从所述知识图谱中,提取第一实体信息;
对所述知识图谱进行负采样,得到所述实体之间关系存在错误的第二实体信息;
所述损失获取模块用于基于所述第一实体的实体表示信息、所述第一实体信息和所述第 二实体信息分别对应的目标权重,获取目标损失值,所述目标损失值与所述第一实体信息与 所述第二实体信息对应实体表示信息的语义合理度差距相关。
在一种可能实现方式中,所述损失获取模块用于:
基于所述第一实体的实体表示信息,获取所述实体表示信息的语义合理度;
根据所述第一实体信息和所述第二实体信息分别对应的目标权重,对两种实体信息中实 体表示信息的语义合理度进行加权,得到所述目标损失值,所述第一实体信息对应的目标权 重为正数,所述第二实体信息对应的目标权重为负数。
在一种可能实现方式中,所述损失获取模块用于基于第二矩阵,对所述第一实体的实体 表示信息进行转换,得到所述实体表示信息的语义合理度。
在一种可能实现方式中,所述损失获取模块用于:
分别获取所述第一实体信息和所述第二实体信息分别对应的目标权重与对应的语义合理 度的乘积对应的指数;
获取所述指数对应的对数之和作为所述目标损失值。
在一种可能实现方式中,所述对两种实体信息中实体表示信息的语义合理度进行加权得 到的损失值为第一损失值;
所述损失获取模块用于:
获取第二损失值或第三损失值中至少一项,所述第二损失值基于所述知识图谱中至少两 个目标实体信息对应的相关信息确定,所述至少两个目标实体信息中所述关系信息相同,所 述第三损失值基于所述关系信息与所述至少两个属性信息的相关信息确定;
基于所述第一损失值,以及所述第二损失值或第三损失值中至少一项,获取所述目标损 失值。
在一种可能实现方式中,所述损失获取模块用于:
基于所述知识图谱中至少两个目标实体信息对应的相关信息之间的差值,获取第二损失 值;
在一种可能实现方式中,所述损失获取模块用于:
获取所述至少两个相关信息中最大的目标数量的相关信息之和;
根据所述相关信息之和与目标数值,获取第三损失值。
在一种可能实现方式中,所述装置还包括:
提取模块,用于响应于功能执行指令,从所述知识图谱中,提取目标实体的实体表示信 息;
执行模块,用于基于所述目标实体的实体表示信息,执行对应的目标功能。
一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储 器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个 或多个处理器加载并执行以实现上述数据处理方法的各种可选实现方式。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码, 所述至少一条程序代码由处理器加载并执行以实现上述数据处理方法的各种可选实现方式。
一个方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算 机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。 电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码, 所述一个或多个处理器执行所述一条或多条程序代码,使得电子设备能够执行上述任一种可 能实施方式的数据处理方法。
本申请实施例中,考虑到了实体之间不同的关系与不同属性信息的相关性,比方说实体 之间的关系可能是建立在某些属性信息基础上,又或者说某些属性信息不同时,实体之间关 系可能不同,某些属性信息相同时实体之间关系相同,这样通过解耦合的方式,对关系信息 与每种属性信息的相关性进行分析,能够对实体之间的关系进行更深入挖掘,以此确定出的 实体表示信息能够更好地体现实体之间的关系,有效提高了准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的实施环境的示意图;
图2是本申请实施例提供的一种数据处理方法的流程图;
图3是本申请实施例提供的一种数据处理方法的流程图;
图4是本申请实施例提供的一种数据处理方法的结构示意图;
图5是本申请实施例提供的一种数据处理方法示意图;
图6是本申请实施例提供的一种数据处理方法示意图;
图7是本申请实施例提供的一种数据处理模型的示意图;
图8是本申请实施例提供的一种数据处理方法的实验结果的示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种终端的结构框图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进 一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区 分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执 行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些 元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如,在不脱离 各种所述示例的范围的情况下,第一图像能够被称为第二图像,并且类似地,第二图像能够 被称为第一图像。第一图像和第二图像都能够是图像,并且在某些情况下,能够是单独且不 同的图像。
本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个 或两个以上,例如,多个数据包是指两个或两个以上的数据包。
应理解,在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例,而并 非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式 “一个(“a”“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。
还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个 或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示 能够存在三种关系,例如,A和/或B,能够表示:单独存在A,同时存在A和B,单独存在 B这三种情况。另外,本申请中的字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先 后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成 任何限定。
还应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。
还应理解,术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当 在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并 不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。
还应理解,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响 应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事 件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时” 或“响应于检测到[所陈述的条件或事件]”。
下面对本申请涉及到的名词进行说明。
耦合:是指两个或两个以上的体系或两种运动形式间通过相互作用而彼此影响以至联合 起来的现象。
解耦:是用数学方法将两种运动分离开来处理问题的技术。常用解耦方法就是忽略或简 化对所研究问题影响较小的一种运动,只分析主要的运动。在本申请实施例中,用于将属性 信息进行解耦,能够通过学习,将属性信息分离开来,关注实体之间关系信息与每种属性信 息之间的相关性,从而对这种属性信息进行实体表达。
端到端:是从用户需求端出发,到满足用户需求去,提供端到端服务。端到端的输入端 是市场(用户需求),输出端也是市场(满足用户需求)。端到端服务非常快捷,非常有效, 中间不需要操作,流程很顺畅。能够降低人工成本,降低管理成本,也就降低了运作成本。
注意力机制(Attention Mechanism):在认知科学中,由于信息处理的瓶颈,人类会选 择性地关注所有信息的一部分,同时忽略其他可见的信息。由于人类视网膜不同的部位具有 不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。 为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关 注它。由此,将关注所有信息中的一部分,忽略另一部分的机制称为注意力机制。
本申请涉及人工智能技术,下面对人工智能技术进行解释说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、 延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及 应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并 生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智 能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技 术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数 据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技 术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术 (TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展 方向,其中语音成为未来被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的 一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将 涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言 处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、 凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以 获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工 智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习 和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习 等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的 智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、 机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到 应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体涉及知识图谱技术, 具体通过如下实施例进行说明。
下面对本申请的实施环境进行说明。
图1是本申请实施例提供的一种数据处理方法的实施环境的示意图。该实施环境包括终 端101,或者该实施环境包括终端101和数据处理平台102。终端101通过无线网络或有线网 络与数据处理平台102相连。
终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器或MP4 (Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器, 膝上型便携计算机,智能机器人中的至少一种。终端101安装和运行有支持数据处理的应用 程序,例如,该应用程序能够是系统应用、即时通讯应用、新闻推送应用、购物应用、在线 视频应用、社交应用。
示例性地,该终端101能够具有数据处理功能,能够对知识图谱相关的实体数据进行处 理,确定知识图谱中实体的实体表示信息,基于该实体表示信息,还可以执行其他功能。该 终端101能够独立完成该工作,也能够通过数据处理平台102为其提供数据服务。本申请实 施例对此不作限定。
数据处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一 种。数据处理平台102用于为支数据处理的应用程序提供后台服务。可选地,数据处理平台 102承担主要处理工作,终端101承担次要处理工作;或者,数据处理平台102承担次要处 理工作,终端101承担主要处理工作;或者,数据处理平台102或终端101分别能够单独承担处理工作。或者,数据处理平台102和终端101两者之间采用分布式计算架构进行协同计算。
可选地,该数据处理平台102包括至少一台服务器1021以及数据库1022,该数据库1022 用于存储数据,在本申请实施例中,该数据库1022中能够存储有样本图像或样本人脸图像, 为至少一台服务器1021提供数据服务。
服务器能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布 式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、 中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的 云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
本领域技术人员能够知晓,上述终端101、服务器1021的数量能够更多或更少。比如上 述终端101、服务器1021能够仅为一个,或者上述终端101、服务器1021为几十个或几百个, 或者更多数量,本申请实施例对终端或服务器的数量和设备类型不加以限定。
图2是本申请实施例提供的一种数据处理方法的流程图,该方法应用于电子设备中,该 电子设备为终端或服务器,参见图2,该方法包括以下步骤。
201、电子设备获取知识图谱中的实体信息,该实体信息包括第一实体和第二实体的至少 两个属性信息以及该第一实体与该第二实体之间的关系信息。
对于知识图谱(Knowledge Graph,KG),知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多 学科融合目的的现代理论。该知识图谱以图数据的形式存储实体的属性以及实体之间的关系。 在知识图谱中,以实体为节点,边用于体现两个实体之间存在关系,边的权重用于体现两个 实体之间的关系。
实体(entity)是客观存在并可相互区别的事物。实体可以是具体的人、事、物,也可以 是抽象的概念或联系。也即是实体用于表示现实世界中的对象或概念。例如,苹果、人名(用 户)等。
关系信息用于指示第一实体与该第二实体之间的关系。
202、电子设备基于该第一实体和该第二实体的至少两个属性信息、该关系信息,获取该 关系信息与该至少两个属性信息的相关信息。
属性信息是与实体相关的信息。通过属性信息能够了解到该实体各方面的信息。电子设 备可以基于获取到的实体信息,确定关系信息与每个属性信息的相关信息,以此来分析关系 信息关注于实体的哪种属性信息。通过该相关信息,能够实现基于解耦合的对多种属性信息 进行实体表示的过程。
203、电子设备基于该第一实体和该第二实体的至少两个属性信息、该关系信息以及该相 关信息,获取该第一实体的实体表示信息。
一个实体信息中实体之间具有关系,则实体的实体表示信息之间也具有关系。例如,某 个实体通过某种关系能够变为另一个实体。该实体的实体表示信息与关系信息的表示信息之 和应当为该另一个实体的实体表示信息,这样得到的实体表示信息能够准确地反映知识图谱 中实体之间的关系。
电子设备通过上述步骤,能够确定出第一实体的实体表示信息以及关系信息与每种属性 信息的相关信息,实体之间的关系信息与属性信息相关,例如,实体之间的关系有些建立在 某种属性信息基础上,比方说,两个实体由于均具备某种属性,因而,这两个实体建立起关 系。为了能够更好地使得实体表示信息体现出实体之间的关系与属性信息相关,电子设备在 确定实体表示信息时,将相关信息也考虑进来,这样通过解耦合的方式,对关系信息与每种 属性信息的相关性进行分析,能够对实体之间的关系进行更深入挖掘,以此确定出的实体表 示信息能够更好地体现实体之间的关系,有效提高了准确性。
204、电子设备基于该第一实体的实体表示信息,获取目标损失值,该目标损失值与实体 表示信息的语义合理度相关。
上述步骤201至步骤203为迭代过程,电子设备确定了第一实体的实体表示信息后,可 以判断该实体表示信息是否准确,以此来判断是否需要再进行优化,以得到更准确的实体表 示信息。
该目标损失值与实体表示信息的语义合理度相关。可选地,二者负相关。也即是,语义 合理度越高,目标损失值越小。可以理解地,我们通过学习过程,希望能够学习到语义合理 度更高的实体表示信息,这样得到的实体表示信息更佳,关系信息与属性信息的相关信息在 实体表示信息中能够得到更好的体现。
205、电子设备基于该目标损失值,对该相关信息和该实体表示信息进行更新,直至符合 目标条件时,得到该知识图谱中第一实体信息中实体的实体表示信息。
电子设备基于目标损失值,能够对相关信息和实体表示信息进行更新,也即是,改变一 些参数,再重复上述迭代步骤,直至符合目标条件,也即是实体表示信息足够准确时停止, 能够得到知识图谱中实体的实体表示信息。
本申请实施例中,考虑到了实体之间不同的关系与不同属性信息的相关性,比方说实体 之间的关系可能是建立在某些属性信息基础上,又或者说某些属性信息不同时,实体之间关 系可能不同,某些属性信息相同时实体之间关系相同,这样通过该相关性能够对实体之间的 关系进行深入挖掘,以此确定出的实体表示信息能够更好地体现实体之间的关系,有效提高 了准确性。
图3是本申请实施例提供的一种数据处理方法的流程图,参见图3,该方法包括以下步 骤。
301、电子设备从该知识图谱中,提取第一实体信息。
302、电子设备对该知识图谱进行负采样,得到该实体之间关系存在错误的第二实体信息, 该第一实体信息和该第二实体信息包括第一实体和第二实体的至少两个属性信息以及该第一 实体与该第二实体之间的关系信息。
上述步骤301和步骤302为获取知识图谱中的实体信息的过程,该过程中,电子设备能 够从知识图谱中获取得到正样本和负样本。其中,该知识图谱中直接提取得到的第一实体信 息为正样本,通过负采样得到的第二实体信息为负样本。电子设备通过对正负样本进行处理, 得到相差比较大的结果,即可说明电子设备的处理方式准确,能够准确区分正负样本的差距, 能够准确辨别实体之间关系的正确与错误。
对于负采样,在自然语言处理领域中,能够对文本进行采样得到一个上下文词和一个目 标词,生成一个正样本(positive example)。电子设备用与正样本相同的上下文词,再随机 选择一个单词,生成一个负样本(negative example),该生成负样本的过程就是负采样(negative sampling)。在本申请实施例中,电子设备能够从知识图谱中提取得到正样本,能够在正样 本的基础上,对第一实体信息中第一实体、第二实体和关系信息中任一项进行修改,用随机 采样得到的其它信息进行替换,从而得到错误的实体信息,这样该实体信息即为负样本。负 样本中实体之间的关系存在错误。
在一个具体示例中,该知识图谱中通常以实体为节点,边用于表示实体之间存在的关系。 知识图谱可以形式化地表示为其中ε和分别表示知识图谱的实体集和边集。以该 第一实体信息和第二实体信息为三元组数据为例,对于三元组(h,r,t)。其中,h为head,在 此指头实体。r为relation,在此指关系。t为tail,在此指尾实体。
例如,在一个具体示例中,知识图谱中能够以三元组的方式存储实体的信息。比如,三 元组(h,r,t),h,r,t可以分别为头实体的标识、关系的标识和尾实体的标识。比如,(2, a,4),其中,2和4为实体的标识,a为关系的标识。通过该三元组能够确定出两个实体和实体之间的关系,具体地,电子设备可以基于实体和关系的标识,获取实体的至少两个属性信息以及两个实体之间的关系信息。
303、电子设备基于该第一实体和该第二实体的至少两个属性信息、该关系信息,获取该 关系信息与该至少两个属性信息的相关信息。
电子设备获取到两种实体信息后,该两种实体信息中第一实体和第二实体均具有至少两 个属性信息,电子设备可以分析关系信息与该至少两个属性信息中每个属性信息之间的相关 性,来分析该关系信息更关注哪种属性信息,进而加入该相关信息执行下述实体表示信息的 获取步骤,能够使得实体表示信息中关系与属性信息之间的相关性得到更加明显的体现,该 实体表示信息也更加准确。
在一种可能实现方式中,在分析关系信息与每种属性信息的相关性时,能够通过将实体 信息中两个实体的属性信息以及关系信息拼接后,对拼接的实体组合信息进行转换的方式来 确定出该实体组合信息中各项信息之间的相关程度。因而,该步骤303能够通过下述步骤一 和步骤二实现。
步骤一、电子设备对该第一实体和该第二实体的至少两个属性信息、该关系信息进行拼 接,得到至少两个属性信息对应的至少两个实体组合信息。
电子设备通过拼接步骤,能够将多种信息拼接为一种组合信息,这样通过对该组合信息 进行整体转换,能够得到该组合信息中各个部分数据之间的相关信息。
例如,实体信息可以为三元组数据,可以通过拼接步骤,将三种信息进行拼接,得到组 合信息[hk;r;tk]。其中,[·;·]表示拼接操作。k为实体的属性信息的标识。
步骤二、电子设备基于第一矩阵,对该至少两个实体组合信息进行转换,得到该关系信 息与该至少两个属性信息的相关信息。
电子设备通过对第一矩阵对实体组合信息进行转换,能够将多维信息转换为数值,通过 该数值来体现关系信息与属性信息之间的相关信息。
可选地,该相关信息可以为相关度,该相关度能够体现关系信息对某种属性信息的关注 情况,该关注信息可以为绝对值,也可以为相对值,本申请实施例对此不作限定。
该步骤二可以通过多种方式得到相关信息,该转换过程中,电子设备将实体组合信息映 射为一个能够表征相关性的数值,映射后,为了能够使得不同实体信息得到的相关性之间更 具有对比性,能够在映射后进行后处理,得到更准确的相关信息。下面提供了两种可能的实 现方式,本申请实施例可以采用任一种方式获取该相关信息,也可以采用其他方式,本申请 实施例对此不作限定。
方式一、基于该第一矩阵,对该至少两个实体组合信息进行转换,得到该关系信息与该 至少两个属性信息的第一相关信息;对该第一相关信息进行标准化处理,得到该关系信息与 该至少两个属性信息的相关信息。
在该方式一中,由于实体组合信息基于实体信息拼接得到,直接使用第一矩阵对其进行 转换,得到的数值的跨度可能会比较大,不同实体信息得到的数值之间的关系也可能较复杂。 电子设备可以对映射后的第一相关信息进行标准化处理,得到的相关信息的形式统一,能够 体现不同实体信息得到的相关信息之间的线性关系,也即能够更准确地体现不同实体信息得 到的相关信息的区别。
在一种可能实现方式中,该标准化处理能够通过线性整流(Rectified LinearUnit,ReLU) 函数实现。
例如,在一个具体示例中,以该第一实体信息和第二实体信息为三元组数据为例,对于 三元组(h,r,t),本发明使用注意力机制来根据关系r显式的选取实体h和t的相关部分。具体 来说,模型首先拼接起头尾实体和关系的嵌入表示,然后通过非线性变换来计算关系r对头和 尾实体嵌入的第k个分量的关注值,k为正整数。
例如,在一个具体示例中,电子设备拼接得到[hk;r;tk]后,能够通过第一矩阵W1,映射得 到第一相关信息,然后通过ReLU进行标准化处理,得到相关信息。
ak=ReLU(W1[hk;r;tk]), 公式一
在一种可能实现方式中,该第一矩阵可以为可训练的矩阵,在该方式中,下述步骤306 中,电子设备可以基于目标损失值,对该第一矩阵进行更新。
方式二、基于该第一矩阵,对该至少两个实体组合信息进行转换,得到该关系信息与该 至少两个属性信息的第一相关信息;对该第一相关信息进行标准化处理,得到第二相关信息; 对该第二相关信息进行归一化处理,得到该关系信息与该至少两个属性信息的相关信息。
方式二相较于方式一,电子设备在对第一相关信息标准化处理后,还通过归一化处理, 将第二相关信息处理为相对的相关信息。通过该归一化处理,能够将不同关系信息得到的相 关信息转换到同一取值范围内,这样对比不同关系信息得到的相关信息更具参考性。且通过 这样的相关信息去进行后续计算,能够有效减少计算量,提高数据处理效率。
通过归一化处理得到的相关信息可以理解为关系信息与至少两个属性信息之间的相对相 关信息,该相对相关信息能够体现不同关系信息对属性信息的相对关注度,也即是相对关注 度值。
例如,在一个具体示例中,在方式一后,电子设备还可以通过下述公式二,获取相关信 息。
其中,αk是应用归一化操作后获得的相关信息。j为属性信息的标识。
304、电子设备基于该第一实体和该第二实体的至少两个属性信息、该关系信息以及该相 关信息,获取该第一实体的实体表示信息。
电子设备获取到不同实体的属性信息和关系信息,也分析得到关系信息与每个属性信息 之间的相关信息,进而,电子设备可以综合属性信息、关系信息以及相关信息,来获取实体 的实体表示信息。在该步骤304中,仅以获取第一实体的实体表示信息为例进行说明,该第 一实体为每个实体信息包括的两个实体中任一个。例如,以一个实体信息为例,该实体信息 包括头实体、尾实体以及头实体与尾实体之间的关系信息。该第一实体可以为头实体,也可 以为尾实体。电子设备可以对实体信息中的实体均执行该步骤304,得到实体表示信息。
在一种可能实现方式中,实体信息中的头实体h、尾实体t以及关系信息r存在如下关系: h+t=r。基于该关系,电子设备能够得到实体信息中第一实体、第二实体以及关系信息的表 示信息。其中,第一实体和第二实体的表示信息为实体表示信息,关系信息的表示信息为关 系表示信息。
在一种可能实现方式中,该实体表示信息和关系表示信息可以为嵌入表示,上述步骤304 中,电子设备可以在对实体信息进行表示时,能够对实体的属性信息和关系信息均进行嵌入 处理,得到嵌入表示,其中,头实体的嵌入表示与关系信息的嵌入表示之和为尾实体的嵌入 表示。
对于第一实体和第二实体的表示信息,电子设备能够通过不同的方式获取得到。需要说 明的是,在获取实体信息对应的实体表示信息时通常是通过将实体以及关系信息一起进行处 理得到表示信息。下面提供两种实体表示信息的获取方式,本申请实施例可以采用任一种获 取方式,也可以采用其他方式,本申请实施例对此不作限定。
获取方式一、电子设备能够基于重构的方式,获取第一实体的实体表示信息。
具体的,电子设备能够以第一实体、第二实体以及关系信息之间的转换关系为约束,对 第一实体和第二实体的属性信息、关系信息进行嵌入处理,得到第一实体、第二实体的实体 表示信息以及关系信息的表示信息。电子设备能够基于实体信息中任一实体信息、关系信息 以及上述转换关系,获取另一实体信息的实体表示信息,并将其与该另一实体信息的目标实 体表示信息进行对比,确定差异值,基于差异值,来确定出语义合理性满足条件的实体表示 信息。
在一种可能实现方式中,该获取方式一中,电子设备能够通过TransE(Translating Embedding,转换嵌入)模型实现。电子设备能够将第一实体信息、第二实体信息输入TransE 模型中,由TransE模型输出两种实体信息中第一实体的实体表示信息。可选地,TransE模型 也可以输出第二实体的实体表示信息。可选地,TransE模型也可以输出关系信息的表示信息。 对于第一实体的实体表示信息,可以如下公式三所示。
ok=[hk;r;tk], 公式三
获取方式二、电子设备能够基于双线性的方式,获取第一实体的实体表示信息。
在该获取方式二中,电子设备能够对第一实体、第二实体的至少两个属性信息和关系信 息进行嵌入处理,得到第一实体、第二实体和关系信息的嵌入表示,对三种信息进行卷积处 理,得到卷积后的嵌入表示。电子设备可以对卷积后的嵌入表示进行整流处理,得到第一实 体的实体表示信息。可选地,电子设备也可以得到第二实体的实体表示信息。可选地,电子 设备也可以得到关系信息的表示信息。对于第一实体的实体表示信息,可以如下公式四所示。
ConvKB:ok=ReLU(Conv([hk;r;tk]), 公式四
在一种可能实现方式中,电子设备可以将每种属性信息作为一个分量,针对每种属性信 息,能够获取得到一个实体表示分量信息,后再针对关系信息与每种属性信息的相关信息, 对各个实体表示分量信息进行综合。
具体地,电子设备可以基于至少两个第一属性信息、至少两个第二属性信息以及该关系 信息,获取该至少两个第一属性信息对应的至少两个实体表示分量信息,该第一属性信息为 该第一实体的属性信息,该第二属性信息为该第二实体的属性信息,基于该关系信息与该至 少两个属性信息的相关信息,对该至少两个实体表示分量信息进行加权,得到该第一实体的 实体表示信息。
其中,相关信息能够作为每个实体表示分量信息的权重,通过相关信息加权,实体表示 信息中,与关系信息相关性高的属性信息对实体表示信息的影响则比较大。该实体表示信息 充分体现了关系信息对不同属性信息的关注程度,相较于简单的映射方式,该实体表示信息 更准确。例如,该实体表示信息即为其中,αk是应用归一化操作后获得的相关信 息。是第k个分量的输出表示。
305、电子设备基于该第一实体的实体表示信息、该第一实体信息和该第二实体信息分别 对应的目标权重,获取目标损失值,该目标损失值与该第一实体信息与该第二实体信息对应 实体表示信息的语义合理度差距相关。
通过上述步骤,电子设备可以获取得到第一实体的实体表示信息,为了确认该实体表示 信息是否能够准确表示该第一实体,电子设备能够执行该步骤306,以目标损失值来衡量准 确性。
其中,不同的实体信息可以对应有不同的目标权重。通过目标权重,将正负样本区分开, 以此能够在目标损失值中体现正负样本之间的差距,可理解的,该差距大,电子设备分辨正 负样本的能力越强。因而,电子设备在学习过程(也即是数据更新过程)中,需要最大化该 差距,提高电子设备对正负样本的处理能力。
在一种可能实现方式中,该目标损失值与差距负相关。也即是,该目标损失值越小,通 过实体表示信息体现出来的正负样本之间的差距越大。该目标损失值越大,通过实体表示信 息体现出来的正负样本之间的差距越小。
在一种可能实现方式中,电子设备能够以实体表示信息的语义合理度来衡量该实体表示 信息的准确性。可以理解地,正样本的语义合理度比较高,负样本的语义合理度比较低。因 而,为两种实体信息设置有不同的目标权重,对两种实体信息对应的语义合理度进行加权, 来确定目标损失值。具体地,该步骤305可以通过下述步骤一和步骤二实现。
步骤一、电子设备基于该第一实体的实体表示信息,获取该实体表示信息的语义合理度。
在该步骤一中,电子设备获取到实体表示信息后,能够进一步获取该实体表示信息的语 义合理度,该语义合理度能够作为衡量该实体表示信息是否准确的标准。具体地,该语义合 理度的获取过程可以为一个映射过程,通过将实体表示信息的向量表示映射为一个数值 f(h,r,t)。
其中,该实体表示信息的获取方式不同时,该W2可以不同。例如,在上述获取方式一中, 该W2为标准化处理。在上述获取方式二中,电子设备基于第二矩阵,对该第一实体的实体表 示信息进行转换,得到该实体表示信息的语义合理度。该W2为一个矩阵,也即是第二矩阵。 该第二矩阵可选地,该第二矩阵能够在学习过程中更新,也即是,在下述步骤306 中,电子设备能够根据目标损失值,对该第二矩阵进行更新。
步骤二、电子设备根据该第一实体信息和该第二实体信息分别对应的目标权重,对两种 实体信息中实体表示信息的语义合理度进行加权,得到该目标损失值,该第一实体信息对应 的目标权重为正数,该第二实体信息对应的目标权重为负数。
在该步骤二中,电子设备能够对第一实体信息和第二实体信息中每种实体信息中第一实 体的实体表示信息,执行上述步骤一,得到语义合理度。然后电子设备可以对多种实体信息 的语义合理度进行综合,确定当前对正负样本确定出的实体表示信息是否准确。
电子设备可以分别获取该第一实体信息和该第二实体信息分别对应的目标权重与对应的 语义合理度的乘积对应的指数,获取该指数对应的对数之和作为该目标损失值。
例如,在一个具体示例中,该电子设备获取目标损失值时能够通过下述公式六实现。
其中,G′表示通过负采样得到的无效的三元组,也即是负样本。如果(h,r,t)∈G,则 y(h,r,t)=1,否则,(h,r,t)∈G′,y(h,r,t)=-1。exp()为指数函数。表示目标 损失值。
在一种可能实现方式中,除了实体表示信息得到的损失值之外,电子设备还可以增加其 他约束,以达到解耦合多种属性信息的目的,或明确关系与属性信息之间相关信息的目的。
具体地,该步骤二中,电子设备对两种实体信息中实体表示信息的语义合理度进行加权 得到的损失值为第一损失值获取第二损失值或第三损失值中至少一项,该第二损失值基于该 知识图谱中至少两个目标实体信息对应的相关信息确定,该至少两个目标实体信息中该关系 信息相同,该第三损失值基于该关系信息与该至少两个属性信息的相关信息确定。电子设备 可以基于该第一损失值,以及该第二损失值或第三损失值中至少一项,获取该目标损失值。
对于第二损失值,电子设备可以基于该知识图谱中至少两个目标实体信息对应的相关信 息之间的差值,获取第二损失值。
通过该第二损失值,能够更明确关系信息与属性信息之间的相关性,使得每种属性信息 对应的实体表示信息能够反映一个单独的语义信息,达到解耦合的效果。可以理解地,同一 个关系会关注不同实体的相同属性信息。因而,对于每一个三元组(h,r,t)∈G,电子设备 可以通过采样得到N个具有相同关系的三元组集合T(h,r,t)∈G,N为正整数。然后通过 最小化它们的KL(Kullback-Leible)距离,KL距离也叫做相对熵(RelativeEntropy)。对这些 三元组的解耦合相关信息施加约束。
例如,该第二损失值可以通过下述公式七获取得到。
其中,为第二损失值,DKL(α(h,r,t),α(h′,r′,t′))为获取α(h,r,t)和 α(h′,r′,t′)之间KL距离的过程,也即是确定具有相同关系的三元组集合确定的相关信息 之间的差距。
对于第三损失值,该关系信息与该至少两个属性信息的相关信息为至少两个相关信息。 电子设备可以获取该至少两个相关信息中最大的目标数量的相关信息之和,根据该相关信息 之和与目标数值,获取第三损失值。
通过该第三损失值,能够使得关系信息关注于目标数量的属性信息,而不是所有属性信 息,这样关系信息与属性信息之间的相关信息更加明确。
其中,该目标数量可以由相关技术人员根据需求进行设置,例如,该目标数量为1时, 关系信息关注多种属性信息中的一种属性信息,学习过程中,电子设备需要学习关系信息关 注的是哪一种属性信息。本申请实施例对此不作限定。
对于同一个关系信息来说,它关注的属性信息的总数量越少,解耦合的效果就越好。因 此励每次选择的前m个组件的注意值的总和趋近于1,m为正整数,也即是目标数量。
例如,该第三损失值可以通过下述公式八获取得到。
对于目标损失值,以电子设备获取了第一损失值、第二损失值和第三损失值为例,电子 设备可以对三种损失值进行加权,得到目标损失值。例如,可以为第二损失值设置第一权重, 为第三损失值设置第二权重,这样电子设备可以获取第一损失值、第二损失值与第一权重的 乘积以及第三损失值与第二权重的乘积之和,得到目标损失值。例如,电子设备可以通过下 述公式九获取目标损失值
其中“β”和“η”分别表示第二损失值和第三损失值的第一权重和第二权重。该第一权 重和第二权重可以由相关技术人员根据需求进行设置,也可以在下述步骤306中,进行更新, 本申请实施例对此不作限定。当然,也可以分别为三种损失值设置有权重,本申请实施例对 此不作限定。
上述第二损失值和第三损失值可以理解为正则化项。其中,正则化在代数几何中是指就 是给平面不可约代数曲线以某种形式的全纯参数表示。
知识图谱嵌入(Knowledge Graph Embedding,KGE)模型通常通过在观察到的事实上最大 化得分函数fh,r,t)来学习实体和关系嵌入,并且得分倾向于为真实三元组打比无效三元组 更高的分数。
需要说明的是,该步骤305为基于该第一实体的实体表示信息,获取目标损失值的步骤, 在本实施例中,以电子设备基于多种信息获取到多种损失值,从而综合多种损失值进行数据 更新为例进行了说明。
在一种可能实现方式中,电子设备还可以无需获取其他损失值,而是基于第一实体的实 体表示信息,获取目标损失值,该目标损失值与实体表示信息的语义合理度相关,以更新目 标损失值的方式来更新该实体表示信息,使得实体表示信息的语义合理度达到一定条件。具 体地,电子设备可以基于该第一实体的实体表示信息,获取该实体表示信息的语义合理度, 基于该语义合理度,获取目标损失值。可选地,该目标损失值与该语义合理度负相关。也即 是,该目标损失值越大,该语义合理度越小。该目标损失值越小,该语义合理度越大。可以 理解地,本申请实施例中,需要通过最大化该语义合理度,也即是使得实体表示信息越能体 现准确含义,来提高实体表示信息的准确性。
306、电子设备基于该目标损失值,对该相关信息和该实体表示信息进行更新,直至符合 目标条件时,得到该知识图谱中该第一实体的实体表示信息。
对应于步骤303中基于第一矩阵确定相关信息的方式,该步骤306中,电子设备可以通 过对第一矩阵进行更新的方式,来更新相关信息,相关信息更新了,相应地,实体表示信息 也会更新。具体地,电子设备可以基于该目标损失值,对该第一矩阵进行更新,基于更新后 的该第一矩阵,对该至少两个实体组合信息进行转换,得到更新后的相关信息,基于更新后 的相关信息,对该实体表示信息进行更新。
在一种可能实现方式中,上述数据处理方法可以通过数据处理模型实现,电子设备可以 将知识图谱输入该数据处理模型中,由该数据处理模型执行上述步骤301至步骤306,或者 电子设备可以执行步骤301,获取得到第一实体信息和第二实体信息后,将第一实体信息和 第二实体信息输入数据处理模型中,由该数据处理模型执行上述步骤302至步骤306,得到 该指示图谱中实体的实体表示信息。该数据处理方法实现了端到端,用户仅需要提供待处理 的数据,数据处理模型即可输出实体的实体表示信息。能够减少人工成本、管理成本、运作 成本,提高数据处理效率。
例如,在一个具体示例中,该数据处理模型的结构可以如图4所示,对于三元组(h,r, t),本发明使用注意力机制来根据关系r显式的选取实体h和t的相关部分。具体来说,模型 首先拼接起头尾实体和关系的嵌入表示,然后通过非线性变换来计算关系r对头和尾实体嵌 入的第k个分量的关注值(也即是相关信息)αk。然后通过确定出最终的实体表 示信息,并基于该实体表示信息确定对应的得分(语义合理度),本申请实施例的学习过程 中,对于第一实体表示信息,意于训练模型,使得该得分最大化。当然,对于第二实体表示 信息,则旨在使得该得分最小化。
在一种可能实现方式中,通过上述步骤301至步骤306,电子设备能够获取得到知识图 谱中实体的实体表示信息,后续基于实体表示信息能够提高各种下游服务。具体的,电子设 备接收功能执行指令后,可以响应于功能执行指令,从该知识图谱中,提取目标实体的实体 表示信息,基于该目标实体的实体表示信息,执行对应的目标功能。该目标功能可以与业务 需求相关。
上述数据处理方法能够应用于任意需要实体表示信息的应用场景中,例如,该数据处理 方法可以应用于链接预测、对话系统、推荐系统等。在此仅为一种示例性说明,本申请实施 例对该方法的应用场景不作限定。例如,如图5所示,在该数据处理方法应用于链接预测时, 电子设备能够通过知识图谱中已知实体的实体表示信息,确定实体501和实体502之间的关 系信息,从而实现链接预测。当然,也可以在知识图谱中其他信息(例如,实体502)缺失 的情况下,补全知识图谱。又例如,如图6所示,在该数据处理方法应用于对话系统600时, 在以用户为实体组成的KG中,实体携带丰富的信息,比如一个用户会有多种属性信息,而 这些信息可以被压缩成多个组件。例如,如图7所示,实体“XXXX(人名)”可能包含四 个组件,如“特征(characteristic)701”、“家庭(family)702”、“工作(work)703”、 “地点(places)704”等。比如,在特征701中可以包括身高(Height)和出生年份(Birth_year),身高为1.83米(m),出生年份为1975。在家庭702中,XXXX的父亲(Father_of)为AAAA (人名),XXXX的女儿(Daughter)为CCCC(人名),XXXX娶了(Married_to)BBBB (人名)。在工作703中,XXXX在曼彻斯特联足球俱乐部(Manchester United Football Club, MUFC)的队伍中(Team of MUFC)。在地点704中,XXXX的国家(Country)为英格兰(England)。 XXXX的生活城市(Live_city)为伦敦(Landon)。如果在对话中出现询问和“XXXX”所 在的“国家”或“住过的地方”有关的问题时,通过本申请提供的数据处理方法,从知识图 谱XXXX的实体表示信息中获取“地点”这一属性信息的实体表示信息。以此再执行后续步 骤,获取到了关于实体的“地点”相关的信息,不仅可以让回复更加准确,而且还具有一定 的可解释性。
为了验证本发明的效果,我们在两个实际场景的数据集上进行了实验分析,结果如表1 所示。
表1
我们利用链接预测任务对比了现有的主流KGE技术,包括基于重建的模型(TransE, RotatE,ConvE)和基于双线性的模型(ComplEx,ConvKB,TuckER,KBGAT)。其中,RotatE 为Knowledge Graph Embedding by Relational Rotation in Complex Space中提出的一种嵌入模 型。ConvE为一种实体关系预测模型。
从表1中,我们发现如下几项。
(1)在两个实验数据集上,本发明都取得了有竞争力的结果,特别是比两个紧密相关的模 型TransE和ConvKB做得更好。在FB15k-237数据集上,本申请DisenE(ConvKB)在几乎所 有指标上都有提升,这验证了该方法在链接预测任务中的有效性。
(2)可以看出本申请DisenE(ConvKB)在FB15k-237上的结果最好,在WN18RR上的MR得分最好,说明在通过解耦合的方式,可以让真实三元组的排名总体上都比较高。
(3)与WN18RR相比,FB15k-237的改善更为显著。这是因为在关系较多的KG中,实体包含多个语义成分的现象更为显著。
如图8所示,我们可视化了实体和关系的关注度情况,在图8中的(a)图中,我们可视 化了一个关系对不同实体的K个分量的关注值,其中y坐标是随机采样的一些头部实体,这 些实体都与该关系出现在同一个三元组中。图中表明相同的关系倾向于关注不同实体的相同 部分。通过对注意力分布的分析,我们发现,以第一成分为主的关系一般与体育赛事有关, 这就导致了男性的“性别”关系也以会关注于第一成分。
此外,为了验证学习到的嵌入满足了不同关系关注实体的不同部分的直觉,我们在图8 中的(b)图中绘制实体Britain多个组件上的注意值,其中y坐标为与“Britain”出现在相同 三元组中的关系样本。我们可以观察到语义相似的关系具有相似的注意值分布。例如,关系 “gdp nominal(名义国内生产总值)”,“gdp real(国内生产总值)”,“dated money(过 期货币)”,“ppp dollars(国际购买力平价美元)”都与经济有关,关系“Amedal(某运动会奖牌)”,“As(某运动会)”,“medal won(获得奖牌)”,都与某运动会比赛有关。 其中,A为某运动会,这些结果表明,本模型学习的解耦合表示具有一定的可解释性。
本申请实施例中,考虑到了实体之间不同的关系与不同属性信息的相关性,比方说实体 之间的关系可能是建立在某些属性信息基础上,又或者说某些属性信息不同时,实体之间关 系可能不同,某些属性信息相同时实体之间关系相同,这样通过解耦合的方式,对关系信息 与每种属性信息的相关性进行分析,能够对实体之间的关系进行更深入挖掘,以此确定出的 实体表示信息能够更好地体现实体之间的关系,有效提高了准确性。
上述所有可选技术方案,能够采用任意结合形成本申请的可选实施例,在此不再一一赘 述。
图9是本申请实施例提供的一种数据处理装置的结构示意图,参见图9,该装置包括:
实体信息获取模块901,用于获取知识图谱中的实体信息,该实体信息包括第一实体和 第二实体的至少两个属性信息以及该第一实体与该第二实体之间的关系信息;
相关信息获取模块902,用于基于该第一实体和该第二实体的至少两个属性信息、该关 系信息,获取该关系信息与该至少两个属性信息的相关信息;
表示信息获取模块903,用于基于该第一实体和该第二实体的至少两个属性信息、该关 系信息以及该相关信息,获取该第一实体的实体表示信息;
损失获取模块904,用于基于该第一实体的实体表示信息,获取目标损失值,该目标损 失值与实体表示信息的语义合理度相关;
更新模块905,用于基于该目标损失值,对该相关信息和该实体表示信息进行更新,直 至符合目标条件时,得到该知识图谱中该第一实体的实体表示信息。
在一种可能实现方式中,该相关信息获取模块902用于:
对该第一实体和该第二实体的至少两个属性信息、该关系信息进行拼接,得到至少两个 属性信息对应的至少两个实体组合信息;
基于第一矩阵,对该至少两个实体组合信息进行转换,得到该关系信息与该至少两个属 性信息的相关信息;
该更新模块905用于:
基于该目标损失值,对该第一矩阵进行更新;
基于更新后的该第一矩阵,对该至少两个实体组合信息进行转换,得到更新后的相关信 息;
基于更新后的相关信息,对该实体表示信息进行更新。
在一种可能实现方式中,该相关信息获取模块902用于:
基于该第一矩阵,对该至少两个实体组合信息进行转换,得到该关系信息与该至少两个 属性信息的第一相关信息;
对该第一相关信息进行标准化处理,得到该关系信息与该至少两个属性信息的相关信息。
在一种可能实现方式中,该相关信息获取模块902用于:
基于该第一矩阵,对该至少两个实体组合信息进行转换,得到该关系信息与该至少两个 属性信息的第一相关信息;
对该第一相关信息进行标准化处理,得到第二相关信息;
对该第二相关信息进行归一化处理,得到该关系信息与该至少两个属性信息的相关信息。
在一种可能实现方式中,该表示信息获取模块903用于:
基于至少两个第一属性信息、至少两个第二属性信息以及该关系信息,获取该至少两个 第一属性信息对应的至少两个实体表示分量信息,该第一属性信息为该第一实体的属性信息, 该第二属性信息为该第二实体的属性信息;
基于该关系信息与该至少两个属性信息的相关信息,对该至少两个实体表示分量信息进 行加权,得到该第一实体的实体表示信息。
在一种可能实现方式中,该实体信息获取模块901用于:
从该知识图谱中,提取第一实体信息;
对该知识图谱进行负采样,得到该实体之间关系存在错误的第二实体信息;
该损失获取模块904用于基于该第一实体的实体表示信息、该第一实体信息和该第二实 体信息分别对应的目标权重,获取目标损失值,该目标损失值与该第一实体信息与该第二实 体信息对应实体表示信息的语义合理度差距相关。
在一种可能实现方式中,该损失获取模块904用于:
基于该第一实体的实体表示信息,获取该实体表示信息的语义合理度;
根据该第一实体信息和该第二实体信息分别对应的目标权重,对两种实体信息中实体表 示信息的语义合理度进行加权,得到该目标损失值,该第一实体信息对应的目标权重为正数, 该第二实体信息对应的目标权重为负数。
在一种可能实现方式中,该损失获取模块904用于基于第二矩阵,对该第一实体的实体 表示信息进行转换,得到该实体表示信息的语义合理度。
在一种可能实现方式中,该损失获取模块904用于:
分别获取该第一实体信息和该第二实体信息分别对应的目标权重与对应的语义合理度的 乘积对应的指数;
获取该指数对应的对数之和作为该目标损失值。
在一种可能实现方式中,该对两种实体信息中实体表示信息的语义合理度进行加权得到 的损失值为第一损失值;
该损失获取模块904用于:
获取第二损失值或第三损失值中至少一项,该第二损失值基于该知识图谱中至少两个目 标实体信息对应的相关信息确定,该至少两个目标实体信息中该关系信息相同,该第三损失 值基于该关系信息与该至少两个属性信息的相关信息确定;
基于该第一损失值,以及该第二损失值或第三损失值中至少一项,获取该目标损失值。
在一种可能实现方式中,该损失获取模块904用于:
基于该知识图谱中至少两个目标实体信息对应的相关信息之间的差值,获取第二损失值;
在一种可能实现方式中,该损失获取模块904用于:
获取该至少两个相关信息中最大的目标数量的相关信息之和;
根据该相关信息之和与目标数值,获取第三损失值。
在一种可能实现方式中,该装置还包括:
提取模块,用于响应于功能执行指令,从该知识图谱中,提取目标实体的实体表示信息;
执行模块,用于基于该目标实体的实体表示信息,执行对应的目标功能。
本申请实施例提供的装置,考虑到了实体之间不同的关系与不同属性信息的相关性,比 方说实体之间的关系可能是建立在某些属性信息基础上,又或者说某些属性信息不同时,实 体之间关系可能不同,某些属性信息相同时实体之间关系相同,这样通过解耦合的方式,对 关系信息与每种属性信息的相关性进行分析,能够对实体之间的关系进行更深入挖掘,以此 确定出的实体表示信息能够更好地体现实体之间的关系,有效提高了准确性。
需要说明的是:上述实施例提供的数据处理装置在处理数据时,仅以上述各功能模块的 划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成, 即将数据处理装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。 另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过 程详见方法实施例,这里不再赘述。
上述方法实施例中的电子设备能够实现为终端。例如,图10是本申请实施例提供的一种 终端的结构框图。该终端1000可以是便携式移动终端,比如:智能手机、平板电脑、MP3 (Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、 MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播 放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、 台式终端等其他名称。
通常,终端1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理 器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的 至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对 在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器); 协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器 1001可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需 要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence, 人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非 暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个 磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储 介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本申请中方法 实施例提供的数据处理方法。
在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。 处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围 设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射 频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009 中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设 备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设 备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002 和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此 不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射 频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号 转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004 包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解 码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终 端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络 (2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些 实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有 关的电路,本申请对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图 标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在 显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理 器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮 和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在终端1000的前面板;在另 一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设 计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或 折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005 可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有 机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后 置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些 实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像 头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄 像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。 在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以 是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下 的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波 转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出 于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风 还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004 的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声 器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换 为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插 孔。
定位组件1008用于定位终端1000的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System, 全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、 一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以是有线充电电 池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线 圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010 包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、 光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。 比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可 以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图 进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012可以 与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器 1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍 摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感 器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001 根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置 在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界 面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单 控件中的至少一种。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指 纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出 用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括 解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终 端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时,指纹传感器 1014可以与物理按键或厂商Logo集成在一起。
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传 感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时, 调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一 个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头 组件1006的拍摄参数。
接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016 用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到 用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态 切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时, 由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括 比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述方法实施例中的电子设备能够实现为服务器。例如,图11是本申请实施例提供的一 种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,能够包括 一个或一个以上处理器(Central Processing Units,CPU)1101和一个或一个以上的存储器1102, 其中,该存储器1102中存储有至少一条程序代码,该至少一条程序代码由该处理器1101加 载并执行以实现上述各个方法实施例提供的数据处理方法。当然,该服务器还能够具有有线 或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用 于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的 存储器,上述至少一条程序代码由可由处理器执行以完成上述实施例中的数据处理方法。例 如,计算机可读存储介质能够是只读存储器(Read-Only Memory,简称:ROM)、随机存取 存储器(Random Access Memory,简称:RAM)、只读光盘(Compact Disc Read-OnlyMemory, 简称:CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品或计算机程序,该计算机程序产品或该 计算机程序包括一条或多条程序代码,该一条或多条程序代码存储在计算机可读存储介质中。 电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码,该 一个或多个处理器执行该一条或多条程序代码,使得电子设备能够执行上述数据处理方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先 后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成 任何限定。
应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。
本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成, 也能够通过程序来指令相关的硬件完成,该程序能够存储于一种计算机可读存储介质中,上 述提到的存储介质能够是只读存储器,磁盘或光盘等。
以上描述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种数据处理方法,其特征在于,所述方法包括:
获取知识图谱中的实体信息,所述实体信息包括第一实体和第二实体的至少两个属性信息以及所述第一实体与所述第二实体之间的关系信息;
基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息,获取所述关系信息与所述至少两个属性信息的相关信息;
基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息以及所述相关信息,获取所述第一实体的实体表示信息;
基于所述第一实体的实体表示信息,获取目标损失值,所述目标损失值与实体表示信息的语义合理度相关;
基于所述目标损失值,对所述相关信息和所述实体表示信息进行更新,直至符合目标条件时,得到所述知识图谱中所述第一实体的实体表示信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息,获取所述关系信息与所述至少两个属性信息的相关信息,包括:
对所述第一实体和所述第二实体的至少两个属性信息、所述关系信息进行拼接,得到至少两个属性信息对应的至少两个实体组合信息;
基于第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述至少两个属性信息的相关信息;
所述基于所述目标损失值,对所述相关信息和所述实体表示信息进行更新,包括:
基于所述目标损失值,对所述第一矩阵进行更新;
基于更新后的所述第一矩阵,对所述至少两个实体组合信息进行转换,得到更新后的相关信息;
基于更新后的相关信息,对所述实体表示信息进行更新。
3.根据权利要求2所述的方法,其特征在于,所述基于第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述至少两个属性信息的相关信息,包括:
基于所述第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述至少两个属性信息的第一相关信息;
对所述第一相关信息进行标准化处理,得到所述关系信息与所述至少两个属性信息的相关信息。
4.根据权利要求2所述的方法,其特征在于,所述基于第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述至少两个属性信息的相关信息,包括:
基于所述第一矩阵,对所述至少两个实体组合信息进行转换,得到所述关系信息与所述至少两个属性信息的第一相关信息;
对所述第一相关信息进行标准化处理,得到第二相关信息;
对所述第二相关信息进行归一化处理,得到所述关系信息与所述至少两个属性信息的相关信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息以及所述相关信息,获取所述第一实体的实体表示信息,包括:
基于至少两个第一属性信息、至少两个第二属性信息以及所述关系信息,获取所述至少两个第一属性信息对应的至少两个实体表示分量信息,所述第一属性信息为所述第一实体的属性信息,所述第二属性信息为所述第二实体的属性信息;
基于所述关系信息与所述至少两个属性信息的相关信息,对所述至少两个实体表示分量信息进行加权,得到所述第一实体的实体表示信息。
6.根据权利要求1所述的方法,其特征在于,所述获取知识图谱中的实体信息,包括:
从所述知识图谱中,提取第一实体信息;
对所述知识图谱进行负采样,得到所述实体之间关系存在错误的第二实体信息;
所述基于所述第一实体的实体表示信息,获取目标损失值,包括:
基于所述第一实体的实体表示信息、所述第一实体信息和所述第二实体信息分别对应的目标权重,获取目标损失值,所述目标损失值与所述第一实体信息与所述第二实体信息对应实体表示信息的语义合理度差距相关。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一实体的实体表示信息、所述第一实体信息和所述第二实体信息分别对应的目标权重,获取目标损失值,包括:
基于所述第一实体的实体表示信息,获取所述实体表示信息的语义合理度;
根据所述第一实体信息和所述第二实体信息分别对应的目标权重,对两种实体信息中实体表示信息的语义合理度进行加权,得到所述目标损失值,所述第一实体信息对应的目标权重为正数,所述第二实体信息对应的目标权重为负数。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一实体的实体表示信息,获取所述实体表示信息的语义合理度,包括:
基于第二矩阵,对所述第一实体的实体表示信息进行转换,得到所述实体表示信息的语义合理度。
9.根据权利要求7所述的方法,其特征在于,所述根据所述第一实体信息和所述第二实体信息分别对应的目标权重,对两种实体信息中实体表示信息的语义合理度进行加权,得到所述目标损失值,包括:
分别获取所述第一实体信息和所述第二实体信息分别对应的目标权重与对应的语义合理度的乘积对应的指数;
获取所述指数对应的对数之和作为所述目标损失值。
10.根据权利要求7所述的方法,其特征在于,所述对两种实体信息中实体表示信息的语义合理度进行加权得到的损失值为第一损失值;
所述基于所述第一实体的实体表示信息、所述第一实体信息和所述第二实体信息分别对应的目标权重,获取目标损失值,还包括:
获取第二损失值或第三损失值中至少一项,所述第二损失值基于所述知识图谱中至少两个目标实体信息对应的相关信息确定,所述至少两个目标实体信息中所述关系信息相同,所述第三损失值基于所述关系信息与所述至少两个属性信息的相关信息确定;
基于所述第一损失值,以及所述第二损失值或第三损失值中至少一项,获取所述目标损失值。
11.根据权利要求10所述的方法,其特征在于,所述第二损失值基于所述知识图谱中至少两个目标实体信息对应的相关信息确定,包括:
基于所述知识图谱中至少两个目标实体信息对应的相关信息之间的差值,获取第二损失值;
所述关系信息与所述至少两个属性信息的相关信息为至少两个相关信息;所述第三损失值基于所述关系信息与所述至少两个属性信息的相关信息确定,包括:
获取所述至少两个相关信息中最大的目标数量的相关信息之和;
根据所述相关信息之和与目标数值,获取第三损失值。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于功能执行指令,从所述知识图谱中,提取目标实体的实体表示信息;
基于所述目标实体的实体表示信息,执行对应的目标功能。
13.一种数据处理装置,其特征在于,所述装置包括:
实体信息获取模块,用于获取知识图谱中的实体信息,所述实体信息包括第一实体和第二实体的至少两个属性信息以及所述第一实体与所述第二实体之间的关系信息;
相关信息获取模块,用于基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息,获取所述关系信息与所述至少两个属性信息的相关信息;
表示信息获取模块,用于基于所述第一实体和所述第二实体的至少两个属性信息、所述关系信息以及所述相关信息,获取所述第一实体的实体表示信息;
损失获取模块,用于基于所述第一实体的实体表示信息,获取目标损失值,所述目标损失值与实体表示信息的语义合理度相关;
更新模块,用于基于所述目标损失值,对所述相关信息和所述实体表示信息进行更新,直至符合目标条件时,得到所述知识图谱中所述第一实体的实体表示信息。
14.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的数据处理方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010981924.XA CN112163095A (zh) | 2020-09-17 | 2020-09-17 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010981924.XA CN112163095A (zh) | 2020-09-17 | 2020-09-17 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163095A true CN112163095A (zh) | 2021-01-01 |
Family
ID=73859146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010981924.XA Pending CN112163095A (zh) | 2020-09-17 | 2020-09-17 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163095A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989134A (zh) * | 2021-03-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 节点关系图的处理方法、装置、设备及存储介质 |
CN114116987A (zh) * | 2022-01-26 | 2022-03-01 | 中国电子科技集团公司第五十四研究所 | 一种基于语义化网络的信息交换架构 |
-
2020
- 2020-09-17 CN CN202010981924.XA patent/CN112163095A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989134A (zh) * | 2021-03-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 节点关系图的处理方法、装置、设备及存储介质 |
CN112989134B (zh) * | 2021-03-29 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 节点关系图的处理方法、装置、设备及存储介质 |
CN114116987A (zh) * | 2022-01-26 | 2022-03-01 | 中国电子科技集团公司第五十四研究所 | 一种基于语义化网络的信息交换架构 |
CN114116987B (zh) * | 2022-01-26 | 2022-04-12 | 中国电子科技集团公司第五十四研究所 | 一种基于语义化网络的信息交换系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111298445B (zh) | 目标账号检测方法、装置、电子设备及存储介质 | |
CN111325726A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN111091166B (zh) | 图像处理模型训练方法、图像处理方法、设备及存储介质 | |
CN110852100A (zh) | 关键词提取方法、装置、电子设备及介质 | |
CN111243668B (zh) | 分子结合位点检测方法、装置、电子设备及存储介质 | |
CN112749728A (zh) | 学生模型训练方法、装置、计算机设备及存储介质 | |
CN111930964B (zh) | 内容处理方法、装置、设备及存储介质 | |
CN113610750A (zh) | 对象识别方法、装置、计算机设备及存储介质 | |
CN113392180A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN111598160A (zh) | 图像分类模型的训练方法、装置、计算机设备及存储介质 | |
CN113569042A (zh) | 文本信息分类方法、装置、计算机设备及存储介质 | |
CN113516143A (zh) | 文本图像匹配方法、装置、计算机设备及存储介质 | |
CN113724189A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113821658A (zh) | 对编码器进行训练的方法、装置、设备及存储介质 | |
CN113505256A (zh) | 特征提取网络训练方法、图像处理方法及装置 | |
CN112163095A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115130456A (zh) | 语句解析、匹配模型的训练方法、装置、设备及存储介质 | |
CN113257412B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN112989134B (zh) | 节点关系图的处理方法、装置、设备及存储介质 | |
CN114298123A (zh) | 聚类处理方法、装置、电子设备及可读存储介质 | |
CN113761195A (zh) | 文本分类方法、装置、计算机设备及计算机可读存储介质 | |
CN112037305A (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN113570510A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113569822B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN114328948A (zh) | 文本标准化模型的训练方法、文本标准化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |