CN116910276B - 一种常识知识图谱的存储方法、系统 - Google Patents
一种常识知识图谱的存储方法、系统 Download PDFInfo
- Publication number
- CN116910276B CN116910276B CN202311177003.8A CN202311177003A CN116910276B CN 116910276 B CN116910276 B CN 116910276B CN 202311177003 A CN202311177003 A CN 202311177003A CN 116910276 B CN116910276 B CN 116910276B
- Authority
- CN
- China
- Prior art keywords
- common sense
- knowledge graph
- entities
- similarity
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 230000000877 morphologic effect Effects 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 49
- 230000002776 aggregation Effects 0.000 claims abstract description 32
- 238000004220 aggregation Methods 0.000 claims abstract description 32
- 230000000379 polymerizing effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000006835 compression Effects 0.000 claims description 21
- 238000007906 compression Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 34
- 238000012545 processing Methods 0.000 abstract description 15
- 230000008878 coupling Effects 0.000 abstract description 7
- 238000010168 coupling process Methods 0.000 abstract description 7
- 238000005859 coupling reaction Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 239000002585 base Substances 0.000 description 20
- 230000000694 effects Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000004931 aggregating effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000001976 improved effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000012458 free base Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Abstract
本发明提供一种常识知识图谱的存储方法、系统,涉及知识图谱领域,包括:获取原始常识知识图谱;从原始常识知识图谱中抽取实体和关系;根据实体和关系确定实体之间的语义相似度和词形相似度;利用实体聚合算法对语义相似度和词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱。本发明通过知识图谱存储方法获得三元组的头实体、关系、尾实体,从而产生中间状态的常识知识图谱,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。同时,该预设实体聚合算法可以应用于处理通用领域的知识图谱,不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。
Description
技术领域
本发明涉及知识图谱领域,特别涉及一种常识知识图谱的存储方法、系统、存储介质和电子设备。
背景技术
当前,现有的常识知识库存在包含大量噪音,以及实体关系稀疏的问题,例如ConceptNet知识库中的实体是自然语言短语,以“shoot”和“shooting”为例,二者只是时态的变化,但是会当成两个不同实体。此外还有近似的表达“up there”和“up to there”也会当成两个不同的实体。自然语言短语的表达十分多样化,这些情况导致了知识库中大量本该合并的实体没有合并,从而关系和实体都很稀疏,不利于对图结构的编码。从模型工作机制角度,由于实体关系的稀疏性会出现学习效果不好的情况。
同时,现有的知识图谱嵌入工具包无法直接应用于常识知识库压缩,在实际应用中,几乎学习不到有效的知识图谱嵌入表示。
发明内容
本发明的目的是提供一种常识知识图谱的存储方法、系统、存储介质和电子设备,能够增强常识知识图谱嵌入的学习过程。
为解决上述技术问题,本发明提供一种常识知识图谱的存储方法,具体技术方案如下:
获取原始常识知识图谱;
从所述原始常识知识图谱中抽取实体和关系;
根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;
利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;
将压缩后的所述常识知识图谱存储至数据中心。
其中,从所述原始常识知识图谱中抽取实体和关系包括:
利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示。
其中,利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示包括:
将所述原始常识知识图谱中常识节点输入基于深度自注意力模型的自注意力模型,得到所述常识节点对应的表征向量。
其中,从所述原始常识知识图谱中抽取实体和关系后,还包括:
对所述实体和关系按照预设向量格式进行格式化。
其中,根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度包括:
计算各所述表征向量之间的语义相似度;
计算各所述实体对应字符串之间的词形相似度。
其中,计算各所述表征向量之间的语义相似度包括:
利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。
其中,计算各所述向量表示的词形相似度包括:
利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度:
;
其中,表示杰卡德相似系数,/>表示莱文斯坦距离,σ表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
其中,计算各所述实体对应字符串之间的词形相似度之后,还包括:
利用知识图谱嵌入模型优化所述向量表示。
其中,利用知识图谱嵌入模型优化所述向量表示时,还包括:
在嵌入空间实现;
其中,/>均表示聚合之后的实体集合。
其中,还包括:
对于聚合的所述实体集合,利用实体集合代替所有实体;
对于无需聚合的实体,采用原始实体,以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。
其中,所述知识图谱嵌入模型的优化目标函数为:
其中代表只考虑取值为正的部分,/>为一个大于0的间隔超参数,/>则采用/>范数或/>范数;/>表示训练模型使用的正样本,/>表示训练模型使用的负样本;/>表示头部的统一资源标识符,/>表示尾部的统一资源标识符。
其中,还包括:
通过替换三元组的头实体或尾实体得到所述训练模型使用的负样本。
其中,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:
计算所述莱文斯坦距离的第一时间复杂度。
其中,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:
计算所述杰卡德相似系数的第二时间复杂度。
其中,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:
计算预训练语言模型中矩阵计算的第三时间复杂度。
其中,计算预训练语言模型中矩阵计算的第三时间复杂度之后,还包括:
采用两个哈希表计算近似复杂度,并根据所述第一时间复杂度、所述第二时间复杂度和所述第三时间复杂度确定算法总体复杂度。
其中,利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱之后,还包括:
将知识库转换成资源描述标记语言三元组,并采用数据库部署所述资源描述标记语言三元组。
其中,得到压缩后的常识知识图谱之后,包括:
利用图数据库导入算法存储压缩后的所述常识知识图谱。
其中,利用图数据库导入算法存储压缩后的所述常识知识图谱包括:
利用应用程序编程接口或搭建集群导入压缩后的所述常识知识图谱并存储。
本发明还提供一种常识知识图谱的存储系统,包括:
图谱获取模块,用于获取原始常识知识图谱;
数据抽取模块,用于从所述原始常识知识图谱中抽取实体和关系;
相似度计算模块,用于利用预设实体聚合算法聚合所述实体得到中间态知识图谱;
压缩模块,用于利用预设常识知识压缩算法对所述中间态知识图谱,得到常识知识图谱嵌入表示;
存储模块,用于将压缩后的所述常识知识图谱存储至数据中心。
基于上述实施例,作为可行的实施例,数据抽取模块包括:
向量表示获取单元,用于利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示。
基于上述实施例,作为可行的实施例,在所述数据抽取模块执行完之后,还包括:
格式化模块,用于对所述实体和关系按照预设格式进行格式化。
基于上述实施例,作为可行的实施例,格式化模块包括:
词形相似度计算单元,用于计算各所述实体对应字符串之间的词形相似度。
基于上述实施例,作为可行的实施例,向量表示获取单元包括:
向量表示获取子单元,用于基于深度自注意力模型的自注意力模型获得所述原始常识知识图谱中常识节点的向量表示。
基于上述实施例,作为可行的实施例,词形相似度计算单元包括:
余弦相似度计算子单元,用于利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。
基于上述实施例,作为可行的实施例,词形相似度计算单元包括:
词形相似度确定子单元,用于利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度。
基于上述实施例,作为可行的实施例,词形相似度确定子单元为利用利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度的单元;其中,
;
其中,表示杰卡德相似系数,/>表示莱文斯坦距离,σ表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
基于上述实施例,作为可行的实施例,在所述词形相似度计算单元执行完之后,还包括:
向量表示优化单元,用于利用知识图谱嵌入模型优化所述向量表示。
基于上述实施例,作为可行的实施例,还包括:
第一代替单元,用于对于聚合的所述实体集合,利用实体集合代替所有实体;
第一代替单元,用于对于无需聚合的实体,采用原始实体,以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。
基于上述实施例,作为可行的实施例,所述知识图谱嵌入模型的优化目标函数为:
其中代表只考虑取值为正的部分,/>为一个大于0的间隔超参数,/>则采用/>范数或/>范数;/>表示训练模型使用的正样本,/>表示训练模型使用的负样本;/>表示头部的统一资源标识符,/>表示尾部的统一资源标识符。
基于上述实施例,作为可行的实施例,还包括:
替换单元,用于替换三元组的头实体或尾实体得到所述训练模型使用的负样本。
基于上述实施例,作为可行的实施例,在所述词形相似度确定子单元执行完后,还包括:
第一时间复杂度计算单元,用于计算所述莱文斯坦距离的第一时间复杂度。
基于上述实施例,作为可行的实施例,在所述词形相似度确定子单元执行完后,还包括:
第二时间复杂度计算单元,用于计算所述杰卡德相似系数的第二时间复杂度。
基于上述实施例,作为可行的实施例,在所述词形相似度确定子单元执行完后,还包括:
第三时间复杂度计算单元,用于计算预训练语言模型中矩阵计算的第三时间复杂度。
基于上述实施例,作为可行的实施例,还包括:
算法总体复杂度确定单元,用于采用两个哈希表计算近似复杂度,并根据所述第一时间复杂度、所述第二时间复杂度和所述第三时间复杂度确定算法总体复杂度。
基于上述实施例,作为可行的实施例,还包括:
换成模块,用于将知识库转换成资源描述标记语言三元组,并采用数据库部署所述资源描述标记语言三元组。
基于上述实施例,作为可行的实施例,在相似度计算模块执行完之后,包括:
存储模块,用于利用图数据库导入算法存储压缩后的所述常识知识图谱。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本发明提供一种常识知识图谱的存储方法,包括:获取原始常识知识图谱;从所述原始常识知识图谱中抽取实体和关系;根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;将压缩后的所述常识知识图谱存储至数据中心。
本发明通过知识图谱存储方法获得三元组的头实体、关系、尾实体,从而产生中间状态的常识知识图谱,对原始常识知识图谱中的实体进行聚合,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。通过分析实体之间的语义相似度和词形相似度,能够对较高相似度的实体进行聚合,以压缩常识知识图谱的规模和空间,便于存储数据中心并应用,减少对于数据中心存储空间的占用。
本发明还提供一种常识知识图谱的存储系统、存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种常识知识图谱的存储方法的流程图;
图2为本发明实施例提供的词形相似度曲线图;
图3为本发明实施例提供的常识知识图谱嵌入过程示意图;
图4为本发明实施例提供的当预训练语言模型的语义相似度设定为0.6时对于Hit@10影响示意图;
图5为本发明实施例提供的当预训练语言模型的语义相似度设定为0.7时对于Hit@10影响示意图;
图6为本发明实施例提供的当预训练语言模型的语义相似度设定为0.8时对于Hit@10影响示意图;
图7为本发明实施例所提供的一种常识知识图谱的存储系统结构示意图;
图8为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下文为几种常见的知识图谱;
HowNet是一种中英双语义原知识库。HowNet将单词的意义进一步细分为更小的语义表示单元——义原,其公开版本OpenHowNet。ConceptNet是Open Mind构建的常识知识库,ConceptNet主要描述单词或者短语的常识含义,它的知识来源于专家创建的资源、众包、有目的游戏等。Cyc一种常识知识库和推理系统,Cyc通过本体工程师或知识工程师获取常识知识,他们使用图形用户界面将CycL 语句声明到上下文中,该知识库的公开版本为OpenCyc。WordNet是一种词汇数据库,以分类学为中心,它包含单词、词组、同义词集。WebChild知识库包含细粒度的常识知识,例如细粒度的属性、对象之间的比较关系、事件活动的详细知识。该知识库是基于半监督方法从网页中自动构建,其内容深入到词义级别,包含歧义的名词、形容词的细粒度关系。ATOMIC是一个日常常识推理图谱,构建的语料包含877k与推理相关的文本描述。不同于关注分类学知识的资源,ATOMIC主要以if-then与变量的关系进行推理,例如,“If X赞美Y,then Y可能会赞美X”。
(2)知识图谱嵌入模型TransE、TransR、TransD等。TransE模型,将关系的向量表示解释成头、尾实体向量之间的转移向量,建模h+r≈t关系。此方法高效而简洁取得了不错的效果,然而TransE无法解决1-N的问题。后续,改进模型例如TransR、TransD等进一步取得了效果的提升,但也相应增加了计算量和参数量。
(3)知识图谱嵌入工具包OpenKE。OpenKE工具包集成了多种知识图谱嵌入的学习算法。
(4)国际著名图数据库。图数据库作为知识图谱存储的必备工具引起了广泛关注,图数据库是一种非关系型数据库,以解决现有关系数据库的局限性。图模型明确地列出了数据节点之间的依赖关系,而关系模型和其他NoSQL数据库模型则通过隐式连接来链接数据。
可见,上述已有的常识知识库存在包含大量噪音,以及实体关系稀疏的问题,例如ConceptNet知识库中的实体是自然语言短语,例如“shoot”和“shooting”只是时态的变化,但是会当成两个不同实体,类似的情况会有很多,此外还有近似的表达“up there”和“upto there”也会当成两个不同的实体。自然语言短语的表达十分多样化,这些情况导致了知识库中大量本该合并的实体没有合并,从而关系和实体都很稀疏,不利于对图结构的编码。
同时,知识图谱压缩算法适合在关系稠密的知识图谱上学习嵌入表示,当直接应用于常识知识库,从模型工作机制角度,由于实体关系的稀疏性会出现学习效果不好的情况。
此外,已有的知识图谱嵌入工具包无法直接应用于常识知识库压缩,在实际实验中,几乎学习不到有效的知识图谱嵌入表示。且已有的国际知名图数据库只能采取符号主义的方式存储知识图谱,作为一种数据查询的工具,无法将知识图谱转化为知识图谱嵌入,无法进行语义理解。
为解决上述问题,请参见图1,图1为本发明实施例所提供的一种常识知识图谱的存储方法的流程图,申请提供一种常识知识图谱的存储方法,包括:
S101:获取原始常识知识图谱;
S102:从所述原始常识知识图谱中抽取实体和关系;
S103:根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;
S104:利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;
S105:将压缩后的所述常识知识图谱存储至数据中心。
常识知识图谱主要描述所有人都应该知道的事实,常识知识对于提升人工智能系统的鲁棒性,增强AI对现实世界理解发挥重要作用。常识知识可以帮助机器更好地解决实际任务,也是实现通用人工智系统需要面对的问题。知识表示分为符号主义和联接主义。
知识图谱嵌入旨在将知识图谱中的节点和边转化为通用的低维稠密向量表示,从而便于机器学习系统更好地利用和融合知识。然而,现有的常识知识图谱,例如ConceptNet,存在稀疏连接的问题,无法很好的学习知识图谱嵌入。常识知识的稀疏性主要体现在许多常识性的断言来自于非结构文本,实体是自然语言短语,这导致节点非常分散,降低了知识图谱的连通性。与关系稠密的二分图相比,ConceptNet节点的出度和入度都比较低。本发明能够解决缓解节点分散的问题,提高知识图谱连通性,从而帮助常识知识图谱压缩较为完整的结构信息。
为了提高常识知识图谱的连通性,本发明提出一种语义-形态相似性(Semantic-morphological similarity, SMS)度量方法,用于衡量实体的相似度。SMS基于预训练语言模型(Pre-trained language model, PLM)的实体表示和词形层面的相似度系数。其中,语义相似度来自于预训练语言模型表示,词形相似度来自于实体的字符构成。预训练语言模型通过在大规模语料库上进行自监督学习从而产生对单词或句子的表示。本发明利用预训练语言模型获得实体的向量表示,再进行相似度计算。然而仅仅通过将向量表示相近的实体进行聚合不能完全解决问题,例如不能避免/c/en/apple与/c/en/banana的较高的语义相似性(余弦相似度 0.98),从而导致实体类型的丰富度降低。本发明的目标是在实体聚合与实体丰富性上达到一个平衡,为此本发明引入从实体的词形构成层面衡量形态相似性。
具体的,可以利用预训练语言模型获得常识节点的向量表示。语义相近的短语或者单词得到的表示也相近,便于执行常识节点的聚集。常识知识图谱的实体来自于非结构化文本,常识知识的描述包含不规则的自然语言短语,这导致了常识节点的稀疏性,降低了知识图谱的连通性。知识图谱的稀疏性导致节点学习不充分,从而无法充分捕获到语义信息。本发明提出一种方法通过实体的聚合增强常识知识图谱的连通性,最终增强知识图谱嵌入学习的效果。本发明提出从语义和词形两个角度进行衡量。从语义层面,本发明提出利用预训练语言模型获得常识节点的向量表示。语义相近的短语或者单词得到的表示也相近,具体过程如下
;
其中代表BERT模型,/>代表头实体或尾实体,/>代表实体的表示,代表序列连接操作。在得到向量表示之后基于余弦相似度进行相似度计算。
;
通过语义层面比较虽然能够衡量语义的相似度,但是有些语义相似的实体会出现过度合并的现象,造成实体多样性降低,例如/c/en/apple和/c/en/fruit是概念的上下位关系,也会被聚合为一个实体。本发明目的是在实体聚合与实体丰富性上达到一个平衡,进而提出词形相似性度量。
对于词形相似性度量,比较复杂的字符串比较算法例如Longest CommonSubsequence(LCS)等在大数据背景下的运行效率不够高,并非很好的选择,例如/c/en/team_spirit与/c/en/ teams的词形有明显的差异,但是在学习过程中可以当作一个实体。本发明引入莱文斯坦距离和杰卡德相似系数来缓解实体词形的敏感性,并且综合它们提出一个常识实体词形相似度计算指标。
;
其中代表Jaccard相似度,/>代表莱文斯坦距离,σ代表控制曲率的可调超参数,用于控制莱文斯坦距离的重要性。在此对于σ的值不作限定,本发明将σ设定为10。参见图2,图2为本发明实施例提供的词形相似度曲线图,其中横坐标代表莱文斯坦距离,纵坐标代表得分。不同的曲线反映了σ取不同取值时的情况。其中,σ=10时用曲实线表示,σ=8时用曲点线表示,σ=6时用曲横线表示,σ=4时用曲点横线表示。可知当莱文斯坦距离处于1-5之间时对相似度得分的影响不明显,当莱文斯坦距离大于6开始加大惩罚,实现了预期效果。
本发明通过提出的语义-形态相似度度量方法,可以从两方面进行互补,例如/c/en/box_set与/c/en/sexbot在词形上相似,但是语义上不同,则可以根据预训练语言模型判定为不聚合。
通过词形的相似性度量可以过滤预训练语言模型中过合并的实体,例如/c/en/apple与/c/en/banana的词形差异较大,可对预训练语言模型聚合的实体对进行过滤。同时,词形层面的相似性也可以补充预训练语言模型漏合并的实体。例如,常识知识的实体短语比较灵活,/c/en/up_there与/c/en/up_to_here 通过预训练语言模型计算的余弦相似度较低(0.65),但是词形却很相似,可以通过词形进行合并。为了解决实体词形的相似度度量,本发明提出实体词形相似度指标。该指标综合了莱文斯坦距离和杰卡德相似度两个角度。莱文斯坦距离可以衡量字符串序列的相似程度,但是它对于字符串的长度、字符顺序的差异比较敏感,而杰卡德相似度可以从字符集合的角度来衡量,可以弥补字符串序列差异敏感的问题。通过提出组合的计算指标获得更好的度量效果。通过实体词形与预训练语言模型语义表示的结合,可以实现互为补充的效果。
一方面,知识图谱嵌入模型提供了知识的分布式表征,另一方面,在很多实际场景下知识图谱的符号主义表示提供了知识的关联路径,通过SPARQL提供精准、个性化的知识服务。本发明基于图数据库构建了常识知识图谱。知识图谱规模的增加占据大量存储空间,访问量的增加带来磁盘频繁的查询、更新。海量的常识知识在存储和使用的过程中成本不断增加,知识图谱嵌入、知识图谱的文本数据、图数据库文件系统等与日俱增。为提升知识图谱的使用性能,实现降本增效,本发明将常识知识图谱构建于国产化“透明压缩文件系统”之上,实现从操作系统、硬件架构、芯片设计等方面的软硬件协同优化,取得了较好效果。本发明在ConceptNet知识图谱上进行了实验,在常识知识嵌入表示上取得效果提升。
下文对于预训练语言模型进行说明,可以采用了双向语言模型架构BERT。它的基本组成单位是Transformer模块,其中的多头自注意力机制使得模型可以得到上下文相关的表示,Transformer模块的计算公式描述如下所述:
;
上面的公式描述了缩放点积注意力,其中 Q、K、V 是查询、键、值矩阵。 输入由维数为的查询和键以及维数为/>的值组成。
;
其中是参数矩阵。
上面的公式是子层周围的残差连接,然后进行层归一化。是多头自注意力函数。
;
其中和/>是线性变换。/>是偏差。线性变换在不同位置是相同的,并且它们在层与层之间使用不同的参数。
;
上面的公式是另一层归一化和残差连接。是位置前馈网络。构建完语言模型之后,对模型进行适配于下游任务。
本发明实施例通过知识图谱存储方法获得三元组的实体和关系,头实体、关系、尾实体,并根据语义相似度和词形相似度对实体进行聚合,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。同时,该预设实体聚合算法可以应用于处理通用领域的知识图谱(wikidata、YAGO、Freebase等),不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。
在上述实施例的基础上,还可以采用知识图谱嵌入算法进行模型训练,具体的,可以基于TransE进行改进。TransE提出通过优化知识图谱向量表示,在嵌入空间中实现的空间关系,从而注入知识图谱语义知识。本发明将方法改进为,其中/>,/>均表示聚合之后的实体集合。对于聚合的实体集合,则采用实体集合URI代替所有实体,对于无需聚合的实体,则采用原始的实体。最终让集合中的每个实体都采用与集合相同的实体向量。模型优化的目标函数如下所示:
;
其中代表只考虑取值为正的部分,/>为一个大于0的间隔超参数,/>则采用/>范数或/>范数;/>表示训练模型使用的正样本,/>表示训练模型使用的负样本;/>表示头部的统一资源标识符,/>表示尾部的统一资源标识符。
;
上式中,左半部分代表替换了头实体,右半部分代表替换了尾实体。
常识知识图谱实体语义聚合过程采用预设实体聚合算法,该预设实体聚合算法主要用于对语义相似度和词形相似度均满足的实体进行聚合,聚合后的各实体共享一个ID信息,或者得到一个实体集合。
一种可行的预设实体聚合算法可以如下文算法1所示,下面分析算法的时间复杂度,第2到第11行为一个嵌套循环,用于实体两两比较的过程,占用了主要的计算时间。第4行计算杰卡德距离的复杂度为,第5行计算莱文斯坦距离的复杂度为/>。第7行预训练语言模型中矩阵计算的复杂度为/>,其中ρ为隐状态的维度,k为常数。第12、13行对实体进行聚合,采用两个哈希表可以实现近似/>复杂度的计算过程。因此算法的整体复杂度为/>。在其他实施例中,该算法还可以进一步优化,从而降低复杂度。
算法1:
输入:知识图谱三元组,实体集合/>;
输出:实体聚合的知识图谱;
本发明将ConceptNet知识库转换成RDF三元组的形式,并采用Virtuoso图数据库进行部署。本发明构建的常识知识图谱包含两个不同详细程度的图<ConceptNet-triple>和<ConceptNet-Full>。<ConceptNet-triple>主要包含三元组(h, r, t)集合,用于表示整个知识图谱的结构和主要信息,断言数量为3.3千万,三元组数量为1.3亿。<ConceptNet-Full>包含三元组集合以及其他所有详细描述,包括上下文、知识来源等,断言数量为3.3千万,三元组数量为1.6亿。
RDF全称Resource Description Framework(资源描述框架),是一种数据模型,它提供了一种通用的数据结构来存储图数据。RDF数据单元是三元组(s, p, o),其中s代表subject(主语),p代表predicate(谓语),o代表object(宾语)。RDF的数据结构使其在Semantic Web(语义网)、图数据库等领域应用十分广泛。
知识图谱存储需要利用本体来解释模式,即数据的组织和结构。本发明采用Statement(陈述)的形式来存储常识三元组,利用RdfReification技术将常识单元进行具体化的表示。本体主要用到了RDFS(RDF Schema),用于解释节点的类型、属性、以及节点之间的关系。其中主语、谓语、宾语分别使用rdf:subject、rdf:predicate、rdf:object的属性来描述。对于常识知识的其他描述内容,例如来源、置信度等,采用 rdfs:label 的属性来存储。存储的类型为literal(文字类型)。
本发明实施例通过知识图谱存储方法获得三元组的头实体、关系、尾实体,从而产生中间状态的常识知识图谱,对原始常识知识图谱中的实体进行聚合,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。通过分析实体之间的语义相似度和词形相似度,能够对较高相似度的实体进行聚合,以压缩常识知识图谱的规模和空间。同时,本发明实施例所公开的预设常识知识压缩算法可以应用于处理通用领域的知识图谱,不仅局限于常识知识图谱,也可以应用于通用知识图谱的数据理解的流程之中。
在上述实施例的基础上,以一种透明压缩文件系统是软硬件平台研发的文件系统为例,其可以包含虚拟文件系统接口层、硬件加速层、存储层。在内核态中通过堆叠文件系统方式,无需用户层进行代码修改,实现对用户层数据的透明压缩支持。通过自研的FPGA压缩加速卡,对数据流的压缩计算进行硬件加速,实现端到端2.9GB/S的压缩带宽,大幅提升压缩计算的性能。对文件的元数据和内容进行分别管理,通过空洞存储技术进行变长压缩数据的管理,实现对底层文件系统的兼容与压缩存储。
参见图3,图3为本发明实施例提供的常识知识图谱嵌入过程示意图,给定常识知识图谱,对于上方的常识知识图谱嵌入流程,首先基于实体关系抽取算法从原始的常识知识图谱中抽取出实体和关系并且进行格式化,格式化有助于统一实体的形态标识,便于向量化处理。然后基于本发明提出的实体聚合算法产生尝试知识图谱的中间状态,然后基于提出的常识知识图谱压缩算法,最终得到常识知识图谱嵌入表示。
给定常识知识图谱,对于下方的常识知识图谱存储流程,首先执行RDF数据生成算法将原始的知识图谱转化为图数据库能理解的形式,然后执行图数据库导入算法将RDF数据导入,然后是基于Virtuoso图数据的知识图谱存储,将存储的知识图谱置于透明压缩文件系统之上实现存储空间优化。
以运行环境为Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz(内存256G)&2*1080Ti(11G)以及=深度学习电子设备Intel(R) Xeon(R) Platinum 8362 @ 2.80GHz(内存512G)&8*A100 GPU(80G)为例。
本发明使用的数据集是ConceptNet的5.6.0版本。对于知识图谱存储实验,本发明使用了全部的数据。对于知识图谱嵌入实验的评测环节,本发明通过随机采样的形式构建了两个数据集用于结果评估。其中ConceptNet-100K包含10万个英文三元组,涉及的实体有135,946个,关系有46种。ConceptNet-500K包含50万个英文三元组,涉及的实体有483,424个,关系有47种。本发明按照8:1:1的比例划分训练/开发/测试集。
训练知识图谱嵌入的超参数设定为 batch size=2000, learning rate=1.0,epoch=2000,向量维度为200,优化算法采用Adagrad。本发明采用bert-large-uncased模型产生向量表示。对于训练多语言的常识知识图谱嵌入,则采用bert-base-multilingual-uncased模型进行向量表示。实验的运行环境是浪潮P8000工作站Intel(R) Xeon(R) CPUE5-2640 v4 @ 2.40GHz(内存256G)&2*1080Ti(11G)以及浪潮深度学习电子设备Intel(R)Xeon(R) Platinum 8362 @ 2.80GHz(内存512G)&8*A100 GPU(80G)。
本发明采用正确实体的平均排名(Mean rank,MR)和排名前N的实体中正确实体的比例 (Hits@N)作为评估指标。
本发明基于两个数据集进行了实验评估,表1为不同模型在ConceptNet-100K和ConceptNet-500K上的实验结果,列出了实验结果,其中加粗的数值代表最佳结果,SMS-TransE是本发明提出的方法。从ConceptNet-100K数据集的结果可以看出,原始的知识图谱嵌入方法学习效果不佳,因为知识图谱的实体和关系非常稀疏,学习比较困难。本发明提出的SMS-TransE方法将在Hits@10(Raw)将指标提升了6.19%。
从ConceptNet-500K数据集的结果可以看出,随着知识图谱三元组的增加,TransE、TransH、TransD方法的结果比在ConceptNet-100K上的表现得到了提升,而RESCAL、HoIE的结果略有下降,说明后两种方法较难处理稀疏的知识图谱。本发明提出的SMS-TransE取得12%的效果提升。这说明提出的方法在稀疏的知识图谱上能够取得较大的提升。实验表明知识图谱嵌入算法对于常识知识图谱嵌入的学习仍存在较大的提升空间。
表1不同模型在ConceptNet-100K和ConceptNet-500K上的实验结果
下文对预训练语言模型作用进行分析说明:
语义相似度在实体聚合中发挥了重要作用。需要说明的是,当PLM的语义相似度设定不同阈值时对于Hit@10具有不同影响。本实验搜索了0.8-0.95的语义相似度,根据结果可以发现,随着PLM的相似度阈值的提升Hit@10结果会进一步下降。不同的图片代表不同的词形相似度,图4为本发明实施例提供的当预训练语言模型的语义相似度设定为0.6时对于Hit@10影响示意图,图5为本发明实施例提供的当预训练语言模型的语义相似度设定为0.7时对于Hit@10影响示意图,图6为本发明实施例提供的当预训练语言模型的语义相似度设定为0.8时对于Hit@10影响示意图,其中横坐标均代表语义相似度阈值,纵坐标均代表Hit@10比例。由图4至图6可以看出,实验结果说明语义相似度阈值的较低时,知识图谱嵌入效果比较好。当词形相似度设定高于0.8时对语义相似度的作用形成了限制。实验结果表明随着可聚合实体的增加,可以提升知识图谱嵌入表示的效果。
同时,经实验证明,实验结果表明随着词形相似度阈值的增加,知识图谱嵌入的效果会逐渐下降。设定不同的语义相似度阈值,对最终结果的影响比较均匀。
本发明基于Virtuoso图数据库进行了知识图谱的服务器存储实验。实验结果表明从原始的占用31.3GB存储空间减小到8.7GB,存储空间仅为原始的27.8%。
本发明进一步分析了知识图谱查询的耗时,分别执行了10次大规模实体关联查询。原型系统代表直接将Virtuoso图数据库部署在服务器上,通过本发明将Virtuoso图数据库构建于透明压缩文件系统之上。实验结果显示原型系统的平均耗时是17.5s,本发明方法的平均耗时是14.3s,即本发明的方法将查询速度提升了18%。
综上,本发明提出一种常识知识图谱实体聚合方法,用于增强常识知识图谱嵌入的学习过程,在此过程中本发明采用了一种语义-形态相似性度量方法,用于度量常识知识图谱中实体的相似性。本发明提出的方法取得常识知识图谱嵌入效果的明显提升,在实验数据集的评价指标上提升超过12%。此外,若将常识知识图谱构建于国产化透明文件存储系统之上,能够实现知识图谱服务的软硬件协同优化。
本发明中的语义-形态相似性实体聚合算法可以应用于处理通用领域的知识图谱(wikidata、YAGO、Freebase等),不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。
本发明的知识图谱嵌入训练系统可应用于数据中心知识图谱存储优化的需求,解决大规模知识图谱的存储压缩优化问题。本发明在使用时支持通用的处理器和GPU解决方案,无需对数据中心的服务器硬件进行调整,大大降低了模型训练的成本和新业务开发、维护的周期。
下面对本发明实施例提供的一种常识知识图谱的存储系统进行介绍,下文描述的存储系统与上文描述的常识知识图谱的存储方法可相互对应参照。
参见图7,图7为本发明实施例所提供的一种常识知识图谱的存储系统结构示意图本发明还提供一种常识知识图谱的存储系统,包括:
图谱获取模块,用于获取原始常识知识图谱;
数据抽取模块,用于从所述原始常识知识图谱中抽取实体和关系;
相似度计算模块,用于根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;
压缩模块,用于利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;
存储模块,用于将压缩后的所述常识知识图谱存储至数据中心。
本发明实施例通过应用图谱获取模块、数据抽取模块、相似度计算模块和压缩模块,在获得三元组的头实体、关系、尾实体后,根据语义像素点和词形相似度对原始常识知识图谱中的实体进行聚合,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。通过分析实体之间的语义相似度和词形相似度,能够对较高相似度的实体进行聚合,以压缩常识知识图谱的规模和空间。同时,该预设常识知识压缩算法可以应用于处理通用领域的知识图谱,不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。
基于上述实施例,作为可行的实施例,数据抽取模块包括:
向量表示获取单元,用于利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示。
基于上述实施例,作为可行的实施例,在所述数据抽取模块执行完之后,还包括:
格式化模块,用于对所述实体和关系按照预设格式进行格式化。
基于上述实施例,作为可行的实施例,格式化模块包括:
词形相似度计算单元,用于计算各所述实体对应字符串之间的词形相似度。
基于上述实施例,作为可行的实施例,向量表示获取单元包括:
向量表示获取子单元,用于基于深度自注意力模型的自注意力模型获得所述原始常识知识图谱中常识节点的向量表示。
基于上述实施例,作为可行的实施例,词形相似度计算单元包括:
余弦相似度计算子单元,用于利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。
基于上述实施例,作为可行的实施例,词形相似度计算单元包括:
词形相似度确定子单元,用于利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度。
基于上述实施例,作为可行的实施例,词形相似度确定子单元为利用利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度的单元;其中,
;
其中,表示杰卡德相似系数,/>表示莱文斯坦距离,σ表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
基于上述实施例,作为可行的实施例,在所述词形相似度计算单元执行完之后,还包括:
向量表示优化单元,用于利用知识图谱嵌入模型优化所述向量表示。
基于上述实施例,作为可行的实施例,还包括:
第一代替单元,用于对于聚合的所述实体集合,利用实体集合代替所有实体;
第一代替单元,用于对于无需聚合的实体,采用原始实体,以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。
基于上述实施例,作为可行的实施例,所述知识图谱嵌入模型的优化目标函数为:
其中代表只考虑取值为正的部分,/>为一个大于0的间隔超参数,/>则采用/>范数或/>范数;/>表示训练模型使用的负样本。
基于上述实施例,作为可行的实施例,还包括:
替换单元,用于替换三元组的头实体或尾实体得到所述训练模型使用的负样本。
基于上述实施例,作为可行的实施例,在所述词形相似度确定子单元执行完后,还包括:
第一时间复杂度计算单元,用于计算所述莱文斯坦距离的第一时间复杂度。
基于上述实施例,作为可行的实施例,还包括:
第二时间复杂度计算单元,用于计算所述杰卡德相似系数的第二时间复杂度。
基于上述实施例,作为可行的实施例,在所述词形相似度确定子单元执行完后,还包括:
第三时间复杂度计算单元,用于计算预训练语言模型中矩阵计算的第三时间复杂度。
基于上述实施例,作为可行的实施例,还包括:
算法总体复杂度确定单元,用于采用两个哈希表计算近似复杂度,并根据所述第一时间复杂度、所述第二时间复杂度和所述第三时间复杂度确定算法总体复杂度。
基于上述实施例,作为可行的实施例,还包括:
换成模块,用于将知识库转换成资源描述标记语言三元组,并采用数据库部署所述资源描述标记语言三元组。
基于上述实施例,作为可行的实施例,还包括:
存储模块,用于利用图数据库导入算法存储压缩后的所述常识知识图谱。
本发明还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory ,ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的计算机可读存储介质,其中计算机程序被执行时,能够通过知识图谱存储方法获得三元组的头实体、关系、尾实体,从而产生中间状态的常识知识图谱,对原始常识知识图谱中的实体进行聚合,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。同时,该预设常识知识压缩算法可以应用于处理通用领域的知识图谱,不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。
本发明还提供了一种电子设备,参见图8,本发明实施例提供的一种电子设备的结构图,如图8所示,可以包括处理器1410和存储器1420。
其中,处理器1410可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1410可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1410也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1410可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1410还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1420可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1420还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器1420至少用于存储以下计算机程序1421,其中,该计算机程序被处理器1410加载并执行之后,能够实现前述任一实施例公开的由电子设备侧执行常识知识图谱的存储方法中的相关步骤。另外,存储器1420所存储的资源还可以包括操作系统1422和数据1423等,存储方式可以是短暂存储或者永久存储。其中,操作系统1422可以包括Windows、Linux、Android等。
在一些实施例中,电子设备还可包括有显示屏1430、输入输出接口1440、通信接口1450、传感器1460、电源1470以及通信总线1480。
当然,图8所示的电子设备的结构并不构成对本发明实施例中电子设备的限定,在实际应用中电子设备可以包括比图8所示的更多或更少的部件,或者组合某些部件。
本发明实施例提供的电子设备,其中计算机程序被执行时,能够通过知识图谱存储方法获得三元组的头实体、关系、尾实体,从而产生中间状态的常识知识图谱,对原始常识知识图谱中的实体进行聚合,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。同时,该预设常识知识压缩算法可以应用于处理通用领域的知识图谱,不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (18)
1.一种常识知识图谱的存储方法,其特征在于,包括:
获取原始常识知识图谱;
从所述原始常识知识图谱中抽取实体和关系;
根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;
利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;
将压缩后的所述常识知识图谱存储至数据中心;
其中,从所述原始常识知识图谱中抽取实体和关系包括:
利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示;所述向量表示为包含所述实体和所述关系的向量表达式;
利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示包括:
将所述原始常识知识图谱中常识节点输入基于深度自注意力模型的自注意力模型,得到所述常识节点对应的表征向量;
根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度包括:
计算各所述表征向量之间的语义相似度;
计算各所述实体对应字符串之间的词形相似度;
其中,计算各所述实体对应字符串之间的词形相似度包括:
利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度:
;
其中,表示所述杰卡德相似系数,/>表示所述莱文斯坦距离,/>表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
2.根据权利要求1所述的存储方法,其特征在于,从所述原始常识知识图谱中抽取实体和关系后,还包括:
对所述实体和关系按照预设向量格式进行格式化。
3.根据权利要求1所述的存储方法,其特征在于,计算各所述表征向量之间的语义相似度包括:
利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。
4.根据权利要求1所述的存储方法,其特征在于,计算各所述实体对应字符串之间的词形相似度之后,还包括:
利用知识图谱嵌入模型优化所述向量表示。
5.根据权利要求4所述的存储方法,其特征在于,利用知识图谱嵌入模型优化所述向量表示时,还包括:
在嵌入空间实现;
其中,r表示关系,,/>均表示聚合之后的实体集合。
6.根据权利要求5所述的存储方法,其特征在于,还包括:
对于聚合的所述实体集合,利用实体集合代替所有实体;
对于无需聚合的实体,采用原始实体,以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。
7.根据权利要求4所述的存储方法,其特征在于,所述知识图谱嵌入模型的优化目标函数为:
;
其中代表只考虑取值为正的部分,/>为一个大于0的间隔超参数,/>则采用范数或/>范数;/>表示训练模型使用的正样本,/>表示训练模型使用的负样本;/>表示头部的统一资源标识符,/>表示尾部的统一资源标识符,r表示关系,/>,/>均表示聚合之后的实体集合。
8.根据权利要求4所述的存储方法,其特征在于,还包括:
通过替换三元组的头实体或尾实体得到训练模型使用的负样本。
9.根据权利要求1所述的存储方法,其特征在于,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:
计算所述莱文斯坦距离的第一时间复杂度。
10.根据权利要求9所述的存储方法,其特征在于,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:
计算所述杰卡德相似系数的第二时间复杂度。
11.根据权利要求10所述的存储方法,其特征在于,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:
计算预训练语言模型中矩阵计算的第三时间复杂度。
12.根据权利要求11所述的存储方法,其特征在于,计算预训练语言模型中矩阵计算的第三时间复杂度之后,还包括:
采用两个哈希表计算近似复杂度,并根据所述第一时间复杂度、所述第二时间复杂度和所述第三时间复杂度确定算法总体复杂度。
13.根据权利要求1所述的存储方法,其特征在于,利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱之后,还包括:
将知识库转换成资源描述标记语言三元组,并采用数据库部署所述资源描述标记语言三元组。
14.根据权利要求1所述的存储方法,其特征在于,得到压缩后的常识知识图谱之后,包括:
利用图数据库导入算法存储压缩后的所述常识知识图谱。
15.根据权利要求14所述的存储方法,其特征在于,利用图数据库导入算法存储压缩后的所述常识知识图谱包括:
利用应用程序编程接口或搭建集群导入压缩后的所述常识知识图谱并存储。
16.一种常识知识图谱的存储系统,其特征在于,包括:
图谱获取模块,用于获取原始常识知识图谱;
数据抽取模块,用于从所述原始常识知识图谱中抽取实体和关系;
相似度计算模块,用于根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;
压缩模块,用于利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;
存储模块,用于将压缩后的所述常识知识图谱存储至数据中心;
其中,从所述原始常识知识图谱中抽取实体和关系包括:
利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示;所述向量表示为包含所述实体和所述关系的向量表达式;
利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示包括:
将所述原始常识知识图谱中常识节点输入基于深度自注意力模型的自注意力模型,得到所述常识节点对应的表征向量;
根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度包括:
计算各所述表征向量之间的语义相似度;
计算各所述实体对应字符串之间的词形相似度;
其中,计算各所述实体对应字符串之间的词形相似度包括:
利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度:
;
其中,表示所述杰卡德相似系数,/>表示所述莱文斯坦距离,/>表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-15任一项所述的常识知识图谱的存储方法的步骤。
18.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-15任一项所述的常识知识图谱的存储方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311177003.8A CN116910276B (zh) | 2023-09-13 | 2023-09-13 | 一种常识知识图谱的存储方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311177003.8A CN116910276B (zh) | 2023-09-13 | 2023-09-13 | 一种常识知识图谱的存储方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910276A CN116910276A (zh) | 2023-10-20 |
CN116910276B true CN116910276B (zh) | 2024-01-23 |
Family
ID=88358811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311177003.8A Active CN116910276B (zh) | 2023-09-13 | 2023-09-13 | 一种常识知识图谱的存储方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910276B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177075A (zh) * | 2011-12-30 | 2013-06-26 | 微软公司 | 基于知识的实体检测和消歧 |
WO2019050968A1 (en) * | 2017-09-05 | 2019-03-14 | Forgeai, Inc. | METHODS, APPARATUS, AND SYSTEMS FOR TRANSFORMING UNSTRUCTURED NATURAL LANGUAGE INFORMATION IN TO COMPUTER-PROCESSED STRUCTURED DATA |
CN111813962A (zh) * | 2020-09-07 | 2020-10-23 | 北京富通东方科技有限公司 | 一种用于知识图谱融合的实体相似度计算方法 |
CN113535977A (zh) * | 2021-07-13 | 2021-10-22 | 泰康保险集团股份有限公司 | 一种知识图谱融合方法和装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038183B (zh) * | 2017-12-08 | 2020-11-24 | 北京百度网讯科技有限公司 | 结构化实体收录方法、装置、服务器和存储介质 |
-
2023
- 2023-09-13 CN CN202311177003.8A patent/CN116910276B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177075A (zh) * | 2011-12-30 | 2013-06-26 | 微软公司 | 基于知识的实体检测和消歧 |
WO2019050968A1 (en) * | 2017-09-05 | 2019-03-14 | Forgeai, Inc. | METHODS, APPARATUS, AND SYSTEMS FOR TRANSFORMING UNSTRUCTURED NATURAL LANGUAGE INFORMATION IN TO COMPUTER-PROCESSED STRUCTURED DATA |
CN111813962A (zh) * | 2020-09-07 | 2020-10-23 | 北京富通东方科技有限公司 | 一种用于知识图谱融合的实体相似度计算方法 |
CN113535977A (zh) * | 2021-07-13 | 2021-10-22 | 泰康保险集团股份有限公司 | 一种知识图谱融合方法和装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116910276A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160564B (zh) | 一种基于特征张量的中文知识图谱表示学习方法 | |
US11410031B2 (en) | Dynamic updating of a word embedding model | |
CN108549634A (zh) | 一种中文专利文本相似度计算方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN107608953B (zh) | 一种基于不定长上下文的词向量生成方法 | |
Nie et al. | Knowledge graph embedding via reasoning over entities, relations, and text | |
US20220058222A1 (en) | Method and apparatus of processing information, method and apparatus of recommending information, electronic device, and storage medium | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
WO2022241913A1 (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
WO2023137924A1 (zh) | 模型的训练方法和装置、计算机设备、存储介质 | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN111581364A (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN112801217B (zh) | 文本相似度判断方法、装置、电子设备以及可读存储介质 | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 | |
CN116910276B (zh) | 一种常识知识图谱的存储方法、系统 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
WO2022262632A1 (zh) | 网页搜索方法、装置及存储介质 | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
Xiao et al. | Research on multimodal emotion analysis algorithm based on deep learning | |
CN114780738A (zh) | 基于不同应用场景的医学影像检查项目名称标准化方法及系统 | |
Guo et al. | Developing a clustering structure with consideration of cross-domain text classification based on deep sparse auto-encoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |