CN115905575A - 语义知识图谱的构建方法、电子设备和存储介质 - Google Patents
语义知识图谱的构建方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115905575A CN115905575A CN202310024017.XA CN202310024017A CN115905575A CN 115905575 A CN115905575 A CN 115905575A CN 202310024017 A CN202310024017 A CN 202310024017A CN 115905575 A CN115905575 A CN 115905575A
- Authority
- CN
- China
- Prior art keywords
- entity
- seed
- entities
- word vector
- vector model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 239000010410 layer Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000009411 base construction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种语义知识图谱的构建方法、电子设备和存储介质。在该方法中,获取词向量模型和对应目标领域的种子实体集;针对种子实体集中的各个种子实体,基于词向量模型确定与各个种子实体之间的语义相似度满足预设相似度条件的目标词向量,以得到各个种子实体的候选实体;基于候选实体,确定针对种子实体的关联实体;根据语义相似度,为种子实体与关联实体之间配置边连接关系;基于各个种子实体与所确定的相应的关联实体和边连接关系,构建对应目标领域的语义知识图谱。由此,以种子实体为基础,从词向量模型中自动拓展针对种子实体的关联实体并提取关系,实现自动构建特定领域的语义知识图谱。
Description
技术领域
本发明属于知识图谱技术领域,尤其涉及一种语义知识图谱的构建方法、电子设备和存储介质。
背景技术
知识图谱的构建对于智能对话知识性问题的理解与准确回答有着极大的作用,因此,如何快速有效的从大量的规则和不规则数据中挖掘出有价值的知识信息,成为构建知识图谱的关键。
目前,在构建知识图谱时,一般需要严格地定义知识图谱的模式或者采用深度学习方法构建知识图谱。
在严格地定义知识图谱的模式中,包括概念、关系的类型等,严格的知识图谱模式定义能够更明确地表达知识图谱中知识的语义,也能够支持更复杂的推理。然而,定义严格的知识图谱模式是一个非常困难的工作,并且知识图谱模式的定义成本通常非常高。尤其是,在专业领域中,通常需要业务专家结合业务场景反复讨论制定,而且因为领域缺乏标准,经常会出现图谱模式定义不一致的问题。因此,模式定义这种严格、高成本的知识图谱智能构建方法很难在实际的应用场景中实现。
在采用深度学习方法构建知识图谱的方式中,采用基于预训练语言模型并进行微调训练;对于知识图谱中实体、关系等的抽取,需要为不同类别的实体或关系构建对应的语料并训练模型。虽然采用预训练语言模型能够降低训练语料的规模,但其通常也需要数百、数千级别的语料,当抽取的实体、关系类别比较多时,语料标注的工作量仍然非常高。
在本发明的发明人实践本发明的过程中发现:在语义搜索、智能推荐、知识问答等常见的实际应用场景中,通常并不要求有严格的知识图谱模式,语义关联、语义相似已然能够支撑其最重要的语义计算能力。
发明内容
本发明实施例提供一种语义知识图谱的构建方法、电子设备和存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语义知识图谱的构建方法,包括:获取词向量模型和目标领域的种子实体集;针对所述种子实体集中的各个种子实体,分别执行实体拓展操作,具体包括:针对所述种子实体集中的各个种子实体,分别执行关联实体拓展操作,具体包括:基于所述词向量模型确定与所述各个种子实体之间的语义相似度满足预设相似度条件的目标词向量,以得到所述各个种子实体的候选实体;基于所述候选实体,确定所述各个种子实体对应的关联实体;根据所述各个种子实体与所述对应的关联实体之间的语义相似度,为所述各个种子实体、与所述各个种子实体对应的关联实体之间配置边连接关系;其中,所述语义相似度用于量化所述边连接关系的关联度;基于所述各个种子实体、所述各个种子实体对应的关联实体、以及所述边连接关系,构建所述目标领域的语义知识图谱。
第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述方法的步骤。
本发明实施例的有益效果在于:
通过词向量模型和特定领域的种子实体集,以种子实体为基础,从词向量模型中自动拓展针对种子实体的关联实体并提取关系,以及基于词向量模型计算种子实体与关联实体之间的语义相似度,利用语义相似度对边连接关系的关联度进行量化,实现自动构建特定领域的语义知识图谱,所构建的语义知识图谱弱化了实体的概念类型及关系类型,能够满足语义关联计算的各种业务应用场景的需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据目前相关技术中严格类型的知识图谱的示意图;
图2示出了适于应用在本发明实施例的简易类型的语义知识图谱的示意图;
图3示出了根据本发明实施例的语义知识图谱的构建方法的一示例的流程图;
图4示出了根据本发明实施例的基于候选实体确定关联实体的一示例的流程图;
图5示出了根据本发明实施例的语义知识图谱的构建方法的另一示例的流程图;
图6示出了从通用预训练模型中抽取实体及关系的过程的流程图;
图7A示出了适于应用本发明实施例的语义知识图谱的构建方法的终端设备的第一示例的操作界面示意图;
图7B示出了适于应用本发明实施例的语义知识图谱的构建方法的终端设备的第二示例的操作界面示意图;
图7C示出了适于应用本发明实施例的语义知识图谱的构建方法的终端设备的第三示例的操作界面示意图;
图7D示出了适于应用本发明实施例的语义知识图谱的构建方法的终端设备的第四示例的操作界面示意图;
图8为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、 “系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/ 或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/ 或线程中,并且元件可以在一台计算机上本地化和/ 或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/ 或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/ 或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了根据目前相关技术中严格类型的知识图谱的示意图。
如图1所示,该知识图谱由多个实体和多个边连接所构成的,这里,图1中的方形框表示公司实体,图1中的圆形框表示自然人实体,不同实体之间的边连接可以用于表示在不同实体之间的关联属性。
这里,知识图谱中的边连接所表示的关联属性可以包括实体关联关系,例如,实体关联关系可包括在图1中的诸如“股东”、“法人代表”、“对外投资”的工商关系,诸如“借贷”的历史金融行为关系,以及诸如“亲属”、“好友”的亲友关系等。
然而,如图1所示的严格类型的知识图谱需要严格定义知识图谱的概念、关系的类型等,而定义知识图谱模式的成本通常非常高,导致针对严格类型的知识图谱的智能构建难以实现。
图2示出了适于应用在本发明实施例的简易类型的语义知识图谱的示意图。
如图2所示,语义知识图谱中的各个圆形框分别指示语义实体节点,用于表示相应的语义术语,不同实体之间的边连接可以用于表示在不同语义术语之间存在关联,边连接上的数值用于表示相连接的语义术语所对应的关联度。通过语义知识图谱能较佳地表达不同术语之间的关联度,例如,适于表达不同术语“李白”、“唐朝”和“诗人”之间的关系和相应的预测关系值,例如,关联度为0.6或0.8。
需说明的是,虽然语义知识图谱属于简易类型的知识图谱,即未严格区分实体的概念类别及关系的类别,但依然能够较佳地在语义搜索、智能推荐、知识问答等常用语义场景中适用,具备较佳的市场应用前景。
图3示出了根据本发明实施例的语义知识图谱的构建方法的一示例的流程图。
如图3所示,在步骤310中,获取词向量模型和目标领域的种子实体集。
这里,词向量模型可以采用由第三方平台提供的开放式的通用词向量模型,目标领域可以表示期望对所智能构建的知识图谱进行应用的业务领域,种子实体可以表示待应用的业务领域中的常见术语或通用术语。
在一些情况下,可以直接利用词典、术语库等基础知识库来构建目标领域的种子实体集。在一些实施方式中,还可以通过人工构建的方式去选定种子实体,由于种子实体集中对种子实体的数量不要求太多,例如,选在100个左右即可,故通过人工构建的方式也不会浪费过多的成本。
另外,还可以通过智能化的方式来确定种子实体。具体地,获取目标领域的目标领域语料和词向量模型的词汇表,进而统计词汇表中的各个词汇在目标领域语料中的出现次数,根据出现次数的排序靠前的预设数量个词汇,确定种子实体集。示例性地,首先统计预训练的词向量模型的词汇表在目标领域语料中的出现次数,然后选取出现次数排名靠前100的词汇作为种子实体。由此,通过使用预训练的词向量模型的词汇表与目标领域语料进行匹配统计,来自动抓取目标领域的种子实体集。
在步骤320中,针对种子实体集中的各个种子实体,分别执行关联实体拓展操作,以确定各个种子实体所对应的关联实体和边连接关系。
通过针对每一个种子实体执行关联实体拓展操作,实现以种子实体为起点,从词向量模型中自动拓展针对种子实体的关联实体并提取关系。具体的关联实体拓展操作步骤如下:
在步骤3210中,基于词向量模型确定与种子实体之间的语义相似度满足预设相似度条件的目标词向量,以得到针对种子实体的候选实体。这里,词向量模型可以是基于特定的词汇表而进行构建的。
示例性地,基于词向量模型计算种子实体相对于词向量模型的词汇表中的各个词汇之间的语义距离或语义相似度,并将词汇表中相对于种子实体具有语义相似度大于特定阈值的词向量作为确定目标词向量,以作为候选实体。在一些业务应用场景中,词向量模型可以是从海量文档中得到的直接语义关联关系,使其具备较强的通用性。
在步骤3220中,基于候选实体,确定针对种子实体的关联实体。示例性地,可以基于预设的图谱实体条件对候选实体进行验证,候选实体需要满足预设图谱实体条件才能作为关联实体。这里,预设的图谱实体条件可以是根据实际业务需求而进行设计或调整的,以支持个性化的图谱实体筛选方案,例如实体术语需要在此领域中具备一定的词条热度。此外,在一些示例中,还可以基于预设的图谱实体筛选条件完成对重复候选实体的合并。
在步骤3230中,根据语义相似度,为种子实体与关联实体之间配置边连接关系。这里,语义相似度用于量化边连接关系的关联度,用于对语义知识图谱中的实体节点之间的语义关联关系的紧密度进行量化。
在步骤330中,基于各个种子实体与所确定的相应的关联实体和边连接关系,构建对应目标领域的语义知识图谱。
通过本发明实施例,以种子实体为基础,从词向量模型中自动挖掘和拓展针对种子实体的关联实体并提取关系,将拓展得到的关联实体与种子实体的语义相似关系作为边连接关系,利用语义相似度作为边连接关系的相似度值属性,完成对语义知识图谱的智能化构建。
在本发明实施例中,针对当前面向语义搜索、智能推荐、知识问答等场景的知识图谱构建方法的不足,提供一种能够适用于语义场景的知识简易图谱建模方式,简化知识图谱模式的同时能够支撑上述应用场景的语义计算要求。此外,实现从词向量模型中快速抽取得到实体与关联关系,而不依赖于大规模的语料标注然后定向训练知识抽取模型,并从大规模的文档中自动训练词向量模型并基于其抽取关联关系,从而进一步提升在领域场景中关联关系的准确性。
图4示出了根据本发明实施例的基于候选实体确定关联实体的一示例的流程图。
如图4所示,在步骤410中,将种子实体集中各个种子实体所对应的候选实体进行汇总,以得到相应的候选实体列表。
在步骤420中,检测候选实体列表中是否存在重复的候选实体。
在步骤430中,当存在重复的候选实体时,针对候选实体列表中存在重复的各个候选实体进行合并处理。
由此,将各个种子实体所对应的一个或多个候选实体进行汇总,检测重复的候选实体,并进行去重合并处理,以避免重复候选实体对后续知识图谱构建时的资源消耗。
在步骤440中,当不存在重复的候选实体时,统计候选实体在目标领域语料中的出现频次,并将出现频次与预设的次数阈值进行比较。这里,次数阈值可以是根据业务需求而进行设置或调整的,以表达入选知识图谱的实体术语所应有的词条热度。
在步骤451中,如果出现频次小于或等于次数阈值,则筛除候选实体。
在步骤453中,如果出现频次大于次数阈值,则确定将候选实体作为种子实体的关联实体。
由此,统计候选实体在领域语料中出现的次数,如果次数满足条件,则作为确定的关联实体,使得入选图谱的词汇实体是在本领域中具备一定热度的,也避免了冷门或常用术语成为知识图谱实体,保障了所智能构建的领域知识图谱的高质量。
关于上述步骤330,在一些可选的实施方式中,可以通过以下方式来执行:根据所确定的关联实体对种子实体集进行更新,并针对新添加的种子实体迭代执行关联实体拓展操作,以迭代确定与关联实体相关联的实体和相应的边连接关系;基于各个种子实体与所确定的相应的关联实体和边连接关系,以及所迭代确定的与所述关联实体相关联的实体和相应的边连接关系,构建对应所述目标领域的语义知识图谱。
由此,以种子实体为基础,从词向量模型中自动拓展针对种子实体的关联实体,并将关联实体作为新的种子实体,以迭代执行关联实体拓展操作,逐层递进并挖掘实体及关系,保障最终所智能生成的语义知识图谱的全面性和完整性。
关于词向量模型的具体选型,一方面,词向量模型可以采用通用词向量模型,基于通用词向量模型抽取实体及关系。这里,通用领域词向量模型通常是从海量的互联网开源文本数据中进行训练得到的,目前存在很多可用的互联网公司开源的通用词向量模型。另一方面,词向量模型可以采用基于目标领域语料而训练优化的领域词向量模型。由于通用词向量模型与领域词向量模型之间的语料倾斜或缺失等因素,使得二者在目标领域场景中所输出的语义关联关系通常会存在一定的差异。进一步地,词向量模型还可以同时选用通用词向量模型和领域词向量模型,分别从通用词向量模型和领域词向量模型中自动拓展针对种子实体的关联实体并提取关系,将二个模型所提取的关联实体及关系进行融合,更能保障所构建的知识图谱的全面性。
一方面,针对通用词向量模型和领域词向量模型所输出的不同实体部分,直接将不同的实体进行融合,实现对知识图谱的补充。另一方面,针对通用词向量模型和领域词向量模型所输出的相同实体部分,在为种子实体与关联实体之间配置边连接关系时,还可以综合考虑词向量模型和领域词向量模型的输出结果。具体地,获取由通用词向量模型所确定的第一语义相似度和由领域词向量模型所确定的第二语义相似度;基于第一语义相似度和第二语义相似度,为种子实体与关联实体之间配置边连接关系。由此,实现对单模型输出结果的补偿,提升对所构建的知识图谱的边连接关系的高精确度。
具体地,可以按照预设的通用词向量模型相对于领域词向量模型的权重系数配置将第一语义相似度和第二语义相似度进行加权计算,得到相应的加权语义相似度。根据加权语义相似度,为种子实体与关联实体之间配置边连接关系。需说明的是,权重系数配置可以是根据业务需求或语料资源而进行配置的,例如当目标领域语料足够大时,则可以进一步提升领域词向量模型所对应的权重系数。
图5示出了根据本发明实施例的语义知识图谱的构建方法的一示例的流程图。
如图5所示,在步骤510中,知识图谱的快速建模。与通常的定义严格的知识图谱模式不同,本发明实施例中提出采用简易的知识图谱模式,不严格区分实体的概念类别及关系的类别,即仅一种通用类别的概念和被称为“语义关联”的关系类别。由于本发明实施例构建的知识图谱主要应用于语义搜索、智能推荐、知识问答等场景,这些场景需要知识图谱的最重要的语义计算能力为语义相似度计算,而“语义关联”关系正好满足其要求,因此采用简易的知识图谱(如图2所示)就基本能够满足前述的场景。
在步骤520中,种子实体获取。本发明实施例采用的是一种迭代式知识图谱构建方法,即从一组种子实体开始,不断从预训练模型中提取关系并得到新的实体。在领域应用场景中,通常经过多年的积累已经拥有词典、术语库等基础知识库,这些可直接用于种子实体。如果没有现有可用的种子实体,可以通过两种方式构建:一是人工构建,种子实体的数量不要求太多,通常在100左右即可,因此通过人工构建的成本也较低;二是通过使用预训练模型的词汇表与领域语料进行匹配统计可以获取,主要过程如下:首先统计预训练模型语汇表在领域语料中的出现次数,然后选取出现次数排名在前100(top100)的词汇作为种子实体。
在步骤530中,基于通用预训练模型抽取实体及关系。
此处采用的预训练模型为词向量模型,通用领域词向量模型通常是从海量的互联网开源文本数据中进行训练得到的,互联网中有很多可用的互联网公司开源的通用词向量模型。
图6示出了从通用预训练模型中抽取实体及关系的过程的流程图。图7A-7D分别示出了适于应用本发明实施例的语义知识图谱的构建方法的终端设备的一示例的操作界面示意图。
具体地,首先,逐个使用种子实体从通用词向量模型中查找语义距离满足条件的实体(语义距离相似度通常选取0.75,当领域数据非常稀疏时可适当降低),由于词向量模型中词是使用向量表示的,因此查询语义相似的过程是一个向量搜索的过程,例如,可以采用开源的向量搜索引擎 milvus。如图7A所示,在构建知识图谱时,用户可以通过在终端设备的业务界面输入关键词,例如“建筑主体”,并以此来确定相应的种子实体。然后,把与种子实体语义相似的实体进行合并、去重后,得到新的候选实体列表,分别统计候选实体列表中每个实体在领域语料中出现的次数,如果次数满足条件(通常选择100次以上,当数据稀疏时可适当调低)则作为确定的实体。进一步地,把新得到的实体列表及与原查询实体的语义相似关系分别作为抽取得到的实体及关系,把语义相似度作为语义关联关系的相似度值属性,同时把新得到的实体列表作为新的种子实体,重复迭代执行上述步骤5310和步骤5320两步,直到不增加新的实体为止。
在步骤540中,基于目标领域语料构建领域预训练模型。由于语料的倾斜或缺失等因素,通用预训练模型中的语义关联关系与领域场景中的语义关联关系通常存在一定的差异,因此需要利用领域预训练模型来进行修正。首先需要基于领域语料训练一个领域词向量模型,训练领域词向量模型的方法与训练通用词向量模型一样,因此直接采用已经开源的工具包进行训练即可,例如本发明实施例采用的为基于Gensim的训练方式。
在步骤550中,基于领域预训练模型抽取实体及关系。得到领域预训练词向量模型后,采用与图6中同样的方法从领域词向量模型中得到实体之间的在领域语料中的语义关联关系,最终语义关联关系的相似度值Sim采用通用预训练模型与领域预训练模型加权计算的方式,具体参照如下公式(1),其中Sim1和Sim2分别代表从通用预训练模型及领域预训练语言模型得到的语义相似度,a1与a2的选取通常分别为0.4与0.6,表示最终关系以领域数据中的语义关联为主,如果领域语料足够大,可以进一步提升领域预训练模型中的权重系数。
Sim = a1* Sim1 + a2* Sim2 公式(1)
在本发明实施例中,采用简易的知识图谱模式定义方法,弱化实体的概念类型及关系类型,适用于满足应用场景语义关联计算的要求。通过把通用预训练词向量模型的词汇表及领域语料进行匹配,自动从通用的预训练模型中自动获取得到初始的种子实体。提出了基于预训练模型中词向量的相似度进行实体语义关联关系获取,从而实现从预训练模型中自动进行实体抽取及语义关联关系抽取的方法。采用领域语料自动构建面向领域的预训练词向量模型,得到领域中术语的语义关联关系,并从领域词向量模型中提取实体及关系,对从通用领域抽取的结果进行修正补充。
利用如本发明实施例的语义知识图谱的构建方法,实现了以种子实体为基础而构建的多层语义知识图谱。如图7B-7D所示,以“建筑主体”为种子实体成功构建了多层语义知识图谱,即如图7B所示的单层知识图谱,如图7C所示的2层知识图谱和如图7D所示的3层知识图谱,以满足不同用户对所构建的知识图谱的个性化的业务需求。
通过本发明实施例,采用基于预训练模型的知识图谱快速自动构建方法,与现有的知识图谱构建方案相比具有如下优势:第一,更简单的知识图谱建模:现有方案通常需要定义严格的知识图谱模式,这通常需要大量的专家参与建模;本发明实施例提出了适用于语义搜索、智能推荐、知识问答场景的简易知识图谱模式定义方法。第二,更自动化的知识图谱构建过程:现有方案通常需要面向不同类型的实体和关系分别标注对应的语料并进行模型训练;本发明实施例直接从预训练模型中自动抽取实体及语义关联关系,除去其中几个阈值的选取外基本无人工工作量。第三,更直接的语义关联关系:现有语义关联关系计算通常需要依据知识图谱模式的图谱进行复杂的语义关联关系计算公式定义,不同的实体类型或关系类型定义还不一样,虽然能够面向不同场景定义更个性化的语义关联关系,但通常难以针对多种实体或关系类型逐一定义;本发明实施例中采用的预训练模型为从海量文档中得到的直接语义关联关系,因此通用性较强。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语义知识图谱的构建方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语义知识图谱的构建方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行语义知识图谱的构建方法。
图8是本发明另一实施例提供的执行语义知识图谱的构建方法的电子设备的硬件结构示意图,如图8所示,该设备包括:
一个或多个处理器810以及存储器820,图8中以一个处理器810为例。
执行语义知识图谱的构建方法的设备还可以包括:输入装置830和输出装置840。
处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器820作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的语义知识图谱的构建方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语义知识图谱的构建方法。
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音交互设备的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至语音交互设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可接收输入的数字或字符信息,以及产生与语音交互设备的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器820中,当被所述一个或者多个处理器810执行时,执行上述任意方法实施例中的语义知识图谱的构建方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语义知识图谱的构建方法,包括:
获取词向量模型和目标领域的种子实体集;
针对所述种子实体集中的各个种子实体,分别执行关联实体拓展操作,具体包括:
基于所述词向量模型确定与所述各个种子实体之间的语义相似度满足预设相似度条件的目标词向量,以得到所述各个种子实体的候选实体;
基于所述候选实体,确定所述各个种子实体对应的关联实体;
根据所述各个种子实体与所述对应的关联实体之间的语义相似度,为所述各个种子实体、与所述各个种子实体对应的关联实体之间配置边连接关系;其中,所述语义相似度用于量化所述边连接关系的关联度;
基于所述各个种子实体、所述各个种子实体对应的关联实体、以及所述边连接关系,构建所述目标领域的语义知识图谱。
2.根据权利要求1所述的方法,其中,所述基于所述各个种子实体、所述各个种子实体对应的关联实体、以及所述边连接关系,构建所述目标领域的语义知识图谱,包括:
根据所确定的关联实体对所述种子实体集进行更新,并针对新添加的种子实体迭代执行关联实体拓展操作,以迭代确定与所述关联实体相关联的实体和相应的边连接关系;
基于各个种子实体与所确定的相应的关联实体和边连接关系,以及所迭代确定的与所述关联实体相关联的实体和相应的边连接关系,构建对应所述目标领域的语义知识图谱。
3.根据权利要求1所述的方法,其中,所述获取词向量模型和目标领域的种子实体集,包括:
获取所述目标领域的目标领域语料和所述词向量模型的词汇表;
统计所述词汇表中的各个词汇在所述目标领域语料中的出现次数;
根据所述出现次数的排序靠前的预设数量个词汇,确定种子实体集。
4.根据权利要求3所述的方法,其中,基于所述候选实体,确定针对所述种子实体的关联实体,包括:
统计所述候选实体在所述目标领域语料中的出现频次,并将所述出现频次与预设的次数阈值进行比较;
如果所述出现频次小于或等于所述次数阈值,则筛除所述候选实体;以及
如果所述出现频次大于所述次数阈值,则确定将所述候选实体作为所述种子实体的关联实体。
5.根据权利要求4所述的方法,其中,在统计所述候选实体在所述目标领域语料中的出现频次之前,所述方法还包括:
将种子实体集中各个种子实体所对应的候选实体进行汇总,以得到相应的候选实体列表;
检测所述候选实体列表中是否存在重复的候选实体;
当存在时,针对所述候选实体列表中存在重复的各个候选实体进行合并处理。
6.根据权利要求3所述的方法,其中,所述词向量模型包含通用词向量模型和/或领域词向量模型;所述领域词向量模型是基于所述目标领域语料而进行训练的。
7.根据权利要求6所述的方法,其中,所述词向量模型包含通用词向量模型和领域词向量模型,
其中,所述根据所述语义相似度,为所述种子实体与所述关联实体之间配置边连接关系,包括:
获取由所述通用词向量模型所确定的第一语义相似度和由所述领域词向量模型所确定的第二语义相似度;
基于所述第一语义相似度和第二语义相似度,为所述种子实体与所述关联实体之间配置边连接关系。
8.根据权利要求7所述的方法,其中,所述基于所述第一语义相似度和第二语义相似度,为所述种子实体与所述关联实体之间配置边连接关系,包括:
按照预设的所述通用词向量模型相对于所述领域词向量模型的权重系数配置将所述第一语义相似度和所述第二语义相似度进行加权计算,得到相应的加权语义相似度;
根据所述加权语义相似度,为所述种子实体与所述关联实体之间配置边连接关系。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024017.XA CN115905575A (zh) | 2023-01-09 | 2023-01-09 | 语义知识图谱的构建方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024017.XA CN115905575A (zh) | 2023-01-09 | 2023-01-09 | 语义知识图谱的构建方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115905575A true CN115905575A (zh) | 2023-04-04 |
Family
ID=86486071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310024017.XA Pending CN115905575A (zh) | 2023-01-09 | 2023-01-09 | 语义知识图谱的构建方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905575A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484027A (zh) * | 2023-06-20 | 2023-07-25 | 北京中科智易科技股份有限公司 | 基于知识图谱技术建立的军用设备图谱系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284397A (zh) * | 2018-09-27 | 2019-01-29 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN111488467A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN113157860A (zh) * | 2021-04-07 | 2021-07-23 | 国网山东省电力公司信息通信公司 | 一种基于小规模数据的电力设备检修知识图谱构建方法 |
-
2023
- 2023-01-09 CN CN202310024017.XA patent/CN115905575A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284397A (zh) * | 2018-09-27 | 2019-01-29 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN111488467A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN113157860A (zh) * | 2021-04-07 | 2021-07-23 | 国网山东省电力公司信息通信公司 | 一种基于小规模数据的电力设备检修知识图谱构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484027A (zh) * | 2023-06-20 | 2023-07-25 | 北京中科智易科技股份有限公司 | 基于知识图谱技术建立的军用设备图谱系统 |
CN116484027B (zh) * | 2023-06-20 | 2023-08-22 | 北京中科智易科技股份有限公司 | 基于知识图谱技术建立的军用设备图谱系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377759B (zh) | 事件关系图谱构建方法及装置 | |
EP3158559B1 (en) | Session context modeling for conversational understanding systems | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110569496A (zh) | 实体链接方法、装置及存储介质 | |
CN114860913B (zh) | 智能问答系统构建方法、问答处理方法及装置 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
CN113761219A (zh) | 基于知识图谱的检索方法、装置、电子设备及存储介质 | |
CN109460503A (zh) | 答案输入方法、装置、存储介质及电子设备 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN110990627A (zh) | 一种知识图谱构建的方法、装置、电子设备及介质 | |
CN115905575A (zh) | 语义知识图谱的构建方法、电子设备和存储介质 | |
CN111737449A (zh) | 相似问题的确定方法和装置、存储介质及电子装置 | |
CN111553138A (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN105335466A (zh) | 一种音频数据的检索方法与装置 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN112100509B (zh) | 信息推荐方法、装置、服务器和存储介质 | |
CN113946668A (zh) | 基于边缘节点的语义处理方法、系统、装置及存储介质 | |
CN112417174A (zh) | 一种数据处理的方法和装置 | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN116383340A (zh) | 信息搜索方法、装置、电子设备和存储介质 | |
US20240320500A1 (en) | Method and apparatus for generating training data | |
CN111046181A (zh) | 一种用于自动分类法归纳的行动者—评论家算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230404 |