CN116150399A - 知识图谱问答方法、电子设备及存储介质 - Google Patents
知识图谱问答方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116150399A CN116150399A CN202310096409.7A CN202310096409A CN116150399A CN 116150399 A CN116150399 A CN 116150399A CN 202310096409 A CN202310096409 A CN 202310096409A CN 116150399 A CN116150399 A CN 116150399A
- Authority
- CN
- China
- Prior art keywords
- entity
- answered
- information
- knowledge graph
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 212
- 238000012163 sequencing technique Methods 0.000 claims description 45
- 238000012360 testing method Methods 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种知识图谱问答方法、电子设备及存储介质,属于人工智能技术领域。该方法包括:确定待回答问题对应的待确认向量,并分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度;依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从各个领域知识图谱中确定待回答问题所属的目标领域知识图谱;基于待回答问题所属的目标领域知识图谱,确定待回答问题对应的答案。该知识图谱问答方法可以针对不同的领域知识图谱进行问题的答复,提升对待回答问题对应的答案的识别准确性,提升问答识别能力。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种知识图谱问答方法、电子设备及存储介质。
背景技术
知识图谱问答(Knowledge Based Question Answering,KBQA)是当前自然语言处理领域的研究热点,涉及众多相关技术,包括语言学、深度学习、机器学习等。知识图谱使用节点代表现实世界的实体或概念,节点之间通过有向边进行连接,这些有向边表示现实世界中的实体或者概念之间的各种关系。换言之,通过不同方法将自然语言问题(NaturalLanguage Question,NLQ)映射到结构化的图谱中进行查询,使具有丰富的语义关联信息以及强大的语义处理能力的知识图谱,能够深入理解用户问题并给出答案。
但是,目前很多问答属于多领域知识图谱问答,大多数常用的知识图谱问答方案只适用于单一领域知识图谱问答,在多领域知识图谱问答中效果欠佳。因此,在知识图谱问答领域中,如何准确地进行多领域知识图谱问答成为本领域研究的热点问题。
发明内容
本申请提供一种知识图谱问答方法、电子设备及存储介质。
第一方面,本申请提供了一种知识图谱问答方法,该方法包括:
确定待回答问题对应的待确认向量,并分别确定所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度;依据预设的相似度阈值和所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从所述各个领域知识图谱中确定所述待回答问题所属的目标领域知识图谱;基于所述待回答问题所属的目标领域知识图谱,确定所述待回答问题对应的答案。
第二方面,本申请提供了一种知识图谱问答装置,该装置包括:
确定模块,被配置为确定待回答问题对应的待确认向量,并分别确定所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度;所述确定模块,还被配置为依据预设的相似度阈值和所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从所述各个领域知识图谱中确定所述待回答问题所属的目标领域知识图谱;回答模块,被配置为基于所述待回答问题所属的目标领域知识图谱,确定所述待回答问题对应的答案。
第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的所述的知识图谱问答方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述的知识图谱问答方法。
本申请所提供的实施例,通过待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,可以确定待回答问题在哪些领域知识图谱中更有可能查到对应的答案,依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,可以确定待回答问题所属的目标领域知识图谱,缩小了查询答案的检索范围,因此,在基于目标领域知识图谱确定待回答问题对应的答案时,能够提升答案的识别准确性和效率,从而提升问答识别能力。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中。
图1为相关技术提供的一种知识图谱问答系统的示意图。
图2为本申请实施例提供的一种知识图谱问答方法的流程示意图。
图3为本申请实施例提供的一种知识图谱问答方法的流程示意图。
图4为本申请实施例提供的一种知识图谱问答装置的组成方框图。
图5为本申请实施例提供的一种电子设备的组成方框图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在相关技术中,通过获取用户问句中的实体提及;将实体提及链接到知识图谱的实体节点上,获得链接实体;根据链接实体,在知识图谱中查询获取至少一条查询路径以及每一条查询路径对应的候选答案;根据每一条查询路径与用户问句的相似度,获取最为合适的查询路径;基于最为合适的查询路径对应的候选答案,获取用户问句的最终答案结果。
但是,上述获取答案的流程是采用信息检索的方式,通过实体识别和实体链接手段链接到图谱节点后,查图得到候选路径;然后,根据问句与候选路径的相似度排序返回最终答案结果。当用户的问句在不同领域中进行切换,或,该用户的问句不属于当前的知识图谱时,会结束当前的基于知识图谱的问题流程,导致不能找到合适的领域知识图谱来分析用户的问题,降低了用户的使用体验。
在另一相关技术中,图1为相关技术提供的一种知识图谱问答系统的示意图。如图1所示,针对问题-答案训练集中各问题-答案训练样本,基于知识图谱构建问题-谓语序列数据集,然后训练得到谓语序列检测器;针对需要回答的问题,首先通过谓语序列检测器识别出问题的谓语序列;通过问题的焦点词、谓语序列和实体的标签值构建核心路径,接着通过分析问题识别约束条件,并在此基础上基于核心路径构建得到查询路径;根据问题,并依据核心路径中获取到的候选答案和查询路径,选择最终答案。
知识图谱可以包括不同领域的知识,知识范围较广,通过利用序列检测器对问句中的问题进行信息挖掘时,需要查询的知识图谱中的路径范围广,难以准确判断问题对应的答案是在某个领域内,或在某个领域之外,这增加了查找答案的难度,降低了答案的准确性。
本申请实施例提供的知识图谱问答方法,能够通过待回答问题对应的待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,确定待回答问题所属的目标领域知识图谱,以缩小答案的检索范围,并基于目标领域知识图谱进行问题的答复,提升对待回答问题对应的答案的识别准确性,提升问答识别能力。
根据本申请实施例的知识图谱问答方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。服务器可以是独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。具体地,知识图谱问答方法可以通过电子设备中的处理器调用存储器中存储的计算机可读程序指令的方式来实现。
本申请实施例第一方面提供一种知识图谱问答方法。
图2为本申请实施例提供的一种知识图谱问答方法的流程示意图。如图2所示,该知识图谱问答方法包括但不限于如下步骤:
步骤S201,确定待回答问题对应的待确认向量,并分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度。
其中,领域知识图谱为不同领域(如,娱乐领域、保险领域和体育领域中的任意一个领域)内的知识图谱(Knowledge Graph),而知识图谱是将知识域进行可视化处理,从而获得相应的知识领域映射地图。在实际应用中,知识图谱可以用来描述各种实体和概念,以及他们之间的关系,可以视作一种语义网络。在一些可选的实现方式中,领域知识图谱的基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体之间通过关系相互连接,构成网状的知识结构。
通过将待回答问题进行向量化表示处理,得到待回答问题对应的待确认向量,待确认向量能够明确待回答问题所涵盖的信息的方向及数值,便于对待回答问题进行更准确的分析。而每个领域知识图谱对应的聚类中心向量能够表征该领域知识图谱中的核心信息,能够基于该聚类中心向量,准确地确定不同的领域知识图谱的覆盖范围。
进一步地,计算待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,能够明确待确认向量与各个领域知识图谱之间的关系,即该待确认向量具体可归类为哪个领域知识图谱的意图覆盖范围,缩小对待回答问题对应的答案的搜索范围,加快对待回答问题的答复速度。
在一些可选的实施方式中,步骤S201中的分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,包括:分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的距离值;基于确定出的距离值计算待确认向量与各个领域知识图对应的聚类中心向量之间的相似度。其中,距离值越小,相似度越大。
需要说明的是,当待确认向量与某个领域知识图谱对应的聚类中心向量之间的距离值小于或等于预设距离阈值时,说明该待确认向量与该领域知识图谱对应的聚类中心向量相似;当待确认向量与某个领域知识图谱对应的聚类中心向量之间的距离值大于预设距离阈值时,说明该待确认向量与该领域知识图谱对应的聚类中心向量不相似,该待确认向量对应的待回答问题不能在该领域知识图谱中查找到对应的答案。仅在能够查找到答案的领域知识图谱中查找,可以缩小搜索范围,快速地获得待回答问题对应的答案,从而加快答复待回答问题的速度。
在一些可选的实施方式中,每个领域知识图谱包括相应领域的多个实体节点以及用于表征多个实体节点之间关系的连线,任意两个或多个实体节点以及对应的连线组成一个路径。例如,保险领域对应的领域知识图谱中的路径、娱乐领域对应的领域知识图谱中的路径、体育领域对应的领域知识图谱中的路径等等。
在执行步骤S201之前,电子设备需要先计算出各个领域知识图谱对应的聚类中心向量。作为一种可选的实施方式,计算各个领域知识图谱对应的聚类中心向量,可包括:采用无监督的方式对多个领域知识图谱中的路径进行学习,获得预训练模型;依据预训练模型对多个领域知识图谱中的各个路径进行聚类,获得各个领域的知识图谱空间;对各个领域的知识图谱空间中的路径进行路径聚类,获得各个领域知识图谱对应的聚类中心向量。
在预训练模型的训练过程中,通过对测试正例和测试负例进行训练获得预训练模型,其中,测试正例由相同领域的领域知识图谱内的任意两个路径组成,测试负例由不同领域的领域知识图谱内的任意两个路径组成。在使用多个测试正例中的路径和测试负例中的路径进行聚类分析时,能够将相同领域的领域知识图谱内的路径划分为一个领域,将不同领域的领域知识图谱内的路径划分为两个不同的领域,然后,基于划分后的领域确定各个领域的中心区域,进而确定各个领域的知识图谱空间。进一步地,针对同一个领域的知识图谱空间进行路径聚类,从而获得领域知识图谱对应的聚类中心向量,以表征该领域的核心区域。
通过将多个不同领域知识图谱中的路径进行聚类,能够获得各个领域知识图谱对应的聚类中心向量,不同的聚类中心向量能够表征不同的领域知识图谱的核心区域,从而确定领域知识图谱对应的覆盖范围,基于不同的覆盖范围对待回答问题的所属领域进行确认,缩小待回答问题对应的答案的检索范围,提升对待回答问题的回复准确性。
需要说明的是,无监督指的方式是通过利用多个领域知识图谱中的路径,来构造不同的测试正例和测试负例;即,不需要依赖任何其他标注数据即可确定多个测试正例和多个测试负例。
例如,采取无监督的方式对多个领域知识图谱中的路径(如,基于资源描述框架(Resource Description Framework,RDF)的路径)进行学习,获得预训练模型。
在一些实施例中,基于RDF的路径构建的领域知识图谱,能够对待回答问题进行三元组分析。其中,RDF是一种用于描述网络资源的标记语言,具有自描述性,数据模型为主谓宾(Subject Predicate Object,SPO)三元组形式(s,p,o)。其中,s表示主语(Subject),即一个数据源的统一资源标识符(Uniform Resource Identifier,URI);o表示宾语(Object),即一个数据源的URI或一段文字描述;p表示谓语(Predicate),用于描述s和o之间关系的URI。
RDF三元组的数据结构简单直观,与传统的关系型数据库存储相比,RDF数据具有更好的可扩展性和可协作性。因此,在采用上述RDF三元组数据对待回答问题进行分析时,能够快速地获取待回答问题所要表征的含义,进而在基于RDF三元组数据构建的知识图谱中,能够对待回答问题中除实体以外的信息进行语义分析和判断,从而获得更准确的答案,提升知识问答的准确性。
在本申请实施例中,可以逐个构建每个领域知识图谱下的RDF图谱,并获得N个领域知识图谱。其中N为大于或等于2的整数。
例如,领域知识图谱A包括的RDF节点路径为A1->A2->A3;领域知识图谱B包括的RDF节点路径为B1–>B2->B3,对于领域知识图谱A中的所有路径,两两路径互为测试正例;而对于领域知识图谱A和领域知识图谱B中的不归属于同一个领域知识图谱中的路径,两两路径互为测试负例。采用上述不同的测试正例和测试负例作为样本数据,构建模型,该模型可采用如下损失函数Li表示为:
其中,K表示训练过程中的批处理(batch)的值;j为大于或等于0,且小于或等于K的值;i表示第i个向量;j表示第j个向量;τ表示超参数,τ越小,表示模型越关注于将与测试正例最相似的测试负例分开。
S(zi,zj)表示由不同领域知识图谱中的路径对应的向量(如,领域知识图谱A中的路径1对应的向量zi和领域知识图谱B中的路径3对应的向量zj)之间的相似度;向量zi与向量zj互为测试负例。
需要说明的是,损失函数Li的优化目标是让分子的相似度变大,即让同一领域知识图谱中的各个路径间的距离变小;并让分母的相似度边小,即让不同领域知识图谱中的各个路径间的距离变大,从而获得N个领域知识图谱的空间向量。
通过上述操作,能够基于不同的测试正例和测试负例,对所有的领域知识图谱中的路径进行聚类,以便获得每个领域知识图谱对应的聚类中心向量;进一步地,将各个聚类中心向量与待回答问题对应的待确认向量进行比较,从而确定待回答问题是否是属于域外问题,从而确定待回答问题所属的目标领域知识图谱,缩小对待回答问题的搜索范围,加快对待回答问题的回复速度,并提升对待回答问题的回复准确性。
步骤S202,依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从各个领域知识图谱中确定待回答问题所属的目标领域知识图谱。
将待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度和预设的相似度阈值进行比较的过程,相当于在针对每个领域知识图谱,判断待确认向量是属于域内(In Domain,IND)还是域外(Out of Domain,OOD)。如果待确认向量属于某领域知识图谱的域内,则表明该待确认向量所表达的意图属于该领域知识图谱的意图范围之内;如果待确认向量属于某领域知识图谱的域外,则表明该待确认向量所表达的意图属于该领域知识图谱的意图范围之外。
例如,若待确认向量与某个(或某几个)领域知识图谱对应的聚类中心向量之间的相似度大于或等于预设相似度阈值,则说明该待确认向量与该聚类中心向量相似,该待确认向量对应的待回答问题与该一个(或几个)领域知识图谱有关。
反之,若待确认向量与某个(或某几个)领域知识图谱对应的聚类中心向量之间的相似度小于预设相似度阈值,则说明该待确认向量与该聚类中心向量不相似,该待确认向量对应的待回答问题与该一个(或几个)领域知识图谱的相关性很低,在确定待回答问题的答案时,可以将该一个(或几个)领域知识图谱排除掉。
需要说明的是,域内和域外是相对概念,并不作具体领域的限制。如A领域和B领域,B领域相对于A领域来说为域外,同样,A领域相对于B领域属于域外。
在一些实施例中,通过构建IND的多个测试正例,以及OOD的多个测试负例;然后,分别对多个测试正例和多个测试负例进行训练,从而获得域内域外分类模型,能够通过该域内域外分类模型对待回答问题进行分析,提升对OOD问题的识别效率,使用户获得更准确的答案。
其中,域内域外分类模型可以采用本申请中的目标领域知识图谱和其他领域知识图谱实现,当某个待回答问题对应的待确认向量所表达的意图属于目标领域知识图谱时,则表征该待回答问题是域内问题;若某个待回答问题对应的待确认向量所表达的意图属于其他领域知识图谱时,则表征该待回答问题是域外问题。
需要说明的是,在OOD样本数据较少的情况下,可通过与领域知识图谱对应的聚类中心向量进行比较的方式,获得OOD样本数据;而当OOD样本数据的数量与IND样本数据的数量均大于预设数量阈值的情况下,可采用二分类的方式对OOD样本数据进行识别,以提升样本数据的识别速度。
在一些可选的实施方式中,电子设备在执行步骤S202中的依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从各个领域知识图谱中确定待回答问题所属的目标领域知识图谱时,可以采用如下方式实现:
将待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度中,大于预设的相似度阈值的相似度对应的聚类中心向量确定为候选聚类中心向量;对候选聚类中心向量进行排序,获得相似度排序结果;提取相似度排序结果中相似度最大的聚类中心向量对应的领域知识图谱作为目标领域知识图谱。
若确定待确认向量与聚类中心向量之间的相似度小于或等于预设相似度阈值,则确定待确认向量在聚类中心向量对应的领域知识图谱的范围之外,需删除该聚类中心向量。
需要说明的是,通过将待确认向量与聚类中心向量之间的相似度与预设相似度阈值进行比较,并将待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度中,大于预设的相似度阈值的相似度对应的聚类中心向量确定为候选聚类中心向量,并将明显不属于待确认向量对应的答案的聚类中心向量删除,缩小答案的搜索范围,加快答复待回答问题的速度。
例如,设定初始有M个聚类中心向量,M为大于或等于2的整数。并且,待确认向量不在其中的2个聚类中心向量(即,该聚类中心向量与待确认向量之间的距离值大于预设距离阈值,换言之,该聚类中心向量与待确认向量之间的相似度小于预设相似度阈值)对应的领域知识图谱的范围内,即,待回答问题与这两个聚类中心向量对应的领域知识图谱无关,则可以获得M-2个候选聚类中心向量。
然后,对M-2个候选聚类中心向量进行相似度排序,获得相似度排序结果,并从该相似度排序结果中选取相似度最大的聚类中心向量对应的领域知识图谱作为目标领域知识图谱,从而达到进一步缩小检索范围的目标,加快答复待回答问题的速度。
步骤S203,基于待回答问题所属的目标领域知识图谱,确定待回答问题对应的答案。
其中,在待回答问题所属的目标领域知识图谱中,查找与待回答问题相匹配的备选答案,并从备选答案中筛选获得待回答问题对应的答案,提升该答案的准确性。
在一些可选的实施方式中,目标领域知识图谱包括多个实体节点以及用于表征多个实体之间关系的连线,任意两个或多个实体节点以及对应的连线组成一个路径。
电子设备在执行步骤S203中的基于待回答问题所属的目标领域知识图谱,确定待回答问题对应的答案时,可以采用如下方式实现:遍历目标领域知识图谱中的各个实体节点,获得待回答问题对应的多个待使用路径;基于多个待使用路径对待确认向量进行匹配,确定待回答问题对应的答案。
其中,多个待使用路径中每个待使用路径中的实体节点所反映实体所属的信息类型,与待回答问题中包括的信息类型之间的相关度满足预设相关度阈值。
例如,对目标图谱领域中的所有基于RDF的路径下的多个实体节点进行遍历,例如,基于不同的节点类型分别对多个实体节点进行遍历,从而获得待回答问题对应的多个待使用路径。
通过遍历目标领域知识图谱中的各个实体节点,基于多个待使用路径中每个待使用路径中的实体节点所反映实体所属的信息类型与待回答问题中包括的信息类型之间的相关度,筛选出该相关度满足预设相关度阈值的多个路径,从而获得待回答问题对应的多个待使用路径,以便于后续基于这些待使用路径对待确认向量进行匹配,确定待回答问题对应的答案。
在一些可选的实施方式中,遍历目标领域知识图谱中的各个实体节点,获得待回答问题对应的多个待使用路径,包括:
遍历各个实体节点,根据待回答问题所要求的头节点的信息类型以及各个实体节点所反映实体所属的信息类型,从多个实体节点中识别得到目标头节点;基于目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的信息类型与待回答问题之间的相关度,对多条待选路径进行排序,获得路径排序结果;从路径排序结果中,选择相关度大于预设相关度阈值的多个路径作为待回答问题对应的多个待使用路径。
其中,目标头节点对应多条待选路径。信息类型包括产品信息、属性信息和渠道信息中的至少一种。
当识别到目标图谱领域中的目标头节点时,需要提取该目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的信息类型,然后将每条待选路径中的各个实体节点所反映实体所属的信息类型与待回答问题所要求的实体节点的信息类型进行相关度计算,并基于计算获得的相关度对多条待选路径进行排序,获得路径排序结果;再从路径排序结果中,选择相关度大于预设相关度阈值的多个路径作为待回答问题对应的多个待使用路径。
具体实现时,对于不同的实体节点所反映实体所属的信息类型,可通过[SEP]进行分隔,以实现实体节点与不同的信息类型之间的拼接。然后,使用拼接后的信息对基于双向编码器的大规模无标注语料训练(Bidirectional Encoder Representations fromTransformer,BERT)模型进行训练,分别获得产品排序模型、属性排序模型和渠道排序模型中的至少一种。
进一步地,可使用产品排序模型基于目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的产品信息与待回答问题所要求的头节点的产品信息之间的相关度,对多条待选路径进行排序,获得与产品信息相匹配的路径排序结果。
和/或,使用属性排序模型基于目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的属性信息与待回答问题所要求的头节点的属性信息之间的相关度,对多条待选路径进行排序,获得与属性信息相匹配的路径排序结果。
和/或,使用渠道排序模型基于目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的渠道信息与待回答问题所要求的头节点的渠道信息之间的相关度,对多条待选路径进行排序,获得与渠道信息相匹配的路径排序结果。
通过上述不同的模型基于相关度对多条待选路径进行排序,可获得不同的路径排序结果。
又例如,在确定与产品信息相匹配的路径排序结果中的相关度最高的产品信息大于预设相关度阈值的情况下,可将该产品信息作为目标检索信息,并基于该目标检索信息对目标领域知识图谱中的多个实体节点对应的路径进行遍历查询,并进行意图分析。如果确定待回答问题的意图为产品列表(如,“健康险购买方式”等)时,可在产品节点识别到“健康险”、在属性节点识别到“购买方式”后,基于健康险中的多个产品(如,儿童健康险、成人健康险等)对保险领域知识图谱进行查询,获得多个待使用路径。
在一些可选的实施方式中,待回答问题所要求的头节点的信息类型包括产品信息、属性信息和渠道信息中至少一种。其中,待回答问题所要求的头节点的信息类型可利用BERT模型中的自注意力机制进行提取。
根据待回答问题所要求的头节点的信息类型以及各个实体节点所反映实体所属的信息类型,从多个实体节点中识别得到目标头节点,包括:
基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果;
基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果;
基于待回答问题所要求的头节点的渠道信息与各个实体节点所反映实体所属的渠道信息的相关度,对各个实体节点所反映实体所属的渠道信息进行排序,获得渠道排序结果;
依据产品排序结果中的相关度最高的产品信息、属性排序结果中的相关度最高的属性信息、以及渠道排序结果中的相关度最高的渠道信息中的至少一种,确定目标头节点。
其中,若确定待回答问题所要求的头节点的信息类型为属性信息,则筛选获得属性排序结果中的相关度最高的属性信息;然后,再获取产品排序结果中的相关度最高的产品信息、以及渠道排序结果中的相关度最高的渠道信息,并将上述三种信息进行综合考虑,基于产品信息、渠道信息和属性信息中的至少一种,确定目标头节点,进而基于该目标头节点对应的领域知识图谱中的路径进行查询,获得多个待使用路径。
例如,在保险领域中,基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果时,其中的产品信息可以表示如下:
[('[CLS]我想给我摩托车买个交强险[SEP]**个人医疗保险[SEP]',0),
('[CLS]我想给我摩托车买个交强险[SEP]**交强保险(2020版)[SEP]',1)]。
其中,“[CLS]”表示特征的向量表示;“[SEP]”表示分隔符,用于分割用户所提出的待回答问题中的实体与产品信息(或,属性信息,或,渠道信息等)。
“0”表示测试负例(即,摩托车等相关的车类实体不会有“个人医疗保险”等用于为实体“人”的服务类型);“1”表示测试正例(即,摩托车等相关的车类实体具有“交强保险”的服务类型)。
又例如,基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果时,其中的属性信息可以表示如下:
[('[CLS]顺便咨询一下今年的车辆保费[SEP]投保人条件[SEP]',0),
('[CLS]顺便咨询一下今年的车辆保费[SEP]联系方式[SEP]',0),
('[CLS]顺便咨询一下今年的车辆保费[SEP]报价[SEP]',1)。
其中,“0”表示测试负例(即,车辆保费不会存在“投保人条件”、“联系方式”等信息);“1”表示测试正例(即,车辆保费会有对应的“报价”信息)。
再例如,基于待回答问题所要求的头节点的渠道信息与各个实体节点所反映实体所属的渠道信息的相关度,对各个实体节点所反映实体所属的渠道信息进行排序,获得渠道排序结果时,其中的渠道信息可以表示如下:
[('[CLS]有摩托车保险吗?[SEP]线下[SEP]',1),
('[CLS]有摩托车保险吗?[SEP]公众号[SEP]',0);
或,
('[CLS]摩托车保险怎么买[SEP]线下[SEP]',1),
('[CLS]摩托车保险怎么买[SEP]公众号[SEP]',0);
或,
('[CLS]摩托车交强险可以买吗?[SEP]线下[SEP]',1),
('[CLS]摩托车交强险可以买吗?[SEP]公众号[SEP]',0),
('[CLS]车险可以线上办理吗[SEP]线下[SEP]',0)。
其中,“0”表示测试负例,“1”表示测试正例。即,摩托车保险只能通过“线下”的方式购买;“摩托车交强险”也需要通过“线下”的方式购买;“车险”只能通过“线下”的方式进行办理。
通过上述不同的测试正例和测试负例,获得对应的排序结果,并依据产品排序结果中的相关度最高的产品信息、属性排序结果中的相关度最高的属性信息、以及渠道排序结果中的相关度最高的渠道信息中的至少一种,确定目标头节点,从而更准确的针对该目标头节点对应的路径进行查询,使检索到的信息更准确,提升对待回答问题的检测精准性。
需要说明的是,在对待回答问题进行答复的过程中,可能存在不同的领域知识图谱的切换,可通过中止当前对待回答问题的答复,并输出不同的提示信息,以获取用户输入的文本,进一步地对问题进行答复,以便于更准确地为用户提供其需要的信息,提升用户的使用体验。
在一些可选的实施方式中,依据产品排序结果中的相关度最高的产品信息、属性排序结果中的相关度最高的属性信息、以及渠道排序结果中的相关度最高的渠道信息中的至少一种,确定目标头节点之前,还包括:
在确定头节点所反映实体所属的信息类型为产品信息,且产品排序结果中的最高相关度小于预设相关度阈值的情况下,输出第一提示信息;获取用户输入的文本,重新执行基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果的步骤。
在确定头节点所反映实体所属的信息类型为属性信息,且属性排序结果中的最高相关度小于预设相关度阈值的情况下,输出第二提示信息;获取用户输入的文本,重新执行基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果的步骤。
其中,第一提示信息用于提示用户输入包括产品信息的文本;第二提示信息用于提示用户输入包括属性信息的文本。
其中,产品信息用于表征产品的类型,如,车辆的保险、人的保险等。基于主动向用户提出疑问的方式,从用户输入的文本中提取产品信息。
例如,若待回答问题为“怎么购买?”,则可以识别出该待回答问题是需要询问购买方式,但无法识别到具体是哪种实体的购买方式(即,从多个实体节点中查询到的产品信息与待确认产品信息之间的相关度小于预设相关度阈值),此时,为了进一步明确用户的意图,需要向用户输出第一提示信息(如,“你具体想了解哪方面的产品呢”),然后,通过获取用户输入的文本,并从用户输入的文本中提取更准确的产品信息。例如,从用户输入的文本中提取到的产品信息包括:用户反馈的产品名称,如“摩托车”或“小轿车”等。
进一步的,重新执行基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果的步骤,从而更新产品排序结果。上述实施方式可以在用户提出问题所包含信息不全的情况下,通过反问的方式获取所缺信息,以便于更准确的识别出用户期望获取的信息的类别,提升对待回答问题的答复准确性。
又例如,基于主动向用户输出第二提示信息,从用户输入的文本中提取的属性信息。若待回答问题为“怎么购买车险?”,则可以识别出该待回答问题是需要询问“车险”的购买方式,但无法识别到具体是哪种车险的购买方式(即,属性排序结果中的最高相关度小于预设相关度阈值),此时,为了进一步明确用户的意图,需要向用户输出第二提示信息(如,“你具体想了解什么类型的车险呢”),然后,通过获取用户输入的文本,可提取该用户输入的文本中的属性信息。例如,提取到的用户输入的文本中的属性信息为“摩托车车险”或“小轿车车险”等。
需要说明的是,当获取到用户输入的文本中的属性信息时,重新执行基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果的步骤,以便于基于更新后的属性排序结果,更精准地确定用户期望获取的答案。
在本申请实施例中,通过待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,可以确定待回答问题在哪些领域知识图谱中更有可能查到对应的答案,依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从各个领域知识图谱中确定待回答问题所属的目标领域知识图谱,缩小了查询答案的检索范围,因此,在基于目标领域知识图谱确定待回答问题对应的答案时,能够提升答案的识别准确性和效率,从而提升问答识别能力。
图3为本申请实施例提供的一种知识图谱问答方法的流程示意图。如图3所示,该知识图谱问答方法包括但不限于如下步骤。
步骤S301,确定多个领域的知识图谱空间。
在一些实施例中,可采用无监督的方式对多个领域知识图谱中的路径进行学习,获得预训练模型;依据预训练模型对多个领域知识图谱中的各个路径进行聚类,获得各个领域的知识图谱空间。
需要说明的是,在预训练模型的训练过程中,通过对测试正例和测试负例进行训练获得预训练模型,测试正例由相同领域的领域知识图谱内的任意两个路径组成,测试负例由不同领域的领域知识图谱内的任意两个路径组成。
步骤S302,对各个领域的知识图谱空间中的路径进行路径聚类,获得各个领域知识图谱对应的聚类中心向量。
步骤S303,分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度。
其中,待确认向量为待回答问题对应的向量,通过将待回答问题进行向量化表示处理,得到待回答问题对应的待确认向量,待确认向量能够明确待回答问题所涵盖的信息的方向及数值,便于对待回答问题进行更准确的分析。
在一些具体实现中,可分别确定待确认向量与每个领域知识图谱对应的聚类中心向量之间的距离值,并采用该距离值作为衡量待确认向量与每个聚类中心向量之间的相似度。
其中,待确认向量与某个聚类中心向量之间的距离值越小,表征该待确认向量与该聚类中心向量之间的相似度越大,换言之,该待确认向量与该聚类中心向量越相似。
步骤S304,将待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度中,大于预设的相似度阈值的相似度对应的聚类中心向量确定为候选聚类中心向量。
需要说明的是,在确定待确认向量与某个领域知识图谱对应的聚类中心向量之间的相似度大于预设的相似度阈值的情况下,将该领域知识图谱对应的聚类中心向量确定为候选聚类中心向量。
在确定待确认向量与某个领域知识图谱对应的聚类中心向量之间的相似度小于或等于预设的相似度阈值(即,待确认向量在该领域知识图谱的范围之外)的情况下,删除该领域知识图谱对应的聚类中心向量。
步骤S305,对候选聚类中心向量进行排序,获得相似度排序结果;提取相似度排序结果中相似度最大的聚类中心向量对应的领域知识图谱作为目标领域知识图谱。
步骤S306,遍历目标领域知识图谱中的各个实体节点,获得待回答问题对应的多个待使用路径。
其中,多个待使用路径中每个待使用路径中的实体节点所反映实体所属的信息类型,与待回答问题中包括的信息类型之间的相关度满足预设相关度阈值。每个实体节点对应多个路径。
需要说明的是,若目标领域知识图谱为基于RDF的三元组的知识图谱,并且该目标领域知识图谱包括多个节点类型,则需要对每种节点类型的实体节点进行遍历,逐个采用基于点(point wise)的排序学习方法,对每种节点类型下的实体节点进行遍历,获得满足预设阈值的多个待使用路径。
例如,使用BERT模型训练获得多级节点的排序模型,并基于该模型确定满足预设阈值的多个待使用路径。
又例如,目标领域知识图谱为保险领域的图谱,则可采用随机采样的方式,将保险领域中的各个实体节点所反映实体所属的信息类型(如,产品信息、属性信息和渠道信息中的至少一种)与待回答问题所要求的头节点的信息类型进行匹配,以便于从多个实体节点中识别得到目标头节点。
其中,可采用如下方式获得目标头节点:基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果;基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果;基于待回答问题所要求的头节点的渠道信息与各个实体节点所反映实体所属的渠道信息的相关度,对各个实体节点所反映实体所属的渠道信息进行排序,获得渠道排序结果;依据产品排序结果中的相关度最高的产品信息、属性排序结果中的相关度最高的属性信息、以及渠道排序结果中的相关度最高的渠道信息中的至少一种,确定目标头节点。
进一步地,基于目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的信息类型与待回答问题之间的相关度,对多条待选路径进行排序,获得路径排序结果;从路径排序结果中,选择相关度大于预设相关度阈值的多个路径作为待回答问题对应的多个待使用路径。
步骤S307,基于多个待使用路径对待确认向量进行匹配,确定待回答问题对应的答案。
需要说明的是,若待回答问题为与产品信息相关的问题,则根据排序后的产品信息、渠道信息和属性信息对目标领域知识图谱进行查询,获得多个备选答案,并将多个备选答案以列表的形式展示给用户;或,将多个备选答案中筛选出与待回答问题的匹配度最高的答案,发送给用户。
若待回答问题为产品的属性问题,则将该产品对应的属性值作为与待回答问题对应的答案反馈给用户。
在本实施例中,根据多个领域知识图谱及各自领域知识图谱内的所有路径构建测试正和测试负例,并基于不同的测试正例和测试负例,对所有的领域知识图谱中的路径进行聚类,以便获得每个领域知识图谱对应的聚类中心向量;针对待回答问题,确定其对应的待确认向量,并对该待确认向量与每个领域知识图谱对应的聚类中心向量之间的相似度进行衡量,实现针对不同的领域知识图谱的应答范围,进行领域内外边界的检测,从而明确待回答问题所属的目标领域知识图谱,缩小对待回答问题的答复的搜索范围。
进一步地,将多个领域知识图谱中的实体信息、与该实体对应的属性信息(产品信息或渠道信息等)等作为节点信息,从而构造基于RDF的三元组的领域知识图谱;进一步地,基于待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,可以确定待回答问题在哪些领域知识图谱中更有可能查到对应的答案,依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,可以确定待回答问题所属的目标领域知识图谱,缩小了查询答案的检索范围,因此,在基于目标领域知识图谱确定待回答问题对应的答案时,能够提升答案的识别准确性和效率,从而提升问答识别能力。
本申请实施例第二方面提供一种知识图谱问答装置。
图4为本申请实施例提供的一种知识图谱问答装置的框图。如图4所示,该知识图谱问答装置400,包括但不限于如下模块。
确定模块401,被配置为确定待回答问题对应的待确认向量,并分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度;
确定模块401,还被配置为依据预设的相似度阈值和待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从各个领域知识图谱中确定待回答问题所属的目标领域知识图谱;
回答模块402,被配置为基于待回答问题所属的目标领域知识图谱,确定待回答问题对应的答案。
其中,待回答问题为保险领域、娱乐领域和体育领域的任一种领域中的问题。
在一些可选的实施方式中,知识图谱问答装置400,还包括:获取模块(图中未示出),被配置为采用无监督的方式对多个领域知识图谱中的路径进行学习,获得预训练模型,其中,在预训练模型的训练过程中,通过对测试正例和测试负例进行训练获得预训练模型,测试正例由相同领域的领域知识图谱内的任意两个路径组成,测试负例由不同领域的领域知识图谱内的任意两个路径组成;依据预训练模型对多个领域知识图谱中的各个路径进行聚类,获得各个领域的知识图谱空间;对各个领域的知识图谱空间中的路径进行路径聚类,获得各个领域知识图谱对应的聚类中心向量。
其中,每个领域知识图谱中包括相应领域多个实体节点以及用于表征多个实体节点之间关系的连线,任意两个或多个实体节点以及对应的连线组成一个路径。
在一些可选的实施方式中,确定模块401,还被配置为:分别确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的距离值;基于确定出的距离值计算待确认向量与各个领域知识图对应的聚类中心向量之间的相似度;其中,距离值越小,相似度越大。
在一些可选的实施方式中,确定模块401,还被配置为:将待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度中,大于预设的相似度阈值的相似度对应的聚类中心向量确定为候选聚类中心向量;对候选聚类中心向量进行排序,获得相似度排序结果;提取相似度排序结果中相似度最大的聚类中心向量对应的领域知识图谱作为目标领域知识图谱。在一些可选的实施方式中,目标领域知识图谱包括多个实体节点以及用于表征多个实体之间关系的连线,任意两个或多个实体节点以及对应的连线组成一个路径。回答模块402,还被配置为遍历目标领域知识图谱中的各个实体节点,获得待回答问题对应的多个待使用路径,其中,多个待使用路径中每个待使用路径中的实体节点所反映实体所属的信息类型,与待回答问题中包括的信息类型之间的相关度满足预设相关度阈值;基于多个待使用路径对待确认向量进行匹配,确定待回答问题对应的答案。
在一些可选的实施方式中,回答模块402在遍历目标领域知识图谱中的各个实体节点,获得待回答问题对应的多个待使用路径时,执行如下步骤:
遍历各个实体节点,根据待回答问题所要求的头节点的信息类型以及各个实体节点所反映实体所属的信息类型,从多个实体节点中识别得到目标头节点,其中,目标头节点对应多条待选路径;基于目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的信息类型与待回答问题之间的相关度,对多条待选路径进行排序,获得路径排序结果;从路径排序结果中,选择相关度大于预设相关度阈值的多个路径作为待回答问题对应的多个待使用路径。
在一些可选的实施方式中,信息类型包括产品信息、属性信息和渠道信息中的至少一种;待回答问题所要求的头节点的信息类型包括产品信息、属性信息和渠道信息中至少一种。
回答模块402在根据待回答问题所要求的头节点的信息类型以及各个实体节点所反映实体所属的信息类型,从多个实体节点中识别得到目标头节点时,执行如下步骤:
基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果;
基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果;
基于待回答问题所要求的头节点的渠道信息与各个实体节点所反映实体所属的渠道信息的相关度,对各个实体节点所反映实体所属的渠道信息进行排序,获得渠道排序结果;
依据产品排序结果中的相关度最高的产品信息、属性排序结果中的相关度最高的属性信息、以及渠道排序结果中的相关度最高的渠道信息中的至少一种,确定目标头节点。
在一些可选的实施方式中,知识图谱问答装置400,还包括:更新模块(图中未示出),被配置为在确定头节点所反映实体所属的信息类型为产品信息,且产品排序结果中的最高相关度小于预设相关度阈值的情况下,输出第一提示信息,其中,第一提示信息用于提示用户输入包括产品信息的文本;获取用户输入的文本,重新执行基于待回答问题所要求的头节点的产品信息与各个实体节点所反映实体所属的产品信息的相关度,对各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果的步骤;
在确定头节点所反映实体所属的信息类型为属性信息,且属性排序结果中的最高相关度小于预设相关度阈值的情况下,输出第二提示信息,其中第二提示信息用于提示用户输入包括属性信息的文本;获取用户输入的文本,重新执行基于待回答问题所要求的头节点的属性信息与各个实体节点所反映实体所属的属性信息的相关度,对各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果的步骤。
在本实施例中,通过确定模块确定待回答问题对应的待确认向量,并确定待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,能够通过待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,明确该待回答问题是否能够在某个或某些领域知识图谱中查到对应的答案,可以针对不同的领域知识图谱进行问题的答复,便于后续处理;使用确定模块依据预设相似度阈值和多个相似度,确定待回答问题所属的目标领域知识图谱,准确确定待回答问题是属于目标领域知识图谱的问题,缩小答案的检索范围;使用回答模块基于待回答问题所属的目标领域知识图谱,确定待回答问题对应的答案,能够提升对待回答问题对应的答案的识别准确性,提升问答识别能力。
可以理解,本申请提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本申请不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本申请还提供了电子设备、计算机可读存储介质,上述均可用来实现本申请提供的任一种基于多个领域知识图谱的问答方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图5为本申请实施例提供的一种电子设备的组成方框图。
如图5所示,本申请实施例提供了一种电子设备,该电子设备500包括:至少一个处理器501;至少一个存储器502,以及一个或多个I/O接口503,连接在处理器501与存储器502之间;其中,存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器501执行,以使至少一个处理器501能够执行上述的基于多个领域知识图谱的问答方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的基于多个领域知识图谱的问答方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本申请实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述基于多个领域知识图谱的问答方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。
Claims (10)
1.一种知识图谱问答方法,其特征在于,包括:
确定待回答问题对应的待确认向量,并分别确定所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度;
依据预设的相似度阈值和所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从所述各个领域知识图谱中确定所述待回答问题所属的目标领域知识图谱;
基于所述待回答问题所属的目标领域知识图谱,确定所述待回答问题对应的答案。
2.根据权利要求1所述的方法,其特征在于,每个领域知识图谱中包括相应领域多个实体节点以及用于表征多个实体节点之间关系的连线,任意两个或多个实体节点以及对应的连线组成一个路径;所述方法还包括:
采用无监督的方式对多个领域知识图谱中的路径进行学习,获得预训练模型,其中,在所述预训练模型的训练过程中,通过对测试正例和测试负例进行训练获得所述预训练模型,所述测试正例由相同领域的领域知识图谱内的任意两个路径组成,所述测试负例由不同领域的领域知识图谱内的任意两个路径组成;
依据所述预训练模型对多个所述领域知识图谱中的各个路径进行聚类,获得各个领域的知识图谱空间;
对各个领域的知识图谱空间中的路径进行路径聚类,获得所述各个领域知识图谱对应的聚类中心向量。
3.根据权利要求1所述的方法,其特征在于,所述分别确定所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,包括:
分别确定所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的距离值;
基于确定出的距离值计算所述待确认向量与各个领域知识图对应的聚类中心向量之间的相似度;其中,距离值越小,相似度越大。
4.根据权利要求1所述的方法,其特征在于,所述依据预设的相似度阈值和所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度,从所述各个领域知识图谱中确定所述待回答问题所属的目标领域知识图谱,包括:
将所述待确认向量与各个领域知识图谱对应的聚类中心向量之间的相似度中,大于预设的相似度阈值的相似度对应的聚类中心向量确定为候选聚类中心向量;
对所述候选聚类中心向量进行排序,获得相似度排序结果;
提取所述相似度排序结果中相似度最大的聚类中心向量对应的领域知识图谱作为所述目标领域知识图谱。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标领域知识图谱包括多个实体节点以及用于表征所述多个实体之间关系的连线,任意两个或多个实体节点以及对应的连线组成一个路径;所述基于所述待回答问题所属的目标领域知识图谱,确定所述待回答问题对应的答案,包括:
遍历所述目标领域知识图谱中的各个实体节点,获得所述待回答问题对应的多个待使用路径,其中,所述多个待使用路径中每个待使用路径中的实体节点所反映实体所属的信息类型,与所述待回答问题中包括的信息类型之间的相关度满足预设相关度阈值;
基于所述多个待使用路径对所述待确认向量进行匹配,确定所述待回答问题对应的答案。
6.根据权利要求5所述的方法,其特征在于,所述遍历所述目标领域知识图谱中的各个实体节点,获得所述待回答问题对应的多个待使用路径,包括:
遍历各个实体节点,根据所述待回答问题所要求的头节点的信息类型以及所述各个实体节点所反映实体所属的信息类型,从所述多个实体节点中识别得到目标头节点,其中,所述目标头节点对应多条待选路径;
基于所述目标头节点对应的每条待选路径中的各个实体节点所反映实体所属的信息类型与所述待回答问题之间的相关度,对所述多条待选路径进行排序,获得路径排序结果;
从所述路径排序结果中,选择相关度大于所述预设相关度阈值的多个路径作为所述待回答问题对应的所述多个待使用路径。
7.根据权利要求6所述的方法,其特征在于,信息类型包括产品信息、属性信息和渠道信息中的至少一种;所述待回答问题所要求的头节点的信息类型包括产品信息、属性信息和渠道信息中至少一种;
所述根据所述待回答问题所要求的头节点的信息类型以及所述各个实体节点所反映实体所属的信息类型,从所述多个实体节点中识别得到目标头节点,包括:
基于所述待回答问题所要求的头节点的产品信息与所述各个实体节点所反映实体所属的产品信息的相关度,对所述各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果;
基于所述待回答问题所要求的头节点的属性信息与所述各个实体节点所反映实体所属的属性信息的相关度,对所述各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果;
基于所述待回答问题所要求的头节点的渠道信息与所述各个实体节点所反映实体所属的渠道信息的相关度,对所述各个实体节点所反映实体所属的渠道信息进行排序,获得渠道排序结果;
依据所述产品排序结果中的相关度最高的产品信息、所述属性排序结果中的相关度最高的属性信息、以及所述渠道排序结果中的相关度最高的渠道信息中的至少一种,确定所述目标头节点。
8.根据权利要求7所述的方法,其特征在于,所述依据所述产品排序结果中的相关度最高的产品信息、所述属性排序结果中的相关度最高的属性信息、以及所述渠道排序结果中的相关度最高的渠道信息中的至少一种,确定所述目标头节点之前,还包括:
在确定所述头节点所反映实体所属的信息类型为产品信息,且所述产品排序结果中的最高相关度小于预设相关度阈值的情况下,输出第一提示信息,其中,所述第一提示信息用于提示用户输入包括所述产品信息的文本;
获取所述用户输入的文本,重新执行所述基于所述待回答问题所要求的头节点的产品信息与所述各个实体节点所反映实体所属的产品信息的相关度,对所述各个实体节点所反映实体所属的产品信息进行排序,获得产品排序结果的步骤;
在确定头节点所反映实体所属的信息类型为属性信息,且所述属性排序结果中的最高相关度小于预设相关度阈值的情况下,输出第二提示信息,其中,所述第二提示信息用于提示用户输入包括所述属性信息的文本;
获取所述用户输入的文本,重新执行所述基于所述待回答问题所要求的头节点的属性信息与所述各个实体节点所反映实体所属的属性信息的相关度,对所述各个实体节点所反映实体所属的属性信息进行排序,获得属性排序结果的步骤。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的知识图谱问答方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的知识图谱问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310096409.7A CN116150399A (zh) | 2023-02-09 | 2023-02-09 | 知识图谱问答方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310096409.7A CN116150399A (zh) | 2023-02-09 | 2023-02-09 | 知识图谱问答方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116150399A true CN116150399A (zh) | 2023-05-23 |
Family
ID=86338614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310096409.7A Pending CN116150399A (zh) | 2023-02-09 | 2023-02-09 | 知识图谱问答方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150399A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628167A (zh) * | 2023-06-08 | 2023-08-22 | 四维创智(北京)科技发展有限公司 | 一种响应确定方法、装置、电子设备及存储介质 |
CN116702048A (zh) * | 2023-08-09 | 2023-09-05 | 恒生电子股份有限公司 | 一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备 |
-
2023
- 2023-02-09 CN CN202310096409.7A patent/CN116150399A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628167A (zh) * | 2023-06-08 | 2023-08-22 | 四维创智(北京)科技发展有限公司 | 一种响应确定方法、装置、电子设备及存储介质 |
CN116628167B (zh) * | 2023-06-08 | 2024-04-05 | 四维创智(北京)科技发展有限公司 | 一种响应确定方法、装置、电子设备及存储介质 |
CN116702048A (zh) * | 2023-08-09 | 2023-09-05 | 恒生电子股份有限公司 | 一种新增意图识别方法、分布外监测模型的训练方法、装置、电子设备 |
CN116702048B (zh) * | 2023-08-09 | 2023-11-10 | 恒生电子股份有限公司 | 一种新增意图识别方法、模型训练方法、装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100529B (zh) | 搜索内容排序方法、装置、存储介质和电子设备 | |
CN116150399A (zh) | 知识图谱问答方法、电子设备及存储介质 | |
US20150310073A1 (en) | Finding patterns in a knowledge base to compose table answers | |
Paul et al. | Focused domain contextual AI chatbot framework for resource poor languages | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN115186764A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113011172B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN114817538B (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN115129883B (zh) | 实体链接方法和装置、存储介质及电子设备 | |
CN118113855B (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
US20210064932A1 (en) | Knowledge Graph-Based Query in Artificial Intelligence Chatbot With Base Query Element Detection and Graph Path Generation | |
CN117272937B (zh) | 文本编码模型训练方法、装置、设备及存储介质 | |
EP4030355A1 (en) | Neural reasoning path retrieval for multi-hop text comprehension | |
CN116628162A (zh) | 语义问答方法、装置、设备及存储介质 | |
CN117009478A (zh) | 一种基于软件知识图谱问答问句解析过程的算法融合方法 | |
CN116186220A (zh) | 信息检索方法、问答处理方法、信息检索装置及系统 | |
CN116069876A (zh) | 基于知识图谱的问答方法、装置、设备及存储介质 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN111597306B (zh) | 语句识别方法和装置、存储介质及电子设备 | |
CN113128201B (zh) | 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质 | |
Almuslim et al. | Document level embeddings for identifying similar legal cases and laws (aila 2020 shared task) | |
CN116150428B (zh) | 视频标签获取方法、装置、电子设备及存储介质 | |
Li | [Retracted] Question and Answer Techniques for Financial Audits in Universities Based on Deep Learning | |
Lee et al. | Cross Encoding as Augmentation: Towards Effective Educational Text Classification | |
Yang et al. | Enhanced Video BERT for Fast Video Advertisement Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |