CN116303923A - 一种知识图谱问答方法、装置、计算机设备和存储介质 - Google Patents
一种知识图谱问答方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116303923A CN116303923A CN202211625694.9A CN202211625694A CN116303923A CN 116303923 A CN116303923 A CN 116303923A CN 202211625694 A CN202211625694 A CN 202211625694A CN 116303923 A CN116303923 A CN 116303923A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- result
- knowledge graph
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 10
- 238000009411 base construction Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及知识图谱问答分析技术领域,特别是涉及一种知识图谱问答方法、装置、计算机设备和存储介质。一种知识图谱问答方法通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。本申请能在给定的构建完成的知识图谱上,通过对用户问题的理解,将用户问题转化为知识图谱上的查询语句,并执行该查询语句得到答案返回的过程。
Description
技术领域
本申请涉及知识图谱问答分析技术领域,特别是涉及一种知识图谱问答方法、装置、计算机设备和存储介质。
背景技术
问答系统是对自然语言处理的一种重要应用,其利用知识图谱的存储方式进行组织和理解,然后对用户的问题进行自然语言理解后,迅速高效的从知识图谱中获取与问句相关的准确信息。
在相关技术领域中,基于知识图谱的问答系统通常采用分析总结用户问题类型,结合专门构建的知识图谱来进行问句类型归纳,构建基于槽提取的意图模板库的方式。该方法针对特定场景有准确率高、可做复杂需求的优点,能通过建立大量的意图模板库满足用户各种问法。但是,建立意图模板库的过程往往需要人工耗费大量精力,去收集整理大量问题样例,并且针对各个意图模板分别需要查询逻辑。因为各领域场景查询逻辑的不一致,其也导致已有的意图模板库无法在其他知识图谱或领域应用。
因此,如何提供一种无需构建复杂意图模板库,即可实现基于知识图谱进行问答的方法是本领域技术人员丞待解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种知识图谱问答方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种知识图谱问答方法,包括:
通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
在其中一个实施例中,通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息的步骤之前,还包括:
对获取的用户问句进行去除空格、去除标点符号、去除特殊字符和去除停用词中至少一项的标准化处理。
在其中一个实施例中,通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果,包括:
将分词信息在搜索知识库召回,得到召回结果;
对大于阈值的召回结果判断是否有位置冲突;
将编辑距离得分最高的召回结果作为检索结果。
在其中一个实施例中,通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果,包括:
将模板库以外的检索结果去除;
将检索结果的约束属性去除;
识别检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到答案结果。
在其中一个实施例中,根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术,包括:
将答案结果填充至查询模板;
查询模板将对应的答案生成答案话术模板。
在其中一个实施例中,知识库建设,包括:
根据数据库对象信息加载词典,得到词库;
根据数据库对象信息和图数据,建设实体关系和属性实例的标准化映射,得到搜索知识库;
根据中文语义相似度模型、特定领域下的命名实体模型和文本分类模型中的至少一项得到模型库;
根据有无实体实例、有无关系和有无实体属性中的至少一项得到查询模板库。
第二方面,本申请还提供了一种知识图谱问答装置,包括:
分词单元,用于通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
检索单元,用于通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
答案分析单元,用于通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
答案话术生成单元,用于根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
第三方面,本申请还提供了一种知识图谱问答系统,包括:
数据层,数据层包括用户配置的图本体模型、已构建的知识图谱、数据索引以及基于图本体模型构建的词库;
基础引擎层,基础引擎层包括槽信息提取模块和查询意图分类模块;
服务层,服务层包括图谱查询服务和问答服务。
第四方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
第五方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
上述一种知识图谱问答方法、装置、计算机设备和存储介质,本申请通过通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。本申请能在给定的构建完成的知识图谱上,通过对用户问题的理解,将用户问题转化为知识图谱上的查询语句,并执行该查询语句得到答案返回的过程。当构建好知识图谱和知识图谱的图本体模型,无需额外配置问题意图,即可实现实体属性的查询、实体一度关系的简单查询,以及节点多值查询、关系属性查询、跨节点类型相对复杂的查询。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中知识图谱问答方法的流程示意图;
图2为一个实施例中知识图谱问答方法的检索结果流程示意图;
图3为一个实施例中知识图谱问答方法的答案结果流程示意图;
图4为一个实施例中知识图谱问答方法的生成答案话术流程示意图;
图5为一个实施例中知识图谱问答方法的知识库建设流程示意图;
图6为一个实施例中知识图谱问答方法的内部实现流程图;
图7为一个实施例中知识图谱问答系统的结构示意图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的耦合。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
本申请实施例提供的一种知识图谱问答方法,可以应用于基于知识图谱进行问答领域,该知识图谱问答方法通过通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。本申请能在给定的构建完成的知识图谱上,通过对用户问题的理解,将用户问题转化为知识图谱上的查询语句,并执行该查询语句得到答案返回的过程。当构建好知识图谱和知识图谱的图本体模型,无需额外配置问题意图,即可实现实体属性的查询、实体一度关系的简单查询,以及节点多值查询、关系属性查询、跨节点类型相对复杂的查询。
如图1所示,在本实施例中,提供了一种知识图谱问答方法,包括以下步骤:
S101:通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息。
具体地,知识图谱问答装置通过预先建立的词库对用户问句进行数据库对象信息(schema)提取,抽取方式主要利用jieba三方分词工具得到分词信息。如问句“苹果公司的所在地”的抽取结果为“所在地company.location begin:5end:8”。
S102:通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果。
具体地,知识图谱问答装置利用检索方法,实现实体识别和对齐。具体为知识图谱问答装置将用户问句在检索知识库中利用bm25算法粗召回,其中,召回是指根据输入的问题query,能够高效的获取query相关的候选doc集合的过程。召回算法一般分为两类,基于词的传统召回和基于向量的语义召回。基于词的传统召回的实现基于倒排索引,当用户输入query后,搜索引擎回进行query理解并分词,在倒排索引中找出分词结果所在文档即完成召回。BM25算法即是一种经典的检索算法,其是一种基于概率检索模型。
S103:通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果。
具体地,知识图谱问答装置通过预先建立的模板库,对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果。其中,拒识是指去除模板库文本以外的其他文本。约束规整是指去除约束属性的词语。方向判断是指提取隐式关系语义指向信息。
S104:根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
具体地,知识图谱问答装置综合数据库对象信息(schema)抽取结果、检索结果,选定符合的查询模板,并将结果填充至模板中。将填充完毕的查询模板,在图谱查询服务中执行查询,根据答案返回的情况进行答案话术的生成。
在该实施例中,提供了一种知识图谱问答方法,通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。本申请能在给定的构建完成的知识图谱上,通过对用户问题的理解,将用户问题转化为知识图谱上的查询语句,并执行该查询语句得到答案返回的过程。当构建好知识图谱和知识图谱的图本体模型,无需额外配置问题意图,即可实现实体属性的查询、实体一度关系的简单查询,以及节点多值查询、关系属性查询、跨节点类型相对复杂的查询。
在本实施例中,提供了步骤S101:通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息步骤之前,包括以下步骤:
对获取的用户问句进行去除空格、去除标点符号、去除特殊字符和去除停用词中至少一项的标准化处理。
具体地,知识图谱问答装置对用户输入的用户问句进行规范化处理,其中,规范化处理包括:去除空格、标点符合、特殊字符和停用词等处理。当在特定领域中时,在已知图数据库数据概况的情况下,也可以对如日期、汉字数值转为阿拉伯数字等特殊处理。如已知图数据库中电压一般以“330Kv”格式存储时,当问句中出现330千伏或三百三十千伏时,即可先提前标准为“330Kv”格式。
在该实施例中,知识图谱问答装置对用户输入的用户问句进行规范化处理,使用户问句规范化,便于知识图谱问答装置进行识别,进一步提高答案的准确性。
如图2所示,在本实施例中,提供了步骤S102:通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果,包括以下步骤:
S1021:将分词信息在搜索知识库召回,得到召回结果。
具体地,知识图谱问答装置将分词信息在搜索知识库召回,得到召回结果,再将召回结果和问句做相似度匹配,该相似度主要考虑文本层面和语义层面的相似度得分。
S1022:对大于阈值的召回结果判断是否有位置冲突。
具体地,知识图谱问答装置对满足阈值以上的召回结果做进一步筛选,其中,进一步筛选主要是判断召回结果中是否有位置冲突,即是否存在相同位置的字符串同时命中了多个检索结果,是否包含冲突。
S1023:将编辑距离得分最高的召回结果作为检索结果。
具体地,知识图谱问答装置如果判断出召回结果包含冲突,则结合编辑距离得分对多个召回结果做长度优先选择出最优结果集。如问句“海至星图的成立时间?”其召回结果中包含”海致星图”,并且“海致星图”和“海至星图”的相似度在阈值之上,则能得到“海至星图-->company.name”的规范表达,即实体对齐。
在该实施例中,知识图谱问答装置将分词信息在搜索知识库召回,得到召回结果;对大于阈值的召回结果判断是否有位置冲突将编辑距离得分最高的召回结果作为检索结果;基于检索结果与对齐用户问句中的实体实例,以此选出最优的检索结果,进一步提高答案结果的准确性。
如图3所示,在本实施例中,提供了S103:通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果,包括以下步骤:
S1031:将模板库以外的检索结果去除。
具体地,知识图谱问答装置将用户问题的内容分为四类:第一类schema抽取结果、第二类实例抽取结果、第三类图谱相关文本和第四类停用词文本。知识图谱问答装置首先对用户问句的第四类停用词去除后,再去除其他三类文本以外的其他文本。知识图谱问答装置将检索结果和原生文本做比较,将小于置信度的则返回无答案;满足阈值则进入下一步操作。
S1032:将检索结果的约束属性去除。
具体地,其中,约束规整是指在schema抽取到的结果中,如果是约束属性则需要去除。如:知识图谱问答装置获取到用户问句“年龄为17岁的学生有哪些?”,schema抽取的结果为[“年龄student.age...”,“学生student,...”],检索结果中能得到[“17岁student.age...”],结合2者的结果可以判断“年龄=17岁”的约束条件成立,则从schema结果集中去除“年龄”的结果。
S1033:识别检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到答案结果。
具体地,知识图谱问答装置深层次理解语句中实体间的关系信息更有利于问答准确性。根据schema结果获取语句中的实体类别,同时利用规则方式对显现关系信息进行提取,将“向..转账”、“..转给..”等形成规则库,当接收问句“A向B转账”,则明确其方向是A->B;或问句“A的上游厂商”,”厂商”是目标实体,A是检索结果实例,“上游”是关系。通过识别句法中的语义角色来判定谓语和变元间的语义关系,从而提取隐式关系语义指向信息。
在该实施例中,知识图谱问答装置将模板库以外的检索结果去除;将检索结果的约束属性去除;识别检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到答案结果。知识图谱问答装置将用户问句分为停用词、图谱问答相关文本、schema抽取文本、实例抽取文本4块片段,整合各片段的内容和做文本相似度匹配的方法来做拒识,提取隐式关系语义指向信息,得到答案结果,用以提高实体识别的准确率和泛化能力。
如图4所示,在本实施例中,提供了步骤S104:根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术,包括以下步骤:
S1041:将答案结果填充至查询模板。
具体地,知识图谱问答装置综合schema抽取结果、检索结果,选定符合的查询模板,并将结果填充至模板中。
S1042:查询模板将对应的答案生成答案话术模板。
具体地,知识图谱问答装置将填充完毕的查询模板,在图谱查询服务中执行查询,根据答案返回的情况进行答案话术的生成,大体根据无答案,返回单个,返回多个答案的情况,并且每个查询模板都有对应的答案生成答案话术模板。
在该实施例中,知识图谱问答装置利用配置的schema配置的中英文映射,抽取用户问句中的schema片段,和基于检索对齐用户问句中的实体实例,2种抽取方案结合的方法解析理解用户问句,并定位其适合的查询模板,查询模板将对应的答案生成答案话术模板。在公开数据集上进过验证,未做其他针对性优化前提下的正确率约为56%;特定领域场景下,正确率约为89%,可满足大部分日常问答需求。
如图5和图6所示,在本实施例中,提供了知识库建设,包括:
S201:根据数据库对象信息加载词典,得到词库。
具体地,知识图谱问答装置根据配置的数据库对象信息(schema)加载词典,词典主要包括各实体关系本体层的中英文映射,各实体、关系属性的本体层中英文映射。主要为后续抽取问句中的数据库对象信息(schema)内容服务,同时支持同义词来对词典抽取方法做扩展。
S202:根据数据库对象信息和图数据,建设实体关系和属性实例的标准化映射,得到搜索知识库.
具体地,知识图谱问答装置查询接入的图数据库,根据数据库对象信息(schema)构建各实体关系以及属性实例的标准化映射。如”苹果公司”映射为”company.name”,主要为后续抽取实体实例服务。
S203:根据中文语义相似度模型、特定领域下的命名实体模型和文本分类模型中的至少一项得到模型库.
具体地,知识图谱问答装置的模型库包括预训练模型和领域定制模型。包括中文语义相似度模型、特定领域下的命名实体模型、文本分类模型等。
S204:根据有无实体实例、有无关系和有无实体属性中的至少一项得到查询模板库。
具体地,知识图谱问答装置根据有无实体实例、有无关系、有无实体属性的情况,共分为无实例查询模板、单实例无属性查询模板、单实例单属性查询模板、单实例多属性查询模板、单实例关系查询模板、节点统计查询模板、无实例关系属性查询模板、单实例的关系属性查询模板、单实例边类型查询模板、多实例边属性查询等12种,并且在每个查询模板内内置答案返回模板。以下是部分查询模板的问题样例:
在查询方法库,集成在图谱查询服务中,主要有查询实体节点、查询与实体有关系的另一实体节点、查询2个实例之间的关系、查询2个实体类型之间的关系(兼容关系约束)的4个查询方法封装。
在该实施例中,知识图谱问答装置通过对知识库的建设,利用配置的schema配置的中英文映射,同时配置好该知识图谱的图本体模型定义,无需额外配置问题意图,即可实现查询。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的知识图谱问答方法的知识图谱问答装置。该知识图谱问答装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个知识图谱问答装置实施例中的具体限定,可以参见上文中对于知识图谱问答方法的限定,在此不再赘述。
在其中一个实施例中,提供一种知识图谱问答装置,包括:
分词单元,用于通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
检索单元,用于通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
答案分析单元,用于通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
答案话术生成单元,用于根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
在中一个实施例中,通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息的步骤之前,还包括:
标准化单元,用于对获取的用户问句进行去除空格、去除标点符号、去除特殊字符和去除停用词中至少一项的标准化处理。
在中一个实施例中,通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果,包括:
召回单元,用于将分词信息在搜索知识库召回,得到召回结果;
分析单元,用于对大于阈值的召回结果判断是否有位置冲突;
检索结果分析单元,用于将编辑距离得分最高的召回结果作为检索结果。
在中一个实施例中,通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果,包括:
去除单元,用于将模板库以外的检索结果去除;
约束属性去除单元,用于将检索结果的约束属性去除;
答案结果单元,用于识别检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到答案结果。
在中一个实施例中,根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术,包括:
结果填充单元,用于将答案结果填充至查询模板;
答案话术生成单元,用于查询模板将对应的答案生成答案话术模板。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的知识图谱问答方法的知识图谱问答系统。该知识图谱问答系统所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个知识图谱问答装置实施例中的具体限定,可以参见上文中对于知识图谱问答方法的限定,在此不再赘述。
如图7所示,在其中一个实施例中,提供一种知识图谱问答系统,包括:
数据层,数据层包括用户配置的图本体模型、已构建的知识图谱、数据索引以及基于图本体模型构建的词库。
基础引擎层,基础引擎层包括槽信息提取模块和查询意图分类模块。基础引擎层主要服务于用户问句的理解,槽信息提取主要采用中文分词、BM25算法检索召回、文本编辑距离计算和实体识别算法等;意图分类中在本方案中主要指根据问句中有无实体实例、有无关系、有无实体属性的情况将问句理解并填充到各查询模板的过程,主要采用了最优字串、中文文本语义向量化模型、句法分析和文本相似度判断等技术。
服务层,服务层包括图谱查询服务和问答服务。图谱查询服务主要是将对各类图数据库的查询访问独立出来的模块,对如查询实体、查询关系等方法独立封装,当接入一个新类型的图数据库时,只需要基于新图数据库的查询语法对各方法重新封装即可。问答服务主要提供用户问句进来,返回答案的接口服务。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储周期任务分配数据,例如配置文件、理论运行参数和理论偏差值范围、任务属性信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱问答方法。
领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
在一个实施例中,处理器执行计算机程序时实现通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息的步骤之前,还包括:
对获取的用户问句进行去除空格、去除标点符号、去除特殊字符和去除停用词中至少一项的标准化处理。
在一个实施例中,处理器执行计算机程序时实现通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果,包括:
将分词信息在搜索知识库召回,得到召回结果;
对大于阈值的召回结果判断是否有位置冲突;
将编辑距离得分最高的召回结果作为检索结果。
在一个实施例中,处理器执行计算机程序时实现通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果,包括:
将模板库以外的检索结果去除;
将检索结果的约束属性去除;
识别检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到答案结果。
在一个实施例中,处理器执行计算机程序时实现根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术,包括:
将答案结果填充至查询模板;
查询模板将对应的答案生成答案话术模板。
在一个实施例中,处理器执行计算机程序时实现知识库建设,包括:
根据数据库对象信息加载词典,得到词库;
根据数据库对象信息和图数据,建设实体关系和属性实例的标准化映射,得到搜索知识库;
根据中文语义相似度模型、特定领域下的命名实体模型和文本分类模型中的至少一项得到模型库;
根据有无实体实例、有无关系和有无实体属性中的至少一项得到查询模板库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果;
通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果;
根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
在一个实施例中,计算机程序被处理器执行时实现通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息的步骤之前,还包括:
对获取的用户问句进行去除空格、去除标点符号、去除特殊字符和去除停用词中至少一项的标准化处理。
在一个实施例中,计算机程序被处理器执行时实现通过预先建立的搜索知识库对分词信息进行实体识别,得到检索结果,包括:
将分词信息在搜索知识库召回,得到召回结果;
对大于阈值的召回结果判断是否有位置冲突;
将编辑距离得分最高的召回结果作为检索结果。
在一个实施例中,计算机程序被处理器执行时实现通过预先建立的模板库对检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到用户问句的答案结果,包括:
将模板库以外的检索结果去除;
将检索结果的约束属性去除;
识别检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到答案结果。
在一个实施例中,计算机程序被处理器执行时实现根据答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术,包括:
将答案结果填充至查询模板;
查询模板将对应的答案生成答案话术模板。
在一个实施例中,计算机程序被处理器执行时实现知识库建设,包括:
根据数据库对象信息加载词典,得到词库;
根据数据库对象信息和图数据,建设实体关系和属性实例的标准化映射,得到搜索知识库;
根据中文语义相似度模型、特定领域下的命名实体模型和文本分类模型中的至少一项得到模型库;
根据有无实体实例、有无关系和有无实体属性中的至少一项得到查询模板库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
本公开的保护范围不限于上述的实施例,显然,本领域的技术人员可以对本公开进行各种改动和变形而不脱离本公开的范围和精神。倘若这些改动和变形属于本公开权利要求及其等同技术的范围,则本公开的意图也包含这些改动和变形在内。
Claims (10)
1.一种知识图谱问答方法,其特征在于,所述知识图谱问答方法包括:
通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
通过预先建立的搜索知识库对所述分词信息进行实体识别,得到检索结果;
通过预先建立的模板库对所述检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到所述用户问句的答案结果;
根据所述答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
2.根据权利要求1所述的知识图谱问答方法,其特征在于,所述通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息的步骤之前,还包括:
对获取的所述用户问句进行去除空格、去除标点符号、去除特殊字符和去除停用词中至少一项的标准化处理。
3.根据权利要求1所述的知识图谱问答方法,其特征在于,所述通过预先建立的搜索知识库对所述分词信息进行实体识别,得到检索结果,包括:
将所述分词信息在所述搜索知识库召回,得到召回结果;
对大于阈值的所述召回结果判断是否有位置冲突;
将编辑距离得分最高的所述召回结果作为检索结果。
4.根据权利要求1所述的知识图谱问答方法,其特征在于,所述通过预先建立的模板库对所述检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到所述用户问句的答案结果,包括:
将所述模板库以外的所述检索结果去除;
将所述检索结果的约束属性去除;
识别所述检索结果中的谓语和变元间的语义关系,提取隐式关系语义指向信息,得到所述答案结果。
5.根据权利要求1所述的知识图谱问答方法,其特征在于,所述根据所述答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术,包括:
将所述答案结果填充至所述查询模板;
所述查询模板将对应的答案生成答案话术模板。
6.根据权利要求1所述的知识图谱问答方法,其特征在于,知识库建设,包括:
根据所述数据库对象信息加载词典,得到所述词库;
根据所述数据库对象信息和图数据,建设实体关系和属性实例的标准化映射,得到所述搜索知识库;
根据中文语义相似度模型、特定领域下的命名实体模型和文本分类模型中的至少一项得到所述模型库;
根据有无实体实例、有无关系和有无实体属性中的至少一项得到所述查询模板库。
7.一种知识图谱问答装置,其特征在于,所述知识图谱问答装置,包括:
分词单元,用于通过预先建立的词库对用户问句进行数据库对象信息提取,得到分词信息;
检索单元,用于通过预先建立的搜索知识库对所述分词信息进行实体识别,得到检索结果;
答案分析单元,用于通过预先建立的模板库对所述检索结果进行拒识、约束规整和方向判断中的至少一项处理,得到所述用户问句的答案结果;
答案话术生成单元,用于根据所述答案结果选择相应的查询模板,在知识图谱的查询服务中生成答案话术。
8.一种知识图谱问答系统,其特征在于,所述知识图谱问答系统,包括:
数据层,所述数据层包括用户配置的图本体模型、已构建的知识图谱、数据索引以及基于图本体模型构建的所述词库;
基础引擎层,所述基础引擎层包括槽信息提取模块和查询意图分类模块;
服务层,所述服务层包括图谱查询服务和问答服务。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211625694.9A CN116303923A (zh) | 2022-12-16 | 2022-12-16 | 一种知识图谱问答方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211625694.9A CN116303923A (zh) | 2022-12-16 | 2022-12-16 | 一种知识图谱问答方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303923A true CN116303923A (zh) | 2023-06-23 |
Family
ID=86815562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211625694.9A Pending CN116303923A (zh) | 2022-12-16 | 2022-12-16 | 一种知识图谱问答方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303923A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756184A (zh) * | 2023-08-17 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 数据库实例处理方法、装置、设备、存储介质及程序产品 |
CN118193486A (zh) * | 2024-03-19 | 2024-06-14 | 北京环球医疗救援有限责任公司 | 一种问答模型数据库的构建方法和装置 |
CN118312577A (zh) * | 2024-03-27 | 2024-07-09 | 北京衔远有限公司 | 知识库的自动构建方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN110427463A (zh) * | 2019-08-08 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 搜索语句响应方法、装置及服务器和存储介质 |
US20210201174A1 (en) * | 2019-12-30 | 2021-07-01 | International Business Machines Corporation | Generating question templates in a knowledge-graph based question and answer system |
CN113157873A (zh) * | 2021-01-25 | 2021-07-23 | 北京海致星图科技有限公司 | 一种基于模板匹配和深度学习的知识库问答系统构建方法 |
CN113806513A (zh) * | 2021-09-30 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种基于军事领域知识图谱的问答系统构建方法及系统 |
-
2022
- 2022-12-16 CN CN202211625694.9A patent/CN116303923A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN110427463A (zh) * | 2019-08-08 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 搜索语句响应方法、装置及服务器和存储介质 |
US20210201174A1 (en) * | 2019-12-30 | 2021-07-01 | International Business Machines Corporation | Generating question templates in a knowledge-graph based question and answer system |
CN113157873A (zh) * | 2021-01-25 | 2021-07-23 | 北京海致星图科技有限公司 | 一种基于模板匹配和深度学习的知识库问答系统构建方法 |
CN113806513A (zh) * | 2021-09-30 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种基于军事领域知识图谱的问答系统构建方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756184A (zh) * | 2023-08-17 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 数据库实例处理方法、装置、设备、存储介质及程序产品 |
CN116756184B (zh) * | 2023-08-17 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 数据库实例处理方法、装置、设备、存储介质及程序产品 |
CN118193486A (zh) * | 2024-03-19 | 2024-06-14 | 北京环球医疗救援有限责任公司 | 一种问答模型数据库的构建方法和装置 |
CN118312577A (zh) * | 2024-03-27 | 2024-07-09 | 北京衔远有限公司 | 知识库的自动构建方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
US20210382878A1 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
WO2020057022A1 (zh) | 关联推荐方法、装置、计算机设备和存储介质 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
US20220261427A1 (en) | Methods and system for semantic search in large databases | |
US8775433B2 (en) | Self-indexing data structure | |
CN116303923A (zh) | 一种知识图谱问答方法、装置、计算机设备和存储介质 | |
US9037613B2 (en) | Self-learning data lenses for conversion of information from a source form to a target form | |
CN108922633A (zh) | 一种疾病名称标准化规范方法及规范系统 | |
US9043367B2 (en) | Self-learning data lenses for conversion of information from a first form to a second form | |
CN105787134B (zh) | 智能问答方法、装置及系统 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
WO2020155749A1 (zh) | 构建个人知识图谱的方法、装置、计算机设备和存储介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
KR20220074576A (ko) | 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치 | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和系统 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN113641833A (zh) | 服务需求匹配方法及装置 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
US11983506B2 (en) | Hybrid translation system using a general-purpose neural network machine translator | |
CN117591546A (zh) | 查询语句生成方法和装置、电子设备、存储介质 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230623 |