CN115114420A - 一种知识图谱问答方法、终端设备及存储介质 - Google Patents

一种知识图谱问答方法、终端设备及存储介质 Download PDF

Info

Publication number
CN115114420A
CN115114420A CN202210687513.9A CN202210687513A CN115114420A CN 115114420 A CN115114420 A CN 115114420A CN 202210687513 A CN202210687513 A CN 202210687513A CN 115114420 A CN115114420 A CN 115114420A
Authority
CN
China
Prior art keywords
question
knowledge
graph
query
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210687513.9A
Other languages
English (en)
Inventor
洪万福
黄勇
苏金钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202210687513.9A priority Critical patent/CN115114420A/zh
Publication of CN115114420A publication Critical patent/CN115114420A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种知识图谱问答方法、终端设备及存储介质,该方法中包括:根据知识图谱中的实体、关系和属性的名称构建词库;基于词库对问句进行实体、关系和属性进行识别;对问句进行句法分析;判断问句是否属于单跳类型,如果是,采用模板匹配方式获取问句对应的查询语句;否则,采用子图匹配方式获取问句对应的查询语句;基于查询语句从知识图谱中进行查询。本发明通过对问句类型进行区分,对简单问句沿用模板匹配的方式,而对复杂问句采用子图匹配的方式来获取查询语句,在保证简单问题准确回答的基础上,又能支持多跳、推理等复杂类型问题的答案检索,能显著提升知识图谱问答能力。

Description

一种知识图谱问答方法、终端设备及存储介质
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种知识图谱问答方法、终端设备及存储介质。
背景技术
基于知识图谱的问答(Knowledge Graph Question Answering,KGQA)是自然语言处理领域的研究方向。知识图谱是知识的结构化表示,由三元组(主语,谓词,宾语)构成,表示实体和实体间存在的语义关系,例如:厦门市花是三角梅,可以表示为:(厦门,市花,三角梅)。通过把非结构化、半结构化和结构化的数据抽取出来组成一种基于图的数据格式,由点和边组成一个庞大的关系网络图,这大大的优化了搜索性能。
知识图谱问答可以解决传统搜索的问题。同时,结合自然语言处理技术,通过近似匹配、语义理解、关系判断等,在数据库中检索出相似度最高的数据。知识图谱问答主要任务是给定自然语言问题,理解问题中包含的实体、语义关系和逻辑组合,到知识图谱中检索并返回答案。
现有的知识图谱问答产品通过模板匹配的方式组装查询语句,对单实体单属性、单实体多属性、多实体单属性、多实体多属性等简单问句查询的准确率高、效果较好,目前在装备图谱测试准确率90%以上,但模板生成需要较专业的语言学知识且可扩展性不强,问句泛化能力弱,对于复杂问句类型穷举难,尤其对于条件约束、时间约束多跳问句或者最值、比较、是否、并列推理复杂类型问句兼容不够难以返回准确答案,难以满足用户的需求。
发明内容
为了解决上述问题,本发明提出了一种知识图谱问答方法、终端设备及存储介质。
具体方案如下:
一种知识图谱问答方法,包括以下步骤:
S1:根据知识图谱中的实体、关系和属性的名称构建词库;
S2:基于词库对问句进行实体、关系和属性进行识别;
S3:对问句进行句法分析;
S4:判断问句是否属于单跳类型,如果是,采用模板匹配方式获取问句对应的查询语句;否则,采用子图匹配方式获取问句对应的查询语句;
S5:基于查询语句从知识图谱中进行查询。
进一步的,步骤S1中还包括对知识图谱中的实体、关系和属性的名称进行同义词生成操作,基于原词和同义词共同构建词库。
进一步的,基于词库对问句进行实体进行识别的过程包括:通过命名实体识别模型对问句中的实体进行识别;通过实体链接从词库中提取识别到的实体在知识图谱中对应的实体名称。
进一步的,基于词库对问句进行关系和属性进行识别的过程包括:基于词库中的关系和属性的名称对问句的关系和属性进行查找。
进一步的,单跳类型的问句包括单实体单属性单跳类型和单实体多属性单跳类型。
进一步的,采用子图匹配方式获取问句对应的查询语句的过程包括:基于句法分析结果获取问句的所有查询子图,将各查询子图分别与知识图谱进行匹配,根据匹配程度对所有查询子图进行排序,将排序最高的查询子图作为问句对应的查询语句。
进一步的,基于句法分析结果获取问句的所有查询子图的过程包括:
S101:根据知识图谱以键值对的方式构建关系词典,关系词典中键为关系,值为关系对应的两个实体;
S102:根据句法分析结果构建问句的依存关系树;
S103:基于关系词典,在依存关系树中查找所有节点名称为关系词典中的关系名称的节点作为关系节点;
S104:遍历依存关系树中所有以关系节点为根节点的子树,如果该子树与关系词典中的任一键值对完全匹配,则设定该子树为关系子树;
S105:根据依存关系树中边的词性,获取关系子树中各边的词性;
S106:基于关系子树中各边的词性,获取关系子树中关系节点对应的主语节点和宾语节点并进行标注,将标注后的关系子树作为查询子图。
一种知识图谱问答终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,通过对问句类型进行区分,对简单问句沿用模板匹配的方式,而对复杂问句采用子图匹配的方式来获取查询语句,在保证简单问题准确回答的基础上,又能支持多跳、推理等复杂类型问题的答案检索,能显著提升知识图谱问答能力。
附图说明
图1所示为本发明实施例一的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种知识图谱问答方法,如图1所示,所述方法包括以下步骤:
S1:根据知识图谱中的实体、关系和属性的名称构建词库。
用于构建词库的知识图谱应与问句属于相同的领域,通过cypher查询语句遍历图谱节点,可以获取知识图谱中的实体、关系、属性等的名称,将实体、关系和属性的名称添加至词库内。
进一步的,由于一个词可能有多种不同的表达方式,当问句中出现的词与知识图谱中出现的词属于相同含义但不同表达方式时,则无法进行查询,为了避免该问题,本实施例中还包括对知识图谱中的实体、关系和属性的名称进行同义词生成操作,将生成的同义词同样添加至图库内,当查询时将所有的同义词(表示和词条意思相同的词汇或短语)转换为知识图谱中的词即可完成查询,提升问句的识别能力,例如词条“打印机”下设置同义词“云打印”,当问句中出现的词为“云打印”时,将其转换为“打印机”后,再根据“打印机”从知识图谱中进行查询。
S2:基于词库对问句进行实体、关系和属性进行识别。
基于词库对问句进行实体进行识别的过程包括:通过命名实体识别模型对问句中的实体进行识别;通过实体链接从词库中提取识别到的实体在知识图谱中对应的实体名称。
基于词库对问句进行关系和属性进行识别的过程包括:基于词库中的关系和属性的名称对问句的关系和属性进行查找。
S3:对问句进行句法分析。
S4:判断问句是否属于单跳类型,如果是,采用模板匹配方式获取问句对应的查询语句;否则,采用子图匹配方式获取问句对应的查询语句。
所述跳是指节点固定方向出现边的次数,例如“节点-关系-节点”称为单跳,“节点-关系-节点-关系-节点”称为二跳。本实施例中设定单跳类型的问句包括单实体单属性单跳类型(如张三的性别)和单实体多属性单跳类型(如张三的性别和出生地)(多跳如张三的叔叔的年龄)。通过构建并训练对应的分类模型可以实现对问句是否属于上述两种单跳类型的识别。
模板匹配方式为现有的常用方式,其主要根据设定的模板规则,将问句转换为需要的模板形式,并从模板库中匹配到相近的模板,根据模板得到对应的查询语句。
当问句不属于单跳类型时,其可能属于条件约束句、时间约束句、最值句、比较句、是否型问句、并列句等较为复杂的问句,此时无法通过模板匹配方式获得查询语句,因此本实施例中采用子图匹配方式。
采用子图匹配方式获取问句对应的查询语句的过程包括:基于句法分析结果获取问句的所有查询子图,将各查询子图分别与知识图谱进行匹配,根据匹配程度对所有查询子图进行排序,将排序最高的查询子图作为问句对应的查询语句。
基于句法分析结果获取问句的所有查询子图的过程包括以下步骤:
S101:根据知识图谱以键值对的方式构建关系词典,关系词典中键为关系,值为关系对应的两个实体;
S102:根据句法分析结果构建问句的依存关系树;
S103:基于关系词典,在依存关系树中查找所有节点名称为关系词典中的关系名称的节点作为关系节点;
S104:遍历依存关系树中所有以关系节点为根节点的子树,如果该子树与关系词典中的任一键值对完全匹配,则设定该子树为关系子树(关系子树中包含三个节点,中间节点为关系节点,与关系节点相连的两边节点为关系词典中关系所在的键值对中的两实体对应的节点);
S105:根据依存关系树中边的词性,获取关系子树中各边的词性;
S106:基于关系子树中各边的词性,获取关系子树中关系节点对应的主语节点和宾语节点并进行标注,将标注后的关系子树作为查询子图。
S5:基于查询语句从知识图谱中进行查询。
进一步的,由于通过步骤S4获得的查询语句与知识图谱查询语法定义的查询语句的格式可能有差别,因此还需要对获得的查询语句进行改写为复合图谱查询语法定义的查询语句,之后在通过改写后的查询语句从知识图谱中进行查询。如获得的查询语句中缺少状语,则应将其补齐。
本发明实施例通过对问句类型进行区分,对简单问句沿用模板匹配的方式,而对复杂问句采用子图匹配的方式来获取查询语句,在保证简单问题准确回答的基础上,又能支持多跳、推理等复杂类型问题的答案检索,能显著提升知识图谱问答能力。
实施例二:
本发明还提供一种知识图谱问答终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述知识图谱问答终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述知识图谱问答终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述知识图谱问答终端设备的组成结构仅仅是知识图谱问答终端设备的示例,并不构成对知识图谱问答终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述知识图谱问答终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述知识图谱问答终端设备的控制中心,利用各种接口和线路连接整个知识图谱问答终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述知识图谱问答终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述知识图谱问答终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (9)

1.一种知识图谱问答方法,其特征在于,包括以下步骤:
S1:根据知识图谱中的实体、关系和属性的名称构建词库;
S2:基于词库对问句进行实体、关系和属性进行识别;
S3:对问句进行句法分析;
S4:判断问句是否属于单跳类型,如果是,采用模板匹配方式获取问句对应的查询语句;否则,采用子图匹配方式获取问句对应的查询语句;
S5:基于查询语句从知识图谱中进行查询。
2.根据权利要求1所述的知识图谱问答方法,其特征在于:步骤S1中还包括对知识图谱中的实体、关系和属性的名称进行同义词生成操作,基于原词和同义词共同构建词库。
3.根据权利要求1所述的知识图谱问答方法,其特征在于:基于词库对问句进行实体进行识别的过程包括:通过命名实体识别模型对问句中的实体进行识别;通过实体链接从词库中提取识别到的实体在知识图谱中对应的实体名称。
4.根据权利要求1所述的知识图谱问答方法,其特征在于:基于词库对问句进行关系和属性进行识别的过程包括:基于词库中的关系和属性的名称对问句的关系和属性进行查找。
5.根据权利要求1所述的知识图谱问答方法,其特征在于:单跳类型的问句包括单实体单属性单跳类型和单实体多属性单跳类型。
6.根据权利要求1所述的知识图谱问答方法,其特征在于:采用子图匹配方式获取问句对应的查询语句的过程包括:基于句法分析结果获取问句的所有查询子图,将各查询子图分别与知识图谱进行匹配,根据匹配程度对所有查询子图进行排序,将排序最高的查询子图作为问句对应的查询语句。
7.根据权利要求6所述的知识图谱问答方法,其特征在于:基于句法分析结果获取问句的所有查询子图的过程包括:
S101:根据知识图谱以键值对的方式构建关系词典,关系词典中键为关系,值为关系对应的两个实体;
S102:根据句法分析结果构建问句的依存关系树;
S103:基于关系词典,在依存关系树中查找所有节点名称为关系词典中的关系名称的节点作为关系节点;
S104:遍历依存关系树中所有以关系节点为根节点的子树,如果该子树与关系词典中的任一键值对完全匹配,则设定该子树为关系子树;
S105:根据依存关系树中边的词性,获取关系子树中各边的词性;
S106:基于关系子树中各边的词性,获取关系子树中关系节点对应的主语节点和宾语节点并进行标注,将标注后的关系子树作为查询子图。
8.一种知识图谱问答终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。
CN202210687513.9A 2022-06-17 2022-06-17 一种知识图谱问答方法、终端设备及存储介质 Pending CN115114420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210687513.9A CN115114420A (zh) 2022-06-17 2022-06-17 一种知识图谱问答方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210687513.9A CN115114420A (zh) 2022-06-17 2022-06-17 一种知识图谱问答方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN115114420A true CN115114420A (zh) 2022-09-27

Family

ID=83329094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210687513.9A Pending CN115114420A (zh) 2022-06-17 2022-06-17 一种知识图谱问答方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN115114420A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577091A (zh) * 2022-12-08 2023-01-06 成都晓多科技有限公司 基于知识图谱的复杂条件问题作答方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577091A (zh) * 2022-12-08 2023-01-06 成都晓多科技有限公司 基于知识图谱的复杂条件问题作答方法及系统

Similar Documents

Publication Publication Date Title
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
WO2021000676A1 (zh) 问答方法、问答装置、计算机设备及存储介质
CN110399457B (zh) 一种智能问答方法和系统
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN109684448B (zh) 一种智能问答方法
CN109766417B (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
Pasupat et al. Compositional semantic parsing on semi-structured tables
WO2021174783A1 (zh) 近义词推送方法、装置、电子设备及介质
JP5936698B2 (ja) 単語意味関係抽出装置
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
CN112035730B (zh) 一种语义检索方法、装置及电子设备
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US20220277005A1 (en) Semantic parsing of natural language query
WO2020005601A1 (en) Semantic parsing of natural language query
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN111553160A (zh) 一种获取法律领域问句答案的方法和系统
CN115795061B (zh) 一种基于词向量和依存句法的知识图谱构建方法及系统
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN114153994A (zh) 医保信息问答方法及装置
CN115114420A (zh) 一种知识图谱问答方法、终端设备及存储介质
CN110019474B (zh) 异构数据库中的同义数据自动关联方法、装置及电子设备
CN113672653A (zh) 识别数据库中的隐私数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination