CN117112770A - 基于知识图谱的问答方法、装置、存储介质及设备 - Google Patents

基于知识图谱的问答方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN117112770A
CN117112770A CN202311374909.9A CN202311374909A CN117112770A CN 117112770 A CN117112770 A CN 117112770A CN 202311374909 A CN202311374909 A CN 202311374909A CN 117112770 A CN117112770 A CN 117112770A
Authority
CN
China
Prior art keywords
word segmentation
question
template
result
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311374909.9A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shulian Cloud Computing Technology Co ltd
Original Assignee
Chengdu Shulian Cloud Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shulian Cloud Computing Technology Co ltd filed Critical Chengdu Shulian Cloud Computing Technology Co ltd
Priority to CN202311374909.9A priority Critical patent/CN117112770A/zh
Publication of CN117112770A publication Critical patent/CN117112770A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请的实施例公开基于知识图谱的问答方法、装置、存储介质及设备,涉及智能问答技术领域,包括:基于基础分词集对初始问答语句进行分词分析,获得分词结果;基于上下语义语境对所述分词结果进行补全,获得补全模板;根据所述补全模板进行语法模板匹配,获得模板匹配结果;根据所述模板匹配结果进行基于知识图谱的问答查询,获得问答结果,通过对初始问答语句进行分词分析,得到其中的分词组成,基于上下语义语境的联系对分词结果进行补全,不仅使分词结果更为准确,能够与模板的匹配度更强,还使最终补全得到的模板是一个完整的、能够运用到检索中的模板,然后利用该模板与预置的语法模板进行匹配,实现效果更好的问答查询。

Description

基于知识图谱的问答方法、装置、存储介质及设备
技术领域
本申请涉及智能问答技术领域,具体涉及一种基于知识图谱的问答方法、装置、存储介质及设备。
背景技术
基于知识图谱的问答过程中,对问答语句进行分词是必不可少的步骤,但是对于分词结果,预置的模板无法保证对分词结果的完全涵盖,并且对于提前布置的模板来说,也几乎不可能保证覆盖多样化的实际问答场景,在需要保证准确性的绝对匹配下,某些存在元素缺失的分词无法实现有效的匹配,进而导致基于知识图谱的问答效果较差,问答无法实现或者问答结果与问答语句偏差较大。
发明内容
本申请的主要目的在于提供一种基于知识图谱的问答方法、装置、存储介质及设备,旨在解决现有技术中基于知识图谱的问答效果较差的问题。
为实现上述目的,本申请的实施例采用的技术方案如下:
第一方面,本申请实施例提供一种基于知识图谱的问答方法,包括以下步骤:
基于基础分词集对初始问答语句进行分词分析,获得分词结果;
基于上下语义语境对分词结果进行补全,获得补全模板;
根据补全模板进行语法模板匹配,获得模板匹配结果;
根据模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
通过对初始问答语句进行分词分析,得到其中的分词组成,如果分词存在有缺失,则基于上下语义语境的联系对分词结果进行补全,不仅使得分词结果更为准确,能够与模板的匹配度更强,还使得最终补全得到的模板是一个完整的、能够运用到检索中的模板,然后利用该完整模板与预置的语法模板进行匹配,利用准确度更高的匹配结果来实现效果更好的问答查询。
在第一方面的一种可能实现方式中,基于基础分词集对初始问答语句进行分词分析,获得分词结果之前,基于知识图谱的问答方法还包括:
根据知识图谱,获得基础分词集。
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
在第一方面的一种可能实现方式中,根据知识图谱,构建基础分词集,包括:
根据知识图谱进行抽取,获得若干建模本体;
将若干建模本体按照既定格式进行封装,获得基础分词集。
将构建好的知识图谱的建模本体抽取出来按照既定格式进行封装,形成基础分词集A1,建模本体可包括:实例名称、实例属性名称、关系名称、关系属性名称等。
在第一方面的一种可能实现方式中,根据知识图谱,获得基础分词集之后,基于知识图谱的问答方法还包括:
对基础分词集进行相似词补充,获得目标基础分词集;
基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
基于目标基础分词集对初始问答语句进行分词分析,获得分词结果。
根据词汇使用的习惯,或者某一些应用场景中,不同的词语可能表示的是同样的信息,也就是相似词,将相似词纳入基础分词的集合中,得到目标基础分词集,能够有助于提升分词的准确,进而实现问答效果的提升。
在第一方面的一种可能实现方式中,对基础分词集进行相似词补充,获得目标基础分词集,包括:
根据业务场景,获得相似词;
对相似词按照既定格式进行封装,获得相似词集;
将相似词集补充至基础分词集,获得目标基础分词集。
相似词的补充可以根据日常积累以及结合实际的业务场景进行定义,构建一个相似词集,这个集合可以为空集,将构建好的相似词集合按照前述的既定格式进行封装,补充到基础分词集A1中,以实现基础分词量的扩展,提升分词效果。
在第一方面的一种可能实现方式中,根据知识图谱,获得基础分词集之后,基于知识图谱的问答方法还包括:
将基础分词集存储至数据库;
基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
在数据库中调用基础分词集,并基于基础分词集对初始问答语句进行分词分析,获得分词结果。
将所有封装好的数据可以有序集合的数据类型存储到数据库中,为后续使用提供数据准备,数据库可采用Redis,即远程字典服务,是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。采用Redis的方式去进行存储,由Redis统一管理,这样就会省去对内存资源占用、释放等问题的考虑,同时,使用Redis进行存储,也能相较于用数据文件或者其他数据库进行存储方面,有数据查询的优势,同时在不需要的情况下,也能及时释放。
基础分词集是源于知识图谱的处理得到,可将已经构建好的知识图谱数据存储到Redis中当基础数据集合,能够让分词能够快速、准确地命中,减少分词结果是否在图数据库中存在的判断,尽早规避无效数据的查询,提高检索质量,引进近义词、同义词后,进一步扩大数据有效范围,实现更好、更快地检索。
在第一方面的一种可能实现方式中,根据补全模板进行语法模板匹配,获得模板匹配结果之前,基于知识图谱的问答方法还包括:
根据问答模式与数据库的数据存储方式,在数据库中预置语法模板。
语法模板可以提前预置到Redis中,根据数据库的数据存储建模方式,围绕一阶问答的模式预置、调整查询模板,使用预置语法模板的方式去实现问答相较于基于深度学习模型的问答,成效快,不需要大量数据训练模型,能够快速适应、解决大部分应用场景。
在第一方面的一种可能实现方式中,根据补全模板进行语法模板匹配,获得模板匹配结果之后,基于知识图谱的问答方法还包括:
将补全模板更新至数据库中,以作为新的语法模板。
得到了完整的模板之后,可以运用到检索中去,可将匹配上或者补全出来的模板更新到Redis中,替换原来的模板,同时刷新过期失效的,以提升匹配效果。
在第一方面的一种可能实现方式中,基于上下语义语境对分词结果进行补全,获得补全模板,包括:
基于上下语义语境对分词结果进行分析,获得缺失元素;
根据前一次问答查询时的语法模板,对分词结果进行缺失元素补全,获得补全模板。
采用结合上下语义语境的形式对分词结果进行补全,同一问询过程中,先后问询的内容可能是存在某些关联的,因此可以利用上下语义语境对缺失了的分词进行补全,补全后得到完整的可以匹配查找的模板,即补全模板。在连贯性较强的问询中,后一次语句的元素缺失一般是因为前一句已有基础,所以后一句才能简略,而这种省略在机器单独识别下无法体现,因此可以基于前一次问询时的语法模板进行补全。
在第一方面的一种可能实现方式中,基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
基于基础分词集对初始问答语句进行绝对匹配的分词,获得第一分词结果;
根据第一分词结果进行数据匹配,抽取第一分词结果中匹配命中的部分,获得分词结果。
分词的方式采用绝对匹配,不做近似匹配,也就是需要识别唯一命中的标识才能确认为分词,基于分词的绝对匹配下,包括了实例名称的匹配、实例属性名称的匹配、关系名称的匹配以及关系属性名称的匹配。
第二方面,本申请实施例提供一种基于知识图谱的问答装置,包括:
分词模块,分词模块用于基于基础分词集对初始问答语句进行分词分析,获得分词结果;
补全模块,补全模块用于基于上下语义语境对分词结果进行补全,获得补全模板;
匹配模块,匹配模块用于根据补全模板进行语法模板匹配,获得模板匹配结果;
查询模块,查询模块用于根据模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
第三方面,本申请实施例提供一种计算机可读存储介质,储存有计算机程序,计算机程序被处理器加载执行时,实现如上述第一方面中任一项提供的基于知识图谱的问答方法。
第四方面,本申请实施例提供一种电子设备,包括处理器及存储器,其中,
存储器用于存储计算机程序;
处理器用于加载执行计算机程序,以使电子设备执行如上述第一方面中任一项提供的基于知识图谱的问答方法。
与现有技术相比,本申请的有益效果是:
本申请实施例提出的一种基于知识图谱的问答方法、装置、存储介质及设备,该方法包括:基于基础分词集对初始问答语句进行分词分析,获得分词结果;基于上下语义语境对所述分词结果进行补全,获得补全模板;根据所述补全模板进行语法模板匹配,获得模板匹配结果;根据所述模板匹配结果进行基于知识图谱的问答查询,获得问答结果。本申请通过对初始问答语句进行分词分析,得到其中的分词组成,如果分词存在有缺失,则基于上下语义语境的联系对分词结果进行补全,不仅使得分词结果更为准确,能够与模板的匹配度更强,还使得最终补全得到的模板是一个完整的、能够运用到检索中的模板,然后利用该完整模板与预置的语法模板进行匹配,利用准确度更高的匹配结果来实现效果更好的问答查询。
附图说明
图1为本申请实施例涉及的硬件运行环境的电子设备结构示意图;
图2为本申请实施例提供的基于知识图谱的问答方法的流程示意图;
图3为本申请实施例提供的基于知识图谱的问答方法在一种实施方式下的流程示意图;
图4为本申请实施例提供的基于知识图谱的问答装置的模块示意图;
图中标记:101-处理器,102-通信总线,103-网络接口,104-用户接口,105-存储器。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:基于基础分词集对初始问答语句进行分词分析,获得分词结果;基于上下语义语境对所述分词结果进行补全,获得补全模板;根据所述补全模板进行语法模板匹配,获得模板匹配结果;根据所述模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
在知识图谱知识问答的运用过程中,针对各个不同领域的知识问答场景,往往需要基于既定的场景进行提前预知,针对场景进行大量数据的标注、训练,最后生成一个算法模型进行知识问答的预测和分析,但这种方式需要基于大量数据进行训练,时间长,且算法模型的效果还跟训练数据的质量强相关,算法模型的效果需要长期的维护和迭代。
此外,在基于知识图谱的问答过程中,对问答语句进行分词是必不可少的步骤,但是对于分词结果,预置的模板无法保证对分词结果的完全涵盖,并且对于提前布置的模板来说,也几乎不可能保证覆盖多样化的实际问答场景,在需要保证准确性的绝对匹配下,某些存在元素缺失的分词无法实现有效的匹配,进而导致基于知识图谱的问答效果较差,问答无法实现或者问答结果与问答语句偏差较大。
为此,本申请提供一种解决方案,通过对初始问答语句进行分词分析,得到其中的分词组成,如果分词存在有缺失,则基于上下语义语境的联系对分词结果进行补全,不仅使得分词结果更为准确,能够与模板的匹配度更强,还使得最终补全得到的模板是一个完整的、能够运用到检索中的模板,然后利用该完整模板与预置的语法模板进行匹配,利用准确度更高的匹配结果来实现效果更好的问答查询。
参照附图1,附图1为本申请实施例方案涉及的硬件运行环境的电子设备结构示意图,该电子设备可以包括:处理器101,例如中央处理器(Central Processing Unit,CPU),通信总线102、用户接口104,网络接口103,存储器105。其中,通信总线102用于实现这些组件之间的连接通信。用户接口104可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口104还可以包括标准的有线接口、无线接口。网络接口103可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器105可选的可以是独立于前述处理器101的存储装置,存储器105可能是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可能是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器;处理器101可以是通用处理器,包括中央处理器、网络处理器等,还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域技术人员可以理解,附图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如附图1所示,作为一种存储介质的存储器105中可以包括操作系统、网络通信模块、用户接口模块以及基于知识图谱的问答装置。
在附图1所示的电子设备中,网络接口103主要用于与网络服务器进行数据通信;用户接口104主要用于与用户进行数据交互;本申请中的处理器101、存储器105可以设置在电子设备中,电子设备通过处理器101调用存储器105中存储的基于知识图谱的问答装置,并执行本申请实施例提供的基于知识图谱的问答方法。
参照附图2,基于前述实施例的硬件设备,本申请的实施例提供一种基于知识图谱的问答方法,包括以下步骤:
S10:基于基础分词集对初始问答语句进行分词分析,获得分词结果。
在具体实施过程中,基础分词集也即构成一句完成的语句所包含的最基本词汇,这个与基本语言构成相关,比如她是一位老师,基础分词可以分析为她/是/一位/老师。初始问答语句为用户提供的一句用于问询的语句,比如:“张三的电话是多少?”、“李四的家在哪儿”等类似语句;以后一句为例,分词后即可得到:李四/的/家/在/哪儿,问答语句经过分词分析后即得到分词结果。基础分词集可根据已有的知识图谱处理得到,具体来说:基于基础分词集对初始问答语句进行分词分析,获得分词结果之前,基于知识图谱的问答方法还包括:
根据知识图谱,获得基础分词集。
在具体实施过程中,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
具体的:根据知识图谱,构建基础分词集,包括:
根据知识图谱进行抽取,获得若干建模本体;
将若干建模本体按照既定格式进行封装,获得基础分词集。
在具体实施过程中,将构建好的知识图谱的建模本体抽取出来按照既定格式进行封装,形成基础分词集A1,建模本体可包括:实例名称、实例属性名称、关系名称、关系属性名称等。格式主要分为元素:①、②、③,如下:
①{名称}②{ {标签} : {唯一标识} : {类型标识}}③{搜索频次}
名称:即从图数据库中抽取出来的实例名称和图谱建模本体相关的实例属性名称、关系名称、关系属性名称,不能为空或者NULL,否则视为该数据为无效数据。
元素②主要分为标签、唯一标识、类型标识三部分,相连部分的两两之间以英文“:”相隔,元素②具有全局唯一性。
标签类型:主要用于区分数据类型,具体标签类型如下表1-1:
表1-1
唯一标识:指图数据库中实例的ID,此ID为图数据库中创建过程中自动生成,用此ID进行查询,会走图数据库的内部索引,提高检索速度,所以将此ID作为元素②的组成部分之一。【实例名称】类型按实际实例的ID进行填充,非【实例名称】类型的则需要默认填充部分值,且需要保证生成的元素②全局唯一。
类型标识:指的是用来区分是近义词还是图谱的原始数据,原始数据置为“Y”,近义词置为“N”。
搜索频次:即日常用户使用系统问题集中关键数据命中的次数,次数越高,在问句分词分析过程会命中的几率越大,系统的分析就会越偏向用户日常检索爱好。搜索频次的初始值为1,逐次增加。
数据封装的格式示例:
实例名称:XXXXXXXXEN_1832317_Y1
实例属性名称:生产厂家EAN_usda1233_Y1
关系名称:配备RN_da2313_Y2
关系属性:数量RAN_dadaddd_Y4
在一种实施例中,根据知识图谱,获得基础分词集之后,基于知识图谱的问答方法还包括:
对基础分词集进行相似词补充,获得目标基础分词集。
在具体实施过程中,根据词汇使用的习惯,或者某一些应用场景中,不同的词语可能表示的是同样的信息,也就是相似词,将相似词纳入基础分词的集合中,得到目标基础分词集,能够有助于提升分词的准确,进而实现问答效果的提升,常用的相似词为近义词和同义词,比如电话号码与手机号码相似词,表达的都是联系方式的号码。
基于前述步骤,基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
基于目标基础分词集对初始问答语句进行分词分析,获得分词结果。
在一种实施例中,对基础分词集进行相似词补充,获得目标基础分词集,包括:
根据业务场景,获得相似词;
对相似词按照既定格式进行封装,获得相似词集;
将相似词集补充至基础分词集,获得目标基础分词集。
在具体实施过程中,相似词的补充可以根据日常积累以及结合实际的业务场景进行定义,构建一个相似词集,这个集合可以为空集,将构建好的相似词集合按照前述的既定格式进行封装,补充到基础分词集A1中,以实现基础分词量的扩展,提升分词效果。封装的具体手段可以如下:元素①替换为近义词,元素②则是步骤1对应的词组的元素②,元素③则可以置为1。
在一种实施例中,根据知识图谱,获得基础分词集之后,基于知识图谱的问答方法还包括:
将基础分词集存储至数据库。
在具体实施过程中,将所有封装好的数据可以有序集合的数据类型存储到数据库中,为后续使用提供数据准备,数据库可采用Redis,即远程字典服务,是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。
对于知识图谱这种体量的数据,如果存储到内存中,则很大地可能性会占用很多资源,且会影响到其他应用,所以本实施例采用Redis的方式去进行存储,由Redis统一管理,这样就会省去对内存资源占用、释放等问题的考虑,同时,使用Redis进行存储,也能相较于用数据文件或者其他数据库进行存储方面,有数据查询的优势,同时在不需要的情况下,也能及时释放。
基础分词集是源于知识图谱的处理得到,可将已经构建好的知识图谱数据存储到Redis中当基础数据集合,能够让分词能够快速、准确地命中,减少分词结果是否在图数据库中存在的判断,尽早规避无效数据的查询,提高检索质量,引进近义词、同义词后,进一步扩大数据有效范围,实现更好、更快地检索。
基于前述步骤,基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
在数据库中调用基础分词集,并基于基础分词集对初始问答语句进行分词分析,获得分词结果。
S20:基于上下语义语境对分词结果进行补全,获得补全模板。
在具体实施过程中,在多次问询过程中,用户按照用语习惯可能不会每一次都提出完整的语句,而对于一些缺失了词汇的省略式语句,需要将其补充完整才能进行检索匹配。本实施例中采用结合上下语义语境的形式对分词结果进行补全,同一问询过程中,先后问询的内容可能是存在某些关联的,因此可以利用上下语义语境对缺失了的分词进行补全,补全后得到完整的可以匹配查找的模板,即补全模板。具体来说:基于上下语义语境对分词结果进行补全,获得补全模板,包括:
基于上下语义语境对分词结果进行分析,获得缺失元素;
根据前一次问答查询时的语法模板,对分词结果进行缺失元素补全,获得补全模板。
在具体实施过程中,在连贯性较强的问询中,后一次语句的元素缺失一般是因为前一句已有基础,所以后一句才能简略,而这种省略在机器单独识别下无法体现,因此可以基于前一次问询时的语法模板进行补全,比如:
第一次问答:
问答语句:小明的电话号码是多少?
分词结果: {小明 EN_1133234_Y 1}、{电话号码 EAN_dawdwa313131_N 2}
模板匹配: A + EAN
存入Redis{A + EAN, {A:1133234 电话号码} }
第二次问答:
问答语句:那小红的呢?
分词结果:{小红 EN_22222_Y 1}
模板补全:{小红 EN_22222_Y 1}、{电话号码 EAN_dawdwa313131_N 2}
模板匹配: A + EAN
存入Redis{A + EAN, {A:22222电话号码} }
可以理解的是,第二次问答省略的元素是存在与前一次问答当中,因此才会有基础进行省略,结合上下语义语境连贯起来就应该是,小明的电话号码是多少?那小红的呢?补全完成语句应当为:小明的电话号码是多少?那小红的电话号码是多少呢?这样一来,后一句缺失的分词元素就显然是电话号码。
S30:根据补全模板进行语法模板匹配,获得模板匹配结果。
在具体实施过程中,当得到问答语句的分词并对分词进行分析后,利用补全模板进行语法模板匹配,其实也就是将分词、补全后的完整模板基于一个标准模板进行匹配,分词的方式采用绝对匹配,不做近似匹配,也就是需要识别唯一命中的标识才能确认为分词。即:基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
基于基础分词集对初始问答语句进行绝对匹配的分词,获得第一分词结果;
根据第一分词结果进行数据匹配,抽取第一分词结果中匹配命中的部分,获得分词结果。
在具体实施过程中,基于分词的绝对匹配下,包括了实例名称的匹配、实例属性名称的匹配、关系名称的匹配以及关系属性名称的匹配。具体如下:
实例名称的匹配;若Redis中的数据字典数据匹配中,则将整个有序集合取出,取出元素②中的唯一标识部分,构建组成元素 {A:$id}。
实例属性名称的匹配;若Redis中的数据字典数据匹配中,则将整个有序集合取出,取出元素①中的名称部分,构建组成元素 {EAN:$name}。
关系名称的匹配;若Redis中的数据字典数据匹配中,则将整个有序集合取出,取出元素①中的名称部分,构建组成元素 {RN:$name}。
关系属性名称的匹配;若Redis中的数据字典数据匹配中,则将整个有序集合取出,取出元素①中的名称部分,构建组成元素 {RAN:$name}。
在一种实施例中,根据补全模板进行语法模板匹配,获得模板匹配结果之后,基于知识图谱的问答方法还包括:
将补全模板更新至数据库中,以作为新的语法模板。
在具体实施过程中,得到了完整的模板之后,可以运用到检索中去,可将匹配上或者补全出来的模板更新到Redis中,替换原来的模板,同时刷新过期失效的,以提升匹配效果。
在一种实施例中,根据补全模板进行语法模板匹配,获得模板匹配结果之前,基于知识图谱的问答方法还包括:
根据问答模式与数据库的数据存储方式,在数据库中预置语法模板。
在具体实施过程中,语法模板可以提前预置到Redis中,根据数据库的数据存储建模方式,围绕一阶问答的模式预置、调整查询模板,使用预置语法模板的方式去实现问答相较于基于深度学习模型的问答,成效快,不需要大量数据训练模型,能够快速适应、解决大部分应用场景。基于问答模式也即图谱建模的方式去构建语法模板,这样能够摆脱基于图谱数据去构建语法模板的死板,灵活应用各种复杂的应用场景。模板形式如下:
一阶问答有且最多两个节点,模板中的元素可以主要定义为节点A、节点B、实例属性EAN、关系RN、关系属性RAN四部分;如需要再添加,可以根据实际情况添加,元素数量和顺序根据预制的模板而定。
已知节点A和节点A的属性名称,查询节点该属性的属性值。
{A:$id} + {attribute:$name} out {A:{attribute:$value}}
A + EAN保持词序
已知节点A和节点A相关某条关系,查询这条关系下的另一个节点B。
{A:$id} + {relation:$name} out {A:{relation:{B:$name}}}
A + RN保持词序
已知节点A、节点B和两者之间的某条关系,查询这条关系下指定属性的属性值。
{A:$id}+{B:$id}+{relation:{attribute:$name}}out{{A:$id}-{relation:{attribute:$value}}-{B:$id}}
A + RAN + B保持词序
已知节点A和节点B,查询两者之间是否存在关系
ShortPath{{A:$id} , {B:$id}} out {relation:[$id , $id , $id ...]}
A + B保持词序。
S40:根据模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
在具体实施过程中,模板匹配结果也就是更为准确的分词查询结果,基于这个准确的语法模板进行知识图谱的问答查询,获得问答结果并输出,随着知识图谱的日常更新,基础分词集合也需要同步更新,更新的方式由图谱更新频率决定,如果图谱的更新频率较慢,更新迭代不存在高并发的情况,则可以采用触发式点对点更新,即图谱更新完成马上触发基础分词集合的更新,同时通过定时更新的方式来保障数据的一致性和更新遗漏的问题,时间周期可以设置较长。如果更新频率快,且存在更新迭代高并发的情况,则采用定时更新的方式,时间周期设置较短。在不断使用中进一步丰富自身的信息库,可使得之后的问询效果越来越好。
本实施例中,通过对初始问答语句进行分词分析,得到其中的分词组成,如果分词存在有缺失,则基于上下语义语境的联系对分词结果进行补全,不仅使得分词结果更为准确,能够与模板的匹配度更强,还使得最终补全得到的模板是一个完整的、能够运用到检索中的模板,然后利用该完整模板与预置的语法模板进行匹配,利用准确度更高的匹配结果来实现效果更好的问答查询。
参照附图3,在如附图3所示的实施方式下,对本申请做进一步说明:
将用户输入的问答语句基于事先根据已构建好的知识图谱处理出来的基础分词集合进行分词,然后对分词结果进行上下语义语境补全模板,利用补全后的模板进行语法模板匹配,最后利用匹配出来的模板结果构建问答查询,问答查询后输出结果,至此完成问询。
语法模板的更新、模板的预置以及基础分词集合均可以存储在Redis中,知识图谱在处理生成基础分词集合后,根据近义词、同义词集合补充,将更完整的分词集合同样储存在Redis。
参照附图4,基于与前述实施例中同样的发明构思,本申请实施例还提供一种基于知识图谱的问答装置,该装置包括:
分词模块,分词模块用于基于基础分词集对初始问答语句进行分词分析,获得分词结果;
补全模块,补全模块用于基于上下语义语境对分词结果进行补全,获得补全模板;
匹配模块,匹配模块用于根据补全模板进行语法模板匹配,获得模板匹配结果;
查询模块,查询模块用于根据模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
本领域技术人员应当理解,实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际应用时可以全部或部分集成到一个或多个实际载体上,且这些模块可以全部以软件通过处理单元调用的形式实现,也可以全部以硬件的形式实现,或是以软件、硬件结合的形式实现,需要说明的是,本实施例中基于知识图谱的问答装置中各模块是与前述实施例中的基于知识图谱的问答方法中的各步骤一一对应,因此,本实施例的具体实施方式可参照前述基于知识图谱的问答方法的实施方式,这里不再赘述。
基于与前述实施例中同样的发明构思,本申请的实施例还提供一种计算机可读存储介质,储存有计算机程序,计算机程序被处理器加载执行时,实现如本申请实施例提供的基于知识图谱的问答方法。
基于与前述实施例中同样的发明构思,本申请的实施例还提供一种电子设备,包括处理器及存储器,其中,
存储器用于存储计算机程序;
处理器用于加载执行计算机程序,以使电子设备执行如本申请实施例提供的基于知识图谱的问答方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光 盘)中,包括若干指令用以使得一台多媒体终端设备(可以是手机,计算机,电视接收机,或者网络设备等)执行本申请各个实施例所述的方法。
综上,本申请提供的一种基于知识图谱的问答方法、装置、存储介质及设备,该方法包括:基于基础分词集对初始问答语句进行分词分析,获得分词结果;基于上下语义语境对所述分词结果进行补全,获得补全模板;根据所述补全模板进行语法模板匹配,获得模板匹配结果;根据所述模板匹配结果进行基于知识图谱的问答查询,获得问答结果。本申请通过对初始问答语句进行分词分析,得到其中的分词组成,如果分词存在有缺失,则基于上下语义语境的联系对分词结果进行补全,不仅使得分词结果更为准确,能够与模板的匹配度更强,还使得最终补全得到的模板是一个完整的、能够运用到检索中的模板,然后利用该完整模板与预置的语法模板进行匹配,利用准确度更高的匹配结果来实现效果更好的问答查询。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种基于知识图谱的问答方法,其特征在于,包括以下步骤:
基于基础分词集对初始问答语句进行分词分析,获得分词结果;
基于上下语义语境对所述分词结果进行补全,获得补全模板;
根据所述补全模板进行语法模板匹配,获得模板匹配结果;
根据所述模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
2.根据权利要求1所述的基于知识图谱的问答方法,其特征在于,所述基于基础分词集对初始问答语句进行分词分析,获得分词结果之前,所述基于知识图谱的问答方法还包括:
根据所述知识图谱,获得所述基础分词集。
3.根据权利要求2所述的基于知识图谱的问答方法,其特征在于,所述根据所述知识图谱,构建所述基础分词集,包括:
根据所述知识图谱进行抽取,获得若干建模本体;
将若干所述建模本体按照既定格式进行封装,获得所述基础分词集。
4.根据权利要求2所述的基于知识图谱的问答方法,其特征在于,所述根据所述知识图谱,获得所述基础分词集之后,所述基于知识图谱的问答方法还包括:
对所述基础分词集进行相似词补充,获得目标基础分词集;
所述基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
基于所述目标基础分词集对初始问答语句进行分词分析,获得分词结果。
5.根据权利要求4所述的基于知识图谱的问答方法,其特征在于,所述对所述基础分词集进行相似词补充,获得目标基础分词集,包括:
根据业务场景,获得相似词;
对所述相似词按照既定格式进行封装,获得相似词集;
将所述相似词集补充至所述基础分词集,获得目标基础分词集。
6.根据权利要求2所述的基于知识图谱的问答方法,其特征在于,所述根据所述知识图谱,获得所述基础分词集之后,所述基于知识图谱的问答方法还包括:
将所述基础分词集存储至数据库;
所述基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
在所述数据库中调用所述基础分词集,并基于所述基础分词集对初始问答语句进行分词分析,获得分词结果。
7.根据权利要求6所述的基于知识图谱的问答方法,其特征在于,所述根据所述补全模板进行语法模板匹配,获得模板匹配结果之前,所述基于知识图谱的问答方法还包括:
根据问答模式与所述数据库的数据存储方式,在所述数据库中预置所述语法模板。
8.根据权利要求6所述的基于知识图谱的问答方法,其特征在于,所述根据所述补全模板进行语法模板匹配,获得模板匹配结果之后,所述基于知识图谱的问答方法还包括:
将所述补全模板更新至所述数据库中,以作为新的所述语法模板。
9.根据权利要求1所述的基于知识图谱的问答方法,其特征在于,所述基于上下语义语境对所述分词结果进行补全,获得补全模板,包括:
基于上下语义语境对所述分词结果进行分析,获得缺失元素;
根据前一次问答查询时的所述语法模板,对所述分词结果进行缺失元素补全,获得补全模板。
10.根据权利要求1所述的基于知识图谱的问答方法,其特征在于,所述基于基础分词集对初始问答语句进行分词分析,获得分词结果,包括:
基于基础分词集对初始问答语句进行绝对匹配的分词,获得第一分词结果;
根据所述第一分词结果进行数据匹配,抽取所述第一分词结果中匹配命中的部分,获得分词结果。
11.一种基于知识图谱的问答装置,其特征在于,包括:
分词模块,所述分词模块用于基于基础分词集对初始问答语句进行分词分析,获得分词结果;
补全模块,所述补全模块用于基于上下语义语境对所述分词结果进行补全,获得补全模板;
匹配模块,所述匹配模块用于根据所述补全模板进行语法模板匹配,获得模板匹配结果;
查询模块,所述查询模块用于根据所述模板匹配结果进行基于知识图谱的问答查询,获得问答结果。
12.一种计算机可读存储介质,储存有计算机程序,其特征在于,所述计算机程序被处理器加载执行时,实现如权利要求1-10中任一项所述的基于知识图谱的问答方法。
13.一种电子设备,其特征在于,包括处理器及存储器,其中,
所述存储器用于存储计算机程序;
所述处理器用于加载执行所述计算机程序,以使所述电子设备执行如权利要求1-10中任一项所述的基于知识图谱的问答方法。
CN202311374909.9A 2023-10-23 2023-10-23 基于知识图谱的问答方法、装置、存储介质及设备 Pending CN117112770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311374909.9A CN117112770A (zh) 2023-10-23 2023-10-23 基于知识图谱的问答方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311374909.9A CN117112770A (zh) 2023-10-23 2023-10-23 基于知识图谱的问答方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN117112770A true CN117112770A (zh) 2023-11-24

Family

ID=88796965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311374909.9A Pending CN117112770A (zh) 2023-10-23 2023-10-23 基于知识图谱的问答方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN117112770A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984766A (zh) * 2019-05-21 2020-11-24 华为技术有限公司 缺失语义补全方法及装置
CN113589338A (zh) * 2021-07-29 2021-11-02 成都乐动信息技术有限公司 检测用户在运动过程中的停留点的方法、装置及电子设备
CN113626571A (zh) * 2021-08-09 2021-11-09 南方电网数字电网研究院有限公司 答句生成方法、装置、计算机设备和存储介质
CN114090762A (zh) * 2022-01-21 2022-02-25 浙商期货有限公司 一种期货领域的自动问答方法和系统
CN114691820A (zh) * 2020-12-29 2022-07-01 北京国双科技有限公司 一种基于知识图谱的问答实现方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984766A (zh) * 2019-05-21 2020-11-24 华为技术有限公司 缺失语义补全方法及装置
CN114691820A (zh) * 2020-12-29 2022-07-01 北京国双科技有限公司 一种基于知识图谱的问答实现方法及装置
CN113589338A (zh) * 2021-07-29 2021-11-02 成都乐动信息技术有限公司 检测用户在运动过程中的停留点的方法、装置及电子设备
CN113626571A (zh) * 2021-08-09 2021-11-09 南方电网数字电网研究院有限公司 答句生成方法、装置、计算机设备和存储介质
CN114090762A (zh) * 2022-01-21 2022-02-25 浙商期货有限公司 一种期货领域的自动问答方法和系统

Similar Documents

Publication Publication Date Title
CN109871532B (zh) 文本主题提取方法、装置及存储介质
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
US20220222447A1 (en) Translation method and apparatus, electronic device, and computer-readable storage medium
CN116820429B (zh) 代码处理模型的训练方法、装置、电子设备及存储介质
CN109710738A (zh) 药物问询方法、装置、系统、计算机设备和存储介质
CN111753522A (zh) 事件抽取方法、装置、设备以及计算机可读存储介质
CN114896417A (zh) 一种基于知识图谱构建计算机教育知识图谱的方法
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN113821622A (zh) 基于人工智能的答案检索方法、装置、电子设备及介质
CN112733515B (zh) 文本生成方法、装置、电子设备及可读存储介质
CN113434136A (zh) 代码生成方法、装置、电子设备及存储介质
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN117112770A (zh) 基于知识图谱的问答方法、装置、存储介质及设备
CN116975254A (zh) 可视化数据的呈现方法、装置和存储介质
CN113626468B (zh) 基于人工智能的sql语句生成方法、装置、设备及存储介质
CN115640403A (zh) 基于知识图谱的知识管控方法及装置
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN117033649A (zh) 文本处理模型的训练方法、装置、电子设备及存储介质
CN116069850A (zh) 课堂活动课件制作方法、装置、存储介质以及电子设备
CN114428788A (zh) 自然语言处理方法、装置、设备及存储介质
CN112966076A (zh) 智能问答问题的生成方法、装置、计算机设备及存储介质
CN114691820A (zh) 一种基于知识图谱的问答实现方法及装置
CN117592468B (zh) 基于人工智能的文本处理方法、装置、设备及存储介质
CN117473995A (zh) 文本处理方法、装置、产品、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination