CN116955560B - 基于思考链和知识图谱的数据处理方法及系统 - Google Patents

基于思考链和知识图谱的数据处理方法及系统 Download PDF

Info

Publication number
CN116955560B
CN116955560B CN202310909759.0A CN202310909759A CN116955560B CN 116955560 B CN116955560 B CN 116955560B CN 202310909759 A CN202310909759 A CN 202310909759A CN 116955560 B CN116955560 B CN 116955560B
Authority
CN
China
Prior art keywords
reasoning
entity
chain
thinking
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310909759.0A
Other languages
English (en)
Other versions
CN116955560A (zh
Inventor
谢新扬
崔紫晖
王亚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Top Big Data Co ltd
Original Assignee
Guangzhou Top Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Top Big Data Co ltd filed Critical Guangzhou Top Big Data Co ltd
Priority to CN202310909759.0A priority Critical patent/CN116955560B/zh
Publication of CN116955560A publication Critical patent/CN116955560A/zh
Application granted granted Critical
Publication of CN116955560B publication Critical patent/CN116955560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于思考链和知识图谱的数据处理方法及系统,该方法包括:获取用户输入的问题数据;根据实体识别算法模型,识别出所述问题数据中的多个实体信息;基于关系提取算法模型,确定所述多个实体信息对应的关系信息;基于训练好的神经网络模型,根据所述实体信息和所述关系信息,构建所述问题数据对应的思考链;根据所述思考链和预设的知识图谱数据库,基于多种推理算法模型,确定所述问题数据对应的推理结果。可见,本发明可以从问题数据中提取出实体信息和关系信息,并结合思考链和知识图谱进行推理得到推理结果,从而能够有效提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。

Description

基于思考链和知识图谱的数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于思考链和知识图谱的数据处理方法及系统。
背景技术
随着自然语言处理技术的发展,以及人们对于人工智能对话的业务需求的增长,越来越多的企业和科研机构开始研究如何实现更加智能的人机对话和问题解答,其中,问题推理一直是这一领域备受瞩目的研究课题。
但现有技术在实现问题推理任务时,一般仅采用单一简单的推理规则或推理模型,没有考虑到结合思考链推理技术和知识图谱技术来提高推理的准确性。可见,现有技术存在缺陷,亟需解决。
发明内容
本发明所要解决的技术问题在于,提供一种基于思考链和知识图谱的数据处理方法及系统,能够有效提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
本发明第一方面公开了一种基于思考链和知识图谱的数据处理方法,所述方法包括:
获取用户输入的问题数据;
根据实体识别算法模型,识别出所述问题数据中的多个实体信息;
基于关系提取算法模型,确定所述多个实体信息对应的关系信息;
基于训练好的神经网络模型,根据所述实体信息和所述关系信息,构建所述问题数据对应的思考链;
根据所述思考链和预设的知识图谱数据库,基于多种推理算法模型,确定所述问题数据对应的推理结果。
作为一种可选的实施方式,在本发明第一方面中,所述根据实体识别算法模型,识别出所述问题数据中的多个实体信息,包括:
根据所述用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型;
根据所述目标实体识别模型,识别出所述问题数据中的多个实体信息。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型,包括:
根据所述用户的历史数据记录,确定出所述用户对应的历史常用实体集合;
对于每一候选实体识别模型,确定该候选实体识别模型的历史输出实体集合和训练实体信息集合;
根据所述历史输出实体集合和训练实体信息集合,以及所述历史常用实体集合,确定该候选实体识别模型对应的相似度参数;
对于所有所述候选实体识别模型,确定出所述相似度参数最高的模型,确定为目标实体识别模型。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述历史输出实体集合和训练实体信息集合,以及所述历史常用实体集合,确定该候选实体识别模型对应的相似度参数,包括:
计算所述历史输出实体集合和所述历史常用实体集合之间的第一相似度;
计算所述训练实体信息集合和所述历史常用实体集合之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权求和平均值,得到该候选实体识别模型对应的相似度参数;其中,所述第一相似度的权重大于所述第二相似度的权重。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述思考链和预设的知识图谱数据库,基于多种推理算法模型,确定所述问题数据对应的推理结果,包括:
基于所述思考链,在预设的知识图谱数据库中,拓展关联得到所述思考链对应的多个关联数据;所述关联数据包括实体关联数据和关系关联数据;
将所述思考链和所述关联数据,输入至训练好的多个推理算法模型中,确定所述问题数据对应的推理结果。
作为一种可选的实施方式,在本发明第一方面中,所述基于所述思考链,在预设的知识图谱数据库中,拓展关联得到所述思考链对应的多个关联数据,包括:
根据所述思考链中的所述实体信息,在预设的知识图谱数据库中,查找每一所述实体信息对应的关联实体集合;
根据所述思考链中的所述关系信息,在预设的知识图谱数据库中,查找每一所述关系信息对应的关联关系集合;
对于每一所述关联实体集合中的每一关联实体信息,计算该关联实体信息与所述思考链中的所有实体信息的相似度的平均值,得到该关联实体信息对应的第一关联相似度参数;
对于每一所述关联关系集合中的每一关联关系信息,计算该关联关系信息与所述思考链中的所有关系信息的相似度的平均值,得到该关联实体信息对应的第二关联相似度参数;
筛选出所述第一关联相似度参数大于第一参数阈值的所有所述关联实体信息,以及筛选出所述第二关联相似度参数大于第二参数阈值的所有所述关联关系信息,得到所述思考链对应的多个关联数据。
作为一种可选的实施方式,在本发明第一方面中,所述推理算法模型为规则推理算法模型、分类推理算法模型、相似度推理算法模型或图计算推理算法模型;所述将所述思考链和所述关联数据,输入至训练好的多个推理算法模型中,确定所述问题数据对应的推理结果,包括:
将所述思考链输入至推理预测模型中,以得到所述思考链对应的多个不同推理类型的预测适用概率;所述推理类型包括规则推理、分类推理、相似度推理或图计算推理;
根据所述预测适用概率的大小,确定所述思考链对应的至少两个适用推理类型;
根据所述适用推理类型,从多个候选推理算法模型中确定出类型相同的多个推理算法模型;
将所述思考链和所述关联数据,输入至所述多个推理算法模型中,确定所述问题数据对应的多个推理预测结果;
计算多个推理预测结果中任意两个推理预测结果之间的结果相似度,并筛选出多组推理预测结果对;每组推理预测结果对包括两个所述结果相似度低于预设阈值的所述推理预测结果;
将每一组所述推理预测结果对中对应的推理算法模型的类型对应的所述预测适用概率更高的所述推理预测结果确定为目标预测结果;
将不在所述推理预测结果对中的所述推理预测结果,以及所述目标预测结果,推送给所述用户。
本发明第二方面公开了一种基于思考链和知识图谱的数据处理系统,所述系统包括:
获取模块,用于获取用户输入的问题数据;
识别模块,用于根据实体识别算法模型,识别出所述问题数据中的多个实体信息;
确定模块,用于基于关系提取算法模型,确定所述多个实体信息对应的关系信息;
构建模块,用于基于训练好的神经网络模型,根据所述实体信息和所述关系信息,构建所述问题数据对应的思考链;
推理模块,用于根据所述思考链和预设的知识图谱数据库,基于多种推理算法模型,确定所述问题数据对应的推理结果。
作为一种可选的实施方式,在本发明第二方面中,所述识别模块根据实体识别算法模型,识别出所述问题数据中的多个实体信息的具体方式,包括:
根据所述用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型;
根据所述目标实体识别模型,识别出所述问题数据中的多个实体信息。
作为一种可选的实施方式,在本发明第二方面中,所述识别模块根据所述用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型的具体方式,包括:
根据所述用户的历史数据记录,确定出所述用户对应的历史常用实体集合;
对于每一候选实体识别模型,确定该候选实体识别模型的历史输出实体集合和训练实体信息集合;
根据所述历史输出实体集合和训练实体信息集合,以及所述历史常用实体集合,确定该候选实体识别模型对应的相似度参数;
对于所有所述候选实体识别模型,确定出所述相似度参数最高的模型,确定为目标实体识别模型。
作为一种可选的实施方式,在本发明第二方面中,所述识别模块根据所述历史输出实体集合和训练实体信息集合,以及所述历史常用实体集合,确定该候选实体识别模型对应的相似度参数的具体方式,包括:
计算所述历史输出实体集合和所述历史常用实体集合之间的第一相似度;
计算所述训练实体信息集合和所述历史常用实体集合之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权求和平均值,得到该候选实体识别模型对应的相似度参数;其中,所述第一相似度的权重大于所述第二相似度的权重。
作为一种可选的实施方式,在本发明第二方面中,所述推理模块根据所述思考链和预设的知识图谱数据库,基于多种推理算法模型,确定所述问题数据对应的推理结果的具体方式,包括:
基于所述思考链,在预设的知识图谱数据库中,拓展关联得到所述思考链对应的多个关联数据;所述关联数据包括实体关联数据和关系关联数据;
将所述思考链和所述关联数据,输入至训练好的多个推理算法模型中,确定所述问题数据对应的推理结果。
作为一种可选的实施方式,在本发明第二方面中,所述推理模块基于所述思考链,在预设的知识图谱数据库中,拓展关联得到所述思考链对应的多个关联数据的具体方式,包括:
根据所述思考链中的所述实体信息,在预设的知识图谱数据库中,查找每一所述实体信息对应的关联实体集合;
根据所述思考链中的所述关系信息,在预设的知识图谱数据库中,查找每一所述关系信息对应的关联关系集合;
对于每一所述关联实体集合中的每一关联实体信息,计算该关联实体信息与所述思考链中的所有实体信息的相似度的平均值,得到该关联实体信息对应的第一关联相似度参数;
对于每一所述关联关系集合中的每一关联关系信息,计算该关联关系信息与所述思考链中的所有关系信息的相似度的平均值,得到该关联实体信息对应的第二关联相似度参数;
筛选出所述第一关联相似度参数大于第一参数阈值的所有所述关联实体信息,以及筛选出所述第二关联相似度参数大于第二参数阈值的所有所述关联关系信息,得到所述思考链对应的多个关联数据。
作为一种可选的实施方式,在本发明第二方面中,所述推理算法模型为规则推理算法模型、分类推理算法模型、相似度推理算法模型或图计算推理算法模型;所述推理模块将所述思考链和所述关联数据,输入至训练好的多个推理算法模型中,确定所述问题数据对应的推理结果的具体方式,包括:
将所述思考链输入至推理预测模型中,以得到所述思考链对应的多个不同推理类型的预测适用概率;所述推理类型包括规则推理、分类推理、相似度推理或图计算推理;
根据所述预测适用概率的大小,确定所述思考链对应的至少两个适用推理类型;
根据所述适用推理类型,从多个候选推理算法模型中确定出类型相同的多个推理算法模型;
将所述思考链和所述关联数据,输入至所述多个推理算法模型中,确定所述问题数据对应的多个推理预测结果;
计算多个推理预测结果中任意两个推理预测结果之间的结果相似度,并筛选出多组推理预测结果对;每组推理预测结果对包括两个所述结果相似度低于预设阈值的所述推理预测结果;
将每一组所述推理预测结果对中对应的推理算法模型的类型对应的所述预测适用概率更高的所述推理预测结果确定为目标预测结果;
将不在所述推理预测结果对中的所述推理预测结果,以及所述目标预测结果,推送给所述用户。
本发明第三方面公开了另一种基于思考链和知识图谱的数据处理系统,所述系统包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于思考链和知识图谱的数据处理方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于思考链和知识图谱的数据处理方法中的部分或全部步骤。
与现有技术相比,本发明具有以下有益效果:
本发明可以从问题数据中提取出实体信息和关系信息,并结合思考链和知识图谱进行推理得到推理结果,从而能够有效提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于思考链和知识图谱的数据处理方法的流程示意图;
图2是本发明实施例公开的一种基于思考链和知识图谱的数据处理系统的结构示意图;
图3是本发明实施例公开的另一种基于思考链和知识图谱的数据处理系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于思考链和知识图谱的数据处理方法及系统,可以从问题数据中提取出实体信息和关系信息,并结合思考链和知识图谱进行推理得到推理结果,从而能够有效提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于思考链和知识图谱的数据处理方法的流程示意图。其中,图1所描述的方法可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定如图1所示,该基于思考链和知识图谱的数据处理方法可以包括以下操作:
101、获取用户输入的问题数据。
102、根据实体识别算法模型,识别出问题数据中的多个实体信息。
可选的,实体信息可以为人名、地名、机构名、城市名等实体信息。
103、基于关系提取算法模型,确定多个实体信息对应的关系信息。
可选的,关系信息可以为因果关系、并列关系、顺序关系、相反关系中的至少一种或多种。可选的,关系提取算法模型可以为训练好的神经网络模型或其他关键字识别模型。
104、基于训练好的神经网络模型,根据实体信息和关系信息,构建问题数据对应的思考链。
可选的,本发明中的神经网络模型为大数据语言模型,其可以为LTSM结构的模型或CNN结构的模型。
105、根据思考链和预设的知识图谱数据库,基于多种推理算法模型,确定问题数据对应的推理结果。
可见,实施本发明实施例所描述的方法可以从问题数据中提取出实体信息和关系信息,并结合思考链和知识图谱进行推理得到推理结果,从而能够有效提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,上述步骤中的,根据实体识别算法模型,识别出问题数据中的多个实体信息,包括:
根据用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型;
根据目标实体识别模型,识别出问题数据中的多个实体信息。
通过上述实施例,可以根据用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型,以用于识别出问题数据中的多个实体信息,从而能可以准确识别出实体信息,以便于后续提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,上述步骤中的,根据用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型,包括:
根据用户的历史数据记录,确定出用户对应的历史常用实体集合;
对于每一候选实体识别模型,确定该候选实体识别模型的历史输出实体集合和训练实体信息集合;
根据历史输出实体集合和训练实体信息集合,以及历史常用实体集合,确定该候选实体识别模型对应的相似度参数;
对于所有候选实体识别模型,确定出相似度参数最高的模型,确定为目标实体识别模型。
通过上述实施例,可以根据用户的历史数据记录,从多个候选实体识别模型中确定出历史识别的实体和用于训练的实体与用户常用的实体的相似度最高的目标实体识别模型,以用于更加精确地识别出问题数据中的多个实体信息,从而能可以准确识别出实体信息,以便于后续提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,上述步骤中的,根据历史输出实体集合和训练实体信息集合,以及历史常用实体集合,确定该候选实体识别模型对应的相似度参数,包括:
计算历史输出实体集合和历史常用实体集合之间的第一相似度;
计算训练实体信息集合和历史常用实体集合之间的第二相似度;
计算第一相似度和第二相似度的加权求和平均值,得到该候选实体识别模型对应的相似度参数;其中,第一相似度的权重大于第二相似度的权重。
可选的,第一相似度和第二相似度均可以用数据的重合度来表示。
通过上述实施例,可以根据用户的历史数据记录,从多个候选实体识别模型中确定出历史识别的实体和用于训练的实体与用户常用的实体的相似度最高的目标实体识别模型,以用于更加精确地识别出问题数据中的多个实体信息,从而能可以准确识别出实体信息,以便于后续提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,上述步骤中的,根据思考链和预设的知识图谱数据库,基于多种推理算法模型,确定问题数据对应的推理结果,包括:
基于思考链,在预设的知识图谱数据库中,拓展关联得到思考链对应的多个关联数据;关联数据包括实体关联数据和关系关联数据;
将思考链和关联数据,输入至训练好的多个推理算法模型中,确定问题数据对应的推理结果。
可选的,预设的知识图谱数据库可以通过预先将数据构建为知识,使用本体管理、文本挖掘、知识构建等技术,通过对实体、关系和属性进行分类、定义和归纳等处理,建立起知识图谱的结构和语义信息,并为推理引擎提供基础支持。
通过上述实施例,可以拓展关联得到思考链对应的多个关联数据,输入至训练好的多个推理算法模型中,确定问题数据对应的推理结果,以用于更加精确地确定问题数据对应的推理结果,从而能提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,上述步骤中的,基于思考链,在预设的知识图谱数据库中,拓展关联得到思考链对应的多个关联数据,包括:
根据思考链中的实体信息,在预设的知识图谱数据库中,查找每一实体信息对应的关联实体集合;
根据思考链中的关系信息,在预设的知识图谱数据库中,查找每一关系信息对应的关联关系集合;
对于每一关联实体集合中的每一关联实体信息,计算该关联实体信息与思考链中的所有实体信息的相似度的平均值,得到该关联实体信息对应的第一关联相似度参数;
对于每一关联关系集合中的每一关联关系信息,计算该关联关系信息与思考链中的所有关系信息的相似度的平均值,得到该关联实体信息对应的第二关联相似度参数;
筛选出第一关联相似度参数大于第一参数阈值的所有关联实体信息,以及筛选出第二关联相似度参数大于第二参数阈值的所有关联关系信息,得到思考链对应的多个关联数据。
可选的,相似度的计算方式可以采用向量距离算法来计算。
通过上述实施例,可以根据关联相似度的计算,在预设的知识图谱数据库中,拓展关联得到思考链对应的多个关联数据,以用于在后续根据关联数据更加精确地确定问题数据对应的推理结果,从而能提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,推理算法模型为规则推理算法模型、分类推理算法模型、相似度推理算法模型或图计算推理算法模型;上述步骤中的,将思考链和关联数据,输入至训练好的多个推理算法模型中,确定问题数据对应的推理结果,包括:
将思考链输入至推理预测模型中,以得到思考链对应的多个不同推理类型的预测适用概率;推理类型包括规则推理、分类推理、相似度推理或图计算推理;
根据预测适用概率的大小,确定思考链对应的至少两个适用推理类型;
根据适用推理类型,从多个候选推理算法模型中确定出类型相同的多个推理算法模型;
将思考链和关联数据,输入至多个推理算法模型中,确定问题数据对应的多个推理预测结果;
计算多个推理预测结果中任意两个推理预测结果之间的结果相似度,并筛选出多组推理预测结果对;每组推理预测结果对包括两个结果相似度低于预设阈值的推理预测结果;
将每一组推理预测结果对中对应的推理算法模型的类型对应的预测适用概率更高的推理预测结果确定为目标预测结果;
将不在推理预测结果对中的推理预测结果,以及目标预测结果,推送给用户。
通过上述实施例,可以根据推理预测模型的预测结果来确定思考链对应的推理模型,并根据多个推理模型的输出来综合确定预测结果,从而能提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于思考链和知识图谱的数据处理系统的结构示意图。其中,图2所描述的系统可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该系统可以包括:
获取模块201,用于获取用户输入的问题数据;
识别模块202,用于根据实体识别算法模型,识别出问题数据中的多个实体信息;
可选的,实体信息可以为人名、地名、机构名、城市名等实体信息。
确定模块203,用于基于关系提取算法模型,确定多个实体信息对应的关系信息;
可选的,关系信息可以为因果关系、并列关系、顺序关系、相反关系中的至少一种或多种。可选的,关系提取算法模型可以为训练好的神经网络模型或其他关键字识别模型。
构建模块204,用于基于训练好的神经网络模型,根据实体信息和关系信息,构建问题数据对应的思考链;
可选的,本发明中的神经网络模型为大数据语言模型,其可以为LTSM结构的模型或CNN结构的模型。
推理模块205,用于根据思考链和预设的知识图谱数据库,基于多种推理算法模型,确定问题数据对应的推理结果。
可见,实施本发明实施例所描述的系统可以从问题数据中提取出实体信息和关系信息,并结合思考链和知识图谱进行推理得到推理结果,从而能够有效提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,识别模块202根据实体识别算法模型,识别出问题数据中的多个实体信息的具体方式,包括:
根据用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型;
根据目标实体识别模型,识别出问题数据中的多个实体信息。
通过上述实施例,可以根据用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型,以用于识别出问题数据中的多个实体信息,从而能可以准确识别出实体信息,以便于后续提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,识别模块202根据用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型的具体方式,包括:
根据用户的历史数据记录,确定出用户对应的历史常用实体集合;
对于每一候选实体识别模型,确定该候选实体识别模型的历史输出实体集合和训练实体信息集合;
根据历史输出实体集合和训练实体信息集合,以及历史常用实体集合,确定该候选实体识别模型对应的相似度参数;
对于所有候选实体识别模型,确定出相似度参数最高的模型,确定为目标实体识别模型。
通过上述实施例,可以根据用户的历史数据记录,从多个候选实体识别模型中确定出历史识别的实体和用于训练的实体与用户常用的实体的相似度最高的目标实体识别模型,以用于更加精确地识别出问题数据中的多个实体信息,从而能可以准确识别出实体信息,以便于后续提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,识别模块202根据历史输出实体集合和训练实体信息集合,以及历史常用实体集合,确定该候选实体识别模型对应的相似度参数的具体方式,包括:
计算历史输出实体集合和历史常用实体集合之间的第一相似度;
计算训练实体信息集合和历史常用实体集合之间的第二相似度;
计算第一相似度和第二相似度的加权求和平均值,得到该候选实体识别模型对应的相似度参数;其中,第一相似度的权重大于第二相似度的权重。
可选的,第一相似度和第二相似度均可以用数据的重合度来表示。
通过上述实施例,可以根据用户的历史数据记录,从多个候选实体识别模型中确定出历史识别的实体和用于训练的实体与用户常用的实体的相似度最高的目标实体识别模型,以用于更加精确地识别出问题数据中的多个实体信息,从而能可以准确识别出实体信息,以便于后续提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,推理模块205根据思考链和预设的知识图谱数据库,基于多种推理算法模型,确定问题数据对应的推理结果的具体方式,包括:
基于思考链,在预设的知识图谱数据库中,拓展关联得到思考链对应的多个关联数据;关联数据包括实体关联数据和关系关联数据;
将思考链和关联数据,输入至训练好的多个推理算法模型中,确定问题数据对应的推理结果。
可选的,预设的知识图谱数据库可以通过预先将数据构建为知识,使用本体管理、文本挖掘、知识构建等技术,通过对实体、关系和属性进行分类、定义和归纳等处理,建立起知识图谱的结构和语义信息,并为推理引擎提供基础支持。
通过上述实施例,可以拓展关联得到思考链对应的多个关联数据,输入至训练好的多个推理算法模型中,确定问题数据对应的推理结果,以用于更加精确地确定问题数据对应的推理结果,从而能提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,推理模块205基于思考链,在预设的知识图谱数据库中,拓展关联得到思考链对应的多个关联数据的具体方式,包括:
根据思考链中的实体信息,在预设的知识图谱数据库中,查找每一实体信息对应的关联实体集合;
根据思考链中的关系信息,在预设的知识图谱数据库中,查找每一关系信息对应的关联关系集合;
对于每一关联实体集合中的每一关联实体信息,计算该关联实体信息与思考链中的所有实体信息的相似度的平均值,得到该关联实体信息对应的第一关联相似度参数;
对于每一关联关系集合中的每一关联关系信息,计算该关联关系信息与思考链中的所有关系信息的相似度的平均值,得到该关联实体信息对应的第二关联相似度参数;
筛选出第一关联相似度参数大于第一参数阈值的所有关联实体信息,以及筛选出第二关联相似度参数大于第二参数阈值的所有关联关系信息,得到思考链对应的多个关联数据。
可选的,相似度的计算方式可以采用向量距离算法来计算。
通过上述实施例,可以根据关联相似度的计算,在预设的知识图谱数据库中,拓展关联得到思考链对应的多个关联数据,以用于在后续根据关联数据更加精确地确定问题数据对应的推理结果,从而能提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
作为一种可选的实施例,推理算法模型为规则推理算法模型、分类推理算法模型、相似度推理算法模型或图计算推理算法模型;推理模块205将思考链和关联数据,输入至训练好的多个推理算法模型中,确定问题数据对应的推理结果的具体方式,包括:
将思考链输入至推理预测模型中,以得到思考链对应的多个不同推理类型的预测适用概率;推理类型包括规则推理、分类推理、相似度推理或图计算推理;
根据预测适用概率的大小,确定思考链对应的至少两个适用推理类型;
根据适用推理类型,从多个候选推理算法模型中确定出类型相同的多个推理算法模型;
将思考链和关联数据,输入至多个推理算法模型中,确定问题数据对应的多个推理预测结果;
计算多个推理预测结果中任意两个推理预测结果之间的结果相似度,并筛选出多组推理预测结果对;每组推理预测结果对包括两个结果相似度低于预设阈值的推理预测结果;
将每一组推理预测结果对中对应的推理算法模型的类型对应的预测适用概率更高的推理预测结果确定为目标预测结果;
将不在推理预测结果对中的推理预测结果,以及目标预测结果,推送给用户。
通过上述实施例,可以根据推理预测模型的预测结果来确定思考链对应的推理模型,并根据多个推理模型的输出来综合确定预测结果,从而能提高问题推理的准确性,提高模型的智能化程度,实现更有效的问答服务。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于思考链和知识图谱的数据处理系统的结构示意图。如图3所示,该系统可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于思考链和知识图谱的数据处理方法中的部分或全部步骤。
实施例四
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于思考链和知识图谱的数据处理方法中的部分或全部步骤。
以上所描述的系统实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于思考链和知识图谱的数据处理方法及系统所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (7)

1.一种基于思考链和知识图谱的数据处理方法,其特征在于,所述方法包括:
获取用户输入的问题数据;
根据实体识别算法模型,识别出所述问题数据中的多个实体信息;
基于关系提取算法模型,确定所述多个实体信息对应的关系信息;
基于训练好的神经网络模型,根据所述实体信息和所述关系信息,构建所述问题数据对应的思考链;
根据所述思考链中的所述实体信息,在预设的知识图谱数据库中,查找每一所述实体信息对应的关联实体集合;
根据所述思考链中的所述关系信息,在预设的知识图谱数据库中,查找每一所述关系信息对应的关联关系集合;
对于每一所述关联实体集合中的每一关联实体信息,计算该关联实体信息与所述思考链中的所有实体信息的相似度的平均值,得到该关联实体信息对应的第一关联相似度参数;
对于每一所述关联关系集合中的每一关联关系信息,计算该关联关系信息与所述思考链中的所有关系信息的相似度的平均值,得到该关联实体信息对应的第二关联相似度参数;
筛选出所述第一关联相似度参数大于第一参数阈值的所有所述关联实体信息,以及筛选出所述第二关联相似度参数大于第二参数阈值的所有所述关联关系信息,得到所述思考链对应的多个关联数据;
将所述思考链输入至推理预测模型中,以得到所述思考链对应的多个不同推理类型的预测适用概率;所述推理类型包括规则推理、分类推理、相似度推理或图计算推理;
根据所述预测适用概率的大小,确定所述思考链对应的至少两个适用推理类型;
根据所述适用推理类型,从多个候选推理算法模型中确定出类型相同的多个推理算法模型;所述推理算法模型为规则推理算法模型、分类推理算法模型、相似度推理算法模型或图计算推理算法模型;
将所述思考链和所述关联数据,输入至所述多个推理算法模型中,确定所述问题数据对应的多个推理预测结果;
计算多个推理预测结果中任意两个推理预测结果之间的结果相似度,并筛选出多组推理预测结果对;每组推理预测结果对包括两个所述结果相似度低于预设阈值的所述推理预测结果;
将每一组所述推理预测结果对中对应的推理算法模型的类型对应的所述预测适用概率更高的所述推理预测结果确定为目标预测结果;
将不在所述推理预测结果对中的所述推理预测结果,以及所述目标预测结果,推送给所述用户。
2.根据权利要求1所述的基于思考链和知识图谱的数据处理方法,其特征在于,所述根据实体识别算法模型,识别出所述问题数据中的多个实体信息,包括:
根据所述用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型;
根据所述目标实体识别模型,识别出所述问题数据中的多个实体信息。
3.根据权利要求2所述的基于思考链和知识图谱的数据处理方法,其特征在于,所述根据所述用户的历史数据记录,从多个候选实体识别模型中确定出目标实体识别模型,包括:
根据所述用户的历史数据记录,确定出所述用户对应的历史常用实体集合;
对于每一候选实体识别模型,确定该候选实体识别模型的历史输出实体集合和训练实体信息集合;
根据所述历史输出实体集合和训练实体信息集合,以及所述历史常用实体集合,确定该候选实体识别模型对应的相似度参数;
对于所有所述候选实体识别模型,确定出所述相似度参数最高的模型,确定为目标实体识别模型。
4.根据权利要求3所述的基于思考链和知识图谱的数据处理方法,其特征在于,所述根据所述历史输出实体集合和训练实体信息集合,以及所述历史常用实体集合,确定该候选实体识别模型对应的相似度参数,包括:
计算所述历史输出实体集合和所述历史常用实体集合之间的第一相似度;
计算所述训练实体信息集合和所述历史常用实体集合之间的第二相似度;
计算所述第一相似度和所述第二相似度的加权求和平均值,得到该候选实体识别模型对应的相似度参数;其中,所述第一相似度的权重大于所述第二相似度的权重。
5.一种基于思考链和知识图谱的数据处理系统,其特征在于,所述系统包括:
获取模块,用于获取用户输入的问题数据;
识别模块,用于根据实体识别算法模型,识别出所述问题数据中的多个实体信息;
确定模块,用于基于关系提取算法模型,确定所述多个实体信息对应的关系信息;
构建模块,用于基于训练好的神经网络模型,根据所述实体信息和所述关系信息,构建所述问题数据对应的思考链;
推理模块,用于根据所述思考链和预设的知识图谱数据库,基于多种推理算法模型,确定所述问题数据对应的推理结果,具体包括:
根据所述思考链中的所述实体信息,在预设的知识图谱数据库中,查找每一所述实体信息对应的关联实体集合;
根据所述思考链中的所述关系信息,在预设的知识图谱数据库中,查找每一所述关系信息对应的关联关系集合;
对于每一所述关联实体集合中的每一关联实体信息,计算该关联实体信息与所述思考链中的所有实体信息的相似度的平均值,得到该关联实体信息对应的第一关联相似度参数;
对于每一所述关联关系集合中的每一关联关系信息,计算该关联关系信息与所述思考链中的所有关系信息的相似度的平均值,得到该关联实体信息对应的第二关联相似度参数;
筛选出所述第一关联相似度参数大于第一参数阈值的所有所述关联实体信息,以及筛选出所述第二关联相似度参数大于第二参数阈值的所有所述关联关系信息,得到所述思考链对应的多个关联数据;
将所述思考链输入至推理预测模型中,以得到所述思考链对应的多个不同推理类型的预测适用概率;所述推理类型包括规则推理、分类推理、相似度推理或图计算推理;
根据所述预测适用概率的大小,确定所述思考链对应的至少两个适用推理类型;
根据所述适用推理类型,从多个候选推理算法模型中确定出类型相同的多个推理算法模型;所述推理算法模型为规则推理算法模型、分类推理算法模型、相似度推理算法模型或图计算推理算法模型;
将所述思考链和所述关联数据,输入至所述多个推理算法模型中,确定所述问题数据对应的多个推理预测结果;
计算多个推理预测结果中任意两个推理预测结果之间的结果相似度,并筛选出多组推理预测结果对;每组推理预测结果对包括两个所述结果相似度低于预设阈值的所述推理预测结果;
将每一组所述推理预测结果对中对应的推理算法模型的类型对应的所述预测适用概率更高的所述推理预测结果确定为目标预测结果;
将不在所述推理预测结果对中的所述推理预测结果,以及所述目标预测结果,推送给所述用户。
6.一种基于思考链和知识图谱的数据处理系统,其特征在于,所述系统包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-4任一项所述的基于思考链和知识图谱的数据处理方法。
7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-4任一项所述的基于思考链和知识图谱的数据处理方法。
CN202310909759.0A 2023-07-21 2023-07-21 基于思考链和知识图谱的数据处理方法及系统 Active CN116955560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310909759.0A CN116955560B (zh) 2023-07-21 2023-07-21 基于思考链和知识图谱的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310909759.0A CN116955560B (zh) 2023-07-21 2023-07-21 基于思考链和知识图谱的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN116955560A CN116955560A (zh) 2023-10-27
CN116955560B true CN116955560B (zh) 2024-01-05

Family

ID=88444066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310909759.0A Active CN116955560B (zh) 2023-07-21 2023-07-21 基于思考链和知识图谱的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN116955560B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785347A (zh) * 2021-02-08 2021-05-11 苏宁金融科技(南京)有限公司 基于知识图谱的智能客服问答推荐方法及系统
CN113360616A (zh) * 2021-06-04 2021-09-07 科大讯飞股份有限公司 自动问答处理方法、装置、设备及存储介质
CN113392197A (zh) * 2021-06-15 2021-09-14 吉林大学 问答推理方法、装置、存储介质及电子设备
CN114691891A (zh) * 2022-04-19 2022-07-01 同方知网数字出版技术股份有限公司 一种面向知识图谱的问答推理方法
CN114757354A (zh) * 2022-05-16 2022-07-15 中译语通科技股份有限公司 基于知识图谱的混合推理方法、系统、设备及存储介质
CN114860877A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于知识图谱关系预测的问题链生成方法及系统
WO2022237013A1 (zh) * 2021-05-11 2022-11-17 西安交通大学 基于实体关系联合抽取的法律知识图谱构建方法及设备
CN116070701A (zh) * 2023-03-02 2023-05-05 黄志宇 应用于智能可视化的数据处理方法及系统
CN116089581A (zh) * 2022-12-30 2023-05-09 天津光电通信技术有限公司 一种基于知识图谱的智能问答方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785347A (zh) * 2021-02-08 2021-05-11 苏宁金融科技(南京)有限公司 基于知识图谱的智能客服问答推荐方法及系统
WO2022237013A1 (zh) * 2021-05-11 2022-11-17 西安交通大学 基于实体关系联合抽取的法律知识图谱构建方法及设备
CN113360616A (zh) * 2021-06-04 2021-09-07 科大讯飞股份有限公司 自动问答处理方法、装置、设备及存储介质
CN113392197A (zh) * 2021-06-15 2021-09-14 吉林大学 问答推理方法、装置、存储介质及电子设备
CN114691891A (zh) * 2022-04-19 2022-07-01 同方知网数字出版技术股份有限公司 一种面向知识图谱的问答推理方法
CN114860877A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于知识图谱关系预测的问题链生成方法及系统
CN114757354A (zh) * 2022-05-16 2022-07-15 中译语通科技股份有限公司 基于知识图谱的混合推理方法、系统、设备及存储介质
CN116089581A (zh) * 2022-12-30 2023-05-09 天津光电通信技术有限公司 一种基于知识图谱的智能问答方法
CN116070701A (zh) * 2023-03-02 2023-05-05 黄志宇 应用于智能可视化的数据处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Improving embedded knowledge graph multi-hop question answering by introducing relational chain reasoning";Weiqiang Jin等;《Data Mining and Knowledge Discovery》;第255-288页 *
面向问答系统的知识图谱推理算法的研究与实现;向伟富;中国优秀硕士学位论文全文数据库 信息科技辑;全文 *

Also Published As

Publication number Publication date
CN116955560A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111506723B (zh) 问答响应方法、装置、设备及存储介质
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN113254833B (zh) 一种基于产教融合的信息推送的方法及服务系统
CN110781687B (zh) 相同意图语句的获取方法及装置
CN110990532A (zh) 一种处理文本的方法和装置
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
US20240086731A1 (en) Knowledge-graph extrapolating method and system based on multi-layer perception
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN118468061A (zh) 一种算法自动匹配及参数优化方法及系统
CN114281972A (zh) 基于主体对象跟踪和认知推理的对话控制方法、系统存储介质和服务器
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN110489730A (zh) 文本处理方法、装置、终端及存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN113449508A (zh) 一种基于事件链的网络舆情关联推演预测分析方法
CN113065329A (zh) 数据的处理方法和装置
CN116955560B (zh) 基于思考链和知识图谱的数据处理方法及系统
CN116701752A (zh) 基于人工智能的新闻推荐方法、装置、电子设备及介质
CN113157892B (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN114610576A (zh) 一种日志生成监控方法和装置
CN114782206B (zh) 理赔标签预测方法、装置、计算机设备和存储介质
CN116227598B (zh) 一种基于双阶段注意力机制的事件预测方法、设备及介质
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant