CN114153993B - 一种用于智能问答的知识图谱自动化构建方法及系统 - Google Patents

一种用于智能问答的知识图谱自动化构建方法及系统 Download PDF

Info

Publication number
CN114153993B
CN114153993B CN202210115804.0A CN202210115804A CN114153993B CN 114153993 B CN114153993 B CN 114153993B CN 202210115804 A CN202210115804 A CN 202210115804A CN 114153993 B CN114153993 B CN 114153993B
Authority
CN
China
Prior art keywords
question
data
answer
knowledge
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210115804.0A
Other languages
English (en)
Other versions
CN114153993A (zh
Inventor
嵇望
陈默
梁青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Yuanchuan New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan New Technology Co ltd filed Critical Hangzhou Yuanchuan New Technology Co ltd
Priority to CN202210115804.0A priority Critical patent/CN114153993B/zh
Publication of CN114153993A publication Critical patent/CN114153993A/zh
Application granted granted Critical
Publication of CN114153993B publication Critical patent/CN114153993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供一种用于智能问答的知识图谱自动化构建方法及系统,其中方法包括:提取待重建的问答系统的问答数据库;确定问答数据库内各个问答数据对应的知识领域;基于知识领域对问答数据进行分组,确定多个问题组;获取知识领域对应的知识图谱构建模板;基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;将构建的待处理图谱进行整合关联,形成知识图谱。本发明的用于智能问答的知识图谱自动化构建方法,实现在原有的FAQ智能问答系统的基础上进行用于智能问答的知识图谱的自动化构建,降低企业的智能问答系统转换的周期以及成本。

Description

一种用于智能问答的知识图谱自动化构建方法及系统
技术领域
本发明涉及人工智能技术领域,特别涉及一种用于智能问答的知识图谱自动化构建方法及系统。
背景技术
目前,随着人工智能的发展,自动问答系统逐渐成为人和机器沟通的新模式,它可以在理解用户输入的问句后,针对用户意图返回精准的问句答案。目前FAQ智能问答系统已经趋于完善,可以完成机器人的智能问答,实现与用户的智能交互;对于同一用户的连续问题,每次都是遍历存储的答案库,进行回答,相对的,采用知识图谱的问答系统来说能更好的对于同一用户的连续问题的答案的查询,快速返回符合要求的问题答案。对于企业来说舍弃原有的FAQ智能问答系统重新进行构建基于知识图谱的智能问答系统存在周期长、成本高的问题。
发明内容
本发明目的之一在于提供了一种用于智能问答的知识图谱自动化构建方法,实现在原有的FAQ智能问答系统的基础上进行用于智能问答的知识图谱的自动化构建,降低企业的智能问答系统转换的周期以及成本。
本发明实施例提供的一种用于智能问答的知识图谱自动化构建方法及系统,包括:
提取待重建的问答系统的问答数据库;
确定问答数据库内各个问答数据对应的知识领域;
基于知识领域对问答数据进行分组,确定多个问题组;
获取知识领域对应的知识图谱构建模板;
基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
将构建的待处理图谱进行整合关联,形成知识图谱。
优选的,确定问答数据库内各个问答数据对应的知识领域,包括:
对问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。
优选的,基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,包括:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;
基于第一三元组和第二三元组,构建待处理图谱。
优选的,在提取待重建的问答系统的问答数据库之后,还包括:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;
在知识图谱整合完成后,还包括:
确定知识图谱的第一数据量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
优选的,基于使用参数和构建参数,确定各个问答数据的关键度,包括:
对使用参数和构建参数进行特征提取,确定多个特征值;
基于多个特征值,查询预设的关键度量化表,确定问答数据的关键度;
其中,特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
关键度量化表中特征值与关键度对应关联。
优选的,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,包括:
确定问答数据中的实体的实体名称;
基于实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析待处理数据,构建对应实体的第三三元组;
获取知识图谱中对应实体名称的第一三元组和第二三元组;
基于第一三元组和第二三元组,对第三三元组进行去重处理;
经过去重处理后的第三三元组为待补充进知识图谱的数据,对应的数据量为第四数据量。
优选的,用于智能问答的知识图谱自动化构建方法,还包括:
在提取待重建的问答系统的问答数据库之后,获取问答系统的使用记录;
解析使用记录,确定各个问答数据的使用参数;
获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成待输出表单;
在知识图谱整合完成后,确定各个问答数据对应的知识图谱的数据的第五数据量并映射至待输出表单中形成构建情况表;
将构建情况表输出给用户;
接收用户输入的第二限制规则;
基于第二限制规则,对知识图谱进行调整。
本发明还提供一种用于智能问答的知识图谱自动化构建系统,包括:
提取模块,用于提取待重建的问答系统的问答数据库;
确定模块,用于确定问答数据库内各个问答数据对应的知识领域;
分组模块,用于基于知识领域对问答数据进行分组,确定多个问题组;
获取模块,用于获取知识领域对应的知识图谱构建模板;
构建模块,用于基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
整合模块,用于将构建的待处理图谱进行整合关联,形成知识图谱。
优选的,确定模块确定问答数据库内各个问答数据对应的知识领域,执行如下操作:
对问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。
优选的,构建模块基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,执行如下操作:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;
基于第一三元组和第二三元组,构建待处理图谱。
优选的,智能问答的知识图谱自动化构建系统,还包括:限制确定模块和调整模块;
限制确定模块在提取模块提取待重建的问答系统的问答数据库之后执行如下操作:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;
调整模块在整合模块将知识图谱整合完成后,执行如下操作:
确定知识图谱的第一数据量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于智能问答的知识图谱自动化构建方法的示意图;
图2为本发明实施例中确定知识领域的步骤示意图;
图3为本发明实施例中一种用于智能问答的知识图谱自动化构建系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种用于智能问答的知识图谱自动化构建方法,如图1所示,包括:
步骤S1:提取待重建的问答系统的问答数据库;
步骤S2:确定问答数据库内各个问答数据对应的知识领域;
步骤S3:基于知识领域对问答数据进行分组,确定多个问题组;
步骤S4:获取知识领域对应的知识图谱构建模板;
步骤S5:基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
步骤S6:将构建的待处理图谱进行整合关联,形成知识图谱。
上述技术方案的工作原理及有益效果为:
问答数据库为FAQ问答系统的基础,因此将FAQ问答系统转换为知识图谱问答系统,最关键的是问答数据库转变为知识图谱;通过将问答系统的问答数据库提取出,对问答数据库中的问答数据进行分析,确定其知识领域,并因此划分为多个问题组,一个问题组对应一个知识领域;从系统的数据库内提取对应的知识图谱构建模板,进行针对各个问题组,构建待处理图谱,最后进行整合关联形成知识图谱;数据基础构建完,然后采用系统保存的检索引擎等将FAQ问答系统的其他部分覆盖即可,通过对问答数据库进行转换,节省了知识图谱的数据收集过程,实现在原有的FAQ智能问答系统的基础上进行用于智能问答的知识图谱的自动化构建,降低企业的智能问答系统转换的周期以及成本。
在一个实施例中,确定问答数据库内各个问答数据对应的知识领域,如图2所示,包括:
步骤S11:对问答数据进行关键词提取,获取多个关键词;例如:可以通过预设的关键词库进行关键词的提取;
步骤S12:分别对多个关键词进行量化,获取多个参数值;例如:通过关键词量化表进行量化处理,将关键词量化为数值;
步骤S13:基于多个参数值,构建表示参数集;可以采用直接排列的方式进行排列形成表示参数集;
步骤S14:获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
步骤S15:将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。匹配可以通过计算表示参数集和判断参数集的相似度来实现;相似度计算公式如下:
Figure 811609DEST_PATH_IMAGE001
;
其中,
Figure 710295DEST_PATH_IMAGE002
为相似度;
Figure 545396DEST_PATH_IMAGE003
为表示参数集中第
Figure 630639DEST_PATH_IMAGE004
个数据值;
Figure 477372DEST_PATH_IMAGE005
为判断参数集中第
Figure 874856DEST_PATH_IMAGE004
个 数据值;
Figure 947985DEST_PATH_IMAGE006
为表示参数集或判断参数集中的数据总数;
当相似度为知识领域判断库中最大时,表示参数集与判断参数集匹配;
通过关键词提取、量化以及知识领域判断库的匹配,实现了自动且准确的各个问答数据的知识领域的判断。
在一个实施例中,基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,包括:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;实体识别规则用于识别数据中的实体,具体为:首先提取问答数据中的名词性的主语、宾语;将提取的名词与预设的实体库中的名词匹配,进而确定问答数据中的实体;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;将具有相同的实体的问答数据分为一个问答数据集,因此,当同一问答数据如包含多个实体时,会出现在多个问答数据集中。
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;实体数量大于二的问答数据为描述实体与其他实体关系的数据,因此可以从中识别出关系,例如:关系识别规则可以为提取实体与实体之间连接的谓语,将谓语与预设的关系确定表中的词语进行匹配,确定实体与实体之间的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;第一三元组的结构为实体名称—关系—实体名称;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;第二三元组的结构为实体名称—属性—属性值;
基于第一三元组和第二三元组,构建待处理图谱。例如:将第一三元组和第二三元组进行合并。
在一个实施例中,在提取待重建的问答系统的问答数据库之后,还包括:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;第一问询可以为问询框,问询框上可以设置选项,选项包括:以可用存储空间为基准建立知识图谱、以第一数据量为基准建立知识图谱;此外,还可以通过问询框接收用户输入的第一限制条件,第一限制条件包括数据量等;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;第一限制规则包括:数据量限制条件。例如:用户想对数据库进行扩充可以设置较高的数据量作为数据量限制条件,可以以可用存储空间为基准构建。想对数据库进行精简时,可以输入较低的数据量作为数据量限制条件;
在知识图谱整合完成后,还包括:
确定知识图谱的第一数据量;第一数据量为知识图谱所占内存的存储量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
上述技术方案的工作原理及有益效果为:
当知识图谱的占用内存数未达到第一限制条件时,当超出时,进行知识图谱数据的精简;当未达到时,进行知识图谱的扩充;实现构建的知识图谱符合客户的要求;其中,精简和扩充都是以问答数据的关键度为排队条件,精简时,主要对关键度低的数据进行依次精简;扩充是对关键度高的数据进行依次扩充;在精简和扩充都考虑了构建的知识图谱的适用性。
在一个实施例中,基于使用参数和构建参数,确定各个问答数据的关键度,包括:
对使用参数和构建参数进行特征提取,确定多个特征值;
基于多个特征值,查询预设的关键度量化表,确定问答数据的关键度;
其中,特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
关键度量化表中特征值与关键度对应关联。
上述技术方案的工作原理及有益效果为:
在对问答数据的关键度量化时,主要考虑问答数据的使用情况及构建情况;使用情况的表现为使用参数;构建情况的表现为构建参数;通过对使用参数、构建参数进行特征提取,进而根据特征值查询关键度量化表确定;关键度量化表为事先设置;在关键度量化表中,总使用次数越多,关键度的值越大;最近一次使用时间越接近,关键度的值越大;上一预设的周期内的使用次数越多,关键度的值越大;构建时间越接近,关键度的值越大;构建人员的权限越高,关键度的值越大;构建人员的权限为FAQ问答系统内预先配置;在设置关键度量化表时,可以对每个特征值进行权重设置,通过对量化的特征值与权重的积进行求和,获得关键度。
在一个实施例中,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,包括:
确定问答数据中的实体的实体名称;
基于实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析待处理数据,构建对应实体的第三三元组;
获取知识图谱中对应实体名称的第一三元组和第二三元组;
基于第一三元组和第二三元组,对第三三元组进行去重处理;
经过去重处理后的第三三元组为待补充进知识图谱的数据,对应的数据量为第四数据量。
上述技术方案的工作原理及有益效果为:
通过大数据平台上的数据对知识图谱进行扩充,保证扩充的知识图谱的有效及全面性。通过爬虫软件对特定领域网页数据进行爬取。爬虫框架要保证用户有效、稳定、可靠地爬取特定领域网页上的内容。对文本中命名实体的精确抽取。命名实体识别包括实体的检测(find)和分类(classify),命名实体识别算法是为后续关系抽取做铺垫,较高的抽取精度对关系抽取极为重要。对篇章级和文本级实体关系的精确抽取。关系抽取后将拿到知识图谱构建的最小单元三元组,关系抽取是把知识点串联成一张知识网,构建知识图谱三元组的重要过程。对三元组的精确筛选、融合等。具体包括对等价实例(数据层面)、等价类、等价子类、属性以及子属性的融合。最终将融合筛选后的三元组导入到neo4j图数据。
在一个实施例中,用于智能问答的知识图谱自动化构建方法,还包括:
在提取待重建的问答系统的问答数据库之后,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成待输出表单;
在知识图谱整合完成后,确定各个问答数据对应的知识图谱的数据的第五数据量并映射至待输出表单中形成构建情况表;
将构建情况表输出给用户;
接收用户输入的第二限制规则;
基于第二限制规则,对知识图谱进行调整。
上述技术方案的工作原理及有益效果为:
通过关键度实现对知识图谱的进行优化调整;其中,第二限制规则包括:关键度限制条件;例如:关键度小于第一阈值的删除和/或对关键度大于第二阈值的进行扩充;第一阈值小于第二阈值。
本发明还提供一种用于智能问答的知识图谱自动化构建系统,包括:
提取模块1,用于提取待重建的问答系统的问答数据库;
确定模块2,用于确定问答数据库内各个问答数据对应的知识领域;
分组模块3,用于基于知识领域对问答数据进行分组,确定多个问题组;
获取模块4,用于获取知识领域对应的知识图谱构建模板;
构建模块5,用于基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
整合模块6,用于将构建的待处理图谱进行整合关联,形成知识图谱。
在一个实施例中,确定模块2确定问答数据库内各个问答数据对应的知识领域,执行如下操作:
对问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。
在一个实施例中,构建模块5基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,执行如下操作:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;
基于第一三元组和第二三元组,构建待处理图谱。
在一个实施例中,智能问答的知识图谱自动化构建系统,还包括:限制确定模块和调整模块;
限制确定模块在提取模块提取待重建的问答系统的问答数据库之后执行如下操作:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;
调整模块在整合模块将知识图谱整合完成后,执行如下操作:
确定知识图谱的第一数据量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
在一个实施例中,调整模块基于使用参数和构建参数,确定各个问答数据的关键度,具体为:
对使用参数和构建参数进行特征提取,确定多个特征值;
基于多个特征值,查询预设的关键度量化表,确定问答数据的关键度;
其中,特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
关键度量化表中特征值与关键度对应关联。
在一个实施例中,调整模块从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,具体为:
确定问答数据中的实体的实体名称;
基于实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析待处理数据,构建对应实体的第三三元组;
获取知识图谱中对应实体名称的第一三元组和第二三元组;
基于第一三元组和第二三元组,对第三三元组进行去重处理;
经过去重处理后的第三三元组为待补充进知识图谱的数据,对应的数据量为第四数据量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种用于智能问答的知识图谱自动化构建方法,其特征在于,包括:
提取待重建的问答系统的问答数据库;
确定所述问答数据库内各个问答数据对应的知识领域;
基于所述知识领域对所述问答数据进行分组,确定多个问题组;
获取所述知识领域对应的知识图谱构建模板;
基于所述知识领域对应的所述问题组和所述知识图谱构建模板,构建待处理图谱;
将构建的所述待处理图谱进行整合关联,形成知识图谱;
所述基于所述知识领域对应的所述问题组和所述知识图谱构建模板,构建待处理图谱,包括:
解析所述知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于所述实体识别规则,确定所述问题组内各个所述问答数据中的实体数量以及实体名称;
基于所述实体对所述问题组内的所述问答数据进行聚类处理,获取多个问答数据集;
提取所述问答数据集中实体数量大于等于二的所述问答数据,基于所述关系识别规则确定所述问答数据中所述实体与其他的实体的关系;
基于所述实体与其他的实体的关系和所述实体名称,构建第一三元组;
提取所述问答数据集中实体数量为一的所述问答数据,确定所述实体的属性以及所述属性对应的属性值;
基于所述实体名称、所述属性和所述属性值,构建第二三元组;
基于所述第一三元组和所述第二三元组,构建所述待处理图谱;
在提取待重建的问答系统的问答数据库之后,还包括:
确定所述问答系统对应的硬件的可用存储空间;
确定所述问答数据库的第一数据量;
基于所述第一数据量和所述可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于所述第一问询的第一反馈;
解析所述第一反馈,确定所述知识图谱的第一数据量的第一限制规则;
在所述知识图谱整合完成后,还包括:
确定所述知识图谱的第一数据量;
当所述第一数据量符合所述第一限制规则时,结束所述知识图谱的构建;
当所述第一数据量超出所述第一限制规则时,获取所述问答系统的使用记录;解析所述使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于所述使用参数和所述构建参数,确定各个问答数据的关键度;
基于所述关键度从小到大的顺序对所述问答数据进行排序,形成第一候选表;
从上至下依次确定所述第一候选表中各个问答数据在所述知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当所述第一数据量减去所述第三数据量的总值符合所述第一限制规则时,基于所述候选表中确定出数据量的所述问答数据生成数据删减清单并输出;
当所述第一数据量未达到所述第一限制规则时,获取所述问答系统的使用记录;解析所述使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于所述使用参数和所述构建参数,确定各个问答数据的关键度;
基于所述关键度从大到小的顺序对所述问答数据进行排序,形成第二候选表;
依次提取所述第二候选表中的问答数据,从大数据平台上获取数据对所述问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当所述第一数据量加上所述第四数据量的总值符合所述第一限制规则时,基于补充的数据生成补充数据清单并输出。
2.如权利要求1所述的用于智能问答的知识图谱自动化构建方法,其特征在于,所述确定所述问答数据库内各个问答数据对应的知识领域,包括:
对所述问答数据进行关键词提取,获取多个关键词;
分别对多个所述关键词进行量化,获取多个参数值;
基于多个所述参数值,构建表示参数集;
获取预设的知识领域判断库;所述知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将所述表示参数集与所述知识领域判断库中各个所述判断参数集进行匹配,获取匹配符合的所述判断参数集对应关联的所述知识领域判断结果。
3.如权利要求1所述的用于智能问答的知识图谱自动化构建方法,其特征在于,基于所述使用参数和所述构建参数,确定各个问答数据的关键度,包括:
对所述使用参数和所述构建参数进行特征提取,确定多个特征值;
基于多个所述特征值,查询预设的关键度量化表,确定所述问答数据的所述关键度;
其中,所述特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
所述关键度量化表中所述特征值与所述关键度对应关联。
4.如权利要求1所述的用于智能问答的知识图谱自动化构建方法,其特征在于,所述从大数据平台上获取数据对所述问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,包括:
确定所述问答数据中的所述实体的所述实体名称;
基于所述实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析所述待处理数据,构建对应所述实体的第三三元组;
获取所述知识图谱中对应所述实体名称的第一三元组和第二三元组;
基于所述第一三元组和所述第二三元组,对所述第三三元组进行去重处理;
经过去重处理后的所述第三三元组为待补充进所述知识图谱的数据,对应的数据量为所述第四数据量。
5.如权利要求1所述的用于智能问答的知识图谱自动化构建方法,其特征在于,还包括:
在提取待重建的问答系统的问答数据库之后,获取所述问答系统的使用记录;
解析所述使用记录,确定各个问答数据的使用参数;
获取各个问答数据的构建参数;
基于所述使用参数和所述构建参数,确定各个问答数据的关键度;
基于所述关键度从小到大的顺序对所述问答数据进行排序,形成待输出表单;
在所述知识图谱整合完成后,确定各个所述问答数据对应的知识图谱的数据的第五数据量并映射至所述待输出表单中形成构建情况表;
将所述构建情况表输出给用户;
接收所述用户输入的第二限制规则;
基于所述第二限制规则,对所述知识图谱进行调整。
6.一种用于智能问答的知识图谱自动化构建系统,其特征在于,包括:
提取模块,用于提取待重建的问答系统的问答数据库;
确定模块,用于确定所述问答数据库内各个问答数据对应的知识领域;
分组模块,用于基于所述知识领域对所述问答数据进行分组,确定多个问题组;
获取模块,用于获取所述知识领域对应的知识图谱构建模板;
构建模块,用于基于所述知识领域对应的所述问题组和所述知识图谱构建模板,构建待处理图谱;
整合模块,用于将构建的所述待处理图谱进行整合关联,形成知识图谱;
所述基于所述知识领域对应的所述问题组和所述知识图谱构建模板,构建待处理图谱,包括:
解析所述知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于所述实体识别规则,确定所述问题组内各个所述问答数据中的实体数量以及实体名称;
基于所述实体对所述问题组内的所述问答数据进行聚类处理,获取多个问答数据集;
提取所述问答数据集中实体数量大于等于二的所述问答数据,基于所述关系识别规则确定所述问答数据中所述实体与其他的实体的关系;
基于所述实体与其他的实体的关系和所述实体名称,构建第一三元组;
提取所述问答数据集中实体数量为一的所述问答数据,确定所述实体的属性以及所述属性对应的属性值;
基于所述实体名称、所述属性和所述属性值,构建第二三元组;
基于所述第一三元组和所述第二三元组,构建所述待处理图谱;
在提取待重建的问答系统的问答数据库之后,还包括:
确定所述问答系统对应的硬件的可用存储空间;
确定所述问答数据库的第一数据量;
基于所述第一数据量和所述可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于所述第一问询的第一反馈;
解析所述第一反馈,确定所述知识图谱的第一数据量的第一限制规则;
在所述知识图谱整合完成后,还包括:
确定所述知识图谱的第一数据量;
当所述第一数据量符合所述第一限制规则时,结束所述知识图谱的构建;
当所述第一数据量超出所述第一限制规则时,获取所述问答系统的使用记录;解析所述使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于所述使用参数和所述构建参数,确定各个问答数据的关键度;
基于所述关键度从小到大的顺序对所述问答数据进行排序,形成第一候选表;
从上至下依次确定所述第一候选表中各个问答数据在所述知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当所述第一数据量减去所述第三数据量的总值符合所述第一限制规则时,基于所述候选表中确定出数据量的所述问答数据生成数据删减清单并输出;
当所述第一数据量未达到所述第一限制规则时,获取所述问答系统的使用记录;解析所述使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于所述使用参数和所述构建参数,确定各个问答数据的关键度;
基于所述关键度从大到小的顺序对所述问答数据进行排序,形成第二候选表;
依次提取所述第二候选表中的问答数据,从大数据平台上获取数据对所述问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当所述第一数据量加上所述第四数据量的总值符合所述第一限制规则时,基于补充的数据生成补充数据清单并输出。
7.如权利要求6所述的用于智能问答的知识图谱自动化构建系统,其特征在于,所述确定模块确定所述问答数据库内各个问答数据对应的知识领域,执行如下操作:
对所述问答数据进行关键词提取,获取多个关键词;
分别对多个所述关键词进行量化,获取多个参数值;
基于多个所述参数值,构建表示参数集;
获取预设的知识领域判断库;所述知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将所述表示参数集与所述知识领域判断库中各个所述判断参数集进行匹配,获取匹配符合的所述判断参数集对应关联的所述知识领域判断结果。
8.如权利要求6所述的用于智能问答的知识图谱自动化构建系统,其特征在于,所述构建模块基于所述知识领域对应的所述问题组和所述知识图谱构建模板,构建待处理图谱,执行如下操作:
解析所述知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于所述实体识别规则,确定所述问题组内各个所述问答数据中的实体数量以及实体名称;
基于所述实体对所述问题组内的所述问答数据进行聚类处理,获取多个问答数据集;
提取所述问答数据集中实体数量大于等于二的所述问答数据,基于所述关系识别规则确定所述问答数据中所述实体与其他的实体的关系;
基于所述实体与其他的实体的关系和所述实体名称,构建第一三元组;
提取所述问答数据集中实体数量为一的所述问答数据,确定所述实体的属性以及所述属性对应的属性值;
基于所述实体名称、所述属性和所述属性值,构建第二三元组;
基于所述第一三元组和所述第二三元组,构建所述待处理图谱。
CN202210115804.0A 2022-02-07 2022-02-07 一种用于智能问答的知识图谱自动化构建方法及系统 Active CN114153993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210115804.0A CN114153993B (zh) 2022-02-07 2022-02-07 一种用于智能问答的知识图谱自动化构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210115804.0A CN114153993B (zh) 2022-02-07 2022-02-07 一种用于智能问答的知识图谱自动化构建方法及系统

Publications (2)

Publication Number Publication Date
CN114153993A CN114153993A (zh) 2022-03-08
CN114153993B true CN114153993B (zh) 2022-05-06

Family

ID=80450003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210115804.0A Active CN114153993B (zh) 2022-02-07 2022-02-07 一种用于智能问答的知识图谱自动化构建方法及系统

Country Status (1)

Country Link
CN (1) CN114153993B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804521B (zh) * 2018-04-27 2021-05-14 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
WO2020010930A1 (zh) * 2018-07-09 2020-01-16 深圳追一科技有限公司 客服机器人知识库歧义检测方法、存储介质和计算机设备
CN109388697A (zh) * 2018-10-10 2019-02-26 成都小多科技有限公司 处理问答语料的方法、装置及电子终端
CN110442689A (zh) * 2019-06-25 2019-11-12 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法
CN112667821A (zh) * 2020-12-16 2021-04-16 北京华如慧云数据科技有限公司 基于百科数据的军事知识图谱构建和问答方法
CN113240443B (zh) * 2021-05-28 2024-02-06 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《人工智能课程领域知识图谱及其创新教学模式》;谢榕 等;《软件导刊》;20211231;第179-186页 *

Also Published As

Publication number Publication date
CN114153993A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
US20040249808A1 (en) Query expansion using query logs
CN109871415B (zh) 一种基于图数据库的用户画像构建方法、系统及存储介质
CN110543517A (zh) 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质
US20190108276A1 (en) Methods and system for semantic search in large databases
CN105808590A (zh) 搜索引擎实现方法、搜索方法以及装置
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN110659282A (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
CN117194602B (zh) 基于大语言模型和bert模型的本地知识库更新方法及系统
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
WO2020190176A1 (ru) Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN113626571A (zh) 答句生成方法、装置、计算机设备和存储介质
Daniłowicz Modelling of user preferences and needs in Boolean retrieval systems
CN114153993B (zh) 一种用于智能问答的知识图谱自动化构建方法及系统
CN113407807A (zh) 搜索引擎的查询优化方法、装置、电子设备
CN109460467B (zh) 一种网络信息分类体系构建方法
CN116226108A (zh) 可实现不同治理程度的数据治理方法及系统
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN114780700A (zh) 基于机器阅读理解的智能问答方法、装置、设备及介质
JPH09198396A (ja) 文書検索装置
CN113568888A (zh) 索引推荐方法及装置
CN116541382B (zh) 基于数据安全识别级别的数据治理方法及系统
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Automated Construction of Knowledge Graph for Intelligent Q&A

Effective date of registration: 20230509

Granted publication date: 20220506

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155

PE01 Entry into force of the registration of the contract for pledge of patent right