发明内容
本发明目的之一在于提供了一种用于智能问答的知识图谱自动化构建方法,实现在原有的FAQ智能问答系统的基础上进行用于智能问答的知识图谱的自动化构建,降低企业的智能问答系统转换的周期以及成本。
本发明实施例提供的一种用于智能问答的知识图谱自动化构建方法及系统,包括:
提取待重建的问答系统的问答数据库;
确定问答数据库内各个问答数据对应的知识领域;
基于知识领域对问答数据进行分组,确定多个问题组;
获取知识领域对应的知识图谱构建模板;
基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
将构建的待处理图谱进行整合关联,形成知识图谱。
优选的,确定问答数据库内各个问答数据对应的知识领域,包括:
对问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。
优选的,基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,包括:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;
基于第一三元组和第二三元组,构建待处理图谱。
优选的,在提取待重建的问答系统的问答数据库之后,还包括:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;
在知识图谱整合完成后,还包括:
确定知识图谱的第一数据量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
优选的,基于使用参数和构建参数,确定各个问答数据的关键度,包括:
对使用参数和构建参数进行特征提取,确定多个特征值;
基于多个特征值,查询预设的关键度量化表,确定问答数据的关键度;
其中,特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
关键度量化表中特征值与关键度对应关联。
优选的,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,包括:
确定问答数据中的实体的实体名称;
基于实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析待处理数据,构建对应实体的第三三元组;
获取知识图谱中对应实体名称的第一三元组和第二三元组;
基于第一三元组和第二三元组,对第三三元组进行去重处理;
经过去重处理后的第三三元组为待补充进知识图谱的数据,对应的数据量为第四数据量。
优选的,用于智能问答的知识图谱自动化构建方法,还包括:
在提取待重建的问答系统的问答数据库之后,获取问答系统的使用记录;
解析使用记录,确定各个问答数据的使用参数;
获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成待输出表单;
在知识图谱整合完成后,确定各个问答数据对应的知识图谱的数据的第五数据量并映射至待输出表单中形成构建情况表;
将构建情况表输出给用户;
接收用户输入的第二限制规则;
基于第二限制规则,对知识图谱进行调整。
本发明还提供一种用于智能问答的知识图谱自动化构建系统,包括:
提取模块,用于提取待重建的问答系统的问答数据库;
确定模块,用于确定问答数据库内各个问答数据对应的知识领域;
分组模块,用于基于知识领域对问答数据进行分组,确定多个问题组;
获取模块,用于获取知识领域对应的知识图谱构建模板;
构建模块,用于基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
整合模块,用于将构建的待处理图谱进行整合关联,形成知识图谱。
优选的,确定模块确定问答数据库内各个问答数据对应的知识领域,执行如下操作:
对问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。
优选的,构建模块基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,执行如下操作:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;
基于第一三元组和第二三元组,构建待处理图谱。
优选的,智能问答的知识图谱自动化构建系统,还包括:限制确定模块和调整模块;
限制确定模块在提取模块提取待重建的问答系统的问答数据库之后执行如下操作:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;
调整模块在整合模块将知识图谱整合完成后,执行如下操作:
确定知识图谱的第一数据量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种用于智能问答的知识图谱自动化构建方法,如图1所示,包括:
步骤S1:提取待重建的问答系统的问答数据库;
步骤S2:确定问答数据库内各个问答数据对应的知识领域;
步骤S3:基于知识领域对问答数据进行分组,确定多个问题组;
步骤S4:获取知识领域对应的知识图谱构建模板;
步骤S5:基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
步骤S6:将构建的待处理图谱进行整合关联,形成知识图谱。
上述技术方案的工作原理及有益效果为:
问答数据库为FAQ问答系统的基础,因此将FAQ问答系统转换为知识图谱问答系统,最关键的是问答数据库转变为知识图谱;通过将问答系统的问答数据库提取出,对问答数据库中的问答数据进行分析,确定其知识领域,并因此划分为多个问题组,一个问题组对应一个知识领域;从系统的数据库内提取对应的知识图谱构建模板,进行针对各个问题组,构建待处理图谱,最后进行整合关联形成知识图谱;数据基础构建完,然后采用系统保存的检索引擎等将FAQ问答系统的其他部分覆盖即可,通过对问答数据库进行转换,节省了知识图谱的数据收集过程,实现在原有的FAQ智能问答系统的基础上进行用于智能问答的知识图谱的自动化构建,降低企业的智能问答系统转换的周期以及成本。
在一个实施例中,确定问答数据库内各个问答数据对应的知识领域,如图2所示,包括:
步骤S11:对问答数据进行关键词提取,获取多个关键词;例如:可以通过预设的关键词库进行关键词的提取;
步骤S12:分别对多个关键词进行量化,获取多个参数值;例如:通过关键词量化表进行量化处理,将关键词量化为数值;
步骤S13:基于多个参数值,构建表示参数集;可以采用直接排列的方式进行排列形成表示参数集;
步骤S14:获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
步骤S15:将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。匹配可以通过计算表示参数集和判断参数集的相似度来实现;相似度计算公式如下:
其中,
为相似度;
为表示参数集中第
个数据值;
为判断参数集中第
个
数据值;
为表示参数集或判断参数集中的数据总数;
当相似度为知识领域判断库中最大时,表示参数集与判断参数集匹配;
通过关键词提取、量化以及知识领域判断库的匹配,实现了自动且准确的各个问答数据的知识领域的判断。
在一个实施例中,基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,包括:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;实体识别规则用于识别数据中的实体,具体为:首先提取问答数据中的名词性的主语、宾语;将提取的名词与预设的实体库中的名词匹配,进而确定问答数据中的实体;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;将具有相同的实体的问答数据分为一个问答数据集,因此,当同一问答数据如包含多个实体时,会出现在多个问答数据集中。
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;实体数量大于二的问答数据为描述实体与其他实体关系的数据,因此可以从中识别出关系,例如:关系识别规则可以为提取实体与实体之间连接的谓语,将谓语与预设的关系确定表中的词语进行匹配,确定实体与实体之间的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;第一三元组的结构为实体名称—关系—实体名称;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;第二三元组的结构为实体名称—属性—属性值;
基于第一三元组和第二三元组,构建待处理图谱。例如:将第一三元组和第二三元组进行合并。
在一个实施例中,在提取待重建的问答系统的问答数据库之后,还包括:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;第一问询可以为问询框,问询框上可以设置选项,选项包括:以可用存储空间为基准建立知识图谱、以第一数据量为基准建立知识图谱;此外,还可以通过问询框接收用户输入的第一限制条件,第一限制条件包括数据量等;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;第一限制规则包括:数据量限制条件。例如:用户想对数据库进行扩充可以设置较高的数据量作为数据量限制条件,可以以可用存储空间为基准构建。想对数据库进行精简时,可以输入较低的数据量作为数据量限制条件;
在知识图谱整合完成后,还包括:
确定知识图谱的第一数据量;第一数据量为知识图谱所占内存的存储量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
上述技术方案的工作原理及有益效果为:
当知识图谱的占用内存数未达到第一限制条件时,当超出时,进行知识图谱数据的精简;当未达到时,进行知识图谱的扩充;实现构建的知识图谱符合客户的要求;其中,精简和扩充都是以问答数据的关键度为排队条件,精简时,主要对关键度低的数据进行依次精简;扩充是对关键度高的数据进行依次扩充;在精简和扩充都考虑了构建的知识图谱的适用性。
在一个实施例中,基于使用参数和构建参数,确定各个问答数据的关键度,包括:
对使用参数和构建参数进行特征提取,确定多个特征值;
基于多个特征值,查询预设的关键度量化表,确定问答数据的关键度;
其中,特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
关键度量化表中特征值与关键度对应关联。
上述技术方案的工作原理及有益效果为:
在对问答数据的关键度量化时,主要考虑问答数据的使用情况及构建情况;使用情况的表现为使用参数;构建情况的表现为构建参数;通过对使用参数、构建参数进行特征提取,进而根据特征值查询关键度量化表确定;关键度量化表为事先设置;在关键度量化表中,总使用次数越多,关键度的值越大;最近一次使用时间越接近,关键度的值越大;上一预设的周期内的使用次数越多,关键度的值越大;构建时间越接近,关键度的值越大;构建人员的权限越高,关键度的值越大;构建人员的权限为FAQ问答系统内预先配置;在设置关键度量化表时,可以对每个特征值进行权重设置,通过对量化的特征值与权重的积进行求和,获得关键度。
在一个实施例中,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,包括:
确定问答数据中的实体的实体名称;
基于实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析待处理数据,构建对应实体的第三三元组;
获取知识图谱中对应实体名称的第一三元组和第二三元组;
基于第一三元组和第二三元组,对第三三元组进行去重处理;
经过去重处理后的第三三元组为待补充进知识图谱的数据,对应的数据量为第四数据量。
上述技术方案的工作原理及有益效果为:
通过大数据平台上的数据对知识图谱进行扩充,保证扩充的知识图谱的有效及全面性。通过爬虫软件对特定领域网页数据进行爬取。爬虫框架要保证用户有效、稳定、可靠地爬取特定领域网页上的内容。对文本中命名实体的精确抽取。命名实体识别包括实体的检测(find)和分类(classify),命名实体识别算法是为后续关系抽取做铺垫,较高的抽取精度对关系抽取极为重要。对篇章级和文本级实体关系的精确抽取。关系抽取后将拿到知识图谱构建的最小单元三元组,关系抽取是把知识点串联成一张知识网,构建知识图谱三元组的重要过程。对三元组的精确筛选、融合等。具体包括对等价实例(数据层面)、等价类、等价子类、属性以及子属性的融合。最终将融合筛选后的三元组导入到neo4j图数据。
在一个实施例中,用于智能问答的知识图谱自动化构建方法,还包括:
在提取待重建的问答系统的问答数据库之后,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成待输出表单;
在知识图谱整合完成后,确定各个问答数据对应的知识图谱的数据的第五数据量并映射至待输出表单中形成构建情况表;
将构建情况表输出给用户;
接收用户输入的第二限制规则;
基于第二限制规则,对知识图谱进行调整。
上述技术方案的工作原理及有益效果为:
通过关键度实现对知识图谱的进行优化调整;其中,第二限制规则包括:关键度限制条件;例如:关键度小于第一阈值的删除和/或对关键度大于第二阈值的进行扩充;第一阈值小于第二阈值。
本发明还提供一种用于智能问答的知识图谱自动化构建系统,包括:
提取模块1,用于提取待重建的问答系统的问答数据库;
确定模块2,用于确定问答数据库内各个问答数据对应的知识领域;
分组模块3,用于基于知识领域对问答数据进行分组,确定多个问题组;
获取模块4,用于获取知识领域对应的知识图谱构建模板;
构建模块5,用于基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱;
整合模块6,用于将构建的待处理图谱进行整合关联,形成知识图谱。
在一个实施例中,确定模块2确定问答数据库内各个问答数据对应的知识领域,执行如下操作:
对问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果。
在一个实施例中,构建模块5基于知识领域对应的问题组和知识图谱构建模板,构建待处理图谱,执行如下操作:
解析知识图谱构建模板,确定实体识别规则、关系识别规则、属性识别规则;
基于实体识别规则,确定问题组内各个问答数据中的实体数量以及实体名称;
基于实体对问题组内的问答数据进行聚类处理,获取多个问答数据集;
提取问答数据集中实体数量大于等于二的问答数据,基于关系识别规则确定问答数据中实体与其他的实体的关系;
基于实体与其他的实体的关系和实体名称,构建第一三元组;
提取问答数据集中实体数量为一的问答数据,确定实体的属性以及属性对应的属性值;
基于实体名称、属性和属性值,构建第二三元组;
基于第一三元组和第二三元组,构建待处理图谱。
在一个实施例中,智能问答的知识图谱自动化构建系统,还包括:限制确定模块和调整模块;
限制确定模块在提取模块提取待重建的问答系统的问答数据库之后执行如下操作:
确定问答系统对应的硬件的可用存储空间;
确定问答数据库的第一数据量;
基于第一数据量和可用存储空间,生成第一提示信息并输出包含第一提示信息的第一问询;
接收用户对于第一问询的第一反馈;
解析第一反馈,确定知识图谱的第一数据量的第一限制规则;
调整模块在整合模块将知识图谱整合完成后,执行如下操作:
确定知识图谱的第一数据量;
当第一数据量符合第一限制规则时,结束知识图谱的构建;
当第一数据量超出第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从小到大的顺序对问答数据进行排序,形成第一候选表;
从上至下依次确定第一候选表中各个问答数据在知识图谱中对应的第三数据量,并确定出已经确定的第三数据量的总值;
当第一数据量减去第三数据量的总值符合第一限制规则时,基于候选表中确定出数据量的问答数据生成数据删减清单并输出;
当第一数据量未达到第一限制规则时,获取问答系统的使用记录;解析使用记录,确定各个问答数据的使用参数;获取各个问答数据的构建参数;
基于使用参数和构建参数,确定各个问答数据的关键度;
基于关键度从大到小的顺序对问答数据进行排序,形成第二候选表;
依次提取第二候选表中的问答数据,从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量;
确定已补充的第四数据量的总值;
当第一数据量加上第四数据量的总值符合第一限制规则时,基于补充的数据生成补充数据清单并输出。
在一个实施例中,调整模块基于使用参数和构建参数,确定各个问答数据的关键度,具体为:
对使用参数和构建参数进行特征提取,确定多个特征值;
基于多个特征值,查询预设的关键度量化表,确定问答数据的关键度;
其中,特征值包括:总使用次数、最近一次使用时间、上一预设的周期内的使用次数、构建时间、构建人员的权限其中一种或多种结合;
关键度量化表中特征值与关键度对应关联。
在一个实施例中,调整模块从大数据平台上获取数据对问答数据对应的知识图谱的数据进行补充,并确定补充的数据的第四数据量,具体为:
确定问答数据中的实体的实体名称;
基于实体名称采用爬虫软件从大数据平台上获取待处理数据;
解析待处理数据,构建对应实体的第三三元组;
获取知识图谱中对应实体名称的第一三元组和第二三元组;
基于第一三元组和第二三元组,对第三三元组进行去重处理;
经过去重处理后的第三三元组为待补充进知识图谱的数据,对应的数据量为第四数据量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。