发明内容
本发明目的之一在于提供了一种领域语义网自动构建方法,自动从问题中构建领域语义网可以降低人力成本,提升智能交互体验。
本发明实施例提供的一种领域语义网自动构建方法,包括:
获取待构建的领域的问答数据;
获取待构建的领域所对应的专业词典集;
识别问答数据中的第一实体;
基于第一实体和专业词典集,构建领域词语集;
解析问答数据,确定标准问题和相似问题;
基于标准问题和相似问题,从领域词语集中确定相似词语;
基于相似词语,构建领域语义网。
优选的,获取待构建的领域的问答数据,包括:
提取目标问答系统的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
优选的,识别问答数据中的第一实体之后,还包括:
确定问答数据中的第一实体个数;
当第一实体个数不为一时,确定问答数据中第一实体与第一实体之间的第一关联关系;
基于第一关联关系和问答数据中的第一实体,完善领域语义网。
优选的,领域语义网自动构建方法,还包括:
获取领域对应的预设的数据库内的更新数据;
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新。
优选的,对更新数据的可靠性进行验证,包括:
确定被收录在领域词语集内的第二实体的第一数量;
确定未被收录在领域词语集内的第二实体的第二数量;
基于第一数量和第二数量,确定未被收录的第二实体的第一占比;
当第一占比大于预设的占比阈值时,验证不通过;
和/或,
获取更新数据的原始来源;
确定原始来源的第一权威值;
当第一权威值小于预设的第一权威阈值时,验证不通过;
和/或,
获取更新数据对应关联的公众认同采集数据;
解析公众认同采集数据,确定认同度和不认同度;
当认同度小于不认同度或认同度与不认同度的差值小于预设的差值阈值时,验证不通过。
优选的,对更新数据的可靠性进行验证,还包括:
确定领域词语集收录的第二实体在更新数据中的第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和第二占比,确定第一评价值;
基于第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于认同度、不认同度和预设的第三评价表,确定第三评价值;第三评价表中认同度、不认同度与第三评价值对应关联;
基于第一评价值、第二评价值和第三评价值,确定评价度;
当评价度大于预设的验证阈值时,验证通过。
优选的,解析公众认同采集数据,确定认同度和不认同度,包括:
将公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;
获取认同数据集和不认同数据集的各个数据对应的用户的权威值集合;
确定更新数据对应的领域;
基于领域从权威值集合中提取用户在领域的第二权威值;
基于第二权威值的从大到小的顺序,对用户进行排序,形成排序表;
当最大的第二权威值大于预设的权威阈值时,提取排序表中的前预设个数的用户的第二权威值作为认同度和不认同度的计算数据并基于提取的第二权威值计算认同度和不认同度,计算公式如下:
其中,
表示认同度;
表示不认同度;
表示对更新数据为认同的第
个用户
的第二权威值;
表示对更新数据为不认同的第
个用户的第二权威值;
为认同的用户的
总数;
为不认同的用户的总数。
优选的,领域语义网自动构建方法,还包括:
对领域语义网更新的数据进行使用追踪;
向各个使用更新的数据的使用人发送第二问询,并接收各个使用人对于更新的数据的准确性的第二反馈;
当接收到第二反馈的数量大于预设的数量阈值时,解析第二反馈,确定各个使用人的认定值;
获取各个使用人对应的第三权威值;
基于各个使用人的认定值和各个使用人对应的第三权威值,确定更新的数据的使用验证度;使用验证度的计算公式如下:
当认定值小于预设的认定阈值和/或使用验证度小于预设的使用验证阈值时,基于更新的数据构建异常清单并输出。
本发明的一种领域语义网自动构建系统,包括:
第一获取模块,用于获取待构建的领域的问答数据;
第二获取模块,用于获取待构建的领域所对应的专业词典集;
识别模块,用于识别问答数据中的第一实体;
第一构建模块,用于基于第一实体和专业词典集,构建领域词语集;
解析模块,用于解析问答数据,确定标准问题和相似问题;
确定模块,用于基于标准问题和相似问题,从领域词语集中确定相似词语;
第二构建模块,用于基于相似词语,构建领域语义网。
优选的,第一获取模块获取待构建的领域的问答数据,执行如下操作:
提取目标问答系统的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种领域语义网自动构建方法,如图1所示,包括:
步骤S1:获取待构建的领域的问答数据;例如:直接从问答系统的问答数据库中获取对应的待构建的领域的问答数据;
步骤S2:获取待构建的领域所对应的专业词典集;例如:可以通过大数据平台上搜索对应的专业词典集;
步骤S3:识别问答数据中的第一实体;
步骤S4:基于第一实体和专业词典集,构建领域词语集;
步骤S5:解析问答数据,确定标准问题和相似问题;
步骤S6:基于标准问题和相似问题,从领域词语集中确定相似词语;
步骤S7:基于相似词语,构建领域语义网。
上述技术方案的工作原理及有益效果为:
基于爬虫软件等工具收集实验领域语料,专业词典集,通过预先训练的实体识别模型,识别FAQ标问和相似问题中的实体进而丰富专业词典集,形成领域词语集。分析总结FAQ标问和相似问题中的功能词,及句式精简规则。对标问进行分词,词性标注,实体标注,句式精简,后总结标问标注规则。对相似问题进行分词,词性标注,功能词和实体标注,句式精简,后总结相似问题标注规则。利用标问和相似问题标注结构提炼相似词语,构建领域语义网。其中实体识别模型为神经网络模型,事先通过大量数据训练获得,功能为识别问答数据中的实体。
本发明的领域语义网自动构建方法,自动从问题中构建领域语义网可以降低人力成本,提升智能交互体验。
在一个实施例中,获取待构建的领域的问答数据,包括:
提取目标问答系统的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;例如:可以通过预设的关键词库进行关键词的提取;
分别对多个关键词进行量化,获取多个参数值;例如:通过关键词量化表进行量化处理,将关键词量化为数值;
基于多个参数值,构建表示参数集;可以采用直接排列的方式进行排列形成表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;匹配可以通过计算表示参数集和判断参数集的相似度来实现;相似度计算公式如下:
其中,
为相似度;
为表示参数集中第
个数据值;
为判断参数集中第
个数据
值;
为表示参数集或判断参数集中的数据总数;
当相似度为知识领域判断库中最大时,表示参数集与判断参数集匹配;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;知识领域列表中包括:知识领域名称以及对应的数据在问答数据总量的占比;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;第一反馈中包括:用户从第一问询的知识领域列表上选取的知识领域名称;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
在一个实施例中,识别问答数据中的第一实体之后,还包括:
确定问答数据中的第一实体个数;
当第一实体个数不为一时,确定问答数据中第一实体与第一实体之间的第一关联关系;
基于第一关联关系和问答数据中的第一实体,完善领域语义网。
上述技术方案的工作原理及有益效果为:
通过问答数据的实体与实体之间的关联关系的确定,对领域语义网进行关系的完善,关联关系包括:差异、相反等;更进一步地,差异的描述等;
在一个实施例中,领域语义网自动构建方法,还包括:
获取领域对应的预设的数据库内的更新数据;用户通过设置需要监控的数据库,或者根据用户选取的领域,调取预设的监控对照表,确定要监控的数据库;例如:用户选取建筑工程领域,调取的预设监控对照表中,存储有建筑工程领域相应的网站,通过对网站上更新数据的获取对领域语义网进行更新,保证领域语义网的及时有效。
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新。
其中,对更新数据的可靠性进行验证,包括:
确定被收录在领域词语集内的第二实体的第一数量;
确定未被收录在领域词语集内的第二实体的第二数量;
基于第一数量和第二数量,确定未被收录的第二实体的第一占比;
当第一占比大于预设的占比阈值(例如:20%)时,验证不通过;
和/或,
获取更新数据的原始来源;原始来源为上传更新数据的用户;
确定原始来源的第一权威值;第一权威值为用户的权威值集合内对应构建领域语义网的权威值;权威值集合中的各个权威值对应用户在各个不同领域的权威性;例如当用户为经济学教授或专家时,权威值为100,而在计算机方面的权威值为10;
当第一权威值小于预设的第一权威阈值(例如:80)时,验证不通过;
和/或,
获取更新数据对应关联的公众认同采集数据;公众认同采集数据为数据库内存储的对应更新数据发布的用户存储的其他用户的评价和留言等;还可以是通过系统将更新数据发送至大数据平台上进行公众认同采集的数据;
解析公众认同采集数据,确定认同度和不认同度;
当认同度小于不认同度或认同度与不认同度的差值小于预设的差值阈值时,验证不通过。即只有认同度大于不认同度并且认同度与不认同度的差值大于预设的差值阈值(例如:0.9)时,验证通过,即保证更新数据得到绝大多数的人的认同,才可以作为更新领域语义网的数据基础;
其中,对更新数据的可靠性进行验证,还包括:
确定领域词语集收录的第二实体在更新数据中的第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和第二占比,确定第一评价值;
基于第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于认同度、不认同度和预设的第三评价表,确定第三评价值;第三评价表中认同度、不认同度与第三评价值对应关联;
基于第一评价值、第二评价值和第三评价值,确定评价度;
当评价度大于预设的验证阈值时,验证通过。
上述技术方案的工作原理及有益效果为:
采用对应领域的数据库中的更新数据对领域语义网进行更新,保证领域语义网的活力;在更新之前需要对更新数据的准确有效性进行验证;验证从三个方面出发:第一方面为数据本身,即通过对更新数据中的实体进行识别,通过领域对应的领域词语集确定,更新数据中提及的实体是否被收录到领域词语集;当都被收录,无需对领域语义网进行更新,当存在未被收录的实体时,才需对领域语义网进行更新,通过设置占比阈值,保证更新数据属于领域语义网对应的领域,防止误采其他领域的数据;第二方面,从数据来源的用户的权威性出发;保证用于更新的数据的准确性;第三方面,从更新数据发布后的公众认同出发,进一步保证了更新数据的准确性。综合分析数据本身、数据来源以及公众认同,保证用于对领域语义网进行自动构建的更新数据的准确性、有效性。
在一个实施例中,解析公众认同采集数据,确定认同度和不认同度,包括:
将公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;神经网络模型为预先训练,用于对公众认同采集数据进行认同和不认同区分;
获取认同数据集和不认同数据集的各个数据对应的用户的权威值集合;
确定更新数据对应的领域;
基于领域从权威值集合中提取用户在领域的第二权威值;
基于第二权威值的从大到小的顺序,对用户进行排序,形成排序表;
当最大的第二权威值大于预设的权威阈值(例如:90)时,提取排序表中的前预设个数(例如:1000)的用户的第二权威值作为认同度和不认同度的计算数据并基于提取的第二权威值计算认同度和不认同度,计算公式如下:
其中,
表示认同度;
表示不认同度;
表示对更新数据为认同的第
个用户
的第二权威值;
表示对更新数据为不认同的第
个用户的第二权威值;
为认同的用户的
总数;
为不认同的用户的总数。
为预设个数,即1000。
在一个实施例中,领域语义网自动构建方法,还包括:
对领域语义网更新的数据进行使用追踪;当领域语义网中的更新的数据被调用且参与答案的生成时,可以确定更新的数据被使用;获得答案的用户被认为是使用人;
向各个使用更新的数据的使用人发送第二问询,并接收各个使用人对于更新的数据的准确性的第二反馈;
当接收到第二反馈的数量大于预设的数量阈值(例如:10)时,解析第二反馈,确定各个使用人的认定值;例如可以采用打分问询的形式直接获取各个使用人的认定值;认定值为使用人认为答案是否解决了用户提的问题所给出的评分值,取值可以在0至100之间;
获取各个使用人对应的第三权威值;从使用人对应的权威值集合中提取对应领域的权威值;
基于各个使用人的认定值和各个使用人对应的第三权威值,确定更新的数据的使用验证度;使用验证度的计算公式如下:
当认定值小于预设的认定阈值(例如:60)和/或使用验证度小于预设的使用验证阈值(例如:1)时,基于更新的数据构建异常清单并输出。即当存在一个用户的认定值小于认定阈值或者通过所有使用人确定的使用验证度小于预设的使用验证阈值时,可以认为更新的数据并不理想,因此需要输出异常清单给管理员,管理员进行人工核实确定,以保证更新的准确有效。
本发明的一种领域语义网自动构建系统,如图2所示,包括:
第一获取模块1,用于获取待构建的领域的问答数据;
第二获取模块2,用于获取待构建的领域所对应的专业词典集;
识别模块3,用于识别问答数据中的第一实体;
第一构建模块4,用于基于第一实体和专业词典集,构建领域词语集;
解析模块5,用于解析问答数据,确定标准问题和相似问题;
确定模块6,用于基于标准问题和相似问题,从领域词语集中确定相似词语;
第二构建模块7,用于基于相似词语,构建领域语义网。
在一个实施例中,第一获取模块1获取待构建的领域的问答数据,执行如下操作:
提取目标问答系统的问答数据库;
对问答数据库中的问答数据进行关键词提取,获取多个关键词;
分别对多个关键词进行量化,获取多个参数值;
基于多个参数值,构建表示参数集;
获取预设的知识领域判断库;知识领域判断库中判断参数集与知识领域判断结果一一对应且相互关联;
将表示参数集与知识领域判断库中各个判断参数集进行匹配,获取匹配符合的判断参数集对应关联的知识领域判断结果;
将问答数据库中的各个问答数据对应的知识领域判断结果进行合并去重,构建知识领域列表并输出第一问询;
接收用户对应第一问询输入的第一反馈;
解析第一反馈,确定目标领域;
基于目标领域和问答数据库内各个问答数据对应的知识领域判断结果,提取待构建的领域的问答数据。
在一个实施例中,领域语义网自动构建系统还包括:完善模块;
完善模块在识别模块识别问答数据中的第一实体之后,执行如下操作:
确定问答数据中的第一实体个数;
当第一实体个数不为一时,确定问答数据中第一实体与第一实体之间的第一关联关系;
基于第一关联关系和问答数据中的第一实体,完善领域语义网。
在一个实施例中,领域语义网自动构建系统还包括:更新模块;
更新模块执行如下操作:
获取领域对应的预设的数据库内的更新数据;
解析更新数据,确定多个第二实体;
分别将第二实体与领域词语集中的词语进行一一匹配,确定领域词语集是否收录第二实体;
当未收录第二实体时,对更新数据的可靠性进行验证,当验证通过时,将第二实体添加进领域词语集并再次解析更新数据,确定第二实体与其他的已被收录在领域词语集内的第二实体之间的第二关联关系;
基于第二实体和第二关联关系,对领域语义网进行更新。
其中,对更新数据的可靠性进行验证,包括:
确定被收录在领域词语集内的第二实体的第一数量;
确定未被收录在领域词语集内的第二实体的第二数量;
基于第一数量和第二数量,确定未被收录的第二实体的第一占比;
当第一占比大于预设的占比阈值时,验证不通过;
和/或,
获取更新数据的原始来源;
确定原始来源的第一权威值;
当第一权威值小于预设的第一权威阈值时,验证不通过;
和/或,
获取更新数据对应关联的公众认同采集数据;
解析公众认同采集数据,确定认同度和不认同度;
当认同度小于不认同度或认同度与不认同度的差值小于预设的差值阈值时,验证不通过。
其中,对更新数据的可靠性进行验证,还包括:
确定领域词语集收录的第二实体在更新数据中的第二实体的第二占比;
基于预设的占比与第一评价值对应的第一评价表和第二占比,确定第一评价值;
基于第一权威值和预设的权威值与第二评价值对应的第二评价表,确定第二评价值;
基于认同度、不认同度和预设的第三评价表,确定第三评价值;第三评价表中认同度、不认同度与第三评价值对应关联;
基于第一评价值、第二评价值和第三评价值,确定评价度;
当评价度大于预设的验证阈值时,验证通过。
其中,解析公众认同采集数据,确定认同度和不认同度,包括:
将公众认同采集数据逐条输入预设的神经网络模型中,进行分组判断,将数据分为认同数据集和不认同数据集;
获取认同数据集和不认同数据集的各个数据对应的用户的权威值集合;
确定更新数据对应的领域;
基于领域从权威值集合中提取用户在领域的第二权威值;
基于第二权威值的从大到小的顺序,对用户进行排序,形成排序表;
当最大的第二权威值大于预设的权威阈值时,提取排序表中的前预设个数的用户的第二权威值作为认同度和不认同度的计算数据并基于提取的第二权威值计算认同度和不认同度,计算公式如下:
其中,
表示认同度;
表示不认同度;
表示对更新数据为认同的第
个用户
的第二权威值;
表示对更新数据为不认同的第
个用户的第二权威值;
为认同的用户的
总数;
为不认同的用户的总数。
在一个实施例中,领域语义网自动构建系统还包括:追踪模块;
追踪模块执行如下操作:
对领域语义网更新的数据进行使用追踪;
向各个使用更新的数据的使用人发送第二问询,并接收各个使用人对于更新的数据的准确性的第二反馈;
当接收到第二反馈的数量大于预设的数量阈值时,解析第二反馈,确定各个使用人的认定值;
获取各个使用人对应的第三权威值;
基于各个使用人的认定值和各个使用人对应的第三权威值,确定更新的数据的使用验证度;使用验证度的计算公式如下:
当认定值小于预设的认定阈值和/或使用验证度小于预设的使用验证阈值时,基于更新的数据构建异常清单并输出。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。