CN107391682B

CN107391682B - 知识验证方法、知识验证设备以及存储介质

Info

Publication number: CN107391682B
Application number: CN201710606293.1A
Authority: CN
Inventors: 张振中; 陈雪
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2020-06-09
Anticipated expiration: 2037-07-24
Also published as: EP3660693A1; CN107391682A; EP3660693A4; WO2019019969A1; US20190026638A1

Abstract

一种知识验证方法、知识验证设备以及存储介质。该知识验证方法包括：获取目标候选知识和与目标候选知识相矛盾的冲突候选知识；获取目标候选知识的目标证据组和冲突候选知识的冲突证据组；基于目标证据组中各证据的逻辑规则，计算目标候选知识的验证概率，基于冲突证据组中各证据的逻辑规则，计算冲突候选知识的验证概率；比较目标候选知识的验证概率与冲突候选知识的验证概率，并根据比较结果确定目标候选知识是否为正确知识。该知识验证方法通过使用马尔科夫逻辑网建模候选知识的各证据的逻辑规则，并根据各证据的逻辑规则计算候选知识的验证概率，从而自动验证候选知识的正确性，解决知识冲突问题，节省人力和时间成本。

Description

知识验证方法、知识验证设备以及存储介质

技术领域

本公开的实施例涉及一种知识验证方法、知识验证设备以及存储介质。

背景技术

在科学研究、互联网应用、电子商务等领域，数据规模、数据种类等飞速增长，大数据逐渐成为研究热点。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据具有数据规模大、数据种类多、数据要求处理速度快、数据价值密度低等特性。

大数据包括结构化、半结构化和非结构化数据。随着社交网络、物联网、云计算等的高速发展，非结构化数据因其具有数据庞大、种类众多、时效性强等特征而呈指数级快速增长，非结构化数据逐渐成为大数据时代的主流数据。如何从海量非结构化数据中分析、处理、获取有用的知识成为大数据时代亟待解决的问题。

发明内容

本公开至少一实施例提供一种知识验证方法，其包括：获取目标候选知识和与所述目标候选知识相矛盾的冲突候选知识；获取所述目标候选知识的目标证据组和所述冲突候选知识的冲突证据组；基于所述目标证据组中各证据的逻辑规则，计算所述目标候选知识的验证概率，基于所述冲突证据组中各证据的逻辑规则，计算所述冲突候选知识的验证概率；以及比较所述目标候选知识的验证概率与所述冲突候选知识的验证概率，并根据比较结果确定所述目标候选知识是否为正确知识。

本公开至少一实施例还提供一种知识验证设备，包括处理器和存储器，所述存储器用于存储计算机指令，其中，所述计算机指令被所述处理器执行时实现以下操作：获取目标候选知识和与所述目标候选知识相矛盾的冲突候选知识；获取所述目标候选知识的目标证据组和所述冲突候选知识的冲突证据组；基于所述目标证据组中各证据的逻辑规则，计算所述目标候选知识的验证概率，基于所述冲突证据组中各证据的逻辑规则，计算所述冲突候选知识的验证概率；以及比较所述目标候选知识的验证概率与所述冲突候选知识的验证概率，并根据比较结果确定所述目标候选知识是否为正确知识。

本公开至少一实施例还提供一种存储介质，存储有适于由处理器运行的计算机指令，所述计算机指令被处理器执行时实现以下操作：获取目标候选知识和与所述目标候选知识相矛盾的冲突候选知识；获取所述目标候选知识的目标证据组和所述冲突候选知识的冲突证据组；基于所述目标证据组中各证据的逻辑规则，计算所述目标候选知识的验证概率，基于所述冲突证据组中各证据的逻辑规则，计算所述冲突候选知识的验证概率；以及比较所述目标候选知识的验证概率与所述冲突候选知识的验证概率，并根据比较结果确定所述目标候选知识是否为正确知识。

本公开至少一实施例提供一种知识验证方法、知识验证设备以及存储介质。该知识验证方法可以建模候选知识的各证据的逻辑规则，并根据各证据的逻辑规则计算候选知识的验证概率，从而自动验证候选知识的正确性，解决知识冲突问题，节省人力和时间成本。

需要理解的是本公开的上述概括说明和下面的详细说明都是示例性和解释性的，用于进一步说明所要求的发明。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1示为本公开至少一实施例提供的一种知识验证方法的示意性流程图；

图2A为本公开至少一实施例提供的目标证据组/冲突证据组的示意性框图；

图2B为本公开至少一实施例提供的目标证据组/冲突证据组的逻辑规则的示意性框图；

图3为本公开至少一实施例提供的又一种知识验证方法的示意性流程图；

图4A为本公开至少一实施例提供的目标证据组的一个示例的示意性框图；

图4B为本公开至少一实施例提供的冲突证据组的一个示例的示意性框图；

图5为本公开至少一实施例提供的另一种知识验证方法的示意性流程图；

图6为本公开至少一实施例提供的再一种知识验证方法的示意性流程图；以及

图7为本公开至少一实施例提供的一种知识验证设备的示意性框图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

随着云计算的高速发展，人们越来越多地关注大数据。大数据时代带来了两方面的影响：一方面，数据的增加能够满足人们不同的信息需求；另一方面有用的信息和知识隐藏在大量不相关的数据中。从海量的非结构化数据中自动抽取指定领域的知识，能够帮助人们快速掌握知识并加深对知识的理解。然而，从海量数据中自动抽取的多种知识中，可能存在相互冲突和矛盾的知识。目前，通常通过领域专家判断抽取的多种知识的对错，以此解决知识冲突的问题。这种基于领域专家的判断方法需要耗费大量的时间和人力，不适于大数据时代的海量知识的判断。

本公开至少一个实施例提供一种知识验证方法、知识验证设备以及存储介质。该知识验证方法可以建模候选知识的各证据的逻辑规则，并根据各证据的逻辑规则计算候选知识的验证概率，从而自动验证候选知识的正确性，解决知识冲突问题，节省人力和时间成本。例如，本公开实施例提供的知识验证方法和知识验证设备可以自动地从海量的、非结构化的大数据中分析、处理、获取有用的知识并验证所获取的知识的正确性。

下面将结合附图对本公开实施例提供的一种知识验证方法、知识验证设备以及存储介质进行详细的说明。

图1示出了本公开至少一实施例提供的一种知识验证方法的示意性流程图。

例如，如图1所示，本公开实施例提供的知识验证方法可以包括以下操作：

操作S11：获取目标候选知识和与目标候选知识相矛盾的冲突候选知识；

操作S12：获取目标候选知识的目标证据组和冲突候选知识的冲突证据组；

操作S13：基于目标证据组中各证据的逻辑规则，计算目标候选知识的验证概率，基于冲突证据组中各证据的逻辑规则，计算冲突候选知识的验证概率；

操作S14：比较目标候选知识的验证概率与冲突候选知识的验证概率，并根据比较结果确定目标候选知识是否为正确知识。

例如，马尔科夫逻辑网的基本思想是：当一个事件违反了一系列逻辑规则中的一条逻辑规则，则这个事件存在的可能性将降低，但并非不可能。一个事件违反的逻辑规则越少，那么这个事件存在的可能性就越大。因此，每个逻辑规则都设定一个特定的权重，权重反映了对满足该逻辑规则的可能事件的约束力。若一个逻辑规则的权重越大，则对于满足和不满足该逻辑规则的两个事件而言，它们之间的差异将越大。目标候选知识(或冲突候选知识)与已有的正确知识和数据源之间的相容性取决于其违反逻辑规则的多少和逻辑规则的重要性。

本公开实施例提供的知识验证方法可以通过马尔科夫逻辑网(Markov logicnetwork)建模抽取的候选知识和证据组之间的逻辑规则(例如，目标候选知识和目标证据组之间的逻辑规则，以及冲突候选知识和冲突证据组之间的逻辑规则)，基于证据组中各证据的逻辑规则计算抽取的目标候选知识的验证概率和冲突候选知识的验证概率，并根据目标候选知识的验证概率和冲突候选知识的验证概率的比较结果判断抽取的目标候选知识是否为正确知识。例如，在操作S11中，目标候选知识和冲突候选知识均从数据源中抽取。数据源可以由非结构化数据组成。

例如，数据源可以为医学知识的集合、文学知识的集合、历史知识的集合以及物理知识的集合等不同类型的知识的单独集合。又例如，数据源也可以为各种不同知识(例如，物理、历史、数学等)的混合集合。

例如，数据源中的各种非结构化数据可以为来源不同的各种知识。各种知识的来源可以为教课书、网站、论文以及文学著作等。例如，当数据源为医学知识的集合时，医学知识的来源可以为医疗网站、医学论文、医学教课书以及病历等。

例如，本公开的描述中，以数据源为医学知识的集合为例进行详细说明本公开的实施例提供的知识验证方法。但本领域技术人员应该知道该数据源还可以为其他类型的数据源。

例如，可以从数据源中抽取多个候选知识以组成候选知识组；又例如，还可以将数据源中的所有候选知识组成候选知识组。目标候选知识和冲突候选知识可以均从该候选知识组中选取。

例如，候选知识组中的多个候选知识可以为“维生素C能够预防感冒”、“钙有助于预防骨质疏松”、“维生素C不能预防感冒”、“虾皮能够预防骨质疏松”、“柠檬能够预防感冒”等。例如，在候选知识组中可能存在许多相互矛盾的知识，例如上述候选知识组中的“维生素C能够预防感冒”和“维生素C不能预防感冒”。当选取“维生素C能够预防感冒”为目标候选知识，则“维生素C不能预防感冒”为冲突候选知识。

例如，可以采用自然语言处理(Natural Language Processing，NLP)技术从数据源中抽取目标候选知识和冲突候选知识。

例如，自然语言处理可以包括句法分析、分词、词法分析、语义分析、文本识别等语言处理技术。例如，自然语言处理可以采用深度学习神经网络等方法进行语言处理。利用深度学习神经网络对数据源中的非结构化数据进行处理可以提高选取的目标候选知识和/或冲突候选知识的准确性。

例如，深度学习神经网络可以包括循环神经网络(Recurrent Neural Networks，RNN)、递归神经网络(Recursive Neural Networks，RNN)等神经网络。循环神经网络可以用于词向量表达、语句合法性检查、词性标注等自然语言处理。循环神经网络可以包括长短时记忆(Long Short-Term Memory，LSTM)神经网络。长短时记忆神经网络具有能够学习长期依赖关系的能力，其能够在文本处理中利用很宽范围内的上下文信息来判断下一个词的概率。深度学习神经网络例如可以采用上述神经网络中的一种或几种的组合对自然语言进行分析处理。

图2A示出了本公开至少一实施例提供的目标证据组/冲突证据组的示意性框图；图2B示出了本公开至少一实施例提供的目标证据组/冲突证据组的逻辑规则的示意性框图。

例如，在操作S12中，目标证据组可以用于判断目标候选知识正确的可能性，冲突证据组可以用于判断冲突候选知识正确的可能性。但不限于此，目标证据组还可以用于判断目标候选知识错误的可能性，冲突证据组还可以用于判断冲突候选知识错误的可能性。

本公开实施例提供的知识验证方法可以建模候选知识的各证据的逻辑规则，并根据各证据的逻辑规则计算候选知识的验证概率，从而自动地从海量的、非结构化的大数据中分析、处理、获取有用的知识，并验证所获取的知识的正确性，解决知识冲突问题，节省人力和时间成本。

例如，如图2A所示，每个证据组可以包括来源证据102、冗余度证据103和表述样式证据104中的至少之一(例如，目标证据组可以包括来源证据102、冗余度证据103和表述样式证据104中的至少之一；同时，冲突证据组可以包括来源证据102、冗余度证据103和表述样式证据104中的至少之一)。例如，对于来源证据102，目标证据组中的来源证据102表示目标候选知识的来源，而冲突证据组中的来源证据102表示冲突候选知识的来源。例如，来源证据102、冗余度证据103以及表述样式证据104可以均来自于数据源。

需要说明的是，目标证据组和冲突证据组还可以分别包括多个来自于数据源的证据(例如，图2A所示的证据T)。本公开的实施例对目标证据组和冲突证据组中具体的证据类型不作限制。目标证据组的证据类型和冲突证据组的证据类型可以相同，也可以不相同。

例如，来源证据102可以包括多个不同来源的证据。来源证据102例如可以包括第一来源证据和第二来源证据，且第一来源证据和第二来源证据分别来自于医学教课书和医学论文。

例如，如图2A所示，目标证据组和冲突证据组还可以均包括一致性证据101。例如，一致性证据101可以来自于已有知识库。已有知识库例如可以表示所有或部分已有的正确知识的集合。

例如，已有知识库和数据源可以根据目标候选知识和冲突候选知识进行选择。例如，当目标候选知识为医学知识时，数据源可以为医学知识的集合，已有知识库可以为已有的正确医学知识的集合。

例如，目标证据组中的证据和冲突证据组中的证据应当彼此对应且数量相同。

例如，目标证据组和冲突证据组中的各证据也可以利用深度学习神经网络等自然语言处理技术从数据源和/或已有知识库中获取。

例如，如图2B所示，来源证据102的逻辑规则可以表示为：提及(y，S)；冗余度证据103的逻辑规则可以表示为：出现次数(y，N)；表述样式证据104的逻辑规则可以表示为：表述样式(y，M)；一致性证据101的逻辑规则可以表示为：第一已有知识∧第二已有知识＝>y。

例如，当y表示目标候选知识时，S表示目标候选知识的来源，N表示目标候选知识出现的次数，M表示目标候选知识的不同表述方式的数量；当y表示冲突候选知识时，S表示冲突候选知识的来源，N表示冲突候选知识出现的次数，M表示冲突候选知识的不同表述方式的数量。

例如，来源证据102的基本思想是：权威度越高的信息源(即，知识的来源)出现正确知识的可能性更大。

例如，来源证据102的权重W₂可以表示为S的权威度，S的权威度越高，则表示该目标候选知识正确的概率越大。不同来源的来源证据102的权重W₂可能不同，也可能相同。来源证据102的权重W₂可以预先设定。例如，当S为医学教课书时，其权重W₂可以为10；当S为医学论文时，其权重W₂也可以为10；而当S为病历时，其权重W₂可以为9；当S为医疗网站时，其权重W₂可以为5。

例如，若目标候选知识(例如，“维生素C能够预防感冒”)来源于医疗网站，而冲突候选知识(例如，“维生素C不能预防感冒”)来源于医学教科书。由此，目标候选知识的来源证据102的权重W₂为5，冲突候选知识的来源证据102的权重W₂为10，从而目标候选知识(例如，“维生素C能够预防感冒”)正确的概率小于冲突候选知识(例如，“维生素C不能预防感冒”)正确的概率。

例如，冗余度证据103的基本思想是：相对于错误知识，正确知识可能出现在更多的信息源中。

例如，冗余度证据103的权重W₃可以表示为log_aN。

例如，若目标候选知识(例如，“维生素C能够预防感冒”)出现在8本医学教科书中，而冲突候选知识(例如，“维生素C不能预防感冒”)出现在16本医学教科书中。由此，若a为2，目标候选知识的冗余度证据103的权重W₃为log₂8＝3，冲突候选知识的冗余度证据103的权重W₃为log₂16＝4，从而目标候选知识(例如，“维生素C能够预防感冒”)正确的概率小于冲突候选知识(例如，“维生素C不能预防感冒”)正确的概率。

例如，表述样式证据104的基本思想是：相对于错误知识，正确知识可能会以更多不同的方式进行表达。

例如，表述样式证据104的权重W₄可以表示为log_aM。

例如，对于目标候选知识(例如，“维生素C能够预防感冒”)，若在整个数据源中还存在“维生素C可以有效预防感冒”、“吃维生素C片可以预防感冒”等4种不同的表述方式；而对于冲突候选知识(例如，“维生素C不能预防感冒”)，若在整个数据源中还存在“维生素C在防治感冒方面的作用不大”、“服用维生素C防治感冒没有任何效果”等8种不同的表述方式。由此，若a为2，目标候选知识的表述样式证据104的权重W₄为log₂4＝2，冲突候选知识的表述样式证据104的权重W₄为log₂8＝3，从而目标候选知识(例如，“维生素C能够预防感冒”)正确的概率小于冲突候选知识(例如，“维生素C不能预防感冒”)正确的概率。

需要说明的是，在上述说明中，log_a表示以a为底数的对数函数。冗余度证据的权重W₃和表述样式证据的权重W₄不限于上述函数表达式，其还可以为其他的函数表达式，例如，冗余度证据的权重W₃可以表示为

表述样式证据的权重W₄可以表示为

例如，一致性证据101的基本思想是：相对于错误知识，正确知识应当与已有的正确知识相容，即正确知识应当与已有的正确知识无冲突。一致性证据101的逻辑规则表示为“第一已有知识∧第二已有知识＝>y”，其可以表示根据第一已有知识和第二已有知识可以推导得出候选知识y(例如，y可以为目标候选知识或冲突候选知识)，即，候选知识y与第一已有知识和第二已有知识都不冲突。

例如，在一致性证据101的逻辑规则中，第一已有知识和第二已有知识均为已有知识库中的知识，即第一已有知识和第二已有知识均为已有的正确知识。一致性证据101的逻辑规则为已有的正确知识与目标候选知识之间的约束规则。例如，若目标候选知识为“虾皮能预防骨质疏松”，冲突候选知识为“虾皮不能预防骨质疏松”，而已有知识库存在第一已有知识和第二已有知识，且第一已有知识为“虾皮含有钙”，第二已有知识为“钙能预防骨质疏松”。由此，根据一致性证据101的逻辑规则(即第一已有知识∧第二已有知识＝>y)可以推导出y为“虾皮能够预防骨质疏松”，从而目标候选知识与已有的正确知识无冲突，冲突候选知识与已有的正确知识相冲突，目标候选知识正确的概率大于冲突候选知识正确的概率。

例如，在一个示例中，第一已有知识可以表示为“含有(K，M)”，第二已有知识可以表示为“预防(M，D)”，y可以表示为“预防(K，D)”，其中，K可以为食物、药品等，D可以为K中含有的元素、物质等，M可以为症状、疾病等。由此，一致性证据101的逻辑规则可以建模为“含有(K，M)∧预防(M，D)＝>预防(K，D)”。例如，第一已有知识为“柠檬含有大量的维生素C”，第二已有知识为“维生素C能够预防感冒”，y为“柠檬能够预防感冒”，则一致性证据101的逻辑规则表示为：含有(柠檬，维生素C)∧预防(维生素C，感冒)＝>预防(柠檬，感冒)。

例如，一致性证据101的权重W₁表示为一致性证据101的逻辑规则的逻辑值。例如，当逻辑值为真时，权重W₁为1，当逻辑值为假时，权重W₁为0。例如，目标候选知识为“柠檬能够预防感冒”，冲突候选知识为“柠檬不能预防感冒”。若第一已有知识为“柠檬含有大量的维生素C”，第二已有知识为“维生素C能够预防感冒”。基于一致性证据101的逻辑规则，目标候选知识的一致性证据101的权重W₁为1，冲突候选知识的一致性证据101的权重W₁为0，从而目标候选知识正确的概率大于冲突候选知识正确的概率。

例如，已有知识库中可以包括多个已有的正确知识(例如，图2B所示的第一已有知识、第二已有知识、第三已有知识和第四已有知识等)，多个已有的正确知识可以组成多个一致性证据101(例如，图2A所示的一致性证据101a和一致性证据101b等)，多个一致性证据101可以具有多个权重W₁(例如，图2A所示的权重W_1a和权重W_1b等)。

例如，目标候选知识的验证概率可以为目标候选知识与数据源和已有知识库的相容性概率。即，目标候选知识的验证概率为目标候选知识的正确概率。冲突候选知识的验证概率可以为冲突候选知识与数据源和已有知识库的相容性概率。即，冲突候选知识的验证概率为冲突候选知识的正确概率。

又例如，目标候选知识的验证概率也可以为目标候选知识与数据源和已有知识库的不相容概率。即，目标候选知识的验证概率为目标候选知识的错误概率。冲突候选知识的验证概率也可以为冲突候选知识与数据源和已有知识库的不相容概率。即，冲突候选知识的验证概率为冲突候选知识的错误概率。

需要说明的是，本公开的实施例中，以验证概率为正确概率为例进行详细说明，但验证概率也可以为错误概率，本公开的实施例对此不作限制。

图3示出了本公开至少一实施例提供的又一种知识验证方法的示意性流程图。

例如，如图3所示，在一个示例中，当验证概率为正确概率时，操作S14可以包括以下操作：

操作S141：判断目标候选知识的验证概率是否大于冲突候选知识的验证概率；

如果不是，则执行操作S142：确定冲突候选知识为正确知识；

如果是，则执行操作S143：确定目标候选知识为正确知识。

例如，基于马尔科夫逻辑网建模的各证据的逻辑规则，目标候选知识的验证概率和冲突候选知识的验证概率均可以表示为：

其中，Z为归一化因子。当y表示目标候选知识时，上式(1)中的P(y)为目标候选知识的验证概率，f_i(y)为目标证据组中第i个证据的逻辑规则的特征值，f_i(y)＝1表示目标证据组中第i个证据的逻辑规则为真，f_i(y)＝0表示目标证据组中第i个证据的逻辑规则为假，W_i表示目标证据组中第i个证据的权重，T表示目标证据组中的证据数量。当y表示冲突候选知识时，上式(1)中的P(y)为冲突候选知识的验证概率，f_i(y)为冲突证据组中第i个证据的逻辑规则的特征值，f_i(y)＝1表示冲突证据组中第i个证据的逻辑规则为真，f_i(y)＝0表示冲突证据组中第i个证据的逻辑规则为假，W_i表示冲突证据组中第i个证据的权重，T表示冲突证据组中的证据数量。

例如，马尔科夫逻辑网中的顶点为闭谓词(ground predicates)或闭原子(groundatoms)，各闭谓词或闭原子之间的逻辑关系为闭规则(ground formulas)。每个闭谓词或闭原子均对应一个二值节点(即闭谓词或闭原子的特征值)，若该闭谓词或闭原子为真，则对应的二值节点取值为1；若该闭谓词或闭原子为假，则对应的二值节点取值为0。每个闭规则都对应一个特征值，若该闭规则为真，则对应的特征值为1；若该闭规则为假，则对应的特征值为0。

例如，来源证据102、冗余度证据103和表述样式证据104均为闭谓词或闭原子，一致性证据101为闭规则。例如，对于来源证据102、冗余度证据103和表述样式证据104，f_i(y)的逻辑规则为真，即f_i(y)＝1。对于一致性证据101，若目标候选知识(或冲突候选知识)与已有的正确知识相容，则f_i(y)的逻辑规则为真，即f_i(y)＝1，否则f_i(y)＝0。

图4A示出了本公开至少一实施例提供的目标证据组的一个示例；图4B示出了本公开至少一实施例提供的冲突证据组的一个示例。

例如，在一个具体的示例中，目标候选知识为“虾皮能够预防骨质疏松”，冲突候选知识为“虾皮不能预防骨质疏松”。

例如，如图4A所示，目标证据组包括：提及(“虾皮能够预防骨质疏松”，“医学教科书”)，出现次数(“虾皮能够预防骨质疏松”，8)，表述样式(“虾皮能够预防骨质疏松”，4)以及“含有(虾皮，钙)”∧“预防(钙，骨质疏松)”＝>“预防(虾皮，骨质疏松)”。由此，目标候选知识的来源证据102的权重W₂＝10，目标候选知识的冗余度证据103的权重W₃＝log₂8＝3，目标候选知识的表述样式证据104的权重W₄＝log₂4＝2。目标候选知识(即“虾皮不能预防骨质疏松”)与该一致性证据101不冲突，即目标候选知识的一致性证据101的权重W₁＝1。

例如，如图4B所示，冲突证据组包括：提及(“虾皮不能预防骨质疏松”，“医学教科书”)，出现次数(“虾皮不能预防骨质疏松”，4)，表述样式(“虾皮不能预防骨质疏松”，4)以及“含有(虾皮，钙)”∧“预防(钙，骨质疏松)”＝>“预防(虾皮，骨质疏松)”。由此，冲突候选知识的来源证据102的权重W₂'＝10，冲突候选知识的冗余度证据103的权重W₃'＝log₂4＝2，冲突候选知识的表述样式证据104的权重W₄'＝log₂4＝2。冲突候选知识(即“虾皮不能预防骨质疏松”)与该一致性证据101相冲突，即冲突候选知识的一致性证据101的权重W₁'＝0。

综上所述，在操作S13中，基于目标证据组中各证据的逻辑规则，可以计算目标候选知识的验证概率。目标候选知识的验证概率表示如下：

基于冲突证据组中各证据的逻辑规则，可以计算冲突候选知识的验证概率。冲突候选知识的验证概率表示如下：

对于目标候选知识和冲突候选知识，Z均相同。

例如，在操作S14中，根据目标候选知识的验证概率与冲突候选知识的验证概率的比较结果，则可以确定目标候选知识是否为正确知识。例如，在图4A和图4B所示的示例中，

P(目标候选知识)＞P(冲突候选知识)

从而可以确定目标候选知识为正确知识。

例如，该知识验证方法还包括输出正确知识。例如，输出的正确知识可以在显示器上进行显示，或者还可以通过扬声器进行语音输出等。

例如，该知识验证方法可以输出所有或部分正确知识。如图3所示，在一个示例中，该知识验证方法还可以包括以下操作：

在执行操作S142后，执行操作S18：输出冲突候选知识；

在执行操作S143后，执行操作S19：输出目标候选知识。

图5示出了本公开至少一实施例提供的另一种知识验证方法的示意性流程图。

例如，该知识验证方法也可以输出用户期望显示的正确知识，例如，显示N个正确知识。如图5所示，在另一个示例中，当执行操作14后，该知识验证方法还可以执行以下操作：

操作S15：获取R个正确知识的验证概率和与R个正确知识相矛盾的R个错误知识的验证概率；

操作S16：计算R个正确知识的验证概率和R个错误知识的验证概率的比值；

操作S17：根据比值对R个正确知识进行排序；

操作S18：输出排序后的N个正确知识。

例如，在操作S15中，可以根据图1和/或图3所示的方法，确定多个正确知识及其验证概率和多个错误知识及其验证概率。

例如，正确知识可以为目标候选知识，也可以为冲突候选知识；相应地，错误知识可以为冲突候选知识，也可以为目标候选知识。

例如，比值可以表示如下：

P(正确知识)/P(错误知识)

其中，P(正确知识)可以为P(目标候选知识)，也可以为P(冲突候选知识)；相应地，P(错误知识)可以为P(冲突候选知识)，也可以为P(目标候选知识)。

例如，N为正整数，且N≤R。N可以为用户期望显示的正确知识的数量。N可以与候选知识组的候选知识的数量相关，N例如可以为候选知识的数量的10％。本公开的实施例对N不作具体限定。

例如，N个正确知识可以与最大的N个比值相对应。例如，N个正确知识可以为具有最大的N个比值的目标候选知识。但不限于此，N个正确知识还可以与最小的N个比值相对应。

例如，R个正确知识可以为所有的正确知识，即R为所有的正确知识的数量；R个正确知识也可以为部分正确知识。

例如，本公开的实施例提供的知识验证方法还可以输出正确知识的比值、正确知识的验证概率等信息。需要说明的是，本公开实施例提供的知识验证方法也可以输出错误知识。

图6示出了本公开至少一实施例提供的再一种知识验证方法的示意性流程图。

例如，如图6所示，在一个示例中，在执行图1的操作S11前，知识验证方法还可以包括以下操作：

操作S31：从数据源中获取候选知识组；

操作S32：从候选知识组选择目标候选知识；

操作S33：判断候选知识组中是否存在与目标候选知识相矛盾的冲突候选知识；如果在候选知识组中存在冲突候选知识，则进行到操作S11；如果在候选知识组中不存在冲突候选知识，则执行操作S34：判断目标候选知识与已有知识库中的已有知识是否相矛盾，如果是，则执行操作S35：确定目标候选知识为错误知识，如果不是，则执行操作S36：确定目标候选知识为正确知识。

例如，若候选知识组由数据源中所有的候选知识组成，当确定目标候选知识为正确知识时，则表示在数据源和已有知识库中均不存在与该目标候选知识相矛盾的知识。因此，可以直接确定该目标候选知识为正确知识，并根据需要输出该目标候选知识。

又例如，若候选知识组由从数据源中抽取的多个候选知识组成，当确定目标候选知识(或冲突候选知识)为正确知识时，即执行图3所示的操作S142、操作S143或图6所示的操作S36后，该目标候选知识(或冲突候选知识)可以被存入正确知识组。由此，输出正确知识可以包括以下操作：从正确知识组中获取正确知识；构建与正确知识相矛盾的错误知识；获取正确知识的正确证据组和错误知识的错误证据组；基于正确证据组中各证据的逻辑规则，计算正确知识的验证概率；基于错误证据组中各证据的逻辑规则，计算错误知识的验证概率；计算正确知识的验证概率与对应的错误知识的验证概率的比值；根据比值对正确知识进行排序；输出排序后的N个正确知识。

需要说明的是，为了减少计算量，当候选知识组中既存在目标候选知识，又存在与目标候选知识相矛盾的冲突候选知识时，即该正确知识为由图1和/或图3所示的方法所验证的正确知识，则该正确知识的验证概率和错误知识的验证概率可以直接获取(例如，参照图1和/或图3中的操作S13)，从而正确知识的验证概率和错误知识的验证概率之间的比值可以直接计算；或者正确知识的验证概率和错误知识的验证概率之间的比值也可以获取(例如，参照图5中的操作S16)。然后，根据比值对该正确知识进行排序。

图7示出了本公开至少一实施例提供的一种知识验证设备的示意性框图。

例如，如图7所示，本公开实施例提供的知识验证设备200可以包括处理器201、存储器202和显示器203。应当注意，图7所示的知识验证设备的组件只是示例性的，而非限制性的，根据实际应用需要，该知识验证设备还可以具有其他组件。

例如，处理器201、存储器202和显示器203等组件之间可以通过网络连接进行通信。处理器201、存储器202和显示器203等组件之间可以直接或间接地互相通信。

例如，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet ofThings)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。

例如，处理器201可以是中央处理单元(CPU)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元，例如现场可编程门阵列(FPGA)或张量处理单元(TPU)等，处理器201可以控制知识验证设备中的其它组件以执行期望的功能。又例如，中央处理器(CPU)可以为X86或ARM架构等。

例如，存储器202可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在存储器202上可以存储一个或多个计算机指令，处理器201可以运行所述计算机指令，以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如数据源、已有知识库、权重、目标候选知识的验证概率、冲突候选知识的验证概率、以及应用程序使用和/或产生的各种数据等。

例如，显示器203可以为液晶显示器(LCD)、有机发光二极管显示器(OLED)等。

需要说明的是，在一些实施例中，根据实际需求，该知识验证设备还可以包括输入装置(例如触控装置、键盘、麦克风、鼠标等)、扬声器等。用户可以利用显示器203和输入装置等以实现与知识验证设备200之间的交互。例如，用户可以通过显示器203查看正确知识，还可以通过输入装置输入需要验证的候选知识等。

例如，计算机指令被处理器201执行时可以实现以下操作：获取目标候选知识和与目标候选知识相矛盾的冲突候选知识；获取目标候选知识的目标证据组和冲突候选知识的冲突证据组；基于目标证据组中各证据的逻辑规则，计算目标候选知识的验证概率，基于冲突证据组中各证据的逻辑规则，计算冲突候选知识的验证概率；以及比较目标候选知识的验证概率与冲突候选知识的验证概率，并根据比较结果确定目标候选知识是否为正确知识。

例如，可以采用自然语言处理(Natural Language Processing，NLP)技术抽取目标候选知识和冲突候选知识。自然语言处理例如可以采用深度学习神经网络(例如，循环神经网络、递归神经网络等)等方法进行语言处理。

例如，目标证据组和冲突证据组均包括来源证据、冗余度证据和表述样式证据中的至少之一，来源证据、冗余度证据以及表述样式证据来自于数据源。又例如，目标证据组和冲突证据组还分别包括一致性证据，一致性证据来自于已有知识库。

例如，来源证据的逻辑规则可以表示为：提及(y，S)，冗余度证据的逻辑规则可以表示为：出现次数(y，N)，表述样式证据的逻辑规则可以表示为：表述样式(y，M)，一致性证据的逻辑规则可以表示为：第一已有知识∧第二已有知识＝>y。当y表示目标候选知识时，S表示目标候选知识的来源，N表示目标候选知识出现的次数，M表示目标候选知识的不同表述方式的数量；当y表示冲突候选知识时，S表示冲突候选知识的来源，N表示冲突候选知识出现的次数，M表示冲突候选知识的不同表述方式的数量。

例如，来源证据的权重可以表示为S的权威度，冗余度证据的权重可以表示为log_aN，表述样式证据的权重可以表示为log_aM，log_a表示以a为底数的对数函数，一致性证据的权重可以表示为一致性证据的逻辑规则的逻辑值。

例如，本公开的实施例采用马尔科夫逻辑网建模各证据的逻辑规则，并根据各证据的逻辑规则计算目标候选知识(或冲突候选知识)的验证概率。例如，基于马尔科夫逻辑网建模的各证据的逻辑规则，目标候选知识的验证概率和冲突候选知识的验证概率均可以表示为：

其中，Z为归一化因子，当y表示目标候选知识时，P(y)为目标候选知识的验证概率，f_i(y)为目标证据组中第i个证据的逻辑规则的特征值，f_i(y)＝1表示目标证据组中第i个证据的逻辑规则为真，f_i(y)＝0表示目标证据组中第i个证据的逻辑规则为假，W_i表示目标证据组中第i个证据的权重，T表示目标证据组中的证据数量；当y表示冲突候选知识时，P(y)为冲突候选知识的验证概率，f_i(y)为冲突证据组中第i个证据的逻辑规则的特征值，f_i(y)＝1表示冲突证据组中第i个证据的逻辑规则为真，f_i(y)＝0表示冲突证据组中第i个证据的逻辑规则为假，W_i表示冲突证据组中第i个证据的权重，T表示冲突证据组中的证据数量。

例如，在一个示例中，当验证概率为正确概率时，计算机指令被处理器201执行时实现“比较目标候选知识的验证概率与冲突候选知识的验证概率，并根据比较结果确定目标候选知识是否为正确知识”的操作，包括：判断目标候选知识的验证概率是否大于冲突候选知识的验证概率；如果不是，则确定冲突候选知识为正确知识；如果是，则确定目标候选知识为正确知识。

例如，在一个示例中，计算机指令被处理器201执行时还可以实现以下操作：获取R个正确知识的验证概率和与R个正确知识相矛盾的R个错误知识的验证概率；计算R个正确知识的验证概率和R个错误知识的验证概率的比值；根据比值对R个正确知识进行排序；输出排序后的N个正确知识。

例如，N为正整数，且N≤R。N可以为用户期望显示的正确知识的数量。

例如，在一个示例中，计算机指令被处理器201执行时还可以实现以下操作：输出排序后的N个正确知识至显示器203；在显示器203上显示排序后的N个正确知识。

例如，N个正确知识可以与最大的N个比值相对应。

例如，在一个示例中，计算机指令被处理器201执行时还可以实现以下操作：从数据源中获取候选知识组；从候选知识组选择目标候选知识；判断候选知识组中是否存在与目标候选知识相矛盾的冲突候选知识；如果在候选知识组中存在冲突候选知识，则计算目标候选知识的验证概率和冲突候选知识的验证概率，并根据目标候选知识的验证概率和冲突候选知识的验证概率的比较结果确定目标候选知识是否为正确知识；如果在候选知识组中不存在冲突候选知识，则判断目标候选知识与已有知识库中的已有知识是否相矛盾，如果是，则确定目标候选知识为错误知识，如果不是，则确定目标候选知识为正确知识。

例如，在一个示例中，当确定目标候选知识(或冲突候选知识)为正确知识时，该目标候选知识(或冲突候选知识)可以被存入正确知识组。计算机指令被处理器201执行时还可以实现以下操作：从正确知识组中获取正确知识；构建与正确知识相矛盾的错误知识；获取正确知识的正确证据组和错误知识的错误证据组；基于正确证据组中各证据的逻辑规则，计算正确知识的验证概率；基于错误证据组中各证据的逻辑规则，计算错误知识的验证概率；计算正确知识的验证概率与对应的错误知识的验证概率的比值；根据比值对正确知识进行排序；输出排序后的N个正确知识。

需要说明的是，关于数据源、已有知识库、来源证据、冗余度证据、表述样式证据以及一致性证据等的详细说明可以参考知识验证方法的实施例中的相关描述，重复之处在此不再赘述。

本公开至少一实施例还提供一种存储介质，其上存储有适于由处理器运行的计算机指令。该计算机指令被处理器执行时可以实现以下操作：获取目标候选知识和与目标候选知识相矛盾的冲突候选知识；获取目标候选知识的目标证据组和冲突候选知识的冲突证据组；基于目标证据组中各证据的逻辑规则，计算目标候选知识的验证概率，基于冲突证据组中各证据的逻辑规则，计算冲突候选知识的验证概率；以及比较目标候选知识的验证概率与冲突候选知识的验证概率，并根据比较结果确定目标候选知识是否为正确知识。

例如，在本公开实施例的一个示例中，该存储介质可以应用于上述任一实施例所述的知识验证设备中，例如，其可以为知识验证设备中的存储器202。

例如，关于存储介质的说明可以参考知识验证设备的实施例中对于存储器202的描述，重复之处不再赘述。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种知识验证方法，包括：

获取目标候选知识和与所述目标候选知识相矛盾的冲突候选知识；

获取所述目标候选知识的目标证据组和所述冲突候选知识的冲突证据组；

通过马尔科夫逻辑网建模所述目标候选知识和所述目标证据组中各证据的逻辑规则，基于所述目标证据组中各证据的逻辑规则，计算所述目标候选知识的验证概率，通过所述马尔科夫逻辑网建模所述冲突候选知识和所述冲突证据组中各证据的逻辑规则，基于所述冲突证据组中各证据的逻辑规则，计算所述冲突候选知识的验证概率；以及

比较所述目标候选知识的验证概率与所述冲突候选知识的验证概率，并根据比较结果确定所述目标候选知识是否为正确知识。

2.根据权利要求1所述的知识验证方法，其中，所述目标证据组和所述冲突证据组均包括来源证据、冗余度证据和表述样式证据中的至少之一，所述来源证据、冗余度证据以及表述样式证据来自于数据源。

3.根据权利要求2所述的知识验证方法，其中，所述目标证据组和所述冲突证据组还均包括一致性证据，所述一致性证据来自于已有知识库。

4.根据权利要求3所述的知识验证方法，其中，

所述来源证据的逻辑规则表示为：提及(y，S)，

所述冗余度证据的逻辑规则表示为：出现次数(y，N)，

所述表述样式证据的逻辑规则表示为：表述样式(y，M)，

所述一致性证据的逻辑规则表示为：第一已有知识∧第二已有知识＝>y，

其中，当y表示所述目标候选知识时，S表示所述目标候选知识的来源，N表示所述目标候选知识出现的次数，M表示所述目标候选知识的不同表述方式的数量；

当y表示所述冲突候选知识时，S表示所述冲突候选知识的来源，N表示所述冲突候选知识出现的次数，M表示所述冲突候选知识的不同表述方式的数量；

所述来源证据的权重表示为S的权威度，所述冗余度证据的权重表示为log_aN，所述表述样式证据的权重表示为log_aM，log_a表示以a为底数的对数函数，所述一致性证据的权重表示为所述一致性证据的逻辑规则的逻辑值。

5.根据权利要求4所述的知识验证方法，其中，所述目标候选知识的验证概率和所述冲突候选知识的验证概率均表示为：

其中，Z为归一化因子，

当y表示所述目标候选知识时，f_i(y)为所述目标证据组中第i个证据的逻辑规则的特征值，f_i(y)＝1表示所述目标证据组中第i个证据的逻辑规则为真，f_i(y)＝0表示所述目标证据组中第i个证据的逻辑规则为假，W_i表示所述目标证据组中第i个证据的权重，T表示所述目标证据组中的证据数量；

当y表示所述冲突候选知识时，f_i(y)为所述冲突证据组中第i个证据的逻辑规则的特征值，f_i(y)＝1表示所述冲突证据组中第i个证据的逻辑规则为真，f_i(y)＝0表示所述冲突证据组中第i个证据的逻辑规则为假，W_i表示所述冲突证据组中第i个证据的权重，T表示所述冲突证据组中的证据数量。

6.根据权利要求1所述的知识验证方法，还包括：

获取R个正确知识的验证概率和与所述R个正确知识相矛盾的R个错误知识的验证概率；

计算所述R个正确知识的验证概率和所述R个错误知识的验证概率的比值；

根据所述比值对所述R个正确知识进行排序；

输出排序后的N个所述正确知识，N为正整数，且N≤R。

7.根据权利要求6所述的知识验证方法，其中，N个所述正确知识与最大的N个所述比值相对应。

8.一种知识验证设备，包括处理器和存储器，所述存储器用于存储计算机指令，其中，所述计算机指令被所述处理器执行时实现以下操作：

9.根据权利要求8所述的知识验证设备，其中，所述目标证据组和所述冲突证据组均包括来源证据、冗余度证据和表述样式证据中的至少之一，所述来源证据、冗余度证据以及表述样式证据来自于数据源。

10.根据权利要求9所述的知识验证设备，其中，所述目标证据组和所述冲突证据组还均包括一致性证据，所述一致性证据来自于已有知识库。

11.根据权利要求10所述的知识验证设备，其中，

所述来源证据的逻辑规则表示为：提及(y，S)，

所述冗余度证据的逻辑规则表示为：出现次数(y，N)，

所述表述样式证据的逻辑规则表示为：表述样式(y，M)，

12.根据权利要求11所述的知识验证设备，其中，所述目标候选知识的验证概率和所述冲突候选知识的验证概率均表示为：

其中，Z为归一化因子，

13.根据权利要求8所述的知识验证设备，其中，所述计算机指令被所述处理器执行时还实现以下操作：

根据所述比值对所述R个正确知识进行排序；

输出排序后的N个所述正确知识，N为正整数，且N≤R。

14.根据权利要求13所述的知识验证设备，还包括显示器，

其中，所述计算机指令被所述处理器执行时还实现以下操作：

输出排序后的N个所述正确知识至所述显示器；

在所述显示器上显示排序后的N个所述正确知识。

15.一种存储介质，存储有适于由处理器运行的计算机指令，所述计算机指令被处理器执行时实现以下操作：