CN104750828A

CN104750828A - 一种基于6w规则的归纳演绎知识无意识自学习方法

Info

Publication number: CN104750828A
Application number: CN201510150767.7A
Authority: CN
Inventors: 谭远华; 张超林; 夏冬梅
Original assignee: KARAMAY HONGYOU SOFTWARE CO Ltd
Current assignee: HONGYOU SOFTWARE Co.,Ltd.
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-07-01
Anticipated expiration: 2035-03-31
Also published as: CN104750828B

Abstract

本发明公开了一种基于6W规则的归纳演绎知识无意识自学习方法，涉及信息技术领域。本发明实施例提供的基于6W规则的归纳演绎知识无意识自学习方法，根据知识中的标识，通过对知识分类，对同类知识的标识进行分类，再利用子级标识演绎、父级标识归纳的方法，在完整的知识结构中，根据已有的知识，向上向下学习得到新知识，并通过对新知识进行验证，将正确的知识存储在知识库中，实现了对知识体系的有效扩展以及知识库的建设，提高了知识库的实际应用能力。

Description

一种基于6W规则的归纳演绎知识无意识自学习方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于6W规则的归纳演绎知识无意识自学习方法。

背景技术

随着信息技术的不断发展，数据库中存储的数据量越来越多，涉及到的知识量也越来越多，但是，为了使信息技术能够利用存储的数据解决社会中的更加精细或复杂的问题，为社会发展做出更大的贡献，需要更多的知识量。

目前，知识量虽然比较大，且大多数的知识均能够在既定的范围内发生重要作用，而且现有的某些知识之间有紧密的关联，可以从一个知识推理到另一个知识，但是，现有知识体系中，更多的知识之间是相互孤立的，不存在直接关联，不能直接从一个知识推理到另一个知识，所以，在利用知识解决问题的时候，由于能够利用的相关联的知识量比较少，可能导致不能有效的解决问题。

发明内容

本发明的目的在于提供一种基于6W规则的归纳演绎知识无意识自学习方法，找到与已有知识无直接关联的知识，增加可利用的相关联的知识量，从而利用知识有效的解决问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于6W规则的归纳演绎知识无意识自学习方法，包括如下步骤：

S1，对数据库进行整体扫描，获取所有的知识；

S2，根据所述知识的结构对知识进行分类，获取每类知识中所有不相同的标识；

S3，根据标识的类型，对S2中得到的所有不相同的标识进行分类，将相同类型的标识归为一类，称为同类型标识；所述同类型标识的层次结构与对应的知识的层次结构相同；

S4，在所述同类型标识的层次结构中，将所述同类型标识中的每个标识均作为基准标识，获取所述基准标识对应的同级标识、子级标识和父级标识；

S5，在所述知识中，将所有的所述同级标识分别替换对应的所述标识，形成同级的新知识；同时，在所述知识中，将所述子级标识替换对应的所述标识，形成子级的新知识；

S6，判断所述新知识是否存在于知识库中，如果是，则结束；否则，执行S7；

S7，根据具体数据验证所有的所述同级的新知识是否都正确，如果是，则将所述父级标识替换对应的所述标识，得到父级的新知识，并将所述同级的新知识和所述父级的新知识均存储在知识库中，并将所述父级标识作为基准标识，重复S4-S7；如果不是，则将正确的所述同级的新知识存储在知识库中，并结束；

同时，根据具体数据验证所述子级的新知识是否正确，如果是，则将所述子级的新知识存储在知识库中，并将所述子级标识作为基准标识，重复S4-S7；否则，结束。

S8，遍历所有的知识对应的标识，重复S3-S7。

优选地，S3中，所述标识的类型包括：时间类、地点类、对象类、参与者类、资料类、活动类、特征类和参照类。

更优选地，所述标识的类型根据6W规则进行确定。

优选地，S3中，所述知识的层次结构按照概念范围的大小划分，依次包括：系列、集合、实体和子集，所述系列中包括对象和活动；所述集合中包括对象和活动；所述实体中包括特征、对象、子对象、活动、时间和地点；所述子集中包括特征、对象、子对象、时间和地点。

其中，S7中，所述根据具体数据验证所述同级的新知识是否都正确，具体包括如下步骤：

S701a，获取所述同级的新知识中的自变量标识和因变量标识对应的具体数据，并将所述具体数据代入所述同级的新知识中，得到验证用同级知识；

S702a，判断所述验证用同级知识是否正确，如果正确，则记录正确的所述验证用同级知识的数量，否则，记录错误的所述验证用同级知识的数量；

S703a，根据正确的所述验证用同级知识的数量和错误的所述验证用同级知识的数量，计算所述同级的新知识的正确率；

S704a，判断所述同级的新知识的正确率是否达到设定的正确率，如果达到，则所述同级的新知识是正确的；

S705a，遍历所有的所述同级的新知识，重复S701a-S704a。

其中，S702中，所述判断所述验证用知识是否正确，具体为：

在所述验证用知识中利用所述自变量标识对应的具体数据进行计算，如果计算结果等于所述因变量标识对应的具体数据，则所述验证用知识是正确的，否则，所述验证用知识是错误的。

其中，S702中，所述判断所述验证用知识是否正确，具体为：

在所述验证用知识中利用所述自变量标识对应的具体数据进行计算，如果计算结果在所述因变量标识对应的具体数据所允许的误差范围内，则所述验证用知识是正确的，否则，所述验证用知识是错误的。

优选地，所述设定的正确率根据所述同级的新知识允许的可信度以及因变量标识对应的具体数据的允许的误差值进行设定。

更优选地，所述设定的正确率为η：0.8≤η＜1。

其中，S7中，所述根据具体数据验证所述子级的新知识是否都正确，具体包括如下步骤：

S701b，获取所述子级的新知识中的自变量标识和因变量标识对应的具体数据，并将所述具体数据代入所述子级的新知识中，得到验证用子级知识；

S702b，判断所述验证用子级知识是否正确，如果正确，则记录正确的所述验证用子级知识的数量，否则，记录错误的所述验证用子级知识的数量；

S703b，根据正确的所述验证用子级知识的数量和错误的所述验证用子级知识的数量，计算所述子级的新知识的正确率；

S704b，判断所述子级的新知识的正确率是否达到设定的正确率，如果达到，则所述子级的新知识是正确的。

本发明的有益效果是：本发明实施例提供的基于6W规则的归纳演绎知识无意识自学习方法，根据知识中的标识，通过子级标识演绎、父级标识归纳的方法，在完整的知识结构中，根据已有的知识，向上向下学习得到新知识，并通过对新知识进行验证，将正确的知识存储在知识库中，实现了对知识体系的有效扩展以及知识库的建设，提高了知识库的实际应用能力。

附图说明

图1是本发明实施例提供的基于6W规则的归纳演绎知识无意识自学习方法的流程示意图；

图2是本发明实施例提供的标识层次结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本发明中，一些术语的解释如下：

知识定义为标识和标注，具体包括知识编号、标注、标识和可信度，其中，标识定义为数据元，也就是概念，数据元是从概念角度定义一个数据的最小单元，通过数据元素来描述；标注是标识和标识之间的联系，也就是概念之间的联系；知识编号是指知识具有的唯一编号；可信度的取值为0～100，取值越高则知识越可信。

如图1所示，本发明实施例提供了一种基于6W规则的归纳演绎知识无意识自学习方法，包括如下步骤：

S1，对数据库进行整体扫描，获取所有的知识；

S8，遍历所有的知识对应的标识，重复S3-S7。

其中，S2的实现过程可以如表1所示。

表1 知识及相关标识

知识	相关标识
		BZ1(A1，B2，C1，……)	A1，B2，C1，……
BZ2(A3，B4，C2，……)	A3，B4，C2，……
		BZ3(A5，B7，C8，……)	A5，B7，C8，……
BZ4(A8，B8，C12，……)	A8，B8，C12，……
		……	……

从表1中可以看出，相同结构的知识归为一类，比如，记为BZ1、BZ2、BZ3……，从而，可以在每类知识中，获取相关的标识，比如，知识BZ1相关的标识包括：A1，B2，C1，……。

S3的实现过程可以如表2所示。

表2 标识归类

类型	标识
		A类	A1，A2，A3，A4，A5，A6，A7，A8，……
B类	B1，B2，B3，B4，B5，B6，B7，B8，……
		C类	C1，C2，C3，C4，C5，C6，C7，C8，……

……

表2中，A、B、C……表示标识的类型，对于同类知识相关的标识，可以按照这些类型进行分类。比如，在表1中，知识BZ1相关的标识包括：A1，A2，A3，B1，B2，B3，C1，C2，C3，……。则按照表2所示的方法对标识进行分类，则A类中的标识包含A1，A2，A3，……；B类中的标识包含B1，B2，B3，……；C类中的标识包含C1，C2，C3，……。

S3和S4中涉及到的知识的层次结构或标识的层次结构如图2所示。图中，一个圆圈代表一个标识。上一层中的标识是下一层对应标识的父级标识，下一层中的标识是上一层对应标识的子级标识，同一层的标识是对应标识的同级标识，比如，在图2中，标识3是标识1和2的父级标识，标识3和4是标识1的子级标识，标识1是标识2的同级标识。

S5的实现过程可以如表3所示。

表3 形成新知识

知识	操作
		BZ1(A1，B2，C1，……)	A类标识内部替换
BZ1(A2，B2，C1，……)	A类标识内部替换
		BZ1(A3，B2，C1，……)	A类标识内部替换
……	……
		BZ1(A1，B1，C1，……)	B类标识内部替换
BZ1(A1，B2，C1，……)	B类标识内部替换
		BZ1(A1，B3，C1，……)	B类标识内部替换
……	……
		BZ1(A1，B2，C1，……)	C类标识内部替换
BZ1(A1，B2，C2，……)	C类标识内部替换
		BZ1(A1，B2，C3，……)	C类标识内部替换
……	……

对已有知识中的每个标识都进行相应的替换，形成新的知识。比如，对于A类标识，BZ1类知识中涉及到的标识为A1，……，其层次结构与已有知识的层次结构相同，所以，可以利用相同类型的标识A2，A3，……替换原来的标识A1，形成新的知识。如表3所示。

对于同类知识中的其他类型的标识也进行相同的学习过程。

对于其他类型的知识也进行相同的学习过程。

从而实现在所有已有知识的基础上，进行学习的过程。

S3中，所述标识的类型可以包括：时间类、地点类、对象类、参与者类、资料类、活动类、特征类和参照类。

通过将数据结构中标识的类型划分为上述八大类，更有利于数据的管理和利用。

本发明实施例中，标识的类型按照6W规则进行描述，

6W规则是指诺贝尔文学奖获得者英国作家吉卜林的思考问题、解决问题的方法，在信息技术领域中，在上述基础上明确了业务逻辑6W描述方法，即“Where(什么地方)、When(什么时间)、Who(什么人)、Which(针对什么)、What(做了什么，含如何做)、Why(为什么)”。

本发明实施例中，S3中，所述知识的层次结构按照概念范围的大小划分，依次包括：系列、集合、实体和子集，所述系列中包括对象和活动；所述集合中包括对象和活动；所述实体中包括特征、对象、子对象、活动、时间和地点；所述子集中包括特征、对象、子对象、时间和地点。

其中，系列和集合中的内容是概括性的概念，系列中包含的概念范围大于集合中包含的概念范围，比如，系列中包含的概念为动物，集合中包含的概念是哺乳动物或非哺乳动物，动物是哺乳动物或非哺乳动物的上一级的概念。

实体和子集中包含的内容是具体的概念，实体中包含的概念范围大于子集中包含的概念范围，同时，实体中包含的具体概念抽象之后的上一级就是集合中的概念，比如，非哺乳动物中有鸟、鱼等，鱼中包括淡水鱼或咸水鱼，则在这个例子中，鸟、鱼是实体中包含的内容，淡水鱼或咸水鱼是鱼的下一级概念，是子集中的内容，但都是具体的内容，而不是抽象的内容。而鸟、鱼这些具体内容抽象之后得到的上一级的概念就是非哺乳动物。

所有知识的层次结构都按照上述方式进行描述，该层次结构中的一个概念就是一个标识。所以，已有知识中的标识的层次结构可以与该知识的层次结构相同。

本发明实施例中，S7中，所述根据具体数据验证所述同级的新知识是否都正确，具体包括如下步骤：

S705a，遍历所有的所述同级的新知识，重复S701a-S704a。

在本发明实施例中，当已有知识成立时，与知识中的标识同级别、同类型的标识也可能根据该知识结构形成新的知识，所以，本发明实施例中，用同级别、同类型的标识代替知识中对应的标识，形成新知识，但是该新知识是否成立，需要进行验证。在验证的过程中，主要是利用知识中的标识对应的具体数据，如果将具体数据代入知识后，判断该知识是否成立，如果成立，则代入该具体数据的知识是正确的。本发明实施例中，使用多个具体数据代入知识，验证代入具体数据的知识是否正确，如果代入具体数据的知识的正确率达到设定值，则认为该新知识就是正确的。比如，对于一个新知识，可以使用10000组具体数据代入进行验证，如果其中9500个都验证为正确，则其正确率为95％，而如果正确率的设定值为90％的话，则验证得到的正确率超过了正确率的设定值，所以，该新知识是正确的。

而如本领域技术人员可以理解的，已有知识中的标识在层次结构的同级别中，可能存在多个同级标识，所以，对于每个同级标识，都可以形成新知识，而形成的多个新知识都需要进行验证正确性，当所有的同级标识形成的同级的新知识都正确的话，则可以归纳得到父级标识形成的新知识是正确的。当得到了父级标识形成的新知识是正确的结果后，可以将该父级标识作为基准标识，重复上述形成同级新知识、验证同级新知识的过程，归纳得出下一个父级标识形成的新知识是正确的，从而实现父级标识归纳形成新知识的过程。

比如，在图2中，已有知识中的标识4处于第四层，标识4对应的同级标识为标识5，则依据本发明实施例提供的方法，可以将标识5代入已有知识中，替换标识4，得到新知识，然后，验证该新知识，假设标识5形成的新知识是正确的，由于标识4和标识5的共同父级标识1只有两个子级标识4和5，即父级标识1的所有子级标识对应的相同结构的知识都是正确的，则根据归纳的理论，可以得出结论：标识1代替标识4形成的新知识也是正确的，将标识1作为基准标识，再找到标识1的同级标识2，将标识2代入已有知识中，代替标识1，形成新的标识，然后，验证该新标识，判断父级标识3形成的新知识是否正确，依此类推，实现向上父级演绎得到新知识的过程。

本发明实施例中，S702中，所述判断所述验证用知识是否正确，具体可以为：

上述判断验证用知识是否正确的方法，可以适用于大多数的情况，而且，采用该判断方法，得到的结果是最精确的，不存在误差。

本发明实施例中，S702中，所述判断所述验证用知识是否正确，具体还可以为：

上述在验证知识是否正确的过程中，由于当因变量标识对应的具体数据在所允许的误差范围内时，也可以认为该知识是正确的。所以，采用这种方法判断验证用知识是否正确，得到的正确的验证用知识的数量就会比较大，进而得到的新的知识的正确率就会比较大，就会比较容易达到正确率的设定值，从而就会得到比较多的正确的新的知识，有利于知识库的扩展。则对于某些应用而言，如果不要求知识完全准确，而只是要求具有较多的知识，从其中找到一定的规律，进行定性分析等的情况下，则采用这种方法会更加有效。

本发明实施例中，所述设定的正确率根据所述同级的新知识允许的可信度以及因变量标识对应的具体数据的允许的误差值进行设定。

本发明的优选实施例中，所述设定的正确率为η：0.8≤η＜1。

因变量标识的具体数据所允许的误差不能为0，因为，如果误差为0的话，就是不允许因变量标识的具体数据存在误差，则就会导致某些存在小误差的验证用知识被认为是错误的，进而可能导致某些存在小误差的知识不能存储在知识库中，从而减小新知识的扩充量和扩展幅度。

另外，因变量标识的具体数据所允许的误差也不能太大，因为已有的知识具有可信度，且可信度的数值范围取值为0-100，当新知识的误差太大的话，就会降低新知识的可信度。

本发明实施例中，正确率的设定值不能太低，如果太低的话，则知识的误差比较大，可信度比较小，则会影响知识的实际应用能力，导致知识的扩充没有意义。

同样，正确率的设定值也不能太高，尤其不能等于1，如果等于1，则知识的误差就为0，则会导致存在较小误差的知识被认为是错误的知识，不能作为新知识存储在知识库中，从而，减小知识量，降低实际的应用能力。

本发明实施例中，设定的正确率为η：0.8≤η＜1，该正确率的设定值既可以保证知识的可信度，也保证不会忽视存在较小误差的知识，极大的扩展知识体系，提高知识的应用能力。

本发明实施例中，S7中，所述根据具体数据验证所述子级的新知识是否都正确，具体包括如下步骤：

在本发明实施例中，当已有知识成立时，与知识中的标识同类型的子级标识也可能根据该知识结构形成新的知识，所以，本发明实施例中，用同类型的子级标识代替已有知识中对应的标识，形成新知识，但是该新知识是否成立，需要进行验证。在验证的过程中，主要是利用新知识中的标识对应的具体数据，如果将具体数据代入该新知识后，判断该新知识是否成立，如果成立，则代入该具体数据的新知识是正确的。本发明实施例中，使用多个具体数据代入新知识，验证代入具体数据的新知识是否正确，如果代入具体数据的新知识的正确率达到设定值，则认为该新知识就是正确的。比如，对于一个新知识，可以使用10000组具体数据代入进行验证，如果其中9500个都验证为正确，则其正确率为95％，而如果正确率的设定值为90％的话，则验证得到的正确率超过了正确率的设定值，所以，该新知识是正确的。

而如本领域技术人员可以理解的，已有知识中的标识在层次结构的子级别中，可能存在多个子级标识，所以，对于每个子级标识，都可以形成新知识，而形成的多个新知识都需要进行验证正确性，当子级标识形成的子级的新知识正确的话，则可以将该子级标识作为基准标识，重复上述形成子级新知识、验证子级新知识的过程，演绎得出下一个子级标识形成的新知识是正确的，从而实现通过子级标识演绎的方法形成新知识的过程。

比如，在图2中，已有知识中的标识3处于第二层，标识3对应的子级标识为标识1和标识2，则依据本发明实施例提供的方法，可以将标识1和标识2分别代入已有知识中，替换标识3，得到两个新知识，然后，验证该两个新知识，假设标识1形成的新知识是正确的，标识2形成的新知识是错误的，则将标识1作为基准标识，找到标识1的子级标识4和5，将标识4和5分别代入已有知识中，代替标识1，形成两个新的标识，然后，验证该两个新标识，判断标识4和5形成的新知识是否正确，依此类推，实现向下子级演绎得到新知识的过程。

其中，判断所述验证用子级知识是否正确的方法同上述判断所述验证用同级知识是否正确的方法，同时，正确率的设定方法和设定值也同同级新知识验证中的正确率的设定方法和设定值。

这样，在知识结构中，通过子级演绎的方法实现从已有知识中的标识开始，向下学习得到新知识，结合上述通过父级归纳的方法实现从已有知识中的标识开始，向上学习得到新知识，实现了完整的学习过程。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明实施例提供的基于6W规则的归纳演绎知识无意识自学习方法，根据知识中的标识，通过子级标识演绎、父级标识归纳的方法，在完整的知识结构中，根据已有的知识，向上向下学习得到新知识，并通过对新知识进行验证，将正确的知识存储在知识库中，实现了对知识体系的有效扩展以及知识库的建设，提高了知识库的实际应用能力。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是，上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整，也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，例如：个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，例如：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，包括如下步骤：

S1，对数据库进行整体扫描，获取所有的知识；

S8，遍历所有的知识对应的标识，重复S3-S7。

2.根据权利要求1所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，S3中，所述标识的类型包括：时间类、地点类、对象类、参与者类、资料类、活动类、特征类和参照类。

3.根据权利要求2所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，所述标识的类型根据6W规则进行确定。

4.根据权利要求2所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，S3中，所述知识的层次结构按照概念范围的大小划分，依次包括：系列、集合、实体和子集，所述系列中包括对象和活动；所述集合中包括对象和活动；所述实体中包括特征、对象、子对象、活动、时间和地点；所述子集中包括特征、对象、子对象、时间和地点。

5.根据权利要求1所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，S7中，所述根据具体数据验证所述同级的新知识是否都正确，具体包括如下步骤：

S705a，遍历所有的所述同级的新知识，重复S701a-S704a。

6.根据权利要求5所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，S702中，所述判断所述验证用知识是否正确，具体为：

7.根据权利要求5所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，S702中，所述判断所述验证用知识是否正确，具体为：

8.根据权利要求5所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，所述设定的正确率根据所述同级的新知识允许的可信度以及因变量标识对应的具体数据的允许的误差值进行设定。

9.根据权利要求8所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，所述设定的正确率为η：0.8≤η＜1。

10.根据权利要求1所述的基于6W规则的归纳演绎知识无意识自学习方法，其特征在于，S7中，所述根据具体数据验证所述子级的新知识是否都正确，具体包括如下步骤：