CN109784387A

CN109784387A - 基于神经网络和贝叶斯模型的多层次递进分类方法及系统

Info

Publication number: CN109784387A
Application number: CN201811647945.7A
Authority: CN
Inventors: 袁晓艳; 邱实; 裴非; 李�昊; 武新
Original assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Current assignee: TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-21

Abstract

本发明提出一种基于神经网络和贝叶斯模型的多层次递进分类方法及系统，包括：神经网络数据预处理，对第一层模型准备好神经网络训练模型的特征向量和预测结果；神经网络的训练，在准备好的数据上进行神经网络模型的训练，构建大类层次的分类器模型；贝叶斯模型的训练，在每个大类下建立该类别的贝叶斯网络模型；待分类样本的预测步骤。本发明充分利用不同模型的优缺点，对海量数据根据层次的需要做了分批训练，由此一系列的模型确定待分类样本的标签，并对多个模型的训练和预测提出了相应的解决方案。

Description

基于神经网络和贝叶斯模型的多层次递进分类方法及系统

技术领域

本发明属于数据挖掘建模领域，特别是涉及到一种基于神经网络和贝叶斯模型的多标签多级分类下的多层次递进式分类方法及系统。

背景技术

自动文本分类技术是指通过计算机的数据处理能力，实现在预定义的分类体系下文本自动进行分类的技术。这种技术根据给定的数据的特征，与一个或多个类别相关联。从而实现文本的多标签分类。

海量数据的多标签文类在日常生活中是很常见的。例如在专利领域中，截至2018年6月，我国已经公布的发明专利数已经超过了800万件，为了快速、方便地检索相关文献，文献分类显得尤为重要。专利不同于其他文本，拥有自身独特的一套国际专利分类体系(IPC分类)IPC分类包括了与发明创造有关的全部知识领域，标志专利所属的具体专业领域，在专利审查过程中，审查员需要经过粗分、细分、实审确认的分类流程，最终赋予具体专利对应的IPC号。2005年IPC联盟大会成员国、世界知识产权组织(WIPO)将第8版IPC分成基本版和高级版两级结构。基本版余额20000条，包括部、大类、小类、大组和在某些技术领域的少量多点组的小组。IPC高级版约70000条，包括基本版以及对基本版进一步细分的条目。目前，IPC分类体系广泛运用在世界各国的专利文献分类和检索中，我国使用的正是国际专利分类体系。

IPC分类号采用层级的形式，将技术内容注明：部-分部-大类-小类-大组/小组，逐级形成完整的类别体系。技术领域分为8个部，用英文字符A～H表示。在各个层次上，每一个类别都有其对应的类别描述信息，这些描述随着层次的深化，描述也在不断地加深。分类体系的层级越高，类别描述的抽象成都越大，尤其是部和大类，层次越低描述的越细致；下一个层次的描述是对上一个层次的细化，小组的描述不能脱离其对应的主组独立看待。同时，由于一个专利可能分属不同的类别，级可能存在对应若干分类号的现象，其中主要用途所确定的分类号为主分类号，以次要用途确定的分类号为副分类号。例如G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。

目前的现有技术中，对于上述多标签多级分类的数据，在数据挖掘领域并没有很好的数据训练方法。

发明内容

为了解决海量数据多标签分类难以训练的问题，本发明提出了一种分层多标签分类方法，充分利用不同模型的优缺点，对海量数据根据层次的需要做了分批训练，由此一系列的模型确定待分类样本的标签，并对多个模型的训练和预测提出了相应的解决方案。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于神经网络和贝叶斯模型的多层次递进分类方法，总体步骤包括：

S1、神经网络数据预处理，对第一层模型准备好神经网络训练模型的特征向量和预测结果；

S2、神经网络的训练，在准备好的数据上进行神经网络模型的训练，构建大类层次的分类器模型；

S3、贝叶斯模型的训练，在每个大类下建立该类别的贝叶斯网络模型；

S4、待分类样本的预测步骤。

进一步的，步骤S3包括：

S3.1、子类模型数据准备：获取每个大类下面的所有样本，如果一个样本属于不同的大类，按照真实属性提取；

S3.2、建立子类模型的贝叶斯网络分类器。

进一步的，步骤S4包括：

S4.1、对待分类样本按照神经网络模型的数据准备方法进行特征提取；

S4.2、将样本送入神经网络模型进行预测，输出预测概率大于给定值的分类编号；

S4.3、按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备；

S4.4、将样本分别进入对应的模型进行预测，每个模型给出预测结果。选择概率值大于给定阈值的预测结果，对个模型的输出结果进行归一化处理；

S4.5、将第一层的归一化之后的概率值与每个大类下的预测值相乘，得到最终的预测值，将模型的结果进行排序，选择相似度最大的前k个结果。

本发明的另一方面，还提供了一种基于神经网络和贝叶斯模型的多层次递进分类系统，包括：

预处理模块，用于神经网络数据预处理，对第一层模型准备好神经网络训练模型的特征向量和预测结果；

神经网络训练模块，用于神经网络的训练，在准备好的数据上进行神经网络模型的训练，构建大类层次的分类器模型；

贝叶斯模型训练模块，用于贝叶斯模型的训练，在每个大类下建立该类别的贝叶斯网络模型；

预测模块，用于待分类样本的预测步骤。

进一步的，贝叶斯模型训练模块包括：

子类模型数据准备单元，用于子类模型数据准备：获取每个大类下面的所有样本，如果一个样本属于不同的大类，按照真实属性提取；

分类器单元，用于建立子类模型的贝叶斯网络分类器。

进一步的，预测模块包括：

特征提取单元，用于对待分类样本按照神经网络模型的数据准备方法进行特征提取；

神经网络预测单元，用于将样本送入神经网络模型进行预测，输出预测概率大于给定值的分类编号；

数据准备单元，用于按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备；

贝叶斯模型预测单元，用于将样本分别进入对应的模型进行预测，每个模型给出预测结果。选择概率值大于给定阈值的预测结果，对个模型的输出结果进行归一化处理；

最终预测单元，将第一层的归一化之后的概率值与每个大类下的预测值相乘，得到最终的预测值，将模型的结果进行排序，选择相似度最大的前k个结果。

与现有技术相比，本发明具有如下的有益效果：

本发明实现的多层次推进式分类方式具有以下优点

1、模型构建上充分考虑神经网络模型模型准确度高和贝叶斯网络模型训练速度快；

2、测速度快的优点；

3、不分层模型训练更容易，训练速度更快；

4、于多个层次的分层多标签最终预测准确度高；

5、资源不足的情况下更容易实现。

附图说明

图1是本发明实施例的结构框图；

图2是本发明实施例的待分类样本的分类流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1、2所示，本发明所述基于神经网络和贝叶斯网络的多标签的多级分类下的多层次分类方法，包括数据的预处理、特征选择、基于神经网络模型的构建、基于贝叶斯网络模型的构建、多标签样本分类步骤。总体步骤如下：

1、神经网络数据预处理，对第一层模型(假设有n个大类，分别为A₁、A₂、…A_n)准备好神经网络训练模型的特征向量和预测结果Y。特征向量具有通用性，根据具体需要进行准备，预测结果Y的表示方法为：

	类别1	类别2	…	类别n
					样本	C1	C2		Cn

其中Ci为0或者1，1代表属于该类别，2代表不属于该类别；

2、神经网络的训练：在准备好的数据上进行神经网络模型的训练，可以选择卷积神经网络或者RCNN(循环卷积神经网络)，构建大类层次的分类器模型。

3、贝叶斯网络模型的训练：在每个大类下建立该类别的贝叶斯网络模型(假设第n个大类有m个子类)；

3.1子类模型数据准备：获取每个大类下面的所有样本，(如果一个样本属于不同的大类，按照真实属性提取)；

3.2建立子类模型的贝叶斯网络分类器。(共n个贝叶斯模型)

4、待分类样本的预测步骤：

4.1对待分类样本按照神经网络模型的数据准备方法进行特征提取。

4.2讲样本送入神经网络模型进行预测，输出预测概率大于给定值的分类编号(例如可以选择预测概率大于0.8的分类作为该类别最终分类)，假设该类别最终预测类别为

其中对预测结果进行归一化处理。得到归一化后的的预测概率值：

4.3按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备；

4.4讲样本分别进入对应的模型进行预测，每个模型给出预测结果。选择概率值大于给定阈值的预测结果，对个模型的输出结果进行归一化处理。

4.5将第一层的归一化之后的概率值与每个大类下的预测值相乘，得到最终的预测值，将模型的结果进行排序，选择相似度最大的前k个结果。

本发明解决了海量数据多标签分类模型训练难，训练准确度不高的问题，可以推广到任何文本或者非文本数据的分层分类中，采用的多种分类方法也不局限于本文中提到的人工智能算法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络和贝叶斯模型的多层次递进分类方法，其特征在于，总体步骤包括：

S4、待分类样本的预测步骤。

2.根据权利要求1所述的一种基于神经网络和贝叶斯模型的多层次递进分类方法，其特征在于，步骤S3包括：

S3.2、建立子类模型的贝叶斯网络分类器。

3.根据权利要求1所述的一种基于神经网络和贝叶斯模型的多层次递进分类方法，其特征在于，步骤S4包括：

4.一种基于神经网络和贝叶斯模型的多层次递进分类系统，其特征在于，包括：

预测模块，用于待分类样本的预测步骤。

5.根据权利要求4所述的一种基于神经网络和贝叶斯模型的多层次递进分类系统，其特征在于，贝叶斯模型训练模块包括：

分类器单元，用于建立子类模型的贝叶斯网络分类器。

6.根据权利要求4所述的一种基于神经网络和贝叶斯模型的多层次递进分类系统，其特征在于，预测模块包括：