CN109784387A - 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 - Google Patents
基于神经网络和贝叶斯模型的多层次递进分类方法及系统 Download PDFInfo
- Publication number
- CN109784387A CN109784387A CN201811647945.7A CN201811647945A CN109784387A CN 109784387 A CN109784387 A CN 109784387A CN 201811647945 A CN201811647945 A CN 201811647945A CN 109784387 A CN109784387 A CN 109784387A
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- bayesian
- training
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000000750 progressive effect Effects 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000002360 preparation method Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于神经网络和贝叶斯模型的多层次递进分类方法及系统,包括:神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;待分类样本的预测步骤。本发明充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
Description
技术领域
本发明属于数据挖掘建模领域,特别是涉及到一种基于神经网络和贝叶斯模型的多标签多级分类下的多层次递进式分类方法及系统。
背景技术
自动文本分类技术是指通过计算机的数据处理能力,实现在预定义的分类体系下文本自动进行分类的技术。这种技术根据给定的数据的特征,与一个或多个类别相关联。从而实现文本的多标签分类。
海量数据的多标签文类在日常生活中是很常见的。例如在专利领域中,截至2018年6月,我国已经公布的发明专利数已经超过了800万件,为了快速、方便地检索相关文献,文献分类显得尤为重要。专利不同于其他文本,拥有自身独特的一套国际专利分类体系(IPC分类)IPC分类包括了与发明创造有关的全部知识领域,标志专利所属的具体专业领域,在专利审查过程中,审查员需要经过粗分、细分、实审确认的分类流程,最终赋予具体专利对应的IPC号。2005年IPC联盟大会成员国、世界知识产权组织(WIPO)将第8版IPC分成基本版和高级版两级结构。基本版余额20000条,包括部、大类、小类、大组和在某些技术领域的少量多点组的小组。IPC高级版约70000条,包括基本版以及对基本版进一步细分的条目。目前,IPC分类体系广泛运用在世界各国的专利文献分类和检索中,我国使用的正是国际专利分类体系。
IPC分类号采用层级的形式,将技术内容注明:部-分部-大类-小类-大组/小组,逐级形成完整的类别体系。技术领域分为8个部,用英文字符A~H表示。在各个层次上,每一个类别都有其对应的类别描述信息,这些描述随着层次的深化,描述也在不断地加深。分类体系的层级越高,类别描述的抽象成都越大,尤其是部和大类,层次越低描述的越细致;下一个层次的描述是对上一个层次的细化,小组的描述不能脱离其对应的主组独立看待。同时,由于一个专利可能分属不同的类别,级可能存在对应若干分类号的现象,其中主要用途所确定的分类号为主分类号,以次要用途确定的分类号为副分类号。例如G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。
目前的现有技术中,对于上述多标签多级分类的数据,在数据挖掘领域并没有很好的数据训练方法。
发明内容
为了解决海量数据多标签分类难以训练的问题,本发明提出了一种分层多标签分类方法,充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于神经网络和贝叶斯模型的多层次递进分类方法,总体步骤包括:
S1、神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
S2、神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
S3、贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
S4、待分类样本的预测步骤。
进一步的,步骤S3包括:
S3.1、子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
S3.2、建立子类模型的贝叶斯网络分类器。
进一步的,步骤S4包括:
S4.1、对待分类样本按照神经网络模型的数据准备方法进行特征提取;
S4.2、将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
S4.3、按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
S4.4、将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
S4.5、将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
本发明的另一方面,还提供了一种基于神经网络和贝叶斯模型的多层次递进分类系统,包括:
预处理模块,用于神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
神经网络训练模块,用于神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
贝叶斯模型训练模块,用于贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
预测模块,用于待分类样本的预测步骤。
进一步的,贝叶斯模型训练模块包括:
子类模型数据准备单元,用于子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
分类器单元,用于建立子类模型的贝叶斯网络分类器。
进一步的,预测模块包括:
特征提取单元,用于对待分类样本按照神经网络模型的数据准备方法进行特征提取;
神经网络预测单元,用于将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
数据准备单元,用于按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
贝叶斯模型预测单元,用于将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
最终预测单元,将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
与现有技术相比,本发明具有如下的有益效果:
本发明实现的多层次推进式分类方式具有以下优点
1、模型构建上充分考虑神经网络模型模型准确度高和贝叶斯网络模型训练速度快;
2、测速度快的优点;
3、不分层模型训练更容易,训练速度更快;
4、于多个层次的分层多标签最终预测准确度高;
5、资源不足的情况下更容易实现。
附图说明
图1是本发明实施例的结构框图;
图2是本发明实施例的待分类样本的分类流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1、2所示,本发明所述基于神经网络和贝叶斯网络的多标签的多级分类下的多层次分类方法,包括数据的预处理、特征选择、基于神经网络模型的构建、基于贝叶斯网络模型的构建、多标签样本分类步骤。总体步骤如下:
1、神经网络数据预处理,对第一层模型(假设有n个大类,分别为A1、A2、…An)准备好神经网络训练模型的特征向量和预测结果Y。特征向量具有通用性,根据具体需要进行准备,预测结果Y的表示方法为:
类别1 | 类别2 | … | 类别n | |
样本 | C1 | C2 | Cn |
其中Ci为0或者1,1代表属于该类别,2代表不属于该类别;
2、神经网络的训练:在准备好的数据上进行神经网络模型的训练,可以选择卷积神经网络或者RCNN(循环卷积神经网络),构建大类层次的分类器模型。
3、贝叶斯网络模型的训练:在每个大类下建立该类别的贝叶斯网络模型(假设第n个大类有m个子类);
3.1子类模型数据准备:获取每个大类下面的所有样本,(如果一个样本属于不同的大类,按照真实属性提取);
3.2建立子类模型的贝叶斯网络分类器。(共n个贝叶斯模型)
4、待分类样本的预测步骤:
4.1对待分类样本按照神经网络模型的数据准备方法进行特征提取。
4.2讲样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号(例如可以选择预测概率大于0.8的分类作为该类别最终分类),假设该类别最终预测类别为
其中对预测结果进行归一化处理。得到归一化后的的预测概率值:
4.3按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
4.4讲样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理。
4.5将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
本发明解决了海量数据多标签分类模型训练难,训练准确度不高的问题,可以推广到任何文本或者非文本数据的分层分类中,采用的多种分类方法也不局限于本文中提到的人工智能算法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于神经网络和贝叶斯模型的多层次递进分类方法,其特征在于,总体步骤包括:
S1、神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
S2、神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
S3、贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
S4、待分类样本的预测步骤。
2.根据权利要求1所述的一种基于神经网络和贝叶斯模型的多层次递进分类方法,其特征在于,步骤S3包括:
S3.1、子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
S3.2、建立子类模型的贝叶斯网络分类器。
3.根据权利要求1所述的一种基于神经网络和贝叶斯模型的多层次递进分类方法,其特征在于,步骤S4包括:
S4.1、对待分类样本按照神经网络模型的数据准备方法进行特征提取;
S4.2、将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
S4.3、按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
S4.4、将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
S4.5、将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
4.一种基于神经网络和贝叶斯模型的多层次递进分类系统,其特征在于,包括:
预处理模块,用于神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
神经网络训练模块,用于神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
贝叶斯模型训练模块,用于贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
预测模块,用于待分类样本的预测步骤。
5.根据权利要求4所述的一种基于神经网络和贝叶斯模型的多层次递进分类系统,其特征在于,贝叶斯模型训练模块包括:
子类模型数据准备单元,用于子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
分类器单元,用于建立子类模型的贝叶斯网络分类器。
6.根据权利要求4所述的一种基于神经网络和贝叶斯模型的多层次递进分类系统,其特征在于,预测模块包括:
特征提取单元,用于对待分类样本按照神经网络模型的数据准备方法进行特征提取;
神经网络预测单元,用于将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
数据准备单元,用于按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
贝叶斯模型预测单元,用于将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
最终预测单元,将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811647945.7A CN109784387A (zh) | 2018-12-29 | 2018-12-29 | 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811647945.7A CN109784387A (zh) | 2018-12-29 | 2018-12-29 | 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109784387A true CN109784387A (zh) | 2019-05-21 |
Family
ID=66499016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811647945.7A Pending CN109784387A (zh) | 2018-12-29 | 2018-12-29 | 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784387A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472079A (zh) * | 2019-07-08 | 2019-11-19 | 浙江省北大信息技术高等研究院 | 目标图像的检索方法、装置、设备及存储介质 |
CN110659367A (zh) * | 2019-10-12 | 2020-01-07 | 中国科学技术信息研究所 | 文本分类号的确定方法、装置以及电子设备 |
CN111340093A (zh) * | 2020-02-21 | 2020-06-26 | 上海眼控科技股份有限公司 | 云状识别的方法和装置 |
CN111858941A (zh) * | 2020-07-28 | 2020-10-30 | 中译语通科技股份有限公司 | 专利分类方法及装置 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN116029379A (zh) * | 2022-12-31 | 2023-04-28 | 中国电子科技集团公司信息科学研究院 | 空中目标意图识别模型构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426007A (zh) * | 2013-08-29 | 2013-12-04 | 人民搜索网络股份公司 | 一种机器学习分类方法及装置 |
CN105304078A (zh) * | 2015-10-28 | 2016-02-03 | 中国电子科技集团公司第三研究所 | 目标声数据训练装置和目标声数据训练方法 |
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
-
2018
- 2018-12-29 CN CN201811647945.7A patent/CN109784387A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426007A (zh) * | 2013-08-29 | 2013-12-04 | 人民搜索网络股份公司 | 一种机器学习分类方法及装置 |
CN105304078A (zh) * | 2015-10-28 | 2016-02-03 | 中国电子科技集团公司第三研究所 | 目标声数据训练装置和目标声数据训练方法 |
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472079A (zh) * | 2019-07-08 | 2019-11-19 | 浙江省北大信息技术高等研究院 | 目标图像的检索方法、装置、设备及存储介质 |
CN110472079B (zh) * | 2019-07-08 | 2022-04-05 | 杭州未名信科科技有限公司 | 目标图像的检索方法、装置、设备及存储介质 |
CN110659367A (zh) * | 2019-10-12 | 2020-01-07 | 中国科学技术信息研究所 | 文本分类号的确定方法、装置以及电子设备 |
CN110659367B (zh) * | 2019-10-12 | 2022-03-25 | 中国科学技术信息研究所 | 文本分类号的确定方法、装置以及电子设备 |
CN111340093A (zh) * | 2020-02-21 | 2020-06-26 | 上海眼控科技股份有限公司 | 云状识别的方法和装置 |
CN111858941A (zh) * | 2020-07-28 | 2020-10-30 | 中译语通科技股份有限公司 | 专利分类方法及装置 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN116029379A (zh) * | 2022-12-31 | 2023-04-28 | 中国电子科技集团公司信息科学研究院 | 空中目标意图识别模型构建方法 |
CN116029379B (zh) * | 2022-12-31 | 2024-01-02 | 中国电子科技集团公司信息科学研究院 | 空中目标意图识别模型构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784387A (zh) | 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 | |
CN107871144A (zh) | 发票商品名分类方法、系统、设备及计算机可读存储介质 | |
Lancia | T-LAB pathways to thematic analysis | |
CN106934038B (zh) | 一种医疗数据查重和关联的方法及系统 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN104965867A (zh) | 基于chi特征选取的文本事件分类方法 | |
CN101976270B (zh) | 基于不确定推理的文本层次分类方法与装置 | |
CN110659367B (zh) | 文本分类号的确定方法、装置以及电子设备 | |
CN101877064A (zh) | 图像分类方法及图像分类装置 | |
CN101876987A (zh) | 一种面向类间交叠的两类文本分类方法 | |
CN109658114A (zh) | 大型语料库的高效智能客服方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN102004796B (zh) | 一种网页文本的无阻滞层次分类方法与装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
KR101179613B1 (ko) | 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법 | |
Britt et al. | Document classification techniques for automated technology readiness level analysis | |
CN105760471B (zh) | 基于组合凸线性感知器的两类文本分类方法 | |
Sendhilkumar et al. | Generation of word clouds using document topic models | |
Lee et al. | Deep learning document analysis system based on keyword frequency and section centrality analysis | |
CN108830302A (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
Yi et al. | Category Discrimination Based Feature Selection Algorithm in Chinese Text Classification. | |
CN113869024A (zh) | 一种飞机初始保障方案生成方法及系统 | |
CN111782814A (zh) | 一种专利技术主题内容和热度演化的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |