CN109784387A - 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 - Google Patents

基于神经网络和贝叶斯模型的多层次递进分类方法及系统 Download PDF

Info

Publication number
CN109784387A
CN109784387A CN201811647945.7A CN201811647945A CN109784387A CN 109784387 A CN109784387 A CN 109784387A CN 201811647945 A CN201811647945 A CN 201811647945A CN 109784387 A CN109784387 A CN 109784387A
Authority
CN
China
Prior art keywords
model
neural network
bayesian
training
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811647945.7A
Other languages
English (en)
Inventor
袁晓艳
邱实
裴非
李�昊
武新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201811647945.7A priority Critical patent/CN109784387A/zh
Publication of CN109784387A publication Critical patent/CN109784387A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于神经网络和贝叶斯模型的多层次递进分类方法及系统,包括:神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;待分类样本的预测步骤。本发明充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。

Description

基于神经网络和贝叶斯模型的多层次递进分类方法及系统
技术领域
本发明属于数据挖掘建模领域,特别是涉及到一种基于神经网络和贝叶斯模型的多标签多级分类下的多层次递进式分类方法及系统。
背景技术
自动文本分类技术是指通过计算机的数据处理能力,实现在预定义的分类体系下文本自动进行分类的技术。这种技术根据给定的数据的特征,与一个或多个类别相关联。从而实现文本的多标签分类。
海量数据的多标签文类在日常生活中是很常见的。例如在专利领域中,截至2018年6月,我国已经公布的发明专利数已经超过了800万件,为了快速、方便地检索相关文献,文献分类显得尤为重要。专利不同于其他文本,拥有自身独特的一套国际专利分类体系(IPC分类)IPC分类包括了与发明创造有关的全部知识领域,标志专利所属的具体专业领域,在专利审查过程中,审查员需要经过粗分、细分、实审确认的分类流程,最终赋予具体专利对应的IPC号。2005年IPC联盟大会成员国、世界知识产权组织(WIPO)将第8版IPC分成基本版和高级版两级结构。基本版余额20000条,包括部、大类、小类、大组和在某些技术领域的少量多点组的小组。IPC高级版约70000条,包括基本版以及对基本版进一步细分的条目。目前,IPC分类体系广泛运用在世界各国的专利文献分类和检索中,我国使用的正是国际专利分类体系。
IPC分类号采用层级的形式,将技术内容注明:部-分部-大类-小类-大组/小组,逐级形成完整的类别体系。技术领域分为8个部,用英文字符A~H表示。在各个层次上,每一个类别都有其对应的类别描述信息,这些描述随着层次的深化,描述也在不断地加深。分类体系的层级越高,类别描述的抽象成都越大,尤其是部和大类,层次越低描述的越细致;下一个层次的描述是对上一个层次的细化,小组的描述不能脱离其对应的主组独立看待。同时,由于一个专利可能分属不同的类别,级可能存在对应若干分类号的现象,其中主要用途所确定的分类号为主分类号,以次要用途确定的分类号为副分类号。例如G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。
目前的现有技术中,对于上述多标签多级分类的数据,在数据挖掘领域并没有很好的数据训练方法。
发明内容
为了解决海量数据多标签分类难以训练的问题,本发明提出了一种分层多标签分类方法,充分利用不同模型的优缺点,对海量数据根据层次的需要做了分批训练,由此一系列的模型确定待分类样本的标签,并对多个模型的训练和预测提出了相应的解决方案。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于神经网络和贝叶斯模型的多层次递进分类方法,总体步骤包括:
S1、神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
S2、神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
S3、贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
S4、待分类样本的预测步骤。
进一步的,步骤S3包括:
S3.1、子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
S3.2、建立子类模型的贝叶斯网络分类器。
进一步的,步骤S4包括:
S4.1、对待分类样本按照神经网络模型的数据准备方法进行特征提取;
S4.2、将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
S4.3、按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
S4.4、将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
S4.5、将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
本发明的另一方面,还提供了一种基于神经网络和贝叶斯模型的多层次递进分类系统,包括:
预处理模块,用于神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
神经网络训练模块,用于神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
贝叶斯模型训练模块,用于贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
预测模块,用于待分类样本的预测步骤。
进一步的,贝叶斯模型训练模块包括:
子类模型数据准备单元,用于子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
分类器单元,用于建立子类模型的贝叶斯网络分类器。
进一步的,预测模块包括:
特征提取单元,用于对待分类样本按照神经网络模型的数据准备方法进行特征提取;
神经网络预测单元,用于将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
数据准备单元,用于按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
贝叶斯模型预测单元,用于将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
最终预测单元,将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
与现有技术相比,本发明具有如下的有益效果:
本发明实现的多层次推进式分类方式具有以下优点
1、模型构建上充分考虑神经网络模型模型准确度高和贝叶斯网络模型训练速度快;
2、测速度快的优点;
3、不分层模型训练更容易,训练速度更快;
4、于多个层次的分层多标签最终预测准确度高;
5、资源不足的情况下更容易实现。
附图说明
图1是本发明实施例的结构框图;
图2是本发明实施例的待分类样本的分类流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1、2所示,本发明所述基于神经网络和贝叶斯网络的多标签的多级分类下的多层次分类方法,包括数据的预处理、特征选择、基于神经网络模型的构建、基于贝叶斯网络模型的构建、多标签样本分类步骤。总体步骤如下:
1、神经网络数据预处理,对第一层模型(假设有n个大类,分别为A1、A2、…An)准备好神经网络训练模型的特征向量和预测结果Y。特征向量具有通用性,根据具体需要进行准备,预测结果Y的表示方法为:
类别1 类别2 类别n
样本 C1 C2 Cn
其中Ci为0或者1,1代表属于该类别,2代表不属于该类别;
2、神经网络的训练:在准备好的数据上进行神经网络模型的训练,可以选择卷积神经网络或者RCNN(循环卷积神经网络),构建大类层次的分类器模型。
3、贝叶斯网络模型的训练:在每个大类下建立该类别的贝叶斯网络模型(假设第n个大类有m个子类);
3.1子类模型数据准备:获取每个大类下面的所有样本,(如果一个样本属于不同的大类,按照真实属性提取);
3.2建立子类模型的贝叶斯网络分类器。(共n个贝叶斯模型)
4、待分类样本的预测步骤:
4.1对待分类样本按照神经网络模型的数据准备方法进行特征提取。
4.2讲样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号(例如可以选择预测概率大于0.8的分类作为该类别最终分类),假设该类别最终预测类别为
其中对预测结果进行归一化处理。得到归一化后的的预测概率值:
4.3按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
4.4讲样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理。
4.5将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
本发明解决了海量数据多标签分类模型训练难,训练准确度不高的问题,可以推广到任何文本或者非文本数据的分层分类中,采用的多种分类方法也不局限于本文中提到的人工智能算法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于神经网络和贝叶斯模型的多层次递进分类方法,其特征在于,总体步骤包括:
S1、神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
S2、神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
S3、贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
S4、待分类样本的预测步骤。
2.根据权利要求1所述的一种基于神经网络和贝叶斯模型的多层次递进分类方法,其特征在于,步骤S3包括:
S3.1、子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
S3.2、建立子类模型的贝叶斯网络分类器。
3.根据权利要求1所述的一种基于神经网络和贝叶斯模型的多层次递进分类方法,其特征在于,步骤S4包括:
S4.1、对待分类样本按照神经网络模型的数据准备方法进行特征提取;
S4.2、将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
S4.3、按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
S4.4、将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
S4.5、将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
4.一种基于神经网络和贝叶斯模型的多层次递进分类系统,其特征在于,包括:
预处理模块,用于神经网络数据预处理,对第一层模型准备好神经网络训练模型的特征向量和预测结果;
神经网络训练模块,用于神经网络的训练,在准备好的数据上进行神经网络模型的训练,构建大类层次的分类器模型;
贝叶斯模型训练模块,用于贝叶斯模型的训练,在每个大类下建立该类别的贝叶斯网络模型;
预测模块,用于待分类样本的预测步骤。
5.根据权利要求4所述的一种基于神经网络和贝叶斯模型的多层次递进分类系统,其特征在于,贝叶斯模型训练模块包括:
子类模型数据准备单元,用于子类模型数据准备:获取每个大类下面的所有样本,如果一个样本属于不同的大类,按照真实属性提取;
分类器单元,用于建立子类模型的贝叶斯网络分类器。
6.根据权利要求4所述的一种基于神经网络和贝叶斯模型的多层次递进分类系统,其特征在于,预测模块包括:
特征提取单元,用于对待分类样本按照神经网络模型的数据准备方法进行特征提取;
神经网络预测单元,用于将样本送入神经网络模型进行预测,输出预测概率大于给定值的分类编号;
数据准备单元,用于按照贝叶斯网络模型的数据准备步骤对待分类样本进行数据准备;
贝叶斯模型预测单元,用于将样本分别进入对应的模型进行预测,每个模型给出预测结果。选择概率值大于给定阈值的预测结果,对个模型的输出结果进行归一化处理;
最终预测单元,将第一层的归一化之后的概率值与每个大类下的预测值相乘,得到最终的预测值,将模型的结果进行排序,选择相似度最大的前k个结果。
CN201811647945.7A 2018-12-29 2018-12-29 基于神经网络和贝叶斯模型的多层次递进分类方法及系统 Pending CN109784387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811647945.7A CN109784387A (zh) 2018-12-29 2018-12-29 基于神经网络和贝叶斯模型的多层次递进分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811647945.7A CN109784387A (zh) 2018-12-29 2018-12-29 基于神经网络和贝叶斯模型的多层次递进分类方法及系统

Publications (1)

Publication Number Publication Date
CN109784387A true CN109784387A (zh) 2019-05-21

Family

ID=66499016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811647945.7A Pending CN109784387A (zh) 2018-12-29 2018-12-29 基于神经网络和贝叶斯模型的多层次递进分类方法及系统

Country Status (1)

Country Link
CN (1) CN109784387A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472079A (zh) * 2019-07-08 2019-11-19 浙江省北大信息技术高等研究院 目标图像的检索方法、装置、设备及存储介质
CN110659367A (zh) * 2019-10-12 2020-01-07 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
CN111340093A (zh) * 2020-02-21 2020-06-26 上海眼控科技股份有限公司 云状识别的方法和装置
CN111858941A (zh) * 2020-07-28 2020-10-30 中译语通科技股份有限公司 专利分类方法及装置
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN116029379A (zh) * 2022-12-31 2023-04-28 中国电子科技集团公司信息科学研究院 空中目标意图识别模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426007A (zh) * 2013-08-29 2013-12-04 人民搜索网络股份公司 一种机器学习分类方法及装置
CN105304078A (zh) * 2015-10-28 2016-02-03 中国电子科技集团公司第三研究所 目标声数据训练装置和目标声数据训练方法
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426007A (zh) * 2013-08-29 2013-12-04 人民搜索网络股份公司 一种机器学习分类方法及装置
CN105304078A (zh) * 2015-10-28 2016-02-03 中国电子科技集团公司第三研究所 目标声数据训练装置和目标声数据训练方法
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472079A (zh) * 2019-07-08 2019-11-19 浙江省北大信息技术高等研究院 目标图像的检索方法、装置、设备及存储介质
CN110472079B (zh) * 2019-07-08 2022-04-05 杭州未名信科科技有限公司 目标图像的检索方法、装置、设备及存储介质
CN110659367A (zh) * 2019-10-12 2020-01-07 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
CN110659367B (zh) * 2019-10-12 2022-03-25 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
CN111340093A (zh) * 2020-02-21 2020-06-26 上海眼控科技股份有限公司 云状识别的方法和装置
CN111858941A (zh) * 2020-07-28 2020-10-30 中译语通科技股份有限公司 专利分类方法及装置
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN116029379A (zh) * 2022-12-31 2023-04-28 中国电子科技集团公司信息科学研究院 空中目标意图识别模型构建方法
CN116029379B (zh) * 2022-12-31 2024-01-02 中国电子科技集团公司信息科学研究院 空中目标意图识别模型构建方法

Similar Documents

Publication Publication Date Title
CN109784387A (zh) 基于神经网络和贝叶斯模型的多层次递进分类方法及系统
CN106934038B (zh) 一种医疗数据查重和关联的方法及系统
Lancia T-LAB pathways to thematic analysis
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN104965867A (zh) 基于chi特征选取的文本事件分类方法
CN101976270B (zh) 基于不确定推理的文本层次分类方法与装置
CN110659367B (zh) 文本分类号的确定方法、装置以及电子设备
CN101877064A (zh) 图像分类方法及图像分类装置
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
CN109658114A (zh) 大型语料库的高效智能客服方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN102004796B (zh) 一种网页文本的无阻滞层次分类方法与装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN107679244A (zh) 文本分类方法及装置
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
Britt et al. Document classification techniques for automated technology readiness level analysis
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
Sendhilkumar et al. Generation of word clouds using document topic models
Lee et al. Deep learning document analysis system based on keyword frequency and section centrality analysis
CN108830302A (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
Yi et al. Category Discrimination Based Feature Selection Algorithm in Chinese Text Classification.
CN111782814A (zh) 一种专利技术主题内容和热度演化的分析方法
Jing et al. SMART: a subspace clustering algorithm that automatically identifies the appropriate number of clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521