CN110457467A - 一种基于高斯混合模型的信息技术文本分类方法 - Google Patents

一种基于高斯混合模型的信息技术文本分类方法 Download PDF

Info

Publication number
CN110457467A
CN110457467A CN201910587787.9A CN201910587787A CN110457467A CN 110457467 A CN110457467 A CN 110457467A CN 201910587787 A CN201910587787 A CN 201910587787A CN 110457467 A CN110457467 A CN 110457467A
Authority
CN
China
Prior art keywords
classification
hybrid models
gauss hybrid
information technology
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910587787.9A
Other languages
English (en)
Inventor
刘家祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910587787.9A priority Critical patent/CN110457467A/zh
Publication of CN110457467A publication Critical patent/CN110457467A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于高斯混合模型的信息技术文本分类方法,包括以下具体步骤:预先设置多个不同的类别;根据不同的类别细分多个具体的类目;根据设置的不同的类别和类目构建高斯混合模型的训练集;通过训练集得到高斯混合模型;提取信息技术文本中的分词,并根据分词确定关键词;根据关键词对信息技术文本进行初步分类;将关键词输入高斯混合模型中;分类结果与初步分类结果进行比对;对分类结果进行修正,并输出最终结果;本发明构建高斯混合模型的训练集,同时对于分类错误的文本通过人工修正后作为特例输入高斯混合模型的训练集中,从而进一步提高高斯混合模型的准确度;随着输入高斯混合模型的信息技术文本越来越多,其准确度逐渐提高。

Description

一种基于高斯混合模型的信息技术文本分类方法
技术领域
本发明涉及文本分类方法技术领域,尤其涉及一种基于高斯混合模型的信息技术文本分类方法。
背景技术
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。对图像背景建立高斯模型的原理及过程:图像灰度直方图反映的是图像中某个灰度值出现的频次,也可以以为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相差比较大,且背景区域和目标区域在灰度上有一定的差异,那么该图像的灰度直方图呈现双峰-谷形状,其中一个峰对应于目标,另一个峰对应于背景的中心灰度。对于复杂的图像,尤其是医学图像,一般是多峰的。通过将直方图的多峰特性看作是多个高斯分布的叠加,可以解决图像的分割问题。在智能监控系统中,对于运动目标的检测是中心内容,而在运动目标检测提取中,背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节;现有技术中,对于信息技术领域,信息技术文本越来越多,同时分类结果偏离度较大;缺少修正方式,使用较为麻烦。
为解决上述问题,本申请中提出一种基于高斯混合模型的信息技术文本分类方法。
发明内容
(一)发明目的
为解决背景技术中存在的现有技术中,对于信息技术领域,信息技术文本越来越多,同时分类结果偏离度较大;缺少修正方式,使用较为麻烦的技术问题,本发明提出一种基于高斯混合模型的信息技术文本分类方法,本发明构建高斯混合模型的训练集,同时对于分类错误的文本通过人工修正后作为特例输入高斯混合模型的训练集中,从而进一步提高高斯混合模型的准确度;随着输入高斯混合模型的信息技术文本越来越多,其准确度逐渐提高,人工依赖度逐渐下降。
(二)技术方案
为解决上述问题,本发明提供了一种基于高斯混合模型的信息技术文本分类方法,包括以下具体步骤:
S1、预先设置多个不同的类别;并用集合A表示;根据不同的类别细分多个具体的类目;
S2、根据设置的不同的类别和类目构建高斯混合模型的训练集;通过训练集得到高斯混合模型;
S3、提取信息技术文本中的分词,并根据分词确定关键词;
S4、根据关键词对信息技术文本进行初步分类,初步分类结果记为集合B;集合B为集合A的子集;
S5、将关键词输入高斯混合模型中,并得到分类结果;
S6、分类结果与初步分类结果进行比对;
S7、对分类结果进行修正,并输出最终结果。
优选的,S2中训练集包括有类标训练样本和无类标训练样本。
优选的,S3中提取信息技术文本中的分词,并根据分词确定关键词,包括对分词结果中的每一个字进行拆分,并依次输入字向量模型;通过向量的余弦值计算分词之间的关联度,关联度由高到低排列选出关键词。
优选的,S5中得到的分类结果用集合C表示。
优选的,S6中分类结果与初步分类结果进行比对,包括比对分类结果是否属于初步分类结果或与初步分类结果一致。
优选的,若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出;
若分类结果不属于初步分类结果,则进行S7。
优选的,S7中对分类结果进行修正为人工方式进行修正,并将该文本和分类结果作为特例输入高斯混合模型的训练集中。
本发明的上述技术方案具有如下有益的技术效果:预先设置多个不同的类别;并用集合A表示;根据不同的类别细分多个具体的类目;根据设置的不同的类别和类目构建高斯混合模型的训练集;其中训练集包括有类标训练样本和无类标训练样本;用以提高高斯混合模型的准确度;之后通过训练集得到高斯混合模型;将需要分类的信息技术文本抽取出,并提取信息技术文本中的分词,对分词结果中的每一个字进行拆分,并依次输入字向量模型;通过向量的余弦值计算分词之间的关联度,关联度由高到低排列选出关键词;根据关键词对信息技术文本进行初步分类,初步分类结果记为集合B;集合B为集合A的子集;将关键词输入高斯混合模型中,并得到分类结果;分类结果与初步分类结果进行比对;比对内容包括比对分类结果是否属于初步分类结果或与初步分类结果一致;若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出;若分类结果不属于初步分类结果,则对分类结果进行修正;分类结果进行修正为人工方式进行修正,并将该文本和分类结果作为特例输入高斯混合模型的训练集中,从而进一步提高高斯混合模型的准确度;随着输入高斯混合模型的信息技术文本越来越多,其准确度逐渐提高,人工依赖度逐渐下降。
附图说明
图1为本发明提出的基于高斯混合模型的信息技术文本分类方法的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于高斯混合模型的信息技术文本分类方法,包括以下具体步骤:
S1、预先设置多个不同的类别;并用集合A表示;根据不同的类别细分多个具体的类目;
S2、根据设置的不同的类别和类目构建高斯混合模型的训练集;通过训练集得到高斯混合模型;
S3、提取信息技术文本中的分词,并根据分词确定关键词;
S4、根据关键词对信息技术文本进行初步分类,初步分类结果记为集合B;集合B为集合A的子集;
S5、将关键词输入高斯混合模型中,并得到分类结果;
S6、分类结果与初步分类结果进行比对;
S7、对分类结果进行修正,并输出最终结果。
本发明中,预先设置多个不同的类别;并用集合A表示;根据不同的类别细分多个具体的类目;根据设置的不同的类别和类目构建高斯混合模型的训练集;其中训练集包括有类标训练样本和无类标训练样本;用以提高高斯混合模型的准确度;之后通过训练集得到高斯混合模型;将需要分类的信息技术文本抽取出,并提取信息技术文本中的分词,对分词结果中的每一个字进行拆分,并依次输入字向量模型;通过向量的余弦值计算分词之间的关联度,关联度由高到低排列选出关键词;根据关键词对信息技术文本进行初步分类,初步分类结果记为集合B;集合B为集合A的子集;将关键词输入高斯混合模型中,并得到分类结果;分类结果与初步分类结果进行比对;比对内容包括比对分类结果是否属于初步分类结果或与初步分类结果一致;若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出;若分类结果不属于初步分类结果,则对分类结果进行修正;分类结果进行修正为人工方式进行修正,并将该文本和分类结果作为特例输入高斯混合模型的训练集中,从而进一步提高高斯混合模型的准确度;随着输入高斯混合模型的信息技术文本越来越多,其准确度逐渐提高,人工依赖度逐渐下降。
在一个可选的实施例中,S2中训练集包括有类标训练样本和无类标训练样本。
在一个可选的实施例中,S3中提取信息技术文本中的分词,并根据分词确定关键词,包括对分词结果中的每一个字进行拆分,并依次输入字向量模型;通过向量的余弦值计算分词之间的关联度,关联度由高到低排列选出关键词。
在一个可选的实施例中,S5中得到的分类结果用集合C表示。
在一个可选的实施例中,S6中分类结果与初步分类结果进行比对,包括比对分类结果是否属于初步分类结果或与初步分类结果一致。
在一个可选的实施例中,若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出;
若分类结果不属于初步分类结果,则进行S7。
在一个可选的实施例中,S7中对分类结果进行修正为人工方式进行修正,并将该文本和分类结果作为特例输入高斯混合模型的训练集中。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于高斯混合模型的信息技术文本分类方法,其特征在于,包括以下具体步骤:
S1、预先设置多个不同的类别;并用集合A表示;根据不同的类别细分多个具体的类目;
S2、根据设置的不同的类别和类目构建高斯混合模型的训练集;通过训练集得到高斯混合模型;
S3、提取信息技术文本中的分词,并根据分词确定关键词;
S4、根据关键词对信息技术文本进行初步分类,初步分类结果记为集合B;集合B为集合A的子集;
S5、将关键词输入高斯混合模型中,并得到分类结果;
S6、分类结果与初步分类结果进行比对;
S7、对分类结果进行修正,并输出最终结果。
2.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法,其特征在于,S2中训练集包括有类标训练样本和无类标训练样本。
3.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法,其特征在于,S3中提取信息技术文本中的分词,并根据分词确定关键词,包括对分词结果中的每一个字进行拆分,并依次输入字向量模型;通过向量的余弦值计算分词之间的关联度,关联度由高到低排列选出关键词。
4.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法,其特征在于,S5中得到的分类结果用集合C表示。
5.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法,其特征在于,S6中分类结果与初步分类结果进行比对,包括比对分类结果是否属于初步分类结果或与初步分类结果一致。
6.根据权利要求5所述的基于高斯混合模型的信息技术文本分类方法,其特征在于,若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出;
若分类结果不属于初步分类结果,则进行S7。
7.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法,其特征在于,S7中对分类结果进行修正为人工方式进行修正,并将该文本和分类结果作为特例输入高斯混合模型的训练集中。
CN201910587787.9A 2019-07-02 2019-07-02 一种基于高斯混合模型的信息技术文本分类方法 Pending CN110457467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910587787.9A CN110457467A (zh) 2019-07-02 2019-07-02 一种基于高斯混合模型的信息技术文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910587787.9A CN110457467A (zh) 2019-07-02 2019-07-02 一种基于高斯混合模型的信息技术文本分类方法

Publications (1)

Publication Number Publication Date
CN110457467A true CN110457467A (zh) 2019-11-15

Family

ID=68481898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910587787.9A Pending CN110457467A (zh) 2019-07-02 2019-07-02 一种基于高斯混合模型的信息技术文本分类方法

Country Status (1)

Country Link
CN (1) CN110457467A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN109492093A (zh) * 2018-09-30 2019-03-19 平安科技(深圳)有限公司 基于高斯混合模型和em算法的文本分类方法及电子装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033949A (zh) * 2010-12-23 2011-04-27 南京财经大学 基于修正的k近邻文本分类方法
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN109492093A (zh) * 2018-09-30 2019-03-19 平安科技(深圳)有限公司 基于高斯混合模型和em算法的文本分类方法及电子装置

Similar Documents

Publication Publication Date Title
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN106650806B (zh) 一种用于行人检测的协同式深度网络模型方法
CN109101938B (zh) 一种基于卷积神经网络的多标签年龄估计方法
CN111680706B (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN103886589B (zh) 面向目标的自动化高精度边缘提取方法
CN105975913B (zh) 一种基于自适应聚类学习的道路网提取的方法
CN108009509A (zh) 车辆目标检测方法
CN106251361A (zh) 一种钢轨表面缺陷图像自适应分割方法
CN105513053B (zh) 一种用于视频分析中背景建模方法
CN106875007A (zh) 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
CN107895379A (zh) 一种视频监控中前景提取的改进算法
CN108009481A (zh) 一种cnn模型的训练方法及装置、人脸识别方法及装置
CN108764312B (zh) 基于ds优化多指标大坝缺陷图像检测方法
CN109523518A (zh) 一种轮胎x光病疵检测方法
CN109214298A (zh) 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN108038857A (zh) 一种基于语义信息与边缘约束的前景目标检测方法
CN109816648A (zh) 基于多模板低秩分解的复杂注塑制品飞边缺陷识别方法
CN103310227A (zh) 基于神经网络的自动窗宽窗位提取方法
CN106980845B (zh) 基于结构化建模的人脸关键点定位方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN104899597B (zh) 一种针对嵌件注塑的模具保护器及其实现方法
CN109656808A (zh) 一种基于混合式主动学习策略的软件缺陷预测方法
CN104050680A (zh) 基于迭代自组织和多智能体遗传聚类算法的图像分割方法
CN115439654A (zh) 动态约束下的弱监督农田地块精细化分割方法及系统
CN103440651A (zh) 一种基于秩最小化的多标签图像标注结果融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115

RJ01 Rejection of invention patent application after publication