CN110457467A

CN110457467A - 一种基于高斯混合模型的信息技术文本分类方法

Info

Publication number: CN110457467A
Application number: CN201910587787.9A
Authority: CN
Inventors: 刘家祥
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-11-15

Abstract

一种基于高斯混合模型的信息技术文本分类方法，包括以下具体步骤：预先设置多个不同的类别；根据不同的类别细分多个具体的类目；根据设置的不同的类别和类目构建高斯混合模型的训练集；通过训练集得到高斯混合模型；提取信息技术文本中的分词，并根据分词确定关键词；根据关键词对信息技术文本进行初步分类；将关键词输入高斯混合模型中；分类结果与初步分类结果进行比对；对分类结果进行修正，并输出最终结果；本发明构建高斯混合模型的训练集，同时对于分类错误的文本通过人工修正后作为特例输入高斯混合模型的训练集中，从而进一步提高高斯混合模型的准确度；随着输入高斯混合模型的信息技术文本越来越多，其准确度逐渐提高。

Description

一种基于高斯混合模型的信息技术文本分类方法

技术领域

本发明涉及文本分类方法技术领域，尤其涉及一种基于高斯混合模型的信息技术文本分类方法。

背景技术

高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。对图像背景建立高斯模型的原理及过程：图像灰度直方图反映的是图像中某个灰度值出现的频次，也可以以为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相差比较大，且背景区域和目标区域在灰度上有一定的差异，那么该图像的灰度直方图呈现双峰-谷形状，其中一个峰对应于目标，另一个峰对应于背景的中心灰度。对于复杂的图像，尤其是医学图像，一般是多峰的。通过将直方图的多峰特性看作是多个高斯分布的叠加，可以解决图像的分割问题。在智能监控系统中，对于运动目标的检测是中心内容，而在运动目标检测提取中，背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节；现有技术中，对于信息技术领域，信息技术文本越来越多，同时分类结果偏离度较大；缺少修正方式，使用较为麻烦。

为解决上述问题，本申请中提出一种基于高斯混合模型的信息技术文本分类方法。

发明内容

(一)发明目的

为解决背景技术中存在的现有技术中，对于信息技术领域，信息技术文本越来越多，同时分类结果偏离度较大；缺少修正方式，使用较为麻烦的技术问题，本发明提出一种基于高斯混合模型的信息技术文本分类方法，本发明构建高斯混合模型的训练集，同时对于分类错误的文本通过人工修正后作为特例输入高斯混合模型的训练集中，从而进一步提高高斯混合模型的准确度；随着输入高斯混合模型的信息技术文本越来越多，其准确度逐渐提高，人工依赖度逐渐下降。

(二)技术方案

为解决上述问题，本发明提供了一种基于高斯混合模型的信息技术文本分类方法，包括以下具体步骤：

S1、预先设置多个不同的类别；并用集合A表示；根据不同的类别细分多个具体的类目；

S2、根据设置的不同的类别和类目构建高斯混合模型的训练集；通过训练集得到高斯混合模型；

S3、提取信息技术文本中的分词，并根据分词确定关键词；

S4、根据关键词对信息技术文本进行初步分类，初步分类结果记为集合B；集合B为集合A的子集；

S5、将关键词输入高斯混合模型中，并得到分类结果；

S6、分类结果与初步分类结果进行比对；

S7、对分类结果进行修正，并输出最终结果。

优选的，S2中训练集包括有类标训练样本和无类标训练样本。

优选的，S3中提取信息技术文本中的分词，并根据分词确定关键词，包括对分词结果中的每一个字进行拆分，并依次输入字向量模型；通过向量的余弦值计算分词之间的关联度，关联度由高到低排列选出关键词。

优选的，S5中得到的分类结果用集合C表示。

优选的，S6中分类结果与初步分类结果进行比对，包括比对分类结果是否属于初步分类结果或与初步分类结果一致。

优选的，若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出；

若分类结果不属于初步分类结果，则进行S7。

优选的，S7中对分类结果进行修正为人工方式进行修正，并将该文本和分类结果作为特例输入高斯混合模型的训练集中。

本发明的上述技术方案具有如下有益的技术效果：预先设置多个不同的类别；并用集合A表示；根据不同的类别细分多个具体的类目；根据设置的不同的类别和类目构建高斯混合模型的训练集；其中训练集包括有类标训练样本和无类标训练样本；用以提高高斯混合模型的准确度；之后通过训练集得到高斯混合模型；将需要分类的信息技术文本抽取出，并提取信息技术文本中的分词，对分词结果中的每一个字进行拆分，并依次输入字向量模型；通过向量的余弦值计算分词之间的关联度，关联度由高到低排列选出关键词；根据关键词对信息技术文本进行初步分类，初步分类结果记为集合B；集合B为集合A的子集；将关键词输入高斯混合模型中，并得到分类结果；分类结果与初步分类结果进行比对；比对内容包括比对分类结果是否属于初步分类结果或与初步分类结果一致；若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出；若分类结果不属于初步分类结果，则对分类结果进行修正；分类结果进行修正为人工方式进行修正，并将该文本和分类结果作为特例输入高斯混合模型的训练集中，从而进一步提高高斯混合模型的准确度；随着输入高斯混合模型的信息技术文本越来越多，其准确度逐渐提高，人工依赖度逐渐下降。

附图说明

图1为本发明提出的基于高斯混合模型的信息技术文本分类方法的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于高斯混合模型的信息技术文本分类方法，包括以下具体步骤：

S3、提取信息技术文本中的分词，并根据分词确定关键词；

S5、将关键词输入高斯混合模型中，并得到分类结果；

S6、分类结果与初步分类结果进行比对；

S7、对分类结果进行修正，并输出最终结果。

本发明中，预先设置多个不同的类别；并用集合A表示；根据不同的类别细分多个具体的类目；根据设置的不同的类别和类目构建高斯混合模型的训练集；其中训练集包括有类标训练样本和无类标训练样本；用以提高高斯混合模型的准确度；之后通过训练集得到高斯混合模型；将需要分类的信息技术文本抽取出，并提取信息技术文本中的分词，对分词结果中的每一个字进行拆分，并依次输入字向量模型；通过向量的余弦值计算分词之间的关联度，关联度由高到低排列选出关键词；根据关键词对信息技术文本进行初步分类，初步分类结果记为集合B；集合B为集合A的子集；将关键词输入高斯混合模型中，并得到分类结果；分类结果与初步分类结果进行比对；比对内容包括比对分类结果是否属于初步分类结果或与初步分类结果一致；若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出；若分类结果不属于初步分类结果，则对分类结果进行修正；分类结果进行修正为人工方式进行修正，并将该文本和分类结果作为特例输入高斯混合模型的训练集中，从而进一步提高高斯混合模型的准确度；随着输入高斯混合模型的信息技术文本越来越多，其准确度逐渐提高，人工依赖度逐渐下降。

在一个可选的实施例中，S2中训练集包括有类标训练样本和无类标训练样本。

在一个可选的实施例中，S3中提取信息技术文本中的分词，并根据分词确定关键词，包括对分词结果中的每一个字进行拆分，并依次输入字向量模型；通过向量的余弦值计算分词之间的关联度，关联度由高到低排列选出关键词。

在一个可选的实施例中，S5中得到的分类结果用集合C表示。

在一个可选的实施例中，S6中分类结果与初步分类结果进行比对，包括比对分类结果是否属于初步分类结果或与初步分类结果一致。

在一个可选的实施例中，若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出；

若分类结果不属于初步分类结果，则进行S7。

在一个可选的实施例中，S7中对分类结果进行修正为人工方式进行修正，并将该文本和分类结果作为特例输入高斯混合模型的训练集中。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于高斯混合模型的信息技术文本分类方法，其特征在于，包括以下具体步骤：

S3、提取信息技术文本中的分词，并根据分词确定关键词；

S5、将关键词输入高斯混合模型中，并得到分类结果；

S6、分类结果与初步分类结果进行比对；

S7、对分类结果进行修正，并输出最终结果。

2.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法，其特征在于，S2中训练集包括有类标训练样本和无类标训练样本。

3.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法，其特征在于，S3中提取信息技术文本中的分词，并根据分词确定关键词，包括对分词结果中的每一个字进行拆分，并依次输入字向量模型；通过向量的余弦值计算分词之间的关联度，关联度由高到低排列选出关键词。

4.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法，其特征在于，S5中得到的分类结果用集合C表示。

5.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法，其特征在于，S6中分类结果与初步分类结果进行比对，包括比对分类结果是否属于初步分类结果或与初步分类结果一致。

6.根据权利要求5所述的基于高斯混合模型的信息技术文本分类方法，其特征在于，若分类结果属于初步分类结果或与初步分类结果一致则直接将分类结果输出；

若分类结果不属于初步分类结果，则进行S7。

7.根据权利要求1所述的基于高斯混合模型的信息技术文本分类方法，其特征在于，S7中对分类结果进行修正为人工方式进行修正，并将该文本和分类结果作为特例输入高斯混合模型的训练集中。