CN110413777A

CN110413777A - 一种对长文本生成特征向量实现分类的系统

Info

Publication number: CN110413777A
Application number: CN201910608140.XA
Authority: CN
Inventors: 龙凌云; 张华�
Original assignee: Shanghai Hongyi Software Technology Co Ltd
Current assignee: Shanghai Hongyi Software Technology Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-05

Abstract

本发明涉及一种对长文本生成特征向量实现分类的系统，包括：数据预处理模块、计算词向量模块，高维聚类模块，长文本分类模块。通过数据预处理模块，删除冗余无效数据，减少数据复杂度与处理维度，提高性能及结果精确度。计算词向量模块基于改进的动态维度的Skip‑Gram算法，计算词向量，然后通过高维聚类模块，对词向量进行聚类。长文本分类模块根据聚类结果，实现对长文本的分类。

Description

一种对长文本生成特征向量实现分类的系统

技术领域

本发明涉及互联网技术领域，为一种对长文本生成特征向量实现分类的系统。

背景技术

随着互联网时代的到来，互联网信息数据正以极快的速度增长。随着大数据的发展，也迫切的需要一种快速、大量、稳定获取互联网信息的方法，因此网络信息提取系统有着非常广泛的应用前景。传统的网络信息提取方法大多是基于页面的静态分析，提取页面中的链接标签，从而获取其他页面的链接。这些网络信息提取系统主要针对企业级用户，功能单一，且不够灵活易用。基于分布式网络的网络信息提取系统的稳定性也较差，系统工作依赖于主节点，一旦主节点异常，整个网络提取系统就会瘫痪。而且由于每个从节点都要与主节点进行通信，资源分配的方式是按顺序分配，缺乏统一的资源调度，导致系统性能较差。

发明内容

有鉴于此，本发明提供一种解决或部分解决上述问题的，一种对长文本生成特征向量实现分类的系统。

为达到上述技术方案的效果，本发明的技术方案为：一种对长文本生成特征向量实现分类的系统，包含以下步骤：

数据预处理模块(S1)，包括所述分词处理模块(S1-1)、所述去除文本无关词模块(S1-2)；首先将原始的文本数据基于Trie树进行分词处理，然后去除文本无关词，分别对高词频分词和低词频分词进行不同的处理，去除高词频分词中无意义的虚词、介词、代词等停用词，对低词频分词进行文本关联度计算，当低词频分词与文档关联度的计算值小于设定的阈值，将该词从文本的分词数据表中去除，得到与文本内容相关且有意义的有效分词数据表，从而减少数据复杂度与处理维度，提高性能及结果精确度；

分词处理模块(S1-1)接收用户输入的原始的文本数据，并将所述分词处理模块(S1-1)的处理数据输入到所述去除文本无关词模块(S1-2)；所述分词处理模块(S1-1)基于Trie树结构，以模糊方式进行分词，生成原始的文本中汉字所有可能的成词情况的向量表，然后结合分词字典中的分词词频概率值与基于动态查找的最大概率路径，计算文本中的成词概率，将原始的文本按成词概率进行分词，并记录分词的词频结果，该结果作为所述去除文本无关词模块 (S1-2)的输入；

去除文本无关词模块(S1-2)，将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表，将高词频分词数据表中的数据与高频无效词字典进行分词匹配，匹配时采用交叉匹配的方法，减少了匹配的复杂度，当匹配成功时，即判定该词为文本无关词，将其从文本分词结果中去除；对于低频分词数据表，基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性，当相关性低于阈值时，认为分词与文本内容的相关性较低，将其作为文本无关词从文本分词中去除；

计算词向量模块(S2)，接收经所述数据预处理模块(S1)处理过的数据，计算分词向量，步骤如下：

S2-1、将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表；

S2-2、将高词频分词数据表中的数据与高频无效词字典进行分词匹配，匹配时采用交叉匹配的方法，减少了匹配的复杂度，当匹配成功时，即判定该词为文本无关词，将其从文本分词结果中去除；

S2-3、对于低频分词数据表，基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性，当相关性低于阈值时，认为分词与文本内容的相关性较低，将其作为文本无关词从文本分词中去除；

S2-4、基于改进的动态维度的Skip-Gram算法，根据文本分词数据量的大小动态选择词向量维度，生成一棵当前维度的霍夫曼树和目标优化函数，然后计算分词向量的余弦距离；

S2-5、然后将词向量维度变为原来的一半，再次计算当前维度的霍夫曼树、目标优化函数和该维度下的余弦距离；

S2-6、结合两个余弦距离表，将同一分词的两次结果的平均值作为分词的余弦计算值，从而得到二维空间的分词向量；

高维聚类模块(S3)，接收所述计算词向量模块(S2)生成的分词向量表，对其进行聚类，包括以下步骤：

S3-1、将分词表中的分词随机排序，并进行二等分，依次从分词表一和分词表二中选取前n个分词作为聚类算法的初始化中心点；

S3-2、依次计算两个分词表中每个词向量到中心点的距离，然后以该距离作为该词向量的加权概率因子，从分词表一中再选取一个新的中心点，加入中心点集合，依次重复该步骤；

S3-3、当聚类数量达到预期数量k时，或者最小平方误差小于设定值e时，停止聚类；

S3-4、依次计算两个分词表中，每个词向量到中心点的距离，选择距离聚类中心最近的m个词；

S3-5、将上述步骤中选择的2m个词，作为整体分词表聚类的中心点，计算表中所有词向量到该点的距离，并选择出最小距离，当距离小于聚类阈值时，该词向量属于该聚类中心，当距离大于聚类阈值时，则形成一个新的聚类中心；

S3-6、重复上述步骤，直到聚类数据不再有变化，停止循环，选择距离聚类中心最近的k个词作为关键词；

长文本分类模块(S4)，接收一个长文本，基于所述高维聚类模块(S3) 生成的关键字和类别标签，并对其进行分类，包括以下步骤：

S4-1、基于TFIDF算法，对长文本生成词序列及对应的TFIDF值；

S4-2、基于高维聚类模块中对词的聚类结果，每个词都有一个从1-1000的类别标签，将其TFIDF值按类别标签映射到1000维向量的对应维度(1-1000)，对每个维度每个词语的TFIDF累加，由此生成的1000位向量作为长文本的特征向量表示；

S4-3、对每个分类设定一组样本文本，计算给定文本与给定分类的一组文本的向量夹角余弦平均值，该值作为给定文本和给定分类的相似度值；

S4-4、按相似度值进行分类，对于单分类，将相似度值最大的分类作为返回结果；对于多分类，对每个分类固定一个相似度门槛值，大于门槛值的多个分类作为文本的分类返回结果。

附图说明

图1为一种对长文本生成特征向量实现分类的系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例1：下面将对一一种对长文本生成特征向量实现分类的系统的应用场景举例如下：

一种对长文本生成特征向量实现分类的系统，方法包含以下步骤：

包括：数据预处理模块、计算词向量模块，高维聚类模块，长文本分类模块；

数据预处理模块，包括所述分词处理模块、所述去除文本无关词模块；首先将原始的文本数据基于Trie树进行分词处理，然后去除文本无关词，分别对高词频分词和低词频分词进行不同的处理，去除高词频分词中无意义的虚词、介词、代词等停用词，对低词频分词进行文本关联度计算，当低词频分词与文档关联度的计算值小于设定的阈值，将该词从文本的分词数据表中去除，得到与文本内容相关且有意义的有效分词数据表，从而减少数据复杂度与处理维度，提高性能及结果精确度；

分词处理模块接收用户输入的原始的文本数据，并将所述分词处理模块的处理数据输入到所述去除文本无关词模块；所述分词处理模块基于Trie树结构，以模糊方式进行分词，生成原始的文本中汉字所有可能的成词情况的向量表，然后结合分词字典中的分词词频概率值与基于动态查找的最大概率路径，计算文本中的成词概率，将原始的文本按成词概率进行分词，并记录分词的词频结果，该结果作为所述去除文本无关词模块的输入；

去除文本无关词模块，将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表，将高词频分词数据表中的数据与高频无效词字典进行分词匹配，匹配时采用交叉匹配的方法，减少了匹配的复杂度，当匹配成功时，即判定该词为文本无关词，将其从文本分词结果中去除；对于低频分词数据表，基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性，当相关性低于阈值时，认为分词与文本内容的相关性较低，将其作为文本无关词从文本分词中去除；

计算词向量模块，接收经所述数据预处理模块处理过的数据，计算分词向量，步骤如下：

高维聚类模块，接收所述计算词向量模块生成的分词向量表，对其进行聚类，包括以下步骤：

所述长文本分类模块(S4)，接收一个长文本，基于所述高维聚类模块(S3) 生成的关键字和类别标签，并对其进行分类，包括以下步骤：

S4-1、基于TFIDF算法，对长文本生成词序列及对应的TFIDF值；

本发明的有益成果为：本发明提供了一种对长文本生成特征向量实现分类的系统，通过数据预处理模块，删除冗余无效数据，减少数据复杂度与处理维度，提高性能及结果精确度。计算词向量模块基于改进的动态维度的Skip-Gram 算法，计算词向量，然后通过高维聚类模块，对词向量进行聚类。长文本分类模块根据聚类结果，实现对长文本的分类。

以上所述仅为本发明之较佳实施例，并非用以限定本发明的权利要求保护范围。同时以上说明，对于相关技术领域的技术人员应可以理解及实施，因此其他基于本发明所揭示内容所完成的等同改变，均应包含在本权利要求书的涵盖范围内。

Claims

1.一种对长文本生成特征向量实现分类的系统，其特征在于，包括：数据预处理模块(S1)、计算词向量模块(S2)，高维聚类模块(S3)，长文本分类模块(S4)；

所述数据预处理模块(S1)，包括所述分词处理模块(S1-1)、所述去除文本无关词模块(S1-2)；首先将原始的文本的数据基于Trie树进行分词处理，去除文本无关词，分别对高词频分词和低词频分词进行不同的处理，去除高词频分词中无意义的停用词，即虚词、介词、代词；然后对低词频分词进行文本关联度计算，当低词频分词与文档关联度的计算值小于设定的阈值，将低词频分词从文本的分词数据表中去除，得到与文本内容相关且有意义的有效分词数据表，从而减少数据复杂度与处理维度，提高性能及结果精确度；

所述分词处理模块(S1-1)接收用户输入的原始的文本的数据，并将所述分词处理模块(S1-1)的处理数据输入到所述去除文本无关词模块(S1-2)；所述分词处理模块(S1-1)基于Trie树结构，以模糊方式进行分词，生成原始的文本中汉字所有可能的成词情况的向量表，然后结合分词字典中的分词词频概率值与基于动态查找的最大概率路径，计算文本中的成词概率，将原始的文本按成词概率进行分词，并记录分词的词频结果，词频结果作为所述去除文本无关词模块(S1-2)的输入；

所述去除文本无关词模块(S1-2)，将分词的词频结果按照高词频阈值和低词频阈值划分为高词频分词数据表和低词频分词数据表，将高词频分词数据表中的数据与高频无效词字典进行分词匹配，匹配时采用交叉匹配的方法，减少了匹配的复杂度，当匹配成功时，即判定高词频分词为文本无关词，将其从文本分词结果中去除；对于低频分词数据表，基于相关性子数生成算法计算文本低频分词与文本中频分词的相关性，当相关性低于阈值时，认为分词与文本内容的相关性较低，将其作为文本无关词从文本分词中去除；

所述计算词向量模块(S2)，接收经所述数据预处理模块(S1)处理过的数据，计算分词向量，步骤如下：

S2-2、将高词频分词数据表中的数据与高频无效词字典进行分词匹配，匹配时采用交叉匹配的方法，减少了匹配的复杂度，当匹配成功时，即判定分词为文本无关词，将其从文本分词结果中去除；

所述高维聚类模块(S3)，接收所述计算词向量模块(S2)生成的分词向量表，对其进行聚类，包括以下步骤：

S3-4、依次计算两个分词表中，每个词向量到中心点的距离，选择距离聚类中心最近的m个词，m为整数；

S3-6、重复上述步骤，直到聚类数据不再有变化，停止循环，选择距离聚类中心最近的k个词作为关键词，k为整数；

所述长文本分类模块(S4)，接收一个长文本，基于所述高维聚类模块(S3)生成的关键字和类别标签，并对其进行分类，包括以下步骤：

S4-1、基于TFIDF算法，对长文本生成词序列及对应的TFIDF值；