CN107545038B - 一种文本分类方法与设备 - Google Patents
一种文本分类方法与设备 Download PDFInfo
- Publication number
- CN107545038B CN107545038B CN201710639668.4A CN201710639668A CN107545038B CN 107545038 B CN107545038 B CN 107545038B CN 201710639668 A CN201710639668 A CN 201710639668A CN 107545038 B CN107545038 B CN 107545038B
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- word
- characteristic
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明涉及计算机技术领域,提供一种文本分类方法与设备,所述方法包括:S1,利用基于关键词库扩充的特征选择规则,确定各目标文本的特征词集合;S2,利用基于特征词类内均匀度和特征词类间区分度的权重计算公式,计算所述特征词集合中各特征词的权重;S3,利用最大权重融合算法,对同一目标文本的特征词在不同文本类别中的权重进行权重融合运算,构建目标文本特征向量;S4,基于所述目标文本特征向量,利用多标记分类模型对所述目标文本进行分类。本发明提供的一种文本分类方法与设备,能够有效提高文本信息表达的准确性、提高模型构建的效率,确保准确高效地对文本信息进行多标记分类。
Description
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种文本分类方法与设备。
背景技术
中国是以农为本的农业大国,从事农业行业的人员众多,农业方面的科研成果突出,部分农民的生产经验也非常丰富,但是农业发展速度仍旧有待提高。主要是由于缺乏农业信息的互通学习以及及时将农业科研成果应用于实际生产。究其原因,农业行业的大量信息资源没有进行有效管理,需要相关信息的人员难以快速获取相应信息。而对农业信息进行有效分类是农业信息管理的关键,且对农业文本信息进行多样性分类更加切合实际情况。
现有的多标记文本分类方法多采用以下处理步骤:根据现有待分类文本提取特征词,并通过计算各特征词的权重,利用分类器对文本进行分类。但是农业信息资源具有海量化、载体多样化、渠道多源化、存储异构化等特征,如果将现有的多标记分类方法直接应用到农业文本中,存在文本信息表达不准确,分类效果不佳等问题。
因此,在对农业文本进行分类的过程中,如何提高文本信息表达的准确性、如何提高模型构建的效率,确保高效准确地对农业文本信息进行多标记分类,成为亟待解决的问题。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明提供一种文本分类方法与系统,以达到有效提高文本信息表达的准确性、提高模型构建的效率,确保准确高效地对文本信息进行多标记分类的目的。
一方面,本发明提供一种文本分类方法,包括:S1,利用基于关键词库扩充的特征选择规则,确定各目标文本的特征词集合;S2,利用基于特征词类内均匀度和特征词类间区分度的权重计算公式,计算所述特征词集合中各特征词的权重;S3,利用最大权重融合算法,对同一目标文本的特征词在不同文本类别中的权重进行权重融合运算,构建目标文本特征向量;S4,基于所述目标文本特征向量,利用多标记分类模型对所述目标文本进行分类。
其中,所述目标文本包括:农业目标文本。
其中,所述步骤S1进一步包括:基于所述特征词在所述农业目标文本总体中的文档频率,获取初始特征词集合;利用农业分类关键词库扩充所述初始特征词集合,获取所述特征词集合。
其中,所述步骤S2进一步包括:基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,计算所述特征词类间区分度;基于所述特征词在所述文本类别中的文档频率和所述文本类别的文本总数,计算所述特征词类内均匀度;基于所述特征词类间区分度和所述特征词内均匀度,结合TF-IDF权重算法计算所述特征词权重。
其中,所述基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,计算所述特征词类间区分度的步骤进一步包括:基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,利用如下公式计算所述特征词类间区分度:
式中,表示特征词类间区分度,和分别表示特征词Ki在文本类别j和k上的频率,q表示文本类别总数,表示特征词Ki的信息熵。
其中,所述基于所述特征词在所述文本类别中的文档频率和所述文本类别的样本总数,计算所述特征词类内均匀度的步骤进一步包括:基于所述特征词在所述文本类别中的文档频率和所述文本类别的样本总数,利用如下公式计算所述特征词类内均匀度:
式中,表示特征词类内均匀度,表示特征词Ki在文本类别j上的频率,Aj表示文本类别j的文本总数。
其中,所述基于所述特征词类间区分度和所述特征词内均匀度,利用TF-IDF权重算法计算所述特征词权重的步骤进一步包括:基于所述特征词类间区分度和所述特征词内均匀度,利用如下公式计算所述特征词权重:
式中,表示目标文本Dj中特征词Ki的权重,表示特征词Ki在目标文本Dj上的频率,表示特征词类间区分度,表示特征词类内均匀度,A表示目标文本的总数,表示特征词Ki在目标文本集合(D,K,γ,M)上的频率,m表示特征词的总个数。
其中,所述步骤S3进一步包括:获取所述农业目标文本特征词所属的农业文本类别;利用基于最大权重的特征词权重融合公式,将各所述农业文本类别中同一农业目标文本特征词的权重进行融合;将所述融合后的权重作为所述特征词在对应农业目标文本中的最终权重,构建农业目标文本特征向量。
进一步的,所述方法还包括:从初始类别标记集中随机选择指定个数的标记构建标记子集;基于所述训练文本,循环利用LP算法训练所述标记子集以获取多个二分类器,直至所述二分类器的个数达到设定阈值,以达到设定阈值二分类器总体作为所述多标记分类模型。
另一方面,本发明提供一种文本分类设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述分类设备与文本数据库通信接口之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如如上所述的文本分类方法。
本发明提供的一种文本分类方法与设备,通过构建分类关键词库,在特征选择时扩充初始特征词集合,利用基于特征词类内均匀度和特征词类间区分度的权重计算进行特征词权重计算,并利用RAKEL多标记分类模型实现对目标文本的分类。能够有效解决对分类有效的小频率词语不能入选特征词集合的问题,且能够有效提高文本信息表达的准确性、提高模型构建的效率,确保准确高效地对文本信息进行多标记分类。
附图说明
图1为本发明实施例一种文本分类方法的流程图;
图2为本发明实施例一种特征词集合的获取过程流程图;
图3为本发明实施例一种特征词的权重计算过程流程图;
图4为本发明实施例一种农业目标文本特征向量的构建过程流程图;
图5为本发明实施例一种构建多标记分类模型的处理流程图;
图6为本发明实施例另一种文本分类方法流程图;
图7为本发明实施例一种文本分类设备的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为本发明实施例的一个方面,本实施例提供一种文本分类方法,参考图1,为本发明实施例一种文本分类方法的流程图,包括:S1,利用基于关键词库扩充的特征选择规则,确定各目标文本的特征词集合;S2,利用基于特征词类内均匀度和特征词类间区分度的权重计算公式,计算所述特征词集合中各特征词的权重;S3,利用最大权重融合算法,对同一目标文本的特征词在不同文本类别中的权重进行权重融合运算,构建目标文本特征向量;S4,基于所述目标文本特征向量,利用多标记分类模型对所述目标文本进行分类。
在一个实施例中,所述目标文本包括:农业目标文本。
可以理解为,本实施例的方法包括四个部分:特征选择、权重计算、文本特征向量构建和利用多标记分类模型实现农业目标文本分类。
对于步骤S1,可以理解为,对于待分类的农业目标文本,其中每个农业目标文本中都包含若干个特征词,在对农业目标文本进行分类时,根据对目标文本中的特征词的分析实现相应农业目标文本的分类。因此需要先提取待分类农业目标文本包含的特征词。
具体采用基于关键词库扩充的特征选择规则对农业目标文本进行特征词提取,获取的所有特征词组成特征词集合。其中基于关键词库扩充的特征选择规则是指,在对农业目标文本进行常规特征词提取,获取初始特征词集合的基础上,再将构建的农业分类关键词库加入初始特征词集合,实现对初始特征词集合的扩充。
对于步骤S2,可以理解为,在上述步骤获取农业目标文本的特征词集合的基础上,通过考虑特征词类内均匀度和特征词类间区分度,结合传统的TF-IDF权重计算算法,提供一种基于特征词类内均匀度和特征词类间区分度的权重计算公式,并利用该权重计算公式对特征词进行权重计算。
TF-IDF算法主要反映一个特征词在整个文本集合中的重要程度,并没有体现出在各个类别之间以及各个类别内的差异。若一个特征词在某个文本类别内大量出现,而在其他文本类别中出现较少,则表明此特征词对于类别划分的能力非常强,应当给予较高的权重。即对分类有贡献的特征词,应该集中出现在一个或几个文本类别中,而非均匀的分布在各个文本类别中。
对于步骤S3,可以理解为,对于同一农业目标文本,其中包含若干特征词,每个特征词可能使对应的农业目标文本划分到多个文本类别中。对应各个文本类别,该特征词对应的权重通常不相同,因此利用给定的基于最大权重的特征项权重融合公式,计算任一农业目标文本中的各特征词使该农业目标文本划分到各文本类别中的最大权重,并由各最大权重构建农业目标文本特征向量。
对于步骤S4,可以理解为,在上述步骤获取农业目标文本特征向量的基础上,利用事先构建的多标记分类模型,通过分析农业目标文本特征向量,实现对农业目标文本特征向量对应的农业目标文本的分类。
本发明实施例提供的一种文本分类方法,通过构建分类关键词库,在特征选择时扩充初始特征词集合,利用基于特征词类内均匀度和特征词类间区分度的权重计算进行特征词权重计算,并利用多标记分类模型实现对目标文本的分类。能够有效提高文本信息表达的准确性、提高模型构建的效率,确保准确高效地对文本信息进行多标记分类。
其中可选的,所述步骤S1的进一步处理步骤参考图2,为本发明实施例一种特征词集合的获取过程流程图,包括:S11,基于所述特征词在所述农业目标文本总体中的文档频率,获取初始特征词集合;S12,利用农业分类关键词库扩充所述初始特征词集合,获取所述特征词集合。
可以理解为,文本分类方法通常基于文本中特征词的文档频率,但是有些词语在整个农业目标文本集中出现的频率非常低,如“高粱”一词可能只在个别农业目标文本中出现,却能体现该农业目标文本的文本类别,如果只通过文档频率进行特征选择,则不能将该词加入特征词集合。
因此,首先步骤S11中通过计算出的文档频率进行初始特征词选择,文档频率采用如下公式计算:
式中,表示目标文本Di的文档频率,表示特征词Ki在目标文本集合(D,K,γ,M)上的频率,A表示目标文本的总数。
然后步骤S12中根据构建的农业分类关键词库对初始特征词集合进行扩充。本实施例中农业分类关键词库的构建主要分为两部分:首先根据《国民经济行业分类与代码》进行农业分类关键词库的初步构建,然后借助外部知识库,如维基百科、百度百科等对关键词库进行人工调整。例如,特征词“绿豆”含有农业分类关键词库中的关键词“豆”,则将“绿豆”加入到特征词集合中。
本发明实施例提供的一种文本分类方法,通过构建农业分类关键词库,在特征选择时扩充初始特征词集合,能够有效避免对分类有效的小频率词语不能入选特征词的问题,提高文本分类的准确性。
其中可选的,所述步骤S2的进一步处理步骤参考图3,为本发明实施例一种特征词的权重计算过程流程图,包括:S21,基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,计算所述特征词类间区分度;S22,基于所述特征词在所述文本类别中的文档频率和所述文本类别的文本总数,计算所述特征词类内均匀度;S23,基于所述特征词类间区分度和所述特征词内均匀度,结合TF-IDF权重算法计算所述特征词权重。
本实施例可以理解为,首先在步骤S21中采用基于信息熵的思想,以及特征词在各文本类别中的文档频率,计算特征词在各个文本类别间的区分程度。特征词的信息熵表示该特征词在各个文本类别中的分布情况。特征词的信息熵越大,表明该词的类间区分程度越小;信息熵越小,表明该词的类间区分程度越大。
其中可选的,所述基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,计算所述特征词类间区分度的步骤进一步包括:基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,利用如下公式计算所述特征词类间区分度:
式中,表示特征词类间区分度,和分别表示特征词Ki在文本类别j和k上的频率,q表示文本类别总数,表示特征词Ki的信息熵。
可以理解为,结合特征词在各文本类别中的频率,提出如下基于信息熵的特征词类间区分度计算公式,并利用该计算公式计算特征词类间区分度:
式中,表示特征词类间区分度,和分别表示特征词Ki在文本类别j和k上的频率,q表示文本类别总数,表示特征词Ki的信息熵。
对于上式中信息熵的计算,假设特征词集合为{K1,K2,…,Km},对{K1,K2,…,Km}中的每一个特征词,采用如下公式分别计算其信息熵:
式中,表示特征词Ki的信息熵,表示特征词Ki在目标文本集合(D,K,γ,M)上的频率,表示特征词Ki在文本类别j上的频率,q表示文本类别总数。
其次对于步骤S22,可以理解为,特征词类内均匀度表示特征词在某一文本类别的文本集合中出现的均匀程度。特征词在某文本类别的文本集合中出现的越均匀,表明该特征词对该文本类别划分的重要程度越大。因此步骤S22中基于特征词在各文本类别中的文档频率和各文本类别的文本总数,利用给定特征词类内均匀度计算公式,计算特征词类内均匀度。
其中可选的,所述基于所述特征词在所述文本类别中的文档频率和所述文本类别的样本总数,计算所述特征词类内均匀度的步骤进一步包括:基于所述特征词在所述文本类别中的文档频率和所述文本类别的样本总数,利用如下公式计算所述特征词类内均匀度:
式中,表示特征词类内均匀度,表示特征词Ki在文本类别j上的频率,Aj表示文本类别j的文本总数。
可以理解为,对于每个特征词,以及确定文本类别,提出如下特征词类内均匀度计算公式,并利用该计算公式计算特征词类内均匀度:
式中,表示特征词类内均匀度,表示特征词Ki在文本类别j上的频率,Aj表示文本类别j的文本总数。
再次对于步骤S23,可以理解为,在上述步骤获取特征词类间区分度和特征词内均匀度之后,结合传统的TF-IDF权重算法,获取特征词权重计算公式,并根据该计算公式计算各特征词的权重。
其中可选的,所述基于所述特征词类间区分度和所述特征词内均匀度,利用TF-IDF权重算法计算所述特征词权重的步骤进一步包括:基于所述特征词类间区分度和所述特征词内均匀度,利用如下公式计算所述特征词权重:
式中,表示目标文本Dj中特征词Ki的权重,表示特征词Ki在目标文本Dj上的频率,表示特征词类间区分度,表示特征词类内均匀度,A表示目标文本的总数,表示特征词Ki在目标文本总体(D,K,γ,M)上的频率,m表示特征词的总个数。
可以理解为,在传统TF-IDF权重计算的基础上,通过考虑不同特征词对于文本类别划分重要程度的不同,提出如下特征此权重计算公式,并利用该计算公式计算目标文本中特征词的权重:
式中,表示目标文本Dj中特征词Ki的权重,表示特征词Ki在目标文本Dj上的频率,表示特征词类间区分度,表示特征词类内均匀度,A表示目标文本的总数,表示特征词Ki在目标文本总体(D,K,γ,M)上的频率,m表示特征词的总个数。
本发明实施例提供的一种文本分类方法,通过提出基于特征词类内均匀度和特征词类间区分度的权重计算公式,并利用该计算公式计算目标文本特征词的权重,能够更细致的考虑特征词在对目标文本分类时在各文本类别间的重要程度,从而有效提高农业文本多标记分类的准确率。
其中可选的,所述步骤S3的进一步处理步骤参考图4,为本发明实施例一种农业目标文本特征向量的构建过程流程图,包括:S31,获取所述农业目标文本特征词所属的农业文本类别;S32,利用基于最大权重的特征词权重融合公式,将各所述农业文本类别中同一农业目标文本特征词的权重进行融合;S33,将所述融合后的权重作为所述特征词在对应农业目标文本中的最终权重,构建农业目标文本特征向量。
对于步骤S31,可以理解为,对于任一目标文本,其所包含的特征词可能将该目标文本划分到不止一个文本类别中。因此步骤S31具体为,首先根据上述实施例获取农业目标文本包含的各特征词,然后获取农业目标文本特征词所属的各个农业文本类别。
对于步骤S32,可以理解为,利用给定的权重融合公式对同一农业目标文本的特征词权重进行融合。具体提出基于最大权重的特征项权重融合公式如下:
式中,Yik=1表示目标文本Di划分到文本类别k中,表示对于特征词Kj,目标文本Di在文本类别k中的权重。
对于步骤S33,可以理解为,对于目标文本Di,其中包含K1、K2、…、Km共m个特征词,基于m个特征词对应的如上述步骤所述的m个最大权重,构建目标文本特征向量
本发明实施例提供的一种文本分类方法,通过基于最大权重的特征词权重融合公式对不同文本类别中同一目标文本的特征词进行权重融合后,构建目标文本特征向量,确保文本信息的准确表达,能够有效提高农业文本多标记分类的准确率。
进一步的,在上述实施例的基础上,所述方法还包括构建多标记分类模型,参考图5,为本发明实施例一种构建多标记分类模型的处理流程图,包括:从初始类别标记集中随机选择指定个数的标记构建标记子集;基于所述训练文本,循环利用LP算法训练所述标记子集以获取多个二分类器,直至所述二分类器的个数达到设定阈值,以达到设定阈值二分类器总体作为所述多标记分类模型。
可以理解为,先从初始的文本类别标记集合{L1,L2,…,Lq}中随机选取k个标记构建标记子集Ri,再利用基本的LP方法对集合Ri进行训练,得到多个二分类器hi,然后判断得到的二分类器个数与预设阈值的大小关系,当二分类器总个数达不到预设阈值时,再从标记集合中随记抽取指定个数的标记构成新的标记子集,并对新的标记子集利用基本的LP方法进行训练,获取更多二分类器,直至最终得到的二分类器个数达到预设阈值。
进一步的,在二分类器个数达到设定阈值之后,还包括测试阶段。在测试阶段,遍历文本类别标记集合{L1,L2,…,Lq}中每一个元素,对于任一标记j,统计并标记所有正票为Sumj,所有投票为Votesj;基于标记j的所有正票Sumj和所有投票Votesj,标记标记j的平均投票为Avgj,则Avgj=Sumj/Votesj;通过判断Avgj值与设定阈值的大小关系,确定测试结果。具体为,当Avgj值大于设定阈值时,返回测试结果为1;当Avgj值不大于设定阈值时,返回测试结果为0。将经过测试的二分类器总体作为多标记分类模型。
本发明实施例提供的一种文本分类方法,在进行文本多标记分类时,采用RAKEL多标记分类方法,该方法不仅考虑了标记之间的关联性,而且避免了LP算法中标记过多的问题,提高了农业文本多标记分类的效率与准确率。
在上述实施例的基础上,本实施例提供另一种文本分类方法流程表示,参考图6,为本发明实施例另一种文本分类方法流程图,包括:
分别获取训练文本和目标文本,并分别对训练文本和目标文本进行常规特征词提取,然后基于农业分类关键词库的构建,对常规特征词提取的训练特征词集合和目标文本特征词集合进行扩充,实现最终特征词的选择,以及训练特征词集合和目标文本特征词集合的构建。
对于获取的训练特征词集合,对其中的特征词进行基于特征词类内均匀度和特征词类间区分度的权重计算,并利用最大权重融合算法,对同一训练文本的特征词在不同文本类别中的权重进行权重融合运算,构建训练文本特征向量,训练多标记分类模型。
在对多标记分类模型训练完成之后,基于获取的目标文本特征词集合,对其中的特征词进行基于特征词类内均匀度和特征词类间区分度的权重计算,并利用最大权重融合算法,对同一目标文本的特征词在不同文本类别中的权重进行权重融合运算,构建目标文本特征向量,并基于目标文本特征向量,利用训练好的多标记分类模型,实现对目标文本的分类。
作为本发明实施例的另一个方面,本实施例提供一种文本分类设备,参考图7,为本发明实施例一种文本分类设备的结构框图,包括:至少一个存储器1、至少一个处理器2、通信接口3和总线4。
其中,存储器1、处理器2和通信接口3通过总线4完成相互间的通信,通信接口3用于所述分类设备与文本数据库通信接口之间的信息传输;存储器1中存储有可在处理器2上运行的计算机程序,处理器2执行所述程序时实现如上述实施例所述的文本分类方法。
可以理解为,所述的文本分类设备中至少包含存储器1、处理器2、通信接口3和总线4,且存储器1、处理器2和通信接口3通过总线4形成相互之间的通信连接,并可完成相互间的通信。
通信接口3实现文本分类设备与文本数据库通信接口之间的通信连接,并可完成相互间信息传输,如通过通信接口3实现对文本数据库中目标文本数据的获取等。
分类设备运行时,处理器2调用存储器1中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:基于所述特征词在所述农业目标文本总体中的文档频率,获取初始特征词集合;利用农业分类关键词库扩充所述初始特征词集合,获取所述特征词集合。以及利用基于特征词类内均匀度和特征词类间区分度的权重计算公式,计算所述特征词集合中各特征词的权重等。
本发明另一个实施例中,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述实施例所述的文本分类方法。
可以理解为,实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的文本分类设备的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
本发明实施例提供的一种文本分类设备和一种非暂态计算机可读存储介质,通过构建农业分类关键词库,在特征选择时扩充初始特征词集合,利用基于特征词类内均匀度和特征词类间区分度的权重计算进行特征词权重计算,并利用RAKEL多标记分类模型实现对目标文本的分类。能够有效解决对分类有效的小频率词语不能入选特征词集合的问题,且能够有效提高文本信息表达的准确性、提高模型构建的效率,确保准确高效地对文本信息进行多标记分类。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种文本分类方法,其特征在于,包括:
S1,利用基于关键词库扩充的特征选择规则,确定各目标文本的特征词集合;
S2,利用基于特征词类内均匀度和特征词类间区分度的权重计算公式,计算所述特征词集合中各特征词的权重;
S3,利用最大权重融合算法,将各文本类别中同一目标文本的特征词的权重进行融合运算,构建目标文本特征向量;
S4,基于所述目标文本特征向量,利用多标记分类模型对所述目标文本进行分类;
其中,所述目标文本包括:农业目标文本;
所述步骤S2进一步包括:
基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,计算所述特征词类间区分度;
基于所述特征词在所述文本类别中的文档频率和所述文本类别的文本总数,计算所述特征词类内均匀度;
基于所述特征词类间区分度和所述特征词内均匀度,结合TF-IDF权重算法计算所述特征词权重;
所述基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,计算所述特征词类间区分度的步骤进一步包括:
基于所述特征词的信息熵和所述特征词在所述文本类别中的文档频率,利用如下公式计算所述特征词类间区分度:
式中,表示特征词类间区分度,和分别表示特征词Ki在文本类别j和k上的频率,q表示文本类别总数,表示特征词Ki的信息熵。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
基于所述特征词在所述农业目标文本总体中的文档频率,获取初始特征词集合;
利用农业分类关键词库扩充所述初始特征词集合,获取所述特征词集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述特征词在所述文本类别中的文档频率和所述文本类别的样本总数,计算所述特征词类内均匀度的步骤进一步包括:
基于所述特征词在所述文本类别中的文档频率和所述文本类别的样本总数,利用如下公式计算所述特征词类内均匀度:
式中,表示特征词类内均匀度,表示特征词Ki在文本类别j上的频率,Aj表示文本类别j的文本总数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述特征词类间区分度和所述特征词内均匀度,利用TF-IDF权重算法计算所述特征词权重的步骤进一步包括:
基于所述特征词类间区分度和所述特征词内均匀度,利用如下公式计算所述特征词权重:
式中,表示目标文本Dj中特征词Ki的权重,表示特征词Ki在目标文本Dj上的频率,表示特征词类间区分度,表示特征词类内均匀度,A表示目标文本的总数,表示特征词Ki在目标文本集合(D,K,γ,M)上的频率,m表示特征词的总个数。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括:
获取所述农业目标文本特征词所属的农业文本类别;
利用基于最大权重的特征词权重融合公式,将各所述农业文本类别中同一农业目标文本特征词的权重进行融合;
将所述融合后的权重作为所述特征词在对应农业目标文本中的最终权重,构建农业目标文本特征向量。
6.根据权利要求1所述的方法,其特征在于,还包括:
从初始类别标记集中随机选择指定个数的标记构建标记子集;
基于训练文本,循环利用LP算法训练所述标记子集,获取多个二分类器,直至所述二分类器的个数达到设定阈值,以达到设定阈值二分类器总体作为所述多标记分类模型。
7.一种文本分类设备,其特征在于,包括:至少一个存储器、至少一个处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述分类设备与文本数据库通信接口之间的信息传输;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710639668.4A CN107545038B (zh) | 2017-07-31 | 2017-07-31 | 一种文本分类方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710639668.4A CN107545038B (zh) | 2017-07-31 | 2017-07-31 | 一种文本分类方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107545038A CN107545038A (zh) | 2018-01-05 |
CN107545038B true CN107545038B (zh) | 2019-12-10 |
Family
ID=60971135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710639668.4A Active CN107545038B (zh) | 2017-07-31 | 2017-07-31 | 一种文本分类方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107545038B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346474B (zh) * | 2018-03-14 | 2021-09-28 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN110222175B (zh) * | 2019-05-20 | 2020-08-25 | 北京语言大学 | 一种基于词条作家热度构建分类分级词表的方法及系统 |
CN110413774A (zh) * | 2019-06-21 | 2019-11-05 | 厦门美域中央信息科技有限公司 | 一种基于遗传算法的信息分类方法 |
CN110457475B (zh) * | 2019-07-25 | 2023-06-30 | 创新先进技术有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN114281983B (zh) * | 2021-04-05 | 2024-04-12 | 北京智慧星光信息技术有限公司 | 分层结构的文本分类方法、系统、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN104035968A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 基于社交网络的训练语料集的构建方法和装置 |
AU2013260720A1 (en) * | 2013-11-22 | 2015-06-11 | Canon Kabushiki Kaisha | Method, apparatus and system for generating a codebook |
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
-
2017
- 2017-07-31 CN CN201710639668.4A patent/CN107545038B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
AU2013260720A1 (en) * | 2013-11-22 | 2015-06-11 | Canon Kabushiki Kaisha | Method, apparatus and system for generating a codebook |
CN104035968A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 基于社交网络的训练语料集的构建方法和装置 |
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究;姚海英;《cnki优秀硕士学位论文全文库》;20160524;正文第24-25页 * |
基于TFIDF文本特征加权方法的改进研究;张保富等;《计算机应用与软件》;20110228;第28卷(第2期);第17-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107545038A (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN107169049B (zh) | 应用的标签信息生成方法及装置 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
WO2018086470A1 (zh) | 关键词提取方法、装置和服务器 | |
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
WO2018014610A1 (zh) | 基于c4.5决策树算法的特定用户挖掘系统及其方法 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN105608179A (zh) | 确定用户标识的关联性的方法和装置 | |
CN109598307B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN110457677B (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
CN107368526A (zh) | 一种数据处理方法及装置 | |
CN114663002A (zh) | 一种自动化匹配绩效考核指标的方法及设备 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和系统 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
CN103268346A (zh) | 半监督分类方法及系统 | |
CN106484913A (zh) | 一种目标图片确定的方法以及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |