CN107766323B

CN107766323B - 一种基于互信息和关联规则的文本特征提取方法

Info

Publication number: CN107766323B
Application number: CN201710796425.1A
Authority: CN
Inventors: 朱全银; 严云洋; 胡荣林; 李翔; 瞿学新; 唐海波; 赵阳; 高阳; 钱凯
Original assignee: Huaiyin Institute of Technology
Current assignee: Shanghai Zhutong Information Technology Co.,Ltd.
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2021-08-31
Anticipated expiration: 2037-09-06
Also published as: CN107766323A

Abstract

本发明公开了一种基于互信息和关联规则的文本特征提取方法，步骤为：首先以文本分词、过滤停用词以及2‑Gram方法对文本训练集预处理，其次，通过改进的互信息方法对预处理后的文本训练集计算特征值，按特征值降序排列选取前m个词，从而得到初始的文本特征集，采用FP‑Growth计算预处理后的文本训练集中词的关联规则，并以关联规则去除初始文本特征集中冗余的特征，最后，结合关联规则和One‑hot方法对每个文本向量化表示。本发明避免了文本特征间的冗余及互信息方法缺点对提取文本特征的影响。

Description

一种基于互信息和关联规则的文本特征提取方法

技术领域

本发明属于自然语言处理的技术领域，特别涉及一种基于互信息和关联规则的文本特征提取方法。

背景技术

随着网络信息的迅猛发展，信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来，Internet以惊人的速度发展起来，它容纳了海量的各种类型的原始信息，包括文本信息、声音信息和图像信息等。如何在纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类，从而更好地帮助人们把握文本信息。文本自动分类系统是信息处理的重要研究方向，它是指在给定的分类体系下，根据文本的内容自动判别文本类别的过程。目前，各国学者利用统计分析，机器学习，数据挖掘等领域的方法对其进行处理，通过对文本信息进行基于内容的分类，自动生成便于用户使用的文本分类系统，从而可以大大降低组织整理文档耗费的人力资源，帮助用户快速找到所需信息。因此，如何能够有效地避免将噪声特征纳入机器学习流程，提高了文本分类的精度领域最重要的研究方向之一。

目前，常用的文本特征提取方法TF-IDF、信息增益、互信息、期望交叉熵和文本证据权等方法。然而目前常用的文本特征提取方法没有考虑词汇语义上重要性。为了解决这一问题，本发明提供了一种基于互信息和关联规则的文本特征提取方法。

严云洋和朱全银等人已有的研究基础包括：严云洋，吴茜茵，杜静，周静波，刘以安.基于色彩和闪频特征的视频火焰检测.计算机科学与探索，2014，08(10):1271-1279；SGao，J Yang，Y Yan.A novel multiphase active contour model for inhomogeneousimage segmentation.Multimedia Tools and Applications，2014，72(3):2321-2337；SGao，J Yang，Y Yan.A local modified chan–vese model for segmentinginhomogeneous multiphase images.International Journal of Imaging Systems andTechnology，2012，22(2):103-113；刘金岭，严云洋.基于上下文的短信文本分类方法.计算机工程，2011，37(10):41-43；严云洋，高尚兵，郭志波，盛明超.基于视频图像的火灾自动检测.计算机应用研究，2008，25(4):1075-1078YYan，Z Guo，J Yang.Fast Feature ValueSearching for Face Detection.Computer and Information Science，2008，1(2):120-128；朱全银，潘禄，刘文儒，等.Web科技新闻分类抽取算法[J].淮阴工学院学报，2015，24(5):18-24；李翔，朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索，2014，8(6):751-759；Quanyin Zhu，Sunqun Cao.A Novel Classifier-independentFeature Selection Algorithm for Imbalanced Datasets.2009，p:77-82；Quanyin Zhu，Yunyang Yan，Jin Ding，Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011，p:282-285；Quanyin Zhu，Suqun Cao，Pei Zhou，Yunyang Yan，Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling andDisturbance Factor Algorithm.International Review on Computers and Software，2011，Vol.6(6):1089-1093；朱全银等人申请、公开与授权的相关专利：朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格分类方法.中国专利:ZL201110423015.5，2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格分类方法.中国专利:ZL 201110422274.6，2013.01.02；朱全银，尹永华，严云洋，曹苏群等，一种基于神经网络的多品种商品价格分类的数据预处理方法.中国专利:ZL201210325368.6；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A，2016.06.08；曹苏群，朱全银，左晓明，高尚兵等人，一种用于模式分类的特征选择方法.中国专利公开号：CN 103425994 A，2013.12.04；朱全银，严云洋，李翔，张永军等人，一种用于文本分类和图像深度挖掘的科技情报获取与推送方法.中国专利公开号:CN 104035997 A，2014.09.10；朱全银，辛诚，李翔，许康等人，一种基于K means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480 A，2016.12.07。

TF-IDF：

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

互信息：

互信息(MutualInformation，MI)是信息论中的重要概念，在文本分类领域，它用于度量特征t与类别c之间的统计相关度。使用互信息进行特征提取的核心思想是：在某个类别出现频率高，而在其他类别出现频率低的词条对于类别的贡献较大。互信息计算公式可以表示为：

式中，互信息MI(t_i,c_j)表示特征t_i与c_j的相关度，P(t_i,c_i)表示包含特征t_i且属于类别c_j的文档数量，P(t_i)表示训练文本集中特征t_i出现的概率，P(c_j)表示整个训练文本集中类别c_j出现概率。

FP-Growth：

关联规则是由Agrawal等人提出，它反映了大量数据中项目集之间的关联或相关联系。发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。近年来，在频繁项目集中的算法研究先后出现了Apriori、AIS及PARTITION等挖掘算法，在众多算法中，FP-Growth算法最为著名。FP-Growth算法是韩家炜等人在2000年提出的关联分析算法，它采取如下分治策略：将提供频繁项集压缩到一棵频繁模式树，但仍保留关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。图1为FP-Tree树的结构。

现有传统的文本特征提取方法有TF-IDF、互信息、信息增益和卡方检验等。互信息(MI)是一种常用的文本特征选择方法，经典MI方法未考虑同一个特征项在不同类别内频数的差异性，也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性等。因此需要找到一种方法能够有效的解决同义词在文本特征上的方法。

在现有互信息提取文本特征中，往往都只解决了上述几个问题中的部分问题。

如中国专利文献号CN 201511018702.3，公开日2016-06-22，公开了一种基于互信息的文本分类的特征提取方法，该方法通过结合TF-IDF和互信息提取特征。尽管该文献中的方法，能够提取文本的特征，并相比为改进的互信息方法有所提高，但该方法为考虑提取特征的冗余性、词在不同分类别的分布以及不均衡文本数据的情况，不能有效的提取文本特征和减小特征间冗余度。

中国专利文献号CN201310138475.2，授权日2016-08-10，公开了一种基于分布式互信息文档特征提取方法，该方法通过结合TF-IDF和互信息提取特征，并通过Mapreduce减少提取文本特征的时间消耗。尽管该文献中的方法减少了在特征提取上的时间花费，并结合TF-IDF对互信息提取特征包含低频词的不足进行了改进，但该方法在词不同类别的分布和特征间的冗余度未考虑，从而不能有效的保留文本的信息量。

中国专利文献号CN201310129008.3，公开日2014-03-26，公开了一种基于改进互信息和熵的文本分类特征提取方法，该方法通过结合互信息和信息熵对特征评估从而选取特征。尽管该文献中的方法，考虑了传统互信息提取特征时包含很多的低频词，并结合了信息熵解决该不足，但该方法未考虑特征间的冗余度，这使得提取的特征，部分词与词之间具有一定的关联性，从而提取的特征未能有效的保留文本的信息。

综上所述，研究发明一种能改进传统互信息的不足以及减小提取特征间的冗余，进而有效的改善文本分类模型的有效性是十分必要的。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种避免了传统互信息模型未考虑词频和文本在不同类别之间分布的差异性以及减少词与词之间的冗余，将互信息、词频和FP-Growth结合的方法有效的基于互信息和关联规则的文本特征提取方法。

技术方案：为解决上述技术问题，本发明提供一种基于互信息和关联规则的文本特征提取方法，其特征在于，包括如下步骤：

步骤一：定义文本数据集和停用词集，并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理，得到预处理后的文本训练集；

步骤二：通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值，并将特征值降序排列，筛选出前m个词，得到初始的文本特征集；

步骤三：通过FP-Growth方法，计算步骤一中得出的预处理后的文本训练集中每个词的关联规则，并以关联规则去除步骤二中得出的初始的文本特征集中冗余的特征，使用One-hot方法和关联规则对文本向量化表示，得到每个文本的向量化集。

进一步的，所述步骤一中得到文本训练集的具体步骤如下：

步骤1.1：定义文本数据集Txt＝{p₁,p₂,p₃,……,p_num}和对应Txt中每个文本类别的标签集Y＝{y₁,y₂,y₃,……,y_num}，其中，第pi个文本p_pi对应的类别为Y_pi，num为文本数量，pi∈[1,num]；

步骤1.2：定义文本停用词集SWORD＝{swd₁,swd₂,swd₃,……,swd_sw}；

步骤1.3：对Txt集中的每个文本分词并过滤停用词集SWORD，得到FTxt＝{ft₁,ft₂,ft₃,……,ft_num}，其中，ft_fi＝{fw₁,fw₂,fw₃,……,f_ws}为第fi篇文本p_fi分词过滤后的词集，fi∈[1,s]；

步骤1.4：采用2-Gram方法对FTxt集中每个文本处理，得到文本训练集Gtrain＝{gt₁,gt₂,gt₃,……,gt_num}，其中，gt_gi＝{gw₁,gw₂,gw₃,……,gw_ns}为ft_gi通过2-Gram方法处理后的Gram集，ns>s，

进一步的，所述步骤二中得到初始文本特征集的具体步骤如下：

步骤2.1：将步骤1.4得到的预处理后文本训练集Gtrain中每个文本去除重复词，得到词集Term，词集的数量为n，并从步骤1.1中定义的类别标签集Y中，得到文本的类别集C；

步骤2.2：通过公式

计算数据集Term中每个词的特征值，并计算特征词Term_i在类别集C每个类别下的特征值的方差

其中，cn为第j个类别C_j的文档数，num为总的文档数，a为含词Term_i且是类别C_j的文档数量，b为含Term_i且不是C_j的文档数量，

为Term_i在每个类别出现的次数，

为

的方差；

步骤2.3：根据特征值集W对特征词集Term降序排列，选取前m个的特征，得到初始文本特征集SelT。

进一步的，所述步骤2.3中特征数量m的阈值为0.3n。

进一步的，所述步骤三中得到每个文本的向量化集的具体步骤如下：

步骤3.1：采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2，且置信度为β的关联规则，得到规则L1和L2以及置信度集Cv，其中，L1第ki个词的规则L1_ki→L2_ki且置信度为Cv_ki，β默认为0.7；

步骤3.2：将步骤2.3中得到的初始文本特征集SelT过滤L1中的每个词，得到特征集SelR，即，SelR＝SelT-L1；

步骤3.3：使用One-hot和关联规则对GTrain中每个文本向量化表示，得到Gtrain集中每个文本的向量化集OT。

进一步的，所述步骤3.1中置信度的阈值为0.7。

步骤2.1：把步骤1.4中得到的预处理后文本训练集GTrain中每个文本去除重复词，得到词集Term＝{t₁,t₂,t₃,……,t_n}；从类别标签集Y中，得到文本的类别集C＝{c₁,c₂,c₃,……,c_k}，其中，n为Term词集中词的数量，k为类别的个数，k<＝num，num为文本数量；

步骤2.2：设ri为循环变量，用于遍历Term，并赋值为1；设W为存储Term中每个词的特征值集，并赋值为空集；

步骤2.3：比较ri与n的大小，当ri<＝n时，进入步骤2.4，否则进入步骤2.11；

步骤2.4：设rj为循环变量，用于遍历C，并赋值为1；设df为Term_ri在C中每个类别的特征值集，赋值为空集；

步骤2.5：比较rj与k的大小，当rj<＝k时，进入步骤2.6，否则进入步骤2.9；

步骤2.6：通过公式

计算Term_ri在类别C_rj下的特征值，其中，cn为第rj个类别C_rj的文档数，a为含词Term_ri且是类别C_rj的文档数量，b为含Term_ri且不是C_rj的文档数量，

为Term_ri在每个类别出现的次数，

为

的方差；

步骤2.7：df＝df∪T(Term_ri,C_rj)；

步骤2.8：对循环变量rj的数值加一并重新进入步骤2.5进行判断；

步骤2.9：W＝W∪cov(df)，其中，cov(df)为计算df的方差；

步骤2.10：对循环变量ri的数值加一并重新进入步骤2.3进行判断；

步骤2.11：得到特征值集W＝{w₁,w₂,w₃,……,w_n}；

步骤2.12：通过W的特征值对Term降序排列，并且选取前m的特征，得到初始文本特征集SelT＝{t₁,t₂,t₃,……,t_m}，其中，

默认m＝0.3n。

步骤3.1：采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2，且置信度为β的关联规则，得到规则L1＝{r₁,r₂,……,r_f}、L2＝{r2₁,r2₂,……,r2_f}和置信度集Cv＝{cv₁,cv₂,……,cv_f}，其中，L1的第ki个词的规则为L1_ki→L2_ki且置信度为Cv_ki，ki∈[1,f]，

β默认为07；

步骤3.2：将步骤2.12得到初始文本特征集SelT过滤L2的每个词，即，SelR＝SelT-L1，得到去除冗余特征后的特征集SelR＝{srt₁,srt₂,srt₃,……,srt_wnum}，

步骤3.3：设g为循环变量，用于遍历Gtrain，并赋值为1；设OT为存储GTrain中每个文本的向量化集，并赋值为空集；

步骤3.4：比较g与num的大小，当g<＝num时，进入步骤3.5，否则进入步骤3.17；

步骤3.5：设ot为存储gt_g的向量化表示，赋值ot＝[0,0,0,……,0]，其中，ot长度为wnum；

步骤3.6：设h为循环变量，并赋值为1，用于遍历特征集SelR；

步骤3.7：比较h与wnum的大小，当h<＝wnum时，进入步骤3.8，否则退出循环进入步骤3.15；

步骤3.8：SelR中第h个词为ws，如果ws∈gt_g，进入步骤3.9，否则进入步骤3.10；

步骤3.9：把ot在h位置的分量赋值为1，进入步骤3.14；

步骤3.10：对ws进行判断，如果ws∈L1，进入步骤3.11，否则进入步骤3.14；

步骤3.11：ws在L1的位置为loc，ws与L1_loc相同，L2_loc是指在L2的位置为loc，判断L2_loc是否存在于SelR，如果存在进入步骤3.12，否则进入步骤3.14；

步骤3.12：L2_loc在SelR中的位置为sloc；

步骤3.13：以Cv_loc的概率将向量ot在sloc位置的分量赋值为1，执行步骤3.14；

步骤3.14：对循环变量h的数值加一并重新进入步骤3.7进行判断；

步骤3.15：对循环变量g的数值加一并进入步骤3.16；

步骤3.16：OT＝OT∪ot，并且返回步骤3.4；

步骤3.17：得到Gtrain集中每个文本的向量化集OT＝{ot₁,ot₂,ot₃,……,ot_num}。

与现有技术相比，本发明的优点在于：

本发明方法通过词频、互信息和FP-Growth，有效的提取文本的特征词，避免了未考虑词频和文本在不同类别之间分布的差异性等对提取特征词的影响。具体的：首先，以文本分词、过滤停用词以及2-Gram方法对文本预处理，其次，通过改进的互信息方法得到初始的特征值，按特征值降序选取得到m个词，从而得到初始的文本特征，采用FP-Growth计算词与词之间的关联规则，并用关联规则去除文本特征中冗余的特征，最后，结合关联规则和One-hot方法对文本向量化表示。此外，本发明创造性地提出了一种基于互信息和关联规则的文本特征提取方法，用于提取文本的特征，进而有效的改善文本分类模型的有效性。

附图说明

图1为背景技术中FP-Tree树的结构示意图；

图2为本发明的总体流程图；

图3为图1中文本预处理后得到文本训练集的流程图；

图4为图1中得到初始文本特征集的流程图；

图5为图1中对初始特征集去除冗余特征和文本向量化表示的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明技术方案是对文本提取文本特征，首先对待处理的文本集预处理，以文本分词、过滤停用词及2-Gram方法得到预处理后文本集。然后通过改进互信息提取文本特征，得到词特征值，并将词特征值降序，筛选出前m个词，得到初始的文本特征词集。最后通过FP-growth算法计算每个词的关联规则，去除特征词之间的冗余性，并结合One-hot和关联规则对文本进行向量化表示。

如图1-4所示，本发明包括如下步骤：

步骤1：定义文本数据集和停用词集，并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理，得到预处理后的文本训练集，具体的如图2所示：

步骤1.1：定义文本数据集Txt＝{p₁,p₂,p₃,……,p_num}和类别标签Y＝{y₁,y₂,y₃,……,y_num}，其中，第pi个文本p_pi对应的类别为Y_pi，num为文本数量，pi∈[1,num]；

步骤1.4：采用2-Gram方法对FTxt集中每个文本处理，得到Gtrain＝{gt₁,gt₂,gt₃,……,gt_num}，其中，gt_gi＝{gw₁,gw₂,gw₃,……,gw_ns}为ft_gi通过2-Gram处理后的Gram集，ns>s，

步骤2：通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值，并将特征值降序排列，筛选出前m个词，得到初始的文本特征集，具体的如图3所示：

步骤2.1：把步骤1.3得到的GTrain中每个文本去除重复词，得到词集Term＝{t₁,t₂,t₃,……,t_n}；从类别标签集Y中，得到文本的类别集C＝{c₁,c₂,c₃,……,c_k}，其中，n为Term词集中词的数量，k为类别的个数，k<＝num，num为文本数量；

步骤2.3：当ri<＝n时，则执行步骤2.4，否则执行步骤2.11；

步骤2.5：当rj<＝k时，则执行步骤2.6，否则执行步骤2.9；

步骤2.6：通过公式

为Term_ri在每个类别出现的次数，

为

的方差；

步骤2.7：df＝df∪T(Term_ri,C_rj)；

步骤2.8：循环变量rj＝rj+1，并且返回到步骤2.5；

步骤2.9：W＝W∪cov(df)，其中，cov(df)为计算df的方差；

步骤2.10：循环变量ri＝ri+1，并且返回到步骤2.3；

步骤2.11：得到特征值集W＝{w₁,w₂,w₃,……,w_n}；

步骤2.12：通过W的特征值对Term降序排列，并且选取前m的特征，得到初始特征SelT＝{t₁,t₂,t₃,……,t_m}，其中，

默认m＝0.3n。

步骤3：通过FP-Growth方法，计算预处理后的文本训练集中每个词的关联规则，并以关联规则去除初始特征集中冗余的特征，使用One-hot方法和关联规则对文本向量化表示，得到每个文本的向量化集，具体的如图4所示：

β默认为0.7；

步骤3.2：将步骤2.12得到特征集SelT过滤L2的每个词，即，SelR＝SelT-L1，得到去除冗余特征后的特征集SelR＝{srt₁,srt₂,srt₃,……,srt_wnum}，

步骤3.4：当g<＝num时，则执行步骤3.5，否则执行步骤3.19；

步骤3.5：设ot为存储gt_g的向量化表示,赋值ot＝[0,0,0,……,0]，其中，ot长度为wnum；

步骤3.6：设h为循环变量，并赋值为1，用于遍历特征集SelR；

步骤3.7：如果循环变量h<＝wnum，执行步骤3.8，否则退出循环，执行步骤3.17；

步骤3.8：SelR中第h个词为ws；

步骤3.9：如果ws∈gt_g，执行步骤3.10，否则执行步骤3.11；

步骤3.10：把ot在h位置的分量赋值为1，执行步骤3.16；

步骤3.11：如果ws∈L1，执行步骤3.12，否则执行步骤3.16；

步骤3.12：ws在L1中的位置为loc；

步骤3.13：如果L2_loc∈SelR，执行步骤3.14，否则执行步骤3.16；

步骤3.14：L2_loc在SelR中的位置为sloc；

步骤3.15：以Cv_loc的概率将向量ot在sloc位置的分量赋值为1，执行步骤3.16；

步骤3.16：循环变量h＝h+1，返回步骤3.7；

步骤3.17：循环变量g＝g+1，执行步骤3.18；

步骤3.18：OT＝OT∪ot，并且返回步骤3.4；

步骤3.19：得到Gtrain集中每个文本的向量化集OT＝{ot₁,ot₂,ot₃,……,ot_num}。

其中，以文本分词、过滤停用词以及2-Gram方法对文本预处理，通过改进的互信息方法得到初始的特征值，按特征值降序选取得到m个词，从而得到初始的文本特征，采用FP-Growth计算词与词之间的关联规则，并用关联规则去除文本特征中冗余的特征，最后，结合关联规则和One-hot方法对文本向量化表示。

其中，步骤1.1到步骤1.4是以文本分词、过滤停用词以及2-Gram方法对文本预处理得到文本数据；步骤2.1到步骤2.12是通过改进的互信息提取文本的特征值，并将词特征值降序，筛选出前m个词，得到初始的文本特征值集；步骤3.1到步骤3.19是用FP-growth算法计算每个词的关联规则，通过关联规则去除特征值集中关联的词，结合One-hot和关联规则对文本进行向量化表示。

为了更好地说明本方法的有效性，通过搜狗语料库中的新闻数据集和网易新闻数据集作为原始数据集，分别通过TF-IDF、互信息、卡方检验以及本专利提出方法进行比较，以Logistic回归作为分类模型，从而比较四种方法的准确率、召回率及F1值。

选用搜狗公开的新闻数据集，选用该数据5000篇新闻，类别数为10。以80％作为训练样本，20％作为测试样本，以传统互信息提取文本特征并分类得到准确率77.2％、召回率77.4％和F1值78.12％，以卡方检验提取文本特征并分类得到准确率77.9％、召回率77.9％和F1值78.41％，以本专利提出的方法提取文本特征并分类得到准确率79.6％、召回率79.3％和F1值79.9％。

选用网易公开的新闻数据集，选用该数据9600篇新闻，类别数为6。以80％作为训练样本，20％作为测试样本，以传统互信息提取文本特征并分类得到准确率94.65％、召回率94.68％和F1值94.7％，以卡方检验提取文本特征并分类得到准确率95.15％、召回率95.15％和F1值95.1568％，以本专利提出的方法提取文本特征并分类得到准确率95.417％、召回率95.416％和F1值95.416％。

本发明可与计算机系统结合，从而自动完成提取文本的特征。

本发明创造性地提出了一种将TF-IDF、词在不同的类别分布的标准差、互信息和FP-Growth方法结合，能够提取特征冗余度小且包含信息量大的文本特征，进而为有效的文本分类。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种基于互信息和关联规则的文本特征提取方法，其特征在于，包括如下步骤：

步骤三：通过FP-Growth方法，计算步骤一中得出的预处理后的文本训练集中每个词的关联规则，并以关联规则去除步骤二中得出的初始的文本特征集中冗余的特征，使用One-hot方法和关联规则对文本向量化表示，得到每个文本的向量化集；

其中所述步骤一中得到文本训练集的具体步骤如下：

步骤1.3：对Txt集中的每个文本分词并过滤停用词集SWORD，得到过滤停用词后的文本集FTxt＝{ft₁,ft₂,ft₃,……,ft_num}，其中，ft_fi＝{fw₁,fw₂,fw₃,……,fw_s}为第fi篇文本p_fi分词过滤后的词集，fi∈[1,s]，s为FTxt中第fi篇文本的词总数，fw₁,fw₂,fw₃,……,fw_s为词集ft_fi中的词；

步骤1.4：采用2-Gram方法对FTxt集中每个文本处理，得到文本训练集Gtrain＝{gt₁,gt₂,gt₃,……,gt_num}，其中，gt_gi＝{gw₁,gw₂,gw₃,……,gw_ns}为词集ft_gi通过2-Gram方法处理后的Gram集，ns为文本训练集Gtrain中第gi篇中经2-Gram方法处理后的总数，gw₁,gw₂,gw₃,……,gw_ns为Gram集gt_gi中的词，ns>s，

所述步骤二中得到初始文本特征集的具体步骤如下：

步骤2.2：通过公式

为Term_i在每个类别出现的次数，

为

的方差，docn为含词Term_i的文档总数；

2.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法，其特征在于，所述步骤2.3中特征数量m的值设置为m≤0.3n。

3.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法，其特征在于，所述步骤三中得到每个文本的向量化集的具体步骤如下：

步骤3.1：采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2，且置信度为β的关联规则，得到规则词集合L1和L2以及置信度集Cv，其中，L1第ki个词的规则L1_ki→L2_ki且置信度为Cv_ki，β默认为0.7；

4.根据权利要求3所述的一种基于互信息和关联规则的文本特征提取方法，

其特征在于，所述步骤3.1中置信度β的值设置为β≥0.7。

5.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法，

其特征在于，所述步骤二中得到初始文本特征集的具体步骤如下：

步骤2.01：把步骤1.4中得到的预处理后文本训练集GTrain中每个文本去除重复词，得到词集Term＝{t₁,t₂,t₃,……,t_n}；从类别标签集Y中，得到文本的类别集C＝{c₁,c₂,c₃,……,c_k}，其中，n为Term词集中词的数量，k为类别的个数，k<＝num，num为文本数量；

步骤2.02：设ri为循环变量，用于遍历Term，并赋值为1；设W为存储Term中每个词的特征值集，并赋值为空集；

步骤2.03：比较ri与n的大小，当ri<＝n时，进入步骤2.04，否则进入步骤2.011；

步骤2.04：设rj为循环变量，用于遍历C，并赋值为1；设df为Term_ri在C中每个类别的特征值集，赋值为空集；

步骤2.05：比较rj与k的大小，当rj<＝k时，进入步骤2.06，否则进入步骤2.09；

步骤2.06：通过公式

为Term_ri在每个类别出现的次数，

为

的方差；

步骤2.07：df＝df∪T(Term_ri,C_rj)；

步骤2.08：对循环变量rj的数值加一并重新进入步骤2.05进行判断；

步骤2.09：W＝W∪cov(df)，其中，cov(df)为计算df的方差；

步骤2.010：对循环变量ri的数值加一并重新进入步骤2.03进行判断；

步骤2.011：得到特征值集W＝{w₁,w₂,w₃,……,w_n}；

步骤2.012：通过W的特征值对Term降序排列，并且选取前m的特征，得到初始文本特征集SelT＝{t₁,t₂,t₃,……,t_m}，其中，

默认m＝0.3n。

6.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法，其特征在于，所述步骤三中得到每个文本的向量化集的具体步骤如下：

步骤3.01：采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2，且置信度为β的关联规则，得到规则词集合L1＝{r₁,r₂,……,r_f}、L2＝{r2₁,r2₂,……,r2_f}和置信度集Cv＝{cv₁,cv₂,……,cv_f}，其中，L1的第ki个词的规则为L1_ki→L2_ki且置信度为Cv_ki，ki∈[1,f]，

β默认为07；

步骤3.02：将步骤2.12得到初始文本特征集SelT过滤L1的每个词，即，SelR＝SelT-L1，得到去除冗余特征后的特征集SelR＝{srt₁,srt₂,srt₃,……,srt_wnum}，

步骤3.03：设g为循环变量，用于遍历Gtrain，并赋值为1；设OT为存储GTrain中每个文本的向量化集，并赋值为空集；

步骤3.04：比较g与num的大小，当g<＝num时，进入步骤3.05，否则进入步骤3.017；

步骤3.05：设ot为存储gt_g的向量化表示，赋值ot＝[0,0,0,……,0]，其中，ot长度为wnum；

步骤3.06：设h为循环变量，并赋值为1，用于遍历特征集SelR；

步骤3.07：比较h与wnum的大小，当h<＝wnum时，进入步骤3.08，否则退出循环进入步骤3.015；

步骤3.08：SelR中第h个词为ws，如果ws∈gt_g，进入步骤3.09，否则进入步骤3.010；

步骤3.09：把ot在h位置的分量赋值为1，进入步骤3.014；

步骤3.010：对ws进行判断，如果ws∈L1，进入步骤3.011，否则进入步骤3.014；

步骤3.011：ws在L1的位置为loc，ws与L1_loc相同，L2_loc是指在L2的位置为loc，判断L2_loc是否存在于SelR，如果存在进入步骤3.012，否则进入步骤3.014；

步骤3.012：L2_loc在SelR中的位置为sloc；

步骤3.013：以Cv_loc的概率将向量ot在sloc位置的分量赋值为1，执行步骤3.014，Cv_loc表示词ws在L1中的位置置信度；

步骤3.014：对循环变量h的数值加一并重新进入步骤3.07进行判断；

步骤3.015：对循环变量g的数值加一并进入步骤3.016；

步骤3.016：OT＝OT∪ot，并且返回步骤3.04；

步骤3.017：得到Gtrain集中每个文本的向量化集OT＝{ot₁,ot₂,ot₃,……,ot_num}。