CN107766323B - 一种基于互信息和关联规则的文本特征提取方法 - Google Patents

一种基于互信息和关联规则的文本特征提取方法 Download PDF

Info

Publication number
CN107766323B
CN107766323B CN201710796425.1A CN201710796425A CN107766323B CN 107766323 B CN107766323 B CN 107766323B CN 201710796425 A CN201710796425 A CN 201710796425A CN 107766323 B CN107766323 B CN 107766323B
Authority
CN
China
Prior art keywords
text
word
term
entering
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710796425.1A
Other languages
English (en)
Other versions
CN107766323A (zh
Inventor
朱全银
严云洋
胡荣林
李翔
瞿学新
唐海波
赵阳
高阳
钱凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhutong Information Technology Co.,Ltd.
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201710796425.1A priority Critical patent/CN107766323B/zh
Publication of CN107766323A publication Critical patent/CN107766323A/zh
Application granted granted Critical
Publication of CN107766323B publication Critical patent/CN107766323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互信息和关联规则的文本特征提取方法,步骤为:首先以文本分词、过滤停用词以及2‑Gram方法对文本训练集预处理,其次,通过改进的互信息方法对预处理后的文本训练集计算特征值,按特征值降序排列选取前m个词,从而得到初始的文本特征集,采用FP‑Growth计算预处理后的文本训练集中词的关联规则,并以关联规则去除初始文本特征集中冗余的特征,最后,结合关联规则和One‑hot方法对每个文本向量化表示。本发明避免了文本特征间的冗余及互信息方法缺点对提取文本特征的影响。

Description

一种基于互信息和关联规则的文本特征提取方法
技术领域
本发明属于自然语言处理的技术领域,特别涉及一种基于互信息和关联规则的文本特征提取方法。
背景技术
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息和图像信息等。如何在纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。目前,各国学者利用统计分析,机器学习,数据挖掘等领域的方法对其进行处理,通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此,如何能够有效地避免将噪声特征纳入机器学习流程,提高了文本分类的精度领域最重要的研究方向之一。
目前,常用的文本特征提取方法TF-IDF、信息增益、互信息、期望交叉熵和文本证据权等方法。然而目前常用的文本特征提取方法没有考虑词汇语义上重要性。为了解决这一问题,本发明提供了一种基于互信息和关联规则的文本特征提取方法。
严云洋和朱全银等人已有的研究基础包括:严云洋,吴茜茵,杜静,周静波,刘以安.基于色彩和闪频特征的视频火焰检测.计算机科学与探索,2014,08(10):1271-1279;SGao,J Yang,Y Yan.A novel multiphase active contour model for inhomogeneousimage segmentation.Multimedia Tools and Applications,2014,72(3):2321-2337;SGao,J Yang,Y Yan.A local modified chan–vese model for segmentinginhomogeneous multiphase images.International Journal of Imaging Systems andTechnology,2012,22(2):103-113;刘金岭,严云洋.基于上下文的短信文本分类方法.计算机工程,2011,37(10):41-43;严云洋,高尚兵,郭志波,盛明超.基于视频图像的火灾自动检测.计算机应用研究,2008,25(4):1075-1078YYan,Z Guo,J Yang.Fast Feature ValueSearching for Face Detection.Computer and Information Science,2008,1(2):120-128;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independentFeature Selection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling andDisturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银等人申请、公开与授权的相关专利:朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格分类方法.中国专利:ZL201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格分类方法.中国专利:ZL 201110422274.6,2013.01.02;朱全银,尹永华,严云洋,曹苏群等,一种基于神经网络的多品种商品价格分类的数据预处理方法.中国专利:ZL201210325368.6;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08;曹苏群,朱全银,左晓明,高尚兵等人,一种用于模式分类的特征选择方法.中国专利公开号:CN 103425994 A,2013.12.04;朱全银,严云洋,李翔,张永军等人,一种用于文本分类和图像深度挖掘的科技情报获取与推送方法.中国专利公开号:CN 104035997 A,2014.09.10;朱全银,辛诚,李翔,许康等人,一种基于K means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480 A,2016.12.07。
TF-IDF:
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。
互信息:
互信息(MutualInformation,MI)是信息论中的重要概念,在文本分类领域,它用于度量特征t与类别c之间的统计相关度。使用互信息进行特征提取的核心思想是:在某个类别出现频率高,而在其他类别出现频率低的词条对于类别的贡献较大。互信息计算公式可以表示为:
Figure BDA0001400432410000021
式中,互信息MI(ti,cj)表示特征ti与cj的相关度,P(ti,ci)表示包含特征ti且属于类别cj的文档数量,P(ti)表示训练文本集中特征ti出现的概率,P(cj)表示整个训练文本集中类别cj出现概率。
FP-Growth:
关联规则是由Agrawal等人提出,它反映了大量数据中项目集之间的关联或相关联系。发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。近年来,在频繁项目集中的算法研究先后出现了Apriori、AIS及PARTITION等挖掘算法,在众多算法中,FP-Growth算法最为著名。FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集压缩到一棵频繁模式树,但仍保留关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。图1为FP-Tree树的结构。
现有传统的文本特征提取方法有TF-IDF、互信息、信息增益和卡方检验等。互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性等。因此需要找到一种方法能够有效的解决同义词在文本特征上的方法。
在现有互信息提取文本特征中,往往都只解决了上述几个问题中的部分问题。
如中国专利文献号CN 201511018702.3,公开日2016-06-22,公开了一种基于互信息的文本分类的特征提取方法,该方法通过结合TF-IDF和互信息提取特征。尽管该文献中的方法,能够提取文本的特征,并相比为改进的互信息方法有所提高,但该方法为考虑提取特征的冗余性、词在不同分类别的分布以及不均衡文本数据的情况,不能有效的提取文本特征和减小特征间冗余度。
中国专利文献号CN201310138475.2,授权日2016-08-10,公开了一种基于分布式互信息文档特征提取方法,该方法通过结合TF-IDF和互信息提取特征,并通过Mapreduce减少提取文本特征的时间消耗。尽管该文献中的方法减少了在特征提取上的时间花费,并结合TF-IDF对互信息提取特征包含低频词的不足进行了改进,但该方法在词不同类别的分布和特征间的冗余度未考虑,从而不能有效的保留文本的信息量。
中国专利文献号CN201310129008.3,公开日2014-03-26,公开了一种基于改进互信息和熵的文本分类特征提取方法,该方法通过结合互信息和信息熵对特征评估从而选取特征。尽管该文献中的方法,考虑了传统互信息提取特征时包含很多的低频词,并结合了信息熵解决该不足,但该方法未考虑特征间的冗余度,这使得提取的特征,部分词与词之间具有一定的关联性,从而提取的特征未能有效的保留文本的信息。
综上所述,研究发明一种能改进传统互信息的不足以及减小提取特征间的冗余,进而有效的改善文本分类模型的有效性是十分必要的。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种避免了传统互信息模型未考虑词频和文本在不同类别之间分布的差异性以及减少词与词之间的冗余,将互信息、词频和FP-Growth结合的方法有效的基于互信息和关联规则的文本特征提取方法。
技术方案:为解决上述技术问题,本发明提供一种基于互信息和关联规则的文本特征提取方法,其特征在于,包括如下步骤:
步骤一:定义文本数据集和停用词集,并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理,得到预处理后的文本训练集;
步骤二:通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值,并将特征值降序排列,筛选出前m个词,得到初始的文本特征集;
步骤三:通过FP-Growth方法,计算步骤一中得出的预处理后的文本训练集中每个词的关联规则,并以关联规则去除步骤二中得出的初始的文本特征集中冗余的特征,使用One-hot方法和关联规则对文本向量化表示,得到每个文本的向量化集。
进一步的,所述步骤一中得到文本训练集的具体步骤如下:
步骤1.1:定义文本数据集Txt={p1,p2,p3,……,pnum}和对应Txt中每个文本类别的标签集Y={y1,y2,y3,……,ynum},其中,第pi个文本ppi对应的类别为Ypi,num为文本数量,pi∈[1,num];
步骤1.2:定义文本停用词集SWORD={swd1,swd2,swd3,……,swdsw};
步骤1.3:对Txt集中的每个文本分词并过滤停用词集SWORD,得到FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}为第fi篇文本pfi分词过滤后的词集,fi∈[1,s];
步骤1.4:采用2-Gram方法对FTxt集中每个文本处理,得到文本训练集Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}为ftgi通过2-Gram方法处理后的Gram集,ns>s,
Figure BDA0001400432410000041
进一步的,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:将步骤1.4得到的预处理后文本训练集Gtrain中每个文本去除重复词,得到词集Term,词集的数量为n,并从步骤1.1中定义的类别标签集Y中,得到文本的类别集C;
步骤2.2:通过公式
Figure BDA0001400432410000051
计算数据集Term中每个词的特征值,并计算特征词Termi在类别集C每个类别下的特征值的方差
Figure BDA0001400432410000052
其中,cn为第j个类别Cj的文档数,num为总的文档数,a为含词Termi且是类别Cj的文档数量,b为含Termi且不是Cj的文档数量,
Figure BDA0001400432410000053
为Termi在每个类别出现的次数,
Figure BDA0001400432410000054
Figure BDA0001400432410000055
的方差;
步骤2.3:根据特征值集W对特征词集Term降序排列,选取前m个的特征,得到初始文本特征集SelT。
进一步的,所述步骤2.3中特征数量m的阈值为0.3n。
进一步的,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1和L2以及置信度集Cv,其中,L1第ki个词的规则L1ki→L2ki且置信度为Cvki,β默认为0.7;
步骤3.2:将步骤2.3中得到的初始文本特征集SelT过滤L1中的每个词,得到特征集SelR,即,SelR=SelT-L1;
步骤3.3:使用One-hot和关联规则对GTrain中每个文本向量化表示,得到Gtrain集中每个文本的向量化集OT。
进一步的,所述步骤3.1中置信度的阈值为0.7。
进一步的,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:把步骤1.4中得到的预处理后文本训练集GTrain中每个文本去除重复词,得到词集Term={t1,t2,t3,……,tn};从类别标签集Y中,得到文本的类别集C={c1,c2,c3,……,ck},其中,n为Term词集中词的数量,k为类别的个数,k<=num,num为文本数量;
步骤2.2:设ri为循环变量,用于遍历Term,并赋值为1;设W为存储Term中每个词的特征值集,并赋值为空集;
步骤2.3:比较ri与n的大小,当ri<=n时,进入步骤2.4,否则进入步骤2.11;
步骤2.4:设rj为循环变量,用于遍历C,并赋值为1;设df为Termri在C中每个类别的特征值集,赋值为空集;
步骤2.5:比较rj与k的大小,当rj<=k时,进入步骤2.6,否则进入步骤2.9;
步骤2.6:通过公式
Figure BDA0001400432410000061
计算Termri在类别Crj下的特征值,其中,cn为第rj个类别Crj的文档数,a为含词Termri且是类别Crj的文档数量,b为含Termri且不是Crj的文档数量,
Figure BDA0001400432410000062
为Termri在每个类别出现的次数,
Figure BDA0001400432410000063
Figure BDA0001400432410000064
的方差;
步骤2.7:df=df∪T(Termri,Crj);
步骤2.8:对循环变量rj的数值加一并重新进入步骤2.5进行判断;
步骤2.9:W=W∪cov(df),其中,cov(df)为计算df的方差;
步骤2.10:对循环变量ri的数值加一并重新进入步骤2.3进行判断;
步骤2.11:得到特征值集W={w1,w2,w3,……,wn};
步骤2.12:通过W的特征值对Term降序排列,并且选取前m的特征,得到初始文本特征集SelT={t1,t2,t3,……,tm},其中,
Figure BDA0001400432410000067
默认m=0.3n。
进一步的,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1={r1,r2,……,rf}、L2={r21,r22,……,r2f}和置信度集Cv={cv1,cv2,……,cvf},其中,L1的第ki个词的规则为L1ki→L2ki且置信度为Cvki,ki∈[1,f],
Figure BDA0001400432410000065
β默认为07;
步骤3.2:将步骤2.12得到初始文本特征集SelT过滤L2的每个词,即,SelR=SelT-L1,得到去除冗余特征后的特征集SelR={srt1,srt2,srt3,……,srtwnum},
Figure BDA0001400432410000066
步骤3.3:设g为循环变量,用于遍历Gtrain,并赋值为1;设OT为存储GTrain中每个文本的向量化集,并赋值为空集;
步骤3.4:比较g与num的大小,当g<=num时,进入步骤3.5,否则进入步骤3.17;
步骤3.5:设ot为存储gtg的向量化表示,赋值ot=[0,0,0,……,0],其中,ot长度为wnum;
步骤3.6:设h为循环变量,并赋值为1,用于遍历特征集SelR;
步骤3.7:比较h与wnum的大小,当h<=wnum时,进入步骤3.8,否则退出循环进入步骤3.15;
步骤3.8:SelR中第h个词为ws,如果ws∈gtg,进入步骤3.9,否则进入步骤3.10;
步骤3.9:把ot在h位置的分量赋值为1,进入步骤3.14;
步骤3.10:对ws进行判断,如果ws∈L1,进入步骤3.11,否则进入步骤3.14;
步骤3.11:ws在L1的位置为loc,ws与L1loc相同,L2loc是指在L2的位置为loc,判断L2loc是否存在于SelR,如果存在进入步骤3.12,否则进入步骤3.14;
步骤3.12:L2loc在SelR中的位置为sloc;
步骤3.13:以Cvloc的概率将向量ot在sloc位置的分量赋值为1,执行步骤3.14;
步骤3.14:对循环变量h的数值加一并重新进入步骤3.7进行判断;
步骤3.15:对循环变量g的数值加一并进入步骤3.16;
步骤3.16:OT=OT∪ot,并且返回步骤3.4;
步骤3.17:得到Gtrain集中每个文本的向量化集OT={ot1,ot2,ot3,……,otnum}。
与现有技术相比,本发明的优点在于:
本发明方法通过词频、互信息和FP-Growth,有效的提取文本的特征词,避免了未考虑词频和文本在不同类别之间分布的差异性等对提取特征词的影响。具体的:首先,以文本分词、过滤停用词以及2-Gram方法对文本预处理,其次,通过改进的互信息方法得到初始的特征值,按特征值降序选取得到m个词,从而得到初始的文本特征,采用FP-Growth计算词与词之间的关联规则,并用关联规则去除文本特征中冗余的特征,最后,结合关联规则和One-hot方法对文本向量化表示。此外,本发明创造性地提出了一种基于互信息和关联规则的文本特征提取方法,用于提取文本的特征,进而有效的改善文本分类模型的有效性。
附图说明
图1为背景技术中FP-Tree树的结构示意图;
图2为本发明的总体流程图;
图3为图1中文本预处理后得到文本训练集的流程图;
图4为图1中得到初始文本特征集的流程图;
图5为图1中对初始特征集去除冗余特征和文本向量化表示的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明技术方案是对文本提取文本特征,首先对待处理的文本集预处理,以文本分词、过滤停用词及2-Gram方法得到预处理后文本集。然后通过改进互信息提取文本特征,得到词特征值,并将词特征值降序,筛选出前m个词,得到初始的文本特征词集。最后通过FP-growth算法计算每个词的关联规则,去除特征词之间的冗余性,并结合One-hot和关联规则对文本进行向量化表示。
如图1-4所示,本发明包括如下步骤:
步骤1:定义文本数据集和停用词集,并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理,得到预处理后的文本训练集,具体的如图2所示:
步骤1.1:定义文本数据集Txt={p1,p2,p3,……,pnum}和类别标签Y={y1,y2,y3,……,ynum},其中,第pi个文本ppi对应的类别为Ypi,num为文本数量,pi∈[1,num];
步骤1.2:定义文本停用词集SWORD={swd1,swd2,swd3,……,swdsw};
步骤1.3:对Txt集中的每个文本分词并过滤停用词集SWORD,得到FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}为第fi篇文本pfi分词过滤后的词集,fi∈[1,s];
步骤1.4:采用2-Gram方法对FTxt集中每个文本处理,得到Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}为ftgi通过2-Gram处理后的Gram集,ns>s,
Figure BDA0001400432410000081
步骤2:通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值,并将特征值降序排列,筛选出前m个词,得到初始的文本特征集,具体的如图3所示:
步骤2.1:把步骤1.3得到的GTrain中每个文本去除重复词,得到词集Term={t1,t2,t3,……,tn};从类别标签集Y中,得到文本的类别集C={c1,c2,c3,……,ck},其中,n为Term词集中词的数量,k为类别的个数,k<=num,num为文本数量;
步骤2.2:设ri为循环变量,用于遍历Term,并赋值为1;设W为存储Term中每个词的特征值集,并赋值为空集;
步骤2.3:当ri<=n时,则执行步骤2.4,否则执行步骤2.11;
步骤2.4:设rj为循环变量,用于遍历C,并赋值为1;设df为Termri在C中每个类别的特征值集,赋值为空集;
步骤2.5:当rj<=k时,则执行步骤2.6,否则执行步骤2.9;
步骤2.6:通过公式
Figure BDA0001400432410000091
计算Termri在类别Crj下的特征值,其中,cn为第rj个类别Crj的文档数,a为含词Termri且是类别Crj的文档数量,b为含Termri且不是Crj的文档数量,
Figure BDA0001400432410000092
为Termri在每个类别出现的次数,
Figure BDA0001400432410000093
Figure BDA0001400432410000094
的方差;
步骤2.7:df=df∪T(Termri,Crj);
步骤2.8:循环变量rj=rj+1,并且返回到步骤2.5;
步骤2.9:W=W∪cov(df),其中,cov(df)为计算df的方差;
步骤2.10:循环变量ri=ri+1,并且返回到步骤2.3;
步骤2.11:得到特征值集W={w1,w2,w3,……,wn};
步骤2.12:通过W的特征值对Term降序排列,并且选取前m的特征,得到初始特征SelT={t1,t2,t3,……,tm},其中,
Figure BDA0001400432410000097
默认m=0.3n。
步骤3:通过FP-Growth方法,计算预处理后的文本训练集中每个词的关联规则,并以关联规则去除初始特征集中冗余的特征,使用One-hot方法和关联规则对文本向量化表示,得到每个文本的向量化集,具体的如图4所示:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1={r1,r2,……,rf}、L2={r21,r22,……,r2f}和置信度集Cv={cv1,cv2,……,cvf},其中,L1的第ki个词的规则为L1ki→L2ki且置信度为Cvki,ki∈[1,f],
Figure BDA0001400432410000095
β默认为0.7;
步骤3.2:将步骤2.12得到特征集SelT过滤L2的每个词,即,SelR=SelT-L1,得到去除冗余特征后的特征集SelR={srt1,srt2,srt3,……,srtwnum},
Figure BDA0001400432410000096
步骤3.3:设g为循环变量,用于遍历Gtrain,并赋值为1;设OT为存储GTrain中每个文本的向量化集,并赋值为空集;
步骤3.4:当g<=num时,则执行步骤3.5,否则执行步骤3.19;
步骤3.5:设ot为存储gtg的向量化表示,赋值ot=[0,0,0,……,0],其中,ot长度为wnum;
步骤3.6:设h为循环变量,并赋值为1,用于遍历特征集SelR;
步骤3.7:如果循环变量h<=wnum,执行步骤3.8,否则退出循环,执行步骤3.17;
步骤3.8:SelR中第h个词为ws;
步骤3.9:如果ws∈gtg,执行步骤3.10,否则执行步骤3.11;
步骤3.10:把ot在h位置的分量赋值为1,执行步骤3.16;
步骤3.11:如果ws∈L1,执行步骤3.12,否则执行步骤3.16;
步骤3.12:ws在L1中的位置为loc;
步骤3.13:如果L2loc∈SelR,执行步骤3.14,否则执行步骤3.16;
步骤3.14:L2loc在SelR中的位置为sloc;
步骤3.15:以Cvloc的概率将向量ot在sloc位置的分量赋值为1,执行步骤3.16;
步骤3.16:循环变量h=h+1,返回步骤3.7;
步骤3.17:循环变量g=g+1,执行步骤3.18;
步骤3.18:OT=OT∪ot,并且返回步骤3.4;
步骤3.19:得到Gtrain集中每个文本的向量化集OT={ot1,ot2,ot3,……,otnum}。
其中,以文本分词、过滤停用词以及2-Gram方法对文本预处理,通过改进的互信息方法得到初始的特征值,按特征值降序选取得到m个词,从而得到初始的文本特征,采用FP-Growth计算词与词之间的关联规则,并用关联规则去除文本特征中冗余的特征,最后,结合关联规则和One-hot方法对文本向量化表示。
其中,步骤1.1到步骤1.4是以文本分词、过滤停用词以及2-Gram方法对文本预处理得到文本数据;步骤2.1到步骤2.12是通过改进的互信息提取文本的特征值,并将词特征值降序,筛选出前m个词,得到初始的文本特征值集;步骤3.1到步骤3.19是用FP-growth算法计算每个词的关联规则,通过关联规则去除特征值集中关联的词,结合One-hot和关联规则对文本进行向量化表示。
为了更好地说明本方法的有效性,通过搜狗语料库中的新闻数据集和网易新闻数据集作为原始数据集,分别通过TF-IDF、互信息、卡方检验以及本专利提出方法进行比较,以Logistic回归作为分类模型,从而比较四种方法的准确率、召回率及F1值。
选用搜狗公开的新闻数据集,选用该数据5000篇新闻,类别数为10。以80%作为训练样本,20%作为测试样本,以传统互信息提取文本特征并分类得到准确率77.2%、召回率77.4%和F1值78.12%,以卡方检验提取文本特征并分类得到准确率77.9%、召回率77.9%和F1值78.41%,以本专利提出的方法提取文本特征并分类得到准确率79.6%、召回率79.3%和F1值79.9%。
选用网易公开的新闻数据集,选用该数据9600篇新闻,类别数为6。以80%作为训练样本,20%作为测试样本,以传统互信息提取文本特征并分类得到准确率94.65%、召回率94.68%和F1值94.7%,以卡方检验提取文本特征并分类得到准确率95.15%、召回率95.15%和F1值95.1568%,以本专利提出的方法提取文本特征并分类得到准确率95.417%、召回率95.416%和F1值95.416%。
本发明可与计算机系统结合,从而自动完成提取文本的特征。
本发明创造性地提出了一种将TF-IDF、词在不同的类别分布的标准差、互信息和FP-Growth方法结合,能够提取特征冗余度小且包含信息量大的文本特征,进而为有效的文本分类。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (6)

1.一种基于互信息和关联规则的文本特征提取方法,其特征在于,包括如下步骤:
步骤一:定义文本数据集和停用词集,并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理,得到预处理后的文本训练集;
步骤二:通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值,并将特征值降序排列,筛选出前m个词,得到初始的文本特征集;
步骤三:通过FP-Growth方法,计算步骤一中得出的预处理后的文本训练集中每个词的关联规则,并以关联规则去除步骤二中得出的初始的文本特征集中冗余的特征,使用One-hot方法和关联规则对文本向量化表示,得到每个文本的向量化集;
其中所述步骤一中得到文本训练集的具体步骤如下:
步骤1.1:定义文本数据集Txt={p1,p2,p3,……,pnum}和对应Txt中每个文本类别的标签集Y={y1,y2,y3,……,ynum},其中,第pi个文本ppi对应的类别为Ypi,num为文本数量,pi∈[1,num];
步骤1.2:定义文本停用词集SWORD={swd1,swd2,swd3,……,swdsw};
步骤1.3:对Txt集中的每个文本分词并过滤停用词集SWORD,得到过滤停用词后的文本集FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}为第fi篇文本pfi分词过滤后的词集,fi∈[1,s],s为FTxt中第fi篇文本的词总数,fw1,fw2,fw3,……,fws为词集ftfi中的词;
步骤1.4:采用2-Gram方法对FTxt集中每个文本处理,得到文本训练集Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}为词集ftgi通过2-Gram方法处理后的Gram集,ns为文本训练集Gtrain中第gi篇中经2-Gram方法处理后的总数,gw1,gw2,gw3,……,gwns为Gram集gtgi中的词,ns>s,
Figure FDA0003160265270000012
所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:将步骤1.4得到的预处理后文本训练集Gtrain中每个文本去除重复词,得到词集Term,词集的数量为n,并从步骤1.1中定义的类别标签集Y中,得到文本的类别集C;
步骤2.2:通过公式
Figure FDA0003160265270000011
计算数据集Term中每个词的特征值,并计算特征词Termi在类别集C每个类别下的特征值的方差
Figure FDA0003160265270000021
其中,cn为第j个类别Cj的文档数,num为总的文档数,a为含词Termi且是类别Cj的文档数量,b为含Termi且不是Cj的文档数量,
Figure FDA0003160265270000022
为Termi在每个类别出现的次数,
Figure FDA0003160265270000023
Figure FDA0003160265270000024
的方差,docn为含词Termi的文档总数;
步骤2.3:根据特征值集W对特征词集Term降序排列,选取前m个的特征,得到初始文本特征集SelT。
2.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤2.3中特征数量m的值设置为m≤0.3n。
3.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则词集合L1和L2以及置信度集Cv,其中,L1第ki个词的规则L1ki→L2ki且置信度为Cvki,β默认为0.7;
步骤3.2:将步骤2.3中得到的初始文本特征集SelT过滤L1中的每个词,得到特征集SelR,即,SelR=SelT-L1;
步骤3.3:使用One-hot和关联规则对GTrain中每个文本向量化表示,得到Gtrain集中每个文本的向量化集OT。
4.根据权利要求3所述的一种基于互信息和关联规则的文本特征提取方法,
其特征在于,所述步骤3.1中置信度β的值设置为β≥0.7。
5.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,
其特征在于,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.01:把步骤1.4中得到的预处理后文本训练集GTrain中每个文本去除重复词,得到词集Term={t1,t2,t3,……,tn};从类别标签集Y中,得到文本的类别集C={c1,c2,c3,……,ck},其中,n为Term词集中词的数量,k为类别的个数,k<=num,num为文本数量;
步骤2.02:设ri为循环变量,用于遍历Term,并赋值为1;设W为存储Term中每个词的特征值集,并赋值为空集;
步骤2.03:比较ri与n的大小,当ri<=n时,进入步骤2.04,否则进入步骤2.011;
步骤2.04:设rj为循环变量,用于遍历C,并赋值为1;设df为Termri在C中每个类别的特征值集,赋值为空集;
步骤2.05:比较rj与k的大小,当rj<=k时,进入步骤2.06,否则进入步骤2.09;
步骤2.06:通过公式
Figure FDA0003160265270000031
Figure FDA0003160265270000032
计算Termri在类别Crj下的特征值,其中,cn为第rj个类别Crj的文档数,a为含词Termri且是类别Crj的文档数量,b为含Termri且不是Crj的文档数量,
Figure FDA0003160265270000033
为Termri在每个类别出现的次数,
Figure FDA0003160265270000034
Figure FDA0003160265270000035
的方差;
步骤2.07:df=df∪T(Termri,Crj);
步骤2.08:对循环变量rj的数值加一并重新进入步骤2.05进行判断;
步骤2.09:W=W∪cov(df),其中,cov(df)为计算df的方差;
步骤2.010:对循环变量ri的数值加一并重新进入步骤2.03进行判断;
步骤2.011:得到特征值集W={w1,w2,w3,……,wn};
步骤2.012:通过W的特征值对Term降序排列,并且选取前m的特征,得到初始文本特征集SelT={t1,t2,t3,……,tm},其中,
Figure FDA0003160265270000038
默认m=0.3n。
6.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.01:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则词集合L1={r1,r2,……,rf}、L2={r21,r22,……,r2f}和置信度集Cv={cv1,cv2,……,cvf},其中,L1的第ki个词的规则为L1ki→L2ki且置信度为Cvki,ki∈[1,f],
Figure FDA0003160265270000036
β默认为07;
步骤3.02:将步骤2.12得到初始文本特征集SelT过滤L1的每个词,即,SelR=SelT-L1,得到去除冗余特征后的特征集SelR={srt1,srt2,srt3,……,srtwnum},
Figure FDA0003160265270000037
步骤3.03:设g为循环变量,用于遍历Gtrain,并赋值为1;设OT为存储GTrain中每个文本的向量化集,并赋值为空集;
步骤3.04:比较g与num的大小,当g<=num时,进入步骤3.05,否则进入步骤3.017;
步骤3.05:设ot为存储gtg的向量化表示,赋值ot=[0,0,0,……,0],其中,ot长度为wnum;
步骤3.06:设h为循环变量,并赋值为1,用于遍历特征集SelR;
步骤3.07:比较h与wnum的大小,当h<=wnum时,进入步骤3.08,否则退出循环进入步骤3.015;
步骤3.08:SelR中第h个词为ws,如果ws∈gtg,进入步骤3.09,否则进入步骤3.010;
步骤3.09:把ot在h位置的分量赋值为1,进入步骤3.014;
步骤3.010:对ws进行判断,如果ws∈L1,进入步骤3.011,否则进入步骤3.014;
步骤3.011:ws在L1的位置为loc,ws与L1loc相同,L2loc是指在L2的位置为loc,判断L2loc是否存在于SelR,如果存在进入步骤3.012,否则进入步骤3.014;
步骤3.012:L2loc在SelR中的位置为sloc;
步骤3.013:以Cvloc的概率将向量ot在sloc位置的分量赋值为1,执行步骤3.014,Cvloc表示词ws在L1中的位置置信度;
步骤3.014:对循环变量h的数值加一并重新进入步骤3.07进行判断;
步骤3.015:对循环变量g的数值加一并进入步骤3.016;
步骤3.016:OT=OT∪ot,并且返回步骤3.04;
步骤3.017:得到Gtrain集中每个文本的向量化集OT={ot1,ot2,ot3,……,otnum}。
CN201710796425.1A 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法 Active CN107766323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710796425.1A CN107766323B (zh) 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710796425.1A CN107766323B (zh) 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法

Publications (2)

Publication Number Publication Date
CN107766323A CN107766323A (zh) 2018-03-06
CN107766323B true CN107766323B (zh) 2021-08-31

Family

ID=61265086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710796425.1A Active CN107766323B (zh) 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法

Country Status (1)

Country Link
CN (1) CN107766323B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240258A (zh) * 2018-07-09 2019-01-18 上海万行信息科技有限公司 基于词向量的汽车故障智能辅助诊断方法和系统
CN109684462B (zh) * 2018-12-30 2022-12-06 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN109739953B (zh) * 2018-12-30 2021-07-20 广西财经学院 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109857866B (zh) * 2019-01-14 2021-05-25 中国科学院信息工程研究所 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
CN112818146B (zh) * 2021-01-26 2022-12-02 山西三友和智慧信息技术股份有限公司 一种基于产品图像风格的推荐方法
CN113704447B (zh) * 2021-03-03 2024-05-03 腾讯科技(深圳)有限公司 一种文本信息的识别方法以及相关装置
CN113807456B (zh) * 2021-09-26 2024-04-09 大连交通大学 一种基于互信息的特征筛选和关联规则多标记分类方法
CN116644184B (zh) * 2023-07-27 2023-10-20 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN105335785A (zh) * 2015-10-30 2016-02-17 西华大学 一种基于向量运算的关联规则挖掘方法
CN105631462A (zh) * 2014-10-28 2016-06-01 北京交通大学 结合置信度和贡献度的基于时空上下文的行为识别方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN105631462A (zh) * 2014-10-28 2016-06-01 北京交通大学 结合置信度和贡献度的基于时空上下文的行为识别方法
CN105335785A (zh) * 2015-10-30 2016-02-17 西华大学 一种基于向量运算的关联规则挖掘方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Unsupervised Data Driven Feature Extraction by Means of Mutual Information Maximization》;Marinoni A 等;《IEEE Transactions on Computational Imaging》;20170615;第3卷(第2期);全文 *
《基于词条之间关联关系的文档聚类》;任建华 等;《计算机工程与应用》;20141211;第52卷(第7期);第87页第二栏第4-7段 *

Also Published As

Publication number Publication date
CN107766323A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766323B (zh) 一种基于互信息和关联规则的文本特征提取方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
KR102019194B1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
Mandal et al. Supervised learning methods for bangla web document categorization
CN109408743B (zh) 文本链接嵌入方法
US7469246B1 (en) Method and system for classifying or clustering one item into multiple categories
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN111046282B (zh) 文本标签设置方法、装置、介质以及电子设备
WO2021253873A1 (zh) 相似文档检索方法及装置
CN107506472A (zh) 一种学生浏览网页分类方法
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN114818674A (zh) 商品标题关键词提取方法及其装置、设备、介质、产品
CN113032556A (zh) 一种基于自然语言处理形成用户画像的方法
Wei et al. Online education recommendation model based on user behavior data analysis
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management
Qingyun et al. Keyword extraction method for complex nodes based on TextRank algorithm
Senthilkumar et al. A Survey On Feature Selection Method For Product Review
Godara et al. Support vector machine classifier with principal component analysis and k mean for sarcasm detection
CN110020439B (zh) 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
Han et al. The application of support vector machine (SVM) on the sentiment analysis of internet posts
CN115827990A (zh) 搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180306

Assignee: Fanyun software (Nanjing) Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980010526

Denomination of invention: A text feature extraction method based on mutual information and association rules

Granted publication date: 20210831

License type: Common License

Record date: 20211011

TR01 Transfer of patent right

Effective date of registration: 20240506

Address after: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee after: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Country or region after: China

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: Room 212, Building 3, No. 2959 Gudai Road, Minhang District, Shanghai, 201199

Patentee after: Shanghai Zhutong Information Technology Co.,Ltd.

Country or region after: China

Address before: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee before: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Country or region before: China

EC01 Cancellation of recordation of patent licensing contract

Assignee: Fanyun software (Nanjing) Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980010526

Date of cancellation: 20240516