CN107766323A - 一种基于互信息和关联规则的文本特征提取方法 - Google Patents

一种基于互信息和关联规则的文本特征提取方法 Download PDF

Info

Publication number
CN107766323A
CN107766323A CN201710796425.1A CN201710796425A CN107766323A CN 107766323 A CN107766323 A CN 107766323A CN 201710796425 A CN201710796425 A CN 201710796425A CN 107766323 A CN107766323 A CN 107766323A
Authority
CN
China
Prior art keywords
text
feature
word
collection
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710796425.1A
Other languages
English (en)
Other versions
CN107766323B (zh
Inventor
朱全银
严云洋
胡荣林
李翔
瞿学新
唐海波
赵阳
高阳
钱凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhutong Information Technology Co.,Ltd.
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201710796425.1A priority Critical patent/CN107766323B/zh
Publication of CN107766323A publication Critical patent/CN107766323A/zh
Application granted granted Critical
Publication of CN107766323B publication Critical patent/CN107766323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了本发明公开了一种基于互信息和关联规则的文本特征提取方法,步骤为:首先以文本分词、过滤停用词以及2‑Gram方法对文本训练集预处理,其次,通过改进的互信息方法对预处理后的文本训练集计算特征值,按特征值降序排列选取前m个词,从而得到初始的文本特征集,采用FP‑Growth计算预处理后的文本训练集中词的关联规则,并以关联规则去除初始文本特征集中冗余的特征,最后,结合关联规则和One‑hot方法对每个文本向量化表示。本发明避免了文本特征间的冗余及互信息方法缺点对提取文本特征的影响。

Description

一种基于互信息和关联规则的文本特征提取方法
技术领域
本发明属于自然语言处理的技术领域,特别涉及一种基于互信息和关联规则的文本特征提取方法。
背景技术
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息和图像信息等。如何在纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。目前,各国学者利用统计分析,机器学习,数据挖掘等领域的方法对其进行处理,通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此,如何能够有效地避免将噪声特征纳入机器学习流程,提高了文本分类的精度领域最重要的研究方向之一。
目前,常用的文本特征提取方法TF-IDF、信息增益、互信息、期望交叉熵和文本证据权等方法。然而目前常用的文本特征提取方法没有考虑词汇语义上重要性。为了解决这一问题,本发明提供了一种基于互信息和关联规则的文本特征提取方法。
严云洋和朱全银等人已有的研究基础包括:严云洋,吴茜茵,杜静,周静波,刘以安.基于色彩和闪频特征的视频火焰检测.计算机科学与探索,2014,08(10):1271-1279;SGao,J Yang,Y Yan.A novel multiphase active contour model for inhomogeneousimage segmentation.Multimedia Tools and Applications,2014,72(3):2321-2337;SGao,J Yang,Y Yan.A local modified chan–vese model for segmentinginhomogeneous multiphase images.International Journal of Imaging Systems andTechnology,2012,22(2):103-113;刘金岭,严云洋.基于上下文的短信文本分类方法.计算机工程,2011,37(10):41-43;严云洋,高尚兵,郭志波,盛明超.基于视频图像的火灾自动检测.计算机应用研究,2008,25(4):1075-1078YYan,Z Guo,J Yang.Fast Feature ValueSearching for Face Detection.Computer and Information Science,2008,1(2):120-128;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independentFeature Selection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling andDisturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银等人申请、公开与授权的相关专利:朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格分类方法.中国专利:ZL201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格分类方法.中国专利:ZL 201110422274.6,2013.01.02;朱全银,尹永华,严云洋,曹苏群等,一种基于神经网络的多品种商品价格分类的数据预处理方法.中国专利:ZL201210325368.6;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08;曹苏群,朱全银,左晓明,高尚兵等人,一种用于模式分类的特征选择方法.中国专利公开号:CN 103425994 A,2013.12.04;朱全银,严云洋,李翔,张永军等人,一种用于文本分类和图像深度挖掘的科技情报获取与推送方法.中国专利公开号:CN 104035997 A,2014.09.10;朱全银,辛诚,李翔,许康等人,一种基于K means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480 A,2016.12.07。
TF-IDF:
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。
互信息:
互信息(MutualInformation,MI)是信息论中的重要概念,在文本分类领域,它用于度量特征t与类别c之间的统计相关度。使用互信息进行特征提取的核心思想是:在某个类别出现频率高,而在其他类别出现频率低的词条对于类别的贡献较大。互信息计算公式可以表示为:
式中,互信息MI(ti,cj)表示特征ti与cj的相关度,P(ti,ci)表示包含特征ti且属于类别cj的文档数量,P(ti)表示训练文本集中特征ti出现的概率,P(cj)表示整个训练文本集中类别cj出现概率。
FP-Growth:
关联规则是由Agrawal等人提出,它反映了大量数据中项目集之间的关联或相关联系。发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。近年来,在频繁项目集中的算法研究先后出现了Apriori、AIS及PARTITION等挖掘算法,在众多算法中,FP-Growth算法最为著名。FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集压缩到一棵频繁模式树,但仍保留关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。图1为FP-Tree树的结构。
现有传统的文本特征提取方法有TF-IDF、互信息、信息增益和卡方检验等。互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性等。因此需要找到一种方法能够有效的解决同义词在文本特征上的方法。
在现有互信息提取文本特征中,往往都只解决了上述几个问题中的部分问题。
如中国专利文献号CN 201511018702.3,公开日2016-06-22,公开了一种基于互信息的文本分类的特征提取方法,该方法通过结合TF-IDF和互信息提取特征。尽管该文献中的方法,能够提取文本的特征,并相比为改进的互信息方法有所提高,但该方法为考虑提取特征的冗余性、词在不同分类别的分布以及不均衡文本数据的情况,不能有效的提取文本特征和减小特征间冗余度。
中国专利文献号CN201310138475.2,授权日2016-08-10,公开了一种基于分布式互信息文档特征提取方法,该方法通过结合TF-IDF和互信息提取特征,并通过Mapreduce减少提取文本特征的时间消耗。尽管该文献中的方法减少了在特征提取上的时间花费,并结合TF-IDF对互信息提取特征包含低频词的不足进行了改进,但该方法在词不同类别的分布和特征间的冗余度未考虑,从而不能有效的保留文本的信息量。
中国专利文献号CN201310129008.3,公开日2014-03-26,公开了一种基于改进互信息和熵的文本分类特征提取方法,该方法通过结合互信息和信息熵对特征评估从而选取特征。尽管该文献中的方法,考虑了传统互信息提取特征时包含很多的低频词,并结合了信息熵解决该不足,但该方法未考虑特征间的冗余度,这使得提取的特征,部分词与词之间具有一定的关联性,从而提取的特征未能有效的保留文本的信息。
综上所述,研究发明一种能改进传统互信息的不足以及减小提取特征间的冗余,进而有效的改善文本分类模型的有效性是十分必要的。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种避免了传统互信息模型未考虑词频和文本在不同类别之间分布的差异性以及减少词与词之间的冗余,将互信息、词频和FP-Growth结合的方法有效的基于互信息和关联规则的文本特征提取方法。
技术方案:为解决上述技术问题,本发明提供一种基于互信息和关联规则的文本特征提取方法,其特征在于,包括如下步骤:
步骤一:定义文本数据集和停用词集,并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理,得到预处理后的文本训练集;
步骤二:通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值,并将特征值降序排列,筛选出前m个词,得到初始的文本特征集;
步骤三:通过FP-Growth方法,计算步骤一中得出的预处理后的文本训练集中每个词的关联规则,并以关联规则去除步骤二中得出的初始的文本特征集中冗余的特征,使用One-hot方法和关联规则对文本向量化表示,得到每个文本的向量化集。
进一步的,所述步骤一中得到文本训练集的具体步骤如下:
步骤1.1:定义文本数据集Txt={p1,p2,p3,……,pnum}和对应Txt中每个文本类别的标签集Y={y1,y2,y3,……,ynum},其中,第pi个文本ppi对应的类别为Ypi,num为文本数量,pi∈[1,num];
步骤1.2:定义文本停用词集SWORD={swd1,swd2,swd3,……,swdsw};
步骤1.3:对Txt集中的每个文本分词并过滤停用词集SWORD,得到FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}为第fi篇文本pfi分词过滤后的词集,fi∈[1,s];
步骤1.4:采用2-Gram方法对FTxt集中每个文本处理,得到文本训练集Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}为ftgi通过2-Gram方法处理后的Gram集,ns>s,
进一步的,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:将步骤1.4得到的预处理后文本训练集Gtrain中每个文本去除重复词,得到词集Term,词集的数量为n,并从步骤1.1中定义的类别标签集Y中,得到文本的类别集C;
步骤2.2:通过公式计算数据集Term中每个词的特征值,并计算特征词Termi在类别集C每个类别下的特征值的方差其中,cn为第j个类别Cj的文档数,num为总的文档数,a为含词Termi且是类别Cj的文档数量,b为含Termi且不是Cj的文档数量,为Termi在每个类别出现的次数,的方差;
步骤2.3:根据特征值集W对特征词集Term降序排列,选取前m个的特征,得到初始文本特征集SelT。
进一步的,所述步骤2.3中特征数量m的阈值为0.3n。
进一步的,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1和L2以及置信度集Cv,其中,L1第ki个词的规则L1ki→L2ki且置信度为Cvki,β默认为0.7;
步骤3.2:将步骤2.3中得到的初始文本特征集SelT过滤L1中的每个词,得到特征集SelR,即,SelR=SelT-L1;
步骤3.3:使用One-hot和关联规则对GTrain中每个文本向量化表示,得到Gtrain集中每个文本的向量化集OT。
进一步的,所述步骤3.1中置信度的阈值为0.7。
进一步的,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:把步骤1.4中得到的预处理后文本训练集GTrain中每个文本去除重复词,得到词集Term={t1,t2,t3,……,tn};从类别标签集Y中,得到文本的类别集C={c1,c2,c3,……,ck},其中,n为Term词集中词的数量,k为类别的个数,k<=num,num为文本数量;
步骤2.2:设ri为循环变量,用于遍历Term,并赋值为1;设W为存储Term中每个词的特征值集,并赋值为空集;
步骤2.3:比较ri与n的大小,当ri<=n时,进入步骤2.4,否则进入步骤2.11;
步骤2.4:设rj为循环变量,用于遍历C,并赋值为1;设df为Termri在C中每个类别的特征值集,赋值为空集;
步骤2.5:比较rj与k的大小,当rj<=k时,进入步骤2.6,否则进入步骤2.9;
步骤2.6:通过公式计算Termri在类别Crj下的特征值,其中,cn为第rj个类别Crj的文档数,a为含词Termri且是类别Crj的文档数量,b为含Termri且不是Crj的文档数量,为Termri在每个类别出现的次数,的方差;
步骤2.7:df=df∪T(Termri,Crj);
步骤2.8:对循环变量rj的数值加一并重新进入步骤2.5进行判断;
步骤2.9:W=W∪cov(df),其中,cov(df)为计算df的方差;
步骤2.10:对循环变量ri的数值加一并重新进入步骤2.3进行判断;
步骤2.11:得到特征值集W={w1,w2,w3,……,wn};
步骤2.12:通过W的特征值对Term降序排列,并且选取前m的特征,得到初始文本特征集SelT={t1,t2,t3,……,tm},其中,默认m=0.3n。
进一步的,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1={r1,r2,……,rf}、L2={r21,r22,……,r2f}和置信度集Cv={cv1,cv2,……,cvf},其中,L1的第ki个词的规则为L1ki→L2ki且置信度为Cvki,ki∈[1,f],β默认为07;
步骤3.2:将步骤2.12得到初始文本特征集SelT过滤L2的每个词,即,SelR=SelT-L1,得到去除冗余特征后的特征集SelR={srt1,srt2,srt3,……,srtwnum},
步骤3.3:设g为循环变量,用于遍历Gtrain,并赋值为1;设OT为存储GTrain中每个文本的向量化集,并赋值为空集;
步骤3.4:比较g与num的大小,当g<=num时,进入步骤3.5,否则进入步骤3.17;
步骤3.5:设ot为存储gtg的向量化表示,赋值ot=[0,0,0,……,0],其中,ot长度为wnum;
步骤3.6:设h为循环变量,并赋值为1,用于遍历特征集SelR;
步骤3.7:比较h与wnum的大小,当h<=wnum时,进入步骤3.8,否则退出循环进入步骤3.15;
步骤3.8:SelR中第h个词为ws,如果ws∈gtg,进入步骤3.9,否则进入步骤3.10;
步骤3.9:把ot在h位置的分量赋值为1,进入步骤3.14;
步骤3.10:对ws进行判断,如果ws∈L1,进入步骤3.11,否则进入步骤3.14;
步骤3.11:ws在L1的位置为loc,ws与L1loc相同,L2loc是指在L2的位置为loc,判断L2loc是否存在于SelR,如果存在进入步骤3.12,否则进入步骤3.14;
步骤3.12:L2loc在SelR中的位置为sloc;
步骤3.13:以Cvloc的概率将向量ot在sloc位置的分量赋值为1,执行步骤3.14;
步骤3.14:对循环变量h的数值加一并重新进入步骤3.7进行判断;
步骤3.15:对循环变量g的数值加一并进入步骤3.16;
步骤3.16:OT=OT∪ot,并且返回步骤3.4;
步骤3.17:得到Gtrain集中每个文本的向量化集OT={ot1,ot2,ot3,……,otnum}。
与现有技术相比,本发明的优点在于:
本发明方法通过词频、互信息和FP-Growth,有效的提取文本的特征词,避免了未考虑词频和文本在不同类别之间分布的差异性等对提取特征词的影响。具体的:首先,以文本分词、过滤停用词以及2-Gram方法对文本预处理,其次,通过改进的互信息方法得到初始的特征值,按特征值降序选取得到m个词,从而得到初始的文本特征,采用FP-Growth计算词与词之间的关联规则,并用关联规则去除文本特征中冗余的特征,最后,结合关联规则和One-hot方法对文本向量化表示。此外,本发明创造性地提出了一种基于互信息和关联规则的文本特征提取方法,用于提取文本的特征,进而有效的改善文本分类模型的有效性。
附图说明
图1为背景技术中FP-Tree树的结构示意图;
图2为本发明的总体流程图;
图3为图1中文本预处理后得到文本训练集的流程图;
图4为图1中得到初始文本特征集的流程图;
图5为图1中对初始特征集去除冗余特征和文本向量化表示的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明技术方案是对文本提取文本特征,首先对待处理的文本集预处理,以文本分词、过滤停用词及2-Gram方法得到预处理后文本集。然后通过改进互信息提取文本特征,得到词特征值,并将词特征值降序,筛选出前m个词,得到初始的文本特征词集。最后通过FP-growth算法计算每个词的关联规则,去除特征词之间的冗余性,并结合One-hot和关联规则对文本进行向量化表示。
如图1-4所示,本发明包括如下步骤:
步骤1:定义文本数据集和停用词集,并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理,得到预处理后的文本训练集,具体的如图2所示:
步骤1.1:定义文本数据集Txt={p1,p2,p3,……,pnum}和类别标签Y={y1,y2,y3,……,ynum},其中,第pi个文本ppi对应的类别为Ypi,num为文本数量,pi∈[1,num];
步骤1.2:定义文本停用词集SWORD={swd1,swd2,swd3,……,swdsw};
步骤1.3:对Txt集中的每个文本分词并过滤停用词集SWORD,得到FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}为第fi篇文本pfi分词过滤后的词集,fi∈[1,s];
步骤1.4:采用2-Gram方法对FTxt集中每个文本处理,得到Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}为ftgi通过2-Gram处理后的Gram集,ns>s,
步骤2:通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值,并将特征值降序排列,筛选出前m个词,得到初始的文本特征集,具体的如图3所示:
步骤2.1:把步骤1.3得到的GTrain中每个文本去除重复词,得到词集Term={t1,t2,t3,……,tn};从类别标签集Y中,得到文本的类别集C={c1,c2,c3,……,ck},其中,n为Term词集中词的数量,k为类别的个数,k<=num,num为文本数量;
步骤2.2:设ri为循环变量,用于遍历Term,并赋值为1;设W为存储Term中每个词的特征值集,并赋值为空集;
步骤2.3:当ri<=n时,则执行步骤2.4,否则执行步骤2.11;
步骤2.4:设rj为循环变量,用于遍历C,并赋值为1;设df为Termri在C中每个类别的特征值集,赋值为空集;
步骤2.5:当rj<=k时,则执行步骤2.6,否则执行步骤2.9;
步骤2.6:通过公式计算Termri在类别Crj下的特征值,其中,cn为第rj个类别Crj的文档数,a为含词Termri且是类别Crj的文档数量,b为含Termri且不是Crj的文档数量,为Termri在每个类别出现的次数,的方差;
步骤2.7:df=df∪T(Termri,Crj);
步骤2.8:循环变量rj=rj+1,并且返回到步骤2.5;
步骤2.9:W=W∪cov(df),其中,cov(df)为计算df的方差;
步骤2.10:循环变量ri=ri+1,并且返回到步骤2.3;
步骤2.11:得到特征值集W={w1,w2,w3,……,wn};
步骤2.12:通过W的特征值对Term降序排列,并且选取前m的特征,得到初始特征SelT={t1,t2,t3,……,tm},其中,默认m=0.3n。
步骤3:通过FP-Growth方法,计算预处理后的文本训练集中每个词的关联规则,并以关联规则去除初始特征集中冗余的特征,使用One-hot方法和关联规则对文本向量化表示,得到每个文本的向量化集,具体的如图4所示:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1={r1,r2,……,rf}、L2={r21,r22,……,r2f}和置信度集Cv={cv1,cv2,……,cvf},其中,L1的第ki个词的规则为L1ki→L2ki且置信度为Cvki,ki∈[1,f],β默认为0.7;
步骤3.2:将步骤2.12得到特征集SelT过滤L2的每个词,即,SelR=SelT-L1,得到去除冗余特征后的特征集SelR={srt1,srt2,srt3,……,srtwnum},
步骤3.3:设g为循环变量,用于遍历Gtrain,并赋值为1;设OT为存储GTrain中每个文本的向量化集,并赋值为空集;
步骤3.4:当g<=num时,则执行步骤3.5,否则执行步骤3.19;
步骤3.5:设ot为存储gtg的向量化表示,赋值ot=[0,0,0,……,0],其中,ot长度为wnum;
步骤3.6:设h为循环变量,并赋值为1,用于遍历特征集SelR;
步骤3.7:如果循环变量h<=wnum,执行步骤3.8,否则退出循环,执行步骤3.17;
步骤3.8:SelR中第h个词为ws;
步骤3.9:如果ws∈gtg,执行步骤3.10,否则执行步骤3.11;
步骤3.10:把ot在h位置的分量赋值为1,执行步骤3.16;
步骤3.11:如果ws∈L1,执行步骤3.12,否则执行步骤3.16;
步骤3.12:ws在L1中的位置为loc;
步骤3.13:如果L2loc∈SelR,执行步骤3.14,否则执行步骤3.16;
步骤3.14:L2loc在SelR中的位置为sloc;
步骤3.15:以Cvloc的概率将向量ot在sloc位置的分量赋值为1,执行步骤3.16;
步骤3.16:循环变量h=h+1,返回步骤3.7;
步骤3.17:循环变量g=g+1,执行步骤3.18;
步骤3.18:OT=OT∪ot,并且返回步骤3.4;
步骤3.19:得到Gtrain集中每个文本的向量化集OT={ot1,ot2,ot3,……,otnum}。
其中,以文本分词、过滤停用词以及2-Gram方法对文本预处理,通过改进的互信息方法得到初始的特征值,按特征值降序选取得到m个词,从而得到初始的文本特征,采用FP-Growth计算词与词之间的关联规则,并用关联规则去除文本特征中冗余的特征,最后,结合关联规则和One-hot方法对文本向量化表示。
其中,步骤1.1到步骤1.4是以文本分词、过滤停用词以及2-Gram方法对文本预处理得到文本数据;步骤2.1到步骤2.12是通过改进的互信息提取文本的特征值,并将词特征值降序,筛选出前m个词,得到初始的文本特征值集;步骤3.1到步骤3.19是用FP-growth算法计算每个词的关联规则,通过关联规则去除特征值集中关联的词,结合One-hot和关联规则对文本进行向量化表示。
为了更好地说明本方法的有效性,通过搜狗语料库中的新闻数据集和网易新闻数据集作为原始数据集,分别通过TF-IDF、互信息、卡方检验以及本专利提出方法进行比较,以Logistic回归作为分类模型,从而比较四种方法的准确率、召回率及F1值。
选用搜狗公开的新闻数据集,选用该数据5000篇新闻,类别数为10。以80%作为训练样本,20%作为测试样本,以传统互信息提取文本特征并分类得到准确率77.2%、召回率77.4%和F1值78.12%,以卡方检验提取文本特征并分类得到准确率77.9%、召回率77.9%和F1值78.41%,以本专利提出的方法提取文本特征并分类得到准确率79.6%、召回率79.3%和F1值79.9%。
选用网易公开的新闻数据集,选用该数据9600篇新闻,类别数为6。以80%作为训练样本,20%作为测试样本,以传统互信息提取文本特征并分类得到准确率94.65%、召回率94.68%和F1值94.7%,以卡方检验提取文本特征并分类得到准确率95.15%、召回率95.15%和F1值95.1568%,以本专利提出的方法提取文本特征并分类得到准确率95.417%、召回率95.416%和F1值95.416%。
本发明可与计算机系统结合,从而自动完成提取文本的特征。
本发明创造性地提出了一种将TF-IDF、词在不同的类别分布的标准差、互信息和FP-Growth方法结合,能够提取特征冗余度小且包含信息量大的文本特征,进而为有效的文本分类。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (8)

1.一种基于互信息和关联规则的文本特征提取方法,其特征在于,包括如下步骤:
步骤一:定义文本数据集和停用词集,并对文本数据集中每个文本分词、2-Gram方法和过滤停用词来预处理,得到预处理后的文本训练集;
步骤二:通过改进的互信息方法提取预处理后的文本训练集中每个词的特征值,并将特征值降序排列,筛选出前m个词,得到初始的文本特征集;
步骤三:通过FP-Growth方法,计算步骤一中得出的预处理后的文本训练集中每个词的关联规则,并以关联规则去除步骤二中得出的初始的文本特征集中冗余的特征,使用One-hot方法和关联规则对文本向量化表示,得到每个文本的向量化集。
2.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤一中得到文本训练集的具体步骤如下:
步骤1.1:定义文本数据集Txt={p1,p2,p3,……,pnum}和对应Txt中每个文本类别的标签集Y={y1,y2,y3,……,ynum},其中,第pi个文本ppi对应的类别为Ypi,num为文本数量,pi∈[1,num];
步骤1.2:定义文本停用词集SWORD={swd1,swd2,swd3,……,swdsw};
步骤1.3:对Txt集中的每个文本分词并过滤停用词集SWORD,得到FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}为第fi篇文本pfi分词过滤后的词集,fi∈[1,s];
步骤1.4:采用2-Gram方法对FTxt集中每个文本处理,得到文本训练集Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}为ftgi通过2-Gram方法处理后的Gram集,ns>s,
3.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:将步骤1.4得到的预处理后文本训练集Gtrain中每个文本去除重复词,得到词集Term,词集的数量为n,并从步骤1.1中定义的类别标签集Y中,得到文本的类别集C;
步骤2.2:通过公式计算数据集Term中每个词的特征值,并计算特征词Termi在类别集C每个类别下的特征值的方差其中,cn为第j个类别Cj的文档数,num为总的文档数,a为含词Termi且是类别Cj的文档数量,b为含Termi且不是Cj的文档数量,为Termi在每个类别出现的次数,的方差;
步骤2.3:根据特征值集W对特征词集Term降序排列,选取前m个的特征,得到初始文本特征集SelT。
4.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤2.3中特征数量m的阈值为0.3n。
5.根据权利要求1所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1和L2以及置信度集Cv,其中,L1第ki个词的规则L1ki→L2ki且置信度为Cvki,β默认为0.7;
步骤3.2:将步骤2.3中得到的初始文本特征集SelT过滤L1中的每个词,得到特征集SelR,即,SelR=SelT-L1;
步骤3.3:使用One-hot和关联规则对GTrain中每个文本向量化表示,得到Gtrain集中每个文本的向量化集OT。
6.根据权利要求5所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤3.1中置信度的阈值为0.7。
7.根据权利要求2所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤二中得到初始文本特征集的具体步骤如下:
步骤2.1:把步骤1.4中得到的预处理后文本训练集GTrain中每个文本去除重复词,得到词集Term={t1,t2,t3,……,tn};从类别标签集Y中,得到文本的类别集C={c1,c2,c3,……,ck},其中,n为Term词集中词的数量,k为类别的个数,k<=num,num为文本数量;
步骤2.2:设ri为循环变量,用于遍历Term,并赋值为1;设W为存储Term中每个词的特征值集,并赋值为空集;
步骤2.3:比较ri与n的大小,当ri<=n时,进入步骤2.4,否则进入步骤2.11;
步骤2.4:设rj为循环变量,用于遍历C,并赋值为1;设df为Termri在C中每个类别的特征值集,赋值为空集;
步骤2.5:比较rj与k的大小,当rj<=k时,进入步骤2.6,否则进入步骤2.9;
步骤2.6:通过公式计算Termri在类别Crj下的特征值,其中,cn为第rj个类别Crj的文档数,a为含词Termri且是类别Crj的文档数量,b为含Termri且不是Crj的文档数量,为Termri在每个类别出现的次数,的方差;
步骤2.7:df=df∪T(Termri,Crj);
步骤2.8:对循环变量rj的数值加一并重新进入步骤2.5进行判断;
步骤2.9:W=W∪cov(df),其中,cov(df)为计算df的方差;
步骤2.10:对循环变量ri的数值加一并重新进入步骤2.3进行判断;
步骤2.11:得到特征值集W={w1,w2,w3,……,wn};
步骤2.12:通过W的特征值对Term降序排列,并且选取前m的特征,得到初始文本特征集SelT={t1,t2,t3,……,tm},其中,默认m=0.3n。
8.根据权利要求7所述的一种基于互信息和关联规则的文本特征提取方法,其特征在于,所述步骤三中得到每个文本的向量化集的具体步骤如下:
步骤3.1:采用FP-Growth对GTrain集中每个文本的每个词计算频繁项为2,且置信度为β的关联规则,得到规则L1={r1,r2,……,rf}、L2={r21,r22,……,r2f}和置信度集Cv={cv1,cv2,……,cvf},其中,L1的第ki个词的规则为L1ki→L2ki且置信度为Cvki,ki∈[1,f],β默认为07;
步骤3.2:将步骤2.12得到初始文本特征集SelT过滤L2的每个词,即,SelR=SelT-L1,得到去除冗余特征后的特征集SelR={srt1,srt2,srt3,……,srtwnum},
步骤3.3:设g为循环变量,用于遍历Gtrain,并赋值为1;设OT为存储GTrain中每个文本的向量化集,并赋值为空集;
步骤3.4:比较g与num的大小,当g<=num时,进入步骤3.5,否则进入步骤3.17;
步骤3.5:设ot为存储gtg的向量化表示,赋值ot=[0,0,0,……,0],其中,ot长度为wnum;
步骤3.6:设h为循环变量,并赋值为1,用于遍历特征集SelR;
步骤3.7:比较h与wnum的大小,当h<=wnum时,进入步骤3.8,否则退出循环进入步骤3.15;
步骤3.8:SelR中第h个词为ws,如果ws∈gtg,进入步骤3.9,否则进入步骤3.10;
步骤3.9:把ot在h位置的分量赋值为1,进入步骤3.14;
步骤3.10:对ws进行判断,如果ws∈L1,进入步骤3.11,否则进入步骤3.14;
步骤3.11:ws在L1的位置为loc,ws与L1loc相同,L2loc是指在L2的位置为loc,判断L2loc是否存在于SelR,如果存在进入步骤3.12,否则进入步骤3.14;
步骤3.12:L2loc在SelR中的位置为sloc;
步骤3.13:以Cvloc的概率将向量ot在sloc位置的分量赋值为1,执行步骤3.14;
步骤3.14:对循环变量h的数值加一并重新进入步骤3.7进行判断;
步骤3.15:对循环变量g的数值加一并进入步骤3.16;
步骤3.16:OT=OT∪ot,并且返回步骤3.4;
步骤3.17:得到Gtrain集中每个文本的向量化集OT={ot1,ot2,ot3,……,otnum}。
CN201710796425.1A 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法 Active CN107766323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710796425.1A CN107766323B (zh) 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710796425.1A CN107766323B (zh) 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法

Publications (2)

Publication Number Publication Date
CN107766323A true CN107766323A (zh) 2018-03-06
CN107766323B CN107766323B (zh) 2021-08-31

Family

ID=61265086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710796425.1A Active CN107766323B (zh) 2017-09-06 2017-09-06 一种基于互信息和关联规则的文本特征提取方法

Country Status (1)

Country Link
CN (1) CN107766323B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240258A (zh) * 2018-07-09 2019-01-18 上海万行信息科技有限公司 基于词向量的汽车故障智能辅助诊断方法和系统
CN109684462A (zh) * 2018-12-30 2019-04-26 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN109739953A (zh) * 2018-12-30 2019-05-10 广西财经学院 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109857866A (zh) * 2019-01-14 2019-06-07 中国科学院信息工程研究所 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
CN112818146A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于产品图像风格的推荐方法
CN113704447A (zh) * 2021-03-03 2021-11-26 腾讯科技(深圳)有限公司 一种文本信息的识别方法以及相关装置
CN113807456A (zh) * 2021-09-26 2021-12-17 大连交通大学 一种基于互信息的特征筛选和关联规则多标记分类算法
CN116644184A (zh) * 2023-07-27 2023-08-25 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN105335785A (zh) * 2015-10-30 2016-02-17 西华大学 一种基于向量运算的关联规则挖掘方法
CN105631462A (zh) * 2014-10-28 2016-06-01 北京交通大学 结合置信度和贡献度的基于时空上下文的行为识别方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678274A (zh) * 2013-04-15 2014-03-26 南京邮电大学 一种基于改进互信息和熵的文本分类特征提取方法
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN105631462A (zh) * 2014-10-28 2016-06-01 北京交通大学 结合置信度和贡献度的基于时空上下文的行为识别方法
CN105335785A (zh) * 2015-10-30 2016-02-17 西华大学 一种基于向量运算的关联规则挖掘方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MARINONI A 等: "《Unsupervised Data Driven Feature Extraction by Means of Mutual Information Maximization》", 《IEEE TRANSACTIONS ON COMPUTATIONAL IMAGING》 *
任建华 等: "《基于词条之间关联关系的文档聚类》", 《计算机工程与应用》 *
熊赟 等: "《大数据挖掘》", 30 April 2016 *
胡可云 等: "《数据挖掘理论与应用》", 30 April 2008 *
陈敏: "《认知计算导论》", 30 June 2017 *
高定国: "《藏文信息处理的原理与应用》", 30 December 2014 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240258A (zh) * 2018-07-09 2019-01-18 上海万行信息科技有限公司 基于词向量的汽车故障智能辅助诊断方法和系统
CN109739953B (zh) * 2018-12-30 2021-07-20 广西财经学院 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109684462A (zh) * 2018-12-30 2019-04-26 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN109739953A (zh) * 2018-12-30 2019-05-10 广西财经学院 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109684462B (zh) * 2018-12-30 2022-12-06 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN109857866A (zh) * 2019-01-14 2019-06-07 中国科学院信息工程研究所 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
CN109857866B (zh) * 2019-01-14 2021-05-25 中国科学院信息工程研究所 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
CN112818146B (zh) * 2021-01-26 2022-12-02 山西三友和智慧信息技术股份有限公司 一种基于产品图像风格的推荐方法
CN112818146A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于产品图像风格的推荐方法
CN113704447A (zh) * 2021-03-03 2021-11-26 腾讯科技(深圳)有限公司 一种文本信息的识别方法以及相关装置
CN113704447B (zh) * 2021-03-03 2024-05-03 腾讯科技(深圳)有限公司 一种文本信息的识别方法以及相关装置
CN113807456A (zh) * 2021-09-26 2021-12-17 大连交通大学 一种基于互信息的特征筛选和关联规则多标记分类算法
CN113807456B (zh) * 2021-09-26 2024-04-09 大连交通大学 一种基于互信息的特征筛选和关联规则多标记分类方法
CN116644184A (zh) * 2023-07-27 2023-08-25 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统
CN116644184B (zh) * 2023-07-27 2023-10-20 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统

Also Published As

Publication number Publication date
CN107766323B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN107766323A (zh) 一种基于互信息和关联规则的文本特征提取方法
CN107220295B (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Berend Opinion expression mining by exploiting keyphrase extraction
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN110442760A (zh) 一种问答检索系统的同义词挖掘方法及装置
CN108280114A (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
CN101609450A (zh) 基于训练集的网页分类方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN105205163B (zh) 一种科技新闻的增量学习多层次二分类方法
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
CN107506472A (zh) 一种学生浏览网页分类方法
CN112633011B (zh) 融合词语义与词共现信息的研究前沿识别方法及设备
CN104778157A (zh) 一种多文档摘要句的生成方法
CN114997288A (zh) 一种设计资源关联方法
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN105117466A (zh) 一种互联网信息筛选系统及方法
Zhou et al. Attention calibration for transformer-based sequential recommendation
Senthilkumar et al. A Survey On Feature Selection Method For Product Review
CN108932247A (zh) 一种优化文本搜索的方法及装置
Ani et al. Estimating gender based on Bengali conventional full name with various machine learning techniques
Majdabadi et al. Twitter trend extraction: a graph-based approach for tweet and hashtag ranking, utilizing no-hashtag tweets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180306

Assignee: Fanyun software (Nanjing) Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980010526

Denomination of invention: A text feature extraction method based on mutual information and association rules

Granted publication date: 20210831

License type: Common License

Record date: 20211011

TR01 Transfer of patent right

Effective date of registration: 20240506

Address after: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee after: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Country or region after: China

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: Room 212, Building 3, No. 2959 Gudai Road, Minhang District, Shanghai, 201199

Patentee after: Shanghai Zhutong Information Technology Co.,Ltd.

Country or region after: China

Address before: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee before: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
EC01 Cancellation of recordation of patent licensing contract

Assignee: Fanyun software (Nanjing) Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980010526

Date of cancellation: 20240516

EC01 Cancellation of recordation of patent licensing contract