CN106202518A - 基于chi和分类别关联规则算法的短文本分类方法 - Google Patents

基于chi和分类别关联规则算法的短文本分类方法 Download PDF

Info

Publication number
CN106202518A
CN106202518A CN201610583443.7A CN201610583443A CN106202518A CN 106202518 A CN106202518 A CN 106202518A CN 201610583443 A CN201610583443 A CN 201610583443A CN 106202518 A CN106202518 A CN 106202518A
Authority
CN
China
Prior art keywords
classification
frequent
text
feature
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610583443.7A
Other languages
English (en)
Other versions
CN106202518B (zh
Inventor
黄文明
莫阳
邓珍荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201610583443.7A priority Critical patent/CN106202518B/zh
Publication of CN106202518A publication Critical patent/CN106202518A/zh
Application granted granted Critical
Publication of CN106202518B publication Critical patent/CN106202518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于CHI和分类别关联规则算法的短文本分类方法,将不同类别文本的频繁词集出现频繁度进行了度量,引入了类别频繁因子(LFF),通过LFF合理分配了各文本类别的最小支持度阈值,克服了传统的FP‑Growth算法挖掘出的频繁词集类别出现偏斜的情况,同时在对频繁词集进行类别倾向判断上,采取了CHI检验算法去衡量特征词与类别之间的关联程度,而非采取简单的词语频率统计去衡量,避免了人工设参和实验确定最佳参数的步骤,增强了分类系统的可控制性。同时还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法,对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计,提升了短文本分类准确率以及分类效率,提高了系统的可控性。

Description

基于CHI和分类别关联规则算法的短文本分类方法
技术领域
本发明涉及自然语言处理和文本挖掘领域,特别涉及一种基于CHI和分类别关联规则算法的短文本分类方法。
背景技术
随着互联网尤其是社交媒体的发展,网络上的文本内容越来越丰富,除了博客、新闻等这样的长文本,由于互联网用户网络话题的参与度逐渐增加,微博、邮件、评论等短文本近年来也呈现爆炸性的增长。不同于长文本,短文本的特点是文本内容较少,其具有特征稀疏、描述信息弱等缺点,导致传统的特征提取、文本表示模型和文本分类方法在短文本上效果不佳。针对此问题,最为直接和有效的途径的方法是对短文本的特征进行扩展,目前的解决方法主要有三种:一是通过借助外部资源(例如搜索引擎)和知识库(例如WordNet)对特征进行扩展,借助网络知识库维基百科抽取相关概念,采用统计规律与类别信息相结合的方式计算概念间的相关度,建立语义相关概念集合;二是结合特征词和隐含主题从两种不同粒度上进行特征词扩展,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集,利用概率主题模型提取待分类文本的主题概率分布,将筛选后的关键词扩展到待分类文本中;三是通过关联规则算法在文本集上进行频繁词集挖掘,构建特征扩展背景知识库。
第三类方法,关联规则算法存在以下不足和待改进之处:
1、在频繁词挖掘阶段,算法应用的对象是整个文本数据集或者是包含多个类别的文本数据集,即在所有类别的文本中,关联规则算法中的参数阈值(如最小支持度)是统一的,而现实的情况是,不同类别的文本中出现固定词语搭配(频繁词集)的频率是不同的,即某些类别(范畴比较大的类别,比如“社会”等)的文本出现的频繁词集支持度较小,而某些类别的文本(小范畴,比如“体育”、“金融”等)中频繁词集往往都集中在某个较小的词语集合中,且支持度值较大,如果在进行频繁词挖掘的过程中使用统一的支持度阈值,会导致频繁词集中的绝大部分频繁项都偏向于小范畴类别,而大范畴类别中的具有代表性的频繁项则会由于最小支持度阈值过大而被忽略。
2、挖掘出具有共现关系的特征项后,传统的做法是未考虑关联特征的类别同向关系,直接对原始文本进行特征扩展,这样会造成噪声特征词的引入,影响分类性能。现有的研究中,是通过人工设置信度阈值计算特征的类别倾向,再根据类别同向关系进行频繁词集的过滤,人工干预过多,阈值难以确定,算法的灵活性和程序的控制性不高。
3、考虑到近年来网络数据量的急剧膨胀,面临海量数据对CPU、IO吞吐等的高要求,传统串行文本分类算法在大文本数据量的环境下计算速度、文件存储、容错性等方面显得力不从心,因此需要研究能够在多节点的大数据计算模式下运行的分布式算法。
发明内容
本发明的目的在于克服上述短文本分类,现有方法中存在的问题和不足,提供一种基于CHI和分类别关联规则算法的短文本分类方法。
为实现本发明目的,一种基于CHI和分类别关联规则算法的短文本分类方法,包括以下步骤:
步骤1:从互联网中采集短文本数据(如评论、微博等),并对其进行预处理,其中包括中文分词、停用词处理等,将处理后的文本数据分为训练集和测试集,并存放到文本数据库;
步骤2:同时从互联网中采集各领域的长文本语料,用以构建特征扩展知识库,并对其进行预处理,存放到文本数据库;
步骤3:根据长文本语料运用关联规则FP-Growth算法,进行初始频繁词集挖掘,以此计算各个类别文本的频繁程度,即类别频繁因子(label frequency factor,LFF);
步骤4:根据每个类别频繁因子分别确定在频繁词挖掘阶段每个类别的最小支持度阈值,再结合关联规则FP-Growth算法进行频繁词集挖掘,构建初始频繁词集合;
步骤5:对初始频繁词集合中的所有共现特征词中的每一个词语计算其与各类别之间的CHI检验值,选出CHI检验值最高的对应类别作为该特征词的类别倾向,最后过滤频繁词集合中词语类别倾向不统一的频繁项,产生高质量的频繁词集,构建最终的特征扩展背景知识库;
步骤6:根据构建完成的特征扩展背景知识库,对短文本训练集和测试集进行特征扩展;
步骤7:运用信息增益特征选择算法提取出的特征词和TFIDF算法构建扩展后的训练集和测试集的向量空间模型VSM,作为输入加入到文本分类器中;
步骤8:根据训练的文本分类器对测试文本进行分类评估,确定最佳特征词数量;
步骤9:根据步骤4和步骤5建立基于MapReduce分布式特征扩展模型,以并行化的方式进行短文本分类中的特征扩展,并与串行算法进行性能对比,验证出并行算法的有效性。
作为本发明的进一步改进,步骤1,2中,分别采集需要的三类文本,即训练集短文本、测试集短文本、各领域类别的长文本,对于长文本语料,如在新闻分类条件需求下,可以将新闻正文内容作为长文本数据集,用于特征扩展知识库建设,将新闻标题数据集进行划分,作为短文本分类的训练集和测试集。
在不同类别的文本环境下,频繁词集出现的支持度往往会有所差异,例如,假设最小支持度阈值为200,在“金融”类别中频繁词集的支持度在200以上的数量超过2000,而在“体育”类别中频繁词集的支持度在200以上的数量不足100。因此针对不同的类别进行频繁词集挖掘,不同类别的最小支持度阈值也应独立设置,对于一些较易出现频繁项的类别,应使其最小支持度大于不易出现频繁项的类别的最小支持度。
作为本发明的进一步改进,步骤3,针对不同的类别进行频繁词集挖掘,构建类别频繁因子概念来衡量某个类别的频繁词集出现的频繁程度,其定义如下:
F r e q u e n c y ( c ) = Σ i = 1 N b a s e sup p o r t ( c a n d i d a t e f r e q u e n t i t e m - s e t s ) i N b a s e - - - ( 1 )
首先,设定一较小的最小支持度阈值supmin,运用关联规则FP-Growth算法按类别挖掘出支持度大于supmin的候选频繁词集Setprimary,其质量较差,作为计算类别频繁因子的依据;再按照支持度大小对Setprimary进行排序,从每个类别中选取其中Nbase个支持度最大的候选频繁词集,取这Nbase个共现词集的平均支持度作为该类别的初始类别频繁因子Frequency(c)primary,对各类别的Frequency(c)primary运用归一化方法进行标准化处理,得到最终的类别频繁因子Frequency(c),式(1)中support(candidatefrequent item-sets)i表示Setprimary中第i个候选频繁词集的支持度值。
作为本发明的进一步改进,步骤4中,根据每个类别的频繁因子,取其与设定的标准最小支持度阈值supportbase的乘积作为该类别的最小支持度阈值,其定义如下:
support(ci)=Frequence(ci)*supportbase (2)
再结合关联规则FP-Growth算法,根据类别最小支持度阈值support(ci)进行频繁词集挖掘,构建初始频繁词集合。
作为本发明的进一步改进,步骤5中,对初始频繁词集合(Extension_Knowledge_Base(Extension_KB)中的所有共现特征词集FrequentWordSet中的每一个词语,采用CHI检验算法计算其与各个类别的相关性度量即所述的类别倾向,若频繁词集FrequentWordSet中出现某个词语的类别倾向与当前类别不一致,便从Extension_KB中过滤出该频繁词集,得出过滤后的最终的特征扩展背景知识库Filter_Extension_KB(分类别)。
作为本发明的进一步改进,步骤6根据构建完成的特征扩展背景知识库Fil ter_Extension_KB,对短文本训练集和测试集进行扩展,其方法是:设原始训练集文本特征集合为textp={w1,w2,w3,......,wi},该文本所属类别设为wi表示文本中第i个特征,对于textp中每一个特征wi,扫描类别对应的背景知识库Filter_Extension_KB,查找与wi对应的频繁词集{wi,,...,wt},将wt作为扩展特征加入到原始文本集中,对于测试集的扩展,由于其缺少类别标签,因此需要扫描整个Filter_Extension_KB,查找对应频繁词集。
作为本发明的进一步改进,步骤9中,频繁因子的计算模型分为两个Map/Reduce阶段,首先Map的输入为<事务,null>的键值对,通过Map函数生成以事务项为键,1为值的中间结果,经过shuffle排序后输入到Reduce函数,经过按key累加之后,得到各个事务项与其支持度的<key,Value>结果;频繁模式挖掘发生在第二个Map/Reduce阶段,按照平衡分组将第一阶段的结果分成若干分片,每个Map函数对应一个分组,得到中间计算结果,最后在Reduce函数里进行结果汇总和排序并根据设定的supmin进行频繁项集过滤,每个类别得到Nbase个支持度最大的候选频繁词集,并对每个类别Nbase个支持度均值进行标准化处理得到各类别频繁因子。
作为本发明的进一步改进,步骤9基于MapReduce的分布式特征扩展模型,首先从HDFS(Hadoop中的分布式文件系统)中读取文本数据集(包括训练集和测试集)和特征扩展背景知识库,Map函数的输入为<textn,null>的键值对和切分后的背景知识库,在Map函数中将textn与背景知识库进行匹配,得到扩展的中间结果<textm,expendm>,经过分区、排序处理后输入Reduce函数进行merge操作,得到<texti,expend1,expend2,...,expendj>的最终扩展文本,并存储在HDFS中。
本发明针对传统文本分类方法在短文本语料上分类效果欠佳问题,在现有的特征扩展解决方法上,对传统的关联规则FP-Growth算法进行了改进,将不同类别文本的频繁词集出现频繁度进行了度量,引入了类别频繁因子(LFF),通过LFF合理分配了各文本类别的最小支持度阈值,克服了传统的FP-Growth算法挖掘出的频繁词集类别出现偏斜的情况,同时在对频繁词集(即挖掘出的共现特征词组)进行类别倾向判断上,采取了CHI检验算法去衡量特征词与类别之间的关联程度,而非采取简单的词语频率统计去衡量,避免了人工设参和实验确定最佳参数的步骤,增强了分类系统的可控制性。同时考虑到单节点串行文本分类算法在大数据集文本条件下,计算性能不足的瓶颈问题,本发明还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法,对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计。
本发明方法主要考虑短文本分类的分类性能问题,实际意义在于解决短文本分类描述性弱、表征性不足的缺陷,基于改进的关联规则算法和有效的特征扩展库过滤规则,结合Hadoop/MapReduce并行化设计,提升了短文本分类准确率以及分类效率,提高了系统的可控性。
附图说明
图1为本发明基于CHI和分类别关联规则算法的短文本分类方法的整体流程图;
图2为图1步骤3的流程图;
图3为本发明基于改进特征扩展的短文本分类方法中特征扩展库的建立和过滤、以及文本特征扩展模型;
图4为本发明短文本分类方法中MapReduce化的并行频繁因子计算模型;
图5为本发明短文本分类方法中MapReduce化的并行特征扩展模型;
图6为本发明实施例全局FP-Growth算法和基于频繁因子的FP-Growth算法的频繁词集类别倾斜性对比;
图7为本发明实施例经过特征扩展的文本分类的准确率、召回率、宏平均F值评估;
图8为本发明实施例基于MapReduce的并行特征扩展算法与串行算法的分类效率对比。
具体实施方式
下面结合附图和实施例对本发明内容作进一步详细说明,但不是对本发明的限定。
参照图1,基于CHI和分类别关联规则算法的短文本分类方法,包括如下步骤:
ST1:从互联网中采集短文本数据(如评论、微博等),并对其进行预处理,其中包括中文分词、停用词处理等,将处理后的文本数据分为训练集和测试集,并存放到文本数据库。
ST2:同时从互联网中采集各领域的长文本语料,用以构建特征扩展知识库,并对其进行预处理,存放到文本数据库。
ST3:根据长文本语料运用关联规则FP-Growth算法,进行初始频繁词集挖掘,以此计算各个类别文本的频繁程度,即类别频繁因子(label frequency factor,LFF);
ST301:首先设定一较小的最小支持度阈值supmin,运用关联规则FP-Growth算法按类别挖掘出支持度大于supmin的候选频繁词集Setprimary(质量较差,作为计算类别频繁度的依据),按照支持度大小对Setprimary进行排序;
ST302:从每个类别中选取其中Nbase个支持度最大的候选频繁词集,取这Nbase个共现词集的平均支持度作为该类别的初始类别频繁因子Frequency(c)primary,对各类别的Frequency(c)primary运用归一化方法进行标准化处理,得到最终的类别频繁因子Frequency(c),support(candidate frequent item-sets)i表示Setprimary中第i个候选频繁词集的支持度值。
下面是类别频繁因子的算法描述:
说明:supmin是人为设定的最小支持度阈值,Tc是各类别的事务数据库集合,Setprimary是Tc支持度大于supmin的候选频繁项集合,sup(candidate sets)i是Setprimary中第i个候选频繁词集的支持度。
输入:各类别原始特征构成的事务数据库集合Tc,supmin
输出:各类别的类别频繁因子集合Frequency(c)
ST4:根据每个类别频繁因子分别确定在频繁词挖掘阶段每个类别的最小支持度阈值,再结合关联规则FP-Growth算法进行频繁词集挖掘,构建初始频繁词集合。
ST5:根据步骤ST302中计算的各类别的频繁因子,取其与设定的标准最小支持度的乘积作为类别的最小支持度,结合FP-Growth即LFF_FP-Growth算法按类别进行频繁词集挖掘,构成初始频繁词集即未经类别同向过滤的分类别的特征扩展背景知识库Extension_Knowledge_Base(Extension_KB),并采用CHI检验计算各个类别Extension_KB每一对频繁词集FrequentWordSet中的每个词语项与每个类别的相关性度量即上文所述的类别倾向,去除类别倾向不统一的频繁词集,得到过滤后的特征扩展背景知识库Filter_Extension_KB(分类别),算法描述如下:
说明:{Frequency(c)}是类别频繁因子,Tc是各类别的事务数据库集合,supportbase是人为设定的标准最小支持度阈值,{class}是文本类别集合。
输入:{Frequency(c)},Tc
输出:过滤后的高质量背景知识库Filter_Extension_KB
ST6:构建完成特征扩展背景知识库后,分别对训练集和测试集进行特征扩展,其方法是:设原始训练集文本特征集合为textp={w1,w2,w3,......,wi},该文本所属类别设为wi表示文本中第i个特征,对于textp中每一个特征wi,扫描类别对应的背景知识库Filter_Extension_KB,查找与wi对应的频繁词集{wi,,...,wt},将wt作为扩展特征加入到原始文本集中。对于测试集的扩展,由于其缺少类别标签,因此需要扫描整个Filter_Extension_KB,查找对应频繁词集。
算法描述如下:
说明:trainp={w1,w2,w3,......,wi}是原始训练文本集,testp={w1,w2,w3,......,wj}是原始测试文本集,class(trainp)是该训练文本所属类别,extend_train,extend_test:扩展的训练集和测试集。
输入:trainp,testpFilter_Extension_KB
输出:extend_train,extend_test,testp
ST7:运用信息增益特征选择算法提取出的特征词和TFIDF算法构建扩展后的训练集和测试集的向量空间模型VSM,作为输入加入到文本分类器中。
ST8:根据训练的文本分类器对测试文本进行分类评估,确定最佳特征词数量,以及在频繁词挖掘过程中最佳的最小支持度阈值。
ST9:基于上述特征扩展方法,建立基于MapReduce分布式特征扩展模型(如图4、图5所示),以并行化的方式进行短文本分类中的特征扩展,并与串行算法进行性能对比,验证出并行算法的有效性。
实施例:
基于CHI和分类别关联规则算法的新闻标题分类方法。
数据集包含5个类别(娱乐、金融、体育、IT、女性)的新闻标题和正文,共3万条文本,其中,训练数据2万条新闻标题,测试数据1万条新闻标题,其中取2万条训练数据的正文作为长文本用作特征扩展知识库建设。
类别频繁因子:
由图6可以看出,若设置统一的最小支持度阈值进行频繁词集挖掘,各类别的频繁词集数量差异很大。图中统一最小支持度阈值为800,5个类别共挖掘出1025个频繁词集,仅金融类别的频繁项数量就有1022个,占到了99.7%,频繁词集类别偏斜问题较为严重,以此为基础构建背景知识库在对各类别文本进行特征扩展时,会造成训练集、测试集的扩展特征分布及其不均衡。而采用了类别频繁因子的分类别关联规则算法挖掘出的频繁词集数量则分布较为均衡,且各类别的频繁词集数量均能达到一个合理的水平,能够较大限度地挖掘出各类别中具有较强表征性的频繁词集,从而构建健壮的、高质量的背景知识库。
实施例特征扩展影响评估:
在本实例中,由于文本数据集通常具有高维度的特点,为了降低向量空间模型规模、同时避免过拟合和减少计算复杂度,需要对特征进行降维处理即特征词选择,此处采用效果较好的信息增益算法,而特征词的数量则较难通过理论验证去确定,本实施例中选取了数量为500、1000、1500、2000、2500、3000的特征词去评估分类效果。同时,在频繁词集挖掘过程中,标准最小支持度supportbase是人为设定的,因此也需要根据分类效果进行评估,选取最优的阈值。
由图7可以看出,基于本发明提出的改进特征扩展模型,在构建背景知识库的基础上对原始数据集进行特征扩展后再进行分类模型训练,对于短文本分类的准确率、召回率、F1-score值等重要分类评价指标均保持在较高的水平,在实例所选的5个类别上,经过特征扩展的分类算法在特征词数量为500、1000、1500、2000、2500、3000条件下平均查准率的均值为86.17%;平均召回率均值为79.93%;宏平均macro-F1值均值为0.8269。由此可见,本发明所采用的的特征扩展方法能够有效对训练集和测试集的短文本进行扩展,对于加强每条文本对类别的表征能力有较好的效果,一定程度上克服了短文本特征稀疏、描述信息弱的缺陷。
实施例并行化算法影响评估:
Hadoop/MapRecude计算模型适合于处理单机无法处理的海量数据集,通过Map任务将一个任务分解成为多个任务,通过reduce将分解后多任务处理的结果汇总起来。针对本发明中的特征扩展的并行化处理,本实施例使用了如下软件环境和硬件环境的节点:操作系统CentOS6.5、Hadoop版本2.4、JDK1.8;硬件环境为:Master节点1个,Slave节点6个,其中每个节点的配置为4核Intel(R)Xeon(R)CPUE-3-1 241v3处理器、100.0Mbps网卡、2G内存。实例结果如图8所示。
由图8可以看出,基于Hadoop/MapReduce的并行特征扩展分类算法的分类效率较串行算法有极大提升,在实验中设置的7个MapReduce作业工作节点的条件下,运行时间平均下降了5.5倍,且当特征词数量逐渐增大时,并行算法的加速性能越明显,当特征词数量为3000时,串行算法运行时间是并行算法的5.7倍。提升速度呈现上升趋势,因为实例中采用的数据量有限,而Hadoop/MapReduce计算模型在数据量较大的时候优势才更加明显,因此实例成功验证了基于MapReduce的特征扩展短文本分类方法的有效性。

Claims (7)

1.一种基于CHI和分类别关联规则算法的短文本分类方法,其特征在于包括以下步骤:
步骤1:从互联网中采集短文本数据,并对其进行预处理,将处理后的文本数据分为训练集和测试集,并存放到文本数据库;
步骤2:同时从互联网中采集各领域的长文本语料,用以构建特征扩展知识库,并对其进行预处理,存放到文本数据库;
步骤3:根据长文本语料运用关联规则FP-Growth算法,进行初始频繁词集挖掘,以此计算各个类别文本的频繁程度,即类别频繁因子LFF;
步骤4:根据每个类别频繁因子分别确定在频繁词挖掘阶段每个类别的最小支持度阈值,再结合关联规则FP-Growth算法进行频繁词集挖掘,构建初始频繁词集合;
步骤5:对初始频繁词集合中的所有共现特征词中的每一个词语计算其与各类别之间的CHI检验值,选出CHI检验值最高的对应类别作为该特征词的类别倾向,最后过滤频繁词集合中词语类别倾向不统一的频繁项,产生高质量的频繁词集,构建最终的特征扩展背景知识库;
步骤6:根据构建完成的特征扩展背景知识库,对短文本训练集和测试集进行特征扩展;
步骤7:运用信息增益特征选择算法提取出的特征词和TFIDF算法构建扩展后的训练集和测试集的向量空间模型VSM,作为输入加入到文本分类器中;
步骤8:根据训练的文本分类器对测试文本进行分类评估,确定最佳特征词数量;
步骤9:根据步骤4和步骤5建立基于MapReduce分布式特征扩展模型,以并行化的方式进行短文本分类中的特征扩展,并与串行算法进行性能对比,验证出并行算法的有效性。
2.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法,其特征在于:步骤3针对不同的类别进行频繁词集挖掘,构建类别频繁因子概念来衡量某个类别的频繁词集出现的频繁程度,其定义如下:
F r e q u e n c y ( c ) = &Sigma; i = 1 N b a s e sup p o r t ( c a n d i d a t e f r e q u e n t i t e m - s e t s ) i N b a s e - - - ( 1 )
首先,设定一较小的最小支持度阈值supmin,运用关联规则FP-Growth算法按类别挖掘出支持度大于supmin的候选频繁词集Setprimary,其质量较差,作为计算类别频繁因子的依据;再按照支持度大小对Setprimary进行排序,从每个类别中选取其中Nbase个支持度最大的候选频繁词集,取这Nbase个共现词集的平均支持度作为该类别的初始类别频繁因子Frequency(c)primary,对各类别的Frequency(c)primary运用归一化方法进行标准化处理,得到最终的类别频繁因子Frequency(c),式(1)中support(candidate frequent item-sets)i表示Setprimary中第i个候选频繁词集的支持度值。
3.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法,其特征在于:步骤4中,根据每个类别的频繁因子,取其与设定的标准最小支持度阈值supportbase的乘积作为该类别的最小支持度阈值,其定义如下:
support(ci)=Frequence(ci)*supportbase (2)
再结合关联规则FP-Growth算法,根据类别最小支持度阈值support(ci)进行频繁词集挖掘,构建初始频繁词集合。
4.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法,其特征在于:步骤5中,对初始频繁词集合中的所有共现特征词集FrequentWordSet中的每一个词语,采用CHI检验算法计算其与各个类别的相关性度量即所述的类别倾向,若频繁词集FrequentWordSet中出现某个词语的类别倾向与当前类别不一致,便从初始频繁词集合中过滤出该频繁词集,得出过滤后的最终的特征扩展背景知识库。
5.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法,其特征在于:步骤6根据构建完成的特征扩展背景知识库,对短文本训练集和测试集进行扩展,其方法是:设原始训练集文本特征集合为textp={w1,w2,w3,......,wi},该文本所属类别设为wi表示文本中第i个特征,对于textp中每一个特征wi,扫描类别对应的背景知识库Filter_Extension_KB,查找与wi对应的频繁词集{wi,,...,wt},将wt作为扩展特征加入到原始文本集中,对于测试集的扩展,由于其缺少类别标签,因此需要扫描整个Filter_Extension_KB,查找对应频繁词集。
6.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法,其特征在于:步骤9中,频繁因子的计算模型分为两个Map/Reduce阶段,首先Map的输入为<事务,null>的键值对,通过Map函数生成以事务项为键,1为值的中间结果,经过shuffle排序后输入到Reduce函数,经过按key累加之后,得到各个事务项与其支持度的<key,Value>结果;频繁模式挖掘发生在第二个Map/Reduce阶段,按照平衡分组将第一阶段的结果分成若干分片,每个Map函数对应一个分组,得到中间计算结果,最后在Reduce函数里进行结果汇总和排序并根据设定的supmin进行频繁项集过滤,每个类别得到Nbase个支持度最大的候选频繁词集,并对每个类别Nbase个支持度均值进行标准化处理得到各类别频繁因子。
7.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法,其特征在于:步骤9基于MapReduce的分布式特征扩展模型,首先从HDFS中读取文本数据集和特征扩展背景知识库,Map函数的输入为<textn,null>的键值对和切分后的背景知识库,在Map函数中将textn与背景知识库进行匹配,得到扩展的中间结果<textm,expendm>,经过分区、排序处理后输入Reduce函数进行merge操作,得到<texti,expend1,expend2,...,expendj>的最终扩展文本,并存储在HDFS中。
CN201610583443.7A 2016-07-22 2016-07-22 基于chi和分类别关联规则算法的短文本分类方法 Active CN106202518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610583443.7A CN106202518B (zh) 2016-07-22 2016-07-22 基于chi和分类别关联规则算法的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610583443.7A CN106202518B (zh) 2016-07-22 2016-07-22 基于chi和分类别关联规则算法的短文本分类方法

Publications (2)

Publication Number Publication Date
CN106202518A true CN106202518A (zh) 2016-12-07
CN106202518B CN106202518B (zh) 2019-07-30

Family

ID=57492818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610583443.7A Active CN106202518B (zh) 2016-07-22 2016-07-22 基于chi和分类别关联规则算法的短文本分类方法

Country Status (1)

Country Link
CN (1) CN106202518B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897437A (zh) * 2017-02-28 2017-06-27 北明智通(北京)科技有限公司 一种知识系统的高阶规则多分类方法及其系统
CN107092675A (zh) * 2017-04-12 2017-08-25 新疆大学 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN107909376A (zh) * 2017-12-05 2018-04-13 国网山东省电力公司济南供电公司 一种电力系统用户满意度反馈系统
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN108874974A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于频繁词集的并行化话题跟踪方法
CN109002532A (zh) * 2018-07-17 2018-12-14 电子科技大学 基于学生数据的行为趋势挖掘分析方法和系统
CN109145285A (zh) * 2017-06-19 2019-01-04 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109992667A (zh) * 2019-03-26 2019-07-09 新华三大数据技术有限公司 一种文本分类方法以及装置
CN110019639A (zh) * 2017-07-18 2019-07-16 腾讯科技(北京)有限公司 数据处理方法、装置及存储介质
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110705247A (zh) * 2019-08-30 2020-01-17 山东科技大学 基于χ2-C的文本相似度计算方法
CN111400432A (zh) * 2020-06-04 2020-07-10 腾讯科技(深圳)有限公司 事件类型信息处理方法、事件类型识别方法及装置
CN111611390A (zh) * 2020-06-11 2020-09-01 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN112100377A (zh) * 2020-09-14 2020-12-18 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN112132145A (zh) * 2020-08-03 2020-12-25 深圳大学 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN112199499A (zh) * 2020-09-29 2021-01-08 京东方科技集团股份有限公司 文本划分方法、文本分类方法、装置、设备及存储介质
CN112307206A (zh) * 2020-10-29 2021-02-02 青岛檬豆网络科技有限公司 一种关于新技术的领域分类方法
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN113254755A (zh) * 2021-07-19 2021-08-13 南京烽火星空通信发展有限公司 一种基于分布式框架的舆情并行关联挖掘方法
CN113673889A (zh) * 2021-08-26 2021-11-19 上海罗盘信息科技有限公司 一种智能化数据资产识别的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪正嘉: "基于Apriori算法的短文本分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897437A (zh) * 2017-02-28 2017-06-27 北明智通(北京)科技有限公司 一种知识系统的高阶规则多分类方法及其系统
CN106897437B (zh) * 2017-02-28 2020-04-03 北明智通(北京)科技有限公司 一种知识系统的高阶规则多分类方法及其系统
CN107092675A (zh) * 2017-04-12 2017-08-25 新疆大学 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN107092675B (zh) * 2017-04-12 2020-08-18 新疆大学 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN109145285A (zh) * 2017-06-19 2019-01-04 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN109145285B (zh) * 2017-06-19 2023-01-31 通用汽车环球科技运作有限责任公司 短语提取文本分析方法和系统
CN110019639A (zh) * 2017-07-18 2019-07-16 腾讯科技(北京)有限公司 数据处理方法、装置及存储介质
CN110019639B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 数据处理方法、装置及存储介质
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN107909376A (zh) * 2017-12-05 2018-04-13 国网山东省电力公司济南供电公司 一种电力系统用户满意度反馈系统
CN108280206B (zh) * 2018-01-30 2020-05-26 尹忠博 一种基于语义增强的短文本分类方法
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN108874974A (zh) * 2018-06-08 2018-11-23 成都云数未来信息科学有限公司 基于频繁词集的并行化话题跟踪方法
CN109002532A (zh) * 2018-07-17 2018-12-14 电子科技大学 基于学生数据的行为趋势挖掘分析方法和系统
CN109992667A (zh) * 2019-03-26 2019-07-09 新华三大数据技术有限公司 一种文本分类方法以及装置
CN109992667B (zh) * 2019-03-26 2021-06-08 新华三大数据技术有限公司 一种文本分类方法以及装置
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110705247A (zh) * 2019-08-30 2020-01-17 山东科技大学 基于χ2-C的文本相似度计算方法
CN111400432A (zh) * 2020-06-04 2020-07-10 腾讯科技(深圳)有限公司 事件类型信息处理方法、事件类型识别方法及装置
CN111400432B (zh) * 2020-06-04 2020-09-25 腾讯科技(深圳)有限公司 事件类型信息处理方法、事件类型识别方法及装置
CN111611390B (zh) * 2020-06-11 2023-11-17 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN111611390A (zh) * 2020-06-11 2020-09-01 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN112132145A (zh) * 2020-08-03 2020-12-25 深圳大学 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN112132145B (zh) * 2020-08-03 2023-08-01 深圳大学 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112560900B (zh) * 2020-09-08 2023-01-20 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112100377A (zh) * 2020-09-14 2020-12-18 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN112100377B (zh) * 2020-09-14 2024-03-29 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN112199499A (zh) * 2020-09-29 2021-01-08 京东方科技集团股份有限公司 文本划分方法、文本分类方法、装置、设备及存储介质
CN112307206A (zh) * 2020-10-29 2021-02-02 青岛檬豆网络科技有限公司 一种关于新技术的领域分类方法
CN113254755B (zh) * 2021-07-19 2021-10-08 南京烽火星空通信发展有限公司 一种基于分布式框架的舆情并行关联挖掘方法
CN113254755A (zh) * 2021-07-19 2021-08-13 南京烽火星空通信发展有限公司 一种基于分布式框架的舆情并行关联挖掘方法
CN113673889A (zh) * 2021-08-26 2021-11-19 上海罗盘信息科技有限公司 一种智能化数据资产识别的方法

Also Published As

Publication number Publication date
CN106202518B (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN106202518A (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN104391835B (zh) 文本中特征词选择方法及装置
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN106844424A (zh) 一种基于lda的文本分类方法
US20040220963A1 (en) Object clustering using inter-layer links
CN106446230A (zh) 一种优化机器学习文本中词语分类的方法
Chen et al. Web question answering with neurosymbolic program synthesis
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN105612515A (zh) 矛盾表现收集装置以及用于其的计算机程序
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
CN111090811A (zh) 一种海量新闻热点话题提取方法和系统
CN106777193A (zh) 一种自动撰写特定稿件的方法
CN106503153A (zh) 一种计算机文本分类体系、系统及其文本分类方法
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN107679209A (zh) 分类表达式生成方法和装置
CN107679244A (zh) 文本分类方法及装置
Bao et al. Predicting paper acceptance via interpretable decision sets
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
Gupta et al. Feature selection: an overview
Asa et al. A comprehensive survey on extractive text summarization techniques
CN115098690A (zh) 一种基于聚类分析的多数据文档分类方法及系统
Punitha et al. Partition document clustering using ontology approach
CN107358494A (zh) 一种基于大数据的客户需求信息挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20161207

Assignee: Guilin Hanchen Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000390

Denomination of invention: Short Text Classification Based on CHI and Classification Association Rules Algorithm

Granted publication date: 20190730

License type: Common License

Record date: 20221226