背景技术
随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(1abel)集合下,根据文本内容判定它的类别。
文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。
基于机器学习文本分类的基础技术由文本的表示(representation)、分类方法及效果(effectiveness)评估3部分组成。在分类中,文本的表示一般被抽象化为一组特征词,并根据特征词的属性去计算文本的类别。
1、常用的特征选择算法:文档频度(df);信息增益(Information Gain,IG);交叉熵(Cross Entropy);互信息(Mutual Information);χ2统计量(CHI);期望交叉熵,文本证据权优势率,基于词频覆盖度的方法,主分量分析方法等。
2、常用的分类算法有:朴素贝叶斯分类;K近邻(KNN);决策树;支持向量机(SVM)。
3、分类效果评估指标:正确率(precision)、召回率(recall)、均衡点(BEP)、Fβ(常用F1)和精度(accuracy)等。
现有技术文本分类的通用流程包括:将文本的训练语料进行特征选择,特征选择是对文本的特征词进行选择,其特征词选择只是选择有代表性的词,作为分类器的输入,为分类器提供必要的信息;训练器通过学习训练语料,得到特征词和类别的对应关系,并以一定的数学模型表示;输入测试文本到分类器,利用训练器得到的数学模型,为测试文本计算并标注分类号(如图1所示)。
现有专利文献如专利号为:03121034.1名称为《一种文本自动分类方法》公开是一种基于非二元平滑的二元特征权重计算的文本自动分类方法,它将二元权重计算方法引入到基于向量空间模型的线性分类器,并结合复杂的非二元权重对二元权重进行平滑。还有专利申请号为:200410062789.X名称为《一种新的面向文本分类的特征向量权重的方法》公开的技术方案为:按领域训练语料和测试语料,去除网页文本中的一些垃圾、分词、词形标注;从训练语料中提取出每个领域的词表,同时提取出总词表,然后根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表,对测试文本进行分类,优化得到最优阈值,并根据分类结果确定最优的关键词数目。专利申请号为200510086462.0名称为《基于类别概念空间的自动文本分类方法》包括训练阶段和分类阶段,其步骤主要包括构造类别词语矩阵数据,建立每个词语的倒排类别频率数据表,构造有效词语集;构造类别词语矩阵数据;建立每个类别的倒排词语频率数据表;建立基于类别概念空间的词语向量表示;构造类别概念向量空间中的待分类文档向量数据;获得待分类文档的所述类别。上述现有发明技术实施起来比较烦琐,而且分类的准确率不高。
现有技术的技术方案还有以下:
面向中国法的分类,主要应用在文献的数据加工过程。每一批新的文献都要经过分类,然后再存入系统数据库。其实施学术文献的分类主要依靠编辑的人工分类,并经检查后入库,具体流程为:输入新的论文资源;利用该论文的原始专题代码,将其分配给不同专业的编辑;进行人工分类,给出文献的中图分类号;进行网络检查,如果经检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审查;达到合格比例后,按月更新到数据库。
现有技术的缺点:
1、分类号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低;大量的人员常年从事着重复性的劳动,造成比较严重的资源浪费。
2、人工分类标准不统一,跨学科文章在分类时容易产生歧义。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种学术文献自动分类的方法,具体实施过程如图3所示,所述方法包括以下步骤:
步骤10输入新的论文资源。
步骤20通过自动分类器对全部文献进行自动分类。
步骤30判断自动分类结果是否为高准确率。
如果不是高准确率结果,则执行步骤40,否则,则执行步骤50。
步骤40则人工分类。
步骤50直接进入网络检查;
如果经检查分类号正确,则执行步骤60;否则执行步骤70。
步骤60提交为日更新数据,加入到数据库中。
步骤70将检查后修改的数据和一定比例的未修改数据提出,进行网络复查。
步骤80编辑抽样审错。
步骤90达到合格比例后,按月更新到数据库。
参见图4,其上述自动分类器进行分类包括以下步骤:
步骤20a输入训练文献于数据库中,所述训练文献包含文献分类号。
步骤20b特征选择;对训练文献进行一元特征词、二元特征词的选择及二元词对的生成。
步骤20c训练阶段:读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典。
步骤20d分类阶段:读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的图分类号,并自动标注。
步骤20e结果集区分。
上述在特征选择之前要以数据库的形式存储学术文献文献,包括训练文献和待标注文献。存储时,表的结构统一,包括文献的篇名、中文摘要、中文关键词、全文、刊名、引文和文献分类号等。其中,训练文献的分类号是已知的,待标注文献的分类号字段初始为空。
特征选择
特征选择包括一元特征选择和二元特征选择。
根据文献和分类号的关系,并通过文中词语和分类号的对应关系及数量关系进行度量,其词语选择有代表性的,且能够体现类别关系的,称为特征词。
一元特征选择
参见图5,计算文献中每一个词在每一分类号下的权重,进行特征词筛选。具体包括以下步骤:
20ba1统计文献中所包含类别特征词,且属于所述特征词分类号的文献数量。
20ba2统计文献中不包含类别特征词,但属于所述特征词词分类号的文献数量。
20ba3统计文献中所包含类别特征词,但不属于所包含特征词分类号的文献数量。
20ba4统计文献总数;
20ba5计算所有词语的权重;
根据CHI统计方法度量词条t和文献类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的x2分布。具体计算公式如下:
上述N为训练语料中的文献总数;c为某一特征类别;t为特定的词条;A是属于c类且包含t的文献频数;B为不属于c类但是包含t的文献频数;C是属于c类但是不包含t的文献频数;D即不属于c也不包含t的文献频数。
20ba6根据计算的权重进行词语的排序、筛选,得到合适的特征词;
在大概5百万的词语库中,通过上述一元特征选择算法从5百万的词语中选择要作为分类特征的词语,经上述公式1计算筛选,最后保留约270万的专业词汇作为研究中分类需要的特征词。
二元特征选择
二元特征选择的具体步骤参见图6,具体包括以下步骤:
20bb1输入一篇文献的机标关键词并得到每个词语的关键词权重。
20bb2查询机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度。
20bb3根据机标关键词的权重、机标关键词在训练语料中的全部文献频数及机标关键词在训练语料中与文献同类的文献频度计算特征词语的特征权重;其计算公式如下:
其中,Weight(term)是特征词选择时的权重;Weight(key)是机标关键词的权重;df(C)是在本类所有文献中,该机标关键词一共出现的次数;df(all)是该机标关键词在训练语料中的文献频度。如果λ1取0.8,λ2取0.2,选择时将df(all)=1的词语过滤掉,如果log(df(all)/log(DF)>0.5,则是比较常用的词,也过滤掉,其中DF指输入语料的全部文献数。
20bb4根据上述计算的特征权重的结果对其词语进行排序。
20bb5取排序的前5个词语作为文献的特征词。
其上述二元词词对的生成方法包括:将得到的文献的特征词进行排序并去重;然后对特征词两两组合,进行排序、去重;最后形成二元特征。
训练阶段
包括一元训练和二元训练。
一元训练
读取数据库中的训练文献,计算每个特征词与分类号的概率关系,形成分类词典。参见图7其具体包括以下步骤:
20ca1读取数据库中的训练文献,以每个字段作为输入。
20ca2获得特征词在数据库中对应的文献分类号;
在查找时,首先输入训练文献中的篇名、中文关键词、全文、中文摘要字段,然后在字段内查找特征词,统计所查找到特征词的对应分类号。
20ca3获得相关文献数。
首先获得总的训练文献数;对训练文献进行统计,获得训练文献中出现该特征词的文献数量。
20ca4统计每个特征词与分类号的概率关系;
针对篇名、中文关键词、全文及中文摘要字段统计特征词对应分类号出现数目;然后按照不同字段位置进行加权;最好按照权重对分类号由高到低进行排序。
20ca5将词形、分类号、文献频度及权值存入一元分类词典中,形成一元分类词典;
其一元分类词典举例如表1所示。
表1
词形 |
分类号 |
文档频度 |
权值 |
金融机构 |
F832.2;F832.3; |
57079 |
0.3912;0.3019; |
计算机 |
TP3-4;TP399; |
408907 |
0.5292;0.1639; |
潜艇基地 |
E712;E273;E19; |
72 |
0.2773;0.2310;0.1848; |
强心扩血管药 |
R541.6;R473.6; |
39 |
0.4951;0.1980; |
现代教育 |
G434;G40-057; |
32317 |
0.4433;0.2498; |
以上步骤的实现原理为:利用了学术文献的格式特点,考虑了特征词语在文献中不同位置的权重,能够充分利用特征词和类别的关系,从而达到了比较好的分类结果。具体如下:
对输入的特征词语W,训练其对于不同分类号的权重。
在训练语料中,设词语W出现在:篇名、中文关键词、中文摘要或全文时,有m篇文章,他们对应的分类号有n种,分别为:C1,C2...Cn。
把同一分类号在不同位置的出现的权重设为:篇名:posWeight=4;中文关键词:posWeight=2;中文摘要:posWeight=1.5;全文:posWeight=1。
每个分类号对所有文献、所有位置的权重取和,公式如下:
分类号Ci的最终权重计算如下:
其中,weight(Ci)是类别Ci的权重,分母是所有分类号的权重和,乘以ln2作平滑。此结果分类号训练的最终结果。它体现了对于词语W,其可能出现的分类号的概率大小,WeightTrain(W,Ci)越大,说明词语W对应类别Ci的可能性越大。
训练完成后,形成了270万特征词语的分类词典,存储了词语及其可能对应的前几个分类号和分类号的权重,以便用于后续分类的查找和计算。
二元训练
与一元训练算法类似,把训练字段设为只有机标关键词,查询条件由一个词语变为两个词语同现。利用上述公式3,4计算二元词对和分类号的关系。
只是输入变为两个词语,即所有的一元“特征词”,变为“二元词对”。参见图8其具体包括以下步骤:
20cb1读取基础数据库中的训练文献,以每个字段作为输入。
20cb2查找二元词对在数据库中对应的文献分类号。
20cb3获得相关文献数。
20cb4统计每个二元词对与分类号的概率关系。
20cb5形成“二元分类词典”。
分类阶段
包括一元分类阶段和二元分类阶段。参见图9具体包括以下步骤
20d1分析文献中特征词的频度信息;
输入待处理文献文件,利用一元特征词词典对待处理文献分词;获得词语在文献不同位置的频度并去除重复词项。
20d2获得词语权重及分类号信息;
利用tf/idf计算词条w权重,研究中对现有标准tf/idf公式进行了改进,引入了词语长度和词语在文献中的位置信息,其计算词语权重的公式为:
Weight(w)=log(L+1)×TFi×log(D/DF(Wi)+0.01) (5)
其中,L为词W的长度;TFi为W在待处理文献中出现的频度;D是训练总文献数目;DF(Wi)是词在其中出现至少一次的训练文献数目。
改进后的词语w权重计算公式:
a根据词语在文中的不同位置,不同种类的文献,取不同的值。例如,当词语出现在标题、关键词中,a=30;当词语出现在摘要中,a=20;如果出现在正文第一段中,a=2。由上述公式,即可结合词语w的词频、文献频度、长度以及在文中的信息,得到该词语的权重,而整篇文献对于某个分类号的权重就由文中每个词语的权重利用该词和分类号的对应概率加权得到。
20d3一元分类,根据所述词语权重和词语对应分类号的权重,获得每个词语对应每个分类号的总权重;计算文献的分类号,一篇文献对于类别C的权重计算为:设文献在类别C下有n个特征词,分别为w1、w2...wn,每个词语对应类别C的训练概率为WeightTrain(wi),则文献对于类别C的权重计算公式如下:
最后,利用总权重将各类别的权重归一化,取权重最大的类别作为文献分类结果,至此,便得到了待分类文献的类别。
二元分类
计算机标关键词,并存储机标关键词的权重;二元词对在文中的权重计算:使用两个机标关键词的权重相乘后开方,计算公式如下:
其中,keyWeight(w1)表示机标关键词w1的权重,由机标关键词算法得到(其算法为现有技术,在此不再叙述);keyWeight(w2)同理。
利用文献的机标关键词组成二元词对,作为二元分类;查找二元分类词典,获得二元词对所有分类号下的相应权值;根据所述公式7计算文献的分类号;对其分类号总权重排序,将排序前几位的分类号作为二元分类结果。
20d4合并一元二元分类结果;分别利用一元和二元分类算法,算出每个类别的权重后,将一元二元的结果加权,其公式如下:
w=α*w1+β*w2 其中α+β=1 (9)
经实验,确定α=0.7,β=0.3。
将一元和二元分类结果根据置信度大小分为了高准确率结果集和低准确率结果集。其中,高准确率结果的准确率要达到80%左右,这部分分类结果可以直接输出,并存入期刊数据库,其置信度算法公式如下:
每一篇文献,计算机都给出多个中图分类号,每一个分类号的都有相应的权重,对中图分类号按照权重由高到低排序,通过实验,设定如下规则:
第一个分类号权重/所有分类号权重和>α;
第一个分类号权重/所有分类号权重和<=α,且所有分类号权重和(第一个分类号权重+第二个分类号权重)>α。
当上述分类号权重满足上述两个规则之一时,我们认为该分类结果是较好的结果。放入高准确率结果集,高准确率结果集输出的结果和置信度等于1。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。