CN101819601B - 学术文献自动分类的方法 - Google Patents

学术文献自动分类的方法 Download PDF

Info

Publication number
CN101819601B
CN101819601B CN201010168290.2A CN201010168290A CN101819601B CN 101819601 B CN101819601 B CN 101819601B CN 201010168290 A CN201010168290 A CN 201010168290A CN 101819601 B CN101819601 B CN 101819601B
Authority
CN
China
Prior art keywords
document
classification
weight
speech
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010168290.2A
Other languages
English (en)
Other versions
CN101819601A (zh
Inventor
张振海
罗霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY CO., LTD.
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN201010168290.2A priority Critical patent/CN101819601B/zh
Publication of CN101819601A publication Critical patent/CN101819601A/zh
Application granted granted Critical
Publication of CN101819601B publication Critical patent/CN101819601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种学术文献自动分类的方法,包括输入训练文献于数据库中,所述训练文献包含文献分类号;对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的中图分类号,并自动标注;将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。

Description

学术文献自动分类的方法
技术领域
本发明涉及一种学术文献分类方法,尤其涉及一种学术文献自动分类的方法。
背景技术
随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(1abel)集合下,根据文本内容判定它的类别。
文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。
基于机器学习文本分类的基础技术由文本的表示(representation)、分类方法及效果(effectiveness)评估3部分组成。在分类中,文本的表示一般被抽象化为一组特征词,并根据特征词的属性去计算文本的类别。
1、常用的特征选择算法:文档频度(df);信息增益(Information Gain,IG);交叉熵(Cross Entropy);互信息(Mutual Information);χ2统计量(CHI);期望交叉熵,文本证据权优势率,基于词频覆盖度的方法,主分量分析方法等。
2、常用的分类算法有:朴素贝叶斯分类;K近邻(KNN);决策树;支持向量机(SVM)。
3、分类效果评估指标:正确率(precision)、召回率(recall)、均衡点(BEP)、Fβ(常用F1)和精度(accuracy)等。
现有技术文本分类的通用流程包括:将文本的训练语料进行特征选择,特征选择是对文本的特征词进行选择,其特征词选择只是选择有代表性的词,作为分类器的输入,为分类器提供必要的信息;训练器通过学习训练语料,得到特征词和类别的对应关系,并以一定的数学模型表示;输入测试文本到分类器,利用训练器得到的数学模型,为测试文本计算并标注分类号(如图1所示)。
现有专利文献如专利号为:03121034.1名称为《一种文本自动分类方法》公开是一种基于非二元平滑的二元特征权重计算的文本自动分类方法,它将二元权重计算方法引入到基于向量空间模型的线性分类器,并结合复杂的非二元权重对二元权重进行平滑。还有专利申请号为:200410062789.X名称为《一种新的面向文本分类的特征向量权重的方法》公开的技术方案为:按领域训练语料和测试语料,去除网页文本中的一些垃圾、分词、词形标注;从训练语料中提取出每个领域的词表,同时提取出总词表,然后根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表,对测试文本进行分类,优化得到最优阈值,并根据分类结果确定最优的关键词数目。专利申请号为200510086462.0名称为《基于类别概念空间的自动文本分类方法》包括训练阶段和分类阶段,其步骤主要包括构造类别词语矩阵数据,建立每个词语的倒排类别频率数据表,构造有效词语集;构造类别词语矩阵数据;建立每个类别的倒排词语频率数据表;建立基于类别概念空间的词语向量表示;构造类别概念向量空间中的待分类文档向量数据;获得待分类文档的所述类别。上述现有发明技术实施起来比较烦琐,而且分类的准确率不高。
现有技术的技术方案还有以下:
面向中国法的分类,主要应用在文献的数据加工过程。每一批新的文献都要经过分类,然后再存入系统数据库。其实施学术文献的分类主要依靠编辑的人工分类,并经检查后入库,具体流程为:输入新的论文资源;利用该论文的原始专题代码,将其分配给不同专业的编辑;进行人工分类,给出文献的中图分类号;进行网络检查,如果经检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审查;达到合格比例后,按月更新到数据库。
现有技术的缺点:
1、分类号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低;大量的人员常年从事着重复性的劳动,造成比较严重的资源浪费。
2、人工分类标准不统一,跨学科文章在分类时容易产生歧义。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种学术文献自动分类的方法。所述技术方案如下:
一种学术文献自动分类的方法,包括:
输入文献;对文献的自动分类;判断自动分类结果是否为高准确率;如果不是高准确率结果,则进行人工分类;否则,直接进入网络检查,如果检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审错;达到合格比例后,按月更新到数据库;文献的自动分类包括:
A、输入训练文献于数据库中,所述训练文献包含文献分类号;
B、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;
C、读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;
D、读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的图分类号,并自动标注;
E、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。
本发明提供的技术方案的有益效果是:
实现对大规模学术文献,面向中图法37个大类5万余子类的自动分类。
通过训练分类器,形成统一的分类标准,有良好的学科识别能力;分类准确率高,要求达到80%以上。
提出了二元分类的思想,以此修正一元分类的结果,进一步提升系统的自动标注比例。
自动标注文献分类号,并根据置信度将结果分为高准确率的结果集和低准确率结果集,其中高准确率的结果直接利用自动分类的结果替代以往人工分类,大大节省了人工成本,提高了数据处理效率。
附图说明
图1是现有技术流程图图;
图2是现有技术方案流程图;
图3是本发明含学术文献自动分类的整体流程图;
图4是学术文献自动分类的方法流程图;
图5是一元特征选择方法具体流程图;
图6是二元特征选择方法具体流程图;
图7是一元文献训练方法流程图;
图8是二元文献训练方法流程图;
图9是一元与二元分类阶段的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种学术文献自动分类的方法,具体实施过程如图3所示,所述方法包括以下步骤:
步骤10输入新的论文资源。
步骤20通过自动分类器对全部文献进行自动分类。
步骤30判断自动分类结果是否为高准确率。
如果不是高准确率结果,则执行步骤40,否则,则执行步骤50。
步骤40则人工分类。
步骤50直接进入网络检查;
如果经检查分类号正确,则执行步骤60;否则执行步骤70。
步骤60提交为日更新数据,加入到数据库中。
步骤70将检查后修改的数据和一定比例的未修改数据提出,进行网络复查。
步骤80编辑抽样审错。
步骤90达到合格比例后,按月更新到数据库。
参见图4,其上述自动分类器进行分类包括以下步骤:
步骤20a输入训练文献于数据库中,所述训练文献包含文献分类号。
步骤20b特征选择;对训练文献进行一元特征词、二元特征词的选择及二元词对的生成。
步骤20c训练阶段:读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典。
步骤20d分类阶段:读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的图分类号,并自动标注。
步骤20e结果集区分。
上述在特征选择之前要以数据库的形式存储学术文献文献,包括训练文献和待标注文献。存储时,表的结构统一,包括文献的篇名、中文摘要、中文关键词、全文、刊名、引文和文献分类号等。其中,训练文献的分类号是已知的,待标注文献的分类号字段初始为空。
特征选择
特征选择包括一元特征选择和二元特征选择。
根据文献和分类号的关系,并通过文中词语和分类号的对应关系及数量关系进行度量,其词语选择有代表性的,且能够体现类别关系的,称为特征词。
一元特征选择
参见图5,计算文献中每一个词在每一分类号下的权重,进行特征词筛选。具体包括以下步骤:
20ba1统计文献中所包含类别特征词,且属于所述特征词分类号的文献数量。
20ba2统计文献中不包含类别特征词,但属于所述特征词词分类号的文献数量。
20ba3统计文献中所包含类别特征词,但不属于所包含特征词分类号的文献数量。
20ba4统计文献总数;
20ba5计算所有词语的权重;
根据CHI统计方法度量词条t和文献类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的x2分布。具体计算公式如下:
χ 2 ( t , c ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) - - - ( 1 )
上述N为训练语料中的文献总数;c为某一特征类别;t为特定的词条;A是属于c类且包含t的文献频数;B为不属于c类但是包含t的文献频数;C是属于c类但是不包含t的文献频数;D即不属于c也不包含t的文献频数。
20ba6根据计算的权重进行词语的排序、筛选,得到合适的特征词;
在大概5百万的词语库中,通过上述一元特征选择算法从5百万的词语中选择要作为分类特征的词语,经上述公式1计算筛选,最后保留约270万的专业词汇作为研究中分类需要的特征词。
二元特征选择
二元特征选择的具体步骤参见图6,具体包括以下步骤:
20bb1输入一篇文献的机标关键词并得到每个词语的关键词权重。
20bb2查询机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度。
20bb3根据机标关键词的权重、机标关键词在训练语料中的全部文献频数及机标关键词在训练语料中与文献同类的文献频度计算特征词语的特征权重;其计算公式如下:
weight ( term ) = λ 1 * weight ( key ) + λ 2 * log ( df ( C ) + 0.01 ) log ( df ( all ) + 0.01 ) - - - ( 2 )
其中,Weight(term)是特征词选择时的权重;Weight(key)是机标关键词的权重;df(C)是在本类所有文献中,该机标关键词一共出现的次数;df(all)是该机标关键词在训练语料中的文献频度。如果λ1取0.8,λ2取0.2,选择时将df(all)=1的词语过滤掉,如果log(df(all)/log(DF)>0.5,则是比较常用的词,也过滤掉,其中DF指输入语料的全部文献数。
20bb4根据上述计算的特征权重的结果对其词语进行排序。
20bb5取排序的前5个词语作为文献的特征词。
其上述二元词词对的生成方法包括:将得到的文献的特征词进行排序并去重;然后对特征词两两组合,进行排序、去重;最后形成二元特征。
训练阶段
包括一元训练和二元训练。
一元训练
读取数据库中的训练文献,计算每个特征词与分类号的概率关系,形成分类词典。参见图7其具体包括以下步骤:
20ca1读取数据库中的训练文献,以每个字段作为输入。
20ca2获得特征词在数据库中对应的文献分类号;
在查找时,首先输入训练文献中的篇名、中文关键词、全文、中文摘要字段,然后在字段内查找特征词,统计所查找到特征词的对应分类号。
20ca3获得相关文献数。
首先获得总的训练文献数;对训练文献进行统计,获得训练文献中出现该特征词的文献数量。
20ca4统计每个特征词与分类号的概率关系;
针对篇名、中文关键词、全文及中文摘要字段统计特征词对应分类号出现数目;然后按照不同字段位置进行加权;最好按照权重对分类号由高到低进行排序。
20ca5将词形、分类号、文献频度及权值存入一元分类词典中,形成一元分类词典;
其一元分类词典举例如表1所示。
                                     表1
  词形   分类号   文档频度   权值
  金融机构   F832.2;F832.3;   57079   0.3912;0.3019;
  计算机   TP3-4;TP399;   408907   0.5292;0.1639;
  潜艇基地   E712;E273;E19;   72   0.2773;0.2310;0.1848;
  强心扩血管药   R541.6;R473.6;   39   0.4951;0.1980;
  现代教育   G434;G40-057;   32317   0.4433;0.2498;
以上步骤的实现原理为:利用了学术文献的格式特点,考虑了特征词语在文献中不同位置的权重,能够充分利用特征词和类别的关系,从而达到了比较好的分类结果。具体如下:
对输入的特征词语W,训练其对于不同分类号的权重。
在训练语料中,设词语W出现在:篇名、中文关键词、中文摘要或全文时,有m篇文章,他们对应的分类号有n种,分别为:C1,C2...Cn。
把同一分类号在不同位置的出现的权重设为:篇名:posWeight=4;中文关键词:posWeight=2;中文摘要:posWeight=1.5;全文:posWeight=1。
每个分类号对所有文献、所有位置的权重取和,公式如下:
weight ( Ci ) = Σ k = 1 m Σ j = 1 4 posWeight ( Ci ) - - - ( 3 )
分类号Ci的最终权重计算如下:
WeightTrain ( W , Ci ) = weight ( Ci ) Σ i = 1 n weight ( Ci ) * ln 2 - - - ( 4 )
其中,weight(Ci)是类别Ci的权重,分母是所有分类号的权重和,乘以ln2作平滑。此结果分类号训练的最终结果。它体现了对于词语W,其可能出现的分类号的概率大小,WeightTrain(W,Ci)越大,说明词语W对应类别Ci的可能性越大。
训练完成后,形成了270万特征词语的分类词典,存储了词语及其可能对应的前几个分类号和分类号的权重,以便用于后续分类的查找和计算。
二元训练
与一元训练算法类似,把训练字段设为只有机标关键词,查询条件由一个词语变为两个词语同现。利用上述公式3,4计算二元词对和分类号的关系。
只是输入变为两个词语,即所有的一元“特征词”,变为“二元词对”。参见图8其具体包括以下步骤:
20cb1读取基础数据库中的训练文献,以每个字段作为输入。
20cb2查找二元词对在数据库中对应的文献分类号。
20cb3获得相关文献数。
20cb4统计每个二元词对与分类号的概率关系。
20cb5形成“二元分类词典”。
分类阶段
包括一元分类阶段和二元分类阶段。参见图9具体包括以下步骤
20d1分析文献中特征词的频度信息;
输入待处理文献文件,利用一元特征词词典对待处理文献分词;获得词语在文献不同位置的频度并去除重复词项。
20d2获得词语权重及分类号信息;
利用tf/idf计算词条w权重,研究中对现有标准tf/idf公式进行了改进,引入了词语长度和词语在文献中的位置信息,其计算词语权重的公式为:
Weight(w)=log(L+1)×TFi×log(D/DF(Wi)+0.01)             (5)
其中,L为词W的长度;TFi为W在待处理文献中出现的频度;D是训练总文献数目;DF(Wi)是词在其中出现至少一次的训练文献数目。
改进后的词语w权重计算公式:
Weight ′ ( w ) = Σ i = 1 5 Weight ( w ) * α - - - ( 6 )
a根据词语在文中的不同位置,不同种类的文献,取不同的值。例如,当词语出现在标题、关键词中,a=30;当词语出现在摘要中,a=20;如果出现在正文第一段中,a=2。由上述公式,即可结合词语w的词频、文献频度、长度以及在文中的信息,得到该词语的权重,而整篇文献对于某个分类号的权重就由文中每个词语的权重利用该词和分类号的对应概率加权得到。
20d3一元分类,根据所述词语权重和词语对应分类号的权重,获得每个词语对应每个分类号的总权重;计算文献的分类号,一篇文献对于类别C的权重计算为:设文献在类别C下有n个特征词,分别为w1、w2...wn,每个词语对应类别C的训练概率为WeightTrain(wi),则文献对于类别C的权重计算公式如下:
Weight ( C ) = Σ i = 1 n WeightTrain ( wi , C ) * Weight ′ ( wi ) - - - ( 7 )
最后,利用总权重将各类别的权重归一化,取权重最大的类别作为文献分类结果,至此,便得到了待分类文献的类别。
二元分类
计算机标关键词,并存储机标关键词的权重;二元词对在文中的权重计算:使用两个机标关键词的权重相乘后开方,计算公式如下:
Weight ( w 1 , w 2 ) = keyWeight ( w 1 ) × keyWeight ( w 2 ) - - - ( 8 )
其中,keyWeight(w1)表示机标关键词w1的权重,由机标关键词算法得到(其算法为现有技术,在此不再叙述);keyWeight(w2)同理。
利用文献的机标关键词组成二元词对,作为二元分类;查找二元分类词典,获得二元词对所有分类号下的相应权值;根据所述公式7计算文献的分类号;对其分类号总权重排序,将排序前几位的分类号作为二元分类结果。
20d4合并一元二元分类结果;分别利用一元和二元分类算法,算出每个类别的权重后,将一元二元的结果加权,其公式如下:
w=α*w1+β*w2 其中α+β=1                         (9)
经实验,确定α=0.7,β=0.3。
将一元和二元分类结果根据置信度大小分为了高准确率结果集和低准确率结果集。其中,高准确率结果的准确率要达到80%左右,这部分分类结果可以直接输出,并存入期刊数据库,其置信度算法公式如下:
Figure GSA00000109427900112
每一篇文献,计算机都给出多个中图分类号,每一个分类号的都有相应的权重,对中图分类号按照权重由高到低排序,通过实验,设定如下规则:
第一个分类号权重/所有分类号权重和>α;
第一个分类号权重/所有分类号权重和<=α,且所有分类号权重和(第一个分类号权重+第二个分类号权重)>α。
当上述分类号权重满足上述两个规则之一时,我们认为该分类结果是较好的结果。放入高准确率结果集,高准确率结果集输出的结果和置信度等于1。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.学术文献自动分类的方法,包括:输入文献;对文献的自动分类;判断自动分类结果的准确率是否为80%以上;如果不是,则进行人工分类;否则,直接进入网络检查,如果检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审错;达到合格比例后,按月更新到数据库;其特征在于,文献的自动分类包括:
A、输入训练文献于数据库中,所述训练文献包含文献分类号;
B、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;
一元特征词的选择包括:
计算文献中每一个词在每一分类号下的权重,
其词语权重的计算是根据CHI统计方法度量词条t和文献类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的x2分布;具体计算公式如下:
χ 2 ( t , c ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D )
所述N为训练语料中的文献总数;c为某一特征类别;t为特定的词条;A是属于c类且包含t的文献频数;B为不属于c类但是包含t的文献频数;C是属于c类但是不包含t的文献频数;D即不属于c也不包含t的文献频数;
根据计算的权重进行词语的排序、筛选,得到合适的特征词;
二元特征词的选择包括:
输入一篇文献的机标关键词并得到每个词语的关键词权重;
根据机标关键词的权重、机标关键词在训练语料中的全部文献频数及机标关键词在训练语料中与文献同类的文献频度计算特征词语的特征权重;其计算公式如下:
weight ( term ) = λ 1 * weight ( key ) + λ 2 * log ( df ( C ) + 0.01 ) log ( df ( all ) + 0.01 )
其中,Weight(term)是特征词选择时的权重;Weight(key)是机标关键词的权重;df(C)是在本类所有文献中,该机标关键词一共出现的次数;df(all)是该机标关键词在训练语料中的文献频度;如果λ1取0.8,λ2取0.2,选择时将df(all)=1的词语过滤掉,如果log(df(all))/log(DF)>0.5,则是比较常用的词,也过滤掉,其中DF指输入语料的全部文献数;
根据所述计算的特征权重的结果对其词语进行排序;
取排序的前5个词语作为文献的特征词,对特征词两两组合,进行排序、去重;最后形成二元特征词;
C、读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;
D、读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的中图分类号,并自动标注;
E、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。
2.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述训练文献包括文献的篇名、中文摘要、中文关键词、全文、刊名、引文及文献分类号。
3.根据权利要求1所述的学术文献自动分类的方法,其特征在于,
所述步骤B中一元特征词的选择包括:计算每一个词在每一分类号下的权重,进行特征词筛选,其具体步骤包括:
Ba1统计文献中所包含类别特征词,且属于所述特征词分类号的文献数量;
Ba2统计文献中不包含类别特征词,但属于所述特征词分类号的文献数量;
Ba3统计文献中所包含类别特征词,但不属于所包含特征词分类号的文献数量;
Ba4统计文献总数;
Ba5计算每一特征词在每一分类号下的权重;
Ba6根据获得的权重进行排序、筛选,得到合适的特征词;
所述步骤B中二元特征词的选择步骤具体包括:
Bb1输入文献的机标关键词并得到每个机标关键词的权重;
Bb2查询机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度;
Bb3根据机标关键词的权重、机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度计算二元特征词语的特征权重;
Bb4根据计算词语的特征权重结果对所述机标关键词进行排序;
Bb5取排序的前5个词语作为文献的特征词;
所述步骤B中二元词对的生成具体包括步骤:
将所述得到的特征词排序、去重;
将特征词两两组合、排序并去重;
形成二元特征。
4.根据权利要求3所述的学术文献自动分类的方法,其特征在于,所述步骤Ba5中特征词权重算法公式为:
χ 2 ( t , c ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D )
N是训练语料中的文献总数;c是某一特定类别;t是特定的词条;A表示属于c类且包含t的文献频数;B表示不属于c类但是包含t的文献频数;C表示属于c类但不包含t的文献频数;D表示既不属于c也不包含t的文献频数;
所述步骤Bb3中词语特征权重的计算:
weight ( term ) = λ 1 * weight ( key ) + λ 2 * log ( df ( C ) + 0.01 ) log ( df ( all ) + 0.01 )
其中,Weight(term)特征词选择时的权重,Weight(key)机标关键词的权重,df(C)在本类所有文献中所述机标关键词一共出现的次数,df(all)所述机标关键词在训练语料中的文献频度。
5.根据权利要求1所述的学术文献自动分类的方法,其特征在于,
所述步骤C训练文献中一元分类词典的形成步骤具体包括:
Ca1读取数据库中的训练文献,并以每个字段作为输入;
Ca2查找特征词在数据库中对应的文献分类号;
Ca3获得相关的文献数;
Ca4统计每个特征词与分类号的概率关系;
Ca5形成一元分类词典;
所述步骤C训练文献中二元分类词典的形成步骤具体包括:
Cb1读取数据库中的训练文献,以每个字段作为输入;
Cb2查找二元词对在数据库中对应的文献分类号;
Cb3获得相关的文献数;
Cb4统计每个二元词对与分类号的概率关系;
Cb5形成二元分类词典。
6.根据权利要求5所述的学术文献自动分类的方法,其特征在于,所述步骤Ca2具体包括:
输入训练文献中的篇名、中文关键词、全文及中文摘要字段;
在字段内查找特征词;
统计词语的对应分类号;
步骤Ca3具体包括:
获得总的训练文献;
对训练文献进行统计,获得训练文献中出现该特征词的文献数量;
步骤Ca4具体包括:
针对篇名、中文关键词、全文及中文摘要字段,统计特征词对应分类号的出现数目;
根据不同字段位置进行加权;
按照权重对分类号由高到低排序;
步骤Ca5中一元分类词典包括词形、分类号、文献频度及权值。
7.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述步骤D具体包括:
D1分析训练文献中特征词的频度信息;
D2计算获得词语权重并获得词语的分类号信息;
D3进行一元分类与二元分类;
D4合并一元和二元分类结果获得文献分类号。
8.根据权利要求7所述的学术文献自动分类的方法,其特征在于,所述
步骤D1具体包括以下步骤:输入待处理文献文件,利用特征词典对待处理文献分词;获得词语在文献不同位置的频度,去除重复的词项;
步骤D2具体包括:获得词语在待处理文献中出现的频数及词语的文献频度,计算获得词语的权重;输入词形;根据词形查找一元分类词典并获得所有词形分类号下的相应权值;
步骤D3中一元分类具体包括:根据词语权重和词语对应分类号的权重,计算获得文献中每个词语对应每个分类号的总权重;计算文献的分类号;对文献分类号总权重排序;将排序前几位的分类号作为一元分类结果;
二元分类的具体步骤包括:获得机标关键词,并存储其机标关键词的权重;利用文献的机标关键词组成二元词对,并计算了二元词对在文献中的权重,作为二元分类;查找二元分类词典,获得二元词对所有分类号下的相应权值;计算获得文献的分类号;对分类号的总权重进行排序,并将排序在前几位的分类号作为二元分类结果。
9.根据权利要求8所述的学术文献自动分类的方法,其特征在于,所述步骤D2中权重的计算包括词语权重的计算及改进后词语权重的计算,其计算公式为:
Weight(w)=log(L+1)×TFi×log(D/DF(Wi)+0.01)
其中,L是词W的长度;TFi是W在待处理文献中出现的频度;D,训练总文献数目;DF(Wi),词在其中出现至少一次的训练文献数目;
改进后词语W权重的计算公式:
Weigh t ′ ( w ) = Σ i = 1 5 Weight ( w ) * α
其中,α根据词语在文中的不同位置,不同种类的文献,取不同的值;所述步骤D3一元与二元分类中文献分类号的计算公式:
Weight ( C ) = Σ i = 1 n WeightTrain ( wi , C ) * W eight ′ ( wi )
其中,n为特征词;C每个词语对应类别;WeightTrain(wi)每个词语对应类别C的训练概率。
10.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述置信度大小的计算公式为:
Figure FSB00000670576200063
所述一元分类结果通过置信度计算及设定的规则,获得80%以上的一元准确率结果;在低于80%以上的一元低准确率结果中,二元分类通过置信度计算获得80%以上的二元准确率结果,并输出80%以上的一元准确率结果与80%以上的二元准确率结果的总和。
CN201010168290.2A 2010-05-11 2010-05-11 学术文献自动分类的方法 Active CN101819601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010168290.2A CN101819601B (zh) 2010-05-11 2010-05-11 学术文献自动分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010168290.2A CN101819601B (zh) 2010-05-11 2010-05-11 学术文献自动分类的方法

Publications (2)

Publication Number Publication Date
CN101819601A CN101819601A (zh) 2010-09-01
CN101819601B true CN101819601B (zh) 2012-02-08

Family

ID=42654698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010168290.2A Active CN101819601B (zh) 2010-05-11 2010-05-11 学术文献自动分类的方法

Country Status (1)

Country Link
CN (1) CN101819601B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843941A (zh) * 2016-12-31 2017-06-13 广东欧珀移动通信有限公司 信息处理方法、装置和计算机设备

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120078928A (ko) * 2011-01-03 2012-07-11 삼성전자주식회사 전자 책 콘텐츠 관리를 위한 방법 및 장치
JP5389130B2 (ja) 2011-09-15 2014-01-15 株式会社東芝 文書分類装置、方法およびプログラム
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
CN102708454B (zh) * 2012-05-14 2016-06-29 北京奇虎科技有限公司 终端故障解决方案提供方法及装置
CN103514227B (zh) * 2012-06-29 2016-12-21 阿里巴巴集团控股有限公司 一种更新数据库的方法及装置
CN104361224B (zh) * 2014-10-31 2018-08-03 深圳信息职业技术学院 置信分类方法及置信机器
CN104881401B (zh) * 2015-05-27 2017-10-17 大连理工大学 一种专利文献聚类方法
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN106708959A (zh) * 2016-11-30 2017-05-24 重庆大学 一种基于医学文献数据库的组合药物识别与排序方法
CN107729921B (zh) * 2017-09-20 2020-08-21 厦门快商通科技股份有限公司 一种机器主动学习方法及学习系统
CN109446522B (zh) * 2018-10-22 2023-09-19 北京布局未来教育科技有限公司 一种试题自动分类系统及方法
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN109284391A (zh) * 2018-12-07 2019-01-29 吉林大学 一种文献自动分类方法
CN109902173B (zh) * 2019-01-31 2020-10-27 青岛科技大学 一种中文文本分类方法
CN110704593B (zh) * 2019-09-27 2022-03-04 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN110990376B (zh) * 2019-11-20 2023-05-09 中国农业科学院农业信息研究所 一种基于多因子混合排序机制的学科分类自动标引方法
CN111221974B (zh) * 2020-04-22 2020-08-14 成都索贝数码科技股份有限公司 基于层级结构多标签体系的新闻文本分类模型的构建方法
CN113239201A (zh) * 2021-05-20 2021-08-10 国网上海市电力公司 一种基于知识图谱的科技文献分类方法
CN113239207B (zh) * 2021-07-12 2021-09-24 深圳市知酷信息技术有限公司 一种基于文档数据分析的在线文献归纳和储存系统
CN113837240A (zh) * 2021-09-03 2021-12-24 南京昆虫软件有限公司 一种针对教育部的分类系统和分类方法
CN114511027B (zh) * 2022-01-29 2022-11-11 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843941A (zh) * 2016-12-31 2017-06-13 广东欧珀移动通信有限公司 信息处理方法、装置和计算机设备

Also Published As

Publication number Publication date
CN101819601A (zh) 2010-09-01

Similar Documents

Publication Publication Date Title
CN101819601B (zh) 学术文献自动分类的方法
Rustam et al. Classification of shopify app user reviews using novel multi text features
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
Vo et al. Learning to classify short text from scientific documents using topic models with various types of knowledge
Sundus et al. A deep learning approach for arabic text classification
CN107577785A (zh) 一种适用于法律识别的层次多标签分类方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN106294863A (zh) 一种针对海量文本快速理解的文摘方法
CN106294882A (zh) 数据挖掘方法以及装置
CN106708926A (zh) 一种支持海量长文本数据分类的分析模型的实现方法
Chi et al. Establish a patent risk prediction model for emerging technologies using deep learning and data augmentation
Rijcken et al. A comparative study of fuzzy topic models and LDA in terms of interpretability
CN111428142A (zh) 一种基于随机森林分类器的代码评审人推荐系统及方法
CN110516064A (zh) 一种基于深度学习的航空科研论文分类方法
Hirsch et al. Evolving Lucene search queries for text classification
Sun et al. Autonomous classification and decision-making support of citizen e-petitions based on Bi-LSTM-CNN
Pita et al. Strategies for short text representation in the word vector space
Petrovsky Multi-attribute sorting of qualitative objects in multiset spaces
Guadie et al. Amharic text summarization for news items posted on social media
Fors-Isalguez et al. Query-oriented text summarization based on multiobjective evolutionary algorithms and word embeddings
Liu et al. Online Judge System Topic Classification
Palacharla et al. A New Supervised Term Weight Measure Based Approach for Text Classification.
Ağduk et al. Classification of news texts from different languages with machine learning algorithms
Jo Table based matching algorithm for soft categorization of news articles in Reuter 21578
RADI PREDICTING SQL QUERY QUALITY USING MACHINE LEARNING TECHNIQUES

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHANXI TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHI

Free format text: FORMER OWNER: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY CO., LTD.

Effective date: 20120924

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100084 HAIDIAN, BEIJING TO: 030006 TAIYUAN, SHAANXI PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20120924

Address after: The 030006 industry of Shanxi province high tech Zone Road No. 48 new island D garden of science and technology

Patentee after: SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY CO., LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Patentee before: Tongfang Knowledge Network (Beijing) Technology Co., Ltd.