一种科技新闻的增量学习多层次二分类方法
技术领域
本发明属于Web网页中文本分类领域,特别涉及一种科技新闻的增量学习多层次二分类方法,用于改善从Web网页中抽取新闻信息的使用价值,提高科技新闻的分类准确率。
背景技术
掌握科技新闻对于企业的生存和发展有重要的作用和意义,随着互联网的不断普及,网络成为了科技新闻的主要来源,而网络内容的信息量大、复杂、重复率高和格式不统一是企业收集科技新闻的主要障碍,近年来,针对Web网页中科技新闻的收集得到了越来越高的重视。Web网页新闻是发布科技进步、科研成果最快的途径之一,研究科技新闻分类是属于文本分类问题。研究分类问题一般方法有朴素贝叶斯、决策数、K近邻、支持向量机、神经网络、基于TF-IDF的Rocchio方法等。
2009年到2014年,朱全银等人给出了Web文本处理的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;SuqunCao,QuanyinZhu,ZhiweiHou.CustomerSegmentationBasedonaNovelHierarchicalClusteringAlgorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82(EI:20095012543848);SuqunCao,ZhiweiHou,LiuyangWang,QuanyinZhu.KernelizedFuzzyFisherCriterionbasedClusteringAlgorithm.DCABES2010,p:87-91(EI:20104413349424);QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285(EI:20113714318072);QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093.(EI:20121814977597);SuqunCao,GelanYang,QuanyinZhu,HaiheiZhai.Anovelfeatureextractionmethodformechanicalpartrecognition.AppliedMechanicsandMaterials,2011,p:116-121(EI:20113814354316);PeiZhou,QuanyinZhu.Multi-factorMatchingMethodforBasicInformationofScienceandTechnologyExpertsBasedonWebMining.2012,P:718-720(EI:20123915469307);JianpingDeng,FengwenCao,QuanyinZhu,YuZhang.TheWebDataExtractingandApplicationforShopOnlineBasedonCommoditiesClassified.CommunicationsinComputerandInformationScience,Vol.234(4):120-128(EI:20113814340383);HuiZong,QuanyinZhu,MingSun,YahongZhang.Thecasestudyforhumanresourcemanagementresearchbasedonwebminingandsemanticanalysis.AppliedMechanicsandMaterials,Vol.488,2014p:1336-1339(EI:20140517249044))。
信息检索:
信息检索是指按一定的方式组织信息,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是信息查寻。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统。
文本分类是信息检索领域非常活跃的研究方向。
文本分类:
文本是语言的实际运用形态,是根据一定的语言衔接和语义连贯规则组成的语句系统。文本分类是在给定的分类体系下,根据文本内容或属性将特定文本划分到一个或多个预先定义的类别中的方法。
最早的词匹配法仅仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别。这种简单方法无法取得良好的分类效果。后来的知识工程的方法则借助于专业人员的帮助,为每个类别定义大量的推理规则,一篇新文档满足这些推理规则,则判定属于该类别。由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。但这种方法的缺点仍然明显,例如分类的质量严重依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏。而知识工程最致命的弱点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。经过大量的研究和实验,统计学习方法和机器学习逐渐成为分类方法的研究方向。
文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:
(1)预处理:将原始语料格式化为同一格式,便于后续的统一处理;
(2)索引:将文档分解为基本处理单元,同时降低后续处理的开销;
(3)统计:词频统计,项(单词、概念)与分类的相关概率;
(4)特征抽取:从文档中抽取出反映文档主题的特征;
(5)分类器:分类器的训练;
(6)评价:分类器的测试结果分析。
文本预处理是对文本内容进行固定的格式分析,包含步骤有分词、词性标注、人名识别、地名识别、停用词处理等。经过长期的研究以及结合语言本身特点,目前英文文本预处理技术已经相当成熟,而汉语属于分析型语言,语义分析比句法分析要所占比重要大得多,因此在中文文本中基于语法的分析方法分析文本重要内容更加困难,分词也就成为了一大难题。目前比较成熟的分词算法有基于字典与词库匹配的机械分词、基于统计分析和语义理解的分词法。
空间向量模型:
向量空间模型VSM是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。
向量空间模型是一个应用于信息过滤,信息撷取,索引以及评估相关性的代数模型。SMART是首个使用这个模型的信息检索系统。文件(语料)被视为索引词(关键词)形成的多次元向量空间,索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。实际上,计算夹角向量之间的余弦比直接计算夹角容易:余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
TF-IDF方法:
TF-IDF(TermFrequency-InverseDocumentFrequency)是一种统计方法,用以评估词项对于文档在整个语料库中的贡献。词项的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF词频是指某个词或短语在一篇文章中出现的频率,IDF逆向文件频率(inversedocumentfrequency)是由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。IDF的主要思想是:如果包含词项t的文档越少,也就是n越小,IDF越大,则说明词项t具有很好的类别区分能力。
特征权重对于文本自动分类有着至关重要的作用,其反映了特征能够区分文本类别的能力大小。合理的特征权重算法可以提高文本之间的区分度。因此,权重对于文本自动分类有着重要作用。其中TF-IDF权重法是应用比较广泛的方法。
Rocchio方法
Rocchio方法通过构造原型向量的方法得到最优解。该方法基于空间向量模型理论,其基本原理是将文本转化为空间向量上的运算。基本原理是通过文本预处理方法将文本向量化,然后生成不同类别的特征向量,给定一个未知文本,首先对文本进行预处理,参数来源于模型训练,然后计算该向量与各个分类向量之间的相似度,按照相似度给文本进行分类标记。向量的相似度计算方法有两种,一种是欧几里德距离,一种是余弦相似度。
目前的文本分类方法应用在特定领域,如邮件分类,论文分类,已经取得了很好的效果,但科技新闻属于新闻中的一部分,目前已知的新闻分类算法是将科技新闻与其他新闻一起进行分类。同时,科技词汇量大,训练文本量大,聚类分析效率低且效果差。因此,针对科技新闻的分类效果不佳且信息价值量低。目前,Web网页分类标记格式不统一,数据量大,而企业对于科技新闻有迫切需要。因此,需要找到一种能够对Web科技新闻进行识别的方法,以提高科技新闻分类准确率。
发明内容
本发明的目的是利用新闻属性中的文章标题、文章内容、关键词,结合新闻结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,利用相似度计算出新文本与科技类和非科技类的相似度,以此依据判定新文本的归属,多层次判断方法提高了对科技词汇的敏感度,二分类方法能够有效的减少与科技无关新闻的文本量,进而提高文本多分类准确性。
本发明的技术方案首先根据TF-IDF加权方法训练分类模型,利用新的新闻文本的标记信息进行第一层次判断,计算与模型特征信息分类之间的相似度,相似度值最大且大于阈值的分类为新的新闻文本的分类,否则计算全文文本之间的相似度得到新的新闻文本的归属类别,完成对科技新闻的二分类。
为了便于理解本发明专利的理论基础进行描述如下:
在文本分类领域,提出了许多文本预处理、文本分类方法,并在特定的领域都取得了一定的效果。科技新闻分类方法也是研究的热点问题,但传统的方法是将采集到的所有的Web文本统一处理,由于Web网页中科技新闻数量远远小于非科技新闻的数量,因此,对大量非科技新闻进行多分类,会大大减少科技新闻分类的价值,科技新闻的二分类方法针对这个问题设计了多层次分类方法,利用新闻标记信息中带有与新闻主旨相关度较高的信息作为二分类的第一层,全文相似度计算作为第二层。对于科技新闻领域,二分类算法提高了Web网页中科技新闻的利用价值,提高科技新闻分类和推送时的准确性。
具体的来说,本发明方案通过如下步骤实现对科技新闻的二分类与多层次增量学习。
本发明方案利用新闻属性中的文章标题、文章内容、关键词,结合向量空间模型下的文本加权方法和文本间相似度计算方法,先对标记新闻文档集中的标记信息和全文信息进行预处理和特征加权,存储计算中间结果,之后从特征信息和全文文本两个层次,使用余弦相似度计算新文本与科技新闻分类和非科技新闻分类间的相似度,以此依据判定新文本的分类,多层次判断方法和增量学习方法提高了对科技词汇的敏感度,二分类方法能够减少与科技新闻无关新闻的文本数量,进而提高文本多分类准确性;包括模型初始化训练流程步骤A和新文本处理流程步骤B:
模型初始化训练流程步骤A从步骤A1到步骤A14:
步骤A1、从Web网页上收集的新闻文本作为训练集,设训练集为,由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;
步骤A2、设参与模型训练总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;
步骤A3、设中文分词词典为、停用词表,停用词表由网上下载的停用词表和新闻库统计词项共同组成;设模型特征信息科技新闻词频集DFYT、模型特征信息非科技新闻词频集DFNT、模型特征信息词文档数集WCT;设模型全文文本词文档数集WCA、模型全文文本科技新闻词频集DFYA、模型全文文本非科技新闻词频集DFNA、模型全文文本非科技新闻局部系数SLNA和模型全文文本权重SLGNA、模型全文文本科技新闻局部系数SLYA和模型全文文本权重SLGYA、模型全文文本全局系数SGA;
步骤A4、设循环变量i,取步骤A1的DSET中元素,其中i<=df;
步骤A5、设步骤A4的DSET i 的特征信息分词集、DSET i 的全文文本分词集、DSET i 的特征信息词出现文档数WCTS和DSET i 的全文文本词出现文档数WCAS;利用分词软件对步骤A2的DSET i 的特征信息和全文文本进行分词和停用词处理,软件所用分词词典是步骤A3的分词词典Words、停用词表是步骤A3停用词表stopwords,特征信息是由DSET i 中元素标题title和关键词keys组成的字符串,全文文本是在特征信息基础上加上内容content组成的字符串,得到DSET i 的特征信息分词结果和DSET i 的全文文本分词结果;
步骤A6、对步骤A5中分词结果DSET i 的特征信息分词集和DSET i 的全文文本分词集分别进行词频统计和去重,得到步骤A5中DSET i 的特征信息词频统计结果、DSET i 的全文文本词频统计结果、DSET i 的特征信息去重结果集和DSET i 的全文文本去重结果集;
步骤A7、根据步骤A6的DSET i 特征信息去重集WCTS和DSET i 的全文文本去重集WCAS统计步骤A3中训练集DSET的模型特征信息词出现文档数集WCT和训练集DSET的全文文本词出现文档数集WCA,具体做法为如果去重集中词项出现在词出现档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集DSET的特征信息词出现文档数集和训练集DSET的全文文本词出现文档数集;
步骤A8、如果步骤A4中文本DSET i 在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的DSET i 的特征信息词频集DFTS和DSET i 的全文文本词频集DFAS合并到科技新闻分类词频集上,统计步骤A3中训练集DSET的模型科技新闻分类特征信息词频和训练集DSET的模型全文文本词频;否则,步骤A6的DSET i 的特征信息词频集DFTS和DSET i 的全文文本词频集DFAS合并到非科技新闻分类词频集上,统计步骤A3中训练集DSET的非科技新闻特征信息词频集和训练集DSET的全文文本词频;
步骤A9、若步骤A4中循环变量i小于步骤A2中科技新闻数M和非科技新闻数N的和,满足i<=M+N,表示文本集DSET未遍历完,使循环变量i自增1,使i=i+1,跳转步骤A4,否则,执行步骤A10;
步骤A10、遍历步骤A1的训练集DSET中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型特征信息词出现文档数和训练集DSET的模型全文文本词出现文档数;
步骤A11、根据局部系数计算公式和步骤A10中数据集DSET的模型全文文本非科技新闻集DFNT、训练集DSET的模型全文文本科技新闻集DFYA计算步骤A3中训练集DSET的模型全文文本非科技新闻局部系数集和训练集DSET的模型全文文本科技新闻局部系数集;
步骤A12、根据全局系数计算公式和步骤A10中数据集DSET的模型全文文本词出现文档数WCA计算步骤A3中模型全文文本全局系数;
步骤A13、根据步骤A11中数据集DSET的全文文本局部系数集SLNA和步骤A12数据集DSET的模型全文文本全局系数集SGA计算步骤A3的数据集DSET的模型全文文本非科技新闻权重SLGNA和数据集DSET的模型全文文本科技新闻权重SLGYA,对应特征词局部系数和全局系数的乘积为该特征词的权重,得到数据集DSET的模型全文文本科技新闻分类权重和数据集DSET的模型非科技新闻分类权重;
步骤A14、存储模型训练生成的参数,存储A10中数据集DSET的模型非科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11中数据集DSET的模型非科技新闻全文文本局部系数,步骤A13中数据集DSET的模型非科技新闻全文文本权重;步骤A10数据集DSET的模型科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11数据集DSET的模型科技新闻全文文本局部系数,步骤A13中数据集DSET的模型科技新闻全文文本权重;步骤A10中数据集DSET的模型特征信息词出现文档数和全文文本词出现文档数;步骤A3中分词词典和停用词表;步骤A12中数据集DSET的模型全文文本全局系数;步骤A2中阈值T,科技新闻数M,非科技新闻数N,训练文本数H;
新文本处理流程步骤B从步骤B1到步骤B25:
步骤B1、从Web网页上收集一篇新闻文本,设新文本,包括三维:stitle是新闻标题,skeys是新闻关键词,scontent表示新闻内容;
步骤B2、载入模型参数(S1),载入步骤A14存储模型参数中的非科技新闻特征信息词频集DFNT、全文文本词频集DFNA、全文文本局部系数SLNA、全文文本全局系数SLGNA;载入步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、模型全文文本词频集DFYA、模型全文文本局部系数SLYA、模型全文文本全局系数SLGYA;载入步骤A14存储模型参数中的模型特征信息词出现文档数集WCT、模型全文文本词出现文档数集WCA、分词词典Words、停用词表stopwords、模型全文文本全局系数SGA、相似度阈值T、模型训练文本数H、库中科技新闻文本数M和非科技新闻文本数N;
步骤B3、设步骤B1的新文本的特征信息分词结果集、新文本的全文文本分词结果集、新文本的特征信息词频集DRFT、新文本的全文文本词频集DRFA、新文本的特征信息局部系数DRLT、新文本的特征信息全局系数DRGT、新文本的特征信息权重DRLGT、新文本的特征信息局部系数DRLA、新文本的特征信息全局系数DRGA、新文本的特征信息权重DRLGA;设模型特征信息科技新闻局部系数SLYT和权重SLGYT、非科技新闻局部系数集SLNT和权重SLGNT、全局系数集SGT;设新文本模型科技新闻分类特征信息相似度SIMYT和科技新闻分类全文文本相似度SIMYA;新文本模型非科技新闻分类特征信息相似度SIMNT和科技新闻分类全文文本相似度SIMNA;设新文本全文文本去重结果集WCAH和特征信息去重结果集WCTH;
步骤B4、根据载入的步骤A14存储模型参数中的分词词典Words和停用词表stopwords对步骤B1的新文本的特征信息和全文文本进行分词处理,特征信息指步骤B1的新闻标题stitle和新闻关键词skeys的并集,全文文本是指步骤B1的新闻标题stitle、新闻关键词skeys和新闻内容scontent的并集,计算结果得到步骤B3的新文本的特征信息分词集和新文本的全文文本分词集;
步骤B5、对步骤B4的新文本分词结果特征信息分词集和新文本的全文文本分词集进行词频统计,得到步骤B3的新文本特征信息词频统计结果和新文本全文文本词频统计结果;
步骤B6、判断步骤B5的新文本特征信息词频集DRFT中词项是否都存在于载入步骤A14存储模型参数中的科技新闻分类词频DFYT和载入步骤A14存储模型参数中的非科技新闻分类词频DFNT中,具体做法是遍历特征信息词频集中每一个词项是否存在与分类词频中,若两个分类词频集中都至少有一个词存在于特征信息词频集中,则执行步骤B7;否则,执行步骤B15;
步骤B7、根据局部系数计算公式和步骤B5的新文本特征信息词频集DRFT计算步骤B3的新文本特征信息局部系数;
步骤B8、根据全局系数计算公式和载入的步骤A14存储模型参数中的模型非科技新闻词频集DFNT、载入的步骤A14存储模型参数中的模型科技新闻词频集DFYT,计算步骤B3的模型特征信息非科技新闻局部系数、模型科技新闻局部系数集;
步骤B9、根据全局系数计算公式和载入的步骤A14存储模型参数中的特征信息词出现文档数集WCT,计算步骤B3的模型特征信息全局系数;
步骤B10、根据步骤B8的模型非科技新闻分类局部系数SLNT、模型科技新闻分类局部系数SLYT和步骤B9的模型全局系数SGT,计算步骤B3的模型权重,具体做法是词项的权重是全局系数与局部系数的乘积,得到步骤B3的模型非科技新闻特征信息权重、科技新闻特征信息权重;
步骤B11、根据步骤B7的新文本特征信息局部系数DRLT和步骤B8的模型全局系数SGT计算步骤B3的特征信息权重;
步骤B12、根据步骤B11的新文本特征信息权重DRLGT及步骤B10的模型特征信息非科技新闻权重SLGNT和模型特征信息科技新闻权重SLGYT计算步骤B3的模型特征信息非科技新闻相似度和新文本模型科技新闻相似度,其中计算相似度公式为余弦相似度;
步骤B13、如果步骤B12的新文本中特征信息分类相似度SIMNT和SIMYT至少存在一项大于载入的步骤A14存储模型参数中的阈值T,满足条件,则执行步骤B14,否则跳转步骤B15;
步骤B14、步骤B12新文本模型非科技新闻分类相似度SIMNT大于新文本模型科技新闻分类相似度SIMYT,即,标记步骤B1中新文本为非科技新闻分类,否则,标记步骤B1中新文本为科技新闻分类;
步骤B15、根据公式和步骤B4的新文本全文文本词频集DRFA计算步骤B3的新文本全文文本局部系数;
步骤B16、根据步骤B15的新文本全文文本局部系数DRLA和步骤A14存储模型参数中的全局系数SGA计算步骤B3的新文本特征全文文本权重;
步骤B17、根据步骤B16的全文文本权重DRLGA以及载入的步骤A14存储模型参数中的模型全文文本非科技新闻分类权重SLGNA和模型科技新闻分类权重SLGYA,计算步骤B3的新文本全文文本非科技新闻相似度和新文本科技新闻相似度,其中计算相似度公式为余弦相似度;
步骤B18、如果步骤B17中新文本全文文本非科技新闻分类相似度大于新文本全文文本科技新闻分类相似度,满足,标记步骤B1的新文本为非科技新闻分类;否则,标记步骤B1的新文本为科技新闻分类;
步骤B19、对步骤B4的新文本分词结果特征信息词频集、新文本全文文本词频集去重操作,计算结果为步骤B3的新文本特征信息去重结果和新文本全文文本去重结果;
步骤B20、如果步骤B1的新文本标记为科技新闻,合并步骤B5的新文本特征信息词频集DRFT和全文文本词频集DRFA到载入的步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、全文文本词频集DFYA,得到合并后结果为载入的步骤A14存储模型参数中的模型科技新闻特征信息词频集和全文文本词频集,载入的步骤A14存储模型参数中的科技新闻文本数自增1,M=M+1;否则,合并步骤B5的新文本特征信息词频集DRFT和全文文本词频集DRFA到载入的步骤A14存储模型参数中的模型非科技新闻特征信息词频集DFNT、全文文本词频集DFNA,得到合并后结果为步骤B2中载入模型参数的科技新闻特征信息词频集和全文文本词频集,载入的步骤A14存储模型参数中的非科技新闻文本数自增1,N=N+1;
步骤B21、更新载入的步骤A14存储模型参数中的特征信息词文档出现集和载入的步骤A14存储模型参数中的全文文本词文档出现集;
步骤B22、当库中新增加的文本数量达到训练样本数1%时,满足载入的步骤A14存储模型参数中的非科技新闻文本数N与科技新闻数M比模型训练总数H多1%时,也就是((M+N-H)/H)>0.01时,模型部分训练,执行步骤B23;否则,跳转步骤B25;
步骤B23、得到更新后的模型参数,载入的步骤A14存储模型参数中非科技新闻特征信息词频集更新为步骤B20的非科技新闻特征信息词频集和载入的步骤A14存储模型参数中非科技新闻全文文本词频集更新为步骤B20的非科技新闻全文文本词频集;载入的步骤A14存储模型参数中科技新闻特征信息词频集更新为步骤B20的科技新闻特征信息词频集和载入的步骤A14存储模型参数中科技新闻全文文本词频集更新为步骤B20的科技新闻全文文本词频集;载入的步骤A14存储模型参数中特征信息词出现文档数集更新为步骤B21的特征信息词出现文档数集和载入的步骤A14存储模型参数中全文文本词出现文档数集更新为步骤B21的全文文本词出现文档数;
步骤B24、根据步骤B23的全文文本科技新闻词频集DFYA和非科技新闻词频集DFNA重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类局部系数和非科技新闻分类局部系数;重新计算载入的步骤A14存储模型参数中的全文文本全局系数;重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类权重和非科技新闻分类权重;重新计算载入的步骤A14存储模型参数中的模型训练文本数H=M+N;
步骤B25、增量存储载入的步骤A14存储模型参数中的模型参数DFNT、DFYT、DFNA、DFYA、WCT、WCA、SLNA、SLYA、SLGNA、SLGYA、Words、stopwords、SGA、T、H、M、N,载入的步骤A14存储模型参数中的模型参数经过步骤B1到步骤B25,如果存在模型参数中值发生改变,则重新存储对应的模型参数,流程结束。
步骤B3到B18是对步骤B1中新文本分特征信息和全文文本两个层次进行分类,特征信息是指新闻的标题和关键词合成的字符串;全文文本是指新闻的标题、关键词和内容合成的字符串;结果是将新文本区分为科技新闻和非科技新闻两类。
步骤A2、步骤A14、步骤B2、步骤B13和步骤B25中阈值T一般取值为0.75,阈值T计算方法是随机从科技新闻中抽取一定量的新闻,统计特征信息中特征词汇的占比。
步骤B19到B25是对模型进行部分增量更新和部分模型训练,处理一个新文本过程中,如果新文本属于科技新闻,更新步骤A14中存储的模型参数中的科技新闻特征信息词频集DFYT、科技新闻全文文本词频集DFYA、特征信息词出现文档数集WCT、全文文本词出现文档数集WCA和库中科技新闻文本数M,否则,更新步骤A14中存储的模型参数中的非科技新闻特征信息词频集DFNT、非科技新闻全文文本词频集DFNA、特征信息词出现文档数集WCT、全文文本词出现文档数集WCA和库中非科技新闻文本数N;当满足步骤B22库中新增加的文本数量达到训练样本数1%时,模型启动部分训练,重新计算步骤A14中科技新闻全文文本局部系数集SLYA、非科技新闻全文文本局部系数集SLNA、科技新闻全文文本权重集SLGYA、非科技新闻全文文本权重集SLGNA、全文文本全局系数SGA和模型训练文本数H。
本发明创造性提出通过新闻文本属性中的标题、关键词和内容,分两个层次对Web网页新闻进行科技新闻与非科技新闻的分类,提高了Web网页科技新闻的识别率和使用价值;同时采用部分增量策略和部分模型训练,提高了分类适应变化的能力,从而提高科技新闻二分类准确率。
附图说明
附图1为本发明模型初始化训练流程图。
附图2为本发明新文本处理流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
如附图1,本发明模型初始化训练流程步骤A从步骤A1到步骤A14:
步骤A1、从Web网页上收集的新闻文本作为训练集,设训练集为,由title、keys、content三维组成,title表示新闻标题,keys表示新闻关键词,content表示新闻内容;
步骤A2、设参与模型训练总文本数H、科技新闻文本数M、非科技新闻文本数N,其中H=M+N;人工对训练集中文本进行评价,将训练集分为科技新闻和非科技新闻两类,其中;并统计相似度阈值T,阈值T的统计方法是随机从科技新闻中抽取一定量的新闻,根据特征信息中特征词汇的占比确定,特征信息是指新闻标题和关键词的组合;
步骤A3、设中文分词词典为、停用词表,停用词表由网上下载的停用词表和新闻库统计词项共同组成;设模型特征信息科技新闻词频集DFYT、模型特征信息非科技新闻词频集DFNT、模型特征信息词文档数集WCT;设模型全文文本词文档数集WCA、模型全文文本科技新闻词频集DFYA、模型全文文本非科技新闻词频集DFNA、模型全文文本非科技新闻局部系数SLNA和模型全文文本权重SLGNA、模型全文文本科技新闻局部系数SLYA和模型全文文本权重SLGYA、模型全文文本全局系数SGA;
步骤A4、设循环变量i,取步骤A1的DSET中元素,其中i<=df;
步骤A5、设步骤A4的DSET i 的特征信息分词集、DSET i 的全文文本分词集、DSET i 的特征信息词出现文档数WCTS和DSET i 的全文文本词出现文档数WCAS;利用分词软件对步骤A2的DSET i 的特征信息和全文文本进行分词和停用词处理,软件所用分词词典是步骤A3的分词词典Words、停用词表是步骤A3停用词表stopwords,特征信息是由DSET i 中元素标题title和关键词keys组成的字符串,全文文本是在特征信息基础上加上内容content组成的字符串,得到DSET i 的特征信息分词结果和DSET i 的全文文本分词结果;
步骤A6、对步骤A5中分词结果DSET i 的特征信息分词集和DSET i 的全文文本分词集分别进行词频统计和去重,得到步骤A5中DSET i 的特征信息词频统计结果、DSET i 的全文文本词频统计结果、DSET i 的特征信息去重结果集和DSET i 的全文文本去重结果集;
步骤A7、根据步骤A6的DSET i 特征信息去重集WCTS和DSET i 的全文文本去重集WCAS统计步骤A3中训练集DSET的模型特征信息词出现文档数集WCT和训练集DSET的全文文本词出现文档数集WCA,具体做法为如果去重集中词项出现在词出现档次数集中,则词项出现文档次数集中该词项值+1,否则,添加为新词项,值为1,得到训练集DSET的特征信息词出现文档数集和训练集DSET的全文文本词出现文档数集;
步骤A8、如果步骤A4中文本DSET i 在步骤A2人工评价中被分类为非科技新闻的类别,则将步骤A6的DSET i 的特征信息词频集DFTS和DSET i 的全文文本词频集DFAS合并到科技新闻分类词频集上,统计步骤A3中训练集DSET的模型科技新闻分类特征信息词频和训练集DSET的模型全文文本词频;否则,步骤A6的DSET i 的特征信息词频集DFTS和DSET i 的全文文本词频集DFAS合并到非科技新闻分类词频集上,统计步骤A3中训练集DSET的非科技新闻特征信息词频集和训练集DSET的全文文本词频;
步骤A9、若步骤A4中循环变量i小于步骤A2中科技新闻数M和非科技新闻数N的和,满足i<=M+N,表示文本集DSET未遍历完,使循环变量i自增1,使i=i+1,跳转步骤A4,否则,执行步骤A10;
步骤A10、遍历步骤A1的训练集DSET中每一个元素得到模型中间结果,得到步骤A3的模型非科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型科技新闻特征信息词频集、训练集DSET的模型全文文本词频集、训练集DSET的模型特征信息词出现文档数和训练集DSET的模型全文文本词出现文档数;
步骤A11、根据局部系数计算公式和步骤A10中数据集DSET的模型全文文本非科技新闻集DFNT、训练集DSET的模型全文文本科技新闻集DFYA计算步骤A3中训练集DSET的模型全文文本非科技新闻局部系数集和训练集DSET的模型全文文本科技新闻局部系数集;
步骤A12、根据全局系数计算公式和步骤A10中数据集DSET的模型全文文本词出现文档数WCA计算步骤A3中模型全文文本全局系数;
步骤A13、根据步骤A11中数据集DSET的全文文本局部系数集SLNA和步骤A12数据集DSET的模型全文文本全局系数集SGA计算步骤A3的数据集DSET的模型全文文本非科技新闻权重SLGNA和数据集DSET的模型全文文本科技新闻权重SLGYA,对应特征词局部系数和全局系数的乘积为该特征词的权重,得到数据集DSET的模型全文文本科技新闻分类权重和数据集DSET的模型非科技新闻分类权重;
步骤A14、存储模型训练生成的参数,存储A10中数据集DSET的模型非科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11中数据集DSET的模型非科技新闻全文文本局部系数,步骤A13中数据集DSET的模型非科技新闻全文文本权重;步骤A10数据集DSET的模型科技新闻特征信息词频集、数据集DSET的模型全文文本词频集,步骤A11数据集DSET的模型科技新闻全文文本局部系数,步骤A13中数据集DSET的模型科技新闻全文文本权重;步骤A10中数据集DSET的模型特征信息词出现文档数和全文文本词出现文档数;步骤A3中分词词典和停用词表;步骤A12中数据集DSET的模型全文文本全局系数;步骤A2中阈值T,科技新闻数M,非科技新闻数N,训练文本数H;
如附图2,新文本处理流程步骤B从步骤B1到步骤B25:
步骤B1、从Web网页上收集一篇新闻文本,设新文本,包括三维:stitle是新闻标题,skeys是新闻关键词,scontent表示新闻内容;
步骤B2、载入模型参数(S1),载入步骤A14存储模型参数中的非科技新闻特征信息词频集DFNT、全文文本词频集DFNA、全文文本局部系数SLNA、全文文本全局系数SLGNA;载入步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、模型全文文本词频集DFYA、模型全文文本局部系数SLYA、模型全文文本全局系数SLGYA;载入步骤A14存储模型参数中的模型特征信息词出现文档数集WCT、模型全文文本词出现文档数集WCA、分词词典Words、停用词表stopwords、模型全文文本全局系数SGA、相似度阈值T、模型训练文本数H、库中科技新闻文本数M和非科技新闻文本数N;
步骤B3、设步骤B1的新文本的特征信息分词结果集、新文本的全文文本分词结果集、新文本的特征信息词频集DRFT、新文本的全文文本词频集DRFA、新文本的特征信息局部系数DRLT、新文本的特征信息全局系数DRGT、新文本的特征信息权重DRLGT、新文本的特征信息局部系数DRLA、新文本的特征信息全局系数DRGA、新文本的特征信息权重DRLGA;设模型特征信息科技新闻局部系数SLYT和权重SLGYT、非科技新闻局部系数集SLNT和权重SLGNT、全局系数集SGT;设新文本模型科技新闻分类特征信息相似度SIMYT和科技新闻分类全文文本相似度SIMYA;新文本模型非科技新闻分类特征信息相似度SIMNT和科技新闻分类全文文本相似度SIMNA;设新文本全文文本去重结果集WCAH和特征信息去重结果集WCTH;
步骤B4、根据载入的步骤A14存储模型参数中的分词词典Words和停用词表stopwords对步骤B1的新文本的特征信息和全文文本进行分词处理,特征信息指步骤B1的新闻标题stitle和新闻关键词skeys的并集,全文文本是指步骤B1的新闻标题stitle、新闻关键词skeys和新闻内容scontent的并集,计算结果得到步骤B3的新文本的特征信息分词集和新文本的全文文本分词集;
步骤B5、对步骤B4的新文本分词结果特征信息分词集和新文本的全文文本分词集进行词频统计,得到步骤B3的新文本特征信息词频统计结果和新文本全文文本词频统计结果;
步骤B6、判断步骤B5的新文本特征信息词频集DRFT中词项是否都存在于载入步骤A14存储模型参数中的科技新闻分类词频DFYT和载入步骤A14存储模型参数中的非科技新闻分类词频DFNT中,具体做法是遍历特征信息词频集中每一个词项是否存在与分类词频中,若两个分类词频集中都至少有一个词存在于特征信息词频集中,则执行步骤B7;否则,执行步骤B15;
步骤B7、根据局部系数计算公式和步骤B5的新文本特征信息词频集DRFT计算步骤B3的新文本特征信息局部系数;
步骤B8、根据全局系数计算公式和载入的步骤A14存储模型参数中的模型非科技新闻词频集DFNT、载入的步骤A14存储模型参数中的模型科技新闻词频集DFYT,计算步骤B3的模型特征信息非科技新闻局部系数、模型科技新闻局部系数集;
步骤B9、根据全局系数计算公式和载入的步骤A14存储模型参数中的特征信息词出现文档数集WCT,计算步骤B3的模型特征信息全局系数;
步骤B10、根据步骤B8的模型非科技新闻分类局部系数SLNT、模型科技新闻分类局部系数SLYT和步骤B9的模型全局系数SGT,计算步骤B3的模型权重,具体做法是词项的权重是全局系数与局部系数的乘积,得到步骤B3的模型非科技新闻特征信息权重、科技新闻特征信息权重;
步骤B11、根据步骤B7的新文本特征信息局部系数DRLT和步骤B8的模型全局系数SGT计算步骤B3的特征信息权重;
步骤B12、根据步骤B11的新文本特征信息权重DRLGT及步骤B10的模型特征信息非科技新闻权重SLGNT和模型特征信息科技新闻权重SLGYT计算步骤B3的模型特征信息非科技新闻相似度和新文本模型科技新闻相似度,其中计算相似度公式为余弦相似度;
步骤B13、如果步骤B12的新文本中特征信息分类相似度SIMNT和SIMYT至少存在一项大于载入的步骤A14存储模型参数中的阈值T,满足条件,则执行步骤B14,否则跳转步骤B15;
步骤B14、步骤B12新文本模型非科技新闻分类相似度SIMNT大于新文本模型科技新闻分类相似度SIMYT,即,标记步骤B1中新文本为非科技新闻分类,否则,标记步骤B1中新文本为科技新闻分类;
步骤B15、根据公式和步骤B4的新文本全文文本词频集DRFA计算步骤B3的新文本全文文本局部系数;
步骤B16、根据步骤B15的新文本全文文本局部系数DRLA和步骤A14存储模型参数中的全局系数SGA计算步骤B3的新文本特征全文文本权重;
步骤B17、根据步骤B16的全文文本权重DRLGA以及载入的步骤A14存储模型参数中的模型全文文本非科技新闻分类权重SLGNA和模型科技新闻分类权重SLGYA,计算步骤B3的新文本全文文本非科技新闻相似度和新文本科技新闻相似度,其中计算相似度公式为余弦相似度;
步骤B18、如果步骤B17中新文本全文文本非科技新闻分类相似度大于新文本全文文本科技新闻分类相似度,满足,标记步骤B1的新文本为非科技新闻分类;否则,标记步骤B1的新文本为科技新闻分类;
步骤B19、对步骤B4的新文本分词结果特征信息词频集、新文本全文文本词频集去重操作,计算结果为步骤B3的新文本特征信息去重结果和新文本全文文本去重结果;
步骤B20、如果步骤B1的新文本标记为科技新闻,合并步骤B5的新文本特征信息词频集DRFT和全文文本词频集DRFA到载入的步骤A14存储模型参数中的科技新闻特征信息词频集DFYT、全文文本词频集DFYA,得到合并后结果为载入的步骤A14存储模型参数中的模型科技新闻特征信息词频集和全文文本词频集,载入的步骤A14存储模型参数中的科技新闻文本数自增1,M=M+1;否则,合并步骤B5的新文本特征信息词频集DRFT和全文文本词频集DRFA到载入的步骤A14存储模型参数中的模型非科技新闻特征信息词频集DFNT、全文文本词频集DFNA,得到合并后结果为步骤B2中载入模型参数的科技新闻特征信息词频集和全文文本词频集,载入的步骤A14存储模型参数中的非科技新闻文本数自增1,N=N+1;
步骤B21、更新载入的步骤A14存储模型参数中的特征信息词文档出现集和载入的步骤A14存储模型参数中的全文文本词文档出现集;
步骤B22、当库中新增加的文本数量达到训练样本数1%时,满足载入的步骤A14存储模型参数中的非科技新闻文本数N与科技新闻数M比模型训练总数H多1%时,也就是((M+N-H)/H)>0.01时,模型部分训练,执行步骤B23;否则,跳转步骤B25;
步骤B23、得到更新后的模型参数,载入的步骤A14存储模型参数中非科技新闻特征信息词频集更新为步骤B20的非科技新闻特征信息词频集和载入的步骤A14存储模型参数中非科技新闻全文文本词频集更新为步骤B20的非科技新闻全文文本词频集;载入的步骤A14存储模型参数中科技新闻特征信息词频集更新为步骤B20的科技新闻特征信息词频集和载入的步骤A14存储模型参数中科技新闻全文文本词频集更新为步骤B20的科技新闻全文文本词频集;载入的步骤A14存储模型参数中特征信息词出现文档数集更新为步骤B21的特征信息词出现文档数集和载入的步骤A14存储模型参数中全文文本词出现文档数集更新为步骤B21的全文文本词出现文档数;
步骤B24、根据步骤B23的全文文本科技新闻词频集DFYA和非科技新闻词频集DFNA重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类局部系数和非科技新闻分类局部系数;重新计算载入的步骤A14存储模型参数中的全文文本全局系数;重新计算载入的步骤A14存储模型参数中的全文文本科技新闻分类权重和非科技新闻分类权重;重新计算载入的步骤A14存储模型参数中的模型训练文本数H=M+N;
步骤B25、增量存储载入的步骤A14存储模型参数中的模型参数DFNT、DFYT、DFNA、DFYA、WCT、WCA、SLNA、SLYA、SLGNA、SLGYA、Words、stopwords、SGA、T、H、M、N,载入的步骤A14存储模型参数中的模型参数经过步骤B1到步骤B25,如果存在模型参数中值发生改变,则重新存储对应的模型参数,流程结束。
步骤B3到B18是对步骤B1中新文本分特征信息和全文文本两个层次进行分类,特征信息是指新闻的标题和关键词合成的字符串;全文文本是指新闻的标题、关键词和内容合成的字符串;结果是将新文本区分为科技新闻和非科技新闻两类。
步骤A2、步骤A14、步骤B2、步骤B13和步骤B25中阈值T一般取值为0.75,阈值T计算方法是随机从科技新闻中抽取一定量的新闻,统计特征信息中特征词汇的占比。
步骤B19到B25是对模型进行部分增量更新和部分模型训练,处理一个新文本过程中,如果新文本属于科技新闻,更新步骤A14中存储的模型参数中的科技新闻特征信息词频集DFYT、科技新闻全文文本词频集DFYA、特征信息词出现文档数集WCT、全文文本词出现文档数集WCA和库中科技新闻文本数M,否则,更新步骤A14中存储的模型参数中的非科技新闻特征信息词频集DFNT、非科技新闻全文文本词频集DFNA、特征信息词出现文档数集WCT、全文文本词出现文档数集WCA和库中非科技新闻文本数N;当满足步骤B22库中新增加的文本数量达到训练样本数1%时,模型启动部分训练,重新计算步骤A14中科技新闻全文文本局部系数集SLYA、非科技新闻全文文本局部系数集SLNA、科技新闻全文文本权重集SLGYA、非科技新闻全文文本权重集SLGNA、全文文本全局系数SGA和模型训练文本数H。
为了更好地说明本方法的有效性,从中华人民共和国科学技术部、国家自然科学基金委员会和中国科学院等12个Web网站抽取每个网站近3年的新闻文本总数的3%作为原始训练数据,共5477篇。测试数据是由2015年6月10日至12日产生的538篇新闻文档。每个新闻文本的组成是由特征信息,即标题和关键词和内容构成,文本中含有少量的网页元素。经过人工评价挑选,在训练文本中,科技新闻样本数为4412篇,非科技新闻样本数为1065篇,测试集中科技新闻样本数为339篇,非科技新闻样本数为199篇。实验结果是非科技新闻识别数为154篇,其中科技新闻为4篇,非科技新闻为150篇,非科技新闻识别率为97.4%,数据集中非科技新闻占比为75.4%;科技新闻识别数为384,其中科技新闻为335篇,非科技新闻为49篇,科技新闻识别率为87.2%,占比为98.8%。
本发明可与计算机系统结合,从而自动完成对Web网页新闻中的科技新闻与非科技新闻分类。
本发明创造性的提出了通过新闻文本属性中的标题、关键词和内容,分两个层次对Web网页中新闻进行科技新闻与非科技新闻的分类,提高了Web网页中科技新闻的识别率和使用价值,对有最新技术需求的企业和个体而言具有很高的实用价值,满足其获取科技情报新闻的需求。
本发明创造性的提出了一种部分增量训练方法,通过部分信息数据的增量和定期触发部分训练,减少了一次训练的时间,增强了分类算法适应新闻内容变化的能力。
本发明提出了一种增量学习结合人工评价的方式,解决了聚类分析效率低且效果不佳的问题。
本发明提出的科技新闻的增量学习多层次二分类方法不但可以用于Web网页中新闻分类领域,也可以用于其他行业非Web网页中的新闻分类。