CN111611392B - 综合多特征和投票策略的教育资源引用分析方法、系统及介质 - Google Patents

综合多特征和投票策略的教育资源引用分析方法、系统及介质 Download PDF

Info

Publication number
CN111611392B
CN111611392B CN202010581318.9A CN202010581318A CN111611392B CN 111611392 B CN111611392 B CN 111611392B CN 202010581318 A CN202010581318 A CN 202010581318A CN 111611392 B CN111611392 B CN 111611392B
Authority
CN
China
Prior art keywords
quotation
polarity
feature
features
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010581318.9A
Other languages
English (en)
Other versions
CN111611392A (zh
Inventor
李莎莎
王攀成
周海芳
唐晋韬
王挺
陈凤
庞焜元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010581318.9A priority Critical patent/CN111611392B/zh
Publication of CN111611392A publication Critical patent/CN111611392A/zh
Application granted granted Critical
Publication of CN111611392B publication Critical patent/CN111611392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种综合多特征和投票策略的教育资源引用分析方法、系统及介质,本发明方法包括生成目标教育资源的引文的多特征,多特征包括引文的词袋特征、启发式特征及文本结构特征;将引文的多特征输入预先训练好的多个分类器得到分类结果,分类结果为意图分类结果或极性分类结果;将多个分类器得到的分类结果采用投票策略得到最终的分类结果,最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果。本发明能够克服现有技术中对引文信息捕获不充分,建模不全面,且分类器预测能力有限的缺陷,能够提高引文意图和极性识别的准确率、实现对数据集的充分利用并且保证模型性能的客观准确性。

Description

综合多特征和投票策略的教育资源引用分析方法、系统及 介质
技术领域
本发明涉及教育资源的引用参考文献分析技术,具体涉及一种综合多特征和投票策略的教育资源引用分析方法、系统及介质。
背景技术
随着互联网的普及和信息技术的飞速发展,目前教育资源日渐丰富,除了传统的教材,电子讲义、在线出版物、MOOC(大规模开放在线课程)等形式大规模涌现。这些教育资源中存在大量对其他资源的引用,这些引用信息对于了解教育资源的价值和贡献,建立起教育资源间的关联至关重要。
引文分析是进行教育资源关联分析的有用手段。引文是指施引文献对引用的资源的文本描述,它作为连接施引方和被引方的桥梁,在教育资源的关联分析中扮演着关键的角色。近年来,引文分析法在评估学术论文、期刊、研究机构和个人的研究贡献、价值、影响力等方面已成为一个基础的方法。
传统的引文分析方法比如h指数、共引分析和PageRank算法在评估文献或作者影响力时,利用统计计数,将所有引用视为等同。这样的方法弊端显然:不同的施引作者对同一资源的施引目的和动机可能不尽相同,若将所有负面的引用、敷衍的引用和正面的引用同等对待,由此带来的影响力评估是不全面的。因此,在进行引文分析时,对引用的情感加以分析显得尤为重要。
引用的情感分析可分为引用意图分析和引用极性分析。引用意图指的是施引作者引用被引资源的目的和动机,也即被引资源在施引文献中所起的作用;引用极性指的是施引作者对于被引资源的态度。引用极性一般分为正、负和中性三类。正引用一般指引用中明确表明了被引资源的优点,或者表明该资源被施引文献或第三方文献借鉴,以及被引资源与其他资源进行对比时被认为更出色;相反,负引用则指引用中明确表明了被引资源的缺陷,或被引资源与其他资源进行对比时被认为更差;中性引用则指在引用中没有明确表达情感倾向,只做内容描述。
与引用极性分析相比,意图分类侧重于更具体的引用功能和动机。现有的常用分类标准将引用意图分为四大类六小类:使用(基于、补充)、对比、批判(直接批判、隐晦批判)和背景(分类细节参见“Hernandez-Alvarez M,Soriano J M G,Martínez-BarcoP.Citation function,polarity and influence classification[J].Natural LanguageEngineering,2017,23(4):561-588.”即引文功能、极性和影响力分类,2017年《自然语言工程》第561-588页)。
常用的引用意图和极性分类的基准方法是为每一类意图或极性构建单独的词袋模型,并训练单一的有监督分类器用于意图和极性的分类。基准方法的主要缺陷在于特征构建时没有充分对引文的文本特征和结构特征建模,同时单一的分类器预测性能有限。
所以,如何解决引文特征建模以及分类器预测能力的缺陷,成为一个亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种综合多特征和投票策略的教育资源引用分析方法、系统及介质,本发明用于克服现有技术中对引文信息捕获不充分,建模不全面,且分类器预测能力有限的缺陷。
为了解决上述技术问题,本发明采用的技术方案为:
一种综合多特征和投票策略的教育资源引用分析方法,该方法包括:
1)生成目标教育资源的引文的多特征,所述多特征包括引文的词袋特征、启发式特征及文本结构特征;
2)将引文的多特征输入预先训练好的多个分类器得到分类结果,所述分类器被预先训练建立了引文的多特征、分类结果之间的映射关系,所述分类结果为意图分类结果或极性分类结果;
3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果,所述最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果。
可选地,所述词袋特征的生成步骤包括:计算引文每一类意图或极性的N元组表示、计算引文每一类意图或极性的动词及其WordNet同义词表示,从而为每类意图或极性生成两种词袋特征。
可选地,所述计算引文每一类意图或极性的N元组表示的详细步骤包括:对每条引文首先进行预处理,进行分词和去除停用词操作;统计每一类意图或极性Pi的N元组的数目,将N元组按顺序排列,然后进行归一化操作得到意图或极性Pi的N元组向量表示;假设意图或极性中的元组数目总计为N,按特定顺序排列为[w1,w2,...,wN],则进行归一化后意图或极性Pi=[r1,r2,...,rN],其中r1为wi的权重;对于训练集中的每条引文,执行分词及去停用词操作后,计算其在每类意图或极性上对应的特征值,对于引文Ci=[c1,c2,...,cN],其中:
生成引文Ci在意图或极性Pi上的特征值分量为:Ci*Pi T
可选地,所述计算引文每一类意图或极性的动词及其WordNet同义词表示的详细步骤包括:首先,针对引文集中的每一个引文,对引文进行分词和词性标注,识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词,在WordNet中对每个动词查找同义词,并添加进该引文所属的意图或极性类别字典中,最终遍历完引文集获取每一个引文所属的意图或极性类别字典;其次,对每一类意图或极性的向量进行归一化操作,假设意图或极性Pi中的动词及同义词数目总计为N,按特定顺序排列为[v1,v2,...,vN],则进行归一化后意图或极性Pi=[u1,u2,...,uN],其中u1为vi的权重;再次,对于训练集中的每条引文,执行分词及去停用词操作以及得到其WordNet同义词集后,计算其每类意图或极性对应的特征值,对于引文Ci=[d1,d2,...,dN],其中:
则引文Ci在Pi上的特征值分量为:Ci*Pi T
可选地,所述启发式特征包括:参考文献数目特征,用于统计每条引文中引用的参考文献数目;参考文献是否分离特征,用于记录引文的参考文献是合并引用或是单独引用;第三人称代词特征,用于记录以每条引文是否包含第三人称代词;否定词特征,用于记录引文是否包含否定词线索;推测词特征,用于记录引文是否包含推测词线索;主观词特征,用于记录引文是否包含主观词,所述主观词指的是包含主观情感的词;自引特征,用于记录引文是否包含自引。
可选地,所述文本结构特征包括:章节类型特征,用于记录引文所在的章节信息;全文位置特征,用于记录引文所在语句在全文中的位置;章节位置特征,用于记录引文所在语句在所在章节中的位置。
可选地,步骤2)之前还包括训练多个分类器的下述步骤:
S1)针对数据集中带标签的引文生成引文的多特征,所述多特征包括引文的词袋特征、启发式特征及文本结构特征;
S2)将生成引文的多特征后的数据集按照N:1的固定比例进行多次随机划分,其中N为训练集的所占比例,1为验证集的所占比例,从而得到多组训练集和验证集;
S3)建立分类器,并利用训练集对多个分类器进行训练,并利用训练好的分类器预测验证集的类别,从而完成分类器的训练,使得该分类器均被训练建立了引文的多特征、分类结果之间的映射关系;
S4)判断完成训练的分类器的数量是否满足要求,如果不满足要求则继续跳转执行步骤S2),否则判定所有分类器训练完成。
此外,本发明还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备被编程或配置以执行所述综合多特征和投票策略的教育资源引用分析方法的步骤。
此外,本发明还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
和现有技术相比,本发明具有下述优点:
1、本发明综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示,有效的提高了引文意图和极性识别的准确率。
2、本发明综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法,相比于划分固定的训练集和测试集,在数据集有限的情况下,做到了对数据集的充分利用并且保证模型性能的客观准确性。
3、本发明将多个分类器得到的分类结果采用投票策略得到最终的分类结果,采用多特征和投票策略的方式结合,因此能够克服现有技术中对引文信息捕获不充分,建模不全面,且分类器预测能力有限的缺陷。
4、本发明综合多特征和投票策略的教育资源引用分析方法适用于意图分类和极性分类,最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果,具有功能多样、使用方式灵活的优点。
附图说明
图1为本发明实施例一方法的基本流程示意图。
图2为本发明实施例一方法的基本原理示意图。
具体实施方式
下面将详细描述本说明书的各个方面的特征和示例性实施例,为使本说明书的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本说明书进行进一步详细描述。
实施例一:
本实施例综合多特征和投票策略的教育资源引用分析方法的目标为用于意图分类结果。如图1和图2所示,本实施例综合多特征和投票策略的教育资源引用分析方法包括:
1)生成目标教育资源的引文的多特征,多特征包括引文的词袋(Bag-of-Words)特征、启发式特征及文本结构特征;
2)将引文的多特征输入预先训练好的多个分类器得到分类结果,分类器被预先训练建立了引文的多特征、分类结果之间的映射关系,分类结果为意图分类结果或极性分类结果;
3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果,最终的分类结果为意图分类结果和极性分类结果。
需要说明的是,本实施例方法中可同时获得意图分类结果和极性分类结果,本实施例中利用的引文意图分类方案来自(“Hernandez-Alvarez M,Soriano J M G,Martínez-Barco P.Citation function,polarity and influence classification[J].NaturalLanguage Engineering,2017,23(4):561-588.”即引文功能、极性和影响力分类,2017年《自然语言工程》第561-588页),其将引文意图分为四大类六小类:使用(基于、补充)、对比、批判(直接批判、隐晦批判)和背景。意图分类结果的详细说明如表1所示:
表1:意图分类的详细说明表。
本实施例方法中极性分类结果分为正、负和中性三类,此外也可以根据需要划分为更多或更少分类类型。
本实施例中多个分类器中包含部分用于获得意图分类结果的分类器、部分用于获得极性分类结果的分类器,且采用投票策略得到最终的分类结果时,意图分类结果和极性分类结果两种结果为分开进行投票的方式来获得最终的意图分类结果和极性分类结果。毫无疑问,也可以根据需要仅仅获得意图分类结果或者极性分类结果,此时分类器即只有一个种类:用于获得意图分类结果或者极性分类结果,对应投票策略也只有一种类型的投票。
本实施例中多特征包括引文的词袋(Bag-of-Words)特征、启发式特征及文本结构特征,本实施例方法优于基准模型的一点在于,对引文进行了全面的特征建模以捕获其重要信息用于意图和极性识别。
词袋特征构建的基本思路是为每类引用意图或极性构建加权词或词组向量,用该向量表示这类意图或极性。本实施例中,词袋特征的生成步骤包括:计算引文每一类意图或极性的N元组(N=1,2,3)表示、计算引文每一类意图或极性的动词及其WordNet同义词表示,从而为每类意图或极性生成两种词袋特征。
本实施例中,计算引文每一类意图或极性的N元组表示的详细步骤包括:对每条引文首先进行预处理,进行分词和去除停用词操作(本实施例中具体利用NLTK工具包实现);统计每一类意图或极性Pi的N元组的数目,将N元组按顺序排列,然后进行归一化操作得到意图或极性Pi的N元组向量表示;假设意图或极性中的元组数目总计为N,按特定顺序排列为[w1,w2,...,wN],则进行归一化后意图或极性Pi=[r1,r2,...,rN],其中r1为wi的权重;对于训练集中的每条引文,执行分词及去停用词操作后,计算其在每类意图或极性上对应的特征值,对于引文Ci=[c1,c2,...,cN],其中:
生成引文Ci在意图或极性Pi上的特征值分量为:Ci*Pi T
计算动词及其WordNet(实现细节参见“Miller,George A.WordNet:Anelectronic lexical database.MIT press,1998.即WordNet:一个电子词汇数据库,MIT出版社1998年出版”)同义词表示时,由于考虑到不同的引文叙述方式差异较大,本实施例中认为谓词可以有效地捕获施引主体对于客体的动作,是进行意图及极性识别时的强特征,因此针对于引文的动词进行词袋特征构建。
本实施例中,计算引文每一类意图或极性的动词及其WordNet同义词表示的详细步骤包括:首先,针对引文集中的每一个引文,对引文进行分词和词性标注,识别出包含动词基本形式(VB)、动词过去式(VBD)、动名词和现在分词(VBG)、动词过去分词(VBN)、非三人称单数现在时(VBP)、三人称单数现在时(VBZ)词性的动词,在WordNet中对每个动词查找同义词,并添加进该引文所属的意图或极性类别字典中,最终遍历完引文集获取每一个引文所属的意图或极性类别字典;其次,对每一类意图或极性的向量进行归一化操作,假设意图或极性Pi中的动词及同义词数目总计为N,按特定顺序排列为[v1,v2,...,vN],则进行归一化后意图或极性Pi=[u1,u2,...,uN],其中u1为vi的权重;再次,对于训练集中的每条引文,执行分词及去停用词操作以及得到其WordNet同义词集后,计算其每类意图或极性对应的特征值,对于引文Ci=[d1,d2,...,dN],其中:
则引文Ci在Pi上的特征值分量为:Ci*Pi T
启发式特征构建的基本思路是对引文中与意图和极性关联密切的特征进行建模。本实施例中,启发式特征包括:
参考文献数目特征,用于统计每条引文中引用的参考文献数目;本实施例中,如果参考文献数目为1,则该特征被标记为0,否则标记为1。
参考文献是否分离特征,用于记录引文的参考文献是合并引用或是单独引用;本实施例中,如果参考文献分离,则该特征被标记为1,否则标记为0。
第三人称代词特征,用于记录以每条引文是否包含第三人称代词;本实施例中,如果包含第三人称代词,则该特征被标记为1,否则标记为0。
否定词特征,用于记录引文是否包含否定词线索;否定词定义来自于(“Morante,Roser,and Eduardo Blanco."*SEM 2012shared task:Resolving the scope and focusof negation."*SEM 2012:The First Joint Conference on Lexical andComputational Semantics–Volume 1:Proceedings of the main conference and theshared task,and Volume 2:Proceedings of the Sixth International Workshop onSemantic Evaluation(SemEval 2012).2012.”即SEM 2012共同任务:解决否定词的否定范围和聚焦。SEM2012:第一届文本和语义计算会议-第一卷,以及第六届国际语义评价研讨会SemEval2012.)。本实施例中,如果包含否定词,则该特征被标记为1,否则标记为0。
推测词特征,用于记录引文是否包含推测词线索;推测词定义来自于(“Quirk,Randolph.A comprehensive grammar of the English language.Pearson EducationIndia,2010.”即全面的英语语法,2010)。本实施例中,如果包含推测词,则该特征被标记为1,否则标记为0。
主观词特征,用于记录引文是否包含主观词,主观词指的是包含主观情感的词;主观词定义来自于(“Wilson T,Hoffmann P,Somasundaran S,et al.OpinionFinder:Asystem for subjectivity analysis[C]//Proceedings of HLT/EMNLP 2005InteractiveDemonstrations.2005:34-35.”即OpinionFinder:一个用于主观分析的系统。2005年HLT/EMNLP交互式展示,34-35页),如“achieve”(实现、达到)表示了强烈的认同和积极情绪;本实施例中,如果包含主观词,则该特征被标记为1,否则标记为0。
自引特征,用于记录引文是否包含自引。本实施例中,如果包含自引,则该特征被标记为1,否则标记为0。
文本结构特征的基本思路是将引文置于全文或者章节中,对其所属的篇章特征进行建模。本实施例中,文本结构特征包括:
章节类型特征,用于记录引文所在的章节信息;例如本实施例中考虑引文所在的章节,分为五大类:(1)引言(Introduction,Motivation)(2)相关工作(Related Work,Background,Prior Work,Previous Work)(3)实验(Experiment,Data,Result,Evaluation)(4)总结(Discussion,Conclusion,Future Work)(5)其他章节,本实施例中利用正则表达式匹配引文所在的章节,为五类章节分别设置0-4的标记。
全文位置特征,用于记录引文所在语句在全文中的位置;本实施例中,将全文的语句按句划分,并按顺序标号,全文位置特征f=ni/N,其中ni为引文i在全文中的序号,N为全文的语句总数。
章节位置特征,用于记录引文所在语句在所在章节中的位置。本实施例中,将引文所在章节的语句按句划分,并按顺序标号,章节位置特征f=si/S,其中si为引文i在章节中的序号,S为章节中的语句总数。
本实施例中,步骤2)之前还包括训练多个分类器的下述步骤:
S1)针对数据集中带标签的引文生成引文的多特征,多特征包括引文的词袋特征、启发式特征及文本结构特征;本实施例中,数据集包括人工标意图和极性的1603条引文;
S2)将生成引文的多特征后的数据集按照N:1的固定比例进行多次随机划分,其中N为训练集的所占比例,1为验证集的所占比例,从而得到多组训练集和验证集;本实施例中,N为4,即将生成引文的多特征后的数据集按照4:1的固定比例进行多次随机划分;
S3)建立分类器,并利用训练集对多个分类器进行训练,并利用训练好的分类器预测验证集的类别,从而完成分类器的训练,使得该分类器均被训练建立了引文的多特征、分类结果之间的映射关系;
S4)判断完成训练的分类器的数量是否满足要求,如果不满足要求则继续跳转执行步骤S2),否则判定所有分类器训练完成。
本实施例中,多个分类器具体采用随机森林分类器F(“Breiman,L.(2001).Randomforests.Machine Learning,45(1),5–32.”即随机森林,机器学习期刊2001年)实现,此外也可以根据需要采用其他分类器。本实施例中,S4)最终训练得到200个随机森林分类器[F1,F2,...,F200]。利用未使用数据Xi进行训练的Ni个模型预测数据Xi的类别依次为采用多数投票的策略得到数据Xi的最终类别:/>其中J为类别总数,/>I(.)为指示函数。重复上述步骤遍历整个数据集,为每个数据得到相应的预测标签,得到数据集的每个类别以及整体预测性能。性能评测分为准确率(P)、召回率(R)以及F1值,F1=2*P*R/(P+R)。
对于未知样例X,利用训练好的200个分类器进行多数投票得到预测的类别[y1,y2,…,y200],则最终预测类别其中J为类别总数,其中I(.)为指示函数。
本实施例中,前述步骤1)、步骤S1)同样也是通过特征生成模块实现的。前述步骤S2)是通过数据采样模块实现的,数据采样模块以特征生成模块生成的整个数据集上的引文特征表示作为输入,然后对数据集按照训练集:验证集=N:1的固定比例进行多次随机划分,得到若干组训练集和验证集作为输出。重复多次采样能够使得不同组的训练集数据相互弥补,克服单次划分训练集和验证集带来的数据集未充分利用的缺陷。前述步骤2)~3)为通过模型预测模块实现的,步骤S3)为通过模型训练模块实现的。模型训练模块以数据采样模块得到的单独并列的训练集作为输入,训练分类器模型,然后以这些分类器模型的多数投票结果作为输出,作为模型对引文意图或极性的预测。数据采样模块和模型训练模块能够保证利用数据集实现模型性能验证的前提下最大化利用数据集,同时多模型投票的集成方法能够充分结合各基础模型的预测性能,实现最佳预测能力。在训练完毕后,利用未使用数据X进行模型训练的模型预测数据X的类别,采用多数投票的策略得到数据X的最终类别。对于未知样例,利用训练好的多个分类器进行多数投票得到预测的类别。
为了本实施例综合多特征和投票策略的教育资源引用分析方法进行验证,本实施例中实验条件:采用i7 4720HQ处理器,操作系统为windows 10,实验环境为Python3.0,机器学习工具包为scikit-learn-0.20,词处理工具包为NLTK。本实施例方法与采用基准方法实现引文意图或极性识别结果对比如表2和表3所示。
表2:本实施例与基准模型在引文意图识别上的性能对比。
表3:本实施例与基准模型在引文极性识别上的性能对比。
参见表2和表3可知,基准方法只为每一类意图或极性单独构建了词袋模型,并训练单一朴素贝叶斯分类器用于意图或极性的分类。从表2和表3看出,本实施例所实现的多特征和多模型投票的方法在引文意图和极性识别上均优于基准方法,在意图识别上的全类别准确率为0.8484,召回率为0.8452,F1值为0.8468;在极性识别上的全类别准确率为0.9025,召回率为0.9003,F1值为0.9013。
综上所述,本实施例综合多特征和投票策略的教育资源引用分析方法具有下述优点:1、本实施例综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示,尤其是针对意图和极性每一类别的向量表示,有效的提高了引文意图和极性识别的准确率。2、本实施例综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法,相比于划分固定的训练集和测试集,在数据集有限的情况下,做到了对数据集的充分利用并且保证模型性能的客观准确性。
此外,本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的步骤。
此外,本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
实施例二:
本实施例方法与实施例一基本相同,其主要区别点为:本实施例综合多特征和投票策略的教育资源引用分析方法的目标为仅用于意图分类结果,其不同的特征如下:
本实施例综合多特征和投票策略的教育资源引用分析方法包括:
1)生成目标教育资源的引文的多特征,多特征包括引文的词袋(Bag-of-Words)特征、启发式特征及文本结构特征;
2)将引文的多特征输入预先训练好的多个分类器得到分类结果,分类器被预先训练建立了引文的多特征、分类结果之间的映射关系,分类结果为意图分类结果;
3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果,最终的分类结果为意图分类结果。
本实施例中,词袋特征的生成步骤包括:计算引文每一类意图的N元组表示、计算引文每一类意图的动词及其WordNet同义词表示,从而为每类意图生成两种词袋特征。
本实施例中,计算引文每一类意图的N元组表示的详细步骤包括:对每条引文首先进行预处理,进行分词和去除停用词操作;统计每一类意图Pi的N元组的数目,将N元组按顺序排列,然后进行归一化操作得到意图Pi的N元组向量表示;假设意图中的元组数目总计为N,按特定顺序排列为[w1,w2,…,wN],则进行归一化后意图Pi=[r1,r2,...,rN],其中r1为wi的权重;对于训练集中的每条引文,执行分词及去停用词操作后,计算其在每类意图上对应的特征值,对于引文Ci=[c1,c2,...,cN],其中:
生成引文Ci在意图Pi上的特征值分量为:Ci*Pi T
本实施例中,计算引文每一类意图的动词及其WordNet同义词表示的详细步骤包括:首先,针对引文集中的每一个引文,对引文进行分词和词性标注,识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词,在WordNet中对每个动词查找同义词,并添加进该引文所属的意图类别字典中,最终遍历完引文集获取每一个引文所属的意图类别字典;其次,对每一类意图的向量进行归一化操作,假设意图Pi中的动词及同义词数目总计为N,按特定顺序排列为[v1,v2,...,vN],则进行归一化后意图Pi=[u1,u2,...,uN],其中u1为vi的权重;再次,对于训练集中的每条引文,执行分词及去停用词操作以及得到其WordNet同义词集后,计算其每类意图对应的特征值,对于引文Ci=[d1,d2,...,dN],其中:
则引文Ci在Pi上的特征值分量为:Ci*Pi T
本实施例中,启发式特征、文本结构特征与实施例一相同,故在此不再赘述。
本实施例中,多个分类器仅仅用于引文意图识别,其训练方式与实施例一相同,故在此不再赘述。
由于本实施例综合多特征和投票策略的教育资源引用分析方法实际上为实施例一的子集,因此其性能和效果可参见实施例一中的表2。综上所述,本实施例综合多特征和投票策略的教育资源引用分析方法具有下述优点:1、本实施例综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示,尤其是针对意图每一类别的向量表示,有效的提高了引文意图识别的准确率。2、本实施例综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法,相比于划分固定的训练集和测试集,在数据集有限的情况下,做到了对数据集的充分利用并且保证模型性能的客观准确性。
此外,本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的步骤。
此外,本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
实施例三:
本实施例综合多特征和投票策略的教育资源引用分析方法的目标为用于意图分类结果。如图1所示,本实施例综合多特征和投票策略的教育资源引用分析方法包括:
1)生成目标教育资源的引文的多特征,多特征包括引文的词袋(Bag-of-Words)特征、启发式特征及文本结构特征;
2)将引文的多特征输入预先训练好的多个分类器得到分类结果,分类器被预先训练建立了引文的多特征、分类结果之间的映射关系,该分类结果为极性分类结果;
3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果,最终的分类结果为极性分类结果。
本实施例中,词袋特征的生成步骤包括:计算引文每一类极性的N元组表示、计算引文每一类极性的动词及其WordNet同义词表示,从而为每类极性生成两种词袋特征。
本实施例中,计算引文每一类极性的N元组表示的详细步骤包括:对每条引文首先进行预处理,进行分词和去除停用词操作;统计每一类极性Pi的N元组的数目,将N元组按顺序排列,然后进行归一化操作得到极性Pi的N元组向量表示;假设极性中的元组数目总计为N,按特定顺序排列为[w1,w2,...,wN],则进行归一化后极性Pi=[r1,r2,...,rN],其中r1为wi的权重;对于训练集中的每条引文,执行分词及去停用词操作后,计算其在每类极性上对应的特征值,对于引文Ci=[c1,c2,...,cN],其中:
生成引文Ci在极性Pi上的特征值分量为:Ci*Pi T
本实施例中,计算引文每一类极性的动词及其WordNet同义词表示的详细步骤包括:首先,针对引文集中的每一个引文,对引文进行分词和词性标注,识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词,在WordNet中对每个动词查找同义词,并添加进该引文所属的极性类别字典中,最终遍历完引文集获取每一个引文所属的极性类别字典;其次,对每一类极性的向量进行归一化操作,假设极性Pi中的动词及同义词数目总计为N,按特定顺序排列为[v1,v2,...,vN],则进行归一化后极性Pi=[u1,u2,...,uN],其中u1为vi的权重;再次,对于训练集中的每条引文,执行分词及去停用词操作以及得到其WordNet同义词集后,计算其每类极性对应的特征值,对于引文Ci=[d1,d2,...,dN],其中:
则引文Ci在Pi上的特征值分量为:Ci*Pi T
本实施例中,启发式特征、文本结构特征与实施例一相同,故在此不再赘述。
本实施例中,多个分类器仅仅用于引文极性识别,其训练方式与实施例一相同,故在此不再赘述。
由于本实施例综合多特征和投票策略的教育资源引用分析方法实际上为实施例一的子集,因此其性能和效果可参见实施例一中的表3。
综上所述,本实施例综合多特征和投票策略的教育资源引用分析方法具有下述优点:1、本实施例综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示,尤其是针对极性每一类别的向量表示,有效的提高了引文极性识别的准确率。2、本实施例综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法,相比于划分固定的训练集和测试集,在数据集有限的情况下,做到了对数据集的充分利用并且保证模型性能的客观准确性。
此外,本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的步骤。
此外,本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种综合多特征和投票策略的教育资源引用分析方法,其特征在于该方法包括:
1)生成目标教育资源的引文的多特征,所述多特征包括引文的词袋特征、启发式特征及文本结构特征;
所述引文是指施引文献对引用的资源的文本描述;
所述启发式特征包括:参考文献数目特征,用于统计每条引文中引用的参考文献数目;参考文献是否分离特征,用于记录引文的参考文献是合并引用或是单独引用;第三人称代词特征,用于记录以每条引文是否包含第三人称代词;否定词特征,用于记录引文是否包含否定词线索;推测词特征,用于记录引文是否包含推测词线索;主观词特征,用于记录引文是否包含主观词,所述主观词指的是包含主观情感的词;自引特征,用于记录引文是否包含自引;
所述文本结构特征包括:章节类型特征,用于记录引文所在的章节信息;全文位置特征,用于记录引文所在语句在全文中的位置;章节位置特征,用于记录引文所在语句在所在章节中的位置;
2)将引文的多特征输入预先训练好的多个分类器得到分类结果,所述分类器被预先训练建立了引文的多特征、分类结果之间的映射关系,所述分类结果为意图分类结果或极性分类结果;
3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果,所述最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果。
2.根据权利要求1所述的综合多特征和投票策略的教育资源引用分析方法,其特征在于,所述词袋特征的生成步骤包括:计算引文每一类意图或极性的N元组表示、计算引文每一类意图或极性的动词及其WordNet同义词表示,从而为每类意图或极性生成两种词袋特征。
3.根据权利要求2所述的综合多特征和投票策略的教育资源引用分析方法,其特征在于,所述计算引文每一类意图或极性的N元组表示的详细步骤包括:对每条引文首先进行预处理,进行分词和去除停用词操作;统计每一类意图或极性的N元组的数目,将N元组按顺序排列,然后进行归一化操作得到意图或极性/>的N元组向量表示;假设意图或极性中的元组数目总计为N, 按特定顺序排列为[/>], 则进行归一化后意图或极性,其中/>为/>的权重;对于训练集中的每条引文,执行分词及去停用词操作后,计算其在每类意图或极性上对应的特征值,对于引文/>, 其中:
生成引文在意图或极性/>上的特征值分量为:/>
4.根据权利要求2所述的综合多特征和投票策略的教育资源引用分析方法,其特征在于,所述计算引文每一类意图或极性的动词及其WordNet同义词表示的详细步骤包括:首先,针对引文集中的每一个引文,对引文进行分词和词性标注,识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词,在WordNet中对每个动词查找同义词,并添加进该引文所属的意图或极性类别字典中,最终遍历完引文集获取每一个引文所属的意图或极性类别字典;其次,对每一类意图或极性的向量进行归一化操作,假设意图或极性中的动词及同义词数目总计为N, 按特定顺序排列为[/>, 则进行归一化后意图或极性/>,其中/>的权重;再次,对于训练集中的每条引文,执行分词及去停用词操作以及得到其WordNet同义词集后,计算其每类意图或极性对应的特征值,对于引文/>, 其中:
则引文在/>上的特征值分量为:/>
5.根据权利要求1~4中任意一项所述的综合多特征和投票策略的教育资源引用分析方法,其特征在于,步骤2)之前还包括训练多个分类器的下述步骤:
S1)针对数据集中带标签的引文生成引文的多特征,所述多特征包括引文的词袋特征、启发式特征及文本结构特征;
S2)将生成引文的多特征后的数据集按照N:1的固定比例进行多次随机划分,其中N为训练集的所占比例,1为验证集的所占比例,从而得到多组训练集和验证集;
S3)建立分类器,并利用训练集对多个分类器进行训练,并利用训练好的分类器预测验证集的类别,从而完成分类器的训练,使得该分类器均被训练建立了引文的多特征、分类结果之间的映射关系;
S4)判断完成训练的分类器的数量是否满足要求,如果不满足要求则继续跳转执行步骤S2),否则判定所有分类器训练完成。
6.一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任意一项所述综合多特征和投票策略的教育资源引用分析方法的步骤。
7.一种综合多特征和投票策略的教育资源引用分析系统,包括计算机设备,其特征在于,该计算机设备的存储器上存储有被编程或配置以执行权利要求1~5中任意一项所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。
CN202010581318.9A 2020-06-23 2020-06-23 综合多特征和投票策略的教育资源引用分析方法、系统及介质 Active CN111611392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010581318.9A CN111611392B (zh) 2020-06-23 2020-06-23 综合多特征和投票策略的教育资源引用分析方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010581318.9A CN111611392B (zh) 2020-06-23 2020-06-23 综合多特征和投票策略的教育资源引用分析方法、系统及介质

Publications (2)

Publication Number Publication Date
CN111611392A CN111611392A (zh) 2020-09-01
CN111611392B true CN111611392B (zh) 2023-07-25

Family

ID=72200398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010581318.9A Active CN111611392B (zh) 2020-06-23 2020-06-23 综合多特征和投票策略的教育资源引用分析方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111611392B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110068278A (ko) * 2009-12-15 2011-06-22 한국발명진흥회 특허 자동 평가 시스템의 특허 자동 평가 방법
JP2018101250A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 知識情報管理システム、知識情報管理方法及びプログラム
CN111274981A (zh) * 2020-02-03 2020-06-12 中国人民解放军国防科技大学 目标检测网络构建方法及装置、目标检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248094A1 (en) * 2005-04-28 2006-11-02 Microsoft Corporation Analysis and comparison of portfolios by citation
KR20090062234A (ko) * 2007-12-12 2009-06-17 (주)광개토연구소 문건 집합 통합 인용 분석 기능을 가진 특허 정보 시스템
US8463594B2 (en) * 2008-03-21 2013-06-11 Sauriel Llc System and method for analyzing text using emotional intelligence factors
US8832002B2 (en) * 2008-11-07 2014-09-09 Lawrence Fu Computer implemented method for the automatic classification of instrumental citations
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN101937462B (zh) * 2010-09-03 2016-08-24 中国科学院声学研究所 文献评价自动检索方法及系统
CN104657744B (zh) * 2015-01-29 2017-10-24 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN105589948B (zh) * 2015-12-18 2018-10-12 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110068278A (ko) * 2009-12-15 2011-06-22 한국발명진흥회 특허 자동 평가 시스템의 특허 자동 평가 방법
JP2018101250A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 知識情報管理システム、知識情報管理方法及びプログラム
CN111274981A (zh) * 2020-02-03 2020-06-12 中国人民解放军国防科技大学 目标检测网络构建方法及装置、目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Citation Impact Categorization: For Scientific Literature;Myriam Hernández-Alvarez等;《2015 IEEE 18th International Conference on Computational Science and Engineering》;第307-313页 *
基于机器学习算法的引文情感自动识别研究——以自然语言处理领域为例;徐琳宏等;《现代情报》;第35-40、48页 *

Also Published As

Publication number Publication date
CN111611392A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
Janda et al. Syntactic, semantic and sentiment analysis: The joint effect on automated essay evaluation
Svoboda et al. New word analogy corpus for exploring embeddings of Czech words
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
Pakray et al. Textual entailment using lexical and syntactic similarity
Walia et al. An efficient automated answer scoring system for Punjabi language
Gan et al. Semglove: Semantic co-occurrences for glove from bert
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
Nerabie et al. The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach
Narayanaswamy Exploiting BERT and RoBERTa to improve performance for aspect based sentiment analysis
Zhang et al. Event recognition based on deep learning in Chinese texts
Langlet et al. Modelling user’s attitudinal reactions to the agent utterances: focus on the verbal content
Karamibekr et al. A structure for opinion in social domains
Lee Natural Language Processing: A Textbook with Python Implementation
Chen et al. Discourse relations detection via a mixed generative-discriminative framework
Alrehily et al. Intelligent electronic assessment for subjective exams
Ikram et al. Automated Essay Scoring (AES); A Semantic Analysis Inspired Machine Learning Approach: An automated essay scoring system using semantic analysis and machine learning is presented in this research
Datta et al. Optimization of an automated examination generation system using hybrid recurrent neural network
CN111611392B (zh) 综合多特征和投票策略的教育资源引用分析方法、系统及介质
Zhang et al. Sentiment identification by incorporating syntax, semantics and context information
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
Ji et al. Research on semantic similarity calculation methods in Chinese financial intelligent customer service
Shahbaz et al. Sentiment miner: A prototype for sentiment analysis of unstructured data and text
Trancoso et al. The Impact of Language Technologies in the Legal Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant