CN111611392B

CN111611392B - 综合多特征和投票策略的教育资源引用分析方法、系统及介质

Info

Publication number: CN111611392B
Application number: CN202010581318.9A
Authority: CN
Inventors: 李莎莎; 王攀成; 周海芳; 唐晋韬; 王挺; 陈凤; 庞焜元
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-07-25
Anticipated expiration: 2040-06-23
Also published as: CN111611392A

Abstract

本发明公开了一种综合多特征和投票策略的教育资源引用分析方法、系统及介质，本发明方法包括生成目标教育资源的引文的多特征，多特征包括引文的词袋特征、启发式特征及文本结构特征；将引文的多特征输入预先训练好的多个分类器得到分类结果，分类结果为意图分类结果或极性分类结果；将多个分类器得到的分类结果采用投票策略得到最终的分类结果，最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果。本发明能够克服现有技术中对引文信息捕获不充分，建模不全面，且分类器预测能力有限的缺陷，能够提高引文意图和极性识别的准确率、实现对数据集的充分利用并且保证模型性能的客观准确性。

Description

综合多特征和投票策略的教育资源引用分析方法、系统及介质

技术领域

本发明涉及教育资源的引用参考文献分析技术，具体涉及一种综合多特征和投票策略的教育资源引用分析方法、系统及介质。

背景技术

随着互联网的普及和信息技术的飞速发展，目前教育资源日渐丰富，除了传统的教材，电子讲义、在线出版物、MOOC(大规模开放在线课程)等形式大规模涌现。这些教育资源中存在大量对其他资源的引用，这些引用信息对于了解教育资源的价值和贡献，建立起教育资源间的关联至关重要。

引文分析是进行教育资源关联分析的有用手段。引文是指施引文献对引用的资源的文本描述，它作为连接施引方和被引方的桥梁，在教育资源的关联分析中扮演着关键的角色。近年来，引文分析法在评估学术论文、期刊、研究机构和个人的研究贡献、价值、影响力等方面已成为一个基础的方法。

传统的引文分析方法比如h指数、共引分析和PageRank算法在评估文献或作者影响力时，利用统计计数，将所有引用视为等同。这样的方法弊端显然：不同的施引作者对同一资源的施引目的和动机可能不尽相同，若将所有负面的引用、敷衍的引用和正面的引用同等对待，由此带来的影响力评估是不全面的。因此，在进行引文分析时，对引用的情感加以分析显得尤为重要。

引用的情感分析可分为引用意图分析和引用极性分析。引用意图指的是施引作者引用被引资源的目的和动机，也即被引资源在施引文献中所起的作用；引用极性指的是施引作者对于被引资源的态度。引用极性一般分为正、负和中性三类。正引用一般指引用中明确表明了被引资源的优点，或者表明该资源被施引文献或第三方文献借鉴，以及被引资源与其他资源进行对比时被认为更出色；相反，负引用则指引用中明确表明了被引资源的缺陷，或被引资源与其他资源进行对比时被认为更差；中性引用则指在引用中没有明确表达情感倾向，只做内容描述。

与引用极性分析相比，意图分类侧重于更具体的引用功能和动机。现有的常用分类标准将引用意图分为四大类六小类：使用(基于、补充)、对比、批判(直接批判、隐晦批判)和背景(分类细节参见“Hernandez-Alvarez M,Soriano J M G,Martínez-BarcoP.Citation function,polarity and influence classification[J].Natural LanguageEngineering,2017,23(4):561-588.”即引文功能、极性和影响力分类，2017年《自然语言工程》第561-588页)。

常用的引用意图和极性分类的基准方法是为每一类意图或极性构建单独的词袋模型，并训练单一的有监督分类器用于意图和极性的分类。基准方法的主要缺陷在于特征构建时没有充分对引文的文本特征和结构特征建模，同时单一的分类器预测性能有限。

所以，如何解决引文特征建模以及分类器预测能力的缺陷，成为一个亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种综合多特征和投票策略的教育资源引用分析方法、系统及介质，本发明用于克服现有技术中对引文信息捕获不充分，建模不全面，且分类器预测能力有限的缺陷。

为了解决上述技术问题，本发明采用的技术方案为：

一种综合多特征和投票策略的教育资源引用分析方法，该方法包括：

1)生成目标教育资源的引文的多特征，所述多特征包括引文的词袋特征、启发式特征及文本结构特征；

2)将引文的多特征输入预先训练好的多个分类器得到分类结果，所述分类器被预先训练建立了引文的多特征、分类结果之间的映射关系，所述分类结果为意图分类结果或极性分类结果；

3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果，所述最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果。

可选地，所述词袋特征的生成步骤包括：计算引文每一类意图或极性的N元组表示、计算引文每一类意图或极性的动词及其WordNet同义词表示，从而为每类意图或极性生成两种词袋特征。

可选地，所述计算引文每一类意图或极性的N元组表示的详细步骤包括：对每条引文首先进行预处理，进行分词和去除停用词操作；统计每一类意图或极性P_i的N元组的数目，将N元组按顺序排列，然后进行归一化操作得到意图或极性P_i的N元组向量表示；假设意图或极性中的元组数目总计为N,按特定顺序排列为[w₁，w₂，...，w_N],则进行归一化后意图或极性P_i＝[r₁，r₂，...，r_N],其中r₁为w_i的权重；对于训练集中的每条引文，执行分词及去停用词操作后，计算其在每类意图或极性上对应的特征值，对于引文C_i＝[c₁，c₂，...，c_N],其中：

生成引文C_i在意图或极性P_i上的特征值分量为：C_i*P_i ^T。

可选地，所述计算引文每一类意图或极性的动词及其WordNet同义词表示的详细步骤包括：首先，针对引文集中的每一个引文，对引文进行分词和词性标注，识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词，在WordNet中对每个动词查找同义词，并添加进该引文所属的意图或极性类别字典中，最终遍历完引文集获取每一个引文所属的意图或极性类别字典；其次，对每一类意图或极性的向量进行归一化操作，假设意图或极性P_i中的动词及同义词数目总计为N,按特定顺序排列为[v₁，v₂，...，v_N],则进行归一化后意图或极性P_i＝[u₁，u₂，...，u_N]，其中u₁为v_i的权重；再次，对于训练集中的每条引文，执行分词及去停用词操作以及得到其WordNet同义词集后，计算其每类意图或极性对应的特征值，对于引文C_i＝[d₁，d₂，...，d_N],其中：

则引文C_i在P_i上的特征值分量为：C_i*P_i ^T。

可选地，所述启发式特征包括：参考文献数目特征，用于统计每条引文中引用的参考文献数目；参考文献是否分离特征，用于记录引文的参考文献是合并引用或是单独引用；第三人称代词特征，用于记录以每条引文是否包含第三人称代词；否定词特征，用于记录引文是否包含否定词线索；推测词特征，用于记录引文是否包含推测词线索；主观词特征，用于记录引文是否包含主观词，所述主观词指的是包含主观情感的词；自引特征，用于记录引文是否包含自引。

可选地，所述文本结构特征包括：章节类型特征，用于记录引文所在的章节信息；全文位置特征，用于记录引文所在语句在全文中的位置；章节位置特征，用于记录引文所在语句在所在章节中的位置。

可选地，步骤2)之前还包括训练多个分类器的下述步骤：

S1)针对数据集中带标签的引文生成引文的多特征，所述多特征包括引文的词袋特征、启发式特征及文本结构特征；

S2)将生成引文的多特征后的数据集按照N:1的固定比例进行多次随机划分，其中N为训练集的所占比例，1为验证集的所占比例，从而得到多组训练集和验证集；

S3)建立分类器，并利用训练集对多个分类器进行训练，并利用训练好的分类器预测验证集的类别，从而完成分类器的训练，使得该分类器均被训练建立了引文的多特征、分类结果之间的映射关系；

S4)判断完成训练的分类器的数量是否满足要求，如果不满足要求则继续跳转执行步骤S2)，否则判定所有分类器训练完成。

此外，本发明还提供一种综合多特征和投票策略的教育资源引用分析系统，包括计算机设备，该计算机设备被编程或配置以执行所述综合多特征和投票策略的教育资源引用分析方法的步骤。

此外，本发明还提供一种综合多特征和投票策略的教育资源引用分析系统，包括计算机设备，该计算机设备的存储器上存储有被编程或配置以执行所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1、本发明综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示，有效的提高了引文意图和极性识别的准确率。

2、本发明综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法，相比于划分固定的训练集和测试集，在数据集有限的情况下，做到了对数据集的充分利用并且保证模型性能的客观准确性。

3、本发明将多个分类器得到的分类结果采用投票策略得到最终的分类结果，采用多特征和投票策略的方式结合，因此能够克服现有技术中对引文信息捕获不充分，建模不全面，且分类器预测能力有限的缺陷。

4、本发明综合多特征和投票策略的教育资源引用分析方法适用于意图分类和极性分类，最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果，具有功能多样、使用方式灵活的优点。

附图说明

图1为本发明实施例一方法的基本流程示意图。

图2为本发明实施例一方法的基本原理示意图。

具体实施方式

下面将详细描述本说明书的各个方面的特征和示例性实施例，为使本说明书的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本说明书进行进一步详细描述。

实施例一：

本实施例综合多特征和投票策略的教育资源引用分析方法的目标为用于意图分类结果。如图1和图2所示，本实施例综合多特征和投票策略的教育资源引用分析方法包括：

1)生成目标教育资源的引文的多特征，多特征包括引文的词袋(Bag-of-Words)特征、启发式特征及文本结构特征；

2)将引文的多特征输入预先训练好的多个分类器得到分类结果，分类器被预先训练建立了引文的多特征、分类结果之间的映射关系，分类结果为意图分类结果或极性分类结果；

3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果，最终的分类结果为意图分类结果和极性分类结果。

需要说明的是，本实施例方法中可同时获得意图分类结果和极性分类结果，本实施例中利用的引文意图分类方案来自(“Hernandez-Alvarez M,Soriano J M G,Martínez-Barco P.Citation function,polarity and influence classification[J].NaturalLanguage Engineering,2017,23(4):561-588.”即引文功能、极性和影响力分类，2017年《自然语言工程》第561-588页)，其将引文意图分为四大类六小类：使用(基于、补充)、对比、批判(直接批判、隐晦批判)和背景。意图分类结果的详细说明如表1所示：

表1：意图分类的详细说明表。

本实施例方法中极性分类结果分为正、负和中性三类，此外也可以根据需要划分为更多或更少分类类型。

本实施例中多个分类器中包含部分用于获得意图分类结果的分类器、部分用于获得极性分类结果的分类器，且采用投票策略得到最终的分类结果时，意图分类结果和极性分类结果两种结果为分开进行投票的方式来获得最终的意图分类结果和极性分类结果。毫无疑问，也可以根据需要仅仅获得意图分类结果或者极性分类结果，此时分类器即只有一个种类：用于获得意图分类结果或者极性分类结果，对应投票策略也只有一种类型的投票。

本实施例中多特征包括引文的词袋(Bag-of-Words)特征、启发式特征及文本结构特征，本实施例方法优于基准模型的一点在于，对引文进行了全面的特征建模以捕获其重要信息用于意图和极性识别。

词袋特征构建的基本思路是为每类引用意图或极性构建加权词或词组向量，用该向量表示这类意图或极性。本实施例中，词袋特征的生成步骤包括：计算引文每一类意图或极性的N元组(N＝1,2,3)表示、计算引文每一类意图或极性的动词及其WordNet同义词表示，从而为每类意图或极性生成两种词袋特征。

本实施例中，计算引文每一类意图或极性的N元组表示的详细步骤包括：对每条引文首先进行预处理，进行分词和去除停用词操作(本实施例中具体利用NLTK工具包实现)；统计每一类意图或极性P_i的N元组的数目，将N元组按顺序排列，然后进行归一化操作得到意图或极性P_i的N元组向量表示；假设意图或极性中的元组数目总计为N,按特定顺序排列为[w₁，w₂，...，w_N],则进行归一化后意图或极性P_i＝[r₁，r₂，...，r_N],其中r₁为w_i的权重；对于训练集中的每条引文，执行分词及去停用词操作后，计算其在每类意图或极性上对应的特征值，对于引文C_i＝[c₁，c₂，...，c_N],其中：

生成引文C_i在意图或极性P_i上的特征值分量为：C_i*P_i ^T。

计算动词及其WordNet(实现细节参见“Miller,George A.WordNet:Anelectronic lexical database.MIT press,1998.即WordNet:一个电子词汇数据库，MIT出版社1998年出版”)同义词表示时，由于考虑到不同的引文叙述方式差异较大，本实施例中认为谓词可以有效地捕获施引主体对于客体的动作，是进行意图及极性识别时的强特征，因此针对于引文的动词进行词袋特征构建。

本实施例中，计算引文每一类意图或极性的动词及其WordNet同义词表示的详细步骤包括：首先，针对引文集中的每一个引文，对引文进行分词和词性标注，识别出包含动词基本形式(VB)、动词过去式(VBD)、动名词和现在分词(VBG)、动词过去分词(VBN)、非三人称单数现在时(VBP)、三人称单数现在时(VBZ)词性的动词，在WordNet中对每个动词查找同义词，并添加进该引文所属的意图或极性类别字典中，最终遍历完引文集获取每一个引文所属的意图或极性类别字典；其次，对每一类意图或极性的向量进行归一化操作，假设意图或极性P_i中的动词及同义词数目总计为N,按特定顺序排列为[v₁，v₂，...，v_N],则进行归一化后意图或极性P_i＝[u₁，u₂，...，u_N]，其中u₁为v_i的权重；再次，对于训练集中的每条引文，执行分词及去停用词操作以及得到其WordNet同义词集后，计算其每类意图或极性对应的特征值，对于引文C_i＝[d₁，d₂，...，d_N],其中：

则引文C_i在P_i上的特征值分量为：C_i*P_i ^T。

启发式特征构建的基本思路是对引文中与意图和极性关联密切的特征进行建模。本实施例中，启发式特征包括：

参考文献数目特征，用于统计每条引文中引用的参考文献数目；本实施例中，如果参考文献数目为1，则该特征被标记为0，否则标记为1。

参考文献是否分离特征，用于记录引文的参考文献是合并引用或是单独引用；本实施例中，如果参考文献分离，则该特征被标记为1，否则标记为0。

第三人称代词特征，用于记录以每条引文是否包含第三人称代词；本实施例中，如果包含第三人称代词，则该特征被标记为1，否则标记为0。

否定词特征，用于记录引文是否包含否定词线索；否定词定义来自于(“Morante,Roser,and Eduardo Blanco."*SEM 2012shared task:Resolving the scope and focusof negation."*SEM 2012:The First Joint Conference on Lexical andComputational Semantics–Volume 1:Proceedings of the main conference and theshared task,and Volume 2:Proceedings of the Sixth International Workshop onSemantic Evaluation(SemEval 2012).2012.”即SEM 2012共同任务：解决否定词的否定范围和聚焦。SEM2012：第一届文本和语义计算会议-第一卷，以及第六届国际语义评价研讨会SemEval2012.)。本实施例中，如果包含否定词，则该特征被标记为1，否则标记为0。

推测词特征，用于记录引文是否包含推测词线索；推测词定义来自于(“Quirk,Randolph.A comprehensive grammar of the English language.Pearson EducationIndia,2010.”即全面的英语语法，2010)。本实施例中，如果包含推测词，则该特征被标记为1，否则标记为0。

主观词特征，用于记录引文是否包含主观词，主观词指的是包含主观情感的词；主观词定义来自于(“Wilson T,Hoffmann P,Somasundaran S,et al.OpinionFinder:Asystem for subjectivity analysis[C]//Proceedings of HLT/EMNLP 2005InteractiveDemonstrations.2005:34-35.”即OpinionFinder:一个用于主观分析的系统。2005年HLT/EMNLP交互式展示，34-35页)，如“achieve”(实现、达到)表示了强烈的认同和积极情绪；本实施例中，如果包含主观词，则该特征被标记为1，否则标记为0。

自引特征，用于记录引文是否包含自引。本实施例中，如果包含自引，则该特征被标记为1，否则标记为0。

文本结构特征的基本思路是将引文置于全文或者章节中，对其所属的篇章特征进行建模。本实施例中，文本结构特征包括：

章节类型特征，用于记录引文所在的章节信息；例如本实施例中考虑引文所在的章节，分为五大类：(1)引言(Introduction，Motivation)(2)相关工作(Related Work,Background,Prior Work,Previous Work)(3)实验(Experiment，Data,Result,Evaluation)(4)总结(Discussion，Conclusion，Future Work)(5)其他章节，本实施例中利用正则表达式匹配引文所在的章节，为五类章节分别设置0-4的标记。

全文位置特征，用于记录引文所在语句在全文中的位置；本实施例中，将全文的语句按句划分，并按顺序标号，全文位置特征f＝n_i/N，其中n_i为引文i在全文中的序号，N为全文的语句总数。

章节位置特征，用于记录引文所在语句在所在章节中的位置。本实施例中，将引文所在章节的语句按句划分，并按顺序标号，章节位置特征f＝s_i/S，其中s_i为引文i在章节中的序号，S为章节中的语句总数。

本实施例中，步骤2)之前还包括训练多个分类器的下述步骤：

S1)针对数据集中带标签的引文生成引文的多特征，多特征包括引文的词袋特征、启发式特征及文本结构特征；本实施例中，数据集包括人工标意图和极性的1603条引文；

S2)将生成引文的多特征后的数据集按照N:1的固定比例进行多次随机划分，其中N为训练集的所占比例，1为验证集的所占比例，从而得到多组训练集和验证集；本实施例中，N为4，即将生成引文的多特征后的数据集按照4:1的固定比例进行多次随机划分；

本实施例中，多个分类器具体采用随机森林分类器F(“Breiman,L.(2001).Randomforests.Machine Learning,45(1),5–32.”即随机森林，机器学习期刊2001年)实现，此外也可以根据需要采用其他分类器。本实施例中，S4)最终训练得到200个随机森林分类器[F₁，F₂，...，F₂₀₀]。利用未使用数据X_i进行训练的N_i个模型预测数据X_i的类别依次为采用多数投票的策略得到数据X_i的最终类别：/>其中J为类别总数，/>I(.)为指示函数。重复上述步骤遍历整个数据集，为每个数据得到相应的预测标签，得到数据集的每个类别以及整体预测性能。性能评测分为准确率(P)、召回率(R)以及F1值，F1＝2*P*R/(P+R)。

对于未知样例X，利用训练好的200个分类器进行多数投票得到预测的类别[y₁，y₂，…，y₂₀₀],则最终预测类别其中J为类别总数，其中I(.)为指示函数。

本实施例中，前述步骤1)、步骤S1)同样也是通过特征生成模块实现的。前述步骤S2)是通过数据采样模块实现的，数据采样模块以特征生成模块生成的整个数据集上的引文特征表示作为输入，然后对数据集按照训练集:验证集＝N:1的固定比例进行多次随机划分，得到若干组训练集和验证集作为输出。重复多次采样能够使得不同组的训练集数据相互弥补，克服单次划分训练集和验证集带来的数据集未充分利用的缺陷。前述步骤2)～3)为通过模型预测模块实现的，步骤S3)为通过模型训练模块实现的。模型训练模块以数据采样模块得到的单独并列的训练集作为输入，训练分类器模型，然后以这些分类器模型的多数投票结果作为输出，作为模型对引文意图或极性的预测。数据采样模块和模型训练模块能够保证利用数据集实现模型性能验证的前提下最大化利用数据集，同时多模型投票的集成方法能够充分结合各基础模型的预测性能，实现最佳预测能力。在训练完毕后，利用未使用数据X进行模型训练的模型预测数据X的类别，采用多数投票的策略得到数据X的最终类别。对于未知样例，利用训练好的多个分类器进行多数投票得到预测的类别。

为了本实施例综合多特征和投票策略的教育资源引用分析方法进行验证，本实施例中实验条件：采用i7 4720HQ处理器，操作系统为windows 10,实验环境为Python3.0，机器学习工具包为scikit-learn-0.20，词处理工具包为NLTK。本实施例方法与采用基准方法实现引文意图或极性识别结果对比如表2和表3所示。

表2：本实施例与基准模型在引文意图识别上的性能对比。

表3：本实施例与基准模型在引文极性识别上的性能对比。

参见表2和表3可知，基准方法只为每一类意图或极性单独构建了词袋模型，并训练单一朴素贝叶斯分类器用于意图或极性的分类。从表2和表3看出，本实施例所实现的多特征和多模型投票的方法在引文意图和极性识别上均优于基准方法，在意图识别上的全类别准确率为0.8484，召回率为0.8452，F1值为0.8468；在极性识别上的全类别准确率为0.9025，召回率为0.9003，F1值为0.9013。

综上所述，本实施例综合多特征和投票策略的教育资源引用分析方法具有下述优点：1、本实施例综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示，尤其是针对意图和极性每一类别的向量表示，有效的提高了引文意图和极性识别的准确率。2、本实施例综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法，相比于划分固定的训练集和测试集，在数据集有限的情况下，做到了对数据集的充分利用并且保证模型性能的客观准确性。

此外，本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统，包括计算机设备，该计算机设备被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的步骤。

此外，本实施例还提供一种综合多特征和投票策略的教育资源引用分析系统，包括计算机设备，该计算机设备的存储器上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述综合多特征和投票策略的教育资源引用分析方法的计算机程序。

实施例二：

本实施例方法与实施例一基本相同，其主要区别点为：本实施例综合多特征和投票策略的教育资源引用分析方法的目标为仅用于意图分类结果，其不同的特征如下：

本实施例综合多特征和投票策略的教育资源引用分析方法包括：

2)将引文的多特征输入预先训练好的多个分类器得到分类结果，分类器被预先训练建立了引文的多特征、分类结果之间的映射关系，分类结果为意图分类结果；

3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果，最终的分类结果为意图分类结果。

本实施例中，词袋特征的生成步骤包括：计算引文每一类意图的N元组表示、计算引文每一类意图的动词及其WordNet同义词表示，从而为每类意图生成两种词袋特征。

本实施例中，计算引文每一类意图的N元组表示的详细步骤包括：对每条引文首先进行预处理，进行分词和去除停用词操作；统计每一类意图P_i的N元组的数目，将N元组按顺序排列，然后进行归一化操作得到意图P_i的N元组向量表示；假设意图中的元组数目总计为N,按特定顺序排列为[w₁，w₂，…，w_N],则进行归一化后意图P_i＝[r₁，r₂，...，r_N],其中r₁为w_i的权重；对于训练集中的每条引文，执行分词及去停用词操作后，计算其在每类意图上对应的特征值，对于引文C_i＝[c₁，c₂，...，c_N],其中：

生成引文C_i在意图P_i上的特征值分量为：C_i*P_i ^T。

本实施例中，计算引文每一类意图的动词及其WordNet同义词表示的详细步骤包括：首先，针对引文集中的每一个引文，对引文进行分词和词性标注，识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词，在WordNet中对每个动词查找同义词，并添加进该引文所属的意图类别字典中，最终遍历完引文集获取每一个引文所属的意图类别字典；其次，对每一类意图的向量进行归一化操作，假设意图P_i中的动词及同义词数目总计为N,按特定顺序排列为[v₁，v₂，...，v_N],则进行归一化后意图P_i＝[u₁，u₂，...，u_N]，其中u₁为v_i的权重；再次，对于训练集中的每条引文，执行分词及去停用词操作以及得到其WordNet同义词集后，计算其每类意图对应的特征值，对于引文C_i＝[d₁，d₂，...，d_N],其中：

则引文C_i在P_i上的特征值分量为：C_i*P_i ^T。

本实施例中，启发式特征、文本结构特征与实施例一相同，故在此不再赘述。

本实施例中，多个分类器仅仅用于引文意图识别，其训练方式与实施例一相同，故在此不再赘述。

由于本实施例综合多特征和投票策略的教育资源引用分析方法实际上为实施例一的子集，因此其性能和效果可参见实施例一中的表2。综上所述，本实施例综合多特征和投票策略的教育资源引用分析方法具有下述优点：1、本实施例综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示，尤其是针对意图每一类别的向量表示，有效的提高了引文意图识别的准确率。2、本实施例综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法，相比于划分固定的训练集和测试集，在数据集有限的情况下，做到了对数据集的充分利用并且保证模型性能的客观准确性。

实施例三：

本实施例综合多特征和投票策略的教育资源引用分析方法的目标为用于意图分类结果。如图1所示，本实施例综合多特征和投票策略的教育资源引用分析方法包括：

2)将引文的多特征输入预先训练好的多个分类器得到分类结果，分类器被预先训练建立了引文的多特征、分类结果之间的映射关系，该分类结果为极性分类结果；

3)将多个分类器得到的分类结果采用投票策略得到最终的分类结果，最终的分类结果为极性分类结果。

本实施例中，词袋特征的生成步骤包括：计算引文每一类极性的N元组表示、计算引文每一类极性的动词及其WordNet同义词表示，从而为每类极性生成两种词袋特征。

本实施例中，计算引文每一类极性的N元组表示的详细步骤包括：对每条引文首先进行预处理，进行分词和去除停用词操作；统计每一类极性P_i的N元组的数目，将N元组按顺序排列，然后进行归一化操作得到极性P_i的N元组向量表示；假设极性中的元组数目总计为N,按特定顺序排列为[w₁，w₂，...，w_N],则进行归一化后极性P_i＝[r₁，r₂，...，r_N],其中r₁为w_i的权重；对于训练集中的每条引文，执行分词及去停用词操作后，计算其在每类极性上对应的特征值，对于引文C_i＝[c₁，c₂，...，c_N],其中：

生成引文C_i在极性P_i上的特征值分量为：C_i*P_i ^T。

本实施例中，计算引文每一类极性的动词及其WordNet同义词表示的详细步骤包括：首先，针对引文集中的每一个引文，对引文进行分词和词性标注，识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词，在WordNet中对每个动词查找同义词，并添加进该引文所属的极性类别字典中，最终遍历完引文集获取每一个引文所属的极性类别字典；其次，对每一类极性的向量进行归一化操作，假设极性P_i中的动词及同义词数目总计为N,按特定顺序排列为[v₁，v₂，...，v_N],则进行归一化后极性P_i＝[u₁，u₂，...，u_N]，其中u₁为v_i的权重；再次，对于训练集中的每条引文，执行分词及去停用词操作以及得到其WordNet同义词集后，计算其每类极性对应的特征值，对于引文C_i＝[d₁，d₂，...，d_N],其中：

则引文C_i在P_i上的特征值分量为：C_i*P_i ^T。

本实施例中，多个分类器仅仅用于引文极性识别，其训练方式与实施例一相同，故在此不再赘述。

由于本实施例综合多特征和投票策略的教育资源引用分析方法实际上为实施例一的子集，因此其性能和效果可参见实施例一中的表3。

综上所述，本实施例综合多特征和投票策略的教育资源引用分析方法具有下述优点：1、本实施例综合多特征和投票策略的教育资源引用分析方法构建的引文多特征表示，尤其是针对极性每一类别的向量表示，有效的提高了引文极性识别的准确率。2、本实施例综合多特征和投票策略的教育资源引用分析方法设计的分层采样和多模型投票的集成方法，相比于划分固定的训练集和测试集，在数据集有限的情况下，做到了对数据集的充分利用并且保证模型性能的客观准确性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种综合多特征和投票策略的教育资源引用分析方法，其特征在于该方法包括：

1）生成目标教育资源的引文的多特征，所述多特征包括引文的词袋特征、启发式特征及文本结构特征；

所述引文是指施引文献对引用的资源的文本描述；

所述启发式特征包括：参考文献数目特征，用于统计每条引文中引用的参考文献数目；参考文献是否分离特征，用于记录引文的参考文献是合并引用或是单独引用；第三人称代词特征，用于记录以每条引文是否包含第三人称代词；否定词特征，用于记录引文是否包含否定词线索；推测词特征，用于记录引文是否包含推测词线索；主观词特征，用于记录引文是否包含主观词，所述主观词指的是包含主观情感的词；自引特征，用于记录引文是否包含自引；

所述文本结构特征包括：章节类型特征，用于记录引文所在的章节信息；全文位置特征，用于记录引文所在语句在全文中的位置；章节位置特征，用于记录引文所在语句在所在章节中的位置；

2）将引文的多特征输入预先训练好的多个分类器得到分类结果，所述分类器被预先训练建立了引文的多特征、分类结果之间的映射关系，所述分类结果为意图分类结果或极性分类结果；

3）将多个分类器得到的分类结果采用投票策略得到最终的分类结果，所述最终的分类结果为意图分类结果、或极性分类结果、或意图分类结果和极性分类结果。

2.根据权利要求1所述的综合多特征和投票策略的教育资源引用分析方法，其特征在于，所述词袋特征的生成步骤包括：计算引文每一类意图或极性的N元组表示、计算引文每一类意图或极性的动词及其WordNet同义词表示，从而为每类意图或极性生成两种词袋特征。

3.根据权利要求2所述的综合多特征和投票策略的教育资源引用分析方法，其特征在于，所述计算引文每一类意图或极性的N元组表示的详细步骤包括：对每条引文首先进行预处理，进行分词和去除停用词操作；统计每一类意图或极性的N元组的数目，将N元组按顺序排列，然后进行归一化操作得到意图或极性/>的N元组向量表示；假设意图或极性中的元组数目总计为N, 按特定顺序排列为[/>], 则进行归一化后意图或极性,其中/>为/>的权重；对于训练集中的每条引文，执行分词及去停用词操作后，计算其在每类意图或极性上对应的特征值，对于引文/>, 其中：

生成引文在意图或极性/>上的特征值分量为：/>。

4.根据权利要求2所述的综合多特征和投票策略的教育资源引用分析方法，其特征在于，所述计算引文每一类意图或极性的动词及其WordNet同义词表示的详细步骤包括：首先，针对引文集中的每一个引文，对引文进行分词和词性标注，识别出包含动词基本形式、动词过去式、动名词和现在分词、动词过去分词、非三人称单数现在时、三人称单数现在时词性的动词，在WordNet中对每个动词查找同义词，并添加进该引文所属的意图或极性类别字典中，最终遍历完引文集获取每一个引文所属的意图或极性类别字典；其次，对每一类意图或极性的向量进行归一化操作，假设意图或极性中的动词及同义词数目总计为N, 按特定顺序排列为[/>, 则进行归一化后意图或极性/>，其中/>为的权重；再次，对于训练集中的每条引文，执行分词及去停用词操作以及得到其WordNet同义词集后，计算其每类意图或极性对应的特征值，对于引文/>, 其中：

则引文在/>上的特征值分量为：/>。

5.根据权利要求1～4中任意一项所述的综合多特征和投票策略的教育资源引用分析方法，其特征在于，步骤2）之前还包括训练多个分类器的下述步骤：

S1）针对数据集中带标签的引文生成引文的多特征，所述多特征包括引文的词袋特征、启发式特征及文本结构特征；

S2）将生成引文的多特征后的数据集按照N:1的固定比例进行多次随机划分，其中N为训练集的所占比例，1为验证集的所占比例，从而得到多组训练集和验证集；

S3）建立分类器，并利用训练集对多个分类器进行训练，并利用训练好的分类器预测验证集的类别，从而完成分类器的训练，使得该分类器均被训练建立了引文的多特征、分类结果之间的映射关系；

S4）判断完成训练的分类器的数量是否满足要求，如果不满足要求则继续跳转执行步骤S2），否则判定所有分类器训练完成。

6.一种综合多特征和投票策略的教育资源引用分析系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～5中任意一项所述综合多特征和投票策略的教育资源引用分析方法的步骤。

7.一种综合多特征和投票策略的教育资源引用分析系统，包括计算机设备，其特征在于，该计算机设备的存储器上存储有被编程或配置以执行权利要求1～5中任意一项所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～5中任意一项所述综合多特征和投票策略的教育资源引用分析方法的计算机程序。