CN109543001A

CN109543001A - 一种表征科研论文研究内容的科技词条抽取方法

Info

Publication number: CN109543001A
Application number: CN201811215918.2A
Authority: CN
Inventors: 汤德佑; 霍晨鹏; 张平健; 刘朝刚; 奚建清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-03-29

Abstract

本发明公开了一种表征科研论文研究内容的科技词条抽取方法，首先构建科研论文关联词库和科研论文语料库，然后进行科技词条抽取、词频统计、加权TF‑IDF值计算、科技词条评分拓展，得到每个科技词条的评分，再计算科技词条树图中词条之间的组合系数(后继节点评分占前驱节点评分的比值)、前驱节点置信度(后继节点是由某一前驱节点延伸下来的可能性)、贡献系数(科技词条对论文研究内容的反映程度)，最后对贡献系数降序排序，设置主成分比值阈值，提取科技词条主成分集，进而进行贡献系数调整，得到最能反映科研论文研究内容的科技词条及其贡献系数。该方法客观反映了科研论文的研究范畴，将有效推动科研论文检索、科研论文大数据分析等活动的开展。

Description

一种表征科研论文研究内容的科技词条抽取方法

技术领域

本发明涉及信息技术领域，具体涉及一种表征科研论文研究内容的科技词条抽取方法。

背景技术

科研论文主要功能是记录、总结科研成果，是科技人员交流学术思想和科研成果的工具。目前很多科研论文论文库均提供基于元数据的检索及全文关键词检索，基于内容分析结果的检索尚未见成熟技术和产品。虽然关键词/主题词/受控词一定程度上可以体现研究内容，但没有进一步展示与论文研究主要内容和结论等的相关度；同时，一篇论文的关键词有很多个，造成使用关键词搜索往往可以得到很多搜索结果，但大部分脱离检索预期的结果。检索人员只能在关键词搜索结果中通过阅读文献后做进一步筛选，使科技人员在科研论文检索过程中费时费力，很难检索到自己想要的科研论文。

此外，目前科研论文评价时采用学科或技术作为成果统计边界，无法在具体领域、行业水平层次对科研论文进行科学的评价，不利于更小粒度的研究主题上对研究成果进行纵向比较，也不利于不同研究主题上研究人员的横向比较。

发明内容

本发明的目的是针对现有技术的不足，提供了一种表征科研论文研究内容的科技词条抽取方法，所述方法提出了科技词条这个规范化词语对科技活动的研究范畴进行分类和管理，提供了一种比学科、技术领域等分类更为精确，更能真实反映科技工作中理论和技术研究范畴的分类方法和管理模式，由科技人员主导完成词条的管理；在范畴划分中，若科技词条te₁研究范畴是由科技词条te₂的研究范畴细化而来，称te₂强包含te₁，记为te₂→te₁；若科技词条te₁的研究范畴与科技词条te₂的研究范畴存在交集，或te₁的研究范畴在某种程度上也属于te₂的研究范畴，称te₂弱包含te₁，记为包含关系是传递的；若以科技词条为顶点，词条间的强包含和弱包含关系表示为有向边，则所有科技词条构成有向无环树图，给定科技词条te，所有te传递包含或传递包含te的词条都是te的关联词，反映研究范畴的相关性，如某项研究对应到科技词条树图中是出度为零的顶点，说明该研究范畴是一个划分比较精确的分支；科技词条之间存在关联，同时，科技词条关联了科研论文、科技人员，给定科技词条te，研究内容包含te的科研论文都是te的关联科研论文，研究范畴包含te的科技人员都是te的关联科技人员。所述方法基于提出的科技词条模型，给出科研论文的科技词条主成分集及其贡献系数，客观反映了科研论文的研究内容，将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。

本发明的目的可以通过如下技术方案实现：

一种表征科研论文研究内容的科技词条抽取方法，所述方法包括以下步骤：

步骤S1、针对科研论文关键词所在领域构建科研论文关联词库，按照科技词条间的关联关系，计算与科研论文存在关联关系的词条集合，作为科研论文关联词库；

步骤S2、根据构建的科研论文关联词库构建科研论文语料库；

步骤S3、对科研论文中的关联科技词条进行评分计算；

步骤S4、根据计算的科技词条的评分，计算科技词条在科研论文中的贡献度；

步骤S5、对科研论文中的科技词条列表进行规约，减少从科研论文中抽取出的科研论文关联词库中的科技词条数，提取出能够表达该篇科研论文研究内容的主要科技词条并计算其贡献系数，生成以该贡献系数为顶点权值的科研论文研究内容科技词条树图。

进一步地，所述步骤S1的具体过程如下：

由于科研论文的关键词一般不是规范的科技词条，需要将关键词替换为规范的科技词条，设替换后的科技词条集合为T；

正向遍历科技词条集合T：T'＝T，若科技词条库中存在te→a或且a的同义词集为STE，则T'＝T'∪{a}∪STE；

反向遍历科技词条集合T：T”＝T，若科技词条库中存在a→te或且a的同义词集为STE，则T”＝T”∪{a}∪STE；

令T_link＝T'∪T”，将T_link作为科研论文关联词库。

进一步地，所述步骤S2的具体过程如下：

将科研论文的论文文档文本化：运用文档转换工具将论文转换为后续步骤可处理的txt文本；

对论文结构进行解析，提取出论文的元数据：题目、作者、摘要、关键词、正文、参考文献，并保存到数据库中；

得到科研论文关联词库中包含te的科研论文集合D_te，从而构建科研论文语料库D＝∪D_te,te∈T_link。

进一步地，所述步骤S3中首先根据科技词条的加权TF-IDF值计算出科技词条的自有评分，并经过科技词条评分拓展，计算出科技词条在科研论文中的评分，评分结果为数值，对任意科技词条te，其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分，科技词条te的评分S_te计算公式如下：

其中，TE表示科技词条库中的科技词条集，TF表示科技词条的词频指数，IDF表示科技词条的逆文本频率指数，TF-IDF_te表示科技词条te的加权TF-IDF值，te→te_j代表科技词条te强包含科技词条te_j，代表科技词条te弱包含科技词条te_j。

进一步地，所述步骤S3的具体过程为：

S3.1、对科研论文进行科技词条抽取及词频统计，利用分词工具提取出科研论文中题目、摘要、关键词、正文这四部分出现的科技词条，并统计科技词条在这四部分中出现的次数，具体步骤为：将科研论文关联词库T_link作为分词工具分词时依据的用户自定义词库，并注明词性“TechnologyEntry”；将全文中出现的关键词统一替换为科技词条；利用分词工具对科研论文的各个部分进行分词、去停用词；挑选出分词后词性为“TechnologyEntry”的词即为科研论文中抽取出的科技词条，运用同义词库将同义不同形的科技词条归纳为同一种形式；统计出同义词检测后的科技词条在科研论文中各部分出现的次数，完成词频统计；

S3.2、计算科技词条的加权TF-IDF值，具体步骤为：假设在科研论文题目、摘要、关键词、正文部分抽取出的科技词条所占的权重分别为k_title，k_abstract，k_keywords，k_text，并且满足k_title+k_abstract+k_keywo_rds+k_text＝1，计算科技词条te的值，假设从科研论文题目中抽取出的科技词条集为PE_title，n_te代表科技词条te在该篇论文题目中出现的次数，那么科技词条te在该篇论文题目中的词频指数值为：

其中，表示科技词条te_j在该篇论文题目中出现的次数，同理得到科技词条te在该篇论文中的值，所述分别表示科技词条te在该篇论文摘要、关键词、正文中的词频指数；

计算科技词条te的值，根据步骤S2构建的科研论文语料库D，语料库中论文数目为|D|，语料库中题目包含科技词条te的论文数为|D_te|，那么科技词条te的值为：

其中，表示科技词条te在该篇论文题目中的逆文本频率指数，同理得到科技词条te在该篇论文中的值，所述分别表示科技词条te在该篇论文摘要、关键词、正文中的逆文本频率指数；

计算科技词条te的值，计算公式为：

同理得到科技词条te在该篇论文中的值；

计算科技词条te的加权TF-IDF值，计算公式为：

对科技词条进行评分拓展，计算出科技词条te的自有评分为：

S_te＝TF-IDF_te

对任意科技词条te，其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分，科技词条te的评分S_te计算公式如下：

出度为零的顶点，评分只包含自有评分。

进一步地，所述步骤S4的具体过程为：

首先计算科技词条树图中每条有向边的组合系数：对每一个科技词条te，设a是其后继顶点，te→a或α_te-a表示词条te和a之间的组合系数：

α_te-a＝S_a/S_te

其中，S_a表示科技词条a的评分，S_te表示科技词条te的评分；

然后计算科技词条的前驱节点置信度：对每一个科技词条te，设b是其前驱节点，b→te或β_te-b表示科研论文中科技词条te的前驱节点是b的置信度：

其中，TE表示科技词条库中的科技词条集，S_b表示科技词条b的评分，表示科技词条te_j的评分；

最后计算科技词条te的贡献系数χ_te，公式为：

其中，TE表示科技词条库中的科技词条集，α_a-te表示科技词条te和科技词条a之间的组合系数，β_te-a表示科技词条te的前驱节点是科技词条a的置信度。

进一步地，所述步骤S5的具体过程为：

按贡献系数χ_te对科技词条降序排序，χ₁≥χ₂≥…≥χ_n，指定主成分比重阈值th，当满足时，取前min{k}个科技词条构成科研论文的科技词条主成分集；

对贡献系数进行调整，令χ'_i＝χ_i，i＝1,2,…,k，调整公式为：

最后生成以调整后的贡献系数为顶点权值的科研论文研究内容科技词条树图。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提供的一种表征科研论文研究内容的科技词条抽取方法，以科技词条树图反映了科技词条在论文中的贡献度，其计算过程考虑了词条间的上下级关系、同义关系，将论文研究内容数值化，从而客观地反映了论文的主要研究范畴，解决了科研论文检索和评价过程中统计边界过于粗糙的缺点，这将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。

附图说明

图1为本发明实施例表征科研论文研究内容的科技词条抽取方法流程图。

图2为本发明实施例中某科研论文关联词库的构建示意图。

图3为本发明实施例中某科研论文的科技词条树图。

图4为本发明实施例中某科研论文的带贡献系数标注的科技词条树图。

图5为本发明实施例中某科研论文的经科技词条主成分集计算后的科技词条树图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种表征科研论文研究内容的科技词条抽取方法，首先构建科研论文关联词库和科研论文语料库，然后进行科技词条抽取、词频统计、加权TF-IDF值计算、科技词条评分拓展，得到每个科技词条的评分，再计算科技词条树图中词条之间的组合系数(后继节点评分占前驱节点评分的比值)、前驱节点置信度(后继节点是由某一前驱节点延伸下来的可能性)、贡献系数(科技词条对论文研究内容的反映程度)，最后对贡献系数降序排序，设置主成分比值阈值，提取科技词条主成分集，进而进行贡献系数调整，得到最能反映科研论文研究内容的科技词条及其贡献系数。

所述方法的流程图如图1所示，包括以下步骤：

步骤1：科研论文关联词库的构建；

针对科研论文关键词所在领域构建科研论文关联词库，按照科技词条间的关联关系，计算与科研论文存在关联关系的词条集合，作为科研论文关联词库；具体过程如下：

令T_link＝T'∪T”，将T_link作为科研论文关联词库。

具体以某一篇科研论文为例，为便于标识，每项科技词条均设置一个可唯一标识的编码ID，图2、3、4、5中每个顶点表示一条科技词条及其同义词，对每个词条仅列出其词条编码，词条间的强包含关系用I型有向边表示，弱包含关系用II型有向边表示；图2展示了的某科研论文关联词库的构建，该篇论文只有一个关键词“机器学习”，“机器学习”在科技词条库中，ID4代表了“机器学习”这个科技词条，经过正向遍历和逆向遍历，可遍历到的科技词条有ID1、ID2、ID5、ID6、ID7，图中用斜线填充的科技词条代表ID4可遍历到的，那么该篇论文的科研论文关联词库为{ID1，ID2，ID4，ID5，ID6，ID7}；

步骤2：科研论文语料库的构建；具体过程如下：

步骤3：关联科技词条评分计算；具体过程为：

步骤3.1、对科研论文进行科技词条抽取及词频统计，利用分词工具提取出科研论文中题目、摘要、关键词、正文这四部分出现的科技词条，并统计科技词条在这四部分中出现的次数，具体步骤为：将科研论文关联词库T_link作为分词工具分词时依据的用户自定义词库，并注明词性“TechnologyEntry”；将全文中出现的关键词统一替换为科技词条；利用分词工具对科研论文的各个部分进行分词、去停用词；挑选出分词后词性为“TechnologyEntry”的词即为科研论文中抽取出的科技词条，运用同义词库将同义不同形的科技词条归纳为同一种形式；统计出同义词检测后的科技词条在科研论文中各部分出现的次数，完成词频统计；

步骤3.2、计算科技词条的加权TF-IDF值，具体步骤为：假设在科研论文题目、摘要、关键词、正文部分抽取出的科技词条所占的权重分别为k_title，k_abstract，k_keywords，k_text，并且满足k_title+k_abstract+k_keywords+k_text＝1，计算科技词条te的值，假设从科研论文题目中抽取出的科技词条集为PE_title，n_te代表科技词条te在该篇论文题目中出现的次数，那么科技词条te在该篇论文题目中的词频指数值为：

计算科技词条te的值，计算公式为：

同理得到科技词条te在该篇论文中的值；

计算科技词条te的加权TF-IDF值，计算公式为：

步骤3.3、对科技词条进行评分拓展，计算出科技词条te的自有评分为：

S_te＝TF-IDF_te

出度为零的顶点，评分只包含自有评分。

图3展示了某科研论文的科技词条树图，图中节点“ID/score/ownscore”，其中ID代表科技词条的可唯一标识的编码，score代表科技词条的评分，ownscore代表科技词条的自有评分。图中ID4的评分计算公式为：

S_ID4＝TF-IDF_ID4+S_ID6+S_ID7＝0.3+0.5+0.4＝1.2

步骤4：科技词条贡献系数计算；具体过程为：

步骤4.1、计算科技词条树图中每条有向边的组合系数：对每一个科技词条te，设a是其后继顶点，te→a或α_te-a表示词条te和a之间的组合系数：

α_te-a＝S_a/S_te

其中，S_a表示科技词条a的评分，S_te表示科技词条te的评分；

步骤4.2、计算科技词条的前驱节点置信度：对每一个科技词条te，设b是其前驱节点，b→te或β_te-b表示科研论文中科技词条te的前驱节点是b的置信度：

步骤4.3、计算科技词条te的贡献系数χ_te，公式为：

步骤5：科技词条主成分集计算；

对科研论文中的科技词条列表进行规约，减少从科研论文中抽取出的科研论文关联词库中的科技词条数，提取出能够表达该篇科研论文研究内容的主要科技词条并计算其贡献系数，生成以该贡献系数为顶点权值的科研论文研究内容科技词条树图。具体过程为：

步骤5.1、按贡献系数χ_te对科技词条降序排序，χ₁≥χ₂≥…≥χ_n，指定主成分比重阈值th，当满足时，取前min{k}个科技词条构成科研论文的科技词条主成分集；

步骤5.2、对贡献系数进行调整，令χ'_i＝χ_i，i＝1,2,…,k，调整公式为：

在图3中，ID2和ID4之间的组合系数为α_ID2-ID4＝S_ID4/S_ID2＝1.2/1.9＝0.632，ID4的前驱节点是ID1的置信度β_ID4-ID1＝S_ID1/(S_ID1+S_ID2)＝1.4/(1.9+1.4)＝0.424，ID4的前驱节点是ID2的置信度β_ID4-ID2＝S_ID2/(S_ID1+S_ID2)＝1.9/(1.9+1.4)＝0.576。图4中，词条ID4贡献系数χ_ID4计算公式为：

对图4中科技词条的贡献系数降序排序，所得结果为ID6/0.209，ID7/0.133，ID3/0.129，ID8/0.100，ID4/0.055，ID2/0.047，ID5/0.031，ID1/0.029，取th＝0.8，所以取前5个词条构成该篇论文的科技词条主成分集，{ID6，ID7，ID3，ID8，ID4}，对科技词条的贡献系数进行调整，词条ID3的贡献系数调整公式为：

词条ID6、ID7、ID3、ID8、ID4是该篇论文的代表性科技词条，贡献系数分别为33.4％、21.2％、20.6％、16.0％、8.9％，最后得到经科技词条主成分集计算后的以调整后的贡献系数为顶点权值的科技词条树图如图5所示。

由上述可见，本发明的一种表征科研论文研究内容的科技词条抽取方法，考虑了科技词条间的上下级关系、同义关系，将论文研究内容数值化，给出了最能代表论文研究内容的科技词条及其贡献系数，从而客观地反映了论文的主要研究范畴，解决了科研论文检索和评价过程中统计边界过于粗糙的缺点，这将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述方法包括以下步骤：

步骤S3、对科研论文中的关联科技词条进行评分计算；

2.根据权利要求1所述的一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述步骤S1的具体过程如下：

令T_link＝T'∪T”，将T_link作为科研论文关联词库。

3.根据权利要求2所述的一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述步骤S2的具体过程如下：

4.根据权利要求2或3所述的一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述步骤S3中首先根据科技词条的加权TF-IDF值计算出科技词条的自有评分，并经过科技词条评分拓展，计算出科技词条在科研论文中的评分，评分结果为数值，对任意科技词条te，其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分，科技词条te的评分S_te计算公式如下：

5.根据权利要求2或3所述的一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述步骤S3的具体过程为：

S3.2、计算科技词条的加权TF-IDF值，具体步骤为：假设在科研论文题目、摘要、关键词、正文部分抽取出的科技词条所占的权重分别为k_title，k_abstract，k_keywords，k_text，并且满足k_title+k_abstract+k_keywords+k_text＝1，计算科技词条te的值，假设从科研论文题目中抽取出的科技词条集为PE_title，n_te代表科技词条te在该篇论文题目中出现的次数，那么科技词条te在该篇论文题目中的词频指数值为：

计算科技词条te的值，计算公式为：

同理得到科技词条te在该篇论文中的值；

计算科技词条te的加权TF-IDF值，计算公式为：

S_te＝TF-IDF_te

出度为零的顶点，评分只包含自有评分。

6.根据权利要求4所述的一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述步骤S4的具体过程为：

α_te-a＝S_a/S_te

其中，S_a表示科技词条a的评分，S_te表示科技词条te的评分；

最后计算科技词条te的贡献系数χ_te，公式为：

7.根据权利要求6所述的一种表征科研论文研究内容的科技词条抽取方法，其特征在于，所述步骤S5的具体过程为：