CN106294320A

CN106294320A - 一种面向学术论文的术语抽取方法及系统

Info

Publication number: CN106294320A
Application number: CN201610631256.1A
Authority: CN
Inventors: 郑胜; 蒋丹; 徐涛; 张胜; 周可; 夏明�
Original assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Current assignee: WUHAN SHUWEI TECHNOLOGY Co Ltd
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2017-01-04
Anticipated expiration: 2036-08-04
Also published as: CN106294320B

Abstract

本发明公开了一种面向学术论文的术语抽取方法及系统，对学术论文语料库进行预处理，包括文本块标注、文本块筛选、分词及词性标注、噪声词去除；对标题、摘要、关键字文本块分别行候选术语抽取，形成候选术语集；对候选术语集中的单词型术语和复合词型术语分别进行筛选过滤，得到新的候选术语集；利用层次分析法根据候选术语的位置信息确定各个位置的权重，并进行综合评分，并根据评分对候选术语进行排序，取TopN或者评分大于阈值的候选术语作为抽取出的术语；本发明充分考虑到学术论文的术语分布特点以及学术论文的类别信息的问题，提高了学术论文术语抽取的准确率和召回率。

Description

一种面向学术论文的术语抽取方法及系统

技术领域

本发明属于计算机自然语言处理或模式识别技术领域，更具体地，涉及一种面向学术论文的术语抽取方法。

背景技术

现有的基于中文构词规则的语言学术语抽取方法，针对整个自由文本进行候选术语的抽取和过滤，通过分析不同词汇的搭配和出现规律，总结出术语的词性匹配模板，再通过该模板来抽取候选术语；其中，忽略了不同类型文本块之间术语的特点，不能充分利用术语的位置信息，降低了术语抽取的质量；另一方面，在某些特定语料库的情况下，如学术论文中包含了不同的文本块，如标题、摘要、关键字等，不同的文本块中术语分布的规律不同，对整篇学术论文采用同样的术语抽取方法使得术语抽取的准确率不高。

抽取候选术语库后，需要对其进行筛选以得到正确术语；过滤方法有很多种，主要是通过术语的单元性和领域相关度进行筛选；如：TF-IDF(词频-逆文档频率，TermFrequency-Inverse Document Frequency)方法是利用候选术语在本文中出现的频率以及在整个语料库中的频率来判断候选术语的领域相关度；SCP(Symmetrical ConditionalProbability，对称条件概率)用于判断复合型术语的搭配合理性；C-VALUE(C值，Content-Value)用于判断复合型术语的领域相关度；这些方法在候选术语的筛选上具有很好的效果，但是在某些特定语料库下，如学术论文，其类别属性非常明确，而这些方法没有考虑到该属性，在针对学术论文的术语筛选时没有利用类别信息，对候选术语的领域相关度考量不够充分，导致术语抽取准确度不高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向学术论文的术语抽取方法，其目的在于提高学术论文术语抽取的准确率。

为实现上述目的，按照本发明的一个方面，提供了一种面向学术论文的术语抽取方法，包括预处理、候选术语抽取、候选术语筛选、候选术语综合评分排序；具体包括如下步骤：

(1)预处理：对学术论文语料库进行预处理，包括文本块标注、文本块筛选、分词及词性标注和噪声词过滤；确定标题文本块、摘要文本块和关键字文本块；

(2)候选术语抽取：对标题文本块、摘要文本块和关键字文本块分别进行候选术语抽取，由抽取获得的候选术语构成候选术语集；

(3)候选术语筛选：对候选术语集中的单词型术语和复合词型术语分别进行筛选过滤；

(4)候选术语综合评分排序：根据各文本块的位置权重对筛选后的候选术语集中的候选术语进行评分，并按照评分从高到低的顺序对所述候选术语进行排序，根据排序结果抽取出术语集。

优选地，上述面向学术论文的术语抽取方法，其步骤(1)的预处理包括如下子步骤：

(1.1)文本块标注：将学术论文中的文本块进行分割标注，分割成标题、摘要、关键字、正文和超自然语言符号；

(1.2)文本块筛选：从标注好的文本块中，去除含术语概率低的正文和参考文献，获取所需的文本块，包括标题、摘要和关键字；

(1.3)分词及词性标注：对筛选出的标题、摘要和关键字中所含文本进行分词及词性标注；

(1.4)噪声词过滤：结合停用词典以及无用词性字典，对分词及词性标注后的语料进行无用词及词性的过滤；其中，无用词包括拟声词、语气词。

优选地，上述面向学术论文的术语抽取方法，其步骤(2)中，对标题、摘要、关键字三个文本块分别采用不同的方法进行候选术语抽取，具体如下：

(a)对标题文本块：采用基于边界标记集的抽取方法，根据标题文本块中术语的上、下边界词性模板，以及上、下边界常用词汇模板，对语料库中的标题文本块进行匹配，从标题文本块中抽取候选术语；

标题长度短，包含术语量多，其前后边界具有规律性；通过统计同类学术论文标题中术语上、下边界词性与词的规律性，获得标题文本块中术语的上、下边界词性模板，以及上、下边界常用词汇模板；

(b)对摘要文本块：采用基于中文术语构词规则的抽取方法，根据术语词性搭配模板对语料库中的摘要文本进行匹配，从摘要文本中抽取候选术语；

摘要文本块属于自由文本，但是专业术语的词性搭配构成具有规律性；通过统计术语词性搭配规则，得到术语词性搭配模板；

(c)对关键字文本块：直接将关键字作为候选术语。

优选地，上述面向学术论文的术语抽取方法，其步骤(3)的候选术语筛选，对单词型候选术语的筛选方法具体如下：

(I.1)采用TF-IDF算法，结合CF(CategoryFrequency，类别频率)综合考虑术语分布的类别特征，获取单词型候选术语的领域相关度

T F - I D F - C F (t) = t f (t) \cdot l o g (\frac{N (C)}{N (t, C_{l}) + N (t, \overset{&OverBar;}{C_{l}})} * \frac{N (t, C_{l})}{N (C_{l})});

其中，tf(t)是指词语t在语料中出现的频次，N(C)是指语料中包含的文档总数，N(t,C_l)是指类别l中包含词语t的文档频次，是指除类别l以外的其他类别中包含词语t的文档频次，N(C_l)指语料中包含的类别l的总数；

(I.2)去除领域相关度CF(t)低于第一筛选阈值的单词型候选术语；第一筛选阈值则根据学术论文所涉技术领域具体设定。

学术论文术语的重要特点是：若某个词语只在某个类别范围内的论文中出现，则该词语对该论文类别具有较强的表征能力，应该赋予更好的权重值；

对于上述步骤中获取的CF(t)而言，当前类别l中含有词语t的文档越多，t的权值越大；其他类别中含有词语t的文档越多，t的权值越小；当词语t在文档集的每个文档中都出现时，权值为0，表明该词语不具备领域特征性。

优选地，上述面向学术论文的术语抽取方法，其步骤(3)的候选术语筛选，对复合词型候选术语的筛选方法具体如下：

(II.1)通过SCP算法获取复合词型候选术语s的单元性指标

S C P (s) = \frac{f {(s)}^{2}}{\frac{1}{n - 1} Σ_{i = 1}^{n - 1} f (w_{1}, ..., w_{i}) f (w_{i + 1}, ..., w_{n})};

其中，s是指候选术语，s＝w₁w₂…w_n(n≥2)；f(s)是指候选术语s的词频，f(w₁,…,w_i)是指术语子串(w₁,…,w_i)的词频，f(w_i+1,…,w_n)是指术语子串(w₁,…,w_i)的词频；w_i是组成候选术语s的词；

(II.2)通过C-VALUE算法获取复合词型候选术语领域相关度

其中，t是指候选术语，|C_t|是候选术语的父串集合中父串的个数，|t|是候选术语t的长度，f(t)是候选术语t在语料中出现的频率；f(a)候选术语a在语料中出现的频率；

当术语子串(w₁,…,w_i)和(w₁,…,w_i)只作为候选术语的子串出现时，f(w₁,…,w_i)＝f(w_i+1,…,w_n)＝f(s)，候选术语的SCP值为1，候选术语的单元性最强，词语搭配最合理；通过候选术语的SCP值，可有效判断该候选术语的结构是否稳定；

C-value方法是一种领域相关度计算方法，采用C-value作为复合词型候选术语的领域相关度计算方法，可有效判断候选术语的领域关联强度，提高术语抽取的准确率；

(II.3)根据上述单元性指标和领域相关度，获取复合词型候选术语t的权重指标

其中，SCP_max是指所有候选术语的单元性指标SCP(t)的最大值，C_max是指所有候选术语领域相关度C(t)的最大值；

(II.4)获取各复合词型候选术语的权重指标，去除权重指标低于第二筛选阈值的复合词型候选术语，第二筛选阈值跟根据学术论文所涉技术领域具体设定。

优选地，上述面向学术论文的术语抽取方法，其步骤(4)包括如下子步骤：

(4.1)采用层次分析法，根据候选术语的位置确定候选术语的位置权重；其中，标题文本块、摘要文本块、关键字文本块分别具有不同的位置权重；

(4.2)根据上述位置权重，对步骤(3)获得的候选术语集中的候选术语进行处理，获得候选术语里各文本块的评分

Score(t)＝0.6232*keyword(t)+0.2395*title(t)+0.1373*abstract(t)；

其中，

其中，TF-IDF-CF是指单词型候选术语的领域相关度；SCP-CV是指复合词型候选术语的权重指标；

(4.3)根据评分对候选术语进行排序，取前N个候选术语或者评分大于阈值α的候选术语作为抽取出的术语；其中，N为正整数，N与α的取值根据学术论文所涉的技术领域的文本特性灵活设定。

为实现本发明目的，按照本发明的另一方面，还提供了一种面向学术论文的术语抽取系统，包括预处理模块、候选术语抽取模块、候选术语筛选模块和候选术语评分模块；

其中，预处理模块用于对学术论文语料库进行预处理，包括文本块标注、文本块筛选、分词及词性标注以及噪声词过滤；

候选术语抽取模块用于对预处理后的语料库中的文本块进行抽取，形成候选术语集；

候选术语筛选模块用于根据单元性和领域相关度对候选术语集进行筛选；

候选术语评分模块用于根据位置信息权重对筛选后的候选术语进行综合评分；并根据评分对候选术语进行排序，取TopN或者大于阈值α的候选术语作为抽取出的术语。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的面向学术论文的术语抽取方法及系统，对于候选术语抽取，根据不同的文本块采用不同的抽取方法，充分考虑了学术论文不同文本块的术语分布特点，提高了正确术语被准确识别出来的概率；

(2)本发明提供的面向学术论文的术语抽取方法及系统，对于候选术语筛选，对单词型术语与复合词型术语分别采用不同的策略进行筛选过滤，引入了学术论文的类别信息，大大提高了单词型候选术语的筛选准确率；

(3)本发明提供的面向学术论文的术语抽取方法及系统，在候选术语综合评分排序过程中，采用层次分析法，根据候选术语中文本块的位置信息确定各文本块的权重，充分考虑了不同文本块中术语的重要性比重，提高了术语抽取的准确率；

综上而言，本发明解决了现有的术语抽取方法没有考虑学术论文的术语分布特点以及学术论文的类别信息的问题，提高了学术论文术语抽取的准确率和召回率。

附图说明

图1是本发明实施例的面向学术论文的术语抽取方法的流程示意图；

图2是本发明实施例中预处理的流程示意图；

图3是本发明实施例中候选术语抽取方法的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例所提供的面向学术论文的术语抽取方法，其流程如图1所示，包括预处理步骤、候选术语抽取步骤、候选术语筛选步骤和候选术语综合评分排序步骤；具体如下：

(1)预处理步骤：其流程如图2所示，包括文本块标注、文本块筛选、分词及词性标注、噪声词去除；

(1.1)文本块标注：将学术论文中的文本块进行切割标注，分割成标题、摘要、关键字、正文和超自然语言符号；

实施例中，切割标准采用国家标准GB7713-87，学术论文的结构由三大部分九个基本要素组成；文本块类别标注如表1所列：

表1文本块类别标注

(1.2)文本块筛选：从标注好的文本块中，去除正文、参考文献；获取所需的文本块，包括标题文本块、摘要文本块和关键字文本块；

(1.3)分词及词性标注：对筛选出的标题、摘要和关键字中所含文本进行分词及词性标注；实施例中，采用中科院分词系统ICTCLAS对文本进行分词及词性标注；

(1.4)噪声词过滤：结合停用词典以及无用词性字典，将上一步分词及词性标注后的语料进行无用词及词性的过滤；其中，无用词包括拟声词、语气词。

(2)候选术语抽取步骤：其流程如图3所示，对不同的文本块采用不同的候选术语抽取方法：

具体地，对标题文本块采用基于边界标记集的抽取方法；对摘要文本块采用基于中文术语构词规则的抽取方法；对关键字文本块采用基于关键字的抽取方法；分别通过这三种抽取方法对文本块进行抽取，形成候选术语集。

(3)候选术语筛选步骤：对步骤(2)形成的候选术语集进行筛选过滤，针对候选术语集中的单词型术语和复合词型术语，采用不同的筛选方法；单词型术语只考量其领域相关度，而复合词性术语需要同时考量其单元性和领域相关度两个指标。

(4)候选术语综合评分排序步骤：针对步骤(3)筛选后候选术语集，再引入每一个候选术语的位置信息，即根据其出现的位置，如标题、摘要、关键字，分别赋予不同的权重；根据权重得到候选术语的评分，根据评分进行排序，得到抽取出的术语集；其中，权重值采用层次分析法确定。

实施例还提供了一种面向学术论文的术语抽取系统，包括预处理模块、候选术语抽取模块、候选术语筛选模块和候选术语评分模块；

预处理模块用于对学术论文语料库进行预处理，包括文本块标注、文本块筛选、分词及词性标注、噪声词过滤；候选术语抽取模块用于从预处理后的语料库中抽取形成候选术语集；候选术语筛选模块用于从候选术语集中根据单元性和领域相关度两个特性筛选术语；候选术语评分模块用于根据位置权重对筛选后的候选术语进行综合评分，根据评分对候选术语进行排序，取TopN或者大于阈值α的候选术语作为抽取出的术语。

以下结合学术论文术语抽取的实例，来具体阐述本发明提供的术语抽取方法，具体包括如下子步骤：

(1)预处理：首先从学术论文中抽取出文本信息，并将其标注为标题、摘要、关键词、各级子标题、正文和参考文献等不同类型的文本块；

从中筛选出标题、摘要和关键词三类文本块；采用中科院分词系统ICTCLAS对这三类文本块进行分词及词性标注；

结合停用词典以及无用词性字典，将分词后的语料进行无用词及词性的过滤，无用词性包括拟声词、语气词等等，如“呀”、“啊”。

(2)候选术语抽取：针对不同类型的文本块采用不同的候选术语抽取方法；

具体地，对标题文本块采用基于边界标记集的抽取方法；例如，将“面向海量数据的云存储技术”中“面向”、“的”和“技术”作为边界标记，提取出候选术语“海量数据”和“云存储”；

对摘要文本块采用基于中文术语构词规则的抽取方法，首先分析候选术语的词性与词长搭配规律，然后设计对应的匹配模板；例如，双词型候选术语的常见词性搭配有“n+v”、“n+n”和“v+v”等，根据这些特征，提取出摘要文本块中的候选术语；

对关键字文本块采用基于关键字的抽取方法，通常关键词都是采用分号、逗号、顿号或空格进行分割，将切分后的关键字作为候选术语；

通过上述三种抽取方法对文本块进行抽取，形成候选术语集。

(3)候选术语筛选：对候选术语集进行筛选过滤，针对候选术语集中的单词型术语和复合词型术语采用不同的筛选方法；

对单词型术语只考量其领域相关度，在TF-IDF的基础上，引入类别频率因子CF，综合考虑论文类别信息，从而提高学术论文术语抽取的效果；而对复合词性术语，结合C-VALUE和SCP两种指标进行综合过滤，同时考量其单元性和领域相关度两个指标。

(4)候选术语综合评分排序：

针对筛选后的候选术语集，根据每一个候选术语的位置信息确定每个候选术语的位置权重；即根据候选术语出现的位置，如标题位置、摘要位置、关键字位置，对候选术语赋予不同的权重，根据候选术语的综合权重指标获取各术语的评分；根据评分进行排序，根据排序结果确定最终抽取出的术语集。

实施例中，权重值根据层次分析法确定；针对关键字、标题、摘要，这三个顺序有可能出现术语的可能性由高到低，定义每个位置的权值；根据层次分析法得到各术语的评分

Score(t)＝0.6232*keyword(t)+0.2395*title(t)+0.1373*abstract(t)；

其中，keyword(t)、title(t)和abstract(t)分别根据候选术语t是否被关键词、标题和摘要所包含而有不同取值，如若不被包含，则取0值；若被包含，则根据候选术语为单词型或复合词型来区别。

实验数据表明采用实施例的方法，对单词性术语抽取的准确率、召回率以及F度量指标相较采用TF-IDF方法进行单次性术语抽取，分别提高了7.85％、11.54％、9.35％；对复合词型术语抽取的准确率、召回率以及F度量指标相较采用SCP-CV方法进行复合词型术语抽取，分别提高了11.62％，9.71％、10.58％。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向学术论文的术语抽取方法，其特征在于，具体包括如下步骤：

(1)对学术论文语料库进行文本块标注、文本块筛选、分词及词性标注，以及噪声词过滤，确定标题文本块、摘要文本块和关键字文本块；

(2)对所述标题文本块、摘要文本块和关键字文本块分别进行候选术语抽取，根据抽取获得的候选术语构成候选术语集；

(3)对所述候选术语集中的单词型术语和复合词型术语分别进行候选术语筛选；

(4)根据各文本块的位置权重对筛选后的候选术语集中的候选术语进行评分，并按照评分从高到低的顺序对所述候选术语进行排序，根据排序结果抽取出术语集。

2.如权利要求1所述的术语抽取方法，其特征在于，所述步骤(1)包括如下子步骤：

(1.1)对学术论文中的文本块进行分割标注，分割成标题文本块、摘要文本块、关键字文本块、正文文本块和超自然语言符号；

(1.2)从标注好的文本块中，去除正文文本块和参考文献，获取标题文本块、摘要文本块和关键字文本块；

(1.3)对所述标题文本块、摘要文本块和关键字文本块中所含文本进行分词及词性标注；

(1.4)结合停用词典以及无用词性字典，对分词及词性标注处理后的语料进行无用词及词性的过滤。

3.如权利要求1或2所述的术语抽取方法，其特征在于，步骤(2)所述的候选术语抽取方法具体如下：

(c)对关键字文本块：直接将关键字作为候选术语。

4.如权利要求1或2所述的术语抽取方法，其特征在于，步骤(3)所述的候选术语筛选，对单词型候选术语的筛选方法包括如下子步骤：

(I.1)采用TF-IDF算法，获取单词型候选术语的领域相关度

T F - I D F - C F (t) = t f (t) \cdot l o g (\frac{N (C)}{N (t, C_{l}) + N (t, \overset{&OverBar;}{C_{l}})} * \frac{N (t, C_{l})}{N (C_{l})});

(I.2)去除领域相关度CF(t)低于第一筛选阈值的单词型候选术语，获得候选术语集。

5.如权利要求1或2所述的术语抽取方法，其特征在于，所述步骤(3)的候选术语筛选，对复合词型候选术语的筛选方法包括如下子步骤：

(II.1)通过SCP算法获取复合词型候选术语的单元性指标

S C P (s) = \frac{f {(s)}^{2}}{\frac{1}{n - 1} Σ_{i = 1}^{n - 1} f (w_{1}, ..., w_{i}) f (w_{i + 1}, ..., w_{n})};

其中，s是指候选术语，s＝w₁w₂…w_n(n≥2)；f(s)是指候选术语s的词频，f(w₁,…,w_i)是指术语子串(w₁,…,w_i)的词频，f(w_i+1,…,w_n)是指术语子串(w_i+1,…,w_n)的词频；w_i是组成候选术语s的词；

(II.2)通过C-VALUE算法获取复合词型候选术语的领域相关度

其中，t是指候选术语，|C_t|是候选术语的父串集合中父串的个数，|t|是候选术语t的长度，f(t)是候选术语t在语料中出现的频率；

(II.3)根据所述单元性指标和领域相关度，获取复合词型候选术语t的权重指标

(II.4)获取各复合词型候选术语的权重指标，去除权重指标低于第二筛选阈值的复合词型候选术语，获得候选术语集。

6.如权利要求1或2所述的术语抽取方法，其特征在于，所述步骤优(4)包括如下子步骤：

(4.1)采用层次分析法，根据候选术语的位置确定候选术语的位置权重；

(4.2)根据所述位置权重，获得步骤(3)中获得的候选术语集中的候选术语的评分

Score(t)＝0.6232*keyword(t)+0.2395*title(t)+0.1373*abstract(t)；

其中，

(4.3)根据所述评分对候选术语进行排序，取前N个候选术语或者评分大于阈值α的候选术语作为抽取出的术语；

其中，N为正整数，N与α的取值根据学术论文所涉的技术领域的文本特性灵活设定。

7.一种面向学术论文的术语抽取系统，其特征在于，包括预处理模块、候选术语抽取模块、候选术语筛选模块和候选术语评分模块；

所述预处理模块用于对学术论文语料库进行预处理，包括文本块标注、文本块筛选、分词及词性标注以及噪声词过滤；

所述候选术语抽取模块用于对预处理后的语料库中的文本块进行抽取，形成候选术语集；

所述候选术语筛选模块用于根据单元性和领域相关度对候选术语集进行筛选；

所述候选术语评分模块用于根据位置信息权重对筛选后的候选术语进行综合评分；并根据评分对候选术语进行排序，取TopN或者大于阈值α的候选术语作为抽取出的术语；其中，N为正整数，N与α的取值根据学术论文所涉的技术领域的文本特性灵活设定。