CN105138537B

CN105138537B - 基于自信息的跨学科领域共现主题发现方法

Info

Publication number: CN105138537B
Application number: CN201510398058.0A
Authority: CN
Inventors: 夏晴; 周文; 张亚军; 刘孟
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2018-12-07
Anticipated expiration: 2035-07-08
Also published as: CN105138537A

Abstract

本发明公开了一种基于自信息的跨学科领域共现主题发现方法，该方法具体步骤如下：(1)、数据收集：收集高引文献作者关于其科研成功的自评文档集；(2)、数据处理：提取和数字化自评中的正文部分；(3)、抽取候选低频主题词；(4)、计算低频主题评价系数；(5)、设定低频主题词评价系数的阈值；(6)、过滤低频主题词。该方法为主题发现的相关研究提供了新的思路。不仅高频词与主题有紧密关系，低频词也是一种可以利用的资源。该方法可以应用到评价类文档集的主题发现，例如从自传题材中提取人物的共同经历、从股票评论中提取评价股票的共同指标，从而实现不同学科领域文档集中的共现主题提取。

Description

基于自信息的跨学科领域共现主题发现方法

技术领域

本发明涉及一种基于自信息的跨学科领域共现主题发现方法，属于文本挖掘(Text Mining)领域。

背景技术

近年来，主题发现作为文本挖掘领域的热门研究方向，受到越来越多的研究者的重视。主题发现可以从海量的非结构化文本中挖掘到关键的主题信息，可以更加高效的理解文本的主要内容，获取文本的深层语义信息。同时，主题发现还可以对主题进行更深层次的分析，发现文本中更多的潜在知识。

现有的主题发现方法主要有主题模型以及词频统计的两种。主题模型是一种概率生成模型，在主题模型中主题作为隐变量，文档以及词项作为观测值。通过对模型的训练可以得到词项概率分布、以及主题概率分布。经过训练后的模型就可以将词项空间中的文档变换到主题空间，从而实现文档处理的降维，最终得到具有语义信息的主题集合。常用的主题模型主要有LSI[1,2]、pLSI[3,4]、LDA[5]等。词频统计的方法则是通过对词在文档中以及文档集中的频率的计算来进行主题抽取，常用的方法有TF_IDF(term frequency–inverse document frequency)、互信息(Mutual Information)、信息增益、x2统计量等。

上述的主题发现方法具有很强的理论基础，在众多主题发现任务中均取得较好的效果。然而这些方法对于跨学科领域中的共现主题信息无法很好的抽取，因为对于评价类跨学科领域的文本，有时主题可能是由低频主题词而非高频词体现。现有的主题发现方法大多倾向于获取高频词，因而无法用来抽取具有低频特征的共现主题词，即低频主题词。此外，跨学科领域的共现主题发现研究具有重要的研究意义，因为通过这些共现主题可以从更宏观的角度来分析文本集，并且获得更多有意义的主题信息的规律。

发明内容

本发明的目的是针对现有技术存在的不足，提供一种基于自信息的跨学科领域共现主题发现方法，为主题发现的相关研究提供新思路，可应用到评价类文档集的主题发现，从而实现不同学科领域文档集中得共现主题提取。

为达到上述目的，本发明采用下述技术方案：一种基于自信息的跨学科领域共现主题发现方法，其特征在于操作步骤包括：

(1)、数据收集：收集高引文献作者关于其科研成功的自评文档集；

(2)、数据处理：提取和数字化自评中的正文部分；

(3)、抽取候选低频主题词；

(4)、计算低频主题评价系数；

(5)、设定低频主题词评价系数的阈值；

(6)、过滤低频主题词。

上述步骤(1)所述为数据收集。从引文数据库SCI(Science Citation Index)的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。

上述步骤(2)所述为数据处理。对文档集中自评的正文部分进行了提取和数字化。此外，还提取了3类信息，自评的正文内容、自评的相关信息以及原高引文献的相关信息。

本发明定义了低频主题词是能够充分体现主题信息，均匀出现且词频较低的非专业词。低频主题词的词频应当符合如下公式:

文档集D(D＝{d_i}(i＝[1,m]))中，文档d_i中的词w_ij在D中出现的次数c'_ij与它在文档d_i中出现的次数c_ij之比应当等于与文档集D中的文档数目m相关的数值。当w_ij不出现在文档di中，则值为零。

上述步骤(3)所述为抽取候选低频主题词。通过定义的标记模式进行候选低频主题词。具体步骤是首先利用“自然语言工具集”NLTK(Natural Language Toolkit)作为工具处理自评的征文部分，然后结合Leahey,Erin；Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式，最后通过定义的标记模式进行抽取候选低频主题词。

本发明定义低频主题词评价系数，是用于评估一个词均匀出现的程度的统计指标。在信息论中，信息被认为是可以量化的。在抽象含义上，认为发生概率低的事件所包含的信息量大。如果词的信息量大，则它更加确定，对于文档或文档集而言确定性越高的词则越重要。

上诉步骤(4)所诉为计算所有候选低频主题词的低频主题评价系数。具体步骤如下：

(41)、计算低频词对文档的信息量：表示词w_ij对文档di的信息量。词在文档中出现的词频c_ij与文档中总词数C_i的比值近似的被看作为词在文档中出现的概率。

(42)、计算低频词对文档集的信息量：表示每个词对应的文档集信息量，词在文档集中出现的词频c'_ij与文档中总词数的比值近似的被看作为词在文档集中出现的概率。

(43)、计算低频主题词评价系数：直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数越接近0时所对应的w_ij越可能是低频主题词。

上述步骤(5)所述为设定低频主题词评价系数阈值。设定的阈值要确保低频主题词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频主题词。

上述步骤(6)所述为过滤低频主题词。自评篇幅较小，高频词是专业词的可能性较大，所以去除大部分专业词，从而提高查准率。再通过人工标记的方式去除未明显指向主题的词组，从而对结果进行优化。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：(1)该方法可以用来分析跨多个学科领域的文本中的共现主题，不需要对任何领域的测试集进行特殊的预处理。(2)该方法通过对词以及词组关于自信息的计算分析来发现主题。算法的复杂度低，能够更加直接的获取跨学科领域文本集中的共现主题信息。(3)该方法可用来处理任何语言的文本，具有极强的可移植性、以及可扩展性。(4)与以往的文本信息抽取中以高频信息为主不同，该方法主要用来抽取词频相对偏低但是均匀出现，有重要研究价值的信息。

附图说明

图1为本发明的基于自信息的跨学科领域共现主题发现方法的操作程序框图

具体实施方式

下面结合说明书附图和优选实施例对本发明作进一步详细的说明。

实施例一：

参考图1，本基于自信息的跨学科领域共现主题发现，其特征在于：操作步骤包括：

(2)、数据处理：提取和数字化自评中的正文部分；

(3)、抽取候选低频主题词；

(4)、计算低频主题评价系数；

(5)、设定低频主题词评价系数的阈值；

(6)、过滤低频主题词。

实施例二：本实施例与实施例一基本相同，特别之处如下：

所述步骤(1)数据收集的具体操作是：从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。

所述步骤(2)数据处理的具体操作是：对文档集中文本进行了数字化和提取；此外，还提取了3类信息：自评的正文内容、自评的相关信息以及原高引文献的相关信息。

所述步骤(3)抽取候选低频主题词的具体操作是：首先利用“自然语言工具集”NLTK文献作为工具处理自评的正文部分，然后结合Leahey,Erin；Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式，最后通过定义的标记模式进行抽取候选低频主题词。

所述步骤(4)计算低频主题评价系数的具体操作如下：

(41)首先计算低频词对文档的信息量：表示词w_ij对文档di的信息量，c_ij表示词在文档中出现的词频、C_i表示文档中总词数，

(42)计算低频词对文档集的信息量：表示每个词对应的文档集信息量，c'_ij表示词在文档集中出现的词频，表示文档中总词数，

(43)、计算低频主题词评价系数：直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数越接近0时所对应的w_ij越可能是低频主题词，

所述步骤(5)设定低频主题词评价系数的阈值的具体操作是：设定的阈值要确保低频主题词的提取时的查全率和查准率，即尽可能多的得到低频主题词而不引入过多的非低频主题词。

所述步骤(6)设定低频主题词评价系数的阈值的具体操作是：设定的阈值要确保低频主题词的提取时的查全率和查准率，即尽可能多的得到低频主题词而不引入过多的非低频主题词。

实施例三：

如图1所示，本基于自信息的跨学科领域共现主题发现方法，具体包括以下步骤：

(1)、数据收集。在宾夕法尼亚大学的加菲尔德电子图书馆中，获取5000余份PDF格式的文档。通过删除噪音数据、删除重复数据、放弃缺失数据这三项数据预处理工作，得到信息完整的可用文档共3790份，建立起自评文档集。

(2)、数据处理。对文档集中自评的正文部分进行了提取和数字化。此外，还提取了3类信息，自评的正文内容、自评的相关信息(如：自评的作者、作者的地址、自评发表的年份以及自评的学科领域标签)以及原高引文献的相关信息(如：原高引文献的作者、原高引文献的文章标题、原高引文献发表的期刊、原高引文献发表的年份)。

学科领域标签由加菲尔德研究团队根据原高引文献的内容给出，包括：AgrBiolEnviron(Agriculture Biology&Environmental Sciences)、Clin Med(ClinicalPractice)、Life Sci(Life Sciences)、Eng Tech ApplSci(Engineering Technology&Applied Sciences)、PhysChem Earth(Physical Chemical&Earth Sciences)、SocBehavSci(Social&Behavioral Sciences)、Art Human(Arts&Humanities)。

(3)、抽取候选低频主题词。首先利用NLTK(Natural Language Toolkit)对自评正文进行处理，需要用户给出标记模式。然后结合了Leahey,Erin；Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式。最后通过定义的标记模式进行抽取候选低频主题词。具体标记模式如下：

(4)、计算低频主题评价系数。具体步骤如下：

(42)、计算低频词对文档集的信息量：表示每个词对应的文档集信息量，词在文档集中出现的词频与文档中总词数的比值近似的被看作为词在文档集中出现的概率。

(43)、计算低频主题词评价系数：直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数

取得的不重复的低频主题词评价系数最接近0的前20个词组。下表中的category给出了词组的类别，0代表是专业词，1和2代表是非专业词，其中2代表着低频主题词。

(5)、设定低频主题词评价系数的阈值。设定的阈值要确保低频主题词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频主题词。进行实验后，确定阈值λ＝2.3。

(6)、过滤低频主题词。现有阈值λ的取值会出现查全率高而查准率相对低的现象。自评篇幅较小，高频词是专业词的可能性较大，所以去除大部分专业词，从而提高查准率。再通过人工标记的方式去除未明显指向主题的词组，例如“so many”、“other hand”等，从而对结果进行优化。

以上对本发明的基于自信息的跨学科领域共现主题发现方法做了详细的说明。本领域技术人员在本发明的构思范围内所做的修改和改进，应当包含在本发明所附的权利要求限定的范围内。

Claims

1.一种基于自信息的跨学科领域共现主题发现方法，其特征在于：操作步骤包括：

(2)、数据处理：提取和数字化自评中的正文部分；

(3)、抽取候选低频主题词；

(4)、计算低频主题评价系数；

(5)、设定低频主题词评价系数的阈值；设定的阈值要确保低频主题词的提取时的查全率和查准率，即尽可能多的得到低频主题词而不引入过多的非低频主题词，进行实验后，确定阈值λ＝2.3；

(6)、过滤低频主题词；现有阈值λ的取值会出现查全率高而查准率相对低的现象，自评篇幅较小，高频词是专业词的可能性较大，所以去除大部分专业词，从而提高查准率；再通过人工标记的方式去除未明显指向主题的词组，从而对结果进行优化。

2.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法，其特征在于：所述步骤(1)数据收集的具体操作是：从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。

3.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法，其特征在于：所述步骤(2)数据处理的具体操作是：对文档集中文本进行了数字化和提取；此外，还提取了3类信息：自评的正文内容、自评的相关信息以及原高引文献的相关信息。

4.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法，其特征在于：所述步骤(3)抽取候选低频主题词的具体操作是：首先利用“自然语言工具集”NLTK文献作为工具处理自评的正文部分，然后结合Leahey,Erin；Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式，最后通过定义的标记模式进行抽取候选低频主题词。

5.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法，其特征在于：所述步骤(4)计算低频主题评价系数的具体操作如下：

6.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法，其特征在于：所述步骤(5)设定低频主题词评价系数的阈值的具体操作是：设定的阈值要确保低频主题词的提取时的查全率和查准率，即尽可能多的得到低频主题词而不引入过多的非低频主题词。