CN105138537B - 基于自信息的跨学科领域共现主题发现方法 - Google Patents

基于自信息的跨学科领域共现主题发现方法 Download PDF

Info

Publication number
CN105138537B
CN105138537B CN201510398058.0A CN201510398058A CN105138537B CN 105138537 B CN105138537 B CN 105138537B CN 201510398058 A CN201510398058 A CN 201510398058A CN 105138537 B CN105138537 B CN 105138537B
Authority
CN
China
Prior art keywords
self
low frequency
word
descriptor
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510398058.0A
Other languages
English (en)
Other versions
CN105138537A (zh
Inventor
夏晴
周文
张亚军
刘孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201510398058.0A priority Critical patent/CN105138537B/zh
Publication of CN105138537A publication Critical patent/CN105138537A/zh
Application granted granted Critical
Publication of CN105138537B publication Critical patent/CN105138537B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自信息的跨学科领域共现主题发现方法,该方法具体步骤如下:(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;(2)、数据处理:提取和数字化自评中的正文部分;(3)、抽取候选低频主题词;(4)、计算低频主题评价系数;(5)、设定低频主题词评价系数的阈值;(6)、过滤低频主题词。该方法为主题发现的相关研究提供了新的思路。不仅高频词与主题有紧密关系,低频词也是一种可以利用的资源。该方法可以应用到评价类文档集的主题发现,例如从自传题材中提取人物的共同经历、从股票评论中提取评价股票的共同指标,从而实现不同学科领域文档集中的共现主题提取。

Description

基于自信息的跨学科领域共现主题发现方法
技术领域
本发明涉及一种基于自信息的跨学科领域共现主题发现方法,属于文本挖掘(Text Mining)领域。
背景技术
近年来,主题发现作为文本挖掘领域的热门研究方向,受到越来越多的研究者的重视。主题发现可以从海量的非结构化文本中挖掘到关键的主题信息,可以更加高效的理解文本的主要内容,获取文本的深层语义信息。同时,主题发现还可以对主题进行更深层次的分析,发现文本中更多的潜在知识。
现有的主题发现方法主要有主题模型以及词频统计的两种。主题模型是一种概率生成模型,在主题模型中主题作为隐变量,文档以及词项作为观测值。通过对模型的训练可以得到词项概率分布、以及主题概率分布。经过训练后的模型就可以将词项空间中的文档变换到主题空间,从而实现文档处理的降维,最终得到具有语义信息的主题集合。常用的主题模型主要有LSI[1,2]、pLSI[3,4]、LDA[5]等。词频统计的方法则是通过对词在文档中以及文档集中的频率的计算来进行主题抽取,常用的方法有TF_IDF(term frequency–inverse document frequency)、互信息(Mutual Information)、信息增益、x2统计量等。
上述的主题发现方法具有很强的理论基础,在众多主题发现任务中均取得较好的效果。然而这些方法对于跨学科领域中的共现主题信息无法很好的抽取,因为对于评价类跨学科领域的文本,有时主题可能是由低频主题词而非高频词体现。现有的主题发现方法大多倾向于获取高频词,因而无法用来抽取具有低频特征的共现主题词,即低频主题词。此外,跨学科领域的共现主题发现研究具有重要的研究意义,因为通过这些共现主题可以从更宏观的角度来分析文本集,并且获得更多有意义的主题信息的规律。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种基于自信息的跨学科领域共现主题发现方法,为主题发现的相关研究提供新思路,可应用到评价类文档集的主题发现,从而实现不同学科领域文档集中得共现主题提取。
为达到上述目的,本发明采用下述技术方案:一种基于自信息的跨学科领域共现主题发现方法,其特征在于操作步骤包括:
(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;
(2)、数据处理:提取和数字化自评中的正文部分;
(3)、抽取候选低频主题词;
(4)、计算低频主题评价系数;
(5)、设定低频主题词评价系数的阈值;
(6)、过滤低频主题词。
上述步骤(1)所述为数据收集。从引文数据库SCI(Science Citation Index)的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。
上述步骤(2)所述为数据处理。对文档集中自评的正文部分进行了提取和数字化。此外,还提取了3类信息,自评的正文内容、自评的相关信息以及原高引文献的相关信息。
本发明定义了低频主题词是能够充分体现主题信息,均匀出现且词频较低的非专业词。低频主题词的词频应当符合如下公式:
文档集D(D={di}(i=[1,m]))中,文档di中的词wij在D中出现的次数c'ij与它在文档di中出现的次数cij之比应当等于与文档集D中的文档数目m相关的数值。当wij不出现在文档di中,则值为零。
上述步骤(3)所述为抽取候选低频主题词。通过定义的标记模式进行候选低频主题词。具体步骤是首先利用“自然语言工具集”NLTK(Natural Language Toolkit)作为工具处理自评的征文部分,然后结合Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选低频主题词。
本发明定义低频主题词评价系数,是用于评估一个词均匀出现的程度的统计指标。在信息论中,信息被认为是可以量化的。在抽象含义上,认为发生概率低的事件所包含的信息量大。如果词的信息量大,则它更加确定,对于文档或文档集而言确定性越高的词则越重要。
上诉步骤(4)所诉为计算所有候选低频主题词的低频主题评价系数。具体步骤如下:
(41)、计算低频词对文档的信息量:表示词wij对文档di的信息量。词在文档中出现的词频cij与文档中总词数Ci的比值近似的被看作为词在文档中出现的概率。
(42)、计算低频词对文档集的信息量:表示每个词对应的文档集信息量,词在文档集中出现的词频c'ij与文档中总词数的比值近似的被看作为词在文档集中出现的概率。
(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数越接近0时所对应的wij越可能是低频主题词。
上述步骤(5)所述为设定低频主题词评价系数阈值。设定的阈值要确保低频主题词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频主题词。
上述步骤(6)所述为过滤低频主题词。自评篇幅较小,高频词是专业词的可能性较大,所以去除大部分专业词,从而提高查准率。再通过人工标记的方式去除未明显指向主题的词组,从而对结果进行优化。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:(1)该方法可以用来分析跨多个学科领域的文本中的共现主题,不需要对任何领域的测试集进行特殊的预处理。(2)该方法通过对词以及词组关于自信息的计算分析来发现主题。算法的复杂度低,能够更加直接的获取跨学科领域文本集中的共现主题信息。(3)该方法可用来处理任何语言的文本,具有极强的可移植性、以及可扩展性。(4)与以往的文本信息抽取中以高频信息为主不同,该方法主要用来抽取词频相对偏低但是均匀出现,有重要研究价值的信息。
附图说明
图1为本发明的基于自信息的跨学科领域共现主题发现方法的操作程序框图
具体实施方式
下面结合说明书附图和优选实施例对本发明作进一步详细的说明。
实施例一:
参考图1,本基于自信息的跨学科领域共现主题发现,其特征在于:操作步骤包括:
(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;
(2)、数据处理:提取和数字化自评中的正文部分;
(3)、抽取候选低频主题词;
(4)、计算低频主题评价系数;
(5)、设定低频主题词评价系数的阈值;
(6)、过滤低频主题词。
实施例二:本实施例与实施例一基本相同,特别之处如下:
所述步骤(1)数据收集的具体操作是:从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。
所述步骤(2)数据处理的具体操作是:对文档集中文本进行了数字化和提取;此外,还提取了3类信息:自评的正文内容、自评的相关信息以及原高引文献的相关信息。
所述步骤(3)抽取候选低频主题词的具体操作是:首先利用“自然语言工具集”NLTK文献作为工具处理自评的正文部分,然后结合Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选低频主题词。
所述步骤(4)计算低频主题评价系数的具体操作如下:
(41)首先计算低频词对文档的信息量:表示词wij对文档di的信息量,cij表示词在文档中出现的词频、Ci表示文档中总词数,
(42)计算低频词对文档集的信息量:表示每个词对应的文档集信息量,c'ij表示词在文档集中出现的词频,表示文档中总词数,
(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数越接近0时所对应的wij越可能是低频主题词,
所述步骤(5)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词。
所述步骤(6)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词。
实施例三:
如图1所示,本基于自信息的跨学科领域共现主题发现方法,具体包括以下步骤:
(1)、数据收集。在宾夕法尼亚大学的加菲尔德电子图书馆中,获取5000余份PDF格式的文档。通过删除噪音数据、删除重复数据、放弃缺失数据这三项数据预处理工作,得到信息完整的可用文档共3790份,建立起自评文档集。
(2)、数据处理。对文档集中自评的正文部分进行了提取和数字化。此外,还提取了3类信息,自评的正文内容、自评的相关信息(如:自评的作者、作者的地址、自评发表的年份以及自评的学科领域标签)以及原高引文献的相关信息(如:原高引文献的作者、原高引文献的文章标题、原高引文献发表的期刊、原高引文献发表的年份)。
学科领域标签由加菲尔德研究团队根据原高引文献的内容给出,包括:AgrBiolEnviron(Agriculture Biology&Environmental Sciences)、Clin Med(ClinicalPractice)、Life Sci(Life Sciences)、Eng Tech ApplSci(Engineering Technology&Applied Sciences)、PhysChem Earth(Physical Chemical&Earth Sciences)、SocBehavSci(Social&Behavioral Sciences)、Art Human(Arts&Humanities)。
(3)、抽取候选低频主题词。首先利用NLTK(Natural Language Toolkit)对自评正文进行处理,需要用户给出标记模式。然后结合了Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式。最后通过定义的标记模式进行抽取候选低频主题词。具体标记模式如下:
(4)、计算低频主题评价系数。具体步骤如下:
(41)、计算低频词对文档的信息量:表示词wij对文档di的信息量。词在文档中出现的词频cij与文档中总词数Ci的比值近似的被看作为词在文档中出现的概率。
(42)、计算低频词对文档集的信息量:表示每个词对应的文档集信息量,词在文档集中出现的词频与文档中总词数的比值近似的被看作为词在文档集中出现的概率。
(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数
取得的不重复的低频主题词评价系数最接近0的前20个词组。下表中的category给出了词组的类别,0代表是专业词,1和2代表是非专业词,其中2代表着低频主题词。
(5)、设定低频主题词评价系数的阈值。设定的阈值要确保低频主题词的提取时的查全率和查准率。即尽可能多的得到低频主题词而不引入过多的非低频主题词。进行实验后,确定阈值λ=2.3。
(6)、过滤低频主题词。现有阈值λ的取值会出现查全率高而查准率相对低的现象。自评篇幅较小,高频词是专业词的可能性较大,所以去除大部分专业词,从而提高查准率。再通过人工标记的方式去除未明显指向主题的词组,例如“so many”、“other hand”等,从而对结果进行优化。
以上对本发明的基于自信息的跨学科领域共现主题发现方法做了详细的说明。本领域技术人员在本发明的构思范围内所做的修改和改进,应当包含在本发明所附的权利要求限定的范围内。

Claims (6)

1.一种基于自信息的跨学科领域共现主题发现方法,其特征在于:操作步骤包括:
(1)、数据收集:收集高引文献作者关于其科研成功的自评文档集;
(2)、数据处理:提取和数字化自评中的正文部分;
(3)、抽取候选低频主题词;
(4)、计算低频主题评价系数;
(5)、设定低频主题词评价系数的阈值;设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词,进行实验后,确定阈值λ=2.3;
(6)、过滤低频主题词;现有阈值λ的取值会出现查全率高而查准率相对低的现象,自评篇幅较小,高频词是专业词的可能性较大,所以去除大部分专业词,从而提高查准率;再通过人工标记的方式去除未明显指向主题的词组,从而对结果进行优化。
2.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(1)数据收集的具体操作是:从引文数据库SCI的创始人加菲尔德所征集的高引经典文献的作者关于其科研研究工作取得成功的自评中收集到3790篇高引经典文献的作者自评文档集。
3.根据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(2)数据处理的具体操作是:对文档集中文本进行了数字化和提取;此外,还提取了3类信息:自评的正文内容、自评的相关信息以及原高引文献的相关信息。
4.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(3)抽取候选低频主题词的具体操作是:首先利用“自然语言工具集”NLTK文献作为工具处理自评的正文部分,然后结合Leahey,Erin;Cain,Cindy L.对高引经典文献作者自评的研究的结果定义标记模式,最后通过定义的标记模式进行抽取候选低频主题词。
5.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(4)计算低频主题评价系数的具体操作如下:
(41)首先计算低频词对文档的信息量:表示词wij对文档di的信息量,cij表示词在文档中出现的词频、Ci表示文档中总词数,
(42)计算低频词对文档集的信息量:表示每个词对应的文档集信息量,c'ij表示词在文档集中出现的词频,表示文档中总词数,
(43)、计算低频主题词评价系数:直接用词的文档信息量和文档集信息量的差值来计算低频主题词评价系数 越接近0时所对应的wij越可能是低频主题词,
6.据权利要求1所述的基于自信息的跨学科领域共现主题发现方法,其特征在于:所述步骤(5)设定低频主题词评价系数的阈值的具体操作是:设定的阈值要确保低频主题词的提取时的查全率和查准率,即尽可能多的得到低频主题词而不引入过多的非低频主题词。
CN201510398058.0A 2015-07-08 2015-07-08 基于自信息的跨学科领域共现主题发现方法 Expired - Fee Related CN105138537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510398058.0A CN105138537B (zh) 2015-07-08 2015-07-08 基于自信息的跨学科领域共现主题发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510398058.0A CN105138537B (zh) 2015-07-08 2015-07-08 基于自信息的跨学科领域共现主题发现方法

Publications (2)

Publication Number Publication Date
CN105138537A CN105138537A (zh) 2015-12-09
CN105138537B true CN105138537B (zh) 2018-12-07

Family

ID=54723887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510398058.0A Expired - Fee Related CN105138537B (zh) 2015-07-08 2015-07-08 基于自信息的跨学科领域共现主题发现方法

Country Status (1)

Country Link
CN (1) CN105138537B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN102053978A (zh) * 2009-10-27 2011-05-11 腾讯科技(深圳)有限公司 单句的主题词提取方法和装置
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法
CN104572770A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 一种主题提取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782050B2 (en) * 2005-05-06 2014-07-15 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
CN101901235B (zh) * 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN102053978A (zh) * 2009-10-27 2011-05-11 腾讯科技(深圳)有限公司 单句的主题词提取方法和装置
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN104572770A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 一种主题提取方法及装置
CN104199846A (zh) * 2014-08-08 2014-12-10 杭州电子科技大学 基于维基百科的评论主题词聚类方法

Also Published As

Publication number Publication date
CN105138537A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN106682411B (zh) 一种将体检诊断数据转化为疾病标签的方法
Choi et al. Text analysis for detecting terrorism-related articles on the web
CN107103043A (zh) 一种文本聚类方法及系统
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN104504024B (zh) 基于微博内容的关键词挖掘方法及系统
CN102024027B (zh) 一种医学数据库的建立方法
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN101625680A (zh) 面向专利领域的文档检索方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
Yao et al. Chinese text clustering algorithm based k-means
Taghva et al. Effects of similarity metrics on document clustering
Vrotsou et al. Exploring time diaries using semi-automated activity pattern extraction
KR20110010664A (ko) 문서 분석 시스템
CN105138537B (zh) 基于自信息的跨学科领域共现主题发现方法
CN109241270A (zh) 循证医学文献筛选方法及装置
CN110020034B (zh) 一种信息引证分析方法和系统
CN110489759A (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
Lamba et al. CitizenPulse: A text analytics framework for proactive e-governance-a case study of mygov. in
Li et al. Feed: A chinese financial event extraction dataset constructed by distant supervision
CN106919700A (zh) 基于并行化cep处理的语义驱动犯罪线索实时推荐方法
Yu Exploratory study of developing a synchronization-based approach for multi-step discovery of knowledge structures
Ravi et al. Finding spatial-textual clusters in COVID tweets
Tuan et al. Gene ontology concept recognition using crossproducts and statistical methods
CN107861943A (zh) 一种从文档集中快速提取有用数据的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181207

Termination date: 20210708