CN106021222B - 一种科研文献主题演化的分析方法和装置 - Google Patents
一种科研文献主题演化的分析方法和装置 Download PDFInfo
- Publication number
- CN106021222B CN106021222B CN201610304696.6A CN201610304696A CN106021222B CN 106021222 B CN106021222 B CN 106021222B CN 201610304696 A CN201610304696 A CN 201610304696A CN 106021222 B CN106021222 B CN 106021222B
- Authority
- CN
- China
- Prior art keywords
- theme
- document
- vertex
- word
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种科研文献主题演化的分析方法,其方法包括步骤:A1,指定学科的科研文献下载,文献元数据的整理;A2,文献元数据的预处理形成文献数据集;A3,利用LDA科研文献概率主题模型,计算得到科研主题词的分布和主题文献的分布;A4,利用主题文献的时间信息,对提取的主题在时间轴上进行划分,形成不同时间段上的子主题;A5,利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况。本发明的实施例所提供的科研文献主题演化的分析方法和装置,可以实现揭示挖掘预设科研领域的科研主题随时间变化的规律,有助于把握科研主题的演化脉络。
Description
技术领域
本发明涉及一种科研领域的数据挖掘技术,特别涉及一种科研文献主题演化的分析方法和装置。
背景技术
科研文献记录学术研究的成果,是研究人员进行学术传播和学术交流的重要手段。任何科研成果都是在继承前人的研究成果的基础上进行改进和创新而得到的。随着网络的发展和IEEE、ACM、DBLP等电子文献资源数据库的建立,积累的科研文献的数量越来越多。科研人员往往仅熟悉本专业领域的科研主题的演化情况。当科研人员进入一个新的研究领域,面对如此浩瀚的科研文献,他们迫切希望能够迅速的发现该领域的科研主题的演变情况。自动的科研主题演化分析技术能帮助科研人员快速的了解科技发展变化情况,具有非常重要的现实意义。
现有的科研主题演化分析技术,主要是在Blei等人提出的LDA主题模型的基础上结合文献的时间信息发展而来。这些技术主要利用科研文献中词的共现关系即“词袋模型”来发现主题,利用文献的时间信息来跟踪主题的发展变化。根据主题演化中对时间的不同划分方法,现有的科研主题演化分析方法,可以分为两大类:离散时间主题演化方法、连续时间主题演化方法。
离散时间主题演化方法的一般过程如下:(1).文本语料集根据其时间标签进行子集划分;(2).在每个子集上采用概率主题模型进行主题抽取;(3).根据主题之间关系的度量准则,建立子集之间主题的演化关系;(4).形成主题演化的图。根据采用的概率主题模型的不同,这类模型可分为两大类,第一类是采用贝叶斯参数模型即主题数量固定的,例如TTM(Temporal Text Mining)[1],DTM(Dynamic Topic Model)[2]和MTTM(MultiscaleTopic Tomography Model)[3]。第二类是采用非参数的贝叶斯模型即主题的数量是不固定的,例如TDPM(Temporal Dirichlet Process Mixture Model)[4]和iDTM(infiniteDynamic Topic Model)[5]等。离散时间主题演化模型需要对文档集进行时间划分,这种人为的划分实际上是很难做到科学准确的,因为不同类型的文档其划分方法可能就是不同的,这往往会对最终的主题演化的结果也带来影响。针对这一问题,有些学者提出了一种新的主题演化研究方法,即在主题演化研究中,将时间因子在主题建模的时候就考虑进去,即把时间当作一个变量,在主题建模的时候就考虑时间因子的作用,其得到的主题是关于词和时间的分布。该类主题演化模型主要有Topics Over Time(TOT)[6],continuous timeDynamic Topic Model(cDTM)[7],Trend Analysis Model(TAM)[8]和non-parametricTopics Over Time(npTOT)[9]等。
这两类的主题演化模型所得的主题演化分析大都是针对同一主题的在不同时间段的演化情况,而针对不同主题之间的在不同时间段上演化情况的分析现有的技术却涉及较少。本发明要解决的问题即是针对某一领域内的不同科研主题之间随时间演化的情况;另外一个与现有技术不同之处在于,本发明的主题演化分析是先提取主题,再对主题在时间上进行分割,这样处理避免了先离散化再主题提取所带来的主题对齐的难题。
以科研文献为研究对象,跟踪科研主题的演化在科研文献数据挖掘领域具有非常重要的意义,对帮助科研工作者开展科研工作和促进科研的发展也具有重要的作用。
参考文献
[1].Mei,Q.Z.,Zhai,C.X.,2005.Discovering evolutionary theme patternsfrom text:an exploration of temporal text mining.In Proceedings of theeleventh ACM SIGKDD international conference on Knowledge discovery in datamining,p.198-207.
[2]Blei,D.M.,Lafferty,J.D.,2006.Dynamic topic models.In Proceedingsof the 23rd International Conference on Machine Learning,p.113-120.
[3]Nallapati,R.M.,Ditmore,S.,Lafferty,J.D.,Ung,K.,2007.Multiscaletopic tomography.Proceedings of the 13th ACM SIGKDD international conferenceon Knowledge discovery and data mining,p.520-529.
[4]Ahmed,A.,Xing,E.P.,2008.Dynamic non-parametric mixture models andthe recurrent chinese restaurant process with application to evolutionaryclustering.In Proceedings of the 2008SIAM International Conference on DataMining,p.219-230.
[5]Ahmed,A.,Xing,E.P.,2010.Timeline:A dynamic hierarchical Dirichletprocess model for recovering birth/death and evolution of topics in textstream.In Proceedings of the 26th International Conference on Conference onUncertainty in Artificial Intelligence,p.20-29.
[6]Wang,X.R.,McCallum,A.,2006.Topics over time:a non-markovcontinuous-time model of topical trends.In Proceedings of the 12th ACM SIGKDDinternational conference on Knowledge discovery and data mining,p.424-433.
[7]Wang,C.,Blei,D.,Heckerman,D.,2008.Continuous time dynamic topicmodels.Proceedings of the 24th Conference on Uncertainty in ArtificialIntelligence,UAI 2008,p.579-586.
[8]Kawamae,N.,2011.Trend analysis model:trend consists of temporalwords,topics,and timestamps.In Proceedings of the fourth ACM internationalconference on Web search and data mining,p.317-326.
[9]Dubey,A.,Hefny,A.,Williamson,S.,Xing,E.P.,2013.A NonparametricMixture Model for Topic Modeling over Time.Proceedings of the 2013SIAMInternational Conference on Data Mining,p.530-538.
发明的内容
本发明的主要目的是克服现有的科研主题演化分析技术的不足,提供了一种科研主题演化的分析方法和装置。该方法可以跟踪不同科研主题之间的演化情况,不需要提前进行文本离散化处理,从而避免了科研主题演化分析中的主题对齐问题。
本发明提出的方法,包括科研文献的获取和文献整理、文献信息的预处理、基于LDA的科研主题提取、主题的时间分割和主题的演化分析几个步骤。科研文献的获取和文献整理负责获取一定量的科研文献数据并整理形成文献语料库;文献信息的预处理包括从文献语料库中获取文献的文档词频矩阵、文档词汇表信息和文档引用关系矩阵;基于LDA的科研主题提取主要负责提取科研主题,得到每个主题的分布包括主题词的分布和主题文档的分布;主题的时间分割负责将提取的主题在时间轴上进行划分,形成不同时间段上的子主题;主题的演化分析主要包括相邻时间段上子主题的相关性关系的度量和主题演化图的构建。采用上述技术方案的能实际运行的科研文献主题演化的分析装置。
为解决上述技术问题,本发明提供了一种科研文献主题演化的分析方法,所述方法包括以下步骤:
A1.指定学科的科研文献下载,文献元数据的整理;
A2.文献元数据的预处理形成文献数据集;
A3.利用LDA概率主题模型提取主题,发现主题词的分布和主题文献的分布;
A4.将提取的主题在时间轴上进行划分,形成不同时间段上的子主题;
A5.利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况。
上述步骤A1中每篇文献整理得到的元数据包括:文献的ID(文献ID是按照文献的发表时间顺序直接指定的)、文献的发表时间、文献的内容(仅包括标题、关键词和摘要)和文献的引用关系矩阵。
上述步骤A2中的文献元数据预处理包括:去除停止词、数字、非英文字符,单词的词干化,去除在所有文献中出现次数少于5次的低频词,构建文献的文档词频矩阵,构建所有文档的词汇表,构建所有文档的引用关系矩阵。
上述步骤A3中的科研主题提取过程,主要包括利用文档的词频矩阵和文档的词汇表,利用LDA模型对科研文档集进行主题提取,得到模型的参数即主题词的分布和文档主题的分布p(z|d):θd,k。对上述模型参数通过如下公式计算得到每个主题文档的分布p(d|z)为:
其中,p(d)和p(z)分别表示在整个语料库上文档和主题的先验分布,而p(z)对于所有的文档来讲其先验分布是一致的,对同一个主题来讲文档的先验分布p(d)和该文档所包含的词的数量nd是成正比的。此处记每个主题所包含的文档的分布p(d|z)为θ′k,d,则所得K个主题可以表示为
上述步骤A4中的主题在时间轴上的划分,主要是利用属于某一个主题的所有文档的时间信息,将主题投影到不同的时间段上形成该时间段上的子主题具体的时间划分方案如下:根据划分的时间段数S、数据集所包含的文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(ts-t0)/S。
上述步骤A5中的主题演化分析具体包括:
A51.构造由相邻的两个时间段上任意两个主题zi和zj和属于这两个主题的共有词wk和主题文献的共有引用文献所组成的三重有向图G=(V,E),图G中的矩形顶点表示主题、圆形顶点表示主题包含的词、菱形顶点表示主题包含的文献的引用文献,主题顶点、词顶点和引用文献顶点三者之间的关系用双向边表示,其中边的权重分别用词在主题中的权重,引用文献的文献在主题中的权重来表示;
A52.图G中的边的权重对主题顶点进行归一化,即所有连接到同一个主题的所有词和引用文献的权重都归一化为1;
A53.建立基于图G的随机游走模型,用如下的公式计算从某一主题zi开始的随机游走的概率:
其中μ为加权系数,s、r表示顶点,和分别表示从顶点zi出发随机游走到顶点r和顶点s的概率,p(r|s)表示从顶点s到达顶点r的转移概率,δr(zi)的定义如下:
A54.将图G中的某一个词w和引用文献d的顶点变为入边顶点形成图G′,对图G′所示的有向图重新进行如A53步骤中所描述的随机游走建模,得到从某一主题zi开始的随机游走的概率和利用下式计算两个主题zi和zj之间在词w和引用文献d作用下的相关性relation(zi,zj|w,d):
其中λ为加权系数,考虑主题zi和zj之间的所有的共有词和共有的引用文献得到该两个主题之间的相关性计算公式如下:
A55.对相邻时间段上的任意的两个主题按照A51-A54所示步骤求解相关性度量,为度量值大于一定门限值的两个主题建立有向边,边的方向按照主题之间的时间关系来确定,以此来构建主题之间的演化关系图。
本发明还提供了一种科研文献主题演化的分析装置,其中包括:
数据下载和整理单元:用于对指定学科的科研文献进行下载,将原始文献记录整理成文献元数据;
元数据预处理单元:用于对文献元数据进行主题提取之前的预处理,包括去除停止词、数字、非字母字符,单词词干化,去除低频词,构建文献的文档词频矩阵,构建所有文档的词汇表,构建数据集中文献之间的引用关系矩阵;
科研主题提取单元:用于利用LDA概率主题模型提取主题,发现主题词的分布和主题文献的分布;
科研主题划分单元:用于对提取的主题在时间轴上进行划分,形成不同时间段上的子主题;
科研主题演化分析单元:用于利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况。
上述科研主题提取单元,主要包括利用文档的词频矩阵和文档的词汇表,利用LDA模型对科研文档集进行主题提取,得到模型的参数即主题词的分布和文档主题的分布p(z|d):θd,k。对上述模型参数通过如下公式计算得到每个主题文档的分布p(d|z)为:
其中,p(d)和p(z)分别表示在整个语料库上文档和主题的先验分布,而p(z)对于所有的文档来讲其先验分布是一致的,对同一个主题来讲文档的先验分布p(d)和该文档所包含的词的数量nd是成正比的。此处记每个主题所包含的文档的分布p(d|z)为θ′k,d,则所得K个主题可以表示为
上述科研主题划分单元,主要是利用属于某一个主题的所有文档的时间信息,将主题投影到不同的时间段上形成该时间段上的子主题具体的时间划分方案如下:根据划分的时间段数S、数据集所包含的文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(ts-t0)/S。
上述科研主题演化分析单元具体包括:
1).构造由相邻的两个时间段上任意两个主题zi和zj和属于这两个主题的共有词wk和主题文献的共有引用文献所组成的三重有向图G=(V,E),图G中的矩形顶点表示主题、圆形顶点表示主题包含的词、菱形顶点表示主题包含的文献的引用文献,主题顶点、词顶点和引用文献顶点三者之间的关系用双向边表示,其中边的权重分别用词在主题中的权重,引用文献的文献在主题中的权重来表示;
2).图G中的边的权重对主题顶点进行归一化,即所有连接到同一个主题的所有词和引用文献的权重都归一化为1;
3).建立基于图G的随机游走模型,用如下的公式计算从某一主题zi开始的随机游走的概率:
其中μ为加权系数,s、r表示顶点,和分别表示从顶点zi出发随机游走到顶点r和顶点s的概率,p(r|s)表示从顶点s到达顶点r的转移概率,δr(zi)的定义如下:
4).将图G中的某一个词w和引用文献d的顶点变为入边顶点形成图G′,对图G′所示的有向图重新进行如A53步骤中所描述的随机游走建模,得到从某一主题zi开始的随机游走的概率和利用下式计算两个主题zi和zj之间在词w和引用文献d作用下的相关性relation(zi,zj|w,d):
其中λ为加权系数,考虑主题zi和zj之间的所有的共有词和共有的引用文献得到该两个主题之间的相关性计算公式如下:
5).对相邻时间段上的任意的两个主题按照1)-4)所示步骤求解相关性度量,为度量值大于一定门限值的两个主题建立有向边,边的方向按照主题之间的时间关系来确定,以此来构建主题之间的演化关系图。
本发明提供的实施例的有益效果:
本发明针对科研文献具有丰富的结构化信息的特点,综合利用科研文献的文本信息和引用信息并结合文献的时间信息实现了对科研主题的演化分析。和传统的科研主题演化分析方法相比,本发明不用对语料库文献先进行划分,而是先提取主题,再结合主题包含的文献的时间信息对主题进行划分,避免了主题对齐的问题;此外,本发明综合利用词和引用信息来度量主题之间的相关性,获得的主题演化结果更符合实际。本发明的实施例所提供的科研主题的演化方法和装置,可以实现揭示挖掘预设科研领域的科研主题随时间变化的规律,有助于把握科研主题的演化脉络。
附图说明
图1为本发明科研文献主题演化的分析方法实施例的流程图;
图2为本实施例中主题在时间轴上的划分方案图;
图3为本实施例中主题词、引用文献的三重有向图G;
图4为本实施例中某一词或引用文献顶点变为入边以后的主题词、引用文献的三重有向图G′;
图5为本实施例中100个主题的演化分析图(1);
图6为本实施例中100个主题的演化分析图(2);
图7为本发明实施例的科研文献主题演化的分析装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式做进一步的详细描述。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
图1为本发明科研文献主题演化的分析方法具体实施例的流程图。如图1所示,本实施例科研文献主题演化的分析方法的工作流程包括如下步骤:
A1:根据要研究的科研领域选择相关的文献进行下载,对下载的文献记录进行整理得到指定格式的文献元数据。
在本实施例中,可以通过计算机来执行数据下载和整理单元、元数据预处理单元、科研主题提取单元、科研主题划分单元和科研主题演化分析单元的功能。在本步骤中,通过计算机下载计算机应用领域的67种国际期刊或会议集的从1967年到2006年的所有论文,共计得到42213篇研究文献。对采集得到的每篇文献记录进行整理得到文献元数据,包括每篇文献的ID号pmid(根据文献的发表时间顺序进行编号,同一期论文则按照出版时页码顺序进行编号)、文献的发表时间year(精确到年份)、文献的作者author、文献的标题title、文献的引用文献序列cit(指该文献的参考文献并且属于下载文献集的范围内的文献)。将所有下载的42213篇文献的原始记录均整理成文献元数据后,进入步骤A2。
A2:对A1中所得文献元数据进行预处理形成文献数据集。
在本步骤中,对A1中得到的文献元数据集进行预处理,包括过滤停用词、数字、非英文字母字符,单词的词干化,去除在所有文献中出现次数少于5次的低频词,预处理完成后可以整理得到由5704个词项构成的词典V、42213篇文献和5704个词构成的文献词频矩阵D=[dij]42213×5704(其中dij表示第i篇文献中第j个词的词频大小),以及42213篇文献之间的引用关系矩阵C=[cmn]42213×42213(其中cmn表示第m篇文献与第n篇文献是否有引用关系,如果cmn=1表示有引用关系,否则表示没有引用关系)。对科研文献进行预处理之后,进入步骤A3。
A3:利用LDA概率主题模型提取主题,发现主题词的分布和主题文献的分布。
在本步骤中,利用LDA概率主题模型计算得到42213篇科研文献的100个主题,得到模型的参数即主题词的分布和文档主题的分布p(z|d):θd,k。对上述模型参数通过如下公式计算得到每个主题文档的分布p(d|z)为:
其中,p(d)和p(z)分别表示在整个语料库上文档和主题的先验分布,而p(z)对于所有的文档来讲其先验分布是一致的,对同一个主题来讲文档的先验分布p(d)和该文档所包含的词的数量nd是成正比的。此处记每个主题所包含的文档的分布p(d|z)为θ′k,d,则所得100个主题可以表示为
对计算得到的每个主题取如下两部分:(a)每个主题所包含的概率最高的10个词及相应的概率值;(b)每个主题所包含的概率最高的10篇文献及相应的概率值。在利用LDA模型计算主题时参数的取值分别为α=0.5,β=0.01。计算得到42213篇科研文献的100个主题,其中具有代表性的4个主题词的分布和主题文献的分布分别如表1和表2所示:
表1:4个主题词的分布
表2:4个主题论文的分布
续表2
续表2
经过上述方法,提取出元数据集的42213篇科研文献的100个主题词的概率分布和主题文献的概率分布以后,进入步骤A4。
A4:将提取的100个主题在时间轴上进行划分,形成不同时间段上的子主题。
上述科研主题划分单元,主要是利用属于某一个主题的所有文档的时间信息,将主题投影到不同的时间段上形成该时间段上的子主题具体的时间划分方案如附图2所示:划分的时间段数为5、取数据集所包含的文档的起始时间为1985年、终止时间为2004年,每一个时间段的时间间隔的大小为4年(因为在本数据集中1985年以前和2014年以后所包含的文献的数量很少)。下面在表3中列出主题29“3D重建”在上述方案下的时间划分结果,为了节省篇幅此处每个主题仅列出概率最高的5个词和5篇文献,文献用id号来表示,在附录1中给出了id所对应的文献的标题。
表3:主题29“3D重建”的时间划分结果
A5:利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况。本步骤的具体实施过程如下所示:
1).构造由相邻的两个时间段上任意两个主题zi和zj和属于这两个主题的共有词wk和主题文献的共有引用文献所组成的三重有向图G=(V,E)如附图3所示,图3中的矩形顶点表示主题、圆形顶点表示主题包含的词、菱形顶点表示主题包含的文献的引用文献,主题顶点、词顶点和引用文献顶点三者之间的关系用双向边表示,其中边的权重分别用词在主题中的权重,引用文献的文献在主题中的权重来表示;
2).对图3中的边的权重对主题顶点进行归一化,即所有连接到同一个主题的所有词和引用文献的权重都归一化为1;
3).建立基于图3的随机游走模型,用如下的公式计算从某一主题zi开始的随机游走的概率:
其中μ为加权系数,s、r表示顶点,和分别表示从顶点zi出发随机游走到顶点r和顶点s的概率,p(r|s)表示从顶点s到达顶点r的转移概率,δr(zi)的定义如下:
4).将图3中的某一个词w和引用文献d的顶点变为入边顶点形成的图如附图4所示,对图4所示的有向图重新进行如A53步骤中所描述的随机游走建模,得到从某一主题zi开始的随机游走的概率和利用下式计算两个主题zi和zj之间在词w和引用文献d作用下的相关性relation(zi,zj|w,d):
其中λ为加权系数,考虑主题zi和zj之间的所有的共有词和共有的引用文献得到该两个主题之间的相关性计算公式如下:
5).对相邻时间段上的任意的两个主题按照1)-4)所示步骤求解相关性度量,为度量值大于门限值0.2的两个主题建立有向边,边的方向按照主题之间的时间关系来确定,以此来构建主题之间的演化关系图,本实施例所得的100个主题之间的演化关系图如附图5和图6所示,在附图5和附图6中每个主题用其序号表示,具体的主题的词的分布分别见附录2和附录3中表格所示(因为篇幅的原因把100个主题演化关系分为两个图来显示)。需要说明的是,本发明是要跟踪不同主题之间的演化关系,而不考虑同一个主题在不同时间段上的演化情况,所以在本具体实施例中,我们去除同一个主题之间的演化关系的边(虽然这些边的强度值往往比较大)。
通过本步骤的具体实施,可以得到本实施例数据集上的42213篇文献上发现的100个主题在1985年至2004年间随时间演化的规律。该实验的结果有助于科研人员全面了解计算机应用领域重要研究主题随时间的演化情况。附图5给出了该100个主题的演化情况的第一部分的结果,总共包括8个不同的部分分别代表了计算机应用领域的8个不同的研究方向:“信息检索”、“人工智能中的推理问题”、“贝叶斯网络学习”、“神经网络”、“决策树”、“约束补偿问题”、“人工智能中的规划”、“增强学习”。该8个部分代表了计算机应用研究中的3个不同的研究领域:信息检索、人工智能和机器学习。这8个部分大多都与人工智能有关,与其它研究方向相比,“人工智能中的推理问题”、“神经网络”和“增强学习”这三部分具有更复杂的演化路径。附图6给出了该100个主题的演化情况的第二部分的结果,总共包括9个不同的部分分别代表了计算机应用领域的9个不同的研究方向:“分类算法”、“运动规划”、“自然语言处理”、“对象识别”、“图像分割”、“跟踪”、“运动(视觉)”、“图像重建”和“图像匹配”。该8个部分代表了计算机应用研究中的6个不同的研究领域:机器学习、机器人和自动化、自然语言处理、模式识别、图像处理和计算机视觉。这9个主题中最后两个包含的分量较多,“分类算法”、“运动规划”和“运动(视觉)”这3个主题的演化路径比其它的要复杂的多。在1985-1988这个时间段上主题“跟踪”和“图像重建”没有相应的子主题。
在本实施例中,下载计算机应用领域的67种期刊或者会议集的从1967年到2006年的共计42213篇论文,对原始数据进行整理得到文献元数据,并对元数据文献进行预处理得到元数据集;利用LDA概率主题模型提取100个科研主题,获取主题词的概率分布和主题文献的概率分布的结果;以获得的科研主题结合文献的时间信息,将100个主题在1985年到2004年间共分成5时间段,每段时间间隔为4年,共形成500个子主题。根据每个主题的词的分布和主题文献的分布,并利用提出的主题之间的相关性度量方法到科研主题演化的关系图。通过上述步骤获取的科研主题演化的结果揭示挖掘了预设科研领域科研主题随时间演化的规律,具有非常重要的现实意义。
图7示出了本发明实施例的一种科研文献主题演化的分析装置,其包括:数据下载和整理单元,用于对指定学科的科研文献进行下载,将原始文献记录整理成文献元数据;元数据预处理单元,用于对文献元数据进行去除停止词、过滤低频词等预处理操作;科研主题提取单元:用于利用LDA概率主题模型提取科研主题,获取主题词的概率分布和主题文献的概率分布;科研主题划分单元:用于对提取的主题在时间轴上进行划分,形成不同时间段上的子主题;科研主题演化分析单元:用于利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
附录1:主题29“3D重建”中的主题文献id和其对应的标题
附录2:图5中的不同时间段上的每个主题的前10个关键词
附录3:图6中的不同时间段上的每个主题的前10个关键词
Claims (10)
1.一种科研文献主题演化的分析方法,其特征在于,包括以下步骤:
A1,指定学科的科研文献下载,文献元数据的整理;
A2,文献元数据的预处理形成文献数据集;
A3,利用LDA概率主题模型提取主题,发现主题词的分布和主题文献的分布;
A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题;
A5,利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况;
上述步骤A3中的科研主题提取过程,主要包括利用文档的词频矩阵和文档的词汇表,利用LDA模型对科研文档集进行主题提取,得到模型的参数:主题词的分布p(w|z)即表示单词w属于主题k的概率,和文档主题的分布p(z|d)即θd,k表示主题k属于文档d的概率,对上述模型参数通过公式计算得到每个主题文档的分布p(d|z);
上述步骤A5中的主题演化分析具体包括:
A51.构造由相邻的两个时间段上任意两个主题zi和zj和属于这两个主题的共有词W和主题文献的共有引用文献D所组成的三重有向图G=(V,E),图G中的矩形顶点表示主题、圆形顶点表示主题包含的词、菱形顶点表示主题包含的文献的引用文献,主题顶点、词顶点和引用文献顶点三者之间的关系用双向边表示,其中边的权重分别用词在主题中的权重,引用文献的文献在主题中的权重来表示;
A52.图G中的边的权重对主题顶点进行归一化,即所有连接到同一个主题的所有词和引用文献的权重都归一化为1;
A53.建立基于图G的随机游走模型,用公式计算从图G中某一主题zi开始的随机游走到任意一主题顶点r的概率
A54.将图G中的共有词W和共有引用文献D的顶点变为入边顶点形成图G′,对图G′所示的有向图重新进行如A53步骤中所描述的随机游走建模,得到从图G′中某一主题zi开始的随机游走到任意一主题顶点r的概率和其中和分别表示在词w和引用文献d所在的顶点变为入边顶点时,从图G′中某一主题zi开始的随机游走到任意一主题顶点r的概率,利用公式计算两个主题zi和zj之间在词w和引用文献d作用下的相关性其中表示从主题zi随机游走到主题zj的概率,λ为加权系数,考虑主题zi和zj之间的所有的共有词W和共有的引用文献D计算得到该两个主题之间的相关性为
A55.对相邻时间段上的任意的两个主题按照A51-A54所示步骤求解相关性度量,为度量值大于一定门限值的两个主题建立有向边,边的方向按照主题之间的时间关系来确定,构建主题之间的演化关系图。
2.根据权利要求1所述的科研文献主题演化的分析方法,其特征在于,步骤A1中每篇文献整理得到的元数据包括:按照文献的发表时间顺序直接指定的文献ID,文献的发表时间,文献的作者,仅包括标题、关键词和摘要的文献内容,文献的引用信息。
3.根据权利要求1所述的科研文献主题演化的分析方法,其特征在于,步骤A2中的文献元数据的预处理过程,具体包括:去除停止词、数字、非英文字符,单词的词干化,去除在所有文献中出现次数少于5次的低频词,构建文献的文档词频矩阵,构建所有文档的词汇表,构建数据集中文献之间的引用关系矩阵。
4.根据权利要求1所述的科研文献主题演化的分析方法,其特征在于,步骤A3中的每个主题文档的分布p(d|z)的计算公式如下所示:
其中,p(d,z)表示同时包含文档d和主题z的联合概率,p(d)和p(z)分别表示在整个语料库上文档和主题的先验分布,而p(z)对于所有的文档来讲其先验分布是一致的,对同一个主题来讲文档的先验分布p(d)和该文档所包含的词的数量nd是成正比的,此处记每个主题所包含的文档的分布p(d|z)为则所得K个主题可以表示为zk,其参数为和其中k=1,…,K。
5.根据权利要求1所述的科研文献主题演化的分析方法,其特征在于,步骤A4中的时间划分方案如下:根据划分的时间段数S、数据集所包含的文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(ts-t0)/S,得到每个时间段上的子主题其参数为和其中k=1,2,…,K,ti=1,2,…,S,为每个时间段上的子主题所包含文档的概率分布。
6.根据权利要求1所述的科研文献主题演化的分析方法,其特征在于,步骤A53中的从某一主题zi开始的随机游走的概率用如下公式计算:
其中μ为加权系数,s、r表示顶点,和分别表示从顶点zi出发随机游走到顶点r和顶点S的概率,p(r|s)表示从顶点S到达顶点r的转移概率,δr(zi)的定义为:
7.科研文献主题演化的分析装置,其特征在于,所述装置包括:
数据下载和整理单元:用于对指定学科的科研文献进行下载,将原始文献记录整理成文献元数据;
元数据预处理单元:用于对文献元数据进行主题提取之前的预处理,包括去除停止词、数字、非字母字符,单词词干化,去除低频词,构建文献的文档词频矩阵,构建所有文档的词汇表,构建数据集中文献之间的引用关系矩阵;
科研主题提取单元:用于利用LDA概率主题模型提取主题,发现主题词的分布和主题文献的分布;
科研主题划分单元:用于对提取的主题在时间轴上进行划分,形成不同时间段上的子主题;
科研主题演化分析单元:用于利用主题的相关性关系的度量来构建主题演化图,跟踪科研主题的演化情况;
上述科研主题演化分析单元具体包括:
S1.构造由相邻的两个时间段上任意两个主题zi和zj和属于这两个主题的共有词W和主题文献的共有引用文献D所组成的三重有向图G=(V,E),图G中的矩形顶点表示主题、圆形顶点表示主题包含的词、菱形顶点表示主题包含的文献的引用文献,主题顶点、词顶点和引用文献顶点三者之间的关系用双向边表示,其中边的权重分别用词在主题中的权重,引用文献的文献在主题中的权重来表示;
S2.图G中的边的权重对主题顶点进行归一化,即所有连接到同一个主题的所有词和引用文献的权重都归一化为1;
S3.建立基于图G的随机游走模型,用公式计算从图G中某一主题zi开始的随机游走到任意一主题顶点r的概率
S4.将图G中的共有词W和共有引用文献D的顶点变为入边顶点形成图G′,对图G′所示的有向图重新进行如A53步骤中所描述的随机游走建模,得到从图G′中某一主题zi开始的随机游走到任意一主题顶点r的概率和其中和分别表示在词w和引用文献d所在的顶点变为入边顶点时,从图G′中某一主题zi开始的随机游走到任意一主题顶点r的概率,利用公式计算两个主题zi和zj之间在词w和引用文献d作用下的相关性其中表示从主题zi随机游走到主题zj的概率,λ为加权系数,考虑主题zi和zj之间的所有的共有词W和共有的引用文献D计算得到该两个主题之间的相关性为
S5.对相邻时间段上的任意的两个主题按照S1-S4所示步骤求解相关性度量,为度量值大于一定门限值的两个主题建立有向边,边的方向按照主题之间的时间关系来确定,构建主题之间的演化关系图。
8.根据权利要求7所述科研文献主题演化的分析装置,其特征在于,用于提取科研文献中所包含的主题具体包括:
利用文档的词频矩阵和文档的词汇表,利用LDA模型对科研文档集进行主题提取,得到模型的参数:主题词的分布p(w|z)即表示单词w属于主题k的概率,和文档主题的分布p(z|d)即θd,k表示主题k属于文档d的概率;对上述模型参数通过如下公式计算得到每个主题文档的分布p(d|z)为:
其中,p(d,z)表示同时包含文档d和主题z的联合概率,p(d)和p(z)分别表示在整个语料库上文档和主题的先验分布,而p(z)对于所有的文档来讲其先验分布是一致的,对同一个主题来讲文档的先验分布p(d)和该文档所包含的词的数量nd是成正比的,此处记每个主题所包含的文档的分布p(d|z)为则所得K个主题可以表示为zk,其参数为和其中k=1,…,K。
9.根据权利要求7所述的科研文献主题演化的分析装置,其特征在于,具体包括:利用属于某一个主题的所有文档的时间信息,将主题投影到不同的时间段上形成该时间段上的子主题其参数为和其中k=1,2,…,K,ti=1,2,…,S,为每个时间段上的子主题所包含的文档的概率分布;具体的时间划分方案如下:根据划分的时间段数S、数据集所包含的文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(ts-t0)/S。
10.根据权利要求7所述的科研文献主题演化的分析装置,其特征在于,步骤S3中的从某一主题zi开始的随机游走的概率用如下公式计算:
其中μ为加权系数,s、r表示顶点,和分别表示从顶点zi出发随机游走到顶点r和顶点S的概率,p(r|s)表示从顶点S到达顶点r的转移概率,δr(zi)的定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610304696.6A CN106021222B (zh) | 2016-05-09 | 2016-05-09 | 一种科研文献主题演化的分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610304696.6A CN106021222B (zh) | 2016-05-09 | 2016-05-09 | 一种科研文献主题演化的分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021222A CN106021222A (zh) | 2016-10-12 |
CN106021222B true CN106021222B (zh) | 2019-04-30 |
Family
ID=57099232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610304696.6A Expired - Fee Related CN106021222B (zh) | 2016-05-09 | 2016-05-09 | 一种科研文献主题演化的分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021222B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570088A (zh) * | 2016-10-20 | 2017-04-19 | 浙江大学 | 一种科研文献话题发现和演化跟踪的方法 |
CN107633345B (zh) * | 2017-08-18 | 2021-03-30 | 南京昆虫软件有限公司 | 一种电子资源利用绩效分析管理方法 |
CN108255807B (zh) * | 2017-12-26 | 2021-10-08 | 中国专利信息中心 | 一种识别研发方向的方法 |
CN111198897B (zh) * | 2018-11-19 | 2023-06-13 | 中国农业大学 | 科研热点主题分析方法、装置与电子设备 |
CN109710936A (zh) * | 2018-12-27 | 2019-05-03 | 中电科大数据研究院有限公司 | 一种跨层级政府公文公告主题分析方法 |
CN112650847B (zh) * | 2019-10-11 | 2023-05-09 | 中国农业科学院农业信息研究所 | 一种科技研究热点主题预测方法 |
CN111046167B (zh) * | 2019-11-07 | 2021-04-16 | 武汉大学 | 科技情报分析中结合时滞计算的学科主题演化推理方法 |
CN111339286B (zh) * | 2020-02-14 | 2024-02-09 | 四川超易宏科技有限公司 | 一种基于主题可视化的探索机构研究状况的方法 |
CN116415593B (zh) * | 2023-02-28 | 2023-10-31 | 北京市农林科学院 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103605671A (zh) * | 2013-10-29 | 2014-02-26 | 中国科学技术信息研究所 | 科研信息演化的分析方法和装置 |
CN103984681A (zh) * | 2014-03-31 | 2014-08-13 | 同济大学 | 基于时序分布信息和主题模型的新闻事件演化分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9576017B2 (en) * | 2014-02-03 | 2017-02-21 | Software Ag | Systems and methods for managing graphical model consistency |
-
2016
- 2016-05-09 CN CN201610304696.6A patent/CN106021222B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103605671A (zh) * | 2013-10-29 | 2014-02-26 | 中国科学技术信息研究所 | 科研信息演化的分析方法和装置 |
CN103984681A (zh) * | 2014-03-31 | 2014-08-13 | 同济大学 | 基于时序分布信息和主题模型的新闻事件演化分析方法 |
Non-Patent Citations (1)
Title |
---|
基于层次概率主题模型的科技文献主题发现及演化;王平;《图书情报工作》;20141130;第58卷(第22期);第3.2节 |
Also Published As
Publication number | Publication date |
---|---|
CN106021222A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021222B (zh) | 一种科研文献主题演化的分析方法和装置 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
Day et al. | Reference metadata extraction using a hierarchical knowledge representation framework | |
Yang et al. | Integration of three visualization methods based on co-word analysis | |
Hsu | Content-based text mining technique for retrieval of CAD documents | |
CN105893485B (zh) | 一种基于图书目录的专题自动生成方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN110968782A (zh) | 一种面向学者的用户画像构建及应用方法 | |
CN109918649A (zh) | 一种基于微博文本的自杀风险识别方法 | |
CN109086255A (zh) | 一种基于深度学习的参考文献自动标注方法及系统 | |
Sadr et al. | Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms | |
Bhardwaj et al. | A novel approach for content extraction from web pages | |
Kim et al. | Towards a semantic data infrastructure for heterogeneous Cultural Heritage data-challenges of Korean Cultural Heritage Data Model (KCHDM) | |
Vossen et al. | KYOTO: an open platform for mining facts | |
Abed et al. | An ontology-based search engine for postgraduate students information at the ministry of higher education portal of Iraq | |
Luo et al. | Unsupervised sumerian personal name recognition | |
Babur et al. | Towards Distributed Model Analytics with Apache Spark. | |
EP3553696B1 (en) | Generating a structured document based on a machine readable document and artificial intelligence-generated annotations | |
Hsieh et al. | A frame-based approach for reference metadata extraction | |
Na et al. | A method of collecting four character medicine effect phrases in TCM patents based on semi-supervised learning | |
Eddamiri et al. | Graph embeddings for linked data clustering | |
Lupu et al. | Patent images-a glass-encased tool: opening the case | |
Bruggmann et al. | Spatializing a digital text archive about history | |
Suresh et al. | Automating ontologies for e–learning | |
Hassaine et al. | Hyper rectangular trend analysis application to islamic rulings (fatwas) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190430 Termination date: 20210509 |