CN105512347A - 一种基于地理主题模型的信息处理方法 - Google Patents
一种基于地理主题模型的信息处理方法 Download PDFInfo
- Publication number
- CN105512347A CN105512347A CN201610056525.6A CN201610056525A CN105512347A CN 105512347 A CN105512347 A CN 105512347A CN 201610056525 A CN201610056525 A CN 201610056525A CN 105512347 A CN105512347 A CN 105512347A
- Authority
- CN
- China
- Prior art keywords
- theme
- word
- document
- distribution
- geographical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于地理主题模型的信息处理方法,包括如下步骤:S1,抽取文本数据以及其所属的地理位置信息,组成待处理的文本数据存储到数据库;S2,对数据库中待处理的文本数据进行预处理,生成处理数据;S3,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系。该方法将文档中的语义信息和地理位置信息关联起来做主题的挖掘分析,进而将文档中的主题与地理位置关联起来,能准确找到主题研究的地理位置,进而获得各个地区的主要课题研究方向,从而能够为用户提供更好的决策支持。
Description
技术领域
本发明涉及一种信息处理方法,尤其涉及一种基于地理主题模型(TopicsoverLocations,简写为TOL)的信息处理方法,属于信息处理技术领域。
背景技术
当前,各种各样的信息特别是文本信息呈指数级增长,管理人员越来越难以对这些数据进行有效管理和存取,如何从海量文本信息中分析和挖掘有用的知识成为主要任务。
文本挖掘的主要方式是基于统计语言模型(基于统计方法的概率分布)和空间向量模型(基于线性代数的几何变化)。虽然方法不同,但都认为文档是基于词典空间的词的分布,词和文档是多对一映射关系。后来为了使文本具有更好的表现形式,提出了基于主题模型的文本信息处理方法。
主题模型是一种对文本信息(与语言无关)中所隐含主题进行建模的方法。主题是一个概念,通常来说表现是一组相关的词语。它不同于传统文档相似度计算的方法,而是一种面向文本挖掘分析的概率模型,通过对训练文本集进行分析,挖掘出文档或者语料库中的潜在语义结构即主题。
当前最具代表性的一种主题模型为LDA主题模型。LDA主题模型由DavidM.Blei和MichaelI.Jordan等人在2003年提出,为了解决文档处理领域的问题,比如文章主题分类、相似度分析、文章检测、文本分段和文档检索等问题。LDA模型采用词袋(BagOfWords)方法,即不考虑词语的先后顺序和关联关系,把每一篇文档看成一个词频向量,仅考虑文本的词频,从而将文本信息转化为了易于建模的数字信息。
但是,LDA主题模型生成的主题挖掘信息并不能输出地理位置关系。而在很多信息挖掘过程中,特别是对科研课题项目进行信息挖掘时,地理位置信息至关重要,因为课题的科研内容是受到地理信息的影响的;离开地理信息,科研课题项目的挖掘对决策的提出意义不大。所以将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析至关重要。
发明内容
针对现有技术的不足,本发明所要解决的技术问题在于提供一种基于地理主题模型的信息处理方法。
为实现上述发明目的,本发明采用下述的技术方案:
一种基于地理主题模型的信息处理方法,包括如下步骤:
S1,抽取文本数据以及其所属的地理位置信息,组成待处理的文本数据存储到数据库;
S2,对数据库中待处理的文本数据进行预处理,生成处理数据;
S3,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系。
其中较优地,在步骤S2中,对数据库中待处理的文本数据进行预处理,生成处理数据,包括如下步骤:
S21,从数据库中获取待处理的文本数据;
S22,采用NLPIR汉语分词系统对待处理的文本数据进行分词,去掉所有非中文字符;
S23,统计每个词语出现的词频,把词频小于词频阈值的词语作为低频词语进行过滤,同时将过滤掉的词语加入低频词表;
S24,获取停用词表,通过停用词表将分词获取的词语进行二次过滤,得到处理数据;
S25,重复步骤S21~S24,直至数据库中没有待处理的文本数据。
其中较优地,在步骤S3中,所述根据处理数据构建地理主题模型,包括如下步骤:
S301,设定处理数据中每个文档的主题数为K,αi(i=1,2,3……K)为文档中主题分布的先验分布的参数,βi(i=1,2,3……V)为主题中词分布的先验分布的参数,V为文档中无重复的词语的数量;
S302,对于每一个主题,从超参数为β的先验分布中抽样,并作为1个多项分布φz,重复K次;对于每一个主题,从超参数为λ的先验分布中抽样,并作为1个多项分布重复K次;对于每一个文档,从超参数为α的先验分布中抽样,并作为1个多项分布θd;其中,φz为主题z中的词分布;为地理信息和主题z的多项式分布;θd为文档d中的主题分布;
S303,分别从多项分布φz、和θd中取样,直到多项分布φz、和θd中的每个词都被提取出来,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系,重建θd、φz和
S304,重复步骤S301~S303,直到处理数据中的文档全部处理结束,构建地理主题模型完成。
其中较优地,在步骤S303中,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系,重建θd、φz和包括如下步骤:
S3031,从多项分布θd中抽取一个主题,获得zdi,即获得第d个文档中第i个词来自的主题;
S3032,从多项分布φz中抽取一个词,获得wdi,即获得主题对应的第d个文档中第i个词;
S3033,从多项分布中抽取一个地理位置,获得ldi,即获得第d个文档中第i个词的地理位置;
S3034,重复步骤S3031~S3033Nd次,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系;其中,Nd为文档中词的个数。
其中较优地,在步骤S3中,所述通过对地理主题模型求解,得到主题和地理位置的关联关系,包括如下步骤:
S311,获取地理主题模型中重建的θd、φz和
S312,根据条件概率公式以及θd、φz和中的数据信息计算文档->主题->词+地理位置的路径概率
S313,根据得到的文档->主题->词+地理位置的路径概率的大小,选出文档中K个主题对应的K条路径;
S314,在这K条路径中进行采样,得到主题和地理位置的关联关系。
其中较优地,所述条件概率公式为:
其中,zdi表示第d个文档中第i个词来自的主题,z-di表示去除下标为di的其他主题集合,α为文档中主题分布的先验分布的超参数,β为主题中词分布的先验分布的超参数,λ为地理位置与主题服从多项式分布的先验分布超参数,K为文档中的主题数目,V为文档中的无重复的词数目,z为文档中无重复的主题索引,l为文档中无重复的地理位置索引,ndz表示主题z分配到文档d下的数目,nzv表示词语v被分配到主题z下的数目,nzl表示地理信息l被分配到主题z下的数目。
其中较优地,所述的基于地理主题模型的信息处理方法,还包括如下步骤:
S4,将主题和地理位置的关联关系通过地图着色的方式进行展示。
本发明所提供的基于地理主题模型的信息处理方法,根据预处理的文本数据,以及其地理位置信息构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系。该方法将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析,得到课题信息中的主要研究方向,以及各个主题在全国各个省市的研究占比,从而能够为用户提供更好的决策支持。
附图说明
图1为本发明所提供的基于地理主题模型的信息处理方法的流程图;
图2为本发明所提供的基于地理主题模型的信息处理方法中,对待处理的文本数据进行预处理的流程图;
图3为本发明的一个实施例中,对部分文本数据进行预处理的结果示意图;
图4为本发明的一个实施例中,对部分文本数据和地理位置信息进行预处理的结果示意图;
图5为本发明所提供的基于地理主题模型的信息处理方法中,地理主题模型的模型示意图;
图6为本发明的一个实施例中,主题-地理位置分布的直方图;
图7为本发明所提供的基于地理主题模型的信息处理方法中,采样路径的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
如图1所示,本发明所提供的基于地理主题模型的信息处理方法,包括如下步骤:首先,抽取文本数据以及其地理位置信息组成待处理的文本数据存储到数据库;然后,对数据库中待处理的文本数据进行预处理,形成地理主题模型需要的处理数据;最后,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系。将主题和地理位置的关联关系通过地图着色的方式进行展示。下面对这一过程做详细具体的说明。
S1,抽取文本数据以及其所属的地理位置信息,组成待处理的文本数据存储到数据库。
在本发明的一个实施例中,数据来源于各自课题数据,抽取课题名称文本数据以及其地理位置信息,组成待处理的文本数据存储到数据库。其主要字段如下表1所示。
表1课题数据展示表
这样,在数据库中存储的数据既包含课题名称,又包含课题研究的地理位置信息,可以将文本数据中的语义信息(课题名称)和地理位置信息关联起来做主题的挖掘分析。
S2,对数据库中待处理的文本数据进行预处理,形成地理主题模型需要的处理数据。
如图2所示,对数据库中待处理的文本数据进行预处理,形成地理主题模型需要的处理数据,具体包括如下步骤:
S21,从数据库中获取待处理的文本数据;
S22,采用NLPIR汉语分词系统对待处理的文本数据进行分词,去掉所有非中文字符,包括标点和字母等。其中,NLPIR汉语分词系统(又名ICTCLAS2013)是一款现有的分词系统,主要功能包括中文分词、词性标注、命名实体识别、用户词典、微博分词、新词发现与关键词提取等功能,支持GBK编码、UTF8编码、BIG5编码。详细参见网址:http://ictclas.nlpir.org/docs。
S23,统计每个词语出现的词频,把词频小于词频阈值的词语作为低频词语进行过滤,同时将过滤掉的词语加入低频词表。在本发明所提供的实施例中,词频阈值取4。
S24,获取停用词表,通过停用词表将分词获取的词语进行二次过滤,得到处理数据。其中,停用词表由迄今为止统计的停用词组成,保存在数据库中。
S25,重复步骤S21~S24,直至数据库中没有待处理的文本数据。
预处理后形成可训练的文本格式。对预处理后的文本进行进一步的分析,去掉一些高频无效词汇,如“国家”、“平台”等等,通过这个反馈过程,最后形成地理主题模型需要的处理数据。在本发明所提供的一个实施例中,通过实验,对部分文本数据以及其所属的地理位置信息进行预处理,得到了如图3和图4所示的初步处理数据和处理数据。
S3,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系。
在构建地理主题模型之前,先对一些主要的符号进行说明。整个数据集(处理数据)中包含D个文档,有T个topics(主题),且词语集合的大小为V。w、z、l分别泛指整个数据集中的word(词语)、topic(主题)和location(地理位置);d代表文档的索引,表示某一篇文档,d=1toD,即d的取值范围为1~D。Nd则表示第d个文档中word的数量。i表示词语的索引,i=1toNd,和d可以组成wdi、zdi、ddi、ldi:,具体的符号含义如下表2所示。
表2地理主题模型的符号含义对照表
对于不同的i、j、wdi、wdj可以指示相同的word,也可以指示不同的word,对于zdi、ddi、ldi也同理。对于整个数据集,一共有D*Nd个word,也就对应有D*Nd个topic和D*Nd个location。但整个数据集中实际只有V个无重复的word,K个无重复的topic,因此,在本发明所提供的实施例中,用小写的z表示无重复的topic索引,z=1toT;用小写的v表示无重复的word索引,v=1toV;用小写的l表示无重复的location索引,l=1toL。
然后结合现有的LDA主题模型(LatentDirichletAllocation),根据经过预处理得到的处理数据构建地理主题模型。LDA主题模型采用非监督的方式,从大量文档集合中自动识别出人能够解释的潜在主题,这些主题被表示为在文档集的词典上的多项式分布。比如,一个关于“苹果公司产品”有关的主题,其对应多项式分布的高概率词可能有iPhone、iPad、Mac、iPod等词。反过来,当我们看到某个主题的高概率词是这些词时,第一反应就是这个主题是和苹果公司的产品相关的。
对科技资源中的文本数据做主题建模时,我们将一条文本数据看作一篇文档。例如,我们把科技资源中的课题的标题数据抽取出来,视每个课题的标题为一篇文档,那么由此得到的文档集合就包含了所有课题的研究内容。这些研究内容中蕴含了大量的语义信息,这些语义信息可以反映出课题研究的主要领域。当然科技资源的文本数据不仅仅限于课题的标题,还包括成果资源中的论文的标题、摘要甚至全文等。
对于LDA主题模型,课题标题中的任意一个词语是LDA主题模型中的已知变量,而生成该词语的主题则是隐藏变量。LDA主题模型描述了在已知课题标题的主题分布以及主题的词语分布后,生成课题标题的过程。但是实际情形中,课题标题的主题分布以及主题的词语分布是未知,反而课题标题都是已知的。所以对课题标题做主题挖掘的过程,实际上是通过课题标题中的词语信息,通过后验概率推断的方式,对未知的主题结构进行学习,从而挖掘出课题中的主要研究领域。LDA主题模型描述的是主题结构已知的情况下,生成文档集合的过程。但是实际情况是文档集合已知,主题结构未知。
然而,LDA主题模型作为目前应用最为广泛的一种经典主题模型,它描述了文档集合的一种生成过程。这个过程设计的相对简单,忽略了很多因素。比如,LDA主题模型假设训练文档中的词是无序的,即使用了词袋模型(bagofwords),忽略了词序对潜在主题的影响;另外,LD主题模型A也忽略了文档的时间信息,没有考虑不同时间条件下,主题的含义可能会发生偏移(semanticshift)的情况。同时LDA主题模型基于概率图模型,它的模型可扩展性很好,比较方便向模型添加一些隐变量或者控制变量。因此,在本发明所提供的实施例中,对LDA主题模型做相应的改进,使其能够更好地针对数据仓储中存储的科技文本做主题挖掘。下面根据科技文本的一些特点,针对这些特点对LDA主题模型做出相应的改进,构建地理主题模型。
首先对科技文本的特点进行描述。数据仓储中存储的科技文本是指对科技资源的一些描述性文本。数据仓储中科技资源种类很多,目前有大型科学仪器、科研人员、科研单位、课题、成果等不同类型科技资源。这些资源之间不是独立存在的,而是存在着千丝万缕的关联关系。比如,科研人员是任职于某科研单位的,科研的课题和成果是由科研人员开展和获得的。从上面的两个例子,还可以推出科研的课题和成果也是属于某科研单位的。
课题和成果中的文本数据蕴含了丰富的语义数据,比如课题的标题,论文或者专利的标题和摘要等。这些文本数据中蕴含了科研的研究内容,包含丰富的语义信息。科研单位指明了科研研究和成果所处的地理位置。
因此,在本发明中,有必要将这些文本中的语义信息和地理位置信息关联起来做主题的挖掘分析。因为课题的科研内容是受到地理信息的影响的,比如“北上广”的高新技术产业会比较发达,而内蒙古、黑龙江的农业研究会更多一些。简而言之,科研主题的地理分布可能会集中在某些地区。本发明研究的科技文本主要指课题和成果的文本数据,之所以选择这部分文本数据,是因为课题和成果的文本数据包含的语义信息比较丰富,而且文本的长度也不算太短(LDA模型在过短文本上的性能很差)。
针对这些特点对LDA主题模型做出相应的改进,构建地理主题模型,地理主题模型是一个生成带地理位置信息的文档的集合的主题模型。它和LDA主题模型的最大不同在于,主题结构不仅仅要生成文档中的词语,还要生成文档的地理位置信息。图5为地理主题模型的模型示意图。其中,L代表地理位置,与主题服从多项式分布的先验分布(Dirichlet先验分布)的超参数为λ;w是文档(课题标题)中的词语;θ为文档(课题标题)的主题分布,θ的先验分布(Dirichlet先验分布)的参数为α;φ是主题的词分布,φ的先验分布(Dirichlet先验分布)的参数为β;z是主题的索引号,K是文档(课题标题)中的主题数目。具体包括如下步骤:
S301,设定处理数据中每个文档中的主题数为K,αi(i=1,2,3……K)为文档的主题分布的先验分布(Dirichlet先验分布)的参数,βi(i=1,2,3……V)为主题的词分布的先验分布(Dirichlet先验分布)的参数,V为文档中无重复的词语的数量;
S302,对于每一个主题,从参数为β的Dirichlet先验分布中抽样,并作为1个多项分布φz,重复K次;对于每一个主题,从参数为λ的Dirichlet先验分布中抽样,并作为1个多项分布重复K次;对于每一个文档,从参数为α的Dirichlet先验分布中抽样,并作为1个多项分布θd;其中,φz为主题z中的词分布;为地理信息和主题z的多项式分布;θd为文档d中的主题分布;
S303,分别从多项分布φz、和θd中取样,直到多项分布φz、和θd中的每个词都被提取出来,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系,重建θd,φzdi(φz)和具体包括如下步骤:
S3031,从多项分布θd中抽取一个主题,获得zdi,即获得第d个文档中第i个词来自的主题。
S3032,从多项分布φzdi中抽取一个词,获得wdi,即获得主题对应的第d个文档中第i个词。
S3033,从多项分布中抽取一个地理位置,获得ldi,即获得第d个文档中第i个词的地理位置。
S3034,重复步骤S3031~S3033Nd次,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系;其中,Nd为文档中词的个数。
S304,重复步骤S301~S303,直到处理数据中的文档全部处理结束,构建地理主题模型完成。
地理主题模型构建的目标是根据已有的文档信息(处理数据)重建θd,φzdi和而难点在于每个词wdi对应的主题zdi是未知的(z是隐藏变量)。zdi为第d个文档中第i个词生成自哪个主题。构建加入地理信息后的地理主题模型后,下一步便是对模型进行求解和参数推断的过程。根据上述分析可以看出,主题的后验分布不仅依赖于词的分布,还依赖于其地理位置的分布。本发明采用Gibbssampling方法来进行模型训练和参数推断,在Gibbssampling方法中,主要需要计算条件概率P(zdi|w,t,z-di,α,β,λ),其中z-di表示去除下标为di的其他主题集合。在本发明所提供的实施例中,主要基于Dirichlet-Multinomial共轭,采用联合概率分布过程及马氏链的一些结论进行推导,采用的条件概率公式如下:
其中,zdi表示第d个文档中第i个词来自的主题,z-di表示去除下标为di的其他主题集合,α为文档中主题分布的先验分布的超参数,β为主题中词分布的先验分布的超参数,λ为地理位置与主题服从多项式分布的先验分布超参数,K为文档中的主题数目,V为文档中的无重复的词数目,z为文档中无重复的主题索引,l为文档中无重复的地理位置索引,ndz表示主题z分配到文档d下的数目,nzv表示词语v被分配到主题z下的数目,nzl表示地理信息l被分配到主题z下的数目,以此类推。
仔细观察上述结果,可以发现式子的右半部分便是P(topic|doc)*(word|topic)*P(location|topic),这个概率的值对应着doc->topic->word+location的路径概率。因此,如图7所示,K个topic对应着K条路径,Gibbssampling便是在这K条路径中进行采样,得到主题和地理位置的关联关系,具体包括如下步骤:
S311,获取地理主题模型中重建的θd,φzdi和
S312,根据条件概率公式以及θd,φzdi和中的数据信息计算文档->主题->词+地理位置的路径概率。其中,条件概率公式为:
其中,zdi表示第d个文档中第i个词来自的主题,z-di表示去除下标为di的其他主题集合,α为文档中主题分布的先验分布的超参数,β为主题中词分布的先验分布的超参数,λ为地理位置与主题服从多项式分布的先验分布超参数,K为文档中的主题数目,V为文档中的无重复的词数目,z为文档中无重复的主题索引,l为文档中无重复的地理位置索引,ndz表示主题z分配到文档d下的数目,nzv表示词语v被分配到主题z下的数目,nzl表示地理信息l被分配到主题z下的数目,以此类推。
S313,根据得到的文档->主题->词+地理位置的路径概率的大小,选出文档中K个主题对应的K条路径;
S314,在这K条路径中进行采样,得到主题和地理位置的关联关系。
在这K条路径中进行采样,每条路径对应着一个主题与地理位置的关联关系。K条路径代表着文档中K个主题与地理位置的对应关系。
在本发明所提供的实施例中,地理主题模型需要设置的参数主要有主题的数目K、Dirichlet超参数α、Dirichlet超参数β、Dirichlet超参数λ和采样过程的迭代次数。在课题标题的主题模型训练中,我们按照以往实验经验固定主题的数目K=100,训练的迭代次数为1000。Dirichlet超参数α和Dirichlet超参数β使用对称参数,没有考虑非对称参数,这里主要是考虑到对称超参数的地理主题模型模型实现简单,运行效率高。在确定超参数的值之前,先简单说明一下超参数的含义。
Dirichlet超参数的意义是对多项式分布的参数做平滑处理。设置一个小的α、β、λ会减弱多项式分布参数的平滑性,导致主题的分配具有更多的确定性,因此θ、φ、会变得稀疏。φ的稀疏性由β控制,θ的稀疏性由α控制,的稀疏性由λ控制。在普通文档集合上训练地理主题模型时,根据实验经验设置α=50/K,β=0.01,λ=0.1时模型的有较好的建模效果。但是,课题标题的文档长度通常都很短,因此在对课题标题数据集做主题挖掘时,设置一个较α=0.1,使得θ比较稀疏,即课题标题的主题会集中到某几个主题上,这样更加合理。β仍然按照经验值设置为0.01,λ=0.1,设定100个topic和1000次迭代过程,采用地理主题模型对数据进行分析后得到100个主题,选取41个具有明显解释意义的主题进行分析和展示。表3列出了6个主题的关键词及其概率:
表3地理主题模型结果展示表
选择大功率电机主题Topic17,其主题-地理位置分布的直方图如图6所示,可以看出大功率电机在第二个地区(北京市)的分布是最多的,也就是说关于这个方向的研究课题国家主要研究是在北京市。通过实验验证,本发明的采样及参数选定过程都是正确的,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系,可以获得很高的准确率。
S4,将主题和地理位置的关联关系通过地图着色的方式进行展示。
采集生成的主题-地理位置矩阵数据,按照主题在各个地理位置的分布概率的大小在地图上进行展示,从而能够直观地看出主题的地理分布。
综上所述,本发明所提供的基于地理主题模型的信息处理方法,基于LDA主题模型,加入地理信息因素,将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析,得到课题信息中的主要研究方向,以及各个主题在全国各个省市的研究占比,从而能够为用户提供更好的决策支持。在很多信息挖掘过程中,特别是对科研课题项目进行信息挖掘时,起到至关重要的作用。
上面对本发明所提供的基于地理主题模型的信息处理方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (7)
1.一种基于地理主题模型的信息处理方法,其特征在于包括如下步骤:
S1,抽取文本数据以及其所属的地理位置信息,组成待处理的文本数据存储到数据库;
S2,对数据库中待处理的文本数据进行预处理,生成处理数据;
S3,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的关联关系。
2.如权利要求1所述的基于地理主题模型的信息处理方法,其特征在于在步骤S2中,对数据库中待处理的文本数据进行预处理,生成处理数据,包括如下步骤:
S21,从数据库中获取待处理的文本数据;
S22,采用NLPIR汉语分词系统对待处理的文本数据进行分词,去掉所有非中文字符;
S23,统计每个词语出现的词频,把词频小于词频阈值的词语作为低频词语进行过滤,同时将过滤掉的词语加入低频词表;
S24,获取停用词表,通过停用词表将分词获取的词语进行二次过滤,得到处理数据;
S25,重复步骤S21~S24,直至数据库中没有待处理的文本数据。
3.如权利要求1所述的基于地理主题模型的信息处理方法,其特征在于在步骤S3中,所述根据处理数据构建地理主题模型,包括如下步骤:
S301,设定处理数据中每个文档的主题数为K,αi(i=1,2,3……K)为文档中主题分布的先验分布的参数,βi(i=1,2,3……V)为主题中词分布的先验分布的参数,V为文档中无重复的词语的数量;
S302,对于每一个主题,从超参数为β的先验分布中抽样,并作为1个多项分布重复K次;对于每一个主题,从超参数为λ的先验分布中抽样,并作为1个多项分布重复K次;对于每一个文档,从超参数为α的先验分布中抽样,并作为1个多项分布θd;其中,φz为主题z中的词分布;为地理信息和主题z的多项式分布;θd为文档d中的主题分布;
S303,分别从多项分布φz、和θd中取样,直到多项分布φz、和θd中的每个词都被提取出来,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系,重建θd、φz和
S304,重复步骤S301~S303,直到处理数据中的文档全部处理结束,构建地理主题模型完成。
4.如权利要求3所述的基于地理主题模型的信息处理方法,其特征在于在步骤S303中,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系,重建θd、φz和包括如下步骤:
S3031,从多项分布θd中抽取一个主题,获得zdi,即获得第d个文档中第i个词来自的主题;
S3032,从多项分布φz中抽取一个词,获得wdi,即获得主题对应的第d个文档中第i个词;
S3033,从多项分布中抽取一个地理位置,获得ldi,即获得第d个文档中第i个词的地理位置;
S3034,重复步骤S3031~S3033Nd次,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的对应关系;其中,Nd为文档中词的个数。
5.如权利要求1所述的基于地理主题模型的信息处理方法,其特征在于在步骤S3中,所述通过对地理主题模型求解,得到主题和地理位置的关联关系,包括如下步骤:
S311,获取地理主题模型中重建的θd、φz和
S312,根据条件概率公式以及θd、φz和中的数据信息计算文档->主题->词+地理位置的路径概率
S313,根据得到的文档->主题->词+地理位置的路径概率的大小,选出文档中K个主题对应的K条路径;
S314,在这K条路径中进行采样,得到主题和地理位置的关联关系。
6.如权利要求5所述的一种基于地理主题模型的信息处理方法,其特征在于:
所述条件概率公式为:
其中,zdi表示第d个文档中第i个词来自的主题,z-di表示去除下标为di的其他主题集合,α为文档中主题分布的先验分布的超参数,β为主题中词分布的先验分布的超参数,λ为地理位置与主题服从多项式分布的先验分布超参数,K为文档中的主题数目,V为文档中的无重复的词数目,z为文档中无重复的主题索引,l为文档中无重复的地理位置索引,ndz表示主题z分配到文档d下的数目,nzv表示词语v被分配到主题z下的数目,nzl表示地理信息l被分配到主题z下的数目。
7.如权利要求1所述的基于地理主题模型的信息处理方法,其特征在于,还包括如下步骤:
S4,将主题和地理位置的关联关系通过地图着色的方式进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610056525.6A CN105512347A (zh) | 2016-01-27 | 2016-01-27 | 一种基于地理主题模型的信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610056525.6A CN105512347A (zh) | 2016-01-27 | 2016-01-27 | 一种基于地理主题模型的信息处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105512347A true CN105512347A (zh) | 2016-04-20 |
Family
ID=55720327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610056525.6A Pending CN105512347A (zh) | 2016-01-27 | 2016-01-27 | 一种基于地理主题模型的信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512347A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095776A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种对用户进行主题挖掘和应用推荐的方法 |
CN106874203A (zh) * | 2017-02-15 | 2017-06-20 | 南京大学 | 一种基于缺陷报告文本主题分析的缺陷定位方法 |
CN106919680A (zh) * | 2017-02-28 | 2017-07-04 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
CN107247701A (zh) * | 2017-05-04 | 2017-10-13 | 厦门快商通科技股份有限公司 | 用于语料库的主题聚类模型构建系统及其构建方法 |
CN109344212A (zh) * | 2018-08-24 | 2019-02-15 | 武汉中地数码科技有限公司 | 一种面向主题特征的地理大数据挖掘推荐的方法及系统 |
CN109947873A (zh) * | 2017-08-14 | 2019-06-28 | 清华大学 | 景点知识地图构建方法、装置、设备及可读存储介质 |
CN110390061A (zh) * | 2019-07-29 | 2019-10-29 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN111625819A (zh) * | 2020-05-26 | 2020-09-04 | 北京思特奇信息技术股份有限公司 | 一种防止客户端使用外挂的方法和系统 |
CN112510684A (zh) * | 2020-11-13 | 2021-03-16 | 安徽电力交易中心有限公司 | 一种相邻增量配电网的可中断负荷配置方法 |
CN113487143A (zh) * | 2021-06-15 | 2021-10-08 | 中国农业大学 | 鱼群投喂决策方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488769A (zh) * | 2013-09-27 | 2014-01-01 | 中国科学院自动化研究所 | 一种基于多媒体数据挖掘的地标信息检索方法 |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN105224675A (zh) * | 2015-10-13 | 2016-01-06 | 广西师范学院 | 一种顾及时空效应的微博主题提取方法 |
-
2016
- 2016-01-27 CN CN201610056525.6A patent/CN105512347A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488769A (zh) * | 2013-09-27 | 2014-01-01 | 中国科学院自动化研究所 | 一种基于多媒体数据挖掘的地标信息检索方法 |
CN103778207A (zh) * | 2014-01-15 | 2014-05-07 | 杭州电子科技大学 | 基于lda的新闻评论的话题挖掘方法 |
CN105224675A (zh) * | 2015-10-13 | 2016-01-06 | 广西师范学院 | 一种顾及时空效应的微博主题提取方法 |
Non-Patent Citations (1)
Title |
---|
段炼等: "基于时空主题模型的微博主题提取", 《武汉大学学报信息科学版》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095776B (zh) * | 2016-05-25 | 2019-10-01 | 中山大学 | 一种对用户进行主题挖掘和应用推荐的方法 |
CN106095776A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种对用户进行主题挖掘和应用推荐的方法 |
CN106874203B (zh) * | 2017-02-15 | 2019-11-12 | 南京大学 | 一种基于缺陷报告文本主题分析的缺陷定位方法 |
CN106874203A (zh) * | 2017-02-15 | 2017-06-20 | 南京大学 | 一种基于缺陷报告文本主题分析的缺陷定位方法 |
CN106919680A (zh) * | 2017-02-28 | 2017-07-04 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
CN106919680B (zh) * | 2017-02-28 | 2019-06-28 | 山东师范大学 | 一种利用poi数据进行地表覆盖分类的方法及系统 |
CN107247701A (zh) * | 2017-05-04 | 2017-10-13 | 厦门快商通科技股份有限公司 | 用于语料库的主题聚类模型构建系统及其构建方法 |
CN109947873A (zh) * | 2017-08-14 | 2019-06-28 | 清华大学 | 景点知识地图构建方法、装置、设备及可读存储介质 |
CN109344212A (zh) * | 2018-08-24 | 2019-02-15 | 武汉中地数码科技有限公司 | 一种面向主题特征的地理大数据挖掘推荐的方法及系统 |
CN110390061A (zh) * | 2019-07-29 | 2019-10-29 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN110390061B (zh) * | 2019-07-29 | 2020-07-21 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN111625819A (zh) * | 2020-05-26 | 2020-09-04 | 北京思特奇信息技术股份有限公司 | 一种防止客户端使用外挂的方法和系统 |
CN111625819B (zh) * | 2020-05-26 | 2023-04-28 | 北京思特奇信息技术股份有限公司 | 一种防止客户端使用外挂的方法和系统 |
CN112510684A (zh) * | 2020-11-13 | 2021-03-16 | 安徽电力交易中心有限公司 | 一种相邻增量配电网的可中断负荷配置方法 |
CN112510684B (zh) * | 2020-11-13 | 2023-10-13 | 安徽电力交易中心有限公司 | 一种相邻增量配电网的可中断负荷配置方法 |
CN113487143A (zh) * | 2021-06-15 | 2021-10-08 | 中国农业大学 | 鱼群投喂决策方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512347A (zh) | 一种基于地理主题模型的信息处理方法 | |
Globerson et al. | Collective entity resolution with multi-focal attention | |
Liu et al. | A dependency-based neural network for relation classification | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN113065003B (zh) | 一种基于多指标的知识图谱生成方法 | |
CN103324700B (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN104572849A (zh) | 基于文本语义挖掘的标准化自动建档方法 | |
CN107679035B (zh) | 一种信息意图检测方法、装置、设备和存储介质 | |
Mahmud et al. | Reason based machine learning approach to detect bangla abusive social media comments | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Kathuria et al. | Real time sentiment analysis on twitter data using deep learning (Keras) | |
Yan et al. | Enhancing large language model capabilities for rumor detection with knowledge-powered prompting | |
Lian et al. | Knowledge graph construction based on judicial data with social media | |
Kamalabalan et al. | Tool support for traceability of software artefacts | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN112732969A (zh) | 图像语义分析方法、装置、存储介质及电子设备 | |
Dai et al. | Event temporal relation classification based on graph convolutional networks | |
Munot et al. | Conceptual framework for abstractive text summarization | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
Mir et al. | Multi-Level Knowledge Engineering Approach for Mapping Implicit Aspects to Explicit Aspects. | |
Amato et al. | A hybrid approach for document analysis in digital forensic domain | |
CN111723297B (zh) | 一种面向网格社情研判的双重语义相似度判别方法 | |
Zheng et al. | Topic sentiment trend model: modeling facets and sentiment dynamics | |
Jaradeh et al. | Aremotive bridging the gap: Automatic ontology augmentation using zero-shot classification for fine-grained sentiment analysis of Arabic text | |
Ma et al. | Hybrid syntactic graph convolutional networks for Chinese event detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160420 |
|
RJ01 | Rejection of invention patent application after publication |