CN106802940B - 一种计算文本主题模型的方法及装置 - Google Patents

一种计算文本主题模型的方法及装置 Download PDF

Info

Publication number
CN106802940B
CN106802940B CN201611261218.8A CN201611261218A CN106802940B CN 106802940 B CN106802940 B CN 106802940B CN 201611261218 A CN201611261218 A CN 201611261218A CN 106802940 B CN106802940 B CN 106802940B
Authority
CN
China
Prior art keywords
text
training
target
word
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611261218.8A
Other languages
English (en)
Other versions
CN106802940A (zh
Inventor
赵耕弘
张霞
赵立军
崔朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201611261218.8A priority Critical patent/CN106802940B/zh
Publication of CN106802940A publication Critical patent/CN106802940A/zh
Application granted granted Critical
Publication of CN106802940B publication Critical patent/CN106802940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种计算文本主题模型的方法及装置,方法包括:获取目标文本,所述目标文本中含有多个目标词;获取训练文本集合中每个训练文本的训练主题的分布概率;获取所述训练文本集合中每个训练主题的训练词的分布概率;基于所述训练文本集合中每个训练主题的训练词的分布概率,获取每个所述训练主题中每个所述目标词的分布概率,其中的目标词为出现在所述训练词中的词;获取所述训练文本集合各个所述训练主题的分布概率;获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率;获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型。

Description

一种计算文本主题模型的方法及装置
技术领域
本申请涉及虚拟机技术领域,特别涉及一种计算文本主题模型的方法及装置。
背景技术
在自然语言处理过程中,文档对于计算机来说通常被当做是一个无限维度的向量,而这种无限维度的向量对于计算机本身又是不可被计算的,因此,需要对文档中的文本进行一些处理后,让它以一定维度的数学向量存储在计算机中以便计算。
在现有计算中,主题模型(topic model)是一种常见的文档降维方法。主题模型可以不同于普通词频而在语义上做出一些语言含义的抽取。通常主题模型通过词袋的形式,将表达同一含义或者相同状况的描述的词的集合来表示某一个主题topic。
而主题模型在业内通常被运用于长文本上,即字数较多的文本,计算主题模型的方案原理上是基于现有的基于词的共现来抽取相同含义的词来实现,使得计算效果较好,但由于字数较少的文本的词量过少,采用现有的主题模型的计算方案对字数较少的文本进行主题模型计算时,由于词的共现次数较小,会导致主题模型的计算不准确的情况。
发明内容
有鉴于此,本申请的目的在于提供一种计算文本主题模型的方法及装置,用以解决现有技术中对短文本的主题模型计算不准确的技术问题。
本申请提供了一种计算文本主题模型的方法,包括:
获取目标文本,所述目标文本中含有多个目标词;
获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d);
获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t);
基于所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),P2(w|t)中的目标词为出现在所述训练词中的词;
利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
利用获取所述目标文本中每个所述目标词为各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
上述方法,优选的,所述获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d),包括:
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率。
上述方法,优选的,所述获取所述训练文本集合中每个训练主题的训练词的分布概率P(w|t),包括:
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
上述方法,优选的,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
上述方法,优选的,还包括:
利用所述目标文本的主题模型,对文本进行主题的计算。
本申请还提供了一种计算文本主题模型的装置,包括:
目标获取单元,用于获取目标文本,所述目标文本中含有多个目标词;
第一训练单元,用于获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d);
第二训练单元,用于获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t);
第一概率获取单元,用于基于所述训练文本集合中每个所述训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),其中,P2(w|t)中的目标词为出现在所述训练词中的词;
第二概率获取单元,用于利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
第三概率获取单元,用于利用获取所述目标文本中每个所述目标词为各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
模型获取单元,用于利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
上述装置,优选的,所述第一训练单元具体用于:利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率。
上述装置,优选的,所述第二训练单元具体用于:利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
上述装置,优选的,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
上述装置,优选的,还包括:
主题计算单元,用于在模型获取单元得到所述目标文本的主题模型之后,利用所述目标文本的主题模型,对文本进行主题的计算。
由上述方案可知,本申请提供的一种计算文本主题模型的方法及装置,利用贝叶斯理论,基于训练语料的主题模型来计算文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,而这种主题模型的计算方案中,由于文本都是在一个范围内的词构建主题模型,相应的主题范围自然在同一维度,因此本申请所得到的主题模型在适用于字数较多的文本主题计算的同时,同样不会因为字数较少的文本中词的共现次数较小,会导致主题模型的计算不准确的情况,由此,本申请所计算出的主题模型的准确性会更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例一提供的一种计算文本主题模型的方法的流程图;
图2为本申请实施例一的另一流程图;
图3为本申请实施例的应用示例图;
图4为本申请实施例二提供的一种计算文本主题模型的装置的结构示意图;
图5为本申请实施例二的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请中利用贝叶斯理论,基于训练语料的主题模型来计算短文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,具体如下:
参考图1,为本申请实施例一提供的一种计算文本主题模型的方法的流程图,其中,适用于对文本的主题模型的计算,特别是能够准确计算字数较少的文本如字数少于140字的文本的主题模型,以便于对字数较少的文本进行主题计算。
具体的,本实施例中,该方法可以包括以下步骤:
步骤101:获取目标文本。
其中,目标文本中含有多个目标词。目标文本可以为twiter、微博、公司通知或法院判决书等文本内容,文本中包含多个目标词,如足球、球员、贷款、货币等词。
本实施例中的目标文本可以为字数较多的长文本,如公司通知或法院判决书等;也可以为字数较少的短文本,如twiter、微博、INS或影评的状态文本等。
步骤102:获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d)。
其中,本实施例中可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个训练文本中关于各个训练主题的分布概率。
需要说明的是,训练文本集合中的训练文本可以为历史优良的语料文本,以便于计算出高质量的P(t|d)。如字数较多的公司通知或法院判决书等。
其中,训练是指基于现有的主题模型计算方法通过迭代运算得到主题模型的过程。也就是说,本实施例中是基于训练得到的主题模型来对目标文本的主题模型进行计算,而计算得到的主题模型可以用来对文本的主题进行获取。
具体的,本实施例中在对训练文本进行训练获取P(t|d)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法或LDA(LatentDirichlet Allocation)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练文本的训练主题的分布概率P(t|d)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P(t|d)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个文本d,并且每一行所有的概率值加在一起的和为1;每一列表示一个主题t,比如说:v13表示主题t3在文本d1的出现概率值。这个值表示的实际意义就是为了构建文本d1内容时,主题t3的出现概率值。
步骤103:获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t)。
其中,本实施例中可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
具体的,本实施例中在对训练文本进行训练获取P1(w|t)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法、LDA(Latent DirichletAllocation)主题模型计算方法或SVD(Singular value decomposition)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P1(w|t)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个主题t,并且每一行所有的概率值加在一起的和为1;每一列表示一个词w,比如说,v32表示词w2在主题t3的出现概率值。这个值表示的实际意义就是为了表示当前主题t3的含义,词w2的出现概率值。
步骤104:基于所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),P2(w|t)中的目标词为出现在所述训练词中的词。
具体的,本实施例中,可以在每个训练主题的训练词中,查找与目标文本中的目标词相同的词,并提取出查找到的词对应的分布概率P1(w|t),由此得到查找到的与目标词相同的词的分布概率P2(w|t),即每个训练主题中每个目标词的分布概率。
也就是说,本实施例中将P1(w|t)中与目标词不相同的词对应的分布概率值剔除,剩下与目标词相同的词对应的分布概率值,得到P2(w|t)。P2(w|t)为P1(w|t)的至少一部分。例如,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)中为5个训练词:w1、w2、w3、w4、w5分别为3个训练主题t1、t2、t3的概率集合,如前文中P1(w|t)矩阵所示,如果目标文本中的目标词有w2、w3、w4,由此,P2(w|t)中为3个目标词:w2、w3、w4分别为3个训练主题t1、t2、t3的概率集合,其矩阵表示如下:
由此可知,P2(w|t)为P1(w|t)的一部分,而如果目标文本中的目标词有w1、w2、w3、w4、w5,那么P2(w|t)则与P1(w|t)相同。
步骤105:利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t)。
其中,D为所述训练文本集合,P(d)预设为1。也就是说,本实施例中将训练文本集合中的每个训练文本中各个主题的分布概率以训练文本d为单位进行加和,即将D中的所有训练文本中针对每个训练主题进行分布概率值的叠加,得到整个训练文本集合中各个训练主题的分布概率P(t)。
需要说明的是,P(d)表示训练文本的出现概率,而本实施例中,可以先验的认为,所有文本的出现概率服从独立同分布(independent and identically distributed),简写为(i.i.d)。也就是说,本实施例可以将此值赋值为相同数值。为了方便计算,统一在此将P(d)赋值为1。
步骤106:利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w)。
其中的P2(w|t)为每个训练主题的每个目标词的分布概率,P(w)是每个所述目标词在所述训练文本集合中的分布概率,即目标词在训练文本集合中的词频。
步骤107:利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型。
其中,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
也就是说,本实施例中将每个目标词w在训练主题t的分布概率进行加积计算,即可得到目标文本中各个训练主题t的分布概率,即为目标文本的主题模型,达到本实施例的目的。
由上述方案可知,本申请实施例一提供的一种计算文本主题模型的方法,利用贝叶斯理论,基于训练语料的主题模型来计算文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,而这种主题模型的计算方案中,由于文本都是在一个范围内的词构建主题模型,相应的主题范围自然在同一维度,因此本申请所得到的主题模型在适用于字数较多的文本主题计算的同时,同样不会因为字数较少的短文本中词的共现次数较小,会导致主题模型的计算不准确的情况,由此,本申请所计算出的主题模型的准确性会更高。
在利用本实施例方案获得目标文本的主题模型之后,可以用来计算文本的主题,如图2中所示,在所述步骤107之后,所述方法还可以包括以下步骤:
步骤108:利用目标文本的主题模型,对文本进行主题的计算。
其中,本实施例中需要计算主题的文本可以为目标文本,也可以为其他的文本。而这些文本即可以为字数较少的短文本,也可以为字数较多的长文本。也就是说,虽然本实施例中计算出的主题模型可能是短文本的主题模型,但是由于这种计算方案中,所有的文本都是在一个范围内的词构建主题模型,相应的主题范围自然也在同一纬度,因此,本实施例所得到的主题模型适用于长文本主题计算中。
由前文可知,本实施例中的方案不仅适用于对字数较少的文本的主题模型的计算,也适用于对字数较多的文本的主题模型的计算。
因为训练主题模型是一个计算量很大的运算,尤其是大规模文本时以天计算时间也是有可能的。并且对于主题模型训练之前的参数设计本身也是一个很难确定的过程。多数情况下都是通过设定不同的参数得到多个模型结果之后再通过一些运算确定一个质量好一些的结果。而这样通常就会花费更多的时间。因此,在对字数较多的文本进行主题模型的计算时,可以不采用现有技术中的LDA或者PLSA等算法进行较为负载的计算流程,而是直接基于本实施例中历史优良语料训练得到的主题模型计算文本的主题模型。也就是说,将一个内容足够丰富的语料库训练一个质量优良的主题模型,之后可以对其他语料集中的文本计算主题分布,这样可以大大缩短提取其他语料库主题模型的时间,提高效率。
为了证明本实施例所计算出的主题模型的质量的可靠性,可以基于信息熵的困惑度来证明当前结果和正常计算出的主题模型的差异,例如以以下计算公式计算信息熵的困惑度:
以600个电影的22万条评论作为实验数据,在初始的训练文本集合模型计算中,将每个电影的所有评论作为一个大文本来计算主题模型。之后,通过这个结果结合本实施例中的方法计算每条评论的主题分布。之后作为baseline,直接讲每条评论作为独立文本计算主题模型。
如图3中所示,为以上三种结果计算困惑度的值的图示:
最左边A为将每个电影的所有评论作为一个大文本计算主题模型的整体困惑度。中间B为本实施例中的方案计算的每条评论的整体困惑度。最右边C为每条评论作为独立文本计算主题模型之后计算的困惑度。由困惑度定义所说,困惑度越小,主题模型质量越好的理论,由实验证明出本实施例中的方案计算的短文本主题模型质量是优良的,弥补了短文本主题模型的计算的实现空白。
参考图4,为本申请实施例二提供的一种计算文本主题模型的装置的结构示意图,其中,适用于对文本的主题模型的计算,特别是能够准确计算字数较少的文本如字数少于140字的文本的主题模型,以便于对字数较少的文本进行主题计算。
具体的,本实施例中,该装置可以包括以下结构:
目标获取单元401,用于获取目标文本。
其中,目标文本中含有多个目标词。目标文本可以为twiter、微博、公司通知或法院判决书等文本内容,文本中包含多个目标词,如足球、球员、贷款、货币等词。
本实施例中的目标文本可以为字数较多的长文本,如公司通知或法院判决书等;也可以为字数较少的短文本,如twiter、微博、INS或影评的状态文本等。
第一训练单元402,用于获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d)。
其中,本实施例中,第一训练单元402可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个训练文本中关于各个训练主题的分布概率。
需要说明的是,训练文本集合中的训练文本可以为历史优良的语料文本,以便于计算出高质量的P(t|d)。如字数较多的公司通知或法院判决书等。
其中,训练是指基于现有的主题模型计算方法通过迭代运算得到主题模型的过程。也就是说,本实施例中是基于训练得到的主题模型来对目标文本的主题模型进行计算,而计算得到的主题模型可以用来对文本的主题进行获取。
具体的,本实施例中第一训练单元402在对训练文本进行训练获取P(t|d)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法或LDA(LatentDirichlet Allocation)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练文本的训练主题的分布概率P(t|d)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P(t|d)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个文本d,并且每一行所有的概率值加在一起的和为1;每一列表示一个主题t,比如说:v13表示主题t3在文本d1的出现概率值。这个值表示的实际意义就是为了构建文本d1内容时,主题t3的出现概率值。
第二训练单元403,用于获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t)。
其中,本实施例中,第二训练单元403可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
具体的,本实施例中,第二训练单元403在对训练文本进行训练获取P1(w|t)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法、LDA(LatentDirichlet Allocation)主题模型计算方法或SVD(Singular value decomposition)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P1(w|t)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个主题t,并且每一行所有的概率值加在一起的和为1;每一列表示一个词w,比如说,v32表示词w2在主题t3的出现概率值。这个值表示的实际意义就是为了表示当前主题t3的含义,词w2的出现概率值。
第一概率获取单元404,用于基于所述训练文本集合中每个所述训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t)。
具体的,本实施例中,可以在每个训练主题的训练词中,查找与目标文本中的目标词相同的词,并提取出查找到的词对应的分布概率P1(w|t),由此得到查找与目标词相同的词的分布概率P2(w|t),即每个训练主题中每个目标词的分布概率。
也就是说,本实施例中将P1(w|t)中与目标词不相同的词对应的分布概率值剔除,剩下与目标词相同的词对应的分布概率值,得到P2(w|t)。P2(w|t)为P1(w|t)的至少一部分。例如,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)中为5个训练词:w1、w2、w3、w4、w5分别为3个训练主题t1、t2、t3的概率集合,如前文中P1(w|t)矩阵所示,如果目标文本中的目标词有w2、w3、w4,由此,P2(w|t)中为3个目标词:w2、w3、w4分别为3个训练主题t1、t2、t3的概率集合,其矩阵表示如下:
由此可知,P2(w|t)为P1(w|t)的一部分,而如果目标文本中的目标词有w1、w2、w3、w4、w5,那么P2(w|t)则与P1(w|t)相同。
第二概率获取单元405,用于利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t)。
其中,D为所述训练文本集合,P(d)预设为1。也就是说,本实施例中将训练文本集合中的每个训练文本中各个主题的分布概率以训练文本d为单位进行加和,即将D中的所有训练文本中针对每个训练主题进行分布概率值的叠加,得到整个训练文本集合中各个训练主题的分布概率P(t)。
需要说明的是,P(d)表示训练文本的出现概率,而本实施例中,可以先验的认为,所有文本的出现概率服从独立同分布(independent and identically distributed),简写为(i.i.d)。也就是说,本实施例可以将此值赋值为相同数值。为了方便计算,统一在此将P(d)赋值为1。
第三概率获取单元406,用于利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w)。
其中的P2(w|t)为每个训练主题的每个目标词的分布概率,P(w)是每个所述目标词在所述训练文本集合中的分布概率,即目标词在训练文本集合中的词频。
模型获取单元407,用于利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型。
其中,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
也就是说,本实施例中将每个目标词w在训练主题t的分布概率进行加积计算,即可得到目标文本中各个训练主题t的分布概率,即为目标文本的主题模型,达到本实施例的目的。
由上述方案可知,本申请实施例二提供的一种计算文本主题模型的装置,利用贝叶斯理论,基于训练语料的主题模型来计算文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,而这种主题模型的计算方案中,由于文本都是在一个范围内的词构建主题模型,相应的主题范围自然在同一维度,因此本申请所得到的主题模型在适用于字数较多的长文本主题计算的同时,同样不会因为字数较少的短文本中词的共现次数较小,会导致主题模型的计算不准确的情况,由此,本申请所计算出的主题模型的准确性会更高。
在利用本实施例中的装置获得目标文本的主题模型之后,可以用来计算文本的主题,如图5中所示,该装置还可以包括以下结构:
主题计算单元408,用于在模型获取单元407得到所述目标文本的主题模型之后,利用所述目标文本的主题模型,对新的目标文本进行主题的计算。
其中,本实施例中需要计算主题的文本可以为目标文本,也可以为其他的文本。而这些文本即可以为字数较少的短文本,也可以为字数较多的长文本。也就是说,虽然本实施例中计算出的主题模型可能是短文本的主题模型,但是由于这种计算方案中,所有的文本都是在一个范围内的词构建主题模型,相应的主题范围自然也在同一纬度,因此,本实施例所得到的主题模型在适用于长文本主题计算中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上对本申请所提供的一种计算文本主题模型的方法及装置进行了详细介绍,对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种计算文本主题模型的方法,其特征在于,包括:
获取目标文本,所述目标文本中含有多个目标词;
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率P(t|d);
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率P1(w|t);
基于所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),P2(w|t)中的目标词为出现在所述训练词中的词;
利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
2.根据权利要求1所述的方法,其特征在于,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
3.根据权利要求1所述的方法,其特征在于,还包括:
利用所述目标文本的主题模型,对文本进行主题的计算。
4.一种计算文本主题模型的装置,其特征在于,包括:
目标获取单元,用于获取目标文本,所述目标文本中含有多个目标词;
第一训练单元,用于利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率P(t|d);
第二训练单元,用于利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率P1(w|t);
第一概率获取单元,用于基于所述训练文本集合中每个所述训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),其中,P2(w|t)中的目标词为出现在所述训练词中的词;
第二概率获取单元,用于利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
第三概率获取单元,用于利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
模型获取单元,用于利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
5.根据权利要求4所述的装置,其特征在于,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
6.根据权利要求4所述的装置,其特征在于,还包括:
主题计算单元,用于在模型获取单元得到所述目标文本的主题模型之后,利用所述目标文本的主题模型,对文本进行主题的计算。
CN201611261218.8A 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置 Active CN106802940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611261218.8A CN106802940B (zh) 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611261218.8A CN106802940B (zh) 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置

Publications (2)

Publication Number Publication Date
CN106802940A CN106802940A (zh) 2017-06-06
CN106802940B true CN106802940B (zh) 2019-06-07

Family

ID=58985341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611261218.8A Active CN106802940B (zh) 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置

Country Status (1)

Country Link
CN (1) CN106802940B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN108288172A (zh) * 2017-12-21 2018-07-17 深圳市金立通信设备有限公司 广告dsp定向投放广告的方法及终端
CN113449511B (zh) * 2020-03-24 2023-06-09 百度在线网络技术(北京)有限公司 文本处理的方法、装置、设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493B (zh) * 2009-06-29 2012-07-04 中国科学技术大学 文本分类方法
CN102214233B (zh) * 2011-06-28 2013-04-10 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103345474B (zh) * 2013-07-25 2017-02-08 苏州大学 一种文档主题的在线追踪方法
CN104536979B (zh) * 2014-12-05 2018-05-01 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN105975499B (zh) * 2016-04-27 2019-06-25 深圳大学 一种文本主题检测方法及系统

Also Published As

Publication number Publication date
CN106802940A (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN109918657A (zh) 一种从文本中提取目标关键词的方法
US10831793B2 (en) Learning thematic similarity metric from article text units
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
CN103678277A (zh) 基于文档分段的构建主题-词汇分布的方法及系统
CN108170656A (zh) 模板创建方法、文档创建方法、渲染方法和装置
CN106802940B (zh) 一种计算文本主题模型的方法及装置
CN109582948B (zh) 评价观点抽取的方法及装置
CN102930048B (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN110287324A (zh) 一种针对粗粒度文本分类的数据动态标注方法及装置
CN105205043A (zh) 一种新闻读者情绪的分类方法与系统
CN106610931A (zh) 话题名称的提取方法及装置
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN109388801A (zh) 相似词集合的确定方法、装置和电子设备
CN109472021A (zh) 基于深度学习的医学文献中关键句筛选方法及装置
TW201923629A (zh) 資料處理方法及裝置
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN109960815A (zh) 一种神经机器翻译nmt模型的创建方法及系统
CN106843820A (zh) 代码处理方法和装置
CN107590119B (zh) 人物属性信息抽取方法及装置
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
WO2020063524A1 (zh) 一种法律文书的确定方法及系统
CN108875743A (zh) 一种文本识别方法及装置
CN104077274B (zh) 一种从文档集中抽取热词短语的方法和装置
CN106469143A (zh) 文档结构的估计
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant